编程珠玑开篇--磁盘文件排序问题

news/2024/6/29 2:10:01

 

  编程珠玑开篇--磁盘文件排序问题——转自http://blog.csdn.net/fisher_jiang/ 

 

输入:

所输入的文件,至多包含n个正整数,每个正整数都小于n,题目中n = 10^7,如果输入时某个正整数重复出现俩次,就会产生致命的错误,这些整数,与其他任何数据都不相关.

输出:

以增序形式输出经过排序的整数列表

约束

至多只有1MB(包括程序本身)可用的主存,但是可以用的磁盘空间是充足的,运行时间至多几分钟,10秒针是最适宜的运行时间.

作者第一个方案使用基于磁盘的合并排序.将每个号码用32位整数表示,可以在1MB的空间里存储250000个号码,使用一个带有40个通道的程序,在第一个通道中将前250000的任意整数读入内存,并对它们进行排序,可以使用高效的快速排序,但是完成整个任务,我们要牺牲读文件40次的代价.最后作者引出了另外一种解决方案位图和位向量:

我们可以用一个20位的字符串可以表示小于20的非负数集合.例如,我们可以将集合{1,2,3,5,8,13}存储在下面字符串中:

集合中代表数字的各个位设置为1 ,而其他的位全部设置为0

     在上面问题中,我们使用一千万位的字符串表示该文件,当且仅当整数i在该文件中的时候,第i位才被设置为1,这种表示法使用了这个问题中的三中属性,输入的范围相对小一些,并且还不包括重复的数据,而且没有数据和单个整数以外的每一记录相关联

算法实现分三阶段

1 设置每个位为0

2 读取文件,将相应的位设置为1

3 检查每个位,当为1时,将整数写入

这些函数使用常量来设置,清除并测试位值

view plain copy to clipboard print ?
  1. #define BITSPEREORD 32 // the type int contains 32 bits   
  2. #define SHIFT  5 // pow(2,5)  
  3. #define MASK 0X1F //00011111  
  4. #define NUMBER 10000000  
  5. int bitBuffer[ 1 + NUMBER / BITSPEREORD ] ;  
  6.   
  7.   
  8. void clr( int i ) //set every bit 0   
  9. {  
  10.    bitBuffer [ i >> SHIFT ] &= ~ ( 1 << ( i & MASK )) ;    
  11. }  
  12. //i & MASK 相当于 i mod 32  
view plain copy to clipboard print ?
  1. void set ( int i ) //set the n bits 1    
  2. {   
  3.      bitBuffer [ i >> SHIFT ] |=  ( 1 << ( i & MASK )) ;  
  4. }  
  5.   
  6.   
  7. int test( int i ) //read the sort number from bitBuffer   
  8. {  
  9.   return bitBuffer [ i >> SHIFT ] & ( 1 << ( i & MASK )) ;  
  10. }  
  11.   
  12. 通过位运算实现的上面的排序算法如下:  
view plain copy to clipboard print ?
  1. <pre class="csharp" name="code">int main ()   
  2. {  
  3.   int i ;  
  4.   for (  i = 0 ; i < NUMBER ; i ++ )  
  5.   {  
  6.      clr(i);  
  7.   }  
  8.   while(scanf("%d",&i) != EOF )  
  9.   {  
  10.      set( i );  
  11.   }  
  12.   for ( i = 0 ; i < NUMBER ;i ++ )  
  13.   {  
  14.      if (test(i))  
  15.    printf("%d/n",i);  
  16.   }  
  17.   return 0 ;  
  18. }  
  19. 使用一个包含100万个不重复正整数的文件且每个正整数都小于1000万进行测试:下表报告了使用</pre>  
  20. <pre class="csharp" name="code">系统命令行排序,C++和C的排序程序,位运算的排序成本</pre>  
  21. <pre class="csharp" name="code"><table cellspacing="1" cellpadding="1" width="250" summary="" border="1"><tbody><tr><td>       </td><td>系统排序</td><td>C++/STL</td><td>C/qsort</td><td>C/位运算</td></tr><tr><td>总时间(秒)</td><td>89</td><td>38</td><td>12.6</td><td>10.7</td></tr><tr><td>计算时间(秒)</td><td>79</td><td>28</td><td>2.4</td><td>0.5</td></tr><tr><td>MB</td><td>0.8</td><td>70</td><td>4</td><td>1.25   </td></

 


http://www.niftyadmin.cn/n/3921237.html

相关文章

终端和控制台的区别

http://blog.csdn.net/zhy10/archive/2007/12/08/1925063.aspx 今天看到有人问终端和控制台的区别&#xff0c;而且这个问题比较有普遍性&#xff0c;因此想抽出一点时间来解释一下这两个术语的区别。  终端&#xff0c;英文叫做terminal ,通常简称为term &#xff0c;比如我…

如何实现WordPress被浏览次数较少日志则排在后面

如何实现WordPress被浏览次数较少日志则排在后面&#xff1a; 第一步&#xff0c;先安装 Lester Chan 的一个插件 WP-postviews。 关于这款插件&#xff0c;相信大家都不会陌生的了&#xff0c;它的这主要作用就是用来统计日志被浏览的次数的&#xff0c;这方面在这里就不再多…

wordpress用户账户信息更新、重置密码或账户被删除时发送提示邮

wordpress用户账户信息更新、重置密码或账户被删除时发送提示邮 不知道大家发现没有&#xff0c;很多知名网站在用户账户密码被修改的时候都会发送一封提醒邮件&#xff0c;来防止网站用户的密码被恶意修改。本来wordpress是属于博客程序&#xff0c;但是最近越来越多的wordpre…

近期wordpress网站打开很慢的解决方法以及原因

近期wordpress网站打开很慢的解决方法以及原因 最近很多小伙伴都反映wordpress突然间变的很慢&#xff0c;有的是后台很慢&#xff0c;有些使用国外主题的小伙伴前台后台都很慢&#xff0c;打开页面至少需要20s以上的时间。很多小伙伴都以为是空间出问题了&#xff0c;昨天一小…

Ubuntu10.10中安装sun-java6-jdk

最近使用一个开源的java项目软件&#xff0c;结果由于是装的openJDK,软件运行不成功&#xff0c;询问过后得知&#xff0c;需要使用sun的jdk&#xff0c;但是由于版权问题&#xff0c;现在的ubuntu中已经不带有sun的jdk源了&#xff0c;上网查了下资料&#xff0c;总结了下方法…

适用于阿里云ACE的WordPress Rewrite规则

适用于阿里云ACE的WordPress Rewrite规则 随着阿里云ACE&#xff08;阿里云引擎&#xff09;功能的日臻完善&#xff0c;我最近在考虑将博客迁移到ACE平台上。因为我的博客中的大部分URL都使用了Rewrite&#xff0c;可是偏偏网络上并没有适用于阿里云ACE的&#xff0c;所以我只…

WordPress 邮件通知系统美化版

WordPress 邮件通知系统美化版 WordPress给用户发送的邮件是十分原生态的&#xff0c;没有任何的修饰以及任何的美化&#xff0c;看过了网易邮箱以及其他的一些通知邮件&#xff0c;遂有了美化一下Wordpress评论邮件的想法&#xff0c;先写静态html&#xff0c;然后写成wordpre…

JSP修改后运行无效果。。。解决

最近报名参加了个网页制作比赛&#xff0c;有机会能在8月22号重游江大&#xff0c;兴奋异常。 又能弥补下我几乎为0的网页制作知识&#xff0c;故在今日&#xff0c;CIT3D出征世界杯之日&#xff0c;正式全面投入到jsp开发学习中。 一切配置就绪&#xff0c;运行几次&#xff0…