研制汉字电脑,使21世纪成为中国的世纪,汉字的世纪- -| 回首页 | 2005年索引 | - -汉字世纪—用笔画组字实现无字库电脑

字频的稳定性- -

                                      

              字频的稳定性

    方块汉字,数量繁多,现知总字数已过十万。但是,其中绝大部分字,绝大部分人没有见过,更是认不得,用不到。多次统计证明,只要1000个不同汉字,就可覆盖应用文字的90%以上,2000个汉字则可覆盖98%以上,3000个汉字则可覆盖99.5%以上。下面是三份不同统计的数字。第一份资料是1977年完成的总字数为21657039的统计结果,我取自贝贵琴等汇编的《汉字频度统计》(电子工业出版社1988版),仅把毎个汉字的出现次数输入计算机,其中原来有一个作为零的符号,因不是汉字,已扣除。覆盖率是重新计算的,在小数尾数上与原书所列有点出入。第二份是王良辰2005年6月22日到7月5日发在汉语拼音与输入法论坛上的,是“对ChenShuyuan先生转载清华大学统计资料进行了加工”所得,虽只有前2000个汉字的数据,但统计计总字数比第一份多4倍,达86405823。第三份资料也是从网上收集的,只有前2406个汉字的数据,我没记出处。从表中所列首十个汉字的不同顺序,就可知道三份资料是不同的,相互独立的。


               表二、 高频字覆盖率

字数    第一资料覆盖率   第二资料覆盖率   第三资料覆盖率 
  10          11.3949           11.0465        11.8347
  50          27.6183           27.8309        27.6046
 100          39.2683           40.0125        39.2068
 200          54.9505           55.4813        54.8155
 300          65.1054           65.9172        64.9530
 500          77.4186           78.5320        77.4189
1000          90.7883           91.9153        91.2790
1500          95.8637           96.4756        96.1588
2000          98.0358           98.3877        98.1741
3000          99.5485
5000          99.9305
首十字      的一是在了       的一国在人     的国人一中
            不和有大这       了有中是年     学在大有年


    从上表可见,在都有数据的2000个高频字内,不管是前10个50个,还是1500、1500、2000个汉字,统计得的覆盖率都十分一致,相差多在1%之内,最大也只在1%左右。从第一份资料可知,5000字足可覆盖99.9%以上。这就是说,我们平均写1000个字的文章,最多使用1个在这5000个高频字以外的生僻字。我们完全可以避免使用、或不使用这个生僻字,用别的字或多字词代替,不影响信息交流和文字记录。果能如此,不仅省了许多学习文字的时间,更能在很多方面节省大量的人力物力。
    但是从表末所列的首十个字看,不仅在三份资料中,按频度的次序不一样,而且连汉字本身也有一半左右不一样:第一和第三份资料有一半,即5个字不同;第二和第三份资料中,相同的最多,也只有7个,有30%不相同。会不会是这样:从表面上看,3份资料的高频字覆盖率十分相近,而实际上由它们得到的高频字组成,却完全不同。为此,特地统计出下表(为行文方便,没列出具体的汉字):


               表二、   在各级高频字数中,3份资料相同汉字数

高频   第一第二资料  第一第三资料  第二第三资料  所有三份资料  第一份  第二份  第三份
字数   相同数   %    相同数   %    相同数   %    相同数   %    独有字  独有字  独有字   

10       6  0.600      5  0.500      7  0.700      4  0.400      3       1       1 

 50      36  0.720     36  0.720     41  0.820     33  0.660     11       6       5       
 100      70  0.700     68  0.680     78  0.780     62  0.620     24      13      15 
 200     143  0.715    141  0.705    176  0.880    135  0.675     51      16      18      
 300     228  0.760    215  0.717    263  0.877    206  0.687     63      14      29     
 500     404  0.814    395  0.790    448  0.896    384  0.768     82      28      41   
1000     812  0.813    795  0.795    927  0.927    780  0.780    172      40      58     
1500    1263  0.843   1247  0.831   1412  0.941   1218  0.812    207      42      59      
2000    1711  0.856   1702  0.851   1886  0.943   1658  0.829    245      61      69

    由表二可见,不同的统计,由于进行的时期不同,因而所取的统计样本不一样,得到的高频字集合是不同的。1000个汉字的高频字集合,大概只有80%的汉字是相同的。虽然,随着高频字集合的增大,相同字的比例会提高。可惜我没有后两份资料的后半部分数据,不能确切估计5000个汉字的高频字集,会有百分之几的汉字相同,按所有三份资料相同字数的百分率趋势看,大概也只会在90%左右。第二和第三两资料的相同性高得多,大概因为统计的时间、所取的样本都相近,所以各汉字按频序的排列也接近。我统计了各个汉字在不同统计中的频序差,结果是:第一和第二份资料的频序差>1000的字数为128,和第三份资料的则大一倍,为253,而第二和第三份相比,这个数字小到只为1。频序差>500的相应数字分别为467、726和47。
    表三是几个频序差较大的字例。第二第三两份资料一定是在改革开放、琛圳崛起之后,“圳赁崛琛娱”这几个原来不常用、频序很靠后的字,都大大提前了。第一份资料是在文革前后统计的,“孔(批孔)削杆(枪杆子)敌”等字用得多,频序靠前1300左右(不知道“尺”字为什么也靠前)。在短短的几十年时间里,字频竟有如此大的变化,我真怀疑能够按字频统计,科学地确定常用字集合,尤其是确定那些字限制使用或不准使用。你看,现在位置在1000以内的高频字“圳”,20年前还是远在5500之后的生僻字呢。


              表三、 字频序差较大的字例

例字  第一和第二的字频序差   在资料一中的序号    在资料二中的序号    在资料三中的序号 
圳          4642                  5510                868                 958
赁          3556                  5321               1765                2080
崛          2977                  4771               1794                1895
琛          2590                  4224               1634                1894
娱          2325                  3839               1514                1552
敌         -1223                   447               1670                1852
杆         -1267                   618               1885                1817
削         -1304                   517               1821                2137
孔         -1336                   215               1551                1195
尺         -1365                   597               1962                1951


                                    2005.7.19

- 作者: chancezoo 访问统计: 2005年07月20日, 星期三 07:10 加入博采

Trackback

你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=2326380

回复

评论内容: