首页 | 博客群 | 公社 | 专栏 | 论坛 | 图片 | 资讯 | 注册 | 帮助 | 博客联播 | 随机访问
自然序汉字检索法- -| 回首页 | 2008年索引 | - -自然序汉字字典

自然序汉字检索法

                                      

自然序汉字检索法

陕西省气象局  张时钊  www.chancezoo.net

两年前,我写了篇《汉字字典序》,探讨如何建立像英文字典那样的自然序汉字检索法。当时提不出具体的方法,但相信这样的方法是存在的。经过两年的思考和摸索,今天可以提出一个基本可用的方法了,称为“根母自然序检索法”。

下面先简述《汉字字典序》中的基本观点,以便自然地导出本方法。

所谓汉字难学,主要是难于自学,难于查字典,因为难查,使我们常常读白字。至今还没有科学而有效的汉字检字法,汉字没有自然的字典序。这也关系到电脑汉字的输入。无序的汉字,难以检索,也就难以输入电脑,更不利于后继的处理。比起字典检索法,近三十年发明的输入法,更是多如牛毛,但也没有一种能很好解决问题的。

中国最早的字典是公元121年的《说文解字》。它首创部首法,建540部,后代一直遵循此法,但部首不断简约,到《康熙字典》只有214部。因为部首不一定在一个汉字的左旁,常因定不准在哪一部,结果仍查不到。这些难查的字另按笔画数排表检索,《康熙字典》的“难字检查表”就有五千三百多字,占总字数的11%。刘达人发现以左旁为部首的占72%,以上旁为部首的占13%,合计85%以上,创“刘氏左上部首法”。查字不可能讲字源,应完全按字形来定部首,单纯由偏旁定部首是正确的,但仍有许多独体字不知归属。

音韵学的升起,出了不少韵书,它不只供填词写诗用,实也是一种字典。从汉字百分之九十以上是形声字出发,李卓敏编纂了《李氏中文字典》,以一千左右的声旁为部首。现代的中文字典正文大都改用按拼音排序。会普通话的人,用拼音输入法写文章很惬意的,尤其使用词、句输入时,只要打声母。但用字典查生字时就不行了,因为不认识的字,当然不知道读音。所以这种字典必附其他检索表。

20世纪上叶,王云五创四角号码字典,按汉字四角的形态特点,分别用10个数码代表,形成一个4位数的号码。如果有几个字同号,再附一个序号。可以说这是探求汉字自然序的第一个尝试,它真称得上第一个数字化方法,姑称为自然数字化。现在说的数字化是指把汉字输入电脑,转换成内码。但这内码与电报码一样,是人为的,不是某种自然序。正因为现在的内码无理,只能死记,但又记不住,才需要输入法,输入码被称为外码。这外码倒是一种汉字的自然数字化。上世纪80年代支秉彝的“见字识码”,与四角号码性质相似,以后所有形码输入法,如陈爱文的表形码,王永民的五笔码,沈克成的表音码,以及其他难以计数的形码,都是一种汉字的自然排序,一种字典序。可惜都因为取码的规则太复杂、不自然,很少用到字典的排序上。另一种简单的首尾码,据说来源于林语堂的“上下形检字法”,后者不仅用于字典,还用在他设计的中文打字机上。

输入法中有笔画码,现代的字典大多附有笔画检字。但直接用笔画组成的序列太长:动态平均(按使用频率加权)是每字7笔,比英文字动态平均5个字母长;静态平均是10笔,多的还超过30。所以都只按首笔或首两笔排序,笔画也只分为五种。首两笔相同的仍以笔画数排,查字都要数笔画。但字典正文都没有按笔画排。只有王竹溪的《新部首大字典》,正文五万一千多字是按笔画排的。但不是直接使用笔画,而是按56个有序的部首排序。这些部首,大部分是笔画不多的简单偏旁,如“口木”等。虽然每个部首也包含几个同类者,但是由于汉字部首过多,还有许多笔画很多的的偏旁和独体字,只能拆为单个笔画,这笔画也叫作部首。再因为这部字典收字多,很多笔画多的字,这种部首序列还太长,不直观。

要进一步缩短序列,必须增加字根数。而增加字根数会增加记忆的困难,尤其记字根序难。为此应把大量字根归并为少数的类。首先,所有笔画的变形,不管是同质或异质的变形(参见冯寿忠《汉字笔画的异质变形概观》),以及所有异体字形,都视为同类。其他如:简繁部首可并为一类,字典里正好可排在一起;水和氵可并为一类,仅在序列之首才为三点水;罕用的字根可归并到与它形状或性质相近的字根里。这样的字根系统,还可用于组字,归为一类的各个字根,需要时可以后附序数(0~9A~Z)加以区别,但这后附序数可不参加、不影响整体排序。没有后附序数时,不是指频数最大的代表,就一定是可由前后字根等情况判断出用那一个字根。用这样的归并法,类数少,可取2030,每种则可包含很多字根,可达1030,字根总数几乎不受限制,可达上千,可包括许多笔画很多的字根。这样,还可以让笔画交错的字形都不再拆分,连接紧密的也不拆,使汉字拆分非常自然,不要定什么规则,不易产生歧义。每个字根类选用一个代表,称为根母。

这样,根母自然序汉字检索法可以表述如下:

1、每个汉字按书写笔顺和自然分离拆分为字根序列。笔画交叉的不拆,相连的一般也不拆。24个连续的分离笔画可组成一个字根,单个孤独的笔画一般都归于其前后的字根。

2、字根按一定的特征或相似性归并为28类,每类以一个汉字为代表,称为根母。28个根母及其排序如下:一二三四五十千,人王口中民生田,土山已了又厂日,东西南北大弓线。

3、每类字根包含1020个字根,它们按笔画数及相似性或其他相关性排序。实际上每类中的一个字根,还可能包含几个形态有异的字根,特别是可类推的简化字偏旁和对应的的繁体字偏旁总被安排在一起。这样,先按根母序,再按类内的排序,所有五百左右字根就都有一定的定位了。

4、如果汉字按其字根序列排序,每个汉字虽然有唯一的定位,但五百多字根的次序很难记住。所以先把字根序列置换为根母序列,再按根母序排列成自然字典序。利用上列四句七字诀,28个根母次序是不难熟记的。

5、如果完全按根母排序,就会有较多的汉字具有同一根母序列。对于每一个同根母序列的汉字,再按其字根序列的逆字典序排序:即先按最后一个根母内的字根序排,如果还有相同的,再按倒数第二个根母内的字根序排。这样,虽然每个汉字也有唯一一定的位置,但是用作汉字字典序却不大方便。另外,第一个字根属于同一根母被看作是等价的,属于该根母的不同部首的汉字就混排在一起了。为此,排序时,第一个字根要按整个字根序排,就使同部首的汉字在一起了。这时,第二字根后同根母序的汉字就很少了,据试验,只用首4个根母序列就可以区分两万汉字了。

最后就是选取那些字根和如何归并为根母了。现在我采用的系统,各个根母的特征描述如下:

                自然序汉字检索法

                         根母表

一:以一点开头,及不属于以下字根之单笔

二:二个分离笔画,或以两点开头的字根

三:三个分离笔画,或三点开头,或含“小水”等字形(特包括州)

四:四个分离笔画,含四点或似四字形

五:含笔画,或上下都为一横者

十:含十字形,且首笔为横

千:千字开头,外加礻衤

人:人字开头,及彳

王:含三横,首横可为撇,以及扌才寸

口:含口字形

中:含中字形,以及左上部、右上部等

民:含笔画右挑及牙字

生:含字形

田:含田字形

土:含土字或两横

山:含彐

已:含笔画

了:含笔画,以及阝卩

又:含两斜笔相交

厂:右下和右上包围字根

日:含日或目字形

东:含木()字形

西:以顶横开始,不属于以上者

南:含冂与周字框

北:左右对称,或以竖笔开头

大:含大字形

弓:含弓未笔、乃首笔、犭次笔及(因与丐似)

线:含幺首笔及弋未笔

各根母的字根例(字库没有的,用含该字根的汉字附两数码示起止)

一:一丨丿捺折亠讠(言)之亡云文六方衣主立旁16

二:二冫12刂儿  丫兰131555半羊⺷⺶米羌

三:三氵水彡川43忄兴13小少兴1414光巛

四:四灬火忄忝54241616爪瓜皿血临69鹿473818(左边)

五:五亚(亞亜)正互侯3413卫书刀丑力办刁习那14()勺勿匆

十:十  卌帶15廿冓15甘其卉丗棄5C4A

千:千禾礻衤升乎重熏1A4A秉乖垂埀乗

人:人()入亻候13彳合13()今令仝全创14()余佘钅()()佥仑(14)(1D5C)

王:王玉手扌才寸壬丰(左或右)()16寿(壽夀)

口:口品囗追25161536毋母回曲典1617

中:中贵1539史吏  17()1B堇串1B7I

民:121213饣丧583648(長镸)氏氐旅7A49民艮辰瓦鼠7D

生:乞气牛午乍生年攵斤斥丘段15朱制16缶卸171816

田:田由甲申电鱼()果里更27更曳16181936畢亀

土:土圭士干于击1347去丢平开6915(17)18

山:彐山() 79()46屯妻15363648隶聿()4A()4B巨臣姬4A

已:已(己巳)()几九丸飞()也乜毛乇()兆心必巴尤龙(尨龍AH)

了:了泾45欠子阝卩冖宀穴予矛()承亟

又:又双夊乂义女夕夜58丈反友爰59发及报47皮父釜

厂:厂⺁13广疒尸户卢眉14(16)16严辶廴

日:日由目瞿1A()自且具身耳敢17

东:东()48()()木()林术()求来()束未末本乐

西:西酉两(兩両)丙面页()丁下不百17万豆

南:冂(周框)16巿17舟丹甫门()禸冎(15)冉用

北:卜(12)止走47片爿北竹业4C(4B)8B5B366C(臼叟17)3A39

大:大犬天夭夫17矢失央夬夨昚15夹爽

弓:弓弱1516乃扬4637  与马()()夷弗犭豸豕()14()乌丐()

线:厶至13么幺17()亥乡久弋戈戋戊()1814我羲7E

各根母含的字根数、以此根母为首的汉字数和静态的被调用字数如下表。由表可见,调用数已调整得比较均匀,但汉字数的差异却很大,这是没办法改变的。

    按此系统排序的自然序字典,每页页眉除像英文字典那样标注该页第一个汉字的根母序外,还应标注该页所有第一个字根。查字时,先定待查汉字的首4个根母,在标有它的首字根和首4个根母序的页中,一定能找到该字。至于如何拆分为根母序,看了上面的根母说明,再参考字根例列表,就能自明。有些汉字如果笔顺或连接笔画的拆分有歧义,可按另一种拆分查一下。(我现在的试验字典只有拼音,没有解释,把它作为电子书装入手机,就可查生字的读音。可惜我的手机不高级,一大半汉字显示不出来。再加上目前还有错漏,待修正得差不多时,会在网上提供下载,有兴趣者可与我联系,我的手机号为:13991960524

 

 

 

 

 

 

 

 

 

 

 

【作者: chancezoo】【访问统计:】【2008年06月28日 星期六 06:53】【注册】【打印

搜索

Google

Trackback

你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=6748562

回复

验证码:   
评论内容: