汉字字典序(中)- -| 回首页 | 2006年索引 | - - 语言文字各发展阶段及其特性

汉字字典序(下)

                                      

汉字字典序(下)

 

汉字字根序

 

直接用笔画序列,序列太长,也不直观,使用不方便。如果先让笔画结合为字根(也叫部件、部首或字元),使用字根排序,序列短,很直观,又可避免笔顺习惯不同引起的歧义。但汉字拆分为字根的方法本身有随意性,字根数目也太多,200600左右。字根拆分是研究输入法时形成的,由于键盘键位少,所以这么多字根都被归并为25-30种。排序用的字根也可这样归并,这样,一种字根会有不同的字形及笔画组成,字根序列就可能不与笔画序列一一对应,尤其是字根排序与笔画排序会不一致。第一部按字根序排列的字典是王竹溪的《新部首大字典》,他归并为56种字根,如下所列(由于一些笔形字库里没有,我用例字后加数字表示,两个数是指第几到第几笔。变体栏有些例字不是原书所列的字,是因为仿宋体字库没有该例字,“、”后没有例字,也是因为字库里没有适当的字):

序号      字根      包括变体

1                 3

2                   2、刈4、了2(及其颠倒)

3         1        1、冲2、豕7、入2

4         丿

5         1        4、买1、书2

6                 2、亡3、弋2、切2

7         1       1

8                   、、

9                 12

10        12

11                冂、丹12

12                12、而12

13                12、年12、亻、入

14                34、关12、空45

15               

16                儿、沈67

17                35、、

18       

19       

20                13、学13、⺗夵

21               

22       

23               

24               

25                14、寿14、、

26                25

27                14、告14、舛47

28       

29                忄、忝58

30                扌,看14、拜14

31                犭、豕35

32                氵、奉68、犀48

33                14、茶69、朮

34                58、炙14

35                14

36                14、灬

37               

38                礻、

39       

40                15

41                14

42                15、皿

43        西        17

44       

45                、、

46                纟、

47               

48                16

49                16、盖16

50                17

51                、、

52               

53                18

54               

55                饣、

56                、、

从上表可见,有许多常见的字根字形没有包含在内,在变体中也没有,它们必须再拆分为笔画(表中第17)。例如“典”的上部和“曲”字要拆分成5个,其笔顺规则也不合理,把最高的两竖定为首笔,故其序列是“竖竖竖折横横”。与输入法不同,这里拆分后不能把任何组成部分抛弃,所以许多汉字的序列仍然很长,虽然该字典只列出首4个。

要进一步缩短序列,必须增加字根种类。而字根种类的增加会产生两个问题:一、记忆难,还因为键盘键位有限,用作输入法时难以分配安排;二、用作汉字内码时,在电脑中存贮一个字根要超过一个字节。我们且看看,字根种类数目可以增加到多少。因为不能把一字节的256种状态都用来存贮字根,需要预留一些作为他用,大概最多可用240,不能超过250。键盘上可用作输入键的,有字母键26个,如果把上部的数码键及右边的标点符号键也利用起来,共46个。同样也要留几个作他用,如果用40个键,每键要管6个字根,才达240。虽然一个键可以同时按SHIFTCTRLALT形成4个输入值,但操作不方便,不如用单击、双击、三击来区分。可以把很少使用的字根安排给操作麻烦的三击、四击,但终究不能使用五击、六击。这样,大概可以使用120160种字根,其他必须归并。首先,所有笔画的变形,不管是同质或异质的变形(参见冯寿忠《汉字笔画的异质变形概观》),以及所有异体字形,都视为同种。其他如:简繁部首可并为一种,字典里正好可排在一起;水和氵可并为一种,仅在序列之首才为三点水;罕用的字根可归并到与它形状或性质相近的字根里。归为一种的各个字根,仅当个别情况需要特别指定时,才需要后附序数加以区别,但这后附序数不参加、不影响整体排序。没有后附序数的,不是指频数最大的代表,就一定是可由前后字根等情况判断出用那一个。用这样的归并法,如果每种包含10个字根,总数可以上千。这样一来,可以让笔画交错的都不再拆分,连接紧密的也不拆,使汉字拆分非常自然,不要定什么规则,不会产生歧义。字根数几乎可以不限制,每键又可安排几十个不同的字根,总可以设计出可行的方案。因为各字根的频数相差很大,安排得好,一定可以做到输入快、存贮省,可以盲打,也可用来组出唯一的正确字形。不过作出并选择其中最佳的一种,还要经过实际验证,实在不容易,我现在还提不出具体的方案,但相信它是存在的。

【作者: chancezoo】【访问统计:】【2006年06月6日 星期二 11:36】【 加入博采】【打印

Trackback

你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=5172889

博客手拉手

回复

验证码:   
评论内容: