汉字字典序(下)
汉字字根序
直接用笔画序列,序列太长,也不直观,使用不方便。如果先让笔画结合为字根(也叫部件、部首或字元),使用字根排序,序列短,很直观,又可避免笔顺习惯不同引起的歧义。但汉字拆分为字根的方法本身有随意性,字根数目也太多,200到600左右。字根拆分是研究输入法时形成的,由于键盘键位少,所以这么多字根都被归并为25-30种。排序用的字根也可这样归并,这样,一种字根会有不同的字形及笔画组成,字根序列就可能不与笔画序列一一对应,尤其是字根排序与笔画排序会不一致。第一部按字根序排列的字典是王竹溪的《新部首大字典》,他归并为56种字根,如下所列(由于一些笔形字库里没有,我用例字后加数字表示,两个数是指第几到第几笔。变体栏有些例字不是原书所列的字,是因为仿宋体字库没有该例字,“、”后没有例字,也是因为字库里没有适当的字):
序号 字根 包括变体
1 一 地3
2 丨 五2、刈4、了2(及其颠倒)
3 亠1 鸟1、冲2、豕7、入2
4 丿
5 司1 今4、买1、书2
6 乙 儿2、亡3、弋2、切2
7 女1 厶1、
8 亠 、、
9 十 古12
10 义12乂
11 冖 冂、丹12
12 厂 后12、而12
13 人 从12、年12、亻、入
14 八 六34、关12、空45丷
15 勹
16 几 儿、沈67
17 艹 卉35、、
18 阝
19 山
20 小 当13、学13、⺗夵
21 尸 、
22 女
23 土 士
24 口 囗
25 丰 青14、寿14、、
26 止 疋25
27 牛 特14、告14、舛47
28 辶
29 心 忄、忝58⺗
30 手 扌,看14、拜14
31 犬 犭、豕35
32 水 氵、奉68、犀48
33 木 林14、茶69、朮
34 月 肯58、炙14、
35 爪 孚14、
36 火 灯14、灬
37 日 曰
38 示 礻、
39 疒
40 目 具15
41 田 贯14
42 四 置15、皿
43 西 要17、
44 虫
45 臼 、、
46 糸 纟、
47 衣 衤
48 竹 竺16
49 羊 着16、盖16
50 车 惠17、
51 门 、、
52 言 讠
53 雨 震18
54 金 钅
55 食 饣、
56 马 、、
从上表可见,有许多常见的字根字形没有包含在内,在变体中也没有,它们必须再拆分为笔画(表中第1到7)。例如“典”的上部和“曲”字要拆分成5个,其笔顺规则也不合理,把最高的两竖定为首笔,故其序列是“竖竖竖折横横”。与输入法不同,这里拆分后不能把任何组成部分抛弃,所以许多汉字的序列仍然很长,虽然该字典只列出首4个。
要进一步缩短序列,必须增加字根种类。而字根种类的增加会产生两个问题:一、记忆难,还因为键盘键位有限,用作输入法时难以分配安排;二、用作汉字内码时,在电脑中存贮一个字根要超过一个字节。我们且看看,字根种类数目可以增加到多少。因为不能把一字节的256种状态都用来存贮字根,需要预留一些作为他用,大概最多可用240,不能超过250。键盘上可用作输入键的,有字母键26个,如果把上部的数码键及右边的标点符号键也利用起来,共46个。同样也要留几个作他用,如果用40个键,每键要管6个字根,才达240。虽然一个键可以同时按SHIFT、CTRL、ALT形成4个输入值,但操作不方便,不如用单击、双击、三击来区分。可以把很少使用的字根安排给操作麻烦的三击、四击,但终究不能使用五击、六击。这样,大概可以使用120到160种字根,其他必须归并。首先,所有笔画的变形,不管是同质或异质的变形(参见冯寿忠《汉字笔画的异质变形概观》),以及所有异体字形,都视为同种。其他如:简繁部首可并为一种,字典里正好可排在一起;水和氵可并为一种,仅在序列之首才为三点水;罕用的字根可归并到与它形状或性质相近的字根里。归为一种的各个字根,仅当个别情况需要特别指定时,才需要后附序数加以区别,但这后附序数不参加、不影响整体排序。没有后附序数的,不是指频数最大的代表,就一定是可由前后字根等情况判断出用那一个。用这样的归并法,如果每种包含10个字根,总数可以上千。这样一来,可以让笔画交错的都不再拆分,连接紧密的也不拆,使汉字拆分非常自然,不要定什么规则,不会产生歧义。字根数几乎可以不限制,每键又可安排几十个不同的字根,总可以设计出可行的方案。因为各字根的频数相差很大,安排得好,一定可以做到输入快、存贮省,可以盲打,也可用来组出唯一的正确字形。不过作出并选择其中最佳的一种,还要经过实际验证,实在不容易,我现在还提不出具体的方案,但相信它是存在的。
你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=5172889