|
|
用户名:chancezoo 笔名:chancezoo 地区: 陕西-西安 行业:其他 |
| 日 | 一 | 二 | 三 | 四 | 五 | 六 |
我研究两个课题:开发无字库的真正的汉字电脑;分析记录序列的周期性,预报一年以上的逐日天气。
电脑文字的未来
(作者置顶)
中国书法的数值分析
论智慧(下)
论智慧(下)
四、创新机制
我曾写过一篇《创新机制》,主要说明一件事:有些人之所以没有创新成果,是因为脑子里清规戒律太多,创新思维一露头,就被挡回去了。至于创新的苗头是怎样出现的,没有进一步论述,只能认为是偶然的自发产生的,有点像解释生物进化中的变异是偶然而自然发生一样。这种说法自然是不能使人满意的,在这里我想试着作一个进一步的探讨。
一、单纯推理不能获得新知识,亦即不能获得创新。推理是在过去的实践中获得相关的概念及命题之后,按照同样是在实践中获得的推理规则,推得新的命题。如果这些概念、命题和推理规则都是绝对准确和可靠,那么,获得的新知识也一定是正确的。极端的情况,像整部欧几里得几何学,就是由5条公理推出来的,组成一个精密的系统。对于正确的理论系统,所有知识都是经过(可以是由别人或前人进行的)实践检验的,任何人再一次由推理获得的新命题,当然也是经得起实际考验的。新知识像是早已存放在图书馆里一样,推理就像是一种检索方法,把它取出来,所以不可能是创新。
二、倒是类推思维可能会引出全新的发现或创造。比如,属于甲的事物都有性质乙、丙、丁,现在新事物也具有性质乙、丙、丁,所以极有可能也是甲;出现甲、乙、丙、丁时,都会发生戊,现在又具备条件甲、乙、丙、丁,所以也可能出现戊。因为世界总是有规律的,类推常常命中,但它又不完全确定,需要在实践中验证,在验证的实践过程中,就获得了新东西。按信息论的说法,完全在意料中的事情发生了,不会带来新信息,只有不确定的事物的出现,才提供新信息,其信息量就等于原来的不确定程度。这样,所有与类推相似的思维,只要能提供不完全确定的意见的,都会引出创新。有些书籍论述发明方法,就有各种各样的名目,都属于此类,我们都称其为类推。
三、这样,所谓直觉和灵感,应该就是下意识的类推。因为类推是要把新情况与记忆中有关经验和知识进行反复比较、衡量的,所以平时注重学习,积累大量知识经验是很重要的,另一条就是要多想、多动脑筋。
四、但创新的最后成功,必然要靠实践:坚持反复实验或验证。总之,要想在理论上有所建树,就要大胆假设,小心求证;要想有所发现发明,就要解放思想,勇于实践。
五、文化——群体的思维
文化是什么,每个人的理解不一样,在不同的场合也会有不同含义。易中天先生在《中国文化现象解密》一书的开首说,到1952年时,对文化一词的定义就超过160种。查辞海中对文化的解释则是:“广义指人类社会历史实践过程中所创造的物质财富和精神财富的总和,狭义指社会的意识形态,以及与之相应的制度和组织机构。”又说“泛指一般知识”。这个说法也不见得全面、深刻。
我认为,所谓文化就是群体的思维、群体的智慧。
除了极少数强势动物,大部分是过群体生活的,这有利于种群的繁衍。群体之内,常有分工,各安其位,外御强敌,内增效率。不过,如果分工进化到像蜜蜂、蚂蚁那样的高度,个体近于系统的一个细胞,少量个体成不了完整的群体,就不能延续了。所以比它们高级的哺乳动物就走了另一条路,除了性别不同外,所有个体都是一样的,都可以凭自己的能力占据一定的社会地位。这里的能力,在低等的动物主要凭体力,而人类则主要凭智力了。
这智力,也就是智慧,就表现为解决问题的能力,它必然建立在个人后天学习的经验知识的丰富上。然而一个人的生命终究有限,不能事事亲历,但可以向别人学习,而丰富的语言允许一个人可以把自己一生的知识经验在相对较短的时间内传授给别人。早在文明诞生之前,每一个民族或部落都有自己特有的代代相传的语言、习惯、信仰和生活技能等。那时虽没有什么科学理论,但有长期流传的神话、史诗和历史传说,这一切与个人的实际经历同样重要,成为人们判断是非、解决问题的参照。就是现在人人都学习了种种科学之后,我们处理问题时,也很少是按部就班地引用定律、原理来决策的,大部分是参考相关的记忆来决定。所有这些从上一辈传承的一切,就是该群体或民族的文化。
发明了文字之后,原来口口相传的东西,都可以记录在书籍中永世流传。但是,我少年时曾有一句座右铭:“知识就是力量,书籍集其精华”,就是说,书籍不可能把一切都记下来,它只包含一些被当时的人们认为最重要的东西。实际上即便对书籍中的内容,相关的基本概念及语言文字,也需要口口相传,否则就成了天书,有时即使进行了艰难的文字考古,还可能都解读不了。如果没有文字,那就只能根据古代的遗迹和遗物或者地下发掘的考古研究了。研究了发掘出来的生产工具,就能了解当时社会的发展水平。
所有文字遗留和古迹遗物,都是古人智慧的创造。如果某一文化内容失传后又在考古中发现了蛛丝马迹,就要先用现代的智慧去理解它们、读懂它们,才能成功地继承。
六、第三个机械化
人类利用自然物及其特性所创造或生产的产物,不是直接满足生活需要的,就是用来认识世界和改造世界的工具。一般认为人类的诞生是以使用工具为特征的。开始时的工具,都是生产劳动的工具,可以形象地说,它们是手的延伸。接着,我们还用工具来制造工具和机器,最后使人的双手创造出威力无比的庞然大物,直至人造卫星等。这中间,主要依靠人脑的智慧,没有神奇的思维对自然的深入理解,是不可能的。大概从磨制第一块凸透镜,造出望远镜、显微镜以后,我们便又热衷于创造各种延伸感觉器官的仪器了,这使我们看到了更多更丰富的世界。凭借已创造的仪器,空间上我们可以看到几亿光年之外,微细处可以达到1微米的千分之一。这些仪器,除了直接转换自然的输出直接作用于感官外,还可以转换成电信号在显示器上显示出来。最后,还可以通过比较、测量和计算,被我们的理智所感知,这显然更是靠大脑思维来完成的。
一般说来,延伸双手的人造物叫做机器,用机器来代替劳动叫做机械化;延伸感官的人造物叫做仪器,而用仪器来感知世界事物,似乎还没有特别的称呼,姑且名之为第二个机械化吧。随着1945年电子计算机的发明,第三个机械化,亦即大脑思维的机械化或智慧机械化就开始了。
第三个机械化只有半世纪历史,已显示其惊人力量,但对它的性质和可能前程,至今还难预料。现在看来,它应该限于对已经形式化的思维过程进行机械化,目前形式化的思维似乎主要是数学公式和形式逻辑。模糊逻辑,或者用很多中央处理器组成神经网络,可能是未来的方向。我们对思维、对大脑的了解还很不够,随着这方面研究的深入,第三个机械化将显示更大的威力。从前两个机械化的经验看,并不是一定要把人体器官都研究清楚了,才能机械化的,反过来机械化的成就也会促进对器官的研究。实践证明,我们发明的机器,在强度和精度上常常几倍或几百几千倍于我们身上的器官,这大大地促进了人类社会的进步。
对新兴的第三个机械化的未来,有两种不同的预期,一种认为,不论机器如何发展,如何进步,它们永远是人的创造物,是受人类控制的工具。另一种则很悲观,担心机器人会统治世界,甚至控制人类自身。实际上,人类的创造物,返回来危害人类自己的事,在第一、二个机械化中就发生过,例如:机器伤人、用于战争、利用高科技来作案。不过,这一切如果不是稀有的偶发事件,就是人类自己控制的自残,这要由伦理道德去解决,不能怪科技的进步。科技的发展是不可阻挡的,即使日后机器人满街跑,即使机器人能够复制自身,它们最终还是被人类控制的,为人类服务的。
论智慧(上)
论智慧(上)
一、智慧是什么
查辞海,“智慧”一词的解释是:“对事物认识、辨析、判断处理和发明创造的能力”。而词条“智力”之下则为:“通常称‘智慧’。指学习、记忆、思维、认识客观事物和解决实际问题的能力”。原来都是指人类的思维能力,一般认为,只有人类才有思维,并靠这独一无二的思维,有效地掌控世界。
到网上去搜索“论智慧”三字,则会得到当代哲学家冯契的智慧说。他的主要理论是建立在从佛学引入的“转识成智”上,认为所有知识只是认识客观的记录,还不是智慧,智慧是更高一层的,是充分理解知识的真实含义,用来改造客观的时候。由于我哲学修养低,阅读介绍冯契学说的文章,还真有点看不懂,上一句话是我的理解,也就不一定确切。本文则是我从另一种角度对人类智慧的一些思考。
现在,“智慧”一词似乎愈来愈不是人类的专利。我们常常听说,海豚、狗等动物具有相当于多大孩子的智力。甚至植物也有智能:在受到害虫侵犯时,会释放信息告诫同类。最近更有报导,连单细胞细菌也能靠信息联系来协调动作。
因为我们看不到别人在想什么,所以判断一个人的智力高低,只能看他对事物的反应。判断动植物有智慧,则完全是凭它们对环境的反应作出的。说到对环境的反应能力,无机物也有,既有迅速激烈的,也有温和的,甚或要延时很久才能显现的。或者说,区别有机、无机的根本标志是,生命有主动性,有定向目的性。但如果仅靠客观观察来判定,这些也与磁性相吸及其他无机趋向性等等难以区别。
我们相信,生命是由无机物发展来的,亿万种动植物是逐步从低级到高级进化来的。各类物种,既有一定的或本质的区别,又有某种联系,或者存在过渡形态而不能绝对截然划分。作为物种的属性——智慧或对环境的反应,自然也是由低至高地发展,而有各种不同水平的发展阶段,我们也应全面地考察这个发展的全部过程,才能更好的认识人类的智慧。
二、智慧发展的几个阶段
这样,我们把智慧看作是万物对环境反应的最高发展形式。而万物对环境反应的发展过程可分以下四个阶段:
一、直接反应阶段:如无机物都处在这个阶段,环境的变化,直接引起它的物理性状的改变,或与外界物质产生化学作用。生物体的局部在碰到危险的环境时,也可能起这种反应,这种反应常常会改变主体,甚至消灭主体。
二、无条件反射阶段:这是生命体的低级反应,其特点是,同种的不同个体的反应是一样的,是该种生物长期进化形成的,一般都有利于该物种的生存。但却不一定都能适应剧烈改变的环境,恶劣的环境条件促使物种的变异,而变异是不确定的,有好也有坏,只有适者生存。我们现在只有这种自然选择理论,不知道它的更深入的机理。
三、条件反射阶段:巴甫洛夫用狗做了大量实验而建立起条件反射的概念。给狗食物引起流口水,如果给食物前都先响铃,经过训练,这响铃竟成为食物的信号,也引起这只狗流涎。远在这人工实验之前,事物的本质联系,早已使生物建立无数条件反射(如只看到食物的形和色就流涎),它们是建立在客观存在的规律性上的,说明已认识到规律性。
条件反射是生物后天学习获得的,即使同种内,不同个体间也有很大的差异,以适应碰到的不同的具体环境。无生命物体与环境的作用,常常要毁掉自己,变成他物,而生命体则要适应、同化环境,力图保存自己,繁衍后代。所有无条件反射是生物的本能,都适应历史环境的稳定部分,而对环境的不稳定的细节,只能由后天的学习来建立条件反射,以求得更好的适应了。
四、语言文字阶段:自然存在的条件反射信号建立在客观的规律性上,而生物约定用自身的声音或动作为信号,就是一种主观的语言了。人类还能使用工具,用作条件反射信号的工具,那就是文字。大家都知道,语言文字是用来交流信息的,有了个体间的交流,就使群体成为整体,这在适应环境以求生存发展上的意义,当然十分重要。但更重要的是,它们作为思维的工具,在认识自然环境上的意义。这一点似乎常被被忽视。我曾把语言文字的发展分为4个阶段,而且强调作它们为思维工具的作用:
N 阶段 载体 特点 新增作用
1 肢体语言 肢体动作 限用眼看,转瞬即逝 仅仅传递信息
2 口语 空气振动 限用耳听,转瞬即逝 作思维工具
3 文字 二维图形 限用眼看,可保存、远递 提升思维效能
4 电脑文字 电磁状态 易大量复制,远递极速 思维机械化
三、思维
辞海上对思维的解释是:“指理性认识,即思想;或指理性认识的过程,即思考。是人脑对客观事物间接和概括的反映。包括逻辑思维和形象思维,通常指逻辑思维。它是在社会实践的基础上进行的。思维的工具是语言。思维既能动地反映客观世界,又能动地反作用于客观世界。”
这段说明似乎不很清楚。实际上智慧和思维是同一件事的两个方面,智慧指其功能表现,侧重于优异的表现;思维则指整个过程,主体内部进行的过程。
思维是怎样能动地反映世界?且看思维有那些主要过程:
一、抽象与综合:抽象是舍去事物的非本质性状,只抽取本质特征;综合是把许多同类事物合为一个概念。这些事物构成该概念的外延,而它们的共同特性则是该概念的内含。在数量上讲,内含和外延成反比的,即外延愈大(包含的同类事物愈多),其内含(共同特征)就愈少。它们属于同一认识过程的两个方面。概念以词语来表示,是思维的细胞,是第一步。任一事物,都有无穷的特性,我们只能接受其中一部分,重要的部分总是稳定地一起出现,自然地形成一个概念(实际就是一个抽象)。记忆的就是概念,对应大脑里的一个点或神经细胞一定状态,但可以联系一些表示其特性的另一些点。我们能记着一个人的音容笑貌,但眼前总不能再现一个具体的面孔,因为我们脑子里记的是数量较少的抽象特征,而不是具体图像。即使记忆一个分辨率很低的图像,即使经过高度压缩,也要很多的记忆细胞,而代之以概念,就节省很多。我们还不知道具体机制,可能像电脑里把图像转换为图形那样。不仅仅是记忆,实际上一切思维活动,包括个体间的信息交流及信息的进一步加工,都是在概念的基础上进行的。
没有声音的先天性聋哑人,概念不能与口语词汇联系,应该有另一种形式。一些有明显的智能表现的动物,应该也要先形成概念,它们的概念有怎样的形式?还没有研究。
二、具体与分析:具体(具象)是为一个概念找出的一个实例;分析是将一个实例与其他同类仔细比较,找出不同的特点(内含),可能会形成新的概念。常常在发现或为了发现一些新事物时,才需要进行深入的分析。人的五官敏感性有波动,具体的一次认识过程又只能注意少量的性状,遗漏和错误在所难免,经常需要分析比较再认识。因为人的感官功能有限,使许多事物特性都处在视野之外,为此,创造了很多科学仪器,大大提高观察的分辨率,发现新事物和新特性。
三、判断与推理:一个判断规定了数个概念间的关系,包括同时性的属性,也包括异时的变化及因果律。判断用语言的一个句子表达,句子主宾接龙,形成推理的长链,即由第一个或一些判断(前题或条件)可推出最后的结果。像概念的抽象一样,判断和推理也是从无数次实践中抽象出来且得到验证的,我们还总结出关于推理的逻辑学和数学公式,它们是一些形式规则。不过,推理链条中的每一个环节,并不一定都是完全确定性的。另外,在不同人的心目中,同一个人在不同时期,一个概念的内含和外延也会有变化。我总认为,形式逻辑是概念不变下的确定性推理,辩证逻辑是概念有变化或有或然性关系的推理,辩证逻辑与形式逻辑的关系,相当于高等数学与普通数学的关系。
四、理论与模型:单一的判断和推理都是从客观世界抽象出来的对客观的模写,组合在一起,就构成理论,形成模型。模型一词似乎是现代才出现的,尤其是计算机出现之后:概念数字化了,都可用数值量度,推理关系用更细仔准确的公式来表达,便于用计算机来模拟。甚至可以代替客观实际,只研究这样的计算机模型也能获得新知识。例如研究大气运动和天气预报,研究群体遗传和物种进化,再现历史和预见未来的星空。这类大系统难以实际控制试验,就可使用这样的模型。医学上应用数字人,也是这样的模型。抽象是模型的基础,概念是抽象,推理关系也是抽象,即舍去了许多次要的东西,却可以表示或适用于一批实在的事物。像唯心的研究者(他们认为心里的抽象即实在,万物都是由感觉组合的)也可以获得可取的成果一样,唯物论者承认模拟试验的结果,但总不忘记最后还要回到实践中去验证。
五、直觉与创新:一方面,我们深知思维的认识力量,近代发现或发明的事物,以及所有不能直接感觉到的新事物,几乎都是靠思维来发现的:例如无线电、引力场;地球、太阳系和更大的宇宙系统;原子、粒子、前子等微观世界等等。天王星、冥王星的发现,直接显示了思维推理的力量,它们都是首先被计算出来的。但是另一方面,单纯的逻辑推理是得不出新东西的,因为结论已经包含在前提中。另外,我们每个人天天要做许多判断和决定,绝大部分也没有使用上述的任一种思维,不属于上述已经很好地研究过的思维形式。我认为创造全新知识的思维,大多属于还没有很好研究的直觉及其他创新思维,对此,要用下一节来阐述。
书画墨汁的浓淡
书画墨汁的浓淡
现在作书法或画国画,大多已经使用墨汁了。墨汁的品种很多,品质高下悬殊,好的清香,写字不洇,浓黑发亮,差的则色浅而有臭气。价格也相差很大,比如“一得阁”大概10元一斤,最次的只要两三元,西安艺德轩的普通墨汁3元,书画墨汁就要6元。我取以上3种墨汁,分别测量它们的比重,再用稀释法,比较颜色浓度,结果显示,使用高价的墨汁,不但质优,经济上也是合算的。
测量比重很容易:任取一个塑料的小容器,分别装满清水、艺德轩普通墨汁、书画墨汁和一得阁墨汁,用天平称其重量,就可计算出来,结果如下表:
墨汁比重测算表(空盒重 1.107克)
| 清 水 | 艺 德 轩 | 一 得 阁 墨 汁 | |
普通墨汁 | 书画墨汁 | |||
毛 重 | 9.817 | 10.135 | 10.550 | 10.845 |
净 重 | 8.710 | 9.028 | 9.443 | 9.378 |
比 重 | 1.0000 | 1.03651 | 1.08416 | 1.11803 |
设艺德轩书画墨汁加X倍清水,使比重等于普通墨汁的1.03651,即:
(1.08416+X) / (1+X) =1.03651
所以 X=(1.08416-1.03651) / (1.03651-1) =1.305
对于一得阁墨汁,应加清水的倍数为:
X=(1.11803-1.03651) / (1.03651-1) =2.233
这也就是说,1斤艺德轩书画墨汁可稀释成2.3斤普通墨汁,1斤一得阁墨汁可稀释成3.2斤普通墨汁。
最后,把以上3种墨汁,都每次加一倍清水稀释,画一竖笔画,再放在一起比较,如下图。从图可见,艺德轩书画墨汁稀释二倍,一得阁墨汁稀释四倍,其颜色与普通墨汁差不多。
无字库技术及其意义
无字库技术及其意义
现在的电脑,处理文字时都离不开字库。在文本文件中,存贮的是一串内码,一个内码对应着字库里唯一的一个字形。每个字形虽然形状不同,但都呈大小一致的矩形,文本或文字串就是由它们线性排列形成的。对这种形式的文章,电脑技术可以进行快速高效的编辑:删除、插入、查找、置换、朗读、校对和排版,进一步还能从大量文章中检索、提取,甚至能理解文意。所有这一切都是继承印刷技术后,再发展而成的。在活字印刷里,不同的字必须有不同的铅字字模,而且每种字模都必须是大量的,以备排版之需要。在电脑里,由于字形字模的拷贝是很容易的,一个字只要一个字模就足够了,不过要给它一个独一无二的内码,以便取到这个字形。这些字形的集合就形成字库,对应于活字印刷里大量铅字库。虽然电脑字库比铅字库简小而方便,但在每次阅读时都必须带着,如果字库里的一个字形有了变化,整篇文章里的这个字的字形都会改变,如果缺了一个字,就成为空白。没有了字库或安装错了,就不能正确显示,成了无意义的乱码。
电脑是西方发明的,开始只使用英文,安装了ASCII码字库。它们不到100个,可以一键对应一个字符,不要另外的输入法。内码安排在32到127之间,只要一个字节。因为这第一个字库很小,用当时简单的点阵字形,字库大小不到1K,就直接放在BIOS中,一启动就可显示了。它们的显示程序也特别简单,只用几句汇编语言,每个字母只要把8字节的点阵数据复制到表示屏幕的内存(显存)里就可以了。
汉字数量比字母多几百到上千倍,1980年的第一个国标码字库取了6763个汉字,其内码至少要两个字节。因为必须保证ASCII字符能正常使用,不发生冲突,所以只使用字节高位为1的161到254的值,即每字节只有94个,这就是区位码的来历,高字节表示区,低字节表示位。每个汉字字模的数据,又比每个字母多4倍,所以这个字库大小达240K左右。在上世纪80年代,这个字库是太大了,更主要的还可能是软件的版权问题,它一直没有进入BIOS。于是,汉卡就应运而生,固化在汉卡里的字库数据,读写(指写到显存,显示字形)都快,且一启动就可使用。后来因为硬件的快速进步,计算机的内存由几百K增加到几M以后,软字库可以一次读入内存,硬字库汉卡才退出历史舞台。
我是在1985年提出无字库技术的,而且是在内存只有18K的袖珍计算机上实现的。当时,这个技术对微机应该也是有用的。记得比IBM微机低档的苹果机,只能用台湾朱邦复先生的汉字系统,他应用字形复用技术,字库大小降低为四分之一。字形复用,就是用其他笔画较少的汉字组成新汉字。这种组字技术也是无字库技术的核心,不过它是直接由笔画来组字,或者先组成字根,再由字根来组字,因而可以不要任何字库字。
当内存增加到连汉卡也失去意义后,用无字库技术来降低内存的开消,在一般微机里就没啥意义了。不过,在较小的嵌入式系统中,例如目前大多数仪器用的的液晶显示及手机等,为了节省存贮空间,还是有作用的。另外,随着用电脑处理汉字的飞速发展,仍存在并突显以下五个方面的问题,需要用无字库技术才能解决。
1、随着文字工作的发展,要用的汉字愈来愈多,虽然字库也不断增大,现在已达7-8万了,还是有缺字,使一些人的名字打不出来,甚至办不成第二代身份证。
2、汉字输入都要使用某种输入法,字库不断扩大,研制输入法愈来愈困难,以致现在万码奔腾,还是没有公认的好方法:既好学又能输入所有冷僻字。因为汉字多,键盘小,显然不能一键一字,必须连按数个键的组合才能输入一个汉字的内码。又因为汉字至今没有科学的自然排序方法,内码是人为规定的流水码,输入法要建立键的组合与汉字内码的一一对应关系,几乎不可能,所有输入法都要辅以从提示栏选择。形码选择量少(即重码率低),但难学难记;对于年轻人,音码几乎都会,但输入速度慢,碰到不会读的字就没办法了。无论用现在的那种输入法,长期打字不熟识汉字结构,许多汉字都不会写了。
3、能使用的汉字必须是字库里有的,虽然电脑也能够造字,但新造的字只能在你的机子上用,不能流通。这样一来,汉字再也不能发展了,而任何事物一旦殭化,最后必然导至死亡。
4、字库太大,容易出错,现在已有网友发现所谓的电脑错字。按现在的硬件技术,内存里装多大的字库都没问题,但是,万一某个字模的数据错了一点,这个字就不能正确显示了。常常碰到这样的情况,一篇文章在一种字体下,显示是正常的,但换了另一种字体,有些字,甚至不是冷僻字,也会成为空白,因为这种字体里没有它的数据。
5、二十多年前,我就提出研制真正的汉字电脑,认为现在的电脑虽然能够处理汉字,但都不是汉字电脑。这首先影响到中国人的学习使用。因为电脑出了深层问题时,最后都要显示大量英文信息,不精通英语的人看不懂,要掌握高深的电脑技术是不可能的。现在虽然大部分人都学过或正在学习英文,但能够看懂这些英文提示的人可能只有百分之一,甚或千分之一。西文电脑还影响国家的安全。因为大部分软件,尤其是基础软件,都是微软一统天下,它可以隐含窃听程序,收集我们的资料。我们虽然也研制了中文操作系统以至中文CPU(但是底层似乎还仍是英文的),至今还没有得到推广。
以上所有这些问题,采用无字库技术,都可得到解决。
不要汉字字库,只需要几十个(我现在用50个)笔画数据。如果键入的都是笔画码,可以一键一码,且直接作为汉字内码。因为汉字笔画太多,这种直接方式,输入慢,内码太长,不实用。所以要先组成字根和少量汉字供调用,这就是说要一个小字库。小字库内的汉字当然只选用高频字,大小取2000到3000个。因为2000个高频字的使用频率合计达98%以上,研制这几个汉字的符合汉字组字原理的输入法,不困难,可优化固定。而另外百分之一的汉字,称为合成字,其内码由笔画字根串组成,码长长一些也关系不大。作为试验或过渡,我现在编研的小字库WORD 2.0版,干脆可使用所有字库字,也可用字库字进行组字。这样,只有字库里没有的汉字,或者实在输不进去的汉字,才使用合成字。
要由合成字的“内码”(实际是字符串)来显示汉字,需要一个显示子程序,它要按该字符串(内码)调用相应的笔画、字根或字库字的数据。当然,所有合成字都是调用这同一子程序,只不过程序相当复杂而已。对于以前的点阵字库,显示程序很简单,把字模的数据拷贝到显存就可以了。对于现在的矢量字库,虽然我至今没看到有关资料,不甚了解,估计显示程序也应该相当复杂。因为矢量字库里存的是字形的轮廓线,轮廓线数据只能是折线的转折点,折线要经过平滑化,画好平滑轮廓线后,还要进行填充。这些显示子程序都是优化的高效的汇编程序,放在基础软件(BIOS或操作系统)里。但是,我现在只能把它放在我的试验软件里,而且是用高级语言VB编成的,没有优化,速度较慢。
2007.9.12
书同文、文同码与无字库
书同文、文同码与无字库
(在第十次汉字书同文学术研讨会上宣讲)
一、书同文
春秋战国五百多年,诸侯割据,各自为政,造成文字相异,迫使秦始皇要搞书同文。此后汉字字形几经变化,好像再没有提出这种任务。两千年后的今天,不到五十年工夫,大陆成功推广了简化字,海峡两岸文字就不一样了,又需要搞第二次书同文。文字本身虽没有阶级性,但也会受政治政策的影响。不过政策不符合文字发展的本性,恐怕也难起作用,如武则天造的字和第二简化字表,就都以失败告终。第一批简化字既已被大陆和世界最大多数华人所接受,决无倒退回去的道理。至于由于简化和归并造成的某些问题,在使用中完全可以理智地避免。实际上任何文字,包括繁体字,都可以找到这种会造成歧义的特例。同样不能把繁体字定为非法。我认为可以搞三五千字的常用字表,但不应该搞什么规范字表,限定汉字数。规范文字(包括规范字音、字义)通常应该由字典去承担。写文章总要求能让读者看得懂,采用读者熟识的字,不会用大量的生僻字,除非不想给别人看。为做到这点,作者可能翻字典而不会去查字表。我想现在最影响中文纯洁性的网络词语中的字母数字,不会纳入规范字表吧,但不能禁止许多人用它。如果不计偏旁替代产生的简化字,简繁不同的字就不多了,大陆青年即使没学过繁体字,现在接触多了也认得了,第一次常常是猜得的。因为大多数简体字来自草书或手写俗字,港澳台也是熟识的。简繁转换有时不一定是必要的,尤其对不对称的简繁字,不同时期、不同地区、不同的人用不相同的字,可能有不同含义,转换之后会丢掉一些信息。总之,我主张兼容并包,两岸交流多了,自然会书同文了。
限定汉字数的做法更要不得。现在的电脑只能使用字库里有的汉字,还要依靠种种输入法,已经扼杀了汉字的发展,逼出奇形怪状的网络词语。我们应该让电脑也能自由使用任何字形,由实践来选择、形成新时代的字集。比起上百万的英文字来,九、十万汉字并不算多。虽然绝大部分是死字,但不能抹杀它的存在,说不定某时某刻要用到它,甚至复活或获得新含义。我们搞文字的,都应该首先致力于研究汉字的科学排序法,通过自动组字软件,把电脑的输入码、内码统一为同一个,编出易用易查的字典,那么什么问题都解决了。
二、文同码
我说的不是输入码,而是汉字内码。二十年前,两岸文字不只是简繁不同,而是更严重的内码不同,软件不配套时,会显示一堆乱码,要经过内码转换才能阅读。现在中日韩所有汉字都统一在统一码Unicode中,没有乱码问题了,而且可以简繁转换。但是问题并没有完全解决。按Unicode的计划,要把世界上所有文字都纳进来,任何一个不同的字形,都有一个唯一的内码,完整的内码要4个字节,可容纳20亿个码位。因为世界上到底有多少种文字,复杂的如汉字到底有多少个字,都不能一次确定,妥善安排,只能由各个国家或地区分次申请注册。汉字已申请到7-8万个码位,但不是连成一片,而是割裂成许多段。字太多了,容易出错,有网友发现所谓的“电脑错字”,也有重复的。更难的是输入法,如何从近十万个汉字中选取您需要的。最后,还是有缺字,尤其缺一些人名用字,使不少人办不了第二代身份证。有一本电子书“国学备览”,就要用一千个图片,用来显示字库里没有的汉字。这说明用扩大字库的方法是不能解决问题的。于是Tom Bishop 和 Richard Cook提出汉字描述语言CDL,据说他们就在Unicode工作的。使用CDL,任何汉字都可以用比它简单的汉字或部件,最后都可以用笔画组出。
比较一下中文和英文,英文字(词)虽然上百万,电脑里也永远不会缺字。原因在于:他们不是对字而是对字母编码的。字是开放的,可以任意造新字,且有自然的字典序。我们也改为对笔画编码,行吗?英文字母是线性排列的,汉字笔画是平面排列的,有可能笔画序列相同而汉字不同,怎么办?这个问题以及笔顺等等,都可以加一些约定来解决,难解决的还是汉字笔画数(平均10-11)比英文字母数(平均5-6)大一倍,码太长,也不直观。如果改为对部件编码,部件又太多。能不能将部件归并成100类,每类定一个高位为1的字节作为内码,只有该类内出现频率最高的部件直接用该码,其他部件则另加一个数码来分辨。这样,使两个高频部件的10000个组合能够囊括两千左右高频字,每字两字节。其他低频字,码长些,击键次数多一些也没有关系。这需要摸索试验,如果成功,输入码与内码相同,自然排序也有了,而且永不缺字,所有问题都解决了。为此,如果需要对常用字形作少量改变或限制,也是值得的,文字工具的改变引起汉字形态的一些变化,历史上就发生过,是正常现象。
三、无字库
在汉字系统中使用组字技术,远不是我开始的。1985年陕西省气象局领导要求我,把已开发的袖珍机PC1500无字库汉字搬到微机上去。因而接触到当时的苹果机时,就知道了朱邦复先生的汉字系统,猜想他就是使用组字技术的。可惜这个课题很快就被停止了。到了新世纪之交,在网上联系到朱先生,下载了他的技术资料,但最终未能读懂。看来读懂别人的这种资料是很困难的,我写的也可能难以被人看懂。下面我尽量简单地介绍我的笔画组字概要。