从以上对汉字编码研究的思考和对汉字特点的认识中,我们得出三点结论:
(一)做为表意文字,汉字的义是通过形体表现的,而汉字的形体构成是有规律的,掌握了规律,对于汉字的认识就可以做到望文生义,一目了然。
所以,汉字编码研究应该从汉字的形体特征入手,并应能较好地体现汉字的构形原理。
(二)汉字是按照“六书”原理创造的,但具体构造形体的只有象形、指事、会意、形声“四书”。其中象形字、指事字是独体字,不能分解,且数量较少,在GB18030—2000汉字库中,只占不到2%的比例。会意字、形声字是合体字,可以分解。形声字只有两个构成部分,在GB18030中占92%以上。会意字绝大部分也由两部分构成,超过两部分的不足百字。也就是说,98%左右的汉字是由两部分构成的。
所以,汉字的拆分基本上是“一分为二”。将汉字分解成支离破碎的一堆“字根”,违背了汉字的构形原理,当然也影响对字义的理解,实际上也完全没有必要。
(三)现代汉字是笔画文字,基本笔画按运笔方向划分只有五种,即一(横)、丨(竖)、丿(撇)、丶(点)、乛(折)。
所以,汉字的书写笔画为汉字编码提供了现成的材料。
基于以上观点,我们对汉字编码的规范化进行了尝试,在借鉴前人经验的基础上,设计了一套汉字编码方案,我们称之为汉正码。汉正者,汉字之正见也。其特点表现在以下三个方面:
(一)文化性
较好地体现了汉字的构形原理和演变轨迹,符合汉字的认知和书写规律。
(二)规范性
以简化字为基础,采用GB18030—2000大字符集,遵循《国家通用语言文字法》的相关规范。
(三)实用性
科学合理,简明易学,快速实用。
(1)按照汉字的结构间隙拆分,“一分为二”,“望文生义”,没有“字根”。
(2)利用汉字的五种基本书写笔画进行编码,不需特别知识和记忆。
(3)采用模糊化的处理方法,将拆分与编码的疑难化解于无形。
(4)实行高频字优先的原则,符合教学与使用规律。单字1~2码,对一般文章的覆盖率可以达到80%以上,1~3码则可以达到99%以上。
(5)以词为主要输入单位,符合语言和思维构成。具有8万多条常用词组,对一般文章的覆盖面可以达到85%以上,和一级简码配合,则可以达到90%以上。
(6)只要认识汉字,半天时间即可学会,学而不忘;
(7)重码率低,击键次数少,平均每字不超过两键,输入效率高。使用熟练后,一般人都可以达到每分钟100字以上,专业人员则可达到200字以上。