四、汉正码的价值体现

    ●汉字编码规范化研究的成功实践
    ●中小学汉字教学的辅助工具
    ●科学合理、快捷实用的全新的汉字检索方法
    ●汉语辞书新的编排体系的构建

    汉字编码方案,从技术的角度讲是一种计算机汉字输入方法 ,从文化的角度讲则是一种汉字检索方法。
    汉字的检索方法,自东汉的许慎在《说文解字》中创立了部首法以来,一千八百多年过去了,迄今再无重大发展。许慎的部首法为汉字检索研究立下了不朽的功勋,但也为后世研究者设下了无底的陷阱。现在是到了该有所突破的时候了。计算机时代的到来,中西方文化的碰撞,给我们提供了这样的契机。

    现行汉语辞书的检索方法主要有三种,分别是部首检索法、笔画检索法和拼音检索法,都是同一层面的东西,在实际应用中,都有较大弊端。下面以最新国家标准GB18030规定的二万七千余个汉字的检索为例,分别加以剖析。

(一)部首检索法

    现代汉语辞书采用的部首的数量一般都在200个左右。检索GB18030时,平均每部137字。但象“口”、“木”、“扌”、“氵”、“艹”等每部下面都超过1000个汉字,查检的难度可想而知。而且很多字往往难以确定为何部,所以常常会导致因走错门径而徒劳无功。同时每查一字都要重复同样的繁琐。

(二)笔画检索法

    汉字的笔画数主要分布在5~23画之间的18个数级。汉字的基本书写笔画有五种,即一、丨、丿、丶、乛,共有25种组合。这样,笔画检索法主要有18×25=450个信息元。检索GB18030时,平均每个信息元下约有60个汉字,查检起来也是非常麻烦的。实际上,在笔画检索法中常用字主要集中在有限的一些信息元下,所以不少信息元下汉字的数量都超过300。此外,查清汉字的笔画数也是一件十分麻烦的事,因查错笔画数而导致徒劳无功的事也是每每发生的。最麻烦的还是有很多字很难确定笔顺和查清笔画数。还有,同部首检索法一样,每查一字都要重复同样的繁琐。

(三)拼音检索法

    普通话中总共只有414个音节,利用拼音检索GB18030时,平均每个音节下有66个汉字,其麻烦程度也是不低的。而且一般人的认字数量也就在3000字左右,所以对于收字1万以上的中大型工具书来说,拼音检索法已经不能胜任。

    如果用以检索收单字5万以上的大型工具书,如《汉语大字典》收单字5万6千余个,则三种检索法的每一信息元下的汉字的数量都要翻一番,分别达到280、124和135个。如果用以检索收单字约9万的《中华字海》,则又翻一番,分别达到450、200、218个。其难度令人望而生畏。

    当然,还有一种相对简单的汉字检索方法即“四角号码”,是用0~9共10个数字进行编码,理论上可有10×10×10×10=10000种组合(实际上远远不到),检字的难度相对较小。但因其编码方法与汉字形、音、义三要素中的任一要素都没有直接联系,也就是说缺少理据,难以被社会广泛接受,所以使用面一直很窄。

    而汉正码共有四十多万个编码资源,检索任何一种汉语工具书都游刃有余。特别是汉正码对汉字的检索是“望文生义”,即时所得,一步到位,没有任何中间环节,十分简捷、方便。

    所以,汉正码的价值,将不仅仅体现为一种规范的计算机汉字输入方法,其更重要的意义将体现为对中小学汉字教学改革的正确导向作用,特别是它将导致汉语辞书编排体系的一场彻底革命。