汉字编码规范化研究的重大突破

汉    正    码



一、关于汉字编码研究的理性思考

    计算机汉字输入方法,按照输入方式划分,可以分为键盘输入法和非键盘输入法。目前比较通用的是键盘输入法。

    键盘输入法技术的核心是汉字编码方案。汉字编码方案是指将汉字与计算机键盘联系起来的规则与方法。根据这种联系的合理性,汉字编码方案可以分为有理码(有规律可循)和无理码(无规律可循)两种。人们通常所说的汉字编码方案是指有理码。

    有理码又分为三类:一类是围绕汉字的发音,利用汉语拼音方案进行编码的音码;一类是围绕汉字的形体特征,利用汉字的构形单位(字根)进行编码的形码;再一类是将音码、形码结合起来的音形结合码

    据统计,目前已发明的各种汉字编码方案达2000余种,业内人士戏为万“码”奔腾。这其中具有实用价值的有上百种,完成上机运行的有几十种,但真正通用的仅十余种。
    各种通用的汉字编码方案各有千秋,但也各有局限。


1、音码

    由于音码是利用汉语拼音方案进行编码,没有多少研究的回旋空间,所以相对简单和规范,只要懂得汉语拼音就可以进行汉字输入。但缺陷也是明显的:

    第一,汉语拼音方案只是一种注音符号系统,与汉字本身没有内在联系,单凭拼音,中国人很难看懂,外国人更不明白。而且汉语拼音方案本身的科学性与合理性也有待进一步完善。所以音码在文化上与汉字处于一种疏离关系。

    第二,普通话中总共只有414个音节(不算声调),面对数以万计的汉字,同音字数量之大可想而知。所以大量的重码是音码无法克服的缺陷。虽然新的智能音码输入软件在以词输入和语句输入方式下,重码问题得到较大改善,但对于严重的单字重码问题却仍然莫奈其何。

    第三,人们识字数量的局限与发音的差异,也是音码无法逾越的障碍。通常人们的认字数量也就在3000字左右,而“现代汉语通用字”的数量为7000,最新国家标准GB18030——2000中汉字的数量为2万7千余个,《汉语大字典》收汉字5万6千余个,《中华字海》则将近9万。所以,对于绝大多数汉字,人们都是见其面而不知其名,对此,音码束手无策。同时,我国又是一个多民族、多方言的国家,人们口语发音的差异永远无法消弭,对此,音码也只能是望而兴叹。

    此外,对于不熟悉汉语拼音方案的人来说,学会使用音码绝对不是一件容易的事情。
    因此,音码对于键盘输入来说虽然不可或缺,但只能扮演配角。

2、形码

    由于形码的研究是从汉字的形体特征着眼,所以形码与汉字本身有一定的内在联系。其主要特点是重码少,且不受语音限制,因而输入效率较高。但目前形码的研究,却大都立足于同一个基点——汉字是由“字根”组成的。由此带来两个问题:

    第一,由于对“字根”的认识学术界一直难以达成共识,所以无法形成国家标准,结果是见仁见智,各行其是,甚至出现了生分硬拆的现象,不仅干扰了人们对汉字的正确理解,而且对中小学识字与写字教育产生了一定的负面影响。

    第二,由于“字根”选取的不规范以及由此造成的数量上的较大差异(从几十到几百不等),给学习和使用带来较大难度,形成所谓“难学难记却易忘”的障碍,令人“费时、费力、费钱、费神”,很是烦恼。

    至于音形结合码,不过是音码与形码的不同组合,虽有取长之效,却也同时兼具了二者的根本缺陷,并无实质性突破。

    对于汉字编码研究一则繁荣、一则混乱的局面,广大计算机用户、专家学者及政府职能部门都做出过积极反应,而且认识一致:汉字编码必须走向规范化。然而十几年来,经过各方特别是专家学者的不断总结、改进、更新,提出了数以百计的各种方案,至今在我国却仍然没有形成一种或几种由国家认定或能被各方人士认可的汉字编码方案。

    目标既定,几多努力,问题依然,原因何在?

    我们认为,第一,由于特定的历史背景,当初汉字编码研究面对的是汉字能否以及如何“进入”计算机的问题。遗憾的是,这一领域的研究却从此再也没有突破实用主义的局限而上升到文化层面。

    实质上,汉字编码研究是在新的历史条件下,即中西方文化的碰撞中,对汉字文化的重新认识,是在比较学的基础上,建立一套新的、科学的、合理的汉字检索系统。所以,汉字编码研究的正确思路应该是,首先着眼于对汉字文化的继承和发扬,着眼于对汉字文化内涵的真实反映和准确体现,而实用性问题应该也必然会由汉字本身的文化内涵和生命力派生出来,并与研究者对汉字文化内涵的理解的深度成正比。
    第二,在具体研究中陷入思维误区:汉字拆分为“字根”、“字根”组合成汉字可逆而且普适,因而规范汉字编码的主要问题就是规范“字根”。

    其实,这一过程可逆却不普适,所以要实现全部汉字构成部件(“字根”)的规范化是难以做到的。举个例子,“铁牛”(拖拉机)拆分成部件,部件再组合成整车,“铁牛”的功能和性质不变。“生牛”(活牛)也可分解为不同的组成部分,但用这些组成部分却绝不能再组合成一头“生牛”。硬这样做的话,得到的只能是死牛。用“铁牛”代表形声字,“生牛”代表象形字,这一误区是显而易见的。

    不同的汉字,构成不同;同一构成部分,在不同的汉字中扮演的角色、所处的地位与层面不同,“字根”是因字而异的。以单一的标准衡定不同组成的对象是只见树木,不见森林,有失科学与合理性。事实上,汉字“字根”的规范化研究积二千多年的努力而未果,已经昭示我们:汉字“字根”的规范化虽然必要却不绝对。如果有一天真的实现了全部汉字“字根”的规范化,那必然是以汉字形义关系的误读、汉字文化信息的损失以及汉字文明的世俗化为代价。正如先觉所言:

“道可道非常道 名可名非常名”