汉字编码还需要发明吗?

  提起汉字编码大家都知道“万码奔腾”,众多编码发明人想出各种方法力图从编码的角度将古老的中文汉字用英文和符号表示出来出来。这其中有年近花甲的老工人,也有还在上学的小学,还有担任国家级重点项目专门从事汉字编码研究的专家学者,有上千件汉字编码发明专利的申请。这些汉字编码虽然不免有些是大同小异,但是也从各个角度将汉字描述得“淋漓尽致”了。
  在汉字编码的发明中有很多因素可加以利用,例如:汉字的发音、笔画、偏旁部首、间架结构、部件与英文字母的相似性、部件与英文数字的相似性、笔画与键盘排列的规律性、发音与键盘排列的规律性、部件发音与英文字母发音的相似性等等。将以上各种方法排列组合后可演变出各种各样的编码规则,再由这些规则经过不同的处理方法就可派生出各不相同的汉字编码方案来了。比如“五笔字型”是按照汉字五个基本笔画的前二笔在键盘上的排列来设计的,“表形码”是利用汉字与英文字母的形状相似性来设计的,“自然码”的形码是按照汉字偏旁部首的发音来设计的。
  然而,汉字编码仅仅是一种方法的表现,要想应用还需要计算机软件的支持。由于大多数汉字编码发明人没有能力将其成果与计算机结合,还没让人们看到其发明的“真谛”,就从此消声灭迹了。还有一些汉字编码虽然制做成软件,但是汉字编码设计有缺陷,或者编码虽然很好,但是与其配合的软件不好,无法应用以致惨遭淘汰。最近几年计算机软硬件飞速发展,很多汉字编码作者实在无力追踪升级。在这种情况下即使其编码再科学、重码率再低、输入编码再简单也只能“望洋兴叹”了。现在我们已经看不到从前“万码奔腾”时的喧嚣,看不到天天有汉字编码“重大突破”,也看不到突破“三分种内学会,最快每分钟输入三百汉字”的新记录,但是它们背影依然模糊,它们的余音还偶尔回荡。
  我认为“五笔字型”、“自然码”和“表形码”是众多较早的汉字编码发明中的幸存者。而“自然码”之所以能够幸存,完全是靠不断创新和持之以恒的耐力,并且一直努力与计算机软硬件保持同步更新和升级。比如:自然码在1989年推出第一个版本时就首先采用了万能挂接方式,并且还能随意实时造词,自动存储。而那时其它的编码输入法软件一般还都仅依赖于某一种中文系统,其中文系统也是各自为政,互不相容,那些只能在某一种中文系统下使用的汉字编码输入法在推广时当然会受到极大的限制。另外,那时汉字系统里面的自造词工具是独立的软件,用户造词时只能用造词工具添加和删除,词组也不能很长,大概也就十来个字,还不能夹杂英文字母、数字和符号。用户在输入中遇到没有的词组只能先用笔记下来,等攒到一定数量后再用自造词工具添加,十分不便。1991年自然码又率先推出了具有前后文智能相关处理,自动调整顺序功能的4.1版,在汉字编码输入法中从技术上居于领先地位,而直到现在其它的编码还没有将这些技术做进产品,或者做得并不好。那些一心钻到汉字编码表中,总希望找到一种简单易学,重码率又低的编码发明人到最后才发现离开软件的支持,所有在编码上构思都是徒劳的。
  在汉字编码的设计上,自然码考虑的是以后的发展,尽管当时计算机应用中是以打字录入为主,形码大行其道。形码一度很受推崇的主要原因是当时计算机的使用人员年龄普遍偏大,而他们一般都没有很好的拼音基础。还有一个原因是当时计算机的处理能力较差,软件制作水平也不够,不能安排大量词组,也无法利用文章的相关信息,必须要大量使用单字输入,这样就要求单字的重码率越低越好,而形码恰恰在这一方面具有优势。在当时最普遍使用的是中华学习机、中英文打字机、傻瓜终端和汉卡,留给输入法的空间一般在3以内。银行及大型系统普遍采用的终端机就是到现在也只能装载最简单的拼音和形码,名噪一时的四通中英文打字机2401,能够提供可扩充的输入法在当时已经是非常先进了,但遗憾的是这种打字机却不提供用于定义自造词的可写空间,另外也只能增加一种64K以内的输入法。由此可以看出,自然码在最初的编码设计时不可能不受这些因素的影响,词组量因为不能太大,必须更多考虑单字的重码率,增加辅助形码,增加符号键做为形码编码,将部分部件的安排移位,尽量减少二义性等等。由于这些因素,自然码辅助的形码虽然相对其它编码方案要简单的多但是并不非常规律,用户使用时往往不得要领,使得至今很多用户在使用自然码却不知其中的形码有什么用。自然码最突出的好处是它的双拼设计的确很好,再加上软件的强大功能,使得自然码的用户量不断增加。1992年至1994年是自然码推广最成功的时期,自然码凭借“超想全字符型汉字系统”和“希望UCDOS”的捆绑而流行起来,以致自然码的双拼方案后来被“微软双拼”、“UCDOS双拼”所仿效,几乎成为事实上的标准双拼。
  1995年以后是语句输入法的天下,各式各样的语句输入法有如雨后春笋般的冒了出来,这些语句方式输入法完全摆脱了汉字编码的束缚,从拼音的角度出发,利用最新计算机的高速度、大容量,Windows窗口界面完全改变了老式拼音输入法中重码多,反复看屏选择的感觉,让拼音用户看到了希望。另外在这一时期之后,计算机用户的需求也逐步从专职录入员高速盲打转向操作者自己直接听想输入的阶段,汉字编码在输入法中的地位从此一落千丈。
  1997年开始“笔输入”大战,这时笔输入系统已经解决了“笔顺”和“连笔”的问题,逐渐由笨拙转为实用。蒙田、慧笔、汉王等等纷纷亮相,“返朴归真”口号无处不在。而1998汉王笔携“IBM语音识别系统”再给手写系统增辉,率先了“听、写识别系统”,将中文输入带入了一个新的时代,“君子动口不动手”更是让人们惊叹不已,而后众多听写系统将市场抄作的火曝异常,“清华听写、文通听写……”,汉字编码和键盘输入似乎已经是落后的书写方式了。
  事实上,1995年以后单位或公司在招聘员工时已经不将是否会五笔字型,以及每分钟输入汉字的数量做为是否会用计算机的衡量标准了,当计算机进入WIN95时代后,汉字输入已经不再向过去那样占有极大的比重,依靠打字员已经无法跟上时代的需要。当计算机从办公应用走向家庭应用,计算机再也不是什么珍宝,“机时”这种词已经不再是价值的体现。每分钟输入200个字的需要几乎没有了,现在人们只要能够达到平均每分钟输入30字的速度就已经心满意足,每分钟输入50字以上应该算高手了,这种转变正在逐步由大中城市波及到中小城市地区,当然这种转变是缓慢的,就向当年大城市中386电脑已经开始普及,而四通2401打字机还能在中小城市销售得火曝以致供不应求,不过这种转变是必然的,就向2401最终还是被市场淘汰了一样。
  虽然汉字编码从“万码奔腾”到现在所剩无几,但是汉字编码却永远不会消亡,汉字编码输入法也不会无人使用,因为新的先进的书写方式并非万能,并非适合在所有场合应用。记得1987年我们参加“中华杯中文电脑(国际)汉字输入公开赛”时,来自加拿大的某参赛队,就采用全拼音语句输入一次转换的输入法,其效果虽然没有现在微软、黑马语句输入法好,但是也能够与一般的语句输入法的水平相当。但是这么先进的成果为什么没有应用呢?原因是当时这种输入法只有在小型机上才能使用,虽然那时的小型机也就相当于386的速度,但是谁会用小型机来当打字机用呢。像这样就是技术水平再高,也是不能够推广的。
  当然,随着手写和语音输入技术的不断提高,汉字编码输入法所占有的份额的确在迅速下降,毕竟职业录入和需要大篇幅输入的人是少数,计算机越是普及这种情况就越是明显,大多数人也就只需要用到很少的汉字,利用手写笔和语音很是容易的,再也不会有大批的人为了输入中文而参加录入培训班。回想起几年前满大街的“五笔培训”、“四通打字”,而现在却不见了踪影,应该可以感觉出这种巨大变化了。
  "手写笔"和"语音识别"按最理想的发展,可能会成为今后汉字输入的主要手段,会占有最多的用户群,但这仅仅限于少量的汉字输入的情况下使用。若是用来录入或者写作还是键盘编码输入更好一些。尝试过手写笔的人都知道,如果用它写一篇1000字以上的文章后,一定会有手都快不停使唤了的感觉,用过语音输入的人更是不想再多说一个字,但是用键盘编码输入就会比较轻松了。当然有个前提,就是对编码输入法比较熟练了以后。我记得有作家和记者曾推动过"作家换笔"甚至"全民换笔"运动,希望人们能够摆脱旧的书写方式,减轻负担。大家都知道,用笔写字是横向运动,而键盘输入是纵向运动,用笔横向写字,平均每字要有5、6个用力动作(在连笔书写时),如果是工整书写则会更多要更多用力动作,比起汉字编码平均一字2、3键来要慢得多。另外笔输入是单手,并且几个手指和手腕都要用力,而键盘输入是双手,每次仅一个手指轻微动作即可完成,因此用笔输入当然会比用键盘输入累很多。语音输入的麻烦更多了,首先对计算机的档次要求很高,周围环境也要封闭和安静,如果您不是一个人在家里,而是在公开场合,相信谁也不会希望被别人听到。当您在一个大办公室里面的话,用"语音"输入一篇文章那么您可就真的要"献丑"了。另外"语音识别"的缺陷还有不能辨别"张"和"章"这样的同音字,这对于输入人名时就困难了。语音朗读对于文章修改基本上是弱项,即便一段文字中只有几个错字,您也必须将含有这几个错字的整段朗读一遍,因为这"语音识别"只能对连续语音进行识别和处理,对于单字修改是无能为力的。当然您可以按销售代理商的说法用手写板辅助修改,不过花那么大的代价就为了避免用几个小时学习拼音或双拼编码真的是得不偿失。
  以拼音或双拼为基础"语句式"输入法也是造成编码输入法受到冷落的另一原因,语句输入法相对于普通汉字编码输入法在学习和使用时确实简单了许多,现在这种语句输入法已经可以在WIN95或WINNT上应用了。但是"语句输入"在使用中情况并不理想,以至于"雷声大,雨点小"。实际上虽然我们的文章是由语句构成的,但是我们在写作时却很少能够一次成形,因为文字需要紧密,不能像口语哪样随意,一篇漂亮的文章的写法是有很多讲究,通常要针对其中的字和词仔细推敲,反复修改。能像一流作家和记者哪样文章一次成形,不需要修改的人是极少数的。还有我们一般人的指法并不好,敲错键和读错音的情况经常发生,输入完成一个语句后其中通常会有错误,对于中间的击键错误和拼音错误,语句输入法几乎不能排除,出现令人啼笑皆非的句子在所难免。一旦一次输入不能正确,回复的修改就又让思维绕回来了,那么语句输入法所承诺的一次一句就成为了泡影。语句输入在修改文章时,虽然不会像连续语音识别哪样对于单个汉字和词组束手无策,但是也被迫沦落到与普通拼音一样的翻页选择的境地。当然如果用语句输入法做为上网聊天,日常书信往来这样对文章质量要求不高的情况下,的确具比普通编码输入法有更好的易用性和更高输入速度,但是其他情况下就有点不如人意了。
  不过,尽管现在汉字编码已经冷落,但是我们还是应该感谢这些汉字编码的发明人,因为如果没有当时的汉字编码,就没有中文时代到到来,也没有中文信息事业这十几年蓬蓬勃勃的景象,毕竟586是这两年才有的,毕竟WIIN95是这两年才开发出来的,而语句输入法、语音识别、手写识别只有在这个环境上才能很好地实现。而那些486以下的计算机,那些大量的终端,那些现在仍在生产和即将生产的终端设备中是否还需要用汉字编码和汉字输入法。此外,职业录入、编辑、出版、写作等工作汉字编码还是少不了的。1998年5月由国家语委和国家新闻出版署联合公布了《信息处理用GB13000.1字符集汉字部件规范》。《规范》中明确了汉字拆分原则和基础部件,给汉字编码提供了依据。《规范》中的汉字“笔画标准”可以减少过去对倒插笔的兼容编码,“拆分规则”和“基础部件”解决了不同习惯用户对汉字拆分的多种理解问题。另外,《规范》中纠正了过去由于某些编码片面宣传和推广而导致的错误概念和错误观念。“表形码、郑码、五笔字型、认知码、规范码、自然码”等均按照《规范》进行了改进,改进以后的编码普遍在重码率方面要比过去的高,但这并不意味着编码的改进是退步了,恰恰相反以略增加重码率的代价换来汉字编码的规范和简化,正迎合了目前普遍用户对易学方面的要求,重码率的多少早已不是汉字编码衡量好坏的标准了。
  我认为,目前摆在汉字编码输入法作者面前的事情不是退缩,不是放弃,也不是感叹和无奈。既不能还抱着汉字编码输入法一统天下的梦想,也不能完全悲观失落,而是应该看到汉字编码输入法的长处,在保持汉字编码在专业录入、长篇写作中高准确率和高速度方面的优势之外,找到手写和语音输入方式所不及的地方,认真负责地将这些工作做得更好。比如自然码在1997年推出的6.0版中,完全适应了WIN95环境,首先将词典软件中的专业词库概念引入输入法,制作出了具有任意衔接各种专业词库的多词库功能。1998年推出的6.0B版中增加了GBK大字符集汉字,将2万多汉字以统一的方式融入其中。1999年即将推出的6.0C版还将增加“词语输入、整篇自动学习、无限量自造词库、词组动态自动记忆、整句自动学习,全声母整句输入,中文语音朗读、中文语音校对、数字语音校对、中文输入语音提示”等一系列新功能,我相信汉字编码键盘输入今后还有很长的路可走,其前景还会非常乐观。

“自然码”发展历程:
  1988年10月,推出“自然码汉字输入系统”1.0版,具有独特的万能挂接、中文标点、中文数字、南方音、难字查询、即时造词/删词功能。
  1989年6月,推出“自然码汉字输入系统”2.1版。
  1990年12月,推出“自然码汉字输入系统”3.1版,增加自造词自动存盘功能。
  1990年6月,推出“自然码汉字输入系统”4.1版,首次将智能相关技术引人汉字输入法,同时也支持自然码词库卡。
  1992年6月,“自然码汉字输入系统”5.0版,允许使用EMS扩充内存,取代词库卡,减少对实内存的占用。
  1994年4月,“自然码汉字输入系统”5.2希望专用版,成为希望电脑公司UCDOS3.0以上版本的捆绑软件。
  1994年6月,“自然码汉字输入系统”5.61版,进一步增大词库量,采用硬盘直接读取,多种编码方式选择,新的多重南方音功能。
  1997年5月,“自然码汉字输入系统”6.0版,多环境(DOS/WIN/WIN95共享)、多词库(成语、地名、军事、医学、法律、出版)、双内码(GB/BIG5)、进一步增强智能化处理。
  1997年10月,“自然码汉字输入系统”6.0A版,增加多内码、多方案及更多的辅助功能。
  1998年5月,“自然码汉字输入系统”6.0B版,利用多词库支持GBK 20902汉字,扩充汉字为可选字库方式,增加“切形汉字查询”功能,增加简繁双集字词输入功能。
  1999年7月,推出“自然码汉字输入系统”6.0C版,增加了“语音朗读”、“多内码转换”、“汉字转拼音”等许多辅助功能。
  2001年9月,推出“自然码输入系统2000”版,增加了“整句输入”,完全融合了字词和整句输入的各种优点。