汉字输入编码

    汉字输入编码 : 为便于将汉字送入中文处理终端或系统,用预先设计好的方法,将汉字音、形、义有关要素变成数字、字母或键位名称的转换方法。汉字输入编码是人到机(计算机)交换汉字特征信息的界面。

  世界上使用汉字的人口约占世界总人口的 1/4,因此研究和发展汉字输入编码是一项非常急迫的任务。中国是汉字的发源国,汉字应用已有数千年历史。1987年中国研究汉字输入编码的人员已近 400人,不论在深度和广度上,都走在世界前列。

  1981年,中国国家标准局公布的国标 GB2312-80《汉字信息交换用编码字符集》,收汉字6763个,到80年代中期除专业用字符集外,都以国标字符集所收汉字作为输入编码范围。

  汉字输入编码入手的方法,是在汉字中寻找统一的有规律的特征信息,将汉字二维平面图形信息转换成一维线性代码。根据所取特征信息的不同,汉字输入编码分从音编码和从形编码两大类。其他类型是相互结合型,或与字义结合,或与检字法结合,或与词组结合。因设计的目的、思想不同,用以编码的元素、所用码元的数量、取码方法和规则,避开同码字和占用键盘键位的方法等,都因设计者而异,因此产生了数百种汉字输入编码方案。

  从音编码是以1958年 2月11日中国全国人民代表大会批准公布的《汉语拼音方案》为基本编码元素。汉语拼音是以北京语音为标准音,以北方语为基础方言,以典范的白话文著作为语法规范的普通话。自推广普通话以来,已有相当数量的人掌握了汉语拼音,以此为基础作汉字输入编码,为这部分人所乐于接受。但中国各地方言复杂,不少人还难以做到准确认读汉字,因此容易出现差错。此外,北京语系只有21个声母,39个韵母,1332个音节,不能区别成千上万个汉字,同音字很多,所以需要增加定字编码。这就要从形、从义去找,或借助计算机将同音字全显示出来,再去选择定字,可见从音编码方式输入繁琐,输入速度低。但日常汉语口语中有词、语句的限定,同音字不会被人误解。利用这一汉语特征,拼音编码已向拼音词组编码发展来解决部分欠缺。

  从形编码是以笔画和字根(字元、部件)为编码元素。现代汉字是从甲骨文、金文演变而来,经过篆书、隶书、楷书等演变而形成的。在形体上逐渐由图形变为笔画,象形变为象征,复杂变为简单。造字原则从表形、表义到形声,汉字数量增多主要是形声字数量多。汉字从形编码是充分利用现代汉字这些特征,把汉字平面图形编成线性代码。

  汉字从形编码利用人们已有的汉字书写知识,在键盘上象写字一样打入笔画和字根,从计算机内选出汉字,既直接又方便。这样就要把上千个字根和上百个笔画尽可能归纳,减少它们的数量,以便于记忆字根所在键位。到1987年已能将字根归纳为100个左右,笔画为5个。字根少了会造成分解汉字图形的难度,字根多了又会增加记忆量,所以设计者需从中选取最佳的取舍方案,做到易学易记,因此形码方案数量很多。为达到高速输入,从形编码也向词组编码发展。

  汉字输入编码将会随着计算机应用的普及,通过学术评议和用户实践,由数百种优选成数种实用方案。

为您推荐

汉字输入

汉字输入 : 通过自动或人工的方法把汉字信息转换为计算机内部代码的过程。被输入计算机的汉字信息,既可以是书面的汉字或口头的汉语,也可以是操作者思想中的汉字信息。 人工实现汉字输入,可以是通..

汉字编码

汉字编码 : 为便于把汉字输入中文处理终端或系统,按照某种规则把汉字音、形、义有关要素变成数字、字母或键位名称的转换方法。 目前国内外采用的汉字编码方案有四五百种以上,但归纳起来主要有三种..

输入设备

输入设备 : 把待输入计算机的信息转换成能被计算机处理的数据形式的设备。输入设备不仅有把各种形式的信息转换为数据形式的功能,还有把各种不同传输率的输入信息与计算机工作速率协调起来的作用。..

汉字②

汉字形体沿革

汉字形体沿革 : 议论文。作者启功。选自《书法概论》。本文选自作者主编的《书法概论》。这是其中的《汉字形体沿革》一章的开头一段。本文简单介绍了汉字形体沿革的历史,提出了三个需要注意的问题:一是隶变是古今文..

汉字的数量

汉字的数量:汉字约有5000年的历史。汉字究竟有多少?从历代字书收字数量可见一斑:秦代《仓颉》、《博学》、《爰历》三篇收3300字,西汉扬雄《训纂篇》收5340字,《说文解字》收9353字,《尔雅》收18150字,《声类》收11520字,《..

汉字信息字典

汉字信息字典:上海交通大学汉字编码组、上海汉语拼音文字研究组编着,科学出版社1988年版。本书与普通语文字典不同,多方面提供汉字的形、音、义属性信息,而又重在字形、字音方面的辨正,是一部新型的字典。共收字11254个,其..