(三)汉字的计算机处理 : 我们现在所处的时代是一个信息革命的新时代,各种信息在人类社会生活的各个领域起着越来越大的作用,信息的储存、加工和传递的手段日益现代化,电子计算机技术得到普遍的推广和使用。语言文字是信息的最主要的载体,因此,语言文字和信息革命有着不解之缘。信息革命中的绝大多数信息都要通过语言文字这个载体来储存、来加工、来传递。这样,仅有四十多年历史的电子计算机便向已有六千年左右历史的汉字提出了挑战。
世界上第一台电子计算机是在1946年由美国人制造出来的,尔后,全世界计算机的装机台数直线上升,五十年代初期只有10余台,到八十年代初期已超过100万台(不包括微处理机),平均每10年增长两个数量级。计算机应用的种类从六十年代的300种发展到八十年代初期的5000种以上。计算机器件的集成度每三年翻三番,而价格则每年平均下降30%。电子计算机的发展速度和应用水平,已成为人类进入信息化社会、国家走向现代化的一个重要标志。
但是,电子计算机使用的是西文打字机的键盘,用这样计算机来处理汉字,会碰到很大的困难,因此,如何使计算机具备汉字处理能力,便是一个亟待解决的技术难题。
中国在六十年代末期就开始对汉字信息处理进行探索和实践,1968年研制成汉字电报译码机,七十年代中期明确提出“汉字信息处理系统”的研制课题,叫做“七四八工程”。1978年以来,中国开始广泛应用大规模集成电路存储器和成套的微处理机芯片,给汉字进入计算机提供了物质条件,研制成一些新型的汉字输入输出设备,并用国内研制的汉字设备和计算机,配置成各种应用系统。近年来,又进一步研制成各种以微处理机为基础的汉字信息处理系统以及用微处理控制的汉字终端。汉字信息处理的研究成果,已开始在事务管理、企业管理、科技情报检索、机器翻译、人机对话、汉字编辑排版、咨询服务、公用事业、计算辅助教学、计算机通信网络、办公室自动化等方面得到推广和应用,这些必将对我国的现代化建设产生深远的影响。
1.汉字编码
汉字是一个大字符集。目前世界上的表音文字,字符数目都很有限,拉丁字母有26个,斯拉夫字母有33个,阿尔明尼亚字母有38个,塔米尔字母有36个,缅甸字母有52个,泰文字母有44个,老挝文字母有27个,藏文字母有35个,朝鲜文字母有24个,日文假名有48个。但是,汉字的字符成千上万,《汉语大字典》所收的汉字超过54000字。当然,汉字信息处理关心的主要是现代汉字,数量要少 一些,但仍然是一个琳琅满目、错综复杂的大字符集。要把这么一个大字符集,通过西文的计算机键盘输入到计算机中去,这就产生了汉字编码问题。
适合于电子计算机输入的汉字编码方案,应该具备如下特点:
(1)简单易学:汉字编码方案应该有较强的规律性,规则简明扼要,操作人员不必经过很长时间的学习就可使用。
(2)重码率低:代码与汉字应该尽可能地一一对应,不能一个代码对应于两个或两个以上的汉字,产生重码。一般应把重码率控制在3%之内,最好在1.5%以下。
(3)速度较快:理想的汉字编码方案,对操作人员进行短期培训之后,就可以实现盲打输入,快速地把汉字输入到计算机中去。
(4)覆盖面大:尽量把出现频度高的汉字纳入编码方案之内,对于一些罕用字,则可排除在编码方案之外,以便用数目较少的编了码的汉字覆盖绝大部分汉语书面文章。
(5)成本不高:汉字编码输入系统的设备,生产成本不宜太高,要有较好的性能价格比。应能使用普通电传打字机的小键盘,而不必另外添置大量的专用设备。
国内外学者在汉字编码方面做了大量的工作,提出的编码方案约600种,已在计算机上实现的方案有50多种。
七十年代末期,汉字编码主要是着重研究专用的汉字输入键盘,所以,当时的汉字编码一般是按键盘大小来分类的,可以分成大键盘位置键盘编码、中键盘部件组合编码、小键盘特征信息编码等三类。八十年代以来,随着微型电子计算机的普遍使用,在通用的微型机小键盘上输入汉字,不仅可以降低成本,而且还便于普及推广,因此,大键盘和中键盘编码基本上已没有人再搞,几乎全都在小键盘上来进行汉字编码了。
在小键盘上编码,按编码时抽取汉字信息特征的种类和方式的不同,可以分为音码、形码、音形码、形音码四种。
音码依据汉字的声、韵、调等语音信息特征来编码,可用全拼、双拼、简拼、混拼等方式键入汉字,并通过语言学的知识来区分同音词。音码一般都以汉语拼音方案为根据。
有人曾作过统计,发现在汉字中字音所负荷的信息量比字形所负荷的信息量大。假定常用汉字的数目为8000个,且各个汉字的出现概率相等,那么,每个汉字所负荷的信息量为13比特,其中,不计四声时,字音所负荷的信息量为8.6比特,占65%,字形所负荷的信息量为4.4比特,占34%,因此,他们认为,如果采用音码,就可以反映出汉字中的大部分信息量。
采用音码的主要困难是区分同音字的问题。汉语的408个音节代表着成千上万个汉字。目前在音码中区分同音字的方法有以词定字法、拼音联想法等,基本上是利用与所输入的汉字有关的语词知识来区分同音字,效果都比较好。
形码依据汉字的部件、笔画、笔画组或字形结构等字形信息特征来编码。按字形来编码,不易受到方言的影响,在方言区特别便于推广,对于不会说汉语的外国人,也可以只根据他所看到的汉字的外部形状来输入汉字,在这些情况下,形码有其方便和优越之处。形码的方案很多,如笔形编码法、五笔字形编码法、三角编码法等,其中以王永民的五笔字形编码法使用得最广。
王永民在五笔字形编码法的设计过程中,曾经对汉字的部件进行过统计分析,为部件的优选和部件在键盘上的合理布局提供了理论依据。他在编码中采用了笔画代号、字型代号、部件代号等三种代号,单体字、合体字、多合字等三种体式,高频字、简码字、一般字等三层频度,提高了输入速度。
音形码主要依据汉字的读音并参考汉字的字形来进行编码,以音为主,以形为辅。音形码的设计者们认为,汉字是形、音、义统一的整体,其中,形声字占了绝大多数,因此,编码时应以音为主、以形为辅。音形码中的“形”,其主要作用在于区分同音字,有的方案的形为汉字的部首,有的方案的形为汉字的角码。
形音码主要依据部件和笔画等字形信息,而这些字形信息是通过它们的读音来帮助记忆的。最有代表性的形音码是“见字识码法”。这种编码法的设计者们认为,汉字基本上是由部件或笔画等字元组合而成的方块单音节字,字形与字音之间没有规律性的联系,同音异形字相当之多,因此,仅从字音还不能识别一个汉字的字形和字义。在人们的日常对话中,说出一个字音,往往还要解释字形,才能使对方了解,在询问姓名时尤其如此。例如:“弓、长”→“张”,“立、早”→“章”,“口、天”→“吴”,“人、可”→“何”……等。这也就是把汉字拆成字元串。“见字识码法”把汉字拆成字元串的方法加以规范,提出了拆字原则。把汉字拆成字元串之后,还要把字元串转换为字码,为此,取字元关系字的汉语拼音的第一个字母为其标记,把标记代入字元串中去,就可得到字码。可见,“见字识码法”是建立在字形和字音双重关系上的。字元是建立在字形关系上的,而由字元转换为代码,又是建立在字音关系上的。由于关系字的标记仅以汉语拼音的第一个字母为准,所以对于字音的要求并不很高,基本上还是一种以字形为基础的编码。
近年来,中国汉字键盘输入技术又有了新的发展,主要表现在下面四个方面:
(1)从汉字本身形、音、义特征出发来进行编码,进一步发展到利用计算机软件的支撑来研究汉字键盘输入技术。
八十年代以前,汉字编码局限于对汉字本身的研究上,编码方案的设计者力求从汉字的结构规律出发来制定相当繁复的编码规则,用户需要学习并熟记这些规则才能键入汉字。随着计算机技术的进步,现在人们已经可以利用计算机软件和语言知识库来简化和取代需要死记硬背的编码规则,这样,汉字键盘输入技术已从单纯的编码方案研究进步到汉字编码与支撑软件相结合的研究。
(2)从人工设计编码方案发展到利用计算机辅助设计来提高编码方案的质量。
早期的编码方案都是人工设计的,编码所必需的各种统计数字,如部件频度、笔画频度等,也是由人工进行统计的。近年来,以计算机统计的数据设计了数学模型,通过计算机辅助设计算法,这些都可以做到自动地分析和抽取汉字信息特征,减少了重码,使编码方案进一步优化。
(3)从汉字编码发展到汉语词语编码,进而向自然语言处理的方向发展。
汉字编码技术早期研究的重点仅局限于就汉字本身来进行编码,编码时只考虑孤立的单个汉字所具有的各种属性,因此,很难区分同音字和同形字。近年来已开始突破了孤立汉字的界限,广泛利用词语信息,进行词语编码。目前,有无词语处理能力以及词语处理水平的高低,已成为衡量汉字编码输入技术的一个重要标志。今后如果利用句法语义分析等自然语言处理技术,必能进一步提高汉字编码的水平。
(4)从单纯注重面向专职操作人员,转而注重面向非专职的一般使用人员。
用于专职操作人员的键盘输入技术,必须强调输入速度,而对于编码方案是否容易学习和掌握,一般并不十分注意。随着计算机的日益普及,迫切需要面向一般文字工作人员(如记者、作家、干部、技术人员)的输入系统,这样的系统应该易学、易记、易用,因此,人们开始研制普及型的汉字编码方案。
中国的汉字键盘输入技术正向着系统化、机助化、系列化、智能化的方向发展。今后的汉字编码方案的发展,将以字为基础、词为主导、智能处理为方向。当然,汉字输入技术的最终突破,还在于计算机和微电子技术的进一步发展。
2.汉字标准交换码
一台典型的汉字处理计算机,通常应具有四种汉字代码:(1)汉字输入码,(2)汉字内部码,(3)汉字输出码,(4)汉字交换码。
汉字输入码是为了将汉字输入计算机而编制的代码,如上面所述的汉字编码都是汉字输入码。
汉字内部码是计算机内部处理汉字信息时所采用的代码,其形式取决于机器本身。为了提高机器的处理效率,汉字内部码一般采用机器原有的代码结构,码长都尽可能短,而且等长。许多汉字计算机,在输入汉字之后都要进行一次将汉字输入码变成汉字内部码的转换。
汉字输出码是将汉字信息处理的结果进行汉字输出打印或显示时所用的代码,它与汉字字形的机内地址有着密切的关系,因而汉字输出码也取决于具体的机器和设备。
汉字交换码是用于计算机之间进行汉字信息交换的代码,它除了要求一字一码之外,还应该遵守计算机信息交换的有关国家标准和国际标准。
1979年,第四机械工业部华北计算技术研究所根据国家标准总局下达的关于制定国家标准汉字信息交换码的任务,会同国内15个从事计算机研制、教学、生产、应用的单位以及语言文字的研究单位,经过两年的努力,于1981年研制成功《信息交换用汉字编码字符集——基本集》(GB2312—80),简称汉字标准交换码或国标码,并于同年3月由国家标准总局正式公布。
汉字标准交换码共分两级,第一级为常用字,有3755字,按汉语拼音字母顺序排列,第二级为次常用字,有3008字,按部首排列。字体以中国文字改革委员会1964年编印的《简化字总表》以及中华人民共和国文化部和中国文字改革委员会联合发布的《第一批异体字整理表》为准。字形以中华人民共和国文化部和中国文字改革委员会1965年联合发布的《印刷通字汉字字形表》为准。
这套汉字标准交换码,适用于一般汉字处理、汉字通信系统之间的信息交换。有了它,各种输入、输出设备就有了统一的根据,各个计算机系统之间的信息交换就有了共同的一致性,计算机信息和资源的共享也就有了保证。
除汉字之外,该标准还收集了一般符号202个(其中包括间隔、标点符号、运算符号、单位符号、制表符号等),序号60个,数字22个,拉丁字母52个(包括大小写),日文假名169个(包括平假名、片假名),希腊字母48个(包括大小写),俄文字母66个(包括大小写),汉语拼音符号26个,汉字注音符号37个,连同汉字一起,共有7445个图形字符。
为便于国内外汉字信息处理与交换,汉字交换码应该与计算机和信息处理方面的有关国家标准或国际标准尽可能保持一致,做到相互兼容。因此,汉字标准交换码以国家标准(GB1988—80)《信息交换用七位编码字符集》(与国际标准ISO646一致)为基础,按照国家标准(GB2311—80)《信息处理交换用七位编码字符集的扩充方法》(与国际标准草案ISO/DIS 2022一致)进行编制。根据这一标准,《信息交换用汉字编码字符集·基本集》中,每个汉字采用两个字节表示,每个字节为七位二进制位,并分别与GB1988—80中的七位二进制位组94个代码相对应。汉字以及非汉字图形字符就排列在这94×94个编码位置所组成的代码表中。
代码表分为94个区,每个区有94位,区的编号从1到94,由第一字节标识;位的编号也从1到94,由第二字节标识。代码表中的任何一个图形符号的位置,用它所在的区号和位号来标识,区号和位号之间用短横相连。例如,汉字“啊”的位置的区号为16,位号为01,可记为16-01。
这个代码表最多可收8836个图形字符,现在尚留有一些空白位置,供进一步扩充之用。
1984年,全国计算机与信息处理标准化技术委员会字符集和编码分技术委员会经过研究,提出了汉字编码字符集标准的繁体字与简体字对应编码的原则,并做出了制订六个信息交换汉字编码字符集的计划。这六个集分别命名为基本集、第一辅助集、第二辅助集、第三辅助集、第四辅助集和第五辅助集。其中,基本集和第二、第四辅助集是简体字集,第一、第三、第五辅助集是繁体字集。在这六个集中,简体字与繁体字存在着明确的一一对应关系:基本集中的简体字与第一辅助集中的繁体字对应,第二辅助集中的简体字与第三辅助集中的繁体字对应,第四辅助集中的简体字与第五辅助集中的繁体字对应,并且对应的简体字和繁体字在相应的字符集中同码。个别的汉字在简繁体之间存在着一对多的关系,作为特殊情况处理。
这六个汉字编码字符集均采用双七位编码方式,每个代码表分为94个区和94个位,其中前15个区作为拼音及符号区,或者保留不用,16区至94区为汉字区。除基本集外,第一、第二、第三、第四、第五辅助集的标准文本中,还对它们在双八位编码环境中的使用方式提出了建议。
上述六个汉字编码字符集中,基本集(GB2312—80)已出版,第二辅助集(GB7589—87)和第四辅助集(GB7590—87)已正式发布,但尚未出版;第一辅助集已于1988年制订完毕,尚未正式发布;第三辅助集和第五辅助集已基本制订完毕。
由于计算机的应用最初只局限于西文小字符集的信息处理,西文计算机是不能处理汉字的。为了使西文计算机具有汉字处理的功能,必须尽量利用它原有的计算机软件和硬件,并以此为基础进一步加以扩充,使之达到中西文兼容的目的。中国中文信息处理的许多研究工作,都是研究如何以西文的八位单字节计算机系统为基础,把西文计算机改造成为能够进行多字节汉字信息处理的中西文兼容的计算机。
近年来,随着国外各种类型不同的机型的引进,中国软件工作者根据各自的情况和需要,设计了一些非标准的汉字内部码,致使国内外产生了十几种计算机汉字内部码制式,在计算机界出现了汉字内部码的混乱。这种内部码的混乱潜伏在计算机系统之间或者不同的计算机机种之间的各个界面上。多种汉字内部码共存的危害性在早期的单用户环境下没有暴露出来。随着计算机应用从单机发展到网络,从单用户发展到多用户,汉字内部码的不统一,给广大用户带来了计算机资源共享的困难。
为了统 一汉字内部码,1987年10月成立了中文内部码与数据类型标准化工作组,以制定汉字内部码规范和中文数据类型规范。从1987年12月起,这个工作组对各公司中文内部码的现状进行了调查。1988年底,这个工作组召开了关于汉字用量和汉字多八位字符编码ISO10646方案的专题研讨会。1988年11月,国内外十八家计算机公司在北京成立了通用中文代码国际联合会,简称ACCC。
除了大陆研制了信息交换用汉字编码字符集之外,台湾省和日本、韩国也都颁布了各自的信息交换用汉字编码字符集。其中,中国大陆的GB2312—80有6763字,台湾的CNS11643的一级常用字有5401字,日本的JISX0208有6349字,韩国的KSC5601有4888字。这四个编码字符集共有汉字23401字。据初步统计分析,其中构形完全相同的汉字产生重复编码约有9400个字次,近似等同的汉字产生重复编码约有3600个字次。如果把完全相同和近似等同的汉字统一起来只编一个码,那么,这个大汉字库只要装填14000个汉字就能够构成国际通用常用的汉字库了。这个大汉字库中,如果按照ISO国际标准化组织在ISO10646方案中给定的汉字编码空间,还可以增加许多次常用字和罕见字,这对于国际汉字通信和国际汉字印刷出版事业是大有好处的。根据这样的理由,中国提出了HCC方案,有效地参与并影响了国际标准化组织ISO的活动,得到了国际上同行的重视。
3.汉字自动识别
汉字编码要靠操作者击键输入。如果要输入大量的中文资料,工作量是相当大的。据统计,中文文献的数量以每七八年翻一番的速度增长,每年在中文期刊上发表的论文约12万篇,这样大量的中文文献,用手工击键的方式输入计算机几乎是不可能的。如果计算机能够自动地认出汉字,并把它显示或打印出来,那么,只要计算机“看”着中文文献,就能准确地把它们输入到计算机中去,将会大大地提高中文信息处理的效率。这样,就出现了“汉字自动识别”这个研究领域。
汉字识别可分为印刷汉字识别和手写体汉字识别两种。
识别印刷体汉字时,首先使用光学的方法,通过光电转换设备将纸面上书写的汉字转换成电信号。由于汉字数目庞大,在识别过程中,若把欲识别的汉字逐个地与标准文字样本中的汉字进行对比,对汉字字形的整体逐点进行匹配,需要花大量的时间,识别速度也很慢,而且,随着识别汉字数量的增加,速度还要明显地降低。为了提高汉字识别的速度,一般都采取分层次识别的方法。一般可以分为确定候选字集、模式匹配和特殊判定三个层次。
为了确定候选字集,要把汉字分为若干个大类别,首先判断输入的未知汉字属于哪一类,并把这一类作为候选字集。然后,将未知汉字与候选字集当中的标准汉字逐个进行匹配,这样便可有效地减少匹配的对象,提高了识别的速度。
确定了候选字集之后,在候选字集当中,一般都会有十几个甚至几十个汉字。第二层次的工作,就是把欲识别的汉字同候选字集当中的这些汉字进行模式匹配,取候选字集中与待识汉字最为相似的汉字作为识别汉字。模式匹配可以在局部范围内进行。
当在局部范围内匹配时,并不能保证整个的汉字一定匹配,所以还需要特殊判定。经过这样的三个层次的工作,才能最后对输入的汉字作出识别。
手写体汉字识别一般不采用图形匹配的方法,而是采用结构分析法。因为手写体汉字不如印刷体汉字那样工整,那样严格,识别时除了判断其是否存在某种特征之外,更重要的是要判断分析这些特征之间存在什么关系,才能取得较好的识别效果。
手写体汉字识别可以分为联机手写体汉字识别和脱机手写体汉字识别两大类。
在与计算机相联的书写板上写出汉字,边写边由计算机来识别,叫做联机手写体汉字识别。如果以书写板的右下角作为原点,把整个书写板看成一个直角坐标系,则汉字中的每一个点,都与直角坐标系中的一个坐标位置相对应。当用笔在书写板上书写时,随着笔的运动,计算机的硬件部分不断地输出数据,当一个有几个笔画的汉字写完时,硬件也就输出了几组数据,描述出每个笔画的轨迹。
不用特殊的书写板,对脱离计算机书写的汉字进行计算机识别,叫做脱机手写体汉字识别。
中国学者在研究汉字识别的过程中,逐渐形成了 一些具有我国特色的汉字特征选取方法。
汉字特征的选取原则上可以从三条思路来考虑:
(1)把汉字看成一般的二维图形,用一般图形选取特征的方法来选取。
(2)把汉字看成有字形结构特点的特殊图形,只考虑几千个或几万个汉字的区别来选取结构特征。
(3)在汉字结构信息中,选取其中的关键的稳定的部分作为特征,而忽略其他的信息。
实践证明,从第二条思路来选取特征比从第 一条思路来选取特征更有效,而从第三条思路来选取特征比从第二条思路来选取特征更有效。
汉字中的关键的稳定的特征的选取方法是十分复杂、多种多样的。主要有如下几种方法:
(1)选取汉字特征点:汉字笔画中的端点、折点、歧点、交点以及汉字背景上的关键背景点,叫做汉字特征点,可以直接根据汉字特征点的类型、数目和位置,自 上而下地或者自下而上地对汉字进行识别。
(2)用“脱壳透视”的方法来计算汉字四周的笔画线长度,并以此长度作为汉字的分类特征,再将每个汉字的复杂结构抽象成一个具有典型特征的稳定框架模型,从中抽取笔画向量、特征点、四边外轮廓笔画长度,以这些特征来对汉字进行细分识别。
(3)用数字形态学的方法提取汉字结构特征,第 一级采用汉字外框特征,第二级采用与字根相似的局部特征(由横、竖结构线段组成),最后用端点、结点等特征来进一步细分识别。
(4)选取汉字四角或三角上的笔画、线段特征来进行汉字识别。
(5)选取汉字的长横、长竖在字形结构的不同区域分布的特征来进行汉字识别。
中国从七十年代末期开展汉字识别的研究,近年来,特别是从1986年以来已有很大进展。
在印刷体汉字识别方面,已研制出一批实用系统,部分系统已经商品化。这些系统,有的可识别单字体,有的可识别两种字体,有的可识别多种字体。识别的字数一般限于GB2312-80的一级汉字(3765个)至 二级汉字(6763个)之内。识别速度因机种的不同而不同,在286微型计算机上一般为每秒9至14个汉字,在386微型计算机上一般为每秒20个汉字。对样张的识别率达到99.9%的高指标,对中等印刷质量的印刷品汉字的识别率可达到95%至98%。输入设备大多采用普及型图形扫描器。能识别的印刷体汉字字号从三号到五号。这些系统一般都具有版面分析、文本识别、识别结果后处理、自动纠错、自动编辑、自动输出等功能。
联机手写体汉字识别已部分达到商品化的水平。识别率初次使用时为80%左右,经常使用可达到95%以上。识别速度基本上跟得上人书写的速度。
中国今后的汉字识别技术,如果能利用单词的上下文信息以及基本句法语义信息,识别率还会进 一步提高,在这一方面,语言学的研究成果对于汉字识别将会起到促进的作用。
4.汉字输出与汉字信息压缩
汉字输出问题是汉字信息处理的另一个难点。我们科学工作者在研究这个难点方面付出了艰辛的劳动,取得了令人鼓舞的进展。
汉字输出要首先把汉字的字形信息存储在计算机的汉字发生器中。汉字发生器又叫汉字库。汉字库可根据来自计算机的指令,取出所需的汉字字符,送到计算机中进行加工处理,然后按 一定的排列顺序,以一定的时间间隔,送到输出装置,显示或打印出所需要的汉字。
由于汉字字形复杂,字形的简繁差异极大,目前在汉字库中,一般采用点阵的方法来表示汉字。把每个汉字分解成一些黑白相间的点,置于网状的点阵格纸中,点阵格纸中的格叫做栅格,对应于计算机存储器的一位,汉字字形有笔画的栅格用“1”表示,汉字字形无笔画的栅格用“0”表示。这样,就可把每个汉字用一个数字化的汉字点阵来表示。在点阵格纸中,写上汉字之后,“1”表现为黑点,“0”表现为白点。
在计算机中这种黑白相间的汉字点阵是通过磁性元件来制作的。在每个栅格的位置上,放一个磁芯(或磁杆),用比头发丝还细的导线穿过,在电路中就可以形成一串脉冲信号,以之表示一个汉字。这样,一个汉字就变成了一串数字化的电脉冲。
汉字字形由横、竖、撇、点、折等基本笔画组成,但这些笔画的长短不同,方向各异,纵横交错,千变万化。汉字还有各种字体,单就印刷体而言,就有宋体、仿宋体、楷体、黑体、隶书体、牟体、小姚体、新魏碑体等,而宋体又可分为报版宋体、书版宋体、标题宋体、长宋体、扁宋体等。另外,从印大标题的特大号字到最小的文中注解用的七号字,又有十几种大小不同的字号。这样,针对不同的应用和不同的输出设备,就要设计不同规格的汉字字形库。
随着我国汉字信息处理技术的发展,国内外汉字计算机用户和厂商都迫切要求信息处理用的多字体、高精度的点阵汉字字形,这样,才能满足各种类型的汉字打字机、显示器、输出系统以及轻型计算机排版印刷系统的需要,并促进计算机汉字字形的规范化和标准化。
现在,我国已经制定并公布了三项汉字字形点阵的国家标准:
(1)GB5199:这是15×16点阵的国家标准
(2)GB5007:这是24×24点阵的国家标准
(3)GB6345:这是32×32点阵的国家标准
为了满足办公室自动化中汉字打印系统的需要,我国还完成了32×32,36×36,48×48的宋体、仿宋体、楷体、黑体的点阵汉字字形数据集的研究。
这些数据集的汉字字形的制定,遵循了如下六项原则:
(1)结构端正,重心平稳。
(2)均匀足格,大小 一致。
(3)偏旁组合,比例协调。
(4)粗细黑白,处理得当。
(5)笔画规范,舒展自然。
(6)部首归类,合理套用。
这样,汉字点阵字形数据集就具备了如下五大特性:标准字体的正确性、整幅字形的一致性、实际字形的清晰性、部首笔形的规范性、实用效果的美观性。
为了满足国际交流和古籍整理的需要,中国从1988年开始,就进行了对应于GB2312—80的第一辅助集的繁体数据集的研制。一旦第一辅助集公布之后,相应的低点阵繁体字系列数据集就可以同时提供国内外用户使用。
同时,我国还积极地开展了128×128、256×256的高精度点阵汉字的研究工作,以满足计算机排版和轻印刷系统的需要。
高精度点阵汉字的研究中的关键问题是汉字信息压缩。
一个128×128点阵的五号字,需要16384个栅格才能描绘出来,一个 一号字的存贮信息超过了8万个栅格,一个报纸大标题用的特大号字,其存贮信息超过了33万个栅格。如果以7000个为印刷常用字的必备字数,每个字还要存贮十几种字体,每种字体还包括十几种字号,所有这些汉字的数字化点阵需要200亿个栅格来存贮信息。200亿个栅格在计算机中就要用200亿位二进制数字来表示,二进制的 一位叫做1比特(bit),这样,就需要有200亿比特的信息存贮量,通常把8个比特称为1个字节(byte),200亿比特的信息存贮量大约为25亿字节。要计算机存贮这样庞大的信息,在技术上非常困难,就是能够存贮,效率也会很低,必将造成惊人的浪费。因此,必须进行汉字点阵信息的压缩,攻下信息压缩这个难关。
目前已经提出的汉字点阵信息压缩方法有如下几种:
(1)叠加拼字法:根据汉字字形结构规律,选取适当的构字单元相互叠加、拼合而成汉字,这样,在汉字库中就不必再存贮原字字形的信息,而只存贮偏旁和部首等构字单元的信息,从而减少存贮的信息量,达到信息压缩的目的。
(2)黑白段长度编码压缩法:在汉字点阵中,有笔画的线段称为黑段,无笔画的线段称为白段,用黑段和白段的长度来表示汉字信息,从而达到信息压缩的目的。这是一种一维空间的信息压缩技术,对于高点阵汉字,可达数倍的压缩率,而对于低点阵汉字则压缩率不大。
(3)轮廓法:在笔画的某些部位取点,以X、Y坐标值描述这些点,以这些点的连线组成不规则多边形来作为笔画的外围轮廓。这个不规则多边形可以恢复成汉字。恢复时,根据坐标值计算出笔画的外围轮廓,对轮廓加以扩充,便得到优美的汉字。
(4)骨架法:以较少的坐标值来描述每一个笔画。例如,用左右各 一个坐标点来描述“一横”,用上下各一个坐标点来描述“ 一竖”。这样产生的汉字是“等线字体”,尤其适用于绘图仪。另外,还可以通过软件产生“圆头”,形成“等线圆头体”。
(5)折线段压缩法:首先把汉字的笔画分为规则笔画和不规则笔画两种。规则笔画包括横、竖、折等,它们由直线段和起笔、收笔、转折等笔锋组成,其中,直线段可有轻微的倾斜,随着笔锋附近笔画的疏密变化,一类笔锋可有不同的形状,有大有小,有长有扁,但它们的总数不大,可以用折线段把它们的外形表示出来,事先存入计算机中,然后编成号,用号码来表示笔锋。由于横、竖、折等规则笔画占汉字总笔画数的67%以上,因此可以提高压缩倍数。不规则笔画包括点、撇等,它们的起笔、收笔、长度、宽度都很不规则,也可以采用一连串的折线段来逼近其轮廓曲线,同样可以压缩信息。
中国是汉字的发源地。方块汉字是中华民族悠久历史的象征。在信息化的时代里,随着汉字信息处理技术的发展和进步,汉字将焕发出新的生命力,发挥更大的作用。
- 欢迎来到文学网!