(五)汉字的多余度 : 人们在日常的语言生活中都有这样的体会,电话中有几个词听不清,但全句的意思基本上听得懂;文件上个别字迹漫漶不清,但还是可以根据残存的笔画或上下文把不清楚的文字补出来;看小说时可以“一目十行”,但并不妨碍理解故事的内容。这些情况说明:并不是语言文字中的 一切信息都是必不可少的,去掉或遗漏某些信息,语言文字仍然有可能完成其交际和通信的功能,这样,去掉或遗漏的这些信息,便成为了语言文字中的多余成分,因此,我们有必要研究语言文字的多余度,特别是研究汉字的多余度。
多余度这个概念是美国数学家申农首次提出来的。他把由于语言的结构性而产生的语言中多余成分的百分比,叫做语言的多余度。假设我们写一段包含100个汉字的文章,写好之后,尽量涂掉其中的某些汉字,比如说,涂掉65个汉字,剩下35个汉字,如果根据对于语言结构的知识,我们能够从剩下的35个汉字出发,利用上下文关系,把被涂掉的65个汉字准确无误地推断出来,完整无缺地恢复原文,那么,就说明这65个被涂掉的汉字所具有的信息量都包含在剩下的35个汉字当中了。从这个意义上可以认为,这65个汉字所包含的信息量是多余的。据此,我们可以推断,这段文章的多余度至少是65%。
汉语书面语的多余度用R表示,可按如下公式计算
式中,H∞是汉字的极限熵,也就是尽量充分地考虑到前面的汉字的出现对后面汉字出现概率的影响而求出来的条件熵,它显然就是在汉语书面语的上下文结构中,一个汉字实际包含的有效信息量的多少;H0是汉字的最大熵,也就是把汉字看成是等概率不相关的符号而求出来的熵,根据信息论原理,当每个符号都以相等的概率出现而彼此互不相关时,符号的信息量最大,因而H0叫最大熵,它显然是完全不考虑汉语书面语的上下文结构时,一个单独的汉字所包含的全部信息量。H∞/H0叫做汉字的相对熵,它是汉语书面语文章中有效成分的百分比,用1减去相对熵就得到汉语书面文章中多余成分的百分比,即多余度。
汉字的最大熵H0可根据公式H0=log10n求出。设常用的现代汉字为10000个,则其H0=log1010000=4(十进制单位)=13.28比特。
由于目前对汉字的条件熵研究得还很差,所以,至今为止,还不能直接通过汉字的出现概率及各种条件概率来计算汉字的极限熵H∞,只有通过间接的办法来估算。
现在,国外已经求出英语字母的极限熵大约在0.9296比特~1.5604比特之间。中国学者借中英译文为桥梁,根据英语字母的极限熵来估算汉语书面文章中汉字的极限熵,从而进一步计算出以汉字为基本单元的汉语书面文章的多余度。
假设同样内容的英语文章与汉语文章的消息量(完全信息)相等,则有
H∞(汉)×汉字数=H∞(英)×英文字母数
实验测出,在不计英文的空档时,英语文章中的英文字母数与同样内容的汉语文章中的汉字数之比约为1:3.7左右,即一个汉字大约相当于3.7个英文字母,而英语的极限熵H∞(英)在0.9296比特到1.5604比特之间,由此推算出汉语的极限熵H∞(汉)在3.4395比特到5.7735比特之间。记汉语书面语的多余度为R(汉),根据多余度公式
由此可知以汉字为基本单元的汉语书面语的多余度约在56%与74%之间,其平均值约为65%。
现在世界上各种语言的多余度中,计算得比较精确的是英语,柏登(N.Burton)和里克里德(J.Licklider)两人根据申农的试验方法,通过大量计算求出,英语书面语的多余度在67%到80%之间,其上下限都略高于汉语书面语的多余度。
另外一些实验也表明,印欧语的多余度略高于汉语,列表如下:
| 语种 文体 | 俄语 | 波兰语 | 德语 | 法语 | 英语 | 罗马尼亚语 |
| 口语 小 说 科技书刊 | 0.777 0.812 0.868 | 0.813 0.791 0.866 | 0.792 0.745 0.835 | 0.757 0.773 0.872 | 0.753 0.818 0.875 | 0.801 0.788 0.802 |
这个表中关于英语多余度的数据与柏登和里克里德的数据稍有出入。但从这个表可以看出,汉语书面语的多余度并不算高。
中国学者曾采用类似于申农试验的方法,把报纸上的一些句子人为地去掉10%到60%的笔画,要求大学生把省略的笔画填充出来,恢复原来的面貌。例如,下面是试验用的一部分材料:
试验结果,有 一半以上的人在限定时间内能把笔画所省略55%的文句完全正确地恢复其原状;在时间宽裕的条件下,少数人能够恢复缺省80%笔画的文句。上述材料恢复后的文句为:
| 这简单的称呼体现着生死与共的阶级友爱。 我们种棉花试验有好几年了。 |
这次试验反映了汉语书面语的多余度约在55%到80%之间,与根据英语估算的汉语书面语多余度56%到74%之间悬殊不大。
汉语的多余度比英语低一些,说明汉语比英语“简练”一些,也“难懂”一些。所谓“简练”一些,就是同 一篇文章,中文将比英文短一些;所谓“难懂”些,指从平均的角度看,文章中对于同样长的字母序列,在语义方面给人们的预示能力差 一些,或者说,它的语义更难捉摸 一些,语义的不肯定程度更大一些。英语中使用字母的多余度大,说明英语不经济,但另一方面多余度也保证了英语的可懂度,特别是在噪声中,语言的多余度大,就使得语言有较大的可懂度。
书面文章的多余度具有两重性。文章的多余度越高,它就越便于识别和分辨,它的抗错能力越强,因而也就越显得精密,这是多余度有利的一面。但是,多余度高,文章的多余信息就越多,文章就显得不够精练,这是它不利的一面。因此,一种语言文字,它的多余度不宜过高,也不宜过低,多余度的过高或过低都会给学习和使用带来困难,现存的各种发达语言,都把自己的多余度在语言的学习和使用的实践中不断地调节到最佳值。