(四)汉字的熵③

    (四)汉字的熵 : 熵是反映语言的数学面貌的一个重要的信息论参数。在与汉语有关的通信技术和中文信息处理的工作中,有必要了解汉字的熵,这样才能做到胸中有数,把这些工作搞得更有成效。
“熵”本来是物理学中的一个术语,用以表示某些物质系统状态的一种量度,或说明其可能出现的程度。
美国数学家申农(C.E.Shannon)从人们长期的通信实践中提出了信息论的基本原理,并把物理学中熵的概念引入了信息论中。
从信息论的角度看来,用自然语言交际的过程,就是从语言的发送者通过通信媒介,传输到语言的接收者的过程。


语言的发送者连续地发送出一个一个的语言符号(如英文字母、汉字等),语言的接收者则连续地接收到 一个 一个的语言符号,如果把这些语言符号的发送或接收看成是 一些随机试验,把所发送或接收的语言符号看成是随机试验的结局,那么,语言就可以看作是一系列具有不同随机试验结局的链。
如果语言只有两个符号,而且这两个符号的出现概率有很大区别(例如,一个符号的出现概率为0.99,另 一个为0.01),那么,在接收者接收到语言符号之前,他能够满有把握地预言,他最可能接收到哪一个符号,而不大可能接收到哪一个符号,也就是说,这个随机试验结局的不肯定性程度很小。而当语言的符号数目增大时,接收者预言他所可能接收到的语言符号的把握就减小,也就是说,这个随机试验结局的不肯定性程度增大了。还是这些数目的语言符号,而它们的出现概率相等时,接收者不能对其中的任何一个符号寄予较多或较少的希望,这样,预言他所可能接收到的语言符号的把握就更小。也就是说,这个随机试验结局的不肯定性程度更大了。但是,不论在哪 一种场合,当接收者一旦接收到语言符号之后,这种不肯定性便被消除。这时,我们就可以说,接收者从所接收到的语言符号中获得了 一定量的信息。不肯定性消除的程度越大,获得的信息就越多。因此,我们可以用在接收者接收到语言符号之前,随机试验结局的不肯定性程度的大小来表示语言符号所负荷的信息量。由于在物理学中,熵表示热力学系统中分子混乱程度的大小,在信息论中,就把随机试验结局的不肯定性程度的大小叫做熵。在接收到语言符号之前,熵因语言符号的数目和出现概率的不同而有所不同。在接收到语言符号之后,不肯定性被消除,熵等于零。可见,信息量等于被消除的熵,我们只要测出了语言符号的熵,就可以了解到语言符号所负荷的信息量是多少。
上面关于熵的概念可以用我们日常生活中的经验来进 一步加以说明。例如我们看乒乓球单打比赛,如果有十个选手决胜负,那么,观众希望知道胜负消息的心情就比较迫切,熵比较大,而如果只有两个选手决雌雄,这种心情就会差一些,熵比较小。再者,如果几个选手势均力敌,观众要了解胜负结局的心情就更为紧张,熵会陡增;而如果参与比赛的选手之间球艺悬殊太大,观众很容易预先估计谁胜谁负,熵就大大减少了。
可见,熵的大小同参与事件的数目和每个结局的概率有密切关系,我们可以用后者来度量前者。
1.熵的计算公式
如果我们作某一有n个可能的等概率结局的随机试验,那么,这个随机试验结局的熵H0应该与logan成正比,即

H0=klogan,


其中k为比例常数。
信息论中采用比特(bit)作为信息量的单位。如果某一消息由两个出现概率相等的符号构成,那么,包含在这个消息的符号中的信息量,叫做1比特。由于信息量等于被消除的熵,因而我们也可采用比特作为熵的单位。
当H0的单位用比特,对数的底数a=2时,比例常数k=1,这时,我们得到公式

H0=log2n (1)


用公式(1)来度量熵是合理的。理由如下:
第一,随机试验的可能结局n越大,这个随机试验的不肯定性程度也就越大,因而它的熵也就越大。
第二,我们做同时包含两个随机试验的复合试验,一个随机试验有m个可能结局,另一个随机试验有n个可能结局,那么,这个复合试验就有m·n个可能的等概率结局,也就是说,这个复合试验的熵应该等于log2m·n,另一方面,我们又可以认为,这个复合试验的结局的熵应该等于构成这个复合试验的两个随机试验的结局的熵之和,即等于log2m+log2n,但根据初等代数的知识我们知道:

log2m+log2n=log2m·n


可见,复合试验结局的熵,不论是把它看成一个统一的试验还是看成两个随机试验的总和,都是相等的。这个事实证明了我们用log2n来度量熵的合理性。
如果随机试验有n个结局,而且,它们是不等概率的,设第r个结局的概率为Pr,那么,这个随机试验结局的熵H用下述公式计算:


在公式(2)中,因对数以2为底,故熵的单位是比特,且H≥0。
随机试验结局不等概率,减少了这个随机试验的不肯定性,因此,有不等式


等号当且仅当P1=P2=…=Pn=1/n时,也就是随机试验的各个结局等概率时才成立。
公式(2)是一个更为一般的公式。如果我们把书面汉语的发送和接收看成是随机试验,那么,这个随机试验的结局就是汉字,这个随机试验结局的熵就是包含在一个汉字中的熵,由于汉字在汉语书面语中的出现概率是不相等的,我们将采用公式(2)来计算包含在一个汉字中的熵。
2.汉字熵值的测定
汉语书面语的组成符号是汉字。汉字的数量很大,《汉语大字典》所收的字数超过56000字,目前书报杂志上用的汉字大约也有八九千个,而且这些汉字在书面语中出现概率又不相同。因此,要测定在汉语书面语文句中,包含在一个汉字中的熵,其计算是十分繁复的。近二十年来,国外学者已经陆续地测出了一些使用拼音文字的语言如英语、法语、德语、俄语、意大利语、西班牙语、罗马尼亚语等包含在一个字母中的熵。这些语言使用的字母数目非常有限,如俄语只有33个字母,英语只有26个字母。要测出这些语言包含在一个字母中的熵是比较容易的,而要测出包含在一个汉字中的熵就困难得多。
中国学者近年来进行了汉字熵的统计和计算工作,初步测出了包含在一个汉字中的比较稳定的熵值。
要测汉字的熵,首先要计算出这些汉字在汉语书面语中的出现概率。为简单起见,我们可以认为,在相当长的文句中,汉字的出现概率Pr近似地等于它的出现频率。例如,在文句的总字次为80125个字次时,“的”字的出现次数为3365次,那么,“的”字的出现概率Pr=3365/80125=0.042。
中国学者用逐渐扩大汉字容量的办法,根据公式(2)计算出在不同汉字容量时,包含在一个汉字中的熵。其结果如下表所示:

汉字容量n11052183049125104521112370
熵H(比特)07.539.529.619.639.649.65


从这个表中可以看出,随着汉字容量n的扩大,熵值H相应地迅速增大,当汉字容量n继续扩大时,熵值H的增加就变得比较迟缓了。当汉字容量n很大时,随着汉字容量n的扩大,熵值H的增加就更为迟缓了。随着汉字容量的继续扩大,熵值H的增加越来越不显著。当汉字容量n从5211扩大到12370时,熵值由9.64比特增加到9.65比特,仅增加了0.01比特。
估计,当汉字容量n超过12370以后,随着汉字容量n的继续扩大,熵值H不会再有显著的增加。
下面,我们画出汉语文句中包含在一个汉字中的熵H随着汉字容量n的增加而变化的图像。横坐标表示汉字容量n,纵坐标表示包含在一个汉字中的熵H(图五)。


图五


为什么随着汉字容量的不断扩大,包含在一个汉字中的熵会增加得越来越迟缓呢? 其原因是:
第一,随着汉字容量的扩大,文句中常用汉字的出现概率逐渐趋于稳定,不会再有明显的增大。例如,常用汉字“的”字在不同汉字容量中的出现概率如下表所示:

汉字容量n1052183049125104521112370
出现概率Pr0.0510.0420.0410.0410.0420.042


从表中可以看出,当汉字容量较小时,随着汉字容量由1052扩大到1830,“的”字的出现概率由0.051陡然降到0.042,但随着汉字容量的继续扩大,“的”字的出现概率逐渐稳定于0.042。
汉字中以“的”字的出现概率为最高,因此,不同汉字的出现概率Pr≤0.042,即Pr在区间(0,0.042)内取值。在这个区间之内,—Prlog2Pr随着Pr的增加而增加,我们可作出如下的图像(图六):


图六

Pr0.0010.0100.0200.0300.040
-Prlog2Pr0.0099660.0864990.1128770.1517670.1857504


从图中可看出,当Pr≤0.042时,汉语中出现概率Pr较高的常用汉字,它们相应的—Prlog2Pr的值也较高,因而它们对于包含在一个汉字中的熵H的影响也就比较大。既然这些常用汉字的出现概率随着汉字容量的扩大而趋于稳定,所以,包含在一个汉字中的熵也将随着汉字容量的扩大而趋于稳定。
第二,汉语中的非常用汉字的字数虽多,但它们的出现概率极低,随着汉字容量的扩大,这些非常用汉字的出现概率还会有所减小,因而包含在一个汉字中的熵也就会有所减小;而此时随着汉字容量的扩大,文句中又增加了一些新的非常用汉字,从而使包含在一个汉字中的熵有所增加,这便补偿了由于原来那些非常用汉字的出现概率减小而减小的熵,使得从总体上来看,包含在一个汉字中的熵变动不大,稳定于9.65比特。
3.汉字熵值测定的最大汉字容量
随着汉字容量的不断扩大,汉字熵值渐趋稳定。那么,究竟当汉语书面语文句中的汉字容量达到多少的时候,包含在一个汉字中的熵值就不再增加了呢? 也就是说,我们能不能求出使包含在一个汉字中的熵值不再增加的最大汉字容量呢?
数理语言学中有名的齐普夫定律(Zipf`s law)可以帮助我们解决这个问题。
齐普夫定律指出,假设我们研究某一足够长的文句,把这个文句中的词按出现概率递减的顺序排列起来,并顺次从1(出现概率最大的词)到L(出现概率最小的词)编上号码,造出这个文句的词表。词的出现概率用Pr表示,词的序号用r表示,r可取区间1≤r≤L内的全部自然数值。
词表的形式如下:

词的序号(r)1 2……r……L
词的出现概率(Pr)P1P2……Pr……PL


随着词在词表中序号r的增大,相应的词在文句中的出现概率Pr逐渐减小,r由1增大到L,Pr就由,PI减小到PL。
Pr与r之间的关系,可用公式

表示。式中,r表示词在词表中的序号,Pr表示序号为r的词的出现概率,k和γ都是常数,齐普夫由实验测出,γ=1,k=0.1。因此,上式可简化为


我们知道,在根据公式(2)求熵时,各个符号的出现概率Pr应该满足条件


把表示齐普夫定律的公式(3)代入,得

从而有

因此=10

(4)


(4)式即


如果求得了n的值,那么,我们就求得了使文句中各个词出现概率之和为1的最大的词汇容量。
欲求n的精确值,可以把调和级数顺次逐项相加,看加到多少项时其部分和等于10,那么,n的精确值就是多少,但这样做起来运算量太大。


中国学者根据数学中收敛级数的性质及级数比较定理,通过一定的数学推导,得到如下的近似公式:


式中,ln表示自然对数,C=0.577215…,叫做欧拉常数(Euler constant)。
由公式(5)可得


由对数换底公式
(ln表示自然对数,lg表示常用对数,e≈2.71828,是自然对数的底数)
得到

所以

n≈12366


计算结果告诉我们,如果对于某种可用齐普夫定律来描述的语言,当它的词汇容量大约等于12366时,这些词汇的出现概率之和为1,因而如果再增加新的词汇,这些新词汇的出现概率对于整个语言的数学面貌不再有明显的影响。当根据词的出现概率来计算熵时,如果词汇容量超出12366,包含在一个词中的熵就不再增加了。
国外许多关于语言文字的统计试验证明,齐普夫定律不仅适用于词,而且也可以适用于英文字母、俄文字母等文字,也就是说,齐普夫定律的抽象的数学形式,对于语言中的各种离散单元(如词、字母等等)具有一定的普遍性。对这个定律作过深入探索的美国语文学家齐普夫本人甚至把这个定律叫做“人类行为的最小用力原则”(principle of least effort of human behavior),试图把它推广到语言之外的其他人类行为的研究中。
据我们初步的观察,如果把齐普夫定律中的词看成汉字,汉语书面语大体上是可以用齐普夫定律来描述的。因此,上述讨论也大体上适用于以汉字为离散单元的汉语书面语。这样,我们可以粗略地说,当汉字容量不大时,包含在一个汉字中的熵随着汉字容量的增加而增加,当汉字容量达到12366个字时,包含在一个汉字中的熵就不再增加了。在上述测定汉字熵的计算中,当H=9.65比特时,汉字容量已达12370个,它大于12366个,根据以上讨论,我们可以预计,如果再继续扩大汉字容量,包含在一个汉字中的熵还是9.65比特。
《汉语大字典》共收汉字54678个,我们姑且把这个数目看成是汉字的总字数,而我们用来计算熵的最大汉字容量为12366,仅占汉字总字数的22.61%,其余77.39%的42312个汉字,对于包含在一个汉字中的熵已没有什么影响,完全没有必要再继续扩大汉字容量进行计算了。
这样,我们可以说,从汉语书面语文句的总体来考虑,在浩如烟海的全部现代汉语书面语文句中,包含在一个汉字中的熵为9.65比特,因而每当我们从汉语书面语文句中读到一个汉字时,我们就获得9.65比特的信息量。
1951年,美国数学家申农首次应用信息论方法测出了英语中包含在一个字母中的熵。此后,在实践的迫切要求下,学者们又测出了一些印欧语系的语言包含在一个字母的熵,又有人根据日本现代小说家川端康成(1899—1972)的作品,测出了日语书面语中包含在一个假名中的熵。下面是这些语言包含在一个字母(假名)中的熵与汉语书面语中包含在一个汉字中的熵的比较表:






西













(


)
3.984.004.014.034.104.124.384.819.65


从这个表可以看出,各印欧语言的书面语包含在一个字母中的熵相差不大,最小为3.98比特,最大为4.38比特,日语包含在一个假名字母中的熵为4. 81比特,这是由于日文假名为48个,比印欧语言中拉丁字母数或斯拉夫字母数都多,因而假名的熵值较高。而书面汉语包含在一个汉字中的熵为9.65比特,比它们的熵大得多。
汉字的熵值如此之大,说明汉字中包含的信息量大,这固然有其优越之处。但是,从通信技术和汉字信息处理的技术应用角度来看,熵值过大必然会带来技术上的许多困难。根据申农信道编码定理,在一种非扩展的无记忆信源中,码字的平均长度不能小于信源的熵。汉字的熵值大,其相应的码字的平均长度也就很大,即使是一个最优的信道编码系统,其码字的平均长度至少也应与汉字的熵相等,也就是说,如果用二进制数码编码,码字的平均长度不能小于9.65,如果用十进制数码编码,码字的平均长度不能小于2.9066(二进制数码的位数为十进制数码的位数的3.32倍),而英语如果用二进制数码编码,码字的平均长度不能小于4.03,如果用十进制数码编码,码字的平均长度不能小于1.2138,比用汉字编码经济得多。所以,汉字的熵值过大必然要影响到通信的效率。在汉字信息处理中,汉字的输入输出是一个关键问题,汉字的熵值大,其输入输出的信息量也就很大,这就给汉字的输入输出带来很大的困难。尽管现在已经研制出了一些汉字输入输出设备,但其工作效率比英文或俄文输入输出的工作效率差得多。因此,我们一定要搞好现代汉字的规范化、标准化,严格地限制常用汉字的数量,大力减少和淘汰异体字、异形词,使汉语的书面形式适应现代科学技术发展的要求。
上面计算出的汉字的熵,只是在文章中各个汉字互不影响的情况下的汉字熵,如果考虑到某个汉字前面的一个或几个汉字的出现对它的出现概率的影响,还可以根据更复杂的公式,算出汉字的条件熵,这显然是更加困难的工作。关于汉字的条件熵,目前国内外还未见研究成果发表。英语已测出了九阶条件熵,俄语已测出了十四阶条件熵。

为您推荐

(二)微妙的字族系统③

(二)微妙的字族系统 : 汉字是自成系统的文字体系,它的系统性既体现在造字方式上,也体现在字形发展中的分化、类化上。在汉字这个大家族里,家庭成员数以万计,仅常用字就有好几千,其中有一两画构成的..

(四)汉字与各兄弟民族文字③

(四)汉字与各兄弟民族文字 : 我国是一个统一的、多民族的国家。长期以来,繁衍生息在这辽阔、富饶、美丽的土地上的五十六个民族的先民,共同创造了中华民族悠久的历史和灿烂的文化,也创制或使用了绚..

(五)甲骨文的发现及研究③

(五)甲骨文的发现及研究 : 甲骨文,按其产生的时代可分为两大类,一类是殷商甲骨文,一类是西周甲骨文。这两种甲骨文经历了不同的发现过程。 1.殷商甲骨文的发现 殷商甲骨文最初发现于清朝末年的光绪..

(三)汉字的计算机处理③

(一)独特的表意性③

(一)独特的表意性 : 汉字是世界上历史最悠久的文字,从甲骨文、金文到小篆,从小篆经隶变到隶书、楷书,虽经历过几次变革,字形上发生了变化,有些甚至是讹变,但汉民族却从未中断过对它的使用,整个汉字..

(三)汉字与女书③

(三)汉字与女书 : 这个题目应为“女书汉字与方块汉字”,因为不管历史上如何,从目前来看,女书也是一种汉字,是 一种不同于方块汉字的异形汉字。 女书,严格讲应称“女字”,即妇女文字,是 一套奇特的..

(四)推测与假说③

(四)推测与假说 : 汉字究竟何时起源?起源时的情况如何?我们只能根据以下四种材料来进行推断: 一、仅有的与汉字起源有关的书面文献记载; 二、已经发掘出的与汉字起源有关的考古资料; 三、对历史有..