(二)汉字的数理统计 : 汉字是一个大字符集,汉字的总数到底有多少,人们使用汉字的情况究竟如何,哪些字是常用字,哪些字是罕用字,汉字的部件分布情况如何,汉字的笔画分布情况如何,这些问题,都 需要通过科学的研究才能回答。
关于汉字的数量,根据字书和词书的记载我们可以看出其发展情况。
秦以前的古文字(包括甲骨文、金文、籀古文等),很多尚待考证,字形多变,字数难定,秦始皇统一六国,以小篆统一了中国的文字,并确立了隶书的合法使用地位,简化了字形,推进了汉字的发展,奠定了方块汉字的基础。小篆的字数,东汉许慎的《说文解字》共收9353字,而李斯等所著的《仓颉》、《爰历》、《博学》 三篇约有3300字,这是秦代的训蒙课本,秦代的通用字当多于这个数字。
秦以后的字数,历代都在增加。汉朝扬雄的《训纂编》,收字5340个,三国魏张揖的《广雅》,收字18154个,晋吕忱的《字林》,收 字12824个,梁 顾野王的《玉篇》,收字16917个,隋陆法言的《切韵》,收 字12158个,唐孙的 《唐韵》, 收字15000个, 宋陈彭年等的《 广韵》,收字26194个,丁度等的《集韵》,收字53525个,王洙等的《类编》,收字53165个,明梅祚的《字汇》,收字33179个,清陈廷敬等的《康熙字典》,收字47043个(增补前为42174个)。1915年欧阳溥存等的《中华大字典》,收字48000多个,1959年日本诸桥辙次的《大汉和辞典》,收字49964个,1971年张其昀主编的《中文大辞典》,收字49888个(韵书中一字多见)。
随着时代的推移,字典中所收的字数越来越多,《 汉语大字典》,收 字数为54678个。
对于这个庞大的汉字字符集,学者们从出现频率,部件,笔画等方面进行了数理统计,取得了一批可靠的数据。
1.汉字字频统计
汉字的频率叫做字频。我国早在二十年代就开始进行汉字的频率统计,字频统计的目 的是为了从庞大的汉字字符集中选出常用字来进行汉字教学。
选出常用字编写识字课本,在我国是有悠久历史的,秦代李斯等的“三仓”,三国钟繇和南北朝周兴嗣的千字文,清光绪时的简易识字课本,1 922年的平民千字课,1925年的市民千字课和农民千字课,像这一类的千字课,越往后越多,如雨后春笋。
我国著名教育学家陈鹤琴为了把编写识字课本的工作建立在科学的基础之上,他开始统计语体文的字频,编写《语体文应用字汇》,于 1925年完成,1928年由商务印书馆出版。陈书在《绪论》中说,《中文应用字汇》曾有多种,其中包括他自己编写的《常用四千字录》 。陈鹤琴做过两次统计,第一次统计使用六种材料(包含554478个汉字),得不同汉字4261个; 第二次使 用34818个汉字的材料,得 出与4261字异的不同汉字458个。第二次统计所得成果毁于火,在《语体文应用字汇》中印出的只是第一次的统计成果。
陈鹤琴用的语料分六类:
(1)儿童用书:127293字;
(2)报刊 (以通俗报刊为主):153344字;
(3)妇女杂志: 90142字;
(4)小学生课外作品: 51807字;
(5)古今小说: 71267字;
(6)杂类:60625字。
书末附有“字数次数对照表”,即按汉字的绝对频率排列的字表。
1945年8月,四川省教育科学院根据陈鹤琴的《语体文应用字汇》和杜佐周,蒋成堃的《儿童与成人常用字汇之调查与比较》,按照两种字表相加后绝对频率之多少,选出最常用的字2000个,编成《常用字选》。上述两种字表统计语料的总字数为775832个。
此外,1930年王文新发表《小学分级字汇研究》,选定小学应识字量为3799个 (初小识2546个字,高小识1253个字); 庄泽宣编出《基本字汇》,定为5262个字,黎锦熙编出《注音汉字》, 选字5787个。当时,研究常用字的人是很多的。
1949年以后,教育部根据新的要求,重新研究常用字问题,1951年确定一等常用字1010个,次等常用字490个,补充常用字500个,合计2000个字,1952年6月5日由教育部正式公布,这就是扫盲的识字标准,规定工人以2000字为标准,农民以1500字为标准。
还有不少单位用手工做过《毛泽东选集》的用字统计。据云南冶金第三矿统计,《毛泽东选集》1至4卷简体字普及本旧字总数为660273个,使用不同汉字3002个。
台北市交通大学花了两千多个人,根据百多万字的语料,也进行过汉字频率的统计工作。
字频统计不仅与汉字教学有关系,而 且,随着信息时代的到来,字频统计也与计算机信息处理发生了密切的联系。
1974年8月,原四机部、一机部、中国科学院、新华通讯社联名向国家计委申请研制 “汉字信息处理系统工程”。同年9月,国家计委下文,批准这一工程,并提出,这一 工程由四机部组织领导,成立领导小组和办公室,这就是有名的 “七四八工程”。
研制汉字信息处理系统,首先要弄清汉字的属性和使用情况,进行汉字统计研究,以便为“七四八工程”提供汉字方面的精确数据。为此,“七四八工程”领导小组和国家出版局商定并拨出专款,开展汉字频率的统计工作,由北京新华印刷厂和北京市印刷技术研究所等19个单位参加,用两年的时间,把从各单位收集来的三亿多字的出版物,分成科学技术、文学艺术、政治理论和新闻通讯四类,并从中选出86本书、104本期刊、7075篇论文,合计21657039个字,作为统计研究的样本,四类语料同时进行频率统计,最后汇总成一份综合资料,提供“七四八工程”使用,他们的统计是用手工进行的,从21657039个汉字样本中,统计出不同的汉字为6347个,并编成了《汉字频度表》。
但是,手工查频费时费力,容易出错,统计样本范围越大,字数越多,出错率就越高,往往事倍而功半。于是,我国又开始用电子计算机来进行大规模的汉字字频统计工作。
北京航空学院和国家语言文字工作委员会联合进行了计算机汉字字频统计工作。他们根据抽样法的理论,将1977年至1982年出版的社会科学和自然科学文献138000000字的语料,抽样11873029字进行统计,于1985年完成,统计结果由计算机打印出13种字频统计表,其中包括:
(1)社会科学、自然科学综合字频统计表各一个。表中,头10个高频汉字是:“的、一、是、在、不、了、有、和、人、这”,它们的累计频率为12.33%,也就是说,平均在每100个汉字中,这10个高频汉字可出现12.33次。
(2)社会科学综合字频统计表一个。
(3)社会科学分科字频统计表一个。
(4)自然科学综合字频统计表一个。
(5)自然科学分科字频统计表一个。
这次字频统计工作,是我国历史上利用电子计算机进行的统计规模最大、统计科目最多的一次,它不仅为现代汉字的定量研究提供了有用的数据,而且对于汉字教学、汉字的机械处理和信息处理的研究也有参考价值。
北京语言学院对十年制语文课本进行了字频统计,统计结果提供了一个《按出现次数多少排列的常用汉字表》,其中1000个常用汉字,在520934字的全部统计材料中,出现的总次数为40935次,占78.57%。
《字表》所收汉字频率最高的是“的”字,其出现次数为20648次,出现频率为0.0396364,也就是说,平均每100个汉字中,“的”字就要出现4次。《字表》所收汉字出现频率最低的是“悲”字,其出现次数为10次,出现频率为0.0000191。按频率高低排列的前100个汉字,在语文课本中至少都出现826次以上,总计出现次数230946次,占统计材料的44.33%,这意味着有近四成半的课文内容是用这100个汉字来表达的。《字表》中的1000个常用汉字,占了中小学语文课本全部篇幅的近五分之四,如果在汉语的基础教学阶段和初期学习中,挑选出这些常用汉字尽先讲授,让学生尽早掌握,将会大大加快识字教学的进度,提高语文教学的质量。
为了适应语文教学,词书编纂、汉字信息处理、汉字机械处理的需要,国家语言文字工作委员会从1986年6月开始研制现代汉语常用字表。研制时提出了四项选字原则:
①根据汉字的出现频率,选取出现频率较高的字。
②在出现频率相同的情况下,选取学科分布广、使用度高的字。
③根据汉字的构词和构字能力,选取构词能力和构字能力强的字。
④根据汉字的实际使用情况,进一步斟酌取舍。有的字在书面语中很少使用,统计时往往统计不到,但在日常生活中却经常使用,对于这样的字,也应适当选取。
根据统计计算结果及这四条原则,编出了《现代汉语常用字表》,共3500字,其中常用字2500个,次常用字1000个。
1988年3月,国家语言文字工作委员会和新闻出版署联合发布了《现代汉语通用字表》,字表共收汉字7000个(包括《现代汉语常用字表》收入的3500字),主要依据《印刷通用汉字字形表》,删去了其中的50字,增收854字。
制定通用字表的选材时间范围从1928年到1986年。在此时间区域内采用不等密度抽样,抽样量按时间顺序递增,以近期资料为主要的抽样对象。因社会用字与政治、经济、文化的发展有密切的关系,不同时期的用字情况不尽相同,如果只依据某一短时期的用字情况选字,就会有时间的局限性。适当地把统计的时间拉长,纵观各个不同时期的用字情况,就可以判断某个字的使用是否稳定。选取使用稳定的字,才能避免选字的偶然性。
通用字的选取,仍根据频率、使用度、构词能力、实际使用情况等四个方面的原则,综合考虑,决定取舍。
为了弄清汉字在新闻信息中的流通规律,新华社技术研究所对汉字在新闻信息中的流通频率进行了统计研究。他们准备了近两年时间,设计了计算机自动统计软件,选择新华社国内通稿电路,从1986年1月1日起到12月31日止进行统计,共统计了90627篇稿件,汉字容量为40632472个。统计结果表明:1986年使用的不同汉字为6001个,标点符号17个,外文字符39个,阿拉伯数字10个,其他字符30个,全年共使用字符6097个。
新闻汉字流通频率的统计表明,汉字的使用带有明显的时代特征。1986年度使用频率最高的汉字依次是“的国 一十中”,如果把这五个汉字的顺序整理一下,就是:“中国的十一”,这恰恰是我国的国庆节!这种偶然的巧合,把我国人民对于自己国庆节的热爱,表现在新闻汉字的流通使用中。“一二三四五六七八九个十百年月日”等表示数字和日期的汉字流通频率很高,反映了在改革开放的形势下,我国人民重视科学数据、重视时间和速度的新风貌。在各种字符的流通频率中,逗号居首位,“的”字居第二位,“的”字的使用频率,从 “七四八工程”《汉字频度表》中的3. 75%,下降到流通频率统计时的3%(去掉标点符号所作的统计)。句长平均为每句43个汉字,段长平均为每段100个汉字,新闻每篇平均长度为401个汉字,比“七四八工程”时统计出的新闻平均长度短60%。这种情况,反映了新闻的文风逐渐简短化的趋势。“七四八”统计的是“文化大革命”后期的资料,当时的文章比较冗长,改革开放十年来,文章写得短小精干,文风有了明显的改进,这是令人高兴的事。
对于古代汉语中汉字的使用情况,也有人进行过统计。十三经是封建社会儒家的权威文献,共包括易经、尚书、毛诗、周礼、仪礼、礼记、左传、公羊传、谷梁传、孝经、尔雅、论语、孟子等共13部,有人统计过全部字数为589283个字,其中不相同的单字数为6544个字。这很可以代表上古汉语通用字的最高约数。还有人统计过《红楼梦》全书的总字数为731017个字,其中不相同的单字数为4462个字,有1623个不同的四字格成语。
2.汉字结构的统计
现代汉字的形体结构可以分为汉字、部件、笔画三 个层次。汉字是最高层次,部件是中间层次,笔画是最低层次。例如,“湖”字的三个层次如图一所示:
图一
层次越高,表示一个字所用的符号越少,符号的总数越多。如最高的“汉字层”,表示一个字只需用一个符号,如果有五万个汉字,就得用五万个符号。层次越低,表示一个字所用的符号越多,符号的总数越少。如最低的“笔画层”,表示一个字最多要用几十个笔画符号(《辞海》中笔画最多的字是“齉”字,有36画),而笔画符号的总数可减少到横、竖、撇、点、折等有限的几种。部件处于中间层次,它是组成现代汉字的能够相对独立的结构单位。部件比笔画完整,又比汉字本身简单、灵活,所需的符号数目适中。在汉字形体结构的三个层次中,部件是枢纽性的环,是汉字形体结构的核心。
汉字形体结构
根据汉字中部件与部件之间的方位关系来分,汉字的结构可分为14种:
(1)左右结构:可表示为
如:“郑、伟、休、拉”
(2)上下结构:可表示为
如:“志、苗、字、吉”
(3)左中右结构:可表示为
如:“彬、湖、棚、僻”
(4)上中下结构:可表示为
如:“奚、冀、禀、亵”
(5)右上包孕结构:可表示为
如:“句、可、司、式”
(6)左上包孕结构:可表示为
如:“庙、病、房、尼”
(7)左下包孕结构:可表示为
如:“建、连、毯、尬”
(8)右下包孕结构:可表示为
如:“斗”
(9)上三包孕结构:可表示为
如:“同、问、闹、周”
(10)下三包孕结构:可表示为
如:“击、凶、函、画”
(11)左三包孕结构:可表示为
如:“区、巨、匝、匣”
(12)全包围结构:可表示为
如:“囚、团、因、囹”
(13)单体结构:可表示为
如:“丈、甲、且、我”
(14)特殊结构:可表示为
如:“坐、爽、夹、噩”,其中有些字的结构是对称的。
把汉字拆分为部件,要遵循分级拆分的原则,在拆分时,不是 一步就把 一个汉字拆分成许多个部件,而是首先把它拆分为两个部件,再把拆分成的这两个部件分别进行下一级拆分,如此逐级往下拆分,一直拆分到末级部件为止。采用这种逐级拆分的方法,可以把 一个方块汉字的拆分过程表示为一个 二叉的树形图。例如,“潺”字的切分结果如图二所示:
图二
最后得到的部件不能再拆分了,它们是末级部件。试验结果表明,最多可拆分到第七级。
汉字部件分析统计
1983年1月至1984年5月,原中国文字改革委员会汉字处与武汉大学合作,利用电子计算机MC68000,对《辞海》(1979年版)所收的16296个汉字以及《辞海》未收而GB2312—80国家标准《信息交换用汉字编码字符集·基本集》收入的43个汉字,合计16339个汉字,进行了部件分析统计。为了进行比较,同时还统计了GB2312—80汉字编码字符集中的汉字部件。主要统计结果如下:
(1)汉字结构方式的频率:
根据汉字的部件与部件之间的方位关系,并考虑到要使部件拆分的顺序不致出现分歧,把汉字共分为14种结构方式,每种结构方式的频率如下:
| 序号 | 结 构 | 在《辞海》中 的频率(%) | 在GB2312—80 中的频率(%) |
| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 | 左右结构 上下结构 左中右结构 上中下结构 右上包孕结构 左上包孕结构 左下包孕结构 右下包孕结构 上 三包孕结构 下三包孕结构 左三包孕结构 全包围结构 单体字结构 特殊结构 | 68.45 20.33 0.098 0.53 0.54 3.58 2.34 0.006 1.13 0.43 0.20 0.32 2.19 0.50 | 62.59 22.49 0.103 0.59 0.77 4.13 2.33 0.015 0.93 0.089 0.22 0.40 4.76 0.58 |
从统计结果可以看出,汉字以左右结构的字数最多。
(2)汉字部件分级统计:
采取分级拆分的方法,对汉字进行拆分,从整个汉字直拆分到拆分的下限大于笔画的部件为止。每级拆分出来的部件总数以及这些部件在该级中的总出现次数如下表所示:
| 拆分的层级 | 部件总数 | 该级全部部件 在该级的总出现次数 |
| 第一级 第二级 第三级 第四级 第五级 第六级 第七级 | 3061 1302 539 195 48 12 3 | 32065 34296 16777 3872 396 184 6 |
(3)汉字部件分级频率统计:
统计每一级的每一个部件的出现次数,该出现次数占该部件总出现次数的百分比,即频率,以及该部件在包含此部件的汉字中所出现的结构部位。例如,“氵”这个部件在第一级中出现761次,占第一级部件总出现次数的2.373%,该部件在包含此部件的汉字中出现的结构部位有:出现在字左部有760次,出现在字中间部位的有1次(“衍”字)。“艹”这个部件在第一级中出现697次,占第一级部件总出现次数的2.174%,该部件在包含此部件的汉字中出现的结构部件总是在字的上部,在其他部件没有出现。“木”这个部件在第一级中出现690次,占第 一级部件总出现次数的2.152%,该部件在包含此部件的汉字中出现的结构部位有:出现在字左部有585次,出现在字右部有4次,出现在字上部有10次。
(4)汉字部件总组字数及分级组字情况统计:
例如,“一”这个部件的总组字字数为1743个,总出现次数为1875次,该部件总组字字数占被统计汉字的10.6677%。这个部件在每一级中的组字情况如下:
在第一级中,组字数25个,出现次数25次,占被统计汉字的0.1530%,在不同结构部位的组字字数为:
上下结构 18
右上包孕结构 3
上三包孕结构 2
上中下结构 2
在第二级中,组字数687个,出现次数699次,占被统计汉字的4.2047%,在不同结构部位的组字数为:
左右结构 530
上下结构 119
右上包孕结构 4
左上包孕结构 8
左下包孕结构 4
上三包孕结构 3
下三包孕结构 1
全包围结构 1
上中下结构 9
左中右结构 7
特殊结构 1
在第三级中,组字数800个,出现次数829次,占被统计汉字的4.8963%,在不同结构部位的组字数为:
左右结构 611
上下结构 113
右上包孕结构 3
左上包孕结构 23
左下包孕结构 15
上三包孕结构 7
左三包孕结构 2
全包围结构 2
左中右结构 1
特殊结构 23
在第四级中,组字数280个,出现次数301次,占被统计汉字的1.7137%,在不同结构部位的组字数为
左右结构 196
上下结构 65
右上包孕结构 1
左上包孕结构 10
左下包孕结构 2
上三包孕结构 4
全包围结构 1
特殊结构 1
在第五级中,组字数18个,出现次数18次,占被统计汉字的0.1102%,在不同结构部位的组字数为:
左右结构 10
上下结构 5
上中下结构 3
在第六级中,组字数2个,出现次数2次,占被统计汉字的0.0122%,只在上下结构中组字2个。
在第七级中,组字数1个,出现次数1次,占被统计汉字的0.0061%,只在左右结构中组字1个。
(5)汉字末级部件组字频率统计:
所谓汉字的末级部件,是指各级汉字部件中不能再进一步拆分的部件。在16339个汉字中,共拆分出不能再进一步拆分的末级部件675个,也就是说,这675个末级部件可覆盖16339个汉字。
统计结果表明,在《辞海》中组字频率最高的末级部件是“口”这个部件,其组字频率高达20%以上,其次顺次为“一、艹、木、人、日、氵 、亻 、八、士”等部件。
当然,这次部件统计分析得出的是静态的部件组字频率,没有考虑到汉字本身的出现频率对部件组字频率的影响。例如,构成“的”字的“白”和“勺”这两个部件,由于统计分析时没有考虑到“的”字的出现频率对它们的组字频率的影响,它们在末级部件组字频率表中的序号都比较后,部件“白”的序号为75,部件“勺”的序号为307。但如果考虑到“的”字的出现频率对它们的影响,那么,这两个部件的组字频率将会大大提高,这样的组字频率就不是静态的,而是动态的了。我们把这种动态的组字频率叫作实用频率。实用频率对于键盘设计以及各个部件在键面上的合理排布有很大的价值。
王永民在研究五笔字型编码法的过程中,曾对现代汉字的实用频率作过统计分析。他以北京新华印刷厂的《汉字频度表》作为原始材料,用手工逐字分抄部件并附上出现次数,共分抄出664个部件,总计出现次数为4916万次,统计出了这些部件的实用频率。下面我们列出10个实用频率最高的部件的实用次数及实用频率。
| 序 号 | 部 件 | 实用次数 | 实用频率 |
| 1 2 3 4 5 6 7 8 9 10 | 口 人 土 日 火 亻 犬 白 勺 木 | 3592327 1122709 1090178 1051380 1015587 982660 907062 885815 850179 827214 | 7.30% 2.38% 2.22% 2.14% 2.10% 2.08% 1.85% 1.83% 1.73% 1.68% |
从这个表中可以看出,部件的动态实用频率与静态组字频率有相当大的出入。例如,由于“的”字的实际使用频率很高,组成它的“白”、勺”两个部件的实用频率比组字频率大。部件“白”的序号为8,而在末级部件组字频率表中,它的序号为75;部件“勺”的序号为9,而在末级部件组字频率表中,它的序号为307。
3.汉字笔画的统计
原文改会汉字处与武汉大学合作进行汉字部件统计分析的同时,还进行了汉字笔画与多音字的统计分析。
首先统计了不同笔画数所包含的汉字数。统计结果表明,在《辞海》中,一画的汉字有3个,这是笔画最少的汉字,36画的汉字只有1个(齉字),这是《辞海》中笔画最多的汉字;在GB2312—80字符集中,一画的汉字有5个,笔画最多的汉字只有1个(“爨”字),有30画。
下面,我们列出《辞海》和GB2312—80字符集中不同笔画数所包含的汉字数:
| 笔画数 | 《辞海》 | 字符集 |
| 1 2 3 4 5 6 7 8 | 3 23 74 163 261 462 825 1084 | 5 34 79 140 202 348 533 675 |
| 笔画数 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 | 《辞海》 1276 1371 1453 1553 1365 1190 1132 961 788 569 499 370 263 208 159 122 65 36 28 15 8 6 1 2 2 0 1 1 | 字符集 752 726 702 635 524 397 311 251 174 76 81 46 24 19 13 8 5 1 0 0 0 1 0 0 0 0 0 0 |
在《辞海》的16296个汉字中,平均每个汉字的笔画数是12.7061画,其中,12画的字数最多,有1553个,从下面的图中可看出,笔画少于12画的汉字,画数越多,包含的汉字数越多,笔画多于12画的汉字,画数越多,包含的汉字数越少,这是一个很有趣的现象。字数与笔画数之间的这种函数关系,在数学上叫做正态分布(normal dis-tribution,图三)。
在GB2312—80字符集的6763个汉字中,每个汉字的平均笔画数是10.635画,其中9画的字数最多,有752个,也遵从正态分布:笔画少于9画的汉字,画数越多,包含的汉字数越多,笔画多于9画的汉字,画数越多,包含的汉字数越少。如图四所示。
比较《辞海》与GB2312—80字符集的函数图像可以看出,笔画数与字数的关系是基本上一致的,它们都呈正态分布。不同之处是:《辞海》函数图像中曲线的峰点比GB2312—80字符集函数图像中曲线的峰点要高,这是由于所统计的字符集大小不同而造成的,因为《辞海》所收的汉字比GB2312—80字符集所收的汉字几乎多一万个;另外,《辞海》函数图像的曲线的峰值在8至15画之间,而GB2312—80字符集函数图像的曲线的峰值在7至13画之间,后者的峰值比前者狭窄,这显然是由于《辞海》中存在大量的繁体字和异体字造成的。
图三
图四
正态分布是一种常见的重要的分布。学者们早就发现,人类的各种精神或生理特征都遵循着正态分布。以上的统计数字说明,这种正态分布,也同样存在于汉字之中。
汉字笔画是汉字从篆书变到隶书之后才形成的。晋朝卫夫人在其《笔阵图》一文中把汉字笔画分为一、、、丿、丨、㇏、㇂、㇆七种,但没有给这七种笔画定名。直到唐朝的张怀瓘作《永字八法》,才定出八种笔画的名称,即侧(现称点)、勒(现称横)、努(现称竖)、趯(现称钩)、策(现称挑)、捺(现称撇)、啄(现称短撇)、磔(现称捺)。此后人们划分汉字的笔画渐趋细密,笔画的名称也日趋统一。现在,一般把汉字的笔画归纳为一、丨、丿、丶、乛五种。这五种基本笔画的频率统计结果如下:
| 笔画 | 《辞海》中的频率 | GB2312—80《字符集》中的频率 |
| 一 丨 丿 丶 乛 | 30.66% 19.17% 15.07% 17.51% 17.58% | 30.46% 19.12% 15.99% 16.74% 17.68% |
从表中可以看出,在《辞海》和GB2312—80字符集中,五种基本笔画依出现频率由高到低的排列都是:一丨乛丶 丿 。
在目前的一些字典中,汉字可按书写笔顺的起笔来查询,因此,有必要研究汉字起笔的统计规律。统计结果如下:
| 起笔 | 字数 | 占全部被统计汉字的百分比 |
| 一 丨 丿 丶 乛 | 4693 2636 3940 3410 1660 | 28.722% 16.133% 24.116% 20.870% 10.159% |
可以看出,五种基本笔画依起笔频率从高到低排列顺序是:一丿 、丨乛。
此外,还统计了多音字的情况。
《辞海》中共有多音字2641字(被淘汰的异体字和计量用字未包括在内),统计结果如下: 一字二音,2112字;一字三音,422字;一字四音,81字; 一字五音,18字; 一字六音,7字;一字八音,1字。
可以看出,随着字的读音数目的增加,所包含的汉字数显著地减少。在各种多音字中,一字二音占绝大多数,一字八音只有“那”一个字。
1974年8月北京新华印刷厂等单位所进行的手工汉字查频工作中,把汉字按频率的高低分为五级,如下表所示:
| 名 称 | 级数 | 字数 | 累计频率(%) |
| 最常用字 常用字 次常用字 稀用字 冷僻字 | 一级字 二级字 三级字 四级字 五级字 | 500 500 500 1500 2991 | 77.419 90.819 95.898 99.597 100.00 |
在上述统计、研究成果的基础上,又分级对汉字进行笔画统计。统计结果如下:
一级字笔画统计结果:500个最常用的一级字,共有笔画3622画,平均笔画数7.244,笔画最多的字为16画。笔画分布情况如下:
| 画 数 | 字 数 | 百分比(%) |
| 1 2 3 4 5 6 | 1 14 29 48 49 74 | 0.20 2.80 5.80 9.60 9.80 14.80 |
| 画 数 | 字 数 | 百分比(%) |
| 7 8 9 10 11 12 13 14 15 16 | 60 68 53 42 23 17 11 4 4 3 | 12.00 13.60 10.60 8.40 4.60 3.40 2.20 0.80 0.80 0.60 |
二级字笔画统计结果:500个常用的二级字,共有笔画4355画,平均笔画数8.710,笔画最多字为21画。笔画分布情况如下:
| 画 数 | 字 数 | 百分比(%) |
| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 | 1 0 6 22 39 54 63 62 74 52 46 31 19 13 7 4 3 1 0 2 1 | 0.20 0.00 1.20 4.41 7.80 10.80 12.60 12.40 14.80 10.40 9.20 6.20 3.80 2.60 1.40 0.80 0.60 0.20 0.00 0.40 0.20 |
三级字笔画统计结果:500个次常用的三级字,总笔画数为4840画,平均笔画数为9.680,笔画最多的字为21画。笔画分布情况如下:
| 画 数 | 字 数 | 百分比(%) |
| 1 2 3 4 5 6 7 8 | 0 2 5 14 19 37 54 55 | 0.00 0.40 1.00 2.80 3.80 7.40 10.80 11.00 |
| 画 数 | 字 数 | 百分比(%) |
| 9 10 11 12 13 14 15 16 17 18 19 20 21 | 62 59 51 51 35 24 12 10 6 1 2 0 1 | 12.40 11.80 10.20 10.20 7.00 4.80 2.40 2.00 1.20 0.20 0.40 0.00 0.20 |
四级字笔画统计结果:1500个稀用的四级字,总笔画数为15655画,平均笔画数10.437,笔画最多的字为23画。笔画分布情况如下:
| 画 数 | 字 数 | 百分比(%) |
| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 | 0 2 9 28 45 68 122 168 179 183 161 158 127 75 76 38 26 9 9 12 2 2 1 | 0.00 0.13 0.60 1.87 3.00 4.53 8.13 11.20 11.93 12.20 10.73 10.53 8.47 5.00 5.07 2.53 1.73 0.60 0.60 0.80 0.13 0.13 0.07 |
五级字笔画统计结果:2991个冷僻的五级字,总笔画数为34682画,平均笔画数11.596,笔画最多的字为25画,笔画分布情况如下:
| 画 数 | 字 数 | 百分比(%) |
| 1 2 3 | 0 2 7 | 0.00 0.07 0.23 |
| 画 数 | 字 数 | 百分比(%) |
| 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 | 22 39 91 188 268 306 318 340 313 269 211 167 155 120 48 52 28 19 9 8 6 5 | 0.74 1.30 3.04 6.29 8.96 10.23 10.63 11.37 10.47 8.99 7.06 5.58 5.18 4.01 1.61 1.74 0.94 0.64 0.30 0.27 0.20 0.17 |
一至五级字笔画统计结果:如果把从 一级字到五级字5991个汉字作总的笔画统计,那么,我们对于汉字中笔画分布的总的情况就能有一个全面的了解,由于这种统计是根据字频统计的动态结果进行的,所以,它反映了汉字笔画的动态分布情况。一至五级字共有笔画63154画,平均笔画数为10.542,笔画最多的字为25画。笔画分布情况如下:
| 画 数 | 字 数 | 百分比(%) |
| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | 3 19 56 134 191 324 487 621 674 654 621 570 461 327 266 210 155 | 0.05 0.32 0.93 2.24 3.19 5.41 8.13 10.37 11.25 10.92 10.37 9.51 7.70 5.46 4.44 3.51 2.59 |
| 画 数 | 字 数 | 百分比(%) |
| 18 19 20 21 22 23 24 25 | 59 63 42 23 11 9 6 5 | 0.98 1.05 0.70 0.38 0.18 0.15 0.10 0.08 |
从上面所列举的统计数据可以看出,汉字笔画的动态分布情况,在各级字中,均呈正态分布,这种情况,与从字典或字符集中归纳出的汉字笔画的静态分布情况是 一致的。同时还可以看出,汉字的常用程度越高,平均笔画数越少,含汉字最多的笔画数也比较低,最高笔画数也比较低。可比较如下:
| 级别 | 平均笔画数 | 含汉字最多的笔画数 | 最高笔画数 |
| 一级字 二级字 三级字 四级字 五级字 一至五级字 | 7.244 8.710 9.680 10.437 11.599 10.541 | 6 9 9 10 11 9 | 16 21 21 23 25 25 |
从这个表中可以看出,常用汉字笔画较少,冷僻汉字笔画较多,这种统计规律性,反映了笔画使用的“经济原则”。
法国语言学家马尔丁内(A.Martinet)提出,语言运转的基本原理是语言的经济原则。他认为,言语活动中存在着从内部促使语言运动发展的力量,这种力量可以归结为人的交际和表达的需要与人在生理上(体力上)和精神上(智力上)的自然惰性之间的基本冲突。交际和表达的需要始终在发展、变化,促使人们采用更多、更新、更复杂、更具有特定作用的语言单位,而人在各方面表现出来的惰性则要求,在言语活动中尽可能减少力量的消耗,使用比较少的、省力的、或者具有较大普遍性的语言单位。这两方面的因素相互冲突的结果,使语言处在经常发展的状态之中,并且总能在成功地完成交际功能的前提下,达到相对的平衡和稳定。经济原则是支配人们言语活动的规律,它使人们能够在保证语言完成交际功能的前提下,自觉地或不自觉地对言语活动中力量的消耗,作出合乎经济要求的安排。从汉字笔画分布的统计规律可以看出,语言的经济原则在汉字笔画的动态使用中也同样是存在的。用较少的笔画来表示最常用的汉字,正是语言的经济原则这个普遍规律在汉字使用的体现。
在语言的经济原则的支配下,汉字的演变还呈现出笔画由繁趋简的规律性。当然,汉字演变中也有个别的字呈现出繁化的倾向,但是,从总体上来说,汉字的演变是由繁趋简的。汉字简化反映了语言经济原则这个普遍规律,它是不以人们的主观意志为转移的语言文字发展的客观规律,是不可阻挡的历史潮流。这是我国推行简化汉字这一国策在科学上的依据之一。