统计语言学

    统计语言学 : 数理语言学的一个分支,应用统计数学的方法来研究语言现象的语言学科。统计语言学的研究领域目前主要包括以下几个方面:
  ①统计语言单位的出现频率,如对词汇和音位、语素出现的频率进行统计研究。
  ②统计作家的用词频率、词长分布和句长分布,以了解作家运用语言的风格;用这种方法还可判定匿名文章的作者。
  ③计算语言存在的绝对年代以及亲属语言从共同原始语分化出来的年代,这方面的研究叫做语言年代学,又称为词源统计分析法。此外,还可对亲属语言的语法、语音体系进行统计、比较。
  ④采用信息论方法研究语言的熵和羡余度。语言的熵就是在交际过程中语言符号出现的不定度。不定度的大小与语言的熵的高低一致。当语言的接收者接收到语言符号之后,不定度被消除,熵等于零,因而在交际过程中,语言接收者所得到的信息量恰恰等于被消除的熵。语言的羡余度是指语言中超过传递最少需要量的信息量的比例,在一般情况下,人们为了保证对方能够理解,总是提供比实际需要多得多的信息量,因此,不论在书面语还是口语中,语言都有羡余度。
  ⑤探讨语言的一般统计规律。例如,在按频率递减顺序排列的频率词典中,词的序号越大,词的频率越小,序号与频率之间的关系可以用数学公式描述为一定的统计规律,这个统计规律叫做齐夫定律,因其研究者之一、美国语文学家G.K.齐夫而得名。
  ⑥运用随机过程论来研究语言,把语言看成彼此联系的字母序列,前一个字母决定后一个字母的出现,于是形成一条字母链,叫做马尔科夫链,因其最早的研究者俄国数学家A.A.马尔科夫而得名。
  ⑦研究文章中两个词之间、两个语法范畴之间、两个语义类之间或两个句法类型之间的间距,以揭示文章在句法或语义上的特征。
  ⑧研究语言的词汇与文章长度的关系,以揭示文章中词汇的丰富程度和差异程度。
  统计语言学在数理语言学中有比较悠久的历史。古印度语法学家在研究《吠陀》时,就进行过单词和音节数目的统计。1851年,英国数学家A.德·摩尔根 (1806~1871) 曾把词长作为文章风格的一个特征加以统计研究。苏格兰学者L.坎贝尔于1867年、德国学者W.迪丁贝尔格于1881年都曾采用统计方法确定柏拉图著作的写作时期。1887年,美国学者T.C.门登霍尔对英国文学作品、特别是莎士比亚的作品进行过统计分析。1913年,马尔科夫研究了俄语中字母序列的生成问题,提出了马尔科夫随机过程论。1935年,齐夫发表了齐夫定律。1944年,英国数学家G.U.尤勒在《文学词语的统计分析》一书中广泛使用概率和统计方法来研究语言。1950年,美国学者M.斯瓦德士进行了语言年代学的研究。1951年,美国数学家C.申农采用信息论的方法研究书面英语中的熵和羡余度; 美国学者 V.英格韦对句法现象进行了间距分析。1954年,法国学者P.基罗根据文章中词的频率分布提出了词汇丰富度的概念。1956年,英国学者G.赫尔丹出版了《语言是选择和机遇》一书,系统总结了统计语言学的研究成果。近30年来,在语言统计中日益广泛地使用计算机,逐渐改变了传统的手工查频、统计的办法,提高了统计的效率和精度。
  统计语言学大致可分为语音统计学、词汇统计学、语法统计学和语义统计学,分别研究语言的语音、词汇、语法和语义的统计特征。从描写的角度出发,词汇统计学又可以分为年代统计学、风格统计学和分类统计学3 个分支,分别根据时代的变化、作者写作风格的不同和语言的类属或起源对词汇特征进行统计分析。
  统计语言学的许多研究成果,对于通信技术、语言教学和自然语言的信息处理都很有价值。
  参考书目
 G.Herdan,Quɑntitɑtive Linɡuistics,Butterworths,London,1964.

为您推荐

[圣经]人口统计

[圣经]人口统计:人口情况调查登记,其目的通常为收税、征兵或摊派劳役。 《圣经》中最早的人口统计可追溯到摩西时期。摩西接受上帝的旨意,统计以色列人口,让每个男丁缴半块银子为自己赎回性命。摩西按上帝的意思用这笔..

中国统计年鉴

中国统计年鉴:国家统计局编,中国统计出版社1982年起陆续出版。本书是一套全面反映我国国民经济和社会发展情况的统计资料年刊。1981年本为创刊号,每年出一册。各年度本内容大致分为行政区划和自然状况、综合、人口和劳动..

《查世俗每月统计传》

《查世俗每月统计传》:1815年在马六甲由马礼逊创办,是近代期刊中目前见到的第一种中文期刊。在刊发内容上,主要以“神理”(基督教教义)为主,“人道”(伦理道德)其次,再次为“国俗”(各国风土人情)。1821年因主编米怜病重停刊。..

《察世俗每月统计考》

分级统计图法

分级统计图法:专题地图显示方法之一。它是表示一定区域范围内某种分散分布现象的平均密度和相对指标的方法。先把制图范围分成若干区域,按照各区现象的密度、强度和发展水平划分等级,然后依据级别高低,在地图上按区分别填..

新闻统计学(新闻)

新闻统计学:研究新闻传播中的数量关系的学科,是介于新闻学与统计学之间的一门边缘学科。它借助统计学中的统计调查方法、资料收集和整理方法以及统计定量分析方法来测度和分析新闻传播的效率、效果及社会功能,进而揭示..

统计法(语言)

统计法(语言):语言学中用于处理大数量资料的数学方法。最早用于音韵学。音韵学中使用统计法经历了三个阶段:(1)使用算术统计方法。即点清各种情况的出现次数,并算出各种百分比。算术统计考虑到了数量关系,但对分类仍缺乏..