查看原文
其他

干货 | 《计量语言学研究进展》前言节选

老刘 计量语言学 2022-06-09


计量语言学是以真实语料为基础、用精确的方法来研究语言结构与发展规律的语言学分支学科。这一句话概括了计量语言学研究的三个主要特征:精确、真实、动态。

自2011年底我们承担的国家社科基金重大项目《现代汉语计量语言学研究》(11&ZD188)立项以来,课题组全体成员同心协力,以现代汉语为主要研究对象,取得了一些有趣的成果,并于2017年1月初顺利结项(2017&J004)。至2016年底结项时,课题组已在国内外公开发表带有基金批准号的论文80篇。这些论文被以下检索系统收录:SSCI 31篇次,A&HCI 26篇次,SCI 7篇次,CSSCI 20篇次,CSCD 6篇次。两项阶段性研究成果获得教育部第七届高等学校科学研究优秀成果奖(人文社会科学),三项阶段性成果获得浙江省第十八届哲学社会科学优秀成果奖。本书收录的18篇文章,大多为首次发表,它们只是课题组成果的一小部分。




现代计量语言学有时也被称作齐普夫(Zipf)语言学。这一方面说明齐普夫本人对现代计量语言学的贡献巨大,另一方面也为后人提供了继续前行的路径。齐普夫对于计量语言学最大的贡献是齐普夫定律,该定律指出,文本集中词的出现频率与其序之间存在幂律关系。随后,研究人员发现这种幂律关系普遍存在于自然界和人类社会中。为了解释这一人类社会的普遍现象,科学家提出了很多理论和模型,但却难尽如人意。回到齐普夫定律的本源——人类语言来看,我们至今无法清楚地解释,幂律是如何从人类的语言使用中涌现的?实践表明,在语料规模较大时,词频序的幂律关系保持得并不好,而是出现了下弯曲现象,这种下弯曲的语言学意义是什么?句子是人使用语言最基本的单位,词频序在句子中的分布中有什么规律吗?于水源等人首先利用计算机仿真的方法,研究了层级结构可以产生幂律的条件,结果表明,层级结构可以产生幂律。然后,他们又使用英国国家语料库(BNC)和莱比锡语料库,从词频序关系曲线的下弯曲现象入手,研究了词频序关系随语料规模的增加而改变的原因、词频序在句子中的分布、词频的稳定性等现象和问题。结果显示,随着语料规模的增加,真实的低频词的频率和新出现词的数量都比齐普夫曲线拟合的要少,即它们的增加速度比语料规模增加的速度慢。这不但造成了词频序关系曲线的下弯曲,也使得低频词的频率难以使用一般的统计方法进行研究。词频随语料规模的增加速度显示出了词的不同性质。他们针对各词频序段的词在句子中分布的研究表明,各段词在句子中的分布是均匀的。换言之,齐普夫定律阐述的词频序关系实质上是词在句中的分布规律。这些问题的解决,不但有助于我们搞清楚齐普夫定律的产生及其语言学意义,也有利于我们深入理解现代计量语言学的基本问题。


词长是现代计量语言学中一个长盛不衰的研究热点,这是由于长度容易测量,也便于与人的认知联系在一起。采用拼音文字的语言测量词的长度一般比较简单,要么是按照音节来,要么按照字母的数量来。对汉语,特别是现代汉语的书面语来说,由于双音节词占绝对多数,而三、四音节的词又比较少,所以将音节作为测量词的基本单位可能有一定的问题。考虑到汉语书面语的这种情况,我们在对汉语进行词长研究时,可能首先需要解决用什么基本单位来测量词长更合适的问题。陈衡等人对现代汉语口语和书面语中可能的词长测量单位以及词长的演化进行了较详尽的考察。这项研究是至今为止对汉语词长的结构与演化做得最全面的考察,不仅有益于我们对于汉语系统的了解,也增强了我们对语言的普遍性与个性、共时与历时关系的了解。


定律是构成理论的基础,也是现代计量语言学探求的主要目标。采用计量语言学的方式所发现的各种定律虽然有助于人们认识单个语言现象的本质,但如何将这些不同层面的语言学定律结合在一起却不是一件容易的事情。如果我们要对语言做一个全面的描述,那么就有必要将这些定律结合在一起,概括成更高层面的原则,形成一个基于定律的语言学体系或理论架构。1986年,科勒出版了《语言协同学:词汇的结构以及动力学》一书,标志着协同语言学的诞生。协同语言学是将协同学应用到语言研究领域的产物,是计量语言学发展的更高阶段,它的主要任务是提供一套构建语言学理论的架构,即:这套建模方法可以用来建立普适的假设,验证假设,并将这些假设组合起来形成定律和类似于定律的描述网络,以便用其来解释所观察到的现象。首个协同语言学的模型是由科勒在上述1986年出版的德语书中构拟的德语词汇协同子系统。当然,如同任何科学研究领域一样,我们很难用一种语言来说明语言协同系统的普遍性。王璐等人使用《人民日报》汉语语料,对科勒提出的词汇协同系统模型进行了检验,该模型由词长、多义度、频率和多文度4个核心属性组成。结果表明,虽然汉语的结构不同于印欧语言,但词汇协同模型仍是适用于描述汉语词汇结构的。这一研究说明,协同语言学的一般理论与方法具有跨语言的有效性,可能是构拟人类语言系统的一种普适方法


如前所述,从文本中发现定律是计量语言学家努力的目标。然而,定律本身又具有普适的特征。这就自然引出一个问题,如果许多语言、许多文本都符合一个定律,那么,这定律除了可以反映人类语言的普遍性之外,还有什么用处呢?换言之,我们希望定律在反映普遍性的同时,也可以反映人类语言的多样性。一般来说,一个表示定律的数学公式含有一些参数。这些参数在一定程度上反映了文本或语言的特征。因此,现代计量语言学家在寻求普适定律的同时,也常常采用不同语体(风格)的文本来观察源于定律参数的计量指标是如何反映语言特征的。黄伟等人采用15种词频(谱)计量指标,对现代汉语不同语体的文本进行了统计分析。这一研究将语言学定律蕴含的普遍性与特殊性联系在了一起,对于语言学家更深入地了解定律在语言研究中的作用具有很大的价值


语言是人类最重要的交流工具,而交流在很大程度上指的是信息的交流。熵是测量语言所含信息量的一个指标,一般用来表示语言特征携带的平均信息量或其频率分布的均匀或丰富程度。熵值越高,表明语言特征的分布越均匀、用法越丰富;反之,熵值越低,表明语言特征的分布越不均匀、用法越固定。陈蕊娜等人研究比较了各语体中句子不同位置上的词和词性及一元词和二元词的熵值差异。陈蕊娜等人的研究验证了对语体的某些直觉理解,如叙述类语体携带信息量较大,而说明性语体信息量较少,这一研究也将计量语言学的研究从形式扩展到了内容


从形式走向内容另一个大的领域是文学。采用计量的方法来研究文学家关心的问题已有很长的历史了。与文学相关的语言计量研究,在一定程度上,可能要早于纯粹的计量语言学研究。就汉语当代文学而言,新诗与散文的关系一直是许多人关心的问题。为了寻求新诗的文体特征,潘夏星等人从文本的词语入手,选用高频词、词汇丰富度等计量指标,对不同文本进行了分析。这一研究从一定程度上解决了新诗的文体定位问题,展现了计量方法研究文学问题的适用性和可行性


语言定律的发现及应用是现代计量语言学的主要任务。通过定律以及定律之间的协同关系,我们可以在一定程度上解决语言作为一个自适应系统的一些问题。然而,语言不是一个简单的适应系统,而是一种复杂适应系统。这里说的复杂主要指的是,语言系统像其他许多系统一样也存在“部分之和不等于整体”的系统特征,存在着涌现的现象。近年来,为了寻求语言结构局部与整体之间的关系,语言学家也开始采用复杂网络的方法对人类语言的诸多方面进行了探究。对于语言学家而言,“复杂网络是工具,而不是目的”,这就要求我们应该以问题为导向,采用复杂网络方法来解决一些用传统手段不易处理的问题。汉语词的形成机制可能就是这类问题。我们知道,在现代汉语中,二字词居多,但任何汉语书面语文本都是由字组成的,词与词之间并没有明显的界限。那么,汉语的词是如何从这些连续的字串中涌现出来的呢?丛进等人采用复杂网络方法研究了这个有趣的问题。这一研究为汉语作为结构性的语言单位如何在其局部语境中突显出来提供了明确的机制,是我们理解语言涌现的一个好例子。
复杂网络不但可以对语言结构模式的涌现进行共时的研究,也可以从整体的角度来探索语言的演化规律。陈芯莹等人选用4个不同时期的汉语真实文本分别构建了上古汉语、中古汉语、近代汉语和现代汉语的汉字同现网络,并对这些网络的整体特征以及“在”和“人”两个单字词在不同时期语言网络中的特征变化进行了对比分析。该文展示了如何利用网络分析方法获取传统研究方法难以测量的演化区别特征实现了对语言系统和个别语言现象的共演分析展示了网络分析方法在语言演化研究中的巨大潜力



现代语言学认为,语言是一个符号系统。按照一般的逻辑,既然语言是一个符号系统,我们当然有理由采用各种研究符号的方法来研究语言。既然她是一个符号系统,我们当然也可以对她进行全方位的数理剖析,也当然有权利采用常人一辈子也不说的语句来探求所谓的语言规则。然而,经过几代人的努力,我们发现这些抽象的成果似乎离现实中的人类语言越来越远。如果语言学是研究语言结构与演化的规律,而语言学家找到的规律却不是我们日常使用的语言的规律,我们要这样的规律干什么呢?这一问题的根源可能在于,当语言学家越来越痴迷于生活在自己构拟的符号与高技术的迷宫时,他们也就远离了人类正常的语言,离现实中的语言越来越远。在这种情况下,我们怎么能期待他所寻找的规律还是人类语言的规律?这可能也是人类语言学家研究人类语言的成果反而更适合描写机器使用的形式语言的一个原因。为了摆脱这种“只见语言,不见人”的窘境,我们有理由将语言视为一种由人驱动的符号系统。换言之,人类语言规律可能只是人类认知规律的一种反映,我们不能无视人类认知的约束与限制,抽象地谈人类语言的某种超人的属性,这样的东西,即使再高深、再抽象,可能也不是人类语言的规律,而只是脱离现实的数学演算。人类语言系统得以运作的根本就取决于人类由于受认知机制所限而出现的语言使用的省力原则。这种省力原则对于语言的约束,当然不只限于词汇子系统。


依存距离最小化是近年来通过大规模多语种真实语料发现的人类语言的一个普遍特征。它说的是,人在造句的时候,更倾向于选择句中词语的某些线性排列,在这样的线性排列中,具有句法关系的词语之间的线性距离(依存距离)之和具有最小化的倾向。依存距离最小化可能是人类进行语言处理所遵循的省力原则在句法层面的体现。值得注意的是,尽管省力原则可能是许多语言特征或规律形成的主要动因,但不同的语言,或者在同一语言的不同层面,人们使用省力的手段可能会有所不同。这不但体现了语言的多样性,而且也是语言作为一种复杂系统应该具有的适应能力。陆前等人采用计算机仿真依存结构树的方法,对交叉依存、根节点位置和组块等可能导致依存距离最小化的因素进行了详细分析。结果表明,语言作为一种复杂适应系统,当需要在有限的认知资源约束下处理某些按照常规方式难以处理的任务时,会自动形成某些动态的手段以便达成有限资源下的问题求解方案


从形式上说,长距离依存关系是造成句子难以理解的根本原因之一。既然如此,为什么人还要使用这些看似不省力的长距离依存关系呢?研究表明,依存距离的概率分布基本符合幂律,而语言相关幂律一般反映了交际双方省力达到平衡的一种状态。具体来说,就依存距离而言,在真实的语言中,我们可能也需要平衡最省力与表达精确之间的矛盾。回到长距离依存关系,我们的具体问题是:真实语言中使用的长距离依存关系是否一定会增加语言处理的难度?这些长距离句法关系中是否存在其他因素在某种程度上消减了依存距离的影响?这两个问题也是徐春山等人研究的主题。这一研究说明,就语言系统而言,许多因素是交织在一起的,我们很难通过测量一个因素或特征来了解一个如此复杂的系统的运作机理。然而,尽管这些反映系统各个方面的特征会有不同,但统领这些不同的认知机制是相同的。换言之,语言研究的根本任务可能就是发现在普遍认知规律下如此多样的人类语言是如何运作的,这些多种多样的语言规律是如何在受到普遍认知规律约束的情况下,又可以满足具体交际需要的。


从动态或语言处理的角度看,依存距离反映了人在处理句子时的认知压力。从静态的角度看,依存距离反映了句子结构的共时复杂性。按照历时的语言结构可能随着时间的变化而变化的语言演化模式,如果有适当的历时句法标注语料库,我们有可能据此来探究语言句法结构复杂程度的演化路径。如果我们将业已证明可反映语言语序类型特征的依存方向(构成依存关系的两个词之间的相对位置)作为一种计量指标来一起使用的话,也可以来观察语言语序类型的历时演化情况。刘丙丽等人通过自建的前期、唐五代、宋代、元明、清代、现代等句法标注语料库,对不同时期文本的依存距离与依存方向进行了统计与分析。这一研究也提出了一个值得进一步思考的问题,如果随着表达精确性或所表达内容复杂化的需要,汉语的句子结构也会变得更复杂,以便满足这些需要。这是符合逻辑的,也是可以理解的。有趣的地方可能在于,依存距离不但反映了句子的复杂性,而且也与认知难度有关,这样一来,是否也意味着从古到今,讲汉语的人的认知压力一直在增加呢?如果是,为什么人们要增加句子的复杂程度,从而使自己交流起来更费力呢?现实可能是,人们并没有感觉到这种压力,这种无感难道是由于人的相关认知机制也随语言的变化而变化的结果吗?这是一个交织了语言与认知共演的有趣问题,值得深入研究。


语言的普遍性与特殊性一般需要通过对多种语言进行细致的对比后,才能得到更可靠的认识。依存距离与依存方向作为两个基于句法标注语料库的计量指标也为双语或多语句法特征的对比研究提供了客观的分析手段。李雯雯等人采用自建的汉英双语依存树库,对汉英主语和宾语依存关系的计量特征进行了统计分析。这项研究再次验证了不同的语言可能会有不同的依存距离,从而再次引发语言与思维关系的思考。接着刚才在介绍徐春山、刘丙丽等人文章时引出的问题说,如果一种语言的依存距离总是大于某些语言,而讲这种语言的人又没有感觉到明显的认知压力,那么是这种语言改善了讲这种语言的人的认知能力,还是这种语言的结构中有一些虽然可以增加依存距离,但又不会带来认知压力的语言成分呢?亦或是不同的语言会启动不同的复杂适应机制来降低人们在处理语言时的认知压力呢?这一问题的解决,可能需要多个学科学者的努力,但计量方法毫无疑问有助于我们对这一复杂问题的认识以及解决方法的寻求




词类分布是人类语言中一个很重要的不变量,在所有词类中,名词所占比例是最大的,约占到百分之四十左右,而且这种不变性具有跨语言的普适性。作为真实语言使用最多的词类,名词在具体语言中除了光杆名词外,更多的是以短语形式出现的。这些长短不一的名词短语,在数量上,绝对是构成句子的主要力量。从计量语言学的角度看,探求语言单位长度相关的规律一直是学者们的研究重点之一。短语长度的研究,由于资源的缺乏,一直鲜有人做。王华等人采用宾州中、英文树库和国际英语语料库的英国英语部分,研究了汉语和英语中名词短语长度分布的计量特征。这一研究可能说明统一或普适的语言单位长度分布可能是人类某种共同的认知机制约束的结果。另一方面,这项研究也有助于我们了解人类语言中占比最大的词类在真实语言中的结构模式分布情况


语码转换是现代语言生活中一种常见的现象。但对于这一问题的研究,从社会语言学角度出发的比较多,从句法、特别是采用计量方法探求语码转换规律的研究则非常少。王琳等人基于自建的依存句法树库,对汉英语码转换的句法进行了初步的计量分析。这一研究不仅向我们展现了语码转换这种语言混杂现象也是有规律可循的,而且他们发现了含有混合句法关系的依存距离要比单语的大,说明语码转换现象可能也是某些认知机制约束的结果


语言发展或习得规律的探寻不仅有助于语言教学方法的改进,也有助于了解人的认知是如何与语言能力共同进步的。蒋景阳等以三组不同水平的高中英语学习者的限时作文为语料,利用多种文本分析工具,从词汇多样性、词汇密度、词汇复杂性和词汇频率分布四个维度,对在不同写作阶段词汇运用的发展模式和特点进行了定量研究。这一研究虽然没有使用更复杂的计量指标,但已经在一定程度上展现了计量方法在语言习得与语言发展领域的应用潜力


句法习得是语言习得研究或语言能力发展中的一个重要环节。一般来说,母语主要句法关系的习得在2岁左右时就基本达到了成人的水平。而在这个年龄段,儿童的一般认知水平尚未成熟,可以用语言所表达的事物也比较简单,这使得我们在研究儿童句法习得时可能会遇到由于认知能力不足而造成的这样或那样的问题与困难。聋人语言是语言研究的一种宝贵资源。聋人由于自幼失聪,不能像健听人一样依靠听觉获得正常的语言输入,因而大大延缓了聋人的句法能力的发展过程;当学龄聋人进入学校时,虽然他们汉语的句法水平可能达不到2岁健听儿童的水平,但其认知能力或大脑中的概念网络却可能与同龄的健听儿童差别不大。在这种情况下,研究聋生的句法发展,有可能使我们更清楚地掌握句法系统的发展或形成规律。金慧媛等人创建了跨度为9个年级的聋生汉语书面语依存句法树库,通过依存距离、依存方向以及依存关系的构成等诸多方面,折射出聋人汉语书面语的句法复杂度及其句法能力的发展等问题


正如我们在此前所说的那样,与同龄健听儿童相比,聋生的概念系统是差不多的,弱的是句法系统。对于汉语这样的孤立语来说,词语在句中的句法功能主要是通过语序以及虚词来实现的。因此,虚词在研究聋人句法发展的过程中,可能起着重要的作用。严菁琦等人采用上述依存树库,通过依存距离以及分布规律,研究了小学到高中阶段聋生对介词相关的依存关系的句法发展和句法水平特点。这两项有关聋人句法的研究也有助于我们了解从概念网络映射到线性序列的过程中,句法是如何起作用的,以及句法系统是如何在使用中形成的


以上这些章节的研究对象主要是汉语,然而,计量语言学方法的科学性使其很容易地可用于研究其他语言。对于计量语言学而言,有关新语言的研究是至关重要的,新语言不但可以证实或证伪已有的语言定律与理论,也有益于发现新的定律与方法。那日松等人考察了语料规模、文本大小、不同文体对蒙古语词长分布的影响,得到了适合于描述蒙古语词长频率分布的4类分布,这一结论与其他语言词长频率分布结果是一致的,进一步证实了不同语言中词长频率分布的共性。这项研究的意义,不仅在于我们对于蒙古语的词长有了更科学的认识,而且也扩充了人类在词长方面的知识库,使我们对于词长相关的人类语言的计量特征有了更深入的了解


我们的计量语言学研究实践说明,开展以汉语为主要研究对象的计量语言学研究,不但可以更精确地了解汉语的结构特征,而且也可以通过与其他语言的比较,更深入地理解汉语所具有的特殊性与普遍性。汉语计量语言学研究是对国际计量语言学的全面补充与发展,有助于提高中国语言学界在国际学界的声望与话语权。来吧,让我们在语言研究科学化的道路上同行。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存