数据驱动的应用语言学研究

Original 刘海涛计量语言学 2022-06-09

小编按：最近，《现代外语》第4期刊发了刘海涛教授的文章《数据驱动的应用语言学研究》。文中认为，语言是一个人驱复杂适应系统，概率性是语言的本质属性。基于数据驱动的语言研究，不仅可以加深对语言、言语和意义等语言学基本问题的理解，而且也有助于探索语义计算、过渡语特征、语言系统的涌现性、适应性和动态性等应用语言学领域的基本问题。以下是文章全文，内容较长，需耐心阅读。

1. 引言

桂诗春(2015)认为，“基于使用理论对认识语言变化乃至语言习得都意义深远。”对于语言研究者而言，基于使用不外乎就是从大量人类的真实语言材料中发现语言系统的运作规律，是一种数据驱动的方法。为什么如此显而易见的道理，会对语言研究具有深远的意义呢？接下来，我们将围绕桂文提及的几个问题，谈一点自己的看法。

2. 语言与言语可以分离吗？

要回答这个问题，可能还得回到现代语言学之父索绪尔对语言与言语的区分。尽管索绪尔前后的学者，也使用过相同或不同的术语来区分语言系统的具体(个体)与抽象(集体)层面，但索绪尔的影响毫无疑问是最大的。“语言学的唯一的、真正的对象是就语言和为语言而研究的语言”(索绪尔 1980:323)。这句话在结束《普通语言学教程》的同时，也使现代语言学走上了一条见不到人的人类语言探索之路。当然，我们不否认，将人这个复杂因素从语言理论研究中剔除后，似乎更容易发现语言作为一种形式符号系统的规律。这些发现不仅催生了结构主义，也为计算机程序设计语言奠定了一定的理论基础。然而，语言终究是人的语言。人工智能时代的到来，使得人类比任何时候都需要语言学家，但遗憾的是，这些本该是世界上最懂语言的人，却集体失语了。为什么？是我们的方法不对？所发现的语言知识的表征有问题？还是语言规律本身就难以脱离语言使用而存在？亦或是语言与言语就无法分离？如果无法分离，索绪尔为何要把它们分开？也许，是我们对索绪尔的理解有误？

带着这些问题，我们在《教程》中发现了以下语句：“但语言是什么呢？它只是言语活动的一个确定的部分，而且当然是一个主要的部分。……在由言语活动联系起来的每个个人当中，会建立起一种平均数。……如果我们能够全部掌握储存在每个人脑子里的词语形象，也许会接触到构成语言的社会纽带。这是通过言语实践存放在某一社会集团全体成员中的宝库，一个潜存在一群人的脑子里的语法体系；因为在任何人的脑子里，语言都是不完备的，它只有在集体中才能完全存在”(索绪尔 1980,0.3章节)。由此可见，语言与言语是密切相关的，索绪尔自己也认为“语言和言语是互相依存的；语言既是言语的工具，又是言语的产物。”但他接着又说“这一切并不妨碍它们是两种绝对不同的东西”（1980：41)。假设这些说法都是有道理的，那我们自然会提出以下问题：如果语言是言语的抽象，是平均数，那仅用基于逻辑代数的形式化方法来研究，可能是不够的，而应想办法寻求一种计算平均数的方法，使语言尽可能逼近人类的语言系统。如果没有一个人的语言是完备的，那么，采用内省法研究语言所得出的结论，是难以反映语言系统运作规律的。如果语言源于言语，而且还是“确定”的部分，那该用什么方法来确定这个“确定”呢？特别是，言语本身又是动态的，是不断变化的？如果语言来自言语活动，是集体的产物，任何脱离人类日常语言的、过于抽象的数理方法，所发现的所谓语言规律，可能都难以被需要语言规律的其他领域所使用。这或许就是语言学家在智能时代失语的根本原因之一。

事实上，从索绪尔的话语里面，我们不仅看到了问题，也看到了解决这些问题的思路。今天的我们，要比100多年前的索绪尔更有办法从大量的言语(语言使用)材料中获得语言这个平均数。理论上，数据越多，这个平均数就会越接近这种语言使用者集体的语言。这种由数据产生智能的思想也正是当今人工智能技术的核心(Sarangi & Sharma 2020)。平均数的概念，也揭示了语言的概率特质，而概率规律的发现必须有数据，这使得语言研究与语言使用数据之间有了一种天然的联系。我们不难看出，把语言与言语视为两种“绝对”不同的东西，可能有些“绝对”，或许只是一种时代的局限。因为，100年前的人，很难想象有朝一日，他们的后人会有办法从数百万人说的数以亿计的言语中得到一个更接近集体语言的平均数。也许，现在正是语言学研究者走出“花园”，走进人类语言“灌木丛”的最好时机(Bresnan 2016)。数据驱动的方法，也有助于解决有关语言结构与演化的“索绪尔悖论”(Millar 2015:250)，从而使语言学家走出静态共时的魔圈，直面人类鲜活的日常语言。

从“花园”走向“灌木丛”的最大挑战来自语言的概率性。尽管基于使用的方法可以让语言学回归经验(实证)科学，可以更好地处理语言变化、动态、习得等问题，但我们能够使用的不外乎是各种语言单位的出现频率。如果我们打算把语言视为一种基于使用(言语)的概率系统，那么频率结构应能反映语言的普遍性、语言的变化和个人语言的风格。于水源等人采用100多种语言和300多位作家历时200年的语料研究了这些问题。结果表明，词频结构不仅能够刻画语言的普遍性，也可以追踪语言的历时演化轨迹和区分共时的个人语言变体(Yu et al. 2020)。换言之，通过词的频率结构，我们不仅可以发现语言的普遍性，也可以观察到语言的多样性，并在历时变化和个人变体的多样性中探索语言的统一性。正是人类语言这种普遍性蕴含于多样性的特质，使得变化不断的语言仍能作为稳定的人类交流工具。这项研究在一定程度上为构建基于使用的语言理论打下了基础。

基于语言使用的方法打破了语言与言语的界限，将二者打通不仅有助于解决抽象的形式方法不易解决的问题，也使语言学家可以直面日常语言的“灌木丛”，发现语言系统运作的真正规律，服务于需要语言规律的领域。

3. 系统、使用和适应

索绪尔认为，“语言是一个系统，它的任何部分都可以而且应该从它们共时的连带关系方面去加以考虑”(1980:127)。尽管索绪尔在这里只是将语言视为一个符号系统，但也可以看出语言研究也应像研究任何其他系统一样，通过研究成分之间的关系来更好地了解系统的结构规律。按照此前提到的“平均数”的说法，一个词的意义是在大量的语言使用中获得的。没有词的使用，也就无法获得词与其他词之间的关系，也就无法获得所需的平均数。从这个意义上讲，索绪尔的系统观也是一种基于使用的观点，而不宜简单地将其理解为一种形式逻辑关系。如果语言是一个系统，就应该采用研究系统的科学方法来研究，但为什么人们却不断尝试用各种符号逻辑等形式化的方法来研究它呢？其中的一个原因可能是人类，特别是其中最有知识的一部分人，认为可以找到一种更完美的方式来表述我们用自然语言表达不清的东西。在研究分析了人类2000年来寻求完美语言的历史之后，Eco(1995)认为，虽然这种寻求带动了诸如知识表征与分类等领域的发展，但所寻求的目标是难以达到的。这可能从另一个角度说明，人类日常语言尽管有这样那样的问题，但却很难找到更完美的替代品。逻辑语言在精确化方面的优势，抵不过它在表现力方面的劣势。而对于人类来说，日常语言更能满足他们表达这个丰富多彩的世界的需要。在哲学史上，从逻辑语言转为日常语言的代表性人物是被罗素称之为“天才人物的最完美范例”的维特根斯坦。在维特根斯坦1921年发表的《逻辑哲学论》中，我们不难看到弗雷格、罗素和怀特海等人的影子，也再次体会到人类对日常语言的失望以及对完美语言的希冀。然而，在1953年的《哲学研究》中，维特根斯坦对日常语言的态度有了一个180度的转变。他认为，哲学家要用日常语言说话，在使用中考察词的意义，而不是脱离用途，孤立地考察所谓的绝对意义。只有这样，才能医治空洞的哲学病(形而上学)，让“我们把词从形而上学的用法重新带回到日常用法”(维特根斯坦 2001:73)。

维特根斯坦的说法当然不只对哲学的转向有意义，也不仅仅有助于主流语言学对自身方法的反思。对于语言研究者而言，他的以下话语是极有意义的：“一个词的含义是它在语言中的用法”(2001:33)，“符号自身似乎都是死的。是什么给了它生命？它在使用中有了生命。它在使用中注入了生命的气息？抑或使用就是它的生命？”(2001:197)。由此，我们不仅为基于使用的方法找到了哲学基础，也可以将索绪尔的平均数与语言使用、将意义与使用等联系在一起。尽管主流语言学几十年来的努力大多体现在推进语言的形式化研究，寻求人类语言中的普遍形式规律，但语言的使用者都明白，语言无论是作为交际工具，还是思维工具，表达意义、传递意义才是语言得以存在的根本。因此，离开意义、离开人的语言研究，无论从什么角度看，都是不完备的。遗憾的是，维特根斯坦的用法论在理论语言学界，除催生了Firth的名言“You shall know a word by the company it keeps”(1957:11)之外，几乎没有引起大的反响。绝大多数语言学家仍沉迷于用各种逻辑手段来解构语言、分解语义，热衷于活在他们用五花八门的概念打造的远离日常语言(民众)的亭台楼阁之中。诚然，如何从近乎无限的语言使用数据中获得词义的表示是一个极大的难题。但是，如果意义的本质是不能分解的，如果作为构成语言系统的最基本单位的词的意义只能通过它们的用法来把握，寻求可以从使用数据中获得意义的方法可能是破解人类语言意义之谜的必由之路。刘海涛（1993)认为，大规模语料库和计算技术的发展，为维特根斯坦用法论的实现提供了基础。文章同时也讨论了如何基于“用法论”来处理语义的方法与途径。28年过去了，基于深度学习和人工神经网络的自然语言处理领域取得了突飞猛进的发展。这其中，基于大规模人类语言真实材料之上的用法论的计算机实现起了极其重要的作用。从文本语料中获得词的用法信息，并将其表征为一个唯一的向量，几乎成了当前自然语言处理的标准操作(Smith 2020)。自然语言处理研究者的实践表明，“用法论”和“分布语义学"(Harris 1954)不但可行，也更有效、更适合语义的计算处理。这种方法不仅解决了语义不可分解的难题，也得到了可比的词义平均值，而且这个值还能随使用的变化而变化，学得越多，就懂得越多，充分体现了语言的概率性本质。按照用法论的观点，你对一个词的用法了解越多，你对它的意义理解得也就越透彻。

当然，“使用”本身是一个动词。要了解语言系统的运作，仅有静态的描述是不够的。语言作为一个人驱复杂适应系统(Liu 2018)，其运作不仅要靠人驱动，而且要考虑到系统运行的目标。如果将有效的信息交流视为语言系统运作的目标之一，那么，采用数据驱动的方法能否研究语言系统运行过程中的适应性呢？

基于数十种语言的真实语料，研究者发现人类语言由于受到人类认知机制的约束，具有一种依存距离最小化的普遍性倾向(Liu et al. 2017)。依存距离指的是句子中两个有句法关系的词之间的线性距离。依存距离最小化反映了人类的认知过程对语言结构的塑造。这个距离越小，交流起来就越省力。句子越长，出现长距离句法关系的可能性就越大。通过对大量语言使用数据的统计分析，发现长句的依存距离分布符合幂律，而幂律本身就是复杂适应系统的一种特征。那么，人在处理长句时采用了何种手段来实现依存距离最小化呢？换言之，如果将依存距离最小化设定为人类语言系统的运作目标之一，系统运行的动力(人)是如何来实现这个目标的呢？Lu et al.(2016)基于真实语料和计算机模拟相结合的方法，对这个问题进行了探究。他们发现，在处理长句的过程中，语言系统会启动一种自适应机制，即，人会使用一种动态的语言单位(组块)来降低长句的平均依存距离，从而实现依存距离最小化这一人类语言系统的运作目标。

这些研究说明，基于使用的语言研究方法，可以将意义、使用、系统、动态、适应等构成语言系统的要素有机结合起来，从而更好地揭示与解释语言作为一个人驱复杂适应系统的运作规律。

4. 二语的句法涌现性和类型过渡性

在提到语言的系统性时，索绪尔也强调：“语言既是一个系统，它的各项要素都有连带关系，而且其中每项要素的价值都只是因为有其他各项要素同时存在的结果”(1980:160)。按照这个说法，从系统的观点研究语言最适宜的方法可能是网络方法，因为，只有在网络中，我们才能更好地观察要素之间的联系以及要素在整个系统中的价值。这可能也是越来越多的研究者采用复杂网络方法研究语言的原因之一(刘海涛 2011)。同样，基于深度学习和人工神经网络的自然语言处理的发展，也证明了人类语言网络表征的可行性与必要性。那么，采用网络方法，我们可以探究(应用)语言学家关切的什么问题呢？复杂网络是一种无法由其组成部分(完全)预测整体行为的网络。这一特质使得可用它来研究语言系统的涌现性。

儿童语言习得的研究发现，大多数孩子在两三岁时开始具有连词造句的能力。有趣的是，这种能力似乎是在短时间内突然出现的，具有明显的涌现特征。那么，采用复杂网络的方法能观察到这种句法突现吗？Corominas-Murtraet al. (2009)构拟了不同年龄儿童的多个语言网络，研究结果发现，儿童在24个月左右的时候，其句法网络的整体拓扑结构开始从原先的树形模式转为一种无尺度、小世界的模式，而无尺度、小世界正是人类语言句法网络的一种普遍特征。这一研究用系统科学的方法揭示了在个人语言发展的进程中，大约2岁左右时会出现一次非线性的动态模式的相变，即，句法结构的涌现。

如果母语习得有句法涌现，二语学习者会出现类似的句法突现吗？蒋景阳等人采用从小学四年级到高中三年级的中国英语学习者的语料和复杂网络分析方法，研究了二语的句法涌现问题(Jiang et al. 2019a)。研究表明，无论从小世界，还是无尺度角度看，二语都没有出现与母语类似的句法涌现。这样的结果是可以理解的，母语习得如同在白纸上画画，而二语是在已有母语基础上的再创作。这一研究从系统的角度验证了母语与二语的句法形成机制是不一样的。为什么不一样？为什么会受母语的影响？是语言习得关键期在起作用？还是由于学习者的模仿类比机制更成熟，省力原则开始起作用了？当然，没有涌现并不意味着没有其他变化。通过对学习者复杂网络指标的分析，可以发现二语句法网络的发展是动态、非线性的。不同水平二语学习者的句法网络所呈现出来的差异，恰好反映了二语的另一个重要特征—过渡性。

本质上，二语是一种过渡语(interlanguage)。过渡语是学习者构拟的一种逐渐接近于目标语的语言系统，是一种特殊的自然语言。过渡语具有过渡性、渐进性、连续性、动态性、目标语不可接近性等特点。显然，要想科学地了解过渡语的这些“性”质，仅举几个例子是不够的。可能需要基于学习者的真实语言材料，采用语言类型学的方法，来探求过渡语的这些概率“性”质。能否这样做的前提是，有没有一种可操作的数据驱动的概率性语言类型指标。否则，又将回到静态、离散、形式的老路上。

Liu(2010)以形成句法关系词语的相对位置(依存方向)为指标，分析了20种语言的大规模真实语料，发现该指标不仅可以作为一种类型学参数，而且也基于此提出了语序类型连续统的概念。这一面向数据驱动的语言类型研究方法，被国外学者称为“刘-有向性”(Liu-directionalities，Fisch et al. 2019)，并在语言理论研究以及二语习得、自然语言处理等应用语言学领域得到了应用。蒋景阳等Jiang et al. 2019b)以依存方向作为类型学指标，分析了不同水平的中国英语学习者的语言，从语言类型学的角度揭示了过渡语不断趋向目标语的过程，也用真实的学习者语言材料证实过渡语确实存在此前提及的那些概率性特质。

5. 结语

如果语言学研究的是人的语言，如果语言是一个人驱动复杂适应系统，那么，语言学研究者就没必要过于纠结语言与言语的区别，而应该把精力放在如何从海量的语言使用数据中提取语言系统的运作规律上。否则，语言学研究得到的规律很难解释丰富多彩的语言现象，也难以被问题驱动的应用语言学、自然语言处理等领域所使用。基于数据(使用)的语言学研究不仅可提升语言规律的解释力，也可强化理论与应用之间的互动关系，有助于形成良性的学科发展动力和构建二十一世纪的语言学(Plungian 2018)。

参考文献（略）

今天的推送就到这里了。想要获取全文，请戳“阅读原文”。

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

微博遗存之七

数据驱动的应用语言学研究

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

微博遗存之七

生成图片，分享到微信朋友圈

数据驱动的应用语言学研究

您可能也对以下帖子感兴趣