查看原文
其他

书讯 | 《基于依存句法树库的中国英语学习者句法发展研究》

qler 计量语言学
2024-09-04

近日,刘海涛教授主编、浙江大学出版社出版的“计量语言学研究进展”丛书迎来了新成员——《基于依存句法树库的中国英语学习者句法发展研究》。这本书集中呈现了蒋景阳教授团队完成的国家社科基金重点项目“基于依存句法标注语料库的中国英语学习者句法发展研究”(17AYY021)的成果,是市面上第一本介绍用“依存树库+计量语言学”方法系统性开展的二语习得研究的专著。


现如今,中国学生一般从小学三年级开始学习英语。直到研究生阶段,英语课仍然是相当大一部分学生的必修课程。在各项教学和评估环节中,写作是不少学生和老师的一个难题。学了这么多年英语,中国学生在书面表达任务中的词汇、句法能力是怎样发展的,哪些指标可以有效捕捉学生在特定阶段的能力发展,这些指标能否帮助教师评阅;学生常用的搭配、常犯的错误有什么规律,学习英语的过程和学习母语(汉语)、英语母语者的母语习得有何差异?要回答诸如此类的问题,既要收集从小学到大学(研究生)阶段中国英语学习者的写作语料,也要采用一套成熟、可操作的理论依据。蒋景阳教授团队用依存句法和计量语言学的研究方法,历经五年,把这些问题的答案呈现在了这本专著中。


作为丛书主编、项目的参与者,刘海涛教授为本书作了序言。本号现分享序言(节选),与读者朋友们一睹为快。


序言(节选

句法是现代语言学中最重要的组成部分之一,在某些语言学家眼里,句法几乎成了语言学的代名词。之所以如此,主要原因可能在于句法体现了人类语言是“有限手段的无限运用”的精髓。语言学中的句法热,也催生了五花八门的句法理论。撇开这些句法理论的技术细节不谈,我们有理由认为造句、析句能力可能是人类语言能力的重要组成部分。这个说法不仅适用于母语能力,也适用于外语能力的形成和发展。


句法如此重要,自然也吸引了众多应用语言学(二语习得)的研究者,产生了不少有趣的研究成果。遗憾的是,就外语学习者句法能力发展领域而言,现有研究大多存在两个问题:一是缺乏一般意义的源于语言学的句法理论的指导,二是没有采用经过句法标注的学习者真实语料。就外语句法能力的发展而言,它与语言学的联系可能是必需的,因为句法不仅是现代语言学中最重要的领域,而且就句法来说,可能没有什么领域的研究者比语言学家知道的更多了。那为什么我们很难看到句法理论指导下的相关应用语言学研究呢?我们知道,应用语言学要解决语言学习者的现实问题,就句法能力来说,研究者需要面对大量真实的学习者语料。如果要用语言学意义的句法理论来研究这些语言材料,首先得有能处理这些真实语料的句法分析模型。现实很残酷,尽管理论众多,但能处理大规模真实语料的句法理论却很少。在这种情况下,应用语言学研究者另起炉灶,用一些看起来不太像语言学,但能在一定程度上发现问题、解决问题的方法也是可以理解的。然而,这只是权宜之计。学科要发展,不能满足于此,还是要寻求句法理论支持下的、数据驱动的应用语言学研究之路,因为数据能更好地解决人类语言中普遍存在的各种概率性问题,而概率性问题在学习者语言中很常见。


应用语言学中的学习者句法能力研究与理论句法的关系有点像计算语言学研究与语言学理论研究的关系。即,在理论语言学家脑子里转得挺溜的语言规则放到电脑里就行不通、走不好了,能把“一把把把把住”“鸡不吃了”之类的句子分析得头头是道的理论在遇到学习者语言时就有些摸不着头脑了。为了更好地使用计算机来解决现实世界的语言问题,20 世纪90年代计算语言学的研究方法出现了革命性的转向,抛弃了源于理论语言学的条条框框,走上了从大规模真实语料中获取语言知识、处理语言的路子。进入21世纪后,在深度学习与人工神经网络等技术的加持下,包括计算语言学在内的现代人工智能技术使人类迈进了数智时代。尽管在端到端的技术中,可能不易发现句法的影子,但从大量的计算语言学领域有关句法的研究中,从涵盖130种语言的228个句法标注语料库(树库)中,我们不难发现可用的句法理论或句法分析模型。有趣的是,几乎所有能够剖析上百种人类语言真实语料的句法分析模型所采用的句法理论均与法国语言学家吕西安·泰尼埃(Lucien Tesnière)在20世纪50年代提出的依存句法有关,这使我想起多年前看到的一句话:“Lucien Tesnière in Éléments de syntaxe structurale offered an original view of syntax applicable to all languages.” 数智时代的排头兵们实现了依存句法的普遍价值,让语言学造福于人类。对于语言学研究者而言,这无疑是一件好事,尽管依存句法对于绝大多数语言学领域的教师与学生来说,仍然很陌生。反思计算语言学家的成功,我们会很自然地问自己:既然依存句法可以有助于计算机获得句法能力,如若将它用在人类语言能力上,特别是外语能力发展的研究方面,会有什么发现呢?

摘自本书第2页


要想用依存句法标注的学习者语料来研究人类句法能力发展,不仅需要精心收集有代表性的学习者语料,还要构建可以分析各类学习者语言错误的依存句法标注体系。与计算语言学研究者面对的语料相比,学习者语料更难处理,并且这些看起来错误的语料恰好反映了学习者能力发展的轨迹,所以还不得不去想办法分析它们。这也可能是至今为止鲜有研究者使用句法标注语料库来研究学习者语言发展的原因之一。


这种情况从 2017 年开始得到了一定的改善。这一年,“基于依存句法标注语料库的中国英语学习者句法发展研究”被立为国家社科基金重点项目,项目号17AYY021。五年来,在项目主持人蒋景阳教授与课题组成员的共同努力下,课题组编写了面向英语学习者语言的依存句法标注手册,收集、标注了从小学到研究生,涵盖16个年级的36万多词的中国英语学习者依存树库(Chinese English Learners’ Dependency Treebank, CELDT),并以该树库作为研究资源,发表了数十篇被SCI、SSCI、A&HCI 和CSSCI 检索的论文,受到了国内外学者的广泛关注。例如,2018年发表在Journal of Quantitative Linguistics上的有关依存距离概率分布能够预测二语学习者水平的论文,自发表以来被引数在该刊排名第一;2019年发表在Language Sciences上的从计量类型学的角度研究中介语的论文,自发表以来被引数在该刊排名第一;2019年发表在Journal of Second Language Writing上的基于依存树库研究句法复杂度的论文,自发表以来被引数在该刊排名第五。这些事实说明,基于依存句法树库的数据驱动的外语句法能力研究是一个极具潜力的研究方向。


在外语句法能力发展这一研究领域,句法复杂度可能是被提及最多的一个术语。尽管这里所说的句法一般都不是语言学意义的“句法”,而是对句子结构复杂程度的一种测量,探究的是学习者语言产出中组成句子的语言单位的数量以及相互间的关系,但句法复杂度的引入可以更客观地评估学习者句法能力的发展,所以在二语研究领域得到了广泛的应用,也产生了一些专用的软件。换言之,现有句法复杂度尽管是粗颗粒的,但在很多应用场合是有效的。如何在现有体系中加入更多的细颗粒指标,以便更准确地衡量学习者的句法水平、描述句法特征和追踪句法发展路径,是本书前4章的主要任务。


第1至4章的研究表明,依存句法树库是句法研究的一种资源,即,从树库中提取出来的句法关系等信息为句法复杂度的传统研究方法增添了更细微的句法知识。依存树库可以提供更细颗粒的句法能力发展指标,可弥补传统指标的不足,值得深入挖掘。从这个意义看,这4章的研究是在继承传统基础之上的发展与创新,这些从句法复杂度、词汇复杂度和词块复杂度的角度来对中国英语学习者语言所进行的横截面研究,既揭示了不同水平二语学习者在语言复杂度方面的差异,也探讨了二语学习者写作和本族语者写作之间的不同,为相关研究提供了新的证据。尽管这些研究对于我们更准确地探究语言能力发展与句法复杂度之间的关系、对于弥补传统方法的某些不足是有帮助的,但并没有充分发挥依存句法作为一种语言学意义的句法理论的优势。换言之,我们需要进一步挖掘依存句法结构本身的潜力,寻求基于依存结构树(图)的可测度指标,并用这些指标来研究学习者句法能力发展问题。


我们知道,学习者语言是一种中介语(interlanguage)。中介语是学习者构拟的一种逐渐接近目标语的语言系统,是一种特殊的自然语言。1972年,拉里·塞林格(Larry Selinker)在IRAL上刊发的题为“Interlanguage”的文章,已成为应用语言学的经典文献,这篇文章已被引近1.2万次。中介语也成为应用语言学中的核心概念,但遗憾的是,对于这一概念的一些本质特征,研究得还很不够。一般认为,中介语具有过渡性、渐进性、连续性、动态性、目标语不可接近性等特点。显然,要想科学地了解中介语的这些“性”质,仅靠举几个例子是不够的,可能需要基于学习者的真实语言材料,采用语言类型学的方法,来探求中介语的这些概率“性”特征。为什么要用和能用语言类型学的方法?因为中介语本身也是人的语言,从类型上看,它可能具有过渡性、混合性的特点,但只要是人的语言,就应该具有普遍性与多样性相结合的特质,就可以用类型学的方法来研究它。当然,能这样做的前提是,我们需要一种可操作的数据驱动的概率性语言类型指标。说得更直白一点,我们需要一种基于依存句法标注语料库的语言类型指标。


2010 年,我以形成句法关系词语的相对位置(依存方向)为指标,分析了20种语言的大规模真实语料,不仅发现该指标可以作为一种类型学参数,也提出了语序类型连续统的概念。这一数据驱动的语言类型研究方法,被国外学者称为“刘—有向性”(Liu-directionalities),并在语言研究和二语习得、自然语言处理等应用语言学领域得到了应用。那么,用这个听起来有些玄乎的“刘—有向性”是否能解决中介语的这几个“性”呢?本书第5章中的第3节研究的就是这个问题。通过对8个年级中国英语学习者和英、汉两种语言本族语者语料的研究,研究者发现:中国英语学习者中介语系统和母语(汉语)以及目标语(英语)一样,具有主谓和动宾结构的偏好;随着学习者二语水平的提高,中介语逐渐从母语向目标语接近。支配词前置的依存关系从初一时的47.3%上升到了大二时的50.5%,逐步逼近目标语的 51.7%,体现了中介语的渐进性特点;整体依存方向能较好地衡量不同阶段的中介语水平;汉语和英语中具有相似语序的主语和宾语的依存方向不能衡量中介语的水平或类型学变化,但语序有区别的状语和定语的依存方向则能较好地衡量,体现了学习者中介语、目标语和母语在语序类型上的共性和差异。这一节的研究,从语言类型学的角度揭示了中介语不断向目标语逼近的过程,也用真实的学习者语言材料证实了中介语确实存在着此前提及的那些概率“性”特质,而中介语这些重要的性质,如果没有依存树库作为资源,如果没有依存方向作为指标,是很难用科学的方法来探究的。

摘自本书第138页


现在我们再回到句法复杂度的问题。从某种程度上讲,复杂度代表的是一种难度,这种难度可能反映了说者的产出(编码)难度,也反映了听者的理解(译码)难度。语言是一个人驱复杂适应系统,其运作要靠人驱动,而人会受到自身认知机制的约束。换言之,真实语言的句法结构会受到认知的约束。当然,句法结构也一定会受到语法的影响。如果是这样,从人类语言的依存句法结构中是否也可以提取出某种能反映句子复杂度的信息呢?基于数十种语言的真实语料,研究者发现,人类语言由于受到人类认知机制的约束,具有一种依存距离最小化的普遍性倾向。依存距离指的是句子中两个有句法关系的词之间的线性距离。依存距离最小化反映了人类交互和认知过程对语言线性结构或模式的塑造。这个距离越小,交流起来就越省力。句子越长,出现长距离句法关系的可能性就越大,人们也就需要动用某些手段来降低依存距离。通过对大规模真实语言使用数据的统计分析,研究者发现依存距离分布符合幂律,而幂律本身是复杂适应系统的一种特质。如果我们将依存距离最小化视为人类语言的一种普遍特征,依存距离的幂律分布便是最小化的动因之一,而幂律分布又是语言作为一种复杂适应系统的反映。那么,根据依存距离分布,我们能否区分不同水平的学习者,能否用依存距离来观察学习者的句法发展轨迹呢?本书第5章的第4节研究了这个问题。


通过对学习者真实语料的研究,结果发现,9个年级学习者作文的依存距离分布均遵循齐普夫—阿列克谢耶夫(一种幂律)分布模型。这说明,尽管学习者水平不一样,但均受到相似的认知机制的约束,进而展现了语言结构的普遍特征(原则)。然而,九条分布曲线的相似性,并不意味着这些学习者的语言水平是一样的。通过对齐普夫– 阿列克谢耶夫分布模型中的参数a、b与学习者年级的相关分析,研究者发现,随着年级的增长,或者说学习者语言水平的提高,参数a显著上升,参数b显著下降。换言之,齐普夫—阿列克谢耶夫分布模型中的参数a和参数b能很好地反映中国英语学习者的英语语言水平。这一研究也发现,进入大学后,依存距离概率分布的参数趋于稳定,反映了学习者语言的僵化现象。相比于传统的学习者语言发展研究,这一节的研究创新性极高。具体体现在,首次将计量语言学方法用在二语句法发展的研究上,把数据驱动、句法复杂度、学习者语言能力发展、语言认知等因素有机地联系在了一起,用科学家习惯的方式将语言的原则(普遍性)与参数(多样性)统一在了一起,使语言学的“原则”与“参数”不再只是隐喻,而成为实实在在的数学意义上的“公式”与“参数”,从而使得这项研究既有理论高度,又解决了应用语言学的实际问题,是打通语言理论研究和语言应用问题的一个好例子。本节研究的是中国人学英语的情况,后来又有研究者采用同样的方法研究了日本人学英语、英美人学汉语的情况,得到了相似的结果,证实了本节所用方法的科学性、结果的可靠性以及发现的普遍性与可复制性。


此前说过,句子越长,产生长距离依存的可能性也就越大,此时,为了更有效地交流,人们动用某些手段来降低依存距离的机会也就越大。这句话里面的“某些手段”, 指的是语法、语用等可以有效降低距离,又不会对交流造成问题的人类处理语言的手段。对于学习者而言,水平越高,使用这些手段的能力就越强,出现错误的概率也就越小。实际情况是不是这样呢?本书第6章对依存距离与学习者错误的关系进行了研究。研究发现:中低水平学习者在长距离依存关系中的错误率较高,易出现成分缺失、时态和介词错误;高水平学习者处理复杂句法关系的能力增强,错误明显减少;中日两国英语学习者写作句法错误的对比,进一步证实了长距离结构可能是中低水平学习者错误的主要原因之一。中日学习者因长距离结构限制而产生的错误存在一定差异,说明学习者所犯错误也与他们的母语类型有关。


依存关系是构成依存句法的基础,是一种词间关系,是在从词到句的过程中形成的动态关系。一般认为,人类语言中的绝大多数词都有一种潜在的与其他词结合的能力,尽管这种能力的大小因词而异,但词的这种组合潜能是一种普遍存在的现象。词的这种潜能在使用时被激活,于是就形成了依存句法的基本要素——依存关系,进而形成了句法结构模式。在依存句法体系内,词的这种潜能被称为“配价”。可以毫不夸张地说,配价也许是打开语言分析之门的一把钥匙。如果依存关系是实例化后的配价关系,那么反映人类语言线性特征的 依存距离和依存方向难免会与配价有着千丝万缕的联系,学习者语言作为一种特殊的人类语言,当然也可以通过配价来研究。事实上,无论是在泰尼埃的书里,还是在后来将配价理论发扬光大的德国,配价均与外语学习者语言有过非常密切的联系。沿着这个传统,在依存树库的加持下,本书第 7、8 两章研究了中国英语学习者中介语种动词配价的发展路径。


以上这些研究不仅拓展了学习者句法发展研究的疆域,解决了用此前的资源与方法不易解决的问题,也进一步强化了应用语言学与语言学理论研究的联系。然而,依存句法树库的作用可能不止于此,它也有助于构拟基于句法关系的语言复杂网络,而复杂网络是从系统科学的角度探求语言这一人驱复杂系统的重要工具。说到语言的系统性,现代语言学之父索绪尔曾强调,语言“是一个系统,它的各项要素都有连带关系,而且其中每项要素的价值都只是因为有其他各项要素同时存在的结果”。按照这一说法,从系统的观点研究语言最适宜的方法可能就是网络方法,因为只有在网络中,我们才能更好地观察各要素之间的联系以及各要素在整个系统中的价值。


有关母语习得的研究发现,大多数孩子在两三岁时,开始具有连词造句的能力。有趣的是,这种能力似乎是在短时间内突然出现的,具有明显的涌现特征。而使用传统方法来研究涌现则几乎不可能。那么,如果采用复杂网络中用来衡量复杂系统涌现的指标,能观察到这种句法突现吗?有学者构拟了不同年龄儿童的多个语言网络并采用复杂网络指标进行了研究,结果发现,儿童在2周岁左右的时候,其句法网络的整体拓扑结构开始从原先的树形模式转为一种无尺度、小世界的模式,而无尺度、小世界是人类语言句法网络的一种普遍特征。这一研究用系统科学的方法揭示了在个人语言发展的进程中,在2周岁左右,会出现一次非线性的动态模式的相变,即,句法结构的涌现。

摘自本书第245页


如果L1(第一语言)有句法涌现,L2(第二语言)学习者会出现类似的L2 句法突现吗?本书第 9 章研究了这个问题。结果发现:L2 学习者在习得初期(大约四年级),句法网络就已经呈现了无尺度和小世界的特征,即在习得过程中不存在“涌现”现象;网络参数的分析结果显示学习者句法能力在高中阶段出现波动或者僵化现象。这些发现说明母语句法系统可能是L2句法学习的基础或出发点,即L2句法网络的无尺度和小世界特征不是涌现的,而是依附于L1 句法网络而存在的。这样的结果是可以理解的,L1的习得如同在白纸上画画,而L2是在已有L1的基础上的再创作。这一研究从系统的角度验证了L1与L2的句法形成机制是不一样的。为什么不一样?为什么会受L1的影响?是语言习得关键期在起作用,还是由于学习者的模仿类比机制更成熟,省力原则开始起作用了?当然,没有涌现,并不意味着没有变化。通过对学习者复杂网络指标的分析,可以发现L2句法网络发展是动态的、非线性的。例如,学习者的词汇丰富度在初一时得到快速增长,而句法的发展则相对滞后,成熟于初三和高一阶段。在高中阶段,也可以观察到学习者的句法出现了石化现象。不同水平L2 学习者的句法网络所呈现出来的这种不同,恰好反映了L2的另一个重要特征——过渡性。


在对全书内容作了一个简单的介绍之后,我们可将本书的特点概括如下:将依存句法理论和计量语言学方法用于二语句法习得领域,不仅强化了依存句法理论的应用价值,也拓展了计量语言学的应用领域;在丰富了数智时代广为使用的这一句法理论的同时,又使得二语句法习得的研究更加科学化、精确化、多样化,为课堂教学和教材编写提供了精准量化的科学依据;开辟了数智时代二语习得研究的一条新路,加强了理论与应用之间的互动关系,有助于形成良性的学科发展动力和构建21世纪的应用语言学。


当然,正如作者在本书结语中所说的那样,本书也有一些不足,在我看来,这些不足正是继续前进的动力。为了迎接数智时代对语言学的挑战,我们需要更多的数据驱动的语言学和应用语言学研究,从这个意义上讲,本书开了一个好头。


刘海涛

2023年8月18日



本书现已在各大电商平台上架,欢迎大家购买!

浙江大学出版社

天猫旗舰店:

https://m.tb.cn/h.gbTLlsBDsiMAAxl?tk=tsA1Ws0Kq8Q

当当旗舰店:

http://product.m.dangdang.com/11735717123.html?unionid=537-50 



当然,如果您从头到尾看到了这里,丛书的其他三本也不宜错过!

继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存