查看原文
其他

数据驱动的语言应用研究

刘海涛 计量语言学 2022-04-24

最新一期的《语言文字应用》(2021年第1期)刊登了一组数据驱动的语言文字应用研究论文。本号从今日起,将连续四天为大家做一些推荐,欢迎关注。今天小编给大家带来的是刘海涛教授为这组论文撰写的导言《数据驱动的语言应用研究》。全文如下:




周有光先生在《语言文字应用》的首期首篇文章中认为,应用语言学最主要和最紧迫的研究有三个方面:语言教学、语言计划、信息处理。时至今日,语言信息处理在人类语言大数据的加持下,已经取得了长足的进步。值得注意的是,在赋予计算机语言智能的过程中,语言学家所起的作用微不足道。为什么最懂语言的语言学家在这个最需要语言学家的智能时代,却被无情地抛弃了?为什么语言学家发现的那么多的语言规律没有派上用场?是寻找规律的方法有问题,还是这些“语言规律”本身反映的并不是人类语言的规律或人类语言系统最本质的规律?在这种情况下,应用语言学研究者,可能需要自已探求基于应用的语言规律,此时可从语言信息处理同行们的成功中得到启发:语言规律源于语言使用。

在语言教学方面,一个显见的事实是,不同水平的学习者产出的语言是不一样的。尽管可以采用各种现代的实验方法来研究学习者的心理、神经等认知机制,但对语言学家而言,从真实的学习者语言数据中发现语言学习的规律,并使用这些规律改进语言教学的过程,可能是一种永不过时的可靠方法。在《语言文字应用》的首期中,我们看到吕必松、鲁健骥等人有关语言教学的文章。由于受时代因素的限制,这些文章大多采用了思辨或举例的方法,但文中的许多思考至今仍有现实意义。如,吕必松说“没有对语言的规律和规则的描写,语言教学就寸步难行。”鲁健骥则认为,偏误分析旨在发现外语学习者发生偏误的规律,可使外语教学更有效、更有针对性。这说明,《语言文字应用》从创刊之日起,就非常关注语言规律对于语言教学的作用,关注应用语言学与语言规律之间的关系。

29年过去了,人类已经进入一个由大数据催生的智能时代,技术的发展,数据驱动语言学研究方法的进步,使得我们有了从大量学习者真实语料中发现规律的可能,也就有了本专题中有关学习者语言的两篇研究。学习者语言是一种过渡语。这就要求研究者采用同一种测度指标对不同水平学习者的语言数据进行统计分析,必要时也需要与母语者的语言数据进行比较,否则,我们很难发现中介语所具有的过渡性、渐进性、连续性、动态性等特点。本专题的两篇文章均采用了句法标注的学习者语料作为研究资源,但研究的对象与视角不同。

基于词间依存句法关系分析人类语言真实语料的方法,已在自然语言处理领域得到了广泛应用,并正成为基于数据的学习者语言研究的主要句法模型。动词在基于配价的依存分析架构中占有核心的地位。如果将配价理解为词语的结合能力,那么研究学习者动词配价的发展规律就显得尤为重要了。郝瑜鑫等采用“概率配价模式”,对英语母语的汉语学习者的动词配价发展进行了研究,结果发现学习者动词配价发展是一个连续、渐进与多因素并存的过程。严格说来,尽管“概率配价“使我们有了从动态的语料中获得和研究词语配价的可能,但配价本身是词的一种静态特征,它所蕴含的结合能力也是一种潜在能力。这种潜在能力只能在词语的具体使用中显现出来。实现了的配价便形成了句法关系。人类语言是一种人驱的复杂适应系统。这里的人驱有两层意思,一是离开了人的使用,语言将不再有生命;二是在语言使用过程中,人的认知机制对于语言结构是有约束的。依存距离指的是两个具有句法关系的词在句子中的线性距离。对数十种语言大规模语料的计量分析表明,由于受人类工作记忆容量的约束,人类语言具有一种依存距离最小的倾向。因此,两个形成句法关系的词在句子中离得越远,就越难理解或越难生成。蒋景阳、姜茜茜的文章,采用依存距离作为计量指标,以汉语母语的英语学习者为对象,考察了学习者错误、依存距离与二语水平之间的关系。她们的研究表明,对于相同的长距离依存关系,中低水平与高水平学习者的处理策略与能力是不一样的,展现了语言学习过程的复杂性和多样性。这两项基于英汉、汉英的学习者句法标注语料库的研究,在语言加工和产出之间建立了科学可信的证据链,为语言习得提供了一种符合数据+智能时代精神的研究思路。

语言计划,今天一般称之为语言规划,是周有光先生提及的应用语言学的另一个重要领域。汉字的规范化与简化历来是中国语言规划的主要内容之一。在《语言文字应用》的头三期中,我们也发现了多篇有关汉字(简化)的文章。在有关汉字的语言规划讨论中,繁简之争似乎是一个永远也难有结论的话题。尽管从理论上讲,文字只是记录语言的符号,但历史的长河为语言与文字的关系带来了太多难以分离的水滴。语言规划是一种顺势而为的活动,这里的“势”指的是语言文字的结构与演化规律。众多实践表明,顺势的规划更容易取得成功。索绪尔说,“语言是一个系统,它的任何部分都可以而且应该从它们共时的连带关系方面去加以考虑。”汉字是汉语书面语的基本组成单位。因此,为了更客观地判断汉字简化对于汉语结构的影响,我们可能需要从真实的汉字流中发现汉语书面语的结构规律。黄伟以计量语言学中研究线性规律的动链为指标,基于数百篇繁体字与简体字的文本,研究了两类字体文本的结构特征。他的研究表明,字形简化没有改变汉字构形系统与动态使用中的分布规律,也没有改变字形线性组合模式的频次与长度分布规律。这说明,现有的汉字简化并没有打破汉语书面语结构的线性规律,是一种顺势而为的语言规划活动。

这里的三篇论文只是数据驱动语言文字应用研究的初步尝试,还存在着一些不足,但可以肯定的是,基于语言使用数据的应用语言学研究更客观地反映了语言使用的现实,更密切地关注了“概率性”这一人类语言的本质属性,因此,也就有可能更好地回答应用语言学研究者关切的问题。




今天的推送就到这里了。想要获取全文,请戳“阅读原文”。明天将给大家介绍第一篇论文《基于句法标注语料库的汉语中介语动词配价发展计量研究》。欢迎关注哟周末愉快!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存