计量语言学

其他

论文荐读 | 中国式现代化进程中方言与共同语的关系

在《语言规划讲义》一书中,作者指出,除了交流工具以外,语言还有许多功能,如“文化的容器、身份的象征、知识的载体、国家的资源”等;科学的语言规划是要根据人、语言、社会的动态关系,因时因势地调整语言各项功能的优先级,使语言能适应、推动社会发展。改革开放以来,我国经济迅猛发展,大量人口也流动了起来,人们为了沟通,开始转用普通话,说方言的机会渐渐少了。但是方言(文化)的功能与价值不仅限于交流沟通,所以尽管现在大家不会讲方言也能过得很好,也不意味着方言就“没用”“不用管”了......在中国式现代化进程中,应该如何看待方言和普通话的关系,又该如何因时因势地保护方言(文化)?我们在《浙江大学学报(人文社会科学版)》上,浅谈了一些见解。本文已于2024年7月26日在线优先出版:https://www.zjujournals.com/soc/CN/10.3785/j.issn.1008-942X.CN33-6000/C.2023.02.211
8月25日 下午 2:58
其他

论文荐读 | 基于句法标注语料库的英语书面语复句使用频数研究

读者朋友们还记得我们两个月前推荐的《英语复句句法复杂性的计量研究》一文吗?该文指出,人们在用英语表达时不得不用英语复句,但同时也会尽可能用那些相对更简单的复句类型。那么,人们使用英语复句的具体习惯会随语言变体和使用场合不同而异吗?在《中国外语》2024年第4期上,我们对有关英语复句的这些问题做了进一步探索。在作者小时候,家长啥时能让我们小伙伴吃上一口肉,那自然是最美妙的事。随着生活水平大幅提升,如今各种肉应有尽有,想吃肉也是随时随地。可说到吃肉,一年四季里,您还记得哪种肉吃得最贵?哪种肉吃得最多?哪个场合吃得最好?第一个涉及种类,第二个涉及数量,最后一个涉及场合。在中小学的英语课堂上,老师啥时能让我们小伙伴写一个复句,那都是具有挑战性的。随着英语水平大幅提高,如今各种句子那是应写尽写,想写难句也是随时随地。可说到写句子,各个学期里,您还记得哪种句子写得最难?哪种句子写得最多?哪个场合写得最好?第一个涉及种类,第二个涉及频数,最后一个涉及文体。本质上看,语言是有层级的,而书面语的表现形式是线性结构。按照线性结构的复杂程度,英语的句子可分为三类,即简单句、并列句和复句(complex
8月24日 下午 5:12
其他

论文荐读 | ChatGPT掌握现代汉语书面语的句长规律了吗?

读者朋友们还记得我们去年在《外语教学与研究》第5期上发表的《现代汉语句长分布的普遍性和特殊性》一文吗?在那篇文章里,我们发现,多种语言的句长分布服从同一种概率分布模型,人们在用句时很可能遵循着一种关于句子长度的概率模式。换言之,人们在使用语言时能凭一种共有的“直觉”断句。但是,人们又普遍认为汉语书面语中有较多“流水句”,时常“一逗到底”,汉语母语者在书面表达时句子观念(“直觉”)不强。赵元任(1979)指出,尽管汉语句子在书面上有时难以辨别,但在口语中大多可以用语调和停顿来判定。我们不禁要问:汉语书面语中真的有很多“可断可连”的流水句吗?此外,ChatGPT这类大语言模型通过大规模语言数据训练,在不少场景中已经能够生成较为自然的语言。那么,ChatGPT和人一样掌握汉语书面语的句长规律了吗?围绕着这两个问题,我们完成了“句长分布”研究的续篇,现已发表在《语言文字应用》2024年第2期上。本期推文简要介绍此文的主要观点。语言兼具线条性和层级性。因此,研究句长规律可以从两方面着手:句长的概率分布和句子单位的层级关系。本文中,我们将句子分为整句与小句。此前,我们发现,现代汉语的整句、“零句”(本文中为小句)句长的概率分布同其他多种语言一样符合扩展正负二项分布(公式1),并且模型参数(k,p,α)可用于区分语体。公式1
7月30日 下午 1:49
其他

论文荐读 | 英语复句的句法复杂性有规律吗?

从句,就像英语语法世界中的“变色龙”,总会以多变的形态出现在英语学习者的视野中,让人既爱又恨。从从句密度和嵌入深度的角度看,英语复句的复杂性有上限阈值吗?本期论文荐读,我们一起来看看《外国语》上新发表的《英语复句句法复杂性的计量研究》。想必大家从中学开始就不断接触各式各样的从句,它们纷繁复杂,变幻莫测,随着学习的进一步深入,我们还会遇到非限定动词(如分词、动名词和不定式),让人感到英语学习的道路上荆棘更多,挑战更大。随着步入英语高阶学习,我们会发现,非限定动词其本质上是从句的简化版,它们以更简洁的方式,传达着更复杂的意思。同时,翻阅任意一本英语语法书,我们也会惊奇地发现,从句与非限定动词两个部分占到了语法书一半以上的篇幅。英语从句的重要性不言而喻。尽管如此,从句不可独立存在,必须依附于主句形成主从结构。由此,复句(complex
6月16日 下午 4:57
其他

论文荐读 | 德语词长的跨语体历时演化研究

大家可能见过一些在互联网上广为流传的德语长词,比如Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz(牛肉标签监管责任委托法),但在杜登语料库中还有比它更长的词,比如79个字母的词长王者“牛肉肉类识别标签监管责任委托法”。下表展示了杜登语料库中的排名前5位的超长词。该统计考虑了多文性,只有在语料库中出现了至少5次的词才能上榜。官方表示,杜登语料库中的长词主要来自法律和行政文本,多为复合名词。我们不禁要问:德语词汇的长度存在明显的跨语体区别吗,它们的历时演化路径存在差异吗?来源:https://www.duden.de/sprachwissen/sprachratgeber/Die-langsten-Worter-im-Dudenkorpus近日,《外语教学》刊发的题为《德语词长的跨语体历时演化研究》的文章就对上述问题开展了讨论。本期荐读就一起来看看吧!从德语史看,德意志民族因长期未形成统一国家,各地语言也有所不同,直到马丁·路德于
6月14日 下午 6:42
其他

论文荐读|机器翻译痕迹究竟是什么?

河流、树木和狮子的生存依赖于想象中的实体,如神、国家和公司的恩典。如果你还记得幂函数(power
6月9日 下午 7:17
其他

论文荐读 | 苹果发布会里的语言奥秘

如今,各行各业都有自己的“春晚”。科技数码圈也不例外。苹果公司每年例行举办秋季发布会,推出当年新款的iPhone手机和Watch手表,吸引国内不少“果粉”熬夜观看,因而得名“科技春晚”。过去,发布会往往是在现场(如Steve
5月27日 下午 5:06
其他

会讯 | “语言计量与数字人文”暨第七届计量语言学学术研讨会征稿通知(1号)

“语言计量与数字人文”暨第七届计量语言学学术研讨会征稿通知(1号)在过去的三十年中,计量语言学经历了快速发展。将定量方法和模型引入语言学研究,促进了新的语言学理论的产生和发展,并为语言学分支领域的众多实际问题提供了新的解决方案。与此同时,计量方法也越来越多地进入了语言、文学、历史等人文学科研究领域,促进了数字人文的发展,产生了诸多研究成果。在此背景下,南京师范大学文学院、南京农业大学信息管理学院、北京语言大学语言科学院计量语言学研究中心将联合举办“语言计量与数字人文”暨第七届计量语言学学术研讨会。会议拟于2024年10月17-18日在南京师范大学随园校区召开。现将会议及征稿有关事项通知如下。一、议题语言与人文现象的测量与建模古籍与文学历史的数字人文研究语言类型、语言演化与人文历史计量研究语言教学、习得与认知计量研究语言风格与语言特征计量研究语言与数字人文资源建设基于语言大数据或大语言模型的计量研究计量方法在数字人文领域的应用二、会议安排工作语言:汉语会议时间:2024年10月17日报到,10月18日正式会议,10月19日离会会议地点:南京市鼓楼区宁海路122号南京师范大学随园校区文学院中大楼注
5月25日 上午 7:00
其他

论文荐读 | 从细读到远观:数智时代人文研究的新路向

近年来,ChatGPT等新一代数据智能技术扑面而来,改变着人类的认知过程,人类正步入数智时代。面对这数百年来人类社会从未经历过的震动,我们不禁开始思考:数据何以涌现出智能?在这场不同于此前“体力”革命的重大“脑力”革命中,人文工作者应该如何融入数字化潮流,在数智时代贡献人文学者的智能?近日,《当代修辞学》于2024年第3期刊发文章《从细读到远观:数智时代人文研究的新路向》。这篇文章是刘海涛教授数字人文巡讲的内容概要,文中展示的大多数研究成果都源于刘海涛教授的团队。过去8年间,他们在国际数字人文的标志性刊物Digital
5月18日 下午 3:29
其他

书讯 | 《基于依存句法树库的中国英语学习者句法发展研究》

近日,刘海涛教授主编、浙江大学出版社出版的“计量语言学研究进展”丛书迎来了新成员——《基于依存句法树库的中国英语学习者句法发展研究》。这本书集中呈现了蒋景阳教授团队完成的国家社科基金重点项目“基于依存句法标注语料库的中国英语学习者句法发展研究”(17AYY021)的成果,是市面上第一本介绍用“依存树库+计量语言学”方法系统性开展的二语习得研究的专著。现如今,中国学生一般从小学三年级开始学习英语。直到研究生阶段,英语课仍然是相当大一部分学生的必修课程。在各项教学和评估环节中,写作是不少学生和老师的一个难题。学了这么多年英语,中国学生在书面表达任务中的词汇、句法能力是怎样发展的,哪些指标可以有效捕捉学生在特定阶段的能力发展,这些指标能否帮助教师评阅;学生常用的搭配、常犯的错误有什么规律,学习英语的过程和学习母语(汉语)、英语母语者的母语习得有何差异?要回答诸如此类的问题,既要收集从小学到大学(研究生)阶段中国英语学习者的写作语料,也要采用一套成熟、可操作的理论依据。蒋景阳教授团队用依存句法和计量语言学的研究方法,历经五年,把这些问题的答案呈现在了这本专著中。作为丛书主编、项目的参与者,刘海涛教授为本书作了序言。本号现分享序言(节选),与读者朋友们一睹为快。序言(节选)句法是现代语言学中最重要的组成部分之一,在某些语言学家眼里,句法几乎成了语言学的代名词。之所以如此,主要原因可能在于句法体现了人类语言是“有限手段的无限运用”的精髓。语言学中的句法热,也催生了五花八门的句法理论。撇开这些句法理论的技术细节不谈,我们有理由认为造句、析句能力可能是人类语言能力的重要组成部分。这个说法不仅适用于母语能力,也适用于外语能力的形成和发展。句法如此重要,自然也吸引了众多应用语言学(二语习得)的研究者,产生了不少有趣的研究成果。遗憾的是,就外语学习者句法能力发展领域而言,现有研究大多存在两个问题:一是缺乏一般意义的源于语言学的句法理论的指导,二是没有采用经过句法标注的学习者真实语料。就外语句法能力的发展而言,它与语言学的联系可能是必需的,因为句法不仅是现代语言学中最重要的领域,而且就句法来说,可能没有什么领域的研究者比语言学家知道的更多了。那为什么我们很难看到句法理论指导下的相关应用语言学研究呢?我们知道,应用语言学要解决语言学习者的现实问题,就句法能力来说,研究者需要面对大量真实的学习者语料。如果要用语言学意义的句法理论来研究这些语言材料,首先得有能处理这些真实语料的句法分析模型。现实很残酷,尽管理论众多,但能处理大规模真实语料的句法理论却很少。在这种情况下,应用语言学研究者另起炉灶,用一些看起来不太像语言学,但能在一定程度上发现问题、解决问题的方法也是可以理解的。然而,这只是权宜之计。学科要发展,不能满足于此,还是要寻求句法理论支持下的、数据驱动的应用语言学研究之路,因为数据能更好地解决人类语言中普遍存在的各种概率性问题,而概率性问题在学习者语言中很常见。应用语言学中的学习者句法能力研究与理论句法的关系有点像计算语言学研究与语言学理论研究的关系。即,在理论语言学家脑子里转得挺溜的语言规则放到电脑里就行不通、走不好了,能把“一把把把把住”“鸡不吃了”之类的句子分析得头头是道的理论在遇到学习者语言时就有些摸不着头脑了。为了更好地使用计算机来解决现实世界的语言问题,20
4月25日 下午 4:08
其他

花格老刘的2023

时间过得真快,又到年终总结的时候了。2022年,我六十岁。因为绝大多数人,很难有自己的第二个六十岁,所以60岁那年,人们总想过得与其它年不太一样一点。在去年年终总结的推文初稿中,原本有下面这样一段话和一个截图:今年是浙大建校125周年,为加大对身边教师典型的宣传、弘扬优良师德师风,学校有关部门举行了一系列的“我心中的求是大先生”活动,并出版了包括27名在浙大不同时期任教过的教师,其中包括竺可桢、陈建功、苏步青、姜亮夫、王淦昌、程开甲、林俊德等大家熟知的“大先生”,我很高兴在我60岁的时候,能够名列这本具有特殊历史意义的书,感谢学校有关部门,感谢王雅琴同学。雅琴在文中称为我为“先生”,而不是“大先生”,这个计量是准确的,因为与此前提及的和书中的其他大家相比,我只能勉强算是一个教书“先生”。遗憾的是,这本书直到今年春节才上市,现在补上这段迟到的文字,凑个字数。“花格老刘的2022”最后一句话说,“这本讲义也许还是能在春节前出来的,如果真能出来,那该是多完美的一个60岁啊。”这句话中所说的讲义是《语言规划讲义》(以下简称《讲义》),由于众所周知的原因,这本书最终没能在春节前出来,但却在我61岁生日到来前上市了,并入选了商务印书馆5月的“十大好书”。在此,我衷心感谢商务馆的诸位同仁,感谢大家为《讲义》的出版所付出的辛苦与努力!在《讲义》的《写在前面的话》里,我用下面这些词语概括了这本讲义的特点:语言、规划、政策、人造性、语言规律、助推、服务、工具、社会、国家、有意识、理论架构、系统、问题、模式、高效、干预、人驱、学科建设、语言学。更多内容,可参看相关推文(一本语言规划领域富有新意的教学研究参考书
2023年12月20日
其他

书讯 | 《汉英句法计量特征:基于依存关系的比较研究》

小编按:计量语言学是以真实语言材料为基础,用精确的数学方法研究语言结构模式与发展规律的现代语言学分支学科。近年来,越来越多的国内学者对计量语言学产生了浓厚兴趣,学习计量语言学的理论与方法并开展了大量研究实践,在国际上发表了不少研究成果。总体来看,我国的计量语言学在科学研究、人才培养、学术交流等方面都取得了一定的成绩。浙江大学出版社的“计量语言学研究进展”丛书,旨在持续出版国内计量语言学的最新成果。近日,浙江大学章红新博士的《汉英句法计量特征:基于依存关系的比较研究》,作为丛书系列的第3本正式出版。今日本号特刊发刘海涛教授为该书所做的序言,以飨读者。2010年9月底,我从位于北京的中国传媒大学调到了位于杭州的浙江大学。时任浙江大学外国语言文化与国际交流学院院长的何莲珍教授希望我能带动一些青年教师搞搞研究,考虑到我当时从事的计量语言学研究比较艰深,外语学科的人一听可能就吓跑了,于是,我们商量,先做一个我也一直在研究的语言规划方向的讲座,看看能不能吸引一些人来。记得讲座是在10月29日上午做的,当天下午4点多的时候,我收到一封署名为Maria
2023年12月15日
其他

对于神经网络语言模型而言,位置就只是一个序号吗?

《当代语言学》在2023年第6期刊发了如下文章:由于文中采用的方法以及研究的问题与传统语言学有很大的不同,因此,我们希望能用更通俗的语言介绍这项研究采用的主要方法以及研究的意义和价值。神经网络语言模型在实践中的成功,使得语言学研究者无法忽视。甚至有研究者认为,语言模型的成功是对语言学研究者几十年如一日工作的侮辱(Piantadosi
2023年12月10日
自由知乎 自由微博
其他

书讯 | 应用语言学专业词典

近日,“应用语言学译丛”又有一本译著由商务印书馆正式出版。该书是爱丁堡大学艾伦•戴维斯教授所著的《应用语言学专业词典》(A
2023年10月21日
其他

汉语的句子真的很特殊吗?

0.02时,拟合结果好,C
2023年9月12日
其他

基于印欧语系语言的词汇丰富性指标可以预测汉语二语者的写作质量吗?

最近小编在查阅语料库时,看到条语料,“我的妈妈很漂亮,我的妹妹也很漂亮”“我的妈妈既漂亮又善良,妹妹很可爱。”如果你作为评分人员,你会给哪位考生更高的分数呢?小编选择第二位(不知道大家会选谁呢)!小编觉得,相较于前者,第二句话使用了更多样化的形容词,而不是重复地使用“漂亮”。给人的感觉就是第二位学习者所掌握的词汇更丰富,并且能够恰当地运用。要知道,词汇在语言中的地位可是不能小觑的。英国语言学家威尔金斯(Wilkins)认为:“没有语法,能表达的东西很少;没有词汇,则什么也不能表达。”可见,要想成功地习得第二语言,掌握大量的词汇是必要的前提之一。在写作中,要想得到评分员的青睐,获得更高的分数,我们可能还要关注产出文本的“质量”。词汇丰富性(lexical
2023年9月2日
其他

语言复杂网络研究——现状与前瞻

文本分类研究,其相似性在于,一是所用材料都是真实文本语料,二是在语言学原理上,人类语言既有共性又有个性,基于语言网络特性与参数,我们既可以考察人类语言共性如小世界性,又能基于具体参数对不同语言/
2023年8月26日
其他

人类语言的“驱动”——卢德平教授谈《语言规划讲义》

小编按:今天是4·23,也是一年一度的“世界读书日”。在这个特殊的日子里,大家有没有决定好选择哪本书去开启阅读旅程、探索新知?如果没有,不妨可以考虑商务印书馆新近出版的《语言规划讲义》。《讲义》自出版后,也激发了部分读者的阅读热情。刚好,我们有幸收到北京语言大学语言学系卢德平教授阅读《讲义》的一些感悟,今日特转发在本号,以飨读者。今天收到刘海涛教授的新作《语言规划讲义》(商务印书馆,2023年4月第一版),翻阅全书,作者创新的思绪迎面扑来。全书涉猎整个语言规划学科,既有宏观构想,又有微观分析,以平实的授课风格道来,将一门学问转变为启示,将学术的客观中立转变为主客之间的共鸣。全书亮点太多,难以在一篇短文中全部呈现。刘海涛教授提供的知识盛宴,难以囫囵吞枣一次享用完毕。我想在这篇短文仅就刘海涛教授提出的人类语言“无意识驱动”和“有意识驱动”这对貌似相反实质统一的重要概念做一些发挥,供读者参考。人类语言“无意识驱动”实际上指的是语言日用而不觉的自然性,即我们常说的“语言事实”。“有意识驱动”则是指人类对于语言的使用实施一定的干预,以优化语言的用途。后者主要是语言规划讨论的问题。关于人类语言的“有意识驱动”,刘海涛教授直接阐明为语言的“人造性”。值得注意的是,语言的“人造性”,说明了关于语言的使用存在着相应的社会条件,个体的语言运用受到社会“人造性”规范的制约。例如,安排哪种语言变体为高变体,哪种为低变体,体现了在道德、经济、文化等方面对其“人为”赋予的不同社会声望。一个人要进入一定的社会群体,就必须学会这个群体通行的语言表达方式。小学生教爷爷奶奶汉语拼音,就说明老年人只有掌握这种非自然习得的“人造性”方式,才能进入互联网满足视觉的需求,获得新知的享受。这是语言“人造性”命题涵义的一个方面。另一方面,当人们在不同场合无意识遵循情境得体性规律时,语言的社会“人造性”特征实际上又被语言的使用情况遮蔽了。因此,很少有人意识到,每天说的“标准语”实际上是外部“人为”指定的语言变体。这种变体可能和一个地区的方言一致,也可能不一致。不会说“标准语”而只会说方言的人随时意识到外加“标准语”的“人造性”,而在方言和标准语之间能自由进行语码转换的人则意识不到任何“人造性”。可以看出,在语言的使用过程中,语言的“有意识驱动”通常转变为“无意识驱动”。语言规划从语言的“人造性”入手,借助有意识的使用,诉诸无意识的内化。就使命而言,语言规划的目标已经涉及语言学习者、语言使用者的知识养成、职业轨迹、生涯发展。一种意识不到语言的“人造性”安排却能娴熟应用相应语言的能力,是人的发展的基础条件。成功实现了“有意识”和“无意识”语言使用的转换,标志着语言规划的成功,但这种成功是否符合社会的道德、文化、价值标准,则是语言规划在确立其学术目标时必须考虑的首要因素。刘海涛教授提出的观点催生了很多思考。我爱读这本书,从这本书里找到了自己没找到的思路,找到了可以由此出发继续前行的坐标。我希望读者不要把这些话误解为对刘教授新作的奉承。它仅仅是研究过程的一个生动的记载。对《语言规划讲义》感兴趣的读者,欢迎前往各大平台购买:京东:https://item.jd.com/13705133.html当当:http://product.dangdang.com/29554946.html淘宝:https://detail.tmall.com/item.htm?abbucket=0&id=711903280601
2023年4月23日
其他

书讯 | 《语言规划讲义》之《写在前面的话》

小编按:语言规划,也叫做语言政策、语言管理或语言治理,是一个问题驱动的语言学分支学科,旨在通过人类有意识的活动影响语言的演进,协调人、语言和社会的关系。近日,刘海涛教授的《语言规划讲义》由商务印书馆正式出版,这也是国内第一本冠以讲义命名的语言规划著作。本书内容广泛,主要围绕语言规划的核心议题展开,如问题驱动、语言规律、有意识性、理论模式等,讨论的问题基本上涵盖了个人、国家和超国家等不同层面。本书题为讲义,相较于同类图书具有一定的特色,其一在于语言生动有趣,极具课堂的现场感;其二在于脉络清晰,回归语言规划本质,有助于初学者快速掌握核心概念、发展概况和理论框架,为开展进一步研究奠定基础。本号此前在推文中曾预告《语言规划讲义》即将出版(“花格老刘的2022”),小编也已在第一时间拿到纸质书。不得不说,商务印书馆作为国内知名的大出版社,在排版设计、图表制作、印刷质量等方面很有经验,因此纸质版《讲义》的整体体验感相当不错,小编已经迫不及待想向大家推荐这本新著。为方便读者了解讲义的缘起与主要内容,后续拟分两次进行推介。今天推送的是刘海涛教授专门为讲义撰写的《写在前面的话》,以飨读者。35年前,当我从世界语的学习者转变为国际语的研究者时,开始对人类有意识干预语言的活动产生了兴趣。于是,便一头撞进了语言规划领域。对我而言,语言规划是一个问题驱动的语言学分支学科。这句话里有两个关键词:问题驱动和语言学。问题驱动是语言规划作为一个学科的根本。为什么要规划语言?因为语言的使用者认为语言满足不了人和社会的需要,因此想改进它、调节它、优化它,使其成为一个更有效、更完美的工具。这里说的工具不仅是指语言作为交流的工具,也包括与社会有关的语言的其他功能,如文化的容器、身份的象征、知识的载体和国家的资源。我们将这些功能理解为广义的工具,只有认识到语言的工具性,我们才能对其进行评价、调整和改变。语言为什么满足不了人的需要?因为人不仅是生物人、语言人,更是社会人,而社会是变化的,为了让语言能更快地适应社会变化,特别是在社会变化比较快的时期,人类有意识地对语言进行调节和干预,不仅是可行的,也是必要的。当然,不同的社会发展时期,语言的这些工具性功能的重要性也会不一样,这就需要有意识地根据社会的变化适时调整语言功能的优先级,合理规划人、语言、国家和社会之间的关系。我们可以从多种角度去研究与语言规划有关的问题,但这个学科得以存在的基础是为了解决社会发展和语言不匹配的问题。尽管这些问题会受到时空因素的制约,但语言规划以问题为导向的学科根基不宜动摇。在此基础上,为了更好地解决这些关乎人与社会的语言问题,语言规划不仅要顺势而为,也要与时俱进、因时而变,只有这样,才能更好地实现语言规划作为一个学科的社会价值。显然,语言规划要解决的是语言或与语言密切相关的问题,这也是其作为一个语言学分支学科的根由。但语言学是探索语言结构和演化规律的学科,从探索规律的角度看语言规划,其价值何在呢?或许,像很多学者所说的那样,语言规划只是应用语言学的一个分支,在发现规律方面没有多大用处?我们认为,语言规划不仅具有重要的社会价值,即使从探求语言规律的角度看,也是极有意义的。它的重要意义在于能够帮助我们更好地理解,在人的有意识作用下,语言演化的规律会如何变化,从而使我们对语言的起源与演化有更深入的认识。从学理的角度来讲,如果我们把人类有意识对语言的影响理解为语言的人造性,那么,语言规划学者便不应只满足于做一些与语言有关的工作,而要采用科学的方法来研究语言中的人造性,寻求人为干预之后语言演化的规律。否则,语言规划中的“语言”两个字也就失去了意义,而这恰恰是语言规划作为语言学分支学科所要关注的核心问题。大约在100年前,现代术语学的奠基人维斯特(Eugen
2023年4月12日
其他

德语破框和依存不得不说的故事第二弹

前言长久以来德语总是背负着“难听”“难说”“难学”的负面标签,“罪魁祸首”就是德语特色的句法结构——句框。德语句子由左、右句框及其划分出的句子场域构成(如下图),虽然结构规整,但读者往往直到句末才能理解句子的意思,一旦中场中元素过多,德语学习者、使用者就常常有难以理解这一句子的烦恼。然而李媛、黄含笑、刘海涛在2021年发表的文章《德语书面语破框现象是特例吗?》却用数据证明,德国人也没有这么“傻”。现代德语日常使用中打破句框规则的破框现象层出不穷(如下图)。人们出于省力,将原本应在中场的元素挪到右框界之后的后场,形成破框,以此应对长句框带来的认知负荷。(可参阅「德语书面语破框现象是特例吗?」)那么,如果使用破框受省力原则的驱使,在德语发展史上,破框的使用是否呈现上升趋势?德语使用者是否会越来越倾向于使用破框,使之逐渐取代句框的地位?如果并非如此的话,又是出于怎样的认知原因呢?三位作者的新作给出了解答!语料库和工具新作《Die
2023年3月25日
其他

关于语言规划学科的几点思考

小编按:近期,《外语与外语教学》2022年第6期刊发了刘海涛教授的《关于语言规划学科的几点思考》,文章从语言规划的根本属性、学科基础、知识源泉和普遍价值等四个方面,阐述了作者近些年对语言规划学科的若干思考。新时代的语言规划研究,有必要发挥人的主观能动性,采用数智时代的新方法,让语言助力社会发展。文章较长,读者需耐心阅读。语言规划是研究人类有意识改变语言的结构与功能的学科。尽管语言规划作为一个学科只有60多年的历史,但人类有意识影响语言演化的历史至少可以追溯到文字和书写系统出现时期。由于研究者知识背景以及关注点的不同,人们对于语言规划作为一个学科的理解也存在差异。对于一个处在不断发展中的学科而言,这种差异是正常的,需要考虑的是“求同存异”的问题,这样就有可能将其转换为学科发展的动力。如何“求同”,目前很难有一个统一的标准,好在本文讨论的是语言规划作为一个语言学分支学科的问题,因此,这个“同”还是可以把握的。35年前,我从国际语问题研究走进语言规划领域。这些年来,我研读过多种语言的语言规划文献,发表过一些研究心得,从2003年起也一直担任语言规划领域的国际主要刊物《语言问题与语言规划》(Language
2023年1月17日
其他

花格老刘的2022

对我而言,2022年是特殊的一年,我60岁了。60岁,意味着已经步入老年。但对于一个学者来说,60岁也是个值得纪念的时间点。说起来,我从企业转到大学工作,也与60岁有些关系。大约在2000年元旦左右,我跟莱比锡大学的Sabine
2022年12月20日
其他

句法在语言网络里究竟有什么作用?

|《依存关系与语言网络》独家访谈,这个星球上的第一本《计量语言学导论》即将上市)究竟有没有作用?有什么作用?近期国际知名物理学期刊Europhysics
2022年9月6日
其他

晒书|《依存关系与语言网络》

小编按:上周发布了新书预售的消息之后(书讯
2022年9月4日
其他

序言 | 从无序中寻找有序

小编按:《依存关系与语言网络》的作者刘海涛教授在后记中写道:“二十年来,我指导过不少学生,但只有赵怿怡同学的学士、硕士和博士论文都是我指导的。她的三篇学位论文的标题分别是《“把”字句的计算机处理》、《基于依存语法的汉语并列结构自动分析研究》和《语言复杂网络若干问题研究》。在我看来,这三篇论文主题的变化,基本反映了我们在语言研究范式方面的转变轨迹。她是这一转变的见证者,也是参与者。因此,我请她为本书写了一个类似序言的东西。”今天就让我们一起来读一读赵博士的这篇序言。在我与刘老师相遇的第二十个年头,听闻老师要出版一部总结过去十几年研究成果的书,并邀请我为新书作序,我十分欣喜。一是因为虽然老师喜欢读书、藏书丰富,但他自己很少出书。他的成果多是实证性的文章,虽然每篇论文从理论假设、文献综述到方法支撑都涉及多学科、多语言背景,完全可以形成一部长篇巨著,但是老师总是偏爱以论文这种方式与国内外同行交流。二是因为老师的经历传奇,为老师作序更让我受宠若惊。2000年,刘老师从中国铝业跳槽到了北京广播学院(今中国传媒大学)当一名教师,说是“跳槽”有些不恰当,因为别人跳槽多是为了追逐物质财富而随波沉浮,刘老师却是载着他前半生的精神食粮蜗居到荒凉的东五环定福庄一隅,彻底转行到播音学院的应用语言学系,开始面对一群文理皆有、参差不齐的本科生。我在学术的起步阶段与刘老师相识,并且二十年来的学习与科研一直在老师的指导下进行,研究主线从基于规则的语法与自动分析发展到基于依存树库的自动分析,从依存关系的线性统计指标研究发展到语言网络多层级的复杂系统研究。尤其是刘老师2007年就在语言学界使用网络科学方法来研究人类语言的句法结构,这不仅深刻地影响了我的研究方向,而且在大数据研究成为趋势的今天,老师的研究仍处于语言网络研究的前沿。《依存关系与语言网络》一书从微观解析与宏观重构两个角度归纳了刘老师团队近年来的主要研究内容,涵盖了他在依存语法这一普适语言学理论基础上近二十年来从计算到计量的语言学思想与实践精华。在受教于团队巨大研究成果的同时,我似乎看到了刘老师引领着一个个学文科的孩子走出迷茫的步步脚印。正如袁隆平院士所说,“人就像一粒种子,要做一粒好种子”。一个人要做一粒好种子,只需要给他注入一个梦想。刘老师将依存语法与计量充分结合在一起的研究就是开启这个梦想的原点。2002年在北京广播学院应用语言学基地机房中的一堂语言学专业课上,刘老师讲授的《Prolog程序语言与自然语言的计算机处理》课程,让我第一次体会到语言背后蕴含的人类智能的确是惊人的。当时,我们尝试用语法结构简单描述能力强大的Prolog语言,“教会”计算机自动查找逻辑关系并给出题解的过程。在这个过程中,我们所做的只是用一种元语言充分描述事实与规则。那时候,利用计算机技术构建的主流语言资源库是基于短语结构语法的,我们传统的语文教育也多使用注重整体与部分关系的层次分析法进行语法分析,所以我最早的实验是使用哥本哈根树跟踪器——一种基于Prolog语言的图形接口,进行汉语短语结构的上下文自由文法(CFG)形式化自动分析。通过这个实验,我切实认识到了语法规则在机器理解自然语言过程中的重要作用,并进一步利用更复杂的特征结构来定义范畴,以实现对名词语义特征的表示,进而限制CFG过度的生成能力。刘老师对我的引导无疑是超前的,以至于这项2005年之前的研究在修改后被2014年的EI会议亚洲语言处理国际大会录用为口头报告。后来,此事被老师多次提及、津津乐道。现在想想,老师除了调侃我的神操作,还是因为这些让我彼时饶有兴致的形式化分析在老师眼中已然是精美的人工花园、脱离现实世界的空中楼阁了。充分描述规则不能脱离充分的事实,而“依存关系”是语言学研究从“花园”走向“灌木丛”的普遍规则。相比于短语结构语法,依存分析具有更强大的自然语言分析能力。在遵循依存关系三要素——“二元”、“非对称”和“标记性”的条件下,依存关系可以分析数百种语言的多种语言单位之间的相互关系。因此,在攻读硕士学位阶段,我开始转向构建汉语并列结构依存树库。这个树库中的句子不再是“咬死了猎人的狗”式的精心设计,而是大量来自现实世界的语言事实。仰赖依存关系作为词间二元分析的标准,我再也不用担心长句子中突然插入的成分与那些文本里人为隔开的各种标点符号了。当然,基于依存关系分析文本并非没有挑战,二元依存关系如何表示并列结构就是一个棘手的问题。在一个有至少两个并列体与一个并列连词的结构中,谁来做支配词、以及如何支配,并不是分析者拍拍脑袋就能说了算的。我们先假设并列结构的多种可行分析策略,构建了不同的训练模型,利用基于依存的图分析算法测试语料,找出精度更高的分析策略,因为在充分描述规则与事实的基础上,计算机会给出最真诚的解答。也正因为经历了从假设到数据再到验证的科学研究范式的训练,我才深刻地体会到语言研究科学化是脚踏实地的存在。计算机在训练中不仅能学会依存关系规则,还能形成自己的“习惯”。这些以精度与错例为表现的习惯,反映出依存关系与计算机处理方式间的隐含联系。比如,依存距离较短的并列结构标注策略与依存方向倾向一致的并列结构分析策略会得到较高的测试精度,而这些规律完全浮现于依存关系对事实充分描述的基础之上。后来,这项研究作为汉语依存句法分析的补充部分被发表在2009年第1期的《模式识别与人工智能》上。论文发表为我硕士阶段的研究做了一个完美注脚,而依存分析直面真实文本挑战的各种尝试才刚刚开始。《依存关系与语言网络》的第一部分“依存关系计量研究”以依存距离和依存方向为轴心,由浅入深地展示了依存计量指标的可用之地。第一章依存距离和依存方向用数学语言描述了依存关系的基本要素,在用依存句法描述词间关系的背景下,提出了依存距离、依存方向是两个衡量语言特性的计量指标。平均依存距离与人脑处理信息7±2
2022年8月25日
其他

书讯 |《依存关系与语言网络》独家访谈

小编按:随着数智时代的浪潮席卷全球,语言学迎来了新的机遇和挑战(数智时代语言研究的挑战与机遇)。一方面,多语种的大规模语料库使得基于数据和实证的语言研究成为可能,这些新的材料和方法有助于解决传统方法难以解决的问题;另一方面,学科鸿沟的存在,特别是文科背景的语言研究者对处理大规模数据的畏惧,阻碍了语言学更好地服务于科学进步和社会发展。自2006年以来,基于大规模真实语料和交叉学科方法,刘海涛教授与其合作者对人类语言在诸多层面的共性及特性展开了系统研究,相关成果大多发表在国际知名的学术刊物上。自2014年起,刘老师连续八年入选“中国高被引学者”。正如《科技日报》所评论的那样:“在计量语言学、语言复杂网络、依存语法等领域,刘海涛团队的相关研究多年来均处于国际前沿,在探索语言世界的舞台上亮起了一盏来自中国的‘明灯’(学术访谈|刘海涛教授:好奇是做研究的原动力)。”近年来,刘老师一直在思索如何让更多国内的语言研究者认识和了解“数据驱动”的语言学研究方法、更好地参与中国语言学的科学化和国际化,《依存关系与语言网络》因此应运而生。该书精选了刘老师及合作者近二十年的研究成果,较为系统、全面地展示了以大规模依存树库为基础,围绕语言的线性结构和网络结构对语言这一“人驱复杂适应系统”所做的探索。其中包括已在相关领域得到广泛认可的“依存距离最小化”(Dependency
2022年8月23日
其他

书讯 | 《词汇与句法计量研究》

计量语言学是以真实语言材料为基础,用精确的数学方法研究语言结构模式与发展规律的现代语言学分支学科。近年来,越来越多的国内学者对计量语言学产生了浓厚兴趣,学习计量语言学的理论与方法并开展了大量研究实践,在国际上发表了不少研究成果。总体来看,我国的计量语言学在科学研究、人才培养、学术交流等方面都取得了一定的成绩。由于种种原因,国内暂时还没有专门的计量语言学学术刊物,但已经出版了一些相关著作。2017年,《计量语言学导论》作为商务印书馆语言学教材书系的首本书出版(见这个星球上的第一本《计量语言学导论》即将上市)。这本导论书从历史、理论、方法、问题和资源等角度介绍了计量语言学的基础知识,上市后获得了读者的一致好评,并于2020年加印(见《计量语言学导论》终于上新货了!)。2018年,《计量语言学研究进展》出版(见计量语言学研究进展与《计量语言学研究进展》前言节选)。该书收录了当时国内计量语言学研究的部分前沿成果,成为国内学者了解计量语言学研究的一项重要的中文文献来源。受此启发,北京语言大学计量语言学研究中心于2020年年底开始策划出版一本汇聚国内计量语言学最新研究成果的书,也就是读者看到的这本《词汇与句法计量研究》。在本书即将出版之际,我们萌生了做一套计量语言学系列丛书的想法,于是考虑将“计量语言学研究进展”作为丛书名保留下来,并邀请刘海涛教授担任丛书总主编。以上就是《词汇与句法计量研究》以及丛书的由来。令人欣喜的是,经过作者们和出版社的共同努力,这本书已经由浙江大学出版社正式出版。国际计量语言学领域的知名学者莱茵哈德·科勒(Reinhard
2022年7月24日
其他

商务印书馆与我的语言学之路

小编按:本文是刘海涛教授为庆祝商务印书馆建馆125周年而作,载《商务印书馆一百二十五年(1897-2022):我与商务印书馆》,第733-739页。文章初始以微信推文形式写成,包含部分图片和链接,纸本出版时做了删节。本次推送为原稿全文,以飨读者,红色字体为删节部分。在当代中国,只要上过学的人,可能都与商务印书馆有或多或少的关系,也许他们已不记得“商务印书馆”这个名字,但一定不会忘了《新华字典》对他们的帮助。作为一个从事语言学教研的人,我与商务的联系当然不止是一本《新华字典》。40年前,我还是一名在读的工科生,开始对外语学习和语言研究产生了浓厚的兴趣,于是读了很多商务出的书,比如在1898年出版的商务第一本学术专著《马氏文通》。从某种意义上讲,是商务开启了我的“语智”(语言研究的智能),我是商务“昌明教育、开启民智”宗旨的受益者。我的语言学之路是从研习世界语开始的。据不完全统计,商务建馆125年来,出过的与世界语的相关图书有:《世界语高等新读本》(1922)、《世界语高等文典》(1922)、《世界语初级读本》(1923)、《国际语运动》(1925)、《世界语概论》(1926)、《世界语史》(1930)、《万国语通论》(1933)、《世界语初级讲座》(1958)、《世界语新词典》(1959)、《注释世界语文选》(第一辑,1959)、《世界语学概论》(1992)、《世界共通语史》(1999)。我在这里列出这些,是想说明即便这么小众的领域,商务出的书也涵盖了它的方方面面,既有理论,也有历史,还有教材和词典,这是非常不容易的。在写这段文字的时候,我旁边摆着1982年11月8日买的《世界语新词典》,那是我的第一本世界语词典,就是这本词典和《世界语初级讲座》把我带进了世界语的世界,并在2016年当选为只有40位成员的国际世界语研究院的院士。说到世界语,我们不得不提及胡愈之先生。1931年,愈之先生从欧洲途经苏联回国,在当地世界语者的帮助下,他在莫斯科参观访问了一个星期,回国后写了《莫斯科印象记》,风靡一时。在这本书的扉页,他用世界语写道:Al
2022年6月25日
其他

数智时代语言研究的挑战与机遇

小编按:数智时代的语言研究如何在守正的基础上坚持创新?《中国社会科学报》今日刊发刘海涛教授的文章“数智时代语言研究的挑战与机遇”,对这一问题做了简要评论和反思。人类正步入智能时代,很难想象智能可以脱离语言而存在,这也许是人类历史上最需要语言学家的时代,遗憾的是现实世界的主流语言学却似乎与这个时代渐行渐远。为什么会这样?形成这一挑战的主要原因可能在于,智能时代的推动力源于数据。换言之,我们正在进入数智时代,但对于大多数语言学家来说,基于数据驱动的语言研究方法则是陌生的、困难的。为了应对数智时代带来的各种挑战,语言学家们需要进行全方位的反思,特别是从目标、方法、语料和知识表征等方面进行反思。
2022年5月17日
其他

国家安全视域下的语言问题(观点摘要)

小编按:近年来,随着总体国家安全观的提出,国家安全问题日益彰显其重要性。语言作为一种“软件”,在维护和保障国家安全方面发挥了一定的作用,语言安全问题也逐渐受到学界的关注。《中国外语》第6期刊发的文章《国家安全视域下的语言问题》,就是旨在从国家安全的角度探讨与语言安全相关的诸多问题。文章经“高教社外语”微信公众号推送后,在短时间内获得了大量的点击阅读。有学者认为,该文是“叙事性与学理性、思想启迪性与现实建设性、话语事实与逻辑事实相互对照的典范之作。”考虑到文章篇幅较长,我们经作者授权摘取了文章的重要观点在本号推送,以飨读者。人是构成国家的要素之一,而人不仅是社会人、经济人,更是语言人。《国安法》第三条明确指出,国家安全工作的宗旨是人民安全,保障是军事、文化、社会安全。尽管没有提及语言,但鉴于文化与语言的密切关系,我们有理由认为语言安全也是国家安全的要素之一。
2021年12月19日
其他

世界语的结构和发展——柴门霍夫的语言学观念

162年前的今天,柴门霍夫诞生。为了纪念这位人类历史上最大的语言学实验的发起人,这一天,被联合国教科文组织确立为“柴诞节”(Zamenhof-Tago,参看“柴诞节:世界语创立者的一生”)。为此,我们重发“世界语的结构与发展”一文。本文最早在2004年国际世界语学会议上宣读,同年以Lingvistikaj
2021年12月15日
其他

花格老刘的2021

明年,我就到法定退休年龄了。因此,有必要唠叨唠叨今年的事。作为大学教师,做的工作不外乎与教学科研有关。教学就不多说了,每年选课的同学还是不少的,教室也基本都满了,教学材料也与时俱进,上课也很卖力在讲。毕业了几个博士生,其中,王雅琴的博士论文获得了浙江省和浙江大学的优秀博士论文,这也是我在过去五年里第二次获得省优博指导教师的荣誉。今年发表的科学研究成果有点特色,下面的小结主要围绕这个来说。数量上,我们发了23篇论文,其中:外文12篇,中文11篇。具体的文章信息在我的个人主页有,感兴趣的可以去这里看看https://person.zju.edu.cn/lht。下面我们挑几篇唠叨唠叨。每个学科都有神刊,语言学也不例外。今天,很多语言学家心目中的神刊可能是Language,但对我来说,是《语言学问题》(Вопросы
2021年12月12日
其他

书讯 | 《语言规划与社会变迁》

由于假期缘故,本号已经有段时间没更新了,大家有没有想念我们呢?在开学之际,小编给大家带来一则书讯——刘海涛教授主编的“应用语言学译丛”又有新成员啦()。最近,《语言规划与社会变迁》由商务印书馆正式出版发行,赵守辉教授和钱立锋博士翻译、张治国教授审订,它是本译丛的第9本译著。有关译丛里其它已出版译著的相关情况,可以参考本号之前的推送信息:2018年10月,《语言研究中的统计学:R软件应用入门》;2019年5月,《英语语法论》和《句法计量分析》;2019年12月,《语言规划:从实践到理论》;2020年10月,《协同语言学:词汇的结构及其动态性》;2020年11月,《语言:从意义到文本》。话不多说,现在就来揭开这本书的神秘面纱……以下是本书目录:为让读者更好地了解语言规划领域的这本经典著作,我们有幸邀请到译者赵守辉教授对其做了简要介绍。守辉教授现执教于挪威卑尔根大学,主要研究兴趣为语言规划、社会语言学以及中国语言文化等等。以下内容来源于守辉教授:语言规划与政策领域经典著作、美国学者罗伯特•库珀(Cooper)的《语言规划与社会变迁》经历波折终于出版了!该书致力于理论与框架的构建,作为一门新兴学科的奠基之作,它对于推动语言规划实践与政策分析研究(LPP)成为一个专门学术研究领域,具有独特的历史地位。正如国际语言规划与政策领域著名学者伯纳德•斯波斯基(Spolsky)在中译本“出版感言”中指出,“库珀的大作《语言规划与社会变迁》建立起了社会语言学与教育语言学之间的关键联系,为这方面的研究与出版起到了极大的推动作用。此书标志着语言政策经典研究的最高点,并导夫先路,将语言规划开辟为一个研究领域。”作为一部开拓性的奠基之作,本书的最大特色是作者对很多本学科领域最基本的概念作了缜密的推导和论证。书中考察了众多的语言规划实践案例,对现象背后本质的揭示可谓入木三分,信手可见充满睿智与洞见的金句。自从库珀这部开创性著作发表以来,语言规划这门学科已经发生了天翻地覆的变化。本书在这个领域早期的开创之功经受住了历史的考验,实践证明其取得了巨大成功。该书出版后曾在国际LPP学术界内产生热烈反响(出版后在短期内有众多书评发表)。大体说,该著作是语言社会学这门学科发展到中间状态走向成熟期的产物,它既有总结与溯源,又有开拓与建设,其首次将语言习得规划纳入其中,可说是本书的一大独特贡献,一直为所有涉足语言政策研究的学者所称道,获得国际相关研究领域的广泛认可和引用,并终于在卅年后的今天成为学界关注的核心和热点。《语言规划与社会变迁》一书首次系统地界定了语言规划,并阐述了它与社会规划等领域的联系。库珀教授作为语言社会学家在埃塞俄比亚、以色列和美国的经历使其成为该书理想的作者。本书通俗易懂,它并不要求读者具有多深的语言学、社会学和政治学的专业知识。本书同时也适合应用语言学、社会学、经济学和政治学的研究者以及任何对语言感兴趣的读者阅读。守辉教授的介绍言简意赅,突出了本书在语言规划领域的历史地位,同时也说明这是一本值得阅读和收藏的好书!不知各位是否已经心动了呢?()但心动不如行动,本书目前已在各大网站上架,欢迎选购!京东链接:https://item.jd.com/12942471.html当当链接:http://product.dangdang.com/29301338.html天猫链接:https://detail.tmall.com/item.htm?id=655994623461
2021年9月16日
其他

欧洲联盟语言状况及语言政策

小编按:近年来,语言治理(尤其是全球语言治理)成为语言政策及规划领域的热门研究。从某种意义上来说,全球语言治理是一种超越国家层面的语言政策研究,其对象就是通常所说的超国家组织。欧盟是当前超国家组织的典型代表。今天推送的文章是《欧洲联盟语言状况与语言政策》,原文刊载于《中国语言生活状况报告(2005)》(商务印书馆,2006)。文章基于相关数据和文献资料,讨论、分析了欧盟的语言状况及语言政策,在国内比较早地意识到超国家组织语言政策的重要性。欧盟的语言问题“看似简单、实则复杂”,语言政策的制定要考虑到多重因素的影响,如“社会语言现实、策略实施的成本、遵循的基本原则、可操作性和效率、政治因素”等等。因此,文章虽然发表于十几年前,但对当下全球语言治理的研究仍然具有一定的参考价值。一、语言状况欧洲联盟是一个超国家的组织,既有国际组织的属性,又有联邦的特征。目前欧盟的成员国有:法国、德国、意大利、比利时、荷兰、卢森堡、丹麦、爱尔兰、英国、希腊、西班牙、葡萄牙、奥地利、芬兰、瑞典、塞浦路斯、捷克、爱沙尼亚、匈牙利、拉脱维亚、立陶宛、马耳他、波兰、斯洛伐克、斯洛文尼亚,共25个国家。欧洲理事会(European
2021年7月16日
其他

语言国际化的要素可以量化吗?

世界是多语的。据“世界语言大全”(Ethnologue)最新统计,目前世界范围内共有7139种语言,它们的分布大概是这样的:
2021年7月8日
其他

纪念Detlev Blanke诞辰80周年

Studies第8期。在今天这个特殊的日子,我们重发此文,以表怀念之情。不懂Esperanto,而又对内容感兴趣的朋友,也许这是一个测试机器翻译的好机会。Multaj
2021年5月30日
其他

数据驱动的应用语言学研究

2019b)以依存方向作为类型学指标,分析了不同水平的中国英语学习者的语言,从语言类型学的角度揭示了过渡语不断趋向目标语的过程,也用真实的学习者语言材料证实过渡语确实存在此前提及的那些概率性特质。
2021年4月16日
其他

繁体字文本真的比简体字文本更复杂吗?

陳寅恪先生曾在1965年給中華書局編輯的信中強調,“請不要用簡體字”出版他的著作。你有没有注意到,前面这句话里有一些繁体字。但是,你看懂了,有没有?虽然可能与小编一样,并不能完全正确地书写“簡體”二字。(图片来自百度搜索)简化汉字是新中国成立后实施的三项重要的语言规划活动之一。但是,字形简化并不是新生事物。从汉字演化的历史看,自楷书定型以来字形结构一直在简化,简化字与正体字长久并存。那么,人们为什么要简化字形、使用简体字呢?因为简单。怎么就简单了呢?汉字是记录汉语的符号,笔画-部件-汉字,是汉字构形的三个层级。汉字笔画的多少可以看作一种衡量字形结构“简单”与否的手段。采用这种手段,可以比较繁体字与简体字的字形复杂程度。下图是2000个常用汉字简化前后的笔画数分布。汉字简化前后,都是既有笔画少(简单)的字,也有笔画多(复杂)的字。汉字简化使笔画少的字增加了,笔画多的字减少了,笔画数分布曲线的形态基本保持不变,整体向左移动了。从平均意义上看,简体字比繁体字笔画少,书写起来更省力。但是,无论是今天的报纸,还是两千多年来的书籍,汉字记录的文本中,既有结构复杂的字,也有结构简单的字,古籍中并不都是复杂汉字,微博上也并不都是简单汉字。那么,整体上,使用繁体字的文本比使用简体字的文本更复杂吗?以往汉字简化研究大多关注具体字形结构与构形系统的局部细节,对构形系统整体规律在汉字简化过程中的特点,特别是在汉字使用中的表现,关注得不够。造成这种结果的原因,除了研究问题与视角不同外,也有研究方法与手段的不足。上述问题的答案需要采用适当的方法到文本中去寻找。最近发表在《语言文字应用》上的《汉字简化中的字形复杂度统计特征稳定性研究》一文,报告了基于计量语言学方法研究汉字构形系统整体规律在汉字简化前后的一些统计分析结果。
2021年3月30日
其他

不同水平的学习者二语句法习得规律一样吗?

在二语研究中,提起“错误”,我们肯定绕不过Corder在1967年发表的The
2021年3月30日
其他

二语者与母语者的动词配价发展规律一样吗?

中小学语文课上老师常常会让我们赏析名言名句,句中所含的动词往往是分析的重点之一。大家还记得“僧敲月下门”“帘卷西风”“悠然见南山”中“敲”“卷”“见”的妙用吗?小编真的是感叹诗人们高超的语言运用能力!心里就只有一个词,“妙”!用现在的流行语就是:我直接好家伙!先贤们很早就注意到了动词的重要地位,使用好动词能更加深刻地表现出作品所蕴含的意境和闪现的动感。欧洲学者同样有一句话能够体现动词的重要作用:“动词,如同在黑暗中开启的一盏明灯,照亮了一片天地”。泰尼埃(Tesnière)曾把动词比作太阳系里的太阳,动词的外围分布着其他句法成分,就像行星围着太阳一样(这个说法还真是浪漫呢)。我国也有学者指出动词的重要性,比如吕叔湘提出“动词中心说”,指出叙事句是由一个作为“中心”的动词和围绕着它的若干“补语”组成的。泰尼埃不仅仅善于比喻,他还是现代配价理论的奠基人,而动词正是配价理论的核心。“价”这一概念想必大家都不陌生,它借自化学中的概念“化合价”。应用于语言学中,“价”是指动词与其他句子成分组合的一种能力。我们可以把动词看成为一个“钩子”,在真实语境中,根据动词所能勾住的体词数量,可以把动词分为零价动词、一价动词、二价动词和三价动词(其实这也是泰尼埃的比喻,他也是位语言运用大师)。在传统配价理论的基础上,学者们基于计量视角提出了广义配价理论。该理论认为,动词具有和其他词结合形成更大语言单位的潜在能力,动词配价分析涉及到的应该不仅仅是其论元,还应该包括其所有的补足语和说明语。一个动词的广义配价就体现为通过依存关系与其他词结合的能力,其潜在的配价通过依存关系得以在具体句子中实现,可以说依存关系是动词配价实现的结果。动词和名词是儿童最先习得的词类成分。有研究表明,在英语等语言中,名词是儿童最初词汇中最主要的种类,动词是第二大词类。但是,汉语儿童在3岁以前却习得了大量动词,仅表现出微弱的“名词优势”。然而,不管是印欧语系语言还是汉语,学者们达成了一个共识——在儿童早期句法发展中,动词发挥了重要作用,即它搭起了句子的基本框架。李辉、刘海涛(2019)对汉语儿童早期动词配价的研究发现,随着年龄的增长,儿童语言中动词作为支配词与从属词所形成的依存关系的比率和种类逐渐增加,动词作为支配词的结合力不断增强。也就是说,随着儿童认知与抽象思维能力的发展,动词所能支配的句法结构越来越多了。此刻,我们不由得想到洛克的“白板说”。洛克认为人类心灵的原始状态是一块白板,一切知识和观念都是后来从经验中获得的。儿童在习得母语时大脑中不会有其他语言对其干扰,但是成年的二语者呢?成年二语者已经具备了系统的母语知识。在第二语言习得中,母语与目的语在语言类型之间的差异会影响中介语的发展,也就是我们熟知的母语迁移现象。那么,二语者很可能会呈现出与儿童母语者不同的习得规律。具体会是什么规律呢?存在差异的同时,汉语动词配价发展是否也存在共通规律呢?发表于《语言文字应用》2021年第1期的《基于句法标注语料库的汉语中介语动词配价发展计量研究》一文,对这些问题进行了探讨。项研究计算了不同汉语水平学习者的语言产出中,动词作为支配词时的依存关系比率(即动词作为支配词时所支配的某依存关系频数与动词频数的比值),得到了下面汉语二语者的数据表,并与汉语儿童母语者的发展情况进行了对比(诶呦,数据有点意思哦!)。研究发现了一些有趣的现象,二语者和儿童母语者的动词配价存在许多不同之处。在依存关系种类上,二语习得者在学习汉语的初始阶段就能与目的语接近,到2年级时就与目的语一致了,并且在之后的学习时间里(2~4年级)一直保持稳定,说明二语学习者动词的支配能力习得全面并趋于稳定。与汉语儿童母语者相比,二语者动词支配的依存关系种类发展更快、更为丰富。在依存关系总比率上,二语者也高于汉语儿童。经相关分析发现,整个发展过程中,汉语二语者的依存关系比率总和随汉语水平的提升而显著升高,从1年级(G1)的262.38%上升到4年级(4年级)的320.21%,但是12~42个月的汉语儿童仅从100.1%上升到236.1%。不管是在初始阶段还是习得的最终阶段,汉语二语者都高于汉语儿童母语者。就依存关系的发展趋势来看,二语者呈阶梯式发展:G1~G2阶段发展缓慢,G2~G3阶段发展迅速,G3~G4阶段发展速度又有所减缓。这与汉语儿童习得母语整体呈直线上升的发展趋势又有很大的不同。在认知复杂度较高的依存关系比率方面,二语学习者均高于汉语儿童。例如状语、复句关系、时态附加语等说明语,在说明语总体比率数值上二语者为139.03%,但汉语儿童仅有87.7%。但是,汉语儿童的主语、宾语、状语等主要依存关系比率变化幅度大于汉语二语者。例如,汉语儿童的主语增长幅度接近50%,状语增长幅度为20%左右。这些规律背后的原因是什么呢?作者认为,与儿童习得母语不同,成年二语学习者拥有成熟的母语系统和认知系统,母语经验会对其二语习得过程产生影响,学习者原有的母语知识对其习得起到了促进作用。从语言类型上看,英语与汉语同为SVO型语言,两种语言有很多共性。从微观上看,汉语和英语语义内容基本相同的动词具有相似的主要支配能力,例如“见面”与“meet”、“等待”和“wait”都主要支配主语、宾语和状语等。这种相似起到了正迁移的作用。因此,成年英语母语二语者习得汉语动词配价的特点与汉族儿童习得母语不同。在发现不同规律的同时,该研究也发现了二语者与汉语儿童存在一些相同规律。例如,二语者与汉语儿童在各自最高水平上,动词支配补足语的比率与支配说明语的比率差值较大,但是汉语成人母语者(目的语)的差异较小。又如,在重点补足语上,二语者和汉语儿童使用动词支配宾语的比率始终高于动词支配主语的比率,也就是空主语多于空宾语,都存在不对称的现象。动词支配说明语、补足语比率对比图虽然二者存在相同的规律,但是作者认为各自的成因并不相同。汉语儿童由于早期语言加工能力和记忆能力有限,为了减轻加工负担,常常会省掉主语或宾语。二语者存在空主语多于空宾语是因为受母语主语突出特点影响从而产生了负迁移。虽然二语者与汉语儿童整体上支配补足语与支配说明语比率都不均衡,但是前者更多是受到母语的影响,后者则更多受制于认知水平。小编觉得这些发现好神奇啊!不同的规律背后是相同的成因,而相同的规律背后却是不同的原因。作者是如何从纷繁复杂的语言现象中抽丝剥茧得到这些结论的,详细的情况请通过“阅读原文”下载全文吧!明天,小编将为大家介绍《中国英语学习者写作中的错误、依存距离与二语水平的关系研究》这篇论文。欢迎持续关注哟!
2021年3月30日
其他

二语者与母语者的动词配价发展规律一样吗?

中小学语文课上老师常常会让我们赏析名言名句,句中所含的动词往往是分析的重点之一。大家还记得“僧敲月下门”“帘卷西风”“悠然见南山”中“敲”“卷”“见”的妙用吗?小编真的是感叹诗人们高超的语言运用能力!心里就只有一个词,“妙”!用现在的流行语就是:我直接好家伙!先贤们很早就注意到了动词的重要地位,使用好动词能更加深刻地表现出作品所蕴含的意境和闪现的动感。欧洲学者同样有一句话能够体现动词的重要作用:“动词,如同在黑暗中开启的一盏明灯,照亮了一片天地”。泰尼埃(Tesnière)曾把动词比作太阳系里的太阳,动词的外围分布着其他句法成分,就像行星围着太阳一样(这个说法还真是浪漫呢)。我国也有学者指出动词的重要性,比如吕叔湘提出“动词中心说”,指出叙事句是由一个作为“中心”的动词和围绕着它的若干“补语”组成的。泰尼埃不仅仅善于比喻,他还是现代配价理论的奠基人,而动词正是配价理论的核心。“价”这一概念想必大家都不陌生,它借自化学中的概念“化合价”。应用于语言学中,“价”是指动词与其他句子成分组合的一种能力。我们可以把动词看成为一个“钩子”,在真实语境中,根据动词所能勾住的体词数量,可以把动词分为零价动词、一价动词、二价动词和三价动词(其实这也是泰尼埃的比喻,他也是位语言运用大师)。在传统配价理论的基础上,学者们基于计量视角提出了广义配价理论。该理论认为,动词具有和其他词结合形成更大语言单位的潜在能力,动词配价分析涉及到的应该不仅仅是其论元,还应该包括其所有的补足语和说明语。一个动词的广义配价就体现为通过依存关系与其他词结合的能力,其潜在的配价通过依存关系得以在具体句子中实现,可以说依存关系是动词配价实现的结果。动词和名词是儿童最先习得的词类成分。有研究表明,在英语等语言中,名词是儿童最初词汇中最主要的种类,动词是第二大词类。但是,汉语儿童在3岁以前却习得了大量动词,仅表现出微弱的“名词优势”。然而,不管是印欧语系语言还是汉语,学者们达成了一个共识——在儿童早期句法发展中,动词发挥了重要作用,即它搭起了句子的基本框架。李辉、刘海涛(2019)对汉语儿童早期动词配价的研究发现,随着年龄的增长,儿童语言中动词作为支配词与从属词所形成的依存关系的比率和种类逐渐增加,动词作为支配词的结合力不断增强。也就是说,随着儿童认知与抽象思维能力的发展,动词所能支配的句法结构越来越多了。此刻,我们不由得想到洛克的“白板说”。洛克认为人类心灵的原始状态是一块白板,一切知识和观念都是后来从经验中获得的。儿童在习得母语时大脑中不会有其他语言对其干扰,但是成年的二语者呢?成年二语者已经具备了系统的母语知识。在第二语言习得中,母语与目的语在语言类型之间的差异会影响中介语的发展,也就是我们熟知的母语迁移现象。那么,二语者很可能会呈现出与儿童母语者不同的习得规律。具体会是什么规律呢?存在差异的同时,汉语动词配价发展是否也存在共通规律呢?发表于《语言文字应用》2021年第1期的《基于句法标注语料库的汉语中介语动词配价发展计量研究》一文,对这些问题进行了探讨。项研究计算了不同汉语水平学习者的语言产出中,动词作为支配词时的依存关系比率(即动词作为支配词时所支配的某依存关系频数与动词频数的比值),得到了下面汉语二语者的数据表,并与汉语儿童母语者的发展情况进行了对比(诶呦,数据有点意思哦!)。研究发现了一些有趣的现象,二语者和儿童母语者的动词配价存在许多不同之处。在依存关系种类上,二语习得者在学习汉语的初始阶段就能与目的语接近,到2年级时就与目的语一致了,并且在之后的学习时间里(2~4年级)一直保持稳定,说明二语学习者动词的支配能力习得全面并趋于稳定。与汉语儿童母语者相比,二语者动词支配的依存关系种类发展更快、更为丰富。在依存关系总比率上,二语者也高于汉语儿童。经相关分析发现,整个发展过程中,汉语二语者的依存关系比率总和随汉语水平的提升而显著升高,从1年级(G1)的262.38%上升到4年级(4年级)的320.21%,但是12~42个月的汉语儿童仅从100.1%上升到236.1%。不管是在初始阶段还是习得的最终阶段,汉语二语者都高于汉语儿童母语者。就依存关系的发展趋势来看,二语者呈阶梯式发展:G1~G2阶段发展缓慢,G2~G3阶段发展迅速,G3~G4阶段发展速度又有所减缓。这与汉语儿童习得母语整体呈直线上升的发展趋势又有很大的不同。在认知复杂度较高的依存关系比率方面,二语学习者均高于汉语儿童。例如状语、复句关系、时态附加语等说明语,在说明语总体比率数值上二语者为139.03%,但汉语儿童仅有87.7%。但是,汉语儿童的主语、宾语、状语等主要依存关系比率变化幅度大于汉语二语者。例如,汉语儿童的主语增长幅度接近50%,状语增长幅度为20%左右。这些规律背后的原因是什么呢?作者认为,与儿童习得母语不同,成年二语学习者拥有成熟的母语系统和认知系统,母语经验会对其二语习得过程产生影响,学习者原有的母语知识对其习得起到了促进作用。从语言类型上看,英语与汉语同为SVO型语言,两种语言有很多共性。从微观上看,汉语和英语语义内容基本相同的动词具有相似的主要支配能力,例如“见面”与“meet”、“等待”和“wait”都主要支配主语、宾语和状语等。这种相似起到了正迁移的作用。因此,成年英语母语二语者习得汉语动词配价的特点与汉族儿童习得母语不同。在发现不同规律的同时,该研究也发现了二语者与汉语儿童存在一些相同规律。例如,二语者与汉语儿童在各自最高水平上,动词支配补足语的比率与支配说明语的比率差值较大,但是汉语成人母语者(目的语)的差异较小。又如,在重点补足语上,二语者和汉语儿童使用动词支配宾语的比率始终高于动词支配主语的比率,也就是空主语多于空宾语,都存在不对称的现象。动词支配说明语、补足语比率对比图虽然二者存在相同的规律,但是作者认为各自的成因并不相同。汉语儿童由于早期语言加工能力和记忆能力有限,为了减轻加工负担,常常会省掉主语或宾语。二语者存在空主语多于空宾语是因为受母语主语突出特点影响从而产生了负迁移。虽然二语者与汉语儿童整体上支配补足语与支配说明语比率都不均衡,但是前者更多是受到母语的影响,后者则更多受制于认知水平。小编觉得这些发现好神奇啊!不同的规律背后是相同的成因,而相同的规律背后却是不同的原因。作者是如何从纷繁复杂的语言现象中抽丝剥茧得到这些结论的,详细的情况请通过“阅读原文”下载全文吧!明天,小编将为大家介绍《中国英语学习者写作中的错误、依存距离与二语水平的关系研究》这篇论文。欢迎持续关注哟!
2021年3月27日
其他

数据驱动的语言应用研究

最新一期的《语言文字应用》(2021年第1期)刊登了一组数据驱动的语言文字应用研究论文。本号从今日起,将连续四天为大家做一些推荐,欢迎关注。今天小编给大家带来的是刘海涛教授为这组论文撰写的导言《数据驱动的语言应用研究》。全文如下:周有光先生在《语言文字应用》的首期首篇文章中认为,应用语言学最主要和最紧迫的研究有三个方面:语言教学、语言计划、信息处理。时至今日,语言信息处理在人类语言大数据的加持下,已经取得了长足的进步。值得注意的是,在赋予计算机语言智能的过程中,语言学家所起的作用微不足道。为什么最懂语言的语言学家在这个最需要语言学家的智能时代,却被无情地抛弃了?为什么语言学家发现的那么多的语言规律没有派上用场?是寻找规律的方法有问题,还是这些“语言规律”本身反映的并不是人类语言的规律或人类语言系统最本质的规律?在这种情况下,应用语言学研究者,可能需要自已探求基于应用的语言规律,此时可从语言信息处理同行们的成功中得到启发:语言规律源于语言使用。在语言教学方面,一个显见的事实是,不同水平的学习者产出的语言是不一样的。尽管可以采用各种现代的实验方法来研究学习者的心理、神经等认知机制,但对语言学家而言,从真实的学习者语言数据中发现语言学习的规律,并使用这些规律改进语言教学的过程,可能是一种永不过时的可靠方法。在《语言文字应用》的首期中,我们看到吕必松、鲁健骥等人有关语言教学的文章。由于受时代因素的限制,这些文章大多采用了思辨或举例的方法,但文中的许多思考至今仍有现实意义。如,吕必松说“没有对语言的规律和规则的描写,语言教学就寸步难行。”鲁健骥则认为,偏误分析旨在发现外语学习者发生偏误的规律,可使外语教学更有效、更有针对性。这说明,《语言文字应用》从创刊之日起,就非常关注语言规律对于语言教学的作用,关注应用语言学与语言规律之间的关系。29年过去了,人类已经进入一个由大数据催生的智能时代,技术的发展,数据驱动语言学研究方法的进步,使得我们有了从大量学习者真实语料中发现规律的可能,也就有了本专题中有关学习者语言的两篇研究。学习者语言是一种过渡语。这就要求研究者采用同一种测度指标对不同水平学习者的语言数据进行统计分析,必要时也需要与母语者的语言数据进行比较,否则,我们很难发现中介语所具有的过渡性、渐进性、连续性、动态性等特点。本专题的两篇文章均采用了句法标注的学习者语料作为研究资源,但研究的对象与视角不同。基于词间依存句法关系分析人类语言真实语料的方法,已在自然语言处理领域得到了广泛应用,并正成为基于数据的学习者语言研究的主要句法模型。动词在基于配价的依存分析架构中占有核心的地位。如果将配价理解为词语的结合能力,那么研究学习者动词配价的发展规律就显得尤为重要了。郝瑜鑫等采用“概率配价模式”,对英语母语的汉语学习者的动词配价发展进行了研究,结果发现学习者动词配价发展是一个连续、渐进与多因素并存的过程。严格说来,尽管“概率配价“使我们有了从动态的语料中获得和研究词语配价的可能,但配价本身是词的一种静态特征,它所蕴含的结合能力也是一种潜在能力。这种潜在能力只能在词语的具体使用中显现出来。实现了的配价便形成了句法关系。人类语言是一种人驱的复杂适应系统。这里的人驱有两层意思,一是离开了人的使用,语言将不再有生命;二是在语言使用过程中,人的认知机制对于语言结构是有约束的。依存距离指的是两个具有句法关系的词在句子中的线性距离。对数十种语言大规模语料的计量分析表明,由于受人类工作记忆容量的约束,人类语言具有一种依存距离最小的倾向。因此,两个形成句法关系的词在句子中离得越远,就越难理解或越难生成。蒋景阳、姜茜茜的文章,采用依存距离作为计量指标,以汉语母语的英语学习者为对象,考察了学习者错误、依存距离与二语水平之间的关系。她们的研究表明,对于相同的长距离依存关系,中低水平与高水平学习者的处理策略与能力是不一样的,展现了语言学习过程的复杂性和多样性。这两项基于英汉、汉英的学习者句法标注语料库的研究,在语言加工和产出之间建立了科学可信的证据链,为语言习得提供了一种符合数据+智能时代精神的研究思路。语言计划,今天一般称之为语言规划,是周有光先生提及的应用语言学的另一个重要领域。汉字的规范化与简化历来是中国语言规划的主要内容之一。在《语言文字应用》的头三期中,我们也发现了多篇有关汉字(简化)的文章。在有关汉字的语言规划讨论中,繁简之争似乎是一个永远也难有结论的话题。尽管从理论上讲,文字只是记录语言的符号,但历史的长河为语言与文字的关系带来了太多难以分离的水滴。语言规划是一种顺势而为的活动,这里的“势”指的是语言文字的结构与演化规律。众多实践表明,顺势的规划更容易取得成功。索绪尔说,“语言是一个系统,它的任何部分都可以而且应该从它们共时的连带关系方面去加以考虑。”汉字是汉语书面语的基本组成单位。因此,为了更客观地判断汉字简化对于汉语结构的影响,我们可能需要从真实的汉字流中发现汉语书面语的结构规律。黄伟以计量语言学中研究线性规律的动链为指标,基于数百篇繁体字与简体字的文本,研究了两类字体文本的结构特征。他的研究表明,字形简化没有改变汉字构形系统与动态使用中的分布规律,也没有改变字形线性组合模式的频次与长度分布规律。这说明,现有的汉字简化并没有打破汉语书面语结构的线性规律,是一种顺势而为的语言规划活动。这里的三篇论文只是数据驱动语言文字应用研究的初步尝试,还存在着一些不足,但可以肯定的是,基于语言使用数据的应用语言学研究更客观地反映了语言使用的现实,更密切地关注了“概率性”这一人类语言的本质属性,因此,也就有可能更好地回答应用语言学研究者关切的问题。今天的推送就到这里了。想要获取全文,请戳“阅读原文”。明天将给大家介绍第一篇论文《基于句法标注语料库的汉语中介语动词配价发展计量研究》。欢迎关注哟周末愉快!
2021年3月26日
其他

德语书面语破框现象是特例吗?

小编按今天小编要给大家介绍的这篇文章出自《现代外语》2021年第3期。正如篇名“德语书面语破框现象是特例吗?”,作者李媛、黄含笑、刘海涛探讨了德语特有的语言现象——破框,并通过语料库检索得出了十分有趣的结论。浙江大学的刘海涛老师团队近年来基于依存理论和大规模真实语料,致力于探索跨语言普遍现象。在“花格老刘”的带领下,团队在对数十种语言进行跨语言普遍规律探索的同时,近期又在德语语言研究领域开花结果,目前已有两篇文章发表在《计量语言学学报》和《浙江大学学报》上,分别为“Word
2021年2月24日
其他

基于复杂网络的语言分类

小编按:学科交叉融合是当前学术发展的重要趋势,不仅有利于培养创新型、复合型人才,更有利于推动社会经济的高质量持续发展。习近平总书记在全国科技创新大会和两院院士大会上,曾多次强调培育交叉学科的重要性和紧迫性。最近,我国在交叉学科研究的制度方面又有新的重大举措,教育部设置了“交叉学科”门类(门类代码为“14”),国家自然科学基金委也适时成立“交叉科学部”。另外,党的十九届四中全会明确将数据看作一种新型的生产要素。对于任何与时俱进的学科而言,如何基于数据开展交叉学科研究成为当务之急,语言学作为一门“领先学科”自然也不例外。从即日起,本号开始推送浙江大学刘海涛教授团队的一组科普短文,以期充分体现语言研究的数据驱动本质和语言学内在的交叉学科性质。这组短文原刊发于2015年11月13日《浙江大学报》第576期第3版,今天推送的是丛进博士的文章《基于复杂网络的语言分类》。人类语言门类繁多,它们之间既存在差异,也不乏相似之处。就像自然界中的生物可以划入诸如界、门、纲、目、科、属、种的分类层级那样,人类语言也可以按照其异同关系来分门别类。从语言学角度来说,语言的分类既可以基于其局部细节特征(例如,语序),也可以基于其整体特征。传统的语言学研究方法倾向于把握语言的局部细节特征,而难以把握语言的整体特征,因此目前的语言分类一般是依据前者来进行的。语言的局部细节特征虽然易于研究,但是可能难以反映语言的全貌。有鉴于此,语言的整体特征在语言分类方面可能具有独特的优势。最近十几年来兴起的语言复杂网络研究为基于整体特征的语言分类提供了良机。如果基于给定语言的真实语料构建复杂网络模型,那么网络模型的计量结构特征就能够反映该语言的整体特征。研究表明,不同语言的复杂网络模型在结构特征上的异同关系能够大致反映对应语言作为整体的异同关系。其中,我们的研究在世界上首次实现了基于语言复杂网络的语言精细分类。研究对象是12种斯拉夫语言(属于印欧语系的斯拉夫语族,又可进一步划分为东、西、南三个语支)和2种非斯拉夫语言(汉语和英语)。基于14种语言的平行文本(即互为译文的文本),我们构建了对应的14个复杂网络模型。结果显示,基于14个网络模型的计量结构特征能够实现对这些语言的精细分类。下图展示了一个比较理想的分类结果。其中,每个分类层级均表示为两条竖线(分别代表该层级的两个成员)和连接它们顶端的一条横线。横线在纵坐标上对应的距离值代表着成员之间的相似程度。距离越小意味着相似程度越高。基于复杂网络计量结构特征的14种语言的分类结果分类结果不仅能区别斯拉夫语言和非斯拉夫语言,而且能将斯拉夫语言正确地划入各自的语支,即,白俄罗斯语、俄语和乌克兰语的东斯拉夫语支,保加利亚语、马其顿语、斯洛文尼亚语、克罗地亚语和塞尔维亚语的南斯拉夫语支,以及捷克语、波兰语、斯洛伐克语和上索布语的西斯拉夫语支。另外,结果还能反映出部分斯拉夫语言在其语支内部的异同关系。例如,克罗地亚语和塞尔维亚语虽然使用不同的文字,但是一般认为它们实际上是同一门语言。从图3来看,二者的相似程度非常高。本研究对斯拉夫语言的分类结果要好于基于语序的分类结果。这表明,对于斯拉夫语言这类语序比较灵活的语种,语序可能不是分类的最佳依据。这同时也表明了能够揭示语言整体特征的复杂网络方法在语言分类中的优势。语言复杂网络方法注重语言的整体量化特征,有助于推动注重语言整体特征且使用计量手段的语言类型学研究的发展。另外,这一方法采用真实语料作为数据源,因此也有助于改善目前语言类型学研究不够重视真实语料的局面。
2021年1月18日
其他

语言演化与使用中的“省力原则”

小编按:学科交叉融合是当前学术发展的重要趋势,不仅有利于培养创新型、复合型人才,更有利于推动社会经济的高质量持续发展。习近平总书记在全国科技创新大会和两院院士大会上,曾多次强调培育交叉学科的重要性和紧迫性。最近,我国在交叉学科研究的制度方面又有新的重大举措,教育部设置了“交叉学科”门类(门类代码为“14”),国家自然科学基金委也适时成立“交叉科学部”。另外,党的十九届四中全会明确将数据看作一种新型的生产要素。对于任何与时俱进的学科而言,如何基于数据开展交叉学科研究成为当务之急,语言学作为一门“领先学科”自然也不例外。从即日起,本号开始推送浙江大学刘海涛教授团队的一组科普短文,以期充分体现语言研究的数据驱动本质和语言学内在的交叉学科性质。这组短文原刊发于2015年11月13日《浙江大学报》第576期第3版,今天推送的是陈衡副教授的文章《语言演化与使用中的“省力原则”》。作者简介:陈衡,广东外语外贸大学外国语言学及应用语言学研究中心副教授。语言是人类最重要的交际工具和思维工具,它对我们来说,犹如空气,无处不在。然而,关于语言,有一个问题一直困惑着所有的人,那就是它何时、何地产生,怎样发展成为我们今天使用的语言?语言是一个复杂的适应系统,它的形成不是一蹴而就的。人类语言有书面记载的历史就有四五千年之久,至于口头语言的产生更有至少几万年的历史,因此,从这些有记载的语言文本中挖掘语言演化的规律,并进而探讨语言起源问题不失为最可靠的实证研究方法之一。词是语言系统的核心部分,而在词的各种结构属性特征中,长度属性又是最直观和根本的属性。因此,我们提出假设,“词长”,即词的长度,是语言演化进程中的一个关键特征,它的演化很有可能会引发整个语言系统的演化。为了证实这一点,我们从汉语近2000年的书面记载中选取了6个时段作为参考点,大体对应先秦、魏晋、宋元、明清、民国、当代。考察的结果如图所示,汉语的词长在这2000年间是呈不断增长趋势的,从以一字词为主发展为以二字词为主,并且,多字词的比重也有所增加。汉语词长概率分布的演变
2021年1月17日
其他

自然语言中存在依存距离最小化倾向

小编按:学科交叉融合是当前学术发展的重要趋势,不仅有利于培养创新型、复合型人才,更有利于推动社会经济的高质量持续发展。习近平总书记在全国科技创新大会和两院院士大会上,曾多次强调培育交叉学科的重要性和紧迫性。最近,我国在交叉学科研究的制度方面又有新的重大举措,教育部设置了“交叉学科”门类(门类代码为“14”),国家自然科学基金委也适时成立“交叉科学部”。另外,党的十九届四中全会明确将数据看作一种新型的生产要素。对于任何与时俱进的学科而言,如何基于数据开展交叉学科研究成为当务之急,语言学作为一门“领先学科”自然也不例外。从即日起,本号开始推送浙江大学刘海涛教授团队的一组科普短文,以期充分体现语言研究的数据驱动本质和语言学内在的交叉学科性质。这组短文原刊发于2015年11月13日《浙江大学报》第576期第3版,今天推送的是徐春山教授和梁君英教授的文章《自然语言中存在依存距离最小化倾向》。作者简介:徐春山,现为安徽建筑大学外国语学院教授;梁君英,现为浙江大学外语学院教授。在我们的日常语言中,一个句子中的词与词之间是有关系的。比如,“我买了很多苹果”这个句子,“我”是“买”的主语,“苹果”是“买”的宾语,“很多”是“苹果”的定语等等。这些都是句法,或者通俗一点地说,是语法层面的关系。那么句子中这些有句法关系的词是随意排列的吗?答案显然是否定的:如果随意改变句子中词的顺序,句子可能变得难以理解,甚至根本无法理解。这些有句法关系的词在句子中的位置似乎总有一定的规律。从认知的角度来看,这种规律可能与依存距离有关,也就是句子中两个有句法关系的词之间的线性距离,其长度取决于间隔词的数量。上面这个例句中谓语动词“买”和宾语“苹果”之间间隔了“很多”以及“了”这2个词。根据具体计算方法的不同,其依存距离是2或3。依存距离是依存语法的重要概念,而依存语法认为句法分析的目的就是按照句子的线性顺序一个词一个词地进行处理分析,找出每个词与句子中其它词之间存在的句法关系。作为一种认知活动,句法分析过程与工作记忆关系密切。工作记忆对依存距离有很大的影响,因为两个词之间的距离越长,前面那个词被遗忘的程度可能就越高。这样一来,在当前正在处理的词与前词之间建立句法关系可能就越困难。其原因可能是中间的词对记忆造成干扰,也可能是两个词之间间隔时间较长导致了记忆衰退,或者是中间的词占据了有限的工作记忆资源。总之,较长的依存距离(两个有句法关系的词之间有较多的间隔词语)可能带来更重的认知负荷,导致更大的句法处理复杂度。语言系统演化的一个重要支配原则是省力原则,也就是要尽量减少语言处理的复杂度。鉴于此,人类语言理应偏好依存距离较小的结构,这就是依存距离最小化倾向。人类的工作记忆机制应当是相同的。这意味着,依存距离最小化倾向可能并不是某种语言的特殊倾向,而是所有人类语言的普遍特征,是一个受普遍认知机制所制约的语言普遍特征。但这只是语言学家的一个推论,需要进行大量的实证研究来验证。近20年来,人们通过语言心理学实验对依存距离进行了较多的研究,结果大都表明较短的依存距离处理难度也较小。但是,语言心理学实验使用的语言材料往往是人为编制的语句,数量极为有限,涉及的语言以及受试人数都比较有限。换句话说,其结果可能缺乏普适的说服力。因此,就依存距离最小化这一语言普遍特征(模式)而言,基于多语种语料库的大数据研究方法可能是心理学实验的重要补充手段。近十年来,语料库统计方法在依存距离最小化研究中开始占据越来越重要的地位,在这一方面我们团队的研究成果处于世界领先水平。2004年,西班牙学者Ramon
2021年1月16日
其他

学科交叉是发现语言规律的利器

小编按:学科交叉融合是当前学术发展的重要趋势,不仅有利于培养创新型、复合型人才,更有利于推动社会经济的高质量持续发展。习近平总书记在全国科技创新大会和两院院士大会上,曾多次强调培育交叉学科的重要性和紧迫性。最近,我国在交叉学科研究的制度方面又有新的重大举措,教育部设置了“交叉学科”门类(门类代码为“14”),国家自然科学基金委也适时成立“交叉科学部”。另外,党的十九届四中全会明确将数据看作一种新型的生产要素。对于任何与时俱进的学科而言,如何基于数据开展交叉学科研究成为当务之急,语言学作为一门“领先学科”自然也不例外。从即日起,本号开始推送浙江大学刘海涛教授团队的一组科普短文,以期充分体现语言研究的数据驱动本质和语言学内在的交叉学科性质。这组短文原刊发于2015年11月13日《浙江大学报》第576期第3版,今天推送的是刘海涛教授的文章“学科交叉是发现语言规律的利器”。
2021年1月15日
其他

书讯 | 《语言:从意义到文本》

2020年转眼就要过去了,大家今年的阅读计划完成得咋样啦?小编年初推荐的“蓝皮书”和双十一推荐的《协同语言学》是不是早已读完?适逢双十二,“应用语言学译丛”又从众叕出新书咯!今天给大家介绍的这本是刘海涛教授主编的“应用语言学译丛”的第8本译著——《语言:从意义到文本》。话不多说,先上照片!
2020年12月10日
其他

书讯 | 《协同语言学:词汇的结构及其动态性》

本号已经很久没有更新书讯了。上一次推送新书还是上半年疫情期间,“蓝皮书”典藏版由科学出版社出版。时间已经过去大半年,小编掐指一算,想必大家都已经把“蓝皮书”看完好几遍了吧?这不,明天就是一年一度的“双十一”,又到该清购物车的时候了()。为此,小编今天特地带来一个好消息:商务的“应用语言学译丛”出新书啦,正是大家期盼已久的《协同语言学:词汇的结构及其动态性》。此前有不少人打听这本书的动态,但当时小编实在搞不清楚。但现在,咱们有图有真相!
2020年10月31日
其他

浙大十年

鉴于我本人在相关领域做出的贡献,多种国际会议、权威刊物与丛书邀请我担任(联合)主编、副主编、编委会以及程序委员会成员,这些都是一个正常的学者应该做的,不值得大说特说。
2020年9月24日