查看原文
其他

花格老刘的2022

刘海涛 计量语言学
2024-09-03
对我而言,2022年是特殊的一年,我60岁了。60岁,意味着已经步入老年。但对于一个学者来说,60岁也是个值得纪念的时间点。说起来,我从企业转到大学工作,也与60岁有些关系。
大约在2000年元旦左右,我跟莱比锡大学的Sabine Fiedler博士商量为Detlev Blanke纪念Detlev Blanke诞辰80周年)编一本60岁生日纪念文集(Festlibro/Festschrift)时,突然想到,自己60岁时,有谁能给我编一本Festlibro呢?如果继续待在企业,几乎没有这种可能,唯一的可能是转行去高校教书,并努力培养出一些能写论文的学生。心动不如行动,于是开始了寻找、接触……
200293日一早,我从暂住的京通快速路边的内蒙古饭店走到北京广播学院“应用语言学研究基地”的教室,为应用语言学系2000级本科生上课。这是我转换职业后上的第一次课,也是第一次给大学生上课。因为要用投影,需要把我带的手写电脑接到教学系统上,这时来了一位看起来30多岁的校工,帮我把电脑接上了。然后,这位校工就坐下来开始听课。我当时在想,还是大学高级啊,连校工都这么爱学习。课后,我才知道,这位看起来像校工的人原来是这个班的学生,刚二十岁,他的名字叫黄伟。就这样,两年后,黄伟成了我的第一个语言学研究生。两天后,我给2001级本科生上课时,又遇到了赵怿怡,她后来也成了我的研究生。忘了说一句,第一次上课那天是我40岁的生日。
20年后,由黄伟组织编著的《词汇与句法计量》出版发行,出版社选的上架时间刚好也是我的生日。这本书的作者差不多都是我的学生,因此可算是我过去20年教研生活的礼物。(书讯 |《词汇与句法计量研究》

黄伟在这本Festlibro的前言中写道:“本书的作者几乎都是刘海涛教授的学生,以及学生的学生。大家一致同意将本书作为献给刘老师60岁生日的礼物,以此感谢他在学业、工作与生活中给予的谆谆教诲与无私帮助,感谢他数十年来在语言学研究科学化与中国语言学国际化方面的不懈努力与卓越贡献!……作为刘老师的学生与合作者,我们不仅受益于他广阔的学术视野和深邃的学术思想,也被他坚持不懈追求真理的精神和淡泊名利、至真至诚的人格魅力所感染。能够结识刘老师并得到他的指导与帮助,能够与他一起为语言研究的科学化尽绵薄之力,在我们看来是件幸福的事情。”
我想对黄伟以及这本书的作者们说,认识你们,能跟你们一起探索人类语言的奥秘,对于我而言,也是一件幸福的事情。现在,60岁的我也有了自己的Festlibro,除了令人高兴外,也说明了这样一个道理,有想法就要去想办法实现,否则,想法永远只是想法。
学生们如此努力,我自然也不能懈怠,应该努力跟上同学们的节奏,为自己的60岁做点什么。于是,就有了科学出版社的这本《依存关系与语言网络》。

在这本书不短的“写在前面的话”里,有这么两段基本上概括了我出这本书的初衷:
实事求是地讲,这些研究具有鲜明的大数据、人工智能、新文科、数字人文、交叉学科等时代特征,也充分展现了我们团队的学术特点:多语种大规模真实语料、交叉(跨)学科研究方法、人类语言普遍规律的探寻、学术成果的国际化。所有这些听起来不错的元素使我们认为,这些大多发表在国外的成果,也许会对其他有志于在国际舞台上展现中国语言学家的风姿、有志于站在祖国大地向世界发出中国声音的同行,具有一定的参考价值。
显而易见的是,我们刚才列举的这些研究成果与发现,可能与我们在语言学的出版物中常看到的东西有很大的不同。我们还很难说这就是21 世纪的语言学该有的样子,但这些发现无疑能更好地把系统、概率、数据、定律、模式和科学等反映人类语言系统特征的元素联系在一起,不仅有助于我们理解语言这个人驱复杂适应系统的运作规律,也有益于破解人类在知识获得与表征方面“获得不足,验证来补”的困局。因此,我们决定将我们过去十多年来在依存句法计量研究和语言复杂网络领域的主要成果整理成书,希望能为有缘的读者打开一扇通向语言科学的未来之门和一扇探索人类语言系统隐秘规律的智慧之窗。
我也请赵怿怡写了个序(序言|从无序中寻找有序),请她的原因我在“写在后面的话”里说得清楚:
“二十年来,我指导过不少学士、硕士和博士学位论文,但只有赵怿怡同学的学士、硕士和博士论文都是我指导的。她的三篇学位论文的标题分别是《“把”字句的计算机处理》《基于依存语法的汉语并列结构自动分析研究》《语言复杂网络若干问题研究》。在我看来,这三篇论文主题的变化,基本反映了我们在语言研究范式方面的转变轨迹。她是这一转变的见证者,也是参与者。”
有人跟我说,赵怿怡这篇序言最打动他们的是最后这段话:“如果你是一位对语言研究有兴趣的学习者,无论目前是何种学习背景与学习程度,都别犹豫,赶紧干起来!前人的脚印就在这本书里,它会引导你走上面向智能、适应变化的语言学道路,而且你可能比任何人都更加幸运,因为在这条路上,你前行已久的同伴们正要拉起你的手。”
没错,合作不仅产生了语言,也推动了人类对于语言的认识与理解。这一点,我在“写在后面的话”里也有说到:
2018 3 19 日的《科技日报》上有这样一句话:“在计量语言学、语言复杂网络、依存语法等领域,刘海涛团队的相关研究多年来均处于国际前沿,在探索语言世界的舞台上亮起了一盏来自中国的‘明灯’。”如果真的有这么一盏灯,那么,与我一起点亮并让灯闪闪发光的人,正是我的合作者。可以说,没有这些合作者,也就不会有这本书。常有人说:文科要什么合作者,自己想想不就行了?语言学是一门科学,而且是实证科学,而对于实证科学来说,没有合作者可能是一件更奇怪的事情。除非我们不再追求语言研究的科学化,否则,合作不仅将成为语言研究的常态,而且也会成为语言研究科学化程度的一个标志
当然,如此重要的一年,只有两本书是不够的。截至目前,这一年里,我们已经有50多篇大大小小的文章被刊出或录用。要想在一篇推文中介绍这些文章的详细内容显然不太可能,也没有必要。所以,我就想到哪说到哪,也算凑个字数吧。
在“花格老刘的2021”里,我们是从俄罗斯(前苏联)语言学神刊Вопросы языкознания开始的,今年我们去日本看看。日本言语学会会刊『言語研究』创刊于1939年,每年一般只刊发10来篇文章,是世界上最难发文的语言学刊物之一。今年,它刊发了我们采用依存距离和依存方向作为计量指标探究日语语体的文章,这可能是该刊创刊83年来第一篇来自中国大陆研究机构的学者用日语写的原生研究论文

论文的第一作者李文平博士大疫初年来浙里访学,他克服了种种困难,坚持研究,在过去三年里,取得了此前想都不敢想的成果。今年,文平也在创刊于1957年的《計量国語学》上刊发了两篇文章,该刊是日本数理语言学学会机关刊,也是世界上最早的数理语言学、计量语言学连续出版物之一,是一本充分反映数智时代语言学研究风貌的好期刊。

这些年来,我也一直在思考外语学科的语言研究者,特别是非通用语专业的研究者,究竟该研究什么,在哪儿去发表自己的研究成果。文平以及“花格老刘的2021”里提到的李媛教授团队的实践给了我们极好的启示,那就是:用我们中国人自己提出的语言研究方法和理论,解决外国语言的学术问题,将成果发在外国最好的语言学期刊上。这可能也是新文科背景下,外国语言学研究的正确打开方式。换言之,对于非通用语种的教研人员,我们不能苛求他们用英语去发表所谓的SSCIA&HCI文章,而应鼓励他们用所学的外语去相应国家最好的语言学期刊上发文,这或许才是非通用语种语言学科发展的正途。当然,这也意味着研究英语的人,可能还得用英语发表自己的成果,不能只发表汉语文章或只研究汉语,因为这事中文系的人也会干,而且干得大概率会更好。总的说来,外国语言学研究成果的出口可能是所研究语言国家的主流学术期刊,比如,俄语就去Вопросы языкознания,日语就去『言語研究』,法语就去Le français moderne,德语就去Sprachwissenschaft,英语可去的地方太多了,随便去吧。
我们总是说要在世界舞台发出中国人的声音,世界是多语的,跨语交际离不开外语,离不开外语人,这一点毋容置疑。但在大学工作的外语人,不能仅满足于做语言转换的媒介,因为这项工作其他的外语工作者(翻译)也可以做得很好,甚至更好。因此,大学的外语教研人员应该向世界发出声音,用他们掌握的外语与有关国家的人们共享自己发现的有关某种外语以及人类语言普遍规律的新知。大学不仅是传播知识的场所,也是知识的源产地。大学教师不仅要做好知识的搬运工作、语言能力的训练工作,也应努力成为新知的发现者。外语教师也是大学教师,因此,要做与别的学科的教师一样的事情,要为构建所在学科的知识体系做贡献。只有这样,才能更好地向世界发出外语专业的声音,更重要的是,只有这样,你发出的声音才可能有人听。这也就是近年来我们一直倡导语言研究“两化”中国际化的原因所在。(刘海涛:中国语言学建设两大要务:成果国际化和方法科学化
需要强调的是,我们所倡导的“国际化”指的是成果的国际化,这与倡导知识生产的本地化并不矛盾。正如,在中国生产的各种小商品能使义乌成为世界小商品之都一样,我们相信,在未来的某一天,中国生产的各种知识,当然也包括有关人类语言的知识,同样会使中国成为世界知识生产的大国。但我们应该看到,知识生产与小商品生产还是有区别的,为了成为知识大国,为构建人类知识系统做出一个大国应有的贡献,我们需要掌握知识生产的科学方法,遵循知识产生与传播的规律。这不是一件容易的事,但也不可能难得做不到。今年10月,有媒体发布了一个“2022全球前2%顶尖科学家‘年度影响力’榜单,其中的“语言学与语言”方向全球共有341人入选,这里面的340人有一个共同点,那就是或多或少都有在海外大学学习或工作的经历。作为这其中唯一的例外,20年没有出过国的我,想说的是,虽然难,但只要坚持采用科学的研究方法,与时俱进地调整自己的研究方向与研究问题,立足祖国大地,既可以向世界发出中国语言学研究者的声音,也可以为构建语言学知识体系做出自己的贡献。随着互联网和各种数字技术对人类生活的全方位渗透,原有的知识生产、传播以及获得的方式都已发生巨大变化,这不仅突破了时空等因素对于人类认知世界的约束,也会加速新知的产生与传播。我们有幸生活在这个时代,要做的就是充满自信地去迎接数智时代的挑战,有理有据地用包括中文在内的各种人类语言向世界发出来自古老中华大地的时代强音。
在学术界,为了方便研究者快速了解一个学科或研究领域,一些知名出版社出了不少Handbook出版物,此前我也收到过一些Handbook邀约,但都婉拒了,原因有二,一是感觉自己水平还差点劲,不能误人子弟;二是,时间有限,不如把精力放在发现新知上。这种想法在收到The Cambridge Handbook of Working Memory and Language邀约时有了一点改变,接受这本Handbook邀约的原因不仅是由于工作记忆这东西被人研究得多,相比其他玄妙的各种认知研究,工作记忆的研究要更靠谱一些,而且也由于我们这些年围绕依存距离的研究大多也与工作记忆有关系。于是,我约春山为这本Handbook写了篇东西。

两位主编在前言中是这样介绍我们这篇文章的“徐和刘撰写的第16章对工作记忆在建构句法依存结构中的作用进行了综述。本章探讨了依存距离、工作记忆约束和省力原则之间的关系。具体来说,两位作者认为,后两个变量通常是以减少依存距离的方式来组织的,这不但塑造了人类语言中的语序模式,也有助于解释语言类型学中的语言共性。本章也探讨了句法结构是否是语言系统在包括工作记忆等外部约束和因素影响下自我适应的结果。”
延展一下,在如何研究语言与认知的关系方面,我很欣赏哈德森(Dick Hudson)在《词语法导论》(An Introduction to Word Grammar)里面的做法,这是我见过的最好的语言学理论教材之一。它是世界上最有名的语言学教材系列,剑桥红皮书(Cambridge Textbooks in Linguistics)里面的一本。哈德森这本书分为三部分,第一部分讲的是认知科学,认知科学里,包括心理、生理等领域里与语言相关的研究,大多是关于语言理解、生成过程的研究,这些不是语言学的研究。这部分告诉读者,认知科学家在研究人的语言认知机制的时候有什么发现。在第二部分,如果我们将语言学视为认知科学的一个分支,那就不可能脱离认知机制来谈语言的结构。换言之,语言研究不是一个纯粹数学的东西,你可以从某些方面,比如从数学、形式的角度来研究语言,但你不能只把它当成一个数学公式,一种随意演算的形式语言,而应该和人类的认知机制结合起来看。所以,我们需要明白在认知科学的框架下,能够理解的语言以及与语言有关的一些东西和机制是什么样的。这样你就构造出来一套普遍的符合认知机制的、能在人的大脑里运行的语言系统,这就是语言的普遍性。语言又是多样的,比如汉语、英语、德语、法语各不相同。但作为一种语言,它就应该有一些基本语言应该具备的、必须遵守的规律。否则,你研究的可能就不再是人的语言,发现的规律也可能解决不了与人类语言有关的问题。所以第三部分他就开始讲,在这样的框架下,一个英语的语法应该是什么样的。这其实也就是他自己的语法理论——词语法。这是一本结构非常清楚,逻辑性很强的语言学理论教科书,浙师大的刘建鹏教授已经把这本书翻译成汉语,即将在商务印书馆的“应用语言学译丛”里出版。
上面这段话,出现在我即将出版的《语言规划讲义》。为什么会在语言规划的书里说这些,主要是与跨学科、交叉学科研究有关,如果你感兴趣,那就去看这两本即将由商务印书馆出版的书吧。
说到跨学科、交叉学科,语言学今天面临的最大挑战可能来自自然语言处理领域的巨大进展。为了迎接挑战,语言学家需要回答这样两个问题:为什么用我们能理解的方式,机器做不好?为什么机器能这样做,我们却理解不了?这也是我今年517日发表在《中国社会科学报》的文章《数智时代语言研究的挑战与机遇》的主题。

现在我从这篇短文中摘录几句话,用来刻画数智时代的语言观:“为了应对数智时代带来的各种挑战,语言学家们需要进行全方位的反思,特别是从目标、方法、语料和知识表征等方面进行反思。语言学家获得和验证这些知识用的都是人脑,这也许掩盖了知识获得不足和不完整的问题,进而造成‘获得不足,验证来补’的困局。数智时代或许是语言学研究者走出‘花园’、走进人类语言‘灌木丛’的最好时机。语言学家需要习惯语言的这种概率性,并学会用‘在这种语境下大多数人会这么说’来代替‘这个句子对,那个不对’。数据驱动的方法更符合语言的概率特质,可使语言学家从鲜活的人类语言使用中发现更具解释力和预测力的人类语言系统的运作规律。在坚守传统的同时,我们可能需要回到鲜活的日常语言使用场景,回到现实的数智世界。只有这样,我们才能发现真正反映语言现实世界的规律,语言学也才能更好地服务于需要语言规律的其他领域。”
显然,要从大量鲜活的语言材料中获得规律不是一件容易的事,这可能也是索绪尔在《普通语言学教程》中说语言是言语的平均数之后,又转而研究抽象的语言符号的原因。值得庆幸的是,今天的我们已经有了更多从言语中得到语言平均数的工具与方法。诚然,如同其他科学领域一样,这些科学的方法是需要学习的,不是拍拍脑袋就可以的。很多文科背景的语言研究者,一看到数据,一看到图表,就退避三舍,嘴里直说语言不就在我脑子里吗?如果在,我要数据这东西有什么用?一些年轻的研究者,似乎要更活跃一些,因为他们深知,算平均数是离不开数据的,而且数据量越大,就越能反映现实世界的真实情况。但他们也担心,高中就文理分科的自己,可能搞不定这些数据,更不要说用数据来解决学科的核心问题。
在这里我想讲一个真实的事例。杨牧是南开大学的一位中文硕士生,本科是学英语的。一年多前,他来信联系我说,想来我这里读博,在经过一段时间的交流后,我感觉小伙不错。但由于博招的名额极少,考我的人排了挺长的队,我说,那就先搞研究再说吧,反正你考博也是为了在我指导下进行研究,那我们不如现在就开始研究吧。研究什么呢?根据杨牧的兴趣与已经掌握的知识,我们将他的第一个研究方向确定为“句法与无尺度语言网络”的关系。这个问题的由来是,2005年有学者在Nature上发了篇短文,大致意思是说,因为不同语言的句法网络都是无尺度的,所以句法可能只是无尺度网络结构形成中的一个副产品。考虑到句法在当代语言学的神圣地位,研究语言学的人肯定不会同意这一观点的,那怎么办?用类似“一把把把把住”的精妙分析可能无法解决问题。于是,我们采用复杂网络方法研究了衡量无尺度的指标与语言网络是否合乎句法的关系,结果发现,现有的网络指标实际上搞不定句法的事。我们这项题为“What role does syntax play in a language network?”的研究发表于2008年的EPLEurophysics Letters,欧洲物理快报)上。回到Nature那位学者的问题,我们的研究认为,句法应该不是无尺度的副产品,因为不符合句法的网络也没有尺度啊,但句法网络与非句法网络到底有啥差别,或者说谁更无尺度一些,需要进一步研究。这也就是交给杨牧的问题。为了解决这个问题,杨牧需要读懂以前的文献,包括但不限于Nature上的文章,要学会构造语言复杂网络,学会从网络提取参数,学会用统计方法来比较这些参数,还要学会用英文写学术论文,甚至还要学一下latex排版。所有这些,小伙最终都搞定了。今年9月,EPL刊出了我们的论文(句法在语言网络里究竟有什么作用?)。

杨牧再次证明,数据驱动的语言研究文科生照样可以做,说“再次”的原因是此前我已经把数十位像杨牧这样的文科生领到这条道上了。换句话说,科学家认可的科学的研究方法文科生也能掌握,关键是你想不想做,愿不愿做。这也就是,我们近年来一直倡导的语言研究“两化”中的另一化科学化。
啰嗦了这么多,很多还是过去说过多次的话,这种言说方式,充分展现了我作为一个60岁老人的言语特征,也该收尾了。今年不仅是我的60岁,也是北京语言大学的60岁、ACL(计算语言学学会)的60岁、阿尔及利亚的60岁,还是浙江大学和商务印书馆的125岁。不知为何,人类总是对这些逢十逢五的年份很重视。北语的60年,是努力让汉语通行世界的60年。ACL60年,是用非传统方式挑战人类语言处理机制的60年。阿尔及利亚的60年,是用独特的方式展现语言规划复杂性的60
为了纪念建馆125周年,商务今年出了本《商务印书馆一百二十五年(1897-2022):我与商务印书馆》,里面有我的一篇短文(商务印书馆与我的语言学之路)。我在结尾中这样写道:“如果能在今年把《语言规划讲义》推出来的话,就完美了,因为这本讲义里面有很多刚才提到的元素,很适合作为献给商务125周年的礼物。”转眼间,2022年就要过去了,尽管责编等有关人员一直在努力,但剩下这几天书出来的可能性不大。然而,我仍禁不住在想,既然都已经有了ISBN978-7-100-21847-4)和CIP2022-216421)号,这本讲义也许还能在春节前出来,如果真能出来,那该是多完美的一个60岁啊
继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存