查看原文
其他

花格老刘的2023

刘海涛 计量语言学
2024-09-03
时间过得真快,又到年终总结的时候了。2022年,我六十岁。因为绝大多数人,很难有自己的第二个六十岁,所以60岁那年,人们总想过得与其它年不太一样一点。在去年年终总结的推文初稿中,原本有下面这样一段话和一个截图:
今年是浙大建校125周年,为加大对身边教师典型的宣传、弘扬优良师德师风,学校有关部门举行了一系列的“我心中的求是大先生”活动,并出版了包括27名在浙大不同时期任教过的教师,其中包括竺可桢、陈建功、苏步青、姜亮夫、王淦昌、程开甲、林俊德等大家熟知的“大先生”,我很高兴在我60岁的时候,能够名列这本具有特殊历史意义的书,感谢学校有关部门,感谢王雅琴同学。雅琴在文中称为我为“先生”,而不是“大先生”,这个计量是准确的,因为与此前提及的和书中的其他大家相比,我只能勉强算是一个教书“先生”。

遗憾的是,这本书直到今年春节才上市,现在补上这段迟到的文字,凑个字数。

“花格老刘的2022”最后一句话说,这本讲义也许还是能在春节前出来的,如果真能出来,那该是多完美的一个60岁啊。这句话中所说的讲义是《语言规划讲义》(以下简称《讲义》),由于众所周知的原因,这本书最终没能在春节前出来,但却在我61岁生日到来前上市了,并入选了商务印书馆5月的“十大好书”。在此,我衷心感谢商务馆的诸位同仁,感谢大家为《讲义》的出版所付出的辛苦与努力!

在《讲义》的《写在前面的话》里,我用下面这些词语概括了这本讲义的特点:语言、规划、政策、人造性、语言规律、助推、服务、工具、社会、国家、有意识、理论架构、系统、问题、模式、高效、干预、人驱、学科建设、语言学。更多内容,可参看相关推文(一本语言规划领域富有新意的教学研究参考书 丨《语言规划讲义》面世(上)一本语言规划领域富有新意的教学研究参考书 丨《语言规划讲义》面世(下)书讯 | 《语言规划讲义》之《写在前面的话》人类语言的“驱动”——卢德平教授谈《语言规划讲义》中国的文言与白话 |《语言规划讲义》《语言规划讲义》答问摘选)以及我们刊发在《外语与外语教学》去年第6期上的《关于语言规划学科的几点思考》。《讲义》出版后不久,浙师大的王辉教授组织了一次线上读书会,有百余人参加。郭龙生、李瑞林、卢德平、张慧玉、王亚蓝等专家学者谈了他们对于本书的看法,在除去各种溢美之词形成的铅华后,我仍能感觉到我预设的这本书的目的基本都达到了,王辉教授将这本书的特点总结为“一体三性”,即讲义体、学术性、科普性和趣味性。如果你不信,找一本看看可能就信了(《语言规划讲义》读书会成功举办)。
在《讲义》的开篇,我提到了20191025日《外语教学与研究》编辑部在湖南大学召开庆祝新中国成立70周年论坛的事。那天中午,突然下起了雨,举办方安排我们自行去食堂就餐。正迷茫食堂在何处的时候,过来一个眉目清秀的小男生,打着伞,说可以陪我去食堂。在路上,他说他是浙江人,叫周义凯,刚上大三,想继续读研究生。我问他,成绩怎么样?他说,还可以。那我说,你可以参加夏令营,争取保研。后来,义凯顺利成为浙大外院和上交外院夏令营的优秀学员,最终他选择来浙大跟我读研。今年9月义凯已开始硕转博的新生活,也是在9月,《外语教学与研究》第五期刊发了我们的文章《现代汉语句长分布的普遍性和特殊性》(汉语的句子真的很特殊吗?):

义凯的经历再次印证了下面这句话:世界很奇妙,关键要努力。当然我们要感谢《外语教学与研究》的诸位同仁,如果没有2019年的会议,没有后续的支持与帮助,肯定没有这篇文章,这是毫无疑问的。借此机会,我也想对以下期刊表示诚挚的感谢,你们在版面如此紧张的时下,今年也给了数据驱动的语言研究一些生存空间,这不仅使我们的学科更像一个数智时代的学科,也让我们对未来充满了希望:《中国外语》(语言复杂网络研究,陈衡)、《现代外语》(数据驱动语体研究的进展与前瞻,王雅琴)和《外语学刊》(配价研究前沿进展,叶子)。
《讲义》开篇也提到我在这次会上发言的题目是“数据驱动的语言规律发现。这个发言的核心思想是,人类正在进入我们几乎一无所知的“数智时代”,遇到的最大挑战是“数据为何能涌现智能”,对于语言学家而言,问题可具体化为“语言数据为何会产生语言智能”。当然,我们不仅要反思问题,更要基于大量可用的语言数据发现更坚实的语言规律,只有这样才能更好地服务于社会发展,服务于国家的现代化建设。那什么才叫坚实的基于数据的语言规律呢?

著名语言学教材“Language Files”里有一张我喜欢在本科生“语言学导论”课上常用的“言语交际链”示意图:

在这个言语交际链中,有9个环节。其中,除了6-7之间的音序列,其它环节都是难以进行客观观察的。如果将音序列转换为文字,那我们可进行客观研究的对象就变成了文字符号序列。换言之,基于这些音(文字)序列上发现的规律可能才是科学意义上的人类语言系统运作的规律。人类语言所具有的这种线条性,是人类生理机制约束的产物,也是现代语言学之父索绪尔认为的语言最重要的两大特性之一。但作为专门研究语言的科学家,我们对人类语言线条性所蕴含的规律又知道多少呢?如果考虑到,诸如ChatGPT之类的人工智能系统就是从这样的序列中习得语言知识和规律,并使用这些知识和规律生成符合人类使用习惯的语言的,那我们作为世界上理应最懂语言规律的人,可能确实要好好反思了。沿着这个思路,我们在今年发表了两篇相关的文章。

第一篇发在计算语言学和自然语言处理领域(即,人工智能中处理人类语言的分支)的4i收录期刊Natural Language Engineering上:

这个研究认为,在人类语言中,绝对位置、相对位置、位于句子两端和句子长度都会显著影响单词和单词序列的频率。此外,我们也观察到单词序列相对位置的频率分布携带了有价值的语法信息。因此,为了准确捕捉词与词的相关性,仅关注绝对与相对位置是不够的。为能获得更多类型的位置信息,可能需要对当前的LLMs架构进行改进

第二篇发表于《当代语言学》今年第六期,并被遴选为该杂志2023年度优秀论文。(对于神经网络语言模型而言,位置就只是一个序号吗?

四年前,这篇文章的第一作者张子豪开始跟我读博。子豪虽然是外语出身,但对于编程有兴趣。于是,我们商量是否可以搞点有难度的研究。研究的思路很简单,大语言模型做的很多的事情,显然需要智能,如果智能是使用知识解决问题的能力,那么,它们肯定已经学到了知识并有了使用这些知识的能力,但这些知识的表征形式明显与我们熟悉的形式不一样。尽管不一样,但管用,这说明它们学的是真知识。反过来我们也有理由怀疑,许多我们过去认为正确的某些知识样态可能是有问题的,人类的语言系统可能存在某些我们暂时不知道但每天都在使用的规律。我跟子豪说,你的任务很简单,就是先从大量真实语料中发现某些可称之为知识的东西,然后在LLMs中找到这些东西,就行了。说起来容易,做起来难。最终,经过三年多的努力,子豪找到了我们想要的东西,更确切地讲,也是数智时代的人类正在寻找的东西。这些从真实语言中发现的我们原本“不知道自己不知道”的规律,可能有助于我们逐渐打开数基AI的黑箱,或者说,有助于在透明的数基AI玻璃箱中发现原本我们应该知道的东西。感谢《当代语言学》,相信“未来”会记住这个“当代”的刊物。

在《讲义》第164页,我写到“2020年4月1日,愚人节,我收到了一封没有主题的邮件,寄件人叫迈克尔。”他说,他想编写一本有关语言优化、演化与规划的书,重点关注巴斯克语的效率问题。他希望我可以为这本书写点什么。我同意了,于是,我们开始了长达三年多的交流与合作。两个月前,这本书终于出版了。

为迈克尔的这本书,我写了一篇题为《正常的使用产生正常的语言》的文章,这里简单提及文章中的几个点:(1) 几乎所有的巴斯克人都是双语者,由于省力原则的作用,如果没有其他非交际因素的影响,在语言交际中,人们自然会选用更容易操用的语言。长久下去,会导致更少用复杂或难于操用的语言,造成恶性循环。一个人如果只有一种工具,他无法选择,无论好坏,只能使用,或者想办法改良自己的工具;但是,当他有更多的选择时,他一般都会选择更好用的工具;(2) 一个逐渐丧失交际工具价值的语言,其存在的理由,可能主要体现在文化以及身份认同等方面。巴斯克语特殊的历史与现状强化了其作为非交际工具的价值。由于它不再是必要的交流工具,便突出了其在文化与认同方面的作用。而文化与认同更多的是维持与保护,注重的是语言的原生态样貌,这样又延缓了其进一步发展为有效交际工具的步伐

关于这本书的事,我在《语言规划讲义》中有详细的讲述,有兴趣的可参考这本书的第164-169190-191195196197199页。现在讲几个没有写在书里的小事。

细心的朋友可能注意到了,目录页上我们五个作者的名字都由三部分组成。除了惯常的名和姓之外,还多了一部分。记得在封面设计的初稿出来后,我看到他们四个巴斯克人的名字有些不同寻常,我就问迈克尔,你们的名字怎么有三部分?他说,巴斯克人在正式出版物上署名时,除了自己的名和父亲的姓之外,也会把母亲的姓也加上。我一听,我也是有母亲的人啊,我母亲的姓(陈 Chen)也应该出现在这本书里啊,于是乎就有了现在书中的Haitao Liu Chen。因为中国人的姓一般是单音节的,很短,几个巴斯克一度想在封面上给我一个特殊待遇,即,把我妈的姓也放在封面上,因为他们妈的姓太长没法都放上,后来我为了照顾他们妈的感受,就说那还是跟你们一样吧。但有趣的是,他们宣传用的书的封面上(见上图左),有我妈的姓,但没有他们几个妈的,而真正的书封面上,是谁妈的姓都没有的……

这本书的标题ORAIN(《现在》)是为了纪念1643年出版的巴斯克语经典著作GVERO(《后来》)的,“现在”当然就是380年前的“后来”。书的封面上,写《后来》的人Pedro AgerreAxular)正坐在一台电脑前,他在想什么呢?副标题给出了答案,想提高巴斯克语的交际效率呗。说起巴斯克语的效率,迈克尔给我讲过一个事:小时候,他们兄弟姐妹在一起说话时,一用西班牙语,他妈就骂他们,叫他们说巴斯克语,但他妈是用西班牙语骂他们的。可见语言的难易,是一个与认知密切相关的问题,无论是大人小孩,都想省力。也就是说,语言结构是受认知机制约束的,这方面最符合数智时代精神的成果就是依存距离最小化(DDM,这个DDM不仅我在这本书里提到了,另外一位叫Jesus Rubio的学者也提到了。

巴斯克语被认为是人类现存最古老的语言,也被称为“人类语言孤儿”,因为至今没发现它跟其它语言有啥亲缘关系。更有趣的是,所有这一切都发生在罗曼语包围的语言夹缝中。我们自己研究过斯拉夫语言的演化,似乎越古老的语言越难,从这个意义看,巴斯克语这么难也是可以解释的。问题在于,是否有必要保持这种超出日常交流需要的难。

有一次,迈克尔来信说,Amuriza(本书作者之一)把1545年出的第一本巴斯克语的书翻译成现代标准巴斯克语了。知名巴斯克语周刊Argia对他进行了采访,在谈到巴斯克语时,Amuriza说,“在这儿,在现在,我只能跟你说,我们的动词不可能成为有竞争力的语言。不可能,嗯,完全不可能。” 他也说到,打开一扇门用一把钥匙就够了,但现在要用200把钥匙才能把门打开,我们的动词就是这样。

综合看来,巴斯克语确实难,以至于迈克尔在翻译完我的文章后,马上来信说:我终于翻译完了,感觉如同不用氧气登了一回珠穆朗玛峰。这可能又印证了,我在《讲义》中多次强调的那样,语言不仅是交际的工具,也是文化的容器与身份的象征,而语言规划的任务之一就是根据社会的变化,适时调整不同语言功能的权重,从而使语言更好地服务于社会发展。无论如何,很高兴,我能在过去特别的三年里参与到这场有关人类语言孤儿现在与未来的讨论,奇妙的语言,奇妙的世界......

今年,我的博士生阎建玮获得了浙大优博,他也是我指导的第3.5个获此殊荣的博士。在浙大研究生院推出的“优博微享”专题关于建玮的推文里(优博微享2022 | 阎建玮:基于大规模树库的跨语言语序类型计量研究),我是这样评价建玮的研究的:

“在格林伯格1963年发表的现代语序类型学奠基性文章中,他多次使用"除了偶然出现的情况外""在远远超过随机频率的多数情况下"等语句,这说明格林伯格列举的语言普遍规律本质上是一种统计规律。也可以说,类型学本身是一个数据驱动的语言学分支学科。统计规律的发现离不开真实的语言数据,建玮的博士论文基于数十种语言的句法标注语料库对语序类型的统计规律进行了多层次的研究。这项研究在揭示基本语序规律、展现语言共性与差异、解释语言动态演化、促进类型学回归概率本源等方面均有重要的意义,是中国学者在数智时代对语言类型学的发展做出的极有意义的贡献。”

建玮的相关研究,今年也刊发在Linguistics Vanguard和《语言文字应用》上(《语言文字应用》2023年第2期目录及摘要)。

毫无疑问,我们应该感谢《语言文字应用》,但对《语言文字应用》只说这么一句是不够的。去年是《语言文字应用》创刊30周年,语用所编了一本文集,精选了过去30年间期刊发表的一些文章,这书今年出来了。其中,也有我1997年发的《依存语法与机器翻译》。我看了一下第十章“计算语言学”几篇选文的作者(孙茂松、冯志伟、俞士汶、董振东、袁毓林、靳光瑾等),只有我在文章发表时是在工厂“打螺丝”的,扩展到全书,这个事实仍然成立。可以想见,如果没有《语言文字应用》,谁还记得我这个语言学爱好者业余时间在工厂琢磨的那点东西。这篇文章不仅是我被引最多的汉语文章,也是国内与依存语法有关的被引最高的文章。至今为止,《语言文字应用》已经刊发过我们的10篇文章,成为我学术生涯中最重要的中文刊物之一,祝刊物越办越好。

2016年双11那天,我收到了一位叫郝瑜鑫的人的邮件,他说他是华侨大学华文教育研究院的研究人员,听过我2015年在他们研究院做的讲座。受讲座启发,他想到了这样几个问题:既然不同语言的依存距离和依存关系存在差异,并且这是一个普遍的规律,那么不同母语背景汉语学习者所产出的中介语是否会受到其母语的影响,从而导致不同母语背景、不同阶段学习者的中介语在依存距离、依存方向上有差异呢?他想从第二语言习得的视角去观察依存距离和依存关系的普遍性问题,以及这种普遍性是否会反应到第二语言的学习中。

他问我,如果这些思路可行的话,他准备用依存语法标一些外国人学汉语的语料,研究研究看。我马上回信,鼓励他开干。这样,瑜鑫便成为我的教育部不承认的学生了。8年来,瑜鑫做了不少外国人学中文的中介语研究,仅在今年我们就合作在国内外发表了4篇论文(基于印欧语系语言的词汇丰富性指标可以预测汉语二语者的写作质量吗?),其中也包括近年进步飞快的System。当然,我们要特别感谢System的主编和审稿人,能在这本热度越来越高的期刊上发文,真的不是一件容易的事。

基于这些创新性的研究,瑜鑫也在今年被聘为华侨大学外语博士点的首批博导。瑜鑫用自己的行动,再次验证了《计量语言学导论》序言最后一句话的正确性,“进来,就有希望!

说到中介语,我们忘不了Selinker1972年发表在IRAL上的Interlanguage一文,这篇文章目前在谷歌学术被引数为12777,是IRAL被引最多的文章。巧的是,今年也是IRAL创刊60周年。于是,我们采用文献计量的方法回顾总结了IRAL对国际应用语言学发展的影响及贡献,感谢IRAL主编高雪松教授,没有他的帮助与支持,这篇文章不可能适时出版。

说到应用语言学,我又想起在“花格老刘的2022”中提到的李文平,今年文平又在日本最好的应用语言学刊物《日本語教育》(Nihongo Kyōiku)刊发了一篇用依存距离研究日语学习者语言的文章,加上去年在日本最好的普通语言学期刊《言語研究》的文章,文平用数据创造了中国人研究日语的佳绩。

文平今年也做了另外一件值得一提的事。他在海外淘到了一本1916出版的《普通语言学教程》,感谢文平,让我们这支索绪尔的直系传人队伍也有了这本现代语言学经典著作的初版,让我们有了更强烈的责任感和荣誉感

在“花格老刘的2021”里提到的李媛教授今年在德国知名的语言学刊物Sprachwissenschaft上发表了关于德语后场历史演变的文章(德语破框和依存不得不说的故事第二弹)。这是这本刊物发表的屈指可数的中国学者的文章中唯一研究德语本体的文章。

今年我参与的文章还有一些,具体可参看我的浙大主页https://person.zju.edu.cn/lht。这里简单提及几篇:管玮关于儿童转述问题的文章、洪新培和黄伟关于中文词结构和频率关系的研究、龙怡君关于苗文历史与演变的文章、亓达用依存距离研究言语行为的文章、张慧玉关于中国大陆过去35年语言政策的研究、刘建鹏关于老年人语言网络的研究、原伟关于虚假新闻语言计量特征的研究等。我们的研究大多基于真实语言材料,都有数字,或多或少地,都发现了一些模式或规律,这么做的原因在于,我们相信 Mathematica 的主要设计师Stephen Wolfram在谈到ChatGPT时所说的这句话:Human language (and the patterns of thinking behind it) are somehow simpler and more “law like” in their structure than we thought. ChatGPT has implicitly discovered it. 既然ChatGPT能发现人类语言中的patterns & law,我们人类没有理由发现不了,只是过去的方法可能有些问题而已,那是不是可以改变一下?

2023年,我还搞了一个数字人文巡讲。为什么做这个事?因为数字人文是“新文科”建设的核心组成部分,它不仅是数智时代对人文领域研究者的挑战,更是机遇。数据不仅会改变人类看待自己的方式,也能更好地探索人类社会演变的规律。但纵观四周,人们对于数字人文的理解过于狭隘,往往将其简单地视为人文材料的数字化。因此,基于我们团队十多年来的数字人文研究实践和众多文学、语言、翻译的案例,我的巡回讲座旨在阐明数字人文的真谛在于如何将数据与知识、社会、文化、历史、行为、人联系在一起,更科学地发现、解释人类行为的模式及人与社会、自然交互的规律, 更准确地预测人类和社会的未来。

从今年4月到11月,我在扬州、贵阳、广州、上海、兰州、北京、西安、郑州、杭州、厦门等地的多所大学,做了十多场数字人文的讲座,听众达上千人。

每次讲座的前一天,我都会在朋友圈发一张如上的海报和下面这段文字:

明天下午,XXX大学,2023年数字人文巡回演讲第XX站,上(下半)年第X站。从close到distant,数字人文不只是在传统人文的前面加个“数字那么简单”。作为在数字人文旗舰刊物DSH上发表过9篇文章的研究者,作为多年来倡导数据驱动人文研究范式的科学家和实践者,我们有很多话要说……欢迎登上通往未来的列车,如果这一站还上不了车,那就在下一站等着吧,下一站很快就会来……

下面是讲座ppt的最后一页

如何更好、更深入地理解这些文字和图片,您可能需要等待明年春天重开的列车了。在等车的时候,您也可先琢磨琢磨“数据模式知识网络智能”这条数智时代关键链……

就这样说着说着,今年就过去了。在呼唤更多的人登上开往未来的列车的同时,我们自己也在不断打造更快、更先进的列车。今年,我们在国际数字人文的旗舰刊物Digital Scholarship in the Humanities上发表了3篇文章。

这两篇文章分别研究了《爱丽丝漫游奇境》的译者风格和斯拉夫语言的分类问题,文章的标题中有两个有趣的词“mirror”(镜子)和“lens”(透镜),都是为了更好地观察、探究事物的物件,这也印证了李国杰院士在《可视化未来》一书的序言中所说的那样,“大数据为我们提供了一面考察社会的透镜,其对社会科学的变革意义,与伽利略首次将望远镜指向太空对天文学的意义一样重大。”按照任博德(Rens Bod)在《人文学的历史》一书的说法,人文与科学的目标没有什么大的不同,都是为了探求原则与模式的,差别只在对象不同而已。因此,我们用数据来考察与人有关的种种模式,也是一件再自然不过的事情了

这篇采用复杂网络的方法研究了人类语言中普遍存在的省略现象。为什么采用网络,因为网络与人类大脑的神经网络,与深度学习AI的人工神经网络是同构的,不仅有更好的心理现实性,也具有高度AI现实性。网络视域下研究省略,我们的假设是这样,如果知识以网络形式存在于大脑之中,那么,省略作为一种省力手段,之所以能行得通,可能在于交际双方具有大致相当的知识网络结构。换言之,交际过程中为了省力而省略掉的东西,是可以通过大脑中的网络自动补上的。这项研究证实了这个假设。既然不妨碍交流,在Zipf定律的作用下,正常人也就会该省就省,不会费力去说语言学家喜欢的主谓宾齐全的句子。说到省略,我们也采用依存距离等语言计量指标,研究了英语中的某些省略现象。

我们也以海明威为例,探索了文学传播的一些规律。

研究表明,作家及作品的传播,尤其是在异域的传播,通常会受到非文学因素传播语境的操控,比如传播的国家当时的社会制度、政治制度、意识形态、国家关系、文化制度等因素,这些传播语境的重要性不亚于作品本身、传播媒介和译者等传播的基本要素

在《语言规划讲义》第292页的脚注中,我写到:

有趣的是,考林钦斯基用两种略有差别的世界语词语翻译了《共产党宣言》中那句著名的结语“全世界的无产者,联合起来!”,在题记中,“全世界”用的是la mondo,而在结尾时,用的是ĉiuj landoj。我们核对了《共产党宣言》的四个世界语译本,都是用ĉiuj landoj来翻译德语原文的aller Länder。按照字面意思,ĉiuj landoj是“所有国家”,而la mondo才是“世界”的意思。是不是,ĉiuj landoj=la mondo?这是一个有趣的问题,值得研究,有兴趣的读者可关注一下有关这句名言中文翻译的讨论。

但在这句话的诸多中译本中,争议最多的还不是这个“全世界”,而是“无产者”。于是,我们基于几个历时语料库研究了这个问题。

文章发表在《复旦外国语言文学论丛》今年第3期上。

2020年,综合各种因素,我们为本科生开设了一门面向数智时代的《语言学导论》课程,记得在第一次选课时,因为类似的课程在浙大太多了,怕没有人选,我们还推文宣传了一番(2020,全新的《语言学导论》,“浙里”,等你来pick!),里面有这样一段话:

也许未来的你,未必会用到课程中的语言学概念或定律,但是老师们跨越数个学科门类、文理兼顾的思路,值得我们细细体味。采用数学和统计来研究语言的方法,隐藏在人类日常语言中的规律,以及如何使用这些规律来解决各种语言问题的策略,必将启迪你的智慧,拓宽你的视野,改变你对语言学的看法。因为,人是语言的动物,而语言是由人驱动的复杂适应系统

几年过去了。现在看来,这种担心完全是多余的。每到选课的时候,我总会收到不少同学的邮件,希望能让他们选上这门课,但我也无能为力,因为即便作为任课教师,我也没有办法干涉系统的选课结果。结果是,有的同学选了三年都没有选上,但这不妨碍喜欢语言学的同学来听我们的课并开始做自己喜欢的研究。

在这门课上,我甚至还一度产生过是否还可以再指导一个同学的本科、硕士到博士论文的念头。董婧是首批选上这门课的同学,她研究粤英语码转换的课程论文,得了96的高分。后来,学院鼓励本科生做研究,并在今年出了一本论文集,董婧在课程论文基础上修改的论文也有幸入选了。这篇文章这两天也获得了浙江大学第九届学生人文社会科学研究优秀成果一等奖。

后来,我也顺理成章地指导了董婧的本科毕业论文。有些遗憾的是,董婧毕业后去港中文读新媒体去了。这样,我也就没有办法再指导她的硕博论文了。既然天意如此,那就休息吧。

在“浙大十年”推文的最后中,我说:“未来十年,如果还能干十年的话,我希望不再把时间花在报项目、报奖、报销、开会、填表这些事上,而能够自由自主地做一点好奇心驱动的语言研究,把精力放在支持和帮助年轻学者的发展上,放在学科的持续发展上。

时间过得真快,写上面这段文字也已经是三年多前的事情了。今年,我终于有时间做一点自己一直想做的事了。在多年来收集的数千种资料的基础上,我写了一篇题为《世界大变局与全球语言变革》的文章,通过15世纪以来几次世界大变局和语言宏观变化关系的探讨,试图进一步理解全球语言变革的复杂性,以及人类如何发挥主观能动性应对社会大变局给人类语言带来的种种挑战。尽管一直克制着写,但不小心还是写长了,写了5万字左右。希望能有一个地方尽快把这文章发了,尽管里面说的大多是过去的事,但仍然有现实和未来意义。

今年,我来浙大后招的第一批博士生章红新用中、英文出了两本专著:

在这本英文专著里,提到了409Liu;在中文专著中“刘海涛”出现了172次,Liu出现了178次。从这个意义上讲,似乎传承得不错。在《汉英句法计量特征》序言的最后,我写到:“12年前,作为一名普通外语教师的红新说,她想做一点具有理论价值的研究,想做一些能实现自我价值的事情。理论是什么呢? 按照科学哲学来说,理论是由定律组成的。12年后,我很高兴在红新的这本书中看到了数据,看到了公式,看到了定律,有了定律,我们离理论还会远吗?当然,过去10多年来,跟我一起艰难走在“数据公式定律理论”这条道路上的人,不止章红新一个人,希望数智时代能让我们大家更开心一些,毕竟人工智能几十年的历史证明,离开数据,很难搞出来能与人一比高低的智能机器。

最近几年,很多人经常跟我说,老刘,你也该歇歇了,在浙大十多年,你都累出了一身病,还傻干啥呢?但ResearchGate是一个好东西,每当我想退休的时候,看看浏览自己文章人的地域与学科分布,就感觉这世界可能还是需要我的,就想再干两年再说。例如,过去两个月,有分属113个学科的人来看过我的文章,他们生活在以下国家或地区(按照阅读量排序):

中国、德国、美国、香港、法国、印度、日本、台湾、英国、土耳其、马来西亚、菲律宾、印度尼西亚、澳大利亚、捷克、新加坡、韩国、波兰、加拿大、俄罗斯、西班牙、越南、澳门、泰国、意大利、瑞典、伊拉克、比利时、巴基斯坦、瑞士、爱沙尼亚、乌克兰、巴西、荷兰、沙特阿拉伯、伊朗、南非、墨西哥、加纳、罗马尼亚、埃及、孟加拉国、希腊、匈牙利、爱尔兰、尼日利亚、坦桑尼亚、多米尼加共和国、拉脱维亚、以色列、马耳他、摩洛哥、新西兰、突尼斯、肯尼亚、阿根廷、老挝、斯里兰卡、格鲁吉亚、所罗门群岛、叙利亚、土库曼斯坦、芬兰、卡塔尔、埃塞俄比亚、奥地利、斯洛伐克、不丹、智利、哈萨克斯坦、秘鲁、哥伦比亚、哥斯达黎加、斯洛文尼亚、黑山、约旦、象牙海岸、阿尔及利亚、塞尔维亚、阿尔巴尼亚、卢旺达、汤加、瓦努阿图、塞浦路斯、瓜德罗普岛、克罗地亚、牙买加、卢森堡、阿拉伯联合酋长国、阿曼、乌干达、玻利维亚、科索沃、乌兹别克斯坦、缅甸、立陶宛、乌拉圭、挪威。

啰里啰嗦说了这些,耽误大家时间了。2024年见吧。2024年,“62”年出生的人,就62岁了,我也不例外。62在杭州话里有特别的意思,按照百度百科的说法,杭州人说一个人“62”大致是说这个人比较蠢、不合时宜,但也可能是说一个人为人处事常常吃亏上当,仍然坚持自己的方式,而且行动力很强。不管怎么说,世界上所有属虎的62们即将迎来自己的62之年,想想就很有意思……


继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存