查看原文
其他

旧稿|2019年《自然》首次发表中国语言学研究成果,复旦金力团队是如何做出这个研究的?

张吉 复旦青年 2021-12-07
 

2019年4月25日,金力的团队在《自然》(Nature)上发表题为《语言谱系证据支持汉藏语系在新石器时代晚期起源于中国北方》(Phylogenetic evidence for Sino-Tibetan origin in northern China in the Late Neolithic)的论文。这一跨越遗传学、语言学、生物学、考古学、人类学等多个学科开展的研究,为汉藏语系起源于中国北方的观点提供了论证,也是第一个刊登在《自然》上的中国语言学研究成果。

 

《复旦青年》将旧稿重发,展现从2016年开始设想到2019年论文发表,这个历时两年多的研究如何完成。


复旦青年记者 张吉 主笔

复旦青年记者 姚泓旭 报道

复旦青年记者 高梦宇 向思琦 编辑


109个数据,N次运算


汉藏语系是仅次于印欧语系的第二大语系,它拥有400多种语言和方言、总使用人数达16亿人。汉藏语系分化的研究已有200多年的历史,但关于汉藏语系起源的时间地点,语言学界一直存在争议。“北方起源假说”认为,汉藏语系起源于大约4000-6000年前的中国黄河流域,而“西南起源假说”则认为汉藏语系起源于至少9000年前的中国四川西南部或者印度东北部。 


金力团队的论文对来源于美国马提索夫的STEDT数据库的109种汉藏语系语言词汇中的字根意义进行了演化分析,运行系统发生学方法研究了汉藏语系的分化。文章认为,这些语言起源于中国北方,并在5900年前后出现分化,结论与“北方起源假说”相符。


▲语言谱系的变化/图源:Nature官网


2016年,张梦翰和同为第一作者的生命科学学院人类学博士后严实瞄准了美国著名汉藏语研究专家马提索夫的STEDT数据库,该数据库从1987年建立至今一直持续更新维护,其中的东南亚语言上千的词表足以满足金力团队的研究需求。于是,他们向汉藏研究专家马提索夫提出数据库使用的申请,并获得对方的同意。与此同时,他们得知,国外的几个研究小组也正在对汉藏语系演化问题展开相关研究。


现有的数据库极大地便利了前期原始资料的收集,但在构建语言演化模型和如何使用数据的问题依旧棘手:从数据库抽取出的词根与词义在演化过程中符合怎样的规律?选择何种演化模型对其进行模拟?各个模型分别有什么意义?模型叠加是否适合汉藏语系分化的研究?……本科为数学系的张梦翰用数学思维解决了这些问题:“数学教会了我反向思考,并尝试站在原模型设计者的角度重新理解模型的意义。”


他们从数据库的数百种语言中,经过严格的筛选标准,最后保留下了109种语言的949个词汇与词根数据。紧接着需要对选取的109个数据进行数据标准化和人工检查,严实负责这一过程,他花了整整十天时间才完成,而这仅仅是处理数据的一个步骤。接下来,他们需要使用一款名叫“Beast”的进化分析软件分析数据。这款软件操作起来十分复杂困难,有人开玩笑说:“The Beast is a beast.”


软件运算过程充满了很多重复的动作,而一些不起眼的错误及其设置数据,往往会导致整个结果产生更大偏误,甚至是软件的崩塌。“经常调整模型,并检查数据转换过程中的准确性和可靠性,晚上两三点睡觉挺正常的。”严实说。


张梦翰和严实至今仍清楚地记得那个崩溃时刻:2018年11月29日,文章的一版修改稿已经完成了,但严实在对比检查的过程中发现,自己在传递数据时混淆了版本,导致了团队的最后结果错误。他立刻打电话告诉了张梦翰并开始修正。凌晨两点,张梦翰收到严实修正的数据。随后,整个团队又将汉藏语数据从头到尾再分析了一遍。

 

由于整个分析过程复杂,这样的失误发生过四次。每一次金力团队都要把所有数据从头到尾计算一遍,以防止存在其他疏漏。而在每一次从头到尾的分析中,光计算不同的模型结果就需要整整四天的时间。


▲ 论文四位主要参与者的合照/图源:网络


2018年12月初,文章初稿修正完毕。金力在江湾生科院6楼的小型会议室召开团队会议,项目的四个主要参与者坐在宽敞的会议室里,眼神都聚焦在会议室最前方的投影仪上,上面投放了文章初稿。金力从文章摘要开始,对文章中的图标、数据、结果等一一校对,每一个词、每一个句子都要琢磨好几遍。校对完成后,金力还让张梦翰与严实使用其他的统计检验方法、更丰富的跨学科数据和证据科学地验证文章的结果。


经过了一整个月的修改与历史比较法验证,该文章终于在2018年12月底定稿,并投稿,最终得以于2019年4月25日发表。


金力团队的文章发表后的第二个星期,法国东亚语言学研究中心的沙加尔研究员(Laurent Sagart)团队联合德国马普研究所的游涵研究员(Johann Mattis-List)小组在《美国科学院院报》(PNAS)上发表了他们关于汉藏语系起源的研究成果。法国Sagart和德国马普联合小组更侧重于依托自己构建数据库解释汉藏语的起源,而金力团队的研究则更侧重重构汉藏语系的分化、以及分化的时间和地点。


人类文化起源才是终极目标


这次对汉藏语系起源的研究进展,得益于遗传学与语言学的相互印证。


1995年,文章作者之一潘悟云在香港“汉语起源”的国际研讨会上,提出汉藏、南亚、南岛等语言之间存在同源关系的假说,这与传统语言学的谱系分类、以及人类学观点不一致。从传统的人类学来看,中国人的祖先是北京猿人,南岛人的祖先是爪哇猿人,不同人种的语言当然不可能同源。


▲ 论文共同作者潘悟云/张吉 摄

一年后,潘悟云读到人类学家金力的文章。金力通过对东亚人群大量的基因采集,论证了东亚人群来自非洲。这让潘悟云茅塞顿开,非常振奋,潘悟云关于东亚语言演化的想法与金力关于东亚人群演化的观点完全一致。不久后,他们取得了联系,双方都努力从遗传学与语言学的证据,互相支撑他们的观点。


2002年4月,金力主持成立了复旦大学现代人类学重点实验室,该实验室将生命科学与数理科学、医学科学和人文科学进行交叉,在现代人群遗传结构、人类分子进化、体质人类学、古代人类DNA研究、分子流行病学、计算生物学、语言学、民族学和考古学等方向开展多领域交叉研究。针对“人类多样性如何形成与进化”这一问题,揭示人群间和个体间的体质、生理、病理等差异及其形成机制。潘悟云一直担任该实验室的语言学顾问。自成立以来,该实验室已在NJEM、Science、Nature、Cell、JAMA、JCI、AJHG、PNAS等国际著名专业期刊上连续发表了一系列论文,Science、Nature、Current Biology等多次配发专题评论。并且,该实验室已获得国家自然科学二等奖在内的国家和省部级科技进步奖17项、百篇优秀博士论文4次、提名奖3次、挑战杯最高奖4次。


几年后,两位青年学者加入到这一团队,注入了新的力量。在潘悟云的推荐下,从数学转到语言学的张梦翰来到金力的实验室学习生物学。2014年,他正式加入金力实验室从事人类学研究。严实则于2009年从德国不来梅大学及马克斯·普朗克海洋微生物所归国,随后加入金力实验室。


“双一流”建设启动以来,复旦大学十分注重学科融合创新和前沿发展。2018年,复旦大学现代语言学研究院成立,东亚语言研究是该院的主要研究方向之一。关于汉藏起源的研究,遗传学很早给出过汉藏人种的迁移的证据。金力与潘悟云的合作,从语言学角度给遗传学的研究提供重要的佐证。


但这并非金力团队的“终极目标”。探索东亚地区以汉藏为代表的人类、文明文化的起源与传播,才是他们研究的最终目的。潘悟云说:“人之所以区别于动物,是因为人有自己的语言,所以才有人类的文化。”动物只有进化,而人类还有文化。他举了个例子,动物从爬行动物到鸟类要经过数千万年的进化,但是从达芬奇的飞行器到莱特兄弟的飞机,只用了五百多年就实现了。这就是语言所支持的“人类文化的巨大威力。”


学科交叉:语言学研究的新出路


除了语言学与遗传学,此次研究还整合了数学、生物学、考古学、人类学等多学科的研究方法和成果来研究语言的演化,揭示汉藏语系分化的时间和地点,为今后汉藏语系的研究提供了一个框架。以此为发端,还可以进一步推进考古学、民族学、社会学、甚至是生物学等学科的发展。


潘悟云的团队有语言学、数学、计算机、文献处理、地理信息系统等各方面的人才。他们经常组织讨论会,每个人都从自己的学科角度提出自己的想法。例如,实验室每周举办一次的读书会,每次读书会由一位同学讲解一个章节,文本在不同专业视角下被呈现。张梦翰说:“这样的研讨会是一种既好玩又能学习到技能的体验。不同专业的学生的思考模式不一样,听别人的见解,能给自己带来不一样的思考。”


▲ 论文第一作者张梦翰/姚泓旭 摄

传统语言学通常被划分在人文学科之下。潘悟云说:“这样的研究格局有很大的局限性。”近年来,语言演化在国际上已成为一个非常热门的交叉学科。在德国马普所、新西兰奥克兰大学、英国牛津大学等研究机构,已经有很多学者采用进化生物学的方法来研究语言演化问题。


潘悟云认为,“真善美”三个字分别代表着语言学、修辞学和文学的研究对象,语言学研究的对象是“真”,研究的内容是系统、结构、规则,与文学研究“美”很不一样,所以应该把语言学从中文学科中分离出来。语言学是一门很独特的学科,它一方面有其社会属性,与人文、社会相关,另一方面有其自然属性,与声学、数学、信息科学相关。所以语言学所作的研究好像是“盲人摸象”,从各个角度探索到的都只是语言的一个方面,所有方面的拼图才是语言的总体。金力团队所作的研究,将数学、生物、计算机等研究方法引入到语言学,用演化的方法打开新的视窗,将对语言学的发展产生重大的影响。


严实表示,当前中国的学科划分中,发表论文、教师职称等规章制度界限分明,“不利于学科交叉合作与学术的进步。”


▲ 论文共同第一作者严实/姚泓旭 摄


然而,语言学界拥有理工科基础的学科交叉人才太少,要做学科交叉研究存在很多困难。张梦翰从数学系跨到语言学研究时,由于缺乏文史哲方面的基础知识,他的语言学研究存在一个缺陷,他与其他“科班”出身的语言学同学不一样,不能了解很多语音。为了弥补缺陷,他不断看书、阅读文献,补充文科知识,每天学习、交流的时间超过12个小时。“好在潘老师比较包容。”张梦翰感慨道。而潘悟云看重的恰恰是张梦翰的数学底子,他希望张梦翰用数学思维研究语言学。


学科交叉研究并不容易,张梦翰引用同事复旦生命科学学院青年副研究员王一的话说:“所有你觉得好的知识都要时时留个念想。”他说,看过的文章就像是一个个抽屉,你可能不记得里面的细节。但你时时“留个念想”,什么时候自己需要了,想起这个抽屉,再打开就能找到里面的东西了。这个抽屉里装的一定要是各个学科的知识。


微信编辑丨秦思晶

审核丨甲干初



往期精彩


记者节,教你如何识别记者型人格


《沙丘》姗姗来迟:改编顶级IP,太难了



: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存