查看原文
其他

重 磅|古汉语词义标注语料库:助力词义教学与研究

四万学者关注了→ 语言学心得 2022-06-09




古汉语词义标注语料库:助力词义教学与研究

——于历史长河 观词义演变

供稿丨舒蕾、张文强、胡韧奋


读中学时是否曾对文言文和古诗词中的“古今异义词”感到困惑?


想知道古汉语多义词的各种含义是如何随着时代变化吗?它们之间的远近亲疏关系又是怎样的?


借助智能技术的加持,这个语料库可以帮到你!


近日,北师大中文信息处理研究所和人文宗教高等研究院的团队合作发布了“古汉语词义标注语料库”,这项研究也在不久前获得了2021年中国计算语言学大会(CCL)最佳资源论文奖。基于词义标注语料库开发的词义标注算法,不仅可在义项演变建模、义项亲疏关系建模和辅助词典编纂方面为研究者提供一个新的视角,也可为文言文与古诗词中的词义理解提供支持和辅助。


先来看看它可以做什么吧!


词义历时演变建模


“使”这个词的主要含义是如何随着时代变化的呢?义项演变建模可以直观地展示各个义项之间的消长关系。从图上可以看出,“使”作为“官职”的意义从汉代开始大量使用,并且占比持续上升,在清代成了最主要的义项,到这时,“使”大约一半的用例都是作为“官职”的含义出现;而“使”作为“命令、派遣”的意义在先秦占据主导地位,但是随着时代的变化逐渐淡出视野,而要表达“命令、派遣”的意义时,人们倾向于用别的词来代替了。(义项建模的具体实现细节参考论文[1][2])


义项亲疏关系建模


把一个词的多个义项看成一个个分布在空间中的“点”,它们之间的远近关系也就一目了然了。词义标注算法所衍生的“副产品”——义项向量,可以用来计算和可视化义项之间的远近亲疏关系。在图中,“望”的义项“远望”和“向,对着”比较接近,“期望、盼望”和“希图、企图”比较接近。而“遥祭”和“望日”和所有的义项都较为疏远。可视化的分析结果为词典编纂中的义项归并与拆分、义项引申关系判断等问题提供了参考。



看了以上的两个例子,你或许有疑问,一个语料库是怎么做到这些的呢?就让我们一起来看一下这个语料库里都有些什么吧!


语料库概览


古汉语词义标注语料库由词义知识库和义项标注语料库组成,目前知识库已收录315个常用词,并据此标注了先秦至明清的古汉语语料达5.8万条,规模超过164万字。


1

词义知识库


词义知识库示例“爱”


语料库团队中汉语言文字学方向的研究者以《王力古汉语字典》为基础、《汉语大字典》为补充,对古汉语中的常用单音节多义词的义项进行归纳和划分,对同形词、通假现象和专有名词也做了相应处理,最终构建了涵盖词形、词音、词性、义项、义族、本义及引申义、例句、义频等属性的词义知识库。值得一提的是,在收录词语时,团队成员特别考虑到高中阶段的文言文教学需求,结合高中语文教材、高考试题文言文选文、近十年高考试题所考察过的文言实词以及《教学大纲》所规定的120个常用文言实词等材料,选定了高中语文学习常用的200多个文言多义实词加入知识库[3]。


词义知识库属性示例


2

义项标注语料库


接下来,团队成员以国家语委“语料库在线”(古代汉语部分)和CCL古汉语语料库为来源,对其中语料进行分朝代均衡采样,并据此开展义项标注工作,即对一句话中指定的目标词标定合理的义项。最后,根据语料库标注结果统计义频信息,填入上文所述的词义知识库。


词义标注语料库示例


词义标注算法


词义标注完成后,就可以由词义标注算法来充分挖掘这个语料库的潜力了。词义标注算法的思想来自Harris和Firth的语言学假设:


Harris (1954)“分布式语义假说”:上下文相近的词有着相近的含义[4]。


Firth (1957):观其伴而知其义[5]。


杨逢彬先生在为《论语》和《孟子》进行注译时,也特别提到:每个词,以及每个词下面的每个意义,它的分布(上下文条件,“语境”)都是独一无二,而与其他词、其他意义是有所区别的……考察分布,杨树达先生谓之“审句例”[6][7]。


根据上述词义表示的思想,我们从词义标注语料库中筛选一个义项的所有例句,便可为该义项寻找共同的“语境特征”。多亏了近年兴起的预训练语言模型BERT [8][9],我们可以很方便地获取词语的上下文相关“语境向量”,这个向量看似由一个个实数组成,它背后包含了这个词上下文的重要信息:它和什么样的词一起出现——这也就是它的语境特征。


这样一来,算法便为每一个义项构建了独特的“语境特征向量”。如果这时候给出一个新的句子和需要消歧的多义词,我们就可以指导机器选择与这个新句子语境最相似的“语境特征向量”,那么它对应的义项就最有可能是当前多义词在语境中的义项了。进一步地,如果想知道一个多义词的所有义项频率的分布,只需把现存典籍里所有包含这个词的句子全都取出来,对每句话都做这样的词义标注操作,就可以看到一个词在不同时代、不同书籍里面的义项分布情况。


开源共享

目前,最新版语料库已在Github开源共享,欢迎研究者参考使用。


语料库下载:

https://github.com/iris2hu/ancient_chinese_sense_annotation



论文链接:

https://aclanthology.org/2021.ccl-1.50.pdf



为了更好地服务于本领域师生,如果读者希望获得指定词语的历时词义演变图或义项距离可视化结果,可发送邮件至LeiShu@mail.bnu.edu.cn向语料库团队申请。团队将根据申请先后顺序进行语料分析并提供结果,具体申请方式如下:


1. 对于语料库中已经收录的词语,可以直接申请指定词语的可视化分析结果。


2. 对于语料库未收录的词语,欢迎使用者按照语料库的体例整理该词语的义项表、语料表(每个义项有10条例句以上为佳,至少5条,每条例句字数大于8字),通过邮件发送给语料库团队,并在邮件内容中声明同意将搜集语料加入开源共享语料库。


致谢

本研究得到国家自然科学基金青年项目“面向古籍整理智能化的知识表示与加工研究”(62006021)资助。两年多来,北京师范大学的曹媛南、段毓赜、郭懿鸾、何琪怡、黄芷晴、蒋瑞、李涔、李隽琪、罗涵柯、舒蕾、孙雨、王慧萍、杨济清、姚昊辰、张文强、张霄等同学(姓名按音序排列)为义项修订和语料标注工作作出了贡献;张学涛和胡韧奋老师为语料库的建设提供了悉心的指导。在此一并致谢。



向上滑动查看参考文献

[1] 舒蕾, 郭懿鸾, 王慧萍, 张学涛, 胡韧奋. 古汉语词义标注语料库的构建及应用研究. 第二十届中国计算语言学大会 (CCL 2021). 2021. 

[2] Renfen Hu, Shen Li and Shichen Liang. Diachronic Sense Modeling with Deep Contextualized Word Embeddings: An Ecological View. ACL 2019.

[3] 王慧萍. 高中阶段常用文言实词自动命题研究. 北京师范大学硕士学位论文, 2021.

[4] Zellig S. Harris. Distributional structure[J]. Word, 1954, 10(2-3): 146-162.

[5] John R. Firth. Papers in Linguistics[M]. Oxford University Press, London, UK, 1957.

[6] 杨逢彬. 论语新注新译. 北京大学出版社, 2016.

[7] 杨逢彬. 孟子新注新译. 北京大学出版社, 2018.

[8] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019.

[9] 胡韧奋,李绅,诸雨辰.基于深层语言模型的古汉语知识表示及自动断句研究[J].中文信息学报,2021,35(04):8-15.




本文来源:章黄国学

点击文末“阅读原文”可跳转下载



往期推荐

今日一词|Rasch 模型 Rasch Model


重  磅|2021年度汉字,境外多地已公布!


【中文十级测试】我怕不是个“假中国人” ?!


声  音|王立非:服务新发展理念,建设“新文科语言学”


欢迎加入
“语言学心得交流分享群”“语言学考博/考研/保研交流群”


请添加“心得君”入群请备注“学校+专业方向”

今日小编:心得君

审     核:心得君

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

点击“阅读原文”可跳转下载

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存