查看原文
其他

技术应用丨Sketch Engine探索第一弹来袭!

广外 周琳 翻译技术教育与研究
2024-09-09


本文约 3600 字,预计阅读时间 25 分钟

01Sketch Engine 简介
Sketch Engine 是由 Lexical Computing CZ s.r.o. 于 2003 年开发的一个语料库管理和文本分析软件。它的目的是使研究语言行为的人(词典编纂者、语料库语言学研究者、翻译者或语言学习者)能够根据特定动机的查询来搜索大型文本集。帮助大家探索单词在不同语料库中的用法和上下文。其库容十分庞大,现已有高达包含 101 种语言的语料,自带语料库 724 个,最大的语料库 English Web 2020 (enTenTen20) 含365亿字符。在种种强大功能的加持下,Sketch Engine 可以用于各种不同的语言学研究和教学场景,例如语言学习、语言教学、语言翻译、语言对比和语言分析等。

心动了吗,接着看下去吧!
02如何进入?
官网:https://www.sketchengine.eu/
首先可以进入学校的电子资源库看看是否订购了 Sketch Engine,随后通过校园网或者校外访问的方式即可进入。
还可以在登录页面通过搜索自己的学校来进行登录:
如果学校没有订购这个资源,也可申请30天的免费试用:
登录之后,便来到了主界面,通过校园网登陆和个人账户登陆的主界面功能可能会有差异,以下为个人账户界面:

乍一看功能太多不知道如何下手?第一步我们需要选择一个自己中意的语料库,在此处以 French Web 2020 (frTenTen20) 法语语料库为例:

点击 CORPUS INFO 可以查看所选定的语料库详情:

里面显示了该语料库的所有细节,包括其形符数、字符数、句子数、段落数、文档数、词性标注标签、子语料库信息以及更多词汇相关的信息。

03词汇素描板块(Word Sketch)
首先,Sketch Engine的名字来源于它的一个主要功能——词汇素描(Word Sketch):将检索词的语法和搭配行为总结在同一个页面上。

在这个板块,你将会看到一个单词的语言使用情况的完整描述,包括该单词在语料库中的频率、常用的语法结构、词性和上下文等信息。这些信息可以帮助我们了解一个单词在不同上下文中的用法和含义。
在词汇素描页面的查询栏中输入 maintenir 这个词目(lemma),可以得出该词在对应语料库中所有的语法和搭配信息,词目(lemma)就是单词的基本形式,而在搜索结果中囊括了该单词的所有变形形式,例如以 go 为例,会得到包含 goes、went、going 等形式的结果。此处,从图中可以看到搜索结果有 152 万余条,为了使得搜索结果的呈现更加直观清晰,我们可以调整展示视角(Change view options)以显示词频(Show frequencies)。除了词频之外,此处还可以设置是否显示搭配案例(Show collocation examples)、关联度(Show scores)和文本类型(Show text types),也可以指定排序条件。

当选中 Combine grammatical relations 时会将所有搭配类型合并,以词频或者关联度高低整体排序:

如果选定另外一个 Cluster similar items(类似项词丛),则会根据我们设定的值聚合意义相近的搭配项目,当设定的值越接近 0,堆在一起的词丛就会越多,其覆盖的意义范围也就越大,词和词之间的关联会越松散;相反,当设定值接近1时,聚合在一起的词丛就会越少,丛内的词语意思也会相对更加接近。

当我们不勾选这两个选项时,就会得到了围绕这个 maintenir 动词多列展示,这也是最常规的操作:

按照展示结果依次是:和 maintenir 搭配的宾语、主语、副词、代词、动词不定式、介词、并列使用的动词以及一些常用案例。根据其出现频率,我们可以了解到这个动词置于不同于语境下的各类高频搭配,以此为据可以判断自己的用词是否地道。值得注意的是,有些分类是需要进一步筛选甄别的,如果对某一个条目感兴趣或者有疑问,可以直接点击 Concordance 或者条例数 277 来查看所选中的语料详情:

上图展示的是 sentence 模式,例句会以换行形式出现,也可以选择上下文关键词模式(keyword-in-context, KWIC)来对例句结果以字母顺序进行排序。(这一部分和AntConc 的功能类似。)

如果想查看语料出处,可以点击左边的来源信息,找到其 URL,即网页链接进入查看全文,我们,此番溯源能帮助我们评估语料的质量。

大家可以注意到,每一个条目右边有一个的图案,点击后会显示搜索结果的属性条目统计,例如,当我们点击抓取年份(Crawl year)的时候,可以了解到,在当前的277 条数据中,有 149 条数据抓取于 2020 年,97 条抓取于 2021 年。所有属性都可以这样进行统计聚合。

回到词汇素描(Word Sketch)主界面,让我们一起来探究一下右上角的这些功能选项:

第一个是更改检索规则 Change criteria,有四个选项,第一个就是最基础的单个词目搜索,第二个是进阶搜索,第三个是搭配表单,最后一个则是对此功能板块的一个介绍演示。
进阶搜索有四项可以改变的参数,以便进行更加精准的搜索:

1 - 指定词性;
2 - 指定子语料库(在父语料库信息详情中可见);
3 - 指定最小的语料关联度和词频数(低于设定值的搭配将不会被显示);
4 - 指定另一个语料库后,输入指定词目进行词汇素描,两个词的检索结果会并列展示,如图为法语和英语中对于“维持”这个单词的部分搜索结果展示:

如果将上图的英语语料库替换成中文,由于中法两种语言之间的语法关联对应尚未建立,排列结果则会是分散的。

第三项是搭配表单,在此处除了指定一些基本参数之外,还可以设置一个语料库作为参照进行搜索,搜索条件可以设置为“以X开头”、“以X结尾”、“包含X”以及运用正则表达式,并且可以设置多个条件限定。

在下图中,我指定了以 er 开头的单词,检索结果如下:

其结果并不是单纯的以 er 开头的单词的词频统计,而是所有符合条件单词的搭配统计,例如对于 French Web 2020 (frTenTen20) 语料库来说,最多的搭配是和定冠词的搭配,也就是 l’erreur,这并不是一种严格意义上的语法搭配,所以在采用检索结果时要进行甄别。

而对于参照语料库 Europarl spoken parallel- French 来说,最高频出现的搭配是 faire erreur:

通过不同语料库之间的搭配对照我们可以发现很多有趣的语言现象。
第二个是下载图标,可以导出当前的搜索结果,有不同的格式可以选择,对搞研究的小伙伴们很友好,不用再苦哈哈地截图了。

第三个调整展示视角已在前面部分进行了介绍,此处不再赘述。
第四个是结果筛选,当我们确定一个搜索词目后,可以在结果中再次指定单词进行过滤。当我们不确定自己使用的搭配是否准确时,可以利用此筛选功能进行校验,如果搜出的语料较丰富,就可以放心使用了,同时也可以根据此结果来拓展自己的表述方式,积累更多表达。

此功能还支持拓展探索更多的近义词表述,以丰富内容,避免重复,但同时也需要注意其结果不一定都准确,需要自己进一步筛选。当此处数值设置得越大,所得的词与设定的关键词关联性就越小。

第四个是当前搜索条件的细节展示,如图表明我们目前搜索展示的是 maintenir 这个动词的结果,在实际体验过程中并没有太大用处:

第五个板块是数据的可视化功能,如图所示,可以看到刚才的多列搭配信息被聚合到了一张饼图上,我们可以设置饼图的参数,例如在上面显示搭配词语数量的多少,选用哪些搭配关系,生成的图片可以进行下载:

下图为饼图的局部说明,以 shop 的搜索结果为例:

➊ 搭配离圆心的距离代表了其典型性程度。例如:repair shop比antique shop更具典型性;
➋ 圆圈大小代表了该搭配的频率。例如:gift shop比bike shop更高频;
➌ 圆圈的颜色表示它们所属的语法关系(主语、宾语、修饰成分等);
➍ 饼图上每个部分大小表示搜索结果中不同语法关系之间的比例大小。

以上就是对 Sketch Engine 第一个板块的探索啦,剩余的板块敬请期待!
END
参考资料:
葛晓华.Sketch Engine的核心功能和应用前景[J].外语电化教学,2017(04):23-30.
https://www.sketchengine.eu/
https://en.wikipedia.org/wiki/Sketch_Engine
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

原创编辑:周琳

审核:Ethan  李莹  濮雪姣  邢薇

资讯推荐


#LancsBox:语料库研究者的必备工具



▶ 技术与工具国内外常见语料工具一览国内外常见术语管理工具翻译必备术语库和语料库合集(附网址)翻译必备的计算机翻译辅助软件(附网址)AntConc:实用的本地语料库检索工具
TREX:有海量例句、丰富语料的在线词典Netspeak:一款免费的单词搭配检索工具WantWords反向词典,内含开发团队公开文档Cymo Booth:同声传译员的专属虚拟同传间
MateCat:一款免费的在线CAT工具Visuwords:可视化在线词典,帮你一键构造记忆宫殿
Linggle:语料+搭配检索工具(实操演示)
Ludwig: 地道英文写作辅助神器,告别中式英语
Reverso:辅助写作与翻译神器
▶ 专访王华树:机器翻译将要取代人工翻译吗?崔启亮:机器翻译对语言服务企业有多大作用?韩林涛:文科生如何学习机器翻译?魏勇鹏:机器翻译质量评估为什么重要?徐彬:熟练掌握翻译技术,就能做出漂亮的活儿曹首光:如何打造一款受欢迎的机器翻译产品? 李梅:机器翻译对未来翻译教育有何影响?
周兴华:高校翻译教师如何学习翻译技术?丁丽:译后编辑人员与译者身份是否对等?王巍巍:疫情背景下远程口译的挑战和应对
卢家辉、陈晨:口译员在远程口译中面临的主要问题
▶ 实践答疑一文读懂本地化如何批量重命名文件?
同是谷歌翻译,为何结果不同?
只需1分钟,快速制作双语对照文本
翻译语料库建设项目前期需要准备什么?
如何处理中文出版物中夹用的英文?如何高效地将机器翻译结果进行译后编辑?如何进入全球顶尖翻译大厂:谈谈简历投递雷区过来人谈如何找翻译实习和工作

▶ 行业洞察2021年语言服务行业回顾与展望
2022年全球百强语言服务商榜单2022年翻译行业将迎来哪些新变化后疫情时代,语言服务行业如何发展转型?何钦:中国电影对外译介的现状与思考冯志伟:关于机器翻译行业发展的三点建议张霄军:伦理视角下,机器翻译的能与不能黄友义:如何突破中外文化差异,让世界更了解中国?
▶ 教育创新李长栓:MTI论文千篇一律,如何破局?王华树 刘世界:新文科背景下翻译技术核心课程教学模式探索
王华树 刘世界:人工智能时代翻译技术转向研究曹达钦 戴钰涵:人工智能时代高校翻译技术实践环境建设研究
李梅:如何给“技术小白” 开设计算机辅助翻译课程?实践导向的MTI人才培养模式——以对外经济贸易大学为例数字化口译教学资源建设:欧洲经验与启示
如何将翻译项目管理模式应用到CAT教学课堂中?

继续滑动看下一个
翻译技术教育与研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存