查看原文
其他

技术应用 | 语料库探索之语料对齐及分词赋码

张雨农 邓新元 语言服务行业
2024-09-09


语料对齐与转换

语料对齐-Abbyy Aligner以常见的中英文双语演讲为例,如何将一篇中文语料和一篇英文语料合并为一份中英文对照的语料?我们先处理中文部分,随后英文部分的操作方式一模一样,只需将流程重复一遍即可。


先将内容复制粘贴进入一个txt文件,


之后再从txt内复制粘贴进入word文档,这样可以清除网页文字本身的格式。


但当前仍有大量空行,严重阻碍我们使用语料。此时有一个小窍门可以去除空行:通过替换^p^p为^p,即可去除空行。若文本较长,可能空行过多,建议点击“全部替换”按钮3次,基本可以确保去除所有空行。


中文语料准备完毕。要想获得英文语料,只需将上述过程重复一遍即可。


至此,准备工作已经完成。打开Abbyy Aligner。


注意软件页面分为左右两栏,左侧为源语言,右侧为目标语言,需要根据实际选择具体语种。此次源语言为中文,故选择Chinese Simplified,目标语言为英语,故选择English.


将先前准备好的中文语料粘贴至左侧栏,英文语料粘贴至右侧栏。


之后点击上方Align按钮即可实现自动对齐。


自动对齐可能出现错误,因此需要人工检查。如图出现空行,观察发现左侧中文多处人名应该并入同一格。选中之后点击上方按钮“Merge”即可。


之后出现多行空白,选中后点击"Delete"删除


校对无误后,点击上方“Export to TMX”即可导出为TMX格式文件。


语料转换-Heartsome Tmx Editor

以上面我们得到的TMX文件为例,使用Heartsome Tmx Editor打开该文件,之后便可以将其转换为其他格式。


点击上方“Convert TMX to”按钮,在弹窗中可以选择目标格式。以下便以docx格式为例。


之后便可以在word文档中打开中英文对照的语料了。


如果感觉表格形式不便使用,也可以转换成每句中英文对照。点击右上角“转换为文本


选择“段落标记”


即可得到逐句中英对照的word文档版


当然,也可以通过AI直接实现word文档之间中英对照的转换


语料库常用标注和检索工具中英分词与赋码

1.CorpusWordParser(中文分词标注、英文分词)

该软件可以在北外语料库语言学的网站上下载。


下载后,打开可以看到该软件对各个词性标注的代码是什么。


将需要分词的文本输入,这是分词之前的文本。


这是分词后的文本,可以看出,该应用将句子拆成了多个字和单词,中间加上了空格。

这是赋码后的文本,之后我们可以根据之前所保存的代码,查看字或词的词性。


2.Treetagger(英文标注)

点击左上角的File即可导入文件,之后点击右侧的Run tagger。即可得到分词与标注后的英文文本。语料检索

可以使用到AntConc软件,该软件可以在AntConc官网进行下载。



需要注意的是,AntConc只能识别txt格式的文件。


1.词频

将2019年政府工作报告导入AntConc,点击Word后,点击下方Start,可以得到该文件的词频,不难看出,stable、economic、reform等词为2019年政府工作报告的重点。


2.搭配

点击Collocate,在左下角输出我们想要查询的单词,即可查看这个词在该文件中出现了那些搭配,右下角的word span也可以用来限定范围,例如5L5R就代表着查询单词前后五个单词的范围内。输入policy,我们可以看到prudent、proactive等搭配。


3.词丛

点击Clusters,在下方输入in,可以检索含有in的短语的出现频率。
声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:532541801@qq.com,我们将及时调整处理。谢谢支持!
【语言服务行业】分享群

群内会定期推送语言服务行业最新动态、活动预告、竞赛通知📝等内容~


欢迎你的加入🥰!



-END-

本文转载自:翻译技术教育与研究
转载编辑:Pickey


关注我们,获取更多资讯!

往期回顾

行业动态1. 行业动态 | 2023年度国家社科基金中华学术外译项目申报公告
2. 行业动态 | 三星高斯问世 与ChatGPT同台竞争
3. 行业动态|第二十届全国科技翻译研讨会成功召开4. 行业动态 | 研究发现大型语言模型极其擅长数据清理!5. 行业动态|微软称ComSL模型在语音翻译方面优于其他模型

行业洞见
  1. 行业洞见 | 赵倩、刘云虹. 克洛德·西蒙在中国的译介与形象生成
  2. 行业动态 | 全球视野下国家战略传播与翻译专业人才培养创新论坛成功举办
  3. 行业洞见 | 李晗佶老师:技术哲学视阈下的翻译技术
  4. 行业观察 | 贾艳芳老师:始于兴趣,长于实践,技术之路常学常新


行业技术
  1. 技术应用 | 语料处理之语料采集与清洗
  2. 技术应用|吊打Sci-hub?ChatGPT推出“文献检索”神级插件!无关键词检索2亿文章!
  3. 技术应用 | 翻译实践中术语库的应用
  4. 技术应用 | 术语库创建与应用
  5. 翻译技术|代码分享——类符形符比

精品课程
  1. 1号通知 | 大语言模型与翻译教育实践创新特训营三亚开班
  2. 新课来袭 | 开启倒计时!AI时代掀起影视字幕翻译的智能革命
  3. 进阶篇 | 从进阶到精通:基于Python的语言数据分析实战



资源干货
  1. 技术科普 | 揭开手写文本识别“最先进”的秘密
  2. 资源干货 | 英语外刊获取途径、网站推荐
  3. ChatGPT | AI外语写作助手,助力高效写作
  4. 双语干货 | 谢锋大使向中美媒体发表讲话
  5. 资源宝库|译者用“典”,多多益善——精选31款在线词典

招聘就业1. 博硕星睿 | 办公室实习助理招聘(北京)
2. 博硕星睿 | 好的平台,“职”等你来3. 译者招募丨英译中,经济学(有署名)4. 招聘快报 | CNBC财经电视台上海分公司招聘发行部助理实习生5. CATTI备考在即,备考实习两不误,硬核语言专业线上实习机会来了!
继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存