查看原文
其他

机器翻译“胡说”系列之八|周兴华

周兴华 机器翻译观察 2022-04-24

编者按:机器翻译“胡说”系列是机器翻译圈的一个“头脑风暴”。在这里,所有关注或从事机器翻译相关产品的朋友可以跨越时空、各抒己见,开放、平等、自由地发表自己对机器翻译应用落地的见解。我们相信,每一则真诚的“胡说”都是珍贵的行业观察。

本期作者为国内知名CAT(计算机辅助翻译)专家,对10款主流CAT软件(国外为主)的机器翻译应用情况作了分析研究,并分享了诸多实用经验。

本期作者:周兴华,鲁东大学外国语学院副教授、烟台译博云天公司CEO

笔者从2011年开始为学院翻译方向本科生和翻译硕士专业学位(MTI)研究生开设《计算机辅助翻译》课,了解和熟悉部分计算机辅助翻译(CAT)软件的功能和使用。因为本次“胡说”的主题是机器翻译,我就简单说说CAT软件中机器翻译(MT)的应用问题。

1. CAT软件都集成了MT引擎,应该找不到没有集成MT引擎的CAT软件,但各CAT软件集成的MT引擎的数量不一。下图是10款CAT软件默认状态下可以使用的MT引擎的数量。(SDL Trados Studio 2019 通过SDL AppStore 和 Tmxmall MT 插件可以增加19个机器翻译引擎,即机器翻译引擎的数量可以达到21个,甚至更多。)

2. 集成的MT引擎,用户都熟悉吗?支持当前项目添加的目标语言吗?或者支持简体中文吗?是免费的还是收费的?收费多少?如何注册申请密钥?国内能用吗?更实际的问题是针对当前项目的原文内容或某个专业领域,哪个MT引擎的译文质量更高?

针对以上问题,用户自己可以到各个MT引擎网站查看使用说明,或是在使用过程中慢慢积累经验,但这显然需要花费不少的时间和精力。而部分CAT软件则提供了相对便捷和人性化的服务,例如:

1)memoQ 为其中的3个引擎(Microsoft MT、Tmxmall MT、Tilde MT)提供了订阅或注册链接。

2)MateCat 为全部12个MT引擎提供了简介和网站链接。

3)Smartcat 将MT引擎分为免费和收费两类,而且可以自动将目标语言添加到适合的免费或收费MT引擎之下。

4)Memsource 在帮助文件中逐一说明了与每个MT引擎连接需要提供的字段信息。在 Memsource 中使用MicrosoftTranslator、Microsoft Translator Hub 或 Microsoft Custom Translator 可以每月免费获得200万字符,不需要注册Microsoft 账户。

最近,Memsource发布了Memsource Translate (Beta) 功能,这是一个一站式机器翻译解决方案,它可以评估不同MT引擎的译文质量并能根据具体语言对自动为项目选择性能最佳MT引擎。该功能目前支持69个语言对,目前只有GoogleTranslate 和 Microsoft Translator 可以使用,后续会增加更多MT引擎,根据账户类型送5万-200万字符的免费流量,如果流量不够可以直接通过 Memsource 购买,也能实时显示剩余的字符量。   

3. MT在具体使用时分为预翻译中的使用和翻译过程中的使用,前者是批量翻译,后者是逐句翻译。为了节省费用,确保翻译质量,MT的应用场景一般都是无翻译记忆库(TM)匹配时提供MT译文,也就是TM+MT的模式。

1)两个小问题:在翻译编辑器界面,MT译文直接插入译文句段还是显示在翻译结果窗口?这个目前已经可以选择,喜好或习惯因人而异;MT译文是否包含标记(Tags),即如何处理标记?这个也已经可以选择。

2)翻译资源除了TM之外,还有术语库(TB),国产雪人CAT软件很早就可以自动替换MT译文中的术语,这样可以大大提高MT译文的质量。

3)SDLTrados Studio 2017推出了“自适应机器翻译” (AdaptiveMT)功能,可以 “自动学习/记住” 译员对机器翻译译文的编辑修改,并能立即应用于之后句段的翻译,不需要事先训练MT引擎。需要说明的是,SDL Trados不是第一个发布AdaptiveMT的公司,Studio也不是唯一一款应用该技术的CAT软件。

4)截止目前,Memsource 发布了2个人工智能技术支持的(AI-powered)新功能:用于预翻译的AI-powered Non-translatables(非译元素)功能和Machine Translation Quality Estimation(机器翻译质量评估,简称MTQE)功能。后者,可以像使用TM匹配一样使用MT翻译,即自动为MT译文计算质量分数,可以预估译后编辑工作量,也能提高译后编辑的效率。

4. 除了 TM+MT、TB+MT、AdaptiveMT、MTQE之外,还有一个MTPE(机器翻译译后编辑)的问题,这涉及到译员、审校人员或译后编辑人员工作量的计算。

1)memoQ 通过 “编辑距离” 计算自动插入的翻译(来自翻译记忆库、语料库、机器翻译)被编辑了多少。

2) SDL Trados Studio 有一个Post-Edit Compare 插件,可以用来统计译后编辑工作量。

3) MateCat 有一个 “Editing Log” (编辑日志) 功能,详细记录了总字数、总编辑时间、每个字词的平均编辑时间、总译后编辑百分比,当然每个句段也记录了对应的数据。

4) Memsource 可以统计TM 的译后编辑量,NT(非译元素)的译后编辑量,MT的译后编辑量。

5. XTM、Smartcat 等通过与TAUS (翻译自动化用户协会) 合作,采用TAUS DQF (动态质量框架) 和其Post-editing 课程进行MT比较和选择、翻译质量监控、译后编辑人员培训等。

 以上是我对CAT软件中机器翻译应用的一点观察和总结。相信神经网络机器翻译(NMT)引擎,尤其是基于高质量语料训练的、分专业领域的、能够自动融入术语,能够接受错误反馈的,不断优化的自定义机器翻译 (Custom Machine Translation, CMT) 引擎,将得到更加广泛的应用。

-End-


【往期精选】

2018机器翻译产品全景图

机器翻译什么时候跟人工翻译一样好

2019机器翻译“胡说”系列之七|蔺伟

2019机器翻译“胡说”系列之六|江伟

2019机器翻译“胡说”系列之四|邹剑宇

2019机器翻译“胡说”系列之四|袁行远

2019机器翻译“胡说”系列之三|李光华

2018机器翻译“胡说”系列之二|娄东来、黄国平、魏勇鹏

2018机器翻译“胡说”系列之一|朱靖波、崔启亮、韦忠和

2019全球语言服务业的一组关键数据

 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存