查看原文
其他

曹首光:从译员到开发者,我对机器翻译的几点思考丨译界前沿

曹首光 舜禹环球通Transphere
2024-09-09

思想是一切的答案,

我们是奔赴未知的探索者。


🖊

译界前沿/第二期

不惮细碎、踮起脚尖、贤者云集——舜禹有幸邀请到了业内不同身份的人物,将他们的思考付诸文字。


希望这里能够成为连接语言人的一方仰望星空之地,立足前沿并保持深度,包容并蓄且去伪存真。我们在此驻足,聆听君子之声,擦拭初心,而后整顿前行。


往期链接:

韩林涛:译员可以在人机共融时代有更好的发展

韩林涛:如何写出既符合学术规范又满足企业所需的MTI论文?


◁ 曹首光


自由译员,广受欢迎的机译应用GT4T开发者,ProZ.com 第四届翻译大赛英汉对冠军获得者。


自2009年起开始从事机器翻译辅助机译应用的开发,2020年创建海口吉第福第科技有限公司,继续专注于走完机器翻译的最后一公里,使机器翻译更加易用。


受舜禹翻译技术部经理王璐的邀请,曹首光老师就机器翻译相关问题分享了一些思考。


王璐:

机器翻译等技术,以哪些方式、何种程度改变了译员的工作方式?


曹首光:

对于译员来说,机器翻译首先是个工具,它可以提高翻译速度,为译员提供翻译灵感,提高翻译质量。随着机器翻译质量越来越高,会有更多的翻译工作改为译后编辑工作。

▲图片来源:Intento《机器翻译状况2020年》


翻译技术的变革也使客户对翻译质量和速度需求更加宽泛。以前译员和翻译公司不会去接例如10万词、两小时内交稿的项目。现在有了机器翻译,接这种项目就有了可能。


据ProZ.com 2019年的报告,有73%的译员使用机器翻译。看来目前使用机器翻译的译员占大多数。但我不认为不使用机器翻译的译员就一定会被淘汰。我就认识一些既不用翻译记忆工具,又不用机器翻译的新老译员。



很多翻译公司不让译员使用机译,很可能是担心存在质量问题。正常情况下对于一个高水平且认真的译员,机器翻译作为参考工具,只会使翻译质量更高。不过,译员使用机译也容易产生依赖,容易成瘾。很多译员都和我说,现在不用GT4T,就不会翻译了。我自己的经历也是这样,自从用了机译,几乎翻译每句都要参考下机译,已经成了习惯。机器翻译会对译员的思路和构思造成干扰,减少译员创作的快乐,译员对自己的翻译文字也少了些亲近感。


王璐:

机器翻译的不足,如无法实现篇章级翻译、不能融入外部知识等,在可见的未来是否能获得突破?如果不能,有什么工具或依循什么路径可以部分解决这些问题?


曹首光:

目前机器翻译的系统性问题存在以下几个方面:

1)  尚未实现篇章级翻译。例如翻译阿凡提故事时,该用过去时的句子用了现在时。

2)  尚不能根据常识和外部知识来智能调整译文。

3)  术语难以保持一致。

4)  某些特定语言的格式及一致性问题。例如在汉语中混杂数字和英文时是否需要用空格将其与汉字隔开;日语韩语译文是否使用敬语等等。

5)  原文中含有xml标签时严重影响质量。

6)  翻译记忆与机器翻译相结合难题。



我认为机器翻译仍处于非常初级的阶段。在可见的未来第1条和第2条应能取得突破性进展。目前有些AI框架是开源的,谁都可以用。但每家机译厂商都有自己的模型和处理外挂来应对各种难题。我既是译员,又是软件工程师,对机器翻译的痛点非常了解。GT4T本质上就是一个机译外挂,我们用软件工程的方式对原文和机译返回的译文进行处理以解决一些机译的痛点。目前我们在第3 和4个问题方面做了很多工作,用户可以使用自己的术语表来干预任意机译,也可以设定机译输出的日语译文使用简体。


但是使用外挂术语表干预机译是会影响机译质量的。这些问题最终还是要在算法和模型层面上去解决。各机译厂商对以上问题的关注度各有不同。据我所知,火山翻译团队已在篇章级翻译方面开发出了新算法并开源。火山团队的王明轩说:“基本上段落翻译至少能把时态错误降低一半。”对于xml标签问题,DeepL已宣称可完美处理xml标签并不影响翻译质量;国内的腾讯TranSmart团队也做了很多的努力。


王璐:

语言服务行业和终端用户对机器翻译的要求有什么不同?


曹首光:

机器翻译产品的用户有两种,一是译员和翻译公司,二是需要翻译服务的终端个人用户和企业用户。对于译员和翻译公司,机器翻译就是个悖论,一方面机器翻译提高了效率,另一方面则是机器翻译在一定程度上代替了人工翻译,终端用户可能不使用人工翻译服务,而直接使用机器翻译。


作为提高译员效率的工具,机器翻译工具应能提供:

1)高适用性:个人译员需要处理各种格式的文件,翻译时所用的软件五花八门,机器翻译工具应在任何窗口下可用,在任何软件里都能随时方便地为用户提供翻译参考; 

2)灵活性:作为参考工具,译员很多时候并不需要机器翻译提供整个句子或整个段落的机器翻译。有时候译员仅需要机译翻译一个单词,一个短语或一个从句;

3)多选项:目前大多数机器翻译对于一个原文,仅提供一个译文。但译员有时需要多个参考译文,以获得翻译灵感。



翻译公司则更关注工作流程和成本。从这个角度上看,Trados等翻译记忆工具则更像一个专门为翻译公司设计的翻译工具。按照翻译公司的项目管理流程,如预处理、翻译、校对等,Trados都提供了相应的工具。随着远程办公的需要,各翻译记忆工具也都推出了云端工具。网页版的CAT也开始流行,但网页版的CAT在国内外都受到部分译员的抵制,问题主要出在网络不稳定和网络延迟上。个人认为基于云端的客户端型翻译记忆工具最为实用,译员翻译时从云端下载到本地工作,工作结束后同步到云上推到下一流程。这样就兼顾了云办公的需求和网络延迟问题。


目前的机器翻译质量已经达到实用的水平。各自动翻译网站大都提供了网页版的文件翻译工具,它们的目标用户是需要翻译服务的终端个人用户和企业。对于终端用户,翻译质量和便捷性是最重要的,所以翻译工具要支持尽量多的文件格式。网页版的文件翻译工具的问题在于:

1)需要上传下载,批量翻译时很不方便;

2)有文件大小限制;所有用户的文件需要上传到服务器上,经常需要排队等待;

3)文件上传到了服务器上,并可能再分发到不同的机器翻译服务器上,存在泄密风险。

而客户端型文件翻译器则没有这些问题,文件解析和生成过程均使用用户自己的计算机,无需上传下载,无文件大小限制,可批量翻译,文件中的文字内容仅发送给所选自动翻译服务器,不会发送给第三方。


终端企业用户和个人用户的区别是企业对费用较不敏感。我知道某机器翻译供应商经多次试错后,改变打法,专做英汉汉英医疗引擎,做到了业界最好,将机译价格提高了60倍后专门卖给企业,成功转型。


王璐:

目前机器翻译相较人类译员处于什么水平?

 

曹首光:

ProZ.com 每年都进行一次翻译竞赛,参赛译文由全站译员匿名评判。自2009年起,官方都会提供一份机器翻译的译文,混在参赛译文中。前几年机器翻译译文会很快被人认出,官方屡屡收到举报,说有人拿机器翻译译文参赛。十年后,到了2019年,机器翻译译文不仅没那么容易被认出,还在多个语言对获得了不错的成绩。例如在英语到西班牙语言对,机器翻译还获得了第12名的好成绩!虽然没能获得冠军,但已超过人类译员的平均成绩。


我有信心,在不久的将来,主要语言对的机器翻译质量整体上将会全面超过人类译员的平均水平。语言服务行业从业人员应该正视这个挑战,紧跟技术发展,善用技术,发掘人类译员在知识、情感等机器尚未攻克的难点上的长处,才能立于不败之地。


文章风格,不负开放素简;实务思考,尽显随性真诚。

投稿事宜欢迎联系通通酱(微信号:SYHQT6)邮件至:lynn.yang@transphere.com,烦请注明投稿


继续滑动看下一个
舜禹环球通Transphere
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存