专家观点||国内60年机器翻译研究探索

王湘玲语言科学 2021-09-20

国内60年机器翻译研究探索——基于外语类核心期刊的分析

摘要：机器翻译近年来受到国内译学界的普遍关注。以CNKI收录的12种外语类核心期刊为数据来源, 以量化统计结合质性分析的方法, 对60年来国内译学界探索机器翻译研究的历程进行了梳理与分析。研究发现: (1) 机器翻译研究总体态势呈四个阶段:1950s的萌芽期, 1960s-1970s的停滞期, 1980s-1990s的缓慢发展期和2000年以后的快速发展期; (2) 研究主题主要含语义研究, 人机翻译质量对比分析和翻译人才培养等; (3) 研究学者之间、学科之间合作亟待加强。该研究为梳理我国译学界探索机器翻译研究的历程提供了参考。关键词：机器翻译；可视化分析；翻译学

作者简介：王湘玲 (1970—) , 女, 湖南衡阳人, 湖南大学外国语学院教授, 博士生导师, 博士。研究方向:翻译学。

一引言

机器翻译 (Machine Translation, MT) 又称自动翻译或计算机翻译, 是涉及词典编纂学、语言学、计算语言学及计算机科学基础的多学科研究领域。自1949年Weaver正式提出机器翻译的概念以来, 不同研究领域的学者对机器翻译提出了不同的定义。Rao认为机器翻译是研究自然语言之间转换的设计系统^[1]。Koehn提出机器翻译是使用计算机自动地将一种语言转化为具有完全等同意义的另一种语言的过程^[2]。以上的定义内容都提到了机器翻译的重要组成部分, 即输入语 (源语) 和输出语 (目标语) , 但均忽略了翻译过程中是否有人工参与的环节。Stiegelbauer从人机交互的角度认为机器翻译是利用先进技术实施没有人工参与的自动翻译^[3]。随着机器翻译技术的不断发展, 机器翻译方法历经了由生成语言学为基础的规则方法向以数据驱动为基础的语料库方法的转变, 机器译文的质量和可读性得到了极大提升与改善。机器翻译质量的大幅提升及全球化发展带来的大量翻译需求使得机器翻译在许多场景中成为辅助或替代人工翻译的有效手段, 机器翻译研究逐渐引起译学界的普遍关注。我国的机器翻译研究始于1956年^[4], 多年来学者们在机器翻译的基础性和应用性研究方面取得了丰硕成果。作为翻译辅助手段之一, 机器翻译深刻影响着翻译学的研究范式, 并成为翻译学研究领域内的重要内容^[5]。近年来, 我国译学界主要从微观角度对国外机器翻译的研究成果作了梳理, 如, 冯全功等提出译后编辑的研究焦点, 包括译后编辑评估研究, 机器翻译错误识别与译后编辑工具研发和译后编辑能力与译后编辑者的培养等话题^[6]。王湘玲等评介分析了2000年以来国外机器翻译译后编辑的研究热点, 含译后编辑过程及产品评估、译后编辑效率影响因素、译后编辑工具与译后编辑者及人才培养,并进一步指出未来发展趋^[7]。国外机器翻译译后编辑研究取得的丰富成果应对国内翻译学界产生积极推动作用。本文拟分析国内翻译学界探索机器翻译研究的整体性历程,旨在为我国机器翻译译后编辑研究提供启示。国内译学界探索机器翻译研究的动态是怎样的?机器翻译在翻译学中的研究热点及趋势如何?本文将对这些问题展开系统分析与讨论, 并借助科学计量分析工具CiteSpace着力分析60年来 (1956-2016) 在外语类核心期刊上发表的有关机器翻译研究的文献, 绘制关键词共现知识图谱, 以量化和可视的方式呈现机器翻译在译学界的研究动态和热点。同时, 本文还结合了近两年的研究发现展望了机器翻译在翻译学研究中的应用及发展趋势。

二数据来源及研究方法

(一) 数据来源及选取依据

本文选取CNKI收录的外语类核心期刊作为数据来源, 这是因为与研究报告、专著、教材和学位论文等文献相比,期刊论文通常可以较快和全面地揭示某一研究领域的前沿和热点。同时,基于本文旨在分析国内译学界对机器翻译研究的探索, 为了保证数据的可靠性和权威性, 选取依据为翻译类专业期刊和外语类设有翻译研究栏目的期刊, 经过初步筛选, 选定《外语研究》《外语电化教学》《外国语》《外语学刊》《外语界》《外语教学与研究》《外语与外语教学》《中国外语》《解放军外国语学院学报》《中国翻译》《中国科技翻译》和《上海翻译》12种刊物。这些刊物均为外语类核心刊物,所刊发的论文质量经过了严格审核把关, 可以在一定程度上代表国内翻译学界对机器翻译研究的探索历程。我国的机器翻译研究始于1956年,在后来的《科学发展纲要》、“六五”“七五”“八五”和“863计划”中机器翻译均被列为重点发展项目^[8]。因此, 我们在登录CNKI平台时, 将时间区间设定为1956-2016年,以分析60年来译学界就机器翻译开展的相关研究, 检索主题词为“机器翻译”, 实施全文检索。随后, 我们对检索到的文献进行数据筛选, 剔除了会议通知、刊发目录、期刊动态、会议简讯、期刊征稿和广告等非论文性信息, 再通过阅读摘要的方式剔除重复性或不相关信息, 最终获取有效文献114篇。

(二) 研究方法

本文采用具有文献识别与可视化图谱呈现功能的软CiteSpace进行文献分析。该软件绘制的科学知识图谱可以显示知识单元或知识群之间的结构、互动、交叉、演化或衍生等诸多隐含的复杂关系, 同时又可以将一个知识领域的演进历程集中展现在引文网络图谱上, 并把图谱上作为知识基础的引文节点文献和共引聚类所表征的演进前沿自动标识出来^[9]。知识图谱作为文献内容可视化的科学计量方法之一,已经成为研究科学共同体结构与发展的主流方法, 并被广泛应用于各学科领域的可视化研究中^[10]。我们将获取的有效文献按照操作程序依次导入CiteSpace III软件平台, 选择时间跨度 (Time Slicing) 为1956-2016, 时间分区 (Year Per Slice) 设定为1年, 主题来源 (Term Source) 选择“Title, Abstract, Author Keywords, Keywords Plus”, 节点类型 (Node Types) 选择“keyword”, 选择标准 (Selection Criteria) 中选择阈值30, 采用最小剪枝法进行剪裁, 最后生成作者知识图谱, 关键词共现和时间轴图谱。

三研究结果与分析

(一) 发文量统计

由图1折线图可见, 我国译学界对机器翻译的研究基本经历了四个阶段, 即20世纪50年代的萌芽期, 20世纪60-70年代的停滞期, 20世纪80-90年代的缓慢发展期和2000年以后的快速发展期。1954年IBM公司与美国乔治城大学合作研发的第一代俄英自动翻译系统公开亮相。1958年中国科学院语言研究所与计算技术研究所研制出我国第一台基于词典和语法规则的俄汉机器翻译系统。1959年北京外国语学院俄语系俄汉机器翻译研究组在《外语教学与研究》上发表“俄汉机器翻译中的语言分析问题”一文^[11]。据统计,这是外语类核心期刊上刊发的第一篇有关机器翻译研究的文章,文中详细阐述了俄汉翻译系统的架构及组成部分。可见, 我国的机器翻译研究起步较早, 几乎与国外研究保持同步。由于第一代翻译系统主要是基于词典词条, 设计较为粗糙和原始, 翻译效果较差。1964年美国政府成立了语言自动处理咨询委员会 (Automatic Language Processing Advisory Committee, ALPAC) 对机器翻译进行了全面的调查分析与测试评价, 并于1966年发布报告全面否定了机器翻译的可行性, 这使得机器翻译研究在随后的数年内陷入了停滞状态^[12]。由图1可见我国的机器翻译研究在20世纪60-70年代也基本上处于停滞不前的状态。80-90年代机器翻译研究逐步得到恢复, 美国, 俄罗斯和日本的研究学者们相继开发出REVERSO, SYSTRAN和ALLAS2等一系列机器翻译系统。与此同时, 我国的机器翻译研究也进入了重要的发展时期, 在1987年和1992年分别研制成功“KY-1” (科译1号) 英汉机译系统和“IMT/EC863”英汉机译系统^[13]。这一时期译学界共发表相关论文29篇。与20世纪60-70年代相比, 80-90年代的发文量有所增加, 但增幅不大。2000年以来, 机器翻译技术快速发展, 以谷歌公司为代表的统计机器翻译系统, 日本京都大学研发的基于实例的MBT1和MBT2翻译系统, 以及我国清华大学和哈尔滨工业大学联合开发的计算机写作和翻译集成的“达雅”系统等得到了广泛应用^[14]。这一期间机器翻译相关研究蓬勃发展, 国内译学界共发表学术文章81篇, 年平均发表量达到5篇左右, 约占到总发文量的70%。

图1 1956-2016年度发文量统计

此外, 我们还对比分析了期刊的发文量以了解各期刊对机器翻译研究的关注度。梳理分析发现刊发机器翻译相关研究的刊物主要为翻译类专业期刊。《中国翻译》和《中国科技翻译》的刊载量达到总统计量的56%, 几乎相当于其它十种期刊的发文量总和。作为综合类外语期刊, 《外语研究》《外国语》和《外语电化教学》发表的有关机器翻译研究的论文分别占总发表量的10%, 6%和5%, 刊发量紧随《中国翻译》与《中国科技翻译》, 如图2所示。

(二) 作者知识图谱

作者知识图谱有助于了解某一学科领域内作者群之间的合作关系及核心研究群体。由CiteSpace III生成的作者知识图谱 (图3) 中共包含节点138个, 每一节点代表一位研究者, 节点间的连线表示存在合作关系。节点越大, 作者的影响力越大。由图3可见, 冯志伟、张政、黄人杰、吴康迪、冯全功和崔启亮等人的节点较大, 表明这些作者在推动国内机器翻译研究和发展上做出了重要贡献。不过, 图3中各节点分布较为分散, 之间连线较少, 说明学者之间的合作研究还较少。学者之间, 以及学界与行业界之间尚需进一步加强合作交流, 以促进机器翻译研究的跨学科发展, 推动科研成果的增长和创新。

(三) 关键词共现知识图谱

关键词既体现研究主题, 又高度概括了研究内容, 分析论文关键词可了解该领域的研究热点^[15]。关键词知识图谱中每个节点代表一个关键词, 节点大小与该关键词的出现频次成正比。关键词出现频次越多, 节点越大, 反之则越小。关键词节点之间的连线表示关键词之间的共现关系, 连线越粗表明关键词共现频次越高。图4展示了1956-2016年来国内翻译学界探索机器翻译研究的热点, 以“机器翻译”这个最大节点为中心构成一个基于高频关键词的共现网络知识图谱。图中出现频次较多的关键词依次是“机器翻译”“机器翻译研究”“译后编辑”“计算语言学”“语料库”“译文质量”“自然语言处理”“统计机器翻译”“句法分析”“科技翻译”“翻译系统”“翻译技术”和“翻译记忆”等。这些关键词代表了1956-2016年间国内翻译学界普遍关心的核心话题, 见表1。

表1 频次前20的关键词与中心度

序号	关键词	频次	中心度	序号	关键词	频次	中心度
1	机器翻译	47	0.75	11	科技翻译	4	0.12
2	译后编辑	8	0.07	12	机器翻译系统	3	0.12
3	机器翻译研究	6	0.19	13	翻译软件	3	0.01
4	译文质量	5	0.18	14	语义分析	3	0.24
5	句法分析	5	0.15	15	翻译记忆	3	0.23
6	翻译系统	5	0.14	16	翻译工具	3	0.23
7	机器词典	4	0.30	17	翻译质量	3	0.04
8	翻译技术	4	0.19	18	计算机辅助翻译	3	0.03
9	计算语言学	4	0.02	19	统计机器翻译	3	0.09
10	翻译人员	4	0.09	20	语料库	2	0.02

关键词频次和中心度是用来探测某一知识领域研究热点的重要指标^[16]。中心度值反映了关键词在整个网络中作为媒介的能力, 即占据其它两个节点之间最短路径的能力, 如果没有这个节点, 其它两个节点就无法交流。因此, 中心度在整个网络中具有战略性的中介作用, 一个关键词的中心度越高, 意味着它控制的关键词之间的信息流越多^[17]。结合关键词的中心度和关键词知识图谱, 我们发现机器翻译相关研究主要集中在:机器翻译方法, 机器翻译工具和机器翻译质量评估等方面。CiteSpace生成的科学知识图谱不仅通过节点大小向我们形象地展示了关键词的受关注度, 同时每个节点由多个年轮构成, 年轮 (时间分区) 对应该关键词出现的时间, 由内到外, 年轮对应的时间由远及近。为了进一步明确每个时间段范围内的研究热点, 我们还绘制了关键词时间轴图谱, 见图5。

图5 机器翻译研究关键词时间轴图谱

由图5可知, 20世纪50年代的机器翻译相关研究主要以语言分析为代表, 80年代逐渐转向以句法分析为主, 期间主要探讨机器翻译系统和机器词典的研制与开发。90年代人机翻译质量的对比研究得以关注。2000年以后,机器翻译研究转向翻译工具, 译后编辑和翻译人才培养等方面。由此可见, 机器翻译研究的维度不断扩大。自20世纪60年代起, 语言学家逐渐认识到要真正了解语言的本质和功能, 语言发展的规律, 以及语言与思维和行为的联系, 必须深入研究语言的语义^[18]。因此, 70-80年代的研究主要集中在机器翻译系统中的句法语义方面。王德春指出70年代世界各国的语言学流派都十分重视语义学的研究, 小至微观层次的义素分析, 大至宏观结构的话语意义分析^[19]。80年代的计算机自动分析语义模式促进了机器翻译和人机对话的发展。这种讲究客观, 注重源语文本意义, 追求准确性的思想为当时的机器翻译发展提供了理论上的指导。同时, 语义研究的探索与深化也为后期机器翻译方法的改进提供了扎实的理论基础与实践参考。90年代的研究重心逐渐转向机器翻译与人工翻译质量的比较。潘幼博^[20]首先提出了人工翻译是否会被机器翻译所替代的问题, 他认为机器翻译适用于科技资料的翻译, 但当时投放市场的机器翻译系统或机辅翻译系统的翻译质量仍是极不理想的, 需要经过译前预处理, 译中人工参与和译后错误修正三道工序, 其中译后工作量最大。这一观点得到许多学者的认同, 诸如, 许建平^[21]认为机器翻译的前景并不像大多数人想象的那么乐观, 机译的可读性和准确率较低, 对词性、词义的识别能力较差, 常常产生误译和漏译等现象。吴康迪提出一个完善的机器翻译系统应该有原文自动读入、校对、译前编辑、翻译帮助、正式翻译、拼写检查、语法检查和排版等环节^[22]。机器翻译可以提高句式简单和专业术语较多的文本翻译效率, 但其译文质量与人工翻译质量相比仍存在较大的差距。由90年代的研究可见, 人们以较为客观的态度看待机器翻译与人工翻译之间的关系, 认识到机器翻译的弊端与不足。基于机器翻译效果的不尽人意, 在发展机器翻译技术的同时, 如何辅以人工进一步提升机器译文的质量成为值得关注的话题。2000年以来学者们开始寻求提升机器翻译质量的方式和手段。译后编辑 (Post Editing, PE) 是普遍认可的用于提升机器翻译质量的主要方式。译后编辑指通过人工评审和编辑以提高译文质量和适用性的过程。翻译题材的多元化, 用户要求的多样性及翻译效率和翻译质量的高要求决定了译后编辑的必要性和编辑程度^[23]。有关译后编辑的前期研究多集中在译后编辑工具的设计开发和译后编辑的自动化处理技术等方面^[24]。近年来, 随着机器翻译技术的进一步发展, 译后编辑能力逐渐成为翻译学研究领域内的新话题。冯全功等^[25]曾提出包含认知维度、知识维度和技能维度的译后编辑能力三维模型。但机器翻译译后编辑能力的具体内涵是什么, 目前国内尚无定论。译后编辑与人工翻译相比, 是否存在优势也是学界关心的话题。卢植等采用眼动实验对比了高、低水平译者在对不同文本进行人工翻译和译后编辑时的认知加工情况。研究发现译后编辑明显快于人工翻译, 提高了翻译效率, 减少了译者在原文理解及译文生成过程中的认知努力^[26], 尽管如此, 当前将译后编辑应用于翻译实践的实证性研究仍然较少。此外, 与机器翻译相关的翻译记忆 (Translation Memory) 也引起了学者们的关注。翻译记忆是利用计算机程序部分参与翻译过程的一种翻译策略, 不过该技术只是协助译者翻译, 还无法像机器翻译自动地全部或部分地将源语转化为目的语^[27]。目前很多教学管理单位和翻译类公司采用的机辅翻译系统如Trados, Déjà vu 和MemoQ等都广泛采用了翻译记忆技术。将机器翻译, 翻译记忆与译后编辑相结合是提高翻译效率, 降低劳动强度和翻译成本的有效措施^[28]。2016年谷歌发布了基于神经网络的机器翻译系统 (Neural Machine Translation, NMT) , 机器翻译质量得到了大幅提升。赵硕以Systran PNMT为例, 分析了基于神经网络的机器翻译质量与传统机器翻译质量相比较的优势, 并进一步阐明与认知结合的翻译技术对翻译实践的辅助作用^[29]。与此同时,由于翻译技术的飞速发展在一定程度上削弱了译者的主体性地位,如何理性看待技术工具也引起了部分学者的关注。李彦等呼吁要突出“人”在翻译过程中的主体地位和作用, 彰显技术的“人文性”^[30]。翻译技术的突飞猛进使得翻译技术在翻译人才培养中的重要性逐渐得到认可,崔维霞等^[31]从培养目标、教学体系、教学模式、师资和资源建设等方面提出了翻译硕士人才培养的建议。“机器翻译+机辅工具+译后编辑”的模式已成为普遍认可的做法^[32]。因此,在传统翻译教学中植入翻译技术类课程是翻译教学研究不可回避的任务。然而, 当前的翻译教学仍面临着翻译技术教学意识薄弱、课程体系缺失、教学资源匮乏和专业师资欠缺等问题^[33],机器翻译在翻译教学中的应用仍然任重而道远。

四结束语

本文采用科学知识图谱软件CiteSpace对国内12种外语类核心期刊60年间发表的有关机器翻译的研究论文进行了梳理与分析, 绘制出机器研究的关键词共现知识图谱。研究发现国内译学界对机器翻译研究的态势总体呈现为1950s的萌芽期,1960s -1970s的停滞期, 1980s-1990s的缓慢发展期和2000年以后的快速发展期。研究的阶段性态势主要与机器翻译技术的阶段性发展相关, 技术的发展已经深刻影响到传统翻译学的研究内容。从核心作者群来看, 尽管国内译学界已形成一批有影响力的研究人员, 但学者之间的合作研究还较少, 学科间的合作交流尚需进一步加强。在研究主题演变上,随着机器翻译技术的不断发展, 机器翻译研究主题历经了语义研究, 人机翻译质量对比分析和译后编辑等。机器翻译技术的不断发展促发了学者们对机器翻译在翻译教学中应用的思考, 诸如机器翻译背景下的翻译教学模式, 翻译能力和翻译人才培养研究等。该研究通过系统梳理我国译学界60年间在机器翻译研究上取得的丰硕成果及研究主题的演进过程, 可在一定程度上体现了我国译学界学者在机器翻译及其相关研究中的探索历程。尽管机器翻译技术取得了长足发展, 机器翻译质量得到了大幅提升, 但是与人工翻译质量相比, 机器译文质量尚存在较大差距, 机器翻译还面临着许多挑战与问题。本文也存在一些不足并将在后续研究中予以完善。首先,文章旨在分析国内译学界对机器翻译及其相关的研究探索,以列举的12种外语类核心期刊作为文献数据的主要来源,未有囊括国内学者发表在国际翻译学期刊或国内非外语类期刊上的研究数据, 如涉及机器翻译研究的计算机类期刊等,数据分析难免挂一漏万, 对研究动态的理解存在局限性。其次, 文章未与同期的国外机器翻译研究文献进行对比分析,研究热点及趋势的差异性对比体现不明显。因此,我们将在后续的研究中进一步扩大文献数据来源, 包括计算机类期刊和国际翻译学期刊等, 通过不同学科间和国内外研究文献的横纵向对比分析进一步探寻机器翻译研究的发展和应用趋势。

本文来源：《湖南大学学报》

延伸阅读

面向“一带一路”的我国翻译规划研究:内容与框架

人工智能翻译与“世界文学”

AI时代，高校翻译专业会消亡吗？

国内外翻译研究热点与趋势 —基于译学核心期刊的知识图谱分析

语言科学公号

邀您加入语言科学微信群