人工翻译和机器翻译译后编辑的比较研究


2019-07-23 09:20:39

翻译



人类语言学家(PEMT)后期编辑的机器翻译输出与从零开始的翻译有何不同;也就是说,翻译没有计算机生成的初稿的帮助或干扰?
 
进入神经机器翻译时代已经三年了,作为语言产业的一个重要部分,已经过渡到了一个仅编辑后的世界,这是一个需要探索的高度相关的问题。
 
格罗宁根大学助理教授安东尼奥·托拉尔在2019年7月1日发表的一篇题为《后编辑腔:恶化的翻译腔》的论文中说,他的“当前研究可以作为寻找后编辑腔证据的框架。”
 
 
“我早在2014年就对文学文本(小说)的机器辅助翻译感兴趣,”托拉尔告诉斯莱特。“我以前曾用专业的文学翻译进行过后期编辑实验,结果在生产率方面是积极的。然而,我注意到在那种特殊的文本类型中,阅读体验非常重要。因此,我对分析人类翻译和编辑后的翻译感兴趣。这篇论文是我第一次尝试。”
 
 
斯莱特2019年语言产业市场报告
数据和研究
33页。总市场规模、关键垂直行业、服务和技术前景、细分市场份额、M&A和前景。
在这篇论文中,托拉尔进行了一系列计算分析,他将“在涵盖五个翻译方向的三个不同数据集上的对等与对等与解决不同翻译共性和翻译规律的措施进行了比较:简化、标准化和干扰”
 
托拉尔发现PEMT的词汇多样性和词汇密度较低。此外,他发现PEMT的句子长度更接近原文。就词性序列而言,PEMT也比超线程更像原版。
 
托拉尔对这个问题的兴趣出现在文学翻译的背景下,这并不是巧合,文学翻译处在要求译者自由的文本类型范围的外部边缘。虽然神经机器翻译在产生流畅的输出方面已经取得了很大的进步,但计算机仍然缺乏以人类能够创造的方式重写、添加、组合或移除的能力。
 
与独立的人类翻译相比,我们证明了编辑后的翻译更简单、更规范,并且受到源语言的更多干扰。后期编辑会对目标语言产生负面影响吗?如果是这样,我们应该关心吗?1/2—安东尼奥·托拉尔(@ _托拉尔)2019年7月2日
简而言之,PEMT所展示的生产率提高是以产生一种翻译为代价的,根据该论文,“这种翻译更简单、更正常,并且受到源语言的干扰程度也比超线程更高。”
 
当被问及在回顾他的研究时要记住的潜在限制时,托拉尔评论道:“一个问题是,我使用的度量标准相当简单,而且只在表面水平上有效。我还不能说使用更面向语言的特征(例如,使用句法信息)的分析是否会导致同样的结果。另一个问题是数据集相当小;我希望有了这些结果,我将能够说服业界人士使用更大的数据集。”