亚马逊希望进一步自动化字幕翻译中的质量检查


2021-04-09 09:30:45



视频翻译

在数字娱乐领域运营的公司已经提出了一些有趣的创新,以降低生产成本。他们关注的领域之一是配音,它具有巨大的潜力,可以提高Netflix,HBO和Amazon Prime等流媒体平台的市场份额。
在这些创新中,Synthesia的口型同步配音技术和Papercup的合成配音工具在最近的记忆中脱颖而出。当然,也有字幕-这是亚马逊研究人员于2021年4月1日发表的论文的用例。
 
由Prabhakar Gupta,Ridha Juneja,Anil Nelakanti和Tamojit Chatterjee撰写的“检测翻译过度/翻译不足[OT / UT]错误以确定人类翻译的适当性”提出了一种在翻译字幕质量评估过程中标记错误的新方法。
 
该小组的研究不仅限于机器翻译(MT)输出,还专门针对具有翻译字幕的专业翻译实例。他们说:“我们系统的目标是从人工翻译的视频字幕中识别出OT / UT错误,并具有较高的查全率。”
 
此外,根据作者的说法,他们的模型能够“无需访问参考翻译”就能检测到人类翻译中的OT / UT,也就是说,他们在合成数据上训练了该模型。研究人员补充说,这种“综合引入的错误”数据集表现良好,“在8种语言的高质量人工注释评估数据上,其准确性达到89.3%”。
研究人员将翻译质量定义为“捕获了翻译的流利度和相对于来源的充分性”,还提出了通过尽早发现错误来降低生产成本的可能性。
 
他们写道:“翻译后的字幕通常需要进行人工质量检查,其成本与获取翻译一样昂贵[...]为减少后期编辑质量检查的成本,我们可以在输入翻译时以QE作为护栏来标记错误。”
 
他们将该系统与动态标记拼写或语法错误的应用程序进行了比较。当然,作者描述的翻译技术并不是什么新鲜事物(请参阅:通过Lilt进行预测性/自适应机器翻译)。但是,并非所有MT质量检查都是一样的,例如,翻译的市场营销副本对于字幕来说可能是不可接受的。
作者指出:“对于视频字幕[…],翻译在语言上可能是不完整的,在后期编辑期间是可以接受的。” “这是由于事实要求字幕必须遵循一系列技术限制,从而限制了翻译中单词的选择和数量。”
 
他们举了一个例子(“公园里有一棵绿树”被翻译成“公园里绿树”),通过了质量检查,因为观众会理解上下文。
 
亚马逊研究人员得出的结论是,他们仍计划通过“通过与人类翻译者的紧密结合来改善错误模式”,并将错误限制在句子中的标记上,而不是标记整个句子,从而继续研究模型。