谷歌大规模多语言神经机器翻译有什么大不了的?


2019-07-30 08:16:34



机器翻译


谷歌的人工智能团队最近发布了一篇关于神经机器翻译的新研究论文,该论文已经酝酿了五年。该研究论文题为“野外大规模多语言神经机器翻译:发现与挑战”,发表于2019年7月11日。
 
它是由谷歌人工智能团队的一组研究人员撰写的:纳文·阿里瓦扎根(Naveen Arivazhagan)、安库尔·巴普纳(Ankur Bapna)、奥尔罕·菲拉特(Orhan Firat)、德米特里·莱皮钦(Dmitry Lepikhin)、梅尔文·约翰逊(Melvin Johnson)、马克西姆·克里昆(Maxim Krikun)、米娅·徐晨(Mia Xu Chen)、曹苑、乔治·福斯特、科林·切里
 
大规模多语言神经机器翻译(NMT)的概念并不新鲜,该论文建立在现有研究的基础上,例如卡耐基梅隆大学的工作以及巴伊兰大学和谷歌人工智能的研究人员撰写的另一篇论文。多语言NMT系统不同于其他最先进的系统,因为它们对所有语言使用一种模式,而不是每种语言使用一种模式。
 
 
计算机科学学院卡内基梅隆大学语言技术研究所助理教授格雷厄姆·纽大(Graham Neubig)告诉斯拉蒂尔,“这些系统有双重优势:(1)它们可以通过学习许多不同的语言来提高准确性,(2)它们可以通过只训练一个模型来翻译多种语言,而不是每种语言一个模型来减少部署模型的计算足迹。”
 
有多大
作为他们研究的一部分,谷歌着手调查“建立一个能够在任何语言对之间翻译的通用神经机器翻译(NMT)系统”该模型是“一个单一的大规模多语言NMT模型,处理103种语言,训练了超过250亿个例子。”
谷歌研究中值得注意的一点是模型的规模,根据该论文,“就培训数据量和同时考虑的语言数量而言,这是迄今为止最大的多语言NMT系统。”
 
论文标题中的“在野外”一词来源于训练数据是真实的这一事实;研究人员使用了一个“通过从网上抓取和提取平行句子而生成的内部语料库”,它涵盖了广泛的领域。
 
“数据的规模是250亿句,比以前的多语言模型大几个数量级。”——格雷厄姆·纽大,卡内基梅隆大学计算机科学学院语言技术研究所助理教授
根据Neubig的说法,数据的规模“比以前的多语言模型大几个数量级”
 
他补充道:“这也是对网络上‘实际数据’的真实反映,因此,其中所获得的翻译结果的任何限制都不是简单地通过添加更多数据就能解决的,而是需要认真研究才能解决的问题。”。
 
(转移-干扰)权衡
鉴于该模式适用于多种语言,谷歌也在关注多语言模式对低资源语言和高资源语言的影响。
 
作为联合训练的结果,由于一个被称为“正向迁移”的过程,该模型在训练数据很少的情况下提高了语言的性能。然而,该论文称,该模型还“由于干扰和容量受限,导致高资源语言的性能下降”。因此,研究人员发现,转移和干涉之间存在权衡。
 
标志性翻译机器公司的首席执行官兼联合创始人约翰·廷斯利解释了这一现象:“他们看到的是,他们越想让引擎多语言化,也就是说,他们添加的语言越多,质量下降的速度就越快,尤其是对于那些已经有很强基线的高资源语言,”他告诉斯莱特。
 
“他们看到的是,他们越想让引擎多语言化,也就是说,他们添加的语言越多,质量下降得越快。”——约翰·廷斯利,图标翻译机器公司首席执行官
廷斯利在评论转移干扰权衡可能产生的中短期实际影响时说,“开发人员可能会考虑保留中高资源语言的强基线,但然后用一个单一的多语言引擎作为低资源语言的通用引擎。”
 
这意味着什么?
谷歌人工智能团队认识到,尽管他们已经“实现了里程碑式的[…],我们仍有很长的路要走,才能实现真正的通用机器翻译。”
 
该论文称,谷歌和其他公司很可能会继续研究多语言NMT,因为它“是学术界或工业界正在研究的最大的多任务问题之一”。此外,“许多有前途的解决方案似乎是跨学科的,使得多语言的NMT成为其他机器学习实践者和理论家的一个可信的通用测试平台。”
 
图标公司的廷斯利总结了这篇论文的研究结果,他说:“要达到这一点需要很多年的时间,我相信这是机器翻译领域的一个研究方向,将会继续强劲增长,特别是在学术领域和像谷歌这样的最终目标是通用的、通用的解决方案。”
 
斯拉蒂勒还与亚当·比特林迈耶(Adam Bittlingmayer)交谈,他是前谷歌翻译工程师,也是模型前沿(一家机器翻译风险预测初创公司)的创始人,谈到了他对谷歌报纸和多语言模型的总体看法。Bittlingmayer说,他认为“这是未来,必须在某个时候发生。这个想法一直存在,只是一个巨大的努力去执行。”
 
 
市场情报
从成千上万的来源整理新闻。斯拉托尔斯韦的每日新闻提醒让你在市场情报方面拥有竞争优势。
Bittlingmayer继续说,“如果配对没有数据(例如斯瓦希里语-巴斯克语),它们的表现如何,这是一个悬而未决的问题。关键是转移学习,即使用大对中的数据来提高小对的质量。”
 
“这个想法一直存在,只是一个巨大的努力去执行”——亚当·比特林迈耶,模型前沿的创始人
关于谷歌多语言NMT论文的重要性,他补充道,“这表明顶级移动终端提供商对此非常感兴趣;在我看来,因为这将从根本上减少他们的工程工作。因此,即使质量保持不变或恶化1%,他们也会继续前进。”
 
根据Bittlingmayer的说法,“这是多语种人类学习翻译的一小步。[:“即使它有效,不,人工智能也不会抢走我们的工作,吃掉我们。"