“难以置信的活力”—风投对2019年的自然语言处理感到兴奋


2019-07-30 08:19:10


机器翻译



除了企业人工智能平台之外,横向人工智能的世界(例如,计算机视觉、自然语言处理或自然语言处理和语音)仍然非常活跃。总部位于纽约的风险投资公司FirstMark的总经理马特·图尔克(Matt Turck)如是说。
 
土耳其人在一份关于2019年数据和人工智能领域主要趋势的广泛报告中指出,人工智能的主要趋势包括自然语言处理的重大改进,特别是通过应用迁移学习。
 
风险资本家内森·贝奈奇和伊恩·霍加斯同意这一观点。贝奈奇是风险投资公司航空街资本的创始人。霍加斯是英国的天使投资者。在2019年6月28日发表的130张幻灯片的人工智能状态报告中,贝奈奇和霍加斯强调了最近在自然语言处理方面的研究突破,如谷歌人工智能的伯特(BERT)、艾伦研究所的埃尔莫(ELMo)、开放人工智能的GPT-2变压器(OpenAI)和乌尔姆菲特(ULMFiT)。
根据该报告,这些语言模型通常是在互联网上大量可公开获得的未标记文本上进行培训的;他们通过迁移学习来学习。也就是说,从一个问题中获得的知识被存储并应用到不同的或相关的问题中,“从而减少了对额外的训练数据和计算的需求,”两位作者写道。这种预处理语言模型可以显著提高自然语言处理的性能。
 
 
斯莱特2019年语言产业市场报告
数据和研究
33页。总市场规模、关键垂直行业、服务和技术前景、细分市场份额、M&A和前景。
贝奈奇和霍加斯对人工智能明年的六个预测中,有一个是关于自然语言处理的。这对夫妇看到了一波新的创业浪潮,他们将运用自然语言处理研究的最新突破,并在未来12个月内总共筹集1亿多美元。
 
另一家风投公司MMC Ventures也同意这一观点。在题为《人工智能的现状:差异》的综合报告中,MMC说,“迁移学习驱动的模型正在通用领域——文本分类、求和、文本生成、问答和情感分析——提高语言处理的技术水平。”MMC也将BERT、ELMo、OpenAI和ULMFiT标记为最近NLP最重要的突破。
 
当谷歌在2018年11月决定开源BERT时,它声称“世界上任何人都可以在一个云TPU上用大约30分钟,或者用一个图形处理器用几个小时,训练他们自己最先进的问题回答系统(或者其他各种模型)。”
 
将埃隆·马斯克列为创始人之一的OpenAI于2019年2月发布了一种新的语言模型,名为GPT-2。非营利人工智能研究公司声称,GPT-2可以“预测”用户输入句子或短语后的下一个单词。显然,这个系统是如此令人信服地好,以至于它不得不被从公共领域中撤出,以免被滥用。
 
贝奈奇和霍加斯也看到了最近自然语言处理研究突破的潜在危险。他们指出,自然语言处理可能会被武器化,因为“随着机器读写能力的提高,欺诈(例如电子邮件上的可伸缩‘矛状钓鱼’攻击)和计算宣传的空间越来越大。”
 
同时,MMC风险投资公司强调了自然语言处理的两个不那么险恶的用例。据风投称,在客户服务方面,“使用自然语言处理的聊天机器人可以通过一个可扩展、廉价和个性化的渠道提供24/7的产品信息和对投保人查询的回答。"
 
MMC说,在法律领域(判例法、发现、尽职调查),自然语言处理“可以大规模、快速地识别、分类和利用来自数据库和非结构化文档的内容,为法律公司节省文档审查的时间和成本”。
 
三份报告中的任何一份都没有突出的是自然语言处理的一个主要使用案例:机器翻译。只有贝奈奇和霍加斯拿出了一篇关于利用单语数据使机器翻译更广泛适用的脸书NMT论文。