Carnegie Mellon和谷歌的Brain服装试图取消谷歌用于自然语言处理的BERT机器学习模型的一些技术。他们提出了一种名为“XLNet”的新方法。建立在流行的“Transformer”AI语言之上,它可能是一种更直接的方式来检查语言的工作方式。或者,至少,这是谷歌对自然语言理解的最新贡献的感觉,一个新的神经网络在周三被公布为“XLNet”。作者包括Google Brain和Carnegie Mellon University,他们表现出XLNet的表现,这些表现比之前的几种标准化测试方法(包括问题回答)有了显着改进。秘密是为计算机程序设定目标的一种新方法,因此它不仅可以理解单词的频率,还可以理解单词在句子中以给定顺序出现的可能性。
XLNet是2017年由Google研究员Ashish Vaswani及其同事开发的所谓“变形金刚”的开创性发明的最新软件系列中的最新产品。Transformer继续激发了OpenAI的GPT-2和Google的“BERT”以及许多其他语言处理模型。
通过XLNet,作者采用了Transformer并对其进行了修改,其结果正如他们所说,“进一步证明了语言建模研究的合理性。”他们认为,它比BERT做得更好,在现实中训练计算机实际上如何在真实文档中显示语言。
从某种意义上说,他们在变形金刚的使用中开辟了一个新的前沿:它现在不仅仅有一个而是两个目标,它同时执行,评估语言概率,还有句子组合作为排列可能的单词组合。
论文“XLNet:用于语言理解的广义自回归预训练”发布在arXiv预打印服务器上,代码发布在Github上。该论文由Zhilin Yang和今年早些时候推出谷歌“Transformer-XL”的一组同事撰写,这是一个更加强大的Transformer版本。他们包括Zihang Dai,Yiming Yang,Jaime Carbonell,Ruslan Salakhutdinov,Quoc V. Le。
Zhilin Yang与Carnegie Mellon以及Dai,Yiming Yang,Carbonell和Salakhutdinov一样正式关联,但Le与Google Brain正式关联,而Dai与两者有联合关系。
另外:
Yang和团队正在纠正计算机程序如何模拟语言的缺点。诸如GPT-2之类的程序仅查看导致特定字符的短语或句子中的第一个单词或标记,而不是查看句子后面的单词或标记。一些人认为,这对于诸如蕴涵之类的现实世界的任务来说并不好。
谷歌的XLNet使用了两个“调查流”,一个用于查看文本中单词分布中给定单词的概率,另一个用于检查原始单词周围单词的上下文,但对所查看的单词视而不见通过第一次调查。
为了解决这个问题,像BERT这样的事情已经提出了一些有其自身陷阱的技巧。BERT采用了变形金刚的架构,并添加了一个扭曲:它训练变形金刚用一个句子中的一些单词“蒙面”,或者用其他单词随机替换,或者用字面意思为“MASK”的字符串替换。这是基于所谓的“完形填空”测试,在那里你给人们一个空白的句子并迫使他们猜测这些单词。BERT经过培训以填补空白,作为一种强制它计算单词组合的许多不同概率的方法。
杨和公司写道,这一切都很好,但是这种方法不自然 - 你在现实世界的测试数据中找不到这样的掩盖词。更重要的是,他们写道,“由于预测的令牌在输入中被掩盖,因此BERT无法模拟单词可能相互依赖的多种方式。
例如,在句子“纽约是一个城市”中,伯特可以发现“新”这个词可能会被句子片段暗示,例如“是一个城市”,就像单词“约克”一样。但BERT无法判断“新”和“是一个城市”是否更有可能使“约克”这个词变得更有可能。换句话说,BERT不知道两个目标词,因为它们被称为“新”和“约克”,它们以相互依赖的方式联系在一起。