云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

香港带宽_修改数据库名字_免费6个月

小七 141 0

了解变压器NLP模型的宣传

为了理解Transformer NLP模型的大肆宣传及其真实世界的含义,有必要退一步研究一下这些模型背后的体系结构和内部工作原理。在这篇博客文章中,我们将带您了解Transformer NLP架构的兴起,从它的关键组件——注意力范式开始。注意机制起源故事:机器翻译注意力范式早在2014年,在深度学习大肆宣传之前,就进入了NLP领域,并首次应用于机器翻译问题。通常,机器翻译系统遵循基本的编解码器架构(如下图所示),其中编码器和解码器通常都是递归神经网络(RNN)的变体。为了理解RNN是如何工作的,可以将其想象为一系列的细胞。编码器RNN接收一个输入语句并一次读取一个标记:每个单元接收一个输入字并产生一个隐藏状态作为输出,然后作为输入输入输入到下一个RNN单元,直到句子中的所有单词都被处理。在此之后,最后生成的隐藏状态将有望捕获输入语句中每个单词包含的所有信息的要点。这个向量称为上下文向量,然后作为输入输入输入到解码器RNN,解码器RNN将一次生成一个单词的翻译句子。但是,是否可以合理地假设上下文向量可以保留输入句子所需的所有信息?如果这个句子有50个单词那么呢?由于RNNs固有的时序结构,每个输入单元只能为句子中的每个单词逐个生成一个输出隐藏状态向量。由于词处理的顺序性,对于词与词之间依赖关系复杂的长句,上下文向量很难捕捉到句子中包含的所有信息,这被称为"瓶颈问题"。注意解决瓶颈问题为了解决这个瓶颈问题,研究人员发明了一种关注特定单词的技术,当翻译一个句子或转录一段录音时,人工智能体会特别注意他们目前正在翻译或转录的单词神经网络可以利用注意力来实现同样的行为,集中于他们所得到的信息的一部分。请记住,每个输入RNN单元为每个输入字生成一个隐藏状态向量。然后我们可以将这些向量串联起来,求平均值,或者(更好!)对它们进行加权,以使输入句子中与解码下一个单词(输出句子)最相关的单词具有更高的重要性。这就是注意力技巧的意义所在。如果您想进一步了解Transformer NLP模型的本质和注意力机制的内部工作原理,我们建议您从treatles博客文章中阅读这些数据。变压器NLP模型正如你现在所理解的,注意力是序列到序列系统(如翻译模型)中的一个革命性的想法。Transformer NLP模型基于注意力机制,其核心思想更进一步:除了使用注意力来计算编码器隐藏状态向量的表示(即上下文向量),为什么不使用注意力来计算编码器的隐藏状态向量呢?这样做的直接好处是消除了RNN固有的顺序结构,这阻碍了模型的并行化。为了解决并行化的问题,注意力可以提高模型从一个序列到另一个序列的速度。因此,变压器NLP模型的主要优点是它们不是顺序的,这意味着与rnn不同,它们可以更容易地并行化,并且可以通过并行化训练来训练越来越大的模型此外,到目前为止,Transformer NLP模型已经显示出比RNN模型更好的性能和速度。由于所有这些因素,在过去的几年中,许多NLP研究都集中在Transformer NLP模型上,我们可以预期这将转化为令人兴奋的新业务用例也。