CN110688860A

CN110688860A - 一种基于transformer多种注意力机制的权重分配方法

Info

Publication number: CN110688860A
Application number: CN201910924914.XA
Authority: CN
Inventors: 闫明明; 陈绪浩; 罗华成; 赵宇; 段世豪
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-14
Anticipated expiration: 2039-09-27
Also published as: CN110688860B

Abstract

本发明公开了一种基于transformer多种注意力机制的权重分配方法；包括：注意力机制的输入是目标语言的目标语言和源语言的词向量，输出是一个对齐张量。使用多个注意力机制函数可以输出多个对齐张量输出，并且由于计算过程中有随机参数的变化，所以每个输出是不同的。在此将所有的注意力机制模型都投入运算中，并将多种注意力机制输出做正则化计算，来逼近最佳输出。这种正则化计算方法确定了所得的值不会偏离最优值太远，也保存了各个注意力模型的最优性，若是一个注意力模型的实验效果极好，则加大该模型的权重函数来加大该模型对最终输出的影响力，从而提高翻译效果。

Description

一种基于transformer多种注意力机制的权重分配方法

技术领域

本发明涉及的神经机器翻译相关领域，具体来讲是一种基于transformer多种注意力机制权重分配方法。

背景技术

神经网络机器翻译是最近几年提出来的一种机器翻译方法。相比于传统的统计机器翻译而言，神经网络机器翻译能够训练一张能够从一个序列映射到另一个序列的神经网络，输出的可以是一个变长的序列，这在翻译、对话和文字概括方面能够获得非常好的表现。神经网络机器翻译其实是一个编码-译码***，编码把源语言序列进行编码，并提取源语言中信息，通过译码再把这种信息转换到另一种语言即目标语言中来，从而完成对语言的翻译。

而该模型在产生输出的时候，会产生一个注意力范围来表示接下来输出的时候要重点关注输入序列的哪些部分，然后根据关注的区域来产生下一个输出，如此反复。注意力机制和人的一些行为特征有一定相似之处，人在看一段话的时候，通常只会重点注意具有信息量的词，而非全部词，即人会赋予每个词的注意力权重不同。注意力机制模型虽然增加了模型的训练难度，但提升了文本生成的效果。在该专利中，我们就是在注意力机制函数中进行改进.

自2013年提出了神经机器翻译***之后，随着计算机的计算力发展的迅速，神经机器翻译也得到了迅速的发展，先后提出了seq-seq模型，transformer模型等等，2013年，Nal Kalchbrenner和Phil Blunsom提出了一种用于机器翻译的新型端到端编码器-解码器结构[4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。2017年谷歌发布了一种新的机器学习模型Transformer，该模型在机器翻译及其他语言理解任务上的表现远远超越了现有算法。

传统技术存在以下技术问题：

在注意力机制函数对齐过程中，现有的框架是先计算输入的两个句子词向量的相似度，再进行一系列计算得到对齐函数。而每个对齐函数在计算时会输出一遍，再以该次的输出作为下次的输入进行计算。这样单个线程的计算，很有可能导致误差的累积。我们引进多种注意力机制的权重分配，就是为了找出多个计算过程中的最优解。达到最佳翻译效果。

发明内容

因此，为了解决上述不足，本发明在此提供一种基于transformer多种注意力机制的权重分配方法；应用在基于注意力机制的transformer框架模型上。包括：注意力机制的输入是目标语言的目标语言和源语言的词向量，输出是一个对齐张量。使用多个注意力机制函数可以输出多个对齐张量输出，并且由于计算过程中有随机参数的变化，所以每个输出是不同的。现今已经提出了很多个注意力机制模型，比如自注意力机制，多头注意力机制，全部注意力机制，局部注意力机制等等，每种不同的注意力机制有着不同的输出与特点，我们将所有的注意力机制模型都投入运算中，并将多种注意力机制输出做正则化计算，来逼近最佳输出。

本发明是这样实现的，构造一种基于transformer多种注意力机制的权重分配方法，应用基于注意力机制的transformer模型中，其特征在于；包括如下步骤：

步骤1：在transformer模型中，针对应用情景选取其中较优秀的模型输出。

步骤2：初始化权重序列δ的值，第一次计算时权重序列δ为随机数，并且δ₁+δ₂+....+δ_i＝1；

步骤3：将各模型输出进行正则化计算并计算出各输出的中心点(与所有值最接近的点)，通过计算公式fin_out＝δ₁O₁+δ₂O₂+δ₃O₃.......+δ_iO_i计算出最优的匹配值作为最终输出；其中δ₁+δ₂+....+δ_i＝1且δ_i是我们设置的权重参数；O_i是各种注意力模型的输出；

步骤4：将最终输出代入后续运算中，计算与上一次训练相比损失函数的差值，若损失函数下降，则提高δ中靠中心点的序列比重；若损失函数上升，则提升δ序列中与中心点最远的序列比重，整个过程严格遵守δ₁+δ₂+....+δ_i＝1的规则；

步骤5：多次循环迭代计算，最终确定最佳权重序列δ。

本发明具有如下优点：本发明公开了一种基于transformer多种注意力机制的权重分配方法。应用在基于注意力机制的transformer框架模型上。包括：注意力机制的输入是目标语言的目标语言和源语言的词向量，输出是一个对齐张量。使用多个注意力机制函数可以输出多个对齐张量输出，并且由于计算过程中有随机参数的变化，所以每个输出是不同的。现今已经提出了很多个注意力机制模型，比如自注意力机制，多头注意力机制，全部注意力机制，局部注意力机制等等，每种不同的注意力机制有着不同的输出与特点，我们将所有的注意力机制模型都投入运算中，并将多种注意力机制输出做正则化计算，来逼近最佳输出。运用公式：fin_out＝δ₁O₁+δ₂O₂+δ₃O₃.......+δ_iO_i其中δ₁+δ₂+....+δ_i＝1且δ_i是我们设置的权重参数。O_i是各种注意力模型的输出，这种正则化计算方法确定了所得的值不会偏离最优值太远，也保存了各个注意力模型的最优性，若是一个注意力模型的实验效果极好，则加大该模型的权重函数来加大该模型对最终输出的影响力，从而提高翻译效果。

具体实施方式

下面将对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种基于transformer多种注意力机制的权重分配方法。应用在基于注意力机制的transformer框架模型上。

transformer框架介绍：

Encoder:由6个相同的layers组成,每一层包含两个sub-layers.第一个sub-layer就是多头注意力层然后是一个简单的全连接层。其中每个sub-layer都加了残差连接和归一)。

Decoder:由6个相同的Layer组成，但这里的layer和encoder不一样，这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoder attentionlayer最后是一个全连接层。前两个sub-layer都是基于multi-head attention layer。这里有个特别点就是masking,masking的作用就是防止在训练的时候使用未来的输出的单词。

注意力模型：

encoder-decoder模型虽然非常经典，但是局限性也非常大。较大的局限性就在于编码和解码之间的联系就是一个固定长度的语义向量C。也就是说，编码器要将整个序列的信息压缩进一个固定长度的向量中去。但是这样做有两个弊端，一是语义向量无法完全表示整个序列的信息，二是先输入的内容携带的信息会被后输入的信息稀释掉。输入序列越长，这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息，那么解码时准确率就要打一定折扣。

为了解决上述问题，在Seq2Seq出现一年之后，注意力模型被提出了。该模型在产生输出的时候，会产生一个注意力范围来表示接下来输出的时候要重点关注输入序列的哪些部分，然后根据关注的区域来产生下一个输出，如此反复。注意力和人的一些行为特征有一定相似之处，人在看一段话的时候，通常只会重点注意具有信息量的词，而非全部词，即人会赋予每个词的注意力权重不同。注意力模型虽然增加了模型的训练难度，但提升了文本生成的效果。

第一步，生成该时刻语义向量:

s_t＝tanh(W[s_t-1，y_t-1])

第二步，传递隐层信息并预测:

现今已经提出了很多个注意力机制模型，比如自注意力机制，多头注意力机制，全部注意力机制，局部注意力机制等等，每种不同的注意力机制有着不同的输出与特点。

在此的改进就是在注意力函数中修改。

在此将所有的注意力机制模型都投入运算中，并将多种注意力机制输出做正则化计算，来逼近最佳输出。运用公式：fin_out＝δ₁O₁+δ₂O₂+δ₃O₃.......+δ_iO_i其中δ₁+δ₂+....+δ_i＝1且δ_i是我们设置的权重参数。O_i是各种注意力模型的输出，这种正则化计算方法确定了所得的值不会偏离最优值太远，也保存了各个注意力模型的最优性。本发明具体实现步骤为；

步骤3：将各模型输出进行正则化计算并计算出各输出的中心点(与所有值最接近的点)，通过计算公式fin_out＝δ₁O₁+δ₂O₂+δ₃O₃.......+δ_iO_i计算出最优的匹配值作为最终输出。

步骤4：将最终输出代入后续运算中，计算与上一次训练相比损失函数的差值，若损失函数下降，则提高δ中靠中心点的序列比重；若损失函数上升，则提升δ序列中与中心点最远的序列比重，整个过程严格遵守δ₁+δ₂+....+δ_i＝1的规则。

步骤5：多次循环迭代计算，最终确定最佳权重序列δ。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于transformer多种注意力机制的权重分配方法，应用基于注意力机制的transformer模型中，其特征在于；包括如下步骤：

步骤5：多次循环迭代计算，最终确定最佳权重序列δ。