CN110688860A - 一种基于transformer多种注意力机制的权重分配方法 - Google Patents
一种基于transformer多种注意力机制的权重分配方法 Download PDFInfo
- Publication number
- CN110688860A CN110688860A CN201910924914.XA CN201910924914A CN110688860A CN 110688860 A CN110688860 A CN 110688860A CN 201910924914 A CN201910924914 A CN 201910924914A CN 110688860 A CN110688860 A CN 110688860A
- Authority
- CN
- China
- Prior art keywords
- output
- delta
- attention
- model
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 abstract description 16
- 238000013519 translation Methods 0.000 abstract description 15
- 239000013598 vector Substances 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 7
- 238000013459 approach Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241001156002 Anthonomus pomorum Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于transformer多种注意力机制的权重分配方法;包括:注意力机制的输入是目标语言的目标语言和源语言的词向量,输出是一个对齐张量。使用多个注意力机制函数可以输出多个对齐张量输出,并且由于计算过程中有随机参数的变化,所以每个输出是不同的。在此将所有的注意力机制模型都投入运算中,并将多种注意力机制输出做正则化计算,来逼近最佳输出。这种正则化计算方法确定了所得的值不会偏离最优值太远,也保存了各个注意力模型的最优性,若是一个注意力模型的实验效果极好,则加大该模型的权重函数来加大该模型对最终输出的影响力,从而提高翻译效果。
Description
技术领域
本发明涉及的神经机器翻译相关领域,具体来讲是一种基于transformer多种注意力机制权重分配方法。
背景技术
神经网络机器翻译是最近几年提出来的一种机器翻译方法。相比于传统的统计机器翻译而言,神经网络机器翻译能够训练一张能够从一个序列映射到另一个序列的神经网络,输出的可以是一个变长的序列,这在翻译、对话和文字概括方面能够获得非常好的表现。神经网络机器翻译其实是一个编码-译码***,编码把源语言序列进行编码,并提取源语言中信息,通过译码再把这种信息转换到另一种语言即目标语言中来,从而完成对语言的翻译。
而该模型在产生输出的时候,会产生一个注意力范围来表示接下来输出的时候要重点关注输入序列的哪些部分,然后根据关注的区域来产生下一个输出,如此反复。注意力机制和人的一些行为特征有一定相似之处,人在看一段话的时候,通常只会重点注意具有信息量的词,而非全部词,即人会赋予每个词的注意力权重不同。注意力机制模型虽然增加了模型的训练难度,但提升了文本生成的效果。在该专利中,我们就是在注意力机制函数中进行改进.
自2013年提出了神经机器翻译***之后,随着计算机的计算力发展的迅速,神经机器翻译也得到了迅速的发展,先后提出了seq-seq模型,transformer模型等等,2013年,Nal Kalchbrenner和Phil Blunsom提出了一种用于机器翻译的新型端到端编码器-解码器结构[4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。2017年谷歌发布了一种新的机器学习模型Transformer,该模型在机器翻译及其他语言理解任务上的表现远远超越了现有算法。
传统技术存在以下技术问题:
在注意力机制函数对齐过程中,现有的框架是先计算输入的两个句子词向量的相似度,再进行一系列计算得到对齐函数。而每个对齐函数在计算时会输出一遍,再以该次的输出作为下次的输入进行计算。这样单个线程的计算,很有可能导致误差的累积。我们引进多种注意力机制的权重分配,就是为了找出多个计算过程中的最优解。达到最佳翻译效果。
发明内容
因此,为了解决上述不足,本发明在此提供一种基于transformer多种注意力机制的权重分配方法;应用在基于注意力机制的transformer框架模型上。包括:注意力机制的输入是目标语言的目标语言和源语言的词向量,输出是一个对齐张量。使用多个注意力机制函数可以输出多个对齐张量输出,并且由于计算过程中有随机参数的变化,所以每个输出是不同的。现今已经提出了很多个注意力机制模型,比如自注意力机制,多头注意力机制,全部注意力机制,局部注意力机制等等,每种不同的注意力机制有着不同的输出与特点,我们将所有的注意力机制模型都投入运算中,并将多种注意力机制输出做正则化计算,来逼近最佳输出。
本发明是这样实现的,构造一种基于transformer多种注意力机制的权重分配方法,应用基于注意力机制的transformer模型中,其特征在于;包括如下步骤:
步骤1:在transformer模型中,针对应用情景选取其中较优秀的模型输出。
步骤2:初始化权重序列δ的值,第一次计算时权重序列δ为随机数,并且δ1+δ2+....+δi=1;
步骤3:将各模型输出进行正则化计算并计算出各输出的中心点(与所有值最接近的点),通过计算公式fin_out=δ1O1+δ2O2+δ3O3.......+δiOi计算出最优的匹配值作为最终输出;其中δ1+δ2+....+δi=1且δi是我们设置的权重参数;Oi是各种注意力模型的输出;
步骤4:将最终输出代入后续运算中,计算与上一次训练相比损失函数的差值,若损失函数下降,则提高δ中靠中心点的序列比重;若损失函数上升,则提升δ序列中与中心点最远的序列比重,整个过程严格遵守δ1+δ2+....+δi=1的规则;
步骤5:多次循环迭代计算,最终确定最佳权重序列δ。
本发明具有如下优点:本发明公开了一种基于transformer多种注意力机制的权重分配方法。应用在基于注意力机制的transformer框架模型上。包括:注意力机制的输入是目标语言的目标语言和源语言的词向量,输出是一个对齐张量。使用多个注意力机制函数可以输出多个对齐张量输出,并且由于计算过程中有随机参数的变化,所以每个输出是不同的。现今已经提出了很多个注意力机制模型,比如自注意力机制,多头注意力机制,全部注意力机制,局部注意力机制等等,每种不同的注意力机制有着不同的输出与特点,我们将所有的注意力机制模型都投入运算中,并将多种注意力机制输出做正则化计算,来逼近最佳输出。运用公式:fin_out=δ1O1+δ2O2+δ3O3.......+δiOi其中δ1+δ2+....+δi=1且δi是我们设置的权重参数。Oi是各种注意力模型的输出,这种正则化计算方法确定了所得的值不会偏离最优值太远,也保存了各个注意力模型的最优性,若是一个注意力模型的实验效果极好,则加大该模型的权重函数来加大该模型对最终输出的影响力,从而提高翻译效果。
具体实施方式
下面将对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过改进在此提供一种基于transformer多种注意力机制的权重分配方法。应用在基于注意力机制的transformer框架模型上。
transformer框架介绍:
Encoder:由6个相同的layers组成,每一层包含两个sub-layers.第一个sub-layer就是多头注意力层然后是一个简单的全连接层。其中每个sub-layer都加了残差连接和归一)。
Decoder:由6个相同的Layer组成,但这里的layer和encoder不一样,这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoder attentionlayer最后是一个全连接层。前两个sub-layer都是基于multi-head attention layer。这里有个特别点就是masking,masking的作用就是防止在训练的时候使用未来的输出的单词。
注意力模型:
encoder-decoder模型虽然非常经典,但是局限性也非常大。较大的局限性就在于编码和解码之间的联系就是一个固定长度的语义向量C。也就是说,编码器要将整个序列的信息压缩进一个固定长度的向量中去。但是这样做有两个弊端,一是语义向量无法完全表示整个序列的信息,二是先输入的内容携带的信息会被后输入的信息稀释掉。输入序列越长,这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息,那么解码时准确率就要打一定折扣。
为了解决上述问题,在Seq2Seq出现一年之后,注意力模型被提出了。该模型在产生输出的时候,会产生一个注意力范围来表示接下来输出的时候要重点关注输入序列的哪些部分,然后根据关注的区域来产生下一个输出,如此反复。注意力和人的一些行为特征有一定相似之处,人在看一段话的时候,通常只会重点注意具有信息量的词,而非全部词,即人会赋予每个词的注意力权重不同。注意力模型虽然增加了模型的训练难度,但提升了文本生成的效果。
第一步,生成该时刻语义向量:
st=tanh(W[st-1,yt-1])
第二步,传递隐层信息并预测:
现今已经提出了很多个注意力机制模型,比如自注意力机制,多头注意力机制,全部注意力机制,局部注意力机制等等,每种不同的注意力机制有着不同的输出与特点。
在此的改进就是在注意力函数中修改。
在此将所有的注意力机制模型都投入运算中,并将多种注意力机制输出做正则化计算,来逼近最佳输出。运用公式:fin_out=δ1O1+δ2O2+δ3O3.......+δiOi其中δ1+δ2+....+δi=1且δi是我们设置的权重参数。Oi是各种注意力模型的输出,这种正则化计算方法确定了所得的值不会偏离最优值太远,也保存了各个注意力模型的最优性。本发明具体实现步骤为;
步骤1:在transformer模型中,针对应用情景选取其中较优秀的模型输出。
步骤2:初始化权重序列δ的值,第一次计算时权重序列δ为随机数,并且δ1+δ2+....+δi=1;
步骤3:将各模型输出进行正则化计算并计算出各输出的中心点(与所有值最接近的点),通过计算公式fin_out=δ1O1+δ2O2+δ3O3.......+δiOi计算出最优的匹配值作为最终输出。
步骤4:将最终输出代入后续运算中,计算与上一次训练相比损失函数的差值,若损失函数下降,则提高δ中靠中心点的序列比重;若损失函数上升,则提升δ序列中与中心点最远的序列比重,整个过程严格遵守δ1+δ2+....+δi=1的规则。
步骤5:多次循环迭代计算,最终确定最佳权重序列δ。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (1)
1.一种基于transformer多种注意力机制的权重分配方法,应用基于注意力机制的transformer模型中,其特征在于;包括如下步骤:
步骤1:在transformer模型中,针对应用情景选取其中较优秀的模型输出。
步骤2:初始化权重序列δ的值,第一次计算时权重序列δ为随机数,并且δ1+δ2+....+δi=1;
步骤3:将各模型输出进行正则化计算并计算出各输出的中心点(与所有值最接近的点),通过计算公式fin_out=δ1O1+δ2O2+δ3O3.......+δiOi计算出最优的匹配值作为最终输出;其中δ1+δ2+....+δi=1且δi是我们设置的权重参数;Oi是各种注意力模型的输出;
步骤4:将最终输出代入后续运算中,计算与上一次训练相比损失函数的差值,若损失函数下降,则提高δ中靠中心点的序列比重;若损失函数上升,则提升δ序列中与中心点最远的序列比重,整个过程严格遵守δ1+δ2+....+δi=1的规则;
步骤5:多次循环迭代计算,最终确定最佳权重序列δ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910924914.XA CN110688860B (zh) | 2019-09-27 | 2019-09-27 | 一种基于transformer多种注意力机制的权重分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910924914.XA CN110688860B (zh) | 2019-09-27 | 2019-09-27 | 一种基于transformer多种注意力机制的权重分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110688860A true CN110688860A (zh) | 2020-01-14 |
CN110688860B CN110688860B (zh) | 2024-02-06 |
Family
ID=69110821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910924914.XA Active CN110688860B (zh) | 2019-09-27 | 2019-09-27 | 一种基于transformer多种注意力机制的权重分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688860B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381581A (zh) * | 2020-11-17 | 2021-02-19 | 东华理工大学 | 一种基于改进Transformer的广告点击率预估方法 |
CN112992129A (zh) * | 2021-03-08 | 2021-06-18 | 中国科学技术大学 | 语音识别任务中的保持注意力机制单调性方法 |
CN113505193A (zh) * | 2021-06-01 | 2021-10-15 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
-
2019
- 2019-09-27 CN CN201910924914.XA patent/CN110688860B/zh active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381581A (zh) * | 2020-11-17 | 2021-02-19 | 东华理工大学 | 一种基于改进Transformer的广告点击率预估方法 |
CN112381581B (zh) * | 2020-11-17 | 2022-07-08 | 东华理工大学 | 一种基于改进Transformer的广告点击率预估方法 |
CN112992129A (zh) * | 2021-03-08 | 2021-06-18 | 中国科学技术大学 | 语音识别任务中的保持注意力机制单调性方法 |
CN113505193A (zh) * | 2021-06-01 | 2021-10-15 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
WO2022253074A1 (zh) * | 2021-06-01 | 2022-12-08 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110688860B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413785B (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN111382582B (zh) | 一种基于非自回归的神经机器翻译解码加速方法 | |
CN110222349B (zh) | 一种深度动态上下文词语表示的方法及计算机 | |
CN108153913B (zh) | 回复信息生成模型的训练方法、回复信息生成方法及装置 | |
CN110688860A (zh) | 一种基于transformer多种注意力机制的权重分配方法 | |
CN107368476A (zh) | 一种翻译的方法、目标信息确定的方法及相关装置 | |
CN109522403A (zh) | 一种基于融合编码的摘要文本生成方法 | |
CN110032638B (zh) | 一种基于编码器-解码器的生成式摘要提取方法 | |
CN111274375A (zh) | 一种基于双向gru网络的多轮对话方法及*** | |
CN105279552A (zh) | 一种基于字的神经网络的训练方法和装置 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN115841119B (zh) | 一种基于图结构的情绪原因提取方法 | |
CN112560456A (zh) | 一种基于改进神经网络的生成式摘要生成方法和*** | |
CN110717342B (zh) | 一种基于transformer的距离参量对齐翻译方法 | |
Xu et al. | Low-bit quantization of recurrent neural network language models using alternating direction methods of multipliers | |
CN112949255A (zh) | 一种词向量训练方法及装置 | |
CN113297374B (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN112287641B (zh) | 一种同义句生成方法、***、终端及存储介质 | |
CN110717343B (zh) | 一种基于transformer注意力机制输出的优化对齐方法 | |
CN112528168A (zh) | 基于可形变自注意力机制的社交网络文本情感分析方法 | |
CN110674647A (zh) | 一种基于Transformer模型的层融合方法及计算机设备 | |
CN113469260B (zh) | 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法 | |
Tian et al. | An online word vector generation method based on incremental huffman tree merging | |
CN113077785B (zh) | 一种端到端的多语言连续语音流语音内容识别方法及*** | |
CN112434143B (zh) | 基于gru单元隐藏状态约束的对话方法、存储介质及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |