CN112329483A - 多机制合并注意力的多路径神经机器翻译方法 - Google Patents

多机制合并注意力的多路径神经机器翻译方法 Download PDF

Info

Publication number
CN112329483A
CN112329483A CN202011209086.0A CN202011209086A CN112329483A CN 112329483 A CN112329483 A CN 112329483A CN 202011209086 A CN202011209086 A CN 202011209086A CN 112329483 A CN112329483 A CN 112329483A
Authority
CN
China
Prior art keywords
attention
translation
training
embedding vector
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011209086.0A
Other languages
English (en)
Inventor
范洪博
郑棋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202011209086.0A priority Critical patent/CN112329483A/zh
Publication of CN112329483A publication Critical patent/CN112329483A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种多机制合并注意力的多路径神经机器翻译方法,属于自然语言处理领域。本发明由CNN翻译机制、Transformer翻译机制、Tree‑Transformer翻译机制独自生成自身的注意力值,并将计算出来的注意力值进行加权累加,然后对齐并进行归一化形成新的注意力值,并传送给解码器的Dec‑Enc attention layer,使各翻译机制完成后续的机器翻译过程得到解码key‑value矩阵。采用各机制生成的解码key‑value矩阵进行加权叠加与归一化,通过线性变换层和softmax层,生成目标译文。本发明的多机制注意力叠加并归一化的过程,可以有效集成多种算法的分析能力,所形成的注意力和理论的真实注意力更加贴近,从而获得更好的翻译效果,可以有效提高翻译的准确度。

Description

多机制合并注意力的多路径神经机器翻译方法
技术领域
本发明涉及多机制合并注意力的多路径神经机器翻译方法,属于自然语言处理领域。
背景技术
机器翻译是指利用计算机实现将一种语言句子(源语言句子)翻译成含义相同的另一种语言句子(目标语言句子)的过程,已成为人工智能领域的重要研究方向。
现有技术中Gehring等人提出了CNN翻译机制实现机器翻译,它完全利用卷积神经网络实现机器翻译,它将卷积神经网络分别作为编码器和解码器的工作单元,其中,编码器和解码器均由多层卷积神经网络堆叠组成。在编码端,利用卷积操作对输入序列进行编码。在解码端,每个卷积层都进行注意力操作,所得的结果继续作为下一层的输入。最后,基于最后一层的隐状态预测下一个目标词。
现有技术中Vaswani等人提出了Transformer翻译机制实现机器翻译,它完全利用注意力机制实现机器翻译,在编码端,采用6个相同的编码层堆叠构成,其中,每一层均由多头自注意力机制子层和前馈神经网络子层组成,它们使用残差连接和层归一化。在解码端,采用6个相同的解码层堆叠构成,其中,每一层解码器比编码器多了一个屏蔽多头注意力层。
现有技术中Wang等人提出了Tree-Transformer翻译机制实现机器翻译,它在翻译时可以考虑句子中的句法信息,它在传统Transformer编码端的多头自注意力的基础上增加了成分注意力模块,用于捕获句法信息。
上述三个算法,算法分别来源自于本领域的顶级学术会议,是先有基于机器学习的自动翻译方法中,较新且性能优异的算法,但还存在提升的空间。
目前,注意力已经成为多数基于机器学习的自动翻译方法的核心关键,注意力的准确度直接决定了翻译的质量。在不同的注意力生成机制下,其注意力的计算结果不一致,而任何单一机制生成的注意力都不能完全准确的真实反映语言中的理论注意力。
考虑到实际决策的时候,广开言路,大家畅所欲言,然后将大家的意见整理,形成的民主式的决策通常比一言堂式的独断专行的决策通常更理想。我们推测在自动翻译形成注意力中引入类似民主决策的机制,可以让翻译准确度得以提升。
发明内容
本发明提供了多机制合并注意力的多路径神经机器翻译方法,以用于有效提升翻译质量。
本发明的技术方案是:多机制合并注意力的多路径神经机器翻译方法,该方法将CNN翻译机制、Transformer翻译机制、Tree-Transformer翻译机制相结合。利用每个自动翻译方法独自生成自身的注意力值,并将计算出来的注意力值进行加权累加,其中,我们认为更新的算法和实际实验数据更好的算法可能它们的注意力计算值于理论注意力值更贴近,因此,在累加时这些算法被赋予了更高的权重,具体的权重值还需要实验进一步确定,对齐累加后归一化形成新的注意力值。
我们参考了民主投票的过程,在民主投票中,相对而言,已知能力强的人应该获得更大的投票比例,在本发明所涉及的多机制方法中,较新的算法和实验数据较好的算法,它的注意力理论上更接近于真实的注意力,因此,我们在设计本方法权重的过程中,赋予了较新的算法或实验数据较好的算法更高的权重。
在多机制合并注意力的多路径神经机器翻译模型构建过程中,首先将输入词嵌入向量和位置嵌入向量求和分别输入给多个翻译机制,然后每个翻译机制根据自身的训练方式对输入进行训练,分别形成自己的训练模型,计算各自的注意力向量。在模型的编码端,将以上计算得到的多个注意力值加权叠加,然后对齐并进行归一化形成新的注意力值传送给解码器的Dec-Enc attention layer,使各翻译机制完成后续的机器翻译过程得到解码key-value矩阵。采用各机制生成的解码key-value矩阵进行加权叠加与归一化,通过线性变换层和softmax层,生成目标译文。
本发明所述方法的具体步骤如下:
Step1、收集训练语料;
Step2、对训练语料作预处理:对训练语料中的双语语料采用MOSES进行分词、小写化处理和数据清理最终保持长度在175以内的句对,然后使用BPE算法对预处理后的全部数据进行分词处理。
Step3、从经过预处理的语料中抽出一部分用作测试集、一部分用作验证集、其他用作训练集:从处理完的语料中随机抽取160K的平行语料用作训练集和7K的平行语料用作验证集训练翻译模型,6K的平行语料用作测试集,用于评估翻译模型;其中,训练集用于训练神经网络中的参数,测试集用于测试当前翻译模型的准确率,根据验证集的测试结果调节迭代次数、学习率等超参数,使翻译模型性能更优。
Step4、由训练集语料生成训练用源语言词嵌入向量、训练用位置嵌入向量,将它们拼接一起作为的输入,分别输入CNN翻译机制、Transformer翻译机制和Tree-Transformer翻译机制,每个翻译机制根据自身的训练方式对输入进行训练,分别形成自己的训练模型。
Step5、对待翻译的语句,生成语言词嵌入向量、位置嵌入向量,将其分别输入多个翻译机制,各个翻译机制根据自身训练模型,分别计算相应的注意力向量。采用CNN翻译机制、Transformer翻译机制和Tree-Transformer翻译机制,即采用这3种模型叠加,模型首先将输入序列转换为词嵌入向量,为了使模型可以学到序列中词的序列顺序,为每个输入的词嵌入向量添加位置嵌入向量,其中位置嵌入向量表示源语句中不同词的位置关系,并定义位置嵌入向量和词嵌入向量分别表示为p=(p1,…,pm)和w=(w1,…,wm),其中采用如下公式计算位置嵌入向量:
Figure BDA0002758044630000031
Figure BDA0002758044630000032
其中,pos表示源语句中词所在的位置,i表示维数;
将词嵌入向量与位置嵌入向量相加输入到模型中,分别输入给多个翻译机制,每个翻译机制根据自身的训练方式对输入进行训练,分别形成自己的训练模型。
Step6、将步骤Step5计算得到的多个注意力值进行加权叠加然后对齐并进行归一化形成新的注意力值并作为新的注意力,相对而言在测试语料上性能更高的算法会获得更高的权重,具体权重由实验获得。
Step7、将步骤Step6计算得到的注意力值送给解码器的Dec-Enc attentionlayer,让各翻译机制完成后续的机器翻译过程,分别生成解码key-value矩阵。
Step8、将各机制生成的解码key-value矩阵进行加权叠加与归一化,结果送往线性变换层和softmax层,生成目标译文。
本发明的有益效果是:
1、在本发明中,我们由每个自动翻译方法独自生成自身的注意力值,并将计算出来的注意力值进行加权累加,然后对齐并进行归一化形成新的注意力值,取得更好的翻译效果。
2、本发明所述的多机制注意力叠加并归一化的过程,可以有效集成多种算法的分析能力,形成“三个臭皮匠顶个诸葛亮”一样的民主决策优势,所形成的注意力和理论的真实注意力更加贴近,从而获得更好的翻译效果。
附图说明
图1为本发明中的流程框图;
图2为本发明的实验结果柱状图;
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
实施例1:本实例以德英语料作为翻译语料,选择的多决策方法分别为CNN翻译机制、Transformer翻译机制、Tree-Transformer翻译机制。
如图1-2所示,多机制合并注意力的多路径神经机器翻译方法,所述方法的具体步骤如下:
模型构建过程:
Step1、从网站上下载德英语料,确定使用的多个翻译机制;
Step2、对训练语料作预处理:对双语语料采用MOSES进行分词、小写化处理和数据清理最终保持长度在175以内的句对,然后使用BPE算法对预处理后的全部数据进行分词处理;
Step3、生成训练集、验证集和测试集:从处理完的语料中随机抽取160K的平行语料用作训练集和7K的平行语料用作验证集训练翻译模型、6K的平行语料用作测试集,用于评估翻译模型;
Step4、充分利用CNN翻译机制、Transformer翻译机制和Tree-Transformer翻译机制的优势,在编码端中,分别使用基于卷积神经网络的编码器、Transformer编码器和Tree-Transformer编码器对输入序列进行编码;
为了使模型可以学到源语句中词的序列顺序,采用位置嵌入向量与词嵌入向量按位相加作为编码端的输入,使模型可以捕获到输入序列中单词的位置信息,其中位置嵌入向量表示输入序列中不同词的位置信息,并定义位置嵌入向量和词嵌入向量分别表示为p=(p1,…,pm)和w=(w1,…,wm);
Step5、翻译模型中的所有翻译机制根据自身的训练方式对输入进行训练,分别形成自己的训练模型,计算各自的注意力向量;
Step6、将步骤Step5计算得到的多个注意力值进行加权叠加然后对齐并进行归一化形成新的注意力值;
Step7、在编码器和解码器之间,采用具有融合功能的注意力融合模块,用于自动获取解码目标词所需的信息。在解码端,每条路径的解码器都将编码器的三路径输出作为上下文来计算注意力。因此,有九种类型的信息流经过编码器到解码器。具体地,将步骤step6计算得到的注意力值送给解码器的Dec-Enc attention layer,它提取编码端三条路径生成的上下文信息和前一刻解码器的输出作为解码器输入作解码处理,其中,Dec-EncAttention”模块的具体计算公式如下:
ctxcc=Attention(qc,kc,vc)
ctxca=Attention(qc,ka,va)
ctxcl=Attention(qc,kl,vl)
ctxaa=Attention(qa,ka,va)
ctxac=Attention(qa,kc,vc)
ctxal=Attention(qa,kl,vl)
ctxll=Attention(ql,kl,vl)
ctxlc=Attention(ql,kc,vc)
ctxla=Attention(ql,ka,va)
其中,ctxcc是指解码器中CNN路径的注意力查询值qc和编码端中CNN路径的注意键kc和值vc的注意力结果。ctxca是指解码器中CNN路径的注意力查询值qc和编码端中Transformer路径的注意键ka和值va的注意力结果。ctxcl是指解码器中CNN路径的注意力查询值qc和编码端中Tree-Transformer路径的注意键kl和值vl的注意力结果。ctxaa是指解码器中CNN路径的注意力查询值qa和编码端中CNN路径的注意键ka和值va的注意力结果。ctxac是指解码器中CNN路径的注意力查询值qa和编码端中Transformer路径的注意键kc和值vc的注意力结果。ctxcl是指解码器中CNN路径的注意力查询值qa和编码端中Tree-Transformer路径的注意键kl和值vl的注意力结果。ctxll是指解码器中CNN路径的注意力查询值ql和编码端中CNN路径的注意键kl和值vl的注意力结果。ctxlc是指解码器中CNN路径的注意力查询值ql和编码端中Transformer路径的注意键kc和值vc的注意力结果。ctxla是指解码器中CNN路径的注意力查询值ql和编码端中Tree-Transformer路径的注意键ka和值va的注意力结果。
为了充分利用不同编码器路径捕获的信息,我们采用加权求和机制融合它们。
Step8、预测目标词:在解码端,三个解码器生成解码信息后,采用加权求和机制整合三个解码器生成的信息,并将整合结果传入softmax层预测目标词,其公式如下:
zo=normal(zc+za+zt)
P(y)=softmax(zoWs+bs)
其中,zc、za、zt分别表示三个解码器生成的解码信息。zo表示最终三路解码器融合的输出结果。P(y)是目标词的预测概率。
为了验证本发明的有效性,在实验中将基于CNN的神经机器翻译模型、Transformer翻译模型、Tree Transformer翻译模型、CNN与Transformer相结合的翻译模型以及本发明同时结合CNN、Transformer与Tree Transformer的翻译模型进行对比;
其中,在模型参数设置时,设置的参数如下所示:
本实验的运行环境为:pythen 3.6.,深度学***滑率设为0.1,采用NAG优化器优化训练模型,批次大小为128。
为了证明我们方法的有效性,我们将我们的方法分别与CNN翻译机制、Transformer翻译机制、Tree-Transformer翻译机制、CNN+Transformer翻译机制这四个基准模型进行了比较。
由于每个方法的具体参数可能影响最终实验数据,但对这些参数的精细化调整对突出本发明有益性无关,为表示本发明的有效性和有益性具有一般性,我们将所有算法的运行参数设置为接近的,这些参数也和这些算法原作者提供的实例接近。
采用BLEU值对翻译模型进行评估,由附图2和表1可以看出,本发明多机制合并注意力的多路径神经机器翻译方法能够有效提升神经机器翻译的性能。
为证明本发明的有益性,我们设计了两个实例(实例5,实例6)用于和已有方法进行比较,这两个实例均采用三种机制叠加的方式生成注意力,其中实例5没有采用加权的方式进行叠加,实例6对更新的Tree Transformer方法设置了两倍的权重。本实验中,算法5编码端分别采用Transformer编码器、Tree Transformer编码器和基于CNN的编码器,解码端只采用1个Transformer解码器,注意力生成方案为。算法6编码端分别采用Transformer编码器、Tree Transformer编码器和基于CNN的编码器,解码端采用1个Transformer解码器和1个基于CNN的解码器,并且采用2倍句法信息。
表1为不同模型的翻译结果表
模型 德-英数据集
算法1 CNN 29.07
算法2 Transformer 28.65
算法3 Tree Transformer 29.62
算法4 CNN+Transformer 31.69
算法5(本发明) CNN+Transformer+Tree Transformer 32.49
算法6(本发明) CNN+Transformer+2*Tree Transformer 32.69
表1中展示了本发明提出的翻译模型和基线模型在德-英语料的翻译结果。从表1中可看出,CNN,Transformer,Tree Transformer模型均能在德-英语料到正确的结果,且Tree Transformer具有更好的性能。本发明所述的三机制注意力加权叠加的方法具有更好的BLEU值,翻译更加准确,和我们预测的民主投票效果比单一决策更准确是一致的。特别是,当我们给Tree Transformer赋予了2倍的权重后,BLEU值继续提高了0.2,表明我们的加权策略是有效的。目前基于我们带加权民主投票的注意力生成机制,我们获得了更好的实验性能,也充分体现了本发明的有益效果。
本发明提出的多机制合并注意力的多路径神经机器翻译方法在翻译任务上具有良好的性能,主要有以下几方面原因:1、我们提出的翻译模型同时结合了CNN翻译机制、Transformer翻译机制、Tree Transformer翻译机制的优点,其中,Tree Transformer在翻译时可以融入句法信息。2、我们由每个自动翻译方法独自生成自身的注意力值,并将计算出来的注意力值进行加权累加,然后对齐并进行归一化形成新的注意力值。多机制注意力叠加并归一化的过程,可以有效集成多种算法的分析能力,形成“三个臭皮匠顶个诸葛亮”一样的多决策优势,所形成的注意力和理论的真实注意力更加贴近,从而获得更好的翻译效果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.多机制合并注意力的多路径神经机器翻译方法,其特征在于:具体步骤如下:
Step1、收集训练语料;
Step2、对训练语料作预处理;
Step3、从经过预处理的训练语料中抽取训练集、验证集和测试集;
Step4、由训练集语料生成训练用源语言词嵌入向量、训练用位置嵌入向量,将它们拼接一起作为输入,分别输入CNN翻译机制、Transformer翻译机制和Tree-Transformer翻译机制,每个翻译机制根据自身的训练方式对输入进行训练,分别形成自己的训练模型;
Step5、对待翻译的语句,生成语言词嵌入向量、位置嵌入向量,将其分别输入多个翻译机制,各个翻译机制根据自身训练模型,分别计算相应的注意力向量;
Step6、将步骤Step5计算得到的多个注意力值进行加权叠加然后对齐并进行归一化形成新的注意力值;
Step7、将步骤Step6计算得到的注意力值送给解码器的Dec-Enc attention layer,让各翻译机制完成后续的机器翻译过程,分别生成解码key-value矩阵;
Step8、将各机制生成的解码key-value矩阵进行加权叠加与归一化,结果送往线性变换层和softmax层,生成目标译文。
2.根据权利要求1所述的多机制合并注意力的多路径神经机器翻译方法,其特征在于:所述步骤Step2中预处理具体为对训练语料中的双语语料采用MOSES进行分词、小写化处理和数据清理最终保持长度在175以内的句对,然后使用BPE算法对预处理后的全部数据进行分词处理。
3.根据权利要求1所述的多机制合并注意力的多路径神经机器翻译方法,其特征在于:所述步骤Step3中抽取训练集、验证集和测试集是指从处理完的语料中随机抽取160K的平行语料用作训练集和7K的平行语料用作验证集训练翻译模型,6K的平行语料用作测试集,用于评估翻译模型。
4.根据权利要求1所述的多机制合并注意力的多路径神经机器翻译方法,其特征在于:所述步骤Step4中采用CNN翻译机制、Transformer翻译机制和Tree-Transformer翻译机制,即采用这3种模型叠加,模型首先将输入序列转换为词嵌入向量,为了使模型可以学到序列中词的序列顺序,为每个输入的词嵌入向量添加位置嵌入向量,其中位置嵌入向量表示源语句中不同词的位置关系,并定义位置嵌入向量和词嵌入向量分别表示为p=(p1,…,pm)和w=(w1,…,wm),其中采用如下公式计算位置嵌入向量:
Figure FDA0002758044620000021
Figure FDA0002758044620000022
其中,pos表示源语句中词所在的位置,i表示维数;
将词嵌入向量与位置嵌入向量相加输入到模型中,分别输入给多个翻译机制,每个翻译机制根据自身的训练方式对输入进行训练,分别形成自己的训练模型。
5.根据权利要求1所述的多机制合并注意力的多路径神经机器翻译方法,其特征在于:所述步骤Step6中通过编码端接收输入向量分别计算注意力值进行加权叠加,然后对齐并进行归一化形成新的注意力值,编码端由三个编码器组成,其中给Tree-Transformer翻译机制赋予的权重为其余两种翻译机制的两倍。
6.根据权利要求1所述的多机制合并注意力的多路径神经机器翻译方法,其特征在于:所述步骤Step7中,解码器的Dec-Enc attention layer分别接收编码端生成的注意力值key-value键值对,解码器中的查询矩阵q与键矩阵k进行点积运算,再与值矩阵v进行加权求和,让各翻译机制完成后续的机器翻译过程,分别生成解码key-value矩阵。
CN202011209086.0A 2020-11-03 2020-11-03 多机制合并注意力的多路径神经机器翻译方法 Pending CN112329483A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011209086.0A CN112329483A (zh) 2020-11-03 2020-11-03 多机制合并注意力的多路径神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011209086.0A CN112329483A (zh) 2020-11-03 2020-11-03 多机制合并注意力的多路径神经机器翻译方法

Publications (1)

Publication Number Publication Date
CN112329483A true CN112329483A (zh) 2021-02-05

Family

ID=74322805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011209086.0A Pending CN112329483A (zh) 2020-11-03 2020-11-03 多机制合并注意力的多路径神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN112329483A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717343A (zh) * 2019-09-27 2020-01-21 电子科技大学 一种基于transformer注意力机制输出的优化对齐方法
CN114118111A (zh) * 2021-11-26 2022-03-01 昆明理工大学 融合文本和图片特征的多模态机器翻译方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377918A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377918A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAITAO SONG等: "Double Path Networks for Sequence to Sequence Learning", 《COMPUTATION AND LANGUAGE》 *
习翔宇: "论文解读:Attention is all you need", 《ZHUANLAN.ZHIHU.COM/P/46990010》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717343A (zh) * 2019-09-27 2020-01-21 电子科技大学 一种基于transformer注意力机制输出的优化对齐方法
CN110717343B (zh) * 2019-09-27 2023-03-14 电子科技大学 一种基于transformer注意力机制输出的优化对齐方法
CN114118111A (zh) * 2021-11-26 2022-03-01 昆明理工大学 融合文本和图片特征的多模态机器翻译方法
CN114118111B (zh) * 2021-11-26 2024-05-24 昆明理工大学 融合文本和图片特征的多模态机器翻译方法

Similar Documents

Publication Publication Date Title
Chen et al. Semantically conditioned dialog response generation via hierarchical disentangled self-attention
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN109492227A (zh) 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110737769A (zh) 一种基于神经主题记忆的预训练文本摘要生成方法
CN112733533B (zh) 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及***
CN114169330A (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN112329483A (zh) 多机制合并注意力的多路径神经机器翻译方法
CN114398976A (zh) 基于bert与门控类注意力增强网络的机器阅读理解方法
He et al. Improving neural relation extraction with positive and unlabeled learning
CN110033008A (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN114926150A (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
Zhao et al. RoR: Read-over-read for long document machine reading comprehension
CN113901847A (zh) 基于源语言句法增强解码的神经机器翻译方法
CN113822125A (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
Li et al. Neuron-based spiking transmission and reasoning network for robust image-text retrieval
CN116010622A (zh) 融合实体类型的bert知识图谱补全方法及***
CN117350330A (zh) 基于混合教学的半监督实体对齐方法
CN115810351A (zh) 一种基于视听融合的管制员语音识别方法及装置
CN116450877A (zh) 一种基于语义选择与层次对齐的图像文本匹配方法
CN110516230A (zh) 基于枢轴语言的汉-缅双语平行句对抽取方法及装置
CN117539999A (zh) 一种基于跨模态联合编码的多模态情感分析方法
CN116595222A (zh) 基于多模态知识蒸馏的短视频多标签分类方法及装置
CN114648024A (zh) 基于多类型词信息引导的汉越跨语言摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205

RJ01 Rejection of invention patent application after publication