CN110598221A - 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 - Google Patents

利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 Download PDF

Info

Publication number
CN110598221A
CN110598221A CN201910807617.7A CN201910807617A CN110598221A CN 110598221 A CN110598221 A CN 110598221A CN 201910807617 A CN201910807617 A CN 201910807617A CN 110598221 A CN110598221 A CN 110598221A
Authority
CN
China
Prior art keywords
mongolian
sentence
chinese
translation
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910807617.7A
Other languages
English (en)
Other versions
CN110598221B (zh
Inventor
苏依拉
孙晓骞
王宇飞
赵亚平
张振
高芬
贺玉玺
王昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN201910807617.7A priority Critical patent/CN110598221B/zh
Publication of CN110598221A publication Critical patent/CN110598221A/zh
Application granted granted Critical
Publication of CN110598221B publication Critical patent/CN110598221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,生成对抗网络包括生成器和鉴别器,生成器使用混合编码器将源语言句子蒙古语编码为向量表示,使用基于双向Transformer的解码器结合稀疏注意力机制将该表示转化成为目标语言句子汉语,从而生成更加接近人类翻译的蒙古语句子和更多的蒙汉平行语料,在鉴别器中,判断生成器生成的汉语句子与人类译文的差距,将生成器和鉴别器进行对抗训练,直到鉴别器认为生成器生成的汉语句子与人类译文非常相似时,得到高质量的蒙汉机器翻译***和大量的蒙汉平行数据集,利用该蒙汉机器翻译***进行蒙汉翻译。本发明解决了针对蒙汉平行数据集严重匮乏以及NMT不能保证翻译结果的自然性、充分性和准确性等问题。

Description

利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的 方法
技术领域
本发明属于机器翻译技术领域,特别涉及一种利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法。
背景技术
机器翻译能够利用计算机将一种语言自动翻译成为另外一种语言,是解决语言障碍问题的最有力手段之一。近年来,许多大型搜索企业和服务中心例如谷歌、百度等针对机器翻译都进行了大规模的研究,为获取机器翻译的高质量译文做出了重要贡献,因此大语种之间的翻译已经接近人类翻译水平,数百万人使用在线翻译***和移动应用实现了跨越语言障碍的交流。在近几年深度学习的浪潮中,机器翻译已成为重中之重,已经成为促进全球交流的重要组成部分。
基于Seq2Seq的神经机器翻译框架由编码器和解码器组成,编码器读取输入序列并输出单个矢量,解码器读取该矢量以产生输出序列。自2013年以来,该框架获得了迅速的发展,相对于统计机器翻译而言在翻译质量上获得了显著的提升。句子级最大似然估计原理、LSTM和GRU中的门控单元以及注意力机制的加入使得NMT翻译长句子的能力得到了提高。2017年AshishVaswani等人提出了Transformer架构,一种完全依赖于注意机制来绘制输入和输出之间全局依赖关系的架构。这样做的好处是实现了并行化计算、有效减少了模型的训练时间、在一定程度上提高了机器翻译模型的质量。避免了RNN及其衍生网络慢且无法实现并行化等缺点。
目前,神经机器翻译已经很成功了,但是最好的NMT***和人们的期望任有较大的差距,翻译质量有待提高。因为NMT通常采用最大似然估计训练模型,即最大化以源句为条件的目标真实句子的概率,即:模型可以为当前生成最佳的候选词,但是从长远来看对整个句子的翻译并不是最佳翻译,这给NMT留下了一个隐患。就连强大的Transformer也不例外。与人类的真实翻译相比,这样的目标并不能保证翻译结果的自然性、充分性和准确性。
另外,大语种之间的互译已经相对比较成熟,但小语种之间的机器翻译由于各种挑战尤其是语料库的严重缺乏,人工构建平行语料代价十分昂贵,因此翻译效果仍不尽人意。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,该方法主要针对蒙汉平行数据集严重匮乏以及NMT不能保证翻译结果的自然性、充分性和准确性等的问题,将生成对抗网络应用在蒙汉神经机器翻译中。
为了实现上述目的,本发明采用的技术方案是:
一种利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,将生成对抗网络用在蒙汉机器翻译中来缓解蒙汉平行语料库匮乏导致的蒙汉机器翻译质量较低的问题以及最小化人类翻译与NMT模型给出的翻译之间的区别,所述生成对抗网络主要包括生成器和鉴别器,生成器的加入可以有效的利用蒙汉单语数据,缓解机器翻译任务中蒙汉平行语料匮乏的问题。在所述生成器中,为了缓解蒙汉机器翻译中的UNK现象,使用混合编码器将源语言句子蒙古语编码为向量表示,使用基于双向Transformer的解码器结合稀疏注意力机制将该向量表示转化成为目标语言句子汉语,从而生成更加接近人类翻译的蒙古语句子和更多的蒙汉平行语料,提高蒙汉机器翻译的质量和效率。在所述鉴别器中,判断生成器生成的汉语句子与人类译文的差距,所述生成器的目标主要是生成更加接近人类翻译的蒙古语句子以及有效的利用蒙汉单语数据生成更多的蒙汉平行语料,而所述鉴别器的目的是计算生成器生成的汉语句子与人类翻译的汉语句子之间的差距。将生成器和鉴别器进行对抗训练,直到鉴别器认为生成器生成的汉语句子与人类译文非常相似时,即生成器和鉴别器实现纳什均衡时,得到高质量的蒙汉机器翻译***和大量的蒙汉平行数据集,利用该蒙汉机器翻译***进行蒙汉翻译。
所述混合编码器由句子编码器和单词编码器组成,为了捕获句子之间的语义信息及编码器效率,句子编码器由双向Transformer组成,单词编码器使用双向LSTM,在保证编码器质量的条件下提高了单词编码器的效率。所述双向Transformer为优化Transformer1,在原Transformer的基础上首先加入了门控线性单元,以有效的获取源语言句子中的重要信息并舍弃多余信息;其次加入了分支结构,以有效地捕获源语言句子之间的多样化语义信息;最后,在分支结构上以及第三个层标准化之后加入了胶囊网络,使编码器可以捕获到源语言句子中词的准确位置,进一步强化编码器的准确性,提高了编码质量;所述解码器中,双向Transformer为优化Transformer2,在原Transformer的基础上首先加入了分支结构;其次加入了胶囊网络;最后加入了Swish激活函数,以有效地提高解码器解码的准确率。
所述单词编码器和句子编码器先后将源语言句子进行编码,然后通过融合函数进行融合得到带有上下文信息的向量表示,其中,单词编码器将每个单词表示成向量形式,构建以单词为基本单元的蒙古语句子的向量表示,其模型公式为:
h1i=Φ(h1i-1,Wi)
其中,Φ为激活函数,Wi为权重,h1i-1为第i-1个字的隐层状态。
句子编码器将一整个蒙古语句子表示成向量形式,构建以句子为基本单元的向量表示,其模型公式为:
其中,vj表示第j个字的值(Value),的计算公式如下:
其中,αi,j的计算如下式所示:
其中,qi为第i个字的查询(query),kj为第j个字的键(key),·表示点积运算,d表示q和k的维度;
所述融合函数如下式所示:
ψ(h1i,h2i)=a1h1i+a2h2i
其中,ψ为融合函数,a1,a2表示两种编码器通过随机初始化的相应权重,通过两种编码融合成包含句子、单词两种向量信息的编码器。
所述句子编码器中,双向Transformer是指一次性读取整个文本序列,即基于句子的两侧学习,而不是从左到右或从右到左地按顺序读取,从而能够学习文本中单词之间的上下文关系。
所述解码器中,双向Transformer指一次性读取源语言句子的向量表示,即基于整个句子向量表示的两侧进行解码,以进一步提高解码器解码的准确率。
为了增强鉴别器的鉴别能力,所述鉴别器为多尺度鉴别器,能够鉴别生成器生成的汉语句子的大体句意和细节信息(例如短语和单词等),以协助生成器生成更加接近真实翻译的句子;同时,为了克服卷积神经网络的平移不变性,所述多尺度鉴别器使用胶囊网络来实现,在不降低训练效率的条件下可以有效的提高鉴别器的鉴别能力,所述平移不变性是指:比如在人脸识别中,卷积神经网络认为一张有眼睛有嘴巴等特征的脸就是人脸,忽略了脸中五官的具***置。如果将其用在生成对抗网络中作为鉴别器,因为它的平移不变性会认为生成器生成的汉语句子中只要有全部的人工翻译的句子中的词的句子就是人工翻译的句子。而忽略掉词的位置信息,从而导致鉴别失误。胶囊网络包括卷积层、主胶囊层、卷积胶囊层和全连接胶囊;为了使用一个网络表示多个鉴别器,提高训练效率,在卷积层中,不同子层的激活值代表不同粒度句子的激活值,低层的激活值表示单词的激活值,高层的激活值表示整个句子的激活值,最后将不同层的特征映射变换到通道数为1的同尺度特征映射。
给定句子对(x,y),每个胶囊网络首先通过连接x和y中单词的嵌入向量来构造类似2D图像的表示,即对于源语言句子x中的第i个词xi和目标语言句子y中的第j个词yj,有如下的对应关系:
其中:xi T表示xi的转置,yj T表示yj的转置,表示源语言中第i个词xi和目标语言中第j个词yj构成的矩阵,即虚拟2D图像表示;
基于所述虚拟2D图像表示,依次经过所述胶囊网络的卷积层、主胶囊层、卷积胶囊层、全连接胶囊层,来捕获在源语言句子x的条件下,生成器翻译的句子y'与人工翻译的句子y之间的相似程度。
所述虚拟2D图像表示,依次经过所述胶囊网络的卷积层、主胶囊层、卷积胶囊层、全连接胶囊层的具体过程为:
(1)经过卷积层,首先进行步长为1的、卷积核为9×9的卷积运算,通过如下的特征映射捕获x与y中句子之间的对应关系。
其中,f为第一次卷积运算的激活函数,为第一次卷积运算的权重,表示源语言中第i个词xi和目标语言中第j个词yj构成的矩阵,b(1,f)为第一次卷积运算的偏置;
然后进行步长为1,卷积核为3×3的卷积运算,通过如下的特征映射捕获x与y中单词之间的对应关系。
其中,为第二次卷积运算的权重,f、b(1,f)与第一次卷积算法中的相同;
经过两次卷积运算后分别得到两个大小不同的特征图接着对较小的特征图进行填充使得两个特征图大小相同,然后用对两个相同大小的特征图求平均的方法得到最终的特征图,如下式所示:
(2)进入主胶囊层即第一个胶囊层,对卷积层的输出进行如下计算
p=g(WbM+b1)
其中,g为通过整个向量的非线性挤压函数squash,M表示胶囊的输入,b1为胶囊的偏置,Wb为权重;在主胶囊层中,胶囊将卷积操作的标量输出替换为了矢量输出;
(3)通过动态路由算法代替最大池化,动态地加强或者减弱权重来得到有效的特征;
(4)进入卷积胶囊层;在该层以后,上一层的所有胶囊都改成一些列胶囊,通过动态路由算法进一步动态的加强或者减弱权重,从而获得更有效的特征;
(5)进入全连接胶囊层,将所有提取到的特征进行连接;
(6)将所有的特征输入到多层感知器中,使用激活函数得到生成器生成的数据集(x,y')为真实数据(x,y)的概率即与真实句子的相似程度。
所述生成对抗网络的最终训练目标是:
其中:G表示生成器,D表示鉴别器,V(D,G)表示生成器G和鉴别器D的损失函数,表示求能使损失函数V(D,G)达到最大的D并且使损失函数达到最小的G,E表示期望,Pdata(x,y)表示将平行语料库中的源语言x和目标语言y输入到鉴别器D中,鉴别器认为其为人工翻译的概率,G(y'|x)表示将平行语料库中的源语言x和G生成的目标语言y'输入到鉴别器D中,鉴别器认为其为人工翻译的概率,x表示平行语料库中的蒙古语句子,即源语言句子,y表示平行语料库中的汉语句子,即人工翻译结果,y'表示生成器生成的汉语句子,即生成器的翻译结果。
过程中:
对蒙古语语料格的附加成分进行处理,方法如下:
将蒙古语句子中的控制符与格的附加成分一同去除,只留下词干部分;
对蒙古语语料进行不同粒度的切分,对汉语进行分字处理,以缓解蒙汉机器翻译中的UNK现象,通过对蒙古文格的附加成分进行处理来进一步提高蒙汉机器翻译的质量。
切分方法如下:
(1)首先将所需预处理的语料以最小的单元切分开,对于蒙古语而言,最小的单元为蒙古语字母。
(2)然后对语料中所有相邻的最小单元组合出现的次数进行统计并且排序,找出出现频率最高的组合,并将这些组合加入到词典中同时删除掉词典中频率最低的词使词典的大小保持不变。
(3)重复步骤(1)(2),直至词典里的词在自身语料库中出现的频率都高于设定值;
神经机器翻译(Neural machine translation,NMT)在端到端的框架上取得了较好的翻译效果,但是最好的NMT***和人们的期望任有较大的差距。相较于此,本发明可最小化人类翻译与NMT模型给出的翻译之间的区别、缓解蒙汉机器翻译中的数据稀疏问题以及缓解蒙汉机器翻译中的UNK现象,不仅得到了高质量的蒙汉机器翻译***,同时也得到了大量的蒙汉平行数据集。
附图说明
图1为优化Transformer1架构。
图2为优化Transformer2架构。
图3为生成器框架。
图4为鉴别器框架。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,主要包括编码器和解码器的构建以及鉴别器模型的构建。
图1所示为优化Transformer1架构。在原Transformer的基础上首先加入了门控线性单元,有效的获取源语言句子中的重要信息并舍弃多余信息;其次加入了分支结构,该结构可以有效地捕获源语言句子之间的多样化语义信息;最后,在分支结构上以及第三个层标准化之后加入了胶囊网络,使编码器可以捕获到源语言句子中词的准确位置,进一步强化编码器的准确性。
图2所示为优化Transformer2架构。在原Transformer的基础上首先加入了分支结构;其次加入了胶囊网络;最后加入了Swish激活函数,该激活函数的加入可以有效地提高解码器解码的准确率。
图3所示为生成器框架。主要由混合编码器、稀疏注意力及解码器3大部分组成,编码器接受输入的蒙古语句子如:首先基于双向优化Transformer将整个句子进行双向编码,同时基于双向LSTM的编码器对其中的单词进行编码,然后使用一个融合函数将两种编码器的表示进行融合,生成源语言的编码表示。接着解码器结合稀疏注意力机制将源语言编码表示解码为目标语言汉语句子“明天要下雨”。
图4所示为胶囊网络的框架,包括卷积层、主胶囊层、卷积胶囊层、全连接胶囊层等。其中卷积层包括两层,一层捕获句子级别的特征,另外一层捕获单词级别的特征,实现所述的多尺度鉴别功能。
蒙汉机器翻译中的数据稀疏问题的缓解:
生成对抗网络中生成器的加入可以有效的缓解蒙汉机器翻译中目前存在的数据稀疏问题,具体的,首先通过蒙汉对齐语料对生成器进行预训练,得到预训练模型后,借助该模型利用蒙古语单语数据生成蒙汉伪双语数据,然后在鉴别器的协助下,生成更加接近人工翻译的汉语句子,形成蒙汉对齐语料。
蒙汉机器翻译译文的准确性以及自然性的提高:
生成器生成的汉语句子往往是比较生硬、不自然的,此发明中,鉴别器相当于生成器的老师,协助生成器生成更加自然准确的汉语句子。多尺度鉴别器表示老师具有从多方面判断生成器生成的句子与人工译文是否相似的能力。
决策变量:在生成器的编码器端输入的蒙古语句子x,在生成器的解码器端输出对应的机器翻译的汉语句子y。在鉴别器的输入端输入的蒙古语句子x、对应的人工翻译的汉语句子y以及对应的生成器翻译的汉语句子y′
本发明包括以下部分:
1、基于生成对抗网络的蒙汉神经机器翻译***模型,包括以下几个部分:
A.基于生成对抗网络的蒙汉神经机器翻译***生成器中混合编码器描述:混合编码器由句子编码器和单词编码器融合而成,单词编码器和句子编码器先后将源语言句子进行编码,其中,单词编码器将每个单词表示成向量形式,构建以单词为基本单元的蒙古语句子的向量表示,其模型公式为:
h1i=Φ(h1i-1,Wi)
其中,Φ为激活函数,Wi为权重,h1i-1为第i-1个字的隐层状态。
句子编码器将一整个蒙古语句子表示成向量形式,构建以句子为基本单元的向量表示。所述句子编码器中,双向优化Transformer1一次性读取整个文本序列,即基于句子的两侧学习,从而能够学习到句子之间的上下文关系并且实现并行化。其模型公式为:
其中,vj表示第j个字的Value(值),的计算公式如下:
其中,αi,j的计算如下式所示:
其中,qi为第i各字的query(查询),kj为第j个字的键(key),·表示点积运算,d表示q和k的维度。
最后通过融合函数进行融合得到编码为带有上下文信息的向量表示。融合函数如下式所示:
ψ(h1i,h2i)=a1h1i+a2h2i
其中,ψ为融合函数,a1,a2表示两种编码器通过随机初始化的相应权重,通过两种粒度编码融合成包含句子、单词两种向量信息的编码器。
B.基于生成对抗网络的蒙汉神经机器翻译***生成器中解码器描述:解码器由双向优化transformer2组成,优化Transformer2与编码器中的优化Transformer1结构基本类似,不同的是,该部分的优化Transformer中加入了Swish激活函数。解码器在解码的过程中结合稀疏注意力机制将源语言句子的向量表示解码为目标语言句子。
C.基于生成对抗网络的蒙汉神经机器翻译***鉴别器描述:所述鉴别器为多尺度鉴别器,该结构不仅可以鉴别生成器生成的汉语句子的大体句意,而且还可以鉴别生成器生成的汉语句子的细节信息(例如短语和单词等),可以协助生成器生成更加接近真实翻译的句子。所述多尺度鉴别器使用胶囊网络来实现,胶囊网络包括卷积层、主胶囊层、卷积胶囊层和全连接胶囊。为了使用一个网络表示多个鉴别器,提高训练效率,在卷积层中,不同子层的激活值代表不同粒度句子的激活值,低层的激活值表示单词的激活值,高层的激活值表示整个句子的激活值,最后将不同层的特征映射变换到通道数为1的同尺度特征映射。具体的,给定句子对(x,y),每个胶囊网络首先通过连接x和y中单词的嵌入向量来构造类似2D图像的表示,即对于源语言句子x中的第i个词xi和目标语言句子y中的第j个词yj,有如下的对应关系:
其中:xi T表示xi的转置,yj T表示yj的转置,表示源语言中第i个词xi和目标语言中第j个词yj构成的矩阵,即虚拟2D图像表示。
基于这样的虚拟2D图像表示,依次经过所述胶囊网络的卷积层、主胶囊层、卷积胶囊层、全连接胶囊层来捕获在源语言句子x的条件下,生成器翻译的句子y′与人工翻译的句子y之间的相似程度。具体过程为:
(1)经过卷积层,首先进行步长为1的、卷积核为9×9的卷积运算,通过如下的特征映射捕获x与y中句子之间的对应关系。
其中,f为第一次卷积运算的激活函数,为第一次卷积运算的权重,表示源语言中第i个词xi和目标语言中第j个词yj构成的矩阵,b(1,f)为第一次卷积运算的偏置。
然后进行步长为1,卷积核为3×3的卷积运算,通过如下的特征映射捕获x与y中单词之间的对应关系。
其中,为第二次卷积运算的权重,f、b(1,f)与第一次卷积算法中的相同。
经过两次卷积运算后分别得到两个大小不同的特征图接着对较小的特征图进行填充使得两个特征图大小相同,然后用对两个相同大小的特征图求平均的方法得到最终的特征图,如下式所示:
(2)进入主胶囊层,对卷积层的输出进行如下计算。
p=g(WbM+b1)
其中,g为通过整个向量的非线性挤压函数squash,M表示胶囊的输入,b1为胶囊的偏置,Wb为权重。
这是第一个胶囊层,在这个胶囊层中,胶囊将卷积操作的标量输出替换为了矢量输出。
(3)通过动态路由算法代替最大池化,动态的加强或者减弱权重来得到有效的特征。
(4)进入卷积胶囊层。在这一层以后,上一层的所有胶囊都改成一些列胶囊,通过动态路由算法进一步动态的加强或者减弱权重,从而获得更有效的特征。
(5)进入全连接胶囊层,将所有提取到的特征进行连接。
(6)将所有的特征输入到多层感知器中,使用激活函数得到生成器生成的数据集(x,y')为真实数据(x,y)的概率。
2、优化的蒙汉机器翻译模型,包括以下部分:
A.对蒙古语进行BPE处理
现行蒙古文是一种纯粹的拼音文字,它在拼音的方法上与西欧以及世界各地的主要拼音文字没有什么不同,BPE技术是一种通过统计邻近字符出现频率对拼音文字进行切分的算法,出现频率较高的连续字符被认为是一个组合。一般情况下,蒙古文中的各种词根词缀就是出现频率较高的蒙古文字符组合,因此本发明将BPE算法应用在对蒙古文的切分上。具体算法描述如下:
(1)首先将所需预处理的语料以最小的单元切分开,对于蒙古语而言,最小的单元为蒙古语字母。
(2)然后对语料中所有相邻的最小单元组合出现的次数进行统计并且排序,找出出现频率最高的组合,并将这些组合加入到词典中同时删除掉词典中频率最低的词使词典的大小保持不变。
(3)重复步骤(1)(2),直至词典里的词在自身语料库中出现的频率都是较高的。
B.去除蒙古语中格的附加成分
在蒙古语语料中,蒙古文空格与普通空格之间的成分被标注为格的附加成分。蒙古文的词与词之间需要格的附加成分,格的附加成分本身仅有语法意义而无语义。蒙古文加上格的附加成分之后,句子才能变得通顺。在蒙汉机器翻译中,如果不对格的附加成分进行处理,机器翻译模型会将蒙古文空格识别为普通的空格进行处理,从而容易使一个蒙古文词从中间被切分开来而被识别成两个词甚至多个词。这会使蒙古文句子长度明显增长而影响翻译质量和最终的BLEU测评。因此,本发明将蒙古语句子中的控制符与格的附加成分一同去除,只留下词干部分。
C.对汉语进行分字处理
汉语属于汉藏语系,每句话只由单个的字和标点符号构成,这样计算机在处理的时候只能将整句话看成一个单元,不利于计算机的计算与处理,因此在蒙汉机器翻译模型训练之前需要对汉语语料进行分隔处理,本发明采用对汉语进行分字的方法。
本发明的整体流程如下:
(1)搭建生成对抗网络中生成器的混合编码器
(2)搭建生成对抗网络中生成器的解码器
(3)搭建生成对抗网络中的鉴别器
(4)对蒙古语语料进行格的处理
(5)对蒙古语语料进行不同粒度的切分
(6)对汉语进行分字处理
(7)训练生成器
(8)通过训练好的生成器模型生成消极数据
(9)训练鉴别器
(10)进行对抗训练
(11)对所得蒙汉机器翻译模型的BLEU值进行测试。

Claims (10)

1.一种利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,其特征在于,所述生成对抗网络主要包括生成器和鉴别器,在所述生成器中,使用混合编码器将源语言句子蒙古语编码为向量表示,使用基于双向Transformer的解码器结合稀疏注意力机制将该向量表示转化成为目标语言句子汉语,从而生成更加接近人类翻译的蒙古语句子和更多的蒙汉平行语料,在所述鉴别器中,判断生成器生成的汉语句子与人类译文的差距,将生成器和鉴别器进行对抗训练,直到鉴别器认为生成器生成的汉语句子与人类译文非常相似时,即生成器和鉴别器实现纳什均衡时,得到高质量的蒙汉机器翻译***和大量的蒙汉平行数据集,利用该蒙汉机器翻译***进行蒙汉翻译。
2.根据权利要求1所述利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,其特征在于,所述混合编码器由句子编码器和单词编码器组成,句子编码器由双向Transformer组成,单词编码器使用双向LSTM,所述双向Transformer为优化Transformer1,在原Transformer的基础上首先加入了门控线性单元,以有效的获取源语言句子中的重要信息并舍弃多余信息;其次加入了分支结构,以有效地捕获源语言句子之间的多样化语义信息;最后,在分支结构上以及第三个层标准化之后加入了胶囊网络,使编码器可以捕获到源语言句子中词的准确位置,进一步强化编码器的准确性;所述解码器中,双向Transformer为优化Transformer2,在原Transformer的基础上首先加入了分支结构;其次加入了胶囊网络;最后加入了Swish激活函数,以有效地提高解码器解码的准确率。
3.根据权利要求2所述利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,其特征在于,所述单词编码器和句子编码器先后将源语言句子进行编码,然后通过融合函数进行融合得到带有上下文信息的向量表示,其中,单词编码器将每个单词表示成向量形式,构建以单词为基本单元的蒙古语句子的向量表示,其模型公式为:
h1i=Φ(h1i-1,Wi)
其中,Φ为激活函数,Wi为权重,h1i-1为第i-1个字的隐层状态。
句子编码器将一整个蒙古语句子表示成向量形式,构建以句子为基本单元的向量表示,其模型公式为:
其中,vj表示第j个字的值(Value),的计算公式如下:
其中,αi,j的计算如下式所示:
其中,qi为第i个字的查询(query),kj为第j个字的键(key),·表示点积运算,d表示q和k的维度;
所述融合函数如下式所示:
ψ(h1i,h2i)=a1h1i+a2h2i
其中,ψ为融合函数,a1,a2表示两种编码器通过随机初始化的相应权重,通过两种编码融合成包含句子、单词两种向量信息的编码器。
4.根据权利要求2所述利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,其特征在于,所述句子编码器中,双向Transformer是指一次性读取整个文本序列,即基于句子的两侧学习,从而能够学习文本中单词之间的上下文关系。
5.根据权利要求2所述利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,其特征在于,所述解码器中,双向Transformer指一次性读取源语言句子的向量表示,即基于整个句子向量表示的两侧进行解码,以进一步提高解码器解码的准确率。
6.根据权利要求1所述利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,其特征在于,所述鉴别器为多尺度鉴别器,能够鉴别生成器生成的汉语句子的大体句意和细节信息,以协助生成器生成更加接近真实翻译的句子;所述多尺度鉴别器使用胶囊网络来实现,胶囊网络包括卷积层、主胶囊层、卷积胶囊层和全连接胶囊层;在卷积层中,不同子层的激活值代表不同粒度句子的激活值,低层的激活值表示单词的激活值,高层的激活值表示整个句子的激活值,最后将不同层的特征映射变换到通道数为1的同尺度特征映射。
7.根据权利要求6所述利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,其特征在于,给定句子对(x,y),每个胶囊网络首先通过连接x和y中单词的嵌入向量来构造类似2D图像的表示,即对于源语言句子x中的第i个词xi和目标语言句子y中的第j个词yj,有如下的对应关系:
其中:xi T表示xi的转置,yj T表示yj的转置,表示源语言中第i个词xi和目标语言中第j个词yj构成的矩阵,即虚拟2D图像表示;
基于所述虚拟2D图像表示,依次经过所述胶囊网络的卷积层、主胶囊层、卷积胶囊层、全连接胶囊层,来捕获在源语言句子x的条件下,生成器翻译的句子y'与人工翻译的句子y之间的相似程度。
8.根据权利要求7所述利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,其特征在于,所述虚拟2D图像表示,依次经过所述胶囊网络的卷积层、主胶囊层、卷积胶囊层、全连接胶囊层的具体过程为:
(1)经过卷积层,首先进行步长为1的、卷积核为9×9的卷积运算,通过如下的特征映射捕获x与y中句子之间的对应关系。
其中,f为第一次卷积运算的激活函数,为第一次卷积运算的权重,表示源语言中第i个词xi和目标语言中第j个词yj构成的矩阵,b(1,f)为第一次卷积运算的偏置;
然后进行步长为1,卷积核为3×3的卷积运算,通过如下的特征映射捕获x与y中单词之间的对应关系:
其中,为第二次卷积运算的权重,f、b(1,f)与第一次卷积运算中的相同;
经过两次卷积运算后分别得到两个大小不同的特征图接着对较小的特征图进行填充使得两个特征图大小相同,然后用对两个相同大小的特征图求平均的方法得到最终的特征图,如下式所示:
(2)进入主胶囊层即第一个胶囊层,对卷积层的输出进行如下计算
p=g(WbM+b1)
其中,g为通过整个向量的非线性挤压函数squash,M表示胶囊的输入也是卷积层的输出,b1为胶囊的偏置,Wb为权重;在主胶囊层中,胶囊将卷积操作的标量输出替换为了矢量输出;
(3)通过动态路由算法代替最大池化,动态地加强或者减弱权重来得到有效的特征;
(4)进入卷积胶囊层;在该层以后,上一层的所有胶囊都改成一些列胶囊,通过动态路由算法进一步动态的加强或者减弱权重,从而获得更有效的特征;
(5)进入全连接胶囊层,将所有提取到的特征进行连接;
(6)将所有的特征输入到多层感知器中,使用激活函数得到生成器生成的数据集(x,y')为真实数据(x,y)的概率即与真实句子的相似程度。
9.根据权利要求1所述利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,其特征在于,所述生成对抗网络的最终训练目标是:
其中:G表示生成器,D表示鉴别器,V(D,G)表示生成器G和鉴别器D的损失函数,表示求能使损失函数V(D,G)达到最大的D并且使损失函数达到最小的G,E表示期望,Pdata(x,y)表示将平行语料库中的源语言x和目标语言y输入到鉴别器D中,鉴别器认为其为人工翻译的概率,G(y'|x)表示将平行语料库中的源语言x和G生成的目标语言y'输入到鉴别器D中,鉴别器认为其为人工翻译的概率,x表示平行语料库中的蒙古语句子,即源语言句子,y表示平行语料库中的汉语句子,即人工翻译结果,y'表示生成器生成的汉语句子,即生成器的翻译结果。
10.根据权利要求1所述利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,其特征在于,过程中:
对蒙古语语料格的附加成分进行处理,方法如下:
将蒙古语句子中的控制符与格的附加成分一同去除,只留下词干部分;
对蒙古语语料进行不同粒度的切分,方法如下:
(1)首先将所需预处理的语料以最小的单元切分开,对于蒙古语而言,最小的单元为蒙古语字母。
(2)然后对语料中所有相邻的最小单元组合出现的次数进行统计并且排序,找出出现频率最高的组合,并将这些组合加入到词典中同时删除掉词典中频率最低的词使词典的大小保持不变。
(3)重复步骤(1)(2),直至词典里的词在自身语料库中出现的频率都高于设定值;
对汉语进行分字处理。
CN201910807617.7A 2019-08-29 2019-08-29 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 Active CN110598221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910807617.7A CN110598221B (zh) 2019-08-29 2019-08-29 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910807617.7A CN110598221B (zh) 2019-08-29 2019-08-29 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法

Publications (2)

Publication Number Publication Date
CN110598221A true CN110598221A (zh) 2019-12-20
CN110598221B CN110598221B (zh) 2020-07-07

Family

ID=68856234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910807617.7A Active CN110598221B (zh) 2019-08-29 2019-08-29 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法

Country Status (1)

Country Link
CN (1) CN110598221B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310480A (zh) * 2020-01-20 2020-06-19 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法
CN111310411A (zh) * 2020-03-09 2020-06-19 重庆邮电大学 一种基于多样性模型的文本相关性判定方法、装置和设备
CN111326157A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111414770A (zh) * 2020-02-24 2020-07-14 内蒙古工业大学 一种基于协同训练的半监督蒙汉神经机器翻译方法
CN111528832A (zh) * 2020-05-28 2020-08-14 四川大学华西医院 一种心律失常分类方法及其有效性验证方法
CN111862294A (zh) * 2020-07-31 2020-10-30 天津大学 基于ArcGAN网络的手绘3D建筑自动上色网络结构及方法
CN111861925A (zh) * 2020-07-24 2020-10-30 南京信息工程大学滨江学院 一种基于注意力机制与门控循环单元的图像去雨方法
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN112507733A (zh) * 2020-11-06 2021-03-16 昆明理工大学 基于依存图网络的汉越神经机器翻译方法
CN112613326A (zh) * 2020-12-18 2021-04-06 北京理工大学 一种融合句法结构的藏汉语言神经机器翻译方法
CN112633018A (zh) * 2020-12-28 2021-04-09 内蒙古工业大学 一种基于数据增强的蒙汉神经机器翻译方法
CN112989845A (zh) * 2021-03-02 2021-06-18 北京理工大学 一种基于路由算法的篇章级神经机器翻译方法及***
CN113065432A (zh) * 2021-03-23 2021-07-02 内蒙古工业大学 一种基于数据增强和ECA-Net的手写体蒙古文识别方法
CN113343672A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 一种基于语料合并的无监督双语词典构建方法
CN113505775A (zh) * 2021-07-15 2021-10-15 大连民族大学 一种基于字符定位的满文单词识别方法
CN113538506A (zh) * 2021-07-23 2021-10-22 陕西师范大学 基于全局动态场景信息深度建模的行人轨迹预测方法
CN113611293A (zh) * 2021-08-19 2021-11-05 内蒙古工业大学 一种蒙古语数据集扩充方法
CN113642341A (zh) * 2021-06-30 2021-11-12 深译信息科技(横琴)有限公司 一种解决医学文本数据稀缺性的深度对抗生成方法
CN113657124A (zh) * 2021-07-14 2021-11-16 内蒙古工业大学 基于循环共同注意力Transformer的多模态蒙汉翻译方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和***
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及***
CN108897740A (zh) * 2018-05-07 2018-11-27 内蒙古工业大学 一种基于对抗神经网络的蒙汉机器翻译方法
CN108932232A (zh) * 2018-05-07 2018-12-04 内蒙古工业大学 一种基于lstm神经网络的蒙汉互译方法
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN109783827A (zh) * 2019-01-31 2019-05-21 沈阳雅译网络技术有限公司 一种基于动态线性聚合的深层神经机器翻译方法
US20190251168A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask Learning As Question Answering

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和***
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
US20190251168A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask Learning As Question Answering
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及***
CN108897740A (zh) * 2018-05-07 2018-11-27 内蒙古工业大学 一种基于对抗神经网络的蒙汉机器翻译方法
CN108932232A (zh) * 2018-05-07 2018-12-04 内蒙古工业大学 一种基于lstm神经网络的蒙汉互译方法
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN109783827A (zh) * 2019-01-31 2019-05-21 沈阳雅译网络技术有限公司 一种基于动态线性聚合的深层神经机器翻译方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI 等: "Attention Is ALL You Need", 《31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS(NIPS 2017)》 *
任众等: "《子字粒度切分在蒙汉神经机器翻译中的应用》", 《中文信息学报》 *
王悦林: "基于BERT的对AI理解语言方式的研究", 《科技视界》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326157B (zh) * 2020-01-20 2023-09-08 抖音视界有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111310480A (zh) * 2020-01-20 2020-06-19 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法
CN111326157A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111310480B (zh) * 2020-01-20 2021-12-28 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法
CN111414770A (zh) * 2020-02-24 2020-07-14 内蒙古工业大学 一种基于协同训练的半监督蒙汉神经机器翻译方法
CN111310411B (zh) * 2020-03-09 2022-07-12 重庆邮电大学 一种基于多样性模型的文本相关性判定方法、装置和设备
CN111310411A (zh) * 2020-03-09 2020-06-19 重庆邮电大学 一种基于多样性模型的文本相关性判定方法、装置和设备
CN111528832A (zh) * 2020-05-28 2020-08-14 四川大学华西医院 一种心律失常分类方法及其有效性验证方法
CN111528832B (zh) * 2020-05-28 2023-04-18 四川大学华西医院 一种心律失常分类方法及其有效性验证方法
CN111861925A (zh) * 2020-07-24 2020-10-30 南京信息工程大学滨江学院 一种基于注意力机制与门控循环单元的图像去雨方法
CN111861925B (zh) * 2020-07-24 2023-09-29 南京信息工程大学滨江学院 一种基于注意力机制与门控循环单元的图像去雨方法
CN111862294A (zh) * 2020-07-31 2020-10-30 天津大学 基于ArcGAN网络的手绘3D建筑自动上色网络结构及方法
CN111862294B (zh) * 2020-07-31 2024-03-01 天津大学 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法
CN112215017B (zh) * 2020-10-22 2022-04-29 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112507733A (zh) * 2020-11-06 2021-03-16 昆明理工大学 基于依存图网络的汉越神经机器翻译方法
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN112613326A (zh) * 2020-12-18 2021-04-06 北京理工大学 一种融合句法结构的藏汉语言神经机器翻译方法
CN112633018A (zh) * 2020-12-28 2021-04-09 内蒙古工业大学 一种基于数据增强的蒙汉神经机器翻译方法
CN112989845A (zh) * 2021-03-02 2021-06-18 北京理工大学 一种基于路由算法的篇章级神经机器翻译方法及***
CN113065432A (zh) * 2021-03-23 2021-07-02 内蒙古工业大学 一种基于数据增强和ECA-Net的手写体蒙古文识别方法
CN113343672A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 一种基于语料合并的无监督双语词典构建方法
CN113343672B (zh) * 2021-06-21 2022-12-16 哈尔滨工业大学 一种基于语料合并的无监督双语词典构建方法
CN113642341A (zh) * 2021-06-30 2021-11-12 深译信息科技(横琴)有限公司 一种解决医学文本数据稀缺性的深度对抗生成方法
CN113657124A (zh) * 2021-07-14 2021-11-16 内蒙古工业大学 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN113657124B (zh) * 2021-07-14 2023-06-30 内蒙古工业大学 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN113505775A (zh) * 2021-07-15 2021-10-15 大连民族大学 一种基于字符定位的满文单词识别方法
CN113505775B (zh) * 2021-07-15 2024-05-14 大连民族大学 一种基于字符定位的满文单词识别方法
CN113538506A (zh) * 2021-07-23 2021-10-22 陕西师范大学 基于全局动态场景信息深度建模的行人轨迹预测方法
CN113611293A (zh) * 2021-08-19 2021-11-05 内蒙古工业大学 一种蒙古语数据集扩充方法

Also Published As

Publication number Publication date
CN110598221B (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
Liu et al. A recursive recurrent neural network for statistical machine translation
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN107357789A (zh) 融合多语编码信息的神经机器翻译方法
CN113158665A (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN111078866B (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN108920472A (zh) 一种基于深度学习的机器翻译***的融合***及方法
CN110472252A (zh) 基于迁移学习的汉越神经机器翻译的方法
CN108845994A (zh) 利用外部信息的神经机器翻译***及翻译***的训练方法
CN111444730A (zh) 基于Transformer模型的数据增强维汉机器翻译***训练方法和装置
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
Liu Neural question generation based on Seq2Seq
CN115719072A (zh) 一种基于掩码机制的篇章级神经机器翻译方法及***
Xiu et al. A handwritten Chinese text recognizer applying multi-level multimodal fusion network
CN113887251B (zh) 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法
CN110502759A (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN114723013A (zh) 一种多粒度知识增强的语义匹配方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN113360601A (zh) 一种融合主题的pgn-gan文本摘要模型
CN115346158A (zh) 一种基于连贯性注意力机制及双流解码器的视频描述方法
CN112989845B (zh) 一种基于路由算法的篇章级神经机器翻译方法及***
CN109325110B (zh) 印尼语文档摘要生成方法、装置、存储介质及终端设备
CN111709245A (zh) 基于语义自适应编码的汉-越伪平行句对抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant