CN110738062A

CN110738062A - 一种gru神经网络蒙汉机器翻译方法

Info

Publication number: CN110738062A
Application number: CN201910940595.1A
Authority: CN
Inventors: 苏依拉; 卞乐乐; 赵旭; 薛媛; 范婷婷; 张振
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-31

Abstract

一种GRU神经网络蒙汉机器翻译方法，首先对翻译语言进行预处理，然后对一定规模的蒙汉双语进行Encoder‑Decoder模型的搭建和训练，并对蒙汉双语语料进行编码统一处理，最后基于Encoder‑Decoder模型得到翻译结果，Encoder‑Decoder模型由神经网络构建而成，其中一个神经网络为LSTM，负责Encoder编码，其采用双向编码设置，即对源语言进行正向编码和逆向编码，将源语句转换成两个不同方向编码且固定长度的向量，另一神经网络为GRU，负责Decoder解码，其从正向和逆向两个方向进行解码，即解码输出目标语言的时候会自动整合上下文信息，由此将编码生成的固定长度向量转换成目标语句，本发明结合蒙汉语言特点，使蒙汉机器翻译***表达能力更加流畅，更接近人类表达，减少了翻译过程中语义丢失和翻译混乱的程度。

Description

一种GRU神经网络蒙汉机器翻译方法

技术领域

本发明属于机器翻译技术领域，涉及蒙汉机器翻译，特别涉及一种GRU神经网络蒙汉机器翻译方法。

背景技术

现阶段随着互联网行业的飞速发展，包括信息技术等一系列IT行业的不断崛起，而针对自然语言处理的机器翻译在对整个互联网行业的发展起到一定的促进作用。像谷歌，百度等大型的搜索服务行业面对行业的发展都针对机器翻译领域进行了较大规模的科研。为不断获得较高质量的译文不断研究。

尽管科研机构为了获得更好的翻译效果仍然在不断地努力着，但是机器翻译随着技术领域的发展仍然暴露出来越来越多的问题。例如，机器翻译比较生硬，其中的程序都是设计好，翻译中出现错误的概率非常的高，有时甚至出现各种语法错误。遇到比较长的段落翻译出来就很难理解，不符合正常的逻辑。翻译出的东西可读性比较差。同时也无法体现句子的语法特征，翻译出的稿件比较粗糙，生涩难懂。简单说就是语病百出，生硬难懂，只能进行简单的词语短句的翻译。而歧义词的处理和语法结构的差异而导致的译文质量低是机器翻译尤为突出的问题。现在全球很多著名的大学实验室都针对机器翻译领域存在的上述问题进行了研究，然而在各种翻译任务中，都没有一种兼容性很强的处理方法来解决上述存在的问题。但是目前来看，针对特定的两种语言来进行翻译存在着一种解决编码问题而导致翻译质量低的解决方案。但是针对多语言，歧义处理，非字典的替换等问题上并没有很好的解决方案。所以对翻译质量的有效提高迫在眉睫。

目前，利用神经网络技术将处理过后的双语语料进行压缩编码并导入神经网络节点中，通过神经网络层与层之间和节点与节点之间的参数变换和传递来不断对语义进行学习。虽然能够通过了解句子意思的方式在一定程度上缓解统计翻译方法中出现的很多问题，例如译码不明、错译、未登陆词处理等问题，但是在精准度上面相比人工翻译仍然存在不小的劣势。

由于内蒙古地区经济发展相对缓慢，蒙汉平行语料库收集困难，利用现有神经网络方法会出现数据稀疏以及训练过拟合等问题,导致翻译质量不高。在翻译***中，编码器和解码器的计算复杂度比较高，由于计算量和GPU内存的限制，神经机器翻译模型需要事先确定一个规模受到限制的常用词词表，神经机器翻译***往往将词汇表限制为高频词，并将其他所有低频词视为未登录词。蒙古语属于黏着语，黏着语的一个特点是通过在词根的前、中、后缀接其他构词成分作为派生新词的手段，因此蒙古文构词及其形态变换非常丰富，导致的集外词和未登录现象频发。

发明内容

为了解决上述现有技术中主要存在的翻译过程中漏译、错译、未登录词处理等问题，本发明的目的在于提供一种GRU神经网络蒙汉机器翻译方法，利用CPU和GPU并行工作的方式对语料进行处理使得速度提高近一倍，且通过设定的学习率对语料进行学习可以有效的缓解学习语料语义表达过程中存在的局部最优问题和由于快速收敛导致的编码质量低的问题，通过设定特殊的结构和算法来改进整体***的质量。针对小语料中的数据稀少和字典小的现状，在降低***复杂度，对用户可视化***结构的条件下保证用户翻译服务质量，从而完善蒙汉机器翻译***，达到较好译文翻译的目标。

为了实现上述目的，本发明采用的技术方案是：

一种GRU神经网络蒙汉机器翻译方法，首先对翻译语言进行预处理，然后对一定规模的蒙汉双语进行Encoder-Decoder模型的搭建和训练，并对蒙汉双语语料进行编码统一处理，最后基于Encoder-Decoder模型得到翻译结果。

所述对翻译语言进行预处理是利用NLPIR分词技术对翻译语言进行分词。

所述Encoder-Decoder模型是由神经网络构建而成的神经机器翻译模型，其中一个神经网络为LSTM，负责Encoder编码，具体采用双向编码设置，即对源语言进行正向编码和逆向编码，将源语句转换成两个不同方向编码且固定长度的向量，另外一个神经网络为GRU，负责Decoder解码，由于编码器输出了两个编码向量，所以解码器也要从正向和逆向两个方向进行解码，由于两个待解码向量包含了所有的上下文信息，即解码器输出目标语言的时候会自动整合上下文信息，由此将编码生成的固定长度向量转换成了目标语句。为了增加翻译模型的准确度，除了利用编码器和解码器之外，还可增加自注意力机制。

所述Encoder编码的计算公式为：

h_t＝f(x_t,h_t-1)

即，依据当前时刻的输入x_t和上一时刻的隐藏层输出h_t-1计算当前时刻的隐藏层输出h_t，经过Encoder编码得到各个时刻的输出，进而计算得到最终源语句上下文的特征表示，即，以最终时刻的隐藏层输出表示源语句的上下文；

所述Decoder解码的计算公式为：

其中x₁，…，x_T是输入序列，y₁，…，y_T′是输出序列，V是解码器的初始值，即x₁，…，x_T，T是输入句子的长度，T’是输出句子长度，并且T和T’通常长度不致；

模型的目标函数为源语句正确翻译为目标语句的概率；

模型训练的过程即为将训练样本中源语句正确翻译为目标语句的概率最大化的过程，对于每个时刻i，当前输出为正确结果的概率计算如下

p(y_i|{y₁，…，y_i-1})＝g(y_i-1,s_i,c)

其中g表示整个句子中间语义表示的变换函数，s_i是已经得到的特征向量，c是源语句上下文。

所述Encoder-Decoder模型的Encoder编码部分不变，Decoder解码部分引入自注意力机制，解码计算时依赖的上下文信息依据Decoder网络上一时刻和全部时刻的Encoder网络隐层计算得到，不同时刻对应上下文信息不同，其中，对于每个时刻i，当前输出为正确结果的概率计算如下

p(y_i|{y₁，…，y_i-1},C)＝g(y_i-1,s_i,c_i)

其中C表示中间语义编码，此时源语句上下文c对于Decoder不同时刻有所区分，表示为c_i，c_i的计算公式如下所示：

e_ij＝a(s_i-1,h)

c_i计算公式的含义为对于Encoder编码部分所有时刻隐藏层输出的加权求和，T表示输入句子的长度，a_ij表示目标在输出第i个单词时输入句子第j个单词的注意力分配系数，s表示中间编码向量，h表示输入句子中第j个单词的语义编码，a(s_i-1,h)表示综合编码函数，e_ij表示总向量。Decoder解码在不同时刻对应权重则不同，c_i同样应用于Decoder解码隐藏层输出的计算，以辅助隐藏层更好地表达。

本发明用BLEU算法评分进行翻译效果评判。

本发明在翻译过程中可加入强化学习机制，所述强化学习机制中，Encoder-Decoder模型翻译框架作为感知体，BLUE算法评分作为Environment，当源语句X(x₁,x₂……x_n-1,x_n)输入到编码器中映射为编码向量Z(z₁,z₂……z_n-1,z_n)，翻译框架经过双向解码将源语句翻译成Y(y₁,y₂……y_n-1,y_n)，该过程中使用即时评价原则强化学习，每翻译一个句子，即与BLUE算法进行交互，得到翻译后的句子y_t的翻译质量，据此根据奖励机制算法得出翻译句子的奖励值R(y_t,s_t)，R(y_t,s_t)即翻译句子的质量评价也就是当前BLUE分值，由Agent和Environment进行不断的互动来得到数据R(y_t,s_t)，R(y_t,s_t)值最大表示当前翻译效果最接近真实语句。

与现有技术相比，本发明的有益效果是：

在LSTM构成的编码器和自注意力机制与GRU构成的解码器组成的***架构结合蒙古语和汉语的特点，进一步使蒙汉机器翻译***的表达能力更加流畅，更加接近人类的表达，减少了翻译过程中语义丢失和翻译混乱的程度。其中LSTM神经网络与GRU神经网络的记忆功能使翻译过程中能较长距离的保持语义，其中又加入了自注意力机制，这更是使翻译的准确性得到了提升。从而使这个神经网络蒙汉机器翻译***的性能进一步得到提升。

附图说明

图1是LSTM的运行机制示意图。

图2是LSTM中遗忘门的运行机制示意图。

图3是LSTM中当前时刻的单元状态的计算示意图。

图4是LSTM中输出门的运行机制示意图。

图5是GRU神经网络的运行机制示意图。

图6是GRU神经网络中更新门运行机制示意图。

图7是GRU神经网络中重置门运行机制示意图。

图8是GRU神经网络中当前记忆内容的计算示意图。

图9是GRU神经网络中当前时间步的最终记忆的计算示意图。

图10是发明技术流程图。

图11是强化学习机制的原理图。

图12是一个强化学习奖励机制在翻译***中的模拟图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明基于GRU神经网络，GRU神经网络是LSTM神经网络的一种变体。LSTM神经网络是为了克服RNN无法很好处理远距离依赖而提出的。LSTM网络区别于传统神经网络，将原神经网络单元改造成CEC记忆单元。CEC记忆单元的加和机制，使得梯度得以保留，误差得以传递从而解决梯度弥散的问题。LSTM的运行机制如图1。

LSTM的重复网络模块的结构则复杂很多，它实现了三个门计算，即遗忘门、输入门和输出门。遗忘门负责决定保留多少上一时刻的单元状态到当前时刻的单元状态；输入门负责决定保留多少当前时刻的输入到当前时刻的单元状态；输出门负责决定当前时刻的单元状态有多少输出。每个LSTM包含了三个输入，即上时刻的单元状态、上时刻LSTM的输出和当前时刻输入。

遗忘门如图2，用来计算哪些信息需要忘记，通过sigmoid处理后为0到1的值，1表示全部，0表示全部忘记，有

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中中括号表示两个向量相连合并，W_f是遗忘门的权重矩阵，σ为sigmoid函数，bf为遗忘门的偏置项。设输入层维度为dx，隐藏层维度为dh，上面的状态维度为dc，则W_f的维度为dc×(dh+dx)，[h_t-1,x_t]表示两个向量连接成一个更大的向量。

输入门用来计算哪些信息保存到状态单元中，分为两部分。

第一部分为：i_t＝σ(W_i·[h_t-1,x_t]+b_i)，b_i表示输入门的偏置项，该部分可以看成当前输入有多少是需要保存到单元状态的。

第二部分为：

该部分可以看成当前输入产生的新信息来添加到单元状态中。

而当前时刻的单元状态由遗忘门输入和上一时刻状态的积加上输入门两部分的积得到，c_t-1表示上一次的单元状态，如图3，即

通过sigmoid函数计算需要输出哪些信息，再乘以当前单元状态通过tanh函数的值，得到输出，其中W_o是权重矩阵，b_o是偏置项，如图4。

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(c_t)

而相比LSTM神经网络，GRU神经网络就显得容易。LSTM有三个门结构和细胞状态，而GRU只有两个门结构：更新门和重置门，结构上更简单。在GRU与LSTM同时具有出色的结果时，GRU可能会比LSTM结果更好一些。GRU在训练过程中参数更少，相对容易训练并且可以防止过拟合。GRU神经网络的运行机制如图5。

1更新门：

z_t＝σ(W^(z)x_t+U^(z)h_t-1)

其中x_t为第t个时间步的输入向量，即输入序列X的第t个分量，它会经过一个线性变换(与权重矩阵W^(z)相乘)。h_(t-1)保存的是前一个时间步t-1的信息，它同样也会经过一个线性变换(与权重矩阵U^(z)相乘)。更新门将这两部分信息相加并投入到Sigmoid激活函数中，因此将激活结果压缩到0到1之间，如图6所示。

2重置门：

重置门主要决定了到底有多少过去的信息需要遗忘，如图7所示,重置门和更新门运行机制类似，可以使用以下表达式计算：

r_t＝σ(w^(r)x_t+U^(r)h_t-1)

w^(r)和U^(r)分别表示不同的权重矩阵。

3当前记忆内容:

在重置门的使用中，新的记忆内容将使用重置门储存过去相关的信息，它的计算表达式为：

输入x_t与上一时间步信息h_t-1先经过一个线性变换，即分别右乘矩阵W和U。

再计算重置门r_t与Uh_t-1的Hadamard乘积，即r_t与Uh_t-1的对应元素乘积。因为前面计算的重置门是一个由0到1组成的向量，它会衡量门控开启的大小。例如某个元素对应的门控值0，那么它就代表这个元素的信息完全被遗忘掉。该Hadamard乘积将确定所要保留与遗忘的以前信息。将这两部分的计算结果相加再投入双曲正切激活函数中。该计算过程如图8。

4当前时间步的最终记忆

在最后一步，网络需要计算h_t，该向量将保留当前单元的信息并传递到下一个单元中。在这个过程中需要使用更新门，它决定了当前记忆内容h′_t和前一时间步中h_t-1需要收集的信息是什么。这一过程表示为：

h_t＝z_t*h_t-1+(1-z_t)*h′_t

z_t为更新门的激活结果，它同样以门控的形式控制了信息的流入。z_t与h_t-1的Hadamard乘积表示前一时间步保留到最终记忆的信息，该信息加上当前记忆保留至最终记忆的信息就等于最终门控循环单元输出的内容，过程如图9。

基于上述基本原理，本发明构建了一种GRU神经网络的蒙汉机器翻译***，参考图10，首先对翻译语言进行预处理，NLPIR分词技术对蒙文分词，然后对一定规模的蒙汉双语进行模型的搭建和训练，同时加入自注意力机制以增加翻译效果。并对蒙汉双语语料进行编码统一处理。最后进行求解、优化并用BLEU算法评分进行评判。

1NLPIR分词技术

NLPIR分词技术效果优、应用广，其实现原理为基于词频统计的分词方法，

通过层叠形马尔可夫模型分层实现中文分词，包括断句、原子切分、初步切分、N最短路径切分和最优切分结果生成五个步骤

(1)断句

断句，是指依据标点符号、分隔符号等标准语句分隔标志，将源语句分隔成为多个短句。经过断句后得到的短句便于进行分词处理，最后将各短句分词结果连接，构成整句的分词结果。

(2)原子切分

原子，是指短句中的最小语素单位，其不可再被分割。包括汉字、标点、连在一起的数字字母等。原子切分将短句分成一个个独立的最小语素单位，为其后的初步切分做准备。

(3)初步切分

初步切分，是指寻找连续的原子之间所有可能的组合方式。初步切分包含两层循环，第一层循环遍历短句的所有原子，第二层循环不断将当前原子与其后相邻原子组合后访问词典库，查看当前组合是否是一个有意义的词组，若命中词典库则记录当前词组，否则跳出内层循环，继续外层循环。经过初步切分，得到全部可能存在的原子组合。

(4)N最短路径切分

N最短路径切分，其基本思想是保留切分概率最大的N个结果，作为分词结果的候选集合，用于最优切分结果的生成。N最短路径切分依据初步切分结果，构建针对当前语句的有向无环图，图的节点表示字或词，图的边表示相邻的字或词之间的连接，边权重表示对应字或词在当前字或词的情况下出现的概率，N最短路径切分即保留概率乘积最大的N个切分，作为候选集合。经过N最短路径切分，得到N个候选切分结果。

(5)最优切分结果

经过N最短路径切分后，得到N条最短切分路径。其后经过人名、地名等未登陆词(未登陆词，是指尚未被收录在分词词表中，但是当前语境下需要被单独切分出来的词，一般包括人名、地名、专有名词等)的识别之后，评分得到最优路径，即最终切分结果。

2Encoder-Decoder模型

Encoder-Decoder模型由Encoder编码和Decoder解码两部分组建而成，是一个由两个神经网络构建而成的神经机器翻译模型，其中一个为负责Encoder编码的神经网络为LSTM。在这里加入双向编码技术，即对待翻译的源语言进行正向编码和逆向编码的操作。将源语句转换成两个不同方向的编码且固定长度的编码向量，另外一个为负责Decoder解码的GRU，基于编码是从正向和逆向两个方向进行编码，因此对编码向量进行解码时需要从正向和反向两个方向进行解码。由于编码双向的特殊性导致其编码向量包含了所有的上下文信息，也就意味着解码器输出目标语言的时候会自动整合所有相关的上下文信息，以此增加翻译准确性。并在解码的同时加入自注意力机制，将编码生成的固定长度向量转换成目标语句，Encoder-Decoder模型取得较好的翻译效果。

(1)Encoder编码部分计算公式所示为h_t＝f(x_t,h_t-1)

依据当前时刻的输入和上一时刻的隐藏层输出计算当前时刻的隐藏层输出。经过Encoder编码得到各个时刻的输出，进而计算得到最终源语句上下文的特征表示c。

c＝h_t

此处以最终时刻的隐藏层输出表示源语句的上下文。

(2)Decoder解码部分计算公式如下所示：

模型的目标函数为源语句正确翻译为目标语句的概率，模型训练的过程即为将训练样本中源语句正确翻译为目标语句的概率最大化的过程，对于每个时刻i当前输出为正确结果的概率计算如下。

p(y_i|{y₁，…，y_i-1},C)＝g(y_i-1,s_i,c)

3加入自注意力机制的Encoder-Decoder模型

基于自注意力机制(Attention)的模型依托于Encoder-Decoder模型，其Encoder编码部分不变，Decoder解码部分引入自注意力机制，自注意力机制实现单词之间的软对齐，提升翻译效果。

Decoder部分模型的目标函数仍为源语句正确翻译为目标语句的概率，模型训练的过程仍为概率最大化的过程，但是对于每个时刻i当前输出为正确结果的概率计算与原Decoder有很大的不同，如下计算：

p(y_i|{y₁，…，y_i-1},C)＝g(y_i-1,s_i,c_i)

此时源语句上下文c不再简单以最后时刻隐藏层的输出表示，而是对于Decoder不同时刻源语句上下文有所区分，表示为c_i，c_i的计算公式如下所示：

可以解释为对于Encoder部分所有时刻隐藏层输出的加权求和，Decoder不同时刻对应权重侧重不同，即一定意义上的对齐。c_i同样应用于Decoder隐藏层输出的计算，辅助隐藏层更好地表达。公式如下：

e_ij＝a(s_i-1,h)

基于自注意力机制模型的Decoder部分模型中隐层计算时依赖的上下文信息依据Decoder网络上一时刻隐层和全部时刻的Encoder网络隐层计算得到，不同时刻对应上下文信息不同。

4BLEU评分算法

机器翻译自动评价标准是进行机器翻译模型判别训练的必要条件之一，也是快速衡量机器翻译***好坏程度的重要指标。近几年机器翻译技术飞速发展，多种翻译技术自动评价标准被提出，而目前得到广泛应用和认可的评价标准是采用BLEU算法进行评分判别。BLEU算法是现阶段对机器翻译技术进行评估的一个基准，算法的基本思想是，对比待评测译文和提供的参考译文，如若待评测译文和提供的参考译文中共现的N-gram(统计语言模型的一种，包括一元模型、二元模型、三元模型和四元模型等)越多，则说明待评测译文与提供的参考译文越相似，进而表明机器翻译的翻译结果质量越高。BLEU算法的计算如下所示，其中BP为分段函数

其中c表示待评测译文的长度，r表示参考译文的长度，分段函数BP

即为一个长度惩罚因子，与c和r的大小关系相关。N表示N-gram模型个数(一个模型对应一种N-gram)，n，w表示对应的N-gram模型的权重，通常取1/N，多数情况指定N为4，公式中的np表示其所对应模型的匹配准确率(即共现的N-gram占比)。由于若存在任一n元模型没有匹配，这种情况下BLEU值为0，无意义。因此BLEU算法不适用于衡量单个语句的翻译，而是适用于对较多语句进行翻译评价。

具体实施

整个操作具体算法如下：

1：loop

2：选取蒙汉双语语料，利用NLPIR分词技术对蒙文分词；

3：将蒙古语汉语语料向量化；

4：根据Encoder-Decoder模型对蒙古进行模型化操作；

5：采用输出函数进行输出特征的操作；

p(y_i|{y₁，…，y_i-1},C)＝g(y_i-1,s_i,c_i)

6：end loop。

进一步地，本发明可在翻译过程中加入强化学习机制，所谓强化学习就是基于环境而采取行动，以获得最大化的预期利益。强化学习中每一步当前的信号和刺激影响以后的信号与刺激。而强化学习的奖励机制会根据所得翻译内容会反馈一个Reward，使得翻译效果朝着一个好的方向前进。通过将强化学习的思想融入到机器翻译框架，使得译文质量更加的准确可靠。

强化学习交互框图如图11，图中表示的是强化学习的交互序列化过程。Agent表示的是抽象出来的能感知外界环境的单元，即感知体，State表示的是当前状态，Action是当前状态下采取的动作，Reward是当前采取动作的一个回馈奖励机制，而Environment是指当前感知体的环境。Agent在基于当前状态时发出动作At，而后环境Environment做出回应，生成新的状态和对应的Reward。通过这样一个交互式的奖励机制让感知体在每一状态下明智的执行动作。

在编码器—解码器蒙汉翻译框架中，翻译框架就是智能体单元Agent。当源语句X(x₁,x₂……x_n-1,x_n)输入到编码器中映射为编码向量Z(z₁,z₂……z_n-1,z_n),翻译框架经过双向解码将源语句翻译成Y(y₁,y₂……y_n-1,y_n)，这一过程强化学习用了即时评价原则，每翻译一个句子，***就会与BLUE算法(BLUE作为强化学习中的Environment)进行交互，得到翻译后的句子y_t的翻译质量，据此强化学习会自动根据奖励机制算法得出翻译句子的奖励值R(y_t,s_t)，换句话说R(y_t,s_t)就是翻译句子的质量评价也就是当前BLUE分值。由Agent(翻译框架)和Environment(BLUE评分标准)进行不断的互动来得到数据R(y_t,s_t)，R(y_t,s_t)值最大表示当前翻译效果最接近真实语句，***就会选取R(y_t,s_t)值最大的作为当前翻译的句子。如图12所示，这是一个简易的强化学习奖励机制在翻译***中的模拟图，把汉语“我爱中国”翻译成蒙语，编码器—解码器框架在强化学习的作用下经过三次迭代到收敛，第一次迭代把“我爱中国”翻译成蒙语

得到的奖励值为R(y_t,s_t)＝-5，而第二次迭代翻译成

此时的奖励值为R(y_t,s_t)＝1，到第三次迭代强化学习达到了收敛并且把“我爱中国”翻译为

到第三次所有迭代已经完成，奖励值R(y_t,s_t)＝10。通过交互比较每次迭代的奖励值R(y_t,s_t)，发现最大为奖励值为10，此时***就会把奖励值最大的翻译后的蒙古语句子作为最终的翻译，即确定“我爱中国”翻译成蒙古语为

至此我爱中国句子翻译完毕，由此也发现奖励值最大的就是最佳的翻译。

由此可见，通过加入强化学习并经过数次迭代，便可根据自身学习所得到的数据进行优化翻译得到最优翻译的句子。本翻译***结合双向编码，双向解码，同时还加入了具有人类想法的强化思想，利用自身产生的数据进行学习，以此来增加低资源语言的翻译效果。

Claims

1.一种GRU神经网络蒙汉机器翻译方法，首先对翻译语言进行预处理，然后对一定规模的蒙汉双语进行Encoder-Decoder模型的搭建和训练，并对蒙汉双语语料进行编码统一处理，最后基于Encoder-Decoder模型得到翻译结果，其特征在于，所述Encoder-Decoder模型是由神经网络构建而成的神经机器翻译模型，其中一个神经网络为LSTM，负责Encoder编码，其采用双向编码设置，即对源语言进行正向编码和逆向编码，将源语句转换成两个不同方向编码且固定长度的向量，两个待解码向量包含了所有的上下文信息，另外一个神经网络为GRU，负责Decoder解码，其从正向和逆向两个方向进行解码，即解码输出目标语言的时候会自动整合上下文信息，由此将编码生成的固定长度向量转换成目标语句。

2.根据权利要求1所述GRU神经网络蒙汉机器翻译方法，其特征在于，所述对翻译语言进行预处理是利用NLPIR分词技术对翻译语言进行分词。

3.根据权利要求3所述GRU神经网络蒙汉机器翻译方法，其特征在于，所述Encoder编码的计算公式为：

h_t＝f(x_t,h_t-1)

所述Decoder解码的计算公式为：

模型的目标函数为源语句正确翻译为目标语句的概率；

p(y_i|{y₁，…，y_i-1})＝g(y_i-1,s_i,c)

4.根据权利要求3所述GRU神经网络蒙汉机器翻译方法，其特征在于，所述Encoder-Decoder模型的Encoder编码部分不变，Decoder解码部分引入自注意力机制，解码计算时依赖的上下文信息依据Decoder网络上一时刻和全部时刻的Encoder网络隐层计算得到，不同时刻对应上下文信息不同，其中，对于每个时刻i，当前输出为正确结果的概率计算如下

p(y_i|{y₁，…，y_i-1},C)＝g(y_i-1,s_i,c_i)

e_ij＝a(s_i-1,h)

5.根据权利要求3所述GRU神经网络蒙汉机器翻译方法，其特征在于，用BLEU算法评分进行翻译效果评判。

6.根据权利要求3所述GRU神经网络蒙汉机器翻译方法，其特征在于，在翻译过程中加入了强化学习机制。

7.根据权利要求6所述GRU神经网络蒙汉机器翻译方法，其特征在于，所述强化学习机制中，Encoder-Decoder模型翻译框架作为感知体，BLUE算法评分作为Environment，当源语句X(x₁,x₂……x_n-1,x_n)输入到编码器中映射为编码向量Z(z₁,z₂……z_n-1,z_n)，翻译框架经过双向解码将源语句翻译成Y(y₁,y₂……y_n-1,y_n)，该过程中使用即时评价原则强化学习，每翻译一个句子，即与BLUE算法进行交互，得到翻译后的句子y_t的翻译质量，据此根据奖励机制算法得出翻译句子的奖励值R(y_t,s_t)，R(y_t,s_t)即翻译句子的质量评价也就是当前BLUE分值，由Agent和Environment进行不断的互动来得到数据R(y_t,s_t)，R(y_t,s_t)值最大表示当前翻译效果最接近真实语句。