CN109785824A

CN109785824A - 一种语音翻译模型的训练方法及装置

Info

Publication number: CN109785824A
Application number: CN201910198404.9A
Authority: CN
Inventors: 马志强; 刘俊华; 魏思; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-05-21
Anticipated expiration: 2039-03-15
Also published as: CN109785824B

Abstract

本申请公开了一种语音翻译模型的训练方法及装置，该方法包括：首先获取包括各个样本语音的模型训练数据，然后，利用当前的语音翻译模型对获取到的样本语音进行直接翻译，得到预测翻译文本，同时，利用当前的语音识别模型对获取到的样本语音进行识别，得到预测识别文本，接着，根据得到的预测翻译文本与预测识别文本，更新语音翻译模型和语音识别模型的参数。由于语音翻译模型与语音识别模型共享部分模型参数，所以，当更新语音识别模型的参数时，同样会对语音翻译模型中共享部分的模型参数进行更新，从而使得语音翻译模型的这部分模型参数更加准确，进而在利用该语音翻译模型进行语音翻译时，能够提升语音翻译模型的翻译性能。

Description

一种语音翻译模型的训练方法及装置

技术领域

本申请涉及语音翻译技术领域，尤其涉及一种语音翻译模型的训练方法及装置。

背景技术

现有的语音翻译方法通常包括两个步骤，即，由语音翻译模型实现语音识别和文本翻译。具体地，首先，将一段语音经过语音识别技术，识别成与之同一语种的文本，然后，利用文本翻译技术将该识别文本翻译成另一语种的文本，从而实现语音翻译过程。

但是，联合语音识别技术和文本翻译技术进行语音翻译，存在错误累积的缺点，例如，假设采用语音识别技术将某一个单词识别错误，而当采用文本翻译技术对该单词进行翻译时，将根据该错误的单词得到错误的翻译结果。可见，语音识别阶段的错误会累积到文本翻译阶段，从而导致翻译结果的不准确，也就是说，现有的语音翻译模型的翻译性能还有待提升。

发明内容

本申请实施例的主要目的在于提供一种语音翻译模型的训练方法及装置，能够提升语音翻译模型的翻译性能。

本申请实施例提供了一种语音翻译模型的训练方法，包括：

获取模型训练数据，所述模型训练数据包括各个样本语音；

利用当前的语音翻译模型对所述样本语音进行直接翻译，得到预测翻译文本，其中，语音翻译模型与一个语音识别模型共享部分模型参数；

利用当前的语音识别模型对所述样本语音进行识别，得到预测识别文本；

根据所述预测翻译文本与所述预测识别文本，更新当前的语音翻译模型和语音识别模型的参数。

可选的，所述根据所述预测翻译文本与所述预测识别文本，更新当前的语音翻译模型和语音识别模型的参数，包括：

获取所述样本语音的真实翻译文本和真实识别文本；

根据翻译差异信息和识别差异信息，更新当前的语音翻译模型和语音识别模型的参数；

其中，所述翻译差异信息为所述预测翻译文本与所述真实翻译文本之间的差异，所述识别差异信息为所述预测识别文本与所述真实识别文本之间的差异。

可选的，所述根据翻译差异信息和识别差异信息，更新当前的语音翻译模型和语音识别模型的参数，包括：

根据所述翻译差异信息，对所述语音翻译模型进行参数更新；

根据所述识别差异信息，对所述语音识别模型进行参数更新。

可选的，所述语音识别模型与所述语音翻译模型共享一个编码器，所述语音识别模型包括一个识别解码器，所述语音翻译模型包括一个翻译解码器。

本申请实施例还提供了一种语音翻译方法，包括：

获取待翻译的目标语音；

利用通过上述语音翻译模型的训练方法训练得到的语音翻译模型，对所述目标语音进行翻译。

本申请实施例还提供了一种语音翻译模型的训练装置，包括：

训练数据获取单元，用于获取模型训练数据，所述模型训练数据包括各个样本语音；

翻译文本获得单元，用于利用当前的语音翻译模型对所述样本语音进行直接翻译，得到预测翻译文本，其中，语音翻译模型与一个语音识别模型共享部分模型参数；

识别文本获得单元，用于利用当前的语音识别模型对所述样本语音进行识别，得到预测识别文本；

模型参数更新单元，用于根据所述预测翻译文本与所述预测识别文本，更新当前的语音翻译模型和语音识别模型的参数。

可选的，所述模型参数更新单元包括：

真实文本获取子单元，用于获取所述样本语音的真实翻译文本和真实识别文本；

模型参数更新子单元，用于根据翻译差异信息和识别差异信息，更新当前的语音翻译模型和语音识别模型的参数；

可选的，所述模型参数更新子单元包括：

翻译模型参数更新子单元，用于根据所述翻译差异信息，对所述语音翻译模型进行参数更新；

识别模型参数更新子单元，用于根据所述识别差异信息，对所述语音识别模型进行参数更新。

本申请实施例还提供了一种语音翻译装置，包括：

目标语音获取单元，用于获取待翻译的目标语音；

目标语音翻译单元，用于利用通过上述语音翻译模型的训练装置训练得到的语音翻译模型，对所述目标语音进行翻译。

本申请实施例还提供了一种语音翻译模型的训练设备，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音翻译模型的训练方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音翻译模型的训练方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音翻译模型的训练方法中的任意一种实现方式。

本申请实施例还提供了一种语音翻译设备，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音翻译方法的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音翻译方法的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音翻译方法的任意一种实现方式。

本申请实施例提供的一种语音翻译模型的训练方法及装置，在对语音翻译模型进行训练时，首先获取包括各个样本语音的模型训练数据，然后，利用当前的语音翻译模型对获取到的样本语音进行直接翻译，得到预测翻译文本，同时，利用当前的语音识别模型对获取到的样本语音进行识别，得到预测识别文本，接着，可以根据得到的预测翻译文本与预测识别文本，更新当前的语音翻译模型和语音识别模型的参数。由于当前的语音翻译模型与语音识别模型共享部分模型参数，所以，当更新语音识别模型的参数时，同样会对语音翻译模型中共享部分的模型参数进行更新，从而使得训练得到的语音翻译模型的这部分模型参数更加准确，进而在利用该语音翻译模型进行语音翻译时，能够提升语音翻译模型的翻译性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的端对端语音翻译模型的结构示意图之一；

图2为本申请实施例提供的端对端语音翻译模型的结构示意图之二；

图3为本申请实施例提供的一种语音翻译模型的训练方法的流程示意图；

图4为本申请实施例提供的语音翻译模型和语音识别模型的结构示意图之一；

图5为本申请实施例提供的语音翻译模型和语音识别模型的结构示意图之二；

图6为本申请实施例提供的根据预测翻译文本与预测识别文本更新当前的语音翻译模型和语音识别模型的参数的流程示意图；

图7为本申请实施例提供的根据翻译差异信息和识别差异信息更新当前的语音翻译模型和语音识别模型的参数的流程示意图；

图8为本申请实施例提供的一种语音翻译方法的流程示意图；

图9为本申请实施例提供的一种语音翻译模型的训练装置的组成示意图；

图10为本申请实施例提供的一种语音翻译装置的组成示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

需要说明的是，传统的语音翻译方法通常是先对语音进行语音识别，将其识别成与之同一语种的文本，然后再对该识别文本进行处理，即，利用文本翻译技术对该识别文本进行翻译，将其翻译成另一语种的文本，实现语音翻译。但这种传统的语音翻译方法往往会存在错误累积的问题，即，若语音识别时产生了错误，则该错误会累积到后续的文本翻译过程，进而造成翻译结果不准确。

因此，为解决上述缺陷，可以采用如图1所示的端到端的语音翻译模型进行语音翻译，该语音翻译模型包括编码器、注意力层(Attention)和解码器，通过该语音翻译模型可以不对源语种语音进行语音识别，而直接将该源语种语音翻译成目标语种文本，实现直接的语音翻译，比如，将中文语音直接翻译成英文文本。

一种可选的实现方式是，端到端的语音翻译模型可以采用如图2所示的网络结构，接下来，将以该语音翻译模型为例，对利用其进行语音翻译的实现过程进行介绍：

(1)输入源语种语音的音频特征

首先对需要进行语音翻译的源语种语音进行音频特征提取，比如，可以提取源语种语音的梅尔频谱特征(Mel Bank Features)，作为源语种语音的音频特征，该音频特征可以以特征向量的形式进行表示，这里，将该特征向量定义为x_1...T，其中，T表示源语种语音的音频特征向量的维度大小，即音频特征向量包含的向量元素的个数，然后，可以将x_1...T作为输入数据，输入至图2所示的端到端的语音翻译模型。

(2)生成源语种语音的音频特征对应的编码向量

如图2所示，该端到端的语音翻译模型的编码部分包含两层卷积神经网络(Convolutional Neural Networks，简称CNN)和最大池化层(MaxPooling)、一层卷积长短期记忆网络(convolutional Long Short-Term Memory，简称convolutional LSTM)、三层双向长短期记忆网络(Bi-directional Long Short-Term Memory，简称BiLSTM)。

通过上述步骤(1)输入源语种语音的音频特征x_1...T后，可以通过一层CNN对其进行编码，再通过MaxPooling对其进行降采样操作，然后，再通过一层CNN和MaxPooling重复此操作，得到长度为L的编码向量，接着，再利用一层convolutional LSTM以及三层BiLSTM对此编码向量进行处理，以得到最终的编码向量，定义为h_1...L，其中，L表示对源语种语音的音频特征进行编码后得到的编码向量的维度大小，即编码向量包含的向量元素的个数,h_1...L的具体计算公式如下：

h_1...L＝enc(W_encx_1...T) (1)

其中，enc表示模型编码部分的整个编码计算过程；W_enc表示模型编码部分中各层网络的所有网络参数。

(3)生成编码向量对应的解码向量

如图2所示，该端到端的语音翻译模型的解码部分包含4层单向长短期记忆网络(Long Short-Term Memory，简称LSTM)、softmax分类器。

通过上述步骤(2)，利用模型的编码部分对源语种语音的音频特征进行编码得到编码向量后，可以先对该编码向量进行attention运算，以便关注到编码向量中能够用以生成解码向量的有关数据，然后再通过4层LSTM和softmax分类器对其进行解码，以得到对应的解码向量，再利用该解码向量生成源语种语音的翻译文本，并将其定义为y_1...K，其中，K可以表示翻译文本中包含的单字(或单词)的个数。

解码部分的具体计算公式如下：

c_k＝att(s_k,h_1...L) (2)

s_k＝lstm(y_k-1,s_k-1,c_k-1) (3)

y_k＝soft max(W_y[s_k,c_k]+b_y) (4)

其中，h_1...L表示源语种语音的音频特征对应的编码向量；c_k表示第k个attention计算结果；att表示attention计算过程；c_k-1表示第k-1个attention计算结果；s_k表示解码部分包含的4层LSTM网络中输出的第k个隐层向量；lstm表示解码部分包含的4层LSTM网络的计算过程；s_k-1表示解码部分包含的4层LSTM网络中输出的第k-1个隐层向量；y_k表示翻译文本中包含的第k个字(或词)；y_k-1表示翻译文本中包含的第k-1个字(或词)；W_y和b_y表示softmax分类器中的模型参数。

若利用W_dec代表模型解码部分中各层网络的所有网络参数，则模型输出的源语种语音的翻译文本y_1...K的计算公式如下：

y_1...K＝dec(W_dech_1...L) (5)

其中，dec表示模型解码部分的整个解码计算过程；W_dec表示模型解码部分中各层网络的所有网络参数；h_1...L表示源语种语音的音频特征对应的编码向量。

需要说明的是，图1所示的端到端的语音翻译模型中编码器和解码器的网络结构并不是唯一的，而图2所示的网络结构仅是其中的一种示例，也可以采取其他网络结构或网络层数。例如，模型的编码器还可以采用循环神经网络(Recurrent Neural Network，简称RNN)等进行编码，且网络的层数也可以根据实际情况进行设定，本申请实施例对此不进行限制。其中，上述或后续内容中介绍的CNN、BiLSTM等的层数仅仅是示例，本申请不限定其层数，可以是本申请实施例中提及的层数、也可以是其它层数。

在本实施例中，在图1所示的端到端的语音翻译模型的基础上，为了提高语音翻译模型的翻译性能，进一步可以采用多任务训练的方式对语音翻译模型进行训练。

其中，多任务训练指的是将多个相关任务放在一起进行训练的机器学习方法，在训练过程中，这多个相关任务的任务模型之间共享一些模型参数，比如，可以共享模型底层的部分参数等，用以共享各个任务所学到的信息，具体来讲，可以将多个相关的任务同时并行学习，并通过梯度同时反向传播的方式，调整多个相关任务之间的共享模型参数，以实现多个相关任务的互相帮助学习，从而提升任务模型的泛化效果。可见，这种多任务训练的方式相对于单任务训练来说，会取得更好的模型泛化效果，提高模型的泛化能力。

需要说明的是，本实施例中采用多任务训练的方式对多任务模型进行训练时，具体是将语音翻译模型和语音识别模型进行同时训练，在模型训练结束后，使语音翻译模型具有较好的翻译性能。

接下来，本实施将结合附图，对本实施例提供的语音翻译模型的训练方法进行详细介绍。

参见图3，其示出了本实施例提供的一种语音翻译模型的训练方法的流程示意图，该方法包括以下步骤：

S301：获取模型训练数据，其中，模型训练数据包括各个样本语音。

在本实施例中，为了对语音翻译模型进行训练，提高语音翻译模型的翻译性能，需要预先进行大量的准备工作，首先，需要收集大量的语音数据，作为样本语音，用以构成模型训练数据。例如，可以预先收集大量的录音数据，比如朗诵比赛中各个参赛者的语音、或者会议录音等均可作为样本语音，用以对模型进行训练。

需要说明的是，本实施例不限制样本语音的语种，比如，样本语音可以是中文语音、或英文语音等；同时，本实施例也不限制样本语音的长度，比如，样本语音可以是一句话、或多句话等。

还需要说明的是，本实施例将采用各个样本语音对语音翻译模型和语音识别模型进行多轮训练，具体将以当前轮训练使用的样本语音为例，按照后续的步骤S302-S304实现当前轮的模型训练，具体介绍如下。

S302：利用当前的语音翻译模型对样本语音进行直接翻译，得到预测翻译文本。

在本实施例中，通过步骤S301获取到各个样本语音后，可以利用当前的语音翻译模型对获取到的样本语音进行直接翻译(不进行语音识别)，以得到预测翻译文本，例如，假设某一样本语音为中文语音，则可以利用当前的语音翻译模型对其进行直接翻译，以得到预测英文翻译文本。

其中，该语音翻译模型与一个语音识别模型共享部分模型参数。一种可选的实现方式是，当前的语音翻译模型的网络结构如图4所示，其与一个语音识别模型共享一个编码器，且该语音识别模型包括了一个识别解码器，用以生成预测识别文本，而当前的语音翻译模型则包括了一个翻译解码器，用以生成预测翻译文本。需要说明的是，图4中语音识别模型的识别解码器和语音翻译模型的翻译解码器的网络结构可以相同，也可以不同，各自的具体组成结构可根据实际情况进行设定，本申请实施例对此不进行限制。

举例说明：例如某一样本语音内容为“端到端语音翻译***”，且其对应的翻译文本的语种为英文，则通过图4所示的当前的语音翻译模型对其进行直接翻译后，可以得到预测翻译文本为“The end-to-end speech translation system”。

S303：利用当前的语音识别模型对样本语音进行识别，得到预测识别文本。

在本实施例中，通过步骤S301获取到各个样本语音后，可以利用当前的语音识别模型对获取到的样本语音进行识别，以得到预测识别文本，例如，假设某一样本语音为中文语音，则可以利用当前的语音识别模型对其识别，以得到与之同一语种的预测中文识别文本。

其中，该语音识别模型与步骤S302中介绍的语音识别模型可以共享部分模型参数。一种可选的实现方式是，当前的语音识别模型的网络结构如图4所示，其与语音翻译模型共享一个编码器，且语音识别模型包括了一个识别解码器，用以生成预测识别文本。

举例说明：例如某一样本语音内容仍为“端到端语音翻译***”，则通过图4所示的当前的语音识别模型对其进行识别后，可以得到预测中文识别文本为“端到端语音翻译***”。

在本实施例中，一种可选的实现方式是，语音翻译模型和语音识别模型可以采用如图5所示的网络结构，而基于该模型网络结构，生成预测翻译文本和预测识别文本的具体过程如下：

(1)输入样本语音的音频特征

首先对样本语音进行音频特征提取，比如，可以提取样本语音的梅尔频谱特征，作为样本语音的音频特征，并将该特征向量定义为x_1...T，然后，将x_1...T作为输入数据，输入至图5所示的编码器。

(2)生成样本语音的音频特征对应的编码向量

如图5所示，语音翻译模型和语音识别模型共享的编码器与图2所示的编码结构相同，此处不再赘述。通过该编码器对上述步骤(1)输入的样本语音的音频特征x_1...T进行编码后，可以得到最终的编码向量h_1...L，其中，L表示对样本语音的音频特征进行编码后得到的编码向量的维度大小，即编码向量包含的向量元素的个数,h_1...L的具体计算公式为上述公式(1)，即如下所示：

h_1...L＝enc(W_encx_1...T)

其中，enc表示图5中编码器的整个编码计算过程；W_enc表示图5中编码器中各层网络的所有网络参数。

(3)生成编码向量对应的解码向量

如图5所示，假设语音识别模型的识别解码器和语音翻译模型的翻译解码器的网络结构是相同的，均包含4层LSTM、softmax分类器，但二者的训练参数不共享。

通过上述步骤(2)，利用模型的编码部分对样本语音的音频特征进行编码得到编码向量h_1...L后，如图5所示，可以先分别对该编码向量进行attention运算，然后再分别通过翻译解码器和识别解码器中的4层LSTM和softmax分类器对attention运算结果进行解码，以得到各自对应的解码向量，再利用这两个解码向量分别生成样本语音的预测翻译文本y_1...K以及样本语音的预测识别文本z_1...N，其中，N表示预测识别文本中包含的单字(或单词)的个数,解码部分的具体计算公式可参见上述公式(2)、(3)、(4)，在此不再赘述。

若利用W_dec代表图5中语音翻译模型的翻译解码器中各层网络的所有网络参数，则模型输出的预测翻译文本y_1...K的计算公式如下：

y_1...K＝dec(W_dech_1...L) (6)

其中，dec表示图5中语音翻译模型的翻译解码器的整个解码计算过程；W_dec表示图5中语音翻译模型的翻译解码器中各层网络的所有网络参数；h_1...L表示样本语音的音频特征对应的编码向量。

类似的，若利用W_asr代表图5中语音识别模型的识别解码器中各层网络的所有网络参数，则模型输出的预测识别文本z_1...N的计算公式如下：

z_1...N＝dec(W_asrh_1...L) (7)

其中，dec表示图5中语音识别模型的识别解码器的整个解码计算过程；W_asr表示图5中语音识别模型的识别解码器中各层网络的所有网络参数；h_1...L表示样本语音的音频特征对应的编码向量。

需要说明的是，本实施例不限制S302和S303的执行顺序，可以先执行S302后执行S303、或先执行S303后执行S302、或同时执行S302和S303。

S304：根据样本语音的预测翻译文本与预测识别文本，更新当前的语音翻译模型和语音识别模型的参数。

在本实施例中，可以从S301中提及的模型训练数据中依次提取一个样本语音，进行模型训练，通过多轮训练，来更新当前的语音翻译模型和语音识别模型的参数。

在模型训练之前，首先可以随机初始化出语音翻译模型和语音识别模型的模型参数W_enc、W_dec以及W_asr。然后，在第一轮训练过程中，通过上述步骤S302-S303，对语音翻译模型和语音识别模型的模型参数W_enc、W_dec以及W_asr进行更新；在第二轮训练过程中，在第一轮更新参数的基础上继续通过步骤S302-S303进行第二轮参数更新……直至训练结束。

作为示例，在训练过程中，本实施例采用的目标函数如下：

Obj＝λlog p(y|x)+(1-λ)log p(z|x) (8)

其中，λ表示权重，λ的取值在0-1之间，可以基于实验结果或经验设定；y表示语音翻译模型输出的预测翻译文本；z表示语音识别模型输出的预测识别文本；x表示样本语音的音频特征数据。

具体来讲，一种可选的实现方式是，如图6所示，本步骤S304的实现过程具体可以包括步骤S601-S602：

S601：获取样本语音的真实翻译文本和真实识别文本。

在本实现方式中，在获取各个样本语音作为模型训练数据的同时，还可以获取到每一样本语音对应的真实翻译文本和真实识别文本。举例说明：假设样本语音的内容仍为“端到端语音翻译***”，则其对应的真实翻译文本为“The end-to-end speechtranslation system”、真实识别文本为“端到端语音翻译***”。

S602：根据翻译差异信息和识别差异信息，更新当前的语音翻译模型和语音识别模型的参数。

在本实现方式中，翻译差异信息指的是预测翻译文本与真实翻译文本之间的差异。例如，假设预测翻译文本为“The end-to-end speech translate system”，真实翻译文本为“The end-to-end speech translation system”，则二者的翻译差异信息即为“translation”与“translate”。

在本实现方式中，识别差异信息指的是预测识别文本与真实识别文本之间的差异。例如，假设预测识别文本为“端到端语言翻译***”，真实识别文本为“端到端语音翻译***”，则二者的识别差异信息即为“言”与“音”。

由此，在通过步骤S601获取到样本语音的真实翻译文本和真实识别文本后，进一步可以得到样本语音对应的真实翻译文本与预测翻译文本之间的翻译差异信息，以及样本语音对应的真实识别文本与预测识别文本之间的差异信息，进而，可以根据这些翻译差异信息和识别差异信息，分别对应更新当前的语音翻译模型和语音识别模型的参数。

在一种实现方式中，如图7所示，步骤S602具体实现过程可以包括下述步骤S701-S702：

S701：根据翻译差异信息，对语音翻译模型进行参数更新。

在本实施例中，在获取到样本文本对应的翻译差异信息后，可以根据该翻译差异信息，反向梯度更新语音翻译模型中的编码器和翻译解码器对应的模型参数W_enc和W_dec。

S702：根据识别差异信息，对语音识别模型进行参数更新。

在本实施例中，在获取到样本文本对应的识别差异信息后，可以根据该识别差异信息，反向梯度更新语音识别模型中的编码器和识别解码器对应的模型参数W_enc和W_asr。

需要说明的是，本实施例不限制S701和S702的执行顺序，可以先执行S701后执行S702、或先执行S702后执行S701、或同时执行S701和S702。

可见，在利用预测翻译文本与预测识别文本，同时更新当前的语音翻译模型和语音识别模型的参数的过程中，通过对语音识别模型的训练，会实时更新编码器中的模型参数，使得编码结果更准确，如图4和图5所示，由于语音识别模型和语音翻译模型共享一个编码器，这样，在编码结果更准确的情况下，语音翻译模型的翻译解码器在解码时，可以根据更准确的编码结果进行解码，从而得到更准确的解码结果，因此，可以提高语音翻译的准确度，即，可以提升语音翻译模型的翻译性能。

综上，本实施例提供的一种语音翻译模型的训练方法，在对语音翻译模型进行训练时，首先获取包括各个样本语音的模型训练数据，然后，利用当前的语音翻译模型对获取到的样本语音进行直接翻译，得到预测翻译文本，同时，利用当前的语音识别模型对获取到的样本语音进行识别，得到预测识别文本，接着，可以根据得到的预测翻译文本与预测识别文本，更新当前的语音翻译模型和语音识别模型的参数。由于当前的语音翻译模型与语音识别模型共享部分模型参数，所以，当更新语音识别模型的参数时，同样会对语音翻译模型中共享部分的模型参数进行更新，从而使得训练得到的语音翻译模型的这部分模型参数更加准确，进而在利用该语音翻译模型进行语音翻译时，能够提升语音翻译模型的翻译性能。

第二实施例

以上为本申请第一实施例提供的一种语音翻译模型的训练方法的具体实施例，基于上述实施例中训练得到的语音翻译模型，本申请实施例还提供了一种语音翻译方法。

参见图8，其示出了本申请实施例提供的一种语音翻译方法的流程图，如图8所示，该方法包括：

S801：获取待翻译的目标语音。

在本实施例中，将采用本实施例进行翻译的任一语音定义为目标语音。该目标语音与上述第一实施例中的样本语音的语种相同。

可以理解的是，目标语音可以根据实际需要，通过录音等方式获得，例如，人们日常生活中的电话通话语音、或者会议录音等均可作为目标语音，在获取到目标语音后，可以通过后续步骤S802对其进行翻译。

S802：利用训练得到的语音翻译模型，对目标语音进行翻译。

在实际应用中，通过步骤S801获取到待翻译的目标语音后，进一步的，可以将提取出的目标语音的音频特征(比如梅尔频谱特征等频谱特征)输入至第一实施例中训练得到的语音翻译模型，获得目标语音对应的翻译文本，从而实现了对目标语音的翻译。

综上，本实施例提供的一种语音翻译方法，在获取到待翻译的目标语音后，是采用上述第一实施例中训练得到的语音翻译模型，对该目标语音进行翻译，从而能够将其直接翻译成对应的语种文本，而不需要对其进行任何语音识别的操作，因此，相比于现有的先进行语音识别，再进行文本翻译的语音翻译方法，本实施例能够减少语音识别带来的错误累计，得到更准确的语音翻译结果。

第三实施例

本实施例将对一种语音翻译模型的训练装置进行介绍，相关内容请参见上述方法实施例。

参见图9，为本实施例提供的一种语音翻译模型的训练装置的组成示意图，该装置900包括：

训练数据获取单元901，用于获取模型训练数据，所述模型训练数据包括各个样本语音；

翻译文本获得单元902，用于利用当前的语音翻译模型对所述样本语音进行直接翻译，得到预测翻译文本，其中，语音翻译模型与一个语音识别模型共享部分模型参数；

识别文本获得单元903，用于利用当前的语音识别模型对所述样本语音进行识别，得到预测识别文本；

模型参数更新单元904，用于根据所述预测翻译文本与所述预测识别文本，更新当前的语音翻译模型和语音识别模型的参数。

在本实施例的一种实现方式中，所述模型参数更新单元904包括：

在本实施例的一种实现方式中，所述模型参数更新子单元包括：

在本实施例的一种实现方式中，所述语音识别模型与所述语音翻译模型共享一个编码器，所述语音识别模型包括一个识别解码器，所述语音翻译模型包括一个翻译解码器。

进一步地，本申请实施例还提供了一种语音翻译模型的训练设备，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音翻译模型的训练方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音翻译模型的训练方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音翻译模型的训练方法的任一种实现方法。

第四实施例

本实施例将对一种语音翻译装置进行介绍，相关内容请参见上述方法实施例。

参见图10，为本实施例提供的一种语音翻译装置的组成示意图，该装置1000包括：

目标语音获取单元1001，用于获取待翻译的目标语音；

目标语音翻译单元1002，用于利用通过上述语音翻译模型的训练装置训练得到的语音翻译模型，对所述目标语音进行翻译。

进一步地，本申请实施例还提供了一种语音翻译设备，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音翻译方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音翻译方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音翻译方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音翻译模型的训练方法，其特征在于，包括：

获取模型训练数据，所述模型训练数据包括各个样本语音；

2.根据权利要求1所述的方法，其特征在于，所述根据所述预测翻译文本与所述预测识别文本，更新当前的语音翻译模型和语音识别模型的参数，包括：

获取所述样本语音的真实翻译文本和真实识别文本；

3.根据权利要求2所述的方法，其特征在于，所述根据翻译差异信息和识别差异信息，更新当前的语音翻译模型和语音识别模型的参数，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述语音识别模型与所述语音翻译模型共享一个编码器，所述语音识别模型包括一个识别解码器，所述语音翻译模型包括一个翻译解码器。

5.一种语音翻译方法，其特征在于，包括：

获取待翻译的目标语音；

利用权利要求1至4任一项所述的方法训练得到的语音翻译模型，对所述目标语音进行翻译。

6.一种语音翻译模型的训练装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述模型参数更新单元包括：

8.根据权利要求7所述的装置，其特征在于，所述模型参数更新子单元包括：

9.根据权利要求6至8任一项所述的装置，其特征在于，所述语音识别模型与所述语音翻译模型共享一个编码器，所述语音识别模型包括一个识别解码器，所述语音翻译模型包括一个翻译解码器。

10.一种语音翻译装置，其特征在于，包括：

目标语音获取单元，用于获取待翻译的目标语音；

目标语音翻译单元，用于利用权利要求6至9任一项所述的装置训练得到的语音翻译模型，对所述目标语音进行翻译。

11.一种语音翻译模型的训练设备，其特征在于，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-4任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-4任一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-4任一项所述的方法。

14.一种语音翻译设备，其特征在于，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求5所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求5所述的方法。

16.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求5所述的方法。