CN113947091A

CN113947091A - 用于语言翻译的方法、设备、装置和介质

Info

Publication number: CN113947091A
Application number: CN202111191806.XA
Authority: CN
Inventors: 叶蓉; 王明轩
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-01-18
Also published as: WO2023061106A1

Abstract

根据本公开的实现方式，提供了用于语言翻译的方法、设备、装置和介质。在一种方法中，获取多个训练数据，多个训练数据中的训练数据包括以源语言表示的语音数据和文本数据、以及以目标语言表示的翻译数据，文本数据表示与语音数据相关联的文字转写，并且翻译数据表示与语音数据和文本数据相关联的翻译。分别确定多个训练数据包括的语音数据与文本数据之间的对比损失，对比损失分别表示多个训练数据包括的语音数据和文本数据之间的差异。基于多个训练数据以及对比损失来训练翻译模型，以使得翻译模型将以源语言表示的语音数据和文本数据中的至少任一项翻译为以目标语言表示的翻译数据。以此方式，可以以更为有效和准确的方式训练翻译模型。

Description

用于语言翻译的方法、设备、装置和介质

技术领域

本公开的示例性实现方式总体涉及计算机领域，特别地涉及用于语言翻译的方法、设备、装置和计算机可读存储介质。

背景技术

语言翻译涉及将以源语言表示的内容翻译为以目标语言表示的内容。目前已经提出了多种语音翻译方案(Speech Translation，缩写ST)，语音翻译旨在将以源语言表示的语音信号翻译为目标语言的文本。然而，已有技术方案的翻译速度和准确性都不能令人满意。因而，期望能够以更为有效和准确的方式来执行语言翻译。

发明内容

根据本公开的示例性实现方式，提供了一种用于语言翻译的方案。

在本公开的第一方面，提供了一种用于语言翻译的方法。在该方法中，获取多个训练数据，多个训练数据中的训练数据包括以源语言表示的语音数据和文本数据、以及以目标语言表示的翻译数据，文本数据表示与语音数据相关联的文字转写，并且翻译数据表示与语音数据和文本数据相关联的翻译。分别确定多个训练数据包括的语音数据与文本数据之间的对比损失，对比损失分别表示多个训练数据包括的语音数据和文本数据之间的差异。基于多个训练数据以及对比损失来训练翻译模型，以使得翻译模型将以源语言表示的语音数据和文本数据中的至少任一项翻译为以目标语言表示的翻译数据。

在本公开的第二方面，提供了一种电子设备，包括：至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令，指令在由至少一个处理单元执行时使设备执行用于语言翻译的动作。该动作包括：获取多个训练数据，多个训练数据中的训练数据包括以源语言表示的语音数据和文本数据、以及以目标语言表示的翻译数据，文本数据表示与语音数据相关联的文字转写，并且翻译数据表示与语音数据和文本数据相关联的翻译；分别确定多个训练数据包括的语音数据与文本数据之间的对比损失，对比损失分别表示多个训练数据包括的语音数据和文本数据之间的差异；以及基于多个训练数据以及对比损失来训练翻译模型，以使得翻译模型将以源语言表示的语音数据和文本数据中的至少任一项翻译为以目标语言表示的翻译数据。

在本公开的第三方面，提供了一种用于语言翻译的装置，包括：获取单元，配置用于获取多个训练数据，多个训练数据中的训练数据包括以源语言表示的语音数据和文本数据、以及以目标语言表示的翻译数据，文本数据表示与语音数据相关联的文字转写，并且翻译数据表示与语音数据和文本数据相关联的翻译；确定单元，配置用于分别确定多个训练数据包括的语音数据与文本数据之间的对比损失，对比损失分别表示多个训练数据包括的语音数据和文本数据之间的差异；以及训练单元，配置用于基于多个训练数据以及对比损失来训练翻译模型，以使得翻译模型将以源语言表示的语音数据和文本数据中的至少任一项翻译为以目标语言表示的翻译数据。

在本公开的第四方面，提供了一种计算机可读存储介质。介质上存储有计算机程序，程序被处理器执行时实现第一方面的方法。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实现方式的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

在下文中，结合附图并参考以下详细说明，本公开各实现方式的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实现方式能够在其中实现的示例环境的框图；

图2示出了根据本公开的一些实现方式的用于将源语言翻译为目标语言的翻译模型的架构；

图3示出了根据本公开的一些实现方式的从语音数据提取语音表示的框图；

图4示出了根据本公开的一些实现方式的从文本数据提取文本表示的框图；

图5示出了根据本公开的一些实现方式的向翻译模型中的编码器提供的输入的框图；

图6示出了根据本公开的一些实现方式的训练数据集的框图；

图7示出了根据本公开的一些实现方式的用于语言翻译的方法的流程图；

图8示出了根据本公开的一些实现方式的用于语言翻译的装置的框图；以及

图9示出了能够实施本公开的多个实现方式的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实现方式。虽然附图中示出了本公开的某些实现方式，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实现方式，相反，提供这些实现方式是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实现方式仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实现方式的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实现方式”或“该实现方式”应当理解为“至少一个实现方式”。术语“一些实现方式”应当理解为“至少一些实现方式”。下文还可能包括其他明确的和隐含的定义。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。

“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而增加网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。

通常，机器学习大致可以包括三个阶段，即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代更新参数值，直到模型能够从训练数据中获取一致的满足预期目标的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在应用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。

在语言翻译领域，可以利用包括大量训练数据的训练数据集来训练翻译模型，进而使得翻译模型可以将输入的以源语言表示的内容翻译为以目标语言表示的内容。具体地，对于语音翻译而言，可以将以源语言(例如，中文或者其他语言)表示的语音内容转换为以目标语言(例如，英文或者其他语言)表示的文本内容。

目前已经提出了用于语音翻译的多种技术方案。在一种技术方案中，基于自动语音识别(Automatic Speech Recognition，缩写ASR)模型和机器翻译(MachineTranslation，缩写MT)模型的级联架构来实现语音翻译。此时，ASR模型将源语言表示的语音信号转换为以源语言表示的转写文字(transcript)，并且MT模型将转写文字转换为以目标语言表示的翻译数据。然而，ASR模型的错误将会传播到MT模型，这导致MT模型不能输出期望的正确结果。在另一技术方案中，可以基于端到端的多任务模型来提供端到端的语音翻译。在此，多任务模型可以实现ST、ASR和MT中的任一任务。尽管已有的端到端的多任务模型已经大大提高了翻译速度和准确性，期望可以进一步改进此类翻译模型，以便提供更加准确的翻译结果。

示例环境

图1示出了本公开的实现方式能够在其中实现的示例环境100的框图。在图1的环境100中，期望训练和使用这样的模型(即，翻译模型130)，该模型被配置用于将以源语言表示的内容翻译为以目标语言表示的内容。如图1所示，环境100包括模型训练***150和模型应用***152，可以基于端对端的多任务模型来实现翻译模型130。图1上部示出了模型训练阶段的过程，并且下部示出模型应用阶段的过程。在训练前，翻译模型130的参数值可以具有初始值，或者可以具有通过预训练过程获得经预训练的参数值。经过训练过程，翻译模型130的参数值可以被更新和调整。在训练完成后可以获得翻译模型130’。此时，翻译模型130’的参数值已经被更新，并且基于已更新的参数值，翻译模型130在应用阶段可以被用于实现翻译任务。

在模型训练阶段，可以基于包括多个训练数据112的训练数据集110，并利用模型训练***150来训练翻译模型130。在此，每个训练数据112可以涉及三元组格式，并且包括语音数据120、文本数据122以及翻译数据124。在本公开的上下文中，将仅以中文和英文作为源语言和目标语言的示例来描述有关翻译过程的具体细节。根据本公开的一个示例性实现方式，源语言和目标语言还可以是以下中的任何两种不同语言：日语、法语、俄语、西班牙语，等等。

在本公开的上下文中，语音数据120可以包括一段音频数据，例如对于训练数据112而言，语音数据120可以是存储某个人员读出“这是一本书”的录音。文本数据122可以表示与语音数据120相关联的文字转写，例如“这是一本书”的字符串。翻译数据124可以表示与语音数据120和文本数据122相关联的翻译，例如，“This is a book”的英文字符串。可以利用包括语音数据120、文本数据122和翻译数据124的训练数据112来训练多任务的翻译模型130。具体地，可以利用大量训练数据迭代地执行训练过程。在训练完成之后，翻译模型130可以实现多种任务中的任一项：例如，将源语言表示的语音数据转换为以目标语言表示的翻译数据，将以源语言表示的语音数据转换为以源语言表示的文本数据，或者将以源语言表示的文本数据转换为以目标语言表示的翻译数据。

在模型应用阶段，可以利用模型应用***152来调用翻译模型130’(此时的翻译模型130’具有训练后的参数值)，并且可以执行上述多个任务中的任一任务。例如，可以接收输入数据140(包括语音数据142和文本数据中的任一项)，并且输出翻译数据146。

在图1中，模型训练***150和模型应用***152可以包括具有计算能力的任何计算***，例如各种计算设备/***、终端设备、服务器等。终端设备可以涉及任意类型的移动终端、固定终端或便携式终端，包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、或者前述各项的任意组合，包括这些设备的配件和外设或者其任意组合。服务器包括但不限于大型机、边缘计算节点、云环境中的计算设备，等等。

应当理解，图1示出的环境100中的部件和布置仅仅是示例，适于用于实现本公开所描述的示例性实现方式的计算***可以包括一个或多个不同的部件、其他部件和/或不同的布置方式。例如，虽然被示出为是分离的，但模型训练***150和模型应用***152可以集成在相同***或设备中。本公开的实现方式在此方面不受限制。以下将继续参考附图，分别描述模型训练和模型应用的示例性实现方式。

模型训练架构

根据本公开的实现方式，提出了一种用于将源语言翻译为目标语言的方法。具体地，可以获取如图1所示的多个训练数据112，并且分别确定多个训练数据112的语音数据与文本数据之间的对比损失，在此对比损失分别表示训练数据的语音数据和文本数据之间的差异。进一步，可以利用多个训练数据以及对比损失，来训练翻译模型130，以使得翻译模型130将以源语言表示的语音数据和文本数据中的至少任一项翻译为以目标语言表示的翻译数据。根据本公开的一个示例性实现方式，由于训练阶段考虑了训练数据中的语音数据和文本数据之间的差异(也即，是否表达相同的含义)，可以朝向使得该差异最小化的方向来训练翻译模型130中的各个参数。以此方式，可以更有效地利用训练数据112的内在联系，提高翻译模型130的准确性。

在下文中，参见图2描述翻译模型130的概要。图2示出了根据本公开的一些实现方式的用于将源语言翻译为目标语言的翻译模型的架构200。根据本公开的一个示例性实现方式，可以基于目前已经开发的transformer编码器/解码器的架构来实现翻译模型130。如图2所示，可以利用transformer编码器240和transformer解码器250处理训练数据中的语音数据120、文本数据122和翻译数据124。

如图2所示，可以使用语音编码器210(例如，包括WAV2VEC2模块214和CNN(卷积神经网络)模块212)来处理语音数据120，以便生成语音数据120的语音表示。可以使用文本编码器220来处理文本数据122，以便生成文本数据122的文本表示。继而，可以比较语音表示和文本表示，以便确定语音数据120和文本数据122之间的对比损失230。

进一步，可以基于训练数据112和对比损失230来确定transformer编码器240和transformer解码器250的各个参数。例如，可以朝向使得对比损失230最小化的方向，来迭代地优化翻译模型130的各个参数。

在下文中，将参见图3描述有关确定语音表示的更多细节。图3示出了根据本公开的一些实现方式的从语音数据120提取语音表示的框图300。可以基于框图300来实现语音编码器210。在此，语音编码器210用于从语音数据120中提取语音表示330。该语音编码器210可以包括WAV2VEC2模块214和CNN模块212。根据本公开的一个示例性实现方式，可以使用目前已知的和/或将在未来发的多种编码器来实现上述模块。

根据本公开的一个示例性实现方式，可以使用已经训练好的WAV2VEC2模块214来处理语音数据120。具体地，可以按照预定的频率(例如，每秒100次或者其他数值)来针对语音数据120执行采样操作，以便获取与语音数据120相对应的语音序列310。在此，语音序列310可以包括分别与语音数据的多个时间段相对应的多个语音特征。例如，语音序列310中的横坐标表示时间，并且可以确定与每个时间段相对应的语音特征。

根据本公开的一个示例性实现方式，可以基于目前已知的和/或将在未来开发的多种格式来表示语音特征。例如，可以使用512维向量来表示与每个时间段相对应的语音特征。此时，语音序列310的长度即为语音数据120所包括的时间段的数量。假设语音数据120长度为5秒并且按照每秒100次的频率进行采样，则语音序列310的长度为500。

将会理解，语音序列310可能会包括大量数据，这将导致训练过程占用过多的存储资源和计算资源并且耗时过长。为了降低训练过程的工作负载，可以使用CNN模块212来将具有较大数据量的语音序列310压缩至具有较小数据量，例如，可以降低语音序列的长度。具体地，可以使用目前已知的已经训练好的卷积神经网络模型来执行压缩操作。例如，可以将语音序列310的长度压缩至低于原始长度。根据本公开的一个示例性实现方式，对于5秒的语音数据120而言，CNN模块212可以将语音序列310的长度从500压缩至100(或者其他数值)。

此时，压缩语音序列320可以仅包括100个语音特征(例如，512维)。利用本公开的示例性实现方式，可以通过选择不同的CNN模块212来生成具有不同长度的压缩语音序列320。以此方式，可以降低训练过程所涉及的数据量，进而降低各种资源的消耗并且提高训练速度。

根据本公开的一个示例性实现方式，可以进一步基于压缩语音序列320来生成语音表示330。例如，可以对压缩语音序列320中的各个语音特征进行加权求和，以便确定语音表示330。在一个示例中，可以将压缩语音序列320中的各个位置处的语音特征求平均，以便确定与语音数据120相对应的语音表示330。此时，语音表示330可以包括512个维度。

将会理解，图3仅仅示出了用于确定语音表示330的一个具体示例，根据本公开的一个示例性实现方式，还可以基于其他方式来确定语音表示330。例如，可以省略CNN模块212，并且直接基于语音序列310中的各个位置处的语音特征求平均，来确定语音表示330。根据本公开的一个示例性实现方式，还可以基于目前已知的和/或将在未来开发的其他语音处理技术，确定与语音数据120相对应的语音表示330。

在下文中，参见图4描述有关生成与文本数据122相对应的文本表示的更多细节。图4示出了根据本公开的一些实现方式的从文本数据122提取文本表示430的框图400。图4仅以包括5个中文字符的文本数据122为示例描述如何确定文本表示430。如图4所示，可以按照中文字符来将文本数据122拆分为多个字符410、412、414、416和418。进一步，可以基于目前已知的和/或将在未来开发的多种技术方案来利用相应的特征表示每个字符。例如，可以基于目前广泛使用的映射关系，利用512维(或者其他维度)的向量来表示每个中文字符。

此时，可以分别利用相对应的文本特征420、422、424、426和428来表示字符410、412、414、416和418。继而，可以基于上述文本特征来生成与文本数据122相对应的文本序列，在此，文本序列包括分别与文本数据的多个位置相对应的多个文本特征。例如，文本序列可以包括文本特征420、422、424、426和428的组合。进一步，可以基于多个文本特征420、422、424、426和428的加权平均，生成与文本数据122相对应的文本表示430。将会理解，图4仅仅示出了用于确定文本表示430的一个具体示例，根据本公开的一个示例性实现方式，还可以基于其他方式来确定文本表示430。例如，可以基于多个文本特征的平均、求和或者其他函数来确定文本表示430。

上文已经参见图3和图4描述了如何确定语音表示330和文本表示430。在下文中，将参见图5描述有关确定对比损失230的更多细节。图5示出了根据本公开的一些实现方式的向翻译模型130中的transformer编码器240提供的输入的框图500。根据本公开的一个示例性实现方式，可以确定语音表示330和文本表示430之间的距离510(例如，向量距离)，并且基于该距离510来确定对比损失230。

根据本公开的一个示例性实现方式，假设语音表示330和文本表示430均使用512维向量表示，可以利用两个向量之间的向量距离作为语音表示330和文本表示430之间的距离。进一步，可以使用如下公式1来确定对比损失：

L_ctr＝f₁(cos(s_i,x_i)) 公式1

其中L_ctr表示对比损失，s_i表示基于多个训练数据中的第i个训练数据确定的语音表示，x_i表示基于多个训练数据中的第i个训练数据确定的文本表示，cos(s_i,x_i)表示s_i和x_i之间的向量距离，并且f₁()表示与cos(s_i,x_i)相关联的函数。假设训练数据集110包括n个训练数据，此时i为正整数并且i≤n。

利用本公开的示例性实现方式，可以基于每个训练数据的语音表示和文本表示之间的差异来确定对比损失。假设训练数据集包括n个训练数据并且语音表示和文本表示都以512维向量来存储。针对第i个训练数据，可以基于向量距离的计算公式cos(s_i,x_i)来确定s_i和x_i之间的向量距离。进一步，可以基于f₁()函数来确定对比损失。在不同的实现方式中，f₁()函数可以具有不同的计算公式。例如，可以基于各个向量距离的求和、加权求和、指数运算、对数运算等来确定具体计算公式。以此方式，可以在构造损失函数时考虑对比损失，并且可以朝向使得对比损失尽量小的方向来训练翻译模型130，由此提高基于多任务方式实现的翻译模型130的准确性。

根据本公开的一个示例性实现方式，可以将来自一个训练数据的语音表示与来自其他训练数据的其他文本表示进行比较，来确定该语音表示与其他文本表示之间的交叉距离，进而确定对比损失。具体地，可以将来自第i个训练数据的语音表示s_i与来自第j个训练数据的文本表示x_j进行比较，以便确定两者之间的交叉距离cos(s_i,x_j)。进一步，可以基于如下公式2来确定对比损失：

L_ctr＝f₂(cos(s_i,x_i),cos(s_i,x_j)) 公式2

其中L_ctr表示对比损失，s_i表示基于多个训练数据中的第i个训练数据确定的语音表示，x_i表示基于多个训练数据中的第i个训练数据确定的文本表示，x_j表示基于多个训练数据中的第j个训练数据确定的文本表示，cos(s_i,x_i)表示s_i和x_i之间的向量距离，cos(s_i,x_j)表示s_i和x_j之间的向量距离，并且f₂()表示与cos(s_i,x_i)和cos(s_i,x_j)相关联的函数。i和j为正整数并且i,j≤n。

在此示例性实现方式中，除了考虑各个训练数据相关的对比损失，还可以考虑一个训练数据的语音表示和其他训练数据的文本表示之间的交叉距离。具体地，对于第i个训练数据，可以确定第i个训练数据的语音表示与第j个训练数据的文本表示之间的交叉。进一步，可以基于f₂()来确定对比损失。将会理解，各个训练数据都是带标记的正确数据。在确定对比损失时，通过引入不同训练数据之间的交叉距离，可以考虑不同训练数据之间的差异，进而提高翻译模型130的准确性。

根据本公开的一个示例性实现方式，可以基于针对某个训练数据的距离与该距离和至少一个其他交叉距离的求和的比较，确定对比损失。具体地，可以基于以下公式3至6中的任一项来确定对比损失：

上述公式中各个符号的含义与公式2所示相同，并且exp()表示指数运算，log()表示对数运算，并且∑表示求和运算。在此示例性实现方式中，可以基于每个训练数据相关的距离与全部距离的求和的比较，来进一步细化最终对比损失，进而提高翻译模型130的准确性。

根据本公开的一个示例性实现方式，在确定对比损失的过程中可以引入超参数，例如，可以基于如下公式7来确定对比损失：

上述公式中各个符号的符号含义与公式2所示相同，并且τ表示温度超参数，例如可以取值为0.01、0.05、0.1、1.0等数值。以此方式，可以基于预先设置的温度超参数，进一步提高翻译模型130的准确性。

根据本公开的一个示例性实现方式，训练模型130可以基于多任务方式实现。因而，训练数据集110可以包括多种格式的训练数据。在下文中，将参见图6描述有关训练数据集110的更多细节。图6示出了根据本公开的一些实现方式的训练数据集110的框图600。如图6所示，除了上文描述的三元组形式的训练数据112(包括语音数据120、文本数据122和翻译数据124)，训练数据集110还可以包括其他形式的训练数据610和620等。例如，训练数据610可以以二元组表示，并且包括以源语言表示文本数据612以及以目标语言表示的翻译数据614(表示与所述文本数据612相关联的翻译)。

此时，可以基于目前已知的和/或将在未来开发的方式来构造机器翻译损失L_mt。例如，可以利用翻译模型，获取文本数据612相关联的翻译预测，并且确定翻译预测和翻译数据614之间的机器翻译损失L_mt。进一步，可以朝向使得机器翻译损失L_mt最小化的方向来训练翻译模型130，以使得翻译模型130将以源语言表示的文本数据翻译为以目标语言表示的翻译数据。具体地，可以基于对比损失和机器翻译损失和的交叉熵，训练翻译模型。此时，可以基于如下公式8来确定用于训练翻译模型130的整体损失L：

L＝L_ctr+L_mt 公式8

其中表示用于训练翻译模型130的整体损失，L_ctr表示基于根据本公开的各个示例性实现方式确定的对比损失，并且L_mt表示机器翻译损失。

据本公开的一个示例性实现方式，训练数据520以二元组表示，并且可以包括以源语言表示的语音数据622和文本数据624(表示与语音数据622相关联的文字转写)。此时，可以基于目前已知的和/或将在未来开发的方式来构造自动语音识别损失L_asr。例如，可以利用翻译模型，获取语音数据622相关联的文本预测，并且确定文本预测和文本数据624之间的语音识别损失L_asr。进一步，可以朝向使得机器翻译损失L_asr最小的方向来训练翻译模型，以使得翻译模型130将以源语言表示的语音数据识别为以源语言表示的文本数据。具体地，可以基于对比损失和语音识别损失和的交叉熵，训练翻译模型。此时，可以基于如下公式9来确定用于训练翻译模型130的整体损失L：

L＝L_ctr+L_asr 公式9

其中表示用于训练翻译模型130的整体损失，L_ctr表示基于根据本公开的各个示例性实现方式确定的对比损失，并且L_asr表示自动语音识别损失。根据本公开的一个示例性实现方式，还可以对比损失、机器翻译损失和自动语音识别损失的交叉熵，来训练翻译模型。此时，可以基于公式10来确定用于训练翻译模型130的整体损失L：

L＝L_ctr+L_mt+L_asr 公式10

上述公式中各个符号的符号含义与公式8和9所示相同。利用本公开的示例性实现方式，可以朝向使得整体损失L最小化的方向，基于多种类型的训练数据112、610和620来执行训练过程，以便提高训练模型130的准确性。

将会理解，在此的不同形式的训练数据可以分别来自于相同或者不同的领域，例如，训练数据112来来自于人工标注数据，训练数据610可以来自于多语言版本的小说、新闻、论文等，并且训练数据620可以来自于单语言版本的电影、电视剧、综艺节目、新闻播报等。利用本公开的示例性实现方式，来自多个不同领域的训练数据可以提供丰富的训练样本，以便确保训练模型可以覆盖多个领域从而进一步提高翻译模型130的准确性。

模型应用架构

以上讨论的对翻译模型130的训练，训练后的翻译模型130’可以被提供到如图1所示的模型应用***152中使用，以用于对输入数据140进行处理。具体地，在已经完成模型训练阶段之后，可以使用已经训练好的、具有训练后的参数值的翻译模型130’来处理接收到的输入数据。例如，可以向翻译模型130’输入以源语言表示的输入数据。此时，翻译模型130’即可将以源语言表示的输入数据翻译为以目标语言表示的翻译数据。进一步，可以接收从翻译模型130’输出的以目标语言表示的翻译数据。

根据本公开的一个示例性实现方式，由于翻译模型130是基于多任务的端对端翻译模型，在此的输入数据可以包括语音数据142和文本数据144中的至少任一项。换言之，充分训练之后的翻译模型130’既可以处理语音数据142也可以处理文本数据144，也即，可以将语音数据142或者文本数据144从源语言翻译为目标语言。例如，翻译模型130’可以输出翻译数据146。

进一步，翻译模型130’还可以执行语音识别任务，例如，还可以向翻译模型130’输入以源语言表示的语音数据，并且使得翻译模型130’输出以源语言表示的文本数据，换言之，可以实现自动语音识别功能。利用本公开的示例性实现方式，可以使用基于对比损失训练的更为准确的翻译模型130’，执行多种功能。

示例过程

图7示出了根据本公开的一些实现方式的用于语言翻译的方法700的流程图。具体地，在框710处，获取多个训练数据，多个训练数据中的训练数据包括以源语言表示的语音数据和文本数据、以及以目标语言表示的翻译数据，文本数据表示与语音数据相关联的文字转写，并且翻译数据表示与语音数据和文本数据相关联的翻译。

在框720处，分别确定多个训练数据包括的语音数据与文本数据之间的对比损失，对比损失分别表示多个训练数据包括的语音数据和文本数据之间的差异。

根据本公开的一个示例性实现方式，可以分别处理多个训练数据中的每个训练数据。具体地，对于一个训练数据，可以分别确定训练数据包括的语音数据的语音表示和训练数据包括的文本数据的文本表示。进一步，可以基于语音表示和文本表示确定针对训练数据的对比损失。

根据本公开的一个示例性实现方式，为了确定语音表示，可以从语音数据提取语音序列，语音序列包括分别与语音数据的多个时间段相对应的多个语音特征。可以基于压缩操作将语音序列转换为压缩语音序列，压缩语音序列的长度低于语音序列的长度。进一步，可以基于压缩语音序列生成语音表示。

根据本公开的一个示例性实现方式，为了确定文本表示，可以从文本数据提取文本序列，文本序列包括分别与文本数据的多个位置相对应的多个文本特征。进一步，可以基于多个文本特征的加权平均，生成文本表示。

根据本公开的一个示例性实现方式，为了确定针对训练数据的对比损失，可以确定语音表示和文本表示之间的距离。可以确定语音表示和多个训练数据中的至少一个其他训练数据的文本表示之间的至少一个其他距离。进一步，可以基于距离和至少一个其他距离，确定针对训练数据的对比损失。

根据本公开的一个示例性实现方式，为了确定针对训练数据的对比损失，可以基于距离与距离和至少一个其他距离的求和的比较，确定针对训练数据的对比损失。

在框730处，基于多个训练数据以及对比损失来训练翻译模型，以使得翻译模型将以源语言表示的语音数据和文本数据中的至少任一项翻译为以目标语言表示的翻译数据。

根据本公开的一个示例性实现方式，多个训练数据中的另一训练数据包括以源语言表示文本数据以及以目标语言表示的翻译数据，翻译数据表示与文本数据相关联的翻译。可以进一步基于另一训练数据来训练翻译模型，以使得翻译模型将以源语言表示的文本数据翻译为以目标语言表示的翻译数据。

根据本公开的一个示例性实现方式，为了进一步训练翻译模型，可以利用翻译模型，获取与另一训练数据包括的文本数据相关联的翻译预测。可以确定翻译预测和另一训练数据包括的翻译数据之间的机器翻译损失。继而，可以基于机器翻译损失和对比损失的交叉熵，训练翻译模型。

根据本公开的一个示例性实现方式，多个训练数据中的另一训练数据包括以源语言表示的语音数据和文本数据，文本数据表示与语音数据相关联的文字转写。可以进一步基于另一训练数据来训练翻译模型，以使得翻译模型将以源语言表示的语音数据识别为以源语言表示的文本数据。

根据本公开的一个示例性实现方式，为了进一步训练翻译模型，可以利用翻译模型，获取与另一训练数据包括的语音数据相关联的文本预测。可以确定文本预测和另一训练数据包括的文本数据之间的语音识别损失。进一步，可以基于语音识别损失和对比损失的交叉熵，训练翻译模型。

根据本公开的一个示例性实现方式，可以进一步向翻译模型输入以源语言表示的输入数据。继而，可以接收从翻译模型输出的以目标语言表示的翻译数据。

根据本公开的一个示例性实现方式，输入数据可以包括语音数据和文本数据中的至少任一项，以及翻译模型可以包括多任务的端对端翻译模型。

示例装置和设备

图8示出了根据本公开的一些实现方式的用于语言翻译的装置800的框图。如图8所示，装置800包括获取单元810、确定单元820和训练单元830。

根据本公开的一个示例性实现方式，获取单元810被配置用于获取多个训练数据，多个训练数据中的训练数据包括以源语言表示的语音数据和文本数据、以及以目标语言表示的翻译数据，文本数据表示与语音数据相关联的文字转写，并且翻译数据表示与语音数据和文本数据相关联的翻译。

根据本公开的一个示例性实现方式，确定单元820被配置用于分别确定多个训练数据包括的语音数据与文本数据之间的对比损失，对比损失分别表示多个训练数据包括的语音数据和文本数据之间的差异。

根据本公开的一个示例性实现方式，确定单元820包括：表示确定单元，被配置用于针对多个训练数据中的训练数据，分别确定训练数据包括的语音数据的语音表示和训练数据包括的文本数据的文本表示；以及对比损失确定单元，被配置用于基于语音表示和文本表示确定针对训练数据的对比损失。

根据本公开的一个示例性实现方式，表示确定单元包括：语音单元：语音序列提取单元，被配置用于从语音数据提取语音序列，语音序列包括分别与语音数据的多个时间段相对应的多个语音特征；压缩单元，被配置用于基于压缩操作将语音序列转换为压缩语音序列，压缩语音序列的长度低于语音序列的长度；以及语音表示生成单元，被配置用于基于压缩语音序列生成语音表示。

根据本公开的一个示例性实现方式，表示确定单元包括：文本序列提取单元，被配置用于从文本数据提取文本序列，文本序列包括分别与文本数据的多个位置相对应的多个文本特征；以及文本表示生成单元，被配置用于基于多个文本特征的加权平均，生成文本表示。

根据本公开的一个示例性实现方式，对比损失确定单元包括：第一距离确定单元，被配置用于确定语音表示和文本表示之间的距离；第二距离确定单元，被配置用于确定语音表示和多个训练数据中的至少一个其他训练数据的文本表示之间的至少一个其他距离；以及对比损失单元，被配置用于基于距离和至少一个其他距离，确定针对训练数据的对比损失。

根据本公开的一个示例性实现方式，对比损失单元包括：比较单元，被配置用于基于距离与距离和至少一个其他距离的求和的比较，确定针对训练数据的对比损失。

根据本公开的一个示例性实现方式，训练单元830被配置用于基于多个训练数据以及对比损失来训练翻译模型，以使得翻译模型将以源语言表示的语音数据和文本数据中的至少任一项翻译为以目标语言表示的翻译数据。

根据本公开的一个示例性实现方式，多个训练数据中的另一训练数据包括以源语言表示文本数据以及以目标语言表示的翻译数据，翻译数据表示与文本数据相关联的翻译。

根据本公开的一个示例性实现方式，训练单元830进一步包括：机器翻译训练单元，被配置用于基于另一训练数据来训练翻译模型，以使得翻译模型将以源语言表示的文本数据翻译为以目标语言表示的翻译数据。

根据本公开的一个示例性实现方式，训练单元830进一步包括：预测单元，被配置用于利用翻译模型，获取与另一训练数据包括的文本数据相关联的翻译预测；机器翻译损失确定单元，被配置用于确定翻译预测和另一训练数据包括的翻译数据之间的机器翻译损失；以及机器翻译训练单元，被配置用于基于机器翻译损失和对比损失的交叉熵，训练翻译模型。

根据本公开的一个示例性实现方式，多个训练数据中的另一训练数据包括以源语言表示的语音数据和文本数据，文本数据表示与语音数据相关联的文字转写。

根据本公开的一个示例性实现方式，训练单元830进一步包括：自动语音识别训练单元，被配置用于基于另一训练数据来训练翻译模型，以使得翻译模型将以源语言表示的语音数据识别为以源语言表示的文本数据。

根据本公开的一个示例性实现方式，训练单元830进一步包括：预测单元，被配置用于利用翻译模型，获取与另一训练数据包括的语音数据相关联的文本预测；语音识别损失确定单元，被配置用于确定文本预测和另一训练数据包括的文本数据之间的语音识别损失；以及语音识别训练单元，被配置用于基于语音识别损失和对比损失的交叉熵，训练翻译模型。

根据本公开的一个示例性实现方式，该装置800进一步包括输入单元，被配置用于向翻译模型输入以源语言表示的输入数据；以及输出单元，被配置用于接收从翻译模型输出的以目标语言表示的翻译数据。

根据本公开的一个示例性实现方式，输入数据包括语音数据和文本数据中的至少任一项，以及翻译模型包括多任务的端对端翻译模型。

图9示出了能够实施本公开的多个实现方式的设备900的框图。应当理解，图9所示出的计算设备900仅仅是示例性的，而不应当构成对本文所描述的实现方式的功能和范围的任何限制。图9所示出的计算设备900可以用于实现如图1所示的模型训练***150，也可以实现用于如图1所示的模型应用***152。

如图9所示，计算设备900是通用计算设备的形式。计算设备900的组件可以包括但不限于一个或多个处理器或处理单元910、存储器920、存储设备930、一个或多个通信单元940、一个或多个输入设备950以及一个或多个输出设备960。处理单元910可以是实际或虚拟处理器并且能够根据存储器920中存储的程序来执行各种处理。在多处理器***中，多个处理单元并行执行计算机可执行指令，以提高计算设备900的并行处理能力。

计算设备900通常包括多个计算机存储介质。这样的介质可以是计算设备900可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器920可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备930可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备900内被访问。

计算设备900可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图9中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器920可以包括计算机程序产品925，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实现方式的各种方法或动作。

通信单元940实现通过通信介质与其他计算设备进行通信。附加地，计算设备900的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备900可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备950可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备960可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备900还可以根据需要通过通信单元940与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备900交互的设备进行通信，或者与使得计算设备900与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，提供了一种计算机程序产品，其上存储有计算机程序，所述程序被处理器执行时实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

1.一种用于语言翻译的方法，包括：

获取多个训练数据，所述多个训练数据中的训练数据包括以源语言表示的语音数据和文本数据、以及以目标语言表示的翻译数据，所述文本数据表示与所述语音数据相关联的文字转写，并且所述翻译数据表示与所述语音数据和所述文本数据相关联的翻译；

分别确定所述多个训练数据包括的语音数据与文本数据之间的对比损失，所述对比损失分别表示所述多个训练数据包括的所述语音数据和所述文本数据之间的差异；以及

基于所述多个训练数据以及所述对比损失来训练翻译模型，以使得所述翻译模型将以所述源语言表示的语音数据和文本数据中的至少任一项翻译为以所述目标语言表示的翻译数据。

2.根据权利要求1所述的方法，其中分别确定所述多个训练数据包括的语音数据与文本数据之间的所述对比损失包括：针对所述多个训练数据中的所述训练数据，

分别确定所述训练数据包括的所述语音数据的语音表示和所述训练数据包括的所述文本数据的文本表示；以及

基于所述语音表示和所述文本表示确定针对所述训练数据的对比损失。

3.根据权利要求2所述的方法，其中确定所述语音表示包括：

从所述语音数据提取语音序列，所述语音序列包括分别与所述语音数据的多个时间段相对应的多个语音特征；

基于压缩操作将所述语音序列转换为压缩语音序列，所述压缩语音序列的长度低于所述语音序列的长度；以及

基于所述压缩语音序列生成所述语音表示。

4.根据权利要求2所述的方法，其中确定所述文本表示包括：

从所述文本数据提取文本序列，所述文本序列包括分别与所述文本数据的多个位置相对应的多个文本特征；以及

基于所述多个文本特征的加权平均，生成所述文本表示。

5.根据权利要求2所述的方法，其中基于所述语音表示和所述文本表示确定针对所述训练数据的所述对比损失包括：

确定所述语音表示和所述文本表示之间的距离；

确定所述语音表示和所述多个训练数据中的至少一个其他训练数据的文本表示之间的至少一个其他距离；以及

基于所述距离和所述至少一个其他距离，确定针对所述训练数据的所述对比损失。

6.根据权利要求5所述的方法，其中基于所述距离和所述至少一个其他距离，确定针对所述训练数据的所述对比损失包括：基于所述距离与所述距离和所述至少一个其他距离的求和的比较，确定针对所述训练数据的所述对比损失。

7.根据权利要求1所述的方法，其中所述多个训练数据中的另一训练数据包括以所述源语言表示文本数据以及以所述目标语言表示的翻译数据，所述翻译数据表示与所述文本数据相关联的翻译；以及所述方法进一步包括：

基于所述另一训练数据来训练所述翻译模型，以使得所述翻译模型将以所述源语言表示的文本数据翻译为以所述目标语言表示的翻译数据。

8.根据权利要求7所述的方法，进一步包括：

利用所述翻译模型，获取与所述另一训练数据包括的所述文本数据相关联的翻译预测；

确定所述翻译预测和所述另一训练数据包括的所述翻译数据之间的机器翻译损失；以及

基于所述机器翻译损失和所述对比损失的交叉熵，训练所述翻译模型。

9.根据权利要求1所述的方法，其中所述多个训练数据中的另一训练数据包括以所述源语言表示的语音数据和文本数据，所述文本数据表示与所述语音数据相关联的文字转写，以及所述方法进一步包括：

基于所述另一训练数据来训练所述翻译模型，以使得所述翻译模型将以所述源语言表示的语音数据识别为以所述源语言表示的文本数据。

10.根据权利要求9所述的方法，进一步包括：

利用所述翻译模型，获取与所述另一训练数据包括的所述语音数据相关联的文本预测；

确定所述文本预测和所述另一训练数据包括的所述文本数据之间的语音识别损失；以及

基于所述语音识别损失和所述对比损失的交叉熵，训练所述翻译模型。

11.根据权利要求1所述的方法，进一步包括：

向所述翻译模型输入以所述源语言表示的输入数据；以及

接收从所述翻译模型输出的以所述目标语言表示的翻译数据。

12.根据权利要求1所述的方法，其中所述输入数据包括语音数据和文本数据中的至少任一项，以及所述翻译模型包括多任务的端对端翻译模型。

13.一种电子设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述设备执行以下动作：

14.根据权利要求13所述的设备，其中分别确定所述多个训练数据包括的语音数据与文本数据之间的所述对比损失包括：针对所述多个训练数据中的所述训练数据，

15.根据权利要求14所述的设备，其中确定所述语音表示包括：

基于所述压缩语音序列生成所述语音表示。

16.根据权利要求14所述的设备，其中确定所述文本表示包括：

基于所述多个文本特征的加权平均，生成所述文本表示。

17.根据权利要求14所述的设备，其中基于所述语音表示和所述文本表示确定针对所述训练数据的所述对比损失包括：

确定所述语音表示和所述文本表示之间的距离；

18.根据权利要求16所述的设备，其中基于所述距离和所述至少一个其他距离，确定针对所述训练数据的所述对比损失包括：基于所述距离与所述距离和所述至少一个其他距离的求和的比较，确定针对所述训练数据的所述对比损失。

19.根据权利要求13所述的设备，其中所述多个训练数据中的另一训练数据包括以所述源语言表示文本数据以及以所述目标语言表示的翻译数据，所述翻译数据表示与所述文本数据相关联的翻译；以及其中所述指令在由所述至少一个处理单元执行时进一步使所述设备执行：

20.根据权利要求19所述的设备，其中所述指令在由所述至少一个处理单元执行时进一步使所述设备执行：

21.根据权利要求13所述的设备，其中所述多个训练数据中的另一训练数据包括以所述源语言表示的语音数据和文本数据，所述文本数据表示与所述语音数据相关联的文字转写，以及其中所述指令在由所述至少一个处理单元执行时进一步使所述设备执行：

22.根据权利要求21所述的设备，其中所述指令在由所述至少一个处理单元执行时进一步使所述设备执行：

23.根据权利要求13所述的设备，其中所述指令在由所述至少一个处理单元执行时进一步使所述设备执行：

向所述翻译模型输入以所述源语言表示的输入数据；以及

24.根据权利要求13所述的设备，其中所述输入数据包括语音数据和文本数据中的至少任一项，以及所述翻译模型包括多任务的端对端翻译模型。

25.一种用于语言翻译的装置，包括：

获取单元，配置用于获取多个训练数据，所述多个训练数据中的训练数据包括以源语言表示的语音数据和文本数据、以及以目标语言表示的翻译数据，所述文本数据表示与所述语音数据相关联的文字转写，并且所述翻译数据表示与所述语音数据和所述文本数据相关联的翻译；

确定单元，配置用于分别确定所述多个训练数据包括的语音数据与文本数据之间的对比损失，所述对比损失分别表示所述多个训练数据包括的所述语音数据和所述文本数据之间的差异；以及

训练单元，配置用于基于所述多个训练数据以及所述对比损失来训练翻译模型，以使得所述翻译模型将以所述源语言表示的语音数据和文本数据中的至少任一项翻译为以所述目标语言表示的翻译数据。

26.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至12中任一项所述的方法。

27.一种计算机程序产品，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至12中任一项所述的方法。