CN108447486A

CN108447486A - 一种语音翻译方法及装置

Info

Publication number: CN108447486A
Application number: CN201810167142.5A
Authority: CN
Inventors: 王雨蒙; 徐伟; 江源; 胡国平; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2018-08-24
Anticipated expiration: 2038-02-28
Also published as: CN108447486B; WO2019165748A1

Abstract

本申请公开了一种语音翻译方法及装置，所述方法包括：当获取到源发音人的第一目标语音后，通过对第一目标语音进行语音翻译，生成第二目标语音，其中，第二目标语音的语种与第一目标语音的语种不同，第二目标语音携带了源发音人的音色特征。可见，在对源发音人的语音即翻译前语音进行语音翻译时，由于考虑了源发音人本身具有的音色特征，使得翻译后语音也具有源发音人的音色特征，从而使得该翻译后语音听起来更像是源发音人直接说出的语音。

Description

一种语音翻译方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音翻译方法及装置。

背景技术

随着人工智能技术的日益成熟，人们越来越多地追求着利用智能技术来解决一些问题。例如，曾经人们需要花费大量的时间来学习一门新的语言，才能与以该语言为母语的人沟通，而现在，人们可以直接通过翻译机，围绕着语音识别、智能翻译以及语音合成技术，来实现口语输入、机器翻译、并发音说出翻译后的意思。

但是，在目前的语音翻译技术中，将源发音人的语音进行翻译后，得到的翻译后语音完全是语音合成模型中的发音人的音色特征，在听感上，是与源发音人完全不同的另一个发音人的音色特征。

发明内容

本申请实施例的主要目的在于提供一种语音翻译方法及装置，当对源发音人的语音进行翻译时，能够使翻译后的语音具有源发音人的音色特征。

本申请实施例提供了一种语音翻译方法，包括：

获取源发音人的第一目标语音；

通过对所述第一目标语音进行语音翻译，生成第二目标语音，其中，所述第二目标语音的语种与所述第一目标语音的语种不同，所述第二目标语音携带了所述源发音人的音色特征。

可选的，所述通过对所述第一目标语音进行语音翻译，生成第二目标语音，包括：

通过对所述第一目标语音进行语音识别，生成语音识别文本；

通过对所述语音识别文本进行文本翻译，生成翻译文本；

通过对所述翻译文本进行语音合成，生成第二目标语音。

可选的，所述通过对所述翻译文本进行语音合成，生成第二目标语音，包括：

将所述翻译文本按照预设大小的文本单位进行切分，得到各个目标文本单位；

获取各个目标文本单位的声学参数，其中，所述声学参数携带了所述源发音人的音色特征；

根据各个目标文本单位的声学参数，对所述翻译文本进行语音合成，生成第二目标语音。

可选的，所述方法还包括：

获取所述源发音人的第一样本语音，其中，所述第一样本语音的语种与所述第二目标语音的语种相同；

将所述第一样本语音的识别文本按照所述预设大小的文本单位进行切分，得到各个第一样本文本单位；

从所述第一样本语音中提取与所述第一样本文本单位对应的第一语音片段；

从所述第一语音片段中提取声学参数；

利用各个第一样本文本单位以及与所述第一样本文本单位对应的声学参数，构建第一声学模型；

则，所述获取各个目标文本单位的声学参数，包括：

利用所述第一声学模型，获取各个目标文本单位的声学参数。

可选的，所述方法还包括：

获取所述源发音人的第二样本语音，其中，所述第二样本语音的语种与所述第二目标语音的语种不同；

将所述第二样本语音的识别文本按照所述预设大小的文本单位进行切分，得到各个第二样本文本单位；

将所述第二样本文本单位进行转换，得到第一转换文本单位，其中，所述第一转换文本单位是所述第二目标语音的语种所使用的文本单位；

从所述第二样本语音中提取与所述第二样本文本单位对应的第二语音片段；

从所述第二语音片段中提取声学参数，得到与所述第一转换文本单位对应的声学参数；

利用各个第二样本文本单位、与所述第二样本文本单位对应的第一转换文本单位、以及与所述第一转换文本单位对应的声学参数，构建第二声学模型；

则，所述获取各个目标文本单位的声学参数，包括：

利用所述第二声学模型，获取各个目标文本单位的声学参数。

可选的，所述方法还包括：

收集多个第一样本文本，其中，所述第一样本文本的语种与所述第二样本语音的语种相同；

将所述第一样本文本按照所述预设大小的文本单位进行切分，得到各个第三样本文本单位；

将所述第三样本文本单位进行转换，得到第二转换文本单位，其中，所述第二转换文本单位是所述第三样本文本单位以所述第二目标语音的发音方式进行发音的文本单位；

则，所述将所述第二样本文本单位进行转换，得到第一转换文本单位，包括：

确定与所述第二样本文本单位相同的第三样本文本单位；

将所确定的第三样本文本单位对应的第二转换文本单位，作为第一转换文本单位。

可选的，所述方法还包括：

收集多个第二样本文本，其中，所述第二样本文本的语种与所述第二样本语音的语种相同；

将所述第二样本文本按照音所述预设大小的文本单位行切分，得到各个第四样本文本单位；

将所述第四样本文本单位进行转换，得到第三转换文本单位，其中，所述第三转换文本单位是所述第四样本文本单位以所述第二目标语音的发音方式进行发音的文本单位；

对于所述第二样本文本中的音节，通过学习属于同一音节的第四样本文本单位在对应音节中的组合关系和顺序关系、学习至少两个连续音节在所述第二样本文本中的组合关系和顺序关系、以及学习至少两个连续音节中的第四样本文本单位在所述第二样本文本中的组合关系和顺序关系，构建编解码模型；

利用所述编解码模型，将所述第二样本文本单位进行转换，得到第一转换文本单位。

本申请实施例还提供了一种语音翻译装置，包括：

语音获取单元，用于获取源发音人的第一目标语音；

语音翻译单元，用于通过对所述第一目标语音进行语音翻译，生成第二目标语音，其中，所述第二目标语音的语种与所述第一目标语音的语种不同，所述第二目标语音携带了所述源发音人的音色特征。

本申请实施例还提供了一种语音翻译装置，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述任一项所述的方法。

本申请实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述任意一项所述的方法。

本申请实施例提供的一种语音翻译方法及装置，当获取到源发音人的第一目标语音后，通过对第一目标语音进行语音翻译，生成第二目标语音，其中，第二目标语音的语种与第一目标语音的语种不同，第二目标语音携带了源发音人的音色特征。可见，在对源发音人的语音即翻译前语音进行语音翻译时，由于考虑了源发音人本身具有的音色特征，使得翻译后语音也具有源发音人的音色特征，从而使得该翻译后语音听起来更像是源发音人直接说出的语音。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音翻译方法的流程示意图之一；

图2为本申请实施例提供的一种语音翻译方法的流程示意图之二；

图3为本申请实施例提供的语音合成模型示意图；

图4为本申请实施例提供的一种声学模型构建方法的流程示意图之一；

图5为本申请实施例提供的一种声学模型构建方法的流程示意图之二；

图6为本申请实施例提供的一种样本文本单位收集方法的流程示意图；

图7为本申请实施例提供的音素序列之间的关系示意图；

图8为本申请实施例提供的一种编解码模型构建方法的流程示意图；

图9为本申请实施例提供的编码过程示意图；

图10为本申请实施例提供的一种语音翻译装置的组成示意图；

图11为本申请实施例提供的一种语音翻译装置的硬件结构示意图。

具体实施方式

在目前的语音翻译技术中，将源发音人的语音进行翻译后，得到的翻译后语音完全是合成模型中的发音人的音色特征，在听感上，是与源发音人完全不同的另一个发音人的音色特征，即，听起来像是一个人在说话，另一个人随后进行的翻译，是不同的两个人的发音效果。

为此，本申请实施例提供了一种语音翻译方法及装置，在对源发音人的语音即翻译前语音进行语音翻译时，即需要将源发音人的语音翻译成另一语种时，使用属于源发音人的语音合成模型进行语音翻译，使得翻译后语音具有源发音人的音色特征，从而使得该翻译后语音听起来更像是源发音人直接说出的语音，进而提升了用户体验。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种语音翻译方法的流程示意图，该方法包括以下步骤：

S101：获取源发音人的第一目标语音。

为便于区分，本实施例将需要进行翻译的语音即翻译前语音，定义为第一目标语音，并将说出所述第一目标语音的说话人定义为源发音人。

本实施例不限定所述第一目标语音的来源，例如，所述第一目标语音可以是某人的真实语音或是录制语音，也可以是对所述真实语音或所述录制语音进行机器处理后的特效语音。

本实施例也不限定所述第一目标语音的长度，例如，所述第一目标语音可以是一个词、也可以是一句话、还可以是一段话。

S102：通过对所述第一目标语音进行语音翻译，生成第二目标语音，其中，所述第二目标语音的语种与所述第一目标语音的语种不同，所述第二目标语音携带了所述源发音人的音色特征。

为便于区分，本实施例将对第一目标语音进行翻译后的语音，定义为第二目标语音。需要说明的是，当第一目标语音为上述经机器处理后的特效语音时，还需要进一步将翻译后得到的第二目标语音也进行相同方式的特效处理。

本实施例不限定第一目标语音与第二目标语音的语种类型，只要第一目标语音与第二目标语音的语种类型不同但语音意思相同即可。例如，第一目标语音为中文“你好”，第二目标语音为英文“hello”；或者，第一目标语音为英文“hello”，第二目标语音为中文“你好”。

实际应用中，用户比如源发音人，可以为翻译机预设翻译后的语种，当翻译机的语音合成模型获取到源发音人的第一目标语音后，便可以将其进行语音翻译，使翻译后的第二目标语音为预设的翻译语种。

本实施例中，可以预先采集源发音人的音色特征，用来构建属于源发音人的语音合成模型，基于此，当对源发音人的第一目标语音进行语音翻译时，可以采用属于源发音人的语音合成模型进行语音翻译，使翻译后的第二目标语音被赋予源发音人的音色特征，这种音色自适应方式，使听者在听感上觉得第二目标语音具有源发音人的说话效果，即，使翻译前语音与翻译后语音在音色效果上相同或相近。

综上，本实施例提供的一种语音翻译方法，当获取到源发音人的第一目标语音后，通过对第一目标语音进行语音翻译，生成第二目标语音，其中，第二目标语音的语种与第一目标语音的语种不同，第二目标语音携带了源发音人的音色特征。可见，在对源发音人的语音即翻译前语音进行语音翻译时，由于考虑了源发音人本身具有的音色特征，使得翻译后语音也具有源发音人的音色特征，从而使得该翻译后语音听起来更像是源发音人直接说出的语音。

第二实施例

本实施例将结合附图，通过下述S202-S204介绍上述第一实施例中S102的具体实现方式。

参见图2，为本实施例提供的一种语音翻译方法的流程示意图，该方法包括以下步骤：

S201：获取源发音人的第一目标语音。

需要说明的是，本实施例中的S201与第一实施例中的S101一致，相关说明请参见第一实施例，在此不再赘述。

S202：通过对所述第一目标语音进行语音识别，生成语音识别文本。

当获取到第一目标语音后，通过语音识别技术，比如基于人工神经网络的语音识别技术，将第一目标语音转换成语音识别文本。

例如，第一目标语音为中文语音“你好”，对其进行语音识别，可以得到中文文本“你好”。

S203：通过对所述语音识别文本进行文本翻译，生成翻译文本。

例如，假设翻译前语种为中文、翻译后语种被设定为英文，那么，语音识别文本为中文文本，可以将该中文文本通过“中→英”的翻译模型，得到英文翻译文本，比如将中文文本“你好”进行文本翻译，得到英文文本“hello”。

S204：通过对所述翻译文本进行语音合成，生成第二目标语音，其中，所述第二目标语音的语种与所述第一目标语音的语种不同，所述第二目标语音携带了所述源发音人的音色特征。

针对目前的语音翻译现状，翻译后语音与翻译前语音在音色上的区分度是非常明显的，为克服该缺陷，本实施例可以预先利用源发音人的语音声学参数进行建模，得到属于源发音人的语音合成模型。这样，当将所述翻译文本合成语音时，可以利用该语音合成模型，使翻译后语音即第二目标语音具有源发音人的音色特征，达到源发音人自己说话、自己翻译的听感效果。例如，所述翻译文本为英文文本“hello”，翻译后语音即第二目标语音为英文语音“hello”。

具体地，语音合成模型可以包括声学模型和时长模型，如图3所示的语音合成模型示意图。

在得到第一目标语音的翻译文本后，首先要对该翻译文本进行文本分析处理，确定该翻译文本中每个音节信息，并获取组成每个音节的各个音素信息，然后将这些音素信息输入至图3所示的声学模型，以便该声学模型确定并输出每一音素的声学参数，该声学参数携带了源发音人的音色特征，其中，该声学参数可以包括频谱、基频等参数。此外，还要将上述音素信息输入至图3所示的时长模型，以便该时长模型输出时长参数，本实施例不限制时长参数的确定方式。作为一种示例，可以确定第一目标语音的语速或采用默认语速，计算翻译文本按照该语速进行阅读时所花费的时长，将该时长作为时长参数。

接下来，语音合成模型将利用声学模型输出的声学参数，使翻译文本中每一音素按照对应的声学参数进行发音，语音合成模型还利用时长模型输出的时长参数，按照指定的时长进行发音，从而合成带有源发音人的音色特征的翻译语音，即得到第二目标语音。

在本实施例的一种实现方式中，可以按照下述方式实现S204，具体可以包括以下步骤：

步骤A：将所述翻译文本按照预设大小的文本单位进行切分，得到各个目标文本单位。

将翻译文本按照预设大小的文本单位进行划分，比如，当翻译文本为中文文本时，可以以音素、字节或字等为单位进行划分，又比如，当翻译文本为英文文本时，可以以音素、单词等为单位进行划分。为便于区分，本实施例将从翻译文本中划分出的每一文本单位定义为目标文本单位。

步骤B：获取各个目标文本单位的声学参数，其中，所述声学参数携带了所述源发音人的音色特征。

本实施例可以利用图3所示声学模型，获取每一目标文本单位的声学参数，由于该声学模型是属于源发音人的声学模型，所以，利用该声学模型获取的声学参数将具有源发音人的音色特征。

需要说明的是，图3所示声学模型的构建方法以及如何利用该声学模型获取目标文本单位的声学参数，将在后续第三实施例中进行具体介绍。

步骤C：根据各个目标文本单位的声学参数，对所述翻译文本进行语音合成，生成第二目标语音。

当通过步骤B获取到翻译文本中每一目标文本单位的声学参数，比如，该声学参数可以包括频谱、基频等参数，然后，图3所示的语音合成模型可以使每一目标文本单位按照对应的声学参数进行发音，从而将翻译文本合成为具体源发音人的音色特征的第二目标语音。

综上，本实施例提供的一种语音翻译方法，当获取到源发音人的第一目标语音后，对第一目标语音的语音识别文本进行文本翻译，然后，通过获取翻译文本中每一文本单位的声学参数进行语音合成，生成第二目标语音。由于声学参数中携带了源发音人的音色特征，使得翻译后语音也具有源发音人的音色特征，从而使得该翻译后语音听起来更像是源发音人直接说出的语音。

第三实施例

本实施例将介绍第二实施例中声学模型的构建方法，以及，介绍第二实施例中步骤B的具体实现方式，即如何利用该声学模型获取目标文本单位的声学参数。

在本实施例中，当源发音人首次拿到翻译机后，可以按照说明书提示进行录音，用以构建声学模型使用，录音内容是可选的，源发音人可以根据自己的朗读能力进行语种选择，也就是说，源发音人选择的录音语种，可以与翻译后语音(即第二目标语音)的语种相同或不同。本实施例将分别基于上述两种不同的语种选择结果，对声学模型的构建方法进行具体介绍。

在声学模型的第一种构建方法中，源发音人选择的录音语种，与翻译后语音(即第二目标语音)的语种相同，下面对该模型构建方法进行具体介绍。

参见图4，为本实施例提供的一种声学模型构建方法的流程示意图，该方法包括以下步骤：

S401：获取所述源发音人的第一样本语音，其中，所述第一样本语音的语种与所述第二目标语音的语种相同。

在本实施例中，为了使翻译后语音即第二目标语音，能够按照源发音人的音色特征进行发音，可以获取源发音人的一段录音，该段录音可以与翻译后语音的语种相同，并且，该段录音的对应文本，应尽量涵盖该文本语种的所有音素内容。

为便于区分，本实施例将该段录音定义为第一样本语音。

现以翻译前语音即第一目标语音为中文语音、翻译后语音即第二目标语音为英文语音为例，首先，确认源发音人是否有正常朗读英文的能力，比如，翻译机可以询问源发音人是否可以朗读英文，若源发音人通过语音或按键等形式回复“可以朗读英文”，则翻译机可以给出一段少量的固定英文文本并提示源发音人朗读该固定英文文本，该固定英文文本尽量涵盖所有的英文音素，源发音人对该固定英文文本进行朗读，以便翻译机获取该固定英文文本的语音，该语音即为所述第一样本语音。

S402：将所述第一样本语音的识别文本按照所述预设大小的文本单位进行切分，得到各个第一样本文本单位。

当获取到第一样本语音后，通过语音识别技术，比如基于人工神经网络的语音识别技术，将第一样本语音转换成语音识别文本。然后，将该语音识别文本按照预设大小的文本单位(与第二实施例中步骤A的划分单位相同)进行划分，比如以音素为单位进行划分，为便于区分，本实施例将从该语音识别文本中划分出的每一文本单位定义为第一样本文本单位。

S403：从所述第一样本语音中提取与所述第一样本文本单位对应的第一语音片段，并从所述第一语音片段中提取声学参数。

按照对第一样本语音的识别文本进行的文本划分方式，对第一样本语音进行划分，这样，便可以确定每一第一样本文本单位在第一样本语音中对应的语音片段，比如，将第一样本语音的识别文本以及第一样本语音，均以音素为单位进行划分，从而得到该识别文本中每一音素对应的语音片段。为便于区分，本实施例将第一样本文本单位对应的语音片段定义为第一语音片段。

对于每一第一样本文本单位，从与其对应的第一语音片段中提取相应的声学参数，如频谱、基频等，这样，便获取到了源发音人的音色特征数据。

S404：利用各个第一样本文本单位以及与所述第一样本文本单位对应的声学参数，构建第一声学模型。

可以将各个第一样本文本单位、以及每一第一样本文本单位对应的声学参数进行存储，以形成第一数据集合。以第一数据集合中的文本单位为音素为例，需要说明的是，如果第一数据集合无法涵盖翻译后语种的所有音素，可以将未涵盖的音素以及为这些音素设置的默认声学参数，添加至第一数据集合中。这样，便可以基于第一数据集合中第一样本文本单位与声学参数之间的对应关系，构建属于源发音人的声学模型，具体构建时，直接将第一数据集合作为训练数据，训练源发音人的声学模型，训练过程与现有技术相同，本实施例将构建的声学模型定义为第一声学模型。

在一种实施方式中，该声学模型可以实现第二实施例中的步骤B“获取各个目标文本单位的声学参数”，具体可以包括：利用所述第一声学模型，获取各个目标文本单位的声学参数。在本实施方式中，利用源发音人的声学模型即第一声学模型，直接生成每一目标文本单位的声学参数，具体生成方法可以与现有技术相同，比如，该生成方法可以是现有的基于参数的语音合成方法。

在声学模型的第二种构建方法中，源发音人选择的录音语种，与翻译后语音(即第二目标语音)的语种不同，下面对该模型构建方法进行具体介绍。

参见图5，为本实施例提供的另一种声学模型构建方法的流程示意图，该方法包括以下步骤：

S501：获取所述源发音人的第二样本语音，其中，所述第二样本语音的语种与所述第二目标语音的语种不同。

在本实施例中，为了使翻译后语音即第二目标语音，能够按照源发音人的音色特征进行发音，可以获取源发音人的一段录音，该段录音可以与翻译后语音的语种不同，比如该段录音可以与翻译前语音即第一目标语音的语种相同，并且，该段录音的对应文本，应尽量涵盖该文本语种的所有音素内容。

为便于区分，本实施将该段录音定义为第二样本语音。

现仍以翻译前语音即第一目标语音为中文语音、翻译后语音即第二目标语音为英文语音为例，首先，确认源发音人是否有正常朗读英文的能力，比如，翻译机可以询问源发音人是否可以朗读英文，若源发音人通过语音或按键等形式回复“不可以朗读英文”，则翻译机可以提供语种选择项，假设源发音人选择中文，则翻译机可以给出一段少量的固定中文文本并提示源发音人朗读该固定中文文本，该固定中文文本尽量涵盖所有的中文音素，源发音人对该固定中文文本进行朗读，以便翻译机获取该固定中文文本的语音，该语音即为所述第二样本语音。

S502：将所述第二样本语音的识别文本按照所述预设大小的文本单位进行切分，得到各个第二样本文本单位。

当获取到第二样本语音后，通过语音识别技术，比如基于人工神经网络的语音识别技术，将第二样本语音转换成语音识别文本。然后，将该语音识别文本按照预设大小的文本单位(与第二实施例中步骤A的划分单位相同)进行划分，比如以音素为单位进行划分，为便于区分，本实施例将从该语音识别文本中划分出的每一文本单位定义为第二样本文本单位。

S503：将所述第二样本文本单位进行转换，得到第一转换文本单位，其中，所述第一转换文本单位是所述第二目标语音的语种所使用的文本单位。

对于每一第二样本文本单位，需要将该第二样本文本单位转换成翻译后语种对应的文本单位，本实施例将转换后的文本单位定义为第一转换文本单位。例如，假设第二样本文本单位为中文音素、翻译后语种为英文，则第一转换文本单位为英文音素。

需要说明的是，具体的文本单位转换方式，将在后续第四实施例中进行具体介绍。

S504：从所述第二样本语音中提取与所述第二样本文本单位对应的第二语音片段，并从所述第二语音片段中提取声学参数，得到与所述第一转换文本单位对应的声学参数。

按照对第二样本语音的识别文本进行的文本划分方式，对第二样本语音进行划分，这样，便可以确定每一第二样本文本单位在第二样本语音中对应的语音片段，比如，将第二样本语音的识别文本以及第二样本语音，均以音素为单位进行划分，从而得到该识别文本中每一音素对应的语音片段。为便于区分，本实施例将第二样本文本单位对应的语音片段定义为第二语音片段。

对于每一第二样本文本单位，从与其对应的第二语音片段中提取相应的声学参数，如频谱、基频等，将其作为与第二样本文本单位对应的第一转换文本单位的声学参数。

S505：利用各个第二样本文本单位、与所述第二样本文本单位对应的第一转换文本单位、以及与所述第一转换文本单位对应的声学参数，构建第二声学模型。

可以将各个第二样本文本单位、与每一第二样本文本单位对应的第一转换文本单位、以及每一第一转换文本单位对应的声学参数进行存储，以形成第二数据集合。以第二数据集合中的文本单位为音素为例，需要说明的是，如果第二数据集合无法涵盖翻译后语种的所有音素，可以将未涵盖的音素以及为这些音素设置的默认声学参数，添加至第二数据集合中。这样，便可以基于第二数据集合中转换前音素与转换后音素、以及转换后音素与声学参数之间的对应关系，构建属于源发音人的声学模型，具体构建时，直接将第二数据集合作为训练数据，训练源发音人的声学模型，训练过程与现有技术相同，本实施例将构建的声学模型定义为第二声学模型。

在一种实施方式中，该声学模型可以实现第二实施例中的步骤B“获取各个目标文本单位的声学参数”，具体可以包括：利用所述第二声学模型，获取各个目标文本单位的声学参数。在本实施方式中，利用源发音人的声学模型即第二声学模型，直接生成每一目标文本单位的声学参数，具体生成方法可以与现有技术相同，比如，该生成方法可以是现有的基于参数的语音合成方法。

综上，本实施例提供的一种语音翻译方法，当获取到源发音人的第一目标语音后，对第一目标语音的语音识别文本进行文本翻译，然后，通过获取翻译文本中每一文本单位的声学参数进行语音合成，生成第二目标语音。其中，可以通过预先构建源发音人的声学模型来确定每一文本单位的声学参数，由于声学参数中携带了源发音人的音色特征，使得翻译后语音也具有源发音人的音色特征，从而使得该翻译后语音听起来更像是源发音人直接说出的语音。

第四实施例

本实施例将介绍第三实施例中S503的具体实现方式，为了实现S503，需要预先构建文本单位映射模型，以便利用该文本单位映射模型的文本单位转换功能实现S503。本实施例介绍了两种文本单位映射模型的构建方法。

在文本单位映射模型的第一种构建方法中，直接建立两种语种的文本单位序列之间的对应关系，根据该对应关系实现文本单位之间的转换，下面对该模型构建方法进行具体介绍。

如图6所示，为本实施例提供的一种样本文本单位收集方法的流程示意图，该方法包括以下步骤：

S601：收集多个第一样本文本，其中，所述第一样本文本的语种与所述第二样本语音的语种相同。

为了实现S503，即，对于第二样本语音(即源发音人的录制语音)的识别文本中的各个第二样本文本单位，为了将其对应转换成翻译后语种所使用的文本单位，需要预先收集与第二样本语音的语种相同的大量文本语料，本实施例将收集的每一文本语料定义为第一样本文本。本实施例不限制所述第一样本文本的形式，所述第一样本文本可以是一个词、或一句话、或是一段话。

例如，假设第二样本语音为中文语音，那么，需要预先收集大量的中文文本语料(如图7所示)，每一中文文本即为第一样本文本。

S602：将所述第一样本文本按照所述预设大小的文本单位进行切分，得到各个第三样本文本单位。

将该第一样本文本按照预设大小的文本单位进行划分(与第二实施例中步骤A的划分单位相同)，比如以音素为单位进行划分，为便于区分，本实施例从该第一样本文本中划分出的每一文本单位定义为第三样本文本单位。

继续上个步骤的例子，假设第一样本文本为中文文本，需要将该中文文本转换成中文拼音，并对该中文拼音中的每一中文音素进行标记，得到中文音素序列(如图7所示)，比如，中文文本“你好”，可以得到中文拼音“[n i][h ao]”，并从中依次标记出“n”、“i”、“h”、“ao”这四个中文音素，即四个第三样本文本单位。

S603：将所述第三样本文本单位进行转换，得到第二转换文本单位，其中，所述第二转换文本单位是所述第三样本文本单位以所述第二目标语音的发音方式进行发音的文本单位。

可以将第一样本文本以翻译后语音即第二目标语音的发音方式来标注读音，这样，对于第一样本文本中的每一第三样本文本单位，可以从该标注读音中找到与之对应的文本单位，为便于区分，本实施例将该对应的文本单位定义为第二转换文本单位。

继续上个步骤的例子，假设第一样本文本为中文文本“你好”、翻译后语音即第二目标语音为英文语音，那么，“你好”可以通过英文音标的方式来标注读音，可以标记为并从中依次标记出“n”、“I”、“h”、这四个英文音素，即四个第二转换文本单位，这样，上述四个中文形式的第三样本文本单位“n”、“i”、“h”、“ao”，依次对应这四个英文形式的第二转换文本单位“n”、“I”、“h”、

可以理解的是，由于同一中文汉字比如“岳”，该汉字在不同中文词语或句子中的发音方式可能不同，因此，组成该汉字的第三样本文本单位对应的第二转换文本单位也可能不同，当然，这种情形同样存在于其它语种，但本实施例中，只要转换前后的音素标记内容遵循固定的发音规则即可。

基于上述内容，可以将各个第三样本文本单位、以及每一第三样本文本单位对应的第二转换文本单位进行存储，以形成文本单位集合。需要说明的是，由于该文本单位集合中的第二转换文本单位属于翻译后语种的音素，因此，应尽量使该文本单位集合中的第二转换文本单位覆盖翻译后语种的所有文本单位。

在构建文本单位映射模型时，可以直接对该文本单位集合中的第三样本文本单位与其对应的第二转换文本单位做表格式的映射，基于此，文本单位映射模型便可以基于文本单位之间的映射关系，实现第三实施例中的步骤S503。

在第一种实现方式中，步骤S503“将所述第二样本文本单位进行转换，得到第一转换文本单位”具体可以包括：确定与所述第二样本文本单位相同的第三样本文本单位；将所确定的第三样本文本单位对应的第二转换文本单位，作为第一转换文本单位。在本实施方式中，对于每一第二样本文本单位，从上述音素集合中查询与该第二样本文本单位相同的第三样本文本单位，并基于音素映射关系，确定与该第三样本文本单位对应的第二转换文本单位，将其作为该第二样本文本单位的转换后音素即第一转换文本单位。

在文本单位映射模型的第二种构建方法中，训练两种语种的文本单位序列之间的网络模型，比如图7所示编解码模型，将该网络模型作为文本单位映射模型，通过该文本单位映射模型可以使文本单位映射结果更准确，下面对该模型构建方法进行具体介绍。

在第二种构建方式中，参见图8所示的一种编解码模型构建方法的流程示意图，包括以下步骤：

S801：收集多个第二样本文本，其中，所述第二样本文本的语种与所述第二样本语音的语种相同。

需要说明的是，本步骤S801与步骤S601类似，只需将S601中的第一样本文本替换为第二样本文本即可，相关内容请参见S601的相关介绍，在此不再赘述。

S802：将所述第二样本文本按照所述预设大小的文本单位进行切分，得到各个第四样本文本单位。

需要说明的是，本步骤S802与步骤S602类似，只需将S602中的第一样本文本替换为第二样本文本、将第三样本文本单位替换为第四样本文本单位即可，相关内容请参见S602的相关介绍，在此不再赘述。

S803：将所述第四样本文本单位进行转换，得到第三转换文本单位，其中，所述第三转换文本单位是所述第四样本文本单位以所述第二目标语音的发音方式进行发音的文本单位。

需要说明的是，本步骤S803与步骤S603类似，只需将S603中的第三样本文本单位替换为第四样本文本单位、第二转换文本单位替换为第三转换文本单位即可，相关内容请参见S603的相关介绍，在此不再赘述。

S804：对于所述第二样本文本中的音节，通过学习属于同一音节的第四样本文本单位在对应音节中的组合关系和顺序关系、学习至少两个连续音节在所述第二样本文本中的组合关系和顺序关系、以及学习至少两个连续音节中的第四样本文本单位在所述第二样本文本中的组合关系和顺序关系，构建编解码模型。

在本实施例中，可以利用第四样本文本单位序列以及第三转换文本单位序列，训练这两种语种的文本单位体系中间的网络模型，该网络模型可以包括图7所示的编码网络和解码网络。后续将以第四样本文本单位序列为中文音素序列、第三转换文本单位序列为英文音素序列为例，对该编解码模型进行介绍。

具体地，通过加入一层音节信息来实现所述编码网络对不同音节之间的衔接处理能力，达到优化音节内的音素组合和整体音素映射的作用。所述编码网络可以包含三个编码过程，分别为音节内音素的编码过程、音节间的编码过程、文本中的所有音素的编码过程，每次编码时，后面的编码需要考虑前面编码的结果，下面以图9为例介绍所述编码网络的编码过程。

如图9所示，假设收集到的某第二样本文本为中文文本比如“你好”，则第四样本文本单位序列为“n”、“i”、“h”、“ao”。首先，将属于该中文文本的所有中文音素“n”、“i”、“h”、“ao”统一进行向量化处理，比如使用Word2Vector等方法，并将属于同一音节的中文音素之间通过一次双向长短期记忆神经网络(Bidirectional Long Short-term Memory,BLSTM)进行编码，得到的编码结果包含了音节内音素与音素之间的关系，即，学习“n”与“i”之间的组合关系和顺序关系对应于汉语音节“ni”，以及，学习“h”与“ao”之间的组合关系和顺序关系对应于汉语音节“hao”。

然后，对该中文文本的所有音节“ni”、“hao”进行向量化处理，比如使用Word2Vector等方法，在获取了第一层BLSTM网络(即图9所示的音节内音素学习网络)的编码结果后，将第一层编码结果结合每个音节的向量，通过一次音节之间双向BLSTM网络编码，得到的编码结果包含音节与音节之间的关系，即，学习“ni”与“hao”之间的组合关系和顺序关系对应于中文文本“你好”。

最后，将第二层BLSTM网络(即图9所示的音节间学习网络)的编码结果，结合每个音节中所有音素的向量特征进行第三层BLSTM编码，得到相应编码结果包含了该中文文本中音素与音素之间的关系，即，学习“n”、“i”、“h”、“ao”之间的组合关系和顺序关系对应于中文文本“你好”。

经上述三层编码后，将第三层编码结果作为图7所示解码网络的输入，图7所示的解码网络将对应输出英文音素序列“n”、“I”、“h”、

可以理解的是，当使用大量中文文本对编解码模型进行训练时，编解码模型学习了两个或两个以上音节之间的组合关系和顺序关系，也学习了每一音节的各个音素在该音节中的组合关系和顺序关系。当需要将某中文文本的中文音素序列转换为英文音素序列时，基于这种学习结果，可以将该中文文本的中文音素序列，按照其在该中文文本中的组合关系和顺序关系，选择与之更为搭配的英文音素序列，而且，不论该中文文本是较短的词语还是较长的句子，对应的英文音素序列均具有较好的衔接效果，这种方式使得音素序列之间的对应结果更灵活准确。

需要说明的是，编解码模型不限于在中文音素序列与英文音素序列之间的训练，其适用于任意两种不同语种之间。

基于上述内容，便可以基于编解码模型的学习结果，实现第三实施例中的步骤S503。在第二种实现方式中，步骤S503“将所述第二样本文本单位进行转换，得到第一转换文本单位”具体可以包括：利用所述编解码模型，将所述第二样本文本单位进行转换，得到第一转换文本单位。在本实施方式中，将所述第二样本文本单位作为预先构建的编解码模型的输入，输出即可得到转换后的第一转换文本单位，在转换过程中，编解码模型可以基于上述学习结果，根据各个第二样本文本单位之间的组合关系和顺序关系，选择与每一第二样本文本单位搭配的第一转换文本单位，相对于S503的第一种实现方式，由于本实现方式预先学习了不同语种的文本单位序列之间的实际搭配方式，使得转换后的文本单位更为准确。

综上，本实施例提供的一种语音翻译方法，对于源发音人的录音的识别文本，当需要将该录音识别文本的文本单位序列进行转换，即转换为翻译后语种的文本单位序列时，可以预先构建文本单位映射模型，可以基于不同语种的文本单位序列之间的对应关系或通过训练编解码网络来构建文本单位映射模型，通过该文本单位映射模型进行文本单位转换，能够获取需要的文本单位转换结果。

第五实施例

参见图10，为本实施例提供的一种语音翻译装置的组成示意图，该语音翻译装置1000包括：

语音获取单元1001，用于获取源发音人的第一目标语音；

语音翻译单元1002，用于通过对所述第一目标语音进行语音翻译，生成第二目标语音，其中，所述第二目标语音的语种与所述第一目标语音的语种不同，所述第二目标语音携带了所述源发音人的音色特征。

在本实施例的一种实现方式中，所述语音翻译单元1002可以包括：

文本识别子单元，用于通过对所述第一目标语音进行语音识别，生成语音识别文本；

文本翻译子单元，用于通过对所述语音识别文本进行文本翻译，生成翻译文本；

语音翻译子单元，用于通过对所述翻译文本进行语音合成，生成第二目标语音。

在本实施例的一种实现方式中，所述语音翻译子单元可以包括：

目标单位划分子单元，用于将所述翻译文本按照预设大小的文本单位进行切分，得到各个目标文本单位；

声学参数获取子单元，用于获取各个目标文本单位的声学参数，其中，所述声学参数携带了所述源发音人的音色特征；

翻译语音生成子单元，用于根据各个目标文本单位的声学参数，对所述翻译文本进行语音合成，生成第二目标语音。

在本实施例的一种实现方式中，所述装置1000还可以包括：

第一样本获取单元，用于获取所述源发音人的第一样本语音，其中，所述第一样本语音的语种与所述第二目标语音的语种相同；

第一样本划分单元，用于将所述第一样本语音的识别文本按照所述预设大小的文本单位进行切分，得到各个第一样本文本单位；

第一片段提取单元，用于从所述第一样本语音中提取与所述第一样本文本单位对应的第一语音片段；

第一参数提取单元，用于从所述第一语音片段中提取声学参数；

第一模型构建单元，用于利用各个第一样本文本单位以及与所述第一样本文本单位对应的声学参数，构建第一声学模型；

则，所述声学参数获取子单元，具体可以用于利用所述第一声学模型，获取各个目标文本单位的声学参数。

在本实施例的一种实现方式中，所述装置1000还可以包括：

第二样本获取单元，用于获取所述源发音人的第二样本语音，其中，所述第二样本语音的语种与所述第二目标语音的语种不同；

第二样本划分单元，用于将所述第二样本语音的识别文本按照所述预设大小的文本单位进行切分，得到各个第二样本文本单位；

文本单位转换单元，用于将所述第二样本文本单位进行转换，得到第一转换文本单位，其中，所述第一转换文本单位是所述第二目标语音的语种所使用的文本单位；

第二片段提取单元，用于从所述第二样本语音中提取与所述第二样本文本单位对应的第二语音片段；

第二参数提取单元，用于从所述第二语音片段中提取声学参数，得到与所述第一转换文本单位对应的声学参数；

第二模型构建单元，用于利用各个第二样本文本单位、与所述第二样本文本单位对应的第一转换文本单位、以及与所述第一转换文本单位对应的声学参数，构建第二声学模型；

则，所述声学参数获取子单元，具体可以用于利用所述第二声学模型，获取各个目标文本单位的声学参数。

在本实施例的一种实现方式中，所述装置1000还可以包括：

第一文本收集单元，用于收集多个第一样本文本，其中，所述第一样本文本的语种与所述第二样本语音的语种相同；

第三样本划分单元，用于将所述第一样本文本按照所述预设大小的文本单位进行切分，得到各个第三样本文本单位；

第一单位转换单元，用于将所述第三样本文本单位进行转换，得到第二转换文本单位，其中，所述第二转换文本单位是所述第三样本文本单位以所述第二目标语音的发音方式进行发音的文本单位；

则，所述文本单位转换单元可以包括：

相同单位确定子单元，用于确定与所述第二样本文本单位相同的第三样本文本单位；

文本单位转换子单元，用于将所确定的第三样本文本单位对应的第二转换文本单位，作为第一转换文本单位。

在本实施例的一种实现方式中，所述装置1000还可以包括：

第二文本收集单元，用于收集多个第二样本文本，其中，所述第二样本文本的语种与所述第二样本语音的语种相同；

第四样本划分单元，用于将所述第二样本文本按照音所述预设大小的文本单位行切分，得到各个第四样本文本单位；

第二单位转换单元，用于将所述第四样本文本单位进行转换，得到第三转换文本单位，其中，所述第三转换文本单位是所述第四样本文本单位以所述第二目标语音的发音方式进行发音的文本单位；

编解码模型构建单元，用于对于所述第二样本文本中的音节，通过学习属于同一音节的第四样本文本单位在对应音节中的组合关系和顺序关系、学习至少两个连续音节在所述第二样本文本中的组合关系和顺序关系、以及学习至少两个连续音节中的第四样本文本单位在所述第二样本文本中的组合关系和顺序关系，构建编解码模型；

则，所述文本单位转换单元，具体可以用于利用所述编解码模型，将所述第二样本文本单位进行转换，得到第一转换文本单位。

第六实施例

参见图11，为本实施例提供的一种语音翻译装置的硬件结构示意图，所述碰撞检测装置1100用于检测一种包括至少一个可运动部件的目标***，其中，待检测的可运动部件被定义为第一部件，除所述第一部件以外的可运动部件或不可运动部件被定义为第二部件。所述碰撞检测装置1100包括存储器1101和接收器1102，以及分别与所述存储器1101和所述接收器1102连接的处理器1103，所述存储器1101用于存储一组程序指令，所述处理器1103用于调用所述存储器1101存储的程序指令执行如下操作：

获取源发音人的第一目标语音；

在本实施例的一种实现方式中，所述处理器1103还用于调用所述存储器1101存储的程序指令执行如下操作：

通过对所述语音识别文本进行文本翻译，生成翻译文本；

通过对所述翻译文本进行语音合成，生成第二目标语音。

从所述第一语音片段中提取声学参数；

确定与所述第二样本文本单位相同的第三样本文本单位；

此外，本实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述语音翻译方法中的任意一种实现方式。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音翻译方法，其特征在于，包括：

获取源发音人的第一目标语音；

2.根据权利要求1所述的方法，其特征在于，所述通过对所述第一目标语音进行语音翻译，生成第二目标语音，包括：

通过对所述语音识别文本进行文本翻译，生成翻译文本；

通过对所述翻译文本进行语音合成，生成第二目标语音。

3.根据权利要求2所述的方法，其特征在于，所述通过对所述翻译文本进行语音合成，生成第二目标语音，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

从所述第一语音片段中提取声学参数；

则，所述获取各个目标文本单位的声学参数，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

则，所述获取各个目标文本单位的声学参数，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

确定与所述第二样本文本单位相同的第三样本文本单位；

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

8.一种语音翻译装置，其特征在于，包括：

语音获取单元，用于获取源发音人的第一目标语音；

9.一种语音翻译装置，其特征在于，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任意一项所述的方法。