CN108231062A

CN108231062A - 一种语音翻译方法及装置

Info

Publication number: CN108231062A
Application number: CN201810032112.3A
Authority: CN
Inventors: 王雨蒙; 周良; 江源; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2018-06-29
Anticipated expiration: 2038-01-12
Also published as: CN108231062B

Abstract

本申请公开了一种语音翻译方法及装置，所述方法包括：对于需要进行文本翻译的语音数据，通过对该语音数据进行语音识别，生成语音识别文本；并从该语音数据中提取声学特征，根据提取的声学特征对语音识别文本进行翻译，得到携带了该语音数据的语音风格的翻译文本。可见，由于在对语音数据进行文本翻译时，考虑了语音数据本身具有的声学特征，使得翻译文本能够符合该语音数据的风格和特点，从而使得翻译文本更自然、更具有表达力，进而便于文本阅读者理解语义和语境。

Description

一种语音翻译方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音翻译方法及装置。

背景技术

随着人工智能技术的日益成熟，人们越来越多地追求着利用智能技术来解决一些问题，例如，曾经人们需要花费大量的时间来学习一门新的语言，才能与以该语言为母语的人沟通，而现在，人们可以直接通过翻译机，围绕着语音识别、智能翻译以及语音合成技术，来实现口语输入、文本翻译、并发音说出翻译后的意思。

但是，在目前的文本翻译技术中，大多数的翻译技术仅仅实现了文本字面上的翻译，也就是说，当对源说话人的语音数据进行文本翻译时，翻译后的文本经常不能表达出源说话人的风格和特点。例如，将某中文语音翻译成英文文本时，由于该中文语音的中文文本可能对应不同的英文文本，但不同英文文本所表达的语言风格和感情特点可能是不同的，而实际翻译出的英文文本经常是不合适的，即翻译文本无法表达出源说话人的风格和特点。

发明内容

本申请实施例的主要目的在于提供一种语音翻译方法及装置，当对语音数据进行翻译时，能够使翻译文本符合该语音数据的风格和特点。

本申请实施例提供了一种语音翻译方法，包括：

获取第一语音数据；

通过对所述第一语音数据进行语音识别，生成语音识别文本；

从所述第一语音数据中提取目标声学特征，根据所述目标声学特征对所述语音识别文本进行翻译，得到携带了所述第一语音数据的语音风格的翻译文本。

可选的，所述从所述第一语音数据中提取目标声学特征，包括：

将所述语音识别文本作为单位识别文本，或者将形成所述语音识别文本的各个文本片段分别作为单位识别文本；

确定所述第一语音数据中与所述单位识别文本对应的语音片段；

确定所述语音片段的目标声学特征。

可选的，所述根据所述目标声学特征对所述语音识别文本进行翻译，包括：

将每一所述单位识别文本分别进行文本向量化；

将每一所述单位识别文本对应的目标声学特征分别进行特征向量化；

将所述文本向量化以及所述特征向量化的结果，作为预先构建的翻译模型的输入特征，以利用所述翻译模型实现对所述语音识别文本的翻译。

可选的，若所述目标声学特征包括至少一种特征类型，则所述方法还包括：

根据预先收集的样本语音数据，确定所述特征类型对应的取值范围；

将所述取值范围划分为至少两个取值区间；

则，所述将每一所述单位识别文本对应的目标声学特征分别进行特征向量化，包括：

对于每一所述单位识别文本对应的目标声学特征，确定所述目标声学特征中每一特征类型对应的特征值；

根据所述特征值所在的取值范围，将所述特征值进行特征向量化。

可选的，所述方法还包括：

根据所述目标声学特征对所述翻译文本进行语音合成，得到携带了所述第一语音数据的语音风格的第二语音数据。

可选的，所述根据所述目标声学特征对所述翻译文本进行语音合成，包括：

利用所述目标声学特征调整预先构建的合成模型的模型参数；

利用调整后的合成模型对所述翻译文本进行语音合成。

利用预先构建的合成模型对所述翻译文本进行语音合成，得到初始语音数据；

利用所述目标声学特征对所述初始语音数据的声学特征进行调整。

可选的，所述目标声学特征包括平均语速、平均音高、平均音量中的一个或多个特征类型。

本申请实施例还提供了一种语音翻译装置，包括：

语音数据获取单元，用于获取第一语音数据；

识别文本生成单元，用于通过对所述第一语音数据进行语音识别，生成语音识别文本；

声学特征提取单元，用于从所述第一语音数据中提取目标声学特征；

翻译文本生成单元，用于根据所述目标声学特征对所述语音识别文本进行翻译，得到携带了所述第一语音数据的语音风格的翻译文本。

可选的，所述声学特征提取单元包括：

单位文本确定子单元，用于将所述语音识别文本作为单位识别文本，或者将形成所述语音识别文本的各个文本片段分别作为单位识别文本；

语音片段确定子单元，用于确定所述第一语音数据中与所述单位识别文本对应的语音片段；

声学特征确定子单元，用于确定所述语音片段的目标声学特征。

可选的，所述翻译文本生成单元包括：

文本向量化子单元，用于将每一所述单位识别文本分别进行文本向量化；

特征向量化子单元，用于将每一所述单位识别文本对应的目标声学特征分别进行特征向量化；

翻译文本生成子单元，用于将所述文本向量化以及所述特征向量化的结果，作为预先构建的翻译模型的输入特征，以利用所述翻译模型实现对所述语音识别文本的翻译，得到携带了所述第一语音数据的语音风格的翻译文本。

可选的，若所述目标声学特征包括至少一种特征类型，则所述装置还包括：

取值范围确定单元，用于根据预先收集的样本语音数据，确定所述特征类型对应的取值范围；

取值区间确定单元，用于将所述取值范围划分为至少两个取值区间；

则，所述特征向量化子单元包括：

特征值确定子单元，用于对于每一所述单位识别文本对应的目标声学特征，确定所述目标声学特征中每一特征类型对应的特征值；

向量化处理子单元，用于根据所述特征值所在的取值范围，将所述特征值进行特征向量化。

可选的，所述装置还包括：

翻译语音生成单元，用于根据所述目标声学特征对所述翻译文本进行语音合成，得到携带了所述第一语音数据的语音风格的第二语音数据。

可选的，所述翻译语音生成单元包括：

模型参数调整子单元，用于利用所述目标声学特征调整预先构建的合成模型的模型参数；

第一语音生成子单元，用于利用调整后的合成模型对所述翻译文本进行语音合成；

或者，所述翻译语音生成单元包括：

第二语音生成子单元，用于利用预先构建的合成模型对所述翻译文本进行语音合成，得到初始语音数据；

语音数据调整子单元，用于利用所述目标声学特征对所述初始语音数据的声学特征进行调整。

本申请实施例还提供了另一种语音翻译装置，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述任一项所述的方法。

本实施例提供的一种语音翻译方法及装置，对于需要进行文本翻译的语音数据，通过对该语音数据进行语音识别，生成语音识别文本；并从该语音数据中提取声学特征，根据提取的声学特征对语音识别文本进行翻译，得到携带了该语音数据的语音风格的翻译文本。可见，由于在对语音数据进行文本翻译时，考虑了该语音数据本身具有的声学特征，使得翻译文本能够符合该语音数据的风格和特点，从而使得翻译文本更自然、更具有表达力，进而便于文本阅读者理解语义和语境。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音翻译方法的流程示意图之一；

图2为本申请实施例提供的一种语音翻译方法的流程示意图之二；

图3为本申请实施例提供的文本翻译示意图；

图4为本申请实施例提供的一种语音翻译方法的流程示意图之三；

图5为本申请实施例提供的一种语音翻译装置的组成示意图；

图6为本申请实施例提供的一种语音翻译装置的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在目前的文本翻译技术中，大多数的翻译技术仅仅实现了文本字面上的翻译，即，当对源说话人的语音数据进行文本翻译时，翻译后的文本经常不能表达源说话人的风格和特点。

为此，本申请实施例提供了一种语音翻译方法，在实现语音翻译的过程中，不仅实现了文本翻译，还传递了源说话人的语言风格和情感特点，即，能够使翻译文本自适应于源说话人的语言风格和情感特点，以生成更自然、更具有表达力的翻译文本，从而帮助文本阅读者理解语义和语境。

下面结合附图对本申请提供的示例性实施例进行具体介绍。

第一实施例

参见图1，为本申请实施例提供的一种语音翻译方法的流程示意图，该方法包括以下步骤：

S101：获取第一语音数据。

在本实施例中，将需要进行文本翻译的语音数据定义为第一语音数据。

本实施例不限定所述第一语音数据的来源，例如，所述第一语音数据可以是源说话人的真实语音或是录制语音、也可以是对所述真实语音或所述录制语音进行机器处理后的特效语音。

本实施例也不限定所述第一语音数据的长度，例如，所述第一语音数据可以是一个词、也可以是一句话、还可以是一段话。

S102：通过对所述第一语音数据进行语音识别，生成语音识别文本。

当获取到所述第一语音数据后，通过语音识别技术，比如基于人工神经网络的语音识别技术，将所述第一语音数据转换成语音识别文本。

S103：从所述第一语音数据中提取目标声学特征，根据所述目标声学特征对所述语音识别文本进行翻译，得到携带了所述第一语音数据的语音风格的翻译文本。

在本实施例中，可以预先设置一个或多个声学特征类型，比如语速、音高、音量等特征类型，在对所述第一语音数据进行文本翻译时，从所述第一语音数据中提取关于每一声学特征类型的具体特征值，并将这些具体特征值作为所述目标声学特征。当存在多个文本翻译结果时，结合所述目标声学特征选取最合适的翻译文本。

可以理解的是，所述目标声学特征主要用于描述所述第一语音数据的语音风格，也即描述了所述第一语音数据所对应的源说话人的说话风格，因此，若在文本翻译过程中考虑了所述目标声学特征，得出的翻译文本不但符合源说话人说话时的用词、还表现了源说话人说话时的文本表达风格，也就是说，该翻译文本是符合源说话人的说话风格的翻译文本。

为便于理解，现举例说明。例如，当所述第一语音数据为“当然了”，采用现有文本翻译技术生成的翻译文本可能为“Yes,of course”，而本实施例考虑了所述第一语音数据对应的语音风格，其翻译文本可能为“You bet”，该翻译文本更适合于所述源发音人的第一语音数据所要表达的意思和语气风格。

本实施例提供的一种语音翻译方法，对于需要进行文本翻译的语音数据，通过对该语音数据进行语音识别，生成语音识别文本；并从该语音数据中提取声学特征，根据提取的声学特征对语音识别文本进行翻译，得到携带了该语音数据的语音风格的翻译文本。可见，由于在对语音数据进行文本翻译时，考虑了语音数据本身具有的声学特征，使得翻译文本能够符合该语音数据的风格和特点，从而使得翻译文本更自然、更具有表达力，进而便于文本阅读者理解语义和语境。

第二实施例

本实施例将着重介绍上述第一实施例中S103的具体实现方式，其它相关部分请参见第一实施例的介绍。

参见图2，为本申请实施例提供的一种语音翻译方法的流程示意图，该方法包括以下步骤：

S201：获取第一语音数据。

S202：通过对所述第一语音数据进行语音识别，生成语音识别文本。

需要说明的是，本实施例中的S201与S202与第一实施例中的S101与S102一致，相关说明请参见第一实施例，在此不再赘述。

S203：将所述语音识别文本作为单位识别文本，或者将形成所述语音识别文本的各个文本片段分别作为单位识别文本。

在本实施例中，可以将所述语音识别文本整体作为一个单位识别文本；也可以将所述语音识别文本进行拆分，将拆分出的每个文本片段分别作为一个单位识别文本。

在进行文本拆分时，可以基于预设的拆分单位进行文本拆分，使用较大的拆分单位或使用较小的拆分单元均可，比如以单个音节、或以单个字、或以单个词等为拆分单位进行文本拆分，从而得到多个文本片段。其中，所述预设的拆分单位，可以是人工预设的拆分单位，也可以是***默认的拆分单位。

例如，所述语音识别文本为中文时，拆分出的每个文本片段可以是单个字，比如所述语音识别文本为“当然了”，拆分出的文本片段分别为“当”、“然”、“了”；又例如，所述语音识别文本为英文时，拆分出的每个文本片段可以是一个单词，比如所述语音识别文本为“Yes,of course”，拆分出的文本片段分别为“Yes”、“of”、“course”。

S204：确定所述第一语音数据中与所述单位识别文本对应的语音片段，并确定所述语音片段的目标声学特征。

在本实施例中，当将所述语音识别文本整体作为单位识别文本时，该单位识别文本对应的语音片段，即为所述第一语音数据；当将所述语音识别文本中的每一文本片段作为单位识别文本时，该单位识别文本对应的语音片段，即为所述第一语音数据中与该文本片段对应的语音数据。

在确定了每个单位识别文本对应的语音片段后，进一步确定每个语音片段的目标声学特征。以所述语音识别文本为中文文本“当然了”并将其拆分为“当”、“然”、“了”这三个单位识别文本为例，需要获取“当”对应的语音片段1并从语音片段1中提取目标声学特征，获取“然”对应的语音片段2并从语音片段2中提取目标声学特征，以及，获取“了”对应的语音片段3并从语音片段3中提取目标声学特征。

在本实施例的一种实现方式中，所述目标声学特征可以包括平均语速、平均音高、平均音量中的一个或多个特征类型，当然，本实施例不限定这三类声学特征，还可以包括其它类型的声学特征，比如，说话人的音调高低、重音强度等。

接下来，对所述目标声学特征的确定方式进行具体介绍。

(1)、当所述目标声学特征包括“平均语速”这一特征类型时，具体可以按照以下方式计算每个语音片段的平均语速：

对于每个语音片段，先获取该语音片段的时长，然后确定该语音片段对应的单位识别文本所包含的文本单位个数，最后以该文本单位个数除以该时长，得到该语音片段的具体平均语速。其中，所述文本单位小于或等于单位识别文本的长度，比如所述文本单位为一个音节，一个中文汉字包括一个音节，而一个英文单词因其长度不等，所以包括一个或多个音节。

现以上述“当然了”中的“当”字为例，先获取“当”字对应的语音片段的时长(比如单位为分钟)，然后以“当”字的音节个数除以该时长，得到以SPM(Syllables Per Minute，每分钟音节数)为单位的平均语速；若计算“当然了”这一整句话的平均语速，计算方式类似。

(2)、当所述目标声学特征包括“平均音高”这一特征类型时，具体可以按照以下方式计算每个语音片段的平均音高：

对于每个语音片段，先将该语音片段划分为若干个音频帧，每一音频帧的长度可以由人工预先设定或采用***默认值，然后确定每一音频帧的振动频率大小，该振动频率可以以赫兹(HZ)为单位，最后计算这若干个音频帧的振动频率的平均值，该平均值即为该语音片段的具体平均音高。

现以上述“当然了”中的“当”字为例，先将“当”字分成若干个音频帧，比如分别为音频帧1、音频帧2和音频帧3；然后确定音频帧1、音频帧2和音频帧3的振动频率大小，比如分别为频率1、频率2和频率3；最后计算(频率1+频率2+频率3)/3，该计算结果即为“当”的平均音高。若计算“当然了”这一整句话的平均音高，计算方式类似。

(3)、当所述目标声学特征包括“平均音量”这一特征类型时，具体可以按照以下方式计算每个语音片段的平均音量：

对于每个语音片段，先将该语音片段划分为若干个音频帧，每一音频帧的长度可以由人工预先设定或采用***默认值，然后确定每一音频帧的振幅大小，最后计算这若干个音频帧的振幅的平均值，该平均值即为该语音片段的具体平均音量。

现以上述“当然了”中的“当”字为例，先将“当”字分成若干个音频帧，比如分别为音频帧1、音频帧2和音频帧3；然后确定音频帧1、音频帧2和音频帧3的振幅大小，比如分别为振幅1、振幅2和振幅3；最后计算(振幅1+振幅2+振幅3)/3，该计算结果即为“当”的平均音量。若计算“当然了”这一整句话的平均音量，计算方式类似。

S205：将每一所述单位识别文本分别进行文本向量化，并将每一所述单位识别文本对应的目标声学特征分别进行特征向量化。

在本实施例中，可以将每一单位识别文本向量化，得到每一单位识别文本的文本向量，即利用文本向量表示对应的单位识别文本。例如，可以采用word2vec方法实现文本向量化。

在本实施例中，可以将每一单位识别文本对应的目标声学特征向量化，得到每一单位识别文本对应的目标声学特征的特征向量，即利用特征向量表示对应的目标声学特征。

当所述目标声学特征包括至少一种特征类型时，为了实现特征向量化，本实施例可以根据预先收集的样本语音数据，确定所述特征类型对应的取值范围，并将所述取值范围划分为至少两个取值区间。

具体地，可以预先收集大量人与人沟通时的语音数据，将收集的每一条语音数据作为样本语音数据；通过语音识别技术，分别对所述样本语音数据进行语音识别，并按照S204中所述单位识别文本的长度，比如单个字，对所述样本语音数据进行拆分，得到多个样本文本片段；按照S204中所述目标声学特征所包含的特征类型，分别计算每一样本文本片段的声学特征值，从而得到每一特征类型的声学特征取值范围，并将每一声学特征取值范围划分为多个取值区间。例如，当所述目标声学特征包含平均语速、平均音高、平均音量等特征类型时，将平均语速的声学特征取值范围划分为多个取值区间，比如20个取值区间，将平均音高的声学特征取值范围划分为多个取值区间，比如15个取值区间，将平均音量的声学特征取值范围划分为多个取值区间，比如25个取值区间。

基于上述取值区间的划分结果，在本实施例的一种实现方式中，可以按照以下步骤进行特征向量化：

步骤A：对于每一所述单位识别文本对应的目标声学特征，确定所述目标声学特征中每一特征类型对应的特征值。

在本实施例中，对于每一单位识别文本，可以基于该单位识别文本对应的语音片段，按照上述介绍的方式，计算所述目标声学特征中每一特征类型对应的特征值。例如，当所述目标声学特征包括平均语速、平均音高、平均音量这三个特征类型时，计算该单位识别文本的具体平均语速、具体平均音高、具体平均音量。

步骤B：根据所述特征值所在的取值范围，将所述特征值进行特征向量化。

当计算得到所述单位识别文本关于某特征类型tx(比如平均语速)的特征值tz后，由于该特征类型tx的取值范围预先被划分成了多个取值区间，因此，可以确定特征值tz属于其中哪个取值区间；之后，由于特征类型tx的每个取值区间，分别对应一个向量元素，因此，可以将特征值tz所属取值区间对应的向量元素取一个预置值比如1，而其它各个取值区间对应的向量元素均取为另一个预置值比如0，这样，便得到一个由各个预置值组成的特征向量，即得到特征值tz对应的特征向量。

为便于理解，现举例说明。例如，当通过所述样本语音数据计算得到“平均语速”的取值范围后，可以按照数值大小顺序划分为多个取值区间，假设平均语速的取值范围为30～350SPM，可以将其划分为20个取值区间，比如30～60、60～90、90～120……，则“平均语速”的向量大小为20，即“平均语速”的向量包含20个向量元素，每个向量元素对应一个取值区间；当所述单位识别文本的具体平均语速落入其中一个取值区间时，比如具体平均语速为40，其落入取值区间30～60，则该取值区间对应的向量元素取值为1，其它取值区间对应的向量元素取值均为0，则具体平均语速40对应的特征向量为：(1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)

S206：将所述文本向量化以及所述特征向量化的结果，作为预先构建的翻译模型的输入特征，以利用所述翻译模型实现对所述语音识别文本的翻译，得到携带了所述第一语音数据的语音风格的翻译文本。

在本实施例中，将所述语音识别文本中每一单位识别文本的文本向量、以及每一单位识别文本对应的目标声学特征的特征向量，输入至预先构建的翻译模型中，这样，该翻译模型便可以基于输入的文本向量和特征向量，实现对所述语音识别文本的文本翻译，得到符合所述第一语音数据的说话风格的翻译文本。其中，所述翻译模型可以通过预先收集的大量语音识别文本以及相应语音的声学特征预先训练得到，所述翻译模型可以包括编码模型和解码模型。

将所述语音识别文本中各个单位识别文本对应的文本向量和特征向量，均输入到所述翻译模型所包括的编码模型中；编码模型先对每一单位识别文本的文本向量进行一次编码，再将一次编码结果与该单位识别文本对应的特征向量一起进行二次编码；最后将二次编码结果输入到所述翻译模型所包括的解码模型进行解码，得到所述语音识别文本的翻译文本。

例如，假设所述语音识别文本为“当然了”，并将“当”、“然”、“了”分别作为单位识别文本，先将“当”、“然”、“了”分别对应的文本向量和特征向量均输入到所述翻译模型所包括的编码模型中。如图3所示的文本翻译示意图，编码模型可以使用双向长短时记忆(Bidirectional Long Short-term Memory,BLSTM)模型对文本向量进行一次编码，具体可以使用三个BLSTM模型分别对“当”、“然”、“了”进行一次编码，这样，通过一次编码便可以知道每一单位识别文本与其它单位识别文本之间的关系；之后，编码模型可以使用深层神经网络(Deep Neural Network，DNN)模型进行二次编码，具体可以使用三个DNN模型进行二次编码，即，对“当”的一次编码结果和“当”对应的特征向量进行二次编码，对“然”的一次编码结果和“然”对应的特征向量进行二次编码，对“了”的一次编码结果和“了”对应的特征向量进行二次编码。

由于二次编码中融入了所述第一语音数据的声学特征信息，所以，在将二次编码结果输入到所述翻译模型所包括的解码模型时，便可以生成携带了所述第一语音数据的语音风格的翻译文本。

需要说明的是，在具体翻译时，当所述语音识别文本包括一个句子或多个句子时，可以以句为单位进行文本翻译；在对当前句子进行翻译时，可以按照所述单位识别文本的大小(比如单个字)为单位进行翻译。

本实施例提供的一种语音翻译方法，对于需要进行文本翻译的语音数据，通过对该语音数据进行语音识别，生成语音识别文本；将该语音识别文本作为一个单位识别文本或拆分成多个单位识别文本，并从单位识别文本的语音片段中提取声学特征；通过对单位识别文本向量化，并对单位识别文本对应的声学特征向量化，根据向量化结果进行文本翻译，得到携带了该语音数据的语音风格的翻译文本。可见，由于在对语音数据进行文本翻译时，考虑了语音数据本身具有的声学特征，使得翻译文本能够符合该语音数据的风格和特点，从而使得翻译文本更自然、更具有表达力，进而便于文本阅读者理解语义和语境。

第三实施例

在目前的语音翻译技术中，翻译后机器合成的音频，完全是合成模型中训练发音人的说话风格，合成音频的效果与翻译前源说话人的说话风格关联性很低，有时候，单纯翻译过来的音频很难表达出源说话人的风格和特点。

为解决该缺陷，本实施例提供了一种语音翻译方法，能够对源说话人的语音数据(即第一实施例和第二实施例中的第一语音数据)进行翻译，得到翻译文本，并结合该语音数据中的声学特征进行音频合成，使合成音频自适应于源说话人的语音风格，以实现更自然、更具有表达力的语音翻译。该方法适用于实时口语翻译等方向，能够得到自适应源发音人风格的合成音频。

参见图4，为本申请实施例提供的一种语音翻译方法的流程示意图，该方法包括以下步骤：

S401：获取第一语音数据。

S402：通过对所述第一语音数据进行语音识别，生成语音识别文本。

需要说明的是，本实施例中的S401与S402与第一实施例中的S101与S102一致，相关说明请参见第一实施例，在此不再赘述。

S403：从所述第一语音数据中提取目标声学特征，根据所述目标声学特征对所述语音识别文本进行翻译，得到携带了所述第一语音数据的语音风格的翻译文本。

需要说明的是，本实施例中的S403与第一实施例中的S103一致，相关说明请参见第一实施例或第二实施例的具体实现方式，在此不再赘述。

S404：根据所述目标声学特征对所述翻译文本进行语音合成，得到携带了所述第一语音数据的语音风格的第二语音数据。

其中，本实施例将合成后的音频称为第二语音数据；所述第二语音数据携带了所述第一语音数据的语音风格，是指符合所述第一语音数据的用词或发音风格。

可以理解的是，翻译前的第一语音数据与翻译后的第二语音数据通常是不同的语言，比如，第一语音数据为中文，第二语音数据为英文。

在本实施例中，可以利用预先构建的合成模型以及所述第一语音数据的目标声学特征，将所述第一语音数据的翻译文本合成语音，得到带有所述第一语音数据的语音风格的第二语音数据。

更具体地，可以采用以下两种实施方式之一实现S404。

在第一种具体实现方式中，S404可以包括：利用所述目标声学特征调整预先构建的合成模型的模型参数，利用调整后的合成模型对所述翻译文本进行语音合成，得到携带了所述第一语音数据的语音风格的第二语音数据。

在本实施方式中，合成模型可以利用声学参数合成语音数据，比如基频、时长、频谱等声学参数，但是，合成语音的发音模式可能是合成模型中训练发音人的发音风格，因此，可以利用从所述第一语音数据中提取的目标声学特征，调整合成模型的相应声学参数，比如利用深度学习的方法对相应声学参数进行调整，使得利用调整后的合成模型所合成的第二语音数据在发音上更符合第一语音数据的风格。

需要说明的是，当所述目标声学特征的提取对象为第二实施例中的每一单位识别文本时，在调整声学参数时，首先确定合成模型的建模单位，该建模单位表示所述合成模型会以何种文本单位进行语音合成，如果合成模型的建模单位与所述单位识别文本的长度不同，则需要根据合成模型的建模单位拆分所述语音识别文本，并从每一拆分文本中重新提取目标声学特征。例如，合成模型的建模单位为音节，而所述单位识别文本的长度为单个字，则需要以音节为单位重新提取所述目标声学特征，并利用新提取的目标声学特征调整合成模型的声学参数。

在第二种具体实现方式中，S404可以包括：利用预先构建的合成模型对所述翻译文本进行语音合成，得到初始语音数据，利用所述目标声学特征对所述初始语音数据的声学特征进行调整，得到携带了所述第一语音数据的语音风格的第二语音数据。

在本实施方式中，先基于所述翻译文本利用预先构建的合成模型进行语音合成，本实施例将该语音合成数据称为初始语音数据，由于该初始语音数据的发音模式可能是合成模型中训练发音人的发音风格，但该发音风格与所述第一语音数据的发音风格可能会不同。因此，在利用合成模型合成初始语音数据后，可以利用从所述第一语音数据中提取的目标声学特征对所述初始语音数据的声学特征进行调整，得到调整后的第二语音数据，这样，能够使第二语音数据在发音上更符合所述第一语音数据的风格。

在对所述初始语音数据进行声学调整时，可以直接使用所述单位识别文本的长度进行调整，也可以使用小于或大于所述单位识别文本的长度进行调整，比如，以音节、或字、或词、或短句为单位进行调整。

现以所述目标声学特征包括平均时长、平均音高、平均音量为例，当以音节为单位进行调整时，计算所述第一语音数据中每一音节的平均时长、平均音高、平均音量，并计算所述初始语音数据中每一音节的平均时长、平均音高、平均音量，根据计算结果对所述初始语音数据进行声学调整。具体地，当所述初始语音数据中某音节1的平均时长较短时，利用所述第一语音数据中对应音节的平均时长对音节1在发音时间上进行拉长处理，反之亦然；当所述初始语音数据中某音节2的平均音高较高时，利用所述第一语音数据中对应音节的平均音高对音节2在发音频率上进行压缩处理，反之亦然；当所述初始语音数据中某音节3的平均音量较高时，利用所述第一语音数据中对应音节的平均音高对音节3在发音振幅上进行压缩处理，反之亦然。

当然，本实施例也可以不对所述初始语音数据进行调整，直接将所述初始语音数据作为翻译后的最终语音数据。

本实施例提供的一种语音翻译方法，对于需要进行文本翻译的语音数据，通过对该语音数据进行语音识别，生成语音识别文本；并从该语音数据中提取声学特征，根据提取的声学特征对语音识别文本进行翻译，得到携带了该语音数据的语音风格的翻译文本；最后根据所述目标声学特征对所述翻译文本进行语音合成，得到携带了所述第一语音数据的语音风格的第二语音数据。可见，由于在对语音数据进行文本翻译时，考虑了语音数据本身具有的声学特征，使得翻译文本能够符合该语音数据的风格和特点，从而使得翻译文本更自然、更具有表达力，进而便于文本阅读者理解语义和语境，此外，在基于翻译文本合成语音时，由于语音合成时考虑了翻译前的语音数据的语音风格，使得语音合成结果在发音上能够符合翻译前的语音数据的风格和特点，从而生成了更自然、更具有表达力的语音翻译结果。

第四实施例

基于以上第一实施例至第三实施例提供的语音翻译方法，本申请还提供了一种语音翻译装置，第四实施例将结合附图对该语音翻译装置进行介绍。

参见图5，为本申请实施例提供的一种语音翻译装置的组成示意图，该装置500包括：

语音数据获取单元501，用于获取第一语音数据；

识别文本生成单元502，用于通过对所述第一语音数据进行语音识别，生成语音识别文本；

声学特征提取单元503，用于从所述第一语音数据中提取目标声学特征；

翻译文本生成单元504，用于根据所述目标声学特征对所述语音识别文本进行翻译，得到携带了所述第一语音数据的语音风格的翻译文本。

在本实施例的一种实现方式中，所述声学特征提取单元503包括：

在本实施例的一种实现方式中，所述翻译文本生成单元504包括：

在本实施例的一种实现方式中，若所述目标声学特征包括至少一种特征类型，则所述装置500还包括：

则，所述特征向量化子单元包括：

特征值确定子单元，用于对每一所述单位识别文本对应的目标声学特征，确定所述目标声学特征中每一特征类型对应的特征值；

在本实施例的一种实现方式中，所述装置500还包括：

在本实施例的一种实现方式中，所述翻译语音生成单元包括：

或者，所述翻译语音生成单元包括：

在本实施例的一种实现方式中，所述目标声学特征包括平均语速、平均音高、平均音量中的一个或多个特征类型。

本实施例提供的一种语音翻译装置，对于需要进行文本翻译的语音数据，通过对该语音数据进行语音识别，生成语音识别文本；并从该语音数据中提取声学特征，根据提取的声学特征对语音识别文本进行翻译，得到携带了该语音数据的语音风格的翻译文本。可见，由于在对语音数据进行文本翻译时，考虑了该语音数据本身具有的声学特征，使得翻译文本能够符合该语音数据的风格和特点，从而使得翻译文本更自然、更具有表达力，进而便于文本阅读者理解语义和语境。

第五实施例

参见图6，为本申请实施例提供的一种语音翻译装置的硬件结构示意图，所述***600包括存储器601和接收器602，以及分别与所述存储器601和所述接收器602连接的处理器603，所述存储器601用于存储一组程序指令，所述处理器603用于调用所述存储器601存储的程序指令执行如下操作：

获取第一语音数据；

在本实施例的一种实现方式中，所述处理器603还用于调用所述存储器601存储的程序指令执行如下操作：

确定所述语音片段的目标声学特征。

将每一所述单位识别文本分别进行文本向量化；

在本实施例的一种实现方式中，若所述目标声学特征包括至少一种特征类型，则所述处理器603还用于调用所述存储器601存储的程序指令执行如下操作：

将所述取值范围划分为至少两个取值区间；

利用调整后的合成模型对所述翻译文本进行语音合成。

在一些实施方式中，所述处理器603可以为中央处理器(CentralProcessingUnit，CPU)，所述存储器601可以为随机存取存储器(RandomAccess Memory，RAM)类型的内部存储器，所述接收器602可以包含普通物理接口，所述物理接口可以为以太(Ethernet)接口或异步传输模式(Asynchronous Transfer Mode，ATM)接口。所述处理器603、接收器602和存储器601可以集成为一个或多个独立的电路或硬件，如：专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音翻译方法，其特征在于，包括：

获取第一语音数据；

2.根据权利要求1所述的方法，其特征在于，所述从所述第一语音数据中提取目标声学特征，包括：

确定所述语音片段的目标声学特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标声学特征对所述语音识别文本进行翻译，包括：

将每一所述单位识别文本分别进行文本向量化；

4.根据权利要求3所述的方法，其特征在于，若所述目标声学特征包括至少一种特征类型，则所述方法还包括：

将所述取值范围划分为至少两个取值区间；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标声学特征对所述翻译文本进行语音合成，包括：

利用调整后的合成模型对所述翻译文本进行语音合成。

7.根据权利要求5所述的方法，其特征在于，所述根据所述目标声学特征对所述翻译文本进行语音合成，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述目标声学特征包括平均语速、平均音高、平均音量中的一个或多个特征类型。

9.一种语音翻译装置，其特征在于，包括：

语音数据获取单元，用于获取第一语音数据；

10.根据权利要求9所述的装置，其特征在于，所述声学特征提取单元包括：

11.根据权利要求10所述的装置，其特征在于，所述翻译文本生成单元包括：

12.根据权利要求11所述的装置，其特征在于，若所述目标声学特征包括至少一种特征类型，则所述装置还包括：

则，所述特征向量化子单元包括：

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述翻译语音生成单元包括：

或者，所述翻译语音生成单元包括：

15.根据权利要求1至7任一项所述的装置，其特征在于，所述目标声学特征包括平均语速、平均音高、平均音量中的一个或多个特征类型。

16.一种语音翻译装置，其特征在于，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行如权利要求1-8中任一项所述的方法。