CN107481713B

CN107481713B - 一种混合语言语音合成方法及装置

Info

Publication number: CN107481713B
Application number: CN201710582572.9A
Authority: CN
Inventors: 王东; 张之勇
Original assignee: Beijing Furui Xingchen Intelligent Technology Co ltd; Tsinghua University
Current assignee: Beijing Furui Xingchen Intelligent Technology Co ltd; Tsinghua University
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2020-06-02
Anticipated expiration: 2037-07-17
Also published as: CN107481713A

Abstract

本发明公开一种混合语言语音合成方法及装置。其中，所述方法包括：获取待合成文本，并提取所述待合成文本的语言学特征向量；获取特定说话人的语音数据，并根据所述特定说话人的语音数据提取所述特定说话人的说话人向量；将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接，获得所述待合成文本的语音合成输入向量；根据所述待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得所述待合成文本的特定说话人的合成语音。所述装置用于执行上述方法。本发明提供的混合语言语音合成方法及装置，能够实现语音合成说话人的快速更改与混合语言语音合成，提高混合语言语音合成的效率。

Description

一种混合语言语音合成方法及装置

技术领域

本发明涉及语音处理技术领域，具体涉及一种混合语言语音合成方法及装置。

背景技术

语音合成技术是将文本转化成声音的技术，混合语言语音合成是指待合成文本中存在多种语言，将多种语言的文本转化成相应的语音。

图1为传统的混合语言语音合成的过程的示意图，如图1所示，在进行混合语言语音合成时需要预先建立混合语言语音合成的声学模型，在建立上述声学模型时，需要对混合语言语音数据对应的文本进行语言学分析并提取出语言学特征参数，包括音素、音节、字、词及句子等不同层面的位置、数量、词性、音调和上下文，同时对混合语言语音数据进行分析，提取出语音学特征参数，包括基频、非周期信息和频谱。然后将获得的语言学特征参数输入到训练模型中，上述模型可以是递归神经网络模型，获得预测的基频、非周期信息和频谱声学特征，将预测的基频、非周期信息和频谱声学特征与上述语音学特征参数进行对比，通过模型训练算法，例如梯度更新算法，迭代优化训练模型直至其收敛，获得混合语言语音合成的声学模型。

在对待合成文本进行语音合成时，上述待合成文本执行与模型训练时对文本数据同样的处理过程提取对应的语言学特征参数，将上述语言学特征参数输入到已经建立的声学模型中，即可得到待合成文本的合成语音。在模型训练时，采用的说话人，即为上述混合语言文本对应的语音的说话人，当需要更改说话人时，需要更改的说话人的大量的混合语言语音数据对上述声学模型进行重新训练，在实际操作中，较长时间的混合语言语音数据的录制无论对于录制人还是后期的处理工作都是耗时耗力。尤其是，考虑到现今全世界现存语言大约有6900种，找到能讲多种语言的发音人有时是很困难的。

因此，如何提出一种混合语言语音合成方法，能够实现语音合成说话人的快速更改与混合语言语音合成，提高混合语言语音合成的效率，成为业界亟待解决的重要课题。

发明内容

针对现有技术中的缺陷，本发明提供一种混合语言语音合成方法及装置。

一方面，本发明提出一种混合语言语音合成方法，包括：

获取待合成文本，并提取所述待合成文本的语言学特征向量；

获取特定说话人的语音数据，并根据所述特定说话人的语音数据提取所述特定说话人的说话人向量；

将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接，获得所述待合成文本的语音合成输入向量；

将所述待合成文本的语音合成输入向量输入到预先建立的混合语言语音合成模型中，获得所述待合成文本的特定说话人的合成语音合成语音。

另一方面，本发明提供一种混合语言语音合成装置，包括：

第一提取单元，用于获取待合成文本，并提取所述待合成文本的语言学特征向量；

第二提取单元，用于获取特定说话人的语音数据，并根据所述特定说话人的语音数据提取所述特定说话人的说话人向量；

拼接单元，用于将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接，获得所述待合成文本的语音合成输入向量；

合成单元，用于根据所述待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得所述特定说话人的待合成文本的合成语音。

再一方面，本发明提供一种电子设备，包括：处理器、存储器和通信总线，其中：

所述处理器和所述存储器通过所述通信总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上述各实施例提供的混合语言语音合成方法。

又一方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上述各实施例提供的混合语言语音合成方法。

本发明提供的混合语言语音合成方法及装置，由于能够根据特定说话人的语音数据，提取特定说话人的说话人向量，并将特定说话人的说话人向量与待合成文本的语言学特征向量进行拼接，根据拼接后得到的待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得待合成文本的特定说话人的合成语音，能够实现语音合成说话人的快速更改与混合语言语音合成，提高混合语言语音合成的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为传统的混合语言语音合成的过程的示意图；

图2为本发明一实施例混合语言语音合成方法的流程示意图；

图3为本发明另一实施例混合语言语音合成方法的流程示意图；

图4为本发明一实施例混合语言语音合成装置的结构示意图；

图5为本发明一实施例混合语言语音合成装置的结构示意图；

图6为本发明实施例电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图2为本发明一实施例混合语言语音合成方法的流程示意图，如图2所示，本发明提供的混合语言语音合成方法，包括：

S201、获取待合成文本，并提取所述待合成文本的语言学特征向量；

具体地，混合语言语音合成装置(以下简称语音合成装置)获取待合成文本，即需要转化为声音的文本，所述合成文本为单一语言或混合语言文本，并根据所述待合成文本，进行语言学特征向量的提取，获得所述待合成文本的语言学特征向量。其中，对所述待合成文本的语言学特征向量的提取可以采用现有技术。

例如，对于待合成文本“***总理宣布摩苏尔战役取得最终胜利”，可以获得上述待合成文本的词组信息：“***”、“总理”、“宣布”、“摩苏尔”、“战役”、“取得”、“最终”和“胜利”；音节信息：YI1 LA1 KE4 ZONG3 LI3 XUAN1 BU4 MO2 SU1 ER3 ZHAN4 YI4 QU3 DE2ZUI4 ZHONG1 SHENG4 LI4；音素信息：y i4 l a1 k e4 z oo3 ng l i3 x uu an1 b u4 mo2 s u1 ee er3 zh au4 nn y i4 q v3 d e2 z ui4 zh oo3 ng sh at4 ng l i4；音素时长信息(假定单位为帧)：4 3 2 3 5 4 1 8 3 7 12 4 7 8 9 6 5 7 6 10 1 23 3 2 6 9 26 1 3 4 8 7 6 5 4 3 2 5 7 6。根据上述信息得到：(1)数量信息：a)词数:8；b)音节数或字数：18；c)音素数：41；d)上一个/当前/下一个词组中的音节个数，比如”总理”，上一个词组“***”中音节个数为3，当前词组音节个数为2，下一个词组“宣布”音节个数为2，所以所提取数量信息为向量(3，2，2)。(2)位置信息：a)词在句子中的位置，如“总理”，为2/18＝0.11；b)音节(或字)在词组、句子中的信息，如“总”，在“总理”词组中为1/2＝0.5；c)音素在音节中的位置信息，如“总”：z oo3ng，其中oo3在其中的位置信息为2/3＝0.6667。(3)当前音节的声调，如“总”：z oo3 ng，声调为3。(4)音素上下文信息，如“y i4 l a1 k e4 z oo3ng l i3”中按5-gram扩展为“*-sil-y-i4-l sil-y-i4-l-a1 y-i4-l-a1-k i4-l-a1-k-e4l-a1-k-e4-z…….”。(5)按时长信息扩展后的帧级信息，比如“y i4 l a1 k e4”，按时长“43 2 3 5 4”扩展后为“y y y y i4 i4 i4l l a1 a1 a1 k k k k k e4 e4 e4 e4”，对于其中第一个y，其在句子中的位置信息为1/41＝0.244；其在当前词组中的位置信息为1/21＝0.0476；其在当前音节中的位置为1/7＝0.1429；其在当前音素中的位置信息为1/4＝0.25。

S202、获取特定说话人的语音数据，并根据所述特定说话人的语音数据提取所述特定说话人的说话人向量；

具体地，所述语音合成装置获取特定说话人的语音数据，所述特定说话人即设定对所述待合成文本进行发音的说话人，并根据所述特定说话人的语音数据，提取所述特定说话人的说话人向量，获得所述特定说话人的说话人向量。具体可以采用辨别矢量(identifying vector，i-Vector)模型，卷积神经网络Convolutional Neural Networks，以下简称CNN)模型或循环神经网络(Recurrent Neural Networks，以下简称RNN)模型进行所述特定说话人的说话人向量提取，其具体过程为现有技术，此处不再冗述。

S203、将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接，获得所述待合成文本的语音合成输入向量；

具体地，所述语音合成装置获得所述待合成文本的语言学特征向量和所述特定说话人的说话人向量之后，将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接，可以获得所述待合成文本的语音合成输入向量。例如所述待合成文本的语言学特征向量为(0.9，0.7，0.2)，所述特定说话人的说话人向量为(0.3，0.6，0.8)，拼接之后的向量为(0.9，0.7，0.2，0.3，0.6，0.8)。

S204、根据所述待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得所述待合成文本的特定说话人的合成语音。

具体地，所述语音合成装置将获得的所述待合成文本的语音合成输入向量输入到混合语言语音合成模型中，得到所述待合成文本的合成语音，上述合成语音是所述语音合成装置模拟所述特定说话人的语音生成的。其中，所述混合语言语音合成模型是预先建立的。可理解的是，所述待合成文本中存在的语言种类是所述混合语言语音合成模型所包括的。

本发明提供的混合语言语音合成方法，由于能够根据特定说话人的语音数据，提取特定说话人的说话人向量，并将特定说话人的说话人向量与待合成文本的语言学特征向量进行拼接，根据拼接后得到的待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得待合成文本的特定说话人的合成语音，能够实现语音合成说话人的快速更改与混合语言语音合成，提高混合语言语音合成的效率。

图3为本发明另一实施例混合语言语音合成方法的流程示意图，如图3所示，在上述各实施例的基础上，进一步地，所述混合语言语音合成模型建立的步骤包括：

S301、获取预设数量的多个说话人的混合语言语音数据以及相应的混合语言文本；

具体地，所述语音合成装置可以获取预设数量的多个说话人的混合语言语音数据以及与所述混合语言语音数据对应的混合语言文本。例如，一段中文、英文和德文的混合语言文本，由一个中文说话人、一个英文说话人和一个德文说话人阅读并录制成语音数据，所述语音合成装置可以获得上述语音数据对应的三种语言的任意混合语言文本。其中，所述预设数量根据实际需要进行设置，本发明实施例不做限定。可理解的是，所述预设数量应该满足能够建立所述混合语言语音合成模型的要求。

S302、根据所述多个说话人的混合语言语音数据分别提取所述多个说话人的语音学特征向量和所述多个说话人的说话人向量；

具体地，所述语音合成装置在获得所述多个说话人的混合语言语音数据之后，根据所述多个说话人的混合语言语音数据提取所述多个说话人的语音学特征向量，包括基频、非周期信息和频谱声学特征，对所述多个说话人的混合语言语音数据的语音学特征向量提取过程为现有技术，常用STRAIGHT方法，此处不再冗述。所述语音合成装置根据所述多个说话人的混合语言语音数据提取所述多个说话人的说话人向量，在提取所述多个说话人的说话人向量的过程中，滤除了语言、信道等信息，其具体过程与步骤S202类似，此处不再赘述。

S303、根据所述混合语言文本提取所述混合语言文本的语言学特征向量；

具体地，所述语音合成装置在获得所述混合语言文本之后，对所述混合语言文本进行语言学特征向量提取，获得所述混合语言文本的语言学特征向量。对所述混合语言文本进行语言学特征向量提取过程为现有技术，此处不再冗述。

S304、将所述混合语言文本的语言学特征向量和所述多个说话人的说话人向量进行拼接，获得模型训练输入向量；

具体地，所述语音合成装置获得所述混合语言文本的语言学特征向量和所述多个说话人的说话人向量之后，将所述混合语言文本的语言学特征向量和所述多个说话人的说话人向量进行拼接，获得模型训练输入向量。所述混合语言文本的语言学特征向量和所述多个说话人的说话人向量的具体拼接过程与步骤S203类似，此处不再赘述。

S305、根据所述模型训练输入向量和所述多个说话人的语音学特征向量，构建所述混合语言语音合成模型。

具体地，所述语音合成装置在获得所述模型训练输入向量和所述多个说话人的语音学特征向量之后，将所述模型训练输入向量输入到训练模型中，所述训练模型可以是递归神经网络模型，获得所述混合语言文本预测的语音学特征向量，将所述预测的语音学特征向量与所述多个说话人的语音学特征向量进行对比，通过模型训练算法，例如梯度更新算法，迭代优化所述训练模型直至其收敛，获得所述混合语言语音合成模型。

本发明提供的混合语言语音合成方法，由于能够根据特定说话人的语音数据，提取特定说话人的说话人向量，并将特定说话人的说话人向量与待合成文本的语言学特征向量进行拼接，根据拼接后得到的待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得待合成文本的特定说话人的合成语音，能够实现语音合成说话人的快速更改与混合语言语音合成，提高混合语言语音合成的效率。而通过建立混合语言语音合成模型，能够实现语音合成说话人的快速更改，并保证混合语言语音合成的效率。

在上述各实施例的基础上，进一步地，所述多个说话人包括同种语言的不同说话人和不同语言的不同说话人。

具体地，所述语音合成装置在建立所述混合语言语音合成模型，可以采用同种语言的不同发音人和不同语言的不同发音人的混合语言语音数据，即所述多个说话人可以是同种语言的不同说话人和不同语言的不同说话人，例如所述多个说话人为两个中文说话人、三个英文说话人，一个德文说话人。由于对所述多个说话人的混合语言语音数据提取所述多个说话人的说话人向量，相当于对所述多个说话人的语音数据做了面向发音人的正规化，生成的所述混合语言语音合成模型将剥离单个发音人的属性，仅关注由所述语言学特征到声学层的映射，即与说话人无关的语言发音，赋予了所述混合语言语音合成模型实现同一说话人说不同语言的能力。

本发明提供的混合语言语音合成方法，由于能够根据特定说话人的语音数据，提取特定说话人的说话人向量，并将特定说话人的说话人向量与待合成文本的语言学特征向量进行拼接，根据拼接后得到的待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得待合成文本的特定说话人的合成语音，能够实现语音合成说话人的快速更改与混合语言语音合成，提高混合语言语音合成的效率。而多个说话人包括同种语言的不同说话人和不同语言的不同说话人，能够实现同一说话人通过混合语言语音合成模型说不同的语言。

在上述各实施例的基础上，进一步地，所述根据所述模型训练输入向量和所述多个说话人的语音学特征向量，构建所述混合语言语音合成模型包括：

采用递归神经网络模型，根据所述模型训练输入向量和所述多个说话人的语音学特征向量，构建所述混合语言语音合成模型。

具体地，所述语音合成装置在构建所述混合语言语音合成模型时，将所述模型训练输入向量输入到递归神经网络模型中，获得所述混合语言文本预测的语音学特征向量，将所述预测的语音学特征向量与所述多个说话人的语音学特征向量进行对比，通过模型训练算法，例如梯度更新算法，迭代优化所述训练模型直至其收敛，获得所述混合语言语音合成模型。递归神经网络模型具有平滑能力，通过对多个说话人和多语种的语音数据的训练，从而使所述语音合成装置模拟同一说话人在说不同语言的时候，声音自然，解决了语种切换问题。

在上述各实施例的基础上，进一步地，所述提取所述特定说话人的说话人向量包括：

采用辨别矢量模型、卷积神经网络模型或者循环神经网络模型，提取所述特定说话人的说话人向量。

具体地，所述语音合成装置获取特定说话人的语音数据之后，采用i-vector模型、卷积神经网络模型或者循环神经网络模型，对所述特定说话人的说话人向量进行提取，获得所述特定说话人的说话人向量。

图4为本发明一实施例混合语言语音合成装置的结构示意图，如图4所示，本发明提供的混合语言语音合成装置包括第一提取单元401、第二提取单元402、拼接单元403和合成单元404，其中：

第一提取单元401用于获取待合成文本，并提取所述待合成文本的语言学特征向量；第二提取单元402用于获取特定说话人的语音数据，并根据所述特定说话人的语音数据提取所述特定说话人的说话人向量；拼接单元403用于将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接，获得所述待合成文本的语音合成输入向量；合成单元404用于将所述待合成文本的语音合成输入向量输入到预先建立的混合语言语音合成模型中，获得所述待合成文本的特定说话人的合成语音。

具体地，第一提取单元401获取待合成文本，即需要转化为声音的文本，并根据所述待合成文本，所述合成文本为单一语言或混合语言文本，进行语言学特征向量的提取，获得所述待合成文本的语言学特征向量。其中，对所述待合成文本的语言学特征向量的提取可以采用现有技术。

第二提取单元402取特定说话人的语音数据，所述特定说话人即设定对所述待合成文本进行发音的说话人，并根据所述特定说话人的语音数据，提取所述特定说话人的说话人向量，获得所述特定说话人的说话人向量。具体可以采用i-Vector模型，CNN模型或RNN模型进行所述特定说话人的说话人向量提取，其具体过程为现有技术，此处不再冗述。

在获得所述待合成文本的语言学特征向量和所述特定说话人的说话人向量之后，拼接单元403将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接，可以获得所述待合成文本的语音合成输入向量。例如所述待合成文本的语言学特征向量为(0.9，0.7，0.2)，所述特定说话人的说话人向量为(0.3，0.6，0.8)，拼接之后的向量为(0.9，0.7，0.2，0.3，0.6，0.8)。

合成单元404将获得的所述待合成文本的语音合成输入向量输入到混合语言语音合成模型中，得到所述待合成文本的合成语音，上述合成语音是所述语音合成装置模拟所述特定说话人的语音生成的。其中，所述混合语言语音合成模型是预先建立的。可理解的是，所述待合成文本中存在的语言种类是所述混合语言语音合成模型所包括的。

本发明提供的混合语言语音合成装置，由于能够根据特定说话人的语音数据，提取特定说话人的说话人向量，并将特定说话人的说话人向量与待合成文本的语言学特征向量进行拼接，根据拼接后得到的待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得待合成文本的特定说话人的合成语音，能够实现语音合成说话人的快速更改与混合语言语音合成，提高混合语言语音合成的效率。

图5为本发明一实施例混合语言语音合成装置的结构示意图，如图5所示，在上述各实施例的基础上，进一步地，本发明提供的混合语言语音合成装置还包括获取单元405、第三提取单元406、第四提取单元407、获得单元408和构建单元409，其中：

获取单元405用于获取预设数量的多个说话人的混合语言语音数据以及相应的混合语言文本；第三提取单元406用于根据所述多个说话人的混合语言语音数据分别提取所述多个说话人的语音学特征向量和所述多个说话人的说话人向量；第四提取单元407用于根据所述混合语言文本提取所述混合语言文本的语言学特征向量；获得单元408用于将所述混合语言文本的语言学特征向量和所述多个说话人的说话人向量进行拼接，获得模型训练输入向量；构建单元409用于根据所述模型训练输入向量和所述多个说话人的语音学特征向量，构建所述混合语言语音合成模型。

具体地，获取单元405可以获取预设数量的多个说话人的混合语言语音数据以及与所述混合语言语音数据对应的混合语言文本。例如，一段中文、英文和德文的混合语言文本，由一个中文说话人、一个英文说话人和一个德文说话人阅读并录制成语音数据，所述语音合成装置可以获得上述语音数据对应的三种语言的任意混合语言文本。其中，所述预设数量根据实际需要进行设置，本发明实施例不做限定。可理解的是，所述预设数量应该满足能够建立所述混合语言语音合成模型的要求。

第三提取单元406在获得所述多个说话人的混合语言语音数据之后，根据所述多个说话人的混合语言语音数据提取所述多个说话人的语音学特征向量，包括基频、非周期信息和频谱声学特征，对所述多个说话人的混合语言语音数据的语音学特征向量提取过程为现有技术，此处不再冗述。所述语音合成装置根据所述多个说话人的混合语言语音数据提取所述多个说话人的说话人向量，在提取所述多个说话人的说话人向量的过程中，滤除了语言、信道等信息，其具体过程与步骤S202类似，此处不再赘述。

第四提取单元407在获得所述混合语言文本之后，对所述混合语言文本进行语言学特征向量提取，获得所述混合语言文本的语言学特征向量。对所述混合语言文本进行语言学特征向量提取过程为现有技术，常用STRAIGHT方法，此处不再冗述。

获得单元408获得所述混合语言文本的语言学特征向量和所述多个说话人的说话人向量之后，将所述混合语言文本的语言学特征向量和所述多个说话人的说话人向量进行拼接，获得模型训练输入向量。所述混合语言文本的语言学特征向量和所述多个说话人的说话人向量的具体拼接过程与步骤S203类似，此处不再赘述。

构建单元409在获得所述模型训练输入向量和所述多个说话人的语音学特征向量之后，将所述模型训练输入向量输入到训练模型中，所述训练模型可以是递归神经网络模型，获得所述混合语言文本预测的语音学特征向量，将所述预测的语音学特征向量与所述多个说话人的语音学特征向量进行对比，通过模型训练算法，例如梯度更新算法，迭代优化所述训练模型直至其收敛，获得所述混合语言语音合成模型。

本发明提供的混合语言语音合成装置，由于能够根据特定说话人的语音数据，提取特定说话人的说话人向量，并将特定说话人的说话人向量与待合成文本的语言学特征向量进行拼接，根据拼接后得到的待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得待合成文本的特定说话人的合成语音，能够实现语音合成说话人的快速更改与混合语言语音合成，提高混合语言语音合成的效率。而通过建立混合语言语音合成模型，能够实现语音合成说话人的快速更改，并保证混合语言语音合成的效率。

本发明提供的混合语言语音合成装置，由于能够根据特定说话人的语音数据，提取特定说话人的说话人向量，并将特定说话人的说话人向量与待合成文本的语言学特征向量进行拼接，根据拼接后得到的待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得待合成文本的特定说话人的合成语音，能够实现语音合成说话人的快速更改与混合语言语音合成，提高混合语言语音合成的效率。而多个说话人包括同种语言的不同说话人和不同语言的不同说话人，能够实现同一说话人通过混合语言语音合成模型说不同的语言。

本发明提供的混合语言语音合成装置的实施例具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图6为本发明实施例提供的电子设备的实体结构示意图，如图6所示，所述电子设备包括处理器(processor)601、存储器(memory)602和通信通信总线603；

其中，所述处理器601、存储器602通过通信通信总线603完成相互间的通信；

所述处理器601用于调用所述存储器602中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取待合成文本，并提取所述待合成文本的语言学特征向量；获取特定说话人的语音数据，并提取所述特定说话人的说话人向量；将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接，获得所述待合成文本的语音合成输入向量；根据所述待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得所述特定说话人的待合成文本的合成语音。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取待合成文本，并提取所述待合成文本的语言学特征向量；获取特定说话人的语音数据，并提取所述特定说话人的说话人向量；将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接，获得所述待合成文本的语音合成输入向量；根据所述待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得所述待合成文本的特定说话人的合成语音。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取待合成文本，并提取所述待合成文本的语言学特征向量；获取特定说话人的语音数据，并提取所述特定说话人的说话人向量；将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接，获得所述待合成文本的语音合成输入向量；根据所述待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得所述待合成文本的特定说话人的合成语音。

此外，上述的存储器602中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，装置，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种混合语言语音合成方法，其特征在于，包括：

根据所述待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得所述待合成文本的特定说话人的合成语音；

所述混合语言语音合成模型建立的步骤包括：

获取预设数量的多个说话人的混合语言语音数据以及相应的混合语言文本；

根据所述多个说话人的混合语言语音数据分别提取所述多个说话人的语音学特征向量和所述多个说话人的说话人向量；

根据所述混合语言文本提取所述混合语言文本的语言学特征向量；

将所述混合语言文本的语言学特征向量和所述多个说话人的说话人向量进行拼接，获得模型训练输入向量；

根据所述模型训练输入向量和所述多个说话人的语音学特征向量，构建所述混合语言语音合成模型。

2.根据权利要求1所述的方法，其特征在于，所述多个说话人包括同种语言的不同说话人和不同语言的不同说话人。

3.根据权利要求1所述的方法，其特征在于，所述根据所述模型训练输入向量和所述多个说话人的语音学特征向量，构建所述混合语言语音合成模型包括：

4.根据权利要求1所述的方法，其特征在于，所述提取所述特定说话人的说话人向量包括：

5.一种混合语言语音合成装置，其特征在于，包括：

合成单元，用于根据所述待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型，获得所述待合成文本的特定说话人的合成语音；

获取单元，用于获取预设数量的多个说话人的混合语言语音数据以及相应的混合语言文本；

第三提取单元，用于根据所述多个说话人的混合语言语音数据分别提取所述多个说话人的语音学特征向量和所述多个说话人的说话人向量；

第四提取单元，用于根据所述混合语言文本提取所述混合语言文本的语言学特征向量；

获得单元，用于将所述混合语言文本的语言学特征向量和所述多个说话人的说话人向量进行拼接，获得模型训练输入向量；

构建单元，用于根据所述模型训练输入向量和所述多个说话人的语音学特征向量，构建所述混合语言语音合成模型。

6.根据权利要求5所述的装置，其特征在于，所述多个说话人包括同种语言的不同说话人和不同语言的不同说话人。

7.一种电子设备，其特征在于，包括：处理器、存储器和通信总线，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一项所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至4任一项所述的方法。