CN102005205A

CN102005205A - 情感语音合成方法和装置

Info

Publication number: CN102005205A
Application number: CN2009101707131A
Authority: CN
Inventors: 栾剑; 李健
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-09-03
Filing date: 2009-09-03
Publication date: 2011-04-06
Anticipated expiration: 2029-09-03
Also published as: CN102005205B

Abstract

本发明提供了情感语音合成方法和装置。根据本发明的一个方面，提供了一种情感语音合成方法，包括以下步骤：输入文本句；利用由第一说话人的中立语音库训练获得的中立特征模型，预测上述文本句在上述第一说话人的第一特征空间中的中立特征向量；利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规整模型，将上述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向量；利用由上述平行语音库训练获得的情感转换模型，将上述规整中立特征向量转换为上述第二特征空间中的规整情感特征向量；利用上述说话人规整模型，将上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量；以及利用上述第一特征空间中的情感特征向量合成出第一说话人的情感语音。

Description

情感语音合成方法和装置

技术领域

本发明涉及信息处理技术，具体地涉及语音合成技术，更具体地涉及不依赖于说话人的情感语音合成技术。

背景技术

目前，绝大多数基于大型语音库的语音合成***都是建立在中立朗读方式的语音之上。对于情感语音的合成，通用的方法是将中立语音转换成目标情感语音的韵律和频谱转换方法，例如在非专利文献1和2中记载的基于GMM(Gaussian mixture model，高斯混合模型)的方法和在非专利文献2中记载的基于CART(Classification And Regression Tree，分类与回归树)的方法。这些韵律和频谱转换方法仅需要建立一个附加的小型平行语音库，这与重新录制一个目标情感语音的大型语音库相比节省了大量开发时间和费用。同时，这些韵律和频谱转换方法可以建立中立语音特征和目标情感语音特征之间的联系，如基于GMM的方法。可选地，也可以建立语言学信息和中立语音特征与目标情感语音特征差异之间的联系，如基于CART的方法。基于GMM的方法相对于基于CART的方法有更好的性能。此外，如在非专利文献2中所记载，也可以将CART方法和GMM方法结合起来，即，先使用CART方法根据语言学信息进行一个初步的分类，然后再对每一类使用GMM方法建立韵律和频谱转换模型。

然而，上述基于GMM的韵律和频谱转换模型严重依赖于说话人。也就是说，如果上述大型中立语音库和上述小型平行语音库不是来自相同的说话人，则转换的性能将会严重降低。因此，在上述韵律和频谱转换方法中，为了得到高质量的转换效果，希望上述大型中立语音库和上述小型平行语音库是来自同一说话人。然而，在实际的产品支持中这是很难实现的，因为客户的需求可能在任何时候出现，例如，在录制中立语音库的好几年以后，即使还能找到当年的说话人，他/她的声音也可能随着时间发生了相当的变化。

非专利文献1：L.Mesbahi，V.Barreaud and O.Boeffard，“Comparing GMM-based speech transformation systems”，Proc.ofINTERSPEECH 2007，Antwerp，Belgium，Aug.27-31，2007，pp.1989-1992，在此通过参考引入其整个内容。

非专利文献2：J.Tao，Y.Kang and A.Li，“Prosodyconversion from neutral speech to emotional speech”，IEEE Trans.OnAudio，Speech and Language Processing，Vol.14，No.4，2006，pp.1145-1154，在此通过参考引入其整个内容。

发明内容

本发明正是鉴于上述现有技术中的问题而提出的，其目的在于提供不依赖于说话人的情感语音合成方法和装置，以便能够有效改善韵律和频谱转换的性能。

根据本发明的一个方面，提供了一种情感语音合成方法，包括以下步骤：输入文本句；利用由第一说话人的中立语音库训练获得的中立特征模型，预测上述文本句在上述第一说话人的第一特征空间中的中立特征向量；利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规整模型，将上述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向量；利用由上述平行语音库训练获得的情感转换模型，将上述规整中立特征向量转换为上述第二特征空间中的规整情感特征向量；利用上述说话人规整模型，将上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量；以及利用上述第一特征空间中的情感特征向量合成出第一说话人的情感语音。

根据本发明的另一个方面，提供了一种情感语音合成装置，包括：输入单元，其输入文本句；预测单元，其利用由第一说话人的中立语音库训练获得的中立特征模型，预测上述文本句在上述第一说话人的第一特征空间中的中立特征向量；变换单元，其利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规整模型，将上述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向量；转换单元，其利用由上述平行语音库训练获得的情感转换模型，将上述规整中立特征向量转换为上述第二特征空间中的规整情感特征向量；逆变换单元，其利用上述说话人规整模型，将上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量；以及合成单元，其利用上述第一特征空间中的情感特征向量合成出第一说话人的情感语音。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明的一个实施例的情感语音合成方法的流程图。

图2是根据本发明的一个实施例的说话人规整模型的一个实例。

图3是根据本发明的一个实施例的说话人规整模型的另一个实例。

图4是根据本发明的另一个实施例的情感语音合成装置的框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

情感语音合成方法

图1是根据本发明的一个实施例的情感语音合成方法的流程图。下面就结合该图，对本实施例进行描述。

如图1所示，首先，在步骤101，输入文本句。在本实施例中，输入的文本句可以是本领域的技术人员公知的任何文本的句子，也可以是各种语言的文本句，例如汉语、英语、日语等，本发明对此没有任何限制。

接着，在步骤105，利用文本分析从输入的文本句中提取语言学信息60。在本实施例中，语言学信息60包括上述文本句的句长，句中各字(词)的字形、拼音、音素类型、声调、词性、句中位置、与前后字(词)之间的边界类型以及与前后停顿之间的距离等等。此外，在本实施例中，用于从输入的文本句中提取语言学信息60的文本分析方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。

应该注意，这里的步骤105只是一个可选的步骤，也可以在步骤101输入文本句之后直接进行到步骤110。

在步骤110，利用由第一说话人的中立语音库10训练获得的中立特征模型30，预测在步骤101输入的文本句在上述第一说话人的第一特征空间中的中立特征向量。

在本实施例中，中立语音库10包括第一说话人的中立语音，即中立朗读的语音。中立语音库10可以是本领域的技术人员公知的任何语音库，例如上述非专利文献1和2中记载的中立语音库。此外，由中立语音库10训练中立特征模型30的方法也可以是本领域的技术人员公知的任何方法，例如上述非专利文献1和2中记载的训练方法。此外，训练得到的中立特征模型30也可以是本领域的技术人员公知的任何模型，例如上述非专利文献1和2中记载的中立特征模型。中立特征模型30中的特征向量可以包含韵律特征(例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。本发明只是在步骤110中利用了中立特征模型30，而对于中立语音库10、中立特征模型30的训练方法以及中立特征模型30没有任何限制。

在步骤110，如果没有在步骤105中提取语言学信息60，则利用中立特征模型30，预测在步骤101输入的文本句在第一说话人的第一特征空间中的中立特征向量。如果在步骤105中提取出语言学信息60，则根据提取出的语言学信息60，利用中立特征模型30，预测上述中立特征向量。在本实施例中，预测上述中立特征向量的方法可以是本领域的技术人员公知的任何方法，例如在上述非专利文献1和2中记载的预测方法。此外，预测出的中立特征向量可以包含韵律特征(例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。

接着，在步骤115，利用由中立语音库10和第二说话人的平行语音库20训练获得的说话人规整模型50，将在步骤110预测得到的中立特征向量变换为第二说话人的第二特征空间中的规整中立特征向量。在此，变换后的规整中立特征向量也可以包含韵律特征(例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。

在本实施例中，第二说话人的平行语音库20包含第二说话人的中立语音和目标情感语音，它们是成对的，也就是说，同一文本句用中立和目标情感两种方式朗读。

下面结合图2详细描述说话人规整模型50和在步骤115中进行的变换的一个实例。

图2是根据本发明的一个实施例的说话人规整模型50的一个实例。如图2所示，在训练说话人规整模型50的过程中，首先根据分类规则70将中立语音库10切分成m个类1-1，1-2，...，1-m。分类规则70可以根据经验随特征的不同而不同，例如，针对时长和频谱特征根据音素类型分类，针对基频轨迹根据声调类型分类，针对能量根据句中位置分类等中的一种或多种。接着，根据同样的分类规则70将平行语音库20也切分成对应的m个类2-1，2-2，...，2-m。接着，对于每个类1-i和2-i，计算出统计量71-i和72-i，其中上述统计量可以是从每个类1-i和2-i中提取的特征向量的均值μ和协方差矩阵∑等。在这种情况下，说话人规整模型50包括分类规则70和统计量71-i和72-i。

返回图1，在说话人规整模型50包括分类规则70和统计量71-i和72-i的情况下，在步骤115，首先利用在步骤105提取出的语言学信息60，查找在步骤110预测得到的中立特征向量对应的类x，然后根据如下公式(1)将该中立特征向量变换为第二说话人的第二特征空间中的规整中立特征向量，

{v_{n}}^{'} = (v_{n} - μ_{1 x}) Σ_{1 x}^{- 1 / 2} Σ_{2 x}^{1 / 2} + μ_{2 x} - - - (1)

其中，v′_n代表上述规整中立特征向量，v_n代表上述中立特征向量，μ_1x代表从上述中立语音库10的与上述中立特征向量对应的第x类中提取的均值，∑_1x代表从上述中立语音库10的与上述中立特征向量对应的第x类中提取的协方差矩阵，μ_2x代表从上述平行语音库20的与上述中立特征向量对应的第x类中提取的均值，以及∑_2x代表从上述平行语音库20的与上述中立特征向量对应的第x类中提取的协方差矩阵。

下面结合图3详细描述说话人规整模型50和在步骤115中进行的变换的另一个实例。

图3是根据本发明的一个实施例的说话人规整模型的另一个实例。如图3所示，在训练说话人规整模型50的过程中，首先利用中立语音库10训练出基于GMM的第一说话人的第一特征空间模型(λ₁，μ₁，∑₁)80。在第一特征空间模型80中，λ₁代表第一特征空间模型80中的各组元所占权重的集合，μ₁代表各组元的均值的集合，∑₁代表各组元的协方差矩阵的集合。然后，利用平行语音库20将第一说话人的第一特征空间模型80自适应为第二说话人的第二特征空间模型(λ₂，μ₂，∑₂)90。在第二特征空间模型90中，λ₂代表第二特征空间模型90中的各组元所占权重的集合，μ₂代表各组元的均值的集合，∑₂代表各组元的协方差矩阵的集合。上述特征空间模型中的组元个数应该足够大以使模型能够准确地描述上述特征空间。此外，可以认为自适应前后的两个特征空间模型80和90所对应的组元是耦合的。在本实施例中，特征空间模型的自适应方法可以是MAP(Maximum a Posteriori，最大后验概率)、MCE(Minimum ClassificationError，最小分类错误)、MMI(Maximum Mutual Information，最大互相关信息)或其它可用的算法，本发明对此没有任何限制。值得注意的是，因为第二说话人的平行语音库20的数据有限，通常仅对模型的均值μ做自适应，那么假定λ₁＝λ₂＝λ，∑₁＝∑₂＝∑。在本实施例中，训练基于GMM的特征空间模型的方法可以是本领域的技术人员公知的任何方法，例如上述非专利文献1和2中记载的训练方法。在这种情况下，说话人规整模型50包括第一特征空间模型80和第二特征空间模型90。

返回图1，在说话人规整模型50包括第一特征空间模型80和第二特征空间模型90的情况下，在步骤115，首先计算在步骤110预测得到的中立特征向量针对第一特征空间模型(λ₁，μ₁，∑₁)80的各组元i的概率P_i。可选地，可以根据如下公式(2)计算上述概率P_i，

p_{i} = λ_{i} \cdot \frac{1}{{(2 π)}^{n / 2} {| Σ_{i} |}^{1 / 2}} \exp (- \frac{1}{2} {(v_{n} - μ_{1 i})}^{T} Σ_{i}^{- 1} (v_{n} - μ_{1 i})) - - - (2)

其中，λ_i代表第一特征空间模型80中的各组元i所占的权重，μ_1i代表第一特征空间模型80中的各组元i的均值，∑_i代表第一特征空间模型80中的各组元i的协方差矩阵，v_n代表中立特征向量。

接着，计算上述中立特征向量的针对第一特征空间模型(λ₁，μ₁，∑₁)80的各组元i的上述概率P_i所占的权重w_i。可选地，可以根据如下公式(3)计算上述权重w_i，

w_{i} = \frac{p_{i}}{Σ_{i = 1}^{n} p_{i}} - - - (3)

接着，根据上述权重w_i和第二特征空间模型(λ₂，μ₂，∑₂)90，计算在步骤115变换后的规整中立特征向量v′_n。可选地，可以根据如下公式(4)计算上述规整中立特征向量v′_n，

{v_{n}}^{'} = Σ_{i = 1}^{n} (w_{i} \cdot μ_{2 i}) - - - (4)

其中，μ_2i代表第二特征空间模型90中的各组元i的均值。

在步骤115利用说话人规整模型50，将在步骤110预测得到的中立特征向量v_n变换为第二说话人的第二特征空间中的规整中立特征向量v′_n之后，在步骤120，利用由平行语音库20训练获得的情感转换模型40，将规整中立特征向量v′_n转换为上述第二特征空间中的规整情感特征向量v′_e。在此，转换后的规整情感特征向量v′_e可以包含韵律特征(例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。

在本实施例中，可以利用基于GMM的方法、基于CART的方法或其他方法以及他们各种可能的组合训练情感转换模型40。与上述特征向量包含的特征相类似，情感转换模型40也可以包括时长转换模型、基频轨迹转换模型、停顿转换模型、能量转换模型、频谱转换模型等中的一种或多种。

此外，在本实施例中，如果情感转换模型40的训练利用了基于CART的方法，则需要在上述步骤105中从输入的文本句中提取出语言学信息60，以便在步骤120，根据语言学信息60，利用情感转换模型40，将规整中立特征向量v′_n转换为规整情感特征向量v′_e。

接着，在步骤125，利用说话人规整模型50，将规整情感特征向量v′_e逆变换为上述第一特征空间中的情感特征向量v_e。在此，逆变换后的情感特征向量v_e可以包含韵律特征(例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。

可选地，在说话人规整模型50包括如图2所示的分类规则70和统计量71-i和72-i的情况下，根据如下公式(5)将规整情感特征向量v′_e逆变换为情感特征向量v_e，

v_{e} = ({v_{e}}^{'} - μ_{2 x}) Σ_{2 x}^{- 1 / 2} Σ_{1 x}^{1 / 2} + μ_{1 x} - - - (5)

其中，μ_2x代表从平行语音库20的与中立特征向量v_n对应的第x类中提取的均值，以及∑_2x代表从平行语音库20的与中立特征向量v_n对应的第x类中提取的协方差矩阵。

此外，可选地，在说话人规整模型50包括如图3所示的第一特征空间模型80和第二特征空间模型90的情况下，首先计算规整情感特征向量v′_e针对第二特征空间模型(λ₂，μ₂，∑₂)90的各组元的概率P′_i。可选地，可以根据如下公式(6)计算上述概率P′_i，

{p_{i}}^{'} = λ_{i} \cdot \frac{1}{{(2 π)}^{n / 2} {| Σ_{i} |}^{1 / 2}} \exp (- \frac{1}{2} {({v_{e}}^{'} - μ_{2 i})}^{T} Σ_{i}^{- 1} ({v_{e}}^{'} - μ_{2 i})) - - - (6)

其中，λ_i代表第二特征空间模型90中的各组元i所占的权重，μ_2i代表第二特征空间模型90中的各组元i的均值，∑_i代表第二特征空间模型90中的各组元i的协方差矩阵，v′_e代表规整情感特征向量。

接着，计算规整情感特征向量v′_e的针对第二特征空间模型90的各组元i的上述概率P′_i所占的权重w′_i。可选地，可以根据如下公式(7)计算上述权重w′_i，

{w_{i}}^{'} = \frac{{p_{i}}^{'}}{Σ_{i = 1}^{n} {p_{i}}^{'}} - - - (7)

接着，根据上述权重w′_i和第一特征空间模型(λ₁，μ₁，∑₁)80，计算在步骤125逆变换后的情感特征向量v_e。可选地，可以根据如下公式(8)计算上述情感特征向量v_e，

v_{e} = Σ_{i = 1}^{n} ({w_{i}}^{'} \cdot μ_{1 i}) - - - (8)

其中，μ_1i代表第一特征空间模型80中的各组元i的均值。

最后，在步骤130，利用上述第一特征空间中的情感特征向量ve合成出第一说话人的情感语音。

在本实施例中，将情感特征向量合成为目标情感语音的方法可以是本领域的技术人员公知的任何方法，例如上述非专利文献1和2中记载的合成方法，本发明对此没有任何限制。

通过本实施例的情感语音合成方法，可以利用与第一说话人不同的第二说话人的平行语音库合成出第一说话人的情感语音，从而在大型中立语音库和小型平行语音库不是来自相同的说话人情况下，能够有效改善韵律和频谱转换的性能。

情感语音合成装置

在同一发明构思下，图4是根据本发明的另一个实施例的情感语音合成装置的框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图4所示，本实施例的情感语音合成装置400包括：输入单元401，其输入文本句；预测单元410，其利用由第一说话人的中立语音库10训练获得的中立特征模型30，预测上述文本句在上述第一说话人的第一特征空间中的中立特征向量；变换单元415，其利用由上述中立语音库10和第二说话人的平行语音库20训练获得的说话人规整模型50，将上述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向量；转换单元420，其利用由上述平行语音库20训练获得的情感转换模型40，将上述规整中立特征向量转换为上述第二特征空间中的规整情感特征向量；逆变换单元425，其利用上述说话人规整模型50，将上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量；以及合成单元430，其利用上述第一特征空间中的情感特征向量合成出第一说话人的情感语音

在本实施例中，输入单元401输入的文本句可以是本领域的技术人员公知的任何文本的句子，也可以是各种语言的文本句，例如汉语、英语、日语等，本发明对此没有任何限制。

本实施例的情感语音合成装置400可选地具有提取单元405，其利用文本分析从输入单元401输入的文本句中提取语言学信息60。在本实施例中，语言学信息60包括上述文本句的句长，句中各字(词)的字形、拼音、音素类型、声调、词性、句中位置、与前后字(词)之间的边界类型以及与前后停顿之间的距离等等。此外，在本实施例中，提取单元405用于从输入的文本句中提取语言学信息60的文本分析方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。

在本实施例中，中立语音库10包括第一说话人的中立语音，即中立朗读的语音。中立语音库10可以是本领域的技术人员公知的任何语音库，例如上述非专利文献1和2中记载的中立语音库。此外，由中立语音库10训练中立特征模型30的方法也可以是本领域的技术人员公知的任何方法，例如上述非专利文献1和2中记载的训练方法。此外，训练得到的中立特征模型30也可以是本领域的技术人员公知的任何模型，例如上述非专利文献1和2中记载的中立特征模型。中立特征模型30中的特征向量可以包含韵律特征(例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。本发明只是在预测单元410中利用了中立特征模型30，而对于中立语音库10、中立特征模型30的训练方法以及中立特征模型30没有任何限制。

预测单元410，在没有利用提取单元405提取语言学信息60的情况下，利用中立特征模型30，预测由输入单元401输入的文本句在第一说话人的第一特征空间中的中立特征向量。在利用提取单元405提取出语言学信息60的情况下，则根据提取出的语言学信息60，利用中立特征模型30，预测上述中立特征向量。在本实施例中，预测单元410预测上述中立特征向量的方法可以是本领域的技术人员公知的任何方法，例如在上述非专利文献1和2中记载的预测方法。此外，预测出的中立特征向量可以包含韵律特征(例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。

变换单元415，利用由中立语音库10和第二说话人的平行语音库20训练获得的说话人规整模型50，将由预测单元410预测得到的中立特征向量变换为第二说话人的第二特征空间中的规整中立特征向量。在此，变换后的规整中立特征向量也可以包含韵律特征(例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。

在本实施例中，说话人规整模型50可以是如图2所示的包括分类规则70和统计量71-i和72-i的上述说话人规整模型50，也可以是如图3所示的包括第一特征空间模型80和第二特征空间模型90的上述说话人规整模型50。

在说话人规整模型50包括分类规则70和统计量71-i和72-i的情况下，变换单元415包括查找单元和计算单元。查找单元利用由提取单元405提取出的语言学信息60，查找由预测单元410预测得到的中立特征向量对应的类x。计算单元根据上述公式(1)计算规整中立特征向量。

在说话人规整模型50包括第一特征空间模型80和第二特征空间模型90的情况下，变换单元415包括概率计算单元、权重计算单元和特征向量计算单元。概率计算单元计算由预测单元410预测得到的中立特征向量针对第一特征空间模型(λ₁，μ₁，∑₁)80的各组元i的概率P_i。可选地，可以根据上述公式(2)计算上述概率P_i。

权重计算单元计算上述中立特征向量的针对第一特征空间模型(λ₁，μ₁，∑₁)80的各组元i的上述概率P_i所占的权重w_i。可选地，可以根据上述公式(3)计算上述权重w_i。

特征向量计算单元根据上述权重计算单元计算出的权重w_i和第二特征空间模型(λ₂，μ₂，∑₂)90，计算变换后的规整中立特征向量v′_n。可选地，可以根据上述公式(4)计算上述规整中立特征向量v′_n。

在变换单元415利用说话人规整模型50，将由预测单元410预测得到的中立特征向量v_n变换为第二说话人的第二特征空间中的规整中立特征向量v′_n之后，转换单元420利用由平行语音库20训练获得的情感转换模型40，将规整中立特征向量v′_n转换为上述第二特征空间中的规整情感特征向量v′_e。在此，转换后的规整情感特征向量v′_e可以包含韵律特征(例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。

此外，在本实施例中，如果情感转换模型40的训练利用了基于CART的方法，则需要利用提取单元405从输入的文本句中提取出语言学信息60，以便转换单元420根据语言学信息60，利用情感转换模型40，将规整中立特征向量v′_n转换为规整情感特征向量v′_e。

逆变换单元425利用说话人规整模型50，将规整情感特征向量v′_e逆变换为上述第一特征空间中的情感特征向量v_e。在此，逆变换后的情感特征向量v_e可以包含韵律特征(例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。

可选地，在说话人规整模型50包括如图2所示的分类规则70和统计量71-i和72-i的情况下，根据上述公式(5)将规整情感特征向量v′_e逆变换为情感特征向量v_e。

此外，可选地，在说话人规整模型50包括如图3所示的第一特征空间模型80和第二特征空间模型90的情况下，逆变换单元425包括概率计算单元、权重计算单元和特征向量计算单元。概率计算单元计算规整情感特征向量v′_e针对第二特征空间模型(λ₂，μ₂，∑₂)90的各组元的概率P′_i。可选地，概率计算单元可以根据上述公式(6)计算上述概率P′_i。

权重计算单元计算规整情感特征向量v′_e的针对第二特征空间模型90的各组元i的上述概率P′_i所占的权重w′_i。可选地，权重计算单元可以根据上述公式(7)计算上述权重w′_i。

特征向量计算单元根据上述权重计算单元计算出的权重w′_i和第一特征空间模型(λ₁，μ₁，∑₁)80，计算逆变换后的情感特征向量v_e。可选地，特征向量计算单元可以根据上述公式(8)计算上述情感特征向量v_e。

最后，合成单元430，利用上述第一特征空间中的情感特征向量v_e合成出第一说话人的情感语音。

通过本实施例的情感语音合成装置400，可以利用与第一说话人不同的第二说话人的平行语音库合成出第一说话人的情感语音，从而在大型中立语音库和小型平行语音库不是来自相同的说话人情况下，能够有效改善韵律和频谱转换的性能。

以上虽然通过一些示例性的实施例对本发明的情感语音合成方法和情感语音合成装置进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。

也就是说，本发明的思想在于利用说话人规整模型，在只有另一个说话人的附加平行语音库的情况下，可以不依赖于说话人地进行韵律和频谱转换，从而有效地改善转换的性能。上述说话人规整模型易于与各种现有的韵律和频谱转换方法结合而不限于在上述实施例中描述的方法。本发明的应用目的也可以不限于情感表达，而是可以更广泛地用于丰富TTS(Text-to-Speech，文本语音转换，或称为语音合成)中的多种表达类型，例如友好说话方式、对话中的语义焦点等。本发明既适用于单元拼接的TTS***也适用于参数合成的TTS***。

Claims

1.一种情感语音合成方法，包括以下步骤：

输入文本句；

利用由第一说话人的中立语音库训练获得的中立特征模型，预测上述文本句在上述第一说话人的第一特征空间中的中立特征向量；

利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规整模型，将上述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向量；

利用由上述平行语音库训练获得的情感转换模型，将上述规整中立特征向量转换为上述第二特征空间中的规整情感特征向量；

利用上述说话人规整模型，将上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量；以及

利用上述第一特征空间中的情感特征向量合成出第一说话人的情感语音。

2.根据权利要求1所述的情感语音合成方法，还包括以下步骤：

在上述利用由第一说话人的中立语音库训练获得的中立特征模型，预测上述文本句在上述第一说话人的第一特征空间中的中立特征向量的步骤之前，从上述文本句中提取语言学信息。

3.根据权利要求2所述的情感语音合成方法，其中，上述利用由第一说话人的中立语音库训练获得的中立特征模型，预测上述文本句在上述第一说话人的第一特征空间中的中立特征向量的步骤包括以下步骤：

根据上述语言学信息，利用上述中立特征模型，预测上述中立特征向量。

4.根据权利要求2所述的情感语音合成方法，其中，上述利用由上述平行语音库训练获得的情感转换模型，将上述规整中立特征向量转换为上述第二特征空间中的规整情感特征向量的步骤包括以下步骤：

根据上述语言学信息，利用上述情感转换模型，将上述规整中立特征向量转换为上述规整情感特征向量。

5.根据权利要求1所述的情感语音合成方法，其中，上述说话人规整模型包括分类规则、从上述中立语音库的根据上述分类规则划分的每一类中提取的特征向量的均值和协方差矩阵、和从上述平行语音库的根据上述分类规则划分的每一类中提取的特征向量的均值和协方差矩阵。

6.根据权利要求5所述的情感语音合成方法，其中，上述分类规则包括针对时长和频谱特征的音素类型分类规则、针对基频轨迹的声调类型分类规则和针对能量的句中位置分类规则中的至少一种。

7.根据权利要求5所述的情感语音合成方法，其中，上述利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规整模型，将上述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向量的步骤包括以下步骤：

根据如下公式将上述中立特征向量变换为上述规整中立特征向量，

{v_{n}}^{'} = (v_{n} - μ_{1 x}) Σ_{1 x}^{- 1 / 2} Σ_{2 x}^{1 / 2} + μ_{2 x}

其中，v′_n代表上述规整中立特征向量，v_n代表上述中立特征向量，μ_1x代表从上述中立语音库的与上述中立特征向量对应的第x类中提取的均值，∑_1x代表从上述中立语音库的与上述中立特征向量对应的第x类中提取的协方差矩阵，μ_2x代表从上述平行语音库的与上述中立特征向量对应的第x类中提取的均值，以及∑_2x代表从上述平行语音库的与上述中立特征向量对应的第x类中提取的协方差矩阵。

8.根据权利要求5所述的情感语音合成方法，其中，上述利用上述说话人规整模型，将上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量的步骤包括以下步骤：

根据如下公式将上述规整情感特征向量逆变换为上述情感特征向量，

v_{e} = ({v_{e}}^{'} - μ_{2 x}) Σ_{2 x}^{- 1 / 2} Σ_{1 x}^{1 / 2} + μ_{1 x}

其中，v_e代表上述情感特征向量，v′_e代表上述规整情感特征向量，μ_1x代表从上述中立语音库的与上述中立特征向量对应的第x类中提取的均值，∑_1x代表从上述中立语音库的与上述中立特征向量对应的第x类中提取的协方差矩阵，μ_2x代表从上述平行语音库的与上述中立特征向量对应的第x类中提取的均值，以及∑_2x代表从上述平行语音库的与上述中立特征向量对应的第x类中提取的协方差矩阵。

9.一种情感语音合成装置，包括：

输入单元，其输入文本句；

预测单元，其利用由第一说话人的中立语音库训练获得的中立特征模型，预测上述文本句在上述第一说话人的第一特征空间中的中立特征向量；

变换单元，其利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规整模型，将上述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向量；

转换单元，其利用由上述平行语音库训练获得的情感转换模型，将上述规整中立特征向量转换为上述第二特征空间中的规整情感特征向量；

逆变换单元，其利用上述说话人规整模型，将上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量；以及

合成单元，其利用上述第一特征空间中的情感特征向量合成出第一说话人的情感语音。