CN105280177A

CN105280177A - 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法

Info

Publication number: CN105280177A
Application number: CN201510404746.3A
Authority: CN
Inventors: 桥健太郎; 田村正统; 大谷大和
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-07-14
Filing date: 2015-07-10
Publication date: 2016-01-27
Also published as: US20160012035A1; US10347237B2; JP2016020972A; JP6392012B2

Abstract

本发明描述了语音合成字典创建装置、语音合成器、以及语音合成字典创建方法。根据实施例，语音合成字典创建装置包括表创建器、估计器、和字典创建器。表创建器被配置为基于采用相应的第一和第二语言的特定说话人的语音合成字典的节点分布之间的相似性来创建表。估计器被配置为基于采用第一语言的目标说话人的语音和所记录的文本、以及采用第一语言的特定说话人的语音合成字典来估计用于将采用第一语言的特定说话人的语音合成字典变换为采用第一语言的目标说话人的语音合成字典的矩阵。字典创建器被配置为基于表、矩阵、以及采用第二语言的特定说话人的语音合成字典来创建采用第二语言的目标说话人的语音合成字典。

Description

语音合成字典创建装置、语音合成器、以及语音合成字典创建方法

相关申请的交叉引用

本申请基于并要求于2014年7月14日提交的日本专利申请No.2014-144378的优先权的权益，通过引用将该日本专利申请的全部内容并入本文中。

技术领域

本文所描述的实施例总体上涉及语音合成字典创建装置、语音合成器、以及语音合成字典创建方法。

背景技术

用于将某一文本转换成合成波形的语音合成技术是已知的。为了通过使用语音合成技术来重现某一用户的声音的质量，需要根据用户的所记录的语音来创建语音合成字典。近年来，已经越来越多地开展对基于隐马尔可夫模型(HMM)的语音合成技术的研究与开发，并且该技术的质量也被提高。此外，已经对用于根据采用第一语言的某一说话人的语音来创建采用第二语言的某一说话人的语音合成字典的技术进行了研究。因此，典型的技术为跨语言说话人自适应。

然而，在相关技术领域中，需要为执行跨语言说话人自适应提供大量的数据。此外，不利的是，需要高质量的双语数据来提高合成语音的质量。

发明内容

实施例的目的在于：提供能够抑制所需语音数据、并且根据采用第一语言的目标说话人语音来容易地创建采用第二语言的目标说话人的语音合成字典的语音合成字典创建装置。

根据实施例，语音合成字典创建装置包括映射表创建器、估计器、以及字典创建器。映射表创建器被配置为基于采用第一语言的特定说话人的语音合成字典的节点分布与采用第二语言的特定说话人的语音合成字典的节点分布之间的相似性来创建映射表，在所述映射表中，采用第一语言的特定说话人的语音合成字典的节点分布与采用第二语言的特定说话人的语音合成字典的节点分布相关联。估计器被配置基于采用第一语言的目标说话人的语音和所记录的文本以及采用第一语言的特定说话人的语音合成字典来估计变换矩阵，以将采用第一语言的特定说话人的语音合成字典变换为采用第一语言的目标说话人的语音合成字典。字典创建器被配置为基于映射表、变换矩阵、以及采用第二语言的特定说话人的语音合成字典来创建采用第二语言的目标说话人的语音合成字典。

根据上述语音合成字典创建装置，可能抑制所需语音数据并且容易地根据采用第一语言的目标说话人语音来创建采用第二语言的目标说话人的语音合成字典。

附图说明

图1是示出根据第一实施例的语音合成字典创建装置的构造的框图；

图2是示出由语音合成字典创建装置执行的处理的流程图；

图3A和图3B是示出相互比较的使用语音合成字典的语音合成的操作和比较示例的操作的概念图；

图4是示出根据第二实施例的语音合成字典创建装置的构造的框图；

图5是示出根据实施例的语音合成器的构造的框图；以及

图6是示出根据实施例的语音合成字典创建装置的硬件构造的示图。

具体实施方式

首先，将对带来本发明的背景进行描述。上述HMM是源-滤波器语音合成***。该语音合成***接收声源信号(激励源)作为输入，声源信号由脉冲声源或噪声源等产生，其中脉冲声源表示由声带振动产生的声源分量，并且噪声源表示由空气湍流产生的声源，并且该语音合成***使用表示声道特性等的频谱包络的参数来执行过滤以产生语音波形。

使用频谱包络的参数的滤波器的示例包括全极点滤波器、用于PARCOR系数的网格滤波器、LSP合成滤波器、对数振幅近似滤波器、梅尔全极点滤波器、梅尔对数频谱近似滤波器、以及梅尔广义对数频谱近似滤波器。

此外，基于HMM的语音合成技术的一个特性是能够多方面地改变所产生的合成声音。根据基于HMM的语音合成技术，还可以容易地改变例如除了音高(基频；F₀)和语音速率之外的声音的质量和声音的音调。

此外，基于HMM的语音合成技术能够通过使用说话人自适应技术来甚至从少量的语音产生听起来与某一说话人相似的合成语音。说话人自适应技术是用于执行以使某一语音合成字典被自适应为更接近某一说话人，从而产生再现某一说话人的说话人个人特征的语音合成字典的技术。

要按需要进行自适应的语音合成字典包含尽可能少的个体说话人***均声音”。

针对诸如F₀、带非周期性、以及频谱等的特征，语音合成字典构成了基于决策树的状态聚类。频谱将语音的频谱信息表达为参数。带非周期性是表示在每一帧的频谱中的预定频率带中的噪声分量的强度与带的整个频谱之比的信息。另外，决策树的每个叶节点保持高斯分布。

为了执行语音合成，首先根据通过转换输入文本而获得的语境信息通过跟随决策树来创建分布序列，并且根据由此产生的分布序列来产生语音参数序列。然后由已产生的参数序列(带非周期性、F₀、频谱)来产生语音波形。

此外，多语言化的技术开发作为语音合成的多样性的其中之一也正在进行中。其典型的技术是上面提到的跨语言说话人自适应技术，其是在保持其说话人个人特征的同时将单语说话人的语音合成字典转换成特定语言的语音字典的技术。例如，在双语说话人的语音合成字典中，表用于将输入文本的语言映射到输出语言中的最接近的节点。当输出语言的文本为输入时，从输出语言侧开始跟随节点，并且使用输入语言侧中的节点的分布来执行语音合成。

接下来，将对根据第一实施例的语音合成字典创建装置进行描述。图1是示出根据第一实施例的语音合成字典创建装置10的构造的框图。如图1中所示，语音合成字典创建装置10包括例如第一储存器101、第一适配器102、第二储存器103、映射表创建器104、第四储存器105、第二适配器106、第三储存器107、估计器108、字典创建器109、以及第五储存器110，并且语音合成字典创建装置10根据采用第一语言的目标说话人语音来创建采用第二语言的目标说话人的语音合成字典。例如，在本实施例中，目标说话人指的是能够说第一语言而不能说第二语言的说话人(例如，单语说话人)，而特定说话人指的是说第一语言和第二语言的说话人(例如，双语说话人)。

例如，第一储存器101、第二储存器103、第三储存器107、第四储存器105、以及第五储存器110由单个或多个硬盘驱动器(HDD)等构成。第一适配器102、映射表创建器104、第二适配器106、估计器108、以及字典创建器109可以是硬件电路或由CPU执行的软件，CPU并未被示出。

第一储存器101对采用第一语言的平均声音的语音合成字典进行存储。第一适配器102通过使用输入语音(例如，采用第一语言的双语说话人语音)和存储在第一储存器101中的采用第一语言的平均声音的语音合成字典来执行说话人自适应，以产生采用第一语言的双语说话人(特定说话人)的语音合成字典。第二储存器103对作为由第一适配器102执行的说话人自适应的结果而产生的采用第一语言的双语说话人(特定说话人)的语音合成字典进行存储。

第三储存器107对采用第二语言的平均声音的语音合成字典进行存储。第二适配器106通过使用输入语音(例如，采用第二语言的双语说话人语音)和由第三储存器107存储的采用第二语言的平均声音的语音合成字典来执行说话人自适应，以产生采用第二语言的双语说话人(特定说话人)的语音合成字典。第四储存器105对作为由第二适配器106执行的说话人自适应的结果而产生的采用第二语言的双语说话人(特定说话人)的语音合成字典进行存储。

映射表创建器104通过使用存储在第二储存器103中的采用第一语言的双语说话人(特定说话人)的语音合成字典和存储在第四储存器105中的采用第二语言的双语说话人(特定说话人)的语音合成字典来创建映射表。更具体地，映射表创建器104基于采用第一语言与采用第二语言的特定说话人的相应语音合成字典的节点之间的相似性来创建将采用第二语言的特定说话人的语音合成字典的节点分布与采用第一语言的特定说话人的语音合成字典的节点分布相关联的映射表。

估计器108基于存储在第二储存器103中的采用第一语言的双语说话人的语音合成字典，使用作为输入的采用第一语言的目标说话人的语音及其所记录的文本来从语音和文本中提取声学特征和语境，并且对用于把要进行说话人自适应的采用第一语言的特定说话人的语音合成字典变换为采用第一语言的目标说话人的语音合成字典的变换矩阵进行估计。

字典创建器109通过使用由估计器108估计的变换矩阵、由映射表创建器104创建的映射表、以及存储在第四储存器105中的采用第二语言的双语说话人的语音合成字典来创建采用第二语言的目标说话人的语音合成字典。字典创建器109可以被配置为使用存储在第二储存器103中的采用第一语言的双语说话人的语音合成字典。

第五储存器110对由字典创建器109创建的采用第二语言的目标说话人的语音合成字典进行存储。

接下来，将对包括在语音合成字典创建装置中的相应部件的详细操作进行描述。存储在第一储存器101和第三储存器107中的采用相应语言的平均声音的语音合成字典是适于说话人自适应的语音合成字典并且是通过使用说话人自适应训练而从多个说话人的语音数据产生的。

第一适配器102从采用第一语言的输入语音数据(采用第一语言的双语说话人语音)提取声学特征和语境。第二适配器106从采用第二语言的输入语音数据(采用第二语言的双语说话人语音)提取声学特征和语境。

注意，输入至第一适配器102和第二适配器106的语音的说话人是同一双语说话人，其说第一语言和第二语言。声学特征的示例包括F₀、频谱、音素持续时间、和带非周期性序列。频谱将语音的频谱信息表达为如上所述的参数。语境表示以音素为单位的语言属性信息。音素的单位可以是单音素、三音素、和五音素。属性信息的示例包括{先前的，当前的，随后的}音素、在一个词中的当前音素的音节位置、语音的{先前的，当前的，随后的}部分、在{先前的，当前的，随后的}的词中的音节数量、来自重读音节的音节数量、句子中的词的位置、存在或不存在先前或随后的姿态、在{先前的，当前的，随后的}换气单位(breathgroup)中的音节数量、当前换气单位的位置、以及句子中的音节数量。在下文中，这些条属性信息将被称为语境。

随后，第一适配器102和第二适配器106基于最大似然线性回归(MLLR)和最大后验(MAP)根据已提取的声学特征和语境来执行说话人自适应训练。将把使用最频繁的MLLR作为示例进行描述。

MLLR是用于通过将线性变换应用于高斯分布或协方差矩阵的平均向量来进行自适应的方法。在MLLR中，线性参数是由根据最大似然准则的EM算法导出的。EM算法的Q函数被表达为下面的等式(1)。

\begin{matrix} Q (M, \hat{M}) = \\ K - \frac{1}{2} Σ_{m = 1}^{M} Σ_{τ = 1}^{T} γ_{m} [k^{(m)} + l o g (| {\hat{Σ}}^{(m)} |) + {(O (τ) - {\hat{μ}}^{(m)})}^{T} {\hat{Σ}}^{(m) - 1} (O (τ) - {\hat{μ}}^{(m)})] \end{matrix} - - - (1)

和表示通过将变换矩阵应用于分量m而得到的平均值和方差。

在表达式中，上标(m)表示模型参数的分量。M表示与变换有关的模型参数的总数。K表示与转移概率有关的常数。k^(m)表示与高斯分布的分量m有关的归一化常数。此外，在下面的等式(2)中，q_m(τ)表示高斯分布在时刻τ的分量。O_T表示观测向量。

γ_m(τ)＝p(q_m(τ)|M,O_T)(2)

线性变换在下文中被表达为等式(3)到等式(5)。此处，μ表示平均向量，A表示矩阵，b表示向量，并且W表示变换矩阵。估计器108对变换矩阵W进行估计。

\hat{μ} = A μ + b = W ξ - - - (3)

ζ表示平均向量

ξ＝[1μ^T]^T(4)

W＝[b^TA^T](5)

由于使用协方差矩阵的说话人自适应的效果小于使用平均向量的效果，因此通常执行使用协方差矩阵的说话人自适应。平均的变换由下面的等式(6)来表达。注意，kron()表示由()所包围的表达式的克罗内克积，并且vec()表示变换成具有被布置成行单元的矩阵的向量。

v e c (z) = (Σ_{m = 1}^{M} k r o n (V^{(m)}, D^{(m)})) v e c (w) - - - (6)

另外，V^(m)、Z和D分别由下面的等式(7)到等式(9)来表达。

V^{(m)} = Σ_{τ = 1}^{T} γ_{m} (τ) Σ^{(m) - 1} - - - (7)

Z = Σ_{m = 1}^{M} Σ_{τ = 1}^{T} γ_{m} (τ) Σ^{(m) - 1} o (τ) ξ^{(m) T} - - - (8)

D^(m)＝ζ^(m)ξ^(m)τ(9)

W_i的逆矩阵由下面的等式(10)和等式(11)来表示。

{\hat{W}}_{i}^{T} = G^{(i) - 1} z_{i}^{T} - - - (10)

G^{(i)} = Σ_{m = 1}^{M} \frac{1}{σ_{i}^{(m) 2}} ξ^{(m)} ξ^{(m) T} Σ_{τ = 1}^{T} γ_{m} (τ) - - - (11)

此外，等式(1)关于w_ij进行偏微分产生下面的等式(12)。因此，w_ij由下面的等式(13)来表达。

\frac{\partial Q (M, \hat{M})}{\partial w_{i j}} = Σ_{m = 1}^{M} Σ_{τ = 1}^{T} γ_{m} (τ) \frac{1}{σ_{i}^{(m) 2}} (o_{i} (τ) - w_{i} ξ^{(m)}) ξ^{(m) τ} - - - (12)

w_{i j} = \frac{z_{i j} - Σ_{k &NotEqual; j} w_{i k} g_{i k}^{(i)}}{g_{i j}^{(i)}} - - - (13)

第二储存器103对由第一适配器102产生的采用第一语言的说话人自适应语音合成字典进行存储。第四储存器105对由第二适配器106产生的采用第二语言的说话人自适应语音合成字典进行存储。

映射表创建器104对采用第一语言的说话人自适应语音合成字典与采用第二语言的说话人自适应语音合成字典的子节点的分布之间的相似性进行测量，并且将被确定为最接近的分布之间的关联转换成映射表(转换为表)。要注意，使用例如库尔贝克-莱布勒散度(KLD)、密度比、或L2范数来测量相似性。映射表创建器104例如使用由下面的表达式(14)到(16)所表达的KLD。

D_{K L} (Ω_{j}^{g}, Ω_{k}^{s}) < < \frac{D_{K L} (G_{k}^{s} | | G_{j}^{g})}{1 - a_{k}^{s}} + \frac{D_{K L} (G_{j}^{g} | | G_{k}^{s})}{1 - a_{j}^{g}} + \frac{(a_{k}^{s} - a_{j}^{g}) \log (a_{k}^{s} / a_{j}^{g})}{(1 - a_{k}^{s}) (1 - a_{j}^{g})} - - - (14)

高斯分布

在指数k下的源语言的状态

在指数j下的目标语言的状态

D_{K L} (G_{k}^{s} | | G_{j}^{g}) = \frac{1}{2} \ln (\frac{| Σ_{j}^{g} |}{| Σ_{k}^{s} |}) - \frac{D}{2} + \frac{1}{2} t r (Σ_{j}^{g - 1} Σ_{k}^{s}) + \frac{1}{2} (μ_{j}^{g} - μ_{k}^{s}) Σ_{j}^{q - 1} μ_{j}^{s} - μ_{k}^{s} - - - (15)

在指数k下的源语言的平均值

在指数k下的源语言的子节点的方差

D_{L} (Ω_{j}^{g}, Ω_{k}^{s}) \approx D_{K L} (G_{k}^{s} | | G_{j}^{g}) + D_{K L} (G_{k}^{s} | | G_{j}^{g}) - - - (16)

要注意，k表示子节点的指数，s表示源语言，并且t表示目标语言。此外，通过语境聚类对语音合成字典创建装置10处的语音合成字典的决策树进行训练。因此，期望的是通过从音素的语境中选择第一语言的每个子节点中的最具代表性的音素、并且通过使用国际音标(IPA)从具有与其相同的代表性音素或具有采用第二语言的相同类型的代表性音素的唯一分布中选择分布，来进一步减小由映射引起的失真。此处所提及的相同类型指的是音素类型相一致，例如元音/辅音、浊音/清音、以及***音/鼻音/颤音。

估计器108基于采用第一语言的目标说话人的语音和所记录的文本来估计用于从双语说话人(特定说话人)到采用第一语言的目标说话人的说话人自适应的变换矩阵。诸如MLLR、MAP、或受约束的MLLR(CMLLR)等的算法用于说话人自适应。

字典创建器109通过使用指示第二语言的说话人自适应字典的状态的映射表、并且将由估计器108所估计的变换矩阵应用到第二语言的双语说话人自适应字典来创建采用第二语言的目标说话人的语音合成字典，如下面的等式(17)所表达的，在所述映射表中，KLD最小。

f (j) = \arg_{k} {minD}_{K L} (Ω_{j}^{g}, Ω_{k}^{s}) - - - (17)

要注意，变换矩阵w_ij由上述等式(13)来计算，但是因此需要等式(13)右侧的参数。这些取决于高斯分量μ和σ。当字典创建器109通过使用映射表来执行变换时，应用到第二语言的叶节点的变换矩阵可能在很大程度上发生变化，这可能导致语音质量下降。因此，字典创建器109可以被配置为通过使用要进行自适应的叶节点G和Z来重新产生用于较高级节点的变换矩阵。

图2是示出由语音字典创建装置10执行的处理的流程图。如图2中所示，在语音合成字典创建装置10中，第一适配器102和第二适配器106首先产生分别适于采用第一语言和第二语言的双语说话人的语音合成字典(步骤S101)。

随后，映射表创建器104通过使用分别由第一适配器102和第二适配器106产生的双语说话人的语音合成字典(说话人自适应字典)来在第二语言的叶节点处对第一语言的说话人自适应字典执行映射(步骤S102)。

估计器108从采用第一语言的目标说话人的语音数据和所记录的文本中提取语境和声学特征，并且基于由第二储存器103存储的采用第一语言的双语说话人的语音合成字典来对用于对采用第一语言的目标说话人的语音合成字典进行说话人自适应的变换矩阵进行估计(步骤S103)。

然后，字典创建器109通过将针对第一语言所估计的变换矩阵和映射表应用于采用第二语言的双语说话人自适应字典的叶节点来创建采用第二语言的目标语言的语音合成字典(字典创建)(步骤S104)。

随后，将与比较示例进行对比来描述使用语音合成字典创建装置10的语音合成的操作。图3A和3B是示出互相比较的使用语音合成字典创建装置10的语音合成的操作和比较示例的操作的概念图。图3A示出了比较示例的操作。图3B示出了使用语音合成字典创建装置10的操作。在图3A和3B中，S1表示双语说话人(多语说话人：特定说话人)，S2表示单语说话人(目标说话人)，L1表示本机语言(第一语言)，并且L2表示目标语言(第二语言)。在图3A和3B中，决策树的结构相同。

如图3A中所示，在比较示例中，示出了S1L2的决策树502和S1L1的决策树501的状态的映射表。此外，在比较示例中，需要完整地包含单语说话人的相同语境的所记录的文本和语音。另外，在比较示例中，通过跟随双语说话人的第二语言的决策树504的节点、并且使用目的处的分布来产生合成音，同一双语说话人的第一语言的决策树503的节点映射到决策树504的节点。

如图3B中所示，语音合成字典创建装置10通过使用通过对采用第一语言的平均声音的语音合成字典的决策树61执行多语言说话人的说话人自适应所获得的语音合成字典的决策树601、以及通过对采用第二语言的平均声音的语音合成字典的决策树62执行多语言说话人的说话人自适应所获得的语音合成字典的决策树602来产生状态的映射表。由于使用了说话人自适应，语音合成字典创建装置10可以根据任何所记录的文本产生语音合成字典。此外，语音合成字典创建装置10通过在映射表中反射用于S2L1的决策树603的变换矩阵W来创建采用第二语言的语音合成字典的决策树604，并且根据所变换的语音合成字典来产生合成的语音。

以这种方式，由于语音合成字典创建装置10基于映射表、变换矩阵、以及采用第二语言的特定说话人的语音合成字典来创建采用第二语言的目标说话人的语音合成字典，所以语音合成字典创建装置10可以抑制所需的语音数据，并且容易根据采用第一语言的目标说话人语音来创建采用第二语言的目标说话人的语音合成字典。

接下来，将描述根据第二实施例的语音合成字典创建装置。图4是示出根据第二实施例的语音合成字典创建装置20的构造的框图。如图4中所示，语音合成字典创建装置20包括例如第一储存器201、第一适配器202、第二储存器203、说话人选择器204、映射表创建器104、第四储存器105、第二适配器206、第三储存器205、估计器108、字典创建器109、以及第五储存器110。要注意，由相同的附图标记来指定在图4中所示的语音合成字典创建装置20的与在语音合成字典创建装置10(图1)中所示的部件大体上相同的部件。

例如，第一储存器201、第二储存器203、第三储存器205、第四储存器105、以及第五储存器110由单个或多个硬盘驱动器(HDD)等构成。第一适配器202、说话人选择器204、以及第二适配器206可以是硬件电路或由CPU执行的软件，CPU并未被示出。

第一储存器201对采用第一语言的平均声音的语音合成字典进行存储。第一适配器202通过使用多个输入语音(采用第一语言的双语说话人语音)和由第一储存器201存储的采用第一语言的平均声音的语音合成字典来执行说话人自适应，以产生采用第一语言的多个双语说话人的语音合成字典。第一储存器201可以被配置为对采用第一语言的多个双语说话人语音进行存储。

第二储存器203对采用第一语言的双语说话人的语音合成字典进行存储，每个双语说话人的语音合成字典都是通过由第一适配器202执行说话人自适应而产生的。

说话人选择器204使用输入于其中的采用第一语言的目标说话人的语音和所记录的文本来选择采用第一语言的双语说话人的语音合字典，其与从由第二储存器203存储的多个语音合成字典中选择的目标说话人的声音质量最相似。因此，说话人选择器204选择双语说话人的其中之一。

例如，第三储存器205存储采用第二语言的平均声音的语音合成字典和采用第二语言的多个双语说话人语音。第三储存器205还响应于第二适配器206的接入而输出由说话人选择器204所选择的双语说话人的采用第二语言的双语说话人语音和采用第二语言的平均声音的语音合成字典。

第二适配器206通过使用从第三储存器205输入的采用第二语言的双语说话人语音和采用第二语言的平均声音的语音合成字典来执行说话人自适应，以产生由说话人选择器204选择的双语说话人的采用第二语言的语音合成字典。第四储存器105对通过由第二适配器206执行说话人自适应而产生的采用第二语言的双语说话人(特定说话人)的语音合成字典进行存储。

映射表创建器104基于由说话人选择器204选择的双语说话人(特定说话人)的采用第一语言的语音合成字典与由第四储存器105存储的双语说话人(同一特定说话人)的采用第二语言的语音合成字典的节点的分布之间的相似性来通过使用两个语音合成字典来创建映射表。

估计器108基于由第二储存器203存储的采用第一语言的双语说话人的语音合成字典，使用输入于其中的采用第一语言的目标说话人的语音和所记录的文本来从语音和文本中提取声学特征和语境，并且对用于采用第一语言的目标说话人的语音合成字典的说话人自适应的变换矩阵进行估计。要注意，第二储存器203可以被配置为将由说话人选择器204选择的双语说话人的语音合成字典至输出估计器108。

替代地，在语音合成字典创建装置20中，只要语音合成字典创建装置20被配置为通过使用由说话人选择器204选择的双语说话人的采用第二语言的双语说话人语音和采用第二语言的平均声音的语音合成字典来执行说话人自适应，则第二适配器206和第三储存器205可以具有与图4中所示出的构造不同的构造。

在图1中所示的语音合成字典创建装置10中，由于针对从适于双语说话人的语音合成字典到目标说话人语音的自适应执行了根据某一特定说话人的变换，因而根据平均声音的语音合成字典的变换的量可能很大，这可能增大失真。相比之下，在图4所示的语音合成字典创建装置20中，由于预先存储了适于一些类型的双语说话人的语音合成字典，所以可以通过从目标说话人中适当地选择语音合成字典来抑制失真。

说话人选择器204选择适当的语音合成字典所依据的标准的示例包括：由来自通过使用语音合成字典所得到的多个文本的合成所获得的合成语音的基频(F₀)的均方根误差(RMSE)、梅尔倒谱的对数谱距离(LSD)、音素持续时间的RMSE、以及叶节点分布的KLD。说话人选择器204基于这些标准中的至少任何一个、或声音的声调、语音的速度、音素持续时间、以及频谱来选择具有最小变换失真的语音合成字典。

接下来，将描述创建语音合成字典并且根据目标语言的文本对采用目标语言的目标说话人的语音进行合成的语音合成器30。图5是示出根据实施例的语音合成器30的构造的框图。如图5中所示，语音合成器30包括图1中所示的语音合成字典创建装置10、分析器301、参数发生器302、以及波形发生器303。语音合成器30可以具有包括语音合成字典创建装置20而不是语音合成字典创建装置10的构造。

分析器301对输入文本进行分析并且请求语境信息。然后分析器301向参数发生器302输出语境信息。

参数发生器302根据基于输入语境信息的特征来跟随决策树、从节点请求分布、并且产生分布序列。然后参数发生器302根据已产生的分布序列来产生参数。

波形发生器303根据由参数发生器302产生的参数来产生语音波形，并且输出语音波形。例如，波形发生器303通过使用F₀和带非周期性的参数序列来产生激励源信号，并且根据已产生的信号和频谱参数序列来产生语音。

接下来，将参考图6来描述语音合成字典创建装置10、语音合成字典创建装置20、和语音合成器30的硬件构造。图6是示出语音合成字典创建装置10的硬件构造的示图。语音合成字典创建装置20和语音合成器30也被配置为类似于语音合成字典创建装置10.

语音合成字典创建装置10包括控制装置，例如中央处理单元(CPU)400、诸如只读存储器(ROM)401和随机存取存储器(RAM)402等的存储装置、连接至网络以进行通信的通信接口(I/F)403、以及连接部件的总线404。

要由语音合成字典创建装置10执行的程序(例如语音合成字典创建程序)提前嵌入在ROM401等中并且从ROM401等被提供。

可以采用能够被安装或执行并且能够被提供作为计算机程序产品的文件的形式将要由语音合成字典创建装置10执行的程序记录在诸如光盘只读存储器(CD-ROM)、可刻录光盘(CD-R)、或数字多功能盘(DVD)等的计算机可读记录介质上。

此外，要由语音合成字典创建装置10执行的程序可以存储在连接至诸如因特网等的网络的计算机上，并且通过允许经由网络下载程序来提供。替代地，要由语音合成字典创建装置10执行的程序可以经由诸如因特网等的网络来提供或分布。

根据上述至少一个实施例的语音合成字典创建装置，语音合成字典创建装置包括映射表创建器、估计器、以及字典创建器。映射表创建器被配置为基于采用第一语言的特定说话人的语音合成字典的节点分布与采用第二语言的特定说话人的语音合成字典的节点分布之间的相似性来创建映射表，在映射表中，采用第一语言的特定说话人的语音合成字典的节点分布与采用第二语言的特定说话人的语音合成字典的节点分布相关联。估计器被配置为基于采用第一语言的目标说话人的语音和所记录的文本、以及采用第一语言的特定说话人的语音合成字典来对用于将采用第一语言的特定说话人的语音合成字典变换为采用第一语言的目标说话人的语音合成字典的变换矩阵进行估计。字典创建器被配置为基于映射表、变换矩阵、以及采用第二语言的特定说话人的语音合成字典来创建采用第二语言的目标说话人的语音合成字典。因此，可能抑制所需语音数据、并且容易根据采用第一语言的目标说话人语音来创建采用第二语言的目标说话人的语音合成字典。

尽管已经对某些实施例进行了描述，但是这些实施例仅是通过示例性的方式来呈现的，并且其并不是要限制本发明的范围。实际上，本文中所述的新颖实施例可以体现为各种其它形式；此外，可以在不脱离本发明的精神的情况下对本文中所述的实施例的形式做出各种省略、替换和改变。所附权利要求及其等同物旨在覆盖落入本发明的范围和精神内的这种形式或修改。

Claims

1.一种语音合成字典创建装置，包括：

映射表创建器，其被配置为基于采用第一语言的特定说话人的语音合成字典的节点分布与采用第二语言的所述特定说话人的语音合成字典的节点分布之间的相似性来创建映射表，在所述映射表中，采用所述第一语言的所述特定说话人的所述语音合成字典的所述节点分布与采用所述第二语言的所述特定说话人的所述语音合成字典的所述节点分布相关联；

估计器，其被配置为基于采用所述第一语言的目标说话人的语音和所记录的文本、以及采用所述第一语言的所述特定说话人的所述语音合成字典来估计变换矩阵，所述变换矩阵用于将采用所述第一语言的所述特定说话人的所述语音合成字典变换为采用所述第一语言的所述目标说话人的语音合成字典；以及

字典创建器，其被配置为基于所述映射表、所述变换矩阵、以及采用所述第二语言的所述特定说话人的所述语音合成字典来创建采用所述第二语言的所述目标说话人的语音合成字典。

2.根据权利要求1所述的装置，其中：

所述目标说话人是说所述第一语言但不能说所述第二语言的说话人，并且

所述特定说话人是说所述第一语言和所述第二语言的说话人。

3.根据权利要求1所述的装置，还包括：

第一适配器，其被配置为使采用所述第一语言的所述特定说话人的语音适应采用所述第一语言的平均声音的语音合成字典，以产生采用所述第一语言的所述特定说话人的所述语音合成字典；以及

第二适配器，其被配置为使采用所述第二语言的所述特定说话人的语音适应采用所述第二语言的平均声音的语音合成字典，以产生采用所述第二语言的所述特定说话人的所述语音合成字典，其中：

所述映射表创建器被配置为通过使用由所述第一适配器产生的所述语音合成字典和由所述第二适配器产生的所述语音合成字典来创建所述映射表。

4.根据权利要求1所述的装置，其中，所述映射表创建器被配置为通过使用库尔贝克-莱布勒散度来测量所述相似性。

5.根据权利要求1所述的装置，还包括说话人选择器，其被配置为基于采用所述第一语言的所述目标说话人的所述语音和所记录的文本来从采用所述第一语言的多个说话人的语音合成字典中选择采用所述第一语言的所述特定说话人的所述语音合成字典，其中：

所述映射表创建器被配置为通过使用由所述说话人选择器所选择的采用所述第一语言的所述特定说话人的所述语音合成字典以及采用所述第二语言的所述特定说话人的所述语音合成字典来创建所述映射表。

6.根据权利要求5所述的装置，其中，所述说话人选择器被配置为选择在声音的声调、语音的速度、音素持续时间、以及频谱中的至少任一方面听起来最像所述目标说话人的所述语音的所述特定说话人的所述语音合成字典。

7.根据权利要求1所述的装置，其中，所述估计器被配置为从采用所述第一语言的所述目标说话人的所述语音和所记录的文本中提取声学特征和语境，以对所述变换矩阵进行估计。

8.根据权利要求1所述的装置，其中，所述字典创建器被配置为通过将所述变换矩阵和所述映射表应用到采用所述第二语言的所述特定说话人的所述语音合成字典的叶节点来创建采用所述第二语言的所述目标说话人的所述语音合成字典。

9.一种语音合成器，包括：

根据权利要求1所述的语音合成字典创建装置；以及

波形发生器，其被配置为通过使用由所述语音合成字典创建装置创建的采用第二语言的目标说话人的语音合成字典来产生语音波形。

10.一种语音合成字典创建方法，包括：

基于采用第一语言的特定说话人的语音合成字典的节点分布与采用第二语言的所述特定说话人的语音合成字典的节点分布之间的相似性来创建映射表，在所述映射表中，采用所述第一语言的所述特定说话人的所述语音合成字典的所述节点分布与采用所述第二语言的所述特定说话人的所述语音合成字典的所述节点分布相关联；

基于采用所述第一语言的目标说话人的语音和所记录的文本、以及采用所述第一语言的所述特定说话人的所述语音合成字典来估计变换矩阵，所述变换矩阵用于将采用所述第一语言的所述特定说话人的所述语音合成字典变换为采用所述第一语言的所述目标说话人的语音合成字典；以及

基于所述映射表、所述变换矩阵、以及采用所述第二语言的所述特定说话人的所述语音合成字典来创建采用所述第二语言的所述目标说话人的语音合成字典。