CN103310784B

CN103310784B - 文本到语音的方法和***

Info

Publication number: CN103310784B
Application number: CN201310081220.7A
Authority: CN
Inventors: 赤岭政巳; L-M·哈维尔; W·V·P·梁; C·K·康; G·M·J·弗朗西斯; K·K·马里; C·B·哈
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-03-14
Filing date: 2013-03-14
Publication date: 2015-11-04
Anticipated expiration: 2033-03-14
Also published as: JP2015072490A; US20130262109A1; JP2016066088A; US9454963B2; JP6246777B2; GB201204502D0; GB2501062B; JP5659258B2; GB2501062A; CN103310784A; EP2639791B1; EP2639791A1; JP2013190792A; JP5847917B2

Abstract

一种文本到语音的方法，用于模拟多个不同的声音特性，包括：输入文本；将所输入的文本划分成声学单元序列；选择用于所输入的文本的声音特性；使用声学模型，将声学单元序列转换成语音向量序列，其中模型具有多个模型参数，其描述将声学单元与语音向量有关的概率分布；输出语音向量序列，作为具有所选择的声音特性的音频；其中，在所选择的声音特性中每个概率分布的预定类型的参数被表示为相同类型的参数的加权和，其中，所使用的权重是依赖声音特性的，以使得将声学单元序列转换成语音向量序列包括获取用于所选择的声音特性的声音特性依赖权重，其中，参数在聚类中提供，每个聚类包括至少一个子聚类，其中对于每个聚类，获取声音特性依赖权重，以使得每个子聚类有一个权重。

Description

文本到语音的方法和***

相关申请的交叉引用

本申请基于并要求2012年3月14日提交的申请号为No.1204502.7的英国专利申请的优先权，其整个内容在此作为参考被结合。

技术领域

在此一般描述的实施例涉及文本到语音的***和方法。

背景技术

文本到语音的***是其中响应于接收文本文件而输出音频语音或音频语音文件的***。

文本到语音的***被广泛用于各种应用，诸如电子游戏、电子书阅读器、电子邮件阅读器、卫星导航、自动电话***、自动报警***。

发明内容

为了解决持续需要使***听起来更像人类声音的问题，本实施例提供一种文本到语音的方法和***。

在一个实施例中，一种用于模拟多个不同的声音特性的文本到语音的方法，包括：

输入文本；

将所输入的文本划分成声学单元序列；

选择用于所输入的文本的声音特性；

使用声学模型，将所述声学单元序列转换成语音向量序列，其中，所述模型具有多个模性参数，其描述将声学单元与语音向量相关的概率分布；以及

输出所述语音向量序列，作为具有所选择的声音特性的音频；

其中，在所选择的声音特性中每个概率分布的预定类型的参数被表示为相同类型的参数的加权和，其中，所使用的权重是依赖声音特性的，以使得将所述声学单元序列转换成语音向量序列包括获取用于所选择的声音特性的声音特性依赖权重，其中所述参数在聚类（cluster）中提供，每个聚类包括至少一个子聚类，其中对于每个聚类，获取所述声音特性依赖权重，以使得每个子聚类有一个权重。

每个子聚类可包括至少一个决策树，所述决策树基于与语言差异、语音差异、韵律差异中的至少一个有关的问题。聚类的决策树之间的结构以及子聚类中的树之间的结构有差异。

概率分布可从高斯分布、泊松分布、伽马分布、学生t（Student-t）分布或拉普拉斯分布中选择。

在一个实施例中，多个声音特性从不同的说话者声音、不同的说话者风格、不同的说话者情绪或不同的口音的至少一个中选择。选择声音特性可包括提供输入以允许权重通过该输入选择。另外，选择声音特性可包括根据将要被输出的文本预测应当被使用的权重。在又一个实施例中，选择声音特性还可包括根据有关说话者的类型的外部信息预测应当被使用的权重。

该方法还可适配于新的声音特性。例如，选择声音特性可包括：接收包含声音的音频输入，并改变权重以模拟音频输入的声音的声音特性。

在另一个实施例中，选择声音特性包括从预先存储的多组权重中随机选择一组权重，其中，每组权重都包括用于所有子聚类的权重。

在另一个实施例中，选择声音特性包括接收包括多个值的输入，并将所述多个值映射到所述权重。例如，这种值可占用n维值空间，所述权重占用w维权重空间，其中n和w是整数，并且w大于n，以使得所述变换将输入值变换到更高维度空间。这些值可直接表示可识别的说话者特性，诸如高兴的声音、紧张的声音、愤怒的声音等。然后，值空间可被认为是“情绪空间”，其中，用户或者某些其它对文本的上下文的指示指明所输出的声音应当在情绪空间上的哪里，然后这被映射到权重空间，其通常具有比“情绪空间”更大的维度。

在另一个实施例中，提供了一种使文本到语音的***适配于在音频文件中包含的声音特性的方法，所述文本到语音的***包括：

处理器，其被配置为：

接收文本输入；

将所输入的文本划分成声学单元序列；

选择用于所输入的文本的声音特性；

使用声学模型，将所述声学单元序列转换成语音向量序列，其中所述模型具有多个模型参数，其描述将声学单元与语音向量相关的概率分布；以及

其中，在所选择的声音特性中每个概率分布的预定类型的参数被表示为相同类型的参数的加权和，其中，所使用的权重是依赖声音特性的，以使得将所述声学单元序列转换成语音向量序列包括获取用于所选择的声音特性的声音特性依赖权重，其中所述参数在聚类中提供，每个聚类包括至少一个子聚类，其中对于每个聚类，获取所述声音特性依赖权重，以使得每个子聚类有一个权重；

该方法包括：

接收新的输入音频文件；

计算应用于所述聚类的权重，以使所生成的语音与新的音频文件之间的相似性最大。

在另一个实施例中，使用来自新的音频文件的数据创建新的聚类，计算应用于包括新的聚类的聚类的权重，以使所生成的语音与新的音频文件之间的相似性最大。

除了权重以外，说话者变换，例如CMLLR变换，可被应用，以更接近地匹配新的音频文件的语音。这种线性变换可被应用以使所生成的语音与新的音频文件之间的相似性最大。该应用额外的变换的技术可在发生适配而未生成新的说话者聚类和当生成新的说话者聚类时都使用。

在另一个实施例中，提供了一种用于模拟多个不同的声音特性的文本到语音的***，所述***包括：

文本输入，用于接收所输入的文本；

处理器，其被配置为：

将所输入的文本划分成声学单元序列；

允许选择用于所输入的文本的声音特性；

其中，在所选择的声音特性中每个概率分布的预定类型的参数被表示为相同类型的参数的加权和，其中，所使用的权重是依赖声音特性的，以使得将所述声学单元序列转换成语音向量序列包括获取用于所选择的声音特性的声音特性依赖权重，其中，所述参数在聚类中提供，每个聚类包括至少一个子聚类，其中对于每个聚类，获取所述声音特性依赖权重，以使得每个子聚类有一个权重。

在另一个实施例中，提供了一种适应性的文本到语音的***，其被配置为输出具有在音频文件中提供的声音特性的语音，所述文本到语音的***包括：

处理器，其被配置为：

接收文本输入；

将所输入的文本划分成声学单元序列；

选择用于所输入的文本的声音特性；

所述***还包括存储器，其被配置为存储在聚类和子聚类中提供的所述参数和用于所述子聚类的权重；

所述***还被配置为接收新的输入音频文件；

所述处理器被配置为重新计算应用于所述子聚类的权重，以使所生成的语音与新的音频文件之间的相似性最大。

根据实施例的方法可被实现为通用计算机中的硬件或软件。另外，根据本发明的实施例的方法可被实现为硬件和软件的结合。根据实施例的方法还可由单个处理装置或处理装置的分布式网络实现。

由于根据实施例的某些方法可以由软件实现，因此，某些实施例包含在任何合适的承载媒体上提供给通用计算机的计算机代码。承载媒体可包括任何存储媒体，诸如软盘、CD-ROM、磁盘或可编程存储器设备，或者任何瞬态媒体，诸如任何信号，例如电、光或微波信号。

附图说明

现在参照附图描述根据非限定性的实施例的***和方法，其中：

图1是文本到语音的***的示意图；

图2是示出由已知的语音处理***执行的步骤的流程图；

图3是高斯概率函数的示意图；

图4是根据实施例的语音处理方法的流程图；

图5是示出如何选择声音特性的***的示意图；

图6是图5的***的变形；

图7是图5的***的另一个变形；

图8是图5的***的再一个变形；

图9a是根据另一个实施例的语音处理方法的流程图，图9b是参照图9a描述的某些步骤的图形表示；

图10是可被训练的文本到语音的***的示意图；

图11是表示根据实施例的训练语音处理***的方法的流程图；

图12是实施例所使用的决策树的示意图；

图13是示出根据实施例的***的适配的流程图；

图14是示出根据另一个实施例的***的适配的流程图。

具体实施方式

图1示出了文本到语音的***1。文本到语音的***1包括处理器3，其执行程序5。文本到语音的***1还包括存储器7。存储器7存储由程序5使用以将文本转换成语音的数据。文本到语音的***1还包括输入模块11和输出模块13。输入模块11连接到文本输入15。文本输入15接收文本。文本输入15可以例如是键盘。可选地，文本输入15可以是用于从外部存储器媒体或网络接收文本数据的装置。

连接到输出模块13的是音频输出17。音频输出17用于输出从被输入到文本输入15中的文本转换得到的语音信号。音频输出17例如可以是直接音频输出，例如扬声器，或者是可被发送到存储器媒体、网络等的音频数据文件的输出。

在使用时，文本到语音的***1通过文本输入15接收文本。在处理器3上执行的程序5使用在存储器7中存储的数据，将文本转换成语音数据。语音经由输出模块13输出到音频输出17。

现在参照图2描述简化过程。在第一步骤S101，文本被输入。文本可经由键盘、触摸屏、文本预测器等输入。接着，文本被转换成声学单元序列。这些声学单元可以是音素（phoneme）或字素（grapheme）。这些单元可以是上下文依赖的，例如三音素（triphone），其不仅考虑已经被选择的音素，而且考虑正在进行和随后的音素。文本可使用本领域公知的技术来转换成声学单元序列，在此不进一步进行说明。

在步骤S105，查找概率分布，其将声学单元与语音参数相关。在该实施例中，概率分布是由均值和方差定义的高斯分布。虽然可以使用其它分布，诸如泊松分布、学生t分布、拉普拉斯分布或伽马分布，但其中一些分布由与均值和方差不同的变量定义。

对于每个声学单元不可能具有确定的与语音向量的一对一对应或者具有使用本领域的术语的“观察值”。许多声学单元以类似的方式发音，或者受到周围的声学单元、其在词或句子中的位置的影响，或者由不同的说话者发出不同的声音。因此，每个声学单元仅具有与语音向量相关的概率，文本到语音的***计算多个概率，并在给定声学单元序列时选择最可能的观察值序列。

高斯分布在图3中示出。图3可以被认为是声学单元与语音向量相关的概率分布。例如，示为X的语音向量具有对应于具有图3所示的分布的音素或其它声学单元的概率P1。

高斯的形状和位置由其均值和方差定义。这些参数在***的训练期间确定。

接着，在步骤S107中，这些参数在声学模型中使用。在本说明书中，声学模型是隐马尔可夫模型（HMM）。然而，也可以使用其它模型。

文本到语音的***将存储多个概率密度函数，其将声学单元（即，音素、字素、词或其一部分）与语音参数相关。由于一般使用高斯分布，因此，这些一般被称为高斯分量。

在隐马尔可夫模型或其它类型的声学模型中，必须考虑与特定声学单元相关的所有潜在的语音向量的概率。接着，将考虑最可能与声学单元序列对应的语音向量序列。这意味着在序列的所有声学单元上的全局优化考虑了两个单元彼此影响的方式。因此，当考虑了声学单元序列时，对于特定声学单元最可能的语音向量可能并不是最佳语音向量。

一旦语音向量序列已被确定，则在步骤S109，输出语音。

图4是根据实施例的文本到语音的***的处理的流程图。在步骤S201，文本以与参照图2描述的相同的方式接收。接着，在步骤S203，文本被转换成声学单元序列，其中声学单元可以是音素、字素、上下文依赖音素或字素、词或其一部分。

图4的***可使用多个不同的声音特性输出语音。例如，在一个实施例中，特性可以从声音响亮、高兴、悲伤、生气、紧张、平静、命令等中选择。

在步骤S205，确定所期望的声音特性。这可通过许多不同的方法进行。用于确定所选择的声音特性的某些可能的方法的例子参照图5至8说明。

在参照图4描述的方法中，每个高斯分量用均值和方差描述。在某些实施例中，将存在多个不同的状态，其中每个状态使用高斯建模。例如，在一个实施例中，文本到语音的***包括多个流。这种流可以从频谱参数（频谱）、基础频率的对数（Log F₀）、Log F₀的一阶微分（ΔLog F₀）、Log F₀的二阶微分（ΔΔLog F₀）、频带非周期性参数（Band aperiodicityparameter，简称BAP）、持续时间等的一个或多个中选择。这些流还可被划分成诸如沉默（sil）、暂停（pau）和说话（spe）等的类别。在一个实施例中，来自每个流和类别的数据将使用HMM来建模。HMM可包括不同数量的状态，例如，在一个实施例中，5个状态HMM可用于对来自上述的一些流和类别的数据建模。对于每个HMM状态，确定高斯分量。

在图4的***中，具有所选择的声音特性的高斯的均值被表示为高斯的独立均值的加权和。因此：

μ_{m}^{(s)} = \underset{i}{Σ} λ_{i}^{(s)} μ_{c (m, i)}

公式1

其中，是所选择的说话者声音s中分量m的均值，i∈{1,......,P}是聚类的索引，P是聚类的总数，是用于说话者s的第i个聚类的说话者依赖插值权重；μ_c(m,i)是在聚类i中分量m的均值。对于一个聚类，通常是聚类i=1，所有的权重总被设置为1.0。该聚类被称为“偏置聚类（bias cluster）”。每个聚类包括至少一个决策树。对于聚类中的每个分量，将有一个决策树。为了简化表达式，c(m,i)∈{1,......,N}表示用于第i个聚类的均值向量决策树中分量m的总叶节点索引，N是所有聚类的决策树上的叶节点的总数。

在步骤S207，***查找均值和方差，其将以可访问的方式存储。

在步骤S209，***查找用于均值的声音特性依赖权重。本领域的普通技术人员将知道，声音特性依赖权重可在查找均值之前或之后查找。

因此，在步骤S209之后，可以获得声音特性依赖均值，即使用均值并应用权重，然后，这些在步骤S211以与参照图2中的步骤S107所描述的相同的方式用在声学模型中。

声音特性独立均值被聚类。在一个实施例中，每个聚类包括至少一个决策树，在所述树中使用的决策基于语言、语音和韵律变化。在一个实施例中，对于每个分量有一个决策树，其是聚类的成员。韵律、语音和语言上下文影响最后的语音波形。语音上下文通常影响声道（vocal tract），韵律（例如，音节）和语言（例如，词的语音部分）上下文影响韵律，诸如持续时间（节奏）和基础频率（语调）。每个聚类可包括一个或多个子聚类，其中每个子聚类包括至少一个所述决策树。

以上可被考虑以获取每个子聚类的权重或每个聚类的权重向量，权重向量的分量是每个子聚类的权重。

下面的配置可根据一个实施例使用。为了对数据建模，在该实施例中，使用5个状态HMM。对于该例子，数据被分成三种类别：沉默、暂停和说话。在该特定实施例中，每个子聚类的决策树和权重的分配如下。

在该特定实施例中，每个聚类使用下面的流：

频谱：1个流，5个状态，1个树/状态×3个类别

Log F0：3个流，每个流5个状态，1个树/状态和流×3个类别

BAP：1个流，5个状态，1个树/状态×3个类别

持续时间：1个流，5个状态，1个树×3个类别（每个树在所有状态上共享）

总数：3×26＝78个决策树。

对于上面的例子，以下权重被应用于每个流/声音特性（例如，说话者）：

频谱：1个流，5个状态，1个权重/流×3个类别

Log F₀：3个流，5个状态/流，1个权重/流×3个类别

BAP：1个流，5个状态，1个权重/流×3个类别

持续时间：1个流，5个状态，1个权重/状态和流×3个类别

总数：3×10＝30个权重。

如在该例子中所示的，可以向不同的决策树（频谱）分配相同的权重或者向相同的决策树（持续时间）分配多于一个的权重或者任何其它组合。如在此所使用的，将被应用相同的权重的决策树被考虑形成子聚类。

在一个实施例中，具有所选择的声音特性的高斯分布的均值被表示为高斯分量的均值的加权和，其中，总和使用来自每个聚类的一个均值，该均值根据当前正被处理的声学单元的韵律、语言和语音上下文选择。

图5示出选择声音特性的可能方法。在此，用户使用例如鼠标拖放屏幕上的点、键盘输入图形等，直接选择权重。在图5中，包括鼠标、键盘等的选择单元251使用显示器253选择权重。显示器253在该例子中具有示出权重的雷达图。用户可以使用选择单元251以通过雷达图改变各种聚类的优势。本领域的普通技术人员应当知道，也可以使用其它显示方法。

在某些实施例中，权重可以被投影到它们自己的空间“权重空间”，最初权重代表每个维度。该空间可以被重新排列成不同的空间，其维度代表不同的声音属性。例如，如果被模拟的声音特性是“表情（expression）”，则一个维度可表明高兴的声音特性，另一个表明紧张的声音特性等，用户可以选择增加在高兴的声音维度上的权重，以便该声音特性占优势。在这种情况下，新空间的维数低于原始权重空间的维数。然后，原始空间上的权重向量λ^(s)可被获取为新空间的坐标向量α^(s)的函数。

在一个实施例中，原始权重空间到低维度权重空间的投影使用λ^(s)=Hα^(s)类型的线性公式形成，其中H是投影矩阵。在一个实施例中，矩阵H被定义为对于人工选择的d个代表性说话者，在其列上设置原始λ^(s)，其中d是新空间所期望的维度。其它技术可用于降低权重空间的维度或者在α^(s)的值对于若干说话者预先定义时自动发现将控制α空间映射到原始λ权重空间的函数。

在另一个实施例中，***被配备有存储器，其保存预先确定的权重向量集合。每个向量可被设计为允许被输出的文本具有不同的声音特性。例如，高兴的声音、愤怒的声音等。根据这种实施例的***在图6中示出。在此，显示器253示出可由选择单元251选择的不同的声音属性。

***可基于预先确定的集合的属性指示说话者输出的一组选择。然后，用户可选择所要求的说话者。

在另一个实施例中，如图7所示，***自动地确定权重。例如，***可能需要输出与它识别为命令或问题的文本对应的语音。***可以被配置为输出电子书。***可从文本中识别出相较于叙述者，何时由书中角色说出一些内容，例如根据引号，并可改变权重以将新的声音特性引入到输出中。同样，***可以被配置为识别文本是否被重复。在这种情形下，对于第二输出，可以改变声音特性。进一步地，***可以被配置为识别文本是指高兴的时刻还是紧张的时刻，所输出的文本具有适当的声音特性。

在上述的***中，提供了存储器261，其存储将在文本中检查的属性和规则。输入文本由单元263提供给存储器261。检查文本的规则，然后，与声音特性的类型有关的信息被传递到选择单元265。接着，选择单元265查找用于所选择的声音特性的权重。

上述的***和考虑还可以应用于将要在计算机游戏中使用的***，其中游戏中的角色说话。

在另一个实施例中，***从另一个源接收有关将被输出的文本的信息。这种***的例子在图8中示出。例如，在电子书的情况下，***可以接收表明文本的某些部分应当如何输出的输入。

在计算机游戏中，***将能够根据游戏确定正在说话的角色是否已受伤、是否正在躲藏因而不得不低语、是否正试图吸引某个人的注意、是否已经成功完成游戏的一个阶段等。

在图8的***中，关于文本应当如何输出的其它信息从单元271接收。然后，单元271将该信息发送到存储器273。接着，存储器273获取有关声音应当如何输出的信息，并将该信息发送到单元275。然后，单元275获取用于所期望的声音输出的权重。

此外，该方法还通过使用MLLR、CMLLR变换等实现声音变换。特别是当被模拟的声音特性是说话者变异性（speaker variability）时，该额外的变换添加了额外的模拟能力，除了任何说话者变异外，其还由聚类的权重提供。在图9a和9b中描述了使用该额外的变换的过程。

在图9a中，在步骤S206，选择说话者声音。说话者声音将从多个预先存储的说话者简档中选择，其可通过已知的说话者变换实现。所选择的说话者简档可在***的初始建立期间确定，而不是在每次使用***时确定。

然后，***在步骤S207获取模型参数，并在步骤S209获取所需要的说话者权重，如前面所说明的。

当***知道所期望的说话者时，***可在步骤S210查找附加的说话者变换。然后，说话者依赖权重和变换在步骤S211中一起应用。在步骤S212，确定一组语音向量，并在步骤S213，输出语音，如在前面所说明的。在该实施例中，在生成语音向量之前，变换被应用于模型。

图9b是参照图9a描述的过程的示意图。在图9a的步骤S209中，查找说话者权重。这些权重被应用于图9b的决策树401。来自每个决策树的加权均值在403处求和。在405中，应用说话者变换（如果使用），并在407处输出最终的说话者模型。

下面将参照图10和图11描述根据实施例的***的训练。

图10的***类似于参照图1描述的***。因此，为了避免任何不必要的重复，相同的附图标记将用于表示相同的特征。

除了参照图1描述的特征以外，图10还包括音频输入23和音频输入模块21。当训练***时，必须具有匹配经由文本输入15输入的文本的音频输入。

在基于隐马尔可夫模型（HMM）的语音处理***中，HMM通常被表示为：

M=(A,B,∏) 公式2

其中，是状态转移概率分布，是状态输出概率分布，是初始状态概率分布，其中N是HMM中状态的数量。

HMM如何在文本到语音的***中使用是本领域公知的，在此将不再描述。

在当前的实施例中，状态转移概率分布A和初始状态概率分布根据本领域已知的过程确定。因此，本说明书的剩余部分将涉及状态输出概率分布。

一般地，在文本到语音的***中，来自模型集合M的第m个高斯分量的状态输出向量或语音向量ο(t)是

P (o (t) | m, s, M) = N (o (t); μ_{m}^{(s)} {, Σ}_{m}^{(s)})

公式3

其中，和是用于说话者s的第m个高斯分量的均值和协方差。

训练传统的文本到语音的***的目标是估计模型参数集合M，其使给定观察值序列的似然性最大化。在传统的模型中，有一个单独的说话者，因此，对于所有分量m，模型参数集合是和

由于不可能根据所谓的最大似然（ML）准则纯粹解析地获得上述的模型集合，因此，在传统上，问题通过使用称为期望最大化（EM）算法（通常称为Baum-Welch算法）的迭代方法解决。在此，可以导出辅助函数（Q函数）：

Q (M, M^{'}) = \underset{m, t}{Σ} γ_{m} (t) \log p (o (t), m | M)

其中，γ_m(t)是分量m的后验概率，其生成当前模型参数M'下的观察值ο(t)，M是新的参数集合。在每次迭代后，参数集合M'由新的参数集合M代替，其使Q(M,M')最大化。p(ο(t),m|M)是诸如GMM、HMM等的生成模型。在本实施例中，使用HMM，其具有状态输出向量：

公式5

其中，m∈{1,......,MN}、t∈{1,......,T}和s∈{1,......,S}分别是分量、时间和说话者的索引，其中MN、T和S分别是分量、帧和说话者的总数。

和的准确形式依赖于所应用的说话者依赖变换的类型。最一般地，说话者依赖变换包括：

-一组说话者依赖权重

-说话者依赖聚类

-一组线性变换

当在步骤211中应用了所有可能的说话者依赖变换后，说话者s的概率分布m的均值向量和协方差矩阵变成：

公式6

公式7

其中，μ_c(m,i)是如在公式1中描述的分量m的聚类I的均值，是说话者s的附加聚类的分量m的均值向量，其将在后面描述，和是与说话者s的回归类别（regression class）r(m)相关联的线性变换矩阵和偏置向量。

R是回归类别的总数，r(m)∈{1,......,R}表示分量m所属的回归类别。

如果应用非线性变换，则和分别变成单位矩阵和零向量。

由于将在后面说明的原因，在该实施例中，协方差被聚类并排列成决策树，其中，v(m)∈{1,......,V}表示分量m的协方差矩阵所属的协方差决策树中的叶节点，V是方差决策树叶节点的总数。

使用上述内容，辅助函数可被表示为：

公式8

其中C是独立于M的常数。

因此，使用上述内容并在公式8中替换公式6和7，辅助函数示出了模型参数可被分成四个不同的部分。

第一部分是正则模型的参数，即，说话者独立均值{μ_n}和说话者独立协方差{Σ_k}，上述的索引n和k表示将在后面描述的均值和方差决策树的叶节点。第二部分是说话者依赖权重其中s表示说话者，i表示聚类索引参数。第三部分是说话者依赖聚类μ_c(m,x)的均值，第四部分是CMLLR约束的最大似然线性回归变换其中s表示说话者，d表示分量或分量m所属的说话者回归类别。

一旦辅助函数以上述的方式表示，则其相对于每个变量依次被最大化，以便获得说话者和声音特性参数的ML值、说话者依赖参数的ML值和声音特性依赖参数的ML值。

详细地，对于确定均值的ML估计，执行下面的过程。

为了简化下面的公式，假定不应用线性变换。如果应用线性变换，则原始观察值向量{ο_r(t)}必须用变换后的向量替换。

公式9

同样，假定没有附加聚类。在训练期间包括该额外聚类仅相当于添加线性变换，其中，是单位矩阵，

首先，公式4的辅助函数相对于μ_n求微分，如下所示：

公式10

其中，

G_{nv} = \underset{\underset{\underset{c (m, j) = v}{c (m, i) = n}}{m, i, j}}{Σ} G_{ij}^{(m)},

k_{n} = \underset{\underset{c (m, i) = n}{m, i}}{Σ} k_{i}^{(m)}

公式11

并且和是累积的统计值

\begin{matrix}  \end{matrix} \begin{matrix} G_{ij}^{(m)} = \underset{t, s}{Σ} γ_{m} (t, s) λ_{i, q (m)}^{(s)} Σ_{v (m)}^{- 1} λ_{j, q (m)}^{(s)} \\ k_{i}^{(m)} = \underset{t, s}{Σ} γ_{m} (t, s) λ_{i, q (m)}^{(s)} Σ_{v (m)}^{- 1} o (t) \end{matrix}

公式12

通过将导数设为零来以标准方式最大化公式，从而，对于μ_n的ML估计值，即获得以下公式：

公式13

应当指出，μ_n的ML估计也依赖于μ_k，其中k不等于n。索引n用于表示均值向量的决策树的叶节点，而索引k表示协方差决策树的叶节点。因此，需要通过在所有μ_n上进行迭代直到收敛来实现优化。

这可通过对下面的方程求解来同时优化所有μ_n来实现。

公式14

然而，如果训练数据小或者N相当大，则公式7的系数矩阵不能具有满秩。该问题可通过使用奇异值分解或其它公知的矩阵因式分解技术来避免。

然后，执行相同的过程以便执行协方差的ML估计，即，公式8中示出的辅助函数相对于Σ_k求微分以得到：

公式15

其中，

\overset{&OverBar;}{o} (t) = o (t) - μ_{m}^{(s)}

公式16

说话者依赖权重和说话者依赖线性变换的ML估计也可以相同的方式获得，即，将辅助函数相对于被要求ML估计的参数求微分，然后将导数值设为0。

对于说话者依赖权重，得到：

λ_{q}^{(s)} = {(\underset{\underset{q (m) = q}{t, m}}{Σ} γ_{m} (t, s) M_{m}^{T} Σ^{- 1} M_{m})}^{- 1} \underset{\underset{q (m) = q}{t, m}}{Σ} γ_{m} (t, s) M_{m}^{T} Σ^{- 1} o (t)

公式17

在一个实施例中，过程以迭代的方式执行。该基础***参照图11的流程图进行说明。

在步骤S301，接收音频语音的多个输入。在该示例性例子中，使用4个说话者。

接着，在步骤S303，对于4个声音中的每一个，训练并产生声学模型。在该实施例中，4个模型中的每一个仅使用来自一个声音的数据训练。

如下初始化和训练聚类自适应模型：

在步骤S305，聚类P的数量被设置为V+1，其中V是声音的数量（4）。

在步骤S307，一个聚类（聚类1）被确定为偏置聚类。偏置聚类和相关联的聚类均值向量的决策树使用在步骤S303中生成最佳模型的声音进行初始化。在该例子中，每个声音被分配一个标记“声音A”、“声音B”、“声音C”和“声音D”，在此，声音A被假定为已生成最佳模型。用于多空间概率分布（MSD）的协方差矩阵、空间权重以及它们的参数共享结构也被初始化为声音A模型的那些值。

每个二叉决策树以本地最优方式构建，其从表示所有上下文的单个根节点开始。在该实施例中，通过上下文，使用以下基础，即语音基础、语言基础和韵律基础。在创建每个节点时，选择关于上下文的下一个最优问题。该问题根据哪个问题导致在似然性和在训练例子中生成的终端节点方面的最大增加选择。

然后，搜索这一组终端节点以找到可使用其最优问题以向训练数据提供在总似然性上的最大增加而被***的节点。假定该增加超过阈值，则节点使用最优问题分开，创建两个新的终端节点。当由于任何进一步的***不会超过应用于似然性***的阈值而不能形成任何新的终端节点时，过程结束。

该过程例如在图12中示出。在均值决策树中的第n个终端节点通过问题q被分成两个新的终端节点和。通过该***获得的似然性增益可如下计算：

L (n) = - \frac{1}{2} μ_{n}^{T} (\underset{m &Element; S (n)}{Σ} G_{ii}^{(m)}) μ_{n} + μ_{n}^{T} \underset{m &Element; S (n)}{Σ} (k_{i}^{(m)} - \underset{j &NotEqual; i}{Σ} G_{ij}^{(m)} μ_{c (m, j)})

公式18

其中，S(n)表示与节点n相关联的一组分量。应当指出，未包括相对于μ_n是常数的项。

C是独立于μ_n的常数项。μ_n的最大似然性由公式13给出。因此，上述公式可以写成：

公式19

因此，通过将节点n***成和获得的似然性如下给出：

ΔL (n; q) = L (n_{+}^{q}) + L (n_{-}^{q}) - L (n)

公式20

因此，使用上述的公式，可以对每个聚类构建决策树，其中树被安排成使得在树中首先提问最优问题，决策根据***的似然性按照层级顺序排列。然后，权重被应用于每个聚类。

决策树还可以对于方差构建。协方差决策树如下构建：如果协方差决策树中的终端节点被问题q分成两个新的终端节点和则聚类协方差矩阵和***的增益如下表示：

Σ_{k} = \frac{\underset{\underset{v (m) = k}{m, t, s}}{Σ} γ_{m} (t) Σ_{v (m)}}{\underset{\underset{v (m) = k}{m, t, s}}{Σ} γ_{m} (t)}

公式21

L (k) = - \frac{1}{2} \underset{\underset{v (m) = k}{m, t, s}}{Σ} γ_{m} (t) \log | Σ_{k} | + D

公式22

其中，D是独立于{Σ_k}的常数。因此，似然性的增量是

ΔL (k, q) = L (k_{+}^{q}) + L (k_{-}^{q}) - L (k)

公式23

在步骤S309，特定的声音标记被分配给聚类2、…、P中的每一个，例如，聚类2、3、4和5分别用于说话者B、C、D和A。应当注意，由于声音A用于初始化偏置聚类，因此，它被分配最后一个将被初始化的聚类。

在步骤S311，，一组CAT插值权重根据所分配的声音标记而只设置成1或0：

在该实施例中，对每个说话者、每个流，有一个全局权重。对于每个说话者/流组合，设置三组权重：用于沉默、说话和暂停。

在步骤S313，对于每个聚类2、…、(P-1)，依次如下初始化这些聚类。用于相关联的声音的声音数据，例如用于聚类2的声音B，使用在步骤S303中训练的用于相关联的声音的单说话者（mono-speaker）模型进行对准。在这些对准下，计算统计值，并估计聚类的决策树和均值。聚类的均值使用在步骤S311中设置的权重被计算为聚类均值的归一化加权和，即在实践中，这导致用于给定上下文的均值是聚类2中用于该上下文的偏置聚类均值和用于该上下文的声音B模型均值的加权和（在两种情况下权重都是1）。

在步骤S315，使用来自所有4个声音的所有数据，对偏置聚类重建决策树，相关的均值和方差参数被重新估计。

在添加了用于声音B、C和D的聚类后，偏置聚类同时使用所有4个声音来重新估计。

在步骤S317，仅使用来自声音A的数据，聚类P（声音A）现在被初始化，如对于其它聚类在步骤S313中描述的那样。

一旦聚类已经如上所述地被初始化，则CAT模型如下被更新/训练。

在步骤S319，从聚类1到P逐个聚类地重新构建决策树，保持CAT权重不变。在步骤S321，在CAT模型中估计新的均值和方差。接着在步骤S323，对于每个聚类，估计新的CAT权重。

在一个实施例中，该过程循环回到步骤S321，直到收敛为止。参数和权重使用最大似然计算来估计以获得所述参数的更好估计，其中最大似然计算通过使用Baum-Welch算法的辅助函数来执行。

如前所述，参数通过迭代过程估计。

在另一个实施例中，在步骤S323，过程循环回到步骤S319，因此，决策树在每次迭代期间被重新构建，直到收敛为止。

在另一个实施例中，使用如前所述的说话者依赖变换。在此，在步骤S323后***说话者依赖变换，以使得变换被应用，然后所变换的模型被迭代，直到收敛为止。在一个实施例中，变换在每次迭代时更新。

图12示出采用决策树形式的聚类1至P。在该简化的例子中，在聚类1中只有四个终端节点，在聚类P中有三个终端节点。需要重点指出的是，决策树并不需要是对称的，即，每个决策树可具有不同数量的终端节点。树中终端节点的数量和分支的数量仅通过对数似然***确定，其中，对数似然分类在第一个决策处实现最大***，然后按照导致较大***的问题的顺序提问问题。一旦所获得的***低于阈值，则节点的***终止。

以上产生了正则模型（canonical model），其允许执行以下的合成：

1.4个声音中的任何一个可使用与该声音对应的最后一组权重向量合成；

2.随机声音可通过将权重向量设置到任意位置而从被CAT模型跨越的声学空间中合成。

在另一个例子中，助手用于合成声音特性，其中***被提供具有相同特性的目标声音的输入。

图13示出一个例子。首先，在步骤S501接收输入目标声音。接着在步骤S503，正则模型的权重，即先前已经训练了的聚类的权重，被调整以匹配目标声音。

然后，使用在步骤S503中获得的新的权重输出音频。

在另一个实施例中，使用更复杂的方法，其中，对于新的声音提供新的聚类。这将参照图14描述。

如在图13中，首先在步骤S501，接收目标声音。然后，在步骤S503，调整权重以最佳匹配目标声音。

然后，在步骤S507，新的聚类被添加到用于目标声音的模型上。接着，以与参照图11所描述的相同的方式，对于新的说话者依赖聚类建立决策树。

然后，在步骤S511，对于新的聚类，计算声学模型参数，即在本例子中是均值。

然后，在步骤S513，对于所有聚类，更新权重。接着，在步骤S515，对新的聚类的结构进行更新。

如前所述，在步骤S505，使用具有新的聚类的新的权重，输出新的目标声音。

应当注意，在该实施例中，在步骤S515，其它聚类在此时不更新，因为这要求训练数据在合成时可用。

在另一个实施例中，在步骤S515后，更新聚类，因此，流程图循环回到步骤S509，直到收敛为止。

最后，诸如CMLLR的线性变换可在模型之上应用，以进一步改进与目标说话者的相似性。该变换的回归类别可以是全局的或者是说话者依赖的。

在第二种情况下，回归类别的约束结构（tying structure）可从说话者依赖聚类的决策树中或者从在将说话者依赖权重应用于正则模型并添加额外的聚类之后获得的分布的聚类中导出。

在一开始，偏置聚类表示说话者/声音独立特性，而其它聚类表示其相关联的声音数据集合。作为训练过程，将聚类与声音准确地对准变得不准确。现在，聚类和CAT权重表示宽阔的声学空间。

尽管已经描述了某些实施例，但这些实施例仅作为例子提供，并不意味着限制本发明的范围。实际上，在此描述的新颖的方法和装置可以各种其它形式体现；另外，在不脱离本发明的精神的情况下，可以对在此描述的方法和装置的形式进行各种省略、替换和改变。后附的权利要求及其等同意在覆盖这些修改的形式，其将落入本发明的范围和精神内。

Claims

1.一种文本到语音的方法，用于模拟多个不同的声音特性，所述方法包括：

输入文本；

将所输入的文本划分成声学单元序列；

选择用于所输入的文本的声音特性；

其中，在所选择的声音特性中每个概率分布的预定类型的参数被表示为相同类型的参数的加权和，其中所使用的权重是依赖声音特性的，以使得将所述声学单元序列转换成语音向量序列包括获取用于所选择的声音特性的声音特性依赖权重，其中，所述参数在聚类中提供，每个聚类包括至少一个子聚类，其中对于每个聚类，获取所述声音特性依赖权重，以使得每个子聚类有一个权重。

2.如权利要求1所述的文本到语音的方法，其中，每个子聚类包括至少一个决策树，所述决策树基于与语言差异、语音差异或韵律差异中的至少一个有关的问题。

3.如权利要求2所述的文本到语音的方法，其中，所述聚类的决策树之间的结构有差异。

4.如权利要求1所述的文本到语音的方法，其中，所述多个声音特性从不同的说话者声音、不同的说话者风格、不同的说话者情绪或者不同的口音的至少一个中选择。

5.如权利要求1所述的文本到语音的方法，其中，所述概率分布从高斯分布、泊松分布、伽马分布、学生t分布或拉普拉斯分布中选择。

6.如权利要求1所述的文本到语音的方法，其中，选择声音特性包括：提供输入以允许所述权重通过所述输入选择。

7.如权利要求1所述的文本到语音的方法，其中，选择声音特性包括：根据将要被输出的文本预测应当被使用的权重。

8.如权利要求1所述的文本到语音的方法，其中，选择声音特性包括：根据有关说话者的类型的外部信息预测应当被使用的权重。

9.如权利要求1所述的文本到语音的方法，其中，选择声音特性包括：接收包含声音的音频输入，以及改变所述权重以模拟所述音频输入的所述声音的声音特性。

10.如权利要求1所述的文本到语音的方法，其中，选择声音特性包括：从预先存储的多组权重中随机选择一组权重，其中，每组权重包括用于所有子聚类的权重。

11.如权利要求1所述的文本到语音的方法，其中，选择声音特性包括：接收包括多个值的输入，以及将所述多个值映射到所述权重。

12.如权利要求11所述的文本到语音的方法，其中，所述多个值占用n维值空间，所述权重占用w维权重空间，其中n和w是整数且w大于n，以使得所述转换将输入值转换到更高维度空间。

13.如权利要求12所述的文本到语音的方法，其中，所述多个值直接表示可识别的说话者特性。

14.一种使文本到语音的***适配于在音频文件中提供的声音特性的方法，所述文本到语音的***包括：

处理器，其被配置为：

接收文本输入；

将所输入的文本划分成声学单元序列；

选择用于所输入的文本的声音特性；

使用声学模型，将所述声学单元序列转换成语音向量序列，其中，所述模型具有多个模型参数，其描述将声学单元与语音向量相关的概率分布；以及

其中，在所选择的声音特性中每个概率分布的预定类型的参数被表示为相同类型的参数的加权和，其中，所使用的权重是依赖声音特性的，以使得将所述声学单元序列转换成语音向量序列包括获取用于所选择的声音特性的声音特性依赖权重，其中，所述参数在聚类中提供，每个聚类包括至少一个子聚类，其中，对于每个聚类，获取所述声音特性依赖权重，以使得每个子聚类有一个权重；

所述方法包括：

接收新的输入音频文件；

15.如权利要求14所述的方法，还包括：

使用来自所述新的音频文件的数据创建新的聚类；以及

计算应用于包括所述新的聚类的聚类的权重，以使所生成的语音与所述新的音频文件之间的相似性最大。

16.如权利要求14所述的方法，还包括：

确定将要被应用的线性变换，以使所生成的语音与所述新的音频文件之间的相似性最大。

17.一种文本到语音的***，用于模拟多个不同的声音特性，所述***包括：

文本输入，用于接收所输入的文本；

处理器，其被配置为：

将所输入的文本划分成声学单元序列；

允许选择用于所输入的文本的声音特性；

18.一种适应性的文本到语音的***，其被配置为输出具有在音频文件中提供的声音特性的语音，所述文本到语音的***包括：

处理器，其被配置为：

接收文本输入；

将所输入的文本划分成声学单元序列；

选择用于所输入的文本的声音特性；

其中，在所选择的声音特性中每个概率分布的预定类型的参数被表示为相同类型的参数的加权和，其中，所使用的权重是依赖声音特性的，以使得将所述声学单元序列转换成语音向量序列包括获取用于所选择的声音特性的声音特性依赖权重，其中，所述参数在聚类中提供，每个聚类包括至少一个子聚类，其中对于每个聚类，获取所述声音特性依赖权重，以使得每个子聚类有一个权重；

所述***还包括：存储器，其被配置为存储在聚类和子聚类中提供的所述参数以及用于所述子聚类的权重；

所述***还被配置为接收新的输入音频文件；