CN101281744B

CN101281744B - 语音分析方法和装置以及语音合成方法和装置

Info

Publication number: CN101281744B
Application number: CN200710092294.5A
Authority: CN
Inventors: 孟繁平; 双志伟; 蒋丹宁; 秦勇
Original assignee: Nuance Communications Inc
Current assignee: Nuance Communications Inc
Priority date: 2007-04-04
Filing date: 2007-04-04
Publication date: 2011-07-06
Anticipated expiration: 2027-04-04
Also published as: CN101281744A; US8280739B2; US20080288258A1

Abstract

本发明公开了一种语音分析方法，该方法包括以下步骤：获取语音信号和相应的DEGG/EGG信号；将所述语音信号视为声源-滤波器模型中以所述DEGG/EGG信号为输入的声道滤波器的输出；以及由作为输出的所述语音信号和作为输入的所述DEGG/EGG信号估计所述声道滤波器的特征。其中所述声道滤波器特征由所述声道滤波器在选定时间点的状态向量表示，且所述估计步骤是使用卡尔曼滤波并优选地使用双向卡尔曼滤波完成的。

Description

语音分析方法和装置以及语音合成方法和装置

技术领域

本发明涉及语音分析和合成领域，更具体地涉及一种使用DEGG/EGG(微分电声门图/电声门图)信号以及卡尔曼滤波对语音进行分析的方法和装置，以及使用所述语音分析的结果合成语音的方法和装置。

背景技术

在语音生成的理论中，普遍采用以下声源-滤波器模型：

s(t)＝e(t)*f(t)；

其中，s(t)是语音信号；e(t)是声门源激励；f(t)是声道滤波器的***函数；t表示时间点；*表示卷积。

图1中示出了这种用于语音生成的声源-滤波器模型。如图所示，来自声门源的输入信号由声道滤波器进行处理(滤波)。同时，声道滤波器受到扰动，即声道滤波器的本身的特征(状态)是随时间变化的。声道滤波器的输出与噪声相叠加，而产生最终的语音信号。

在这个模型中，通常语音信号很容易被记录。然而，声门源与声道滤波器特征都不能直接测量。因此，语音分析中的一个重要问题是，给定一段语音，如何估计出声门源和声道滤波器特征这两者？

这是一个盲解卷积问题，它没有确定的解，除非引入附加的假设，例如关于声门源的预定参数化模型，以及声道滤波器模型。声门源的预定参数化模型包括Rosenberg-Klatt(RK)，Liljencrants-Fant(LF)，可分别参见D.H.Klatt和L.C.Klatt的“Analysis，synthesis and perceptionof voice quality variations among female and male talkers，”J.Acoust.Soc.Am.，vol.87，no.2，pp.820-857，1990，以及G.Fant，J.Liljencrants和Q.Lin的“A four-parameter model of glottal flow，”STL-QPSR，Tech.Rep.，1985。声道滤波器模型包括LPC即全极点模型(all-pole)和零极点(pole-zero)模型。这些模型的局限性在于，模型过于简单化，只有很少的几个参数，不符合实际信号的情况。

就是说，现有技术的方法一般都是同时估计声门源和声道滤波器参数这两者，但由于这样做非常困难，为了使问题的解更加确定，不得不引入更多的主观假定。例如对声门源应用一些近似的模型，对声道滤波器进行简化和降阶等。所有这些主观的假设和处理都会影响解的精度甚至正确性。

此外，在很多实际应用场景中，语音信号往往是条件不足(ill-conditioned)或采样不足(under-sampled)的，这对现有技术的应用造成限制，使得其无法从语音信号的某个片段提取出完整的信息。

此外，现有技术的方法一般都依赖于语音信号的周期性，因而需要基音周期的标定(pitch marking)，即标出每个周期的起止点。但即使全部由人工标定，某些时候也会有歧义。从而影响语音分析的正确性。

因此，显然在本领域中需要一种更为简单、精确、高效和健壮的语音分析和合成方法。

发明内容

本发明所要解决的问题是通过对语音信号进行声源-滤波器分离，而分析该语音信号，并能克服现有技术在这方面的不足。

本发明的方法利用可以直接测量的DEGG/EGG信号代替声门源信号，减少了人为假定，使得结果更真实。同时，使用卡尔曼滤波并优选地使用双向卡尔曼滤波过程，由DEGG/EGG信号和语音信号估计出声道滤波器的特征，即其随时间变化的状态。

根据本发明的一个方面，提供了一种语音分析方法，包括以下步骤：获取语音信号和相应的DEGG/EGG信号；将所述语音信号视为声源-滤波器模型中以所述DEGG/EGG信号为输入的声道滤波器的输出；以及由作为输出的所述语音信号和作为输入的所述DEGG/EGG信号估计所述声道滤波器的特征。

优选地，所述声道滤波器特征由所述声道滤波器在选定时间点的状态向量表示，且所述估计步骤是使用卡尔曼滤波完成的。

优选地，所述卡尔曼滤波基于：

状态方程

x_k＝x_k-1+d_k，和

观测方程

v_k＝e_k ^Tx_k+n_k，

其中，x_k＝[x_k(0)，x_k(1)，...，x_k(N-1)]^T表示待估计的、声道滤波器在k时间点上的状态向量，其中x_k(0)，x_k(1)，...，x_k(N-1)表示所述声道滤波器在时间k的预期单位冲激响应的N个样本；

d_k＝[d_k(0)，d_k(1)，...，d_k(N-1)]^T表示在时间k添加到声道过滤器的状态向量的扰动；

e_k＝[e_k，e_k-1，...，e_k-N+1]^T是一向量，其中元素e_k表示在时间k输入的DEGG信号；

v_k表示在时间点k输出的语音信号；以及

n_k表示在时间点k添加到所述输出的语音信号的观测噪声。

优选地，所述卡尔曼滤波为包括前向卡尔曼滤波和后向卡尔曼滤波的双向卡尔曼滤波，其中，

所述前向卡尔曼滤波包括以下步骤：

前向预估：

x_k~＝x_k-1 ^＊，

P_k~＝P_k-1+Q

修正：

K_k＝P_k~e_k[e_k ^TP_k~e_k+r]^-1

x_k ^＊＝x_k~+K_k[v_k-e_k ^Tx_k~]

P_k＝[I-K_ke_k ^T]P_k~

前向递归

k＝k+1；

所述后向卡尔曼滤波包括以下步骤：

后向预估：

x_k~＝x_k+1 ^＊，

P_k~＝P_k+1+Q

修正：

K_k＝P_k~e_k[e_k ^TP_k~e_k+r]^-1

x_k ^＊＝x_k~+K_k[v_k-e_k ^Tx_k~]

P_k＝[I-K_ke_k ^T]P_k~

后向递归

k＝k-1；

其中，x_k~表示时间点k上的状态预估值，x_k ^＊表示时间点k上的状态修正值，P_k~表示估计误差的协方差矩阵的预估值，P_k表示估计误差的协方差矩阵的修正值，Q表示扰动d_k的协方差矩阵，K_k表示卡尔曼增益，r表示观测噪声n_k的方差，I表示单位矩阵；并且

所述双向卡尔曼滤波的估计结果为所述前向卡尔曼滤波的估计结果与所述后向卡尔曼滤波的估计结果按以下公式的结合：

P_k＝(P_k+ ^-1+P_k- ^-1)^-1，

x_k ^＊＝P_k(P_k+ ^-1x_k+ ^＊+P_k- ^-1x_k- ^＊)，

其中P_k+、x_k+分别为由前向卡尔曼滤波所得的声道滤波器的状态估计值和该估计的协方差，而P_k-、x_k-分别为由后向卡尔曼滤波所得的声道滤波器的状态估计值和状态估计的协方差。

优选地，该语音分析方法还包括以下步骤：选择并记录选定时间点上的、由所述卡尔曼滤波所得到的声道滤波器的状态估计值，作为所述声道滤波器的特征。

根据本发明的另一个方面，还提供了一种语音合成方法，包括以下步骤：获取DEGG/EGG信号；使用上述语音分析方法获得声道滤波器的特征；以及根据所述DEGG/EGG信号和所述获得的声道滤波器特征合成语音。

优选地，所述获取DEGG/EGG信号的步骤包括：根据给定的基频和时长，用单个周期的DEGG/EGG信号重构出完整的DEGG/EGG信号。

根据本发明的又一个方面，提供了一种语音分析装置，包括：用于获取语音信号的模块；用于获取相应的DEGG/EGG信号的模块；以及估计模块，其用于通过将所述语音信号视为声源-滤波器模型中以所述DEGG/EGG信号为输入的声道滤波器的输出，由作为输出的所述语音信号和作为输入的所述DEGG/EGG信号估计所述声道滤波器的特征。

根据本发明的再一个方面，提供了一种语音合成装置，包括：用于获取DEGG/EGG信号的模块；上述语音分析装置；以及语音合成模块，其用于根据所述用于获取DEGG/EGG信号的模块所获取的DEGG/EGG信号以及所述语音分析装置所估计出的声道滤波器特征合成语音信号。

本发明的方法和装置具有以下优点：

简单、高效、精确和健壮。

采用可直接测量的DEGG/EGG信号作为声道滤波器的直接输入，而不再需要同时估计声道滤波器参数和声门源这两者，从而克服了现有技术中不得不对声道滤波器和声门源进行简单化的模型假设的缺点。

给出了在条件不足或采样不足情况下，分析语音的一种解决方案。在条件不足或采样不足的实际应用场景中，现有技术无法从语音信号的某个片段提取出完整的信息。本发明的方法解决了这个困难。

在分析过程中无需假定周期性。所有现有的语音分析算法都需要假定周期性。但在实际中，这个假设往往是不正确的。本发明的方法和装置克服了现有技术的这种缺点。拟周期性(quasi-periodicity)不再是问题。

不需要基音周期的标定，即标出每个周期的起止点。基音周期标定，即使全部由人工标定，某些时候也会有歧义。本文介绍的语音分析过程中，使用DEGG作为输入，语音作为输出，滤波器参数作为估计对象。不须关心信号是不是周期性的。所以也不需要周期标定。

在给出声道滤波器参数的同时还给出误差协方差矩阵，从而使人了解声道滤波器参数估计的误差。

本发明的方法和装置能够进行进一步的改进，例如进行多帧合并等。

附图说明

所附权利要求中阐述了被认为是本发明的特点的新颖特征。但是，通过在结合附图阅读时参照下面对说明性实施例的详细说明可更好地理解发明本身以及其优选使用模式、其他目标以及优点，在附图中：

图1示出了关于语音生成的声源-滤波器模型；

图2示出了EGG信号的测量方法以及所测量的EGG信号的示例；

图3示例性地示出了EGG信号、DEGG信号、声门面积、以及语音信号随时间的变化，以及它们之间的对应关系；

图4示出了本发明采用的利用了DEGG信号的扩展的声源-滤波器模型；

图5示出了本发明的简化的声源-滤波器模型；

图6示出了使用本发明的语音分析方法进行语音分析的一个示例；

图7示出了根据本发明的实施例的语音分析方法的流程；

图8示出了根据本发明的实施例的语音合成方法的流程；

图9示出了使用根据本发明的实施例的语音合成方法合成语音的过程的一个示例；

图10示出了根据本发明的实施例的语音分析装置的示意性框图；以及

图11示出了根据本发明的实施例的语音合成装置的示意性框图。

具体实施方式

下面参照附图描述本发明的实施例。然而，应当理解的是，介绍这些实施例仅是出于说明性和示例性的目的，以使本领域的技术人员可以理解本发明的精神实质，并可以实现本发明，而不是旨在将本发明限制于所介绍的实施例。因此，可以考虑用下文中所述的特征和要素的任意组合来实施和实践本发明，而无论它们是否涉及不同的实施例。此外，下文中所介绍的大量细节仅是为了示例和说明，而不应被理解为对本发明的限制。

本发明利用电声门图(EGG)信号进行语音分析。

EGG是一种非声学信号，它测量说话者在说话时由于声门接触面积的变化而产生喉部的电阻抗的变化，因而比较真实地反映声带的振动。EGG与声学语音信号一起被广泛应用于语音分析，并主要用于进行基音周期标定和检测基音值，以及用于检测例如声门开打和关闭等声门事件。

图2示出了EGG信号的测量方法以及所测量的EGG信号的示例。如图所示，一对板电极板被置于说话者甲状软骨两侧，在该对电极之间通过小的高频电流。由于人体组织是良好的电导体，而空气不是。在发音时，声襞(人体组织)时时被声门(空气)断开。当声襞分开时，声门打开，从而增加喉部的电阻抗。当声襞接近时，声门的大小减小，从而减小喉部的电阻抗。电阻抗的这些变化引起一侧电极上电流大小的改变，从而产生EGG信号。

DEGG信号为EGG信号对时间的微分，它完整保留了EGG信号中的信息，因而也能真实地反映说话时发声时声门的振动。

DEGG/EGG信号与声门源信号不完全相同，但在两者之间紧密相关。DEGG/EGG信号容易测量，而声门源信号不容易测量。因此，可以使用DEGG/EGG信号作为声门源信号的替代。

图3示例性地示出了EGG信号、DEGG信号、声门面积、以及语音信号随时间的变化，以及它们之间的对应关系。由图中可见，EGG信号和DEGG信号与语音输出信号的波形之间存在着明显的相关性和对应关系，因此，可以将语音输出信号视为声道滤波器对EGG或DEGG为输入信号的处理结果。

图4示出了本发明采用的利用了DEGG信号的扩展的声源-滤波器模型。如图所示，在该模型中，作为声道滤波器的输入的声门源信号被当作一声门滤波器的输出，并且它是由被输入到该声门滤波器中的DEGG信号产生的。然后，与传统的声源-滤波器模型中一样，声门源信号被输入到声道滤波器中，声道滤波器在对声门源信号的处理过程中接受扰动，并且其输出与噪声相叠加而产生最后的语音信号。

该扩展的声源-滤波器模型可被简化为如图5所示的简化声源-滤波器模型。如该图所示，上述扩展的声源-滤波器模型中的声门滤波器和声道滤波器被合并为单个声道滤波器，这样，DEGG信号成为该声道滤波器的输入。该声道滤波器对该DEGG信号进行处理，在处理过程中接受扰动，并且其输出结果与噪声相叠加而成为输出语音信号。

本发明基于该简化的声源-滤波器模型，把语音信号视为声道滤波器对DEGG信号处理后的输出。它的目标是给定所记录的语音信号以及同步记录的相应的DEGG信号，如何估计声道滤波器的特征，即声道滤波器随时间变化的状态。这是一个解卷积的问题，通常这一问题是多少条件不足的。

声道滤波器的状态可以由其单位冲激响应完全地表示。如相关领域的技术人员所知的，简言之，一***的冲激响应就是当该***接收非常短的信号即一冲激时它的输出，而其单位冲激响应即当其接受单位冲激(即在除了时间零点以外所有其他时间点上大小为零，在整个时间轴上积分为1的冲激)时的输出。如相关领域的技术人员所知的，任何信号都可视为一系列单位冲激响应的经过平移和乘以系数后的线性叠加，而对于线性时不变(LTI)***而言，由其输入信号所产生的输出信号等于由该输入信号的各线性构成部分分别产生的输出的同样的线性叠加。因此，一线性时不变***的由任何输入信号产生的输出信号都可视为该***的一系列单位冲激响应经过平移和乘以系数之后的线性叠加。也就是说，给定一***时不变***的单位冲激响应，则可得出该***的任何输入信号所产生的输出信号，即该***的状态可由其单位冲激响应唯一地确定。

尽管大多数真实的***并非严格的线性时不变***，但大多数***在一定的条件范围内可由线性时不变***很好地近似。

声道滤波器尽管是随时间变化的，但在短的时间间隔中，声道滤波器可视为是不变的。因而其在任何时间点上的状态可由其在该时间点上的单位冲激响应唯一地确定。

本发明使用卡尔曼滤波器来估计声道滤波器在任何给定时间点上的状态，即其在该时间点上的单位冲激响应。如相关领域的技术人员所知的，卡尔曼滤波器是一种高效的递归滤波器，它的表现形式为一组数学方程，它根据一系列不完整和有噪声的测量来估计一动态***的状态，并使得这种估计的均方误差最小化。它能够用来估计***过去、现在、甚至未来的状态。

卡尔曼滤波器基于在时域上离散化的线性动态***。它的基础模型是建立于由高斯噪声所干扰的线性算子上的隐马尔可夫链。***的状态由一实数向量表示。在每一离散时间增量上，一线性算子被应用到该状态以产生一新的状态，并有某些噪声加入，以及可选地来自***控制的某种信息(如果知道的话)。然后，另一个线性算子与进一步的噪声混合从该隐藏状态产生可见的输出。

卡尔曼滤波器假定***在时间点k的真实状态是根据以下状态方程从时间点(k-1)处的状态发展而来的：

x_k＝Ax_k-1+Bu_k+d_k

其中

·A是被应用到前一状态x_k-1的状态转换模型；

·B是被应用到控制向量u_k的控制输入模型；

·d_k是过程噪声，其被假设为具有正态概率分布的白噪声(协方差为Q的零均值多元正态概率分布)：d_k～N(0，Q)

在时间点k，根据以下观测方程，得到真实状态x_k的观测值(或测量值)v_k：

v_k＝Hx_k+n_k

其中，H是将真实状态空间映射到观察空间的观测模型，而n_k是观测噪声，其被假设为协方差为R的零均值高斯白噪声：

n_k～N(O，R)

初始状态和每一步的噪声向量{x₀，w₁，...，w_k，v₁...v_k}被假设为是相互独立的。

卡尔曼滤波器是一种递归的估计器。这意味着仅需要来自前一时间步骤的估计状态和当前测量值来计算当前状态的估计值，而不需要观测和或估计的历史。

***的状态由两个变量表示：

x_k ^＊，在时间点k的状态的估计值；

P_k，误差协方差矩阵(状态估计值的估计精确度)。

卡尔曼滤波具有两个不同的阶段：预估和修正。预估阶段使用来自前一时间点的估计值来产生当前状态的估计值。在修正阶段，使用来自当前时间点的测量信息来改进该预估，以得到新的可能更准确的估计值。

预估：

x_{k}^{~} = {Ax}_{k - 1}^{*} + {Bu}_{k - 1}

(预估的状态)

P_{k}^{~} = {AP}_{k - 1} A^{T} + Q

(预估的估计值协方差)

修正：

K_{k} = P_{k}^{~} H^{T} {({HP}_{k}^{~} H^{T} + R)}^{- 1}

(卡尔曼增益)

x_{k}^{*} = x_{k}^{~} + K_{k} (v_{k} - {Hx}_{k}^{~})

(修正的状态)

P_{k} = (I - K_{k} H) P_{k}^{~}

　(修正的估计值协方差)

该两个阶段随着k的递增而递归进行。

其中：

x_k~表示状态预估值，即根据第k-1步的状态，所预估的第k步状态；

x_k ^*表示状态修正值，即根据第k步观测，修正预估值；

P_k~表示估计误差的协方差矩阵的预估值；

P_k表示估计误差的协方差矩阵；

K_k表示卡尔曼增益，它实际上是一个用于修正预估值的反馈系数。

I为单位矩阵，即其对角元素为1，其余元素全部为零。

在本发明的一个实施例中，所述状态方程和观测方程的具体形式为：

状态方程

x_k＝x_k-1+d_k，和

观测方程

v_k＝e_k ^Tx_k+n_k，

其中，x_k＝[x_k(0)，x_k(1)，...，x_k(N-1)]^T表示待估计的、声道滤波器在k时间点上的状态向量，其中x_k(0)，x_k(1)，...，x_k(N-1)表示所述声道滤波器在时间点k的预期单位冲激响应的N个样本；

d_k＝[d_k(0)，d_k(1)，...，d_k(N-1)]^T表示在时间点k添加到状态向量的扰动，即在时间点k处声道滤波器参数随时间的漂移，在本发明的实施例中其被简化为白噪声；

e_k＝[e_k，e_k-1，...，e_k-N+1]^T是一向量，其中元素e_k表示在时间点k输入的DEGG信号；

v_k表示在时间点k作为声道滤波器的输出的语音信号；以及

n_k表示在时间点k添加到所述输出的语音信号的观测噪声。

这就是说，在本发明的该实施例中，相对于上述一般形式的卡尔曼方程，取：

A＝I

B＝0

H = e_{k}^{T}

又，R为一维变量

R＝r

于是，在本发明的该实施例中，所对应的具体的卡尔曼滤波公式为：

1.预估

x_k~＝x_k-1 ^*，

P_k~＝P_k-1+Q

2.修正：

K_k＝P_k~e_k[e_k ^TP_k~e_k+r]^-1

x_k ^*＝x_k~+K_k[v_k-e_k ^Tx_k~]

P_k＝[I-K_ke_k ^T]P_k~

3.递归

k＝k+1；

其中，x_k~表示时间点k的状态预估值，x_k ^＊表示时间点k的状态修正值，P_k~表示估计误差的协方差矩阵的预估值，P_k表示估计误差的协方差矩阵的修正值，Q表示扰动的协方差矩阵，K_k表示卡尔曼增益，r表示观测噪声的方差，I表示单位矩阵；

这样，通过上述卡尔曼滤波过程，估计出声道滤波器在每个时间点上的状态，即其在每个时间点上相对于DEGG/EGG输入信号的单位冲激响应的序列。就是说，在本发明的实施例中，采用声源-滤波器模型，将DEGG/EGG信号视为声道滤波器的输入信号，将语音信号视为声道滤波器的输出信号，将声道滤波器视为其状态随时间变化的动态***，并根据所记录的作为声道滤波器的输出信号的语音信号以及作为声道滤波器的输入信号的DEGG/EGG信号，通过使用卡尔曼滤波来获得声道滤波器的随时间变化的状态，即发音过程中声道滤波器的特征。所述声道滤波器的状态或特征反映了说话者在发出相应的语音内容时其声道滤波器的随时间变化的状态，该声道滤波器状态或特征可用于与各种声门源信号相结合，而形成该语音内容的具有新的说话者特征或其他语音特征的新的语音。

声道滤波器状态的变化是连续的，对其状态的估计也是连续的，但优选地可在每个特定的间隔记录一个状态。记录间隔的选取可以基于多种标准。例如，在本发明的一示例性实现中，每隔10ms记录一个状态，这样就构成了滤波器参数的一个时间序列。

在上述卡尔曼滤波过程中，可以下述方式对Kalman滤波器进行初始化。由于正常情况下Kalman滤波器对初始值的选取并不敏感，仅作为示例，可以自然地取x₀＝0。噪声方差r的取值可以根据具体信号强度和信噪比给出一个估计值，并不要求很精确。例如，实验中有用信号的最大幅值为20000，噪声方差的估计量为200*200＝40000。为简单起见，P₀和Q可以取对角矩阵。例如，P₀的对角元素取为1.0。Q的对角元素取为0.01*0.01＝0.0001(对于低采样率可以适当加大)。具体取值可以通过实验进行调整。仅作为示例，N可以是512。

原则上本发明的方法适用于各种不同的采样频率。为了保证良好的音质，语音信号和DEGG/EGG信号可以均采用16KHz以上的采样频率。例如，在本发明的一个实施例中，采用了22KHz的采样频率。

在本发明的一优选实施例中，使用了双向卡尔曼滤波，来代替上述正常的(前向)卡尔曼滤波。所述双向卡尔曼滤波除包括上述由过去状态估计未来状态的前向卡尔曼滤波外，还包括由未来状态估计过去状态的后向卡尔曼滤波，并将这两种过程的估计结果结合在一起。这样，在对状态或参数进行估计的过程中，不仅利用了过去的信息，而且还利用了未来的信息，实际上使得这种估计由外推变为内插。

所述前向卡尔曼滤波如上所述。所述后向卡尔曼滤波采用以下公式进行：

后向预估：

x_k~＝x_k+1 ^＊，

P_k~＝P_k+1+Q

修正：

K_k＝P_k~e_k[e_k ^TP_k~e_k+r]^-1

x_k ^＊＝x_k~+K_k[v_k-e_k ^Tx_k~]

P_k＝[I-K_ke_k ^T]P_k~

后向递归

k＝k-1；

其中，x_k~表示时间点k的状态预估值，x_k ^＊表示时间点k的状态修正值，P_k~表示估计误差的协方差矩阵的预估值，P_k表示估计误差的协方差矩阵的修正值，Q表示扰动的协方差矩阵，K_k表示卡尔曼增益，r表示观测噪声的方差，I表示单位矩阵。

P_k＝(P_k+ ^-1+P_k- ^-1)^-1，

x_k ^＊＝P_k(P_k+ ^-1x_k+ ^＊+P_k- ^-1x_k- ^＊)，

图6示出了使用本发明的语音分析方法进行语音分析的一个示例。该图示出了对某人发出的汉语拼音韵母“a”的语音进行根据本发明的处理的结果。如图所示，该语音信号及其对应的DEGG信号通过使用双向卡尔曼滤波进行解卷积处理，而得到如图所示的声道滤波器的状态图。该状态图如实地反映了说话者在发出该语音时其声道滤波器的随时间变化的状态。所得到的声道滤波器的对应于该语音内容的状态可与其他声门源信号相结合，而合成该语音内容的具有新的语音特征的语音内容。

图7示出以上说明了根据本发明的实施例的语音分析方法的流程。如图所示，在步骤701，获取同时记录的语音信号和相应的DEGG/EGG信号。在步骤702，将所述语音信号视为声源-滤波器模型中以所述DEGG/EGG信号为输入的声道滤波器的输出。在步骤703，使用卡尔曼滤波并优选地由使用双向卡尔曼滤波由作为输出的所述语音信号和作为输入的所述DEGG/EGG信号估计所述声道滤波器在各时间点上的状态向量。以及优选地，步骤704，选择并记录选定时间点上的、由所述卡尔曼滤波所得到的声道滤波器的状态向量估计值，作为所述声道滤波器的特征。

在本发明的另一个方面，还提供了一种使用根据本发明的上述语音分析方法生成的声道滤波器特征的语音合成方法。图8示出了该语音合成方法的流程图。

如图所示，在步骤801，获取DEGG/EGG信号。优选地，可根据给定的基频和时长，用单个周期的DEGG/EGG信号重构出完整的DEGG/EGG信号。DEGG/EGG信号只包含韵律信息，只有配合适当的声道滤波器参数才能合成有意义的语音信号。所述单个周期的DEGG/EGG信号既可来自相同说话者的、与用于生成所述声道滤波器特征的DEGG/EGG信号的语音内容相同的语音内容，也可来自相同说话者的不同的语音内容，也可来自不同说话者的相同或不同的语音内容。因此，该语音合成过程可用来改变原语音的音高、音强、语速、音质等语音特征。

在步骤802，使用上述本发明的语音分析方法获得声道滤波器的参数。如上所述，优选地使用双向卡尔曼滤波过程根据同步记录的语音信号和DEGG/EGG信号来生成所述声道滤波器参数。所述声道滤波器参数反映了说话者在发出相应的语音内容时其声道滤波器的状态或特征。

在步骤803，根据所述DEGG/EGG信号和所述获得的声道滤波器特征合成语音。如本领域的技术人员可了解的，可容易地使用一卷积过程根据DEGG/EGG信号和声道滤波器参数来合成语音信号。

图9示出了使用该语音合成方法合成语音的过程的一个示例。该图示出了使用重建的DEGG信号以及由图6所示的过程生成的声道滤波器参数合成具有新的语音特征的对应于汉语拼音“a’的语音信号的过程。如图所示，首先获得DEGG(或EGG)信号。然后，该重建的DEGG信号与由根据本发明的上述语音分析方法生成的声道滤波器参数进行卷积，而合成对应于该语音内容的具有新的语音特征的新的语音信号。

应注意的是，以上所述以及附图中示出的根据本发明的实施例的语音分析方法以及语音合成方法仅是根据本发明的语音分析方法和语音合成方法的示例和说明，而不构成对其的限制。根据本发明的语音分析方法和语音合成方法可以具有更多、更少和不同的步骤，并且各步骤之间的顺序可以改变。

本发明还包括与上述语音分析方法和语音合成方法分别相对应的语音分析装置和语音合成装置。

图10示出了根据本发明的实施例的语音分析装置的示意性框图。如图所示，该语音分析装置1000包括语音信号获取模块1001、DEGG/EGG信号获取模块1002、估计模块1003、以及选择记录模块1004。其中，语音信号获取模块1001用于获取说话者在发音过程中的语音信号，并将该信号提供给估计模块1003。DEGG/EGG信号获取模块用于同步记录说话者在发音过程中的与所获取的语音信号相对应的DEGG/EGG信号，并将该DEGG/EGG信号提供给估计模块1003。估计模块1003用于根据所述语音信号和所述DEGG/EGG信号估计所述声道滤波器的特征。在所述估计过程中，所述估计模块1003采用声源-滤波器模型，将所述DEGG/EGG信号视为输入到声道滤波器的声源输入，将所述语音信号视为该声道滤波器的输出，从而根据声道滤波器的输入和输出估计出该声道滤波器的特征。

优选地，该估计模块1003用所述声道滤波器在选定时间点上的状态向量来所示声道滤波器的特征，并使用卡尔曼滤波过程来进行估计，即该估计模块1003实现为一卡尔曼滤波器。

所述卡尔曼滤波所基于的状态方程和观测方程，以及所述卡尔曼滤波以及双向卡尔曼滤波的具体过程如以上针对根据本发明的语音分析过程所述，在此不再赘述。

优选地，所述语音分析装置1000还包括选择记录装置1004，用于选择并记录选定时间点上的、由所述卡尔曼滤波过程所得到的声道滤波器状态估计值，作为所述声道滤波器的特征。仅作为示例，所述选择记录装置可每隔一固定间隔例如10ms选择并记录由所述卡尔曼滤波过程所得到的声道滤波器状态估计值。

图11示出了根据本发明的实施例的语音合成装置的示意性框图。如图所示，根据本发明的实施例的语音合成装置1100包括DEGG/EGG信号获取模块1101，根据本发明的上述语音分析装置1000，以及语音合成模块1102。其中，所述语音合成模块1102用于根据所述DEGG/EGG信号获取模块所获取的DEGG/EGG信号以及所述语音分析装置所估计出的声道滤波器特征合成语音信号。如本领域的技术人员所容易理解的，所述语音合成模块1102可使用卷积等方法根据所述DEGG/EGG信号以及声道滤波器特征合成语音信号。

优选地，所述DEGG/EGG信号获取模块1101进一步被配置为根据给定的基频和时长，用单个周期的DEGG信号重构出完整的DEGG信号。

应注意的是，以上描述及附图中示出的语音分析装置和语音合成装置仅是根据本发明的语音分析装置和语音成生装置的示例和说明，而不构成对其的限制。根据本发明的语音分析装置和语音合成装置可具有更多、更少或不同的模块，并且各模块之间的关系可以与图示和说明的不同。例如，所述选择记录模块1004也可以作为所述估计模块1003的一部分等等。

本发明的语音分析和语音合成方法和装置在各语音相关的技术领域具有广泛的应用前景。例如，本发明的语音分析和语音合成方法和装置可用于小足迹(small footprint)高质量的语音合成或嵌入式语音合成***中。这种***要求数据量很小，例如1M左右。本发明的语音分析和语音合成方法和装置还可成为小足迹的语音分析、语音识别、说话者识别/确认、语音转换、情感语音合成(emotional speech synthesis)或其他语音技术中的有用工具。

本发明可以硬件、软件、固件或其任何结合的方式实现。一种典型的硬件和软件的组合可以是带有计算机程序的、并配备有语音输入和输出设备的通用或专用计算机***，当该计算机程序被加载和执行时，控制该计算机***及其各部件而使其执行本文中描述的方法。

尽管以上参照优选实施例具体示出和说明了本发明，但是本领域内的那些技术人员应理解，可在形式和细节上对其进行各种改变而不会背离本发明的精神和范围。

Claims

1.一种语音分析方法，包括以下步骤：

获取语音信号和相应的微分电声门图信号或电声门图信号，其中微分电声门图信号为电声门图信号对时间的微分；

将所述语音信号视为声源-滤波器模型中以所述微分电声门图信号或电声门图信号为输入的声道滤波器的输出；以及

由作为输出的所述语音信号和作为输入的所述微分电声门图信号或电声门图信号估计所述声道滤波器的特征，

其中所述声道滤波器特征由所述声道滤波器在选定时间点的状态向量表示，且所述估计步骤是使用卡尔曼滤波完成的，并且

其中所述卡尔曼滤波基于：

状态方程

x_k＝x_k-1+d_k，和

观测方程

v_k＝e_k ^Tx_k+n_k，

d_k＝[d_k(0)，d_k(1)，...，d_k(N-1)]^T表示在时间点k添加到状态向量的扰动；

e_k＝[e_k，e_k-1，...，e_k-N+1]^T是一向量，其中元素e_k表示在时间点k输入的微分电声门图信号；

v_k表示在时间点k输出的语音信号；以及

n_k表示在时间点k添加到所述输出的语音信号的观测噪声。

2.根据权利要求1的语音分析方法，其中所述卡尔曼滤波为包括前向滤波和后向滤波的双向卡尔曼滤波，其中，

所述前向卡尔曼滤波包括以下步骤：

前向预估：

x_k ^～＝x_k-1 ^＊，

P_k ^～＝P_k-1+Q

修正：

K_k＝P_k ^～e_k[e_k ^TP_k ^～e_k+r]^-1

x_k ^＊＝x_k ^～+K_k[v_k-e_k ^Tx_k ^～]

P_k＝[I-K_ke_k ^T]P_k ^～

前向递归

k＝k+1；

所述后向卡尔曼滤波包括以下步骤：

后向预估：

x_k ^～＝x_k+1 ^＊，

P_k ^～＝P_k+1+Q

修正：

K_k＝P_k ^～e_k[e_k ^TP_k ^～e_k+r]^-1

x_k ^＊＝x_k ^～+K_k[v_k-e_k ^Tx_k ^～]

P_k＝[I-K_ke_k ^T]P_k ^～

后向递归

k＝k-1；

其中，x_k ^～表示时间点k的状态预估值，x_k ^＊表示时间点k的状态修正值，P_k ^～表示估计误差的协方差矩阵的预估值，P_k表示估计误差的协方差矩阵的修正值，Q表示扰动d_k的协方差矩阵，K_k表示卡尔曼增益，r表示观测噪声n_k的方差，I表示单位矩阵；并且

P_k＝(P_k+ ^-1+P_k- ^-1)^-1，

x_k ^＊＝P_k(P_k+ ^-1x_k+ ^＊+P_k- ^-1x_k- ^＊)，

3.根据权利要求2的语音分析方法，还包括选择并记录选定时间点上的、由所述卡尔曼滤波所得到的声道滤波器状态估计值，作为所述声道滤波器的特征。

4.一种语音合成方法，包括以下步骤：

获取微分电声门图信号或电声门图信号，其中微分电声门图信号为电声门图信号对时间的微分；

使用权利要求1-3中任何一个的方法获得声道滤波器的特征；以及

根据所述微分电声门图信号或电声门图信号和所述获得的声道滤波器特征合成语音。

5.根据权利要求4的语音合成方法，其中所述获取微分电声门图信号或电声门图信号的步骤包括：

根据给定的基频和时长，用单个周期的微分电声门图信号或电声门图信号重构出完整的微分电声门图信号或电声门图信号。

6.一种语音分析装置，包括：

用于获取语音信号的模块；

用于获取相应的微分电声门图信号或电声门图信号的模块，其中微分电声门图信号为电声门图信号对时间的微分；以及

估计模块，其用于通过将所述语音信号视为声源-滤波器模型中以所述微分电声门图信号或电声门图信号为输入的声道滤波器的输出，由作为输出的所述语音信号和作为输入的所述微分电声门图信号或电声门图信号估计所述声道滤波器的特征，

其中所述估计模块用所述声道滤波器在选定时间点上的状态向量表示所述声道滤波器特征，且使用卡尔曼滤波完成所述估计，并且

其中所述卡尔曼滤波基于：

状态方程

x_k＝x_k-1+d_k，和

观测方程

v_k＝e_k ^Tx_k+n_k，

其中，x_k＝[x_k(0)，x_k(1)，...，x_k(N-1)]^T表示待估计的、声道滤波器在时间点k的状态向量，其中x_k(0)，x_k(1)，...，x_k(N-1)表示所述声道滤波器在时间点k的预期单位冲激响应的N个样本；

e_k＝[e_k，e_k-1，....，e_k-N+1]^T是一向量，其中元素e_k表示在时间点k输入的微分电声门图信号；

v_k表示在时间点k输出的语音信号；以及

n_k表示在时间点k添加到所述输出的语音信号的观测噪声。

7.根据权利要求6的语音分析装置，其中所述卡尔曼滤波为包括前向卡尔曼滤波和后向卡尔曼滤波的双向卡尔曼滤波，其中，

所述前向卡尔曼滤波包括以下步骤：

前向预估：

x_k ^～＝x_k-1 ^＊，

P_k ^～＝P_k-1+Q

修正：

K_k＝P_k ^～e_k[e_k ^TP_k ^～e_k+r]^-1

x_k ^＊＝x_k ^～+K_k[v_k-e_k ^Tx_k ^～]

P_k＝[I-K_ke_k ^T]P_k ^～

前向递归

k＝k+1；

所述后向卡尔曼滤波包括以下步骤：

后向预估：

x_k ^～＝x_k+1 ^＊，

P_k ^～＝P_k+1+Q

修正：

K_k＝P_k ^～e_k[e_kTP_k ^～e_k+r]^-1

x_k ^＊＝x_k ^～+K_k[v_k-e_k ^Tx_k ^～]

P_k＝[I-K_ke_k ^T]P_k ^～

后向递归

k＝k-1；

P_k＝(P_k+ ^-1+P_k- ^-1)^-1，

x_k ^＊＝P_k(P_k+ ^-1x_k+ ^＊+P_k- ^-1x_k- ^＊)，

其中P_k+、x_k+分别为由前向卡尔曼滤波所得的声道滤波器的状态估计和估计的协方差，而P_k-、x_k-分别为由后向卡尔曼滤波所得的声道滤波器的状态估计和状态估计的协方差。

8.根据权利要求7的语音分析装置，还包括选择记录模块，用于选择并记录选定时间点上的、由所述卡尔曼滤波所得到的声道滤波器状态估计值，作为所述声道滤波器的特征。

9.一种语音合成装置，包括：

用于获取微分电声门图信号或电声门图信号的模块，其中微分电声门图信号为电声门图信号对时间的微分；

根据权利要求6-8中任何一个的语音分析装置；以及

语音合成模块，其用于根据所述用于获取微分电声门图信号或电声门图信号的模块所获取的微分电声门图信号或电声门图信号以及所述语音分析装置所估计出的声道滤波器特征合成语音信号。

10.根据权利要求9的语音合成装置，其中所述用于获取微分电声门图信号或电声门图信号的模块进一步被配置为：