CN1267384A

CN1267384A - 从包括若干语音段的语音信号中确定语言的语音块的代表的方法

Info

Publication number: CN1267384A
Application number: CN98808350A
Authority: CN
Inventors: M·霍泽普菲尔
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1997-08-21
Filing date: 1998-07-27
Publication date: 2000-09-20
Anticipated expiration: 2018-07-27
Also published as: WO1999010878A1; CN1115664C; EP1005694A1; ES2167945T3; JP2001514400A; EP1005694B1; DE59801989D1

Abstract

将一个语音信号分成单个的语音段以后,将各表示语言的一个语音块的语音段综合成为一个组。在一个组内多个语音段常常是程度不同好地描述一个语音块。推荐了不同的选择尺度,借助于选择尺度对各个语音段可以在可使用性方面进行评价。选择尺度的组合的优点是,从语音段中选定一个代表时可以考虑多个不同的评价准则。对于每个选择尺度有一个隶属关系函数,该隶属关系函数指出适合于作为组的代表的每个单个语音段的可使用性。语音段被优先确定为相应的语音块的代表时,这个语音段由隶属关系函数得出的隶属关系尺度是组中语音段中的一个最大值。

Description

从包括若干语音段的语音信号中确定语言的语音块的代表的方法

本发明涉及从一个包括若干语音段(Lautabschnitt)的语音信号中确定一种语言的语音块(Sprachbaustein)的代表(Repraesentant)的方法。

对于专家来说已知，由一个人说出的信号，即一个语音信号是可以分成为语音段(分段)的，其中每个语音段包括语音信号的一部分。

一种语言从它那方面来说可以被描述成为很多模块化的语音块的组合。

一个隶属关系函数说明，一个语音段用什么样的隶属关系尺度代表一个相应的语音块。

为了从数据库中选择语音块存在许多方法。其中经韵律学的[1]，语言学的[2]或连续性准则[3]进行一种优化。在文献[4]中叙述了自动生成的数据库。

在文献[5]中已知几种隐含-马尔科夫-模型(HMMs)。

一个语音信号的分段可以借助于按语音信号训练的HMMs(见文献[4])用“快速-维特比-调整”进行。

用手动方法将语音信号分成各个语音段是有缺点的，因为这要求极大的费用和经验，而且必须对每个讲话的人单独进行。

此外还有更严重的缺点是，没有对被选择的代表(Repraesentant)的适用性进行检验，并且因此由于选择一个不良的代表作为一个语音块，相应地语音合成的结果也是坏的。

作为本发明基础的任务在于，从一个包括若干语音段的语音信号中确定代表一种语言的语音块的方法。这种方法避免了上述缺点并且确保改善代表的选择。

对一种分段评价是借助于单个语音段进行的统计评价，从而可以把有关语音段的一个统计上“好的”代表确定为一个段。

本发明的任务是按照权利要求1的特征解决的。

按照本发明指出了从一个包括若干语音段的语音信号中确定代表一种语言的语音块的方法。在本方法中语音信号的语音段根据语音块的隶属关系，总是被综合在属于这个被选定的语音块的一个组里。从而人们得到对于多个语音块各自具有至少一个语音段的一个组。选择尺度用作为，从语音信号中求得语音段的选择值，并且确定有关组的语音段取得的选择值的频度。借助于如此取得的频度确定隶属关系函数，一个组中的每个语音段的隶属关系函数给出隶属关系尺度，而隶属关系尺度则说明，是否这个语音段可以被用作为一个代表(即一个被选定的语音段)。现在语音段被确定为有关被选定的语音块的组的代表，其隶属关系尺度位于预先规定的阈值以上。

这种方法的一个大优点在于，不是从被选定的语音块的组里取出任何一个代表，而是求出一个代表，而这个代表具有足够高的品质因素来描述被选定的语音块(相当高的隶属关系尺度)。

属于一个语音块的一个组的语音段，涉及到其可使用性，统计地被分散在语音信号里。而语音信号优先由自然的谈话语言作为一个长的语言样件供计算机使用。对于有关被选定的语音块有所谓“好的”和“坏的”语音段。用本发明特别可以避免，确定一个坏的语音段作为被选定的语音块的代表。

本发明的一个扩展，至少使用语音段的一个另外的选择尺度。在其中对于每个语音段各自得出至少一个另外的选择值。对于语音段的每个组(即对于每个被选定的语音块)求出所有选择值的或然率，并且如上所述由这些或然率得出一个隶属关系函数。

在一个附加的扩展中，从语音段的组中确定被选定的语音块的代表，在其中每个隶属关系尺度(对于每个选择尺度得出具有一个隶属关系尺度的隶属关系函数)相乘为一个总尺度。如果各个语音段的总尺度位于一个预先规定的总阈值之上，则这个语音段适合作为被选定的语音块的代表，并且从语音段的组中被选定。而该语音段是属于这个被选定的语音块的。

确定多个选择尺度来确定代表的优点是，因为这样可以确保没有太坏的选择值。在总尺度中隶属关系尺度相乘加权相当于或然率密度函数的一个与-逻辑运算。代表则可以足够的品质因素满足所有选择尺度。

另外本发明的一个扩展是，语音段是一种语言的音素，双音，三音，音节半音节或字。由这些所述的语音段的组合也是可能的。

一个另外的扩展在于，语音段是从属于隐含-马尔科夫-模型(HMM)的单个状态的。

还有一个扩展是，选择尺度是由以下列举的量确定的。

a)各个语音段的能量；

b)各个语音段的长度；

c)各个语音段的基频；

d)各个语音段的长度控制；

e)适合于各个语音段的统计学尺度。

本发明的一个特殊的扩展在于，从被求得的代表中产生合成语音。按照本发明求出语音块的代表，借助于这些代表可以以完全新的关系组合成由语音块确定的语言。从而得出一个合成的语音输出，其中由各个代表(语音段)体现的语音块以新的依次排列被输出。

本发明还有一个扩展是，确定语音段作为被选定的语音块的代表，其隶属关系尺度具有最高的数值或者如果考虑用多个选择尺度时，其总尺度具有最高值。这样就在有关被选定的语音块的语音段的组中得到“最佳的”语音段。

本发明的扩展也可以由从属权利要求中得到。

借助于下面的附图进一步叙述本发明的实施例。

它们表示

附图1表示从包括一个语音段的语音信号中，确定代表一种语言的语音块的方法的各个步骤的框图，

附图2表示一种语言结构及其在语音信号上的映象，特别是朗读文本的一个简图，

附图3表示‘长度控制’选择尺度的一个简图，

附图4表示‘基频’选择尺度的一个简图，

附图5表示‘能量’选择尺度的一个简图，

附图6表示‘SCORE得分’选择尺度的一个简图。

从一个语音信号，最好是从一个讲话人的一个足够长的语音试样中，确定语音块对于一个拼接的语音合成来说是重要的，就是将被找到的语音块重新排列成新的语义的语音排列。从语音信号中“剪裁”下来的各个语音段愈准确，则合成语音的品质也愈高。

在附图1中表示，从包括一个语音段的语音信号中确定代表一种语言的语音块的方法的单个步骤。在101步骤中，将语音信号的语音段对应于语音块的隶属关系，综合成为每个语音块各一个组。这种综合可以自动地进行，和例如在文献[4]中叙述的。优先按语音信号进行HMM(＝隐含-马尔科夫-模型)训练。语音信号可以是大约长度为一小时至三小时的一种任意的语音试样。在101步骤进行以后语音段被综合成组，其中每个组至少包括一个语音段，该语音段是属于语言的一个预先规定的语音块的。

在每个这样的组里多半包括有多个语音段，此时为了语音合成应该从每个组中确定一个代表。在一个组里的各个语音段并不是所有的都一样，而是遵循统计分布。下面将利用分布的知识，以便找到和选定在一个组里的语音段的一个合适的代表。

为此，根据预先规定的选择尺度计算语音段，其中对每个选择尺度的每个语音段得出一个选择值。最好对于各个语音段按不同的选择尺度进行估算，对于每个选择尺度得出一个特有的选择值(对于每个语音段)(见步骤102)。

对于每个组求出这个组的所有语音段的被求出的选择值的频度(见步骤103)。这相当于在二维图上绘图，其中横坐标是选择尺度数值和纵坐标表示频度。对于组里所有语音段的每个选择尺度产生这样一幅图，其中这图表示根据选择尺度计算出的语音段的一个统计分布。

在下一个步骤104中利用被求得的频度，以便求得隶属关系函数(对于每个上述的图)。隶属关系函数最好在选择值的统计分布的频度上面画出一条包络线。这个步骤也还是要对每个组的选择尺度进行的。如上所述，一个组包括表达预先规定的语音块的所有语音段。从隶属关系函数可以求出对每个语音段的一个隶属关系尺度。隶属关系尺度表示，作为代表各个选择尺度的组中各个语音段的可使用性的一个尺度。

随后在步骤105中选择语音段作为代表，其隶属关系尺度位于一个预先规定的阈值之上。如上所述，最好使用多个选择尺度，这样对于每个语音段就得出多个隶属关系尺度。多个隶属关系尺度逻辑相乘运算，得出一个总尺度。然后相应地选定语音段作为组的代表，其总尺度位于一个预先规定的总阈值之上。

为了清晰起见，附图2表示了包括有语音块SBSi(i＝1，2，…，n)的语言SPR，和包括综合在组GRi中的语音段LAi-j(j＝1，2…，n)的语音信号SSI之间的关系。

用逻辑运算201表示，语音块SBS1可以用语音段LA1-1，AL1-2，LA1-3，…，LA1-m表达。这个从属于语音块SBS1的语音段是综合在组GR1中的。组GR1中各个的语音段是由语音信号中得到的并且描述所有的语音块SBS1。根据语音信号，与不同的选择尺度有关各个语音段各自具有不同的品质因素。因此目标是，从组GR1的语音段中得出一个“可使用的”代表。这个代表在合成语音时可以实现语音块SBS1。

同样的关系相似地适合于逻辑运算202。一个任意的语音块SBSn可以用大量的(在这里是‘p’)综合在一个组GR2中的语音段来表达。

随后应对上述的选择尺度进行研究。对于这样的选择尺度有多种可能性，其中在这里推荐一种选择。这种选择可以使用单个的，或相互组合的，或也可以与另外的选择尺度组合的，以便有可能从语音段组中有利地确定一个代表。

附图3表示将长度控制作为选择尺度，即语音段原本的持续时间相对于语音段合成的持续时间的一个尺度。直到对每一个阈值L_UG和上阈值L_OG的偏差都被认为是没有问题的。超出这个阈值，即小于下阈值L_UG或大于上阈值L_OG，则隶属关系函数Z_{l_syn}指数地下降。此时隶属关系函数Z_{l_syn}是通过以下公式来确定的：

(1).

通过将平均长度l_Φ规一化为1，则偏差为相对的。隶属关系函数Z_{l_syn}也规一化为1。ZG表示隶属关系尺度。

附图4表示将基频-控制作为选择尺度。在其中语音段的基频对一个目标-基频(在合成语音时)的偏差应该是最小。隶属关系函数Z_l-syn具有下面的形式：

(2).

在这里为了清晰起见也将对频率f规一化为平均频率f_Φ。也将隶属关系函数Z_l-syn规一化为1。频率的上参数用f_OG和频率的下参数用f_UG表示。

在附图5中表示将语音段的能量作为选择尺度。这个能量对能量的一个平均值的相对偏差是隶属关系函数Z_E-al的判据：

(3).

能量E的平均值是E_Φ(期望值)，E_UG是能量的一个下阈值，E_OG是能量的一个上阈值，和σ_E是能量的变量。将隶属关系函数Z_{E_al}规一化为1。

人们使用语音段的长度代替能量作为选择尺度，这样与附图5类似地产生一个隶属关系函数Z_l-al用来评价语音段长度改变的相对偏差。如果也存在一个上阈值L_OG，一个下阈值L_UG和一个长度的方差σ₁，则隶属关系函数Z_{l_al}为：

(4).在附图6中表示了得分SCORE作为选择尺度。得分SCORE是一个语音段适合作为代表的一个尺度，也就是说一个准备选定的语音段是一个典型的，有特征的按字节发音的语音段，因此‘适合’从而作为相应的语音块的代表。

在具有“最佳的”(Z_s(smax)＝1)和具有“最差的”(Z_s(smin)＝1-s_G)得分SCORE选择尺度的语音段之间的隶属关系函数Z_s(s)被假设是线性的(见附图6中相应曲线Z_s(s))。这个隶属关系函数Z_s(s)可以按下面的公式确定：

为了判断，一个语音段是否适合作为相应的语音块的一个代表，最好考虑多个已经建立的隶属关系函数。为了确保，被选定的一个代表，没有一个隶属关系函数的数值位于预先规定的阈值以下，则将单个的隶属关系尺度进行与-逻辑运算。这是由各个的隶属关系尺度相乘为一个总尺度实现的。在考虑上面列举的隶属关系函数情况下得出：

关于在隶属关系函数Z_E-al和Z_l-al对所有状态的相乘是指在用于描述语音段的一种HMMs内的各个状态。各根据模型化，可以使用具有不同数量状态的HMMs，其中对每个语音段而言所有这些状态单个地载入由隶属关系函数Zges得出的总尺度中。

在本文范围内引用了以下文献：

[1]Nick Campell，Alan W Black：“Prosody and the Selection

of Source Units for Concatenative Synthesis”，in

Progress Speechsynthesis，ISBN 0-387-94701-9，Springer

Verlag New York，1997，S.279-292

尼克.堪培尔，阿兰.维.布莱克：“用于拼接合成的源单元的韵律学和选择”语言合成会议文集，ISBN 0-387-94701-9，斯普林格出版社，纽约，1997年第279-292页

[2]Andrew J.Hunt，Alan W.Black：“Unit Selection in a

concatenative speechsynthesis system using a large

speech data base”，Proc.EUROSPEECH 1995，Madrid，

S.373-376。

安德列夫.捷.珲特，阿兰.维.布莱克：“在使用一个大的语言数据库的拼接的语言合成***中的单元选择”欧洲语言1995会议文集，马德里，第373-376页。

[3]Alistair D.Conkie，Stephen Isard：“Optimal Coupling

of Diphones”，in Progress in Speechsynthesis，ISBN

0-387-94701-9，Springer Verlag New York，1997，S.293-

304。

阿利斯泰尔.德.康科，斯提凡.易萨尔：“双音的最佳耦合”，语言合成会议文集，ISBN 0-387-94701-9，斯普林格出版社，纽约，1997年第279-292页。

[4]R.E.Donovan，P.C.Woodland：“Improvements in an HMM

-based speechsynthesiser”，Proc.ICASSP 1995，

Michigan，S.573-576。

阿.埃.斗讷万，皮.希.武特兰德：“在HMM-基础上的语音合成器的改进”，ICASSP 1995会议文集，密执安，第573-576页

[5]G.Ruske：“Automati sche Spracherkennung：Methoden der

Klassifikation u.Merkmalsextraktion”，Oldenbourg

Verlag，Muenchen，1988，S.160-171。

葛.鲁斯科：“自动语音识别：分类和特征提取方法”，欧伦堡出版社，慕尼黑，1988，第160-171页。

Claims

1.从一个包括若干语音段的语音信号中确定一种语言的预先规定的语音块的代表的方法，

a)其中，将语音信号的语音段对应于语言的语音块综合成各一个

组，

b)其中，对于各个组的语音段按照一种预先规定的选择尺度从语

音信号中求出选择值，

c)其中，确定组的选择值的频度，

d)其中，借助于频度确定隶属关系函数，该隶属关系函数是说明

有关组的有关语音段可使用性的一个隶属关系尺度，

e)其中，从被选定的语音块的语音段的组中确定，其隶属关系尺

度位于一个预先规定的阈值以上的，那个语音段作为代表。

2.按照权利要求1的方法，

其中，借助于至少一个另外的选择尺度求出组中语音段的另外的选择值，和确定另外选择值的其它频度，并且对于每个另外的频度，确定具有相应的另外的隶属关系尺度的一个另外的隶属关系函数。

3.按照权利要求2的方法，

其中，每个隶属关系尺度相乘地进入总尺度，并且从语音段的组中求出代表，其总尺度位于预先规定的总阈值以上。

4.按照上述权利要求之一的方法，

其中，语音段是语言的音素，双音，三音，音节，半音节，字或这些的组合。

5.按照上述权利要求之一的方法，

其中，语音段是归属于隐含—马尔科夫—模型的单个状态的。

6.按照上述权利要求之一的方法，

其中，选择尺度是下面列举的量中的一个：

a)各个语音段的能量；

b)各个语音段的长度；

c)各个语音段的基频；

d)各个语音段的长度控制；

e)对各个语音段配合的统计尺度。

7.按照上述权利要求之一的方法，

其中，从得到的代表组合成为语言。

8.按照上述权利要求之一的方法，

其中，确定语音段为语音块的代表，其隶属关系尺度具有最高的数值，或如果考虑多个选择尺度，其总尺度具有最高的数值。