CN1267384A - 从包括若干语音段的语音信号中确定语言的语音块的代表的方法 - Google Patents

从包括若干语音段的语音信号中确定语言的语音块的代表的方法 Download PDF

Info

Publication number
CN1267384A
CN1267384A CN98808350A CN98808350A CN1267384A CN 1267384 A CN1267384 A CN 1267384A CN 98808350 A CN98808350 A CN 98808350A CN 98808350 A CN98808350 A CN 98808350A CN 1267384 A CN1267384 A CN 1267384A
Authority
CN
China
Prior art keywords
voice segments
speech
group
representative
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN98808350A
Other languages
English (en)
Other versions
CN1115664C (zh
Inventor
M·霍泽普菲尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN1267384A publication Critical patent/CN1267384A/zh
Application granted granted Critical
Publication of CN1115664C publication Critical patent/CN1115664C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

将一个语音信号分成单个的语音段以后,将各表示语言的一个语音块的语音段综合成为一个组。在一个组内多个语音段常常是程度不同好地描述一个语音块。推荐了不同的选择尺度,借助于选择尺度对各个语音段可以在可使用性方面进行评价。选择尺度的组合的优点是,从语音段中选定一个代表时可以考虑多个不同的评价准则。对于每个选择尺度有一个隶属关系函数,该隶属关系函数指出适合于作为组的代表的每个单个语音段的可使用性。语音段被优先确定为相应的语音块的代表时,这个语音段由隶属关系函数得出的隶属关系尺度是组中语音段中的一个最大值。

Description

从包括若干语音段的语音信号中确定 语言的语音块的代表的方法
本发明涉及从一个包括若干语音段(Lautabschnitt)的语音信号中确定一种语言的语音块(Sprachbaustein)的代表(Repraesentant)的方法。
对于专家来说已知,由一个人说出的信号,即一个语音信号是可以分成为语音段(分段)的,其中每个语音段包括语音信号的一部分。
一种语言从它那方面来说可以被描述成为很多模块化的语音块的组合。
一个隶属关系函数说明,一个语音段用什么样的隶属关系尺度代表一个相应的语音块。
为了从数据库中选择语音块存在许多方法。其中经韵律学的[1],语言学的[2]或连续性准则[3]进行一种优化。在文献[4]中叙述了自动生成的数据库。
在文献[5]中已知几种隐含-马尔科夫-模型(HMMs)。
一个语音信号的分段可以借助于按语音信号训练的HMMs(见文献[4])用“快速-维特比-调整”进行。
用手动方法将语音信号分成各个语音段是有缺点的,因为这要求极大的费用和经验,而且必须对每个讲话的人单独进行。
此外还有更严重的缺点是,没有对被选择的代表(Repraesentant)的适用性进行检验,并且因此由于选择一个不良的代表作为一个语音块,相应地语音合成的结果也是坏的。
作为本发明基础的任务在于,从一个包括若干语音段的语音信号中确定代表一种语言的语音块的方法。这种方法避免了上述缺点并且确保改善代表的选择。
对一种分段评价是借助于单个语音段进行的统计评价,从而可以把有关语音段的一个统计上“好的”代表确定为一个段。
本发明的任务是按照权利要求1的特征解决的。
按照本发明指出了从一个包括若干语音段的语音信号中确定代表一种语言的语音块的方法。在本方法中语音信号的语音段根据语音块的隶属关系,总是被综合在属于这个被选定的语音块的一个组里。从而人们得到对于多个语音块各自具有至少一个语音段的一个组。选择尺度用作为,从语音信号中求得语音段的选择值,并且确定有关组的语音段取得的选择值的频度。借助于如此取得的频度确定隶属关系函数,一个组中的每个语音段的隶属关系函数给出隶属关系尺度,而隶属关系尺度则说明,是否这个语音段可以被用作为一个代表(即一个被选定的语音段)。现在语音段被确定为有关被选定的语音块的组的代表,其隶属关系尺度位于预先规定的阈值以上。
这种方法的一个大优点在于,不是从被选定的语音块的组里取出任何一个代表,而是求出一个代表,而这个代表具有足够高的品质因素来描述被选定的语音块(相当高的隶属关系尺度)。
属于一个语音块的一个组的语音段,涉及到其可使用性,统计地被分散在语音信号里。而语音信号优先由自然的谈话语言作为一个长的语言样件供计算机使用。对于有关被选定的语音块有所谓“好的”和“坏的”语音段。用本发明特别可以避免,确定一个坏的语音段作为被选定的语音块的代表。
本发明的一个扩展,至少使用语音段的一个另外的选择尺度。在其中对于每个语音段各自得出至少一个另外的选择值。对于语音段的每个组(即对于每个被选定的语音块)求出所有选择值的或然率,并且如上所述由这些或然率得出一个隶属关系函数。
在一个附加的扩展中,从语音段的组中确定被选定的语音块的代表,在其中每个隶属关系尺度(对于每个选择尺度得出具有一个隶属关系尺度的隶属关系函数)相乘为一个总尺度。如果各个语音段的总尺度位于一个预先规定的总阈值之上,则这个语音段适合作为被选定的语音块的代表,并且从语音段的组中被选定。而该语音段是属于这个被选定的语音块的。
确定多个选择尺度来确定代表的优点是,因为这样可以确保没有太坏的选择值。在总尺度中隶属关系尺度相乘加权相当于或然率密度函数的一个与-逻辑运算。代表则可以足够的品质因素满足所有选择尺度。
另外本发明的一个扩展是,语音段是一种语言的音素,双音,三音,音节半音节或字。由这些所述的语音段的组合也是可能的。
一个另外的扩展在于,语音段是从属于隐含-马尔科夫-模型(HMM)的单个状态的。
还有一个扩展是,选择尺度是由以下列举的量确定的。
a)各个语音段的能量;
b)各个语音段的长度;
c)各个语音段的基频;
d)各个语音段的长度控制;
e)适合于各个语音段的统计学尺度。
本发明的一个特殊的扩展在于,从被求得的代表中产生合成语音。按照本发明求出语音块的代表,借助于这些代表可以以完全新的关系组合成由语音块确定的语言。从而得出一个合成的语音输出,其中由各个代表(语音段)体现的语音块以新的依次排列被输出。
本发明还有一个扩展是,确定语音段作为被选定的语音块的代表,其隶属关系尺度具有最高的数值或者如果考虑用多个选择尺度时,其总尺度具有最高值。这样就在有关被选定的语音块的语音段的组中得到“最佳的”语音段。
本发明的扩展也可以由从属权利要求中得到。
借助于下面的附图进一步叙述本发明的实施例。
它们表示
附图1表示从包括一个语音段的语音信号中,确定代表一种语言的语音块的方法的各个步骤的框图,
附图2表示一种语言结构及其在语音信号上的映象,特别是朗读文本的一个简图,
附图3表示‘长度控制’选择尺度的一个简图,
附图4表示‘基频’选择尺度的一个简图,
附图5表示‘能量’选择尺度的一个简图,
附图6表示‘SCORE得分’选择尺度的一个简图。
从一个语音信号,最好是从一个讲话人的一个足够长的语音试样中,确定语音块对于一个拼接的语音合成来说是重要的,就是将被找到的语音块重新排列成新的语义的语音排列。从语音信号中“剪裁”下来的各个语音段愈准确,则合成语音的品质也愈高。
在附图1中表示,从包括一个语音段的语音信号中确定代表一种语言的语音块的方法的单个步骤。在101步骤中,将语音信号的语音段对应于语音块的隶属关系,综合成为每个语音块各一个组。这种综合可以自动地进行,和例如在文献[4]中叙述的。优先按语音信号进行HMM(=隐含-马尔科夫-模型)训练。语音信号可以是大约长度为一小时至三小时的一种任意的语音试样。在101步骤进行以后语音段被综合成组,其中每个组至少包括一个语音段,该语音段是属于语言的一个预先规定的语音块的。
在每个这样的组里多半包括有多个语音段,此时为了语音合成应该从每个组中确定一个代表。在一个组里的各个语音段并不是所有的都一样,而是遵循统计分布。下面将利用分布的知识,以便找到和选定在一个组里的语音段的一个合适的代表。
为此,根据预先规定的选择尺度计算语音段,其中对每个选择尺度的每个语音段得出一个选择值。最好对于各个语音段按不同的选择尺度进行估算,对于每个选择尺度得出一个特有的选择值(对于每个语音段)(见步骤102)。
对于每个组求出这个组的所有语音段的被求出的选择值的频度(见步骤103)。这相当于在二维图上绘图,其中横坐标是选择尺度数值和纵坐标表示频度。对于组里所有语音段的每个选择尺度产生这样一幅图,其中这图表示根据选择尺度计算出的语音段的一个统计分布。
在下一个步骤104中利用被求得的频度,以便求得隶属关系函数(对于每个上述的图)。隶属关系函数最好在选择值的统计分布的频度上面画出一条包络线。这个步骤也还是要对每个组的选择尺度进行的。如上所述,一个组包括表达预先规定的语音块的所有语音段。从隶属关系函数可以求出对每个语音段的一个隶属关系尺度。隶属关系尺度表示,作为代表各个选择尺度的组中各个语音段的可使用性的一个尺度。
随后在步骤105中选择语音段作为代表,其隶属关系尺度位于一个预先规定的阈值之上。如上所述,最好使用多个选择尺度,这样对于每个语音段就得出多个隶属关系尺度。多个隶属关系尺度逻辑相乘运算,得出一个总尺度。然后相应地选定语音段作为组的代表,其总尺度位于一个预先规定的总阈值之上。
为了清晰起见,附图2表示了包括有语音块SBSi(i=1,2,…,n)的语言SPR,和包括综合在组GRi中的语音段LAi-j(j=1,2…,n)的语音信号SSI之间的关系。
用逻辑运算201表示,语音块SBS1可以用语音段LA1-1,AL1-2,LA1-3,…,LA1-m表达。这个从属于语音块SBS1的语音段是综合在组GR1中的。组GR1中各个的语音段是由语音信号中得到的并且描述所有的语音块SBS1。根据语音信号,与不同的选择尺度有关各个语音段各自具有不同的品质因素。因此目标是,从组GR1的语音段中得出一个“可使用的”代表。这个代表在合成语音时可以实现语音块SBS1。
同样的关系相似地适合于逻辑运算202。一个任意的语音块SBSn可以用大量的(在这里是‘p’)综合在一个组GR2中的语音段来表达。
随后应对上述的选择尺度进行研究。对于这样的选择尺度有多种可能性,其中在这里推荐一种选择。这种选择可以使用单个的,或相互组合的,或也可以与另外的选择尺度组合的,以便有可能从语音段组中有利地确定一个代表。
附图3表示将长度控制作为选择尺度,即语音段原本的持续时间相对于语音段合成的持续时间的一个尺度。直到对每一个阈值LUG和上阈值LOG的偏差都被认为是没有问题的。超出这个阈值,即小于下阈值LUG或大于上阈值LOG,则隶属关系函数Zl_syn指数地下降。此时隶属关系函数Zl_syn是通过以下公式来确定的:
                                                    (1).
通过将平均长度lΦ规一化为1,则偏差为相对的。隶属关系函数Zl_syn也规一化为1。ZG表示隶属关系尺度。
附图4表示将基频-控制作为选择尺度。在其中语音段的基频对一个目标-基频(在合成语音时)的偏差应该是最小。隶属关系函数Zl-syn具有下面的形式:
Figure A9880835000091
                                           (2).
在这里为了清晰起见也将对频率f规一化为平均频率fΦ。也将隶属关系函数Zl-syn规一化为1。频率的上参数用fOG和频率的下参数用fUG表示。
在附图5中表示将语音段的能量作为选择尺度。这个能量对能量的一个平均值的相对偏差是隶属关系函数ZE-al的判据:
Figure A9880835000092
                                           (3).
能量E的平均值是EΦ(期望值),EUG是能量的一个下阈值,EOG是能量的一个上阈值,和σE是能量的变量。将隶属关系函数ZE_al规一化为1。
人们使用语音段的长度代替能量作为选择尺度,这样与附图5类似地产生一个隶属关系函数Zl-al用来评价语音段长度改变的相对偏差。如果也存在一个上阈值LOG,一个下阈值LUG和一个长度的方差σ1,则隶属关系函数Zl_al为:
Figure A9880835000093
                                           (4).在附图6中表示了得分SCORE作为选择尺度。得分SCORE是一个语音段适合作为代表的一个尺度,也就是说一个准备选定的语音段是一个典型的,有特征的按字节发音的语音段,因此‘适合’从而作为相应的语音块的代表。
在具有“最佳的”(Zs(smax)=1)和具有“最差的”(Zs(smin)=1-sG)得分SCORE选择尺度的语音段之间的隶属关系函数Zs(s)被假设是线性的(见附图6中相应曲线Zs(s))。这个隶属关系函数Zs(s)可以按下面的公式确定:
为了判断,一个语音段是否适合作为相应的语音块的一个代表,最好考虑多个已经建立的隶属关系函数。为了确保,被选定的一个代表,没有一个隶属关系函数的数值位于预先规定的阈值以下,则将单个的隶属关系尺度进行与-逻辑运算。这是由各个的隶属关系尺度相乘为一个总尺度实现的。在考虑上面列举的隶属关系函数情况下得出:
Figure A9880835000102
关于在隶属关系函数ZE-al和Zl-al对所有状态的相乘是指在用于描述语音段的一种HMMs内的各个状态。各根据模型化,可以使用具有不同数量状态的HMMs,其中对每个语音段而言所有这些状态单个地载入由隶属关系函数Zges得出的总尺度中。
在本文范围内引用了以下文献:
[1]Nick Campell,Alan W Black:“Prosody and the Selection
   of Source Units for Concatenative Synthesis”,in
   Progress Speechsynthesis,ISBN 0-387-94701-9,Springer
   Verlag New York,1997,S.279-292
尼克.堪培尔,阿兰.维.布莱克:“用于拼接合成的源单元的韵律学和选择”语言合成会议文集,ISBN 0-387-94701-9,斯普林格出版社,纽约,1997年第279-292页
[2]Andrew J.Hunt,Alan W.Black:“Unit Selection in a
   concatenative speechsynthesis system using a large
   speech data base”,Proc.EUROSPEECH 1995,Madrid,
   S.373-376。
安德列夫.捷.珲特,阿兰.维.布莱克:“在使用一个大的语言数据库的拼接的语言合成***中的单元选择”欧洲语言1995会议文集,马德里,第373-376页。
[3]Alistair D.Conkie,Stephen Isard:“Optimal Coupling
   of Diphones”,in Progress in Speechsynthesis,ISBN
   0-387-94701-9,Springer Verlag New York,1997,S.293-
   304。
阿利斯泰尔.德.康科,斯提凡.易萨尔:“双音的最佳耦合”,语言合成会议文集,ISBN 0-387-94701-9,斯普林格出版社,纽约,1997年第279-292页。
[4]R.E.Donovan,P.C.Woodland:“Improvements in an HMM
-based speechsynthesiser”,Proc.ICASSP 1995,
Michigan,S.573-576。
阿.埃.斗讷万,皮.希.武特兰德:“在HMM-基础上的语音合成器的改进”,ICASSP 1995会议文集,密执安,第573-576页
[5]G.Ruske:“Automati sche Spracherkennung:Methoden der
Klassifikation u.Merkmalsextraktion”,Oldenbourg
Verlag,Muenchen,1988,S.160-171。
葛.鲁斯科:“自动语音识别:分类和特征提取方法”,欧伦堡出版社,慕尼黑,1988,第160-171页。

Claims (8)

1.从一个包括若干语音段的语音信号中确定一种语言的预先规定的语音块的代表的方法,
a)其中,将语音信号的语音段对应于语言的语音块综合成各一个
  组,
b)其中,对于各个组的语音段按照一种预先规定的选择尺度从语
  音信号中求出选择值,
c)其中,确定组的选择值的频度,
d)其中,借助于频度确定隶属关系函数,该隶属关系函数是说明
  有关组的有关语音段可使用性的一个隶属关系尺度,
e)其中,从被选定的语音块的语音段的组中确定,其隶属关系尺
  度位于一个预先规定的阈值以上的,那个语音段作为代表。
2.按照权利要求1的方法,
其中,借助于至少一个另外的选择尺度求出组中语音段的另外的选择值,和确定另外选择值的其它频度,并且对于每个另外的频度,确定具有相应的另外的隶属关系尺度的一个另外的隶属关系函数。
3.按照权利要求2的方法,
其中,每个隶属关系尺度相乘地进入总尺度,并且从语音段的组中求出代表,其总尺度位于预先规定的总阈值以上。
4.按照上述权利要求之一的方法,
其中,语音段是语言的音素,双音,三音,音节,半音节,字或这些的组合。
5.按照上述权利要求之一的方法,
其中,语音段是归属于隐含—马尔科夫—模型的单个状态的。
6.按照上述权利要求之一的方法,
其中,选择尺度是下面列举的量中的一个:
a)各个语音段的能量;
b)各个语音段的长度;
c)各个语音段的基频;
d)各个语音段的长度控制;
e)对各个语音段配合的统计尺度。
7.按照上述权利要求之一的方法,
其中,从得到的代表组合成为语言。
8.按照上述权利要求之一的方法,
其中,确定语音段为语音块的代表,其隶属关系尺度具有最高的数值,或如果考虑多个选择尺度,其总尺度具有最高的数值。
CN98808350A 1997-08-21 1998-07-27 从包括若干语音段的语音信号中确定语言的语音块的代表的方法 Expired - Fee Related CN1115664C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19736465.9 1997-08-21
DE19736465 1997-08-21

Publications (2)

Publication Number Publication Date
CN1267384A true CN1267384A (zh) 2000-09-20
CN1115664C CN1115664C (zh) 2003-07-23

Family

ID=7839772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN98808350A Expired - Fee Related CN1115664C (zh) 1997-08-21 1998-07-27 从包括若干语音段的语音信号中确定语言的语音块的代表的方法

Country Status (6)

Country Link
EP (1) EP1005694B1 (zh)
JP (1) JP2001514400A (zh)
CN (1) CN1115664C (zh)
DE (1) DE59801989D1 (zh)
ES (1) ES2167945T3 (zh)
WO (1) WO1999010878A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269589A (zh) * 2016-12-31 2018-07-10 ***通信集团贵州有限公司 用于通话的语音质量评估方法及其装置
CN110246490A (zh) * 2019-06-26 2019-09-17 合肥讯飞数码科技有限公司 语音关键词检测方法及相关装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10120513C1 (de) 2001-04-26 2003-01-09 Siemens Ag Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache
US8918316B2 (en) * 2003-07-29 2014-12-23 Alcatel Lucent Content identification system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2590414B2 (ja) * 1991-03-12 1997-03-12 科学技術庁長官官房会計課長 ファジィパターン認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269589A (zh) * 2016-12-31 2018-07-10 ***通信集团贵州有限公司 用于通话的语音质量评估方法及其装置
CN108269589B (zh) * 2016-12-31 2021-01-29 ***通信集团贵州有限公司 用于通话的语音质量评估方法及其装置
CN110246490A (zh) * 2019-06-26 2019-09-17 合肥讯飞数码科技有限公司 语音关键词检测方法及相关装置

Also Published As

Publication number Publication date
WO1999010878A1 (de) 1999-03-04
CN1115664C (zh) 2003-07-23
EP1005694A1 (de) 2000-06-07
ES2167945T3 (es) 2002-05-16
JP2001514400A (ja) 2001-09-11
EP1005694B1 (de) 2001-10-31
DE59801989D1 (de) 2001-12-06

Similar Documents

Publication Publication Date Title
Lluís et al. End-to-end music source separation: Is it possible in the waveform domain?
CN1152365C (zh) 音调跟踪装置和方法
CN1162839C (zh) 产生声学模型的方法和装置
CN1169115C (zh) 语音合成***及方法
WO2020024690A1 (zh) 语音标注方法、装置及设备
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
EP1213705B1 (en) Method and apparatus for speech synthesis
CN1275746A (zh) 使用神经网络变换文本为声频信号的设备
US20090254349A1 (en) Speech synthesizer
CN101064104A (zh) 基于语音转换的情感语音生成方法
CN1750120A (zh) 索引设备和索引方法
CN101075432A (zh) 语音合成装置和方法
JPH0782348B2 (ja) 音声認識用サブワードモデル生成方法
CN1308911C (zh) 一种说话者身份识别方法和***
CN1835075A (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN106295717A (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
CN1924994A (zh) 一种嵌入式语音合成方法及***
WO2014183411A1 (en) Method, apparatus and speech synthesis system for classifying unvoiced and voiced sound
CN1115664C (zh) 从包括若干语音段的语音信号中确定语言的语音块的代表的方法
Steffman et al. An automated method for detecting F measurement jumps based on sample-to-sample differences
CN1787072A (zh) 基于韵律模型和参数选音的语音合成方法
Jacewicz et al. Variability in within-category implementation of stop consonant voicing in American English-speaking children
US7454347B2 (en) Voice labeling error detecting system, voice labeling error detecting method and program
CN1238805C (zh) 用于压缩语音库的方法和装置
CN105719641A (zh) 用于波形拼接语音合成的选音方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee