CN1230277A

CN1230277A - 在语音识别***中多语种采用隐藏马尔可夫语音模型的方法

Info

Publication number: CN1230277A
Application number: CN97197810.7A
Authority: CN
Inventors: J·克勒
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1996-09-10
Filing date: 1997-09-02
Publication date: 1999-09-29
Also published as: US6212500B1; DE19636739C1; JP2000505914A; WO1998011537A2; EP0925461B1; WO1998011537A3; EP0925461A2

Abstract

本发明说明一种用于确定超越各不同语种的各语音的各相似性的方法。此外说明用于隐藏马尔可夫模拟多语种各音素的一个新方法。在此建议的用于声学语音模拟的方法说明在汇合各语种中不同隐藏马尔可夫语音模型用的各概率密度时的既语种专用也不取决于语种的各种性能。

Description

在语音识别***中多语种采用隐藏马尔可夫语音模型的方法

本发明涉及各语音识别***用的各隐藏马尔可夫模型，在此应引用一种这样的多语种用的模型，其方法是利用不同语音之间的各声学的和语音学的各相似性。

在语音识别上巨大的问题在于，对于每一种要引入语音识别技术的语音必须训练各种新的声学语音模型，以便能进行各国适配。在各常用的语音识别***上大多采用各种隐藏马尔可夫模型用于各语音专门语音的模拟。随后由这些统计学模型化的语音模型汇合成各种在语音识别过程中的搜索过程期间识别的声学字模型。为了训练这些语音模型需要范围很广泛的语音数据库，这些语音数据库的收集与整理是一种极其费钱与费时的过程。由此产生在一种语音识别技术从一种语音移植到一种其它的语音上时的各种缺点，因为建立一个新的语音数据库一方面意味着产品变贵，并且另一方面在市场进入时决定了一种时间上的延迟。

在各通常可购得的语音识别***中仅仅采用各种语音专门的模型。为了将这些***移植到一种新的语音而收集和整理范围广泛的语音数据库。随后用这些收集的语音数据从基础开始新训练此新语音用的各语音模型。

为了减少在将各种语音识别***移植到各种不同的语种上时的花费和时间延迟，因此应研究各单个语音模型对于在不同语种中的采用是否合适。为此在[2]中已有建立各种多语种的语音模型的假设和将这些语音模型在语音识别时采用在各自的语种中。在那里引入多音素和单音素概念。在此各多音素意味着各种语音，这些语音的语音形成特性是超越多个语种足够相似的，以便将之等同看待。以各种单音素标志那些具有语种专门的各特性的语音。为了对这样的各种开发工作和研究不必每次训练新的语音数据库，已有这样的各种语音数据库作为标准供支配[6]、[4]、[7]。用于多语种应用各语音模型的其它现有技术是未公开的。

按此基于本发明的任务在于，说明一种用于在一种语音识别***中多语种采用隐藏马尔可夫语音模型的方法，通过此方法减少各语音识别***到一种另外语种的移植花费，其办法是减少在多语种语音识别***中的各种参数。

按权利要求1和6的各特征解决此任务。

从各从属权利要求中产生本发明的各进一步发展。

按本发明方法的一个特别优点在于，说明一种统计学的相似性尺度，它允许在各种不同的语种中从一个给定数目的各相似语音用的不同语音模型中选出那一个语音模型，此语音模型在其特性上最好地描述各自语音的全部供支配的特征矢量。

特别有利地求取在各自的隐藏马尔可夫模型和每一个特征矢量之间的对数概率间距作为选择不同语音特征矢量用的最好隐藏马尔可夫模型的尺度。由此提供一种反映各个语音模型和它们的识别率的相似性方面的实验结论的尺度。

特别有利地形成在每个隐藏马尔可夫模型和各自的特征矢量之间的各对数概率间距的算术平均值作为用于描述按本发明的尽可能有代表性的隐藏马尔可夫语音模型的尺度，因为由此获得一个对称的间距值。

通过应用按本发明的等式1至3来有利地形成按本发明的一个隐藏马尔可夫模型代表性性能用的描述尺度用于描述不同语种中的各语音，因为由此产生微小的计算工作量。

对于描述尺度的按本发明的应用特别有利地规定一个边界条件，用此边界条件可以调节代表的隐藏马尔可夫模型的识别率。

通过按本发明的方法特别有利地减少语音程序库用的存储器花费，因为可以采用一个多个语种用的模型和同样地减小从一种语种到另外的语种的移植花费，这决定了减少了移植用的时间消耗。同样有利地使得在维特比搜索时的较少的计算工作量成为可能，因为例如在多语种输入***上必须检查较少的模型。

在本发明上特别有利地生成用于在各多语种语音识别***中采用的特别的各隐藏马尔可夫模型。通过按本发明的行事方式能将在多语种中各语音用的各隐藏马尔可夫语音模型汇总成各多音素模型。为此在各不同的模型上研究所采用的各标准概率密度分布的各重叠区。可以引用任意数目的在各不同模型上等同采用的标准概率密度分布用于描述多音素模型。各实验结论已展示也可有利地采用多个来自各不同语音模型的各标准分布，而由此引起的各单个语种特性的混淆不会在采用此模型时导致一种显著较低的识别率。在此介于各相似的标准概率分布密度之间的间距阈值五已证明为特别有利的。

在采用按本发明的方法时特别有利地用来自开头音、中间语音和(词根元音的)换音的三个状态模拟这些隐藏马尔可夫模型，因为由此达到了在描述各语音时的足够的精确度，并且在语音识别器中识别时的计算工作量保持微小。

图1在此示范地展示一个单一多语种音素的构造。在此情况下它是要表示的音素M。在表4中给出了各概率密度的数目和此音素用的识别率。

群集	#密度(a,b,c)	英语[％]	德语[％]	西班牙语[％]
群集	#密度(a,b,c)	英语[％]	德语[％]	西班牙语[％]	0	341(0 0 341)	46.7	44.7	59.4
2	334(01 43 27)	45.0	46.4	57.5	0	341(0 0 341)	46.7	44.7	59.4
2	334(01 43 27)	45.0	46.4	57.5	3	303(27 34 280)	48.0	45.8	57.5
4	227(106 57 187)	50.9	44.1	58.7	3	303(27 34 280)	48.0	45.8	57.5
4	227(106 57 187)	50.9	44.1	58.7	5	116(221 48 72)	49.3	43.1	57.0
6	61(285 22 34)	41.2	38.6	50.4	5	116(221 48 72)	49.3	43.1	57.0

图1中表示了音素模型的开头音L、中间语音M和换音R。对于各种不同的语种英语EN、德语DE和西班牙语SP登录了各个所采用标准概率密度的各重点，并且标记为WD。在此例如表示了来自三个部分状态的一个隐藏马尔可夫模型。本发明却不应仅仅局限于这样一些隐藏马尔可夫模型，虽然在考虑应实行最小识别计算工作量的准则条件下这些隐藏马尔可夫模型是某个最佳状态。本发明同样可应用于具有另外数目的状态的各种隐藏马尔可夫模型。通过本发明尤其应实现降低在将各语音识别***移植到另外的语种上时的移植花费，并且通过减少基本参数使所使用的计算机资源保持尽可能地小。例如可以较好地满足由这样一些语音识别***所限制的各种硬件要求，尤其当在一个设备中应提供一个和同一个用于多语种应用的语音识别***的时候。

为了达到充分利用和在模拟时考虑不同语种中各语音的各种相似性的本发明的目的，首先应注意能够区分开不同语种中的各音素。

对此的各种原因首先在于：

-各种各样的语音的前后关系，由于在不同语种中的各种各样的音素组；

-各种各样的说话方式；

-不同的韵律学的特征；

-各种各样的语音变型。

在各音素的足够的感觉技术可区别性的原则上存在一个在此应考虑的重要观点[5]。这意味着，保持不同语种中的各单个语音在声学上是可区分的，使得对各个听众讲来是比较容易互相区分开这些语音的。但是由于每个单项语种拥有不同的音素资源在每个单项语种中语种专门地确定两个相似音素之间的各种界限。出于这些原因某个语音的特征拥有一种语种专门的组份。

用连续稠密的隐藏马尔可夫模型(CD-HMM)优先模拟这些音素[3]。常常利用拉普拉斯混合作为各稠密的功能。在此每个单项音素优先由三种状态从左向右指向地HMM组成。这些声学的特征矢量在此例如由24mel-标度的倒谱，12delta倒谱，12delta delta倒谱，能量，delta能量和delta delta能量系列组成。例如选择25ms为研究时间窗口的长度，在此各个帧之间的帧间距为10ms。出于有限的语音汇编容量的原因仅优先生成与前后关系无关的各音素。从[4]中的那个音素目录已选为特别有代表性的音素目录。

本发明的思路在此在于，一方面将一种相似性尺度提供支配，以便能从不同语种用的按标准可供支配的各语音音素程序库中选出最接近各种特征矢量的隐藏马尔可夫模型，从不同语种的不同语音模型中推导出这些特征矢量。由此能够求出两个音素模型的各种相似性，并且基于在各语音实践和各语音模型之间的各对数似然值之差关于此相似性尺度作出一种见解，是否值得共同模拟多语种用的一个语音，或者在多语种中采用一个有关的已存在的模拟此语音用的隐藏马尔可夫模型。由此减少在语音识别时应考虑的参数的数目，其办法是减少要研究的隐藏马尔可夫模型的数目。

本发明的一个第二解决办法在于，建立一个专门的多音素模型用于模拟多语种中的一个语音。为此首先例如形成一个开头音、中间语音和换音形成的三个语音段，这些语音段的各状态由多个概率密度函数，所谓的带有各从属于此的密度的混合分配密度组成。涉及不同语种相似的各语音段的这些密度汇合成一个多语种的代码手册。因此不同语种的各语音段分享这些相同的密度。例如对每个语种分开地求出用其给各密度加权的各权，而对多个语种可以同时利用此代码手册。

优先引用带有三个状态的各隐藏马尔可夫模型用于形成一种合适的相似性尺度。在此可利用间距尺度或相似性尺度，以便将多个音素模型汇合成一个多语种音素模型或者以合适的方式代替这些音素模型。以此可开发一种多语种音素资源。优先采用一种基于相对平均信息量[1]的测量用于测量间距或用于确定来自不同语种的同一语音的两个音素模型的相似性。在训练期间在此确定各音素模型的各混合拉普拉斯密度的各种参数。此外对每个音素从一个测试语料库或开发语料库外延出一组音素权标X作为特征矢量。这些音素在此是可以通过它们的国际上标准的语音学的标识符来标记的。按本发明如下处理两个音素模型λ_i和λ_j以及它们的相属的音素权标X_i和X_j用于确定这些不同音素之间的相似性尺度。

d(λ_i,λ_j)=logp(X_i｜λ_i)-logp(X_i｜λ_j) (1)

可以将此间距尺度看作为对数似然间距，此对数似然间距表示两个不同的模型如何好地适合于同一个特征矢量X_I。据此这两个模型λ_i和λ_i之间的间距按：

d(λ_j,λ_i)=logp(X_j｜λ_j)-logp(X_j｜λ_i) (2)来确定。为了获得此两个音素模型之间对称间距,此间距优先按

d(λ_j,λ_i)=1/2(d(λ_i,λ_j)+d(λ_j,λ_i)) (3)来确定。用各实验结果曾可确定，来自各种另外语种的几个音素模型完全比一个德语的音素模型较好地适合用在一个德语的语音识别***中。例如这一点适用于K、P和N各音素。英语的音素模型比德语的更好地适合于这些音素。然而例如经过变元音aU已观察到德语模型和英语模型之间的巨大差别，这意味着对于两个语音应在多语种音素库中引用不同的符号。另一方面对于变元音aI曾可在德语和英语中确定巨大的相似性，这意味着仅仅一个音素模型对于两个语种可以得到同等好的应用。由此出发应对一个多语种音素库的每个符号生成一个单独的统计学的模型。在[6]中已将各多音素称为足够相似的音素，以便在不同的语种中模拟为一个单一的音素。这种行事方式的缺点在于，采用此多音素的整个声学空间用于此语种专门的识别。本发明的目标却在于联合一个多语种模型的各取决于语种的和各语种专门的声学特性。按本发明在一个多音素模型中应局限声学空间的，在其中各个音素所采用概率密度重叠的各区。为此例如采用一种群集密度技术(agglommerative density clustering technigue凝聚密度群集技术)，以减少一个音素的各相同的或相似的特征。在此尤其重要地是要注意，只允许在各音素中汇合名单个隐藏马尔可夫模型的各相对应状态的密度。

在此在图1中可识别，在各局限的区域中含有着各单个状态L,M和R的各自密度。各混合权是取决于语种变化的，而各等同的密度是遍布在这些单个语种EN、DE和SP上的。在评价时却也应考虑到，一个单素的各专门的特征在不同语种中以不同的频度出现。

在此可以对于密度群集(density clustering)时的各概率密度用一个不同的间距阈值进行各不同概率密度的汇合。例如用一个为五的间距阈值已相对于初始状态减小所采用密度值的数字达倍数3，而不因此随之带来语音识别率上的决定性的恶化。在此情况下各自对多音素区，双语种区和单语种区从原先的341初始密度已汇合出221，48和72个初始密度。在图1中一种这样的多音素区是表示为各单个语种用的各圆的交叉量。在所示隐藏马尔可夫模型的中间音M上例如在一个这样的区中的一个概率密度称为WDP。一个完整多语种语音识别***用的这些识别率是在此在表2的列4和5中作为ML1和ML2给出的。

语种	#权标	LDP[％]	ML1[％]	ML2[％]
语种	#权标	LDP[％]	ML1[％]	ML2[％]	英语	21191	39.0	37.3	37.0
德语	9430	40.0	34.7	37.7	英语	21191	39.0	37.3	37.0
德语	9430	40.0	34.7	37.7	西班牙语	9525	53.9	46.0	51.6
总和	40146	42.8	38.8	40.8	西班牙语	9525	53.9	46.0	51.6

按本发明方法仅从此利用一个部分区，而在第一研究ML1上已采用来自[6]的常规多音素定义，这意味着为此识别已采用由图1中各语种区的外轮廓组成的多音素模型的整个声学区。对于多音素模型的单个模拟以引用各单个语种区的局部重叠的办法例如可达到2％的改善，正如这在表2中在ML2的列中所表示的那样。

文献索引

[1]V.Digalakis A.Sankar,F.Beaufays.：“改善语音识别率的训练数据群集(Training Data Clustering For Improved SpeechRecognition)”,In Proc.EUROSPEECH’95,503-506页，Madrid,1995；

[2]P.Dal sgaard and O.Andersen：“用于由自组织中性网络导出的声学语音学特性的音音素和多音素的识别(Identification ofMoho-and Poly-phonemes using acoustic-phonetic Featuresderived by a self-organising Newtral Network.)”,InProc.ICSLP’92 547-550页，Banff,1992；

[3]A.Haueustein and E.Marschall：“经电话线改进语音识别的方法(Methods for Improved Speech Recognition Over theTelephone Lines)”,InProc.ICASSP‘95,425-428页，Detroit,1995

[4]J.L.Hieronymus：“世界语用的ASCII语音学符号：Worldbet(ASCII Phonetic Symbols for the world’sLanguages:Worldbet)”,Preprint,1993；

[5]P.Ladefoged：“语音学教程(A Course in Phonetics)”,Harcourt Brace Jovanovich,San Diego,1993；

[6]P.Dalsgaard O.Andersen and W.Barry：“四个欧洲语种用的多音素和单音素的数据驱动的识别(Duta-driven Identificationof poly-and Mono-phonemes for four European Languages),”In Proc.EURO5PEECH’93 759-762页，BetLin,1993；

[7]A.Cole Y.K.Muthusamy and B.T.Oshika:“OGI多语种电话语料库(The OGI Multilanguage Telephone Speech Corpus.),In proc.IC-SLP’92,895-898页，Banff,1992；

Claims

1．用于在一个语音识别***中多语种采用一个隐藏马尔可夫语音模型的方法，其特征在于，

a)其中从一个第一语种(SP,EN,DE)中的一个第一语音(L,M,R)的至少一个第一特征矢量出发以及从至少一个第二语种(DE,SP,EN)和它的从属的第一与第二隐藏马尔可夫语音模型中的一个可比地说出的第二语音的至少一个第二特征矢量出发，求出两个隐藏马尔可夫语音模型(L,M,R)中的哪一个更好地描述两个特征矢量，

b)并且在至少两个语种(SP,EN,DE)上采用模拟此语音用的该隐藏马尔可夫语音模型(L,M,R)。

2．按权利要求1的方法，其特征在于，作为用于描述一个特征矢量的尺度通过一个隐藏马尔可夫语音模型(L,M,R)形成作为介于每个隐藏马尔可夫语音模型和至少一个特征矢量之间的对数似然间距的对数概率间距，在此一个较短的间距意味着较好的描述。

3．按权利要求2的方法，其特征在于，作为用于描述各特征矢量的尺度通过这些隐藏马尔可夫语音模型形成各对数概率间距的或介于每个隐藏马尔可夫语音模型(L,M,R)和每个当时的特征矢量之间的各对数似然间距的算术平均值，在此一个较短的间距意味着较好的描述。

4．按权利要求3的方法，其特征在于，采用一个音素λ_i的第一隐藏马尔可夫语音模型(L,M,R)和一个音素λ_j的第二隐藏马尔可夫语音模型，并且采用X_i和X_j作为第一和第二特征矢量，在此对第一特征矢量的对数概率间距按

d(λ_i,λ_j)=logp(X_i｜λ_i)logp(X_i｜λ_i) (1)

来确定，并且对第二特征矢量的对数概率间距按

d(λ_j,λ_i)=logp(X_j｜λ_j)-logp(X_j｜λ_i) (2)来确定，在此为了获得一个对称间距尺度算术平均值为

d(λ_j,λ_i)=1/2(d(λ_i,λ_j)+d(λ_j,λ_i)) (3)

5．按权利要求4的方法，其特征在于，如果d(λ_j,λ_i)满足一个规定的边界条件，则在至少两个语种中仅采用模拟语音用的该隐藏马尔可夫语音模型(L,M,R)。

6．用于在语音识别***中多语种采用一个隐藏马尔可夫语音模型的方法，其特征在于，

a)从一个第一语种(SP,EN,DE)中的一个第一语音用的至少一个第一隐藏马尔可夫语音模型(L,M,R)出发以及从至少一个第二语种(DE,SP,EN)中的一个可比地说出的第二语音用的至少一个第二隐藏马尔可夫语音模型(L,M,R)出发如此形成一个多音素模型，使得为模拟第一和第二隐藏马尔可夫语音模型(L,M,R)所采用的、直到一个规定间距阈值的各标准概率分布(WD)汇合成总是一个新的标准概率分布(WDP)，此间距阈值说明，直到何种介于两个标准概率分布(WD)之间的最大间距应汇合此两个标准概率分布，并且仅仅这些汇合的标准概率分布表征此多音素模型，

b)并且在至少两个语种(DE,SP,EN)(L,M,R)中采用模拟

语音用的该多音素模型。

7．按权利要求6的方法，其特征在于，确定5作为间距阈值。

8．按前述权利要求之一的方法，其特征在于，采用带有三个状态的各隐藏马尔可夫语音模型，这些状态由各语音段开头音、中间语音和换音形成。