CN101447183A - 一种应用于语音识别***的高性能置信度处理方法 - Google Patents

一种应用于语音识别***的高性能置信度处理方法 Download PDF

Info

Publication number
CN101447183A
CN101447183A CNA2008101104799A CN200810110479A CN101447183A CN 101447183 A CN101447183 A CN 101447183A CN A2008101104799 A CNA2008101104799 A CN A2008101104799A CN 200810110479 A CN200810110479 A CN 200810110479A CN 101447183 A CN101447183 A CN 101447183A
Authority
CN
China
Prior art keywords
posterior probability
phoneme
speech
probability
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101104799A
Other languages
English (en)
Inventor
颜永红
黎塔
潘接林
赵庆卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CNA2008101104799A priority Critical patent/CN101447183A/zh
Publication of CN101447183A publication Critical patent/CN101447183A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种应用于语音识别***的高性能置信度处理方法,其框架是基于一遍语音识别解码完成,在一遍语音识别过程中得到多个知识源,通过多个知识源融合处理得到置信度。本发明的语音识别置信度评价方法,只使用了一遍语音识别解码,同时利用了多个知识源,与以往的方法相比,该方法在大幅提高计算速度的同时,也使置信度计算的结果更为准确有效。

Description

一种应用于语音识别***的高性能置信度处理方法
技术领域
本发明涉及一种置信度处理方法。更具体地说,本发明涉及一种应用于语音识别***的高性能置信度处理方法。
背景技术
随着语音识别技术在不同领域被越来越多地应用,语音识别***的识别率和稳健性变得越来越重要,用户对于所使用的语音识别***识别结果的可靠程度越来越关心。在自然条件下使用语音识别***,不同于理想环境下的使用,这时语音识别***的性能会有很大的降低。而且对于真实的口语,在语音中会掺杂很多非语音,譬如非正常停顿、咳嗽声以及其他的环境噪声,这都给传统的语音识别***达到原有的识别性能造成了困难。特别对于电话语音识别***,用户的期望是尽可能地拒绝错误的语音同时对于集外词表能够准确拒识,置信度的计算是解决这些困难的一种很好的途径。
置信度评价方法可以对语音识别***的识别结果进行假设检验,通过试验设定的阈值对识别结果的可靠性进行评价,定位结果中的错误,从而提高识别***的识别率和稳健性。目前已经有许多处理置信度的方法,但由于实际应用的语音识别***一方面要求实时性比较高,另一方面也希望置信度的分数比较可靠,目前的置信度处理方法很难同时满足这两个要求。在已有专利CN02148686.7中提出的置信度处理方法,它们虽然比以前的方法在速度和精度上都有提高,但是它的主要缺陷有其一是两次利用声学模型对输入语音进行解码,第一次利用声学模型目的是对原始语音进行单遍解码得到目标结果,第二次利用声学模型目的是对识别的目标结果再次在原始语音上进行强制对齐,最后得到相应的置信度分数,虽然其在处理方法,存储结构上有很大的优化提高速度,但其两遍解码的框架限制了它进一步提高其***的速度;其二,只考虑了声学模型的知识源计算置信度,单一的知识源计算出置信度结果的可靠性有限。
发明内容
本发明要解决的技术问题是提供一种应用于语音识别***的高性能置信度处理方法,本发明的目的在于通过新的置信度处理方法,一方面提高置信度处理的速度,降低置信度的计算在整个语音识别***中所占的时间,另一方面提高置信度结果的可靠性,从而进一步提高语音识别***的实时性(即速度)和稳健性。
为了达到上述目的,本发明提供了一种应用于语音识别***的高性能置信度处理方法,其框架是基于一遍语音识别解码完成,在一遍语音识别过程中得到的多个知识源,通过多个知识源融合计算置信度,具体包括以下步骤:
1)使用电话语音识别引擎对输入语音逐帧进行解码识别;
2)在步骤1)还没有解码完最后一帧语音前,在每一帧语音数据解码中,首先得到当前帧活跃状态的观察概率P(xt|sj),其中xt是当前帧语音信号的特征,sj是当前活跃状态集合D中的一个;同时将所有活跃状态的观察概率相加并保存到内存中;
3)解码完最后一帧数据,在得到识别结果前,获取输入语音的词图(lattice);
4)在步骤3)中得到词图后,随即可以得到识别结果,也即完成了语音数据的解码识别过程,得到识别结果同时还可以得到其相对应的音素(phone)序列,以及每个音素(phone)所对应的起止时间点和每个音素(phone)的识别似然概率;
5)完成步骤4)后,进行同步声学后验概率计算,即,通过前面保存的每一帧的活跃状态的观察概率之和,和每个音素(phone)的起止时间及其似然概率,求出相应的每个音素(phone)的后验概率;
6)完成步骤4)后,进行词图(lattice)后验概率计算,即,通过前面得到的输入语音词图(lattice),根据词图(lattice)上的信息相应也可以计算出每个音素(phone)的后验概率,通过算术平均得到对数域的词图(lattice)后验概率;
7)将在步骤5)得到的同步声学后验概率和步骤6)得到的词图(lattice)后验概率两个来自不同知识源的后验概率融合即求出最后的识别结果的融合后验概率;
8)将在步骤7)得到的融合后验概率通过定制的映射函数将后验概率映射为置信度分数,即为最后得到的识别结果的置信度。
另外,本发明的应用于语音识别***的高性能置信度处理方法中的所述步骤5)和步骤6)是相互独立的,两者没有先后次序。
本发明的优点在于:
本发明的应用于语音识别***的高性能置信度处理方法,只使用了一遍语音识别解码,同时利用了多个知识源,与以往的方法相比,该方法在大幅提高计算速度的同时,也使置信度计算的结果更为准确有效。在所作的统计实验中,使用本发明计算方法的语音识别***置信度结果的计算速度及有效性均高于专利CN02148686.7中提出的处理方法。
附图说明
图1是语音识别结果置信度计算的框图;
图2是在得到识别结果的同时生成的词图结构。
具体实施方式
下面结合具体实施例和附图对本发明进行详细描述。
实施例1
本发明提供的应用于语音识别***的高性能置信度处理方法,包括以下步骤:
1)使用中科信利电话语音识别引擎对输入语音逐帧进行解码识别,该识别引擎的解码过程是基于TIME-SYNCHRONOUS VITERBI BEAM SEARCH算法(在文献Xuedong Huang,Alex Acero,Hsiao—Wuen Hon.Spoken Language Processing[M].NewJersey:Prentice Hall PTR,2001.中有介绍);
2)在步骤1)还没有解码完最后一帧语音前,在每一帧语音数据解码中,首先得到当前帧活跃状态的观察概率P(xt|sj),其中xt是当前帧语音信号的特征,sj是当前活跃状态集合D中的一个;同时将所有活跃状态的观察概率相加并保存到内存中;
3)解码完最后一帧数据,在得到识别结果(识别结果为输入语音对应的文本)前,可以得到输入语音的词图(lattice),lattice的具体结构(可以参见图2);
4)在步骤3)得到词图后,随即可以得到识别结果,也即完成了语音数据的解码识别过程。得到识别结果同时还可以得到其相对应的音素(phone)序列,以及每个音素(phone)所对应的起止时间点和每个音素(phone)的识别似然概率;
5)完成步骤4)后,进行声学后验概率计算,即,通过前面保存的每一帧的活跃状态的观察概率之和,和每个音素(phone)的起止时间及其似然概率,求出相应的每个音素(phone)的后验概率,这里计算每个音素(phone)的后验概率对数值是每一帧语音的后验概率对数值的算术平均,在计算每一帧语音的后验概率上,以往的方法是在后验概率公式的分母中求的是声学模型中所有状态的观察概率和,而该方法中计算则是考虑前活跃状态集合中含有的状态的观察概率和为分母,这样一是可以提高计算的速度,二是让后验概率更加准确。最后将识别结果中所有音素(phone)的后验概率对数值求算术平均得到该识别结果的对数域声学后验概率;同步声学后验概率计算具体如下:
参考图1,根据图1语音识别结果置信度计算的框图,首先考虑每一帧的后验概率计算,对于每一帧语音输入信号xt,t=1,2....T,其对于每一帧语音信号的后验概率为P(st|xt),定义为:
P ( s t | x t ) = P ( x t | s t ) p ( s t ) p ( x t ) = P ( x t | s t ) p ( s t ) Σ s j ∈ D p ( x i | s j ) p ( s j ) - - - ( 1 )
其中st是指识别结果中xt所属的状态,D为识别过程中当前时刻t活跃状态的集合,sj是活跃状态集合中的状态。
在解码识别过程中,同时保存了每一帧语音信号的后验概率P(st|xt)的分母部分
P ( x t ) = Σ s j ∈ D p ( x i | s j ) p ( s j ) - - - ( 2 )
当识别过程结束,得到识别结果为R,其中包含N个音素(phone),其音素(phone)序列为Ph0Ph1....PhN-1,而每个音素(phone)对应的语音帧序列x1x2......xT。那么每个音素(phone)的对数域后验概率计算如下:
P ( Ph i ) = log [ ( Π t = 1 T p ( x t | s t ) p ( s t ) Π t = 1 T P ( x t ) ) 1 T ] - - - ( 3 )
由于计算每个音素(phone)的后验概率的分母部分
Figure A200810110479D00084
是预先保存好的,而分子部分
Figure A200810110479D00085
是识别结果中该个音素(phone)的似然概率也是已知的。所以计算每个音素(phone)的后验概率基本不需要额外的时间。
有了每个音素(phone)的后验概率,下面给出整个识别结果R的基于声学模型的后验概率Pacoustic(R)的计算公式:
P acoustic ( R ) = 1 N Σ i = 0 N - 1 P ( Ph i ) - - - ( 4 )
6)完成步骤4)后,进行词图(lattice)后验概率计算,即,通过前面得到的输入语音词图(lattice),根据词图(lattice)上的信息相应也可以计算出每个音素(phone)的后验概率,通过算术平均得到对数域的词图(lattice)后验概率;
词图(lattice)后验概率计算如下:
图2中是在得到识别结果的同时生成的词图(lattice)结构。其中图中的每一条边(edge)代表的是一个音素(phone),每一条边(edge)的起始点,表示这个音素的起始时间ts和te,每一条边上的值表示它的后验概率Edge(i)(其主要计算公式:Edge(i)=词图(lattice)中通过该边的所有路径概率之和,具体步骤可以通过前向后向算法由词图(lattice)的信息计算得到。文献F.Wessel.Word Posterior Probabilitiesfor Large Vocabulary Continuous SpeechRecognition[D].Dissertation,Aachen,Germany,2002-07中有具体介绍),图2中给出计算好的每条边的后验概率Edge(i)以及它们代表的相应因素(phone)。
假设得到的识别结果为R,其中包含N个音素(phone),其音素(phone)序列为Ph0Ph1....PhN-1,对应的每个音素(phone)的起始时间为ts和te(具体可以见图2中底部给出的识别序列R的时间信息可以得到相应的ts和te),对于ts和te间的任一时刻t,设其包含的和当前音素相同的边(edge)的集合为Et(可以见图2中Phone=J的虚线中对应的词图中的两条Phone=J的边),则对于音素Phi时刻t对应的后验概率计算如下:
Ph i ( t ) = log [ Σ i ∈ E t Edge ( i ) ] - - - ( 5 )
那么当前音素的后验概率计算公式如下:
P ( Ph i ) = 1 t e - t s Σ t = t s t e P h i ( t ) - - - ( 6 )
从而整个识别结果的基于词图(lattice)的后验概率Plattice(R)计算如下:
P lattice ( R ) = 1 N Σ i = 0 N - 1 P ( Ph i ) - - - ( 7 )
其中,上述步骤5)和步骤6)是相互独立的,两者没有先后次序。
7)将在步骤5)得到的同步声学后验概率和步骤6)得到的词图(lattice)后验概率两个来自不同知识源的后验概率融合即求出最后的识别结果的融合后验概率;
8)将在步骤7)得到的融合后验概率通过定制的映射函数将后验概率映射为置信度分数,即为最后得到的识别结果的置信度。
线性融合置信度计算如下:
通过上面步骤1,步骤2分别计算了声学后验概率和词图(lattice)后验概率。
通过实验数据可以估计出线性融合系数λ以及后验概率和置信度分数的映射函数
CMscore=sig mod(p)               (8)
其中CMscore为最后置信度分数,p为线性融合后的后验概率;
所以由步骤1,步骤2,步骤3可以通过该方法计算出最后置信度分数CMscore如下:
CMscore=sig mod(Pacoustic(R)+λPlattice(R))        (9)。

Claims (5)

1、一种应用于语音识别***的高性能置信度处理方法,其框架是基于一遍语音识别解码完成,在一遍语音识别过程中得到多个知识源,通过多个知识源融合计算置信度,具体包括以下步骤:
1)使用电话语音识别引擎对输入语音逐帧进行解码识别;
2)在步骤1)还没有解码完最后一帧语音前,在每一帧语音数据解码中,首先得到当前帧活跃状态的观察概率P(xt|sj),其中xt是当前帧语音信号的特征,sj是当前活跃状态集合D中的一个;同时将所有活跃状态的观察概率相加并保存到内存中;
3)解码完最后一帧数据,在得到识别结果前,获取输入语音的词图;
4)在步骤3)中得到词图后,随即得到识别结果,也即完成了语音数据的解码识别过程,得到识别结果同时还得到其相对应的音素序列,以及每个音素所对应的起止时间点和每个音素的识别似然概率;
5)完成步骤4)后,进行同步声学后验概率计算,即,通过前面保存的每一帧的活跃状态的观察概率之和,和每个音素的起止时间及其似然概率,求出相应的每个音素的后验概率;
6)完成步骤4)后,进行词图后验概率计算,即,通过前面得到的输入语音词图,根据词图上的信息相应也计算出每个音素的后验概率,通过算术平均得到对数域的词图后验概率;
7)将在步骤5)得到的同步声学后验概率和步骤6)得到的词图后验概率两个来自不同知识源的后验概率融合即求出最后的识别结果的融合后验概率;
8)将在步骤7)得到的融合后验概率通过定制的映射函数将后验概率映射为置信度分数,即为最后得到的识别结果的置信度。
2、如权利要求1所述的应用于语音识别***的高性能置信度处理方法,其特征在于,所述步骤5)和步骤6)是相互独立的,两者没有先后次序。
3、如权利要求1所述的应用于语音识别***的高性能置信度处理方法,其特征在于,所述步骤5)中的所述同步声学后验概率计算具体如下:
根据声学后验概率计算的框图,首先考虑每一帧的后验概率计算,对于每一帧语音输入信号xt,t=1,2....T,
其对于每一帧语音信号的后验概率为P(st|xt),定义为:
P ( s t | s t ) = P ( x t | s t ) p ( s t ) p ( x t ) = P ( x t | s t ) p ( s t ) Σ s j ∈ D p ( x t | s j ) p ( s j ) - - - ( 1 )
其中st是指识别结果中xt所属的状态,D为识别过程中当前时刻t活跃状态的集合,sj是活跃状态集合中的状态;
在解码识别过程中,同时保存了每一帧语音信号的后验概率P(st|xt)的分母部分
P ( x t ) = Σ s j ∈ D p ( x t | s j ) p ( s j ) - - - ( 2 )
当识别过程结束,得到识别结果为R,其中包含N个音素,其音素序列为Ph0Ph1....PhN-1,而每个音素对应的语音帧序列x1x2......xT
每个音素的对数域后验概率计算如下:
P ( P h i ) = log [ ( Π t = 1 T p ( x t | s t ) p ( s t ) Π t = 1 T P ( x t ) ) 1 T ] - - - ( 3 )
其中,计算每个音素的后验概率的分母部分
Figure A200810110479C00034
是预先保存好的,而分子部分
Figure A200810110479C00035
是识别结果中该个音素的似然概率;
得到上述每个音素的后验概率后,整个识别结果R的基于声学模型的后验概率Pacoustic(R)的计算公式为:
P acoustic ( R ) = 1 N Σ i = 0 N - 1 P ( Ph i ) - - - ( 4 ) .
4、如权利要求1所述的应用于语音识别***的高性能置信度处理方法,其特征在于,所述步骤6)中的所述词图后验概率计算如下:
假设得到的识别结果为R,其中包含N个音素,其音素序列为Ph0Ph1....PhN-1,对应的每个音素的起始时间为ts和te,对于ts和te间的任一时刻t,设其包含的和当前音素相同的边的集合为Et,则对于音素Phi时刻t对应的后验概率计算如下:
P h i ( t ) = log [ Σ i ∈ E t Edge ( i ) ] - - - ( 5 )
当前音素的后验概率计算公式如下:
P ( Ph i ) = 1 t e - t s Σ t = t s t e P h i ( t ) - - - ( 6 )
整个识别结果的基于词图的后验概率Plattice(R)计算如下:
P lattice ( R ) = 1 N Σ i = 0 N - 1 P ( P h i ) - - - ( 7 ) .
5、如权利要求1所述的应用于语音识别***的高性能置信度处理方法,其特征在于,所述步骤8)中的置信度分数计算如下:
通过实验数据可以估计出线性融合系数λ以及后验概率和置信度分数的映射函数
CMscore=sig mod(p)                                  (8)
其中CMscore为最后置信度分数,p为线性融合后的后验概率;
最后置信度分数CMscore如下:
CMscore=sig mod(Pacoustic(R)+λPlattice(R))          (9)。
CNA2008101104799A 2007-11-28 2008-06-05 一种应用于语音识别***的高性能置信度处理方法 Pending CN101447183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008101104799A CN101447183A (zh) 2007-11-28 2008-06-05 一种应用于语音识别***的高性能置信度处理方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200710195421.4 2007-11-28
CN200710195421 2007-11-28
CNA2008101104799A CN101447183A (zh) 2007-11-28 2008-06-05 一种应用于语音识别***的高性能置信度处理方法

Publications (1)

Publication Number Publication Date
CN101447183A true CN101447183A (zh) 2009-06-03

Family

ID=40742823

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101104799A Pending CN101447183A (zh) 2007-11-28 2008-06-05 一种应用于语音识别***的高性能置信度处理方法

Country Status (1)

Country Link
CN (1) CN101447183A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102142253B (zh) * 2010-01-29 2013-05-29 富士通株式会社 语音情感识别设备及方法
CN103500579A (zh) * 2013-10-10 2014-01-08 中国联合网络通信集团有限公司 语音识别方法、装置及***
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN105336342A (zh) * 2015-11-17 2016-02-17 科大讯飞股份有限公司 语音识别结果评价方法及***
CN107004408A (zh) * 2014-12-09 2017-08-01 微软技术许可有限责任公司 用于基于将语义知识图的至少一部分转换为概率状态图来确定口语对话中的用户意图的方法和***
CN108550364A (zh) * 2018-04-20 2018-09-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN108831439A (zh) * 2018-06-27 2018-11-16 广州视源电子科技股份有限公司 语音识别方法、装置、设备和***
CN113658586A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 语音识别模型的训练方法、语音交互方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102142253B (zh) * 2010-01-29 2013-05-29 富士通株式会社 语音情感识别设备及方法
CN103500579A (zh) * 2013-10-10 2014-01-08 中国联合网络通信集团有限公司 语音识别方法、装置及***
CN103500579B (zh) * 2013-10-10 2015-12-23 中国联合网络通信集团有限公司 语音识别方法、装置及***
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN107004408B (zh) * 2014-12-09 2020-07-17 微软技术许可有限责任公司 用于基于将语义知识图的至少一部分转换为概率状态图来确定口语对话中的用户意图的方法和***
CN107004408A (zh) * 2014-12-09 2017-08-01 微软技术许可有限责任公司 用于基于将语义知识图的至少一部分转换为概率状态图来确定口语对话中的用户意图的方法和***
CN105336342B (zh) * 2015-11-17 2019-05-28 科大讯飞股份有限公司 语音识别结果评价方法及***
CN105336342A (zh) * 2015-11-17 2016-02-17 科大讯飞股份有限公司 语音识别结果评价方法及***
CN108550364A (zh) * 2018-04-20 2018-09-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
US11087763B2 (en) 2018-04-20 2021-08-10 Baidu Online Network Technology (Beijing) Co., Ltd. Voice recognition method, apparatus, device and storage medium
CN108831439A (zh) * 2018-06-27 2018-11-16 广州视源电子科技股份有限公司 语音识别方法、装置、设备和***
CN113658586A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 语音识别模型的训练方法、语音交互方法及装置
CN113658586B (zh) * 2021-08-13 2024-04-09 北京百度网讯科技有限公司 语音识别模型的训练方法、语音交互方法及装置

Similar Documents

Publication Publication Date Title
CN101118745B (zh) 语音识别***中的置信度快速求取方法
CN101447183A (zh) 一种应用于语音识别***的高性能置信度处理方法
CN111816218B (zh) 语音端点检测方法、装置、设备及存储介质
CN1228761C (zh) 用于经噪声补偿的话音识别的***和方法
CN110648553B (zh) 一种站点提醒方法、电子设备及计算机可读存储介质
CN101246685B (zh) 计算机辅助语言学习***中的发音质量评价方法
CN104978963A (zh) 语音识别装置、方法以及电子设备
CN105529028A (zh) 语音解析方法和装置
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
CN101051464A (zh) 说话人认证的注册和验证方法及装置
CN101763855A (zh) 语音识别的置信度判决方法及装置
US11705116B2 (en) Language and grammar model adaptation using model weight data
US8234112B2 (en) Apparatus and method for generating noise adaptive acoustic model for environment migration including noise adaptive discriminative adaptation method
KR20070060581A (ko) 화자적응 방법 및 장치
EP1471501A3 (en) Speech recognition apparatus, speech recognition method, and recording medium on which speech recognition program is computer-readable recorded
CN103474074A (zh) 语音基音周期估计方法和装置
JP2023539948A (ja) ロングコンテキストエンドツーエンド音声認識システム
EP1207517A1 (en) Method for recognizing speech
JP3496706B2 (ja) 音声認識方法及びそのプログラム記録媒体
CN101645270A (zh) 一种双向语音识别处理***及方法
CN112489692A (zh) 语音端点检测方法和装置
CN115132197B (zh) 数据处理方法、装置、电子设备、程序产品及介质
JP2013182261A (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2004251998A (ja) 対話理解装置
CN111028858A (zh) 一种人声起止时间检测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090603