CN101447183A

CN101447183A - 一种应用于语音识别***的高性能置信度处理方法

Info

Publication number: CN101447183A
Application number: CNA2008101104799A
Authority: CN
Inventors: 颜永红; 黎塔; 潘接林; 赵庆卫
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2007-11-28
Filing date: 2008-06-05
Publication date: 2009-06-03

Abstract

本发明涉及一种应用于语音识别***的高性能置信度处理方法，其框架是基于一遍语音识别解码完成，在一遍语音识别过程中得到多个知识源，通过多个知识源融合处理得到置信度。本发明的语音识别置信度评价方法，只使用了一遍语音识别解码，同时利用了多个知识源，与以往的方法相比，该方法在大幅提高计算速度的同时，也使置信度计算的结果更为准确有效。

Description

一种应用于语音识别***的高性能置信度处理方法

技术领域

本发明涉及一种置信度处理方法。更具体地说，本发明涉及一种应用于语音识别***的高性能置信度处理方法。

背景技术

随着语音识别技术在不同领域被越来越多地应用，语音识别***的识别率和稳健性变得越来越重要，用户对于所使用的语音识别***识别结果的可靠程度越来越关心。在自然条件下使用语音识别***，不同于理想环境下的使用，这时语音识别***的性能会有很大的降低。而且对于真实的口语，在语音中会掺杂很多非语音，譬如非正常停顿、咳嗽声以及其他的环境噪声，这都给传统的语音识别***达到原有的识别性能造成了困难。特别对于电话语音识别***，用户的期望是尽可能地拒绝错误的语音同时对于集外词表能够准确拒识，置信度的计算是解决这些困难的一种很好的途径。

置信度评价方法可以对语音识别***的识别结果进行假设检验，通过试验设定的阈值对识别结果的可靠性进行评价，定位结果中的错误，从而提高识别***的识别率和稳健性。目前已经有许多处理置信度的方法，但由于实际应用的语音识别***一方面要求实时性比较高，另一方面也希望置信度的分数比较可靠，目前的置信度处理方法很难同时满足这两个要求。在已有专利CN02148686.7中提出的置信度处理方法，它们虽然比以前的方法在速度和精度上都有提高，但是它的主要缺陷有其一是两次利用声学模型对输入语音进行解码，第一次利用声学模型目的是对原始语音进行单遍解码得到目标结果，第二次利用声学模型目的是对识别的目标结果再次在原始语音上进行强制对齐，最后得到相应的置信度分数，虽然其在处理方法，存储结构上有很大的优化提高速度，但其两遍解码的框架限制了它进一步提高其***的速度；其二，只考虑了声学模型的知识源计算置信度，单一的知识源计算出置信度结果的可靠性有限。

发明内容

本发明要解决的技术问题是提供一种应用于语音识别***的高性能置信度处理方法，本发明的目的在于通过新的置信度处理方法，一方面提高置信度处理的速度，降低置信度的计算在整个语音识别***中所占的时间，另一方面提高置信度结果的可靠性，从而进一步提高语音识别***的实时性(即速度)和稳健性。

为了达到上述目的，本发明提供了一种应用于语音识别***的高性能置信度处理方法，其框架是基于一遍语音识别解码完成，在一遍语音识别过程中得到的多个知识源，通过多个知识源融合计算置信度，具体包括以下步骤：

1)使用电话语音识别引擎对输入语音逐帧进行解码识别；

2)在步骤1)还没有解码完最后一帧语音前，在每一帧语音数据解码中，首先得到当前帧活跃状态的观察概率P(x_t|s_j)，其中x_t是当前帧语音信号的特征，s_j是当前活跃状态集合D中的一个；同时将所有活跃状态的观察概率相加并保存到内存中；

3)解码完最后一帧数据，在得到识别结果前，获取输入语音的词图(lattice)；

4)在步骤3)中得到词图后，随即可以得到识别结果，也即完成了语音数据的解码识别过程，得到识别结果同时还可以得到其相对应的音素(phone)序列，以及每个音素(phone)所对应的起止时间点和每个音素(phone)的识别似然概率；

5)完成步骤4)后，进行同步声学后验概率计算，即，通过前面保存的每一帧的活跃状态的观察概率之和，和每个音素(phone)的起止时间及其似然概率，求出相应的每个音素(phone)的后验概率；

6)完成步骤4)后，进行词图(lattice)后验概率计算，即，通过前面得到的输入语音词图(lattice)，根据词图(lattice)上的信息相应也可以计算出每个音素(phone)的后验概率，通过算术平均得到对数域的词图(lattice)后验概率；

7)将在步骤5)得到的同步声学后验概率和步骤6)得到的词图(lattice)后验概率两个来自不同知识源的后验概率融合即求出最后的识别结果的融合后验概率；

8)将在步骤7)得到的融合后验概率通过定制的映射函数将后验概率映射为置信度分数，即为最后得到的识别结果的置信度。

另外，本发明的应用于语音识别***的高性能置信度处理方法中的所述步骤5)和步骤6)是相互独立的，两者没有先后次序。

本发明的优点在于：

本发明的应用于语音识别***的高性能置信度处理方法，只使用了一遍语音识别解码，同时利用了多个知识源，与以往的方法相比，该方法在大幅提高计算速度的同时，也使置信度计算的结果更为准确有效。在所作的统计实验中，使用本发明计算方法的语音识别***置信度结果的计算速度及有效性均高于专利CN02148686.7中提出的处理方法。

附图说明

图1是语音识别结果置信度计算的框图；

图2是在得到识别结果的同时生成的词图结构。

具体实施方式

下面结合具体实施例和附图对本发明进行详细描述。

实施例1

本发明提供的应用于语音识别***的高性能置信度处理方法，包括以下步骤：

1)使用中科信利电话语音识别引擎对输入语音逐帧进行解码识别，该识别引擎的解码过程是基于TIME-SYNCHRONOUS VITERBI BEAM SEARCH算法(在文献Xuedong Huang，Alex Acero，Hsiao—Wuen Hon.Spoken Language Processing[M].NewJersey：Prentice Hall PTR，2001.中有介绍)；

3)解码完最后一帧数据，在得到识别结果(识别结果为输入语音对应的文本)前，可以得到输入语音的词图(lattice)，lattice的具体结构(可以参见图2)；

4)在步骤3)得到词图后，随即可以得到识别结果，也即完成了语音数据的解码识别过程。得到识别结果同时还可以得到其相对应的音素(phone)序列，以及每个音素(phone)所对应的起止时间点和每个音素(phone)的识别似然概率；

5)完成步骤4)后，进行声学后验概率计算，即，通过前面保存的每一帧的活跃状态的观察概率之和，和每个音素(phone)的起止时间及其似然概率，求出相应的每个音素(phone)的后验概率，这里计算每个音素(phone)的后验概率对数值是每一帧语音的后验概率对数值的算术平均，在计算每一帧语音的后验概率上，以往的方法是在后验概率公式的分母中求的是声学模型中所有状态的观察概率和，而该方法中计算则是考虑前活跃状态集合中含有的状态的观察概率和为分母，这样一是可以提高计算的速度，二是让后验概率更加准确。最后将识别结果中所有音素(phone)的后验概率对数值求算术平均得到该识别结果的对数域声学后验概率；同步声学后验概率计算具体如下：

参考图1，根据图1语音识别结果置信度计算的框图，首先考虑每一帧的后验概率计算，对于每一帧语音输入信号x_t，t＝1，2....T，其对于每一帧语音信号的后验概率为P(s_t|x_t)，定义为：

P (s_{t} | x_{t}) = \frac{P (x_{t} | s_{t}) p (s_{t})}{p (x_{t})} = \frac{P (x_{t} | s_{t}) p (s_{t})}{\underset{s_{j} &Element; D}{Σ} p (x_{i} | s_{j}) p (s_{j})} - - - (1)

其中s_t是指识别结果中x_t所属的状态，D为识别过程中当前时刻t活跃状态的集合，s_j是活跃状态集合中的状态。

在解码识别过程中，同时保存了每一帧语音信号的后验概率P(s_t|x_t)的分母部分

P (x_{t}) = \underset{s_{j} &Element; D}{Σ} p (x_{i} | s_{j}) p (s_{j}) - - - (2)

当识别过程结束，得到识别结果为R，其中包含N个音素(phone)，其音素(phone)序列为Ph₀Ph₁....Ph_N-1，而每个音素(phone)对应的语音帧序列x₁x₂......x_T。那么每个音素(phone)的对数域后验概率计算如下：

P ({Ph}_{i}) = \log [{(\frac{Π_{t = 1}^{T} p (x_{t} | s_{t}) p (s_{t})}{Π_{t = 1}^{T} P (x_{t})})}^{\frac{1}{T}}] - - - (3)

由于计算每个音素(phone)的后验概率的分母部分

是预先保存好的，而分子部分

是识别结果中该个音素(phone)的似然概率也是已知的。所以计算每个音素(phone)的后验概率基本不需要额外的时间。

有了每个音素(phone)的后验概率，下面给出整个识别结果R的基于声学模型的后验概率P_acoustic(R)的计算公式：

P_{acoustic} (R) = \frac{1}{N} Σ_{i = 0}^{N - 1} P ({Ph}_{i}) - - - (4)

词图(lattice)后验概率计算如下：

图2中是在得到识别结果的同时生成的词图(lattice)结构。其中图中的每一条边(edge)代表的是一个音素(phone)，每一条边(edge)的起始点，表示这个音素的起始时间t_s和t_e，每一条边上的值表示它的后验概率Edge(i)(其主要计算公式：Edge(i)＝词图(lattice)中通过该边的所有路径概率之和，具体步骤可以通过前向后向算法由词图(lattice)的信息计算得到。文献F.Wessel.Word Posterior Probabilitiesfor Large Vocabulary Continuous SpeechRecognition[D].Dissertation，Aachen，Germany，2002-07中有具体介绍)，图2中给出计算好的每条边的后验概率Edge(i)以及它们代表的相应因素(phone)。

假设得到的识别结果为R，其中包含N个音素(phone)，其音素(phone)序列为Ph₀Ph₁....Ph_N-1，对应的每个音素(phone)的起始时间为t_s和t_e(具体可以见图2中底部给出的识别序列R的时间信息可以得到相应的t_s和t_e)，对于t_s和t_e间的任一时刻t，设其包含的和当前音素相同的边(edge)的集合为E_t(可以见图2中Phone＝J的虚线中对应的词图中的两条Phone＝J的边)，则对于音素Ph_i时刻t对应的后验概率计算如下：

{Ph}_{i} (t) = \log [\underset{i &Element; E_{t}}{Σ} Edge (i)] - - - (5)

那么当前音素的后验概率计算公式如下：

P ({Ph}_{i}) = \frac{1}{t_{e} - t_{s}} Σ_{t = t_{s}}^{t_{e}} P h_{i} (t) - - - (6)

从而整个识别结果的基于词图(lattice)的后验概率P_lattice(R)计算如下：

P_{lattice} (R) = \frac{1}{N} Σ_{i = 0}^{N - 1} P ({Ph}_{i}) - - - (7)

其中，上述步骤5)和步骤6)是相互独立的，两者没有先后次序。

线性融合置信度计算如下：

通过上面步骤1，步骤2分别计算了声学后验概率和词图(lattice)后验概率。

通过实验数据可以估计出线性融合系数λ以及后验概率和置信度分数的映射函数

CM_score＝sig mod(p) (8)

其中CM_score为最后置信度分数，p为线性融合后的后验概率；

所以由步骤1，步骤2，步骤3可以通过该方法计算出最后置信度分数CM_score如下：

CM_score＝sig mod(P_acoustic(R)+λP_lattice(R)) (9)。

Claims

1、一种应用于语音识别***的高性能置信度处理方法，其框架是基于一遍语音识别解码完成，在一遍语音识别过程中得到多个知识源，通过多个知识源融合计算置信度，具体包括以下步骤：

1)使用电话语音识别引擎对输入语音逐帧进行解码识别；

3)解码完最后一帧数据，在得到识别结果前，获取输入语音的词图；

4)在步骤3)中得到词图后，随即得到识别结果，也即完成了语音数据的解码识别过程，得到识别结果同时还得到其相对应的音素序列，以及每个音素所对应的起止时间点和每个音素的识别似然概率；

5)完成步骤4)后，进行同步声学后验概率计算，即，通过前面保存的每一帧的活跃状态的观察概率之和，和每个音素的起止时间及其似然概率，求出相应的每个音素的后验概率；

6)完成步骤4)后，进行词图后验概率计算，即，通过前面得到的输入语音词图，根据词图上的信息相应也计算出每个音素的后验概率，通过算术平均得到对数域的词图后验概率；

7)将在步骤5)得到的同步声学后验概率和步骤6)得到的词图后验概率两个来自不同知识源的后验概率融合即求出最后的识别结果的融合后验概率；

2、如权利要求1所述的应用于语音识别***的高性能置信度处理方法，其特征在于，所述步骤5)和步骤6)是相互独立的，两者没有先后次序。

3、如权利要求1所述的应用于语音识别***的高性能置信度处理方法，其特征在于，所述步骤5)中的所述同步声学后验概率计算具体如下：

根据声学后验概率计算的框图，首先考虑每一帧的后验概率计算，对于每一帧语音输入信号x_t，t＝1，2....T，

其对于每一帧语音信号的后验概率为P(s_t|x_t)，定义为：

P (s_{t} | s_{t}) = \frac{P (x_{t} | s_{t}) p (s_{t})}{p (x_{t})} = \frac{P (x_{t} | s_{t}) p (s_{t})}{\underset{s_{j} &Element; D}{Σ} p (x_{t} | s_{j}) p (s_{j})} - - - (1)

其中s_t是指识别结果中x_t所属的状态，D为识别过程中当前时刻t活跃状态的集合，s_j是活跃状态集合中的状态；

P (x_{t}) = \underset{s_{j} &Element; D}{Σ} p (x_{t} | s_{j}) p (s_{j}) - - - (2)

当识别过程结束，得到识别结果为R，其中包含N个音素，其音素序列为Ph₀Ph₁....Ph_N-1，而每个音素对应的语音帧序列x₁x₂......x_T；

每个音素的对数域后验概率计算如下：

P (P h_{i}) = \log [{(\frac{Π_{t = 1}^{T} p (x_{t} | s_{t}) p (s_{t})}{Π_{t = 1}^{T} P (x_{t})})}^{\frac{1}{T}}] - - - (3)

其中，计算每个音素的后验概率的分母部分

是预先保存好的，而分子部分

是识别结果中该个音素的似然概率；

得到上述每个音素的后验概率后，整个识别结果R的基于声学模型的后验概率P_acoustic(R)的计算公式为：

P_{acoustic} (R) = \frac{1}{N} Σ_{i = 0}^{N - 1} P ({Ph}_{i}) - - - (4) .

4、如权利要求1所述的应用于语音识别***的高性能置信度处理方法，其特征在于，所述步骤6)中的所述词图后验概率计算如下：

假设得到的识别结果为R，其中包含N个音素，其音素序列为Ph₀Ph₁....Ph_N-1，对应的每个音素的起始时间为t_s和t_e，对于t_s和t_e间的任一时刻t，设其包含的和当前音素相同的边的集合为E_t，则对于音素Ph_i时刻t对应的后验概率计算如下：

P h_{i} (t) = \log [\underset{i &Element; E_{t}}{Σ} Edge (i)] - - - (5)

当前音素的后验概率计算公式如下：

P ({Ph}_{i}) = \frac{1}{t_{e} - t_{s}} Σ_{t = t_{s}}^{t_{e}} P h_{i} (t) - - - (6)

整个识别结果的基于词图的后验概率P_lattice(R)计算如下：

P_{lattice} (R) = \frac{1}{N} Σ_{i = 0}^{N - 1} P (P h_{i}) - - - (7) .

5、如权利要求1所述的应用于语音识别***的高性能置信度处理方法，其特征在于，所述步骤8)中的置信度分数计算如下：

CM_score＝sig mod(p) (8)

其中CM_score为最后置信度分数，p为线性融合后的后验概率；

最后置信度分数CM_score如下：

CM_score＝sig mod(P_acoustic(R)+λP_lattice(R)) (9)。