CN101604520A

CN101604520A - 基于统计模型和语法规则的口语语音识别方法

Info

Publication number: CN101604520A
Application number: CNA2009101580304A
Authority: CN
Inventors: 王辉
Original assignee: BEIJING SENBOKE INTELLIGENCE SCIENCE AND TECHNOLOGY Co Ltd
Current assignee: BEIJING SENBOKE INTELLIGENCE SCIENCE AND TECHNOLOGY Co Ltd
Priority date: 2009-07-16
Filing date: 2009-07-16
Publication date: 2009-12-16

Abstract

一种基于统计语言模型、结合语法规则、面向口语识别应用的语音识别方法。本发明由声学模型训练、语言模型训练、前端处理、及识别解码四个部分组成。本发明的语言模型以N元语法统计模型为基础，辅以语法规则网络，可以有效处理口语中的集外词、口头禅、模糊发音、语句快速切换等现象，从而在保证语音识别自然度的前提下，到达更高的识别率。

Description

基于统计模型和语法规则的口语语音识别方法

技术领域

本发明涉及自动语音识别技术领域，是一种基于统计语言模型、结合语法规则、面向口语识别应用的语音识别方法。

背景技术

信息***或控制***越来越多地应用语音界面来与用户进行快速和直接的交互作用，由于这些***的功能正在变得越来越复杂，所需的对话方式也变得更丰富，人们正在进入大词汇量口语连续语音识别的领域。

大词汇量连续语音识别***的设计都需要产生一个语言模型，它确定一个词汇序列可能的概率。

对于口语识别而言，这种语言模型必须能再现***用户通常使用的讲话样式：反复、无关***语、集外词或模糊发音。

所用语言模型的质量极大地影响语音识别的准确率。这种质量通常是用语言模型的困惑度指标来衡量，在原理上，该指标表示选择的数目，这种选择是***对每一被解码的词必须做的。这一指标越低，质量越高。

语言模型需要把发音单元序列转换成词的文本串，这是对话***常用的步骤。然后，需要构建一种能理解的逻辑关系，使能理解口头的提问，从而作出回答。

有两种产生大词汇语言模型的标准方法：

1)基于N元语法的统计语言模型，最常用的双语法或三语法，其要点是，假定一个词在句中的出现概率仅仅与前面的(N-1)个词有关，那么，它与句中的上下文无关。

考虑一个1000个词汇的三语法的例子，因为它有1000³个可能的三元组，所以，它必须确定1000³的概率来定义一个语言模型，因此，需要占用相当规模的存储器和非常强的计算能力。为了解决这个问题，把词分成组，这些组由模型设计者直接确定，或者由自组织方法推导出来。

这种语言模型是由大量文本通过统计的方法自动构造的。

2)第二种方法的要点是借助于规则语言来描述语法，典型的如依靠一组FSN网络描述的规则来确定语法。

描述语法的规则通常是手写的，但也可以用统计的方法从大量数据中自动推导出来。

当把这两种语言模型应用于自然语言***的界面时，这两种模型产生了特殊的问题：

基于N元语法的统计语言模型不能正确模拟句子中几个隔开的语法子结构的关系。对于句法上正确发声的句子来说，没有什么可保证在识别过程中遵守这些子结构，因此，很难确定是否该句子就是由一种或多种特殊句法结构习惯产生的这种句子或这种意义。

这些模型适合于连续的口授，但把他们应用到对话***就有所提到的严重的缺陷。

在基于N元语法的统计语言模型，借助于把最新实际发声的词组在一起来定义一组词，就可能考虑到支吾和重复。

基于语法规则的语言模型，可以使它正确模拟句子中隔开的远程关系，也遵守特定的句法结构。对于一种给定的应用，所得到的语言的困惑度常常比基于N元语法的统计语言模型低。

上述语言模型很难适应掺入有口头禅、模糊发音等的口语型语言的描述。特别地，这些与口语型语言有关的现象不能预测，因此，似乎很难依靠自身的特性来设计基于语法规则的语法。

此外，覆盖应用需要的规则数目很大，在没有修改这种现有规则之前，很难考虑要加入到对话中的新句子。

发明内容

本发明的目的是为克服现有语音识别技术的不足，提出一种N元语法统计模型和语法规则相结合的语言建模方法，使其应用于口语语音识别***，提高对口语中集外词、口头禅、模糊发音、语句快速切换等发音现象的处理能力。

本发明是通过以下技术方案实现的，本发明由S1-声学模型训练、S2-语言模型训练、S3-前端处理、S4-识别解码四个部分组成，如图1所示。本发明的主要特征在于使用了以N元语法统计模型为基础，结合语法规则的语言模型。

以下是对本发明进一步的说明：

S1-声学模型训练

特征提取：按帧长25毫秒，帧移10毫秒提取12维MFCC特征，再加上1维能量特征，共13维静态特征。动态特征取一阶和二阶差分特征，得到39维的声学特征向量序列。

基本声学模型的训练：声学建模方法使用CDHMM+GMM，利用本领域熟知的方法训练状态绑定的上下文相关三音子模型。

S2-语言模型训练

基于统计模型和语法规则的口语语音识别方法，具体是一种基于统计语言模型、结合语法规则、面向口语识别应用的语音识别方法。本发明由S1-声学模型训练、S2-语言模型训练、S3-前端处理、S4-识别解码四个部分组成。其特征在于：语言模型以N元语法统计模型为基础，辅以语法规则网络，用以处理口语中常见的集外词、口头禅、模糊发音、语句快速切换等现象。语言模型框架见图2。

定义符号：SENT表示一个句子，NGram表示N元语法统计模型，WORD表示词，WORDCLASS表示词类，GB表示垃圾词过滤模型，FzPr表示模糊发音过滤模型，FvPh表示口头禅过滤模型，OOV表示集外词模型。

以下是用BNF语法定义的语法规则：

SENT：＝[GB]NGram[SUBSENT][GB]

SUBSENT：＝(GB NGram SUBSENT)

|(GB NGram)；

NGram：＝((WORD|WORDCLASS|OOV)NGram)

|(WORD|WORDCLASS|OOV)

GB：＝(FzPr[FvFz][FvPh])

|(FvPh[FzFv][FzPr])；

FvFz：＝(FvPh FzPr FvFz)

|(FvPh FzPr)；

FzFv：＝(FzPr FvPh FzFv)

|(FzPr FvPh)；

本发明的N元语法统计模型的建模单元可以是词(WORD)、词类(WORDCLASS)、或集外词模型(OOV)。在训练过程中，根据语料库的标注和词类的预定义，可以用本领域熟知的方法训练出连接概率模型；WORD或WORDCLASS与OOV的连接概率、以及OOV之间的连接概率不是从语料库中直接训练得到的，而是通过WORDCLASS的连接概率间接得到的。

本发明的OOV模型个数等于WORDCLASS个数，每个OOV模型都对应一个WORDCLASS，即OOV模型的语言模型连接概率等于其对应的WORDCLASS的连接概率。OOV模型(如图3所示)由一个汉字循环网络(Single Word Loop，SWL)和一个汉字N元语法统计模型构成，汉字N元语法统计模型由其对应的WORDCLASS语料统计学习得到。所有OOV模型共享使用一个SWL。可以每个OOV模型一个独立的汉字N元语法统计模型，或者多个OOV模型共享一个汉字N元语法统计模型。对WORD或WORDCLASS模型与OOV模型的连接加上一个奖励因子Aw，以提高OOV的检出率。

在本发明的语法规则中，被GB模型隔开的若干个NGram模型在计算连接概率时，GB模型将被忽略，这些NGram模型被当作连接在一起那样来计算语言连接概率。

本发明的GB模型由FzPr和/或FvPh模型组成，其中FzPr模型(如图5所示)有一个音素循环网络(Phone Loop Net，简称PLN)构成，FvPh模型(如图4所示)由一个口头禅词集合的循环网络(Favorite Phrase Loop，简称FPL)构成。口头禅词集合中包括词和短语，可以从语料库学习得到，也可以根据语言学知识总结得到。

在语法规则中，对NGram模型与GB模型中FvPh模型的连接加上惩罚因子Pv1，对GB模型中FvPh模型与NGram模型的连接加上惩罚因子Pv2，以避免正常的语音被识别成口头禅；对NGram模型与GB模型中的FzPr模型的连接加上一个惩罚因子Pz1，对GB模型中的FzPr模型与NGram模型的连接加上一个惩罚因子Pz2，以避免正常的语音被识别成模糊语音。

在NGram模型中，设置一个词首<s>元素，设置的方法为本领域所熟知。在识别过程中，认为每一次词间的扩展都可能是新句子的开始，具体做法是，向搜索路径堆栈中添加新句子路径，该路径从语法规则网络的根节点开始，同时在计算新句子路径的首部的N-1个词的连接概率时需要使用<s>元素，具体方法为本领域所熟知。利用该方法，可以对口语中句子的快速切换进行处理。

在识别阶段，每条搜索路径的数据结构信息除了有本领域熟知的一些项外，至少还需要包含以下几个信息：

a)历史词或词类信息；

b)在语法规则网络中的位置；

c)当前语法模型类型(WORD，WORDCLASS，OOV，FvPh，FzPr)；

语言模型得分。

S3-前端处理

前端处理有两个功能，语音增强和语音端点检测。首先对信号进行语音增强处理，消除平稳背景噪声或缓慢渐变的非平稳噪声；然后进行语音端点检测，特征采用帧对数能量，由于语音增强处理后的背景噪音能量近似一个很小的常量，因此可以采用绝对门限来判断是否是语音。语音增强处理后的语音信号中可能会残留突发噪声，因此设定语音段最小长度门限，如果检测到的语音段小于该门限，则判断为突发噪声。由于语音前后部分的能量较弱，容易造成漏检，这通常会导致识别错误，由于语音识别器容许语音前后带静音，因此在语音端点检测过程中，分别把语音开始点向前扩展200毫秒，语音结束点向后扩展200毫秒。一段语音作为一句，如果检测到的语音很长，有可能是由于语速较快，语句间的停顿较短，导致多句话被检测为一句话，这种现象在口语中较多，本发明的方法可以较好的解决这个问题。

S4-识别解码

识别解码部分，首先用与声学模型训练阶段一样的方法提取声学特征。提取完声学特征后，对声学特征序列进行归一化处理，然后送入识别器进行识别。

识别采用Viterbi-Beam宽度优先的帧同步搜索方法。然后将声学得分加上语言得分后的得分最高的搜索路径对应的词序列作为最后识别出来的句子。

发明实例

为了说明本方法的有效性，下面用一个实验来比较本方法与基于3元语言模型(3-Gram)的语音识别方法在不同测试集上的识别率的区别。

声学模型训练数据：标注普通话纯净语音数据库，100男100女。

语言模型训练数据：10G字节新闻联播语料和主流新闻媒体的语料。

测试数据：共三个测试集：新闻测试集，中央电视台新闻联播录音；朗读测试集，标注普通话朗读新闻的录音；口语测试集，用口语复述新闻的录音。

以下是测试结果：

	新闻测试集	朗读测试集	口语测试集
	新闻测试集	朗读测试集	口语测试集	3-Gram	91.25％	89.77％	72.04％
本文方法	90.68％	89.10％	81.97％	3-Gram	91.25％	89.77％	72.04％

附图说明

图1为本发明的框架示意图

图2为本发明的语言模型框架示意图

图3为OOV集外词模型示意图

图4为FvPh口头禅过滤模型示意图

图5为FzPr模糊发音过滤模型示意图

图6为本发明的***流程示意图

具体实施方式

下面结合附图对本发明做进一步说明。

图1为本发明的框架示意图，图6为本发明的***流程示意图，如图1和图6所示，本***主要由S1-声学模型训练、S2-语言模型训练、S3-前端处理、S4-识别解码四个部分组成，***流程如下：

S1-声学模型训练部分流程如下：

1.S1-1，特征提取。按帧长25毫秒，帧移10毫秒提取12维MFCC特征，再加上1维能量特征，共13维静态特征。动态特征取一阶和二阶差分特征，得到39维的声学特征向量序列。

2.S1-2，采用HMM+GMM建模方法，训练状态绑定的上下文相关三音子模型。S2-语言模型训练部分流程如下：

1.S2-1，基于BNF语法定义语法规则，然后使用BNF语法解析器生成语法规则网络。

2.S2-2，对语言模型训练语料库进行分词、发音标注；同时定义词类，并对语料库进行词类标注，需要注意的是，同一个词可能属于多个词类。在定义词类时，应当尽可能地为可能出现集外词的语言现象定义词类，比如人名、地名等。

3.S2-3，利用标注的语料库，训练同时包含词和词类的N元语法统计模型。

4.S2-4，对每个词类，构造一个OOV模型，其对应的汉字N元语法统计模型由该词类的所有的词训练得到，如果某个词类的词的数量较少，则可以与其它词类的词合并，然后与这些词类共享同一个汉字N元语法统计模型。然后，对所有OOV模型，构造一个汉字循环网络SWL。

5.S2-5，设置口头禅词集合，并构造一个口头禅词集合的循环网络FPL。

6.S2-6，构造一个音素循环网络PLN。

7.S2-7，训练OOV模型的奖励因子Aw，FvPh模型的惩罚因子Pv1和Pv2，FzPr模型的惩罚因子Pz1和Pz2。

S3-前端处理部分流程如下：

1.S3-1，对信号进行语音增强处理，消除平稳背景噪声或缓慢渐变的非平稳噪声；

2.S3-2，采用帧对数能量为特征，进行语音端点检测；

3.S3-3，如果检测到的语音段小于语音段最小长度门限，则判断为突发噪声，否则，将检测到语音送入识别器识别。

S4-识别解码部分流程如下：

1.S4-1，参照步骤S1-1，提取声学特征序列。

2.S4-2，进行Viterbi-Beam搜索，将声学得分加上语言得分最高的句子作为最终识别结果。

Claims

1、基于统计模型和语法规则的口语语音识别方法，具体是一种基于统计语言模型、结合语法规则、面向口语识别应用的语音识别方法。本发明由声学模型训练、语言模型训练、前端处理、及识别解码四个部分组成。其特征在于：语言模型以N元语法统计模型为基础，辅以语法规则网络，用以处理口语中常见的集外词、口头禅、模糊发音、语句快速切换等现象。

以下是用BNF语法定义的语法规则：

SENT:＝[GB]NGram[SUBSENT][GB]

SUBSENT:＝(GB NGram SUBSENT)

|(GB NGram)；

NGram:＝((WORD|WORDCLASS|OOV)NGram)

|(WORD|WORDCLASS|OOV)

GB:＝(FzPr[FvFz][FvPh])

|(FvPh[FzFv][FzPr])；

FvFz:＝(FvPh FzPr FvFz)

|(FvPh FzPr)；

FzFv:＝(FzPr FvPh FzFv)

|(FzPr FvPh)；

2、根据权利要求1所述的基于统计模型和语法规则的口语语音识别方法，其特征在于，本发明的N元语法统计模型的建模单元可以是词(WORD)、词类(WORDCLASS)、或集外词模型(OOV)。在训练过程中，根据语料库的标注和词类的预定义，可以用本领域熟知的方法训练出连接概率模型；WORD或WORDCLASS与OOV的连接概率、以及OOV之间的连接概率不是从语料库中直接训练得到的，而是通过WORDCLASS的连接概率间接得到的。

3、根据权利要求1所述的基于统计模型和语法规则的口语语音识别方法，其特征在于，本发明的OOV模型个数等于WORDCLASS个数，每个OOV模型都对应一个WORDCLASS，即OOV模型的语言模型连接概率等于其对应的WORDCLASS的连接概率。OOV模型由一个汉字循环网络(Single Word Loop，SWL)和一个汉字N元语法统计模型构成，汉字N元语法统计模型由其对应的WORDCLASS语料统计学习得到。所有OOV模型共享使用一个SWL。可以每个OOV模型一个独立的汉字N元语法统计模型，或者多个OOV模型共享一个汉字N元语法统计模型。对WORD或WORDCLASS模型与OOV模型的连接加上一个奖励因子Aw，以提高OOV的检出率。

4、根据权利要求1所述的基于统计模型和语法规则的口语语音识别方法，其特征在于，在本发明的语法规则中，被GB模型隔开的若干个NGram模型在计算连接概率时，GB模型将被忽略，这些NGram模型被当作连接在一起那样来计算语言连接概率。

5、根据权利要求1所述的基于统计模型和语法规则的口语语音识别方法，其特征在于，本发明的GB模型由FzPr和/或FvPh模型组成，其中FzPr模型有一个音素循环网络(PhoneLoop Net，简称PLN)构成，FvPh模型由一个口头禅词集合的循环网络(Favorite Phrase Loop，简称FPL)构成。口头禅词集合中包括词和短语，可以从语料库学习得到，也可以根据语言学知识总结得到。

6、根据权利要求1所述的基于统计模型和语法规则的口语语音识别方法，其特征在于，在本发明的语法规则中，对NGram模型与GB模型中FvPh模型的连接加上惩罚因子Pv1，对GB模型中FvPh模型与NGram模型的连接加上惩罚因子Pv2，以避免正常的语音被识别成口头禅；对NGram模型与GB模型中的FzPr模型的连接加上一个惩罚因子Pz1，对GB模型中的FzPr模型与NGram模型的连接加上一个惩罚因子Pz2，以避免正常的语音被识别成模糊语音。

7、根据权利要求1所述的基于统计模型和语法规则的口语语音识别方法，其特征在于，在本发明的NGram模型中，设置一个词首<s>元素，设置的方法为本领域所熟知。在识别过程中，认为每一次词间的扩展都可能是新句子的开始，具体做法是，向搜索路径堆栈中添加新句子路径，该路径从语法规则网络的根节点开始，同时在计算新句子路径的首部的N-1个词的连接概率时需要使用<s>元素，具体方法为本领域所熟知。利用该方法，可以对口语中句子的快速切换进行处理。

8、根据权利要求1所述的基于统计模型和语法规则的口语语音识别方法，其特征在于，在识别阶段，每条搜索路径的数据结构信息除了有本领域熟知的一些项外，至少还需要包含以下四个信息：

●历史词或词类信息；

●在语法规则网络中的位置；

●当前语法模型类型(WORD，WORDCLASS，OOV，FvPh，FzPr)；

●语言模型得分。