CN105261358A

CN105261358A - 用于语音识别的n元文法模型构造方法及语音识别***

Info

Publication number: CN105261358A
Application number: CN201410342840.6A
Authority: CN
Inventors: 张晴晴; 陈梦喆; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2014-07-17
Filing date: 2014-07-17
Publication date: 2016-01-20

Abstract

本发明提供一种用于语音识别的n元文法模型构造方法及语音识别***，所述方法包含：步骤101)通过神经网络语言模型训练得到词矢量，再对词矢量进行分类以及多层筛选，最终得到词类；步骤102)利用直接统计词频的方法扩充人工标注，即同类词替换时，直接统计与原句有变化的1至n元文法组合，进而得到扩充部分的n元文法模型；步骤103)人工标注生成初步的n元文法模型，再与扩充部分的n元文法模型进行模型插值，得到最终的n元文法模型。所述步骤101)进一步包含：步骤101-1)输入标注及训练文本；步骤101-2)通过神经网络语言模型训练得到词典中的词的相应词矢量；步骤101-3)用K均值法对词矢量分类；步骤101-4)对分类结果进行多层筛选，最终得到词类。

Description

用于语音识别的n元文法模型构造方法及语音识别***

技术领域

本发明涉及一种在语音识别中，利用词矢量分类来扩展人工标注训练语料，以提升语言模型的方法，具体提供一种用于语音识别的n元文法模型构造方法及语音识别***。

背景技术

目前采用的语言模型建模技术主要是n元文法语言模型(n-gramLanguageModel)。该模型因其训练简单，复杂度低，使用方便等优势，在语音识别领域得到广泛的应用。但是，n元文法模型核心思想是通过词频统计来建模，在资源匮乏的领域，比如面向电话交谈的语音(CTS)识别***，由于语料规模是有限的，存在大量训练语料中没有出现的文法组合，只能依靠平滑算法给那些概率为零的文法附上一个很小的概率。即使如此，数据稀疏问题依然是效果不理想的主要原因。

n元文法语言模型运用于语音识别领域，实践表明用户语音的人工标注的加入对于模型性能的提升是效果显著。但是人工标注的获得费时费力，因此数据量十分有限，如何更充分地利用人工标注语料成为人们的研究目标。常用做法是依据标注的文法规则特点，扩展出更多风格相近的语料，加入到模型中。之前的研究在这一问题上提出了一些方法，比如依据已有的句子总结出一些句型，对于空缺的词利用同义词词林进行同义词扩展；也有利用互信息来对词典进行分类，产生的词类用于扩展语料。

近年来，神经网络建模技术在语言模型中得到应用。n元文法语言模型是在离散空间上建模，词与词相互之间仅有语法结构上的联系，并无语义上的联系。而神经网络模型在连续空间建模，能有效挖掘更深层的语言信息。词矢量是神经网络建模过程中可得到的产物，每个词由一个远小于词典词个数的维度的矢量表示，矢量维度大大小于词典词个数，词的特征、以及词与词之间的关系信息就蕴藏在矢量中。词矢量的这一特性在自然语言理解领域中得到应用。本发明是将词矢量应用到语音识别的语言模型提升中，利用词矢量来获得词典中词相互间的相似度，按相似度将词典中的词分为若干词类，对标注语料的词进行同类词扩展以达到丰富语料的目的。

发明内容

本发明的目的在于，为有效缓解语音识别领域中常用的n元文法语言模型数据稀疏的问题，本发明提供了一种用于语音识别的n元文法模型构造方法及语音识别***。

为了实现上述目的，本发明提供一种用于语音识别的n元文法模型构造方法，所述方法包含：

步骤101)通过神经网络语言模型训练得到词矢量，再对词矢量进行分类以及多层筛选，最终得到词类；

步骤102)利用直接统计词频的方法扩充人工标注，即同类词替换时，直接统计与原句有变化的1至n元文法组合，进而得到扩充部分的n元文法模型；

步骤103)人工标注生成初步的n元文法模型，再与扩充部分的n元文法模型进行模型插值，得到最终的n元文法模型。

可选的，上述步骤101)进一步包含：

步骤101-1)输入标注及训练文本；

步骤101-2)通过神经网络语言模型训练得到词典中的词的相应词矢量；

步骤101-3)用K均值法对词矢量分类，其中词矢量间的相似程度用余弦相似度进行统计；

步骤101-4)对分类结果进行多层筛选，最终得到词类。

可选的，上述步骤102)进一步包含：

步骤102-1)将标注文本中的词对应至步骤101)得到的词类，由相应分类中的词替换；

步骤102-2)替换过程中，对与替换部分有关联的1至n元文法组合进行词频信息的统计；

步骤102-3)根据词频信息生成标注扩充部分的n元文法语言模型B。

可选的，上述步骤103)进一步包含：

步骤103-1)生成人工标注部分的n元文法语言模型A；

步骤103-2)计算模型A和模型B在开发集上的最佳插值系数，根据该系数插值模型A和模型B，得到最终模型。

此外，本发明还提供了一种基于该n元文法模型的语音识别***。

与现有技术相比，本发明的技术优势在于：

本发明利用神经网络深入挖掘词间信息，缓解语料的稀疏性，优化了语言模型部分，使其在语音识别***中更有效地控制解码器搜索路径、提高解码速度和识别正确率。

附图说明

图1是词矢量扩展人工标注流程图；

图2是神经网络语言模型结构图；

图3语音识别***基本构架。

具体实施方式

下面结合附图和具体实施例对本发明的方案进行详细的说明。

本发明提供的依据词矢量扩展人工标注流程的n元文法模型构造方法的流程如图1所示，具体包含：

1、词矢量训练：通过神经网络语言模型训练得到词典中的词的相应词矢量。训练采用经典的NNLM形式，其结构图如图2所示。

模型由输入层、映射层、隐层及输出层构成。词典中的每个词由一个维度为词典大小的矢量表示，矢量在该词的位置上为1，其余维度为0。对于n元模型，输入层输入的是“n-1”个词矢量相连组成的长矢量，输出层输出已知n-1个词，第n个词为词典中任意一个词的概率。其中，经过共享矩阵C，离散分布的矢量被映射至连续空间，所需的词矢量从矩阵C中获得。

2、词矢量分类：用K均值法对词矢量分类，矢量间的相似程度用余弦相似度来统计。余弦相似度公式如公式(2)所示，表示两个向量之间的夹角的余弦值。在自然语言理解领域中，常用该值来判断向量的相似程度。夹角越小，就代表越相似。

\cos (\overset{&RightArrow;}{S_{i}}, \overset{&RightArrow;}{S_{j}}) = \frac{\overset{&RightArrow;}{S_{i}} \cdot \overset{&RightArrow;}{S_{j}}}{| \overset{&RightArrow;}{S_{i}} | \times | \overset{&RightArrow;}{S_{j}} |} - - - (2)

词典中的词被分为若干词类后，再对分类结果作多层筛选。最终得到的词类，类内的词之间可视为词义及用法相近。

3、人工标注扩展：扩展人工标注，即对于句子中属于某类的词用该类其他词替代，得到新的句子。这样做相当于将人工标注看成句型，用同类词进行填充，但是这不同于传统意义的句型构造，因为这样的句型非人工获得，形式更丰富，用于填充的词词性也更多样化。

在扩展过程中，有些句子较长，涉及需替换的位置较多；或是有些词相应的类中词数较多，同一位置可替换的词多。这些情况使得有些句子一句被扩展成上百句，而有些只扩展出个位数。扩展出句数多的句子，除了替换词的位置，其它部分会被反复复制，这使得新扩展出来的文法组合被不断复制的部分稀释。因此实际的扩展直接在词频统计层完成，即同类词替换时，直接计上与原句有变化的1至n元文法组合。这样做相当于提前完成了模型训练时的词频统计，节省余下步骤的时间。

4、新语言模型生成：由于标注扩展后的文本量远大于人工标注，质量上来说，人工标注的质量依然高于标注扩展，因此新的语言模型生成不是将两部分文本直接混合，而是采用模型插值的方法，以保证人工标注不被稀释。

本发明通过以上几个部分的操作，获得合理的词矢量分类结果，扩展人工标注语料，与原始人工标注结合，得到最终的语言模型，缓解了人工标注数据少的问题，提升语言模型的性能，在语音识别应用中有稳定效果。

下面对本发明运用于语音识别过程的方案作进一步描述。

一、语言模型及声学模型准备

a.语言模型

1、处理训练文本及标注：训练文本用于词矢量的训练，与标注领域越接近，文本量越大，越有利于训练的充分性。实际使用中，文本量达到G级的词数时训练较为充分。标注为语音的手工标注文本。标注文本的处理比较简单，如有标注中使用的特殊符合直接去掉，再进行分词；训练文本的处理包括去除标点符号、去除特殊符号、分词等。任务如为中文任务，训练文本也以中文为主，一般建议去掉训练文本中含多个英文词的语句，因为此类中英文混合语句出现量较少，对于中文词的矢量生成多有干扰。另外，需要统计分词后的训练文本词频数，该信息将用于词矢量分类后的筛选。

2、获取词矢量：词矢量从图2所示的C矩阵获得，公式(1)所示为C的矩阵表示，n表示n元模型，m表示最终的词矢量的维度，矩阵中的每一列即为每个词的词矢量。n和m取值越大，模型会相对更精确，但由于参数增多，训练时间也会增加。在实际使用中，我们使用的词典大小为48K个词，选用参数为n＝5，m＝200。

C = (\begin{matrix} C_{11} & . . . & c_{1 m} \\ . . . & . . . & . . . \\ c_{n 1} & . . . & c_{nm} \end{matrix}) - - - (1)

3、词矢量分类：分类采用算法复杂度低的K均值法，矢量间的相似程度用余弦相似度来统计。分类后得到粗糙的词类，还需进一步筛选。筛选分为一下几步完成：a.对人工标注的词生成列表，不含有列表中的词的词类直接删去，减少后续工作的计算量。b.为保证矢量可信度，删去训练不充分的词。在处理训练文本时，已获得词频信息，对于词频过低的词从类中删去。c.删去词类中的单字词，因为单字本身词义较复杂，不适合用于扩展，只有两字及以上的词词义才较明确。d.在保证可信度的同时还需要保证相似度，在每一类中，计算人工标注词与其它词的余弦相似度，小于一定阈值则说明该词与人工标注词不够相似，需要删去。阈值可根据实际情况在0到1中选择，阈值越大，则保留下来的同类词越少。由于要进行下一步筛选，我们实验中选取阈值接近0(对应夹角度数为90°)，相当于只滤除一些有反向相似趋势的词。e.经过以上四步，剩余词类中词的总和已大幅度减少。再对剩余词标注词性，词性标注可利用开源工具获得，大量词有多种词性，所有词性均保留。将人工标注词词性与同类中其它词比较，没有相同词性的词删除。经过以上五步筛选，完成了分类的过程。

4、扩展人工标注：经过第三步后，将词典分为了若干词类，每一类中的词，可认为词义、词性及用法相似，可以相互替换使用。对于句子中属于某类的词用该类其他词替代，得到新的句子。在扩展过程中，为避免新产生的文法组合被句子中无改动的部分稀释，实际操作不是生成文本，而是直接累加上新的文法组合的个数。一般用于语音识别的语言模型为三元文法模型，我们以3-gram为例，具体说明扩展过程。假设人工标注中，有以下句子(已分词)“我们都喜欢吃西瓜”，与“喜欢”在同一词类中的词是“喜爱”，那么对于这句话，以下文法组合的词频统计都要加一。

三元组合：“我们都喜爱”；“都喜爱吃”；“喜爱吃西瓜”

二元组合：“都喜爱”；“喜爱吃”

一元组合：“喜爱”

更多的词类替换都按照以上规则进行。

5、生成新语言模型：人工标注与标注扩展各生成n元文法模型，再进行模型插值。考虑到人工标注的质量高于标注扩展的质量，插值系数的分配还是应突出人工标注的地位。

b.声学模型

目前常用的声学建模技术在本发明所述***中均可使用，如多高斯隐马尔科夫模型以及深度神经网络声学模型等，并配合各种自适应技术。

二、语音特征提取

将语音转换为具有区分度的，易于计算机存储和处理的特征序列O。常用的语音特征在本发明所述***中均可使用，如梅尔频率倒谱系数，以及在此基础上的梅尔倒谱感知线形预测系数。

三、语音识别

用声学模型和语言模型构建起搜索网络，作用于解码器，即搭建起了识别***。将提取的语音特征作为输入，在搜索网络上，解码器对于该输入搜寻出最佳路径，即可得到对应的识别结果。

综上所述本发明提供一种语音识别***，如图3所示，所述***包含：特征提取模块、声学模型和语言模型，以及解码器；

特征提取模块，用于将音频格式的语音文件转换为特征序列O的二进制文件；

声学模型，用于模拟语音特征和语言层之间的关系，进而为解码器的识别提供声学概率；

语言模型，用于提供语言学信息进而为解码器的识别提供词串先验概率，该语言模型即采用所述n元文法模型；

解码器，用于依据特征提取模块输出的特征序列，和声学模型及语言模型提供的相关概率值进行语音识别，进而输出识别结果文本。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种用于语音识别的n元文法模型构造方法，所述方法包含：

2.根据权利要求1所述的用于语音识别的n元文法模型构造方法，其特征在于，所述步骤101)进一步包含：

步骤101-1)输入标注及训练文本；

步骤101-4)对分类结果进行多层筛选，最终得到词类。

3.根据权利要求1或2所述的用于语音识别的n元文法模型构造方法，其特征在于，所述步骤102)进一步包含：

4.根据权利要求1或2所述的用于语音识别的n元文法模型构造方法，其特征在于，所述步骤103)进一步包含：

步骤103-1)生成人工标注部分的n元文法语言模型A；

5.一种语音识别***，所述方法基于权利要求1-4任意一条权利要求记载的n元文法模型，其特征在于，所述***包含：特征提取模块、声学模型和语言模型，以及解码器；

语言模型，用于提供语言学信息，进而为解码器的识别提供词串先验概率，该语言模型即采用所述包含标注扩展内容的n元文法模型；