CN102945673A

CN102945673A - 一种语音指令范围动态变化的连续语音识别方法

Info

Publication number: CN102945673A
Application number: CN 201210483176
Authority: CN
Inventors: 赵乾; 朱群; 吴玲; 潘颂声; 何春江; 王兵
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2012-11-24
Filing date: 2012-11-24
Publication date: 2013-02-27

Abstract

一种语音指令范围动态变化的连续语音识别方法，（1）输入语音指令集，并按规则将语音指令集分组，分别构建解码网络；（2）输入语音，提取声学特征，基于解码网络进行解码，在解码的同时允许根据当前的运行情况动态地增删解码网络；（3）判断接收到的语音是否为有效语音，并给出反馈是否为有效反馈；（4）依据命令做出相应的操作；（5）是否仍有语音输入，若是转入（2），否则结束。本发明允许用户连续输入语音，且允许***在识别过程中依据***运行状态动态地增加和删除语音指令，实时调整解码网络并参与解码，在提高识别效率的同时，也大大的改善了识别的准确性。

Description

一种语音指令范围动态变化的连续语音识别方法

技术领域

本发明涉及一种语音指令识别方法，尤其是一种对语音指令范围可变的连续语音识别方法。

背景技术

与机器进行交流，让其明白你在说什么，是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术作为解决人机交互的重要途径，在近年来得到了越来越多的应用。如：基于计算机平台的、大词汇量连续语音识别***，主要应用于与电话网或互联网相结合的语音信息查询服务***；在小型化、便携式语音产品中的应用，如智能玩具、家电遥控等方面。

语音指令的识别应用场景有两种，一种是对固定不变的指令内容进行识别；另一种情况是要识别的指令内容是随着时间而变化的，对于下一刻可能要识别的内容是未知的，且识别过程中用户的语音是连续输入的。这里语音指令可以是简单的命令词，也可以是语句，即围绕着某个命令词或应用场景的很多种说法。

场景二的例子如酷豆游戏，屏幕上实时动态地显示用户可读入的命令词，即当前可识别的命令词，对于识别***和用户来说，下一时刻可用于识别的命令词是完全未知的，且在命令词变化的整个过程中，用户的语音是连续输入的，此时，识别***也应实时准确的识别出用户的语音。而传统的语音指令识别方法往往满足不了需求。

传统的语音指令识别方法主要处理的是指令集固定的情况。在评测开始前，依据指令集的内容构建固定不变的解码网络，因此，该种识别技术灵活性较差，对于指令集需随时变换的情况束手无策。其具体流程如图1所示：第一步：依据需求设定指令集；第二步：依据指令集内容构建解码网络；第三步：接受用户输入的语音；第四步：判断接收到的语音是否为有效语音，并给出反馈是否为有效反馈，若是转入步五，否则转入步三；第五步：***依据命令做出相应的操作；第六步：是否仍有语音输入，若是转入步3，否则结束。

现有的语音指令识别方法主要存在以下几个缺点：（1）仅可处理语音指令集固定且已知的情况，在指令集需实时变换，且一下时刻要识别的内容完全未知时，现有方法则无计可施；（2）现有语音指令识别方法的解码网络多依据所有的命令词构建一个复杂的且固定不变的解码网络，该种方法在面临语音指令数目较多情况时，解码网络将会非常庞大，因此需要的内存开销以及时间开销都较大；且此种方法相似语音指令同时存在的概率较大，当解码网络中相似语音指令较多时，***的识别效果就会较差。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种语音指令范围动态变化的连续语音识别方法，该方法允许用户连续输入语音，且允许***在识别过程中依据***运行状态动态地增加和删除语音指令，实时调整解码网络并参与解码，在提高识别效率的同时，也大大的改善了识别的准确性。

本发明技术解决方案：一种语音指令范围动态变化的连续语音识别方法，实现步骤下：

（1）输入初始语音指令集文本，并进行文本处理；所述语音指令集文本可根据应用需要分为一组或多组，不同组指令集可具有不同的生命周期；

（2）根据步骤（1）中输出的文本，为每组语音指令集分别搭建解码网络，并将解码网络、声学模型传给各自的解码器；所述声学模型是语音识别的基础数学模型，模型单元是音素、音节或字；

（3）实时接收语音数据片段，并提取声学特征序列传给每个解码器并进行解码。所述声学特征是描述短时语音本质特征的一组值。

（4）在解码的过程中允许外部应用***根据运行逻辑的需要动态地增、删语音指令集，并根据语音指令集的动态变化实时更新解码网络。所述根据语音指令集的动态变化实时更新解码网络的过程具体如下：

（41）接受外部应用***语音指令集调整请求；

（42）若需要增加新的语音指令集，则对新语音指令集进行文本处理，依据文本构建相应的解码网络，并开始进行解码；若需要删除某些语音指令集，则停止该语音指令集对应解码器的所有运算，并删除对应的解码网络；

（5）当某个解码器率先解码至网络的结束位置时，获取所有解码器的最优结果，并进行排序，取概率最大的结果作为最优结果，并判断此时结果是否可信，若可信则终止所有解码器的运算，转入第（6）步，否则转入第（3）步继续解码；

（6）外部应用***依据第（5）步的判断结果做出相应的操作。

所述步骤（2）中解码网络为命令词解码网络或lvcsr解码网络。

所述步骤（3）中声学特征为梅尔倒谱系数MFCC、倒谱系数CEP、线性预测系数LPC或感知线性预测系数PLP。

所述步骤（5）中判断可信结果的过程如下：

（51）当某个解码器率先解码至网络的结束位置时，获取所有解码器的最优结果；

（52）根据概率对所有解码结果进行排序；

（53）取排序后概率最大的结果作为最优结果；

（54）计算该结果的置信度得分，并与阈值进行比较；

（55）若大于阈值时，则认为该结果可信，反之，认为不可信。

在步骤（5）中所述的对解码结果进行可信度判断时，为了保证判断的准确性，可以参照vad（Voice Activation Detection）的检测结果，即确认解码结束位置是否处于vad结果中的静音段，若是则认为本次识别结果是可信的，否则认为不可信。

本发明与现有技术相比的优点在于：

（1）本发明允许用户连续输入语音，且允许外部应用***根据运行逻辑的需要动态地增删语音指令集，实时调整解码网络并参与解码，有效的解决了语音指令范围动态变化的连续语音识别问题。

（2）本发明为每个语音指令集构建一个解码网络，网络结构较简单，在对大批量语音指令集进行识别时，与传统识别方法相比，此种方法识别率更高、运算量更低且占用内存更小。

附图说明

图1为现有技术的实现流程图；

图2为本发明实现流程图；

图3为本发明动态调整语音指令集过程图；

图4为本发明的解码过程流程图；

图5为指令集以每个单词为一组的解码网络示例图；

图6为本发明声学特征提取流程图。

具体实施方式

如图2所示，本发明具体实现如下：

（1）输入初始语音指令集文本，并进行文本处理。

输入的语音指令集是外部应用***预定的可识别的语音指令，也是构建解码网络的依据之一。此步骤主要完成三个任务：

首先，依据规则对语音指令集进行分组，可划分为一组或多组，不同组指令集可具有不同的生命周期，相同组内语音指令具有相同的生命周期。此处的规则可根据实际应用的需求设定，例如根据指令集的个数，类型等进行分组。如图5所示，每个单词划分为一组。

其次，对分组后的指令集文本编码格式进行统一转换，比如统一转换成UTF8格式，这样做的好处在于解析文本的代码仅需要实现一套；

最后，按照声学模型中对应模型单元的颗粒度(如字、音节、音素)进行解析（一般采用音素作为建模单元效果更佳），生成解析结果树状结构，该结构包含句子、词语、字、音节、音素五个层次的完整信息，其中前3个层次可以按照文本前端分词算法进行解析，后2个层次可以根据发音词典进行解析。

（2）为每组语音指令集分别搭建解码网络。

依据步骤（1）中的分组结果，对每组语音指令集分别构建解码网络，如图5所示。具体操作流程如下：

a）获取文本处理步骤中得到的模型单元序列；

b）针对每组单元序列，根据回读，漏读等允许的朗读规则计算网络中的弧数，并为弧分配内存；

c）根据朗读规则，构建弧把节点连接起来；

d）输出每组语音指令集对应的解码网络。

（3）实时接收语音数据片段，并提取声学特征序列传给每个解码器并行解码。

声学特征的类型较多，下面以MFCC特征为例说明，MFCC特征的提取流程如图6所示，具体步骤如下：

a）A/D变换，将模拟信号转换为数字信号；

b）预加重：通过一个一阶有限激励响应高通滤波器，使信号的频谱变得平坦，不易受到有限字长效应的影响；

c）分帧：根据语音的短时平稳特性，语音可以以帧为单位进行处理，一般可以取25毫秒(ms)作为一帧；

d）加窗：采用哈明窗对一帧语音加窗，以减小吉布斯效应的影响；

e）快速傅立叶变换（Fast Fourier Transformation,FFT）：将时域信号变换成为信号的功率谱；

f）三角窗滤波：用一组Mel频标上线性分布的三角窗滤波器（共24个三角窗滤波器），对信号的功率谱滤波，每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应；

g）求对数：三角窗滤波器组的输出求取对数，可以得到近似于同态变换的结果；

h）离散余弦变换（Discrete Cosine Transformation,DCT）：去除各维信号之间的相关性，将信号映射到低维空间；

i）谱加权：由于倒谱的低阶参数易受说话人特性、信道特性等的影响，而高阶参数的分辨能力比较低，所以需要进行谱加权，抑制其低阶和高阶参数；

j）倒谱均值减（Cepstrum Mean Subtraction,CMS）：CMS可以有效地减小语音输入信道对特征参数的影响；

k）差分参数：大量实验表明，在语音特征中加入表征语音动态特性的差分参数，能够提高***的识别性能。也用到了MFCC参数的一阶差分参数和二阶差分参数。

（4）在解码的过程中接受外部应用***语音指令集调整请求，并实时作出响应。

在解码的过程中允许外部应用***根据运行逻辑的需要动态地增删语音指令集，并根据语音指令集的动态变化实时更新解码网络。整体流程如图3所示，图4描述的为在解码过程中增加语音指令集的过程。

增加语音指令集的过程如下：

a）接受外部应用***增加语音指令集的调整请求；

b）对新语音指令集进行文本处理；

c）依据文本处理的结果构建相应的解码网络；

d）开始解码。

删除语音指令集的过程如下：

a）接受外部应用***删除语音指令集的调整请求；

b）停止该语音指令集对应解码器的所有运算；

c）删除对应的解码网络。

（5）解码并获取识别结果

语音解码是本发明中重要的一步（以Viterbi解码为例），本发明中语音解码的实施过程分以下几步：

a）每个解码器对输入的每帧声学特征，计算解码网络中当前每条可行路径对应节点的输出概率和节点内部状态转移概率，并更新当前路径的累计概率。此处的输出概率可根据节点音素对应的隐马尔科夫模型和声学特征计算，节点内部状态转移概率直接从模型中读取。

b）步骤a）中当解码到节点内部最后一个状态时，可对当前解码路径进行扩展，扩展的依据就是解码网络，当此节点连接到多个节点时，需要扩展多条路径继续进行解码，若解码网络的弧上存在路径惩罚，则需要将惩罚累加到路径的累计概率中；

获取最终识别结果的过程如下所示：

a）当某个解码器率先抛出解码结果时，获取所有解码器的最优结果；

b)根据概率对所有解码结果进行排序；

c）取排序后概率最大的结果作为最优结果；

d）计算该结果的置信度得分，并与阈值进行比较；

e）若大于阈值时，则认为该结果可信，反之，认为不可信，继续解码。

（6）外部应用***依据第（5）步的判断结果做出相应的操作。例如，在练习读单词的游戏软件中，当识别出某个单词时，可从显示界面中删除对应的单词。

本发明说明书未详细阐述部分属于本领域公知技术。

Claims

1.一种语音指令范围动态变化的连续语音识别方法，其特征在于实现步骤如下：

（3）实时接收语音数据片段，并提取声学特征序列传给每个解码器并进行解码。所述声学特征是描述短时语音本质特征的一组值；

（41）接受外部应用***语音指令集调整请求；

2.根据权利要求1所述的一种语音指令范围动态变化的连续语音识别方法，其特征在于：步骤（2）中所述的解码网络是命令词解码网络或lvcsr解码网络。

3.根据权利要求1所述的一种语音指令范围动态变化的连续语音识别方法，其特征在于：所述步骤（3）中声学特征为梅尔倒谱系数MFCC、倒谱系数CEP、线性预测系数LPC或感知线性预测系数PLP。

4.根据权利要求1所述的一种语音指令范围动态变化的连续语音识别方法，其特征在于：所述步骤（5）中判断可信结果的过程如下：

（52）根据概率对所有解码结果进行排序；

（53）取排序后概率最大的结果作为最优结果；

（54）计算该结果的置信度得分，并与阈值进行比较；

5.根据权利要求1所述的一种语音指令范围动态变化的连续语音识别方法，其特征在于：在步骤（5）中所述的对解码结果进行可信度判断时，为了保证判断的准确性，可以参照vad（Voice Activation Detection）的检测结果，即确认解码结束位置是否处于vad结果中的静音段，若是则认为本次识别结果是可信的，否则认为不可信。