CN105374352B

CN105374352B - 一种语音激活方法及***

Info

Publication number: CN105374352B
Application number: CN201410418850.3A
Authority: CN
Inventors: 葛凤培
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2014-08-22
Filing date: 2014-08-22
Publication date: 2019-06-18
Anticipated expiration: 2034-08-22
Also published as: CN105374352A

Abstract

本发明涉及一种语音激活方法，包括：建立声学模型，在声学模型基础上建立解码网络空间；按照噪声环境等级选择对应的静音抑制配置参数，将输入语音流切分成语音片段；提取语音片段的语音特征；将语音特征输入解码网络空间进行解码识别，获取识别语音音素；从能够表征发音单元可信程度的所有度量中选取若干个度量作为识别语音音素的若干个置信度，计算识别语音音素的若干个置信度；对识别语音音素的若干个置信度进行二次判决，包括预判决和第二次判决，输出最终识别结果。该方法克服了手指启动设备存在的缺陷，达到了较好的激活效果，为人们使用语音识别设备提供方便。

Description

一种语音激活方法及***

技术领域

本发明属于语音识别技术领域，具体地说，本发明涉及一种语音激活方法及***。

背景技术

目前的语音识别技术在受到噪声以及自然口语等因素的影响时，识别正确率会严重降低。因此在日常生活中，基于连续语音识别技术的人机交互模式难以实现。目前通常的解决方案是采用手指按键的方式开启语音识别设备，这样用户就可以在相对安静的环境状态下进行语音录入，从而保证较好的语音识别效果，继而完成人机交互工作。

手指按键的开启方式会给用户带来各种不便。首先，手指按键要求用户和语音识别设备之间的距离不能超过手臂，这样会给距离设备较远或者行动不便的用户群带来操作上的困难；其次，在黑暗的环境中，用户不容易找到按键的位置；再次，手指按键不适合双手被占用的用户，以用户驾驶车辆为例，此时用户不方便使用手指按键方式。综上所述，对手指按键这种开启方式的依赖限制了语音识别技术的推广和应用。

语音激活技术提供了一种克服上述缺陷的方案，有助于推进人机交互的应用和发展。文献[1](“Wake-Up-Word Speech Recognition”,Veton Kepuska(2011),SpeechTechnologies,Prof.Lvo lpsic(Ed.),ISBN:978-953-307-996-7.)中介绍了基于语音识别框架的语音激活算法，此算法没有考虑实际应用环境中存在各种环境噪声，在环境相对安静的实验室中具有较好的的语音激活性能，但是应用到背景噪声较大的环境中语音激活性能可能严重恶化；而且文献[1]中仅采用分类器进行置信度判决，其判决准确性完全依赖于分类器的训练样本，如果训练样本选择不合适会直接影响语音激活性能。

发明内容

本发明的目的在于克服手指按键开启语音识别设备存在的各种缺陷，提供一种语音激活这种全新的设备启动模式，从而为人们使用语音识别设备提供方便。

为了实现上述目的，本发明提供一种语音激活方法，包括：

建立声学模型，在声学模型基础上建立解码网络空间；

按照噪声环境等级选择对应的静音抑制配置参数，将输入语音流切分成语音片段；提取语音片段的语音特征；将语音特征输入解码网络空间进行解码识别，获取识别语音音素；从能够表征发音单元可信程度的所有度量中选取若干个度量作为识别语音音素的若干个置信度，计算识别语音音素的若干个置信度；对识别语音音素的若干个置信度进行二次判决，包括预判决和第二次判决，输出最终识别结果。

上述技术方案中，所述建立解码网络空间包括：将音素集中的垃圾音素并联为循环的垃圾音素子网络，对指定的激活词所包含的音素进行顺序连接成激活词音素串，然后在激活词音素串首尾加入所述的垃圾音素子网络，首尾的垃圾音素子网络跨过激活词音素串直接相连。

上述技术方案中，所述噪声环境等级为：强噪声环境、中等噪声环境、安静环境；噪声环境等级按照环境噪声的声压级进行分类。

上述技术方案中，所述识别语音音素的若干个置信度包括：音素规整时长、时间规整的音素对数似然值、音素对数后验概率、时长为一帧的状态个数、最小音节时长、识别语音总时长。

上述技术方案中，所述预判决包括：

如果所有识别语音音素的音素对数后验概率次小值<第一阈值，则直接判决为非激活词；如果所有识别语音音素的音素对数后验概率值小于-1的音素个数>第二阈值，则直接判决为非激活词；如果时长为一帧的状态个数>第三阈值，则直接判决为非激活词；如果最小音节时长<＝第四阈值，则直接判决为非激活词；如果识别语音总时长小于识别语音音素个数*6帧或大于识别语音音素个数*15帧，则直接判决为非激活词；所述第一阈值、第二阈值、第三阈值和第四阈值通过经验和统计规律优选获得。

上述技术方案中，所述第二次判决采用分类器实现，所述分类器为线性分类器或混合高斯模型分类器或支持向量机分类器。

此外，本发明还提供了一种语音激活***，所述的***包含：

静音抑制模块，用于按照噪声环境等级选择对应的静音抑制配置参数，将采集的连续语音流切分成语音片段；

特征提取模块，用于提取语音片段的语音特征；

声学模型，用于描述声学空间中各个发音单元的语音特征分布规律；

解码模块，用于在声学模型的基础上建立解码网络空间，对语音片段的语音特征进行维特比解码，在解码网络空间中寻找最优音素路径作为识别语音路径，最优音素路径上的所有非垃圾音素即为识别语音音素；

置信度计算模块，用于从能够表征发音单元可信程度的所有度量中选取若干个度量作为识别语音音素的若干个置信度，计算识别语音音素的若干个置信度；

二次判决模块，用于对识别语音音素的若干个置信度进行二次判决，包括预判决和第二次判决，输出最终识别结果。

本发明的优点在于：

1、通过对噪声环境的分级处理，本发明提供的语音激活***在噪声环境中有很好的稳健性；

2、通过建立特定的解码网络空间，可以消除实际应用环境中存在的背景噪声对语音识别性能的不良影响；

3、通过对语音识别结果的二次判决，将语音的识别错误率降到最低，达到了优异的语音激活效果；

4、本发明提供的语音激活***，在交互式的智能家用电器、穿戴式设备等方面具有广阔的应用前景。

附图说明

图1是本发明的解码网络空间的构建方式示意图；

图2是本发明的语音激活***的模块组成图。

具体实施方式

下面结合附图及对本发明的具体实施做进一步地描述。

本发明提供的语音激活方法包括以下步骤：

步骤1)建立声学模型；

音素集包含65个中文无调音素、15个垃圾音素(filler)、表示静音的sil音素和表示短暂停顿的sp音素；每个音素利用上下文扩展成为三音子，每个三音子由三个状态顺序连接。所述15个垃圾音素是通过统计方法获得的，根据各个音素间的混淆及相关程度，将所有音素聚集成多个相似类，每一相似类作为一个垃圾音素。

通过决策树的方式，将相同中心音素、相同位置、不同上下文的状态群进行聚类，得到3970个状态，即3970个单元，每个单元由包含8个高斯分量的混合高斯模型(GMM)进行描述；基于音素集和3970个单元构建声学模型。

步骤2)在声学模型基础上建立解码网络空间；

参考图1，解码网络空间的建立方式为：将步骤1)中所述的15个垃圾音素并联为循环的垃圾音素子网络，对指定的激活词所包含的音素进行顺序连接成激活词音素串，然后在激活词音素串首尾加入所述的垃圾音素子网络，首尾的垃圾音素子网络跨过激活词音素串直接相连。

上述建立的解码网络空间可以对五类语音片段完成准确的强制对齐，所述五类语音片段为：激活词、前部带垃圾语音的激活词、后部带垃圾语音的激活词、前后均有垃圾语音的激活词、全垃圾语音，这五类语音片段覆盖了所有可能的待识别语音。

以指定的激活词为：“你好空调”为例，串连的激活词音素串为“n-i-h-ao-k-ong-t-iao”。

步骤3)按照噪声环境等级选择对应的VAD(静音抑制)配置参数，将输入语音流切分成语音片段；提取语音片段的语音特征；将语音特征输入解码网络空间进行解码识别，获取识别语音音素；从能够表征发音单元可信程度的所有度量中选取若干个度量作为识别语音音素的若干个置信度，计算识别语音音素的若干个置信度；对识别语音音素的若干个置信度进行二次判决，包括预判决和第二次判决，输出最终识别结果。

上述技术方案中，所述步骤3)进一步包括：

步骤301)按照噪声环境等级选择对应的VAD(静音抑制)配置参数，将输入语音流切分成语音片段；

将噪声环境分为三个等级：强噪声环境、中等噪声环境、安静环境，等级按照环境噪声的声压级进行分类，声压级的计算方法如下：

Lp＝20*lg(p/p0)

其中，Lp是声压级，单位为分贝；p是声压；p0是基准声压，在空气中p0＝2×10^-5。

噪声环境等级分类标准如下：

按照噪声环境等级选择对应的VAD配置参数，将输入的连续语音流切分成小的语音片段，切分的目标是在人说话的间歇位置断开，即尽量保证一段连续说话声放在一个语音片段中。不同的VAD配置参数可以保证语音流切分不随环境噪声的起伏变化而有明显差异，以此得到准确的语音片段，减少完整语音被切断的现象发生。

步骤302)提取语音片段的语音特征；

采用8K采样率采集语音，语音分帧处理采用25毫秒窗长、10毫秒窗移，提取12维PLP(感知线性预测系数)和1维能量作为语音的静态特征，采用了两阶差分参数提取39维特征作为语音的动态特征。采用了HLDA(异方差线性区分性分析)技术对静态特征和动态特征进行变换以提高区分特征的能力。

步骤303)将语音特征输入解码网络空间进行解码识别，获取识别语音音素；

解码识别采用维特比(Viterbi)算法，在解码网络空间上找到最优音素路径作为识别语音路径，最优音素路径上去除filler以外的所有音素即为识别语音音素。如果所有识别语音音素都为filler，则直接判定识别语音为非激活词，转入步骤305-3)；否则，转入步骤304)。

步骤304)计算识别语音音素的若干个置信度；

所述的若干个置信度为：音素规整时长、时间规整的音素对数似然值、音素对数后验概率、时长为一帧的状态个数、最小音节时长、识别语音总时长。

音素规整时长的计算方法如下：

其中，p_i是第i个识别语音音素；dur_NOR(p_i)是第i个识别语音音素的规整时长；dur(p_i)是第i个识别语音音素的时长；S是识别语音包含的音素总个数。

时间规整的音素对数似然值计算方法如下：

其中，LL_Nor(p_i)是第i个识别语音音素的时间规整对数似然值；P(O|p_i)是第i个识别语音音素的似然值，lnP(O|p_i)在常规的解码结果中均能得到。

音素对数后验概率计算方法如下：

其中，GOP(p_i)是第i个识别语音音素的音素对数后验概率值；是音素集中所有音素的似然值之和，Q是上述步骤1)中的音素集。

步骤305)对识别语音音素的若干个置信度进行二次判决，输出最终识别结果。包括：

步骤305-1)对识别语音音素的若干个置信度进行预判决，如果判决结果为非激活词，转入305-3)；否则，转入305-2)；

所述预判决包括：

如果所有识别语音音素的音素对数后验概率次小值<第一阈值，则直接判决为非激活词；所述第一阈值可以通过经验和统计规律优选获得，在本实施例中第一阈值取-4.0；

如果所有识别语音音素的音素对数后验概率值小于-1的音素个数>第二阈值，则直接判决为非激活词；所述第二阈值可以通过经验和统计规律优选获得，在本实施例中第二阈值取4；

如果时长为一帧的状态个数>第三阈值，则直接判决为非激活词；所述第三阈值可以通过经验和统计规律优选获得，在本实施例中第三阈值取12；

如果最小音节时长<＝第四阈值，则直接判决为非激活词；所述第四阈值可以通过经验和统计规律优选获得，在本实施例中第四阈值取6；

如果识别语音总时长小于识别语音音素个数*6帧或大于识别语音音素个数*15帧，则直接判决为非激活词。

步骤305-2)对预判决不能直接判决为非激活词的识别语音的置信度矢量进行第二次判决；

所述识别语音的置信度矢量是将识别语音每个音素的若干个置信度按音素顺序排列构成的矢量，识别语音的置信度矢量的维度为识别语音音素的个数*若干个置信度的个数；

以识别语音为“你好空调”为例，每个汉字由声母和韵母两个音素构成，那么“你好空调”的置信度矢量的维度为6*8＝48维。

所述第二次判决采用分类器实现，分类器为线性分类器或混合高斯模型分类器或支持向量机(SVM)分类器，本实施例采用的分类器是SVM分类器。

在所述第二次判决之前，首先用等量的正样本和负样本训练一个SVM分类器；所述正样本为指定激活词内容的语音片段，所述负样本为非指定激活词内容的语音片段；

所述第二次判决包括：将识别语音的置信度矢量输入SVM分类器进行分类，SVM分类器的输出为1或者2,其中1表示是激活词，2表示非激活词。

步骤305-3)输出最终识别结果。

参考图2，本发明还提供一种语音激活***，包括：

VAD(静音抑制)模块，用于按照噪声环境等级选择对应的静音抑制配置参数，将采集的连续语音流切分成语音片段；

特征提取模块，用于提取语音片段的语音特征；

本实施例以“你好空调”为指定激活词，声学模型采用150小时的较安静环境的朗读数据，在实际场景下录制10人的朗读数据作为评判激活率的测试集，实际场景分为四种类型：安静、回声、噪声、回声+噪声，每个人朗读20个激活词；在同样四种场景下录制10人24小时生活数据作为评判虚警的测试集。本发明的语音激活***的性能如表1：

表1

	安静	回声	噪声	回声+噪声
					激活率	91.3％	89.5％	80.2％	75.1％
虚警	0	1次/小时	2次/小时	2.6次/小时

Claims

1.一种语音激活方法，包括：

建立声学模型，在声学模型基础上建立解码网络空间；

按照噪声环境等级选择对应的静音抑制配置参数，将输入语音流切分成语音片段；提取语音片段的语音特征；将语音特征输入解码网络空间进行解码识别，获取识别语音音素；从能够表征发音单元可信程度的所有度量中选取若干个度量作为识别语音音素的若干个置信度，计算识别语音音素的若干个置信度；对识别语音音素的若干个置信度进行二次判决，包括预判决和第二次判决，输出最终识别结果；

所述预判决包括：

2.根据权利要求1所述的语音激活方法，其特征在于，所述建立解码网络空间包括：将音素集中的垃圾音素并联为循环的垃圾音素子网络，对指定的激活词所包含的音素进行顺序连接成激活词音素串，然后在激活词音素串首尾加入所述的垃圾音素子网络，首尾的垃圾音素子网络跨过激活词音素串直接相连。

3.根据权利要求1所述的语音激活方法，其特征在于，所述噪声环境等级为：强噪声环境、中等噪声环境、安静环境；噪声环境等级按照环境噪声的声压级进行分类。

4.根据权利要求1所述的语音激活方法，其特征在于，所述识别语音音素的若干个置信度包括：音素规整时长、时间规整的音素对数似然值、音素对数后验概率、时长为一帧的状态个数、最小音节时长、识别语音总时长。

5.根据权利要求1所述的语音激活方法，其特征在于，所述第二次判决采用分类器实现，所述分类器为线性分类器或混合高斯模型分类器或支持向量机分类器。

6.一种语音激活***，其特征在于，所述的***包含：

特征提取模块，用于提取语音片段的语音特征；

二次判决模块，用于对识别语音音素的若干个置信度进行二次判决，包括预判决和第二次判决，输出最终识别结果；

所述预判决包括：