CN106601229A

CN106601229A - 一种基于soc芯片的语音唤醒方法

Info

Publication number: CN106601229A
Application number: CN201611003861.0A
Authority: CN
Inventors: 陈晓鹏; 殷瑞祥; 徐向民; 张伟彬; 邢晓芬
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2017-04-26

Abstract

本发明公开了一种基于soc芯片的语音唤醒方法，包括以下步骤：S1、芯片采集语音数据，并对其进行采样，将模拟信号转换成数字信号；S2、将数字信号的语音数据进行MFCC特征提取；S3、对MFCC特征值进行语音活动检测，判断当前MFCC特征值的新一帧MFCC数据是否为语音帧，若否则返回步骤S2并释放数据，若是则将MFCC特征值进入下一步骤处理；S4、通过基于HMM模型的语音识别算法对MFCC特征值进行识别，若识别结果为有效指令，则唤醒控制设备；反之则返回步骤S2。本发明方法通过采用鲁棒性高的算法实现的实时***具有较高的识别率，达到低功耗和高性能的要求。

Description

一种基于soc芯片的语音唤醒方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于soc芯片的语音唤醒方法。

背景技术

随着时代的发展，越来越多的电子设备进入人们的日常生活中，人们在享受电子设备带来便利的同时，希望电子设备能更加智能，实现无触控的交互方式。

语音唤醒，即用户说出设定的语音指令，让处于休眠状态下的设备直接进入到等待指令状态。通过该技术，任何人在任何环境、任何时间对设备直接说出预设的唤醒词，就能激活设备，从而实现低功耗和无触控的交互。

然而目前出现的语音唤醒技术大部分是基于计算机和手机终端实现的，需要强大的处理器进行支撑，不适合用于工业应用。而基于mcu实现的语音唤醒技术虽然成本低廉，但是由于处理器性能的限制无法达到理想的效果。

发明内容

本发明要解决的技术问题在于，提供一种基于soc芯片的语音唤醒方法，通过采用鲁棒性高的算法实现的实时***具有较高的识别率，达到低功耗和高性能的要求。

为解决上述技术问题，本发明提供如下技术方案：一种基于soc芯片的语音唤醒方法，包括以下步骤：

S1、芯片采集语音数据，并对其进行采样，将模拟信号转换成数字信号；

S2、将数字信号的语音数据进行MFCC特征提取；

S3、对MFCC特征值进行语音活动检测，判断当前MFCC特征值的新一帧MFCC数据是否为语音帧，若否则返回步骤S2并释放数据，若是则将MFCC特征值进入下一步骤处理；

S4、通过基于HMM模型的语音识别算法对MFCC特征值进行识别，若识别结果为有效指令，则唤醒控制设备；反之则返回步骤S2。

进一步地，所述步骤S2中MFCC特征提取，其具体为：

1)、数字信号的预处理，包括预加重、分帧和加窗；

2)、对每一帧信号进行FFT变换，求频谱，进而求得幅度谱|X_n(k)|；

3)、对幅度谱|X_n(k)|加Mel滤波器组W_l(k)，公式如下：

其中k指FFT的第k个点；o(l)、c(l)、h(l)分别为第l个三角滤波器的下限频率、中心频率和上限频率；

4)、对所有的滤波器输出做对数运算，再进一步做离散余弦变换DCT得MFCC特征值，公式如下：

其中N、L为26，指滤波器个数；i指MFCC系数阶数，i取12，即为得到了12个倒谱特征；此外，再加上一帧的对数能量作为第13个特征参数，定义如下：

其中，X_n(k)为幅度，由此可得到13个特征参数，包括12个倒谱特征加1个对数能量；

5)、所求的13个标准的倒谱参数MFCC只反映了语音参数的静态特性，语音的动态特性根据所述静态特征的差分谱来描述；计算13个MFCC特征的一阶差分dtm(i)和二阶差分dtmm(i)：

13个标准MFCC特征和它的13个一阶差分、13个二阶差分组成39维的MFCC特征参数，至此MFCC特征提取完毕。

进一步地，所述步骤S3中对特征值进行语音活动检测，采用基于GMM模型的语音活动检测方法，其假设语音和背景噪音在特定的特征空间中符合高斯混合分布，在特征空间中分别构建静音模型、非静音模型；接着对MFCC特征的新一帧MFCC数据进行计算，分别算出静音模型的似然值P1、非静音模型的似然值P2；比较似然值P1、似然值P2的大小，若P1大于P2则当前MFCC数据帧为语音帧，否则静音帧。

进一步地，若所述当前MFCC数据帧被判断为语音帧后，判断下一帧MFCC数据帧时，似然值P1和似然值P2分别乘以对应的转移概率，比较两个乘积结果，若似然值P1的乘积结果大于似然值P2的乘积结果，则当前MFCC数据帧为语音帧，否则为静音帧；

若所述当前MFCC数据帧被判断为静音帧后，判断下一帧MFCC数据帧时，似然值P1和似然值P2分别乘以对应的转移概率，比较两个乘积结果，若似然值P1的乘积结果大于似然值P2的乘积结果，则当前MFCC数据帧为语音帧，否则为静音帧；

所述对应的转移概率为预先设置好的模型数据。

进一步地，所述静音模型的似然值P1、非静音模型的似然值P2的计算方法，具体为：

其中静音模型、非静音模型均由13个39维高斯模型构成；一个M阶高斯模型的概率密度函数是由M个高斯概率密度函数加权求和得到的，如下式3.1：

式中，M为多维高斯模型个数，M取13；X为一个D维随机矢量，即为39维MFCC特征值；b_i(X)为子分布，ω_i为混合权重；每个子分布是D维的联合高斯概率分布，如下式3.2：

其中μ_i是第i维的均值；σ_i ²为方差；x_i为输入的第i维的MFCC特征值；D表示总维数，D取39；

由于式3.2计算过于复杂，对其进行推导简化：

式两边取对数可得：

可知加号左边都为训练好的模型中已知的参数，可以提前训练好，故设gconst作为模型的一个参数：

所以式3.2变换为求下式：

进而式3.1简化为：

将MFCC数据帧和模型参数带入上式中，即可得到该帧数据的静音模型的似然值和非静音模型的似然值。

进一步地，所述将将MFCC数据帧和模型参数带入上式中，即可得到该帧数据的静音模型的似然值和非静音模型的似然值，具体步骤为：

1)、对每一帧语音的MFCC特征值分别与静音模型和非静音模型进行匹配计算，先进行(x_i-μ_i)²/σ²计算,计算结果进行累加，得到两个模型的多维高斯分布的指数部分fa0和fa1：

其中均值μ_i和方差从模型数据中直接获取；

2)、对上一步的计算结果进行如下计算，可得到多维高斯分布的似然值b：

其中gconst为提前训练的数据，从模型数据中直接获取，至此完成式3.3中的多维高斯分布似然值ln b_i(X)计算；

3)、由上文可知静音模型和非静音模型分别包含13个多维高斯分布，所以步骤1、2循环13次后可得13个多维高斯分布的似然值ln b_i(X)，将这些似然值和相应的权重ω_i带入下式，得当前帧对静音模型的似然值P₁和对非静音模型的似然值P₂：

进一步地，所述步骤S4基于HMM模型的语音识别算法，其具体为：

S41、载入HMM模型，构造HMM链的识别网络；

S42、将MFCC特征值与HMM模型的识别网络匹配，计算初始似然值；

S43、根据初始似然值，Token Passing算法找到HMM链网络中的最佳路径，完成译码的工作；

S45、判断语音指令是否与HMM链匹配，若是则为有效语音，若否则为无效语音。

采用上述技术方案后，本发明至少具有如下有益效果：

(1)本发明通过将原算法中部分计算转换到log域，把大量乘法运算转换成加法运算，成功降低了在微处理器上实现时的时延；通过专用硬件对算法的复杂计算进行加速，降低时延，最终达到了实时识别的目的；

(2)本发明通过采用鲁棒性高的算法实现的实时***具有较高的识别率；

(3)本发明具有易升级性，本发明的算法分为独立的三个模块特征提取、语音活动检测和语音识别，后续有性能更佳的算法可以通过单独替换子模块的方式对***进行优化。

附图说明

图1是本发明一种基于soc芯片的语音唤醒方法的整体流程图；

图2是本发明一种基于soc芯片的语音唤醒方法的三角滤波器示意图；

图3是本发明一种基于soc芯片的语音唤醒方法的三角滤波器组示意图；

图4是本发明一种基于soc芯片的语音唤醒方法的语音活动检测流程图；

图5是本发明一种基于soc芯片的语音唤醒方法的39维高斯模型的参数构成示意图；

图6是本发明一种基于soc芯片的语音唤醒方法的语音活动检测步骤流程图；

图7是本发明一种基于soc芯片的语音唤醒方法的在语音活动检测中预先训练好的模型数据示意图；

图8是本发明一种基于soc芯片的语音唤醒方法的语音识别算法整体步骤流程图；

图9是本发明一种基于soc芯片的语音唤醒方法的在语音识别算法中实例的HMM链示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本申请作进一步详细说明。

图1为本发明整体算法流程图，其中各模块计算流程如下：

1、语音前端处理：

语音前端处理就是将语音数据的信号通过采样，把模拟信号转换为数字信号。本方案中采样率为16K。语音数字信号为PCM(Pulse Code Modulation)

格式，即脉冲编码调制，它将声音模拟信号采样后得到量化后的语音数据，是最基本最原始的一种语音格式。本发明中ADC模块集成在soc芯片中，每10ms做一次语音检测处理，采样频率为每秒采集16K个数据，数据位宽为16bits。

2、MFCC特征数据提取：

1)信号的预处理，包括预加重(Preemphasis)，分帧(Frame Blocking)，加窗(Windowing)；语音信号的采样频率fs＝16KHz，由于语音信号在10‐30ms认为是稳定的，故设置每帧10ms，所以帧长为160点；帧移为帧长的1/2，即80；

2)对每一帧进行256个点的FFT变换，求频谱，进而求得幅度谱|X_n(k)|；

3)对幅度谱|X_n(k)|加Mel滤波器组W_l(k)，公式如下：

其中k指FFT的第k个点；o(l)、c(l)、h(l)为第l个三角滤波器的下限频率、中心频率和上限频率，如图2所示；

本发明中Mel滤波器组由26个三角滤波器组成，参数提前计算得到。三角滤波器组如图3所示，横坐标对应FFT中的点，纵坐标即W_l(k)，由于是对称的所以只取FFT前面一半的点计算频谱，然后加入到三角滤波器中；

4)对所有的滤波器输出做对数运算(Logarlithm)，再进一步做离散余弦变换DCT可得MFCC，公式如下所示。

其中N、L为26，指滤波器个数；i指MFCC系数阶数，本发明取12，即得到了12个倒谱特征；此外再加上一帧的对数能量作为第13个特征参数，定义如下：

由此可得到13个特征参数(12个倒谱特征加1个对数能量)；

5)、这13个标准的倒谱参数MFCC只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述；计算13个MFCC特征的一阶差分dtm(i)和二阶差分dtmm(i)：

3、语音活动检测(VAD)：

本发明中采用基于GMM模型的声音活动检测方法，该方法假设语音和背景噪音在特定的特征空间中符合高斯混合分布，在特征空间中分别建立它们的GMM模型，然后用模型匹配的方法在被测信号中检测出有效的语音段；算法流程如图4所示：

模型通过HTK工具箱提前训练出来，1个39维的高斯模型由1个权重(MIXTURE)、39个均值(MEAN)、39个方差(VARIANCE)和1个gconst构成，如图5所示：

静音模型和非静音模型分别由13个如图5所示的多维高斯模型构成；当新的一帧语音数据被采集进***，将新的一帧39维MFCC特征值分别与静音和非静音模型进行似然值计算，比较两个似然值大小，似然值较大的模型即为当前帧的匹配模型，从而判断当前帧是否为语音帧，VAD详细处理流程如图6所示：

其中转移系数a₁₁、a₁₂、a₂₁、a₂₂为预先训练好的模型数据，如图7所示，a₁₁为前一帧是静音帧，当前帧也是静音帧的转移概率；a₁₂为前一帧是静音帧，当前帧却是语音帧的转移概率；a₂₁为前一帧是语音帧，当前帧却是静音帧的转移概率；a₂₂为前一帧是语音帧，当前帧也是语音帧的转移概率；

整个处理过程中最复杂的计算为似然值的计算，下面对似然值的计算进行介绍：

13阶的多维高斯混合模型的概率密度函数是由13个多维高斯概率密度函数加权求和得到的，如下式3.1：

式中，M为多维高斯模型个数，本发明中为13；X为一个D维随机矢量(即前文提到的39维MFCC特征值)，b_i(X)为子分布，ω_i为混合权重。每个子分布是D维的联合高斯概率分布，如下式：

对于1维的来说μ是期望，σ²是方差；对于多维来说D表示X的维数，表示D*D的协方差矩阵，定义为∑＝E[(x-μ)(x-μ)^T]，|∑|为该协方差的行列式的值；

所以VAD算法的具体计算步骤为：

1)对每一帧语音的39维MFCC特征值分别与静音和非静音模型进行匹配计算，先进行(X-μ_i)²/σ²计算,并对39个结果进行累加，得到两个模型的多维高斯分布的指数部分fa0和fa1(该计算由硬件加速IP完成)：

其中均值μ_i和方差从模型数据中直接获取；

2)对上一步结果进行如下计算，可得到多维高斯分布的似然值：

b＝exp(fa0)

其中gconst为提前训练的数据，从模型数据中直接获取。至此完成式3.2中的多维高斯分布似然值计算；

3)由上文可知静音模型和非静音模型分别包含13个多维高斯分布，所以步骤1、2循环13次后可得13个多维高斯分布的似然值，将这些似然值乘以模型权重并相加即式3.1，可得静音模型和非静音模型的似然值；所以步骤1、2循环13次后可得13个多维高斯分布的似然值ln b_i(X)，将这些似然值和相应的权重ω_i带入下式，可得当前帧对静音模型的似然值P₁和对非静音模型的似然值P₂：

4)最后乘上转移概率a：

如果前一帧数据是语音帧，则当前帧是语音帧的概率＝a₂₂*P₂；

当前帧是静音帧的概率＝a₂₁*P₁；

如果前一帧数据是静音帧，则当前帧是语音帧的概率＝a₁₂*P₂；

当前帧是静音帧的概率＝a₁₁*P₁；

比较是语音帧的概率和是静音帧的概率大小，语音帧的概率大则认为当前帧是语音帧，反之则为静音帧，至此VAD算法完成。

4、语音识别算法：

本模块流程如图8所示，其中模型的加载和构建HMM链在程序最开始初始化时完成，后续无需再重复进行；当上级VAD模块检测出有效语音，才进入本模块进行计算。本模块调用的HMM模型的每个状态都由24个GMM构成,流程介绍如下：

(1)、载入HMM模型，构造HMM链的识别网络；

(2)、将MFCC特征值与HMM模型的识别网络匹配，计算初始似然值；

(3)、根据初始似然值，Token Passing算法找到HMM链网络中的最佳路径，完成译码的工作；

(4)、判断语音指令是否与HMM链匹配，若是则为有效语音，若否则为无效语音。

下面描述整个流程：以“关机”为例，下面为“关机”对应的HMM链(实际HMM链更长，每个音节由多个状态构成，这里为方便讲解，进行了简化)。“关机”可拆分成音节“g”“uan”“j”“i”，用HMM模型将4个音节描述成4个状态，并相连可得一下HMM链,如图9所示；

A、在这条网络的起点(即“g”)初始化令牌值P_g＝0；

B、当第一帧MFCC数据到来时，开始token-passing，第一帧只有P_g这个令牌值，令牌值P_g会向状态“g”和“uan”传递，具体表现为：

P_g＝P_g+a₁₁+log(GMM_g)

P_uan＝P_g+a₁₂+log(GMM_uan)

log(GMM_g)为MFCC数据对状态“g”的似然值，log(GMM_uan)为MFCC数据对状态“uan”的似然值，似然值的计算方式与vad一致，见式3.3和3.4。

C、当第二帧数据到来时，此时状态“g”和“uan”都有令牌值，所以令牌向这两个状态所连接的状态传递。

对状态“g”的令牌值更新：

P_g＝P_g+a₁₁+log(GMM_g)

对状态“uan”的令牌值更新：

P_g→uan＝P_g+a₁₂

P_uan→uan＝P_uan+a₂₂

更新后：P_uan＝max(P_g→uan，P_uan→uan)+log(GMM_uan)

由于状态“uan”左侧与“g”相连，同时自己与自己相连，所以会得到两个令牌值，此时要比较这两个令牌值，选取大的那个保留下来。

对状态“j”的令牌进行更新

P_j＝P_uan+a₂₃+log(GMM_j)

D、当第三帧到来时，对状态“g”的令牌值更新：

P_g＝P_g+a₁₁+log(GMM_g)

对状态“uan”的令牌值更新：

P_g→uan＝P_g+a₁₂

P_uan→uan＝P_uan+a₂₂

更新后：P_uan＝max(P_g→uan，P_uan→uan)+log(GMM_uan)

对状态“j”的令牌进行更新

P_uan→j＝P_uan+a₂₃

P_j→j＝P_j+a₃₃

更新后：P_j＝max(P_uan→j，P_j→j)+log(GMM_j)

对状态“i”的令牌进行更新：

P_i＝P_j+a₃₄+log(GMM_i)

E、当第四帧到来时，对状态“g”的令牌值更新：

P_g＝P_g+a₁₁+log(GMM_g)

对状态“uan”的令牌值更新：

P_g→uan＝P_g+a₁₂

P_uan→uan＝P_uan+a₂₂

更新后：P_uan＝max(P_g→uan，P_uan→uan)+log(GMM_uan)

对状态“j”的令牌进行更新

P_uan→j＝P_uan+a₂₃

P_j→j＝P_j+a₃₃

更新后：P_j＝max(P_uan→j，P_j→j)+log(GMM_j)

对状态“i”的令牌进行更新：

P_j→i＝P_j+a₃₄

P_i→i＝P_i+a₄₄

更新后：P_i＝max(P_j→i，P_i→i)+log(GMM_i)

至此所有语音指令帧都输入完毕，开始令牌比较，将四个状态的令牌值进行大小排序，如果HMM链的最后一个状态(即“i”)的令牌值最大，则说明输入的语音指令与“关机”这条HMM链匹配，译码结果是“关机”。否则就认为输入的是无效语音。

整个译码过程可以看出随着帧数增加，令牌从左端一直扩散到右端，这个过程中每个状态都有一个令牌，且令牌会向相邻的状态传递并计算，当到达指定的帧数(帧数由预设的语音指令长度决定，如“关机”就较短，“芝麻开门”由于语音较长，帧数也会较多)，就将所有状态的令牌进行排序，如果HMM链的末尾状态上的令牌值最大则说明这次输入的语音与这条HMM链匹配。在实际应用中可以增加可识别语音指令的数量，此时就会有多条HMM链，这样的话最后一帧，所有HMM链的所有状态都会进行排序，以此确定具体是哪一条指令。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解的是，在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型，本发明的范围由所附权利要求及其等同范围限定。

Claims

1.一种基于soc芯片的语音唤醒方法，其特征在于，包括以下步骤：

S2、将数字信号的语音数据进行MFCC特征提取；

2.如权利要求1所述的一种基于soc芯片的语音唤醒方法，其特征在于，所述步骤S2中MFCC特征提取，其具体为：

1)、数字信号的预处理，包括预加重、分帧和加窗；

3)、对幅度谱|X_n(k)|加Mel滤波器组W_l(k)，公式如下：

m (l) = Σ_{k = o (l)}^{h (l)} W_{l} (k) | X_{n} (k) |, l = 1, 2, ..., 26

W_{l} (k) = \{\begin{matrix} \frac{k - o (l)}{c (l) - o (l)}, o (l) \leq k \leq C (l) \\ \frac{h (l) - k}{h (l) - c (l)}, c (l) \leq k \leq h (l) \end{matrix}

c (i) = \sqrt{\frac{2}{N}} Σ_{i = 1}^{L} \log m (l) c o s {(l - \frac{1}{2}) \frac{i π}{L}}

c (13) = 10 \lg Σ_{k = 1}^{256} {(X_{n} (k))}^{2}

d t m (i) = \frac{- 2 c (i - 2) - c (i - 1) + c (i + 1) + 2 c (i + 2)}{3}

d t m m (i) = \frac{- 2 d t m (i - 2) - d t m (i - 1) + d t m (i + 1) + 2 d t m (i + 2)}{3}

3.如权利要求1所述的一种基于soc芯片的语音唤醒方法，其特征在于，所述步骤S3中对特征值进行语音活动检测，采用基于GMM模型的语音活动检测方法，其假设语音和背景噪音在特定的特征空间中符合高斯混合分布，在特征空间中分别构建静音模型、非静音模型；接着对MFCC特征的新一帧MFCC数据进行计算，分别算出静音模型的似然值P1、非静音模型的似然值P2；比较似然值P1、似然值P2的大小，若P1大于P2则当前MFCC数据帧为语音帧，否则静音帧。

4.如权利要求3所述的一种基于soc芯片的语音唤醒方法，其特征在于，若所述当前MFCC数据帧被判断为语音帧后，判断下一帧MFCC数据帧时，似然值P1和似然值P2分别乘以对应的转移概率，比较两个乘积结果，若似然值P1的乘积结果大于似然值P2的乘积结果，则当前MFCC数据帧为语音帧，否则为静音帧；

所述对应的转移概率为预先设置好的模型数据。

5.如权利要求3所述的一种基于soc芯片的语音唤醒方法，其特征在于，所述静音模型的似然值P1、非静音模型的似然值P2的计算方法，具体为：

P (X | λ) = Σ_{i = 1}^{M} ω_{i} b_{i} (X) - - - 3.1

b_{i} (X) = \frac{1}{{(2 π)}^{\frac{D}{2}} | Σ_{i} | \frac{1}{2}} \exp {- \frac{1}{2} {(X - μ_{i})}^{T} {Σ_{i}}^{- 1} (X - μ_{i})} - - - 3.2

由于式3.2计算过于复杂，对其进行推导简化：

b_{i} (X) = \frac{1}{{(2 π)}^{\frac{D}{2}} Π_{i = 1}^{39} σ_{i}} e^{- Σ_{i = 1}^{39} \frac{{(x_{i} - μ_{i})}^{2}}{2 {σ_{i}}^{2}}}

式两边取对数可得：

\ln b_{i} (X) = - \frac{1}{2} {2 \ln [{(2 π)}^{\frac{D}{2}} | Π_{i = 1}^{39} {σ_{i}}^{2} |^{\frac{1}{2}}] + Σ_{i = 1}^{39} \frac{{(x_{i} - μ_{i})}^{2}}{{σ_{i}}^{2}}}

g c o n s t = 2 \ln [{(2 π)}^{\frac{D}{2}} | Π_{i = 1}^{39} {σ_{i}}^{2} |^{\frac{1}{2}}]

所以式3.2变换为求下式：

\ln b_{i} (X) = - \frac{1}{2} [g c o n s t + Σ_{i = 1}^{39} \frac{{(x_{i} - μ_{i})}^{2}}{{σ_{i}}^{2}}] - - - 3.3

进而式3.1简化为：

6.如权利要求5所述的一种基于soc芯片的语音唤醒方法，其特征在于，所述将将MFCC数据帧和模型参数带入上式中，即可得到该帧数据的静音模型的似然值和非静音模型的似然值，具体步骤为：

f a 0 = Σ_{i = 1}^{39} \frac{{(x_{i} - μ_{i})}^{2}}{σ_{i}^{2}}

其中均值μ_i和方差从模型数据中直接获取；

b = - \frac{1}{2} (g c o n s t + f a 0)

7.如权利要求1所述的一种基于soc芯片的语音唤醒方法，其特征在于，所述步骤S4基于HMM模型的语音识别算法，其具体为：

S41、载入HMM模型，构造HMM链的识别网络；