CN106601229A - 一种基于soc芯片的语音唤醒方法 - Google Patents
一种基于soc芯片的语音唤醒方法 Download PDFInfo
- Publication number
- CN106601229A CN106601229A CN201611003861.0A CN201611003861A CN106601229A CN 106601229 A CN106601229 A CN 106601229A CN 201611003861 A CN201611003861 A CN 201611003861A CN 106601229 A CN106601229 A CN 106601229A
- Authority
- CN
- China
- Prior art keywords
- mfcc
- model
- frame
- likelihood value
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 13
- 230000007704 transition Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 7
- 230000003068 static effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000004087 circulation Effects 0.000 claims description 2
- 238000000205 computational method Methods 0.000 claims description 2
- 238000009795 derivation Methods 0.000 claims description 2
- 238000007599 discharging Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 230000009191 jumping Effects 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 244000000231 Sesamum indicum Species 0.000 description 1
- 235000003434 Sesamum indicum Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/148—Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于soc芯片的语音唤醒方法,包括以下步骤:S1、芯片采集语音数据,并对其进行采样,将模拟信号转换成数字信号;S2、将数字信号的语音数据进行MFCC特征提取;S3、对MFCC特征值进行语音活动检测,判断当前MFCC特征值的新一帧MFCC数据是否为语音帧,若否则返回步骤S2并释放数据,若是则将MFCC特征值进入下一步骤处理;S4、通过基于HMM模型的语音识别算法对MFCC特征值进行识别,若识别结果为有效指令,则唤醒控制设备;反之则返回步骤S2。本发明方法通过采用鲁棒性高的算法实现的实时***具有较高的识别率,达到低功耗和高性能的要求。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于soc芯片的语音唤醒方法。
背景技术
随着时代的发展,越来越多的电子设备进入人们的日常生活中,人们在享受电子设备带来便利的同时,希望电子设备能更加智能,实现无触控的交互方式。
语音唤醒,即用户说出设定的语音指令,让处于休眠状态下的设备直接进入到等待指令状态。通过该技术,任何人在任何环境、任何时间对设备直接说出预设的唤醒词,就能激活设备,从而实现低功耗和无触控的交互。
然而目前出现的语音唤醒技术大部分是基于计算机和手机终端实现的,需要强大的处理器进行支撑,不适合用于工业应用。而基于mcu实现的语音唤醒技术虽然成本低廉,但是由于处理器性能的限制无法达到理想的效果。
发明内容
本发明要解决的技术问题在于,提供一种基于soc芯片的语音唤醒方法,通过采用鲁棒性高的算法实现的实时***具有较高的识别率,达到低功耗和高性能的要求。
为解决上述技术问题,本发明提供如下技术方案:一种基于soc芯片的语音唤醒方法,包括以下步骤:
S1、芯片采集语音数据,并对其进行采样,将模拟信号转换成数字信号;
S2、将数字信号的语音数据进行MFCC特征提取;
S3、对MFCC特征值进行语音活动检测,判断当前MFCC特征值的新一帧MFCC数据是否为语音帧,若否则返回步骤S2并释放数据,若是则将MFCC特征值进入下一步骤处理;
S4、通过基于HMM模型的语音识别算法对MFCC特征值进行识别,若识别结果为有效指令,则唤醒控制设备;反之则返回步骤S2。
进一步地,所述步骤S2中MFCC特征提取,其具体为:
1)、数字信号的预处理,包括预加重、分帧和加窗;
2)、对每一帧信号进行FFT变换,求频谱,进而求得幅度谱|Xn(k)|;
3)、对幅度谱|Xn(k)|加Mel滤波器组Wl(k),公式如下:
其中k指FFT的第k个点;o(l)、c(l)、h(l)分别为第l个三角滤波器的下限频率、中心频率和上限频率;
4)、对所有的滤波器输出做对数运算,再进一步做离散余弦变换DCT得MFCC特征值,公式如下:
其中N、L为26,指滤波器个数;i指MFCC系数阶数,i取12,即为得到了12个倒谱特征;此外,再加上一帧的对数能量作为第13个特征参数,定义如下:
其中,Xn(k)为幅度,由此可得到13个特征参数,包括12个倒谱特征加1个对数能量;
5)、所求的13个标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性根据所述静态特征的差分谱来描述;计算13个MFCC特征的一阶差分dtm(i)和二阶差分dtmm(i):
13个标准MFCC特征和它的13个一阶差分、13个二阶差分组成39维的MFCC特征参数,至此MFCC特征提取完毕。
进一步地,所述步骤S3中对特征值进行语音活动检测,采用基于GMM模型的语音活动检测方法,其假设语音和背景噪音在特定的特征空间中符合高斯混合分布,在特征空间中分别构建静音模型、非静音模型;接着对MFCC特征的新一帧MFCC数据进行计算,分别算出静音模型的似然值P1、非静音模型的似然值P2;比较似然值P1、似然值P2的大小,若P1大于P2则当前MFCC数据帧为语音帧,否则静音帧。
进一步地,若所述当前MFCC数据帧被判断为语音帧后,判断下一帧MFCC数据帧时,似然值P1和似然值P2分别乘以对应的转移概率,比较两个乘积结果,若似然值P1的乘积结果大于似然值P2的乘积结果,则当前MFCC数据帧为语音帧,否则为静音帧;
若所述当前MFCC数据帧被判断为静音帧后,判断下一帧MFCC数据帧时,似然值P1和似然值P2分别乘以对应的转移概率,比较两个乘积结果,若似然值P1的乘积结果大于似然值P2的乘积结果,则当前MFCC数据帧为语音帧,否则为静音帧;
所述对应的转移概率为预先设置好的模型数据。
进一步地,所述静音模型的似然值P1、非静音模型的似然值P2的计算方法,具体为:
其中静音模型、非静音模型均由13个39维高斯模型构成;一个M阶高斯模型的概率密度函数是由M个高斯概率密度函数加权求和得到的,如下式3.1:
式中,M为多维高斯模型个数,M取13;X为一个D维随机矢量,即为39维MFCC特征值;bi(X)为子分布,ωi为混合权重;每个子分布是D维的联合高斯概率分布,如下式3.2:
其中μi是第i维的均值;σi 2为方差;xi为输入的第i维的MFCC特征值;D表示总维数,D取39;
由于式3.2计算过于复杂,对其进行推导简化:
式两边取对数可得:
可知加号左边都为训练好的模型中已知的参数,可以提前训练好,故设gconst作为模型的一个参数:
所以式3.2变换为求下式:
进而式3.1简化为:
将MFCC数据帧和模型参数带入上式中,即可得到该帧数据的静音模型的似然值和非静音模型的似然值。
进一步地,所述将将MFCC数据帧和模型参数带入上式中,即可得到该帧数据的静音模型的似然值和非静音模型的似然值,具体步骤为:
1)、对每一帧语音的MFCC特征值分别与静音模型和非静音模型进行匹配计算,先进行(xi-μi)2/σ2计算,计算结果进行累加,得到两个模型的多维高斯分布的指数部分fa0和fa1:
其中均值μi和方差从模型数据中直接获取;
2)、对上一步的计算结果进行如下计算,可得到多维高斯分布的似然值b:
其中gconst为提前训练的数据,从模型数据中直接获取,至此完成式3.3中的多维高斯分布似然值ln bi(X)计算;
3)、由上文可知静音模型和非静音模型分别包含13个多维高斯分布,所以步骤1、2循环13次后可得13个多维高斯分布的似然值ln bi(X),将这些似然值和相应的权重ωi带入下式,得当前帧对静音模型的似然值P1和对非静音模型的似然值P2:
进一步地,所述步骤S4基于HMM模型的语音识别算法,其具体为:
S41、载入HMM模型,构造HMM链的识别网络;
S42、将MFCC特征值与HMM模型的识别网络匹配,计算初始似然值;
S43、根据初始似然值,Token Passing算法找到HMM链网络中的最佳路径,完成译码的工作;
S45、判断语音指令是否与HMM链匹配,若是则为有效语音,若否则为无效语音。
采用上述技术方案后,本发明至少具有如下有益效果:
(1)本发明通过将原算法中部分计算转换到log域,把大量乘法运算转换成加法运算,成功降低了在微处理器上实现时的时延;通过专用硬件对算法的复杂计算进行加速,降低时延,最终达到了实时识别的目的;
(2)本发明通过采用鲁棒性高的算法实现的实时***具有较高的识别率;
(3)本发明具有易升级性,本发明的算法分为独立的三个模块特征提取、语音活动检测和语音识别,后续有性能更佳的算法可以通过单独替换子模块的方式对***进行优化。
附图说明
图1是本发明一种基于soc芯片的语音唤醒方法的整体流程图;
图2是本发明一种基于soc芯片的语音唤醒方法的三角滤波器示意图;
图3是本发明一种基于soc芯片的语音唤醒方法的三角滤波器组示意图;
图4是本发明一种基于soc芯片的语音唤醒方法的语音活动检测流程图;
图5是本发明一种基于soc芯片的语音唤醒方法的39维高斯模型的参数构成示意图;
图6是本发明一种基于soc芯片的语音唤醒方法的语音活动检测步骤流程图;
图7是本发明一种基于soc芯片的语音唤醒方法的在语音活动检测中预先训练好的模型数据示意图;
图8是本发明一种基于soc芯片的语音唤醒方法的语音识别算法整体步骤流程图;
图9是本发明一种基于soc芯片的语音唤醒方法的在语音识别算法中实例的HMM链示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。
图1为本发明整体算法流程图,其中各模块计算流程如下:
1、语音前端处理:
语音前端处理就是将语音数据的信号通过采样,把模拟信号转换为数字信号。本方案中采样率为16K。语音数字信号为PCM(Pulse Code Modulation)
格式,即脉冲编码调制,它将声音模拟信号采样后得到量化后的语音数据,是最基本最原始的一种语音格式。本发明中ADC模块集成在soc芯片中,每10ms做一次语音检测处理,采样频率为每秒采集16K个数据,数据位宽为16bits。
2、MFCC特征数据提取:
1)信号的预处理,包括预加重(Preemphasis),分帧(Frame Blocking),加窗(Windowing);语音信号的采样频率fs=16KHz,由于语音信号在10‐30ms认为是稳定的,故设置每帧10ms,所以帧长为160点;帧移为帧长的1/2,即80;
2)对每一帧进行256个点的FFT变换,求频谱,进而求得幅度谱|Xn(k)|;
3)对幅度谱|Xn(k)|加Mel滤波器组Wl(k),公式如下:
其中k指FFT的第k个点;o(l)、c(l)、h(l)为第l个三角滤波器的下限频率、中心频率和上限频率,如图2所示;
本发明中Mel滤波器组由26个三角滤波器组成,参数提前计算得到。三角滤波器组如图3所示,横坐标对应FFT中的点,纵坐标即Wl(k),由于是对称的所以只取FFT前面一半的点计算频谱,然后加入到三角滤波器中;
4)对所有的滤波器输出做对数运算(Logarlithm),再进一步做离散余弦变换DCT可得MFCC,公式如下所示。
其中N、L为26,指滤波器个数;i指MFCC系数阶数,本发明取12,即得到了12个倒谱特征;此外再加上一帧的对数能量作为第13个特征参数,定义如下:
由此可得到13个特征参数(12个倒谱特征加1个对数能量);
5)、这13个标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述;计算13个MFCC特征的一阶差分dtm(i)和二阶差分dtmm(i):
13个标准MFCC特征和它的13个一阶差分、13个二阶差分组成39维的MFCC特征参数,至此MFCC特征提取完毕。
3、语音活动检测(VAD):
本发明中采用基于GMM模型的声音活动检测方法,该方法假设语音和背景噪音在特定的特征空间中符合高斯混合分布,在特征空间中分别建立它们的GMM模型,然后用模型匹配的方法在被测信号中检测出有效的语音段;算法流程如图4所示:
模型通过HTK工具箱提前训练出来,1个39维的高斯模型由1个权重(MIXTURE)、39个均值(MEAN)、39个方差(VARIANCE)和1个gconst构成,如图5所示:
静音模型和非静音模型分别由13个如图5所示的多维高斯模型构成;当新的一帧语音数据被采集进***,将新的一帧39维MFCC特征值分别与静音和非静音模型进行似然值计算,比较两个似然值大小,似然值较大的模型即为当前帧的匹配模型,从而判断当前帧是否为语音帧,VAD详细处理流程如图6所示:
其中转移系数a11、a12、a21、a22为预先训练好的模型数据,如图7所示,a11为前一帧是静音帧,当前帧也是静音帧的转移概率;a12为前一帧是静音帧,当前帧却是语音帧的转移概率;a21为前一帧是语音帧,当前帧却是静音帧的转移概率;a22为前一帧是语音帧,当前帧也是语音帧的转移概率;
整个处理过程中最复杂的计算为似然值的计算,下面对似然值的计算进行介绍:
13阶的多维高斯混合模型的概率密度函数是由13个多维高斯概率密度函数加权求和得到的,如下式3.1:
式中,M为多维高斯模型个数,本发明中为13;X为一个D维随机矢量(即前文提到的39维MFCC特征值),bi(X)为子分布,ωi为混合权重。每个子分布是D维的联合高斯概率分布,如下式:
对于1维的来说μ是期望,σ2是方差;对于多维来说D表示X的维数,表示D*D的协方差矩阵,定义为∑=E[(x-μ)(x-μ)T],|∑|为该协方差的行列式的值;
所以VAD算法的具体计算步骤为:
1)对每一帧语音的39维MFCC特征值分别与静音和非静音模型进行匹配计算,先进行(X-μi)2/σ2计算,并对39个结果进行累加,得到两个模型的多维高斯分布的指数部分fa0和fa1(该计算由硬件加速IP完成):
其中均值μi和方差从模型数据中直接获取;
2)对上一步结果进行如下计算,可得到多维高斯分布的似然值:
b=exp(fa0)
其中gconst为提前训练的数据,从模型数据中直接获取。至此完成式3.2中的多维高斯分布似然值计算;
3)由上文可知静音模型和非静音模型分别包含13个多维高斯分布,所以步骤1、2循环13次后可得13个多维高斯分布的似然值,将这些似然值乘以模型权重并相加即式3.1,可得静音模型和非静音模型的似然值;所以步骤1、2循环13次后可得13个多维高斯分布的似然值ln bi(X),将这些似然值和相应的权重ωi带入下式,可得当前帧对静音模型的似然值P1和对非静音模型的似然值P2:
4)最后乘上转移概率a:
如果前一帧数据是语音帧,则当前帧是语音帧的概率=a22*P2;
当前帧是静音帧的概率=a21*P1;
如果前一帧数据是静音帧,则当前帧是语音帧的概率=a12*P2;
当前帧是静音帧的概率=a11*P1;
比较是语音帧的概率和是静音帧的概率大小,语音帧的概率大则认为当前帧是语音帧,反之则为静音帧,至此VAD算法完成。
4、语音识别算法:
本模块流程如图8所示,其中模型的加载和构建HMM链在程序最开始初始化时完成,后续无需再重复进行;当上级VAD模块检测出有效语音,才进入本模块进行计算。本模块调用的HMM模型的每个状态都由24个GMM构成,流程介绍如下:
(1)、载入HMM模型,构造HMM链的识别网络;
(2)、将MFCC特征值与HMM模型的识别网络匹配,计算初始似然值;
(3)、根据初始似然值,Token Passing算法找到HMM链网络中的最佳路径,完成译码的工作;
(4)、判断语音指令是否与HMM链匹配,若是则为有效语音,若否则为无效语音。
下面描述整个流程:以“关机”为例,下面为“关机”对应的HMM链(实际HMM链更长,每个音节由多个状态构成,这里为方便讲解,进行了简化)。“关机”可拆分成音节“g”“uan”“j”“i”,用HMM模型将4个音节描述成4个状态,并相连可得一下HMM链,如图9所示;
A、在这条网络的起点(即“g”)初始化令牌值Pg=0;
B、当第一帧MFCC数据到来时,开始token-passing,第一帧只有Pg这个令牌值,令牌值Pg会向状态“g”和“uan”传递,具体表现为:
Pg=Pg+a11+log(GMMg)
Puan=Pg+a12+log(GMMuan)
log(GMMg)为MFCC数据对状态“g”的似然值,log(GMMuan)为MFCC数据对状态“uan”的似然值,似然值的计算方式与vad一致,见式3.3和3.4。
C、当第二帧数据到来时,此时状态“g”和“uan”都有令牌值,所以令牌向这两个状态所连接的状态传递。
对状态“g”的令牌值更新:
Pg=Pg+a11+log(GMMg)
对状态“uan”的令牌值更新:
Pg→uan=Pg+a12
Puan→uan=Puan+a22
更新后:Puan=max(Pg→uan,Puan→uan)+log(GMMuan)
由于状态“uan”左侧与“g”相连,同时自己与自己相连,所以会得到两个令牌值,此时要比较这两个令牌值,选取大的那个保留下来。
对状态“j”的令牌进行更新
Pj=Puan+a23+log(GMMj)
D、当第三帧到来时,对状态“g”的令牌值更新:
Pg=Pg+a11+log(GMMg)
对状态“uan”的令牌值更新:
Pg→uan=Pg+a12
Puan→uan=Puan+a22
更新后:Puan=max(Pg→uan,Puan→uan)+log(GMMuan)
对状态“j”的令牌进行更新
Puan→j=Puan+a23
Pj→j=Pj+a33
更新后:Pj=max(Puan→j,Pj→j)+log(GMMj)
对状态“i”的令牌进行更新:
Pi=Pj+a34+log(GMMi)
E、当第四帧到来时,对状态“g”的令牌值更新:
Pg=Pg+a11+log(GMMg)
对状态“uan”的令牌值更新:
Pg→uan=Pg+a12
Puan→uan=Puan+a22
更新后:Puan=max(Pg→uan,Puan→uan)+log(GMMuan)
对状态“j”的令牌进行更新
Puan→j=Puan+a23
Pj→j=Pj+a33
更新后:Pj=max(Puan→j,Pj→j)+log(GMMj)
对状态“i”的令牌进行更新:
Pj→i=Pj+a34
Pi→i=Pi+a44
更新后:Pi=max(Pj→i,Pi→i)+log(GMMi)
至此所有语音指令帧都输入完毕,开始令牌比较,将四个状态的令牌值进行大小排序,如果HMM链的最后一个状态(即“i”)的令牌值最大,则说明输入的语音指令与“关机”这条HMM链匹配,译码结果是“关机”。否则就认为输入的是无效语音。
整个译码过程可以看出随着帧数增加,令牌从左端一直扩散到右端,这个过程中每个状态都有一个令牌,且令牌会向相邻的状态传递并计算,当到达指定的帧数(帧数由预设的语音指令长度决定,如“关机”就较短,“芝麻开门”由于语音较长,帧数也会较多),就将所有状态的令牌进行排序,如果HMM链的末尾状态上的令牌值最大则说明这次输入的语音与这条HMM链匹配。在实际应用中可以增加可识别语音指令的数量,此时就会有多条HMM链,这样的话最后一帧,所有HMM链的所有状态都会进行排序,以此确定具体是哪一条指令。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。
Claims (7)
1.一种基于soc芯片的语音唤醒方法,其特征在于,包括以下步骤:
S1、芯片采集语音数据,并对其进行采样,将模拟信号转换成数字信号;
S2、将数字信号的语音数据进行MFCC特征提取;
S3、对MFCC特征值进行语音活动检测,判断当前MFCC特征值的新一帧MFCC数据是否为语音帧,若否则返回步骤S2并释放数据,若是则将MFCC特征值进入下一步骤处理;
S4、通过基于HMM模型的语音识别算法对MFCC特征值进行识别,若识别结果为有效指令,则唤醒控制设备;反之则返回步骤S2。
2.如权利要求1所述的一种基于soc芯片的语音唤醒方法,其特征在于,所述步骤S2中MFCC特征提取,其具体为:
1)、数字信号的预处理,包括预加重、分帧和加窗;
2)、对每一帧信号进行FFT变换,求频谱,进而求得幅度谱|Xn(k)|;
3)、对幅度谱|Xn(k)|加Mel滤波器组Wl(k),公式如下:
其中k指FFT的第k个点;o(l)、c(l)、h(l)分别为第l个三角滤波器的下限频率、中心频率和上限频率;
4)、对所有的滤波器输出做对数运算,再进一步做离散余弦变换DCT得MFCC特征值,公式如下:
其中N、L为26,指滤波器个数;i指MFCC系数阶数,i取12,即为得到了12个倒谱特征;此外,再加上一帧的对数能量作为第13个特征参数,定义如下:
其中,Xn(k)为幅度,由此可得到13个特征参数,包括12个倒谱特征加1个对数能量;
5)、所求的13个标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性根据所述静态特征的差分谱来描述;计算13个MFCC特征的一阶差分dtm(i)和二阶差分dtmm(i):
13个标准MFCC特征和它的13个一阶差分、13个二阶差分组成39维的MFCC特征参数,至此MFCC特征提取完毕。
3.如权利要求1所述的一种基于soc芯片的语音唤醒方法,其特征在于,所述步骤S3中对特征值进行语音活动检测,采用基于GMM模型的语音活动检测方法,其假设语音和背景噪音在特定的特征空间中符合高斯混合分布,在特征空间中分别构建静音模型、非静音模型;接着对MFCC特征的新一帧MFCC数据进行计算,分别算出静音模型的似然值P1、非静音模型的似然值P2;比较似然值P1、似然值P2的大小,若P1大于P2则当前MFCC数据帧为语音帧,否则静音帧。
4.如权利要求3所述的一种基于soc芯片的语音唤醒方法,其特征在于,若所述当前MFCC数据帧被判断为语音帧后,判断下一帧MFCC数据帧时,似然值P1和似然值P2分别乘以对应的转移概率,比较两个乘积结果,若似然值P1的乘积结果大于似然值P2的乘积结果,则当前MFCC数据帧为语音帧,否则为静音帧;
若所述当前MFCC数据帧被判断为静音帧后,判断下一帧MFCC数据帧时,似然值P1和似然值P2分别乘以对应的转移概率,比较两个乘积结果,若似然值P1的乘积结果大于似然值P2的乘积结果,则当前MFCC数据帧为语音帧,否则为静音帧;
所述对应的转移概率为预先设置好的模型数据。
5.如权利要求3所述的一种基于soc芯片的语音唤醒方法,其特征在于,所述静音模型的似然值P1、非静音模型的似然值P2的计算方法,具体为:
其中静音模型、非静音模型均由13个39维高斯模型构成;一个M阶高斯模型的概率密度函数是由M个高斯概率密度函数加权求和得到的,如下式3.1:
式中,M为多维高斯模型个数,M取13;X为一个D维随机矢量,即为39维MFCC特征值;bi(X)为子分布,ωi为混合权重;每个子分布是D维的联合高斯概率分布,如下式3.2:
其中μi是第i维的均值;σi 2为方差;xi为输入的第i维的MFCC特征值;D表示总维数,D取39;
由于式3.2计算过于复杂,对其进行推导简化:
式两边取对数可得:
可知加号左边都为训练好的模型中已知的参数,可以提前训练好,故设gconst作为模型的一个参数:
所以式3.2变换为求下式:
进而式3.1简化为:
将MFCC数据帧和模型参数带入上式中,即可得到该帧数据的静音模型的似然值和非静音模型的似然值。
6.如权利要求5所述的一种基于soc芯片的语音唤醒方法,其特征在于,所述将将MFCC数据帧和模型参数带入上式中,即可得到该帧数据的静音模型的似然值和非静音模型的似然值,具体步骤为:
1)、对每一帧语音的MFCC特征值分别与静音模型和非静音模型进行匹配计算,先进行(xi-μi)2/σ2计算,计算结果进行累加,得到两个模型的多维高斯分布的指数部分fa0和fa1:
其中均值μi和方差从模型数据中直接获取;
2)、对上一步的计算结果进行如下计算,可得到多维高斯分布的似然值b:
其中gconst为提前训练的数据,从模型数据中直接获取,至此完成式3.3中的多维高斯分布似然值ln bi(X)计算;
3)、由上文可知静音模型和非静音模型分别包含13个多维高斯分布,所以步骤1、2循环13次后可得13个多维高斯分布的似然值ln bi(X),将这些似然值和相应的权重ωi带入下式,得当前帧对静音模型的似然值P1和对非静音模型的似然值P2:
7.如权利要求1所述的一种基于soc芯片的语音唤醒方法,其特征在于,所述步骤S4基于HMM模型的语音识别算法,其具体为:
S41、载入HMM模型,构造HMM链的识别网络;
S42、将MFCC特征值与HMM模型的识别网络匹配,计算初始似然值;
S43、根据初始似然值,Token Passing算法找到HMM链网络中的最佳路径,完成译码的工作;
S45、判断语音指令是否与HMM链匹配,若是则为有效语音,若否则为无效语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611003861.0A CN106601229A (zh) | 2016-11-15 | 2016-11-15 | 一种基于soc芯片的语音唤醒方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611003861.0A CN106601229A (zh) | 2016-11-15 | 2016-11-15 | 一种基于soc芯片的语音唤醒方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106601229A true CN106601229A (zh) | 2017-04-26 |
Family
ID=58590197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611003861.0A Pending CN106601229A (zh) | 2016-11-15 | 2016-11-15 | 一种基于soc芯片的语音唤醒方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106601229A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886957A (zh) * | 2017-11-17 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种结合声纹识别的语音唤醒方法及装置 |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN108986822A (zh) * | 2018-08-31 | 2018-12-11 | 出门问问信息科技有限公司 | 语音识别方法、装置、电子设备及非暂态计算机存储介质 |
CN109088611A (zh) * | 2018-09-28 | 2018-12-25 | 咪付(广西)网络技术有限公司 | 一种声波通信***的自动增益控制方法和装置 |
CN110580919A (zh) * | 2019-08-19 | 2019-12-17 | 东南大学 | 多噪声场景下语音特征提取方法及可重构语音特征提取装置 |
CN111028831A (zh) * | 2019-11-11 | 2020-04-17 | 云知声智能科技股份有限公司 | 一种语音唤醒方法及装置 |
CN111124511A (zh) * | 2019-12-09 | 2020-05-08 | 浙江省北大信息技术高等研究院 | 唤醒芯片及唤醒*** |
CN111868825A (zh) * | 2018-03-12 | 2020-10-30 | 赛普拉斯半导体公司 | 用于利用语音开始检测来唤醒短语检测的双管线体系结构 |
CN112102848A (zh) * | 2019-06-17 | 2020-12-18 | 华为技术有限公司 | 一种用于识别音乐的方法、芯片和终端 |
CN115132231A (zh) * | 2022-08-31 | 2022-09-30 | 安徽讯飞寰语科技有限公司 | 语音活性检测方法、装置、设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1455387A (zh) * | 2002-11-15 | 2003-11-12 | 中国科学院声学研究所 | 一种语音识别***中的快速解码方法 |
CN101051462A (zh) * | 2006-04-07 | 2007-10-10 | 株式会社东芝 | 特征矢量补偿设备和特征矢量补偿方法 |
CN203253172U (zh) * | 2013-03-18 | 2013-10-30 | 北京承芯卓越科技有限公司 | 一种智能语音对话玩具 |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN105206271A (zh) * | 2015-08-25 | 2015-12-30 | 北京宇音天下科技有限公司 | 智能设备的语音唤醒方法及实现所述方法的*** |
CN105869628A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 语音端点检测方法及装置 |
-
2016
- 2016-11-15 CN CN201611003861.0A patent/CN106601229A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1455387A (zh) * | 2002-11-15 | 2003-11-12 | 中国科学院声学研究所 | 一种语音识别***中的快速解码方法 |
CN101051462A (zh) * | 2006-04-07 | 2007-10-10 | 株式会社东芝 | 特征矢量补偿设备和特征矢量补偿方法 |
CN203253172U (zh) * | 2013-03-18 | 2013-10-30 | 北京承芯卓越科技有限公司 | 一种智能语音对话玩具 |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN105206271A (zh) * | 2015-08-25 | 2015-12-30 | 北京宇音天下科技有限公司 | 智能设备的语音唤醒方法及实现所述方法的*** |
CN105869628A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 语音端点检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
姜楠: ""手机语音识别***中语音活动检测算法研究与实现"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886957A (zh) * | 2017-11-17 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种结合声纹识别的语音唤醒方法及装置 |
CN111868825B (zh) * | 2018-03-12 | 2024-05-28 | 赛普拉斯半导体公司 | 用于利用语音开始检测来唤醒短语检测的双管线体系结构 |
CN111868825A (zh) * | 2018-03-12 | 2020-10-30 | 赛普拉斯半导体公司 | 用于利用语音开始检测来唤醒短语检测的双管线体系结构 |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN108986822A (zh) * | 2018-08-31 | 2018-12-11 | 出门问问信息科技有限公司 | 语音识别方法、装置、电子设备及非暂态计算机存储介质 |
CN109088611A (zh) * | 2018-09-28 | 2018-12-25 | 咪付(广西)网络技术有限公司 | 一种声波通信***的自动增益控制方法和装置 |
CN112102848A (zh) * | 2019-06-17 | 2020-12-18 | 华为技术有限公司 | 一种用于识别音乐的方法、芯片和终端 |
CN112102848B (zh) * | 2019-06-17 | 2024-04-26 | 华为技术有限公司 | 一种用于识别音乐的方法、芯片和终端 |
CN110580919B (zh) * | 2019-08-19 | 2021-09-28 | 东南大学 | 多噪声场景下语音特征提取方法及可重构语音特征提取装置 |
CN110580919A (zh) * | 2019-08-19 | 2019-12-17 | 东南大学 | 多噪声场景下语音特征提取方法及可重构语音特征提取装置 |
CN111028831B (zh) * | 2019-11-11 | 2022-02-18 | 云知声智能科技股份有限公司 | 一种语音唤醒方法及装置 |
CN111028831A (zh) * | 2019-11-11 | 2020-04-17 | 云知声智能科技股份有限公司 | 一种语音唤醒方法及装置 |
CN111124511A (zh) * | 2019-12-09 | 2020-05-08 | 浙江省北大信息技术高等研究院 | 唤醒芯片及唤醒*** |
CN115132231A (zh) * | 2022-08-31 | 2022-09-30 | 安徽讯飞寰语科技有限公司 | 语音活性检测方法、装置、设备及可读存储介质 |
CN115132231B (zh) * | 2022-08-31 | 2022-12-13 | 安徽讯飞寰语科技有限公司 | 语音活性检测方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106601229A (zh) | 一种基于soc芯片的语音唤醒方法 | |
CN105976812B (zh) | 一种语音识别方法及其设备 | |
CN102800316B (zh) | 基于神经网络的声纹识别***的最优码本设计方法 | |
CN107767861B (zh) | 语音唤醒方法、***及智能终端 | |
US20220215853A1 (en) | Audio signal processing method, model training method, and related apparatus | |
US20170154640A1 (en) | Method and electronic device for voice recognition based on dynamic voice model selection | |
CN103117059B (zh) | 一种基于张量分解的语音信号特征提取方法 | |
CN110675859B (zh) | 结合语音与文本的多情感识别方法、***、介质及设备 | |
CN109754790B (zh) | 一种基于混合声学模型的语音识别***及方法 | |
CN106653056A (zh) | 基于lstm循环神经网络的基频提取模型及训练方法 | |
CN111210807A (zh) | 语音识别模型训练方法、***、移动终端及存储介质 | |
CN110246489B (zh) | 用于儿童的语音识别方法及*** | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
CN112786004A (zh) | 语音合成方法以及电子设备、存储装置 | |
CN112382301B (zh) | 基于轻量级神经网络的含噪语音性别识别方法及*** | |
CN106782502A (zh) | 一种儿童机器人用的语音识别装置 | |
CN113077798B (zh) | 一种居家老人呼救设备 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN113823323A (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
Sagi et al. | A biologically motivated solution to the cocktail party problem | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
Rolland et al. | Multilingual transfer learning for children automatic speech recognition | |
CN110580897A (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN113920997A (zh) | 语音唤醒方法、装置、电子设备及作业机械 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170426 |
|
RJ01 | Rejection of invention patent application after publication |