CN107527611A - Mfcc语音识别方法、存储介质、电子设备及*** - Google Patents
Mfcc语音识别方法、存储介质、电子设备及*** Download PDFInfo
- Publication number
- CN107527611A CN107527611A CN201710731077.XA CN201710731077A CN107527611A CN 107527611 A CN107527611 A CN 107527611A CN 201710731077 A CN201710731077 A CN 201710731077A CN 107527611 A CN107527611 A CN 107527611A
- Authority
- CN
- China
- Prior art keywords
- mrow
- mfcc
- frequency
- signal
- msubsup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000009467 reduction Effects 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 34
- 230000004927 fusion Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims 1
- 230000001737 promoting effect Effects 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种MFCC语音识别方法、存储介质、电子设备及***,涉及语音识别领域。该方法的步骤为:对需要语音识别的语音信号进行预处理,得到MFCC初始信号,计算MFCC初始信号的低频频率、中频频率和高频频率,将MFCC初始信号的低、中和高频频率进行融合,得到MFCC特征参数,对MFCC特征参数F进行降维,得到MFCC降维特征参数。本发明显著提高了MFCC特征参数在噪声环境和高频区域中的识别精度,进而实现了在噪声环境和高频区域中的语音信号中提取MFCC特征参数的目的,非常适于推广。
Description
技术领域
本发明涉及语音识别领域,具体涉及一种MFCC(Mel-Frequency CepstralCoefficients,梅尔频率倒谱系数)语音识别方法、存储介质、电子设备及***。
背景技术
MFCC是一种在自动语音和说话人识别中广泛使用的特征,由于MFCC特征参数是语音信号中最具有辨识度的特征,因此MFCC特征参数已经广泛应用于语音设别领域中,即在语音设别时,提取到语音信号中的MFCC特征参数,就基本完成了语音识别功能。
但是,对于噪音较多的语音信号、以及语音信号的高频区域而言,MFCC特征参数的识别精度较低,进而使得MFCC特征参数难以提取。
发明内容
针对现有技术中存在的缺陷,本发明解决的技术问题为:如何在噪声环境和高频区域的语音信号中识别MFCC特征参数,本发明能够大幅度提高MFCC特征参数的识别精度,非常适于推广。
为达到以上目的,本发明提供的MFCC语音识别方法,包括以下步骤:
S1:对需要语音识别的语音信号进行预处理,得到MFCC初始信号,转到S2;
S2:根据MFCC初始信号的低频频域信号f1,计算MFCC初始信号的低频频率fl,计算公式为:
根据MFCC初始信号的中频频域信号f2,计算MFCC初始信号的中频频率fm,计算公式为:
根据MFCC初始信号的高频频域信号f3,计算MFCC初始信号的高频频率fh,计算公式为:转到S3;
S3:将MFCC初始信号的低频频率fl、中频频率fm和高频频率fh进行融合,得到MFCC特征参数F,计算公式为:
其中N代表语音信号进行FFT变换时的点数,Fs代表阻带截止频率,Fs为常量,Q-1代表fm的反函数,Q(fl)代表将fl作为f2后根据fm的计算公式计算fm,Q(fh)代表将fh作为f2后根据fm的计算公式计算fm,H代表语音设别中需要使用的滤波器的个数。
在上述技术方案的基础上,S3之后还包括以下步骤:S4:对MFCC特征参数F进行降维,得到MFCC降维特征参数F降,计算公式为:σbetween为类间离散度,表示语音信号的第k维MFCC特征参数的类间方差的和;σwithin为类内离散度,表示语音信号的第k维MFCC特征参数的类内方差的和。
本发明提供的存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述MFCC语音识别方法。
本发明提供的电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述MFCC语音识别方法。
本发明提供的MFCC语音识别***,包括语音信号预处理模块、MFCC初始信号频率计算模块和MFCC特征参数融合模块;
语音信号预处理模块用于:对需要语音识别的语音信号进行预处理,得到MFCC初始信号,向MFCC初始信号频率计算模块发送MFCC初始信号频率计算信号;
MFCC初始信号频率计算模块用于:收到MFCC初始信号频率计算信号后,根据MFCC初始信号的低频频域信号f1,计算MFCC初始信号的低频频率fl,计算公式为:
根据MFCC初始信号的中频频域信号f2,计算MFCC初始信号的中频频率fm,计算公式为:
根据MFCC初始信号的高频频域信号f3,计算MFCC初始信号的高频频率fh,计算公式为:向MFCC特征参数融合模块发送MFCC特征参数融合信号;
MFCC特征参数融合模块用于:收到MFCC特征参数融合信号后,将MFCC初始信号的低频频率fl、中频频率fm和高频频率fh进行融合,得到MFCC特征参数F,计算公式为:
其中N代表语音信号进行FFT变换时的点数,Fs代表阻带截止频率,Fs为常量,Q-1代表fm的反函数,Q(fl)代表将fl作为f2后根据fm的计算公式计算fm,Q(fh)代表将fh作为f2后根据fm的计算公式计算fm,H代表语音设别中需要使用的滤波器的个数。
在上述技术方案的基础上,该***还包括MFCC特征参数降维模块,其用于:在MFCC特征参数融合模块工作完成后,对MFCC特征参数进行降维,得到MFCC降维特征参数F降,计算公式为:σbetween为类间离散度,表示语音信号的第k维MFCC特征参数的类间方差的和;σwithin为类内离散度,表示语音信号的第k维MFCC特征参数的类内方差的和。
与现有技术相比,本发明的优点在于:
(1)参见本发明的S1至S3可知,本发明通过自主研发的算法,先计算出MFCC初始信号的低、中、高频频率,然后将低、中、高频频率融合计算得到MFCC特征参数,以此显著提高了MFCC特征参数在噪声环境和高频区域中的识别精度,进而实现了在噪声环境和高频区域中的语音信号中提取MFCC特征参数的目的,非常适于推广。
(2)参见本发明的S4可知,本发明通过自主研发的算法对MFCC特征参数进行降维,以进一步提高MFCC特征参数的识别精度。
附图说明
图1为本发明实施例中MFCC语音识别方法的流程图;
图2为本发明实施例中电子设备的连接框图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例中的MFCC语音识别方法,包括以下步骤:
S1:对需要语音识别的语音信号进行预处理,得到MFCC初始信号,转到S2。
S1的具体流程为:对语音信号进行预加重、分帧和加窗处理,得到语音信号;将语音信号进行FFT(Fast Fourier Transformation,离散傅氏变换的快速算法)变换(FFT变换时会得到点数),即从时域到频域的转换,得到频域信号;将频域信号取模的平方得到离散功率谱,将离散功率谱通过滤波器滤波,对滤波后的信号取对数后进行DCT(DCT forDiscrete Cosine Transform,离散余弦变换)转化,得到MFCC初始信号。
S2:得到MFCC初始信号后,需要分别提高MFCC初始信号在低频、中频和高频的信号精度,具体流程为:
根据MFCC初始信号的低频频域信号f1,计算MFCC初始信号的低频频率fl,计算公式为:
根据MFCC初始信号的中频频域信号f2,计算MFCC初始信号的中频频率fm,计算公式为:
高频频率fm计算公式的设计原理为:为了解决中频段的精度问题,就需要找到一种合适的、针对中频区域的Mel-Hz对应关系,这种对应关系需实现滤波器在低、高频区间分布稀疏,在中频区间分布相对密集,从而保证中频段的计算精度。通过上述公式计算出的fm正好吻合以上需求,而且依然采用对数函数的形式来保证中频段系数的计算精度。
根据MFCC初始信号的高频频域信号f3,计算MFCC初始信号的高频频率fh,计算公式为:转到S3。
高频频率fh计算公式的设计原理为:由于MFCC在提取中Mel滤波器的数量在低频区域多、在高频区域少,使得MFCC随着频率的提高,其计算精度随之下降。因此提出IMFCC(逆Mel倒谱频率系数),即高频频率fh;IMFCC参照Me域构建了一种与Mel域尺度相反的新结构,使得滤波器在低频区分布的个数减少,在高频区的数量增加。
S3:将MFCC初始信号的低频频率fl、中频频率fm和高频频率fh进行融合,得到MFCC特征参数F,计算公式为:
其中N代表语音信号进行FFT变换时的点数,Fs代表阻带截止频率(Fs为常量),Q-1代表fm的反函数,Q(fl)代表将fl作为f2后根据fm的计算公式计算fm,Q(fh)代表将fh作为f2后根据fm的计算公式计算fm,H代表语音设别中需要使用的滤波器的个数,转到S4。
S4:对MFCC特征参数F进行降维,得到MFCC降维特征参数F降,以进一步提高识别精度,计算公式为:
其中σbetween为类间离散度,表示某一组语音信号之间的第k维MFCC特征参数的类间方差的和;σwithin为类内离散度,表示某一个语音信号的第k维MFCC特征参数的类内方差的和;M代表语音样本的总数,ni代表语音信号i拥有的语音样本的个数,代表语音信号i的第k维MFCC特征参数的均值,μk为语音信号中第k维MFCC特征参数的均值;代表语音信号i的第j段语音样本的第k维MFCC特征参数法分量,代表语音信号i的第i段语音样本的第k维MFCC特征参数法分量。
S4的原理为:MFCC特征参数一般要需要20到30维才能保证语音识别***的识别率,MFCC特征参数维数的取值越大则语音信号的特征就越精确,但是因为特征参数的每一维分量对语音识别***的贡献度是不一样的,这样特征参数中一般会存在很多的无用信息甚至干扰信息,即影响***的时效性,又影响***的识别率。因此将MFCC特征参数进行降维,以选取MFCC特征参数中的有效维。
本发明实施例还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述MFCC语音识别方法。需要说明的是,所述存储介质包括U盘、移动硬盘、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。
参见图2所示,本发明实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述MFCC语音识别方法。
本发明实施例提供的MFCC语音识别***,包括语音信号预处理模块、MFCC初始信号频率计算模块、MFCC特征参数融合模块和MFCC特征参数降维模块。
语音信号预处理模块用于:对需要语音识别的语音信号进行预处理,得到MFCC初始信号,向MFCC初始信号频率计算模块发送MFCC初始信号频率计算信号;具体流程为:对语音信号进行预加重、分帧和加窗处理,得到语音信号;将语音信号进行FFT变换,得到频域信号;将频域信号取模的平方得到离散功率谱,将离散功率谱通过滤波器滤波,对滤波后的信号取对数后进行DCT转化,得到MFCC初始信号。
MFCC初始信号频率计算模块用于:收到MFCC初始信号频率计算信号后,根据MFCC初始信号的低频频域信号f1,计算MFCC初始信号的低频频率fl,计算公式为:
根据MFCC初始信号的中频频域信号f2,计算MFCC初始信号的中频频率fm,计算公式为:
根据MFCC初始信号的高频频域信号f3,计算MFCC初始信号的高频频率fh,计算公式为:向MFCC特征参数融合模块发送MFCC特征参数融合信号。
MFCC特征参数融合模块用于:收到MFCC特征参数融合信号后,将MFCC初始信号的低频频率fl、中频频率fm和高频频率fh进行融合,得到MFCC特征参数F,计算公式为:
其中N代表语音信号进行FFT变换时的点数(N的具体取值可根据本领域现有技术得出),Fs代表阻带截止频率,Fs为常量,Q-1代表fm的反函数,Q(fl)代表将fl作为f2后根据fm的计算公式计算fm,Q(fh)代表将fh作为f2后根据fm的计算公式计算fm,H代表语音设别中需要使用的滤波器的个数,向MFCC特征参数降维模块发送MFCC特征参数降维信号。
MFCC特征参数降维模块用于:收到MFCC特征参数降维信号后,对MFCC特征参数进行降维,得到MFCC降维特征参数F降,计算公式为:
其中σbetween为类间离散度,表示某一组语音信号之间的第k维MFCC特征参数的类间方差的和;σwithin为类内离散度,表示某一个语音信号的第k维MFCC特征参数的类内方差的和;M代表语音样本的总数,ni代表语音信号i拥有的语音样本的个数,代表语音信号i的第k维MFCC特征参数的均值,μk为语音信号中第k维MFCC特征参数的均值;代表语音信号i的第j段语音样本的第k维MFCC特征参数法分量,代表语音信号i的第i段语音样本的第k维MFCC特征参数法分量。
需要说明的是:本发明实施例提供的***在进行模块间通信时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将***的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
进一步,本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (10)
1.一种MFCC语音识别方法,其特征在于,该方法包括以下步骤:
S1:对需要语音识别的语音信号进行预处理,得到MFCC初始信号,转到S2;
S2:根据MFCC初始信号的低频频域信号f1,计算MFCC初始信号的低频频率fl,计算公式为:
根据MFCC初始信号的中频频域信号f2,计算MFCC初始信号的中频频率fm,计算公式为:
<mrow>
<mi>f</mi>
<mi>m</mi>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>1073.05</mn>
<mo>-</mo>
<mn>527</mn>
<mo>*</mo>
<mi>l</mi>
<mi>n</mi>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mfrac>
<mrow>
<mn>200</mn>
<mo>-</mo>
<mi>f</mi>
<mn>2</mn>
</mrow>
<mn>300</mn>
</mfrac>
<mo>)</mo>
<mo>,</mo>
<mn>0</mn>
<mo><</mo>
<mi>f</mi>
<mn>2</mn>
<mo>&le;</mo>
<mn>2000</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>1073.05</mn>
<mo>+</mo>
<mn>527</mn>
<mo>*</mo>
<mi>l</mi>
<mi>n</mi>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mfrac>
<mrow>
<mi>f</mi>
<mn>2</mn>
<mo>-</mo>
<mn>200</mn>
</mrow>
<mn>300</mn>
</mfrac>
<mo>)</mo>
<mo>,</mo>
<mn>2000</mn>
<mo><</mo>
<mi>f</mi>
<mn>2</mn>
<mo>&le;</mo>
<mn>4000</mn>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>;</mo>
</mrow>
根据MFCC初始信号的高频频域信号f3,计算MFCC初始信号的高频频率fh,计算公式为:
转到S3;
S3:将MFCC初始信号的低频频率fl、中频频率fm和高频频率fh进行融合,得到MFCC特征参数F,计算公式为:
<mrow>
<mi>F</mi>
<mo>=</mo>
<mfrac>
<mi>N</mi>
<msub>
<mi>F</mi>
<mi>s</mi>
</msub>
</mfrac>
<msup>
<mi>Q</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mo>&lsqb;</mo>
<mi>Q</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>l</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>H</mi>
<mfrac>
<mrow>
<mi>Q</mi>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mi>h</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>Q</mi>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>H</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</mfrac>
<mo>&rsqb;</mo>
<mo>;</mo>
</mrow>
其中N代表语音信号进行FFT变换时的点数,Fs代表阻带截止频率,Fs为常量,Q-1代表fm的反函数,Q(fl)代表将fl作为f2后根据fm的计算公式计算fm,Q(fh)代表将fh作为f2后根据fm的计算公式计算fm,H代表语音设别中需要使用的滤波器的个数。
2.如权利要求1所述的MFCC语音识别方法,其特征在于,S3之后还包括以下步骤:S4:对MFCC特征参数F进行降维,得到MFCC降维特征参数F降,计算公式为:σbetween为类间离散度,表示语音信号的第k维MFCC特征参数的类间方差的和;σwithin为类内离散度,表示语音信号的第k维MFCC特征参数的类内方差的和。
3.如权利要求2所述的MFCC语音识别方法,其特征在于:
<mrow>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>b</mi>
<mi>e</mi>
<mi>t</mi>
<mi>w</mi>
<mi>e</mi>
<mi>e</mi>
<mi>n</mi>
</mrow>
</msub>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>&mu;</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>-</mo>
<msub>
<mi>&mu;</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>,</mo>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>w</mi>
<mi>i</mi>
<mi>t</mi>
<mi>h</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
</msub>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</msubsup>
<mo>&lsqb;</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>x</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
<mo>;</mo>
</mrow>
其中M代表语音样本的总数,ni代表语音信号i拥有的语音样本的个数,代表语音信号i的第k维MFCC特征参数的均值,μk为语音信号中第k维MFCC特征参数的均值;代表语音信号i的第j段语音样本的第k维MFCC特征参数法分量,代表语音信号i的第i段语音样本的第k维MFCC特征参数法分量。
4.如权利要求1至3所述的MFCC语音识别方法,其特征在于,S1的流程包括:对语音信号进行预加重、分帧和加窗处理,得到语音信号;将语音信号进行FFT变换,得到频域信号;将频域信号取模的平方得到离散功率谱,将离散功率谱通过滤波器滤波,对滤波后的信号取对数后进行DCT转化,得到MFCC初始信号。
5.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至4任一项所述的方法。
6.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:处理器执行计算机程序时实现权利要求1至4任一项所述的方法。
7.一种MFCC语音识别***,其特征在于:该***包括语音信号预处理模块、MFCC初始信号频率计算模块和MFCC特征参数融合模块;
语音信号预处理模块用于:对需要语音识别的语音信号进行预处理,得到MFCC初始信号,向MFCC初始信号频率计算模块发送MFCC初始信号频率计算信号;
MFCC初始信号频率计算模块用于:收到MFCC初始信号频率计算信号后,根据MFCC初始信号的低频频域信号f1,计算MFCC初始信号的低频频率fl,计算公式为:
根据MFCC初始信号的中频频域信号f2,计算MFCC初始信号的中频频率fm,计算公式为:
<mrow>
<mi>f</mi>
<mi>m</mi>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>1073.05</mn>
<mo>-</mo>
<mn>527</mn>
<mo>*</mo>
<mi>l</mi>
<mi>n</mi>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mfrac>
<mrow>
<mn>200</mn>
<mo>-</mo>
<mi>f</mi>
<mn>2</mn>
</mrow>
<mn>300</mn>
</mfrac>
<mo>)</mo>
<mo>,</mo>
<mn>0</mn>
<mo><</mo>
<mi>f</mi>
<mn>2</mn>
<mo>&le;</mo>
<mn>2000</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>1073.05</mn>
<mo>+</mo>
<mn>527</mn>
<mo>*</mo>
<mi>l</mi>
<mi>n</mi>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mfrac>
<mrow>
<mi>f</mi>
<mn>2</mn>
<mo>-</mo>
<mn>200</mn>
</mrow>
<mn>300</mn>
</mfrac>
<mo>)</mo>
<mo>,</mo>
<mn>2000</mn>
<mo><</mo>
<mi>f</mi>
<mn>2</mn>
<mo>&le;</mo>
<mn>4000</mn>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>;</mo>
</mrow>
根据MFCC初始信号的高频频域信号f3,计算MFCC初始信号的高频频率fh,计算公式为:
向MFCC特征参数融合模块发送MFCC特征参数融合信号;
MFCC特征参数融合模块用于:收到MFCC特征参数融合信号后,将MFCC初始信号的低频频率fl、中频频率fm和高频频率fh进行融合,得到MFCC特征参数F,计算公式为:
<mrow>
<mi>F</mi>
<mo>=</mo>
<mfrac>
<mi>N</mi>
<msub>
<mi>F</mi>
<mi>s</mi>
</msub>
</mfrac>
<msup>
<mi>Q</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mo>&lsqb;</mo>
<mi>Q</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>l</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>H</mi>
<mfrac>
<mrow>
<mi>Q</mi>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mi>h</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>Q</mi>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>H</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</mfrac>
<mo>&rsqb;</mo>
<mo>;</mo>
</mrow>
其中N代表语音信号进行FFT变换时的点数,Fs代表阻带截止频率,Fs为常量,Q-1代表fm的反函数,Q(fl)代表将fl作为f2后根据fm的计算公式计算fm,Q(fh)代表将fh作为f2后根据fm的计算公式计算fm,H代表语音设别中需要使用的滤波器的个数。
8.如权利要求7所述的MFCC语音识别***,其特征在于,该***还包括MFCC特征参数降维模块,其用于:在MFCC特征参数融合模块工作完成后,对MFCC特征参数进行降维,得到MFCC降维特征参数F降,计算公式为:σbetween为类间离散度,表示语音信号的第k维MFCC特征参数的类间方差的和;σwithin为类内离散度,表示语音信号的第k维MFCC特征参数的类内方差的和。
9.如权利要求8所述的MFCC语音识别***,其特征在于:
<mrow>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>b</mi>
<mi>e</mi>
<mi>t</mi>
<mi>w</mi>
<mi>e</mi>
<mi>e</mi>
<mi>n</mi>
</mrow>
</msub>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>&mu;</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>-</mo>
<msub>
<mi>&mu;</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>,</mo>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>w</mi>
<mi>i</mi>
<mi>t</mi>
<mi>h</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
</msub>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</msubsup>
<mo>&lsqb;</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>x</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
<mo>;</mo>
</mrow>
其中M代表语音样本的总数,ni代表语音信号i拥有的语音样本的个数,代表语音信号i的第k维MFCC特征参数的均值,μk为语音信号中第k维MFCC特征参数的均值;代表语音信号i的第j段语音样本的第k维MFCC特征参数法分量,代表语音信号i的第i段语音样本的第k维MFCC特征参数法分量。
10.如权利要求7至9所述的MFCC语音识别***,其特征在于:所述语音信号预处理模块的工作流程包括:对语音信号进行预加重、分帧和加窗处理,得到语音信号;将语音信号进行FFT变换,得到频域信号;将频域信号取模的平方得到离散功率谱,将离散功率谱通过滤波器滤波,对滤波后的信号取对数后进行DCT转化,得到MFCC初始信号。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710731077.XA CN107527611A (zh) | 2017-08-23 | 2017-08-23 | Mfcc语音识别方法、存储介质、电子设备及*** |
PCT/CN2018/081321 WO2019037426A1 (zh) | 2017-08-23 | 2018-03-30 | Mfcc语音识别方法、存储介质、电子设备及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710731077.XA CN107527611A (zh) | 2017-08-23 | 2017-08-23 | Mfcc语音识别方法、存储介质、电子设备及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107527611A true CN107527611A (zh) | 2017-12-29 |
Family
ID=60681946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710731077.XA Pending CN107527611A (zh) | 2017-08-23 | 2017-08-23 | Mfcc语音识别方法、存储介质、电子设备及*** |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107527611A (zh) |
WO (1) | WO2019037426A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269566A (zh) * | 2018-01-17 | 2018-07-10 | 南京理工大学 | 一种基于多尺度子带能量集特征的膛口波识别方法 |
WO2019037426A1 (zh) * | 2017-08-23 | 2019-02-28 | 武汉斗鱼网络科技有限公司 | Mfcc语音识别方法、存储介质、电子设备及*** |
CN113571078A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 噪声抑制方法、装置、介质以及电子设备 |
CN113744720A (zh) * | 2021-09-07 | 2021-12-03 | 国网湖北省电力有限公司 | 基于融合多频带语音信号特征的语音识别鲁棒性增强方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090144053A1 (en) * | 2007-12-03 | 2009-06-04 | Kabushiki Kaisha Toshiba | Speech processing apparatus and speech synthesis apparatus |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
CN105895087A (zh) * | 2016-03-24 | 2016-08-24 | 海信集团有限公司 | 一种语音识别方法及装置 |
CN106356058A (zh) * | 2016-09-08 | 2017-01-25 | 河海大学 | 一种基于多频带特征补偿的鲁棒语音识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7027979B2 (en) * | 2003-01-14 | 2006-04-11 | Motorola, Inc. | Method and apparatus for speech reconstruction within a distributed speech recognition system |
CN101577116B (zh) * | 2009-02-27 | 2012-07-18 | 北京中星微电子有限公司 | 语音信号的MFCC系数提取方法、装置及Mel滤波方法、装置 |
JP2012163919A (ja) * | 2011-02-09 | 2012-08-30 | Sony Corp | 音声信号処理装置、および音声信号処理方法、並びにプログラム |
CN103390403B (zh) * | 2013-06-19 | 2015-11-25 | 北京百度网讯科技有限公司 | Mfcc特征的提取方法及装置 |
CN105405448B (zh) * | 2014-09-16 | 2019-09-03 | 科大讯飞股份有限公司 | 一种音效处理方法及装置 |
CN106782565A (zh) * | 2016-11-29 | 2017-05-31 | 重庆重智机器人研究院有限公司 | 一种声纹特征识别方法及*** |
CN107527611A (zh) * | 2017-08-23 | 2017-12-29 | 武汉斗鱼网络科技有限公司 | Mfcc语音识别方法、存储介质、电子设备及*** |
-
2017
- 2017-08-23 CN CN201710731077.XA patent/CN107527611A/zh active Pending
-
2018
- 2018-03-30 WO PCT/CN2018/081321 patent/WO2019037426A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090144053A1 (en) * | 2007-12-03 | 2009-06-04 | Kabushiki Kaisha Toshiba | Speech processing apparatus and speech synthesis apparatus |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
CN105895087A (zh) * | 2016-03-24 | 2016-08-24 | 海信集团有限公司 | 一种语音识别方法及装置 |
CN106356058A (zh) * | 2016-09-08 | 2017-01-25 | 河海大学 | 一种基于多频带特征补偿的鲁棒语音识别方法 |
Non-Patent Citations (3)
Title |
---|
张文克: "《中国优秀硕士学位论文全文数据库信息科技辑》", 15 March 2017, 中国学术期刊(光盘版)电子杂志社 * |
袁正午等: "改进的混合MFCC语音识别算法研究", 《计算机工程与应用》 * |
鲜晓东等: "基于Fisher比的梅尔倒谱系数混合特征提取方法", 《计算机应用》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019037426A1 (zh) * | 2017-08-23 | 2019-02-28 | 武汉斗鱼网络科技有限公司 | Mfcc语音识别方法、存储介质、电子设备及*** |
CN108269566A (zh) * | 2018-01-17 | 2018-07-10 | 南京理工大学 | 一种基于多尺度子带能量集特征的膛口波识别方法 |
CN113571078A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 噪声抑制方法、装置、介质以及电子设备 |
CN113571078B (zh) * | 2021-01-29 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 噪声抑制方法、装置、介质以及电子设备 |
CN113744720A (zh) * | 2021-09-07 | 2021-12-03 | 国网湖北省电力有限公司 | 基于融合多频带语音信号特征的语音识别鲁棒性增强方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019037426A1 (zh) | 2019-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102968986B (zh) | 基于长时特征和短时特征的重叠语音与单人语音区分方法 | |
CN107527611A (zh) | Mfcc语音识别方法、存储介质、电子设备及*** | |
CN103117059B (zh) | 一种基于张量分解的语音信号特征提取方法 | |
CN102968990B (zh) | 说话人识别方法和*** | |
CN106847292A (zh) | 声纹识别方法及装置 | |
CN102483916B (zh) | 声音特征量提取装置和声音特征量提取方法 | |
CN113327626B (zh) | 语音降噪方法、装置、设备及存储介质 | |
CN104221079B (zh) | 利用频谱特性进行声音分析的改进的梅尔滤波器组结构 | |
CN110189757A (zh) | 一种大熊猫个体识别方法、设备及计算机可读存储介质 | |
CN102486920A (zh) | 音频事件检测方法和装置 | |
CN111128213A (zh) | 一种分频段进行处理的噪声抑制方法及其*** | |
CN109036437A (zh) | 口音识别方法、装置、计算机装置及计算机可读存储介质 | |
CN109065043B (zh) | 一种命令词识别方法及计算机存储介质 | |
CN110942766A (zh) | 音频事件检测方法、***、移动终端及存储介质 | |
CN107123432A (zh) | 一种自匹配Top‑N音频事件识别信道自适应方法 | |
CN103258537A (zh) | 利用特征结合对语音情感进行识别的方法及其装置 | |
Chen et al. | An audio scene classification framework with embedded filters and a DCT-based temporal module | |
CN116524939A (zh) | 一种基于ecapa-tdnn的鸟鸣物种自动识别方法 | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN112466276A (zh) | 一种语音合成***训练方法、装置以及可读存储介质 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其*** | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN109616124A (zh) | 基于ivector的轻量化声纹识别方法和*** | |
CN112863517B (zh) | 基于感知谱收敛率的语音识别方法 | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171229 |