CN107527611A

CN107527611A - Mfcc语音识别方法、存储介质、电子设备及***

Info

Publication number: CN107527611A
Application number: CN201710731077.XA
Authority: CN
Inventors: 李振华; 陈少杰; 张文明
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2017-08-23
Filing date: 2017-08-23
Publication date: 2017-12-29
Also published as: WO2019037426A1

Abstract

本发明公开了一种MFCC语音识别方法、存储介质、电子设备及***，涉及语音识别领域。该方法的步骤为：对需要语音识别的语音信号进行预处理，得到MFCC初始信号，计算MFCC初始信号的低频频率、中频频率和高频频率，将MFCC初始信号的低、中和高频频率进行融合，得到MFCC特征参数，对MFCC特征参数F进行降维，得到MFCC降维特征参数。本发明显著提高了MFCC特征参数在噪声环境和高频区域中的识别精度，进而实现了在噪声环境和高频区域中的语音信号中提取MFCC特征参数的目的，非常适于推广。

Description

MFCC语音识别方法、存储介质、电子设备及***

技术领域

本发明涉及语音识别领域，具体涉及一种MFCC(Mel-Frequency CepstralCoefficients，梅尔频率倒谱系数)语音识别方法、存储介质、电子设备及***。

背景技术

MFCC是一种在自动语音和说话人识别中广泛使用的特征，由于MFCC特征参数是语音信号中最具有辨识度的特征，因此MFCC特征参数已经广泛应用于语音设别领域中，即在语音设别时，提取到语音信号中的MFCC特征参数，就基本完成了语音识别功能。

但是，对于噪音较多的语音信号、以及语音信号的高频区域而言，MFCC特征参数的识别精度较低，进而使得MFCC特征参数难以提取。

发明内容

针对现有技术中存在的缺陷，本发明解决的技术问题为：如何在噪声环境和高频区域的语音信号中识别MFCC特征参数，本发明能够大幅度提高MFCC特征参数的识别精度，非常适于推广。

为达到以上目的，本发明提供的MFCC语音识别方法，包括以下步骤：

S1：对需要语音识别的语音信号进行预处理，得到MFCC初始信号，转到S2；

S2：根据MFCC初始信号的低频频域信号f1，计算MFCC初始信号的低频频率fl，计算公式为：

根据MFCC初始信号的中频频域信号f2，计算MFCC初始信号的中频频率fm，计算公式为：

根据MFCC初始信号的高频频域信号f3，计算MFCC初始信号的高频频率fh，计算公式为：转到S3；

S3：将MFCC初始信号的低频频率fl、中频频率fm和高频频率fh进行融合，得到MFCC特征参数F，计算公式为：

其中N代表语音信号进行FFT变换时的点数，F_s代表阻带截止频率，F_s为常量，Q^-1代表fm的反函数，Q(fl)代表将fl作为f2后根据fm的计算公式计算fm，Q(fh)代表将fh作为f2后根据fm的计算公式计算fm，H代表语音设别中需要使用的滤波器的个数。

在上述技术方案的基础上，S3之后还包括以下步骤：S4：对MFCC特征参数F进行降维，得到MFCC降维特征参数F_降，计算公式为：σ_between为类间离散度，表示语音信号的第k维MFCC特征参数的类间方差的和；σ_within为类内离散度，表示语音信号的第k维MFCC特征参数的类内方差的和。

本发明提供的存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述MFCC语音识别方法。

本发明提供的电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现上述MFCC语音识别方法。

本发明提供的MFCC语音识别***，包括语音信号预处理模块、MFCC初始信号频率计算模块和MFCC特征参数融合模块；

语音信号预处理模块用于：对需要语音识别的语音信号进行预处理，得到MFCC初始信号，向MFCC初始信号频率计算模块发送MFCC初始信号频率计算信号；

MFCC初始信号频率计算模块用于：收到MFCC初始信号频率计算信号后，根据MFCC初始信号的低频频域信号f1，计算MFCC初始信号的低频频率fl，计算公式为：

根据MFCC初始信号的高频频域信号f3，计算MFCC初始信号的高频频率fh，计算公式为：向MFCC特征参数融合模块发送MFCC特征参数融合信号；

MFCC特征参数融合模块用于：收到MFCC特征参数融合信号后，将MFCC初始信号的低频频率fl、中频频率fm和高频频率fh进行融合，得到MFCC特征参数F，计算公式为：

在上述技术方案的基础上，该***还包括MFCC特征参数降维模块，其用于：在MFCC特征参数融合模块工作完成后，对MFCC特征参数进行降维，得到MFCC降维特征参数F_降，计算公式为：σ_between为类间离散度，表示语音信号的第k维MFCC特征参数的类间方差的和；σ_within为类内离散度，表示语音信号的第k维MFCC特征参数的类内方差的和。

与现有技术相比，本发明的优点在于：

(1)参见本发明的S1至S3可知，本发明通过自主研发的算法，先计算出MFCC初始信号的低、中、高频频率，然后将低、中、高频频率融合计算得到MFCC特征参数，以此显著提高了MFCC特征参数在噪声环境和高频区域中的识别精度，进而实现了在噪声环境和高频区域中的语音信号中提取MFCC特征参数的目的，非常适于推广。

(2)参见本发明的S4可知，本发明通过自主研发的算法对MFCC特征参数进行降维，以进一步提高MFCC特征参数的识别精度。

附图说明

图1为本发明实施例中MFCC语音识别方法的流程图；

图2为本发明实施例中电子设备的连接框图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示，本发明实施例中的MFCC语音识别方法，包括以下步骤：

S1：对需要语音识别的语音信号进行预处理，得到MFCC初始信号，转到S2。

S1的具体流程为：对语音信号进行预加重、分帧和加窗处理，得到语音信号；将语音信号进行FFT(Fast Fourier Transformation，离散傅氏变换的快速算法)变换(FFT变换时会得到点数)，即从时域到频域的转换，得到频域信号；将频域信号取模的平方得到离散功率谱，将离散功率谱通过滤波器滤波，对滤波后的信号取对数后进行DCT(DCT forDiscrete Cosine Transform，离散余弦变换)转化，得到MFCC初始信号。

S2：得到MFCC初始信号后，需要分别提高MFCC初始信号在低频、中频和高频的信号精度，具体流程为：

根据MFCC初始信号的低频频域信号f1，计算MFCC初始信号的低频频率fl，计算公式为：

高频频率fm计算公式的设计原理为：为了解决中频段的精度问题，就需要找到一种合适的、针对中频区域的Mel-Hz对应关系，这种对应关系需实现滤波器在低、高频区间分布稀疏，在中频区间分布相对密集，从而保证中频段的计算精度。通过上述公式计算出的fm正好吻合以上需求，而且依然采用对数函数的形式来保证中频段系数的计算精度。

根据MFCC初始信号的高频频域信号f3，计算MFCC初始信号的高频频率fh，计算公式为：转到S3。

高频频率fh计算公式的设计原理为：由于MFCC在提取中Mel滤波器的数量在低频区域多、在高频区域少，使得MFCC随着频率的提高，其计算精度随之下降。因此提出IMFCC(逆Mel倒谱频率系数)，即高频频率fh；IMFCC参照Me域构建了一种与Mel域尺度相反的新结构，使得滤波器在低频区分布的个数减少，在高频区的数量增加。

其中N代表语音信号进行FFT变换时的点数，F_s代表阻带截止频率(F_s为常量)，Q^-1代表fm的反函数，Q(fl)代表将fl作为f2后根据fm的计算公式计算fm，Q(fh)代表将fh作为f2后根据fm的计算公式计算fm，H代表语音设别中需要使用的滤波器的个数，转到S4。

S4：对MFCC特征参数F进行降维，得到MFCC降维特征参数F_降，以进一步提高识别精度，计算公式为：

其中σ_between为类间离散度，表示某一组语音信号之间的第k维MFCC特征参数的类间方差的和；σ_within为类内离散度，表示某一个语音信号的第k维MFCC特征参数的类内方差的和；M代表语音样本的总数，n_i代表语音信号i拥有的语音样本的个数，代表语音信号i的第k维MFCC特征参数的均值，μ_k为语音信号中第k维MFCC特征参数的均值；代表语音信号i的第j段语音样本的第k维MFCC特征参数法分量，代表语音信号i的第i段语音样本的第k维MFCC特征参数法分量。

S4的原理为：MFCC特征参数一般要需要20到30维才能保证语音识别***的识别率，MFCC特征参数维数的取值越大则语音信号的特征就越精确，但是因为特征参数的每一维分量对语音识别***的贡献度是不一样的，这样特征参数中一般会存在很多的无用信息甚至干扰信息，即影响***的时效性，又影响***的识别率。因此将MFCC特征参数进行降维，以选取MFCC特征参数中的有效维。

本发明实施例还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述MFCC语音识别方法。需要说明的是，所述存储介质包括U盘、移动硬盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

参见图2所示，本发明实施例还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现上述MFCC语音识别方法。

本发明实施例提供的MFCC语音识别***，包括语音信号预处理模块、MFCC初始信号频率计算模块、MFCC特征参数融合模块和MFCC特征参数降维模块。

语音信号预处理模块用于：对需要语音识别的语音信号进行预处理，得到MFCC初始信号，向MFCC初始信号频率计算模块发送MFCC初始信号频率计算信号；具体流程为：对语音信号进行预加重、分帧和加窗处理，得到语音信号；将语音信号进行FFT变换，得到频域信号；将频域信号取模的平方得到离散功率谱，将离散功率谱通过滤波器滤波，对滤波后的信号取对数后进行DCT转化，得到MFCC初始信号。

根据MFCC初始信号的高频频域信号f3，计算MFCC初始信号的高频频率fh，计算公式为：向MFCC特征参数融合模块发送MFCC特征参数融合信号。

其中N代表语音信号进行FFT变换时的点数(N的具体取值可根据本领域现有技术得出)，F_s代表阻带截止频率，F_s为常量，Q^-1代表fm的反函数，Q(fl)代表将fl作为f2后根据fm的计算公式计算fm，Q(fh)代表将fh作为f2后根据fm的计算公式计算fm，H代表语音设别中需要使用的滤波器的个数，向MFCC特征参数降维模块发送MFCC特征参数降维信号。

MFCC特征参数降维模块用于：收到MFCC特征参数降维信号后，对MFCC特征参数进行降维，得到MFCC降维特征参数F_降，计算公式为：

需要说明的是：本发明实施例提供的***在进行模块间通信时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将***的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

进一步，本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种MFCC语音识别方法，其特征在于，该方法包括以下步骤：

根据MFCC初始信号的高频频域信号f3，计算MFCC初始信号的高频频率fh，计算公式为：

转到S3；

2.如权利要求1所述的MFCC语音识别方法，其特征在于，S3之后还包括以下步骤：S4：对MFCC特征参数F进行降维，得到MFCC降维特征参数F_降，计算公式为：σ_between为类间离散度，表示语音信号的第k维MFCC特征参数的类间方差的和；σ_within为类内离散度，表示语音信号的第k维MFCC特征参数的类内方差的和。

3.如权利要求2所述的MFCC语音识别方法，其特征在于：

<mrow> <msub> <mi>&sigma;</mi> <mrow> <mi>b</mi> <mi>e</mi> <mi>t</mi> <mi>w</mi> <mi>e</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>&mu;</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>,</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>w</mi> <mi>i</mi> <mi>t</mi> <mi>h</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <mo>&lsqb;</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>&rsqb;</mo> <mo>;</mo> </mrow>

其中M代表语音样本的总数，n_i代表语音信号i拥有的语音样本的个数，代表语音信号i的第k维MFCC特征参数的均值，μ_k为语音信号中第k维MFCC特征参数的均值；代表语音信号i的第j段语音样本的第k维MFCC特征参数法分量，代表语音信号i的第i段语音样本的第k维MFCC特征参数法分量。

4.如权利要求1至3所述的MFCC语音识别方法，其特征在于，S1的流程包括：对语音信号进行预加重、分帧和加窗处理，得到语音信号；将语音信号进行FFT变换，得到频域信号；将频域信号取模的平方得到离散功率谱，将离散功率谱通过滤波器滤波，对滤波后的信号取对数后进行DCT转化，得到MFCC初始信号。

5.一种存储介质，该存储介质上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至4任一项所述的方法。

6.一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，其特征在于：处理器执行计算机程序时实现权利要求1至4任一项所述的方法。

7.一种MFCC语音识别***，其特征在于：该***包括语音信号预处理模块、MFCC初始信号频率计算模块和MFCC特征参数融合模块；

向MFCC特征参数融合模块发送MFCC特征参数融合信号；

8.如权利要求7所述的MFCC语音识别***，其特征在于，该***还包括MFCC特征参数降维模块，其用于：在MFCC特征参数融合模块工作完成后，对MFCC特征参数进行降维，得到MFCC降维特征参数F_降，计算公式为：σ_between为类间离散度，表示语音信号的第k维MFCC特征参数的类间方差的和；σ_within为类内离散度，表示语音信号的第k维MFCC特征参数的类内方差的和。

9.如权利要求8所述的MFCC语音识别***，其特征在于：

10.如权利要求7至9所述的MFCC语音识别***，其特征在于：所述语音信号预处理模块的工作流程包括：对语音信号进行预加重、分帧和加窗处理，得到语音信号；将语音信号进行FFT变换，得到频域信号；将频域信号取模的平方得到离散功率谱，将离散功率谱通过滤波器滤波，对滤波后的信号取对数后进行DCT转化，得到MFCC初始信号。