CN106024010A

CN106024010A - 一种基于共振峰曲线的语音信号动态特征提取方法

Info

Publication number: CN106024010A
Application number: CN201610340935.3A
Authority: CN
Inventors: 韩志艳; 王健; 王东; 周建壮; 郭继宁; 刘继行; 曹丽
Original assignee: Bohai University
Current assignee: Bohai University
Priority date: 2016-05-19
Filing date: 2016-05-19
Publication date: 2016-10-12
Anticipated expiration: 2036-05-19
Also published as: CN106024010B

Abstract

本发明提出一种基于共振峰曲线的语音信号动态特征提取方法，属于汉语音信号动态特征提取技术领域。步骤为：采集语音信号；对语音信号进行预处理；提取语音信号共振峰频率特征；按照从第一帧到最后一帧的帧序，将预处理后的每帧语音信号的第一共振峰频率特征值进行组合获得第一共振峰曲线，依此类推，获得第二共振峰曲线、第三共振峰曲线及第四共振峰曲线；对获得的每条共振峰曲线进行快速傅里叶变换获得线性频谱；根据线性频谱获得能量谱；根据能量谱获得对数能量；对对数能量进行离散余弦变换。与现有方法相比，本发明提取的是语音信号动态特征，它具有时间相关性，揭示了语音信号前后以及相邻之间存在的密切关联，提高了语音识别的性能。

Description

一种基于共振峰曲线的语音信号动态特征提取方法

技术领域

本发明属于汉语音信号动态特征提取技术领域，具体涉及一种基于共振峰曲线的语音信号动态特征提取方法。

背景技术

我国语音识别研究工作起步于50年代，但直到70年代才开始迅速发展。中国科学院、清华大学、北京大学等多家研究单位在从事汉语语音识别***的开发，目前对大词汇量连续语音识别***的研究已经接近国外最高水平；在我国的“八五”计划和“863”计划中，汉语语音识别的研究得到了大力支持，国家863《智能计算机主题》专家组专门为语音识别研究立项，同时由于中国在国际上地位与日俱增，以及在经济和市场方面所处的重要地位，汉语语音识别也越来越被国外研究机构和公司重视，IBM、Microsoft、APPLE、Motorola、Intel、L&H等公司都在国内设立研究机构，相继投入到汉语语音识别***的开发中，强有力地推动了汉语语音识别研究的发展；

尽管如此，距离真正的人机自由交流的境界还很遥远；现在已有的商用***都存在着一些问题，比如对于噪声环境下的语音识别率和稳健性等都不尽如人意；

语音识别最基础最重要的开发环节是语音信号特征参数的提取；早在上世纪40年代，R.K.Potter等人提出了“Visible Speech”的概念，指出语谱图对语音信号有很强的描述能力，并且试着用语谱信息进行语音识别，这就形成了最早的语音特征。到了50年代，人们发现要对语音信号进行识别就必须从语音波形中提取能够反映语音特性的某些参数，这样不仅可以减小模板数目、运算量及存储量，而且可以滤除语音信号中无用的冗余信息，于是就出现了幅度、短时帧平均能量、短时帧过零率、短时自相关系数等。随着识别技术的发展，人们发现时域中的特征参数其稳定性和区分能力都不是很好，于是开始利用频域参数作为语音信号的特征，比如基音周期、共振峰频率、线性预测系数(LPC)、线谱对(LSP)、倒谱系数等，目前使用最为广泛的特征参数是基于人耳听觉模型的美尔倒谱系数(MFCC)；但是这些参数一旦应用于噪声环境时，其性能会急剧下降；

而且上面所提出的特征参数都反映语音的静态特征，语音信号的动态特性是指从连续几帧语音中提取的特征参数，比如可以通过静态特征的差分参数和加速度参数来获取，但差分参数和加速度参数并不能将动态信息挖掘得很充分，所以它们尚不能很好地反映语音信号的动态特性。

发明内容

针对现有技术的不足，本发明提出一种基于共振峰曲线的语音信号动态特征提取方法，以达到扩大应用领域、提高语音识别的性能、实现快速有效地掌握信号的动态特征和实现在强噪声环境下应用语音识别技术的目的。

一种基于共振峰曲线的语音信号动态特征提取方法，包括以下步骤：

步骤1、采集语音信号；

步骤2、对语音信号进行预处理，包括预加重、分帧加窗和端点检测；

步骤3、采用基于Hibert-Huang变换的方法，对预处理后语音信号的共振峰频率特征进行估算，获得每帧语音信号的第一共振峰特征值、第二共振峰特征值、第三共振峰特征值和第四共振峰特征值；

步骤4、构成共振峰曲线，具体为：

按照从第一帧到最后一帧的帧序，将预处理后的每帧语音信号的第一共振峰特征值进行组合获得第一共振峰曲线；

按照从第一帧到最后一帧的帧序，将预处理后的每帧语音信号的第二共振峰特征值进行组合获得第二共振峰曲线；

按照从第一帧到最后一帧的帧序，将预处理后的每帧语音信号的第三共振峰特征值进行组合获得第三共振峰曲线；

按照从第一帧到最后一帧的帧序，将预处理后的每帧语音信号的第四共振峰特征值进行组合获得第四共振峰曲线；

步骤5、对获得的第一共振峰曲线、第二共振峰曲线、第三共振峰曲线和第四共振峰曲线进行快速傅里叶变换，获得每条共振峰曲线的线性频谱；

步骤6、根据线性频谱获得每条共振峰曲线的能量谱；

步骤7、根据能量谱获得每条共振峰曲线的对数能量；

步骤8、对上述对数能量进行离散余弦变换获得倒频谱域，即获得语音信号动态特征参数。

步骤2所述的对语音信号进行预处理，包括预加重、分帧加窗和端点检测，其中，

所述的预加重：通过一阶数字预加重滤波器实现，预加重滤波器的系数取值范围为0.93～0.97；

所述的分帧加窗：以帧长256点进行分帧，并对分帧后的语音信号加汉明窗；

所述的端点检测：采用短时能零积法进行检测。

步骤5所述的对获得的第一共振峰曲线、第二共振峰曲线、第三共振峰曲线和第四共振峰曲线进行快速傅里叶变换，获得每条共振峰曲线的线性频谱；

具体公式如下：

X_{i} (k) = Σ_{n = 0}^{N - 1} x_{i} (n) e^{- j 2 π n k / N} - - - (1)

其中，X_i(k)表示第i个共振峰曲线进行快速傅里叶变换后得到的线性频谱；i＝1，2，3，4；k＝0，1，2，…，N-1，N为语音信号的帧数；x_i(n)表示第i个共振峰曲线；j是虚数单位，e为常数。

步骤8所述的对上述对数能量进行离散余弦变换获得倒频谱域，即获得语音信号动态特征参数；

具体公示如下：

C_{i} (t) = Σ_{k = 0}^{N - 1} L_{i} (k) c o s [\frac{π t (k + 0.5)}{N}] - - - (2)

其中，C_i(t)表示第i个共振峰曲线的动态特征参数；i＝1，2，3，4；t＝1，2，…，T，T表示设定的倒谱系数个数，取值范围为12～16；L_i(k)表示第i个共振峰曲线的对数能量；k＝0，1，2，…，N-1，N为语音信号的帧数。

本发明优点：

1、本发明获得的语音信号动态特征参数主要应用于计算机的听写机，以及与电话网或者互联网相结合的语音信息查询服务***，另外还可应用在小型化、便携式的语音产品中，如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面；

2、本发明提取的是语音信号动态特征，它具有时间相关性，揭示了语音信号前后以及相邻之间存在的密切关联，相比于传统的MFCC方法，大大提高了语音识别的性能；

3、本发明采用基于Hibert-Huang变换的方法来估算预处理后的语音信号共振峰频率特征，其中用经验模态分解法(EMD)将信号分解成一组含有不同尺度的固有模态函数(IMF)分量，经分解得到的每一个IMF分量都代表了一个频率成分，这些频率成分可以有效突出信号的局部特性和细节变化，这将有助于快速有效地掌握信号的动态特征；

4、本发明构成的共振峰曲线具有时间相关性，揭示了语音信号前后以及相邻之间存在着的密切关联；这一特性，使得在强噪声环境下应用语音识别技术成为了可能。

附图说明

图1为本发明一种实施例的基于共振峰曲线的语音信号动态特征提取方法流程图；

图2为本发明一种实施例的白噪声情况下参数识别性能曲线比较图；

图3为本发明一种实施例的粉噪声情况下参数识别性能曲线比较图；

图4为本发明一种实施例的街道噪声情况下参数识别性能曲线比较图；

图5为本发明一种实施例的坦克噪声情况下参数识别性能曲线比较图。

具体实施方式

下面结合附图对本发明一种实施例做进一步说明。

一种基于共振峰曲线的语音信号动态特征提取方法，方法流程图如图1所示，包括以下步骤：

步骤1、采集语音信号；

本发明实施例中，利用麦克风输入语音数据，并由计算机、单片机或DSP芯片等处理单元以11.025KHz的采样频率、16bit的量化精度进行采样量化，获得相应的语音信号；本发明实施例中采用计算机作为处理单元；

本发明实施例中，所述的预加重：通过一阶数字预加重滤波器实现，预加重滤波器的系数取值范围为0.93～0.97，本发明实施例中，取值为0.9375；所述的分帧加窗：以帧长256点进行分帧，并对分帧后的语音信号加汉明窗；所述的端点检测：采用短时能零积法进行检测；

步骤3、采用基于Hibert-Huang变换的方法，对预处理后语音信号的共振峰频率特征进行估算，获得每帧语音信号的第一共振峰特征值F1、第二共振峰特征值F2、第三共振峰特征值F3和第四共振峰特征值F4；

本发明实施例中，由快速傅里叶变换(FFT)初步估计出的语音信号的各阶共振峰频率确定相应带通滤波器的参数，并用该参数对语音信号作滤波处理，对滤波后的信号进行经验模态分解(EMD)得到一族固有模态函数(IMF)，按能量最大原则确定出含有共振峰频率的IMF，计算出该IMF的瞬时频率和Hilbert谱即得到语音信号的共振峰频率参数；

步骤4、构成共振峰曲线，具体为：

本发明实施例中，按照从第一帧到最后一帧的帧序，将预处理后的每帧语音信号的第一共振峰频率特征值F1进行组合获得第一共振峰曲线x₁(n)，n＝0，1，2，…，N-1，N为语音信号的帧数；按照从第一帧到最后一帧的帧序，将预处理后的每帧语音信号的第二共振峰频率特征值F2进行组合获得第二共振峰曲线x₂(n)；按照从第一帧到最后一帧的帧序，将预处理后的每帧语音信号的第三共振峰频率特征值F3进行组合获得第三共振峰曲线x₃(n)；按照从第一帧到最后一帧的帧序，将预处理后的每帧语音信号的第四共振峰频率特征值F4进行组合获得第四共振峰曲线x₄(n)；

本发明实施例中，具体公式如下：

X_{i} (k) = Σ_{n = 0}^{N - 1} x_{i} (n) e^{- j 2 π n k / N} - - - (1)

其中，X_i(k)表示第i个共振峰曲线进行快速傅里叶变换后得到的线性频谱；i＝1，2，3，4；k＝0，1，2，…，N-1，N为语音信号的帧数；x_i(n)表示第i个共振峰曲线；j是虚数单位，e为常数，近似值为2.7；

步骤6、根据线性频谱获得每条共振峰曲线的能量谱；

本发明实施例中，取上述线性频谱X_i(k)模的平方来获得相应的能量谱S_i(k)，公式如下：

S_i(k)＝|X_i(k)|² (3)

其中，S_i(k)表示第i个共振峰曲线的能量谱；

步骤7、根据能量谱获得每条共振峰曲线的对数能量；

本发明实施例中，为了使结果对噪声有更好的鲁棒性，将上述获得的能量谱S_i(k)取对数，即可获得对数能量L_i(k)，公式如下：

L_i(k)＝Log(S_i(k)) (4)

其中，L_i(k)是第i个共振峰曲线的对数能量；

具体公示如下：

C_{i} (t) = Σ_{k = 0}^{N - 1} L_{i} (k) c o s [\frac{π t (k + 0.5)}{N}] - - - (2)

其中，C_i(t)表示第i个共振峰曲线的动态特征参数；i＝1，2，3，4；t＝1，2，…，T，T表示设定的倒谱系数个数，取值范围为12～16，本发明实施例取T＝12；

本发明实施例中，采用50个典型的汉语词汇来进行实验；由于考虑识别***容易受环境噪声、信道变化和说话人变化等因素的影响，因此，本发明实施例的训练集采用安静环境下的语音数据，而测试集采用含有噪声的数据；

为了验证该特征参数对不同说话人变化的鲁棒性，训练集数据由前后两次录成，共50人，每人每词发音一遍，共获得5000个数据，测试集数据也是分两次录成，共30人，每人每词发音一遍，共3000个数据；为了验证该特征参数对不同信道变化的鲁棒性，每次使用不同的麦克风来录音；为了验证该特征参数对不同环境噪声变化的鲁棒性，本发明实施例在测试集的每个语音中手工加入了四种噪声，包括：白噪声、粉噪声、街道噪声、坦克噪声，构成信噪比为15dB，10dB，5dB，0dB，-5dB的含噪语音信号。

本发明实施例中采用基于遗传算法改进的小波神经网络来作为分类器，网络输入层有48个神经元，输出层有50个神经元，隐含层结点个数通过遗传算法确定；

本发明实施例中，图2、图3、图4和图5为采用与本发明实施例相同条件的MFCC方法和本发明实施例方法分别在白噪声、粉噪声、街道噪声和坦克噪声干扰下的***识别性能曲线；从图中可以看出，在信噪比较低的时候，本发明实施例方法与MFCC方法相比识别率提高了很多。

Claims

1.一种基于共振峰曲线的语音信号动态特征提取方法，其特征在于，包括以下步骤：

步骤1、采集语音信号；

步骤4、构成共振峰曲线，具体为：

步骤6、根据线性频谱获得每条共振峰曲线的能量谱；

步骤7、根据能量谱获得每条共振峰曲线的对数能量；

2.根据权利要求1所述的基于共振峰曲线的语音信号动态特征提取方法，其特征在于，步骤2所述的对语音信号进行预处理，包括预加重、分帧加窗和端点检测，其中，

所述的端点检测：采用短时能零积法进行检测。

3.根据权利要求1所述的基于共振峰曲线的语音信号动态特征提取方法，其特征在于，步骤5所述的对获得的第一共振峰曲线、第二共振峰曲线、第三共振峰曲线和第四共振峰曲线进行快速傅里叶变换，获得每条共振峰曲线的线性频谱；

具体公式如下：

X_{i} (k) = Σ_{n = 0}^{N - 1} x_{i} (n) e^{- j 2 π n k / N} - - - (1)

其中，X_i(k)表示第i个共振峰曲线进行快速傅里叶变换后得到的线性频谱；i＝1，2，3，4；k＝0，1，2，…，N-1，N为语音信号的帧数；x_i(n)表示第i个共振峰曲线，n＝0，1，2，…，N-1；j是虚数单位，e为常数。

4.根据权利要求1所述的基于共振峰曲线的语音信号动态特征提取方法，其特征在于，步骤8所述的对上述对数能量进行离散余弦变换获得倒频谱域，即获得语音信号动态特征参数；

具体公示如下：

C_{i} (t) = Σ_{k = 0}^{N - 1} L_{i} (k) \cos [\frac{π t (k + 0.5)}{N}] - - - (2)