CN104992707A

CN104992707A - 一种腭裂语音喉塞音自动识别算法及装置

Info

Publication number: CN104992707A
Application number: CN201510257555.9A
Authority: CN
Inventors: 何凌; 谭洁; 尹恒; 刘奇; 郭春丽; 严苗
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2015-05-19
Filing date: 2015-05-19
Publication date: 2015-10-21

Abstract

本发明公开了一种腭裂语音喉塞音自动识别算法及装置，涉及语音分析、识别技术领域，旨在提供一种喉塞音自动识别方法及装置，采用计算机自动识别腭裂语音喉塞音，为患者和语音师提供有效的客观辅助诊断，有助于腭裂语音评估与语音治疗的广泛普及。本发明技术要点：步骤1：采集待测音节语音信号；步骤2：对所述音节语音信号进行声韵母切分，保留声母语音信号；步骤3：提取所述声母语音信号的特征值；步骤4：将所述特征值送入训练过的识别模型中，识别模型根据所述特征值判断所述音节语音信号中是否存在喉塞音。

Description

一种腭裂语音喉塞音自动识别算法及装置

技术领域

本发明涉及语音分析、识别技术领域，尤其是一种腭裂语音喉塞音自动识别算法及装置。

背景技术

唇腭裂是最常见的先天性颅颌面畸形，我国拥有世界上最多的唇腭裂人群。与唇裂不同的是，腭裂最大的影响不仅是面部形态上的缺陷，而且由于不同程度的上腭部骨组织和软组织的缺损和畸形，造成患者语音语言、吮吸、进食等功能障碍，严重影响人口生存质量。通常，在一期腭裂修复手术后，仍有大量患者存在不同程度的语音障碍。对腭裂语音障碍的治疗是腭裂序列治疗模式中的重要环节。

目前，对腭裂语音的评估由专业语音师的主观判听实现，这种方法易受语音师的临床经验及主观状态等因素影响。

腭裂语音的临床表现主要包括共鸣障碍与构音障碍。其中，共鸣障碍的主要临床表现为高鼻音、鼻漏气等；构音障碍的主要临床表现为辅音省略、代偿、弱化，替代等。其中，代偿性构音异常是腭裂患者最常见的错误构音方法之一，其发音原理是腭裂患者发辅音时，由于口腔气流经闭合不全的腭咽口分流至鼻腔，出现鼻漏气和口内压力不足，导致他们为了在气流之前利用咽腔里的气流发音，从而学会以一种方式代偿性发音。喉塞音是临床最常见的代偿性构音形式，对语音清晰度影响最大，可以发生在全部的压力性辅音，听觉感知上，患者音质“硬、短”，模糊不清。而长期的影响会造成声带增厚、小结，声嘶、沙哑。由于代偿性构音与腭咽功能紧密相关，其直接映射腭咽功能的程度，因此对其准确评估具有重要临床意义。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种喉塞音自动识别方法及装置，采用计算机自动识别腭裂语音喉塞音，为患者和语音师提供有效的客观辅助诊断，有助于腭裂语音评估与语音治疗的广泛普及。

本发明提供的腭裂语音喉塞音自动识别算法，包括：

步骤1：采集待测音节语音信号；

步骤2：对所述音节语音信号进行声韵母切分，保留声母语音信号；

步骤3：提取所述声母语音信号的特征值；

步骤4：将所述特征值送入训练过的识别模型中，识别模型根据所述特征值判断所述音节语音信号中是否存在喉塞音。

所述步骤2进一步包括：

步骤21：对音节语音信号进行加窗分帧得到若干语音帧x_i[n]，i取1、2、3…M；

步骤22：计算每个语音帧的短时能量E_i及短时过零率Z_i；

步骤23：计算相邻两帧的能量差e(i)和过零率差z(i)：e(i)＝E_i+1-E_i,i＝1,2,…,M-1，z(i)＝Z_i+1-Z_i,i＝1,2,…,M-1；

步骤24：将每个能量差e(i)与阈值T1进行比较，将每个过零率差z(i)与阈值T2比较；当满足e(i)≥T1，同时z(i)≤T2时，设此时i＝I；则取语音帧x_i[n]，i取1、2、3…I为音节语音信号的声母语音信号。

所述步骤3提取的声母语音信号特征值包括以下特征值中的一种或多种：频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值、小波包变换与信息熵特征值；其中，

提取声母语音信号的频谱能量加强段特征值：计算每帧声母语音帧的第一到第五频谱能量加强段特征值；计算全部声母语音帧的第一频谱能量加强段特征值均值作为声母语音信号的第一频谱能量加强段特征值，以此类推，计算得到声母语音信号的第二到第五频谱能量加强段特征值；

提取声母语音信号的MFCC声学特征值：计算每帧声母语音帧的MFCC声学特征值，其中MFCC系数值取12，得到每帧声母语音帧的12个MFCC特征值；将全部声母语音信号帧的第一MFCC特征值的平均值作为声母语音信号的第一MFCC特征值，以此类推，计算得到声母语音信号的第二到第十二MFCC特征值；

提取声母语音信号的临界频段短时功率谱特征值：对每帧声母语音帧进行短时傅里叶变换，得到每帧声母语音帧的短时功率谱；按照临界频段划分规则将每帧声母语音帧的短时功率谱划分为20个临界频段；将全部声母语音帧的第一临界频段的功率叠加在一起得到声母语音信号的第一临界频段短时功率谱特征值，以此类推得到第二到第二十临界频段短时功率谱特征值；

提取声母语音信号的小波变换与信息熵特征值：对每帧声母语音帧进行三层小波变换，对三层小波分解后的信号进行重构得到4个重构后的信号，计算每个重构后的信号的信息熵；将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波变换与信息熵特征值，以此类推，计算得到声母语音信号的第二到第四小波变换与信息熵特征值；

提取声母语音信号的小波包变换与信息熵特征值：对每帧声母语音帧进行三层小波包变换，对三层小波包分解后的信号进行重构得到8个重构后的信号，计算每个重构后的信号的信息熵；将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波包变换与信息熵特征值，以此类推，计算得到声母语音信号的第二到第六小波变换与信息熵特征值。

步骤4进一步包括：

选取已知包含喉塞音的音节语音信号若干组成真训练样本集，选取已知不包含喉塞音的音节语音信号若干组成假训练样本集；

提取两个训练样本集的每个样本的频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值及小波包变换与信息熵特征值；

获取步骤3得到的待测音节语音信号的声母语音信号特征值；

计算该待测音节语音信号的声母语音信号特征值与各个训练样本的距离：；

D 1 = \sqrt{Σ_{l = 1}^{5} a {(x_{l} - y_{l})}^{2} + Σ_{l = 6}^{17} b {(x_{l} - y_{l})}^{2} + Σ_{l = 18}^{37} c {(x_{l} - y_{l})}^{2} + Σ_{l = 38}^{41} d {(x_{l} - y_{l})}^{2} + Σ_{l = 42}^{49} e {(x_{l} - y_{l})}^{2}} .

选取离待测音节语音信号的声母语音信号特征值距离最短的若干训练样本，其中属于真训练样本集的训练样本最多时则认为所述待测音节语音信号中含有喉塞音；

其中：x_l，l取1～5，为待测音节语音信号的第一到第五频谱能量加强段特征值；

x_l，l取6～17，为待测音节语音信号的第一到第十二MFCC声学特征值；

x_l，l取18～37，为待测音节语音信号的第一到第二十临界频段短时功率谱特征值；

x_l，l取38～41，为待测音节语音信号的第一到第四小波变换与信息熵特征值；

x_l，l取42～49，为待测音节语音信号的第一到第八小波包变换与信息熵特征值；

y_l，l取1～5，为训练样本的第一到第五频谱能量加强段特征值；

y_l，l取6～17，为训练样本的第一到第十二MFCC声学特征值；

y_l，l取18～37，为训练样本的第一到第二十临界频段短时功率谱特征值；

y_l，l取38～41，为训练样本的第一到第四小波变换与信息熵特征值；

y_l，l取42～49，为训练样本的第一到第八小波包变换与信息熵特征值；

a、b、c、d、e为权值。

优选地，所述权值的取值获取方法包括：

选取已知包含喉塞音的音节语音信号若干组成真样本空间，选取已知不包含喉塞音的音节语音信号若干组成假样本空间；

提取两个样本空间的每个样本的频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值及小波包变换与信息熵特征值；

以两个样本空间的样本的频谱能量加强段特征值为KNN识别模型的样本；此时的KNN识别模型的识别正确率为a；

以两个样本空间的样本的MFCC声学特征值为KNN识别模型的样本；此时的KNN识别模型的识别正确率为b；

以两个样本空间的样本的临界频段短时功率谱特征值为KNN识别模型的样本；此时的KNN识别模型的识别正确率为c；

以两个样本空间的样本的小波变换与信息熵特征值为KNN识别模型的样本；此时的KNN识别模型的识别正确率为d；

以两个样本空间的样本的小波包变换与信息熵特征值为KNN识别模型的样本；此时的KNN识别模型的识别正确率为e。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明实现了腭裂语音喉塞音的计算机自动识别。

2.提出了改进的KNN分类模型，识别准确率高达93.1％。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为本发明算法流程图。

图2为本发明中临界频段短时功率谱特征值提取流程图。

图3为本发明中小波/小波包变换与信息熵特征值提取流程图。

图4为本发明中三层小波变换的树形结构示意图。

图5为本发明中对每帧语音信号计算小波变换与信息熵特征值的流程图。

图6为本发明中三层小波包变换的树形结构示意图。

图7为本发明中对每帧语音信号计算小波包变换与信息熵特征值的流程图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

如图1，首先，对输入的腭裂语音进行分帧和加窗的预处理。由于喉塞音只发生在音节的声母部分，因此算法首先实现声韵母的切分，自动识别算法只对声母部分的语音帧进行。

对声母部分的语音信号进行特征值提取。

本算法中，模式识别分类器采用K最近邻(KNN:k-Nearest Neighbor)分类算法、改进的KNN分类算法、支持向量机(SVM:Support Vector Machines)分类算法，实现对语音信号有无喉塞音两种类别的自动识别。

其中，基于KNN、改进KNN、支持向量机的自动识别***分为两个主要部分：模型训练和测试部分。在训练阶段，经预处理后的已知是否含有喉塞音的语音信号，提取声学特征值，该特征值作为训练样本训练模式识别分类器(分别为：KNN、改进的KNN、SVM分类器)，使其具备识别能力。在测试阶段，对输入的待测语音信号经过预处理后，提取相同的声学特征值提取，通过训练好的识别模型得到对有无喉塞音两种类别实现自动判别。

下面具体阐述各个步骤的实现过程：

1语音信号的分帧和加窗

语音信号的产生依赖于发音器官的协调作用，是一种准周期性的振动信号。语音信号为非平稳随机信号，但是一般认为语音信号在约10～30ms时间范围具有短时平稳特性。

腭裂语音中，喉塞音仅发生在声母部分。在本算法中，对一个音节的声韵母进行切分，得到声母部分的语音信号，其自动识别算法仅对声母语音信号进行。由于大部分声母的发音时长较短，如：通常情况下，不送气塞音音长在0～32ms的范围内；擦音音长在90ms～220.3ms之间；不送气塞擦音、送气塞音、送气塞擦音的音长在0～220.3ms之间；浊声母时长在0～124ms之间。考虑到有部分声母发音时长较短，每帧语音信号的时长选择为10ms，帧移为1/2个帧长。

本算法中采用的分帧窗为汉明(Hamming)窗，在时域，语音信号乘以窗函数，得到分帧加窗信号。由于语音信号的采样频率为16000Hz，即每帧语音信号长度为160个点，帧移长度为80个点。

2声母和韵母的切分

普通话中，一个汉字的发音即为一个音节。一个完整的音节包含声母和韵母部分。声母有辅音构成，按发音方法，可以分为塞音、塞擦音、擦音、鼻音和边音。普通话中，共有21个声母。大部分声母为清音，只有部分声母为浊音。韵母由元音和复合元音构成。元音的发音带有声带的振动，属浊音。

由于声母和韵母的发音特性存在区别，算法基于声韵母发音特性的差异，通过短时能量和短时过零率参数的突变点来进行声韵母切分，短时能量和短时过零率的突变点处即为声韵母切分点。其算法步骤如下：

(1)设输入的一个汉字的语音信号为x，其信号总长度为L。对该语音信号进行分帧和加窗处理，帧长为10ms(160个点)，帧移为5ms(80个点)。得到每帧语音信号为x_i[n],n＝1,2,…,160,i＝1,2,…,M。其中， floor表示向下取整。

(2)对每帧语音信号x_i[n]，计算短时能量E_i和短时过零率Z_i：

E_{i} = Σ_{n = 1}^{160} {x_{i}}^{2} [n];

Z_{i} = \frac{1}{2} Σ_{n = 1}^{160} | sgn (x_{i} [n]) - sgn (x_{i} [n - 1]) |;

式中，sgn为符号函数，即：

sgn (c) = \{\begin{matrix} 1, c &GreaterEqual; 0 \\ - 1, c < 0 \end{matrix}

(3)计算相邻两帧的能量差e(i)和过零率差z(i)，如下式：

e(i)＝E_i+1-E_i,i＝1,2,…,M-1

z(i)＝Z_i+1-Z_i,i＝1,2,…,M-1

将能量差e(i)和过零率差z(i)中的每个值与阈值T1，T2进行比较。当满足:

e(i)≥T1,同时z(i)≤T2时，设此时i＝I。则第I帧与I+1帧为语音信号声韵母分界线。取语音信号的前I帧，该部分为音节的声母部分。T1和T2的取值，经过大量实验，经验取值为：T1＝0.015,T2＝8。

3特征值提取

3.1频谱能量加强段声学特征值F

腭裂患者的发音装置是正常的，腭裂语音的产生主要发生于共鸣装置。基于经典的声源-滤波器模型，腭裂患者的声源激励***是正常的，发音过程在声道滤波器和口腔辐射处发生异常。共振峰参数是典型的声道滤波***的声学特征值，共振峰是表征元音的一个重要参数，而本文是对音节中的声母(辅音)进行处理，因此，本文采用频谱能量加强段作为声母的声学特征值。频谱能量加强段参数与共振峰参数物理意义类似，其计算方法相同。本文采用LPC(LPC：Linear Predictive Coding)法，实现对第一到第五频谱能量加强段的估计。根据上节中的声韵母切分算法，得到声母语音信号x_i[n]，i＝1,2,...,I。对每帧声母语音信号x_i[n]计算第一到第五频谱能量加强段：F_i＝[f_{i_1},f_{i_2},f_{i_3},f_{i_4},f_{i_5}],i＝1,2,...,I。对声母部分的所有语音帧的第一到第五频谱能量加强段，分别求取平均值，得到声母部分语音信号的频谱能量加强段特征值为：

F＝[f₁,f₂,f₃,f₄,f₅]。

3.2MFCC声学特征值

Mel倒频谱系数(MFCC:Mel-Frequence Cepstral Coefficients)基于人耳的听觉特性。MFCC声学特征值，通过对语音信号的同态处理，实现对声源激励信号和声道响应信息的分离。本算法中，MFCC系数值选择为12。

根据上节中的声韵母切分算法，得到声母语音信号x_i[n]，i＝1,2,...,I。对每帧声母语音信号x_i[n]计算MFCC特征值：M_i＝[m_{i_1},m_{i_2},...,m_{i_12}],i＝1,2,...,I。对声母部分的所有语音帧的MFCC参数求取平均值，得到声母部分语音信号的MFCC声学特征值为：

M＝[m₁,m₂,m₃,m₄,m₅,m₆,m₇,m₈,m₉,m₁₀,m₁₁,m₁₂]。

3.3基于临界频段与短时功率谱的声学特征值PSCB

本算法提出了基于临界频段与短时能量的声学特征值(PSCB PowerSpectrum in Critical Bands)。其算法流程如图2所示：

根据上节中的声韵母切分算法，得到声母语音信号x_i[n]，i＝1,2,...,I。对每帧声母语音信号x_i[n]进行短时傅里叶变换，其中，离散傅里叶变换的点数为8192：

X_{i} [k] = Σ_{n = 0}^{N - 1} x_{i} [n] e^{- j \frac{2 π}{N} k}

由短时傅里叶变换，计算每帧声母语音信号的短时功率谱：

S_{i} [k] = X_{i} [k] \cdot X_{i}^{*} [k] = {| X_{i} [k] |}^{2}

则每个声母语音信号的短时功率谱为矩阵：

S = (\begin{matrix} S_{1} [k] \\ S_{2} [k] \\ . . . \\ S_{I} [k] \end{matrix}) .

临界频带为根据人耳的听觉特性划分的，属本领域公知的标准。临界频带的频率和带宽如表1所示。

表1 临界频带的频率和带宽(赫兹Hz)

临界频带	低端频率	高端频率	带宽	临界频带	低端频率	高端频率	带宽
								0	0	100	100	11	1480	1720	240
11	100	200	100	12	1720	2000	280
								2	200	300	100	13	2000	2320	320
3	300	400	100	14	2320	2700	380
								4	400	510	110	15	2700	3150	450
5	510	630	120	16	3150	3700	550
								6	630	770	140	17	3700	4400	700
7	770	920	150	18	4400	5300	900
								8	920	1080	160	19	5300	6400	1100
9	1080	1270	190	20	6400	7700	1300
								10	1279	1480	210

对声母语音信号的短时功率谱矩阵S，基于临界频带的频率和带宽，对S矩阵进行频带划分，共划分为20个频段。计算每个频段内的功率幅值和p_j,j＝1,2,...,20，最后得到对声母语音信号的基于临界频段与短时能量的声学特征值:PSCB＝(p₁,p₂,…,p₂₀)。

3.4基于小波及小波包变换与信息熵的声学特征值

从小波分析上看，信号分析是一种多分辨率分析，通过滤波器组实现。每一级分解把该级输入信号分解成一个低频的粗略逼近(概貌)和一个高频的细节部分。信号的重构是分解的逆过程。随着小波尺度的变化，可实现由粗及精对事物进行多尺度分析。根据多分辨率理论，Mallat提出了小波分解与重构的快速算法，称为Mallat算法。本算法采用Mallat算法实现小波和小波包的分解与重构。

本算法提出了基于小波及小波包变换与信息熵的声学特征值(WTE:Wavelet Transform based Entropy,WPE:Wavelet Packet based Entropy)。其算法流程如图3所示。

WTE:根据上节中的声韵母切分算法，得到声母语音信号x_i[n]，i＝1,2,...,I。对每帧语音信号进行3层小波分解(小波分解树形结构图如图4所示)，对小波分解的叶子节点进行重构，重构后的信号为对每个重构后的信号，计算其信息熵(其过程如图5所示)，其计算公式为：

g_{1} = - Σ_{h} {c_{3}^{0}}^{2} (h) \log {{c_{3}^{0}}^{2} (h)};

g_{1} = - Σ_{h} {c_{3}^{1}}^{2} (h) \log {{c_{3}^{1}}^{2} (h)};

g_{2} = - Σ_{h} {c_{2}^{1}}^{2} (h) \log {{c_{2}^{1}}^{2} (h)};

g_{3} = - Σ_{h} {c_{1}^{1}}^{2} (h) \log {{c_{1}^{1}}^{2} (h)} .

WPE:根据上节中的声韵母切分算法，得到声母语音信号x_i[n]，i＝1,2,...,I。对每帧语音信号进行3层小波包分解(小波包树结构如图6所示)，对第3层小波包分解后的信号进行重构。于WTE算法相似，重构后的信号为对每个重构后的信号，计算其信息熵(其过程如图7所示)，其计算公式为：

e_{w} = - Σ_{r} {d_{3}^{w}}^{2} (r) \log {{d_{3}^{w}}^{2} (r)}, w = 0,1, . . 7 .

4模式识别算法

4.1经典的KNN分类算法

KNN算法是经典的模式识别方法之一，其基本思想是：待测样本在特征空间中寻找最接近测试样本的K个训练样本，对寻找到K个训练样本进行统计和分析，找到数量最多的类别或相似度最高的类别。该测试样本被判别为属于此类别。

本文所用的KNN识别算法中，最近邻的个数K取值为5。其计算步骤如下：

(1)采集已知含有喉塞音的音节语音信号及已知不含有喉塞音的音节语音信号作为训练样本，其中有喉塞音的音节语音信号组成一类样本集，无喉塞音的音节语音信号组成另一类样本集，每一个类别记作C_i(i＝1,2)。

(2)对待测样本和训练样本，计算相同的声学特征值：第3节中列举的特征值中的一种。

(3)计算待测样本与所有训练样本的距离，其距离的计算公式如下：其中x为待测样本特征值，y为训练样本特征值，N为特征值个数。

(4)对待测样本到所有训练样本的距离进行排序，取前5个最接近待测样本的训练样本，这5个训练样本所属的类别中，数量最多的类别C_i即为该待测样本的类别。

4.2改进的KNN分类算法

本算法对KNN算法进行改进，提出对类内的特征值进行加权。

(1)对训练样本和待测样本，计算相同的声学特征值：F、MFCC、PSCB、WTE、WPE。将这个五个声学特征值顺序拼接为一个向量，作为特征值。对于每个声母语音信号，各参数的维数分别为：F：5维、MFCC：12维、PSCB：20维、WTE：4维、WPE：8维。

(2)计算待测样本与所有训练样本的距离。在计算待测样本到各个训练样本距离的时候，对各声学特征值赋不同权值。F赋权值a，、MFCC赋权值b，PSCB赋权值c，WTE赋权值d，WPE赋权值e。其距离的计算公式改进为：

D 1 = \sqrt{Σ_{l = 1}^{5} a {(x_{l} - y_{l})}^{2} + Σ_{l = 6}^{17} b {(x_{l} - y_{l})}^{2} + Σ_{l = 18}^{37} c {(x_{l} - y_{l})}^{2} + Σ_{l = 38}^{41} d {(x_{l} - y_{l})}^{2} + Σ_{l = 42}^{49} e {(x_{l} - y_{l})}^{2}}

(3)各声学特征值对应的权值优选为：应用KNN分类器时，各声学特征值取得的对有无喉塞音两种类别判别的正确率。即，以两个样本空间的样本的频谱能量加强段特征值为KNN识别模型的样本，此时的KNN识别模型的识别正确率为a；以两个样本空间的样本的MFCC声学特征值为KNN识别模型的样本，此时的KNN识别模型的识别正确率为b；以两个样本空间的样本的临界频段短时功率谱特征值为KNN识别模型的样本，此时的KNN识别模型的识别正确率为c；以两个样本空间的样本的小波变换与信息熵特征值为KNN识别模型的样本，此时的KNN识别模型的识别正确率为d；以两个样本空间的样本的小波包变换与信息熵特征值为KNN识别模型的样本，此时的KNN识别模型的识别正确率为e。

4.3SVM模式识别算法

支持向量机(Support Vector Machines,SVM)模式识别分类算法广泛应用于语音信号处理。SVM基于结构风险最小化原理构建一个最优决策的超平面，使该平面两侧距平面最近的两类样本之间的距离最大化，从而对分类问题提供良好的泛化能力。SVM对二分类分类问题效果显著。SVM常见的核函数有多项式函数、径向基函数、多层感知机等。高斯核函数为最常用的径向基函数，具有相当高的灵活性。一些研究也表明该核函数对语音信号处理得到较好效果。本文使用高斯核函数，实现对有无喉塞音两种类别的判别。其计算步骤如下：

(1)对待测样本与训练样本，计算相同的声学特征值：如频谱能量加强段特征值F。

(2)应用训练样本的频谱能量加强段特征值，对SVM模型进行训练。

(3)将测试样本的频谱能量加强段特征值值，输入训练好的SVM，得到计算机自动判别结果。

本算法中的训练样本集包含了4-11岁儿童腭裂患者的腭裂语音。录音在专业录音室中进行，录音的时侯，要求说话者保持最自然、最习惯的发音方式。说话者嘴唇距离Creative Hs300数字化麦克风5cm左右，以约每2s/音节的速度发“四川大学华西口腔医院语音治疗中心普通话构音测量表”中的音节。本文所用腭裂语音数据库包含儿童女性腭裂患者语音28份、儿童男性腭裂患者语音30份。采集到的腭裂语音由3名专业语音师各自独立判听，对每个音节(汉字)中，声母部分是否发生喉塞音给出判定。

5正确率验证实验

本发明采用10次k折交叉验证(k-fold cross validation)对第4节中的各类模型的识别正确率进行验证。k的取值为10。取包含喉塞音与不包含喉塞音的音节语音信号300份(由专业语音师判听对每个音节(汉字)中，声母部分是否发生喉塞音给出判定)，将这300份音节语音信号为标准样本。按照前述方法提取标准样本的各种特征值。

5.1经典的KNN分类算法验证

将300份标准样本随机分为十份，轮流将其中9份作为训练样本，剩下的1份作为测试样本。

利用经典的KNN分类算法识别测试样本是否含有喉塞音，将识别结果与专业语音师的判听结果进行比较，计算这一份测试样本中识别结果为正确的个数，计算正确率。

将第二份作为测试样本，其余9份作为训练样本，计算识别结果的正确率；以此类推，将剩余八份依次作为测试样本，剩余9份样本作为训练样本计算识别结果的正确率。

这样遍历一次后，得到10个正确率，计算这10个正确率的均值。

再将这300份标准样本随机分为十份，依次将每一份作为测试样本，剩余九份作为训练样本，得到10个正确率，计算这10个正确率的均值。依次类推，再做8次这样的随机划分及正确率均值计算。最后得到10个正确率均值，再将这10个正确率均值再求均值，便得到该识别模型的正确率。

5.2改进的KNN分类算法验证

与5.1节方法类似，所不同的是将样本特征值替换为改进的KNN分类模型的特征值，将识别模型替换为改进的KNN分类模型。计算该模型的正确率。

5.3SVM模式识别算法

与5.1节方法类似，将识别模型替换为SVM识别模型。计算该模型的正确率。

最后得出各类识别模型的识别正确率，参见表2。可见改进后的KNN分类模型的正确率最高。

表2 腭裂语音有无喉塞音自动识别正确率

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种腭裂语音喉塞音自动识别算法，其特征在于，包括：

步骤1：采集待测音节语音信号；

步骤3：提取所述声母语音信号的特征值；

2.根据权利要求1所述的一种腭裂语音喉塞音自动识别算法，其特征在于，所述步骤2进一步包括：

步骤21：对音节语音信号进行加窗分帧得到若干语音帧x_i[n]，i取1、2、3…M，n取1、2、3…N，N为帧长；

步骤22：计算每个语音帧的短时能量E_i及短时过零率Z_i；

3.根据权利要求1所述的一种腭裂语音喉塞音自动识别算法，其特征在于，所述步骤3提取的声母语音信号特征值包括以下特征值中的一种或多种：频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值、小波包变换与信息熵特征值；其中，

提取声母语音信号的小波包变换与信息熵特征值：对每帧声母语音帧进行三层小波包变换，对三层小波包分解后的信号进行重构得到8个重构后的信号，计算每个重构后的信号的信息熵；将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波包变换与信息熵特征值，以此类推，计算得到声母语音信号的第二到第八小波变换与信息熵特征值。

4.根据权利要求3所述的一种腭裂语音喉塞音自动识别算法，其特征在于，步骤4进一步包括：

获取步骤3得到的待测音节语音信号的声母语音信号特征值；

计算该待测音节语音信号的声母语音信号特征值与各个训练样本的距离：

D 1 = \sqrt{Σ_{l = 1}^{5} a {(x_{l} - y_{1})}^{2} + Σ_{l = 6}^{17} b {(x_{l} - y_{l})}^{2} + Σ_{l = 18}^{37} c {(x_{l} - y_{l})}^{2} + Σ_{l = 38}^{41} d {(x_{l} - y_{l})}^{2} + Σ_{l = 42}^{49} e {(x_{l} - y_{l})}^{2}};

y_l，l取6～17，为训练样本的第一到第十二MFCC声学特征值；

a、b、c、d、e为权值。

5.根据权利要求4所述的一种腭裂语音喉塞音自动识别算法，其特征在于，所述权值的取值获取方法包括：

6.一种腭裂语音喉塞音自动识别装置，其特征在于，包括：

语音采集单元，用于采集待测音节语音信号；

声母提取单元，用于对所述音节语音信号进行声韵母切分，保留声母语音信号；声母特征值提取单元，用于提取所述声母语音信号的特征值；

识别单元，用于将所述特征值送入训练过的识别模型中，识别模型根据所述特征值判断所述音节语音信号中是否存在喉塞音。

7.根据权利要求6所述的一种腭裂语音喉塞音自动识别装置，其特征在于，所述声母提取单元进一步包括：

加窗分帧子单元，用于对音节语音信号进行加窗分帧得到若干语音帧x_i[n]，i取1、2、3…M，n取1、2、3…N，N为帧长；

短时能量计算单元，用于计算每个语音帧的短时能量E_i；

短时过零率计算单元，用于计算每个语音帧短时过零率Z_i；

能量差计算单元，用于计算相邻两帧的能量差e(i)：e(i)＝E_i+1-E_i,i＝1,2,…,M-1；

过零率差计算单元，用于计算相邻两帧的过零率差z(i)：z(i)＝Z_i+1-Z_i,i＝1,2,…,M-1；

比较单元，用于将每个能量差e(i)与阈值T1进行比较，将每个过零率差z(i)与阈值T2比较；当满足e(i)≥T1，同时z(i)≤T2时，设此时i＝I；则取语音帧x_i[n]，i取1、2、3…I为音节语音信号的声母语音信号。

8.根据权利要求6所述的一种腭裂语音喉塞音自动识别装置，其特征在于，声母特征值提取单元包括以下子单元中的一种或多种：

频谱能量加强段特征值提取子单元，用于计算每帧声母语音帧的第一到第五频谱能量加强段特征值；计算全部声母语音帧的第一频谱能量加强段特征值均值作为声母语音信号的第一频谱能量加强段特征值，以此类推，计算得到声母语音信号的第二到第五频谱能量加强段特征值；

MFCC声学特征值提取子单元，用于计算每帧声母语音帧的MFCC声学特征值，其中MFCC系数值取12，得到每帧声母语音帧的12个MFCC特征值；将全部声母语音信号帧的第一MFCC特征值的平均值作为声母语音信号的第一MFCC特征值，以此类推，计算得到声母语音信号的第二到第十二MFCC特征值；

临界频段短时功率谱特征值提取子单元，用于对每帧声母语音帧进行短时傅里叶变换，得到每帧声母语音帧的短时功率谱；按照临界频段划分规则将每帧声母语音帧的短时功率谱划分为20个临界频段；将全部声母语音帧的第一临界频段的功率叠加在一起得到声母语音信号的第一临界频段短时功率谱特征值，以此类推得到第二到第二十临界频段短时功率谱特征值；

小波变换与信息熵特征值提取子单元，用于对每帧声母语音帧进行三层小波变换，对三层小波分解后的信号进行重构得到4个重构后的信号，计算每个重构后的信号的信息熵；将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波变换与信息熵特征值，以此类推，计算得到声母语音信号的第二到第四小波变换与信息熵特征值；

小波包变换与信息熵特征值提取子单元，用于对每帧声母语音帧进行三层小波包变换，对三层小波包分解后的信号进行重构得到8个重构后的信号，计算每个重构后的信号的信息熵；将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波包变换与信息熵特征值，以此类推，计算得到声母语音信号的第二到第八小波包变换与信息熵特征值。

9.根据权利要求8所述的一种腭裂语音喉塞音自动识别装置，其特征在于，识别单元进一步包括：

样本空间搜集单元，用于选取已知包含喉塞音的音节语音信号若干组成真训练样本集，选取已知不包含喉塞音的音节语音信号若干组成假训练样本集；

样本特征值提取单元，用于提取两个训练样本集的每个训练样本的频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值及小波包变换与信息熵特征值；

待测音节语音信号特征值获取单元，用于接收声母特征值提取单元提取的待测音节语音信号的声母语音信号特征值；

距离计算单元，用于计算该待测音节语音信号的声母语音信号特征值与各个训练样本的距离：

D 1 = \sqrt{Σ_{l = 1}^{5} a {(x_{l} - y_{1})}^{2} + Σ_{l = 6}^{17} b {(x_{l} - y_{l})}^{2} + Σ_{l = 18}^{37} c {(x_{l} - y_{l})}^{2} + Σ_{l = 38}^{41} d {(x_{l} - y_{l})}^{2} + Σ_{l = 42}^{49} e {(x_{l} - y_{l})}^{2}};

y_l，l取6～17，为训练样本的第一到第十二MFCC声学特征值；

a、b、c、d、e为权值。

10.根据权利要求9所述的一种腭裂语音喉塞音自动识别装置，其特征在于，所述权值的取值获取方法包括：