CN104992707A - 一种腭裂语音喉塞音自动识别算法及装置 - Google Patents
一种腭裂语音喉塞音自动识别算法及装置 Download PDFInfo
- Publication number
- CN104992707A CN104992707A CN201510257555.9A CN201510257555A CN104992707A CN 104992707 A CN104992707 A CN 104992707A CN 201510257555 A CN201510257555 A CN 201510257555A CN 104992707 A CN104992707 A CN 104992707A
- Authority
- CN
- China
- Prior art keywords
- initial consonant
- sample
- value
- information entropy
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种腭裂语音喉塞音自动识别算法及装置,涉及语音分析、识别技术领域,旨在提供一种喉塞音自动识别方法及装置,采用计算机自动识别腭裂语音喉塞音,为患者和语音师提供有效的客观辅助诊断,有助于腭裂语音评估与语音治疗的广泛普及。本发明技术要点:步骤1:采集待测音节语音信号;步骤2:对所述音节语音信号进行声韵母切分,保留声母语音信号;步骤3:提取所述声母语音信号的特征值;步骤4:将所述特征值送入训练过的识别模型中,识别模型根据所述特征值判断所述音节语音信号中是否存在喉塞音。
Description
技术领域
本发明涉及语音分析、识别技术领域,尤其是一种腭裂语音喉塞音自动识别算法及装置。
背景技术
唇腭裂是最常见的先天性颅颌面畸形,我国拥有世界上最多的唇腭裂人群。与唇裂不同的是,腭裂最大的影响不仅是面部形态上的缺陷,而且由于不同程度的上腭部骨组织和软组织的缺损和畸形,造成患者语音语言、吮吸、进食等功能障碍,严重影响人口生存质量。通常,在一期腭裂修复手术后,仍有大量患者存在不同程度的语音障碍。对腭裂语音障碍的治疗是腭裂序列治疗模式中的重要环节。
目前,对腭裂语音的评估由专业语音师的主观判听实现,这种方法易受语音师的临床经验及主观状态等因素影响。
腭裂语音的临床表现主要包括共鸣障碍与构音障碍。其中,共鸣障碍的主要临床表现为高鼻音、鼻漏气等;构音障碍的主要临床表现为辅音省略、代偿、弱化,替代等。其中,代偿性构音异常是腭裂患者最常见的错误构音方法之一,其发音原理是腭裂患者发辅音时,由于口腔气流经闭合不全的腭咽口分流至鼻腔,出现鼻漏气和口内压力不足,导致他们为了在气流之前利用咽腔里的气流发音,从而学会以一种方式代偿性发音。喉塞音是临床最常见的代偿性构音形式,对语音清晰度影响最大,可以发生在全部的压力性辅音,听觉感知上,患者音质“硬、短”,模糊不清。而长期的影响会造成声带增厚、小结,声嘶、沙哑。由于代偿性构音与腭咽功能紧密相关,其直接映射腭咽功能的程度,因此对其准确评估具有重要临床意义。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种喉塞音自动识别方法及装置,采用计算机自动识别腭裂语音喉塞音,为患者和语音师提供有效的客观辅助诊断,有助于腭裂语音评估与语音治疗的广泛普及。
本发明提供的腭裂语音喉塞音自动识别算法,包括:
步骤1:采集待测音节语音信号;
步骤2:对所述音节语音信号进行声韵母切分,保留声母语音信号;
步骤3:提取所述声母语音信号的特征值;
步骤4:将所述特征值送入训练过的识别模型中,识别模型根据所述特征值判断所述音节语音信号中是否存在喉塞音。
所述步骤2进一步包括:
步骤21:对音节语音信号进行加窗分帧得到若干语音帧xi[n],i取1、2、3…M;
步骤22:计算每个语音帧的短时能量Ei及短时过零率Zi;
步骤23:计算相邻两帧的能量差e(i)和过零率差z(i):e(i)=Ei+1-Ei,i=1,2,…,M-1,z(i)=Zi+1-Zi,i=1,2,…,M-1;
步骤24:将每个能量差e(i)与阈值T1进行比较,将每个过零率差z(i)与阈值T2比较;当满足e(i)≥T1,同时z(i)≤T2时,设此时i=I;则取语音帧xi[n],i取1、2、3…I为音节语音信号的声母语音信号。
所述步骤3提取的声母语音信号特征值包括以下特征值中的一种或多种:频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值、小波包变换与信息熵特征值;其中,
提取声母语音信号的频谱能量加强段特征值:计算每帧声母语音帧的第一到第五频谱能量加强段特征值;计算全部声母语音帧的第一频谱能量加强段特征值均值作为声母语音信号的第一频谱能量加强段特征值,以此类推,计算得到声母语音信号的第二到第五频谱能量加强段特征值;
提取声母语音信号的MFCC声学特征值:计算每帧声母语音帧的MFCC声学特征值,其中MFCC系数值取12,得到每帧声母语音帧的12个MFCC特征值;将全部声母语音信号帧的第一MFCC特征值的平均值作为声母语音信号的第一MFCC特征值,以此类推,计算得到声母语音信号的第二到第十二MFCC特征值;
提取声母语音信号的临界频段短时功率谱特征值:对每帧声母语音帧进行短时傅里叶变换,得到每帧声母语音帧的短时功率谱;按照临界频段划分规则将每帧声母语音帧的短时功率谱划分为20个临界频段;将全部声母语音帧的第一临界频段的功率叠加在一起得到声母语音信号的第一临界频段短时功率谱特征值,以此类推得到第二到第二十临界频段短时功率谱特征值;
提取声母语音信号的小波变换与信息熵特征值:对每帧声母语音帧进行三层小波变换,对三层小波分解后的信号进行重构得到4个重构后的信号,计算每个重构后的信号的信息熵;将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波变换与信息熵特征值,以此类推,计算得到声母语音信号的第二到第四小波变换与信息熵特征值;
提取声母语音信号的小波包变换与信息熵特征值:对每帧声母语音帧进行三层小波包变换,对三层小波包分解后的信号进行重构得到8个重构后的信号,计算每个重构后的信号的信息熵;将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波包变换与信息熵特征值,以此类推,计算得到声母语音信号的第二到第六小波变换与信息熵特征值。
步骤4进一步包括:
选取已知包含喉塞音的音节语音信号若干组成真训练样本集,选取已知不包含喉塞音的音节语音信号若干组成假训练样本集;
提取两个训练样本集的每个样本的频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值及小波包变换与信息熵特征值;
获取步骤3得到的待测音节语音信号的声母语音信号特征值;
计算该待测音节语音信号的声母语音信号特征值与各个训练样本的距离:;
选取离待测音节语音信号的声母语音信号特征值距离最短的若干训练样本,其中属于真训练样本集的训练样本最多时则认为所述待测音节语音信号中含有喉塞音;
其中:xl,l取1~5,为待测音节语音信号的第一到第五频谱能量加强段特征值;
xl,l取6~17,为待测音节语音信号的第一到第十二MFCC声学特征值;
xl,l取18~37,为待测音节语音信号的第一到第二十临界频段短时功率谱特征值;
xl,l取38~41,为待测音节语音信号的第一到第四小波变换与信息熵特征值;
xl,l取42~49,为待测音节语音信号的第一到第八小波包变换与信息熵特征值;
yl,l取1~5,为训练样本的第一到第五频谱能量加强段特征值;
yl,l取6~17,为训练样本的第一到第十二MFCC声学特征值;
yl,l取18~37,为训练样本的第一到第二十临界频段短时功率谱特征值;
yl,l取38~41,为训练样本的第一到第四小波变换与信息熵特征值;
yl,l取42~49,为训练样本的第一到第八小波包变换与信息熵特征值;
a、b、c、d、e为权值。
优选地,所述权值的取值获取方法包括:
选取已知包含喉塞音的音节语音信号若干组成真样本空间,选取已知不包含喉塞音的音节语音信号若干组成假样本空间;
提取两个样本空间的每个样本的频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值及小波包变换与信息熵特征值;
以两个样本空间的样本的频谱能量加强段特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为a;
以两个样本空间的样本的MFCC声学特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为b;
以两个样本空间的样本的临界频段短时功率谱特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为c;
以两个样本空间的样本的小波变换与信息熵特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为d;
以两个样本空间的样本的小波包变换与信息熵特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为e。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明实现了腭裂语音喉塞音的计算机自动识别。
2.提出了改进的KNN分类模型,识别准确率高达93.1%。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明算法流程图。
图2为本发明中临界频段短时功率谱特征值提取流程图。
图3为本发明中小波/小波包变换与信息熵特征值提取流程图。
图4为本发明中三层小波变换的树形结构示意图。
图5为本发明中对每帧语音信号计算小波变换与信息熵特征值的流程图。
图6为本发明中三层小波包变换的树形结构示意图。
图7为本发明中对每帧语音信号计算小波包变换与信息熵特征值的流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1,首先,对输入的腭裂语音进行分帧和加窗的预处理。由于喉塞音只发生在音节的声母部分,因此算法首先实现声韵母的切分,自动识别算法只对声母部分的语音帧进行。
对声母部分的语音信号进行特征值提取。
本算法中,模式识别分类器采用K最近邻(KNN:k-Nearest Neighbor)分类算法、改进的KNN分类算法、支持向量机(SVM:Support Vector Machines)分类算法,实现对语音信号有无喉塞音两种类别的自动识别。
其中,基于KNN、改进KNN、支持向量机的自动识别***分为两个主要部分:模型训练和测试部分。在训练阶段,经预处理后的已知是否含有喉塞音的语音信号,提取声学特征值,该特征值作为训练样本训练模式识别分类器(分别为:KNN、改进的KNN、SVM分类器),使其具备识别能力。在测试阶段,对输入的待测语音信号经过预处理后,提取相同的声学特征值提取,通过训练好的识别模型得到对有无喉塞音两种类别实现自动判别。
下面具体阐述各个步骤的实现过程:
1语音信号的分帧和加窗
语音信号的产生依赖于发音器官的协调作用,是一种准周期性的振动信号。语音信号为非平稳随机信号,但是一般认为语音信号在约10~30ms时间范围具有短时平稳特性。
腭裂语音中,喉塞音仅发生在声母部分。在本算法中,对一个音节的声韵母进行切分,得到声母部分的语音信号,其自动识别算法仅对声母语音信号进行。由于大部分声母的发音时长较短,如:通常情况下,不送气塞音音长在0~32ms的范围内;擦音音长在90ms~220.3ms之间;不送气塞擦音、送气塞音、送气塞擦音的音长在0~220.3ms之间;浊声母时长在0~124ms之间。考虑到有部分声母发音时长较短,每帧语音信号的时长选择为10ms,帧移为1/2个帧长。
本算法中采用的分帧窗为汉明(Hamming)窗,在时域,语音信号乘以窗函数,得到分帧加窗信号。由于语音信号的采样频率为16000Hz,即每帧语音信号长度为160个点,帧移长度为80个点。
2声母和韵母的切分
普通话中,一个汉字的发音即为一个音节。一个完整的音节包含声母和韵母部分。声母有辅音构成,按发音方法,可以分为塞音、塞擦音、擦音、鼻音和边音。普通话中,共有21个声母。大部分声母为清音,只有部分声母为浊音。韵母由元音和复合元音构成。元音的发音带有声带的振动,属浊音。
由于声母和韵母的发音特性存在区别,算法基于声韵母发音特性的差异,通过短时能量和短时过零率参数的突变点来进行声韵母切分,短时能量和短时过零率的突变点处即为声韵母切分点。其算法步骤如下:
(1)设输入的一个汉字的语音信号为x,其信号总长度为L。对该语音信号进行分帧和加窗处理,帧长为10ms(160个点),帧移为5ms(80个点)。得到每帧语音信号为xi[n],n=1,2,…,160,i=1,2,…,M。其中, floor表示向下取整。
(2)对每帧语音信号xi[n],计算短时能量Ei和短时过零率Zi:
式中,sgn为符号函数,即:
(3)计算相邻两帧的能量差e(i)和过零率差z(i),如下式:
e(i)=Ei+1-Ei,i=1,2,…,M-1
z(i)=Zi+1-Zi,i=1,2,…,M-1
将能量差e(i)和过零率差z(i)中的每个值与阈值T1,T2进行比较。当满足:
e(i)≥T1,同时z(i)≤T2时,设此时i=I。则第I帧与I+1帧为语音信号声韵母分界线。取语音信号的前I帧,该部分为音节的声母部分。T1和T2的取值,经过大量实验,经验取值为:T1=0.015,T2=8。
3特征值提取
3.1频谱能量加强段声学特征值F
腭裂患者的发音装置是正常的,腭裂语音的产生主要发生于共鸣装置。基于经典的声源-滤波器模型,腭裂患者的声源激励***是正常的,发音过程在声道滤波器和口腔辐射处发生异常。共振峰参数是典型的声道滤波***的声学特征值,共振峰是表征元音的一个重要参数,而本文是对音节中的声母(辅音)进行处理,因此,本文采用频谱能量加强段作为声母的声学特征值。频谱能量加强段参数与共振峰参数物理意义类似,其计算方法相同。本文采用LPC(LPC:Linear Predictive Coding)法,实现对第一到第五频谱能量加强段的估计。根据上节中的声韵母切分算法,得到声母语音信号xi[n],i=1,2,...,I。对每帧声母语音信号xi[n]计算第一到第五频谱能量加强段:Fi=[fi_1,fi_2,fi_3,fi_4,fi_5],i=1,2,...,I。对声母部分的所有语音帧的第一到第五频谱能量加强段,分别求取平均值,得到声母部分语音信号的频谱能量加强段特征值为:
F=[f1,f2,f3,f4,f5]。
3.2MFCC声学特征值
Mel倒频谱系数(MFCC:Mel-Frequence Cepstral Coefficients)基于人耳的听觉特性。MFCC声学特征值,通过对语音信号的同态处理,实现对声源激励信号和声道响应信息的分离。本算法中,MFCC系数值选择为12。
根据上节中的声韵母切分算法,得到声母语音信号xi[n],i=1,2,...,I。对每帧声母语音信号xi[n]计算MFCC特征值:Mi=[mi_1,mi_2,...,mi_12],i=1,2,...,I。对声母部分的所有语音帧的MFCC参数求取平均值,得到声母部分语音信号的MFCC声学特征值为:
M=[m1,m2,m3,m4,m5,m6,m7,m8,m9,m10,m11,m12]。
3.3基于临界频段与短时功率谱的声学特征值PSCB
本算法提出了基于临界频段与短时能量的声学特征值(PSCB PowerSpectrum in Critical Bands)。其算法流程如图2所示:
根据上节中的声韵母切分算法,得到声母语音信号xi[n],i=1,2,...,I。对每帧声母语音信号xi[n]进行短时傅里叶变换,其中,离散傅里叶变换的点数为8192:
由短时傅里叶变换,计算每帧声母语音信号的短时功率谱:
则每个声母语音信号的短时功率谱为矩阵:
临界频带为根据人耳的听觉特性划分的,属本领域公知的标准。临界频带的频率和带宽如表1所示。
表1 临界频带的频率和带宽(赫兹Hz)
临界频带 | 低端频率 | 高端频率 | 带宽 | 临界频带 | 低端频率 | 高端频率 | 带宽 |
0 | 0 | 100 | 100 | 11 | 1480 | 1720 | 240 |
11 | 100 | 200 | 100 | 12 | 1720 | 2000 | 280 |
2 | 200 | 300 | 100 | 13 | 2000 | 2320 | 320 |
3 | 300 | 400 | 100 | 14 | 2320 | 2700 | 380 |
4 | 400 | 510 | 110 | 15 | 2700 | 3150 | 450 |
5 | 510 | 630 | 120 | 16 | 3150 | 3700 | 550 |
6 | 630 | 770 | 140 | 17 | 3700 | 4400 | 700 |
7 | 770 | 920 | 150 | 18 | 4400 | 5300 | 900 |
8 | 920 | 1080 | 160 | 19 | 5300 | 6400 | 1100 |
9 | 1080 | 1270 | 190 | 20 | 6400 | 7700 | 1300 |
10 | 1279 | 1480 | 210 |
对声母语音信号的短时功率谱矩阵S,基于临界频带的频率和带宽,对S矩阵进行频带划分,共划分为20个频段。计算每个频段内的功率幅值和pj,j=1,2,...,20,最后得到对声母语音信号的基于临界频段与短时能量的声学特征值:PSCB=(p1,p2,…,p20)。
3.4基于小波及小波包变换与信息熵的声学特征值
从小波分析上看,信号分析是一种多分辨率分析,通过滤波器组实现。每一级分解把该级输入信号分解成一个低频的粗略逼近(概貌)和一个高频的细节部分。信号的重构是分解的逆过程。随着小波尺度的变化,可实现由粗及精对事物进行多尺度分析。根据多分辨率理论,Mallat提出了小波分解与重构的快速算法,称为Mallat算法。本算法采用Mallat算法实现小波和小波包的分解与重构。
本算法提出了基于小波及小波包变换与信息熵的声学特征值(WTE:Wavelet Transform based Entropy,WPE:Wavelet Packet based Entropy)。其算法流程如图3所示。
WTE:根据上节中的声韵母切分算法,得到声母语音信号xi[n],i=1,2,...,I。对每帧语音信号进行3层小波分解(小波分解树形结构图如图4所示),对小波分解的叶子节点进行重构,重构后的信号为对每个重构后的信号,计算其信息熵(其过程如图5所示),其计算公式为:
WPE:根据上节中的声韵母切分算法,得到声母语音信号xi[n],i=1,2,...,I。对每帧语音信号进行3层小波包分解(小波包树结构如图6所示),对第3层小波包分解后的信号进行重构。于WTE算法相似,重构后的信号为对每个重构后的信号,计算其信息熵(其过程如图7所示),其计算公式为:
4模式识别算法
4.1经典的KNN分类算法
KNN算法是经典的模式识别方法之一,其基本思想是:待测样本在特征空间中寻找最接近测试样本的K个训练样本,对寻找到K个训练样本进行统计和分析,找到数量最多的类别或相似度最高的类别。该测试样本被判别为属于此类别。
本文所用的KNN识别算法中,最近邻的个数K取值为5。其计算步骤如下:
(1)采集已知含有喉塞音的音节语音信号及已知不含有喉塞音的音节语音信号作为训练样本,其中有喉塞音的音节语音信号组成一类样本集,无喉塞音的音节语音信号组成另一类样本集,每一个类别记作Ci(i=1,2)。
(2)对待测样本和训练样本,计算相同的声学特征值:第3节中列举的特征值中的一种。
(3)计算待测样本与所有训练样本的距离,其距离的计算公式如下:其中x为待测样本特征值,y为训练样本特征值,N为特征值个数。
(4)对待测样本到所有训练样本的距离进行排序,取前5个最接近待测样本的训练样本,这5个训练样本所属的类别中,数量最多的类别Ci即为该待测样本的类别。
4.2改进的KNN分类算法
本算法对KNN算法进行改进,提出对类内的特征值进行加权。
(1)对训练样本和待测样本,计算相同的声学特征值:F、MFCC、PSCB、WTE、WPE。将这个五个声学特征值顺序拼接为一个向量,作为特征值。对于每个声母语音信号,各参数的维数分别为:F:5维、MFCC:12维、PSCB:20维、WTE:4维、WPE:8维。
(2)计算待测样本与所有训练样本的距离。在计算待测样本到各个训练样本距离的时候,对各声学特征值赋不同权值。F赋权值a,、MFCC赋权值b,PSCB赋权值c,WTE赋权值d,WPE赋权值e。其距离的计算公式改进为:
(3)各声学特征值对应的权值优选为:应用KNN分类器时,各声学特征值取得的对有无喉塞音两种类别判别的正确率。即,以两个样本空间的样本的频谱能量加强段特征值为KNN识别模型的样本,此时的KNN识别模型的识别正确率为a;以两个样本空间的样本的MFCC声学特征值为KNN识别模型的样本,此时的KNN识别模型的识别正确率为b;以两个样本空间的样本的临界频段短时功率谱特征值为KNN识别模型的样本,此时的KNN识别模型的识别正确率为c;以两个样本空间的样本的小波变换与信息熵特征值为KNN识别模型的样本,此时的KNN识别模型的识别正确率为d;以两个样本空间的样本的小波包变换与信息熵特征值为KNN识别模型的样本,此时的KNN识别模型的识别正确率为e。
4.3SVM模式识别算法
支持向量机(Support Vector Machines,SVM)模式识别分类算法广泛应用于语音信号处理。SVM基于结构风险最小化原理构建一个最优决策的超平面,使该平面两侧距平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。SVM对二分类分类问题效果显著。SVM常见的核函数有多项式函数、径向基函数、多层感知机等。高斯核函数为最常用的径向基函数,具有相当高的灵活性。一些研究也表明该核函数对语音信号处理得到较好效果。本文使用高斯核函数,实现对有无喉塞音两种类别的判别。其计算步骤如下:
(1)对待测样本与训练样本,计算相同的声学特征值:如频谱能量加强段特征值F。
(2)应用训练样本的频谱能量加强段特征值,对SVM模型进行训练。
(3)将测试样本的频谱能量加强段特征值值,输入训练好的SVM,得到计算机自动判别结果。
本算法中的训练样本集包含了4-11岁儿童腭裂患者的腭裂语音。录音在专业录音室中进行,录音的时侯,要求说话者保持最自然、最习惯的发音方式。说话者嘴唇距离Creative Hs300数字化麦克风5cm左右,以约每2s/音节的速度发“四川大学华西口腔医院语音治疗中心普通话构音测量表”中的音节。本文所用腭裂语音数据库包含儿童女性腭裂患者语音28份、儿童男性腭裂患者语音30份。采集到的腭裂语音由3名专业语音师各自独立判听,对每个音节(汉字)中,声母部分是否发生喉塞音给出判定。
5正确率验证实验
本发明采用10次k折交叉验证(k-fold cross validation)对第4节中的各类模型的识别正确率进行验证。k的取值为10。取包含喉塞音与不包含喉塞音的音节语音信号300份(由专业语音师判听对每个音节(汉字)中,声母部分是否发生喉塞音给出判定),将这300份音节语音信号为标准样本。按照前述方法提取标准样本的各种特征值。
5.1经典的KNN分类算法验证
将300份标准样本随机分为十份,轮流将其中9份作为训练样本,剩下的1份作为测试样本。
利用经典的KNN分类算法识别测试样本是否含有喉塞音,将识别结果与专业语音师的判听结果进行比较,计算这一份测试样本中识别结果为正确的个数,计算正确率。
将第二份作为测试样本,其余9份作为训练样本,计算识别结果的正确率;以此类推,将剩余八份依次作为测试样本,剩余9份样本作为训练样本计算识别结果的正确率。
这样遍历一次后,得到10个正确率,计算这10个正确率的均值。
再将这300份标准样本随机分为十份,依次将每一份作为测试样本,剩余九份作为训练样本,得到10个正确率,计算这10个正确率的均值。依次类推,再做8次这样的随机划分及正确率均值计算。最后得到10个正确率均值,再将这10个正确率均值再求均值,便得到该识别模型的正确率。
5.2改进的KNN分类算法验证
与5.1节方法类似,所不同的是将样本特征值替换为改进的KNN分类模型的特征值,将识别模型替换为改进的KNN分类模型。计算该模型的正确率。
5.3SVM模式识别算法
与5.1节方法类似,将识别模型替换为SVM识别模型。计算该模型的正确率。
最后得出各类识别模型的识别正确率,参见表2。可见改进后的KNN分类模型的正确率最高。
表2 腭裂语音有无喉塞音自动识别正确率
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
Claims (10)
1.一种腭裂语音喉塞音自动识别算法,其特征在于,包括:
步骤1:采集待测音节语音信号;
步骤2:对所述音节语音信号进行声韵母切分,保留声母语音信号;
步骤3:提取所述声母语音信号的特征值;
步骤4:将所述特征值送入训练过的识别模型中,识别模型根据所述特征值判断所述音节语音信号中是否存在喉塞音。
2.根据权利要求1所述的一种腭裂语音喉塞音自动识别算法,其特征在于,所述步骤2进一步包括:
步骤21:对音节语音信号进行加窗分帧得到若干语音帧xi[n],i取1、2、3…M,n取1、2、3…N,N为帧长;
步骤22:计算每个语音帧的短时能量Ei及短时过零率Zi;
步骤23:计算相邻两帧的能量差e(i)和过零率差z(i):e(i)=Ei+1-Ei,i=1,2,…,M-1,z(i)=Zi+1-Zi,i=1,2,…,M-1;
步骤24:将每个能量差e(i)与阈值T1进行比较,将每个过零率差z(i)与阈值T2比较;当满足e(i)≥T1,同时z(i)≤T2时,设此时i=I;则取语音帧xi[n],i取1、2、3…I为音节语音信号的声母语音信号。
3.根据权利要求1所述的一种腭裂语音喉塞音自动识别算法,其特征在于,所述步骤3提取的声母语音信号特征值包括以下特征值中的一种或多种:频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值、小波包变换与信息熵特征值;其中,
提取声母语音信号的频谱能量加强段特征值:计算每帧声母语音帧的第一到第五频谱能量加强段特征值;计算全部声母语音帧的第一频谱能量加强段特征值均值作为声母语音信号的第一频谱能量加强段特征值,以此类推,计算得到声母语音信号的第二到第五频谱能量加强段特征值;
提取声母语音信号的MFCC声学特征值:计算每帧声母语音帧的MFCC声学特征值,其中MFCC系数值取12,得到每帧声母语音帧的12个MFCC特征值;将全部声母语音信号帧的第一MFCC特征值的平均值作为声母语音信号的第一MFCC特征值,以此类推,计算得到声母语音信号的第二到第十二MFCC特征值;
提取声母语音信号的临界频段短时功率谱特征值:对每帧声母语音帧进行短时傅里叶变换,得到每帧声母语音帧的短时功率谱;按照临界频段划分规则将每帧声母语音帧的短时功率谱划分为20个临界频段;将全部声母语音帧的第一临界频段的功率叠加在一起得到声母语音信号的第一临界频段短时功率谱特征值,以此类推得到第二到第二十临界频段短时功率谱特征值;
提取声母语音信号的小波变换与信息熵特征值:对每帧声母语音帧进行三层小波变换,对三层小波分解后的信号进行重构得到4个重构后的信号,计算每个重构后的信号的信息熵;将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波变换与信息熵特征值,以此类推,计算得到声母语音信号的第二到第四小波变换与信息熵特征值;
提取声母语音信号的小波包变换与信息熵特征值:对每帧声母语音帧进行三层小波包变换,对三层小波包分解后的信号进行重构得到8个重构后的信号,计算每个重构后的信号的信息熵;将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波包变换与信息熵特征值,以此类推,计算得到声母语音信号的第二到第八小波变换与信息熵特征值。
4.根据权利要求3所述的一种腭裂语音喉塞音自动识别算法,其特征在于,步骤4进一步包括:
选取已知包含喉塞音的音节语音信号若干组成真训练样本集,选取已知不包含喉塞音的音节语音信号若干组成假训练样本集;
提取两个训练样本集的每个样本的频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值及小波包变换与信息熵特征值;
获取步骤3得到的待测音节语音信号的声母语音信号特征值;
计算该待测音节语音信号的声母语音信号特征值与各个训练样本的距离:
选取离待测音节语音信号的声母语音信号特征值距离最短的若干训练样本,其中属于真训练样本集的训练样本最多时则认为所述待测音节语音信号中含有喉塞音;
其中:xl,l取1~5,为待测音节语音信号的第一到第五频谱能量加强段特征值;
xl,l取6~17,为待测音节语音信号的第一到第十二MFCC声学特征值;
xl,l取18~37,为待测音节语音信号的第一到第二十临界频段短时功率谱特征值;
xl,l取38~41,为待测音节语音信号的第一到第四小波变换与信息熵特征值;
xl,l取42~49,为待测音节语音信号的第一到第八小波包变换与信息熵特征值;
yl,l取1~5,为训练样本的第一到第五频谱能量加强段特征值;
yl,l取6~17,为训练样本的第一到第十二MFCC声学特征值;
yl,l取18~37,为训练样本的第一到第二十临界频段短时功率谱特征值;
yl,l取38~41,为训练样本的第一到第四小波变换与信息熵特征值;
yl,l取42~49,为训练样本的第一到第八小波包变换与信息熵特征值;
a、b、c、d、e为权值。
5.根据权利要求4所述的一种腭裂语音喉塞音自动识别算法,其特征在于,所述权值的取值获取方法包括:
选取已知包含喉塞音的音节语音信号若干组成真样本空间,选取已知不包含喉塞音的音节语音信号若干组成假样本空间;
提取两个样本空间的每个样本的频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值及小波包变换与信息熵特征值;
以两个样本空间的样本的频谱能量加强段特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为a;
以两个样本空间的样本的MFCC声学特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为b;
以两个样本空间的样本的临界频段短时功率谱特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为c;
以两个样本空间的样本的小波变换与信息熵特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为d;
以两个样本空间的样本的小波包变换与信息熵特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为e。
6.一种腭裂语音喉塞音自动识别装置,其特征在于,包括:
语音采集单元,用于采集待测音节语音信号;
声母提取单元,用于对所述音节语音信号进行声韵母切分,保留声母语音信号;声母特征值提取单元,用于提取所述声母语音信号的特征值;
识别单元,用于将所述特征值送入训练过的识别模型中,识别模型根据所述特征值判断所述音节语音信号中是否存在喉塞音。
7.根据权利要求6所述的一种腭裂语音喉塞音自动识别装置,其特征在于,所述声母提取单元进一步包括:
加窗分帧子单元,用于对音节语音信号进行加窗分帧得到若干语音帧xi[n],i取1、2、3…M,n取1、2、3…N,N为帧长;
短时能量计算单元,用于计算每个语音帧的短时能量Ei;
短时过零率计算单元,用于计算每个语音帧短时过零率Zi;
能量差计算单元,用于计算相邻两帧的能量差e(i):e(i)=Ei+1-Ei,i=1,2,…,M-1;
过零率差计算单元,用于计算相邻两帧的过零率差z(i):z(i)=Zi+1-Zi,i=1,2,…,M-1;
比较单元,用于将每个能量差e(i)与阈值T1进行比较,将每个过零率差z(i)与阈值T2比较;当满足e(i)≥T1,同时z(i)≤T2时,设此时i=I;则取语音帧xi[n],i取1、2、3…I为音节语音信号的声母语音信号。
8.根据权利要求6所述的一种腭裂语音喉塞音自动识别装置,其特征在于,声母特征值提取单元包括以下子单元中的一种或多种:
频谱能量加强段特征值提取子单元,用于计算每帧声母语音帧的第一到第五频谱能量加强段特征值;计算全部声母语音帧的第一频谱能量加强段特征值均值作为声母语音信号的第一频谱能量加强段特征值,以此类推,计算得到声母语音信号的第二到第五频谱能量加强段特征值;
MFCC声学特征值提取子单元,用于计算每帧声母语音帧的MFCC声学特征值,其中MFCC系数值取12,得到每帧声母语音帧的12个MFCC特征值;将全部声母语音信号帧的第一MFCC特征值的平均值作为声母语音信号的第一MFCC特征值,以此类推,计算得到声母语音信号的第二到第十二MFCC特征值;
临界频段短时功率谱特征值提取子单元,用于对每帧声母语音帧进行短时傅里叶变换,得到每帧声母语音帧的短时功率谱;按照临界频段划分规则将每帧声母语音帧的短时功率谱划分为20个临界频段;将全部声母语音帧的第一临界频段的功率叠加在一起得到声母语音信号的第一临界频段短时功率谱特征值,以此类推得到第二到第二十临界频段短时功率谱特征值;
小波变换与信息熵特征值提取子单元,用于对每帧声母语音帧进行三层小波变换,对三层小波分解后的信号进行重构得到4个重构后的信号,计算每个重构后的信号的信息熵;将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波变换与信息熵特征值,以此类推,计算得到声母语音信号的第二到第四小波变换与信息熵特征值;
小波包变换与信息熵特征值提取子单元,用于对每帧声母语音帧进行三层小波包变换,对三层小波包分解后的信号进行重构得到8个重构后的信号,计算每个重构后的信号的信息熵;将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波包变换与信息熵特征值,以此类推,计算得到声母语音信号的第二到第八小波包变换与信息熵特征值。
9.根据权利要求8所述的一种腭裂语音喉塞音自动识别装置,其特征在于,识别单元进一步包括:
样本空间搜集单元,用于选取已知包含喉塞音的音节语音信号若干组成真训练样本集,选取已知不包含喉塞音的音节语音信号若干组成假训练样本集;
样本特征值提取单元,用于提取两个训练样本集的每个训练样本的频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值及小波包变换与信息熵特征值;
待测音节语音信号特征值获取单元,用于接收声母特征值提取单元提取的待测音节语音信号的声母语音信号特征值;
距离计算单元,用于计算该待测音节语音信号的声母语音信号特征值与各个训练样本的距离:
选取离待测音节语音信号的声母语音信号特征值距离最短的若干训练样本,其中属于真训练样本集的训练样本最多时则认为所述待测音节语音信号中含有喉塞音;
其中:xl,l取1~5,为待测音节语音信号的第一到第五频谱能量加强段特征值;
xl,l取6~17,为待测音节语音信号的第一到第十二MFCC声学特征值;
xl,l取18~37,为待测音节语音信号的第一到第二十临界频段短时功率谱特征值;
xl,l取38~41,为待测音节语音信号的第一到第四小波变换与信息熵特征值;
xl,l取42~49,为待测音节语音信号的第一到第八小波包变换与信息熵特征值;
yl,l取1~5,为训练样本的第一到第五频谱能量加强段特征值;
yl,l取6~17,为训练样本的第一到第十二MFCC声学特征值;
yl,l取18~37,为训练样本的第一到第二十临界频段短时功率谱特征值;
yl,l取38~41,为训练样本的第一到第四小波变换与信息熵特征值;
yl,l取42~49,为训练样本的第一到第八小波包变换与信息熵特征值;
a、b、c、d、e为权值。
10.根据权利要求9所述的一种腭裂语音喉塞音自动识别装置,其特征在于,所述权值的取值获取方法包括:
选取已知包含喉塞音的音节语音信号若干组成真样本空间,选取已知不包含喉塞音的音节语音信号若干组成假样本空间;
提取两个样本空间的每个样本的频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值及小波包变换与信息熵特征值;
以两个样本空间的样本的频谱能量加强段特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为a;
以两个样本空间的样本的MFCC声学特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为b;
以两个样本空间的样本的临界频段短时功率谱特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为c;
以两个样本空间的样本的小波变换与信息熵特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为d;
以两个样本空间的样本的小波包变换与信息熵特征值为KNN识别模型的样本;此时的KNN识别模型的识别正确率为e。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510257555.9A CN104992707A (zh) | 2015-05-19 | 2015-05-19 | 一种腭裂语音喉塞音自动识别算法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510257555.9A CN104992707A (zh) | 2015-05-19 | 2015-05-19 | 一种腭裂语音喉塞音自动识别算法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104992707A true CN104992707A (zh) | 2015-10-21 |
Family
ID=54304510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510257555.9A Pending CN104992707A (zh) | 2015-05-19 | 2015-05-19 | 一种腭裂语音喉塞音自动识别算法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104992707A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105286798A (zh) * | 2015-11-04 | 2016-02-03 | 深圳市福生医疗器械有限公司 | 腭咽闭合检测装置及检测方法 |
CN105679332A (zh) * | 2016-03-09 | 2016-06-15 | 四川大学 | 一种腭裂语音声韵母自动切分方法及*** |
CN107274886A (zh) * | 2016-04-06 | 2017-10-20 | 中兴通讯股份有限公司 | 一种语音识别方法和装置 |
CN107293302A (zh) * | 2017-06-27 | 2017-10-24 | 苏州大学 | 一种用于语音测谎***中的稀疏谱特征提取方法 |
CN108596897A (zh) * | 2018-04-27 | 2018-09-28 | 四川大学 | 基于图像处理的鼻咽镜下腭咽闭合度的全自动检测方法 |
CN108596898A (zh) * | 2018-04-27 | 2018-09-28 | 四川大学 | 基于图像处理的鼻咽镜下腭咽闭合度的半自动检测方法 |
CN111354375A (zh) * | 2020-02-25 | 2020-06-30 | 咪咕文化科技有限公司 | 一种哭声分类方法、装置、服务器和可读存储介质 |
CN111883169A (zh) * | 2019-12-12 | 2020-11-03 | 马上消费金融股份有限公司 | 一种音频文件切割位置处理方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290766A (zh) * | 2007-04-20 | 2008-10-22 | 西北民族大学 | 安多藏语语音音节切分的方法 |
CN101825489A (zh) * | 2010-01-29 | 2010-09-08 | 浙江大学 | 电力变压器有载分接开关振动信号分离方法 |
CN101829689A (zh) * | 2010-03-31 | 2010-09-15 | 北京科技大学 | 一种基于声信号的热轧带钢甩尾故障识别方法 |
CN102800316A (zh) * | 2012-08-30 | 2012-11-28 | 重庆大学 | 基于神经网络的声纹识别***的最优码本设计方法 |
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN103308919A (zh) * | 2012-03-12 | 2013-09-18 | 中国科学院声学研究所 | 一种基于小波包多尺度信息熵的鱼类识别方法及*** |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN104021785A (zh) * | 2014-05-28 | 2014-09-03 | 华南理工大学 | 一种提取会议中最重要嘉宾语音的方法 |
-
2015
- 2015-05-19 CN CN201510257555.9A patent/CN104992707A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290766A (zh) * | 2007-04-20 | 2008-10-22 | 西北民族大学 | 安多藏语语音音节切分的方法 |
CN101825489A (zh) * | 2010-01-29 | 2010-09-08 | 浙江大学 | 电力变压器有载分接开关振动信号分离方法 |
CN101829689A (zh) * | 2010-03-31 | 2010-09-15 | 北京科技大学 | 一种基于声信号的热轧带钢甩尾故障识别方法 |
CN103308919A (zh) * | 2012-03-12 | 2013-09-18 | 中国科学院声学研究所 | 一种基于小波包多尺度信息熵的鱼类识别方法及*** |
CN102800316A (zh) * | 2012-08-30 | 2012-11-28 | 重庆大学 | 基于神经网络的声纹识别***的最优码本设计方法 |
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN104021785A (zh) * | 2014-05-28 | 2014-09-03 | 华南理工大学 | 一种提取会议中最重要嘉宾语音的方法 |
Non-Patent Citations (21)
Title |
---|
何凌,袁亚南,尹恒,张桠童,张劲,刘奇,李杨: ""腭裂语音高鼻音等级自动识别算法研究"", 《四川大学学报工程科学版》 * |
何凌,袁亚南,尹恒,张桠童,张劲,刘奇,李杨: "腭裂语音高鼻音等级自动识别算法研究", 《四川大学学报工程科学版》 * |
向彪: ""基于超声波和视觉信息融合的语音提示技术研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
向彪: "基于超声波和视觉信息融合的语音提示技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
唐娜娜: ""基于稳健性PLPC的抗噪语音识别方法的研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
夏冬冬: ""非平稳环境下的语音增强算法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
夏冬冬: "非平稳环境下的语音增强算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
尹恒,何凌,张劲,李杨: ""基于非线性参数的腭裂患者高鼻音自动识别"", 《计算机工程与设计》 * |
尹恒,何凌,张劲,李杨: "基于非线性参数的腭裂患者高鼻音自动识别", 《计算机工程与设计》 * |
张艳燕,张嵘: ""一种基于时域参数的声韵分割及声母分类方法"", 《全国人机语音通讯学术会议》 * |
张艳燕,张嵘: "一种基于时域参数的声韵分割及声母分类方法", 《全国人机语音通讯学术会议》 * |
林志敏: ""数字助听器中回声消除与响度补偿关键技术研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
林志敏: "数字助听器中回声消除与响度补偿关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
王国民: "《唇腭裂修复术与语音治疗》", 31 January 2013 * |
王攀,沈继忠,施锦河: ""基于小波变换和时域能量熵的P300特征提取算法"", 《仪器仪表学报》 * |
王攀,沈继忠,施锦河: "基于小波变换和时域能量熵的P300特征提取算法", 《仪器仪表学报》 * |
赵力: "《语音信号处理》", 30 June 2009 * |
陈盼弟: ""基于HMM和LPCC的腭裂语音辅音省略自动识别算法"", 《信息与电脑》 * |
陈盼弟: "基于HMM和LPCC的腭裂语音辅音省略自动识别算法", 《信息与电脑》 * |
顾亚强: ""非特定人语音识别关键技术研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
顾亚强: "非特定人语音识别关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105286798B (zh) * | 2015-11-04 | 2018-07-20 | 深圳市福生医疗器械有限公司 | 腭咽闭合检测装置及检测方法 |
CN105286798A (zh) * | 2015-11-04 | 2016-02-03 | 深圳市福生医疗器械有限公司 | 腭咽闭合检测装置及检测方法 |
CN105679332B (zh) * | 2016-03-09 | 2019-06-11 | 四川大学 | 一种腭裂语音声韵母自动切分方法及*** |
CN105679332A (zh) * | 2016-03-09 | 2016-06-15 | 四川大学 | 一种腭裂语音声韵母自动切分方法及*** |
CN107274886A (zh) * | 2016-04-06 | 2017-10-20 | 中兴通讯股份有限公司 | 一种语音识别方法和装置 |
CN107274886B (zh) * | 2016-04-06 | 2021-10-15 | 中兴通讯股份有限公司 | 一种语音识别方法和装置 |
CN107293302A (zh) * | 2017-06-27 | 2017-10-24 | 苏州大学 | 一种用于语音测谎***中的稀疏谱特征提取方法 |
CN108596898A (zh) * | 2018-04-27 | 2018-09-28 | 四川大学 | 基于图像处理的鼻咽镜下腭咽闭合度的半自动检测方法 |
CN108596897B (zh) * | 2018-04-27 | 2021-08-20 | 四川大学 | 基于图像处理的鼻咽镜下腭咽闭合度的全自动检测方法 |
CN108596898B (zh) * | 2018-04-27 | 2021-08-24 | 四川大学 | 基于图像处理的鼻咽镜下腭咽闭合度的半自动检测方法 |
CN108596897A (zh) * | 2018-04-27 | 2018-09-28 | 四川大学 | 基于图像处理的鼻咽镜下腭咽闭合度的全自动检测方法 |
CN111883169A (zh) * | 2019-12-12 | 2020-11-03 | 马上消费金融股份有限公司 | 一种音频文件切割位置处理方法及装置 |
CN111354375A (zh) * | 2020-02-25 | 2020-06-30 | 咪咕文化科技有限公司 | 一种哭声分类方法、装置、服务器和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104992707A (zh) | 一种腭裂语音喉塞音自动识别算法及装置 | |
Sroka et al. | Human and machine consonant recognition | |
CN104050965A (zh) | 具有情感识别功能的英语语音发音质量评价***及方法 | |
CN105825852A (zh) | 一种英语口语朗读考试评分方法 | |
Ryant et al. | Highly accurate mandarin tone classification in the absence of pitch information | |
CN103405217A (zh) | 基于实时构音建模技术的构音障碍多维测量***及其方法 | |
CN110942784A (zh) | 基于支持向量机的鼾声分类*** | |
CN109300339A (zh) | 一种英语口语的练习方法及*** | |
CN112397074A (zh) | 基于mfcc和向量元学习的声纹识别方法 | |
JP2023018658A (ja) | 機械学習による音声手法に基づく困難気道の評価方法及び装置 | |
CN115050387A (zh) | 一种艺术测评中多维度唱奏分析测评方法及*** | |
Nieto et al. | Pattern recognition of hypernasality in voice of patients with Cleft and Lip Palate | |
Cai et al. | The best input feature when using convolutional neural network for cough recognition | |
Neto et al. | Feature estimation for vocal fold edema detection using short-term cepstral analysis | |
CN114550701A (zh) | 一种基于深度神经网络的汉语电子喉语音转换装置及方法 | |
Baquirin et al. | Artificial neural network (ANN) in a small dataset to determine neutrality in the pronunciation of english as a foreign language in filipino call center agents: Neutrality classification of Filipino call center agent's pronunciation | |
CN113129923A (zh) | 一种艺术测评中多维度唱奏分析测评方法及*** | |
CN106297805A (zh) | 一种基于呼吸特征的说话人识别方法 | |
Lv et al. | Objective evaluation method of broadcasting vocal timbre based on feature selection | |
Sahoo et al. | Detection of speech-based physical load using transfer learning approach | |
Gomathy et al. | Gender clustering and classification algorithms in speech processing: a comprehensive performance analysis | |
Liu et al. | Hypemasality detection in cleft palate speech based on natural computation | |
Koolagudi et al. | Spectral features for emotion classification | |
Jam et al. | A system for detecting of infants with pain from normal infants based on multi-band spectral entropy by infant's cry analysis | |
Gore et al. | Disease detection using voice analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151021 |