CN108564965B - 一种抗噪语音识别*** - Google Patents

一种抗噪语音识别*** Download PDF

Info

Publication number
CN108564965B
CN108564965B CN201810311359.9A CN201810311359A CN108564965B CN 108564965 B CN108564965 B CN 108564965B CN 201810311359 A CN201810311359 A CN 201810311359A CN 108564965 B CN108564965 B CN 108564965B
Authority
CN
China
Prior art keywords
cfcc
signal
training set
speech signal
auditory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810311359.9A
Other languages
English (en)
Other versions
CN108564965A (zh
Inventor
薛珮芸
史燕燕
白静
郭倩岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201810311359.9A priority Critical patent/CN108564965B/zh
Publication of CN108564965A publication Critical patent/CN108564965A/zh
Application granted granted Critical
Publication of CN108564965B publication Critical patent/CN108564965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及语音识别技术领域。一种抗噪语音识别***,对于语音信号进行加窗分帧,然后做离散傅里叶变换,求出语音信号的幅值和相角;通过谱减运算得到估计信号的功率谱;利用谱减前的相位角信息对信号进行重构,得到谱减后的语音序列;对新的语音序列采用非线性幂函数模拟人耳听觉特性提取耳蜗滤波倒谱特征CFCC及其一阶差分△CFCC,并利用维度筛选法进行特征混合;对融合特征用数据归一化处理,得到训练集标签和测试集标签;将归一化后的训练集采用PCA进行降维,并带入SVM模型,得到识别准确率。

Description

一种抗噪语音识别***
技术领域
本发明涉及语音识别技术领域。
背景技术
随着信息技术的高速发展,人机交互受到越来越多的关注,语音识别作为人机交互的关键技术,成为该领域的研究重点。语音识别是计算机通过对人类语音语义信息的提取分析,从而把语音信号转变为相应的文本或命令的高技术的语音识别技术,在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域有着广泛的应用。
语音识别作为智能化技术的一个重要分支,其相关应用越来越广泛.然而语音信号特别容易受到噪声的污染,从采集到传输再到还原过程中,各个环节都可能受到噪声影响.语音增强技术就是专门用来处理含有噪声的语音信号的。谱减法作为语音增强技术的一种,总体上运算简单,容易实现。
目前语音识别中最主流的特征参数是梅尔频率倒谱系数(Mel FrequencyCepstrumCoefficent,MFCC),MFCC特征是基于傅里叶变换提取的,而事实上,傅里叶变换仅适用于平稳信号的处理。听觉变换作为处理非平稳语音信号的新方法,弥补了傅里叶变换的不足,具有谐波失真少和谱平滑度好的优点。贝尔实验室的Peter Li博士在2011年第一次提出耳蜗滤波倒谱系数并应用于说话人识别,耳蜗滤波倒谱系数是第一个使用听觉变换的特征。虽然很多学者对CFCC特征进行研究,但是从神经元动作电位发放率与声音强度的饱和关系推导出非线性幂函数可以近似于听觉神经元—强度曲线,传统的CFCC特征提取方法并没有考虑到人耳听觉的这个特性,因此采用能够模拟人耳听觉特性的非线性幂函数提取新的CFCC特征。
一个完整的语音信号包含了频率信息和能量信息。Teager能量算子作为一种非线性差分算子,能够消除零均值噪声的影响和语音增强的能力,用于特征提取中,不仅能够更好地反映语音信号的能量变化,而且能够抑制噪声,增强语音信号,用于语音识别中可以取得良好的效果。
支持向量机(Support Vector Machine,SVM)是基于结构风险最小化原则的一种新的机器学习技术。它可以更好的解决小样本、非线性、高维度等分类问题,并且具有良好的泛化性,广泛应用在模式识别、分类估计等问题当中,并通过其卓越的分类能力和良好的泛化性能,成为语音识别技术中较常用的分类模型。
发明内容
本发明所要解决的技术问题是:如何改善语音识别效果。
本发明所采用的技术方案是:一种抗噪语音识别***,按照如下的步骤进行:
步骤一、对于语音信号s(n)进行加窗分帧,然后做离散傅里叶变换,求出语音信号的幅值和相角
对语音信号s(n)进行加窗,采用的窗函数为汉明窗w(n):
Figure BDA0001622437570000011
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n)
x(n)=s(n)*w(n)
对加窗语音信号x(n)进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
Figure BDA0001622437570000021
其中,j表示复数,e是常数,π是常数,谐波分量序号k=0,1,...,N-1,则加窗语音信号x(n)的短时幅度谱估计为|X(n,k)|,相角为:
Figure BDA0001622437570000022
将|X(n,k)|的值表示为语音信号的幅值,
Figure BDA0001622437570000023
的值表示为语音信号的相角;
步骤二、计算噪声段平均能量,通过谱减运算得到估计信号的功率谱;
噪声段的时长为IS,其相应的帧数为NIS,噪声段的平均能量为:
Figure BDA0001622437570000024
采用以下的谱减运算得到估计信号的功率谱
Figure BDA0001622437570000025
其中,a1和b1是两个常数,a1为过减因子,a1为增益补偿因子;
步骤三、利用谱减前的相位角信息对信号进行重构,得到谱减后的语音序列;
用谱减后的功率谱
Figure BDA0001622437570000026
结合谱减前的相位角信息
Figure BDA0001622437570000027
进行IFFT,将频域还原到时域,得到的谱减后的语音序列
Figure BDA0001622437570000028
Figure BDA0001622437570000029
步骤四、对谱减后的语音序列
Figure BDA00016224375700000210
采用非线性幂函数模拟人耳听觉特性提取耳蜗滤波倒谱特征CFCC及其一阶差分△CFCC,并利用维度筛选法进行特征混合;
听觉变换模拟了人耳听觉机理,是将耳蜗滤波函数作为一种新的小波基函数,运用小波变换实现滤波的过程;
谱减后的语音序列
Figure BDA00016224375700000211
经过听觉变换后在某一频带范围内的输出为:
Figure BDA00016224375700000212
其中
Figure BDA00016224375700000213
为耳蜗滤波函数,它的表达式为:
Figure BDA00016224375700000214
上式中
Figure BDA0001622437570000031
β>0,其中α和β的取值决定了耳蜗滤波函数的频域形状和宽度,u(t)为单位步进函数,b2为随时间可变的实数,a2为尺度变量,θ是初始相位,一般情况下
Figure BDA00016224375700000311
可由滤波器组的中心频率fc和最低中心频率fL决定
Figure BDA0001622437570000032
其中,一般
Figure BDA0001622437570000033
的取值范围是
Figure BDA0001622437570000034
Figure BDA0001622437570000035
β一般取经验值
Figure BDA0001622437570000036
β=0.2;
人耳耳蜗的内毛细胞将经过听觉变换输出后的语音信号转变为人脑可分析的电信号:
h(a2,b2)=[T(a2,b2)]2
根据人耳的听觉特性,声音听觉神经对声音的响应持续时间会随着频率的增加而逐渐变短,说明了人耳对高频暂态成分更加敏感,因此对中心频率较高的耳蜗滤波器,需要适当缩短其时间平滑窗长。对于不同的频带选用不同的窗长,第i频带毛细胞函数平均值可以表示为:
Figure BDA0001622437570000037
其中d=max{3.5τq,20ms},为第i频带的平滑窗长,τq是第p个滤波器中心频带中心频率的时间长度,τq=1/fc,L为帧移,L=d/2,w是窗的个数;
毛细胞输出通过非线性幂函数完成响度变换,由能量值变为感知响度,第i个频带的感知响度可以表示为:
y(i,w)=[S(i,w)]0.101
最后再用离散余弦变换对所得的特征去相关,得到CFCC特征参数:
Figure BDA0001622437570000038
其中,n1为CFCC特征的阶数,M是耳蜗滤波器的通道数;
在提取CFCC参数后计算其一阶差分系数:
Figure BDA0001622437570000039
dx(n1)表示第x帧语音信号的一阶差分CFCC参数的第n1阶系数,k为常数,一般取k=2;
分别提取出16阶CFCC和△CFCC之后,对特征进行维度筛选,选取最能表征语音特征的部分再进行特征混合;
步骤五、在CFCC+△CFCC特征基础上,加入TEOCC构成融合特征;
对每一帧语音信号x(n)计算其TEO能量:
ψ[x(n)]=x(n)2-x(n+1)x(n-1)
进行归一化处理并取对数得到:
Figure BDA00016224375700000310
最后进行DCT变换得到一维的TEOCC;
将一维的TEOCC特征加入到混合特征向量的最后一维中;
步骤六、对融合特征用数据归一化处理,形成归一化训练集和归一化测试集两部分,分别给两个集合加注标签,得到训练集标签和测试集标签;
特征训练集和特征测试集中任意一个数据样本为yyi,进行归一化处理后,归一化训练集和归一化测试集中对应的数据样本为:
Figure BDA0001622437570000041
其中ywin和yw0x代表yi各自的极小值和极大值。
步骤七、将归一化后的训练集采用PCA进行降维,并带入SVM模型,得到识别准确率
将降维后的语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_label,把训练集输入SVM建立模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)。
本发明的有益效果是:本发明通过将谱减法引入特征提取前端,降低了噪声对语音信号的影响,采用非线性幂函数模拟人耳听觉特性提取CFCC及其一阶差分系数,在此基础上加入表征语音信号能量的TEOCC构成融合特征,并用主成分分析方法对该融合特征进行特征选择,将选择后特征的SVM模型应用于语音识别***,其识别准确率更高,鲁棒性更强,识别速度更快。
具体实施方式
本发明以windows 7***作为程序开发软件环境,使用MATLAB R2011a作为程序开发平台,本例通过9个人对10个孤立词在信噪比为0db条件下,每词发音三次的270个语音样本作为训练集,对应7个人在相应的词汇量和信噪比下的210个语音样本作为测试集。
步骤一、对于语音信号s(n)进行加窗分帧,然后做离散傅里叶变换,求出语音信号的幅值和相角
对语音信号s(n)进行加窗,采用的窗函数为汉明窗w(n):
Figure BDA0001622437570000042
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n)
x(n)=s(n)*w(n)
对加窗语音信号x(n)进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
Figure BDA0001622437570000043
其中,j表示复数,e是常数,π是常数,谐波分量序号k=0,1,...,N-1,则加窗语音信号x(n)的短时幅度谱估计为|X(n,k)|,相角为:
Figure BDA0001622437570000044
将|X(n,k)|的值表示为语音信号的幅值,
Figure BDA0001622437570000045
的值表示为语音信号的相角;
步骤二、计算噪声段平均能量,通过谱减运算得到估计信号的功率谱;
噪声段的时长为IS,其相应的帧数为NIS,噪声段的平均能量为:
Figure BDA0001622437570000051
采用以下的谱减运算得到估计信号的功率谱
Figure BDA0001622437570000052
其中,a1和b1是两个常数,a1为过减因子,a1为增益补偿因子;
步骤三、利用谱减前的相位角信息对信号进行重构,得到谱减后的语音序列;
用谱减后的功率谱
Figure BDA0001622437570000053
结合谱减前的相位角信息
Figure BDA0001622437570000054
进行IFFT,将频域还原到时域,得到的谱减后的语音序列
Figure BDA0001622437570000055
Figure BDA0001622437570000056
步骤四、对谱减后的语音序列
Figure BDA0001622437570000057
采用非线性幂函数模拟人耳听觉特性提取耳蜗滤波倒谱特征CFCC及其一阶差分△CFCC,并利用维度筛选法进行特征混合;
听觉变换模拟了人耳听觉机理,是将耳蜗滤波函数作为一种新的小波基函数,运用小波变换实现滤波的过程;
谱减后的语音序列
Figure BDA0001622437570000058
经过听觉变换后在某一频带范围内的输出为:
Figure BDA0001622437570000059
其中
Figure BDA00016224375700000510
为耳蜗滤波函数,它的表达式为:
Figure BDA00016224375700000511
上式中
Figure BDA00016224375700000512
β>0,其中α和β的取值决定了耳蜗滤波函数的频域形状和宽度,u(t)为单位步进函数,b2为随时间可变的实数,a2为尺度变量,θ是初始相位,一般情况下
Figure BDA00016224375700000513
可由滤波器组的中心频率fc和最低中心频率fL决定
Figure BDA00016224375700000514
其中,一般
Figure BDA00016224375700000515
的取值范围是
Figure BDA00016224375700000516
Figure BDA00016224375700000517
β一般取经验值
Figure BDA00016224375700000518
β=0.2;
人耳耳蜗的内毛细胞将经过听觉变换输出后的语音信号转变为人脑可分析的电信号:
h(a2,b2)=[T(a2,b2)]2
根据人耳的听觉特性,声音听觉神经对声音的响应持续时间会随着频率的增加而逐渐变短,说明了人耳对高频暂态成分更加敏感,因此对中心频率较高的耳蜗滤波器,需要适当缩短其时间平滑窗长。对于不同的频带选用不同的窗长,第i频带毛细胞函数平均值可以表示为:
Figure BDA0001622437570000061
其中d=max{3.5τq,20ms},为第i频带的平滑窗长,τq是第p个滤波器中心频带中心频率的时间长度,τq=1/fc,L为帧移,L=d/2,w是窗的个数;
毛细胞输出通过非线性幂函数完成响度变换,由能量值变为感知响度,第i个频带的感知响度可以表示为:
y(i,w)=[S(i,w)]0.101
最后再用离散余弦变换对所得的特征去相关,得到CFCC特征参数:
Figure BDA0001622437570000062
其中,n1为CFCC特征的阶数,M是耳蜗滤波器的通道数;
在提取CFCC参数后计算其一阶差分系数:
Figure BDA0001622437570000065
dx(n1)表示第x帧语音信号的一阶差分CFCC参数的第n1阶系数,k为常数,一般取k=2;
分别提取出16阶CFCC和△CFCC之后,对特征进行维度筛选,选取最能表征语音特征的部分再进行特征混合;
步骤五、在CFCC+△CFCC特征基础上,加入TEOCC构成融合特征;
对每一帧语音信号x(n)计算其TEO能量:
ψ[x(n)]=x(n)2-x(n+1)x(n-1)
进行归一化处理并取对数得到:
Figure BDA0001622437570000063
最后进行DCT变换得到一维的TEOCC;
将一维的TEOCC特征加入到混合特征向量的最后一维中;
步骤六、对融合特征用数据归一化处理,形成归一化训练集和归一化测试集两部分,分别给两个集合加注标签,得到训练集标签和测试集标签;
特征训练集和特征测试集中任意一个数据样本为yyi,进行归一化处理后,归一化训练集和归一化测试集中对应的数据样本为:
Figure BDA0001622437570000064
其中ywin和ywax代表y4各自的极小值和极大值。
步骤七、将归一化后的训练集采用PCA进行降维,并带入SVM模型,得到识别准确率
将降维后的语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_label,把训练集输入SVM建立模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)。
其中accuracy为测试集样本的分类准确率,对应该测试集样本的语音识别准确率为accuracy=88.10%。

Claims (1)

1.一种抗噪语音识别***,其特征在于:按照如下的步骤进行:
步骤一、对于语音信号s(n)进行加窗分帧,然后做离散傅里叶变换,求出语音信号的幅值和相位角
对语音信号s(n)进行加窗,采用的窗函数为汉明窗w(n):
Figure FDA0003159630810000011
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n)
x(n)=s(n)*w(n)
对加窗语音信号x(n)进行分帧处理,则分帧后的语音信号表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
Figure FDA0003159630810000012
其中,j表示复数,e是常数,π是常数,谐波分量序号k=0,1,2,...,N-1,则加窗语音信号的短时幅度谱估计即语音信号的幅值为|X(n,k)|,
Figure FDA0003159630810000013
Figure FDA0003159630810000014
的表示语音信号的相位角;
步骤二、计算噪声段平均能量,通过谱减运算得到估计信号的功率谱;
噪声段的时长为IS,其相应的帧数为NIS,噪声段的平均能量为:
Figure FDA0003159630810000015
采用以下的谱减运算得到估计信号的功率谱
Figure FDA0003159630810000016
其中,a1和b1是两个常数,a1为过减因子,b1为增益补偿因子;
步骤三、利用谱减前的相位角信息对信号进行重构,得到谱减后的语音序列;
用谱减后的功率谱
Figure FDA0003159630810000017
结合谱减前的相位角信息
Figure FDA0003159630810000018
进行IFFT,将频域还原到时域,得到的谱减后的语音序列
Figure FDA0003159630810000019
Figure FDA00031596308100000110
步骤四、对谱减后的语音序列
Figure FDA00031596308100000111
采用非线性幂函数模拟人耳听觉特性提取耳蜗滤波倒谱特征CFCC及其一阶差分△CFCC,并利用维度筛选法进行特征混合;
听觉变换模拟了人耳听觉机理,是将耳蜗滤波函数作为一种新的小波基函数,运用小波变换实现滤波的过程;
谱减后的语音序列
Figure FDA00031596308100000112
经过听觉变换后在某一频带范围内的输出为:
Figure FDA0003159630810000021
其中
Figure FDA0003159630810000022
为耳蜗滤波函数,它的表达式为:
Figure FDA0003159630810000023
上式中
Figure FDA0003159630810000024
其中α和β的取值决定了耳蜗滤波函数的频域形状和宽度,u(t)为单位步进函数,b2为随时间可变的实数,a2为尺度变量,θ是初始相位,
Figure FDA0003159630810000025
由滤波器组的中心频率fc和最低中心频率fL决定
Figure FDA0003159630810000026
其中,
Figure FDA0003159630810000027
β取经验值
Figure FDA0003159630810000028
β=0.2;
人耳耳蜗的内毛细胞将经过听觉变换输出后的语音信号转变为人脑可分析的电信号:
h(a2,b2)=[T(a2,b2)]2
h(a2,b2)为人脑可分析的电信号,T(a2,b2)为经过听觉变换输出后的语音信号,根据人耳的听觉特性,声音听觉神经对声音的响应持续时间会随着频率的增加而逐渐变短,说明了人耳对高频暂态成分更加敏感,因此对中心频率较高的耳蜗滤波器,需要适当缩短其时间平滑窗长,对于不同的频带选用不同的窗长,第i频带毛细胞函数平均值可以表示为:
Figure FDA0003159630810000029
其中d=max{3.5τp,20ms},为第i频带的平滑窗长,τp是第p个滤波器中心频带中心频率的时间长度,τp=1/fc,L为帧移,L=d/2,w是窗的个数;
毛细胞输出通过非线性幂函数完成响度变换,由能量值变为感知响度,第i个频带的感知响度可以表示为:
y(i,w)=[S(i,w)]0.101
最后再用离散余弦变换对所得的特征去相关,得到CFCC特征参数:
Figure FDA00031596308100000210
其中,n1为CFCC特征的阶数,M是耳蜗滤波器的通道数;
在提取CFCC参数后计算其一阶差分系数:
Figure FDA00031596308100000211
dx(n1)表示第x帧语音信号的一阶差分CFCC参数的第n1阶系数,k为常数,取k=2;
分别提取出16阶CFCC和△CFCC之后,对特征进行维度筛选,选取最能表征语音特征的部分再进行特征混合;
步骤五、在CFCC+△CFCC特征基础上,加入TEOCC构成融合特征;
对每一帧语音信号x(n)计算其TEO能量:
ψ[x(n)]=x(n)2-x(n+1)x(n-1)
进行归一化处理并取对数得到:
Figure FDA0003159630810000031
最后进行DCT变换得到一维的TEOCC;
将一维的TEOCC特征加入到混合特征向量的最后一维中;
步骤六、对融合特征用数据归一化处理,形成归一化训练集和归一化测试集两部分,分别给两个集合加注标签,得到训练集标签和测试集标签;
特征训练集和特征测试集中任意一个数据样本为yyi,进行归一化处理后,归一化训练集和归一化测试集中对应的数据样本为:
Figure FDA0003159630810000032
其中ymin和ymax代表yi各自的极小值和极大值;
步骤七、将归一化后的训练集采用PCA进行降维,并带入SVM模型,得到识别准确率
将降维后的语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_label,把训练集输入SVM建立模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)。
CN201810311359.9A 2018-04-09 2018-04-09 一种抗噪语音识别*** Active CN108564965B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810311359.9A CN108564965B (zh) 2018-04-09 2018-04-09 一种抗噪语音识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810311359.9A CN108564965B (zh) 2018-04-09 2018-04-09 一种抗噪语音识别***

Publications (2)

Publication Number Publication Date
CN108564965A CN108564965A (zh) 2018-09-21
CN108564965B true CN108564965B (zh) 2021-08-24

Family

ID=63534360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810311359.9A Active CN108564965B (zh) 2018-04-09 2018-04-09 一种抗噪语音识别***

Country Status (1)

Country Link
CN (1) CN108564965B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109256127B (zh) * 2018-11-15 2021-02-19 江南大学 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN110808059A (zh) * 2019-10-10 2020-02-18 天津大学 一种基于谱减法和小波变换的语音降噪方法
CN111142084B (zh) * 2019-12-11 2023-04-07 中国电子科技集团公司第四十一研究所 一种微动太赫兹谱识别检测算法
CN113205823A (zh) * 2021-04-12 2021-08-03 广东技术师范大学 一种肺音信号端点检测方法、***及存储介质
CN113325752B (zh) * 2021-05-12 2022-06-14 北京戴纳实验科技有限公司 一种设备管理***
CN114422313B (zh) * 2021-12-22 2023-08-01 西安电子科技大学 一种帧检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100789084B1 (ko) * 2006-11-21 2007-12-26 한양대학교 산학협력단 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법
JP2012032648A (ja) * 2010-07-30 2012-02-16 Sony Corp 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置
CN102456351A (zh) * 2010-10-14 2012-05-16 清华大学 一种语音增强的***
CN103985390A (zh) * 2014-05-20 2014-08-13 北京安慧音通科技有限责任公司 一种基于伽马通相关图语音特征参数提取方法
CN107248414A (zh) * 2017-05-23 2017-10-13 清华大学 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
CN107845390A (zh) * 2017-09-21 2018-03-27 太原理工大学 一种基于pcnn语谱图特征融合的情感语音识别***

Also Published As

Publication number Publication date
CN108564965A (zh) 2018-09-21

Similar Documents

Publication Publication Date Title
CN108564965B (zh) 一种抗噪语音识别***
Ancilin et al. Improved speech emotion recognition with Mel frequency magnitude coefficient
Li et al. An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions
CN109256127B (zh) 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN112006697B (zh) 一种基于语音信号的梯度提升决策树抑郁程度识别***
CN102968990B (zh) 说话人识别方法和***
CN108198545B (zh) 一种基于小波变换的语音识别方法
CN111785285A (zh) 面向家居多特征参数融合的声纹识别方法
CN102664010B (zh) 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
Rammo et al. Detecting the speaker language using CNN deep learning algorithm
CN104778948B (zh) 一种基于弯折倒谱特征的抗噪语音识别方法
CN110931023B (zh) 性别识别方法、***、移动终端及存储介质
CN110970036A (zh) 声纹识别方法及装置、计算机存储介质、电子设备
CN108461081A (zh) 语音控制的方法、装置、设备和存储介质
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN111508504B (zh) 基于听觉中枢感知机理的说话人识别方法
CN105679321B (zh) 语音识别方法、装置及终端
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN112599148A (zh) 一种语音识别方法及装置
Hasan et al. Preprocessing of continuous bengali speech for feature extraction
CN103557925B (zh) 水下目标gammatone离散小波系数听觉特征提取方法
Islam et al. Noise-robust text-dependent speaker identification using cochlear models
CN113421584A (zh) 音频降噪方法、装置、计算机设备及存储介质
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Xue Peiyun

Inventor after: Shi Yanyan

Inventor after: Bai Jing

Inventor after: Guo Qianyan

Inventor before: Bai Jing

Inventor before: Shi Yanyan

Inventor before: Xue Peiyun

Inventor before: Guo Qianyan

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant