CN108564965B - 一种抗噪语音识别*** - Google Patents
一种抗噪语音识别*** Download PDFInfo
- Publication number
- CN108564965B CN108564965B CN201810311359.9A CN201810311359A CN108564965B CN 108564965 B CN108564965 B CN 108564965B CN 201810311359 A CN201810311359 A CN 201810311359A CN 108564965 B CN108564965 B CN 108564965B
- Authority
- CN
- China
- Prior art keywords
- cfcc
- signal
- training set
- speech signal
- auditory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000003595 spectral effect Effects 0.000 claims abstract description 24
- 238000001228 spectrum Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000012706 support-vector machine Methods 0.000 claims abstract description 14
- 210000005069 ears Anatomy 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000010606 normalization Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000002156 mixing Methods 0.000 claims abstract description 7
- 238000012216 screening Methods 0.000 claims abstract description 7
- 230000009467 reduction Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 30
- 230000009466 transformation Effects 0.000 claims description 21
- 238000009499 grossing Methods 0.000 claims description 6
- 210000004556 brain Anatomy 0.000 claims description 4
- 210000002768 hair cell Anatomy 0.000 claims description 4
- 230000003915 cell function Effects 0.000 claims description 3
- 210000003477 cochlea Anatomy 0.000 claims description 3
- 210000000860 cochlear nerve Anatomy 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 210000000067 inner hair cell Anatomy 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims 1
- 238000000513 principal component analysis Methods 0.000 abstract 2
- 238000005516 engineering process Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 230000036982 action potential Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明涉及语音识别技术领域。一种抗噪语音识别***,对于语音信号进行加窗分帧,然后做离散傅里叶变换,求出语音信号的幅值和相角;通过谱减运算得到估计信号的功率谱;利用谱减前的相位角信息对信号进行重构,得到谱减后的语音序列;对新的语音序列采用非线性幂函数模拟人耳听觉特性提取耳蜗滤波倒谱特征CFCC及其一阶差分△CFCC,并利用维度筛选法进行特征混合;对融合特征用数据归一化处理,得到训练集标签和测试集标签;将归一化后的训练集采用PCA进行降维,并带入SVM模型,得到识别准确率。
Description
技术领域
本发明涉及语音识别技术领域。
背景技术
随着信息技术的高速发展,人机交互受到越来越多的关注,语音识别作为人机交互的关键技术,成为该领域的研究重点。语音识别是计算机通过对人类语音语义信息的提取分析,从而把语音信号转变为相应的文本或命令的高技术的语音识别技术,在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域有着广泛的应用。
语音识别作为智能化技术的一个重要分支,其相关应用越来越广泛.然而语音信号特别容易受到噪声的污染,从采集到传输再到还原过程中,各个环节都可能受到噪声影响.语音增强技术就是专门用来处理含有噪声的语音信号的。谱减法作为语音增强技术的一种,总体上运算简单,容易实现。
目前语音识别中最主流的特征参数是梅尔频率倒谱系数(Mel FrequencyCepstrumCoefficent,MFCC),MFCC特征是基于傅里叶变换提取的,而事实上,傅里叶变换仅适用于平稳信号的处理。听觉变换作为处理非平稳语音信号的新方法,弥补了傅里叶变换的不足,具有谐波失真少和谱平滑度好的优点。贝尔实验室的Peter Li博士在2011年第一次提出耳蜗滤波倒谱系数并应用于说话人识别,耳蜗滤波倒谱系数是第一个使用听觉变换的特征。虽然很多学者对CFCC特征进行研究,但是从神经元动作电位发放率与声音强度的饱和关系推导出非线性幂函数可以近似于听觉神经元—强度曲线,传统的CFCC特征提取方法并没有考虑到人耳听觉的这个特性,因此采用能够模拟人耳听觉特性的非线性幂函数提取新的CFCC特征。
一个完整的语音信号包含了频率信息和能量信息。Teager能量算子作为一种非线性差分算子,能够消除零均值噪声的影响和语音增强的能力,用于特征提取中,不仅能够更好地反映语音信号的能量变化,而且能够抑制噪声,增强语音信号,用于语音识别中可以取得良好的效果。
支持向量机(Support Vector Machine,SVM)是基于结构风险最小化原则的一种新的机器学习技术。它可以更好的解决小样本、非线性、高维度等分类问题,并且具有良好的泛化性,广泛应用在模式识别、分类估计等问题当中,并通过其卓越的分类能力和良好的泛化性能,成为语音识别技术中较常用的分类模型。
发明内容
本发明所要解决的技术问题是:如何改善语音识别效果。
本发明所采用的技术方案是:一种抗噪语音识别***,按照如下的步骤进行:
步骤一、对于语音信号s(n)进行加窗分帧,然后做离散傅里叶变换,求出语音信号的幅值和相角
对语音信号s(n)进行加窗,采用的窗函数为汉明窗w(n):
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n)
x(n)=s(n)*w(n)
对加窗语音信号x(n)进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
其中,j表示复数,e是常数,π是常数,谐波分量序号k=0,1,...,N-1,则加窗语音信号x(n)的短时幅度谱估计为|X(n,k)|,相角为:
步骤二、计算噪声段平均能量,通过谱减运算得到估计信号的功率谱;
噪声段的时长为IS,其相应的帧数为NIS,噪声段的平均能量为:
采用以下的谱减运算得到估计信号的功率谱
其中,a1和b1是两个常数,a1为过减因子,a1为增益补偿因子;
步骤三、利用谱减前的相位角信息对信号进行重构,得到谱减后的语音序列;
听觉变换模拟了人耳听觉机理,是将耳蜗滤波函数作为一种新的小波基函数,运用小波变换实现滤波的过程;
上式中β>0,其中α和β的取值决定了耳蜗滤波函数的频域形状和宽度,u(t)为单位步进函数,b2为随时间可变的实数,a2为尺度变量,θ是初始相位,一般情况下可由滤波器组的中心频率fc和最低中心频率fL决定
人耳耳蜗的内毛细胞将经过听觉变换输出后的语音信号转变为人脑可分析的电信号:
h(a2,b2)=[T(a2,b2)]2
根据人耳的听觉特性,声音听觉神经对声音的响应持续时间会随着频率的增加而逐渐变短,说明了人耳对高频暂态成分更加敏感,因此对中心频率较高的耳蜗滤波器,需要适当缩短其时间平滑窗长。对于不同的频带选用不同的窗长,第i频带毛细胞函数平均值可以表示为:
其中d=max{3.5τq,20ms},为第i频带的平滑窗长,τq是第p个滤波器中心频带中心频率的时间长度,τq=1/fc,L为帧移,L=d/2,w是窗的个数;
毛细胞输出通过非线性幂函数完成响度变换,由能量值变为感知响度,第i个频带的感知响度可以表示为:
y(i,w)=[S(i,w)]0.101
最后再用离散余弦变换对所得的特征去相关,得到CFCC特征参数:
其中,n1为CFCC特征的阶数,M是耳蜗滤波器的通道数;
在提取CFCC参数后计算其一阶差分系数:
dx(n1)表示第x帧语音信号的一阶差分CFCC参数的第n1阶系数,k为常数,一般取k=2;
分别提取出16阶CFCC和△CFCC之后,对特征进行维度筛选,选取最能表征语音特征的部分再进行特征混合;
步骤五、在CFCC+△CFCC特征基础上,加入TEOCC构成融合特征;
对每一帧语音信号x(n)计算其TEO能量:
ψ[x(n)]=x(n)2-x(n+1)x(n-1)
进行归一化处理并取对数得到:
最后进行DCT变换得到一维的TEOCC;
将一维的TEOCC特征加入到混合特征向量的最后一维中;
步骤六、对融合特征用数据归一化处理,形成归一化训练集和归一化测试集两部分,分别给两个集合加注标签,得到训练集标签和测试集标签;
特征训练集和特征测试集中任意一个数据样本为yyi,进行归一化处理后,归一化训练集和归一化测试集中对应的数据样本为:
其中ywin和yw0x代表yi各自的极小值和极大值。
步骤七、将归一化后的训练集采用PCA进行降维,并带入SVM模型,得到识别准确率
将降维后的语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_label,把训练集输入SVM建立模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)。
本发明的有益效果是:本发明通过将谱减法引入特征提取前端,降低了噪声对语音信号的影响,采用非线性幂函数模拟人耳听觉特性提取CFCC及其一阶差分系数,在此基础上加入表征语音信号能量的TEOCC构成融合特征,并用主成分分析方法对该融合特征进行特征选择,将选择后特征的SVM模型应用于语音识别***,其识别准确率更高,鲁棒性更强,识别速度更快。
具体实施方式
本发明以windows 7***作为程序开发软件环境,使用MATLAB R2011a作为程序开发平台,本例通过9个人对10个孤立词在信噪比为0db条件下,每词发音三次的270个语音样本作为训练集,对应7个人在相应的词汇量和信噪比下的210个语音样本作为测试集。
步骤一、对于语音信号s(n)进行加窗分帧,然后做离散傅里叶变换,求出语音信号的幅值和相角
对语音信号s(n)进行加窗,采用的窗函数为汉明窗w(n):
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n)
x(n)=s(n)*w(n)
对加窗语音信号x(n)进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
其中,j表示复数,e是常数,π是常数,谐波分量序号k=0,1,...,N-1,则加窗语音信号x(n)的短时幅度谱估计为|X(n,k)|,相角为:
步骤二、计算噪声段平均能量,通过谱减运算得到估计信号的功率谱;
噪声段的时长为IS,其相应的帧数为NIS,噪声段的平均能量为:
采用以下的谱减运算得到估计信号的功率谱
其中,a1和b1是两个常数,a1为过减因子,a1为增益补偿因子;
步骤三、利用谱减前的相位角信息对信号进行重构,得到谱减后的语音序列;
听觉变换模拟了人耳听觉机理,是将耳蜗滤波函数作为一种新的小波基函数,运用小波变换实现滤波的过程;
上式中β>0,其中α和β的取值决定了耳蜗滤波函数的频域形状和宽度,u(t)为单位步进函数,b2为随时间可变的实数,a2为尺度变量,θ是初始相位,一般情况下可由滤波器组的中心频率fc和最低中心频率fL决定
人耳耳蜗的内毛细胞将经过听觉变换输出后的语音信号转变为人脑可分析的电信号:
h(a2,b2)=[T(a2,b2)]2
根据人耳的听觉特性,声音听觉神经对声音的响应持续时间会随着频率的增加而逐渐变短,说明了人耳对高频暂态成分更加敏感,因此对中心频率较高的耳蜗滤波器,需要适当缩短其时间平滑窗长。对于不同的频带选用不同的窗长,第i频带毛细胞函数平均值可以表示为:
其中d=max{3.5τq,20ms},为第i频带的平滑窗长,τq是第p个滤波器中心频带中心频率的时间长度,τq=1/fc,L为帧移,L=d/2,w是窗的个数;
毛细胞输出通过非线性幂函数完成响度变换,由能量值变为感知响度,第i个频带的感知响度可以表示为:
y(i,w)=[S(i,w)]0.101
最后再用离散余弦变换对所得的特征去相关,得到CFCC特征参数:
其中,n1为CFCC特征的阶数,M是耳蜗滤波器的通道数;
在提取CFCC参数后计算其一阶差分系数:
dx(n1)表示第x帧语音信号的一阶差分CFCC参数的第n1阶系数,k为常数,一般取k=2;
分别提取出16阶CFCC和△CFCC之后,对特征进行维度筛选,选取最能表征语音特征的部分再进行特征混合;
步骤五、在CFCC+△CFCC特征基础上,加入TEOCC构成融合特征;
对每一帧语音信号x(n)计算其TEO能量:
ψ[x(n)]=x(n)2-x(n+1)x(n-1)
进行归一化处理并取对数得到:
最后进行DCT变换得到一维的TEOCC;
将一维的TEOCC特征加入到混合特征向量的最后一维中;
步骤六、对融合特征用数据归一化处理,形成归一化训练集和归一化测试集两部分,分别给两个集合加注标签,得到训练集标签和测试集标签;
特征训练集和特征测试集中任意一个数据样本为yyi,进行归一化处理后,归一化训练集和归一化测试集中对应的数据样本为:
其中ywin和ywax代表y4各自的极小值和极大值。
步骤七、将归一化后的训练集采用PCA进行降维,并带入SVM模型,得到识别准确率
将降维后的语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_label,把训练集输入SVM建立模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)。
其中accuracy为测试集样本的分类准确率,对应该测试集样本的语音识别准确率为accuracy=88.10%。
Claims (1)
1.一种抗噪语音识别***,其特征在于:按照如下的步骤进行:
步骤一、对于语音信号s(n)进行加窗分帧,然后做离散傅里叶变换,求出语音信号的幅值和相位角
对语音信号s(n)进行加窗,采用的窗函数为汉明窗w(n):
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n)
x(n)=s(n)*w(n)
对加窗语音信号x(n)进行分帧处理,则分帧后的语音信号表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
其中,j表示复数,e是常数,π是常数,谐波分量序号k=0,1,2,...,N-1,则加窗语音信号的短时幅度谱估计即语音信号的幅值为|X(n,k)|,
步骤二、计算噪声段平均能量,通过谱减运算得到估计信号的功率谱;
噪声段的时长为IS,其相应的帧数为NIS,噪声段的平均能量为:
采用以下的谱减运算得到估计信号的功率谱
其中,a1和b1是两个常数,a1为过减因子,b1为增益补偿因子;
步骤三、利用谱减前的相位角信息对信号进行重构,得到谱减后的语音序列;
听觉变换模拟了人耳听觉机理,是将耳蜗滤波函数作为一种新的小波基函数,运用小波变换实现滤波的过程;
人耳耳蜗的内毛细胞将经过听觉变换输出后的语音信号转变为人脑可分析的电信号:
h(a2,b2)=[T(a2,b2)]2
h(a2,b2)为人脑可分析的电信号,T(a2,b2)为经过听觉变换输出后的语音信号,根据人耳的听觉特性,声音听觉神经对声音的响应持续时间会随着频率的增加而逐渐变短,说明了人耳对高频暂态成分更加敏感,因此对中心频率较高的耳蜗滤波器,需要适当缩短其时间平滑窗长,对于不同的频带选用不同的窗长,第i频带毛细胞函数平均值可以表示为:
其中d=max{3.5τp,20ms},为第i频带的平滑窗长,τp是第p个滤波器中心频带中心频率的时间长度,τp=1/fc,L为帧移,L=d/2,w是窗的个数;
毛细胞输出通过非线性幂函数完成响度变换,由能量值变为感知响度,第i个频带的感知响度可以表示为:
y(i,w)=[S(i,w)]0.101
最后再用离散余弦变换对所得的特征去相关,得到CFCC特征参数:
其中,n1为CFCC特征的阶数,M是耳蜗滤波器的通道数;
在提取CFCC参数后计算其一阶差分系数:
dx(n1)表示第x帧语音信号的一阶差分CFCC参数的第n1阶系数,k为常数,取k=2;
分别提取出16阶CFCC和△CFCC之后,对特征进行维度筛选,选取最能表征语音特征的部分再进行特征混合;
步骤五、在CFCC+△CFCC特征基础上,加入TEOCC构成融合特征;
对每一帧语音信号x(n)计算其TEO能量:
ψ[x(n)]=x(n)2-x(n+1)x(n-1)
进行归一化处理并取对数得到:
最后进行DCT变换得到一维的TEOCC;
将一维的TEOCC特征加入到混合特征向量的最后一维中;
步骤六、对融合特征用数据归一化处理,形成归一化训练集和归一化测试集两部分,分别给两个集合加注标签,得到训练集标签和测试集标签;
特征训练集和特征测试集中任意一个数据样本为yyi,进行归一化处理后,归一化训练集和归一化测试集中对应的数据样本为:
其中ymin和ymax代表yi各自的极小值和极大值;
步骤七、将归一化后的训练集采用PCA进行降维,并带入SVM模型,得到识别准确率
将降维后的语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_label,把训练集输入SVM建立模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810311359.9A CN108564965B (zh) | 2018-04-09 | 2018-04-09 | 一种抗噪语音识别*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810311359.9A CN108564965B (zh) | 2018-04-09 | 2018-04-09 | 一种抗噪语音识别*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108564965A CN108564965A (zh) | 2018-09-21 |
CN108564965B true CN108564965B (zh) | 2021-08-24 |
Family
ID=63534360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810311359.9A Active CN108564965B (zh) | 2018-04-09 | 2018-04-09 | 一种抗噪语音识别*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108564965B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109256127B (zh) * | 2018-11-15 | 2021-02-19 | 江南大学 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
CN110808059A (zh) * | 2019-10-10 | 2020-02-18 | 天津大学 | 一种基于谱减法和小波变换的语音降噪方法 |
CN111142084B (zh) * | 2019-12-11 | 2023-04-07 | 中国电子科技集团公司第四十一研究所 | 一种微动太赫兹谱识别检测算法 |
CN113205823A (zh) * | 2021-04-12 | 2021-08-03 | 广东技术师范大学 | 一种肺音信号端点检测方法、***及存储介质 |
CN113325752B (zh) * | 2021-05-12 | 2022-06-14 | 北京戴纳实验科技有限公司 | 一种设备管理*** |
CN114422313B (zh) * | 2021-12-22 | 2023-08-01 | 西安电子科技大学 | 一种帧检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100789084B1 (ko) * | 2006-11-21 | 2007-12-26 | 한양대학교 산학협력단 | 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법 |
JP2012032648A (ja) * | 2010-07-30 | 2012-02-16 | Sony Corp | 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置 |
CN102456351A (zh) * | 2010-10-14 | 2012-05-16 | 清华大学 | 一种语音增强的*** |
CN103985390A (zh) * | 2014-05-20 | 2014-08-13 | 北京安慧音通科技有限责任公司 | 一种基于伽马通相关图语音特征参数提取方法 |
CN107248414A (zh) * | 2017-05-23 | 2017-10-13 | 清华大学 | 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 |
CN107845390A (zh) * | 2017-09-21 | 2018-03-27 | 太原理工大学 | 一种基于pcnn语谱图特征融合的情感语音识别*** |
-
2018
- 2018-04-09 CN CN201810311359.9A patent/CN108564965B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108564965A (zh) | 2018-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564965B (zh) | 一种抗噪语音识别*** | |
Ancilin et al. | Improved speech emotion recognition with Mel frequency magnitude coefficient | |
Li et al. | An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
CN112006697B (zh) | 一种基于语音信号的梯度提升决策树抑郁程度识别*** | |
CN102968990B (zh) | 说话人识别方法和*** | |
CN108198545B (zh) | 一种基于小波变换的语音识别方法 | |
CN111785285A (zh) | 面向家居多特征参数融合的声纹识别方法 | |
CN102664010B (zh) | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN104778948B (zh) | 一种基于弯折倒谱特征的抗噪语音识别方法 | |
CN110931023B (zh) | 性别识别方法、***、移动终端及存储介质 | |
CN110970036A (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
CN108461081A (zh) | 语音控制的方法、装置、设备和存储介质 | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
CN111508504B (zh) | 基于听觉中枢感知机理的说话人识别方法 | |
CN105679321B (zh) | 语音识别方法、装置及终端 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN112599148A (zh) | 一种语音识别方法及装置 | |
Hasan et al. | Preprocessing of continuous bengali speech for feature extraction | |
CN103557925B (zh) | 水下目标gammatone离散小波系数听觉特征提取方法 | |
Islam et al. | Noise-robust text-dependent speaker identification using cochlear models | |
CN113421584A (zh) | 音频降噪方法、装置、计算机设备及存储介质 | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Xue Peiyun Inventor after: Shi Yanyan Inventor after: Bai Jing Inventor after: Guo Qianyan Inventor before: Bai Jing Inventor before: Shi Yanyan Inventor before: Xue Peiyun Inventor before: Guo Qianyan |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |