CN103489454A - 基于波形形态特征聚类的语音端点检测方法 - Google Patents

基于波形形态特征聚类的语音端点检测方法 Download PDF

Info

Publication number
CN103489454A
CN103489454A CN201310432146.9A CN201310432146A CN103489454A CN 103489454 A CN103489454 A CN 103489454A CN 201310432146 A CN201310432146 A CN 201310432146A CN 103489454 A CN103489454 A CN 103489454A
Authority
CN
China
Prior art keywords
sound
subsegment
signal
voice
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310432146.9A
Other languages
English (en)
Other versions
CN103489454B (zh
Inventor
杨莹春
赵启明
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310432146.9A priority Critical patent/CN103489454B/zh
Publication of CN103489454A publication Critical patent/CN103489454A/zh
Application granted granted Critical
Publication of CN103489454B publication Critical patent/CN103489454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于波形形态特征聚类的语音端点检测方法,包括如下步骤:S01.由原始语音信号获取纯净语音信号;S02.获得所述纯净语音信号的包络信号,并将包络信号分成若干声音子段;S03.根据各个声音子段的波形形态特征将声音子段进行聚类,去除非语音声音子段;S04.将步骤S03中保留部分的全部声音子段进行处理,得到语音端点。本发明在使用单一特征的情况下使用相对较简单的无监督聚类方法就快速、准确地得到了很好的结果。

Description

基于波形形态特征聚类的语音端点检测方法
技术领域
本发明涉及语音端点检测领域,特别涉及一种基于波形形态特征聚类的语音端点检测方法。
背景技术
当前声纹识别技术的发展已经达到了较高水平,而语音端点检测是语音分析、语音合成和说话人识别中的一个必要步骤,在语音复读***以及语音识别***中,语音端点检测技术已经取得了一个比较好的结果,目前已有的端点检测技术非常多,主要使用的特征有短时能量、过零率、信息熵、子带能量、基音、时域参数、频域参数,倒谱参数等等,而使用的模型分类方法也是多种多样,主要的有双门限、神经网络、小波模型、隐马尔可夫模型等等,但是实际环境中比如背景噪音的问题,效果还没有达到期望。
公开号为102148030A的专利文献公开了一种语音识别的端点检测方法,其包括:采集背景噪声和含噪语音信号;分析背景噪声和含噪语音信号的特性;提取背景噪声线性预测模型的参数或者其LPC(linear predictivecoding)即线性预测编码系数,作为背景噪声线性预测模板;确定含噪语音信号的端点,即将每帧含噪语音的线性预测系数和背景噪声模板的参数对比,并处理为特征值。当此特征值的变化超过设定值时,即作为检测到语音端点的标志还可以根据背景噪声的变化,即修正背景噪声线性预测模型将它作为背景噪声模板。该方法能够很好实现带背景噪声环境下,对人们说话语音信号的端点检测。
该方法的缺陷在于,需要获取多个特征参数,其计算过程复杂。因此如何通过单个特征参数,在存在背景噪声的情况下进行较为准确的语音信号端点检测是需要解决的问题。同时,希望在背景噪声较小的情况下,实现较为快速的语音信号端点的检测。
发明内容
为了在存在背景噪声的情况下通过单一波形形态特征进行较好的语音端点检测,本发明提供了一种基于波形形态特征聚类的语音端点检测方法,包括如下步骤:
S01,由原始语音信号获取纯净语音信号;
S02,获得所述纯净语音信号的包络信号,并将包络信号分成若干声音子段;
S03,根据各个声音子段的波形形态特征将声音子段进行聚类,并在聚类结果中去除非语音的声音子段,保留其余部分;
S04,将步骤S03中保留部分的全部声音子段进行处理,得到语音端点。
其中,非语音声音子段指的是语音信号中端点信息之外的静音部分以及背景噪音部分。本发明以一定阈值使用语音增强技术获取纯净语音,滤波求取声音信号的包络信号和用无监督聚类方法的声音子段聚类为核心技术,可以在存在背景噪声的情况下很好地滤除噪声,从原始的声音信号得到语音端点。
步骤S01获取纯净语音信号步骤为:将原始语音信号进行语音增强得到对比信号,由对比信号和原始语音信号计算得到信噪比,若信噪比大于设定阈值,则将原始语音信号作为纯净语音信号;若信噪比小于设定阈值,则将对比信号作为纯净语音信号。
在有背景噪音的情况下,则后续声音子段聚类的效果会变差,语音端点检测的效果会显著降低,因此需要预先检验当前语音信号是否为纯净语音信号。
对原始语音信号进行语音增强的方法为下列方法中的一种:最大后验概率估计法、卡尔曼滤波法、梳状滤波器法、维纳滤波、谱减法、短时谱幅度的最小均方误差估计法、自适应滤波法、隐马尔可夫模型法、小波变换、神经网络、听觉掩蔽以及分形理论。利用最大后验概率估计法、卡尔曼滤波法、梳状滤波器法、维纳滤波、谱减法、短时谱幅度的最小均方误差估计法、自适应滤波法、隐马尔可夫模型法、小波变换、神经网络、听觉掩蔽、分形理论进行语音增强为现有技术,本领域技术人员利用这些方法均可对原始语音信号进行语音增强。
步骤S02中获取纯净语音信号的包络信号的方法为IIR滤波、hilbert变换或复解析小波变换。本领域技术人员通过这些方法均可获取纯净语音信号的包络信号。
步骤S02中对包络信号求极大值和极小值,根据极小值将包络信号分成声音子段,两个相邻的极小值位置之间是一个声音子段,而极大值所在位置是声音子段的波峰。通过求包络信号的极大值和极小值可以获得各个声音子段以及声音子段波峰幅值这一波形形态特征。
步骤S03中选择声音子段的波峰幅值作为波形形态特征,并将声音子段按波峰幅值降序排列后,再将声音子段进行聚类,将聚类结果中的最后一部分作为非语音的声音子段去除,保留其余部分。波形形态特征包括波峰幅值、波段幅值均值、波段面积、波峰因子,作为优选,将波峰幅值作为用于聚类的波形形态特征。在按波峰幅值降序排列并进行聚类之后,所得聚类结果的各个部分按波峰幅值降序排列,因此将聚类结果中的最后一个部分作为非语音声音子段去除,保留前面的部分。
层次聚合算法、K-means算法、K-modes算法、模糊聚类算法、图论算法、基于网格和密度的聚类算法以及ACODF算法。本领域技术人员通过这些方法均可对声音子段进行聚类。。
步骤S04中处理方法为将步骤S03中保留部分的全部声音子段按时间排序,并将相邻时间间隔小于阈值的声音子段连接起来,得到语音端点。其中,在对声音子段按照波形形态特征进行聚类所得结果的各个部分中声音子段的时间顺序发生了改变,因此在聚类结束后,对聚类结果中所有的声音子段按照时间先后顺序重新排序,再根据声音子段相邻时间间隔的阈值连接声音子段,得到的独立的声音片段即为语音端点。
步骤S04中相邻时间间隔的阈值范围为0.08s至0.3s。此阈值是根据普通人的语速来确定的,一个人的语速以200字每分钟为上限,则单字的时间为0.3s,因此以这个为上限设定阈值。
本发明在使用单一特征的情况下使用相对较简单的无监督聚类方法就快速、准确地得到了很好的结果。
附图说明
图1为本发明一个实施例的端点检测的流程图;
图2为本发明该实施例的声音子段聚类的详细步骤;
图3为本发明该实施例的原始语音信号图;
图4为本发明该实施例的端点信息在包络信号中的显示效果,图中仅示意端点内数据;
图5为本发明该实施例的端点信息在原语音信号中的显示效果,图中仅示意了端点内数据。
具体实施方式
下面结合附图和实施例,对本发明基于波形形态特征聚类为五份的端点检测作详细描述。
本发明当前实施例的实验数据是NIST Speaker Recognition Evaluation评测的2004、2006以及2008年的male中train部分和test部分中的telephone数据,2004年train中telephone数据包含了248个语音,test中telephone数据包含了1606个语音;06年train中telephone数据包含了354个语音;而08年的train中telephone数据中包含了648个语音。NIST提供了04年和06年中全部语音数据正确的端点文本信息,因此可以用于检测本发明的错误率。以下用male_train_telephone表示male中train部分中的telephone数据,用male_test_telephone表示male中test部分中的telephone数据。语音数据的格式是8000Hz采样率,l6位量化,单通道的WAV。实验的环境是matlab2012。
图1为本发明基于波形形态特征聚类的语音端点检测方法的一个实施例,步骤如下:
步骤S01,获取纯净语音信号。
在有背景噪音的情况下,则后续声音子段聚类的效果会变差,端点检测的效果会显著降低,因此需要预先检验当前语音信号是否为纯净声音信号。将原始语音信号进行语音增强后的信号作为对比信号,原始语音信号进行语音增强的方法为下列方法中的一种:最大后验概率估计法、卡尔曼滤波法、梳状滤波器法、维纳滤波、谱减法、短时谱幅度的最小均方误差估计法、自适应滤波法、隐马尔可夫模型法、小波变换、神经网络、听觉掩蔽以及分形理论。本实施例采用对原始语音信号进行维纳滤波来进行原始语音信号的语音增强。当原始语音信号输入维纳滤波器时,采用维纳滤波可以尽可能精确地将纯净的不含有背景噪音的语音信号表现出来,因此采用维纳滤波作为优选方案进行语音增强,之后计算声音的信噪比(SNR),若SNR大于等于一定的阈值
Figure BDA00003848333400052
作为优选,
Figure BDA00003848333400053
则认为当前声音信号为纯净声音信号,否则将滤波后的数据作为纯净声音信号。SNR的阈值是通过计算并观察大量的对话场景下声音文件的SNR确定的,SNR在9.2以上的表示无噪音信号(纯净语音信号),9.2以下的为有噪音信号。
1-1,对NIST在2004、2006、2008年的male_train/test_telephone数据中分别计算每一个语音数据的SNR,具体计算过程如下:
①对最初的原始语音信号xi(i=1,2,…M)做维纳滤波,得到滤波信号(即对比信号)syi(i=1,2,…m),其中M为原始语音信号xi(i=1,2,…M)的长度,m为维纳滤波信号syi(i=1,2,…m)的长度,下标i表示第i个采样点,
维纳滤波器的传递函数表达式如下:
G ( k ) = { E { | S ( k ) | 2 } E { | S ( k ) | 2 } + βE { | W ( k ) | 2 } ) } ∂
其中,S(k)为纯净语音信号的傅里叶变换,W(k)为加性噪声信号的傅里叶变换,k表示第k个频点,符号E{}表示数学期望,在对含噪语音信号实施维纳滤波时,可通过调整
Figure BDA00003848333400054
和β的值,获得更佳的滤波效果。维纳滤波的参数按照最小均方误差准则确定。
②以syi(i=1,2,…m)的长度截取最初的原始语音信号xi(i=1,2,…M)的第1个至第m个采样点的幅值作为原始语音信号的幅值sxi(i=1,2,…m),即在以后的步骤里面,xi(i=1,2,…m)作为原始语音信号,
sx i = x i ( i = 1,2 , . . . M ) , M = m x i ( i = 1,2 , . . . m ) , M > m
i=1,2,…m
③计算语音数据的SNR,表达式如下:
SNR = 10 * log 10 ( Σ i = 1 i = m sx i 2 / Σ i = 1 i = m ( sx i - sy i ) 2 )
1-2,SNR的值在9.2以上的时候,语音信号可以保证为是纯净语音信号,但并不代表SNR为9.2以下一定为非纯净语音。
sz i = sy i , &PartialD; < 9.2 sx i , &PartialD; &GreaterEqual; 9.2
i=1,2,…m
其中szi(i=1,2,…m)为获取的纯净语音信号。
步骤S02,获得声音子段。
对获取的纯净声音信号求取包络信号,求取包络信号的方法可为IIR滤波、hilbert变换或复解析小波变换。IIR滤波速度快,取出的包络信号较为准确地反映了原始语音信号的整体走向趋势,因此本实施例采用IIR滤波求取包络,首先将声音信号的幅值szi(i=1,2,…m)全部取绝对值得到y,再构造无限冲击响应滤波器(IIR Filter),对y进行滤波得到信号的包络信号。然后对包络信号求信号的极大值、极小值,两个相邻的极小值位置之间是一个声音子段,而极大值所在位置是声音子段的波峰,将包络信号分成声音子段。
2-1,对步骤1-1所提供的纯净语音信号求取包络信号。
①对纯净语音信号取绝对值,表达式如下:
sw i = sz i , sz i &GreaterEqual; 0 - sz i , sz i < 0 ,
i=1,2,…m
szi(i=1,2,…m)为步骤1-1得到的纯净声音信号,swi(i=1,2,…m)是对szi(i=1,2,…m)取绝对值所得到的数据
②使用滤波器构造函数butter构造滤波器函数filter的参数,根据滤波器阶数n和截止频率Wn,计算ButterWorth滤波器分子系数bi(i=1,2,…n+1)和分母系数ai(i=1,2,…n+1),作为优选,n=3,Wn=10/fn,fn=fs/2,其中,fn为奈奎斯特频率,即数据采样频率fs的一半;
③使用滤波器函数filter对szi(i=1,2,…m)进行滤波,得到包络信号soi(i=1,2,…m),它通过下面的差分方程得到,
a1*son=b1*szn+b2*szn-1+…+bnb+1*szn-nb-a2
*son-1-…-ana+1*son-na
n=1,2,…,m
其中,na=nb=n,表示滤波器的阶数,{a1,a2,…ana+1}表示差分方程输出soi(i=1,2,…m)的系数,如果a1不为1,函数filter会将它规范化为1,{b1,b2,…bnb+1}表示输入szi(i=1,2,…m)的系数。
2-2,获取声音子段以及对应波峰处的幅值。
①对语音的包络信号soi(i=1,2,…m)求一次差分,得到表达式如下:
f1i=soi+1-soi
i=1,2,…m-1
②对f1i(i=1,2,…m-1)再求一次差分,得到表达式如下:
f2j=f1j+1-f1j
j=1,2,…m-2
③将f2j(j=1,2,…m-2)头尾分别加上0得到f3k(k=1,2,…m),
f 3 k = 0 , k = 1 f 2 k - 1 0 , k = m , k = 2,3 , . . . m - 1
k=1,2,…m
④f3k(k=1,2,…m)中值为-2的位置即为包络信号中极大值所在的位置,而值为2的位置则为包络信号中极小值所在的位置,
⑤以两个相邻的极小值为声音子段的起始和终止位置,而它们之间的极大值则为这个声音子段的波峰。
步骤S03,根据波峰幅值将声音子段进行聚类,并在聚类结果中去除非语音的声音子段,保留其余部分。
如图2所示,具体步骤如下:
①用声音子段形态特征进行聚类。作为优选,选择波峰幅值作为声音子段的波形形态特征,首先按波峰幅值降序排列这些声音子段,得到待聚类样本sample。
②用无监督聚类方法将待聚类样本进行聚类的方法有层次聚合算法、K-means算法、K-modes算法、模糊聚类算法、图论算法、基于网格和密度的聚类算法、ACODF算法等等。K-means算法简单且计算速度较快,应用在语音端点检测中可加快处理速度,作为优选,采用K-means方法,将sample聚类为五份(即进行五分聚类),按照波峰幅值降序排列的顺序,五类分别为class1,class2,class3,class4,class5,而num_class1、num_class2、num_class3、num_class4分别是class1,class2,class3,class4中声音子段的个数,计算其总和:total_num=num_class1+num_class2+num_class3+num_class4。
保留五分聚类的前四类,即sample的前total_num个样本,计算这些声音子段的总长度得到第一次五分聚类的结果time_K-means_five_interval_1,
time _ K - means _ result _ five _ 1
= &Sigma; i = 1 i = num _ class 1 L interval ( i ) + &Sigma; i = 1 i = num _ class 2 L interval ( i )
+ &Sigma; i = 1 i = num _ class 3 L interval ( i ) + &Sigma; i = 1 i = num _ class 4 L interval ( i )
其中Linterval(i)表示五分聚类的结果中前四类中的每一个声音子段的长度。
五分聚类的目的就是剔除非语音声音子段,结合声音子段波峰幅值的实际显示特性(波峰幅值最低的一类极有可能是非语音声音子段)来看,应保留分类结果中波峰幅值较高的部分。由于在聚类之前进行了波峰幅值的降序排列,因此聚类后的多个部分同样按照波峰幅值降序排列,波峰幅值最小的部分处于最后。经过实验得知,取聚类的前四类为保留部分最好。同样的,四分聚类和三分聚类的结果都分别只保留前三类和前两类。
如果time_K-means_five_interval_1小于全部声音子段总长度的一定比例(本发明实施例中,作为优选,该比例为60%),则将第一次五分聚类结果作为最终的聚类结果。无监督聚类方法具有不稳定性,实验当中95%的结果都是第一次五分聚类的情况下就得到了最终聚类结果。
③如果time_K-means_five_interval_1大于全部声音子段总长度的一定比例(本发明实施例中,作为优选,该比例为60%),就再以同样方法进行一次五分聚类,得到保留部分的声音子段总长度为time_K-means_five_interval_2,若time_K-means_five_interval_2小于上述的60%,则将该次五分聚类作为聚类结果。否则以两次五分聚类的结果中较小的情况作为五分聚类的结果time_K-means_five_interval,进行第四步操作。
④以同样方法将声音子段聚类为四份,并保留聚类结果的前三类,长度time_K-means_four_interval,若(time_K-means_five_interval-time_K-means_four_interval)<time_K-means_five_interval*0.15,则以聚类为五份的结果为步骤3的结果;否则将声音子段聚类为三份,其中前两类的声音子段长度为time_K-means_three_interval,若(time_K-means_four_interval-time_K-means_three_interval)<time_K-means_five_interval*0.2,则以聚类为四份的结果作为聚类结果,并保留前三类;否则以三分聚类的结果作为聚类结果,并保留前两类。
步骤S04,处理步骤03保留部分的声音子段,得到语音端点。
在对声音子段按照波峰幅值进行排序并进行聚类之后,声音子段的时间顺序发生了改变,因此在聚类结束后,对聚类结果中所有的声音子段按照时间先后顺序重新排序,再根据各个声音子段之间的时间间隔连接声音。所描述的阈值是根据普通人的语速来确定的,一个人的语速以200字每分钟为上限,则单字的时间为0.3s,以这个为上限设定一个阈值。为了语音的连贯性,本实施例将阈值设为0.1s,将相邻时间间隔小于0.1s的声音子段连接起来就得到最终的端点信息。
本发明方法的运行时间和原始语音数据的长度有很大关系,这里测试的两个数据集的数据长度都是为3分钟左右,以波形的波峰幅值为特征,计算得到的运行时间和结果如表1,其中MINE一栏对应数据为采用本发明方法所进行的语音端点检测结果。同时进行试验的特征还有波段幅值均值、波段面积和波峰因子以及这五个特征的组合,作为优选,选取波形的波峰幅值作为波形形态特征,作为对比的是,文章A PRACTICAL,SELF-ADAPTIVE VOICE ACTIVITY DETECTOR FORSPEAKERVERIFICATION WITH NOISY TELEPHONEEPHONE ANDMICROPHONE DATA中Tomi Kinnunen和Padmanabhan Rajan提出的VQVAD方法,以及开源平台ALIZE中能量检测的方法。
实验的计算平台是PC机,Core i3-21303.3GHz处理器和8GB DDR3内存。三个步骤中语音增强方法占据了处理时间的90%以上,当需要求取端点信息的语音可以确定是纯净语音的时候可以不做这个操作,这时每个语音的处理时间将在0.5s以内。
Figure BDA00003848333400101
从表格中可以看到,利用本发明进行的语音端点检测方法具有更快的处理速度,并且减少了错误率。
本发明在使用单一特征的情况下使用相对较简单的无监督聚类方法就快速、准确地得到了很好的结果。

Claims (9)

1.一种基于波形形态特征聚类的语音端点检测方法,其特征在于,包括如下步骤:
S01,由原始语音信号获取纯净语音信号;
S02,获得所述纯净语音信号的包络信号,并将包络信号分成若干声音子段;
S03,根据各个声音子段的波形形态特征将声音子段进行聚类,并在聚类结果中去除非语音的声音子段,保留其余部分;
S04,将步骤S03中保留部分的全部声音子段进行处理,得到语音端点。
2.如权利要求1所述基于波形形态特征聚类的语音端点检测方法,其特征在于,步骤S01获取纯净语音信号步骤为:将原始语音信号进行语音增强得到对比信号,由对比信号和原始语音信号计算得到信噪比,若信噪比大于设定阈值,则将原始语音信号作为纯净语音信号;若信噪比小于设定阈值,则将对比信号作为纯净语音信号。
3.如权利要求2所述所述基于波形形态特征聚类的语音端点检测方法,其特征在于,对原始语音信号进行语音增强的方法为下列方法中的一种:最大后验概率估计法、卡尔曼滤波法、梳状滤波器法、维纳滤波、谱减法、短时谱幅度的最小均方误差估计法、自适应滤波法、隐马尔可夫模型法、小波变换、神经网络、听觉掩蔽以及分形理论。
4.如权利要求1所述所述基于波形形态特征聚类的语音端点检测方法,其特征在于,步骤S02中获取纯净语音信号的包络信号的方法为IIR滤波、hilbert变换或复解析小波变换。
5.如权利要求1所述所述基于波形形态特征聚类的语音端点检测方法,其特征在于,步骤S02中对包络信号求极大值和极小值,根据极小值将包络信号分成声音子段,两个相邻的极小值位置之间是一个声音子段,而极大值所在位置是声音子段的波峰。
6.如权利要求1所述所述基于波形形态特征聚类的语音端点检测方法,其特征在于,步骤S03中选择声音子段的波峰幅值作为波形形态特征,并将声音子段按波峰幅值降序排列后,再将声音子段进行聚类,将聚类结果中的最后一部分作为非语音的声音子段去除,保留其余部分。
7.如权利要求7所述所述基于波形形态特征聚类的语音端点检测方法,其特征在于,步骤S03中声音子段的聚类算法为下列算法中的一种:层次聚合算法、K-means算法、K-modes算法、模糊聚类算法、图论算法、基于网格和密度的聚类算法以及ACODF算法。
8.如权利要求1所述所述基于波形形态特征聚类的语音端点检测方法,其特征在于,步骤S04中处理方法为将步骤S03中保留部分的全部声音子段按时间排序,并将相邻时间间隔小于阈值的声音子段连接起来,得到语音端点。
9.如权利要求1所述所述基于波形形态特征聚类的语音端点检测方法,其特征在于,步骤S04中相邻时间间隔的阈值范围为0.08s至0.3s。
CN201310432146.9A 2013-09-22 2013-09-22 基于波形形态特征聚类的语音端点检测方法 Active CN103489454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310432146.9A CN103489454B (zh) 2013-09-22 2013-09-22 基于波形形态特征聚类的语音端点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310432146.9A CN103489454B (zh) 2013-09-22 2013-09-22 基于波形形态特征聚类的语音端点检测方法

Publications (2)

Publication Number Publication Date
CN103489454A true CN103489454A (zh) 2014-01-01
CN103489454B CN103489454B (zh) 2016-01-20

Family

ID=49829633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310432146.9A Active CN103489454B (zh) 2013-09-22 2013-09-22 基于波形形态特征聚类的语音端点检测方法

Country Status (1)

Country Link
CN (1) CN103489454B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104867493A (zh) * 2015-04-10 2015-08-26 武汉工程大学 基于小波变换的多重分形维数端点检测方法
CN105091208A (zh) * 2014-05-23 2015-11-25 美的集团股份有限公司 空调器风速控制方法和***
CN105825871A (zh) * 2016-03-16 2016-08-03 大连理工大学 一种无前导静音段语音的端点检测方法
CN106205624A (zh) * 2016-07-15 2016-12-07 河海大学 一种基于dbscan算法的声纹识别方法
CN106611598A (zh) * 2016-12-28 2017-05-03 上海智臻智能网络科技股份有限公司 一种vad动态参数调整方法和装置
CN106971725A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和***
CN107045870A (zh) * 2017-05-23 2017-08-15 南京理工大学 一种基于特征值编码的语音信号端点检测方法
CN107077860A (zh) * 2014-10-21 2017-08-18 三菱电机株式会社 用于将有噪音频信号转换为增强音频信号的方法
CN107393558A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 语音活动检测方法及装置
CN107561376A (zh) * 2016-06-30 2018-01-09 中兴通讯股份有限公司 一种电源噪声测量的方法及装置
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN108133711A (zh) * 2018-01-24 2018-06-08 成都创信特电子技术有限公司 具有降噪模块的数字信号监测设备
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN108198547A (zh) * 2018-01-18 2018-06-22 深圳市北科瑞声科技股份有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN108257607A (zh) * 2018-01-24 2018-07-06 成都创信特电子技术有限公司 一种多通道语音信号处理方法
CN108281154A (zh) * 2018-01-24 2018-07-13 成都创信特电子技术有限公司 一种语音信号的降噪方法
CN108492347A (zh) * 2018-04-11 2018-09-04 广东数相智能科技有限公司 图像生成方法、装置与计算机可读存储介质
CN108962283A (zh) * 2018-01-29 2018-12-07 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
CN109410920A (zh) * 2018-10-15 2019-03-01 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN112001431A (zh) * 2020-08-11 2020-11-27 天津大学 一种基于梳状卷积的高效图像分类方法
CN112802489A (zh) * 2021-04-09 2021-05-14 广州健抿科技有限公司 一种通话语音自动调节***及方法
CN113192507A (zh) * 2021-05-13 2021-07-30 北京泽桥传媒科技股份有限公司 一种基于语音识别的资讯检索方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999044191A1 (en) * 1998-02-27 1999-09-02 At & T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
CN1758331A (zh) * 2005-10-31 2006-04-12 浙江大学 基于基音频率的快速音频分割方法
CN102148030A (zh) * 2011-03-23 2011-08-10 同济大学 一种语音识别的端点检测方法
CN102800322A (zh) * 2011-05-27 2012-11-28 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
CN102971789A (zh) * 2010-12-24 2013-03-13 华为技术有限公司 用于执行话音活动检测的方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999044191A1 (en) * 1998-02-27 1999-09-02 At & T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
CN1758331A (zh) * 2005-10-31 2006-04-12 浙江大学 基于基音频率的快速音频分割方法
CN102971789A (zh) * 2010-12-24 2013-03-13 华为技术有限公司 用于执行话音活动检测的方法和设备
CN102148030A (zh) * 2011-03-23 2011-08-10 同济大学 一种语音识别的端点检测方法
CN102800322A (zh) * 2011-05-27 2012-11-28 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105091208B (zh) * 2014-05-23 2017-11-14 美的集团股份有限公司 空调器风速控制方法和***
CN105091208A (zh) * 2014-05-23 2015-11-25 美的集团股份有限公司 空调器风速控制方法和***
CN107077860B (zh) * 2014-10-21 2021-02-09 三菱电机株式会社 用于将有噪音频信号转换为增强音频信号的方法
CN107077860A (zh) * 2014-10-21 2017-08-18 三菱电机株式会社 用于将有噪音频信号转换为增强音频信号的方法
CN104867493A (zh) * 2015-04-10 2015-08-26 武汉工程大学 基于小波变换的多重分形维数端点检测方法
CN104867493B (zh) * 2015-04-10 2018-08-03 武汉工程大学 基于小波变换的多重分形维数端点检测方法
CN106971725B (zh) * 2016-01-14 2021-06-15 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和***
CN106971725A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和***
CN105825871B (zh) * 2016-03-16 2019-07-30 大连理工大学 一种无前导静音段语音的端点检测方法
CN105825871A (zh) * 2016-03-16 2016-08-03 大连理工大学 一种无前导静音段语音的端点检测方法
CN107561376A (zh) * 2016-06-30 2018-01-09 中兴通讯股份有限公司 一种电源噪声测量的方法及装置
CN106205624A (zh) * 2016-07-15 2016-12-07 河海大学 一种基于dbscan算法的声纹识别方法
CN106205624B (zh) * 2016-07-15 2019-10-15 河海大学 一种基于dbscan算法的声纹识别方法
CN106611598A (zh) * 2016-12-28 2017-05-03 上海智臻智能网络科技股份有限公司 一种vad动态参数调整方法和装置
CN106611598B (zh) * 2016-12-28 2019-08-02 上海智臻智能网络科技股份有限公司 一种vad动态参数调整方法和装置
CN107045870A (zh) * 2017-05-23 2017-08-15 南京理工大学 一种基于特征值编码的语音信号端点检测方法
CN107393558B (zh) * 2017-07-14 2020-09-11 深圳永顺智信息科技有限公司 语音活动检测方法及装置
CN107393558A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 语音活动检测方法及装置
CN107799126B (zh) * 2017-10-16 2020-10-16 苏州狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN108198547A (zh) * 2018-01-18 2018-06-22 深圳市北科瑞声科技股份有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN108281154B (zh) * 2018-01-24 2021-05-18 成都创信特电子技术有限公司 一种语音信号的降噪方法
CN108133711B (zh) * 2018-01-24 2021-05-18 成都创信特电子技术有限公司 具有降噪模块的数字信号监测设备
CN108281154A (zh) * 2018-01-24 2018-07-13 成都创信特电子技术有限公司 一种语音信号的降噪方法
CN108257607A (zh) * 2018-01-24 2018-07-06 成都创信特电子技术有限公司 一种多通道语音信号处理方法
CN108257607B (zh) * 2018-01-24 2021-05-18 成都创信特电子技术有限公司 一种多通道语音信号处理方法
CN108133711A (zh) * 2018-01-24 2018-06-08 成都创信特电子技术有限公司 具有降噪模块的数字信号监测设备
CN108962283A (zh) * 2018-01-29 2018-12-07 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
CN108492347A (zh) * 2018-04-11 2018-09-04 广东数相智能科技有限公司 图像生成方法、装置与计算机可读存储介质
CN108492347B (zh) * 2018-04-11 2022-02-15 广东数相智能科技有限公司 图像生成方法、装置与计算机可读存储介质
CN109410920A (zh) * 2018-10-15 2019-03-01 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN112001431A (zh) * 2020-08-11 2020-11-27 天津大学 一种基于梳状卷积的高效图像分类方法
CN112001431B (zh) * 2020-08-11 2022-06-28 天津大学 一种基于梳状卷积的高效图像分类方法
CN112802489A (zh) * 2021-04-09 2021-05-14 广州健抿科技有限公司 一种通话语音自动调节***及方法
CN113192507A (zh) * 2021-05-13 2021-07-30 北京泽桥传媒科技股份有限公司 一种基于语音识别的资讯检索方法及***
CN113192507B (zh) * 2021-05-13 2022-04-29 北京泽桥传媒科技股份有限公司 一种基于语音识别的资讯检索方法及***

Also Published As

Publication number Publication date
CN103489454B (zh) 2016-01-20

Similar Documents

Publication Publication Date Title
CN103489454B (zh) 基于波形形态特征聚类的语音端点检测方法
Pandey et al. Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain
Biswas et al. Admissible wavelet packet features based on human inner ear frequency response for Hindi consonant recognition
CN103646649A (zh) 一种高效的语音检测方法
CN104078039A (zh) 基于隐马尔科夫模型的家用服务机器人语音识别***
Dua et al. Performance evaluation of Hindi speech recognition system using optimized filterbanks
Paliwal et al. Usefulness of phase in speech processing
Martinez et al. On the relevance of auditory-based Gabor features for deep learning in robust speech recognition
Roy et al. DeepLPC: A deep learning approach to augmented Kalman filter-based single-channel speech enhancement
He et al. Stress detection using speech spectrograms and sigma-pi neuron units
Adam et al. Wavelet cesptral coefficients for isolated speech recognition
Hsu et al. Voice activity detection based on frequency modulation of harmonics
Soni et al. State-of-the-art analysis of deep learning-based monaural speech source separation techniques
Biswas et al. Admissible wavelet packet sub‐band based harmonic energy features using ANOVA fusion techniques for Hindi phoneme recognition
Verma et al. An acoustic analysis of speech for emotion recognition using deep learning
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Gerazov et al. Kernel power flow orientation coefficients for noise-robust speech recognition
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
MY An improved feature extraction method for Malay vowel recognition based on spectrum delta
Thakur et al. Model-based unsupervised segmentation of birdcalls from field recordings
Shahrul Azmi et al. Noise robustness of Spectrum Delta (SpD) features in Malay vowel recognition
Gowda et al. Continuous kannada speech segmentation and speech recognition based on threshold using MFCC and VQ
Ananthapadmanabha et al. An interesting property of LPCs for sonorant vs fricative discrimination
Oirere et al. Automatic speech recognition and verification using lpc, mfcc and svm
Mahesha et al. Vector Quantization and MFCC based classification of Dysfluencies in Stuttered Speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant