CN110047519B - 一种语音端点检测方法、装置及设备 - Google Patents
一种语音端点检测方法、装置及设备 Download PDFInfo
- Publication number
- CN110047519B CN110047519B CN201910311947.7A CN201910311947A CN110047519B CN 110047519 B CN110047519 B CN 110047519B CN 201910311947 A CN201910311947 A CN 201910311947A CN 110047519 B CN110047519 B CN 110047519B
- Authority
- CN
- China
- Prior art keywords
- frame
- spectrum
- short
- calculating
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 101
- 238000001228 spectrum Methods 0.000 claims abstract description 235
- 230000003595 spectral effect Effects 0.000 claims abstract description 43
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 238000009432 framing Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 239000000126 substance Substances 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002087 whitening effect Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种语音端点检测方法,包括对所接收的语音信号进行滤波并分帧,得到一次信号;计算每帧所述一次信号的短时幅值和频谱;根据所述短时幅值构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号;计算每帧所述二次信号的功率谱,并计算谱能量总和;根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值;以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断。本发明提供的语音端点检测方法能够适用于功率谱分布相对较为集中的噪声类型,并提高语音端点检测的准确性。
Description
技术领域
本发明涉及语音识别技术领域,尤其是涉及一种语音端点检测方法、装置及设备。
背景技术
语音端点检测是一种应用于语音前端处理的技术,其通过端点检测算法把信号中的含噪语音信号提取出来,为后期声源定位、语音增强、语音识别、语音编码等算法和技术提供有效的信息。现有技术中的语音端点检测方法的步骤主要分为两步:语音信号特征提取和检测语音信号。首先通过不同的算法进行语音信号的特征提取,把声音信号和噪声信号进行区分;然后通过不同的检测方法检验提取的语音信号。语音信号的特征提取是语音端点检测技术的核心部分,决定了最终语音端点检测的准确率。
语音端点检测技术在处理域上主要是频域端点检测,其中频域端点检测是一种基于谱熵法的语音端点检测方法,其利用语音信号与噪声信号具备不同谱熵的特点对信号进行区分,然后通过检测功率谱的平坦程度进行语音端点检测,即需要根据谱概率密度函数(Probability Density Function,PDF)计算谱熵。当信号的功率谱分布较为平坦或均匀时,趋向于等概率分布,熵函数取较大值,其倒数取较小值;反之,当信号的功率谱分布较为集中或不均匀,熵函数取较小值,其倒数取较大值。由于语音信号具有共振峰结构,功率谱分布较为集中和不均匀,所以谱熵比较低,其倒数为较大值;噪声信号(白噪声、粉噪声等)的功率谱较为发散,谱熵比较大,其倒数为较小值,从而可将语音信号和噪声信号区分开来。基于谱熵法的端点检测方法具备受声音信号能量影响较少的特点,因此对噪声具有一定的鲁棒性;但是在实际的嘈杂环境下,如餐厅或地铁等充斥着嘈杂人噪声、汽车行驶噪声等环境下,噪声信号与声音信号都具备较为集中的功率谱分布,使基于谱熵法的语音端点检测方法难以准确估计。
发明内容
本发明提供了一种语音端点检测的方法,以解决现有技术中的语音端点检测方法在功率谱分布较为集中的噪声下难以准确估计的技术问题;本发明能够适用于功率谱分布相对较为集中的噪声类型,并提高语音端点检测的准确性。
为了解决上述技术问题,本发明实施例提供了一种语音端点检测方法,包括:
对所接收的语音信号进行滤波并分帧,得到一次信号;
计算每帧所述一次信号的短时幅值和频谱;
根据所述短时幅值构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号;具体为:对每帧所述一次信号的短时幅值E(n)进行归一化处理,并构造加权因子e(n);利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权,得到每帧所述二次信号Xg(n,l);其中,e(n)为加权因子, e(n)=1-Eg(n),Eg(n)=E(n)/max(E(n));Xg(n,l)=X(n,l)./|X(n,l)|e(n);其中,,所述一次信号为x(n,m),n=1,2,3,…,N, m=1,2,3,…,M,N为帧数,M为帧长;X(n,l)=fft(x(n,m)),fft为快速傅里叶变换, l为频率;
计算每帧所述二次信号的功率谱,并计算谱能量总和;
根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值;
以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断。
作为优选方案,所述以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断,具体为:
将所述检测阈值与每帧所述二次信号的短时谱熵值进行比较;
当所述短时谱熵值大于所述检测阈值时,则判定对应所述短时谱熵值的信号帧为语音帧;
当所述短时谱熵值小于或等于所述检测阈值时,判定对应所述短时谱熵值的信号帧为噪声帧。
作为优选方案,所述计算每帧所述一次信号的短时幅值和频谱,具体为:
基于能量的端点检测方法计算每帧所述一次信号的短时幅值E(n);
利用傅里叶变换计算每帧所述一次信号的频谱X(n,l);
其中,,所述一次信号为x(n,m),n=1,2,3,…,N,m=1,2,3,…,M,N为帧数,M为帧长;
X(n,l)=fft(x(n,m)),fft为快速傅里叶变换,l为频率。
作为优选方案,其特征在于,所述根据所述短时幅值构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号,具体为:
对每帧所述一次信号的短时幅值E(n)进行归一化处理,并构造加权因子e(n);
利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权,得到每帧所述二次信号Xg(n,l);
其中,e(n)为加权因子,e(n)=1-Eg(n),Eg(n)=E(n)/max(E(n));
Xg(n,l)=X(n,l)./|X(n,l)|e(n)。
作为优选方案,所述计算每帧所述二次信号的功率谱,并计算谱能量总和,具体为:
计算每帧所述二次信号的功率谱模值S(n,l),并计算谱能量总和Y(n);
作为优选方案,所述根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值,具体为:
根据所述功率谱模值S(n,l)和所述谱能量总和Y(n)计算每帧所述二次信号的谱概论密度函数P(n,l);
根据每帧所述二次信号的谱概论密度函数P(n,l)计算每帧所述二次信号的短时谱熵值H(n);
作为优选方案,所述以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断,具体为:
将N帧所述谱熵值中的连续前Z帧谱熵值的倒数的平均值作为语音端点的检测阈值K;
为了解决相同的技术问题,本发明实施例提供了一种语音端点检测装置,包括:
预处理模块,用于对所接收的语音信号进行滤波并分帧,得到一次信号;
第一计算模块,用于计算每帧所述一次信号的短时幅值和频谱;
谱加权模块,用于根据所述短时幅值构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号;具体为:对每帧所述一次信号的短时幅值E(n)进行归一化处理,并构造加权因子e(n);利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权,得到每帧所述二次信号Xg(n,l);其中, e(n)为加权因子,e(n)=1-Eg(n),Eg(n)=E(n)/max(E(n));Xg(n,l)=X(n,l)./|X(n,l)|e(n);其中,,所述一次信号为x(n,m),n=1,2,3,…,N, m=1,2,3,…,M,N为帧数,M为帧长;X(n,l)=fft(x(n,m)),fft为快速傅里叶变换,l为频率;
第二计算模块,用于计算每帧所述二次信号的功率谱,并计算谱能量总和;
第三计算模块,用于根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值;
判断模块,用于以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断。
为了解决上述技术问题,本发明实施例提供了一种语音端点检测设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的语音端点检测方法。
相比于现有技术,本发明实施例的有益效果在于,本发明实施例提供了一种语音端点检测方法,包括对所接收的语音信号进行滤波并分帧,得到一次信号;计算每帧所述一次信号的短时幅值和频谱;根据所述短时幅值构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号;计算每帧所述二次信号的功率谱,并计算谱能量总和;根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值;以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断。
在功率谱分布相对较为集中的噪声类型下,利用短时幅值计算结果构造的加权因子和每帧所述一次信号的频谱进行谱加权处理以得到所述二次信号,从而对噪声信号的频谱进行一定程度的白化,能够使噪声信号的功率谱分布更加平坦和均匀,进而增大噪声信号短时谱熵值,使得噪声信号短时谱熵值的倒数取较小值;同时,对语音信号功率谱进行保留,语音信号短时谱熵值较小,其短时谱熵值的倒数取较大值;从而能够区分语音信号和噪声信号,进而提高语音端点检测的准确性。通过将基于能量的端点检测方法融入到谱熵法中,并将短时幅值通过指数形式加权到谱白化上,能够起到控制谱白化程度的作用,从而在功率谱分布相对较为集中的噪声类型下能够进行较为准确的端点检测,进而有效地提高谱熵法语音端点检测的准确率。
附图说明
图1是本发明提供的一种语音端点检测方法的步骤流程图;
图2是本发明提供的一种语音端点检测方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一实施例:
请参见图1,本发明第一实施例提供了一种语音端点检测方法,至少包括:
S1:对所接收的语音信号进行滤波并分帧,得到一次信号;
S2:计算每帧所述一次信号的短时幅值和频谱;
S3:根据所述短时幅值构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号;
通过将基于能量的端点检测方法融入到谱熵法中,并将短时幅值通过指数形式加权到谱白化上,能够起到控制谱白化程度的作用,从而在功率谱分布相对较为集中的噪声类型下能够进行较为准确的利用谱熵法进行端点检测,进而有效地提高语音端点检测的准确率。
S4:计算每帧所述二次信号的功率谱,并计算谱能量总和;
S5:根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值;
S6:以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断。
本实施例在功率谱分布相对较为集中的噪声类型下,利用短时幅值计算结果构造的加权因子和每帧所述一次信号的频谱进行谱加权处理得到所述二次信号,能够对噪声信号的频谱进行一定程度的白化,使噪声信号的功率谱分布更加平坦和均匀,使噪声信号短时谱熵值增大,使得噪声信号短时谱熵值的倒数取较小值,而对语音信号功率谱进行保留,语音信号短时谱熵值较小,语音信号短时谱熵值的倒数为较大值,从而能够区分语音信号和噪声信号,进而提高谱熵法语音端点检测的准确性。
在本发明实施例中,所述以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断,具体为:
将所述检测阈值与每帧所述二次信号的短时谱熵值进行比较;
当所述短时谱熵值大于所述检测阈值时,则判定对应所述短时谱熵值的信号帧为语音帧;
当所述短时谱熵值小于或等于所述检测阈值时,判定对应所述短时谱熵值的信号帧为噪声帧。
在本发明实施例中,所述计算每帧所述一次信号的短时幅值和频谱,具体为:
基于能量的端点检测方法计算每帧所述一次信号的短时幅值E(n);
利用傅里叶变换计算每帧所述一次信号的频谱X(n,l);
其中,,所述一次信号为x(n,m), n=1,2,3,…,N,m=1,2,3,…,M,N为帧数,M为帧长;
X(n,l)=fft(x(n,m)),fft为快速傅里叶变换,l为频率。
在本发明实施例中,所述根据所述短时幅值构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号,具体为:
对每帧所述一次信号的短时幅值E(n)进行归一化处理,并构造加权因子e(n);
利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权,得到每帧所述二次信号Xg(n,l);
其中,e(n)为加权因子,e(n)=1-Eg(n),Eg(n)=E(n)/max(E(n));
Xg(n,l)=X(n,l)./|X(n,l)|e(n)。
这样通过将基于能量的端点检测方法融入到谱熵法中,并将短时幅值通过指数形式加权到谱白化上,能够起到控制谱白化程度的作用,从而在功率谱分布相对较为集中的噪声类型下能够进行较为准确的利用谱熵法进行端点检测,进而提高语音端点检测的准确率。
在本发明实施例中,所述计算每帧所述二次信号的功率谱,并计算谱能量总和,具体为:
计算每帧所述二次信号的功率谱模值S(n,l),并计算谱能量总和Y(n);
在本发明实施例中,所述根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值,具体为:
根据所述功率谱模值S(n,l)和所述谱能量总和Y(n)计算每帧所述二次信号的谱概论密度函数P(n,l);
根据每帧所述二次信号的谱概论密度函数P(n,l)计算每帧所述二次信号的短时谱熵值H(n);
在本发明实施例中,所述以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断,具体为:
将N帧所述谱熵值中的连续前Z帧谱熵值的倒数的平均值作为语音端点的检测阈值K;
本实施例在功率谱分布相对较为集中的噪声类型下,利用短时幅值计算结果构造的加权因子和每帧所述一次信号的频谱进行谱加权处理得到所述二次信号,能够对噪声信号的频谱进行一定程度的白化,使噪声信号的功率谱分布更加平坦和均匀,使噪声信号短时谱熵值增大,使得噪声信号短时谱熵值的倒数取较小值,而对语音信号功率谱进行保留,语音信号短时谱熵值较小,语音信号短时谱熵值的倒数为较大值,从而能够区分语音信号和噪声信号,进而提高谱熵法语音端点检测的准确性。
请参见图2,本发明的语音端点检测方法,其中一种可行的具体实施例的流程如下:
1、通过传声器对待测语音信号进行接收,待测语音信号记为x(t);
2、对所接收的语音信号进行滤波并分帧处理,得到一次信号并记为x(n,m),其中,n=1,2,3,…,N,N帧数,m=1,2,3,…,M,M为每帧的帧长;
3、对每帧所述一次信号x(n,m)的短时幅值进行估计,计算每帧所述一次信号的短时幅值E(n),计算过程如下:
4、对每帧所述一次信号的短时幅值E(n)进行归一化处理得到Eg(n),并构造加权因子e(n),计算过程如下:
Eg(n)=E(n)/max(E(n)),
e(n)=1-Eg(n);
5、对每帧所述一次信号x(n,m)进行傅里叶变换,得到每帧所述一次信号的频谱X(n,l),计算过程如下:
X(n,l)=fft(x(n,m)),
其中,fft为快速傅里叶变换,l为频率;
6、利用所述加权因子对所述频谱X(n,l)进行谱加权处理,得到二次信号 Xg(n,l),计算过程如下:
Xg(n,l)=X(n,l)./|X(n,l)|e(n);
7、计算每帧所述二次信号的功率谱模值S(n,l),计算过程如下:
S(n,l)=|Xg(n,l).*Xg(n,l)|;
8、计算每帧所述二次信号的谱能量总和Y(n),计算过程如下:
其中,L为傅里叶变换的长度;
9、计算每帧所述二次信号的谱概论密度函数P(n,l),计算结果如下:
P(n,l)=S(n,l)/Y(n)
10、计算每帧所述二次信号的短时谱熵H(n),计算结果如下:
11、计算每帧所述二次信号的短时谱熵值的倒数J(n),计算结果如下:
J(n)=1/H(n);
12、取前20帧的谱熵值的平均值作为所述检测阈值K,计算结果如下:
相比于现有技术,本发明实施例提供的一种语音端点检测方法具有如下有益效果:
(1)在功率谱分布相对较为集中的噪声类型下,利用短时幅值计算结果构造的加权因子和每帧所述一次信号的频谱进行谱加权处理以得到所述二次信号,从而对噪声信号的频谱进行一定程度的白化,能够使噪声信号的功率谱分布更加平坦和均匀,进而增大噪声信号短时谱熵值,使得噪声信号短时谱熵值的倒数取较小值;同时,对语音信号功率谱进行保留,语音信号短时谱熵值较小,其短时谱熵值的倒数取较大值;从而能够区分语音信号和噪声信号,进而提高语音端点检测的准确性。
(2)通过将基于能量的端点检测方法融入到谱熵法中,并将短时幅值通过指数形式加权到谱白化上,能够起到控制谱白化程度的作用,从而在功率谱分布相对较为集中的噪声类型下能够进行较为准确的端点检测,进而有效地提高谱熵法语音端点检测的准确率。
(3)利用谱白化技术对噪声部分信号的频谱进行一定程度的白化,使噪声信号的功率谱分布更加平坦和均匀,从而使谱熵增大;语音信号功率谱进行保留,谱熵较少,能够使语音信号和噪声信号的谱熵区分开来,从而提高了在多种噪声下检测的准确性。
(4)利用基于能量的端点检测方法融入谱熵法中,具备对于噪声类型不敏感的优点,将短时幅值通过指数的形式加权到谱白化方法上,从而控制谱白化程度;对频谱进行加权的方法结合将短时幅值通过指数的形式加权到谱白化上的方法,在各种噪声类型下都能够进行较为准确的端点检测,从而提高在多种噪声下检测的准确性。
本发明第二实施例:
本发明第二实施例提供了一种语音端点检测装置,包括:
预处理模块,用于对所接收的语音信号进行滤波并分帧,得到一次信号;
第一计算模块,用于计算每帧所述一次信号的短时幅值和频谱;
谱加权模块,用于根据所述短时幅值构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号;
第二计算模块,用于计算每帧所述二次信号的功率谱,并计算谱能量总和;
第三计算模块,用于根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值;
判断模块,用于以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断。
在本发明实施例中,所述判断模块,还用于:
将所述检测阈值与每帧所述二次信号的短时谱熵值进行比较;
当所述短时谱熵值大于所述检测阈值时,则判定对应所述短时谱熵值的信号帧为语音帧;
当所述短时谱熵值小于或等于所述检测阈值时,判定对应所述短时谱熵值的信号帧为噪声帧。
所述第一计算模块,还用于:
基于能量的端点检测方法计算每帧所述一次信号的短时幅值E(n);
利用傅里叶变换计算每帧所述一次信号的频谱X(n,l);
其中,,所述一次信号为x(n,m), n=1,2,3,…,N,m=1,2,3,…,M,N为帧数,M为帧长;
X(n,l)=fft(x(n,m)),fft为快速傅里叶变换,l为频率。
所述谱加权模块,还用于:
对每帧所述一次信号的短时幅值E(n)进行归一化处理,并构造加权因子e(n);
利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权,得到每帧所述二次信号Xg(n,l);
其中,e(n)为加权因子,e(n)=1-Eg(n),Eg(n)=E(n)/max(E(n));
Xg(n,l)=X(n,l)./|X(n,l)|e(n)。
所述第二计算模块,还用于:
计算每帧所述二次信号的功率谱模值S(n,l),并计算谱能量总和Y(n);
所述第三计算模块,还用于:
根据所述功率谱模值S(n,l)和所述谱能量总和Y(n)计算每帧所述二次信号的谱概论密度函数P(n,l);
根据每帧所述二次信号的谱概论密度函数P(n,l)计算每帧所述二次信号的短时谱熵值H(n);
所述判断模块,还用于:
将N帧所述谱熵值中的连续前Z帧谱熵值的倒数的平均值作为语音端点的检测阈值K;
本发明第三实施例:
本发明第三实施例还提供了一种语音端点检测设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,例如对象固定程序。所述处理器执行所述计算机程序时实现如上述的语音端点检测方法的步骤,例如图1所示的步骤S1。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如评估分析模块。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述语音端点检测设备中的执行过程。
所述语音端点检测设备可以是桌上型计算机、笔记本、掌上电脑及智能平板等计算设备。所述语音端点检测设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述部件仅仅是语音端点检测设备的示例,并不构成对语音端点检测设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述语音端点检测设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述语音端点检测设备的控制中心,利用各种接口和线路连接整个语音端点检测设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述语音端点检测设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述语音端点检测设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM, Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (8)
1.一种语音端点检测方法,其特征在于,包括以下步骤:
对所接收的语音信号进行滤波并分帧,得到一次信号;
计算每帧所述一次信号的短时幅值和频谱;
根据所述短时幅值构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号;具体为:对每帧所述一次信号的短时幅值E(n)进行归一化处理,并构造加权因子e(n);利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权,得到每帧所述二次信号Xg(n,l);其中,e(n)为加权因子,e(n)=1-Eg(n),Eg(n)=E(n)/max(E(n));Xg(n,l)=X(n,l)./|X(n,l)|e(n);其中,,所述一次信号为x(n,m),n=1,2,3,…,N,m=1,2,3,…,M,N为帧数,M为帧长;X(n,l)=fft(x(n,m)),fft为快速傅里叶变换,l为频率;
计算每帧所述二次信号的功率谱,并计算谱能量总和;
根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值;
以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断。
2.如权利要求1所述的语音端点检测方法,其特征在于,所述以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断,具体为:
将所述检测阈值与每帧所述二次信号的短时谱熵值进行比较;
当所述短时谱熵值大于所述检测阈值时,则判定对应所述短时谱熵值的信号帧为语音帧;
当所述短时谱熵值小于或等于所述检测阈值时,判定对应所述短时谱熵值的信号帧为噪声帧。
7.一种语音端点检测装置,其特征在于,包括:
预处理模块,用于对所接收的语音信号进行滤波并分帧,得到一次信号;
第一计算模块,用于计算每帧所述一次信号的短时幅值和频谱;
谱加权模块,用于根据所述短时幅值构造加权因子,并利用所述加权因子对所述频谱进行谱加权,得到二次信号;具体为:对每帧所述一次信号的短时幅值E(n)进行归一化处理,并构造加权因子e(n);利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权,得到每帧所述二次信号Xg(n,l);其中,e(n)为加权因子,e(n)=1-Eg(n),Eg(n)=E(n)/max(E(n));Xg(n,l)=X(n,l)./|X(n,l)|e(n);其中,,所述一次信号为x(n,m),n=1,2,3,…,N,m=1,2,3,…,M,N为帧数,M为帧长;X(n,l)=fft(x(n,m)),fft为快速傅里叶变换,l为频率;
第二计算模块,用于计算每帧所述二次信号的功率谱,并计算谱能量总和;
第三计算模块,用于根据所述功率谱和所述谱能量总和,计算每帧所述二次信号的短时谱熵值;
判断模块,用于以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值,进行语音帧和噪声帧的判断。
8.一种语音端点检测设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的语音端点检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311947.7A CN110047519B (zh) | 2019-04-16 | 2019-04-16 | 一种语音端点检测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311947.7A CN110047519B (zh) | 2019-04-16 | 2019-04-16 | 一种语音端点检测方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110047519A CN110047519A (zh) | 2019-07-23 |
CN110047519B true CN110047519B (zh) | 2021-08-24 |
Family
ID=67277750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910311947.7A Active CN110047519B (zh) | 2019-04-16 | 2019-04-16 | 一种语音端点检测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110047519B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648692B (zh) * | 2019-09-26 | 2022-04-12 | 思必驰科技股份有限公司 | 语音端点检测方法及*** |
CN110995821B (zh) * | 2019-11-28 | 2021-05-04 | 深圳供电局有限公司 | 一种基于ai与智能头盔的配电网巡检*** |
CN111540368B (zh) * | 2020-05-07 | 2023-03-14 | 广州大学 | 一种稳健的鸟声提取方法、装置及计算机可读存储介质 |
CN111650559B (zh) * | 2020-06-12 | 2022-11-01 | 深圳市裂石影音科技有限公司 | 一种实时处理的二维声源定位方法 |
CN112612008B (zh) * | 2020-12-08 | 2022-05-17 | 中国人民解放军陆军工程大学 | 高速弹丸回波信号的起始参数提取方法及装置 |
CN116665717B (zh) * | 2023-08-02 | 2023-09-29 | 广东技术师范大学 | 一种跨子带谱熵加权似然比语音检测方法及*** |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1503467A (zh) * | 2002-11-25 | 2004-06-09 | ض� | 用于回波抵消器的噪声匹配 |
CN1689072A (zh) * | 2002-08-16 | 2005-10-26 | 数字信号处理工厂有限公司 | 使用自适应滤波器处理子带信号的方法和*** |
KR100930061B1 (ko) * | 2008-01-22 | 2009-12-08 | 성균관대학교산학협력단 | 신호 검출 방법 및 장치 |
CN101599269A (zh) * | 2009-07-02 | 2009-12-09 | 中国农业大学 | 语音端点检测方法及装置 |
CN101777349A (zh) * | 2009-12-08 | 2010-07-14 | 中国科学院自动化研究所 | 基于听觉感知特性的信号子空间麦克风阵列语音增强方法 |
CN102044243A (zh) * | 2009-10-15 | 2011-05-04 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
US20130267796A1 (en) * | 2010-12-01 | 2013-10-10 | Universitat Politecnica De Catalunya | System and method for the simultaneous, non-invasive estimation of blood glucose, glucocorticoid level and blood pressure |
CN103426440A (zh) * | 2013-08-22 | 2013-12-04 | 厦门大学 | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 |
US9123351B2 (en) * | 2011-03-31 | 2015-09-01 | Oki Electric Industry Co., Ltd. | Speech segment determination device, and storage medium |
CN106536011A (zh) * | 2014-05-15 | 2017-03-22 | 布莱阿姆青年大学 | 用于毛细管液体层析法的具有低检测极限的基于低功率微型led的uv吸收检测器 |
WO2018069719A1 (en) * | 2016-10-16 | 2018-04-19 | Sentimoto Limited | Voice activity detection method and apparatus |
EP3443557A1 (en) * | 2016-04-12 | 2019-02-20 | Fraunhofer Gesellschaft zur Förderung der Angewand | Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5649488B2 (ja) * | 2011-03-11 | 2015-01-07 | 株式会社東芝 | 音声判別装置、音声判別方法および音声判別プログラム |
-
2019
- 2019-04-16 CN CN201910311947.7A patent/CN110047519B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1689072A (zh) * | 2002-08-16 | 2005-10-26 | 数字信号处理工厂有限公司 | 使用自适应滤波器处理子带信号的方法和*** |
CN1503467A (zh) * | 2002-11-25 | 2004-06-09 | ض� | 用于回波抵消器的噪声匹配 |
KR100930061B1 (ko) * | 2008-01-22 | 2009-12-08 | 성균관대학교산학협력단 | 신호 검출 방법 및 장치 |
CN101599269A (zh) * | 2009-07-02 | 2009-12-09 | 中国农业大学 | 语音端点检测方法及装置 |
CN102044243A (zh) * | 2009-10-15 | 2011-05-04 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
CN101777349A (zh) * | 2009-12-08 | 2010-07-14 | 中国科学院自动化研究所 | 基于听觉感知特性的信号子空间麦克风阵列语音增强方法 |
US20130267796A1 (en) * | 2010-12-01 | 2013-10-10 | Universitat Politecnica De Catalunya | System and method for the simultaneous, non-invasive estimation of blood glucose, glucocorticoid level and blood pressure |
US9123351B2 (en) * | 2011-03-31 | 2015-09-01 | Oki Electric Industry Co., Ltd. | Speech segment determination device, and storage medium |
CN103426440A (zh) * | 2013-08-22 | 2013-12-04 | 厦门大学 | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 |
CN106536011A (zh) * | 2014-05-15 | 2017-03-22 | 布莱阿姆青年大学 | 用于毛细管液体层析法的具有低检测极限的基于低功率微型led的uv吸收检测器 |
EP3443557A1 (en) * | 2016-04-12 | 2019-02-20 | Fraunhofer Gesellschaft zur Förderung der Angewand | Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band |
WO2018069719A1 (en) * | 2016-10-16 | 2018-04-19 | Sentimoto Limited | Voice activity detection method and apparatus |
Non-Patent Citations (8)
Title |
---|
Energy and Entropy based Switching Algorithm for Speech Endpoint Detection in Varying SNR Conditions;Chaitanya K, Sinha R.;《Ninth Annual Conference of the International Speech Communication Association》;20081226;全文 * |
Entropy based voice activity detection in very noisy conditions;Renevey P, Drygajlo A.;《Seventh European Conference on Speech Communication and Technology》;20011207;全文 * |
Robust endpoint detection algorithm based on the adaptive band-partitioning spectral entropy in adverse environments;Wu B F, Wang K C;《IEEE Transactions on Speech & Audio Processing》;20051231;第13卷(第5期);第二章B节、第三章 * |
Vlaj D, KačIčZ, Kos M..Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria.《Computers & Electrical Engineering》.2012, * |
噪声估计和谱熵结合的语音激活检测算法;郑秋菊,***,王岑;《现代电信科技》;20131225;第43卷(第12期);全文 * |
基于传声器阵列的声源定位算法研究;梁龙腾;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190501;全文 * |
基于熵函数的语音端点检测算法研究;王博,郭英,韩立峰;《信号处理》;20090325;第25卷(第03期);全文 * |
连续语音识别的稳健性技术研究;徐望;《中国优秀硕士学位论文全文数据库 信息科技辑》;20070615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110047519A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047519B (zh) | 一种语音端点检测方法、装置及设备 | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN108615535B (zh) | 语音增强方法、装置、智能语音设备和计算机设备 | |
US7117149B1 (en) | Sound source classification | |
CN109256144B (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
CN110634499A (zh) | 用深特征损失训练的用于语音去噪的神经网络 | |
CN104637489B (zh) | 声音信号处理的方法和装置 | |
WO2018223727A1 (zh) | 识别声纹的方法、装置、设备及介质 | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
CN108962231B (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
Kaleem et al. | Pathological speech signal analysis and classification using empirical mode decomposition | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN102881291A (zh) | 语音感知哈希认证的感知哈希值提取方法及认证方法 | |
US20170294185A1 (en) | Segmentation using prior distributions | |
May et al. | Computational speech segregation based on an auditory-inspired modulation analysis | |
CN110503973B (zh) | 音频信号瞬态噪音抑制方法、***以及存储介质 | |
Yarra et al. | A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection | |
CN106847299B (zh) | 延时的估计方法及装置 | |
CN111968651A (zh) | 一种基于wt的声纹识别方法及*** | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
Zhen et al. | On psychoacoustically weighted cost functions towards resource-efficient deep neural networks for speech denoising | |
CN116564315A (zh) | 一种声纹识别方法、装置、设备及存储介质 | |
CN110875037A (zh) | 语音数据处理方法、装置及电子设备 | |
CN110534128B (zh) | 一种噪音处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |