CN114299994B - 激光多普勒远距离侦听语音的爆音检测方法、设备及介质 - Google Patents

激光多普勒远距离侦听语音的爆音检测方法、设备及介质 Download PDF

Info

Publication number
CN114299994B
CN114299994B CN202210003757.0A CN202210003757A CN114299994B CN 114299994 B CN114299994 B CN 114299994B CN 202210003757 A CN202210003757 A CN 202210003757A CN 114299994 B CN114299994 B CN 114299994B
Authority
CN
China
Prior art keywords
voice
frequency
interception
amplitude
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210003757.0A
Other languages
English (en)
Other versions
CN114299994A (zh
Inventor
唐琎
耿俊凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210003757.0A priority Critical patent/CN114299994B/zh
Publication of CN114299994A publication Critical patent/CN114299994A/zh
Application granted granted Critical
Publication of CN114299994B publication Critical patent/CN114299994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种激光多普勒远距离侦听语音的爆音检测方法、设备及介质,其中爆音检测方法为:对激光多普勒远距离侦听得到的侦听语音信号,一方面在时域检测其短时平均过零率高于预设过零率阈值的语音区间,另一方面在频域检测其高频区间幅值高于预设幅度阈值的语音区间,然后取两个语音区间并集,即为侦听语音信号中存在爆音的区间。本发明采用了时域特征和时频域特征相结合的方式,将激光设备在侦听语音时夹杂着爆音的时域区间检测出来,为后续的语音降噪和时差估计等工作提供了有效信息,是一种重要的激光设备侦听语音信号的预处理工作。

Description

激光多普勒远距离侦听语音的爆音检测方法、设备及介质
技术领域
本发明涉及激光侦听和信号处理领域,特别是涉及一种激光多普勒远距离侦听语音的爆音检测方法、设备及介质。
背景技术
激光音频解析技术的理论研究已经有了有效成果,且在激光语音侦听领域已经形成了相应的产品,实现了远距离非可视目标语音侦听功能。目前,国内外激光音频解析技术的实现方法包括光杠杆法(反射式光斑移动法)、半导体激光自混频干涉法和激光多普勒频移干涉法。但是目前利用激光设备进行远距离侦听时,激光设备或者目标物体的轻微抖动会使得语音信号中夹杂着大量的时变噪声,也就是爆音。爆音的存在会影响降噪时对噪声的估计的准确性,进而导致降噪后的语音信号质量较低,做后续时差估计或者语音识别的效果变差。
发明内容
本发明提供一种激光多普勒远距离侦听语音的爆音检测方法,对激光多普勒远距离侦听语音中的爆音进行检测,以便对后续的侦听语音信号的降噪和时差估计提供有效信息。
为实现上述技术目的,本发明采用如下技术方案:
一种激光多普勒远距离侦听语音的爆音检测方法,对激光多普勒远距离侦听得到的侦听语音信号,一方面在时域检测其短时平均过零率高于预设过零率阈值的语音区间,另一方面在频域检测其高频区间幅值高于预设幅度阈值的语音区间,然后取两个语音区间并集,即为侦听语音信号中存在爆音的区间。
进一步地,短时平均过零率的计算方法为:
式中,Zn表示侦听语音信号x(n)在采样点n的短时平均过零率,x(m-1)和x(m)分别为侦听语音信号x(n)在相邻采样点m-1和m的语音幅度,sgn[·]是符号函数,w(n-m)为窗函数w(n)在采样点m的输出。
进一步地,预设过零率阈值为80。
进一步地,所述在频域检测其高频区间幅值高于预设幅度阈值的语音区间,具体检测方法为:
对侦听语音信号进行分帧,对每帧侦听语音信号进行短时傅里叶变换得到语谱图;
计算语谱图中低频区间的幅度均值,再将幅度均值与缩放因子的乘积作为预设幅度阈值;
选择高频区间,比较各帧侦听语音信号在高频区间每个频率点上的幅度是否超过预设幅度阈值,若超过预设幅度阈值的频率点达到预设比例,则判断该帧侦听语音信号存在爆音;
对存在爆音的每帧侦听语音信号进行解码,计算其在时域中的位置,即为在频域检测到的存在爆音的语音区间。
进一步地,高频区间范围为3000Hz以上的频率范围,低频区间为300Hz到600Hz的频率范围。
进一步地,缩放因子的大小为0.3。
进一步地,所述预设比例为70%。
进一步地,对侦听语音信号进行分帧时,每帧侦听语音信号包括512个采样点,帧移为128个采样点。
一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一项所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
与现有技术相比,本发明的有益效果为:本发明采用了时域特征和时频域特征相结合的方式,将激光设备在侦听语音时夹杂着爆音的时域区间检测出来,为后续的语音降噪和时差估计等工作提供了有效信息,是一种重要的激光设备侦听语音信号的预处理工作。
附图说明
图1是本发明的爆音检测方法的总体流程图。
图2是本发明实施例时域爆音检测方法中短时平均过零率的计算过程图。
图3是本发明实施例语谱图爆音检测方法的流程图;
图4是本发明实施例激光设备实采语音信号时域波形图;
图5是本发明实施例时域爆音检测方法检测出爆音的结果图。
图6是本发明实施例的语音侦听语谱图。
图7是本发明实施例语谱图爆音检测方法的检测爆音结果图。
图8是本发明实施例的最终检测出爆音区间结果图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
本发明提供一种激光多普勒远距离侦听语音的爆音检测方法,参考图1所示,针对其中爆音数据的特点,选择时域和时频域(语谱图)上的特征进行综合检测。爆音时域的特征为数据在短时间内变化剧烈且通常幅度值高于正常的语音数据;在语谱图上爆音通常表现为在某个时间段或者时刻,整个频率域都有一个较高的强度,若语谱图的横轴为时间纵轴为频率,爆音的存在位置会有一条颜色很深的一条“竖线”。本发明以这两种方式相结合的方法,对激光多普勒远距离侦听语音中的爆音进行检测,提高检测爆音的准确性和鲁棒性。
具体在本实施例中,基于时域的爆音检测,采用基于短时平均过零率的方法。对有时间横轴的连续的侦听语音信号,可以观察到语音的时域波形通过横轴的情况,而在离散时间的侦听语音信号,如果相邻的采样具有不同的代数符号就称为发生了过零,因此可以通过计算离散的侦听语音信号在单位时间内的过零次数,来确定短时平均过零率。
离散的侦听语音信号的短时平均过零率的计算方法为:
其中sgn[·]是符号函数,即
其中w(n)是长度为L的窗函数,即
参照图2,短时平均过零率计算过程如下:
首先对离散的侦听语音信号序列x(n)进行成对处理,检查是否有过零现象,若符合有变化,则表示有一次过零现象;
然后进行一阶差分计算,并取其绝对值。
最后使用窗函数w(n)进行低通滤波得到最后的短时平均过零率。
基于爆音存在的区间短时平均过零率较大的特点,本实施例通过判断侦听语音信号的短时平均过零率的变化,将短时平均过零率高于预设过零率阈值的语音区间,确定为基于时域检测的、侦听语音信号中存在爆音的语音区间。本实施例中将预设过零率阈值设置为80。
另一方面,本发明基于时频域(语谱图)检测侦听语音信号中存在爆音的语音区间。具体利用爆音的存在位置在高频区间会有一条颜色很深的“竖线”,从而完成检测。参考图3所示,检测过程如下:
首先,对侦听语音信号进行分帧,对每帧侦听语音信号进行短时傅里叶变换得到语谱图;具体到本实施例分帧时,每帧侦听语音信号包括512个采样点,帧移为128个采样点。
然后,计算语谱图中低频区间的幅度均值,再将幅度均值与缩放因子的乘积作为预设幅度阈值φ;具体到本实施例中,将300Hz到600Hz的频率范围确定为低频区间,缩放因子λ一般取0.3。
再选择高频区间,比较各帧侦听语音信号在高频区间每个频率点上的幅度是否超过预设幅度阈值,若超过预设幅度阈值的频率点达到预设比例,则判断该帧侦听语音信号存在爆音;具体到本实施例中,将3000Hz以上的频率范围确定为高频区间,预设比例rate设为70%,因此,当3000Hz以上的高频区间内,超过阈值φ的频率点超过70%则认为该帧侦听语音信号中存在爆音。
最后,对存在爆音的每帧侦听语音信号进行解码,计算其在时域中的位置,即为在频域检测到的存在爆音的语音区间。
将上述基于时域检测到的存在爆音的语音区间,与基于频域检测到的存在爆音的语音区间,取两个语音区间的并集,即可确定为最终的存在爆音的语音区间。
本实施例对激光多普勒无距离侦听语音中的爆音检测方法包括以下步骤:
步骤1:获取激光设备侦听到带爆音的侦听语音信号的时域图,请参阅图4;
步骤2:将该侦听语音信号送入时域爆音检测模块,进行短时平均过零率检测,检测结果如图5所示,取短时平均过零率幅值超过80的认定为爆音存在的区间。
步骤3:将侦听语音信号进行分帧,每一帧语音信号为512个采样点,帧移为128个采样点。
步骤4:将每一帧侦听语音信号进行短时傅里叶变换得到语谱图,如图6所示。
步骤5:将语谱图送入语谱图爆音检测模块,检测出的结果如图7所示,图中的亮线表示该语音帧包含爆音,并将其转换到时间区间。
步骤6:综合时域爆音检测模块和语谱图爆音检测模块检测出的爆音区间,采用并集的方式得到最终的爆音存在的区间,如图8所示。该图只展示了一部分的结果,区间是用第M个采样点到第P个采样点。
本发明采用了时域特征和时频域特征相结合的方式,将激光设备在侦听语音时夹杂着爆音的时域区间检测出来,为后续的语音降噪和时差估计等工作提供了有效信息。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。

Claims (9)

1.一种激光多普勒远距离侦听语音的爆音检测方法,其特征在于,对激光多普勒远距离侦听得到的侦听语音信号,一方面在时域检测其短时平均过零率高于预设过零率阈值的语音区间,另一方面在频域检测其高频区间幅值高于预设幅度阈值的语音区间,然后取两个语音区间并集,即为侦听语音信号中存在爆音的区间;
所述在频域检测其高频区间幅值高于预设幅度阈值的语音区间,具体检测方法为:
对侦听语音信号进行分帧,对每帧侦听语音信号进行短时傅里叶变换得到语谱图;
计算语谱图中低频区间的幅度均值,再将幅度均值与缩放因子的乘积作为预设幅度阈值;
选择高频区间,比较各帧侦听语音信号在高频区间每个频率点上的幅度是否超过预设幅度阈值,若超过预设幅度阈值的频率点达到预设比例,则判断该帧侦听语音信号存在爆音;
对存在爆音的每帧侦听语音信号进行解码,计算其在时域中的位置,即为在频域检测到的存在爆音的语音区间。
2.根据权利要求1所述的方法,其特征在于,短时平均过零率的计算方法为:
式中,表示侦听语音信号/>在采样点/>的短时平均过零率,/>和/>分别为侦听语音信号/>在相邻采样点/>和/>的语音幅度,/>是符号函数,/>为窗函数/>在采样点/>的输出。
3.根据权利要求1所述的方法,其特征在于,预设过零率阈值为80。
4.根据权利要求1所述的方法,其特征在于,高频区间范围为3000Hz以上的频率范围,低频区间为300Hz到600Hz的频率范围。
5.根据权利要求1所述的方法,其特征在于,缩放因子的大小为0.3。
6.根据权利要求1所述的方法,其特征在于,所述预设比例为70%。
7.根据权利要求1所述的方法,其特征在于,对侦听语音信号进行分帧时,每帧侦听语音信号包括512个采样点,帧移为128个采样点。
8.一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1~7中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
CN202210003757.0A 2022-01-04 2022-01-04 激光多普勒远距离侦听语音的爆音检测方法、设备及介质 Active CN114299994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210003757.0A CN114299994B (zh) 2022-01-04 2022-01-04 激光多普勒远距离侦听语音的爆音检测方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210003757.0A CN114299994B (zh) 2022-01-04 2022-01-04 激光多普勒远距离侦听语音的爆音检测方法、设备及介质

Publications (2)

Publication Number Publication Date
CN114299994A CN114299994A (zh) 2022-04-08
CN114299994B true CN114299994B (zh) 2024-06-18

Family

ID=80975228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210003757.0A Active CN114299994B (zh) 2022-01-04 2022-01-04 激光多普勒远距离侦听语音的爆音检测方法、设备及介质

Country Status (1)

Country Link
CN (1) CN114299994B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN102332269A (zh) * 2011-06-03 2012-01-25 陈威 呼吸面具中呼吸噪声的消除方法
CN102842305B (zh) * 2011-06-22 2014-06-25 华为技术有限公司 一种基音检测的方法和装置
CN104143341B (zh) * 2013-05-23 2015-10-21 腾讯科技(深圳)有限公司 爆音检测方法和装置
CN110265064B (zh) * 2019-06-12 2021-10-08 腾讯音乐娱乐科技(深圳)有限公司 音频爆音检测方法、装置和存储介质
CN112466328B (zh) * 2020-10-29 2023-10-24 北京百度网讯科技有限公司 呼吸音检测方法、装置和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种改进的基于短时平均幅度的语音端点检测算法研究;柳春;;西北民族大学学报(自然科学版);20090315(第01期);全文 *
高脉冲噪声坏境中双门限法语音端点检测研究;刘超;庄圣贤;;电子科技;20130415(04);全文 *

Also Published As

Publication number Publication date
CN114299994A (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
EP3703052B1 (en) Echo cancellation method and apparatus based on time delay estimation
CN104157295B (zh) 用于检测及抑制瞬态噪声的方法
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
JP4177452B2 (ja) 音源位置検知装置
US8600073B2 (en) Wind noise suppression
CN103886871B (zh) 语音端点的检测方法和装置
US10249325B2 (en) Pitch detection algorithm based on PWVT of Teager Energy Operator
JP5668553B2 (ja) 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
CN109410977B (zh) 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
US10641650B2 (en) Motion detector
US11315591B2 (en) Voice activity detection method
CN108053842B (zh) 基于图像识别的短波语音端点检测方法
CN114487733A (zh) 一种基于声纹的局部放电检测方法
Labied et al. An overview of automatic speech recognition preprocessing techniques
CN109102823B (zh) 一种基于子带谱熵的语音增强方法
CN108847218B (zh) 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN114299994B (zh) 激光多普勒远距离侦听语音的爆音检测方法、设备及介质
US20060178881A1 (en) Method and apparatus for detecting voice region
KR20140108817A (ko) 음원위치추적장치 및 음원위치추적방법
Bouzid et al. Voice source parameter measurement based on multi-scale analysis of electroglottographic signal
US20230386492A1 (en) System and method for suppressing noise from audio signal
CN116312561A (zh) 一种电力调度***人员声纹识别鉴权降噪和语音增强方法、***及装置
Lim et al. Acoustic blur kernel with sliding window for blind estimation of reverberation time
Wang et al. Speech endpoint detection in fixed differential beamforming combined with modulation domain
CN111257859B (zh) 一种波束域自相关水下目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant