CN110689905A - 一种用于视频会议***的语音活动检测*** - Google Patents
一种用于视频会议***的语音活动检测*** Download PDFInfo
- Publication number
- CN110689905A CN110689905A CN201910842478.1A CN201910842478A CN110689905A CN 110689905 A CN110689905 A CN 110689905A CN 201910842478 A CN201910842478 A CN 201910842478A CN 110689905 A CN110689905 A CN 110689905A
- Authority
- CN
- China
- Prior art keywords
- current frame
- noise
- signal
- marking
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 100
- 230000000694 effects Effects 0.000 title claims abstract description 33
- 230000001052 transient effect Effects 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000009499 grossing Methods 0.000 claims description 34
- 239000000126 substance Substances 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明属于语音信号处理领域,公开了一种用于视频会议***的语音活动检测***。分别对获取的带噪时域信号做瞬态冲击噪声检测、浊音/清音分类、基于语音存在概率的检测、基于信噪比的检测以及带噪语音信号的能量检测,通过各个模块的判决结果得到最终的语音活动检测结果。本发明对瞬态冲击噪声、非瞬态冲击噪声以及准平稳噪声有较好的检测效果。相较于现有技术,本发明具有检测结果对典型的会议室噪声鲁棒、对信噪比鲁棒、算法运算复杂度低、易于实现等优点。
Description
技术领域
本发明属于语音信号处理领域,具体涉及一种用于视频会议***的语音活动检测***。
背景技术
通常,在视频会议***中,摄像头会根据定位算法给出的角度转动,以获取当前说话人的视频。但是,在会议室环境中随时会有各种各样的干扰源。当干扰源存在时,如果摄像头转向干扰源的方向,会给参会人员非常不好的体验。这时,我们就需要对当前的信号做语音活动检测。如果检测出语音信号,则摄像头转向定位算法给出的角度。如果没有检测出语音信号,则摄像头保持不动。
会议室环境中典型的干扰源分为两类,第一类为准平稳噪声,如风扇或空调的声音。准平稳噪声的功率谱密度变化较为缓慢,而语音信号的功率谱密度变化相对较快。第二类为非平稳噪声,非平稳噪声包括瞬态冲击噪声和非瞬态冲击噪声。瞬态冲击噪声具有瞬时能量较大,持续时间短的特点,比如敲桌子、敲门以及敲击键盘的声音。非瞬态冲击噪声的持续时间和人说话时单个词的持续时间相近,比如挪动椅子以及翻书的声音。绝大多数语音信号包含浊音,即有清晰的谐波结构,而绝大多数会议室场景中典型的非瞬态冲击噪声为清音,即没有清晰的谐波结构。
语音活动检测算法有很多,首先,比较典型的一类是通过跟踪输入信号的功率变化,确定输入信号中是否包含语音信号。当背景噪声较为平稳,即为功率谱密度变化比较缓慢的准平稳噪声时,此类算法效果较好。但对于非平稳噪声,此类算法容易将非常不平稳的噪声成分判别为语音信号。另一类典型的算法是根据输入带噪语音信号和其线性预测编码的自相关值来做语音活动检测。此类方法的缺点是在信噪比较低时不能准确的做出语音活动检测。此外,还有一类基于机器学习的语音活动检测算法。此类算法的问题是泛化能力较差,即,对训练过的噪声场景,性能较好,但对于没有出现在训练集的噪声场景,性能较差。
发明内容
本发明的目的在于提供一种用于视频会议***的语音活动检测***,用以解决现有技术中的在会议室环境下语音活动检测效果不准确的问题。
为了实现上述任务,本发明采用以下技术方案:
一种用于视频会议***的语音活动检测***,包括语音信号获取模块、瞬态冲击噪声检测模块、浊音清音分类模块、信噪比检测模块、语音存在概率检测模块、带噪语音信号能量检测模块和最终判决模块;
所述语音信号获取模块用于利用麦克风阵列获取带噪语音信号;
所述瞬态冲击噪声检测模块用于获取带噪语音信号的当前帧,并判断当前帧是否存在瞬态冲击噪声,若不存在瞬态冲击噪声则将当前帧标记为语音信号,若存在瞬态冲击噪声则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述浊音清音分类模块用于获取带噪语音信号的当前帧,判断当前帧为浊音或者清音,若当前帧为浊音则将当前帧标记为语音信号,若当前帧为清音则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述信噪比检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音信噪比和对应门限值的关系,若满足门限值则标记将将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述语音存在概率检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音存在概率和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述带噪语音信号能量检测模块用于获取带噪语音信号的当前帧,结合语音存在概率检测模块的标记结果判断当前帧的频域平均能量和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述最终判决模块用于根据所有模块的标记结果进行判决,当所有模块都标记当前帧为语音信号时,最终判决模块输出当前帧为语音信号,否则输出当前帧为噪声信号。
进一步的,瞬态冲击噪声检测模块的检测方法包括如下子步骤:
步骤a1:获得当前帧的频域带噪语音信号Y(k,n),对Y(k,n)进行平滑得到初次平滑的频域带噪语音信号S(k,n),其中k表示第k个频点k∈{1,2,3,...,K},K为正整数,n表示当前帧的帧数,所述平滑包括频域平滑和时域平滑,获取S(k,n)在一段时间之内的最小统计量Smin(k,n);
步骤a2:设定初级门限γ0和ε0,对于当前帧的每个频点进行初级判断,若当前帧的第k个频点满足且则标记该频点不存在瞬态冲击噪声,否则标记该频点存在瞬态冲击噪声,其中,Bmin表示Smin(k,n)的估计偏差;
步骤a4:获得二级判断后当前帧存在瞬态冲击噪声的频点的个数,若当前帧存在瞬态冲击噪声的频点的个数大于频点个数门限N1,则标记当前帧为存在瞬态冲击噪声,否则标记当前帧不存在瞬态冲击噪声。
进一步的,浊音清音分类模块的分类方法包括如下子步骤:
步骤b1:获得当前帧的对数频域带噪语音信号Y(c,n),对Y(c,n)进行压缩得到Y′(c,n);
步骤b2:令Y′(c,n)和梳状滤波器h(c)进行卷积得到Y′(c,n)*h(c),然后将Y′(c,n)*h(c)的三个最大峰值的能量和以及Y′(c,n)的平均能量作为特征,输入高斯混合模型,得到当前帧的浊音可能概率pv和当前帧的清音可能概率pu;
步骤b3:根据pv和pu利用式Ⅰ计算当前帧属于浊音的概率pvf:
如果pvf≥p0,则标记当前帧为浊音,否则,标记当前帧为清音。
进一步的,所述信噪比检测模块的检测方法为:
进一步的,所述语音存在概率检测模块的检测方法为:
利用式Ⅱ计算当前帧中每个频点的语音存在概率p(k,n),如果当前帧满足p(k,n)≤p1的频点的个数大于频点个数门限N2时,标记当前帧为噪声信号,否则标记当前帧为语音信号;
进一步的,带噪语音信号能量检测模块的检测方法为:
步骤c1:计算当前帧的带噪语音信号的频域平均能量E(n),若语音存在概率检测模块标记当前帧为语音信号,则计算当前帧的E(n)经过时域平滑后得到的若语音存在概率检测模块标记当前帧为噪声信号,则将上一帧的作为当前帧的
本发明与现有技术相比具有以下技术特点:
(1)基于视频会议***的环境,能够对对瞬态冲击噪声、非瞬态冲击噪声以及准平稳噪声有较好的检测效果。
(2)相较于现有技术,本发明具有检测结果对典型的会议室噪声鲁棒、对信噪比鲁棒、算法运算复杂度低、易于实现等优点。
(3)本发明可以非常容易的从视频会议场景扩展到其他场景,如智能家居及车载***。
附图说明
图1所示为本发明的方法流程示意图;
图2所示为典型的语音活动检测方法及装置示意图;
图3所示为当存在挪动椅子的噪声时的语音活动检测结果;
图4所示为图3所示带噪语音信号的时频图;
图5所示为当存在敲桌子的噪声时的语音活动检测结果;
图6所示为图5带噪语音信号的时频图。
具体实施方式
实施例
在本实施例中公开了一种用于视频会议***的语音活动检测***,如图1和图2所示。需要说明的是本发明中的语音活动检测方法还可应用于其他场景。比如,教育录播***的应用场景、审讯***的应用场景等。应用本发明可以有效地区分音频信号中语音信号和噪声信号。
一种用于视频会议***的语音活动检测***,包括语音信号获取模块、瞬态冲击噪声检测模块、浊音清音分类模块、信噪比检测模块、语音存在概率检测模块、带噪语音信号能量检测模块和最终判决模块;
所述语音信号获取模块用于利用麦克风阵列获取带噪语音信号;
所述瞬态冲击噪声检测模块用于获取带噪语音信号的当前帧,并判断当前帧是否存在瞬态冲击噪声,若不存在瞬态冲击噪声则将当前帧标记为语音信号,若存在瞬态冲击噪声则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述浊音清音分类模块用于获取带噪语音信号的当前帧,判断当前帧为浊音或者清音,若当前帧为浊音则将当前帧标记为语音信号,若当前帧为清音则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述信噪比检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音信噪比和对应门限值的关系,若满足门限值则标记将将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述语音存在概率检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音存在概率和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述带噪语音信号能量检测模块用于获取带噪语音信号的当前帧,结合语音存在概率检测模块的标记结果判断当前帧的频域平均能量和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述最终判决模块用于根据所有模块的标记结果进行判决,当所有模块都标记当前帧为语音信号时,最终判决模块输出当前帧为语音信号,否则输出当前帧为噪声信号。
具体的,在带噪语音信号中,当瞬态冲击噪声单独出现时,检测瞬态冲击噪声是否存在较为容易。但是当语音信号(或非瞬态冲击噪声)和瞬态冲击噪声同时存在时,则检测瞬态冲击噪声是否存在较为困难。因此,给出瞬态冲击噪声检测模块的检测方法包括如下子步骤:
步骤a1:获得当前帧的频域带噪语音信号Y(k,n),对Y(k,n)进行平滑得到初次平滑的频域带噪语音信号S(k,n),其中k表示第k个频点k∈{1,2,3,...,K},K为正整数,n表示当前帧的帧数,平滑包括频域平滑和时域平滑,获取S(k,n)在一段时间内的最小统计量Smin(k,n);
具体的,时域带噪语音信号表示为y(t)=x(t)+v(t)+b(t),其中,y,x,v以及b分别表示带噪信号、纯净语音信号、瞬态/非瞬态冲击噪声信号和准平稳背景噪声信号,t表示离散时间点;
将时域信号y(t)分帧、加窗后,做快速傅里叶变换,得到频域带噪信号Y(k,n),
其中,h表示窗函数,T表示窗函数的长度(也是语音信号帧的长度),M表示两个相邻帧之间的步进长度,零均值随机变量Y(k,n),X(k,n),V(k,n),B(k,n),分别为y(t),x(t),v(t),b(t)在第n帧第k个频点的傅立叶变换值,其中k∈{0,1,...,K-1};
具体的,频域平滑为其中,bω(q)表示归一化窗函数,时域平滑在频域平滑之后,采取一阶递归平滑的方式,表示为:S(k,n)=αsS(k,n-1)+(1-αs)Sf(k,n);
步骤a2:设定初级门限γ0和ε0,其中γ0的取值范围为4.5-5,ε0的取值范围为1.5-1.8,对于当前帧的每个频点进行初级判断,若当前帧的第k个频点满足且则标记该频点不存在瞬态冲击噪声,否则标记该频点存在瞬态冲击噪声,其中,Bmin表示Smin(k,n)的估计偏差,Bmin的取值范围为1.5-1.7;
获取当前帧中所有不存在瞬态冲击噪声的频点再次进行平滑,得到二次平滑的频域带噪语音信号获取在一段时间内的的最小统计量和在当前帧之后第U帧在一段时间内的最小统计量U一般应设置为大于瞬态冲击噪声持续时间,小于语音信号持续时间,U的取值范围为10-20,一段时间内通常为6-12帧。
步骤a4:获得二级判断后当前帧存在瞬态冲击噪声的频点的个数,若当前帧存在瞬态冲击噪声的频点的个数大于频点个数门限N1,N1设置为10-20,则标记当前帧为存在瞬态冲击噪声,否则标记当前帧不存在瞬态冲击噪声。
具体的,浊音清音分类模块的分类方法包括如下子步骤:
步骤b1:获得当前帧的对数频域带噪语音信号Y(c,n),对Y(c,n)进行压缩得到Y′(c,n);
具体的,假设带噪信号具有清晰的谐波结构(浊音),在理想情况下,我们可以将其表示为其中,a(i)表示第i个谐波的能量,f0表示基频,δ(·)为狄拉克函数,Iv为谐波个数。将Y(f)转化到对数频域,记为Y(c),其中c=log f。将Y(f)转化到对数频域,可以使各次谐波之间的距离和基频无关,同时可使带噪信号的低频段分辨率较高,由于在此同样将带噪语音信号做分帧处理,我们将Y(c)表示为Y(c,n)。
具体的,为防止每帧带噪信号Y(c,n)中存在较强的窄带干扰,我们将其做压缩处理得到Y′(c,n)=Y(c,n)β(c,n),其中,β(c,n)为压缩因子,为估计β(c,n),首先估计带噪信号Y(c,n)的功率谱密度。先对带噪信号做对数频域平滑,然后,用一阶递归平滑的方式对频域平滑后的信号做时域平滑,记为S(c,n)。再估计带噪信号的长时(通常时长大于20帧)平均功率谱密度L(c,n),则压缩因子表示为
步骤b2:令Y′(c,n)和梳状滤波器h(c)进行卷积得到Y′(c,n)*h(c),然后将Y′(c,n)*h(c)的三个最大峰值的能量和以及Y′(c,n)的平均能量作为特征,输入高斯混合模型,得到当前帧的浊音可能概率pv和当前帧的清音可能概率pu;
h(c)的冲击响应表示为h(c)=ξ-log[η-cos(2πec)],定义域设为log(0.5)<c<log(Iv+0.5),除此之外,设h(c)=0。其中η控制h(c)峰的宽度,ξ的选择准则为使∫h(c)dc=0。因为我们选择h(c)为零均值,所以h(c)可以有效地抑制背景噪声B(c,n)中的白噪声成分。同时,由于h(c)的各个峰值近似对称,所以其可以有效地抑制准平稳噪声。
步骤b3:根据pv和pu利用式Ⅰ计算当前帧属于浊音的概率pvf:
如果pvf≥p0,则标记当前帧为浊音,否则,标记当前帧为清音。
具体的,信噪比检测模块的检测方法为:
我们以下式估计带噪语音信号的先验信噪比:
其中,表示当语音信号存在时的语音信号对数谱幅值估计器,αG为遗忘因子取值为大于零小于1;其中为的估计值,即 表示估计得到的噪声功率谱密度,其估计方法为其中 为估计得到的当前帧的噪声功率谱密度,αd为遗忘因子,取值范围为大于零小于1,p(k,n)为条件语音存在概率,其在语音存在概率检测模块中测得,κ为补偿因子,取值范围为1-2。
具体的,语音存在概率检测模块的检测方法为:
利用式Ⅱ计算当前帧中每个频点的语音存在概率p(k,n),如果当前帧满足p(k,n)≤p1的频点的个数大于频点个数门限N2时,N2设置为10-20,标记当前帧为噪声信号,否则标记当前帧为语音信号;
具体的,带噪语音信号能量检测模块的检测方法为:
步骤c1:计算当前帧的带噪语音信号的频域平均能量E(n),若语音存在概率检测模块标记当前帧为语音信号,则计算当前帧的E(n)经过时域平滑后得到的若语音存在概率检测模块标记当前帧为噪声信号,则将上一帧的作为当前帧的
步骤c2:根据当前帧的E(n)和进行判断,如果当前帧满足且E(n)>E0,则标记当前帧为语音信号,否则标记当前帧为噪声信号,其中,E0表示能量门限,取值范围为10-8-10-5,μ3表示调节因子,取值范围为0.2-0.3。
如图3-图6所示,本发明可以有效的在瞬态冲击噪声、非瞬态冲击噪声和准平稳背景噪声干扰下,准确的检测出语音信号。
如图3所示为当存在挪动椅子的噪声及其他干扰噪声时,本发明的语音活动检测结果。其中虚线代表语音活动检测结果。幅值为1时,表示检测结果为语音信号,为0时为噪声信号。椭圆中的信号为挪动椅子的噪声及其他干扰噪声。图4所示为图3所示带噪信号的时频图。
如图5所示为存在敲桌子的噪声时,本发明的语音活动检测结果。其中虚线代表语音检测结果。幅值为1时,表示检测结果为语音信号,为0时为噪声信号。椭圆中的信号为敲桌子的噪声。图6所示为图5带噪信号的时频图。
本发明既可用于多通道麦克风阵列做完回声消除、回声抑制、波束形成及降噪后的单通道语音信号,也可直接用于单通道降噪前或降噪后的语音信号。
Claims (7)
1.一种用于视频会议***的语音活动检测***,其特征在于,包括语音信号获取模块、瞬态冲击噪声检测模块、浊音清音分类模块、信噪比检测模块、语音存在概率检测模块、带噪语音信号能量检测模块和最终判决模块;
所述语音信号获取模块用于利用麦克风阵列获取带噪语音信号;
所述瞬态冲击噪声检测模块用于获取带噪语音信号的当前帧,并判断当前帧是否存在瞬态冲击噪声,若不存在瞬态冲击噪声则将当前帧标记为语音信号,若存在瞬态冲击噪声则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述浊音清音分类模块用于获取带噪语音信号的当前帧,判断当前帧为浊音或者清音,若当前帧为浊音则将当前帧标记为语音信号,若当前帧为清音则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述信噪比检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音信噪比和对应门限值的关系,若满足门限值则标记将将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述语音存在概率检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音存在概率和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述带噪语音信号能量检测模块用于获取带噪语音信号的当前帧,结合语音存在概率检测模块的标记结果判断当前帧的频域平均能量和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述最终判决模块用于根据所有模块的标记结果进行判决,当所有模块都标记当前帧为语音信号时,最终判决模块输出当前帧为语音信号,否则输出当前帧为噪声信号。
2.如权利要求1所述的用于视频会议***的语音活动检测***,其特征在于,瞬态冲击噪声检测模块的检测方法包括如下子步骤:
步骤a1:获得当前帧的频域带噪语音信号Y(k,n),对Y(k,n)进行平滑得到初次平滑的频域带噪语音信号S(k,n),其中k表示第k个频点k∈{1,2,3,...,K},K为正整数,n表示当前帧的帧数,所述平滑包括频域平滑和时域平滑,获取S(k,n)在一段时间之内的最小统计量Smin(k,n);
步骤a2:设定初级门限γ0和ε0,对于当前帧的每个频点进行初级判断,若当前帧的第k个频点满足且则标记该频点不存在瞬态冲击噪声,否则标记该频点存在瞬态冲击噪声,其中,Bmin表示Smin(k,n)的估计偏差;
步骤a4:获得二级判断后当前帧存在瞬态冲击噪声的频点的个数,若当前帧存在瞬态冲击噪声的频点的个数大于频点个数门限N1,则标记当前帧为存在瞬态冲击噪声,否则标记当前帧不存在瞬态冲击噪声。
3.如权利要求1所述的用于视频会议***的语音活动检测***,其特征在于,浊音清音分类模块的分类方法包括如下子步骤:
步骤b1:获得当前帧的对数频域带噪语音信号Y(c,n),对Y(c,n)进行压缩得到Y′(c,n);
步骤b2:令Y′(c,n)和梳状滤波器h(c)进行卷积得到Y′(c,n)*h(c),然后将Y′(c,n)*h(c)的三个最大峰值的能量和以及Y′(c,n)的平均能量作为特征,输入高斯混合模型,得到当前帧的浊音可能概率pv和当前帧的清音可能概率pu;
步骤b3:根据pv和pu利用式Ⅰ计算当前帧属于浊音的概率pvf:
如果pvf≥p0,则标记当前帧为浊音,否则,标记当前帧为清音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910842478.1A CN110689905B (zh) | 2019-09-06 | 2019-09-06 | 一种用于视频会议***的语音活动检测*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910842478.1A CN110689905B (zh) | 2019-09-06 | 2019-09-06 | 一种用于视频会议***的语音活动检测*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110689905A true CN110689905A (zh) | 2020-01-14 |
CN110689905B CN110689905B (zh) | 2021-12-21 |
Family
ID=69107861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910842478.1A Active CN110689905B (zh) | 2019-09-06 | 2019-09-06 | 一种用于视频会议***的语音活动检测*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110689905B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205826A (zh) * | 2021-05-12 | 2021-08-03 | 北京百瑞互联技术有限公司 | 一种lc3音频噪声消除方法、装置及存储介质 |
CN113470623A (zh) * | 2021-08-12 | 2021-10-01 | 成都启英泰伦科技有限公司 | 一种自适应语音端点检测方法及检测电路 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1912993A (zh) * | 2005-08-08 | 2007-02-14 | 中国科学院声学研究所 | 基于能量及谐波的语音端点检测方法 |
CN101179283A (zh) * | 2007-09-28 | 2008-05-14 | 杭州国芯科技有限公司 | 脉冲噪声的检测及抑制方法 |
CN101197130A (zh) * | 2006-12-07 | 2008-06-11 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
US20130054234A1 (en) * | 2011-08-30 | 2013-02-28 | Gwangju Institute Of Science And Technology | Apparatus and method for eliminating noise |
CN104157295A (zh) * | 2014-08-22 | 2014-11-19 | 中国科学院上海高等研究院 | 用于检测及抑制瞬态噪声的方法 |
CN104424954A (zh) * | 2013-08-20 | 2015-03-18 | 华为技术有限公司 | 噪声估计方法与装置 |
US20150279386A1 (en) * | 2014-03-31 | 2015-10-01 | Google Inc. | Situation dependent transient suppression |
US20180137877A1 (en) * | 2015-06-09 | 2018-05-17 | Grg Banking Equipment Co., Ltd. | Method, device and system for noise suppression |
CN108346425A (zh) * | 2017-01-25 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种语音活动检测的方法和装置、语音识别的方法和装置 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
-
2019
- 2019-09-06 CN CN201910842478.1A patent/CN110689905B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1912993A (zh) * | 2005-08-08 | 2007-02-14 | 中国科学院声学研究所 | 基于能量及谐波的语音端点检测方法 |
CN101197130A (zh) * | 2006-12-07 | 2008-06-11 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
CN101179283A (zh) * | 2007-09-28 | 2008-05-14 | 杭州国芯科技有限公司 | 脉冲噪声的检测及抑制方法 |
US20130054234A1 (en) * | 2011-08-30 | 2013-02-28 | Gwangju Institute Of Science And Technology | Apparatus and method for eliminating noise |
CN104424954A (zh) * | 2013-08-20 | 2015-03-18 | 华为技术有限公司 | 噪声估计方法与装置 |
US20150279386A1 (en) * | 2014-03-31 | 2015-10-01 | Google Inc. | Situation dependent transient suppression |
CN104157295A (zh) * | 2014-08-22 | 2014-11-19 | 中国科学院上海高等研究院 | 用于检测及抑制瞬态噪声的方法 |
US20180137877A1 (en) * | 2015-06-09 | 2018-05-17 | Grg Banking Equipment Co., Ltd. | Method, device and system for noise suppression |
CN108346425A (zh) * | 2017-01-25 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种语音活动检测的方法和装置、语音识别的方法和装置 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
Non-Patent Citations (3)
Title |
---|
MARCO DONATO: "A Sub-Threshold Noise Transient Simulator Based on Integrated Random Telegraph and Thermal Noise Modeling", 《IEEE TRANSACTIONS ON COMPUTER-AIDED DESIGN OF INTEGRATED CIRCUITS AND SYSTEMS》 * |
李丹: "瞬态噪声环境下改进的语音端点检测算法", 《兰州工业学院学报》 * |
王兆伟: "语音中瞬态噪声抑制算法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205826A (zh) * | 2021-05-12 | 2021-08-03 | 北京百瑞互联技术有限公司 | 一种lc3音频噪声消除方法、装置及存储介质 |
CN113205826B (zh) * | 2021-05-12 | 2022-06-07 | 北京百瑞互联技术有限公司 | 一种lc3音频噪声消除方法、装置及存储介质 |
CN113470623A (zh) * | 2021-08-12 | 2021-10-01 | 成都启英泰伦科技有限公司 | 一种自适应语音端点检测方法及检测电路 |
CN113470623B (zh) * | 2021-08-12 | 2023-05-16 | 成都启英泰伦科技有限公司 | 一种自适应语音端点检测方法及检测电路 |
Also Published As
Publication number | Publication date |
---|---|
CN110689905B (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108831499B (zh) | 利用语音存在概率的语音增强方法 | |
Aneeja et al. | Single frequency filtering approach for discriminating speech and nonspeech | |
Suhadi et al. | A data-driven approach to a priori SNR estimation | |
Upadhyay et al. | Single channel speech enhancement: using Wiener filtering with recursive noise estimation | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN105489226A (zh) | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 | |
CN111292758B (zh) | 语音活动检测方法及装置、可读存储介质 | |
CN110689905B (zh) | 一种用于视频会议***的语音活动检测*** | |
Jangjit et al. | A new wavelet denoising method for noise threshold | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
Habets et al. | Temporal selective dereverberation of noisy speech using one microphone | |
Lee et al. | Dynamic noise embedding: Noise aware training and adaptation for speech enhancement | |
Naik et al. | Modified magnitude spectral subtraction methods for speech enhancement | |
Bai et al. | DNN-based speech enhancement using soft audible noise masking for wind noise reduction | |
Sun et al. | Enhanced time-frequency masking by using neural networks for monaural source separation in reverberant room environments | |
Nie et al. | Deep Noise Tracking Network: A Hybrid Signal Processing/Deep Learning Approach to Speech Enhancement. | |
May et al. | Assessment of broadband SNR estimation for hearing aid applications | |
CN104200815B (zh) | 一种基于相关分析的音频噪声实时检测方法 | |
Diether et al. | Efficient blind estimation of subband reverberation time from speech in non-diffuse environments | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Heese et al. | Noise PSD estimation by logarithmic baseline tracing | |
Tang et al. | Speech Recognition in High Noise Environment. | |
Ou et al. | Soft Decision Based Gaussian‐Laplacian Combination Model for Noisy Speech Enhancement | |
Zong et al. | Pitch detection using EMD-based AMDF | |
Azarpour et al. | Binaural noise PSD estimation for binaural speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |