CN105957520A - 一种适用于回声消除***的语音状态检测方法 - Google Patents

一种适用于回声消除***的语音状态检测方法 Download PDF

Info

Publication number
CN105957520A
CN105957520A CN201610519040.6A CN201610519040A CN105957520A CN 105957520 A CN105957520 A CN 105957520A CN 201610519040 A CN201610519040 A CN 201610519040A CN 105957520 A CN105957520 A CN 105957520A
Authority
CN
China
Prior art keywords
voice
signal
piecemeal
training sample
gauss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610519040.6A
Other languages
English (en)
Other versions
CN105957520B (zh
Inventor
王珂
明萌
纪红
李曦
张鹤立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201610519040.6A priority Critical patent/CN105957520B/zh
Publication of CN105957520A publication Critical patent/CN105957520A/zh
Application granted granted Critical
Publication of CN105957520B publication Critical patent/CN105957520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明是一种适用于回声消除***的语音状态检测方法,涉及基于IP网络的语音交互技术领域。本发明利用噪声训练样本和语音训练样本构造支持向量机(SVM)分类器,待检测信号是分块后的远端和近端信号,使用构造好的基于高斯混合模型的SVM分类器对本分块远端信号进行VAD判决,如果判断结果为无语音,停止滤波器更新和滤波,直接输出近端语音信号,如果判断远端有语音,进行双端通话判决;当处于双端通话时,停止滤波器系数更新,对近端信号进行滤波;否则,根据远端信号进行滤波器系数更新和滤波。本发明提高了语音活动性检测的准确性,避免将双端静音状态误判为双端通话状态,防止了在没有参考信号的情况下滤波器的错误更新和滤波。

Description

一种适用于回声消除***的语音状态检测方法
技术领域
本发明涉及基于IP网络的语音交互技术领域,具体是指一种适用于回声消除***的语音状态检测方法。
背景技术
回声消除技术广泛应用于电话会议***、车载蓝牙***、IP电话等基于IP网络的语音交互***中,用以消除扬声器播放的声音经过多种路径传播后被麦克风拾取,并传回到***远端形成的声学回声。回声消除的核心思想是通过一个自适应滤波器模拟回声路径,并将估计回声信号从麦克风拾取的信号中减去。
语音状态检测在回声消除中起着至关重要的作用。在声音信号进入滤波器之前需要首先对当前语音状态进行判断,根据***所处的语音状态决定滤波器的工作状态。是否能准确迅速地判断***语音状态,对回声消除的效果有很大的影响。
现有的回声消除***通常直接使用DTD(Double Talk Detection,双端通话检测)算法判断***是否处于双端通话状态,并在双端通话状态下停止滤波器系数更新,防止这种情况下滤波器由于受到近端语音的干扰而发散。常用的DTD算法——Geigel算法通过比较近端信号和远端信号的幅度值判断是否存在近端语音,在近端信号与远端信号幅度的比值ξ(g)大于特定值T时认为***处于双端通话状态。即当:
ξ ( g ) = | y ( k ) | m a x { | x ( k - 1 ) | , ... , | x ( k - N ) | } > T
时,认为存在近端语音,***处于双端通话状态。其中|y(k)|是近端语音幅度值,max{|x(k-1)|,...,|x(k-N)|}是远端语音信号前N个采样点的最大幅度值。门限T根据回声路径衰减来确定,通常可以取0.5;N通常与滤波器长度相等。
但该方法存在如下缺点:
1、Geigel算法假设了近端语音远大于远端的回声信号,并不完全符合回声消除的实际情况,因此在某些情况下不是很准确。
2、不进行远端VAD(Voice Activity Detection,语音活动性检测)就直接进行DTD可能会导致双端静音状态被误判为双端通话状态。
3、仅在双端通话状态下停止滤波器系数更新,在远端语音不存在的状态下持续进行滤波和系数更新可能导致滤波器发散,并从近端信号中错误地减去并不存在的远端语音。
发明内容
为了克服上述的三个问题,本发明提出一种结合VAD和DTD的语音状态检测方法,并根据检测结果设计新的滤波和更新策略以提高检测准确率,避免语音状态的误判,防止滤波器的错误更新和滤波。
本发明提供的一种适用于回声消除***的语音状态检测方法,实现步骤如下:
第一步:利用噪声训练样本和语音训练样本构造支持向量机SVM分类器。
分别对噪声训练样本和语音训练样本进行特征值提取和高斯混合模型GMM训练,构造对应的高斯超向量。利用高斯超向量构造SVM分类器核函数,以及语音信号和噪声信号对应的SVM模型,使用构造好的核函数和SVM模型构造得到SVM分类器。
第二步:待检测信号是分块后的远端和近端信号。使用构造好的基于高斯混合模型的SVM分类器对本分块远端信号进行VAD判决。
对本分块远端信号进行特征值提取和GMM训练,构造高斯超向量。将本分块远端信号对应的高斯超向量输入到构造好的SVM分类器中进行判决。如果分类为噪声,判断结果为无语音,则停止滤波器更新和滤波,直接输出近端语音信号。否则说明远端有语音,进行下一步的双端通话判决。
第三步:判断***是否属于双端通话状态。
计算远端信号和误差信号的归一化互相关ξXECC,比较归一化互相关ξXECC和设置的门限TXECC,当ξXECC<TXECC时,近端有语音,***处于双端通话状态,停止滤波器系数更新,对近端信号进行滤波。当ξXECC≥TXECC时,近端无语音,根据远端信号进行滤波器系数更新和滤波。
本发明的优点与积极效果在于:
(1)使用基于高斯混合模型的支持向量机算法对远端信号进行语音活动性检测,提高了语音活动性检测的准确性,克服了常用的基于能量的语音活动性检测方法存在的在低信噪比条件下检测不准确的问题。
(2)在双端通话检测之前首先进行远端语音活动性检测,在远端有语音时再进行双端通话检测,能够避免将双端静音状态误判为双端通话状态。采用基于互相关的双端通话检测算法,提高了双端通话检测的准确性。
(3)根据***所处的不同语音状态采取不同的滤波和更新策略。与传统回声消除***仅在双端通话时停止滤波器系数更新相比,在远端无语音的状态下也停止滤波器系数更新和滤波,可以进一步防止在没有参考信号的情况下滤波器的错误更新和滤波。
附图说明
图1是本发明的适用于回声消除***的语音状态检测方法的整体流程示意图;
图2是本发明实施例仿真所用的两段PCM流示意图;
图3是本发明实施例仅使用基于能量的DTD检测进行回声消除的效果示意图;
图4是本发明实施例采用本发明方法进行回声消除的效果示意图;
图5是本发明实施例使用改进前的回声消除库的Sipdroid回声消除效果示意图;
图6是本发明实施例使用改进后的回声消除库的Sipdroid回声消除效果示意图;
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明方法在DTD之前首先对远端信号进行VAD,在VAD检测出远端信号不存在时直接停止滤波器系数更新和滤波,以防止滤波器发散及错误地滤波。在VAD检测出存在远端语音时再进行DTD,并在双端通话时停止滤波器系数更新。其中使用的VAD算法是基于GMM(Gaussian Mixture Model,高斯混合模型)的SVM(Support Vector Machine,支持向量机)算法,该算法利用GMM构造特征超向量,将GMM超向量用于SVM的特征值输入及核函数构造,准确率高于常用的基于能量或相关性的VAD算法。使用的DTD算法是基于远端信号与误差信号互相关的DTD,准确率也高于常用的基于能量的Geigel算法。通过将远端VAD和DTD结合起来,可以提高语音状态检测的准确性。通过在不同语音状态下采取不同的滤波策略,可以防止滤波器的发散及错误的滤波,大大改善回声消除的效果。
结合图1说明本发明的适用于回声消除***的语音状态检测方法的各步骤。
步骤一,利用噪声训练样本和语音训练样本构造SVM分类器,包括步骤S101~S103。
步骤S101:对噪声信号训练样本和语音信号训练样本进行特征值提取。这里采用的特征值是Mel倒谱系数(MFCC)。MFCC具体提取过程:对信号进行预加重、分块及加窗处理,将加窗后的分块经过快速傅里叶变换(FFT)求出每一分块的频谱参数。将每一分块的频谱参数通过一组由K个三角形带通滤波器所组成的Mel刻度滤波器,K个Mel带通滤波器编号从0到K-1,将每个频带的输出取对数,求出每一个输出的对数能量,对每个分块语音信号获得对应的K个对数频谱。K为正整数,一般取值为20~30。最后将得到的K个对数频谱进行余弦变换求出Mel倒谱系数。将对数频谱经过离散余弦变换变换到倒谱频域得到Mel倒谱系数的公式如下:
m i ( l ) = &Sigma; k = 0 K - 1 S i ( k ) c o s ( &pi; l ( k + 1 / 2 ) K ) , 0 &le; k < K , 0 &le; l < L - - - ( 1 )
其中,Si(k)为第i个分块信号通过编号k的带通滤波器后对应得到的对数频谱,K为Mel带通滤波器的个数,mi(l)为第i个分块语音信号的MFCC的第l阶参数,L为提取的MFCC的总阶数,公式(1)中i表示对应第i个分块,i为正整数。
步骤S102:生成噪声信号训练样本和语音信号训练样本对应的高斯超向量。
分别利用噪声信号训练样本和语音信号训练样本的MFCC参数建立噪声信号和语音信号对应的高斯混合模型。GMM本质上是一种多维概率密度函数,N阶高斯混合模型g(x)是由N个单高斯分布的线性组合来描述帧特征在特征空间的分布,对某一分块,g(x)表示如下:
g ( x ) = &Sigma; i = 1 N w i p i ( x ) - - - ( 2 )
其中,x是训练样本本分块的MFCC参数构成的L维特征向量,N是高斯混合模型的阶数,pi(x)为高斯混合模型的第i个高斯分量,wi为高斯混合模型分量pi(x)的加权因子。
pi(x)表示如下:
p i ( x ) = 1 ( 2 &pi; ) L 2 | &Sigma; i | 1 2 exp { - ( x - &mu; i ) T &Sigma; i - 1 ( x - &mu; i ) 2 } - - - ( 3 )
其中,Σi是第i个高斯分量的协方差矩阵,μi是第i个高斯分量的均值向量,因此,GMM模型的参数集λ可表示如下:
λ=(wiii),i=1,2,...,N (4)
相应的高斯混合模型g(x)可以表示为:
g ( x ) = &Sigma; i = 1 N w i N ( x ; &mu; i , &Sigma; i ) - - - ( 5 )
其中,N(.)表示高斯概率密度函数。
建立GMM模型的过程实际上就是通过训练估计GMM模型的参数的过程。可以采用最大期望EM算法进行模型参数更新。该算法有两个主要步骤:期望E步和最大化M步。E步利用当前的参数集计算完整数据的似然度函数的期望值,M步通过最大化期望函数获取新的参数。E步和M步一直迭代直至收敛。最后分别可以得到语音和噪声的GMM模型,设为g(s)和g(n),s表示语音信号,n表示噪声信号。
利用建立好的高斯混合模型构造高斯超向量。高斯超向量是高斯混合模型的参数构造而成的,可以将语音和噪声的GMM高斯超向量ms和mn分别表示如下:
m s = ( ( w 1 &Sigma; 1 - 1 / 2 &mu; 1 s ) T , ( w 2 &Sigma; 2 - 1 / 2 &mu; 2 s ) T , ... , ( w N &Sigma; N - 1 / 2 &mu; N s ) T ) - - - ( 6 )
m n = ( ( w 1 &Sigma; 1 - 1 / 2 &mu; 1 n ) T , ( w 2 &Sigma; 2 - 1 / 2 &mu; 2 n ) T , ... , ( w N &Sigma; N - 1 / 2 &mu; N n ) T ) - - - ( 7 )
为g(s)中各高斯分量的均值向量,为g(n)中各高斯分量的均值向量。
步骤S103:利用构造好的高斯超向量构造SVM分类器。分别利用噪声信号和语音信号对应的高斯超向量mn和ms建立噪声信号和语音信号对应的SVM模型。利用噪声信号和语音信号对应的高斯超向量mn和ms构造K-L核函数。该核函数使用两个GMM概率分布之间的K-L散度构造而成。
由语音和噪声的GMM超向量mn和ms构造的核函数K(n,s)具体表达式如下:
K ( n , s ) = &Sigma; i = 1 N ( w i &Sigma; - 1 2 &mu; i n ) T ( w i &Sigma; - 1 2 &mu; i s ) - - - ( 8 )
确定核函数、语音信号的SVM和噪声信号的SVM后可以得到SVM分类器。
步骤二,使用构造好的基于GMM的SVM分类器对本分块远端信号进行VAD判决。输入SVM分类器的待检测信号是分块后的远端和近端信号。需要首先进行傅里叶变换转换到频域,然后根据信号频谱计算信号分块的特征值,即MFCC、归一化互相关等。具体可分为步骤S201~S203。
步骤S201:本分块远端信号MFCC参数提取。MFCC参数的具体提取过程同步骤101,通过公式(1)最终得到本分块远端信号对应的MFCC参数。
步骤S202:本分块远端信号对应的高斯超向量生成。利用本分块远端信号MFCC参数建立高斯混合模型,并利用建立好的高斯混合模型构造本分块远端信号对应的高斯超向量。高斯超向量生成方法同步骤S102,如公式(6)和(7)所示。
步骤S203:将本分块远端信号对应的高斯超向量输入到构造好的SVM分类器中,使用基于GMM的SVM算法进行语音/噪声分类。得出远端语音的VAD判决结果。如果分类为噪声,判断结果为无语音,则停止滤波器更新和滤波,直接输出近端语音信号。如果分类为语音,说明远端有语音,进行下一步的双端通话判决。
步骤三,判断***是否属于双端通话状态。
步骤S301:计算误差信号。
自适应滤波器系数模拟了回声路径,因此本分块远端信号与自适应滤波器系数进行卷积可以得到估计回声信号xT(n)w(n),误差信号e(n)即为本分块的近端信号d(n)与估计回声信号xT(n)w(n)之差。
自适应滤波器系数是根据自适应算法,利用误差信号和远端信号不断更新的。一种常用的更新算法——LMS算法的更新公式如下:
w(n+1)=w(n)+2μe(n)x(n) (9)
其中,μ是步长,w(n)是滤波器权重向量,e(n)是误差信号,x(n)是远端信号。n代表第n个时刻(采样点)。
步骤S302:计算远端信号和误差信号的归一化互相关。由于时域的互相关运算可以转换为频域的点乘,即两个信号频谱值逐点相乘,因此可以直接利用远端信号频谱X(k)和误差信号频谱E(k)求得该归一化互相关的值,计算复杂度较低。归一化互相关在频域的计算方法:
&xi; X E C C = m a x k E &lsqb; X ( k ) E ( k ) &rsqb; E &lsqb; X ( k ) 2 &rsqb; E &lsqb; E ( k ) 2 &rsqb; - - - ( 10 )
ξXECC表示远端信号和误差信号的归一化互相关,k表示频点。
步骤S303:DTD判决。比较远端信号和误差信号的归一化互相关ξXECC和归一化互相关门限。当近端无语音时,远端信号和误差信号的归一化互相关ξXECC应该等于1,而近端有语音时,归一化互相关ξXECC小于1。因此,可以设置一个略小于1的常数TXECC作为门限值,TXECC通常取值在0.9到1之间,且该门限值根据检测结果实时更新。更新的算法根据实际情况选取。一个好的门限值应该使误报概率和漏报概率都相对较小。例如:可以首先任意选择一个略小于1的常数,然后设置近端语音为0,计算误报概率和漏报概率,在一定范围内调整TXECC,直到误报概率和漏报概率都较小。
当归一化互相关小于门限时,即:
ξXECC<TXECC (11)***处于双端通话状态,停止滤波器系数更新,直接使用原来的滤波器系数对近端信号进行滤波;否则,不存在近端语音,只存在远端语音,这时既进行滤波器系数更新,也进行滤波。
将本发明提出的语音状态检测方法应用于实际的回声消除***中,包括两个终端,使用VoIP软件Sipdroid对实际通话效果进行验证。
首先使用matlab对本发明提出的结合VAD和DTD的语音状态检测方法进行仿真。仿真所用的语音信号包括1段30秒的远端语音PCM(Pulse Code Modulation,脉冲编码调制)流以及1段与之对应的近端语音PCM流,采样频率均为8000Hz。在回声消除***中,滤波器的长度设为128,自适应滤波算法采用BFDAF算法(即频域的NLMS算法),而语音状态检测算法采用本发明提出的语音状态检测方法。
如图2所示,为仿真所用的两段PCM流。从上至下依次为远端信号波形、近端信号波形。横坐标为时间,单位s;纵坐标为幅度值。采用原有的语音状态检测方法,即仅使用基于能量的DTD检测,回声消除效果如图3所示。从图中可以看出,在VAD未改进的条件下,前半段的回声消除效果较好,但还是存在少量残余回声;后半段的效果则不是很理想,原声被消除得比较多,回声消除后的信号产生了较大失真。
采用本发明提出的语音状态检测方法,回声消除的效果如图4所示。对比改进之前和改进之后分别进行回声消除后得到的两段PCM流,可以看出回声消除效果在改进语音状态检测方法后有明显的改善。残余回声消除更加彻底,近端语音也几乎没有出现失真现象。
为了进一步验证本发明提出的语音状态检测方法在实际回声消除***中的效果,对该方法编写相应的C程序,并利用语音通信软件Sipdroid对该方法进行测试。
根据本发明的语音状态检测方法的步骤修改回声消除库WebRTC中执行VAD和DTD的部分,然后在Sipdroid中调用该回声消除库。在不同环境下使用Sipdroid进行实际双端通话并进行录音,保存回声消除前后的语音PCM流,以便进行回声消除效果分析。
为了在取出语音流后进行观察分析时比较方便和清晰,每次测试中,两位通话者依次从1到10进行报数。在不同环境下,分别对改进前和改进后的Sipdroid版本进行多次通话测试以便进行对比。
首先对使用改进前的回声消除库的Sipdroid回声消除效果进行多次通话测试,并取出远端、近端和回声消除后的PCM流。测试结果如图5所示,图中仅截取报数部分的PCM流。其中,第一段PCM流是远端信号,第二段PCM流是近端信号,第三段PCM流是回声消除后的近端信号。可见,回声消除效果不是很理想,报数部分有少许残余回声,虚线框圈出部分。其他测试结果大部分与此类似。
然后,对使用改进后的回声消除库的Sipdroid的回声消除效果也使用同样方法进行多次通话测试,并取出远端、近端和回声消除后的PCM流。图6为比较有代表性的一次测试结果。与图5类似,图中第一段PCM流是远端信号,第二段PCM流是近端信号,第三段PCM流是回声消除后的近端信号。可见,使用本发明改进后的语音检测方法后,回声消除效果比较理想,报数部分的残余回声消除比较彻底,如虚线框圈出部分,同时原声的保留也没有受到影响。多次测试发现,在不同环境下,回声消除的效果会受到一定影响,稳定性还有待进一步提高。但在大多数情况下,使用本发明的语音状态检测方法后的回声消除效果都较改进前的回声消除效果有明显改善。

Claims (5)

1.一种适用于回声消除***的语音状态检测方法,其特征在于,实现步骤如下:
第一步:利用噪声训练样本和语音训练样本构造支持向量机SVM分类器;
分别对噪声训练样本和语音训练样本进行特征值提取和高斯混合模型GMM训练,构造对应的高斯超向量,然后利用高斯超向量构造SVM分类器的核函数,以及语音信号和噪声信号对应的SVM模型;使用构造好的核函数和SVM模型构造得到SVM分类器;
第二步:待检测信号是分块后的远端和近端信号,使用构造好的SVM分类器对本分块远端信号进行VAD判决;VAD表示语音活动性检测;
对本分块远端信号进行特征值提取和GMM训练,构造高斯超向量,然后本分块远端信号对应的高斯超向量输入到构造好的SVM分类器中进行判决;如果判断结果为噪声,表示无语音,则停止滤波器更新和滤波,直接输出近端语音信号,否则说明远端有语音,进行下一步的双端通话判决;
第三步:判断***是否属于双端通话状态;
计算远端信号和误差信号的归一化互相关ξXECC;比较归一化互相关ξXECC和设置的门限TXECC,当ξXECC<TXECC时,***处于双端通话状态,停止滤波器系数更新,对近端信号进行滤波;否则,近端无语音,根据远端信号进行滤波器系数更新和滤波。
2.根据权利要求1所述的一种适用于回声消除***的语音状态检测方法,其特征在于,所述的第一步构造SVM分类器,包括如下步骤:
步骤S101:对噪声信号训练样本和语音信号训练样本进行特征值提取;所采用的特征值是Mel倒谱系数MFCC;
MFCC的提取过程是:对信号进行预加重、分块及加窗处理,将加窗后的分块经过快速傅里叶变换FFT求出每一分块的频谱参数;将每一分块的频谱参数通过一组由K个三角形带通滤波器所组成的Mel刻度滤波器,并对每个频带的输出取对数,获得对数频谱;设K个带通滤波器的编号从0到K-1,则第i个分块通过编号k的带通滤波器后对应得到的对数频谱为Si(k),第i个分块的MFCC的第l阶参数mi(l)为:
其中,L为提取的MFCC的总阶数;
步骤S102:生成噪声信号训练样本和语音信号训练样本的高斯超向量;
分别利用噪声信号训练样本和语音信号训练样本的MFCC参数建立噪声信号和语音信号对应的高斯混合模型;
对某一分块,N阶高斯混合模型g(x)表示为:
其中,x是训练样本本分块的MFCC参数构成的L维特征向量,pi(x)为高斯混合模型的第i个高斯分量,wi为第i个高斯分量的加权因子;Σi是第i个高斯分量的协方差矩阵,μi是第i个高斯分量的均值向量;
高斯混合模型g(x)进一步表示为:N(.)表示高斯概率密度函数;
采用最大期望算法进行高斯混合模型参数的更新,设最后得到语音信号训练样本的高斯混合模型为g(s),其中各高斯分量的均值向量为s表示语音信号;最后得到的噪声信号训练样本的高斯混合模型为g(n),其中各高斯分量的均值向量为n表示噪声信号;利用建立好的高斯混合模型构造语音信号训练样本和噪声信号训练样本的高斯超向量ms和mn分别为:
步骤S103:利用构造好的高斯超向量构造SVM分类器;
分别利用高斯超向量mn和ms建立噪声信号和语音信号对应的SVM模型;
利用高斯超向量mn和ms构造核函数K(n,s)如下:
确定核函数、语音信号的SVM模型和噪声信号的SVM,得到SVM分类器。
3.根据权利要求1或2所述的一种适用于回声消除***的语音状态检测方法,其特征在于,所述的第三步中,计算误差信号的方法是:将本分块远端信号与自适应滤波器系数进行卷积得到估计回声信号,误差信号为本分块近端信号与估计回声信号之差。
4.根据权利要求1或2所述的一种适用于回声消除***的语音状态检测方法,其特征在于,所述的第三步中,根据下面公式计算远端信号和误差信号的归一化互相关ξXECC
其中,k表示频点,X(k)为远端信号频谱,E(k)为误差信号频谱。
5.根据权利要求1或2所述的一种适用于回声消除***的语音状态检测方法,其特征在于,所述的第三步中,设置的门限TXECC为0.9到1之间的值,并根据判决结果进行实时更新。
CN201610519040.6A 2016-07-04 2016-07-04 一种适用于回声消除***的语音状态检测方法 Active CN105957520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610519040.6A CN105957520B (zh) 2016-07-04 2016-07-04 一种适用于回声消除***的语音状态检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610519040.6A CN105957520B (zh) 2016-07-04 2016-07-04 一种适用于回声消除***的语音状态检测方法

Publications (2)

Publication Number Publication Date
CN105957520A true CN105957520A (zh) 2016-09-21
CN105957520B CN105957520B (zh) 2019-10-11

Family

ID=56903377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610519040.6A Active CN105957520B (zh) 2016-07-04 2016-07-04 一种适用于回声消除***的语音状态检测方法

Country Status (1)

Country Link
CN (1) CN105957520B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106448661A (zh) * 2016-09-23 2017-02-22 华南理工大学 基于纯净语音与背景噪声两极建模的音频类型检测方法
CN107888792A (zh) * 2017-10-19 2018-04-06 浙江大华技术股份有限公司 一种回声消除方法、装置及***
CN108429994A (zh) * 2017-02-15 2018-08-21 阿里巴巴集团控股有限公司 音频识别、回声消除方法、装置及设备
CN109068012A (zh) * 2018-07-06 2018-12-21 南京时保联信息科技有限公司 一种用于音频会议***的双端通话检测方法
CN109215672A (zh) * 2017-07-05 2019-01-15 上海谦问万答吧云计算科技有限公司 一种声音信息的处理方法、装置及设备
CN109309764A (zh) * 2017-07-28 2019-02-05 北京搜狗科技发展有限公司 音频数据处理方法、装置、电子设备和存储介质
CN109348072A (zh) * 2018-08-30 2019-02-15 湖北工业大学 一种应用于回声抵消***的双端通话检测方法
CN109379501A (zh) * 2018-12-17 2019-02-22 杭州嘉楠耘智信息科技有限公司 一种用于回声消除的滤波方法及装置、设备、介质
CN109448748A (zh) * 2018-12-17 2019-03-08 杭州嘉楠耘智信息科技有限公司 一种用于回声消除的滤波方法及装置、设备、介质
CN109473123A (zh) * 2018-12-05 2019-03-15 百度在线网络技术(北京)有限公司 语音活动检测方法及装置
CN109493878A (zh) * 2018-12-17 2019-03-19 杭州嘉楠耘智信息科技有限公司 一种用于回声消除的滤波方法及装置、设备、介质
CN109547655A (zh) * 2018-12-30 2019-03-29 广东大仓机器人科技有限公司 一种网络语音通话的回声消除处理的方法
CN106448661B (zh) * 2016-09-23 2019-07-16 华南理工大学 基于纯净语音与背景噪声两极建模的音频类型检测方法
CN110246516A (zh) * 2019-07-25 2019-09-17 福建师范大学福清分校 一种语音通信中小空间回声信号的处理方法
CN110944089A (zh) * 2019-11-04 2020-03-31 中移(杭州)信息技术有限公司 双讲检测方法及电子设备
CN111049848A (zh) * 2019-12-23 2020-04-21 腾讯科技(深圳)有限公司 通话方法、装置、***、服务器及存储介质
CN111048118A (zh) * 2019-12-24 2020-04-21 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111161748A (zh) * 2020-02-20 2020-05-15 百度在线网络技术(北京)有限公司 一种双讲状态检测方法、装置以及电子设备
CN111294473A (zh) * 2019-01-28 2020-06-16 展讯通信(上海)有限公司 信号处理方法及装置
CN112133324A (zh) * 2019-06-06 2020-12-25 北京京东尚科信息技术有限公司 通话状态检测方法、装置、计算机***和介质
CN112614500A (zh) * 2019-09-18 2021-04-06 北京声智科技有限公司 回声消除方法、装置、设备及计算机存储介质
CN112637833A (zh) * 2020-12-21 2021-04-09 新疆品宣生物科技有限责任公司 通讯终端信息检测方法和设备
CN113223546A (zh) * 2020-12-28 2021-08-06 南京愔宜智能科技有限公司 一种音视频会议***及用于该音视频会议***的回音抵消装置
CN113241085A (zh) * 2021-04-29 2021-08-10 北京梧桐车联科技有限责任公司 回声消除方法、装置、设备及可读存储介质
CN114242106A (zh) * 2020-09-09 2022-03-25 中车株洲电力机车研究所有限公司 一种语音处理方法及其装置
CN117437929A (zh) * 2023-12-21 2024-01-23 睿云联(厦门)网络通讯技术有限公司 一种基于神经网络的实时回声消除方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012009047A1 (en) * 2010-07-12 2012-01-19 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
WO2013040414A1 (en) * 2011-09-16 2013-03-21 Qualcomm Incorporated Mobile device context information using speech detection
CN103151039A (zh) * 2013-02-07 2013-06-12 中国科学院自动化研究所 一种基于向量机svm的说话者年龄段识别方法
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN105657110A (zh) * 2016-02-26 2016-06-08 深圳Tcl数字技术有限公司 语音通信的回声消除方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012009047A1 (en) * 2010-07-12 2012-01-19 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
WO2013040414A1 (en) * 2011-09-16 2013-03-21 Qualcomm Incorporated Mobile device context information using speech detection
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN103151039A (zh) * 2013-02-07 2013-06-12 中国科学院自动化研究所 一种基于向量机svm的说话者年龄段识别方法
CN105657110A (zh) * 2016-02-26 2016-06-08 深圳Tcl数字技术有限公司 语音通信的回声消除方法及装置

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106448661A (zh) * 2016-09-23 2017-02-22 华南理工大学 基于纯净语音与背景噪声两极建模的音频类型检测方法
CN106448661B (zh) * 2016-09-23 2019-07-16 华南理工大学 基于纯净语音与背景噪声两极建模的音频类型检测方法
CN108429994A (zh) * 2017-02-15 2018-08-21 阿里巴巴集团控股有限公司 音频识别、回声消除方法、装置及设备
CN108429994B (zh) * 2017-02-15 2020-10-09 阿里巴巴集团控股有限公司 音频识别、回声消除方法、装置及设备
CN109215672A (zh) * 2017-07-05 2019-01-15 上海谦问万答吧云计算科技有限公司 一种声音信息的处理方法、装置及设备
CN109309764A (zh) * 2017-07-28 2019-02-05 北京搜狗科技发展有限公司 音频数据处理方法、装置、电子设备和存储介质
CN109309764B (zh) * 2017-07-28 2021-09-03 北京搜狗科技发展有限公司 音频数据处理方法、装置、电子设备和存储介质
WO2019076328A1 (en) * 2017-10-19 2019-04-25 Zhejiang Dahua Technology Co., Ltd. METHODS AND SYSTEMS FOR OPERATING A DEVICE FOR FILTERING SIGNALS
CN107888792A (zh) * 2017-10-19 2018-04-06 浙江大华技术股份有限公司 一种回声消除方法、装置及***
US11151976B2 (en) 2017-10-19 2021-10-19 Zhejiang Dahua Technology Co., Ltd. Methods and systems for operating a signal filter device
CN107888792B (zh) * 2017-10-19 2019-09-17 浙江大华技术股份有限公司 一种回声消除方法、装置及***
CN109068012A (zh) * 2018-07-06 2018-12-21 南京时保联信息科技有限公司 一种用于音频会议***的双端通话检测方法
CN109348072A (zh) * 2018-08-30 2019-02-15 湖北工业大学 一种应用于回声抵消***的双端通话检测方法
CN109348072B (zh) * 2018-08-30 2021-03-02 湖北工业大学 一种应用于回声抵消***的双端通话检测方法
CN109473123A (zh) * 2018-12-05 2019-03-15 百度在线网络技术(北京)有限公司 语音活动检测方法及装置
US11127416B2 (en) 2018-12-05 2021-09-21 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for voice activity detection
CN109493878A (zh) * 2018-12-17 2019-03-19 杭州嘉楠耘智信息科技有限公司 一种用于回声消除的滤波方法及装置、设备、介质
CN109379501B (zh) * 2018-12-17 2021-12-21 嘉楠明芯(北京)科技有限公司 一种用于回声消除的滤波方法及装置、设备、介质
CN109448748A (zh) * 2018-12-17 2019-03-08 杭州嘉楠耘智信息科技有限公司 一种用于回声消除的滤波方法及装置、设备、介质
CN109379501A (zh) * 2018-12-17 2019-02-22 杭州嘉楠耘智信息科技有限公司 一种用于回声消除的滤波方法及装置、设备、介质
CN109448748B (zh) * 2018-12-17 2021-08-03 嘉楠明芯(北京)科技有限公司 一种用于回声消除的滤波方法及装置、设备、介质
CN109493878B (zh) * 2018-12-17 2021-08-31 嘉楠明芯(北京)科技有限公司 一种用于回声消除的滤波方法及装置、设备、介质
CN109547655A (zh) * 2018-12-30 2019-03-29 广东大仓机器人科技有限公司 一种网络语音通话的回声消除处理的方法
CN111294473B (zh) * 2019-01-28 2022-01-04 展讯通信(上海)有限公司 信号处理方法及装置
CN111294473A (zh) * 2019-01-28 2020-06-16 展讯通信(上海)有限公司 信号处理方法及装置
CN112133324A (zh) * 2019-06-06 2020-12-25 北京京东尚科信息技术有限公司 通话状态检测方法、装置、计算机***和介质
CN110246516A (zh) * 2019-07-25 2019-09-17 福建师范大学福清分校 一种语音通信中小空间回声信号的处理方法
CN112614500A (zh) * 2019-09-18 2021-04-06 北京声智科技有限公司 回声消除方法、装置、设备及计算机存储介质
CN110944089A (zh) * 2019-11-04 2020-03-31 中移(杭州)信息技术有限公司 双讲检测方法及电子设备
CN111049848A (zh) * 2019-12-23 2020-04-21 腾讯科技(深圳)有限公司 通话方法、装置、***、服务器及存储介质
US11842751B2 (en) 2019-12-23 2023-12-12 Tencent Technology (Shenzhen) Company Limited Call method, apparatus, and system, server, and storage medium
CN111049848B (zh) * 2019-12-23 2021-11-23 腾讯科技(深圳)有限公司 通话方法、装置、***、服务器及存储介质
CN111048118B (zh) * 2019-12-24 2022-07-26 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111048118A (zh) * 2019-12-24 2020-04-21 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111161748A (zh) * 2020-02-20 2020-05-15 百度在线网络技术(北京)有限公司 一种双讲状态检测方法、装置以及电子设备
US11804235B2 (en) 2020-02-20 2023-10-31 Baidu Online Network Technology (Beijing) Co., Ltd. Double-talk state detection method and device, and electronic device
CN114242106A (zh) * 2020-09-09 2022-03-25 中车株洲电力机车研究所有限公司 一种语音处理方法及其装置
CN112637833A (zh) * 2020-12-21 2021-04-09 新疆品宣生物科技有限责任公司 通讯终端信息检测方法和设备
CN112637833B (zh) * 2020-12-21 2022-10-11 新疆品宣生物科技有限责任公司 通讯终端信息检测方法和设备
CN113223546A (zh) * 2020-12-28 2021-08-06 南京愔宜智能科技有限公司 一种音视频会议***及用于该音视频会议***的回音抵消装置
CN113241085A (zh) * 2021-04-29 2021-08-10 北京梧桐车联科技有限责任公司 回声消除方法、装置、设备及可读存储介质
CN113241085B (zh) * 2021-04-29 2022-07-22 北京梧桐车联科技有限责任公司 回声消除方法、装置、设备及可读存储介质
CN117437929A (zh) * 2023-12-21 2024-01-23 睿云联(厦门)网络通讯技术有限公司 一种基于神经网络的实时回声消除方法
CN117437929B (zh) * 2023-12-21 2024-03-08 睿云联(厦门)网络通讯技术有限公司 一种基于神经网络的实时回声消除方法

Also Published As

Publication number Publication date
CN105957520B (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN105957520A (zh) 一种适用于回声消除***的语音状态检测方法
CN111161752B (zh) 回声消除方法和装置
WO2020042706A1 (zh) 一种基于深度学习的回声消除方法
CN109524020B (zh) 一种语音增强处理方法
CN107123430A (zh) 回声消除方法、装置、会议平板及计算机存储介质
US20200105287A1 (en) Deep neural network-based method and apparatus for combining noise and echo removal
CN104157293B (zh) 一种增强声环境中目标语音信号拾取的信号处理方法
Carbajal et al. Multiple-input neural network-based residual echo suppression
Pfeifenberger et al. DNN-based speech mask estimation for eigenvector beamforming
CN106486131A (zh) 一种语音去噪的方法及装置
CN103440872B (zh) 瞬态噪声的去噪方法
CN103413547B (zh) 一种室内混响消除的方法
CN106157964A (zh) 一种确定回声消除中***延时的方法
CN108417224A (zh) 双向神经网络模型的训练和识别方法及***
CN106157967A (zh) 脉冲噪声抑制
CN109979476A (zh) 一种语音去混响的方法及装置
CN101820302B (zh) 一种回声消除装置
CN104658543A (zh) 一种室内混响消除的方法
CN111223492A (zh) 一种回声路径延迟估计方法及装置
CN106161820B (zh) 一种用于立体声声学回声抵消的通道间去相关方法
Nathwani et al. An extended experimental investigation of DNN uncertainty propagation for noise robust ASR
CN112133324A (zh) 通话状态检测方法、装置、计算机***和介质
Zhang et al. Generative Adversarial Network Based Acoustic Echo Cancellation.
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
CN115083431A (zh) 回声的消除方法、装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant