CN109901113B - 一种基于复杂环境的语音信号定位方法、装置及*** - Google Patents
一种基于复杂环境的语音信号定位方法、装置及*** Download PDFInfo
- Publication number
- CN109901113B CN109901113B CN201910190519.3A CN201910190519A CN109901113B CN 109901113 B CN109901113 B CN 109901113B CN 201910190519 A CN201910190519 A CN 201910190519A CN 109901113 B CN109901113 B CN 109901113B
- Authority
- CN
- China
- Prior art keywords
- signal
- paths
- residual
- path
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明实施例具体公开了一种基于复杂环境的语音信号定位方法、装置及***,包括:根据扬声器参考信号,对至少两路期望信号分别进行回声消除处理,获取至少两路第一残差信号;按照预设回声抑制传递函数,对至少两路第一残差信号中每一路第一残差信号分别进行回声抑制处理,获取至少两路第二残差信号;按照预设噪声抑制传递函数,分别对至少两路第二残差信号中的每一路第二残差信号进行噪声抑制处理,获取至少两路第三残差信号;根据至少两路第三残差信号,确定环境声音当前为语音状态时,对环境中的语音信号进行定位。通过该种方式,降低非目标语音状态信号对声源定位的干扰。实现对声源进行精准定位,提高声源定位鲁棒性。
Description
技术领域
本发明实施例涉及信号处理技术领域,具体涉及一种基于复杂环境的语音信号定位方法、装置及***。
背景技术
声源定位算法一般基于多个传声器组成的阵列,利用多路输入音频信号之间的相位差异估计声源方向信息。但在音频设备扬声器播放音频信号且处于较高噪声环境中时,传声器信号中存在较高能量的回声信号和噪声信号,这些信号会对声源定位算法对目标语音声源的定位造成极强的干扰,导致算法方位信息估算偏差极大,鲁棒性低。
为了解决上述问题,现有技术中存在将回声消除和静音检测等算法加入到***中,但是这种方法在非线性回声较强和环境噪声较高的情况下,鲁棒性依然很低。
如何保证即使处于较高噪声和较强非线性回声的复杂环境中,仍然可以对声源进行精准定位,提高声源定位鲁棒性成为本申请亟待解决的技术问题。
发明内容
为此,本发明实施例提供一种基于复杂环境的语音信号定位方法、装置及***,以解决现有技术中当处于较高噪声和较强非线性回声的复杂环境中,对声源定位不准确,鲁棒性低的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
第一方面,本发明实施例提供了一种基于复杂环境的语音信号定位方法,该方法包括:
根据预获取的扬声器参考信号,对至少两路传声器采集的期望信号中每一路期望信号分别进行回声消除处理,获取至少两路第一残差信号;
按照预设回声抑制传递函数,对至少两路第一残差信号中每一路第一残差信号分别进行回声抑制处理,获取至少两路第二残差信号;
按照预设噪声抑制传递函数,分别对至少两路第二残差信号中的每一路第二残差信号进行噪声抑制处理,获取至少两路第三残差信号;根据至少两路第三残差信号,对环境声音当前所处状态进行检测;
当确定环境声音当前所处状态为语音状态时,根据至少两路第三残差信号对环境中的语音信号进行定位。
本发明实施例的特征还在于,当确定环境声音当前所处状态为静音状态时,将前一次对环境中的语音信号进行定位的定位结果作为本次定位结果。
本发明实施例的特征还在于,当确定环境声音当前所处状态为语音状态时,根据至少两路第三残差信号进行声源定位对环境中的语音信号进行定位,具体包括:
对每一路第三残差信号分别进行平滑处理,获取至少两路经过平滑处理后的信号;
根据至少两路经过平滑处理后的信号进行声源定位对环境中的语音信号进行定位。
本发明实施例的特征还在于,根据预获取的扬声器参考信号,对至少两路传声器采集的期望信号中每一路期望信号,对预获取的扬声器参考信号分别进行回声消除处理,获取至少两路第一残差信号,具体包括:
将扬声器参考信号输入至第n个自适应滤波器中,获取第n个输出信号;
将第n个期望信号与第n个输入信号输出信号进行差值运算,获取第n个第一残差信号,其中,n为大于或者等于1,且小于或者等于期望信号的路数的正整数。
本发明实施例的特征还在于,预设回声抑制传递函数为:根据扬声器参考信号和第一路期望信号,对第一路第一残差信号进行回声抑制处理时采用的回声抑制传递函数;按照预设回声抑制传递函数,对至少两路第一残差信号中每一路第一残差信号分别进行回声抑制处理,获取至少两路第二残差信号,具体包括:
根据扬声器参考信号和第一路期望信号,对第一路第一残差信号进行回声抑制处理,得到第一路第二残差信号,并记录对第一路第一残差信号进行回声抑制处理时的回声抑制传递函数,其中,第一路第一残差信号为至少两路第一残差信号中的任一路第一残差信号,第一路期望信号为与第一路第一残差信号对应的期望信号;
根据回声抑制传递函数,分别对至少两路第一残差信号中除第一路第一残差信号之外的每一路第一残差信号进行回声抑制处理,得到至少一路第二残差信号。
本发明实施例的特征还在于,预设噪声抑制传递函数为对第一路第二残差信号进行噪声抑制处理时的噪声抑制传递函数;按照预设噪声抑制传递函数,分别对至少两路第二残差信号中的每一路第二残差信号进行噪声抑制处理,获取至少两路第三残差信号,具体包括:
对第一路第二残差信号进行噪声抑制处理,获取第一路第三残差信号,并记录对第一路第二残差信号进行噪声抑制处理时的噪声抑制传递函数;
根据噪声抑制传递函数,对除第一路第二残差信号之外的每一路第二残差信号进行噪声抑制处理,获取至少一路第三残差信号。
第二方面,本发明实施例还提供了一种基于复杂环境的语音信号定位装置,该装置包括:
回声消除模块,用于根据预获取的扬声器参考信号,对至少两路传声器采集的期望信号中每一路期望信号分别进行回声消除处理,获取至少两路第一残差信号;
回声抑制模块,用于按照预设回声抑制传递函数,对至少两路第一残差信号中每一路第一残差信号分别进行回声抑制处理,获取至少两路第二残差信号;
噪声抑制模块,用于按照预设噪声抑制传递函数,分别对至少两路第二残差信号中的每一路第二残差信号进行噪声抑制处理,获取至少两路第三残差信号;
状态检测模块,用于根据至少两路第三残差信号,对环境声音当前所处状态进行检测;
语音信号定位模块,用于当确定环境声音当前所处状态为语音状态时,根据至少两路第三残差信号对环境中的语音信号进行定位。
本发明实施例的特征还在于,语音信号定位模块还用于,当确定环境声音当前所处状态为静音状态时,将前一次对环境中的语音信号进行定位的定位结果作为本次声源定位结果。
本发明实施例的特征还在于,语音信号定位模块,具体用于:
对每一路第三残差信号分别进行平滑处理,获取至少两路经过平滑处理后的信号;
根据至少两路经过平滑处理后的信号对环境中的语音信号进行定位。
本发明实施例的特征还在于,回声消除模块,具体用于:
将扬声器参考信号输入至第n个自适应滤波器中,获取第n个输出信号;
将第n个期望信号与第n个输出信号进行差值运算,获取第n个第一残差信号,其中,n为大于或者等于1,且小于或者等于期望信号的路数的正整数。
本发明实施例的特征还在于,预设回声抑制传递函数为:根据扬声器参考信号和第一路期望信号,对第一路第一残差信号进行回声抑制处理时采用的回声抑制传递函数;
回声抑制模块具体用于,根据扬声器参考信号和第一路期望信号,对第一路第一残差信号进行回声抑制处理,得到第一路第二残差信号,并记录对第一路第一残差信号进行回声抑制处理时的回声抑制传递函数,其中,第一路第一残差信号为至少两路第一残差信号中的任一路第一残差信号,第一路期望信号为与第一路第一残差信号对应的期望信号;
根据回声抑制传递函数,分别对至少两路第一残差信号中除第一路第一残差信号之外的每一路第一残差信号进行回声抑制处理,得到至少一路第二残差信号。
本发明实施例的特征还在于,预设噪声抑制传递函数为对第一路第二残差信号进行噪声抑制处理时的噪声抑制传递函数;
噪声抑制模块,具体用于对第一路第二残差信号进行噪声抑制处理,获取第一路第三残差信号,并记录对第一路第二残差信号进行噪声抑制处理时的噪声抑制传递函数;
根据噪声抑制传递函数,对除第一路第二残差信号之外的每一路第二残差信号进行噪声抑制处理,获取至少一路第三残差信号。
第三方面,本发明实施例还提供了一种基于复杂环境的语音信号定位***,该***包括:处理器和存储器;
存储器用于存储一个或多个程序指令;
处理器,用于运行一个或多个程序指令,用以执行如上一种基于复杂环境的语音信号定位的方法中的任一方法步骤。
第四方面,本发明实施例还提供了一种计算机存储介质,计算机存储介质中包含一个或多个程序指令,一个或多个程序指令用于被一种基于复杂环境的语音信号定位***执行如上第一方面的一种基于复杂环境的语音信号定位方法中的任一方法步骤。
根据本发明的实施方式,具有如下优点:利用回声消除处理方法,依据扬声器参考信号,分别对至少两路传声器采集的期望信号中每一路期望信号中的回声信号进行线性消除。从而达到一定回声消除的作用。对至少两路第一残差信号分别进行回声抑制处理,得到至少两路第二残差信号。通过该种方式,可以抑制第一残差信号中的非线性成分;而且,对至少两路第一残差信号均采用同一个回声抑制传递函数,可以保证各路第一残差信号中的语音相位信息受到的非线性处理相同,也即是非线性损伤一致,从而避免不一致的非线性失真带来的严重干扰,提高***在抑制噪声中的鲁棒性。然后,再对至少两路第二残差信号进行噪声抑制处理,显著降低平稳噪声,提高***在平稳噪声中的鲁棒性。与回声抑制处理类似的,对至少两路第二残差信号进行噪声抑制处理时,均采用同一个噪声抑制传递函数,避免非线性失真带来的严重干扰。最终根据至少两路第三残差信号,对环境声音当前所处状态进行检测,只有当环境声音所处状态为语音状态时,对每一路第三残差信号分别进行平滑处理后,再对声源进行定位,进一步降低非目标语音状态信号对声源定位的干扰。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明一实施例提供的一种基于复杂环境的语音信号定位方法流程示意图;
图2为本发明一实施例提供的一种基于复杂环境的语音信号定位原理结构示意图;
图3为本发明另一实施例提供的一种基于复杂环境的语音信号定位装置结构示意图;
图4为本发明另一实施例提供的一种基于复杂环境的语音信号定位***结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例1提供了一种基于复杂环境的语音信号定位方法,具体如图1和图2所示,图1示出了基于复杂环境的语音信号定位方法流程示意图,图2示出了基于复杂环境的语音信号定位原理结构示意图。该方法包括:
步骤110,根据预获取的扬声器参考信号,对至少两路传声器采集的期望信号中每一路期望信号分别进行回声消除处理,获取至少两路第一残差信号。
具体的,可以采用自动回音消除(Automatic Echo Cancellation,简称AEC)方法去除期望信号中线性回声部分。图2中示出的Xref(z)为音频设备输入给扬声器的参考信号,D0(z),D1(z),...,Dn-1(z)为至少两个传声器接收到的至少两路音频信号,作为回声消除算法中期望信号,其中n为大于或者等于1的正整数。
其实现原理为,将扬声器参考信号输入至第n个自适应滤波器中,获取第n个输出信号;
将第n个期望信号与第n个输出信号进行差值运算,获取第n个第一残差信号,其中,n为大于或者等于1,且小于或者等于期望信号的路数的正整数。
如果设Waesn-1(z)为第n个自适应滤波器的传递函数,Ecn-1(z)为第n个第一残差信号,则有:Ecn-1(z)=Dn-1(z)-Waesn-1(z)Xref(z);
也即是:
Ec0(z)=D0(z)-Waec0(z)Xref(z),
Ec1(z)=D1(z)-Waec1(z)Xref(z),
...
Ecn-1(z)=Dn-1(z)-Waecn-1(z)Xref(z)
虽然,通过步骤110可以去除期望信号中的线性回声部分,而且,该过程为线性处理,因此不会破坏信号中的相位信息。即,能够达到消除一定回声且同时不影响声源定位所需信息的效果。然而,线性处理不能消除由音频***非线性失真带来的非线性回声部分,因此需要执行步骤120至步骤130,采用自动回音抑制(Acoustic Echo Suppression,简称AES)方法去除第一残差信号中的非线性回声部分。
步骤120,按照预设回声抑制传递函数,对至少两路第一残差信号中每一路第一残差信号分别进行回声抑制处理,获取至少两路第二残差信号。
可选的,预设回声抑制传递函数可以为:根据扬声器参考信号和第一路期望信号,对第一路第一残差信号进行回声抑制处理时采用的回声抑制传递函数。
在执行步骤120时,具体可以包括如下步骤:
根据扬声器参考信号和第一路期望信号,对第一路第一残差信号进行回声抑制处理,得到第一路第二残差信号,并记录对第一路第一残差信号进行回声抑制处理时的回声抑制传递函数。
其中,第一路第一残差信号为至少两路第一残差信号中的任一路第一残差信号,第一路期望信号为与第一路第一残差信号对应的期望信号。
根据回声抑制传递函数,分别对至少两路第一残差信号中除第一路第一残差信号之外的每一路第一残差信号进行回声抑制处理,得到至少一路第二残差信号。
具体处理过程由公式表示如下:
Esn-1(z)=Waesn-1(z)Ecn-1(z);
也即是,
Es0(z)=Waes0(z)Ec0(z);
Es1(z)=Waes1(z)Ec1(z);
...
Esn-1(z)=Waesn-1(z)Ecn-1(z)。
其中,Esn-1(z)为第n路第二残差信号,Waesn-1(z)为回声抑制传递函数,Ecn-1(z)为第n路第一残差信号。
虽然AES方法可以对第一残差信号中的非线性成分进行抑制,但是非线性处理也破坏了每一路信号中的相位信息。如果对每一路第一残差信号进行回声抑制处理时,采用的是不同的回声抑制传递函数的话,必然会对最终的声源定位造成极大的影响。为了解决该问题,本实施中提出对每一路第一残差信号进行回声抑制处理时,均采用同一个回声抑制传递函数。也即是使用同一个滤波器传递函数进行回声抑制处理。通过该种方式,保证AES方法对每一路第一残差信号进行的非线性处理相同,也即是非线性损伤一致,通过该种方式,避免了不一致的非线性失真带来的严重干扰。同时,考虑音频设备中各个传声器中的信号相似度较高,使用一路信号的滤波器对其他路信号进行回声抑制处理也可以起到较好的效果。
执行完步骤120之后,可以实现去除第一残差信号中的非线性回声部分。而接下来,则需要进行噪声抑制处理,进一步提升声源定位的鲁棒性。即,执行步骤130。
步骤130,按照预设噪声抑制传递函数,分别对至少两路第二残差信号中的每一路第二残差信号进行噪声抑制处理,获取至少两路第三残差信号。
可选的,预设回声抑制传递函数可以为:根据扬声器参考信号和第一路期望信号,对第一路第一残差信号进行回声抑制处理时采用的回声抑制传递函数。
在执行步骤130时,具体可以包括如下步骤:
对第一路第二残差信号进行噪声抑制处理,获取第一路第三残差信号,并记录对第一路第二残差信号进行噪声抑制处理时的噪声抑制传递函数。
根据噪声抑制传递函数,对除第一路第二残差信号之外的每一路第二残差信号进行噪声抑制处理,获取至少一路第三残差信号。
具体处理过程由公式表示如下:
Ern-1(z)=Waes(z)Esn-1(z);
也即是:
Er0(z)=Wnr(z)Es0(z)
Er1(z)=Wnr(z)Es1(z),
…
Ern-1(z)=Wnr(z)Esn-1(z)
其中,Ern-1(z)为第n第三残差信号,Wnr(z)为噪声抑制传递函数,Esn-1(z)为第n第二残差信号。
噪声抑制处理同样为非线性处理,同样会破坏信号的非线性信息。因此,至少两路第二残差信号使用同一个噪声抑制传递函数,也即是使用同一个滤波器传递函数进行噪声抑制处理,保证各路第三残差信号的非线性失真相同,降低非线性处理对信号相位信息破坏带来的干扰。噪音抑制处理过程可以采用现有技术实现,例如采用声音降噪方法,常用的声音降噪方法可以包括谱剑法、维纳滤波等,而且声音降噪方法还可以显著降低平稳噪声,提高***在平稳噪声中的鲁棒性。
步骤140,根据至少两路第三残差信号,对环境声音当前所处状态进行检测。
具体的,利用状态检测方法,根据至少两路第三残差信号,确定环境声音当前所处状态。环境声音当前所处状态可以包括语音状态或者静音状态。若为静音状态,则图2中的if voice=0;若为语音状态,则图2中的if voice=1。具体的状态检测方法为常规技术,例如采用基于信噪比的静音检测方法,或者基于机器学习的静音检测方法等。
步骤150,当确定环境声音当前所处状态为语音状态时,根据至少两路第三残差信号对环境中的语音信号进行定位。
在本实施例中,当确定环境声音当前所处状态为语音状态时,根据至少两路第三残差信号对环境中的语音信号进行定位,具体包括:
对每一路第三残差信号分别进行平滑处理,获取至少两路经过平滑处理后的信号;
根据至少两路经过平滑处理后的信号对环境中的语音信号进行定位。
具体的,可以采用如下方式对至少两路第三残差信号进行平滑处理:
E0(z)=smoothfactor*E0(z)+(1-smoothfactor)*Er0(z),
E1(z)=smoothfactor*E0(z)+(1-smoothfactor)*Er1(z),
…
En-1(z)=smoothfactor*E0(z)+(1-smoothfactor)*Ern-1(z)
其中,smoothfactor为平滑因子,数值一般为(0,1)区间的实数,具体数值可以由工作人员事先设定,在本实施例中,可以设置smoothfactor=0.9。
而声源定位方法可以采用现有方法,例如基于空间谱估计的最小方差无失真响应(Minimum Variance Distortionless Response,简称MVDR)算法和多重信号分类(Multiple Signal Classification,简称MUSIC)算法,基于到达时间差的广义互相关(Generalized Cross Correlation,简称GCC)算法,以及基于波束形成等算法的声源定位方法。具体声源定位过程也为现有技术,这里不做过多说明。
可选的,当确定环境声音当前所处状态为静音状态时,则不对至少两路第三残差信号做任何处理,而是直接输出这至少两路第三残差信号,且将前一次的声源定位结果作为本次声源定位结果。
本实施例中仅仅将语音状态的信号进行平滑处理后,作为声源定位的输入信号,是为了进一步降低非目标语音阶段信号对声源定位的干扰。而时间平滑可以一定程度上降低短时突发噪声对声源定位的干扰,使算法对目标语音信号的估计更加稳定。
本发明实施例提供的一种基于复杂环境的语音信号定位方法,利用回声消除处理方法,依据扬声器参考信号,分别对至少两路传声器采集的期望信号中每一路期望信号中的回声信号进行线性消除。从而达到一定回声消除的作用。对至少两路第一残差信号分别进行回声抑制处理,得到至少两路第二残差信号。通过该种方式,可以抑制第一残差信号中的非线性成分;而且,对至少两路第一残差信号均采用同一个回声抑制传递函数,可以保证各路第一残差信号中的语音相位信息受到的非线性处理相同,也即是非线性损伤一致,从而避免不一致的非线性失真带来的严重干扰,提高***在抑制噪声中的鲁棒性。然后,再对至少两路第二残差信号进行噪声抑制处理,显著降低平稳噪声,提高***在平稳噪声中的鲁棒性。与回声抑制处理类似的,对至少两路第二残差信号进行噪声抑制处理时,均采用同一个噪声抑制传递函数,避免非线性失真带来的严重干扰。最终根据至少两路第三残差信号,对环境声音当前所处状态进行检测,只有当环境声音所处状态为语音状态时,对每一路第三残差信号分别进行平滑处理后,再对声源进行定位,进一步降低非目标语音状态信号对声源定位的干扰。
与上述实施例1对应的,本发明实施例还提供了一种基于复杂环境的语音信号定位装置,具体如图3所示,该装置包括:回声消除模块301、回声抑制模块302、噪声抑制模块303、状态检测模块304和语音信号定位模块305。
回声消除模块301,用于根据预获取的扬声器参考信号,对至少两路传声器采集的期望信号中每一路期望信号分别进行回声消除处理,获取至少两路第一残差信号;
回声抑制模块302,用于按照预设回声抑制传递函数,对至少两路第一残差信号中每一路第一残差信号分别进行回声抑制处理,获取至少两路第二残差信号。
可选的,预设回声抑制传递函数可以为:根据扬声器参考信号和第一路期望信号,对第一路第一残差信号进行回声抑制处理时采用的回声抑制传递函数;
回声抑制模块302具体用于,根据扬声器参考信号和第一路期望信号,对第一路第一残差信号进行回声抑制处理,得到第一路第二残差信号,并记录对第一路第一残差信号进行回声抑制处理时的回声抑制传递函数,其中,第一路第一残差信号为至少两路第一残差信号中的任一路第一残差信号,第一路期望信号为与第一路第一残差信号对应的期望信号;
根据回声抑制传递函数,分别对至少两路第一残差信号中除第一路第一残差信号之外的每一路第一残差信号进行回声抑制处理,得到至少一路第二残差信号;
噪声抑制模块303,用于按照预设噪声抑制传递函数,分别对至少两路第二残差信号中的每一路第二残差信号进行噪声抑制处理,获取至少两路第三残差信号。
可选的,预设噪声抑制传递函数为对第一路第二残差信号进行噪声抑制处理时的噪声抑制传递函数。
噪声抑制模块303具体用于,对第一路第二残差信号进行噪声抑制处理,获取第一路第三残差信号,并记录对第一路第二残差信号进行噪声抑制处理时的噪声抑制传递函数;
根据噪声抑制传递函数,对除第一路第二残差信号之外的每一路第二残差信号进行噪声抑制处理,获取至少一路第三残差信号;
状态检测模块304,用于根据至少两路第三残差信号,对环境声音当前所处状态进行检测;
语音信号定位模块305,用于当确定环境声音当前所处状态为语音状态时,根据至少两路第三残差信号进行声源定位对环境中的语音信号进行定位。
可选的,语音信号定位模块305还用于,当确定环境声音当前所处状态为静音状态时,直接输出至少两路第三残差信号,且将前一次对环境中的语音信号进行定位的定位结果作为本次声源定位结果。
可选的,语音信号定位模块305具体用于,对每一路第三残差信号分别进行平滑处理,获取至少两路经过平滑处理后的信号;
根据至少两路经过平滑处理后的信号对环境中的语音信号进行定位。
可选的,回声消除模块301具体用于:将扬声器参考信号输入至第n个自适应滤波器中,获取第n个输出信号;
将第n个期望信号与第n个输出信号进行差值运算,获取第n个第一残差信号,其中,n为大于或者等于1,且小于或者等于期望信号的路数的正整数。
本发明实施例提供的一种基于复杂环境的语音信号定位装置中各部件所执行的功能均已在上述实施例1中做了详细介绍,因此这里不做过多赘述。
本发明实施例提供的一种基于复杂环境的语音信号定位装置,利用回声消除处理方法,依据扬声器参考信号,分别对至少两路传声器采集的期望信号中每一路期望信号中的回声信号进行线性消除。从而达到一定回声消除的作用。对至少两路第一残差信号分别进行回声抑制处理,得到至少两路第二残差信号。通过该种方式,可以抑制第一残差信号中的非线性成分;而且,对至少两路第一残差信号均采用同一个回声抑制传递函数,可以保证各路第一残差信号中的语音相位信息受到的非线性处理相同,也即是非线性损伤一致,从而避免不一致的非线性失真带来的严重干扰,提高***在抑制噪声中的鲁棒性。然后,再对至少两路第二残差信号进行噪声抑制处理,显著降低平稳噪声,提高***在平稳噪声中的鲁棒性。与回声抑制处理类似的,对至少两路第二残差信号进行噪声抑制处理时,均采用同一个噪声抑制传递函数,避免非线性失真带来的严重干扰。最终根据至少两路第三残差信号,对环境声音当前所处状态进行检测,只有当环境声音所处状态为语音状态时,对每一路第三残差信号分别进行平滑处理后,再对声源进行定位,进一步降低非目标语音状态信号对声源定位的干扰。
与上述实施例1相对应的,本发明实施例还提供了一种基于复杂环境的语音信号定位***,具体如图4所示,该***包括:处理器401和存储器402。
存储器402用于存储一个或多个程序指令;
处理器401,用于运行一个或多个程序指令,用以执行如上实施例所介绍的一种基于复杂环境的语音信号定位的方法。
本发明实施例提供的一种基于复杂环境的语音信号定位***,利用回声消除处理方法,依据扬声器参考信号,分别对至少两路传声器采集的期望信号中每一路期望信号中的回声信号进行线性消除。从而达到一定回声消除的作用。对至少两路第一残差信号分别进行回声抑制处理,得到至少两路第二残差信号。通过该种方式,可以抑制第一残差信号中的非线性成分;而且,对至少两路第一残差信号均采用同一个回声抑制传递函数,可以保证各路第一残差信号中的语音相位信息受到的非线性处理相同,也即是非线性损伤一致,从而避免不一致的非线性失真带来的严重干扰,提高***在抑制噪声中的鲁棒性。然后,再对至少两路第二残差信号进行噪声抑制处理,显著降低平稳噪声,提高***在平稳噪声中的鲁棒性。与回声抑制处理类似的,对至少两路第二残差信号进行噪声抑制处理时,均采用同一个噪声抑制传递函数,避免非线性失真带来的严重干扰。最终根据至少两路第三残差信号,对环境声音当前所处状态进行检测,只有当环境声音所处状态为语音状态时,对每一路第三残差信号分别进行平滑处理后,再对声源进行定位,进一步降低非目标语音状态信号对声源定位的干扰。
与上述实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包含一个或多个程序指令。其中,一个或多个程序指令用于被一种基于复杂环境的语音信号定位***执行如实施例1所介绍的一种基于复杂环境的语音信号定位方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (9)
1.一种基于复杂环境的语音信号定位方法,其特征在于,所述方法包括:
根据预获取的扬声器参考信号,对至少两路传声器采集的期望信号中每一路期望信号分别进行回声消除处理,获取至少两路第一残差信号;
按照预设回声抑制传递函数,对所述至少两路第一残差信号中每一路第一残差信号分别进行回声抑制处理,获取至少两路第二残差信号;
按照预设噪声抑制传递函数,分别对所述至少两路第二残差信号中的每一路第二残差信号进行噪声抑制处理,获取至少两路第三残差信号;
根据至少两路第三残差信号,对环境声音当前所处状态进行检测;
当确定所述环境声音当前所处状态为语音状态时,对每一路第三残差信号分别进行时间平滑处理,获取至少两路经过平滑处理后的信号,根据所述至少两路经过时间平滑处理后的信号对环境中的语音信号进行定位;
其中,对至少两路第一残差信号进行回声抑制时,均采用同一个回声抑制传递函数,对至少两路第二残差信号进行噪声抑制处理时,均采用同一个噪声抑制传递函数。
2.根据权利要求1所述的方法,其特征在于,当确定所述环境声音当前所处状态为静音状态时,将前一次对环境中的语音信号进行定位的定位结果作为本次定位结果。
3.根据权利要求1-2任一项所述的方法,其特征在于,根据预获取的扬声器参考信号,对至少两路传声器采集的期望信号中每一路期望信号分别进行回声消除处理,获取至少两路第一残差信号,具体包括:
将所述扬声器参考信号输入至第n个自适应滤波器中,获取第n个输出信号;
将第n个期望信号与所述第n个输出信号进行差值运算,获取第n个第一残差信号,其中,n为大于或者等于1,且小于或者等于所述期望信号的路数的正整数。
4.根据权利要求1-2任一项所述的方法,其特征在于,所述预设回声抑制传递函数为:根据所述扬声器参考信号和第一路期望信号,对第一路第一残差信号进行回声抑制处理时采用的回声抑制传递函数;所述按照预设回声抑制传递函数,对所述至少两路第一残差信号中每一路第一残差信号分别进行回声抑制处理,获取至少两路第二残差信号,具体包括:
根据所述扬声器参考信号和第一路期望信号,对第一路第一残差信号进行回声抑制处理,得到第一路第二残差信号,并记录对所述第一路第一残差信号进行回声抑制处理时的回声抑制传递函数,其中,所述第一路第一残差信号为所述至少两路第一残差信号中的任一路第一残差信号,所述第一路期望信号为与所述第一路第一残差信号对应的期望信号;
根据所述回声抑制传递函数,分别对所述至少两路第一残差信号中除所述第一路第一残差信号之外的每一路第一残差信号进行回声抑制处理,得到至少一路第二残差信号。
5.根据权利要求1-2任一项所述的方法,其特征在于,所述预设噪声抑制传递函数为对第一路第二残差信号进行噪声抑制处理时的噪声抑制传递函数;所述按照预设噪声抑制传递函数,分别对所述至少两路第二残差信号中的每一路第二残差信号进行噪声抑制处理,获取至少两路第三残差信号,具体包括:
对所述第一路第二残差信号进行噪声抑制处理,获取第一路第三残差信号,并记录对所述第一路第二残差信号进行噪声抑制处理时的噪声抑制传递函数;
根据所述噪声抑制传递函数,对除所述第一路第二残差信号之外的每一路第二残差信号进行噪声抑制处理,获取至少一路第三残差信号。
6.一种基于复杂环境的语音信号定位装置,其特征在于,所述装置包括:
回声消除模块,用于根据预获取的扬声器参考信号,对至少两路传声器采集的期望信号中每一路期望信号分别进行回声消除处理,获取至少两路第一残差信号;
回声抑制模块,用于按照预设回声抑制传递函数,对所述至少两路第一残差信号中每一路第一残差信号分别进行回声抑制处理,获取至少两路第二残差信号,其中,对至少两路第一残差信号进行回声抑制时,均采用同一个回声抑制传递函数;
噪声抑制模块,用于按照预设噪声抑制传递函数,分别对所述至少两路第二残差信号中的每一路第二残差信号进行噪声抑制处理,获取至少两路第三残差信号,其中,对至少两路第二残差信号进行噪声抑制处理时,均采用同一个噪声抑制传递函数;
状态检测模块,用于根据所述至少两路第三残差信号,对环境声音当前所处状态进行检测;
语音信号定位模块,用于当确定所述环境声音当前所处状态为语音状态时,对每一路第三残差信号分别进行时间平滑处理,获取至少两路经过平滑处理后的信号,根据所述至少两路第三残差信号对环境中的语音信号进行定位。
7.根据权利要求6所述的装置,其特征在于,所述语音信号定位模块还用于,当确定所述环境声音当前所处状态为静音状态时,将前一次对环境中的语音信号进行定位的定位结果作为本次声源定位结果。
8.一种基于复杂环境的语音信号定位***,其特征在于,所述***包括:处理器和存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行所述一个或多个程序指令,用以执行如权利要求1-5任一项所述的方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种基于复杂环境的语音信号定位***执行如权利要求1-5任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910190519.3A CN109901113B (zh) | 2019-03-13 | 2019-03-13 | 一种基于复杂环境的语音信号定位方法、装置及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910190519.3A CN109901113B (zh) | 2019-03-13 | 2019-03-13 | 一种基于复杂环境的语音信号定位方法、装置及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109901113A CN109901113A (zh) | 2019-06-18 |
CN109901113B true CN109901113B (zh) | 2020-08-11 |
Family
ID=66952201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910190519.3A Active CN109901113B (zh) | 2019-03-13 | 2019-03-13 | 一种基于复杂环境的语音信号定位方法、装置及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109901113B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112216295B (zh) * | 2019-06-25 | 2024-04-26 | 大众问问(北京)信息科技有限公司 | 一种声源定位方法、装置及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2908003B1 (fr) * | 2006-10-26 | 2009-04-03 | Parrot Sa | Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres" |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN108766456B (zh) * | 2018-05-22 | 2020-01-07 | 出门问问信息科技有限公司 | 一种语音处理方法及装置 |
-
2019
- 2019-03-13 CN CN201910190519.3A patent/CN109901113B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109901113A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11315587B2 (en) | Signal processor for signal enhancement and associated methods | |
Hadad et al. | The binaural LCMV beamformer and its performance analysis | |
JP4286637B2 (ja) | マイクロホン装置および再生装置 | |
US10356515B2 (en) | Signal processor | |
US8849657B2 (en) | Apparatus and method for isolating multi-channel sound source | |
TWI647961B (zh) | 聲場的高階保真立體音響表示法中不相關聲源方向之決定方法及裝置 | |
CN106875938B (zh) | 一种改进的非线性自适应语音端点检测方法 | |
JP2007523514A (ja) | 適応ビームフォーマ、サイドローブキャンセラー、方法、装置、及びコンピュータープログラム | |
Wang et al. | Noise power spectral density estimation using MaxNSR blocking matrix | |
Löllmann et al. | Challenges in acoustic signal enhancement for human-robot communication | |
US10438606B2 (en) | Pop noise control | |
Rodemann et al. | Real-time sound localization with a binaural head-system using a biologically-inspired cue-triple mapping | |
CN109901113B (zh) | 一种基于复杂环境的语音信号定位方法、装置及*** | |
CN111883153B (zh) | 一种基于麦克风阵列的双端讲话状态检测方法及装置 | |
JP2014194437A (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
CN110913312B (zh) | 一种回声消除方法及装置 | |
Schneider et al. | Iterative DFT-domain inverse filter determination for adaptive listening room equalization | |
Briegleb et al. | Exploiting spatial information with the informed complex-valued spatial autoencoder for target speaker extraction | |
CN114242104A (zh) | 语音降噪的方法、装置、设备及存储介质 | |
Rahmani et al. | An iterative noise cross-PSD estimation for two-microphone speech enhancement | |
Xiang et al. | Multi-channel adaptive dereverberation robust to abrupt change of target speaker position | |
Xiong et al. | A study on joint beamforming and spectral enhancement for robust speech recognition in reverberant environments | |
CN111462771B (zh) | 一种啸叫处理方法 | |
US20230298612A1 (en) | Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition | |
Yong et al. | Effective binaural multi-channel processing algorithm for improved environmental presence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |