CN107221336A - 一种增强目标语音的装置及其方法 - Google Patents

一种增强目标语音的装置及其方法 Download PDF

Info

Publication number
CN107221336A
CN107221336A CN201710336341.XA CN201710336341A CN107221336A CN 107221336 A CN107221336 A CN 107221336A CN 201710336341 A CN201710336341 A CN 201710336341A CN 107221336 A CN107221336 A CN 107221336A
Authority
CN
China
Prior art keywords
mrow
msub
sound source
arrival
phi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710336341.XA
Other languages
English (en)
Other versions
CN107221336B (zh
Inventor
石伟
王鹏
邹月娴
谢友希
石刚
邹爱华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coast Speech Technology Co Ltd
Original Assignee
Shenzhen Coast Speech Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coast Speech Technology Co Ltd filed Critical Shenzhen Coast Speech Technology Co Ltd
Priority to CN201710336341.XA priority Critical patent/CN107221336B/zh
Publication of CN107221336A publication Critical patent/CN107221336A/zh
Application granted granted Critical
Publication of CN107221336B publication Critical patent/CN107221336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种增强目标语音的装置,该装置包括用于采集音频信号的声学矢量传感器、高阶空间匹配波束形成器、零陷滤波器、后置维纳滤波器;声学矢量传感器将采集到的音频信号通过依次相连接的高阶空间匹配波束形成器、零陷滤波器以及后置维纳滤波器进行波束处理,从而获得增强的目标方向语音。本发明还提供一种增强目标语音的方法,该方法能够利用声源方位信息有效抑制空间干扰源和背景噪声,对目标方向语音加以增强,增强后的目标语音失真度小,听觉感知评价得分较高;同时该装置具有较低的计算复杂度,极具在小型设备上的应用和推广优势。

Description

一种增强目标语音的装置及其方法
技术领域
本发明涉及语音信号处理技术领域,具体地,涉及一种基于声学矢量传感器高阶波束形成技术增强目标语音的装置及其方法。
背景技术
在实际环境中,麦克风在拾取语音信号时,不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声、房间混响以及其它说话人的话音干扰,因此拾取语音的质量受到影响。语音增强技术是语音处理领域的核心技术之一,能够实现从带噪语音中提取干净的目标语音,以改善接收端语音质量,提高语音的清晰度、可懂度和舒适度,使人易于接受或提高语音处理***的性能。
基于单个麦克风的语音增强技术的研究已经有四十多年的历史。但是实际情况中,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风增强感兴趣的声音并有效抑制背景噪声和方向性强干扰是相当困难的。引入麦克风阵列技术后,语音增强技术取得了很大突破。相比传统的单一麦克风语音增强技术,麦克风阵列语音增强技术可以利用语音信号的空间信息来形成波束,实现对干扰噪声的消除,能够保证在语音信息损失最小的条件下实现噪声抑制(J.Benesty,S.Makino,and J.E.Chen,Speech Enhancement.Berlin,.Germany:Springer,2005.)。因此近十多年来,麦克风阵列语音增强技术已成为了语音增强技术的研究热点和关键技术。然而,目前大多数的麦克风阵列语音增强技术的性能都是正比于阵列所用麦克风数目的,因此该种技术的研究往往采用较多麦克风的阵列,有的麦克风阵列甚至使用数百个麦克风,而较多的麦克风数目造成麦克风阵列的体积也较大,最典型的案例是MIT搭建的用于噪声消除和语音增强的麦克风阵列使用了1020个麦克风,其阵列孔径有几米长。因此麦克风阵列技术噪声抑制性能虽好,但由于其设备体积大,算法运算复杂度高,故在实际应用时受到了许多限制。
声学矢量传感器(Acoustic Vector Sensor,AVS)作为音频信号采集器。与常用的声压麦克风相比,AVS在结构上具有其特殊性:一颗AVS由2到3个正交放置的压力梯度传感器和1个全向压力传感器构成(A.Nehorai and E.Paldi,"Vector-sensor arrayprocessing for electromagneticsource localization,"Signal Processing,IEEETransactions on,vol.42,pp.376-398,1994.),它的空间结构紧凑,传感器近似同位放置,各个传感器接收到的音频信号无时延差别。对于理想的AVS,各通道接收信号存在三角函数关系,因此,仅单颗AVS就能够实现单个或者多个的空间声源到达方向的估计。随着移动互联网和智能机器人等应用需求的不断增长,具有更小体积的AVS,必将使之在众多场景中替代常规麦克风阵列技术,成为未来音频传感和噪声抑制的最佳解决方案之一。
为便于描述,以二维场景为例进行说明,即只利用AVS中2个正交同位放置的压力梯度传感器采集音频信号的场景。实际应用中,可同理推广至三维场景或利用更多传感器的情形。在二维场景下,其梯度传感器输出的信号模型可表示为:
其中xavs(t)=[xu(t)xv(t)]T是AVS的输出信号,navs(t)=[nu(t)nv(t)]T是传感器稳态背景噪声,s(t)是目标声源信号,ni(t)为干扰源信号,I为干扰源的数目。a(φs)=[usvs]T=[cosφssinφs]T是目标声源的导向矢量,同理干扰源的导向矢量为a(φi)=[uivi]T=[cosφisinφi]T
基于AVS的空间匹配波束形成器(Spacial Matched Filter,SMF)的输出可表示为:
SMF波束形成器(K.T.Wong,H.Chi,"Beam Patterns of an Underwater AcousticVector Hydrophone Located Away from any Reflecting Boundary,"IEEE journal ofOceanic Engineering,vol.27,no.33,pp.628-637,July 2002)能够在目标方向形成波束,其权值矢量与目标信号源的导向矢量的指向是一致的。当对目标信源到达角度φs方向进行波束形成时,SMF的权值ws通常的解表示为:
ws=a(φs)/(||aHs)||||a(φs)||) (3)
该波束形成器对任意角度φ的声源,波束响应可表示为:
由波束响应可知SMF波束形成器能够一定程度抑制非目标方向的干扰声源,但是由于SMF的目标波束较宽,对干扰方向的抑制效果十分有限,难以满足实际应用。
发明内容
本发明的目的在于克服单通道语音增强方法由于无法利用声源的空间方位信息难以抑制空间干扰噪声以及传统麦克风阵列的语音增强方法受限于阵列体积过大和计算复杂难以便携设备的缺陷和不足,提供一种增强目标语音的装置,该装置能够利用声源方位信息有效抑制空间干扰源和背景噪声,对目标方向语音加以增强,增强后的目标语音失真度小,听觉感知评价得分较高;同时该装置具有较低的计算复杂度,极具在小型设备上的应用和推广优势。
为了达到上述目的,本发明提供一种增强目标语音的装置,所述装置包括用于采集音频信号的声学矢量传感器,所述装置还包括:
高阶空间匹配波束形成器,用于进一步收窄空间匹配波束形成器的目标波束;
零陷滤波器,用于对非目标方向的干扰声源进行自动跟踪或者定位,并调整所述高阶空间匹配波束形成器在主要干扰方向形成零陷;
后置维纳滤波器,用于滤除残余噪声;
所述声学矢量传感器将采集到的音频信号通过依次相连接的所述高阶空间匹配波束形成器、零陷滤波器以及后置维纳滤波器进行波束处理,即对于提取的目标方向语音信号首先通过所述高阶空间匹配波束形成器对其进行波束进一步收窄处理,其次通过所述零陷滤波器对收窄后的波束在主要干扰方向形成零陷,最后利用所述后置维纳滤波器滤除残余噪声,从而获得增强的目标方向语音。
根据本发明的一个实施例,所述高阶空间匹配波束形成器在任意时频下的权值wHOS为:
其中,为所述高阶空间匹配波束形成器的高阶系数,φs为目标声源的到达角度,a(φs)为目标声源的导向矢量,φ为起主要作用的声源到达角度。
根据本发明的一个实施例,当噪声水平较小时,所述高阶空间匹配波束形成器在任意时频(k,l)下的权值wHOSs,φ,bwn,k,l)为:
其中,为所述高阶空间匹配波束形成器的高阶系数,φs为目标声源的到达角度,a(φs)为目标声源的导向矢量,φ为起主要作用的声源到达角度,γuv(k,l)为所述声学矢量传感器接收信号的u通道和v通道分量数据比。
根据本发明的一个实施例,所述其中,a取值为4,b取值为16,TR为目标语音的功率
占空间总信号功率的比率。
根据本发明的一个实施例,所述零陷滤波器在任意时频(k,l)下的权值wnii,φ,bwni,k,l)为:
其中,φi为主要干扰声源的到达角度,φ为起主要作用的声源到达角度,φd(k,l)=φ,bwni根据经验取值为128。
根据本发明的一个实施例,所述后置维纳滤波器在任意时频(k,l)下的权值Wpf(k,l)为:
其中,利用所述高阶空间匹配波束形成器和零陷滤波器对接收信号的各通道信号做波束形成处理,并提取初步增强的目标语音时频谱,其输出为Ys,利用空间匹配波束形成器对接收信号的各通道原始信号做固定波束形成处理,其输出为Ym为Ys和Ym的互功率谱,为Ym的自功率谱。
本发明的另外一个目的还在于提供一种增强目标语音的方法,所述方法包括以下步骤:
A1:对声学矢量传感器中的各梯度传感器输出数据加窗分帧,进行短时傅里叶变换,分别得到各通道传感器的时频谱数据;
A2:根据所述步骤A1中得到的各通道时频谱数据获得各通道传感器间的相互数据比ISDR,并根据所得的ISDR值求得任意时频点占支配地位的声源到达角度估计;
A3:对所述步骤A1中所得的各通道时频谱数据计算声源功率谱的空间分布,并利用目标方向的功率谱与空间总功率谱的比率配置高阶空间匹配滤波阶数;
A4:在短时傅里叶变换域,根据所述步骤A2获得目标声源到达角度和各时频点处占支配地位的声源到达角度,以及根据所述步骤A3中获得的所述滤波阶数,计算空间匹配波束形成器的高阶系数,完成高阶空间匹配波束形成器的设计;
A5:根据所述步骤A3中的声源功率谱的空间分布信息进一步获得主要干扰声源的到达角度;
A6:根据所述步骤A5中获得的主要干扰声源的到达角度以及根据所述步骤A2获得各时频点处占支配地位的声源到达角度,从而获得零陷滤波系数,完成零陷滤波器的设计;
A7:利用所述步骤A4设计的高阶空间匹配波束形成器以及所述步骤A6设计的零陷滤波器对所述步骤A1中各通道原始数据进行滤波,并提取初步增强的目标声源的时频谱;再根据目标声源到达角度获得固定波束形成器权向量,对所述步骤A1中的各通道原始数据进行固定波束形成;从而获得后置维纳滤波器的权值,完成后置维纳滤波器的设计;
A8:通过所述步骤A7设计的所述后置维纳滤波器对所述固定波束形成器的输出进行滤波,并对滤波后的数据进行傅里叶反变换,用叠接相加法重建增强后的目标声源时域信号。
根据本发明的一个实施例,所述步骤A7中,所述固定波束形成器的输出为所述后置维纳滤波器的输入,并利用所述高阶空间匹配波束形成器和零陷滤波器对接收信号的各通道信号做波束形成处理,并提取初步增强的目标语音时频谱,获得信号输出为Ys;利用所述空间匹配波束形成器对接收信号的各通道原始信号做固定波束形成处理,获得信号输出为Ym;将Ys和Ym的互功率谱作为分子,将Ym的自功率谱作为分母,两者比值即为所述后置维纳滤波器的权值。
根据本发明的一个实施例,所述步骤A2中,根据获得各通道传感器间的相互数据比ISDR值,利用三角函数关系求得任意时频点占支配地位的声源到达角度估计。
本发明相对于现有技术,具有以下有益效果:本发明增强目标语音的装置及其方法能够在多人说话的环境下有效地增强目标方向的语音,抑制干扰语音,同时抑制背景噪声;其次,本发明采用声学矢量传感器采集语音信号,体积小,易于在小型设备上集成,同时算法复杂度较低,易于实时运行在运算能力有限的嵌入式平台上;最后本发明的目标语音增强方法不依赖任何先验知识,实用性和可靠性强。
附图说明
图1是本发明增强目标语音的装置的结构示意图;
图2为本发明实施例示意图;
图3为本发明实施例示意图;
图4为本发明实施例示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
如图1所示为本发明一种增强目标语音的装置的结构示意图,该装置包括用于采集音频信号的声学矢量传感器、用于进一步收窄空间匹配波束形成器的目标波束的高阶空间匹配波束形成器、用于对非目标方向的干扰声源进行自动跟踪或者定位,并调整所述高阶空间匹配波束形成器在主要干扰方向形成零陷的零陷滤波器以及用于滤除残余噪声的后置维纳滤波器。该声学矢量传感器将采集到的音频信号通过依次相连接的高阶空间匹配波束形成器、零陷滤波器以及后置维纳滤波器进行波束处理,即对于提取的目标方向语音信号首先通过高阶空间匹配波束形成器对其进行波束进一步收窄处理,其次通过零陷滤波器对收窄后的波束在主要干扰方向形成零陷,最后利用后置维纳滤波器滤除残余噪声,从而获得增强的目标方向语音。
本发明还提供了一种增强目标语音的方法,该方法包括以下步骤:
A1:对声学矢量传感器中的各梯度传感器输出数据加窗分帧,进行短时傅里叶变换,分别得到各通道传感器的时频谱数据;
A2:根据步骤A1中得到的各通道时频谱数据获得各通道传感器间的相互数据比ISDR,并根据所得的ISDR值利用三角函数可以求得任意时频点占支配地位的声源到达角度估计;
A3:对步骤A1中所得的各通道时频谱数据计算声源功率谱的空间分布,并利用目标方向的功率谱与空间总功率谱的比率配置高阶空间匹配滤波阶数;
A4:在短时傅里叶变换域,根据步骤A2获得目标声源到达角度和各时频点处占支配地位的声源到达角度,以及根据步骤A3中获得的所述滤波阶数,计算空间匹配波束形成器的高阶系数,完成高阶空间匹配波束形成器的设计;
A5:根据步骤A3中的声源功率谱的空间分布信息进一步获得主要干扰声源的到达角度;
A6:根据步骤A5中获得的主要干扰声源的到达角度以及根据步骤A2获得各时频点处占支配地位的声源到达角度,从而获得零陷滤波系数,完成零陷滤波器的设计;
A7:利用步骤A4设计的高阶空间匹配波束形成器以及步骤A6设计的零陷滤波器对步骤A1中各通道原始数据进行滤波,并提取初步增强的目标声源的时频谱;再根据目标声源到达角度获得固定波束形成器权向量,对步骤A1中的各通道原始数据进行固定波束形成;从而获得后置维纳滤波器的权值,完成后置维纳滤波器的设计;本发明实施例中,固定波束形成器的输出为后置维纳滤波器的输入,并利用高阶空间匹配波束形成器和零陷滤波器对接收信号的各通道信号做波束形成处理,并提取初步增强的目标语音时频谱,获得信号输出为Ys;利用空间匹配波束形成器对接收信号的各通道原始信号做固定波束形成处理,获得信号输出为Ym;将Ys和Ym的互功率谱作为分子,将Ym的自功率谱作为分母,两者比值即为后置维纳滤波器的权值。
A8:通过步骤A7设计的所述后置维纳滤波器对所述固定波束形成器的输出进行滤波,并对滤波后的数据进行傅里叶反变换,用叠接相加法重建增强后的目标声源时域信号。
本发明的增强目标语音的装置中的高阶空间匹配波束形成器设计如下,其滤波器权值为(针对三维的声学矢量传感器为例):
其中,为高阶空间匹配波束形成器的高阶系数,φs为目标声源的到达角度,a(φs)为目标声源的导向矢量,φ为起主要作用的声源到达角度。
则高阶空间匹配波束形成器的波束响应为:
由此可见,其波束的宽度仅与bwn有关,并随着bwn的增大而变窄,通过设置不同的bwn值能够得到理想的波束宽度,进而抑制干扰噪声并增强目标语音。其具体实现方式如下:
如图2所示为两个纯净的语音信号,二者的空间夹角为45°,如图3为声学矢量传感器的u通道和v通道拾取的混合语音信号。以16kHz的采样率对声学矢量传感器接收的信号进行采样,并进行加窗分帧,分帧短时窗采用汉宁窗,窗长K=1024采样点,傅里叶变换点数也为K,帧移50%,得到各通道的时频谱数据:
其中,k为傅里叶变换的频率指数,l是短时帧序号。
定义u通道传感器与v通道传感器之间的分量数据比(Inter Sensor Data Rate,ISDR)如下式:
同理,u通道传感器与o通道传感器间分量数据比如下式:
根据研究(李波,基于信号稀疏性的声学矢量传感器DOA估计方法研究,硕士学位论文,北京大学,2012),语音信号在短时傅里叶域具有较好的稀疏性。当一段语音有多个说话人出现时,仍会有某些语音片段只有一个说话人处于活跃状态而其他所有的说话人处于静音状态(短暂停顿或停歇)。即使在多个说话人同时处于活跃状态的片段,不同说话人的语音信号能量在频域仍有可能占据不同的离散频率。在某个具体的时频点,可以近似的认为至多只有一个信源占支配地位,其它信源的影响可以忽略。将此性质称作语音的时频域稀疏性。根据时频稀疏性假设,在时频数据点(k,l)处至多只有一个信源占支配地位,不妨用Sd(k,l)表示该信源,导向矢量add)=[udvd]T=[cosφdsinφd]T。考虑传感器稳态噪声远小于各声源的情况,有:
其中,ε表示分量数据比误差分量,该误差由假性噪声引起,且均值为零。该时频数据点(k,l)处信源DOA角度与ISDR有关。对γuv(k,l)求反余切,有
其中,σ大小与稳态噪声水平有关,当噪声水平较小时,近似认为:
其中,由于反余切函数的值域只能对应180°范围,为求得360°范围的φd角度,引入参数flag,其值由下式求得:
综上,对于任意信源的到达角度φ(k,l)在时频点(k,l)上的短时状态,可以用φd(k,l)来估计,带入公式(5),得:
对于bwn的取值,当环境干扰声源较强时,可采取较大bwn值,但不宜过大,过大的值会导致目标声源的信息缺失。可利用φd(k,l)计算信源功率谱的空间分布,根据目标语音功率占空间总信号功率的比率的情况,配置高阶空间匹配滤波阶数。本发明实施例中,采用如下方法配置高阶空间匹配滤波阶数。
首先计算空间总信号功率:
Ew=sum(Xu(k,l)X* u(k,l)+Xv(k,l)X* v(k,l)) (17)
下面计算目标语音功率,因目标语音未知,所以用估算为:
其中Ns为一个常数,与目标语音估计的精度有关,设置为256。于是,目标语音功率占空间总信号功率的比率为:
最后求得bwn为:
其中a和b的分别取值为4和16。
根据文献(石伟,基于声学矢量传感器的鲁棒DOA估计方法研究与实现)的方法,对信源功率谱的空间分布信息进一步计算,得到主要干扰信源的到达角度估计φi,如实时更新则表示为φi(k,l)。参照高阶空间匹配波束形成器的设计思路,设计零陷滤波器如下:
其中,bwni的取值为128。
利用(16)所得高阶空间匹配波束形成器和(21)所得零陷滤波器对(7)(8)(9)各通道信号做波束形成处理,提取初步增强的目标语音时频谱,其输出为:
利用公式(3)中的SMF波束形成期对各通道信号做固定波束形成处理,固定波束形成器输出为:
接下来描述后置维纳滤波器权值的计算。该后置维纳滤波器的输入是固定波束形成器的输出Ym,计算Ys和Ym的互功率谱,作为后置滤波器权值计算公式的分子,即:
其中E[.]表示统计均值,可采用邻近M帧结果的平均值,M的适当取值能够有效降低音乐噪声并减少语音失真,但取值不宜过长,会影响语音清晰度。本发明中参数M取值为2。又固定波束形成器的输出的自功率谱为故后置维纳滤波器的权值计算公式具体可表示为:
最终的增强目标语音时频谱为:
Y(k,l)=Wpf(k,l)Ym(k,l) (26)
最后对Y(k,l)进傅里叶反变换,采用叠接相加法(overlap add)重建时域语音信号,即获得增强后的目标语音,如图4所示,为分别对两个目标信号方向增强的结果。
综上所述,本发明的增强目标语音的装置通过声学矢量传感器在空间匹配波束形成器的权值中引入高阶系数,设计高阶空间匹配波束形成器,进一步收窄空间波束形成器的目标波束,在提取目标方向语音的同时,较好地抑制波束外的各种干扰噪声。针对非目标方向的干扰声源,能够自动跟踪定位,并调整高阶波束形成器在主要干扰方向形成零陷,进一步抑制干扰声源。最后,利用后置维纳滤波器滤除残余噪声,获得增强的目标方向语音。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未违背本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种增强目标语音的装置,所述装置包括用于采集音频信号的声学矢量传感器,其特征在于,所述装置还包括:
高阶空间匹配波束形成器,用于进一步收窄空间匹配波束形成器的目标波束;
零陷滤波器,用于对非目标方向的干扰声源进行自动跟踪或者定位,并调整所述高阶空间匹配波束形成器在主要干扰方向形成零陷;
后置维纳滤波器,用于滤除残余噪声;
所述声学矢量传感器将采集到的音频信号通过依次相连接的所述高阶空间匹配波束形成器、零陷滤波器以及后置维纳滤波器进行波束处理,即对于提取的目标方向语音信号首先通过所述高阶空间匹配波束形成器对其进行波束进一步收窄处理,其次通过所述零陷滤波器对收窄后的波束在主要干扰方向形成零陷,最后利用所述后置维纳滤波器滤除残余噪声,从而获得增强的目标方向语音。
2.根据权利要求1所述增强目标语音的装置,其特征在于,所述高阶空间匹配波束形成器在任意时频下的权值wHOS为:
<mrow> <msub> <mi>w</mi> <mrow> <mi>H</mi> <mi>O</mi> <mi>S</mi> </mrow> </msub> <mo>=</mo> <msup> <mi>cos</mi> <mrow> <mi>b</mi> <mi>w</mi> <mi>n</mi> <mo>-</mo> <mn>2</mn> </mrow> </msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>&amp;phi;</mi> <mi>s</mi> </msub> <mo>-</mo> <mi>&amp;phi;</mi> </mrow> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mi>a</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;phi;</mi> <mi>s</mi> </msub> <mo>)</mo> </mrow> <mo>/</mo> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msup> <mi>a</mi> <mi>H</mi> </msup> <mo>(</mo> <msub> <mi>&amp;phi;</mi> <mi>s</mi> </msub> <mo>)</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mi>a</mi> <mo>(</mo> <msub> <mi>&amp;phi;</mi> <mi>s</mi> </msub> <mo>)</mo> <mo>|</mo> <mo>|</mo> <mo>)</mo> </mrow> </mrow>
其中,为所述高阶空间匹配波束形成器的高阶系数,φs为目标声源的到达角度,a(φs)为目标声源的导向矢量,φ为起主要作用的声源到达角度。
3.根据权利要求2所述的增强目标语音的装置,其特征在于,当噪声水平较小时,所述高阶空间匹配波束形成器在任意时频(k,l)下的权值wHOSs,φ,bwn,k,l)为:
<mrow> <msub> <mi>w</mi> <mrow> <mi>H</mi> <mi>O</mi> <mi>S</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&amp;phi;</mi> <mi>s</mi> </msub> <mo>,</mo> <mi>&amp;phi;</mi> <mo>,</mo> <mi>b</mi> <mi>w</mi> <mi>n</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>cos</mi> <mrow> <mi>b</mi> <mi>w</mi> <mi>n</mi> <mo>-</mo> <mn>2</mn> </mrow> </msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>&amp;phi;</mi> <mi>s</mi> </msub> <mo>-</mo> <msub> <mi>arccot&amp;gamma;</mi> <mrow> <mi>u</mi> <mi>v</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mi>a</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;phi;</mi> <mi>s</mi> </msub> <mo>)</mo> </mrow> <mo>/</mo> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msup> <mi>a</mi> <mi>H</mi> </msup> <mo>(</mo> <msub> <mi>&amp;phi;</mi> <mi>s</mi> </msub> <mo>)</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mi>a</mi> <mo>(</mo> <msub> <mi>&amp;phi;</mi> <mi>s</mi> </msub> <mo>)</mo> <mo>|</mo> <mo>|</mo> <mo>)</mo> </mrow> </mrow>
其中,为所述高阶空间匹配波束形成器的高阶系数,φs为目标声源的到达角度,a(φs)为目标声源的导向矢量,φ为起主要作用的声源到达角度,γuv(k,l)为所述声学矢量传感器接收信号的u通道和v通道分量数据比。
4.根据权利要求2或者3所述的增强目标语音的装置,其特征在于,所述其中,a取值为4,b取值为16,TR为目标语音的功率占空间总信号功率的比率。
5.根据权利要求1所述的增强目标语音的装置,其特征在于,所述零陷滤波器在任意时频(k,l)下的权值wnii,φ,bwni,k,l)为:
<mrow> <msub> <mi>w</mi> <mrow> <mi>n</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&amp;phi;</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&amp;phi;</mi> <mo>,</mo> <mi>b</mi> <mi>w</mi> <mi>n</mi> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>cos</mi> <mrow> <mi>b</mi> <mi>w</mi> <mi>n</mi> <mi>i</mi> </mrow> </msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>&amp;phi;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>&amp;phi;</mi> <mi>d</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> </mrow>
其中,φi为主要干扰声源的到达角度,φ为起主要作用的声源到达角度,φd(k,l)=φ,bwni根据经验取值为128。
6.根据权利要求1所述的增强目标语音的装置,其特征在于,所述后置维纳滤波器在任意时频(k,l)下的权值Wpf(k,l)为:
<mrow> <msub> <mi>W</mi> <mrow> <mi>p</mi> <mi>f</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;psi;</mi> <mrow> <msub> <mi>Y</mi> <mi>s</mi> </msub> <msub> <mi>Y</mi> <mi>m</mi> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>/</mo> <msub> <mi>&amp;psi;</mi> <mrow> <msub> <mi>Y</mi> <mi>m</mi> </msub> <msub> <mi>Y</mi> <mi>m</mi> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> </mrow> 1
其中,利用所述高阶空间匹配波束形成器和零陷滤波器对接收信号的各通道信号做波束形成处理,并提取初步增强的目标语音时频谱,其输出为Ys,利用空间匹配波束形成器对接收信号的各通道原始信号做固定波束形成处理,其输出为Ym为Ys和Ym的互功率谱,为Ym的自功率谱。
7.一种增强目标语音的方法,其特征在于,所述方法包括以下步骤:
A1:对声学矢量传感器中的各梯度传感器输出数据加窗分帧,进行短时傅里叶变换,分别得到各通道传感器的时频谱数据;
A2:根据所述步骤A1中得到的各通道时频谱数据获得各通道传感器间的相互数据比ISDR,并根据所得的ISDR值求得任意时频点占支配地位的声源到达角度估计;
A3:对所述步骤A1中所得的各通道时频谱数据计算声源功率谱的空间分布,并利用目标方向的功率谱与空间总功率谱的比率配置高阶空间匹配滤波阶数;
A4:在短时傅里叶变换域,根据所述步骤A2获得目标声源到达角度和各时频点处占支配地位的声源到达角度,以及根据所述步骤A3中获得的所述滤波阶数,计算空间匹配波束形成器的高阶系数,完成高阶空间匹配波束形成器的设计;
A5:根据所述步骤A3中的声源功率谱的空间分布信息进一步获得主要干扰声源的到达角度;
A6:根据所述步骤A5中获得的主要干扰声源的到达角度以及根据所述步骤A2获得各时频点处占支配地位的声源到达角度,从而获得零陷滤波系数,完成零陷滤波器的设计;
A7:利用所述步骤A4设计的高阶空间匹配波束形成器以及所述步骤A6设计的零陷滤波器对所述步骤A1中各通道原始数据进行滤波,并提取初步增强的目标声源的时频谱;再根据目标声源到达角度获得固定波束形成器权向量,对所述步骤A1中的各通道原始数据进行固定波束形成;从而获得后置维纳滤波器的权值,完成后置维纳滤波器的设计;
A8:通过所述步骤A7设计的所述后置维纳滤波器对所述固定波束形成器的输出进行滤波,并对滤波后的数据进行傅里叶反变换,用叠接相加法重建增强后的目标声源时域信号。
8.根据权利要求7所述的增强目标语音的方法,其特征在于,所述步骤A7中,所述固定波束形成器的输出为所述后置维纳滤波器的输入,并利用所述高阶空间匹配波束形成器和零陷滤波器对接收信号的各通道信号做波束形成处理,并提取初步增强的目标语音时频谱,获得信号输出为Ys;利用所述空间匹配波束形成器对接收信号的各通道原始信号做固定波束形成处理,获得信号输出为Ym;将Ys和Ym的互功率谱作为分子,将Ym的自功率谱作为分母,两者比值即为所述后置维纳滤波器的权值。
9.根据权利要求7所述的增强目标语音的方法,其特征在于,所述步骤A2中,根据获得各通道传感器间的相互数据比ISDR值,利用三角函数关系求得任意时频点占支配地位的声源到达角度估计。
CN201710336341.XA 2017-05-13 2017-05-13 一种增强目标语音的装置及其方法 Active CN107221336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710336341.XA CN107221336B (zh) 2017-05-13 2017-05-13 一种增强目标语音的装置及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710336341.XA CN107221336B (zh) 2017-05-13 2017-05-13 一种增强目标语音的装置及其方法

Publications (2)

Publication Number Publication Date
CN107221336A true CN107221336A (zh) 2017-09-29
CN107221336B CN107221336B (zh) 2020-08-21

Family

ID=59944046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710336341.XA Active CN107221336B (zh) 2017-05-13 2017-05-13 一种增强目标语音的装置及其方法

Country Status (1)

Country Link
CN (1) CN107221336B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109874090A (zh) * 2019-01-02 2019-06-11 浙江大学 一种基于最佳波束偏转的声场定向调控方法
CN110517677A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 语音处理***、方法、设备、语音识别***及存储介质
CN110660404A (zh) * 2019-09-19 2020-01-07 北京声加科技有限公司 基于零陷滤波预处理的语音通信和交互应用***、方法
CN110856072A (zh) * 2019-12-04 2020-02-28 北京声加科技有限公司 一种耳机通话降噪方法及耳机
CN111341339A (zh) * 2019-12-31 2020-06-26 深圳海岸语音技术有限公司 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法
CN112071297A (zh) * 2020-09-07 2020-12-11 西北工业大学 一种矢量声的自适应滤波方法
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11310592B2 (en) 2015-04-30 2022-04-19 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
US11477327B2 (en) 2017-01-13 2022-10-18 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11678109B2 (en) 2015-04-30 2023-06-13 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11785380B2 (en) 2021-01-28 2023-10-10 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7839721B1 (en) * 2008-03-13 2010-11-23 The United States Of America As Represented By The Secretary Of The Navy Modal beam processing of acoustic vector sensor data
CN103178881A (zh) * 2011-12-23 2013-06-26 中兴通讯股份有限公司 主瓣干扰抑制方法及装置
CN103760520A (zh) * 2013-12-25 2014-04-30 北京大学深圳研究生院 一种基于avs和稀疏表示的单语者声源doa估计方法
CN104103277A (zh) * 2013-04-15 2014-10-15 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
CN104330768A (zh) * 2013-12-04 2015-02-04 河南科技大学 一种基于声矢量传感器的机动声源方位估计方法
CN105979442A (zh) * 2016-07-22 2016-09-28 北京地平线机器人技术研发有限公司 噪声抑制方法、装置和可移动设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7839721B1 (en) * 2008-03-13 2010-11-23 The United States Of America As Represented By The Secretary Of The Navy Modal beam processing of acoustic vector sensor data
CN103178881A (zh) * 2011-12-23 2013-06-26 中兴通讯股份有限公司 主瓣干扰抑制方法及装置
CN104103277A (zh) * 2013-04-15 2014-10-15 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
CN104330768A (zh) * 2013-12-04 2015-02-04 河南科技大学 一种基于声矢量传感器的机动声源方位估计方法
CN103760520A (zh) * 2013-12-25 2014-04-30 北京大学深圳研究生院 一种基于avs和稀疏表示的单语者声源doa估计方法
CN105979442A (zh) * 2016-07-22 2016-09-28 北京地平线机器人技术研发有限公司 噪声抑制方法、装置和可移动设备

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11832053B2 (en) 2015-04-30 2023-11-28 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US11310592B2 (en) 2015-04-30 2022-04-19 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US11678109B2 (en) 2015-04-30 2023-06-13 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US11477327B2 (en) 2017-01-13 2022-10-18 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11800281B2 (en) 2018-06-01 2023-10-24 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11770650B2 (en) 2018-06-15 2023-09-26 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
CN109874090A (zh) * 2019-01-02 2019-06-11 浙江大学 一种基于最佳波束偏转的声场定向调控方法
US11778368B2 (en) 2019-03-21 2023-10-03 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11800280B2 (en) 2019-05-23 2023-10-24 Shure Acquisition Holdings, Inc. Steerable speaker array, system and method for the same
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
US11688418B2 (en) 2019-05-31 2023-06-27 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
US11750972B2 (en) 2019-08-23 2023-09-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
CN110517677B (zh) * 2019-08-27 2022-02-08 腾讯科技(深圳)有限公司 语音处理***、方法、设备、语音识别***及存储介质
CN110517677A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 语音处理***、方法、设备、语音识别***及存储介质
CN110660404B (zh) * 2019-09-19 2021-12-07 北京声加科技有限公司 基于零陷滤波预处理的语音通信和交互应用***、方法
CN110660404A (zh) * 2019-09-19 2020-01-07 北京声加科技有限公司 基于零陷滤波预处理的语音通信和交互应用***、方法
CN110856072A (zh) * 2019-12-04 2020-02-28 北京声加科技有限公司 一种耳机通话降噪方法及耳机
CN111341339A (zh) * 2019-12-31 2020-06-26 深圳海岸语音技术有限公司 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN112071297A (zh) * 2020-09-07 2020-12-11 西北工业大学 一种矢量声的自适应滤波方法
CN112071297B (zh) * 2020-09-07 2023-11-10 西北工业大学 一种矢量声的自适应滤波方法
US11785380B2 (en) 2021-01-28 2023-10-10 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system

Also Published As

Publication number Publication date
CN107221336B (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN107221336A (zh) 一种增强目标语音的装置及其方法
CN109074816B (zh) 远场自动语音识别预处理
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
Gannot et al. A consolidated perspective on multimicrophone speech enhancement and source separation
CN104103277B (zh) 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
US7383178B2 (en) System and method for speech processing using independent component analysis under stability constraints
CN107919133A (zh) 针对目标对象的语音增强***及语音增强方法
CN109087664A (zh) 语音增强方法
CN100466061C (zh) 一种宽带波束形成方法和装置
CN107369460B (zh) 基于声学矢量传感器空间锐化技术的语音增强装置及方法
CN1953059A (zh) 一种噪声消除装置和方法
CN107993670A (zh) 基于统计模型的麦克风阵列语音增强方法
JP5123595B2 (ja) 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN106031196A (zh) 信号处理装置、方法以及程序
CN111341339A (zh) 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法
CN112180318A (zh) 声源波达方向估计模型训练和声源波达方向估计方法
CN113763984B (zh) 一种用于分布式多说话人的参数化噪声消除***
Ganguly et al. Non-uniform microphone arrays for robust speech source localization for smartphone-assisted hearing aid devices
CN112731291B (zh) 协同双通道时频掩码估计任务学习的双耳声源定位方法及***
Wang et al. Two-stage enhancement of noisy and reverberant microphone array speech for automatic speech recognition systems trained with only clean speech
Firoozabadi et al. Combination of nested microphone array and subband processing for multiple simultaneous speaker localization
CN113223552A (zh) 语音增强方法、装置、设备、存储介质及程序
CN110858485B (zh) 语音增强方法、装置、设备及存储介质
Martın-Donas et al. A postfiltering approach for dual-microphone smartphones

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant