CN113053408B

CN113053408B - 一种声源分离方法及装置

Info

Publication number: CN113053408B
Application number: CN202110268230.6A
Authority: CN
Inventors: 丁少为; 关海欣; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Shenzhen Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Shenzhen Yunzhisheng Information Technology Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-06-14
Anticipated expiration: 2041-03-12
Also published as: CN113053408A

Abstract

本发明涉及一种声源分离方法，包括：根据麦克风阵列中预设的阵元间距，在麦克风阵列的第一端和第二端分别设置第一和第二差分波束形成器；对混合信号变换到短时时频域，得到第一信号；计算第一信号中的每帧的波达方向DOA估计；计算第一和第二DOA误差；将第一信号输入第一和第二差分波束形成器，得到第一远端、近端信号，第二远端、近端信号；根据第一DOA误差，对第一近端信号和第二远端信号进行第一自适应对消处理，得到第一路输出信号；根据第二DOA误差，对第一远端信号和第二近端信号进行第二自适应对消处理，得到第二路输出信号；对第一和第二路输出信号分别进行短时傅里叶逆变换，得到第一分离信号和第二分离信号。

Description

一种声源分离方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种声源分离方法及装置。

背景技术

现有技术中，对声源进行分离时，可以根据均匀线型麦克风阵列设计两个固定波束形成器，主瓣分别指向线阵的两个端射方向，将两个固定权值加权至阵列接收信号，得到两路输出信号即为分离后信号，或者，通过独立分量分析等进行盲源分离。

但是，现有技术中，固定波束形成器在阵元个数少、阵列孔径小的情况下低频主瓣较宽，对于另一端信号抑制较弱，导致分离信号中另一端信号的残留较多。

而其他盲源分离方法则由于需要求解分离矩阵而导致计算复杂度较高。

发明内容

本发明的目的是针对现有技术的缺陷，提供一种声源分离方法，以解决现有技术中的分离信号中另一端信号的残留较多、盲源分离方法的计算复杂度较高的问题。

第一方面，本发明提供了一种声源分离方法，所述声源分离方法包括：

根据麦克风阵列中预设的阵元间距，在所述麦克风阵列的第一端设置第一差分波束形成器以及在所述麦克风阵列的第二端设置第二差分波束形成器；其中，所述第一差分波束形成器的主瓣方向朝向第一端，所述第一差分波束形成器的零限方向朝向第二端，所述第二差分波束形成器的主瓣方向朝向第二端，所述第二差分波束形成器的零限方向朝向第一端；

对麦克风阵列接收到的混合信号进行短时傅里叶变换，将所述混合信号变换到短时时频域，得到第一信号；其中，所述混合信号为位于所述第一端的第一声源和位于所述第二端的第二声源产生的混合信号；

计算所述第一信号中的每帧的波达方向DOA估计；

根据所述DOA估计，计算第一声源对应的第一DOA误差和第二声源对应的第二DOA误差；

分别将所述第一信号输入第一差分波束形成器和第二差分波束形成器，得到所述第一差分波束形成器输出的第一远端信号和第一近端信号，以及所述第二差分波束形成器输出的第二远端信号和第二近端信号；

根据所述第一DOA误差，对所述第一近端信号和所述第二远端信号进行第一自适应对消处理，得到第一路输出信号；并且，根据所述第二DOA误差，对所述第一远端信号和所述第二近端信号进行第二自适应对消处理，得到第二路输出信号；

对所述第一路输出信号和所述第二路输出信号分别进行短时傅里叶逆变换，得到第一分离信号和第二分离信号。

优选的，所述阵元间距处于2.0cm-3.5cm中。

优选的，所述根据所述DOA估计，计算第一声源对应的第一DOA误差和第二声源对应的第二DOA误差具体包括：

根据公式err_A＝|0-θ|计算第一DOA误差；

根据公式err_B＝|180-θ|计算第二DOA误差；

其中，err_A为第一DOA误差，err_B为第二DOA误差；θ为DOA估计。

优选的，所述根据所述第一DOA误差，对所述第一近端信号和所述第二远端信号进行第一自适应对消处理，得到第一路输出信号具体包括：

将所述第一DOA误差和预设的误差阈值进行比较，当所述第一DOA误差不大于预设的误差阈值时，当前帧的第一路输出信号为第一近端信号，不进行第一自适应处理滤波器系数更新；

当所述第一DOA误差大于预设的误差阈值时，不保留当前帧的第二远端信号，更新第一自适应处理滤波器系数。

优选的，所述根据所述第二DOA误差，对所述第一远端信号和所述第二近端信号进行第二自适应对消处理，得到第二路输出信号具体包括：

将所述第二DOA误差和预设的误差阈值进行比较，当所述第二DOA误差不大于预设的误差阈值时，当前帧的第二路输出信号为第二近端信号，不进行第二自适应处理滤波器系数更新；

当所述第二DOA误差大于预设的误差阈值时，不保留当前帧的第一远端信号，更新第二自适应处理滤波器系数。

第二方面，本发明提供了一种声源分离装置，所述声源分离装置包括：

设置单元，所述设置单元用于根据麦克风阵列中预设的阵元间距，在所述麦克风阵列的第一端设置第一差分波束形成器以及在所述麦克风阵列的第二端设置第二差分波束形成器；其中，所述第一差分波束形成器的主瓣方向朝向第一端，所述第一差分波束形成器的零限方向朝向第二端，所述第二差分波束形成器的主瓣方向朝向第二端，所述第二差分波束形成器的零限方向朝向第一端；

变换单元，所述变换单元用于对麦克风阵列接收到的混合信号进行短时傅里叶变换，将所述混合信号变换到短时时频域，得到第一信号；其中，所述混合信号为位于所述第一端的第一声源和位于所述第二端的第二声源产生的混合信号；

计算单元，所述计算单元用于计算所述第一信号中的每帧的波达方向DOA估计；

所述计算单元还用于，根据所述DOA估计，计算第一声源对应的第一DOA误差和第二声源对应的第二DOA误差；

处理单元，所述处理单元用于分别将所述第一信号输入第一差分波束形成器和第二差分波束形成器，得到所述第一差分波束形成器输出的第一远端信号和第一近端信号，以及所述第二差分波束形成器输出的第二远端信号和第二近端信号；

所述处理单元还用于，根据所述第一DOA误差，对所述第一近端信号和所述第二远端信号进行第一自适应对消处理，得到第一路输出信号；并且，根据所述第二DOA误差，对所述第一远端信号和所述第二近端信号进行第二自适应对消处理，得到第二路输出信号；

所述变换单元还用于对所述第一路输出信号和所述第二路输出信号分别进行短时傅里叶逆变换，得到第一分离信号和第二分离信号。

优选的，所述阵元间距处于2.0cm-3.5cm中。

优选的，所述计算单元具体用于：

根据公式err_A＝|0-θ|计算第一DOA误差；

根据公式err_B＝|180-θ|计算第二DOA误差；

其中，err_A为第一DOA误差，err_B为第二DOA误差；θ为DOA估计。

优选的，所述处理单元具体用于：

当所述第一DOA误差大于预设的误差阈值时，当前帧为第二远端信号，并更新第一自适应处理滤波器系数。

优选的，所述处理单元具体用于：

当所述第二DOA误差大于预设的误差阈值时，当前帧为第一远端信号，更新第二自适应处理滤波器系数。

第三方面，本发明提供了一种设备，包括存储器和处理器，存储器用于存储程序，处理器用于执行第一方面任一所述的方法。

第四方面，本发明提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面任一所述的方法。

第五方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如第一方面任一所述的方法。

本发明实施例提供的声源分离方法，通过在差分波束形成器输出后增加自适应对消处理，使得输出信号中另一端的干扰残留更少，并通过DOA误差控制自适应对消滤波器参数更新，降低分离后的语音损伤；另外，本申请采用了固定波束形成和自适应对消技术，不涉及分离矩阵的求解，与独立分量分析等盲源分离方法相比，计算复杂度较低。

附图说明

图1为本发明实施例一提供的声源分离方法流程示意图；

图2为本发明实施例一提供的麦克风阵列示意图；

图3为本发明实施例二提供的声源分离装置结构示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明实施例一提供的声源分离方法流程示意图，该方法的执行主体为终端、服务器等具有计算功能的设备。以下结合图1对本发明技术方案进行详述。

步骤110，根据麦克风阵列中预设的阵元间距，在麦克风阵列的第一端设置第一差分波束形成器以及在麦克风阵列的第二端设置第二差分波束形成器；其中，第一差分波束形成器的主瓣方向朝向第一端，第一差分波束形成器的零限方向朝向第二端，第二差分波束形成器的主瓣方向朝向第二端，第二差分波束形成器的零限方向朝向第一端；

具体的，本申请中，可以基于小间距麦克风阵列，阵元间距可设置为2.0cm到3.5cm，说话人A和B分别位于麦克风阵列两端，如图2所示的2mic阵列。可以根据阵元间距设计两个一阶差分波束形成器，分别为第一差分波束形成器和第二差分波束形成器，其中第一差分波束形成器的主瓣方向在0度，即说话人A方向、零陷方向在180度，即说话人B方向，第一差分波束形成器与第一差分波束形成器相反，即第二差分波束形成器的主瓣方向在180度，零陷方向在0度。说话人A相当于第一声源，说话人B相当于第二声源。

步骤120，对麦克风阵列接收到的混合信号进行短时傅里叶变换，将混合信号变换到短时时频域，得到第一信号；其中，混合信号为位于第一端的第一声源和位于第二端的第二声源产生的混合信号。

具体的，麦克风阵列可以接收到第一声源和第二声源的混音信号，由于语音信号具有短时平稳特征，一般都是变换到短时时频域进行分析处理，因此，将该混音信号进行短时傅里叶变化，得到第一信号。

步骤130，计算第一信号中的每帧的波达方向(direction of arrival，DOA)估计。

具体的，可以通过常用的方法，比如波束形成类算法、子空间类算法、解卷积算法中的任意一种进行DOA估计，从而实时的得到每帧信号的DOA估计值。

步骤140，根据DOA估计，计算第一声源对应的第一DOA误差和第二声源对应的第二DOA误差；

具体的，DOA估计值可以记为θ，可以分别计算第一声源，即说话人A方向对应的第一DOA误差err_A，和第二声源，即说话人B方向对应的第二DOA误差err_B，其中，err_A＝|0-θ|，err_B＝|180-θ|。

步骤150，分别将第一信号输入第一差分波束形成器和第二差分波束形成器，得到第一差分波束形成器输出的第一远端信号和第一近端信号，以及第二差分波束形成器输出的第二远端信号和第二近端信号；

具体的，第一差分波束形成器的第一个主瓣方向为A、零陷方向为B，即输出信号中保留A方向信号而抑制B方向信号。第二差分波束形成器相反，保留B方向信号而抑制A方向信号。可以将第一差分波束形成器输出的第一近端信号记为SA1和第一远端信号记为SB1，将第二差分波束形成器输出的第二近端信号SA2和第二远端信号记为SB2。

步骤160，根据第一DOA误差，对第一近端信号和第二远端信号进行第一自适应对消处理，得到第一路输出信号；并且，根据第二DOA误差，对第一远端信号和第二近端信号进行第二自适应对消处理，得到第二路输出信号；

其中，针对第一自适应对消处理，可以将第一DOA误差和预设的误差阈值进行比较，当第一DOA误差不大于预设的误差阈值时，当前帧的第一路输出信号为第一近端信号，此时不进行第一自适应处理滤波器系数更新；

当第一DOA误差大于预设的误差阈值时，当前帧为第二远端信号，并更新第一自适应处理滤波器系数，以便于通过更新后的第一自适应处理滤波器系数对当前帧的第一近端信号继续进行处理。

具体的，第一自适应处理滤波器是在第一自适应对消过程中根据输入信号进行更新得到的。误差阈值为一经验值，可以根据多次实验来进行设定，比如，可以令误差阈值θ_th＝30。如果在该目标方向语音阶段更新的话会对该目标方向的语音信号有损伤，因此通过实时第一DOA来控制第一自适应处理滤波器是否更新。第一自适应处理滤波器更新是在非目标信号进行的，在目标信号阶段只用当前第一自适应处理滤波器系数来处理数据，而不改变第一自适应处理滤波器的数值，第一自适应处理滤波器的更新是根据信号来自适应更新的。如果err_A≤θ_th，则说明该帧信号为A方向信号，需要保留，即保留SA1，输出记为T_A。如果err_A＞θ_th，则该帧信号为干扰噪声或者B方向信号，需要消除，此时则进行过滤器的系数的更新，以便于继续确定第一路输出信号。

相应的，针对第二自适应对消处理，将所述第二DOA误差和预设的误差阈值进行比较，当所述第二DOA误差不大于预设的误差阈值时，则当前帧的第二路输出信号为第二近端信号，不进行第二自适应处理滤波器系数更新；

具体的，可以根据第一远端信号SB1和第二近端信号SA2，进行自适应对消处理，同样根据err_B的大小控制第二自适应处理滤波器系数是否更新，即：如果err_B＞θ_th，则说明该帧信号为干扰噪声或者A方向信号，需要消除，则进行第二自适应处理滤波器系数更新。如果err_B≤θ_th，则该帧信号为B方向信号，需要保留，即保留SA2，输出记为T_B。

其中，第一自适应对消处理可以为最小均方(Least Mean Square LMS)算法LMS、归一化(normalized LMS，NLMS)算法、最小二乘法(ordinary least squares，RLS)中的任意一种。第二自适应对消处理和第一自适应对消处理为相同的算法。

步骤170，对第一路输出信号和第二路输出信号分别进行短时傅里叶逆变换，得到第一分离信号和第二分离信号。

具体的，对两路输出信号T_A和T_B分别进行短时傅里叶逆变换得到最终的第一分离信号A和第二分离信号B。

进一步的，本申请还可以拓展至更多阵元数，仅需要根据线型麦克风阵列设计相应的两个差分波束形成器即可。

图3为本发明实施例二提供的声源分离装置结构示意图，如图3所示，该声源分离装置包括：设置单元310，变换单元320，计算单元330和处理单元340。

设置单元310用于根据麦克风阵列中预设的阵元间距，在麦克风阵列的第一端设置第一差分波束形成器以及在麦克风阵列的第二端设置第二差分波束形成器；其中，第一差分波束形成器的主瓣方向朝向第一端，第一差分波束形成器的零限方向朝向第二端，第二差分波束形成器的主瓣方向朝向第二端，第二差分波束形成器的零限方向朝向第一端；

变换单元320用于对麦克风阵列接收到的混合信号进行短时傅里叶变换，将混合信号变换到短时时频域，得到第一信号；其中，混合信号为位于第一端的第一声源和位于第二端的第二声源产生的混合信号；

计算单元330用于计算第一信号中的每帧的波达方向DOA估计；

计算单元330还用于，根据DOA估计，计算第一声源对应的第一DOA误差和第二声源对应的第二DOA误差；

处理单元340用于分别将第一信号输入第一差分波束形成器和第二差分波束形成器，得到第一差分波束形成器输出的第一远端信号和第一近端信号，以及第二差分波束形成器输出的第二远端信号和第二近端信号；

处理单元340还用于，根据第一DOA误差，对第一近端信号和第二远端信号进行第一自适应对消处理，得到第一路输出信号；并且，根据第二DOA误差，对第一远端信号和第二近端信号进行第二自适应对消处理，得到第二路输出信号；

变换单元320还用于对第一路输出信号和第二路输出信号分别进行短时傅里叶逆变换，得到第一分离信号和第二分离信号。

其中，阵元间距处于2.0cm-3.5cm中。

其中，计算单元330具体用于：

根据公式err_A＝|0-θ|计算第一DOA误差；

根据公式err_B＝|180-θ|计算第二DOA误差；

其中，err_A为第一DOA误差，err_B为第二DOA误差；θ为DOA估计。

其中，处理单元340具体用于：

将第一DOA误差和预设的误差阈值进行比较，当第一DOA误差不大于预设的误差阈值时，则当前帧的第一路输出信号为第一近端信号，不进行第一自适应处理滤波器系数更新；

当第一DOA误差大于预设的误差阈值时，当前帧为第二远端信号，更新第一自适应处理滤波器系数。

其中，处理单元340具体用于：

将第二DOA误差和预设的误差阈值进行比较，当第二DOA误差不大于预设的误差阈值时，则当前帧的第二路输出信号为第二近端信号，不进行第二自适应处理滤波器系数更新；

当第二DOA误差大于预设的误差阈值时，当前帧为第一远端信号，更新第二自适应处理滤波器系数。

本发明实施例提供的声源分离装置，通过在差分波束形成器输出后增加自适应对消处理，使得输出信号中另一端的干扰残留更少，并通过DOA误差控制自适应对消滤波器参数更新，降低分离后的语音损伤；另外，本申请采用了固定波束形成和自适应对消技术，不涉及分离矩阵的求解，与独立分量分析等盲源分离方法相比，计算复杂度较低。

发明实施例三提供了一种设备，包括存储器和处理器，存储器用于存储程序，存储器可通过总线与处理器连接。存储器可以是非易失存储器，例如硬盘驱动器和闪存，存储器中存储有软件程序和设备驱动程序。软件程序能够执行本发明实施例提供的上述方法的各种功能；设备驱动程序可以是网络和接口驱动程序。处理器用于执行软件程序，该软件程序被执行时，能够实现本发明实施例一提供的方法。

本发明实施例四提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行本发明实施例一提供的方法。

本发明实施例五提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本发明实施例一提供的方法。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声源分离方法，其特征在于，所述声源分离方法包括：

计算所述第一信号中的每帧的波达方向DOA估计；

2.根据权利要求1所述的方法，其特征在于，所述阵元间距处于2.0cm-3.5cm中。

3.根据权利要求1所述的方法，其特征在于，所述根据所述DOA估计，计算第一声源对应的第一DOA误差和第二声源对应的第二DOA误差具体包括：

根据公式err_A＝|0-θ|计算第一DOA误差；

根据公式err_B＝|180-θ|计算第二DOA误差；

其中，err_A为第一DOA误差，err_B为第二DOA误差；θ为DOA估计。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一DOA误差，对所述第一近端信号和所述第二远端信号进行第一自适应对消处理，得到第一路输出信号具体包括：

当所述第一DOA误差大于预设的误差阈值时，当前帧为第二远端信号，更新第一自适应处理滤波器系数。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第二DOA误差，对所述第一远端信号和所述第二近端信号进行第二自适应对消处理，得到第二路输出信号具体包括：

6.一种声源分离装置，其特征在于，所述声源分离装置包括：

7.根据权利要求6所述的装置，其特征在于，所述阵元间距处于2.0cm-3.5cm中。

8.根据权利要求6所述的装置，其特征在于，所述计算单元具体用于：

根据公式err_A＝|0-θ|计算第一DOA误差；

根据公式err_B＝|180-θ|计算第二DOA误差；

其中，err_A为第一DOA误差，err_B为第二DOA误差；θ为DOA估计。

9.根据权利要求6所述的装置，其特征在于，所述处理单元具体用于：

10.根据权利要求6所述的装置，其特征在于，所述处理单元具体用于：