CN110491409B

CN110491409B - 混合语音信号的分离方法、装置、存储介质及电子装置

Info

Publication number: CN110491409B
Application number: CN201910736585.6A
Authority: CN
Inventors: 顾容之; 陈联武; 张世雄; 徐勇; 于蒙; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2021-09-24
Anticipated expiration: 2039-08-09
Also published as: CN110491409A

Abstract

本发明提供了一种混合语音信号的分离方法、装置、存储介质及电子装置，包括：获取语音采集装置采集到的混合语音信号，混合语音信号包括至少两个目标对象发出的语音；获取混合语音信号的频域特征形成的第一频域矩阵和所述混合语音信号的空域特征形成的第一空域矩阵；从至少两个目标对象中每两个目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角；使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵；将第一频域矩阵和第二空域矩阵输入到目标神经网络模型，得到所述目标神经网络模型输出的从混合语音信号中分离出的与至少两个目标对象一一对应的多路语音信号。通过本发明，解决了目标夹角较小情况下，语音分离方法性能下降的问题。

Description

混合语音信号的分离方法、装置、存储介质及电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种混合语音信号的分离方法、装置、存储介质及电子装置。

背景技术

复杂场景下的语音识别及交互任务，往往面临着多人声混叠、房间混响等挑战，鲁棒的语音识别***离不开前端的语音信号分离及增强模块。近来，面向复杂声学环境，基于深度学习的多通道语音分离方法受到学界和工业界的广泛关注。

当说话人在空间中分布较远时，说话人的空间位置差异较大，因此空域信息具有较大的区分性，有利于多通道分离网络分离语音，相对于只利用频域特征的单通道语音分离***有明显性能提升。但是，当说话人之间较近时，他们之间相对于采集语音的麦克风阵列的夹角较小，此时空域特征将不再具有区分性。没有区分性的空域特征会混淆分离网络，导致性能明显差于单通道语音分离***。

现有技术通过切换单通道和多通道语音分离***的输出来解决该问题。通过判断当前混合语音中，说话人之间的空间位置是否重叠或相近，在重叠或相近的情况下，选择单通道语音分离***对混合语音进行分离得到单通道分离结果；反之，选择多通道语音分离***对混合语音进行分离得到多通道分离结果。但是，现有技术中的这种方法需要两套独立的***，需要训练两个网络模型，并且需要运行判别网络，由此增加了***的运行时间和计算复杂度。

针对相关技术中，目标夹角较小情况下，语音分离方法性能下降，尚不存在一个有效的解决方案。

发明内容

本发明实施例提供了一种混合语音信号的分离方法、装置、存储介质及电子装置，以至少解决相关技术中目标夹角较小情况下，语音分离方法性能下降的问题。

根据本发明的一个实施例，提供了一种混合语音信号的分离方法，包括：获取语音采集装置采集到的混合语音信号，其中，所述混合语音信号包括至少两个目标对象发出的语音；获取所述混合语音信号的频域特征形成的第一频域矩阵和所述混合语音信号的空域特征形成的第一空域矩阵；从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角；使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，其中，0≤所述权重系数≤1；将所述第一频域矩阵和所述第二空域矩阵输入到目标神经网络模型，得到所述目标神经网络模型输出的从所述混合语音信号中分离出的与所述至少两个目标对象一一对应的多路语音信号，其中，所述目标神经网络模型是使用多组数据对原始神经网络模型训练出来的，所述多组数据中的每组数据均包括：至少两个目标对象发出的语音的频域特征矩阵和加权后的空域特征矩阵。

可选地，从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角，包括：确定第一中心位置与第一位置之间的第一连线与所述第一中心位置与第二位置之间的第二连线构成的第一夹角，其中，所述第一中心位置为所述语音采集装置的中心位置，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第一夹角；从所述至少两个目标对象中每两个所述目标对象对应的所述第一夹角中确定角度最小的夹角作为第一最小夹角，其中，所述目标夹角包括所述第一最小夹角。

可选地，在使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权之前，所述方法包括：通过如下公式确定与所述目标夹角对应的第一权重系数：

其中，所述θ是所述目标夹角，所述θ取值范围是0到180度，所述w和b是初始化确定的网络参数，所述att₁(θ)表示与所述目标夹角对应的所述权重系数。

可选地，使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，包括：使用所述第一权重系数对所述第一空域矩阵进行加权，得到所述第二空域矩阵。

可选地，从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角，包括：确定所述第一空域矩阵中所表示的空域特征的目标数量；在所述语音采集装置中选择所述目标数量的麦克风对，确定每个麦克风对中的第一麦克风与第二麦克风之间的第二中心位置，确定第二中心位置与第一位置之间的第三连线与所述第二中心位置与第二位置之间的第四连线构成的第二夹角，其中，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第二夹角；从所述至少两个目标对象中每两个所述目标对象对应的所述第二夹角中确定角度最小的夹角作为第二最小夹角，所述每个麦克风对对应一个所述第二最小夹角，所述目标夹角包括每个麦克风对对应的所述第二最小夹角。

可选地，在使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权之前，所述方法包括：通过如下公式确定与每个麦克风对的所述第二最小夹角对应的第二权重系数：

其中，θ_k是与第k个麦克风对对应的所述第二最小夹角，θ_k取值范围是0到180度，w_k和b_k是初始化确定的网络参数，att₂(θ_k)表示与第k个麦克风对的第二最小夹角对应的第二权重系数。

可选地，使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，包括：使用权重系数矩阵对所述第一空域矩阵进行加权，得到所述第二空域矩阵，其中，所述每个麦克对对应一个第二权重系数，所述目标数量的麦克风对对应的目标数量的权重系数为所述权重系数矩阵。

可选地，从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角，还包括：确定所述第一空域矩阵中所表示的空域特征的目标数量；在所述语音采集装置中选择所述目标数量的麦克风对，确定每个麦克风对中的第一麦克风与第二麦克风之间的第二中心位置，确定第二中心位置与第一位置之间的第三连线与所述第二中心位置与第二位置之间的第四连线构成的第二夹角，其中，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第二夹角；从所述至少两个目标对象中每两个所述目标对象对应的所述第二夹角中确定角度最小的夹角作为第二最小夹角，所述每个麦克风对对应一个所述第二最小夹角，所述目标夹角包括每个麦克风对对应的所述第二最小夹角。

可选地，使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，包括：使用所述第一权重系数与所述权重系数矩阵的乘积对所述第一空域矩阵进行加权，得到所述第二空域矩阵，其中，所述每个麦克对对应一个所述第二权重系数，所述目标数量的麦克风对对应的目标数量的权重系数为所述权重系数矩阵。

根据本发明的另一个实施例，提供了一种混合语音信号的分离装置，包括：第一获取模块，用于获取语音采集装置采集到的混合语音信号，其中，所述混合语音信号包括至少两个目标对象发出的语音；第二获取模块，用于获取所述混合语音信号的频域特征形成的第一频域矩阵和所述混合语音信号的空域特征形成的第一空域矩阵；第一确定模块，用于从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角；加权模块，用于使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，其中，0≤所述权重系数≤1；输入模块，用于将所述第一频域矩阵和所述第二空域矩阵输入到目标神经网络模型，得到所述目标神经网络模型输出的从所述混合语音信号中分离出的与所述至少两个目标对象一一对应的多路语音信号，其中，所述目标神经网络模型是使用多组数据对原始神经网络模型训练出来的，所述多组数据中的每组数据均包括：至少两个目标对象发出的语音的频域特征矩阵和加权后的空域特征矩阵。

可选地，所述确定模块包括：第一确定单元，用于确定第一中心位置与第一位置之间的第一连线与所述第一中心位置与第二位置之间的第二连线构成的第一夹角，其中，所述第一中心位置为所述语音采集装置的中心位置，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第一夹角；第二确定单元，用于从所述至少两个目标对象中每两个所述目标对象对应的所述第一夹角中确定角度最小的夹角作为第一最小夹角，其中，所述目标夹角包括所述第一最小夹角。

可选地，所述装置包括：第二确定模块，用于在使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权之前，通过如下公式确定与所述目标夹角对应的第一权重系数：

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，通过从至少两个目标对象中每两个目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角，使用与目标叫夹角对应的权重系数对混合语音信号的空域矩阵进行加权，将混合语音信号的频域矩阵和加权后的空域矩阵作为目标神经网络模型，输出对混合语音信号分离结果。由于仅利用一个目标神经网络模型即可获取到对混合语音信号的分离结果，进而避免了现有技术中目标夹角较小情况下，语音分离方法性能下降的问题。达到了简化***的计算复杂度，提高运算效率的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种混合语音信号的分离方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的混合语音信号的分离的流程图；

图3是根据本发明实施例的至少两个目标对象中每两个目标对象与语音采集装置之间的夹角示意图；

图4是根据本发明另一实施例的至少两个目标对象中每两个目标对象与语音采集装置之间的夹角示意图；

图5是根基于空域特征可学习注意力机制的多通道语音分离***流程图；

图6根据本发明实施例的注意力曲线绘制图；

图7是两个目标对象相对于不同麦克风对的夹角示意图；

图8是根据本发明实施例的混合语音信号的分离装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算及终端上为例，图1是本发明实施例的一种混合语音信号的分离方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的混合语音信号的分离方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述计算机终端的混合语音信号的分离方法，图2是根据本发明实施例的混合语音信号的分离的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取语音采集装置采集到的混合语音信号，其中，所述混合语音信号包括至少两个目标对象发出的语音；

其中，混合语音信号是混合了多种声音后的语音信号，其中包括多人声混叠和环境中的声音。

步骤S204，获取所述混合语音信号的频域特征形成的第一频域矩阵和所述混合语音信号的空域特征形成的第一空域矩阵；

其中，在现实场景中，声源在空间中是孤立分开的，例如，通道间相位差、通道间压强差、通道间时间差等空域特征隐含了声源的空间位置信息；频域特征包括：对数功率谱、频谱幅度、对数梅尔谱等。

步骤S206，从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角；

其中，语音采集装置可以是麦克风阵列，发出语音的对象包括多个，每两个发声对象与语音采集装置构成一个夹角，在多个对象与语音采集装置构成的多个夹角中，确定最小的夹角为目标夹角。

步骤S208，使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，其中，0≤所述权重系数≤1；

步骤S210，将所述第一频域矩阵和所述第二空域矩阵输入到目标神经网络模型，得到所述目标神经网络模型输出的从所述混合语音信号中分离出的与所述至少两个目标对象一一对应的多路语音信号，其中，所述目标神经网络模型是使用多组数据对原始神经网络模型训练出来的，所述多组数据中的每组数据均包括：至少两个目标对象发出的语音的频域特征矩阵和加权后的空域特征矩阵。

通过上述步骤，从至少两个目标对象中每两个目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角，使用与目标叫夹角对应的权重系数对混合语音信号的空域矩阵进行加权，将混合语音信号的频域矩阵和加权后的空域矩阵作为目标神经网络模型，输出对混合语音信号分离结果。由于仅利用一个目标神经网络模型即可获取到对混合语音信号的分离结果，进而避免了现有技术中目标夹角较小情况下，语音分离方法性能下降的问题。达到了简化***的计算复杂度，提高运算效率的效果。

可选地，上述步骤的执行主体可以为终端等，但不限于此。

在一个可选实施例，从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角，包括：确定第一中心位置与第一位置之间的第一连线与所述第一中心位置与第二位置之间的第二连线构成的第一夹角，其中，所述第一中心位置为所述语音采集装置的中心位置，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第一夹角；从所述至少两个目标对象中每两个所述目标对象对应的所述第一夹角中确定角度最小的夹角作为第一最小夹角，其中，所述目标夹角包括所述第一最小夹角。在本实施例中，以三个目标对象为例，如图3是根据本发明实施例的至少两个目标对象中每两个目标对象与语音采集装置之间的夹角示意图，其中，第一位置是第一对象所在的位置，第二位置是第二对象所在的位置，第三位置是第三对象所在的位置。其中，第一位置与第二位置构成的夹角是θ₁，第二位置与第三位置构成的夹角是θ₂，第一位置与第三位置构成的夹角是θ₃。在θ₁、θ₂和θ₃中确定最小的夹角θ₁为目标夹角。

在一个可选实施例，在使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权之前，所述方法包括：通过如下公式确定与所述目标夹角对应的第一权重系数：

其中，所述θ是所述目标夹角，所述θ取值范围是0到180度，所述w和b是初始化确定的网络参数，所述att₁(θ)表示与所述目标夹角对应的所述权重系数。在本实施例中，以上述例实施例中三个目标对象为例，从三个发声对象所发出的混合语音波形中，提取出频域特征和空域特征，确定目标夹角是θ₁。将θ₁输入至上述公式中，得到与目标夹角θ₁相对应的第一权重系数att₁(θ₁)。在本实施例中，w和b是可学习的，在训练上述网络模型的过程中，先初始化设定网络参数w₀和b₀，在网络训练过程中，根据梯度下降法迭代更新包括w₀和b₀在内的所有网络参数，网络模型训练完成后得到上述w和b。

在一个可选实施例，使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，包括：使用所述第一权重系数对所述第一空域矩阵进行加权，得到所述第二空域矩阵。在本实施例中，以第一空域矩阵Y＝[y₁,y₂…y_k]为例，以通过上述实施例得到与目标夹角相对应的第一权重系数att₁(θ₁)为a₁为例，使用a₁对第一空域矩阵Y＝[y₁,y₂…y_k]进行加权后得到第二空域矩阵Y_att＝[α₁y₁,α₁y₂,...,α₁y_K]。

在一个可选实施例，从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角，包括：确定所述第一空域矩阵中所表示的空域特征的目标数量；在所述语音采集装置中选择所述目标数量的麦克风对，确定每个麦克风对中的第一麦克风与第二麦克风之间的第二中心位置，确定第二中心位置与第一位置之间的第三连线与所述第二中心位置与第二位置之间的第四连线构成的第二夹角，其中，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第二夹角；从所述至少两个目标对象中每两个所述目标对象对应的所述第二夹角中确定角度最小的夹角作为第二最小夹角，所述每个麦克风对对应一个所述第二最小夹角，所述目标夹角包括每个麦克风对对应的所述第二最小夹角。在本实施例中，以语音采集装置为麦克风阵列，以三个目标对象为例，如图4是根据本发明另一实施例的至少两个目标对象中每两个目标对象与语音采集装置之间的夹角示意图，其中，第一位置是第一对象所在位置，第二位置是第二对象所在位置，第三位置是第三对象所在的位置，由于第一空域矩阵Y＝[y₁,y₂…y_k]包括k个特征，那么在语音采集装置中选取k对麦克风，每对麦克风作为麦克风对，确定每个麦克风对的中点位置作为第二中心位置，在图4中第一位置、第二位置和第三位置与第二中心位置的夹角分别为θ₁、θ₂和θ₃，选取其中最小的夹角θ₁作为与第k对麦克风相对应的目标夹角θ_k，k对麦克风对应k个目标夹角，k个目标夹角构成目标夹角集合。

在一个可选实施例，在使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权之前，所述方法包括：通过如下公式确定与每个麦克风对的所述第二最小夹角对应的第二权重系数：

其中，θ_k是与第k个麦克风对对应的所述第二最小夹角，θ_k取值范围是0到180度，w_k和b_k是初始化确定的网络参数，att₂(θ_k)表示与第k个麦克风对的第二最小夹角对应的第二权重系数。在本实施例中，将θ_k代入上述公式中得到第k对麦克风对应的第二权重系数，将k对麦克风对应k个第二权重系数，k个第二权重系数对应权重系数矩阵。在本实施例中，w_k和b_k是可学习的，在训练上述网络模型的过程中，先初始化设定网络参数w₀和b₀，在网络训练过程中，根据梯度下降法迭代更新包括w₀和b₀在内的所有网络参数，网络模型训练完成后得到上述b_k和b_k。

在一个可选实施例，使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，包括：使用权重系数矩阵对所述第一空域矩阵进行加权，得到所述第二空域矩阵，其中，所述每个麦克对对应一个第二权重系数，所述目标数量的麦克风对对应的目标数量的权重系数为所述权重系数矩阵。在本实施例中，以k对麦克风对应权重系数矩阵为α₂＝[α_2,1,α_2,2,...,α_2,K]为例，使用该权重系数矩阵对第一空域矩阵Y＝[y₁,y₂…y_k]进行加权得到第二空域矩阵Y_att＝[α_2,1y₁,α_2,2y₂,...,α_2,Ky_K]。

在一个可选实施例，从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角，还包括：确定所述第一空域矩阵中所表示的空域特征的目标数量；在所述语音采集装置中选择所述目标数量的麦克风对，确定每个麦克风对中的第一麦克风与第二麦克风之间的第二中心位置，确定第二中心位置与第一位置之间的第三连线与所述第二中心位置与第二位置之间的第四连线构成的第二夹角，其中，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第二夹角；从所述至少两个目标对象中每两个所述目标对象对应的所述第二夹角中确定角度最小的夹角作为第二最小夹角，所述每个麦克风对对应一个所述第二最小夹角，所述目标夹角包括每个麦克风对对应的所述第二最小夹角。

在一个可选实施例，使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，包括：使用所述第一权重系数与所述权重系数矩阵的乘积对所述第一空域矩阵进行加权，得到所述第二空域矩阵，其中，所述每个麦克对对应一个所述第二权重系数，所述目标数量的麦克风对对应的目标数量的权重系数为所述权重系数矩阵。在本实施例中，结合上述方法，可以使用第一权重系数a₁与权重系数矩阵α₂＝[α_2,1,α_2,2,...,α_2,K]的乘积Y_att＝[α₁α_2,1y₁,α₁α_2,2y₂,...,α₁α_2,Ky_K]对第一空域矩阵进行加权，得到第二空域矩阵。

下面通过具体实施例说明本申请。

具体实施例1：

在本实施例中提出一种可学习的注意力机制，在不同的说话人间夹角下选择性地对频域及空域特征分配不同的关注程度(对应于权重系数)。如图5是根基于空域特征可学习注意力机制的多通道语音分离***流程图，其中，包括如下步骤：

步骤1：通过语音采集装置获取混合语音信号，其中，混合语音信号是由多个目标对象所发出的语音混合后的语音信号；

步骤2：从混合语音信号中提取出频域特征和空域特征，得到第一频域矩阵和第一空域矩阵；

步骤3：在至少两个目标对象中确定每两个目标对象与语音采集装置之间的夹角。具体地，可以根据场景设置的说话人夹角或说话人夹角估计模块得到多个说话人中每两个说话人于语音采集装置之间的夹角，如图3中的θ₁、θ₂和θ₃。

步骤4：在至少两个目标对象中每两个目标对象与语音采集装置之间的夹角中确定最小夹角作为目标夹角。例如，对于三个人或者三个人以上的分离***，说话人间夹角可定义为所有人中每两个人夹角的最小值。

步骤5：将目标夹角输入多通道语音分离网络中的注意力模块得到空域矩阵的权重系数。其中，注意力模块根据目标夹角θ，计算权重系数，将得到的权重系数对空域特征矩阵进行加权。具体的，权重系数的计算方法如下：

att₁(θ)＝f₁(θ)

其中，att₁(θ)表示多个说话人于语音采集装置构成的夹角中，最小的目标夹角是θ时，空域特征对于分离网络的贡献，即空域特征的权重系数。f₁(θ)是基于夹角θ的单调递增(或单调不减)函数，随着夹角的增大，空域特征对于网络的贡献越大。夹角θ的取值范围为0度到180度，f₁(θ)的取值范围为0到1。f₁(θ)的一种典型设计如下：

其中，σ(θ)可以是sigmoid函数得分，也可以是其它可以计算得分的方法，值域为[0,1]，表示网络应分配给空域特征的权重大小，w和b是可学习的网络参数。其中，b控制了sigmoid得分曲线趋近为1的临界取值，而b/w则控制了曲线趋近于0的临界值。图6根据本发明实施例的注意力曲线绘制图，图中绘制了了当w＝0.5,b＝10.0时的注意力曲线，其中，注意力程度表示权重大小，注意力程度越大权重越大，注意力越小权重越小。从图中可以看出，说话人与语音采集装置的夹角较小的情况下(θ<10°)，空域特征对于多通道语音分离网络的贡献为0，网络仅依赖频域特征分离混合语音；而夹角较大的情况下(θ>30°)，空域特征比频域特征具有更高的区分性，空域特征被分配持续的权重，网络同时参考频域和空域信息，从而取得更好的混合语音分离效果。

步骤6：将频域矩阵和加权后的空域矩阵输入多通道语音分离网络中的分离模块，网络输出分离后的语音。

具体实施例2：

空域信息的提取主要是基于麦克风对之间的信息差异，如两耳时间差(Interaural time difference,简称ITD)、两耳压强差(Interaural level difference,简称ILD)和两耳相位差(Interaural phase difference,简称IPD)等。在具体实施例1中所述的注意力机制，对所有麦克风对所提取出的空域特征施以相同的关注程度。但是，说话人相对于整个麦克风阵列中心的夹角，与其相对于某一个麦克风对中心的夹角是不同的。

图7是两个目标对象相对于不同麦克风对的夹角示意图，实线连接一对麦克风对，θ₁表示第一目标对象所在的第一位置与第二目标对象所在的第二位置与第一麦克风对的中心位置构成的夹角，θ₂表示第一目标对象所在的第一位置与第二目标对象所在的第二位置与第二麦克风对的中心位置构成的夹角，其中，第一目标对象和第二目标对象是发出语音的声源。从图中可以看出发音对象对于整个麦克风阵列中不同的麦克风对的中心的夹角是不同的。以6麦圆形麦克风阵列为例介绍θ₁的求解方式。以麦克风阵列中心为原点，麦克风1的坐标为(-rsin(0°),rcos(0°)),麦克风2坐标为(-r sin(60°),rcos(60°))，r为麦克风阵列的半径，以此类推。第一对麦克风对为(麦克风1，麦克风2)，中点坐标A₀为(-r(sin(0°)+sin(60°))/2,r(cos(0°)+cos(60°))/2)。

假设发音对象1和2分别来自

(

是发音对象1与麦克风阵列中心的连线，与该麦克风阵列的0°线所构成的夹角，其中，0°线一般根据麦克风阵列的设计样式有关。例如，圆形麦克风阵列的0°线可以是垂直向上的线，线性麦克风阵列可以是沿水平方向的线)。则可以计算出，发音对象1可视为在圆形麦克风阵列中的到达坐标A1为

发音对象2的坐标为

根据公式可计算出θ₁的值

θ₂的求解方式与θ₁的求解方式相同。

当第k个麦克风对于两个目标对象之前的夹角为0度时，基于第k个麦克风对计算得到的空域特征没有区分性；当为180度时，基于第k个麦克风对计算得到的区分性最大。因此，对于不同的麦克风对所提取出的空域特征。

本申请根据两个说话人相对于某一个麦克风对的夹角差计算相应的权重系数，计算方式如下：

att₂(θ_k)＝f₂(θ_k)

att₂(Δθ_k)表示两个说话人相对于第k个麦克风对的夹角差为θ_k时，该麦克风对得到的空域特征对于分离网络的贡献。f₂(θ_k)是基于夹角θ_k的单调递增(或单调不减)函数，随着夹角的增大，空域特征对于网络的贡献越大。夹角θ_k的取值范围为0度到180度，f₂(θ_k)的取值范围为0到1。f₂(θ_k)的一种典型设计如下：

att₂(Δθ_k)＝2*max(σ(Δθ_k)-0.5,0)

其中，σ(Δθ_k)＝1/(1+exp(-w_k(Δθ_k-b_k))可以是针对第k对麦克风对的sigmoid函数得分，表示网络应分配给第k对麦克风对所提取出的空域特征的关注程度，其中，关注程度也表示权重大小，关注程度越大其权重系数越大，关注程度越小其权重系数越小。w_k和b_k是相对应的可学习网络参数。基于麦克风对的注意力机制可以更精确地为每一对麦克风对所提取出的空域特征，根据其可区分性加以利用，进一步提高了空域特征的有效性，从而提高多通道语音分离***性能。对于三个人或者三个人以上的分离***，对于第k个麦克风对的夹角差可定义为所有人中每两个人夹角差的最小值。

具体实施例3：

上述注意力机制可以直接在输入特征层面对空域特征进行加权。假设频域特征为X,空域特征为Y＝[y₁,y₂…y_k]，k为分离***基于N个麦克风选择的麦克风对总数。对于某两个说话人，a₁为具体实施例1计算得到的空域特征加权系数，α₂＝[α_2,1,α_2,2,...,α_2,K]为具体实施例2计算得到的空域特征加权系数，其中α_2,K为第k个麦克风对的空域特征加权系数。对空域特征加权时可以为：

Y_att＝[α₁y₁,α₁y₂,...,α₁y_K]

或

Y_att＝[α_2,1y₁,α_2,2y₂,...,α_2,Ky_K]

或

Y_att＝[α₁α_2,1y₁,α₁α_2,2y₂,...,α₁α_2,Ky_K]

加权后的空域特征Y_att与频域特征X拼接后，作为网络的输入。

本申请提出一种基于注意力机制的多通道语音分离***，针对说话人位置相近时，多通道语音分离***效果变差的问题，提出基于可学习注意力的多通道语音分离网络，令网络自适应地在不同说话人空间分布条件下调整对不同特征关注的权重，从而充分利用更具有区分性的特征，提升分离效果；本申请在多通道语音分离***中集成一个注意力模块，无须多套备选***，所增加的运行时间和计算复杂度很小。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种混合语音信号的分离装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是根据本发明实施例的混合语音信号的分离装置的结构框图，如图8所示，该装置包括：第一获取模块82，用于获取语音采集装置采集到的混合语音信号，其中，所述混合语音信号包括至少两个目标对象发出的语音；第二获取模块84，用于获取所述混合语音信号的频域特征形成的第一频域矩阵和所述混合语音信号的空域特征形成的第一空域矩阵；第一确定模块86，用于从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角；加权模块88，用于使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，其中，0≤所述权重系数≤1；输入模块810，用于将所述第一频域矩阵和所述第二空域矩阵输入到目标神经网络模型，得到所述目标神经网络模型输出的从所述混合语音信号中分离出的与所述至少两个目标对象一一对应的多路语音信号，其中，所述目标神经网络模型是使用多组数据对原始神经网络模型训练出来的，所述多组数据中的每组数据均包括：至少两个目标对象发出的语音的频域特征矩阵和加权后的空域特征矩阵。

在一个可选实施例，所述确定模块包括：第一确定单元，用于确定第一中心位置与第一位置之间的第一连线与所述第一中心位置与第二位置之间的第二连线构成的第一夹角，其中，所述第一中心位置为所述语音采集装置的中心位置，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第一夹角；第二确定单元，用于从所述至少两个目标对象中每两个所述目标对象对应的所述第一夹角中确定角度最小的夹角作为第一最小夹角，其中，所述目标夹角包括所述第一最小夹角。

在一个可选实施例，所述装置包括：第二确定模块，用于在使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权之前，通过如下公式确定与所述目标夹角对应的第一权重系数：

在一个可选实施例，上述加权模块还用于使用所述第一权重系数对所述第一空域矩阵进行加权，得到所述第二空域矩阵。

在一个可选实施例，上述第一确定模块还用于，确定所述第一空域矩阵中所表示的空域特征的目标数量；在所述语音采集装置中选择所述目标数量的麦克风对，确定每个麦克风对中的第一麦克风与第二麦克风之间的第二中心位置，确定第二中心位置与第一位置之间的第三连线与所述第二中心位置与第二位置之间的第四连线构成的第二夹角，其中，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第二夹角；从所述至少两个目标对象中每两个所述目标对象对应的所述第二夹角中确定角度最小的夹角作为第二最小夹角，所述每个麦克风对对应一个所述第二最小夹角，所述目标夹角包括每个麦克风对对应的所述第二最小夹角。

在一个可选实施例，上述装置还用于，在使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权之前，通过如下公式确定与每个麦克风对的所述第二最小夹角对应的第二权重系数：

在一个可选实施例，上述加权模块还用于使用权重系数矩阵对所述第一空域矩阵进行加权，得到所述第二空域矩阵，其中，所述每个麦克对对应一个第二权重系数，所述目标数量的麦克风对对应的目标数量的权重系数为所述权重系数矩阵。

在一个可选实施例，上述加权模块还用于使用所述第一权重系数与所述权重系数矩阵的乘积对所述第一空域矩阵进行加权，得到所述第二空域矩阵，其中，所述每个麦克对对应一个所述第二权重系数，所述目标数量的麦克风对对应的目标数量的权重系数为所述权重系数矩阵。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取语音采集装置采集到的混合语音信号，其中，所述混合语音信号包括至少两个目标对象发出的语音；

S2，获取所述混合语音信号的频域特征形成的第一频域矩阵和所述混合语音信号的空域特征形成的第一空域矩阵；

S3，从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角；

S4，使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，其中，0≤所述权重系数≤1；

S5，将所述第一频域矩阵和所述第二空域矩阵输入到目标神经网络模型，得到所述目标神经网络模型输出的从所述混合语音信号中分离出的与所述至少两个目标对象一一对应的多路语音信号，其中，所述目标神经网络模型是使用多组数据对原始神经网络模型训练出来的，所述多组数据中的每组数据均包括：至少两个目标对象发出的语音的频域特征矩阵和加权后的空域特征矩阵。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S5，将所述第一频域矩阵和所述第二空域矩阵输入到目标神经网络模型，得到所述目标神经网络模型输出的从所述混合语音信号中分离出的与所述至少两个目标对象一一对应的多路语音信号，其中，所述目标神经网络模型是使用多组数据对原始神经网络模型训练出来的，所述多组数据中的每组数据均包括：至少两个目标对象发出的语音的频域特征矩阵和加权后的空域特征矩阵。可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种混合语音信号的分离方法，其特征在于，包括：

获取语音采集装置采集到的混合语音信号，其中，所述混合语音信号包括至少两个目标对象发出的语音；

获取所述混合语音信号的频域特征形成的第一频域矩阵和所述混合语音信号的空域特征形成的第一空域矩阵；

从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角；

使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，其中，0≤所述权重系数≤1；

将所述第一频域矩阵和所述第二空域矩阵输入到目标神经网络模型，得到所述目标神经网络模型输出的从所述混合语音信号中分离出的与所述至少两个目标对象一一对应的多路语音信号，其中，所述目标神经网络模型是使用多组数据对原始神经网络模型训练出来的，所述多组数据中的每组数据均包括：至少两个目标对象发出的语音的频域特征矩阵和加权后的空域特征矩阵；

所述从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角，包括：

确定所述第一空域矩阵中所表示的空域特征的目标数量；

在所述语音采集装置中选择所述目标数量的麦克风对，确定每个麦克风对中的第一麦克风与第二麦克风之间的第二中心位置，确定第二中心位置与第一位置之间的第三连线与所述第二中心位置与第二位置之间的第四连线构成的第二夹角，其中，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第二夹角；

从所述至少两个目标对象中每两个所述目标对象对应的所述第二夹角中确定角度最小的夹角作为第二最小夹角，所述每个麦克风对对应一个所述第二最小夹角，所述目标夹角包括每个麦克风对对应的所述第二最小夹角。

2.根据权利要求1所述的方法，其特征在于，从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角，包括：

确定第一中心位置与第一位置之间的第一连线与所述第一中心位置与第二位置之间的第二连线构成的第一夹角，其中，所述第一中心位置为所述语音采集装置的中心位置，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第一夹角；

从所述至少两个目标对象中每两个所述目标对象对应的所述第一夹角中确定角度最小的夹角作为第一最小夹角，其中，所述目标夹角包括所述第一最小夹角。

3.根据权利要求2所述的方法，其特征在于，在使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权之前，所述方法包括：

通过如下公式确定与所述目标夹角对应的第一权重系数：

其中，θ是所述目标夹角，θ取值范围是0到180度，w和b是初始化确定的网络参数，att₁(θ)表示与所述目标夹角对应的所述权重系数。

4.根据权利要求3所述的方法，其特征在于，使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，包括：

使用所述第一权重系数对所述第一空域矩阵进行加权，得到所述第二空域矩阵。

5.根据权利要求1所述的方法，其特征在于，在使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权之前，所述方法包括：

通过如下公式确定与每个麦克风对的所述第二最小夹角对应的第二权重系数：

6.根据权利要求5所述的方法，其特征在于，使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，包括：

使用权重系数矩阵对所述第一空域矩阵进行加权，得到所述第二空域矩阵，其中，所述每个麦克对对应一个第二权重系数，所述目标数量的麦克风对对应的目标数量的权重系数为所述权重系数矩阵。

7.根据权利要求3所述的方法，其特征在于，从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角，还包括：

确定所述第一空域矩阵中所表示的空域特征的目标数量；

8.根据权利要求7所述的方法，其特征在于，在使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权之前，所述方法包括：

9.根据权利要求8所述的方法，其特征在于，使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，包括：

使用所述第一权重系数与所述权重系数矩阵的乘积对所述第一空域矩阵进行加权，得到所述第二空域矩阵，其中，所述每个麦克对对应一个所述第二权重系数，所述目标数量的麦克风对对应的目标数量的权重系数为所述权重系数矩阵。

10.一种混合语音信号的分离装置，其特征在于，包括：

第一获取模块，用于获取语音采集装置采集到的混合语音信号，其中，所述混合语音信号包括至少两个目标对象发出的语音；

第二获取模块，用于获取所述混合语音信号的频域特征形成的第一频域矩阵和所述混合语音信号的空域特征形成的第一空域矩阵；

第一确定模块，用于从所述至少两个目标对象中每两个所述目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角；

加权模块，用于使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵，其中，0≤所述权重系数≤1；

输入模块，用于将所述第一频域矩阵和所述第二空域矩阵输入到目标神经网络模型，得到所述目标神经网络模型输出的从所述混合语音信号中分离出的与所述至少两个目标对象一一对应的多路语音信号，其中，所述目标神经网络模型是使用多组数据对原始神经网络模型训练出来的，所述多组数据中的每组数据均包括：至少两个目标对象发出的语音的频域特征矩阵和加权后的空域特征矩阵；

所述第一确定模块还用于：

确定所述第一空域矩阵中所表示的空域特征的目标数量；

11.根据权利要求10所述的装置，其特征在于，所述确定模块包括：

第一确定单元，用于确定第一中心位置与第一位置之间的第一连线与所述第一中心位置与第二位置之间的第二连线构成的第一夹角，其中，所述第一中心位置为所述语音采集装置的中心位置，所述第一位置为所述每两个所述目标对象中的第一目标对象所在的位置，所述第二位置为所述每两个所述目标对象中的第二目标对象所在的位置，所述每两个所述目标对象对应一个所述第一夹角；

第二确定单元，用于从所述至少两个目标对象中每两个所述目标对象对应的所述第一夹角中确定角度最小的夹角作为第一最小夹角，其中，所述目标夹角包括所述第一最小夹角。

12.根据权利要求11所述的装置，其特征在于，所述装置包括：

第二确定模块，用于在使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权之前，通过如下公式确定与所述目标夹角对应的第一权重系数：

13.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至9任一项中所述的方法。

14.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至9任一项中所述的方法。