CN113241092A

CN113241092A - 基于双注意力机制和多阶段混合卷积网络声源分离方法

Info

Publication number: CN113241092A
Application number: CN202110660263.5A
Authority: CN
Inventors: 陈亚东; 邱文博; 胡英; 黄浩; 何亮
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-08-10

Abstract

本发明公开了一种基于双注意力机制和多阶段混合卷积网络声源分离方法，具体包括：混合信号幅度频谱作为模型的输入，经过混合卷积网络得到精细的时频细节特征，经过多个阶段的混合卷积子网络分别得到多个阶段的特征输出，每个阶段均分别输出多个目标声源的时频掩蔽估计矩阵，与混合信号幅度频谱相乘，得到对应的多个目标声源的幅度频谱，结合混合信号的相位频谱，采用短时傅里叶逆变换得到多个目标声源的时域波形信号。本发明采用的分离网络为全卷积神经网络，参数量小、运算效率高，相较于循环神经网络，本发明采用的分离网络可以在获取到较长范围上下文信息的同时保持网络模型的低计算复杂度。

Description

基于双注意力机制和多阶段混合卷积网络声源分离方法

技术领域

本发明涉及单通道声源分离领域，具体涉及一种基于双注意力机制和多阶段混合卷积网络声源分离方法。

背景技术

声源分离旨在从混合信号中提取目标声源。在音乐信号处理中，从歌曲中分离出干净的唱声声源信号与各个乐器演奏信号，这种特定的声源分离有许多后续的应用，例如乐器类型检测、唱声基频估计、自动歌词识别、自动歌手识别等。在带有强背景噪声的条件下，去噪任务可视作声源分离的另一种情况，噪声对于自动语音识别等任务的性能有很大影响。多个说话人同时说话，将每个说话人语音分离出来，可用于每个说话人语音识别和自动转录。

近些年声源分离任务的研究在学术界和工业界都得到巨大的发展，早期传统机器学习的方法与现在广为流行的深度学习的研究都取得一定的成功。尤其是针对有监督方式的声源分离任务，如今声源分离模型的分离性能已经达到一定的高度，但对于实际应用的需求，当前的技术仍然需要不断地革新以趋于成熟。尽管人们可以轻易地感知混合信号中的某个独立源，但对于计算机来说学会认知某种特征却是困难的，尤其是当***只存在单通道混合信号时。

得益于深度学习的快速发展，声源分离技术在近几年有很大程度的进步，但当前的分离模型仍存在一些限制。对于普遍使用的CNN卷积神经网络，对局部特征有较好的学习能力，但缺少时序性的概念。相比较而言，循环神经网络可以捕获较长的上下文关系，但又需要花费较长的训练时间，这对于模型参数的优化是不利的。

发明内容

本发明的目的是提供一种基于双注意力机制和多阶段混合卷积网络声源分离方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了如下方案：

本发明提供一种基于双注意力机制和多阶段混合卷积网络声源分离方法，包括：

S1.采集单通道混合信号和多个干净目标声源信号，对所述单通道混合信号进行预处理，获得所述单通道混合信号的幅度频谱和所述单通道混合信号的相位频谱；

S2.构建分离网络模型，所述分离网络模型包括多阶段混合卷积网络，将所述单通道混合信号的幅度频谱进行处理获得时频特征图；

S3.将所述时频特征图切分为多个频段，基于所述多阶段混合卷积网络获得多个目标声源的时频掩蔽估计矩阵，基于所述多个目标声源的时频掩蔽估计矩阵和损失函数更新所述分离网络模型的参数，获得优化后的分离网络模型；

S4.基于所述多个目标声源的时频掩蔽估计矩阵和所述单通道混合信号的幅度频谱获得多个目标声源信号的幅度频谱，基于所述多个目标声源信号的幅度频谱和所述单通道混合信号的相位频谱获得多个目标声源信号的时域波形信号，完成分离。

优选地，所述S1中预处理为：通过短时傅里叶变换将所述单通道混合信号处理得到所述单通道混合信号的幅度频谱和所述单通道混合信号的相位频谱。

优选地，所述S2中分离网络模型还包括双注意力网络，所述双注意力网络用于对所述时频特征图获取更优的特征表示。

优选地，所述双注意力网络包括两个并行的网络结构，分别为空间注意力子网络和通道注意力子网络，获取所述更优的特征表示的方法具体为：通过所述空间注意力子网络获取的空间位置结合所述通道注意力子网络获取的通道间特征相关性，获得所述更优的特征表示。

优选地，所述S3中，所述多阶段混合卷积网络还基于所述时频特征图获得精细的时频细节特征。

优选地，所述S3中，基于所述多个目标声源的时频掩蔽估计矩阵和损失函数更新所述分离网络模型的参数时，还包括基于所述精细的时频细节特征和所述更优的特征表示对所述分离网络模型的参数进行优化。

优选地，所述多阶段混合卷积网络包括：1×3卷积网络、3×1卷积网络和3×3卷积网络，其中利用1×3和3×1的卷积分别对频率依赖和时间依赖进行建模，利用3×3的卷积融合时频依赖关系。

优选地，所述S4中多个目标声源的时频掩蔽估计矩阵获取过程为：所述多阶段混合卷积网络中包括多个阶段混合卷积子网络，选取所述多个阶段混合卷积子网络中最后一个阶段混合卷积子网络的输出为所述多个目标声源的时频掩蔽估计矩阵。

优选地，所述多个阶段混合卷积子网络的提取过程为：通过多频段沙漏网络获取时频特征，根据所述时频特征获得子频段特征和全频段特征，将所述子频段特征和所述全频段特征进行特征融合，得到多个阶段混合卷积子网络。

本发明的有益效果为：

(1)本发明采用双注意力机制为网络获取更优的特征表示，经过频段切分操作，结合多级扩张的混合卷积网络模块能够按照频率维度和时间维度汇总上下文信息，对于不同源的时频特征提取更加精细，本发明采用的多阶段网络模式和多监督训练方式可以改善网络的拟合能力，进一步提高分离的性能。

(2)通过实验结果表明，本发明采用的分离模型可以很好地应用在音乐源分离任务中，也可应用在多说话人分离以及背景嘈杂条件下的目标语音增强任务中，模型更具伸缩性。

(3)本发明采用的分离网络为全卷积神经网络，参数量小、运算效率高，相较于循环神经网络，本发明采用的分离网络可以在获取到较长范围上下文信息的同时保持网络模型的低计算复杂度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的整体方案示意图；

图2为本发明实施例的双注意力网络模型示意图；

图3为本发明实施例的结合多级扩张的混合卷积网络示意图，其中图3(a)为混合卷积网络模型，图3(b)为多级扩张网络模型。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

本发明实施例提供了一种基于双注意力机制和多阶段混合卷积网络的声源分离方法，在实施时包括两个步骤：训练分离网络模型和运用分离网络实现混合信号中的目标声源分离。图1是基于双注意力机制和多阶段混合卷积的网络模型图，训练和测试时均使用该分离网络模型，在训练网络模型时需要根据损失函数和优化函数更新网络参数，而在运用分离网络对混合信号进行分离时，使用的模型为训练好的最优模型，网络参数固定；另外，在训练分离网络时，网络的输出包含多个阶段的输出，网络梯度的更新由多阶段输出共同决定，在执行声源分离时，网络的输出仅包含最后一个阶段的输出。

第一步：训练分离网络模型

训练该基于双注意力机制和多阶段混合卷积网络的声源分离***模型(也即是训练神经网络参数)时，具体按照以下步骤实施：

步骤train1：获得一定数量的单通道混合信号及其对应的干净目标声源(也称为训练样本)；

具体为，对于单通道混合信号，要有干净的目标声源样本匹配。

步骤train2：将混合信号和对应的干净目标声源分别进行短时傅里叶变换，得到成对的混合源频谱和目标声源频谱(也称为时频特征)；

具体为，对混合源波形信号和对应的干净目标声源波形信号分别进行短时傅里叶变换，分别得到混合信号和对应的目标声源的幅度频谱。这里(训练过程)保留混合信号的幅度频谱和相位频谱。

步骤train3：将混合信号的幅度频谱作为***的输入，将干净目标声源的幅度频谱用于计算损失函数，进行神经网络模型训练，训练的速度取决于机器硬件的配置和样本的规模；

具体为，按照图1基于双注意力机制和多阶段混合卷积网络模型搭建神经网络(搭建网络的详细过程请参考说明书中声源分离问题的具体描述)，将网络设置为可训练状态(即网络参数会随着训练迭代不断的更新)。混合源幅度频谱作为分离网络的输入，干净目标声源的幅度频谱用于网络的多阶段监督。对于分离网络的训练过程而言，用于训练的样本要尽可能是高质量并且多样化的，这样才能保证网络对数据有较好的泛化性。

步骤train4：保存训练好的网络模型参数。

实施例2

声源分离问题的具体描述

单通道声源分离的目标是将单通道混合信号中的目标声源信号孤立出来。混合源信号x(t)在时域中表示为：

I的值表示为预分离目标声源的个数。将混合信号进行短时傅里叶变换，得到混合源的复数频谱为X(t,f)，目标声源对应的短时傅里叶变换的输出为S_i(t,f)。假定地，混合源与目标声源应满足：

X(t,f)＝S₁(t,f)+S₂(t,f)+...+S_i(t,f) (2)

也即是对于要分离的目标声源，理论上应满足混合源的复数频谱等于目标声源对应复数频谱的加和。

本发明实施例采用的基于双注意力机制和多阶段混合卷积网络的方法，将混合信号幅度频谱|X(t,f)|送入网络，同时将干净目标声源对应的幅度频谱|S₁(t,f)|、|S₂(t,f)|用作多阶段网络输出端的监督来训练神经网络模型，通过网络模型学习和区分时频特征。具体来说，输入的混合信号的幅度频谱通过分离模型得到多个阶段的网络输出，将最后一个阶段输出的多个声源时频掩蔽估计矩阵分别与混合信号的幅度频谱相乘，进而得到对应多个目标声源的幅度频谱，最后结合混合信号的相位频谱，执行短时傅里叶反变换得到分离的多个目标声源时域波形，本发明实施例采用基于双注意力机制和多阶段混合卷积网络来实现训练和分离，基于双注意力机制和多阶段混合卷积网络模型如图1所示。

下面分别重点描述本发明实施例中所涉及模型中的几个关键技术模型：

一、双注意力网络

本发明实施例通过采用双注意力网络(空间-通道)实现对全局上下文关系的获取，使网络获得更优的特征表示，双注意力网络结构如图2所示。通常卷积网络中上下文信息通常是通过扩展接收域来获取的。一种方法是增加网络深度，但这会降低计算效率，并通常导致梯度消失、网络退化等问题。另一种方法是增大卷积核尺寸，但这样同时会增加计算负荷和训练时间。为了有效解决这一问题，本发明采用一种双注意力网络，对原始分辨率下的特征获取全局上下文相关性。通过结合已建立的全局相关性，随后的多级网络可以更好地学习局部时频特征。本发明实施例中所述双注意力网络由两个并行的网络结构组成：空间注意力网络和通道注意力网络，具体为：

1.空间注意力网络

空间注意力网络旨在利用任意两个位置特征之间的关联关系，来相互增强各自位置特征的表达。如图2的下半部分所示，本发明采用了一种十字交叉注意力的位置注意力，前一级网络输出的特征经过该网络后可以获得任意位置与其所在相同行和相同列的位置相关性，经过两遍同样的操作后即可得到全局的空间上下文相关性。给定一个输入H∈R^C ^×F×T，网络首先应用两个卷积核为1×1大小的卷积层分别产生两组特征Q和K，{Q,K}∈R^C ^'×F×T，C'表示输出通道数，且有C'<C。对于Q上的任意一个位置u，可以得到向量Q_u∈R^C'，同时可以获得在K上同一位置u所在的行与列的特征向量集合K_u∈R^(F+T-1)×C'。进一步地，通过Affinity仿射变换操作结合Q与K的特征向量得到注意力权重矩阵。仿射变换操作定义为：

这里的K_i,u指K_u的第i个元素，i＝[1,2,3,...,F+T-1]，获得的d_i,u表示Q_u和K_i,u的相关程度，d_i,u∈D∈R^{(F+T-1)×(T×F)}。得到的相关性通过一个Softmax层得到归一化的权重矩阵A∈R^{(F+T-1)×(T×F)}。除此之外，输入H同时经过一个卷积核为1×1大小的卷积层产生V，V∈R^C ^×F×T。同样地，在V上的任意一个位置u，可以获得特征向量V_u∈R^C和特征向量集合Φ_u∈R^(F ^+T-1)×C，Φ_u表示在V上同一位置u所在的行与列的特征向量集合。基于此，对于任意一个位置u，其上下文的相关性可以通过一个Aggregation操作获得，Aggregation操作定义为：

这里的A_i,u为在权重矩阵A上的第i个通道上的任意位置u，经过最后的残差连接将输入与得到的特征加和，使得结合了全局上下文的局部特征有更优的空间位置表达。

2.通道注意力网络

空间注意力网络是从空间的角度对特征的上下文关系进行建模，但是没有考虑到特征通道间的重要性与相关性。于是，本发明采用了一种专门的通道注意力机制针对特征通道间的关系进行建模，如图2的上半部分所示。对于给定的输入H∈R^C×F×T，通过一个全局平均池化层压缩特征图的空间依赖性，而后通过两个1×1大小的卷积层和Sigmoid层缩放特征通道并赋予通道之间各自的重要程度，得到注意力矩阵A_ch∈R^C×1×1。通道注意力的计算过程如下所示：

A_ch＝σ(W_C(δW_C/r(f_Gap(H)))) (5)

这里的

指的是全局平均池化层的操作，W_C/r和W_C为两个1×1大小的卷积层的权重矩阵，δ指的是非线性激活单元ReLU，σ为sigmoid层。获得的注意力矩阵与输入H相乘即可得到通道注意力网络的输出。

通过结合得到的空间注意力特征与通道注意力特征，空间位置相关性和通道间的相关性被同时捕获到，网络得到了更优的特征表示。

二、结合多级扩张的混合卷积网络模块

本发明实施例中所述混合卷积网络模块如图3所示，模块同时也包含了多级扩张网络、残差学习方法，具体为：

1.混合卷积网络

基于时频域建模的分离网络通常采用卷积核为方形的卷积神经网络作为基础单元(例如卷积核尺寸为3×3)，然而，仅仅使用卷积核为方形的卷积神经网络对于提取时频特征是不够充分的。本发明采用混合卷积网络，CNN采用1×3和3×1的非对称卷积核，分别对频率依赖和时间依赖进行建模，采用3×3的卷积核(卷积核为方形)融合时频依赖关系。如图3(a)所示，网络的输入首先经过一组并行的1×3和3×1的非对称卷积分别针对时间和频率维度提取特征。由于尺寸为3的卷积核的感知区域固定，图中顺序地使用两组非对称卷积，在第二组中通过扩张一级的扩张因子来扩大卷积核的感知范围。采用卷积核为方形的CNN对获得的时频依赖进行整合，以获得更加精细的特征，扩张率与第二组非对称卷积相同。将混合卷积网络的输入与经过网络学习的输出加和，可以融合原始信息，同时改善网络的梯度优化问题，提高网络训练效率。

2.多级扩张网络

双注意力网络已经获得了特征在原始分辨率上的全局相关性，在后面的网络中，仅仅通过建立固定区域的局部特征学习并不能够满足网络学习的需要，因此本发明采用一种多级扩张网络，建立以混合卷积模块为基础单元的结构。如图3(b)所示，多级扩张网络由多个顺序的混合卷积模块组成，在多级模块中，加入以指数形式增长的扩张因子。对于多级扩张的混合卷积模块，每一级的输出特征被沿着通道维度拼接，而后经过一个卷积核为1×1的CNN融合来自不同尺度的特征，结合残差映射帮助网络结合原始特征恢复可能丢失的细节。通过逐级增大网络的感知区域，结合先前学到的全局信息，这更有助于网络理解特征。

三、多频段(Multi-band)沙漏网络

在图1中所述的多阶段(Multi-stage)网络采用多频段沙漏网络作为主要的特征提取子网络。多频段沙漏网络的输入是经过频段切分之后的时频特征，由于不同目标声源在频带上的分布具有各自特点，较低的频带更可能包含高能量、持续时间长的声音源，而较高的频带往往包含噪音和一些低能量的声音。因此切分频段处理可以更好地针对不同声源特征进行学习。本发明实施例中所述多频段沙漏网络的结构细节如表所示。

其中，MLD(Multi-Level Dilation)是指多级扩张网络。本发明实施例中所使用的子频段数为2，也即划分为高频段和低频段，高、低频段沙漏网络提取的时频特征是精细的，二者的输出特征将会沿着频率维度融合。而全频段沙漏网络对应的输出时频特征是粗糙的，通过将子频段与全频段的特征融合，提高网络对目标声源的特征学习能力。

综上所述，本发明实施例的优点在于：实现了从混合信号中分离多个目标声源信号，相较于目前主流的多声源分离模型，提高了声源分离的性能和模型的泛化性，并优化了网络模型参数，缩短运算时间，减轻训练负担，以及为包含不同声源的场景提供可扩展性(同样的模型可以应用在多个不同的任务场景)。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于双注意力机制和多阶段混合卷积网络声源分离方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于双注意力机制和多阶段混合卷积网络声源分离方法，其特征在于，所述S1中预处理为：通过短时傅里叶变换将所述单通道混合信号处理得到所述单通道混合信号的幅度频谱和所述单通道混合信号的相位频谱。

3.根据权利要求1所述的基于双注意力机制和多阶段混合卷积网络声源分离方法，其特征在于，所述S2中分离网络模型还包括双注意力网络，所述双注意力网络用于对所述时频特征图获取更优的特征表示。

4.根据权利要求3所述的基于双注意力机制和多阶段混合卷积网络声源分离方法，其特征在于，所述双注意力网络包括两个并行的网络结构，分别为空间注意力子网络和通道注意力子网络，获取所述更优的特征表示的方法具体为：通过所述空间注意力子网络获取的空间位置结合所述通道注意力子网络获取的通道间特征相关性，获得所述更优的特征表示。

5.根据权利要求1所述的基于双注意力机制和多阶段混合卷积网络声源分离方法，其特征在于，所述S3中，所述多阶段混合卷积网络还基于所述时频特征图获得精细的时频细节特征。

6.根据权利要求4所述的基于双注意力机制和多阶段混合卷积网络声源分离方法，其特征在于，所述S3中，基于所述多个目标声源的时频掩蔽估计矩阵和损失函数更新所述分离网络模型的参数时，还包括基于所述精细的时频细节特征和所述更优的特征表示对所述分离网络模型的参数进行优化。

7.根据权利要求5所述的基于双注意力机制和多阶段混合卷积网络声源分离方法，其特征在于，所述多阶段混合卷积网络包括：1×3卷积网络、3×1卷积网络和3×3卷积网络，其中利用1×3和3×1的卷积分别对频率依赖和时间依赖进行建模，利用3×3的卷积融合时频依赖关系。

8.根据权利要求1所述的基于双注意力机制和多阶段混合卷积网络声源分离方法，其特征在于，所述S4中多个目标声源的时频掩蔽估计矩阵获取过程为：所述多阶段混合卷积网络中包括多个阶段混合卷积子网络，选取所述多个阶段混合卷积子网络中最后一个阶段混合卷积子网络的输出为所述多个目标声源的时频掩蔽估计矩阵。

9.根据权利要求8所述的基于双注意力机制和多阶段混合卷积网络声源分离方法，其特征在于，所述多个阶段混合卷积子网络的提取过程为：通过多频段沙漏网络获取时频特征，根据所述时频特征获得子频段特征和全频段特征，将所述子频段特征和所述全频段特征进行特征融合，得到多个阶段混合卷积子网络。