CN114023346A

CN114023346A - 可分离循环注意力的语音增强方法及装置

Info

Publication number: CN114023346A
Application number: CN202111285653.5A
Authority: CN
Inventors: 柯登峰; 张劲松; 解焱陆
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-02-08
Anticipated expiration: 2041-11-01
Also published as: CN114023346B

Abstract

本发明涉及一种可分离循环注意力的语音增强方法，包括步骤1：将语音信号输入至前置网络单元进行傅里叶变换，输出第一幅度流信号和第一相位流信号；步骤2：将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪，输出第二幅度流信号和第二相位流信号；所述注意力网络单元包括串联的多级极坐标注意力模块，每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块；步骤3：将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换，输出增强后的语音信号。本发明计算量小，能够有效保证语音降噪效果。

Description

可分离循环注意力的语音增强方法及装置

技术领域

本发明涉及一种可分离循环注意力的语音增强方法及装置。

背景技术

语音识别前端降噪、音像制作领域人声提取、语音合成领域声音提纯等均涉及对语音信号降噪增强，现有语音降噪主要包括以下方式：

1.SEGAN：以UNet为基础结构进行降噪，采用对抗生成技术使得生成声音接近人声。该方法的缺点是模型结构简单，对复杂噪声处理不干净，容易模式坍塌。

2.WAVENET：以WaveNet为基础结构进行降噪，该方法的缺点是模型庞大，训练复杂，速度极慢(每1分钟语音需要10分钟处理时间)，相位不对齐，难区分人声和有谐波的音乐噪声。

3.TasNet：以TCN为基础结构进行降噪，采用空洞卷积获得感受野的提升。该方法的缺点是没有确保空间的完备性，模型的频率分辨率差，对语音和噪声同时发声段的噪声去除不干净。

4.T－GSA：以transformer为基础结构进行降噪，采用高斯函数对感受野进行局部性约束。缺点是计算复杂度巨大，随着语音长度的变长处理时间呈O(N²)增长。

5.PHASEN：此方式是与本发明最相关的降噪方法。以TSB为基础结构进行降噪，采用频率变换块进行谐波增强。该方法虽然计算量较小，并能保证较好的降噪效果，但是缺点是只有固定的感受野，只能建模固定的谐波相关性，而实际上有时候我们需要看得较远才能确定当前音是语音还是噪音，需要通盘考虑上下前后关系才能确定当前谐波是真谐波还是伪谐波，因此，语音降噪效果还不十分理想。

发明内容

本发明的发明目的在于提供一种可分离循环注意力的语音增强方法及装置，计算量小，能够有效保证语音降噪效果。

基于同一发明构思，本发明具有三个独立的技术方案：

1、一种可分离循环注意力的语音增强方法，包括：

步骤1：将语音信号输入至前置网络单元进行傅里叶变换，输出第一幅度流信号和第一相位流信号；

步骤2：将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪，输出第二幅度流信号和第二相位流信号；所述注意力网络单元包括串联的多级极坐标注意力模块，每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块，其中所述幅度注意力模块进一步包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块；

步骤3：将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换，输出增强后的语音信号。

进一步地，步骤2中，每级极坐标注意力模块用于执行如下步骤：

步骤2.1：利用幅度注意力模块对输入的幅度流信号进行处理，将调节后的幅度流信号输入到相位它调节模块；

步骤2.2：利用相位自调节模块对输入的相位流信号进行处理，将处理后得到的自调节相位流信号输入到相位它调节模块；

步骤2.3：利用相位它调节模块基于所述调节后的幅度流信号对所述自调节相位流信号进行它调节，输出调节后的相位流信号；

步骤2.4：输出所述调节后的幅度流信号和调节后的相位流信号。

进一步地，所述相位自调节模块由一层或多层二维卷积构成；

所述相位它调节模块包含一个或多个幅度感知相位变换，每个幅度感知相位变换利用幅度流信号对相位流信号进行调节，变换公式如下：

P_o＝Conv(A_o)o P_i

式中，Conv表示卷积，o表示点乘，P_i表示幅度流输出作为相位它调节输入，P_o表示相位流输出，A_o表示幅度流输出作为相位它调节输入。

进一步地，所述步骤2.1包括如下步骤：

步骤2.1.1：将输入的幅度流信号分别输入至第一通道置换变换模块和第一时频可分离循环网模块，得到第一置换变换信号和第一循环信号；

步骤2.1.2：将第一置换变换信号输入至第二通道置换变换模块，输出第二置换变换信号；将第一置换变换信号、第一循环信号相乘后输入至所述第二时频可分离循环网模块，输出第二循环信号；

步骤2.1.3：将第二置换变换信号、第二循环信号拼接后输入至独立同分布卷积模块，输出所述调节后的幅度流信号。

进一步地，所述时频可分离循环网模块采用以下循环方式中的一种：单用时间循环、单用频率循环、先时间循环再频率循环、先频率循环再时间循环、时间和频率并行循环；

所述循环包括前向循环、后向循环、双向循环中的一种。

进一步地，所述独立同分布卷积模块由分布归一化层、二维卷积层、GELU层构成。

进一步地，所述前置网络单元包括短时傅里叶变换模块、幅度卷积模块和相位卷积模块，

所述短时傅里叶变换模块用于将语音信号变换成短时傅里叶系数；

所述幅度卷积模块用于对所述短时傅里叶变换模块输出的信号进行幅度卷积，输出第一幅度流信号；

所述相位卷积模块用于对所述短时傅里叶变换模块输出的信号进行相位卷积，输出第一相位流信号。

进一步地，所述后置网络单元包括幅度掩膜生成器、相位掩膜生成器、傅里叶系数生成器和逆短时傅里叶变换模块，

所述幅度掩膜生成器用于将第二幅度流信号生成单通道幅度信号；

所述相位掩膜生成器用于将第二相位流信号生成双通道相位信号；

所述傅里叶系数生成器用于根据所述单通道幅度信号和双通道相位信号生成傅里叶系数；

所述逆短时傅里叶变换模块用于根据所述生成的傅里叶系数，输出增强后的语音信号。

2、一种可分离循环注意力的语音增强方法，包括：

步骤1：将语音信号输入至前置网络单元进行傅里叶变换，输出第一幅度流信号；

步骤2：将所述第一幅度流信号输入注意力网络单元进行降噪，输出第二幅度流信号；所述注意力网络单元包括串联的多级极坐标注意力模块，每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块，其中所述幅度注意力模块进一步包括两个时频可分离循环网模块和一个独立同分布卷积模块；或者包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块；

步骤3：将所述第二幅度流信号，通过后置网络单元进行逆傅里叶变换，输出增强后的语音信号。

3、一种可分离循环注意力的语音增强装置，包括：

前置网络单元，用于对输入的语音信号进行傅里叶变换，输出第一幅度流信号和第一相位流信号；

注意力网络单元，用于对所述第一幅度流信号和第一相位流信号进行降噪，输出第二幅度流信号和第二相位流信号；和

后置网络单元，用于对所述第二幅度流信号和第二相位流信号进行逆傅里叶变换，输出增强后的语音信号；

其中，所述注意力网络单元包括串联的多级极坐标注意力模块，每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块，其中所述幅度注意力模块进一步包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块。

本发明具有的有益效果：

本发明将语音信号输入至前置网络单元进行傅里叶变换，输出第一幅度流信号和第一相位流信号；将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪，输出第二幅度流信号和第二相位流信号；所述注意力网络单元由多级极坐标注意力模块串联组成，每级极坐标注意力模块由幅度注意力、相位自调节、相位它调节三个模块组成；将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换，输出增强后的语音信号。本发明采用注意力网络单元，并且注意力网络单元基于可分离的设计思想，采用扩展的循环神经网络结构，因此感受野不再固定，建模更复杂的谐波相关性。本发明结构参数量比现有PHASEN下降两个数量级，计算量更小，而且在6项国际评测指标上全面超越包括PHASEN在内的上述现有模型，语音降噪效果更好。

本发明每级极坐标注意力模块步骤2.1：利用幅度注意力模块对输入的幅度流信号进行处理，将调节后的幅度流信号输入到相位它调节模块；步骤2.2：利用相位自调节模块对输入的相位流信号进行处理，将处理后得到的自调节相位流信号输入到相位它调节模块；步骤2.3：利用相位它调节模块基于所述调节后的幅度流信号对所述自调节相位流信号进行它调节，输出调节后的相位流信号；步骤2.4：输出所述调节后的幅度流信号和调节后的相位流信号。本发明相位自调节模块由一到多层二维卷积构成；相位它调节模块，包含一到多个幅度感知相位变换，每个幅度感知相位变换通过利用幅度流输出调整相位。本发明幅度注意力模块包括通道置换变换模块、时频可分离循环网模块、独立同分布卷积模块。步骤2.1包括如下步骤：步骤2.1.1：将输入的幅度流信号分别输入至第一通道置换变换模块和第一时频可分离循环网模块，得到第一置换变换信号和第一循环信号；步骤2.1.2：将第一置换变换信号输入至第二通道置换变换模块，输出第二置换变换信号；将第一置换变换信号、第一循环信号叠加后输入至所述第二时频可分离循环网模块，输出第二循环信号；步骤2.1.3：将第二置换变换信号、第二循环信号叠加后输入至独立同分布卷积模块，输出所述调节后的幅度流信号。本发明通过上述注意力网络单元的循环神经网络结构设计，进一步保证本发明达到更优的语音降噪效果。

附图说明

图1是本发明可分离循环注意力的语音增强方法流程框图；

图2是本发明前置网络单元流程框图；

图3是本发明后置网络单元流程框图；

图4是本发明注意力网络单元流程框图；

图5是本发明注意力网络单元的极坐标注意力模块流程框图；

图6是本发明注意力网络单元极坐标注意力模块的幅度注意力模块流程框图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

实施例一：

可分离循环注意力的语音增强方法

如图1所示，本发明可分离循环注意力的语音增强方法，包括前置网络单元、注意力网络单元、后置网络单元，包括如下步骤：

步骤2：将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪，输出第二幅度流信号和第二相位流信号；所述注意力网络单元包括串联的多级极坐标注意力模块，每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块，其中所述幅度注意力模块进一步包括两个时频可分离循环网模块和一个独立同分布卷积模块；或者包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块；本实施例中，包括两个通道置换变换模块。

如图2所示，前置网络单元包括短时傅里叶变换模块、幅度卷积模块和相位卷积模块，所述短时傅里叶变换模块用于将语音信号变换成短时傅里叶系数；所述幅度卷积模块用于对所述短时傅里叶变换模块输出的信号进行幅度卷积，输出第一幅度流信号；所述相位卷积模块用于对所述短时傅里叶变换模块输出的信号进行相位卷积，输出第一相位流信号。所述幅度卷积包含一个1×1卷积和一个GELU激活。所述相位卷积包含了一个n×n卷积，没有激活。注意这里不能用任意激活，否则性能下降显著。

如图3所示，包括幅度掩膜生成器、相位掩膜生成器、傅里叶系数生成器和逆短时傅里叶变换模块，所述幅度掩膜生成器用于将第二幅度流信号生成单通道幅度信号；所述相位掩膜生成器用于将第二相位流信号生成双通道相位信号；所述傅里叶系数生成器用于根据所述单通道幅度信号和双通道相位信号生成傅里叶系数；所述逆短时傅里叶变换模块用于根据所述生成的傅里叶系数，输出增强后的语音信号。所述幅度掩膜生成器，由多层二维卷积组成，最后一层卷积输出为1通道，每两个卷积层之间可选择性地***层归一化和GELU激活函数，最后一层卷积层后接Sigmoid激活函数。所述相位掩膜生成器由多层二维卷积组成，最后一层卷积输出为2通道，每两个卷积层之间没有层归一化也没有激活函数，最后一层卷积层后接幅度归一化，使得每一个时频点的2个通道幅度平方和为1(即只有相位信息，没有幅度信息)。

如图4所示，所述注意力网络单元由多级极坐标注意力模块串联组成。如图5所示，每级极坐标注意力模块由幅度注意力、相位自调节、相位它调节三个模块组成。每级极坐标注意力模块用于执行如下步骤：

所述相位自调节模块由一层或多层二维卷积构成；

P_o＝Conv(A_o)o P_i

如图6所示，幅度注意力模块包括通道置换变换模块、时频可分离循环网模块、独立同分布卷积模块，步骤2.1包括如下步骤：

步骤2.1.2：将第一置换变换信号输入至第二通道置换变换模块，输出第二置换变换信号；将第一置换变换信号、第一循环信号相乘(信号矩阵的点对点相乘)后输入至所述第二时频可分离循环网模块，输出第二循环信号；

步骤2.1.3：将第二置换变换信号、第二循环信号拼接(通道拼接)后输入至独立同分布卷积模块，输出所述调节后的幅度流信号。

通道置换变换可以采用恒等变换、重排序变换或卷积变换，或上述三种变换之间的组合。独立同分布卷积由分布归一化层、二维卷积层、GELU层构成。GELU层也可以由ReLU，PReLU，ELU，sigmoid，softplus等激活函数替代。

第一时频可分离循环网模块、第二时频可分离循环网模块可采用单用时间循环、单用频率循环、先时间循环再频率循环、先频率循环再时间循环或者时间和频率并行循环，且所述循环可采用前向循环、后向循环或双向循环。

单用时间循环通过如下公式实现，

前向单用时间循环：

后向单用时间循环：

双向单用时间循环：

其中，

表示通道维度数据拼接，Cell表示任意循环细胞结构，h_b,f,t表示第b个语音片段第f个频率第t个时间的隐藏状态，c_b,f,t表示第b个语音片段第f个频率第t个时间的细胞状态，x_b,f,t表示第b个语音片段第f个频率第t个时间的输入值；

单用频率循环通过如下公式实现，

前向单用频率循环：

后向单用频率循环：

双向单用频率循环：

先时间循环再频率循环通过如下公式实现，

前向先时间循环再频率循环：

后向先时间循环再频率循环：

双向先时间循环再频率循环：

先频率循环再时间循环通过如下公式实现，

前向先频率循环再时间循环：

后向先频率循环再时间循环：

双向先频率循环再时间循环：

时间频率并行循环通过如下公式实现，

前向并行循环：

后向并行循环：

双向并行循环：

实施例二：

可分离循环注意力的语音增强方法

包括如下步骤：

步骤3：基于所述第二幅度流信号，通过后置网络单元进行逆傅里叶变换，输出增强后的语音信号。

实施例二与实施例一的区别在于，仅对第一幅度流信号进行降噪，不对相位流信号进行降噪，降噪效果略弱于实施例一效果。其余工作原理同实施例一。

实施例三：

可分离循环注意力的语音增强装置

包括：

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种可分离循环注意力的语音增强方法，其特征在于，包括：

步骤2：将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪，输出第二幅度流信号和第二相位流信号；所述注意力网络单元包括串联的多级极坐标注意力模块，每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块，其中所述幅度注意力模块进一步包括两个时频可分离循环网模块和一个独立同分布卷积模块；或者包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块；

2.根据权利要求1所述的可分离循环注意力的语音增强方法，其特征在于：步骤2中，每级极坐标注意力模块用于执行如下步骤：

3.根据权利要求2所述的可分离循环注意力的语音增强方法，其特征在于：

所述相位自调节模块由一层或多层二维卷积构成；

P_o＝Conv(A_o)o P_i

4.根据权利要求2所述的可分离循环注意力的语音增强方法，其特征在于，幅度注意力模块包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块情况下，所述步骤2.1包括如下步骤：

5.根据权利要求1所述的可分离循环注意力的语音增强方法，其特征在于：

所述时频可分离循环网模块采用以下循环方式中的一种：单用时间循环、单用频率循环、先时间循环再频率循环、先频率循环再时间循环、时间和频率并行循环；

所述循环包括前向循环、后向循环、双向循环中的一种。

6.根据权利要求1所述的可分离循环注意力的语音增强方法，其特征在于：所述独立同分布卷积模块由分布归一化层、二维卷积层、GELU层构成。

7.根据权利要求1所述的可分离循环注意力的语音增强方法，其特征在于：所述前置网络单元包括短时傅里叶变换模块、幅度卷积模块和相位卷积模块，

8.根据权利要求1所述的可分离循环注意力的语音增强方法，其特征在于：所述后置网络单元包括幅度掩膜生成器、相位掩膜生成器、傅里叶系数生成器和逆短时傅里叶变换模块，

9.一种可分离循环注意力的语音增强方法，其特征在于，包括：

10.一种可分离循环注意力的语音增强装置，其特征在于，包括：