CN117877507A

CN117877507A - 语音信号增强方法、装置、电子设备和存储介质

Info

Publication number: CN117877507A
Application number: CN202410005673.XA
Authority: CN
Inventors: 韩润强; 赵昊然; 吕新亮; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2024-01-02
Filing date: 2024-01-02
Publication date: 2024-04-12

Abstract

本公开关于一种语音信号增强方法、装置、电子设备、存储介质和计算机程序产品。所述方法包括：获取语音信号集合、语音信号集合对应的参考信号和初始增强语音信号；将语音信号集合中每个语音信号的频谱信息、参考信号的频谱信息和初始增强语音信号的频谱信息，输入训练完成的第一语音增强模型，得到目标频谱信息；目标频谱信息的数量小于输入至第一语音增强模型的频谱信息的数量；将目标频谱信息中的目标幅度谱，输入训练完成的第二语音增强模型，得到语音掩蔽信息；根据语音掩蔽信息，对语音信号集合中目标语音信号的频谱信息进行变换处理，得到语音信号集合对应的目标增强语音信号。采用本方法，能够降低语音信号增强时的计算复杂度。

Description

语音信号增强方法、装置、电子设备和存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种语音信号增强方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

随着语音处理技术的发展，在会议室中，一般都是通过麦克风阵列采集语音信号。为了提高语音信号的质量，需要对语音信号进行增强处理。

相关技术中，目前的语音信号增强方法，主要是通过全深度学习网络对麦克风阵列采集的每个语音信号的频谱信息进行一系列处理，得到每个语音信号的复数掩蔽信息（比如复数掩蔽值），再结合每个语音信号的频谱信息，得到增强语音信号。但是，整个网络需要对每个语音信号的频谱信息都进行一系列处理，且输出每个语音信号的复数掩蔽信息，同时在得到最终的增强语音信号时，还需要结合每个语音信号的频谱信息，导致语音信号增强时的计算复杂度较高。

发明内容

本公开提供一种语音信号增强方法、装置、电子设备、存储介质和计算机程序产品，以至少解决相关技术中语音信号增强时的计算复杂度较高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音信号增强方法，包括：

获取语音信号集合、所述语音信号集合对应的参考信号和所述语音信号集合对应的初始增强语音信号；

将所述语音信号集合中每个语音信号的频谱信息、所述参考信号的频谱信息和所述初始增强语音信号的频谱信息，输入训练完成的第一语音增强模型，得到目标频谱信息；所述目标频谱信息的数量小于输入至所述第一语音增强模型的频谱信息的数量；

将所述目标频谱信息中的目标幅度谱，输入训练完成的第二语音增强模型，得到语音掩蔽信息；

根据所述语音掩蔽信息，对所述语音信号集合中目标语音信号的频谱信息进行变换处理，得到所述语音信号集合对应的目标增强语音信号。

在一示例性实施例中，所述将所述目标频谱信息中的目标幅度谱，输入训练完成的第二语音增强模型，得到语音掩蔽信息，包括：

将所述目标幅度谱输入训练完成的第二语音增强模型中进行第一特征提取处理，得到所述目标幅度谱的初始音频特征；

对所述初始音频特征进行第二特征提取处理，得到所述目标幅度谱的目标音频特征；

对所述目标音频特征进行分类处理，得到所述语音掩蔽信息。

在一示例性实施例中，所述训练完成的第二语音增强模型包括语音分支网络和干扰分支网络；

所述将所述目标幅度谱输入训练完成的第二语音增强模型中进行第一特征提取处理，得到所述目标幅度谱的初始音频特征，包括：

将所述目标幅度谱输入所述语音分支网络中进行特征提取处理，得到所述目标幅度谱的第一音频特征，以及将所述目标幅度谱输入所述干扰分支网络中进行特征提取处理，得到所述目标幅度谱的第二音频特征；

将所述第一音频特征和所述第二音频特征进行融合处理，得到第一融合音频特征；

将所述第一融合音频特征输入所述语音分支网络中进行特征提取处理，得到所述目标幅度谱的初始音频特征。

在一示例性实施例中，所述对所述初始音频特征进行第二特征提取处理，得到所述目标幅度谱的目标音频特征，包括：

将所述初始音频特征输入所述语音分支网络中进行特征提取处理，得到所述目标幅度谱的第三音频特征，以及将所述第一融合音频特征输入所述干扰分支网络中进行特征提取处理，得到所述目标幅度谱的第四音频特征；

将所述第三音频特征和所述第四音频特征进行融合处理，得到第二融合音频特征；

将所述第二融合音频特征输入所述语音分支网络中进行特征提取处理，得到所述目标幅度谱的目标音频特征。

在一示例性实施例中，所述根据所述语音掩蔽信息，对所述语音信号集合中目标语音信号的频谱信息进行变换处理，得到所述语音信号集合对应的目标增强语音信号，包括：

对所述语音信号集合中目标语音信号的频谱信息和所述语音掩蔽信息进行融合处理，得到所述目标语音信号的融合后频谱信息；

对所述融合后频谱信息进行变换处理，得到所述语音信号集合对应的目标增强语音信号。

在一示例性实施例中，所述初始增强语音信号通过下述方式得到：

将所述语音信号集合中每个语音信号和所述参考信号，输入训练完成的第三语音增强模型，得到所述初始增强语音信号；

所述目标频谱信息中的目标幅度谱通过下述方式得到：

提取出所述目标频谱信息中的初始幅度谱；

对所述初始幅度谱进行转换处理，得到所述目标幅度谱。

在一示例性实施例中，所述训练完成的第一语音增强模型和所述训练完成的第二语音增强模型通过下述方式训练得到：

获取样本语音信号集合、所述样本语音信号集合对应的样本参考信号和所述样本语音信号集合对应的样本初始增强语音信号；

将所述样本语音信号集合中每个样本语音信号的频谱信息、所述样本参考信号的频谱信息和所述样本初始增强语音信号的频谱信息，输入待训练的第一语音增强模型，得到样本目标频谱信息；

将所述样本目标频谱信息中的样本目标幅度谱，输入待训练的第二语音增强模型，得到预测语音掩蔽信息和预测干扰掩蔽信息；

根据所述预测语音掩蔽信息，对所述样本语音信号集合中样本目标语音信号的频谱信息进行变换处理，得到所述样本语音信号集合对应的预测增强语音信号，以及根据所述预测干扰掩蔽信息，对所述样本目标语音信号的频谱信息进行变换处理，得到所述样本语音信号集合对应的预测干扰语音信号；

根据所述预测增强语音信号和所述样本语音信号集合对应的干净语音信号之间的差异，以及所述预测干扰语音信号和所述样本语音信号集合对应的干扰语音信号之间的差异，对所述待训练的第一语音增强模型和所述待训练的第二语音增强模型进行联合训练，得到所述训练完成的第一语音增强模型和所述训练完成的第二语音增强模型。

根据本公开实施例的第二方面，提供一种语音信号增强装置，包括：

信号获取单元，被配置为执行获取语音信号集合、所述语音信号集合对应的参考信号和所述语音信号集合对应的初始增强语音信号；

第一增强单元，被配置为执行将所述语音信号集合中每个语音信号的频谱信息、所述参考信号的频谱信息和所述初始增强语音信号的频谱信息，输入训练完成的第一语音增强模型，得到目标频谱信息；所述目标频谱信息的数量小于输入至所述第一语音增强模型的频谱信息的数量；

第二增强单元，被配置为执行将所述目标频谱信息中的目标幅度谱，输入训练完成的第二语音增强模型，得到语音掩蔽信息；

变换处理单元，被配置为执行根据所述语音掩蔽信息，对所述语音信号集合中目标语音信号的频谱信息进行变换处理，得到所述语音信号集合对应的目标增强语音信号。

在一示例性实施例中，所述第二增强单元，还被配置为执行将所述目标幅度谱输入训练完成的第二语音增强模型中进行第一特征提取处理，得到所述目标幅度谱的初始音频特征；对所述初始音频特征进行第二特征提取处理，得到所述目标幅度谱的目标音频特征；对所述目标音频特征进行分类处理，得到所述语音掩蔽信息。

所述第二增强单元，还被配置为执行将所述目标幅度谱输入所述语音分支网络中进行特征提取处理，得到所述目标幅度谱的第一音频特征，以及将所述目标幅度谱输入所述干扰分支网络中进行特征提取处理，得到所述目标幅度谱的第二音频特征；将所述第一音频特征和所述第二音频特征进行融合处理，得到第一融合音频特征；将所述第一融合音频特征输入所述语音分支网络中进行特征提取处理，得到所述目标幅度谱的初始音频特征。

在一示例性实施例中，所述第二增强单元，还被配置为执行将所述初始音频特征输入所述语音分支网络中进行特征提取处理，得到所述目标幅度谱的第三音频特征，以及将所述第一融合音频特征输入所述干扰分支网络中进行特征提取处理，得到所述目标幅度谱的第四音频特征；将所述第三音频特征和所述第四音频特征进行融合处理，得到第二融合音频特征；将所述第二融合音频特征输入所述语音分支网络中进行特征提取处理，得到所述目标幅度谱的目标音频特征。

在一示例性实施例中，所述变换处理单元，还被配置为执行对所述语音信号集合中目标语音信号的频谱信息和所述语音掩蔽信息进行融合处理，得到所述目标语音信号的融合后频谱信息；对所述融合后频谱信息进行变换处理，得到所述语音信号集合对应的目标增强语音信号。

在一示例性实施例中，所述装置还包括初始增强单元，被配置为执行将所述语音信号集合中每个语音信号和所述参考信号，输入训练完成的第三语音增强模型，得到所述初始增强语音信号；

所述装置还包括转换处理单元，被配置为执行提取出所述目标频谱信息中的初始幅度谱；对所述初始幅度谱进行转换处理，得到所述目标幅度谱。

在一示例性实施例中，所述装置还包括模型训练单元，被配置为执行获取样本语音信号集合、所述样本语音信号集合对应的样本参考信号和所述样本语音信号集合对应的样本初始增强语音信号；将所述样本语音信号集合中每个样本语音信号的频谱信息、所述样本参考信号的频谱信息和所述样本初始增强语音信号的频谱信息，输入待训练的第一语音增强模型，得到样本目标频谱信息；将所述样本目标频谱信息中的样本目标幅度谱，输入待训练的第二语音增强模型，得到预测语音掩蔽信息和预测干扰掩蔽信息；根据所述预测语音掩蔽信息，对所述样本语音信号集合中样本目标语音信号的频谱信息进行变换处理，得到所述样本语音信号集合对应的预测增强语音信号，以及根据所述预测干扰掩蔽信息，对所述样本目标语音信号的频谱信息进行变换处理，得到所述样本语音信号集合对应的预测干扰语音信号；根据所述预测增强语音信号和所述样本语音信号集合对应的干净语音信号之间的差异，以及所述预测干扰语音信号和所述样本语音信号集合对应的干扰语音信号之间的差异，对所述待训练的第一语音增强模型和所述待训练的第二语音增强模型进行联合训练，得到所述训练完成的第一语音增强模型和所述训练完成的第二语音增强模型。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述任一项所述的语音信号增强方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述任一项所述的语音信号增强方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如上述任一项所述的语音信号增强方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

先获取语音信号集合、语音信号集合对应的参考信号和语音信号集合对应的初始增强语音信号，然后将语音信号集合中每个语音信号的频谱信息、参考信号的频谱信息和初始增强语音信号的频谱信息，输入训练完成的第一语音增强模型，得到目标频谱信息；目标频谱信息的数量小于输入至第一语音增强模型的频谱信息的数量；接着将目标频谱信息中的目标幅度谱，输入训练完成的第二语音增强模型，得到语音掩蔽信息；最后根据语音掩蔽信息，对语音信号集合中目标语音信号的频谱信息进行变换处理，得到语音信号集合对应的目标增强语音信号。这样，在进行语音信号增强时，先利用第一语音增强模型输出数量减少的目标频谱信息，再利用第二语音增强模型，对目标频谱信息中的目标幅度谱进行处理，得到语音掩蔽信息，即先输出数量较少的目标频谱信息，再对目标频谱信息中的目标幅度谱进行处理，而无需对每个语音信号的频谱信息都进行一系列处理，也无需输出每个语音信号的复数掩蔽信息，从而简化了语音信号增强过程，进而降低了语音信号增强时的计算复杂度。同时，在得到目标增强语音信号时，仅需要利用输出的语音掩蔽信息和语音信号集合中目标语音信号的频谱信息，而无需考虑每个语音信号的复数掩蔽信息和频谱信息，有利于进一步降低语音信号增强时的计算复杂度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音信号增强方法的流程图。

图2是根据一示例性实施例示出的麦克风阵列的框图。

图3是根据一示例性实施例示出的获取语音掩码和干扰掩码的流程图。

图4是根据一示例性实施例示出的得到语音掩蔽信息的步骤的流程图。

图5是根据一示例性实施例示出的第一语音增强模型和第二语音增强模型的训练步骤的流程图。

图6是根据一示例性实施例示出的另一种语音信号增强方法的流程图。

图7是根据一示例性实施例示出的一种语音信号增强装置的框图。

图8是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还需要说明的是，本公开所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于展示的数据、分析的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

图1是根据一示例性实施例示出的一种语音信号增强方法的流程图，如图1所示，该语音信号增强方法用于终端中；可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的***，并通过终端和服务器之间的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在本示例性实施例中，该方法包括以下步骤：

在步骤S110中，获取语音信号集合、语音信号集合对应的参考信号和语音信号集合对应的初始增强语音信号。

其中，语音信号集合中包括多个语音信号，具体包括多个近端麦克风信号，比如麦克风阵列中每个麦克风采集的麦克风信号。在会议室场景中，麦克风阵列一般摆放在会议室最前端，用于提升信噪比，其包括的麦克风数目大于或者等于2，比如图2所示的包括6个麦克风的线性麦克风阵列和环形麦克风阵列。

其中，参考信号是指远端参考信号，具体是指从远端接收的语音信号，比如远端麦克风信号。参考信号被近端扬声器播放出来，然后被近端麦克风采集形成回声信号。需要说明的是，参考信号也可以称为近端扬声器信号。

需要说明的是，在近端（也称为本端）和远端（也称为其他端）进行语音通信时，近端的麦克风可采集近端的语音信号，并将近端的语音信号发送至远端，通过远端的扬声器播放出来；同时，近端的扬声器也可以播放远端发送的语音信号，比如远端的麦克风所采集的远端的语音信号。

其中，初始增强语音信号是指消除线性回声的语音信号，具体是指将语音信号集合中每个语音信号和参考信号经过线性AEC（Acoustic Echo Cancellation，声学回声消除）处理后所得到的语音信号。

需要说明的是，语音信号集合对应的参考信号和语音信号集合对应的初始增强语音信号均为1个。假设语音信号集合中包括6个语音信号，说明获取的是8个通道的语音信号。

示例性地，终端响应于信号增强请求，得到待增强的语音信号集合和语音信号集合对应的参考信号，并对语音信号集合中每个语音信号和参考信号进行线性回声消除处理，得到消除线性回声的语音信号，作为语音信号集合对应的初始增强语音信号。

举例说明，参考图3，在会议室场景中，终端获取麦克风阵列采集的每个麦克风信号，以及这些麦克风信号对应的参考信号，然后将这些麦克风信号和该参考信号，输入线性声学回声消除模型中进行线性回声消除处理，得到消除线性回声的语音信号，作为这些麦克风信号对应的初始增强语音信号。

在步骤S120中，将语音信号集合中每个语音信号的频谱信息、参考信号的频谱信息和初始增强语音信号的频谱信息，输入训练完成的第一语音增强模型，得到目标频谱信息；目标频谱信息的数量小于输入至第一语音增强模型的频谱信息的数量。

其中，语音信号的频谱信息是指语音信号的复数谱，具体包括幅度谱和相位谱，可以通过对语音信号进行STFT（Short-Time Fourier Transform，短时傅里叶变换）处理得到。

其中，参考信号的频谱信息是指参考信号的复数谱，具体包括幅度谱和相位谱，可以通过对参考信号进行STFT处理得到。

其中，初始增强语音信号的频谱信息是指初始增强语音信号的复数谱，具体包括幅度谱和相位谱，可以通过对初始增强语音信号进行STFT处理得到。

其中，第一语音增强模型是指进行波束形成操作的网络模型，比如图3所示的复数CNN（Convolutional Neural Networks，卷积神经网络）。第一语音增强模型能够精准定位到语音源，从而避免了波束所指方向为噪声方向的问题，并生成指定数量的目标频谱信息；该指定数量小于输入至第一语音增强模型的频谱信息的数量，使得后续需要处理的频谱信息的数量降低了，有利于降低计算复杂度。比如，输入至第一语音增强模型的频谱信息的数量为8，输出的目标频谱信息的数量为4。在实际场景中，参考图3，复数卷积神经网络用于进行波束形成操作，并输出复数谱（即目标频谱信息）的通道数，可以看成波束指向的数目，比如4个通道。

其中，目标频谱信息是指通过第一语音增强模型重新生成的增强后频谱信息，比如目标复数谱。目标频谱信息的数量可以称为目标频谱信息的通道数，比如目标频谱信息的数量为4，说明目标频谱信息的通道数为4。

示例性地，终端分别对语音信号集合中每个语音信号、参考信号和初始增强语音信号进行STFT处理，得到语音信号集合中每个语音信号的频谱信息、参考信号的频谱信息和初始增强语音信号的频谱信息；然后将语音信号集合中每个语音信号的频谱信息、参考信号的频谱信息和初始增强语音信号的频谱信息，输入至训练完成的第一语音增强模型中进行波束形成操作，得到增强后频谱信息，作为目标频谱信息。

举例说明，参考图3，终端分别对麦克风阵列采集的每个麦克风信号、参考信号和消除线性回声的语音信号进行短时傅里叶变换处理，得到每个麦克风信号的频谱信息、参考信号的频谱信息和消除线性回声的语音信号的频谱信息；然后将每个麦克风信号的频谱信息、参考信号的频谱信息和消除线性回声的语音信号的频谱信息，输入至复数卷积神经网络中进行波束形成操作，得到目标频谱信息。

在步骤S130中，将目标频谱信息中的目标幅度谱，输入训练完成的第二语音增强模型，得到语音掩蔽信息。

其中，语音掩蔽信息是指能够实现干净语音提取功能的语音掩蔽矩阵，具体用于提取出语音信号中的干净语音信号，可以通过语音掩码表示。

其中，目标幅度谱是指对目标频谱信息中的初始幅度谱（即原始幅度谱）进行取对数操作之后所得到的幅度谱，具体是指对数幅度谱。通过将初始幅度谱转换成目标幅度谱，可以方便后续第二语音增强模型的处理。

其中，第二语音增强模型是指实现降噪与回声消除的网络模型，比如图3所示的基于实数的降噪与回声消除融合网络，可以通过神经网络或者深度学习网络实现。第二语音增强模型具体用于输出语音掩蔽信息和干扰掩蔽信息。干扰掩蔽信息是指能够实现干扰信号（比如噪声信号和回声信号）提取功能的干扰掩蔽矩阵，具体用于提取出语音信号中的干扰信号，可以通过干扰掩码表示。

需要说明的是，以往进行语音增强时，都是对频谱信息进行处理，且输出多个语音信号的复数掩蔽信息；而本公开的第二语音增强模型是对目标频谱信息中的目标幅度谱进行处理，且只输出一个语音掩蔽信息，有利于降低计算复杂度。

示例性地，终端将目标频谱信息中的原始幅度谱进行转换，得到目标幅度谱，然后将目标幅度谱输入至训练完成的第二语音增强模型中进行一系列处理，得到语音掩蔽信息。

举例说明，参考图3，终端对复数卷积神经网络输出的目标频谱信息中的原始幅度谱进行取对数操作，得到对数幅度谱，并将对数幅度谱输入至降噪与回声消除融合网络，得到语音掩码。

在步骤S140中，根据语音掩蔽信息，对语音信号集合中目标语音信号的频谱信息进行变换处理，得到语音信号集合对应的目标增强语音信号。

其中，目标语音信号是指语音信号集合中语音效果最高的语音信号，具体是指语音信号集合中的中间语音信号。比如，针对线性麦克风阵列，目标语音信号是指中间麦克风采集的语音信号，假设线性麦克风阵列中包括6个麦克风，目标语音信号是指第3个或者第4个麦克风采集的语音信号；假设线性麦克风阵列中包括7个麦克风，目标语音信号是指第4个麦克风采集的语音信号。针对环形麦克风阵列，目标语音信号是指任意一个麦克风采集的语音信号。

其中，变换处理是指ISTFT（Inverse Short-Time Fourier Transform，短时傅里叶逆变换）处理。

其中，目标增强语音信号是指最终得到的增强语音信号，具体是指将语音掩蔽信息与语音信号集合中目标语音信号的频谱信息进行相乘，再经过ISTFT处理后所得到的语音信号。

示例性地，终端从语音信号集合中每个语音信号的频谱信息中，确定出目标语音信号的频谱信息，并将语音掩蔽信息与目标语音信号的频谱信息进行相乘，得到处理后频谱信息；最后将处理后频谱信息进行ISTFT处理，得到语音信号集合对应的目标增强语音信号。

举例说明，参考图3，终端将降噪与回声消除融合网络输出的语音掩码，与麦克风信号中的中间麦克风信号的频谱信息进行相乘，并进行ISTFT处理，得到目标增强麦克风信号。

上述语音信号增强方法中，先获取语音信号集合、语音信号集合对应的参考信号和语音信号集合对应的初始增强语音信号，然后将语音信号集合中每个语音信号的频谱信息、参考信号的频谱信息和初始增强语音信号的频谱信息，输入训练完成的第一语音增强模型，得到目标频谱信息；目标频谱信息的数量小于输入至第一语音增强模型的频谱信息的数量；接着将目标频谱信息中的目标幅度谱，输入训练完成的第二语音增强模型，得到语音掩蔽信息；最后根据语音掩蔽信息，对语音信号集合中目标语音信号的频谱信息进行变换处理，得到语音信号集合对应的目标增强语音信号。这样，在进行语音信号增强时，先利用第一语音增强模型输出数量减少的目标频谱信息，再利用第二语音增强模型，对目标频谱信息中的目标幅度谱进行处理，得到语音掩蔽信息，即先输出数量较少的目标频谱信息，再对目标频谱信息中的目标幅度谱进行处理，而无需对每个语音信号的频谱信息都进行一系列处理，也无需输出每个语音信号的复数掩蔽信息，从而简化了语音信号增强过程，进而降低了语音信号增强时的计算复杂度。同时，在得到目标增强语音信号时，仅需要利用输出的语音掩蔽信息和语音信号集合中目标语音信号的频谱信息，而无需考虑每个语音信号的复数掩蔽信息和频谱信息，有利于进一步降低语音信号增强时的计算复杂度。

在一示例性实施例中，如图4所示，在步骤S130中，将目标频谱信息中的目标幅度谱，输入训练完成的第二语音增强模型，得到语音掩蔽信息，具体可以通过以下步骤实现：

在步骤S410中，将目标幅度谱输入训练完成的第二语音增强模型中进行第一特征提取处理，得到目标幅度谱的初始音频特征。

在步骤S420中，对初始音频特征进行第二特征提取处理，得到目标幅度谱的目标音频特征。

在步骤S430中，对目标音频特征进行分类处理，得到语音掩蔽信息。

其中，初始音频特征是指对目标幅度谱进行卷积处理后所得到的浅层音频特征，比如图3中的第四卷积层的输出结果。第一特征提取处理用于得到目标幅度谱的初始音频特征。

其中，目标音频特征是指对初始音频特征进行不断优化后所得到的深层音频特征，比如图3中的第三门控循环单元（GRU，Gate Recurrent Unit）的输出结果；当然，目标音频特征除了包括图3中的第三门控循环单元的输出结果，还可以包括图3中的第一门控循环单元的输出结果和第二门控循环单元的输出结果。第二特征提取处理用于得到目标幅度谱的目标音频特征。

其中，分类处理用于分类出语音掩蔽信息，即分类处理的处理结果为语音掩蔽信息。比如，参考图3，通过第一全连接层（FC，Full Connection）和激活函数（比如Sigmoid函数），可以输出语音掩码。

示例性地，终端将目标幅度谱输入训练完成的第二语音增强模型中，通过第二语音增强模型对目标幅度谱进行第一特征提取处理，得到目标幅度谱的初始音频特征；然后对目标幅度谱的初始音频特征进行第二特征提取处理，得到目标幅度谱的目标音频特征；最后对目标音频特征进行分类处理和激活处理，得到语音掩蔽信息。其中，激活处理主要是为了起到归一化的作用。

举例说明，参考图3，终端将对数幅度谱输入降噪与回声消除融合网络，通过降噪与回声消除融合网络中的卷积层，对对数幅度谱进行卷积处理，得到第四卷积层输出的音频特征，作为对数幅度谱的初始音频特征；然后通过降噪与回声消除融合网络中的门控循环单元，对对数幅度谱的初始音频特征进行特征优化处理，得到第一门控循环单元输出的音频特征、第二门控循环单元输出的音频特征和第三门控循环单元输出的音频特征，将第一门控循环单元输出的音频特征、第二门控循环单元输出的音频特征和第三门控循环单元输出的音频特征进行拼接处理，得到拼接音频特征，作为对数幅度谱的目标音频特征；最后通过降噪与回声消除融合网络中的第一全连接层和激活函数，对对数幅度谱的目标音频特征进行分类处理和激活处理，得到语音掩码。

本公开实施例提供的技术方案，只将目标频谱信息中的目标幅度谱输入训练完成的第二语音增强模型中进行特征提取处理，而无需将每个语音信号的频谱信息都输入到模型中；而且，最终只输出一个语音掩蔽信息，而无需输出每个语音信号的复数掩蔽信息，有利于大幅度降低语音信号增强时的计算量，从而降低了语音信号增强时的计算复杂度。

在一示例性实施例中，训练完成的第二语音增强模型包括语音分支网络和干扰分支网络；在步骤S410中，将目标幅度谱输入训练完成的第二语音增强模型中进行第一特征提取处理，得到目标幅度谱的初始音频特征，具体可以通过以下内容实现：将目标幅度谱输入语音分支网络中进行特征提取处理，得到目标幅度谱的第一音频特征，以及将目标幅度谱输入干扰分支网络中进行特征提取处理，得到目标幅度谱的第二音频特征；将第一音频特征和第二音频特征进行融合处理，得到第一融合音频特征；将第一融合音频特征输入语音分支网络中进行特征提取处理，得到目标幅度谱的初始音频特征。

其中，语音分支网络主要用于得到语音掩蔽信息（即语音掩码），其具体包括卷积层、门控循环单元、全连接层和激活函数，且卷积层和门控循环单元的数量可以为多个。比如，参考图3，语音分支网络中包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第一门控循环单元、第二门控循环单元、第三门控循环单元、第一全连接层和激活函数。

其中，干扰分支网络主要用于得到干扰掩蔽信息（即干扰掩码），其具体包括卷积层、门控循环单元、全连接层和激活函数，且卷积层和门控循环单元的数量可以为多个。比如，参考图3，干扰分支网络中包括第五卷积层、第六卷积层、第七卷积层、第八卷积层、第四门控循环单元、第五门控循环单元、第六门控循环单元、第二全连接层和激活函数。

需要说明的是，语音分支网络和干扰分支网络的结构对称。

其中，目标幅度谱的第一音频特征是指图3中的第三卷积层输出的音频特征，目标幅度谱的第二音频特征是指图3中的第七卷积层输出的音频特征。

其中，第一融合音频特征是对第一音频特征和第二音频特征进行融合处理（比如拼接处理）后所得到的音频特征，比如拼接音频特征。

举例说明，参考图3，终端将对数幅度谱输入语音分支网络中，通过第一卷积层、第二卷积层和第三卷积层，对对数幅度谱进行多次卷积处理，得到第三卷积层输出的音频特征，作为对数幅度谱的第一音频特征。同时，终端将对数幅度谱输入干扰分支网络中，通过第五卷积层、第六卷积层和第七卷积层，对对数幅度谱进行多次卷积处理，得到第七卷积层输出的音频特征，作为对数幅度谱的第二音频特征。接着，终端将第一音频特征和第二音频特征进行拼接处理，得到拼接音频特征，作为第一融合音频特征；将第一融合音频特征输入第四卷积层中，通过第四卷积层对第一融合音频特征进行卷积处理，得到第四卷积层输出的音频特征，作为对数幅度谱的初始音频特征。

本公开实施例提供的技术方案，在得到目标幅度谱的初始音频特征时，综合考虑了语音分支网络输出的目标幅度谱的第一音频特征，以及干扰分支网络输出的目标幅度谱的第二音频特征，有利于提高初始音频特征的确定准确率，使得后续得到的语音掩蔽信息更加准确，有利于提升降噪和回声消除质量，进而提高了语音增强效果。

在一示例性实施例中，在步骤S420中，对初始音频特征进行第二特征提取处理，得到目标幅度谱的目标音频特征，具体可以通过以下内容实现：将初始音频特征输入语音分支网络中进行特征提取处理，得到目标幅度谱的第三音频特征，以及将第一融合音频特征输入干扰分支网络中进行特征提取处理，得到目标幅度谱的第四音频特征；将第三音频特征和第四音频特征进行融合处理，得到第二融合音频特征；将第二融合音频特征输入语音分支网络中进行特征提取处理，得到目标幅度谱的目标音频特征。

其中，目标幅度谱的第三音频特征是指图3中的第二门控循环单元输出的音频特征，目标幅度谱的第四音频特征是指图3中的第五门控循环单元输出的音频特征。

其中，第二融合音频特征是对第三音频特征和第四音频特征进行融合处理（比如拼接处理）后所得到的音频特征，比如拼接音频特征。

举例说明，参考图3，终端将初始音频特征输入语音分支网络中，通过第一门控循环单元和第二门控循环单元，对对数幅度谱的初始音频特征进行特征优化处理，得到第二门控循环单元输出的音频特征，作为对数幅度谱的第三音频特征。同时，终端将初始音频特征输入干扰分支网络中，通过第八卷积层、第四门控循环单元和第五门控循环单元，对第一融合音频特征进行卷积处理和特征优化处理，得到第五门控循环单元输出的音频特征，作为对数幅度谱的第四音频特征。接着，终端将第三音频特征和第四音频特征进行拼接处理，得到拼接音频特征，作为第二融合音频特征；将第二融合音频特征输入第三门控循环单元中，通过第三门控循环单元对第二融合音频特征进行特征优化处理，得到第三门控循环单元输出的音频特征。最后，终端将第一门控循环单元输出的音频特征、第二门控循环单元输出的音频特征和第三门控循环单元输出的音频特征进行拼接处理，得到拼接音频特征，作为对数幅度谱的目标音频特征。

本公开实施例提供的技术方案，在得到目标幅度谱的目标音频特征时，综合考虑了语音分支网络输出的目标幅度谱的第三音频特征，以及干扰分支网络输出的目标幅度谱的第四音频特征，有利于提高目标音频特征的确定准确率，使得后续得到的语音掩蔽信息更加准确，有利于进一步提升降噪和回声消除质量，从而进一步提高了语音增强效果。

在一示例性实施例中，在步骤S140中，根据语音掩蔽信息，对语音信号集合中目标语音信号的频谱信息进行变换处理，得到语音信号集合对应的目标增强语音信号，具体可以通过以下内容实现：对语音信号集合中目标语音信号的频谱信息和语音掩蔽信息进行融合处理，得到目标语音信号的融合后频谱信息；对融合后频谱信息进行变换处理，得到语音信号集合对应的目标增强语音信号。

其中，融合处理是指相乘。目标语音信号的融合后频谱信息是指目标语音信号的相乘后频谱信息。变换处理是指ISTFT处理。

示例性地，终端将语音信号集合中目标语音信号的频谱信息和语音掩蔽信息进行相乘，得到目标语音信号的相乘后频谱信息；将目标语音信号的相乘后频谱信息进行ISTFT处理，得到语音信号集合对应的目标增强语音信号。

本公开实施例提供的技术方案，在得到目标增强语音信号时，只考虑了语音信号集合中目标语音信号的频谱信息和输出的语音掩蔽信息，而无需考虑每个语音信号的复数掩蔽信息和频谱信息，有利于进一步降低语音信号增强时的计算复杂度。同时，利用语音信号集合中语音效果最高的目标语音信号，以及模型输出的语音掩蔽信息，有利于进一步提高语音增强效果。

在一示例性实施例中，初始增强语音信号通过下述方式得到：将语音信号集合中每个语音信号和参考信号，输入训练完成的第三语音增强模型，得到初始增强语音信号。

其中，第三语音增强模型是指用于进行线性回声消除的网络模型，比如线性AEC模型，可以通过卷积神经网络或者深度学习网络实现。

示例性地，终端将语音信号集合中每个语音信号和参考信号，输入训练完成的第三语音增强模型中进行线性回声消除处理，得到消除线性回声的语音信号，作为初始增强语音信号。

举例说明，参考图3，终端将每个麦克风信号和参考信号，输入线性AEC模型中，得到消除线性回声的语音信号。

进一步地，目标频谱信息中的目标幅度谱通过下述方式得到：提取出目标频谱信息中的初始幅度谱；对初始幅度谱进行转换处理，得到目标幅度谱。

其中，转换处理是指取对数处理。

示例性地，终端提取出目标频谱信息的实部，即目标频谱信息中的原始幅度谱，作为初始幅度谱，对初始幅度谱进行取对数操作，得到目标幅度谱，即目标幅度谱=log（初始幅度谱）。

本公开实施例提供的技术方案，将语音信号集合中每个语音信号和参考信号，输入训练完成的第三语音增强模型，得到初始增强语音信号；这样，先对语音信号进行初始增强处理，有利于实现对语音信号的多次增强处理，能够进一步提高语音增强效果。另外，先提取目标频谱信息中的初始幅度谱，再将其转换成目标幅度谱，使得后续模型只需要对目标幅度谱进行处理即可，从而降低了后续模型的计算量，进一步降低了语音信号增强时的计算复杂度。

在一示例性实施例中，如图5所示，本公开提供的语音信号增强方法还包括第一语音增强模型和第二语音增强模型的训练步骤，具体可以通过以下步骤实现：

在步骤S510中，获取样本语音信号集合、样本语音信号集合对应的样本参考信号和样本语音信号集合对应的样本初始增强语音信号。

在步骤S520中，将样本语音信号集合中每个样本语音信号的频谱信息、样本参考信号的频谱信息和样本初始增强语音信号的频谱信息，输入待训练的第一语音增强模型，得到样本目标频谱信息。

在步骤S530中，将样本目标频谱信息中的样本目标幅度谱，输入待训练的第二语音增强模型，得到预测语音掩蔽信息和预测干扰掩蔽信息。

在步骤S540中，根据预测语音掩蔽信息，对样本语音信号集合中样本目标语音信号的频谱信息进行变换处理，得到样本语音信号集合对应的预测增强语音信号，以及根据预测干扰掩蔽信息，对样本目标语音信号的频谱信息进行变换处理，得到样本语音信号集合对应的预测干扰语音信号。

在步骤S550中，根据预测增强语音信号和样本语音信号集合对应的干净语音信号之间的差异，以及预测干扰语音信号和样本语音信号集合对应的干扰语音信号之间的差异，对待训练的第一语音增强模型和待训练的第二语音增强模型进行联合训练，得到训练完成的第一语音增强模型和训练完成的第二语音增强模型。

其中，样本语音信号集合是指参与训练的语音信号集合。样本参考信号是指参与训练的语音信号集合对应的参考信号。

其中，待训练的第一语音增强模型是指待训练的复数卷积神经网络；待训练的第二语音增强模型是指待训练的降噪与回声消除融合网络。

其中，预测语音掩蔽信息是指预测出的语音掩码；预测干扰掩蔽信息是指预测出的干扰掩码。

其中，干扰语音信号是指噪声信号和回声信号。

示例性地，终端从本地数据库中，获取样本语音信号集合和样本语音信号集合对应的样本参考信号；对样本语音信号集合中每个样本语音信号和样本参考信号，进行线性回声消除处理，得到消除线性回声的语音信号，作为样本语音信号集合对应的样本初始增强语音信号。接着，终端对样本语音信号集合中每个样本语音信号、样本参考信号和样本初始增强语音信号进行STFT处理，得到样本语音信号集合中每个样本语音信号的频谱信息、样本参考信号的频谱信息和样本初始增强语音信号的频谱信息，并将样本语音信号集合中每个样本语音信号的频谱信息、样本参考信号的频谱信息和样本初始增强语音信号的频谱信息，输入待训练的第一语音增强模型，得到样本目标频谱信息。接着，终端提取样本目标频谱信息中的原始幅度谱，并对该原始幅度谱进行取对数操作，得到样本目标幅度谱，将样本目标幅度谱，输入待训练的第二语音增强模型，得到预测语音掩蔽信息和预测干扰掩蔽信息。然后，终端将样本语音信号集合中样本目标语音信号的频谱信息和预测语音掩蔽信息进行相乘，得到第一相乘结果，并对第一相乘结果进行ISTFT处理，得到样本语音信号集合对应的预测增强语音信号；同时，终端将样本目标语音信号的频谱信息和预测干扰掩蔽信息进行相乘，得到第二相乘结果，并对第二相乘结果进行ISTFT处理，得到样本语音信号集合对应的预测干扰语音信号。最后，终端根据预测增强语音信号和样本语音信号集合对应的干净语音信号之间的差异，得到第一损失值；根据预测干扰语音信号和样本语音信号集合对应的干扰语音信号之间的差异，得到第二损失值；将第一损失值和第二损失值进行融合处理（比如加权求和），得到目标损失值；根据目标损失值，对待训练的第一语音增强模型和待训练的第二语音增强模型进行联合训练，直到达到训练结束条件，比如达到预设训练次数、目标损失值小于预设阈值等；将达到训练结束条件的训练后的第一语音增强模型和训练后的第二语音增强模型，对应作为训练完成的第一语音增强模型和训练完成的第二语音增强模型。

进一步地，在目标损失值大于或者等于预设阈值的情况下，终端根据目标损失值，调整待训练的第一语音增强模型和待训练的第二语音增强模型的模型参数，并对模型参数调整后的第一语音增强模型和模型参数调整后的第二语音增强模型进行再次训练，直到根据训练后的第一语音增强模型和训练后的第二语音增强模型得到的目标损失值小于预设阈值，则将该训练后的第一语音增强模型作为训练完成的第一语音增强模型，以及将该训练后的第二语音增强模型作为训练完成的第二语音增强模型。

本公开实施例提供的技术方案，利用样本语音信号集合、样本语音信号集合对应的样本参考信号和样本语音信号集合对应的样本初始增强语音信号，对待训练的第一语音增强模型和待训练的第二语音增强模型进行反复训练，有利于提高通过训练完成的第一语音增强模型和第二语音增强模型输出的语音掩蔽信息的准确率，进一步提高了语音掩蔽信息的确定准确率；同时使得后续基于语音掩蔽信息得到的目标增强语音信号的语音质量更高，进一步提高了语音增强效果。

图6是根据一示例性实施例示出的另一种语音信号增强方法的流程图，如图6所示，该语音信号增强方法用于终端中，包括以下步骤：

在步骤S610中，获取语音信号集合和语音信号集合对应的参考信号。

在步骤S620中，将语音信号集合中每个语音信号和参考信号，输入训练完成的第三语音增强模型，得到语音信号集合对应的初始增强语音信号。

在步骤S630中，将语音信号集合中每个语音信号的频谱信息、参考信号的频谱信息和初始增强语音信号的频谱信息，输入训练完成的第一语音增强模型，得到目标频谱信息；目标频谱信息的数量小于输入至第一语音增强模型的频谱信息的数量。

在步骤S640中，提取出目标频谱信息中的初始幅度谱；对初始幅度谱进行转换处理，得到目标幅度谱。

在步骤S650中，将目标幅度谱输入训练完成的第二语音增强模型中进行第一特征提取处理，得到目标幅度谱的初始音频特征；对初始音频特征进行第二特征提取处理，得到目标幅度谱的目标音频特征。

在步骤S660中，对目标音频特征进行分类处理，得到语音掩蔽信息。

在步骤S670中，对语音信号集合中目标语音信号的频谱信息和语音掩蔽信息进行融合处理，得到目标语音信号的融合后频谱信息。

在步骤S680中，对融合后频谱信息进行变换处理，得到语音信号集合对应的目标增强语音信号。

上述语音信号增强方法中，在进行语音信号增强时，先利用第一语音增强模型输出数量减少的目标频谱信息，再利用第二语音增强模型，对目标频谱信息中的目标幅度谱进行处理，得到语音掩蔽信息，即先输出数量较少的目标频谱信息，再对目标频谱信息中的目标幅度谱进行处理，而无需对每个语音信号的频谱信息都进行一系列处理，也无需输出每个语音信号的复数掩蔽信息，从而简化了语音信号增强过程，进而降低了语音信号增强时的计算复杂度。同时，在得到目标增强语音信号时，仅需要利用输出的语音掩蔽信息和语音信号集合中目标语音信号的频谱信息，而无需考虑每个语音信号的复数掩蔽信息和频谱信息，有利于进一步降低语音信号增强时的计算复杂度。

为了更清晰阐明本公开实施例提供的语音信号增强方法，以下以一个具体的实施例对该语音信号增强方法进行具体说明。在一示例性实施例中，如图3所示，本公开还提供了一种低计算复杂度的多麦克风降噪和回声消除融合方法，采用复数卷积层做前端波束处理，后面串接基于实数的降噪与回声消除融合网络，最终得到低复杂度的基于深度学习的阵列算法；即以最小计算量，结合多麦克风和深度学习算法，在网络输入层直接输入多麦克风的复数谱，让网络在前面部分做波束形成，再结合噪声、回声和语音信号的差异，让网络最终直接输出中心麦克风的掩蔽值，达到更好地消除噪声和回声的效果。具体包括如下内容：

参考图3，在会议室场景中，终端获取麦克风阵列采集的每个麦克风信号，以及这些麦克风信号对应的参考信号；将每个麦克风信号和参考信号输入线性AEC模型中进行线性回声消除处理，得到消除线性回声的麦克风信号；分别对每个麦克风信号、参考信号和消除线性回声的麦克风信号进行STFT处理，得到每个麦克风信号的频谱信息、参考信号的频谱信息和消除线性回声的麦克风信号的频谱信息；将每个麦克风信号的频谱信息、参考信号的频谱信息和消除线性回声的麦克风信号的频谱信息，输入复数卷积神经网络中，让复数卷积神经网络来做波束形成的操作，输出频谱信息的通道数，即波束指向的数目。对复数卷积神经网络输出的目标频谱信息中的原始幅度谱进行取对数操作，得到对数幅度谱，然后将对数幅度谱输入具有双分支的CNN模块和GRU模块的降噪与回声消除融合网络中。CNN左右分支各有4层，GRU左右分支各有3层，左边定义为语音分支，三个GRU的输出合并起来进入第一全连接层；右边定义为干扰分支（包含回声和噪声），最后一个GRU的输出进入第二全连接层。再经过激活函数层，最终分别得到语音掩码和干扰掩码。

上述低计算复杂度的多麦克风降噪和回声消除融合方法，在利用多通道信号的同时，并没有大幅提升计算复杂度，反而降低了计算复杂度；而且，在会议场景中，能够有效提升回声和噪声的消除质量，从而有效提升了会议体验。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

基于同样的发明构思，本公开实施例还提供了一种用于实现上述所涉及的语音信号增强方法的语音信号增强装置。

图7是根据一示例性实施例示出的一种语音信号增强装置的框图。参照图7，该装置包括信号获取单元710，第一增强单元720，第二增强单元730和变换处理单元740。

信号获取单元710，被配置为执行获取语音信号集合、语音信号集合对应的参考信号和语音信号集合对应的初始增强语音信号。

第一增强单元720，被配置为执行将语音信号集合中每个语音信号的频谱信息、参考信号的频谱信息和初始增强语音信号的频谱信息，输入训练完成的第一语音增强模型，得到目标频谱信息；目标频谱信息的数量小于输入至第一语音增强模型的频谱信息的数量。

第二增强单元730，被配置为执行将目标频谱信息中的目标幅度谱，输入训练完成的第二语音增强模型，得到语音掩蔽信息。

变换处理单元740，被配置为执行根据语音掩蔽信息，对语音信号集合中目标语音信号的频谱信息进行变换处理，得到语音信号集合对应的目标增强语音信号。

在一示例性实施例中，第二增强单元730，还被配置为执行将目标幅度谱输入训练完成的第二语音增强模型中进行第一特征提取处理，得到目标幅度谱的初始音频特征；对初始音频特征进行第二特征提取处理，得到目标幅度谱的目标音频特征；对目标音频特征进行分类处理，得到语音掩蔽信息。

在一示例性实施例中，训练完成的第二语音增强模型包括语音分支网络和干扰分支网络；

第二增强单元730，还被配置为执行将目标幅度谱输入语音分支网络中进行特征提取处理，得到目标幅度谱的第一音频特征，以及将目标幅度谱输入干扰分支网络中进行特征提取处理，得到目标幅度谱的第二音频特征；将第一音频特征和第二音频特征进行融合处理，得到第一融合音频特征；将第一融合音频特征输入语音分支网络中进行特征提取处理，得到目标幅度谱的初始音频特征。

在一示例性实施例中，第二增强单元730，还被配置为执行将初始音频特征输入语音分支网络中进行特征提取处理，得到目标幅度谱的第三音频特征，以及将第一融合音频特征输入干扰分支网络中进行特征提取处理，得到目标幅度谱的第四音频特征；将第三音频特征和第四音频特征进行融合处理，得到第二融合音频特征；将第二融合音频特征输入语音分支网络中进行特征提取处理，得到目标幅度谱的目标音频特征。

在一示例性实施例中，变换处理单元740，还被配置为执行对语音信号集合中目标语音信号的频谱信息和语音掩蔽信息进行融合处理，得到目标语音信号的融合后频谱信息；对融合后频谱信息进行变换处理，得到语音信号集合对应的目标增强语音信号。

在一示例性实施例中，语音信号增强装置还包括初始增强单元，被配置为执行将语音信号集合中每个语音信号和参考信号，输入训练完成的第三语音增强模型，得到初始增强语音信号；

语音信号增强装置还包括转换处理单元，被配置为执行提取出目标频谱信息中的初始幅度谱；对初始幅度谱进行转换处理，得到目标幅度谱。

在一示例性实施例中，语音信号增强装置还包括模型训练单元，被配置为执行获取样本语音信号集合、样本语音信号集合对应的样本参考信号和样本语音信号集合对应的样本初始增强语音信号；将样本语音信号集合中每个样本语音信号的频谱信息、样本参考信号的频谱信息和样本初始增强语音信号的频谱信息，输入待训练的第一语音增强模型，得到样本目标频谱信息；将样本目标频谱信息中的样本目标幅度谱，输入待训练的第二语音增强模型，得到预测语音掩蔽信息和预测干扰掩蔽信息；根据预测语音掩蔽信息，对样本语音信号集合中样本目标语音信号的频谱信息进行变换处理，得到样本语音信号集合对应的预测增强语音信号，以及根据预测干扰掩蔽信息，对样本目标语音信号的频谱信息进行变换处理，得到样本语音信号集合对应的预测干扰语音信号；根据预测增强语音信号和样本语音信号集合对应的干净语音信号之间的差异，以及预测干扰语音信号和样本语音信号集合对应的干扰语音信号之间的差异，对待训练的第一语音增强模型和待训练的第二语音增强模型进行联合训练，得到训练完成的第一语音增强模型和训练完成的第二语音增强模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

上述语音信号增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图8是根据一示例性实施例示出的一种用于实现语音信号增强方法的电子设备800的框图。例如，电子设备800可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图8，电子设备800可以包括以下一个或多个组件：处理组件802、存储器804、电源组件806、多媒体组件808、音频组件810、输入/输出（I/O）的接口812、传感器组件814以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM）、电可擦除可编程只读存储器（EEPROM）、可擦除可编程只读存储器（EPROM）、可编程只读存储器（PROM）、只读存储器（ROM）、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括麦克风（MIC），当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络（如2G、3G、4G或5G），或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备800的处理器820执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音信号增强方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标频谱信息中的目标幅度谱，输入训练完成的第二语音增强模型，得到语音掩蔽信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述训练完成的第二语音增强模型包括语音分支网络和干扰分支网络；

4.根据权利要求3所述的方法，其特征在于，所述对所述初始音频特征进行第二特征提取处理，得到所述目标幅度谱的目标音频特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述语音掩蔽信息，对所述语音信号集合中目标语音信号的频谱信息进行变换处理，得到所述语音信号集合对应的目标增强语音信号，包括：

6.根据权利要求1所述的方法，其特征在于，所述初始增强语音信号通过下述方式得到：

所述目标频谱信息中的目标幅度谱通过下述方式得到：

提取出所述目标频谱信息中的初始幅度谱；

对所述初始幅度谱进行转换处理，得到所述目标幅度谱。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述训练完成的第一语音增强模型和所述训练完成的第二语音增强模型通过下述方式训练得到：

8.一种语音信号增强装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的语音信号增强方法。

10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的语音信号增强方法。