CN112309426B

CN112309426B - 语音处理模型训练方法及装置和语音处理方法及装置

Info

Publication number: CN112309426B
Application number: CN202011330109.3A
Authority: CN
Inventors: 郑羲光; 李楠; 任新蕾; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2024-07-12
Anticipated expiration: 2040-11-24
Also published as: CN112309426A

Abstract

本公开提供了一种语音处理模型的训练方法及其装置和语音处理方法及其装置。所述训练方法包括：基于语音信号、噪声信号和所述特定信号中的至少一个生成混合信号和目标信号；将所述混合信号输入语音处理模型，以获得估计数据；基于所述目标信号和所述估计数据来确定损失函数；基于所述损失函数对语音处理模型进行训练，以调整语音处理模型的参数。

Description

语音处理模型训练方法及装置和语音处理方法及装置

技术领域

本公开涉及音频技术领域，尤其涉及一种语音处理模型的训练方法及其装置和语音处理方法及其装置。

背景技术

随着电子技术以及网络技术的快速发展，电子设备可在时频域基于神经网络的语音处理算法对音频信号进行处理。

虽然基于神经网络的语音增强和降噪已经取得了超过传统信号处理方法的性能，并已经能够高效地在电子设备中运行，但是对于语音增强(非语音成分不变语音成分增大)和语音去噪(语音成分不变非语音成分变小)问题，一般通过训练两个神经网络以分别达到语音增强和去噪的目的。另外，对于应用两种神经网络进行语音处理，总是将一类信号放大或缩小而保持另一类信号不变。

发明内容

本公开提供一种语音处理模型的训练方法及其装置和语音处理方法及其装置，以至少解决使用一个神经网络同时完成语音增强和去噪的问题。

根据本公开实施例的第一方面，提供一种语音处理模型的训练方法，所述方法可包括：基于语音信号、噪声信号和所述特定信号中的至少一个生成混合信号和目标信号；将所述混合信号输入语音处理模型，以获得估计数据；基于所述目标信号和所述估计数据来确定损失函数；基于所述损失函数对语音处理模型进行训练，以调整语音处理模型的参数。

可选地，基于语音信号、噪声信号和特定信号中的至少一个生成混合信号的步骤可包括：将所述特定信号乘以第一增益以得到第一信号并且将噪声信号乘以第二增益以得到第二信号；通过将第一信号、第二信号和语音信号进行混合来生成所述混合信号。

可选地，第一增益可以是基于第一预定信噪比确定的，第二增益可以是基于第二信噪比和第一增益确定的。

可选地，基于语音信号、噪声信号和特定信号中的至少一个生成目标信号的步骤可包括：将语音信号乘以第三增益来获得第三信号；通过将第三信号和第一信号进行混合来生成所述目标信号。

可选地，所述估计数据可以为估计的目标信号或者估计的理想幅度掩码，其中，理想幅度掩码与信号能量相关。

可选地，在所述估计数据为估计的理想幅度掩码的情况下，基于所述目标信号和所述估计数据来确定损失函数的步骤可包括：基于所述目标信号和所述混合信号计算目标理想幅度掩码；基于所述目标理想幅度掩码和所述估计数据确定损失函数。

可选地，目标理想幅度掩码可以为所述目标信号与所述混合信号在时频域上的幅度比。

根据本公开实施例的第二方面，提供一种语音处理方法，所述方法可包括：获取音频信号，其中，所述音频信号包括语音信号、噪声信号和特定信号中的至少一个，所述特定信号属于不需要被增强和抑制的音频类型；基于所述音频信号使用语音处理模型，获得理想幅度掩码；以及根据所述理想幅度掩码的大小，对所述音频信号进行不同的处理以获得期望信号。

可选地，语音处理模型可由上述训练方法训练获得的。

可选地，根据所述理想幅度掩码的大小，对所述音频信号进行不同的处理以获得期望信号的步骤可包括：通过对所述理想幅度掩码与预定阈值进行比较来确定是否基于由所述音频信号与所述理想幅度掩码相乘得到的估计信号来获得所述期望信号。

可选地，确定是否基于由所述音频信号与所述理想幅度掩码相乘得到的估计信号来获得所述期望信号的步骤可包括：如果所述理想幅度掩码大于所述预定阈值，则将所述估计信号与由用户定义的增益相乘来获得所述期望信号；否则将所述音频信号作为所述期望信号。

可选地，确定是否基于由所述音频信号与所述理想幅度掩码相乘得到的估计信号来获得所述期望信号的步骤可包括：如果所述理想幅度掩码小于所述预定阈值，则将所述估计信号作为所述期望信号；否则将所述音频信号作为所述期望信号。

可选地，确定是否基于由所述音频信号与所述理想幅度掩码相乘得到的估计信号来获得所述期望信号的步骤可包括：如果所述理想幅度掩码大于所述预定阈值，则将所述估计信号与由用户定义的增益相乘来获得所述期望信号；如果所述理想幅度掩码小于所述预定阈值，则将所述估计信号作为所述期望信号；否则将所述音频信号作为所述期望信号。

可选地，语音处理模型的输出是所述理想幅度掩码或者估计的目标信号，其中，在语音处理模型的输出是估计的目标信号的情况下，获得理想幅度掩码的步骤可包括：通过将所述音频信号应用于语音处理模型来获得估计的目标信号；基于所述估计的目标信号和所述音频信号获得所述理想幅度掩码。

根据本公开实施例的第三方面，提供一种语音处理模型的训练装置，所述装置可包括：数据生成模块，被配置为：基于语音信号、噪声信号和所述特定信号中的至少一个生成混合信号和目标信号；以及数据训练模块，被配置为：将所述混合信号输入语音处理模型，以获得估计数据；基于所述目标信号和所述估计数据来确定损失函数；基于所述损失函数对语音处理模型进行训练，以调整语音处理模型的参数。

可选地，数据生成模块可被配置为：将所述特定信号乘以第一增益以得到第一信号并且将噪声信号乘以第二增益以得到第二信号；并且通过将第一信号、第二信号和语音信号进行混合来生成所述混合信号。

可选地，数据生成模块可被配置为：将语音信号乘以第三增益来获得第三信号；通过将第三信号和第一信号进行混合来生成所述目标信号。

可选地，所述估计数据可以为估计的目标信号或者估计的理想幅度掩码，其中，理想幅度掩码可与信号能量相关。

可选地，在所述估计数据为估计的理想幅度掩码的情况下，数据训练模块可被配置为：基于所述目标信号和所述混合信号计算目标理想幅度掩码；基于所述目标理想幅度掩码和所述估计数据确定损失函数。

根据本公开实施例的第四方面，提供一种语音处理装置，所述装置可包括：数据获取模块，被配置为获取音频信号，其中，所述音频信号包括语音信号、噪声信号和特定信号中的至少一个，所述特定信号属于不需要被增强和抑制的音频类型；以及数据处理模块，被配置为：基于所述音频信号利用语音处理模型，获得理想幅度掩码；以及根据所述理想幅度掩码的大小，对所述音频信号进行不同的处理以获得期望信号。

可选地，数据处理模块可被配置为：通过对所述理想幅度掩码与预定阈值进行比较来确定是否基于由所述音频信号与所述理想幅度掩码相乘得到的估计信号来获得所述期望信号。

可选地，数据处理模块可被配置为：如果所述理想幅度掩码大于所述预定阈值，则将所述估计信号与由用户定义的增益相乘来获得所述期望信号；否则将所述音频信号作为所述期望信号。

可选地，数据处理模块可被配置为：如果所述理想幅度掩码小于所述预定阈值，则将所述估计信号作为所述期望信号；否则将所述音频信号作为所述期望信号。

可选地，数据处理模块可被配置为：如果所述理想幅度掩码大于所述预定阈值，则将所述估计信号与由用户定义的增益相乘来获得所述期望信号；如果所述理想幅度掩码小于所述预定阈值，则将所述估计信号作为所述期望信号；否则将所述音频信号作为所述期望信号。

可选地，语音处理模型的输出可以是所述理想幅度掩码或者估计的目标信号，其中，在语音处理模型的输出是估计的目标信号的情况下，数据处理模块可被配置为：通过将所述音频信号应用于语音处理模型来获得估计的目标信号；基于所述估计的目标信号和所述音频信号获得所述理想幅度掩码。

根据本公开实施例的第五方面，提供一种电子设备，所述电子设备可包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的语音处理方法和模型训练方法。

根据本公开实施例的第六方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的语音处理方法和模型训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的语音处理方法和模型训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过将语音增强和去噪整合至一个深度神经网络进行训练，通过基于理想目标掩码IRM的后处理可分别进行语音增强和去噪，或者同时进行语音增强和去噪。此外，在模型设计时将训练目标分成三个类别(即语音(需要增强)、噪声(需要抑制)以及诸如音乐的其他音频(既不增强也不抑制))，利用这样的训练数据训练出的语音处理模型不同于单一的语音增强和语音降噪的模型，使得模型更加符合实际应用需求，并且能够更有效地进行语音处理。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开实施例的语音处理方法的流程图；

图2是根据本公开实施例的语音处理模型的训练方法的流程图；

图3是根据本公开实施例的训练语音处理模型的示意图；

图4是根据本公开另一实施例的训练语音处理模型的示意图；

图5是根据本公开实施例的语音处理方法的流程示意图；

图6是根据本公开实施例的语音处理装置的框图；

图7是根据本公开实施例的模型训练装置的框图；

图8是根据本公开实施例的电子设备的框图。

在整个附图中，应注意，相同的参考标号用于表示相同或相似的元件、特征和结构。

具体实施方式

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在相关的语音增强和去噪应用中，由于使用两个神经网络单独作为语音增强和噪声消除的网络，导致复杂度翻倍，不利于电子设备的应用使用。因此，本公开提出一种使用一个神经网络同时完成语音增强和去噪的方法，即同时保证噪声抑制和语音增强。

此外，在模型设计时引入一个新的类别，即如音乐等的既不希望被放大又不希望被削弱的音频类型，更加符合实际应用需求。因此，通过本公开的语音处理模型能够同时保证噪声抑制、语音增强以及其他类型的声音大小幅度不变。

在下文中，根据本公开的各种实施例，将参照附图对本公开的方法、装置以及***进行详细描述。

图1是根据本公开实施例的语音处理方法的流程图。图1示出的语音处理方法可在与电子设备连接的网络端或在电子设备本地执行。

电子设备可以是任何具有语音/文本接收、语音处理和执行命令等功能的电子设备。在本公开的示例性实施例中，电子设备可包括例如但不限于便携式通信装置(例如，智能电话)、计算机装置、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或者服务器等。根据本公开的实施例，电子装置不限于以上所述。

参照图1，在步骤S101，获取音频信号。由于在本公开的模型训练阶段引入一个新的音频类别，即既不希望被放大又不希望被削弱的类型(诸如音乐信号等)，所以本公开的语音处理模型不单纯用于语音增强和语音降噪。因此，本公开可对多种类型信号进行语音处理。例如，音频信号可包括语音信号、噪声信号和特定信号中的至少一个。这里，特定信号属于不需要被增强和抑制的音频类型。例如，特定信号为音乐信号。然而，上述示例仅是示例性的，本公开不限于此。

在步骤S102，基于获取的音频信号利用语音处理模型，获得理想幅度掩码(IdealRatio Mask，IRM)。下面将参照图2具体地描述如何得到语音处理模型。图2是根据本公开实施例的语音处理模型的训练方法的流程图。本公开实施例中提供的模型训练方法的执行主体可以是本公开实施例提供的模型训练装置，也可以是包括该模型训练装置的电子设备。可根据实际使用需求确定，本公开实施例不作限定。

参照图2，在步骤S201，基于语音信号、噪声信号和特定信号中的至少一个生成混合信号和目标信号，这里，特定信号属于不需要被增强和抑制的音频类型。例如，特定信号可以是音乐信号。根据本公开的实施例，在产生混合信号和目标信号的过程中，除了包括上述列举的信号，还可包括其他类型的信号，也就是说，上述训练数据不限于上述三种类别，可包括更多种类型的音频信号。

作为示例，在混合信号可包括三种数据源，诸如语音信号S(t)、特定信号M(t)和噪声信号N(t)。其中，t表示时间。语音信号S(t)可以指需要增强的信号，特定信号M(t)可以指既不需要增强也不需要抑制的音频类型，噪声信号N(t)可以指需要抑制的信号。

在生成混合信号时，可将特定信号M(t)乘以第一增益以得到第一信号并且将噪声信号N(t)乘以第二增益以得到第二信号，然后通过将第一信号、第二信号和语音信号S(t)进行混合来生成混合信号。例如，混合信号可由如下等式(1)表示：

Mix(t)＝S(t)+M(t)*g_SNR1+N(t)*g_SNR2 (1)

其中，Mix(t)为混合信号，g_SNR1为第一增益，g_SNR2为第二增益。

在生成目标信号时，可将语音信号S(t)乘以第三增益来获得第三信号，然后通过将第三信号和第一信号进行混合来生成目标信号。例如，目标信号可由如下等式(2)表示：

其中，Tar(t)为目标信号，为第三增益。这里，第三增益可以是目标语音放大增益。

根据本公开的实施例，可根据预设的信噪比来确定第一增益、第二增益和第三增益，使得生成混合信号和目标信号更加符合实际情况，这样训练出的语音处理模型更准确。第三增益可根据实际需求由用户调整，或者可以是预先确定的值，本公开不限于此。

作为示例，可基于第一预定信噪比确定第一增益，并且基于第二信噪比和第一增益确定第二增益。例如，可利用以下等式(3)和(4)来确定第一增益和第二增益：

其中，target SNR1为第一预定信噪比，target SNR2为第二信噪比。target SNR1表示为语音信号和特定信号之间的能量比，target SNR2表示为语音信号加特定信号与噪声信号的能量比。上述示例仅是示例性的，本公开不限于此。可选地，可根据实际需求来设置不同的信噪比。

此外，在生成混合信号和目标信号时，如果训练数据除了包括上述语音信号、噪声信号和特定信号之外，还包括其他类型的音频信号，则可通过对每种类型的信号施加不同的目标增益来进行区分，并且满足实际需求的信噪比。

在步骤S202，将混合信号输入语音处理模型，以获得估计数据。这里，语音处理模型可通过对深度神经网络进行训练来获得。

根据本公开的实施例，可根据不同的训练数据来获得不同的语音处理模型。这里，所述估计数据可以是估计的目标信号或者估计的理想幅度掩码。

在步骤S203，基于目标信号和估计数据来确定损失函数。作为示例，在估计数据为估计的理想幅度掩码的情况下，可首先基于目标信号和混合信号计算目标理想幅度掩码，然后基于目标理想幅度掩码和估计数据确定损失函数。

在步骤S204，基于损失函数对语音处理模型进行训练，以调整语音处理模型的参数。下面将参照图3详细描述在语音处理模型的输出为估计的目标信号的情况下的语音处理模型的训练过程，并且参照图4详细描述在语音处理模型的输出为估计的理想幅度掩码的情况下的语音处理模型的训练过程。

在语音处理模型的输出为估计的目标信号的情况下，可参照图3来训练语音处理模型。图3是根据本公开实施例的训练语音处理模型的示意图。

参照图3，将混合信号Mix(t)和目标信号Tar(t)分别通过短时傅里叶变换STFT转到时频域，以获得时频域的混合信号Mix(n,k)和目标信号Tar(n,k)。例如，若长度为T的目标信号Tar和混合信号Mix在时域上分别为Tar(t)和Mix(t)，其中，t代表时间，0<t≤T，则经过短时傅里叶变换STFT后，Tar(t)和Mix(t)在时频域上可被表示为：

Tar(n,k)＝STFT(Tar(t)) (5)

Mix(n,k)＝STFT(Mix(t)) (6)

其中，n为帧序列，0<n≤N，N为总帧数；k为中心频率序列，0<k≤K，K为总频点数。

接下来，将时频域上的混合信号Mix(n,k)输入深度神经网络DNN，从DNN输出估计的目标信号Tar_est(n,k)。然后基于目标信号Tar(n,k)与估计的目标信号Tar_est(n,k)来构造损失函数，基于该损失函数对深度神经网络DNN进行优化迭代，最终收敛，完成训练阶段，从而获得语音处理模型。然而，上述构造损失函数的示例仅是示例性的，本公开不限于此。

在将音频信号输入如图3所示训练出的语音处理模型，可获得估计的目标信号。

在语音处理模型的输出为估计的理想幅度掩码的情况下，可参照图4来训练语音处理模型。图4是根据本公开另一实施例的训练语音处理模型的示意图。

参照图4，将混合信号Mix(t)和目标信号Tar(t)分别通过短时傅里叶变换STFT转到时频域，以获得时频域的混合信号Mix(n,k)和目标信号Tar(n,k)。例如，若长度为T的目标信号Tar和混合信号Mix在时域上分别为Tar(t)和Mix(t)，其中，t代表时间，0<t≤T，则经过短时傅里叶变换STFT后，Tar(t)和Mix(t)在时频域上可被表示为等式(5)和等式(6)：

Tar(n,k)＝STFT(Tar(t)) (5)

Mix(n,k)＝STFT(Mix(t)) (6)

基于混合信号Mix(n,k)和目标信号Tar(n,k)来计算目标理想幅度掩码。例如，可利用下面的等式(7)来计算目标理想幅度掩码：

根据上述等式(7)可看出，

接下来，将时频域上的混合信号Mix(n,k)输入深度神经网络DNN，从DNN输出估计的理想幅度掩码IRM_est(n,k)。然后，基于目标理想幅度掩码IRM_obj(n,k)与估计的理想幅度掩码IRM_est(n,k)来构造损失函数，基于该损失函数对深度神经网络DNN进行优化训练，以调整网络参数，从而获得语音处理模型。然而，上述构造损失函数的示例仅是示例性的，本公开不限于此。

在将音频信号输入如图4所示训练出的语音处理模型，可获得估计的理想幅度掩码。

返回参照图1，在步骤S102，在语音处理模型的输出是估计的目标信号的情况下，可通过将获得的音频信号应用于语音处理模型来获得估计的目标信号，然后基于估计的目标信号和音频信号获得理想幅度掩码。例如，当从语音处理模型输出的是估计的目标信号时，可利用下面的等式(8)来计算理想幅度掩码：

其中，Tar_est(n,k)为从语音处理模型输出的估计的目标信号，Aud(n,k)表示获得的音频信号经过短时傅里叶变换后的时频域上的信号。

在步骤S103，根据获得的理想幅度掩码的大小，对音频信号进行不同的处理以获得期望信号。这里，期望信号可以是经过语音增强的信号，可以是经过降噪处理的信号，也可以是经过语音增强和降噪处理的信号。通过对理想幅度掩码与预定阈值进行比较来确定是否基于由获得的音频信号与理想幅度掩码相乘得到的估计信号来获得期望信号。

作为示例，如果理想幅度掩码大于预定阈值，则将估计信号与由用户定义的增益相乘来获得期望信号，否则将获得的音频信号作为期望信号。例如，可根据下面的等式(9)来获得期望信号：

其中，Est(n,k)表示期望信号，Aud(n,k)表示经过短时傅里叶变换后的音频信号。为可调节的用户定义的额外增益。这里，预设阈值可以是1，也可以是由用户设置的任意值。

在获得视频域上的期望信号Est(n,k)后，通过短时反傅里叶变换来获得时域上的期望信号Est(t)。

通过上述处理，可对获得的音频信号中的语音部分进一步增强，并且可根据用户需求来任意调整期望增强的语音部分的增益。

作为另一示例，如果理想幅度掩码小于预定阈值，则将估计信号作为期望信号，否则将获得的音频信号作为期望信号。例如，可根据下面的等式(10)来获得期望信号：

其中，Est(n,k)表示期望信号，Aud(n,k)表示音频信号。这里，预设阈值可以是1，也可以是由用户设置的任意值。

通过上述处理，可实现对获得的音频信号的去噪效果。

作为另一示例，如果理想幅度掩码大于预定阈值，则将估计信号与由用户定义的增益相乘来获得期望信号，如果理想幅度掩码小于预定阈值，则将估计信号作为期望信号，否则将获得的音频信号作为期望信号。例如，可根据下面的等式(11)来获得期望信号：

其中，Est(n,k)表示期望信号，Aud(n,k)表示音频信号。为可调节的用户定义的额外增益。这里，预设阈值可以是1，也可以是由用户设置的任意值。

通过上述处理，可对获得的音频信号中的语音部分进一步增强，并且可根据用户需求来任意调整期望增强的语音部分的增益，同时也可对音频信号进行降噪处理。

在以上描述的实施例中，在模型训练阶段和语音处理阶段，可将首先将获得的时域上的信号经由短时傅里叶变换转换为时频域上的信号，然后再进行模型训练和语音处理，最后通过短时反傅里叶变换将最终获得的时频域上的信号转换为时域信号。

图5是根据本公开实施例的语音处理方法的流程示意图。在本实施例中，假设语音处理模型的输出是估计的目标信号。

参照图5，将获得的音频信号Aud(t)通过短时傅里叶变换STFT变换为时频域上的信号Aud(n,k)，然后将信号Aud(n,k)输入至训练好的语音处理模型。

从语音处理模型输出估计的目标信号Tar_est(n,k)，可利用等式(8)来计算理想幅度掩码IRM(n,k)，然后根据计算出的理想幅度掩码与预定阈值的比较来确定如何对获取的音频信号进行后处理。

可将预设阈值设置为1，利用等式(9)、等式(10)或者等式(11)来获得时频域上的期望信号Est(n,k)，然后对时频域上的期望信号Est(n,k)进行短时反傅里叶变换ISTFT来获得时域上的信号。

此外，在语音处理模型的输出是估计的理想幅度掩码的情况下，可省略图5中的时频掩码转换操作，通过语音处理模型直接获得估计的理想幅度掩码，然后基于该理想幅度掩码与预设阈值的比较来进行不同的后处理操作。

图6是根据本公开实施例的语音处理装置的框图。参照图6，语音处理装置600可包括数据获取模块601、数据处理模块602和模型训练模块603。语音处理装置600中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略语音处理装置600中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

数据获取模块601可获取音频信号，其中，音频信号可包括语音信号、噪声信号和特定信号中的至少一个，特定信号属于不需要被增强和抑制的音频类型。由于在本公开的模型训练阶段引入一个新的音频类别，即既不希望被放大又不希望被削弱的类型(诸如音乐信号等)，所以本公开的语音处理模型不单纯用于语音增强和语音降噪，这样的设计更加符合实际应用需求。因此，本公开可对多种类型信号进行语音处理。

数据处理模块602可基于获取的音频信号利用语音处理模型，获得理想幅度掩码，然后根据理想幅度掩码的大小，对音频信号进行不同的处理以获得期望信号。

作为示例，数据处理模块602可通过对理想幅度掩码与预定阈值进行比较来确定是否基于由音频信号与理想幅度掩码相乘得到的估计信号来获得期望信号。

例如，如果理想幅度掩码大于预定阈值，则数据处理模块602可将由音频信号和理想幅度掩码相乘得到的估计信号与由用户定义的增益相乘来获得期望信号；否则可将音频信号作为期望信号。这里，预设阈值可被设置为1，或者由用户设置的任意值。可参照等式(9)来执行语音后处理操作。

又例如，如果理想幅度掩码小于预定阈值，则数据处理模块602可将估计信号作为期望信号；否则可将音频信号作为期望信号。可参照等式(10)来执行语音后处理操作。

再例如，如果理想幅度掩码大于预定阈值，则数据处理模块602可将估计信号与由用户定义的增益相乘来获得期望信号。如果理想幅度掩码小于预定阈值，则数据处理模块602可将估计信号作为期望信号；否则数据处理模块602可将音频信号作为期望信号。可参照等式(11)来执行语音后处理操作。

由于训练数据不同，可训练出不同的语音处理模型。在本公开中，语音处理模型的输出可以是理想幅度掩码或者估计的目标信号。

在语音处理模型的输出是估计的目标信号的情况下，数据处理模块602可通过将获得的音频信号应用于语音处理模型来获得估计的目标信号，然后基于估计的目标信号和音频信号获得理想幅度掩码。根据获得的理想幅度掩码来执行语音后处理操作。

可选地，语音处理装置还可包括模型训练模块603。模型训练模块603可基于以下方法来训练语音处理模型：基于语音信号、噪声信号和特定信号中的至少一个生成混合信号和目标信号，将混合信号输入语音处理模型以获得估计数据；基于目标信号和估计数据来确定损失函数；基于损失函数对语音处理模型进行训练，以调整语音处理模型的参数。

可选地，模型训练模块603可将特定信号乘以第一增益以得到第一信号并且将噪声信号乘以第二增益以得到第二信号，通过将第一信号、第二信号和语音信号进行混合来生成混合信号。例如，可利用等式(1)来生成混合信号。

可选地，模型训练模块603可将语音信号乘以第三增益来获得第三信号，并且通过将第三信号和第一信号进行混合来生成所述目标信号。例如，可利用等式(2)来生成目标信号。

可选地，第一增益可基于第一预定信噪比确定，第二增益可基于第二信噪比和第一增益确定。通过这样的设计，使得生成的作为训练数据的混合信号和目标信号更加符合实际应用需求。

由于语音处理模型不同，所以语音处理模型输出的估计数据可不同。例如，语音处理模型输出的估计数据可以是估计的目标信号或者估计的理想幅度掩码。

在估计数据为估计的理想幅度掩码的情况下，模型训练模块603可基于目标信号和混合信号计算目标理想幅度掩码，然后基于目标理想幅度掩码和估计数据确定损失函数。这里，目标理想幅度掩码可以是目标信号与混合信号的能量比。

图7是根据本公开实施例的模型训练装置的框图。参照图7，模型训练装置700可包括数据生成模块701和数据训练模块702。模型训练装置700中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略模型训练装置700中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

在模型设计阶段将训练数据分成三个类别，区别于单一的语音增强和语音降噪，混合数据中有三种输入源，例如，语音(需要增强)、音乐(既不增强也不抑制的音频类型)和噪音(需要抑制)。

数据生成模块701可基于语音信号、噪声信号和特定信号中的至少一个生成混合信号和目标信号。具体地，数据生成模块701可将特定信号乘以第一增益以得到第一信号并且将噪声信号乘以第二增益以得到第二信号，通过将第一信号、第二信号和语音信号进行混合来生成混合信号。例如，可生成如等式(1)所示的混合信号。

数据生成模块701可将语音信号乘以第三增益来获得第三信号，并且通过将第三信号和第一信号进行混合来生成所述目标信号。例如，可生成如等式(2)所示的目标信号。

这里，第一增益可基于第一预定信噪比确定，第二增益可基于第二信噪比和第一增益确定。通过这样的设计，使得生成的作为训练数据的混合信号和目标信号更加符合实际应用需求。例如，可利用等式(3)和(4)来确定针对不同信号的增益值。

数据训练模块702可将混合信号输入语音处理模型(诸如深度神经网络)以获得估计数据，基于目标信号和估计数据来确定损失函数，基于损失函数对语音处理模型进行训练，以调整语音处理模型的参数。

根据本公开的实施例，可利用不同的训练数据来获得不同的语音处理模型。假设训练输出为目标信号的语音处理模型，数据训练模块702将时频域上的混合信号Mix(n,k)输入深度神经网络DNN，从DNN输出估计的目标信号Tar_est(n,k)。然后基于目标信号Tar(n,k)与估计的目标信号Tar_est(n,k)来构造损失函数，基于该损失函数对深度神经网络DNN进行优化迭代，最终收敛，完成训练阶段，从而获得语音处理模型。

假设训练输出为理想幅度掩码的语音处理模型，数据训练模块702可基于目标信号Tar(n,k)和混合信号Mix(n,k)计算目标理想幅度掩码，数据训练模块702将时频域上的混合信号Mix(n,k)输入深度神经网络DNN，从DNN输出估计的理想幅度掩码IRM_est(n,k)。然后基于目标理想幅度掩码IRM_obj(n,k)和估计的理想幅度掩码IRM_est(n,k)来确定损失函数。这里，目标理想幅度掩码可以是目标信号与混合信号的能量比。

根据本公开的实施例，可提供一种电子设备。图8是根据本公开实施例的电子设备的框图，该电子设备800可包括至少一个存储器802和至少一个处理器801，所述至少一个存储器802存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器801执行时，执行根据本公开实施例的语音处理方法或语音处理模型的训练方法。

处理器801可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，处理器801还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

作为一种存储介质的存储器802可包括操作***、数据存储模块、网络通信模块、用户接口模块、视频播放参数确定程序以及数据库。

存储器802可与处理器801集成为一体，例如，可将RAM或闪存布置在集成电路微处理器等之内。此外，存储器802可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储器和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。

作为示例，电子设备800可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备800并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

本领域技术人员可理解，图8中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的语音处理方法或语音处理模型的训练方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述语音处理方法或语音处理模型的训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理模型的训练方法，其特征在于，所述方法包括：

将特定信号乘以第一增益以得到第一信号并且将噪声信号乘以第二增益以得到第二信号；其中，所述特定信号属于不需要被增强和抑制的音频类型，所述噪声信号属于需要被抑制的音频类型，第一增益是基于第一预定信噪比确定的，第二增益是基于第二信噪比和第一增益确定的，其中，第一预定信噪比是语音信号和第一信号之间的能量比，第二信噪比是语音信号加第一信号与第二信号的能量比；

通过将第一信号、第二信号和语音信号进行混合来生成混合信号；其中，所述语音信号属于需要被增强的音频类型；

将所述语音信号乘以第三增益来获得第三信号；

通过将第三信号和第一信号进行混合来生成目标信号；

将所述混合信号输入语音处理模型，以获得估计数据；

基于所述目标信号和所述估计数据来确定损失函数；

基于所述损失函数对语音处理模型进行训练，以调整语音处理模型的参数。

2.根据权利要求1所述的方法，其特征在于，所述估计数据为估计的目标信号或者估计的理想幅度掩码，

其中，理想幅度掩码与信号能量相关。

3.根据权利要求1所述的方法，其特征在于，在所述估计数据为估计的理想幅度掩码的情况下，基于所述目标信号和所述估计数据来确定损失函数的步骤包括：

基于所述目标信号和所述混合信号计算目标理想幅度掩码；

基于所述目标理想幅度掩码和所述估计数据确定损失函数。

4.根据权利要求3所述的方法，其特征在于，所述目标理想幅度掩码为所述目标信号与所述混合信号在时频域上的幅度比。

5.一种语音处理方法，其特征在于，所述方法包括：

获取音频信号，其中，所述音频信号包括语音信号、噪声信号和特定信号中的至少一个，其中，所述语音信号属于需要被增强的音频类型，所述噪声信号属于需要被抑制的音频类型，所述特定信号属于不需要被增强和抑制的音频类型；

基于所述音频信号使用利用如权利要求1-4中任意一项所述的训练方法训练好的语音处理模型，获得理想幅度掩码；以及

根据所述理想幅度掩码的大小与预定阈值的比较结果，对所述音频信号进行处理以获得期望信号。

6.根据权利要求5所述的方法，其特征在于，根据所述理想幅度掩码的大小与预定阈值的比较结果，对所述音频信号进行处理以获得期望信号的步骤包括：

根据所述理想幅度掩码的大小与预定阈值的比较结果来确定是否基于由所述音频信号与所述理想幅度掩码相乘得到的估计信号来获得所述期望信号。

7.根据权利要求6所述的方法，其特征在于，确定是否基于由所述音频信号与所述理想幅度掩码相乘得到的估计信号来获得所述期望信号的步骤包括：如果所述理想幅度掩码大于所述预定阈值，则将所述估计信号与由用户定义的增益相乘来获得所述期望信号；否则将所述音频信号作为所述期望信号。

8.根据权利要求6所述的方法，其特征在于，确定是否基于由所述音频信号与所述理想幅度掩码相乘得到的估计信号来获得所述期望信号的步骤包括：如果所述理想幅度掩码小于所述预定阈值，则将所述估计信号作为所述期望信号；否则将所述音频信号作为所述期望信号。

9.根据权利要求6所述的方法，其特征在于，确定是否基于由所述音频信号与所述理想幅度掩码相乘得到的估计信号来获得所述期望信号的步骤包括：如果所述理想幅度掩码大于所述预定阈值，则将所述估计信号与由用户定义的增益相乘来获得所述期望信号；如果所述理想幅度掩码小于所述预定阈值，则将所述估计信号作为所述期望信号；否则将所述音频信号作为所述期望信号。

10.根据权利要求5所述的方法，其特征在于，语音处理模型的输出是所述理想幅度掩码或者估计的目标信号，

其中，在语音处理模型的输出是估计的目标信号的情况下，获得理想幅度掩码的步骤包括：

通过将所述音频信号应用于语音处理模型来获得估计的目标信号；

基于所述估计的目标信号和所述音频信号获得所述理想幅度掩码。

11.一种语音处理模型的训练装置，其特征在于，所述装置包括：

数据生成模块，被配置为：将特定信号乘以第一增益以得到第一信号并且将噪声信号乘以第二增益以得到第二信号；其中，所述特定信号属于不需要被增强和抑制的音频类型，所述噪声信号属于需要被抑制的音频类型，第一增益是基于第一预定信噪比确定的，第二增益是基于第二信噪比和第一增益确定的，其中，第一预定信噪比是语音信号和第一信号之间的能量比，第二信噪比是语音信号加第一信号与第二信号的能量比；通过将第一信号、第二信号和语音信号进行混合来生成混合信号；其中，所述语音信号属于需要被增强的音频类型；将所述语音信号乘以第三增益来获得第三信号；通过将第三信号和第一信号进行混合来生成目标信号；以及

数据训练模块，被配置为：将所述混合信号输入语音处理模型，以获得估计数据；基于所述目标信号和所述估计数据来确定损失函数；基于所述损失函数对语音处理模型进行训练，以调整语音处理模型的参数。

12.根据权利要求11所述的装置，其特征在于，所述估计数据为估计的目标信号或者估计的理想幅度掩码，其中，理想幅度掩码与信号能量相关。

13.根据权利要求11所述的装置，其特征在于，在所述估计数据为估计的理想幅度掩码的情况下，数据训练模块被配置为：

基于所述目标信号和所述混合信号计算目标理想幅度掩码；

基于所述目标理想幅度掩码和所述估计数据确定损失函数。

14.根据权利要求13所述的装置，其特征在于，所述目标理想幅度掩码为所述目标信号与所述混合信号在时频域上的幅度比。

15.一种语音处理装置，其特征在于，所述装置包括：

数据获取模块，被配置为获取音频信号，其中，所述音频信号包括语音信号、噪声信号和特定信号中的至少一个，其中，所述语音信号属于需要被增强的音频类型，所述噪声信号属于需要被抑制的音频类型，所述特定信号属于不需要被增强和抑制的音频类型；

数据处理模块，被配置为：

16.根据权利要求15所述的装置，其特征在于，数据处理模块被配置为：

17.根据权利要求16所述的装置，其特征在于，数据处理模块被配置为：

如果所述理想幅度掩码大于所述预定阈值，则将所述估计信号与由用户定义的增益相乘来获得所述期望信号；否则将所述音频信号作为所述期望信号。

18.根据权利要求16所述的装置，其特征在于，数据处理模块被配置为：

如果所述理想幅度掩码小于所述预定阈值，则将所述估计信号作为所述期望信号；否则将所述音频信号作为所述期望信号。

19.根据权利要求16所述的装置，其特征在于，数据处理模块被配置为：

如果所述理想幅度掩码大于所述预定阈值，则将所述估计信号与由用户定义的增益相乘来获得所述期望信号；

如果所述理想幅度掩码小于所述预定阈值，则将所述估计信号作为所述期望信号；

否则将所述音频信号作为所述期望信号。

20.根据权利要求15所述的装置，其特征在于，语音处理模型的输出是所述理想幅度掩码或者估计的目标信号，

其中，在语音处理模型的输出是估计的目标信号的情况下，数据处理模块被配置为：

21.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的训练方法和权利要求5到10中的任一权利要求所述的语音处理方法。

22.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的训练方法和权利要求5到10中的任一权利要求所述的语音处理方法。

23.一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如权利要求1到4中的任一权利要求所述的训练方法和权利要求5到10中的任一权利要求所述的语音处理方法。