CN112289333A

CN112289333A - 语音增强模型的训练方法和装置及语音增强方法和装置

Info

Publication number: CN112289333A
Application number: CN202011556441.1A
Authority: CN
Inventors: 张新; 郭亮; 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-01-29
Anticipated expiration: 2040-12-25
Also published as: CN112289333B

Abstract

本公开关于一种语音增强模型的训练方法和装置及语音增强方法和装置，所述训练方法包括：获取多个说话人的语音样本，每个说话人的语音样本包括含噪语音样本和第一纯净语音样本，含噪语音样本是根据与说话人对应的第二纯净语音样本添加噪声数据得到的；根据含噪语音样本和第一纯净语音样本，获取每个说话人对应的特征向量和含噪语音样本的幅度谱，特征向量是使用特征提取网络提取第一纯净语言样本得到的；将幅度谱和特征向量输入语音增强网络，得到估计的掩膜比；根据估计的掩膜比确定估计的增强语音信号，根据估计的增强语音信号和第二纯净语音样本确定语音增强模型的损失函数；通过根据损失函数调整特征提取网络和语音增强网络的模型参数。

Description

语音增强模型的训练方法和装置及语音增强方法和装置

技术领域

本公开涉及音频技术领域，更具体地说，涉及一种语音增强模型的训练方法和装置及语音增强方法和装置。

背景技术

在一定的应用场景下(如会议，街道)，音频中会混有较多的其他人说话的声音和背景噪声，大多数情况下为瞬态噪声，由于传统的只能处理稳态噪声，所以通常采用深度学习的方法进行语音增强。语音增强的目的是提升语音的可懂度和音质，使得处理后的音频达到更容易传递信息和听觉舒适的作用。然而，语音增强通常是单纯去除背景噪声，而剩余的语音可能为多个说话人的混合语音，语音可懂度依然较低。

发明内容

本公开提供一种语音增强模型的训练方法和装置及语音增强方法和装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种语音增强模型的训练方法，所述语音增强模型包括特征提取网络和语音增强网络，所述训练方法包括：获取多个说话人的语音样本，其中，每个说话人的语音样本包括含噪语音样本和第一纯净语音样本，其中，所述含噪语音样本是根据与说话人对应的第二纯净语音样本添加噪声数据得到的；根据所述含噪语音样本和第一纯净语音样本，获取每个说话人对应的特征向量和所述含噪语音样本的幅度谱，其中，所述特征向量是使用所述特征提取网络提取第一纯净语言样本得到的；将所述幅度谱和所述特征向量输入所述语音增强网络，得到估计的掩膜比，其中，所述掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；根据所述估计的掩膜比确定估计的增强语音信号，根据估计的增强语音信号和第二纯净语音样本确定所述语音增强模型的损失函数；通过根据所述损失函数调整所述特征提取网络和所述语音增强网络的模型参数，对所述语音增强模型进行训练。

可选地，第一纯净语音样本和第二纯净语音样本可不同。

可选地，每个说话人的第一纯净语音样本可包括多条纯净语音样本；其中，所述获取每个说话人对应的特征向量，可包括：将所述多条纯净语音样本的幅度谱输入所述特征提取网络，获得每个说话人对应的多个特征向量。

可选地，每个说话人的第二纯净语音样本可包括多条纯净语音样本，相应得到的每个说话人对应的所述含噪语音样本包括多条含噪语音样本；其中，所述获取每个说话人对应的所述含噪语音样本的幅度谱，可包括：分别提取所述多条含噪语音样本的幅度谱以获得每个说话人对应的多个幅度谱。

可选地，所述将所述幅度谱和所述特征向量输入所述语音增强网络，得到估计的掩膜比，可包括：将每个说话人对应的所述多个特征向量求平均，获得每个说话人对应的平均特征向量；将每个说话人对应的平均特征向量扩充至与每个说话人对应的所述多个幅度谱相同的维度；分别将每个说话人的所述多个幅度谱与相应说话人的扩充后的平均特征向量进行串联以获得每个说话人对应的多个串联后的特征；将每个说话人对应的所述多个串联后的特征作为所述语音增强网络的输入。

可选地，所述根据所述估计的掩膜比确定估计的增强语音信号，可包括：分别将所述幅度谱与所述估计的掩膜比相乘，获得估计的幅度谱，并将所述估计的幅度谱与所述含噪语音样本的相位谱结合并执行时频逆变换，以获得估计的增强语音。

可选地，所述根据估计的增强语音信号和第二纯净语音样本确定所述语音增强模型的损失函数，可包括：基于估计的增强语音信号和第二纯净语音样本，计算语音失真度，作为所述损失函数。

可选地，所述根据估计的增强语音信号和第二纯净语音样本确定所述语音增强模型的损失函数，还可包括：基于所述多个说话人的特征向量中的相同说话人的特征向量的余弦相似度得分和所述多个说话人的特征向量中的不同说话人的特征向量之间的余弦相似度得分，计算交叉熵损失函数；将所述语音失真度与所述交叉熵损失函数之和，作为最终的所述损失函数。

可选地，所述基于估计的增强语音信号和第二纯净语音样本，计算语音失真度，可包括：针对每个第二纯净语音样本与相应的估计的增强语音信号计算语音失真度，以获得多个语音失真度，并对所述多个语音失真度求平均，获得所述语音失真度。

可选地，所述基于所述多个说话人的特征向量中的相同说话人的特征向量的余弦相似度得分和所述多个说话人的特征向量中的不同说话人的特征向量之间的余弦相似度得分，计算交叉熵损失函数，可包括：计算每个说话人的特征向量的余弦相似度得分，以获得多个说话人的特征向量的余弦相似度得分，并对所述多个说话人的特征向量的余弦相似度得分求平均，获得所述相同说话人的特征向量的余弦相似度得分；计算两两说话人的特征向量的余弦相似度得分，以获得多个两两说话人的特征向量的余弦相似度得分，并对所述多个两两说话人的特征向量的余弦相似度得分求平均，获得所述不同说话人的特征向量的余弦相似度得分；基于所述相同说话人的特征向量的余弦相似度得分和所述不同说话人的特征向量的余弦相似度得分计算所述交叉熵损失函数。

可选地，最终的所述损失函数可被表示为：

其中，

，

，

其中，

表示最终的所述损失函数，

表示所述语音失真度，

表示所述交叉熵损失函数，x表示第二纯净语音样本，y表示估计的增强语音信号，

表示所述相同说话人的特征向量之间的余弦相似度得分，

表示所述不同说话人的特征向量之间的余弦相似度得分，a表示向量参数，a=

，

表示向量参数a中期望为1的元素的下标，

。

可选地，在所述训练方法执行前，所述特征提取网络可以是预训练的用于说话人识别的特征提取网络。

根据本公开实施例的第二方面，提供一种语音增强方法，包括：获取待增强的含噪语音信号和第一说话人的纯净语音信号，其中，所述含噪语音信号包括第一说话人的语音；基于第一说话人的纯净语音信号和所述含噪语音信号，获取第一说话人对应的特征向量以及所述含噪语音信号的幅度谱，其中，所述特征向量是使用语音增强模型中的特征提取网络提取所述纯净语音信号获得的，其中，所述语音增强模型包括所述特征提取网络和语音增强网络；将所述含噪语音信号的幅度谱和所述特征向量输入所述语音增强网络，获得估计的掩膜比，其中，所述掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；根据所述估计的掩膜比，获得所述含噪语音信号中第一说话人的增强语音。

可选地，所述含噪语音信号除了包括第一说话人的语音之外，还可包括其他说话人的语音。

可选地，第一说话人的纯净语音可以是预先录制的第一说话人的纯净语音片段。

可选地，所述将所述含噪语音信号的幅度谱和所述特征向量输入所述语音增强网络，获得估计的掩膜比，可包括：将所述特征向量扩充至与所述幅度谱相同的维度；将所述幅度谱与扩充后的特征向量进行串联以获得串联后的特征；将所述串联后的特征作为所述语音增强网络的输入。

可选地，所述根据所述估计的掩膜比，获得所述含噪语音信号中第一说话人的增强语音，可包括：将所述幅度谱与所述估计的掩膜比相乘，获得估计的幅度谱，将所述估计的幅度谱和所述含噪语音信号的相位谱结合并执行时频逆变换，获得所述增强语音。

可选地，所述语音增强模型可以是使用根据本公开的训练方法训练得到的。

根据本公开实施例的第三方面，提供一种语音增强模型的训练装置，所述语音增强模型包括特征提取网络和语音增强网络，所述训练装置包括：获第一获取单元，被配置为：获取多个说话人的语音样本，其中，每个说话人的语音样本包括含噪语音样本和第一纯净语音样本，其中，所述含噪语音样本是根据与说话人对应的第二纯净语音样本添加噪声数据得到的；第二获取单元，被配置为：根据所述含噪语音样本和第一纯净语音样本，获取每个说话人对应的特征向量和所述含噪语音样本的幅度谱，其中，所述特征向量是使用所述特征提取网络提取第一纯净语言样本得到的；估计单元，被配置为：将所述幅度谱和所述特征向量输入所述语音增强网络，得到估计的掩膜比，其中，所述掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；计算单元，被配置为：根据所述估计的掩膜比确定估计的增强语音信号，根据估计的增强语音信号和第二纯净语音样本确定所述语音增强模型的损失函数；调参单元，被配置为：通过根据所述损失函数调整所述特征提取网络和所述语音增强网络的模型参数，对所述语音增强模型进行训练。

可选地，第一纯净语音样本和第二纯净语音样本可不同。

可选地，每个说话人的第一纯净语音样本可包括多条纯净语音样本；其中，第二获取单元可被配置为：将所述多条纯净语音样本的幅度谱输入所述特征提取网络，获得每个说话人对应的多个特征向量。

可选地，每个说话人的第二纯净语音样本可包括多条纯净语音样本，相应得到的每个说话人对应的所述含噪语音样本可包括多条含噪语音样本；其中，第二获取单元可被配置为：分别提取所述多条含噪语音样本的幅度谱以获得每个说话人对应的多个幅度谱。

可选地，估计单元可被配置为：将每个说话人对应的所述多个特征向量求平均，获得每个说话人对应的平均特征向量；将每个说话人对应的平均特征向量扩充至与每个说话人对应的所述多个幅度谱相同的维度；分别将每个说话人的所述多个幅度谱与相应说话人的扩充后的平均特征向量进行串联以获得每个说话人对应的多个串联后的特征；将每个说话人对应的所述多个串联后的特征作为所述语音增强网络的输入。

可选地，计算单元可被配置为：分别将所述幅度谱与所述估计的掩膜比相乘，获得估计的幅度谱，并将所述估计的幅度谱与所述含噪语音样本的相位谱结合并执行时频逆变换，以获得估计的增强语音。

可选地，计算单元可被配置为：基于估计的增强语音信号和第二纯净语音样本，计算语音失真度，作为所述损失函数。

可选地，计算单元还可被配置为：基于所述多个说话人的特征向量中的相同说话人的特征向量的余弦相似度得分和所述多个说话人的特征向量中的不同说话人的特征向量之间的余弦相似度得分，计算交叉熵损失函数；将所述语音失真度与所述交叉熵损失函数之和，作为最终的所述损失函数。

可选地，计算单元可被配置为：针对每个第二纯净语音样本与相应的估计的增强语音信号计算语音失真度，以获得多个语音失真度，并对所述多个语音失真度求平均，获得所述语音失真度。

可选地，计算单元可被配置为：计算每个说话人的特征向量的余弦相似度得分，以获得多个说话人的特征向量的余弦相似度得分，并对所述多个说话人的特征向量的余弦相似度得分求平均，获得所述相同说话人的特征向量的余弦相似度得分；计算两两说话人的特征向量的余弦相似度得分，以获得多个两两说话人的特征向量的余弦相似度得分，并对所述多个两两说话人的特征向量的余弦相似度得分求平均，获得所述不同说话人的特征向量的余弦相似度得分；基于所述相同说话人的特征向量的余弦相似度得分和所述不同说话人的特征向量的余弦相似度得分计算所述交叉熵损失函数。

可选地，最终的所述损失函数可被表示为：

其中，

，

，

其中，

表示最终的所述损失函数，

表示所述语音失真度，

表示所述相同说话人的特征向量之间的余弦相似度得分，

，

表示向量参数a中期望为1的元素的下标，

。

根据本公开实施例的第四方面，提供一种语音增强装置，包括：第一获取单元，被配置为：获取待增强的含噪语音信号和第一说话人的纯净语音信号，其中，所述含噪语音信号包括第一说话人的语音；第二获取单元，被配置为：基于第一说话人的纯净语音信号，获取第一说话人对应的特征向量以及所述含噪语音信号的幅度谱，其中，所述特征向量是使用语音增强模型中的特征提取网络提取所述纯净语音信号获得的，其中，所述语音增强模型包括所述特征提取网络和语音增强网络；估计单元，被配置为：将所述含噪语音信号的幅度谱和所述特征向量输入所述语音增强网络，获得估计的掩膜比，其中，所述掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；增强单元，被配置为：根据所述估计的掩膜比，获得所述含噪语音信号中第一说话人的增强语音。

可选地，估计单元可被配置为：将所述特征向量扩充至与所述幅度谱相同的维度；将所述幅度谱与扩充后的特征向量进行串联以获得串联后的特征；将所述串联后的特征作为所述语音增强网络的输入。

可选地，增强单元可被配置为：将所述幅度谱与所述估计的掩膜比相乘，获得估计的幅度谱，将所述估计的幅度谱和所述含噪语音信号的相位谱结合并执行时频逆变换，获得所述增强语音。

根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的对特定说话人进行语音增强的方法。

根据本公开实施例的第六方面，提供一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的语音增强模型的训练方法或语音增强方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的语音增强模型的训练方法或语音增强方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的语音增强模型的训练方法和训练装置以及语音增强方法和语音增强装置，利用特征提取网络从特定说话人的纯净语音提取辅助向量，并利用语音增强网络在辅助向量的帮助下从含噪语音提取特定说话人的增强语音，仅需要预先得到很短的若干句特定说话人参考纯净语音就可以完成对特定说话人语音的分离和增强，且可以在语音增强阶段大大降低运算量，实现实时得语音增强。

此外，根据本公开的语音增强模型的训练方法和训练装置以及语音增强方法和语音增强装置，可对特征提取网络进行预训练，然后再进行特定说话人语音增强时反向传播调节特征提取网络的参数，使得特征提取网络的输出辅助向量既可以辨别特定说话人，又有助于对特定说话人进行语音增强。

此外，根据本公开的语音增强模型的训练方法和训练装置以及语音增强方法和语音增强装置，对特征提取网络和语音增强网络进行训练使用的损失函数既然考虑语音失真度又考虑相同说话人的辅助向量之间的余弦相似度得分和不同说话人的辅助向量之间的余弦相似度得分的交叉熵损失函数，可以保证对一个特定说话人的不同语句提取出的特征向量差别不大，使得模型泛化能力提升。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的语音增强方法和语音增强装置的实施场景的示意图。

图2是示出根据本公开的示例性实施例的语音增强模型的整体***示意图。

图3是示出根据本公开的示例性实施例的语音增强模型的训练方法的流程图。

图4是示出根据本公开的示例性实施例的特征提取网络的结构示意图。

图5是示出根据本公开的示例性实施例的语音增强网络的结构示意图。

图6是示出根据本公开的示例性实施例的基于相同说话人利用特征提取网络提取的辅助向量之间的余弦相似度得分和基于不同说话人利用特征提取网络提取的辅助向量之间的余弦相似度得分的示意图。

图7是示出根据本公开的示例性实施例的语音增强方法的流程图。

图8是示出根据本公开的示例性实施例的语音增强模型的训练装置的框图。

图9是示出根据本公开的示例性实施例的语音增强装置的框图。

图10是根据本公开的示例性实施例的电子设备1000的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：（1）包括A；（2）包括B；（3）包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：（1）执行步骤一；（2）执行步骤二；（3）执行步骤一和步骤二。

通常，从多个说话人中分离出各个说话人的问题称为语音分离(SpeechSeparation)，该模型需要说话人个数的先验信息，且根据理想二维掩膜比(Ideal BinaryMask, IBM)的实验显示，说话声音较弱的说话人被分离出的语音质量较低，因此实际应用中效果较差。此外，从含背景噪声的含噪语音中分离出纯净语音的问题被称为(SpeechEnhancement)，该模型不需要任何先验信息，但是分离出得纯净语音可能是多个说话人的混合语音，达不到对特定说话人语音增强的目的。现有的特定说话人语音增强方案，使用目标说话人特征向量作为辅助向量的方式输入到网络中，从含噪语音中分离出目标说话人的纯净语音，具体地说，在编码阶段，网络通过GCNN门限卷积网络，BN批量归一化，ELU激活函数所组成的模块对输入含噪信号和目标说话人纯净语音经过BGRU提取的辅助向量进行编码，在解码通过镜像模块对编码信号进行解码，最后得到增强的信号。其缺点在于，提取目标说话人的辅助向量的模块是跟随增强网络一起训练的，并未单独验证其效果，且使用了BGRU和BLSTM非因果循环网络，导致网络运算量和参数量巨大且需要未来帧的信息，推理速度慢，因此无法实时地应用于实际应用中。

为了解决运算量大而无法实时应用的问题，同时提高针对特定说话人的语音增强的效果，本公开提出了一种语音增强模型的训练方法和训练装置以及语音增强方法和语音增强装置，具体地说，语音增强模型可包括特征提取网络和语音增强网络，采用预训练的特征提取网络（例如，说话人识别模型）提取出的特定说话人纯净语音的特征向量作为语音增强网络的辅助输入，使得通过语音增强网络能够得到特定说话人的纯净语音，然后在训练阶段基于通过语音增强网络得到的结果设置损失函数对特征提取网络和语音增强网络进行参数更新，使得特征提取网络输出的辅助向量能够起到同时有利于语音分离和语音增强的作用，此外，只需要很短的若干句特定说话人参考纯净语音就可以完成对特定说话人语音的分离和增强，且可以做到实时处理，并应用至相关的实时处理的实际场景。例如，对于在新闻发布会背景噪声较大的场景中发表讲话的公众人物，可以预先提取出该说话人的特征向量，从而在语音增强阶段大大降低运算量，实现实时得语音增强。下面，将参照图1至图10具体描述根据本公开的示例性实施例的语音增强模型的训练方法和训练装置以及语音增强方法和语音增强装置。

如图1所示，在多人会议的场景下，当在收集在会议中发表讲话的特定说话人的语音时，往往收集到的是包括环境噪声和其他说话人的语音的混合语音。如果单独使用语音分离（提取特定说话人的语音），仅仅能够提取特定说话人的语音，提取特定说话人的语音质量较差。如果单独使用语音增强，仅仅能够去除环境噪声，获得包括多个说话人的语音，无法对特定说话人进行语音增强。因此，在这样的场景下，可预先采集特定说话人的纯净语音，并在会议中采集的特定说话人的讲话语音（即，现场含噪语音），基于特定说话人的纯净语音和现场含噪语音，利用根据本公开的语音增强方法和/或语音增强装置，对现场含噪语音进行特定说话人的语音增强，并可通过网络、电视、广播等途径输出语音增强后的特定说话人的语音，使得通过网络、电视、广播等收听的听众能够听得更清楚，提高收听人的用户体验。

当然，根据本公开的语音增强方法和/或语音增强装置不仅可应用于上述场景，还可应用于任何可从包括多人的含噪语音中分离并增强特定说话人的语音的场景，例如，视频会议、晚会、新闻发布会等等。

参照图2，根据本公开的语音增强模型可包括特征提取网络和语音增强网络，特征提取网络用于提取特定说话人的语音的特征向量作为语音增强网络的辅助输入，语音增强网络用于从包括多个说话人的含噪语音中对特定说话人的语音进行增强。

具体地说，可对含噪语音进行时频变换（例如，短时傅里叶变换（Short-TimeFourier Transform，STFT）），获得幅度谱和相位谱。可将特定说话人的纯净语音输入特征提取网络，获得特征向量（也可称为辅助向量）。可将获得的幅度谱和辅助向量输入语音增强网络，获得估计的掩膜比mask。可将获得的掩膜比与获得的幅度谱点乘，获得估计的幅度谱。将获得的相位谱和估计的幅度谱结合并进行时频逆变换（例如，短时傅里叶逆变换（Inverse Short-Time Fourier Transform，ISTFT）），获得特定说话人的增强语音。可基于训练样本以及相应获得的特定说话人的增强语音，利用损失函数，对语音增强模型中的特征提取网络和语音增强网络一起进行训练，以更新特征提取网络和语音增强网络的参数。在对语音增强模型训练之后，可将训练好的语音增强模型投入实际应用场景进行使用。

在对语音增强模型训练之前，语音增强模型中的特征提取网络可以是预训练的说话人识别模型。因此，在语音增强模型的训练之前，预训练的特征提取网络本身具有很好的语音分离的能力。在语音增强模型的训练过程中，再通过语音增强的损失函数对预训练的特征提取网络进行参数更新，可使得特征提取网络输出的辅助向量既能够很好地语音分离以辨别特定说话人，又有助于对特定说话人进行语音增强。

此外，在对语音增强模型训练时使用的损失函数除了考虑语音失真度之外，还可考虑相同说话人的辅助向量之间的余弦相似度得分和不同说话人的辅助向量之间的余弦相似度得分而设计，可以保证对一个特定说话人的不同语句提取出的特征向量差别不大，使得模型泛化能力提升。

此外，提取特征向量的过程可以在离线进行完成，降低了实时处理时的运算量，使得特定人的语音增强可以实时进行。

参照图3，在步骤301，可获取多个说话人的语音样本，其中，每个说话人的语音样本包括含噪语音样本和第一纯净语音样本，其中，含噪语音样本是根据与说话人对应的第二纯净语音样本添加噪声数据得到的。

这里，每个说话人的第一纯净语音样本和第二纯净语音样本是指包括该说话人的纯净语音的语音样本。例如，可获取每个说话人的多条不同的纯净语音样本，并将多条不同的纯净语音样本划分为第一纯净语音样本和第二纯净语音样本，使得第一纯净语音样本和第二纯净语音样本不同，即，该说话人的第一纯净语音样本中的纯净语音与该说话人的第二纯净语音样本中的纯净语音是互不相同的。此外，每个说话人的含噪语音样本是指包括该说话人的语音以及噪声（例如，环境噪声、其他人的语音等）的语音样本，其可由相应说话人的第二纯净语音样本和噪声数据混合而获得。例如，噪声数据可通过从网上下载、实际录制等方式获取到，并可按照一定的信号比在时域将第二纯净语音样本和噪声数据相加来产生含噪语音样本。

这里，对语音增强模型进行训练可采取批量输入语音样本的方式。例如，可获取G个说话人的语音样本，其中，每个说话人的语音样本可包括N个含噪语音样本和M个第一纯净语音样本，N和M可以相同也可以不同。其中，当要产生N个含噪语音样本时，需要N个第二纯净语音样本。因此，可获取G×（N+M）个语音样本，可每批输入G×（N+M）个语音样本进入语音增强模型以进行训练。当然，这里为了描述方便假设每个说话人的含噪语音样本和第一纯净语音样本都分别为N和M，然而，每个说话人的含噪语音样本和第一纯净语音样本可以是互不相同的，本公开对此不作限制。

在步骤302，可根据含噪语音样本和第一纯净语音样本，获取每个说话人对应的特征向量和含噪语音样本的幅度谱，其中，所述特征向量是使用特征提取网络提取第一纯净语言样本得到的。

根据本公开的示例性实施例，每个说话人的第二纯净语音样本可包括多个纯净语音样本，相应得到的每个说话人对应的所述含噪语音样本可包括多个含噪语音样本。可对每个含噪语音样本执行时频变换，获得每个含噪语音样本的幅度谱和相位谱。例如，当输入G个说话人的每人N个含噪语音样本时，可对G×N个含噪语音样本执行时频变换，从而获得G×N个幅度谱和相位谱。

例如，可将每个含噪语音样本通过短时傅里叶变换（Short-Time FourierTransform，STFT）从时域变换到频域，获得每帧音频信号的幅度信息和相位信息，从而得到该含噪语音样本的幅度谱和相位谱。例如，若长度为

的含噪语音信号

在时域上为

，其中t代表时间，

，则经过短时傅里叶变换后，

在频域可表示为下面的公式（1）：

（1）

其中，n为帧序列，

，

为总帧数，k为中心频率序列，

，

为总频点数。

在得到频域的含噪信号

后，可获取其幅度谱

和相位谱

，可表示为下面的公式（2）：

（2）

根据本公开的示例性实施例，每个说话人的第一纯净语音样本可包括多个纯净语音样本。可将第一纯净语音样本包括的多条纯净语音样本的幅度谱输入特征提取网络以使用特征提取网络提取每个说话人的每个第一纯净语音样本的特征向量，以获得多个特征向量。例如，当输入G个说话人的每人M个第一纯净语音样本时，可利用特征提取网络对G×M个第一纯净语音样本提取特征向量，从而获得G×M个特征向量。这里，特征向量（辅助向量）可以是一个固定长度的n维特征向量，例如，256位的浮点数向量。

例如，纯净语音可表示为s，特定提取网络可表示为

，辅助向量

可表示为下面的公式（3）：

（3）

根据本公开的示例性实施例，特征提取网络的输入可以是纯净语音的梅尔对数幅度谱。特征提取网络的一种实现方式可以是3层的循环神经网络（Recurrent NeuralNetwork, RNN）。图4是示出根据本公开的示例性实施例的特征提取网络的结构示意图。如图4所示，x可表示每一帧纯净语音经时频变换（例如，傅立叶变换）后的频域结果，h为隐藏状态，t代表帧数，t-1表示t帧的前一帧，t+1表示t帧的后一帧，A代表一层RNN网络，特征提取网络可由三个RNN网络串联而成，每一层RNN的输出作为后一层RNN的输入，数据在RNN中的计算方式可被表示为：

其中，W表示权重矩阵，b表示偏移量。所有帧的信息都会被最后一帧的隐藏状态

捕获，网络要输出

即可。

根据本公开的示例性实施例，特征提取网络的一种实现方式还可以是一种特殊的RNN，即，长短期记忆（Long short-term memory, LSTM）网络。其网络结构为三层LSTM进行上下文特征的聚合，然后取最后一帧的隐藏状态H经过全连接层（FC layer）投影为一个固定长度的n维特征向量。

根据本公开的示例性实施例，特征提取网络可为用于说话人识别的特征提取模型，且为文本无关的特征提取模型。因此，对于同一说话人的任意纯净语音，提取出的特征向量（即，辅助向量）都是相似的。

根据本公开的示例性实施例，特征提取网络可以是预训练的用于说话人识别的特征提取网络，使得特征提取网络具有很好的语音分离能力。然后，在对根据本公开的语音增强模型进行训练时，基于特定人增强结果反向传播调节特征提取网络的参数，可使特征提取网络输出的辅助向量既可以很好的辨别特定说话人，又有助于对特定说话人进行语音增强。

当然，特征提取网络不限于上述网络或模型，还可以是其它任何可能实现特征提取功能的网络，本公开对此不作限制。

此外，步骤301和302的顺序不限于上述顺序，还可以以任何可能的顺序执行，本公开对此不作限制。例如，步骤301中获取每个说话人的含噪语音样本和获取第一纯净语音样本可按先后顺序或同时进行。又例如，步骤302中获得幅度谱与获得特征向量的步骤可按相反顺序或同时进行。又例如，先执行步骤301中获取含噪语音样本，且执行步骤302中获取含噪语音样本的幅度谱，再执行步骤301中获取第一纯净语音样本，且执行步骤302获取第一纯净语音样本的特征向量；反之亦然。本公开不限于上述处理顺序，还可以有任何可能的处理顺序。

返回参照图3，在步骤303，可将幅度谱和特征向量输入语音增强网络，得到估计的掩膜比这里，掩膜比（mask）通常是指原始目标值与含噪值的比值。在根据本公开的语音增强方案中，掩膜比可以是纯净语音信号幅度谱与含噪语音信号幅度谱的比值。例如，掩膜比可以是纯净语音频谱图与含噪语音频谱图的比值，且值域为[0,1]。例如，语音增强网络可表示为

，掩膜比mask可表示为下面的公式（4）：

（4）

根据本公开的示例性实施例，可将每个说话人对应的多个特征向量求平均，获得每个说话人对应的平均特征向量；将每个说话人对应的平均特征向量扩充至与每个说话人对应的多个幅度谱相同的维度；分别将每个说话人的多个幅度谱与相应说话人的扩充后的平均特征向量进行串联以获得每个说话人对应的多个串联后的特征；将每个说话人对应的所述多个串联后的特征作为语音增强网络的输入。例如，当输入G个说话人的G×N个幅度谱和G×M个特征向量时，可针对每个说话人的特征向量求平均，以获得G个平均特征向量，再将G个平均特征向量扩充维度至与含噪语音样本的谱度谱特征的维度一致，再对G×N个幅度谱中的每个说话人的幅度谱与相应说话人的扩充后的平均特征向量串联，从而获得G×N个串联后的特征。此外，将G×N个串联后的特征输入到语音增强网络，可获得相应的G×N个估计的掩膜比。

根据本公开的示例性实施例，语音增强网络的一种实现方式可以是扩张卷积网络，例如，时间卷积网络（Temporal Convolution Network，TCN）。图5是示出根据本公开的示例性实施例的语音增强网络的结构示意图。如图5所示，|

|（N=0,1,2,3...,14）表示输入信号（含噪语音的幅度谱和第一纯净语音的辅助向量）每一帧的傅立叶变换频域结果，

表示帧索引，

表示第

帧幅度所估计出的掩膜比，b代表网络的层数，d代表空洞度，语音增强网络做卷积操作时会间隔(d-1)帧的输入信号，因此d=1时，语音增强网络做卷积操作是在连续帧上进行的。当然，语音增强网络不限于上述网络，还可以是任何可能的实现语音增强功能的网络，本公开对此不作限制。

返回参照图3，在步骤304，可根据估计的掩膜比确定估计的增强语音信号，根据估计的增强语音信号和第二纯净语音样本确定语音增强模型的损失函数。

根据本公开的示例性实施例，分别将幅度谱与估计的掩膜比相乘，获得估计的幅度谱，并将估计的幅度谱与含噪语音样本的相位谱结合并执行时频逆变换，以获得估计的增强语音，从而获得多个增强语音。例如，当获得G×N个幅度谱、G×N个相位谱和G×N个估计的掩膜比时，可通过上述操作获得G×N个增强语音。这里，含噪语音样本的相位谱可根据上述公式（2）获得。

例如，可将含噪语音样本的幅度谱

与语音增强网络输出的估计的掩膜比mask进行点乘，得到估计的幅度谱

，可表示为下面的公式（5）：

（5）

随后，可将估计的幅度谱

与含噪语音的相位谱

结合，经过逆傅立叶变换（Inverse Short-Time Fourier Transform，ISTFT）得到含噪语音中特定人的增强语音

，可表示为下面的公式（6）：

（6）

根据本公开的示例性实施例，可基于估计的增强语音信号和第二纯净语音样本，计算语音失真度，作为语音增强模型的损失函数。这里，语音失真度SDR可通过输入的多个第二纯净语音样本和相应得到的多个增强语音信号计算而获得。例如，针对每个第二纯净语音样本与相应的估计的增强语音信号计算语音失真度，以获得多个语音失真度，并对所述多个语音失真度求平均，获得最终的语音失真度。

例如，针对单个第二纯净语音样本与相应的增强语音信号计算语音失真度SDR可被表示为下面的公式（7）：

（7）

其中，x表示第二纯净语音样本，y表示相应的增强语音信号。

根据本公开的示例性实施例，可由多个说话人的特征向量中的相同说话人的特征向量的余弦相似度得分和多个说话人的特征向量中的不同说话人的辅助向量之间的余弦相似度得分计算得到交叉熵损失函数，并将语音失真度与交叉熵损失函数之和，作为最终的损失函数。图6是示出根据本公开的示例性实施例的基于相同说话人利用特征提取网络提取的辅助向量之间的余弦相似度得分和基于不同说话人利用特征提取网络提取的辅助向量之间的余弦相似度得分的示意图。如图6所示，利用LibriSpeech测试集对特征提取网络进行测试，测试结果显示，基于不同说话人所提取出的辅助向量的余弦相似度得分（阴影部分）明显低于基于相同说话人所提取出的辅助向量的余弦相似度得分（空心部分），说明特征提取网络能够有效地提取特定说话人的语音特征。这里，余弦相似度得分是通过计算两个向量欧式空间夹角的余弦值得到，计算公式可以是两个向量的内积除以两个向量的范数，例如，

，其中，a和b为两个向量。因此，基于不同说话人所提取出的辅助向量的余弦相似度得分和基于相同说话人所提取出的辅助向量的余弦相似度得分可以是两两辅助向量的余弦相似度得分。

根据本公开的示例性实施例，在步骤302获得的多个特征向量（例如，G×N）中，可计算每个说话人的特征向量的余弦相似度得分，以获得多个说话人的特征向量的余弦相似度得分（G个余弦相似度得分），并对多个说话人的特征向量的余弦相似度得分求平均，获得相同说话人的特征向量的余弦相似度得分；并可计算两两说话人的特征向量的余弦相似度得分，以获得多个两两说话人的特征向量的余弦相似度得分（

个余弦相似度得分），并对多个两两说话人的特征向量的余弦相似度得分求平均，获得不同说话人的特征向量的余弦相似度得分。随后可基于相同说话人的特征向量的余弦相似度得分和不同说话人的特征向量的余弦相似度得分计算交叉熵损失函数。

例如，交叉熵损失函数可被表示为下面的公式（8）：

（8）

其中，

，

其中，

表示交叉熵损失函数，这里，

包括两个参数，第一个参数是由相同说话人的辅助向量之间的余弦相似度得分

和不同说话人的辅助向量之间的余弦相似度得分

组成的向量a=[

,

]，第二个参数是标量class，表示向量参数a中期望为1的元素的下标。这里，可将class设置为0，即表示希望向量参数a中的a[0]（即，

）的期望为1。也就是说，相同说话人的辅助向量在欧式距离空间上的距离尽量小，在这种情况下，

的值会较小，否则会较大。

因此，可基于语音失真度SDR和交叉熵损失函数

之和，计算最终的损失函数。例如，损失函数loss可被表示为下面的公式（9）：

（9）

因此，在步骤305，可基于计算出的损失函数调整特征提取网络和语音增强网络的模型参数，对语音增强模型进行训练。利用此损失函数对特征提取网络和语音增强网络进行训练，可保证特征提取网络提取出的辅助向量兼具辨识说话人和语音增强的能力，且同一说话人的不同语句所提取出的向量差别不大，即语音增强模型的泛化能力强。

参照图7，在步骤701，可获取待增强的含噪语音信号和第一说话人的纯净语音信号。这里，含噪语音信号包括第一说话人的语音以及噪声，噪声可以包括环境噪声和其他人的说话语音。例如，在多人会议的情况下，第一说话人可以是主讲人，含噪语音信号可以是包括主讲人的语音、其他人的语音和环境噪声的混合语音，第一说话人的纯净语音可以是主讲人的纯净语音（例如，在安静的环境下录制的语音）。

这里，第一说话人的纯净语音可以是简短的若干句第一说话人的纯净语音。根据本公开的示例性实施例，第一说话人的纯净语音可以是预先录制的第一说话人的纯净语音片段。

在步骤702，可基于第一说话人的纯净语音信号和含噪语音信号，获取第一说话人对应的特征向量以及含噪语音信号的幅度谱。

根据本公开的示例性实施例，特征向量可以是使用语音增强模型中的特征提取网络提取第一说话人的纯净语音信号获得的。这里，语音增强模型包括特征提取网络和语音增强网络。例如，语音增强模型可以是根据本公开的训练方法训练得到的语音增强模型。这里，特征向量可以是一个固定长度的n维特征向量，例如，256位的浮点数向量。根据本公开的示例性实施例，特征提取网络的输入可以是特定说话人的纯净语音的梅尔对数幅度谱。

根据本公开的示例性实施例，可对含噪语音信号执行时频变换，获得幅度谱。例如，可将含噪语音信号通过短时傅里叶变换（Short-Time Fourier Transform，STFT）从时域变换到频域，获得每帧音频信号的幅度信息，从而得到含噪语音信号的幅度谱。

此外，步骤701和702的顺序不限于上述顺序，还可以以任何可能的顺序执行，本公开对此不作限制。例如，步骤701中获取含噪语音和获取第一说话人的纯净语音信号可按先后顺序或同时进行。又例如，步骤702中获得幅度谱与获得辅助向量的步骤可按相反顺序或同时进行。又例如，先执行步骤701中获取待增强的含噪语音信号，且执行步骤702中获取含噪语音信号的幅度谱，再执行步骤701中获取第一说话人的纯净语音信号，且执行步骤702获取纯净语音信号的特征向量；反之亦然。本公开不限于上述处理顺序，还可以有任何可能的处理顺序。

在步骤703，可将含噪语音信号的幅度谱和特征向量输入语音增强模型中的语音增强网络，获得估计的掩膜比。这里，掩膜比可以是原始目标值与含噪值的比值。在根据本公开的语音增强方案中，掩膜比可以是纯净语音幅度谱与含噪语音幅度谱的比值。例如，掩膜比可以是纯净语音频谱图与含噪语音频谱图的比值，且值域为[0,1]。

根据本公开的示例性实施例，可将特征向量扩充至与幅度谱相同的维度，将幅度谱与扩充后的特征向量进行串联以获得串联后的特征，并将串联后的特征作为语音增强网络的输入。

在步骤704，可根据估计的掩膜比，获得含噪语音信号中第一说话人的增强语音。

根据本发明的示例性实施例，可将幅度谱与估计的掩膜比相乘，获得估计的幅度谱，并将估计的幅度谱和含噪语音信号的相位谱结合并执行时频逆变换，获得增强语音。这里，含噪语音信号的相位谱也可通过对含噪语音信号执行时频变换来获得。例如，可将含噪语音信号通过短时傅里叶变换（Short-Time Fourier Transform，STFT）从时域变换到频域，获得每帧音频信号的相位信息，从而得到含噪语音信号的相位谱。含噪语音信号的幅度谱和相位谱可经过时频变换而同时获得。

参照图8，根据本公开的示例性实施例的语音增强模型的训练装置800可包括第一获取单元801、第二获取单元802、估计单元803、计算单元804和调参单元805。

第一获取单元801可获取多个说话人的语音样本，其中，每个说话人的语音样本包括含噪语音样本和第一纯净语音样本，其中，所述含噪语音样本是根据与说话人对应的第二纯净语音样本添加噪声数据得到的。

这里，每个说话人的第一纯净语音样本和第二纯净语音样本是指包括该说话人的纯净语音的语音样本。例如，第一获取单元801可获取每个说话人的多条不同的纯净语音样本，并将多条不同的纯净语音样本划分为第一纯净语音样本和第二纯净语音样本，使得第一纯净语音样本和第二纯净语音样本不同，即，该说话人的第一纯净语音样本中的纯净语音与该说话人的第二纯净语音样本中的纯净语音是互不相同的。此外，每个说话人的含噪语音样本是指包括该说话人的语音以及噪声（例如，环境噪声、其他人的语音等）的语音样本，其可由相应说话人的第二纯净语音样本和噪声数据混合而获得。例如，噪声数据可通过从网上下载、实际录制等方式获取到，并可按照一定的信号比在时域将第二纯净语音样本和噪声数据相加来产生含噪语音样本。

这里，对语音增强模型进行训练可采取批量输入语音样本的方式。例如，可获取G个说话人的语音样本，其中，每个说话人的语音样本可包括N个含噪语音样本和M个第一纯净语音样本，N和M可以相同也可以不同。其中，当要产生N个含噪语音样本时，需要N个第二纯净语音样本。因此，第一获取单元801可获取G×（N+M）个语音样本。并且可每批输入G×（N+M）个语音样本进入语音增强模型以进行训练。当然，这里为了描述方便假设每个说话人的含噪语音样本和纯净语音样本都分别为N和M，然而，每个说话人的含噪语音样本和纯净语音样本可以是互不相同的，本公开对此不作限制。

第二获取单元802可根据含噪语音样本和第一纯净语音样本，获取每个说话人对应的特征向量和含噪语音样本的幅度谱，其中，所述特征向量是使用特征提取网络提取第一纯净语言样本得到的。

根据本公开的示例性实施例，每个说话人的第二纯净语音样本可包括多个纯净语音样本，相应得到的每个说话人对应的所述含噪语音样本可包括多个含噪语音样本。第二获取单元802可对每个含噪语音样本执行时频变换，获得每个含噪语音样本的幅度谱和相位谱。例如，第二获取单元802可将每个含噪语音样本通过短时傅里叶变换（Short-TimeFourier Transform，STFT）从时域变换到频域，获得每帧音频信号的幅度信息和相位信息，从而得到该含噪语音样本的幅度谱和相位谱。

根据本公开的示例性实施例，每个说话人的第一纯净语音样本可包括多个纯净语音样本。第二获取单元802可将第一纯净语音样本包括的多条纯净语音样本的幅度谱输入特征提取网络以使用特征提取网络提取每个说话人的每个第一纯净语音样本的特征向量，以获得多个特征向量。这里，特征向量（辅助向量）可以是一个固定长度的n维特征向量，例如，256位的浮点数向量。

根据本公开的示例性实施例，特征提取网络的输入可以是纯净语音的梅尔对数幅度谱。特征提取网络的一种实现方式可以是3层的循环神经网络（Recurrent NeuralNetwork, RNN）。例如，特征提取网络的一种实现方式还可以是一种特殊的RNN，即，长短期记忆（Long short-term memory, LSTM）网络。其网络结构为三层LSTM进行上下文特征的聚合，然后取最后一帧的隐藏状态H经过全连接层（FC layer）投影为一个固定长度的n维特征向量。

当然，特征提取网络不限于上述网络或模型，还可以是其它任何可能实现特征提取功能的网络，本公开对此不作限制。此外，第一获取单元801和第二获取单元802的处理顺序不限于上述顺序，还可以以任何可能的顺序执行，本公开对此不作限制。例如，第一获取单元801获取每个说话人的含噪语音样本和获取第一纯净语音样本可按先后顺序或同时进行。又例如，第二获取单元802获得幅度谱与获得特征向量的步骤可按相反顺序或同时进行。又例如，第一获取单元801先执行获取含噪语音样本，且第二获取单元802执行获取含噪语音样本的幅度谱，第一获取单元801再执行获取第一纯净语音样本，且第二获取单元802执行获取第一纯净语音样本的特征向量；反之亦然。本公开不限于上述处理顺序，还可以有任何可能的处理顺序。

估计单元803可将幅度谱和特征向量输入语音增强网络，得到估计的掩膜比。这里，掩膜比（mask）通常是指原始目标值与含噪值的比值。在根据本公开的语音增强方案中，掩膜比可以是纯净语音信号幅度谱与含噪语音信号幅度谱的比值。例如，掩膜比可以是纯净语音频谱图与含噪语音频谱图的比值，且值域为[0,1]。

根据本公开的示例性实施例，估计单元803将每个说话人对应的多个特征向量求平均，获得每个说话人对应的平均特征向量；将每个说话人对应的平均特征向量扩充至与每个说话人对应的多个幅度谱相同的维度；分别将每个说话人的多个幅度谱与相应说话人的扩充后的平均特征向量进行串联以获得每个说话人对应的多个串联后的特征；将每个说话人对应的所述多个串联后的特征作为语音增强网络的输入。

根据本公开的示例性实施例，语音增强网络的一种实现方式可以是扩张卷积网络，例如，时间卷积网络（Temporal Convolution Network，TCN）。当然，语音增强网络不限于上述网络，还可以是任何可能的实现语音增强功能的网络，本公开对此不作限制。

计算单元804可根据估计的掩膜比确定估计的增强语音信号，根据估计的增强语音信号和第二纯净语音样本确定语音增强模型的损失函数。

根据本公开的示例性实施例，计算单元804可分别将幅度谱与估计的掩膜比相乘，获得估计的幅度谱，并将估计的幅度谱与含噪语音样本的相位谱结合并执行时频逆变换，以获得估计的增强语音，从而获得多个增强语音。

根据本公开的示例性实施例，计算单元804可基于估计的增强语音信号和第二纯净语音样本，计算语音失真度，作为语音增强模型的损失函数。

这里，语音失真度SDR可通过输入的多个第二纯净语音样本和相应得到的多个增强语音信号计算而获得。例如，计算单元804可针对每个第二纯净语音样本与相应的估计的增强语音信号计算语音失真度，以获得多个语音失真度，并对所述多个语音失真度求平均，获得最终的语音失真度。例如，针对单个第二纯净语音样本与相应的增强语音信号计算语音失真度SDR可如上述公式（7）所示。

根据本公开的示例性实施例，计算单元804可由多个说话人的特征向量中的相同说话人的特征向量的余弦相似度得分和多个说话人的特征向量中的不同说话人的辅助向量之间的余弦相似度得分计算得到交叉熵损失函数，并将语音失真度与交叉熵损失函数之和，作为最终的损失函数。

根据本公开的示例性实施例，针对由第二获取单元802获得的多个特征向量，计算单元804可计算每个说话人的特征向量的余弦相似度得分，以获得多个说话人的特征向量的余弦相似度得分，并对多个说话人的特征向量的余弦相似度得分求平均，获得相同说话人的特征向量的余弦相似度得分；并可计算两两说话人的特征向量的余弦相似度得分，以获得多个两两说话人的特征向量的余弦相似度得分，并对多个两两说话人的特征向量的余弦相似度得分求平均，获得不同说话人的特征向量的余弦相似度得分。随后计算单元804可基于相同说话人的特征向量的余弦相似度得分和不同说话人的特征向量的余弦相似度得分计算交叉熵损失函数。例如，交叉熵损失函数可如上述公式（8）所示。

因此，计算单元804可基于语音失真度和交叉熵损失函数之和，计算最终的损失函数。例如，损失函数loss可如上述公式（9）所示。

因此，调参单元805可基于计算出的损失函数调整特征提取网络和语音增强网络的模型参数，对语音增强模型进行训练。利用此损失函数对特征提取网络和语音增强网络进行训练，可保证特征提取网络提取出的辅助向量兼具辨识说话人和语音增强的能力，且同一说话人的不同语句所提取出的向量差别不大，即语音增强模型的泛化能力强。

参照图9，根据本公开的示例性实施例的对特定说话人进行语音增强的装置900可包括第一获取单元901、第二获取单元902、估计单元903和增强单元904。

第一获取单元901可获取待增强的含噪语音信号和第一说话人的纯净语音信号。这里，含噪语音信号包括第一说话人的语音以及噪声，噪声可以包括环境噪声和其他人的说话语音。例如，在多人会议的情况下，第一说话人可以是主讲人，含噪语音信号可以是包括主讲人的语音、其他人的语音和环境噪声的混合语音，第一说话人的纯净语音可以是主讲人的纯净语音（例如，在安静的环境下录制的语音）。

第二获取单元902可基于第一说话人的纯净语音信号和含噪语音信号，获取第一说话人对应的特征向量以及含噪语音信号的幅度谱。

根据本公开的示例性实施例，第二获取单元902可对含噪语音信号执行时频变换，获得幅度谱。例如，增强单元902可将含噪语音信号通过短时傅里叶变换（Short-TimeFourier Transform，STFT）从时域变换到频域，获得每帧音频信号的幅度信息，从而得到含噪语音信号的幅度谱。

此外，第一获取单元901和第二获取单元902的处理顺序不限于上述顺序，还可以以任何可能的顺序实现上述功能，本公开对此不作限制。例如，第一获取单元901获取含噪语音和获取第一说话人的纯净语音信号可按先后顺序或同时进行。又例如，第二获取单元902获得幅度谱与获得辅助向量的步骤可按相反顺序或同时进行。又例如，第一获取单元901可先获取待增强的含噪语音信号，且第二获取单元902获取含噪语音信号的幅度谱，第一获取单元901可再获取第一说话人的纯净语音信号，且第二获取单元902获取纯净语音信号的特征向量；反之亦然。本公开不限于上述处理顺序，还可以有任何可能的处理顺序。

随后，估计单元903可将含噪语音信号的幅度谱和特征向量输入语音增强模型中的语音增强网络，获得估计的掩膜比。这里，掩膜比可以是原始目标值与含噪值的比值。在根据本公开的语音增强方案中，掩膜比可以是纯净语音幅度谱与含噪语音幅度谱的比值。例如，掩膜比可以是纯净语音频谱图与含噪语音频谱图的比值，且值域为[0,1]。

根据本公开的示例性实施例，估计单元903可将特征向量扩充至与幅度谱相同的维度，将幅度谱与扩充后的特征向量进行串联以获得串联后的特征，并将串联后的特征作为语音增强网络的输入。

随后，增强单元904可可根据估计的掩膜比，获得含噪语音信号中第一说话人的增强语音。

根据本发明的示例性实施例，增强单元904可将幅度谱与估计的掩膜比相乘，获得估计的幅度谱，并将估计的幅度谱和含噪语音信号的相位谱结合并执行时频逆变换（例如，ISTFT），获得增强语音。这里，含噪语音信号的相位谱也可通过对含噪语音信号执行时频变换来获得。例如，可将含噪语音信号通过短时傅里叶变换（Short-Time FourierTransform，STFT）从时域变换到频域，获得每帧音频信号的相位信息，从而得到含噪语音信号的相位谱。含噪语音信号的幅度谱和相位谱可经过时频变换而同时获得。

图10是根据本公开的示例性实施例的电子设备1000的框图。

参照图10，电子设备1000包括至少一个存储器1001和至少一个处理器1002，所述至少一个存储器1001中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器1002执行时，执行根据本公开的示例性实施例的语音增强模型的训练方法或语音增强方法。

作为示例，电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令（或指令集）的装置或电路的集合体。电子设备1000还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程（例如，经由无线传输）以接口互联的便携式电子设备。

在电子设备1000中，处理器1002可包括中央处理器（CPU）、图形处理器（GPU）、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器1002可运行存储在存储器1001中的指令或代码，其中，存储器1001还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器1001可与处理器1002集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1001可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储器1001和处理器1002可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器1002能够读取存储在存储器中的文件。

此外，电子设备1000还可包括视频显示器（诸如，液晶显示器）和用户交互接口（诸如，键盘、鼠标、触摸输入装置等）。电子设备1000的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的语音增强模型的训练方法或语音增强方法。这里的计算机可读存储介质的示例包括：只读存储器（ROM）、随机存取可编程只读存储器（PROM）、电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器（HDD）、固态硬盘（SSD）、卡式存储器（诸如，多媒体卡、安全数字（SD）卡或极速数字（XD）卡）、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的语音增强模型的训练方法或语音增强方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音增强模型的训练方法，其特征在于，所述语音增强模型包括特征提取网络和语音增强网络，所述训练方法包括：

获取多个说话人的语音样本，其中，每个说话人的语音样本包括含噪语音样本和第一纯净语音样本，其中，所述含噪语音样本是根据与说话人对应的第二纯净语音样本添加噪声数据得到的；

根据所述含噪语音样本和第一纯净语音样本，获取每个说话人对应的特征向量和所述含噪语音样本的幅度谱，其中，所述特征向量是使用所述特征提取网络提取第一纯净语言样本得到的；

将所述幅度谱和所述特征向量输入所述语音增强网络，得到估计的掩膜比，其中，所述掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；

根据所述估计的掩膜比确定估计的增强语音信号，根据估计的增强语音信号和第二纯净语音样本确定所述语音增强模型的损失函数；

通过根据所述损失函数调整所述特征提取网络和所述语音增强网络的模型参数，对所述语音增强模型进行训练。

2.如权利要求1所述的训练方法，其特征在于，第一纯净语音样本和第二纯净语音样本不同。

3.如权利要求1所述的训练方法，其特征在于，每个说话人的第一纯净语音样本包括多条纯净语音样本；

其中，所述获取每个说话人对应的特征向量，包括：

将所述多条纯净语音样本的幅度谱输入所述特征提取网络，获得每个说话人对应的多个特征向量。

4.如权利要求3所述的训练方法，其特征在于，每个说话人的第二纯净语音样本包括多条纯净语音样本，相应得到的每个说话人对应的所述含噪语音样本包括多条含噪语音样本；

其中，所述获取每个说话人对应的所述含噪语音样本的幅度谱，包括：

分别提取所述多条含噪语音样本的幅度谱以获得每个说话人对应的多个幅度谱。

5.如权利要求4所述的训练方法，其特征在于，所述将所述幅度谱和所述特征向量输入所述语音增强网络，得到估计的掩膜比，包括：

将每个说话人对应的所述多个特征向量求平均，获得每个说话人对应的平均特征向量；

将每个说话人对应的平均特征向量扩充至与每个说话人对应的所述多个幅度谱相同的维度；

分别将每个说话人的所述多个幅度谱与相应说话人的扩充后的平均特征向量进行串联以获得每个说话人对应的多个串联后的特征；

将每个说话人对应的所述多个串联后的特征作为所述语音增强网络的输入。

6.如权利要求1所述的训练方法，其特征在于，所述根据所述估计的掩膜比确定估计的增强语音信号，包括：

分别将所述幅度谱与所述估计的掩膜比相乘，获得估计的幅度谱，并将所述估计的幅度谱与所述含噪语音样本的相位谱结合并执行时频逆变换，以获得估计的增强语音。

7.如权利要求1所述的训练方法，其特征在于，所述根据估计的增强语音信号和第二纯净语音样本确定所述语音增强模型的损失函数，包括：

基于估计的增强语音信号和第二纯净语音样本，计算语音失真度，作为所述损失函数。

8.如权利要求7所述的训练方法，其特征在于，所述根据估计的增强语音信号和第二纯净语音样本确定所述语音增强模型的损失函数，还包括：

基于所述多个说话人的特征向量中的相同说话人的特征向量的余弦相似度得分和所述多个说话人的特征向量中的不同说话人的特征向量之间的余弦相似度得分，计算交叉熵损失函数；

将所述语音失真度与所述交叉熵损失函数之和，作为最终的所述损失函数。

9.如权利要求7所述的训练方法，其特征在于，所述基于估计的增强语音信号和第二纯净语音样本，计算语音失真度，包括：

针对每个第二纯净语音样本与相应的估计的增强语音信号计算语音失真度，以获得多个语音失真度，并对所述多个语音失真度求平均，获得所述语音失真度。

10.如权利要求8所述的训练方法，其特征在于，所述基于所述多个说话人的特征向量中的相同说话人的特征向量的余弦相似度得分和所述多个说话人的特征向量中的不同说话人的特征向量之间的余弦相似度得分，计算交叉熵损失函数，包括：

计算每个说话人的特征向量的余弦相似度得分，以获得多个说话人的特征向量的余弦相似度得分，并对所述多个说话人的特征向量的余弦相似度得分求平均，获得所述相同说话人的特征向量的余弦相似度得分；

计算两两说话人的特征向量的余弦相似度得分，以获得多个两两说话人的特征向量的余弦相似度得分，并对所述多个两两说话人的特征向量的余弦相似度得分求平均，获得所述不同说话人的特征向量的余弦相似度得分；

基于所述相同说话人的特征向量的余弦相似度得分和所述不同说话人的特征向量的余弦相似度得分计算所述交叉熵损失函数。

11.如权利要求8所述的训练方法，其特征在于，最终的所述损失函数被表示为：

其中，

，

，

其中，

表示最终的所述损失函数，

表示所述语音失真度，

表示所述相同说话人的特征向量之间的余弦相似度得分，

，

表示向量参数a中期望为1的元素的下标，

。

12.如权利要求1所述的训练方法，其特征在于，在所述训练方法执行前，所述特征提取网络是预训练的用于说话人识别的特征提取网络。

13.一种语音增强方法，其特征在于，包括：

获取待增强的含噪语音信号和第一说话人的纯净语音信号，其中，所述含噪语音信号包括第一说话人的语音；

基于第一说话人的纯净语音信号和所述含噪语音信号，获取第一说话人对应的特征向量以及所述含噪语音信号的幅度谱，其中，所述特征向量是使用语音增强模型中的特征提取网络提取所述纯净语音信号获得的，其中，所述语音增强模型包括所述特征提取网络和语音增强网络；

将所述含噪语音信号的幅度谱和所述特征向量输入所述语音增强网络，获得估计的掩膜比，其中，所述掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；

根据所述估计的掩膜比，获得所述含噪语音信号中第一说话人的增强语音。

14.如权利要求13所述的语音增强方法，其特征在于，所述含噪语音信号除了包括第一说话人的语音之外，还包括其他说话人的语音。

15.如权利要求13所述的语音增强方法，其特征在于，第一说话人的纯净语音是预先录制的第一说话人的纯净语音片段。

16.如权利要求13所述的语音增强方法，其特征在于，所述将所述含噪语音信号的幅度谱和所述特征向量输入所述语音增强网络，获得估计的掩膜比，包括：

将所述特征向量扩充至与所述幅度谱相同的维度；

将所述幅度谱与扩充后的特征向量进行串联以获得串联后的特征；

将所述串联后的特征作为所述语音增强网络的输入。

17.如权利要求13所述的语音增强方法，其特征在于，所述根据所述估计的掩膜比，获得所述含噪语音信号中第一说话人的增强语音，包括：

将所述幅度谱与所述估计的掩膜比相乘，获得估计的幅度谱，

将所述估计的幅度谱和所述含噪语音信号的相位谱结合并执行时频逆变换，获得所述增强语音。

18.如权利要求13所述的语音增强方法，其特征在于，所述语音增强模型是使用如权利要求1至12中任意一项权利要求所述的训练方法训练得到的。

19.一种语音增强模型的训练装置，其特征在于，所述语音增强模型包括特征提取网络和语音增强网络，所述训练装置包括：

第一获取单元，被配置为：获取多个说话人的语音样本，其中，每个说话人的语音样本包括含噪语音样本和第一纯净语音样本，其中，所述含噪语音样本是根据与说话人对应的第二纯净语音样本添加噪声数据得到的；

第二获取单元，被配置为：根据所述含噪语音样本和第一纯净语音样本，获取每个说话人对应的特征向量和所述含噪语音样本的幅度谱，其中，所述特征向量是使用所述特征提取网络提取第一纯净语言样本得到的；

估计单元，被配置为：将所述幅度谱和所述特征向量输入所述语音增强网络，得到估计的掩膜比，其中，所述掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；

计算单元，被配置为：根据所述估计的掩膜比确定估计的增强语音信号，根据估计的增强语音信号和第二纯净语音样本确定所述语音增强模型的损失函数；

调参单元，被配置为：通过根据所述损失函数调整所述特征提取网络和所述语音增强网络的模型参数，对所述语音增强模型进行训练。

20.如权利要求19所述的训练装置，其特征在于，第一纯净语音样本和第二纯净语音样本不同。

21.如权利要求19所述的训练装置，其特征在于，每个说话人的第一纯净语音样本包括多条纯净语音样本；

其中，第二获取单元被配置为：

22.如权利要求21所述的训练装置，其特征在于，每个说话人的第二纯净语音样本包括多条纯净语音样本，相应得到的每个说话人对应的所述含噪语音样本包括多条含噪语音样本；

其中，第二获取单元被配置为：

23.如权利要求22所述的训练装置，其特征在于，估计单元被配置为：

24.如权利要求19所述的训练装置，其特征在于，计算单元被配置为：

25.如权利要求19所述的训练装置，其特征在于，计算单元被配置为：

26.如权利要求25所述的训练装置，其特征在于，计算单元还被配置为：

27.如权利要求25所述的训练装置，其特征在于，计算单元被配置为：

28.如权利要求26所述的训练装置，其特征在于，计算单元被配置为：

29.如权利要求26所述的训练装置，其特征在于，最终的所述损失函数被表示为：

其中，

，

，

其中，

表示最终的所述损失函数，

表示所述语音失真度，

表示所述相同说话人的特征向量之间的余弦相似度得分，

，

表示向量参数a中期望为1的元素的下标，

。

30.如权利要求19所述的训练装置，其特征在于，在所述训练方法执行前，所述特征提取网络是预训练的用于说话人识别的特征提取网络。

31.一种语音增强装置，其特征在于，包括：

第一获取单元，被配置为：获取待增强的含噪语音信号和第一说话人的纯净语音信号，其中，所述含噪语音信号包括第一说话人的语音；

第二获取单元，被配置为：基于第一说话人的纯净语音信号，获取第一说话人对应的特征向量以及所述含噪语音信号的幅度谱，其中，所述特征向量是使用语音增强模型中的特征提取网络提取所述纯净语音信号获得的，其中，所述语音增强模型包括所述特征提取网络和语音增强网络；

估计单元，被配置为：将所述含噪语音信号的幅度谱和所述特征向量输入所述语音增强网络，获得估计的掩膜比，其中，所述掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；

增强单元，被配置为：根据所述估计的掩膜比，获得所述含噪语音信号中第一说话人的增强语音。

32.如权利要求31所述的语音增强装置，其特征在于，所述含噪语音信号除了包括第一说话人的语音之外，还包括其他说话人的语音。

33.如权利要求31所述的语音增强装置，其特征在于，第一说话人的纯净语音是预先录制的第一说话人的纯净语音片段。

34.如权利要求31所述的语音增强装置，其特征在于，估计单元被配置为：

将所述特征向量扩充至与所述幅度谱相同的维度；

将所述串联后的特征作为所述语音增强网络的输入。

35.如权利要求31所述的语音增强装置，其特征在于，增强单元被配置为：

36.如权利要求31所述的语音增强装置，其特征在于，所述语音增强模型是使用如权利要求1至12中任意一项权利要求所述的训练方法训练得到的。

37.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到12中的任一权利要求所述的语音增强模型的训练方法或如权利要求13到18中的任一权利要求所述的语音增强方法。

38.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到12中的任一权利要求所述的语音增强模型的训练方法或如权利要求13到18中的任一权利要求所述的语音增强方法。