CN112927707B

CN112927707B - 语音增强模型的训练方法和装置及语音增强方法和装置

Info

Publication number: CN112927707B
Application number: CN202110096168.7A
Authority: CN
Inventors: 张新; 张旭; 郑羲光; 张晨; 郭亮
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2023-10-03
Anticipated expiration: 2041-01-25
Also published as: CN112927707A

Abstract

本公开关于一种语音增强模型的训练方法和装置及语音增强方法和装置，所述训练方法包括：获取多个说话人的含噪语音样本和第一纯净语音样本的特征向量，其中，每个说话人的含噪语音样本是根据与该说话人对应的第二纯净语音样本添加噪声数据得到的；将含噪语音样本的幅度谱输入语音增强网络，得到估计的第一掩膜比；将估计的第一掩膜比和特征向量输入到注意力机制网络，得到估计的第二掩膜比；根据估计的第二掩膜比和幅度谱，确定估计的幅度谱，并根据估计的幅度谱和第二纯净语音样本的幅度谱确定语音增强模型的损失函数；通过根据损失函数调整语音增强网络和注意力机制网络的参数，对语音增强模型进行训练。

Description

语音增强模型的训练方法和装置及语音增强方法和装置

技术领域

本公开涉及音频技术领域，更具体地说，涉及一种语音增强模型的训练方法和装置及语音增强方法和装置。

背景技术

嘈杂的环境会影响人们在语音沟通中的效果，在当前的主流通讯软件中，通常采用不同语音增强算法实现对通话过程中含噪音频进行处理，传统方法可以实现对稳态噪声的处理，优点是运算复杂度低，深度学习方法通常用来去除瞬态噪声，效果较传统方法要好，但是运算复杂度高。

含噪语音中通常会含有背景噪声或其他说话人的声音，为了提高沟通效率，需要获取特定说话人的纯净语音，常规的语音增强可以做到去除背景噪声，分理出各个说话人的声音，但是仍然面临着说话人的排序问题，不知道应该输出哪个说话人的声音，因此针对特定说话人的语音增强的效果一般。

发明内容

本公开提供一种语音增强模型的训练方法和装置及语音增强方法和装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种语音增强模型的训练方法，所述语音增强模型包括语音增强网络和注意力机制网络，所述训练方法包括：获取多个说话人的含噪语音样本和所述多个说话人的第一纯净语音样本的特征向量，其中，每个说话人的含噪语音样本是根据与该说话人对应的第二纯净语音样本添加噪声数据得到的；将所述含噪语音样本的幅度谱输入所述语音增强网络，得到估计的第一掩膜比，其中，掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到估计的第二掩膜比；根据所述估计的第二掩膜比和所述幅度谱，确定估计的幅度谱，并根据所述估计的幅度谱和第二纯净语音样本的幅度谱确定所述语音增强模型的损失函数；通过根据所述损失函数调整所述语音增强网络和所述注意力机制网络的参数，对所述语音增强模型进行训练。

可选地，第一纯净语音样本和第二纯净语音样本可不同。

可选地，所述特征向量可使用特征提取网络对第一纯净语言样本进行特征提取而得到。

可选地，所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到第二掩膜比，可包括：将每个说话人的特征向量扩充至与每个说话人对应的所述估计的第一掩膜比相同的维度；分别将每个说话人对应的所述估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的串联特征；将每个说话人对应的所述串联特征作为所述注意力机制网络的输入。

可选地，所述注意力机制网络可包括线性变换层、第一矩阵乘法层、缩放层、柔性最大值传输函数层、第二矩阵乘法层，其中，所述线性变换层包括三个全连接层，其中，所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到估计的第二掩膜比，可包括：将所述串联特征输入所述线性变换层的三个全连接层，分别获得第一特征向量、第二特征向量和第三特征向量；将第一特征向量和第二特征向量输入所述第一矩阵乘法层，以将第一特征向量和第二特征向量进行矩阵相乘，获得内积特征向量；将所述内积特征向量输入所述缩放层，以将所述内积特征向量除以预定值以进行缩放，获得第一掩膜比分数；将第一掩膜比分数输入所述柔性最大值传输函数层，以将第一掩膜比分数经过柔性最大值传输函数，获得第二掩膜比分数；将第二掩膜比分数和第三特征向量输入所述第二矩阵乘法层，以将第二掩膜比分数和第三特征向量进行矩阵相乘，获得所述估计的第二掩膜比。

可选地，所述根据所述估计的第二掩膜比和所述幅度谱，确定估计的幅度谱，并根据所述估计的幅度谱和第二纯净语音样本的幅度谱确定所述语音增强模型的损失函数，可包括：将所述估计的第二掩膜比与所述幅度谱相乘，获得所述估计的幅度谱；计算所述估计的幅度谱和相应的第二纯净语音样本的幅度谱的均方误差，作为所述损失函数。

可选地，每个说话人的第一纯净语音样本可包括多条纯净语音样本；所述特征向量可通过对使用特征提取网络对所述多条纯净语言样本进行特征提取而得到的多个特征向量求平均而得到。

可选地，每个说话人的第二纯净语音样本可包括多条纯净语音样本，相应得到的每个说话人对应的所述含噪语音样本可包括多条含噪语音样本。

可选地，所述将所述含噪语音样本的幅度谱输入所述语音增强网络，得到估计的第一掩膜比，可包括：根据所述多条含噪语音样本获得多个幅度谱；将所述多个幅度谱输入所述语音增强网络，得到多个估计的第一掩膜比；其中，所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到第二掩膜比，可包括：将所述多个估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到多个估计的第二掩膜比；其中，所述根据所述估计的第二掩膜比和所述幅度谱，确定估计的幅度谱，并根据所述估计的幅度谱和第二纯净语音样本的幅度谱确定所述语音增强模型的损失函数，可包括：将所述多个估计的第二掩膜比分别与相应的含噪语音样本的幅度谱相乘，确定多个估计的幅度谱；分别计算所述多个估计的幅度谱和相应的第二纯净语音样本的幅度谱的均方误差，以获得多个均方误差，并对所述多个均方误差求平均，获得平均均方误差，作为所述损失函数。

可选地，所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到估计的第二掩膜比，可包括：将每个说话人的特征向量扩充至与每个说话人对应的所述多个估计的第一掩膜比相同的维度；分别将每个说话人对应的所述多个估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的多个串联特征；将每个说话人对应的所述多个串联特征作为所述注意力机制网络的输入。

根据本公开实施例的第二方面，提供一种语音增强方法，包括：获取待增强的含噪语音信号和第一说话人的纯净语音信号的特征向量，其中，所述含噪语音信号包括第一说话人的语音；将所述含噪语音信号的幅度谱输入语音增强模型中的语音增强网络，得到估计的第一掩膜比，其中，掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值，其中，所述语音增强模型包括所述语音增强网络和注意力机制网络；将所述估计的第一掩膜比和所述特征向量输入所述注意力机制网络，得到估计的第二掩膜比；根据所述估计的第二掩膜比，获得所述含噪语音信号中第一说话人的增强语音。

可选地，所述含噪语音信号除了包括第一说话人的语音之外，还可包括其他说话人的语音。

可选地，第一说话人的纯净语音信号可以是预先录制的第一说话人的纯净语音片段。

可选地，所述将所述估计的第一掩膜比和所述特征向量输入所述注意力机制网络，得到估计的第二掩膜比，可包括：将所述特征向量扩充至与所述估计的第一掩膜比相同的维度；将所述估计的第一掩膜比与扩充后的特征向量进行串联以获得串联特征；将所述串联特征作为所述注意力机制网络的输入。

可选地，所述注意力机制网络可包括线性变换层、第一矩阵乘法层、缩放层、柔性最大值传输函数层、第二矩阵乘法层，其中，所述线性变换层包括三个全连接层，其中，所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到估计的第二掩膜比，可包括：将所述串联特征输入所述线性变换层的三个全连接层，分别获得第一特征向量、第二特征向量和第三特征向量；将第一特征向量和第二特征向量输入所述第一矩阵乘法层，以将第一特征向量和第二特征向量进行矩阵相乘，获得内积特征向量；将所述内积特征向量输入所述缩放层，以将所述内积特征向量除以预定值以进行缩放，获得第一掩膜比分数；将第一掩膜比分数输入所述柔性最大值传输函数层，以将所述掩膜比分数经过柔性最大值传输函数，获得第二掩膜比分数；将第二掩膜比分数和第三特征向量输入所述第二矩阵乘法层，以将第二掩膜比分数和第三特征向量进行矩阵相乘，获得所述估计的第二掩膜比。

可选地，根据所述估计的第二掩膜比，获得所述含噪语音信号中第一说话人的增强语音，可包括：将所述幅度谱与所述估计的第二掩膜比相乘，获得估计的幅度谱，将所述估计的幅度谱和所述含噪语音信号的相位谱结合并执行时频逆变换，获得所述增强语音。

可选地，所述语音增强模型可使用根据本公开的训练方法训练得到的。

根据本公开实施例的第三方面，提供一种语音增强模型的训练装置，所述语音增强模型包括特征提取网络和语音增强网络，所述训练装置包括：获取单元，被配置为：获取多个说话人的含噪语音样本和所述多个说话人的第一纯净语音样本的特征向量，其中，每个说话人的含噪语音样本是根据与该说话人对应的第二纯净语音样本添加噪声数据得到的；第一估计单元，被配置为：将所述含噪语音样本的幅度谱输入所述语音增强网络，得到估计的第一掩膜比，其中，掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；第二估计单元，被配置为：将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到估计的第二掩膜比；计算单元，被配置为：根据所述估计的第二掩膜比和所述幅度谱，确定估计的幅度谱，并根据所述估计的幅度谱和第二纯净语音样本的幅度谱确定所述语音增强模型的损失函数；调参单元，被配置为：通过根据所述损失函数调整所述语音增强网络和所述注意力机制网络的参数，对所述语音增强模型进行训练。

可选地，第一纯净语音样本和第二纯净语音样本可不同。

可选地，第二估计单元可被配置为：将每个说话人的特征向量扩充至与每个说话人对应的所述估计的第一掩膜比相同的维度；分别将每个说话人对应的所述估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的串联特征；将每个说话人对应的所述串联特征作为所述注意力机制网络的输入。

可选地，所述注意力机制网络可包括线性变换层、第一矩阵乘法层、缩放层、柔性最大值传输函数层、第二矩阵乘法层，其中，所述线性变换层包括三个全连接层，其中，第二估计单元可被配置为：将所述串联特征输入所述线性变换层的三个全连接层，分别获得第一特征向量、第二特征向量和第三特征向量；将第一特征向量和第二特征向量输入所述第一矩阵乘法层，以将第一特征向量和第二特征向量进行矩阵相乘，获得内积特征向量；将所述内积特征向量输入所述缩放层，以将所述内积特征向量除以预定值以进行缩放，获得第一掩膜比分数；将第一掩膜比分数输入所述柔性最大值传输函数层，以将第一掩膜比分数经过柔性最大值传输函数，获得第二掩膜比分数；将第二掩膜比分数和第三特征向量输入所述第二矩阵乘法层，以将第二掩膜比分数和第三特征向量进行矩阵相乘，获得所述估计的第二掩膜比。

可选地，计算单元可被配置为：将所述估计的第二掩膜比与所述幅度谱相乘，获得所述估计的幅度谱；计算所述估计的幅度谱和相应的第二纯净语音样本的幅度谱的均方误差，作为所述损失函数。

可选地，第一估计单元可被配置为：根据所述多条含噪语音样本获得多个幅度谱；将所述多个幅度谱输入所述语音增强网络，得到多个估计的第一掩膜比；其中，第二估计单元可被配置为：将所述多个估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到多个估计的第二掩膜比；其中，计算单元可被配置为：将所述多个估计的第二掩膜比分别与相应的含噪语音样本的幅度谱相乘，确定多个估计的幅度谱；分别计算所述多个估计的幅度谱和相应的第二纯净语音样本的幅度谱的均方误差，以获得多个均方误差，并对所述多个均方误差求平均，获得平均均方误差，作为所述损失函数。

可选地，第二估计单元可被配置为：将每个说话人的特征向量扩充至与每个说话人对应的所述多个估计的第一掩膜比相同的维度；分别将每个说话人对应的所述多个估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的多个串联特征；将每个说话人对应的所述多个串联特征作为所述注意力机制网络的输入。

根据本公开实施例的第四方面，提供一种语音增强装置，包括：获取单元，被配置为：获取待增强的含噪语音信号和第一说话人的纯净语音信号的特征向量，其中，所述含噪语音信号包括第一说话人的语音；第一估计单元，被配置为：将所述含噪语音信号的幅度谱输入语音增强模型中的语音增强网络，得到估计的第一掩膜比，其中，掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值，其中，所述语音增强模型包括所述语音增强网络和注意力机制网络；第二估计单元，被配置为：将所述估计的第一掩膜比和所述特征向量输入所述注意力机制网络，得到估计的第二掩膜比；增强单元，被配置为：根据所述估计的第二掩膜比，获得所述含噪语音信号中第一说话人的增强语音。

可选地，第二估计单元可被配置为：将所述特征向量扩充至与所述估计的第一掩膜比相同的维度；将所述估计的第一掩膜比与扩充后的特征向量进行串联以获得串联特征；将所述串联特征作为所述注意力机制网络的输入。

可选地，增强单元可被配置为：将所述幅度谱与所述估计的第二掩膜比相乘，获得估计的幅度谱，将所述估计的幅度谱和所述含噪语音信号的相位谱结合并执行时频逆变换，获得所述增强语音。

可选地，所述语音增强模型可使用根据本公开的训练方法训练得到。

根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的语音增强模型的训练方法或语音增强方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的语音增强模型的训练方法或语音增强方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的语音增强模型的训练方法或语音增强方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的语音增强模型的训练方法和训练装置以及语音增强方法和语音增强装置，可采用语音增强网络从含噪语音中提取掩膜比值，采用特定说话人纯净语音的特征向量辅助输入，并利用注意力机制将特征向量与语音增强网络输出的掩膜比值进行融合，使得针对特定说话人的语音增强能力得到进一步的提升，增强后的语音在各类指标(例如，PESQ(Perceptual evaluation of speech quality，语音质量感知评价)、STOI(Short-Time Objective Intelligibility，短时可懂度，用于向量语言的可懂度)、SI-SNR(scale-invariant signal-noise ratio，尺度无关信噪比，用于衡量去除噪声量的多少)等)都有明显的提升。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的语音增强模型的整体***示意图。

图2是示出根据本公开的示例性实施例的语音增强模型的训练方法的流程图。

图3是示出根据本公开的示例性实施例的特征提取网络的结构示意图。

图4是示出根据本公开的另一示例性实施例的特征提取网络的结构示意图。

图5是示出根据本公开的示例性实施例的语音增强网络的结构示意图。

图6是示出根据本公开的另一示例性实施例的语音增强网络的结构示意图。

图7是示出根据本公开的示例性实施例的GRU结构示意图。

图8是示出根据本公开的示例性实施例的注意力机制网络的结构示意图。

图9是示出根据本公开的示例性实施例的语音增强方法的流程图。

图10是示出根据本公开的示例性实施例的语音增强模型的训练装置的框图。

图11是示出根据本公开的示例性实施例的语音增强装置的框图。

图12是根据本公开的示例性实施例的电子设备1200的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

通常，从多个说话人中分离出各个说话人的问题称为语音分离(SpeechSeparation)，该模型需要说话人个数的先验信息，且根据理想二维掩膜比(Ideal BinaryMask,IBM)的实验显示，说话声音较弱的说话人被分离出的语音质量较低，因此实际应用中效果较差。此外，从含背景噪声的含噪语音中分离出纯净语音的问题被称为(SpeechEnhancement)，该模型不需要任何先验信息，但是分离出得纯净语音可能是多个说话人的混合语音，达不到对特定说话人语音增强的目的。

现有的特定说话人语音增强方案，采用了一种使用预训练的说话人识别模型中提取出的d-vector作为辅助输入特征，完成对于特定说话人的语音增强。其做法是将由特定说话人纯净语音经过说话人编码器输出的d-vector在LSTM(Long Short Term Memory，长短期记忆)模块中与含有其他说话人语音的进行并联，训练出的网络就会倾向提取该特定说话人的语音。然而该方案中采用的特征融合方法较为简单，且所使用的辅助特征向量是以说话人识别为目标进行训练的，因此带来的效果也比较有限。

为了提升在复杂的含噪语音中针对特定说话人的语音增强的效果，本公开提出了一种新颖的语音增强模型的训练方法和装置及语音增强方法和装置，具体地说，语音增强模型可包括语音增强网络和注意力机制网络，采用语音增强网络从含噪语音中提取掩膜比值(这里，掩膜比值可指原始纯净语音幅度谱与带噪语音幅度谱的比值，利用神经网络进行音频去噪和增强时，一般在时频域进行处理，且选用掩膜比值作为网络学习的目标网络往往能获得良好的收敛性能和效果)，并采用特定说话人纯净语音的特征向量辅助输入，采用了在图像、自然语言处理领域经常使用的注意力机制将特征向量与语音增强网络输出的掩膜比值进行融合，使得针对特定说话人的语音增强能力得到进一步的提升。

下面，将参照图1至图12具体描述根据本公开的示例性实施例的语音增强模型的训练方法和训练装置以及语音增强方法和语音增强装置。

参照图1，根据本公开的语音增强模型可包括语音增强网络和注意力机制网络，语音增强网络用于从包括多个说话人的含噪语音中对特定说话人的语音进行增强，注意力机制网络用于将从特定说话人的纯净语音提取的特定向量与语音增强网络经过多头自注意力机制进行融合。

具体地说，可对含噪语音进行时频变换(例如，短时傅里叶变换(Short-TimeFourier Transform，STFT))，获得幅度谱和相位谱。可将获得的幅度谱输入语音增强网络，获得估计的掩膜比mask_A。此外，可获取特定说话人的纯净语音特征向量，作为辅助向量。这里，特定说话人的纯净语音特征向量可以是通过训练好的特征提取网络对特定说话人的纯净语音进行特征提取而获得的。将语音增强网络输出的掩膜比mask_A和获取的辅助向量输入注意力机制网络，使掩膜比mask_A和辅助向量经过多头自注意力机制进行融合，以输出新的估计的掩膜比mask_B。可将获得的掩膜比mask_B与获得的幅度谱点乘，获得估计的幅度谱。将获得的相位谱和估计的幅度谱结合并进行时频逆变换(例如，短时傅里叶逆变换(Inverse Short-Time Fourier Transform，ISTFT))，获得特定说话人的增强语音。

可基于训练样本以及相应获得的特定说话人的增强语音，利用损失函数，对语音增强模型中的语音增强网络和注意力机制网络一起进行训练，以更新语音增强网络和注意力机制网络的参数。在对语音增强模型训练之后，可将训练好的语音增强模型投入实际应用场景进行使用。此外，提取特定说话人的纯净语音的特征向量的过程可以在离线进行完成，降低了实时处理时的运算量，使得特定人的语音增强可以实时进行。

参照图2，在步骤201，可获取多个说话人的含噪语音样本和所述多个说话人的第一纯净语音样本的特征向量，其中，每个说话人的含噪语音样本是根据与该说话人对应的第二纯净语音样本添加噪声数据得到的。

这里，每个说话人的第一纯净语音样本和第二纯净语音样本是指包括该说话人的纯净语音的语音样本。例如，可获取每个说话人的多条不同的纯净语音样本，并将多条不同的纯净语音样本划分为第一纯净语音样本和第二纯净语音样本，使得第一纯净语音样本和第二纯净语音样本不同，即，该说话人的第一纯净语音样本中的纯净语音与该说话人的第二纯净语音样本中的纯净语音是互不相同的。根据本公开的示例性实施例，每个说话人的第一纯净语音样本包括一条或多条，每个说话人的第二纯净语音样本可包括多条，且相应获得的含噪语音样本也为多条。

此外，每个说话人的含噪语音样本是指包括该说话人的语音以及噪声(例如，环境噪声、其他人的语音等)的语音样本，其可由相应说话人的第二纯净语音样本和噪声数据混合而获得。例如，噪声数据可通过从网上下载、实际录制等方式获取到，并可按照一定的信号比在时域将第二纯净语音样本和噪声数据相加来产生含噪语音样本。

根据本公开的示例性实施例，第一纯净语音样本的特征向量可以是使用特征提取网络对第一纯净语言样本进行特征提取而得到。即，可将第一纯净语音样本输入预先训练好的特征提取网络，从而提取特征向量。这里，特征提取网络可以是文本无关的说话人识别模型，即，任意特定说话人的纯净语音，提取出的特征向量都是相似的。根据本公开的示例性实施例，每个说话人的第一纯净语音样本可包括多条纯净语音样本；第一纯净语音样本的特征向量可以是通过对使用特征提取网络对多条纯净语言样本进行特征提取而得到的多个特征向量求平均而得到的。例如，特征向量(辅助向量)可以是一个固定长度的n维特征向量，例如，256位的浮点数向量。例如，纯净语音可表示为s，特定提取网络可表示为M_ex，辅助向量embedding可表示为下面的公式(1)：

embedding＝M_ex(s) (1)

根据本公开的示例性实施例，特征提取网络的输入可以是特定说话人的纯净语音的梅尔对数幅度谱(Mel-scale Frequency Cepstral Coefficients，MFCC)。例如，特征提取网络的一种实现方式可以是三层长短期记忆(LSTM)网络。图3是示出根据本公开的示例性实施例的特征提取网络的结构示意图。可将特定说话人的纯净语音的MFCC输入三层长短期记忆网络层(LSTM1、LSTM2、LSTM3)，取最后一层LSTM3输出的隐藏状态(Hidden State)，经过一层全连接层(dense)，就可以得到辅助向量embedding。又例如，特征提取网络的另一种实现方式可以是三层的循环神经网络(Recurrent Neural Network,RNN)。图4是示出根据本公开的另一示例性实施例的特征提取网络的结构示意图。如图4所示，x可表示每一帧纯净语音经时频变换(例如，傅立叶变换)后的频域结果，h为隐藏状态，t代表帧数，A代表一层RNN网络，特征提取网络可由三个RNN网络串联而成，每一层RNN的输出作为后一层RNN的输入，数据在RNN中的计算方式可被表示为：

h_t＝tanh(W_xh*X_t+W_hh*h_t-1+b)

其中，W表示权重矩阵，b表示偏移量。所有帧的信息都会被最后一帧的隐藏状态h_t捕获，网络要输出h_t即可。

当然，特征提取网络不限于上述网络或模型，还可以是其它任何可能实现特征提取功能的网络，本公开对此不作限制。

返回参照图2，在步骤202，可将含噪语音样本的幅度谱输入语音增强网络，得到估计的第一掩膜比。

根据本公开的示例性实施例，含噪语音样本的幅度谱可通过时频变换得到。例如，可将含噪语音样本通过短时傅里叶变换(Short-Time Fourier Transform，STFT)从时域变换到频域，获得每帧音频信号的幅度信息和相位信息，从而得到该含噪语音样本的幅度谱和相位谱。例如，若长度为T的含噪语音信号x在时域上为x(t)，其中t代表时间，0＜t≤T，则经过短时傅里叶变换后，x(t)在频域可表示为下面的公式(2)：

X(n，k)＝STFT(x(t)) (2)

其中，n为帧序列，0＜n≤N，N为总帧数，k为中心频率序列，0＜k≤K，K为总频点数。

在得到频域的含噪信号X(n，k)后，可获取其幅度谱Mag_ori和相位谱Pha_ori，可表示为下面的公式(3)：

Mag_ori(n，k)＝abs(X(n，k))，Pha_ori(n，k)＝angle(X(n，k)) (3)

根据本公开的示例性实施例，每个说话人的第二纯净语音样本可包括多个纯净语音样本，相应得到的每个说话人对应的所述含噪语音样本可包括多个含噪语音样本。可对每个含噪语音样本执行时频变换，获得每个含噪语音样本的幅度谱和相位谱。

此外，掩膜比(mask)通常是指原始目标值与含噪值的比值。根据本公开的示例性实施例，掩膜比可表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值。例如，掩膜比可以是纯净语音频谱图与含噪语音频谱图的比值，且值域为[0,1]。例如，语音增强网络可表示为M_se，掩膜比mask可表示为下面的公式(4)：

mask_A＝M_seMag_ori(n，k)) (4)

根据本公开的示例性实施例，语音增强网络的一种实现方式可以是扩张卷积网络，例如，时间卷积网络(Temporal Convolution Network，TCN)。图5是示出根据本公开的示例性实施例的语音增强网络的结构示意图。如图5所示，X_l|(l＝1,2,3...)表示输入信号(含噪语音的幅度谱和第一纯净语音的辅助向量)每一帧的傅立叶变换频域结果，b代表网络的层数，d代表空洞度，语音增强网络做卷积操作时会间隔(d-1)帧的输入信号，因此d＝1时，语音增强网络做卷积操作是在连续帧上进行的。

根据本公开的示例性实施例，语音增强网络的另一种实现方式可以是双层GRU(Gate Recurrent Unit，门控循环单元)。图6是示出根据本公开的另一示例性实施例的语音增强网络的结构示意图。GRU作为RNN网络的一种，可以获取输入的序列数据中的上下文关系。网络中含有隐藏状态设时间步为t＝[1,2,3,…,T]，单向GRU网络中含有一个隐藏状态h用于存放网络时间步由前往后的传递信息，双向GRU网络中含有两个隐藏状态分别用于存放由前往后和由后往前的传递信息，所以相比单向GRU捕获上下文的关系更强。如图7所示，图7是示出根据本公开的示例性实施例的GRU结构示意图。假设隐藏单元个数为h，给定时间步的小批量输入X和上一时间步的隐藏状态H_t-1,重置门和更新门的计算如下：

R_t＝σ(X_tW_xr+H_t-1W_hr+b_r)

Z_t＝σ(X_tW_xz+H_t-1W_hz+b_z)

其中W_xr,W_xz,W_hr,W_hz是权重参数，bb为偏差参数，激活函数为sigmoid函数，可以将元素的值变换到0和1之间，因此，重置门和更新门的每个元素值域都是[0,1]。候选隐藏状态的计算公式为：

从上面这个公式可以看出，重置门控制了上一时间步的隐藏状态如何流入当前时间步的候选隐藏状态。而上一时间步的隐藏状态可能包含了时间序列截至上一时间步的全部历史信息。因此，重置门可以用来丢弃与预测无关的历史信息。最后时间步t的隐藏状态H_t的计算使用当前时间步的更新门Z_t来对上一时间步的隐藏状态H_t-1和当前时间步的候选隐藏状态做组合：

当然，语音增强网络不限于上述网络，还可以是任何可能的实现语音增强功能的网络，本公开对此不作限制。

此外，步骤201和202的顺序不限于上述顺序，还可以以任何可能的顺序执行，本公开对此不作限制。例如，步骤201中获取多个说话人的含噪语音样本和获取多个说话人的第一纯净语音样本的特征向量可按先后顺序、相反顺序或同时进行。又例如，可先执行步骤201中获取多个说话人的含噪语音样本，且执行步骤202中将含噪语音样本的幅度谱输入所述语音增强网络，再执行步骤201中获取多个说话人的第一纯净语音样本的特征向量；反之亦然。

返回参照图2，在步骤203，可将估计的第一掩膜比和特征向量输入到注意力机制网络，得到估计的第二掩膜比。例如，可将估计的第一掩膜比和特征向量进行串联，获得串联特征作为注意力机制网络MHSA的输入，输出可以为值域为[0,1]的估计的第二掩膜比mask_B，如下面的公式(5)所示：

mask_B＝MHSA(mask_A，embedding) (5)

这里，注意力机制网络MHSA也可以称为自注意力(Self Attention)模型，可以在同一层网络的输入和输出之间，利用注意力机制动态地生成不同连接的权重，来得到该层网络输出的模型，自注意力模型可以作为神经网络的一层来使用，也可以用来替换卷积层或循环层，也可以与卷积层或循环层交叉堆叠使用。

根据本公开的示例性实施例，注意力机制网络(自注意力模型)可包括线性变换层、第一矩阵乘法层、缩放层、柔性最大值传输函数层、第二矩阵乘法层，其中，所述线性变换层包括三个全连接层。

例如，图8是示出根据本公开的示例性实施例的注意力机制网络的结构示意图。参照图8，可假设一个神经层中的输入序列为X＝[x₁，x₂，…，x_N]，输出序列为同等长度的H＝[h₁，h₂，...，h_N]，其中，N表示音频帧数量。在根据本公开的示例性实施例中，注意力机制网络的输入序列可为估计的第一掩膜比和特征向量串联后得到的串联特征，输出序列可为估计的第二掩膜比。首先，可将输入序列X输入到线性变换层，分别通过三个全连接层(Fullconnect)，执行线性变换得到三组向量序列，即，第一特征向量Q、第二特征向量K和第三特征向量V，如下面的公式(6)至(8)所示：

Q＝W_QX (6)

K＝W_KX (7)

V＝W_VX (8)

其中，第一特征向量Q可为查询向量，第二特征向量K可为键向量，第三特征向量V可为值向量，W_Q，W_K，W_V分别为可以学习的参数矩阵，X为输入序列。其中，Q＝[q₁，q₂，...，q_N],K＝[k₁，k₂，...，k_N]，V＝[v₁，v₂，...，v_N]。

随后，可将第一特征向量Q和第二特征向量K输入第一矩阵乘法层(MatMul)，以将第一特征向量Q和第二特征向量K执行矩阵乘法，从而获得内积特征向量。

随后，可将获得的内积特征向量输入缩放层(Scale)，以将该内积特征向量除以一个预定值(例如，预定的固定值)，获得第一掩膜比分数Mask(opt.)。

随后，可将第一掩膜比分数Mask(opt.)输入柔性最大值传输函数层(SoftMax)，以将第一掩膜比分数Mask(opt.)经过柔性最大值传输函数，获得第二掩膜比分数。这里，SoftMax一方面可以将第一掩膜比分数进行归一化，得到所有权重系数之和为1的概率分布，另一方面可以用softmax函数的特性突出重要元素的权重。假设得到的第一掩膜比分数为s＝[s₁，s₂，...，s_m],则SoftMax可表示为下面的公式(9)：

其中，m表示分数的索引，M表示分数的数量。

随后，可将第二掩膜比分数和第三特征向量V输入第二矩阵乘法层(MatMul)，以将第二掩膜比分数和第三特征向量V进行矩阵相乘，获得输出序列H。因此，输出序列H中的元素h_i可被表示为下面的公式(10)：

其中，i，j∈[1，N]为输入和输出向量序列的位置，连接权重softmax(s(k_j，q_i))由注意力机制动态生成，其中，s(k_j，q_i)表示k_j，q_i进行内积后除以一个预定值进行缩放得到的第一掩膜比分数。

当然，根据本公开的注意力机制网络不限于上述结构，还可以使用任何可能的注意力机制网络结构。

根据本公开的示例性实施例，可将每个说话人的特征向量扩充至与每个说话人对应的估计的第一掩膜比相同的维度；分别将每个说话人对应的估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的串联特征；将每个说话人对应的串联特征作为注意力机制网络的输入。例如，可将特征向量与估计的第一掩膜比在特征维上进行串联。假设估计的第一掩膜比mask_A维度为[B，F，T]，其中，B表示批度维，F表示特征维，T表示时间维，特征向量embedding维度为[E]，E表示特征维，可首先将特征向量embedding复制B份分，形成[B,E]维度的特征向量embedding，然后将[B,E]维度的特征向量embedding复制T份，形成[B,E,T]维度，然后在特征维度上将估计的第一掩膜比mask_A与特征向量embedding进行串联，获得维度为[B,F+E,T]的串联特征。

返回参照图2，在步骤204，可根据估计的第二掩膜比和幅度谱，确定估计的幅度谱，并根据估计的幅度谱和第二纯净语音样本的幅度谱确定语音增强模型的损失函数。

根据本公开的示例性实施例，可将估计的第二掩膜比与含噪语音样本的幅度谱相乘，获得估计的幅度谱。例如，估计的幅度谱可表示为下面的公式(11)：

Mag_hat＝Mag_ori⊙mask_B (11)

此外，第二纯净语音样本的幅度谱Mag_clean可通过时频变换(例如，短时傅里叶变换，STFT)来获得。随后，可计算估计的幅度谱和相应的第二纯净语音样本的幅度谱的均方误差(mean square error，MSE)，作为损失函数loss以用于反向传播更新网络参数，可被表示为下面的公式(12)：

loss＝MSE(Mag_hat，Mag_clean) (12)

在步骤205，可通过根据损失函数调整语音增强网络和注意力机制网络的参数，对语音增强模型进行训练。

根据本公开的示例性实施例，在实际训练中，在步骤201获取的每个说话人的含噪语音样本可包括多条含噪语音样本，以执行批量样本的训练。在这情况下，在步骤202，可根据多条含噪语音样本获得多个幅度谱，并将多个幅度谱输入语音增强网络，得到多个估计的第一掩膜比。在步骤203，可将多个估计的第一掩膜比和特征向量输入到所述注意力机制网络，得到多个估计的第二掩膜比。此外，可将每个说话人的特征向量扩充至与每个说话人对应的多个估计的第一掩膜比相同的维度；分别将每个说话人对应的多个估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的多个串联特征；将每个说话人对应的所述多个串联特征作为注意力机制网络的输入。在步骤204，可分别计算多个估计的幅度谱和相应的第二纯净语音样本的幅度谱的均方误差，以获得多个均方误差，并对多个均方误差求平均，获得平均均方误差，作为损失函数。从而，在步骤205，可根据平均的均方误差的损失函数调整语音增强网络和注意力机制网络的参数，对语音增强模型进行训练。

图9是示出根据本公开的示例性实施例的语音增强方法的流程图。这里，根据本公开的示例性实施例的语音增强方法可基于根据本公开的语音增强模型来实现。根据本公开的语音增强模型可包括语音增强网络和注意力机制网络。例如，根据本公开的语音增强模型可通过使用根据本公开的语音增强模型的训练方法训练得到。

参照图9，在步骤901，可获取待增强的含噪语音信号和第一说话人的纯净语音信号的特征向量，其中，所述含噪语音信号包括第一说话人的语音。这里，含噪语音信号除了可包括第一说话人的语音外，还可包括噪声，噪声可以包括环境噪声和其他人的说话语音。这里，第一说话人的纯净语音可以是简短的若干句第一说话人的纯净语音(例如，在安静的环境下录制的语音)。根据本公开的示例性实施例，第一说话人的纯净语音可以是预先录制的第一说话人的纯净语音片段。

根据本公开的示例性实施例，第一说话人的纯净语音信号的特征向量可以是使用特征提取网络对第一纯净语言样本进行特征提取而得到的。这里，特征提取网络可以是预先训练好的用于说话人识别的特征提取网络，例如，如图3或图4所示的特征提取网络。这里，特征向量可以是一个固定长度的n维特征向量，例如，256位的浮点数向量。根据本公开的示例性实施例，特征提取网络的输入可以是特定说话人的纯净语音的梅尔对数幅度谱。

在步骤902，可将含噪语音信号的幅度谱输入语音增强网络，得到估计的第一掩膜比。这里，掩膜比可以是原始目标值与含噪值的比值。在根据本公开的语音增强方案中，掩膜比可以是纯净语音信号幅度谱与含噪语音信号幅度谱的比值。例如，掩膜比可以是纯净语音信号频谱图与含噪语音信号频谱图的比值，且值域为[0,1]。这里，语音增强网络可以是，但不限于，如图5或图6所示的语音增强网络。

根据本公开的示例性实施例，可对含噪语音信号执行时频变换，获得幅度谱。例如，可将含噪语音信号通过短时傅里叶变换(Short-Time Fourier Transform，STFT)从时域变换到频域，获得每帧音频信号的幅度信息，从而得到含噪语音信号的幅度谱。

此外，上述步骤901和步骤902的顺序不限于上述顺序，还可以以任何可能的顺序执行，本公开对此不作限制。例如，步骤901中获取含噪语音信号和获取第一说话人的纯净语音信号的特征向量可按先后顺序、相反顺序或同时进行。又例如，可先执行步骤901中获取含噪语音信号，且执行步骤902中将含噪语音信号的幅度谱输入语音增强网络，再执行步骤901中获取第一说话人的纯净语音信号的特征向量；反之亦然。

在步骤903，可将估计的第一掩膜比和特征向量输入注意力机制网络，得到估计的第二掩膜比。

根据本公开的示例性实施例，可将特征向量扩充至与估计的第一掩膜比相同的维度；将估计的第一掩膜比与扩充后的特征向量进行串联以获得串联特征；将串联特征作为注意力机制网络的输入。这里，注意力机制网络可以是，但不限于，如图8所示的注意力机制网络。

在步骤904，可根据估计的第二掩膜比，获得含噪语音信号中第一说话人的增强语音。

根据本发明的示例性实施例，可将估计的第二掩膜比和含噪语音信号的幅度谱相乘，获得估计的幅度谱，并将估计的幅度谱和含噪语音信号的相位谱结合并执行时频逆变换，获得增强语音。这里，含噪语音信号的相位谱也可通过对含噪语音信号执行时频变换来获得。例如，可将含噪语音信号通过短时傅里叶变换(Short-Time Fourier Transform，STFT)从时域变换到频域，获得每帧音频信号的相位信息，从而得到含噪语音信号的相位谱。含噪语音信号的幅度谱和相位谱可经过时频变换而同时获得。例如，第一说话人的增强语音y可被表示为下面的公式(13)：

y＝ISTFT(Mag_hat，Pha_ori) (13)

其中，Mag_hat表示估计的幅度谱，Pha_ori表示含噪语音信号的相位谱。

参照图10，根据本公开的示例性实施例的语音增强模型的训练装置1000可包括获取单元1001、第一估计单元1002、第二估计单元1003、计算单元1004和调参单元1005。

获取单元1001可获取多个说话人的含噪语音样本和所述多个说话人的第一纯净语音样本的特征向量，其中，每个说话人的含噪语音样本是根据与该说话人对应的第二纯净语音样本添加噪声数据得到的。

根据本公开的示例性实施例，第一纯净语音样本的特征向量可以是使用特征提取网络对第一纯净语言样本进行特征提取而得到。即，获取单元1001可将第一纯净语音样本输入预先训练好的特征提取网络，从而提取特征向量。这里，特征提取网络可以是文本无关的说话人识别模型，即，任意特定说话人的纯净语音，提取出的特征向量都是相似的。根据本公开的示例性实施例，每个说话人的第一纯净语音样本可包括多条纯净语音样本；第一纯净语音样本的特征向量可以是通过对使用特征提取网络对多条纯净语言样本进行特征提取而得到的多个特征向量求平均而得到的。例如，特征向量(辅助向量)可以是一个固定长度的n维特征向量，例如，256位的浮点数向量。

根据本公开的示例性实施例，特征提取网络的输入可以是特定说话人的纯净语音的梅尔对数幅度谱(Mel-scale Frequency Cepstral Coefficients，MFCC)。例如，特征提取网络可以是，但不限于，如图3或图4所示的特征提取网络。

第一估计单元1002可将含噪语音样本的幅度谱输入语音增强网络，得到估计的第一掩膜比。

根据本公开的示例性实施例，含噪语音样本的幅度谱可通过时频变换得到。例如，第一估计单元1002可将含噪语音样本通过短时傅里叶变换(Short-Time FourierTransform，STFT)从时域变换到频域，获得每帧音频信号的幅度信息和相位信息，从而得到该含噪语音样本的幅度谱和相位谱。

此外，掩膜比(mask)通常是指原始目标值与含噪值的比值。根据本公开的示例性实施例，掩膜比可表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值。例如，掩膜比可以是纯净语音频谱图与含噪语音频谱图的比值，且值域为[0,1]。

根据本公开的示例性实施例，语音增强网络可以是，但不限于，如图5或图6所示的语音增强网络。

此外，获取单元1001和第一估计单元1002的执行顺序不限于上述顺序，还可以以任何可能的执行顺序执行操作，本公开对此不作限制。例如，获取单元1001获取多个说话人的含噪语音样本和获取多个说话人的第一纯净语音样本的特征向量可按先后顺序、相反顺序或同时进行。又例如，获取单元1001可先执行获取多个说话人的含噪语音样本，且第一估计单元1002将含噪语音样本的幅度谱输入所述语音增强网络，然后获取单元1001再执行获取多个说话人的第一纯净语音样本的特征向量；反之亦然。

第二估计单元1003可将估计的第一掩膜比和特征向量输入到注意力机制网络，得到估计的第二掩膜比。例如，第二估计单元1003可将估计的第一掩膜比和特征向量进行串联，获得串联特征作为注意力机制网络MHSA的输入，输出可以为值域为[0,1]的估计的第二掩膜比mask_B。

根据本公开的示例性实施例，注意力机制网络(自注意力模型)可包括线性变换层、第一矩阵乘法层、缩放层、柔性最大值传输函数层、第二矩阵乘法层，其中，所述线性变换层包括三个全连接层。例如，注意力机制网络可以是，但不限于，如图8所示的注意力机制网络结构。在根据本公开的示例性实施例中，注意力机制网络的输入序列可为估计的第一掩膜比和特征向量串联后得到的串联特征，输出序列可为估计的第二掩膜比。

例如，第二估计单元1003可将串联特征输入线性变换层的三个全连接层，分别获得第一特征向量、第二特征向量和第三特征向量；将第一特征向量和第二特征向量输入第一矩阵乘法层，以将第一特征向量和第二特征向量进行矩阵相乘，获得内积特征向量；将内积特征向量输入缩放层，以将内积特征向量除以预定值以进行缩放，获得第一掩膜比分数；将第一掩膜比分数输入柔性最大值传输函数层，以将第一掩膜比分数经过柔性最大值传输函数，获得第二掩膜比分数；将第二掩膜比分数和第三特征向量输入第二矩阵乘法层，以将第二掩膜比分数和第三特征向量进行矩阵相乘，获得估计的第二掩膜比。

根据本公开的示例性实施例，第二估计单元1003可将每个说话人的特征向量扩充至与每个说话人对应的估计的第一掩膜比相同的维度；分别将每个说话人对应的估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的串联特征；将每个说话人对应的串联特征作为注意力机制网络的输入。例如，第二估计单元1003可将特征向量与估计的第一掩膜比在特征维上进行串联。假设估计的第一掩膜比mask_A维度为[B，F，T]，其中，B表示批度维，F表示特征维，T表示时间维，特征向量embedding维度为[E]，E表示特征维。第二估计单元1003可首先将特征向量embedding复制B份分，形成[B,E]维度的特征向量embedding，然后将[B,E]维度的特征向量embedding复制T份，形成[B,E,T]维度，然后在特征维度上将估计的第一掩膜比mask_A与特征向量embedding进行串联，获得维度为[B,F+E,T]的串联特征。

计算单元1004可根据估计的第二掩膜比和幅度谱，确定估计的幅度谱，并根据估计的幅度谱和第二纯净语音样本的幅度谱确定语音增强模型的损失函数。

根据本公开的示例性实施例，计算单元1004可将估计的第二掩膜比与含噪语音样本的幅度谱相乘，获得估计的幅度谱。此外，第二纯净语音样本的幅度谱可通过时频变换(例如，短时傅里叶变换，STFT)来获得。随后，计算单元1004可计算估计的幅度谱和相应的第二纯净语音样本的幅度谱的均方误差(mean square error，MSE)，作为损失函数loss以用于反向传播更新网络参数。

调参单元1005可通过根据损失函数调整语音增强网络和注意力机制网络的参数，对语音增强模型进行训练。

根据本公开的示例性实施例，在实际训练中，获取单元1001获取的每个说话人的含噪语音样本可包括多条含噪语音样本，以执行批量样本的训练。在这情况下，第一估计单元1002可根据多条含噪语音样本获得多个幅度谱，并将多个幅度谱输入语音增强网络，得到多个估计的第一掩膜比。第二估计单元1003可将多个估计的第一掩膜比和特征向量输入到注意力机制网络，得到多个估计的第二掩膜比。此外，第二估计单元1003可将每个说话人的特征向量扩充至与每个说话人对应的多个估计的第一掩膜比相同的维度；分别将每个说话人对应的多个估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的多个串联特征；将每个说话人对应的所述多个串联特征作为注意力机制网络的输入。计算单元1004可分别计算多个估计的幅度谱和相应的第二纯净语音样本的幅度谱的均方误差，以获得多个均方误差，并对多个均方误差求平均，获得平均均方误差，作为损失函数。从而，调参单元1006可根据平均的均方误差的损失函数调整语音增强网络和注意力机制网络的参数，对语音增强模型进行训练。

图11是示出根据本公开的示例性实施例的语音增强装置的框图。这里，根据本公开的示例性实施例的语音增强装置可基于根据本公开的语音增强模型来实现。根据本公开的语音增强模型可包括语音增强网络和注意力机制网络。例如，根据本公开的语音增强模型可通过使用根据本公开的语音增强模型的训练方法训练得到。

参照图11，根据本公开的示例性实施例的对特定说话人进行语音增强的装置1100可包括获取单元1101、第一估计单元1102、第二估计单元1103和增强单元1104。

获取单元1101可获取待增强的含噪语音信号和第一说话人的纯净语音信号的特征向量，其中，所述含噪语音信号包括第一说话人的语音。这里，含噪语音信号除了可包括第一说话人的语音外，还可包括噪声，噪声可以包括环境噪声和其他人的说话语音。这里，第一说话人的纯净语音可以是简短的若干句第一说话人的纯净语音(例如，在安静的环境下录制的语音)。根据本公开的示例性实施例，第一说话人的纯净语音可以是预先录制的第一说话人的纯净语音片段。

第一估计单元1102可将含噪语音信号的幅度谱输入语音增强网络，得到估计的第一掩膜比。这里，掩膜比可以是原始目标值与含噪值的比值。在根据本公开的语音增强方案中，掩膜比可以是纯净语音信号幅度谱与含噪语音信号幅度谱的比值。例如，掩膜比可以是纯净语音信号频谱图与含噪语音信号频谱图的比值，且值域为[0,1]。这里，语音增强网络可以是，但不限于，如图5或图6所示的语音增强网络。

根据本公开的示例性实施例，第一估计单元1102可对含噪语音信号执行时频变换，获得幅度谱。例如，可将含噪语音信号通过短时傅里叶变换(Short-Time FourierTransform，STFT)从时域变换到频域，获得每帧音频信号的幅度信息，从而得到含噪语音信号的幅度谱。

此外，获取单元1101和第一估计单元1102的执行顺序不限于上述顺序，还可以以任何可能的执行顺序执行操作，本公开对此不作限制。例如，获取单元1101获取含噪语音信号和获取第一说话人的纯净语音信号的特征向量可按先后顺序、相反顺序或同时进行。又例如，获取单元1101可先执行获取含噪语音信号，且第一估计单元1102将含噪语音信号的幅度谱输入语音增强网络，然后获取单元1101再执行获取第一说话人的纯净语音信号的特征向量；反之亦然。

第二估计单元1103可将估计的第一掩膜比和特征向量输入注意力机制网络，得到估计的第二掩膜比。

根据本公开的示例性实施例，第二估计单元1103可将特征向量扩充至与估计的第一掩膜比相同的维度；将估计的第一掩膜比与扩充后的特征向量进行串联以获得串联特征；将串联特征作为注意力机制网络的输入。这里，注意力机制网络可以是，但不限于，如图8所示的注意力机制网络。

增强单元1104可根据估计的第二掩膜比，获得含噪语音信号中第一说话人的增强语音。

根据本发明的示例性实施例，增强单元1104可将估计的第二掩膜比和含噪语音信号的幅度谱相乘，获得估计的幅度谱，并将估计的幅度谱和含噪语音信号的相位谱结合并执行时频逆变换，获得增强语音。这里，含噪语音信号的相位谱也可通过对含噪语音信号执行时频变换来获得。例如，可将含噪语音信号通过短时傅里叶变换(Short-Time FourierTransform，STFT)从时域变换到频域，获得每帧音频信号的相位信息，从而得到含噪语音信号的相位谱。含噪语音信号的幅度谱和相位谱可经过时频变换而同时获得。

图12是根据本公开的示例性实施例的电子设备1200的框图。

参照图12，电子设备1200包括至少一个存储器1201和至少一个处理器1202，所述至少一个存储器1201中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器1202执行时，执行根据本公开的示例性实施例的语音增强模型的训练方法或语音增强方法。

作为示例，电子设备1200可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1200并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1200还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备1200中，处理器1202可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器1202可运行存储在存储器1201中的指令或代码，其中，存储器1201还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器1201可与处理器1202集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1201可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储器1201和处理器1202可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器1202能够读取存储在存储器中的文件。

此外，电子设备1200还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备1200的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的语音增强模型的训练方法或语音增强方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，包括计算机指令，该计算机指令可由至少一个处理器执行以完成根据本公开的示例性实施例的语音增强模型的训练方法或语音增强方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音增强模型的训练方法，其特征在于，所述语音增强模型包括语音增强网络和注意力机制网络，所述训练方法包括：

获取多个说话人的含噪语音样本和所述多个说话人的第一纯净语音样本的特征向量，其中，每个说话人的含噪语音样本是根据与该说话人对应的第二纯净语音样本添加噪声数据得到的；

将所述含噪语音样本的幅度谱输入所述语音增强网络，得到估计的第一掩膜比，其中，掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；

将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到估计的第二掩膜比；

根据所述估计的第二掩膜比和所述幅度谱，确定估计的幅度谱，并根据所述估计的幅度谱和第二纯净语音样本的幅度谱确定所述语音增强模型的损失函数；

通过根据所述损失函数调整所述语音增强网络和所述注意力机制网络的参数，对所述语音增强模型进行训练。

2.如权利要求1所述的训练方法，其特征在于，第一纯净语音样本和第二纯净语音样本不同。

3.如权利要求1所述的训练方法，其特征在于，所述特征向量是使用特征提取网络对第一纯净语音样本进行特征提取而得到的。

4.如权利要求1所述的训练方法，其特征在于，所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到第二掩膜比，包括：

将每个说话人的特征向量扩充至与每个说话人对应的所述估计的第一掩膜比相同的维度；

分别将每个说话人对应的所述估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的串联特征；

将每个说话人对应的所述串联特征作为所述注意力机制网络的输入。

5.如权利要求4所述的训练方法，其特征在于，所述注意力机制网络包括线性变换层、第一矩阵乘法层、缩放层、柔性最大值传输函数层、第二矩阵乘法层，其中，所述线性变换层包括三个全连接层，

其中，所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到估计的第二掩膜比，包括：

将所述串联特征输入所述线性变换层的三个全连接层，分别获得第一特征向量、第二特征向量和第三特征向量；

将第一特征向量和第二特征向量输入所述第一矩阵乘法层，以将第一特征向量和第二特征向量进行矩阵相乘，获得内积特征向量；

将所述内积特征向量输入所述缩放层，以将所述内积特征向量除以预定值以进行缩放，获得第一掩膜比分数；

将第一掩膜比分数输入所述柔性最大值传输函数层，以将第一掩膜比分数经过柔性最大值传输函数，获得第二掩膜比分数；

将第二掩膜比分数和第三特征向量输入所述第二矩阵乘法层，以将第二掩膜比分数和第三特征向量进行矩阵相乘，获得所述估计的第二掩膜比。

6.如权利要求1所述的训练方法，其特征在于，所述根据所述估计的第二掩膜比和所述幅度谱，确定估计的幅度谱，并根据所述估计的幅度谱和第二纯净语音样本的幅度谱确定所述语音增强模型的损失函数，包括：

将所述估计的第二掩膜比与所述幅度谱相乘，获得所述估计的幅度谱；

计算所述估计的幅度谱和相应的第二纯净语音样本的幅度谱的均方误差，作为所述损失函数。

7.如权利要求1所述的训练方法，其特征在于，每个说话人的第一纯净语音样本包括多条纯净语音样本；

所述特征向量是通过对使用特征提取网络对所述多条纯净语音样本进行特征提取而得到的多个特征向量求平均而得到的。

8.如权利要求1或7所述的训练方法，其特征在于，每个说话人的第二纯净语音样本包括多条纯净语音样本，相应得到的每个说话人对应的所述含噪语音样本包括多条含噪语音样本。

9.如权利要求8所述的训练方法，其特征在于，所述将所述含噪语音样本的幅度谱输入所述语音增强网络，得到估计的第一掩膜比，包括：

根据所述多条含噪语音样本获得多个幅度谱；

将所述多个幅度谱输入所述语音增强网络，得到多个估计的第一掩膜比；

其中，所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到第二掩膜比，包括：

将所述多个估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到多个估计的第二掩膜比；

其中，所述根据所述估计的第二掩膜比和所述幅度谱，确定估计的幅度谱，并根据所述估计的幅度谱和第二纯净语音样本的幅度谱确定所述语音增强模型的损失函数，包括：

将所述多个估计的第二掩膜比分别与相应的含噪语音样本的幅度谱相乘，确定多个估计的幅度谱；

分别计算所述多个估计的幅度谱和相应的第二纯净语音样本的幅度谱的均方误差，以获得多个均方误差，并对所述多个均方误差求平均，获得平均均方误差，作为所述损失函数。

10.如权利要求9所述的训练方法，其特征在于，其中，所述将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到估计的第二掩膜比，包括：

将每个说话人的特征向量扩充至与每个说话人对应的所述多个估计的第一掩膜比相同的维度；

分别将每个说话人对应的所述多个估计的第一掩膜比与相应说话人的扩充后的特征向量进行串联以获得每个说话人对应的多个串联特征；

将每个说话人对应的所述多个串联特征作为所述注意力机制网络的输入。

11.一种语音增强方法，其特征在于，包括：

获取待增强的含噪语音信号和第一说话人的纯净语音信号的特征向量，其中，所述含噪语音信号包括第一说话人的语音；

将所述含噪语音信号的幅度谱输入语音增强模型中的语音增强网络，得到估计的第一掩膜比，其中，掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值，其中，所述语音增强模型包括所述语音增强网络和注意力机制网络；

将所述估计的第一掩膜比和所述特征向量输入所述注意力机制网络，得到估计的第二掩膜比；

根据所述估计的第二掩膜比，获得所述含噪语音信号中第一说话人的增强语音。

12.如权利要求11所述的语音增强方法，其特征在于，所述含噪语音信号除了包括第一说话人的语音之外，还包括其他说话人的语音。

13.如权利要求11所述的语音增强方法，其特征在于，第一说话人的纯净语音信号是预先录制的第一说话人的纯净语音片段。

14.如权利要求11所述的语音增强方法，其特征在于，所述特征向量是使用特征提取网络对第一纯净语音样本进行特征提取而得到的。

15.如权利要求11所述的语音增强方法，其特征在于，所述将所述估计的第一掩膜比和所述特征向量输入所述注意力机制网络，得到估计的第二掩膜比，包括：

将所述特征向量扩充至与所述估计的第一掩膜比相同的维度；

将所述估计的第一掩膜比与扩充后的特征向量进行串联以获得串联特征；

将所述串联特征作为所述注意力机制网络的输入。

16.如权利要求15所述的语音增强方法，其特征在于，所述注意力机制网络包括线性变换层、第一矩阵乘法层、缩放层、柔性最大值传输函数层、第二矩阵乘法层，其中，所述线性变换层包括三个全连接层，

将第一掩膜比分数输入所述柔性最大值传输函数层，以将所述掩膜比分数经过柔性最大值传输函数，获得第二掩膜比分数；

17.如权利要求11所述的语音增强方法，其特征在于，根据所述估计的第二掩膜比，获得所述含噪语音信号中第一说话人的增强语音，包括：

将所述幅度谱与所述估计的第二掩膜比相乘，获得估计的幅度谱，

将所述估计的幅度谱和所述含噪语音信号的相位谱结合并执行时频逆变换，获得所述增强语音。

18.如权利要求11所述的语音增强方法，其特征在于，所述语音增强模型是使用如权利要求1至10中任意一项权利要求所述的训练方法训练得到的。

19.一种语音增强模型的训练装置，其特征在于，所述语音增强模型包括语音增强网络和注意力机制网络，所述训练装置包括：

获取单元，被配置为：获取多个说话人的含噪语音样本和所述多个说话人的第一纯净语音样本的特征向量，其中，每个说话人的含噪语音样本是根据与该说话人对应的第二纯净语音样本添加噪声数据得到的；

第一估计单元，被配置为：将所述含噪语音样本的幅度谱输入所述语音增强网络，得到估计的第一掩膜比，其中，掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；

第二估计单元，被配置为：将所述估计的第一掩膜比和所述特征向量输入到所述注意力机制网络，得到估计的第二掩膜比；

计算单元，被配置为：根据所述估计的第二掩膜比和所述幅度谱，确定估计的幅度谱，并根据所述估计的幅度谱和第二纯净语音样本的幅度谱确定所述语音增强模型的损失函数；

调参单元，被配置为：通过根据所述损失函数调整所述语音增强网络和所述注意力机制网络的参数，对所述语音增强模型进行训练。

20.如权利要求19所述的训练装置，其特征在于，第一纯净语音样本和第二纯净语音样本不同。

21.如权利要求19所述的训练装置，其特征在于，所述特征向量是使用特征提取网络对第一纯净语音样本进行特征提取而得到的。

22.如权利要求19所述的训练装置，其特征在于，第二估计单元被配置为：

23.如权利要求22所述的训练装置，其特征在于，所述注意力机制网络包括线性变换层、第一矩阵乘法层、缩放层、柔性最大值传输函数层、第二矩阵乘法层，其中，所述线性变换层包括三个全连接层，

其中，第二估计单元被配置为：

24.如权利要求19所述的训练装置，其特征在于，计算单元被配置为：

25.如权利要求19所述的训练装置，其特征在于，每个说话人的第一纯净语音样本包括多条纯净语音样本；

26.如权利要求19或25所述的训练装置，其特征在于，每个说话人的第二纯净语音样本包括多条纯净语音样本，相应得到的每个说话人对应的所述含噪语音样本包括多条含噪语音样本。

27.如权利要求26所述的训练装置，其特征在于，第一估计单元被配置为：

根据所述多条含噪语音样本获得多个幅度谱；

其中，第二估计单元被配置为：

其中，计算单元被配置为：

28.如权利要求27所述的训练装置，其特征在于，其中，第二估计单元被配置为：

29.一种语音增强装置，其特征在于，包括：

获取单元，被配置为：获取待增强的含噪语音信号和第一说话人的纯净语音信号的特征向量，其中，所述含噪语音信号包括第一说话人的语音；

第一估计单元，被配置为：将所述含噪语音信号的幅度谱输入语音增强模型中的语音增强网络，得到估计的第一掩膜比，其中，掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值，其中，所述语音增强模型包括所述语音增强网络和注意力机制网络；

第二估计单元，被配置为：将所述估计的第一掩膜比和所述特征向量输入所述注意力机制网络，得到估计的第二掩膜比；

增强单元，被配置为：根据所述估计的第二掩膜比，获得所述含噪语音信号中第一说话人的增强语音。

30.如权利要求29所述的语音增强装置，其特征在于，所述含噪语音信号除了包括第一说话人的语音之外，还包括其他说话人的语音。

31.如权利要求29所述的语音增强装置，其特征在于，第一说话人的纯净语音信号是预先录制的第一说话人的纯净语音片段。

32.如权利要求29所述的语音增强装置，其特征在于，所述特征向量是使用特征提取网络对第一纯净语音样本进行特征提取而得到的。

33.如权利要求29所述的语音增强装置，其特征在于，第二估计单元被配置为：

将所述串联特征作为所述注意力机制网络的输入。

34.如权利要求33所述的语音增强装置，其特征在于，所述注意力机制网络包括线性变换层、第一矩阵乘法层、缩放层、柔性最大值传输函数层、第二矩阵乘法层，其中，所述线性变换层包括三个全连接层，

其中，第二估计单元被配置为：

35.如权利要求29所述的语音增强装置，其特征在于，增强单元被配置为：

36.如权利要求29所述的语音增强装置，其特征在于，所述语音增强模型是使用如权利要求1至10中任意一项权利要求所述的训练方法训练得到的。

37.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到10中的任一权利要求所述的语音增强模型的训练方法或如权利要求11到18中的任一权利要求所述的语音增强方法。

38.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到10中的任一权利要求所述的语音增强模型的训练方法或如权利要求11到18中的任一权利要求所述的语音增强方法。