CN113436640B

CN113436640B - 一种音频降噪方法、装置、***及计算机可读存储介质

Info

Publication number: CN113436640B
Application number: CN202110720513.XA
Authority: CN
Inventors: 李晶晶
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2022-11-25
Anticipated expiration: 2041-06-28
Also published as: CN113436640A

Abstract

本发明公开了一种音频降噪方法、装置、***及计算机可读存储介质，该方法包括拾取语音信号；采用预先训练的通话降噪模型对语音信号进行降噪处理，得到降噪后的语音数据；其中，通话降噪模型的训练过程为：依据带噪样本语音数据及对应的干净样本语音数据对通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对通话降噪网络的网络参数进行优化，以得到损失小于预设损失值的通话降噪模型；本发明中的通话降噪模型具有更优的网络参数，因此在采用该通话降噪模型对拾取到的语音信号进行降噪处理后，能够使降噪后的语音数据更加精确，降噪效果更好。

Description

一种音频降噪方法、装置、***及计算机可读存储介质

技术领域

本发明实施例涉及声学技术领域，特别是涉及一种音频降噪方法、装置、***及计算机可读存储介质。

背景技术

在大多数情况下，人们处于想要接听电话但周围环境不利的情况下，针对这种情况，通常采用的解决方案是对输入数据执行信号处理算法，以实现从信号中去除噪声因子。传统的语音降噪算法通常使用先验的语音和噪声模型，假设噪声是恒定的，对于不太嘈杂或混响的环境中的某些类型噪声，处理效果尚可，但对于非平稳噪声通常会失败，深度学***稳噪声和非平稳噪声的去除问题。

深度学习算法由于其高复杂度的计算，很难在低计算资源的微处理器端进行部署，所以仅可以实时运行一些极小规模的深度学习模型，但模型的规模会直接影响算法处理复杂问题的精准度，即算法模型的规模越大，理论上来说，对复杂数据的拟合能力越强，在深度学习语音降噪方面模型的降噪效果越好。为了将深度学习算法模型部署入微处理器端即耳机芯片端并能够完成音频数据帧毫秒级别的实时处理，通常以牺牲算法模型的精准度为代价，缩减算法模型的计算量，那么如何在低计算资源的情况下提高降噪模型的降噪精确度成为本领域技术人员需要解决的问题。

发明内容

本发明实施例的目的是提供一种音频降噪方法、装置、***及计算机可读存储介质，在使用过程中使降噪后的语音数据更加精确，降噪效果更好。

为解决上述技术问题，本发明实施例提供了一种音频降噪方法，包括：

拾取语音信号；

采用预先训练的通话降噪模型对所述语音信号进行降噪处理，得到降噪后的语音数据；其中，所述通话降噪模型的训练过程为：

依据带噪样本语音数据及对应的干净样本语音数据对通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对所述带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对所述通话降噪网络的网络参数进行优化，以得到损失小于预设损失值的通话降噪模型。

可选的，所述依据带噪样本语音数据及对应的干净样本语音数据及对通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对所述带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对所述通话降噪网络的网络参数进行优化，以得到损失小于预设损失值的通话降噪模型的过程为：

获取多个带噪样本语音数据及与每个所述带噪样本语音数据各自对应的干净样本语音数据；

分别对频域幅值分析网络和通话降噪网络的网络参数进行初始化，得到第一初始化网络参数和第二初始化网络参数，将初始化后的频域幅值分析网络作为当前频域幅值分析网络，将初始化后的通话降噪网络作为当前通话降噪网络；

将多个所述带噪样本语音数据输入至所述当前通话降噪网络，得到多个第一预测样本语音数据；

依据多个所述第一预测样本语音数据的复数幅度值、多个所述带噪样本语音数据的复数幅度值及多个所述干净样本语音数据的复数幅度值对所述当前频域幅值分析网络进行训练以对当前网络参数进行更新，得到更新后的第一网络参数及对应的频域幅值分析模型，并将与所述频域幅值分析模型对应的频域幅值分析网络作为当前频域幅值分析网络；

将多个所述第一预测样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值输入至所述频域幅值分析模型，得到第一输出结果值；

依据所述第一输出结果值对所述当前通话降噪网络的当前网络参数进行更新，得到更新后的第二网络参数及对应的通话降噪网络，并将更新后的通话降噪网络作为当前通话降噪网络；

返回执行所述将多个所述带噪样本语音数据输入至当前通话降噪网络，得到多个预测样本语音数据的步骤，以进入下一轮训练，直至损失小于预设损失值时结束训练，得到训练后的通话降噪模型。

可选的，所述依据多个所述第一预测样本语音数据的复数幅度值、多个所述带噪样本语音数据的复数幅度值及多个所述干净样本语音数据的复数幅度值对所述当前频域幅值分析网络进行训练以对当前网络参数进行更新的过程为：

对每个所述第一预测样本语音数据、每个所述干净样本语音数据及每个所述带噪样本语音数据进行傅里叶变换，计算出所述第一预测样本语音数据每个频点的复数幅度值、所述干净样本语音数据每个频点的复数幅度值以及所述带噪样本语音数据每个频点的复数幅度值；

将多组所述第一预测样本数据每个频点的复数幅度值与对应的所述干净样本语音数据每个频点的复数幅度值作为所述当前频域幅值分析网络的输入，并设置对应的标签为0，将多组所述带噪样本语音数据每个频点的复数幅度值与所述干净样本语音数据每个频点的复数幅度值作为所述当前频域幅值分析网络的输入，并设置对应的标签为1，得到与每组对应的第一输出标签值；

计算每个所述第一输出标签值与对应的标签值的第一误差，并依据各个所述第一误差反向传播计算所述频域幅值分析网络各网络层参数的第一变化梯度值；

依据所述频域幅值分析网络各网络层参数的第一变化梯度值对所述频域幅值分析网络的当前网络参数进行更新。

可选的，所述依据所述第一输出结果对所述当前通话降噪网络的当前网络参数进行更新的过程为：

依据所述第一输出结果反向计算所述频域幅值分析模型各网络层参数的第二变化梯度值；

依据所述频域幅值分析模型各网络层参数的第二变化梯度值计算所述当前通话降噪网络各网络层参数的第一变化梯度值，并依据所述当前通话降噪网络各网络层参数的第一变化梯度值对所述当前通话降噪网络的当前网络参数进行更新。

可选的，在所述依据带噪样本语音数据及对应的干净样本语音数据及对所述通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对所述带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对所述通话降噪网络的网络参数进行优化，得到损失小于预设损失值的通话降噪模型之后，还包括：

采用频域相位分析网络对所述带噪样本语音数据的复数角度值、对应的干净样本语音数据的复数角度值进行分析，并根据分析结果对所述通话降噪模型的网络参数进行优化，得到优化后的通话降噪模型，以用于对与所述语音信号对应的时域语音数据进行降噪处理，得到降噪后的时域语音数据。

可选的，所述采用频域相位分析网络对所述带噪样本语音数据的复数角度值及对应的干净样本语音数据的复数角度值进行分析，并根据分析结果对所述通话降噪模型的网络参数进行优化，得到优化后的通话降噪模型的过程为：

对频域相位分析网络的网络参数进行初始化，得到第三初始化网络参数；

将多个所述带噪样本语音数据输入至当前通话降噪模型，得到多个第二预测样本语音数据，并将对应的频域相位分析网络作为当前频域分析网络；

依据多个所述第二预测样本语音数据的复数角度值、多个所述带噪样本语音数据的复数角度值及多个所述干净样本语音数据的复数角度值对所述当前频域相位分析网络进行训练以对当前网络参数进行更新，得到更新后的第三网络参数及对应的频域相位分析模型，并将与所述频域相位分析模型对应的频域相位分析网络作为当前频域相位分析网络；

将所述第二预测样本语音数据及对应的干净样本语音数据输入至所述频域相位分析模型，得到第二输出结果；

依据所述第二输出结果对所述当前通话降噪模型的当前网络参数进行更新优化，得到更新后的第四网络参数及新的通话降噪模型，并将更新后的通话降噪模型作为当前通话降噪模型；

返回执行所述将多个所述带噪样本语音数据输入至当前通话降噪模型，得到多个第二预测样本语音数据的步骤，以进入下一轮训练，直至满足第二预设结束条件后结束训练，得到优化后的通话降噪模型。

可选的，所述依据多个所述第二预测样本语音数据的复数角度值、多个所述带噪样本语音数据的复数角度值及多个所述干净样本语音数据的复数角度值对所述当前频域相位分析网络进行训练以对当前网络参数进行更新的过程为：

对每个所述第二预测样本语音数据、每个所述干净样本语音数据及每个所述带噪样本语音数据进行傅里叶变换，计算出所述第二预测样本语音数据每个频点的复数角度值、所述干净样本语音数据每个频点的复数角度值以及所述带噪样本语音数据每个频点的复数角度值；

将多组所述第二预测样本数据每个频点的复数角度值与对应的所述干净样本语音数据每个频点的复数角度值作为当前频域相位分析网络的输入，并设置对应的标签为0，将多组所述带噪样本语音数据每个频点的复数角度值与所述干净样本语音数据每个频点的复数角度值作为所述当前频域相位分析网络的输入，并设置对应的标签为1，得到与每组对应的第二输出标签值；

计算每个所述第二输出标签值与对应的标签值的第二误差，并依据各个所述第二误差反向传播计算所述频域角度分析网络各网络层参数的第一变化梯度值；

依据所述频域相位分析网络各网络层参数的第一变化梯度值对所述频域相位分析网络的当前网络参数进行更新。

可选的，所述依据所述第二输出结果对所述当前通话降噪模型的当前网络参数进行更新优化的过程为：

依据所述第二输出结果反向计算所述频域相位分析模型各网络层参数的第二变化梯度值；

依据所述频域相位分析模型各网络层参数的第二变化梯度值计算当前通话降噪模型各网络层参数的第二变化梯度值，并依据所述当前通话降噪模型各网络层参数的第二变化梯度值对所述当前通话降噪模型的当前网络参数进行更新优化。

本发明实施例还提供了一种音频降噪装置，包括：

获取模块，用于拾取语音信号；

降噪模块，用于采用预先训练的通话降噪模型对所述语音信号进行降噪处理，得到降噪后的语音数据；其中，所述通话降噪模型的训练过程为：

依据带噪样本语音数据及对应的干净样本语音数据对所述通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对所述带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对所述通话降噪网络的网络参数进行优化，以得到损失小于预设损失值的通话降噪模型。

本发明实施例还提供了一种音频降噪***，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述音频降噪方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述音频降噪方法的步骤。

本发明实施例提供了一种音频降噪方法、装置、***及计算机可读存储介质，该音频降噪方法所采用的通话降噪模型是采用带噪样本语音数据及对应的干净样本语音数据对通话降噪网络进行训练，并在在训练过程中采用频域幅值分析网络对带噪样本语音数据的复数幅度值、对应的干净样本语音数据的复数幅度值进行分析，然后根据分析结果对通话降噪网络的网络参数进行优化，从而得到损失小于预设损失值的通话降噪模型，该通话降噪模型具有更优的网络参数，因此在采用该通话降噪模型对拾取到的语音信号进行降噪处理后，能够使降噪后的语音数据更加精确，降噪效果更好。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频降噪方法的流程示意图；

图2为本发明实施例提供的一种通话降噪模型训练方法的流程示意图；

图3为本发明实施例提供的另一种通话降噪模型训练方法的流程示意图；

图4为本发明实施例提供的一种音频降噪装置的结构示意图。

具体实施方式

本发明实施例提供了一种音频降噪方法、装置、***及计算机可读存储介质，在使用过程中使降噪后的语音数据更加精确，降噪效果更好。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明实施例提供的一种音频降噪方法的流程示意图。该频降噪方法，包括：

S110：拾取语音信号；

具体的，可以通过麦克风拾取语音信号，该语音信号中包括噪声信号和有用声音信号。

S120：采用预先训练的通话降噪模型对语音信号进行降噪处理，得到降噪后的语音数据；

具体的，可以采用通话降噪模型对与语音数据对应的时域语音数据进行降噪处理，得到降噪后的时域语音数据。

其中，通话降噪模型的训练过程为：

依据带噪样本语音数据及对应的干净样本语音数据对通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对通话降噪网络的网络参数进行优化，以得到损失小于预设损失值的通话降噪模型。

具体的，可以先获取带噪样本语音数据和与该带噪样本语音数据对应的干净样本语音数据，该干净样本语音数据也即为将带噪样本语音数据中的噪声语音信号滤除后的语音数据，其中，带噪样本语音数据和对应的干净样本语音数据可以均为多个，通过多个带噪样本语音数据及对应的干净样本语音数据对通话降噪网络进行训练，并且在训练过程中采用频域幅值分析网络对带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，得到分析结果，然后再根据该分析结果对通话降噪网络的网络参数进行优化，在训练完成后能够得到更优的网络参数，且通话降噪模型的损失小于预设损失值，从而使得到的通话降噪模型的降噪精确度更高。

进一步的，请参照图2，上述依据带噪样本语音数据及对应的干净样本语音数据及对通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对通话降噪网络的网络参数进行优化，以得到损失小于预设损失值的通话降噪模型的过程，具体可以为：

S210：获取多个带噪样本语音数据及与每个带噪样本语音数据各自对应的干净样本语音数据；

需要说明的是，本发明实施例中可以预先采集多个干净样本语音数据及多个不同信噪比的噪声样本语音数据，根据多个干净样本语音数据及多个噪声样本语音数据得到多个带噪样本语音数据。

S220：分别对频域幅值分析网络和通话降噪网络的网络参数进行初始化，得到第一初始化网络参数和第二初始化网络参数，将初始化后的频域幅值分析网络作为当前频域幅值分析网络，将初始化后的通话降噪网络作为当前通话降噪网络；

需要说明的是，本发明实施例中通话降噪网络具体可以用于耳机蓝牙芯片端，通话降噪网络的编码部分主要用于提取时域带噪音频数据帧的语音本质特征，并对各网络层的输出进行保存以便在解码部分进行相应的细节恢复，解码部分主要用于将提取出的语音本质特征进行上采样恢复，借鉴编码部分各网络层输出的细节特征最终输出干净的时域语音数据帧。其中，在实际应用中通话降噪网络的卷积核尺寸、网络层输出通道数都被约束在极小的范围，以减少最终的模型尺寸，例如，本发明实施例中的通话降噪网络可以采用4层卷积结构实现编码、3层反卷积结构实现解码，在编码与解码的交接处添加大小为1*1*16卷积核的网络层，在不明显增加模型大小的同时，增强了该模型对复杂数据的拟合能力，最终实现在耳机蓝牙芯片端基于单麦克语音数据帧进行实时降噪处理。

另外，本发明实施例中的频域幅值分析网络为大规模的分类网络结构，被用于频域下对不同频点的幅度进行分析。其中，频域幅值分析网络的网络层数可以为通话降噪模型网络层数的3倍，每层的通道数可以采用32、64、128或256，从而可以使频域幅值分析网络具有较大的参数量，提高其分析能力。

具体的，在对通话降噪网络进行训练时，可以先对频域幅值分析网络各网络层的网络参数进行初始化，得到第一初始化网络参数，对通话降噪网络各网络层的网络参数进行初始化，得到第二初始化网络参数，然后将初始化后的频域幅值分析网络作为当前频域幅值分析网络，将初始化后的通话降噪网络作为当前通话降噪网络。

S230：将多个带噪样本语音数据输入至当前通话降噪网络，得到多个第一预测样本语音数据；

具体的，在进行通话降噪模型训练时，可以将多个带噪样本语音数据输入至当前通话降噪网络中，得到与每个带噪样本语音数据各自对应的第一预设样本语音数据。其中，对于第一轮训练中当前通话降噪网络的网络参数即为初始化后的第二初始化网络参数，后续的每轮中的当前通话降噪网络的网络参数即为上一轮更新后的网络参数。

S240：依据多个第一预测样本语音数据的复数幅度值、多个带噪样本语音数据的复数幅度值及多个干净样本语音数据的复数幅度值对当前频域幅值分析网络进行训练以对当前网络参数进行更新，得到更新后的第一网络参数及对应的频域幅值分析模型，并将与所述频域幅值分析模型对应的频域幅值分析网络作为当前频域幅值分析网络；

具体的，由于每个带噪样本语音数据对应一个干净样本语音数据，并且一个带噪样本语音数据对应一个第一预测样本语音数据，因此，可以将第一预测样本语音数据和对应的干净样本语音数据作为一组，从而得到多组第一预测样本语音数据和对应的干净样本语音数据，同样，可以将带噪样本语音数据和对应的干净样本语音数据作为一组，从而得到多组带噪样本语音数据和对应的干净样本语音数据，然后根据每组第一预测样本语音数据的复数幅度值和对应的干净样本语音数据的复数幅度值以及每组带噪样本语音数据的复数幅度值和对应的干净样本语音数据的复数幅度值对当前频域幅值分析网络进行训练并对当前网络参数进行更新得到第一网络参数，并且可以冻结本次得到的第一网络参数，确定出基于第一网络参数的频域幅值分析模型。其中，在第一轮训练中当前频域幅值分析网络是基于初始化后的第一初始化网络参数的频域幅值分析网络，在后续训练过程中，当前频域幅值分析网络即为基于上一轮更新后的第一网络参数的频域幅值分析网络。

上述S240的具体过程可以为：

对每个第一预测样本语音数据、每个干净样本语音数据及每个带噪样本语音数据进行傅里叶变换，计算出第一预测样本语音数据每个频点的复数幅度值、干净样本语音数据每个频点的复数幅度值以及带噪样本语音数据每个频点的复数幅度值；

需要说明的是，本发明实施例中还可以设置傅里叶变换网络层，并采用该傅里叶变换网络层对每组第一预测样本语音数据和对应的干净样本语音数据分别计算出每个频点的复数幅度值，得到第一预测样本语音数据每个频点的复数幅度值以及对应的干净样本语音数据每个频点的复数幅度值；采用该傅里叶变换网络层对每组带噪样本语音数据和对应的干净样本语音数据分别计算出每个频点的复数幅度值。

将多组第一预测样本数据每个频点的复数幅度值与对应的干净样本语音数据每个频点的复数幅度值作为当前频域幅值分析网络的输入，并设置对应的标签为0，将多组带噪样本语音数据每个频点的复数幅度值与干净样本语音数据每个频点的复数幅度值作为当前频域幅值分析网络的输入，并设置对应的标签为1，得到与每组对应的第一输出标签值；计算每个第一输出标签值与对应的标签值的第一误差，并依据各个第一误差反向传播计算频域幅值分析网络各网络层参数的第一变化梯度值；

依据频域幅值分析网络各网络层参数的第一变化梯度值对频域幅值分析网络的当前网络参数进行更新。

也即，本发明实施例中可以将每组第一预测样本数据每个频点的复数幅度值与对应的干净样本语音数据每个频点的复数幅度值进行融合后作为当前频域幅值分析网络的2通道的输入，并定义其输出的标签为0，从而可以减小这两类输入的距离，使得通话降噪网络的推理结果与相应的干净样本语音数据的频域幅值特征越来越接近；将每组带噪样本语音数据每个频点的复数幅度值与干净样本语音数据每个频点的复数幅度值进行融合后作为当前频域幅值分析网络的2通道的输入，并定义其输出的标签为1，从而可以加大这两类输入的距离，使得带噪样本语音数据与对应的干净样本语音数据的频域幅值特征越来越远，加强带噪样本语音数据与对应的干净样本语音数据的区分度。

具体的，针对每一组输入得出一个第一输出标签值，根据该第一输出标签值与对应的那一组输入所定义的标签值进行误差计算，得到第一误差，并依据各个第一误差反向传播计算频域幅值分析网络各网络层参数的第一变化梯度值，然后再依据频域幅值分析网络各网络层参数的第一变化梯度值对频域幅值分析网络的当前网络参数进行更新，得到更新后的网络参数。

具体的，可以根据以下第一损失函数进行误差计算：

其中，L_spec为频域幅值分析网络所构建的损失函数，N为每类语音数据的样本数量，l_gc仅在输入为通话降噪网络输出的预测样本语音数据时为1、其他情况为0，l_nc为仅在输入为带噪样本语音数据时为1、其他情况为0，S_{g_c}表示输入第一预测样本语音数据频点的复数幅度值和对应的干净样本语音数据频点的复数幅度值时、频域幅值分析网络的第一输出标签值，S_{n_c}表示输入带噪样本语音数据频点的复数幅度值和对应的干净样本语音数据频点的复数幅度值时、频域幅值分析网络的第一输出标签值。可以理解的是，本发明实施例中的N表示第一预测样本语音数据、干净样本语音数据或带噪样本语音数据的样本数量。

S250：将多个第一预测样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值输入至频域幅值分析模型，得到第一输出结果值；

S260：依据第一输出结果值对当前通话降噪网络的当前网络参数进行更新，得到更新后的第二网络参数及对应的通话降噪网络，并将更新后的通话降噪网络作为当前通话降噪网络；

需要说明的是，在上述对频域幅值分析网络的网络参数进行更新得到第一网络参数后，将第一网络参数冻结，也即冻结频域幅值分析网络各网络层的参数，并使对应的频域幅值网络分析模型作为通话降噪网络的后端，实现通过频域幅值分析模型联合通话降噪网络进行训练的过程，具体包括前向传播和反向传播两个过程：

在前向传播时，带噪样本语音数据通过通话降噪网络后输出第一预设样本语音数据，可以将该第一预测样本语音数据和对应的对应的干净样本语音数据经过傅里叶变换网络层计算出对应频点的复数幅度值，并将第一预测样本语音数据频点的复数幅度值和对应的干净样本语音数据频点的复数幅度值输入至频域幅值分析模型，得到第一输出结果值，该第一输出结果值具体可以为置信度概率值(0至1之间的一个小数值)；

在反向传播时，先依据第一输出结果值反向计算频域幅值分析模型各网络层参数的第二变化梯度值；然后，再依据频域幅值分析模型各网络层参数的第二变化梯度值计算当前通话降噪网络各网络层参数的第一变化梯度值，并依据当前通话降噪网络各网络层参数的第一变化梯度值对当前通话降噪网络的当前网络参数进行更新。

也即，先根据通过频域幅值分析模型输出的第一输出结果值反向计算频域幅值分析模型各网络层参数的第二变化梯度值，然后进一步计算出传播至频域幅值分析模型的输入数据，再通过对频域幅值分析模型的输入数据进行反傅里叶变换，并进一步反向计算出当前通话降噪网络输出的预测样本语音数据的变化梯度值，然后计算出预测样本语音数据与对于的干净样本语音数据的误差，继续反向传播至当前通话降噪网络各网络层，及进一步计算出当前通话降噪网络各网络层参数的第一变化梯度值，然后根据当前通话降噪网络各网络层参数的第一变化梯度值对当前通话降噪网络的当前网络参数进行更新。

其中，训练通话降噪网络时所构建的损失函数具体为：

其中，L_Gspec为训练通话降噪网络所构建的损失函数，P_i ^real为通话降噪网络的预测样本数据通过傅里叶变换网络层后输出的复数幅度的实部，

为对应的干净样本语音数据通过傅里叶变换网络层后输出的复数幅度的实部，P_i ^imag为通话降噪网络的预测样本数据通过傅里叶变换网络层后输出的复数幅度的虚部，

为对应的干净样本语音数据通过傅里叶变换网络层后输出的复数幅度的虚部，S_{g_c}'为频域幅值分析模型输出的第一输出结果值(也即置信度概率值)。也即，L_Gspec通过后端频域幅值分析模型的输出损失反向传播入通话降噪网络进行学习，通话降噪网络基于傅里叶变换网络层实现了频域下实部和虚部的损失计算。

S270：返回执行S230将多个带噪样本语音数据输入至当前通话降噪网络，得到多个第一预测样本语音数据的步骤，以进入下一轮训练，直至损失小于预设损失值时结束训练，得到训练后的通话降噪模型。

需要说明的是，本发明实施例中的具体可以设置第一预设结束条件，以使在训练过程中满足第一预设结束条件时通话降噪网络的损失小于预设损失值，具体的本发明实施例中的第一预设结束条件可以为训练轮次达到预设次数(例如100次等)或者通话降噪网络的损失函数值小于第一预设值时，则结束训练得到训练后的通话降噪模型。

需要说明的是，在完成上述通过频域幅值分析网络对通话降噪网络的网络参数进行优化的训练工作后，所得到的通话降噪模型的预测结果与相应的干净样本语音数据相比，仍存在少量相位偏移的情况，使得通话降噪模型的输出会发生少量失真，本发明实施例中为了进一步提高通话降噪模型的精确度，对通话降噪模型进行优化，具体如下：

进一步的，在上述依据带噪样本语音数据及对应的干净样本语音数据及对通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对通话降噪网络的网络参数进行优化，以得到损失小于预设损失值通话降噪模型之后，该方法还可以包括：

采用频域相位分析网络对带噪样本语音数据的复数角度值、对应的干净样本语音数据的复数角度值进行分析，并根据分析结果对通话降噪模型的网络参数进行优化，得到优化后的通话降噪模型，以用于对与语音信号对应的时域语音数据进行降噪处理，得到降噪后的时域语音数据。

其中，如图3所示，采用频域相位分析网络对带噪样本语音数据的复数角度值、对应的干净样本语音数据的复数角度值进行分析，并根据分析结果对通话降噪模型的网络参数进行优化，得到优化后的通话降噪模型的过程，具体可以为：

S310：对频域相位分析网络的网络参数进行初始化，得到第三初始化网络参数，并将对应的频域相位分析网络作为当前频域分析网络；

需要说明的是，具体可以随机初始化频域相位分析网络的网络参数，得到第三初始化网络参数，其中，该过程中的第一轮训练中通话降噪模型的网络参数为上述训练好的通话降噪模型对应的网络参数。

S320：将多个带噪样本语音数据输入至当前通话降噪模型，得到多个第二预测样本语音数据；

S330：依据多个第二预测样本语音数据的复数角度值、多个带噪样本语音数据的复数角度值及多个干净样本语音数据的复数角度值对当前频域相位分析网络进行训练以对当前网络参数进行更新，得到更新后的第三网络参数及对应的频域相位分析模型，并将与所述频域相位分析模型对应的频域相位分析网络作为当前频域相位分析网络；具体的：

对每个第二预测样本语音数据、每个干净样本语音数据及每个带噪样本语音数据进行傅里叶变换，计算出第二预测样本语音数据每个频点的复数角度值、干净样本语音数据每个频点的复数角度值以及带噪样本语音数据每个频点的复数角度值；

需要说明的是，一个第二预测样本语音数据对应一个干净样本语音数据，一个带噪样本语音数据对应一个干净样本语音数据，因此可以得到多组第二预测样本语音数据与对应的干净样本语音数据，以及得到多组带噪样本语音数据与对应的干净样本语音数据。

具体的，可以采用傅里叶变换网络层对每组第二预测样本语音数据与对应的干净样本语音数据分别计算每个频点的复数角度值，得到第二预测样本语音数据每个频点的复数角度值以及对于的干净样本语音数据每个频点的复数角度值；采样傅里叶变换网络层对每组带噪本语音数据与对应的干净样本语音数据分别计算每个频点的复数角度值，得到带噪样本语音数据每个频点的复数角度值以及干净样本语音数据每个频点的复数角度值。

将多组第二预测样本数据每个频点的复数角度值与对应的干净样本语音数据每个频点的复数角度值作为当前频域相位分析网络的输入，并设置对应的标签为0，将多组带噪样本语音数据每个频点的复数角度值与干净样本语音数据每个频点的复数角度值作为当前频域相位分析网络的输入，并设置对应的标签为1，得到与每组对应的第二输出标签值；

计算每个第二输出标签值与对应的标签值的第二误差，并依据各个第二误差反向传播计算频域角度分析网络各网络层参数的第一变化梯度值；

依据频域相位分析网络各网络层参数的第一变化梯度值对频域相位分析网络的当前网络参数进行更新。

具体的，本发明实施例中可以将多组第二预测样本数据每个频点的复数角度值与对应的干净样本语音数据每个频点的复数角度值作为当前频域相位分析网络的输入，并定义其对应的标签为0，从而可以减小这两类输入的距离，使得通话降噪网络的推理结果与相应的干净样本语音数据的频域相位特征越来越接近；将多组带噪样本语音数据每个频点的复数角度值与干净样本语音数据每个频点的复数角度值作为当前频域相位分析网络的输入，并定义对应的标签为1，从而可以加大这两类输入的距离，使得带噪样本语音数据与对应的干净样本语音数据的频域相位特征越来越远，加强带噪样本语音数据与对应的干净样本语音数据的区分度。

具体的，针对每一组输入得到对应的第二输出标签值，并根据第二输出标签值对应的标签值计算出对应的第二误差，然后再依据各个第二误差反向传播计算频域角度分析网络各网络层参数的第一变化梯度值，再依据频域相位分析网络各网络层参数的第一变化梯度值对频域相位分析网络的当前网络参数进行更新，得到更新后的网络参数。

其中，可以根据如下损失函数对频域相位分析网络的网络参数进行更新：

其中，L_phase为训练频域相位分析网络所构建的损失函数，N'为每类语音数据的样本数量，l_gc仅在输入为通话降噪网络输出的预测样本语音数据时为1、其他情况为0，l_nc为仅在输入为带噪样本语音数据时为1、其他情况为0，P_{g_c}表示输入第二预测样本语音数据频点的复数角度值和对应的干净样本语音数据频点的复数角度值时、频域幅值分析网络的第二输出标签值，P_{n_c}表示输入带噪样本语音数据频点的复数角度值和对应的干净样本语音数据频点的复数角度值时、频域幅值分析网络的第二输出标签值。

S340：将第二预测样本语音数据及对应的干净样本语音数据输入至频域相位分析模型，得到第二输出结果；

S350：依据第二输出结果对当前通话降噪模型的当前网络参数进行更新优化，得到更新后的第四网络参数及新的通话降噪模型，并将更新后的通话降噪模型作为当前通话降噪模型；

具体的，依据第二输出结果反向计算频域相位分析模型各网络层参数的第二变化梯度值；

依据频域相位分析模型各网络层参数的第二变化梯度值计算当前通话降噪模型各网络层参数的第二变化梯度值，并依据当前通话降噪模型各网络层参数的第二变化梯度值对当前通话降噪模型的当前网络参数进行更新优化。

需要说明的是，在上述对频域相位分析网络的网络参数进行更新得到第第三网络参数后，将第三网络参数冻结，也即冻结频域相位分析网络各网络层的参数，并使对应的频域相位网络分析模型作为通话降噪模型的后端，实现通过频域相位分析模型联合通话降噪模型进行训练的过程，具体包括前向传播和反向传播两个过程：

在前向传播时，带噪样本语音数据通过通话降噪模型后输出第二预设样本语音数据，可以将该第二预测样本语音数据和对应的对应的干净样本语音数据经过傅里叶变换网络层计算出对应频点的复数角度值，并将第二预测样本语音数据频点的复数角度值和对应的干净样本语音数据频点的复数角度值输入至频域相位分析模型，得到第二输出结果，该第二输出结果具体可以为置信度概率值(0至1之间的一个小数值)；

在反向传播时，先依据第二输出结果反向计算频域相位分析模型各网络层参数的第二变化梯度值；然后，再依据频域相位分析模型各网络层参数的第二变化梯度值计算当前通话降噪模型各网络层参数的第二变化梯度值，并依据当前通话降噪模型各网络层参数的第二变化梯度值对当前通话降噪模型的当前网络参数进行更新。

也即，先根据通过频域相位分析模型输出的第二输出结果反向计算频域相位分析模型各网络层参数的第二变化梯度值，然后进一步计算出传播至频域相位分析模型的输入数据，再通过对频域相位分析模型的输入数据进行反傅里叶变换，并进一步反向计算出当前通话降噪模型输出的预测样本语音数据的变化梯度值，然后计算出预测样本语音数据与对于的干净样本语音数据的误差，继续反向传播至当前通话降噪模型各网络层，及进一步计算出当前通话降噪模型各网络层参数的第二变化梯度值，然后根据当前通话降噪模型各网络层参数的第二变化梯度值对当前通话降噪网络的当前网络参数进行更新。

其中，通过频域相位分析网络对通话降噪模型的网络参数进行优化时所构建的损失函数具体为：

其中，L_Gphase为训练通话降噪模型所构建的损失函数，P_i ^real'为通话降噪模型的预测样本数据通过傅里叶变换网络层后输出的复数角度的实部，

为对应的干净样本语音数据通过傅里叶变换网络层后输出的复数角度的实部，P_i ^imag'为通话降噪网络的预测样本数据通过傅里叶变换网络层后输出的复数角度的虚部，

为对应的干净样本语音数据通过傅里叶变换网络层后输出的复数幅度的虚部，P_{g_c}'为频域相位分析模型输出的第二输出结果值(也即置信度概率值)。

S360：返回执行S320将多个带噪样本语音数据输入至当前通话降噪模型，得到多个第二预测样本语音数据的步骤，以进入下一轮训练，直至满足第二预设结束条件后结束训练，得到优化后的通话降噪模型。

需要说明的是，本发明实施例中的第二预设结束条件可以为训练轮次达到预设次数(例如100次等)或者通话降噪模型的损失函数值小于第二预设值时，则结束训练得到最终训练后的通话降噪模型，并在实际应用中通过该通话降噪模型对拾取的语音数据进行降噪处理，使降噪后的语音数据的精确度更高。

可见，本发明实施例中的音频降噪方法所采用的通话降噪模型是根据带噪样本语音数据、对应的干净样本语音数据对通话降噪网络进行训练，并在对通话降噪网络进行训练过程中通过频域幅值分析网络对通话降噪网络的网络参数进行优化，从而使得到训练后的通话降噪模型具有更优的网络参数，因此在采用该通话降噪模型对拾取到的语音信号进行降噪处理后，能够使降噪后的语音数据更加精确，降噪效果更好。

在上述实施例的基础上，本发明实施例还提供了一种音频降噪装置，如图4所示，该装置包括：

获取模块21，用于拾取语音信号；

降噪模块22，用于采用预先训练的通话降噪模型对与语音信号对应的时域语音数据进行降噪处理，得到降噪后的时域语音数据；其中，通话降噪模型的训练过程为：

依据带噪样本语音数据及对应的干净样本语音数据对通话降噪网络进行训练得到通话降噪模型。

需要说明的是，本发明实施例中所提供的音频降噪装置具有与上述实施例中所提供的音频降噪方法相同的有益效果，并且对于本发明实施例中所涉及到的音频降噪方法的具体介绍请参照上述实施例，本发明在此不再赘述。

在上述实施例的基础上，本发明实施例还提供了一种音频降噪***，该***包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述音频降噪方法的步骤。

例如，本发明实施例中的处理器具体可以用于实现拾取语音信号；采用预先训练的通话降噪模型对与语音信号对应的时域语音数据进行降噪处理，得到降噪后的时域语音数据；其中，通话降噪模型的训练过程为：依据带噪样本语音数据及对应的干净样本语音数据对通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对通话降噪网络的网络参数进行优化，得到损失小于预设损失值的通话降噪模型。

在上述实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述音频降噪方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频降噪方法，其特征在于，包括：

拾取语音信号；

依据带噪样本语音数据及对应的干净样本语音数据对通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对所述带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对所述通话降噪网络的网络参数进行优化，以得到损失小于预设损失值的通话降噪模型；其中：

所述依据带噪样本语音数据及对应的干净样本语音数据及对所述通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对所述带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对所述通话降噪网络的网络参数进行优化，以得到损失小于预设损失值的通话降噪模型的过程为：

返回执行所述将多个所述带噪样本语音数据输入至当前通话降噪网络，得到多个第一预测样本语音数据的步骤，以进入下一轮训练，直至损失小于预设损失值时结束训练，得到训练后的通话降噪模型。

2.根据权利要求1所述的音频降噪方法，其特征在于，所述依据多个所述第一预测样本语音数据的复数幅度值、多个所述带噪样本语音数据的复数幅度值及多个所述干净样本语音数据的复数幅度值对所述当前频域幅值分析网络进行训练以对当前网络参数进行更新的过程为：

3.根据权利要求2所述的音频降噪方法，其特征在于，所述依据所述第一输出结果对所述当前通话降噪网络的当前网络参数进行更新的过程为：

4.根据权利要求1所述的音频降噪方法，其特征在于，在所述依据带噪样本语音数据及对应的干净样本语音数据及对所述通话降噪网络进行训练，并在训练过程中采用频域幅值分析网络对所述带噪样本语音数据的复数幅度值及对应的干净样本语音数据的复数幅度值进行分析，根据分析结果对所述通话降噪网络的网络参数进行优化，以得到损失小于预设损失值的通话降噪模型之后，还包括：

采用频域相位分析网络对所述带噪样本语音数据的复数角度值及对应的干净样本语音数据的复数角度值进行分析，并根据分析结果对所述通话降噪模型的网络参数进行优化，得到优化后的通话降噪模型，以用于对与所述语音信号对应的时域语音数据进行降噪处理，得到降噪后的时域语音数据。

5.根据权利要求4所述的音频降噪方法，其特征在于，所述采用频域相位分析网络对所述带噪样本语音数据的复数角度值及对应的干净样本语音数据的复数角度值进行分析，并根据分析结果对所述通话降噪模型的网络参数进行优化，得到优化后的通话降噪模型的过程为：

对频域相位分析网络的网络参数进行初始化，得到第三初始化网络参数，并将对应的频域相位分析网络作为当前频域分析网络；

将多个所述带噪样本语音数据输入至当前通话降噪模型，得到多个第二预测样本语音数据；

6.根据权利要求5所述的音频降噪方法，其特征在于，所述依据多个所述第二预测样本语音数据的复数角度值、多个所述带噪样本语音数据的复数角度值及多个所述干净样本语音数据的复数角度值对所述当前频域相位分析网络进行训练以对当前网络参数进行更新的过程为：

7.根据权利要求6所述的音频降噪方法，其特征在于，所述依据所述第二输出结果对所述当前通话降噪模型的当前网络参数进行更新优化的过程为：

8.一种音频降噪装置，其特征在于，包括：

获取模块，用于拾取语音信号；

9.一种音频降噪***，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述音频降噪方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述音频降噪方法的步骤。