CN114067820B

CN114067820B - 语音降噪模型的训练方法、语音降噪方法和相关设备

Info

Publication number: CN114067820B
Application number: CN202210054722.XA
Authority: CN
Inventors: 李�杰; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-06-28
Anticipated expiration: 2042-01-18
Also published as: CN114067820A

Abstract

本申请提供了一种语音降噪模型的训练方法、语音降噪方法和相关设备，首先获取带噪语音和干净语音，然后将带噪语音和干净语音作为训练样本输入神经网络进行模型训练。带噪语音经过神经网络处理为第一降噪语音，基于第一降噪语音和干净语音计算得到第一损失值，基于降噪语音的第一降噪实部频域、第一降噪虚部频域与干净语音的干净实部频域、干净虚部频域计算得到第二损失值；通过第一损失值和第二损失值加权计算后的损失值总和对神经网络的参数进行优化，迭代循环至模型收敛，得到语音降噪模型。本申请通过使用不同类型、不同权值的第一损失值和第二损失值综合对神经网络的参数进行优化，从而有效提升语音降噪模型的降噪效果。

Description

语音降噪模型的训练方法、语音降噪方法和相关设备

技术领域

本申请涉及语音降噪技术领域，特别涉及一种语音降噪模型的训练方法、语音降噪方法和相关设备。

背景技术

语音降噪技术被广泛应用于耳机、会议室终端、智能终端等场景，现有语音降噪技术通常使用cnn+rnn的网络结构训练得到的降噪模型对带噪语音进行降噪，不仅对应用硬件设备的资源需求较高，且实际降噪效果不如人意。

发明内容

本申请的主要目的为提供一种语音降噪模型的训练方法、语音降噪方法和相关设备，旨在解决现有的语音降噪方法实际降噪效果较差的弊端。

为实现上述目的，本申请提供了一种语音降噪模型的训练方法，包括：

获取带噪语音和干净语音；

将所述带噪语音和所述干净语音作为训练样本输入神经网络进行模型训练；

模型训练过程中，所述带噪语音经过所述神经网络处理为第一降噪语音，并基于所述第一降噪语音和所述干净语音通过si-snr计算得到第一损失值，基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值；通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化，迭代循环至模型收敛，得到所述语音降噪模型。

本申请还提供了一种语音降噪方法，包括：

采集用户语音；

将所述用户语音输入语音降噪模型进行处理，得到第二降噪语音，其中，所述语音降噪模型为如上所述的语音降噪模型的训练方法训练得到的模型。

本申请还提供了一种语音降噪模型的训练装置，包括：

获取模块，用于获取带噪语音和干净语音；

输入模块，用于将所述带噪语音和所述干净语音作为训练样本输入神经网络进行模型训练；

训练模块，用于模型训练过程中，所述带噪语音经过所述神经网络处理为第一降噪语音，并基于所述第一降噪语音和所述干净语音通过si-snr计算得到第一损失值，基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值；通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化，迭代循环至模型收敛，得到所述语音降噪模型。

本申请还提供了一种语音降噪装置，包括：

采集模块，用于采集用户语音；

降噪模块，用于将所述用户语音输入语音降噪模型进行处理，得到第二降噪语音，其中，所述语音降噪模型为如上所述的语音降噪模型的训练方法训练得到的模型。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请中提供的一种语音降噪模型的训练方法、语音降噪方法和相关设备，模型训练时，首先获取带噪语音和干净语音，然后将带噪语音和干净语音作为训练样本输入神经网络进行模型训练。在模型训练过程中，带噪语音经过神经网络处理为第一降噪语音，并基于第一降噪语音和干净语音通过si-snr计算得到第一损失值，基于降噪语音的第一降噪实部频域、第一降噪虚部频域与干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值；通过第一损失值和第二损失值加权计算后的损失值总和对神经网络的参数进行优化，迭代循环至模型收敛，得到语音降噪模型。应用时，语音降噪模型部署在硬件设备上，采集应用场景的用户语音，并将用户语音输入语音降噪模型经模型处理后即可得到用户语音降噪后的第二降噪语音。本申请在进行模型训练时，通过使用不同类型、不同权值的第一损失值和第二损失值综合对神经网络的参数进行优化，从而有效提升训练得到的语音降噪模型的降噪效果。

附图说明

图1是本申请一实施例中语音降噪模型的训练方法的步骤示意图；

图2是本申请一实施例中语音降噪方法的步骤示意图

图3是本申请一实施例中语音降噪模型的训练装置的整体结构框图；

图4是本申请一实施例中语音降噪装置的整体结构框图

图5是本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种语音降噪模型的训练方法，包括：

S1:获取带噪语音和干净语音；

S2:将所述带噪语音和所述干净语音作为训练样本输入神经网络进行模型训练；

S3:模型训练过程中，所述带噪语音经过所述神经网络处理为第一降噪语音，并基于所述第一降噪语音和所述干净语音通过si-snr计算得到第一损失值，基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值；通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化，迭代循环至模型收敛，得到所述语音降噪模型。

本实施例中，训练***获取预先录制或模拟的带噪语音和干净语音（干净语音为不带任何噪音信息的语音），然后将带噪语音和干净语音作为训练样本输入神经网络中进行模型训练。在模型训练过程中，首先对带噪语音进行短时傅里叶变换和压缩，得到若干帧带噪音频数据各自对应的音频张量。在基于语音时序的相关性，将当前帧带噪音频张量与相邻的预设数量的历史帧带噪音频张量进行拼接，当前帧带噪音频张量通过拼接后的带噪音频张量的权值学习对应维度的权值，并在拼接后的带噪音频张量对应的维度上进行求和或求均，得到当前帧最终带噪音频张量作为下一步的输入。训练***将当前帧最终带噪音频张量映射到预设频率维度，学习得到对应的复掩膜（即mask）。训练***利用该复掩膜对带噪语音进行增强处理，得到第一降噪实部频域和第一降噪虚部频域，进而基于第一降噪实部频域和第一降噪虚部频域通过短时傅里叶逆变换得到第一降噪语音。训练***将获取的第一降噪语音与干净语音通过si-snr计算得到第一损失值，并基于降噪语音的第一降噪实部频域、第一降噪虚部频域与干净语音的干净实部频域、干净虚部频域（干净实部频域、干净虚部频域由干净语音通过短时傅里叶变换得到）对应通过均方损失函数计算得到第二损失值。训练***通过第一损失值和第二损失值加权计算后的损失值总和对神经网络的参数进行优化，迭代循环至模型收敛，得到最终的语音降噪模型。其中，第一损失值和第二损失值各自对应的权重可以为***动态设置，也可以由开发人员进行手动设置（比如设置为模型训练一定数量的批次后，由开发人员实时根据训练结果手动设置第一损失值和第二损失值各自对应的权重，重新设置权重后再继续进行模型训练）。

优选的，模型训练过程中还可以加入感知loss，感知loss可以通过pmsqe（Perceptual Metric for Speech Quality Evaluation）或LMS（Log Mel Spectra)）等方法得到，从而提升降噪语音的主观听感。

本实施例中，训练***进行模型训练时，通过使用不同类型、不同权值的第一损失值和第二损失值（还可以加上感知loss）综合对神经网络的参数进行优化，从而有效提升训练得到的语音降噪模型的降噪效果。

参照图2，本申请还提供了一种语音降噪方法，包括：

A1:采集用户语音；

A2:将所述用户语音输入语音降噪模型进行处理，得到第二降噪语音，其中，所述语音降噪模型为如上所述的语音降噪模型的训练方法训练得到的模型。

优选的，所述将所述用户语音输入语音降噪模型进行处理，得到第二降噪语音的步骤，包括：

A201:对所述用户语音进行短时傅里叶变换和压缩，得到若干帧音频数据各自对应的音频张量；

A202:基于语音时序的相关性，使用预设数量的历史帧音频张量对当前帧初始音频张量进行加权学习，得到当前帧最终音频张量；

A203:将所述当前帧最终音频张量映射到预设频率维度，学习得到对应的复掩膜；

A204:利用所述复掩膜对所述用户语音进行增强处理，得到第二降噪实部频域和第二降噪虚部频域；

A205:根据所述第二降噪实部频域和所述第二降噪虚部频域进行短时傅里叶逆变换，得到所述第二降噪语音。

本实施例中，上述语音降噪模型的训练方法训练所得的语音降噪模型部署在终端设备上，应用时，终端设备的降噪***实时采集当前场景存在的用户语音，然后将用户语音输入语音降噪模型进行相应的处理，得到去噪后的第二降噪语音。具体地，首先按照预设采样率对用户语音进行短时傅里叶变换，并按照预设输入形式设置输入特征，得到用户语音包含的各帧音频数据分别对应的初始音频张量。通过二维卷积网络函数对各个初始音频张量记性压缩，得到一次音频张量；再使用reshape（重塑）方法合并各个一次音频张量的维度，得到各个一次音频张量分别对应的二次音频张量；最后将各个二次音频张量分别压缩至预设维度，得到用户语音的各帧音频数据各自对应的音频张量，使其数据量大幅度降低。语音降噪模型缓存各帧音频数据各自对应的音频张量，在处理当前帧音频数据对应的音频张量（即当前帧初始音频张量）时，将预设数量具有连续时序性的历史帧音频张量（比如当前帧音频数据之前的连续的5帧音频数据对应的音频张量）与当前帧初始音频张量进行拼接，得到拼接张量。当前帧初始音频张量通过拼接张量的权值学习对应维度的权值，并在拼接张量对应的维度上进行求和或求均，完成权值学习后得到当前帧最终音频张量。语音降噪模型将当前帧最终音频张量映射到预设频率维度（比如当前帧最终音频张量为64维，将其映射为322维），从而学习得到对应的复掩膜（即mask）。语音降噪模型通过短时傅里叶变换得到用户语音的用户实部频域和用户虚部频域，然后将学习到的复掩膜的复掩膜实部频域、复掩膜虚部频域，和用户语音的用户实部频域和用户虚部频域进行mask操作，实现对用户语音的增强处理，得到用户语音降噪后的第二降噪实部频域和第二降噪虚部频域。语音降噪模型通过对第二降噪实部频域和第二降噪虚部频域进行短时傅里叶逆变换，得到用户语音降噪后的第二降噪语音。

本实施例中，语音降噪模型在处理用户语音时，利用压缩后的特征（即音频张量）作为记忆信息，相比直接在输入时进行拼接，能够大幅度减少内存占用，降低对硬件设备的资源要求，并有效提升数据处理的实时性。同时，利于语音时序上的相关性，对历史信息（即预设数量的历史帧音频张量）及当前信息（即当前帧初始音频张量）进行加权，能够有效提升了降噪效果。

进一步的，所述对所述用户语音进行短时傅里叶变换和压缩，得到若干帧音频数据各自对应的音频张量的步骤，包括：

A2011:按照预设采样率对所述用户语音进行短时傅里叶变换，并按照预设输入形式设置输入特征，得到所述用户语音包含的各帧音频数据分别对应的初始音频张量；

A2012:通过二维卷积网络函数对各所述初始音频张量进行压缩，得到一次音频张量；

A2013:使用reshape方法合并各所述一次音频张量的维度，得到各所述一次音频张量分别对应的二次音频张量；

A2014:将各所述二次音频张量分别压缩至预设维度，得到各所述音频张量。

本实施例中，语音降噪模型按照预设采样率对用户语音进行短时傅里叶变换，并按照预设输入形式设置输入特征，得到用户语音包含的各帧音频数据分别对应的初始音频张量。以20ms窗长、10ms帧移为例，20ms的音频数据采用16k采样率对应320个点，通过短时傅里叶变换得161个复数点；输入下一网络层的输入特征的预设输入形状为[batch size，time，freq，channel]，即初始音频张量为[b,t,161,2]。各个初始音频张量输入下一网络层，通过二维卷积网络函数进行压缩，得到各自对应的一次音频张量。进一步，在时序stride =1，频率维度采用depthwise的方式实现减少参数量，并在频率维度使用valid方式及合理的kernel设置，保证充分利用频点信息；比如freq= 161，s = 2，选取k（kernel）=5（若选取k=4，会使得第161维没有使用，卷积使用的窗口：1-4 ，3 -6......157-160，即(freq - k)能被s 整除）。语音降噪模型将各个一次音频张量分别进行reshape（重塑），合并freq和channel的维度，得到各个一次音频张量分别对应的二次音频张量（即[b,t,freq*channel]）。最后，语音降噪模型将各个二次音频张量分别压缩至预设维度，得到各帧音频数据对应的音频张量（比如预设维度为64维，即将[b,t,freq*channel]中的freq*channel压缩至64）。

进一步的，所述基于语音时序的相关性，使用预设数量的历史帧音频张量对当前帧初始音频张量进行加权学习，得到当前帧最终音频张量的步骤，包括：

A2021:将预设数量具有连续时序性的历史帧音频张量与当前帧初始音频张量进行拼接，得到拼接张量；

A2022:所述当前帧初始音频张量通过所述拼接张量的权值学习对应维度的权值，并在所述拼接张量对应的维度上进行求和或求均，得到所述当前帧最终音频张量。

本实施例中，语音降噪模型将预设数量具有连续时序性的历史帧音频张量与当前帧初始音频张量进行拼接，得到拼接张量。然后，当前帧初始音频张量通过拼接张量的权值学习对应维度的权值，并在拼接张量对应的维度上进行求和或求均，得到当前帧最终音频张量。比如，历史帧音频张量的预设数量为5，每个音频张量的维度为64维，则拼接张量为6*64维，当前帧初始音频张量通过拼接张量的权值学习对应维度的权值，然后在6这个维度记性求和或求均，得到当前帧最终音频张量，作为下一网络层的输入。其中，权值学习的逻辑和模型训练时网络权值的学习逻辑相同，在此不做详述。

进一步的，所述利用所述复掩膜对所述用户语音进行增强处理，得到第二降噪实部频域和第二降噪虚部频域的步骤，包括：

A2041:通过短时傅里叶变换计算得到所述用户语音的用户实部频域和用户虚部频域；

A2042:根据所述用户实部频域、所述用户虚部频域以及所述复掩膜对应的复掩膜实部频域、复掩膜虚部频域，分别计算得到所述第二降噪实部频域和所述第二降噪虚部频域。

优选的，所述根据所述用户实部频域、所述用户虚部频域以及所述复掩膜对应的复掩膜实部频域、复掩膜虚部频域，分别计算得到所述第二降噪实部频域和所述第二降噪虚部频域的步骤，包括：

A20421:将所述用户实部频域、所述用户虚部频域、所述复掩膜实部频域和所述复掩膜虚部频域代入第一计算式，计算得到所述第二降噪实部频域，其中，所述第一计算式为：real_en = real * mask_real - imag * mask_imag，real_en为所述第二降噪实部频域，real为所述用户实部频域，imag为所述用户虚部频域，mask_real为所述复掩膜实部频域，mask_imag为所述复掩膜虚部频域；

A20422:将所述用户实部频域、所述用户虚部频域、所述复掩膜实部频域和所述复掩膜虚部频域代入第二计算式，计算得到所述第二降噪虚部频域，其中，所述第二计算式为：imag_en = real * mask_imag + imag * mask_real，imag_en为所述第二降噪虚部频域。

本实施例中，语音降噪模型通过短时傅里叶变化计算得到用户语音的用户实部频域和用户虚部频域；然后，将用户实部频域、用户虚部频域、复掩膜实部频域和复掩膜虚部频域代入第一计算式real_en = real * mask_real - imag * mask_imag中，计算得到第二降噪实部频域，其中，real_en为第二降噪实部频域，real为用户实部频域，imag为用户虚部频域，mask_real为复掩膜实部频域，mask_imag为复掩膜虚部频域。并且，将用户实部频域、用户虚部频域、复掩膜实部频域和复掩膜虚部频域代入第二计算式imag_en = real *mask_imag + imag * mask_real中，计算得到第二降噪虚部频域，其中，imag_en为第二降噪虚部频域；完成对用户语音的降噪。

参照图3，本申请一实施例中还提供了一种语音降噪模型的训练装置，包括：

获取模块1，用于获取带噪语音和干净语音；

输入模块2，用于将所述带噪语音和所述干净语音作为训练样本输入神经网络进行模型训练；

训练模块3，用于模型训练过程中，所述带噪语音经过所述神经网络处理为第一降噪语音，并基于所述第一降噪语音和所述干净语音通过si-snr计算得到第一损失值，基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值；通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化，迭代循环至模型收敛，得到所述语音降噪模型。

本实施例中，语音降噪模型的训练装置中各模块用于对应执行与上述语音降噪模型的训练方法中的各个步骤，其具体实施过程在此不做详述。

参照图4，本申请一实施例还提供了一种语音降噪装置，包括：

采集模块4，用于采集用户语音；

降噪模块5，用于将所述用户语音输入语音降噪模型进行处理，得到第二降噪语音，其中，所述语音降噪模型为如上所述的语音降噪模型的训练方法训练得到的模型。

进一步的，所述降噪模块5，包括：

压缩子模块，用于对所述用户语音进行短时傅里叶变换和压缩，得到若干帧音频数据各自对应的音频张量；

加权子模块，用于基于语音时序的相关性，使用预设数量的历史帧音频张量对当前帧初始音频张量进行加权学习，得到当前帧最终音频张量；

映射子模块，用于将所述当前帧最终音频张量映射到预设频率维度，学习得到对应的复掩膜；

增强子模块，用于利用所述复掩膜对所述用户语音进行增强处理，得到第二降噪实部频域和第二降噪虚部频域；

逆变换子模块，用于根据所述第二降噪实部频域和所述第二降噪虚部频域进行短时傅里叶逆变换，得到所述第二降噪语音。

进一步的，所述压缩子模块，包括：

变换单元，用于按照预设采样率对所述用户语音进行短时傅里叶变换，并按照预设输入形式设置输入特征，得到所述用户语音包含的各帧音频数据分别对应的初始音频张量；

第一压缩单元，用于通过二维卷积网络函数对各所述初始音频张量进行压缩，得到一次音频张量；

合并单元，用于使用reshape方法合并各所述一次音频张量的维度，得到各所述一次音频张量分别对应的二次音频张量；

第二压缩单元，用于将各所述二次音频张量分别压缩至预设维度，得到各所述音频张量。

进一步的，所述加权子模块，包括：

拼接单元，用于将预设数量具有连续时序性的历史帧音频张量与当前帧初始音频张量进行拼接，得到拼接张量；

学习单元，用于所述当前帧初始音频张量通过所述拼接张量的权值学习对应维度的权值，并在所述拼接张量对应的维度上进行求和或求均，得到所述当前帧最终音频张量。

进一步的，所述增强子模块，包括：

第一计算单元，用于通过短时傅里叶变换计算得到所述用户语音的用户实部频域和用户虚部频域；

第二计算单元，用于根据所述用户实部频域、所述用户虚部频域以及所述复掩膜对应的复掩膜实部频域、复掩膜虚部频域，分别计算得到所述第二降噪实部频域和所述第二降噪虚部频域。

进一步的，所述第二计算单元，包括：

第一计算子单元，用于将所述用户实部频域、所述用户虚部频域、所述复掩膜实部频域和所述复掩膜虚部频域代入第一计算式，计算得到所述第二降噪实部频域，其中，所述第一计算式为：real_en = real * mask_real - imag * mask_imag，real_en为所述第二降噪实部频域，real为所述用户实部频域，imag为所述用户虚部频域，mask_real为所述复掩膜实部频域，mask_imag为所述复掩膜虚部频域；

第二计算子单元，用于将所述用户实部频域、所述用户虚部频域、所述复掩膜实部频域和所述复掩膜虚部频域代入第二计算式，计算得到所述第二降噪虚部频域，其中，所述第二计算式为：imag_en = real * mask_imag + imag * mask_real，imag_en为所述第二降噪虚部频域。

本实施例中，语音降噪装置中各模块、子模块、单元、子单元用于对应执行与上述语音降噪方法中的各个步骤，其具体实施过程在此不做详述。

本实施例提供的一种语音降噪模型的训练装置和语音降噪装置，模型训练时，首先获取带噪语音和干净语音，然后将带噪语音和干净语音作为训练样本输入神经网络进行模型训练。在模型训练过程中，带噪语音经过神经网络处理为第一降噪语音，并基于第一降噪语音和干净语音通过si-snr计算得到第一损失值，基于降噪语音的第一降噪实部频域、第一降噪虚部频域与干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值；通过第一损失值和第二损失值加权计算后的损失值总和对神经网络的参数进行优化，迭代循环至模型收敛，得到语音降噪模型。应用时，语音降噪模型部署在硬件设备上，采集应用场景的用户语音，并将用户语音输入语音降噪模型经模型处理后即可得到用户语音降噪后的第二降噪语音。本申请在进行模型训练时，通过使用不同类型、不同权值的第一损失值和第二损失值综合对神经网络的参数进行优化，从而有效提升训练得到的语音降噪模型的降噪效果。

参照图5，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储干净语音等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音降噪模型的训练方法和一种语音降噪方法。

上述处理器执行上述语音降噪模型的训练方法的步骤：

S1:获取带噪语音和干净语音；

上述处理器执行上述语音降噪方法的步骤：

A1:采集用户语音；

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种语音降噪模型的训练方法和一种语音降噪方法，所述语音降噪模型的训练方法具体为：

S1:获取带噪语音和干净语音；

所述语音降噪方法具体为：

A1:采集用户语音；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、第一物体或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、第一物体或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、第一物体或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音降噪模型的训练方法，其特征在于，包括：

获取带噪语音和干净语音；

模型训练过程中，所述带噪语音经过所述神经网络处理为第一降噪语音，并基于所述第一降噪语音和所述干净语音通过si-snr计算得到第一损失值，基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值；通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化，迭代循环至模型收敛，得到所述语音降噪模型；

所述将所述带噪语音和所述干净语音作为训练样本输入神经网络进行模型训练的步骤，包括：

对所述带噪语音进行短时傅里叶变换和压缩，得到若干帧带噪音频数据各自对应的带噪音频张量；

基于语音时序的相关性，使用预设数量的历史帧带噪音频张量对当前帧带噪音频张量进行加权学习，得到当前帧最终带噪音频张量，所述当前帧最终带噪音频张量表征所述带噪语音的当前帧带噪音频数据的音频特征。

2.一种语音降噪方法，其特征在于，包括：

采集用户语音；

将所述用户语音输入语音降噪模型进行处理，得到第二降噪语音，其中，所述语音降噪模型为权利要求1所述的语音降噪模型的训练方法训练得到的模型。

3.根据权利要求2所述的语音降噪方法，其特征在于，所述将所述用户语音输入语音降噪模型进行处理，得到第二降噪语音的步骤，包括：

对所述用户语音进行短时傅里叶变换和压缩，得到若干帧音频数据各自对应的音频张量；

基于语音时序的相关性，使用预设数量的历史帧音频张量对当前帧初始音频张量进行加权学习，得到当前帧最终音频张量；

将所述当前帧最终音频张量映射到预设频率维度，学习得到对应的复掩膜；

利用所述复掩膜对所述用户语音进行增强处理，得到第二降噪实部频域和第二降噪虚部频域；

根据所述第二降噪实部频域和所述第二降噪虚部频域进行短时傅里叶逆变换，得到所述第二降噪语音。

4.根据权利要求3所述的语音降噪方法，其特征在于，所述对所述用户语音进行短时傅里叶变换和压缩，得到若干帧音频数据各自对应的音频张量的步骤，包括：

按照预设采样率对所述用户语音进行短时傅里叶变换，并按照预设输入形式设置输入特征，得到所述用户语音包含的各帧音频数据分别对应的初始音频张量；

通过二维卷积网络函数对各所述初始音频张量进行压缩，得到一次音频张量；

使用reshape方法合并各所述一次音频张量的维度，得到各所述一次音频张量分别对应的二次音频张量；

将各所述二次音频张量分别压缩至预设维度，得到各所述音频张量。

5.根据权利要求3所述的语音降噪方法，其特征在于，所述基于语音时序的相关性，使用预设数量的历史帧音频张量对当前帧初始音频张量进行加权学习，得到当前帧最终音频张量的步骤，包括：

将预设数量具有连续时序性的历史帧音频张量与当前帧初始音频张量进行拼接，得到拼接张量；

所述当前帧初始音频张量通过所述拼接张量的权值学习对应维度的权值，并在所述拼接张量对应的维度上进行求和或求均，得到所述当前帧最终音频张量。

6.根据权利要求3所述的语音降噪方法，其特征在于，所述利用所述复掩膜对所述用户语音进行增强处理，得到第二降噪实部频域和第二降噪虚部频域的步骤，包括：

通过短时傅里叶变换计算得到所述用户语音的用户实部频域和用户虚部频域；

根据所述用户实部频域、所述用户虚部频域以及所述复掩膜对应的复掩膜实部频域、复掩膜虚部频域，分别计算得到所述第二降噪实部频域和所述第二降噪虚部频域。

7.根据权利要求6所述的语音降噪方法，其特征在于，所述根据所述用户实部频域、所述用户虚部频域以及所述复掩膜对应的复掩膜实部频域、复掩膜虚部频域，分别计算得到所述第二降噪实部频域和所述第二降噪虚部频域的步骤，包括：

将所述用户实部频域、所述用户虚部频域、所述复掩膜实部频域和所述复掩膜虚部频域代入第一计算式，计算得到所述第二降噪实部频域，其中，所述第一计算式为：real_en =real * mask_real - imag * mask_imag，real_en为所述第二降噪实部频域，real为所述用户实部频域，imag为所述用户虚部频域，mask_real为所述复掩膜实部频域，mask_imag为所述复掩膜虚部频域；

将所述用户实部频域、所述用户虚部频域、所述复掩膜实部频域和所述复掩膜虚部频域代入第二计算式，计算得到所述第二降噪虚部频域，其中，所述第二计算式为：imag_en =real * mask_imag + imag * mask_real，imag_en为所述第二降噪虚部频域。

8.一种语音降噪模型的训练装置，其特征在于，包括：

获取模块，用于获取带噪语音和干净语音；

训练模块，用于模型训练过程中，所述带噪语音经过所述神经网络处理为第一降噪语音，并基于所述第一降噪语音和所述干净语音通过si-snr计算得到第一损失值，基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值；通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化，迭代循环至模型收敛，得到所述语音降噪模型；

所述输入模块具体用于：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。