CN111564160A - 一种基于aewgan的语音降噪的方法 - Google Patents

一种基于aewgan的语音降噪的方法 Download PDF

Info

Publication number
CN111564160A
CN111564160A CN202010316731.2A CN202010316731A CN111564160A CN 111564160 A CN111564160 A CN 111564160A CN 202010316731 A CN202010316731 A CN 202010316731A CN 111564160 A CN111564160 A CN 111564160A
Authority
CN
China
Prior art keywords
network
speech
function
aewgan
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010316731.2A
Other languages
English (en)
Other versions
CN111564160B (zh
Inventor
胡章芳
徐轩
罗元
张毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hongyue Information Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010316731.2A priority Critical patent/CN111564160B/zh
Publication of CN111564160A publication Critical patent/CN111564160A/zh
Application granted granted Critical
Publication of CN111564160B publication Critical patent/CN111564160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

本发明请求保护一种基于AEWGAN的语音降噪方法,该方法包括步骤:S1,将时域语音信号做为AEWGAN的生成器的输入,使用无监督方式让生成器自动生成新的语音;S2,将纯净语音和生成语音做为判别器的输入,训练判别器对干净语音的判别能力;S4,同时,在模型训练的过程会各自更新自身的参数使得损失最小,通过不断迭代优化,最终达到一个纳什均衡,此时模型达到最优;该发明能够有效的去除带噪语音信号的噪声,为后续的语音识别模型提供干净的语音信号,且鲁棒性好。

Description

一种基于AEWGAN的语音降噪的方法
技术领域
本发明属于语音信号处理领域,特别是一种基于AEWGAN的语音降噪方法。
背景技术
语音是人类相互之间进行交流时使用最多、最自然、最基本也是最重要的信息载体。在实际环境中,语音信号总是会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输媒质中引入的噪声、通信设备内部电噪声乃至其他说话人的干扰等等。这些干扰会使接收端的语音成为受噪声污染的语音,当噪声干扰严重时,语音将完全淹没到噪声中,使其无法分辨。语音增强是解决噪声污染的一种有效方法,它是从带噪语音信号中提取尽可能纯净的原始语音。总的来说语音增强的目标主要有:改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳;提高语音可懂度,方便听者理解。但由于噪声来源众多,随着应用场合不同,它们的特性也各不相同,即使在实验室室仿真条件下,也难以找到一种通用的语音增强算法,能适用于各种噪声环境,因此必须根据不同的噪音,采取特定的语音增强策略来降低噪音。
传统的语音增强算法都有各自缺点,维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。采用维纳滤波的好处是增强后的残留噪声类似于白噪声,而不是有节奏起伏的音乐噪声。维纳滤波是平稳条件下时域波形的最小均方误差准则估计。由于没有考虑到语音频谱分量的幅度对人的听觉最重要,因此采用维纳滤波来增强语音存在一定的缺陷。以均方误差或方差最小为准则,对噪声信号进行最优估计,然后从带噪语音中减去噪声达到降噪,提高信噪比,增强语音的目的。当输入信号的统计特性未知,或者输入信号的统计特性变化时,自适应滤波器能够自动地迭代调节自身的滤波器参,以满足某种准则的要求,从而实现最优滤波。因此,自适应滤波器具有“自我调节”和“跟踪”能力。此方法的关键是如何得到带噪语音中的噪声。在多声道采集***中,两个话筒间要有一定的距离,因而实时采集的两路信号的噪声不同,而且还受到回声及其他可变衰减特性的影响。在用单声道***来采集带噪语音时,必须在语音间歇期间利用采集到的噪声进行估值,如果噪声是非平稳的,会严重影响语音的增强效果,另一个缺点是增强后的语音中含有明显的“音乐噪声”。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于AEWGAN的语音降噪的方法。本发明的技术方案如下:
一种基于AEWGAN的语音降噪的方法,其包括以下步骤:
S1、测试阶段,获取一维的语音信号并转成一维离散语音信号,作为AEWGAN的输入;
S2、训练阶段,将一维离散语音信号输入AEWGAN的生成器中,利用卷积网络自动学习干净语音信号和带噪语音信号的非线性关系,接着再通过反卷积层生成新的语音信号;
S3、将纯净语音和步骤S2生成的语音信号输入AEWGAN的判别器中,训练一个能够识别纯净语音信号的判别器,判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制;
S4、判别器拟合出一个复杂的函数,该函数用于判断真实样本与生成的样本之间的Wasserstein距离;
S5、用训练集对模型进行训练,利用Adam算子优化目标函数;
S6、使用验证集对训练后的模型进项交叉验证,调整模型的超参数(迭代批次、批次大小和学习率,在训练过程中对超参数设定不同的值),得到最终网络模型,利用最终网络模型进行语音降噪。
进一步的,所述步骤S1获取一维的语音信号并转成一维离散语音信号,具体包括;
(输入约为1s的带噪语音,该语音的采样频率为8000Hz,为8192×1的一维向量。)
进一步的,所述步骤S2将带噪语音信号输入AEGAN的生成器中,利用卷积网络提取信号特征,接着再通过反卷积层生成新的语音信号,并在对应卷积和反卷积层引入U-Net结构,假设生成器网络总层数为n,使用跳跃连接技术通过对i层与n-i层相连接,该做法有效地将编码阶段的信息传递给解码阶段,使得网络梯度能更好地传播。U-Net结构的表达式为:
Figure BDA0002459846920000031
其中,xi,j表示输出,i沿编码器索引下采样层,j表沿着跳跃路径对稠密块进行索引的卷积层,H[·]函数为卷积运算,u[·]为上采样层,[·]为级联层。
进一步的,所述步骤S2利用卷积网络自动学习干净语音信号和带噪语音信号的非线性关系,接着再通过反卷积层生成新的语音信号;
语音信号和带噪语音信号的非线性表达式为:
y(t)=x(t)+z(t)
其中x(t)为干净语音,z(t)为噪声,y(t)为带噪语音。
生成器分为两个部分,编码和解码。编码部分由一维卷积组成,主要是对输入的带噪语音进行编码:
xi+1=ReLU(∑X·ωi+bi)
其中xi+1表示第i层卷积后的结果,ωi表示为第i层的权重参数,bi表示第i层的偏置值,ReLU为线性整流单元结构。
ReLU(x)=max(0,x)
而解码由反卷积构成,因此得到新的语音信号为:
Figure BDA0002459846920000032
其中,
Figure BDA0002459846920000033
为反卷积核,
Figure BDA0002459846920000034
表示反卷积核在输入特征X上滑动进行能反卷积运算
进一步的,所述S3将纯净语音和步骤S2生成的语音信号输入AEWGAN的判别器中,训练一个能够识别纯净语音信号的判别器,判别器的表达式:
z=∑wixi+b
xi+1=σ(z)
其中xi为输入语音信号,wi为权重参数,b为偏置值,σ(z)为Sigmoid激活函数。
Figure BDA0002459846920000041
判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制。
进一步的,所述判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制,具体包括:
在激活函数为sigmoid的情况下,当神经元输出接近1的时候被认为是激活状态,输出接近0的时候被认为处于抑制状态,所谓稀疏性限制,即神经元多数时间被限制为处于抑制状态的规则,用
Figure BDA0002459846920000042
表示输入为x的情况下,隐藏神经元j的活跃度,将隐藏层神经元节点j的平均活跃度记为:
Figure BDA0002459846920000043
m为每层网络的神经元节点数,则稀疏性限制记为
Figure BDA0002459846920000044
其中ρ为稀疏性参数,通常是一个接近于0的较小值,为了实现此限制需加入惩罚因子,对导致
Figure BDA0002459846920000045
情况的活跃神经元进行惩罚,从而使神经元平均活跃度保持在较小范围内,惩罚因子式为:
Figure BDA0002459846920000046
其中:其中:S2表示隐藏层神经元数量、KL散度表达式为:
Figure BDA0002459846920000047
惩罚因子性质为当
Figure BDA0002459846920000048
Figure BDA0002459846920000049
随着
Figure BDA00024598469200000410
和ρ间的差异增大而单调递增,要使
Figure BDA0002459846920000051
和ρ的值靠近,可以通过最小化惩罚因子的方法,总体代价函数为:
Figure BDA0002459846920000052
其中β为控制稀疏性惩罚因子的权重,W为权重参数、b为偏置值。
进一步的,所述步骤S4判别器拟合出一个复杂的函数,该函数用于判断真实样本与生成的样本之间的Wasserstein距离,具体包括:
在WGAN网络中使用Wasserstein距离对真实样本和生成样本的距离进行度量,Wasserstein距离的定义如下:
Figure BDA0002459846920000053
其中inf(·)表示为·函数的下界,P1和P2为概率分布,γ为每一个可能的集合分布,x、y为样本值。E(x,y)~γ[||x-y||]表示为x与y的Wasserstein距离,Π(P1,P2)为P1和P2的联合分布集合,γ服从Π(P1,P2),在(x,y)~γ分布条件下,求得E(x,y)~γ[||x-y||],结果为x与y距离的期望,Wasserstein距离就是对该期望求其下界值,将上式转换为:
Figure BDA0002459846920000054
该式中sup(·)为函数·的上界,|f||L≤K定义为:
|f(x1)-f(x2)|≤K|x1-x2|
K为函数f(x)的Lipschitz常数,同时K也可以理解为梯度,即在神经网络f(x)中x的梯度绝对值小于K;
判别器用FDNN网络模拟的函数无限逼近于Wasserstein距离,从而计算出真实样本和生成样本之间的Wasserstein距离。
进一步的,判别器网络的优化目标函数为:
Figure BDA0002459846920000055
L(w)表示判别器的优化目标函数,
Figure BDA0002459846920000061
表示为求x样本的均值,
Figure BDA0002459846920000062
表示为求z样本均值,fw(x)表示判别器拟合的函数,fw(G(z))表示生成器生成的语音样本在判别器中值到的距离值,w为判别器网络中的权重参数,Pdata和Pz为真实样本和生成样本的分布,在本网络中由于K值不影响fw(x)的梯度方向,所以取为1,而生成器中为了让Wasserstein距离最小也需要进行优化,优化目标函数为:
Figure BDA0002459846920000063
其中L(G)表示生成器的优化目标函数,由于该式中和生成器网络无关,可以等价为:
Figure BDA0002459846920000064
另外在训练的过程中,必须满足条件|f||L≤K,所以在每次更新权重后对权重进行参数截断,把权重的值控制在[-c,c]。
进一步的,使用梯度惩罚来替换参数截断,通过额外设置的梯度惩罚项,实现满足条件|f||L≤K,最终生成器网络和判别器网络的目标函数如下:
Figure BDA0002459846920000065
Figure BDA0002459846920000066
式中的
Figure BDA0002459846920000067
表示为fw(xt)的梯度,
Figure BDA0002459846920000068
表示
Figure BDA0002459846920000069
的2范数,λ1为惩罚因子。
进一步的,所述步骤S5用训练集对模型进行训练,利用Adam算子优化目标函数,Adam优化算法是随机梯度下降算法的优化,该算法是Momentum算法与RMSprop算法的结合。
其中Momentum算法过程为;
vdw=βvdw+(1-β)dW
vdb=βvdb+(1-β)db
W=W-αvdw
b=b-αvdb
其中vdw和vdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量,β是梯度累积的一个指数。dw和db分别是损失函数反向传播时候所求得的梯度,α是网络的学习率。
RMSprop算法过程:
sdw=βsdw+(1-β)dW2
sdb=βsdb+(1-β)db2
Figure BDA0002459846920000071
Figure BDA0002459846920000072
其中sdw和sdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量,β是梯度累积的一个指数。ε来进行平滑,防止分母为0。
设在训练的第t轮训练中,我们首先可以计算得到Momentum和RMSProp的参数更新,由于移动指数平均在迭代开始的初期会导致和开始的值有较大的差异,所以我们需要偏差修正。
Figure BDA0002459846920000073
因此求得在第t轮迭代过程中,参数梯度累积量的修正值,从而接下来就可以根据Momentum和RMSProp算法的结合来对权重和偏置进行更新。
Figure BDA0002459846920000074
Figure BDA0002459846920000075
上面的所有步骤就是Momentum算法和RMSProp算法结合起来从而形成Adam算法。其中β1的值为Momentum算法的β值,β2为RMSProp的β值。
本发明的优点及有益效果如下:
大多数的传统语音降噪算法都是基于统计学模型,先是对噪声分布进行建模,而后根据建模结果去除噪声,获得纯净语音。但是随着信噪比降低,传统的降噪算法会失效,造成大量噪声余留以及语音失真;其二,由于传统语音降噪算法附带一些不合理的假设,例如噪声信号与语音信号在统计上是相互独立的、噪声是平稳的等,导致无法在现实场景中应用。针对以上问题,本文提出了一种基于AEWGAN的语音降噪方法,训练AEWGAN的生成器和判别器参数后,生成器可以自动将去除带噪语音的噪声信号,且泛化性好、鲁棒性强。其二,AEWGAN可以训练各类噪声,因此只要在数据量足够的前提下,生成器在训练完成后,可以去除语音中的各类噪声,生成出去噪的干净语音。
附图说明
图1是本发明提供优选实施例AEWGAN中生成器模型结构;
图2为AEWGAN中判别器模型结构;
图3为本发明优选实施例发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明引入了深度学习理论中的对抗生成网络(GAN)用于语音降噪中,在GAN中的生成器网络中使用了自编码网络(AutoEncoder)结构,并且在对应卷积层和反卷积层引入了U-Net结构,然后在GAN中引入Wasserstein距离,改善普通GAN的梯度消失问题和模式崩溃问题以及传统语音降噪方法的缺点。并在判别器网络中,加入惩罚因子对神经元节点进行稀疏性限制。基于以上的改进,本发明提出了一种基于AEWGAN的语音降噪方法,技术方案如下:
基于以上结构,本发明对传统GAN结构提出了改进,针对传统GAN的梯度消失问题和模式崩溃问题,在生成器中使用卷积层和反卷积代替传统生成器中的DNN层,利用卷积提取语音信号特征,然后接入反卷积层生成去噪语音信号,并在对应卷积和反卷积层引入U-Net结构,如图1所示。由于传统的GAN使用的是JS和KL散度计算真实样本和生成样本分布之间的差异,但容易造成梯度消失、模式崩溃、自由不可控等问题。因此在WGAN网络中使用Wasserstein距离对真实样本和生成样本的距离进行度量,如图2所示。并在判别器中加入稀疏惩罚因子,解决判别器过拟合的问题,
本发明在传统GAN中的生成器中使用了自编码网络(AutoEncoder)结构,并且在对应卷积层和反卷积层引入了U-Net结构,并在判别器网络中,加入惩罚因子对神经元节点进行稀疏性限制,并使用Wasserstein距离对真实样本和生成样本的距离进行度量。。改善普通GAN的梯度消失问题和模式崩溃问题以及解决判别器过拟合的问题,在语音降噪的任务中优于传统降噪算法。
S1、将带噪语音信号输入AEGAN的生成器中,利用卷积网络提取信号特征,接着再通过反卷积层生成新的语音信号,并在对应卷积和反卷积层引入U-Net结构,这种结构相比普通的CNN网络具有局部感知能力,使得在深层的卷积中能够有浅层的简单特征,使得卷积的输入更加丰富,自然得到的结果也更加能够反映图像的原始信息,U-Net结构表达式为;
Figure BDA0002459846920000091
S2、将生成语音信号和干净语音信号输入AEGAN的判别器中,训练一个能够识别纯净语音信号的判别器。判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制;
在激活函数为sigmoid的情况下,当神经元输出接近1的时候被认为是激活状态,输出接近0的时候被认为处于抑制状态。所谓稀疏性限制,即神经元多数时间被限制为处于抑制状态的规则。用
Figure BDA0002459846920000092
表示输入为x的情况下,隐藏神经元j的活跃度。将隐藏层神经元节点j的平均活跃度记为:
Figure BDA0002459846920000093
则稀疏性限制记为
Figure BDA0002459846920000094
其中ρ为稀疏性参数,通常是一个接近于0的较小值(如ρ=0.05,表示神经元节点j的平均活跃度为0.05)。为了实现此限制需加入惩罚因子,对导致
Figure BDA0002459846920000101
情况的活跃神经元进行惩罚,从而使神经元平均活跃度保持在较小范围内。惩罚因子式为:
Figure BDA0002459846920000102
其中:
Figure BDA0002459846920000103
惩罚因子性质为当
Figure BDA0002459846920000104
Figure BDA0002459846920000105
随着
Figure BDA0002459846920000106
和ρ间的差异增大而单调递增。要使
Figure BDA0002459846920000107
和ρ的值靠近,可以通过最小化惩罚因子的方法。总体代价函数为:
Figure BDA0002459846920000108
其中β为控制稀疏性惩罚因子的权重。
S4,由于传统的GAN使用的是JS和KL散度计算真实样本和生成样本分布之间的差异,但容易造成梯度消失、模式崩溃、自由不可控等问题。因此在WGAN网络中使用Wasserstein距离对真实样本和生成样本的距离进行度量。Wasserstein距离的定义如下:
Figure BDA0002459846920000109
其中inf(·)表示为·函数的下界,Π(P1,P2)为P1和P2的联合分布集合,γ服从Π(P1,P2)。在(x,y)~γ分布条件下,求得E(x,y)~γ[||x-y||],结果为x与y距离的期望。Wasserstein距离就是对该期望求其下界值,但公式(3.20)无法直接求解,而是将该式转换为:
Figure BDA00024598469200001010
该式中sup(·)为函数·的上界,|f||L≤K定义为:
|f(x1)-f(x2)|≤K|x1-x2|
K为函数f(x)的Lipschitz常数,同时K也可以理解为梯度,即在神经网络f(x)中x的梯度绝对值小于K。
因此判别器用FDNN网络模拟的fw(x)函数可以无限逼近于公式(3.21)表示的Wasserstein距离,从而计算出真实样本和生成样本之间的Wasserstein距离。所以判别器网络的优化目标函数为:
Figure BDA0002459846920000111
w为判别器网络中的权重参数,Pdata和Pz为真实样本和生成样本的分布,在本网络中由于K值不影响fw(x)的梯度方向,所以取为1。而生成器中为了让Wasserstein距离最小也需要进行优化,优化目标函数为:
Figure BDA0002459846920000112
由于该式中和生成器网络无关,可以等价为:
Figure BDA0002459846920000113
另外在训练的过程中,必须满足条件|f||L≤K,所以在每次更新权重后对权重进行参数截断(Weight clipping),把权重的值控制在[-c,c](c是一个非常小的正数,例如0.01)。但这样做的结果会使得网络参数走极端,要么取最大值c,要么取最小值-c,导致判别器失效。为了进一步优化,使用梯度惩罚(Gradient penalty)来替换参数截断,通过额外设置的梯度惩罚项,实现满足条件|f||L≤K。最终生成器网络和判别器网络的目标函数如下:
Figure BDA0002459846920000114
Figure BDA0002459846920000115
式中的
Figure BDA0002459846920000116
表示为fw(xt)的梯度,
Figure BDA0002459846920000117
表示
Figure BDA0002459846920000118
的2范数,λ1为惩罚因子,梯度惩罚能有效解决梯度二值化和消失问题。
S5、用训练集对模型进行训练,利用Adam算子优化目标函数;
S6、使用验证集对训练后的模型进项交叉验证,调整模型的超参数,得到最终网络模型;
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于AEWGAN的语音降噪的方法,其特征在于,包括以下步骤:
S1、测试阶段,获取一维的语音信号并转成一维离散语音信号,作为AEWGAN自动编码对抗网络的输入;
S2、训练阶段,将一维离散语音信号输入AEWGAN的生成器中,利用卷积网络自动学习干净语音信号和带噪语音信号的非线性关系,接着再通过反卷积层生成新的语音信号;
S3、将纯净语音和步骤S2生成的语音信号输入AEWGAN的判别器中,训练一个能够识别纯净语音信号的判别器,判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制;
S4、判别器拟合出一个复杂的函数,该函数用于判断真实样本与生成的样本之间的Wasserstein距离;
S5、用训练集对模型进行训练,利用Adam算子优化目标函数;
S6、使用验证集对训练后的模型进项交叉验证,调整模型的超参数,包括迭代批次、批次大小和学习率,在训练过程中对超参数设定不同的值,得到最终网络模型,利用最终网络模型进行语音降噪。
2.根据权利要求1所述的一种基于AEWGAN的语音降噪的方法,其特征在于,所述步骤S1获取一维的语音信号并转成一维离散语音信号,具体包括;
输入约为1s的带噪语音,该语音的采样频率为8000Hz,为8192×1的一维向量。
3.根据权利要求1所述的一种基于AEWGAN的语音降噪的方法,其特征在于,
所述步骤S2将带噪语音信号输入AEGAN的生成器中,利用卷积网络提取信号特征,接着再通过反卷积层生成新的语音信号,并在对应卷积和反卷积层引入U-Net结构,假设生成器网络总层数为n,使用跳跃连接技术通过对i层与n-i层相连接,该做法有效地将编码阶段的信息传递给解码阶段,使得网络梯度能更好地传播,U-Net结构的表达式为:
Figure FDA0002459846910000021
其中,xi,j表示输出,i沿编码器索引下采样层,j表沿着跳跃路径对稠密块进行索引的卷积层,H[·]函数为卷积运算,u[·]为上采样层,[·]为级联层。
4.根据权利要求3所述的一种基于AEWGAN的语音降噪的方法,所述步骤S2利用卷积网络自动学习干净语音信号和带噪语音信号的非线性关系,接着再通过反卷积网络生成新的语音信号;
语音信号和带噪语音信号的非线性表达式为:
y(t)=x(t)+z(t)
其中x(t)为干净语音,z(t)为噪声,y(t)为带噪语音。
生成器分为两个部分,编码和解码。编码部分由一维卷积组成,主要是对输入的带噪语音进行编码:
xi+1=ReLU(∑X·ωi+bi)
其中xi+1表示第i层卷积后的结果,ωi表示为第i层的权重参数,bi表示第i层的偏置值,ReLU为线性整流单元结构;
ReLU(x)=max(0,x)
而解码由反卷积构成,因此得到新的语音信号为:
Figure FDA0002459846910000022
其中,
Figure FDA0002459846910000023
为反卷积核,
Figure FDA0002459846910000024
表示反卷积核在输入特征X上滑动进行能反卷积运算。
5.根据权利要求4所述的一种基于AEWGAN的语音降噪的方法,其特征在于,
所述S3将纯净语音和步骤S2生成的语音信号输入AEWGAN的判别器中,训练一个能够识别纯净语音信号的判别器,判别器的表达式:
z=∑wixi+b
xi+1=σ(z)
其中xi为输入语音信号,wi为权重参数,b为偏置值,σ(z)为Sigmoid激活函数;
Figure FDA0002459846910000031
判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制。
6.根据权利要求5所述的一种基于AEWGAN的语音降噪的方法,其特征在于,
所述判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制,具体包括:
在激活函数为sigmoid的情况下,当神经元输出接近1的时候被认为是激活状态,输出接近0的时候被认为处于抑制状态,所谓稀疏性限制,即神经元多数时间被限制为处于抑制状态的规则,用
Figure FDA0002459846910000032
表示输入为x的情况下,隐藏神经元j的活跃度,将隐藏层神经元节点j的平均活跃度记为:
Figure FDA0002459846910000033
m为每层网络的神经元节点数,则稀疏性限制记为
Figure FDA0002459846910000034
其中ρ为稀疏性参数,通常是一个接近于0的较小值,为了实现此限制需加入惩罚因子,对导致
Figure FDA0002459846910000035
情况的活跃神经元进行惩罚,从而使神经元平均活跃度保持在较小范围内,惩罚因子式为:
Figure FDA0002459846910000036
其中:S2表示隐藏层神经元数量、KL散度表达式为:
Figure FDA0002459846910000037
惩罚因子性质为当
Figure FDA0002459846910000038
Figure FDA0002459846910000039
随着
Figure FDA00024598469100000310
和ρ间的差异增大而单调递增,要使
Figure FDA00024598469100000311
和ρ的值靠近,可以通过最小化惩罚因子的方法,总体代价函数为:
Figure FDA0002459846910000041
其中β为控制稀疏性惩罚因子的权重,W为权重参数、b为偏置值。
7.根据权利要求6所述的一种基于AEWGAN的语音降噪的方法,其特征在于,
所述步骤S4判别器拟合出一个复杂的函数,该函数用于判断真实样本与生成的样本之间的Wasserstein距离,具体包括:
在WGAN网络中使用Wasserstein距离对真实样本和生成样本的距离进行度量,Wasserstein距离的定义如下:
Figure FDA0002459846910000042
其中inf(·)表示为·函数的下界,P1和P2为概率分布,γ为每一个可能的集合分布,x、y为样本值。E(x,y)~γ[||x-y||]表示为x与y的Wasserstein距离,Π(P1,P2)为P1和P2的联合分布集合,γ服从Π(P1,P2),在(x,y)~γ分布条件下,求得E(x,y)~γ[||x-y||],结果为x与y距离的期望,Wasserstein距离就是对该期望求其下界值,将上式转换为:
Figure FDA0002459846910000043
该式中sup(·)为函数·的上界,|f||L≤K定义为:
|f(x1)-f(x2)|≤K|x1-x2|
K为函数f(x)的Lipschitz常数,同时K也可以理解为梯度,即在神经网络f(x)中x的梯度绝对值小于K;
判别器用FDNN网络模拟的fw(x)函数无限逼近于Wasserstein距离,从而计算出真实样本和生成样本之间的Wasserstein距离。
8.根据权利要求7所述的一种基于AEWGAN的语音降噪的方法,其特征在于,
判别器网络的优化目标函数为:
Figure FDA0002459846910000044
L(w)表示判别器的优化目标函数,
Figure FDA0002459846910000051
表示为求x样本的均值,
Figure FDA0002459846910000052
表示为求z样本均值,fw(x)表示判别器拟合的函数,fw(G(z))表示生成器生成的语音样本在判别器中值,w为判别器网络中的权重参数,Pdata和Pz为真实样本和生成样本的分布,在本网络中由于K值不影响fw(x)的梯度方向,所以取为1,而生成器中为了让Wasserstein距离最小也需要进行优化,优化目标函数为:
Figure FDA0002459846910000053
其中L(G)表示生成器的优化目标函数,由于该式中和生成器网络无关,可以等价为:
Figure FDA0002459846910000054
另外在训练的过程中,必须满足条件|f||L≤K,所以在每次更新权重后对权重进行参数截断,把权重的值控制在[-c,c]。
9.根据权利要求8所述的一种基于AEWGAN的语音降噪的方法,其特征在于,
使用梯度惩罚来替换参数截断,通过额外设置的梯度惩罚项,实现满足条件|f||L≤K,最终生成器网络和判别器网络的目标函数如下:
Figure FDA0002459846910000055
Figure FDA0002459846910000056
式中的
Figure FDA0002459846910000057
表示为fw(xt)的梯度,
Figure FDA0002459846910000058
表示
Figure FDA0002459846910000059
的2范数,λ1为惩罚因子。
10.根据权利要求8所述的一种基于AEWGAN的语音降噪的方法,其特征在于,所述步骤S5用训练集对模型进行训练,利用Adam算子优化目标函数,Adam优化算法是随机梯度下降算法的优化,该算法是Momentum算法与RMSprop算法的结合;
其中Momentum算法过程为;
vdw=βvdw+(1-β)dW
vdb=βvdb+(1-β)db
W=W-αvdw
b=b-αvdb
其中vdw和vdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量,β是梯度累积的一个指数。dw和db分别是损失函数反向传播时候所求得的梯度,α是网络的学习率;
RMSprop算法过程:
sdw=βsdw+(1-β)dW2
sdb=βsdb+(1-β)db2
Figure FDA0002459846910000061
Figure FDA0002459846910000062
其中sdw和sdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量,β是梯度累积的一个指数。ε来进行平滑,防止分母为0;
设在训练的第t轮训练中,首先可以计算得到Momentum和RMSProp的参数更新,由于移动指数平均在迭代开始的初期会导致和开始的值有较大的差异,所以我们需要偏差修正,
Figure FDA0002459846910000063
因此求得在第t轮迭代过程中,参数梯度累积量的修正值,从而接下来就可以根据Momentum和RMSProp算法的结合来对权重和偏置进行更新。
Figure FDA0002459846910000064
Figure FDA0002459846910000065
上面的所有步骤就是Momentum算法和RMSProp算法结合起来从而形成Adam算法。其中β1的值为Momentum算法的β值,β2为RMSProp的β值。
CN202010316731.2A 2020-04-21 2020-04-21 一种基于aewgan的语音降噪的方法 Active CN111564160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010316731.2A CN111564160B (zh) 2020-04-21 2020-04-21 一种基于aewgan的语音降噪的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010316731.2A CN111564160B (zh) 2020-04-21 2020-04-21 一种基于aewgan的语音降噪的方法

Publications (2)

Publication Number Publication Date
CN111564160A true CN111564160A (zh) 2020-08-21
CN111564160B CN111564160B (zh) 2022-10-18

Family

ID=72073100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010316731.2A Active CN111564160B (zh) 2020-04-21 2020-04-21 一种基于aewgan的语音降噪的方法

Country Status (1)

Country Link
CN (1) CN111564160B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420065A (zh) * 2020-11-05 2021-02-26 北京中科思创云智能科技有限公司 音频降噪处理方法和装置及设备
CN112417911A (zh) * 2020-11-19 2021-02-26 广东中世发智能科技股份有限公司 基于rfid智能优化群检方法
CN112466320A (zh) * 2020-12-12 2021-03-09 中国人民解放军战略支援部队信息工程大学 一种基于生成对抗网络的水声信号降噪方法
CN113095258A (zh) * 2021-04-20 2021-07-09 深圳力维智联技术有限公司 定向信号提取方法、***、装置及存储介质
CN113506581A (zh) * 2021-07-08 2021-10-15 京东科技控股股份有限公司 一种语音增强方法和装置
CN113555028A (zh) * 2021-07-19 2021-10-26 首约科技(北京)有限公司 一种用于车联网语音降噪的处理方法
CN113823298A (zh) * 2021-06-15 2021-12-21 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN114190886A (zh) * 2020-09-18 2022-03-18 卡西欧计算机株式会社 噪声波形除去装置及方法、模型训练装置及方法、生成模型以及可穿戴设备
CN114283832A (zh) * 2021-09-09 2022-04-05 腾讯科技(深圳)有限公司 用于多通道音频信号的处理方法及装置
CN114689700A (zh) * 2022-04-14 2022-07-01 电子科技大学 一种基于栈式自编码器的低功率emat信号降噪方法
WO2022142115A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN116250844A (zh) * 2023-03-03 2023-06-13 山东大学 基于条件生成对抗网络的心电信号降噪优化方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765319A (zh) * 2018-05-09 2018-11-06 大连理工大学 一种基于生成对抗网络的图像去噪方法
CN109447906A (zh) * 2018-11-08 2019-03-08 北京印刷学院 一种基于生成对抗网络的图片合成方法
EP3477633A1 (en) * 2017-10-27 2019-05-01 Baidu USA LLC Systems and methods for robust speech recognition using generative adversarial networks
CN110211575A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 用于数据增强的语音加噪方法及***
WO2019202203A1 (en) * 2018-04-18 2019-10-24 Nokia Technologies Oy Enabling in-ear voice capture using deep learning
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
US20190355347A1 (en) * 2018-05-18 2019-11-21 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks
CN110827216A (zh) * 2019-10-23 2020-02-21 上海理工大学 图像去噪的多生成器生成对抗网络学习方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3477633A1 (en) * 2017-10-27 2019-05-01 Baidu USA LLC Systems and methods for robust speech recognition using generative adversarial networks
WO2019202203A1 (en) * 2018-04-18 2019-10-24 Nokia Technologies Oy Enabling in-ear voice capture using deep learning
CN108765319A (zh) * 2018-05-09 2018-11-06 大连理工大学 一种基于生成对抗网络的图像去噪方法
US20190355347A1 (en) * 2018-05-18 2019-11-21 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks
CN109447906A (zh) * 2018-11-08 2019-03-08 北京印刷学院 一种基于生成对抗网络的图片合成方法
CN110211575A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 用于数据增强的语音加噪方法及***
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
CN110827216A (zh) * 2019-10-23 2020-02-21 上海理工大学 图像去噪的多生成器生成对抗网络学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ILYA TOLSTIKHIN: ""Wasserstein Auto-Encoders"", 《ICLA2018》 *
RUICHEN ZHANG: ""Bathymetric data Processing based on denoising autoencoder wasserstein generative adversarial network"", 《GLOBAL INTELLIGENT INDUSTRY CONFERENCE》 *
徐轩: ""基于ResNet-BLSTM的端到端语音识别"", 《计算机工程与应用》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7342827B2 (ja) 2020-09-18 2023-09-12 カシオ計算機株式会社 ノイズ波形除去装置、モデル訓練装置、ノイズ波形除去方法、モデル訓練方法、及びウェアラブル機器
CN114190886A (zh) * 2020-09-18 2022-03-18 卡西欧计算机株式会社 噪声波形除去装置及方法、模型训练装置及方法、生成模型以及可穿戴设备
JP2022051378A (ja) * 2020-09-18 2022-03-31 カシオ計算機株式会社 ノイズ波形除去装置、モデル訓練装置、ノイズ波形除去方法、モデル訓練方法、生成モデル及びウェアラブル機器
CN114190886B (zh) * 2020-09-18 2024-01-19 卡西欧计算机株式会社 噪声波形除去装置及方法、模型训练装置及方法、以及可穿戴设备
CN112420065A (zh) * 2020-11-05 2021-02-26 北京中科思创云智能科技有限公司 音频降噪处理方法和装置及设备
CN112420065B (zh) * 2020-11-05 2024-01-05 北京中科思创云智能科技有限公司 音频降噪处理方法和装置及设备
CN112417911A (zh) * 2020-11-19 2021-02-26 广东中世发智能科技股份有限公司 基于rfid智能优化群检方法
CN112466320A (zh) * 2020-12-12 2021-03-09 中国人民解放军战略支援部队信息工程大学 一种基于生成对抗网络的水声信号降噪方法
CN112466320B (zh) * 2020-12-12 2023-11-10 中国人民解放军战略支援部队信息工程大学 一种基于生成对抗网络的水声信号降噪方法
WO2022142115A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN113095258A (zh) * 2021-04-20 2021-07-09 深圳力维智联技术有限公司 定向信号提取方法、***、装置及存储介质
CN113823298A (zh) * 2021-06-15 2021-12-21 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN113823298B (zh) * 2021-06-15 2024-04-16 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN113506581B (zh) * 2021-07-08 2024-04-05 京东科技控股股份有限公司 一种语音增强方法和装置
CN113506581A (zh) * 2021-07-08 2021-10-15 京东科技控股股份有限公司 一种语音增强方法和装置
CN113555028A (zh) * 2021-07-19 2021-10-26 首约科技(北京)有限公司 一种用于车联网语音降噪的处理方法
CN114283832A (zh) * 2021-09-09 2022-04-05 腾讯科技(深圳)有限公司 用于多通道音频信号的处理方法及装置
CN114689700B (zh) * 2022-04-14 2023-06-06 电子科技大学 一种基于栈式自编码器的低功率emat信号降噪方法
CN114689700A (zh) * 2022-04-14 2022-07-01 电子科技大学 一种基于栈式自编码器的低功率emat信号降噪方法
CN116250844A (zh) * 2023-03-03 2023-06-13 山东大学 基于条件生成对抗网络的心电信号降噪优化方法及***
CN116250844B (zh) * 2023-03-03 2024-04-26 山东大学 基于条件生成对抗网络的心电信号降噪优化方法及***

Also Published As

Publication number Publication date
CN111564160B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN111564160B (zh) 一种基于aewgan的语音降噪的方法
CN109859767B (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、***及存储介质
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN108682418B (zh) 一种基于预训练和双向lstm的语音识别方法
CN107845389B (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN108922513B (zh) 语音区分方法、装置、计算机设备及存储介质
CN110428849B (zh) 一种基于生成对抗网络的语音增强方法
CN112581973B (zh) 一种语音增强方法及***
JP2763398B2 (ja) パターン認識装置
CN112331224A (zh) 轻量级时域卷积网络语音增强方法与***
CN114446314A (zh) 一种深度生成对抗网络的语音增强方法
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及***
CN114360567A (zh) 一种基于深度复卷积网络的单通道语音增强方法
CN112259119B (zh) 基于堆叠沙漏网络的音乐源分离方法
CN116030823B (zh) 一种语音信号处理方法、装置、计算机设备及存储介质
CN116013344A (zh) 一种多种噪声环境下的语音增强方法
US5768474A (en) Method and system for noise-robust speech processing with cochlea filters in an auditory model
CN115188389A (zh) 基于神经网络的端到端语音增强方法、装置
CN112289337A (zh) 一种滤除机器学习语音增强后的残留噪声的方法及装置
Krishnakumar et al. A comparison of boosted deep neural networks for voice activity detection
CN115440240A (zh) 语音降噪的训练方法、语音降噪***及语音降噪方法
CN113763978B (zh) 语音信号处理方法、装置、电子设备以及存储介质
CN114283835A (zh) 一种适用于实际通信条件下的语音增强与检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231225

Address after: 518000 1104, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Patentee after: Shenzhen Hongyue Information Technology Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right