CN112530451A

CN112530451A - 基于去噪自编码器的语音增强方法

Info

Publication number: CN112530451A
Application number: CN202011128458.7A
Authority: CN
Inventors: 张世强; 胡显秋; 张婷娟; 于乐; 顾雷
Original assignee: Yichun Power Supply Co Of State Grid Heilongjiang Electric Power Co ltd; State Grid Corp of China SGCC; Northeast Dianli University
Current assignee: Yichun Power Supply Co Of State Grid Heilongjiang Electric Power Co ltd; State Grid Corp of China SGCC; Northeast Electric Power University
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-03-19

Abstract

本发明的一种基于去噪自编码器的语音增强方法，其特点是，包括的内容有：构建去噪自编码器训练模型，多麦克风阵列获取时域差值，重构原声预测模型进行去噪处理，能够有效的降低噪声对语音信号的干扰，显著提高语音信号的信噪比，具有科学合理、结构简单、去噪效果好、适用范围广等优点。

Description

基于去噪自编码器的语音增强方法

技术领域

本发明属于语音信号处理技术领域，涉及一种基于去噪自编码器的语音增强方法。

背景技术

语音降噪是语音处理***的重要前端。背景噪音和人声干扰会降低语音信号的质量及可懂度，并在实际应用中导致性能下降，包括语音通信、助听器和语音识别。语音降噪的一个关键目标是提高干扰噪声存在时的质量和可懂度。

在语音降噪算法中，最常用的方法就是谱减法。谱减法具有算法简单、运算量小的特点。该算法的不足之处是处理后会产生听上去类似音乐的“音乐噪声”。基于自适应滤波器法的语音降噪算法，可以利用前一帧的滤波器参数和滤波结果，自动调整当前帧的滤波器参数，它对干净语音信号和噪声的先验知识要求较低。从而适应干净语音信号和噪声未知的随机变化和统计性，所以降噪后的语音无论在信噪比和听感上都有明显的进步。但这类算法往往存在收敛速度慢、不适用于非平稳噪声问题。基于最小均方误差估计法(MMSE)语音降噪算法能够有效抑制残留的“音乐噪声”。但是这种方法在低信噪比的情况下，对语音帧和非语音帧的识别极容易出错，导致降噪后的语音严重失真。基于子空间的语音降噪算法是通过空间分解将整个空间分为纯噪声子空间和纯语音子空间。通过设计一个既要保证残差信号谱的同时，还要考虑使语音失真最小化的估计器，来去除噪声子空间并估计语音信号特征值从而实现语音降噪。其中一种最常用的基于最优约束估计器的子空间语音降噪，但该语音降噪算法复杂度很高，很难在嵌入式平台上实现。小波变换方法是一种新型变换分析方法，能够在时间或空间上进行频率的局部分析。通过伸缩和平移运算对信号进行逐步尺度细化，具有多分辨率分析的特性，能够自适应信号分析的要求，现已被广泛运用在音频、图像处理领域中。依据小波变换能够有效去除数据的相关性特点，使得干净语音信号能量集中在小波域中的较大的小波系数中，噪声能量则集中在较小的小波系数中。其本质上是一种小波域滤波算法，选择适当的阈值是关系到***表现的关键所在。但是阈值获取困难且算法复杂度越来越高，较难用于实时通信。深度神经网络(DNN)应用于语音降噪工作变得越来越流行。基于深度神经网络的语音降噪算法是通过堆叠自动编码器，形成一个深层神经网络，输入为含噪语音的对数功率谱，对应输出干净语音信号的对数功率谱。该网络虽然较传统单通道语音算法有较好的降噪效果，但存在网络训练困难、在低信噪比条件下表现能力欠佳的问题。

发明内容

本发明的目的是，为了降低噪声对语音信号的干扰，提高语音信号的信噪比，提出一种基于去噪自编码器的语音增强方法，实现语音信号的增强。

本发明的目的是由以下技术方案来实现的：一种基于去噪自编码器的语音增强方法，其特征是，它包括的内容有：构建去噪自编码器训练模型，多麦克风阵列获取时域差值，重构原声预测模型进行去噪处理，

1)构建去噪自编码器训练模型

去噪自编码器训练模型设计为三层网络模型，第一层为输入层，中间层为隐藏层，设计节点个数为1024个，第三层为输出层，将输出层与原始无损数据进行比对，最小化损失值：

式中，

是样本x经过损坏过程

后得到的损坏样本，通常分布p_decoder是因子的分布，平局参数由前馈网络给出，这里对负对数释然

进行基于梯度下降法的近似最小化，

即是样本

的概率分布，这样构成了确定的自编码器，也就是一个前馈的网络，并且能够使用与其他前馈网络完全相同的方式进行训练，因此整个自动编码器就可类比为下一个期望的梯度下降：

其中，

是训练数据的分布，

表示对

分布的期望值，

表示对

样本

在全量x上的下一个期望值；

2)多麦克风阵列获取时域差值

麦克风阵列的语音增强方法的优势在于考虑了声源的位置信息，能够实现空间滤波，所以对具有方向性的噪声具有优良的抑制效果，因此，将麦克风阵列的技术应用在抑制干扰语音中，具体实现是对期望方向的语音信号进行保留；

首先，不同的麦克风由于位置不同，所以接收的语音信号必定存在着时间偏差，因此利用抽头延迟线结构(Tapped Delay-lines，TDLs)来实现对宽带语音信号的波束形成，TDLs结构的固定波束形成算法，通过多抽头的延迟来产生不同频率的分量，然后通过滤波系数描述来约束各麦克风的输入信号，使得期望方向上的信号得到保留，并在非期望方向上形成零陷，从而实现对固定声源方向的波束形成，TDLs结构的固定波束形成算法能够对固定噪声源方向的信号进行抑制，并且对相干和非相干噪声都能实现有效地抑制，其表达式为式(3)：

F＝WD (3)

式中，矩阵D为方向矩阵，用来对不同角度的语音信号进行频域对齐，W为不同入射角度的语音信号，ω₀，…,ω_J-1，分别代表了不同的频率分量，矩阵F是目标响应矩阵，同样地，每一个分量对应着不同入射角度信号的目标响应，通过设置目标响应矩阵F，就能够决定固定波束形成结构对哪些方向的语音信号进行保留，又对哪些方向的语音信号进行抑制，矩阵W是权重系数矩阵，也是TDLs结构需要设计的部分，通过求解式(3)，得到的矩阵系数解ω_i,j，便是最终需要的设计的滤波器系数；

然后利用信号的输出来自适应地调整类似TDLs结构中的权重系数ω_i,j，来达到对声学环境的变化具有一定鲁棒性的目的，在自适应的波束形成算法中，使用LCMV结构进行调整，LCMV结构是在式(3)的基础上进行调整，调整为式(4)：

其中，R_yy为输入信号Y的自相关矩阵的期望，用R_yy≈YY^H来进行估算，argmin_WW^HR_yyW表示通过最小化输出功率来自适应地调整权重系数W，从而使干扰目标方向的信号得到抑制，求解式(3)与式(4)，便得到系数矩阵W的值：

根据上述解系数矩阵W的值，计算出时域上的差值；

3)重构原声预测模型进行去噪处理

在计算出时域差值后，得出的语音信号为失真的语音信号，因为单独使用多麦克风阵列算法的结构，将存在同频语音相减低消的情况，同时对于不同域的语音信号，存在风噪声消除不彻底，导致“音乐噪声”的问题，处理到此处的模型并不具有良好的鲁棒性，因此需要对失真的语音信号进行重新预测，将失真语音作为输入层传入第一步的自编码器模型之前，还需要进行一步滤波去噪处理：

是估计的先验信噪比(a prior SNR)，所以整个求解的过程都是围绕如何求解这个先验信噪比进行的，而在这之前，先要估计后验信噪比和语音存在概率，后验信噪比的定义如下：

是噪声的功率谱，是通过Cohen提出的OMLSA方法求得的，对比γ(t,d)和预先设定的阈值Tr，如果大于这个阈值，则语音的存在的索引I(d)设为1，否则为0，其实这有点类似理想二值掩蔽的概念，即如果是语音主导的就设定为1，否则就是设定为0，那么语音存在概率就能够通过以下方式进行估计：

p(t,d)＝0.95p(t-1,d)+0.05I(d) (8)

能够看出语音存在概率是通过前一时刻的语音存在概率和当前频段的语音存在索引的迭代平均结果，最终先验信噪比能够通过如下方式进行估计：

先验信噪比有三部分构成，第一部分是前一时刻的先验信噪比，第二部分是通过DNN估计得到的语音和通过OMLSA方法估计得到的噪声谱而算得的先验信噪比，最后一部分是利用后验信噪比对先验信噪比的最大似然估计，得到结果后再重新输入第一步的自编码器模型，结果为最终的降噪语音。

本发明的一种基于去噪自编码器的语音增强方法，它包括的内容有：构建去噪自编码器训练模型，多麦克风阵列获取时域差值，重构原声预测模型进行去噪处理等步骤，能够有效的降低噪声对语音信号的干扰，提高语音信号的信噪比，具有科学合理、结构简单、去噪效果好、适用范围广等优点。

附图说明

图1为一种基于去噪自编码器的语音增强方法流程图。

具体实施方式

下面利用附图和具体实施方式对本发明作进一步说明。

参照图1，本发明的基于去噪自编码器的语音增强方法，它包括的内容有：构建去噪自编码器训练模型，多麦克风阵列获取时域差值，重构原声预测模型进行去噪处理。

1)构建去噪自编码器训练模型

式中，

是样本x经过损坏过程

进行基于梯度下降法的近似最小化，

即是样本

其中，

是训练数据的分布，

表示对

分布的期望值，

表示对

样本

在全量x上的下一个期望值。

2)多麦克风阵列获取时域差值

F＝WD (3)

根据上述解系数矩阵W的值，计算出时域上的差值。

3)重构原声预测模型进行去噪处理

在计算出时域差值后，得出的语音信号为失真的语音信号，因为单独使用多麦克风阵列算法的结构，将存在同频语音相减低消的情况，同时对于不同域的语音信号，存在风噪声消除不彻底，导致“音乐噪声”的问题，处理到此处的模型并不具有良好的鲁棒性，因此需要对失真的语音信号进行重新预测，将失真语音作为输入层传乳第一步的自编码器模型之前，还需要进行一步滤波去噪处理：

这里的

是估计的先验信噪比(a prior SNR)，所以整个求解的过程都是围绕如何求解这个先验信噪比进行的，而在这之前，先要估计后验信噪比和(aposteriorSNR)和语音存在概率，后验信噪比的定义如下：

这里的

是噪声的功率谱，是通过Cohen提出的OMLSA方法求得的(Cohen,2003)，对比γ(t,d)和预先设定的阈值Tr，如果大于这个阈值，则语音的存在的索引I(d)设为1，否则为0，其实这有点类似理想二值掩蔽的概念，即如果是语音主导的就设定为1，否则就是设定为0，那么语音存在概率就能够通过以下方式进行估计：

p(t,d)＝0.95p(t-1,d)+0.05I(d) (8)

可以看出语音存在概率是通过前一时刻的语音存在概率和当前频段的语音存在索引的迭代平均结果，最终先验信噪比能够通过如下方式进行估计：

这里的先验信噪比有三部分构成，第一部分是前一时刻的先验信噪比，第二部分是通过DNN估计得到的语音和通过OMLSA方法估计得到的噪声谱而算得的先验信噪比，最后一部分是利用后验信噪比对先验信噪比的最大似然估计，得到结果后再重新输入第一步的自编码器模型，结果为最终的降噪语音。

本发明的软件程序依据自动化、网络和计算机处理技术编制，是本领域技术人员所熟悉的技术。

本发明实施例仅用于对本发明作进一步的说明，并非穷举，并不构成对权利要求保护范围的限定，本领域技术人员根据本发明实施例获得的启示，不经过创造性劳动就能够想到其它实质上等同的替代，均在本发明保护范围内。

Claims

1.一种基于去噪自编码器的语音增强方法，其特征是，它包括的内容有：构建去噪自编码器训练模型，多麦克风阵列获取时域差值，重构原声预测模型进行去噪处理，

1)构建去噪自编码器训练模型

式中，

是样本x经过损坏过程

进行基于梯度下降法的近似最小化，

即是样本

其中，

是训练数据的分布，

表示对

分布的期望值，

表示对

样本

在全量x上的下一个期望值；

2)多麦克风阵列获取时域差值

F＝WD (3)

式中，矩阵D为方向矩阵，用来对不同角度的语音信号进行频域对齐，W为不同入射角度的语音信号，ω₀，…，ω_J-1，分别代表了不同的频率分量，矩阵F是目标响应矩阵，同样地，每一个分量对应着不同入射角度信号的目标响应，通过设置目标响应矩阵F，就能够决定固定波束形成结构对哪些方向的语音信号进行保留，又对哪些方向的语音信号进行抑制，矩阵W是权重系数矩阵，也是TDLs结构需要设计的部分，通过求解式(3)，得到的矩阵系数解ω_i，j，便是最终需要的设计的滤波器系数；

然后利用信号的输出来自适应地调整类似TDLs结构中的权重系数ω_i，j，来达到对声学环境的变化具有一定鲁棒性的目的，在自适应的波束形成算法中，使用LCMV结构进行调整，LCMV结构是在式(3)的基础上进行调整，调整为式(4)：

根据上述解系数矩阵W的值，计算出时域上的差值；

3)重构原声预测模型进行去噪处理

是噪声的功率谱，是通过Cohen提出的OMLSA方法求得的，对比γ(t，d)和预先设定的阈值Tr，如果大于这个阈值，则语音的存在的索引I(d)设为1，否则为0，其实这有点类似理想二值掩蔽的概念，即如果是语音主导的就设定为1，否则就是设定为0，那么语音存在概率就能够通过以下方式进行估计：

p(t，d)＝0.95p(t-1，d)+0.05I(d) (8)