WO2020177371A1

WO2020177371A1 - 一种用于数字助听器的环境自适应神经网络降噪方法、***及存储介质

Info

Publication number: WO2020177371A1
Application number: PCT/CN2019/117075
Authority: WO
Inventors: 张禄; 王明江; 张啟权; 轩晓光; 张馨; 孙凤娇
Original assignee: 哈尔滨工业大学（深圳）
Priority date: 2019-03-06
Filing date: 2019-11-11
Publication date: 2020-09-10
Also published as: CN109859767A; CN109859767B

Abstract

一种用于数字助听器的环境自适应神经网络降噪方法，包括依次执行如下步骤：预处理步骤：接收带噪语音信号，带噪语音信号经过采样分帧后传输至声学场景识别模块；场景识别步骤：采用声学场景识别模块对所处的声学场景进行识别，然后由声学场景识别模块自主地选择神经网络降噪模块中不同的神经网络模型进行发送；神经网络降噪步骤。该方法的有益效果是：1.可以保证语音处理的实时性，只进行神经网络的前向传播，运算量不高；2.可以对所处的声学场景进行识别，然后自主地选择不同的神经网络模型，对不同的场景下的噪声进行针对性地降噪处理，能保证更好的语音质量和语音可懂度；3.可以有效地抑制瞬时噪声。

Description

一种用于数字助听器的环境自适应神经网络降噪方法、***及存储介质

技术领域

本发明涉及软件技术领域，尤其涉及一种用于数字助听器的环境自适应神经网络降噪方法、***及存储介质。

背景技术

目前，市面上的高性能数字助听器都会内置降噪算法，用来消除环境中的背景噪声干扰，以达到满足人耳听觉舒适度的要求。由于数字助听器对语音实时处理的要求，内置在助听器内部的降噪算法多采用谱减法、维纳滤波等运算量较低的算法，这些算法只能应对简单稳定的噪声干扰环境，在低信噪比、瞬时噪声等复杂的噪声环境中性能表现很差，听力损失患者的佩戴使用体验不佳。

发明内容

本发明公开了一种用于数字助听器的环境自适应神经网络降噪方法，利用深层神经网络强大的映射能力，并结合环境自适应的策略，实现一种应对复杂噪声环境的高性能降噪算法。

本发明提供了一种用于数字助听器的环境自适应神经网络降噪方法，包括依次执行如下步骤：

预处理步骤：接收带噪语音信号，带噪语音信号经过采样分帧后传输至声学场景识别模块；

场景识别步骤：采用声学场景识别模块对所处的声学场景进行识别，然后由声学场景识别模块自主的选择神经网络降噪模块中不同的神经网络模型进行发送；

神经网络降噪步骤：神经网络降噪模型接收声学场景识别模块发送的分类结果并对不同场景下的噪声进行针对性地降噪处理。

作为本发明的进一步改进，在所述场景识别步骤中，所述声学场景识别模块采用了对时间序列具有记忆作用的LSTM神经网络结构，具体步骤如下：

S1：对每一帧提取设定维数的梅尔倒谱系数特征；

S2：由LSTM神经网络读入一帧梅尔倒谱系数特征进行处理，达到一定帧时将输出分类的结果。

作为本发明的进一步改进，所述LSTM神经网络结构包括输入层、隐藏层和输出层，输出层的神经单元对应不同的场景类别，LSTM神经网络不仅会处理当前的输入，还会与之前保留的输出进行组合，实现记忆的作用，当累计设定帧数的记忆后，输出分类结果。

作为本发明的进一步改进，所述LSTM神经网络结构记忆更新原理如下：

LSTM神经网络结构将当前帧输入的特征t _n与之前保留的输出结果h _n-1进行组合，同时也将上一帧的状态C _n-1一起输入进去进行判断，产生一个当前帧的输出h _n和一个当前帧的输出状态C _n，一直迭代下去，直到满足所需帧的记忆条件后，对最终的输出h进行softmax变换得到输出层的预测概率。

作为本发明的进一步改进，在所述场景识别步骤中，还包括LSTM神经网络训练时的损失损失函数计算，计算公式如下：

其中y _i和

分别为正确的分类标签和LSTM网络输出层预测的分类结果。

作为本发明的进一步改进，不同场景下的降噪模型均采用全连接神经网络结构，但所述全连接神经网络结构的层数和每层的神经元个数是不同的；

所述全连接神经网络结构的降噪模型包括执行如下步骤：

训练数据集步骤：挑选作为训练集的纯净语音数据，然后将噪声数据与纯净语音进行随机混合，获得所需带噪训练数据；

模型参数调优步骤：采用最小均方误差作为代价函数，再根据训练集loss值和验证集loss值对模型进行参数调优，得到所需的神经网络结构；

训练时，反复进行反向传播算法迭代，能实现较好的噪声抑制效果；

所述验证集是挑选作为验证集纯净语音数据，并与噪声数据进行混合，得到验证集带噪语音数据；

所述最小均方误差计算公式如下：

其中MSE为均方误差。

作为本发明的进一步改进，除了输出层采用线性层以外，所有的隐藏层单元均采用ReLU激活函数；另外，为了提高网络的泛化能力，每层隐藏层采用0.8丢弃率的正则化方法，且L2正则化项系数设为0.00001；训练时，利用Adam优化算法进行反向传播，以0.0001的学习率迭代200次，便可以实现较好的噪声抑制效果。

作为本发明的进一步改进，在所述预处理步骤中，麦克风接收到的语音信号，经过采样后，将其分成帧长为256点的时域信号，采样率为16000Hz，每一帧为16ms；

在所述步骤S1中，对每一帧提取39维的梅尔倒谱系数特征；

在所述步骤S2中，由LSTM神经网络读入一帧梅尔倒谱系数特征进行处理，达到100帧时将输出分类的结果。

本发明还公开了一种用于数字助听器的环境自适应神经网络降噪***，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求所述的方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求所述的方法的步骤。

本发明的有益效果是：1.可以保证语音处理的实时性，只进行神经网络的前向传播，运算量不高；2.可以对所处的声学场景进行识别，然后自主地选择不同的神经网络模型，对不同的场景下的噪声进行针对性地降噪处理，能保证更好的语音质量和语音可懂度；3.可以有效地抑制瞬时噪声；4.可以在低信噪比环境下实现更好的降噪效果。

附图说明

图1是本发明环境自适应降噪算法框图；

图2是本发明LSTM网络结构图；

图3是本发明LSTM单元的运行机理图；

图4是本发明全连接神经网络降噪模型框图；

图5是本发明PESQ指标评测结果图；

图6是本发明STOI指标评测结果图。

具体实施方式

本发明公开了一种用于数字助听器的环境自适应神经网络降噪方法，该方法以场景识别模块作为决策驱动模块，根据不同的声学场景选择对应的神经网络降噪模型，来实现对不同噪声类型的抑制。本发明的整个算法***包含两大部分，一个是场景识别模块，另一个是神经网络降噪模块，如图1所示。

图1是本发明整个神经网络降噪***的算法框图，由声学场景识别模块和多个不同场景下的降噪模型组成。带噪语音信号经过采样分帧后，首先会送到场景识别模块来确定当前的场景类型，随后会被送到相应的神经网络降噪模型，实现降噪过程。整个算法***的核心部分在于识别模块和降噪模块两个部分，下面将分别进行详细的介绍：

声学场景识别模块，采用了对时间序列具有记忆作用的LSTM(Long Short-Term Memory)神经网络进行设计；首先，麦克风接收到的语音信号，经过采样后，将其分成帧长为256点的时域信号，采样率为16000Hz，每一帧为16ms；接下来，对每一帧提取39维的梅尔倒谱系数特征(Mel Frequency Cepstrum Coefficient，MFCC)，LSTM网络每次读入一帧MFCC特征进行处理，但是只有满100帧时才会输出分类的结果，也就是说每隔1.6S更新一下当前的环境分类结果。

LSTM神经网络的结构如图2所示，其中输入层的神经单元数为39，递归隐藏层的神经单元数为512，输出层的神经单元数为9(对应着9种场景类别：工厂、街道、地铁站、火车站、餐厅、运动场、飞机舱内、汽车内部、室内场景)，相应的训练数据，是从freesound网站 ^[1]上下载的，每种场景约2个小时的音频；LSTM网络不仅会处理当前的输入，还会与之前保留的输出进行组合，实现记忆的作用，当累计满100帧的记忆后，输出分类结果。

LSTM单元的记忆更新机理如图3所示，其中C _n-1C _n-1表示上一帧留存的状态，f _n表示当前帧遗忘门的输出，u _n表示当前帧更新门的输出，O _n表示当前帧输出门的输出，C _n表示当前帧的留存状态，h _n表示当前帧的输出。LSTM单元将当前帧输入的特征t _n与之前保留的输出结果h _n-1进行组合，同时也将上一帧的状态C _n-1一起输入进去进行判断，产生一个当前帧的输出h _n和一个当前帧的输出状态C _n，一直迭代下去，直到满足100帧的记忆条件后，对最终的输出h进行Softmax(Softmax函数，或称归一化指数函数)变换得到输出层的预测概率。

各个门以及输出的计算式如下，其中δ(·)和tanh()分别代表sigmoid激活函数和双曲正切激活函数：

C_t _n＝tanh(W _c[h _n-1,x _n]+b _c) (5)

f _n＝δ(W _f[h _n-1,x _n]+b _f) (6)

u _n＝δ(W _u[h _n-1,x _n]+b _u) (7)

O _n＝δ(W _o[h _n-1,x _n]+b _o) (8)

C _n＝u _n*C_t _n+f _n*C _n-1 (9)

h _n＝O _n*tanh(C _n) (10)

LSTM网络的训练时的损失函数用交叉熵来计算，计算式如式(11)所示，其中y _i和

分别为正确的分类标签和LSTM网络输出层预测的分类结果：

根据声学场景分类模块的分类结果，输入的带噪音频信号会被送到不同的降噪模型进行逐帧处理。不同场景下的降噪模型均采用全连接的神经网络结构，如图4所示，但是神经网络的层数和每层的神经元个数是不同的，它与不同的场景噪声性质有关，例如工厂噪声需要3层隐藏层才能实现较好的降噪性能，而汽车内噪声只需要2层便可以实现同样的降噪效果。后面将以工厂场景下的网络结构为例进行详细的介绍。

如上图3所示，要训练全连接神经网络的降噪模型，首先需要准备足够多的训练数据集，这也是提高网络泛化能力很重要的一个方面，所以我们挑选了Aishell中文数据集 ^[2]中1200句话(6男6女，每人说100句话)作为训练集的纯净语音数据，然后利用NOISEX-92 ^[3]噪声库中的工厂噪声(前60％)作为噪声数据与纯净语音进行随机混合，混合的信噪比符合区间[-5,20]的均匀分布，总共获得带噪训练数据时长约为25个小时。为了对模型的参数进行调优，需要设置验证集，同样从Aishell数据集中另外挑选出400句话(2男2女，每人说100句话)作为验证集纯净语音数据，并与NOISEX-92工厂噪声的中间20％进行均匀混合，得到大约8个小时的验证集带噪语音数据。

采用式(12)所示的最小均方误差(Minimum Mean Squared Error，MMSE)作为代价函数，根据训练集loss值和验证集loss值对模型进行参数调优，最后确定：在工厂噪声场景中，选用神经网络为129-1024-1024-1024-129的网络结构，除了输出层采用线性层以外，所有的隐藏层单元均采用ReLU激活函数；另外，为了提高网络的泛化能力，每层隐藏层采用0.8丢弃率的正则化方法，且L2正则化项系数设为0.00001。训练时，利用Adam优化算法(Adam：一种高效的反向传播优化算法，由Adam提出，所以称为Adam优化算法)进行反向传播，以0.0001的学习率迭代200次，便可以实现较好的噪声抑制效果。模型训练完以后，在助听器中只需要进行前向传播，运算量不高，可以满足实时处理的要求。降噪后的PESQ(Perceptual evaluation of speech quality)、STOI(Short-Time Objective Intelligibility)指标评测结果如图5所示，其中降噪效果和指标都是在测试集上测得，测试集是从Aishell数据集中挑选出的与训练集不重复的另外400句话(2男2女，每人说100句话)，与NOISEX-92中工厂噪声的后20％混合成-5dB，0dB，5dB，10dB和15dB五种噪声污染程度。另外，进行主观听音时发现，工厂里的机器敲打声等瞬时噪声被抑制的很好，几乎听不到任何残留的噪声。

本发明的有益效果是：1.可以保证语音处理的实时性，只进行神经网络的前向传播，运算量不高；2.可以对所处的声学场景进行识别，然后自主地选择不同的神经网络模型，对不同的场景下的噪声进行针对性地降噪处理，能保证更好的语音质量和语音可懂度；3.可以有效地抑制瞬时噪声； 4.可以在低信噪比环境下实现更好的降噪效果

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

一种用于数字助听器的环境自适应神经网络降噪方法，其特征在于，包括依次执行如下步骤：

预处理步骤：接收带噪语音信号，带噪语音信号经过采样分帧后传输至声学场景识别模块；

场景识别步骤：采用声学场景识别模块对所处的声学场景进行识别，然后由声学场景识别模块自主的选择神经网络降噪模块中不同的神经网络模型进行发送；

神经网络降噪步骤：神经网络降噪模型接收声学场景识别模块发送的分类结果并对不同场景下的噪声进行针对性地降噪处理。
根据权利要求1所述的环境自适应神经网络降噪方法，其特征在于，在所述场景识别步骤中，所述声学场景识别模块采用了对时间序列具有记忆作用的LSTM神经网络结构，具体步骤如下：

S1：对每一帧提取设定维数的梅尔倒谱系数特征；

S2：由LSTM神经网络读入一帧梅尔倒谱系数特征进行处理，达到一定帧时将输出分类的结果。
根据权利要求2所述的环境自适应神经网络降噪方法，其特征在于，所述LSTM神经网络结构包括输入层、隐藏层和输出层，输出层的神经单元对应不同的场景类别，LSTM神经网络不仅会处理当前的输入，还会与之前保留的输出进行组合，实现记忆的作用，当累计达到设定帧数的记忆后，输出分类结果。
根据权利要求3所述的环境自适应神经网络降噪方法，其特征在于，所述LSTM神经网络结构记忆更新原理如下：

LSTM神经网络结构将当前帧输入的特征t _n与之前保留的输出结果h _n-1进行组合，同时也将上一帧的状态C _n-1一起输入进去进行判断，产生一个当前帧的输出h _n和一个当前帧的输出状态C _n，一直迭代下去，直到满足所需帧的记忆条件后，对最终的输出h进行softmax变换得到输出层的预测概率。
根据权利要求4所述的环境自适应神经网络降噪方法，其特征在于，在所述场景识别步骤中，还包括LSTM神经网络训练时的损失损失函数计算，计算公式如下：

其中y _i和
分别为正确的分类标签和LSTM网络输出层预测的分类结果。
根据权利要求1所述的环境自适应神经网络降噪方法，其特征在于，不同场景下的降噪模型均采用全连接神经网络结构，但所述全连接神经网络结构的层数和每层的神经元个数是不同的；

所述全连接神经网络结构的降噪模型包括执行如下步骤：

训练数据集步骤：挑选作为训练集的纯净语音数据，然后将噪声数据与纯净语音进行随机混合，获得所需带噪训练数据；

模型参数调优步骤：采用最小均方误差作为代价函数，再根据训练集loss值和验证集loss值对模型进行参数调优，得到所需的神经网络结构；

训练时，反复进行反向传播算法迭代，能实现较好的噪声抑制效果；

所述验证集是挑选作为验证集纯净语音数据，并与噪声数据进行混合，得到验证集带噪语音数据；

所述最小均方误差计算公式如下：

其中MSE为均方误差。
根据权利要求6所述的环境自适应神经网络降噪方法，其特征在于，除了输出层采用线性层以外，所有的隐藏层单元均采用ReLU激活函数；另外，为了提高网络的泛化能力，每层隐藏层采用0.8丢弃率的正则化方法，且L2正则化项系数设为0.00001；训练时，利用Adam优化算法进行反向传播，以0.0001的学习率迭代200次，便可以实现较好的噪声抑制效果。
根据权利要求2所述的环境自适应神经网络降噪方法，其特征在于，在所述预处理步骤中，麦克风接收到的语音信号，经过采样后，将其分成帧长为256点的时域信号，采样率为16000Hz，每一帧为16ms；

在所述步骤S1中，对每一帧提取39维的梅尔倒谱系数特征；

在所述步骤S2中，由LSTM神经网络读入一帧梅尔倒谱系数特征进行处理，达到100帧时将输出分类的结果。
一种用于数字助听器的环境自适应神经网络降噪***，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－8中任一项所述的方法的步骤。
一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－8中任一项所述的方法的步骤。