CN110739004B

CN110739004B - 一种用于wasn的分布式语音噪声消除***

Info

Publication number: CN110739004B
Application number: CN201911025413.4A
Authority: CN
Inventors: 畅瑞江; 陈喆; 殷福亮
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-12-03
Anticipated expiration: 2039-10-25
Also published as: CN110739004A

Abstract

本发明公开了一种用于WASN的分布式语音噪声消除***，包括相位对齐模块、离散傅里叶变换模块、语音活动检测模块、噪声功率谱密度估计模块、分布式参数多通道维纳滤波模块、分布式算法迭代模块和离散傅里叶反变换模块。在用于阵列的参数多通道维纳滤波算法的基础上，提出一种可以用于WASN的分布式语音噪声消除技术，它是一种可以应用在任意拓扑网络连接下的分布式语音噪声消除技术，本方法通过使用Metropolis权矩阵，在一定迭代次数下使每个节点处麦克风的输出信号均与含有数据处理中心的结果一致，并具有一定的鲁棒性。

Description

一种用于WASN的分布式语音噪声消除***

技术领域

本发明涉及音频处理技术领域，尤其涉及一种用于WASN的分布式语音噪声消除***。

背景技术

在实际应用中，音频处理设备正常接收的语音信号经常会被各种噪声干扰，从而严重破坏接收到的语音信号质量，导致工作设备的输出语音性能下降。为了避免噪声给输出语音带来的不利影响，需要从含有干扰噪声的语音信号中提取出纯净的语音信号，其中提取纯净语音信号的方法也被称为语音噪声消除技术。从麦克风数量而言，语音噪声消除技术分为基于单通道的(单麦克风)和基于多通道的(多麦克风)。其中单通道因无法凭借单个麦克风获取空间信息而限制噪声消除后的语音性能；多通道的麦克风阵列技术虽然可以通过利用空间信息克服单通道的弊端，但是它只能在阵列结构规则(阵列几何信息已知)的情况下应用。

随着无线传感器技术的飞速发展，无线声传感器网络(WASN)的应用越来越广泛。因为WASN由独立的节点(每个节点可以是一个或多个麦克风传感器)组成，所以麦克风之间无法满足空间采样定理，从而导致已有的阵列技术不能直接应用到WASN中。尽管如此，WASN能够保证在同时利用时间和空间信息的前提下，可以克服阵列的一些局限性，所以用于WASN的分布式语音噪声消除技术开始兴起。现实生活中就可以利用WiFi(或蓝牙)将多个智能手机或笔记本电脑构建成一个WASN。

在现有技术中研究了用于阵列的最小方差无失真响应算法，利用加权值控制噪声功率谱密度中非对角元素的能量值，通过广义线性坐标下降(generalized linearcoordinate-descent)算法执行节点之间的信息传递功能，提出了最小方差无失真响应算法分布式实现的技术方案。该技术虽然实现了分布式最小方差无失真响应算法，但是该技术对语音噪声消除后的噪声残留依然很严重，语音质量的感知评估(PESQ)值和短期客观清晰度(STOI)值提高不大。

另外现有技术中存在研究了Gossip算法的使用，提出一种分布式延迟求和波束形成语音噪声消除技术。并且该技术在WASN任意拓扑连接的情景下提出了改进的通用分布式同步平均(improved general distributed synchronous averaging)方法交换每个节点处麦克风的数据，使每个节点的输出与含有数据处理中心的效果相同。虽然该技术提出了新的分布式算法，并且可以使最终的输出结果与含有数据处理中心实现的效果相同，但是该技术的输出效果和技术二的输出效果基本一样，性能较差。

在WASN没有数据处理中心的情况下，每个节点只能和附近的节点通信(通信半径之内的节点)，并且网络节点的能源有限，这就使得须用分布式算法实现信号的语音噪声消除，以期消噪后的效果能够达到把所有传感器的数据汇集到数据处理中心统一处理的效果(含有数据处理中心的算法不能直接应用到WASN中)。现存的分布式语音噪声消除技术，有一些是无法达到含有数据处理中心的输出效果，还有一些虽然达到了含有数据处理中心的输出效果，但是每个节点麦克风的输出性能并不是很高，噪声残留依然很大。

发明内容

根据现有技术存在的问题，本发明公开了一种用于WASN的分布式语音噪声消除***，

相位对齐模块，确定每个节点到声源的距离，将距离声源最远的节点定义为参考节点，将其余节点接收的信号与参考节点接收的信号进行相位对齐获得同相位节点信号；

离散傅里叶变换模块，将相位对齐模块传送的各个节点信号分别进行分帧加窗处理、对每一帧信号进行离散傅里叶变换获得离散频谱信号；

语音活动检测模块，接收离散傅里叶变换模块传送的离散频谱信号、通过离散频谱信号进行语音活动检测、判断每一帧信号有无语音；

噪声功率谱密度估计模块，接收所述语音活动检测模块传送的检测结果、根据无语音帧信号的离散频谱信息计算噪声功率谱密度；

分布式参数多通道维纳滤波模块，接收离散傅里叶变换模块传送的离散频谱信号以及噪声功率谱密度估计模块传送的噪声功率谱密度信息、采用分布式参数多通道维纳滤波方法获得分布式参数多通道维纳滤波器系数；将分布式参数多通道维纳滤波器系数与离散频谱信号组合形成输出信号Y_p；

分布式算法迭代模块，接收分布式参数多通道维纳滤波模块传送的输出信号Y_p，将输出信号Y_p处理为求平均值的形式、根据Metropolis权矩阵多次迭代求得初始状态值的平均值得到每个节点的输出信号Y_p；

离散傅里叶反变换模块，接收分布式算法迭代模块传送的输出信号Y_p，通过对输出信号Y_p进行离散傅里叶反变换得到时域当前帧输出语音信号，并将时域每帧输出信号进行重叠相加得到最终的输出信号。

作为优选的方式，所述分布式参数多通道维纳滤波器系数采用如下方式获取：

其中，H是分布式参数多通道维纳滤波器系数，[]^T表示向量或矩阵的转置，

是由δ_i取倒数得到的，α是该算法中的参数分别为1、3、5，|X_i|²表示信号功率谱密度。

由于采用了上述技术方案，本发明提供的一种用于WASN的分布式语音噪声消除***，该***通过对用于阵列的参数多通道维纳滤波器系数进行了修改，使得噪声消除后的语音信号性能甚至优于修改前用于阵列输出的语音信号性能。在用于阵列的参数多通道维纳滤波算法的基础上，提出一种可以用于WASN的分布式语音噪声消除技术，它是一种可以应用在任意拓扑网络连接下的分布式语音噪声消除技术，本方法通过使用Metropolis权矩阵，在一定迭代次数下使每个节点处麦克风的输出信号均与含有数据处理中心的结果一致，并具有一定的鲁棒性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明***的结构示意图；

图2为本发明中无线声传感器网络示意图；

图3为本发明实施例中每种方法语音噪声消除后的STOI值示意图：图3(a)

为无混响；图3(b)为混响时间为300ms；

图4为本发明实施例中每种方法语音噪声消除后的PESQ值：图4(a)为无混响；图4(b)为混响时间为300ms

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种用于WASN的分布式语音噪声消除***，包括相位对齐模块、离散傅里叶变换模块、语音活动检测模块、噪声功率谱密度估计模块、分布式参数多通道维纳滤波模块、分布式算法迭代模块和离散傅里叶反变换模块。

其中相位对齐模块的作用是确定每个节点到声源的距离，将距离声源最远的节点定义为参考节点，将其余节点接收的信号与参考节点接收的信号进行相位对齐获得节点信号。

作为优选的方式，相位对齐模块的工作原理是：在WASN中，在距声源某个已知距离为d的位置放一个参考麦克风，利用该麦克风接收到的信号能量和其它节点处麦克风接收到的信号能量可以估计出WASN中每个节点到声源的距离d_i。其中角标i＝1,2,...,I，I表示WASN中节点的数量。距离估计公式如下：

其中，E和E_i分别是参考信号和WASN中每个节点处麦克风信号的能量，ε和ε_i是背景噪声的能量，能量公式如下：

其中，N是节点处麦克风接收信号对应的总采样点数，f_s是采样频率，即一秒信号对应的点数。该公式利用语音第一秒大部分是无语音段的特点，估计背景噪声的能量。

由上述方法确定出每个节点到声源的距离后，定义距离声源最远的那个节点为参考节点，此时该节点的输入信号定义为x”_a(n)，其余节点的待对齐输入信号为x”_b(n)。令x”_b(n)循环通过一个单位延迟器，并且同时与x”_a(n)做互相关运算，表达式如下：

R_ab(τ)＝E[x”_a(n)x”_b(n-τ)],τ＝0,1,...,T (3)

其中，T是平移最大量，可适当选取。当τ的取值使以上两路信号对齐时，互相关函数值最大。令

find{}为取最大值对应的τ值运算，则待对齐信号与参考信号对齐的输出信号为：

进一步的，离散傅里叶变换模块的作用是将相位对齐模块传送的各个节点的信号分别进行分帧加窗处理、对每一帧信号进行离散傅里叶变换获得离散频谱信号。

作为优选的方式，离散傅里叶变换模块的工作原理是接收相位对齐模块传送的节点信号，对各路信号分别进行分帧加窗处理，对每一帧信号进行离散傅里叶变换DFT，具体实施中在验证时语音信号的采样频率fs是16kHz，用的是汉宁窗，帧移为50％，每帧数据长度为M＝320点。其中汉宁窗的表达式如下：

ω(m)＝0.5-0.5cos(2πm/M),m＝0,1,...,M-1 (5)

根据汉宁窗表达式可以得到加窗后的信号为：

x_i(m)＝x_i'(n)ω(m) (6)

然后对各路信号加窗后的每一帧信号进行DFT，变换后可得离散频谱为：

其中，k表示频点索引，l表示当前帧。

语音活动检测模块的作用是：接收离散傅里叶变换模块传送的离散频谱信号、通过离散频谱信号进行语音活动检测、判断每一帧信号有无语音。

作为优选的方式：语音活动检测模块进行语音活动检测时：同样利用语音第一秒大部分是无语音段的特点，并结合分帧加窗的处理过程，语音信号最初始的无语音帧的数量为NIS帧，其中NIS＝fs/(50％×M)-1＝99。那么，利用这NIS帧估计的噪声平均频谱为：

式(8)表示每一帧信号的对应频点先求和再取平均。进一步，噪声帧的对数频谱估计有如下表示：

其中|·|是取模运算。然后，计算每帧信号的对数频谱：

由公式(9)和公式(10)可以得出每帧信号与噪声信号的对数频谱距离，对数频谱距离公式如下：

综上，可以得出语音活动检测的判断方法：首先，设置一个无语音段计数器，该计数器初始值可以设置为100，同时设置一个对数谱距离阈值为3。然后计算每一帧信号与噪声帧的对数谱距离d_spec，判断d_spec是否小于该对数谱距离阈值，如果是，则该帧是无语音帧，无语音段计数器加1，如果不是，则该帧是有语音帧，且无语音段计数器不论是多少，必须归零。最后还需要注意的是如果无语音段计数器在归零之前的值小于最小无语音长度，则认为无语音段计数器上一次归零后到这一次归零前是无语段的帧均为有语音帧。这里令最小无语音长度为10。

噪声功率谱密度估计模块的作用是接收所述语音活动检测模块传送的检测结果、根据无语音帧信号的离散频谱信息计算噪声功率谱密度。

作为优选的方式，噪声功率谱密度仅在无语音帧进行更新。每个节点处的噪声功率谱密度更新公式如下：

δ_i＝(1-β)|X_i,noise(k,l)|²+β|X_i,noise(k,l-1)|² (12)

其中，β＝0.997，δ_i表示第i个节点的噪声功率谱密度估计值，它对应到每个频点都会有一个估计值。如果当前帧是噪声帧，该值就会被上式更新。|X_i,noise(k,l)|²表示当前第l帧是噪声帧对应的频点模值的平方。

进一步的，分布式参数多通道维纳滤波模块作用是接收离散傅里叶变换模块传送的离散频谱信号以及噪声功率谱密度估计模块传送的噪声功率谱密度信息、采用分布式参数多通道维纳滤波方法获得分布式参数多通道维纳滤波器系数；将分布式参数多通道维纳滤波器系数与离散频域信号组合形成滤波信号。其中具体的计算方式是：

其中，H是一个向量，即分布式参数多通道维纳滤波器系数；由于δ_i和|X_i|²的存在，它的每一个向量值都会对应到具体的频点，[]^T表示向量或矩阵的转置，

是由δ_i取倒数得到的，α是该算法中提到的参数，在本专利中，该参数值的取值分别为1、3、5。|X_i|²表示信号功率谱密度，同δ_i一样，每个频点都会被更新，更新公式如下：

其中，l表示当前帧。上式在每一帧都要更新，即不论是有语音帧还是无语音帧都要更新。根据式(13)可以得到第p个节点的输出信号Y_p’(即该模块的输出)的表达式：

其中，[]^H表示向量或矩阵的共轭转置，X＝[X₁(k,l),X₂(k,l),...,X_I(k,l)]^T。

分布式算法迭代模块作用是接收分布式参数多通道维纳滤波模块传送的滤波信号，将滤波信号处理为求平均值的形式、根据Metropolis权矩阵多次迭代求得初始状态值的平均值得到每个节点的输出信号Y_p。作为优选的方式：实现之前需要先将Y_p的表达式写成求平均值的形式：

其中，

和

观察式(16)可知DPMWF-α的结果只需要每个节点的麦克风获得所有节点麦克风初始状态值的平均值，就可以获得和上式同样的输出结果。在分布式算法下，是通过令每个节点之间交换特定数据的方式，将初始状态值不断迭代更新求得该初始状态值的平均值，迭代公式如下：

其中，ξ(t)＝[ξ₁(t),ξ₂(t),...,ξ_I(t)]^T，ζ(t)＝[ζ₁(t),ζ₂(t),...,ζ_I(t)]^T，t表示迭代次数。W是Metropolis权矩阵，定义如下：

式(18)中E代表两个不同节点处麦克风可以互相通信的连接集合，即(i,j)∈E(i,j＝1,2,…,I,i≠j)。η_i表示第i个节点可以与附近节点通信的数量。在上述迭代计算使得每个节点处麦克风的输出信号

收敛时，输出信号的结果可以达到含有数据处理中心的解。本专利在验证时设置迭代次数上限为100次，当迭代到上限时默认收敛。

离散傅里叶反变换模块的作用是接收分布式算法迭代模块传送的输出信号Y_p，通过对输出信号Y_p进行离散傅里叶反变换得到时域当前帧输出语音信号，并将时域每帧输出信号进行重叠相加得到最终的输出信号。作为优选的方式：进行IDFT得到时域当前帧输出语音信号y_p(m,l)。IDFT公式如下：

因为本专利在模块2对各路信号进行了分帧加窗处理，且帧移是50％，所以从得到第一帧输出语音信号y_p(m,1)时，就要与第二帧输出语音信号y_p(m,2)进行重叠相加运算，重叠部分占50％，具体公式如下：

其中[·]是取整运算，[a]表示不超过数a的最大整数。

本发明公开的一种用于WASN的分布式语音噪声消除***，为验证本发明方法的有效性，通过Imgae模型模拟了一个5×5×3的封闭式房间，该房间分为无混响和混响时间为300ms两种情况。在该WASN中随机分布了10个节点，每个节点是1个麦克风，声源分别设置了5个不同的位置，节点与声源的高度均设置为1米。仿真模拟的二维WASN如图2所示，节点之间的通信距离上限设为2.2米。

声源是从TIMIT数据库[https://download.csdn.net/download/sdhyfxh/4086482]随机选取的一个6秒纯净语音信号，采样频率是16kHz。在每个节点处麦克风接收到的语音信号同时加上了一个互不相关的高斯白噪声作为输入噪声信号，该噪声可导致节点接收信号的信噪比在5dB左右。

此时，采用本***所提出的DPMWF-α(其中α值分别为1、3、5)语音噪声消除技术对每个节点处麦克风接收信号进行降噪，同时采用文献[1]和文献[3]中的方法对该实验也进行了语音噪声消除。实验结果表明，不论哪种方法都能使WASN中每个节点的输出结果达到一致。图3、图4给出了这三种方法在声源位置分别位于Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ时的性能比较。其中图3表示的是分别在无混响和有混响条件下，语音噪声消除后STOI值的性能比较，图4表示的是分别在无混响和有混响条件下，语音噪声消除后PESQ值的性能比较。可以看出不论是在无混响条件下还是有混响条件下，亦或是声源位于哪个位置，在STOI值和PESQ值性能方面，本专利所提方法和文献[1]、文献[3]中的方法相比，要占据绝大优势。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

附件：

[1]A.Bertrand,J.Callebaut and M.Moonen,"Adaptive distributed noisereduction for speech enhancement in wireless acoustic sensor networks,"inProc.of the International Workshop on Acoustic Echo and Noise Control(IWAENC),Tel Aviv,Israel,Aug.2010.

[2]R.Heusdens,G.Zhang,R.C.Hendriks,Y.Zeng and W.B.Kleijn,``Distributed MVDR Beamforming for(Wireless)Microphone Networks Using MessagePassing,”presented at the em IWAENC 2012；International Workshop on AcousticSignal Enhancement,Aachen,Germany,2012,pp.1-4.

[3]Y.Zeng and R.C.Hendriks,"Distributed Delay and Sum Beamformer forSpeech Enhancement via Randomized Gossip,"in IEEE/ACM Transactions on Audio,Speech,and Language Processing,vol.22,no.1,pp.260-273,Jan.2014.

Claims

1.一种用于WASN的分布式语音噪声消除***，其特征在于包括：

噪声功率谱密度仅在无语音帧进行更新，每个节点处的噪声功率谱密度更新公式如下：

δ_i＝(1-β)|X_i,noise(k,l)|²+β|X_i,noise(k,l-1)|² (12)

其中，β＝0.997，δ_i表示第i个节点的噪声功率谱密度估计值，它对应到每个频点都会有一个估计值，如果当前帧是噪声帧，该值就会被上式更新，|X_i,noise(k,l)|²表示当前第l帧是噪声帧对应的频点模值的平方；

分布式参数多通道维纳滤波模块，接收离散傅里叶变换模块传送的离散频谱信号以及噪声功率谱密度估计模块传送的噪声功率谱密度信息、采用分布式参数多通道维纳滤波方法获得分布式参数多通道维纳滤波器系数；将分布式参数多通道维纳滤波器系数与离散频谱信号组合形成输出信号Y_p，其中具体的计算方式是：

其中，H是一个向量，即分布式参数多通道维纳滤波器系数，由于δ_i和|X_i|²的存在，它的每一个向量值都会对应到具体的频点，[]^T表示向量或矩阵的转置，δ_i ^-1是由δ_i取倒数得到的，α是该算法中提到的参数，该参数值的取值分别为1、3、5，|X_i|²表示信号功率谱密度，同δ_i一样，每个频点都会被更新，更新公式如下：

其中，l表示当前帧，上式在每一帧都要更新，即不论是有语音帧还是无语音帧都要更新，根据式(13)可以得到第p个节点的输出信号Y_p的表达式：

其中，[]^H表示向量或矩阵的共轭转置，X＝[X₁(k,l),X₂(k,l),...,X_I(k,l)]^T；

分布式算法迭代模块，接收分布式参数多通道维纳滤波模块传送的输出信号Y_p，将输出信号Y_p处理为求平均值的形式、根据Metropolis权矩阵多次迭代求得初始状态值的平均值得到每个节点的输出信号Y_p’；

离散傅里叶反变换模块，接收分布式算法迭代模块传送的输出信号Y_p’，通过对输出信号Y_p’进行离散傅里叶反变换得到时域当前帧输出语音信号，并将时域每帧输出信号进行重叠相加得到最终的输出信号。