CN105206281B

CN105206281B - 基于分布式麦克风阵列网络的语音增强方法

Info

Publication number: CN105206281B
Application number: CN201510582363.5A
Authority: CN
Inventors: 胡旻波
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-09-14
Filing date: 2015-09-14
Publication date: 2019-02-15
Anticipated expiration: 2035-09-14
Also published as: CN105206281A

Abstract

本发明公开了一种基于分布式麦克风阵列网络的语音增强方法，包括下列步骤：建立基于Ad‑hoc网络的分布式麦克风阵列网络；对网络节点进行采样率同步；将各节点的信号进行分帧；在每个节点采用多通道维纳滤波器进行语音增强；将增强后语音信号传输到网络的所有其他节点；在每个节点，同时根据当前节点的多路麦克风阵列观测信号和所有其他节点的单通道增强后语音信号，再次采用多通道维纳滤波器进行语音增强，得到当前节点更新后的单通道增强后语音信号。本发明将孤立的麦克风阵列通过无线通信网络进行互联，组成麦克风阵列网络，有利于提高单个节点的语音增强效果。

Description

基于分布式麦克风阵列网络的语音增强方法

技术领域

本发明涉及语音增强方法，具体涉及一种基于分布式麦克风阵列网络的语音增强方法。

背景技术

我们所处的环境中常常伴随着各种噪声，例如，房间内的电视机声和风扇声、汽车内的发动机声、马路上的汽车行驶声、咖啡厅内的Babble噪声等。噪声对多种语音处理***产生负面影响。例如，在语音通信时，噪声会干扰甚至掩盖对方的声音，降低通话质量；在语音识别***中，噪声会使得语音识别率下降，甚至使识别***完全失效。因此，根据观测到的带噪语音信号，估计纯净语音具有十分重要的意义，我们称此为语音增强。

传统语音增强算法采用一个麦克风的观测信号进行处理，包括单通道维纳滤波器、谱减法、基于统计模型的最大似然和最大后验概率的语音增强方法等。虽然该类方法可以一定程度上消除噪声，但存在两方面问题。首先，消除噪声的同时会造成语音成分的缺失，即产生语音畸变。其次，噪声消除后的频谱上常存在随机离散的极值点，使听者感受到“音乐噪声”。这两方面的因素都使得增强后的语音可懂度难以达到预期，且使得语音识别性能不能有效提高。

为了解决上述问题，人们开始利用两个或以上的麦克风，组成“麦克风阵列”，以探寻更优的多通道语音增强方法。麦克风阵列中的麦克风处于空间不同位置，但时钟和采样率一致。因此，多个麦克风提供了语音和噪声的时域冗余性和空间差异性，更多的信息使得语音增强性能提高具有了可能。为了增强语音，人们可以设计称为“波束形成器”的空间滤波器，提取目标声源方向的信号，抑制其他方向的噪声。最简单的波束形成器是“延迟加和”波束形成器，而MVDR和LCMV波束形成器可以理论上在降低噪声的同时避免语音畸变。除了简单的波束形成器之外，广义旁瓣消除(GSC)架构也被广泛使用。虽然从理论上可以证明GSC和LCMV波束形成器的等价性，但是GSC的实现更为简单，计算复杂度也较低。上述波束形成器均需要语音方位(甚至是噪声方位)已知，但实际情况下声源方位往往并不固定，且噪声和混响下的声源方位难以估计。为了避免声源定位，单通道维纳滤波器被推广到多通道，使得仅根据噪声时空统计特性即可设计最优的多通道维纳滤波器，而噪声时空统计特性可结合语音存在概率或语音活动检测算法估计和更新。和单通道算法相比，即使是双通道的语音增强方法即可取得性能的明显提升。

采用麦克风阵列进行语音增强逐渐成为主流。一旦麦克风阵列硬件制作完成，其麦克风间距，所包含麦克风数量等参数难以改变。由于手持设备等空间的限制，麦克风阵列不能采用较多的麦克风和较大的间距。当麦克风阵列只处于一个较小的空间范围时，难以对环境噪声和混响进行准确全面的采集。而理论上更多的麦克风和更大的麦克风间距可以有效提高多通道语音增强算法的性能。因此，传统的基于麦克风阵列的语音增强算法受到麦克风阵列自身可扩展性和空间的限制。

发明内容

针对现有技术的不足，本发明公开了一种基于分布式麦克风阵列网络的语音增强方法。

本发明的技术方案如下：

一种基于分布式麦克风阵列网络的语音增强方法，包括下列步骤：

步骤a、建立由多个麦克风阵列构成的基于Ad-hoc网络的分布式麦克风阵列网络；任意两个网络节点之间均可相互通信；

步骤b、将分布式麦克风阵列网络初始化，即对网络节点进行采样率同步；

步骤c、将各节点的信号进行分帧，得到分帧后的多节点多路麦克风阵列观测信号；

步骤d、在每个节点，对于每一帧的多路麦克风阵列观测信号，根据当前节点的多路麦克风阵列观测信号，采用多通道维纳滤波器进行语音增强，得到单通道增强后语音信号；

步骤e、在每个节点，将该节点通过所述步骤d得到的单通道增强后语音信号传输到网络的所有其他节点；

步骤f、在每个节点，同时根据当前节点的多路麦克风阵列观测信号和所有其他节点的单通道增强后语音信号，再次采用多通道维纳滤波器进行语音增强，得到当前节点更新后的单通道增强后语音信号；

步骤g、重复迭代步骤e～步骤f，当某节点得到的单通道增强后语音信号收敛时，当前节点的单通道增强后语音信号不再更新；当所有节点的单通道增强后语音信号均不再更新时，当前帧处理结束；最终在每个节点均得到当前节点增强后语音信号。

其进一步的技术方案为：所述麦克风阵列包括音频采集模块和通信模块。

其进一步的技术方案为：所述步骤a中的Ad-hoc网络的结构为平面结构或者分级结构；Ad-hoc网络采用先验式、反应式或者混合式的路由协议实现网络中两个节点设备之间的相互通信。

其进一步的技术方案为：所述步骤b还包括对网络节点进行时间同步；

所述分布式麦克风阵列包括网络设备时钟；所述时间同步是通过所述网络设备时钟，基于NTP网络时间协议进行同步。

其进一步的技术方案为，所述步骤b具体包括以下步骤：

步骤b1、将网络采样率初始化，使K＝1，即网络采样率f₀等于节点1的设备采样率f₁；

步骤b2、节点K的设备采样率为f_K；将节点K的设备采样率f_K传输到节点K+1；

步骤b3、若节点K+1的设备采样率f_K+1＞f_K，则f₀＝f_K，否则f₀＝f_K+1；

步骤b4、K＝K+1；

步骤b5、重复步骤b2～步骤b4，直至遍历所有节点，从而网络采样率f₀为全网络所有节点的设备采样率最小值；

步骤b6、通过最终节点将当前网络采样率f₀传输到其他各个节点，使得所有节点设备采样率为f₀。

其进一步的技术方案为：所述步骤c中的信号分帧使用海明窗或者汉宁窗抑制频谱泄露；所述步骤c采用时间混叠的分帧策略。

其进一步的技术方案为：所述步骤d使用时域多通道维纳滤波器或者频域的多通道维纳滤波器对多路麦克风阵列观测信号进行滤波，以达到语音增强的效果：

在节点K，所述时域多通道维纳滤波器的表达式为：

h_w，K(t)＝[R_xx，K(t)+λR_nn，K(t)]^-1R_xx，K(t)u；

上式中，R_xx，K(t)＝R_yy，K(t)-R_nn，K(t)；

是当前节点的纯净语音向量x_K(t)＝[x_1,K(t), x_2,K(t),…,x_M,K(t)]^T的时域自相关矩阵；

是当前节点的噪声向量n_K(t)＝[n_1,K(t),n_2,K(t),...,n_M,K(t)]^T的时域自相关矩阵；

是当前节点的多路麦克风阵列观测信号向量y_K(t)＝[y_1,K(t),y_2,K(t),...,y_M,K(t)]^T的时域自相关矩阵；

u＝[1，0，...，0]^T，其长度为M；

M为当前节点的麦克风数量；

λ为控制噪声消除和语音畸变的程度，λ＞0，λ越大，噪声被抑制的效果越明显，同时带来更多的语音畸变；

节点K的时域滤波输出为：

在节点K，所述频域多通道维纳滤波器的表达式为：

H_w，K(ω)＝[R_XX，K(ω)+λR_NN，K(ω)]^-1R_XX，K(ω)u；

上式中，R_XX，K(ω)＝R_YY，K(ω)-R_NN，K(ω)；

是当前节点的纯净语音向量X_K(ω)＝[X_1，K (ω)，X_2，K(ω)，...，X_M，K(ω)]^H的频域自相关矩阵；

是当前节点的噪声向量N_K(ω)＝[N_1,K(ω),N_2,K (ω),...,N_M,K(ω)]^H的频域自相关矩阵；

是当前节点的多路麦克风阵列观测信号向量Y_K(ω)＝[Y_1,K(ω),Y_2,K(ω),...,Y_M,K(ω)]^H的频域自相关矩阵；

u＝[1，0，...，0]^T，其长度为M；

M为当前节点的麦克风数量；

节点K的频域滤波输出为：

其进一步的技术方案为：所述步骤e包括在信号传输的数据包中加入发射节点序号、接收节点序号以及多通道维纳滤波器处理次数的信息。

其进一步的技术方案为：所述步骤f包括使用时域或频域的多通道维纳滤波器对当前节点多路观测信号和其他节点的增强后信号进行滤波；

所述时域的多通道维纳滤波器中，

当前节点K多路麦克风阵列观测信号和所有其他节点的增强后信号所构成的联合向量为：

上式中，为除节点K外其他节点增强后的时域单通道语音所组成的向量；

N_i为步骤g的迭代次数；

是中的纯净语音成分；

是中的噪声成分；

为当前节点中纯净语音成分的时域自相关矩阵；

为当前节点中噪声向量的时域自相关矩阵；

为当前节点中联合向量的时域自相关矩阵；

u＝[1，0，...，0]^T，其长度为M+P-1，P为网络中的节点总数；

则节点K第N_i+1次迭代的时域多通道维纳滤波器为：

所述频域的多通道维纳滤波器中，

当前节点K多路观测信号和所有其他节点的增强后信号所构成的联合向量为：

上式中，为除节点K外其他节点增强后的频域单通道语音所组成的向量；

N_i为步骤g的迭代次数；

为中的纯净语音成分；

为中的噪声成分；

为除去节点K之外其他节点的纯净语音向量的频域自相关矩阵；

为除去节点K之外其他节点背景噪音向量的频域自相关矩阵；

为除去节点K之外其他节点观测向量的频域自相关矩阵；

u＝[1，0，...，0]^T；其长度为M+P-1，P为网络中的节点总数，则节点K第N_i+1次迭代的频域多通道维纳滤波器为：

其进一步的技术方案为：所述步骤g包括根据滤波前后信号向量之差的范数以及信号能量判断节点得到的单通道增强后语音信号是否收敛的步骤，其方法如下：

在节点K，前次滤波得到的单通道时域信号向量为：

本次滤波得到的单通道时域信号向量为：

当时，当前滤波器输出收敛；

上式中，||·||^p代表p范数，η是阈值。

本发明的有益技术效果是：

第一，本发明提出了一种全新的基于麦克风阵列进行语音增强的框架。和传统方法不同，本发明将孤立的麦克风阵列通过无线通信网络进行互联，组成麦克风阵列网络。

第二，麦克风网络中的每一个节点均可以直接或间接地利用网络中的全部麦克风，突破了各个设备的空间限制极，大地扩展了单个节点的空间观测范围，有利于提高单个节点的语音增强效果。甚至对于单通道设备而言，当其接入到麦克风阵列网络后，可达到多通道的语音增强效果。

第三，麦克风阵列网络对网络节点数量、各个节点的相对位置、节点内的麦克风数量及空间位置不做任何假设，具有极大的可扩展性和自由度。

第四，通过Ad-hoc组网的方式，使得网络不需要依赖中心节点，即可完成分布式的计算，提高了网络的容错度。

第五，麦克风阵列网络各个节点同时得到本地最优滤波输出，这为网络中的各个节点提供了差异化的用户体验。

附图说明

图1是本发明的流程图。

图2是基于Ad-hoc网络的分布式麦克风阵列网络示意图。

图3是分布式麦克风阵列网络采样率同步的流程图。

图4是基于多通道维纳滤波器的单节点语音增强的流程图。

图5是基于多通道维纳滤波器的多节点迭代式语音增强的流程图。

具体实施方式

图1是本发明的流程图。

本发明中的核心内容主要包括三大部分：(1)、步骤a所示的Ad-hoc网络的建立和步骤b所示音频采集模块初始化；(2)、步骤d所示的基于多通道维纳滤波器的单节点语音增强；(3)步骤f所示的基于多通道维纳滤波器的多节点迭代式语音增强。

如图1所示，本发明具体包括下列步骤：

(1)、Ad-hoc网络的建立和初始化

步骤a、设置多个麦克风阵列，建立由多个麦克风阵列构成的基于Ad-hoc网络的分布式麦克风阵列网络；任意两个网络节点之间均可相互通信。

Ad-hoc网络又被称为临时自组织网络。由于该网络无需额外的基础网络设施，基于构造和扩展，因此被本发明用于构造分布式麦克风阵列网络。

图2为基于Ad-hoc网络的分布式麦克风阵列网络示意图。在麦克风阵列网络中，网络节点为每个麦克风阵列。每个节点的麦克风阵列设备包括至少一个麦克风。每个节点的麦克风阵列设备还包括音频采集模块、通信模块和计算模块。各个模块之间相互连接。其中，音频采集模块负责采集当前节点所处环境中的声音，通信模块负责和其他节点通信模块之间的数据传输，计算模块负责本节点的语音增强计算。

Ad-hoc网络的结构可采用分级结构或者平面式网络结构。在分级结构中，多个网络节点分为不同的“簇”，簇中的各个节点通过一定的推举算法选出簇头，簇头维护本簇和簇头间的路由信息，由簇头之间的通信、簇头和簇内节点之间的通信共同实现网络中任意两个节点之间的通信。在平面式网络结构中，各个节点地位对等，各自独立维护到其他所有节点的路由信息。一般而言，当网络节点较多时，采用分级结构，而当网络节点较少时，采用平面式网络结构。

如图2所示，本实施例只包含三个网络节点，因此采用平面式网络结构。

本实施例采用标准化的Ad-hoc网络通信方式，Ad-hoc网络各个节点通过IEEE802.11协议进行通信。组网时，由用户通过软件将当某一节点设置为初始节点，并发送请求组网的无线信号。待加入的网络节点搜索该信号，和初始节点完成确认后加入该网络。当所有节点均加入网络后，初始节点关闭请求组网信号，从而完成网络的建立过程。各个节点按照入网的先后顺序被分配节点编号。

步骤b、将分布式麦克风阵列网络初始化，即对网络节点进行采样率同步。

图3是分布式麦克风阵列网络采样率同步的流程图。

具体包括以下步骤：

步骤b3、若节点K+1的设备采样率fK+1＞f_K，则f₀＝f_K，否则f₀＝f_K+1；

步骤b4、K＝K+1；

步骤b6、通过最终节点，即遍历过程中的最后一个节点，将当前网络采样率f₀传输到其他各个节点，使得所有节点设备采样率为f₀。

步骤b中的网络采样率为整个网络的软件采样率。节点设备采样率为节点通过硬件设备采集语音信号的采样率。

步骤b还包括时钟同步。

麦克风阵列还包括网络设备时钟，设置于通信模块之上。时间同步是通过网络设备时钟基于NTP网络时间协议进行同步。节点加入网络的顺序作为当前节点的编号，初始编号为1。各个节点之间的通信模块采用高精度网络时间协议NTP和编号为1的初始节点保持时钟同步。节点内的音频采集模块读取通信模块上的网络设备时钟，将音频采集的开始时间和通信模块的特定时间节点T_s对齐。T_s的取值由用户指定，并通过初始节点发送给全网络。

(2)、基于多通道维纳滤波器的单节点语音增强。

步骤c、将各节点的信号进行分帧，得到分帧后的多节点多路麦克风阵列观测信号。步骤c中的信号分帧使用海明窗或者汉宁窗抑制频谱泄露。步骤c采用时间混叠的分帧策略。

步骤d：在每个节点，对于每一帧的多路麦克风阵列观测信号，根据当前节点的多路麦克风阵列观测信号，采用多通道维纳滤波器进行语音增强，得到单通道增强后语音信号。

相对于波束形成器和广义旁瓣消除，多通道维纳滤波器的一个明显优势是无需估计声源方位即可有效实现语音增强。由于实际情况下目标语音源方位可能经常变化，而噪声环境下跟踪变化的声源方位尤为困难，因此本发明使用多通道维纳滤波器进行语音增强。

维纳滤波器可在时域或频域上进行计算，理论上，时域算法和频域算法完全等价，但实际中由于时域和频域噪声估计结果的差异，使得算法输出并不完全一致。此外，两个变换域算法还存在计算复杂度的差异。

图4是基于多通道维纳滤波器的单节点语音增强的流程图。如图4所示：首先要对语音活动进行检测或者对语音存在概率进行估计，其次对噪音自相关矩阵进行估计，再次对噪音自相关矩阵进行计算，最后进行多通道维纳滤波器的计算。

使用时域或频域的多通道维纳滤波器对原始多路信号进行滤波的方法如下：

在节点K，所述时域多通道维纳滤波器的表达式为：

h_w，K(t)＝[R_xx，K(t)+λR_nn，K(t)]^-1R_xx，K(t)u；

上式中，R_xx，K(t)＝R_yy，K(t)-R_nn，K(t)；

是当前节点的纯净语音向量x_K(t)＝[x_1,K(t),x_2,K (t),...,x_M,K(t)]^T的时域自相关矩阵；

u＝[1，0，...，0]^T，其长度为M；

M为当前节点的麦克风数量；

λ为控制噪声消除和语音畸变的程度，λ＞0，当λ越大，噪声被抑制的效果越明显，同时带来更多的语音畸变；

节点K的时域滤波输出为

在节点K，所述频域多通道维纳滤波器的表达式为：

H_w，K(ω)＝[R_XX，K(ω)+λR_NN，K(ω)]^-1R_XX，K(ω)u；

上式，R_XX，K(ω)＝R_YY，K(ω)-R_NN，K(ω)；

u＝[1，0，...，0]^T，其长度为M；

M为当前节点的麦克风数量；

节点K的频域滤波输出为

当节点只包含一个麦克风时，节点输出的单通道增强后语音信号为原始观测信号。

多通道维纳滤波器的关键问题是噪声自相关矩阵的估计。在时域上，该矩阵可结合语音活动检测进行估计。假设当前帧被判断为噪音，则

上式中，0＜α＞1为更新因子。否则，保持该矩阵不更新。类似地，在频域上，可结合语音存在概率进行估计。假设当前帧频带ω的语音存在概率为p(ω)，则R_NN，K(ω)更新为：

R_NN，K(ω)←α_pR_NN，K(ω)+(1-α_p)X(ω)X^H(ω)；

其中，α_p＝α+p(ω)(1-α)，同样地0＜α＜1为更新因子。时域或频域的噪声自相关矩阵初始化为初始若干帧内矩阵的平均值。

当节点只包含一个麦克风时，为了避免本节点增强后的语音信号畸变，该节点输出的单通道增强后语音信号为原始多路麦克风阵列观测信号。

(3)、基于多通道维纳滤波器的多节点迭代式语音增强。

步骤e、在每个节点，将该节点通过所述步骤d得到的单通道增强后语音信号传输到网络的所有其他节点。步骤e中，在信号传输的数据包中还可加入发射节点、接收节点序号和多通道维纳滤波器处理次数等信息，以和其他数据包相互区别。

步骤f、在每个节点，同时根据当前节点的麦克风阵列的多路观测信号和所有其他节点的单通道增强后语音信号，再次采用多通道维纳滤波器进行语音增强，得到当前节点更新后的单通道增强后语音信号；

每个节点均可根据节点自身的麦克风阵列观测信号得到单通道增强后的语音信号。不同节点增强后的语音信号一方面抑制了该节点周围的噪声，另一方面提供了纯净语音的冗余信息，因此可被其他节点用于进一步提高语音增强的效果。从网络通信的角度出发，传输增强后的单通道语音信号，而非节点所观测到的多通道原始信号，极大节省了带宽，并保证了节点间数据传输格式的一致性。

本环节将其余节点的增强后单通道语音信号和本节点的多通道观测信号一起构成新的观测向量。在其余节点增强后单通道语音信号可被视作本地节点新的观测通道，类似地，可以采用多通道维纳滤波器，根据上述新的观测向量，得到更新后的本节点增强后单通道语音信号。

图5是基于多通道维纳滤波器的多节点迭代式语音增强的流程图。首先构造当前节点的多路观测信号和所有其他节点的增强后信号所构成的联合向量，其次对语音活动进行检测或者对语音存在概率进行估计，再次更新噪声自相关矩阵，之后计算带噪音信号的自相关矩阵，最后进行多通道维纳滤波器的计算。

具体计算方法如下：

在节点K，所述时域的多通道维纳滤波器中，

当前节点K多路观测信号和所有其他节点的增强后信号所构成的联合向量为

上式中，为除节点K外其他节点增强后的时域单通道语音所组成的向量：

N_i为步骤g的迭代次数；

是中的纯净语音成分；

是中的噪声成分；

为当前节点中纯净语音成分的时域自相关矩阵；

为当前节点中噪声成分的时域自相关矩阵；

为当前节点中联合向量的时域自相关矩阵；

u＝[1，0，...，0]^T，其长度为M+P-1，P为网络中的节点总数；

则节点K第N_i+1次迭代的时域多通道维纳滤波器为：

在节点K，所述频域的多通道维纳滤波器中，

N_i为步骤g的迭代次数；

为联合向量中的纯净语音成分；

为联合向量中的噪声成分；

为除去节点K之外其他节点背景噪音向量的频域自相关矩阵；

为除去节点K之外其他节点观测向量的频域自相关矩阵；

当所有节点得到更新后的单通道语音增强信号之后，同样可以将此更新后的信号传输至其他节点，以便于其他节点再次更新单通道语音增强信号。因此，可以在分布式麦克风阵列网络重复上述步骤，当某节点得到的单通道增强后语音信号收敛时，增强后语音信号不再更新。当所有节点单通道语音信号均不再更新时，当前帧处理结束，最终在每个节点均得到当前节点增强后语音信号。

步骤g还可包括判断语音信号是否收敛的步骤。我们可以根据滤波前后信号向量之差的范数，以及信号能量综合判断某节点得到的单通道增强后语音信号是否收敛：步骤g根据滤波前后信号向量之差的范数，以及信号能量综合判断某节点得到的单通道增强后语音信号是否收敛，其方法如下：

在节点K，前次滤波得到的单通道时域信号向量是

本次滤波得到的单通道时域信号向量是

当时，认为当前滤波器输出收敛；

||·||^p代表p范数，η是一个阈值。

以上所述的仅是本发明的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种基于分布式麦克风阵列网络的语音增强方法，其特征在于，包括下列步骤：

步骤g、重复迭代步骤e～步骤f，当某节点得到的单通道增强后语音信号收敛时，当前节点的单通道增强后语音信号不再更新；当所有节点的单通道增强后语音信号均不再更新时，当前帧处理结束；最终在每个节点均得到当前节点增强后语音信号；

所述步骤b具体包括以下步骤：

步骤b4、K＝K+1；

2.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法，其特征在于：所述麦克风阵列包括音频采集模块和通信模块。

3.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法，其特征在于：所述步骤a中的Ad-hoc网络的结构为平面结构或者分级结构；Ad-hoc网络采用先验式、反应式或者混合式的路由协议实现网络中两个节点设备之间的相互通信。

4.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法，其特征在于：所述步骤b还包括对网络节点进行时间同步；所述分布式麦克风阵列包括网络设备时钟；所述时间同步是通过所述网络设备时钟，基于NTP网络时间协议进行同步。

5.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法，其特征在于：所述步骤c中的信号分帧使用海明窗或者汉宁窗抑制频谱泄露；所述步骤c采用时间混叠的分帧策略。

6.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法，其特征在于：所述步骤d使用时域多通道维纳滤波器或者频域的多通道维纳滤波器对多路麦克风阵列观测信号进行滤波，以达到语音增强的效果：

在节点K，所述时域多通道维纳滤波器的表达式为：

h_w，K(t)＝[R_xx，K(t)+λR_nn，K(t)]^-1R_xx，K(t)u；

上式中，R_xx，K(t)＝R_yy，K(t)-R_nn，K(t)；

是当前节点的纯净语音向量x_K(t)＝[x_1,K(t),x_2,K(t),…,x_M,K(t)]^T的时域自相关矩阵；

u＝[1，0，...，0]^T，其长度为M；

M为当前节点的麦克风数量；

节点K的时域滤波输出为：

在节点K，所述频域多通道维纳滤波器的表达式为：

H_w，K(ω)＝[R_XX，K(ω)+λR_NN，K(ω)]^-1R_XX，K(ω)u；

上式中，R_XX，K(ω)＝R_YY，K(ω)-R_NN，K(ω)；

是当前节点的纯净语音向量X_K(ω)＝[X_1，K(ω)，X_2，K(ω)，...，X_M，K(ω)]^H的频域自相关矩阵；

是当前节点的噪声向量N_K(ω)＝[N_1,K(ω),N_2,K(ω),...,N_M,K(ω)]^H的频域自相关矩阵；

u＝[1，0，...，0]^T，其长度为M；

M为当前节点的麦克风数量；

节点K的频域滤波输出为：

7.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法，其特征在于：所述步骤e包括在信号传输的数据包中加入发射节点序号、接收节点序号以及多通道维纳滤波器处理次数的信息。

8.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法，其特征在于：所述步骤f包括使用时域或频域的多通道维纳滤波器对当前节点多路观测信号和其他节点的增强后信号进行滤波；

所述时域的多通道维纳滤波器中，

N_i为步骤g的迭代次数；

是中的纯净语音成分；

是中的噪声成分；

为当前节点中纯净语音成分的时域自相关矩阵；

为当前节点中噪声向量的时域自相关矩阵；

为当前节点中联合向量的时域自相关矩阵；

u＝[1，0，...，0]^T，其长度为M+P-1，P为网络中的节点总数；

则节点K第N_i+1次迭代的时域多通道维纳滤波器为：

所述频域的多通道维纳滤波器中，

N_i为步骤g的迭代次数；

为中的纯净语音成分；

为中的噪声成分；

为除去节点K之外其他节点背景噪音向量的频域自相关矩阵；

为除去节点K之外其他节点观测向量的频域自相关矩阵；

9.如权利要求1所述的基于分布式麦克风阵列网络的语音增强方法，其特征在于：所述步骤g包括根据滤波前后信号向量之差的范数以及滤波后信号向量的范数判断节点得到的单通道增强后语音信号是否收敛的步骤，其方法如下：

在节点K，前次滤波得到的单通道时域信号向量为：

本次滤波得到的单通道时域信号向量为：

当时，当前滤波器输出收敛；

上式中，||·||^p代表p范数，η是阈值。