CN104157293A

CN104157293A - 一种增强声环境中目标语音信号拾取的信号处理方法

Info

Publication number: CN104157293A
Application number: CN201410427254.1A
Authority: CN
Inventors: 陈国钦
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2014-08-28
Filing date: 2014-08-28
Publication date: 2014-11-19
Anticipated expiration: 2034-08-28
Also published as: CN104157293B

Abstract

本发明涉及一种增强声环境中目标语音信号拾取的信号处理方法。（1）通过实验获取ESN网络的参数，建立相应的音源模型；（2）将模型用于两种场合：当模型的输出为期望的某目标语音信号，输入为该目标语音源的声环境反射声信号和目标语音信号的混合时，模型可用于现场扩声的回声消除；当模型的输出为期望的某目标语音信号，输入为其它特定语音源的声环境反射声信号和目标语音信号的混合时，模型可用于两个特定人间语音通信的回声消除；（3）模型在实际声环境中给目标语音人使用时，拾音的位置发生变化，也能抑制训练所指的音源信号的反射信号，而输出相应增强的目标语音信号。本发明克服因拾音位置移动，而造成语音信号质量受到的影响。

Description

一种增强声环境中目标语音信号拾取的信号处理方法

技术领域

本发明属于室内语音信号拾取的处理技术，涉及通过实验对回声状态神经网络的参数选择和训练建模的数字信号处理方法，特别是一种增强声环境中目标语音信号拾取的信号处理方法。

背景技术

在现场扩声中，消除回声影响的涉及对象是：特定目标语音和该特定目标语音的环境反射声，主要用于提高声增益。主要的相关技术有：（1）传统技术如窄带均衡是滤除峰值的处理，消除反馈自振；移频法是采用对信号进行频谱移动再扩声，用以破坏反馈自振条件等，它们存在的一个共同问题都是处理技术复杂，并且不利于语音信号的保真；(2)基于现代的数字信号处理的方法则采用自适应滤波处理的回声抵消技术。

在语音通信中，消除回声影响的涉及对象是：特定目标语音和另一个特定语音的环境反射声，主要达到语音增强的目的。回声消除的相关产品主要在两个方面：基于DSP平台的回声消除器和基于Windows平台的语音通信的回声消除算法软件。它们均是基于自适应回声抵消技术的产品，回声抵消必须精确地模拟回声路径，并且迅速地适应它的变化。这包括自适应滤波器的结构和自适应算法的选择，以及减少噪声对算法收敛速度的影响等。自适应回声抵消处理主要有以下两方面问题：

首先，设计主要针对以下的使用问题：（1）处理同时通话。只有远端信号没有近端信号时，获得对回声模拟的滤波器系数，当加入近端信号时等于引进另外大的随机分量到自适应过程，滤波器系数会围绕这个中值的变化而显著增大，导致性能下降。对此必须检测近端信号存在的关键元件，在同时讲话时使自适应功能停止，保持前面的滤波器系数不变。（2）基于自适应滤波的算法常用的LMS算法存储量小、实现及检测比较容易，但收敛性差；而收敛性好的RLS算法计算量大，因此出现了许多它们的改进算法，以及应用于解决实际回声问题的自适应滤波抵消算法处理。（3）当回声消除算法应用到Windows平台，必须解决采集和播放音频流的同步问题。相对于传统的DSP平台，现在的PC机，拥有丰富的CPU资源和海量的内存资源，再复杂的回声消除算法都可以运行自如。但是，应用程序很难在底层直接控制声卡的采集播放，获得的是非实时的音频流，从而带来了采集和播放音频流的同步问题。本地接收到远端的语音后，要把这些语音数据传给回声消除算法做参考，这是算法需要的一个输入信号；然后再传给声卡，声卡放出来后经过回音路径，本地再采集后传给回声消除算法，是算法需要的另一个输入信号。如果传给回声消除算法的两个信号同步得不好，即两个信号发生帧错位，就很难进行消除了。

其次，扬声器与麦克风之间声耦合形成的声回波自适应滤波消除技术存在以下的技术问题：（1）由于延迟时间较长（达到1s），需要几千个系数的高阶滤波器来拟合，需要更多的计算资源。（2）如此长的高阶滤波器的稳定性及提高其自适应速度都是比较困难的事情。首先，声回波路径由于声学特性的变化表现得不平稳；其次，声回波是通过多经传播来的；再次，房间声空间的传播散射特性是非线性，用一般的（或）线性滤波器不能较好地对其建模。（3）对于立体声***的声回波抵消问题，目前仍然是一个重要的、富有挑战性的研究课题，随着消回声消除技术的发展，当前回声消除研究的重点，已由电路回声的消除，转向了声学回声的消除。

作为语音信号的产生可以采用或模型描述，室内扬声器到麦克风的声信道（反射声信号的产生）也可以用或模型近似描述，模型具有以较少极点较准确模拟声信道的功能。对于室内声信道相当于大量驻波叠加的结果，有较多峰值，需要较多极点数的模型模拟出来，而对于人声***发出的语音信号则通常只要很少极点数的模型就可以模拟出来。因此，如果能建立一个模型，其输出为目标语音，而输入为目标语音和环境反射声信号的，则抑制的是反射声信号，而相应强化的是目标语音信号。

动态神经网络，又称递归神经网络，由动态神经元组成，是针对动态***辨识研究中发展出来的一种神经网络。动态神经网络的训练过程是不断调整网络参数(如权值等)使网络输出逼近理想输出的过程，是建立模型的有力工具。作为一种新型递归神经网络，回声状态神经网络（网络）在非线性***辨识方面较传统的递归神经网络有较大改进。首先，在稳定性方面，可以通过预先设定储备池权值矩阵的谱半径来保证递归网络的稳定性；其次，在网络训练方面，输出权值的确定是唯一而且是全局最优的，因此没有传统神经网络普遍存在的局部最小问题，并且不存在传统动态神经网络靠误差调整而收敛速度慢的问题；除此之外，网络避免了传统递归神经网络求取时序偏微分的过程，因此网络的训练过程变得特别简单。

正因为网络在非线性***辨识方面显示出的良好性能，因此，本发明针对上述需求，也利用网络建立一种抑制室内声环境反射声信号而增强输出目标语音信号的模型。借此，在回声消除处理中，上述自适应滤波器所遇到的问题将得到解决。

发明内容

本发明的目的在于提供一种解决上述自适应滤波器抵消声环境反射信号的方法所存在的不足的增强声环境中目标语音信号拾取的信号处理方法。

为实现上述目的，本发明的技术方案是：一种增强声环境中目标语音信号拾取的信号处理方法，包括以下步骤：

步骤1：确定建立的模型类型：包括第一音源模型和第二音源模型，所述第一音源模型为抑制目标语音本身在声环境中产生的的反射声信号而相应增强目标语音信号；所述第二音源模型为抑制另一特定人语音在声环境中产生的反射声信号而相应增强目标语音信号；

步骤2：模型的训练数据源分为两种获取准备：当准备建立第一音源模型时，需获取目标语音信号的数据采样点；当准备建立第二音源模型时，需获取特定人语音信号和目标语音信号的数据采样点；

步骤3：获取训练模型用的环境反射声信号：首先，从电声***对室内声环境输入激励信号，获取室内声环境的脉冲响应信号，并转换成数字信号；其次，设定阶数，利用基于自相关的线性预测算法获取全极点滤波器系数，该全极点滤波器用于模拟声环境中的声信道传输特性；再而，以准备抑制的反射声所对应的音源信号或经过全极点滤波器获得相应的环境反射声信号；

步骤4：ESN网络参数的确定：

ESN网络的方程为：

其中，表示内部神经元激活函数，通常取双曲正切函数,表示输出函数，典型情况下取恒等函数，为时刻储备池的状态变量，为时刻***输入向量，是网络时刻的输出；为随机产生并且稀疏连接的高维方阵，储备池一经产生，其连接权值保持不变；和分别为网络的输入权值矩阵和输出权值向量；为输出对状态变量连接权值向量；表示输出的偏置项或代表噪声；和随机产生而且保持不变，唯一需要调整的是输出权值；

为使麦克风取一定长度的信号帧输入模型后，能够处理输出相应长度的目标语音帧，上述三个随机连接权值向量的取值如下：

，即，取值在（，）之间；

，即，取值在（0，）之间；

, 即，取值（0，）之间；

其中，值越小，建立状态的时间相对越短，提高模型运算的实时性，而值越大模型精确性越高，但可能使泛化能力下降；取值为：①决定输入储备池的尺度，；②；③；

步骤5：以作为网络输入，作为目标期望，对网络进行训练，得到抑制特定音源反射声而相应增强目标语音信号的模型；时刻，储备池的状态变量的状态方程：

;

对于给定非线性***输入输出对(,；)，利用网络辨识该***的过程为：首先，初始化储备池中的权值和；其次，输入激励***，求得网络的各个时刻状态响应；储备池中的状态变量与期望输出之间是线性关系，因此网络的训练过程比较简单，而且解的过程不会出现传统神经网络常有的多个局部最小、收敛速度慢的缺点；

输出权值的确定采用基本的线性回归算法：

。

在本发明实施例中，所述训练所得的模型还能够用于实际声环境中声信道变化时的目标语音信号增强，即从麦克风获取的信号中包含：目标语音信号、特定的环境声反射信号，输入模型中，获得增强的目标语音信号输出，其采用实现的代码段如下：

;

；

。

在本发明实施例中，所述步骤2中，获取目标语音信号的数据采样点，其数据帧长度大于625ms。

在本发明实施例中，所述步骤3中，所述的输入激励信号为白噪声脉冲、周期脉冲或赝噪声。

在本发明实施例中，所述步骤3中，所述声环境的脉冲响应信号由能够在室内使用范围的任意一种扬声器和麦克风相应位置获取。

在本发明实施例中，所述步骤3中，所述阶数的确定过程如下：

室内极点数，即线性预测的阶数对应的是室内声驻波数，其按下式估算：

,

式中为估算频率，为相应波长，为估算的带宽，为声速，，为室内容积，为室内总表面积；

则所述阶数。

在本发明实施例中，所述步骤3中，所述环境反射声信号，其是指：当为第一音源模型时，为由目标语音信号，即由通过全极点滤波器形成；当为第二音源模型时，为由特定人语音信号通过全极点滤波器形成。

在本发明实施例中，所述的网络参数中，所述、、、、由实验选择。

在本发明实施例中，所述训练所得的模型能够用于实际声环境中声信道变化时的目标语音信号增强，其是指一旦模型建立后，拾音的位置发生变化时，还能够抑制训练所指的音源信号在时变声环境中的反射信号，输出相应增强的目标语音信号。

相较于现有技术，本发明具有以下有益效果：

1、首先本发明的模型有两个主要特点：（1）训练模型可用于两种情形：当模型输出期望为某目标语音信号，输入为该特定人声环境反射信号和目标语音信号的混合时，可用于目标语音人现场扩声的回声消除；当模型输出期望为某目标语音信号，输入为其它特定人语音源的声环境反射信号和目标语音信号的混合时，可用于两个特定人间语音通信的回声消除；（2）训练所得的模型在实际环境中给特定目标语音人使用时，拾音的位置在一定范围发生变化时，都能抑制训练所指声环境中的反射信号，而相应增强目标语音信号的输出；因此，该信号处理方法可应用在各种现场扩声的声增益提高的处理，或语音通信中双讲时消除回声的处理，或语音录音信号的增强处理；

2、对于立体声***的声回波抵消问题，目前仍然是一个重要的、富有挑战性的研究课题；如果立体声***应用自适应滤波的回波抵消处理，将存在着复杂性和计算量大，且往往难以实现理想效果的问题；而采用本发明处理方法则可以避免。

附图说明

图1 是本发明模型训练及使用的实现框图。

图2为网络模型图。

图3是小室内的声信道1冲击响应、频谱图。

图4是小室内的声信道2冲击响应、频谱图。

图5是声信道1取600极点和100极点的LPC谱包络比较图。

图6是本发明用于实例的两个语音信号图。

图7是本发明第一音源模型的的实例处理效果图。

图8是本发明第一音源模型的的实例处理效果图。

图9是本发明第一音源模型取6000个数据点建模时的实例处理效果图。

图10是本发明第一音源模型取10000个数据点建模时的实例处理效果图。

图11是本发明第一音源模型取不同极点数（训练时取声信道1的100极点，应用时取声信道1的600极点）的全极点滤波器获取反射声信号并用于训练建模和实例处理时的结果图。

图12是本发明对图11模型用于训练的环境反射声加入高斯噪声（25dB信号噪声比）情况下，模型的实例处理结果图。

图13是本发明第二音源模型的的实例处理效果图。

图14是本发明第二音源模型的的实例处理效果图。

图15是本发明第二音源模型取6000个数据点建模时的实例处理效果图。

图16是本发明第二音源模型取10000个数据点建模时的实例处理效果图。

图17是本发明第二音源模型取不同极点数（训练时取声信道1的100极点，应用时取声信道1的600极点）的全极点滤波器获取反射声信号并用于训练建模和实例处理时的结果图。

图18是本发明对图17模型用于训练的环境反射声加入高斯噪声（25dB信号噪声比）情况下，模型的实例处理结果图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

如图1所示，本发明一种增强声环境中目标语音信号拾取的信号处理方法，包括如下步骤：

步骤1：确定建立的模型类型：当模型准备抑制目标语音本身在声环境中产生的的反射声信号而相应增强目标语音信号时，该模型以下简称第一音源模型；当模型准备抑制另一个特定人语音在声环境中产生的的反射声信号而相应增强目标语音信号时，该模型以下简称第二音源模型。

步骤2：模型的训练数据源分为两种获取准备：当准备建立第一音源模型时，只要获取目标语音信号的合适数量数据采样点；当准备建立第二音源模型时，应获取特定人语音信号和目标语音信号的合适数量数据采样点。

步骤3：获取训练模型用的环境反射声信号：可从电声***对室内声环境输入激励信号，获取室内声环境的脉冲响应信号，并转换成数字信号；设定适当阶数，利用基于自相关的线性预测算法获取全极点滤波器系数，该全极点滤波器用于模拟声环境中的声信道传输特性；以准备抑制的反射声所对应的特定音源信号(或)经过全极点滤波器获得相应的环境反射信号。

步骤4：传统的递归神经网络通常具备较少的隐层神经元个数，但是其权值调节机制较为复杂；而回声状态神经网络(Echo State Network，以下简称网络)包含一个较大的储备池，具有较多的隐含层和状态层神经元，但网络训练仅仅需要调整从隐层到输出节点的连接权值。网络的非线性动态特性是由一个大规模的“储备池”产生。“储备池”包含大量随机生成并且稀疏连接的神经元，“储备池”蕴含了***的运行状态，并具有记忆功能；在外部输入作用下，构成“输入-状态-输出”驱动***，网络的方程可以写成：

其中表示内部神经元激活函数，通常取双曲正切函数,表示输出函数，典型情况下取恒等函数，为时刻“储备池”的状态变量，为时刻***输入向量，是网络时刻的输出。为随机产生并且稀疏连接(通常保持1％-5％)的高维方阵，“储备池”一经产生，其连接权值保持不变；和分别为网络的输入权值矩阵和输出权值向量；为输出对状态变量连接权值向量；表示输出的偏置项或代表噪声。和也随机产生而且保持不变，唯一需要调整的是输出权值。

虽然有大量的研究是关于如何获得与具体问题相关的“好”的储备池，但是并没有形成***的方法，多数研究是从实验角度进行，最终性能是由储备池的各个参数决定:（1）储备池规模和储备池稀疏程度：储备池规模越大，网络能够表示的动态***可能越复杂，网络对给定的动态***描述就越准确；但是，储备池规模不能任意增大，因为如果储备池规模过大可能会引起过拟合问题，而引起泛化能力下降；参数表示的是储备池中相互连接的神经元占总的神经元数（）的百分比（通常保持1%-5%），可以衡量储备池中所包含向量的丰富程度，向量越丰富，其非线性逼近能力越强。（2）储备池内部连接权谱半径：，只有当时，网络才具有回声特性；（3）储备池输入单元尺度：即输入信号连接到储备池神经元之前，需要相乘的一个尺度因子；该原则的本质是通过输入单元尺度，将输入变换到神经元激活函数相应的范围。

，即，取值在（，）之间；

，即，取值在（0，）之间；

, 即，取值（0，）之间；

其中，值越小，建立状态的时间相对越短，提高模型运算的实时性，而值越大模型精确性越高，但可能使泛化能力下降；取值为：①决定输入储备池的尺度，；②；③。所述的网络参数、、、、由实验选定，具体确定过程即：（1）取、、、、满足，，，，中的任意一组值，输入训练数据建模，再对模型输入实例数据，观察处理输出时***是否稳定，即是否存在振荡，存在振荡时调小参数，直至模型稳定输出；（2）增大或减小值，重复上一步的训练和仿真输出，达到最佳效果时、、、、的取值，即为确定参数值。在下述一个具体实施例中，两种模型的一种参数合适取值为：第一音源模型的、，0.3时，取；第二音源模型的、，0.3时，取。

步骤5：以作为网络输入，作为目标期望，对网络进行训练，得到抑制特定音源反射声而相应增强目标语音信号的模型；时刻，储备池的状态变量的状态方程（取双曲正切函数计算）：

;

神经网络在训练时一般都需要通过某种信息反馈来调整权值。而网络的学习机制比较特别，首先通过输入信号激励储备池，从而产生储备池中连续的状态变量信号，最后通过储备池状态变量与目标输出信号的线性回归算法确定网络权值。

对于给定非线性***输入输出对(,；)，利用网络辨识该***的过程为：首先，初始化储备池中的权值和；其次，输入激励***，求得网络的各个时刻状态响应；储备池中的状态变量与期望输出之间是线性关系，因此网络的训练过程比较简单，而且解的过程不会出现传统神经网络常有的多个局部最小、收敛速度慢的缺点。输出权值W的确定可以使用基本的线性回归算法：

。

训练所得的模型可以用于实际声环境中声信道变化时的目标语音信号增强，即从麦克风获取的信号中包含：目标语音信号、特定的环境声反射信号，把它输入模型，可获得增强的目标语音信号输出（表达的代码段说明）：

; //输入网络//

//计算神经元池的状态变量//

;

；

。 //计算增强的目标信号输出//

请参见图1-2，图1-2是本发明模型训练及使用的实现框图，以及 网络模型。

一方面建立模型训练环境（全极点滤波器）：在任意一个声用房，首先根据所使用的电声***对室内输入白噪声脉冲，激励起室内的驻波响应，获得室内冲击响应并转换为数字信号；然后选择室内声环境模型的阶数，利用基于自相关的线性预测算法()获取全极点滤波器系数，该全极点滤波器用于模拟声环境中的声信道传输特性。

另一方面建立网络增强目标语音的输出模型：首先，获取训练用的语音数据，即当准备建立第一音源模型时，只要获取目标语音信号的合适数量数据采样点；当准备建立第二音源模型时，应获取特定人语音信号和目标语音信号的合适数量数据采样点；然后，利用上述全极点滤波器得到训练用的声反射信号；最后，网络参数中，、、由随机产生，、、、、由实验选择，由训练产生。

建立相应用途的模型后，即可在训练的声环境中给目标语音人使用，并允许麦克风在一定范围移动使用。

请参见图3-5，图3-5是本发明一个声环境中的两个声信道响应以及其中声信道1响应不同极点数的LPC谱包络比较。

该声环境（6.3×3.6×2.8（m³）小室内）冲击响应分别取两个声信道：①的声信道1的冲击响应（采样率16KHz)、频谱在100Hz~400Hz；②声信道2的冲击响应（采样率16KHz)、频谱在100Hz~400Hz。

其中声信道1响应不同极点数的谱包络，在图中分别为600极点数频谱包络和100极点数频谱包络。可见以600极点数的频谱包络与原信道频率响应接近一致，而100极点数的LPC频谱包络偏差较大。

请参见图6，图6是本实例采用的两个原始语音信号。

信号采样率16KHz，一个语音信号是用于实例中的目标语音信号，前1-10000数据采样点用于训练模型，后12001-24000数据采样点用于模型对应用实例的处理；另一个信号用于产生实例需要的环境反射声信号，前1-10000数据样点用于训练模型，后12001-24000数据采样点用于模型对应用实例的处理。

请参见图7-8，图7-8是本发明第一音源模型的关键参数 和 不同取值时的实例处理效果。

建模条件：①取、和0.3时，取，以声信道1的600极点滤波器模拟输出反射声，并以10000数据采样点训练模型；②取、和0.3时，取，以声信道1的600极点滤波器模拟输出反射声，并以10000数据采样点训练模型。

分别对两种条件建立的模型输入以下信号（16KHz采样率，6000个数据采样点为一帧）：①声信道1的600极点滤波器模拟的反射声；②目标语音信号；③模拟麦克风信号。

训练建立模型后，输入信号，模型输出与的波形相似度，以及与的波形相似度计算如下：

；

设输出为，对反射信号抑制能力计算如下：

(dB)；

处理结果：取建模时， 0.9132，0.7463,相似度提高0.1669，对反射声抑制能力为14.02dB；而取建模时，0.9044，0.7463，相似度提高0.1581，对反射声抑制能力为9.50dB。可见取为一种合适取值，而泛化能力有所下降了。

请参见图9-10，图9-10为第一音源模型取不同训练数据量建模时的实例处理效果。

建模条件：①取、，0.3时，取，以声信道1的600极点的全极点滤波器取得反射信号，训练数据（16KHz采样率）取6000个数据采样点；②取、，0.3时，取，以声信道1的600极点的全极点滤波器取得反射信号，训练数据（16KHz采样率）取10000个数据采样点。

对两种条件建立的模型分别输入以下信号（16KHz采样率）：模拟麦克风混合信号中的反射信号以声信道2的600极点的全极点滤波器取得，输入处理的混合信号为6000数据采样点为一帧。

训练建立得模型后，输入信号，模型输出与的波形相似度，以及与的波形相似度计算如下：

；

设输出为，对反射信号抑制能力计算如下：

(dB)；

处理结果：6000个数据采样点训练建模时，0.8871，0.7475，相似度提高0.1396，对反射声信号抑制能力为12.45dB；10000个数据采样点训练建模时，0.9036，0.7475，相似度提高0.1561，对反射声信号抑制能力为15.50dB。可见：（1）模型在训练数据点增大到10000个数据采样点（16KHz采样率约625ms）时，就能获得较好的第一音源模型；（2）说明声信道改变（拾音位置改变）时，模型依然有效达到预期效果。

请参见图11，图11是本发明第一音源模型取不同极点数的全极点滤波器获取反射声信号并用于训练建模和实例处理时的结果。

建模条件：取、，0.3时，取，训练模型时，反射信号以声信道1的100极点全极点滤波器取得，训练数据（16KHz采样率）取10000个数据采样点。

对该模型输入信号（16KHz采样率）：模拟麦克风混合信号中的反射信号以声信道2的600极点的全极点滤波器取得，输入处理的实例混合信号为6000数据采样点为一帧。

；

设输出为，对反射信号抑制能力计算如下：

(dB)；

处理结果： 0.9067，0.7432，相似度提高0.1635，对反射声信号抑制能力为15.06dB。可见：（1）训练时只要取一定极点数获取系数，建立声信道模型滤波器，并且其频谱特性不必取得与原声信道完全一致，由此获取训练的反射声信号，训练建立的第一音源模型能取得较明显增强效果。

请参见图12，图12是本发明对图11模型用于训练的环境反射声加入高斯噪声（25dB信号噪声比）情况下，模型的实例处理结果。

与图11同样计算方法，处理结果为：0.9242，0.7359，相似度提高0.1883，对反射声信号抑制能力为12.58dB。模型输入同样的反射声信号情况下，再加入噪声使降低了，而处理结果的与之相对提高了。可见本发明第一音源模型对噪声也同时有一定的抑制作用，使得其处理输出波形相似度的提高程度比无噪声情况下多。

请参见图13-14，图13-14为是本发明第二音源模型的关键参数 和 不同取值时的实例处理效果。

建模条件：①取、和0.3时，取，以声信道1的600极点滤波器模拟反射声，以10000数据采样点训练模型；②取、和0.3时，取，以声信道1的600极点滤波器模拟反射声，以10000数据采样点训练模型。

；

设输出为，对反射信号抑制能力计算如下：

(dB)；

处理结果：取时，0.8734，0.7498，相似度提高0.1236，对反射声抑制能力为11.19dB；而取时，0.8192，0.7498，相似度提高0.0694，对反射声抑制能力为7.23dB。可见取为一种合适取值，而泛化能力有所下降了。

请参见图15-16，图15-16为第二音源模型取不同训练数据量建模时的实例处理效果。

建模条件：①取、，0.3时，取，以声信道1的600极点的全极点滤波器取得反射信号，训练数据（以16KHz采样率获取）取6000个数据采样点；②取、，0.3时，取，以声信道1的600极点的全极点滤波器取得反射信号，训练数据（16KHz采样率）取10000个数据采样点。

对两种条件建立的模型分别输入以下信号（16KHz采样率）：模拟麦克风混合信号中的反射信号以声信道2的600极点的全极点滤波器取得，输入处理的实例信号为6000数据采样点为一帧。

；

设输出为，对反射信号抑制能力计算如下：

(dB)；

处理结果：在6000个数据采样点时，0.8281，0.7451，相似度提高0.083，对反射声信号抑制能力为8.22dB；10000个数据采样点时，0.8400，0.7451，相似度提高0.0949，对反射声信号抑制能力为10.81dB。可见：（1）模型在训练数据点增大到10000采样点（16KHz采样率约625ms）时，就能获得较好的第二音源模型；（2）声信道改变（拾音位置改变）时，模型依然有效达到预期效果。

请参见图17，图17是本发明第二音源模型取不同极点数的全极点滤波器获取反射声信号并用于训练建模和实例处理时的结果。

；

设输出为，对反射信号抑制能力计算如下：

(dB)；

处理结果： 0.8690，0.740，相似度提高0.121，对反射声信号抑制能力为9.20dB。可见：（1）训练时只要取一定极点数获取系数，建立声信道模型滤波器，并且其频谱特性不必取得与原声信道完全一致，由此获取训练的反射声信号，训练建立的第二音源模型能取得增强效果。

请参见图18，图18是本发明对图17环境反射声加入高斯噪声（25dB信号噪声比）情况下，模型的实例处理结果。

与图17同样计算方法，处理结果为：0.8215，0.6868，相似度提高0.1347，对反射声信号抑制能力为8.24dB。模型输入包含同样的反射声信号情况下，再加入噪声使降低了，而处理结果与之相对提高了。可见本发明第二音源模型对噪声也同时有一定的抑制作用，使得其处理输出波形相似度的提高程度比无噪声情况下多。

综合上述图7至图18结果，可见第一音源模型的处理效果优于第二音源模型；说明由于第一音源模型抑制的环境反射声信号频谱成份与目标语音信号一致，而第二音源模型则无这种一致性，因此一致性越强建模效果越好。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种增强声环境中目标语音信号拾取的信号处理方法，其特征在于：包括以下步骤：

步骤4：ESN网络参数的确定：

ESN网络的方程为：

，即，取值在（，）之间；

，即，取值在（0，）之间；

, 即，取值（0，）之间；

其中，值越小，建立状态的时间相对越短，提高模型运算的实时性，而值越大模型精确性越高，但可能使泛化能力下降；取值为：①决定输入储备池的尺度, ；②；③；

;

输出权值的确定采用基本的线性回归算法：

。

2.根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述训练所得的模型还能够用于实际声环境中声信道变化时的目标语音信号增强，即从麦克风获取的信号中包含：目标语音信号、特定的环境声反射信号，输入模型中，获得增强的目标语音信号输出，其采用实现的代码段如下：

;

；

。

3.根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述步骤2中，获取目标语音信号的数据采样点，其数据帧长度大于625ms。

4.根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述步骤3中，所述的输入激励信号为白噪声脉冲、周期脉冲或赝噪声。

5.根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述步骤3中，所述声环境的脉冲响应信号由能够在室内使用范围的任意一种扬声器和麦克风相应位置获取。

6.根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述步骤3中，所述阶数的确定过程如下：

,

则所述阶数。

7.根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述步骤3中，所述环境反射声信号，其是指：当为第一音源模型时，为由目标语音信号，即由通过全极点滤波器形成；当为第二音源模型时，为由特定人语音信号通过全极点滤波器形成。

8.根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述的网络参数、、、、由实验选定，具体确定过程即：（1）取、、、、满足，，，，中的任意一组值，输入训练数据建模，再对模型输入实例数据，观察处理输出时***是否稳定，即是否存在振荡，存在振荡时调小参数，直至模型稳定输出；（2）增大或减小值，重复上一步的训练和仿真输出，达到最佳效果时、、、、的取值，即为确定参数值。

9.根据权利要求2所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述训练所得的模型能够用于实际声环境中声信道变化时的目标语音信号增强，其是指一旦模型建立后，拾音的位置发生变化时，还能够抑制训练所指的音源信号在时变声环境中的反射信号，输出相应增强的目标语音信号。