CN111508516A

CN111508516A - 基于信道关联时频掩膜的语音波束形成方法

Info

Publication number: CN111508516A
Application number: CN202010244951.9A
Authority: CN
Inventors: 杨磊; 文飞; 王维钦; 周良辰; 谭璐芬; 戴俊宇; 王立众; 刘佩林
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-08-07

Abstract

本发明提供了一种基于信道关联时频掩膜的语音波束形成方法及***，将噪声分量丰富的信道称为噪声信道，将语音分量丰富的信道称为语音信道；使用噪声信道估算噪声时频掩膜，使用语音信道估算语音时频掩膜；使用时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵；根据二者协方差矩阵进行广义特征值分解，得到应进行语音增强的滤波器参数，对滤波器参数进行归一化并以此构建语音增强滤波器；使用语音增强滤波器对输入的多通道语音进行滤波，并对增强后语音中值滤波，输出单通道增强语音。本发明可以提高波束形成算法的语音增强效果，同时由于信道关联的特点，提高了在移动端设备上的语音增强适应性及效果。

Description

基于信道关联时频掩膜的语音波束形成方法

技术领域

本发明涉及语音信号增强技术领域，具体地，涉及一种基于信道关联时频掩膜的语音波束形成方法。

背景技术

目前，语音增强技术是语音信号处理必不可少的部分，能够提高语音信号的信噪比，使得语音处理时更少的被噪声影响。波束形成方法是语音增强技术中，多通道信号增强领域最具效果的方法。传统的波束形成方法针对理想的麦克风阵列设计，在非标准化设计的硬件环境中表现不能达到最好。将信道分类标记，使用噪声丰富的信道和语音丰富的信道分别估计噪声和语音特征，能够使得波束形成方法获得更好的增强效果，也能够更好的适应非标准化设计的硬件环境。

与本专利相关的技术是基于时频掩膜的波束形成方法，该方法根据多通道输入估计噪声时频掩膜，然后根据输入信号和噪声时频掩膜估计语音时频掩膜；将两个时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵；根据二者协方差矩阵进行广义特征值分解，得到应进行语音增强的滤波器参数，对滤波器参数进行归一化并以此构建语音增强滤波器；使用语音增强滤波器对输入的多通道语音进行滤波，并对增强后语音中值滤波，输出单通道增强语音。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于信道关联时频掩膜的语音波束形成方法。

根据本发明提供的一种基于信道关联时频掩膜的语音波束形成方法，包括以下步骤：

信道关联的时频掩膜估计步骤：将噪声分量大于语音分量信道称为噪声信道，将语音分量大于噪声分量的信道称为语音信道；使用神经网络训练时频掩膜分类器；使用噪声信道输入信号和时频掩膜分类器估算噪声时频掩膜，使用语音信道输入信号和神经网络估算语音时频掩膜；

波束形成滤波器构建步骤：使用时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵，根据二者协方差矩阵进行广义特征值分解，得到应进行语音增强的滤波器参数，对滤波器参数进行归一化并以此构建语音增强滤波器；

语音降噪增强步骤：使用语音增强滤波器对输入的多通道语音进行滤波，并对增强后语音中值滤波，输出单通道增强语音。

优选地，所述信道关联的时频掩膜估计步骤包括：

信道标注步骤：根据语音采集设备的硬件使用环境，将噪声分量丰富的信道称为噪声信道，将语音分量丰富的信道称为语音信道；

时频掩膜分类器训练步骤：利用纯语音和纯噪声训练时频掩膜分类器，时频掩膜分类器的输入为语音、噪声，输出为语音掩膜值及噪声掩膜值，获得训练好的时频掩膜分类器；

时频掩膜估计步骤：使用训练好的时频掩膜分类器估计时频掩膜值，时频掩膜分类器的输入为语音、噪声或带噪语音信号，输出为语音时频掩膜值及噪声时频掩膜值。

优选地，所述波束形成滤波器构建步骤包括：

协方差矩阵计算步骤：根据语音时频掩膜及输入的多通道信号功率谱计算语音协方差矩阵，根据噪声时频掩膜及输入多通道信号的功率谱计算噪声协方差矩阵；

广义特征值分解步骤：根据噪声协方差矩阵和信号协方差矩阵，使用广义特征值分解，获得广义特征值及特征向量，最优滤波器参数为最大特征值对应的特征向量；

参数归一化步骤：根据最优滤波器参数，构建语音增强滤波器，使用后置归一化滤波，对输入多通道信号的各个频率输入增益归一化处理，输出无失真信号。

优选地，所述语音降噪增强步骤包括：

波束形成滤波步骤：使用归一化后的滤波器参数构建滤波器，并作用于输入多通道信号的每个通道，输出滤波后多通道信号；

中值滤波步骤：根据滤波后多通道信号，使用中值滤波将多通道信号平滑为单通道信号，并输出滤波后单通道信号。

优选地，所述时频掩膜分类器训练步骤包括：

输入数据处理步骤：将训练所用的噪声数据标记噪声标签，将训练所用的语音数据标记语音标签；根据输入数据，使用短时傅里叶变换将其转变到时频域，并获得时频信号矩阵，该矩阵为神经网络输入；

损失计算步骤：结合输入数据标签及神经网络正向传播的结果，计算神经网络结果与标签之间的误差值，并计算损失函数值；

反向传播步骤：结合损失函数值，计算梯度，反向传播并更新神经网络节点参数；

迭代训练步骤：根据损失函数值，重复上述损失计算步骤和反向传播步骤，当损失函数值不再下降时停止，得到训练完成的时频掩膜分类器。

优选地，所述时频掩膜估计步骤包括：

输入数据处理步骤：根据输入数据，使用信道标注结果将数据标注为噪声丰富数据或者语音丰富数据，使用短时傅里叶变换将其转变到时频域，并获得时频信号矩阵，该矩阵为神经网络输入；

时频掩膜估计步骤：根据输入数据类型判断估计噪声时频掩膜抑或语音时频掩膜；将噪声丰富数据的时频信号矩阵输入训练完成的神经网络，获得噪声时频掩膜；将语音丰富数据的时频信号矩阵输入训练完成的神经网络，获得语音时频掩膜。

根据本发明提供的一种基于信道关联时频掩膜的语音波束形成***，包括以下模块：

信道关联的时频掩膜估计模块：将噪声分量大于语音分量信道称为噪声信道，将语音分量大于噪声分量的信道称为语音信道；使用神经网络训练时频掩膜分类器；使用噪声信道输入信号和时频掩膜分类器估算噪声时频掩膜，使用语音信道输入信号和神经网络估算语音时频掩膜；

波束形成滤波器构建模块：使用时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵，根据二者协方差矩阵进行广义特征值分解，得到应进行语音增强的滤波器参数，对滤波器参数进行归一化并以此构建语音增强滤波器；

语音降噪增强模块：使用语音增强滤波器对输入的多通道语音进行滤波，并对增强后语音中值滤波，输出单通道增强语音。

优选地，所述信道关联的时频掩膜估计模块包括：

信道标注模块：根据语音采集设备的硬件使用环境，将噪声分量丰富的信道称为噪声信道，将语音分量丰富的信道称为语音信道；

时频掩膜分类器训练模块：利用纯语音和纯噪声训练时频掩膜分类器，时频掩膜分类器的输入为语音、噪声，输出为语音掩膜值及噪声掩膜值，获得训练好的时频掩膜分类器；

时频掩膜估计模块：使用训练好的时频掩膜分类器估计时频掩膜值，时频掩膜分类器的输入为语音、噪声或带噪语音信号，输出为语音时频掩膜值及噪声时频掩膜值；

所述波束形成滤波器构建模块包括：

协方差矩阵计算模块：根据语音时频掩膜及输入的多通道信号功率谱计算语音协方差矩阵，根据噪声时频掩膜及输入多通道信号的功率谱计算噪声协方差矩阵；

广义特征值分解模块：根据噪声协方差矩阵和信号协方差矩阵，使用广义特征值分解，获得广义特征值及特征向量，最优滤波器参数为最大特征值对应的特征向量；

参数归一化模块：根据最优滤波器参数，构建语音增强滤波器，使用后置归一化滤波，对输入多通道信号的各个频率输入增益归一化处理，输出无失真信号；

所述语音降噪增强模块包括：

波束形成滤波模块：使用归一化后的滤波器参数构建滤波器，并作用于输入多通道信号的每个通道，输出滤波后多通道信号；

中值滤波模块：根据滤波后多通道信号，使用中值滤波将多通道信号平滑为单通道信号，并输出滤波后单通道信号。

优选地，所述时频掩膜分类器训练模块包括：

输入数据处理模块：将训练所用的噪声数据标记噪声标签，将训练所用的语音数据标记语音标签；根据输入数据，使用短时傅里叶变换将其转变到时频域，并获得时频信号矩阵，该矩阵为神经网络输入；

损失计算模块：结合输入数据标签及神经网络正向传播的结果，计算神经网络结果与标签之间的误差值，并计算损失函数值；

反向传播模块：结合损失函数值，计算梯度，反向传播并更新神经网络节点参数；

迭代训练模块：根据损失函数值，重新调用损失计算模块和反向传播模块，当损失函数值不再下降时停止，得到训练完成的时频掩膜分类器；

所述时频掩膜估计模块包括：

输入数据处理模块：根据输入数据，使用信道标注结果将数据标注为噪声丰富数据或者语音丰富数据，使用短时傅里叶变换将其转变到时频域，并获得时频信号矩阵，该矩阵为神经网络输入；

时频掩膜估计模块：根据输入数据类型判断估计噪声时频掩膜抑或语音时频掩膜；将噪声丰富数据的时频信号矩阵输入训练完成的神经网络，获得噪声时频掩膜；将语音丰富数据的时频信号矩阵输入训练完成的神经网络，获得语音时频掩膜。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述中任一项所述的信道关联的时频掩膜估计方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明可以提高语音波束形成方法对于不标准麦克风硬件条件的适应性；

2、本发明提供了信道关联型时频掩膜，可以针对不同的信道估计不同的时频掩膜，提高了波束形成算法对信道的利用效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明算法流程图；

图2为本发明实施例中手机端麦克风布设图；

图3为本发明实施例中不同麦克风之间信号时频图的映射关系图.

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

具体地，所述信道关联的时频掩膜估计步骤包括：

具体地，所述波束形成滤波器构建步骤包括：

具体地，所述语音降噪增强步骤包括：

具体地，所述时频掩膜分类器训练步骤包括：

具体地，所述时频掩膜估计步骤包括：

具体地，所述信道关联的时频掩膜估计模块包括：

所述波束形成滤波器构建模块包括：

所述语音降噪增强模块包括：

具体地，所述时频掩膜分类器训练模块包括：

所述时频掩膜估计模块包括：

下面通过优选例，对本发明进行更为具体地说明。

优选例1：

本发明的具体应用场景包括在移动端设备，尤其是智能手机端，如图2，应用手机麦克风进行声音采集，然后使用本发明所提供的波束形成方法进行语音增强。

本实施例提供了手机端的语音波束形成增强方法，其中提供了：基于信道关联的时频掩膜估计方法；基于时频掩膜的波束形成方法；基于波束形成的语音增强方法。

主要过程通过Python来实现，如图1所示，该方法包括如下步骤：

信道关联的时频掩膜估计步骤：使用神经网络训练时频掩膜分类器，将手机端麦克风采集的信号输入神经网络，根据不同的麦克风信道估算不同的时频掩膜；

波束形成滤波器构建步骤：使用时频掩膜计算协方差矩阵，并对协方差矩阵进行广义特征值分解，将最大的特征值对应的特征向量定义为滤波器参数；

在信道关联的时频掩膜估计步骤，首先将手机端麦克风根据功能类型不同，标注为噪声信道和语音信道；使用纯语音和纯噪声训练神经网络分类器(时频掩膜分类器的本质即神经网络，所以神经网络分类器与时频掩膜分类器是同义的)；将噪声信道的信号输入神经网络并输出噪声时频掩膜，将语音信道的信号输入神经网络并输出语音时频掩膜。

波束形成滤波器构建步骤，根据输入信号及得到的噪声时频掩膜和语音时频掩膜，分别计算噪声协方差矩阵和语音协方差矩阵，并对两个协方差矩阵进行广义特征值分解，将最大特征值对应的特征向量定义为滤波器参数；为了输出无失真信号，需要对滤波器参数进行后置归一化滤波。无失真信号是语音增强滤波器的输出，滤波器参数与无失真信号不一样。利用滤波器参数构建一个函数，该函数即为滤波器，输入信号乘以该函数(滤波器)得到输出无失真信号。

语音降噪增强步骤，使用归一化后的滤波器参数构建滤波器，作用于输入多通道信号的每个通道，然后使用中值滤波将多通道信号平滑为单通道信号，并输出滤波后单通道信号。

以下将对其中内容进行进一步展开，其中只详细描述本方法提出算法的部分内容。

步骤一、信道关联的时频掩膜估计

首先，会根据手机端麦克风特点分为噪声信道或者语音信道，如图2，将上部麦克风定义为噪声信道，下部麦克风定义为语音信道。然后将语音信道采集得到的信号表达为：

式中，

SRM_f,t表示语音时频掩膜；

代表语音的功率谱；

代表噪声功率谱；

代表输入的带噪语音功率谱；

α是时频掩膜的全局能量调节系数；

将语音信道采集得到的信号表达为：

式中，

NRM_f,t表示语音时频掩膜；

代表语音的功率谱；

代表噪声功率谱；

代表输入的带噪语音功率谱；

α是时频掩膜的全局能量调节系数；

步骤二、波束形成滤波器构建

首先，根据步骤一中得到的语音时频掩膜计算得到语音协方差矩阵和噪声协方差矩阵：

式中，R_noise代表噪声协方差矩阵；

R_signal代表语音协方差矩阵；

P_f,t代表信号的功率谱；

代表噪声的时频掩膜；

代表语音的时频掩膜。

然后，对语音协方差矩阵和噪声协方差矩阵进行广义特征值分解，并将最大的特征值对应的特征向量定义为滤波器参数：

R_signalw_f＝λR_noisew_f (5)

式中，λ代表广义特征值分解的特征值；

w_f代表广义特征值分解的特征向量。

然后，将得到的滤波器参数进行后置归一化滤波，得到最终的滤波器参数：

式中，M代表麦克风的数量。

最终，将滤波器作用于输入信号，便得到增强后语音信号：

优选例2：

信道关联的时频掩膜估计步骤：将噪声分量丰富的信道称为噪声信道，将语音分量丰富的信道称为语音信道；使用神经网络训练时频掩膜分类器；使用噪声信道输入信号和神经网络估算噪声时频掩膜，使用语音信道输入信号和神经网络估算语音时频掩膜；

所述信道关联的时频掩膜估计步骤包括：

时频掩膜估计器训练步骤：利用纯语音和纯噪声训练神经网络分类器，神经网络的输入为语音、噪声，输出为语音掩膜值及噪声掩膜值；

时频掩膜估计步骤：使用训练好的神经网络分类器估计时频掩膜值，输入为语音、噪声或带噪语音信号，输出为语音掩膜值及噪声掩膜值。

所述波束形成滤波器构建骤包括：

参数归一化步骤：根据最优滤波器参数，使用后置归一化滤波，对输入多通道信号的各个频率输入增益归一化处理，输出无失真信号。

所述语音降噪增强步骤：

根据本发明提供的一种信道关联的时频掩膜估计方法，包括以下步骤：

所述时频掩膜估计器训练步骤包括：

损失计算步骤：结合输入数据标签及神经网络正向传播的结果，计算神经网络结果与标签之间的误差值(即一一判别结果与标签是否不同，并统计不同值占整体的比重)，并计算损失函数值；

迭代训练步骤：根据损失函数值，重复上述损失计算步骤和反向传播步骤，当损失函数值不再下降时停止，得到训练完成的时频掩膜模型。

所述时频掩膜估计步骤包括：