CN115346545B

CN115346545B - 一种基于测量域噪声相减的压缩感知语音增强方法

Info

Publication number: CN115346545B
Application number: CN202210968581.2A
Authority: CN
Inventors: 雷雪林; 雷厚涛; 朱晓攀; 余亭
Original assignee: Hangzhou Yuluo Network Technology Co ltd
Current assignee: Hangzhou Yuluo Network Technology Co ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2023-03-21
Anticipated expiration: 2042-08-12
Also published as: CN115346545A

Abstract

本发明涉及一种基于测量域噪声相减的压缩感知语音增强方法，该方法包括：将带噪语音信号通过测量矩阵映射到测量域中，对测量域中不含语音信息的信号进行帧平均处理获得噪声估计信号，将测量域中的带噪语音信号减去噪声估计信号获得纯净语音信号，采用压缩感知算法对纯净语音信号进行重构及处理，获得增强的语音信号。本发明方法在压缩感知算法重构之前，从测量域混合(语音和噪声)信号分量中减去噪声分量，以此来减少噪声的影响从而实现了更加准确的语音信号重构。

Description

一种基于测量域噪声相减的压缩感知语音增强方法

技术领域

本发明涉及语音增强领域，特别涉及一种基于测量域噪声相减的压缩感知语音增强方法。

背景技术

自人类文明开始以来，语音一直是日常生活和工作交流的主要形式。但是在实际情境中，来自餐厅、市场和工厂等环境的附加背景噪声会对语音信号造成污染。当噪声强度较大时，还会掩盖真实的语音信号，使信息的交流变得困难。当人与人在噪声严重的环境下进行交流时，为了对抗其他声音的干扰，不得不拉近交流的距离或者提高交流的声音，这使得交流者发音器官和听觉***的负担加重。近年来，由于人工智能技术的兴起，智能***和设备的出现方便了人们的生活。语音是人与智能设备进行人机交互时最便捷、最准确的方式，但是环境中噪声会大大降低智能设备中语音识别***的性能。因此，如何降低噪声对人与人或人与***之间的干扰，从带噪语音信号中恢复出纯净信号一直都是研究的热点和重点。

语音增强技术就是针对语音通信过程中的噪声干扰问题，抑制带噪语音信号中的噪声，从而获得纯净的语音信号。作为语音信号处理领域的经典研究课题，语音增强技术已经被许多学者广泛研究。语音增强算法也从最初的单通道语音增强算法扩展到麦克风阵列增强算法，由最初的时域研究扩展到变换域研究。目前，常用的传统语音增强算法有谱减法、相位补偿算法、子空间算法、听觉掩蔽效应算法等。自压缩感知(compressed sensing)理论被提出之后，针对稀疏信号的重构算法在语音信号处理领域得到了一定的发展。大多数的信号，包括语音信号，在某个特定的变换域上都是稀疏的。利用语音信号的稀疏性，压缩感知可以通过从带噪语音中重建稀疏分量来估计纯净语音的稀疏表示。基于压缩感知技术的语音增强现已经取得一些研究成果，但是，这些方法中还存在一些问题需要解决。目前的研究大多数是针对平稳的噪声，针对非平稳的噪声，重构性能不佳。此外，当输入带噪信号的信噪比较低，即噪声能量相对较大时，该方法的重构质量下降。综上所述，针对基于压缩感知的语音增强技术，如何提高重构算法的重构性能是一个亟待解决的科学问题。

发明内容

本发明的目的在于克服压缩感知重构语音信号中的噪声干扰的问题，提出一种基于测量域噪声相减的压缩感知语音增强方法。该方法是在压缩感知算法重构之前，从测量域混合(语音和噪声)信号分量中减去噪声分量，以此来减少噪声的影响从而实现更加准确的语音信号重构。

为达到上述目的，本发明通过下述技术方案实现。

本发明提出了一种基于测量域噪声相减的压缩感知语音增强方法，该方法包括：

将带噪语音信号通过测量矩阵映射到测量域中得到测量域中的带噪语音信号，对测量域中不含语音信息的信号进行帧平均处理获得噪声估计信号，将测量域中的带噪语音信号减去噪声估计信号获得纯净语音信号，再采用压缩感知算法对纯净语音信号进行重构及处理，获得增强的语音信号。

作为上述技术方案的改进之一，所述方法包括以下步骤：

S1.将带噪语音信号通过测量矩阵映射到测量域中；

S2.对测量域的每一帧信号逐帧判断是否含有语音信息：不含语音信息的信号为静音帧，含有语音信息的信号为语音帧；

S3.对于判断得到的第一个静音帧进行帧平均处理，获得噪声估计信号；

S4.继续判断下一帧是否含有语音信息，若下一帧为静音帧，则对该静音帧与上一帧静音帧共同进行帧平均处理并更新噪声估计信号；若下一帧为语音帧，则步骤S3获得的噪声估计信号为该语音帧的噪声估计信号，转至步骤S6；

S5.重复步骤S4，直到下一帧为语音帧；

S6.对下一帧的语音帧进行噪声相减得到纯净语音帧；

S7.采用压缩感知算法对语音帧进行重构；

S8.对重构语音帧的频谱进行逆短傅里叶变化得到增强的语音帧；

S9.重复步骤S3-S8，得到完整的增强的语音信号。

作为上述技术方案的改进之一，所述步骤S1包括以下步骤：

S1-1.将带噪语音信号进行语音分割；

S1-2.将带燥语音信号进行短时傅里叶变换映射到频域中，选择测量矩阵，将目标信号通过测量矩阵映射到测量域中。

作为上述技术方案的改进之一，所述步骤S1-1中，使用Hamming窗函数对目标信号进行语音分割。

作为上述技术方案的改进之一，所述步骤S2中，采用语音活动检测技术判断测量域的每一帧信号是否含有语音信息。

作为上述技术方案的改进之一，所述步骤S3和S4中，对于语音信号，由于初始的几帧不包含语音信息，即判断为静音信号，故对初始静音帧的噪声估计信号进行估计，表达式为：

其中，

为第i次测量的噪声估计信号，f表示帧索引，N_IS表示静音帧的长度，测量次数M为对于语音信号前几帧静音信号的测量次数，由测量矩阵Φ决定，Φ∈R^M×N，R为实数，R^M×N表示由实数构成的M行N列的矩阵，Y_x(i,f)表示第i次测量第f帧噪声语音x在测量域的投影，i＝1,2,......,M-1,M。

作为上述技术方案的改进之一，所述步骤S4中对噪声估计信号不断更新，以及步骤S5中得到的最终噪声估计信号，均满足下式：

其中，

为第j次测量的噪声估计信号，

为第j-1次测量的噪声估计信号，j＝M+1,M+2,......，Y_x(j,f)表示第j次测量第f帧噪声语音x在测量域的投影，N_S表示静音帧的总数。

作为上述技术方案的改进之一，所述步骤S6.对下一帧的语音帧进行噪声相减得到纯净语音帧，表达式为：

其中，

表示测量域中第f帧的估计噪声信号，Y^f表示测量域与f帧的估计噪声信号对应的语音帧，且

表示与测量域Y^f对应的带噪语音帧，Φ表示测量矩阵，

表示测量域噪声相减后的纯净语音帧。

本发明与现有技术相比优点在于：

1、针对基于压缩感知的语音增强技术，如何提高重构算法的重构性能是一个亟待解决的科学问题，本申请提出了从测量域混合信号中减去噪声分量，并对如何获得噪声分量进行了合理估计，以此来较少噪声的影响从而实现更加准确的语音信号重构，提高压缩感知算法的重构性能；

2、基于测量域混合信号减去噪声分量的思想，可以有效的降低重构时噪声的干扰，实现更为准确的信号重构，因此，针对输入信号信噪比较低(噪声能量相对较大)的情况，本申请方法具有更好的重构性能。

附图说明

图1为压缩感知的数学模型；

图2为压缩感知的流程图；

图3为本发明基于测量域相减的压缩感知语音增强方法流程图；

图4为纯净语音和输入为0dB白噪声时语音的波形图，其中，图4(a)为纯净语音(原始信号)的波形图，图4(b)为输入为0dB白噪声时语音(带噪语音信号)的波形图；

图5为采用两种算法(OMP算法和本发明基于测量域噪声相减的OMP算法)输出语音的波形图，其中，图5(a)为采用压缩感知正交匹配追踪(OMP)算法输出的语音信号波形图，图5(b)为采用本发明基于测量域噪声相减的压缩感知正交匹配追踪(OMP)算法输出的语音信号波形图；

图6为添加不同信噪比白噪声的情况下两种算法输出的信噪比(SNR)和感知语音质量评价(PESQ)对比图，其中，图6(a)为添加不同信噪比白噪声的情况下两种算法输出的SNR对比图，图6(b)为添加不同信噪比白噪声的情况下两种算法输出的PESQ对比图；

图7为添加不同信噪比粉红噪声的情况下两种算法输出的SNR和PESQ对比图，其中，图7(a)为添加不同信噪比粉红噪声的情况下两种算法输出的SNR对比图，图7(b)为添加不同信噪比粉红噪声的情况下两种算法输出的感知语音质量评价PESQ对比图。

具体实施方式

下面结合附图给出本发明的实施流程，以详细说明本发明的技术方案。

1、压缩感知基本原理

压缩感知是一种根据信号的稀疏性而提出来的采样方法，它突破了奈奎斯特采样定理的限制，以远低于信号带宽两倍的速率进行采样，再使用优化算法可以将数据恢复出来。压缩感知的数学模型如图1所示，该模型可表示为：

y＝Φx (1)

其中，x表示长度为N的一维信号向量，x∈R^N；y表示测量值，为长度为M的向量，y∈R^M；Φ表示测量矩阵，Φ∈R^M×N。压缩感知采样方法针对的信号是稀疏的，信号在稀疏域中表示为：

x＝Ψs (2)

其中，Ψ为正交稀疏基矩阵，Ψ∈R^N×N；s是信号在稀疏基上的稀疏向量，s∈R^N，其中有K<<N个非零值。结合公式(1)和公式(2)可得：

y＝ΦΨs (3)

压缩感知的主要目的是通过公式(3)逆向求解稀疏信号s，从而恢复目标信号x。该求解问题可以转化为求解最小化l₀范数的问题，即：

然而求解l₀范数最小化的问题是一个较为困难的NP-Hard的问题，Candes和Donoho等人指出，当测量矩阵满足有限等距性质(Restricted Isometry Property,RIP)条件时，求解l₀范数最小化的问题可以转化为l₁最小范数下的最优化问题，其求解模型为：

压缩感知的流程如图2所示，目标信号经过测量矩阵映射和稀疏变换后，采用压缩感知重构算法将目标信号恢复出来。现有的压缩感知语音增强方法是以测量域中混合(语音和噪声)信号分量来估计纯净的语音信号，当噪声能量增加时，会导致信号重构的质量下降。为了提高噪声能量较大情况下的压缩感知语音增强方法的性能，本文提出了一种基于测量域噪声相减的方法，即在信号重构之前，估计并减去测量域中的噪声信号分量，以此来实现更为准确的信号重构。

2、基于测量域噪声相减的压缩感知语音增强方法

在语音信号中，假设带噪信号为x，纯净语音信号为x_s，加性噪声为x_n，则带噪语音信号可表示为：

x＝x_s+x_n (6)

对等式(6)同时进行短时的傅里叶(Short-time Fourier Transform,STFT)变换得：

X＝X_s+X_n (7)

其中X、X_s、X_n分别表示频域上的带噪语音信号、纯净语音信号和噪声。将信号映射到压缩感知的测量域(综合公式(2)、(3)和(7))为：

Y＝ΦX＝ΦX_s+ΦX_n＝ΦΨS_s+ΦΨS_n＝Y_s+Y_n (8)

其中Y_s、Y_n分别表示纯净语音和噪声在测量域中的向量，即X_s、X_n在测量域中的投影。由式(8)可知，在压缩感知算法进行信号重构时，选用的向量Y是测量域混合信号分量(Y_s+Y_n)，其中噪声信号分量Y_n会造成重构质量下降。由于Y_s、Y_n是通过在测量矩阵Φ上独立投影得来的，所以为了提高重构质量，我们可以在测量域中减去噪声分量，选择测量域纯净语音分量进行压缩感知算法重构。

基于测量域相减的压缩感知语音增强过程如图3所示，主要分为测量域映射和语音信号重构两个部分。首先，使用Hamming窗函数对目标信号进行语音分割，对于分割的每一帧信号，进行STFT变换到频域。同时，利用语音活动检测(Voice Activity Detection,VAD)技术来判断当前帧信号是否含有语音信息，并将整段信号分为语音帧和静音帧(不含语音信息)。语音活动检测(VAD)又称语音端点检测，主要利用端点识别技术将有效的语音信号和静音信号或者噪声信号进行分离，使得后续的语音识别、语义识别、语音增强等工作更加高效。常见的语音活动检测的算法有双门限法、频谱熵法、自相关法、时频方差法等，本文使用双门限法进行语音端点检测。一般情况下，VAD具有二进制输出。当特征值超过端点检测阈值，VAD的输出为1，否则，VAD的输出为0。测量域中的噪声是通过对静音语音信号进行帧平均来估计的。通常假设语音信号的前100-300ms不包含语音信息。本文假设前250ms信号为初始静音信号，则可以使用第一个N_IS静音帧来估计噪声，即：

其中，f表示帧索引，M表示测量次数，Y_x表示噪声语音x在测量域的投影。后续再检测到静音帧f(VAD(f)＝0)时更新

因此，测量域的帧平均噪声估计可表示为：

其中，N_S表示静音帧的总数。

在估计测量域中的噪声后，将VAD掩码函数M应用于频谱X得：

X_m＝MX (11)

其中，掩码函数M为：

其中，b(b＝1……B)是频率区间索引，f(f＝1……F)是帧索引，乘法以元素的方法执行。对每个语音帧进行测量域噪声相减，如下所示：

其中，Y^f和

分别表示测量域中f帧的信号Y和估计噪声信号，且

表示测量域噪声相减后的f帧纯净语音信号。

在测量域进行噪声相减后，应用压缩感知正交匹配追踪算法(OrthogonalMatching Pursuit，OMP)进行信号的重构，即：

其中，

为估计稀疏信号

的第f帧，Ψ为稀疏基矩阵，本文选择傅里叶矩阵作作为稀疏基矩阵。则测量域噪声相减的频谱表示为：

其中，

和

分别表示第f帧的

和X_m。最后增强的语音信号

可以通过对频谱

进行逆短时傅里叶变换(Inverse Short-time Fourier Transform,ISTFT)得到。算法1详细的说明看基于测量域噪声相减的语音增强的过程。

以下结合实施例进一步说明本发明所提供的技术方案。

实施例

通过仿真与实验相结合的方法展示本申请的技术效果。

如图3所示，为本发明实施例1采用的基于测量域相减的压缩感知语音增强方法流程图。

本次实施例采用的纯净语音为NOIZEUS语音库中的男性语音，相关语句为：“Thebirch canoe slid on the smooth planks”，文件名为“sp01.wav”，时长为2.67s，采样率为8000Hz。

叠加的噪声为白噪声和粉红噪声，对噪声进行下采样为8000Hz。语音帧长N＝256，帧移为128。仿真软件为MATLAB 2021b。为了验证基于测量域噪声相减的OMP算法的有效性，选用传统的OMP算法(对比)和所提出的算法对带噪语音进行语音增强。

图4为原始纯净语音和输入为0dB白噪声时语音的波形图，其中，图4(a)为纯净语音(原始信号)的波形图，图4(b)为输入为0dB白噪声时语音(带噪语音信号)的波形图。图5为OMP算法和基于测量域相减的OMP算法输出语音的波形图，其中，图5(a)为采用压缩感知正交匹配追踪(OMP)算法输出的语音信号波形图，图5(b)为采用本发明基于测量域噪声相减的压缩感知正交匹配追踪(OMP)算法输出的语音信号波形图。语音的波形图说明，传统的OMP算法虽然能在一定程度上进行语音增强，但是对于噪声的抑制作用相对较差。本文提出的基于测量域相减的OMP算法重构出的语音更加纯净和准确。对比传统的OMP算法，所提出的算法在噪声抑制方面明显增强。

对于语音增强的结果，常用的评价指标还有输出信噪比(SNR)和感知语音质量评价(PESQ)。为了进一步的验证基于测量域噪声相减的OMP算法性能，本文分别计算了两种算法在不同信噪比下的白噪声和粉红噪声时的SNR和PESQ。图6表示分别添加-10dB、-5dB、0dB、5dB和10dB信噪比白噪声的情况下，两种算法输出的SNR和PESQ，其中，图6(a)为添加不同信噪比白噪声的情况下两种算法输出的SNR对比图，图6(b)为添加不同信噪比白噪声的情况下两种算法输出的PESQ对比图；图7表示分别添加-10dB、-5dB、0dB、5dB和10dB信噪比粉红噪声的情况下，两种算法输出的SNR和PESQ，其中，图7(a)为添加不同信噪比粉红噪声的情况下两种算法输出的SNR对比图，图7(b)为添加不同信噪比粉红噪声的情况下两种算法输出的感知语音质量评价PESQ对比图。图6、图7表明，在噪声类型不同，噪声程度不同的情况下，对比OMP算法，基于测量域相减的OMP语音增强算法重构出的语音质量更好。总体来说，本文所提出的方法具有更好降噪能力和重构性能。

从上述对本发明的具体描述可以看出，本发明方法在压缩感知算法重构之前，从测量域混合(语音和噪声)信号分量中减去噪声分量，以此来减少噪声的影响从而实现了更加准确的语音信号重构。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于测量域噪声相减的压缩感知语音增强方法，其特征在于，该方法包括：

将带噪语音信号通过测量矩阵映射到测量域中得到测量域中的带噪语音信号，对测量域中不含语音信息的信号进行帧平均处理获得噪声估计信号，将测量域中的带噪语音信号减去噪声估计信号获得纯净语音信号，再采用压缩感知算法对纯净语音信号进行重构及处理，获得增强的语音信号；

所述方法包括以下步骤：

S1.将带噪语音信号通过测量矩阵映射到测量域中；

S5.重复步骤S4，直到下一帧为语音帧；

S6.对下一帧的语音帧进行噪声相减得到纯净语音帧；

S7.采用压缩感知算法对语音帧进行重构；

S9.重复步骤S3-S8，得到完整的增强的语音信号；

所述步骤S1包括以下步骤：

S1-1.将带噪语音信号进行语音分割；

S1-2.将带燥语音信号进行短时傅里叶变换映射到频域中，并基于语音活动检测的输出创建一个掩码函数，并将掩码函数应用于带噪语音信号的频谱图后，选择测量矩阵，将目标信号通过测量矩阵映射到测量域中；

所述步骤S1-1中，使用Hamming窗函数对目标信号进行语音分割。

2.根据权利要求1所述的基于测量域噪声相减的压缩感知语音增强方法，其特征在于，所述步骤S2中，采用语音活动检测技术判断测量域的每一帧信号是否含有语音信息。

3.根据权利要求2所述的基于测量域噪声相减的压缩感知语音增强方法，其特征在于，所述步骤S3和S4中，对于语音信号，由于初始的几帧不包含语音信息，即判断为静音信号，故对初始静音帧的噪声估计信号进行估计，表达式为：

其中，

为第i次测量的噪声估计信号，f表示帧索引，N_IS表示静音帧的长度，测量次数M为对于语音信号前几帧静音信号的测量次数，由测量矩阵Φ决定，Φ∈R^M×N，R为实数，R^M ^×N表示由实数构成的M行N列的矩阵，Y_x(i,f)表示第i次测量第f帧噪声语音x在测量域的投影，i＝1,2,......,M-1,M。

4.根据权利要求3所述的基于测量域噪声相减的压缩感知语音增强方法，其特征在于，所述步骤S4中对噪声估计信号不断更新，以及步骤S5中得到的最终噪声估计信号，均满足下式：

其中，

为第j次测量的噪声估计信号，

5.根据权利要求4所述的基于测量域噪声相减的压缩感知语音增强方法，其特征在于，所述步骤S6.对下一帧的语音帧进行噪声相减得到纯净语音帧，表达式为：

其中，

表示与测量域Y^f对应的带噪语音帧，Φ表示测量矩阵，

表示测量域噪声相减后的纯净语音帧。