CN113129872B

CN113129872B - 一种基于深度压缩感知的语音增强方法

Info

Publication number: CN113129872B
Application number: CN202110367869.XA
Authority: CN
Inventors: 康峥; 黄志华; 赖惠成
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2023-03-14
Anticipated expiration: 2041-04-06
Also published as: CN113129872A

Abstract

本发明公开了一种基于深度压缩感知的语音增强方法，所述方法包括以下步骤：步骤1：预处理训练数据，获取时域语音信号序列；步骤2：构建基于深度压缩感知的语音增强模型（SEDCS），并对其进行联合训练；步骤3：预处理带噪语音测试集，利用训练完成的SEDCS模型对其去噪与重构，并保存结果，完成语音增强任务；步骤4：采用多种评价指标对增强后语音信号的质量与可懂度进行评估。本发明将压缩感知结合深度学习实现语音增强，可摆脱传统压缩感知方法中对语音信号的稀疏性约束，解决传统压缩感知方法重构语音可懂度下降等问题，并且以语音信号的观测信号作为优化对象，有效提升了增强语音效率，降低了模型复杂度，能够更简便灵活地实现语音增强。

Description

一种基于深度压缩感知的语音增强方法

技术领域

本发明涉及语音信号处理的语音增强技术领域，尤其涉及一种基于深度压缩感知的语音增强方法。

背景技术

语音是人们交流的一种最自然、最快捷以及最高效的方式，但是在现实生活中语音往往会被各种各样的噪声所干扰，比如环境噪声，机械噪声等。这些噪声会不同程度地影响语音质量，从而导致语音可懂度下降。为解决这些问题，就需要应用到语音增强。语音增强是从带噪语音中提取干净语音的一种技术，是语音识别***中重要组成部分，其目的主要有两个，一是改善语音质量，二是提高语音可懂度。

现有的语音增强手段主要包括传统方法和深度学***稳的，但对于低信噪比和非平稳噪声下语音增强效果较差。所以鉴于这个问题，基于深度学***稳噪声下语音增强效果差的问题，但是压缩感知要求语音信号需满足特定结构，如语音信号必须是稀疏的，而语音信号在稀疏化过程中可能造成有效信息丢失，导致重构语音可懂度下降。

现有语音增强技术大多在时频域实现，数据处理后易造成相位信息丢失等问题；许多基于深度学习的语音增强技术虽然在时域实现了语音增强，为增强算法的研究提供了新的方向；基于传统压缩感知技术的语音增强方法受语音信号稀疏性的影响，导致重构语音可懂度下降。

发明内容

本发明主要以语音信号的观测信号作为优化对象解决现有语音增强技术存在的模型复杂、增强速率慢等问题，解决传统压缩感知方法重构语音可懂度下降的问题；本发明的目的是提供一种结合深度学习的压缩感知语音增强方法，通过该方法可以完成语音增强任务，提高语音增强速率，解决传统压缩感知方法重构语音可懂度下降的问题。

本发明的目的是通过以下技术方案实现。

一种基于深度压缩感知的语音增强方法，包括以下步骤：

步骤1：预处理训练数据：对训练数据进行预加重，配对以及分帧处理，获取时域语音信号序列；

步骤2：构建模型并训练：构建基于深度压缩感知的语音增强模型（SEDCS），设定合适的误差函数，将预处理后的语音训练集输入模型进行联合训练，将训练完成的SEDCS模型部署到服务器中；

步骤3：测试模型：对带噪语音测试集进行预处理，利用训练完成的SEDCS模型对其去噪，并重构获得去噪后语音信号，完成语音增强任务；

步骤4：评估模型：采用多种评价指标对增强后语音信号的质量与可懂度进行评估。

本发明的模型称为SEDCS模型，通过训练SEDCS模型，可在时域完成语音增强任务，避免时频域数据处理后相位信息丢失等问题，用户只需提供带噪语音文件即可快速获得增强语音；本发明可摆脱传统压缩感知方法中对语音信号的稀疏性约束，解决传统压缩感知方法重构语音可懂度下降等问题，更简便灵活地实现语音增强。

进一步的，步骤2中SEDCS模型由两个深度神经网络模型构建，分别称为生成模型G _θ和测量模型F _β：

生成模型G _θ代替压缩感知中信号稀疏过程，对输入的带噪语音信号进行映射，重构与干净语音信号相关的生成语音信号；

测量模型F _β代替压缩感知中测量矩阵实现信号观测降维过程，用于获得干净语音信号以及生成语音信号的观测信号，观测信号将被用作优化对象。

进一步的，步骤2中构成SEDCS模型的两个模型通过联合训练方式进行训练，在训练之前首先对训练集带噪语音进行优化，此过程可以使模型更快收敛，减少训练周期，优化方式采用梯度下降法，目标函数为：

其中

表示优化后的带噪语音信号，

表示干净语音信号，

表示带噪语音信号，

表示带噪语音信号通过生成模型后获得的生成语音信号，

和

表示语音信号通过测量模型后获得观测信号，

是权系数，在优化数据期间，生成模型和测量模型不更新，优化次数可指定。

进一步的，将优化后的带噪语音信号输入生成模型G _θ，然后再通过测量模型F _β获得观测信号，将观测信号作为优化对象，对两个模型进行联合训练优化，模型的目标函数分别为：

其中

表示添加的L₁正则化项的权重因子，

表示干净语音信号，

表示重构语音信号，基于深度压缩感知的语音增强方法的目标为

，即最小化模型总体目标函数。

联合训练方式以信号的观测信号作为优化对象，利用压缩感知的优势，用较少的数据使两个模型同时收敛，简化了训练过程，使重构语音信号能够快速逼近干净语音信号，有效解决现有语音增强技术增强速率慢的问题。

传统压缩感知的方法由于语音信号稀疏化的原因，使得重构语音可懂度下降，本发明的SEDCS模型利用深度神经网络代替稀疏过程和观测降维过程，在不需要考虑选择哪种稀疏基和哪种测量矩阵的同时，也能有效解决传统压缩感知方法中重构语音可懂度下降的问题。

进一步的，步骤3包括以下子步骤。

步骤3-1：预处理测试数据，对测试集的带噪语音信号进行预加重以及分帧处理，预加重因子及每帧尺寸与处理训练数据时的相同。

步骤3-2：增强语音：将预处理后的带噪语音信号输入训练完成的SEDCS模型，模型对每一小段语音进行去噪，并将其按照原始干净语音信号的顺序进行拼接重构，获得去噪后语音信号。

步骤3-3：保存结果：对去噪后语音信号进行去加重，并将最终获得的去噪语音信号保存在指定目录。

进一步的，步骤1和步骤3的数据预处理过程中预加重因子设置为0.95，帧长设置为16384个采样点，帧叠设置为1/2，即运用大小为16384*1，滑动步幅为0.5的窗对语音信号进行采样分帧，不足则补0。

进一步的，步骤3中利用训练完成的模型进行语音去噪处理时，不同带噪语音测试数据的噪声条件可能不同，应对未知噪声条件时模型可完成语音增强任务，说明本发明能够适应不同噪声场景，具有实用性。

进一步的，步骤4中多种评价指标包括：用于评价语音可懂度的指标：STOI；用于评价语音质量的指标：PESQ、CSIG、CBAK、COVL以及SSNR。其中STOI为短时客观可懂度，PESQ为感知语音质量评估，CSIG为针对语音信号失真的平均意见得分，CBAK为评测背景噪声干扰性的平均意见得分，COVL为总体增强效果的平均意见得分，SSNR为分段信噪比。通过这些评价指标，可准确有效地对模型进行评估。

采用上述方案，本发明的有益效果包括以下几点。

1.本发明提供一种基于深度压缩感知的语音增强方法，有效利用深度学习方法和压缩感知技术各自的优点，构建了结合深度学习的压缩感知语音增强模型，以语音信号的观测信号作为优化对象，有效提升了增强语音效率，降低了模型复杂度。

2.本发明采用联合训练方式训练模型，使带噪语音信号能够拟合干净语音信号，有效提升语音增强质量与可懂度。

3.本发明可以在不同的噪声条件下完成语音增强，具有较强的适应能力和一定的实用性。

附图说明

为进一步理解本发明实施例的技术方案，在此对附图加以说明，此处附图构成本申请的一部分，并不构成本发明实施例的限定。

在附图中：图1为本发明实施例提供的一种语音增强技术路线示意图。

具体实施方式

在此结合本发明实施例中的附图，对本发明实施例的目的、技术方案以及优点进行详细、完整地说明。在此所说明的实施例是本发明的一部分实施例，并非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音增强方法，通过联合训练的方式，获得SEDCS模型，在时域完成语音增强任务，既能解决现有语音增强技术存在的模型复杂、增强速率慢等问题，又能解决传统压缩感知方法重构语音可懂度下降等问题，更简便灵活地实现语音增强。

如图1所示，本发明实施例提供的一种语音增强技术路线图，其中包括以下步骤。

步骤1：预处理训练数据：对训练数据进行预加重，配对以及分帧处理，获取时域语音信号序列。

在数据预处理过程中预加重的主要作用是提升高频分量以防止重构语音质量受到影响，相应地，在输出端需进行去加重。在此预加重因子设置为0.95，帧长设置为16384个采样点，帧叠设置为1/2，即运用大小为16384*1，滑动步幅为0.5的窗对语音信号进行采样分帧，不足则补0。

步骤2：构建模型并训练：构建基于深度压缩感知的语音增强模型，设定合适的误差函数，将预处理后的语音训练集输入模型进行联合训练，将训练完成的SEDCS模型部署到服务器中。

SEDCS模型由两个深度神经网络模型构建，分别是生成模型G _θ和测量模型F _β。

生成模型G _θ代替压缩感知中信号稀疏过程，对输入的带噪语音信号进行映射，重构与干净语音信号相关的生成语音信号。

测量模型F _β代替压缩感知中测量矩阵实现信号观测降维过程，该模型的输入包括干净语音信号和生成语音信号，目的是获得干净语音信号以及生成语音信号的观测信号，观测信号将被用作优化对象。

模型构建完成后，通过联合训练方式进行训练，在训练之前首先对训练集带噪语音进行优化，在优化带噪语音期间，生成模型和测量模型不更新，优化次数可指定。

此过程可以使模型更快收敛，减少训练周期，优化方式采用梯度下降法，目标函数为：

其中

表示优化后的带噪语音信号，

表示干净语音信号，

表示带噪语音信号，

表示带噪语音信号通过生成模型后获得的生成语音信号，

和

表示语音信号通过测量模型后获得观测信号，

是权系数。

将优化后的带噪语音信号输入生成模型G _θ，然后再通过测量模型F _β获得观测信号，将观测信号作为优化对象，对两个模型进行联合训练优化，模型的目标函数分别为：

其中

表示添加的L₁正则化项的权重因子，

表示干净语音信号，

，即最小化模型总体目标函数。

联合训练方式以信号的观测信号作为优化对象，利用压缩感知的优势，用较少的数据使两个模型同时收敛，简化了训练过程，使重构语音信号能够快速逼近干净语音信号，有效解决现在语音增强技术增强速率慢的问题。

步骤3：测试模型：将带噪测试集的语音数据进行预处理，利用训练完成的SEDCS模型对其去噪，并重构获得去噪后语音信号，完成语音增强任务。

带噪测试集预处理方式与训练集预处理方式相同，即预加重因子仍选择0.95，帧长仍设置为16384个采样点，帧叠仍设置为1/2，运用大小为16384*1，滑动步幅为0.5的窗对语音信号进行采样分帧，不足则补0。

不同带噪语音测试数据的噪声条件可能不同，应对未知噪声条件时，模型也可以完成语音增强任务。

对保存的去噪语音进行评估，以此来评测模型性能。

评价指标包括：用于评价语音可懂度的指标：STOI；用于评价语音质量的指标：PESQ、CSIG、CBAK、COVL以及SSNR。其中STOI为短时客观可懂度，PESQ为感知语音质量评估，CSIG为针对语音信号失真的平均意见得分，CBAK为评测背景噪声干扰性的平均意见得分，COVL为总体增强效果的平均意见得分，SSNR为分段信噪比。通过这些评价指标，可准确有效地对模型进行评估。

本发明的一个实施例，评测模型一共采用了两个带噪测试集：

测试集一中噪声类型是5种与训练集不同的环境噪声，模拟在本模型应对未知环境噪声时，所获得的增强效果，同时证明本模型的有效性和可行性，实施例结果如表1所示；

测试集二中噪声类型是white、volvo以及babble，white噪声模拟平稳噪声环境，其他噪声模拟非平稳噪声环境，该测试集用于评测本方法是否解决了传统压缩感知方法中去噪语音可懂度下降的问题，实施例结果如表2所示。

表1 测试集一的不同指标得分情况：

指标	PESQ	SSNR	CSIG	CBAK	COVL	STOI
							带噪测试集得分	3.02	1.68	3.34	2.44	2.63	0.916
维纳增强方法得分	3.15	5.07	3.23	2.68	2.67	0.914
							本实施例方法得分	3.14	6.71	3.41	2.88	2.78	0.921

表2 测试集二PESQ和STOI的得分情况：

指标	带噪测试集得分	传统压缩感知方法得分	本实施例方法得分
				PESQ	2.09	2.24	2.31
STOI	0.781	0.685	0.794

为证明本发明有效性及可行性，本实施例还与利用维纳语音增强方法的结果进行比较。由表1发现，本实施例得分的PESQ虽然比维纳方法低0.01，但是其他指标得分均表现较优，说明本实施例可有效抑制噪声，改善语音质量，且适应不同噪声环境。

由表2发现，本实施例中得分均表现较优，且有一定提升，说明本实施例可解决传统压缩感知方法中可懂度下降的问题。

以上所述的具体实施方式对本发明的目的、技术路线和有益效果进行了进一步说明，并且仅为本发明具体实施方式以及较佳实施例，其不用以限制本发明，凡在本发明精神和原则之内，所做的任何修改、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度压缩感知的语音增强方法，其特征在于，包括以下步骤：

步骤2：构建模型并训练：构建基于深度压缩感知的语音增强模型SEDCS，设定合适的误差函数，将处理后的训练集语音信号输入模型进行联合训练，将训练完成的SEDCS模型部署到服务器中；

步骤3：测试模型：将带噪语音测试集进行预处理，利用训练完成的SEDCS模型对其去噪，并重构获得去噪后语音信号，完成语音增强任务；

步骤4：评估模型：采用多种评价指标对增强后语音信号的质量与可懂度进行评估；

所述步骤2的SEDCS模型由两个基于卷积神经网络的模型构建，分别是生成模型G _θ和测量模型F _β，具体结构如下：

2.根据权利要求1所述的一种基于深度压缩感知的语音增强方法，其特征在于，所述的构成SEDCS模型的两个模型通过联合训练方式进行训练，在训练之前首先对训练集带噪语音进行优化，优化方式采用梯度下降法，目标函数为：

其中

表示优化后的带噪语音信号，

表示干净语音信号，

表示带噪语音信号，

表示带噪语音信号通过生成模型后获得的生成语音信号，

和

表示语音信号通过测量模型后获得观测信号，

为权系数。

3.根据权利要求1所述的一种基于深度压缩感知的语音增强方法，其特征在于，将优化后的带噪语音信号输入生成模型G _θ，然后再通过测量模型F _β获得观测信号，将观测信号作为优化对象，对两个模型进行联合训练优化，模型的目标函数分别为：

其中

表示添加的L₁正则化项的权重因子，

表示干净语音信号，

，即最小化模型总体目标函数。

4.根据权利要求1所述的一种基于深度压缩感知的语音增强方法，其特征在于，所述步骤3包括以下子步骤：

步骤3-1：预处理测试数据，对测试集的带噪语音信号进行预加重以及分帧处理，预加重因子及每帧尺寸与处理训练数据时的相同；

步骤3-2：增强语音：将预处理后的带噪语音信号输入训练完成的SEDCS模型，模型对每一小段语音进行去噪，并将其按照原始干净语音信号的顺序进行拼接重构，获得去噪后语音信号；

步骤3-3：保存结果：对去噪后语音信号进行去加重，并将最终获得的去噪语音信号保存在指定位置。

5.根据权利要求1所述的一种基于深度压缩感知的语音增强方法，其特征在于，所述步骤1和步骤3的数据预处理过程中预加重因子设置为0.95，帧长设置为16384个采样点，帧叠设置为1/2，即运用大小为16384*1，滑动步幅为0.5的窗对语音信号进行采样分帧，不足则补0。

6.根据权利要求1所述的一种基于深度压缩感知的语音增强方法，其特征在于，所述步骤3中利用训练完成的模型进行语音去噪处理时，不同带噪语音测试数据的噪声条件不同，应对未知噪声条件时模型可完成语音增强任务。

7.根据权利要求1所述的一种基于深度压缩感知的语音增强方法，其特征在于，所述步骤4中评价指标包括：用于评价语音可懂度的指标：STOI；用于评价语音质量的指标：PESQ、CSIG、CBAK、COVL以及SSNR。