CN114566152B

CN114566152B - 一种基于深度学习的语音端点检测方法

Info

Publication number: CN114566152B
Application number: CN202210449438.2A
Authority: CN
Inventors: 刘文通
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-08
Anticipated expiration: 2042-04-27
Also published as: CN114566152A

Abstract

一种基于深度学习的语音端点检测方法，包括如下步骤：S1.采集高信噪比的目标人声作为原始数据集，构建训练集；S2.对训练集和原始数据集计算幅度谱；S3.构建初始深度学习训练网络进行训练，以训练集每一帧的幅度谱作为训练输入特征，以原始数据集的幅度谱作为训练目标；训练完成后，得到最终深度学习训练网络；S4.求取增益值和时域信号；S5.通过模型输出的增益值和制定的状态机机制对时域信号进行语音端点检测。本发明通过模型输出的增益值来间接进行端点检测有利于应对不同的环境，可以对增益值进行不同的后处理方式增强适应性。

Description

一种基于深度学习的语音端点检测方法

技术领域

本发明属于语音技术领域，涉及语音识别,具体涉及一种基于深度学习的语音端点检测方法。

背景技术

语音增强技术和语音端点检测技术可有效提升语音识别、语音通话任务的用户体验，语音增强技术可对复杂环境中噪音进行降噪处理，提高目标语音的清晰度，然而对于低信噪比和复杂噪音环境，传统的基于噪声估计的方法存在局限，无法有效滤除非稳态噪音。

语音端点检测技术可以有效的区分出语音片段和非语音片段，可以有效的降低需要处理的数据量，可有效减轻语音识别、语音通话任务的负荷，提升用户体验。传统的语音端点检测技术依赖于时域幅值、频域能量、过零率等语音特性，转换成不同的特征计算语音存在概率，进而判区分语音段和非语音段，通常在外界环境噪声较小的情况下，传统方法往往能取得较理想的结果，但当应用环境过于复杂时，其效果很难满足实际应用需求。

近年来，深度学习方法已成功应用于语音增强技术和语音端点检测任务，该方法表现出对复杂环境更好的建模能力。

发明内容

为克服现有技术存在的缺陷，提高在复杂环境下，提高***的抗噪性以及提高语音端点检测的适用性，本发明公开了一种基于深度学习的语音端点检测方法。

本发明所述基于深度学习的语音端点检测方法，其特征在于,包括如下步骤：

S1.采集高信噪比的目标人声作为原始数据集，通过对原始数据集进行数据增广，构建训练集；高信噪比是指目标语音高于背景噪声分贝值10dB以上；

S2.对训练集和原始数据集语料进行短时傅里叶变换，计算幅度谱；

S3.构建初始深度学习训练网络进行训练，以训练集每一帧的幅度谱作为训练输入特征，以原始数据集的幅度谱作为训练目标；

所述深度学习训练网络包括编码器和解码器，二者之间连接有两层GRU层；训练完成后，得到最终深度学习训练网络模型；

利用所述最终深度学习训练网络模型对待识别语料音频进行语音状态识别的具体方式为：

S4.利用最终深度学习训练网络模型求取待识别语料音频的增益值和语音增强后的时域信号；

S5.通过模型输出的增益值和制定的状态机机制对语音增强后的时域信号进行语音端点检测。

优选的，S4步骤具体为：

S41.对待识别语料音频进行短时傅里叶变换，获得变换后的实部A、虚部B和幅度谱；

S42.将待识别语料音频幅度谱作为最终深度学习训练网络的输入，通过最终深度学习训练网络输出增益值gain；

S43.将输出的增益值gain分别与实部A和虚部B相乘得到语音增强后的频谱，通过短时傅立叶逆变换，得到增强后输出的时域信号。

优选的，步骤S42中，通过增益值gain求取增益平均值，以增益平均值代替增益值代入后续步骤进行处理；

具体为，首先对增益值进行平滑处理，频点f 的增益值AsmoothGainf平滑后的增益值smoothGainf=α* AsmoothGainf+(1-α) gainf

下标f表示频点，α为平滑因子；

设置频段，频段起始频点为frebin_start，截止频点为frebin_end；

求取增益平均值

。

优选的，所述编码器部分采用三个卷积层，解码器采用三个反卷积层。

优选的，步骤S5具体为：

定义四个状态，其中START代表语音开始状态， ON代表语音持续状态， END代表语音结束状态， IDEL代表非语音状态；

定义两个判断条件，条件一为EG%的增益值都大于语音增益高门限thr_high；条件二为EG%的增益值小于语音增益低门限thr_low；

EG表示设定的增益值百分比，语音增益高门限和语音增益低门限为设定的门限值；

端点检测过程如下：

从起始帧开始逐帧检测，设置帧语音端点检测当前状态cur_state的初始状态为IDEL状态，采用条件一进行判断，若不满足，则cur_state保持为IDEL状态，若满足，则cur_state切换为START状态；

当上一帧的帧语音端点检测当前状态cur_state为START状态，切换判断条件为条件二，若不满足条件二, 则切换状态cur_state为ON状态，若满足条件二， cur_state切换为END状态；

则语音段的起点为语音端点检测当前状态为START的帧，终点为语音端点检测当前状态为END的帧；

当上一帧的帧语音端点检测当前状态cur_state为END状态时，切换判断条件成条件一，若不满足条件一，cur_state保持为IDEL状态，若满足条件一，那cur_state为START状态。

优选的，设置一个循环缓存区缓存多帧的语音增益值，检测过程中，第K个增益值依次覆盖第K-1个增益值，第M帧缓存的值由当前帧的语音增益值覆盖，K是2到M的整数，M为缓存区长度。

优选的，设置状态机机制对步骤S5的端点检测过程进行具体实现。

采用本发明所述基于深度学习的语音端点检测方法，利用编解码结构的深度学习训练网络增强对***的建模能力，相比于直接输出端点检测结果，通过模型输出的增益值来间接进行端点检测有利于应对不同的环境，可以对增益值进行不同的后处理方式来增强其适应性；利用状态机原理划分四个状态通过条件判断是否为语音以加强***的稳定性，保持语音段的持续性，同时利用输出增益值对输入信号的实部虚部相乘得到增强后的信号，可用于后续需要进行识别、通信等人机交互设备及应用中。

附图说明

图1为本发明所述语音端点检测方法的一个具体步骤流程示意图；

图2为本发明所述语音端点检测方法的一个具体实施方式示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述基于深度学习的语音端点检测方法，如图1所示，包括如下步骤：

S1. 采集高信噪比的目标人声作为原始数据集，通过对原始数据集进行数据增广，构建训练集；

所谓高信噪比,即本领域中目标语音显著高于背景噪声分贝值，例如可以是目标语音相对背景噪声大于15dB。

所述深度学习训练网络包括编码器和解码器，二者之间连接有两层GRU层；

一个具体实施方式中，编码器部分采用三个卷积层，其通道数分别为[32，32，64]，核大小和步长分别为[(3,2)，(3,2)，(3,2)]和（[(2,1)，(2,1)，(2,1)]，解码器采用三个反卷积层，其通道数分别为[64，32，32]；

训练完成后，得到最终深度学习训练网络。

利用所述最终深度学习训练网络对待识别语料音频进行语音状态识别的具体方式为：

S4.求取增益值和时域信号；

S42.将待识别语料音频幅度谱作为最终深度学习训练网络的输入，通过最终深度学习训练网络输出增益值gain，

一个优选实施方式为，步骤S42中，通过增益值gain求取增益平均值，以增益平均值代入后续步骤进行处理；

具体为，首先对增益值进行平滑处理，频点f 的增益值AsmoothGain_f平滑后的增益值

smoothGain_f=α* AsmoothGain_f+(1-α) gain_f

下表f表示频点，α为平滑因子，取α=0.92；

设置频段，频段起始频点为frebin_start，截止频点为frebin_end；

求取增益平均值

；

S43将输出的增益值gain分别与实部A和虚部B相乘得到语音增强后的频谱，通过短时傅立叶逆变换，得到时域信号；

即

下标f表示频点，

表示为语音增强后的实部，

表示为语音增强后的虚部，A_f 、B_f分别为频点f处对应的实部和虚部。

S5.通过模型输出的增益值gain和制定的状态机机制对语音增强后的时域信号进行语音端点检测；

定义四个状态，其中START代表语音开始状态， ON代表语音持续状态， END代表语音结束状态， IDEL代表非语音状态，这四个状态可以涵盖语音端点检测过程中不同帧的全部状态；

EG表示设定的增益值百分比，语音增益高门限和语音增益低门限为设定的门限值，一个典型设置方式为EG=80, thr_high=0.65, thr_low=0.1；

端点检测过程如下

可以设置状态机机制对上述端点检测过程进行具体实现，状态机机制运行过程如下：

对循环缓存区的值通过不同的判断条件进行统计判断，本实施例中设置两个条件进行语音帧和非语音帧的判断。

设置当前帧语音端点检测状态cur_state初始状态为IDEL状态，采用条件一进行判断，若不满足cur_state保持为IDEL状态，若满足，则cur_state切换为START状态；

当上一帧cur_state为START，表示此时处于语音段，后续需要语音判断何时结束，判断语音段和非语音段的条件不同，因此切换判断条件为条件二，若不满足条件二, 则切换状态cur_state为ON状态，若满足条件二， cur_state切换为END状态；

则语音段的起点为语音端点检测当前状态为START的帧，终点为语音端点检测当前状态为END的帧。

当上一帧cur_state为END时，此时处于非语音段，后续需要判断语音何时开始，因此切换判断条件成条件一，若不满足条件一， cur_state保持为IDEL状态，若满足条件一，那cur_state为START状态。

可通过一个循环缓存区statics_buf用来缓存M=20帧的语音增益值，实时运行过程中，缓存区中由新的第K个增益值覆盖已有的第K-1个增益值，K的范围是2到M，最后第M帧缓存的值由当前帧的语音增益值覆盖。

具体实施例：

S1.将高信噪比的目标人声作为原始数据集，通过对原始数据集进行数据增广，构建训练集，

本实施例中采用的数据增广方式为加噪加混响，加噪信噪比范围为[-10dB,-5dB,0dB,5dB]，混响时间RT60范围为0.1s-0.7s。

S2.对训练集和原始数据集语料进行短时傅里叶变换，设定帧长为32ms，帧移为16ms，傅里叶变换点数为512，

计算训练集和原始数据集的幅度谱,其中每一帧的幅度谱的维度为1*257。

S3. 以训练集每一帧的幅度谱,作为训练输入特征，以原始数据集的幅度谱作为训练目标，构建深度学习训练网络CED进行训练。

传统的CED是5层卷积层，同时网络的节点数比较大，与传统的CED网络不同，本发明对深度学习训练网络CED中的编码器和解码器进行了裁剪，编码器部分采用三个卷积层，其通道数分别为[32，32，64]，核大小和步长分别为[(3,2)，(3,2)，(3,2)]和（[(2,1)，(2,1)，(2,1)]，解码器采用三个反卷积层，其通道数分别为[64，32，32]，核大小和步长分别为[(3,2)，(3,2)，(3,2)]和（[(2,1)，(2,1)，(2,1)]；层数和节点数进行了裁剪，减轻网络模型复杂度，利于实时处理。

同时为了确保语音的实时性，避免延迟现象，该实施例中***当前的输出不会利用未来信息数据作为输入，若实际应用对实时性要求并不严苛，可以将未来信息数据作为输入。该网络模型结构上还加入扩展卷积用以增加感受野（Receptive Field），为了得到更快的收敛速度和更好的泛化能力，网络输出层采用指数线性单元（ELU）。在卷积神经网络中，感受野的定义是卷积神经网络每一层输出的特征图（feature map）上的像素点在输入图片上映射的区域大小,即特征图上的一个点对应输入图上的区域，

对于语音信息而言，上下文的关联性很重要，单独采用CED的网络结构无法有效利用上下文信息，而RNN（Recurrent Neural Network）网络内部的门控单元可以有效利用历史信息进行建模，GRU（Gated Recurrent Unit）作为一种特殊的RNN，可有效减少过拟合的风险，同时其参数量相比较于LSTM更少，

因此本文在编-解码器中加入两层GRU层，GRU层的节点数均为256，最后解码器的第三层反卷积层输出输出张量进行维度变换得到增益值gain，其维度为1*257，Adam优化器实现简单、适用性强，因此训练过程中采用Adam优化器，损失函数采用均方误差MSE(MeanSquared Error)，学习率为0.0003，一般当损失函数越小训练的模型性能也会相对更好，但考虑训练周期，往往当损失函数值稳定在多个训练周期下都不再下降时结束训练，以收敛作为训练结束的目标；训练结束后得到的模型用于语音增强和端点检测。整体网络结构如图2所示。

S4.对待识别语料音频进行短时傅里叶变换，获得变换后的实部A、虚部B和幅度谱，

将时域信号转换成频域信号后，待识别语料音频频域信号的实部和虚部用于计算频域信号的幅度谱。

将待识别语料音频幅度谱作为网络模型的输入，通过模型输出增益值gain，将模型输出的增益值gain分别与实部A和虚部B相乘可得到语音增强后的频谱，通过短时傅立叶逆变换，得到时域信号。

一个优选实施方式为，通过增益值gain求取增益平均值，以增益平均值代替增益值代入后续步骤进行处理；

其中通过增益值gain求取增益平均值，

在国际制定的数字电话机的通信标准中，人声频率范围集中在300-3400Hz，但在采用模拟或数字麦克风的应用中，人声频率范围表现的要更宽泛，因此本实施例选取200-4000Hz频段的增益值进行计算，对应增益值频段的起始频点为frebin_start=6，截止频点为frebin_end=128。

为加强***的稳定性，对增益值进行平滑处理，平滑后的增益值为

smoothGain_f=α* smoothGain_f+(1-α) gain_f

其中下表f表示频点，α为平滑因子，取α=0.92；

求取增益平均值

；

以求得的增益平均值替换增益值进行步骤S5；

S5.通过模型输出的增益值gain和制定的状态机机制进行语音端点检测。

上述具体实施例的流程如图2所示。

在复杂的环境中，***判别过程中的误判决以及目标语音中的轻音，是影响***稳定性的主要因素，因此为了增强***的稳定性，可通过制定状态机机制进行状态判断。

将语音端点检测过程中不同帧划分成4个状态，定义START为语音开始状态， ON代表处于语音持续状态， END代表语音结束状态， IDEL为非语音状态。

通过一个循环缓存区statics_buf用来缓存M=20帧的语音增益值，实时运行过程中，第K个增益值依次覆盖第K-1个增益值，K的范围是2到M，最后第M帧缓存的值由当前帧的语音增益值覆盖。

状态机机制运行过程如下：

对循环缓存区的值通过不同的判断条件进行统计判断，本实施例中设置两个条件进行语音帧和非语音帧的判断，条件一为80%的增益值都大于语音增益门限thr_high=0.65；条件二为80%的增益值小于语音增益门限thr_low=0.1。

设置帧语音端点检测当前状态cur_state初始状态为IDEL状态，采用条件一进行判断，若不满足cur_state保持为IDEL状态，若满足，则cur_state切换为START状态；

语音段的起点为语音端点检测当前状态为START的帧，终点为语音端点检测当前状态为END的帧，是否包含起点和终点，可根据检测需要决定。

当上一帧cur_state为NNVAD_END时，此时处于非语音段，后续需要判断语音何时开始，因此切换判断条件成条件一，若不满足条件一， cur_state保持为IDEL状态，若满足条件一，那cur_state为START状态。

通过实部虚部相乘增强频谱和端点检测持续进行，此时当获知语音的检测状态时，就可以判断当前语音段是否为语音，以方便语音识别等模块的有效运行，这里需要指出的是，状态机机制的方法理论上会存在M帧的延迟，因此在实际用于语音识别处理时，需对语音进行回退M帧处理。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于深度学习的语音端点检测方法，其特征在于,包括如下步骤：

S5.通过模型输出的增益值和制定的状态机机制对语音增强后的时域信号进行语音端点检测；

所述编码器部分采用三个卷积层，解码器采用三个反卷积层；

步骤S5具体为：

端点检测过程如下：

当上一帧的帧语音端点检测当前状态cur_state为END状态时，切换判断条件成条件一，若不满足条件一，cur_state保持为IDEL状态，若满足条件一，那cur_state为START状态，

设置一个循环缓存区缓存多帧的语音增益值，检测过程中，第K个增益值依次覆盖第K-1个增益值，第M帧缓存的值由当前帧的语音增益值覆盖，K是2到M的整数，M为缓存区长度。

2.如权利要求1所述的语音端点检测方法，其特征在于，S4步骤具体为：