CN113257284B

CN113257284B - 语音活动检测模型训练、语音活动检测方法及相关装置

Info

Publication number: CN113257284B
Application number: CN202110641762.XA
Authority: CN
Inventors: 郝洋; 丁文彪; 卢鑫
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-11-02
Anticipated expiration: 2041-06-09
Also published as: CN113257284A

Abstract

本发明实施例提供了一种语音活动检测模型训练、语音活动检测方法及相关装置，所述语音活动检测模型训练方法包括获取语音活动检测训练数据集，包括语音活动检测训练音频帧特征和基准语音活动类别，其中，所述语音活动检测训练音频帧特征通过训练完成的音频特征提取模型，基于所述语音活动检测训练音频帧获取；利用所述语音活动检测模型，根据所述语音活动检测训练音频帧特征，获取所述语音活动检测训练音频帧的训练语音活动类别，优化所述语音活动检测模型，直至得到训练完成的所述语音活动检测模型，可以避免训练得到的语音活动检测模型的过拟合，可以提高训练完成的所述语音活动检测模型的鲁棒性。

Description

语音活动检测模型训练、语音活动检测方法及相关装置

技术领域

本发明实施例涉及语音检测领域，尤其涉及一种语音活动检测模型训练、语音活动检测方法及相关装置。

背景技术

语音活动检测在语音识别领域运用广泛，目的是从声音信号流里识别和消除长时间的静音期。语音活动检测的结果进一步可用于说话时长统计。去除静音部分之后的语音片段也可以用于语音识别，从而得到文本信息等等。

因此，语音活动检测的质量好坏，对声学信号的相关任务与后续依赖文本的任务均有重要影响。

语音活动检测的一个重要难点是如何将人类说话的声音信号(人声)与环境中不属于人类说话的干扰声音信号(噪声)相区分。

现实场景中的噪声类别较多，例如生活环境中常见的咳嗽声、音乐声、物品碰撞声等等，多样化的噪声提高了语音活动检测的难度。现有技术中的语音活动检测方法效果也并不理想。

所以，如何提高语音活动检测类别的效果，就成为本领域技术人员急需解决的技术问题。

发明内容

本发明实施例解决的技术问题是如何提高语音活动检测的效果。

为解决上述问题，本发明实施例提供了一种语音活动检测模型训练方法，包括：

获取语音活动检测训练数据集，所述语音活动检测训练数据集包括语音活动检测训练音频的语音活动检测训练音频帧的语音活动检测训练音频帧特征和所述语音活动检测训练音频帧的基准语音活动类别，其中，所述语音活动检测训练音频帧特征通过训练完成的音频特征提取模型，基于所述语音活动检测训练音频帧获取，训练所述音频特征提取模型所用特征提取训练数据集中的类别数量大于所述基准语音活动类别的类别数量；

利用所述语音活动检测模型，根据所述语音活动检测训练音频帧特征，获取所述语音活动检测训练音频帧的训练语音活动类别；

根据所述训练语音活动类别和所述基准语音活动类别，获取所述语音活动检测模型的语音活动检测损失，根据所述语音活动检测损失，优化所述语音活动检测模型，直至所述语音活动检测语音活动检测语音活动检测损失满足预定的语音活动检测损失阈值，得到训练完成的所述语音活动检测模型。

本发明实施例还提供了一种语音活动检测方法，包括：

获取待检测语音活动音频帧对应的待检测语音活动音频帧特征；

利用所述语音活动检测模型训练方法训练所得的所述语音活动检测模型，基于所述待检测语音活动音频帧特征，得到所述待检测语音活动音频帧对应的语音活动检测类别。

本发明实施例还提供了一种语音活动检测模型训练装置，包括：

语音活动检测训练数据集获取模块，适于获取语音活动检测训练数据集，所述语音活动检测训练数据集包括语音活动检测训练音频帧的语音活动检测训练音频帧特征和所述语音活动检测训练音频帧的基准语音活动类别，其中，所述语音活动检测训练音频帧特征通过训练完成的音频特征提取模型，基于所述语音活动检测训练音频帧获取；

训练语音活动类别获取模块，适于利用所述语音活动检测模型，根据所述语音活动检测训练音频帧特征，获取所述语音活动检测训练音频帧的训练语音活动类别；

语音活动检测模型优化模块，适于根据所述训练语音活动类别和所述基准语音活动类别，获取所述语音活动检测模型的语音活动检测损失，根据所述语音活动检测损失，优化所述语音活动检测模型，直至所述语音活动检测损失满足预定的语音活动检测损失阈值，得到训练完成的语音活动检测模型。

本发明实施例还提供了一种语音活动检测装置，包括：

待检测语音活动音频帧特征获取模块，适于获取待检测语音活动音频帧对应的待检测语音活动音频帧特征；

语音活动检测类别获取模块，适于利用所述语音活动检测模型训练方法训练所得的所述语音活动检测模型，基于所述待检测语音活动音频帧特征，得到所述待检测语音活动音频帧对应的语音活动检测类别。

本发明实施例还提供了一种存储介质，所述存储介质存储有适于语音活动检测模型训练的程序，以实现所述语音活动检测模型训练方法，或者所述存储介质存储有适于语音活动检测的程序，以实现所述语音活动检测方法。

本发明实施例还提供了一种电子设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行所述语音活动检测模型训练方法或者所述语音活动检测方法。

与现有技术相比，本发明实施例的技术方案具有如下优点：

本发明实施例所提供的语音活动检测模型训练方法，包括获取语音活动检测训练数据集，所述语音活动检测训练数据集包括语音活动检测训练音频帧的语音活动检测训练音频帧特征和所述语音活动检测训练音频帧的基准语音活动类别，其中，所述语音活动检测训练音频帧特征通过训练完成的音频特征提取模型，基于所述语音活动检测训练音频帧获取，训练所述音频特征提取模型所用特征提取训练数据集中的类别数量大于所述基准语音活动类别的类别数量；然后利用所述语音活动检测模型，根据所述语音活动检测训练音频帧特征，获取所述语音活动检测训练音频帧的训练语音活动类别，最后根据所述训练语音活动类别和所述基准语音活动类别，获取所述语音活动检测模型的语音活动检测损失，根据所述语音活动检测损失，优化所述语音活动检测模型，直至所述语音活动检测损失满足预定的语音活动检测损失阈值，得到训练完成的所述语音活动检测模型。

可以看出，利用本发明实施例所提供的语音活动检测模型训练方法，在训练所述语音活动检测模型前，先通过训练完成的音频特征提取模型，提取语音活动检测训练音频帧的语音活动检测训练音频帧特征，然后再利用所述语音活动检测训练音频帧特征，获取所述训练语音活动类别，通过所述训练语音活动类别和所述语音活动检测训练音频帧的基准语音活动类别，训练所述语音活动检测模型，得到训练完成的语音活动检测模型，音频特征提取模型和语音活动检测模型分别进行训练，可以降低训练得到的语音活动检测模型的过拟合的概率，并且训练所述音频特征提取模型所用特征提取训练数据集中的类别数量大于所述基准语音活动类别的类别数量，能够使得音频特征提取模型提取的语音活动检测训练音频帧特征更为准确，提高训练完成的所述语音活动检测模型的鲁棒性（健壮度，耐用性），可以适用于各种不同类别音频的语音活动检测，进而提高利用训练完成的所述语音活动检测模型所得到的语音活动检测结果的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的语音活动检测模型训练方法的流程示意图；

图2为本发明实施例所提供的语音活动检测模型训练方法中音频特征提取模型的训练步骤的流程示意图；

图3为本发明实施例所提供的语音活动检测模型训练方法中获取特征提取训练数据集的流程示意图；

图4为本发明实施例所提供的语音活动检测方法的流程示意图；

图5为本发明实施例所提供的语音活动检测训练装置的示意图；

图6为本发明实施例所提供的语音活动检测装置的示意图；

图7为本发明实施例所提供的电子设备的示意图。

具体实施方式

由背景技术可知，现有的语音活动检测的准确性较差。

为解决上述问题，本发明实施例所提供的语音活动检测模型训练方法，包括获取语音活动检测训练数据集，所述语音活动检测训练数据集包括语音活动检测训练音频帧的语音活动检测训练音频帧特征和所述语音活动检测训练音频帧的基准语音活动类别，其中，所述语音活动检测训练音频帧特征通过训练完成的音频特征提取模型，基于所述语音活动检测训练音频帧获取，训练所述音频特征提取模型所用特征提取训练数据集中的类别数量大于所述基准语音活动类别的类别数量；然后利用所述语音活动检测模型，根据所述语音活动检测训练音频帧特征，获取所述语音活动检测训练音频帧的训练语音活动类别，最后根据所述训练语音活动类别和所述基准语音活动类别，获取所述语音活动检测模型的语音活动检测损失，根据所述语音活动检测损失，优化所述语音活动检测模型，直至所述语音活动检测损失满足预定的语音活动检测损失阈值，得到训练完成的所述语音活动检测模型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例所提供的语音活动检测模型训练方法的流程示意图。

本发明实施例提供了一种语音活动检测模型训练方法，包括：

步骤S11:训练音频特征提取模型。

本发明实施例所提供的语音活动检测模型训练方法，利用音频特征提取模型获取语音活动检测模型训练所需要语音活动检测训练数据集，为此，需要首先进行音频特征提取模型的训练。

容易理解的是，所述音频特征提取模型可以提取输入的音频的特征，从而后续可以利用所提取的特征进行语音活动检测类别，具体地，音频特征提取模型提取语音活动检测训练音频的各个音频帧（即语音活动检测训练音频帧）的语音活动检测训练音频帧特征。

在一种具体实施方式中，音频特征提取模型的训练可以在语音活动检测模型训练之前的任何时刻完成，在进行语音活动检测模型训练时，直接拿来使用；在其他实施方式中，音频特征提取模型可以在需要进行语音活动检测模型训练时，再进行训练。

为描述方便，本发明以需要进行语音活动检测模型训练时，首先进行训练音频特征提取模型的训练进行说明：

具体所述音频特征提取模型的训练方法可以根据需要选择。在一种具体实施方式中，请参考图2，图2为本发明实施例所提供的语音活动检测模型训练方法中训练音频特征提取模型步骤的流程示意图。

所述步骤S11:训练音频特征提取模型的步骤可以包括：

步骤S111：获取特征提取训练数据集。

所述特征提取训练数据集包括特征提取音频帧和所述特征提取音频帧的基准自然类别。

其中，所述基准自然类别可以为所述特征提取音频帧的具体种类，例如鸣笛声、鼠标点击声、钢琴声、人声等等声音的具体种类。

在一种具体实施方式中，请参考图3，图3为本发明实施例所提供的语音活动检测模型训练方法中获取特征提取训练数据集的流程示意图。

所述步骤S111：获取特征提取训练数据集可以包括：

步骤S1111：使用窗函数、设定时窗值和设定帧移，得到特征提取音频的各音频帧对应的所述特征提取音频频谱。

具体的，所述窗函数可以根据需要选择。利用所述窗函数进行处理，可以减少频谱的泄露。

在一种具体实施方式中，所述窗函数可以选用汉宁窗、海明窗等等窗函数。当所述窗函数可以选用汉宁窗时，所得的特征提取音频频谱可以同时具有很好的频率分辨率和较少的频谱泄露。

所述设定视窗值为每一段音频帧的长度。所述设定视窗值也可以根据需要设置。在一种具体实施方式中，设定时窗值可以为25ms-50ms，例如25ms、30ms或40ms。

当然，所述设定帧移也可以根据需要设置。所述帧移为帧与帧之间的重叠部分长度，选取合适的帧移可以满足信号连续的要求。在一种具体实施方式中，设定帧移可以为5ms-20ms，例如10ms。

步骤S1112：将所述特征提取音频频谱映射到滤波器组中计算所述特征提取音频频谱对应的特征提取音频声谱。

其中，所述滤波器组可以根据需要选择。

在一种具体实施方式中，所述滤波器组包括梅尔滤波器组，所述特征提取音频声谱包括特征提取音频梅尔声谱。

具体的，梅尔声谱的频率与实际频率的变化公式为：Fmel(f)=1125ln(1+f/700)，其中，F_mel为音频频谱的梅尔频率，f是音频频谱的实际频率。

因为人耳所听到的声音的高低与声音的频率并不成线性正比关系，通过采用所述梅尔滤波器组，所得到的特征提取音频声谱可以更好地符合人耳的听觉特征。

步骤S1113：将所述特征提取音频声谱进行倒谱分析，得到所述特征提取音频频谱对应的频率倒谱系数。

具体地，当特征提取音频声谱包括特征提取音频梅尔声谱时，所述频率倒谱系数可以包括梅尔频率倒谱系数。通过进行倒谱分析，得到的所述特征提取音频频谱对应的频率倒谱系数可以很好的反应所述特征提取音频频谱的特征。

步骤S1114：利用所述特征提取音频数据的频率倒谱系数，得到所述特征提取音频帧。

其中，可以直接将所得到的各个音频帧所对应的所述特征提取音频频谱对应的频率倒谱系数，作为所述特征提取音频帧。

在另一种具体实施方式中，也可以将所得到的各个音频帧所对应的所述特征提取音频频谱对应的频率倒谱系数进行组合，得到所述特征提取音频帧。

所以，所述利用所述特征提取音频数据的频率倒谱系数，得到所述特征提取音频帧的步骤可以包括将至少两组连续的所述特征提取音频数据的所述频率倒谱系数进行组帧，得到组合频率倒谱系数，作为所述特征提取音频帧。

步骤S1115：利用根据事先获取的所述特征提取音频的基准自然类别，对所述特征提取音频帧进行标记，得到所述特征提取音频帧和所述特征提取音频帧的基准自然类别，即所述特征提取训练数据集。

通过一系列步骤对所述特征提取音频进行处理，得到的所述特征提取音频帧可以在大幅降低数据量的同时，可以很好地保留所述特征提取音频的特征，便于后续处理。

步骤S112：利用所述音频特征提取模型的特征提取层，获取所述特征提取音频帧的特征提取音频帧特征。

为了实现对于音频特征提取模型的训练，首先利用音频特征提取模型的特征提取层，获取特征提取音频帧特征。

其中，所述音频特征提取模型包括特征提取层和自然类别层，所述特征提取层适于提取音频中的特征，所述自然类别层可以通过提取所述特征提取音频帧特征，得出输入音频的训练自然类别，当然，所述训练自然类别的种类可以与所述特征提取音频的所述基准自然类别的种类保持一致。

具体的，所述音频特征提取模型的结构可以根据需要选择，在一种具体实施方式中，所述音频特征提取模型的结构可以采用VGGish模型，包括多个卷积层、池化层和全连接层，以及一个Softmax分类器，其中，多个卷积层、池化层和全连接层的部分作为特征提取层，输入为音频帧，所得结果为一个4096维的向量，可以作为输入的音频帧的特征向量，即特征提取音频帧特征；所述Softmax分类器，则作为所述的自然类别层，输入为所述特征提取层输出的特征向量，输出则为多种分类（可以为1000种，也可以根据需要调整）的概率值或者具体分类结果，可以作为输入的音频帧的类别。

当然，所述音频特征提取模型结构的具体参数也可以根据需要调整。

步骤S113：根据所述特征提取音频帧特征，利用所述音频特征提取模型的自然类别层，获取所述特征提取音频帧的训练自然类别。

如上所述，所述自然类别层可以通过所述特征提取音频帧特征，得出输入音频的训练自然类别。

步骤S114：根据所述训练自然类别和所述基准自然类别获取音频特征提取模型的自然类别损失。

所述自然类别损失可以反映所述训练自然类别和所述基准自然类别的重合程度。

步骤S115：判断所述自然类别损失是否满足预定的自然类别损失阈值，如果否，执行步骤S116；如果是，执行步骤S117。

当所述自然类别损失满足预定的自然类别损失阈值时，可以认为所述音频特征提取模型的准确率达到一定程度，可以满足要求，则执行步骤S117。

当所述自然类别损失不满足预定的自然类别损失阈值时，可以认为所述音频特征提取模型的准确率还未满足要求，需要继续进行优化，则执行步骤S116。

步骤S116：根据所述自然类别损失，优化所述音频特征提取模型；然后执行步骤S112。

以自然类别损失作为参考，进一步优化音频特征提取模型，调整音频特征提取模型种的参数。

其中，优化所述音频特征提取模型时，可以根据需要选用不同类别的损失函数。在一种具体实施方式中，所采用的自然类别损失可以选用交叉熵损失函数，优化效果较好。

优化所述音频特征提取模型时的学习率可以根据需要选择，在一种具体实施方式中，优化所述音频特征提取模型时的学习率小于0.001，可以避免调整跨度过大，优化效果较好。

步骤S117：得到训练完成的所述音频特征提取模型。

利用上述方法训练得到的所述音频特征提取模型，可以很好地提取音频中的音频特征。进而下游任务可以利用所提取的音频特征，进行语音活动检测类别，可以明可以避免下游任务所用模型的过拟合，相比于直接使用下游具体任务的数据进行网络训练的方法，所得结果质量更高。

步骤S12：获取语音活动检测训练数据集。

所述语音活动检测训练数据集包括语音活动检测训练音频帧的语音活动检测训练音频帧特征和所述语音活动检测训练音频帧的基准语音活动类别，其中，所述语音活动检测训练音频帧特征通过训练完成的音频特征提取模型，基于所述语音活动检测训练音频帧获取。

所述语音活动检测训练数据集可以通过语音活动检测训练音频处理获得，语音活动检测训练数据集中的音频可以不同于特征提取训练数据集。

基于所述语音活动检测训练音频帧，通过训练完成的音频特征提取模型，获取所述语音活动检测训练音频帧特征。

具体的，在一种具体实施方式中，语音活动检测训练音频处理的具体方式可以参考前述图3的描述，即所述步骤S12：获取语音活动检测训练数据集的步骤包括：

首先：使用窗函数、设定时窗值和设定帧移，得到语音活动检测训练音频的各音频帧对应的所述语音活动检测训练音频频谱。

具体的，所述窗函数可以根据需要选择。在一种具体实施方式中，所述窗函数可以选用汉宁窗、海明窗等等窗函数。

当然，所述设定视窗值也可以根据需要设置。在一种具体实施方式中，设定时窗值可以为25ms-50ms，例如25ms、30ms或40ms。

当然，所述设定帧移也可以根据需要设置。在一种具体实施方式中，设定帧移可以为5ms-20ms，例如10ms。

然后，将所述语音活动检测训练音频频谱映射到滤波器组中计算所述语音活动检测训练音频频谱对应的到语音活动检测训练音频声谱。

其中，所述滤波器组可以根据需要选择。

在一种具体实施方式中，所述滤波器组包括梅尔滤波器组，所述语音活动检测训练音频声谱包括语音活动检测训练音频梅尔声谱，所述频率倒谱系数包括梅尔频率倒谱系数。

其次：将所述语音活动检测训练音频声谱进行倒谱分析，得到所述语音活动检测训练音频频谱对应的频率倒谱系数。

通过进行倒谱分析，得到的所述语音活动检测训练音频频谱对应的频率倒谱系数可以很好的反应所述语音活动检测训练音频频谱的特征。

再次：用所述语音活动检测训练音频数据的频率倒谱系数，得到所述语音活动检测训练音频帧。

其中，可以直接将所得到的所述语音活动检测训练音频频谱对应的频率倒谱系数，作为所述语音活动检测训练音频帧。

在另一种具体实施方式中，也可以将所得到的所述语音活动检测训练音频频谱对应的频率倒谱系数进行组合，得到所述语音活动检测训练音频帧。

所以，所述利用所述语音活动检测训练音频数据的频率倒谱系数，得到所述语音活动检测训练音频帧的步骤可以包括将至少两组连续的所述语音活动检测训练音频数据的所述频率倒谱系数进行组帧，得到组合频率倒谱系数，作为所述语音活动检测训练音频帧。

然后，利用根据事先获取的所述语音活动检测训练音频的基准语音活动类别，对所述语音活动检测训练音频帧进行标记，得到所述语音活动检测训练音频帧和所述语音活动检测训练音频帧的基准语音活动类别。

通过一系列步骤对所述语音活动检测训练音频进行处理，得到的所述语音活动检测训练音频帧可以在大幅降低数据量的同时，可以很好地保留所述语音活动检测训练音频的特征，便于后续特征提取。

所述基准语音活动类别的类别可以根据需要选择。

其中，所述基准自然类别的类别数量可以大于所述基准语音活动类别的类别数量。

由于标记有所述基准自然类别（例如鸣笛声、鼠标点击声、钢琴声等等声音的具体种类）的数据集的数据规模很大，音频的类别也比较详细；而标记有噪声类和非噪声类等语音活动检测类别的语音活动检测类别数据集的规模较小，而且自行标记的成本也比较高。因此可以利用标记有所述基准自然类别的数据集的训练所述音频特征提取模型，而仅用所述语音活动检测类别数据集的训练所述语音活动检测模型，可以降低成本，并且提高训练的准确性。

例如，所述基准语音活动类别可以至少包括噪声类和非噪声类，因为区分噪声类和非噪声类，可以便于后续进行去噪处理。

当然，进一步地，所述非噪声类可以包括人声类和静音类，其中，静音类的声音强度小于预设的静音判断阈值。将所述非噪声类划分为人声类和静音类。可以便于去除静音部分，提取人声部分，进行后续的语音识别等处理。

最后：利用所述音频特征提取模型，提取所述语音活动检测训练音频帧的语音活动检测训练音频帧特征，得到语音活动检测训练数据集。

如上所述，步骤S11已经得到训练完成的所述音频特征提取模型，因此可以利用训练完成的所述音频特征提取模型的特征提取层提取所述语音活动检测训练音频帧的语音活动检测训练音频帧特征，所述语音活动检测训练音频帧特征可以很好地代表所述语音活动检测训练音频帧的信息，所述语音活动检测训练音频帧的语音活动检测训练音频帧特征和所述语音活动检测训练音频帧的基准语音活动类别构成所述语音活动检测训练数据集。

步骤S13:利用所述语音活动检测模型，根据所述语音活动检测训练音频帧特征，获取所述语音活动检测训练音频帧的训练语音活动类别。

所述语音活动检测模型适于根据输入的音频特征，得到其对应的语音活动检测类别。

可以理解的是，所述训练音频的类别可以与所述基准语音活动类别的类别保持一致。

步骤S14:根据所述训练语音活动类别和所述基准语音活动类别，获取所述语音活动检测模型的语音活动检测损失。

得到训练语音活动类别后，就可以获取训练语音活动类别和基准语音活动类别的差别，即语音活动检测损失，容易理解的是，所述语音活动检测损失可以反映所述训练语音活动类别和所述基准语音活动类别的重合程度。

步骤S15:判断语音活动检测损失是否满足预定的语音活动检测损失阈值，如果是，执行步骤S17；如果否，执行步骤S16。

所述语音活动检测损失损失满足预定的语音活动检测损失阈值时，可以认为所述语音活动检测模型的准确率达到一定程度，可以满足要求。

当所述语音活动检测损失不满足预定的语音活动检测损失阈值时，可以认为所述语音活动检测模型的准确率还未满足要求，需要继续进行优化，执行步骤S16。

步骤S16：根据所述语音活动检测损失，优化所述语音活动检测模型，然后执行步骤S13。

其中，优化所述语音活动检测模型时，可以根据需要选用不同类别的损失函数。一种具体实施方式中，所采用的语音活动检测损失可以选用交叉熵损失函数，优化效果较好。

另外，优化所述语音活动检测模型时的学习率也可以根据需要选择，在一种具体实施方式中，所述优化所述语音活动检测模型的学习率小于等于0.002，优化效果较快的同时效果也较好。

步骤S17：得到训练完成的所述语音活动检测模型。

请参考图4，图4为本发明实施例所提供的语音活动检测方法的流程示意图，本发明实施例还提供了一种语音活动检测方法，包括：

步骤S21：获取待检测语音活动音频帧对应的待检测语音活动音频帧特征。

可以利用训练完成的所述音频特征获取模型，获取待检测语音活动音频帧对应的待检测语音活动音频帧特征。

所述待检测语音活动音频帧根据待检测语音活动音频获取，获取方法与所述特征提取音频帧、语音活动检测训练音频帧的获取方法相同，具体如下：

首先，使用窗函数、设定时窗值和设定帧移，得到待检测语音活动音频的各音频帧对应的所述待检测语音活动音频频谱。

其次，将所述待检测语音活动音频频谱映射到滤波器组中计算所述待语音活动检测训练音频频谱对应的到待语音活动检测训练音频声谱。

其中，所述滤波器组可以根据需要选择。

在一种具体实施方式中，所述滤波器组包括梅尔滤波器组，所述待检测语音活动音频声谱包括待语音活动检测训练音频梅尔声谱，所述频率倒谱系数包括梅尔频率倒谱系数。

再次，将所述待检测语音活动音频声谱进行倒谱分析，得到所述待检测语音活动音频频谱对应的频率倒谱系数。

通过进行倒谱分析，得到的所述待检测语音活动音频频谱对应的频率倒谱系数可以很好的反应所述待检测语音活动音频频谱的特征。

然后，利用所述待检测语音活动音频数据的频率倒谱系数，得到所述待检测语音活动音频帧。

其中，可以直接将所得到的所述待检测语音活动音频频谱对应的频率倒谱系数，作为所述待检测语音活动音频帧。

在另一种具体实施方式中，也可以将所得到的所述待检测语音活动音频频谱对应的频率倒谱系数进行组合，得到所述待检测语音活动音频帧。

所以，所述利用所述待检测语音活动音频数据的频率倒谱系数，得到所述待检测语音活动音频帧的步骤可以包括将至少两组连续的所述待检测语音活动音频数据的所述频率倒谱系数进行组帧，得到组合频率倒谱系数，作为所述待检测语音活动音频帧。

通过一系列步骤对所述待语音活动检测训练音频进行处理，得到的所述待检测语音活动音频帧可以在大幅降低数据量的同时，可以很好地保留所述待检测语音活动音频的特征，便于后续特征提取。

最后，利用训练完成的所述音频特征提取模型，获取所待检测语音活动音频帧对应的待检测语音活动音频帧特征。

如上所述，可以利用训练完成的所述音频特征提取模型提取所述待检测语音活动音频帧的待检测语音活动音频帧特征，所述待检测语音活动音频帧特征可以很好地代表所述待检测语音活动音频帧的信息。

步骤S22:利用所述语音活动检测模型训练方法训练所得的所述语音活动检测模型，基于所述待检测语音活动音频帧特征，得到所述待检测语音活动音频帧对应的语音活动检测类别。

具体的，所述语音活动检测类别的类别可以和所述基准语音活动类别、所述语音活动类别保持一致。

可以看出，利用本发明实施例所提供的语音活动检测方法，先通过训练完成的音频特征提取模型，提取待检测语音活动音频帧的待检测语音活动音频帧特征，然后再利用训练完成的所述语音活动检测模型，根据所述待检测语音活动音频帧特征，获取所述语音活动检测类别，相对于现有技术中直接利用语音活动检测模型获取语音活动检测类别的方案，可以避免语音活动检测模型的过拟合，对各种不同类别音频的适应性较好，准确度也比较高。

下面对本发明实施例提供的语音活动检测模型训练装置和语音活动检测装置进行介绍，下文描述的语音活动检测模型训练装置和语音活动检测装置可以认为是，电子设备（如：PC）为分别实现本发明实施例提供的语音活动检测模型训练方法和语音活动检测方法所需设置的功能模块架构。下文描述的语音活动检测模型训练装置和语音活动检测装置的内容，可分别与上文描述的语音活动检测模型训练方法和语音活动检测方法的内容相互对应参照。

请参考图5，图5为本发明实施例所提供的语音活动检测模型训练装置的示意图，本发明实施例提供了一种语音活动检测模型训练装置，包括：

语音活动检测训练数据集获取模块22，适于获取语音活动检测训练数据集，所述语音活动检测训练数据集包括语音活动检测训练音频的语音活动检测训练音频帧的语音活动检测训练音频帧特征和所述语音活动检测训练音频帧的基准语音活动类别，其中，所述语音活动检测训练音频帧特征通过训练完成的音频特征提取模型11，基于所述语音活动检测训练音频帧获取，所述基准自然类别的类别数量大于所述基准语音活动类别的类别数量；

训练语音活动类别获取模块23，适于利用所述语音活动检测模型12，根据所述语音活动检测训练音频帧特征，获取所述语音活动检测训练音频帧的训练语音活动类别；

语音活动检测模型优化模块24，适于根据所述训练语音活动类别和所述基准语音活动类别，获取所述语音活动检测模型12的语音活动检测损失，根据所述语音活动检测损失，优化所述语音活动检测模型12，直至所述语音活动检测损失满足预定的语音活动检测损失阈值，得到训练完成的所述语音活动检测模型12。

本发明实施例所提供的语音活动检测模型训练装置，利用音频特征提取模型11获取语音活动检测模型训练所需要语音活动检测训练数据集，为此，需要首先进行音频特征提取模型11的训练。

容易理解的是，所述音频特征提取模型11可以提取输入的音频的特征，从而后续可以利用所提取的特征进行语音活动检测类别，具体地，音频特征提取模型11提取语音活动检测训练音频的各个音频帧（即语音活动检测训练音频帧）的语音活动检测训练音频帧特征。

在一种具体实施方式中，所述音频特征提取模型11的训练可以在语音活动检测模型训练之前的任何时刻完成，在进行语音活动检测模型训练时，直接拿来使用；当然，在其他实施方式中，所述音频特征提取模型11也可以在需要进行语音活动检测模型训练时，再进行训练。

可以看出，利用本发明实施例所提供的语音活动检测模型训练装置，在训练所述语音活动检测模型12前，先通过训练完成的音频特征提取模型11，提取语音活动检测训练音频帧的语音活动检测训练音频帧特征，然后再利用所述语音活动检测训练音频帧特征，获取所述训练语音活动类别，通过所述训练语音活动类别和所述语音活动检测训练音频帧的基准语音活动类别，训练所述语音活动检测模型12，得到训练完成的语音活动检测模型12，音频特征提取模型11和语音活动检测模型12分别进行训练，可以降低训练得到的语音活动检测模型12的过拟合的概率，并且训练所述音频特征提取模型11所用特征提取训练数据集中的类别数量大于所述基准语音活动类别的类别数量，能够使得音频特征提取模型11提取的语音活动检测训练音频帧特征更为准确，提高训练完成的所述语音活动检测模型12的鲁棒性（健壮度，耐用性），可以适用于各种不同类别音频的语音活动检测，进而提高利用训练完成的所述语音活动检测模型12所得到的语音活动检测类别结果的准确度。

在一种具体实施方式中，还包括：音频特征提取模型训练模块21，所述音频特征提取模型训练模块21包括：

特征提取训练数据集获取单元211，适于获取特征提取训练数据集，所述特征提取训练数据集包括特征提取音频帧和所述特征提取音频帧的基准自然类别；

特征提取音频帧特征获取单元212，适于利用所述音频特征提取模型11的特征提取层，获取所述特征提取音频帧的特征提取音频帧特征；

训练自然类别获取单元213，适于根据所述特征提取音频帧特征，利用所述音频特征提取模型11的自然类别层，获取所述特征提取音频帧的训练自然类别，其中，所述训练自然类别的类别数量大于所述训练语音活动类别的类别数量；

音频特征提取模型优化单元214，适于根据所述训练自然类别和所述基准自然类别获取音频特征提取模型11的自然类别损失，根据所述自然类别损失，优化所述音频特征提取模型11，直至所述自然类别损失满足预定的自然类别损失阈值，得到训练完成的所述音频特征提取模型11；

所述语音活动检测训练数据集获取模块22适于通过音频特征提取模型11的特征提取层，基于所述语音活动检测训练音频帧获取所述语音活动检测训练音频帧特征。

其中，所述基准自然类别可以为所述特征提取音频帧的具体种类，例如鸣笛声、鼠标点击声、钢琴声、人声等等声音的具体种类。其中，所述基准自然类别的类别数量可以大于所述基准语音活动类别的类别数量。

容易理解的是，利用上述方法训练得到的所述音频特征提取模型11，可以很好地提取音频中的音频特征。进而下游任务可以利用所提取的音频特征，进行语音活动检测类别，可以明可以避免下游任务所用模型的过拟合，相比于直接使用下游具体任务的数据进行网络训练的方法，所得结果质量更高。

可选的，所述基准语音活动类别的类别和所述训练语音活动类别的类别均至少包括噪声类和非噪声类。

可以实现对于噪声类和非噪声类音频的语音活动检测，便于后续进行去噪处理。

可选的，所述非噪声类包括人声类和静音类。

可以便于去除静音部分，提取人声部分，进行后续的语音识别等处理。

可选的，所述语音活动检测训练数据集获取模块22包括语音活动检测训练音频帧获取单元，适于：使用窗函数、设定时窗值和设定帧移，得到语音活动检测训练音频的各音频帧对应的所述语音活动检测训练音频频谱；

将所述语音活动检测训练音频频谱映射到滤波器组中计算所述语音活动检测训练音频频谱对应的语音活动检测训练音频声谱；

将所述特征提取音频声谱进行倒谱分析，得到所述特征提取音频频谱对应的频率倒谱系数；

利用所述特征提取音频数据的频率倒谱系数，得到所述特征提取音频帧。

可选的，所述滤波器组包括梅尔滤波器组，所述语音活动检测训练音频声谱包括语音活动检测训练音频梅尔声谱，所述频率倒谱系数包括梅尔频率倒谱系数。

所述语音活动检测训练音频梅尔声谱可以更好地符合人耳的听觉特征得到的结果，所述梅尔频率倒谱系数可以很好的反应所述特征提取音频频谱的特征。

可选的，所述语音活动检测训练音频帧获取单元，还适于：将至少两组连续的所述语音活动检测训练音频数据的所述频率倒谱系数进行组帧，得到组合频率倒谱系数，作为所述语音活动检测训练音频帧。

请参考图6，图6为本发明实施例所提供的语音活动检测装置的示意图，本发明实施例还提供了一种语音活动检测装置，包括：

待检测语音活动音频帧特征获取模块31，适于获取待检测语音活动音频帧对应的待检测语音活动音频帧特征；

语音活动检测类别获取模块32，适于利用所述语音活动检测模型训练方法训练所得的所述语音活动检测模型12，基于所述待检测语音活动音频帧特征，得到所述待检测语音活动音频帧对应的语音活动检测类别。

可以看出，利用本发明实施例所提供的语音活动检测装置，可以训练完成的音频特征提取模型，提取待检测语音活动音频帧的待检测语音活动音频帧特征，并利用训练完成的所述语音活动检测模型12，根据所述待检测语音活动音频帧特征，获取所述语音活动检测类别，相对于现有技术中直接利用语音活动检测模型12获取语音活动检测的方案，可以避免语音活动检测模型12的过拟合，对各种不同类别音频的适应性较好，准确度也比较高。

当然，本发明实施例还提供一种电子设备，本发明实施例提供的电子设备可以通过程序形式装载程序模块架构，以实现本发明实施例提供的语音活动检测模型训练方法和语音活动检测方法；该硬件设备可以应用于具体数据处理能力的电子设备，该电子设备可以为：例如终端设备或者服务器设备。

所以，请参照图7，图7为本发明实施例所提供的电子设备的示意图。

本发明实施例所提供的设备包括：至少一个存储器41和至少一个处理器42，所述存储器41存储一条或多条计算机可执行指令，所述处理器42调用所述一条或多条计算机可执行指令，以执行所述语音活动检测模型训练方法和语音活动检测方法。

可以理解的是，所述设备还可以包括至少一个通信接口43和至少一个通信总线44；处理器42和存储器41可以位于同一电子设备，例如处理器42和存储器41可以位于服务器设备或者终端设备；处理器42和存储器41也可以位于不同的电子设备。

本发明实施例中，电子设备可以是能够进行语音活动检测模型训练和语音活动检测的平板电脑、笔记本电脑等设备。

在本发明实施例中，处理器42、通信接口43、存储器41、通信总线44的数量为至少一个，且处理器42、通信接口43、存储器41通过通信总线44完成相互间的通信；显然，图中所示的处理器42、通信接口43、存储器41和通信总线44的通信连接示意仅是可选的一种方式。

可选的，通信接口43可以为通信模块的接口，如GSM模块的接口；处理器42可能是中央处理器CPU，或者是特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路；存储器41可以包含高速RAM存储器，也可以包括非易失性存储器，例如至少一个磁盘存储器。

需要说明的是，上述的设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件（未示出）；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

本发明实施例还提供了一种存储介质，所述存储介质存储一条或多条计算机可执行指令，所述一条或多条计算机可执行指令用于执行所述语音活动检测模型训练装置方法和语音活动检测方法。

本发明实施例所提供的存储介质所存储的计算机可执行指令，利用本发明实施例所提供的语音活动检测模型训练方法，在训练所述语音活动检测模型前，先通过训练完成的音频特征提取模型，提取语音活动检测训练音频帧的语音活动检测训练音频帧特征，然后再利用所述语音活动检测训练音频帧特征，获取所述训练语音活动类别，通过所述训练语音活动类别和所述语音活动检测训练音频帧的基准语音活动类别，训练所述语音活动检测模型，得到训练完成的语音活动检测模型，音频特征提取模型和语音活动检测模型分别进行训练，可以降低训练得到的语音活动检测模型的过拟合的概率，并且训练所述音频特征提取模型所用特征提取训练数据集中的类别数量大于所述基准语音活动类别的类别数量，能够使得音频特征提取模型提取的语音活动检测训练音频帧特征更为准确，提高训练完成的所述语音活动检测模型的鲁棒性（健壮度，耐用性），可以适用于各种不同类别音频的语音活动检测，进而提高利用训练完成的所述语音活动检测模型所得到的语音活动检测结果的准确度。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上，但本发明实施例并非限定于此。任何本领域技术人员，在不脱离本发明实施例的精神和范围内，均可作各种更动与修改，因此本发明实施例的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音活动检测模型训练方法，其特征在于，包括：

获取语音活动检测训练数据集，所述语音活动检测训练数据集包括语音活动检测训练音频的语音活动检测训练音频帧的语音活动检测训练音频帧特征和所述语音活动检测训练音频帧的基准语音活动类别，其中，所述语音活动检测训练音频帧特征通过训练完成的音频特征提取模型，基于所述语音活动检测训练音频帧获取，训练所述音频特征提取模所用特征提取训练数据集中的类别数量大于所述基准语音活动类别的类别数量；

根据所述训练语音活动类别和所述基准语音活动类别，获取所述语音活动检测模型的语音活动检测损失，根据所述语音活动检测损失，优化所述语音活动检测模型，直至所述音活动检测损失满足预定的语音活动检测损失阈值，得到训练完成的所述语音活动检测型；

所述音频特征提取模型的训练方法包括：获取特征提取训练数据集，所述特征提取训练数据集包括特征提取音频帧和所述特征提取音频帧的基准自然类别，其中，所述基准自然类别的类别数量大于所述基准语音活动类别的类别数量；利用所述音频特征提取模型的特征提取层，获取所述特征提取音频帧的特征提取音频帧特征；根据所述特征提取音频帧特征，利用所述音频特征提取模型的自然类别层，获取所述特征提取音频帧的训练自然类别；所述基准语音活动类别的类别和所述训练语音活动检测的类别均至少包括噪声类和非噪声类，所述基准自然类别和所述训练自然类别分别包括鸣笛声、鼠标点击声、钢琴声、人声中的至少一者。

2.如权利要求1所述的语音活动检测模型训练方法，其特征在于，所述训练自然类别的类别数量大于所述训练语音活动类别的类别数量，所述音频特征提取模型的训练方法还包括：

根据所述训练自然类别和所述基准自然类别获取音频特征提取模型的自然类别损失，根据所述自然类别损失，优化所述音频特征提取模型，直至所述自然类别损失满足预定的自然类别损失阈值，得到训练完成的所述音频特征提取模型；

所述语音活动检测训练音频帧特征通过音频特征提取模型基于所述语音活动检测练音频帧获取包括：

所述语音活动检测训练音频帧特征通过音频特征提取模型的特征提取层，基于所述语音活动检测训练音频帧获取。

3.如权利要求1所述的语音活动检测模型训练方法，其特征在于，所述非噪声类包括人声类和静音类。

4.如权利要求1-3任一项所述的语音活动检测模型训练方法，其特征在于，所述获取语音活动检测训练音频帧的步骤包括：

使用窗函数、设定时窗值和设定帧移，得到语音活动检测训练音频的各音

频帧对应的所述语音活动检测训练音频频谱；

将所述语音活动检测训练音频声谱进行倒谱分析，得到所述语音活动检测训练音频频谱对应的频率倒谱系数；

利用所述语音活动检测训练音频数据的频率倒谱系数，得到所述语音活动检测训练音频帧。

5.如权利要求4所述的语音活动检测模型训练方法，其特征在于，所述滤波器组包括梅尔滤波器组，所述语音活动检测训练音频声谱包括语音活动检测训练音频梅尔声谱，所述频率倒谱系数包括梅尔频率倒谱系数。

6.如权利要求4所述的语音活动检测模型训练方法，其特征在于，所述利用所述语音活动检测训练音频数据的频率倒谱系数，得到所述语音活动检测训练音频帧的步骤包括：

将至少两组连续的所述语音活动检测训练音频数据的所述频率倒谱系数进行组帧，得到组合频率倒谱系数，作为所述语音活动检测训练音频帧。

7.一种语音活动检测方法，其特征在于，包括：

利用权利要求1-6任一项所述的语音活动检测模型训练方法训练所得的所述语音活动检测模型，基于所述待检测语音活动音频帧特征，得到所述待检测语音活动音频帧对应的语音活动检测类别。

8.一种语音活动检测模型训练装置，其特征在于，包括：

语音活动检测模型优化模块，适于根据所述训练语音活动类别和所述基准语音活动类别，获取所述语音活动检测模型的语音活动检测损失，根据所述语音活动检测损失，优化所述语音活动检测模型，直至所述语音活动检测损失满足预定的语音活动检测损失阈值，得到训练完成的所述语音活动检测模型；

音频特征提取模型训练模块，所述音频特征提取模型训练模块包括：

特征提取训练数据集获取单元，适于获取特征提取训练数据集，所述特征提取训练数据集包括特征提取音频帧和所述特征提取音频帧的基准自然类别，其中，所述基准自然类别的类别数量大于所述基准语音活动类别的类别数量；

特征提取音频帧特征获取单元，适于利用所述音频特征提取模型的特征提取层，获取所述特征提取音频帧的特征提取音频帧特征；

训练自然类别获取单元，适于根据所述特征提取音频帧特征，利用所述音频特征提取模型的自然类别层，获取所述特征提取音频帧的训练自然类别；所述基准语音活动类别的类别和所述训练语音活动检测的类别均至少包括噪声类和非噪声类，所述基准自然类别和所述训练自然类别分别包括鸣笛声、鼠标点击声、钢琴声、人声中的至少一者。

9.如权利要求8所述的语音活动检测模型训练装置，其特征在于，所述训练自然类别的类别数量大于所述训练语音活动类别的类别数量，所述音频特征提取模型训练模块还包括：

音频特征提取模型优化单元，适于根据所述训练自然类别和所述基准自然类别获取音频特征提取模型的自然类别损失，根据所述自然类别损失，优化所述音频特征提取模型，直至所述自然类别损失满足预定的自然类别损失阈值，得到训练完成的所述音频特征提取模型；

所述语音活动检测训练数据集获取模块适于通过音频特征提取模型的特征提取层，基于所述语音活动检测训练音频帧获取所述语音活动检测训练音频帧特征。

10.一种语音活动检测装置，其特征在于，包括：

语音活动检测类别获取模块，适于利用权利要求1-6任一项所述的语音活动检测模型训练方法训练所得的所述语音活动检测模型，基于所述待检测语音活动音频帧特征，得到所述待检测语音活动音频帧对应的语音活动检测类别。

11.一种存储介质，其特征在于，所述存储介质存储有适于语音活动检测模型训练的程序，以实现如权利要求1-6任一项所述的语音活动检测模型训练方法，或者所述存储介质存储有适于语音活动检测的程序，以实现如权利要求8所述的语音活动检测方法。

12.一种电子设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求1-6任一项所述的语音活动检测模型训练方法或者如权利要求7所述的语音活动检测方法。