CN113270118B

CN113270118B - 语音活动侦测方法及装置、存储介质和电子设备

Info

Publication number: CN113270118B
Application number: CN202110529801.7A
Authority: CN
Inventors: 郝一亚; 阮良; 陈功; 李莹
Original assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2024-02-13
Anticipated expiration: 2041-05-14
Also published as: CN113270118A

Abstract

本发明的实施方式提供了一种语音活动侦测方法及装置、存储介质和电子设备。该语音活动侦测方法包括采集音频信号，确定音频信号的短时能量直方图；根据短时能量直方图，确定音频信号的底噪能量值；根据底噪能量值，确定出能量门限值；根据能量门限值和当前帧音频信号的能量值，确定第一语音活动侦测值，其中，第一语音活动侦测值用于表示当前帧音频的音频状态。本发明实施例的技术方案可以提高实时语音通信中的语音信号识别的准确性。

Description

语音活动侦测方法及装置、存储介质和电子设备

技术领域

本发明的实施方式涉及信息处理领域，更具体地，本发明的实施方式涉及语音活动侦测方法及装置、存储介质和电子设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

VAD(Voice Activity Detection，语音活动侦测)是一种从声音信号流里面识别出长时间静音期的信号处理技术。一个准确性高、鲁棒性好的VAD能够同时提升多个音频算法模块的性能。

在实时语音通信中，语音信号不可避免地受到环境噪声、空间混响和播放采集设备差异等的干扰，导致通过VAD识别语音信号的效果较差。

发明内容

在本上下文中，本发明的实施方式期望提供一种语音活动侦测方法及装置、音频处理模型训练方法及装置、存储介质和电子设备。

在本发明实施方式的第一方面中，提供了一种语音活动侦测方法，包括：

采集音频信号，确定所述音频信号的短时能量直方图；

根据所述短时能量直方图，确定所述音频信号的底噪能量值；

根据所述底噪能量值，确定出能量门限值；

根据所述能量门限值和当前帧音频信号的能量值，确定第一语音活动侦测值，其中，所述第一语音活动侦测值用于表示当前帧音频的音频状态。

在本发明的一些实施例中，确定所述音频信号的短时能量直方图包括：

使用预设短时段对预设时间段内的所述音频信号进行划分，确定划分后的每个所述预设短时段对应的短时能量；

使用直方图统计所述短时能量，获得所述短时能量直方图。

在本发明的一些实施例中，根据所述短时能量直方图，确定所述音频信号的底噪能量值包括：

对所述短时能量直方图的包络进行拟合，获得短时能量包络图；

将所述短时能量包络图中峰值所对应的短时能量值中最小的短时能量值，确定为所述底噪能量值。

在本发明的一些实施例中，根据所述底噪能量值，确定出能量门限值包括：

对至少相邻两帧的所述底噪能量值进行平滑处理，得到平滑底噪能量值；

再根据所述平滑底噪能量值，确定出所述能量门限值。

在本发明的一些实施例中，根据所述平滑底噪能量值，确定出所述能量门限值包括：

对所述平滑底噪能量值取权重，作为所述能量门限值。

在本发明的一些实施例中，根据所述能量门限值和当前帧音频信号的能量值，确定第一语音活动侦测值，其中，所述第一语音活动侦测值用于表示当前帧音频的音频状态包括：

在所述当前帧音频信号的能量值大于或等于所述能量门限值的情况下，确定所述当前帧音频为语音音频；

在所述当前帧音频信号的能量值小于所述能量门限值的情况下，确定所述当前帧音频为非语音音频。

在本发明的一些实施例中，所述方法还包括：

根据所述第一语音活动侦测值，确定当前帧及所述当前帧之前预设帧数的音频信号的语音概率；

根据语音场景，确定出语音概率门限值；

根据所述语音概率门限值和所述语音概率，确定第二语音活动侦测值，其中，所述第二语音活动侦测值用于表示当前帧音频的音频状态。

在本发明的一些实施例中，根据所述第一语音活动侦测值，确定当前帧及所述当前帧之前预设帧数的音频信号的语音概率包括：

确定当前帧音频信号的第一语音活动侦测值和预设帧音频信号的第一语音活动侦测值的平均值，将所述平均值作为所述语音概率。

在本发明的一些实施例中，根据语音场景，确定出语音概率门限值包括：

根据所述场景的误判率或漏判率，确定所述语音概率门限值。

在本发明的一些实施例中，根据所述语音概率门限值和所述语音概率，确定第二语音活动侦测值，其中，所述第二语音活动侦测值用于表示当前帧音频的音频状态包括：

在所述语音概率大于或等于所述语音概率门限值的情况下，确定所述当前帧音频为语音音频；

在所述语音概率小于所述语音概率门限值的情况下，确定所述当前帧音频为非语音音频。

在本发明的一些实施例中，所述方法还包括：

根据所述第一语音活动侦测值或所述第二语音活动侦测值，确定当前帧音频是否为语音帧。

在本发明实施方式的第二方面中，提供了一种语音活动侦测装置，包括：

直方图确定模块，用于采集音频信号，确定所述音频信号的短时能量直方图；

能量值确定模块，用于根据所述短时能量直方图，确定所述音频信号的底噪能量值；

能量门限值确定模块，用于根据所述底噪能量值，确定出能量门限值；

第一侦测值确定模块，用于根据所述能量门限值和当前帧音频信号的能量值，确定第一语音活动侦测值，其中，所述第一语音活动侦测值用于表示当前帧音频的音频状态。

在本发明的一些实施例中，所述直方图确定模块，用于使用预设短时段对预设时间段内的所述音频信号进行划分，确定划分后的每个所述预设短时段对应的短时能量；使用直方图统计所述短时能量，获得所述短时能量直方图。

在本发明的一些实施例中，所述能量值确定模块，用于对所述短时能量直方图的包络进行拟合，获得短时能量包络图；将所述短时能量包络图中峰值所对应的短时能量值中最小的短时能量值，确定为所述底噪能量值。

在本发明的一些实施例中，所述能量门限值确定模块，用于对至少相邻两帧的所述底噪能量值进行平滑处理，得到平滑底噪能量值；再根据所述平滑底噪能量值，确定出所述能量门限值。

在本发明的一些实施例中，所述能量门限值确定模块，还用于对所述平滑底噪能量值取权重，作为所述能量门限值。

在本发明的一些实施例中，所述第一侦测值确定模块，用于在所述当前帧音频信号的能量值大于或等于所述能量门限值的情况下，确定所述当前帧音频为语音音频；在所述当前帧音频信号的能量值小于所述能量门限值的情况下，确定所述当前帧音频为非语音音频。

在本发明的一些实施例中，还包括：

语音概率确定模块，用于根据所述第一语音活动侦测值，确定当前帧及所述当前帧之前预设帧数的音频信号的语音概率；

概率门限值确定模块，用于根据语音场景，确定出语音概率门限值；

第二侦测值确定模块，用于根据所述语音概率门限值和所述语音概率，确定第二语音活动侦测值，其中，所述第二语音活动侦测值用于表示当前帧音频的音频状态。

在本发明的一些实施例中，所述语音概率确定模块，用于确定当前帧音频信号的第一语音活动侦测值和预设帧音频信号的第一语音活动侦测值的平均值，将所述平均值作为所述语音概率。

在本发明的一些实施例中，所述概率门限值确定模块，用于根据所述场景的误判率或漏判率，确定所述语音概率门限值。

在本发明的一些实施例中，所述第二侦测值确定模块，用于在所述语音概率大于或等于所述语音概率门限值的情况下，确定所述当前帧音频为语音音频；在所述语音概率小于所述语音概率门限值的情况下，确定所述当前帧音频为非语音音频。

在本发明的一些实施例中，还包括：

语音帧确定模块，用于根据所述第一语音活动侦测值或所述第二语音活动侦测值，确定当前帧音频是否为语音帧。

在本发明实施方式的第三方面中，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音活动侦测方法。

在本发明实施方式的第四方面中，提供了一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述的语音活动侦测方法。

根据本发明实施方式的语音活动侦测方法及装置、存储介质和电子设备，通过获取音频信号的短时能量直方图，基于该短时能量直方图来确定底噪能量值，所确定的底噪能量值的稳定性更高，从而可以提高根据该底噪能量值确定的能力门限值的准确度，进而可以提高音频状态判断的准确性，提升了识别音频信号的效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性示出了根据本发明的示例性实施方式的语音活动侦测方法的流程图；

图2示意性示出了根据本发明的示例性实施方式的一种噪声段音频信号波形图；

图3示意性示出了根据本发明的示例性实施方式的一种对图2中的音频信号处理后的短时能量直方图；

图4示意性示出了根据本发明的示例性实施方式的一种语音段音频信号波形图；

图5示意性示出了根据本发明的示例性实施方式的一种对图4中的音频信号处理后的短时能量直方图；

图6示意性示出了根据本发明的示例性实施方式的一种语音和噪声混合段音频信号波形图；

图7示意性示出了根据本发明的示例性实施方式的一种对图6中的音频信号处理后的短时能量直方图；

图8示意性地示出了根据本发明的示例性实施方式的一种对图7进行包络拟合获得的短时能量包络图。

图9示意性地示出了根据本发明的示例性实施方式的一种语音和噪声相互切换的音频信号波形图；

图10示意性示出了对图9所示的音频信号处理后的底噪能量值随帧数的变化示意图；

图11意性示出了根据本发明的示例性实施方式的第二语音活动侦测值的确定过程的流程图；

图12示意性示出了根据本发明的示例性实施方式的一种音频信号的波形图；

图13示意性示出了对图12所示的音频信号处理后的底噪能量值随帧数的变化示意图；

图14示意性示出了对图12所示的音频信号处理后的语音频率随帧数的变化示意图；

图15示意性示出了对图12所示的音频信号处理后的第二语音活动侦测值随帧数的变化示意图；

图16示意性示出了根据本发明的示例性实施方式的语音活动侦测方法的步骤流程图；

图17示意性示出了根据本发明的示例性实施方式的语音活动侦测装置的方框图一；

图18示意性示出了根据本发明的示例性实施方式的语音活动侦测装置的方框图二；

图19示意性示出了根据本发明的示例性实施方式的语音活动侦测装置的方框图二；

图20示意性示出了根据本发明的示例性实施方式的电子设备的方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种语音活动侦测方法及装置。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，在实时通信应用场景中，环境噪声、空间混响和播放采集设备差异等因素，会很大程度上干扰VAD算法对语音侦测的效果。

基于上述内容，本发明基于短时能量直方图来追踪估计底噪能量值，以提供一个准确的门限值，从而提高在实时通信中语音活动侦测的准确性。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面参考图1来描述根据本发明示例性实施方式的语音活动侦测方法。

图1示意性地示出了根据本发明的示例性实施方式的语音活动侦测方法的流程图。参考图1，根据本发明的示例性实施方式的语音活动侦测方法可以包括以下步骤：

S12.采集音频信号，确定音频信号的短时能量直方图。

音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。语音信号是音频信号的一种，人们之间的实时通信中所采集和传递的信号就是语音信号。

音频信号不可避免地受到多种因素的干扰，特别在实时语音通信中，环境噪声、空间混响和播放采集设备差异等因素会影响语音活动侦测的结果，甚至导致一些语音侦测技术完全失去工作能力。

本发明示例性实施方式提供的语音活动侦测方法，为了提高在实时语音通信过程中侦测的准确性，特提出了确定音频信号中的短时能量直方图的方案。

从整体来看，音频信号的特征是随时间变化的，但是在一个较短的时间范围内，音频信号的特征基本保持不变，且相对稳定，具有短时平稳性。因此，本发明示例性实施方式中确定音频信号的短时能量直方图的过程可以包括：使用预设短时段对预设时间段内的音频信号进行划分，确定划分后的每帧预设短时段对应的短时能量H(k)＝Histogram[E(k)，E(k-T)]，其中，E(k)和E(k-T)分别代表第k帧和第k-T帧的短时能量，Histogram[E(k),E(k-T)]指在k帧和k-T帧的范围内计算的短时能量直方图。

在实际应用中，预设短时段可以为3-30ms中的任意一值，例如预设短时段可以取4ms。而预设时间段指的是采集的音频信号的全部时间段或部分时间段，例如，预设时间段为5-10s。

以预设短时段为4ms、预设时间段T为8s为例，使用预设短时段对预设时间段内的音频信号进行划分，就相当于使用4ms对8s的音频信号进行划分，可以划分为2000个预设短时段对应的子音频信号，一个子音频代表一帧k。在获得多帧子音频信号之后，就可以确定出每帧子音频信号对应的短时能量。

短时能量反映的是音频信号的能量情况，如果计算的某一个子音频信号的短时能量较高，则说明该子音频信号的能量较高。

在获得多个子音频信号对应的短时能量之后，可以使用直方图统计上述的多个短时能量，以获得短时能量直方图。

具体的，本发明示例性实施方式中，在确定短时能量直方图的过程中，可以根据获取的多个短时能量确定出短时能量的取值范围Emin-Emax，作为短时能量的区间。其中，Emin为短时能量的最小值，Emax为短时能量的最大值。

下面参照图2和图3对短时能量直方图的确定过程进行说明。将图2所示的噪声段音频信号使用预设短时段进行划分，并确定划分后的每个预设短时段对应的短时能量。接着，确定出短时能量的最小值Emin＝-55dB，短时能量的最大值Emax＝-25dB，如图3中横坐标所示。

将短时能量的区间均匀分成多个小区间，例如，如图3所示，将短时能量的区间划分为60个小区间，然后，统计上述所计算的短时能量落在每个小区间上的数量，并根据落在每个小区间上的短时能量的数量和总的短时能量的总数，计算落在每个小区间上的短时能量的概率，从而获得图3所示的短时能量直方图，其中，横坐标为短时能量，纵坐标为每个小区间上的短时能量出现的概率。从图3可以看出，该短时能量直方图类似于高斯分布，短时能量平均集中在-37dB左右。

参照上述确定短时能量直方图的方法，绘制图4所示的语音段音频信号对应的短时能量直方图图5，以及绘制图6所示的语音和噪声混合段音频信号对应的短时能量直方图图7。

从图5和图7两个短时能量直方图可以看出，这两个短时能量直方图均有两个高斯分布，其中一个高斯分布在横轴上的位置与图3中的噪声段对应的短时能量直方图的高斯分布位置比较接近，且均是短时能量值较小的高斯分布，可以确定为噪声高斯分布。而另一个高斯分布则可以确定为语音高斯分布。

S14.根据短时能量直方图，确定音频信号的底噪能量值。

本发明的示例性实施方式中，在确定出音频信号的短时能量直方图之后，为了确定出底噪能量值的具体数值，可以对短时能量直方图的包络进行拟合，获得短时能量包络图。例如，对图7所示的语音和噪声混合段音频信号对应的短时能量直方图进行包络拟合，获得如图8所示的短时能量包络图。

在获得短时能量包络图之后，就可以将短时能量包络图中峰值所对应的短时能量值中最小的短时能量值，确定为所述底噪能量值。从图8可以看出，短时能量包络图中包含两个峰值，靠近左侧的峰值对应的短时能量值最小，因此，将该峰值对应的短时能量值确定为底噪能量值Ed。

为了在丢失较少信息的情况下，滤掉干扰信息，本发明示例性实施方式采用拒绝采样Rejection Sampling的方法对短时能量直方图的包络进行拟合。在实际应用中，还可以采用其他多种方法对短时能量直方图的包络进行拟合，本发明对此不作特殊限定。

从图8显示的短时能量包络图可以看出，该短时能量包络图去掉了原始直方图中干扰的毛刺，并且保留了两个主峰，分别代表底噪段包络和语音段包络，并且将底噪段包络的峰值对应的短时能量值确定为底噪能量值Ed。

S16.根据底噪能量值，确定出能量门限值。

如上所述，通过短时能量直方图可以确定出当前估计的底噪能量值noise_floor(k)，该底噪能量值noise_floor(k)可能会与之前相邻的用于进行语音活动侦测的底噪能量值noise_floor(k-1)存在差值，为了减小语音活动侦测结果的突变，本发明的示例性实施方式中，对至少相邻两帧的底噪能量值进行平滑处理，如公式(1)所示，获得平滑底噪能量值：

noise_floor′(k)＝μnoise_floor(k)+(1-μ)noise_floor(k-1) (1)

公式(1)中，μ则是平滑系数，取值在0到1之间。μ的具体取值大小可以根据实际情况来确定，此处不作特殊限定。

参照图9，示例性示出了一种语音和噪声相互切换的音频信号。依照本发明的上述方法对图9的音频信号进行处理，获得的相应的底噪能量值(图10中的纵坐标)基本保持在稳定状态。由此也可以说明，采用本发明示例性实施方式提供的语音活动侦测方法可以获得稳定的底噪能量值，从而为稳定的语音活动侦测结果确定奠定了基础。

本发明示例性实施方式中，在确定出底噪能量值之后，可以根据侦测判断的严格程度，对底噪能量值取权重，以作为能量门限值。例如，如公式(2)所示，对平滑底噪能量值取权重，获得能量门限值：

β_E＝α*noise_floor′(k) (2)

S18.根据能量门限值和当前帧音频信号的能量值，确定第一语音活动侦测值，其中，第一语音活动侦测值用于表示当前帧音频的音频状态。

在确定出能量门限值β_E之后，就可以获得第一语音活动侦测值VAD(k)，如公式(3)所示：

其中，VAD(k)代表第k帧的第一语音活动侦测值，0代表非语音音频，1代表是语音音频。E(k)表示第k帧音频信号的平均能量值，β_E表示上述的能量门限值。

在本发明的示例性实施方式中，第一语音活动侦测值VAD(k)代表的是当前帧音频的音频状态。其中，如果当前帧音频信号的能量值E(k)小于能量门限值β_E，则VAD(k)＝0，代表当前帧音频为非语音音频；如果当前帧音频信号的能量值E(k)大于或等于能量门限值β_E，则VAD(k)＝1，代表当前帧音频为语音音频。

在实际应用中，如果仅仅对当前帧音频的能量进行第一语音活动侦测值的判断，则会存在两种问题：第一种是由于噪声的缘故而发生误判，即将非语音音频判断为语音音频；第二种是对语音段能量较低的部分漏判，即将语音音频判断为非语音音频。

为了解决上述两种问题，本发明的示例性实施方式提供的语音活动侦测方法，在第一语音活动侦测值的基础上，还提出了第二语音活动侦测值。

参照图11，该第二语音活动侦测值的确定过程具体可以包括如下步骤：

S112.根据第一语音活动侦测值，确定当前帧及当前帧之前预设帧数的音频信号的语音概率。

本发明的示例性实施方式中，对当前帧及当前帧之前预设帧数的音频信号的第一语音活动侦测值进行平滑处理，也就是确定当前帧音频信号的第一语音活动侦测值和预设帧音频信号的第一语音活动侦测值的平均值，即对上述当前帧及当前帧之前预设帧数的音频信号对应的第一语音活动侦测值取平均值，并将该平均值作为语音概率。获得的语音概率P(k)如公式(4)所示：

其中，k指的是当前帧，L指的是预设帧数。

在实际应用中，预设帧数L的大小可以根据实际情况确定，例如，L可以在80-120ms之间取值，具体L可以为100ms，本发明的示例性实施方式中，对于预设帧数L的具体取值可以不作限定。

S114.根据语音场景，确定出语音概率门限值。

本发明的示例性实施方式中，在确定出语音概率P(k)之后，还需要根据语音场景，例如根据语音场景的误判率或漏判率，来确定语音概率门限值β_P。

在实际应用中，对于误判率有严格要求的场景，即要求将非语音音频判断为语音音频出现的概率较小的场景，需要将语音概率门限值β_P提高，例如，将语音概率门限值β_P设定为0.85-0.99之间的接近于1的值。

在实际应用中，对于漏判率有严格要求的场景，即要求将语音音频判断为非语音音频出现的概率较小的场景，需要将语音概率门限值β_P降低，例如，将语音概率门限值β_P设定为0.2-0.5之间的任一值。

对于其他无误判率或漏判率严格要求的场景下，语音概率门限值β_P可以根据实际需要来确定，例如，β_P＝0.6或其他值，本发明的示例性实施方式对于具体的语音概率门限值β₎不作特殊限定。

S116.根据语音概率门限值和语音概率，确定第二语音活动侦测值，其中，第二语音活动侦测值用于表示当前帧音频的音频状态。

在确定出语音概率和语音概率门限值之后，就可以根据这两个值来确定出用于表示当前帧音频音频状态的第二语音活动侦测值VAD’(k)，如公式(5)所示：

由公式(5)可知，在语音概率P(k)小于语音概率门限值β_P的情况下，第二语音活动侦测值VAD’(k)取0，代表当前帧音频为非语音音频；在语音概率P(k)大于或等于语音概率门限值β₎的情况下，第二语音活动侦测值VAD’(k)取1，代表当前帧音频为语音音频。

参照图12-15,示出了对一种音频信号根据第二语音活动侦测值进行音频状态判断的波形示意图。图12提供的音频信号经过本发明提供的语音活动侦测方法处理后，获得了图13所示的底噪能量值随帧数的变化示意图，从图13可以看出所确定的底噪能量值基本保持在稳定状态。图14示出的是对音频信号继续处理后获得的语音概率P(k)随帧数的变化示意图。再对图14所示的语音概率P(k)进行第二语音活动侦测值判断之后，就可以获得如图15所示的第二语音活动侦测值VAD’(k)随帧数变化的示意图，从图15中可以看出，第二语音活动侦测值VAD’(k)为1的帧为语音音频，第二语音活动侦测值VAD’(k)为0的帧为非语音音频。

参照图16，示出了本发明的示例性实施方式提供的语音活动侦测方法的步骤流程图，如图16所示，先进入步骤S1601，采集音频信号；接着，进入步骤S1602，确定音频信号的短时能量直方图；确定了短时能量直方图之后，进入步骤S1603，对短时能量直方图的包络进行拟合，获得短时能量包络图；进入步骤S1604，根据短时能量包络图，确定底噪能量值；进入步骤S1605，对底噪能量值进行平滑处理，获得平滑底噪能量值；进入步骤S1606，根据平滑底噪能量值，确定能量门限值。

在确定出能量门限值之后，可以进入步骤S1607，根据能量门限值和当前帧音频信号的能量值，确定第一语音活动侦测值，其中的当前帧音频信号的能量值由采集的音频信号获得；在获得第一语音活动侦测值之后，还可以进入步骤S1608，根据第一语音活动侦测值，确定当前帧及其之前预设帧数的音频信号的语音概率，简称确定语音概率；进入步骤S1609，根据语音场景，确定语音概率门限值；再进入步骤S1610，根据语音概率门限值和语音概率，确定第二语音活动侦测值。根据上述确定的第一语音活动侦测值和第二语音活动侦测值均可对当前帧音频的音频状态进行判断，以确定当前帧音频是否为语音帧。

本发明上述实施例的技术方案以音频信号为基础，一方面，通过获取音频信号的短时能量直方图，基于该短时能量直方图来确定底噪能量值，所确定的底噪能量值的稳定性更高，从而可以提高根据该底噪能量值确定的能力门限值的准确度，进而可以提高音频状态判断的准确性，提升了识别音频信号的效果。再一方面，本发明示例性实施方式通过确定当前帧及当前帧之前预设帧数相应的第一语音活动侦测值的平均值作为语音概率，并结合语音场景中的误判率或漏判率所确定语音概率门限值，可以确定出另一个进行音频状态判断的语音活动侦测值，从而可以对漏判或误判有严格要求的场景下的音频状态判断，进一步音频状态判断的准确性和识别音频信号的效果。又一方面，由于上述方案进行音频状态判断的准确性较高，因此，本发明的示例性实施方式提供的语音活动侦测方法可以用于实时音频信号等复杂场景下的音频状态判断处理。

示例性装置

在介绍了本发明示例性实施方式的语音活动侦测方法之后，接下来，参考图17对本发明示例性实施方式的语音活动侦测装置进行描述。其中，装置实施例部分可以继承方法实施例中的相关描述，使得装置实施例可以获得方法实施例相关具体描述的支持。

参考图17，根据本发明的示例性实施方式的语音活动侦测装置17可以包括：直方图确定模块171、能量值确定模块173、能量门限值确定模块175和第一侦测值确定模块177。

具体的，直方图确定模块171，可以用于采集音频信号，确定音频信号的短时能量直方图；能量值确定模块173，可以用于根据短时能量直方图，确定音频信号的底噪能量值；能量门限值确定模块175，可以用于根据底噪能量值，确定出能量门限值；第一侦测值确定模块177，可以用于根据能量门限值和当前帧音频信号的能量值，确定第一语音活动侦测值，其中，第一语音活动侦测值用于表示当前帧音频的音频状态。

在本发明的一些实施例中，直方图确定模块171，可以用于使用预设短时段对预设时间段内的音频信号进行划分，确定划分后的每个预设短时段对应的短时能量；使用直方图统计短时能量，获得短时能量直方图。

在本发明的一些实施例中，能量值确定模块173，可以用于对短时能量直方图的包络进行拟合，获得短时能量包络图；将短时能量包络图中峰值所对应的短时能量值中最小的短时能量值，确定为底噪能量值。

在本发明的一些实施例中，能量门限值确定模块175，可以用于对至少相邻两帧的底噪能量值进行平滑处理，得到平滑底噪能量值；再根据平滑底噪能量值，确定出能量门限值。

在本发明的一些实施例中，能量门限值确定模块175，还可以用于对平滑底噪能量值取权重，作为能量门限值。

在本发明的一些实施例中，第一侦测值确定模块177，可以用于在当前帧音频信号的能量值大于或等于能量门限值的情况下，确定当前帧音频为语音音频；在当前帧音频信号的能量值小于能量门限值的情况下，确定当前帧音频为非语音音频。

在本发明的一些实施例中，参考图18，根据本发明的示例性实施方式的语音活动侦测装置17还可以包括：语音概率确定模块181、概率门限值确定模块183、和第二侦测值确定模块185。

具体的，语音概率确定模块181，可以用于根据第一语音活动侦测值，确定当前帧及当前帧之前预设帧数的音频信号的语音概率；概率门限值确定模块183，可以用于根据语音场景，确定出语音概率门限值；第二侦测值确定模块185，可以用于根据语音概率门限值和语音概率，确定第二语音活动侦测值，其中，第二语音活动侦测值用于表示当前帧音频的音频状态。

在本发明的一些实施例中，语音概率确定模块181，可以用于确定当前帧音频信号的第一语音活动侦测值和预设帧音频信号的第一语音活动侦测值的平均值，将平均值作为语音概率。

在本发明的一些实施例中，概率门限值确定模块183，可以用于根据场景的误判率或漏判率，确定语音概率门限值。

在本发明的一些实施例中，第二侦测值确定模块185，可以用于在语音概率大于或等于语音概率门限值的情况下，确定当前帧音频为语音音频；在语音概率小于语音概率门限值的情况下，确定当前帧音频为非语音音频。

在本发明的一些实施例中，参考图19，本发明的示例性实施方式的语音活动侦测装置17还可以包括：语音帧确定模块191，用于根据第一语音活动侦测值或第二语音活动侦测值，确定当前帧音频是否为语音帧。

由于本发明实施方式的语音活动侦测装置的各个功能模块与上述方法发明实施方式中相同，因此在此不再赘述。

本发明上述实施例的语音活动侦测装置，一方面，通过直方图确定模块可以获取音频信号的短时能量直方图，再通过能量值确定模块基于短时能量直方图来确定底噪能量值，所确定的底噪能量值的稳定性更高，从而可以提高根据该底噪能量值确定的能力门限值的准确度，进而可以提高音频状态判断的准确性，提升了识别音频信号的效果。再一方面，本发明示例性实施方式通过第一侦测值确定模块和第二侦测值确定模块，可以确定当前帧及当前帧之前预设帧数相应的第一语音活动侦测值的平均值作为语音概率，并结合语音场景中的误判率或漏判率所确定语音概率门限值，可以确定出另一个进行音频状态判断的语音活动侦测值，从而可以对漏判或误判有严格要求的场景下的音频状态判断，进一步音频状态判断的准确性和识别音频信号的效果。又一方面，由于上述方案进行音频状态判断的准确性较高，因此，本发明的示例性实施方式提供的语音活动侦测装置可以用于实时音频信号等复杂场景下的音频状态判断处理。

示例性设备

在介绍了本发明示例性实施方式的语音活动侦测方法及装置之后，接下来，将对本发明的示例性实施方式的电子设备进行描述。其中，本发明的示例性实施方式的电子设备包括上述语音活动侦测装置。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为***、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

在一些可能的实施方式中，根据本发明的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“方法”部分中描述的根据本发明各种示例性实施方式中的步骤。

下面参照图20来描述根据本发明的这种实施方式的电子设备2000。图20显示的电子设备2000仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图20所示，电子设备2000以通用计算设备的形式表现。电子设备2000的组件可以包括但不限于：上述至少一个处理单元2010、上述至少一个存储单元2020、连接不同***组件(包括存储单元2020和处理单元2010)的总线2030、显示单元2040。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元2010执行，使得所述处理单元2010执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元2010可以执行如图1和图11中所示的步骤S12：采集音频信号，确定音频信号的短时能量直方图；步骤S14：根据短时能量直方图，确定音频信号的底噪能量值；步骤S16：根据底噪能量值，确定出能量门限值；步骤S18：根据能量门限值和当前帧音频信号的能量值，确定第一语音活动侦测值，其中，第一语音活动侦测值用于表示当前帧音频的音频状态；步骤S112：根据第一语音活动侦测值，确定当前帧及当前帧之前预设帧数的音频信号的语音概率；步骤S114：根据语音场景，确定出语音概率门限值；步骤S116：根据语音概率门限值和语音概率，确定第二语音活动侦测值，其中，第二语音活动侦测值用于表示当前帧音频的音频状态。

存储单元2020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)20201和/或高速缓存存储单元20202，还可以进一步包括只读存储单元(ROM)20203。

存储单元2020还可以包括具有一组(至少一个)程序模块20205的程序/实用工具20204，这样的程序模块20205包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线2030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备2000也可以与一个或多个外部设备2070(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备2000交互的设备通信，和/或与使得该电子设备2000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口2050进行。并且，电子设备2000还可以通过网络适配器2060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器2060通过总线2030与电子设备2000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备2000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

示例性程序产品

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“方法”部分中描述的根据本发明各种示例性实施方式的语音活动侦测方法或音频处理模型训练方法中的步骤，例如，所述终端设备可以执行如图1所述的步骤12至步骤18，或者，所述终端设备可以执行如图11所述的步骤112至步骤116。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光盘、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。另外，随着技术的发展，可读存储介质也应进行相应解读。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了上述装置中的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音活动侦测方法，其特征在于，包括：

采集音频信号，确定所述音频信号的短时能量直方图；

将所述短时能量包络图中峰值所对应的短时能量值中最小的短时能量值，确定为底噪能量值；

根据所述底噪能量值，确定出能量门限值；

2.根据权利要求1所述的语音活动侦测方法，其特征在于，确定所述音频信号的短时能量直方图包括：

使用直方图统计所述短时能量，获得所述短时能量直方图。

3.根据权利要求1所述的语音活动侦测方法，其特征在于，根据所述底噪能量值，确定出能量门限值包括：

再根据所述平滑底噪能量值，确定出所述能量门限值。

4.根据权利要求3所述的语音活动侦测方法，其特征在于，根据所述平滑底噪能量值，确定出所述能量门限值包括：

对所述平滑底噪能量值取权重，作为所述能量门限值。

5.根据权利要求1所述的语音活动侦测方法，其特征在于，根据所述能量门限值和当前帧音频信号的能量值，确定第一语音活动侦测值，其中，所述第一语音活动侦测值用于表示当前帧音频的音频状态包括：

6.根据权利要求1-5中任一项所述的语音活动侦测方法，其特征在于，所述方法还包括：

根据语音场景，确定出语音概率门限值；

7.根据权利要求6所述的语音活动侦测方法，其特征在于，根据所述第一语音活动侦测值，确定当前帧及所述当前帧之前预设帧数的音频信号的语音概率包括：

8.根据权利要求6所述的语音活动侦测方法，其特征在于，根据语音场景，确定出语音概率门限值包括：

9.根据权利要求6所述的语音活动侦测方法，其特征在于，根据所述语音概率门限值和所述语音概率，确定第二语音活动侦测值，其中，所述第二语音活动侦测值用于表示当前帧音频的音频状态包括：

10.根据权利要求9所述的语音活动侦测方法，其特征在于，所述方法还包括：

11.一种语音活动侦测装置，其特征在于，包括：

能量值确定模块，用于对所述短时能量直方图的包络进行拟合，获得短时能量包络图；将所述短时能量包络图中峰值所对应的短时能量值中最小的短时能量值，确定为底噪能量值；

12.根据权利要求11所述的语音活动侦测装置，其特征在于，所述直方图确定模块，用于使用预设短时段对预设时间段内的所述音频信号进行划分，确定划分后的每个所述预设短时段对应的短时能量；使用直方图统计所述短时能量，获得所述短时能量直方图。

13.根据权利要求11所述的语音活动侦测装置，其特征在于，所述能量门限值确定模块，用于对至少相邻两帧的所述底噪能量值进行平滑处理，得到平滑底噪能量值；再根据所述平滑底噪能量值，确定出所述能量门限值。

14.根据权利要求13所述的语音活动侦测装置，其特征在于，所述能量门限值确定模块，还用于对所述平滑底噪能量值取权重，作为所述能量门限值。

15.根据权利要求11所述的语音活动侦测装置，其特征在于，所述第一侦测值确定模块，用于在所述当前帧音频信号的能量值大于或等于所述能量门限值的情况下，确定所述当前帧音频为语音音频；在所述当前帧音频信号的能量值小于所述能量门限值的情况下，确定所述当前帧音频为非语音音频。

16.根据权利要求11-15任一项所述的语音活动侦测装置，其特征在于，还包括：

17.根据权利要求16所述的语音活动侦测装置，其特征在于，所述语音概率确定模块，用于确定当前帧音频信号的第一语音活动侦测值和预设帧音频信号的第一语音活动侦测值的平均值，将所述平均值作为所述语音概率。

18.根据权利要求16所述的语音活动侦测装置，其特征在于，所述概率门限值确定模块，用于根据所述场景的误判率或漏判率，确定所述语音概率门限值。

19.根据权利要求16所述的语音活动侦测装置，其特征在于，所述第二侦测值确定模块，用于在所述语音概率大于或等于所述语音概率门限值的情况下，确定所述当前帧音频为语音音频；在所述语音概率小于所述语音概率门限值的情况下，确定所述当前帧音频为非语音音频。

20.根据权利要求19所述的语音活动侦测装置，其特征在于，还包括：

21.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的语音活动侦测方法。

22.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至10中任一项所述的语音活动侦测方法。