CN107564512A

CN107564512A - 语音活动侦测方法及装置

Info

Publication number: CN107564512A
Application number: CN201610505487.8A
Authority: CN
Inventors: 孙廷玮; 柯逸倩
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd; Spreadtrum Communications Inc
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2018-01-09
Anticipated expiration: 2036-06-30
Also published as: CN107564512B

Abstract

语音活动侦测方法及装置，所述方法包括：将输入的声音数据划分为多个非重叠的帧；对所述多个非重叠的帧进行遍历，计算得到当前帧的频谱能量、短时能量和周期数；计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率；构建当前帧的概率空间矩阵；基于当前帧的概率空间矩阵，计算当前帧对应的VAD向量，所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值；当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值，确定对应的当前帧中包括语音信息。上述的方案，可以提高语音活动侦测的准确率。

Description

语音活动侦测方法及装置

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音活动侦测方法及装置。

背景技术

移动终端，是指可以在移动中使用的计算机设备，广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展，移动终端已经拥有了强大的处理能力，移动终端正在从简单的通话工具变为一个综合信息处理平台，这也给移动终端增加了更加宽广的发展空间。但是，移动终端的使用，通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏，用户需要触摸所述触摸屏，以执行相应的操作。但是，用户无法触碰到移动终端设备时，操作移动终端便会变得极其不方便，如当用户驾驶车辆或者手中提有物品的时候。

语音识别方法和总听***(Always Listening System)的使用，使得可以对移动终端进行非手动激活和操作。当所述总听***检测到声音信号时，语音识别***便会激活，并对检测到的声音信号进行识别，之后，移动终端便会根据所识别出的声音信号执行相应的操作，例如，当用户输入“拨打XX的手机”的语音时，移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别，并在正确识别后，从移动终端中获取XX的手机号码的信息，并拨打。

但是，现有技术中语音活动侦测方法，存在着语音识别速度慢且准确率低的问题。

发明内容

本发明实施例解决的问题是提高语音识别的准确率。

为解决上述问题，本发明实施例提供了一种语音活动侦测方法，包括：将输入的声音数据划分为多个非重叠的帧；对所述多个非重叠的帧进行遍历，计算得到当前帧的频谱能量、短时能量和周期数；基于当前帧的频谱能量、短时能量和周期数，计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率；采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵；基于当前帧的概率空间矩阵，计算当前帧对应的VAD向量，所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值；当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值，确定对应的当前帧中包括语音信息。

可选地，所述计算得到当前帧的频谱能量、短时能量和周期数，包括：对当前帧进行离散傅立叶变换运算得到对应的频谱能量；基于所述当前帧对应的频谱能量，计算得到当前帧的短时能量；采用短时自相关函数对当前帧进行周期估计，得到当前帧的周期数。

可选地，所述基于所述当前帧对应的频谱能量，计算得到当前帧的短时能量，包括：将当前帧中的所有采样点的幅度的平方和，作为当前帧的短时能量。

可选地，在采用短时自相关函数对当前帧进行周期估计，得到当前帧的周期数之前，所述方法还包括：对当前帧进行三电平中心削波处理。

可选地，在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前，所述方法还包括：滤除各个帧的直流偏移。

可选地，在所述对遍历至的当前帧进行离散傅立叶变换运算得到对应的频谱能量之前，所述方法还包括：对当前帧采用汉明窗进行加窗处理。

可选地，所述基于当前帧的频谱能量、短时能量和周期数，计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率，包括：

其中，S_a表示当前帧的频谱能量、短时能量或周期数落在预设的a的概率空间的概率，a表示语音类别、噪音类别或者静音类别，x表示频谱能量、短时能量或周期数，μ_A、μ_B、μ_C、σ_A、σ_B、σ_C分别表示预设的阈值。

可选地，所述采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵，包括：其中，PDM表示当前帧的概率空间矩阵，S_ve表示当前帧的频谱能量落在语音类别的概率空间的概率，S_μe表示当前帧的频谱能量落在非语音类别的概率空间的概率，S_se表示当前帧的频谱能量落在静音类别的概率空间的概率，S_vi表示当前帧的短时能量落在语音类别的概率空间的概率，S_μi表示当前帧的短时能量落在非语音类别的概率空间的概率，S_si表示当前帧的短时能量落在静音类别的概率空间的概率，S_vp表示当前帧的周期数落在语音类别的概率空间的概率，S_μp表示当前帧的周期数落在非语音类别的概率空间的概率，S_sp表示当前帧的周期数落在静音类别的概率空间的概率。

可选地，所述基于当前帧的概率空间矩阵，计算当前帧对应的VAD向量，包括：OVAD＝[1 1 1]*PDM＝[S_v(e+i+p),S_μ(e+i+p),S_s(e+i+p)]；其中，OVAD表示当前帧对应的VAD向量，S_v(e+i+p)表示所述VAD向量中的语音类别分值，S_μ(e+i+p)表示所述VAD向量中的非语音类别分值，S_s(e+i+p)表示所述VAD向量中的静音类别分值。

可选地，所述多个非重叠的帧中的各个帧的时长为15ms。

本发明实施例还提供了一种语音活动侦测装置，所述装置包括：分帧处理单元，适于将输入的声音数据划分为多个非重叠的帧；特征向量计算单元，适于对所述多个非重叠的帧进行遍历，计算得到当前帧的频谱能量、短时能量和周期数；概率计算单元，适于基于当前帧的频谱能量、短时能量和周期数，计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率；概率空间矩阵构建单元，适于采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵；语音活动侦测单元，适于基于当前帧的概率空间矩阵，计算当前帧对应的VAD向量，所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值；当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值，确定对应的当前帧中包括语音信息。

可选地，所述特征向量计算单元适于对当前帧进行离散傅立叶变换运算得到对应的频谱能量；基于所述当前帧对应的频谱能量，计算得到当前帧的短时能量；采用短时自相关函数对当前帧进行周期估计，得到当前帧的周期数。

可选地，所述特征向量计算单元适于将当前帧中的所有采样点的幅度的平方和，作为当前帧的短时能量。

可选地，所述装置还包括：削波处理单元适于在所述采用短时自相关函数对当前帧进行周期估计，得到当前帧的周期数之前，对当前帧进行三电平中心削波处理。

可选地，所述装置还包括：直流偏移滤除单元，适于在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前，滤除当前帧的直流偏移。

可选地，所述装置还包括：加窗处理单元，适于在所述对遍历至的当前帧进行离散傅立叶变换运算得到对应的频谱能量之前，对当前帧采用汉明窗进行加窗处理。

可选地，所述概率计算单元适于采用如下的公式计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率：

可选地，所述概率空间矩阵构建单元构建的当前帧的概率空间矩阵为：其中，PDM表示当前帧的概率空间矩阵，S_ve表示当前帧的频谱能量落在语音类别的概率空间的概率，S_μe表示当前帧的频谱能量落在非语音类别的概率空间的概率，S_se表示当前帧的频谱能量落在静音类别的概率空间的概率，S_vi表示当前帧的短时能量落在语音类别的概率空间的概率，S_μi表示当前帧的短时能量落在非语音类别的概率空间的概率，S_si表示当前帧的短时能量落在静音类别的概率空间的概率，S_vp表示当前帧的周期数落在语音类别的概率空间的概率，S_μp表示当前帧的周期数落在非语音类别的概率空间的概率，S_sp表示当前帧的周期数落在静音类别的概率空间的概率。

可选地，所述语音活动侦测单元适于采用如下的公式计算得到当前帧对应的VAD向量：OVAD＝[1 1 1]*PDM＝[S_v(e+i+p),S_μ(e+i+p),S_s(e+i+p)]；其中，OVAD表示当前帧对应的VAD向量，S_v(e+i+p)表示所述VAD向量中的语音类别分值，S_μ(e+i+p)表示所述VAD向量中的非语音类别分值，S_s(e+i+p)表示所述VAD向量中的静音类别分值。

可选地，所述分帧处理单元划分得到的所述多个非重叠的帧中的各个帧的时长为15ms。

与现有技术相比，本发明的技术方案具有以下的优点：

上述的方案，通过计算当前帧的频谱能量、短时能量和周期数三个特征值分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率，构建对应的概率空间矩阵，并基于当前帧的概率空间矩阵，计算当前帧对应的VAD向量，并在确定所述VAD向量中的语音类别分值、非语音类别分值和静音类别分值的最大值为语音类别分值时，确定当前帧中包括语音信息，由于采用包括频谱能量、短时能量和周期数的特征向量，可以不受噪音类型的影响，因而可以提高语音识别的准确率。

进一步地，在所述采用短时自相关函数对各个帧进行周期估计之前，对各个帧进行三电平中心削波处理，可以节省计算各个帧的周期估计的计算量，因而可以进一步节省计算资源。

进一步地，在对每个帧进行离散傅立叶变换运算得到对应的频谱能量之前，滤除各个帧的直流偏移，可以消除直流偏移对于信号的影响，因而可以进一步提高语音活动侦测的准确性。

进一步地，在对每个帧进行离散傅立叶变换运算得到对应的频谱能量之前，对各个帧采用汉明窗进行加窗处理，可以消除不同帧之间的频谱能量泄露，因而可以进一步提高语音活动侦测的准确性。

附图说明

图1是本发明实施例中的一种语音活动侦测方法的流程图；

图2是本发明实施例中的一种概率空间的示意图；

图3是本发明实施例中的另一种语音活动侦测方法的流程图；

图4是本发明实施例中的语音活动侦测装置的结构示意图。

具体实施方式

现有技术中的一种语音活动侦测(Voice Activity Detection，VAD)方法，通过将获取的待识别的声音数据划分为多个重叠的声音帧，并对每个声音帧进行快速傅立叶变换运算，得到对应的频谱能量；对所述多个重叠的声音帧的频谱能量进行遍历，将遍历到的当前声音帧的频谱能量划分为无重叠的多个子带；根据当前声音帧的多个子带的频谱能量，计算得到当前声音帧的能量均方根；当确定当前声音帧的能量均方根大于预设的阈值时，确定当前声音帧中包括语音信息。

上述的VAD方法可以在噪音变化的速度小于语音追踪能力，且语音片段的能量水平高于噪音片段的能量水平时，可以获取较好的性能。但是，当上述情况发生变化时，存在着语音检测准确性低的问题。

为解决现有技术中存在的上述问题，本发明实施例采用的技术方案通过将当前声音帧的能量均方根与对应的阈值进行比较，来确定当前声音帧中是否包括语音信息，可以节省语音识别的计算资源和时间，并可以提高语音识别的准确率。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1示出了本发明实施例中的一种语音活动侦测方法的流程图。如图1所示的语音活动侦测方法，可以包括如下步骤：

步骤S101：将输入的声音数据划分为多个非重叠的帧。

在具体实施中，所述重叠的帧中各个帧的时长为15ms。

步骤S102：对所述多个非重叠的帧进行遍历，计算得到当前帧的频谱能量、短时能量和周期数。

在具体实施中，语音信号并非是静态的，但与非语音信号相比，语音帧之间的频谱特性具有较大的相似性。在移动手机的环境中，动态噪音帧之间的频谱特性也就有相似性。因此，帧与帧之间的线性独立性对于区分非语音信号和动态噪音信号具有重要的参考意义。同时，使用单一的参数不足以在动态噪音环境中区分语音信号和静音信号。另外，因测量重要性随着环境进行变化，使用具有一个固定阈值的二元决策法来检测语音/静默信号也会导致检测的准确性的降低。

而本发明实施例中的语音活动侦测方法分别使用包括频谱能量、短时能量和周期数的三个特征值的特征向量来表示对应的帧，因而可以增强语音活动侦测的准确性。

步骤S103：基于当前帧的频谱能量、短时能量和周期数，计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率。

在具体实施中，请参见图2所示，预先建立语音类别的概率空间A、非语音类别的概率空间B和静音类别的概率空间C，对于一个给定的测量值即特征值，可以非线性地计算得到所述测量值相对于每个类别的均值的概率空间，即相应的特征向量落入语音类别概率空间的概率、落在噪音类别概率空间的概率和落在静音类别的概率空间的概率。例如，在本发明一实施例中可以采用如下的公式计算得到所述测量值相对于每个类别的均值的概率空间：

通过上述的公式(1)可以看出，根据频谱能量、短时能量和周期数计算得到的落在语音类别、非语音类别和静音类别中概率均为非负数，且最大的概率为1，当计算得到的概率的数值落入对应的类别的标准差的均值时达到最大。

因此，通过上述的公式计算得到的概率可以用于测量给定的特征值与各个类别之间的接近程度。当将多维度特征值应用于分类问题时，各个参数的可以用于衡量自身与各个类别的均值之间的距离。接着，通过对特定参数的概率空间的相对重要性的衡量，可以成功对各个帧进行分类。

步骤S104：采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵。

在具体实施中，在分别计算当前帧的频谱能量、短时能量和周期数分别落在语音类别概率空间的概率、落在预设的噪音类别概率空间的概率和落在预设的静音类别概率空间的概率时，可以采用得到的九个概率的数值构建如下的3*3的概率空间矩阵：

其中，PDM表示当前帧的概率空间矩阵，S_ve表示当前帧的频谱能量落在语音类别的概率空间的概率，S_μe表示当前帧的频谱能量落在非语音类别的概率空间的概率，S_se表示当前帧的频谱能量落在静音类别的概率空间的概率，S_vi表示当前帧的短时能量落在语音类别的概率空间的概率，S_μi表示当前帧的短时能量落在非语音类别的概率空间的概率，S_si表示当前帧的短时能量落在静音类别的概率空间的概率，S_vp表示当前帧的周期数落在语音类别的概率空间的概率，S_μp表示当前帧的周期数落在非语音类别的概率空间的概率，S_sp表示当前帧的周期数落在静音类别的概率空间的概率。

其中，采用上述的公式(2)构建的概率空间矩阵可以用于表征对应的帧。

步骤S105：基于当前帧的概率空间矩阵，计算当前帧对应的VAD向量，所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值。

在具体实施中，在计算得到当前帧的概率空间矩阵时，可以采用如下的公式计算当前帧对应的VAD向量：

OVAD＝[1 1 1]*PDM＝[S_v(e+i+p),S_μ(e+i+p),S_s(e+i+p)] (3)

其中，OVAD表示当前帧对应的VAD向量，S_v(e+i+p)表示所述VAD向量中的语音类别分值，S_μ(e+i+p)表示所述VAD向量中的非语音类别分值，S_s(e+i+p)表示所述VAD向量中的静音类别分值。

通过公式(2)和公式(3)可以知道语音类别分值S_v(e+i+p)等于S_ve、S_vi和S_vp之和，非语音类别分值S_μ(e+i+p)等于S_μe、S_μi和S_μp之和，静音类别分值S_s(e+i+p)等于S_se、S_si和S_sp之和。

步骤S106：当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值，确定对应的当前帧中包括语音信息。

在具体实施中，当计算得到语音类别分值S_v(e+i+p)，非语音类别分值S_μ(e+i+p)和静音类别分值S_s(e+i+p)时，可以根据三个值的比较结果，确定当前帧属于语音帧、非语音帧还是静音帧。具体而言，可以将三个值中数值较大的数值对应的类别，作为当前帧的类别。例如，当计算得到的语音类别分值S_v(e+i+p)，非语音类别分值S_μ(e+i+p)和静音类别分值S_s(e+i+p)分别为0.2、0.7和0.1时，将当前帧归为非语音帧。

在具体实施中，本发明实施例中的语音活动侦测方法可以在计算得到当前帧对应的频谱能量、短时能量和周期数之前，可以进行相应的处理，以进一步提高语音活动侦测的准确性，具体请参见图2。

图3是本发明实施例中的另一种语音活动侦测方法的流程图。参见图3，在具体实施中，本发明实施例中的语音活动侦测方法可以包括如下的步骤：

步骤S301：将输入的声音数据划分为多个非重叠的帧。

在本发明一实施例中，所述多个非重叠的帧中的各个帧的时长为15ms，且每个帧包括120个采样点，可以在尽量减少缓冲时间的基础上，使得其长度也足以获取每个帧的全部属性。

步骤S302：对遍历至的当前帧进行直流偏移滤除处理。

在具体实施中，通过各个帧分别进行直流偏移(DC shift)以得到无偏移语音信号，从而可以消除直流偏移的影响，进而可以提高语音活动侦测的准确性。

步骤S303：对遍历至的当前帧进行加窗处理，并计算当前帧的频谱能量。

在具体实施中，划分得到的多个非重叠的帧的并不是平滑地在帧尾处接近于零，由此产生的非连续性导致额外的频谱元素的产生即频谱泄露。因此，在本发明一实施例中，可以将各个帧采用进行加窗处理，如将当前帧乘以采样点为120个的汉明窗，以消除频谱泄露，以进一步提高语音活动侦测的准确性。

步骤S304：计算当前帧的短时能量。

在具体实施中，假定输入的声音数据随着时间缓慢地变化，通过各个帧的短时能量可以反映出幅度(magnitude)的变化。在本发明一实施例中，各个帧的短时能量，可以通过将当前帧中的各个采样点对应的离散傅里叶变换(DFT)的幅度的平方相加得到。

步骤S305：对当前帧进行三电平中心削波处理，并计算当前帧的周期数。

在具体实施中，通过在时域中计算短时自相关函数的局部最大值可以确定周期性信号的波峰，当语音信号是周期性变化时，对应的自相关函数也以同样的周期变化。但是，短时自相关函数的局限性在于一个周期内可能存在多个波峰。其中，因快速变化的共振频率产生的周期性出现的误导性的波峰，会导致声音跟踪响应的阻尼振荡。同时，自相关函数的在实时应用中的难处在于需要大量的计算。

因此，在本发明一实施例中，可以将在计算各个帧的周期数之前，分别对各个帧执行三级电平削波(3-level center clipping)处理，以节约计算时间，并消除声音信号中的其他因素对周期性造成的影响，以提高周期数计算的准确性，进而可以提高语音活动侦测的准确性。

这里需要指出的是，步骤303至305之间的执行顺序并不受上述的限制。

步骤S306：基于当前帧的频谱能量、短时能量和周期数，计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率。

步骤S307：采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵。

步骤S308：基于当前帧的概率空间矩阵，计算当前帧对应的VAD向量，所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值。

步骤S309：当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值，确定对应的当前帧中包括语音信息。

上述的步骤S306～S309可以参照前一实施例中相应步骤的介绍执行，在此不再赘述。

下面将对上述的方法对应的装置做进一步详细的介绍。

图4示出了本发明实施例中的一种语音活动侦测装置的结构。参见图3，本发明实施例中的语音活动侦测装置400可以包括分帧处理单元401、特征向量计算单元402、概率计算单元403、概率空间矩阵构建单元404和语音活动侦测单元405，其中：

分帧处理单元401，适于将输入的声音数据划分为多个非重叠的帧。

在本发明一实施例中，所述分帧处理单元401划分得到的所述多个非重叠的帧中的各个帧的时长为15ms。

特征向量计算单元402，适于对所述多个非重叠的帧进行遍历，计算得到当前帧的频谱能量、短时能量和周期数。

在具体实施中，所述特征向量计算单元402适于对当前帧进行离散傅立叶变换运算得到对应的频谱能量；基于所述当前帧对应的频谱能量，计算得到当前帧的短时能量；采用短时自相关函数对当前帧进行周期估计，得到当前帧的周期数。

在具体实施中，所述特征向量计算单元402适于将当前帧中的所有采样点的幅度的平方和，作为当前帧的短时能量。

概率计算单元403，适于基于当前帧的频谱能量、短时能量和周期数，计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率。

在本发明一实施例中，所述概率计算单元403适于采用如下的公式计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率：

概率空间矩阵构建单元404，适于采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵。

在具体实施中，所述概率空间矩阵构建单元404构建的当前帧的概率空间矩阵为：其中，PDM表示当前帧的概率空间矩阵，S_ve表示当前帧的频谱能量落在语音类别的概率空间的概率，S_μe表示当前帧的频谱能量落在非语音类别的概率空间的概率，S_se表示当前帧的频谱能量落在静音类别的概率空间的概率，S_vi表示当前帧的短时能量落在语音类别的概率空间的概率，S_μi表示当前帧的短时能量落在非语音类别的概率空间的概率，S_si表示当前帧的短时能量落在静音类别的概率空间的概率，S_vp表示当前帧的周期数落在语音类别的概率空间的概率，S_μp表示当前帧的周期数落在非语音类别的概率空间的概率，S_sp表示当前帧的周期数落在静音类别的概率空间的概率。

语音活动侦测单元405，适于基于当前帧的概率空间矩阵，计算当前帧对应的VAD向量，所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值；当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值，确定对应的当前帧中包括语音信息。

在具体实施中，所述语音活动侦测单元405适于采用如下的公式计算得到当前帧对应的VAD向量：OVAD＝[1 1 1]*PDM＝[S_v(e+i+p),S_μ(e+i+p),S_s(e+i+p)]；其中，OVAD表示当前帧对应的VAD向量，S_v(e+i+p)表示所述VAD向量中的语音类别分值，S_μ(e+i+p)表示所述VAD向量中的非语音类别分值，S_s(e+i+p)表示所述VAD向量中的静音类别分值。

在本发明一实施例中，为了节省计算各个帧的周期估计的计算量本发明实施例中的语音活动侦测装置400还可以包括削波处理单元406，其中：

削波处理单元406，适于在所述采用短时自相关函数对当前帧进行周期估计，得到当前帧的周期数之前，对当前帧进行三电平中心削波处理。

在本发明一实施例中，为了消除直流偏移对于信号的影响，以进一步提高语音活动侦测的准确性，本发明实施例中的语音活动侦测装置400还可以包括滤除单元407，其中：

滤除单元407，适于在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前，滤除当前帧的直流偏移。

在本发明一实施例中，为了消除不同帧之间的频谱能量泄露，以进一步提高语音活动侦测的准确性，本发明实施例中的语音活动侦测装置400还可以包括加窗处理单元408，其中：

加窗处理单元408，适于在所述对遍历至的当前帧进行离散傅立叶变换运算得到对应的频谱能量之前，对当前帧采用汉明窗进行加窗处理。

与现有技术相比，本发明的技术方案具有以下的优点：

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例的方法及***做了详细的介绍，本发明并不限于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音活动侦测方法，其特征在于，包括：

将输入的声音数据划分为多个非重叠的帧；

对所述多个非重叠的帧进行遍历，计算得到当前帧的频谱能量、短时能量和周期数；

基于当前帧的频谱能量、短时能量和周期数，计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率；

采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵；

基于当前帧的概率空间矩阵，计算当前帧对应的VAD向量，所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值；

当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值，确定对应的当前帧中包括语音信息。

2.根据权利要求1所述的语音活动侦测方法，其特征在于，所述计算得到当前帧的频谱能量、短时能量和周期数，包括：

对当前帧进行离散傅立叶变换运算得到对应的频谱能量；

基于所述当前帧对应的频谱能量，计算得到当前帧的短时能量；

采用短时自相关函数对当前帧进行周期估计，得到当前帧的周期数。

3.根据权利要求2所述的语音活动侦测方法，其特征在于，所述基于所述当前帧对应的频谱能量，计算得到当前帧的短时能量，包括：将当前帧中的所有采样点的幅度的平方和，作为当前帧的短时能量。

4.根据权利要求2所述的语音活动侦测方法，其特征在于，在采用短时自相关函数对当前帧进行周期估计，得到当前帧的周期数之前，还包括：对当前帧进行三电平中心削波处理。

5.根据权利要求2所述的语音活动侦测方法，其特征在于，在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前，还包括：滤除各个帧的直流偏移。

6.根据权利要求2所述的语音活动侦测方法，其特征在于，在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前，还包括：对当前帧采用汉明窗进行加窗处理。

7.根据权利要求1所述的语音活动侦测方法，其特征在于，所述基于当前帧的频谱能量、短时能量和周期数，计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率，包括：

<mrow> <msub> <mi>S</mi> <mi>a</mi> </msub> <mo>=</mo> <mfenced open = "{" close = "}"> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>x</mi> <mo><</mo> <msub> <mi>&mu;</mi> <mi>A</mi> </msub> <mo>+</mo> <msub> <mi>&sigma;</mi> <mi>A</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <mrow> <mo>(</mo> <msub> <mi>&mu;</mi> <mi>A</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>B</mi> </msub> <mo>)</mo> <mo>(</mo> <msub> <mi>&sigma;</mi> <mi>A</mi> </msub> <mo>+</mo> <msub> <mi>&sigma;</mi> <mi>B</mi> </msub> <mo>)</mo> </mrow> </mfrac> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mo>(</mo> <mrow> <msub> <mi>&mu;</mi> <mi>A</mi> </msub> <mo>+</mo> <msub> <mi>&sigma;</mi> <mi>A</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>&mu;</mi> <mi>A</mi> </msub> <mo>+</mo> <msub> <mi>&sigma;</mi> <mi>A</mi> </msub> <mo>&le;</mo> <mi>x</mi> <mo><</mo> <msub> <mi>&mu;</mi> <mi>B</mi> </msub> <mo>-</mo> <msub> <mi>&sigma;</mi> <mi>B</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>&mu;</mi> <mi>B</mi> </msub> <mo>-</mo> <msub> <mi>&sigma;</mi> <mi>B</mi> </msub> <mo>&le;</mo> <mi>x</mi> <mo><</mo> <msub> <mi>&mu;</mi> <mi>B</mi> </msub> <mo>+</mo> <msub> <mi>&sigma;</mi> <mi>B</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <mrow> <mo>(</mo> <msub> <mi>&mu;</mi> <mi>A</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>B</mi> </msub> <mo>)</mo> <mo>(</mo> <msub> <mi>&sigma;</mi> <mi>A</mi> </msub> <mo>+</mo> <msub> <mi>&sigma;</mi> <mi>B</mi> </msub> <mo>)</mo> </mrow> </mfrac> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mo>(</mo> <mrow> <msub> <mi>&mu;</mi> <mi>A</mi> </msub> <mo>+</mo> <msub> <mi>&sigma;</mi> <mi>A</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>&mu;</mi> <mi>B</mi> </msub> <mo>+</mo> <msub> <mi>&sigma;</mi> <mi>B</mi> </msub> <mo>&le;</mo> <mi>x</mi> <mo><</mo> <msub> <mi>&mu;</mi> <mi>C</mi> </msub> <mo>-</mo> <msub> <mi>&sigma;</mi> <mi>C</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>x</mi> <mo><</mo> <msub> <mi>&mu;</mi> <mi>C</mi> </msub> <mo>-</mo> <msub> <mi>&sigma;</mi> <mi>C</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>

其中，S_a表示当前帧的频谱能量、短时能量或周期数落在预设的a的概率空间的概率，a表示语音类别、噪音类别或者静音类别，x表示当前帧的频谱能量、短时能量或周期数，μ_A、μ_B、μ_C、σ_A、σ_B、σ_C分别表示预设的阈值。

8.根据权利要求7所述的语音活动侦测方法，其特征在于，所述采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵，包括：

9.根据权利要求8所述的语音活动侦测方法，其特征在于，所述基于当前帧的概率空间矩阵，计算当前帧对应的VAD向量，包括：

OVAD＝[1 1 1]*PDM＝[S_v(e+i+p),S_μ(e+i+p),S_s(e+i+p)]；

10.根据权利要求1所述的语音活动侦测方法，其特征在于，所述多个非重叠的帧中的各个帧的时长为15ms。

11.一种语音活动侦测装置，其特征在于，包括：

分帧处理单元，适于将输入的声音数据划分为多个非重叠的帧；

特征向量计算单元，适于对所述多个非重叠的帧进行遍历，计算得到当前帧的频谱能量、短时能量和周期数；

概率计算单元，适于基于当前帧的频谱能量、短时能量和周期数，计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率；

概率空间矩阵构建单元，适于采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵；

语音活动侦测单元，适于基于当前帧的概率空间矩阵，计算当前帧对应的VAD向量，所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值；当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值，确定对应的当前帧中包括语音信息。

12.根据权利要求11所述的语音活动侦测装置，其特征在于，所述特征向量计算单元适于对当前帧进行离散傅立叶变换运算得到对应的频谱能量；基于所述当前帧对应的频谱能量，计算得到当前帧的短时能量；采用短时自相关函数对当前帧进行周期估计，得到当前帧的周期数。

13.根据权利要求12所述的语音活动侦测装置，其特征在于，所述特征向量计算单元适于将当前帧中的所有采样点的幅度的平方和，作为当前帧的短时能量。

14.根据权利要求12所述的语音活动侦测装置，其特征在于，还包括：削波处理单元适于在所述采用短时自相关函数对当前帧进行周期估计，得到当前帧的周期数之前，对当前帧进行三电平中心削波处理。

15.根据权利要求12所述的语音活动侦测装置，其特征在于，还包括：直流偏移滤除单元，适于在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量，滤除当前帧的直流偏移。

16.根据权利要求12所述的语音活动侦测装置，其特征在于，还包括：加窗处理单元，适于在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前，对当前帧采用汉明窗进行加窗处理。

17.根据权利要求11所述的语音活动侦测装置，其特征在于，所述概率计算单元适于采用如下的公式计算得到当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率：

18.根据权利要求17所述的语音活动侦测装置，其特征在于，所述概率空间矩阵构建单元构建的当前帧的概率空间矩阵为：

19.根据权利要求18所述的语音活动侦测装置，其特征在于，所述语音活动侦测单元适于采用如下的公式计算得到当前帧对应的VAD向量：

OVAD＝[1 1 1]*PDM＝[S_v(e+i+p),S_μ(e+i+p),S_s(e+i+p)]；

20.根据权利要求11所述的语音活动侦测装置，其特征在于，所述分帧处理单元划分得到的所述多个非重叠的帧中的各个帧的时长为15ms。