CN111292758B

CN111292758B - 语音活动检测方法及装置、可读存储介质

Info

Publication number: CN111292758B
Application number: CN201910184966.8A
Authority: CN
Inventors: 孟建华; 董斐; 張維城; 戚萌; 林福辉
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2022-10-25
Anticipated expiration: 2039-03-12
Also published as: CN111292758A

Abstract

一种语音活动检测方法及装置、可读存储介质，所述语音活动检测方法包括：获取采集到的语音信号；分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动；当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动。采用上述方案，可以准确地检测出语音活动。

Description

语音活动检测方法及装置、可读存储介质

技术领域

本发明属于语音技术领域，特别涉及一种语音活动检测方法及装置、可读存储介质。

背景技术

传统的语音活动检测方法，例如基于音量或者麦克风电平的检测方法，在嘈杂环境下经常会出现误检，进而导致语音设备误激活，不仅存在费电的问题，而且也会打扰他人。

现有的语音活动检测方法大多基于声音能量判断，主要存在以下两方面缺点：一是在噪声环境下无法准确分辨语音，例如在嘈杂的公共场合以及室外常出现的风声等；二是在安静环境下，容易因一些突发的非语音类声音出现误检，例如电话铃声、关门声等。

发明内容

本发明实施例解决的是如何准确地检测出语音活动。

为解决上述技术问题，本发明实施例提供一种语音活动检测方法，语音活动检测方法包括：获取采集到的语音信号；分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动；当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动。

可选的，所述分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动，包括：对所述语音信号进行语音降噪计算，得到降噪后的语音信号；计算所述语音信号对应的能量以及所述降噪后的语音信号对应的能量，得到降噪前后语音信号的能量比值；当所述能量比值小于预设的第一能量比值阈值时，判定所述语音信号存在语音活动。

可选的，所述分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动，包括：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；采用维纳滤波降噪算法对所述语音信号进行语音降噪计算，得到降噪后的语音信号频域幅度谱；根据维纳滤波器函数、所述降噪后的语音信号频域幅度谱以及所述语音信号频域幅度谱，计算降噪前后语音信号频域幅度谱的能量比值；所述维纳滤波器函数根据所述维纳滤波降噪算法和所述语音信号的噪声估计值计算得到；所述噪声估计值采用噪声估计算法计算得到；当所述能量比值小于预设第二能量比值阈值时，判定所述语音信号存在语音活动。

可选的，采用如下公式计算所述降噪前后语音信号频域幅度谱的能量比值：

其中，E_w为降噪前后语音信号频域幅度谱的能量比值，ks为预设的频率点起点，ke为预设的频率点终点，Y(k)为所述语音信号频域幅度谱，S'(k)为所述降噪后的语音信号频域幅度谱。

可选的，所述预设的第二能量比值阈值与以下值正相关：所述语音信号对应的能量与所述噪声估计值对应的能量的比值。

可选的，所述分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动，包括：当所述语音信号在预设的语音基频范围内且包含谐波特征时，判定所述语音信号存在语音活动。

可选的，所述分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动，包括：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；确定所述语音信号频域幅度谱的峰值个数；所述语音信号频域幅度谱的峰值采用如下方式确定：当所述语音信号频域幅度谱中的第i个频率点对应的频域幅度谱大于第i+1个频率点对应的频域幅度谱、第i-1个频率点对应的频域幅度谱以及第i个频率点对应的预设幅度阈值中的最大值时，确定所述第i个频率点对应的频域幅度谱为所述语音信号语音频域幅度谱的一个峰值；当所述峰值个数超过预设峰值个数阈值时，判定所述语音信号存在语音活动。

可选的，所述第i个频率点对应的预设幅度阈值采用以下方式得到：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；选取所述语音信号的噪声估计值、所述语音信号频域幅度谱均值、所述第i-1频率点至所述第i+1频率点内对应的最小语音频域幅度谱中的极大值，作为所述第i个频率点对应的预设幅度阈值；所述语音信号的噪声估计值采用噪声估计算法计算得到。

可选的，在确定所述语音信号频域幅度谱的峰值个数之后，还包括：将每个峰值对应的频率索引值依次作为基频频率，计算基频频率对应的峰值之后的每个峰值对应的频率索引值与所述基频频率的倍频偏差；当所述倍频偏差大于预设偏差阈值时，排除所述峰值；根据所述倍频偏差和剩余的峰值，依次计算全部剩余峰值的加权值；对每个基频频率下对应的加权值进行大小比较，选取最大加权值；当最大加权值大于预设加权阈值时，判定所述语音信号存在语音活动。

可选的，采用以下公式计算所述全部剩余峰值的加权值：E_h＝∑α_nY[p_n]；其中，E_h为所述全部剩余峰值的加权值，p_n为第n个剩余峰值对应的频率索引值，Y[p_n]为第n个剩余峰值对应的频域幅度谱，α_n为预设的权重系数，α_n∈(0,1]。

可选的，采用以下公式计算所述倍频偏差：

其中，Δf为所述倍频偏差，p_n为第n个峰值对应的频率索引值，p_bb为作为基频频率的频率索引值。

可选的，所述预设加权阈值与以下值正相关：所述语音信号对应的能量与噪声估计值对应的能量的比值；所述语音信号的噪声估计值采用噪声估计算法计算得到。

可选的，采用以下公式计算所述第i个频率点对应的预设幅度阈值：Y_thr＝2max(mean(Y),D[k],min(Y[k-2]……Y[k+2])；其中，Y_thr为所述第i个频率点对应的预设幅度阈值，Y为所述语音信号频域幅度谱，D[k]为所述噪声估计值，k为频率点，Y[k-2]……Y[k+2]为第k-2至k+2频率点对应的语音信号频域幅度谱。

可选的，所述判定从所述语音信号中检测到语音活动，包括：计算所述语音信号对应的能量；当所述语音信号对应的能量大于预设能量阈值时，判定从所述语音信号中检测到语音活动。

可选的，采用以下公式计算所述语音信号对应的能量：E_abs＝∑(Y[k])²；其中，E_abs为所述语音信号对应的能量，Y[k]为语音信号频域幅度谱，k为预设的频率范围；所述语音信号频域幅度谱通过对所述语音信号进行快速傅里叶变换得到。

可选的，所述计算所述语音信号对应的能量，包括：对所述语音信号进行噪声估计，得到噪声估计值；计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值；当所述语音信号对应的能量与所述噪声估计值对应的能量的比值大于预设的第三能量比值阈值时，判定从所述语音信号中检测到语音活动。

可选的，采用以下公式计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值：E_vs＝log(E_abs)-log(E_n)；其中，E_vs为所述语音信号对应的能量与所述噪声估计值对应的能量的比值，E_abs为所述语音信号对应的能量，E_n为所述噪声估计值对应的能量，E_n＝∑(D[k])²，D[k]为所述噪声估计值。

可选的，当判定从所述语音信号中检测到语音活动后，还包括：当检测到的所述语音活动在连续的非语音活动后出现，且所述连续的非语音活动帧数超过预设的第一帧数阈值时，缓存所述语音活动，并当所述语音活动的语音帧数超过预设的第二帧数阈值时，输出所述语音活动对应的语音信号；当检测到的非语音活动在连续的语音活动后出现，且所述连续的语音活动帧数超过预设的第三帧数阈值，继续进行语音活动检测，当所述非语音活动的帧数超过预设的第四帧数阈值时，中止输出所述语音活动对应的语音信号。

可选的，当判定从所述语音信号中检测到语音活动后，还包括：在预设的混合帧数阈值范围内，当检测到的所述语音活动与非语音活动交替出现时，计算所述语音活动帧数占所述语音活动与所述非语音活动帧数之和的比例；当所述比例大于预设比例阈值时，输出所述语音活动对应的语音信号。

可选的，所述语音降噪算法为以下至少一种算法：LMS、NLMS、谱减法以及维纳滤波算法。

可选的，所述谐波检测算法为以下至少一种算法：自相关函数法、倒谱法、线性预测法以及小波法。

为解决上述技术问题，本发明实施例还公开了一种语音活动检测装置，包括：获取单元，用于获取采集到的语音信号；第一判断单元，用于分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动；第二判断单元，用于当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动。

可选的，所述第一判断单元，用于：对所述语音信号进行语音降噪计算，得到降噪后的语音信号；计算所述语音信号对应的能量以及所述降噪后的语音信号对应的能量，得到降噪前后语音信号的能量比值；当所述能量比值小于预设的第一能量比值阈值时，判定所述语音信号存在语音活动。

可选的，所述第一判断单元，用于：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；采用维纳滤波降噪算法对所述语音信号进行语音降噪计算，得到降噪后的语音信号频域幅度谱；根据维纳滤波器函数、所述降噪后的语音信号频域幅度谱以及所述语音信号频域幅度谱，计算降噪前后语音信号频域幅度谱的能量比值；所述维纳滤波器函数根据所述维纳滤波降噪算法和所述语音信号的噪声估计值计算得到；所述噪声估计值采用噪声估计算法计算得到；当所述能量比值小于预设第二能量比值阈值时，判定所述语音信号存在语音活动。

可选的，所述第一判断单元，用于：当所述语音信号在预设的语音基频范围内且包含谐波特征时，判定所述语音信号存在语音活动。

可选的，所述第一判断单元，用于：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；确定所述语音信号频域幅度谱的峰值个数；所述语音信号频域幅度谱的峰值采用如下方式确定：当所述语音信号频域幅度谱中的第i个频率点对应的频域幅度谱大于第i+1个频率点对应的频域幅度谱、第i-1个频率点对应的频域幅度谱以及第i个频率点对应的预设幅度阈值中的最大值时，确定所述第i个频率点对应的频域幅度谱为所述语音信号语音频域幅度谱的一个峰值；当所述峰值个数超过预设峰值个数阈值时，判定所述语音信号存在语音活动。

可选的，所述第一判断单元，还用于：将每个峰值对应的频率索引值依次作为基频频率，计算基频频率对应的峰值之后的每个峰值对应的频率索引值与所述基频频率的倍频偏差；当所述倍频偏差大于预设偏差阈值时，排除所述峰值；根据所述倍频偏差和剩余的峰值，依次计算全部剩余峰值的加权值；对每个基频频率下对应的加权值进行大小比较，选取最大加权值；当最大加权值大于预设加权阈值时，判定所述语音信号存在语音活动。

可选的，采用以下公式计算所述倍频偏差：

可选的，所述第二判断单元，用于：计算所述语音信号对应的能量；当所述语音信号对应的能量大于预设能量阈值时，判定从所述语音信号中检测到语音活动。

可选的，所述第二判断单元，用于：对所述语音信号进行噪声估计，得到噪声估计值；计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值；当所述语音信号对应的能量与所述噪声估计值对应的能量的比值大于预设的第三能量比值阈值时，判定从所述语音信号中检测到语音活动。

可选的，所述第二判断单元，还用于：当检测到的所述语音活动在连续的非语音活动后出现，且所述连续的非语音活动帧数超过预设的第一帧数阈值时，缓存所述语音活动，并当所述语音活动的语音帧数超过预设的第二帧数阈值时，输出所述语音活动对应的语音信号；当检测到的非语音活动在连续的语音活动后出现，且所述连续的语音活动帧数超过预设的第三帧数阈值，继续进行语音活动检测，当所述非语音活动的帧数超过预设的第四帧数阈值时，中止输出所述语音活动对应的语音信号。

可选的，所述第二判断单元，还用于：在预设的混合帧数阈值范围内，当检测到的所述语音活动与非语音活动交替出现时，计算所述语音活动帧数占所述语音活动与所述非语音活动帧数之和的比例；当所述比例大于预设比例阈值时，输出所述语音活动对应的语音信号。

本发明实施例还公开了一种计算机可读存储介质，计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一种所述的语音活动检测方法的步骤。

本发明实施例还提供了一种语音活动检测装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一种所述的语音活动检测方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动。当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动。采用语音降噪算法滤除稳态噪声对语音活动检测的干扰，采用谐波检测算法滤除非稳态噪声对语音活动检测的干扰。当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动，大大提高了语音活动检测的准确度。

进一步，当所述语音信号对应的能量大于预设能量阈值时，判定从所述语音信号中检测到语音活动。可以通过语音信号的能量判断提高语音活动检测的准确度。

进一步，当检测到的所述语音活动在连续的非语音活动后出现，且所述连续的非语音活动帧数超过预设的第一帧数阈值时，缓存所述语音活动，并当所述语音活动的语音帧数超过预设的第二帧数阈值时，输出所述语音活动对应的语音信号；当检测到的非语音活动在连续的语音活动后出现，且所述连续的语音活动帧数超过预设的第三帧数阈值，继续进行语音活动检测，当所述非语音活动的帧数超过预设的第四帧数阈值时，中止输出所述语音活动对应的语音信号。可以排除对个别语音帧的误检测，也滤除了一些短暂的人声对语音活动检测的干扰。

附图说明

图1是本发明实施例中的一种语音活动检测方法的流程图；

图2是本发明实施例中的含噪语音信号波形图；

图3是本发明实施例中的采用语音降噪算法的含噪语音的语音活动检测结果示意图；

图4是本发明实施例中的采用谐波检测算法的含噪语音的语音活动检测结果示意图；

图5是本发明实施例中的吹气声和风声的波形图；

图6是本发明实施例中的采用维纳滤波算法的吹气声和风声的语音活动检测结果示意图；

图7是本发明实施例中的采用峰检测算法的吹气声和风声的语音活动检测结果示意图；

图8是本发明实施例中的报警声波形图；

图9是本发明实施例中的采用维纳滤波算法的报警声的语音活动检测结果示意图；

图10是本发明实施例中的采用峰检测算法的报警声的语音活动检测结果示意图；

图11是本发明实施例中的一种语音活动检测装置的结构示意图。

具体实施方式

现有技术中，语音活动检测方法大多基于声音能量判断，主要存在以下两方面缺点：一是在噪声环境下无法准确分辨语音，例如在嘈杂的公共场合以及室外常出现的风声等；二是在安静环境下，容易因一些突发的非语音类声音出现误检，例如电话铃声、关门声等。

本发明实施例中，分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动。当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动。采用语音降噪算法滤除稳态噪声对语音活动检测的干扰，采用谐波检测算法滤除非稳态噪声对语音活动检测的干扰。当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动，大大提高了语音活动检测的准确度。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

本发明实施例提供了一种语音活动检测方法，参照图1，以下通过具体步骤进行详细说明。

步骤S101，获取采集到的语音信号。

在具体实施中，语音信号可以由具有音频采集功能的设备采集得到。在实际应用中可知，采集到的语音信号中通常携带有噪声信号，因此可以对采集到的语音信号进行语音活动检测处理，以判断语音信号是否存在对应的语音活动。

在实际应用中，采集到的语音信号可能会带有一定程度的直流漂移，从而对后续处理造成影响。因此，可以先对采集到的语音信号进行去直流处理，得到去除直流漂移干扰后的语音信号。

如上所述，可以采用一阶滤波算法对采集到的语音信号进行去直流处理，具体处理过程如下：根据采集到的语音信号和滤波系数，得到直流分量估计值，再去除采集到的语音信号中的直流分量估计值，得到去除直流漂移干扰后的语音信号。

在本发明实施例中，可以采用如下公式(1)计算所述直流分量估计值：

dc(n)＝αy(n)+(1-α)dc(n-1)； (1)

其中，dc(n)为第n帧的直流分量估计值，且其初始值为0，即dc(1)＝0，dc(n-1)为第n-1帧的直流分量估计值，y(n)为采集到的语音信号，α为滤波系数，α∈(0,1)。滤波系数α越小直流分量估计值越平稳，但是灵敏度相应降低；滤波系数α越大灵敏度越高，相应的直流分量估计值越不稳定。因此，用户可以根据自身的实际需求，在实际使用中确定可接受的灵敏度范围和平稳度，选择合适的滤波系数α，本发明在此不作限定。

可以理解的是，上述去直流处理选用了一阶滤波算法来进行说明。在具体应用中，用户可以根据自身需求，选择不同的方法来对采集到的语音信号进行去直流处理，本发明在此不作赘述。

步骤S102，分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动。

在具体实施中，可以对语音信号进行加窗和分帧处理，以进行快速傅里叶变换，进而得到语音信号的短时频域幅度谱；再根据语音信号和语音信号的短时频域幅度谱，分别采用语音降噪算法和谐波检测算法，判断语音信号中否存在语音活动。

由于采集到的语音信号中通常包含各类噪声，因此需要从语音信号时检测出有效的语音活动，使得语音设备可以对语音活动进行提取或输出等后续操作。在本发明实施例中，语音活动可以是指：使用该语音设备的用户所进行的语音输出。

在具体实施中，可以采用语音降噪算法计算降噪前后语音信号对应的能量的比值，进而判断所述语音信号是否存在语音活动；同时，可以采用谐波检测算法计算语音信号的谐波能量是否符合语音活动的特征，进而判断所述语音信号是否存在语音活动。

在具体实施中，可以先对采集到的语音信号进行降噪处理。在本发明实施例中，可以采用以下至少一种语音降噪算法对采集到的语音信号进行降噪处理：LMS、NLMS、谱减法以及维纳滤波算法。用户可以根据自身的实际情况，选择一个或多个算法结合的方式进行降噪处理，进而在语音信号中检测到语音活动后，将降噪后的语音信号的频域幅度谱转化回时域数据，输出降噪后的语音信号，提高了语音的清晰度。

在具体实施中，谐波检测算法可以包括以下至少一种算法：自相关函数法、倒谱法、线性预测法以及小波法。用户可以根据自身的实际情况，选择一个或多个算法结合的方式进行谐波检测，本发明在此不作赘述。

在具体实施中，采用语音降噪算法判断所述语音信号是否存在语音活动可以包括以下过程：先对语音信号进行语音降噪计算，得到降噪后的语音信号；再计算所述语音信号对应的能量以及所述降噪后的语音信号对应的能量，得到降噪前后语音信号的能量比值；当所述能量比值小于预设的第一能量比值阈值时，判定所述语音信号存在语音活动。

在具体实施中，可以采用维纳滤波算法判断所述语音信号是否存在语音活动。

维纳滤波算法设计了一个数字滤波器h(n)，当输入了含有噪声的语音信号y(n)时，滤波器的输出为y(n)*h(n)，按照最小均方误差准则使得滤波器的输出y(n)*h(n)与不含噪声的语音信号s(n)的均方误差E[{y(n)*h(n)-s(n)}²]达到最小。

维纳滤波器的频域幅度谱估计器H(k)可以采用以下公式(2)表示：

其中，P_s[k]为不含噪的语音功率谱，P_d[k]为噪声功率谱，维纳滤波器的频域幅度谱估计器H(k)通过对数字滤波器h(n)进行快速傅里叶变换得到，语音信号功率谱通过对相应的语音信号先进行自相关预算，再进行快速傅里叶变换得到，本发明在后文中不再赘述。

定义先验信噪比SNR_prior[k]为不含噪的语音功率谱P_s[k]与噪声功率谱P_d[k]的比值，可以将公式(2)转化为以下公式(3)：

定义后验信噪比SNR_post[k]为语音功率谱(不含噪声)P_y[k]与噪声功率谱P_d[k]的比值，采用如下公式(4)表示后验信噪比SNR_post[k]：

由于语音信号包括不含噪声的语音信号和噪声信号，因此，采用如下公式(5)表示语音信号功率谱P_y[k]：

P_y[k]＝P_s[k]+P_d[k]； (5)

因此，采用如下推导过程得到公式(6)和公式(7)：

其中，SNR_prior[k]＝SNR_post[k]-1；SNR_prior[k]_t为t时间的先验信噪比，SNR_post[k]_t为t时间的后验信噪比，SNR_prior[k]_(t-1)为t-1时间的先验信噪比，Y[k]为语音信号频域幅度谱，D(k)为语音信号的噪声估计值，t为时间，α为平滑参数，α∈(0,1)，且α越大，对噪声的抑制效果越大。

语音信号频域幅度谱Y[k]可以通过语音采集设备采集语音信号得到，语音信号的噪声估计值可以通过噪声估计算法计算得到。

在实际应用中，噪声估计算法可以包括：连续谱最小值跟踪法，递归平均噪声估计、直方图噪声估计等，本发明不限定进行噪声估计的噪声估计算法。

以连续谱最小值跟踪法为例，其结合了频谱短时最小值算法和时间递归平均算法，采用如下公式(8)计算噪声估计值的频域幅度谱D(k)：

其中，D(k)_t和D[k]_t-1分别表示当前帧和前一帧在第k个频点的噪声估计值的频域幅度谱，Y[k]_t和Y[k]_t-1分别表示当前帧和前一帧在第k个频点的含有噪声的语音信号的频域幅度谱，默认其初始帧为纯噪声信号，即D[k]₀＝Y[k]₀，S[k]_t表示当前帧在第k个频点的不含有噪声的语音信号的频域幅度谱，SM₁、SM₂、SM₃均为平滑因子，且均大于0小于1。

得到噪声估计值的频域幅度谱D(k)后，结合公式(3)、(4)、(6)，可以根据上一帧的滤波器函数递推得到当前帧的滤波器函数H(k)_t，则降噪后语音信号频域幅度谱可以采用如下公式(9)计算得到：

S'(k)＝Y(k)_tH(k)_t； (9)

在具体实施中，采用维纳滤波这一语音降噪算法判断所述语音信号是否存在语音活动。先对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；采用维纳滤波降噪算法对所述语音信号进行语音降噪计算，得到降噪后的语音信号频域幅度谱；根据维纳滤波器函数、所述降噪后的语音信号频域幅度谱以及所述语音信号频域幅度谱，计算降噪前后语音信号频域幅度谱的能量比值；所述维纳滤波器函数根据所述维纳滤波降噪算法和所述语音信号的噪声估计值计算得到；所述噪声估计值采用噪声估计算法计算得到；当所述能量比值小于预设的第二能量比值阈值时，判定所述语音信号存在语音活动。

在具体实施中，采用如下公式(10)计算所述降噪前后语音信号频域幅度谱的能量比值：

在实际应用中，可以直接计算降噪前后语音信号频域幅度谱在对数域的差值作为能量比值，以减少计算量；还可以计算降噪前后语音信号频域幅度谱的平方差作为能量比值，进而在所述平方差小于预设噪声阈值时，判定所述语音信号存在语音活动，即只要可以达到计算出降噪前后语音信号对应的能量比的目的，不限定具体的计算方式。

在实际应用中，计算降噪前后语音信号频域幅度谱的能量比值，可以通过对数的函数特性，将预设的第二能量比值阈值在一定范围内稳定下来，进而达到准确判断语音信号是否存在语音活动的目的。可以理解的是，用户也可以根据自身的情况，设定降噪前后语音信号频域幅度谱能量在不同函数域的差值或比值，本发明在此不作限定。

在具体实施中，所述预设的第二能量比值阈值可以根据以往的语音活动检测结果设定为固定值，也可以根据语音信号的具体情况设定为动态阈值，还可以与以下值正相关：所述语音信号对应的能量与所述噪声估计值对应的能量的比值。用户可以根据自身的不同需求，选择一种或多种预设的第二能量比值阈值的设定方式，本发明在此不作赘述。

在具体实施中，由于语音信号由基频信号和一系列谐波信号组成，当语音信号在预设的语音基频范围内且包含谐波特征时，可以判定所述语音信号存在语音活动。谐波特征可以是包括基频，一次谐波，二次谐波等在内的完成谐波系列，也可以是包含二次谐波和三次谐波这样的连续谐音片段。通过谐波特征判断语音活动，对语音信号的质量要求较低，且具备抗各类噪声干扰的能力。

共振峰是反映声道谐振特性的重要特征，共振峰表现为语音频谱包络中具有周期性的极大值。由于谐波信号的频率近似为基频信号的整数倍，可以通过查找具有周期性谐波能量的方式，检测一帧语音的频域幅度谱的极大值及其对应的频率，即峰检测。

在实际应用中，语音信号的低频带一般存在较多的噪声，而3000Hz以上的峰检测搜索范围又会增加大量的计算量，并且由于幅度较小容易造成误检。因此，考虑到噪声干扰和计算复杂度，峰检测的搜索范围并不是越大越好，应在人声主要频率范围内进行搜索。

在本发明一实施例中，选取80Hz-3000Hz的范围来进行峰检测。其索引范围为80N/f_s至3000N/f_s，其中，N为快速傅里叶变换长度，f_s为采样率。用户根据自身需求，可以对搜索范围进行调整，本发明在此不作限定。在确定搜索范围后，从索引范围依次检测。如果当前索引处的幅度大于其前后两点的幅值，并且还大于该处的预设幅度阈值时，判定当前索引处为一个峰值，峰值总个数加一。当索引范围内均检测完毕后，检测到的峰值个数小于两个时，判定语音信号中不存在语音活动的概率较大。

在具体实施中，先对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱，进而确定所述语音信号的频域幅度谱的峰值个数。当所述峰值个数超过预设峰值个数阈值时，判定所述语音信号存在语音活动。

语音信号的频域幅度谱的峰值采用如下方式确定：当所述语音信号的频域幅度谱中的第i个频率点对应的频域幅度谱大于第i+1个频率点对应的频域幅度谱、第i-1个频率点对应的频域幅度谱以及第i个频率点对应的预设幅度阈值中的最大值时，确定所述第i个频率点对应的频域幅度谱为所述语音信号的语音频域幅度谱的一个峰值。

在具体实施中，第i个频率点对应的预设幅度阈值可以采用以下方式得到：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；选取所述语音信号的噪声估计值、所述语音信号频域幅度谱均值、所述第i-1频率点至所述第i+1频率点内对应的最小语音频域幅度谱中的极大值，作为所述第i个频率点对应的预设幅度阈值；所述语音信号的噪声估计值采用噪声估计算法计算得到。

在具体实施中，可以采用以下公式(11)计算所述第i个频率点对应的预设幅度阈值：

Y_thr＝2max(mean(Y),D[k],min(Y[k-2]……Y[k+2])； (11)

其中，Y_thr为所述第i个频率点对应的预设幅度阈值，Y为所述语音信号频域幅度谱，D[k]为所述噪声估计值，k为频率点，Y[k-2]……Y[k+2]为第k-2至k+2频率点对应的语音信号频域幅度谱。

在具体实施中，在确定所述语音信号频域幅度谱的峰值个数之后，还包括：将每个峰值对应的频率索引值依次作为基频频率，计算基频频率对应的峰值之后的每个峰值对应的频率索引值与所述基频频率的倍频偏差；当所述倍频偏差大于预设偏差阈值时，排除所述峰值；根据所述倍频偏差和剩余的峰值，依次计算全部剩余峰值的加权值；对每个基频频率下对应的加权值进行大小比较，选取最大加权值；当最大加权值大于预设加权阈值时，判定所述语音信号存在语音活动。

在具体实施中，采用以下公式(12)计算所述倍频偏差：

其中，Δf为所述倍频偏差，p_n为第n个峰值对应的频率索引值，p_bb为作为基频频率的的频率索引值。

在具体实施中，采用以下公式(13)计算所述全部剩余峰值的加权值：

E_h＝∑α_nY[p_n]； (13)

其中，E_h为所述全部剩余峰值的加权值，p_n为第n个剩余峰值对应的频率索引值，Y[p_n]为第n个剩余峰值对应的频域幅度谱，α_n为预设的权重系数，α_n∈(0,1]，α_n与倍频和倍频偏差相关，当倍频越大α_n越小，当倍频偏差越大α_n也越小。

在具体实施中，预设加权阈值可以根据以往的语音活动检测结果设定为固定值，也可以根据语音信号的具体情况设定为动态阈值，还可以与以下值正相关：所述语音信号对应的能量与噪声估计值对应的能量的比值；所述语音信号的噪声估计值采用噪声估计算法计算得到。

在本发明一实施例中，在索引范围内检测到所有峰值后，标记所有检测到的峰值为Y[p₁]……Y[p_cnt]，将所有峰值对应的频率索引值依次作为候选基频或谐波信号。由于语音基频频率一般在80Hz至500Hz之间，首先假设p₁为基频频率，再对基频频率以上的候选谐波所在频率p₂……p_cnt进行倍频判断，即判断p₂至p_cnt是否接近基频信号索引的整数倍。如果倍频偏差大于预设偏差阈值，则排除该索引处对应的峰值。然后对剩下的谐波进行幅度加权，得到以p₁为基频频率的幅度加权值。接下来再依次假设不超过500Hz频率索引的p₂……p_cnt-1为基频频率，重复以上步骤找出最大加权值。当最大加权值大于预设加权阈值时，判定所述语音信号存在语音活动。

采用语音降噪算法和谐波检测算法，不仅使得语音活动检测有较高的鲁棒性，由于各类算法均在频域幅度谱的基础上进行计算，计算过程的数据重复利用率高，降低了计算量和计算成本。

步骤S103，当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动。

在语音活动检测的过程中，经常会出现非使用用户的声音混杂在语音信号中，进而造成误检的情况。因此，可以计算语音信号对应的能量，再与预设能量阈值比较，判断语音信号中是否存在语音活动。

在具体实施中，判定从所述语音信号中检测到语音活动，可以包括：计算所述语音信号对应的能量；当所述语音信号对应的能量大于预设能量阈值时，判定从所述语音信号中检测到语音活动，在语音降噪算法和谐波检测算法的基础上，进一步提高了语音活动检测的准确度。

在具体实施中，采用以下公式(14)计算所述语音信号对应的能量：

E_abs＝∑(Y[k])²； (14)

其中，E_abs为所述语音信号对应的能量，Y[k]为语音信号频域幅度谱，k为预设的频率范围；所述语音信号频域幅度谱通过对所述语音信号进行快速傅里叶变换得到。

在本发明一实施例中，对于一帧语音信号的频域幅度谱，其对应的语音信号对应的能量为每个频点的平方和。同时，考虑语音的主要频率范围，并排除可能存在的噪声干扰，计算80Hz至3000Hz频点(即部分频带)的语音信号对应的能量。可以理解的是，用户根据自身的不同需求，可以调整选取的频带范围，本发明在此不作赘述。

在具体实施中，计算所述语音信号对应的能量，需要先对所述语音信号进行噪声估计，得到噪声估计值；再计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值；当所述语音信号对应的能量与所述噪声估计值对应的能量的比值大于预设的第三能量比值阈值时，判定从所述语音信号中检测到语音活动。

在实际应用中，计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值，可以通过对数的函数特性，将预设的第三能量比值阈值在一定范围内稳定下来，进而达到准确判断语音信号是否存在语音活动的目的。可以理解的是，用户也可以根据自身的情况，设定语音信号对应的能量与所述噪声估计值对应的能量在不同函数域的比值，本发明在此不作限定。

在具体实施中，采用以下公式(15)计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值：

E_vs＝log(E_abs)-log(E_n)； (15)

其中，E_vs为所述语音信号对应的能量与所述噪声估计值对应的能量的比值，E_abs为所述语音信号对应的能量，E_n为所述噪声估计值对应的能量，E_n＝∑(D[k])²，D[k]为所述噪声估计值。

在实际应用中，由于部分用户特殊的工作需要，如工程维修人员，很多时候不方便释放双手去操作对讲机的通话键(Push To Talk，PTT)进行通话，所以一些对讲机上就有声音侦测触发(Voice Operated Exchange，VOX)功能，即通过麦克风采集到的信号判断是否有语音活动，以作为开启或休眠对讲机的依据。当对讲机需要被激活时，用户不必按PTT键，可直接通过语音启动对讲器。因此，能够有效释放用户双手，使得交流对话更加方便。

本发明提出的语音活动检测方法可以用于此类语音对讲设备上，不仅能够在噪声环境下具有可靠的激活率和较低的误激活率，还可以通过检测语音信号对应的能量防止周围其他人说话时激活使用者的对讲机，也方便使用者根据声音大小进行音量调节。

在具体实施中，当判定从所述语音信号中检测到语音活动后，还包括：当检测到的所述语音活动在连续的非语音活动后出现，且所述连续的非语音活动帧数超过预设的第一帧数阈值时，缓存所述语音活动，并当所述语音活动的语音帧数超过预设的第二帧数阈值时，输出所述语音活动对应的语音信号；当检测到的非语音活动在连续的语音活动后出现，且所述连续的语音活动帧数超过预设的第三帧数阈值，继续进行语音活动检测，当所述非语音活动的帧数超过预设的第四帧数阈值时，中止输出所述语音活动对应的语音信号。可以排除对个别语音帧的误检测，也滤除了一些短暂的人声对语音活动检测的干扰。

在具体实施中，当判定从所述语音信号中检测到语音活动后，在预设的混合帧数阈值范围内，当检测到的所述语音活动与非语音活动交替出现时，计算所述语音活动帧数占所述语音活动与所述非语音活动帧数之和的比例；当所述比例大于预设比例阈值时，输出所述语音活动对应的语音信号，以抵抗短暂突发声音对语音活动检测的干扰。

本发明提出的语音活动检测方法用于语音设备上时，可以在语音设备内部设定一定量的缓存。麦克风每采集到一帧信号都先保存在缓存里。在连续非语音帧中检测到语音帧时，并不立即激活语音设备。待连续累计判定若干帧语音后再开始激活，并从缓存的数据开始发送。在连续语音帧中检测到非语音帧时，并不立即中断发送，而是连续累计判定若干帧非语音帧后再中断发送。

在本发明实施例中，可以设定阈值voice_confirm、mute_confirm、mix_confirm，其中，voice_confirm表示确认语音开始需要的帧数，以及决定缓存需要的帧数。voice_confirm增大可以排除很短暂的声音，降低误激活，但是会增加发送延迟。voice_confirm减小可以降低延迟，并发送持续时间较短的信号。mute_confirm表示确认语音结束需要的帧数。mix_confirm表示语音帧和非语音帧混合时确定语音候选段需要的帧数，设置为2或3时可以提高检测准确度。可以理解的是，上述三种阈值均可以根据用户的实际需求，设置为不同的数值，本发明在此不作限定。

接下来，设置语音帧数初始值voice_cnt为零，非语音帧数初始值mute_cnt为零。每当出现语音帧时，voice_cnt加1，否则mute_cnt加1。当voice_cnt等于mix_confirm时，令mute_cnt为零。当voice_cnt超过voice_confirm时，令mute_cnt为零，即确定有语音活动，从缓存语音帧开始发送语音。

当语音帧和非语音帧在数帧内交替混合一起时，计算混合段语音帧所占比例rate，如果比例rate较高则都归为语音帧，否则都归为非语音帧。

当mute_cnt超过mute_confirm时，令voice_cnt为零，判定语音信号中不存在语音活动，不发送语音。

综上所述，分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动。当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动。采用语音降噪算法滤除稳态噪声对语音活动检测的干扰，采用谐波检测算法滤除非稳态噪声对语音活动检测的干扰。当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动，大大提高了语音活动检测的准确度。

参照图2，给出了本发明实施例中的含噪语音信号波形图。图3给出了本发明实施例中的采用语音降噪算法的含噪语音的语音活动检测结果示意图。图4给出了本发明实施例中的采用谐波检测算法的含噪语音的语音活动检测结果示意图。其中，E_w为降噪前后语音信号频域幅度谱的能量比值，E_h为全部剩余峰值的最大加权值。

图2中横坐标单位为采样点，纵坐标单位为归一化的幅值。图3和图4中横坐标单位均为采样点，纵坐标单位均为设定值。

由于背景噪声中含有音量较小的语音，导致谐波检测偶尔会超过阈值，但是维纳滤波降噪结果判定为噪声帧，所以不会判定噪声为语音活动，结合谐波检测和维纳滤波降噪算法使得语音活动检测具有较好的检测准确度。

参照图5，给出了本发明实施例中的吹气声和风声的波形图，图6给出了本发明实施例中的采用维纳滤波算法的吹气声和风声的语音活动检测结果示意图，图7给出了本发明实施例中的采用峰检测算法的吹气声和风声的语音活动检测结果示意图。E_w为降噪前后语音信号频域幅度谱的能量比值，E_h为全部剩余峰值的最大加权值。

图5中横坐标单位为采样点，纵坐标单位为归一化的幅值。图6和图7中横坐标单位均为采样点，纵坐标单位均为设定值。

从图5-7可知，在噪声刚出现时，由于维纳滤波检测的噪声估计未能及时更新，会有短暂误判，但是谐波检测部分未检测到连续语音，只有少数几帧的误判。因此，结合上述两种算法，语音活动检测结果仍然不会出现误判，具有较好的检测准确度。

参照图8，给出了本发明实施例中的报警声波形图，图9给出了本发明实施例中的采用维纳滤波算法的报警声的语音活动检测结果示意图，图10给出了本发明实施例中的采用峰检测算法的报警声的语音活动检测结果示意图。E_w为降噪前后语音信号频域幅度谱的能量比值，E_h为全部剩余峰值的最大加权值。

图8中横坐标单位为采样点，纵坐标单位为归一化的幅值。图9和图10中横坐标单位均为采样点，纵坐标单位均为设定值。

由图8-10可知，在语音活动检测过程中，由于未检测到语音基频信号或者周期性谐波信号，语音活动检测结果不会出现误判，表现出较好的鲁棒性。

参照图11，本发明实施例还提供了一种语音活动检测装置100，包括：获取单元1001、第一判断单元1002以及第二判断单元1003；

其中，所述获取单元1001，用于获取采集到的语音信号；

所述第一判断单元1002，用于分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动；

所述第二判断单元1003，用于当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动。

在具体实施中，所述第一判断单元1002，可以用于：对所述语音信号进行语音降噪计算，得到降噪后的语音信号；计算所述语音信号对应的能量以及所述降噪后的语音信号对应的能量，得到降噪前后语音信号的能量比值；当所述能量比值小于预设的第一能量比值阈值时，判定所述语音信号存在语音活动。

在具体实施中，所述第一判断单元1002，可以用于：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；采用维纳滤波降噪算法对所述语音信号进行语音降噪计算，得到降噪后的语音信号频域幅度谱；根据维纳滤波器函数、所述降噪后的语音信号频域幅度谱以及所述语音信号频域幅度谱，计算降噪前后语音信号频域幅度谱的能量比值；所述维纳滤波器函数根据所述维纳滤波降噪算法和所述语音信号的噪声估计值计算得到；所述噪声估计值采用噪声估计算法计算得到；当所述能量比值小于预设第二能量比值阈值时，判定所述语音信号存在语音活动。

在具体实施中，可以采用如下公式计算所述降噪前后语音信号频域幅度谱的能量比值：

在具体实施中，所述预设的第二能量比值阈值可以与以下值正相关：所述语音信号对应的能量与所述噪声估计值对应的能量的比值。

在具体实施中，所述第一判断单元1002，可以用于：当语音信号在预设的语音基频范围内且包含谐波特征时，判定所述语音信号存在语音活动。

在具体实施中，所述第一判断单元1002，可以用于：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；确定所述语音信号的频域幅度谱的峰值个数；所述语音信号的频域幅度谱的峰值采用如下方式确定：当所述语音信号的频域幅度谱中的第i个频率点对应的频域幅度谱大于第i+1个频率点对应的频域幅度谱、第i-1个频率点对应的频域幅度谱以及第i个频率点对应的预设幅度阈值中的最大值时，确定所述第i个频率点对应的频域幅度谱为所述语音信号的语音频域幅度谱的一个峰值；当所述峰值个数超过预设峰值个数阈值时，判定所述语音信号存在语音活动。

在具体实施中，所述第i个频率点对应的预设幅度阈值可以采用以下方式得到：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；选取所述语音信号的噪声估计值、所述语音信号频域幅度谱均值、所述第i-1频率点至所述第i+1频率点内对应的最小语音频域幅度谱中的极大值，作为所述第i个频率点对应的预设幅度阈值；所述语音信号的噪声估计值采用噪声估计算法计算得到。

在具体实施中，所述第一判断单元1002，还可以用于：将每个峰值对应的频率索引值依次作为基频频率，计算基频频率对应的峰值之后的每个峰值对应的频率索引值与所述基频频率的倍频偏差；当所述倍频偏差大于预设偏差阈值时，排除所述峰值；根据所述倍频偏差和剩余的峰值，依次计算全部剩余峰值的加权值；对每个基频频率下对应的加权值进行大小比较，选取最大加权值；当最大加权值大于预设加权阈值时，判定所述语音信号存在语音活动。

在具体实施中，可以采用以下公式计算所述全部剩余峰值的加权值：E_h＝∑α_nY[p_n]；其中，E_h为所述全部剩余峰值的加权值，p_n为第n个剩余峰值对应的频率索引值，Y[p_n]为第n个剩余峰值对应的频域幅度谱，α_n为预设的权重系数，α_n∈(0,1]。

在具体实施中，可以采用以下公式计算所述倍频偏差：

在具体实施中，所述预设加权阈值可以与以下值正相关：所述语音信号对应的能量与噪声估计值对应的能量的比值；所述语音信号的噪声估计值采用噪声估计算法计算得到。

在具体实施中，可以采用以下公式计算所述第i个频率点对应的预设幅度阈值：Y_thr＝2max(mean(Y),D[k],min(Y[k-2]……Y[k+2])；其中，Y_thr为所述第i个频率点对应的预设幅度阈值，Y为所述语音信号频域幅度谱，D[k]为所述噪声估计值，k为频率点，Y[k-2]……Y[k+2]为第k-2至k+2频率点对应的语音信号频域幅度谱。

在具体实施中，所述第二判断单元1003，可以用于：计算所述语音信号对应的能量；当所述语音信号对应的能量大于预设能量阈值时，判定从所述语音信号中检测到语音活动。

在具体实施中，可以采用以下公式计算所述语音信号对应的能量：E_abs＝∑(Y[k])²；其中，E_abs为所述语音信号对应的能量，Y[k]为语音信号频域幅度谱，k为预设的频率范围；所述语音信号频域幅度谱通过对所述语音信号进行快速傅里叶变换得到。

在具体实施中，所述第二判断单元1003，可以用于：对所述语音信号进行噪声估计，得到噪声估计值；计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值；当所述语音信号对应的能量与所述噪声估计值对应的能量的比值大于预设的第三能量比值阈值时，判定从所述语音信号中检测到语音活动。

在具体实施中，可以采用以下公式计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值：E_vs＝log(E_abs)-log(E_n)；其中，E_vs为所述语音信号对应的能量与所述噪声估计值对应的能量的比值，E_abs为所述语音信号对应的能量，E_n为所述噪声估计值对应的能量，E_n＝∑(D[k])²，D[k]为所述噪声估计值。

在具体实施中，所述第二判断单元1003，还可以用于：当检测到的所述语音活动在连续的非语音活动后出现，且所述连续的非语音活动帧数超过预设的第一帧数阈值时，缓存所述语音活动，并当所述语音活动的语音帧数超过预设的第二帧数阈值时，输出所述语音活动对应的语音信号；当检测到的非语音活动在连续的语音活动后出现，且所述连续的语音活动帧数超过预设的第三帧数阈值，继续进行语音活动检测，当所述非语音活动的帧数超过预设的第四帧数阈值时，中止输出所述语音活动对应的语音信号。

在具体实施中，所述第二判断单元1003，还可以用于：在预设的混合帧数阈值范围内，当检测到的所述语音活动与非语音活动交替出现时，计算所述语音活动帧数占所述语音活动与所述非语音活动帧数之和的比例；当所述比例大于预设比例阈值时，输出所述语音活动对应的语音信号。

在具体实施中，所述语音降噪算法可以为以下至少一种算法：LMS、NLMS、谱减法以及维纳滤波算法。

在具体实施中，所述谐波检测算法可以为以下至少一种算法：自相关函数法、倒谱法、线性预测法以及小波法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机指令，所述计算机指令运行时执行本发明上述实施例中提供的任一种所述的语音活动检测方法的步骤。

本发明实施例还提供了一种语音活动检测装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所示计算机指令时，执行本发明上述实施例中提供的任一种所述的语音活动检测方法的步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于任一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音活动检测方法，其特征在于，包括：

获取采集到的语音信号；

分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动；

当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动；

所述分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动，包括：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；采用维纳滤波降噪算法对所述语音信号进行语音降噪计算，得到降噪后的语音信号频域幅度谱；根据维纳滤波器函数、所述降噪后的语音信号频域幅度谱以及所述语音信号频域幅度谱，计算降噪前后语音信号频域幅度谱的能量比值；所述维纳滤波器函数根据所述维纳滤波降噪算法和所述语音信号的噪声估计值计算得到；所述噪声估计值采用噪声估计算法计算得到；当所述能量比值小于预设的第二能量比值阈值时，判定所述语音信号存在语音活动；

或，所述分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动，包括：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；确定所述语音信号频域幅度谱的峰值个数；所述语音信号频域幅度谱的峰值采用如下方式确定：当所述语音信号频域幅度谱中的第i个频率点对应的频域幅度谱大于第i+1个频率点对应的频域幅度谱、第i-1个频率点对应的频域幅度谱以及第i个频率点对应的预设幅度阈值中的最大值时，确定所述第i个频率点对应的频域幅度谱为所述语音信号语音频域幅度谱的一个峰值；当所述峰值个数超过预设峰值个数阈值时，判定所述语音信号存在语音活动。

2.如权利要求1所述的语音活动检测方法，其特征在于，所述分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动，包括：

对所述语音信号进行语音降噪计算，得到降噪后的语音信号；

计算所述语音信号对应的能量以及所述降噪后的语音信号对应的能量，得到降噪前后语音信号的能量比值；

当所述能量比值小于预设的第一能量比值阈值时，判定所述语音信号存在语音活动。

3.如权利要求1所述的语音活动检测方法，其特征在于，采用如下公式计算所述降噪前后语音信号频域幅度谱的能量比值：

4.如权利要求1所述的语音活动检测方法，其特征在于，所述预设的第二能量比值阈值与以下值正相关：所述语音信号对应的能量与所述噪声估计值对应的能量的比值。

5.如权利要求1所述的语音活动检测方法，其特征在于，所述分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动，包括：

当所述语音信号在预设的语音基频范围内且包含谐波特征时，判定所述语音信号存在语音活动。

6.如权利要求1所述的语音活动检测方法，其特征在于，所述第i个频率点对应的预设幅度阈值采用以下方式得到：

对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；

选取所述语音信号的噪声估计值、所述语音信号频域幅度谱均值、所述第i-1频率点至所述第i+1频率点内对应的最小语音频域幅度谱中的极大值，作为所述第i个频率点对应的预设幅度阈值；所述语音信号的噪声估计值采用噪声估计算法计算得到。

7.如权利要求1所述的语音活动检测方法，其特征在于，在确定所述语音信号频域幅度谱的峰值个数之后，还包括：

将每个峰值对应的频率索引值依次作为基频频率，计算基频频率对应的峰值之后的每个峰值对应的频率索引值与所述基频频率的倍频偏差；

当所述倍频偏差大于预设偏差阈值时，排除所述峰值；

根据所述倍频偏差和剩余的峰值，依次计算全部剩余峰值的加权值；

对每个基频频率下对应的加权值进行大小比较，选取最大加权值；

当最大加权值大于预设加权阈值时，判定所述语音信号存在语音活动。

8.如权利要求7所述的语音活动检测方法，其特征在于，采用以下公式计算所述全部剩余峰值的加权值：

E_h＝∑α_nY[p_n]；

其中，E_h为所述全部剩余峰值的加权值，p_n为第n个剩余峰值对应的频率索引值，Y[p_n]为第n个剩余峰值对应的频域幅度谱，α_n为预设的权重系数，α_n∈(0,1]。

9.如权利要求7所述的语音活动检测方法，其特征在于，采用以下公式计算所述倍频偏差：

10.如权利要求7所述的语音活动检测方法，其特征在于，所述预设加权阈值与以下值正相关：所述语音信号对应的能量与噪声估计值对应的能量的比值；所述语音信号的噪声估计值采用噪声估计算法计算得到。

11.如权利要求6所述的语音活动检测方法，其特征在于，采用以下公式计算所述第i个频率点对应的预设幅度阈值：

Y_thr＝2max(mean(Y),D[k],min(Y[k-2]……Y[k+2])；

12.如权利要求1所述的语音活动检测方法，其特征在于，所述判定从所述语音信号中检测到语音活动，包括：

计算所述语音信号对应的能量；

当所述语音信号对应的能量大于预设能量阈值时，判定从所述语音信号中检测到语音活动。

13.如权利要求12所述的语音活动检测方法，其特征在于，采用以下公式计算所述语音信号对应的能量：

E_abs＝∑(Y[k])²；

14.如权利要求12所述的语音活动检测方法，其特征在于，所述计算所述语音信号对应的能量，包括：

对所述语音信号进行噪声估计，得到噪声估计值；

计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值；

当所述语音信号对应的能量与所述噪声估计值对应的能量的比值大于预设的第三能量比值阈值时，判定从所述语音信号中检测到语音活动。

15.如权利要求14所述的语音活动检测方法，其特征在于，采用以下公式计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值：

E_vs＝log(E_abs)-log(E_n)；

其中，E_vs为所述语音信号对应的能量与所述噪声估计值对应的能量的比值，E_abs为所述语音信号对应的能量，E_n为所述噪声估计值对应的能量，E_n＝Σ(D[k])²，D[k]为所述噪声估计值。

16.如权利要求1所述的语音活动检测方法，其特征在于，当判定从所述语音信号中检测到语音活动后，还包括：

当检测到的所述语音活动在连续的非语音活动后出现，且所述连续的非语音活动帧数超过预设的第一帧数阈值时，缓存所述语音活动，并当所述语音活动的语音帧数超过预设的第二帧数阈值时，输出所述语音活动对应的语音信号；

当检测到的非语音活动在连续的语音活动后出现，且所述连续的语音活动帧数超过预设的第三帧数阈值，继续进行语音活动检测，当所述非语音活动的帧数超过预设的第四帧数阈值时，中止输出所述语音活动对应的语音信号。

17.如权利要求16所述的语音活动检测方法，其特征在于，当判定从所述语音信号中检测到语音活动后，还包括：

在预设的混合帧数阈值范围内，当检测到的所述语音活动与非语音活动交替出现时，计算所述语音活动帧数占所述语音活动与所述非语音活动帧数之和的比例；

当所述比例大于预设比例阈值时，输出所述语音活动对应的语音信号。

18.如权利要求1所述的语音活动检测方法，其特征在于，所述语音降噪算法为以下至少一种算法：LMS、NLMS、谱减法以及维纳滤波算法。

19.如权利要求1所述的语音活动检测方法，其特征在于，所述谐波检测算法为以下至少一种算法：自相关函数法、倒谱法、线性预测法以及小波法。

20.一种语音活动检测装置，其特征在于，包括：

获取单元，用于获取采集到的语音信号；

第一判断单元，用于分别采用语音降噪算法和谐波检测算法，判断所述语音信号是否存在语音活动；

第二判断单元，用于当所述语音降噪算法和所述谐波检测算法均判定所述语音信号存在语音活动时，判定从所述语音信号中检测到语音活动；

所述第一判断单元，用于对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；采用维纳滤波降噪算法对所述语音信号进行语音降噪计算，得到降噪后的语音信号频域幅度谱；根据维纳滤波器函数、所述降噪后的语音信号频域幅度谱以及所述语音信号频域幅度谱，计算降噪前后语音信号频域幅度谱的能量比值；所述维纳滤波器函数根据所述维纳滤波降噪算法和所述语音信号的噪声估计值计算得到；所述噪声估计值采用噪声估计算法计算得到；当所述能量比值小于预设的第二能量比值阈值时，判定所述语音信号存在语音活动；

或，所述第一判断单元，用于对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；确定所述语音信号频域幅度谱的峰值个数；所述语音信号频域幅度谱的峰值采用如下方式确定：当所述语音信号频域幅度谱中的第i个频率点对应的频域幅度谱大于第i+1个频率点对应的频域幅度谱、第i-1个频率点对应的频域幅度谱以及第i个频率点对应的预设幅度阈值中的最大值时，确定所述第i个频率点对应的频域幅度谱为所述语音信号语音频域幅度谱的一个峰值；当所述峰值个数超过预设峰值个数阈值时，判定所述语音信号存在语音活动。

21.如权利要求20所述的语音活动检测装置，其特征在于，所述第一判断单元，用于：对所述语音信号进行语音降噪计算，得到降噪后的语音信号；计算所述语音信号对应的能量以及所述降噪后的语音信号对应的能量，得到降噪前后语音信号的能量比值；当所述能量比值小于预设的第一能量比值阈值时，判定所述语音信号存在语音活动。

22.如权利要求20所述的语音活动检测装置，其特征在于，采用如下公式计算所述降噪前后语音信号频域幅度谱的能量比值：

23.如权利要求20所述的语音活动检测装置，其特征在于，所述预设的第二能量比值阈值与以下值正相关：所述语音信号对应的能量与所述噪声估计值对应的能量的比值。

24.如权利要求20所述的语音活动检测装置，其特征在于，所述第一判断单元，用于：当所述语音信号在预设的语音基频范围内且包含谐波特征时，判定所述语音信号存在语音活动。

25.如权利要求20所述的语音活动检测装置，其特征在于，所述第i个频率点对应的预设幅度阈值采用以下方式得到：对所述语音信号进行快速傅里叶变换，得到语音信号频域幅度谱；选取所述语音信号的噪声估计值、所述语音信号频域幅度谱均值、所述第i-1频率点至所述第i+1频率点内对应的最小语音频域幅度谱中的极大值，作为所述第i个频率点对应的预设幅度阈值；所述语音信号的噪声估计值采用噪声估计算法计算得到。

26.如权利要求20所述的语音活动检测装置，其特征在于，所述第一判断单元，还用于：将每个峰值对应的频率索引值依次作为基频频率，计算基频频率对应的峰值之后的每个峰值对应的频率索引值与所述基频频率的倍频偏差；当所述倍频偏差大于预设偏差阈值时，排除所述峰值；根据所述倍频偏差和剩余的峰值，依次计算全部剩余峰值的加权值；对每个基频频率下对应的加权值进行大小比较，选取最大加权值；当最大加权值大于预设加权阈值时，判定所述语音信号存在语音活动。

27.如权利要求26所述的语音活动检测装置，其特征在于，采用以下公式计算所述全部剩余峰值的加权值：

E_h＝Σα_nY[p_n]；

28.如权利要求26所述的语音活动检测装置，其特征在于，采用以下公式计算所述倍频偏差：

29.如权利要求26所述的语音活动检测装置，其特征在于，所述预设加权阈值与以下值正相关：所述语音信号对应的能量与噪声估计值对应的能量的比值；所述语音信号的噪声估计值采用噪声估计算法计算得到。

30.如权利要求25所述的语音活动检测装置，其特征在于，采用以下公式计算所述第i个频率点对应的预设幅度阈值：

Y_thr＝2max(mean(Y),D[k],min(Y[k-2]……Y[k+2])；

31.如权利要求20所述的语音活动检测装置，其特征在于，所述第二判断单元，用于：计算所述语音信号对应的能量；当所述语音信号对应的能量大于预设能量阈值时，判定从所述语音信号中检测到语音活动。

32.如权利要求31所述的语音活动检测装置，其特征在于，采用以下公式计算所述语音信号对应的能量：

E_abs＝∑(Y[k])²；

33.如权利要求31所述的语音活动检测装置，其特征在于，所述第二判断单元，用于：对所述语音信号进行噪声估计，得到噪声估计值；计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值；当所述语音信号对应的能量与所述噪声估计值对应的能量的比值大于预设的第三能量比值阈值时，判定从所述语音信号中检测到语音活动。

34.如权利要求33所述的语音活动检测装置，其特征在于，采用以下公式计算所述语音信号对应的能量与所述噪声估计值对应的能量的比值：

E_vs＝log(E_abs)-log(E_n)；

35.如权利要求20所述的语音活动检测装置，其特征在于，所述第二判断单元，还用于：当检测到的所述语音活动在连续的非语音活动后出现，且所述连续的非语音活动帧数超过预设的第一帧数阈值时，缓存所述语音活动，并当所述语音活动的语音帧数超过预设的第二帧数阈值时，输出所述语音活动对应的语音信号；当检测到的非语音活动在连续的语音活动后出现，且所述连续的语音活动帧数超过预设的第三帧数阈值，继续进行语音活动检测，当所述非语音活动的帧数超过预设的第四帧数阈值时，中止输出所述语音活动对应的语音信号。

36.如权利要求35所述的语音活动检测装置，其特征在于，所述第二判断单元，还用于：在预设的混合帧数阈值范围内，当检测到的所述语音活动与非语音活动交替出现时，计算所述语音活动帧数占所述语音活动与所述非语音活动帧数之和的比例；当所述比例大于预设比例阈值时，输出所述语音活动对应的语音信号。

37.如权利要求20所述的语音活动检测装置，其特征在于，所述语音降噪算法为以下至少一种算法：LMS、NLMS、谱减法以及维纳滤波算法。

38.如权利要求20所述的语音活动检测装置，其特征在于，所述谐波检测算法为以下至少一种算法：自相关函数法、倒谱法、线性预测法以及小波法。

39.一种计算机可读存储介质，计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器运行时执行权利要求1至19中任一项所述的语音活动检测方法。

40.一种语音活动检测装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至19中任一项所述的语音活动检测方法。