WO2014177084A1

WO2014177084A1 - 激活音检测方法和装置

Info

Publication number: WO2014177084A1
Application number: PCT/CN2014/077704
Authority: WO
Inventors: 朱长宝; 袁浩
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-08-30
Filing date: 2014-05-16
Publication date: 2014-11-06
Also published as: EP3040991A4; PL3040991T3; EP3040991A1; CN104424956B; KR101831078B1; US9978398B2; JP2016529555A; CN104424956A; KR20160039677A; JP6412132B2; EP3040991B1; CN104424956B9; US20160203833A1

Abstract

一种激活音检测方法和装置，所述方法包括：根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果（107）。该方法和装置适用于语音业务，解决了相关VAD检测不准确的问题，实现了高准确性的VAD判决。

Description

激活音检测方法和装置技术领域

本发明涉及通信领域，尤其涉及一种激活音检测方法和装置。

背景技术

正常的语音通话中，用户有时在说话，有时在听，这个时候就会在通话过程出现非激活音阶段，正常情况下通话双方总的非语音激活阶段要超过通话双方总的语音编码时长的 50%。在非激活音阶段，只有背景噪声，背景噪声通常没有任何有用信息。利用这一事实，在语音频信号处理过程中，通过激活音检测（VAD )算法检测出激活音和非激活音，并釆用不同的方法分别进行处理。现代的 4艮多语音编码标准，如 AMR、 AMR-WB, 都支持 VAD功能。在效率方面，这些编码器的 VAD并不能在所有的典型背景噪声下都达到很好的性能。特别是在非稳定噪声下，这些编码器的 VAD效率都较低。而对于音乐信号，这些 VAD有时候会出现错误检测，导致相应的处理算法出现明显的质量下降。另外，相关的 VAD技术会存在判决不准确的情况，例如有的 VAD技术在语音段之前几帧检测不准，有的 VAD在语音段之后几帧检测不准确。

发明内容

本发明实施例提供了一种激活音检测方法和装置，解决了相关 VAD检测不准确的问题。一种激活音检测方法，包括：

根据连续激活音的帧个数、平均全带信噪比、调性信号标志和至少两种已有 VAD判决结果得到最终的联合 VAD判决结果。

优选的，所述方法还包括：

获得当前帧的子带信号及频谱幅值；

根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；

根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。

优选的，所述方法还包括：

获取前一帧估计得到的背景噪声能量；

根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。

优选的，所述获取前一帧估计得到的背景噪声能量包括：

获得前一帧的子带信号及频谱幅值；

根据前一帧子带信号计算得到前一帧的帧能量参数、谱重心特征参数、时域稳定度特征参数的值；

根据前一帧频谱幅值计算得到前一帧谱平坦度特征参数和调性特征参数；

根据前一帧的帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到前一帧的背景噪声标识；

根据前一帧调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算前一帧调性信号标志；根据前一帧的背景噪声标识、帧能量参数、调性信号标志、前第二帧的全带背景噪声能量，得到前一帧全带背景噪声能量。

优选的，所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值；

所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或所述比值进行平滑滤波得到的值；

所述时域稳定度特征参数是多个相邻两帧能量幅值叠加值的方差和多个相邻两帧能量幅值叠加值平方的期望的比值，或所述比值乘上一个系数；所述谱平坦度特征参数是一个或多个频谱幅值的几何平均数和算术平均数的比值，或所述比值乘上一个系数；

调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关系数得到的 , 或继续对所述相关系数进行平滑滤波得到的。

优选的，根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志包括：

A )在当前帧信号为非调性信号，用一个调性帧标志 tonality— frame来指示当前帧是否为调性帧；

B )在下述条件之一被满足时执行步骤 C ) , 在下述两个条件均不满足时执行步骤 D ) ：

条件 1 : 调性特征参数 ^to"^fl/ -^ratel的值或其平滑滤波后的值大于对应的设定的第一调性特征参数判定门限值；

条件 2: 调性特征参数 ^to"^fl/ -^ratel的值或其平滑滤波后的值大于对应的设定的第二调性特征参数门限值；

C )判断当前帧是否为调性帧，并根据判断结果设置所述调性帧标志的值：在满足全部以下条件时判定所述当前帧为调性帧，在任意一个或多个以下条件不满足时判定所述当前帧为非调性帧并执行步骤 D ) ：

条件 1 : 所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值；，

条件 2: 谱重心特征参数值大于一个设定的第一谱重心判定门限值；条件 3: 各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限值时；判定当前帧为调性帧，设置所述调性帧标志的值；

D )根据所述调性帧标志对调性程度特征参数 ^tonallty-^deg^ree进行更新，其中调性程度参数 tonality_degree初始值在激活音检测开始工作时进行设置；

E )根据更新后的所述调性程度特征参数 ^tonallty_^deg^ree判断所述当前帧是否为调性信号，并设置调性标志 tonality—flag的值。

优选的，在当前的调性帧标志指示所述当前帧为调性帧时，釆用以下表达式对调性程度特征参数 tonality_degree进行更新： tonality _ degree = tonality _ degree^ * td _ scale _ A + td _ scale _ B ,

其中， tonaHty gre^为前一帧的调性程度特征参数，其初始值取值范围为 [0 , 1] , ^td-^scale-^A为衰减系数， ^td-^scale-^B为累加系数。

优选的，在调性程度特征参数 ton^ty-deg^大于设定的调性程度门限值时，判定当前帧为调性信号；

在调性程度特征参数 ^tonality-^degr^ee小于或等于设定的调性程度门限值时，判定当前帧为非调性信号。

优选的，该方法还包括：

在当前帧为第二帧及第二帧以后的语音帧时，通过前一联合 VAD判决结果计算当前的连续激活音帧个数 continuous— speech_num2：

当联合 VAD标志 vad flag标志为 1时 continuous— speech— num2力口 1 ; 当 vad— flag判为 0时, continuous— speech— num2置 0。

优选的，在当前帧为第一帧时，所述连续激活音帧个数为 0。活音帧，所述已有 VAD判决结果或联合 VAD判决结果为 0时表示为非激活音帧，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有 VAD判决结果得到最终联合 VAD判决结果包括：

当满足以下任意一个条件时选择至少两种已有 VAD 的判决结果的逻辑运算作为联合 VAD判决结果，当不满足下列至少一个条件时选择所述至少两种已有 VAD判决结果中的一个已有 VAD判决结果作为联合 VAD判决结果，其中，所述逻辑运算是指 "或" 运算或者 "和" 运算：

条件 1 : 平均全带信噪比大于信噪比阔值，

条件 2: continuous— speech— num2大于连续激活音帧个数阔值且平均全带信噪比大于信噪比阔值，

条件 3 : 调性信号标志设置为 1。音帧，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有 VAD判决结果得到最终联合 VAD判决结果包括：

当满足以下任一条件时所述联合 VAD判决结果为 1 , 当不满足下列至少一个条件时选择所述至少两个已有 VAD判决结果的逻辑运算作为输出，其中，逻辑运算是指 "或" 运算或者 "和" 运算：

条件 1 : 至少两个已有 VAD判决结果全部为 1 ,

条件 2: 至少两个已有 VAD判决结果之和大于联合判决阔值，并且调性信号标志设置为 1 ,

条件 3: continuous— speech— num2大于连续激活音帧个数阔值且平均全带信噪比大于信噪比阔值，调性信号标志设置为 1。

本发明实施例还提供了一种激活音检测装置，包括：

联合判决模块，设置为根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有 VAD判决结果得到最终的联合 VAD判决结果。

优选的，所述装置还包括参数获取模块，所述参数获取模块包括：第一参数获取单元，设置为获得当前帧的子带信号及频谱幅值；第二参数获取单元，设置为根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；

第三参数获取单元，设置为根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；

第四参数获取单元，设置为根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。

优选的，所述参数获取模块还包括：

第五参数获取单元，设置为获取前一帧估计得到的背景噪声能量；第六参数获取单元，设置为根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。

优选的，所述参数获取模块还包括：第七参数获取单元，设置为在当前帧为第一帧时，确定所述连续激活音帧个数为 0,

在当前帧为第二帧及第二帧以后的语音帧时，通过前一联合 VAD判决结果计算当前的连续激活音†j¾个数 continuous— speech— num2：

本发明实施例提供了一种激活音检测方法和装置，根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有 VAD判决结果得到最终联合 VAD判决结果，实现了根据多种参数综合进行 VAD判决，提高了 VAD 判决的准确性，解决了 VAD检测不准确的问题。

附图概述

图 1为本发明的实施例一提供的一种激活音检测方法的流程图；图 2为本发明的实施例二提供的一种激活音检测方法的流程图；图 3为本发明的实施例四提供的一种激活音检测装置的结构示意图；图 4为图 3中参数获取模块 302的结构示意图。

本发明的较佳实施方式

为了解决 VAD检测不准确的问题，本发明的实施例提供了一种激活音检测方法。下文中将结合附图对本发明的实施例进行详细说明。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

下面结合附图，对本发明的实施例一进行说明。

本发明实施例提供了一种激活音检测方法，使用该方法完成 VAD的流程如图 1所示，包括：

步骤 101 : 获取至少两种已有的 VAD的判决结果；步骤 102: 获得当前帧的子带信号及频谱幅值；

本发明实施例中以帧长为 20ms, 釆样率为 32kHz的音频流为例说明。在其它帧长和釆样率条件下，本发明实施例提供的激活音检测方法同样适用。

将当前帧时域信号输入滤波器组单元，进行子带滤波计算，得到滤波器组子带信号。

本发明实施例中釆用一个 40通道的滤波器组，本发明实施例提供的技术方案对于釆用其他通道数的滤波器组同样适用。

将当前帧时域信号输入 40 通道的滤波器组，进行子带滤波计算，得到 16个时间样点上 40个子带的滤波器组子带信号 Α^, 0< :<40 , 0</<16 , 其中为滤波器组子带的索引，其值表示系数对应的子带，为各个子带的时间样点索引，其实现步骤如下：

1: 将最近的 640个音频信号样值存储在数据緩存中。

2: 将数据緩存中的数据移 40个位置，把最早的 40个釆样值移出数据緩存，并把 40个新的样点存入到 0到 39的位置上。

将緩存中的数据 X乘上窗系数，得到数组计算表达式如下： ζ[η] = χ[η] · W_qmf[n];0 <n< 640; 其中 ^W f为滤波器组窗系数。

釆用以下的伪代码计算得到一个 80点的数据 u,

for ( «<80； «++) { ⁼⁰;

for ( J=0; <8；

u[n]+ = z[n + j* 80];

釆用下面的方程计算得到数组 r和 i： r[n] = u[n]-u[79-n]

,0<77<40

i[n] = u[n] + u[79-n] 釆用下面的方程计算得到第一个时间样点上 40 个复数子带样值， [ /] = R(k) + il (k\ 0≤ A < 40 ,其中和 I (k)分别为滤波器组子带信号第/个时间样点上系数的实部和虚部，其计算表达式如下：

3: 重复 2的计算过程，直到将本帧的所有数据都经过滤波器组滤波，最后的输出结果即为滤波器组子带信号 ^Z]。

4: 完成上面计算过程后，得到 40个子带的 16个时间样点的滤波器组子带信号； 0≤A<40, 0≤/<16。然后，对滤波器组子带信号进行时频变换，并计算得到频谱幅值。

其中对全部滤波器组子带或部分滤波器组子带进行时频变换，计算频谱幅值，都可以实现本发明实施例。本发明实施例所述的时频变换方法可以是 DFT、 FFT、 DCT或 DST。本发明实施例釆用 DFT为例，说明其实现方法。计算过程如下：

对索引为 0到 9的每个滤波器组子带上的 16个时间样点数据进行 16点的 DFT 变换，提高频谱分辨率，并计算各个频点的幅值，得到频谱幅值

时频变换计算表达式如下：

15

^τ[』 =∑ [ ¹⁶ ；0<^<9;0< <16；计算各个频点的幅值过程如下：

首先，计算数组^^ 在各个点上的能量，计算表达式如下：

X [k, j] = (real (X_DFT [k, j]f + (image(X_DFT [k,j])²;0≤k<\0;0≤j<\6; ^ 中 pow \.^k - Ά) , i ge(X_DFT—_P0W [k, j])分另,】表示频谱系数 ^k - Ά的实部和虚部。如果为偶数，则釆用以下方程计算各个频点上的频谱幅值： XDFT_AMP [⁸ ·

A < 10; 0≤ < 8; 如果为奇数，则釆用以下方程计算各个频点上的频谱幅值：

^XDFT_AMP

0≤ 10; 0≤ < 8; 即为时频变换后的频谱幅值。

步骤 103: 根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值，根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；

帧能量参数可釆用现有技术方法获得，优选的，各参数釆用如下方法获付：

所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值：

1、根据滤波器组子带信号 ^^]计算各滤波器组子带的能量，计算表达式如下：

15

E _b [k] = Y ((real(X[k, I]))² + (image(X[k, I]))² ); 0≤k < 40;

2、将部分听觉比较敏感的滤波器组子带或所有的滤波器组子带的能量累加，得到帧能量参数。

其中根据心理听觉模型，人耳对极低频（如 100Hz以下）和高频（如 20kHz 以上）声音会比较不敏感，本发明实施例认为按照频率从低到高排列的滤波器组子带，从第二个子带到倒数第二个子带为听觉比较敏感的主要滤波器组子带，将部分或全部听觉比较敏感的滤波器组子带能量累加得到帧能量参数 1 , 计算表达式如下：

e _sb _end n e— sb— start 其中，为起始子带索引，其取值范围为 [0, 6]。 ^e _ ^sb _ ^end 为结束子带索引，其取值大于 6, 小于子带总数。帧能量参数 1的值加上部分或全部在计算帧能量参数 1时未使用的滤波器组子带的能量的加权值，得到帧能量参数 2, 其计算表达式如下：

E_t2 = E + e _ scaleX · ^ E_sh + scale! · ^ E_sh [n] 其中 e_^//e2为加权比例因子，其取值范围分别为 [o , 1] 为子带总个数 _t

所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值；

根据各个滤波器组子带的能量计算得到谱重心特征参数，谱重心特征参数是通过求滤波器组子带能量加权相加的和与子带能量的直接相加的和的比值或通过对其他谱重心特征参数值进行平滑滤波得到的。

谱重心特征参数可以釆用如下子步骤实现：

1、将用于谱重心特征参数计算的子带区间划分如表 1所示。

表 1

2、釆用表 1的谱重心特征参数计算区间划分方式和以下表达式，计算得到两个谱重心特征参数值，分别为第一区间谱重心特征参数和第二区间谱重心特征参数。 ― ，0 - < 2

Ddtal , i¾/to²分别为一个小的偏置值，取值范围为（0, 1 ) 。其中为谱重心编号索引。

3、对第一区间谱重心特征参数 -^ee"^[^Q]进行平滑滤波运算，得到平滑谱重心特征参数值，即第一区间谱重心特征参数值的平滑滤波值，计算过程下：

sp _ centej[2] = sp_ center^ [Ί\· spc _sm _ scale +sp_ cente}[0]•(\-spc_sm_ scale) 其中， ― 为谱重心参数平滑滤波比例因子， J²]表示上一帧的平滑谱重心特征参数值，其初始值为 1.6

所述时域稳定度特征参数是若干相邻两帧能量幅值叠加值的方差和若干相邻两帧能量幅值叠加值平方的期望的比值，或该比值乘上一个系数；

由最新的若干帧信号的帧能量参数计算得到时域稳定度特征参数。在本发明实施例中釆用最新的 40 帧信号的帧能量参数计算得到时域稳定度特征参数。计算步骤为：

首先，计算得到最近 40帧信号的能量幅值，计算方程如下：

Amp_tl [n] = ^E_t2(n) +e_ offset; 0≤ n < 40; 其中， ^e— 为一个偏置值，其取值范围为 [0, 0.1]

其次，依次将当前帧到前面第 40帧的相邻两帧的能量幅值相加，得到 20个幅值叠加值。计算方程如下：

Amp_t2 (n) = Amp (-2/7) + Amp (-2/ - l) 0≤ n < 20;

其中， "=0时， "表示当前帧的能量幅值， "<o时， "表示当前帧往前的 n帧的能量幅值。

最后，通过计算最近的 20个幅值叠加值的方差和平均能量的比值，得到时域稳定度特征参数^{1 td}-^stable-^rateQ。计算表达式如下： ltd stable rateO

所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值，或该比值乘上一个系数；

将频谱幅值划分成若干个频带，并计算当前帧各个频带的谱平坦度，得到当前帧的谱平坦度特征参数。

本发明实施例将频谱幅值划分成 3个频带，并计算这 3个频带的谱平坦度特征，其实现步骤如下：

首先，将按照下表 2的索引划分为 3个频带。

表 2

其次，分别计算各个子带的谱平坦度，得到当前帧的谱平坦度特征参数。当前帧的各个谱平坦度特征参数值的计算表达式如下：

fieq_band_end(k) -fieq_band_start(k) +1 ^ ^^ - ( )

最后，对当前帧的谱平坦度特征参数进行平滑滤波，得到当前帧最终的谱平坦度特征参数。

sSMR{k) = smr _ scale · sSMR _x (k) + (1— smr _ scale) · SMR(k);0 < k < 3 其中⁵ 为平滑因子，其取值范围为 [0.6 , 1] , ^^?_ )为上一帧的第 k个谱平坦度特征参数的值。

调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关值得到的，或继续对该相关值进行平滑滤波得到的。

前后两帧信号的帧内频谱差分系数的相关值的计算方法如下：

根据频谱幅值计算得到调性特征参数，其中调性特征参数可以根据所有频谱幅值或部分频谱幅值计算得到。

其计算步骤如下：

1、将部分（不小于 8个频谱系数）或全部频谱幅值跟相邻的频谱幅值做差分运算，并将差分结果小于 0的值置 0, 得到一组非负的频谱差分系数。

本发明实施例选择位置索引为 3到 61的频点系数为例，计算调性特征参数。过程如下：

将频点 3到频点 61的相邻频谱幅值做差分运算，表达式如下： spec _dif[n - 3] = X_{DFT AMP} (" + 1) _ X_DFT_AMP ("); 3≤ " < 62;

将¾^_ 中小于 0的变量置零。

2、求取步骤 1计算得到的当前帧非负的频谱差分系数和前一帧非负的频谱差分系数的相关系数，得到第一调性特征参数值。计算表达式如下：

^ spec dif[n] . pre spec dif[n]

tonality rate! - . ":。

^ ― 56 56

、 /∑ ^sP^ec ^/[w]² ·∑ pre spec dif[nf 其中， pre—spec—dif为前一帧的非负的频谱差分系数。

3、对第一调性特征参数值进行平滑运算，得到第二调性特征参数值。计算方程如下：

tonality _ rate! = tonal scale · tonality— ratel__x + (1— tonal _ scale) · tonality— ratel

to"_a/ _s fe为调性特征参数平滑因子，其取值范围为 [o.l , 1] , ^to"^a — ^rate2-i为前一帧的第二调性特征参数值，其初始值取值范围为 [0, 1]。

步骤 104: 计算调性信号标志，参考本发明的实施例三中调性信号计算的流程。

步骤 105: 根据前一帧估计得到的全带背景噪声能量、当前帧的帧能量参数计算得到平均全带信噪比；

前一帧的全带背景噪声能量获得方法参见实施例 2。

根据估计得到的上一帧全带背景噪声能量（见实施例 2 )和当前帧的帧能量参数，计算全带信噪比 SVR² :

SNR2 = log, - F 其中为估计得到的上一帧全带背景噪声能量，得到上一帧全带背景噪声能量原理与得到当前帧的全带背景噪声能量的原理相同。

计算最近若干个帧的全带信噪比 SVR²的平均值，得到平均全带信噪比

SNR2_lt _ave 步骤 106: 获取连续激活音帧的个数；

连续激活音帧个数 continuous— speech— num2可以通过 VAD判决结果进行计算，初始值设为 0,当 VAD标志 vad— flag标志为 1时 continuous— speech— num2 力口 1； vad— flag判为 0时, continuous— speech— num2置 0。

步骤 107: 根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有 VAD判决结果得到最终的联合 VAD判决结果；

活音帧。需要说明的是，以 1、 0值代表激活音帧和非激活音帧仅是一种标记方式，以其他值或其他方式标记区分 VAD判决的不同结果的方案均在本发明实施例的保护范围之内。

下面以两种实现方法为例进行说明，实施过程可以有其他的联合方法。当满足以下任意一个条件时选择至少两种已有 VAD 的判决结果的逻辑运算作为联合 VAD判决结果，当不满足下列至少一个条件时选择所述至少两种已有 VAD判决结果中的一个已有 VAD判决结果作为联合 VAD判决结果，其中，所述逻辑运算是指 "或" 运算或者 "和" 运算：

条件 1 : 平均全带信噪比大于信噪比阔值，

条件 3: 调性信号标志设置为 1。

述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有 VAD判决结果得到最终联合 VAD判决结果包括：

当满足以下任一条件时所述联合 VAD判决结果为 1 , 当不满足下列至少一个条件时选择所述至少两个已有 VAD判决结果的逻辑运算作为输出，其中，逻辑运算是指 "或" 运算或者 "和" 运算：条件 1 : 至少两个已有 VAD判决结果全部为 1 ,

本发明实施例中的步骤 101至步骤 106并无严格的时序关系（其中步骤 102、 103和 104的时序顺序不可颠倒），只要能获得本发明实施例进行联合 VAD判决时所需的连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有 VAD判决结果的方案，均属于本发明的实施例的保护范围。

下面结合附图，对本发明的实施例二进行说明。

如图 2所示，给出了一种前一帧背景噪声能量的计算方法，前一帧的背景噪声能量用于计算平均全带信噪比。前一帧的背景噪声能量的计算流程和当前帧的背景噪声能量的计算流程相同，本发明实施例给出了当前帧的全带背景噪声能量的计算方法。

步骤 201 : 获得当前帧的子带信号及频谱幅值，计算方法见步骤 102。步骤 202: 根据子带信号计算得到当前的帧能量参数、谱重心特征参数、时域稳定度特征参数的值；根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值，计算方法见步骤 103。

步骤 203: 根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前帧的背景噪声标识。背景噪声标识用于表示当前帧是否是噪声信号，如果是噪声信号，则背景噪声标识设置为 1 , 否则设置为 0。

优选的，假定当前是背景噪声信号，判断以下任一条件成立，则判定当前帧不是噪声信号：

条件 1 : 所述时域稳定度特征参数¹ t-Stab -rateG大于一个设定的时域稳定度门限值；

条件 2: 第一区间谱重心特征参数值的平滑滤波值大于一个设定的谱重心门限值，且时域稳定度特征参数值也大于设定的时域稳定度门限值；

条件 3 : 调性特征参数或其平滑滤波后的值大于一个设定的调性特征参数门限值，且时域稳定度特征参数¹ t-StaWe-rateG值大于其设定的时域稳定度门限值；

条件 4: 各子带的谱平坦度特征参数或各自平滑滤波后的值均小于各自对应的设定的谱平坦度门限值；

条件 5: 判定帧能量参数 ^的值大于设定的帧能量门限值 - W。

本发明实施例通过一个背景噪声标识 background— flag来指示当前帧是否是背景噪声，并约定如果判定当前帧为背景噪声，则设置背景噪声标识 background— flag为 1 , 否则设置背景噪声标识 background— flag为 0。

根据时域稳定度特征参数、谱重心特征参数、谱平坦度特征参数、调性特征参数、当前帧能量参数检测当前帧是否为噪声信号。如果不是噪声信号，则将背景噪声标识 background— flag置 0。

过程如下：

对于条件 1：判断时域稳定度特征参数 lt_stabl_e_rat_eG是否大于一个设定的第一时域稳定度门限值 ^¹。如果是，则判定当前帧不是噪声信号，并将 background— flag置 0。本发明实施例中第一时域稳定度门限值 /t— — fe— 1取值范围为 _{[0 8} , J _{6] ;} 对于条件 2: 判断第一区间平滑谱重心特征参数值是否大于一个设定的第一谱重心门限值 cewtef— tM ,并且时域稳定度特征参数 ltjtablejateO的值也大于第二时域稳定度门限值¹ t-stab^-rate-¹¹¹^ 如果是，则判定当前帧不是噪声信号，并将 background— flag置 0。的取值范围为 [1.6, 4]; lt_stable_rate_thr2的取值范围为（₀, _{0 1] o} 对于条件 3: 判断调性特征参数 ^towa/ -^rate2的值是否大于一个第一调性特征参数门限值 ^towa// - ^rate- 时域稳定度特征参数¹ t-StaWe-rateG值是否大于设定的第三时域稳定度门限值 lt_stabl_e__rate_thr³ , 如果上述条件同时成立，则判定当前帧不是背景噪声， background— flag赋值为 0。 t隱 lity—mte—thrl取值范围为 [0.4, 0.66]。 IstaWejate-¹¹¹¹"³的取值范围为 [0.06, 0.3]。

对于条件 4: 判断第一谱平坦度特征参数 ^5¾^[⁰]的值是否小于设定的第一谱平坦度门限值 ^^—^¹ , 判断第二谱平坦度特征参数⁵ 即]的值是否小于设定的第二谱平坦度门限值 sSMR—thr2 , 判断第三谱平坦度特征参数 ^^[²]的值是否小于设定的第三谱平坦度门限值^ ³。如果上述条件同时成立，则判定当前帧不是背景噪声。 background— flag赋值为 0。门限值 sSMR—thr\、 sSMR—thr2、 ^MR— 3的取值范围为 _{[0 88}, ₀.₉₈]。判断第一谱平坦度特征参数^ [⁰]的值是否小于设定的第四谱平坦度门限值 , 判断第二谱平坦度特征参数 ^sSM^的值是否小于设定的第五谱平坦度门限值 sSMR—thr ,判断第二谱平坦度特征参数的值是否小于设定的第六谱平坦度门限值^ ⁶。如果上述任一条件成立，则判定当前帧不是背景噪声。 background— flag赋值为 0。 sSMR—thr sSMR _thr5 ^ MR— 6的取值范围为

[0.80, 0.92]

对于条件 5 : 判断帧能量参数 ^的值是否大于设定的帧能量门限值 ^E-^thrl , 如果上述条件成立，则判定当前帧不是背景噪声。 background— flag 赋值为 0。根据帧能量参数的动态范围进行取值。

步骤 204: 根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算调性信号标志；其步骤见本发明的实施例三中的调性信号计算流程。步骤 205: 根据帧能量参数、背景噪声标识、调性信号标志计算当前帧背景噪声能量。步骤如下：

1、如果当前帧的背景噪声标识为 1 ,则更新背景噪声能量累加值和背景噪声能量累计帧数 ^_∞1 ，计算方程如下：

κ t—sum = κ t—sum—— ,\ + κ t,l '■

Af = Af + 1 +

Et _ counter Et _ counter— -1 '

其中 A-—¹为前一帧的背景噪声能量累加值， ^Nf —-\为前一帧计算得到的背景噪声能量累计帧数。

2、全带背景噪声能量由背景噪声能量累加值 _ 和累计帧数^^^的比值得到：

判断是否等于 64, 如果^__∞1 等于 64, 则分别将背景噪声能量累加值和累计帧数乘 0.75。

3、根据调性信号标志、帧能量参数、全带背景噪声能量的值对背景噪声能量累加值进行调整。计算过程如下：

如果调性标志 tonality—flag等于 1并且帧能量参数的值小于背景噪声能量特征参数 ^ΕΆ的值乘以一个增益系数，

则， ^Et— = ^Et— · S^n + delta; 其中，的取值范围为 [0.3 , 1]。

下面对本发明的实施例三进行说明。

本发明实施例提供了一种激活音检测方法，能够与本发明的实施例一和实施例二所提供的技术方案相结合，计算调性信号标志，包括：

根据调性特征参数、时域稳定度特征参数、谱平坦度特征参数、谱重心特征参数判断当前帧是否为调性信号。判断是否为调性信号时，执行以下操作： 1、用一个调性帧标志 tonality— frame来指示当前帧是否为调性帧；本发明实施例中 tonality— frame的值为 1表示当前帧为调性帧， 0表示当前帧为非调性帧；

2、判断调性特征参数 ^to"^fl/ - ^ratel或其平滑滤波后 tonality _rate2的值是否大于对应的设定的第一调性特征参数判定门限值 ^{t alit} - ^decision - ^thrl或第二调性特征参数判定门 n^tonality—^decision—^thr2 , 如果上述条件有一个成立则执行步骤 3 , 否则执行步骤 4;

其中 , tonality _ decision _ thrl的取值范围为 [0 5 , 0 7] , tonality _ rate\的取值范围为 [0.7 , 0.99]。

3、如果时域稳定度特征参数值¹ t-Stab -rateG小于一个设定的第一时域稳定度判定门限值 !t—血 Me -decision— thrl . 谱重心特征参数值大于一个设定的第一谱重心判定门限值 ^c— 1 , 且各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度门限值，即，第一谱平坦度特征参数 ^sSMR^小于一个设定的第一谱平坦度判定门限值 sSMF—decision—thr\或第二谱平坦度参数小于一个设定的第二谱平坦度判定门限值 sSMF— decision— thr2或第三谱平均度参数 ^MR[²]小于一个设定的第三谱平坦度判定门限值⁵^ -⁶^^⁰"-^ ³ ; 则判定当前帧为调性帧，设置调性帧标志 tonality— frame 的值为 1 , 否则判定当前帧为非调性帧，设置调性帧标志 tonality— frame的值为 0。并继续执行步骤 4。

其中, 〃― fifeciw'ow— t zrl 々取值范围为 [0 01 , 0 25] , ^SP^C—decision _thrl 为 [1 0 , 1 8] , sSMF decision thrl 6, 0 9] , sSMF—decision—thr2为 [0 6, Q 9] , sSMF _ decision _ thr3为 [Q 7 , o 98]

4、根据调性帧标志 tonality— frame对调性程度特征参数 ^tonallty-^deg^ree进行更新，其中调性程度参数 ^tonallty-^degree初始值在激活音检测装置开始工作时进行设置，取值范围为 [0, 1]。不同的情况下，调性程度特征参数 na^-degree 计算方法不同：

如果当前的调性帧标志指示当前帧为调性帧，则釆用以下表达式对调性程度特征参数 tonality_degree进行更新： tonality—degree = tonality—degree—, · td scale A + td scale B;

其中， tonaHty gre^为前一帧的调性程度特征参数。其初始值取值范围为 [0 , 1]。 ^td-^scale-^A为衰减系数，其取值范围为 [0 , 1] ; ^td-^scale-^B为累加系数，其取值范围为 [0 , 1]。

5、根据更新后的调性程度特征参数 tonality_degree判断当前帧是否为调性信号，并设置调性标志 tonality—flag的值；

若调性程度特征参数 ^tonallty-^deg^ree大于设定的调性程度门限值，则判定当前帧为调性信号，否则，判定当前帧为非调性信号。

下面结合附图，对本发明的实施例四进行说明。

本发明实施例还提供了一种激活音检测装置，如图 3所示，该装置包括：联合判决模块 301 , 设置为根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有 VAD判决结果得到最终的联合 VAD判决结果。

优选的，所述装置还包括参数获取模块 302 , 所述参数获取模块 302的结构如图 4所示，包括：

第一参数获取单元 3021 , 设置为获得当前帧的子带信号及频谱幅值；第二参数获取单元 3022 , 设置为根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；

第三参数获取单元 3023 , 设置为根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；计算方法可参照本发明的实施例三。

第四参数获取单元 3024 , 设置为根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。

优选的，所述参数获取模块 302还包括：

第五参数获取单元 3025 , 设置为获取前一帧估计得到的背景噪声能量；计算方法或参考本发明的实施例二。

第六参数获取单元 3026 , 设置为根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。

优选的，所述参数获取模块 302还包括：

第七参数获取单元 3027 , 设置为在当前帧为第一帧时，确定所述连续激活音帧个数为 0,

在当前帧为第二帧及第二帧以后的语音帧时，通过前一联合 VAD判决结果计算当前的连续激活音帧个数 continuous— speech— num2: 当联合 VAD标志 vad flag标志为 1时 continuous— speech— num2力口 1 ;

当 vad— flag判为 0时, continuous— speech— num2置 0。

优选的，所述参数获取模块 302还包括：

第八参数获取单元 3028, 设置为获取至少两种已有 VAD判决结果。

本发明的实施例提供了一种激活音检测方法和装置，根据连续激活音帧个数、平均全带信噪比、调性信号标志、至少两种已有 VAD判决结果得到最终联合 VAD判决结果，实现了根据多种参数综合进行 VAD判决，提高了 VAD判决的准确性，解决了 VAD检测不准确的问题。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现，所述计算机程序可以存储于计算机可读存储介质中，所述计算机程序在相应的硬件平台上（如***、设备、装置、器件等）执行，在执行时，包括方法实施例的步骤之一或其组合。

可选地，上述实施例的全部或部分步骤也可以使用集成电路来实现，这些步骤可以被分别制作成一个或多个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不实施例限制于任何特定的硬件和软件结合。

上述实施例中的各装置 /功能模块 /功能单元可以釆用通用的计算装置来实现，它们可以集中在单个的计算装置上，也可以分布在多个计算装置所组成的网络上。上述实施例中的各装置 /功能模块 /功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器，磁盘或光盘等。

任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以权利要求所述的保护范围为准。

工业实用性

Claims

权利要求书

1、一种激活音检测方法，包括：

根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有激活音检测（VAD )判决结果得到最终的联合 VAD判决结果。

2、根据权利要求 1所述的激活音检测方法，所述方法还包括：获得当前帧的子带信号及频谱幅值；

3、根据权利要求 1所述的激活音检测方法，所述方法还包括：获取前一帧估计得到的背景噪声能量；

4、根据权利要求 3所述的激活音检测方法，其中，所述获取前一帧估计得到的背景噪声能量包括：

获得前一帧的子带信号及频谱幅值；

根据前一帧子带信号计算得到前一帧帧能量参数、谱重心特征参数、时域稳定度特征参数的值；

5、根据权利要求 4所述的激活音检测方法，其中，

所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值；所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或所述比值进行平滑滤波得到的值；

所述时域稳定度特征参数是多个相邻两帧能量幅值叠加值的方差和多个相邻两帧能量幅值叠加值平方的期望的比值，或所述比值乘上一个系数；所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值，或所述比值乘上一个系数；

6、根据权利要求 2所述的激活音检测方法，其中，根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志包括：

A )在当前帧信号为非调性信号时，用一个调性帧标志 tonality— frame来指示当前帧是否为调性帧；

C )判断当前帧是否为调性帧 ,并根据判断结果设置所述调性帧标志的值：在满足全部以下条件时判定所述当前帧为调性帧，在任意一个或多个以下条件不满足时判定所述当前帧为非调性帧并执行步骤 D ) ：条件 1 : 所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值；

条件 2：谱重心特征参数值大于一个设定的第一谱重心判定门限值；条件 3 : 各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限值时；判定当前帧为调性帧，设置所述调性帧标志的值；

7、根据权利要求 6所述的激活音检测方法，其中，在当前的调性帧标志指示所述当前帧为调性帧时，釆用以下表达式对调性程度特征参数 tonality_degree进行更新： tonality _ degree = tonality _ degree^ · ίά _ scale _ A + td _ scale _ B ,

其中， tGn^ty-^gree-i为前一帧的调性程度特征参数，其初始值取值范围为 [0, 1] , ^td-^scale-^A为衰减系数， ^td-^scale-^B为累加系数。

8、根据权利要求 6所述的激活音检测方法，其中，

在调性程度特征参数 ^tonality-^degr^ee大于设定的调性程度门限值时，判定当前帧为调性信号；

在调性程度特征参数 ^tonalit -^deg^fee小于或等于设定的调性程度门限值时，判定当前帧为非调性信号。

9、根据权利要求 1所述的激活音检测方法，所述方法还包括：在当前帧为第二帧及第二帧以后的语音帧时，通过前一联合 VAD判决结果计算当前的连续激活音†j¾个数 continuous— speech— num2：

10、根据权利要求 9所述的激活音检测方法，所述方法还包括：在当前帧为第一帧时，所述连续激活音帧个数为 0。

11、根据权利要求 1所述的激活音检测方法，其中，所述已有 VAD判决结果或联合 VAD判决结果为 1时表示为激活音帧，所述已有 VAD判决结果或联合 VAD判决结果为 0时表示为非激活音帧，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有 VAD判决结果得到最终联合 VAD判决结果包括：

条件 1 : 平均全带信噪比大于信噪比阔值，

条件 3: 调性信号标志设置为 1。

12、根据权利要求 1所述的激活音检测方法，其中，所述已有 VAD判决结果或联合 VAD判决结果为 1时表示为激活音帧，所述已有 VAD判决结果或联合 VAD判决结果为 0时表示为非激活音帧，，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有 VAD判决结果得到最终联合 VAD判决结果包括：

13、一种激活音检测装置，包括：

14、根据权利要求 13所述的激活音检测装置，其特征在于，该装置还包括参数获取模块，所述参数获取模块包括：

第一参数获取单元，设置为获得当前帧的子带信号及频谱幅值；第二参数获取单元，设置为根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；

第三参数获取单元，设置为根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；第四参数获取单元，设置为根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。

15、根据权利要求 14所述的激活音检测装置，其中，所述参数获取模块还包括：

16、根据权利要求 14所述的激活音检测装置，其中，所述参数获取模块还包括：

第七参数获取单元，设置为在当前帧为第一帧时，确定所述连续激活音帧个数为 0,