CN107331393B

CN107331393B - 一种自适应语音活动检测方法

Info

Publication number: CN107331393B
Application number: CN201710694057.XA
Authority: CN
Inventors: 何云鹏; 张来; 高君效; 许兵
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2017-08-15
Filing date: 2017-08-15
Publication date: 2020-05-12
Anticipated expiration: 2037-08-15
Also published as: CN107331393A

Abstract

本发明涉及语音信号处理领域，特别是涉及到一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法，本发明通过对语音***里的语音是否在活动进行检测，来控制设备的工作状态，当语音不活动的时候，设备可以处于低功耗或者挂起状态，从而能够降低设备运算要求和功耗同时对于语音通信设备来讲，降低通信带宽。

Description

一种自适应语音活动检测方法

技术领域

本发明涉及语音信号处理领域，特别是涉及到一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法。

背景技术

目前语音识别作为一种常用的人机交互技术，已广泛应用于各类电子产品中，以其自然方便的交互方式收到了消费者的喜爱，逐渐成为了智能产品时代的主流交互控制方式，在语音处理领域，作为所有的语音信号处理的起点，语音活动检测技术的结算结果直接决定了后续各种处理是否实行，同时对于语音识别***来讲，语音活动检测是实现低功耗和提高识别率中非常重要的一步。目前的难点主要在于，1）多特征激活时，不同的特征的选择来实现不同的频率选择特性和同时兼顾频域和时域特性的不同特征选择。2）多门槛特征如何合理利用语音活动检测的结果，反过来更新门槛值。

为解决上述问题，需要发明一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种基于时域能量的门限检查、噪音频谱估计的双门限及粗检测的门限更新的自适应语音活动检测方法。

为了达到上述目的，本发明提供了如下技术方案。

一种自适应语音活动检测方法，其包括以下步骤：

步骤一进行时域信号分割，根据设定的帧长时间和帧移时间，将一长段所述时域信号分割成一帧一帧的单帧时域信号；

步骤二使用汉明窗对所述单帧时域信号进行加窗处理，在单帧频域范围内对所述单帧时域信号进行快速傅立叶变换，得到所述单帧时域信号的单帧频域信息；

步骤三使用迭代更新噪音估计计算，再对比所述单帧频域信息的频带和噪音估计的频带得到信噪比，同时计算增长函数特征；

步骤四计算所述单帧频域信息的所有的频带与上一帧对应频带的差值的平方和得到谱通量特征；

步骤五根据快速傅立叶变换之前的所述时域数据，进行能量的操作符特征的提取；

步骤六对所述增长函数特性、谱通量及能量的操作符特征进行编号，分别用F(1)=GF(i)、F(2)=SF(i)、F=TK(i)表示；

步骤七对比所述增长函数特性与门槛一得到对比结果一，对比所述谱通量与门槛二得到对比结果二，对比能量的操纵符特征与门槛三得到对比结果三，将所述对比结果一、对比结果二和对比结果三进行综合，得到所述单帧频域信息的语音活动信息；

步骤八根据所述语音活动信息更新所述门槛一、门槛二和门槛三，选择所述增长函数特性、谱通量及能量的操纵符特征的特征缓冲区内前c个最小值与所述门槛一、门槛二和门槛三做对比，选择二者中的最大值，作为新的门槛一、门槛二和门槛三，c为10到30之间的任一数值，如果所述增长函数特性、谱通量及能量的操纵符特征前d帧的语音检测结果都为0，则选择所述增长函数特性、谱通量及能量的操纵符特征前d个特征数据中的最大值作为新的门槛一、门槛二和门槛三，d为10到30之间的任一数值；

步骤九延展所述对比结果一、对比结果二和对比结果三，获得新的对比结果一、对比结果二和对比结果三，如果所述增长函数特性、谱通量及能量的操纵符特征前s帧语音对比结果中超过一半的时间帧取值为1则代表检测到了语音信息，把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为检测到语音，全部取值为1，如果所述增长函数特性、谱通量及能量的操纵符特征前s帧语音对比结果中少于1半的时间帧取值为1则代表未检测到语音信息，把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为未检测到语音，全部取值为0,s为10到30之间的任一数值；

所述单帧频域信息通过以下公式获得：

其中：x₁(n)，x₂(n)分别为偶数序列和基数序列，

为权重系数，

所述增长函数特征通过公式

获得，其中i代表第i帧；

所述谱通量通过公式

获得。

所述能量的操作符特征通过公式

来实现提取，通过调整k的大小来实现频率的选择；

合适的选择增长函数中的不同的频带和能量操作符中的参数k，可以实现不同的频带选择特性。

所述步骤七通过公式

来进行综合，其中T为特征激活参数，调整T的大小，可改变语音活动检测的性能，T越大，语音误检率会降低，但是漏检率会增高；反之，误检率会增高，但是漏检率会降低。

作为本发明的优选方案，所述步骤八的更新过程如下：

TH(1)=max(TH(1),min(F(i-c:i,l)))

if cVAD(i-d:i)==0

TH(l)=max(F(i-d:i,l))

End。

作为本发明的优选方案，所述步骤九通过公式If(sum(cVAD(i-s:i))>0.5*s)和FVAD(i-s-a:i+b)=1进行延展，获得平滑的对比结果信息。

与现有技术相比，本发明的有益效果：

本发明提供了一种自适应语音活动检测方法，该方法可以对语音***里的语音是否在活动进行检测，当语音不活动的时候，设备可以处于低功耗或者挂起状态，从而在降低设备运算要求和功耗的同时降低了语音通信设备的通信带宽。

附图说明

图1为本发明流程图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述，但不应将此理解为本发明上述主体的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

如图1所示，一种自适应语音活动检测方法，其包括以下步骤：

步骤一进行时域信号分割，根据设定的帧长时间和帧移时间，将一长段所述时域信号分割成一帧一帧的单帧时域信号，在本实施例中帧长时间为32毫秒，帧移时间为16毫秒；

步骤四计算所述单帧频域信息的所有的频带与上一帧对应频带的差值的平方和得到谱通量；

步骤六对所述增长函数特性、谱通量及能量的操作符特征进行编号，分别用F(1)=GF(i)、F(2)=SF(i)、F=TK(i)来表示；

步骤八根据所述语音活动信息更新所述门槛一、门槛二和门槛三，选择所述增长函数特性、谱通量及能量的操纵符特征的特征缓冲区内前15个最小值与所述门槛一、门槛二和门槛三做对比，选择二者中的最大值，作为新的门槛一、门槛二和门槛三，如果所述增长函数特性、谱通量及能量的操纵符特征前15帧的语音检测结果都为0，则选择所述增长函数特性、谱通量及能量的操纵符特征前15个特征数据中的最大值作为新的门槛一、门槛二和门槛三；

步骤九延展所述对比结果一、对比结果二和对比结果三，获得新的对比结果一、对比结果二和对比结果三，如果所述增长函数特性、谱通量及能量的操纵符特征前15帧语音对比结果中超过1半的时间帧取值为1则代表检测到了语音信息，把所述增长函数特性、谱通量及能量的操纵符特征的前15帧语音全部判定为检测到语音，全部取值为1，如果所述增长函数特性、谱通量及能量的操纵符特征前15帧语音对比结果中少于1半的时间帧取值为1则代表未检测到语音信息，把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为未检测到语音，全部取值为0。

单帧频域信息通过以下公式获得：

其中：x₁(n)，x₂(n)分别为偶数序列和基数序列，

为权重系数，

公式中N取值为512，k取值为18。

所述增长函数特征通过公式

获得，其中i代表第i帧，i代表当前帧的标号，随着算法的运行，每判定完1帧，取值自动增加1。

所述谱通量通过公式

获得。

所述能量的操作符特征通过公式

来实现提取，通过调整k的大小来实现频率的选择，本实施例中k取值18。

步骤七通过公式

步骤八的更新过程如下：

if cVAD(i-d:i)==0

TH(l)=max(F(i-d:i,l))

End。

步骤九通过公式If(sum(cVAD(i-s:i))>0.5*s)和FVAD(i-s-a:i+b)=1进行延展，获得平滑的对比结果信息，前述公式中a取值为5。