CN103117067A

CN103117067A - 一种低信噪比下语音端点检测方法

Info

Publication number: CN103117067A
Application number: CN2013100190317A
Authority: CN
Inventors: 王健; 韩志艳
Original assignee: Bohai University
Current assignee: Bohai University
Priority date: 2013-01-19
Filing date: 2013-01-19
Publication date: 2013-05-22
Anticipated expiration: 2033-01-19
Also published as: CN103117067B

Abstract

本发明涉及一种低信噪比下语音端点检测方法，其包括：语音信号预处理、短时能零积计算、子带能量鉴别信息计算、噪声更新因子计算及帧判决。综合短时能量积和鉴别信息的互补优势，首先利用短时能零积进行判决，当遇到噪声帧与语音帧的转折帧时，再利用基于子带能量鉴别信息的方法进行复检，因此避免了因噪声幅度急剧变化和结尾语音帧被噪声淹没而导致的误检。与现有方法相比，即使在信噪比变化剧烈的情况下仍能准确快速地检测出语音的起止点，对语音信号的后续研究起了很好的铺垫作用。

Description

一种低信噪比下语音端点检测方法

技术领域

本发明涉及一种用于低信噪比环境下的语音端点检测方法，特别涉及一种基于短时能零积和鉴别信息的语音端点检测方法。

背景技术

人们在讲话的过程中有大量显著的停顿，语音的端点检就是从包含有背景噪声的一段语音信号中判断出哪些是有音片段，哪些是无音片段，并且要准确找出起点和终点。研究表明，即使在安静环境下语音识别***一半以上的识别错误都来自于端点检测，端点检测的准确性甚至在某种程度上直接决定了整个语音识别***的成败。

到目前为止端点检测的研究已经经历了几十年，产生了很多方法，传统的能量和过零率方法在低信噪比下已不再稳健。近年来，随着各行业对语音通信质量及语音识别等技术实用化的强烈需求，又出现了很多的端点检测算法，它们主要是通过采用各种新的特征参数，以提高算法的抗噪声性能。比如：基于频带方差的方法、基于HMM模型的检测方法、基于信息熵的特征、基于频域能量的特征、基于差分能量和差分过零率的特征、基于TF参数的方法、自相关相似距离法、基于高阶统计量的特征、基于短时能零积的特征及基于鉴别信息的方法等。

在实验室环境下，利用上述方法进行语音端点检测可以达到比较好的检测效果。但是当背景噪声较强时，有音片段的开始部分和结束部分容易被噪声淹没，从而会大大影响端点检测的准确性。比如基于频带方差的方法，在实际应用中会遇到一些脉冲干扰，在这些区域短时频带方差也可能较大，门限值就难以确定；而对于HMM检测法虽然准确率很高，但是需要事先训练；基于信息熵的方法，能有效区分语音信号中的浊音和噪声，但是难以区分清音和噪声；短时能零积法虽然简单，但是采用固定的门限阈值，导致抗噪性能差；而鉴别信息作为衡量信号与噪声相似度的特征，在噪声较低的情况下，效果不是很好，但在噪声能量急剧变化的环境中，效果却很好。

发明内容

本发明所要解决的技术问题是提供一种简单且高鲁棒性的基于短时能零积和鉴别信息的语音端点检测方法，通过使用该方法，在信噪比较低的情况下仍能准确地检测出语音的起止点。

本发明的技术解决方案是：

1. 一种低信噪比环境下的语音端点检测方法，包括以下步骤：

（1）、语音信号预处理

通过麦克风输入语音信号，由处理单元采样量化后获得相应语音数据，然后进行预加重、分帧和加窗处理；

（2）、短时能零积计算

第

Figure 2013100190317100002DEST_PATH_IMAGE001

帧的短时平均能量

Figure 2013100190317100002DEST_PATH_IMAGE002

和短时平均过零率

Figure 2013100190317100002DEST_PATH_IMAGE003

之积称为第

Figure 2013100190317100002DEST_PATH_IMAGE004

帧语音信号的短时能零积

Figure 2013100190317100002DEST_PATH_IMAGE005

：

Figure 2013100190317100002DEST_PATH_IMAGE006

其中，

表示语音信号的第

帧；，

Figure 2013100190317100002DEST_PATH_IMAGE008

是加汉明窗或矩形窗的语音信号，

Figure 2013100190317100002DEST_PATH_IMAGE009

为帧长；

Figure 2013100190317100002DEST_PATH_IMAGE010

；

（3）、子带能量鉴别信息计算

鉴别信息是用来衡量当前帧频谱分布与噪声帧频谱分布相似程度的，并采用子带能量分布代替概率分布，假设当前帧为噪声帧，

Figure 2013100190317100002DEST_PATH_IMAGE012

假设当前帧为语音帧，鉴别信息

为对数

Figure 2013100190317100002DEST_PATH_IMAGE014

在假设

Figure 2013100190317100002DEST_PATH_IMAGE015

下的期望，即

Figure 2013100190317100002DEST_PATH_IMAGE016

其中，

Figure 2013100190317100002DEST_PATH_IMAGE017

表示噪声帧中第

个子带能量所占总能量的比例；

Figure 2013100190317100002DEST_PATH_IMAGE019

表示当前帧中第

Figure 2013100190317100002DEST_PATH_IMAGE020

个子带能量所占总能量的比例；

Figure 2013100190317100002DEST_PATH_IMAGE021

为划分的子带个数，

Figure 2013100190317100002DEST_PATH_IMAGE022

=8~12;

（4）、噪声更新因子计算

利用获得的鉴别信息来计算噪声更新因子

：

Figure 2013100190317100002DEST_PATH_IMAGE024

其中，

Figure 2013100190317100002DEST_PATH_IMAGE025

是常数，取值范围分别为0.8~0.9，0.2~0.3，0.2~0.3；

是一个计数值，代表到当前帧为止

Figure 2013100190317100002DEST_PATH_IMAGE027

的连续帧的数目；

（5）、帧判决

取待判决语音数据前5帧作为无音片段进行处理，并规定待判决语音数据的第一帧认为是噪声帧；

将计算出的每帧短时能零积与噪声门限阈值进行比较，所述噪声门限阈值按下式进行更新：

Figure 2013100190317100002DEST_PATH_IMAGE028

其中，

Figure 2013100190317100002DEST_PATH_IMAGE029

代表经过第帧更新后噪声的门限阈值，

Figure 2013100190317100002DEST_PATH_IMAGE030

代表经过第

Figure 2013100190317100002DEST_PATH_IMAGE031

帧更新后噪声的门限阈值，

为噪声更新因子；

用短时能零积法进行判决过程中当遇到噪声帧与语音帧的转折帧时，采用基于子带能量鉴别信息的方法再次进行判决，其整个判决过程如下：

1）如果前一帧被判为噪声帧，且当前帧

Figure 2013100190317100002DEST_PATH_IMAGE033

，则此帧继续为噪声帧；

2）如果前一帧被判为噪声帧，且当前帧

Figure 2013100190317100002DEST_PATH_IMAGE034

且

Figure 2013100190317100002DEST_PATH_IMAGE035

，则记录该帧位置为start，然后继续计算比较后面连续6帧，如果都满足

Figure 2013100190317100002DEST_PATH_IMAGE036

且

Figure 2013100190317100002DEST_PATH_IMAGE037

，则认为start为语音的起点，否则仍为噪声帧；

其中

Figure 2013100190317100002DEST_PATH_IMAGE038

为鉴别信息判决边界，是距离当前帧最近的五帧噪声的鉴别信息平均值；

3）如果前一帧被判为语音帧，且当前帧

Figure 2013100190317100002DEST_PATH_IMAGE039

，则该帧继续为语音帧；

4）如果前一帧被判为语音帧，且当前帧

Figure 2013100190317100002DEST_PATH_IMAGE040

且

Figure 2013100190317100002DEST_PATH_IMAGE041

，则记录该帧位置为end，然后继续计算比较后面4帧，如果都满足且

Figure 2013100190317100002DEST_PATH_IMAGE043

，则认为end为语音的终点，否则仍为语音帧；

5）每判决完一帧都要通过加权对噪声门限阈值进行更新：

Figure 2013100190317100002DEST_PATH_IMAGE044

6）如果已经取完最后一帧，就结束语音的端点检测，否则继续进行上面的操作。

所述短时能零积计算时，加的是汉明窗，帧长。

所述子带能量鉴别信息计算时，子带个数

Figure 2013100190317100002DEST_PATH_IMAGE046

，即将0Hz到5512Hz的全频带分成8个频带，每16个点构成一个频带。

所述噪声更新因子计算时，常数

Figure 2013100190317100002DEST_PATH_IMAGE047

的取值分别为

Figure 2013100190317100002DEST_PATH_IMAGE048

。

本发明的有益效果如下：

（1）本发明综合了短时能零积与鉴别信息的互补作用，避免了因噪声幅度急剧变化和开头结尾语音帧被噪声淹没而导致的误检。

（2）在遇到噪声帧与语音帧的转折帧时，本发明提出采用基于能量的鉴别信息来进行二次复判，明显提高了端点检测的准确率。

（3）本发明采用加权平均的方法对噪声门限阈值进行了动态更新，较好地解决了传统方法由于采用固定的无音片段作为噪声样本而引起的误差。

附图说明

图1为干净语音信号时域波形图；

图2为带噪语音信号时域波形图；

图3为干净语音信号短时能零积曲线图；

图4为带噪语音信号短时能零积曲线图；

图5为干净语音信号鉴别信息曲线图；

图6为带噪语音信号鉴别信息曲线图；

图7为基于短时能零积的方法在平稳噪声环境下的端点检测图；

图8是本发明在平稳噪声环境下的端点检测图；

图9是基于短时能零积的方法在非平稳噪声环境下的端点检测图；

图10是本发明在平稳噪声环境下的端点检测图；

图11为几种端点检测方法识别率比较曲线图；

图1、图2、图7、图8、图9、图10中横坐标为时间，纵坐标为语音信号幅度值；图3、图4中横坐标为语音帧数，纵坐标为短时能零积值；图5、图6中横坐标为语音帧数，纵坐标为鉴别信息值；图11中横坐标为信噪比，纵坐标为识别正确率。

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作详细说明：

该方法包括语音信号预处理、短时能零积计算、子带能量鉴别信息计算、噪声更新因子计算及帧判决，具体过程如下：

一、语音信号预处理

通过麦克风输入语音信号进行采样，采样频率可以是8kHz、11.025kHz、16kHz、22.050kHz，量化精度可为8bit或16bit，本实例由处理单元以11.025kHz的采样频率、16bit的量化精度进行采样量化，获得相应语音数据，然后用一阶数字预加重滤波器实现预加重，其预加重滤波器的系数取值范围为0.93~0.97之间，本实例取0.9375。接下来以帧长点的标准进行分帧，其帧长

的取值范围为0.01

~0.03

之间的偶数，

为采样频率，本实例取

，并对分帧后的数据加汉明窗处理（也可用矩形窗）。所述的处理单元可采用计算机、单片机或DSP芯片等，本实例以计算机为例。

二、短时能零积计算

第

帧的短时平均能量

和短时平均过零率

之积称为第

帧语音信号的短时能零积

：

其中，表示语音信号的第帧；

，

是加汉明窗(也可是矩形窗)的语音信号，本实例加的是汉明窗；

。

三、子带能量鉴别信息计算

鉴别信息是用来衡量当前帧频谱分布与噪声帧频谱分布相似程度的，并采用子带能量分布代替概率分布，将0Hz到5512Hz的全频带分成

个频带（子带），

取8~12，本实例取

=8，即每16个点构成一个频带，每一个频带的能量为：

其中，是对应子带

的相应的Fourier变换第个幅度值。相应子带能量在总能量中所占比例为：

Figure 2013100190317100002DEST_PATH_IMAGE054

假设当前帧为噪声帧，

假设当前帧为语音帧，鉴别信息

为对数

在假设

下的期望，即

其中，

表示噪声帧中第

个子带能量所占总能量的比例；

表示当前帧中第

个子带能量所占总能量的比例。

四、噪声更新因子计算

利用获得的鉴别信息来计算噪声更新因子

：

其中，是常数，取值范围分别为0.8~0.9，0.2~0.3，0.2~0.3，本实例取；

是一个计数值，代表到当前帧为止

的连续帧的数目。

五、帧判决

取待判决语音数据前5帧作为无音片段进行处理，并规定待判决语音数据的第一帧认为是噪声帧，其整个判决过程如下：

1）将计算出的当前帧短时能零积值与噪声门限阈值进行比较，如果前一帧被判为噪声帧，且当前帧

，则此帧继续为噪声帧。其中，

代表经过第

帧更新后噪声的门限阈值，可根据步骤5）进行噪声门限阈值的更新；代表当前帧的短时能零积；

2）如果前一帧被判为噪声帧，且当前帧

且，则记录该帧位置为start，然后继续计算比较后面连续6帧，如果都满足且

，则认为start为语音的起点，否则仍为噪声帧；其中

3）如果前一帧被判为语音帧，且当前帧

，则该帧继续为语音帧；

4）如果前一帧被判为语音帧，且当前帧

且，则记录该帧位置为end，然后继续计算比较后面4帧，如果都满足

且

，则认为end为语音的终点，否则仍为语音帧；

5）每判决完一帧都要通过加权对噪声门限阈值进行更新：

举例如下：

1、如图1-图6所示，短时能零积曲线在噪声较低的情况下效果很好，但在噪声较大或噪声急剧变化的环境下出现了很大的失真，会严重影响判决效果。而鉴别信息作为衡量信号与噪声相似度的特征，在噪声较低的情况下，效果不是很好，但在噪声急剧变化的环境中，效果却很好。所以二者在单独运用时，各有其不足，联合运用时，可以优势互补。

2、如图7、图8所示，用短时能零积法中间的两个音完全淹没在噪声中了，且有很多噪声帧被判为语音帧，而本发明方法却能较准确地检测出语音起始点。

3、如图9、图10所示，在噪声能量变化较快的环境中，本发明方法明显优于短时能零积方法。在一开始噪声能量比较低的情况下，若噪声能量突然增大，后面的输入信号被完全当作了语音信号，则基于短时能零积的方法完全失效。

4、如图11所示，几种方法在信噪比高的语音中端点检测的正确率都较好，识别效果几乎相同。但是随着信噪比的降低，前四种方法的正确了明显降低，而本发明方法正确率仍然很高，即使是在-5dB的信噪比下，本发明方法仍能取得96.83%的正确率，明显优于其他方法。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。