CN103077728A

CN103077728A - 一种病人虚弱语音端点检测方法

Info

Publication number: CN103077728A
Application number: CN2012105945906A
Authority: CN
Inventors: 尹岩岩; 殷业; 肖龙; 关吉萍
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University; University of Shanghai for Science and Technology
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2013-05-01
Anticipated expiration: 2032-12-31
Also published as: CN103077728B

Abstract

本发明公开一种病人虚弱语音端点检测方法，包括以下步骤：将语音信号转换为图像，对此图像进行拉伸和放大，将拉伸和放大后的图像转换成二值图像；对语音信号的波形包络所在区域进行开操作，即

其中Θ为腐蚀，

为膨胀，再取边界β(A)；β(A)＝A-A(AΘB)进一步取波形轮廓，其中取边界β(A)为一个像素点；使用平滑滤波器h(x)对信号进行滤波，得到其中

为卷积；对g(x)求两阶导数以检测边缘点；找到音频最高点，搜索最高点两边的店，将前点和后点比较，若前点小于后点，则认为此最高点两边的两个点分别为词或音节的起始和结束点。

Description

一种病人虚弱语音端点检测方法

技术领域

本发明属于语音通信领域，具体涉及一种病人虚弱语音端点检测方法。

背景技术

未来人机交互最基本、最重要的手段是语音，而语音识别与合成是促使其普及发展的最关键技术。因此对语音识别的关键技术研究变的尤为重要。语音识别主要包括：语言特征提取、模式匹配和语言模型处理，其研究的对象分别是：语言特征序列、识别算法和语法语义分析。其中的关键技术有：端点检测，动态时间规整(DTW),隐形马尔科夫模型(HMM),人工神经网络(ANN)等。

端点检测通常依据的语音特征有短时能量、过零率、LPC距离、频谱熵、倒谱特征、TF参数、分形特征以及几种参数相结合，例如能零积、能零比、频能比、对数能量谱熵、子带谱熵、能频值等，但是这些参数性能过于单一，在低信噪比的条件下很难满足实际的需求。传统的端点检测特征参数LPC距离、倒谱特征、TF参数和分形特征等参数计算量太大，对硬件要求很高，阻碍了人机交互技术在日常生活中的普及适用。

发明内容

本发明提出一种病人虚弱语音端点检测方法，通过对语音信号波形的图像，或语音信号的频谱图像，包括时域的包络图像进行图像处理，运用图像处理中对图像轮廓边缘的检测，进行端点检测。

本发明的技术方案是：

一种病人虚弱语音端点检测方法，包括以下步骤：

将语音信号转换为图像，对此图像进行拉伸和放大，将拉伸和放大后的图像转换成二值图像；

对语音信号的波形包络所在区域进行开操作，即

其中Θ为腐蚀，

为膨胀，再取边界β(A)；

β(A)＝A-A(AΘB)进一步取波形轮廓，其中取边界β(A)为一个像素点；

使用平滑滤波器h(x)对信号进行滤波，得到

其中为卷积；

对g(x)求两阶导数以检测边缘点；

找到音频最高点，搜索最高点两边的店，将前点和后点比较，若前点小于后点，则认为此最高点两边的两个点分别为词或音节的起始和结束点。

本发明的明显效果是：

这种方法比以往利用语音信号特征，例如能量，倒谱等人为找到的语音信息特征更为自然，更为简单和精确。因为人的肉眼对轮廓，边缘，间隔点的分辨率是相当高的。通过与人眼相对应的图像识别来区分语音信号的端点。图像处理从根本上说就是对人眼看到东西然后进行处理这一过程的一种机器模拟，所以这里用图像来识别比用机器对语音的其它特征进行处理来得更精确。

语音特征参数和图像识别结合在一起，能够发挥他们各自的长处，同时又可以在一定程度上规避他们各自的缺点，扩大了端点检测的隔离度，从而能够有效的应对各种不同类型的背景噪声。把图像识别应用于语音端点检测中具有重大的理论和现实意义。尤其是病人说话语音和普通话中的一些清音的检测效果更为明显。

附图说明

图1为本发明的流程图；

图2为本发明实施例中未经处理的原始语音波形图；

图3为本发明实施例中图2放大2.3倍后的波形图；

图4为本发明实施例中图3进一步拉伸后的波形图；

图5为本发明实施例中图2的二值图的语音波形图；

图6为本发明实施例中图5的波形轮廓图；

图7为本发明实施例中图2经平滑滤波和端点检测后的示意图；

图8为本发明实施例中通过传统特征进行检测方法检测后的波形图；

图9为本发明实施例中图8纵向横向拉伸后的波形图。

具体实施方式

以下结合附图和实施例对本发明进行进一步描述。

如图1所示，一种病人虚弱语音端点检测方法，包括以下步骤：

对语音信号的波形包络所在区域进行开操作，即

其中Θ为腐蚀，

为膨胀，再取边界β(A)；

使用平滑滤波器h(x)对信号进行滤波，得到

其中

为卷积；

对g(x)求两阶导数以检测边缘点；

本发明的技术原理是：

2.1短时平均过零率

过零率可以反映信号的频谱特性。当离散时间信号相邻的两个样本点的正负号异号时，我们称之为“过零”。统计单位时间内样点值改变符号的次数即可以得到平均过零率。由于语音是一种短时平稳信号，因此在统计平均过零率时往往按帧来计算，这样的得到的就是短时平均过零率的定义。

Z_{n} = Σ_{m = - \infty}^{\infty} | sgn [x (m)] - sgn [x (m - 1)] | ω (n - m) - - - (1)

其中，sgn[]为符号函数，ω(n)为窗函数，计算时常采用矩形窗，窗长为N。过零分析是语音的时域分析中最简单的一种分析。它可以区别语音的发音是清音还是浊音。由于清音语音的多数能量出现在较高的频率上，因此清音的过零率较高；而浊音语音具有高频跌落的频谱，因此浊音的过零率低。通过仿真分析，我们看出语音信号静音段过零率较高，语音段的过零率较低；噪声的过零率很高且在时间轴上分布均匀；对于带背景噪声的语音信号，噪声

段过零率很高，而在信号与噪声叠加的语音段的过零率明显降低。

2.2短时能量

由于语音信号的能量随时间而变化，能量可以用于区别发音的清音段和浊音段，能量值较大的对应于清音段，能量值较小的对应于浊音段。所谓短时能量，就是先对音频信号进行分帧处理，然后对每一帧求其能量，它被定义为一帧中所有采样值平方的和。

E_{n} = Σ_{m = - \infty}^{\infty} {[x (m) \cdot ω (n - m)]}^{2} - - - (2)

当测试信号帧的短时能量超过噪声能量门限并持续一定时间，则第一次超过能量门限的点被认为是语音段的起点，然后当被测信号帧的能量低于另一噪声能量门限并持续一定时间，则被判为是语音段的终止点。这种方法在对噪声能量的门限估计有较大的限制和要求。

2.3基本谱熵

信息熵是由Shannon引用到信息论中来的，在语音编码中经常被使用，而Shen等人第一次用谱熵作为端点检测的特征参数。对一段语音信号进行采样、预加重、分帧、加窗等预处理，然后按帧间50%的重叠求FFT，得到其在频率分量f_i的能量谱Sm(f_i)，则每个频率分量的归一化概率密度函数(PDF)定义。

P_{i} = \frac{S_{m} (f_{i})}{Σ_{n = 0}^{N - 1} S_{m} (f_{n})}, i = 1,2, . . ., N - - - (3)

其中P_i为某频率分量i对应的概率密度，N为FFT变换长度，m表示第m帧语音。为了保证语音信号的频率范围并滤除在某些频率上持续发生的噪声，我们做了如下约定。

S(f_i)＝0if f_i≤250Hz or f_i≥3750Hz

and P_i＝0if P_i≥0.9

那么，第m帧语音信号的谱熵为：

H_{m} = - Σ_{i = 1}^{N} P_{i} \log P_{i} - - - (4)

根据谱熵的定义我们得知，谱熵反映了信源幅值分布的“无序性”。由最大熵定理，离散无记忆信源输出M个不同的信息符号，当且仅当各个符号出现概率相等（p_i=1/M）时，熵最大。

H (X) \leq H (\frac{1}{M}, \frac{1}{M}, . . ., \frac{1}{M}) = \log M - - - (5)

语音信号的谱熵不同于噪声信号的谱熵。在采样点组成的样本空间中，信息熵只与能量的随机性有关，和能量幅值无关。对于语音段的样本点，它的能量集中于某几个频段,起伏突变大,那么它所含的平均信息量即谱熵较小；而噪声样本点随机性的较大且分布较为分散，故随即随机噪声的信源不确定性（熵值）最大。

研究证明，语音信号的信息熵和非语音信号的信息熵之间存在很大的差别，由此可以用来寻找语音端点的位置。在很多情况下，尤其是当背景噪声主要是机械噪声时，使用信息熵作为特征参数比单纯使用能量更加可靠，有较强的鲁棒性。但是，当SNR下降至很低时，单独利用谱熵进行端点检测将较为困难。

2.4短时能零熵

上文对短时平均过零率、短时能量和基本谱熵三个端点检测的特征参数的逐一分析，都是在低信噪比的情况下，但是，在连续不断的信噪比较低背景噪声或者音乐背景下，单独的使用这些特征参数来进行语音端点检测会非常不可靠。为此，基于上文的研究结果，进一步“放大”端点检测的隔离度，我们提出了一个结合时域和频域的语音特征、能够对背景噪声做出反馈、并且可以在复杂的背景噪音环境下对语音和非语音做出有效的区分的语音参数，称为短时能零熵值。定义：

第m帧的短时能零熵值的定义如下：

EZSE_m＝(E_m-E₀)(H₀-H_m)/Z_m （6）

其中，EZSE_m表示第m帧的短时能零熵值，E_m、H_m和Z_m分别表示第m帧的短时能量、基本谱熵和短时过零率，E₀和H₀分别表示表示了当前帧背景噪声的短时能量、基本谱熵。

短时能零熵同时结合了时域和频域的语音特征。短时能量和短时过零率属于时域的音频特征参数，谱熵则属于频域的音频特征参数。将时域和频域的音频特征参数结合在一起，能够发挥他们各自的长处，同时又可以在一定程度上规避他们各自的缺点，从而能够有效的应对各种不同类型的背景噪声。

然而实际上，由于在波形上语音信号独有的特点，通过观察波形和放大或缩小图形的方法，凭人眼也能精确分辨出语音信号的端点。而医院病人对于人机交互的需求最为普遍，针对病人说话语音清音较多的特点，因此本文通过将图像识别与语音信号特征相结合的方法来进行端点检测。即：通过对语音信号波形的图像，或语音信号的频谱图像，包括时域的包络图像进行图像处理，运用图像处理中对图像轮廓边缘的检测，进行端点检测。

2.5图像端点检测方法

对于一幅语音信号的波形图，其波形的分布与形状具有一定的特点，而正是这一特点使得我们能用人眼看图形时能够非常准确的找到每个语音包的分割位置点。而且图像本身可以任意放大缩小，拉伸压缩，对拉伸后的图像仅凭肉眼更是一目了然。

如图2所示，为没经处理的原始语音“this is a book”。

如图3所示，为放大2.3倍后的波形图(画“差”处为is和a)。

如图4所示，为进一步拉伸后得到单词is和a的波形图。

由图可见在对拉伸后的图形，连音素（这里是英文字母）也可以清楚的用肉眼分辨出，即用“差”标记出的点。

首先要将获得的语音信号转换为图像.对图像的预处理主要是将图像进行拉伸和放大，然后将其变换为二值图像，因为对二值图像的处理来得更为直观和简单。

为了保留语音的真实性，在这里不对原始语音进行低通滤波，一方面是为了更彻底地运用图像处理的方法，二是使需要检测的语音能保留所有的信息，并且低通滤波容易将一些原本是语音内容但本身具有噪声特性的语音给去除了。例如this这个词里的s，它的波形图就如噪声源产生的图形，很容易被当作噪声被滤去。

要对一幅二值图形进行端点检测，即找到一种通用的自适应的算法，首先要对幅度值随机的语音图像取其轮廓。

如图5所示，为二值图“this is a book”语音波形图。

如图6所示，为对图5进一步取波形轮廓。

由于语音信号的随机性，波形包所在区域黑白交错，不利于取轮廓，所以对波包所在区域进行“开操作”即A°B，定义：

（其中Θ表示腐蚀，

表示膨胀，即用Ｂ腐蚀Ａ，然后用Ｂ对结果进行膨胀）然后再取边界，设边界为β(A)，则β(A)＝A-A(AΘB)。（在这里取边界为一个像素点，便于分析）这样得到的边界清晰，并不失一般性。（见图4、图5）

对得到的边界进一步模糊，去除毛刺，光滑边缘。在这里使用平滑滤波器，以滤去由于噪声造成的边缘的不平滑点，设平滑滤波器h(x)(脉冲传递函数)，对信号进行滤波，得到

（这里表示卷积），再对g(x)求两阶导数以检测边缘点。这样得到后的图像就能对其进行端点检测。

如图7所示，首先找到局部最高点,搜索最高点两边的点,将前点和它后点相比较,若前一点小于后一点,（即寻找局部最小点）则认为这个最高点两边的两个点分别为该词或该音节的起始和结束点。然后继续寻找局部最高点，按上述方法依次寻找起始点和结束点。

使用图像识别的方法来进行端点检测，可以达到人眼分辨语音信号音节包的效果。

如图8所示，在实验中我们对如“this is”进行识别，其中的this的“s”非常容易被当作静音处理，即“this is”用传统特征进行检测，导致的误分。（最前端为静音）。

如图9所示，通过纵向横向拉伸，我们可以发现this前段静音与后段“s”的区别是非常明显的，即纵向横向拉伸后的“this”的前段(静音),和后段“s”其幅度值是不一样的。

用图像识别时我们可以设定寻找局部最小值的阈值，使得s音不会被误判。

Claims

1.一种病人虚弱语音端点检测方法，其特征在于，包括以下步骤：

对语音信号的波形包络所在区域进行开操作，即

其中Θ为腐蚀，

为膨胀，再取边界β(A)；

使用平滑滤波器h(x)对信号进行滤波，得到

其中

为卷积；

对g(x)求两阶导数以检测边缘点；