CN103077728A - 一种病人虚弱语音端点检测方法 - Google Patents
一种病人虚弱语音端点检测方法 Download PDFInfo
- Publication number
- CN103077728A CN103077728A CN2012105945906A CN201210594590A CN103077728A CN 103077728 A CN103077728 A CN 103077728A CN 2012105945906 A CN2012105945906 A CN 2012105945906A CN 201210594590 A CN201210594590 A CN 201210594590A CN 103077728 A CN103077728 A CN 103077728A
- Authority
- CN
- China
- Prior art keywords
- point
- image
- voice signal
- theta
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明属于语音通信领域,具体涉及一种病人虚弱语音端点检测方法。
背景技术
未来人机交互最基本、最重要的手段是语音,而语音识别与合成是促使其普及发展的最关键技术。因此对语音识别的关键技术研究变的尤为重要。语音识别主要包括:语言特征提取、模式匹配和语言模型处理,其研究的对象分别是:语言特征序列、识别算法和语法语义分析。其中的关键技术有:端点检测,动态时间规整(DTW),隐形马尔科夫模型(HMM),人工神经网络(ANN)等。
端点检测通常依据的语音特征有短时能量、过零率、LPC距离、频谱熵、倒谱特征、TF参数、分形特征以及几种参数相结合,例如能零积、能零比、频能比、对数能量谱熵、子带谱熵、能频值等,但是这些参数性能过于单一,在低信噪比的条件下很难满足实际的需求。传统的端点检测特征参数LPC距离、倒谱特征、TF参数和分形特征等参数计算量太大,对硬件要求很高,阻碍了人机交互技术在日常生活中的普及适用。
发明内容
本发明提出一种病人虚弱语音端点检测方法,通过对语音信号波形的图像,或语音信号的频谱图像,包括时域的包络图像进行图像处理,运用图像处理中对图像轮廓边缘的检测,进行端点检测。
本发明的技术方案是:
一种病人虚弱语音端点检测方法,包括以下步骤:
将语音信号转换为图像,对此图像进行拉伸和放大,将拉伸和放大后的图像转换成二值图像;
β(A)=A-A(AΘB)进一步取波形轮廓,其中取边界β(A)为一个像素点;
对g(x)求两阶导数以检测边缘点;
找到音频最高点,搜索最高点两边的店,将前点和后点比较,若前点小于后点,则认为此最高点两边的两个点分别为词或音节的起始和结束点。
本发明的明显效果是:
这种方法比以往利用语音信号特征,例如能量,倒谱等人为找到的语音信息特征更为自然,更为简单和精确。因为人的肉眼对轮廓,边缘,间隔点的分辨率是相当高的。通过与人眼相对应的图像识别来区分语音信号的端点。图像处理从根本上说就是对人眼看到东西然后进行处理这一过程的一种机器模拟,所以这里用图像来识别比用机器对语音的其它特征进行处理来得更精确。
语音特征参数和图像识别结合在一起,能够发挥他们各自的长处,同时又可以在一定程度上规避他们各自的缺点,扩大了端点检测的隔离度,从而能够有效的应对各种不同类型的背景噪声。把图像识别应用于语音端点检测中具有重大的理论和现实意义。尤其是病人说话语音和普通话中的一些清音的检测效果更为明显。
附图说明
图1为本发明的流程图;
图2为本发明实施例中未经处理的原始语音波形图;
图3为本发明实施例中图2放大2.3倍后的波形图;
图4为本发明实施例中图3进一步拉伸后的波形图;
图5为本发明实施例中图2的二值图的语音波形图;
图6为本发明实施例中图5的波形轮廓图;
图7为本发明实施例中图2经平滑滤波和端点检测后的示意图;
图8为本发明实施例中通过传统特征进行检测方法检测后的波形图;
图9为本发明实施例中图8纵向横向拉伸后的波形图。
具体实施方式
以下结合附图和实施例对本发明进行进一步描述。
如图1所示,一种病人虚弱语音端点检测方法,包括以下步骤:
将语音信号转换为图像,对此图像进行拉伸和放大,将拉伸和放大后的图像转换成二值图像;
β(A)=A-A(AΘB)进一步取波形轮廓,其中取边界β(A)为一个像素点;
对g(x)求两阶导数以检测边缘点;
找到音频最高点,搜索最高点两边的店,将前点和后点比较,若前点小于后点,则认为此最高点两边的两个点分别为词或音节的起始和结束点。
本发明的技术原理是:
2.1短时平均过零率
过零率可以反映信号的频谱特性。当离散时间信号相邻的两个样本点的正负号异号时,我们称之为“过零”。统计单位时间内样点值改变符号的次数即可以得到平均过零率。由于语音是一种短时平稳信号,因此在统计平均过零率时往往按帧来计算,这样的得到的就是短时平均过零率的定义。
其中,sgn[]为符号函数,ω(n)为窗函数,计算时常采用矩形窗,窗长为N。过零分析是语音的时域分析中最简单的一种分析。它可以区别语音的发音是清音还是浊音。由于清音语音的多数能量出现在较高的频率上,因此清音的过零率较高;而浊音语音具有高频跌落的频谱,因此浊音的过零率低。通过仿真分析,我们看出语音信号静音段过零率较高,语音段的过零率较低;噪声的过零率很高且在时间轴上分布均匀;对于带背景噪声的语音信号,噪声
段过零率很高,而在信号与噪声叠加的语音段的过零率明显降低。
2.2短时能量
由于语音信号的能量随时间而变化,能量可以用于区别发音的清音段和浊音段,能量值较大的对应于清音段,能量值较小的对应于浊音段。所谓短时能量,就是先对音频信号进行分帧处理,然后对每一帧求其能量,它被定义为一帧中所有采样值平方的和。
当测试信号帧的短时能量超过噪声能量门限并持续一定时间,则第一次超过能量门限的点被认为是语音段的起点,然后当被测信号帧的能量低于另一噪声能量门限并持续一定时间,则被判为是语音段的终止点。这种方法在对噪声能量的门限估计有较大的限制和要求。
2.3基本谱熵
信息熵是由Shannon引用到信息论中来的,在语音编码中经常被使用,而Shen等人第一次用谱熵作为端点检测的特征参数。对一段语音信号进行采样、预加重、分帧、加窗等预处理,然后按帧间50%的重叠求FFT,得到其在频率分量fi的能量谱Sm(fi),则每个频率分量的归一化概率密度函数(PDF)定义。
其中Pi为某频率分量i对应的概率密度,N为FFT变换长度,m表示第m帧语音。为了保证语音信号的频率范围并滤除在某些频率上持续发生的噪声,我们做了如下约定。
S(fi)=0if fi≤250Hz or fi≥3750Hz
and Pi=0if Pi≥0.9
那么,第m帧语音信号的谱熵为:
根据谱熵的定义我们得知,谱熵反映了信源幅值分布的“无序性”。由最大熵定理,离散无记忆信源输出M个不同的信息符号,当且仅当各个符号出现概率相等(pi=1/M)时,熵最大。
语音信号的谱熵不同于噪声信号的谱熵。在采样点组成的样本空间中,信息熵只与能量的随机性有关,和能量幅值无关。对于语音段的样本点,它的能量集中于某几个频段,起伏突变大,那么它所含的平均信息量即谱熵较小;而噪声样本点随机性的较大且分布较为分散,故随即随机噪声的信源不确定性(熵值)最大。
研究证明,语音信号的信息熵和非语音信号的信息熵之间存在很大的差别,由此可以用来寻找语音端点的位置。在很多情况下,尤其是当背景噪声主要是机械噪声时,使用信息熵作为特征参数比单纯使用能量更加可靠,有较强的鲁棒性。但是,当SNR下降至很低时,单独利用谱熵进行端点检测将较为困难。
2.4短时能零熵
上文对短时平均过零率、短时能量和基本谱熵三个端点检测的特征参数的逐一分析,都是在低信噪比的情况下,但是,在连续不断的信噪比较低背景噪声或者音乐背景下,单独的使用这些特征参数来进行语音端点检测会非常不可靠。为此,基于上文的研究结果,进一步“放大”端点检测的隔离度,我们提出了一个结合时域和频域的语音特征、能够对背景噪声做出反馈、并且可以在复杂的背景噪音环境下对语音和非语音做出有效的区分的语音参数,称为短时能零熵值。定义:
第m帧的短时能零熵值的定义如下:
EZSEm=(Em-E0)(H0-Hm)/Zm (6)
其中,EZSEm表示第m帧的短时能零熵值,Em、Hm和Zm分别表示第m帧的短时能量、基本谱熵和短时过零率,E0和H0分别表示表示了当前帧背景噪声的短时能量、基本谱熵。
短时能零熵同时结合了时域和频域的语音特征。短时能量和短时过零率属于时域的音频特征参数,谱熵则属于频域的音频特征参数。将时域和频域的音频特征参数结合在一起,能够发挥他们各自的长处,同时又可以在一定程度上规避他们各自的缺点,从而能够有效的应对各种不同类型的背景噪声。
然而实际上,由于在波形上语音信号独有的特点,通过观察波形和放大或缩小图形的方法,凭人眼也能精确分辨出语音信号的端点。而医院病人对于人机交互的需求最为普遍,针对病人说话语音清音较多的特点,因此本文通过将图像识别与语音信号特征相结合的方法来进行端点检测。即:通过对语音信号波形的图像,或语音信号的频谱图像,包括时域的包络图像进行图像处理,运用图像处理中对图像轮廓边缘的检测,进行端点检测。
2.5图像端点检测方法
对于一幅语音信号的波形图,其波形的分布与形状具有一定的特点,而正是这一特点使得我们能用人眼看图形时能够非常准确的找到每个语音包的分割位置点。而且图像本身可以任意放大缩小,拉伸压缩,对拉伸后的图像仅凭肉眼更是一目了然。
如图2所示,为没经处理的原始语音“this is a book”。
如图3所示,为放大2.3倍后的波形图(画“差”处为is和a)。
如图4所示,为进一步拉伸后得到单词is和a的波形图。
由图可见在对拉伸后的图形,连音素(这里是英文字母)也可以清楚的用肉眼分辨出,即用“差”标记出的点。
首先要将获得的语音信号转换为图像.对图像的预处理主要是将图像进行拉伸和放大,然后将其变换为二值图像,因为对二值图像的处理来得更为直观和简单。
为了保留语音的真实性,在这里不对原始语音进行低通滤波,一方面是为了更彻底地运用图像处理的方法,二是使需要检测的语音能保留所有的信息,并且低通滤波容易将一些原本是语音内容但本身具有噪声特性的语音给去除了。例如this这个词里的s,它的波形图就如噪声源产生的图形,很容易被当作噪声被滤去。
要对一幅二值图形进行端点检测,即找到一种通用的自适应的算法,首先要对幅度值随机的语音图像取其轮廓。
如图5所示,为二值图“this is a book”语音波形图。
如图6所示,为对图5进一步取波形轮廓。
由于语音信号的随机性,波形包所在区域黑白交错,不利于取轮廓,所以对波包所在区域进行“开操作”即A°B,定义:(其中Θ表示腐蚀,表示膨胀,即用B腐蚀A,然后用B对结果进行膨胀)然后再取边界,设边界为β(A),则β(A)=A-A(AΘB)。(在这里取边界为一个像素点,便于分析)这样得到的边界清晰,并不失一般性。(见图4、图5)
对得到的边界进一步模糊,去除毛刺,光滑边缘。在这里使用平滑滤波器,以滤去由于噪声造成的边缘的不平滑点,设平滑滤波器h(x)(脉冲传递函数),对信号进行滤波,得到(这里表示卷积),再对g(x)求两阶导数以检测边缘点。这样得到后的图像就能对其进行端点检测。
如图7所示,首先找到局部最高点,搜索最高点两边的点,将前点和它后点相比较,若前一点小于后一点,(即寻找局部最小点)则认为这个最高点两边的两个点分别为该词或该音节的起始和结束点。然后继续寻找局部最高点,按上述方法依次寻找起始点和结束点。
使用图像识别的方法来进行端点检测,可以达到人眼分辨语音信号音节包的效果。
如图8所示,在实验中我们对如“this is”进行识别,其中的this的“s”非常容易被当作静音处理,即“this is”用传统特征进行检测,导致的误分。(最前端为静音)。
如图9所示,通过纵向横向拉伸,我们可以发现this前段静音与后段“s”的区别是非常明显的,即纵向横向拉伸后的“this”的前段(静音),和后段“s”其幅度值是不一样的。
用图像识别时我们可以设定寻找局部最小值的阈值,使得s音不会被误判。
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210594590.6A CN103077728B (zh) | 2012-12-31 | 2012-12-31 | 一种病人虚弱语音端点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210594590.6A CN103077728B (zh) | 2012-12-31 | 2012-12-31 | 一种病人虚弱语音端点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103077728A true CN103077728A (zh) | 2013-05-01 |
CN103077728B CN103077728B (zh) | 2015-08-19 |
Family
ID=48154235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210594590.6A Expired - Fee Related CN103077728B (zh) | 2012-12-31 | 2012-12-31 | 一种病人虚弱语音端点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103077728B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575498A (zh) * | 2015-01-30 | 2015-04-29 | 深圳市云之讯网络技术有限公司 | 有效语音识别方法及*** |
CN105976811A (zh) * | 2016-04-27 | 2016-09-28 | 四川大学 | 一种包含声母的音节切分方法及装置 |
CN107305774A (zh) * | 2016-04-22 | 2017-10-31 | 腾讯科技(深圳)有限公司 | 语音检测方法和装置 |
CN107799126A (zh) * | 2017-10-16 | 2018-03-13 | 深圳狗尾草智能科技有限公司 | 基于有监督机器学习的语音端点检测方法及装置 |
CN110858488A (zh) * | 2018-08-24 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 语音活动检测方法、装置、设备及存储介质 |
CN113542863A (zh) * | 2020-04-14 | 2021-10-22 | 深圳Tcl数字技术有限公司 | 一种声音处理方法、存储介质以及智能电视 |
CN113763985A (zh) * | 2021-10-15 | 2021-12-07 | 广州蓝仕威克医疗科技有限公司 | 一种基于声音识别生理现象的装置 |
CN115132191A (zh) * | 2022-06-30 | 2022-09-30 | 济南大学 | 基于机器学习的抗噪声语音识别方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758331A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于基音频率的快速音频分割方法 |
CN1763844A (zh) * | 2004-10-18 | 2006-04-26 | 中国科学院声学研究所 | 基于滑动窗口的端点检测方法、装置和语音识别*** |
US20090177466A1 (en) * | 2007-12-20 | 2009-07-09 | Kabushiki Kaisha Toshiba | Detection of speech spectral peaks and speech recognition method and system |
CN101894566A (zh) * | 2010-07-23 | 2010-11-24 | 北京理工大学 | 一种基于共振峰频率的汉语普通话复韵母可视化方法 |
CN102455423A (zh) * | 2011-05-31 | 2012-05-16 | 吉林大学 | 一种消除超声定位中声反射干扰的方法 |
CN102636252A (zh) * | 2012-04-10 | 2012-08-15 | 吉林大学 | 一种超声波到达精确时刻检测的方法及装置 |
-
2012
- 2012-12-31 CN CN201210594590.6A patent/CN103077728B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1763844A (zh) * | 2004-10-18 | 2006-04-26 | 中国科学院声学研究所 | 基于滑动窗口的端点检测方法、装置和语音识别*** |
CN1758331A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于基音频率的快速音频分割方法 |
US20090177466A1 (en) * | 2007-12-20 | 2009-07-09 | Kabushiki Kaisha Toshiba | Detection of speech spectral peaks and speech recognition method and system |
CN101894566A (zh) * | 2010-07-23 | 2010-11-24 | 北京理工大学 | 一种基于共振峰频率的汉语普通话复韵母可视化方法 |
CN102455423A (zh) * | 2011-05-31 | 2012-05-16 | 吉林大学 | 一种消除超声定位中声反射干扰的方法 |
CN102636252A (zh) * | 2012-04-10 | 2012-08-15 | 吉林大学 | 一种超声波到达精确时刻检测的方法及装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575498B (zh) * | 2015-01-30 | 2018-08-17 | 深圳市云之讯网络技术有限公司 | 有效语音识别方法及*** |
CN104575498A (zh) * | 2015-01-30 | 2015-04-29 | 深圳市云之讯网络技术有限公司 | 有效语音识别方法及*** |
US10872620B2 (en) | 2016-04-22 | 2020-12-22 | Tencent Technology (Shenzhen) Company Limited | Voice detection method and apparatus, and storage medium |
CN107305774A (zh) * | 2016-04-22 | 2017-10-31 | 腾讯科技(深圳)有限公司 | 语音检测方法和装置 |
CN105976811A (zh) * | 2016-04-27 | 2016-09-28 | 四川大学 | 一种包含声母的音节切分方法及装置 |
CN105976811B (zh) * | 2016-04-27 | 2019-07-12 | 四川大学 | 一种包含声母的音节切分方法及装置 |
CN107799126A (zh) * | 2017-10-16 | 2018-03-13 | 深圳狗尾草智能科技有限公司 | 基于有监督机器学习的语音端点检测方法及装置 |
CN107799126B (zh) * | 2017-10-16 | 2020-10-16 | 苏州狗尾草智能科技有限公司 | 基于有监督机器学习的语音端点检测方法及装置 |
CN110858488A (zh) * | 2018-08-24 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 语音活动检测方法、装置、设备及存储介质 |
CN113542863A (zh) * | 2020-04-14 | 2021-10-22 | 深圳Tcl数字技术有限公司 | 一种声音处理方法、存储介质以及智能电视 |
CN113763985A (zh) * | 2021-10-15 | 2021-12-07 | 广州蓝仕威克医疗科技有限公司 | 一种基于声音识别生理现象的装置 |
CN113763985B (zh) * | 2021-10-15 | 2024-04-02 | 广州蓝仕威克医疗科技有限公司 | 一种基于声音识别生理现象的装置 |
CN115132191A (zh) * | 2022-06-30 | 2022-09-30 | 济南大学 | 基于机器学习的抗噪声语音识别方法及*** |
CN115132191B (zh) * | 2022-06-30 | 2024-05-28 | 济南大学 | 基于机器学习的抗噪声语音识别方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN103077728B (zh) | 2015-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103077728B (zh) | 一种病人虚弱语音端点检测方法 | |
US20170154640A1 (en) | Method and electronic device for voice recognition based on dynamic voice model selection | |
CN102054480B (zh) | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
CN105679312B (zh) | 一种噪声环境下声纹识别的语音特征处理方法 | |
CN103236260A (zh) | 语音识别*** | |
CN101625858B (zh) | 语音端点检测中短时能频值的提取方法 | |
CN104123934A (zh) | 一种构音识别方法及其*** | |
CN104050965A (zh) | 具有情感识别功能的英语语音发音质量评价***及方法 | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别*** | |
CN107785028A (zh) | 基于信号自相关的语音降噪方法及装置 | |
CN101409073A (zh) | 一种基于基频包络的汉语普通话孤立词识别方法 | |
Jaafar et al. | Automatic syllables segmentation for frog identification system | |
Natarajan et al. | Segmentation of continuous speech into consonant and vowel units using formant frequencies | |
JP2005084244A (ja) | 定常雑音下における音声区間検出に基づく目的音声の復元方法 | |
Bouzid et al. | Voice source parameter measurement based on multi-scale analysis of electroglottographic signal | |
Yali et al. | A speech endpoint detection algorithm based on wavelet transforms | |
Daqrouq et al. | Arabic vowels recognition based on wavelet average framing linear prediction coding and neural network | |
CN111210845B (zh) | 一种基于改进自相关特征的病理语音检测装置 | |
Missaoui et al. | Gabor filterbank features for robust speech recognition | |
Alam et al. | Smoothed nonlinear energy operator-based amplitude modulation features for robust speech recognition | |
Dendukuri et al. | Extraction of Voiced Regions of Speech from Emotional Speech Signals Using Wavelet-Pitch Method | |
Shahrul Azmi et al. | Noise robustness of Spectrum Delta (SpD) features in Malay vowel recognition | |
Ying et al. | A study of zero-crossings with peak-amplitudes in speech emotion classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150819 Termination date: 20171231 |