CN104091593A - 采用感知语谱结构边界参数的语音端点检测算法 - Google Patents

采用感知语谱结构边界参数的语音端点检测算法 Download PDF

Info

Publication number
CN104091593A
CN104091593A CN201410175090.8A CN201410175090A CN104091593A CN 104091593 A CN104091593 A CN 104091593A CN 201410175090 A CN201410175090 A CN 201410175090A CN 104091593 A CN104091593 A CN 104091593A
Authority
CN
China
Prior art keywords
voice
noise
parameter
spectrum
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410175090.8A
Other languages
English (en)
Other versions
CN104091593B (zh
Inventor
吴迪
赵鹤鸣
陶智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Cheng Bang Energy Conservation Science & Technology Co Ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201410175090.8A priority Critical patent/CN104091593B/zh
Publication of CN104091593A publication Critical patent/CN104091593A/zh
Application granted granted Critical
Publication of CN104091593B publication Critical patent/CN104091593B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明属于语音识别领域,公开了一种采用感知语谱结构边界参数(PSSB)的语音端点检测算法。在对含噪语音进行基于听觉感知特性的语音增强之后,针对语音信号的连续分布特性与残留噪声的随机分布特性之间的不同点,对增强后语音的时-频语谱进行二维增强,从而进一步突出连续分布的纯净语音的语谱结构。通过对增强后语音语谱结构的二维边界检测,提出PSSB参数,并用于端点检测。实验结果表明,在白噪声-10dB到10dB的各种信噪比环境下,采用PSSB参数的端点检测算法更有效地检测出语音的端点。在-10dB的极低信噪比下,提出的方法仍然有75.2%的正确率。

Description

采用感知语谱结构边界参数的语音端点检测算法
技术领域
本发明属于语音识别领域,涉及一种语音端点检测算法,尤其涉及一种采用感知语谱结构边界参数的语音端点检测算法。 
背景技术
作为语音识别和说话人识别的基础,正确有效的端点检测,可以大大提高说话人识别***和语音识别***的识别率。在实验室高信噪比环境下,传统的端点检测算法可以很好地检测出语音端点。然而在低信噪比环境下,大多数端点检测算法的性能均急剧下降。 
近年来,很多学者对噪声鲁棒的端点检测进行了研究。Ganapathiraju(A. Ganapathiraju, et al. Comparison of Energy-Based Endpoint Detectors for Speech Signal Processing . In Proc. lEEE Publications, 1996; 500-503)等人采用短时能量和短时过零率相结合的方法(Energy and Zero-Crossing Rate,EZCR)进行端点检测的研究。这种方法相对于传统的能量方法,端点检测具有更好的鲁棒性。然而这种方法无法在更低信噪比的环境下发挥作用。陈振标等人(陈振标, 徐波。基于子带能量特征的最优化语音端点检测算法研究。声学学报, 2005;30(2):171-176)根据语音的频域能量分布特点,研究了子带幅度[Sub-Band Amplitude,SBA] 及能量,并采用更具区分性和抗噪性的多个子带能量和图像处理中常用的最优化边缘检测相结合的检测算法来进行端点检测,使得端点检测在复杂噪声环境下的性能有明显改善。此外,Zhang等人(Xueying Zhang ,et al. A Speech Endpoint Detection Method Based on Wavelet Coefficient Variance and Sub-Band Amplitude Variance. . In Proc. lEEE ICICIC, 2006; 105-109)提出了一种利用小波系数(Wavelet Coefficient,WC)的方法,利用小波分析的方法进行端点检测,由于该方法能够在各尺度分析信号,所以能够在一定程度上区分出语音段和噪声段。Wu等人(Bing-Fei Wu, Kun-Ching Wang. Robust Endpoint Detection Algorithm Based on the Adaptive Band-Partitioning Spectral Entropy in Adverse Environments. IEEE Transactions on Speech and Audio Processing, 2005; 13(5):762-775)把自适应子带谱熵(Adaptive Band-Partitioning Spectral, ABSE)的方法用于端点检测。该方法可以很好的区分语音的子带信号与噪声,并在含有噪声的环境下取得了较好的端点检测正确率。Li(Q.Li, et al. A Robust real-time endpoint detector with energy normalization for ASR in adverse environments. International Conference on Acoustics Speech and Signal Processing, 2001; 574-577)借鉴图像处理中最优化边缘检测的方法用于语音的端点检测,采用一个滤波器加上三态决策逻辑进行端点检测,因此在不同信噪比的情况下不需要调整门限。该方法结合了图像处理的算法,对端点检测起到了很好的辅助作用。然而,以上这些方法在低信噪比环境下,都无法得到较高的端点检测正确率。 
发明内容
要解决的技术问题:低信噪比环境下,常规的端点检测方法的端点检测正确率非常低的问题。 
技术方案:针对低信噪比下语音信号与噪声信号在时-频域二维空间的不同特征,并结合基于听觉感知特性的语音增强算法,提出感知语谱结构边界参数PSSB (Perception Spectrogram Structure Boundary),并将其用于端点检测。首先,对低信噪比语音进行基于听觉掩蔽特性的语音增强。与传统的语音增强算法相比,这种方法更有效地保留住人耳可感知的语音成分。在此基础之上,在二维层面中考虑纯净语音语谱在时间轴上的连续分布特性,对含噪语音进行二维增强,使语音的语谱结构更进一步突显出来,同时抑制了噪声的语谱结构。最后寻找出连续分布的纯净语音语谱结构的二维边界,并提出PSSB参数用于端点检测。 
1.基于听觉感知特性的语音增强 
低信噪比环境下,大多数端点检测算法无法很好地检测出语音端点,甚至完全失效。而人类却可以在噪音较强的环境中识别出语音段。在噪音环境下,人耳的听觉感知特性起到了重要的作用。采用人耳听觉感知特性中的听觉掩蔽特性,可以在一定程度上抑制噪声而更多的保留语音成分。本发明提出的PSSB参数,先采用基于听觉掩蔽特性的语音增强,在保护语音的基础上尽可能的抑制噪声。这种语音增强方法,最重要的是计算掩蔽阈值。掩蔽阈值的计算以及语音增强***如下:
(1)   Bark阈功率谱 
语音信号x(n)经过快速傅立叶变换(FFT)变成频域信号,信号功率谱为:
                                           (1)
Bark功率谱为:
B i = Σ k = b li b hi P ( k ) - - - ( 2 )                        其中表示第i段Bark频带的能量,  表示第i段最低的频率, 表示第i段最高的频率。
(2)   扩散Bark域功率谱
引入扩散函数,它是一个矩阵,满足条件:
                                                     (3)
定义式如下:
                    (4)
表示两个频带的频带号之差。
C i = Σ j = 1 j max S ij · B i , i = 1,2 . . . i max - - - ( 5 )
(3) 掩蔽能量的偏移函数及掩蔽阈值的计算
                                            (6)
T i = 10 log 10 ( C i ) - ( O i / 10 ) - - - ( 7 )                          取值在0和1之间,由语音含量决定。是第i段Bark频带的掩蔽阈值,将其改称为,其中b的含义与前面的i相同。
和安静听阈的阈值: 
      (8)
相比较,取其最大值,作为最终拟合的掩蔽阈值。其中相应的Bark掩蔽曲线。
(4)谱相减和减参数的调节 
谱相减算法采用的增益函数如下:
H ( k ) = ( 1 - &alpha; &CenterDot; [ | D ( k ) | | Y ( k ) | ] &gamma; ) 1 / &gamma; , [ | D ( k ) | | Y ( k ) | ] &gamma; < 1 &alpha; + &beta; ( &beta; &CenterDot; [ | D ( k ) | | Y ( k ) | ] &gamma; ) 1 / &gamma; , else - - - ( 9 )                        首先计算每一帧语音的不同Bark域的噪声掩蔽阈值,然后根据噪声掩蔽阈值得到自适应的减参数:若掩蔽阈值较高,残留噪声会很自然地被掩蔽而使人耳听不见,在这种情况下,减参数取它们的最小值;掩蔽阈值较低时,残留噪声对人耳的影响很大,有必要去减少它。对于每一帧m,掩蔽阈值的最小值与每帧的减参数的最大值有关。减参数的应用有如下关系式:
, 
                         (10)
其中,分别为的最小值和最大值。分别是参数的最小值和最大值。当时,;当时,。式中和 分别是逐帧得到的掩蔽阈值的最小值和最大值。实验中,我们对各个参数的取值如下:
(5)实时噪声功率谱估计
语音增强需要实时性特别高的噪声谱估计方法。采用基于约束方差频谱平滑和最小值跟踪的噪声功率谱估计方法。该算法的核心是约束方差的平滑滤波器,它控制了短时平滑功率谱的方差,使得对最小值的跟踪更为准确。该方法估计的噪声谱能及时追踪噪声突变,不产生明显噪声谱延时,且精确度优于其它方法估计的噪声谱。
(6)语音增强*** 
根据掩蔽阈值得到自适应的减参数、。语音增强***如图1所示。
2 语音的二维增强 
低信噪比的语音经过语音增强之后,由于谱相减的作用,噪声和语音同时被衰减。然而,由于语音中浊音段含有能量较高的共振峰等结构,在二维时-频域中,语音语谱的低频区域即使在噪声干扰下,还是具有较高的信噪比。并且这些含有较高语音能量的结构在时间上通常是连续分布的。因此,只要我们在语音信号二维的语谱中,找到这些连续分布的高能量区域,并且由此找出相连的清音段,就可以得到语音的起始和终止端点。边界检测,在我们的方法中是个寻找连续分布二维数据结构的算法。
然而,不论低信噪比的语音信号是否经过语音增强,噪声(经过语音增强后为残留音乐噪声)都将在边界检测中,留下噪声语谱结构的边界。纯净语音的语谱结构将被噪声的语谱结构干扰混淆,这将对寻找纯净语音的语谱结构产生极大的干扰作用。如图2和图3所示。 
图2是含有-5dB白噪声的语音的语谱图。图中可以看到,连续分布的黑色横条纹是语音信号(在高频段,能量较低的语音信号已经被噪声掩蔽掉,从语谱图中已经看不到高频区域的共振峰结构),而黑色雪花状背景是白噪声。图3是经过语音增强后的语谱图,噪声经过语音增强之后,被大大地削弱,但是仍然存在残留的强弱不一的音乐噪声。本发明把这些残留噪声分为能量较强的残留噪声和能量较弱的残留噪声,如图3。这些噪声,都将极大地干扰求取语音的端点。因此,在求取语音端点之前,针对残留噪声的语谱结构和纯净语音的语谱结构之间的不同,本发明对语音进行二维增强,包括二维噪声腐蚀算法和二维语音膨胀算法。 
二维噪声腐蚀算法
在二维数据的增强处理算法中,腐蚀算法可以减弱或消除特定的二维结构。我们发现,在语音增强之后的语音语谱中,能量较弱的残留噪声(灰暗的雪花状结构),通常都是随机分布的,如图3所示。而且它们具有较小的尺寸和能量。这些结构虽然不如图3中的白噪声强,但仍然干扰求取纯净语音的语谱结构边界。本发明针对以上特点,提出二维噪声腐蚀算法,用于削弱这样的二维结构。
对语音语谱的二维噪声腐蚀算法,由以下过程决定。首先,对语音进行短时傅立叶变换,每一帧的频谱由下式计算: 
                               (11)
是第m帧语音信号,是第m帧语音信号的频谱。N为帧的长度和短时傅立叶变换点数。是Hamming窗。每帧的语音信号功率谱可以表示为:
                                    (12)
即定义为语音信号的语谱。
的二维噪声腐蚀被定义为: 
                                             (13)
其中是结构元素,的定义域,的定义域。平移参数必须在的定义域内,且必须在的定义域之内。对信号进行二维噪声腐蚀,作用是双重的:(1)如果所有元素都为正,则输出的信号趋向于比原始信号更弱;(2)输入的语谱信号中,噪声语谱结构如果和结构元素类似,则它将被削弱,削弱的程度取决于噪声的语谱结构形状以及结构元素的形状。
在语音的语谱结构中,腐蚀算法同时削弱噪声和语音。本发明提出的二维噪声腐蚀算法的目的,就是能够相对更多地削弱噪声,而更好地保留语音。针对能量较弱的残留噪声语谱的结构形态,二维噪声腐蚀算法的结构元素被定义为下式: 
                                                (14)
这样的结构元素比较接近能量较弱的残留噪声的语谱结构(较小的点)。因此用结构元素对语谱进行二维噪声腐蚀,可以在一定程度上削弱这种噪声。
二维语音膨胀算法
语音经过二维噪声腐蚀算法,能量较弱的残留噪声被很好的抑制。然而,由于能量较强的残留噪声(如图3)和纯净语音之间,在能量上有近似性,如果过度地腐蚀,将会同时削弱纯净语音的二维结构。膨胀算法可以使和结构元素相似的二维语谱结构得到增强,不相似的二维语谱结构被相对削弱。因此,本发明针对能量较强的残留噪声和纯净语音结构之间的不同,提出二维语音膨胀算法。本发明把结构元素定义为与连续分布的纯净语音相似的结构。这样就可以相对的抑制这种噪声结构。
针对二维噪声腐蚀的结果,二维语音膨胀算法由下式定义: 
                      (15)
其中是结构元素,的定义域,的定义域。从理论上讲,可以认为结构元素在语谱中的所有位置平移,结构元素的值与二维信号的值相加,并且计算最大值。对语音信号进行二维语音膨胀是双重作用的:(1)如果所有元素都为正,则输出的信号趋向于比原始信号更强;(2)输入的语谱信号中,某种结构是否被相对增强,取决于膨胀所用的结构元素的值和形状。
膨胀算法,在增强语音结构的同时,也会增强相应的噪声结构。本发明提出的二维语音膨胀算法的目的是,尽量的增强语音结构,而相对抑制噪音结构。纯净语音信号浊音的语谱结构通常都是沿着时间轴伸展的长条形,而能量较强的残留噪声的语谱结构通常都是大小不一的正方形或圆形,如图3所示。因此,把结构元素定义为沿着时间轴伸展的长条形状,以此来增强所有类似结构,同时可以相对削弱结构不同的噪声结构。 
所以,二维语音膨胀算法中的结构元素被定义为如下形状: 
                                                  (16)
这里的是水平的沿着时间方向伸展的结构元素。所有跟它相似的结构,都将得到增强。由于纯净语音的语谱结构通常在时间上是连续分布的,它类似于,因此纯净语音的结构得到加强。而能量较强的残留噪声的语谱结构,通常是大的圆点或方点状,它的结构被相对削弱了。
3 感知语谱结构边界 (PSSB) 参数与端点检测算法 
3.1 感知语谱结构边界 (PSSB) 参数
本发明在二维层面上考虑纯净语音语谱在时间轴上的连续分布特性,对含噪语音进行二维增强,使语音的语谱结构,更进一步突显出来,同时抑制了噪声的语谱结构。之后,本发明将寻找出纯净语音连续分布的语谱结构边界,并提出感知语谱结构边界参数PSSB用于端点检测。
对于感知语谱结构边界参数PSSB来讲,要首先求解出语谱结构的边界信息。边界检测是求解二维结构边界的重要方法。连续二维信号的边界可以用一阶导数确定的梯度表示。本发明用公式(17)中的邻域模型逼近语音二维增强的结果的梯度。 
                                                      (17) 
是此邻域模型的中心点。而中心邻域的梯度,可以由下式表示:
                                             (18)
由公式(19)和公式(20)确定:
                                              (19)
                                        (20)
即为的边界,它可以描述含噪语音语谱中的语音信号连续分布的边界信息。
通过对和语音语谱的分析,我们发现在低信噪比的环境下,语音高频区域的信号及语谱特征都被噪声掩蔽掉,而在低频区域,语音浊音段的语谱结构仍然相对噪声有很高的能量,具有可求解的语谱边界。而且越往低频处,这种现象越明显。这是因为语音浊音段的能量主要集中在中低频前几个共振峰处。因此,在求得了语音语谱的边界之后,在语谱每一帧的频率轴上对所有的进行加权求和,使低频区域得到更高的权重,从而得到感知语谱结构边界参数PSSB。 
提出感知语谱结构边界参数PSSB如下式: 
                    (21)
其中是第m帧的PSSB参数,M是总帧数。
PSSB参数可以很好的体现出一帧中语音浊音段信号的相对含量,对噪声具有很好的鲁棒性。 
3.2 语音端点检测 
语音中浊音段通常具有较长的连续分布时间。而清音段有两种分布类型:(1)清音分布在语音段中间;(2)清音分布在语音段起始处。
通过实验发现,语音段中间的清音可以被很好的识别成语音段(PSSB参数大于阈值0.5)。这是由于,一个语音单词中间的清音通常比较短,而本发明采用的是重叠50%的帧移方法。这种方法可以把单词中间的清音和旁边的浊音联合起来进行语谱分析,从而在此清音帧中体现出旁边浊音帧的信息。 
然而,随着信噪比的降低,特别是低于0dB时,语音段起始处的清音的PSSB区分特性减弱(数值较小)。若单纯以某一固定阈值进行端点划分,针对清音的检测,性能会急剧下降。但是,尽管清音的PSSB相对浊音比较小,但是它通常仍然有一定的PSSB区分特性(数值较小但不为零)。因此本发明采用了针对语音连续性分布特点的检测方法,以此来区别对待浊音段和端点处的清音段。具体端点检测方法如下: 
(1)首先检测出PSSB参数大于阈值a并且连续分布m帧的语音段,此段为检测到的浊音段。
(2)以此段为基础,所有跟此段连在一起并且连续大于等于阈值b的段,定义为语音段。阈值b的值取的较小,实验中,b的值取0.01到0.05都具有较好的识别结果。这样可以把PSSB数值较小的清音段识别出来。 
(3)此语音段的起点和终点即为语音端点。 
经过实验测试,对于白噪声,当a=0.5,b=0.01,m=20时,***的性能较好。 
本发明的端点检测算法的框图如图4所示。 
有益效果: 
实验设计在不同信噪比环境下。输入的低信噪比语音是16k采样,16位量化。使用汉明窗,帧长256,帧移128。语音选自TIMIT语音数据库,白噪声来自NoiseX-92 噪声数据库。图5是数据库中的一段语音实例(artists)的波形图,图6是加入白噪声使信噪比达到-10dB的低信噪比语音波形。
图5中,语音的起始点是第40帧,终点是87帧。而当语音信号加入白噪声,使信噪比达到-10dB时,语音信号已经完全被淹没在白噪声之中。传统的端点检测算法,无法从这样的语音信号中有效地提取出语音端点。 
图7是纯净语音实例(artists)的语谱图,图8此低信噪比语音的语谱图,而图9是经过基于听觉掩蔽特性的语音增强之后的语谱图。 
从图8中可以看出,-10dB低信噪比下的语音,大部分语谱结构已经被噪声淹没掉,只有在低频区域的共振峰结构还能和噪声区分开来。经过语音增强之后,从图9中可以看出,噪声信号和语音信号同时被语音增强的作用削弱了,而且还残留有随机分布的音乐噪声。这是由于谱减类算法本身固有的特性决定的。 
如果直接从图9的语谱求取语谱的边界,噪声和语音仍然难以区分开。因此需要在语音的语谱中再做二维增强。如图10和图11所示。 
图10是图9经过二维噪声腐蚀算法后的结果。相对于图9可以看出,除了能量较强的残留噪声和低频处语音的共振峰结构之外,其他残留噪声在一定程度上被抑制了。图11是对图10中语音的语谱结构进行二维语音膨胀算法后的结果。可以看出,随机分布的能量较强的噪声语谱结构,被相对削弱。语音的语谱结构被相对增强。 
之后,对图11边界检测,如图12。可以看到,40帧到85帧之间,低频区域的语音语谱边界结构被很好的求解出来。然而,由于仍然残留少量噪声的二维结构,在非语音区域,有很多中高频噪声的边界结构被表示出来。这是不希望被看到的。因此,在PSSB参数中,低频区域的边界结构赋予了更高的权重。这样,语音和噪声,就被很好地区分开来。如图13。 
图13是由图12求解出的PSSB参数。很明显,在-10dB的情况下,语音信号的PSSB参数仍然能在时间轴上有很突出的区分特性。在做端点检测的时候,对PSSB参数做连续性检测,如果PSSB参数数值连续大于0,并且,连续大于阈值0.5的帧数大于20帧,则把此段数值连续大于0的PSSB参数判断为语音段。 
实验中,本发明的端点检测算法(PSSB)对比其它四种端点检测算法,并比较它们的正确率。这四种方法分别是:1,能量-短时过零率(EZCR);2,子带幅度法(SBA);3,小波系数法(WC);4,子带谱熵法(ABSE)。本发明选取TIMIT语音数据库中70个单词作为端点检测的对象,每个单词做3次端点检测。按一定权值加入NoiseX-92 噪声数据库中白噪声,得到不同信噪比的语音。我们设定,误差小于4帧的端点检测为正确的结果。定义端点检测正确率=正确的结果/总的用于端点检测的语音段数量。表1和图14显示了各种算法在不同信噪比下的端点检测正确率。 
  
表1 在不同信噪比下的端点检测正确率(%)
表1中的“*”,表示该算法在此条件下失效,此时我们认为正确率为零。由表1和图14和可以看出,在10dB的情况下,EZCR、SBA和WC三种传统方法,端点检测正确率已经低于86%。当信噪比低于零时,这三种方法完全失效,说明这些方法对噪声没有很好的鲁棒性能。ABSE方法正确率相对较高,这是因为该方法也是分析纯净语音的高能量成分,并做出端点检测。本发明的采用PSSB参数的方法相对与ABSE有着更高的端点识别率。在-10dB的情况下,仍然有75.2%的正确识别率。
  
附图说明: 
图1为基于听觉特性的语音增强***;
图2含有-5dB白噪声语音的语谱图;
图3语音增强之后的语谱图;
图4为采用PSSB参数的端点检测算法;
图5为纯净语音;
图6为-10dB低信噪比语音;
图7为纯净语音信号语谱图;
图8为-10dB低信噪比语音信号语谱图;
图9为语音增强结果;
图10为经过二维噪声腐蚀算法后的语谱图;
图11为经过二维语音膨胀算法后的语谱图;
图12为语谱边界;
图13为PSSB参数及端点检测
图14为端点检测结果对比。
  
具体实施方式
实施例1 
第一步:基于听觉感知特性的语音增强;采用基于听觉掩蔽特性的语音增强,在保护语音的基础上尽可能的抑制噪声;所述的语音增强方法中掩蔽阈值的计算以及语音增强***如下:
ⅰ.Bark阈功率谱
语音信号x(n)经过快速傅立叶变换(FFT)变成频域信号,信号功率谱为:
                                           (1)
Bark功率谱为:
B i = &Sigma; k = b li b hi P ( k ) - - - ( 2 )                          其中表示第i段Bark频带的能量,  表示第i段最低的频率, 表示第i段最高的频率;
ⅱ.扩散Bark域功率谱
引入扩散函数,它是一个矩阵,满足条件:
                                                     (3)
定义式如下:
                    (4)
表示两个频带的频带号之差;
C i = &Sigma; j = 1 j max S ij &CenterDot; B i , i = 1,2 . . . i max - - - ( 5 )                         ⅲ. 掩蔽能量的偏移函数及掩蔽阈值的计算
                                            (6)
T i = 10 log 10 ( C i ) - ( O i / 10 ) - - - ( 7 )                          取值在0和1之间,由语音含量决;是第i段Bark频带的掩蔽阈值,将其改称为,其中b的含义与前面的i相同;
和安静听阈的阈值:
      (8)
相比较,取其最大值,作为最终拟合的掩蔽阈值;其中相应的Bark掩蔽曲线;
ⅳ.谱相减和减参数的调节
谱相减算法采用的增益函数如下:
H ( k ) = ( 1 - &alpha; &CenterDot; [ | D ( k ) | | Y ( k ) | ] &gamma; ) 1 / &gamma; , [ | D ( k ) | | Y ( k ) | ] &gamma; < 1 &alpha; + &beta; ( &beta; &CenterDot; [ | D ( k ) | | Y ( k ) | ] &gamma; ) 1 / &gamma; , else - - - ( 9 )                        首先计算每一帧语音的不同Bark域的噪声掩蔽阈值,然后根据噪声掩蔽阈值得到自适应的减参数:若掩蔽阈值较高,残留噪声会很自然地被掩蔽而使人耳听不见,在这种情况下,减参数取它们的最小值;掩蔽阈值较低时,残留噪声对人耳的影响很大,有必要去减少它;对于每一帧m,掩蔽阈值的最小值与每帧的减参数的最大值有关;减参数的应用有如下关系式:
, 
                         (10)
其中,分别为的最小值和最大值;分别是参数的最小值和最大值;当时,;当时,;式中和 分别是逐帧得到的掩蔽阈值的最小值和最大值;实验中,我们对各个参数的取值如下:
ⅴ.实时噪声功率谱估计;采用基于约束方差频谱平滑和最小值跟踪的噪声功率谱估计方法。
ⅵ.语音增强***;根据掩蔽阈值得到自适应的减参数、
第二步: 语音的二维增强;
2.1二维噪声腐蚀算法
对语音语谱的二维噪声腐蚀算法,由以下过程决定;首先,对语音进行短时傅立叶变换,每一帧的频谱由下式计算:
                               (11)
是第m帧语音信号,是第m帧语音信号的频谱;N为帧的长度和短时傅立叶变换点数;是Hamming窗;每帧的语音信号功率谱可以表示为:
                                    (12)
即定义为语音信号的语谱;
的二维噪声腐蚀被定义为:
                                             (13)
其中是结构元素,的定义域,的定义域;平移参数必须在的定义域内,且必须在的定义域之内;
针对能量较弱的残留噪声语谱的结构形态,二维噪声腐蚀算法的结构元素被定义为下式:
                                                (14)
2.2 二维语音膨胀算法
针对二维噪声腐蚀的结果,二维语音膨胀算法由下式定义:
                      (15)
其中是结构元素,的定义域,的定义域;
所以,二维语音膨胀算法中的结构元素被定义为如下形状:
                                                  (16)
第三步:感知语谱结构边界 (PSSB) 参数与端点检测算法
3.1感知语谱结构边界(PSSB)参数
本发明用公式(17)中的邻域模型逼近语音二维增强的结果的梯度;
                                                      (17)
是此邻域模型的中心点;而中心邻域的梯度,可以由下式表示:
                                             (18)
由公式(19)和公式(20)确定:
                                              (19)
                                        (20)
即为的边界,它可以描述含噪语音语谱中的语音信号连续分布的边界信息。
提出感知语谱结构边界参数PSSB如下式: 
                    (21)
其中是第m帧的PSSB参数,M是总帧数;
3.2 语音端点检测
采用了针对语音连续性分布特点的检测方法,以此来区别对待浊音段和端点处的清音段;具体端点检测方法如下:
(1)首先检测出PSSB参数大于阈值a并且连续分布m帧的语音段,此段为检测到的浊音段;
(2)以此段为基础,所有跟此段连在一起并且连续大于等于阈值b的段,定义为语音段;阈值b的值取的较小,实验中,b的值取0.01到0.05都具有较好的识别结果。这样可以把PSSB数值较小的清音段识别出来;
(3)此语音段的起点和终点即为语音端点。
实验设计在不同信噪比环境下;输入的低信噪比语音是16k采样,16位量化;使用汉明窗,帧长256,帧移128;语音选自TIMIT语音数据库,白噪声来自NoiseX-92 噪声数据库。 

Claims (5)

1.一种采用感知语谱结构边界参数的语音端点检测算法,其特征在于所述的算法步骤如下:(1)基于听觉感知特性的语音增强;(2)语音的二维增强,包括二维噪声腐蚀算法和二维语音膨胀算法;(3)感知语谱结构边界 (PSSB) 参数与语音端点检测。
2.根据权利要求1所述的一种采用感知语谱结构边界参数的语音端点检测算法,其特征在于所述的所述的算法步骤如下:
第一步:基于听觉感知特性的语音增强;采用基于听觉掩蔽特性的语音增强,在保护语音的基础上尽可能的抑制噪声;所述的语音增强方法中掩蔽阈值的计算以及语音增强***如下:
ⅰ.Bark阈功率谱 
语音信号x(n)经过快速傅立叶变换(FFT)变成频域信号,信号功率谱为:
                                            (1)
Bark功率谱为:
                          其中表示第i段Bark频带的能量,  表示第i段最低的频率, 表示第i段最高的频率;
ⅱ.扩散Bark域功率谱
引入扩散函数,它是一个矩阵,满足条件:
                                                      (3)
定义式如下:
                     (4)
表示两个频带的频带号之差;
                         ⅲ. 掩蔽能量的偏移函数及掩蔽阈值的计算
                                             (6)
                         取值在0和1之间,由语音含量决;是第i段Bark频带的掩蔽阈值,将其改称为,其中b的含义与前面的i相同;
和安静听阈的阈值:
       (8)
相比较,取其最大值,作为最终拟合的掩蔽阈值;其中相应的Bark掩蔽曲线;
ⅳ.谱相减和减参数的调节
谱相减算法采用的增益函数如下:
 
首先计算每一帧语音的不同Bark域的噪声掩蔽阈值,然后根据噪声掩蔽阈值得到自适应的减参数:若掩蔽阈值较高,残留噪声会很自然地被掩蔽而使人耳听不见,在这种情况下,减参数取它们的最小值;掩蔽阈值较低时,残留噪声对人耳的影响很大,有必要去减少它;对于每一帧m,掩蔽阈值的最小值与每帧的减参数的最大值有关;减参数的应用有如下关系式:
, 
                          (10)
其中,分别为的最小值和最大值;分别是参数的最小值和最大值;当时,;当时,;式中和 分别是逐帧得到的掩蔽阈值的最小值和最大值;实验中,我们对各个参数的取值如下:
ⅴ.实时噪声功率谱估计;采用基于约束方差频谱平滑和最小值跟踪的噪声功率谱估计方法;
 ⅵ.语音增强***;根据掩蔽阈值得到自适应的减参数;
第二步: 语音的二维增强;
2.1二维噪声腐蚀算法
对语音语谱的二维噪声腐蚀算法,由以下过程决定;首先,对语音进行短时傅立叶变换,每一帧的频谱由下式计算:
                                (11)
是第m帧语音信号,是第m帧语音信号的频谱;N为帧的长度和短时傅立叶变换点数;是Hamming窗;每帧的语音信号功率谱可以表示为:
                                     (12)
即定义为语音信号的语谱;
的二维噪声腐蚀被定义为:
                                              (13)
其中是结构元素,的定义域,的定义域;平移参数必须在的定义域内,且必须在的定义域之内;
针对能量较弱的残留噪声语谱的结构形态,二维噪声腐蚀算法的结构元素被定义为下式:
                                                          (14)
2.2 二维语音膨胀算法
针对二维噪声腐蚀的结果,二维语音膨胀算法由下式定义:
                                             (15)
其中是结构元素,的定义域,的定义域;
所以,二维语音膨胀算法中的结构元素被定义为如下形状:
                                                   (16)
第三步:感知语谱结构边界 (PSSB) 参数与端点检测算法
3.1感知语谱结构边界(PSSB)参数
本发明用公式(17)中的邻域模型逼近语音二维增强的结果的梯度;
                                                       (17)
是此邻域模型的中心点;而中心邻域的梯度,可以由下式表示:
                                              (18)
由公式(19)和公式(20)确定:
                                                (19)
                                         (20)
即为的边界,它可以描述含噪语音语谱中的语音信号连续分布的边界信息;
提出感知语谱结构边界参数PSSB如下式:
                                      (21)
其中是第m帧的PSSB参数,M是总帧数;
3.2 语音端点检测
采用了针对语音连续性分布特点的检测方法,以此来区别对待浊音段和端点处的清音段;具体端点检测方法如下:
(1)首先检测出PSSB参数大于阈值a并且连续分布m帧的语音段,此段为检测到的浊音段;
(2)以此段为基础,所有跟此段连在一起并且连续大于等于阈值b的段,定义为语音段;阈值b的值取的较小,实验中,b的值取0.01到0.05都具有较好的识别结果;这样可以把PSSB数值较小的清音段识别出来;
(3)此语音段的起点和终点即为语音端点。
3.根据权利要求2所述的一种采用感知语谱结构边界参数的语音端点检测算法,其特征在于:实验设计在不同信噪比环境下;输入的低信噪比语音是16k采样,16位量化。
4. 根据权利要求2所述的一种采用感知语谱结构边界参数的语音端点检测算法,其特征在于:使用汉明窗,帧长256,帧移128。
5.根据权利要求2所述的一种采用感知语谱结构边界参数的语音端点检测算法,其特征在于:语音选自TIMIT语音数据库,白噪声来自NoiseX-92 噪声数据库。
CN201410175090.8A 2014-04-29 2014-04-29 采用感知语谱结构边界参数的语音端点检测算法 Expired - Fee Related CN104091593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410175090.8A CN104091593B (zh) 2014-04-29 2014-04-29 采用感知语谱结构边界参数的语音端点检测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410175090.8A CN104091593B (zh) 2014-04-29 2014-04-29 采用感知语谱结构边界参数的语音端点检测算法

Publications (2)

Publication Number Publication Date
CN104091593A true CN104091593A (zh) 2014-10-08
CN104091593B CN104091593B (zh) 2017-02-15

Family

ID=51639303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410175090.8A Expired - Fee Related CN104091593B (zh) 2014-04-29 2014-04-29 采用感知语谱结构边界参数的语音端点检测算法

Country Status (1)

Country Link
CN (1) CN104091593B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104867493A (zh) * 2015-04-10 2015-08-26 武汉工程大学 基于小波变换的多重分形维数端点检测方法
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN107742522A (zh) * 2017-10-23 2018-02-27 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN108122552A (zh) * 2017-12-15 2018-06-05 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN109979478A (zh) * 2019-04-08 2019-07-05 网易(杭州)网络有限公司 语音降噪方法及装置、存储介质及电子设备
CN111028858A (zh) * 2019-12-31 2020-04-17 云知声智能科技股份有限公司 一种人声起止时间检测方法及装置
CN111063371A (zh) * 2019-12-21 2020-04-24 华南理工大学 一种基于语谱图时间差分的语音音节数估计方法
CN112557510A (zh) * 2020-12-11 2021-03-26 广西交科集团有限公司 混凝土路面脱空智能检测装置及其检测方法
CN112863517A (zh) * 2021-01-19 2021-05-28 苏州大学 基于感知谱收敛率的语音识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN103489446A (zh) * 2013-10-10 2014-01-01 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN103489446A (zh) * 2013-10-10 2014-01-01 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NIMA DERAKHSHAN ETC: "Noise power spectrum estimation using constrained variance spectral smoothing and minima tracking", 《SPEECH COMMUNICATION》 *
吴迪: "基于听觉特性及语谱特性的语音增强", 《中国优秀博硕士学位论文全文数据库(硕士)科技信息辑》 *
肖纯智 等: "一种基于语谱图分析的语音增强算法", 《电声技术》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104867493A (zh) * 2015-04-10 2015-08-26 武汉工程大学 基于小波变换的多重分形维数端点检测方法
CN104867493B (zh) * 2015-04-10 2018-08-03 武汉工程大学 基于小波变换的多重分形维数端点检测方法
CN106653004B (zh) * 2016-12-26 2019-07-26 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN107742522A (zh) * 2017-10-23 2018-02-27 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN108122552A (zh) * 2017-12-15 2018-06-05 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN109979478A (zh) * 2019-04-08 2019-07-05 网易(杭州)网络有限公司 语音降噪方法及装置、存储介质及电子设备
CN111063371A (zh) * 2019-12-21 2020-04-24 华南理工大学 一种基于语谱图时间差分的语音音节数估计方法
CN111063371B (zh) * 2019-12-21 2023-04-21 华南理工大学 一种基于语谱图时间差分的语音音节数估计方法
CN111028858A (zh) * 2019-12-31 2020-04-17 云知声智能科技股份有限公司 一种人声起止时间检测方法及装置
CN111028858B (zh) * 2019-12-31 2022-02-18 云知声智能科技股份有限公司 一种人声起止时间检测方法及装置
CN112557510A (zh) * 2020-12-11 2021-03-26 广西交科集团有限公司 混凝土路面脱空智能检测装置及其检测方法
CN112863517A (zh) * 2021-01-19 2021-05-28 苏州大学 基于感知谱收敛率的语音识别方法
CN112863517B (zh) * 2021-01-19 2023-01-06 苏州大学 基于感知谱收敛率的语音识别方法

Also Published As

Publication number Publication date
CN104091593B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN104091593A (zh) 采用感知语谱结构边界参数的语音端点检测算法
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
CN103236260B (zh) 语音识别***
Moritz et al. Amplitude modulation spectrogram based features for robust speech recognition in noisy and reverberant environments
EP3118852B1 (en) Method and device for detecting audio signal
CN105427859A (zh) 一种用于对说话人识别的前端语音增强方法
CN106653004B (zh) 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
Shi et al. Robust speaker recognition based on improved GFCC
Wang et al. Joint noise and mask aware training for DNN-based speech enhancement with sub-band features
Meenakshi et al. Robust whisper activity detection using long-term log energy variation of sub-band signal
Gupta et al. Speech enhancement using MMSE estimation and spectral subtraction methods
Zhen et al. On psychoacoustically weighted cost functions towards resource-efficient deep neural networks for speech denoising
Guzewich et al. Improving Speaker Verification for Reverberant Conditions with Deep Neural Network Dereverberation Processing.
Surendran et al. Variance normalized perceptual subspace speech enhancement
Kurpukdee et al. Improving voice activity detection by using denoising-based techniques with convolutional lstm
Ali et al. Auditory-based speech processing based on the average localized synchrony detection
Lu et al. Reduction of residual noise using directional median filter
Kacur et al. ZCPA features for speech recognition
Otterson Improved location features for meeting speaker diarization.
Cosi et al. Auditory modeling techniques for robust pitch extraction and noise reduction.
Liu et al. An improved spectral subtraction method
Krishnamoorthy et al. Modified spectral subtraction method for enhancement of noisy speech
Odelowo et al. A Mask-Based Post Processing Approach for Improving the Quality and Intelligibility of Deep Neural Network Enhanced Speech
Sarafnia et al. A spectral entropy-based measure for performance evaluation of a first-order differential microphone array
TWI749547B (zh) 應用深度學習的語音增強系統

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Huang Xujiang

Inventor after: Wu Di

Inventor before: Wu Di

Inventor before: Zhao Heming

Inventor before: Tao Zhi

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20180321

Address after: Room 202, room two, No. 868, West Ring Road, Jiangsu, Jiangsu

Patentee after: Suzhou Cheng Bang energy conservation science & Technology Co., Ltd.

Address before: 215000 Suzhou Industrial Park, Jiangsu Road, No. 199

Patentee before: Soochow University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

Termination date: 20180429

CF01 Termination of patent right due to non-payment of annual fee