CN104464722A - 基于时域和频域的语音活性检测方法和设备 - Google Patents

基于时域和频域的语音活性检测方法和设备 Download PDF

Info

Publication number
CN104464722A
CN104464722A CN201410641920.1A CN201410641920A CN104464722A CN 104464722 A CN104464722 A CN 104464722A CN 201410641920 A CN201410641920 A CN 201410641920A CN 104464722 A CN104464722 A CN 104464722A
Authority
CN
China
Prior art keywords
frame
voice signal
noise
voice
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410641920.1A
Other languages
English (en)
Other versions
CN104464722B (zh
Inventor
关海欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201410641920.1A priority Critical patent/CN104464722B/zh
Publication of CN104464722A publication Critical patent/CN104464722A/zh
Application granted granted Critical
Publication of CN104464722B publication Critical patent/CN104464722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于时域和频域的语音活性检测方法和设备。该方法包括:估计语音信号的噪声能量;向输入的语音信号中加入白噪声;对加入白噪声后的语音信号进行分帧处理;确定每帧的短时能量值;确定每帧的谐波乘积谱值;以及针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。本发明提供的语音活性检测方法和设备,结合了时域分析与频域分析方法,针对实际情况具有更好的适应性,在背景噪声为人声以及信噪比较低等情况下也有很好的表现,并且该方法实现简单、精巧,很容易嵌入各类语音***中。

Description

基于时域和频域的语音活性检测方法和设备
技术领域
本发明涉及语音活性检测领域,具体地,涉及一种基于时域和频域的语音活性检测方法和设备。
背景技术
语音活性检测(Voice Activity Detection,VAD)是一种用于检测语音信号是否存在的语音处理技术。语音活性检测技术主要用于语音识别、语音编码等,其能够区别出静音、语音片段,为后续针对语音信号的进一步处理作铺垫。语音活性检测模块也是很多语音通信***中不可或缺的部分,如音频会议、语音识别、回声消除、IP电话等。针对语音识别***来说,语音活性检测模块的准确度会极大影响到后续的特征提取、模型建立及判决等工作,因此,提供高效、鲁棒性高的语音活性检测显得尤为重要。
现有的语音活性检测技术有很多种,如基于短时能量、短时过零率的时域分析方法,也有基于倒谱频率、线性预测编码(LPC)系数等的频域分析方法。这些方法各有优势,各自利用不同的特性来区分语音与噪声。然而,在实际使用中,经常出现较低信噪比、背景噪声也为人声等等情况,此时使用传统的方法难以得到足够准确的结果。
发明内容
本发明的目的是提供一种能够提高语音活性检测结果的准确度(特别是在信噪比较低、或者背景噪声为人声的情况下)的基于时域和频域的语音活性检测方法和设备。
为了实现上述目的,本发明提供一种基于时域和频域的语音活性检测方法。该方法包括:向输入的语音信号中加入白噪声;对加入白噪声后的语音信号进行分帧处理;确定每帧的短时能量值;确定每帧的谐波乘积谱值;以及针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。
优选地,该方法还包括:在向所述输入的语音信号中加入所述白噪声之前,估计所述语音信号的噪声能量;以及根据所估计的噪声能量来确定要加入的白躁声的比例;以及向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。
优选地,对所述语音信号的噪声能量的所述估计是动态进行的。
优选地,所述白噪声为高斯白噪声。
优选地,确定所述每帧的谐波乘积谱值的步骤包括:对所述加入白噪声后的语音信号进行规范化;获取每帧的频域信息;以及根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值。
优选地,通过以下方式来确定所述帧是否为语音帧:在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。
优选地,通过以下方式来确定所述帧是否为语音帧:利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
本发明还提供一种基于时域和频域的语音活性检测设备。该设备包括:用于向输入的语音信号中加入白噪声的装置;用于对加入白噪声后的语音信号进行分帧处理的装置;用于确定每帧的短时能量值的装置;用于确定每帧的谐波乘积谱值的装置;以及用于针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段的装置。
优选地,该设备还包括:用于在向所述输入的语音信号中加入所述白噪声之前,估计所述语音信号的噪声能量的装置;以及用于根据所估计的噪声能量来确定要加入的白躁声的比例的装置;以及向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。
优选地,对所述语音信号的噪声能量的所述估计是动态进行的。
优选地,所述白噪声为高斯白噪声。
优选地,用于确定所述每帧的谐波乘积谱值的装置包括:用于对所述加入白噪声后的语音信号进行规范化的装置;用于获取每帧的频域信息的装置;以及用于根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值的装置。
优选地,通过以下方式来确定所述帧是否为语音帧:在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。
优选地,通过以下方式来确定所述帧是否为语音帧:利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
在上述技术方案中,通过在原有的语音信号中混入一定比例的白噪声,可以有效减小原有的语音信号中包含的噪声片段对语音活性检测的影响。并且,在背景噪声为人声的情况下,通过混入白噪声,可以在一定程度上抹平这些为人声的背景噪声的谐波结构,从而避免这些背景噪声对语音活性检测结果的影响。通过短时能量值与谐波乘积谱值这两项参数来共同确定语音信号中包含的语音片段,相比于仅依靠单一参数来进行判决,可以提高准确性。特别是在背景噪声为人声的情况下,虽然这些噪声可能具有谐波结构,但它们的短时能量值较低,因此,通过本发明提供的语音活性检测方法可以有效地区分出这些为人声的背景噪声和真实的语音片段。本发明提供的语音活性检测方法和设备,结合了时域分析与频域分析方法,针对实际情况具有更好的适应性,在背景噪声为人声以及信噪比较低等情况下也有很好的表现,并且该方法实现简单、精巧,很容易嵌入各类语音***中。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1示出了根据本发明的实施方式的基于时域和频域的语音活性检测方法的流程图;
图2示出了根据本发明的另一实施方式的基于时域和频域的语音活性检测方法的流程图;以及
图3是根据本发明的实施方式的确定谐波乘积谱值的方法的流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1示出了根据本发明的实施方式的基于时域和频域的语音活性检测方法的流程图。如图1所示,该方法可以包括:步骤S101,向输入的语音信号中加入白噪声;步骤S102,对加入白噪声后的语音信号进行分帧处理;步骤S103,确定每帧的短时能量值;步骤S104,确定每帧的谐波乘积谱值;以及步骤S105,针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。在本发明的一个示例实施方式中,所述白噪声可以例如为高斯白噪声。但是应当理解的是,其他类型的白噪声也适用于本发明。
具体地,在步骤S101,主动向输入的语音信号中加入白噪声。所加入的白噪声的比例可以根据经验来设定。可替换地,在本发明提供的一个优选实施方式中,该比例可以根据输入的语音信号的噪声能量来设定。
在根据输入的语音信号的噪声能量来确定加入的白噪声的比例的情况下,如图2所示,本发明提供的语音活性检测方法还可以包括:步骤S106,在向所述输入的语音信号中加入所述白噪声(即,步骤S101)之前,估计所述语音信号的噪声能量;之后,步骤S107,根据所估计的噪声能量来确定要加入的白躁声的比例。在这种情况下,在步骤S101中,向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。
对噪声能量进行估计,可以预判出该语音信号中包含的噪声情况,为确定应当在步骤S101中向该语音信号中加入多少比例的白噪声提供依据。如上所述,要加入的白躁声的比例可以基于所估计出的噪声能量来确定。例如,如果原有的语音信号的信噪比较高,那么可以在所估计出的噪声能量相对高时,加入更多比例的白噪声。这样,可以有效减小原有的语音信号中包含的噪声片段对语音活性检测的影响,并且不影响原有的语音信号中包含的语音片段。而在原有的语音信号的信噪比较低的情况下,可以在该语音信号中加入较小比例的白噪声,以避免对语音活性检测造成干扰。
接下来,在步骤S102,对加入白噪声后的语音信号进行分帧处理,其中,每帧长度可以例如为20~30ms。该步骤的实施对于本领域的技术人员而言是公知的,因此,本发明在此不进行赘述。
接下来,在步骤S103,确定每帧的短时能量值。短时能量值能够反映语音信号的时域特性。通常情况下,语音和噪声的区别可以体现在它们的短时能量上,语音段的短时能量比噪声段的短时能量大。因此,本发明采用短时能量值作为判决某一帧是否为语音帧的一个依据。应当理解的是,短时能量值的计算方法是公知的,本领域的技术人员能够采用公知的任何短时能量值计算方法来计算出某一帧的短时能量值。
除了确定出每帧的短时能量值之外,在步骤S104,还确定每帧的谐波乘积谱(Harmonic Product Spectrum,HPS)值。谐波乘积谱值能够反映语音信号的频域特性。谐波乘积谱值的大小能够作为判断某一信号帧是否具有谐波结构的依据。通常情况下,语音段具有谐波结构,而噪声段不具有谐波结构。因此,通过谐波乘积谱值的大小来判断信号是否具有谐波结构,可以确定出该信号是语音还是噪声。不过在背景噪声为人声的情况下,该背景噪声也可能会表现出具有谐波结构,从而对语音活性检测结果产生误导。然而,在本发明中,由于在步骤S101中在原有的语音信号中加入了白噪声,所加入的白噪声可以在一定程度上抹平这些为人声的背景噪声的谐波结构,从而降低其对检测结果的影响。
在本发明的一个示例实施方式中,如图3所示,确定所述每帧的谐波乘积谱值的步骤S104可以包括:步骤S1041,对所述加入白噪声后的语音信号进行规范化。针对离线处理情况,由于语音信号完整已知,因此,可以对语音信号做整体的规范化。而针对在线处理情况,由于语音信号是实时的,因此,只能对语音信号做局部的规范化处理,并不断进行更新。在本发明中,可以采用本领域的技术人员公知的零-均值规范化方法对加入白噪声后的语音信号进行规范化。但是能够理解的是,其余规范化方法同样适用于本发明。
之后,在步骤S1042,获取每帧的频域信息。在本发明中,可以利用快速傅氏变换(FFT)算法来获取每帧的频域信息。但是应当理解的是,其余获取频域信息的方法也适用于本发明。最后,在步骤S1043,根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值。应当理解的是,根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值的方法是本领域的技术人员公知的,因此,本发明在此不进行赘述。
在确定出每帧的短时能量值和谐波乘积谱值之后,在步骤S105,针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来共同确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。
可以通过多种方式来根据帧的短时能量值和帧的谐波乘积谱值共同确定该帧是否为语音帧。例如,如前所述,通常情况下,语音段表现为具有高短时能量值和谐波结构。因此,在一种示例实施方式中,可以在所述帧的短时能量值大于或等于第一阈值(可以根据经验设定或经实验得出)、并且所述帧的谐波乘积谱值大于或等于第二阈值(可以根据经验设定或经实验得出)的情况下,确定所述帧为所述语音帧。
可替换地,可以首先利用已知的样本数据(每个样本数据可以包括帧的短时能量值、帧的谐波乘积谱值和对应的帧类型)来预先建立分类模型。之后,对于新输入的信号帧,可以利用该预先建立好的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
采用上述两种方式均可以实现语音帧的判决。但是应当理解的是,其余判决方式也适用于本发明。在确定出所述语音帧之后,就可以得出原有的语音信号中所包含的语音片段(该语音片段由被判决为是语音帧的信号形成)。
通过短时能量值与谐波乘积谱值这两项参数来共同确定语音信号中包含的语音片段,相比于仅依靠单一参数来进行判决,可以提高准确性。特别是在背景噪声为人声的情况下,虽然这些噪声可能具有谐波结构,但它们的短时能量值较低,因此,通过本发明提供的语音活性检测方法可以有效地区分出这些为人声的背景噪声和真实的语音片段,从而保证语音活性检测结果正确。
在本发明的一个优选的实施方式中,在步骤S106中,对所述语音信号的噪声能量的估计可以动态进行。并且,在步骤S101中加入的白噪声的比例可以基于动态估计出的噪声能量来调整。由此,可以实现噪声能量的动态跟踪,以及混入的白噪声的比例的实时调整。这样,可以增强语音活性检测对环境变化的感知能力,并且大幅提高在环境条件发生变化下语音活性检测的鲁棒性。
本发明还提供一种基于时域和频域的语音活性检测设备。该设备可以包括:用于向输入的语音信号中加入白噪声的装置;用于对加入白噪声后的语音信号进行分帧处理的装置;用于确定每帧的短时能量值的装置;用于确定每帧的谐波乘积谱值的装置;以及用于针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段的装置。其中,所述白噪声可以例如为高斯白噪声。
该设备还可以包括:用于在向所述输入的语音信号中加入所述白噪声之前,估计所述语音信号的噪声能量的装置;以及用于根据所估计的噪声能量来确定要加入的白躁声的比例的装置;以及向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。
在本发明的一个优选的实施方式中,对所述语音信号的噪声能量的所述估计可以是动态进行的。
用于确定所述每帧的谐波乘积谱值的装置可以包括:用于对所述加入白噪声后的语音信号进行规范化的装置;用于获取每帧的频域信息的装置;以及用于根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值的装置。
可以通过以下方式来确定所述帧是否为语音帧:在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。可替换地,可以通过以下方式来确定所述帧是否为语音帧:利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
综上所述,在本发明提供的基于时域和频域的语音活性检测方法和设备中,通过在原有的语音信号中混入一定比例的白噪声,可以有效减小原有的语音信号中包含的噪声片段对语音活性检测的影响。并且,在背景噪声为人声的情况下,通过混入白噪声,可以在一定程度上抹平这些为人声的背景噪声的谐波结构,从而避免这些背景噪声对语音活性检测结果的影响。通过短时能量值与谐波乘积谱值这两项参数来共同确定语音信号中包含的语音片段,相比于仅依靠单一参数来进行判决,可以提高准确性。特别是在背景噪声为人声的情况下,虽然这些噪声可能具有谐波结构,但它们的短时能量值较低,因此,通过本发明提供的语音活性检测方法可以有效地区分出这些为人声的背景噪声和真实的语音片段。本发明提供的语音活性检测方法和设备,结合了时域分析与频域分析方法,针对实际情况具有更好的适应性,在背景噪声为人声以及信噪比较低等情况下也有很好的表现,并且该方法实现简单、精巧,很容易嵌入各类语音***中。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (14)

1.一种基于时域和频域的语音活性检测方法,其特征在于,该方法包括:
向输入的语音信号中加入白噪声;
对加入白噪声后的语音信号进行分帧处理;
确定每帧的短时能量值;
确定每帧的谐波乘积谱值;以及
针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:在向所述输入的语音信号中加入所述白噪声之前,估计所述语音信号的噪声能量;以及根据所估计的噪声能量来确定要加入的白躁声的比例;以及,
向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。
3.根据权利要求2所述的方法,其特征在于,对所述语音信号的噪声能量的所述估计是动态进行的。
4.根据权利要求1所述的方法,其特征在于,所述白噪声为高斯白噪声。
5.根据权利要求1所述的方法,其特征在于,确定所述每帧的谐波乘积谱值的步骤包括:
对所述加入白噪声后的语音信号进行规范化;
获取每帧的频域信息;以及
根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值。
6.根据权利要求1-5中任一权利要求所述的方法,其特征在于,通过以下方式来确定所述帧是否为语音帧:
在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。
7.根据权利要求1-5中任一权利要求所述的方法,其特征在于,通过以下方式来确定所述帧是否为语音帧:
利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
8.一种基于时域和频域的语音活性检测设备,其特征在于,该设备包括:
用于向输入的语音信号中加入白噪声的装置;
用于对加入白噪声后的语音信号进行分帧处理的装置;
用于确定每帧的短时能量值的装置;
用于确定每帧的谐波乘积谱值的装置;以及
用于针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段的装置。
9.根据权利要求8所述的设备,其特征在于,该设备还包括:用于在向所述输入的语音信号中加入所述白噪声之前,估计所述语音信号的噪声能量的装置;以及用于根据所估计的噪声能量来确定要加入的白躁声的比例的装置;以及,
向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。
10.根据权利要求9所述的设备,其特征在于,对所述语音信号的噪声能量的所述估计是动态进行的。
11.根据权利要求8所述的设备,其特征在于,所述白噪声为高斯白噪声。
12.根据权利要求8所述的设备,其特征在于,用于确定所述每帧的谐波乘积谱值的装置包括:
用于对所述加入白噪声后的语音信号进行规范化的装置;
用于获取每帧的频域信息的装置;以及
用于根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值的装置。
13.根据权利要求8-12中任一权利要求所述的设备,其特征在于,通过以下方式来确定所述帧是否为语音帧:
在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。
14.根据权利要求8-12中任一权利要求所述的设备,其特征在于,通过以下方式来确定所述帧是否为语音帧:
利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
CN201410641920.1A 2014-11-13 2014-11-13 基于时域和频域的语音活性检测方法和设备 Active CN104464722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410641920.1A CN104464722B (zh) 2014-11-13 2014-11-13 基于时域和频域的语音活性检测方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410641920.1A CN104464722B (zh) 2014-11-13 2014-11-13 基于时域和频域的语音活性检测方法和设备

Publications (2)

Publication Number Publication Date
CN104464722A true CN104464722A (zh) 2015-03-25
CN104464722B CN104464722B (zh) 2018-05-25

Family

ID=52910673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410641920.1A Active CN104464722B (zh) 2014-11-13 2014-11-13 基于时域和频域的语音活性检测方法和设备

Country Status (1)

Country Link
CN (1) CN104464722B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305774A (zh) * 2016-04-22 2017-10-31 腾讯科技(深圳)有限公司 语音检测方法和装置
CN108962225A (zh) * 2018-06-27 2018-12-07 西安理工大学 一种多尺度自适应语音端点检测方法
WO2019101123A1 (zh) * 2017-11-22 2019-05-31 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备
CN110108467A (zh) * 2019-05-20 2019-08-09 长沙理工大学 基于便携式移动设备的主动发声测速方法
CN111292758A (zh) * 2019-03-12 2020-06-16 展讯通信(上海)有限公司 语音活动检测方法及装置、可读存储介质
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN111613243A (zh) * 2020-04-26 2020-09-01 云知声智能科技股份有限公司 一种语音检测的方法及其装置
CN111951834A (zh) * 2020-08-18 2020-11-17 珠海声原智能科技有限公司 基于过零率计算的超低算力检测语音存在的方法和装置
CN112634921A (zh) * 2019-10-09 2021-04-09 北京中关村科金技术有限公司 一种语音处理方法、装置和存储介质
CN113077806A (zh) * 2021-03-23 2021-07-06 杭州朗和科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
CN114613391A (zh) * 2022-02-18 2022-06-10 广州市欧智智能科技有限公司 一种基于半带滤波器的鼾声识别方法及装置
CN116705025A (zh) * 2023-08-02 2023-09-05 泉州市三川通讯技术股份有限责任公司 一种车载终端通信方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060252536A1 (en) * 2005-05-06 2006-11-09 Yu Shiu Hightlight detecting circuit and related method for audio feature-based highlight segment detection
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
CN101221762A (zh) * 2007-12-06 2008-07-16 上海大学 一种mp3压缩域音频分割方法
CN101399039A (zh) * 2007-09-30 2009-04-01 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
US20100004907A1 (en) * 2006-09-08 2010-01-07 Novo Nordisk A/S Methods of Optimizing Chromatographic Separation of Polypeptides
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101872616A (zh) * 2009-04-22 2010-10-27 索尼株式会社 端点检测方法以及使用该方法的***
CN102687196A (zh) * 2009-10-08 2012-09-19 西班牙电信公司 用于检测语音段的方法
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN103730110A (zh) * 2012-10-10 2014-04-16 北京百度网讯科技有限公司 一种检测语音端点的方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060252536A1 (en) * 2005-05-06 2006-11-09 Yu Shiu Hightlight detecting circuit and related method for audio feature-based highlight segment detection
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
US20100004907A1 (en) * 2006-09-08 2010-01-07 Novo Nordisk A/S Methods of Optimizing Chromatographic Separation of Polypeptides
CN101399039A (zh) * 2007-09-30 2009-04-01 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
CN101221762A (zh) * 2007-12-06 2008-07-16 上海大学 一种mp3压缩域音频分割方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101872616A (zh) * 2009-04-22 2010-10-27 索尼株式会社 端点检测方法以及使用该方法的***
CN102687196A (zh) * 2009-10-08 2012-09-19 西班牙电信公司 用于检测语音段的方法
CN103730110A (zh) * 2012-10-10 2014-04-16 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10872620B2 (en) 2016-04-22 2020-12-22 Tencent Technology (Shenzhen) Company Limited Voice detection method and apparatus, and storage medium
CN107305774A (zh) * 2016-04-22 2017-10-31 腾讯科技(深圳)有限公司 语音检测方法和装置
WO2019101123A1 (zh) * 2017-11-22 2019-05-31 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备
US11138992B2 (en) 2017-11-22 2021-10-05 Tencent Technology (Shenzhen) Company Limited Voice activity detection based on entropy-energy feature
CN108962225A (zh) * 2018-06-27 2018-12-07 西安理工大学 一种多尺度自适应语音端点检测方法
CN111292758A (zh) * 2019-03-12 2020-06-16 展讯通信(上海)有限公司 语音活动检测方法及装置、可读存储介质
CN111292758B (zh) * 2019-03-12 2022-10-25 展讯通信(上海)有限公司 语音活动检测方法及装置、可读存储介质
CN110108467A (zh) * 2019-05-20 2019-08-09 长沙理工大学 基于便携式移动设备的主动发声测速方法
CN110108467B (zh) * 2019-05-20 2020-10-20 长沙理工大学 基于便携式移动设备的主动发声测速方法
CN112634921B (zh) * 2019-10-09 2024-02-13 北京中关村科金技术有限公司 一种语音处理方法、装置和存储介质
CN112634921A (zh) * 2019-10-09 2021-04-09 北京中关村科金技术有限公司 一种语音处理方法、装置和存储介质
CN111613243A (zh) * 2020-04-26 2020-09-01 云知声智能科技股份有限公司 一种语音检测的方法及其装置
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN111951834A (zh) * 2020-08-18 2020-11-17 珠海声原智能科技有限公司 基于过零率计算的超低算力检测语音存在的方法和装置
CN113077806A (zh) * 2021-03-23 2021-07-06 杭州朗和科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
CN113077806B (zh) * 2021-03-23 2023-10-13 杭州网易智企科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
CN114613391A (zh) * 2022-02-18 2022-06-10 广州市欧智智能科技有限公司 一种基于半带滤波器的鼾声识别方法及装置
CN114613391B (zh) * 2022-02-18 2022-11-25 广州市欧智智能科技有限公司 一种基于半带滤波器的鼾声识别方法及装置
CN116705025A (zh) * 2023-08-02 2023-09-05 泉州市三川通讯技术股份有限责任公司 一种车载终端通信方法

Also Published As

Publication number Publication date
CN104464722B (zh) 2018-05-25

Similar Documents

Publication Publication Date Title
CN104464722A (zh) 基于时域和频域的语音活性检测方法和设备
EP3703052B1 (en) Echo cancellation method and apparatus based on time delay estimation
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
US9953661B2 (en) Neural network voice activity detection employing running range normalization
Aneeja et al. Single frequency filtering approach for discriminating speech and nonspeech
US8600073B2 (en) Wind noise suppression
CN102436821B (zh) 一种自适应调节音效的方法和设备
CN111149370B (zh) 会议***中的啸叫检测
CN104157295A (zh) 用于检测及抑制瞬态噪声的方法
CN105321528B (zh) 一种麦克风阵列语音检测方法及装置
CN106328168B (zh) 一种语音信号相似度检测方法
CA2458428A1 (en) System for suppressing wind noise
CN103730110B (zh) 一种检测语音端点的方法和装置
CN112004177B (zh) 一种啸叫检测方法、麦克风音量调节方法及存储介质
JP2019053321A (ja) 音声信号を検出するための方法および装置
CN105810201A (zh) 语音活动检测方法及其***
CN103905656A (zh) 残留回声的检测方法及装置
CN106504760A (zh) 宽频带背景噪声与语音分离检测***及方法
JP2016042613A (ja) 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ
CN103310800B (zh) 一种抗噪声干扰的浊语音检测方法及***
CN109102823B (zh) 一种基于子带谱熵的语音增强方法
EP3240303B1 (en) Sound feedback detection method and device
CN110689905A (zh) 一种用于视频会议***的语音活动检测***
CN106997768A (zh) 一种语音出现概率的计算方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, five floor, A503

Patentee after: Yunzhisheng Intelligent Technology Co., Ltd.

Address before: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, five floor, A503

Patentee before: Beijing Yunzhisheng Information Technology Co., Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20200403

Address after: No. 101, 1st Floor, 1st Building, Xisanqi Building Materials City, Haidian District, Beijing, 100000

Co-patentee after: Xiamen yunzhixin Intelligent Technology Co., Ltd

Patentee after: Yunzhisheng Intelligent Technology Co., Ltd.

Address before: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, five floor, A503

Patentee before: Yunzhisheng Intelligent Technology Co., Ltd.

TR01 Transfer of patent right