CN107331393B - 一种自适应语音活动检测方法 - Google Patents
一种自适应语音活动检测方法 Download PDFInfo
- Publication number
- CN107331393B CN107331393B CN201710694057.XA CN201710694057A CN107331393B CN 107331393 B CN107331393 B CN 107331393B CN 201710694057 A CN201710694057 A CN 201710694057A CN 107331393 B CN107331393 B CN 107331393B
- Authority
- CN
- China
- Prior art keywords
- comparison result
- frame
- threshold
- characteristic
- time domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 230000000694 effects Effects 0.000 title claims abstract description 23
- 230000004907 flux Effects 0.000 claims description 27
- 230000003595 spectral effect Effects 0.000 claims description 27
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000037433 frameshift Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及语音信号处理领域,特别是涉及到一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法,本发明通过对语音***里的语音是否在活动进行检测,来控制设备的工作状态,当语音不活动的时候,设备可以处于低功耗或者挂起状态,从而能够降低设备运算要求和功耗同时对于语音通信设备来讲,降低通信带宽。
Description
技术领域
本发明涉及语音信号处理领域,特别是涉及到一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法。
背景技术
目前语音识别作为一种常用的人机交互技术,已广泛应用于各类电子产品中,以其自然方便的交互方式收到了消费者的喜爱,逐渐成为了智能产品时代的主流交互控制方式,在语音处理领域,作为所有的语音信号处理的起点,语音活动检测技术的结算结果直接决定了后续各种处理是否实行,同时对于语音识别***来讲,语音活动检测是实现低功耗和提高识别率中非常重要的一步。目前的难点主要在于,1)多特征激活时,不同的特征的选择来实现不同的频率选择特性和同时兼顾频域和时域特性的不同特征选择。2)多门槛特征如何合理利用语音活动检测的结果,反过来更新门槛值。
为解决上述问题,需要发明一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于时域能量的门限检查、噪音频谱估计的双门限及粗检测的门限更新的自适应语音活动检测方法。
为了达到上述目的,本发明提供了如下技术方案。
一种自适应语音活动检测方法,其包括以下步骤:
步骤一 进行时域信号分割,根据设定的帧长时间和帧移时间,将一长段所述时域信号分割成一帧一帧的单帧时域信号;
步骤二 使用汉明窗对所述单帧时域信号进行加窗处理,在单帧频域范围内对所述单帧时域信号进行快速傅立叶变换,得到所述单帧时域信号的单帧频域信息;
步骤三 使用迭代更新噪音估计计算,再对比所述单帧频域信息的频带和噪音估计的频带得到信噪比,同时计算增长函数特征;
步骤四 计算所述单帧频域信息的所有的频带与上一帧对应频带的差值的平方和得到谱通量特征;
步骤五 根据快速傅立叶变换之前的所述时域数据,进行能量的操作符特征的提取;
步骤六 对所述增长函数特性、谱通量及能量的操作符特征进行编号,分别用F(1)=GF(i)、F(2)=SF(i)、F=TK(i)表示;
步骤七 对比所述增长函数特性与门槛一得到对比结果一,对比所述谱通量与门槛二得到对比结果二,对比能量的操纵符特征与门槛三得到对比结果三,将所述对比结果一、对比结果二和对比结果三进行综合,得到所述单帧频域信息的语音活动信息;
步骤八 根据所述语音活动信息更新所述门槛一、门槛二和门槛三,选择所述增长函数特性、谱通量及能量的操纵符特征的特征缓冲区内前c个最小值与所述门槛一、门槛二和门槛三做对比,选择二者中的最大值,作为新的门槛一、门槛二和门槛三,c为10到30之间的任一数值,如果所述增长函数特性、谱通量及能量的操纵符特征前d帧的语音检测结果都为0,则选择所述增长函数特性、谱通量及能量的操纵符特征前d个特征数据中的最大值作为新的门槛一、门槛二和门槛三,d为10到30之间的任一数值;
步骤九 延展所述对比结果一、对比结果二和对比结果三,获得新的对比结果一、对比结果二和对比结果三,如果所述增长函数特性、谱通量及能量的操纵符特征前s帧语音对比结果中超过一半的时间帧取值为1则代表检测到了语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为检测到语音,全部取值为1,如果所述增长函数特性、谱通量及能量的操纵符特征前s帧语音对比结果中少于1半的时间帧取值为1则代表未检测到语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为未检测到语音,全部取值为0,s为10到30之间的任一数值;
所述单帧频域信息通过以下公式获得:
合适的选择增长函数中的不同的频带和能量操作符中的参数k,可以实现不同的频带选择特性。
来进行综合,其中T为特征激活参数,调整T的大小,可改变语音活动检测的性能,T越大,语音误检率会降低,但是漏检率会增高;反之,误检率会增高,但是漏检率会降低。
作为本发明的优选方案,所述步骤八的更新过程如下:
TH(1)=max(TH(1),min(F(i-c:i,l)))
if cVAD(i-d:i)==0
TH(l)=max(F(i-d:i,l))
End。
作为本发明的优选方案,所述步骤九通过公式If(sum(cVAD(i-s:i))>0.5*s)和FVAD(i-s-a:i+b)=1进行延展,获得平滑的对比结果信息。
与现有技术相比,本发明的有益效果:
本发明提供了一种自适应语音活动检测方法,该方法可以对语音***里的语音是否在活动进行检测,当语音不活动的时候,设备可以处于低功耗或者挂起状态,从而在降低设备运算要求和功耗的同时降低了语音通信设备的通信带宽。
附图说明
图1为本发明流程图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述,但不应将此理解为本发明上述主体的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,一种自适应语音活动检测方法,其包括以下步骤:
步骤一进行时域信号分割,根据设定的帧长时间和帧移时间,将一长段所述时域信号分割成一帧一帧的单帧时域信号,在本实施例中帧长时间为32毫秒,帧移时间为16毫秒;
步骤二 使用汉明窗对所述单帧时域信号进行加窗处理,在单帧频域范围内对所述单帧时域信号进行快速傅立叶变换,得到所述单帧时域信号的单帧频域信息;
步骤三 使用迭代更新噪音估计计算,再对比所述单帧频域信息的频带和噪音估计的频带得到信噪比,同时计算增长函数特征;
步骤四 计算所述单帧频域信息的所有的频带与上一帧对应频带的差值的平方和得到谱通量;
步骤五 根据快速傅立叶变换之前的所述时域数据,进行能量的操作符特征的提取;
步骤六 对所述增长函数特性、谱通量及能量的操作符特征进行编号,分别用F(1)=GF(i)、F(2)=SF(i)、F=TK(i)来表示;
步骤七 对比所述增长函数特性与门槛一得到对比结果一,对比所述谱通量与门槛二得到对比结果二,对比能量的操纵符特征与门槛三得到对比结果三,将所述对比结果一、对比结果二和对比结果三进行综合,得到所述单帧频域信息的语音活动信息;
步骤八 根据所述语音活动信息更新所述门槛一、门槛二和门槛三,选择所述增长函数特性、谱通量及能量的操纵符特征的特征缓冲区内前15个最小值与所述门槛一、门槛二和门槛三做对比,选择二者中的最大值,作为新的门槛一、门槛二和门槛三,如果所述增长函数特性、谱通量及能量的操纵符特征前15帧的语音检测结果都为0,则选择所述增长函数特性、谱通量及能量的操纵符特征前15个特征数据中的最大值作为新的门槛一、门槛二和门槛三;
步骤九 延展所述对比结果一、对比结果二和对比结果三,获得新的对比结果一、对比结果二和对比结果三,如果所述增长函数特性、谱通量及能量的操纵符特征前15帧语音对比结果中超过1半的时间帧取值为1则代表检测到了语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前15帧语音全部判定为检测到语音,全部取值为1,如果所述增长函数特性、谱通量及能量的操纵符特征前15帧语音对比结果中少于1半的时间帧取值为1则代表未检测到语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为未检测到语音,全部取值为0。
单帧频域信息通过以下公式获得:
合适的选择增长函数中的不同的频带和能量操作符中的参数k,可以实现不同的频带选择特性。
步骤八的更新过程如下:
if cVAD(i-d:i)==0
TH(l)=max(F(i-d:i,l))
End。
步骤九通过公式If(sum(cVAD(i-s:i))>0.5*s)和FVAD(i-s-a:i+b)=1进行延展,获得平滑的对比结果信息,前述公式中a取值为5。
Claims (3)
1.一种自适应语音活动检测方法,其包括以下步骤:
步骤一 进行时域信号分割,根据设定的帧长时间和帧移时间,将一长段所述时域信号分割成一帧一帧的单帧时域信号;
步骤二 使用汉明窗对所述单帧时域信号进行加窗处理,在单帧频域范围内对所述单帧时域信号进行快速傅立叶变换,得到所述单帧时域信号的单帧频域信息;
步骤三 使用迭代更新噪音估计计算,再对比所述单帧频域信息的频带和噪音估计的频带得到信噪比,同时计算增长函数特征;
步骤四 计算所述单帧频域信息的所有的频带与上一帧对应频带的差值的平方和得到谱通量;
步骤五 根据快速傅立叶变换之前的所述时域数据,进行能量的操作符特征的提取;
步骤六 对所述增长函数特性、谱通量及能量的操作符特征进行编号,分别用 F(1)=GF(i)、F(2)=SF(i)、F(3)=TK(i)来表示;
步骤七 对比所述增长函数特性与门槛一得到对比结果一,对比所述谱通量与门槛二得到对比结果二,对比能量的操纵符特征与门槛三得到对比结果三,将所述对比结果一、对比结果二和对比结果三进行综合,得到所述单帧频域信息的语音活动信息;
步骤八 根据所述语音活动信息更新所述门槛一、门槛二和门槛三;
步骤九 延展所述对比结果一、对比结果二和对比结果三,获得新的对比结果一、对比结果二和对比结果三;
所述单帧频域信息通过以下公式获得:
2.根据权利要求1所述的一种自适应语音活动检测方法,其特征在于:所述步骤八通过以下公式进行更新:TH(1)=max(TH(1),min(F(i-c:i,l)))
if cVCD(i-d:i)==0
TH(l)=max(F(i-d:i,l))
End;
首先选择特征缓冲区内前c个最小值与当前特征阈值做对比,选择二者中的最大值,作为新的特征阈值;
然后,如果前d帧的语音检测结果都为0,则选择前d个特征数据中的最大值作为新的阈值,如果前d帧的语音检测结果有一个不为0,则不更新阈值。
3.根据权利要求1所述的一种自适应语音活动检测方法,其特征在于:所述步骤九通过公式If(sum(cVAD(i-s:i))>0.5*s)和FVAD(i-s-a:i+b)=1进行延展。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710694057.XA CN107331393B (zh) | 2017-08-15 | 2017-08-15 | 一种自适应语音活动检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710694057.XA CN107331393B (zh) | 2017-08-15 | 2017-08-15 | 一种自适应语音活动检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107331393A CN107331393A (zh) | 2017-11-07 |
CN107331393B true CN107331393B (zh) | 2020-05-12 |
Family
ID=60226143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710694057.XA Active CN107331393B (zh) | 2017-08-15 | 2017-08-15 | 一种自适应语音活动检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107331393B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346062B (zh) * | 2018-12-25 | 2021-05-28 | 思必驰科技股份有限公司 | 语音端点检测方法及装置 |
CN112102818B (zh) * | 2020-11-19 | 2021-01-26 | 成都启英泰伦科技有限公司 | 结合语音活性检测和滑动窗噪声估计的信噪比计算方法 |
CN113470623B (zh) * | 2021-08-12 | 2023-05-16 | 成都启英泰伦科技有限公司 | 一种自适应语音端点检测方法及检测电路 |
CN115579013B (zh) * | 2022-12-09 | 2023-03-10 | 深圳市锦锐科技股份有限公司 | 一种低功耗音频解码器 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
DE602004002845T2 (de) * | 2004-01-22 | 2007-06-06 | Siemens S.P.A. | Sprachaktivitätsdetektion unter Verwendung von komprimierten Sprachsignal-Parametern |
KR101022519B1 (ko) * | 2009-04-17 | 2011-03-16 | 고려대학교 산학협력단 | 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 |
CN102809742B (zh) * | 2011-06-01 | 2015-03-18 | 杜比实验室特许公司 | 声源定位设备和方法 |
WO2016091332A1 (en) * | 2014-12-12 | 2016-06-16 | Huawei Technologies Co., Ltd. | A signal processing apparatus for enhancing a voice component within a multi-channel audio signal |
CN105825871B (zh) * | 2016-03-16 | 2019-07-30 | 大连理工大学 | 一种无前导静音段语音的端点检测方法 |
-
2017
- 2017-08-15 CN CN201710694057.XA patent/CN107331393B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107331393A (zh) | 2017-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107331393B (zh) | 一种自适应语音活动检测方法 | |
US8515097B2 (en) | Single microphone wind noise suppression | |
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
US9253568B2 (en) | Single-microphone wind noise suppression | |
CN105744434B (zh) | 一种基于手势识别的智能音箱控制方法及*** | |
CN113889138B (zh) | 一种基于双麦克风阵列的目标语音提取方法 | |
CN110265065B (zh) | 一种构建语音端点检测模型的方法及语音端点检测*** | |
CN103366739B (zh) | 面向孤立词语音识别的自适应端点检测方法及其*** | |
CN104103278A (zh) | 一种实时语音去噪的方法和设备 | |
JP2019053321A (ja) | 音声信号を検出するための方法および装置 | |
CN112004177B (zh) | 一种啸叫检测方法、麦克风音量调节方法及存储介质 | |
CN109756818B (zh) | 双麦克风降噪方法、装置、存储介质及电子设备 | |
CN110690931A (zh) | 一种基于多小波基联合的数字信号自适应码率估计方法和装置 | |
CN106448696A (zh) | 一种基于背景噪声估计自适应高通滤波语音降噪方法 | |
CN103996399B (zh) | 语音检测方法和*** | |
CN111477243A (zh) | 音频信号处理方法及电子设备 | |
TWI818493B (zh) | 語音增強方法、系統和裝置 | |
CN108039182B (zh) | 一种语音激活检测方法 | |
CN112420079B (zh) | 语音端点检测方法和装置、存储介质及电子设备 | |
CN111968620B (zh) | 算法的测试方法、装置、电子设备及存储介质 | |
CN101308651B (zh) | 音频暂态信号的检测方法 | |
US20220301582A1 (en) | Method and apparatus for determining speech presence probability and electronic device | |
CN107247574A (zh) | 一种音频输出控制方法及装置 | |
US11900951B2 (en) | Audio packet loss concealment method, device and bluetooth receiver | |
CN107330462B (zh) | 基于时频分析的手势识别方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |