CN107331393B - 一种自适应语音活动检测方法 - Google Patents

一种自适应语音活动检测方法 Download PDF

Info

Publication number
CN107331393B
CN107331393B CN201710694057.XA CN201710694057A CN107331393B CN 107331393 B CN107331393 B CN 107331393B CN 201710694057 A CN201710694057 A CN 201710694057A CN 107331393 B CN107331393 B CN 107331393B
Authority
CN
China
Prior art keywords
comparison result
frame
threshold
characteristic
time domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710694057.XA
Other languages
English (en)
Other versions
CN107331393A (zh
Inventor
何云鹏
张来
高君效
许兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN201710694057.XA priority Critical patent/CN107331393B/zh
Publication of CN107331393A publication Critical patent/CN107331393A/zh
Application granted granted Critical
Publication of CN107331393B publication Critical patent/CN107331393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及语音信号处理领域,特别是涉及到一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法,本发明通过对语音***里的语音是否在活动进行检测,来控制设备的工作状态,当语音不活动的时候,设备可以处于低功耗或者挂起状态,从而能够降低设备运算要求和功耗同时对于语音通信设备来讲,降低通信带宽。

Description

一种自适应语音活动检测方法
技术领域
本发明涉及语音信号处理领域,特别是涉及到一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法。
背景技术
目前语音识别作为一种常用的人机交互技术,已广泛应用于各类电子产品中,以其自然方便的交互方式收到了消费者的喜爱,逐渐成为了智能产品时代的主流交互控制方式,在语音处理领域,作为所有的语音信号处理的起点,语音活动检测技术的结算结果直接决定了后续各种处理是否实行,同时对于语音识别***来讲,语音活动检测是实现低功耗和提高识别率中非常重要的一步。目前的难点主要在于,1)多特征激活时,不同的特征的选择来实现不同的频率选择特性和同时兼顾频域和时域特性的不同特征选择。2)多门槛特征如何合理利用语音活动检测的结果,反过来更新门槛值。
为解决上述问题,需要发明一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于时域能量的门限检查、噪音频谱估计的双门限及粗检测的门限更新的自适应语音活动检测方法。
为了达到上述目的,本发明提供了如下技术方案。
一种自适应语音活动检测方法,其包括以下步骤:
步骤一 进行时域信号分割,根据设定的帧长时间和帧移时间,将一长段所述时域信号分割成一帧一帧的单帧时域信号;
步骤二 使用汉明窗对所述单帧时域信号进行加窗处理,在单帧频域范围内对所述单帧时域信号进行快速傅立叶变换,得到所述单帧时域信号的单帧频域信息;
步骤三 使用迭代更新噪音估计计算,再对比所述单帧频域信息的频带和噪音估计的频带得到信噪比,同时计算增长函数特征;
步骤四 计算所述单帧频域信息的所有的频带与上一帧对应频带的差值的平方和得到谱通量特征;
步骤五 根据快速傅立叶变换之前的所述时域数据,进行能量的操作符特征的提取;
步骤六 对所述增长函数特性、谱通量及能量的操作符特征进行编号,分别用F(1)=GF(i)、F(2)=SF(i)、F=TK(i)表示;
步骤七 对比所述增长函数特性与门槛一得到对比结果一,对比所述谱通量与门槛二得到对比结果二,对比能量的操纵符特征与门槛三得到对比结果三,将所述对比结果一、对比结果二和对比结果三进行综合,得到所述单帧频域信息的语音活动信息;
步骤八 根据所述语音活动信息更新所述门槛一、门槛二和门槛三,选择所述增长函数特性、谱通量及能量的操纵符特征的特征缓冲区内前c个最小值与所述门槛一、门槛二和门槛三做对比,选择二者中的最大值,作为新的门槛一、门槛二和门槛三,c为10到30之间的任一数值,如果所述增长函数特性、谱通量及能量的操纵符特征前d帧的语音检测结果都为0,则选择所述增长函数特性、谱通量及能量的操纵符特征前d个特征数据中的最大值作为新的门槛一、门槛二和门槛三,d为10到30之间的任一数值;
步骤九 延展所述对比结果一、对比结果二和对比结果三,获得新的对比结果一、对比结果二和对比结果三,如果所述增长函数特性、谱通量及能量的操纵符特征前s帧语音对比结果中超过一半的时间帧取值为1则代表检测到了语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为检测到语音,全部取值为1,如果所述增长函数特性、谱通量及能量的操纵符特征前s帧语音对比结果中少于1半的时间帧取值为1则代表未检测到语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为未检测到语音,全部取值为0,s为10到30之间的任一数值;
所述单帧频域信息通过以下公式获得:
Figure 496420DEST_PATH_IMAGE001
Figure 311929DEST_PATH_IMAGE002
其中:x1(n),x2(n)分别为偶数序列和基数序列,
Figure 458877DEST_PATH_IMAGE003
为权重系数,
Figure 18034DEST_PATH_IMAGE004
所述增长函数特征通过公式
Figure 996355DEST_PATH_IMAGE005
获得,其中i代表第i帧;
所述谱通量通过公式
Figure 920448DEST_PATH_IMAGE006
获得。
所述能量的操作符特征通过公式
Figure 617009DEST_PATH_IMAGE007
来实现提取,通过调整k的大小来实现频率的选择;
合适的选择增长函数中的不同的频带和能量操作符中的参数k,可以实现不同的频带选择特性。
所述步骤七通过公式
Figure 917540DEST_PATH_IMAGE008
来进行综合,其中T为特征激活参数,调整T的大小,可改变语音活动检测的性能,T越大,语音误检率会降低,但是漏检率会增高;反之,误检率会增高,但是漏检率会降低。
作为本发明的优选方案,所述步骤八的更新过程如下:
TH(1)=max(TH(1),min(F(i-c:i,l)))
if cVAD(i-d:i)==0
TH(l)=max(F(i-d:i,l))
End。
作为本发明的优选方案,所述步骤九通过公式If(sum(cVAD(i-s:i))>0.5*s)和FVAD(i-s-a:i+b)=1进行延展,获得平滑的对比结果信息。
与现有技术相比,本发明的有益效果:
本发明提供了一种自适应语音活动检测方法,该方法可以对语音***里的语音是否在活动进行检测,当语音不活动的时候,设备可以处于低功耗或者挂起状态,从而在降低设备运算要求和功耗的同时降低了语音通信设备的通信带宽。
附图说明
图1为本发明流程图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述,但不应将此理解为本发明上述主体的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,一种自适应语音活动检测方法,其包括以下步骤:
步骤一进行时域信号分割,根据设定的帧长时间和帧移时间,将一长段所述时域信号分割成一帧一帧的单帧时域信号,在本实施例中帧长时间为32毫秒,帧移时间为16毫秒;
步骤二 使用汉明窗对所述单帧时域信号进行加窗处理,在单帧频域范围内对所述单帧时域信号进行快速傅立叶变换,得到所述单帧时域信号的单帧频域信息;
步骤三 使用迭代更新噪音估计计算,再对比所述单帧频域信息的频带和噪音估计的频带得到信噪比,同时计算增长函数特征;
步骤四 计算所述单帧频域信息的所有的频带与上一帧对应频带的差值的平方和得到谱通量;
步骤五 根据快速傅立叶变换之前的所述时域数据,进行能量的操作符特征的提取;
步骤六 对所述增长函数特性、谱通量及能量的操作符特征进行编号,分别用F(1)=GF(i)、F(2)=SF(i)、F=TK(i)来表示;
步骤七 对比所述增长函数特性与门槛一得到对比结果一,对比所述谱通量与门槛二得到对比结果二,对比能量的操纵符特征与门槛三得到对比结果三,将所述对比结果一、对比结果二和对比结果三进行综合,得到所述单帧频域信息的语音活动信息;
步骤八 根据所述语音活动信息更新所述门槛一、门槛二和门槛三,选择所述增长函数特性、谱通量及能量的操纵符特征的特征缓冲区内前15个最小值与所述门槛一、门槛二和门槛三做对比,选择二者中的最大值,作为新的门槛一、门槛二和门槛三,如果所述增长函数特性、谱通量及能量的操纵符特征前15帧的语音检测结果都为0,则选择所述增长函数特性、谱通量及能量的操纵符特征前15个特征数据中的最大值作为新的门槛一、门槛二和门槛三;
步骤九 延展所述对比结果一、对比结果二和对比结果三,获得新的对比结果一、对比结果二和对比结果三,如果所述增长函数特性、谱通量及能量的操纵符特征前15帧语音对比结果中超过1半的时间帧取值为1则代表检测到了语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前15帧语音全部判定为检测到语音,全部取值为1,如果所述增长函数特性、谱通量及能量的操纵符特征前15帧语音对比结果中少于1半的时间帧取值为1则代表未检测到语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为未检测到语音,全部取值为0。
单帧频域信息通过以下公式获得:
Figure 750367DEST_PATH_IMAGE009
其中:x1(n),x2(n)分别为偶数序列和基数序列,
Figure 907679DEST_PATH_IMAGE003
为权重系数,
Figure 29218DEST_PATH_IMAGE004
公式中N取值为512,k取值为18。
所述增长函数特征通过公式
Figure 694293DEST_PATH_IMAGE005
获得,其中i代表第i帧,i代表当前帧的标号,随着算法的运行,每判定完1帧,取值自动增加1。
所述谱通量通过公式
Figure 116047DEST_PATH_IMAGE006
获得。
所述能量的操作符特征通过公式
Figure 647522DEST_PATH_IMAGE007
来实现提取,通过调整k的大小来实现频率的选择,本实施例中k取值18。
合适的选择增长函数中的不同的频带和能量操作符中的参数k,可以实现不同的频带选择特性。
步骤七通过公式
Figure 53096DEST_PATH_IMAGE008
来进行综合,其中T为特征激活参数,调整T的大小,可改变语音活动检测的性能,T越大,语音误检率会降低,但是漏检率会增高;反之,误检率会增高,但是漏检率会降低。
步骤八的更新过程如下:
Figure 961009DEST_PATH_IMAGE010
if cVAD(i-d:i)==0
TH(l)=max(F(i-d:i,l))
End。
步骤九通过公式If(sum(cVAD(i-s:i))>0.5*s)和FVAD(i-s-a:i+b)=1进行延展,获得平滑的对比结果信息,前述公式中a取值为5。

Claims (3)

1.一种自适应语音活动检测方法,其包括以下步骤:
步骤一 进行时域信号分割,根据设定的帧长时间和帧移时间,将一长段所述时域信号分割成一帧一帧的单帧时域信号;
步骤二 使用汉明窗对所述单帧时域信号进行加窗处理,在单帧频域范围内对所述单帧时域信号进行快速傅立叶变换,得到所述单帧时域信号的单帧频域信息;
步骤三 使用迭代更新噪音估计计算,再对比所述单帧频域信息的频带和噪音估计的频带得到信噪比,同时计算增长函数特征;
步骤四 计算所述单帧频域信息的所有的频带与上一帧对应频带的差值的平方和得到谱通量;
步骤五 根据快速傅立叶变换之前的所述时域数据,进行能量的操作符特征的提取;
步骤六 对所述增长函数特性、谱通量及能量的操作符特征进行编号,分别用 F(1)=GF(i)、F(2)=SF(i)、F(3)=TK(i)来表示;
步骤七 对比所述增长函数特性与门槛一得到对比结果一,对比所述谱通量与门槛二得到对比结果二,对比能量的操纵符特征与门槛三得到对比结果三,将所述对比结果一、对比结果二和对比结果三进行综合,得到所述单帧频域信息的语音活动信息;
步骤八 根据所述语音活动信息更新所述门槛一、门槛二和门槛三;
步骤九 延展所述对比结果一、对比结果二和对比结果三,获得新的对比结果一、对比结果二和对比结果三;
所述单帧频域信息通过以下公式获得:
Figure 440519DEST_PATH_IMAGE001
Figure 664827DEST_PATH_IMAGE002
其中:x1(n),x2(n)分别为偶数序列和基数序列,
Figure 991903DEST_PATH_IMAGE003
为权重系数,
Figure 276254DEST_PATH_IMAGE004
其中所述增长函数特征通过公式
Figure 892043DEST_PATH_IMAGE005
获得,其中i代表第i帧;
所述谱通量通过公式
Figure 185622DEST_PATH_IMAGE006
获得;
所述能量的操作符特征通过公式
Figure 321199DEST_PATH_IMAGE007
来实现提取,通过调整k的大小来实现频率的选择;
所述步骤七通过公式
Figure 510872DEST_PATH_IMAGE008
来进行综合,其中T为特征激活参数,调整T的大小,可改变语音活动检测的性能。
2.根据权利要求1所述的一种自适应语音活动检测方法,其特征在于:所述步骤八通过以下公式进行更新:TH(1)=max(TH(1),min(F(i-c:i,l)))
if cVCD(i-d:i)==0
TH(l)=max(F(i-d:i,l))
End;
首先选择特征缓冲区内前c个最小值与当前特征阈值做对比,选择二者中的最大值,作为新的特征阈值;
然后,如果前d帧的语音检测结果都为0,则选择前d个特征数据中的最大值作为新的阈值,如果前d帧的语音检测结果有一个不为0,则不更新阈值。
3.根据权利要求1所述的一种自适应语音活动检测方法,其特征在于:所述步骤九通过公式If(sum(cVAD(i-s:i))>0.5*s)和FVAD(i-s-a:i+b)=1进行延展。
CN201710694057.XA 2017-08-15 2017-08-15 一种自适应语音活动检测方法 Active CN107331393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710694057.XA CN107331393B (zh) 2017-08-15 2017-08-15 一种自适应语音活动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710694057.XA CN107331393B (zh) 2017-08-15 2017-08-15 一种自适应语音活动检测方法

Publications (2)

Publication Number Publication Date
CN107331393A CN107331393A (zh) 2017-11-07
CN107331393B true CN107331393B (zh) 2020-05-12

Family

ID=60226143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710694057.XA Active CN107331393B (zh) 2017-08-15 2017-08-15 一种自适应语音活动检测方法

Country Status (1)

Country Link
CN (1) CN107331393B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346062B (zh) * 2018-12-25 2021-05-28 思必驰科技股份有限公司 语音端点检测方法及装置
CN112102818B (zh) * 2020-11-19 2021-01-26 成都启英泰伦科技有限公司 结合语音活性检测和滑动窗噪声估计的信噪比计算方法
CN113470623B (zh) * 2021-08-12 2023-05-16 成都启英泰伦科技有限公司 一种自适应语音端点检测方法及检测电路
CN115579013B (zh) * 2022-12-09 2023-03-10 深圳市锦锐科技股份有限公司 一种低功耗音频解码器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
DE602004002845T2 (de) * 2004-01-22 2007-06-06 Siemens S.P.A. Sprachaktivitätsdetektion unter Verwendung von komprimierten Sprachsignal-Parametern
KR101022519B1 (ko) * 2009-04-17 2011-03-16 고려대학교 산학협력단 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법
CN102809742B (zh) * 2011-06-01 2015-03-18 杜比实验室特许公司 声源定位设备和方法
WO2016091332A1 (en) * 2014-12-12 2016-06-16 Huawei Technologies Co., Ltd. A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
CN105825871B (zh) * 2016-03-16 2019-07-30 大连理工大学 一种无前导静音段语音的端点检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法

Also Published As

Publication number Publication date
CN107331393A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN107331393B (zh) 一种自适应语音活动检测方法
US8515097B2 (en) Single microphone wind noise suppression
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
US9253568B2 (en) Single-microphone wind noise suppression
CN105744434B (zh) 一种基于手势识别的智能音箱控制方法及***
CN113889138B (zh) 一种基于双麦克风阵列的目标语音提取方法
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测***
CN103366739B (zh) 面向孤立词语音识别的自适应端点检测方法及其***
CN104103278A (zh) 一种实时语音去噪的方法和设备
JP2019053321A (ja) 音声信号を検出するための方法および装置
CN112004177B (zh) 一种啸叫检测方法、麦克风音量调节方法及存储介质
CN109756818B (zh) 双麦克风降噪方法、装置、存储介质及电子设备
CN110690931A (zh) 一种基于多小波基联合的数字信号自适应码率估计方法和装置
CN106448696A (zh) 一种基于背景噪声估计自适应高通滤波语音降噪方法
CN103996399B (zh) 语音检测方法和***
CN111477243A (zh) 音频信号处理方法及电子设备
TWI818493B (zh) 語音增強方法、系統和裝置
CN108039182B (zh) 一种语音激活检测方法
CN112420079B (zh) 语音端点检测方法和装置、存储介质及电子设备
CN111968620B (zh) 算法的测试方法、装置、电子设备及存储介质
CN101308651B (zh) 音频暂态信号的检测方法
US20220301582A1 (en) Method and apparatus for determining speech presence probability and electronic device
CN107247574A (zh) 一种音频输出控制方法及装置
US11900951B2 (en) Audio packet loss concealment method, device and bluetooth receiver
CN107330462B (zh) 基于时频分析的手势识别方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant