CN105336344B - 杂音检测方法和装置 - Google Patents

杂音检测方法和装置 Download PDF

Info

Publication number
CN105336344B
CN105336344B CN201410326739.1A CN201410326739A CN105336344B CN 105336344 B CN105336344 B CN 105336344B CN 201410326739 A CN201410326739 A CN 201410326739A CN 105336344 B CN105336344 B CN 105336344B
Authority
CN
China
Prior art keywords
frame
frequency domain
domain energy
present frame
distribution parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410326739.1A
Other languages
English (en)
Other versions
CN105336344A (zh
Inventor
许丽净
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410326739.1A priority Critical patent/CN105336344B/zh
Priority to EP15818398.8A priority patent/EP3136389B1/en
Priority to PCT/CN2015/071725 priority patent/WO2016004757A1/zh
Publication of CN105336344A publication Critical patent/CN105336344A/zh
Priority to US15/380,163 priority patent/US10089999B2/en
Application granted granted Critical
Publication of CN105336344B publication Critical patent/CN105336344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

本发明实施例提供一种杂音检测方法和装置,一种杂音检测方法包括:获取音频信号当前帧的频域能量分布参数,获取当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数;获取当前帧的音调参数,获取当前帧的预设邻域范围内的帧中每一帧的音调参数;根据当前帧的音调参数以及当前帧的预设邻域范围内的帧中每一帧的音调参数确定当前帧处于语音段或非语音段;若当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定当前帧为语音类杂音。本发明实施例提供的杂音检测方法和装置,能够提高音频信号杂音检测的准确性。

Description

杂音检测方法和装置
技术领域
本发明实施例涉及音频信号处理技术,尤其涉及一种杂音检测方法和装置。
背景技术
音频信号在传输的过程中,可能由于种种原因产生杂音,当音频信号中的杂音严重时,将对用户的正常使用造成影响,因此需要及时对音频信号中杂音进行检测,从而消除对正常使用造成影响的杂音。
现有的杂音检测方法是对音频信号的时域信号进行分析,侧重于分析与音频信号的时域能量变化相关的参数,但某些杂音信号的时域能量变化并无异常,使用现有的杂音检测方法很难将这些杂音信号检测出来。
图1为一段语音信号的时域波形图,其中横轴为样本点,纵轴为归一化的幅度。图1中示出的语音信号中,虚线11左侧为语音类杂音,虚线11与虚线12之间为第一段正常语音,虚线12与虚线13之间为金属音,虚线13与虚线14之间为第二段正常语音,虚线14右侧为背景噪声。其中语音类杂音是一种特殊的杂音,出现语音类杂音可能使正常的语音信号无法被分辨或者听起来很不自然;金属音是类似金属效果的杂音,声音较为高亢。语音类杂音、金属音和背景噪声都属于杂音信号,但从图1中可以看出,只有金属音的幅度变化较大,而语音类杂音和背景噪声与正常语音信号的波形较为类似,因此从语音信号的时域波形中很难将与正常语音信号波形类似的些杂音和正常的语音信号区分开。
由此可见,现有的杂音检测方法仅适用于检测持续时间短、能量发生较大变化的突变信号,而对于时域信号的特征与正常语音信号类似的杂音检测的准确性不高。
发明内容
本发明实施例提供一种杂音检测方法和装置,通过对音频信号频域能量进行分析,从而提高音频信号杂音检测的准确性。
第一方面提供一种杂音检测方法,包括:
获取音频信号当前帧的频域能量分布参数,获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数;
获取所述当前帧的音调参数,获取所述当前帧的预设邻域范围内的帧中每一帧的音调参数;
根据所述当前帧的音调参数以及所述当前帧的预设邻域范围内的帧中每一帧的音调参数确定所述当前帧处于语音段或非语音段;
若所述当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定所述当前帧为语音类杂音。
结合第一方面,在第一方面第一种可能的实现方式中,所述频域能量分布参数为频域能量分布比值的导数极大值分布参数,所述获取音频信号当前帧的频域能量分布参数,包括:
获取所述当前帧的频域能量分布比值;
计算所述当前帧的频域能量分布比值的导数;
根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数;
所述获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数,包括:
获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值;
计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数;
根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数;
所述若所述当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定所述当前帧为语音类杂音,包括:
若所述当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第二阈值,则确定所述当前帧为语音类杂音。
结合第一方面,在第一方面第二种可能的实现方式中,所述频域能量分布参数包括频域能量分布比值和频域能量分布比值的导数极大值分布参数,所述获取音频信号当前帧的频域能量分布参数,包括:
获取所述当前帧的频域能量分布比值;
计算所述当前帧的频域能量分布比值的导数;
根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数;
所述获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数,包括:
获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值;
计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数;
根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数;
所述若所述当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定所述当前帧为语音类杂音,包括:
若所述当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于所述第二阈值,且在全部的所述频域能量分布比值中,位于预设的语音类杂音频域能量分布比值区间的频域能量分布比值的数量大于等于第三阈值,则确定所述当前帧为语音类杂音。
结合第一方面,在第一方面第三种可能的实现方式中,所述方法还包括:
将所述当前帧及所述当前帧预设邻域范围内的每一帧作为一个帧集合;
将所述帧集合中的每一帧作为所述当前帧,获取所述帧集合中,处于非语音段,且在全部的所述频域能量分布参数中,位于预设的非语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第四阈值的帧的数量N,所述N为正整数;
若所述N大于等于第五阈值,则确定所述当前帧为非语音类杂音。
结合第一方面第三种可能的实现方式,在第一方面第四种可能的实现方式中,所述频域能量分布参数为频域能量分布比值的导数极大值分布参数,所述获取音频信号当前帧的频域能量分布参数,包括:
获取所述当前帧的频域能量分布比值;
计算所述当前帧的频域能量分布比值的导数;
根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数;
所述获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数,包括:
获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值;
计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数;
根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数;
所述取所述帧集合中,处于非语音段,且在全部的所述频域能量分布参数中,位于预设的非语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第四阈值的帧的数量N,所述N为正整数,包括:
获取所述帧集合中,处于非语音段,频域总能量大于等于第六阈值,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的非语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第七阈值的帧的数量M,所述M为正整数;
所述若所述N大于等于第五阈值,则确定所述当前帧为非语音类杂音,包括:
若所述M大于等于第八阈值,则确定所述当前帧为非语音类杂音。
结合第一方面至第一方面第四种可能的实现方式中任一种可能的实现方式,在第一方面第五种可能的实现方式中,所述获取所述当前帧的音调参数,获取所述当前帧的预设邻域范围内的帧中每一帧的音调参数,包括:
获取音调个数最大值,所述音调个数最大值为在所述当前帧及所述当前帧预设邻域范围内的帧中,音调个数最大的帧的音调个数;
所述根据所述当前帧的音调参数以及所述当前帧的预设邻域范围内的帧中每一帧的音调参数确定所述当前帧处于语音段或非语音段,包括:
若所述音调个数最大值大于等于预设的语音阈值,则确定所述当前帧处于语音段,否则确定所述当前帧处于非语音段。
第二方面提供一种杂音检测装置,包括:
获取模块,用于获取音频信号当前帧的频域能量分布参数,获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数;获取所述当前帧的音调参数,获取所述当前帧的预设邻域范围内的帧中每一帧的音调参数;根据所述当前帧的音调参数以及所述当前帧的预设邻域范围内的帧中每一帧的音调参数确定所述当前帧处于语音段或非语音段;
检测模块,用于若所述当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定所述当前帧为语音类杂音。
结合第二方面,在第二方面第一种可能的实现方式中,所述频域能量分布参数为频域能量分布比值的导数极大值分布参数,所述获取模块,具体用于获取所述当前帧的频域能量分布比值;计算所述当前帧的频域能量分布比值的导数;根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数;获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值;计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数;根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数;
所述检测模块,具体用于若所述当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第二阈值,则确定所述当前帧为语音类杂音。
结合第二方面,在第二方面第二种可能的实现方式中,所述频域能量分布参数包括频域能量分布比值和频域能量分布比值的导数极大值分布参数,所述获取模块,具体用于获取所述当前帧的频域能量分布比值;计算所述当前帧的频域能量分布比值的导数;根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数;获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值;计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数;根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数;
所述检测模块,具体用于若所述当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于所述第二阈值,且在全部的所述频域能量分布比值中,位于预设的语音类杂音频域能量分布比值区间的频域能量分布比值的数量大于等于第三阈值,则确定所述当前帧为语音类杂音。
结合第二方面,在第二方面第三种可能的实现方式中,所述检测模块,还用于将所述当前帧及所述当前帧预设邻域范围内的每一帧作为一个帧集合;将所述帧集合中的每一帧作为所述当前帧,获取所述帧集合中,处于非语音段,且在全部的所述频域能量分布参数中,位于预设的非语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第四阈值的帧的数量N,所述N为正整数;若所述N大于等于第五阈值,则确定所述当前帧为非语音类杂音。
结合第二方面第三种可能的实现方式,在第二方面第四种可能的实现方式中,所述频域能量分布参数为频域能量分布比值的导数极大值分布参数,所述获取模块,具体用于获取所述当前帧的频域能量分布比值;计算所述当前帧的频域能量分布比值的导数;根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数;获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值;计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数;根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数;
所述检测模块,具体用于获取所述帧集合中,处于非语音段,频域总能量大于等于第六阈值,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的非语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第七阈值的帧的数量M,所述M为正整数;若所述M大于等于第八阈值,则确定所述当前帧为非语音类杂音。
结合第二方面至第二方面第四种可能的实现方式中任一种可能的实现方式,在第二方面第五种可能的实现方式中,所述获取模块,具体用于获取音调个数最大值,所述音调个数最大值为在所述当前帧及所述当前帧预设邻域范围内的帧中,音调个数最大的帧的音调个数;若所述音调个数最大值大于等于预设的语音阈值,则确定所述当前帧处于语音段,否则确定所述当前帧处于非语音段。
本发明实施例提供的杂音检测方法和装置,通过获取当前帧的频域能量参数和音调参数,以及当前帧预设邻域范围内的帧中每一帧的频域能量分布参数和音调参数,根据音调参数判断当前帧是否处于语音段,根据频域能量分布参数判断当前帧是否为语音类杂音,提供了一种根据音频信号的频域能量变化来检测音频信号杂音的方法,从而可以提高音频信号杂音检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一段语音信号的时域波形图;
图2为本发明实施例提供的杂音检测方法实施例一的流程图;
图3A至图3C为本实施例提供的音频信号音调变化示意图
图4为本发明实施例提供的杂音检测方法实施例二的流程图;
图5A至图5C为本实施例提供的杂音检测示意图;
图6A至图6C为本实施例提供的另一杂音检测示意图;
图7为本发明实施例提供的杂音检测方法实施例三的流程图;
图8为本发明实施例提供的杂音检测方法实施例四的流程图;
图9A至图9C为本实施例提供的再一杂音检测示意图;
图10为本发明实施例提供的杂音检测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
音频信号中的杂音可能由于多种原因引起,例如是由于某数字信号处理(DigitalSignal Processing,DSP)芯片失效而引起的,或者是由于丢包引起的,或者是由于噪声引起的。总结起来,音频信号中的杂音主要分为两类,第一类为语音类杂音,由于各种原因使正常的语音信号变成了语音类杂音,可能使正常的语音信号无法被分辨或者听起来很不自然;另一类为非语音类杂音,例如金属音、部分背景噪声、收音机调台声等。
现有的音频信号杂音检测方法是采用时域能量分析的方法,将时域能量发生突变的信号检测为杂音,但对于上述语音类杂音和部分非语音类杂音(例如金属音)而言,时域能量并不会出现突变。因此采用现有的杂音检测方法无法检测出上述杂音。
经过分析可知,杂音的发生虽然不一定会出现时域能量的异常,但一般都伴随着频域能量的异常,因此,本发明实施例提供一种杂音检测方法,通过对音频信号的频域能量变化进行分析,从而检测出音频信号中的杂音。
图2为本发明实施例提供的杂音检测方法实施例一的流程图,如图2所示,本实施例的方法包括:
步骤S201,获取音频信号当前帧的频域能量分布参数,获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数。
具体地,本实施例提供的杂音检测方法是通过对音频信号的频域能量分析从而判断音频信号中的每一帧是否为杂音,但是根据音频信号的特征可知,音频信号中的正常信号或杂音信号一般都是由一段连续的帧组成的,一段正常的音频信号中可能有部分帧的频域能量分布与杂音信号相同,一段杂音信号中也可能有部分帧的频域能量分布与正常音频信号相同。若音频信号的某一帧或有限的几帧的频域能量出现异常,则该帧可能并不是杂音。因此,对音频信号进行检测时,虽然是对音频信号中的每一帧进行检测,但是需要使用每一帧及其相邻的若干帧的相关参数共同进行分析,才能够得到每一帧的检测结果。
因此,本实施例提供的杂音检测方法虽然是针对音频信号的每一帧进行检测,首先需要获取当前帧的频域能量分布参数,以及获取当前帧预设邻域范围内的帧中每一帧的频域能量分布参数。一般地,音频信号都是以时域信号的形式表示,为了获取音频信号的频域能量分布参数,首先要对时域形式的音频信号进行快速傅里叶(Fast FourierTransformation,FFT)变换,得到音频信号的频域表示形式。
然后对音频信号的频域进行分析,主要是分析频域能量的变化趋势,得到当前帧的频域能量分布参数,以及当前帧预设邻域范围内的帧中每一帧的频域能量分布参数。当前帧的频域能量分布参数,以及当前帧预设邻域范围内的帧中每一帧的频域能量分布参数表征了与当前帧以及当前帧预设邻域范围内的帧中每一帧频域能量相关的各种参数,包括但不限于当前帧以及当前帧预设邻域范围内的帧中每一帧的频域能量分布特性、频域能量变化趋势、频域能量分布比值的导数极大值分布参数分布特性等。
步骤S202,获取所述当前帧的音调参数,获取所述当前帧的预设邻域范围内的帧中每一帧的音调参数。
具体地,由于音频信号中的杂音分为语音类杂音和非语音类杂音,对于语音类杂音和非语音类杂音而言,其频域能量分布特征存在差别,仅根据当前帧的频域能量分布参数,以及当前帧预设邻域范围内的帧中每一帧的频域能量分布参数,还不能很精确地判断当前帧是否为杂音。将音频信号中包含语音信号的部分称为语音段,包含非语音信号的部分称为非语音段,从音频信号的频域特征来看,音频信号中的语音段和非语音段的主要区别在于,语音段中包含较多的音调,从而可以根据音频信号中的音调参数来确定音频信号的当前帧是否位于语音段。
本实施例中的音调参数可以是能够表征音频信号中音调特征的任一种参数,例如音调参数为音调个数等。以当前帧为例,获取音调参数的步骤为:首先,根据FFT变换结果获取当前帧功率密度谱;其次,确定当前帧功率密度谱中的局部极大点;最后,针对以每一个局部极大点为中心的若干功率密度谱系数进行分析,进一步确定该局部极大点是否为真正的音调分量。
如何选取以局部极大点为中心的若干功率密度谱系数进行分析,是比较灵活的,可以根据算法需要设定。例如可以采用如下方式实现:设功率密度谱的局部极大点为pf,其中0<f<(F/2-1)。如果局部极大点Pf满足以下条件:pf-p(f±i)≥7dB,其中i=2,3,…,10,即判断局部极大点与相邻的其他点的数值差异较大时,本实施例中差异为7dB,则说明该局部极大点是真正的音调分量。统计音调分量的个数,得到当前帧音调个数作为音调参数。
步骤S203,根据所述当前帧的音调参数以及所述当前帧的预设邻域范围内的帧中每一帧的音调参数确定所述当前帧处于语音段或非语音段。
具体地,获取当前帧以及当前帧预设邻域范围内的帧中每一帧的音调参数后,可以对各帧的音调参数进行分析,从而确定当前帧处于语音段或非语音段。
语音信号和非语音信号的区别主要在于,语音信号中的音调参数分布符合一定的规律,例如在一定范围内的帧中,存在音调分量较多的帧;或者在一定范围的帧中,各帧的音调分量平均值较多;或者在一定范围的帧中,音调分量超过一定阈值的帧的数量较多等。因此可以对当前帧以及当前帧预设邻域范围内的帧中每一帧的音调参数进行分析,若符合语音信号的相应特点,则可以确定当前帧处于语音段。
步骤S204,若所述当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定所述当前帧为语音类杂音。
具体地,对于音频信号而言,正常的音频信号帧在频域能量上具有一些固有的特征,杂音信号帧从频域能量分布参数来看,与正常的音频信号帧存在一定的偏差。因此在确定当前帧处于语音段,并获取了当前帧的频域能量分布参数、当前帧预设邻域范围内的帧的频域能量分布参数后,可以通过分析当前帧的频域能量分布参数、当前帧预设邻域范围内的帧的频域能量分布参数是否呈现杂音信号的特征来确定的当前帧是否为语音类杂音。从而完成了音频信号杂音检测。
由于正常的处于语音段的音频信号的频域能量分布参数分别具有不同的特征,因此当确定当前帧处于语音段之后,进一步地继续判断当前帧的频域能量分布参数,以及当前帧预设邻域范围内的每一帧的频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量是否大于等于第一阈值。
也就是说将当前帧以及当前帧预设邻域范围内的每一帧作为一个帧集合,分别判断帧集合中每一帧的频域能量分布参数是否位于预设的语音类杂音频域能量分布参数区间中,并统计位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数是否大于等于第一阈值,若大于等于第一阈值,则确定当前帧为语音类杂音。
本实施例提供的杂音检测方法,通过获取当前帧的频域能量参数和音调参数,以及当前帧预设邻域范围内的帧中每一帧的频域能量分布参数和音调参数,根据音调参数判断当前帧是否处于语音段,根据频域能量分布参数判断,从而判断当前帧是否为语音类杂音,提供了一种根据音频信号的频域能量变化来检测音频信号杂音的方法,从而可以提高音频信号杂音检测的准确性。
下面提供一种根据当前帧的音调参数以及当前帧预设邻域范围内的帧中每一帧的音调参数确定当前帧是否处于语音段的具体方法。这种具体方法是:获取音调个数最大值,所述音调个数最大值为在所述当前帧及所述当前帧预设邻域范围内的帧中,音调个数最大的帧的音调个数;若所述音调个数最大值大于等于预设的语音阈值,则确定所述当前帧处于语音段,否则确定所述当前帧处于非语音段。
具体地,根据音频信号的特征可知,语音信号一般都是一段连续的带有音调的帧组成的,其中语音信号中包括清音和浊音,清音中没有音调,浊音中音调较多。因此若音频信号的某一帧或有限的几帧音调数量较多,则该帧可能并不是语音段内的帧;同理,若音频信号的某一帧或有限的几帧音调数量较少,则该帧也可能是语音段内的帧。因此,与对音频信号的频域能量进行分析时类似,在对当前帧是否处于语音段的判断时,同样是获取当前帧以及当前帧预设邻域范围内的帧中每一帧的音调个数,并进行分析。并且只需要获取当前帧及当前帧预设邻域范围内的帧中,音调个数最大的帧的音调个数,并将该音调个数作为当前帧的音调个数最大值,判断当前帧的音调个数最大值是否满足语音信号的特征即可。
获取当前帧及当前帧预设邻域范围内的帧中,音调个数最大的帧的音调个数,即音调个数最大值,也是基于音频信号的频域特征进行的,首先还是基于音频信号的频域表示形式,获取当前帧的音调个数,以num_tonal_flag表示。然后获取当前帧邻域范围内的帧中每一帧的音调个数最大值,当前帧的邻域范围可以预先设置,例如将当前帧的邻域范围设置为20帧,则获取当前帧及当前帧邻域范围内的帧的音调个数最大值时,检测当前帧前10帧和当前帧后10帧范围内每一帧的音调个数,将其中音调个数最大的值作为当前帧及的音调个数最大值,以avg_num_tonal_flag表示。根据当前帧的音调个数最大值对当前帧是否处于语音段进行判断,若avg_num_tonal_flag≥N1,则确定当前帧处于语音段,若avg_num_tonal_flag<N1,则确定当前帧处于非语音段,其中N1为语音段音调个数阈值。
图3A至图3C为本实施例提供的音频信号音调变化示意图,其中图3A为一段音频信号的时域波形,其中横轴为样本点,纵轴为归一化的幅度。从图3A中很难将语音段和非语音段区分开。图3B为图3A所示音频信号的语谱图,是对图3A所示音频信号进行FFT变换后得到的,其中横轴为帧数,在时域上与图3A中的样本点是对应的,纵轴为频率,单位Hz。图3B中虚线圈范围内的帧能够检测出较多的音调分量,因此虚线圈内的范围31内即为语音段。图3C为图3A所示的音频信号的音调个数变化曲线,横轴为帧数,纵轴为音调个数值。图3C中实线部分的曲线表示每一帧的音调个数num_tonal_flag,虚线部分的曲线表示每一帧及其预设邻域范围内的帧的音调个数最大值avg_num_tonal_flag,纵轴上N1表示语音段阈值。从图3C中即可区分出音频信号的语音段和非语音段。
图4为本发明实施例提供的杂音检测方法实施例二的流程图,如图4所示,本实施例的方法包括:
步骤S401,获取所述当前帧的频域能量分布比值,获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值。
具体地,在图2所示实施例的基础上,本实施例这里给出一种具体的获取当前帧的帧频域能量分布参数,以及当前帧预设邻域范围内的帧中每一帧的频域能量分布参数,并检测语音类杂音的方法。其中频域能量分布参数为频域能量分布比值的导数极大值分布参数。
首先获取当前帧的频域能量分布比值,音频信号的频域能量分布比值用于表征当前帧能量在频域上的分布特性。
设音频信号的当前帧为第k帧,当前帧信号的频域能量分布曲线一般性公式为:
其中ratio_energyk(f)表示第k帧的频域能量分布比值,Re_fft(i)表示第k帧的FFT变换的实部,Im_fft(i)表示第k帧的FFT变换的虚部。上式中的分母表示第k帧在i∈[0,(Flim-1)]所对应的频域上的能量总和;分子表示第k帧在i∈[0,f]所对应的频率范围内的能量总和。
Flim的取值可以根据经验设定,例如可以设置为Flim=F/2,F为FFT的变换大小,则公式(1)转换为公式(2)。
公式(2)中的分母表示第k帧的总能量,分子表示第k帧在i∈[0,f]所对应的频率范围内的能量总和。
根据上述方法获取当前帧预设邻域范围内的帧中每一帧的频域能量分布比值,当前帧的邻域范围可以预先设置,例如将当前帧的邻域范围设置为20帧,当前帧为第k帧,则当前帧的邻域范围为[k-10,k+10]。
步骤S402,计算所述当前帧的频域能量分布比值的导数,计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数。
具体地,为了进一步突出当前帧及当前帧预设邻域范围内的帧中每一帧的能量在频域上的分布特性,接下来计算当前帧的频域能量分布比值的导数,以及当前帧预设邻域范围内的帧中每一帧的频域能量分布比值的导数。计算频域能量分布比值的导数可以有很多方法,在此以拉格朗日(Lagrange)数值微分方法为例进行说明。
设音频信号的当前帧为第k帧,利用Lagrange数值微分方法计算当前帧频域能量分布比值的导数的一般性公式为:
其中,ratio_energy′k(f)表示第k帧的频域能量分布比值的导数,ratio_energyk (n)表示第k帧的能量分布比值,N表示公式(3)中数值微分阶数,
N的取值可以根据经验设定,例如可以设置为N=7,则公式(3)转换为下式。
其中,f∈[3,(F/2-4)]。当f∈[0,2]或f∈[(F/2-3),(F/2-1)]时,ratio_energy′k(f)设置为0。
同样地,根据上述方法获取当前帧预设邻域范围内的帧中每一帧的频域能量分布比值的导数。
步骤S403,根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数,根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数。
具体地,最后,根据当前帧的频域能量分布比值的导数得到当前帧的频域能量分布比值的导数极大值分布参数,以及根据当前帧预设邻域范围内的帧中每一帧的频域能量分布比值的导数,得到当前帧预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数。频域能量分布比值的导数极大值分布参数用参数pos_max_L7_n表示,其中n表示频域能量分布比值的导数的第n大的值,pos_max_L7_n表示频域能量分布比值的导数的第n大的值所处的谱线位置。。
步骤S404,获取所述当前帧的音调参数,获取所述当前帧的预设邻域范围内的帧中每一帧的音调参数。
具体地,本步骤与步骤S202相同。
步骤S405,根据所述当前帧的音调参数以及所述当前帧的预设邻域范围内的帧中每一帧的音调参数确定所述当前帧处于语音段或非语音段。
具体地,本步骤与步骤S203相同。
步骤S406,若所述当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第二阈值,则确定所述当前帧为语音类杂音。
具体地,根据频域能量分布比值的导数极大值分布参数可以直观地得到当前帧以及当前帧预设邻域范围内的帧中每一帧的频域能量变化规律,从而可以根据当前帧及当前帧预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数确定当前帧是否为杂音。可以预先设置频域能量分布比值的导数极大值分布参数的杂音区间,若判断音调个数最大值大于等于预设的语音阈值,即当前帧处于语音段,则再统计当前帧及当前帧预设邻域范围内的帧中,频域能量分布比值的导数极大值分布参数位于预设的频域能量分布比值的导数极大值分布参数的杂音区间的帧的数量,并判断该数量是否大于等于预设的第二阈值,若大于等于第二阈值则才确定当前帧为语音类杂音。也就是说,若当前帧处于语音段,只有判断当前帧及附近若干帧中,频域能量发生突变的帧的数量很多时,才确定当前帧为语音类杂音。
本步骤是将当前帧及当前帧预设邻域范围内的帧作为一个帧集合,并分别提取当前帧对应的帧集合中满足条件pos_max_L7_1≤F2的语音帧的个数,记做num_max_pos_lf;满足条件0<pos_max_L7_1<F1的语音帧的个数,记做num_min_pos_lf,其中F1和F2分别为语音帧的频域能量分布比值的导数极大值分布参数区间的下限和上限。进一步地判断当前帧是否同时满足条件num_max_pos_lf≥N2以及num_min_pos_lf≤N3,即判断频域能量分布比值的导数极大值分布参数位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的帧的数量是否超过第二阈值,其中N2和N3分别为预设的语音类杂音频域能量分布比值的导数极大值分布参数阈值区间,满足上述阈值区间即大于等于第二阈值。
如图5A至图5C所示,图5A至图5C为本实施例提供的杂音检测示意图,其中图5A为一段音频信号的时域波形,其中横轴为样本点,纵轴为归一化的幅度,以虚线51为界,虚线51左边为语音类杂音,虚线51右边为正常语音。从图5A中很难将语音类杂音和正常语音区分开。图5B为图5A所示音频信号的语谱图,是对图5A所示音频信号进行FFT变换后得到的,其中横轴为帧数,在时域上与图5A中的样本点是对应的,纵轴为频率,单位Hz。从图5B中可以看出整个音频信号中的音调都较多。图5C为图5A所示的音频信号的频域能量分布比值的导数最大值的分布曲线,横轴为帧数,纵轴为pos_max_L7_1值,纵轴上的F1和F2分别为语音帧的频域能量分布比值的导数极大值分布参数区间的下限和上限。从图5C中可以看出,与虚线51为界,虚线51左边的区域内pos_max_L7_1的取值基本局限在F1和F2之间,而虚线51右边的区域内pos_max_L7_1的取值则不受限制。
进一步地,图4示出了频域能量分布参数为频域能量分布比值的导数极大值分布参数时,根据频域能量分布比值的导数极大值分布参数判断当前帧是否为语音类杂音的具体方法。在图2所示实施例的一种具体实现方式中,频域能量分布参数包括频域能量分布比值和频域能量分布比值的导数极大值分布参数,也就是说,当判断当前帧处于语音段后,根据频域能量分布比值的导数极大值分布参数和频域能量分布比值共同判断当前帧是否为语音类杂音。
具体地,绝大部分正常类语音的pos_max_L7_1取值范围类似于图5C中所示的正常语音,因此在大部分情况下,通过图4所示实施例的判断即可检测出音频信号中的语音类杂音。但对于少部分正常语音,其pos_max_L7_1的取值范围也基本位于F1和F2之间,对于这些正常语音,若仅根据实施例4提供的方法进行判断,则有可能将正常语音误判为语音类杂音。
因此,在本实现方式中,所述若当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定所述当前帧为语音类杂音,包括:若当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于所述第二阈值,且在全部的所述频域能量分布比值中,位于预设的语音类杂音频域能量分布比值区间的频域能量分布比值的数量大于等于第三阈值,则确定所述当前帧为语音类杂音。
在本实现方式中,首先根据图4所示实施例中的步骤S401至步骤S405进行处理。然后,在执行步骤S406时,判断在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于所述第二阈值后,并不直接确定当前帧为语音类杂音,而是继续判断在全部的所述频域能量分布比值中,位于预设的语音类杂音频域能量分布比值区间的频域能量分布比值的数量大于等于第三阈值,若同时满足上述两个条件,才能确定所述当前帧为语音类杂音。
也就是说,在步骤S406的基础上,继续将当前帧及当前帧预设邻域范围内的帧中的每一帧作为一个帧集合,并分别提取当前帧对应的帧集合中满足条件ratio_energyk(lf)>R2的语音帧的个数,记做num_max_ratio_energy_lf;满足条件ratio_energyk(lf)≤R1的语音帧的个数,记做num_min_ratio_energy_lf,其中R1和R2分别为语音类杂音频域能量分布比值区间的下限和上限。其中ratio_energyk(lf)用于表征当前帧及当前帧预设邻域范围内的帧频域能量在较低频率区间的分布特性,在本实施例中,设置lf=F/2。进一步地判断当前帧是否同时满足条件num_max_ratio_energy_lf<N4以及num_min_ratio_energy_lf≤N5,即判频域能量分布比值位于预设的语音类杂音频域能量分布比值区间的帧的数量是否大于等于第三阈值,其中N4和N5分别为预设的语音类杂音区间频域能量分布比值阈值区间,满足上述阈值区间即大于等于第三阈值。
如图6A至图6C所示,图6A至图6C为本实施例提供的另一杂音检测示意图,其中图6A为一段音频信号的时域波形,其中横轴为样本点,纵轴为归一化的幅度,以虚线61为界,虚线61左边为语音类杂音,虚线61右边为正常语音。从图6A中很难将语音类杂音和正常语音区分开。图6B为图6A所示音频信号的频域能量分布比值的导数最大值的分布曲线,横轴为帧数,纵轴为pos_max_L7_1值,纵轴上的F1和F2分别为语音帧的频域能量分布比值的导数极大值分布参数区间的下限和上限。从图6B中可以看出,范围62内的正常语音帧的pos_max_L7_1取值范围也基本处于F1和F2区间范围内,因此若仅通过对pos_max_L7_1进行判断,则可能对这部分正常语音帧产生误判。图6C为图6A所示音频信号的频域能量分布比值分布曲线,其中横轴为帧数,纵轴为ratio_energyk(lf)值,纵轴上的R1和R2分别为语音帧的频域能量分布比值区间的下限和上限,从图6C中可以看出,虚线61左边的语音类杂音的取值基本局限在R1和R2之间,而虚线61右边的正常语音帧,包括范围62内的正常语音帧,取值范围则不受限制。
呈上所述,若当前帧及当前帧预设邻域范围内的帧中,频域能量分布比值的导数极大值分布参数位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的帧的数量超过第二阈值,并且当前帧及当前帧预设邻域范围内的帧中,频域能量分布比值位于预设的语音类杂音频域能量分布比值区间中的帧的数量超过第三阈值,则可以确定当前帧为语音类杂音。
图2所示实施例提供的杂音检测方法中,给出了根据音频信号的频域能量分布特征检测语音类杂音的具体方法。但音频信号中除了语音类杂音,还包括非语音类杂音,在图2所示实施例的基础上,本发明还提供对非语音类杂音的检测方法。
图7为本发明实施例提供的杂音检测方法实施例三的流程图,如图7所示,本实施例的方法在图2所示实施例的基础上,还包括:
步骤S701,将所述当前帧及所述当前帧预设邻域范围内的每一帧作为一个帧集合。
具体地,在判断当前帧是否为非语音类杂音时,需要将当前帧及当前帧预设邻域范围内的每一帧作为一个集合,并对该集合中所有的帧进行判断。
步骤S702,将所述帧集合中的每一帧作为所述当前帧,获取所述帧集合中,处于非语音段,且在全部的所述频域能量分布参数中,位于预设的非语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第四阈值的帧的数量N,所述N为正整数。
具体地,对步骤S701中的帧集合进行判断时,需要判断该帧集合中同时满足以下两个条件的帧的数量是否大于等于第五阈值,若大于等于第五阈值则确定当前帧为非语音类杂音。上述两个条件第一为处于非语音段、第二为频域能量分布参数位于预设的非语音类杂音频域能量分布参数区间的数量大于等于第四阈值。在进行判断时,需要将该帧集合中的所有帧分别作为当前帧来进行判断。统计该帧集合中同时满足上述两个条件的帧的数量N。
步骤S703,若所述N大于等于第五阈值,则确定所述当前帧为非语音类杂音。
具体地,若N的数量大于等于第五阈值,则可以确定当前帧为非语音类杂音。
图8为本发明实施例提供的杂音检测方法实施例四的流程图,如图8所示,本实施例的方法,包括:
步骤S801,获取所述当前帧的频域能量分布比值,获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值。
具体地,本实施例用于检测音频信号中的非语音类杂音,在图7所示实施例的基础上,给出一种具体的获取当前帧的帧频域能量分布参数,以及当前帧预设邻域范围内的帧中每一帧的频域能量分布参数,并检测非语音类杂音的方法。其中频域能量分布参数为频域能量分布比值的导数极大值分布参数。本步骤与步骤S401相同。
步骤S802,计算所述当前帧的频域能量分布比值的导数,计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数。
具体地,本步骤与步骤S402相同。
步骤S803,根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数,根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数。
具体地,本步骤与步骤S403相同。
步骤S804,获取所述当前帧的音调参数,获取所述当前帧的预设邻域范围内的帧中每一帧的音调参数。
具体地,本步骤与步骤S404相同。
步骤S805,根据所述当前帧的音调参数以及所述当前帧的预设邻域范围内的帧中每一帧的音调参数确定所述当前帧处于语音段或非语音段
具体地,本步骤与步骤S405相同。
步骤S806,将所述当前帧及所述当前帧预设邻域范围内的每一帧作为一个帧集合。
具体地,本步骤与步骤S701相同。
步骤S807,获取所述帧集合中,处于非语音段,频域总能量大于等于第六阈值,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的非语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第七阈值的帧的数量M,所述M为正整数。
具体地,在判断当前帧是否为非语音类杂音时,需要将当前帧及当前帧预设邻域范围内的帧作为一个集合,并对该集合中所有的帧进行判断,判断该集合中同时满足以下三个条件的帧的数量是否大于等于第八阈值,若大于等于第八阈值则确定当前帧为非语音类杂音。上述三个条件第一处于非语音段、第二为频域总能量大于等于第六阈值、第三为频域能量分布比值的导数极大值分布参数位于预设的非语音类杂音频域能量分布比值的导数极大值分布参数区间的数量大于等于第七阈值。在进行判断时,需要将该帧集合中的所有帧分别作为当前帧来进行判断。统计该帧集合中同时满足上述两个条件的帧的数量M。具体判断方法如下所述。
将当前帧及当前帧预设邻域范围内的帧作为一个帧集合,并分别提取当前帧对应的帧集合中满足条件pos_max_L7_1≥F3、并且频域总能量大于第六阈值的非语音帧的个数,记做num_pos_hf,其中F3为非语音类杂音的频域能量分布比值的导数极大值分布参数区间的下限,第六阈值为语音类杂音能量下限。进一步地判断当前帧是否同时满足条件num_pos_hf≥N6,其中N6为第七阈值。
如图9A至图9C所示,图9A至图9C为本实施例提供的再一杂音检测示意图,其中图9A为一段音频信号的时域波形,其中横轴为样本点,纵轴为归一化的幅度,以虚线91为界,虚线91左边为正常语音,虚线91右边为非语音类杂音。从图9A中很难将正常语音和非语音类杂音区分开。图9B为图9A所示的音频信号的频域能量分布比值的导数最大值的分布曲线,横轴为帧数,纵轴为pos_max_L7_1值,纵轴上的F3为非语音帧的频域能量分布比值的导数极大值分布参数区间的下限,从图9B中可以看出,正常的语音帧和非语音类杂音的频域能量分布比值的导数极大值分布参数变化规律类似,因此需要按照本步骤所示的方法进行判断。图9C为num_pos_hf参数值曲线,其中横轴为帧数,纵轴为num_pos_hf值,从图9C中可以看出,虚线91右边的非语音类杂音的num_pos_hf值明显大于N6。
步骤S808,若所述M大于等于第八阈值,则确定所述当前帧为非语音类杂音。
具体地,呈上所述,若当前帧即当前帧预设邻域范围内的每一帧组成的帧集合中,在满足步骤S806中条件的帧M的数量大于等于第八阈值,则确定当前帧为非语音类杂音。
综上所示,本发明实施例提供的杂音检测方法,通过分析音频信号的频域能量分布参数,能够检测出许多仅通过时域波形分析难以区分的杂音,进一步地,还可以基于音调参数区分出语音类杂音和非语音类杂音,从而可以在检测出杂音后,针对性地对杂音进行处理。
进一步地,还可以将本发明实施例提供的杂音检测方法应用于音频质量评估(Voice Quality Monitor,VQM)。由于现有的VQM评估模型不能及时覆盖所有新出现的语音类杂音,同时也无法检测出所有不需要打分的非语音类杂音,对于需要打分的语音类杂音,可能会将其误判为正常语音,打出较高的分数;而对于未检测出来的非语音类杂音,同样会对其进行打分,从而给出错误的评估结果。若应用本发明实施例提供的杂音检测方法,则可以先检测出语音类杂音和非语音类杂音,避免将其送入打分模块进行打分,从而提高VQM的评估质量。
图10为本发明实施例提供的杂音检测装置的结构示意图,如图10所示,本实施例提供的杂音检测装置包括:
获取模块111,用于获取音频信号当前帧的频域能量分布参数,获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数;获取所述当前帧的音调参数,获取所述当前帧的预设邻域范围内的帧中每一帧的音调参数;根据所述当前帧的音调参数以及所述当前帧的预设邻域范围内的帧中每一帧的音调参数确定所述当前帧处于语音段或非语音段。
检测模块112,用于若所述当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定所述当前帧为语音类杂音。
本发明实施例提供的杂音检测装置用于实现图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
可选的,所述频域能量分布参数为频域能量分布比值的导数极大值分布参数,获取模块111,具体用于获取所述当前帧的频域能量分布比值;计算所述当前帧的频域能量分布比值的导数;根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数;获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值;计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数;根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数;检测模块112,具体用于若所述当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第二阈值,则确定所述当前帧为语音类杂音。
可选的,所述频域能量分布参数包括频域能量分布比值和频域能量分布比值的导数极大值分布参数,获取模块111,具体用于获取所述当前帧的频域能量分布比值;计算所述当前帧的频域能量分布比值的导数;根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数;获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值;计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数;根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数;检测模块112,具体用于若所述当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于所述第二阈值,且在全部的所述频域能量分布比值中,位于预设的语音类杂音频域能量分布比值区间的频域能量分布比值的数量大于等于第三阈值,则确定所述当前帧为语音类杂音。
可选的,检测模块112,还用于将所述当前帧及所述当前帧预设邻域范围内的每一帧作为一个帧集合;将所述帧集合中的每一帧作为所述当前帧,获取所述帧集合中,处于非语音段,且在全部的所述频域能量分布参数中,位于预设的非语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第四阈值的帧的数量N,所述N为正整数;若所述N大于等于第五阈值,则确定所述当前帧为非语音类杂音。
可选的,所述频域能量分布参数为频域能量分布比值的导数极大值分布参数,获取模块111,具体用于获取所述当前帧的频域能量分布比值;计算所述当前帧的频域能量分布比值的导数;根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数;获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值;计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数;根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数;检测模块112,具体用于获取所述帧集合中,处于非语音段,频域总能量大于等于第六阈值,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的非语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第七阈值的帧的数量M,所述M为正整数;若所述M大于等于第八阈值,则确定所述当前帧为非语音类杂音。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.一种杂音检测方法,其特征在于,包括:
获取音频信号当前帧的频域能量分布参数,获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数;
获取所述当前帧的音调参数,获取所述当前帧的预设邻域范围内的帧中每一帧的音调参数;
根据所述当前帧的音调参数以及所述当前帧的预设邻域范围内的帧中每一帧的音调参数确定所述当前帧处于语音段或非语音段;
若所述当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定所述当前帧为语音类杂音;
其中,所述获取音频信号当前帧的频域能量分布参数,包括:
获取所述当前帧的频域能量分布比值;
计算所述当前帧的频域能量分布比值的导数;
根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数;
所述获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数,包括:
获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值;
计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数;
根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数。
2.根据权利要求1所述的方法,其特征在于,所述若所述当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定所述当前帧为语音类杂音,包括:
若所述当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第二阈值,则确定所述当前帧为语音类杂音。
3.根据权利要求1所述的方法,其特征在于,所述若所述当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定所述当前帧为语音类杂音,包括:
若所述当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于所述第二阈值,且在全部的所述频域能量分布比值中,位于预设的语音类杂音频域能量分布比值区间的频域能量分布比值的数量大于等于第三阈值,则确定所述当前帧为语音类杂音。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述当前帧及所述当前帧预设邻域范围内的每一帧作为一个帧集合;
将所述帧集合中的每一帧作为所述当前帧,获取所述帧集合中,处于非语音段,且在全部的所述频域能量分布参数中,位于预设的非语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第四阈值的帧的数量N,所述N为正整数;
若所述N大于等于第五阈值,则确定所述当前帧为非语音类杂音。
5.根据权利要求4所述的方法,其特征在于,所述获取所述帧集合中,处于非语音段,且在全部的所述频域能量分布参数中,位于预设的非语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第四阈值的帧的数量N,所述N为正整数,包括:
获取所述帧集合中,处于非语音段,频域总能量大于等于第六阈值,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的非语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第七阈值的帧的数量M,所述M为正整数;
所述若所述N大于等于第五阈值,则确定所述当前帧为非语音类杂音,包括:
若所述M大于等于第八阈值,则确定所述当前帧为非语音类杂音。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述获取所述当前帧的音调参数,获取所述当前帧的预设邻域范围内的帧中每一帧的音调参数,包括:
获取音调个数最大值,所述音调个数最大值为在所述当前帧及所述当前帧预设邻域范围内的帧中,音调个数最大的帧的音调个数;
所述根据所述当前帧的音调参数以及所述当前帧的预设邻域范围内的帧中每一帧的音调参数确定所述当前帧处于语音段或非语音段,包括:
若所述音调个数最大值大于等于预设的语音阈值,则确定所述当前帧处于语音段,否则确定所述当前帧处于非语音段。
7.一种杂音检测装置,其特征在于,包括:
获取模块,用于获取音频信号当前帧的频域能量分布参数,获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数;获取所述当前帧的音调参数,获取所述当前帧的预设邻域范围内的帧中每一帧的音调参数;根据所述当前帧的音调参数以及所述当前帧的预设邻域范围内的帧中每一帧的音调参数确定所述当前帧处于语音段或非语音段;
检测模块,用于若所述当前帧处于语音段,且在全部的所述频域能量分布参数中,位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值,则确定所述当前帧为语音类杂音;
其中,所述获取模块,具体用于获取所述当前帧的频域能量分布比值;计算所述当前帧的频域能量分布比值的导数;根据所述当前帧的频域能量分布比值的导数得到所述当前帧的频域能量分布比值的导数极大值分布参数;获取所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值;计算所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数;根据所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数得到所述当前帧的预设邻域范围内的帧中每一帧的频域能量分布比值的导数极大值分布参数。
8.根据权利要求7所述的装置,其特征在于,
所述检测模块,具体用于若所述当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第二阈值,则确定所述当前帧为语音类杂音。
9.根据权利要求7所述的杂音检测装置,其特征在于,
所述检测模块,具体用于若所述当前帧处于语音段,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于所述第二阈值,且在全部的所述频域能量分布比值中,位于预设的语音类杂音频域能量分布比值区间的频域能量分布比值的数量大于等于第三阈值,则确定所述当前帧为语音类杂音。
10.根据权利要求7所述的杂音检测装置,其特征在于,所述检测模块,还用于将所述当前帧及所述当前帧预设邻域范围内的每一帧作为一个帧集合;将所述帧集合中的每一帧作为所述当前帧,获取所述帧集合中,处于非语音段,且在全部的所述频域能量分布参数中,位于预设的非语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第四阈值的帧的数量N,所述N为正整数;若所述N大于等于第五阈值,则确定所述当前帧为非语音类杂音。
11.根据权利要求10所述的杂音检测装置,其特征在于,
所述检测模块,具体用于获取所述帧集合中,处于非语音段,频域总能量大于等于第六阈值,且在全部的所述频域能量分布比值的导数极大值分布参数中,位于预设的非语音类杂音频域能量分布比值的导数极大值分布参数区间的频域能量分布比值的导数极大值分布参数的数量大于等于第七阈值的帧的数量M,所述M为正整数;若所述M大于等于第八阈值,则确定所述当前帧为非语音类杂音。
12.根据权利要求7~11任一项所述的装置,其特征在于,所述获取模块,具体用于获取音调个数最大值,所述音调个数最大值为在所述当前帧及所述当前帧预设邻域范围内的帧中,音调个数最大的帧的音调个数;若所述音调个数最大值大于等于预设的语音阈值,则确定所述当前帧处于语音段,否则确定所述当前帧处于非语音段。
CN201410326739.1A 2014-07-10 2014-07-10 杂音检测方法和装置 Active CN105336344B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410326739.1A CN105336344B (zh) 2014-07-10 2014-07-10 杂音检测方法和装置
EP15818398.8A EP3136389B1 (en) 2014-07-10 2015-01-28 Noise detection method and apparatus
PCT/CN2015/071725 WO2016004757A1 (zh) 2014-07-10 2015-01-28 杂音检测方法和装置
US15/380,163 US10089999B2 (en) 2014-07-10 2016-12-15 Frequency domain noise detection of audio with tone parameter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410326739.1A CN105336344B (zh) 2014-07-10 2014-07-10 杂音检测方法和装置

Publications (2)

Publication Number Publication Date
CN105336344A CN105336344A (zh) 2016-02-17
CN105336344B true CN105336344B (zh) 2019-08-20

Family

ID=55063552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410326739.1A Active CN105336344B (zh) 2014-07-10 2014-07-10 杂音检测方法和装置

Country Status (4)

Country Link
US (1) US10089999B2 (zh)
EP (1) EP3136389B1 (zh)
CN (1) CN105336344B (zh)
WO (1) WO2016004757A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107086039B (zh) * 2017-05-25 2021-02-09 北京小鱼在家科技有限公司 一种音频信号处理方法及装置
KR102565447B1 (ko) * 2017-07-26 2023-08-08 삼성전자주식회사 청각 인지 속성에 기반하여 디지털 오디오 신호의 이득을 조정하는 전자 장치 및 방법
CN109616098B (zh) * 2019-02-15 2022-04-01 嘉楠明芯(北京)科技有限公司 基于频域能量的语音端点检测方法和装置
CN109841223B (zh) * 2019-03-06 2020-11-24 深圳大学 一种音频信号处理方法、智能终端及存储介质
JP7332518B2 (ja) * 2020-03-30 2023-08-23 本田技研工業株式会社 会話支援装置、会話支援システム、会話支援方法およびプログラム
CN112163117A (zh) * 2020-09-18 2021-01-01 维沃移动通信有限公司 杂音检测方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1103141C (zh) * 1994-04-01 2003-03-12 索尼公司 信息编码方法和设备、信息解码方法和设备、信息传输方法
CN1758331A (zh) * 2005-10-31 2006-04-12 浙江大学 基于基音频率的快速音频分割方法
CN1985301A (zh) * 2004-05-25 2007-06-20 诺基亚公司 用于多路重合噪声检测的***和方法
CN101872616A (zh) * 2009-04-22 2010-10-27 索尼株式会社 端点检测方法以及使用该方法的***
CN102804260A (zh) * 2009-06-19 2012-11-28 富士通株式会社 声音信号处理装置以及声音信号处理方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US599592A (en) * 1898-02-22 bom an
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5995924A (en) 1997-05-05 1999-11-30 U.S. West, Inc. Computer-based method and apparatus for classifying statement types based on intonation analysis
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US6263306B1 (en) * 1999-02-26 2001-07-17 Lucent Technologies Inc. Speech processing technique for use in speech recognition and speech coding
US20020103636A1 (en) * 2001-01-26 2002-08-01 Tucker Luke A. Frequency-domain post-filtering voice-activity detector
CA2420129A1 (en) * 2003-02-17 2004-08-17 Catena Networks, Canada, Inc. A method for robustly detecting voice activity
US20070096961A1 (en) * 2003-11-26 2007-05-03 Shiro Sakiyama Signal processing device
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
CN101221757B (zh) * 2008-01-24 2012-02-29 中兴通讯股份有限公司 高频杂音处理方法及分析方法
CN101645265B (zh) * 2008-08-05 2011-07-13 中兴通讯股份有限公司 一种音频类别的实时识别方法及装置
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
US8666734B2 (en) * 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
WO2011049514A1 (en) * 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Method and background estimator for voice activity detection
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
EP2656341B1 (en) * 2010-12-24 2018-02-21 Huawei Technologies Co., Ltd. Apparatus for performing a voice activity detection
WO2013118192A1 (ja) * 2012-02-10 2013-08-15 三菱電機株式会社 雑音抑圧装置
WO2013125257A1 (ja) * 2012-02-20 2013-08-29 株式会社Jvcケンウッド 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法
WO2013142726A1 (en) * 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Determining a harmonicity measure for voice processing
CN103903633B (zh) * 2012-12-27 2017-04-12 华为技术有限公司 检测语音信号的方法和装置
CN105338148B (zh) * 2014-07-18 2018-11-06 华为技术有限公司 一种根据频域能量对音频信号进行检测的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1103141C (zh) * 1994-04-01 2003-03-12 索尼公司 信息编码方法和设备、信息解码方法和设备、信息传输方法
CN1985301A (zh) * 2004-05-25 2007-06-20 诺基亚公司 用于多路重合噪声检测的***和方法
CN1758331A (zh) * 2005-10-31 2006-04-12 浙江大学 基于基音频率的快速音频分割方法
CN101872616A (zh) * 2009-04-22 2010-10-27 索尼株式会社 端点检测方法以及使用该方法的***
CN102804260A (zh) * 2009-06-19 2012-11-28 富士通株式会社 声音信号处理装置以及声音信号处理方法

Also Published As

Publication number Publication date
US10089999B2 (en) 2018-10-02
US20170098455A1 (en) 2017-04-06
EP3136389A1 (en) 2017-03-01
WO2016004757A1 (zh) 2016-01-14
CN105336344A (zh) 2016-02-17
EP3136389B1 (en) 2018-08-01
EP3136389A4 (en) 2017-03-08

Similar Documents

Publication Publication Date Title
CN105336344B (zh) 杂音检测方法和装置
Drugman et al. Joint robust voicing detection and pitch estimation based on residual harmonics
Kadiri et al. Epoch extraction from emotional speech using single frequency filtering approach
Deshmukh et al. Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech
CN109545188A (zh) 一种实时语音端点检测方法及装置
EP2083417B1 (en) Sound processing device and program
Vasilakis et al. Voice pathology detection based eon short-term jitter estimations in running speech
JP2007041593A (ja) 音声信号のハーモニック成分を用いた有声音/無声音分離情報を抽出する方法及び装置
Drugman et al. Maximum voiced frequency estimation: Exploiting amplitude and phase spectra
CN109034046A (zh) 一种基于声学检测的电能表内异物自动识别方法
CN103366759A (zh) 语音数据的测评方法和装置
Jiao et al. Convex weighting criteria for speaking rate estimation
CN103366735A (zh) 语音数据的映射方法和装置
KR20100036893A (ko) 음성 신호를 분석하여 화자를 인식하는 장치 및 그 방법
Sigmund Statistical analysis of fundamental frequency based features in speech under stress
JP5293329B2 (ja) 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
CN103519785B (zh) 基于实时语音多维建模的语音障碍多维测量***及其方法
Prasad et al. Determination of glottal open regions by exploiting changes in the vocal tract system characteristics
Kadiri A quantitative comparison of epoch extraction algorithms for telephone speech
Kitaoka et al. Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance
Reddy et al. Syllable nuclei detection using perceptually significant features
CN104282315B (zh) 音频信号分类处理方法、装置及设备
Jamaludin et al. An improved time domain pitch detection algorithm for pathological voice
CN103839544B (zh) 语音激活检测方法和装置
Guðnason et al. Closed phase estimation for inverse filtering the oral airflow waveform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant