CN104538041B

CN104538041B - 异常声音检测方法及***

Info

Publication number: CN104538041B
Application number: CN201410765322.5A
Authority: CN
Inventors: 杨闯; 周蕾蕾
Original assignee: SHENZHEN ZMODO TECHNOLOGY Co Ltd
Current assignee: Aizhi Technology Shenzhen Co ltd; Zmodo Technology Shenzhen Corp ltd
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2018-07-03
Anticipated expiration: 2034-12-11
Also published as: CN104538041A

Abstract

本发明公开了一种异常声音检测方法和***，通过比较采集的音频信号的每一帧的短时能量与第一短时能量阈值的大小，若大于第一短时能量阈值，则该帧记为第一等级帧，若小于第一短时能量阈值，则比较其短时能量与第二阈值的大小或其过零率与过零率阈值的大小，将短时能量大于第二短时能量阈值或过零率大于过零率阈值的帧记为第二等级帧，若连续为第一等级帧或第二等级帧的帧数量大于N且当前帧为第一等级帧时，则判断声音异常。该方法通过计算短时能量和过零率判断异常声音，由于短时能量和过零率属于时域特征，不涉及频域变换和特征参数的计算，能够降低计算的复杂度。同时，通过对实时采集的音频信息进行处理，能够实时处理分析，及时判断异常。

Description

异常声音检测方法及***

技术领域

本发明涉及声音检测领域，尤其涉及一种异常声音检测方法及***。

背景技术

近年来，安全问题已经成为社会关注的焦点，视频监控***在安防等领域得到了广泛的发展。但是，目前的视频监控***主要是基于视频信号的，视频分析存在一定的局限性。比如，采集到的视频图像质量容易受到天气、光照变化和物体之间相互遮挡等因素的影响，并且图像处理算法复杂，计算复杂度较高。相对于视频信号，音频信号分布非常广泛并包含了大量的信息，具有易于分析和计算复杂度低的特点，可以辅助视频监控***的视频分析。在一些情况下，音频信号甚至比视频信号传达了更重要的信息，比如公共场所的枪声，异常声音能够有效的揭示异常状况以及突发事故，受到越来越多的关注。

异常声音属于非语音信号，目前对异常声音检测的研究还比较缓慢，有学者将异常声音检测技术用于检查健康状况，通过研究人呼吸声音的特征向量来寻找异常声音；有科研人员通过计算每一个声音帧的特征向量与模板进行比较来判断环境中是否有异常声音，这种方法计算量大，实时性不好；还有研究通过计算特征参数和训练来对异常声音进行细致分类，分成***声、枪声和玻璃破碎声等，同样计算量比较大。

发明内容

基于此，有必要针对计算量大的问题，提供一种计算复杂度低的异常声音检测方法及***。

一种异常声音检测方法，包括步骤：

实时采集音频信号；

计算采集的音频信号的每一帧的短时能量和/或过零率；

获取第一短时能量阈值；

依次比较音频信号的每一帧的短时能量与第一短时能量阈值的大小；

若当前帧的短时能量大于第一短时能量阈值，则将当前帧记为第一等级帧；

若当前帧的短时能量小于第一短时能量阈值，则获取第二短时能量阈值和/或过零率阈值，根据第二短时能量阈值或过零率阈值确认是否将前帧记为第二等级帧，确认是否将前帧记为第二等级帧的步骤包括：

若当前帧的短时能量大于第二短时能量阈值或若当前帧的过零率大于过零率阈值，则将当前帧记为第二等级帧；

计录连续为第一等级帧或第二等级帧的帧数量；

判断连续为第一等级帧或第二等级帧的帧数量是否大于N且当前帧是否为第一等级帧，其中，N为预定数量，N为正整数；

若是，则判断声音异常。

在一种实施方式中，若比较当前帧的短时能量小于第二短时能量阈值或若当前帧的过零率小于过零率阈值，则将所记录的连续为第一等级帧或第二等级帧的帧数量初始化为0。

在一种实施方式中，在获取第一短时能量阈值的步骤之前还包括：

自学习音频阈值，计算并保存第一短时能量阈值、第二短时能量阈值和过零率阈值。

在一种实施方式中，自学习音频的步骤，具体包括：

采集用于自学习的音频信号；

计算所采集的音频信号的每一帧的短时能量和过零率；

使用直方图分别统计音频信号的短时能量和过零率；

判断本次自学习时间是否大于预定的学习时间；

若判断本次自学习时间大于预定的学习时间，则根据直方图计算本次学习正常声音的短时能量和过零率，正常声音的短时能量为短时能量直方图中数值最大的组对应的取值范围的中值；正常声音过零率为过零率直方图中数值最大的组对应的取值范围的中值；

判断本次学习是否为初次学习；

若判断本次学习为初次学习，根据正常声音的短时能量和正常声音的过零率计算第一短时能量阈值、第二短时能量阈值和过零率阈值。

在一种实施方式中，根据正常声音的短时能量和正常常声音的过零率计算第一短时能量阈值STEth1、第二短时能量阈值STEth2和过零率阈值ZCRth的公式分别为：

STEth1＝a*STEback

STEth2＝0.5*STEth1

ZCRth＝b*ZCRback

其中，STEback和ZCRback是本次学习的正常声音的短时能量和过零率，a和b是一个常量参数。

在一种实施方式中，若判断本次学习为非初次学习，则根据上次学习得到的正常声音的短时能量和过零率与本次学习得到的正常声音的短时能量和过零率得到更新的正常声音的短时能量和过零率，并根据更新的正常声音的短时能量和过零率更新第一短时能量阈值、第二短时能量阈值和过零率阈值。

在一种实施方式中，若判断本次学习为非初次学习，则根据上次学习得到的正常声音的短时能量和过零率与本次学习得到的正常声音的短时能量和过零率得到更新的正常声音的短时能量STEback和过零率ZCRback的公式为：

STEback＝(1-α)*STEback_last+α*STEback_cur；

ZCRback＝(1-α)*ZCRback_last+α*ZCRback_cur；

其中，STEback_last为上次学习的正常声音短时能量；STEback_cur为本次学习的正常声音的短时能量；α为阈值更新速度；ZCRback_last为上次学习的正常声音过零率；ZCRback_cur为本次学习正常声音的过零率。

一种异常声音检测***，包括：

采集模块，用于实时采集音频信号；

计算模块，用于计算采集的音频信号的每一帧的短时能量和/或过零率；

获取模块，获取第一短时能量阈值；

第一比较模块，用于依次比较音频信号的每一帧的短时能量与第一短时能量阈值的大小；

标记模块，用于当第一比较模块比较当前帧的短时能量大于第一短时能量阈值时，将当前帧记为第一等级帧；

获取模块，还用于当第一比较模块比较当前帧的短时能量小于第一短时能量阈值时，获取第二短时能量阈值和/或获取过零率阈值；

第二比较模块，用于根据第二短时能量阈值或过零率阈值确认是否将前帧记为第二等级帧，具体用于比较当前帧的短时能量与第二短时能量阈值的大小或当前帧的过零率与过零率阈值的大小；

标记模块，还用于当第二比较模块比较当前帧的短时能量大于第二短时能量阈值时或若当前帧的过零率大于过零率阈值，将当前帧记为第二等级帧；

记录模块，用于计录连续为第一等级帧或第二等级帧的帧数量；

判断模块，用于判断连续为第一等级帧或第二等级帧的帧数量是否大于N且当前帧是否为第一等级帧；其中，N为预定数量，N为正整数；

异常判断模块，用于判断模块判断连续为第一等级帧或第二等级帧的帧数量大于N且当前帧为第一等级帧时，判断声音异常。

在一种实施方式中，记录模块还用于，在第二比较模块比较当前帧的短时能量小于第二短时能量阈值或当前帧的过零率小于过零率阈值时，将记录的连续为第一等级帧或第二等级帧的帧数量初始化为0。

在一种实施方式中，该***还包括：

自学习模块，自学习模块用于自学习音频阈值，计算并保存第一短时能量阈值、第二短时能量阈值和过零率阈值。

本发明的异常声音检测方法，通过比较采集的音频信号的每一帧的短时能量与第一短时能量阈值的大小，若大于第一短时能量阈值，则该帧记为第一等级帧，若小于第一短时能量阈值，则比较其短时能量与第二阈值的大小或其过零率与过零率阈值的大小，将短时能量小于第一短时能量阈值且大于第二短时能量阈值或过零率大于过零率阈值的帧记为第二等级帧，若连续为第一等级帧或第二等级帧的帧数量大于N且当前帧为第一等级帧时，则判断声音异常。该方法通过计算短时能量和过零率判断异常声音，由于短时能量和过零率属于时域特征，不涉及频域变换和特征参数的计算，能够降低计算的复杂度。同时，通过对实时采集的音频信息进行处理，能够实时处理分析，及时判断异常。

本发明的异常声音检测***，通过比较模块比较采集模块采集的音频信号的每一帧的短时能量与第一短时能量阈值的大小，标记模块将大于第一短时能量阈值的帧记为第一等级帧，将小于第一短时能量阈值的帧，再比较其短时能量与第二阈值的大小或其过零率与过零率阈值的大小，标记模块将短时能量的帧小于第一短时能量阈值且大于第二短时能量阈值或过零率大于过零率阈值的帧记为第二等级帧，若判断模块连续为第一等级或第二等级帧的帧数量大于N且当前帧为第一等级帧时，则判断声音异常。该***通过计算模块计算的短时能量和过零率，判断异常声音，由于短时能量属于时域特征，不涉及频域变换和特征参数的计算，能够降低计算的复杂度。同时，通过对实时采集的音频信息进行处理，能够实时处理分析，及时报警。

附图说明

图1为本发明一个具体实施例的异常声音检测方法的流程示意图；

图2为本发明具体某一帧的异常声音检测方法流程示意图；

图3为本发明一种使用自学习阈值的异常声音检测方法的流程示意图；

图4为本发明的自学习阈值方法的流程示意图；

图5为本发明自学习阈值的短时能量的直方图；

图6为另一种自学习阈值的短时能量的动态直方图；

图7为本发明的一个具体实施例的异常声音检测***的模块图；

图8的本发明的异常声音检测***的自学习模块的结构示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，异常声音检测的方法包括以下步骤。

S100：实时采集音频信号。

获取音频信号实时采集的音频信号，并分帧。在本实施例中，采样频率为8000HZ，一帧音频长为160个采样值。

S101：计算采集的音频信号的每一帧的短时能量和/或过零率。

从整体来看，音频信号的特征是随时间变化的，但是在一个短时间范围内，通常认为在10～30ms的短时内，其特征基本保持不变，相对稳定，具有短时平稳性。所以可以将音频信号分割成一帧一帧的短时信号来进行分析。

短时能量反映的是音频信号的能量情况，如果计算的某一帧的短时能量较高，则说明该帧的音频信号的能量较高。

短时能量STE_i(Short Time Energy)：表示第i帧音频信号的短时能量。计算公式如下：

其中，N是一帧音频的采样个数，x_i(m)表示第i帧语音信号的第m个采样值的幅值。

过零率ZCR_i(Zero Cross Rate)，反映的是音频信号的抖动情况，表示第i帧音频信号中音频信号波形穿过横轴的次数，计算公式如下：

其中，N是一帧音频的采样个数，x_i(m)表示第i帧语音信号的第m个采样值的幅值，sgn是符号函数，其定义如下：

如果计算的某一帧的过零率较高，则说明该帧的音频信号抖动较为明显。

S102：获取第一短时能量阈值。第一短时能量阈值可以为用户根据经验设定的一个阈值，也可以为通过声音的自学习后获取到的一个值。

S103：依次比较音频信号的每一帧的短时能量和第一短时能量阈值的大小。

S104：若当前帧的短时能量大于第一短时能量阈值，则将当前帧记为第一等级帧。第一等级帧表示声音信号的能量最强等级，为肯定异常帧。

S105：若当前帧的短时能量小于第一短时能量阈值，获取第二短时能量阈值和/或过零率阈值。其中，所述第一短时能量阈值大于第二短时能量阈值。第二短时能量阈值和过零率阈值可以为用户根据经验设定的一个阈值，也可以为通过声音的自学习后获取到的一个值。其中，该步骤的执行顺序并不是固定不变的，可以在步骤S102获取第一短时能量阈值的同时获取第二短时能量阈值和过零率阈值。

S106：根据第二短时能量阈值或过零率阈值确认是否将所述前帧记为第二等级帧，该确认是否将当前帧记为第二等级帧的步骤包括：

若比较当前帧的短时能量大于第二短时能量阈值或若当前帧的过零率大于所述过零率阈值，则将所述当前帧记为第二等级帧。

第二等级帧表示声音信号的能量等级较第一等级帧的能量等级较弱，声音信号的抖动较为强烈，第二等级帧表示该帧可能为异常帧。

若确认当前帧为第二等级帧，则执行步骤S108：计录连续为第一等级帧或第二等级帧的帧数量。

S109：判断连续为第一等级帧或第二等级帧的帧数量是否大于N且当前帧为是否为第一等级帧。其中，N为预定数量且N为正整数，即判断是否连续N帧的为可能异常或肯定异常，且当前帧为肯定异常。根据实验，N设为20最佳。

S110：若是，则判断声音异常。判断声音异常，具体的可以为发出异常报警信号。

若否，则继续计算下一帧的短时能量和过零率并执行上述检测步骤。

其中，上述异常声音检测方法，还包括：步骤S106中，若确认当前帧不为第二等级帧，即当前帧的短时能量小于第二短时能量阈值，或若当前帧的过零率小于过零率阈值，则执行步骤S107，将记录的连续为第一等级帧或第二等级帧的帧数量初始化为0，并继续计算下一帧的短时能量和过零率并执行上述检测步骤。

上述异常声音检测方法，通过比较采集的音频信号的每一帧的短时能量与第一短时能量阈值的大小，若大于第一短时能量阈值，则该帧记为第一等级帧，若小于第一短时能量阈值，则比较其短时能量与第二阈值的大小或其过零率与过零率阈值的大小，将短时能量小于第一短时能量阈值且大于第二短时能量阈值或过零率大于过零率阈值的帧记为第二等级帧，若连续为第一等级或第二等级帧的帧数量大于N且当前帧为第一等级帧时，判断声音异常。

上述方法通过计算短时能量和过零率判断声音异常，由于短时能量和过零率属于时域特征，不涉及频域变换和特征参数的计算，能够降低计算的复杂度。同时，通过对实时采集的音频信息进行处理，能够实时处理分析，及时判断异常。具体某一帧的异常声音判断方法如图2所示，包括以下步骤：

初使化时，令I为1，每一次检测完一帧，I的值加1，以第I帧为例，第I帧声音异常检测方法包括以下步骤：

S200：计算第I帧的短时能量和过零率。

S210：比较第I帧的短时能量与第一短时能量阈值的大小。

S220：若第I帧的短时能量大于第一短时能量阈值，则将第I帧记为第一等级帧。

S230：若第I帧的短时能量小于第一短时能量阈值，则比较第I帧的短时能量与第二短时能量阈值的大小或过零率与过零率阈值的大小。

S240：若第I帧的短时能量大于第二短时能量阈值或过零率大于过零率阈值，则第I帧记为第二等级帧；

若否，则COUNT清零。其中，COUTN为已统计的连续为第一等级帧或第二等级帧的帧数量，并继续计算下一帧的短时能量和过零率，执行本检测方法的步骤。

S250：若第I帧为第一等级帧或第二等级帧，COUNT的值将会加1。

S260：判断COUNT的值是否大于N且第I帧是否为第一等级帧。

若是，则判断声音异常发出报警信号。

若否，计算第I+1帧的短时能量和过零率，继续异常判断步骤，直到检测异常发出报警信号。

上述异常声音检测方法，通过比较采集的音频信号的每一帧的短时能量与第一短时能量阈值的大小，将大于第一短时能量阈值的帧记为第一等级帧，将小于第一短时能量阈值的帧，再比较其短时能量与第二短时能量阈值的大小或其过零率与过零率阈值的大小，将短时能量小于第一短时能量阈值且大于第二短时能量阈值或过零率大于过零率阈值的帧记为第二等级帧，若连续为第一等级或第二等级帧的帧数量大于N且当前帧为第一等级帧时，则判断声音异常。

在另一种实施例中，可以通过一组时间的学习来确定上述第一短时能量阈值、第二短时能量阈值和过零率阈值，并在后续时间中根据环境中的实际情况实时更新该阈值，以达到最好的检测效果。

如附图3所示，本发明还提供一种使用自学习阈值进行声音异常检测，实时采集音频信号，通过一段时间的学习来区分正常声音和异常声音，确定阈值，以适应各种环境和环境变化，从而提高声音识别的准确性，降低误报率。

对分帧后的M个音频逐个执行以下操作：

S300：音频特征计算，主要计算是每一帧的短时能量和过零率阈值。具体的计算方法已记载在前面的实施例中，在此不再赘述。

S310：自学习音频阈值，具体包括自学习第一短时能量阈值、第二短时能量阈值和过零率阈值的自学习。

S320：判断自学习是否成功。通过判断自学习的时间是否大于预定学习时间，若大于预定学习时间，则判断自学习成功。若小于预定学习时间，则继续计算下一帧的音频特征。

S330：若判断自学习成功，则进行异常声音检测。具体的异常声音检测的方法已详细记载在前面的实施例中，在此不再赘述。

在一个实施例中，如图4所示，具体的自学习音频阈值的方法，包括以下步骤：

S400：采集用于自学习的音频信号。

S410：计算所采集的音频信号的每一帧的短时能量和过零率。计算短时能量和过零率的方法已详细记载在前面的实施方式中，在此不再赘述。

S420：分别使用直方图统计音频信号的短时能量和过零率。

具体分别使用直方图统计音频信号的短时能量和过零率的原理和方法如下：

短时能量的直方图示意如图5所示，首先根据经验设定直方图的范围短时能量的最大值STEmax、短时能量的最小值STEmin、过零率的最大值ZCRmax和过零率的最小值ZCRmin短时能量过零率。本实施例中，取短时能量最大值STEmax为50000，短时能量的最小值STEmin为0，过零率的最大值为100，过零率的最小值为0，将短时能量和过零率的区间均匀分成H组，本实施例中，取H为10，则短时能量的直方图有10组，分别为第STE1组至第STE10，短时能量直方图的分组间隔STEstep＝(STEmax-STEmin)/H，过零率的直方图有10组，分别为第ZCR1组至第ZCR10组，过零率直方图的分组间隔ZCRstep＝(ZCRmax-ZCRmin)/H。将计算得到的短时能量和过零率分别放入直方图的与其值相应的各组中，分别有短时能量直方图第STE1组～第STE10和过零率第ZCR1～第ZCR10，根据放入的各组的直方图的数量，得到直方图各组的数值。

在这个过程中，由于可能会出现比设定的STEmax和ZCRmax大或者比STEmin和ZCRmin小的情况，所以在H组的基础上再加2组，将音频结果大于STEmax的结果放入第STE11组中，小于STEmin的放入第STE0组中。这样本实施方式中的短时能量的直方图共有12组，同时将短时能量直方图中每组间隔的前后取值范围保存到STEscope[H+2]中，STEscope[H+2]为短时能量直方图各个分组的取值范围，即为直方图的横轴的取值范围。同时过零率直方图中每组间隔的前后取值范围保存到ZCRscope[H+2]中，ZCRscope[H+2]为过零率直方图各个分组的取值范围，即为直方图的横轴的取值范围。

之后便可以通过连续读取音频来对直方图进行统计，由于环境中正常声音即背景声音占的比例应该最大，也就是说直方图最大的部分是背景声音，直方图小的部分是异常声音。***运行时，会实时学习音频中的正常声音，用以实时的学习并更新检测阈值。

上述的固定直方图方案基本可以满足异常声音的检测，但是容易引起误差，例如，即随着时间的累计，导致短时能量直方图的第STE0组、第STE11组、过零率直方图的第ZCR0组和第ZCR11组的值过大，使得阈值估计不准确，因此，本发明还提供一种使用动态直方图统计短时能量和过零率的方法。

在动态直方图方案中，当短时能量直方图的第STEH0组、第STE11组、过零率直方图的第ZCR0组和第ZCR11组中有数据超出了间隔短时能量直方图的分组间隔和过零率直方图的分组间隔的范围时，再加入1组，将计算得到的短时能量和过零率分别放入直方图的与其值相应的各组中。如此连续，这样直方图的组数就是动态的。如图6所示。其它步骤与固定直方图的步骤相同，在此不再赘述。

S430：判断本次自学习时间是否大于预定的学习时间，若判断学习时间大于预定学习时间，则表示本次学习已经完成。

S440：若判断本次自学习时间大于预定的学习时间，则根据直方图计算本次学习正常声音的短时能量和过零率，正常声音的短时能量为短时能量直方图中数值最大的组对应的取值范围的中值；正常声音过零率为过零率直方图中数值最大的组对应的取值范围的中值。

短时能量直方图和过零率直方图中数值最大的组对应的取值范围的中值，假如短时能量的数值最大的组为第一组直方图中，则其取值范围的中值＝(STEscope2-STEscope1)/2)记为STEback和ZCRback，其对应的是正常声音的短时能量和过零率。

S450：判断本次学习是否为初次学习。

S461：当判断本次学习为初次学习时，根据正常声音的短时能量和正常声音的过零率计算第一短时能量阈值、第二短时能量阈值和过零率阈值

第一短时能量阈值STEth1、第二短时能量阈值STEth2和过零率阈值ZCRth的计算公式分别为：

STEth1＝a*STEback

STEth2＝0.5*STEth1

ZCRth＝b*ZCRback

其中，STEback和ZCRback分别是本次学习的正常声音的短时能量和过零率，a和b是一个常量参数，根据不同的背景由实验调节得到。a和b的值越小，异常声音的检测越灵敏，可以通过对a和b的设定来调节检测的灵敏度等级，在本实施方式中，取a＝1.5，b＝1.5。

S462：当判断本次学习为非初次学习时，则根据上次学习得到的正常声音的短时能量和过零率与本次学习得到的正常声音的短时能量和过零率得到更新的正常声音的短时能量和过零率，并根据更新的正常声音的短时能量和过零率更新第一短时能量阈值、第二短时能量阈值和过零率阈值。

使用更新阈值的原因是，由于实际情况中，即使同一场景中背景声音也不可能一成不变，但又无法预测，因此在检测阶并不是一直使用初始学习过程中得到的阈值，而是在检测过程中实时对阈值进行更新。阈值更新过程是在初始学习完毕后，即进入异常声音检测阶段。

为了提高阈值更新过程的准确性，在初使学习之后的学习，对于正常声音的短时能量STEback和正常声音的过零率ZCRback使用指数加权的方式去更新，更新方式如下：

STEback＝(1-α)*STEback_last+α*STEback_cur；

ZCRback＝(1-α)*ZCRback_last+α*ZCRback_cur；

其中，STEback_last为上一次学习的正常声音短时能量的学习的结果；STEback_cur为本次学习的正常声音的短时能量的学习的结果，STEback为更新的正常声音的短时能量阈值；α为阈值更新速度，用于控制当前声音统计到正常声音中的速度，由实验得到，本文中取0.5；ZCRback_last为上一次学习的正常声音过零率的学习的结果；ZCRback_cur为本次学习正常声音的过零率的学习的结果，ZCRback为更新的正常声音的过零率阈值。

之后再使用S461步骤中的计算第一短时能量阈值STEth1、第二短时能量阈值STEth2和过零率阈值ZCRth的公式更新第一短时能量阈值、第二短时能量阈值和过零率阈值。

上述通过自学习确定阈值的方法，通过一段时间的直方图统计学习来区分正常声音和异常声音，确定初始阈值，并可以在检测阶段自学习更新阈值，能够准确的识别出异常声音，从而适应不同的环境，从而提高识别准确率，降低误报率。

在另一个实施例中，异常声音检测***，如图7所示，包括：

采集模块100：用于实时实用采集音频信号。通过采集模块实时采集的音频信号，并分帧。在本实施例中，采样频率为8000HZ，一帧音频长为160个采样值。

计算模块200，用于计算采集的音频信号的每一帧的短时能量和/或计算每一帧的过零率。计算模块具体计算短时能量和过零率的方法已记载在前面的实施例中，再此不再赘述。

获取模块300，用于获取第一短时能量阈值。

第一比较模块400，用于依次比较音频信号的每一帧的短时能量与第一短时能量阈值的大小。

标记模块500：用于当第一比较模块比较当前帧的短时能量大于第一短时能量阈值时，将当前帧记为第一等级帧。

获取模块300，还用于当第一比较模块比较当前帧的短时能量小于第一短时能量阈值时，获取第二短时能量阈值和/或获取过零率阈值，其中，第一短时能量阈值大于第二短时能量阈值。

第二比较模块600，用于根据第二短时能量阈值或过零率阈值确认是否将所述前帧记为第二等级帧，具体用于比较当前帧的短时能量与第二短时能量阈值的大小或当前帧的过零率与所述过零率阈值的大小。

标记模块500，还用于当第二比较模块比较当前帧的短时能量大于第二短时能量阈值时或若当前帧的过零率大于过零率阈值，将当前帧记为第二等级帧。

记录模块700，用于计录连续为第一等级帧或第二等级帧的帧数量。

判断模块800，用于判断连续为第一等级帧或第二等级帧的帧数量是否大于N且当前帧是否为第一等级帧。

异常判断模块900，用于判断模块800判断连续为第一等级帧或第二等级帧的帧数量大于N且当前帧为第一等级帧时，判断声音异常。该判断声音异常可以为发出报警信号。

上述异常声音检测***，通过比较模块比较采集模块采集的音频信号的每一帧的短时能量与第一短时能量阈值的大小，标记模块将大于第一短时能量阈值的帧记为第一等级帧，若小于第一短时能量阈值的帧，再比较其短时能量与第二阈值的大小或其过零率与过零率阈值的大小，标记模块将短时能量的帧小于第一短时能量阈值且大于第二短时能量阈值或过零率大于过零率阈值的帧记为第二等级帧，若判断模块连续为第一等级或第二等级帧的帧数量大于N且当前帧为第一等级帧时，则判断声音异常。该***通过计算模块短时能量判断异常声音，由于短时能量属于时域特征，不涉及频域变换和特征参数的计算，能够降低计算的复杂度。同时，通过对实时采集的音频信息进行处理，能够实时处理分析，及时报警。

在另一种实施方式中，该***还包括自学习模块1000，用于自学习阈值，通过自学习计算并保存第一短时能量阈值、第二短时能量阈值和过零率阈值，以适用不同环境，提高报警的准确率。

该采集模块100，还用于采集用于自学习的音频信号。

计算单元200，还用于计算采集的音频信号的每一帧的短时能量和过零率；

自学习模块包括，如图8所示，自学习模块具体包括，

统计单元1010，用于使用直方图分别统计音频信号的短时能量和过零率。使用直方达统计音频信号的短时能量和过零率的方法已详细记载在方法的实施例中，在此不再赘述。

第一判断单元1020，用于判断学习时间是否大于预定的学习时间，

正常声音计算单元1030，用于当第一判断单元判断本次自学习时间大于预定的学习时间时，根据统计单元的直方图计算本次学习正常声音的短时能量和过零率，正常声音的短时能量为短时能量直方图中数值最大的组对应的取值范围的中值；正常声音过零率为过零率直方图中数值最大的组对应的取值范围的中值。

第二判断单元1040，用于判断本次学习是否为初次学习。

阈值计算单元1050：用于当第二判断单元判断本次学习为初次学习时，根据正常声音的短时能量和正常声音的过零率计算第一短时能量阈值、第二短时能量阈值和过零率阈值。具体的根据正常声音的短时能量和正常声音的过零率计算第一短时能量阈值、第二短时能量阈值和过零率阈值的方法和公式已详细记载在方法实施例中，在此不再赘述。

阈值更新单元1060：用于当第二判断单元判断本次学习为非初次学习时，根据上次学习得到的正常声音的短时能量和过零率与本次学习得到的正常声音的短时能量和过零率得到更新的正常声音的短时能量和过零率，并根据更新的正常声音的短时能量和过零率更新第一短时能量阈值、第二短时能量阈值和过零率阈值。具体的更新阈值方法，已详细记载在方法实施方式中，在此不再赘述。

***的自学习模块，通过自学习确定阈值，具体通过一段时间的直方图统计学习来区分正常声音和异常声音，确定初始阈值，并可以在检测阶段自学习更新阈值，能够准确的识别出异常声音，以适应不同的环境，从而提高识别准确率，降低误报率。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出多个变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种异常声音检测方法，包括步骤：

实时采集音频信号；

计算采集的音频信号的每一帧的短时能量和/或过零率；

获取第一短时能量阈值；

依次比较所述音频信号的每一帧的短时能量与所述第一短时能量阈值的大小；

若当前帧的短时能量大于第一短时能量阈值，则将所述当前帧记为第一等级帧；

若当前帧的短时能量小于第一短时能量阈值，则获取第二短时能量阈值和/或过零率阈值，根据第二短时能量阈值或过零率阈值确认是否将所述前帧记为第二等级帧，所述确认是否将所述前帧记为第二等级帧的步骤包括：

若当前帧的短时能量大于所述第二短时能量阈值或当前帧的过零率大于所述过零率阈值，则将所述当前帧记为第二等级帧；

计录连续为第一等级帧或第二等级帧的帧数量；

若比较当前帧的短时能量小于第二短时能量阈值或若当前帧的过零率小于所述过零率阈值，则将所记录的连续为第一等级帧或第二等级帧的帧数量初始化为0；

若是，则判断声音异常；

在所述获取第一短时能量阈值的步骤之前还包括：

自学习音频阈值，计算并保存第一短时能量阈值、第二短时能量阈值和过零率阈值；

所述自学习音频的步骤，具体包括：

采集用于自学习的音频信号；

计算所采集的音频信号的每一帧的短时能量和过零率；

使用直方图分别统计所述音频信号的短时能量和过零率；

判断本次自学习时间是否大于预定的学习时间；

若判断本次自学习时间大于预定的学习时间，则根据直方图计算本次学习正常声音的短时能量和过零率，所述正常声音的短时能量为短时能量直方图中数值最大的组对应的取值范围的中值；所述正常声音过零率为过零率直方图中数值最大的组对应的取值范围的中值；

判断本次学习是否为初次学习；

若判断本次学习为初次学习，根据所述正常声音的短时能量和所述正常声音的过零率计算第一短时能量阈值、第二短时能量阈值和过零率阈值。

2.根据权利要求1所述的异常声音检测方法，其特征在于，所述根据正常声音的短时能量和所述正常常声音的过零率计算第一短时能量阈值STEth1、第二短时能量阈值STEth2和过零率阈值ZCRth的公式分别为：

STEth1＝a*STEback

STEth2＝0.5*STEth1

ZCRth＝b*ZCRback

3.根据权利要求2所述的异常声音检测方法，其特征在于，若判断本次学习为非初次学习，则根据上次学习得到的正常声音的短时能量和过零率与本次学习得到的正常声音的短时能量和过零率得到更新的正常声音的短时能量和过零率，并根据更新的正常声音的短时能量和过零率更新第一短时能量阈值、第二短时能量阈值和过零率阈值。

4.根据权利要求3所述的异常声音检测方法，其特征在于，若判断本次学习为非初次学习，则根据上次学习得到的正常声音的短时能量和过零率与本次学习得到的正常声音的短时能量和过零率得到更新的正常声音的短时能量STEback和过零率ZCRback的公式为：

STEback＝(1-α)*STEback_last+α*STEback_cur；

ZCRback＝(1-α)*ZCRback_last+α*ZCRback_cur；

5.一种异常声音检测***，其特征在于，包括：

采集模块，用于实时采集音频信号；

获取模块，获取第一短时能量阈值；

第一比较模块，用于依次比较所述音频信号的每一帧的短时能量与所述第一短时能量阈值的大小；

标记模块，用于当第一比较模块比较当前帧的短时能量大于第一短时能量阈值时，将所述当前帧记为第一等级帧；

所述获取模块，还用于当第一比较模块比较当前帧的短时能量小于第一短时能量阈值时，获取第二短时能量阈值和/或获取过零率阈值；

第二比较模块，用于根据第二短时能量阈值或过零率阈值确认是否将所述前帧记为第二等级帧，具体用于比较当前帧的短时能量与第二短时能量阈值的大小或当前帧的过零率与所述过零率阈值的大小；

所述标记模块，还用于当第二比较模块比较当前帧的短时能量大于所述第二短时能量阈值时或若当前帧的过零率大于所述过零率阈值，将所述当前帧记为第二等级帧；

所述记录模块，还用于，在第二比较模块比较当前帧的短时能量小于所述第二短时能量阈值或当前帧的过零率小于所述过零率阈值时，将记录的连续为第一等级帧或第二等级帧的帧数量初始化为0；

异常判断模块，用于判断模块判断连续为第一等级帧或第二等级帧的帧数量大于N且当前帧为第一等级帧时，判断声音异常；

自学习模块，用于自学习音频阈值，计算并保存第一短时能量阈值、第二短时能量阈值和过零率阈值；

所述自学习模块包括：

计算单元，用于计算所述采集模块采集的音频信号的每一帧的短时能量和过零率；

统计单元，用于使用直方图分别统计所述音频信号的短时能量和过零率；

第一判断单元，用于判断本次自学习时间是否大于预定的学习时间；

正常声音计算单元，用于当判断本次自学习时间大于预定的学习时间时，则根据直方图计算本次学习正常声音的短时能量和过零率，所述正常声音的短时能量为短时能量直方图中数值最大的组对应的取值范围的中值；所述正常声音过零率为过零率直方图中数值最大的组对应的取值范围的中值；

第二判断单元，用于判断本次学习是否为初次学习；

阈值计算单元，用于当判断本次学习为初次学习时，根据所述正常声音的短时能量和所述正常声音的过零率计算第一短时能量阈值、第二短时能量阈值和过零率阈值。