CN113689888A - 一种异常声音分类方法、***、装置以及存储介质 - Google Patents
一种异常声音分类方法、***、装置以及存储介质 Download PDFInfo
- Publication number
- CN113689888A CN113689888A CN202110871836.9A CN202110871836A CN113689888A CN 113689888 A CN113689888 A CN 113689888A CN 202110871836 A CN202110871836 A CN 202110871836A CN 113689888 A CN113689888 A CN 113689888A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- audio signal
- abnormal audio
- features
- acoustic features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 305
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000005236 sound signal Effects 0.000 claims abstract description 177
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 44
- 230000004044 response Effects 0.000 claims abstract description 24
- 238000001228 spectrum Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 14
- 230000005856 abnormality Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 38
- 239000000203 mixture Substances 0.000 description 14
- 238000012706 support-vector machine Methods 0.000 description 13
- 238000012544 monitoring process Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 206010039740 Screaming Diseases 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 206010011224 Cough Diseases 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007620 mathematical function Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种异常声音分类方法、***、装置以及存储介质,该方法包括:获取到待检测的异常音频信号的声学特征;将声学特征输入到多分类器中,利用多分类器基于声学特征确定异常音频信号与各种异常类别的似然度;响应于两个最大的似然度的差值小于设定值,利用两个最大的似然度对应的两种异常类别的二分类器对声学特征进行检测,得到异常音频信号的异常类型。通过上述方式,本申请能够极大地减小相似声音对异常音频信号的识别干扰,从而提升异常声音检测的准确率。
Description
技术领域
本申请涉及声音信号处理领域,特别是涉及一种异常声音分类方法、***、装置以及存储介质。
背景技术
在安防领域中,主流的监控手段是视频监控,但是视频监控由于其监测视野限制,并不能探测到盲区的事件发生情况,因此,在安防领域中采用音频事件检测的方法作为辅助,对威胁公共安全事件的检测会更为高效,将视频监控和音频监控结合的监控手段是未来的发展趋势。
目前的异常音频检测方法在获取到需要检测的音频片段后,对音频片段分帧以进行时域、频域或倒谱域的特征提取,继而将特征片段送入分类模型中,通过分类模型对特征片段进行识别以得到最终检测结果。
现有技术仅对特征片段进行简单分类,如果待检测的音频片段属于容易混淆的多种声音类型的中的一种,例如,在实际会议场景中,需要检测***声、枪声、尖叫声等威胁公共安全事件,然而,由于敲击键盘声和关门声容易识别为枪声,脚步声也容易与枪声混淆,且咳嗽声与尖叫声具有一定相似性,故通过现有技术无法准确对音频片段所属的异常类别进行判定,无法提升异常声音检测的准确率。
发明内容
本申请主要解决的技术问题是提供一种异常声音分类方法、***、装置以及存储介质,通过对异常音频信号进行多级分类,能够提升异常声音检测的准确率。
为解决上述技术问题,本申请采用的第一技术方案是提供一种异常声音分类方法,包括:获取到待检测的异常音频信号的声学特征;将声学特征输入到多分类器中,利用多分类器基于声学特征确定异常音频信号与各种异常类别的似然度;响应于两个最大的似然度的差值小于设定值,利用两个最大的似然度对应的两种异常类别的二分类器对声学特征进行检测,得到异常音频信号的异常类型。
其中,获取到待检测的异常音频信号的声学特征的步骤,包括:获取到待检测的异常音频信号;对异常音频信号进行多维度特征提取,得到异常音频信号的多维度的声学特征;其中,多维度的声学特征至少包括时域特征、频域特征以及倒谱域特征中的至少两种。
其中,获取到待检测的异常音频信号的声学特征的步骤,包括:获取到异常音频信号,并对异常音频信号进行分帧处理;对每一帧异常音频信号进行特征提取,得到各帧异常音频信号的声学特征;将声学特征输入到多分类器中,利用多分类器基于声学特征确定异常音频信号与各种异常类别的似然度的步骤,包括:将各帧异常音频信号的声学特征输入到多分类器中,得到各帧异常音频信号与各种异常类别的似然度;响应于两个最大的似然度的差值小于设定值,利用两个最大的似然度对应的两种异常类别的二分类器对声学特征进行检测,得到异常音频信号的异常类型的步骤,包括:响应于当前帧两个最大的似然度的差值小于设定值,利用两个最大的似然度对应的两种异常类别的二分类器对当前帧进行检测,得到当前帧的异常类型;利用连续设定量的多帧异常音频信号的异常类型确定异常音频信号的异常类型。
其中,利用连续设定量的多帧异常音频信号的异常类型确定异常音频信号的异常类型的步骤,包括:统计属于各个异常类型的异常音频信号的帧数;将包括帧数最多的异常类型确定为异常音频信号的异常类型。
其中,对每一帧异常音频信号进行特征提取,得到各帧异常音频信号的声学特征的步骤,包括:对每一帧异常音频信号进行加窗处理;利用快速傅里叶变换将加窗处理后的时域信号变换为频域信号,再基于频域信号得到信号能量谱;利用滤波器对信号能量谱进行带通滤波,并对滤波器的输出取对数,以变换至对数能量谱域;利用离散余弦变换将对数能量谱域变换到倒谱域,得到各维相互独立的特征矢量。
其中,响应于两个最大的似然度的差值小于设定值,利用两个最大的似然度对应的两种异常类别的二分类器对声学特征进行检测,得到异常音频信号的异常类型的步骤,包括:响应于两个最大的似然度的差值小于设定值,提取两个最大的似然度分别对应的两个异常类别建立二分类器;其中,二分类器包括高斯核函数;将异常音频信号的声学特征输入到二分类器中,利用高斯核函数基于聚类的方式提取距离较远的统计特征,并基于统计特征对声学特征进行分类,得到异常音频信号的异常类型。
其中,获取到待检测的异常音频信号的声学特征的步骤前,还包括:获取音频信号,计算音频信号的短时能量;比较短时能量与设定能量阈值的大小;响应于音频信号的短时能量大于设定能量阈值,将音频信号确定为待检测的异常音频信号。
为解决上述技术问题,本申请采用的第二技术方案是提供一种异常声音分类***,包括:特征获取模块,用于获取到待检测的异常音频信号的声学特征;第一分类模块,用于将声学特征输入到多分类器中,利用多分类器基于声学特征确定异常音频信号与各种异常类别的似然度;第二分类模块,用于响应于两个最大的似然度的差值小于设定值,利用两个最大的似然度对应的两种异常类别的二分类器对声学特征进行检测,得到异常音频信号的异常类型。
为解决上述技术问题,本申请采用的第三技术方案是提供一种异常声音分类装置,包括:存储器,用于存储程序数据,存储程序数据被执行时实现如上述任一项所述的异常声音分类方法中的步骤;处理器,用于执行存储器存储的程序指令以实现如上述任一项所述的异常声音分类方法中的步骤。
为解决上述技术问题,本申请采用的第四技术方案是提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项所述的异常声音分类方法中的步骤。
本申请的有益效果是:区别于现有技术,本申请提供一种异常声音分类方法、***、装置以及存储介质,通过将获取到的待检测的异常音频信号的声学特征输入到多分类器中进行初步检测,能够预测出异常音频信号的大致异常类型,再基于初步检测的结果建立更具有针对性的二分类器,并将声学特征输入到二分类器中进行分类,能够极大地减小相似声音对异常音频信号的识别干扰,从而提升异常声音检测的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请异常声音分类方法一实施方式的流程示意图;
图2是本申请获取待检测的异常音频信号的方法一实施方式的流程示意图;
图3是本申请提取声学特征一具体实施方式的流程示意图;
图4是图3中步骤S32一具体实施方式的流程示意图;
图5是图1中步骤S13一具体实施方式的流程示意图;
图6是本申请异常声音分类***一实施方式的结构示意图;
图7是本申请异常声音分类装置一实施方式的结构示意图;
图8是本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,本文中使用的术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
现有的异常音频检测方法仅对提取的声音特征片段进行简单分类,如果待检测的音频片段属于容易混淆的多种声音类型的中的一种,例如,在实际会议场景中,需要检测***声、枪声、尖叫声等威胁公共安全事件,然而,由于敲击键盘声和关门声容易识别为枪声,脚步声也容易与枪声混淆,且咳嗽声与尖叫声具有一定相似性,故通过现有技术无法准确对音频片段所属的异常类别进行判定,无法提升异常声音检测的准确率。
基于上述情况,本申请提供一种异常声音分类方法、***、装置以及存储介质,通过对异常音频信号进行多级分类,能够提升异常声音检测的准确率。
下面结合附图和实施方式对本申请进行详细说明。
请参阅图1,图1是本申请异常声音分类方法一实施方式的流程示意图。如图1所示,在本实施方式中,该方法包括:
S11:获取到待检测的异常音频信号的声学特征。
本实施方式中,首先获取到待检测的异常音频信号。
具体地,请参阅图2,图2是本申请获取待检测的异常音频信号的方法一实施方式的流程示意图。如图2所示,在本实施方式中,该方法包括:
S21:获取音频信号,计算音频信号的短时能量。
本实施方式中,音频信号可以从音频监控中获取。
短时能量为时域特征的一种,反映的是音频信号的能量情况,如果计算的音频信号的短时能量较高,表明音频信号的能量较高。
本实施方式中,通过端点检测的方式对音频信号进行大尺度粗检,以检出音频信号的起始点待选区域与终止点待选区域,再对待选区域进行细检,检测出音频信号的端点,对端点进行短时能量计算。
在监控环境下,大部分都是比较安静的监控场景,音频流具有平稳性且能量值较低,如果出现威胁公共安全事件,待选区域端点的能量较强,通过对端点的短时能量进行计算,能够检测出音频信号是否发生异常事件。
在其他实施方式中,还可以通过计算音频信号的短时过零率来进行检测,短时过零率也属于时域特征的一种,短时过零率反映的是音频信号的抖动程度,如果计算的短时过零率较高,表明音频信号抖动较为明显。
上述方法通过短时能量和短时过零率判断声音异常,由于短时能量和短时过零率都属于时域特征,不涉及频域变化和特征参数的计算,因而能够降低计算的复杂度。
S22:比较短时能量与设定能量阈值的大小。
本实施方式中,设定能量阈值可以是用户根据经验设定的一个阈值,也可以是通过声音的自学习后获取到的一个值。
其中,如果端点的短时能量大于设定能量阈值,表明出现异常事件的概率较大,反之,则正常。
S23:响应于音频信号的短时能量大于设定能量阈值,将音频信号确定为待检测的异常音频信号。
在一个具体的实施场景中,响应于音频信号的短时能量大于设定能量阈值,表明该区域内的音频信号异常,出现异常事件的概率较大,将其确定为待检测的异常音频信号,并进行下一步检测,以识别是何种异常类别。其中,响应于音频信号的短时能量小于设定能量阈值,表明该区域内的音频信号正常,无需对其进行下一步检测。
本实施方式中,在获取到待检测的异常音频信号后,对异常音频信号进行多维度特征提取,得到异常音频信号的多维度的声学特征。
其中,多维度的声学特征至少包括时域特征、频域特征以及倒谱域特征中的至少两种。
其中,时域特征包括短时能量、低能量帧比率、短时过零率、高过零率帧比率等特征矢量;频域特征包括频域能量、频率中心、带宽、频谱滚降系数、线性预测系数等特征矢量;倒谱域特征包括梅尔频率倒谱系数和线性预测倒谱系数等特征矢量。
具体地,时域是描述数学函数或物理信号对时间的关系,频域是描述数学函数或物理信号对时间的关系,倒谱域是一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的时域。
由于声音信号本是一维的时域信号,直观上很难看出频率变化规律。通过傅里叶变换可把声音信号变换到到频域上,通过频率虽然可看出信号的频率分布,但是由于丢失了时域信息,无法看出频率分布随时间的变化。而倒谱域是对生谱图取对数后,再经过离散傅里叶变化变回的时域,并不是完全意义上的时域,兼具了时域与频域的特征,既能看出时域信息,也能看出频率随时间的变化,通过倒谱域特征能够获取到异常声音事件从发生到变化的过程。
具体地,请参阅图3,图3是本申请提取声学特征一具体实施方式的流程示意图。如图3所示,在本实施方式中,该方法包括:
S31:获取到异常音频信号,并对异常音频信号进行分帧处理。
获取异常音频信号的过程请参阅步骤S21~S23,此处不再赘述。
从整体来看,异常音频信号是长时非平稳信号,其特征是随时间变化的,但是在一个短时间范围内,例如,10~50ms的短时内,其特征基本保持不变,相对稳定,具有短时平稳性,因而本实施方式将长时非平稳信号截取为短时平稳信号进行处理。在一个具体的实施场景中,可以采用40ms帧长和20ms帧移对异常音频信号进行分帧处理。
由于汉明(Hanming)窗函数在截取信号过程中对边界点的优势,本实施方式采用汉明窗作为窗函数对异常音频信号进行分帧。
具体地,汉明窗函数的计算公式如下:
其中,w(n)为窗函数,cos为余弦函数,π为圆周率。
S32:对每一帧异常音频信号进行特征提取,得到各帧异常音频信号的声学特征。
具体地,请参阅图4,图4是图3中步骤S32一具体实施方式的流程示意图。如图4所示,在本实施方式中,对每一帧异常音频信号进行特征提取,得到各帧异常音频信号的声学特征的步骤,具体包括:
S41:对每一帧异常音频信号进行加窗处理。
本实施方式中,利用汉明窗函数对每一帧异常音频信号进行加窗处理。
在一个具体的实施场景中,假设异常音频信号为s(n),则经过窗函数后的分帧信号为s(n)*w(n)。
S42:利用快速傅里叶变换将加窗处理后的时域信号变换为频域信号,再基于频域信号得到信号能量谱。
本实施方式中,利用快速傅里叶变换(FFT)将分帧信号的时域信号变换为频域信号,再计算频谱幅度的平方,得到信号能量谱。
本实施方式中,通过时域信号与频域信号能够获取到时域特征以及频域特征。
S43:利用滤波器对信号能量谱进行带通滤波,并对滤波器的输出取对数,以变换至对数能量谱域。
本实施方式中,利用一组三角形滤波器在频率对能量谱进行带通滤波,这组滤波器的作用是通过Mel(梅尔)尺度把声音信号的频域空间向人的感知的频域空间进行映射,以使滤波器的空间尺度接近人类听觉的感知尺度。
进一步地,对滤波器的输出取对数,将其变换到对数能量谱域。这样做的好处是可以把语音信号在时域上的卷积成分和线性能量谱域上的乘性成分转变为对数能量谱域的加性成分,有利于将环境、信道带来的不良影响剔除,且相对于线性能量谱域而言,对数能量谱域的统计分布特性更适合统计建模。
S44:利用离散余弦变换将对数能量谱域变换到倒谱域,得到各维相互独立的特征矢量。
本实施方式中,利用离散余弦变换(DCT)将对数能量谱域变换到倒谱域,这样做的主要目的是对不同频段的频谱成分做解相关处理,得到各维相互独立的特征矢量,方便进一步的建模和计算,且倒谱参数在形式上更为紧凑简洁。
进一步地,为了体现异常声音事件的发生和变化过程,即语音的动态特性,本实施方式还在声学特征中加入一阶和二阶差分倒谱,以获取MFCC(梅尔倒谱系数)特征。
其中,MFCC特征是语音识别器常用的特征,是根据人的听觉***提取的声学特征。
可以理解地,通过上述方式可提取到时域、频域以及倒谱域中的多维特征,本实施方式通过结合多个域的特征进行检测,能够从多角度对异常音频信号进行分析,从而显著提高分类***的检测识别率。进一步地,由于检测的声学特征是多维的,还能够增强分类***的鲁棒性。
S12:将声学特征输入到多分类器中,利用多分类器基于声学特征确定异常音频信号与各种异常类别的似然度。
本实施方式中,多分类器为训练好的由20维MFCC及其一阶和二阶差分特征、线性预测倒谱系数、时域特征、频域特征以及频谱熵共63维特征组成的GMM(高斯混合模型)分类器。其中,GMM多分类器用MFCC作为分类特征,针对各类异常声音事件建立多个高斯混合模型。
高斯混合模型是一种半参数的密度估计方法,有若干个高斯概率密度函数加权求和而得到,每个高斯模型称为一个高斯分量,高斯混合函数模型为:
其中,p(x|i,λ)的具体表达式如下:
其中,d表示维度,π表示圆周率,μi表示第i个高斯分量的均值向量,∑i表示第i个高斯分量对应的协方差矩阵,T表示转置。
具体地,每个特征矢量为单高斯建模,异常声音事件通常包括多个特征矢量,在GMM多分类器的训练过程中,采用***的方式对于每一类异常声音事件建立与其所包括的特征分量对应的高斯混合模型,由于不同异常声音事件之间进行区分所需的特征矢量(模型参数量)有差别,因而最终建立出来的每个异常声音事件具有的高斯分量数目各不相同。
本实施方式中,将各帧异常音频信号的声学特征输入到多分类器中,得到各帧异常音频信号与各种异常类别的似然度。
具体地,将每一帧异常音频信号的多维度的声学特征输入到GMM多分类器中,将当前帧的声学特征所包括的全部特征矢量作为x输入,得到相对于各类高斯混合模型的多个后验概率,后验概率最大的高斯混合模型所对应的异常声音事件为预测到的当前帧最有可能对应的异常类型。
S13:响应于两个最大的似然度的差值小于设定值,利用两个最大的似然度对应的两种异常类别的二分类器对声学特征进行检测,得到异常音频信号的异常类型。
本实施方式中,响应于当前帧两个最大的似然度的差值小于设定值,利用两个最大的似然度对应的两种异常类别的二分类器对当前帧进行检测,得到当前帧的异常类型。
具体地,GMM多分类器会预测出当前帧与每个高斯混合模型的似然度,并对计算出的似然度进行排序。
其中,响应于两个最大的似然度指的是排名前二的两个似然度。响应于两个最大的似然度的差值小于设定值,表明排名前二的两个高斯混合模型所对应的异常声音事件均有可能是当前帧异常音频信号实际对应的异常类型。响应于两个最大的似然度的差值大于设定值,表明排名第一的高斯混合模型所对应的异常声音事件极有可能是当前帧异常音频信号实际对应的异常类型。
GMM多分类器是基于多个高斯混合模型对异常音频信号进行匹配,能够对异常音频信号进行初检,以预测出异常音频信号的大致异常类型。一个输入特征通过GMM多分类器计算得到的两个似然度很接近的类别,已经不能简单地通过改变GMM多分类器而将其准确判定。
例如,在实际会议场景中,需要检测***声、枪声、尖叫声和玻璃碎片声等威胁公共安全事件,由于敲击键盘声、关门声、玻璃破碎声均容易被识别为枪声,且脚步声也容易与枪声混淆,故敲击键盘声、玻璃碎片声、开关门声、说话声和咳嗽声在输入到GMM多分类器后,均有可能被识别为枪声,从而降低异常声音检测的准确率。
本实施方式中,针对容易混淆的两类异常声音事件,使用训练好的二分类器对当前帧的异常音频信号进行区分。
具体地,请参阅图5,图5是图1中步骤S13一具体实施方式的流程示意图。如图5所示,在本实施方式中,响应于两个最大的似然度的差值小于设定值,利用两个最大的似然度对应的两种异常类别的二分类器对声学特征进行检测,得到异常音频信号的异常类型的步骤,具体包括:
S51:响应于两个最大的似然度的差值小于设定值,提取两个最大的似然度分别对应的两个异常类别建立二分类器;其中,二分类器包括高斯核函数。
本实施方式中,响应于当前帧两个最大的似然度的差值小于设定值,提取两个最大的似然度分别对应的两个异常类别建立SVM(Support Vector Machines,支持向量机)二分类器,并提取最容易区分这两个异常声音事件的特征训练SVM二分类器。
其中,SVM二分类器包括高斯核函数。
具体地,支持向量机是一种二分类模型,其对于线性不可分的训练数据,采用高斯核函数能够实现非线性分类。用于训练SVM二分类器的特征是通过聚类的方式产生的,通过聚类可以寻找两类异常声音事件中距离较远的统计特征,即容易区分两类异常声音事件的统计特征。
为了在保证SVM二分类器预测准确率的情况下减小模型的复杂度,可以采用一些较容易统计的特征作为训练特征。例如,当两个最大的似然度分别对应的两个异常类别为键盘敲击声与枪声时,可以采用的特征集合为:短时过零率、频率中心、带宽、频谱熵、短时能量、频谱滚降系数以及低能量帧比率等声学特征。当两个最大的似然度分别对应的两个异常类别为走路声与枪声时,可以采用的特征集合为:带宽、短时过零率、短时能量、频域能量、频谱滚降系数、频率域峰值因子以及短时自相关等声学特征。当两个最大的似然度分别对应的两个异常类别为咳嗽声与尖叫声时,可以采用的特征集合为:梅尔频率倒谱系数、高过零率帧比率、短时能量等声学特征。
本实施方式中,训练好的SVM二分类器能够较好地对两个似然度很接近的异常类别进行准确判定,以减小相似声音对异常音频信号的识别干扰。
S52:将异常音频信号的声学特征输入到二分类器中,利用高斯核函数基于聚类的方式提取距离较远的统计特征,并基于统计特征对声学特征进行分类,得到异常音频信号的异常类型。
本实施方式中,将当前帧的异常音频信号的声学特征输入到二分类器中,利用高斯核函数基于聚类的方式提取最容易区分这两个异常类别的统计特征,通过SVM二分类器对提取出的统计特征进行分类,以得到当前帧异常音频信号的异常类型。
为了降低SVM二分类器的误报率,以进一步地提升SVM二分类器的预测准确率,本实施方式利用连续设定量的多帧异常音频信号的异常类型确定异常音频信号的异常类型。具体地,本实施方式统计属于各个异常类型的异常音频信号的帧数,将包括帧数最多的异常类型确定为异常音频信号的异常类型。
其中,设定量可以为3帧、5帧或更多帧,本申请对此不作限定。
在一个具体的实施场景中,通过SVM二分类器对连续送入的3帧异常音频信号进行分类,若在前后两帧及当前帧识别结果中,前后两帧异常音频信号的异常类型均识别为类型A,而当前帧异常音频信号的异常类型识别为类型B,则当前帧异常音频信号的异常类型通过投票平滑为类型A。
本实施方式中,为了提高GMM多分类器的预测准确率,响应于两个最大的似然度的差值大于设定值,同样利用连续设定量的多帧异常音频信号的异常类型确定异常音频信号的异常类型。
在又一个具体的实施场景中,通过GMM多分类器对连续送入的3帧异常音频信号进行分类,若在前后两帧及当前帧识别结果中,前后两帧异常音频信号的异常类型均识别为类型A,而当前帧异常音频信号的异常类型识别为类型B,则当前帧异常音频信号的异常类型通过投票平滑为类型A。
区别于现有技术,本实施方式通过将获取到的待检测的异常音频信号的声学特征输入到多分类器中进行初步检测,能够预测出异常音频信号的大致异常类型,再基于初步检测的结果建立更具有针对性的二分类器,并将声学特征输入到二分类器中进行分类,能够极大地减小相似声音对异常音频信号的识别干扰,从而提升异常声音检测的准确率。此外,通过结合多个域的特征进行检测,还能够从多角度对异常音频信号进行分析,从而进一步提高异常声音的检测识别率,且由于检测的声学特征是多维的,还能够增强检测的鲁棒性。
对应地,本申请提供一种异常声音分类***。
具体地,请参阅图6,图6是本申请异常声音分类***一实施方式的结构示意图。如图6所示,该异常声音分类***60包括特征获取模块61、第一分类模块62以及第二分类模块63。
特征获取模块61,用于获取到待检测的异常音频信号的声学特征。
第一分类模块62,用于将声学特征输入到多分类器中,利用多分类器基于声学特征确定异常音频信号与各种异常类别的似然度。
第二分类模块63,用于响应于两个最大的似然度的差值小于设定值,利用两个最大的似然度对应的两种异常类别的二分类器对声学特征进行检测,得到异常音频信号的异常类型。
其中,具体分类过程请参阅步骤S11~S13、S21~S23、S31~S32、S41~S44以及S51~S52中的相关文字描述,在此不再赘述。
区别于现有技术,本实施方式通过特征获取模块61获取到待检测的异常音频信号的声学特征,并将声学特征输入到第一分类模块62中进行初步检测,能够预测出异常音频信号的大致异常类型,再基于初步检测的结果建立更具有针对性的二分类器,并将声学特征输入到第二分类模块63中进行分类,能够极大地减小相似声音对异常音频信号的识别干扰,从而提升异常声音检测的准确率。此外,通过结合多个域的特征进行检测,还能够从多角度对异常音频信号进行分析,从而进一步提高异常声音分类***60的检测识别率,且由于检测的声学特征是多维的,还能够增强异常声音分类***60的鲁棒性。
对应地,本申请提供一种异常声音分类装置。
具体地,请参阅图7,图7是本申请异常声音分类装置一实施方式的结构示意图。如图7所示,该异常声音分类装置70包括相互耦接的存储器71和处理器72。
本实施方式中,存储器71用于存储程序数据,程序数据被执行时可实现如上述任一项所述的异常声音分类方法中的步骤;处理器72用于执行存储器71存储的程序指令以实现上述任一项所述的异常声音分类方法中的步骤。
具体而言,处理器72用于控制其自身以及存储器71以实现上述任一异常声音分类方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器72可以由多个集成电路芯片共同实现。
区别于现有技术,处理器72将获取到的待检测的异常音频信号的声学特征输入到多分类器中进行初步检测,能够预测出异常音频信号的大致异常类型,再基于初步检测的结果建立更具有针对性的二分类器,并将声学特征输入到二分类器中进行分类,能够极大地减小相似声音对异常音频信号的识别干扰,从而提升异常声音检测的准确率。此外,通过结合多个域的特征进行检测,还能够从多角度对异常音频信号进行分析,从而进一步提高异常声音的检测识别率,且由于检测的声学特征是多维的,还能够增强检测的鲁棒性。
对应地,本申请提供一种计算机可读存储介质。
请参阅图8,图8是本申请计算机可读存储介质一实施方式的结构示意图。
计算机可读存储介质80包括计算机可读存储介质80上存储的计算机程序801,计算机程序801被上述处理器执行时实现上述任一项所述的异常声音分类方法中的步骤。
具体地,集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质80中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质80中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质80包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种异常声音分类方法,其特征在于,包括:
获取到待检测的异常音频信号的声学特征;
将所述声学特征输入到多分类器中,利用所述多分类器基于所述声学特征确定所述异常音频信号与各种异常类别的似然度;
响应于两个最大的似然度的差值小于设定值,利用所述两个最大的似然度对应的两种异常类别的二分类器对所述声学特征进行检测,得到所述异常音频信号的异常类型。
2.根据权利要求1所述的异常声音分类方法,其特征在于,所述获取到待检测的异常音频信号的声学特征的步骤,包括:
获取到所述待检测的异常音频信号;
对所述异常音频信号进行多维度特征提取,得到所述异常音频信号的多维度的所述声学特征;
其中,所述多维度的所述声学特征至少包括时域特征、频域特征以及倒谱域特征中的至少两种。
3.根据权利要求1或2所述的异常声音分类方法,其特征在于,所述获取到待检测的异常音频信号的声学特征的步骤,包括:
获取到所述异常音频信号,并对所述异常音频信号进行分帧处理;
对每一帧异常音频信号进行特征提取,得到各帧异常音频信号的声学特征;
所述将所述声学特征输入到多分类器中,利用所述多分类器基于所述声学特征确定所述异常音频信号与各种异常类别的似然度的步骤,包括:
将所述各帧异常音频信号的声学特征输入到所述多分类器中,得到所述各帧异常音频信号与所述各种异常类别的似然度;
所述响应于两个最大的似然度的差值小于设定值,利用所述两个最大的似然度对应的两种异常类别的二分类器对所述声学特征进行检测,得到所述异常音频信号的异常类型的步骤,包括:
响应于当前帧两个最大的似然度的差值小于设定值,利用所述两个最大的似然度对应的两种异常类别的二分类器对所述当前帧进行检测,得到所述当前帧的异常类型;
利用连续设定量的多帧异常音频信号的异常类型确定所述异常音频信号的异常类型。
4.根据权利要求3所述的异常声音分类方法,其特征在于,所述利用连续设定量的多帧异常音频信号的异常类型确定所述异常音频信号的异常类型的步骤,包括:
统计属于各个异常类型的异常音频信号的帧数;
将包括帧数最多的异常类型确定为所述异常音频信号的异常类型。
5.根据权利要求3所述的异常声音分类方法,其特征在于,所述对每一帧异常音频信号进行特征提取,得到各帧异常音频信号的声学特征的步骤,包括:
对所述每一帧异常音频信号进行加窗处理;
利用快速傅里叶变换将加窗处理后的时域信号变换为频域信号,再基于所述频域信号得到信号能量谱;
利用滤波器对所述信号能量谱进行带通滤波,并对所述滤波器的输出取对数,以变换至对数能量谱域;
利用离散余弦变换将所述对数能量谱域变换到倒谱域,得到各维相互独立的特征矢量。
6.根据权利要求1所述的异常声音分类方法,其特征在于,所述响应于两个最大的似然度的差值小于设定值,利用所述两个最大的似然度对应的两种异常类别的二分类器对所述声学特征进行检测,得到所述异常音频信号的异常类型的步骤,包括:
响应于所述两个最大的似然度的所述差值小于所述设定值,提取所述两个最大的似然度分别对应的所述两个异常类别建立所述二分类器;其中,所述二分类器包括高斯核函数;
将所述异常音频信号的所述声学特征输入到所述二分类器中,利用所述高斯核函数基于聚类的方式提取距离较远的统计特征,并基于所述统计特征对所述声学特征进行分类,得到所述异常音频信号的异常类型。
7.根据权利要求1所述的异常声音分类方法,其特征在于,所述获取到待检测的异常音频信号的声学特征的步骤前,还包括:
获取音频信号,计算所述音频信号的短时能量;
比较所述短时能量与设定能量阈值的大小;
响应于所述音频信号的短时能量大于所述设定能量阈值,将所述音频信号确定为所述待检测的异常音频信号。
8.一种异常声音分类***,其特征在于,包括:
特征获取模块,用于获取到待检测的异常音频信号的声学特征;
第一分类模块,用于将所述声学特征输入到多分类器中,利用所述多分类器基于所述声学特征确定所述异常音频信号与各种异常类别的似然度;
第二分类模块,用于响应于两个最大的似然度的差值小于设定值,利用所述两个最大的似然度对应的两种异常类别的二分类器对所述声学特征进行检测,得到所述异常音频信号的异常类型。
9.一种异常声音分类装置,其特征在于,包括:
存储器,用于存储程序数据,所述存储程序数据被执行时实现如权利要求1~7任一项所述的异常声音分类方法中的步骤;
处理器,用于执行所述存储器存储的程序指令以实现如权利要求1~7任一项所述的异常声音分类方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~7任一项所述的异常声音分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110871836.9A CN113689888A (zh) | 2021-07-30 | 2021-07-30 | 一种异常声音分类方法、***、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110871836.9A CN113689888A (zh) | 2021-07-30 | 2021-07-30 | 一种异常声音分类方法、***、装置以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113689888A true CN113689888A (zh) | 2021-11-23 |
Family
ID=78578416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110871836.9A Pending CN113689888A (zh) | 2021-07-30 | 2021-07-30 | 一种异常声音分类方法、***、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113689888A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654944A (zh) * | 2015-12-30 | 2016-06-08 | 中国科学院自动化研究所 | 一种融合了短时与长时特征建模的环境声识别方法及装置 |
CN105810213A (zh) * | 2014-12-30 | 2016-07-27 | 浙江大华技术股份有限公司 | 一种典型异常声音检测方法及装置 |
CN106782505A (zh) * | 2017-02-21 | 2017-05-31 | 南京工程学院 | 一种基于放电声音识别高压开关柜状态的方法 |
CN108847253A (zh) * | 2018-09-05 | 2018-11-20 | 平安科技(深圳)有限公司 | 车辆型号识别方法、装置、计算机设备及存储介质 |
WO2019218818A1 (zh) * | 2018-05-14 | 2019-11-21 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读存储介质和计算机设备 |
CN112185348A (zh) * | 2020-10-19 | 2021-01-05 | 平安科技(深圳)有限公司 | 多语种语音识别方法、装置及电子设备 |
-
2021
- 2021-07-30 CN CN202110871836.9A patent/CN113689888A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105810213A (zh) * | 2014-12-30 | 2016-07-27 | 浙江大华技术股份有限公司 | 一种典型异常声音检测方法及装置 |
CN105654944A (zh) * | 2015-12-30 | 2016-06-08 | 中国科学院自动化研究所 | 一种融合了短时与长时特征建模的环境声识别方法及装置 |
CN106782505A (zh) * | 2017-02-21 | 2017-05-31 | 南京工程学院 | 一种基于放电声音识别高压开关柜状态的方法 |
WO2019218818A1 (zh) * | 2018-05-14 | 2019-11-21 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读存储介质和计算机设备 |
CN108847253A (zh) * | 2018-09-05 | 2018-11-20 | 平安科技(深圳)有限公司 | 车辆型号识别方法、装置、计算机设备及存储介质 |
CN112185348A (zh) * | 2020-10-19 | 2021-01-05 | 平安科技(深圳)有限公司 | 多语种语音识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
Ittichaichareon et al. | Speech recognition using MFCC | |
Dhanalakshmi et al. | Classification of audio signals using AANN and GMM | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
Mulimani et al. | Segmentation and characterization of acoustic event spectrograms using singular value decomposition | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
CN115510909A (zh) | 一种dbscan进行异常声音特征的无监督算法 | |
AU9450398A (en) | Pattern recognition using multiple reference models | |
Shi et al. | H-VECTORS: Improving the robustness in utterance-level speaker embeddings using a hierarchical attention model | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
Couvreur et al. | Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models | |
CN114582325A (zh) | 音频检测方法、装置、计算机设备、存储介质 | |
Dhanalakshmi et al. | Pattern classification models for classifying and indexing audio signals | |
CN112992153B (zh) | 音频处理方法、声纹识别方法、装置、计算机设备 | |
EP3816996B1 (en) | Information processing device, control method, and program | |
Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
Mu et al. | MFCC as features for speaker classification using machine learning | |
Marković et al. | Partial mutual information based input variable selection for supervised learning approaches to voice activity detection | |
CN106910494B (zh) | 一种音频识别方法和装置 | |
CN112418173A (zh) | 异常声音识别方法、装置及电子设备 | |
Silva et al. | A comparative study between MFCC and LSF coefficients in automatic recognition of isolated digits pronounced in Portuguese and English | |
CN113421590B (zh) | 异常行为检测方法、装置、设备及存储介质 | |
CN113689888A (zh) | 一种异常声音分类方法、***、装置以及存储介质 | |
Dov et al. | Voice activity detection in presence of transients using the scattering transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |