CN105810213A

CN105810213A - 一种典型异常声音检测方法及装置

Info

Publication number: CN105810213A
Application number: CN201410850883.5A
Authority: CN
Inventors: 高娅; 乔刚; 张兴明
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2016-07-27

Abstract

本发明实施例公开了一种典型异常声音检测方法及装置，涉及语音信号处理领域，用以提供一种基于声谱图的异常声音检测方法。在本发明实施例中，采集声音信号，对所述声音信号进行预处理，确定所述声音信号的有效信号片段；获取所述有效信号片段的声谱图并从中确定待测试识别特征矩阵，所述待测试识别特征矩阵用于表示声音信号在时频域上的声音强度分布情况；计算所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，根据计算结果确定所述有效信号片段中的异常声音类型；从而简化了异常声音识别过程中的计算复杂度，提高检测的准确率。

Description

一种典型异常声音检测方法及装置

技术领域

本发明涉及语音信号处理领域，尤其涉及一种典型异常声音检测方法及装置。

背景技术

异常声音是指正常环境下所不应该发生的声音，通常指在人类正常的生产生活中，突然发生的与人们生命财产安全相关的声音。异常声音检测是指从一段连续的声音信号中找出异常声音的端点(起点和终点)，并将有效的异常音信号从其中提取出来。玻璃破碎声的特征比较明显，在实际应用中检测起来要比较方便，而且在一些场合比如商场、公交车、街道等当发生***时一般都伴随着玻璃破碎声，因此将玻璃破碎声作为一种典型的异常音进行检测有一定的实用价值。

当前国内外关于异常声的识别研究中所采用的特征参数都是沿用的语音识别技术中的技术和参数，关于异常声音检测的相关研究主要有：

第一种方式：基于倒谱分析进行异常声音检测，即主要采用倒谱域特征参数进行声音的特征描述。通常对玻璃破碎声的研究大多沿用语音识别的技术，利用梅尔倒谱系数，短时能量等作为这种异常声音的特征值，对提取出来的特征值，利用一些模型，如隐马尔科夫模型，神经网络模型，高斯混合模型等，对特征值进行训练识别，检测出玻璃破碎声。但是只有当各个通带的输出统计均等时，梅尔倒谱系数才能表达最大的信息量，而事实上，异常声音在频带内的分布不一定是均匀分布的，而且利用训练的方式来识别，复杂度比较高，在实际应用中会受到一定的限制，因此传统的语音识别的方法不能很好的对玻璃破碎声进行识别。

第二种方式：将音频数据分割成50ms一帧，将ZCR(过零率)、LPC(线性预测)、LPCC(线性预测倒谱系数)等作为特征集，高斯混合模型作为多层分类器，其核心表现在多层次分类过程，第一层区分背景音，第二层区分语音和非语音，第三层识别异常音。虽然这种方法能够考虑背景噪声的影响，但是实现过程非常复杂，不容易应用到实际的视频及音频监控领域。

发明内容

本发明实施例提供一种典型异常声音检测方法及装置，能够基于声谱图的特征来检测异常声音，简化了异常声音识别过程中的计算复杂度，提高检测的准确率。

本发明实施例提供一种典型异常声音检测方法，该方法包括：

采集声音信号，对所述声音信号进行预处理，确定所述声音信号的有效信号片段；

获取所述有效信号片段的声谱图并根据所述声谱图确定待测试识别特征矩阵，所述待测试识别特征矩阵用于表示声音信号在时频域上的声音强度的分布情况；

计算所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，根据计算结果确定所述有效信号片段中的异常声音类型。

本发明实施例还提供一种典型异常声音检测装置，该装置包括：

采集单元，用于采集声音信号，对所述声音信号进行预处理，确定所述声音信号的有效信号片段；获取所述有效信号片段的声谱图；

确定单元，用于确定异常声音声谱图的识别特征矩阵，所述待测试识别特征矩阵用于表示声音信号在时频域上的声音强度的分布情况；

计算单元，用于计算所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，根据计算结果确定所述有效信号片段中的异常声音类型。

可见，本发明实施例没有使用传统的语音识别的方法来检测异常声音，而是使用声谱图来对异常音进行检测。避免了特征提取过程中由于使用常规的语音特征值的提取如梅尔倒谱系数，造成的因异常声音在频带内的不均匀分布，导致各个通带的输出统计不均等，从而使得梅尔倒谱系数不能很好的表征声音的特征，而造成的识别准确率不高的问题。另外，本发明实施例采用声谱图的方法来检测异常声音，计算复杂度比较低，使之可以在实际的视频监控领域中得到很好的应用，扩大使用的范围。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种典型异常声音检测方法的流程示意图；

图2为本发明实施例提供的一种基于声谱图的异常声音检测方法的流程示意图；

图3为本发明实施例提供的一种待测试识别特征矩阵提取过程的流程示意图；

图4为本发明实施例提供的一种计算相似度的流程示意图；

图5为本发明实施例提供的一种典型异常声音检测装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例提出了一种基于声谱图的特征来检测异常声音的方法。对于声音信息，人们依靠音色、音高、音量三个特征进行区分，而这些特征都可由声谱图时频结构中的参数表征。声谱图是描述声音信号的一种三维感知图，由频率、时间、声音强度三个维度信息构成。而且不同的异常声音声谱图的时频结构在朝向和细微程度方面都有显著的不同，对不同的异常声音信号有着本质的揭示同时又具备很好的鉴别性。将声谱图作为原始特征源，按照一定的规律，提取声谱图的特征矩阵，通过计算待测试识别特征矩阵与异常声音模型库中的识别特征矩阵之间的距离，来检测异常声音。本发明实施例能更好的表征声音的特征，提高检测的准确率，而且识别过程计算比较简单，复杂度比较低，可以在实际的视频监控中得到很好的应用。

图1示出了本发明实施例提供的一种典型异常声音检测方法的流程示意图，如图1所示，该方法可以包括：

步骤11：采集声音信号，对声音信号进行预处理，提取声音信号的有效信号片段。

步骤12：获取该有效信号片段的声谱图并根据该声谱图提取待测试识别特征矩阵，该待测试识别特征矩阵用于表示声音信号在时频域上的声音强度的分布情况。

步骤13：计算待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，根据计算结果确定有效信号片段中的异常声音类型。

可选的，在上述步骤12中，将有效信号片段的波形图转换为由有效信号片段的频率、时间和声音强度三个维度信息组成的声谱图；提取用于表征声谱图的声音强度分布情况的待测试识别特征矩阵。

可选的，在上述步骤13中，计算待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，将与识别特征矩阵相似度最大的异常声音模型库中的标准识别特征矩阵所对应的噪声类型，确定为有效信号片段的异常声音类型。

可选的，在上述步骤中，将有效信号片段加窗划分为若干个帧；对每一帧进行短时傅里叶变换，得到该帧的频谱信息，该频谱信息用于表示该帧的频率与声音强度之间的关系；连接所有帧的频谱信息，得到有效信号片段的声谱图，声谱图由若干个点组成，任一点的坐标(x，y)用于表示该点在x时刻，y频率上对应的声音强度。

可选的，在上述步骤中，根据声谱图中的每个点所处于的帧、频率和声音强度，提取声谱图识别特征矩阵；对于每一帧，提取声谱图矩阵中声音强度值从大到小的前K个频率值；根据K个频率值中的每个频率值在时间域上的相对位置，生成用于表征声谱图的声音强度分布情况的识别特征矩阵。

可选的，在上述步骤13中，对于所述异常声音模型库中的任一标准识别特征矩阵，由所述标准识别特征矩阵的第一行第一列的元素至所述标准识别特征矩阵的第一行最后一列的元素，分别确定与所述待测试识别特征矩阵中第一行第一列的取值之间的差值小于预设阈值的所述标准识别特征矩阵中的各元素，将各元素所处位置作为起始点分别进行设窗操作，分别得到该窗所覆盖的窗矩阵，该窗与待测试识别特征矩阵的维数相同；计算各窗矩阵与待测试识别特征矩阵的商矩阵，将所述商矩阵中的每一行元素分别乘以预设权重值，得到各窗矩阵与所述待测试识别特征矩阵的相似度；根据计算得到的所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的全部的相似度，将全部的相似度中的取值最大的相似度确定为所述标准识别特征矩阵与所述待测试识别特征矩阵的相似度。

可选的，在上述步骤11中，对声音信号进行预加重处理，得到预加重后的声音信号；将预加重后的声音信号进行分帧加窗处理，将在短时间段内能量值大于预设阈值的一段声音信号确定为有效信号片段。

需要说明的是，本方法中使用的噪声模型可以是通过调研整理国内外异常声音研究的相关资料而获取的异常声音数据库中包括各种不同材质、不同大小，不同厚度等情况下的玻璃破碎声，为了接近实际的使用场合，还加入了典型的公共场所的背景噪声：火车站和大型广场。本发明实施例仅以上述噪声模型进行举例描述，但本发明实施例不仅限于检测玻璃破碎声，还可以较优的适用于其他典型异常声音的检测和识别。

下面对本发明实施例进行详细描述。

图2示出了本发明实施例提供的一种基于声谱图的异常声音检测方法的流程示意图，如图2所示，该方法可以包括：

步骤21：采集声音信号，对采集到的声音信号进行预处理，提取有效信号片段。

具体的，对声音信号进行预加重处理，得到预加重后的声音信号；将预加重后的声音信号进行分帧加窗处理，将在短时间段内能量值大于预设阈值的一段声音信号确定为有效信号片段。

具体实现时，在本发明实施例中对采集到的声音信号进行预处理可以包括预加重、端点检测以及分帧加窗等。本发明实施例中，首先，对采集到的声音信号进行预加重，利用特定的高通滤波器对采集到的声音信号的高频部分进行补偿；然后，对预加重后的声音信号进行端点检测，确定该声音信号中有效信号的起始点，一般来说，由于采集到的声音信号中可能存在一段时间的静音或空白，为了提高异常声音的检测效率，本发明实施例可以通过确定声音信号中的有效声音信息(即，有效信号)的起始点，然后再对有效信号进行异常声音匹配或检测；再然后，对已确定起始点的有效信号在一定范围内的特征参数进行分帧加窗处理，使其满足统计特性平稳。

步骤22：将有效信号片段的波形图转换为由有效信号片段的频率、时间和声音强度三个维度信息组成的声谱图。

具体实现时，声谱图广泛应用于音频信号的分析和处理中。它是二维图，尽管其上每个点对应一个三维值。其横轴是时间，纵轴是频率。与坐标(x，y)对应的点表示在时刻x，频率y上的声音强度，这通过不同的颜色来表现。从声音信号的声谱图中，可以考察出整个时间-频率范围内声音强度的分布和变化情况；而这是波形图中无法呈现的。为获得声谱图，声音信号被分割成很短的帧，相邻帧会有一定的重叠。然后对每个帧做短时傅里叶变换得到对应的频谱信息，由于声谱图由频率、时间、声音强度三个维度信息构成，因此需要对声音强度的取值进行计算。最终将频谱信息连接成完整的声谱图。

举例来说，本发明实施例将有效信号片段加窗划分为若干个帧；对每一帧进行短时傅里叶变换，得到该帧的频谱信息，频谱信息用于表示该帧的频率与声音强度之间的关系；连接所有帧的频谱信息，得到有效信号片段的声谱图，声谱图由若干个点组成，任一点的坐标(x，y)用于表示该点在x时刻，y频率上对应的声音强度。在本发明实施例中，对声音的时序信号进行短时傅里叶变化，傅里叶变换的长度为2N点，这样每一帧的信号都可以得到长度为N的频谱，每一点的声压值表示为：P＝20*log₁₀|x(1/N)|

其中，P为该点的声压值，x为该帧信号的频谱值。

步骤23：根据声谱图区别异常声音和背景噪声。

具体实现时，通过实验发现，玻璃破碎发生时，由于不同的拉应力产生一些泛音，因此声谱图中除了包括基频整数倍的谐频外，还有非整数倍的谐频，在声谱图的时频结构上表现为各个频段出现不规则的水波纹样的横纹。而公共场所的背景噪声能量分布均匀，其声谱图没有明显的时频结果，因此可以利用声谱图来去除噪声对声音识别的影响。需要说明的是，本发明实施例不仅限于检测玻璃破碎时所产生的异常声音，还可利用各种异常声音模型对其它各种类型的异常声音进行检测和识别。

步骤24：根据声谱图中的每个点所处于的帧、频率和声音强度，生成声谱图矩阵。

具体实现时，声谱图中的每个点实际上对应于给定时间、给定频率上的声音强度值，因此选择声谱图作为原始特征源能够更好的展现出声音信号的时频结构。

举例来说，在傅里叶变换的过程中将频谱按预定参数离散化，将每帧对应的频谱数组连接起来，就形成了声谱图矩阵。其中，声谱图矩阵中的列对应于时间段上的帧，声谱图矩阵中的行对应于频率段上的频率。

步骤25：从声谱图矩阵中提取用于表征声谱图的声音强度分布情况的待测试识别特征矩阵。

具体实现时，从声谱图矩阵中提取待测试识别特征矩阵，因为强度较小的频率对声效的影响不大，因此对于每一帧数据，根据各个频率的强度值对其进行排序，动态地为每帧保存强度最大的K个频率值，忽略其他的频率，这样可以使用最小的空间保存最显著的信息，大大减少特征的存储空间，这样不仅可以降低计算复杂度，而且可以较好的保存有用信息，不失内容的表征性。

由于在生成声谱图时，设定的频域范围是统一的，离散是均匀的，因此在声谱图矩阵中相同的行标识对应的是相同的频率，相同的行对应的是相同的频率随时间变化的情况，因此，行标识就相当于最强频率在频域上的相对位置。图3示出了本发明实施例提供的一种待测试识别特征矩阵提取过程的流程示意图，如图3所示，该过程可以包括但不限于如下步骤：

首先，在声谱图矩阵中找到每列中最大值对应的行标识(例如，第一行对应的标识为A，第二行对应的标识为B，第三行对应的标识为C，……以此类推，这里不再赘述)，将这些行标识存入识别特征矩阵的第一行。列对应于时间段上的帧，行对应于频率段上的频率，因此行标识即可看作频率值的变换表达形式，也就是说，行标识为最大频率对应的位置信息；将不同的行标识存入识别特征矩阵的第一行可以理解为识别特征矩阵中存储了不同位置对应的不同频率值。需要说明的是，如果有多个最大值，则保存最小的行标识(即，由小至大的行标识依次为A～Z)。其次，找出每列中第二大值对应的行标识，存入识别特征矩阵的第二行，以此类推，共重复K次，构成K行的特征矩阵，而其列数等于帧数。由于实验发现，当K的取值大于5时对实验结果的影响不大，因此本发明实施例可以将K的取值确定为5，这样，不仅可以降低计算复杂度，还能很好的表示声音的特征。进一步的，待测试识别特征矩阵的最后一行存放的是前5个最大值对应的短时平均幅度值，构成一个(K+1)*帧数的待测试识别特征矩阵。而待测试识别特征矩阵中存放的行标识表示最强频率在频率域上的相对位置。

步骤26：计算待测试识别特征矩阵与异常声音模型库中的各个标准识别特征矩阵的相似度。

具体实现时，由于待测试识别特征矩阵中的数据不是连续的特征向量值，欧式距离不能很好的表示两个矩阵的特性，因此本发明实施例采用以下方式来计算两个矩阵的相似度。

优选的，在本发明实施例中的异常声音模型库存储有各种类型的典型的异常声音类型模板所对应的标准识别特征矩阵。

需要说明的是，在本发明实施例中，仅以如下步骤S41～步骤S47仅作为计算相似度的举例进行详细说明，在实际应用时不限于步骤S41～步骤S47的方法。在异常声音检测过程中，执行步骤26之后，继续执行步骤27。

图4示出了本发明实施例提供的一种计算相似度的流程示意图，如图4所示，该过程可以包括：

步骤S41：判断待测试识别特征矩阵中第一行第一列元素的取值是否与异常声音模型库中的标准识别特征矩阵的第一行第i列元素的取值最接近，若是，则执行步骤S43；否则，执行步骤S42。

步骤S42：将滑动窗口由异常声音模型库中的标准识别特征矩阵中的第i列向后移动1列，使i＝i+1。并执行S41(也就是说，此时比较的是待测试识别特征矩阵中第一行第一列元素的取值与异常声音模型库中的标准识别特征矩阵的第一行第i(i＝i+1)列的取值)，直到在异常声音模型库中的标准识别特征矩阵中找到一列的取值与识别特征矩阵中第一行第一列元素的取值最接近。

步骤S43：将异常声音模型库中的标准识别特征矩阵中的第i列作为滑动窗口的第一列，将待测试识别特征矩阵的维数作为滑动窗口的维数，确定出一个与待测试识别特征矩阵相同维数的矩阵。

步骤S44：计算滑动窗口所在矩阵与待测试识别特征矩阵的商矩阵。

举例来说，滑动窗口所在矩阵中的元素的取值点除以待测试识别特征矩阵中处于同一位置的元素的取值，对两矩阵中每个元素依次进行点除运算，从而获得滑动窗口所在矩阵与待测试识别特征矩阵的商矩阵，如果处于两矩阵相同位置的元素值相等，则在商矩阵对应位置处的值标为1。

步骤S45：根据商矩阵计算滑动窗口所在矩阵与待测试识别特征矩阵的相似度。

步骤S46：判断该窗是否移动到标准识别特征矩阵的第一行最后一列，若是，则继续执行步骤S47，否则，执行步骤S42。

具体实现时，直至该滑动窗口移动到标准识别特征矩阵的终止位置(第一行最后一列所在位置)，得到该窗所在矩阵与所述待测试识别特征矩阵的各相似度。

需要说明的是，异常声音模型库中存储有各种典型异常声音模型，每一个典型异常声音模型对应一个与该典型异常声音的特性对应的标准识别特征矩阵，通过上述步骤S41～步骤S46仅对异常声音模型库中的任意一个标准识别特征矩阵进行匹配，为了能够与异常声音模型库中的每种典型异常声音模型进行匹配，本发明实施例还可以对于典型异常声音模型其它典型异常声音模型，依次执行上述步骤S41～步骤S46，直到对异常声音模型库中的全部典型异常声音模型(即，全部标准识别特征矩阵)依次进行匹配，从而确定出有效信号片段的异常声音类型。在对标准识别特征矩阵标准识别特征矩阵之后，继续执行步骤S47。

步骤S47：将各相似度中的取值最大的相似度确定为所述标准识别特征矩阵与所述待测试识别特征矩阵的相似度。

在本发明实施例中，在计算商矩阵时要保证两矩阵的维数相等，而待测试识别特征矩阵对应声音的时长通常比异常声音模型库中的各个标准识别特征矩阵对应的声音的时长要短，因此需要找出与待测试识别特征矩阵相同的维数，可以利用一个与识别特征矩阵相同维数的滑动窗口从异常声音模型库中的标准识别特征矩阵的第一行第一列开始一直滑动到第一行最后一列，并一一进行比较。为了提高计算效率，首先找到和待测试识别特征矩阵中第一行第一列值接近的位置作为起始位置，划出一块和待测试识别特征矩阵相同大小的窗口矩阵，计算待测试识别特征矩阵与窗口矩阵的商矩阵。由于待测试识别特征矩阵中第一行对应最强频率值、第二行对应次强频率值，并以此类推。通常来说，强度越弱，越容易受到外界的影响，误差越大。因此需要将每行看作不同的重要程度来对待，可以为每行乘以一个权值，强度越小，权值越小，经过多次实验，本发明实施例可以将计算出的商矩阵的权重(即，将商矩阵中的每一行元素分别乘以预设权重值)从第一列到最后一列依次设为：1,1,0.8,0.6,0.5,0.6，从而计算出两矩阵的相似度。再接着移动窗口，若窗口中第一个位置不对，就不需要继续向后比较，直接移动窗口，直到找到新的起始位置，因此计算得到的相似度可能不止一个，这样，需要继续执行步骤27选择相似度最大的。需要说明的是，在本发明实施例中的预设权重值仅以上述较优选取值为例进行说明，该预设权重值还可以为其它取值，这里不再一一赘述。

举例来说，在所述异常声音模型库中的标准识别特征矩阵中找到与所述待测试识别特征矩阵中第一行第一列的取值最接近的数值所处位置，并将这位置作为起始点来设窗，该窗与待测试识别特征矩阵的维数相同，计算该窗与待测试识别特征矩阵的商矩阵，将计算出的商矩阵与预设权重值，得到窗与待测试识别特征矩阵的相似度。接着继续移动窗口，如果新窗口的第一个位置与待测试识别矩阵不接近，则无需比较继续向后移动窗口即可，直到找到新的起始位置。这样会得到不止一个相似度，将其中最大值作为模型库中识别特征矩阵与待测试识别特征矩阵的相似度值。进一步的，对异常声音模型库中的每一个标准识别特征矩阵执行上述操作，并得到若干个相似度。

步骤27：将与待测试识别特征矩阵相似度最大的异常声音模型库中的各标准识别特征矩阵所对应的异常声音模型，确定为有效信号片段的异常声音类型。

可见，本发明实施例没有使用传统的语音识别的方法来检测异常声音，而是使用声谱图来对异常音来进行检测。避免了特征提取过程中由于使用常规的语音特征值的提取如梅尔倒谱系数，造成的因异常声音在频带内的不均匀分布，导致各个通带的输出统计不均等，从而使得梅尔倒谱系数不能很好的表征声音的特征，而造成的识别准确率不高的问题。另外，本发明实施例采用声谱图的方法来检测异常声音，计算复杂度比较低，使之可以在实际的视频监控领域中得到很好的应用，扩大使用的范围。

基于相同的技术构思，本发明实施例还提供一种可用于执行上述异常声音检测方法的装置，图5示出了本发明实施例提供的一种典型异常声音检测装置，如图5所示，该装置可以包括：

采集单元51，用于采集声音信号，对所述声音信号进行预处理，确定所述声音信号的有效信号片段；获取所述有效信号片段的声谱图；

确定单元52，用于确定异常声音声谱图的识别特征矩阵，所述待测试识别特征矩阵用于表示声音信号在时频域上的声音强度的分布情况；

计算单元53，用于计算所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，根据计算结果确定所述有效信号片段中的异常声音类型。

可选的，所述采集单元51具体用于：将所述有效信号片段的波形图转换为由所述有效信号片段的频率、时间和声音强度三个维度信息组成的声谱图；所述确定单元52具体用于获取用于表征所述声谱图的声音强度分布情况的识别特征矩阵；所述计算单元53具体用于：计算所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，将与所述待测试识别特征矩阵相似度最大的异常声音模型，确定为所述有效信号片段的异常声音类型。

可选的，所述采集单元51具体用于：将所述有效信号片段按照预设采样率划分为若干个帧；对任一帧进行短时傅里叶变换，得到该帧的频谱信息，所述频谱信息用于表示该帧的频率与声音强度之间的关系；连接所有帧的频谱信息，得到所述有效信号片段的声谱图，所述声谱图由若干个点组成，任一点的坐标(x，y)用于表示该点在x时刻，y频率上对应的声音强度。

可选的，所述确定单元52具体用于：根据所述声谱图中的每个点所处于的帧、频率和声音强度，确定声谱图识别特征矩阵；对于每一帧，确定所述声谱图识别特征矩阵中声音强度值从大到小的前K个频率值；根据所述K个频率值中的每个频率值在时间域上的相对位置，生成用于表征所述声谱图的声音强度分布情况的待测试识别特征矩阵。

可选的，所述计算单元53具体用于：对于所述异常声音模型库中的任一标准识别特征矩阵，由所述标准识别特征矩阵的第一行第一列的元素至所述标准识别特征矩阵的第一行最后一列的元素，分别确定与所述待测试识别特征矩阵中第一行第一列的取值之间的差值小于预设阈值的所述标准识别特征矩阵中的各元素，将各元素所处位置作为起始点分别进行设窗操作，分别得到该窗所覆盖的窗矩阵，该窗与待测试识别特征矩阵的维数相同；计算各窗矩阵与待测试识别特征矩阵的商矩阵，将所述商矩阵中的每一行元素分别乘以预设权重值，得到各窗矩阵与所述待测试识别特征矩阵的相似度；根据计算得到的所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的全部的相似度，将全部的相似度中的取值最大的相似度确定为所述标准识别特征矩阵与所述待测试识别特征矩阵的相似度。

可选的，所述采集单元51具体用于：对所述声音信号进行预加重处理，得到预加重后的声音信号；将预加重后的声音信号进行分帧加窗处理，将在短时间段内能量值大于预设阈值的一段声音信号确定为有效信号片段。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器，使得通过该计算机或其他可编程数据处理设备的处理器执行的指令可实现流程图中的一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图的一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种典型异常声音检测方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，所述获取所述有效信号片段的声谱图并根据所述声谱图确定待测试识别特征矩阵，具体包括：

将所述有效信号片段的波形图转换为由所述有效信号片段的频率、时间和声音强度三个维度信息组成的声谱图；

确定用于表征所述声谱图的声音强度分布情况的待测试识别特征矩阵；

所述计算所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，根据计算结果确定所述有效信号片段中的异常声音类型，具体包括：

计算所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，将与所述待测试识别特征矩阵相似度最大的异常声音模型，确定为所述有效信号片段的异常声音类型。

3.如权利要求2所述的方法，其特征在于，所述将所述有效信号片段的波形图转换为声谱图，具体包括：

将所述有效信号片段加窗划分为若干个帧；

对每一帧进行短时傅里叶变换，得到该帧的频谱信息，所述频谱信息用于表示该帧的频率与声音强度之间的关系；

连接所有帧的频谱信息，得到所述有效信号片段的声谱图，所述声谱图由若干个点组成，任一点的坐标(x，y)用于表示该点在x时刻，y频率上对应的声音强度。

4.如权利要求3所述的方法，其特征在于，所述根据所述声谱图确定待测试识别特征矩阵，具体包括：

根据所述声谱图中的每个点所处于的帧、频率和声音强度，确定声谱图矩阵；

对于每一帧，确定所述声谱图矩阵中声音强度值从大到小的前K个频率值；

根据所述K个频率值中的每个频率值在频域上的相对位置，生成用于表征所述声谱图的声音强度分布情况的待测试识别特征矩阵。

5.如权利要求1-4中任一项所述的方法，其特征在于，所述计算所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，具体包括：

对于所述异常声音模型库中的任一标准识别特征矩阵，由所述标准识别特征矩阵的第一行第一列的元素至所述标准识别特征矩阵的第一行最后一列的元素，分别确定与所述待测试识别特征矩阵中第一行第一列的取值之间的差值小于预设阈值的所述标准识别特征矩阵中的各元素，将各元素所处位置作为起始点分别进行设窗操作，分别得到该窗所覆盖的窗矩阵，该窗与待测试识别特征矩阵的维数相同；计算各窗矩阵与待测试识别特征矩阵的商矩阵，将所述商矩阵中的每一行元素分别乘以预设权重值，得到各窗矩阵与所述待测试识别特征矩阵的相似度；

根据计算得到的所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的全部的相似度，将全部的相似度中的取值最大的相似度确定为所述标准识别特征矩阵与所述待测试识别特征矩阵的相似度。

6.如权利要求1-5中任一项所述的方法，其特征在于，所述对所述声音信号进行预处理，确定所述声音信号的有效信号片段，具体包括：

对所述声音信号进行预加重处理，得到预加重后的声音信号；

将预加重后的声音信号进行分帧加窗处理，将在短时间段内能量值大于预设阈值的一段声音信号确定为有效信号片段。

7.一种典型异常声音检测装置，其特征在于，该装置包括：

确定单元，用于确定异常声音声谱图的待测试识别特征矩阵，所述待测试识别特征矩阵用于表示声音信号在时频域上的声音强度的分布情况；

计算单元，用于计算所述待测试的识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，根据计算结果确定所述有效信号片段中的异常声音类型。

8.如权利要求7所述的装置，其特征在于，所述采集单元具体用于：将所述有效信号片段的波形图转换为由所述有效信号片段的频率、时间和声音强度三个维度信息组成的声谱图；

所述确定单元具体用于：确定用于表征所述声谱图的声音强度分布情况的识别特征矩阵；

所述计算单元具体用于：计算所述待测试识别特征矩阵与异常声音模型库中的各标准识别特征矩阵的相似度，将与所述待测试识别特征矩阵相似度最大的异常声音模型，确定为所述有效信号片段的异常声音类型。

9.如权利要求8所述的装置，其特征在于，所述采集单元具体用于：

将所述有效信号片段加窗划分为若干个帧；

对每一帧进行短时傅里叶变换，得到该帧的频谱信息，所述频谱信息用于表示该帧的频率与声音强度之间的关系；连接所有帧的频谱信息，得到所述有效信号片段的声谱图，所述声谱图由若干个点组成，任一点的坐标(x，y)用于表示该点在x时刻，y频率上对应的声音强度。

10.如权利要求9所述的装置，其特征在于，所述确定单元具体用于：

对于每一帧，确定所述声谱图矩阵中声音强度值从大到小的前K个频率值；根据所述K个频率值中的每个频率值在频域上的相对位置，生成用于表征所述声谱图的声音强度分布情况的待测试识别特征矩阵。

11.如权利要求7-10中任一项所述的装置，其特征在于，所述计算单元具体用于：

12.如权利要求7-11中任一项所述的装置，其特征在于，所述采集单元具体用于：

对所述声音信号进行预加重处理，得到预加重后的声音信号；将预加重后的声音信号进行分帧加窗处理，将在短时间段内能量值大于预设阈值的一段声音信号确定为有效信号片段。