CN117292709B

CN117292709B - 一种暖通机房异常音频识别方法及装置

Info

Publication number: CN117292709B
Application number: CN202311567439.8A
Authority: CN
Inventors: 刘龙豹
Original assignee: Beijing Zhongruiheng Science & Technology Co ltd
Current assignee: Beijing Zhongruiheng Science & Technology Co ltd
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-09
Anticipated expiration: 2043-11-23
Also published as: CN117292709A

Abstract

本申请公开了一种暖通机房异常音频识别方法及装置，涉及暖通技术领域，通过将待识别音频的MFCC特征和正常音频数据的MFCC特征进行合并得到待分类数据集，然后采用预先训练好的KMeans算法和孤立森林算法分别对待分类数据集进行分类，并根据分类结果判断待识别音频是否异常，从而得到第一预测结果和第二预测结果；对第一预测结果和第二预测结果进行投票，根据投票结果最终确定待识别音频是否异常。本申请能够在暖通场景下对特定设备有针对性的进行声音信号分析，并得到预测结果，避免了单个算法单独判断时出现错误的情况，能够准确的判断设备异常声音，减少错判率，提高计算效率。

Description

一种暖通机房异常音频识别方法及装置

技术领域

本申请涉及暖通技术领域，具体涉及一种暖通机房异常音频识别方法及装置。

背景技术

异常声音检测任务可以分为有监督异常声音检测和无监督异常声音检测两种类型。

有监督异常声音检测需要使用已标记好的正常声音和异常声音数据集进行训练，在测试阶段，算法会将新的声音样本与已训练好的模型进行比较，从而判断其是否为异常声音。但是，在设备实际运行过程中，因设备故障而导致出现异常声音的情况非常少，并且种类不定，想要搜集详细而且大量的异常声音数据集进行训练不太现实。

相反，无监督异常声音检测则不需要预先标记数据集中的正常声音和异常声音。这种方法通常基于假设，即正常声音和异常声音在频域或时域上有不同的特征，如异常声音的能量或频谱分布。算法会自动学习这些特征，并将声音分为正常和异常两类。因此，这种方法只需要采集正常声音的信号特征，无需采集异常声音样本，也不需要人工标注数据，比较适合需要自动检测异常声音的场景。

但是，目前异常声音检测任务仍然存在一些不足之处：

1、针对性不强：不同的设备具有不同的声音特性和异常声音类型，目前尚且没有在暖通场景下对特定设备有针对性的进行声音信号分析，而通用数据集，可能不会包含足够多的特定类型的异常声音，使得模型难以学习其特征，从而导致检测准确性和敏感性的降低。

2、对参数选择敏感：目前的主流声音检测模型采用SVM和神经网络模型来对数据进行训练和预测，但这两种方法都极其依赖于参数的选择，对SVM算法来说，选择不合适的核函数或调整不当的参数可能会降低SVM的分类性能；而对神经网络模型来说，不合适的参数设置可能会导致模型收敛速度慢、过拟合或欠拟合等问题。在实际应用中，往往需要进行大量的实验和交叉验证来选择最优的参数组合。

3、计算效率不高：现有技术往往使用复杂的声音信号处理技术和较为复杂的模型来进行分析，这会导致计算效率低下，增加***的响应时间，无法满足实时异常检测的需求。

发明内容

为此，本申请提供一种暖通机房异常音频识别方法及装置，以解决现有技术存在的异常声音检测方法针对性不强、算法对参数选择敏感以及计算效率不高的问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面，一种暖通机房异常音频识别方法，包括：

步骤1：通过巡检机器人获取设备的待识别音频，并提取所述待识别音频的MFCC特征；

步骤2：获取设备的正常音频数据，并提取所述正常音频数据的MFCC特征；

步骤3：将所述待识别音频的MFCC特征和所述正常音频数据的MFCC特征进行合并得到待分类数据集；

步骤4：采用预先训练好的KMeans算法对所述待分类数据集进行分类，并根据分类结果判断所述待识别音频是否异常，从而得到第一预测结果；

步骤5：采用预先训练好的孤立森林算法对所述待分类数据集进行分类，并根据分类结果分别判断所述待识别音频是否异常，从而得到第二预测结果；

步骤6：对所述第一预测结果和所述第二预测结果进行投票，根据投票结果最终确定所述待识别音频是否异常。

作为优选，所述步骤1或所述步骤2中提取所述待识别音频的MFCC特征或所述正常音频数据的MFCC特征时采用librosa进行提取。

作为优选，所述步骤1或所述步骤2中提取所述待识别音频的MFCC特征或所述正常音频数据的MFCC特征时使用汉明窗函数进行加窗。

作为优选，所述步骤4中，所述KMeans算法的簇中心为样本的中位数。

作为优选，所述KMeans算法中样本到簇中心的距离计算公式为加权欧式距离，所述加权欧式距离计算公式为：

其中，、/>为样本，/>，/>，/>为特征k对应的权重，m为特征个数；

其中，为标注差，/>为：

其中，n为样本数。

作为优选，所述步骤4具体为：

步骤401：采用预先训练好的KMeans算法将所述待分类数据集分为两类，并得到每个数据的预测类别标签；

步骤402：计算正常数据的预测类别标签平均值，并将所述平均值设定为正常标签；

步骤403：计算待识别数据中标签为正常标签的数据占总数据的比例；

步骤404：根据所述比例判断所述待识别数据是否为异常数据，从而得到第一预测结果。

作为优选，所述步骤5中，所述孤立森林算法确定分割点时具体为：

计算所有样本在随机选取的特征维度下的最小值、最大值和极差；

根据所述极差去除组数得到组距；

计算各组的界限位；

统计每组数据的个数为频数，并找到频数最小的组，以其中位数为随机分割点。

第二方面，一种暖通机房异常音频识别装置，包括：

异常音频特征提取模块，用于通过巡检机器人获取设备的待识别音频，并提取所述待识别音频的MFCC特征；

正常音频特征提取模块，用于获取设备的正常音频数据，并提取所述正常音频数据的MFCC特征；

特征融合模块，用于将所述待识别音频的MFCC特征和所述正常音频数据的MFCC特征进行合并得到待分类数据集；

第一预测模块，用于采用预先训练好的KMeans算法对所述待分类数据集进行分类，并根据分类结果判断所述待识别音频是否异常，从而得到第一预测结果；

第二预测模块，用于采用预先训练好的孤立森林算法对所述待分类数据集进行分类，并根据分类结果分别判断所述待识别音频是否异常，从而得到第二预测结果；

投票模块，用于对所述第一预测结果和所述第二预测结果进行投票，根据投票结果最终确定所述待识别音频是否异常。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种暖通机房异常音频识别方法的步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种暖通机房异常音频识别方法的步骤。

相比现有技术，本申请至少具有以下有益效果：

本申请提供了一种暖通机房异常音频识别方法及装置，通过将待识别音频的MFCC特征和正常音频数据的MFCC特征进行合并得到待分类数据集，然后采用预先训练好的KMeans算法和孤立森林算法分别对待分类数据集进行分类，并根据分类结果判断待识别音频是否异常，从而得到第一预测结果和第二预测结果；对第一预测结果和第二预测结果进行投票，根据投票结果最终确定待识别音频是否异常。本申请能够在暖通场景下对特定设备有针对性的进行声音信号分析，然后分别采用预先训练好的KMeans算法和孤立森林算法对待识别数据集进行预测，在得到预测结果后采用投票方式进行最终决策，避免了单个算法单独判断时出现错误的情况，能够准确的判断设备异常声音，减少错判率，提高计算效率。

附图说明

为了更直观地说明现有技术以及本申请，下面给出示例性的附图。应当理解，附图中所示的具体形状、构造，通常不应视为实现本申请时的限定条件；例如，本领域技术人员基于本申请揭示的技术构思和示例性的附图，有能力对某些单元（部件）的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。

图1为本申请实施例一提供的一种暖通机房异常音频识别方法基本流程图；

图2为本申请实施例一提供的一种暖通机房异常音频识别方法详细流程图；

图3为本申请实施例一提供的投票决策流程图。

具体实施方式

以下结合附图，通过具体实施例对本申请作进一步详述。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象，而不具有技术内涵方面的特别意义（例如，不应理解为对重要程度或次序等的强调）。“包括”、“包含”、“具有”等表述方式，同时还意味着“不限于”（某些单元、部件、材料、步骤等）。

本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，通常是为了便于对照附图直观理解而就大体的相对位置关系所作的指示，并非对实际产品中位置关系的绝对限定。

实施例一

请参阅图1和图2，本实施例提供了一种暖通机房异常音频识别方法，包括：

S1：通过巡检机器人获取设备的待识别音频，并提取待识别音频的MFCC特征；

具体的，为了提高针对性，本实施例通过巡检机器人定向采集特定设备的待识别音频。

采集到特定设备的待识别音频后，首先将其处理为采样频率为8000hz、单通道的wav格式文件，然后使用librosa对处理后的待识别音频进行MFCC（梅尔频率倒谱系数）特征提取，提取步骤包括预加重、STFT处理，mel滤波，DCT处理，最后取低维部分作为MFCC特征。

使用librosa对处理后的待识别音频进行MFCC特征提取时，MFCC维度数设置为20个，帧移设置为1024，窗函数选用汉明窗函数。

将帧移设置为1024可以减少信号的跳跃长度，在计算每个窗口的MFCC时，能够更加充分地利用临近的音频数据，从而减少噪声影响。

在MFCC特征提取过程中，为了保持声音每一帧两端的平滑性，要对声音帧进行加窗处理，给语音信号加上窗函数。与其他提取MFCC的方法不同的是，本实施例使用汉明窗函数来进行加窗。汉明窗公式如式（1）所示：

（1）

其中，N表示窗函数的长度。

汉明窗是通过加权信号的时域波形来减小窗口边缘的频谱泄漏和振铃效应。汉明窗在窗口的两端对信号进行平滑过渡，通过逐点乘法运算，将信号从窗口内渐变地过渡到0处，这样可以有效地降低频谱泄漏的影响，减少振铃现象，并且汉明窗具有良好的对称性，能够减少信号在频域中的畸变，保留短时信号的频率特性，有助于提升MFCC特征的准确性和可靠性。

最后，提取到每个待识别音频的MFCC特征后，对每个待识别音频的MFCC特征做转置，使得矩阵的每一行对应于音频信号一个帧的MFCC系数，将这些MFCC特征拼接在一起形成形状为（N，20）的待识别音频数据集。

S2：获取设备的正常音频数据，并提取正常音频数据的MFCC特征；

具体的，本步骤获取的正常音频数据为历史音频数据，历史音频数据也是巡检机器人在巡检过程中采集到的。提取正常音频数据的MFCC特征的方法与提取待识别音频的MFCC特征方法相同，在此不再赘述。

S3：将待识别音频的MFCC特征和正常音频数据的MFCC特征进行合并得到待分类数据集；

为了准确判断设备的异常声音，减少错判率，后续步骤将分别采用KMeans和孤立森林两种算法来对待识别数据集进行预测。KMeans算法和孤立森林算法都是无监督学习方法，适用于处理这种没有预先标注的数据集，其中KMeans算法计算复杂度较低，特别适用于大规模数据集和实时处理需求；而孤立森林算法不依赖于数据的分布假设，因此适用于各种类型的音频数据，它通过对数据进行随机划分和分割来构建树模型，而不需要考虑数据的具体分布情况，这使得孤立森林算法对于异常音频的识别具有较强的适应性和泛化能力。使用这两种算法可以节省进行模型调试的时间成本，更适合用于实时数据处理。

S4：采用预先训练好的KMeans算法对待分类数据集进行分类，并根据分类结果判断待识别音频是否异常，从而得到第一预测结果；

具体的，KMeans算法是一种常用的聚类算法，其大致思想为：从样本集中随机选取k个样本作为“簇中心”，并计算所有样本与这k个“簇中心”的距离，对于每一个样本，将其划分到与其距离最近的“簇中心”所在的簇中，对于新的簇计算其新的“簇中心”，再重复计算所有样本与“簇中心”的距离，并划分新簇，直到“簇中心”不再变化。其中，对样本到“簇中心”的距离度量选用欧式距离，这种方法在计算上效率较高。

为了使KMeans算法的聚类效果更好，本实施例对其做了两点改进：

第一，改变“簇中心”的计算方式。传统的KMeans算法计算“簇中心”时，直接通过计算样本均值来得到，但是这样计算得到的结果很容易受异常值影响，因此，改进后的计算方法为：选取样本的中位数作为“簇中心”，这样可以有效削弱异常值带来的影响；

第二，对样本特征进行加权处理。对于样本和样本，它们之间的欧式距离为：

（2）

传统方法使用上述式（2）计算欧式距离，没有衡量到各个特征的重要程度，从而有可能导致聚类准确性下降。因此，本实施例采用一种客观赋权法——标准差系数法：对某个指标来说，它的标准差越大，说明它提供的信息量越大，所以应该赋予其更高的权重。因此，将特征的标准差归一化并作为权重在计算距离时加入，可以提高聚类的准确率。

所以，改进后的KMeans算法计算过程为：

假设有n个样本，m个特征，对第k个特征，它的标准差为：

（3）

该特征对应的权重为：

（4）

则对于样本和样本/>，它们之间的加权欧式距离为：

（5）

本实施例采用改进的KMeans算法将待分类数据集分成两类，每一个数据得到分类标签0或1；得到分类标签后，对于数据集中的正常数据集，计算它们的标签均值，将更接近于该均值的标签设定为正常标签；对于数据集中的待预测数据集，计算其中标签为正常标签值占总数据的比例，设定阈值为0.1，若低于这个比例，则认为该数据为异常数据，从而得到第一预测结果。

需要说明的是，本实施例中在训练KMeans算法时，其训练样本均为特定设备的正常音频数据。

S5：采用预先训练好的孤立森林算法对待分类数据集进行分类，并根据分类结果分别判断待识别音频是否异常，从而得到第二预测结果；

具体的，孤立森林算法是一种从异常点出发，通过指定规则进行划分，根据划分次数进行判断的快速异常检测方法，比较适用于异常数据占总样本量很小、异常点特征与正常点特征差异很大的情况。在训练过程中，对于每棵孤立树其训练过程为：

步骤A：随机选取n个样本和m个特征；

步骤B：随机指定一个特征维度，在这个维度的最大值和最小值之间，随机指定一个切割点p；

步骤C：通过切割点p从而将节点空间分成两份，小于p的放在左分支，大于p的放在右分支；

步骤D：在左右分支节点递归步骤B和步骤C，不断构造节点，直到叶子节点只有1个数据。

在这样的分割过程中，由于异常值通常较少，且和正常数据特征差距较大，所以它会很早就被分割出来，离根节点的距离更近。

对所有孤立树的结果，计算样本的异常分数s，计算公式如下：

（6）

式（6）中，E(h(x))表示样本在每个孤立树的平均路径长度，其计算公式为：

（7）

其中，叶子节点的可能路径长度为，非叶子节点的可能路径长度为/>；

c(n)表示所有树的平均路径长度，用来对样本x的路径长度h(x)进行标准化处理，其计算公式为：

如果每个点的期望路径长度趋近于c(n)，那么异常得分值就在0.5分左右，说明数据中不存在异常点。异常得分越高，说明期望路径长度越短，是异常点的可能就越大，计算出来的异常得分如果接近于1，那么它一定是异常点。

为增加孤立森林算法的检测性能，本实施例提出改进随机划分标准的孤立森林算法，使得在孤立树在分割样本空间时，能够优先选择能最快隔离出异常数据的取值。具体操作为：在随机选择特征维度后，对特征值进行分析，选择低频率的属性值作为分隔值。这样选择边界值，相比于选取靠近中心的值来分割，能够减少分割次数，使异常样本在孤立树中的路径长度更短，在一定程度上可以减少存储和计算资源。

具体的分割步骤为：

步骤A：随机选取特征后，计算所有样本在该特征维度下的最小值，最大值和极差；

具体的，从数据集中随机选取一个特征维度，然后计算该特征维度下所有样本的最小值和最大值，然后通过最大值减去最小值得到极差。

步骤B：用极差去除组数10，从而求出组距d；

具体的，根据极差确定组数，通常可以使用“平方根取整法”或“斯特吕德公式”来确定分组的组数。然后用极差除以组数得到组距，确保各组的宽度大致相等。

步骤C：计算各组的界限位；

具体的，第一组的下界为最小值减去0.5，上界为下界值加上组距；第二组到第十组的下界为上一组的上界，上界为下界加上组距。

步骤D：统计每组数据个数为频数，并找到频数最小的组，以其中位数为随机分割点q。

基于改进分割点的孤立森林算法对本数据集进行训练并预测，算法会将识别到的异常点标记为-1，计算异常点个数占待预测数据集样本数的比例为异常比例，设定阈值为0.95，若异常比例大于0.95，则认为该样本为异常样本。

需要说明的是，本实施例中在训练孤立森林算法时，其训练样本均为特定设备的正常音频数据。

S6：对第一预测结果和第二预测结果进行投票，根据投票结果最终确定待识别音频是否异常。

请参阅图3，具体的，由于单一算法可能会受到噪音的影响，所以为了提高机器识别的准确性并降低错判率，本实施例在得到KMeans和孤立森林的预测结果后，将这两种算法的预测结果作为输入，采用投票方式进行最终决策。

投票法是集成学习里面针对分类问题的一种结合策略，结合两个算法的判断来确定最终结果。在理想状态下，投票法的预测结果应当优于任何一个基模型的预测效果。

在用KMeans算法和孤立森林算法进行异常值判断时，算法偏重于正常数据的特征训练，从而检测出与正常数据偏离较大的异常数据样本，这会使算法在应用时产生假警报，也就是将本来正常的数据标记为异常数据。基于此，本实施例结合两个算法的判断结果，只有两个算法都认为异常时才输出待判断音频为异常的判断，其他情况下都认为待判断音频为正常音频，这样做可以降低单一模型错误的影响，提高预测结果的稳定性和准确性。

本实施例提供的一种暖通机房异常音频识别方法能够在在无人值守的暖通机房中通过对机器人定向收录的设备音频进行分析，并识别异常声音，以辅助决策设备更好地判断设备是否故障，从而及时预警，通知相关人员前往修复故障，保障机房设备安全稳定运转，减少安全隐患。

实施例二

本实施例提供了一种暖通机房异常音频识别装置，包括：

关于一种暖通机房异常音频识别装置中各个模块的具体实现内容可以参见上文中对于一种暖通机房异常音频识别方法的限定，在此不再赘述。

实施例三

本实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种暖通机房异常音频识别方法的步骤。

实施例四

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种暖通机房异常音频识别方法的步骤。

以上实施例的各技术特征可以进行任意的组合（只要这些技术特征的组合不存在矛盾），为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述；这些未明确写出的实施例，也都应当认为是本说明书记载的范围。

Claims

1.一种暖通机房异常音频识别方法，其特征在于，包括：

步骤6：对所述第一预测结果和所述第二预测结果进行投票，根据投票结果最终确定所述待识别音频是否异常；

所述步骤4中，所述KMeans算法的簇中心为样本的中位数；所述KMeans算法中样本到簇中心的距离计算公式为加权欧式距离，所述加权欧式距离计算公式为：

；

其中，为标注差，/>为：

；

其中，n为样本数。

2.根据权利要求1所述的暖通机房异常音频识别方法，其特征在于，所述步骤1或所述步骤2中提取所述待识别音频的MFCC特征或所述正常音频数据的MFCC特征时采用librosa进行提取。

3.根据权利要求1所述的暖通机房异常音频识别方法，其特征在于，所述步骤1或所述步骤2中提取所述待识别音频的MFCC特征或所述正常音频数据的MFCC特征时使用汉明窗函数进行加窗。

4.根据权利要求1所述的暖通机房异常音频识别方法，其特征在于，所述步骤4具体为：

5.根据权利要求1所述的暖通机房异常音频识别方法，其特征在于，所述步骤5中，所述孤立森林算法确定分割点时具体为：

根据所述极差去除组数得到组距；

计算各组的界限位；

6.一种暖通机房异常音频识别装置，其特征在于，包括：

投票模块，用于对所述第一预测结果和所述第二预测结果进行投票，根据投票结果最终确定所述待识别音频是否异常；

所述KMeans算法的簇中心为样本的中位数；所述KMeans算法中样本到簇中心的距离计算公式为加权欧式距离，所述加权欧式距离计算公式为：

；

其中，为标注差，/>为：

；

其中，n为样本数。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。