CN112735448A

CN112735448A - 一种基于目标检测的声音检测方法及***

Info

Publication number: CN112735448A
Application number: CN202011480987.3A
Authority: CN
Inventors: 鲍亭文; 朱小芹; 王旻轩; 刘展; 金超
Original assignee: Beijing Cyberinsight Technology Co ltd
Current assignee: Beijing Cyberinsight Technology Co ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-04-30

Abstract

根据本申请的基于目标检测的声音检测方法及***，通过对声音信号的频谱图使用目标检测算法识别目标声音在谱图上的特定形态，不需要对声音进行降噪，对各类环境噪声抗干扰性好，不会产生误判，提升了模型的泛化性；不需要针对每一个目标声音的形态或者在不同频段的目标声音进行重新训练，训练的模型可以泛化到出现在不同频段、具有不同声压级、频谱形态略有不同的同类目标声音，可以适用在所有符合一定频谱形态特征的目标声音上。

Description

一种基于目标检测的声音检测方法及***

技术领域

本申请涉及一种基于目标检测的声音检测方法及***，适用于声音信号检测的技术领域。

背景技术

风力发电机叶片是风电机组将风能转化为机械能的重要部件之一，是获取较高风能利用系数和经济效益的基础，叶片状态的好坏直接影响整机的性能和发电效率。叶片运行维护与事故频发也将严重影响风场的综合效益。在叶片运行扫风的过程中，可以通过对于一些目标声音的识别辅助故障类型和故障位置的判断。现有的不同场景中，基于声音信号的雷电识别方法多是基于对突发高能量信号的判断，或者是结合其他类型信号，如图像、电流等，对雷电的发生进行判断和监测。基于突发高能量信号的方法对于环境中可能产生的其他类似特性的声音不能通过阈值进行很好的区分，如撞击声，放炮声等；而基于多种信号的方法虽然对于雷电现象的识别能力较强，但是由于需要安装多种监测手段，监测成本高昂，维护也更加复杂，而且同样的方法只适用于雷电识别这一单一场景。

对于排水孔堵塞、前缘腐蚀等会出现哨声的故障检测，现有方法往往都是对哨声形态或者特征进行提取，再通过聚类或者多项式拟合看相关性的方法对其进行识别。这类方式能对同一形态的哨声进行识别。当故障发展或者在不同频域出现新的形态不完全相同的哨声时，并不一定能达到很好的识别准确率。而哨声存在的频段与所在故障位置有关，而形态则与故障类型等有关，是随时间不断变化的。另外，此种方法对数据质量和特征提取要求较高，对于未知的环境未知的噪音，泛化性较低。

中国专利申请201710419138.9通过对采集声音样本中特定频域范围设定能量阈值，当阈值超过预设范围则认为产生了雷声；该方法单纯的通过频域能量进行规则判断，规则比较单一，并不能避免对环境中短时高能量的一切其他噪音的误判。中国专利申请201910331781.5通过图像、温湿度、电磁场测量装置，综合对雷电信息进行采集，装置首先通过光探测装置对数据采集进行触发，进而采集图像、电场、磁场等信息；该***并没有对数据采集后是否判断有雷电进行描述，因而可以理解为仅通过光强对雷电进行判断；该方法同样判断标准单一，无法对环境中短暂高亮度的其他信号进行区分，且多种信号的采集其监测成本也比较高。中国专利申请201510115347.5通过对叶片哨声频谱曲线进行提取，再拟合多项式对哨声形态进行重构，通过信号与重构模型的相关性对哨声进行识别；该方法需要对目标声音有有效的提取方法，对噪声的敏感度较高，而在实际场景中往往声音信号中含有各种各样的环境噪音，泛化性不高；其次，该方法对特征进行多项式拟合，对于风机全生命周期中哨声及其他故障声音形态随时间的变化泛化性不够，稳定性不高。中国专利申请201910603546.9通过对风机声音信号进行分帧，对分帧后的声音信号提取特征进行二聚类，通过类别标签的周期性对故障进行判断。该方法需要对故障特征选择有效的特征，对于频域和声强都可能发生变化的哨声、雷声等目标声音，无法进行识别。加之该专利使用二分类方法，对未见过的故障特征没有很好的区分，且无法识别异常状态的故障类型。

现有技术中的方案都只能针对单一目标声音进行检测，同一方法并不能复用到其他目标声音的检测中，其中的基于声音的方案均容易受到采集时各种环境噪声的影响。

发明内容

本发明的目的是提供一种基于目标检测的声音检测方法及***，其中单纯使用声音信号，通过对信号的频谱图进行目标检测的方法，达到准确识别目标声音的目的。该方法监测信号单一，泛化性高，能够准确识别频谱图中的目标声音形态，目标声音的频段改变或者环境中出现的各类噪声对其准确性影响不大。

本申请涉及一种基于目标检测的声音检测方法，包括训练流程和预测流程，所述训练流程包括以下步骤：

(1.1)收集多组带有目标声音的历史数据并对数据进行质量筛选；

(1.2)对数据进行频谱转换得到频谱图；

(1.3)将频谱图转换成图片并保存；

(1.4)使用目标检测标注工具对频谱图上目标声音的位置进行标注；

(1.5)使用目标检测模型对标注的图片数据进行训练；

预测流程包括以下步骤：

(2.1)对采集到的待检测音频信号进行数据质量筛选和频谱转换；

(2.2)将待检测数据的频谱转换成图片；

(2.3)使用训练好的目标检测模型对生成的图片进行预测；

(2.4)当模型识别到图片中包含目标声音的形态时，计算目标声音所在的频段和时间段并作为结果输出。

其中，步骤(2.3)中，预测后，模型输出检测目标的个数、概率以及其边框位置；步骤(2.3)后，还可以包括步骤：根据模型的检测结果生成检测因子；根据模型是否识别出目标声音以及目标声音出现的概率或频率映射成为检测因子。

本申请还涉及一种基于目标检测的声音检测***，包括声音传感器、机端硬件装置以及运算模块，所述运算模块运行如上所述的声音检测方法。

其中，所述声音检测***还包括站端服务器，所述运算模块可以设置在站端服务器；所述机端硬件装置可以包括边缘硬件数采***。

附图说明

图1是本申请的基于目标检测的声音检测方法的流程示意图。

图2是本申请实施例中识别出的不同形态的雷声样本的示意图。

图3是本申请实施例中识别出的不同频段的哨声样本的示意图。

图4是本申请实施例中识别出的不同形态的哨声样本的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本申请通过音频设备采集一段时间内包含或不包含风机扫风气动噪声的声音信号，通过对声音信号进一步分析，实现对其中目标声音的识别。其中，本申请的基于目标检测的声音检测***包括用于采集风机和环境等声音的声音传感器、机端硬件装置以及运行在例如站端服务器的应用软件。机端硬件装置还可以包括边缘硬件数采***，用于采集***部件的运行数据和/或环境数据。

本申请中的目标声音，适用于在音频的频谱图上、在时频域有一定形状特征的声音。例如形态为S形的哨声。在不同风机中其宽窄高低不同，形态也有一定差异，但总体会保持S形这一特征，因此哨声可以使用本方法。又如雷声是雷电随机放电过程产生的声音，其频谱根据雷的远近长短具有几种不同的形态，但其总体形态特征也保持一致，即声音先强后弱频域范围由大到小，持续一定的时间，这类目标声音也可以使用本方法。叶片前缘保护膜翘起会产生类似哨声的声音，叶片严重故障前识别到雷声可能是雷击损伤等。这些目标声音在频谱图上有各自的特定形态，如哨声是近似S形，雷声是近似三角形等，因此可以通过将频谱转化为图像，利用图像中目标检测的方法对目标声音进行识别和定位。

根据本申请的基于目标检测的声音检测方法，包括训练流程和预测流程，如图1所示。其中，训练流程包括以下步骤：

(1.1)收集多组带有目标声音的历史数据；

(1.2)对数据进行质量筛选；根据目标声音的不同，筛选的方法和标准可能有所不同，可以手动也可以使用机器学习方法，主要是确保目标声音的频谱形态没有被噪声完全覆盖掉即可；

(1.3)对数据进行频谱转换得到频谱图，可以使用但是不限于短时傅里叶变换(STFT)，梅尔频谱等；

(1.4)将频谱图转换成图片并保存，如果声音信号比较长，可以通过滑窗的方式保存成多个小图片；

(1.5)使用目标检测标注工具对频谱图上目标声音的位置进行标注；

(1.6)使用目标检测模型对标注的图片数据进行训练；模型包括但不限于Yolo，SSD，R-CNN，AttentionNet等，训练时根据历史数据集的大小可以选择使用已经在公共数据集训练好的权重作为初始权重。

其中，预测流程包括以下步骤：

(2.1)对采集到的待检测音频信号进行数据质量筛选和频谱转换，具体方法与训练流程保持一致，如果预测流程中的数据与训练流程中的数据采样率不同，可以通过重采样统一采样率；

(2.2)将待检测数据的频谱转换成图片，生成图片的格式大小等与训练时保持一致；在预测流程中，既可以保存图片，也可以直接将图片缓存到内存中使用；

(2.3)使用训练好的目标检测模型对生成的图片进行预测，模型输出检测目标的个数、概率以及其边框位置；

(2.4)根据模型的结果生成相关检测因子，可以根据模型是否识别出目标声音以及其概率/最大概率/频率映射成为因子；具体映射方式根据对目标声音检测的目的制定，当音频信号滑窗为多个图片时，映射时综合考虑各图片识别的结果；

(2.5)当模型识别到图片中包含目标声音的形态时，根据输出的目标边框在谱图中的位置计算目标声音所在的频段和时间段并作为结果输出。

实施例

使用标记的雷声和哨声数据分别训练雷声和哨声识别模型，使用该模型对全新的风场进行监控，识别出的不同形态的雷声样本，如图2所示。识别出的不同频段、不同形态的哨声样本，如图3和4所示。在这个实施例中，训练模型只需要标记20多个图片并使用公开数据集训练的权重作为模型初始权重即可完成模型的训练，模型使用Yolo v3目标检测模型。两个模型均经过至少5个风场各自数个月的验证，不需重新训练模型即可达到识别准确率>95％，误报率<3％的结果。

虽然本申请所揭露的实施方式如上，但所述的内容只是为了便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属技术领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于目标检测的声音检测方法，包括训练流程和预测流程，其特征在于：所述训练流程包括以下步骤：

(1.2)对数据进行频谱转换得到频谱图；

(1.3)将频谱图转换成图片并保存；

(1.5)使用目标检测模型对标注的图片数据进行训练；

预测流程包括以下步骤：

(2.2)将待检测数据的频谱转换成图片；

(2.3)使用训练好的目标检测模型对生成的图片进行预测；

2.根据权利要求1所述的声音检测方法，其特征在于：步骤(2.3)中，预测后，模型输出检测目标的个数、概率以及其边框位置。

3.根据权利要求1或2所述的声音检测方法，其特征在于：步骤(2.3)后，还可以包括步骤：根据模型的检测结果生成检测因子。

4.根据权利要求2或3所述的声音检测方法，其特征在于：根据模型是否识别出目标声音以及目标声音出现的概率或频率映射成为检测因子。

5.一种基于目标检测的声音检测***，包括声音传感器、机端硬件装置以及运算模块，其特征在于：所述运算模块运行根据权利要求1-4中任一项所述的声音检测方法。

6.根据权利要求5所述的声音检测***，其特征在于：所述声音检测***还包括站端服务器，所述运算模块设置在站端服务器。

7.根据权利要求5或6所述的声音检测***，其特征在于：所述机端硬件装置包括边缘硬件数采***。