CN114550711A

CN114550711A - 基于时频注意力网络模型的电缆周边环境声音识别方法

Info

Publication number: CN114550711A
Application number: CN202210003933.0A
Authority: CN
Inventors: 张齐; 吴温博; 刘刚; 林陶锟; 陈佳俊
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-05-27

Abstract

本发明公开了一种基于时频注意力神经网络模型的电缆周边环境声音识别方法，过程如下：使用电缆运行过程中周边采集的环境声音建立电缆周边环境声音数据库，对环境声音数据库中的所有音频文件进行标注，然后按照预设比例划分训练集和测试集；构建基于时频注意力神经网络模型，分别进行训练和检测。通过麦克风采集音频数据验证及应用所构建的基于时频注意力神经网络模型进行电缆周边环境声音识别方法，评估与分析应用误差，本发明可以通过时间和频率维度实现对原始音频全局特征提取与融合，提高电缆周边环境声音识别精度，可以及时发出预警有效防止电缆受到外力破坏。

Description

基于时频注意力网络模型的电缆周边环境声音识别方法

技术领域

本发明涉及电缆检测技术领域，具体涉及一种基于时频注意力神经网络模型的电缆周边环境声音识别方法。

背景技术

目前为了保障电网能够安全正常运行，电网***多采用人工监控方式对电缆周边环境情况进行巡查，但是由于电网沿线重点监控点位多，监控环境复杂，导致了人工监控作业非常困难，监控人员工作量非常大、监控效率低，难以实现全天候监控。单纯的人工监控方式人力和物力成本高，自动化、智能化程度较低，且实际效果不理想。为了降低人工成本，已有应用使用神经网络模型进行机器自动辅助监控，检测电缆周边环境声音，有效降低了监控人员工作量。但是音频数据中包含的环境噪声对识别结果影响较大，存在漏检、误检的问题。而专门设计的去噪神经网络模型计算开销大，在同时监控多个电网沿线监控点的情况下，会造成极大的检测延迟。

发明内容

本发明的目的是为了能够在多个电网沿线监控点实现对电缆运行环境低延迟、高准确率、抗噪音干扰的环境声音识别功能，提出了一种基于时频注意力神经网络模型的电缆周边环境识别方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于时频注意力神经网络模型的电缆周边环境声音识别方法，所述电缆周边环境声音识别方法包括以下步骤：

S1、利用设置在电缆监测点的麦克风获取原始音频数据，并进行预处理；

S2、预处理后的数据输入进过训练的基于时频注意力神经网络模型，得到识别结果；其中，所述基于时频注意力神经网络模型包括骨干神经网络、音频时间注意力模块、音频频率注意力模块、音频通道注意力模块，其中，预处理后的数据输入骨干神经网络形成特征图，分离特征图中的各个通道，对每个通道使用时间注意力模块和频率注意力模块同时提取时间全局信息和频率全局信息，通过将时间全局信息和频率全局信息进行向量拼接，得到通道特征表示，再通过音频通道注意力模块，对各通道的耦合关系进行分析，得到各通道特征滤波器的注意力权重系数；最后将特征图中的每个特征元素与所在位置的时间注意力权重、频率注意力权重还有各通道特征滤波器的注意力权重系数相乘，得到音频特征输出表示；

S3、通过识别结果对电缆运行环境是否安全进行判断。

其中，对原始音频数据进行预处理，是对电缆周边环境声音音频信息的预处理，即将数据处理成符合基于时频注意力神经网络模型的输入格式，并且为了提高模型的准确性进行数据归一化操作，用于网络训练的数据为环境声音原始音频数据，通过在原始音频数据上应用短时傅里叶变换生成对应的环境声音频谱图，并且分作训练集和测试集，以供后面网络训练和测试所用。

通过上述技术方案，本发明减少环境噪声对识别结果的干扰，提高周边环境声音识别准确率的同时，提高模型的计算效率，从而使所提出的电缆周边环境声音识别方法具备实时性。

进一步地，所述基于时频注意力神经网络模型的训练过程如下：

使用电缆运行过程中周边采集的环境声音建立电缆周边环境声音数据库，对环境声音数据库中的所有音频文件进行标注，应用短时傅里叶变换生成对应的环境声音频谱图，然后按照预设比例划分训练集和测试集；

使用训练集训练改进基于时频注意力神经网络模型，使基于时频注意力神经网络模型收敛；将测试集输入训练好的基于时频注意力神经网络模型，获取检测结果，并且对电缆周边环境情况进行运行安全性判断。

进一步地，所述音频时间注意力模块，用于提取特征图中各个通道的环境音频时间维度注意力，从而判断电缆周边环境声音事件出现的时间区域。该音频时间注意力模块首先沿时间轴向计算特征图的平均值与最大值，获得音频时间特征表述，再通过多层感知器(时间注意力特征感知层)得到各个时间段的注意力权重，减小环境噪声对模型识别结果的影响。该音频时间注意力模块可以采用当下流行的机器学习框架，如tensorflow、keras、pytorch等框架构建。

进一步地，所述音频频率注意力模块，用于提取特征图中各个通道的环境音频频率维度注意力，从而判断电缆周边环境声音事件出现的频率区域。该音频频率注意力模块首先沿频率轴向计算特征图的平均值与最大值，获得音频频率特征表述，再通过多层感知器(频率注意力特征感知层)得到各个频率段的注意力权重，减小环境噪声对模型识别结果的影响。该音频频率注意力模块可以采用当下流行的机器学习框架，如tensorflow、keras、pytorch等框架构建。

进一步地，所述音频通道注意力模块，用于提取特征图中各个通道之间的耦合关系，从而确定各个特征过滤器的重要程度。该部分首先将各通道的音频时间注意力与音频频率注意力进行拼接，作为各通道的音频特征表达，再通过多层感知器得到各通道特征滤波器的注意力权重系数，将音频时间注意力、音频频率注意力、各通道特征滤波器的注意力权重系数与音频特征图相乘，得到音频注意力特征图。该音频通道注意力模块可以采用当下流行的机器学习框架，如tensorflow、keras、pytorch等框架构建。

进一步地，使用适合神经网络训练的硬件平台将前面用于环境声音识别的基于时频注意力神经网络模型结合输入数据进行训练、网络模型保存与网络模型的性能评估。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明使用了基于时频注意力神经网络模型对监测点麦克风采集到的音频数据进行预处理后训练得到电缆周边环境声音识别模型，再通过测试集进行验证，此方法可以通过时间注意力模块和频率注意力模块分别对各音频特征图的时间信息和频率信息提取全局注意力，再通过通道注意力模块进行信息整合，确定环境声音时间发生的区域及合适的特征滤波器，减少环境背景噪声干扰，进而提高对电缆周边环境声音的识别精度，增强对电缆运行环境的保护预警能力。

(2)相较于其他特殊设计的环境噪声去噪模型同时从频率和时间两个维度提取特征，本发明对这两个维度信息分别进行特征提取，减小了特征之间的信息耦合程度，使音频特征信息表述更加清晰准确且符合音频特点，并且使模型可以对目标声音事件出现区域进行更加精确的标注，减小噪声区域对识别结果的干扰。此外，本发明所设计的音频时间注意力模块和音频频率注意力模块仅需分别从时间维度和空间维度计算平均值和最大值，计算量小并且通过实验表明可以对时间全局信息和空间全局信息提取良好特征表示，实现计算复杂度低，且可通过并行计算进一步减少模型计算时间。

(3)本发明使用的通道注意力模块通过实验表明可以整合模型通道维度的全局信息，并且为模型中各通道特征滤波器赋予合适的注意力权重系数，从而提升了模型的识别准确率。本发明所设计的基于时频注意力网络模型在电缆周边环境声音识别任务中实现了良好的环境声音识别效果，且计算效率高，可以满足电网***实时性要求。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明公开的基于时频注意力神经网络模型的电缆周边环境识别方法的流程图；

图2是本发明中公开的基于时频注意力神经网络模型的结构示意图；

图3是本发明中音频频率注意力模块的结构示意图；

图4是本发明中音频时间注意力模块的结构示意图；

图5是本发明中音频通道注意力模块的结构示意图；

图6是本发明中实施例音频样本的原始音频波形图；

图7是本发明中实施例音频样本的梅尔频谱图；

图8是本发明中实施例音频样本单通道频率注意力权重计算处理过程示意图；

图9是本发明中实施例音频样本单通道时间注意力权重计算处理过程示意图；

图10是本发明中实施例音频样本通道注意力权重计算处理过程示意图；

图11是本发明中实施例音频样本识别结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例公开了一种利用电缆监测点麦克风采集的原始音频数据来识别电缆周边声音的方法，具体数据处理过程以挖掘机打桩音频为例，识别过程包括以下步骤：

利用设置在电缆监测点的麦克风获取原始音频数据，并进行预处理，将音频数据从一维的时域信号通过傅立叶变换转换到频域上，从而可以观察单帧的频率变化规律，将多帧的处理结果沿时间堆叠，得到二维信号的音频声谱图。本发明中音频采样率为44100赫兹，采集的环境声音音频时长固定为5秒。设置的音频窗口长度为23.2毫秒，音频窗口移动步长为11.6毫秒，即每个窗口之间有50％区域重叠。为使模型音频输入更符合人耳频率听觉特点，使用128个梅尔滤波器组成的梅尔滤波器组对每个音频窗口进行梅尔频率标度转换，得到梅尔频谱图。原始音频波形图如图6所示，处理后的梅尔频谱图如图7所示。

将预处理后的环境声音音频数据输入基于时频注意力神经网络模型，得到识别结果；其中，如图2所示，基于时频注意力神经网络模型包括骨干神经网络、音频时间注意力模块、音频频率注意力模块、音频通道注意力模块，预处理后的音频数据输入骨干神经网络形成特征图，分离特征图中的各个通道，对每个通道使用时间注意力模块和频率注意力模块同时提取时间全局信息和频率全局信息，通过将时间全局信息和频率全局信息进行向量拼接，得到通道特征表示，再通过音频通道注意力模块，对各通道的耦合关系进行分析，得到各通道特征滤波器的注意力权重系数；最后将特征图中的每个特征元素与所在位置的时间注意力权重、频率注意力权重还有各通道特征滤波器的注意力权重系数相乘，得到音频特征输出表示；经过基于时频注意力神经网络模型的各个模块的处理，可以有效减小音频各个维度特征图中背景噪声对分类结果的影响，提高基于时频注意力神经网络模型的识别精准度。

通过识别结果对电缆运行环境是否安全进行判断。

其中，基于时频注意力神经网络模型的训练过程如下：

使用电缆运行过程中周边采集的环境声音建立电缆周边环境声音数据库，对环境声音数据库中的所有音频文件进行标注，然后按照预设比例划分训练集和测试集；使用训练集训练改进基于时频注意力神经网络模型，使基于时频注意力神经网络模型收敛到最优情况；将测试集中的环境声音输入训练好的基于时频注意力神经网络模型，获取检测结果，并且对电缆周边环境情况进行运行安全性判断。

本实施例中，基于时频注意力神经网络模型用于识别出电缆周边出现的环境声音类别，并通过音频时间注意力模块、音频频率注意力模块减小环境噪声对识别结果的干扰，从而判断周边是否存在施工等可能会导致电缆破损的事件。使用训练集训练改进上述的基于时频注意力神经网络模型，基于时频注意力神经网络模型会收敛到最优情况。将测试集中的环境声音输入训练好的基于时频注意力神经网络模型，获取检测结果，并且对电缆周边环境情况进行运行安全性判断。本发明部分环境声音类别模型准确率与模型平均推理时间如表1所示，满足电力***对电缆周边环境声音识别需求。

表1.环境声音类别模型准确率与模型平均推理时间对照表

环境声音类别	准确率	模型平均推理时间
			电锯	94.1％	3ms
挖掘机打桩	96.4％	2ms
			引擎声	98.2％	2ms
烟花	94.7％	3ms

实施例2

参见图3，本实施例为本发明中音频频率注意力模块的结构示意图，由音频特征图单通道输入层、频率特征压缩层、频率注意力特征感知层组成，其中频率特征压缩层通过在频率维度轴线计算平均值或最大值，得到频率全局信息，减小计算复杂度，提高模型计算速度；使用频率注意力特征感知层可以对频率特征压缩层处理后得到的频率全局信息进行耦合分析，得到各频率特征之间的关系以及各频率中存在目标声音事件的概率，从而减少环境背景噪声对识别结果的干扰。通过上述步骤，挖掘机打桩音频示例单通道频率注意力权重计算处理过程如图8所示，在输入音频单通道特征图后，通过频率特征压缩层计算音频的频率特征平均值，最后通过频率注意力特征感知层计算得到挖掘机打桩音频示例的音频频率注意力权重。

实施例3

参见图4，本实施例为本发明的音频时间注意力模块的结构示意图，由音频特征图单通道输入层、时间特征压缩层、时间注意力特征感知层组成，其中时间特征压缩层通过在时间维度轴线计算平均值或最大值，得到频率全局信息，减小模型计算复杂度，提高模型计算速度；使用时间注意力特征感知层可以对时间特征压缩层处理后得到的时间全局信息进行耦合分析，得到各时间特征之间的关系以及各时间中存在目标声音事件的概率，从而减少环境背景噪声对识别结果的干扰。通过上述步骤，挖掘机打桩音频示例单通道时间注意力权重计算处理过程如图9所示，在输入音频单通道特征图后，通过时间特征压缩层计算音频的时间特征平均值，最后通过时间注意力特征感知层计算得到挖掘机打桩音频示例的音频时间注意力权重。

实施例4

参见图5，本实施例为本发明的音频通道注意力模块的结构示意图，通过上述实施例3及实施例4分别得到的音频频率注意力权重信息和音频时间注意力权重信息，拼接后可以得到环境音频单通道特征表示。此拼接操作无需额外的计算过程，且可充分表达通道全局信息。然后，再通过通道特征感知器对各通道进行通道特征融合与耦合分析，得到各通道特征滤波器的注意力权重系数。最后，将音频时间注意力、音频频率注意力、音频通道注意力与音频特征图相乘，得到音频注意力特征图并作为下一个时频注意力网络层的输入。音频注意力特征图相较于输入的音频特征图，通过为音频背景噪声赋予较小的注意力系数，减小环境背景噪声对识别结果的干扰。通过上述步骤，挖掘机打桩音频示例通道注意力权重计算处理过程如图10所示，将实施例2的音频频率注意力权重与及实施例3中的音频时间注意力进行拼接得到单通道音频特征表示，再通过通道注意力特征感知层计算得到挖掘机打桩音频示例的各通道特征滤波器的注意力权重系数，图中通道特征滤波器的注意力权重系数为0.9。如图11所示，在各通道内将音频通道特征滤波器的注意力权重系数、音频时间注意力权重、音频频率注意力权重与特征图进行点乘，得到示例音频注意力特征图并作为下一个时频注意力网络层的输入，最后通过特征识别层得到各环境声音类别可能性概率，图中挖掘机打桩类别概率为0.97，故模型音频推测结果为挖掘机打桩，识别结果正确，符合识别任务预期要求。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于时频注意力神经网络模型的电缆周边环境声音识别方法，其特征在于，所述电缆周边环境声音识别方法包括以下步骤：

S2、预处理后的数据输入进过训练的基于时频注意力神经网络模型，得到识别结果；其中，所述基于时频注意力神经网络模型包括骨干神经网络、音频时间注意力模块、音频频率注意力模块、音频通道注意力模块，其中，预处理后的数据输入骨干神经网络形成特征图，分离特征图中的各个通道，对每个通道在时间维度与频率维度分别使用时间注意力模块和频率注意力模块，同时提取时间全局信息和频率全局信息，通过将时间全局信息和频率全局信息进行向量拼接，得到通道特征表示，再通过音频通道注意力模块，对各通道的耦合关系进行分析，得到各通道特征滤波器的注意力权重系数；最后将特征图中的每个特征元素与所在位置的时间注意力权重、频率注意力权重还有各通道特征滤波器的注意力权重系数相乘，得到音频特征输出表示；

S3、通过识别结果对电缆运行环境是否安全进行判断。

2.根据权利要求1所述的基于时频注意力神经网络模型的电缆周边环境声音识别方法，其特征在于，所述基于时频注意力神经网络模型的训练过程如下：

使用电缆运行过程中周边采集的环境声音建立电缆周边环境声音数据库，对环境声音数据库中的所有音频文件进行标注。同时应用短时傅里叶变换生成对应的环境声音频谱图，使用梅尔滤波器对每个音频窗口进行梅尔频率标度转换，得到梅尔频谱图作为模型输入数据。然后按照预设比例划分训练集和测试集；

3.根据权利要求1所述的基于时频注意力神经网络模型的电缆周边环境声音识别方法，其特征在于，所述音频频率注意力模块包括音频特征图单通道输入层、频率特征压缩层、频率注意力特征感知层，其中，频率特征压缩层通过在频率维度轴线计算平均值或最大值，得到频率全局信息；频率注意力特征感知层对频率特征压缩层处理后得到的频率全局信息进行耦合分析，得到各频率特征之间的关系以及各频率中存在目标声音事件的概率。

4.根据权利要求1所述的基于时频注意力神经网络模型的电缆周边环境声音识别方法，其特征在于，所述音频时间注意力模块包括音频特征图单通道输入层、时间特征压缩层、时间注意力特征感知层，其中，时间特征压缩层通过在时间维度轴线计算平均值或最大值，得到时间全局信息；时间注意力特征感知层对时间特征压缩层处理后得到的时间全局信息进行耦合分析，得到各时间特征之间的关系以及各时间中存在目标声音事件的概率。

5.根据权利要求1所述的基于时频注意力神经网络模型的电缆周边环境声音识别方法，其特征在于，所述音频时间注意力模块、音频频率注意力模块、音频通道注意力模块采用tensorflow、keras或pytorch框架构建。