CN113971775B

CN113971775B - 一种基于优化yolov4算法的违章行为识别方法及***

Info

Publication number: CN113971775B
Application number: CN202111196412.3A
Authority: CN
Inventors: 张昱; 黄浩声; 梁伟; 陶风波; 朱睿; 尹康涌; 林元棣; 王静君; 贾萌萌
Original assignee: Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2024-06-25
Anticipated expiration: 2041-10-14
Also published as: CN113971775A

Abstract

本发明公开了一种基于优化yolov4算法的违章行为识别方法及***，包括以下步骤：(1)通过优化yolov4算法进行模型训练，抽选出最优模型；yolov4算法的优化包括：在输入部分采用1×1卷积将前一层的输入特征图的通道数减少到原来的四分之一；使用四个不同大小的空洞卷积分支来生成不同大小感受野的输出特征；利用感受野融合结构融合四个不同分支的输出特征信息；在输出部分的卷积层采用1×1卷积来调整输出特征图的通道数；利用残差网络获得最终的输出特征图；(2)采集视频图像数据作为最优模型的输入，进行违章行为的检测；(3)根据检测结果生成实时预警信息，将实时预警信息回传。本发明能够提升了违章识别图像中目标识别精度，并且实现实时预警功能。

Description

一种基于优化yolov4算法的违章行为识别方法及***

技术领域

本发明涉及利用智能识别检测技术领域，具体是涉及一种基于优化yolov4算法的违章行为识别方法及***。

背景技术

无人机技术已经广泛应用违章识别监测作业，但实际运行过程中由人工进行实时监测，存在人力工作量大、监测效率低、违章信息掌控不及时，从而无法保障预告警报的及时性、有效性、全面性。随着人工智能技术的快速进步，现有技术开始采用人工智能技术进行违章行为的识别，因为输变电工程中违章行为数目多、形式各异，采用现有技术的识别方法，漏检率较高，不能满足监测图像高精度检测需求并且无法实现实时识别报警。

发明内容

发明目的：针对以上缺点，本发明提供一种基于优化yolov4算法的违章行为识别方法，能够提升了违章识别图像中目标识别精度，并且实现实时预警功能。同时，本发明还提供了一种基于优化yolov4算法的违章行为识别***，能够实现违章行为的识别。

技术方案：为解决上述问题，本发明所述一种基于优化yolov4算法的违章行为识别方法，包括以下步骤：

(1)收集违章行为的图像数据，建立违章行为的图像数据库；根据数据库内的图像数据，通过优化yolov4算法进行模型训练和测试，获取最优模型；

所述yolov4算法的优化包括在构建特征提取网络过程中采用自适应感受野融合模块，具体为以下步骤：

(1.1)在输入部分采用1×1卷积将前一层的输入特征图的通道数减少到原来的四分之一；

(1.2)使用四个不同大小的空洞卷积分支来生成不同大小感受野的输出特征；

(1.3)利用感受野融合结构融合四个不同分支的输出特征信息并滤除冗余信息；

(1.4)在输出部分的卷积层采用1×1卷积来调整输出特征图的通道数；

(1.5)利用残差网络获得最终的输出特征图。

(2)获取待检测的视频图像数据，将待检测的视频图像数据作为最优模型的输入，通过最优模型检测出目标的空间的位置以及违章行为的类别信息，根据空间位置坐标进行目标之间位置关系判断，判定是否属于违章行为，输出检测结果；

(3)根据获取的检测结果生成实时预警信息，将检测结果和实时预警信息传输至前端APP的网页端，供管理人员实时监测。

有益效果：本发明相对于现有技术，其显著优点是：利用1×1卷积构件轻量瓶颈结构，降低模型的计算参数量，提升模型的计算效率；利用四个不同分支的空洞卷积来生成具有不同尺度和大小的感受野模块输出的特征映射，进而通过卷积神经网络完成自适应学习不同分支感受野特征的融合权值参数值，提高模型提取特征的辨识度和鲁棒性，增强模型目标特征的表达能力，进而提升违章识别图像中目标识别精度。

进一步的，所述yolov4算法的优化还包括在构建金字塔网络过程中采用增强的上采样模块，具体为以下步骤：

(1.6)使用上采样层将低分辨率特征图大小扩展至与高分辨率特征图一致；

(1.7)利用1×1卷积将上采样输出特征图通道数调整到原来的一半；

(1.8)采用两种不同膨胀率的3×3空洞卷积来构造特征增强结构；

(1.9)使用通道维度上合并两个特征增强层输出的特征图，并使用1×1卷积层增加特征图通道，获得最终增强后的特征图。

采用上采样模块能够减少了模型的信息损失，增强特征金字塔中浅层特征图的语义信息，提高目标的检测性能。

进一步的，所述yolov4算法的优化还包括对于Yolov4模型损失函数改进，总的损失函数为：

式中，i,j分别表示第i个网格，第j个预测框；(x_i，y_i)表示第i个网格的第j个预测框中心点的坐标；表示第i个网格的第j个真实目标框中心点坐标；(w_i，h_i)表示第i个网格的第j个预测框的宽和高；/>表示第i个网格的第j个真实目标框的宽和高；为控制函数，第i个网格的第j个anchor box是否包含这个物体目标，在标签中包含物体的那些格点处，该值为1；若格点不含有物体，该值为0；C_i定义为预测框的置信度；/>表示真实值,它的取值是由第i网格中的回归框有没有负责预测某个对象决定的；如果负责取值为1，否则取值为0；S²定义为输入图像中的网格数；B定义为每个单元内产生的包围框数；∑c∈classes意为c表示类别，p(c)定义为目标属于c类的概率，/>表示分类为c的真实概率；λ_obj参数为预测目标中心在网格单元内置信度损失的权重；λ_nobj为无目标的边界框的置信度损失权重；λ_cls为类损失权值。

进一步的，步骤(1.2)中所述四个不同大小的空洞卷积分支为一个1×1空洞卷积、三个不同膨胀率的3×3空洞卷积。

进一步的，所述的感受野融合结构进行不同感受野分支的融合方法为：

其中(i,j)分别表示为特征向量的坐标，Xⁿ代表多分支感受野结构，代表特征图Xⁿ在位置(i,j)处的特征向量,A_ij、B_ij、C_ij和D_ij分别表示特征图Xⁿ的融合权重；Y_ij用于表示输出特征图在位置(i,j)的特征向量。

进一步的，采用网格搜索方法来确定损失函数各部分的权值，将λ_obj、λ_nobj、λ_cls三个权重的搜索范围限制在[0.1,0.5,1,3,5,10]的范围内。

本发明还采用一种基于优化yolov4算法的违章行为识别***，具体包括：

视频输入模块，用于进行视频图像数据的采集；

前端APP，用于接收违章行为的检测结果；

部署在视频输入模块上的智能识别模块以及前端嵌入式硬件平台；

所述智能识别模块，用于目标数据的训练并获取最优模型；针对输入最优模型的图像数据检测出目标的空间的位置以及违章行为的类别信息，根据空间位置坐标进行目标之间位置关系判断，判定是否属于违章行为，输出检测结果；根据检测结果生成实时预警信息；

所述的前端嵌入式硬件平台为智能识别模块进行违章行为的检测、数据处理以及与智能识别模块与视频输入模块通信提供硬件支持；

前端信息交互和控制模块，用于将违章行为检测结果封装，完成智能识别模块与前端APP之间的数据发送与接收、指令解析姿态控制以及警报回传。

有益效果：本发明相对于现有技术，其显著优点是该***能够实时的识别违章行为。

进一步的，前端嵌入式硬件平台选取NVIDIA Jetson TX2。

进一步的，视频输入模块采用具有摄像功能的无人机。

附图说明

图1所示为本发明所述方法的流程图；

图2所示为本发明所述方法中自适应感受野融合模块的流程图；

图3所示为本发明所述方法中增强的上采样模块的流程图；

图4所示为本发明所述***的示意图；

图5所示为本发明所述***中Jetson TX2板载的USB接口协议原理图；

图6所示为输变电现场违章行为识别结果。

具体实施方式

下面结合附图对本发明所述的技术方案进一步说明。

如图1至图3所示，本发明所述的一种基于优化yolov4算法的违章行为识别方法，包括以下步骤：

第一步，通过收集违章行为相关图像数据，建立输变电工程违章行为的图像数据库；针对违章行为分别标注类别，例如：吸烟、吊车下站人；将数据库内的图像数据输入优化的yolov4模型，进行模型训练和测试，获取能够检测识别违章行为的最优的模型；

具体的，通过无人机航拍输变电站现场图像，共计11250张，训练过程中将数据划分为训练集8654张，验证集2596张,数据集构建格式为Pascal VOC。由于无人机拍摄的图像和视频分辨率较高，拍摄角度具有一定的多样性和随机性，考虑到数据训练时的IO瓶颈，故预先将图片进行一定的预处理，即进行以目标类别为基准进行裁剪和缩放，以减少输入图片的尺寸。

优化的yolov4模型进行模型训练需要构建特征提取网络、颈部网络、金字塔网络；所述的yolov4算法的优化具体包括在构建特征提取网络过程中采用自适应感受野融合模块，具体为以下步骤：

(1.1)构建轻量瓶颈计算结构：在输入部分采用1×1卷积将前一层低分辨率的输入特征图的通道数减少到原来的四分之一，用以减少了模型的参数量和计算量，提升模型的训练效率；

(1.2)为获取不同尺度目标的关键特征信息，建立多分支空洞卷积结构：使用一个1×1空洞卷积以及膨胀率分为为1、2、3的三个3×3的空洞卷积分支来生成不同大小感受野的输出特征；

(1.3)利用感受野融合结构融合四个不同分支的输出特征信息并滤除冗余信息；具体融合方法为：

其中(i,j)分别表示为特征向量的坐标，Xⁿ代表多分支感受野结构，代表特征图Xⁿ在位置(i,j)处的特征向量,A_ij、B_ij、C_ij和D_ij分别表示特征图Xⁿ的融合权重；Y_ij用于表示输出特征图在位置(i,j)的特征向量；

(1.4)构建轻量瓶颈计算结构：在输出部分的卷积层采用1×1卷积来调整输出特征图的通道数，用以降低模型的信息损失和增强模型的特征表示能力；

(1.5)利用残差网络获得最终的输出特征图；

所述的yolov4算法的优化具体还包括在构建金字塔网络过程中采用增强的上采样模块，充分利用目标特征像素周围的上下文信息，增强特征金字塔中浅层特征图的语义信息，减少横向连接中上采样造成的特征信息丢失，提高特征金字塔的表示能力和小目标检测性能；具体包括以下步骤：

无人机输变电工程违章识别检测任务中，主要将目标分为吸烟、吊臂下站人等类别，每个类别的目标特征存在些许差异；模型在预测目标时有各种各样的错误分类，尤其在目标尺度很小时，错误分类更加明显。为了改善分类错误，针对Yolov4模型损失函数的改进，将每个尺度预测的置信度损失和分类损失乘以相应的权重，总的损失函数为：

式中，i,j分别表示第i个网格，第j个预测框；(x_i，y_i)表示第i个网格的第j个预测框中心点的坐标；表示第i个网格的第j个真实目标框中心点坐标；(w_i，h_i)表示第i个网格的第j个预测框的宽和高；/>表示第i个网格的第j个真实目标框的宽和高；为控制函数，第i个网格的第j个anchor box是否包含这个物体目标，在标签中包含物体的那些格点处，该值为1；若格点不含有物体，该值为0；C_i定义为预测框的置信度；/>表示真实值,它的取值是由第i网格中的回归框有没有负责预测某个对象决定的；如果负责取值为1，否则取值为0；S²定义为输入图像中的网格数；B定义为每个单元内产生的包围框数；∑c∈classes意为c表示类别，p(c)定义为目标属于c类的概率，/>表示分类为c的真实概率；λ_obj参数为预测目标中心在网格单元内置信度损失的权重，数值设定为5；λ_nobj为无目标的边界框的置信度损失权重，数值设定为1；λ_cls为类损失权值，数值设定为5。

训练过程中将学***均准确率，AvgFPS指的是每秒模型可以检测的平均帧数；检测的类别为吸烟和吊车下站人。

第二步，无人机根据前端APP发送的指令拍摄相应视频图像数据，将获取的视频图像数据作为机载AI模块内最优模型的输入，通过最优模型检测出目标的空间的位置以及违章行为的类别信息，利用空间位置坐标对检测出目标之间位置关系进行判断，判定是否属于违章行为，输出检测的结果。其中，目标之间位置关系的判断采用目标间位置关系检测的方法。例如：将待测试的图片输入最优模型，最优模型能检测出图像中的物体及其位置坐标，若检测到了吸烟行为，则能够直接判断为违章行为；若检测到吊车和人，则需要根据吊车和人的位置坐标，判定人的位置是否在吊车之下，进而判断为违章行为。

第三步，机载AI模块根据获取的检测结果生成实时预警信息，将检测结果和实时预警信息传输至前端APP的网页端，供管理人员实时监测。

依据上述的方法，进行测试的结果如下表1所示：

表1算法测试结果

如图4所示，本发明所述的一种基于优化yolov4算法的违章行为识别***，***主要包括有三个功能模块，分别为视频输入模块、智能识别模块以及前端信息交互模块；其中，视频输入模块采用具有摄像头的无人机；智能识别模块采用机载AI模块，具体如下：

具有摄像头的无人机，用于进行视频图像数据的采集；

前端APP，用于接受违章行为的检测结果；

部署在无人机上的机载AI模块以及前端嵌入式硬件平台；

所述机载AI模块，用于目标数据的训练并获取最优模型；针对输入最优模型的图像数据检测出目标的空间的位置以及违章行为的类别信息，根据空间位置坐标进行目标之间位置关系判断，判定是否属于违章行为，输出检测结果；根据检测结果生成实时预警信息；

所述的前端嵌入式硬件平台为机载AI模块进行违章行为的检测、数据处理以及与机载AI模块与无人机通信提供硬件支持；其中，选取NVIDIA Jetson TX2作为前端嵌入式硬件平台，无人机与机载AI模块之间的通信，选择通过NVIDIA Jetson TX2板载的USB3.0口进行数据发送与接收，NVIDIA Jetson TX2板载的USB接口协议详细原理如附图5所示；

前端信息交互和控制模块，用于将违章行为检测结果封装，完成机载AI模块与前端APP之间的数据发送与接收、指令解析姿态控制以及警报回传。

如图6所示，利用本发明所述的识别***，针对输变电现场进行违章行为的识别结果。

Claims

1.一种基于优化yolov4算法的违章行为识别方法，其特征在于，包括以下步骤：

(1)收集违章行为的图像数据，建立违章行为的图像数据库；针对数据库内的图像数据分别标注违章行为类别，通过优化yolov4算法进行模型训练和测试，获取最优模型；

(1.5)利用残差网络获得最终的输出特征图；

(3)根据检测结果生成实时预警信息，将检测结果和实时预警信息传输至前端APP的网页端，供管理人员实时监测。

2.根据权利要求1所述违章行为识别方法，其特征在于，所述yolov4算法的优化还包括在构建金字塔网络过程中采用增强的上采样模块，具体为以下步骤：

3.根据权利要求2所述违章行为识别方法，其特征在于，所述yolov4算法的优化还包括对于Yolov4模型损失函数改进，总的损失函数为：

式中，i,j分别表示第i个网格，第j个预测框；(x_i，y_i)表示第i个网格的第j个预测框中心点的坐标；表示第i个网格的第j个真实目标框中心点坐标；(w_i，h_i)表示第i个网格的第j个预测框的宽和高；/>表示第i个网格的第j个真实目标框的宽和高；/>为控制函数，第i个网格的第j个anchor box是否包含这个物体目标，在标签中包含物体的那些格点处，该值为1；若格点不含有物体，该值为0；C_i定义为预测框的置信度；/>表示真实值,它的取值是由第i网格中的回归框有没有负责预测某个对象决定的；如果负责取值为1，否则取值为0；S²定义为输入图像中的网格数；B定义为每个单元内产生的包围框数；∑c∈classes意为c表示类别，p(c)定义为目标属于c类的概率，/>表示分类为c的真实概率；λ_obj参数为预测目标中心在网格单元内置信度损失的权重；λ_nobj为无目标的边界框的置信度损失权重；λ_cls为类损失权值。

4.根据权利要求1所述违章行为识别方法，其特征在于，步骤(1.2)中所述四个不同大小的空洞卷积分支为一个1×1空洞卷积、三个不同膨胀率的3×3空洞卷积。

5.根据权利要求1所述违章行为识别方法，其特征在于，所述的感受野融合结构进行不同感受野分支的融合方法为：

6.根据权利要求3所述违章行为识别方法，其特征在于，采用网格搜索方法来确定损失函数各部分的权值，将λ_obj、λ_obj、λ_cls三个权重的搜索范围限制在[0.1,0.5,1,3,5,10]的范围内。

7.一种采用权利要求1所述基于优化yolov4算法的违章行为识别方法的违章行为识别***，其特征在于，具体包括：

视频输入模块，用于进行视频图像数据的采集；

前端APP，用于接收违章行为的检测结果；

所述智能识别模块，用于目标数据的训练并获取最优模型；针对输入最优模型的图像数据检测出目标的空间的位置以及违章行为的类别信息，根据空间位置坐标进行目标之间位置关系判断，判定是否属于违章行为；根据检测结果生成实时预警信息；

8.根据权利要求7所述违章行为识别***，其特征在于，前端嵌入式硬件平台选取NVIDIA Jetson TX2。

9.根据权利要求7所述违章行为识别***，其特征在于，所述的视频输入模块采用具有摄像功能的无人机。