CN115984568A

CN115984568A - 一种基于YOLOv3网络的雾霾环境下目标检测方法

Info

Publication number: CN115984568A
Application number: CN202211342247.2A
Authority: CN
Inventors: 郑良; 王忠美; 周参; 张磊; 李晓俊; 阮璘
Original assignee: Beijing Zunguan Technology Co ltd Wuhan Branch; Hunan University of Technology
Current assignee: Beijing Zunguan Technology Co ltd Wuhan Branch; Hunan University of Technology
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-04-18

Abstract

本发明涉及目标检测领域，具体为一种基于YOLOv3网络的雾霾环境下目标检测方法。其包括如下步骤S1‑S3：S1、获取雾霾环境下的目标检测数据集；S2、使用条件对抗生成网络对图像进行预处理，条件生成对抗网络包括生成器、判别器和整体损失函数；S3、结合预处理后的图像，送入改进后的YOLOv3目标检测网络进行训练和预测，输出检测结果。本发明通过条件对抗生成网络对雾霾图像进行预处理，采用改进后的YOLOv3算法训练，能够有效提升雾霾天气下目标检测的准确率。

Description

一种基于YOLOv3网络的雾霾环境下目标检测方法

技术领域

本发明涉及目标检测领域，特别是涉及一种基于YOLOv3网络的雾霾环境下目标检测方法。

背景技术

目标检测是计算机视觉中一个基本而具有挑战性的任务，近年来受到了广泛的关注，在人们的生活中得到了广泛的应用，如视频监控安全、自主驾驶等。它可以看作是分类和定位的结合，但需要在同一幅图像中同时检测和分类多个不同尺度的目标。

目标检测技术可以分为如下两类：

第一类是传统的目标检测算法，用滑动窗口和特征算子从图像上生成大量候选框并提取特征，利用以Adaboost和支持向量机(SVM)为代表的分类器进行分类。传统的目标检测方法有它的局限性：(1)生成了大量冗余的候选框，导致分类的误差比较大。(2)特征算子是基于低级视觉特征手工制作的，这使得在复杂语境中难以捕获代表性语义信息。(3)检测的每一个步骤都是独立而不是端到端的，无法得到整个***的全局最优解。

第二类是基于深度学习的目标检测算法，包括基于区域建议和基于回归的目标检测算法，基于区域建议的目标检测算法以Faster-RCNN为代表，主要是通过锚点产生大量候选框来确定对象最有可能出现的区域，称为感兴趣区域(RegionofInterest，RoI)，检测网络进一步处理这些RoI，以边界框和预测对象类别概率的形式输出检测结果。基于回归的目标检测算法以YOLO为代表，将图片划分为N×N的网格，对每个网格检测的信息进行回归计算，物体中心所在的网格负责对物体进行预测。

目前常见的目标检测算法都是在清晰的环境下进行检测的，而现实中常常遇到雾霾、雨雪等恶劣天气，导致采集到的图片出现噪声、模糊和细节丢失等现象，图片质量严重下降，给目标检测任务带来很大的干扰，使检测准确率降低。并且雾霾等恶劣天气造成的能见度低和遮挡问题也会干扰人的视觉，如果是在驾车过程可能产生意外，因此，对雾霾环境下目标检测的研究，具有重要的现实意义。

发明内容

本发明目的是针对背景技术中存在的问题，提出一种基于YOLOv3网络的雾霾环境下目标检测方法。

本发明的技术方案，一种基于YOLOv3网络的雾霾环境下目标检测方法，包括如下步骤S1-S3：

S1、获取雾霾环境下的目标检测数据集；

S2、使用条件对抗生成网络对图像进行预处理，条件生成对抗网络包括生成器、判别器和整体损失函数，预处理过程包括如下步骤S2.1-S2.5：

S2.1、将有雾图像输入网络生成器中，生成器处理输出去雾后的图像；

S2.2、将有雾图像与去雾图像组合起来输入判别器中，得到判定结果；

S2.3、将有雾图像与真实的无雾图像结合起来放入判别器中，输出另一个结果；

S2.4、将前后两个结果做比较，它们的差用来优化生成器与判别器的参数，帮助网络训练；

S2.5、使用训练好的条件生成对抗网络进行去雾处理；

S3、结合预处理后的图像，送入改进后的YOLOv3目标检测网络进行训练和预测，输出检测结果。

优选的，步骤S1中的数据集是公开数据集RESIDE。

优选的，生成器用Res-Unet结构，生成器包括编码器、解码器和转换器；编码器由4层卷积层构成，用于将图像下采样提取特征向量；转换器由3层Resnet模块构成，用于将源域中的高级特征转换到目标域的特征；解码器由4层反卷积层构成，用于将特征向量还原到原始大小。

优选的，判别器采用PatchGAN结构，该PatchGAN结构把图片分成70×70的patch进行判别。

优选的，条件对抗生成网络的整体损失函数为：

m_Ginm_DaxV(D,G)＝E_x～prlog[D(xy)]+E_z～pzlog[1-D(G(zy))]

其中，x表示真实数据，z表示输入，y表示条件变量，E表示对应分布的期望值，D(xy)是判别器判断真实图片是否真实的概率，D(G(zy))是判别器判断生成的图片是否真实的概率，p_r是实际数据分布，p_z是生成数据分布。

优选的，步骤S3中，YOLOv3目标检测网络包括主干网络Darknet53、特征融合网络和YOLOHead；主干网络Darknet53用于特征提取，以得到四个不同尺度的特征层进行下一步的融合；特征融合网络用于加强特征提取，以对主干网络获得的四个不同尺度的特征进行上采样、拼接和卷积操作；YOLOHead用于对特征图中每一个特征点进行分类和回归，判断是否有目标。

优选的，对YOLOv3目标检测网络的特征融合网络结构添加注意力机制CBAM模块，并且在特征融合网络结构中增加一条分支用于融合不同尺度的特征信息。

优选的，注意力机制CBAM模块包括通道注意力模块和空间注意力模块，特征图先输入通道注意力模块，计算后的输出结果再作为空间注意力模块的输入；其中，通道注意力模块的计算过程为：

其中，F表示输入的特征，M_c(F)表示通道注意力特征，AvgPool(F)表示对特征图做平均池化操作，MaxPool(F)表示对特征图做最大池化操作，σ表示sigmoid激活函数，MLP表示共享全连接层，该全连接层的权重是共享的，W₀表示第一层全连接层的权重，W₁表示第二层全连接层的权重，表示对特征图做平均池化操作，表示对特征图做最大池化操作；

空间注意力模块的计算过程为：

其中，f^7×7表示卷积核大小为7×7的卷积操作，F表示输入的特征，M_s(F)表示空间注意力特征，AvgPool(F)表示对特征图做平均池化操作，MaxPool(F)表示对特征图做最大池化操作，σ表示sigmoid激活函数，表示对特征图做平均池化操作，表示对特征图做最大池化操作。

优选的，利用YOLOHead进行分类和回归时，YOLOv3目标检测网络的整体损失函数为：

其中，网格一共是S*S个，每个网格产生B个候选框，x_i和y_i表示预测得到的边界框中心点坐标，和表示真实边界框中心点坐标，ω_i表示边界框的宽，h_i表示边界框的宽和高，C_i ^j表示置信度，表示真实置信度，P_i ^j与分别代表预测的某一目标是各个概率的预测值与真实值，代表网格i的第j个边界框出现目标的概率，与相反，代表网格在i，j处没有目标的概率，λ_coord和λ_noord分别代表边界框损失和置信度损失的权重。

优选的，YOLOv3目标检测网络训练过程分为两个阶段，分别是冻结阶段和解冻阶段；首先冻结主干网络训练50个epoch，仅仅对网络进行微调，此时batch size为8，学习率为0.001；然后解冻主干网络训练100个epoch，此时batchsize为4，学习率为0.0001。

与现有技术相比，本发明具有如下有益的技术效果：

本发明基于深度学习针对雾霾天气设计了一种目标检测模型，通过条件对抗生成网络对雾霾图像进行预处理，增加网络训练的鲁棒性，采用改进后的YOLOv3算法训练，提高了特征提取的精度，最终获得雾霾天气下的目标检测模型，能够有效提升雾霾天气下目标检测的准确率。

附图说明

图1为本发明的方法流程图；

图2为本发明中条件生成对抗网络的预处理流程图；

图3为本发明中改进的YOLOv3特征融合网络结构图；

图4为本发明中改进的YOLOv3网络结构图；

图5为本发明中注意力机制模块结构图。

具体实施方式

如图1-5所示，本实施例提出的一种基于YOLOv3网络的雾霾环境下目标检测方法，包括如下步骤S1-S3：

S1、获取雾霾环境下的目标检测数据集，该数据集是公开数据集RESIDE。

S2、使用条件对抗生成网络对图像进行预处理，条件生成对抗网络包括生成器、判别器和整体损失函数；生成器融合了残差网络的思想，生成器用Res-Unet结构，生成器包括编码器、解码器和转换器；编码器由4层卷积层构成，用于将图像下采样提取特征向量；转换器由3层Resnet模块构成，用于将源域中的高级特征转换到目标域的特征；解码器由4层反卷积层构成，用于将特征向量还原到原始大小；判别器采用PatchGAN结构，该PatchGAN结构把图片分成70×70的patch进行判别；条件对抗生成网络的整体损失函数为：

其中，x表示真实数据，z表示输入，y表示条件变量，E表示对应分布的期望值，D(xy)是判别器判断真实图片是否真实的概率，D(G(zy))是判别器判断生成的图片是否真实的概率，p_r是实际数据分布，p_z是生成数据分布；

如图2所示，预处理过程包括如下步骤S2.1-S2.5：

S2.5、使用训练好的条件生成对抗网络进行去雾处理。

S3、结合预处理后的图像，送入改进后的YOLOv3目标检测网络进行训练和预测，输出检测结果。YOLOv3目标检测网络训练过程分为两个阶段，分别是冻结阶段和解冻阶段；首先冻结主干网络训练50个epoch，仅仅对网络进行微调，此时batchsize为8，学习率为0.001；然后解冻主干网络训练100个epoch，此时batchsize为4，学习率为0.0001。

首先对数据集按照9:1比例划分训练集和验证集，接着设计YOLOv3的网络结构，如图4所示，YOLOv3目标检测网络包括主干网络Darknet53、特征融合网络和YOLOHead；主干网络Darknet53用于特征提取，以得到四个不同尺度的特征层进行下一步的融合；特征融合网络用于加强特征提取，以对主干网络获得的四个不同尺度的特征进行上采样、拼接和卷积操作；YOLOHead用于对特征图中每一个特征点进行分类和回归，判断是否有目标。

如图3所示，为YOLOv3目标检测网络的特征融合结构做出的改进，为其添加了注意力机制模块，使网络可以选择最合适的特征去检测相应大小的目标，借鉴了特征金字塔网络结构，通过上采样操作对特征进行融合，并且在特征融合网络结构中增加一条分支用于融合不同尺度的特征信息。本发明方法中尺寸为13×13的输出特征感受野最大，可以检测大目标；104×104的输出特征感受野最小，可以检测小目标。

如图5所示为注意力机制CBAM模块的具体流程结构图，注意力机制CBAM模块包括通道注意力模块和空间注意力模块，特征图先输入通道注意力模块，计算后的输出结果再作为空间注意力模块的输入。其中，通道注意力模块的计算过程为：

空间注意力模块的计算过程为：

利用YOLOHead进行分类和回归时，YOLOv3目标检测网络的整体损失函数为：

YOLOv3目标检测网络的整体损失函数由中心坐标误差、宽高误差、置信度误差和分类误差组合而成：

中心坐标误差：表示网格i的第j个边界框和真实目标的边界框比较，计算得到的中心坐标的误差。

宽高坐标误差：表示网格i的第j个边界框和真实目标的边界框比较，计算得到的宽高坐标的误差。

置信度误差：使用交叉熵来表示，可以分为存在对象的边界框的置信度误差和不存在对象的边界框的置信度误差。

分类误差：使用交叉熵作为损失函数。

本实施例基于深度学习针对雾霾天气设计了一种目标检测模型，通过条件对抗生成网络对雾霾图像进行预处理，增加网络训练的鲁棒性，采用改进后的YOLOv3算法训练，提高了特征提取的精度，最终获得雾霾天气下的目标检测模型。与现有技术相比，这种方法能够有效提升雾霾天气下目标检测的准确率。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于此，在所属技术领域的技术人员所具备的知识范围内，在不脱离本发明宗旨的前提下还可以作出各种变化。

Claims

1.一种基于YOLOv3网络的雾霾环境下目标检测方法，其特征在于，包括如下步骤S1-S3：

S1、获取雾霾环境下的目标检测数据集；

S2.5、使用训练好的条件生成对抗网络进行去雾处理；

2.根据权利要求1所述的一种基于YOLOv3网络的雾霾环境下目标检测方法，其特征在于，步骤S1中的数据集是公开数据集RESIDE。

3.根据权利要求1所述的一种基于YOLOv3网络的雾霾环境下目标检测方法，其特征在于，生成器用Res-Unet结构，生成器包括编码器、解码器和转换器；编码器由4层卷积层构成，用于将图像下采样提取特征向量；转换器由3层Resnet模块构成，用于将源域中的高级特征转换到目标域的特征；解码器由4层反卷积层构成，用于将特征向量还原到原始大小。

4.根据权利要求3所述的一种基于YOLOv3网络的雾霾环境下目标检测方法，其特征在于，判别器采用PatchGAN结构，该PatchGAN结构把图片分成70×70的patch进行判别。

5.根据权利要求4所述的一种基于YOLOv3网络的雾霾环境下目标检测方法，其特征在于，条件对抗生成网络的整体损失函数为：

6.根据权利要求1所述的一种基于YOLOv3网络的雾霾环境下目标检测方法，其特征在于，步骤S3中，YOLOv3目标检测网络包括主干网络Darknet53、特征融合网络和YOLO Head；主干网络Darknet53用于特征提取，以得到四个不同尺度的特征层进行下一步的融合；特征融合网络用于加强特征提取，以对主干网络获得的四个不同尺度的特征进行上采样、拼接和卷积操作；YOLO Head用于对特征图中每一个特征点进行分类和回归，判断是否有目标。

7.根据权利要求6所述的一种基于YOLOv3网络的雾霾环境下目标检测方法，其特征在于，对YOLOv3目标检测网络的特征融合网络结构添加注意力机制CBAM模块，并且在特征融合网络结构中增加一条分支用于融合不同尺度的特征信息。

8.根据权利要求7所述的一种基于YOLOv3网络的雾霾环境下目标检测方法，其特征在于，注意力机制CBAM模块包括通道注意力模块和空间注意力模块，特征图先输入通道注意力模块，计算后的输出结果再作为空间注意力模块的输入；其中，通道注意力模块的计算过程为：

其中，F表示输入的特征，M_c(F)表示通道注意力特征，AvgPool(F)表示对特征图做平均池化操作，MaxPool(F)表示对特征图做最大池化操作，σ表示sigmoid激活函数，MLP表示共享全连接层，该全连接层的权重是共享的，W₀表示第一层全连接层的权重，W₁表示第二层全连接层的权重，

表示对特征图做平均池化操作，

表示对特征图做最大池化操作；

空间注意力模块的计算过程为：

其中，f^7×7表示卷积核大小为7×7的卷积操作，F表示输入的特征，M_s(F)表示空间注意力特征，AvgPool(F)表示对特征图做平均池化操作，MaxPool(F)表示对特征图做最大池化操作，σ表示sigmoid激活函数，

表示对特征图做平均池化操作，

表示对特征图做最大池化操作。

9.根据权利要求7所述的一种基于YOLOv3网络的雾霾环境下目标检测方法，其特征在于，利用YOLO Head进行分类和回归时，YOLOv3目标检测网络的整体损失函数为：

其中，网格一共是S*S个，每个网格产生B个候选框，x_i和y_i表示预测得到的边界框中心点坐标，

和

表示真实边界框中心点坐标，ω_i表示边界框的宽，h_i表示边界框的宽和高，

表示置信度，

表示真实置信度，

与

分别代表预测的某一目标是各个概率的预测值与真实值，

代表网格i的第j个边界框出现目标的概率，

与

相反，

代表网格在i，j处没有目标的概率；λ_coord和λ_noord分别代表边界框损失和置信度损失的权重。

10.根据权利要求1所述的一种基于YOLOv3网络的雾霾环境下目标检测方法，其特征在于，YOLOv3目标检测网络训练过程分为两个阶段，分别是冻结阶段和解冻阶段；首先冻结主干网络训练50个epoch，仅仅对网络进行微调，此时batch size为8，学习率为0.001；然后解冻主干网络训练100个epoch，此时batch size为4，学习率为0.0001。