CN115861956A

CN115861956A - 一种基于解耦头部的Yolov3道路垃圾检测方法

Info

Publication number: CN115861956A
Application number: CN202211703314.9A
Authority: CN
Inventors: 许水清; 易文淏; 陶松兵; 章文焘; 郑浩东; 何启航; 都海波; 陈立平
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-03-28

Abstract

本发明公开了一种基于解耦头部的Yolov3道路垃圾检测方法，属于计算机视觉技术领域，该检测方法包括建立改进Yolov3网络，所述改进Yolov3网络包括主干网络、Neck结构和检测头部，所述Neck结构包括通道注意力机制CA；通过获得的训练样本集对主干网络进行优化进而得到具有最佳识别效果的道路垃圾识别网络，并通过该网络实现对道路垃圾的检测和识别。本发明识别方法相比于传统的检测方法，能更好实现特征分离和融合，提高网络的识别能力。本发明的方法在测试样本集中的准确度，均高于其他方法，能更好的适应复杂的道路环境。

Description

一种基于解耦头部的Yolov3道路垃圾检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于解耦头部的Yolov3道路垃圾检测方法。

背景技术

随着时代的发展，计算机视觉技术已经深度融入到各行各业中，其中利用深度学习和图像处理方法实现对道路垃圾的识别成为近年来计算机视觉领域在环境工程应用的研究热点。位于城市开阔区域的道路垃圾具有目标小，类型多，形状各异的特点，具有较复杂的特征。采用传统的目标检测方法容易受复杂特征的干扰而导致错检、漏检的问题。因此，直接将传统目标检测方法应用于道路垃圾识别领域会存在一定的局限性。

目前传统的道路垃圾识别方法主要还依赖人工操作，而人工操作分类效率低下，尤其是处理巨量垃圾时，恶劣的分类环境和繁重的任务会对操作人员的身体健康构成威胁，并且容易因任务困难导致识别出错，混叠的垃圾不但容易对环境造成污染，而且可能造成可回收资源的浪费。另一种会采用的方法是建立各种垃圾的图片数据库，利用图像对比技术和尺度不变特征变换匹配等算法，识别各种垃圾对象，但这种方法只适用于垃圾处理厂以传送带为固定背景的垃圾识别场合，无法应用于具有复杂背景的道路垃圾识别场合，并且很难保证多目标任务时的识别准确度，无法满足道路垃圾识别的实际需求。

综上所述，现有的道路垃圾识别技术存在以下问题：

1.道路垃圾背景复杂，传统目标检测方法很难处理这种复杂特征的任务；

2.道路垃圾在识别区域的占比较小，且多个不同类别和形状的垃圾会分布于同一个识别区域；

3.由于路况的复杂性，道路垃圾会出现不同程度的遮挡现象，掩盖道路垃圾原本的特征，这对特征提取造成了一定的不利影响。

发明内容

本发明的目的是解决上述现有技术中存在的问题。具体地，采用通道注意力机制的CSPDarkNet53网络作为主干网络，采用解耦头部作为检测头部，利用训练样本集来优化主干网络，利用测试样本集，挑选出优化效果最好的主干网络，作为道路垃圾识别网络，对道路垃圾进行识别。与传统方法相比，本发明方法，由于通道注意力机制的加入，可以更好检测小样本目标，适应复杂的背景环境，采用解耦检测头部，提高对类别繁多、形态各异的道路垃圾的特征提取和融合能力，提高道路垃圾的识别率。

为了实现上述目标，本发明提供了一种基于解耦头部的Yolov3道路垃圾检测方法，将采集到的道路垃圾图像通过改进Yolov3网络结构，经训练得到最优检测效果的道路垃圾识别网络，并使用该垃圾识别网络对道路垃圾完成识别，具体包含以下步骤：

步骤1，道路垃圾图像的采集和处理

采集D类道路垃圾图像，其中D记为道路垃圾图像的种类数；

在D类道路垃圾图像中的每一类中选取M张道路垃圾图像，得到M×D张道路垃圾图像，然后对M×D张道路垃圾图像分别采用Z种图像处理方式完成数据增强，获得Z×M×D张道路垃圾图像，并将该Z×M×D张道路垃圾图像组成一个训练样本数据集；

在D类道路垃圾图像的每一类中再选取M张图像之外的N张道路垃圾图像得到N×D张道路垃圾图像，将该N×D张道路垃圾图像组成一个测试样本数据集，其中N≠M；

步骤2，建立基于解耦检测头部和通道注意力机制的改进Yolov3网络，所述改进Yolov3网络包括主干网络、Neck结构和检测头部；

步骤2.1，采用CSPDarkNet53网络作为主干网络，并定义实际网络层数除以标注网络层数256的值为深度系数ζ，所述主干网络结构包括：由卷积核大小为6×6的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α₁，该标准卷积层α₁具有32个输入通道；由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α₂，该标准卷积层α₂具有64个输入通道；由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α₃，该标准卷积层α₃具有128个输入通道；由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α₄，该标准卷积层α₄具有256个输入通道；由卷积核大小为6×6的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α₅，该标准卷积层α₅具有512个输入通道；包含3个标准卷积层α₂、128ζ个瓶颈模块的C3模块层β₁；包含3个标准卷积层α₃、256ζ个瓶颈模块的C3模块层β₂；包含3个标准卷积层α₄、512ζ个瓶颈模块的C3模块层β₃；包含3个标准卷积层α₅、1024ζ个瓶颈模块的C3模块层β₄；SPPF模块层γ₁；

主干网络的输入为标准卷积层α₁，输出为SPPF模块层γ₁，具体的，标准卷积层α₁、标准卷积层α₂、C3模块层β₁、标准卷积层α₃、C3模块层β₂、标准卷积层α₄、C3模块层β₃、标准卷积层α₅、C3模块层β₄和SPPF模块层γ₁依次串联；

步骤2.2，采用FPN+PAN网络作为Neck结构，所述的Neck结构包括：一个卷积核大小为1×1通道数为512的卷积层χ₁，一个卷积核大小为1×1通道数为256卷积层χ₂、一个卷积核大小为3×3通道数为128卷积层χ₃、一个卷积核大小为3×3通道数为256卷积层χ₄；通道数为256的下采样层δ；四个Concat模块层分别记为Concat模块层C₁、Concat模块层C₂、Concat模块层C₃和Concat模块层C₄；两个512通道的C3模块层分别记为C3模块层D₁、C3模块层D₂，两个256通道的C3模块层分别记为D₃和第四C3模块层D₄；通道注意力机制CA；

Neck结构的输入为三个，分别记为输入output₁₁、输入output₁₂和输入output₁₃，其中，输入output₁₁接主干网络的C3模块层β₂的输出，输入output₁₂接主干网络的C3模块层β₃的输出，输入output₁₃接主干网络的SPPF模块层γ₁的输出；Neck结构的输出为三个，分别记为输出output₂₁、输出output₂₂和输出output₂₃，其中，输出output₂₁为C3模块层D₂的输出，输出output₂₂为C3模块层D₃的输出，输出output₂₃为通道注意力机制CA的输出；

步骤2.3，采用解耦检测头部作为检测头部，所述检测头部的结构包括：卷积核大小为1×1通道数为256的卷积层Z₁，卷积核大小为3×3通道数为256的卷积层Z₂，卷积核大小为3×3通道数为512的卷积层Z₃，卷积核大小为1×1通道数为D的卷积层Z₄，卷积核大小为1×1通道数为4的卷积层Z₅，卷积核大小为1×1通道数为1的卷积层Z₆；

解耦头部的输入为卷积层Z₁，卷积层Z₁分别与Neck结构的三条输出output₂₁、output₂₂、output₂₃连接；其输出形成以下三条通路：第一条通路由卷积层Z₁、卷积层Z₂卷积层Z₃和卷积层Z₄依次串联构成；第二条通路由卷积层Z₁、卷积层Z₂、卷积层Z₃和卷积层Z₅依次串联构成；第三条通路由卷积层Z₁、卷积层Z₂、卷积层Z₃和卷积层Z₆依次串联构成；

步骤3，对步骤2建立的改进Yolov3网络进行训练，得到具有最优检测效果的网络，并将该具有最优检测效果的网络作为道路垃圾识别网络，具体步骤如下：

步骤3.1，将训练样本集中的道路垃圾图像的像素统一调整为S×S；

步骤3.2，随机选取训练样本集中的B张道路垃圾图像，并组成一个系列Γ，r＝(y₁，y₂，...，y_s...，y_B)，其中，y_s为系列Γ中任意一个道路垃圾图像，记为图像y_s，s＝1，2，...，B，计算图像y_s的实际类别概率张量Y^s、实际类别坐标张量W^s和实际类别IoU张量X^s，其中实际类别概率张量Y^s的尺寸为H×W×C，实际类别坐标张量W^s的尺寸为H×W×4，实际类别IoU张量X^s的尺寸为H×W×1；其中H表示各张量的高度，W表示各张量的宽度，C表示各张量的深度；

初始化图像y_s的预测类别概率张量O^s、预测类别坐标张量P^s和预测类别IoU张量Q^s，其取值分别如下：

定义预测类别张量O^s、预测类别坐标张量P^s、预测类别IoU张量Q^s的坐标由横坐标n、纵坐标m、深度坐标γ构成，并记为(n，m，γ)；

任意选取横坐标n、纵坐标m、深度坐标γ(其中n＝1，2，...H、m＝1，2，...W、γ＝1，2，...C)并令

且O^s中其他坐标的预测概率值均等于0，对预测类别坐标张量P^s任意选取横坐标n、纵坐标m、深度坐标γ(其中n＝1，2，...H、m＝1，2，...W、γ＝1，2，...4)并令/>

且P^s中其他坐标的预测概率值均等于0，对预测类别IoU张量Q^s任意选取横坐标n、纵坐标m、深度坐标γ(其中n＝1，2，...H、m＝1，2，...W、γ＝1)并令/>

且Q^s中其他坐标的预测概率值均等于0；

步骤3.3，将步骤3.2选取得到的B张道路垃圾图像输入主干网络后更新每张道路垃圾图像的预测类别概率张量O^s、预测类别坐标张量P^s及预测类别IoU张量Q^s，s＝s＝1，2，...，B；

步骤3.4，根据更新后的各个预测张量与实际张量对主干网络进行优化：

将图像y_s的高度等分为H个线段、宽等分为W个线段，即将图像y_s等分为H×W个网格；

对图像y_s上的每个网格进行预测，并将得到的预测信息与真实信息进行对比，获得损失函数loss，通过梯度下降法得到最小化损失函数loss，完成主干网络的优化；

步骤3.5，重复步骤3.2至步骤3.4，直至训练样本集中的道路垃圾图像都被选取过，其中，如果最后一轮选取中，样本训练集剩下的道路垃圾图像数小于B，则从已经选取过的道路垃圾图像中随机选取道路垃圾图像进行补充；

将通过步骤3.2-步骤3.5完成优化的主干网络记为第h世代的主干网络T_h，其中h为世代的序号；

步骤3.6，利用测试样本集计算第h世代的主干网络T_h对测试样本集中道路垃圾图像的均值平均精度V_h，具体如下：

步骤3.6.1，定义D类道路垃圾中任意一类道路垃圾为第i类垃圾，i＝1，2，...，D；

定义预测框为网格上标记的矩形框，其中预测类别概率张量O^s确定该矩形框检测的垃圾类别，预测类别坐标张量P^s确定该矩形框的中心坐标，预测类别IoU张量Q^s确定矩形框的置信度；定义实际框为在道路垃圾图像上对道路垃圾人工标注的矩形框；定义重叠度I为预测框和实际框的面积交集除以面积并集的值；

步骤3.6.2，在0-1随机取不相等的n个小数构成重叠度阈值序列K，K＝{K_i1，K_i2，...K_ij，..K_in}，其中，K_ij为第i类垃圾对应的第j个重叠度阈值，j＝1，2，…，n；

定义TP为第i类垃圾中重叠度I≥第j个重叠度阈值K_ij的预测框个数，FP为第i类垃圾中重叠度I＜第j个重叠度阈值K_ij的预测框个数，FN为对实际框未给出对应预测框的个数，计算第i类垃圾在第j个重叠度阈值K_ij中的召回率R_ij和精确度P_ij，其计算式分别如下：

步骤3.6.3，按照步骤3.6.2的方法计算重叠度阈值序列K中所有重叠度阈值在第i类垃圾中的召回率和精确度，得到n个召回率R_ij和精确度P_ij，按照从1到n的顺序，以召回率R_ij为横坐标、精确度P_ij为纵坐标，在平面坐标系中绘制出一条曲线，并记为P_i-R_i曲线；

以P_i-R_i曲线、横坐标、纵坐标、P_i-R_i曲线的终点与横坐标的连线为轮廓线，计算轮廓线中的面积并记为第i类垃圾的AP值F_i；

步骤3.6.4，按照步骤3.6.2-步骤3.6.3的方法计算D类道路垃圾中每一类道路垃圾的AP值，得到D个AP值F_i，并根据D个AP值F_i计算第h世代的主干网络T_h对测试样本集中道路垃圾图像的均值平均精度V_h，

步骤3.7，设重复次数为G，G次重复步骤3.4一步骤3.6，得到一个网络集合T和一个均值平均精度集合V，T＝{T₁，T₂，...，T_h，...，T_G}，V＝{V₁，V₂，...，V_h，...，V_G}；

记V_o为最高均值平均精度，V_o＝max{V₁，V₂，...，V_h，...，V_G)，V_o对应的主干网络T_o即为具有最佳识别效果的网络，并记为道路垃圾识别网络；

步骤4，利用道路垃圾识别网络对道路垃圾进行识别。

优选地，所述C3模块层β₁、C3模块层β₂、C3模块层β₃、C3模块层β₄均由沿主干网络输入-输出方向依次串联的三层结构构成，具体如下：

将128ζ、256ζ、512ζ、1024ζ统称为n×ζ，n或等于128或等于256或等于512或等于1024，将标准卷积层α₂、标准卷积层α₃、标准卷积层α₄和标准卷积层α₅则统称为标准卷积层α；

上述四个C3模块层的第一层结构均为并列的通路З1和通路З2构成，其中，通路З1由一个标准卷积层α和n×ζ个瓶颈模块依次串联构成，通路З2由一个标准卷积层α构成，第二层结构为Concat模块层，输入为通路З1和通路З2，输出串行连接到第三层结构中；第三层结构为一个标准卷积层α。

优选地，所述Neck结构由沿主干网络输入-输出方向依次串联的8层结构构成：

第一层结构分别以输入output₁₁、输入output₁₂为输入，包括并列的通路б1和通路б2，其中，通路б1由输入output₁₁、Concat模块层C₁、卷积层χ₁、下采样层δ依次串联而成，通路б2由输入output₁₂和Concat模块层C₁连接构成；第二层结构由Concat模块层C₁构成；第三层结构分别以Concat模块层C₁的输出、输入output₁₃作为输入，包括并列的通路б3和通路б4，其中，通路б3由Concat模块层C₁的输出、Concat模块层C₂、C3模块层D₁、卷积层χ₂、下采样层δ依次串联而成，通路б4由输入output₁₃和Concat模块层C₂连接构成；第四层结构由Concat模块层C₂构成；第五层结构分别以Concat模块层C₂的输出、卷积层χ₂的输出为输入，包括并列的通路б5和通路б6，其中，通路б5由Concat模块层C₂的输出、Concat模块层C₃、C3模块层D₂、卷积层χ₃依次串联而成，通路б6由卷积层χ₂的输出和Concat模块层C₃直接连接构成；第六层结构为Concat模块层C₃；第七层结构分别以Concat模块层D₃输出、卷积层χ₁输出为输入，包括两条并列的通路б7和通路б8，通路б7由沿Concat模块层的输出、C3模块层D₂、卷积层χ₄依次串联而成，通路б8由卷积层χ₁的输出和Concat模块层C₄直接连接构成；第八层结构由Concat模块层C₄、C3模块层D₄、通道注意力机制CA依次串接而成。

优选地，所述通道注意力机制CA的实现步骤如下：

所述通道注意力机制CA包括平均池化层η_X、平均池化层η_Y、Concat模块层L、卷积层λ、批量标准化层A和Sigmoid非线性激活层J；

所述的通道注意力机制CA由沿主干网络输入-输出方向依次串联的3层结构构成：第一层结构由两条并列的通路Д1和通路Д2构成，通路Д1由平均池化层η_X构成，通路Д2由平均池化层η_Y构成，两条通路接入Concat模块层L，第二层结构由沿两条并列通路方向-主干网络输出方向依次串联Concat模块层L、批量标准化层A构成，第三层结构从批量标准化层A的输出分出两条并列的通路Д3和通路Д4，通路Д3和通路Д4均由卷积层λ、Sigmoid非线性激活层J依次串接而成；

所述通道注意力机制CA的输入为第四C3模块层D₄的输出，将通路Д3和通路Д4的输出分别与注意力机制CA的输入相乘，得到注意力机制CA的输出。

优选地，所述利用道路垃圾识别网络对道路垃圾进行识别的具体步骤如下：

步骤4.1，输入一张待识别的原始道路垃圾图像，并做如下图像处理：将此待识别的原始道路垃圾图像的像素调整为E×E；

将通道前述处理的待识别原始道路垃圾图像记为图像Y_d；

步骤4.2，在图像Y_d上等分网格并将其中任意一个网格记为网格K^d _v，其中v为网格的序号，v＝1，2，...，Λ，Λ为网格的数量；

步骤4.3，将图像Y_d送入道路垃圾识别网络，得到网格K^d _v中每一个预测框的预测类别概率张量、预测类别坐标张量和预测类别IoU张量，定义其中任意一个预测框为预测框R^d _vu，u＝1，2，...，U，U为网格K^d _v中预测框的数量，则得到与预测框R^d _vu对应的预测类别概率张量的预测概率值O^d _vu、预测类别坐标张量的预测概率值P^d _vu及预测类别IoU张量的预测概率值Q^d _vu，通过预测类别IoU张量预测概率值Q^d _vu得到预测框R^d _vu的置信度，并记为置信度L^d _vu；

将置信度L^d _v与给定置信度阈值L⁰进行比较，并做出如下判断：

若L^d _vu≥L⁰，保留该预测框；

若L^d _vu＜L⁰，舍弃该预测框；

步骤4.4，重复步骤4.3，直到图像Y_d所有网格都被选取过，然后根据待识别道路垃圾图像每一个网格中预测框判断的结果，将预测框标记在图像Y_d上，获得已识别道路垃圾图像。

与现有技术相比，本发明的有益效果如下：

1.本发明中的通道注意力机制采用了有效的数据压缩方法，可以在复杂的识别背景下，有选择地提取需要地特征。

2.本发明采用定位和分类特征分离的识别方法，将对道路垃圾地理位置定位特征和道路垃圾类别识别特征处理过程分离，提高了对各种复杂特征的利用能力，针对小目标和多形态目标有较好的效果。

3.本发明提出的基于通道注意力机制的CSPDarkNet53网络在对多目标和遮挡目标时有较强的识别能力，更适应实际生活的需要。

附图说明

图1是本发明道路垃圾识别方法的流程图；

图2是本发明道路垃圾识别方法的示意框图；

图3是本发明实施例中检测头部实现步骤示意图；

图4是本发明实施例中本发明道路识别方法和其他方法的mAP对比图。

具体实施方法

下面将结合附图和具体的实施方式对本发明的技术方案进行清楚、完整的描述。

图1是本发明道路垃圾识别方法的流程图，图2是本发明道路垃圾识别方法的示意框图，由图1和图2可见，本发明提供了一种基于解耦头部的Yolov3道路垃圾检测方法，该检测方法将采集到的道路垃圾图像通过改进Yolov3网络结构，经训练得到最优检测效果的道路垃圾识别网络，并使用该垃圾识别网络对道路垃圾完成识别，具体包含以下步骤：

步骤1，道路垃圾图像的采集和处理

采集D类道路垃圾图像，其中D记为道路垃圾图像的种类数；

在D类道路垃圾图像的每一类中再选取M张图像之外的N张道路垃圾图像得到N×D张道路垃圾图像，将该N×D张道路垃圾图像组成一个测试样本数据集，其中N≠M。

在本实施例中，取D＝14，M＝70，Z＝8，N＝30。

在本实施例中，z＝8，具体包括以下8种图像处理方式：随机裁剪，随机平移，改变亮度，添加高斯随机噪声，随机旋转，随机翻转，随机遮挡处理、马赛克数据增强。

步骤2，建立基于解耦检测头部和通道注意力机制的改进Yolov3网络，所述改进Yolov3网络包括主干网络、Neck结构和检测头部。

主干网络的输入为标准卷积层α₁，输出为SPPF模块层γ₁，具体的，标准卷积层α₁、标准卷积层α₂、C3模块层β₁、标准卷积层α₃、C3模块层β₂、标准卷积层α₄、C3模块层β₃、标准卷积层α₅、C3模块层β₄和SPPF模块层γ₁依次串联。

在本实施例中，所述C3模块层β₁、C3模块层β₂、C3模块层β₃、C3模块层β₄均由沿主干网络输入-输出方向依次串联的三层结构构成，具体如下：

Neck结构的输入为三个，分别记为输入output₁₁、输入output₁₂和输入output₁₃，其中，输入output₁₁接主干网络的C3模块层β₂的输出，输入output₁₂接主干网络的C3模块层β₃的输出，输入output₁₃接主干网络的SPPF模块层γ₁的输出；Neck结构的输出为三个，分别记为输出output₂₁、输出output₂₂和输出output₂₃，其中，输出output₂₁为C3模块层D₂的输出，输出output₂₂为C3模块层D₃的输出，输出output₂₃为通道注意力机制CA的输出。

在本实施例中，所述Neck结构由沿主干网络输入-输出方向依次串联的8层结构构成：

第一层结构分别以输入output₁₁、输入output₁₂为输入，包括并列的通路б1和通路б2，其中，通路б1由输入output₁₁、Concat模块层C1、卷积层χ₁、下采样层δ依次串联而成，通路б2由输入output₁₂和Concat模块层C₁连接构成；第二层结构由Concat模块层C1构成；第三层结构分别以Concat模块层C₁的输出、输入output₁₃作为输入，包括并列的通路б3和通路б4，其中，通路б3由Concat模块层C₁的输出、Concat模块层C₂、C3模块层D₁、卷积层χ₂、下采样层δ依次串联而成，通路б4由输入output₁₃和Concat模块层C₂连接构成；第四层结构由Concat模块层C₂构成；第五层结构分别以Concat模块层C₂的输出、卷积层χ₂的输出为输入，包括并列的通路б5和通路б6，其中，通路б5由Concat模块层C₂的输出、Concat模块层C₃、C3模块层D₂、卷积层χ₃依次串联而成，通路б6由卷积层χ₂的输出和Concat模块层C₃直接连接构成；第六层结构为Concat模块层C₃；第七层结构分别以Concat模块层C₃输出、卷积层χ₁输出为输入，包括两条并列的通路б7和通路б8，通路б7由沿Concat模块层的输出、C3模块层D₃、卷积层χ₄依次串联而成，通路б8由卷积层χ₁的输出和Concat模块层C₄直接连接构成；第八层结构由Concat模块层C₄、C3模块层D₄、通道注意力机制CA依次串接而成。

在本实施例中，所述通道注意力机制CA的实现步骤如下：

所述的通道注意力机制CA由沿主干网络输入-输出方向依次串联的3层结构构成：第一层结构由两条并列的通路Д1和通路Д2构成，通路Д1由平均池化层η_X构成，通路Д2由平均池化层η_Y构成，两条通路接入Concat模块层L，第二层结构由沿两条并列通路方向-主干网络输出方向依次串联Concat模块层、批量标准化层A构成，第三层结构从批量标准化层A的输出分出两条并列的通路Д3和通路Д4，通路Д3和通路Д4均由卷积层λ、Sigmoid非线性激活层J依次串接而成；

解耦头部的输入为卷积层Z₁，卷积层Z₁分别与Neck结构的三条输出output₂₁、output₂₂、output₂₃连接；其输出形成以下三条通路：第一条通路由卷积层Z₁、卷积层Z₂卷积层Z₃和卷积层Z₄依次串联构成；第二条通路由卷积层Z₁、卷积层Z₂、卷积层Z₃和卷积层Z₅依次串联构成；第三条通路由卷积层Z₁、卷积层Z₂、卷积层Z₃和卷积层Z₆依次串联构成。

图3为本发明实施例中检测头部实现步骤示意图。(须补充一段文字与图3对应)

步骤3.1，将训练样本集中的道路垃圾图像的像素统一调整为S×S。

步骤3.2，随机选取训练样本集中的B张道路垃圾图像，并组成一个系列Γ，Γ＝(y₁，y₂，...，y_s...，y_B)，其中，y_s为系列Γ中任意一个道路垃圾图像，记为图像y_s，s＝1，2，...，B，计算图像y_s的实际类别概率张量Y^s、实际类别坐标张量W^s和实际类别IoU张量X^s，其中实际类别概率张量Y^s的尺寸为H×W×C，实际类别坐标张量W^s的尺寸为H×W×4，实际类别IoU张量X^s的尺寸为H×W×1；其中H表示各张量的高度，W表示各张量的宽度，C表示各张量的深度。

且Q^s中其他坐标的预测概率值均等于0；

步骤3.3，将步骤3.2选取得到的B张道路垃圾图像输入主干网络后更新每张道路垃圾图像的预测类别概率张量O^s、预测类别坐标张量P^s及预测类别IoU张量Q^s，s＝s＝1，2，…，B。

对图像y_s上的每个网格进行预测，并将得到的预测信息与真实信息进行对比，获得损失函数loss，通过梯度下降法得到最小化损失函数min-loss，完成主干网络的优化。

在本实施例中，所述损失函数loss的表达式如下：

loss＝box_gain×bbox_loss+cls_gain×cls_loss+obj_gain×obj_loss

其中，bbox_loss为矩形框损失，cls_loss为分类损失，obj_loss为置信度损失，box_gain为矩形框损失权重，cls_gain为分流损失权重，obj_gain为置信度损失；

默认box_gain＝0.05，cls_gain＝0.5，obj_gain＝1.0，给出矩形框损失bbox_loss、分类损失cls_loss和置信度损失obj_loss的表达式如下：；

其中||·||₂表示欧几里得范数；

通过梯度下降法得到最小化损失函数min-loss，完成主干网络的优化。

将通过步骤3.2-步骤3.5完成优化的主干网络记为第h世代的主干网络T_h，其中h为世代的序号。

步骤3.6.1，定义D类道路垃圾中任意一类道路垃圾为第i类垃圾，i＝1，2，…，D；

步骤3.6.2，在0-1随机取不相等的n个小数构成重叠度阈值序列K，K＝{K_i1，K_i2，…K_ij，..K_in}，其中，K_ij为第i类垃圾对应的第j个重叠度阈值，j＝1，2，…，n；

步骤3.7，设重复次数为G，G次重复步骤3.4-步骤3.6，得到一个网络集合T和一个均值平均精度集合V，T＝{T₁，T₂，...，T_h，...，T_G}，V＝{V₁，V₂，...，V_h，...，V_G}；

记V_o为最高均值平均精度，V_o＝max{V₁，V₂，...，V_h，...，V_G}，V_o对应的主干网络T_o即为具有最佳识别效果的网络，并记为道路垃圾识别网络；

在本实施例中，B＝16，S＝640，G＝51。

步骤4，利用道路垃圾识别网络对道路垃圾进行识别。

在本实施例中，所述利用道路垃圾识别网络对道路垃圾进行识别的具体步骤如下：

步骤4.1，输入一张待识别的原始道路垃圾图像，并做如下图像处理：将此待识别的原始道路垃圾图像的像素调整为E×E：

将通道前述处理的待识别原始道路垃圾图像记为图像Y_d;

步骤4.2，在图像Y_d上等分网格并将其中任意一个网格记为网格K^d _v，其中v为网格的序号，v＝1，2，…，Λ，Λ为网格的数量；

若L^d _vu≥L⁰，保留该预测框；

若Ld_vu＜L⁰，舍弃该预测框；

在本实施例中，U≥3。

到此为止，对待识别道路垃圾的检测完毕。

在以上检测过程中，步骤2所述瓶颈模块、SiLU激活函数、SPPF模块、Concat模块层和Sigmoid非线性激活层J的具体设置如下。

所述瓶颈模块的具体结构为：将输入图像分为两路，其中一路由卷积核大小为1×1的卷积层、卷积核大小为3×3的卷积层依次串行连接，另一路保留原输入图像，然后将两路输入图像直接相加获得新的图像输出。

所述SiLU激活函数的表达式为：

其中，e为指数函数，ω为SiLU激活函数的输入，Y(ω)为SiLU激活函数的输出。

所述SPPF模块由沿主干网络输入-输出方向依次串联的四层结构构成：第一层结构为卷积核大小为1×1通道数为512的卷积层；第二层结构为从第一层结构中所述卷积层输出的四条并列通路，分别记为通路κ1、通路κ2、通路κ3和通路κ4，通路κ1由沿主干网络输入-输出方向依次串联而成的三个池化层构成，通路κ2由沿主干网络输入-输出方向依次串联而成的两个池化层构成，通路κ3由沿主干网络输入-输出方向依次串联而成的一个池化层构成，通路κ4由第一层结构直接输出，其中，所述池化层均为卷积核大小为5×5的最大池化下采样层；第三层结构为Concat模块层，输入为第二层的四条通路，输出串行连接到第四层中，第四层结构为一个卷积核大小为1×1通道数为512的卷积层。

所述的Concat模块层结构如下：将输入的两通道张量前后连接，返回一个连接后的张量副本。

所述Sigmoid非线性激活层J包含一个Sigmoid函数，Sigmoid函数的表达式如下：

其中，ω1为Sigmoid函数的输入，Y1(ω1)为Sigmoid函数的输出。

图4为本发明道路垃圾检测方法和其他识别方法均值平均精度V_h的对比图，其他识别方法包括未使用任何改进的Yolov3算法，采用ECA通道注意力机制的Yolov3算法，采用ASFF检测头部的Yolov3算法。由图4可见，通过本发明方法对应的均值平均精度V_h曲线可知，本发明优于其他识别算法，说明本发明提出的识别方法在道路垃圾识别领域的优越性。

总之，本发明方法通过对Yolov3网络添加通过注意力机制及新的检测头部，提高了识别的准确性，世代对道路垃圾的识别能力得到了较大提高，能够很好满足复杂道路环境的应用需求，更好的为环境保护事业服务。

Claims

1.一种基于解耦头部的Yolov3道路垃圾检测方法，其特征在于，将采集到的道路垃圾图像通过改进Yolov3网络结构，经训练得到最优检测效果的道路垃圾识别网络，并使用该垃圾识别网络对道路垃圾完成识别，具体包含以下步骤：

步骤1，道路垃圾图像的采集和处理

采集D类道路垃圾图像，其中D记为道路垃圾图像的种类数；

步骤2.2，采用FPN+PAN网络作为Neck结构，所述的Neck结构包括：一个卷积核大小为1×1通道数为512的卷积层χ₁，一个卷积核大小为1×1通道数为256卷积层χ₂、一个卷积核大小为3×3通道数为128卷积层χ₃、一个卷积核大小为3×3通道数为256卷积层χ₄；通道数为256的下采样层δ；四个Concat模块层分别记为Concat模块层C₁、Concat模块层C₂、Concat模块层C3和Concat模块层C₄；两个512通道的C3模块层分别记为C3模块层D₁、C3模块层D₂，两个256通道的C3模块层分别记为D₃和第四C3模块层D₄；通道注意力机制CA；

Neck结构的输入为三个，分别记为输入output₁₁、输入output₁₂和输入output₁₃，其中，输入output11接主干网络的C3模块层β₂的输出，输入output₁₂接主干网络的C3模块层β₃的输出，输入output₁₃接主干网络的SPPF模块层γ₁的输出；Neck结构的输出为三个，分别记为输出output₂₁、输出output₂₂和输出output₂₃，其中，输出output₂₁为C3模块层D₂的输出，输出output₂₂为C3模块层D₃的输出，输出output₂₃为通道注意力机制CA的输出；

步骤3.2，随机选取训练样本集中的B张道路垃圾图像，并组成一个系列Γ，Γ＝(y₁，y₂，...，y_s...，y_B)，其中，y_s为系列Γ中任意一个道路垃圾图像，记为图像y_s，s＝1，2，...，B，计算图像y_s的实际类别概率张量Y^s、实际类别坐标张量W^s和实际类别IoU张量X^s，其中实际类别概率张量Y^S的尺寸为H×W×C，实际类别坐标张量W^s的尺寸为H×W×4，实际类别IoU张量X^s的尺寸为H×W×1；其中H表示各张量的高度，W表示各张量的宽度，C表示各张量的深度；

初始化图像y_s的预测类别概率张量O^s、预测类别坐标张量P^s和预测类别IoU张量Q^s，其初始化过程为：

定义预测类别张量O^s、预测类别坐标张量P^s、预测类别IoU张量Q^s的坐标由横坐标n、纵坐标m、深度坐标γ构成，并记为(n，m，x)；

任意选取横坐标n、纵坐标m、深度坐标γ(其中n＝1，2，...H、m＝1，2，...W、γ＝1，2，.C)并令

且Os中其他坐标的预测概率值均等于0，对预测类别坐标张量P^s任意选取横坐标n、纵坐标m、深度坐标γ(其中n＝1，2，...H、m＝1，2，.W、γ＝1，2，...4)并令

且少中其他坐标的预测概率值均等于0，对预测类别IoU张量Q^s任意选取横坐标n、纵坐标m、深度坐标γ(其中n＝1，2，...H、m＝1，2，...W、γ＝1)并令/>

且Q^s中其他坐标的预测概率值均等于0；

步骤3.3，将步骤3.2选取得到的B张道路垃圾图像输入主干网络后更新每张道路垃圾图像的预测类别概率张量O^s、预测类别坐标张量P^s及预测类别IoU张量Q^s，s＝s＝1，2，..，B；

步骤3.6.4，按照步骤3.6.2一步骤3.6.3的方法计算D类道路垃圾中每一类道路垃圾的AP值，得到D个AP值F_i，并根据D个AP值Fi计算第h世代的主干网络T_h对测试样本集中道路垃圾图像的均值平均精度V_h，

步骤3.7，设重复次数为G，G次重复步骤3.4-步骤3.6，得到一个网络集合T和一个均值平均精度集合V，T＝{T₁，T₂，...，Th，...，T_G}，V＝{V₁，V₂，...，Vh，...，V_G}；

步骤4，利用道路垃圾识别网络对道路垃圾进行识别。

2.根据权利要求1所述的一种基于解耦头部的Yolov3道路垃圾检测方法，其特征在于，所述C3模块层β₁、C3模块层β₂、C3模块层β₃、C3模块层β₄均由沿主干网络输入-输出方向依次串联的三层结构构成，具体如下：

上述四个C3模块层的第一层结构均为并列的通路31和通路32构成，其中，通路31由一个标准卷积层α和n×ζ个瓶颈模块依次串联构成，通路32由一个标准卷积层α构成，第二层结构为Concat模块层，输入为通路31和通路32，输出串行连接到第三层结构中；第三层结构为一个标准卷积层α。

3.根据权利要求1所述的一种基于解耦头部的Yolov3道路垃圾检测方法，其特征在于，所述Neck结构由沿主干网络输入-输出方向依次串联的8层结构构成：

第一层结构分别以输入output₁₁、输入output₁₂为输入，包括并列的通路б1和通路б2，其中，通路б1由输入output₁₁、Concat模块层C₁、卷积层χ₁、下采样层δ依次串联而成，通路б2由输入output₁₂和Concat模块层C₁连接构成；第二层结构由Concat模块层C₁构成；第三层结构分别以Concat模块层C₁的输出、输入output₁₃作为输入，包括并列的通路б3和通路б4，其中，通路б3由Concat模块层C₁的输出、Concat模块层C₂、C3模块层D₁、卷积层χ₂、下采样层δ依次串联而成，通路б4由输入output₁₃和Concat模块层C₂连接构成；第四层结构由Concat模块层C₂构成；第五层结构分别以Concat模块层C₂的输出、卷积层χ₂的输出为输入，包括并列的通路б5和通路б6，其中，通路б5由Concat模块层C₂的输出、Concat模块层C₃、C3模块层D₂、卷积层χ₃依次串联而成，通路б6由卷积层χ₂的输出和Concat模块层C₃直接连接构成；第六层结构为Concat模块层C₃；第七层结构分别以Concat模块层C₃输出、卷积层χ₁输出为输入，包括两条并列的通路б7和通路б8，通路67由沿Concat模块层的输出、C3模块层D₃、卷积层χ₄依次串联而成，通路б8由卷积层χ₁的输出和Concat模块层C₄直接连接构成；第八层结构由Concat模块层C₄、C3模块层D₄、通道注意力机制CA依次串接而成。

4.根据权利要求5所述的一种基于解耦头部的Yolov3道路垃圾检测方法，其特征在于，所述通道注意力机制CA的实现步骤如下：

5.根据权利要求1所述的一种基于解耦头部的Yolov3道路垃圾检测方法，其特征在于，所述利用道路垃圾识别网络对道路垃圾进行识别的具体步骤如下：

将通道前述处理的待识别原始道路垃圾图像记为图像Y_d；

步骤4.3，将图像Y_d送入道路垃圾识别网络，得到网格K^d _v中每一个预测框的预测类别概率张量、预测类别坐标张量和预测类别IoU张量，定义其中任意一个预测框为预测框R^d _vu，u＝1，2，…，U，U为网格K^d _v中预测框的数量，则得到与预测框R^d _vu对应的预测类别概率张量的预测概率值0^d _vu、预测类别坐标张量的预测概率值P^d _vu及预测类别IoU张量的预测概率值Q^d _vu，通过预测类别IoU张量预测概率值Q^d _vu得到预测框R^d _vu的置信度，并记为置信度L^d _vu；

若L^d _vu≥L⁰，保留该预测框；

若L^d _vu＜L⁰，舍弃该预测框；

步骤4.4，重复步骤4.3，直到图像Yd所有网格都被选取过，然后根据待识别道路垃圾图像每一个网格中预测框判断的结果，将预测框标记在图像Y_d上，获得已识别道路垃圾图像。