CN115861956A - 一种基于解耦头部的Yolov3道路垃圾检测方法 - Google Patents

一种基于解耦头部的Yolov3道路垃圾检测方法 Download PDF

Info

Publication number
CN115861956A
CN115861956A CN202211703314.9A CN202211703314A CN115861956A CN 115861956 A CN115861956 A CN 115861956A CN 202211703314 A CN202211703314 A CN 202211703314A CN 115861956 A CN115861956 A CN 115861956A
Authority
CN
China
Prior art keywords
layer
output
road garbage
convolution
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211703314.9A
Other languages
English (en)
Inventor
许水清
易文淏
陶松兵
章文焘
郑浩东
何启航
都海波
陈立平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202211703314.9A priority Critical patent/CN115861956A/zh
Publication of CN115861956A publication Critical patent/CN115861956A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于解耦头部的Yolov3道路垃圾检测方法,属于计算机视觉技术领域,该检测方法包括建立改进Yolov3网络,所述改进Yolov3网络包括主干网络、Neck结构和检测头部,所述Neck结构包括通道注意力机制CA;通过获得的训练样本集对主干网络进行优化进而得到具有最佳识别效果的道路垃圾识别网络,并通过该网络实现对道路垃圾的检测和识别。本发明识别方法相比于传统的检测方法,能更好实现特征分离和融合,提高网络的识别能力。本发明的方法在测试样本集中的准确度,均高于其他方法,能更好的适应复杂的道路环境。

Description

一种基于解耦头部的Yolov3道路垃圾检测方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于解耦头部的Yolov3道路垃圾检测方法。
背景技术
随着时代的发展,计算机视觉技术已经深度融入到各行各业中,其中利用深度学习和图像处理方法实现对道路垃圾的识别成为近年来计算机视觉领域在环境工程应用的研究热点。位于城市开阔区域的道路垃圾具有目标小,类型多,形状各异的特点,具有较复杂的特征。采用传统的目标检测方法容易受复杂特征的干扰而导致错检、漏检的问题。因此,直接将传统目标检测方法应用于道路垃圾识别领域会存在一定的局限性。
目前传统的道路垃圾识别方法主要还依赖人工操作,而人工操作分类效率低下,尤其是处理巨量垃圾时,恶劣的分类环境和繁重的任务会对操作人员的身体健康构成威胁,并且容易因任务困难导致识别出错,混叠的垃圾不但容易对环境造成污染,而且可能造成可回收资源的浪费。另一种会采用的方法是建立各种垃圾的图片数据库,利用图像对比技术和尺度不变特征变换匹配等算法,识别各种垃圾对象,但这种方法只适用于垃圾处理厂以传送带为固定背景的垃圾识别场合,无法应用于具有复杂背景的道路垃圾识别场合,并且很难保证多目标任务时的识别准确度,无法满足道路垃圾识别的实际需求。
综上所述,现有的道路垃圾识别技术存在以下问题:
1.道路垃圾背景复杂,传统目标检测方法很难处理这种复杂特征的任务;
2.道路垃圾在识别区域的占比较小,且多个不同类别和形状的垃圾会分布于同一个识别区域;
3.由于路况的复杂性,道路垃圾会出现不同程度的遮挡现象,掩盖道路垃圾原本的特征,这对特征提取造成了一定的不利影响。
发明内容
本发明的目的是解决上述现有技术中存在的问题。具体地,采用通道注意力机制的CSPDarkNet53网络作为主干网络,采用解耦头部作为检测头部,利用训练样本集来优化主干网络,利用测试样本集,挑选出优化效果最好的主干网络,作为道路垃圾识别网络,对道路垃圾进行识别。与传统方法相比,本发明方法,由于通道注意力机制的加入,可以更好检测小样本目标,适应复杂的背景环境,采用解耦检测头部,提高对类别繁多、形态各异的道路垃圾的特征提取和融合能力,提高道路垃圾的识别率。
为了实现上述目标,本发明提供了一种基于解耦头部的Yolov3道路垃圾检测方法,将采集到的道路垃圾图像通过改进Yolov3网络结构,经训练得到最优检测效果的道路垃圾识别网络,并使用该垃圾识别网络对道路垃圾完成识别,具体包含以下步骤:
步骤1,道路垃圾图像的采集和处理
采集D类道路垃圾图像,其中D记为道路垃圾图像的种类数;
在D类道路垃圾图像中的每一类中选取M张道路垃圾图像,得到M×D张道路垃圾图像,然后对M×D张道路垃圾图像分别采用Z种图像处理方式完成数据增强,获得Z×M×D张道路垃圾图像,并将该Z×M×D张道路垃圾图像组成一个训练样本数据集;
在D类道路垃圾图像的每一类中再选取M张图像之外的N张道路垃圾图像得到N×D张道路垃圾图像,将该N×D张道路垃圾图像组成一个测试样本数据集,其中N≠M;
步骤2,建立基于解耦检测头部和通道注意力机制的改进Yolov3网络,所述改进Yolov3网络包括主干网络、Neck结构和检测头部;
步骤2.1,采用CSPDarkNet53网络作为主干网络,并定义实际网络层数除以标注网络层数256的值为深度系数ζ,所述主干网络结构包括:由卷积核大小为6×6的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α1,该标准卷积层α1具有32个输入通道;由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α2,该标准卷积层α2具有64个输入通道;由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α3,该标准卷积层α3具有128个输入通道;由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α4,该标准卷积层α4具有256个输入通道;由卷积核大小为6×6的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α5,该标准卷积层α5具有512个输入通道;包含3个标准卷积层α2、128ζ个瓶颈模块的C3模块层β1;包含3个标准卷积层α3、256ζ个瓶颈模块的C3模块层β2;包含3个标准卷积层α4、512ζ个瓶颈模块的C3模块层β3;包含3个标准卷积层α5、1024ζ个瓶颈模块的C3模块层β4;SPPF模块层γ1
主干网络的输入为标准卷积层α1,输出为SPPF模块层γ1,具体的,标准卷积层α1、标准卷积层α2、C3模块层β1、标准卷积层α3、C3模块层β2、标准卷积层α4、C3模块层β3、标准卷积层α5、C3模块层β4和SPPF模块层γ1依次串联;
步骤2.2,采用FPN+PAN网络作为Neck结构,所述的Neck结构包括:一个卷积核大小为1×1通道数为512的卷积层χ1,一个卷积核大小为1×1通道数为256卷积层χ2、一个卷积核大小为3×3通道数为128卷积层χ3、一个卷积核大小为3×3通道数为256卷积层χ4;通道数为256的下采样层δ;四个Concat模块层分别记为Concat模块层C1、Concat模块层C2、Concat模块层C3和Concat模块层C4;两个512通道的C3模块层分别记为C3模块层D1、C3模块层D2,两个256通道的C3模块层分别记为D3和第四C3模块层D4;通道注意力机制CA;
Neck结构的输入为三个,分别记为输入output11、输入output12和输入output13,其中,输入output11接主干网络的C3模块层β2的输出,输入output12接主干网络的C3模块层β3的输出,输入output13接主干网络的SPPF模块层γ1的输出;Neck结构的输出为三个,分别记为输出output21、输出output22和输出output23,其中,输出output21为C3模块层D2的输出,输出output22为C3模块层D3的输出,输出output23为通道注意力机制CA的输出;
步骤2.3,采用解耦检测头部作为检测头部,所述检测头部的结构包括:卷积核大小为1×1通道数为256的卷积层Z1,卷积核大小为3×3通道数为256的卷积层Z2,卷积核大小为3×3通道数为512的卷积层Z3,卷积核大小为1×1通道数为D的卷积层Z4,卷积核大小为1×1通道数为4的卷积层Z5,卷积核大小为1×1通道数为1的卷积层Z6
解耦头部的输入为卷积层Z1,卷积层Z1分别与Neck结构的三条输出output21、output22、output23连接;其输出形成以下三条通路:第一条通路由卷积层Z1、卷积层Z2卷积层Z3和卷积层Z4依次串联构成;第二条通路由卷积层Z1、卷积层Z2、卷积层Z3和卷积层Z5依次串联构成;第三条通路由卷积层Z1、卷积层Z2、卷积层Z3和卷积层Z6依次串联构成;
步骤3,对步骤2建立的改进Yolov3网络进行训练,得到具有最优检测效果的网络,并将该具有最优检测效果的网络作为道路垃圾识别网络,具体步骤如下:
步骤3.1,将训练样本集中的道路垃圾图像的像素统一调整为S×S;
步骤3.2,随机选取训练样本集中的B张道路垃圾图像,并组成一个系列Γ,r=(y1,y2,...,ys...,yB),其中,ys为系列Γ中任意一个道路垃圾图像,记为图像ys,s=1,2,...,B,计算图像ys的实际类别概率张量Ys、实际类别坐标张量Ws和实际类别IoU张量Xs,其中实际类别概率张量Ys的尺寸为H×W×C,实际类别坐标张量Ws的尺寸为H×W×4,实际类别IoU张量Xs的尺寸为H×W×1;其中H表示各张量的高度,W表示各张量的宽度,C表示各张量的深度;
初始化图像ys的预测类别概率张量Os、预测类别坐标张量Ps和预测类别IoU张量Qs,其取值分别如下:
定义预测类别张量Os、预测类别坐标张量Ps、预测类别IoU张量Qs的坐标由横坐标n、纵坐标m、深度坐标γ构成,并记为(n,m,γ);
任意选取横坐标n、纵坐标m、深度坐标γ(其中n=1,2,...H、m=1,2,...W、γ=1,2,...C)并令
Figure BDA0004014410290000051
且Os中其他坐标的预测概率值均等于0,对预测类别坐标张量Ps任意选取横坐标n、纵坐标m、深度坐标γ(其中n=1,2,...H、m=1,2,...W、γ=1,2,...4)并令/>
Figure BDA0004014410290000052
且Ps中其他坐标的预测概率值均等于0,对预测类别IoU张量Qs任意选取横坐标n、纵坐标m、深度坐标γ(其中n=1,2,...H、m=1,2,...W、γ=1)并令/>
Figure BDA0004014410290000053
且Qs中其他坐标的预测概率值均等于0;
步骤3.3,将步骤3.2选取得到的B张道路垃圾图像输入主干网络后更新每张道路垃圾图像的预测类别概率张量Os、预测类别坐标张量Ps及预测类别IoU张量Qs,s=s=1,2,...,B;
步骤3.4,根据更新后的各个预测张量与实际张量对主干网络进行优化:
将图像ys的高度等分为H个线段、宽等分为W个线段,即将图像ys等分为H×W个网格;
对图像ys上的每个网格进行预测,并将得到的预测信息与真实信息进行对比,获得损失函数loss,通过梯度下降法得到最小化损失函数loss,完成主干网络的优化;
步骤3.5,重复步骤3.2至步骤3.4,直至训练样本集中的道路垃圾图像都被选取过,其中,如果最后一轮选取中,样本训练集剩下的道路垃圾图像数小于B,则从已经选取过的道路垃圾图像中随机选取道路垃圾图像进行补充;
将通过步骤3.2-步骤3.5完成优化的主干网络记为第h世代的主干网络Th,其中h为世代的序号;
步骤3.6,利用测试样本集计算第h世代的主干网络Th对测试样本集中道路垃圾图像的均值平均精度Vh,具体如下:
步骤3.6.1,定义D类道路垃圾中任意一类道路垃圾为第i类垃圾,i=1,2,...,D;
定义预测框为网格上标记的矩形框,其中预测类别概率张量Os确定该矩形框检测的垃圾类别,预测类别坐标张量Ps确定该矩形框的中心坐标,预测类别IoU张量Qs确定矩形框的置信度;定义实际框为在道路垃圾图像上对道路垃圾人工标注的矩形框;定义重叠度I为预测框和实际框的面积交集除以面积并集的值;
步骤3.6.2,在0-1随机取不相等的n个小数构成重叠度阈值序列K,K={Ki1,Ki2,...Kij,..Kin},其中,Kij为第i类垃圾对应的第j个重叠度阈值,j=1,2,…,n;
定义TP为第i类垃圾中重叠度I≥第j个重叠度阈值Kij的预测框个数,FP为第i类垃圾中重叠度I<第j个重叠度阈值Kij的预测框个数,FN为对实际框未给出对应预测框的个数,计算第i类垃圾在第j个重叠度阈值Kij中的召回率Rij和精确度Pij,其计算式分别如下:
Figure BDA0004014410290000071
Figure BDA0004014410290000072
步骤3.6.3,按照步骤3.6.2的方法计算重叠度阈值序列K中所有重叠度阈值在第i类垃圾中的召回率和精确度,得到n个召回率Rij和精确度Pij,按照从1到n的顺序,以召回率Rij为横坐标、精确度Pij为纵坐标,在平面坐标系中绘制出一条曲线,并记为Pi-Ri曲线;
以Pi-Ri曲线、横坐标、纵坐标、Pi-Ri曲线的终点与横坐标的连线为轮廓线,计算轮廓线中的面积并记为第i类垃圾的AP值Fi
步骤3.6.4,按照步骤3.6.2-步骤3.6.3的方法计算D类道路垃圾中每一类道路垃圾的AP值,得到D个AP值Fi,并根据D个AP值Fi计算第h世代的主干网络Th对测试样本集中道路垃圾图像的均值平均精度Vh
Figure BDA0004014410290000073
步骤3.7,设重复次数为G,G次重复步骤3.4一步骤3.6,得到一个网络集合T和一个均值平均精度集合V,T={T1,T2,...,Th,...,TG},V={V1,V2,...,Vh,...,VG};
记Vo为最高均值平均精度,Vo=max{V1,V2,...,Vh,...,VG),Vo对应的主干网络To即为具有最佳识别效果的网络,并记为道路垃圾识别网络;
步骤4,利用道路垃圾识别网络对道路垃圾进行识别。
优选地,所述C3模块层β1、C3模块层β2、C3模块层β3、C3模块层β4均由沿主干网络输入-输出方向依次串联的三层结构构成,具体如下:
将128ζ、256ζ、512ζ、1024ζ统称为n×ζ,n或等于128或等于256或等于512或等于1024,将标准卷积层α2、标准卷积层α3、标准卷积层α4和标准卷积层α5则统称为标准卷积层α;
上述四个C3模块层的第一层结构均为并列的通路З1和通路З2构成,其中,通路З1由一个标准卷积层α和n×ζ个瓶颈模块依次串联构成,通路З2由一个标准卷积层α构成,第二层结构为Concat模块层,输入为通路З1和通路З2,输出串行连接到第三层结构中;第三层结构为一个标准卷积层α。
优选地,所述Neck结构由沿主干网络输入-输出方向依次串联的8层结构构成:
第一层结构分别以输入output11、输入output12为输入,包括并列的通路б1和通路б2,其中,通路б1由输入output11、Concat模块层C1、卷积层χ1、下采样层δ依次串联而成,通路б2由输入output12和Concat模块层C1连接构成;第二层结构由Concat模块层C1构成;第三层结构分别以Concat模块层C1的输出、输入output13作为输入,包括并列的通路б3和通路б4,其中,通路б3由Concat模块层C1的输出、Concat模块层C2、C3模块层D1、卷积层χ2、下采样层δ依次串联而成,通路б4由输入output13和Concat模块层C2连接构成;第四层结构由Concat模块层C2构成;第五层结构分别以Concat模块层C2的输出、卷积层χ2的输出为输入,包括并列的通路б5和通路б6,其中,通路б5由Concat模块层C2的输出、Concat模块层C3、C3模块层D2、卷积层χ3依次串联而成,通路б6由卷积层χ2的输出和Concat模块层C3直接连接构成;第六层结构为Concat模块层C3;第七层结构分别以Concat模块层D3输出、卷积层χ1输出为输入,包括两条并列的通路б7和通路б8,通路б7由沿Concat模块层的输出、C3模块层D2、卷积层χ4依次串联而成,通路б8由卷积层χ1的输出和Concat模块层C4直接连接构成;第八层结构由Concat模块层C4、C3模块层D4、通道注意力机制CA依次串接而成。
优选地,所述通道注意力机制CA的实现步骤如下:
所述通道注意力机制CA包括平均池化层ηX、平均池化层ηY、Concat模块层L、卷积层λ、批量标准化层A和Sigmoid非线性激活层J;
所述的通道注意力机制CA由沿主干网络输入-输出方向依次串联的3层结构构成:第一层结构由两条并列的通路Д1和通路Д2构成,通路Д1由平均池化层ηX构成,通路Д2由平均池化层ηY构成,两条通路接入Concat模块层L,第二层结构由沿两条并列通路方向-主干网络输出方向依次串联Concat模块层L、批量标准化层A构成,第三层结构从批量标准化层A的输出分出两条并列的通路Д3和通路Д4,通路Д3和通路Д4均由卷积层λ、Sigmoid非线性激活层J依次串接而成;
所述通道注意力机制CA的输入为第四C3模块层D4的输出,将通路Д3和通路Д4的输出分别与注意力机制CA的输入相乘,得到注意力机制CA的输出。
优选地,所述利用道路垃圾识别网络对道路垃圾进行识别的具体步骤如下:
步骤4.1,输入一张待识别的原始道路垃圾图像,并做如下图像处理:将此待识别的原始道路垃圾图像的像素调整为E×E;
将通道前述处理的待识别原始道路垃圾图像记为图像Yd
步骤4.2,在图像Yd上等分网格并将其中任意一个网格记为网格Kd v,其中v为网格的序号,v=1,2,...,Λ,Λ为网格的数量;
步骤4.3,将图像Yd送入道路垃圾识别网络,得到网格Kd v中每一个预测框的预测类别概率张量、预测类别坐标张量和预测类别IoU张量,定义其中任意一个预测框为预测框Rd vu,u=1,2,...,U,U为网格Kd v中预测框的数量,则得到与预测框Rd vu对应的预测类别概率张量的预测概率值Od vu、预测类别坐标张量的预测概率值Pd vu及预测类别IoU张量的预测概率值Qd vu,通过预测类别IoU张量预测概率值Qd vu得到预测框Rd vu的置信度,并记为置信度Ld vu
将置信度Ld v与给定置信度阈值L0进行比较,并做出如下判断:
若Ld vu≥L0,保留该预测框;
若Ld vu<L0,舍弃该预测框;
步骤4.4,重复步骤4.3,直到图像Yd所有网格都被选取过,然后根据待识别道路垃圾图像每一个网格中预测框判断的结果,将预测框标记在图像Yd上,获得已识别道路垃圾图像。
与现有技术相比,本发明的有益效果如下:
1.本发明中的通道注意力机制采用了有效的数据压缩方法,可以在复杂的识别背景下,有选择地提取需要地特征。
2.本发明采用定位和分类特征分离的识别方法,将对道路垃圾地理位置定位特征和道路垃圾类别识别特征处理过程分离,提高了对各种复杂特征的利用能力,针对小目标和多形态目标有较好的效果。
3.本发明提出的基于通道注意力机制的CSPDarkNet53网络在对多目标和遮挡目标时有较强的识别能力,更适应实际生活的需要。
附图说明
图1是本发明道路垃圾识别方法的流程图;
图2是本发明道路垃圾识别方法的示意框图;
图3是本发明实施例中检测头部实现步骤示意图;
图4是本发明实施例中本发明道路识别方法和其他方法的mAP对比图。
具体实施方法
下面将结合附图和具体的实施方式对本发明的技术方案进行清楚、完整的描述。
图1是本发明道路垃圾识别方法的流程图,图2是本发明道路垃圾识别方法的示意框图,由图1和图2可见,本发明提供了一种基于解耦头部的Yolov3道路垃圾检测方法,该检测方法将采集到的道路垃圾图像通过改进Yolov3网络结构,经训练得到最优检测效果的道路垃圾识别网络,并使用该垃圾识别网络对道路垃圾完成识别,具体包含以下步骤:
步骤1,道路垃圾图像的采集和处理
采集D类道路垃圾图像,其中D记为道路垃圾图像的种类数;
在D类道路垃圾图像中的每一类中选取M张道路垃圾图像,得到M×D张道路垃圾图像,然后对M×D张道路垃圾图像分别采用Z种图像处理方式完成数据增强,获得Z×M×D张道路垃圾图像,并将该Z×M×D张道路垃圾图像组成一个训练样本数据集;
在D类道路垃圾图像的每一类中再选取M张图像之外的N张道路垃圾图像得到N×D张道路垃圾图像,将该N×D张道路垃圾图像组成一个测试样本数据集,其中N≠M。
在本实施例中,取D=14,M=70,Z=8,N=30。
在本实施例中,z=8,具体包括以下8种图像处理方式:随机裁剪,随机平移,改变亮度,添加高斯随机噪声,随机旋转,随机翻转,随机遮挡处理、马赛克数据增强。
步骤2,建立基于解耦检测头部和通道注意力机制的改进Yolov3网络,所述改进Yolov3网络包括主干网络、Neck结构和检测头部。
步骤2.1,采用CSPDarkNet53网络作为主干网络,并定义实际网络层数除以标注网络层数256的值为深度系数ζ,所述主干网络结构包括:由卷积核大小为6×6的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α1,该标准卷积层α1具有32个输入通道;由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α2,该标准卷积层α2具有64个输入通道;由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α3,该标准卷积层α3具有128个输入通道;由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α4,该标准卷积层α4具有256个输入通道;由卷积核大小为6×6的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α5,该标准卷积层α5具有512个输入通道;包含3个标准卷积层α2、128ζ个瓶颈模块的C3模块层β1;包含3个标准卷积层α3、256ζ个瓶颈模块的C3模块层β2;包含3个标准卷积层α4、512ζ个瓶颈模块的C3模块层β3;包含3个标准卷积层α5、1024ζ个瓶颈模块的C3模块层β4;SPPF模块层γ1
主干网络的输入为标准卷积层α1,输出为SPPF模块层γ1,具体的,标准卷积层α1、标准卷积层α2、C3模块层β1、标准卷积层α3、C3模块层β2、标准卷积层α4、C3模块层β3、标准卷积层α5、C3模块层β4和SPPF模块层γ1依次串联。
在本实施例中,所述C3模块层β1、C3模块层β2、C3模块层β3、C3模块层β4均由沿主干网络输入-输出方向依次串联的三层结构构成,具体如下:
将128ζ、256ζ、512ζ、1024ζ统称为n×ζ,n或等于128或等于256或等于512或等于1024,将标准卷积层α2、标准卷积层α3、标准卷积层α4和标准卷积层α5则统称为标准卷积层α;
上述四个C3模块层的第一层结构均为并列的通路З1和通路З2构成,其中,通路З1由一个标准卷积层α和n×ζ个瓶颈模块依次串联构成,通路З2由一个标准卷积层α构成,第二层结构为Concat模块层,输入为通路З1和通路З2,输出串行连接到第三层结构中;第三层结构为一个标准卷积层α。
步骤2.2,采用FPN+PAN网络作为Neck结构,所述的Neck结构包括:一个卷积核大小为1×1通道数为512的卷积层χ1,一个卷积核大小为1×1通道数为256卷积层χ2、一个卷积核大小为3×3通道数为128卷积层χ3、一个卷积核大小为3×3通道数为256卷积层χ4;通道数为256的下采样层δ;四个Concat模块层分别记为Concat模块层C1、Concat模块层C2、Concat模块层C3和Concat模块层C4;两个512通道的C3模块层分别记为C3模块层D1、C3模块层D2,两个256通道的C3模块层分别记为D3和第四C3模块层D4;通道注意力机制CA;
Neck结构的输入为三个,分别记为输入output11、输入output12和输入output13,其中,输入output11接主干网络的C3模块层β2的输出,输入output12接主干网络的C3模块层β3的输出,输入output13接主干网络的SPPF模块层γ1的输出;Neck结构的输出为三个,分别记为输出output21、输出output22和输出output23,其中,输出output21为C3模块层D2的输出,输出output22为C3模块层D3的输出,输出output23为通道注意力机制CA的输出。
在本实施例中,所述Neck结构由沿主干网络输入-输出方向依次串联的8层结构构成:
第一层结构分别以输入output11、输入output12为输入,包括并列的通路б1和通路б2,其中,通路б1由输入output11、Concat模块层C1、卷积层χ1、下采样层δ依次串联而成,通路б2由输入output12和Concat模块层C1连接构成;第二层结构由Concat模块层C1构成;第三层结构分别以Concat模块层C1的输出、输入output13作为输入,包括并列的通路б3和通路б4,其中,通路б3由Concat模块层C1的输出、Concat模块层C2、C3模块层D1、卷积层χ2、下采样层δ依次串联而成,通路б4由输入output13和Concat模块层C2连接构成;第四层结构由Concat模块层C2构成;第五层结构分别以Concat模块层C2的输出、卷积层χ2的输出为输入,包括并列的通路б5和通路б6,其中,通路б5由Concat模块层C2的输出、Concat模块层C3、C3模块层D2、卷积层χ3依次串联而成,通路б6由卷积层χ2的输出和Concat模块层C3直接连接构成;第六层结构为Concat模块层C3;第七层结构分别以Concat模块层C3输出、卷积层χ1输出为输入,包括两条并列的通路б7和通路б8,通路б7由沿Concat模块层的输出、C3模块层D3、卷积层χ4依次串联而成,通路б8由卷积层χ1的输出和Concat模块层C4直接连接构成;第八层结构由Concat模块层C4、C3模块层D4、通道注意力机制CA依次串接而成。
在本实施例中,所述通道注意力机制CA的实现步骤如下:
所述通道注意力机制CA包括平均池化层ηX、平均池化层ηY、Concat模块层L、卷积层λ、批量标准化层A和Sigmoid非线性激活层J;
所述的通道注意力机制CA由沿主干网络输入-输出方向依次串联的3层结构构成:第一层结构由两条并列的通路Д1和通路Д2构成,通路Д1由平均池化层ηX构成,通路Д2由平均池化层ηY构成,两条通路接入Concat模块层L,第二层结构由沿两条并列通路方向-主干网络输出方向依次串联Concat模块层、批量标准化层A构成,第三层结构从批量标准化层A的输出分出两条并列的通路Д3和通路Д4,通路Д3和通路Д4均由卷积层λ、Sigmoid非线性激活层J依次串接而成;
所述通道注意力机制CA的输入为第四C3模块层D4的输出,将通路Д3和通路Д4的输出分别与注意力机制CA的输入相乘,得到注意力机制CA的输出。
步骤2.3,采用解耦检测头部作为检测头部,所述检测头部的结构包括:卷积核大小为1×1通道数为256的卷积层Z1,卷积核大小为3×3通道数为256的卷积层Z2,卷积核大小为3×3通道数为512的卷积层Z3,卷积核大小为1×1通道数为D的卷积层Z4,卷积核大小为1×1通道数为4的卷积层Z5,卷积核大小为1×1通道数为1的卷积层Z6
解耦头部的输入为卷积层Z1,卷积层Z1分别与Neck结构的三条输出output21、output22、output23连接;其输出形成以下三条通路:第一条通路由卷积层Z1、卷积层Z2卷积层Z3和卷积层Z4依次串联构成;第二条通路由卷积层Z1、卷积层Z2、卷积层Z3和卷积层Z5依次串联构成;第三条通路由卷积层Z1、卷积层Z2、卷积层Z3和卷积层Z6依次串联构成。
图3为本发明实施例中检测头部实现步骤示意图。(须补充一段文字与图3对应)
步骤3,对步骤2建立的改进Yolov3网络进行训练,得到具有最优检测效果的网络,并将该具有最优检测效果的网络作为道路垃圾识别网络,具体步骤如下:
步骤3.1,将训练样本集中的道路垃圾图像的像素统一调整为S×S。
步骤3.2,随机选取训练样本集中的B张道路垃圾图像,并组成一个系列Γ,Γ=(y1,y2,...,ys...,yB),其中,ys为系列Γ中任意一个道路垃圾图像,记为图像ys,s=1,2,...,B,计算图像ys的实际类别概率张量Ys、实际类别坐标张量Ws和实际类别IoU张量Xs,其中实际类别概率张量Ys的尺寸为H×W×C,实际类别坐标张量Ws的尺寸为H×W×4,实际类别IoU张量Xs的尺寸为H×W×1;其中H表示各张量的高度,W表示各张量的宽度,C表示各张量的深度。
初始化图像ys的预测类别概率张量Os、预测类别坐标张量Ps和预测类别IoU张量Qs,其取值分别如下:
定义预测类别张量Os、预测类别坐标张量Ps、预测类别IoU张量Qs的坐标由横坐标n、纵坐标m、深度坐标γ构成,并记为(n,m,γ);
任意选取横坐标n、纵坐标m、深度坐标γ(其中n=1,2,...H、m=1,2,...W、γ=1,2,...C)并令
Figure BDA0004014410290000161
且Os中其他坐标的预测概率值均等于0,对预测类别坐标张量Ps任意选取横坐标n、纵坐标m、深度坐标γ(其中n=1,2,...H、m=1,2,...W、γ=1,2,...4)并令/>
Figure BDA0004014410290000162
且Ps中其他坐标的预测概率值均等于0,对预测类别IoU张量Qs任意选取横坐标n、纵坐标m、深度坐标γ(其中n=1,2,...H、m=1,2,...W、γ=1)并令/>
Figure BDA0004014410290000163
且Qs中其他坐标的预测概率值均等于0;
步骤3.3,将步骤3.2选取得到的B张道路垃圾图像输入主干网络后更新每张道路垃圾图像的预测类别概率张量Os、预测类别坐标张量Ps及预测类别IoU张量Qs,s=s=1,2,…,B。
步骤3.4,根据更新后的各个预测张量与实际张量对主干网络进行优化:
将图像ys的高度等分为H个线段、宽等分为W个线段,即将图像ys等分为H×W个网格;
对图像ys上的每个网格进行预测,并将得到的预测信息与真实信息进行对比,获得损失函数loss,通过梯度下降法得到最小化损失函数min-loss,完成主干网络的优化。
在本实施例中,所述损失函数loss的表达式如下:
loss=box_gain×bbox_loss+cls_gain×cls_loss+obj_gain×obj_loss
其中,bbox_loss为矩形框损失,cls_loss为分类损失,obj_loss为置信度损失,box_gain为矩形框损失权重,cls_gain为分流损失权重,obj_gain为置信度损失;
默认box_gain=0.05,cls_gain=0.5,obj_gain=1.0,给出矩形框损失bbox_loss、分类损失cls_loss和置信度损失obj_loss的表达式如下:;
Figure BDA0004014410290000171
Figure BDA0004014410290000172
Figure BDA0004014410290000173
其中||·||2表示欧几里得范数;
通过梯度下降法得到最小化损失函数min-loss,完成主干网络的优化。
步骤3.5,重复步骤3.2至步骤3.4,直至训练样本集中的道路垃圾图像都被选取过,其中,如果最后一轮选取中,样本训练集剩下的道路垃圾图像数小于B,则从已经选取过的道路垃圾图像中随机选取道路垃圾图像进行补充;
将通过步骤3.2-步骤3.5完成优化的主干网络记为第h世代的主干网络Th,其中h为世代的序号。
步骤3.6,利用测试样本集计算第h世代的主干网络Th对测试样本集中道路垃圾图像的均值平均精度Vh,具体如下:
步骤3.6.1,定义D类道路垃圾中任意一类道路垃圾为第i类垃圾,i=1,2,…,D;
定义预测框为网格上标记的矩形框,其中预测类别概率张量Os确定该矩形框检测的垃圾类别,预测类别坐标张量Ps确定该矩形框的中心坐标,预测类别IoU张量Qs确定矩形框的置信度;定义实际框为在道路垃圾图像上对道路垃圾人工标注的矩形框;定义重叠度I为预测框和实际框的面积交集除以面积并集的值;
步骤3.6.2,在0-1随机取不相等的n个小数构成重叠度阈值序列K,K={Ki1,Ki2,…Kij,..Kin},其中,Kij为第i类垃圾对应的第j个重叠度阈值,j=1,2,…,n;
定义TP为第i类垃圾中重叠度I≥第j个重叠度阈值Kij的预测框个数,FP为第i类垃圾中重叠度I<第j个重叠度阈值Kij的预测框个数,FN为对实际框未给出对应预测框的个数,计算第i类垃圾在第j个重叠度阈值Kij中的召回率Rij和精确度Pij,其计算式分别如下:
Figure BDA0004014410290000181
Figure BDA0004014410290000182
步骤3.6.3,按照步骤3.6.2的方法计算重叠度阈值序列K中所有重叠度阈值在第i类垃圾中的召回率和精确度,得到n个召回率Rij和精确度Pij,按照从1到n的顺序,以召回率Rij为横坐标、精确度Pij为纵坐标,在平面坐标系中绘制出一条曲线,并记为Pi-Ri曲线;
以Pi-Ri曲线、横坐标、纵坐标、Pi-Ri曲线的终点与横坐标的连线为轮廓线,计算轮廓线中的面积并记为第i类垃圾的AP值Fi
步骤3.6.4,按照步骤3.6.2-步骤3.6.3的方法计算D类道路垃圾中每一类道路垃圾的AP值,得到D个AP值Fi,并根据D个AP值Fi计算第h世代的主干网络Th对测试样本集中道路垃圾图像的均值平均精度Vh
Figure BDA0004014410290000191
步骤3.7,设重复次数为G,G次重复步骤3.4-步骤3.6,得到一个网络集合T和一个均值平均精度集合V,T={T1,T2,...,Th,...,TG},V={V1,V2,...,Vh,...,VG};
记Vo为最高均值平均精度,Vo=max{V1,V2,...,Vh,...,VG},Vo对应的主干网络To即为具有最佳识别效果的网络,并记为道路垃圾识别网络;
在本实施例中,B=16,S=640,G=51。
步骤4,利用道路垃圾识别网络对道路垃圾进行识别。
在本实施例中,所述利用道路垃圾识别网络对道路垃圾进行识别的具体步骤如下:
步骤4.1,输入一张待识别的原始道路垃圾图像,并做如下图像处理:将此待识别的原始道路垃圾图像的像素调整为E×E:
将通道前述处理的待识别原始道路垃圾图像记为图像Yd;
步骤4.2,在图像Yd上等分网格并将其中任意一个网格记为网格Kd v,其中v为网格的序号,v=1,2,…,Λ,Λ为网格的数量;
步骤4.3,将图像Yd送入道路垃圾识别网络,得到网格Kd v中每一个预测框的预测类别概率张量、预测类别坐标张量和预测类别IoU张量,定义其中任意一个预测框为预测框Rd vu,u=1,2,...,U,U为网格Kd v中预测框的数量,则得到与预测框Rd vu对应的预测类别概率张量的预测概率值Od vu、预测类别坐标张量的预测概率值Pd vu及预测类别IoU张量的预测概率值Qd vu,通过预测类别IoU张量预测概率值Qd vu得到预测框Rd vu的置信度,并记为置信度Ld vu
将置信度Ld v与给定置信度阈值L0进行比较,并做出如下判断:
若Ld vu≥L0,保留该预测框;
若Ldvu<L0,舍弃该预测框;
步骤4.4,重复步骤4.3,直到图像Yd所有网格都被选取过,然后根据待识别道路垃圾图像每一个网格中预测框判断的结果,将预测框标记在图像Yd上,获得已识别道路垃圾图像。
在本实施例中,U≥3。
到此为止,对待识别道路垃圾的检测完毕。
在以上检测过程中,步骤2所述瓶颈模块、SiLU激活函数、SPPF模块、Concat模块层和Sigmoid非线性激活层J的具体设置如下。
所述瓶颈模块的具体结构为:将输入图像分为两路,其中一路由卷积核大小为1×1的卷积层、卷积核大小为3×3的卷积层依次串行连接,另一路保留原输入图像,然后将两路输入图像直接相加获得新的图像输出。
所述SiLU激活函数的表达式为:
Figure BDA0004014410290000201
其中,e为指数函数,ω为SiLU激活函数的输入,Y(ω)为SiLU激活函数的输出。
所述SPPF模块由沿主干网络输入-输出方向依次串联的四层结构构成:第一层结构为卷积核大小为1×1通道数为512的卷积层;第二层结构为从第一层结构中所述卷积层输出的四条并列通路,分别记为通路κ1、通路κ2、通路κ3和通路κ4,通路κ1由沿主干网络输入-输出方向依次串联而成的三个池化层构成,通路κ2由沿主干网络输入-输出方向依次串联而成的两个池化层构成,通路κ3由沿主干网络输入-输出方向依次串联而成的一个池化层构成,通路κ4由第一层结构直接输出,其中,所述池化层均为卷积核大小为5×5的最大池化下采样层;第三层结构为Concat模块层,输入为第二层的四条通路,输出串行连接到第四层中,第四层结构为一个卷积核大小为1×1通道数为512的卷积层。
所述的Concat模块层结构如下:将输入的两通道张量前后连接,返回一个连接后的张量副本。
所述Sigmoid非线性激活层J包含一个Sigmoid函数,Sigmoid函数的表达式如下:
Figure BDA0004014410290000211
其中,ω1为Sigmoid函数的输入,Y1(ω1)为Sigmoid函数的输出。
图4为本发明道路垃圾检测方法和其他识别方法均值平均精度Vh的对比图,其他识别方法包括未使用任何改进的Yolov3算法,采用ECA通道注意力机制的Yolov3算法,采用ASFF检测头部的Yolov3算法。由图4可见,通过本发明方法对应的均值平均精度Vh曲线可知,本发明优于其他识别算法,说明本发明提出的识别方法在道路垃圾识别领域的优越性。
总之,本发明方法通过对Yolov3网络添加通过注意力机制及新的检测头部,提高了识别的准确性,世代对道路垃圾的识别能力得到了较大提高,能够很好满足复杂道路环境的应用需求,更好的为环境保护事业服务。

Claims (5)

1.一种基于解耦头部的Yolov3道路垃圾检测方法,其特征在于,将采集到的道路垃圾图像通过改进Yolov3网络结构,经训练得到最优检测效果的道路垃圾识别网络,并使用该垃圾识别网络对道路垃圾完成识别,具体包含以下步骤:
步骤1,道路垃圾图像的采集和处理
采集D类道路垃圾图像,其中D记为道路垃圾图像的种类数;
在D类道路垃圾图像中的每一类中选取M张道路垃圾图像,得到M×D张道路垃圾图像,然后对M×D张道路垃圾图像分别采用Z种图像处理方式完成数据增强,获得Z×M×D张道路垃圾图像,并将该Z×M×D张道路垃圾图像组成一个训练样本数据集;
在D类道路垃圾图像的每一类中再选取M张图像之外的N张道路垃圾图像得到N×D张道路垃圾图像,将该N×D张道路垃圾图像组成一个测试样本数据集,其中N≠M;
步骤2,建立基于解耦检测头部和通道注意力机制的改进Yolov3网络,所述改进Yolov3网络包括主干网络、Neck结构和检测头部;
步骤2.1,采用CSPDarkNet53网络作为主干网络,并定义实际网络层数除以标注网络层数256的值为深度系数ζ,所述主干网络结构包括:由卷积核大小为6×6的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α1,该标准卷积层α1具有32个输入通道;由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α2,该标准卷积层α2具有64个输入通道;由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α3,该标准卷积层α3具有128个输入通道;由卷积核大小为3×3的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α4,该标准卷积层α4具有256个输入通道;由卷积核大小为6×6的卷积层、批量标准化层、SiLU激活函数依次串行连接的标准卷积层α5,该标准卷积层α5具有512个输入通道;包含3个标准卷积层α2、128ζ个瓶颈模块的C3模块层β1;包含3个标准卷积层α3、256ζ个瓶颈模块的C3模块层β2;包含3个标准卷积层α4、512ζ个瓶颈模块的C3模块层β3;包含3个标准卷积层α5、1024ζ个瓶颈模块的C3模块层β4;SPPF模块层γ1
主干网络的输入为标准卷积层α1,输出为SPPF模块层γ1,具体的,标准卷积层α1、标准卷积层α2、C3模块层β1、标准卷积层α3、C3模块层β2、标准卷积层α4、C3模块层β3、标准卷积层α5、C3模块层β4和SPPF模块层γ1依次串联;
步骤2.2,采用FPN+PAN网络作为Neck结构,所述的Neck结构包括:一个卷积核大小为1×1通道数为512的卷积层χ1,一个卷积核大小为1×1通道数为256卷积层χ2、一个卷积核大小为3×3通道数为128卷积层χ3、一个卷积核大小为3×3通道数为256卷积层χ4;通道数为256的下采样层δ;四个Concat模块层分别记为Concat模块层C1、Concat模块层C2、Concat模块层C3和Concat模块层C4;两个512通道的C3模块层分别记为C3模块层D1、C3模块层D2,两个256通道的C3模块层分别记为D3和第四C3模块层D4;通道注意力机制CA;
Neck结构的输入为三个,分别记为输入output11、输入output12和输入output13,其中,输入output11接主干网络的C3模块层β2的输出,输入output12接主干网络的C3模块层β3的输出,输入output13接主干网络的SPPF模块层γ1的输出;Neck结构的输出为三个,分别记为输出output21、输出output22和输出output23,其中,输出output21为C3模块层D2的输出,输出output22为C3模块层D3的输出,输出output23为通道注意力机制CA的输出;
步骤2.3,采用解耦检测头部作为检测头部,所述检测头部的结构包括:卷积核大小为1×1通道数为256的卷积层Z1,卷积核大小为3×3通道数为256的卷积层Z2,卷积核大小为3×3通道数为512的卷积层Z3,卷积核大小为1×1通道数为D的卷积层Z4,卷积核大小为1×1通道数为4的卷积层Z5,卷积核大小为1×1通道数为1的卷积层Z6
解耦头部的输入为卷积层Z1,卷积层Z1分别与Neck结构的三条输出output21、output22、output23连接;其输出形成以下三条通路:第一条通路由卷积层Z1、卷积层Z2卷积层Z3和卷积层Z4依次串联构成;第二条通路由卷积层Z1、卷积层Z2、卷积层Z3和卷积层Z5依次串联构成;第三条通路由卷积层Z1、卷积层Z2、卷积层Z3和卷积层Z6依次串联构成;
步骤3,对步骤2建立的改进Yolov3网络进行训练,得到具有最优检测效果的网络,并将该具有最优检测效果的网络作为道路垃圾识别网络,具体步骤如下:
步骤3.1,将训练样本集中的道路垃圾图像的像素统一调整为S×S;
步骤3.2,随机选取训练样本集中的B张道路垃圾图像,并组成一个系列Γ,Γ=(y1,y2,...,ys...,yB),其中,ys为系列Γ中任意一个道路垃圾图像,记为图像ys,s=1,2,...,B,计算图像ys的实际类别概率张量Ys、实际类别坐标张量Ws和实际类别IoU张量Xs,其中实际类别概率张量YS的尺寸为H×W×C,实际类别坐标张量Ws的尺寸为H×W×4,实际类别IoU张量Xs的尺寸为H×W×1;其中H表示各张量的高度,W表示各张量的宽度,C表示各张量的深度;
初始化图像ys的预测类别概率张量Os、预测类别坐标张量Ps和预测类别IoU张量Qs,其初始化过程为:
定义预测类别张量Os、预测类别坐标张量Ps、预测类别IoU张量Qs的坐标由横坐标n、纵坐标m、深度坐标γ构成,并记为(n,m,x);
任意选取横坐标n、纵坐标m、深度坐标γ(其中n=1,2,...H、m=1,2,...W、γ=1,2,.C)并令
Figure FDA0004014410280000041
且Os中其他坐标的预测概率值均等于0,对预测类别坐标张量Ps任意选取横坐标n、纵坐标m、深度坐标γ(其中n=1,2,...H、m=1,2,.W、γ=1,2,...4)并令
Figure FDA0004014410280000042
且少中其他坐标的预测概率值均等于0,对预测类别IoU张量Qs任意选取横坐标n、纵坐标m、深度坐标γ(其中n=1,2,...H、m=1,2,...W、γ=1)并令/>
Figure FDA0004014410280000043
且Qs中其他坐标的预测概率值均等于0;
步骤3.3,将步骤3.2选取得到的B张道路垃圾图像输入主干网络后更新每张道路垃圾图像的预测类别概率张量Os、预测类别坐标张量Ps及预测类别IoU张量Qs,s=s=1,2,..,B;
步骤3.4,根据更新后的各个预测张量与实际张量对主干网络进行优化:
将图像ys的高度等分为H个线段、宽等分为W个线段,即将图像ys等分为H×W个网格;
对图像ys上的每个网格进行预测,并将得到的预测信息与真实信息进行对比,获得损失函数loss,通过梯度下降法得到最小化损失函数loss,完成主干网络的优化;
步骤3.5,重复步骤3.2至步骤3.4,直至训练样本集中的道路垃圾图像都被选取过,其中,如果最后一轮选取中,样本训练集剩下的道路垃圾图像数小于B,则从已经选取过的道路垃圾图像中随机选取道路垃圾图像进行补充;
将通过步骤3.2-步骤3.5完成优化的主干网络记为第h世代的主干网络Th,其中h为世代的序号;
步骤3.6,利用测试样本集计算第h世代的主干网络Th对测试样本集中道路垃圾图像的均值平均精度Vh,具体如下:
步骤3.6.1,定义D类道路垃圾中任意一类道路垃圾为第i类垃圾,i=1,2,…,D;
定义预测框为网格上标记的矩形框,其中预测类别概率张量Os确定该矩形框检测的垃圾类别,预测类别坐标张量Ps确定该矩形框的中心坐标,预测类别IoU张量Qs确定矩形框的置信度;定义实际框为在道路垃圾图像上对道路垃圾人工标注的矩形框;定义重叠度I为预测框和实际框的面积交集除以面积并集的值;
步骤3.6.2,在0-1随机取不相等的n个小数构成重叠度阈值序列K,K={Ki1,Ki2,…Kij,..Kin},其中,Kij为第i类垃圾对应的第j个重叠度阈值,j=1,2,…,n;
定义TP为第i类垃圾中重叠度I≥第j个重叠度阈值Kij的预测框个数,FP为第i类垃圾中重叠度I<第j个重叠度阈值Kij的预测框个数,FN为对实际框未给出对应预测框的个数,计算第i类垃圾在第j个重叠度阈值Kij中的召回率Rij和精确度Pij,其计算式分别如下:
Figure FDA0004014410280000051
Figure FDA0004014410280000052
步骤3.6.3,按照步骤3.6.2的方法计算重叠度阈值序列K中所有重叠度阈值在第i类垃圾中的召回率和精确度,得到n个召回率Rij和精确度Pij,按照从1到n的顺序,以召回率Rij为横坐标、精确度Pij为纵坐标,在平面坐标系中绘制出一条曲线,并记为Pi-Ri曲线;
以Pi-Ri曲线、横坐标、纵坐标、Pi-Ri曲线的终点与横坐标的连线为轮廓线,计算轮廓线中的面积并记为第i类垃圾的AP值Fi
步骤3.6.4,按照步骤3.6.2一步骤3.6.3的方法计算D类道路垃圾中每一类道路垃圾的AP值,得到D个AP值Fi,并根据D个AP值Fi计算第h世代的主干网络Th对测试样本集中道路垃圾图像的均值平均精度Vh
Figure FDA0004014410280000061
步骤3.7,设重复次数为G,G次重复步骤3.4-步骤3.6,得到一个网络集合T和一个均值平均精度集合V,T={T1,T2,...,Th,...,TG},V={V1,V2,...,Vh,...,VG};
记Vo为最高均值平均精度,Vo=max{V1,V2,...,Vh,...,VG},Vo对应的主干网络To即为具有最佳识别效果的网络,并记为道路垃圾识别网络;
步骤4,利用道路垃圾识别网络对道路垃圾进行识别。
2.根据权利要求1所述的一种基于解耦头部的Yolov3道路垃圾检测方法,其特征在于,所述C3模块层β1、C3模块层β2、C3模块层β3、C3模块层β4均由沿主干网络输入-输出方向依次串联的三层结构构成,具体如下:
将128ζ、256ζ、512ζ、1024ζ统称为n×ζ,n或等于128或等于256或等于512或等于1024,将标准卷积层α2、标准卷积层α3、标准卷积层α4和标准卷积层α5则统称为标准卷积层α;
上述四个C3模块层的第一层结构均为并列的通路31和通路32构成,其中,通路31由一个标准卷积层α和n×ζ个瓶颈模块依次串联构成,通路32由一个标准卷积层α构成,第二层结构为Concat模块层,输入为通路31和通路32,输出串行连接到第三层结构中;第三层结构为一个标准卷积层α。
3.根据权利要求1所述的一种基于解耦头部的Yolov3道路垃圾检测方法,其特征在于,所述Neck结构由沿主干网络输入-输出方向依次串联的8层结构构成:
第一层结构分别以输入output11、输入output12为输入,包括并列的通路б1和通路б2,其中,通路б1由输入output11、Concat模块层C1、卷积层χ1、下采样层δ依次串联而成,通路б2由输入output12和Concat模块层C1连接构成;第二层结构由Concat模块层C1构成;第三层结构分别以Concat模块层C1的输出、输入output13作为输入,包括并列的通路б3和通路б4,其中,通路б3由Concat模块层C1的输出、Concat模块层C2、C3模块层D1、卷积层χ2、下采样层δ依次串联而成,通路б4由输入output13和Concat模块层C2连接构成;第四层结构由Concat模块层C2构成;第五层结构分别以Concat模块层C2的输出、卷积层χ2的输出为输入,包括并列的通路б5和通路б6,其中,通路б5由Concat模块层C2的输出、Concat模块层C3、C3模块层D2、卷积层χ3依次串联而成,通路б6由卷积层χ2的输出和Concat模块层C3直接连接构成;第六层结构为Concat模块层C3;第七层结构分别以Concat模块层C3输出、卷积层χ1输出为输入,包括两条并列的通路б7和通路б8,通路67由沿Concat模块层的输出、C3模块层D3、卷积层χ4依次串联而成,通路б8由卷积层χ1的输出和Concat模块层C4直接连接构成;第八层结构由Concat模块层C4、C3模块层D4、通道注意力机制CA依次串接而成。
4.根据权利要求5所述的一种基于解耦头部的Yolov3道路垃圾检测方法,其特征在于,所述通道注意力机制CA的实现步骤如下:
所述通道注意力机制CA包括平均池化层ηX、平均池化层ηY、Concat模块层L、卷积层λ、批量标准化层A和Sigmoid非线性激活层J;
所述的通道注意力机制CA由沿主干网络输入-输出方向依次串联的3层结构构成:第一层结构由两条并列的通路д1和通路д2构成,通路д1由平均池化层ηX构成,通路д2由平均池化层ηY构成,两条通路接入Concat模块层L,第二层结构由沿两条并列通路方向-主干网络输出方向依次串联Concat模块层L、批量标准化层A构成,第三层结构从批量标准化层A的输出分出两条并列的通路д3和通路д4,通路д3和通路д4均由卷积层λ、Sigmoid非线性激活层J依次串接而成;
所述通道注意力机制CA的输入为第四C3模块层D4的输出,将通路д3和通路д4的输出分别与注意力机制CA的输入相乘,得到注意力机制CA的输出。
5.根据权利要求1所述的一种基于解耦头部的Yolov3道路垃圾检测方法,其特征在于,所述利用道路垃圾识别网络对道路垃圾进行识别的具体步骤如下:
步骤4.1,输入一张待识别的原始道路垃圾图像,并做如下图像处理:将此待识别的原始道路垃圾图像的像素调整为E×E;
将通道前述处理的待识别原始道路垃圾图像记为图像Yd
步骤4.2,在图像Yd上等分网格并将其中任意一个网格记为网格Kd v,其中v为网格的序号,v=1,2,...,Λ,Λ为网格的数量;
步骤4.3,将图像Yd送入道路垃圾识别网络,得到网格Kd v中每一个预测框的预测类别概率张量、预测类别坐标张量和预测类别IoU张量,定义其中任意一个预测框为预测框Rd vu,u=1,2,…,U,U为网格Kd v中预测框的数量,则得到与预测框Rd vu对应的预测类别概率张量的预测概率值0d vu、预测类别坐标张量的预测概率值Pd vu及预测类别IoU张量的预测概率值Qd vu,通过预测类别IoU张量预测概率值Qd vu得到预测框Rd vu的置信度,并记为置信度Ld vu
将置信度Ld v与给定置信度阈值L0进行比较,并做出如下判断:
若Ld vu≥L0,保留该预测框;
若Ld vu<L0,舍弃该预测框;
步骤4.4,重复步骤4.3,直到图像Yd所有网格都被选取过,然后根据待识别道路垃圾图像每一个网格中预测框判断的结果,将预测框标记在图像Yd上,获得已识别道路垃圾图像。
CN202211703314.9A 2022-12-23 2022-12-23 一种基于解耦头部的Yolov3道路垃圾检测方法 Pending CN115861956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211703314.9A CN115861956A (zh) 2022-12-23 2022-12-23 一种基于解耦头部的Yolov3道路垃圾检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211703314.9A CN115861956A (zh) 2022-12-23 2022-12-23 一种基于解耦头部的Yolov3道路垃圾检测方法

Publications (1)

Publication Number Publication Date
CN115861956A true CN115861956A (zh) 2023-03-28

Family

ID=85655763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211703314.9A Pending CN115861956A (zh) 2022-12-23 2022-12-23 一种基于解耦头部的Yolov3道路垃圾检测方法

Country Status (1)

Country Link
CN (1) CN115861956A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197787A (zh) * 2023-08-09 2023-12-08 海南大学 基于改进YOLOv5的智能安检方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197787A (zh) * 2023-08-09 2023-12-08 海南大学 基于改进YOLOv5的智能安检方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
Alani et al. Hand gesture recognition using an adapted convolutional neural network with data augmentation
CN111310861A (zh) 一种基于深度神经网络的车牌识别和定位方法
CN111079674B (zh) 一种基于全局和局部信息融合的目标检测方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN110032925B (zh) 一种基于改进胶囊网络与算法的手势图像分割与识别方法
CN110348384B (zh) 一种基于特征融合的小目标车辆属性识别方法
CN113569667B (zh) 基于轻量级神经网络模型的内河船舶目标识别方法及***
CN111583263A (zh) 一种基于联合动态图卷积的点云分割方法
CN111753682A (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN105930794A (zh) 一种基于云计算的室内场景识别方法
CN110879982A (zh) 一种人群计数***及方法
CN111145145B (zh) 一种基于MobileNets的图像表面缺陷检测方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
CN113362277A (zh) 一种基于深度学习的工件表面缺陷检测和分割方法
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN115861956A (zh) 一种基于解耦头部的Yolov3道路垃圾检测方法
CN105893941A (zh) 一种基于区域图像的人脸表情识别方法
CN111597875A (zh) 一种交通标志识别方法、装置、设备及存储介质
Lomanov et al. Cell detection with deep convolutional networks trained with minimal annotations
Singh et al. Wavelet based histogram of oriented gradients feature descriptors for classification of partially occluded objects
Wangli et al. Foxtail Millet ear detection approach based on YOLOv4 and adaptive anchor box adjustment
CN115690401A (zh) 一种融合ciou自适应样本分配的改进旋转框目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination