CN112418212B - 一种基于EIoU改进的YOLOv3算法 - Google Patents

一种基于EIoU改进的YOLOv3算法 Download PDF

Info

Publication number
CN112418212B
CN112418212B CN202010892321.2A CN202010892321A CN112418212B CN 112418212 B CN112418212 B CN 112418212B CN 202010892321 A CN202010892321 A CN 202010892321A CN 112418212 B CN112418212 B CN 112418212B
Authority
CN
China
Prior art keywords
loss
iou
convolution
frame
eiou
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010892321.2A
Other languages
English (en)
Other versions
CN112418212A (zh
Inventor
王兰美
褚安亮
梁涛
廖桂生
王桂宝
孙长征
陈正涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Shaanxi University of Technology
Original Assignee
Xidian University
Shaanxi University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Shaanxi University of Technology filed Critical Xidian University
Priority to CN202010892321.2A priority Critical patent/CN112418212B/zh
Publication of CN112418212A publication Critical patent/CN112418212A/zh
Application granted granted Critical
Publication of CN112418212B publication Critical patent/CN112418212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于EIoU改进的YOLOv3算法,主要解决现有算法中由于重叠率、尺度及长宽比导致的基于IoU的损失LIoU计算不准从而影响检测性能的问题。首先下载当前目标检测领域通用数据集;其次重建现有算法YOLOv3网络模型并用备好的数据集进行训练,检测其性能;然后将基于EIoU的损失函数LEIoU嵌入YOLOv3算法模型中进行训练并作性能评价;最后对比经典的YOLOv3算法,分析测试结果。本发明提出的基于EIoU改进的YOLOv3算法,相比经典的YOLOv3算法,提高了平均准确率,且更适用于同一区域中有多个物体重叠时的情况,另外该模块也没有引入更多的计算量,与原模型相比,实时性没有受到影响。该模块仍然能够嵌入其他经典算法模型中做对比测试,更具适用性,且鲁棒性更好。

Description

一种基于EIoU改进的YOLOv3算法
技术领域
该发明属于图像识别领域,尤其涉及一种基于改进损失函数EIoU的YOLOv3目标检测算法,该算法在通用标准数据集上表现出很好的检测性能。
背景技术
目标检测主要包括传统目标检测技术及基于深度学习的目标检测技术,近年来,随着科技的发展及智能化的普及,传统的目标检测技术远远达不到人们的需求,基于深度学习的目标检测技术应运而生且发展迅速,成为当前目标检测领域的主流算法。
基于深度学习的目标检测技术大体可分为一阶段和二阶段两类方法:二阶段方法主要是指基于候选区域的算法,如R-CNN、Fast-R-CNN、Faster-R-CNN,该类算法的检测步骤为:首先在图片上生成若干个候选区域,然后,通过卷积神经网络在候选区域上进行候选框分类和回归。该类方法精度高,但检测速度慢,无法满足实时要求;一阶段方法使用一个卷积神经网络直接预测不同目标的类别与位置,属于端到端的方法,主要有SSD、YOLO系列。
目标检测中最常用的指标是交并比(Intersection over Union,IoU),它可以反映预测检测框与真实检测框的检测效果。但是作为损失函数,当IoU=0,不能反映两者的距离大小,也就是重合度。同时因为损失loss=0,没有梯度回传,无法进行学习训练,IoU无法精确的反映两者的重合度大小,进而提出了广义交并比(Generalized Intersection overUnion,GIoU)。GIoU不仅关注重叠区域,还关注其他的非重合区域,能更好的反映两者的重合度,但训练过程仍易发散,距离交并比(Distance Intersection over Union,DIoU)应运而生。DIoU将目标与锚框之间的距离,重叠率以及尺度都考虑进去,使目标框回归变得更加稳定,但是锚框的长宽比还没被考虑到,在DIoU的基础上提出了完整交并比(CompleteIntersection over Union,CIoU),本文结合上述IoU的研究历程,将重叠率、尺度及长宽比综合考虑,提出了边基交并比(Edge Intersection over Union,EIoU),并将其嵌入到现行经典算法YOLOv3中,表现出相当优异的性能,且更适用于同一区域中有多个物体重叠时的情况,另外该模块也没有引入更多的计算量,与原模型相比,实时性没有受到影响,该模块也能够嵌入其他经典算法模型中更,具有广泛的适用性。
发明内容
本发明方法提出了一种基于EIoU改进的YOLOv3算法,通过嵌入改进的IoU的损失函数EIoU,使YOLOv3算法的检测性能有了部分提升。
步骤一:下载当前目标检测领域通用数据集COCO数据集,保证与该领域通用数据集保持一致,以达到比对效果,检测本发明方法性能。下载地址:http:// cocodataset.org/#home
COCO的全称是Microsoft Common Objects in Context,是微软团队提供的一个可以用来进行图像识别的数据集。COCO数据集提供了80个对象类别。本发明用到的数据集中图片的标注类型为object detection目标检测类型,其表现为标注了图片中感兴趣目标的类别信息pi及该目标所在的中心位置坐标(x,y)及目标的宽度w和高度h,用矩形框可视化。
步骤二:重建YOLOv3网络体系,并以步骤一中所选取的数据集为基础,训练YOLOv3网络,输出权重文件Q,检测其性能,并做好对比资料。
YOLOv3算法的主体网络结构由52个卷积层组成,分为三个阶段,即三个不同尺度的输出。1~26层卷积为阶段1,27~43层卷积为阶段2,44~52层卷积为阶段3。具体网络结构与训练过程如下,其中“×”代表乘积:
首先网络随机初始化权值,使初始化的值服从高斯正态分布,然后输入像素为416×416×3的图片,通过第1层卷积层,卷积核尺寸为3×3,步长为1,个数为32,得到416×416×32的特征图输出;进入第2层卷积层,卷积核尺寸为3×3,步长为2,个数为64,得到208×208×64的特征图输出,以此类推。依据网络图中的各层不同的卷积核,分别进入三个不同阶段依次得到52×52×256的特征图、26×26×512的特征图和13×13×1024的特征图,然后进入特征交互层1,2,3继续进行卷积操作,分别如下:
特征交互层1是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×128,、3×3×256、1×1×128、3×3×256和1×1×128,步长均为1,得到52×52×128的特征图,并进行3×3×256和1×1×255的卷积操作,得到52×52×255的特征图1。
特征交互层2是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×256,、3×3×512、1×1×256、3×3×512和1×1×256,步长均为1,得到26×26×256的特征图,并进行3×3×512和1×1×255的卷积操作,得到26×26×255的特征图2。
特征交互层3是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×512,、3×3×1024、1×1×512、3×3×1024和1×1×512,步长均为1,得到13×13×512的特征图,并进行3×3×1024和1×1×255的卷积操作,得到13×13×255的特征图3。
以52×52×255特征图1为例进行说明:第一个维度52代表图片中横向像素点的个数,第二个维度52代表图片中纵向像素点的个数,第三个维度255代表感兴趣目标特征数,包含3个尺度的信息,每个尺度的信息又包含85个信息点,85个信息点分别为:感兴趣目标所在的中心位置坐标(x,y)、目标的宽度w和高度h,以及类别信息pi和置信度C,其中类别信息pi=80。故3×(1+1+1+1+80+1)=255。特征图2和特征图3各维度的意义与特征图1相同。
经过上述网络模型得到感兴趣目标的预测框信息,将预测框与真实框进行比对,计算损失误差,包括IoU损失LIoU,置信度损失损失LC,类别损失LP,计算公式如下:
1.IoU损失LIoU
LIoU表示目标位置损失值。
LIoU=1-IoU
其中IoU的计算已给出,参照图5。
2.置信度损失:
置信度损失使用的函数为二值交叉熵函数:
LC=obj_loss+noobj_loss
其中,N表示网络预测的边界框的总数,表示第i个预测的边界框中是否存在目标,若存在,则/>若不存在,则/>Ci表示目标所在第i个边界框的置信度,表示网络预测的第i个边界框的置信度。
3.类别损失
其中,pi表示目标所在第i个边界框中各类别的概率,表示网络预测的第i个边界框中各类别的概率。
最终的损失函数L为:
L=LIoU+LC+LP
本发明根据精度要求设定迭代阈值epoch,当迭代次数小于epoch时,利用Adam优化算法进行权值更新直到损失值低于设定的阈值或迭代次数大于epoch,结束训练过程,并输出权重文件Q1,Q1中包含训练过程中各个网络层的各参数的权重系数及偏移量,而后对训练结果进行性能检测。
步骤三:针对当前基于IoU的损失LIoU在预选框被目标框完全包裹情况下无法进行梯度回传的不足,提出改进版的基于EIoU表示的损失函数LEIoU,并将其嵌入算法模型,进行训练检测其性能。
公式如下:
LEIoU=1-IoU+R
其中:
惩罚因子其中(x'1,y'1)、(x'1,y'2)、(x'2,y'1)、(x'2,y'2)分别代表预测框的四个顶点坐标,(x1,y1)、(x1,y2)、(x2,y1)、(x2,y2)分别代表真实框的四个顶点坐标,l、w分别代表的是能够同时包含预测框和真实框的最小闭包区域的长和宽,并且l2=(max(x2,x'2)-min(x1,x'1))2,w2=(max(y2,y'2)-min(y1,y'1))2;IoU即是预测框与真实框之间的交并比,LEIoU代表损失值。
由上述公式可以看出,LEIoU将推动预测框与真实框不断靠近,对于预测框与真实框不相交以及包含的情况下,仍然可使预测框向真实框方向靠近,而且同时考虑了真实框完全包裹预测框的情况下预测框相同面积大小但不同长宽比的情形,LEIoU不受长宽比的限制。
将该损失函数模块嵌入YOLOv3模型中替换IoU损失函数,并再次进行训练,训练过程与步骤三中的训练过程保持一致,输出权重文件Q2,并对训练结果进行检测。
步骤四:对比经典的YOLOv3算法,分析测试结果。
测试过程中采用IoU=0.5时的检测准确率作为算法性能的度量指标,如果算法对某张图片的预测矩形框和该图片的真实矩形框间的交并比大于0.5,那么就认为算法对该图片检测成功。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中需要使用的附图做简单介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法的流程图;
图2是训练集中部分样例图;
图3是YOLOv3网络模型结构图;
图4是网络训练流程示意图;
图5是IoU计算图;
图6是各IoU损失值对比图;
图7是EIoU损失值计算图;
图8是原YOLOv3模型的部分检测结果图;
图9是原YOLOv3与改进后YOLOv3模型部分检测结果对比图;
表1是原YOLOv3与改进后YOLOv3模型在验证数据集上的总体性能;
具体实施方式
为了让本发明的上述和其它目的、特征及优点能更明显,下面特举本发明实施例,并配合所附图示,做详细说明如下:
参照图1,本发明的实现步骤如下:
步骤一:下载当前目标检测领域通用数据集COCO数据集,保证与该领域通用数据集保持一致,以达到比对效果,检测本发明方法性能。下载地址:http:// cocodataset.org/#home
COCO的全称是Microsoft Common Objects in Context,是微软团队提供的一个可以用来进行图像识别的数据集。COCO数据集提供了80个对象类别。本发明用到的数据集中图片的标注类型为object detection(目标检测)类型,其表现为标注了图片中感兴趣目标的类别信息pi及该目标所在的中心位置坐标(x,y)及目标的宽度w和高度h,用矩形框可视化。
图2是COCO数据集中训练集的部分样例图,以此表示目标检测对象的普适性,在不同场景不同角度下对不同图像进行训练。
步骤二:重建YOLOv3网络体系,并以步骤一中所选取的数据集为基础,训练YOLOv3网络,输出权重文件Q,检测其性能,并做好对比资料。
参照图3和图4:YOLOv3网络模型结构图和网络训练流程示意图,YOLOv3算法的主体网络结构由52个卷积层组成,分为三个阶段,即三个不同尺度的输出。1~26层卷积为阶段1,27~43层卷积为阶段2,44~52层卷积为阶段3。
具体网络结构与训练过程如下,其中“×”代表乘积:
首先网络随机初始化权值,使初始化的值服从高斯正态分布,然后输入像素为416×416×3的图片,通过第1层卷积层,卷积核尺寸为3×3,步长为1,个数为32,得到416×416×32的特征图输出;进入第2层卷积层,卷积核尺寸为3×3,步长为2,个数为64,得到208×208×64的特征图输出,以此类推。依据网络图中的各层不同的卷积核,分别进入三个不同阶段依次得到52×52×256的特征图、26×26×512的特征图和13×13×1024的特征图,然后进入特征交互层1,2,3继续进行卷积操作,分别如下:
特征交互层1是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×128,、3×3×256、1×1×128、3×3×256和1×1×128,步长均为1,得到52×52×128的特征图,并进行3×3×256和1×1×255的卷积操作,得到52×52×255的特征图1。
特征交互层2是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×256,、3×3×512、1×1×256、3×3×512和1×1×256,步长均为1,得到26×26×256的特征图,并进行3×3×512和1×1×255的卷积操作,得到26×26×255的特征图2。
特征交互层3是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×512,、3×3×1024、1×1×512、3×3×1024和1×1×512,步长均为1,得到13×13×512的特征图,并进行3×3×1024和1×1×255的卷积操作,得到13×13×255的特征图3。
以52×52×255特征图1为例进行说明:第一个维度52代表图片中横向像素点的个数,第二个维度52代表图片中纵向像素点的个数,第三个维度255代表感兴趣目标特征数,包含3个尺度的信息,每个尺度的信息又包含85个信息点,85个信息点分别为:感兴趣目标所在的中心位置坐标(x,y)、目标的宽度w和高度h,以及类别信息pi和置信度C,其中类别信息pi=80。故3×(1+1+1+1+80+1)=255。特征图2和特征图3各维度的意义与特征图1相同。
经过上述网络模型得到感兴趣目标的预测框信息,将预测框与真实框进行比对,计算损失误差,包括IoU损失LIoU,置信度损失损失LC,类别损失LP,计算公式如下:
1.IoU损失LIoU
该IoU损失LIoU表示目标位置损失值。
LIoU=1-IoU
其中IoU的计算已给出,参照图5。
2.置信度损失:
置信度损失使用的函数为二值交叉熵函数:
LC=obj_loss+noobj_loss
其中,N表示网络预测的边界框的总数,表示第i个预测的边界框中是否存在目标,若存在,则/>若不存在,则/>Ci表示目标所在第i个边界框的置信度,/>表示网络预测的第i个边界框的置信度。
3.类别损失
其中,pi表示目标所在第i个边界框中各类别的概率,表示网络预测的第i个边界框中各类别的概率。
最终的损失函数L为:
L=LIoU+LC+LP
本发明根据精度要求设定迭代阈值epoch=100,当迭代次数小于epoch时,利用Adam优化算法进行权值更新直到损失值低于设定的阈值或迭代次数大于epoch,结束训练过程,并输出权重文件Q1,Q1中包含训练过程中各个网络层的各参数的权重系数及偏移量,而后对训练结果进行性能检测。
综上,具体训练过程可简化总结如下:
(1)网络随机初始化权值,使初始化的值服从高斯正态分布。
(2)输入图片数据经过本发明步骤二中的网络模型输出三个不同尺度的特征图,并利用此特征图得到预测框信息。
(3)将预测框与真实框进行比对,此阶段计算损失误差主要包括IoU损失LIoU,置信度损失损失LC,类别损失LP
(4)此时当迭代次数小于epoch=100时,利用Adam优化算法进行权值更新,直到损失值低于设定的阈值或迭代次数大于epoch,结束训练过程,并输出权重文件,而后对训练结果进行性能检测。本发明方法的主要测试指标为mAP(mean Average Precision),代表平均的平均精确度,首先是一个类别内,求平均精确度AP(Average Precision),然后对所有类别的平均精确度再求平均mAP(mean Average Precision)。
步骤三:针对当前基于IoU的损失LIoU在预选框被目标框完全包裹情况下无法进行梯度回传的不足,提出改进版的基于EIoU表示的损失函数LEIoU,并将其嵌入算法模型,进行训练检测其性能。
参照图7:基于EIoU表示的损失函数LEIoU损失值计算图示,公式如下:
LEIoU=1-IoU+R
其中:
惩罚因子其中(x'1,y'1)、(x'1,y'2)、(x'2,y'1)、(x'2,y'2)分别代表预测框的四个顶点坐标,(x1,y1)、(x1,y2)、(x2,y1)、(x2,y2)分别代表真实框的四个顶点坐标,l、w分别代表的是能够同时包含预测框和真实框的最小闭包区域的长和宽,并且l2=(max(x2,x'2)-min(x1,x'1))2,w2=(max(y2,y'2)-min(y1,y'1))2;IoU即是预测框与真实框之间的交并比,LEIoU代表损失值。
由上述公式可以看出,基于EIoU表示的损失函数LEIoU将推动预测框与真实框不断靠近,对于预测框与真实框不相交以及包含的情况下,仍然可使预测框向真实框方向靠近,而且同时考虑了真实框完全包裹预测框的情况下预测框相同面积大小但不同长宽比的情形,LEIoU不受长宽比的限制,且EIoU的取值范围与GIoU保持一致,均为[0,2)。
将该损失函数模块嵌入YOLOv3模型中替换基于IoU的损失函数LIoU,并再次进行训练,训练过程与步骤三中的训练过程保持一致,输出权重文件,并对训练结果进行检测。
步骤四:对比经典的YOLOv3算法,分析测试结果。
测试过程中采用IoU=0.5时的检测准确率作为算法性能的度量指标,如果算法对某张图片的预测矩形框和该图片的真实矩形框间的交并比大于0.5,那么就认为算法对该图片检测成功。
下面结合仿真实例对该发明做进一步的描述。
仿真实例:
本发明采用原YOLOv3模型作为对比模型,采用COCO数据集作为训练集与测试集,并给出部分检测效果图。
图2是训练集中部分样例图,随机选取COCO数据集中部分测试数据,作为结果展示,选取不同背景,不同类别,不同目标大小,不同目标密度的图片,以展示测试结果的普适性。
图4是网络训练流程示意图,其中全局损失计算部分,本发明方法利用基于EIoU表示的损失函数LEIoU代替基于IoU的损失函数LIoU,其余部分保持相同,做控制变量对比,以检测本发明方法的准确性。
图6是本发明方法基于EIoU表示的损失函数LEIoU计算与现行计算方法对比图示,其中红色框代表预测框,黑色框代表真实框,可见,当预测框完全被真实框包裹的情况下,对于预测框占真实框比例相同但是长宽比不同的情况,本发明方法提出的LEIoU能够很好的区别开来,但是现行计算方法已无法区别。
图7表示本发明方法基于EIoU表示的损失函数LEIoU计算图示,具体如下:
l2=(max(x2,x'2)-min(x1,x'1))2=82=64
w2=(max(y2,y'2)-min(y1,y'1))2=62=36
LEIoU=1-IoU+R=1-0.3+0.064=0.764
图8是原YOLOv3模型的部分检测结果图,选取了不同背景、不同类别、不同目标大小的检测图以展示原检测模型的普适性,可以看出,图片中对象的基本类别检测效果良好。
图9是原YOLOv3与改进后YOLOv3模型部分检测结果对比图,左侧一列为YOLOv3模型检测效果图,右侧一列为改进后YOLOv3模型检测效果,可以看出,原YOLOv3模型检测效果图中,对于两个或多个物体重叠的情况,并未取得很好的检测效果,如图示中三头大象、两匹马、两匹斑马,但原模型均只检测到一个。通过本发明方法改进后,可见对图片中目标物体均取得良好的检测效果,三头大象、两匹马、两匹斑马均已检测出。综上,改进后YOLOv3模型在部分检测图上的表现优于原YOLOv3模型。
附表1是原YOLOv3与改进后YOLOv3模型在验证数据集上的总体性能,可以看出改进后YOLOv3模型较原YOLOv3模型在验证集上的平均准确率mAP更高。
综上仿真实验表明嵌入EIoU模块改进后的YOLOv3模型具有相当优异的性能,且更适用于同一区域中有多个物体重叠时的情况,另外该模块也没有引入更多的计算量,与原模型相比,实时性没有受到影响。该模块仍然能够嵌入其他经典算法模型中做对比测试,更具适用性。

Claims (4)

1.一种基于EIoU改进的YOLOv3方法,包含以下步骤:
步骤一:下载当前目标检测领域通用数据集COCO数据集,保证与该领域通用数据集保持一致,以达到比对效果,检测本发明方法性能;
步骤二:重建YOLOv3网络体系,并以步骤一中所选取的数据集为基础,训练YOLOv3网络,输出权重文件Q,检测其性能,并做好对比资料;
步骤三:针对当前基于IoU的损失LIoU在预选框被目标框完全包裹情况下无法进行梯度回传的不足,提出改进版的基于EIoU表示的损失函数LEIoU,并将其嵌入方法模型,进行训练检测其性能;
基于EIoU表示的损失函数LEIoU损失值计算公式如下:
LEIoU=1-IoU+R
其中:
惩罚因子其中(x'1,y'1)、(x'1,y'2)、(x'2,y'1)、(x'2,y'2)分别代表预测框的四个顶点坐标,(x1,y1)、(x1,y2)、(x2,y1)、(x2,y2)分别代表真实框的四个顶点坐标,l、w分别代表的是能够同时包含预测框和真实框的最小闭包区域的长和宽,并且l2=(max(x2,x'2)-min(x1,x'1))2,w2=(max(y2,y'2)-min(y1,y'1))2,*代表乘积,IoU即是预测框与真实框之间的交并比,LEIoU代表损失值;
由上述公式可以看出,LEIoU将推动预测框与真实框不断靠近,对于预测框与真实框不相交以及包含的情况下,仍然可使预测框向真实框方向靠近,而且同时考虑了真实框完全包裹预测框的情况下预测框相同面积大小但不同长宽比的情形,LEIoU不受长宽比的限制;
将该损失函数模块嵌入YOLOv3模型中替换基于IoU的损失函数LIoU,并再次进行训练,训练过程与步骤三中的训练过程保持一致,输出权重文件,并对训练结果进行检测;
步骤四:对比经典的YOLOv3方法,分析测试结果。
2.根据权利要求1所述的一种基于EIoU改进的YOLOv3方法,步骤一:下载当前目标检测领域通用数据集COCO数据集,COCO的全称是Microsoft Common Objects in Context,是微软团队提供的一个可以用来进行图像识别的数据集,COCO数据集提供了80个对象类别,本发明用到的数据集中图片的标注类型为object detection(目标检测)类型,其表现为标注了图片中感兴趣目标的类别信息pi及该目标所在的中心位置坐标(x,y)及目标的宽度w和高度h,用矩形框可视化;选取这个数据集与该领域通用数据集保持一致,以达到比对效果,检测本发明方法性能。
3.根据权利要求1所述的一种基于EIoU改进的YOLOv3方法,步骤二:重建YOLOv3网络体系,并以步骤一中所选取的数据集为基础,训练YOLOv3网络,输出权重文件Q,检测其性能,并做好对比资料,具体网络模型及训练过程如下:
YOLOv3方法的主体网络结构由52个卷积层组成,分为三个阶段,即三个不同尺度的输出;1~26层卷积为阶段1,27~43层卷积为阶段2,44~52层卷积为阶段3,阶段1的输出也就是第26个卷积层的输出感受野小,负责检测小目标,阶段2的输出也就是第43个卷积层的输出感受野居中,负责检测中等大小的目标,阶段3的输出也就是第52个卷积层的输出感受野大,容易检测出大目标;
首先网络随机初始化权值,使初始化的值服从高斯正态分布,然后输入像素为416×416×3的图片,通过第1层卷积层,卷积核尺寸为3×3,步长为1,个数为32,得到416×416×32的特征图输出;进入第2层卷积层,卷积核尺寸为3×3,步长为2,个数为64,得到208×208×64的特征图输出,以此类推;依据网络图中的各层不同的卷积核,分别进入三个不同阶段依次得到52×52×256的特征图、26×26×512的特征图和13×13×1024的特征图,然后进入特征交互层1,2,3继续进行卷积操作,分别如下:
特征交互层1是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×128,、3×3×256、1×1×128、3×3×256和1×1×128,步长均为1,得到52×52×128的特征图,并进行3×3×256和1×1×255的卷积操作,得到52×52×255的特征图1;
特征交互层2是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×256,、3×3×512、1×1×256、3×3×512和1×1×256,步长均为1,得到26×26×256的特征图,并进行3×3×512和1×1×255的卷积操作,得到26×26×255的特征图2;
特征交互层3是一个卷积模块,包含5步卷积操作,卷积核尺寸及个数依次为1×1×512,、3×3×1024、1×1×512、3×3×1024和1×1×512,步长均为1,得到13×13×512的特征图,并进行3×3×1024和1×1×255的卷积操作,得到13×13×255的特征图3;
以52×52×255特征图1为例进行说明:第一个维度52代表图片中横向像素点的个数,第二个维度52代表图片中纵向像素点的个数,第三个维度255代表感兴趣目标特征数,包含3个尺度的信息,每个尺度的信息又包含85个信息点,85个信息点分别为:感兴趣目标所在的中心位置坐标(x,y)、目标的宽度w和高度h,以及类别信息pi和置信度C,其中类别信息pi=80;故3×(1+1+1+1+80+1)=255;特征图2和特征图3各维度的意义与特征图1相同;
经过上述网络模型得到感兴趣目标的预测框信息,将预测框与真实框进行比对,计算损失误差,包括IoU损失LIoU,置信度损失LC,类别损失LP,计算公式如下:
a.IoU损失LIoU
LIoU表示目标位置损失值:
LIoU=1-IoU;
b.置信度损失
置信度损失使用的函数为二值交叉熵函数:
LC=obj_loss+noobj_loss
其中,N表示网络预测的边界框的总数,表示第i个预测的边界框中是否存在目标,若存在,则/>若不存在,则/>Ci表示目标所在第i个边界框的置信度,/>表示网络预测的第i个边界框的置信度;
c.类别损失
其中,pi表示目标所在第i个边界框中各类别的概率,表示网络预测的第i个边界框中各类别的概率;
最终的损失函数L为:
L=LIoU+LC+LP
本发明根据精度要求设定迭代阈值为100,当迭代次数小于100时,利用Adam优化方法进行权值更新直到损失值低于设定的阈值或迭代次数大于100,结束训练过程,并输出权重文件Q1,Q1中包含训练过程中各个网络层的各参数的权重系数及偏移量,而后对训练结果进行性能检测;
综上,具体训练过程可简化总结如下:
(1)网络随机初始化权值,使初始化的值服从高斯正态分布;
(2)输入图片数据经过本发明步骤二中的网络模型输出三个不同尺度的特征图,并利用此特征图得到预测框信息;
(3)将预测框与真实框进行比对,此阶段计算损失误差主要包括IoU损失LIoU,置信度损失LC,类别损失LP
(4)此时当迭代次数小于100时,利用Adam优化方法进行权值更新,直到损失值低于设定的阈值或迭代次数大于100,结束训练过程,并输出权重文件,而后对训练结果进行性能检测;本发明方法的主要测试指标为mAP(mean Average Precision),代表平均的平均精确度,首先是一个类别内,求平均精确度(Average Precision),然后对所有类别的平均精确度再求平均(mean Average Precision)。
4.根据权利要求1所述的一种基于EIoU改进的YOLOv3方法,步骤四:对比经典的YOLOv3方法,分析测试结果;
测试过程中采用IoU=0.5时的检测准确率作为方法性能的度量指标,如果方法对某张图片的预测矩形框和该图片的真实矩形框间的交并比大于0.5,那么就认为方法对该图片检测成功。
CN202010892321.2A 2020-08-28 2020-08-28 一种基于EIoU改进的YOLOv3算法 Active CN112418212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010892321.2A CN112418212B (zh) 2020-08-28 2020-08-28 一种基于EIoU改进的YOLOv3算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010892321.2A CN112418212B (zh) 2020-08-28 2020-08-28 一种基于EIoU改进的YOLOv3算法

Publications (2)

Publication Number Publication Date
CN112418212A CN112418212A (zh) 2021-02-26
CN112418212B true CN112418212B (zh) 2024-02-09

Family

ID=74855048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010892321.2A Active CN112418212B (zh) 2020-08-28 2020-08-28 一种基于EIoU改进的YOLOv3算法

Country Status (1)

Country Link
CN (1) CN112418212B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378739A (zh) * 2021-06-19 2021-09-10 湖南省气象台 一种基于深度学习的地基云状目标检测方法
CN114397877A (zh) * 2021-06-25 2022-04-26 南京交通职业技术学院 一种智能汽车自动驾驶***
CN113807466B (zh) * 2021-10-09 2023-12-22 中山大学 一种基于深度学习的物流包裹自主检测方法
CN113903009B (zh) * 2021-12-10 2022-07-05 华东交通大学 一种基于改进YOLOv3网络的铁路异物检测方法与***
CN114283275B (zh) * 2022-03-04 2022-08-16 南昌工学院 一种基于优化深度学习的多图形目标检测方法
CN115115887B (zh) * 2022-07-07 2023-09-12 中国科学院合肥物质科学研究院 基于TSD-Faster RCNN的农作物害虫检测方法及其网络
CN116994151B (zh) * 2023-06-02 2024-06-04 广州大学 基于SAR图像和YOLOv5s网络的海上舰船目标识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046787A (zh) * 2019-12-10 2020-04-21 华侨大学 一种基于改进YOLO v3模型的行人检测方法
CN111062413A (zh) * 2019-11-08 2020-04-24 深兰科技(上海)有限公司 一种道路目标检测方法、装置、电子设备及存储介质
CN111310773A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种高效的卷积神经网络的车牌定位方法
CN111310861A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11094070B2 (en) * 2019-04-23 2021-08-17 Jiangnan University Visual multi-object tracking based on multi-Bernoulli filter with YOLOv3 detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062413A (zh) * 2019-11-08 2020-04-24 深兰科技(上海)有限公司 一种道路目标检测方法、装置、电子设备及存储介质
CN111046787A (zh) * 2019-12-10 2020-04-21 华侨大学 一种基于改进YOLO v3模型的行人检测方法
CN111310773A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种高效的卷积神经网络的车牌定位方法
CN111310861A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Distance-Io U Loss: Faster and Better Learning for Bounding Box Regression;Zhaohui Zheng等;《arXiv》;20191119;第1-8页 *
融合GIoU和Focal loss的YOLOv3目标检测算法;邹承明等;《计算机工程与应用》;20200628;第214-222页 *

Also Published As

Publication number Publication date
CN112418212A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112418212B (zh) 一种基于EIoU改进的YOLOv3算法
Yang et al. Pipeline magnetic flux leakage image detection algorithm based on multiscale SSD network
CN109685152A (zh) 一种基于dc-spp-yolo的图像目标检测方法
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN112801169B (zh) 一种基于改进yolo算法的伪装目标检测方法、***、装置及存储介质
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN111860235A (zh) 高低层特征融合的注意力遥感图像描述的生成方法及***
CN109697441B (zh) 一种目标检测方法、装置及计算机设备
CN110852243B (zh) 一种基于改进YOLOv3的道路交叉口检测方法及装置
CN113313094B (zh) 一种基于卷积神经网络的车载图像目标检测方法和***
CN112364974B (zh) 一种基于激活函数改进的YOLOv3算法
CN114998220A (zh) 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN114913434B (zh) 一种基于全局关系推理的高分辨率遥感影像变化检测方法
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
CN114332288B (zh) 基于短语驱动生成对抗网络的文本生成图像的方法及网络
CN117036941A (zh) 一种基于孪生Unet模型的建筑物变化检测方法及***
CN114529552A (zh) 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法
CN113313077A (zh) 基于多策略和交叉特征融合的显著物体检测方法
CN117351348A (zh) 基于Unet改进特征提取和损失函数的图像道路提取方法
CN116597275A (zh) 一种基于数据增强的高速移动目标识别方法
CN115205681A (zh) 基于空间上下文的车道线分割方法、设备及存储介质
CN114896134A (zh) 面向目标检测模型的蜕变测试方法、装置及设备
CN114937154A (zh) 一种基于递归解码器的显著性检测方法
CN114782983A (zh) 基于改进特征金字塔和边界损失的道路场景行人检测方法
CN114241470A (zh) 一种基于注意力机制的自然场景文字检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant