CN112418212B

CN112418212B - 一种基于EIoU改进的YOLOv3算法

Info

Publication number: CN112418212B
Application number: CN202010892321.2A
Authority: CN
Inventors: 王兰美; 褚安亮; 梁涛; 廖桂生; 王桂宝; 孙长征; 陈正涛
Original assignee: Xidian University; Shaanxi University of Technology
Current assignee: Xidian University; Shaanxi University of Technology
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2024-02-09
Anticipated expiration: 2040-08-28
Also published as: CN112418212A

Abstract

本发明提出了一种基于EIoU改进的YOLOv3算法，主要解决现有算法中由于重叠率、尺度及长宽比导致的基于IoU的损失L_IoU计算不准从而影响检测性能的问题。首先下载当前目标检测领域通用数据集；其次重建现有算法YOLOv3网络模型并用备好的数据集进行训练，检测其性能；然后将基于EIoU的损失函数L_EIoU嵌入YOLOv3算法模型中进行训练并作性能评价；最后对比经典的YOLOv3算法，分析测试结果。本发明提出的基于EIoU改进的YOLOv3算法，相比经典的YOLOv3算法，提高了平均准确率，且更适用于同一区域中有多个物体重叠时的情况，另外该模块也没有引入更多的计算量，与原模型相比，实时性没有受到影响。该模块仍然能够嵌入其他经典算法模型中做对比测试，更具适用性，且鲁棒性更好。

Description

一种基于EIoU改进的YOLOv3算法

技术领域

该发明属于图像识别领域，尤其涉及一种基于改进损失函数EIoU的YOLOv3目标检测算法，该算法在通用标准数据集上表现出很好的检测性能。

背景技术

目标检测主要包括传统目标检测技术及基于深度学习的目标检测技术，近年来，随着科技的发展及智能化的普及，传统的目标检测技术远远达不到人们的需求，基于深度学习的目标检测技术应运而生且发展迅速，成为当前目标检测领域的主流算法。

基于深度学习的目标检测技术大体可分为一阶段和二阶段两类方法：二阶段方法主要是指基于候选区域的算法，如R-CNN、Fast-R-CNN、Faster-R-CNN，该类算法的检测步骤为：首先在图片上生成若干个候选区域，然后，通过卷积神经网络在候选区域上进行候选框分类和回归。该类方法精度高，但检测速度慢，无法满足实时要求；一阶段方法使用一个卷积神经网络直接预测不同目标的类别与位置，属于端到端的方法，主要有SSD、YOLO系列。

目标检测中最常用的指标是交并比(Intersection over Union，IoU)，它可以反映预测检测框与真实检测框的检测效果。但是作为损失函数，当IoU＝0，不能反映两者的距离大小，也就是重合度。同时因为损失loss＝0，没有梯度回传，无法进行学习训练，IoU无法精确的反映两者的重合度大小，进而提出了广义交并比(Generalized Intersection overUnion，GIoU)。GIoU不仅关注重叠区域，还关注其他的非重合区域，能更好的反映两者的重合度，但训练过程仍易发散，距离交并比(Distance Intersection over Union，DIoU)应运而生。DIoU将目标与锚框之间的距离，重叠率以及尺度都考虑进去，使目标框回归变得更加稳定，但是锚框的长宽比还没被考虑到，在DIoU的基础上提出了完整交并比(CompleteIntersection over Union，CIoU)，本文结合上述IoU的研究历程，将重叠率、尺度及长宽比综合考虑，提出了边基交并比(Edge Intersection over Union，EIoU)，并将其嵌入到现行经典算法YOLOv3中，表现出相当优异的性能，且更适用于同一区域中有多个物体重叠时的情况，另外该模块也没有引入更多的计算量，与原模型相比，实时性没有受到影响，该模块也能够嵌入其他经典算法模型中更，具有广泛的适用性。

发明内容

本发明方法提出了一种基于EIoU改进的YOLOv3算法，通过嵌入改进的IoU的损失函数EIoU，使YOLOv3算法的检测性能有了部分提升。

步骤一：下载当前目标检测领域通用数据集COCO数据集，保证与该领域通用数据集保持一致，以达到比对效果，检测本发明方法性能。下载地址：http:// cocodataset.org/#home。

COCO的全称是Microsoft Common Objects in Context，是微软团队提供的一个可以用来进行图像识别的数据集。COCO数据集提供了80个对象类别。本发明用到的数据集中图片的标注类型为object detection目标检测类型，其表现为标注了图片中感兴趣目标的类别信息p_i及该目标所在的中心位置坐标(x,y)及目标的宽度w和高度h，用矩形框可视化。

步骤二：重建YOLOv3网络体系，并以步骤一中所选取的数据集为基础，训练YOLOv3网络，输出权重文件Q，检测其性能，并做好对比资料。

YOLOv3算法的主体网络结构由52个卷积层组成，分为三个阶段，即三个不同尺度的输出。1～26层卷积为阶段1,27～43层卷积为阶段2,44～52层卷积为阶段3。具体网络结构与训练过程如下，其中“×”代表乘积：

首先网络随机初始化权值，使初始化的值服从高斯正态分布，然后输入像素为416×416×3的图片，通过第1层卷积层，卷积核尺寸为3×3，步长为1，个数为32，得到416×416×32的特征图输出；进入第2层卷积层，卷积核尺寸为3×3，步长为2，个数为64，得到208×208×64的特征图输出，以此类推。依据网络图中的各层不同的卷积核，分别进入三个不同阶段依次得到52×52×256的特征图、26×26×512的特征图和13×13×1024的特征图，然后进入特征交互层1，2，3继续进行卷积操作，分别如下：

特征交互层1是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×128,、3×3×256、1×1×128、3×3×256和1×1×128，步长均为1，得到52×52×128的特征图，并进行3×3×256和1×1×255的卷积操作，得到52×52×255的特征图1。

特征交互层2是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×256,、3×3×512、1×1×256、3×3×512和1×1×256，步长均为1，得到26×26×256的特征图，并进行3×3×512和1×1×255的卷积操作，得到26×26×255的特征图2。

特征交互层3是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×512,、3×3×1024、1×1×512、3×3×1024和1×1×512，步长均为1，得到13×13×512的特征图，并进行3×3×1024和1×1×255的卷积操作，得到13×13×255的特征图3。

以52×52×255特征图1为例进行说明：第一个维度52代表图片中横向像素点的个数，第二个维度52代表图片中纵向像素点的个数，第三个维度255代表感兴趣目标特征数，包含3个尺度的信息，每个尺度的信息又包含85个信息点，85个信息点分别为：感兴趣目标所在的中心位置坐标(x,y)、目标的宽度w和高度h，以及类别信息p_i和置信度C，其中类别信息p_i＝80。故3×(1+1+1+1+80+1)＝255。特征图2和特征图3各维度的意义与特征图1相同。

经过上述网络模型得到感兴趣目标的预测框信息，将预测框与真实框进行比对，计算损失误差，包括IoU损失L_IoU，置信度损失损失L_C，类别损失L_P，计算公式如下：

1.IoU损失L_IoU：

L_IoU表示目标位置损失值。

L_IoU＝1-IoU

其中IoU的计算已给出，参照图5。

2.置信度损失：

置信度损失使用的函数为二值交叉熵函数：

L_C＝obj_loss+noobj_loss

其中，N表示网络预测的边界框的总数，表示第i个预测的边界框中是否存在目标，若存在，则/>若不存在，则/>C_i表示目标所在第i个边界框的置信度，表示网络预测的第i个边界框的置信度。

3.类别损失

其中，p_i表示目标所在第i个边界框中各类别的概率，表示网络预测的第i个边界框中各类别的概率。

最终的损失函数L为：

L＝L_IoU+L_C+L_P

本发明根据精度要求设定迭代阈值epoch，当迭代次数小于epoch时，利用Adam优化算法进行权值更新直到损失值低于设定的阈值或迭代次数大于epoch，结束训练过程，并输出权重文件Q₁，Q₁中包含训练过程中各个网络层的各参数的权重系数及偏移量，而后对训练结果进行性能检测。

步骤三：针对当前基于IoU的损失L_IoU在预选框被目标框完全包裹情况下无法进行梯度回传的不足，提出改进版的基于EIoU表示的损失函数L_EIoU，并将其嵌入算法模型，进行训练检测其性能。

公式如下：

L_EIoU＝1-IoU+R

其中：

惩罚因子其中(x'₁,y'₁)、(x'₁,y'₂)、(x'₂,y'₁)、(x'₂,y'₂)分别代表预测框的四个顶点坐标，(x₁,y₁)、(x₁,y₂)、(x₂,y₁)、(x₂,y₂)分别代表真实框的四个顶点坐标，l、w分别代表的是能够同时包含预测框和真实框的最小闭包区域的长和宽，并且l²＝(max(x₂,x'₂)-min(x₁,x'₁))²，w²＝(max(y₂,y'₂)-min(y₁,y'₁))²；IoU即是预测框与真实框之间的交并比，L_EIoU代表损失值。

由上述公式可以看出，L_EIoU将推动预测框与真实框不断靠近，对于预测框与真实框不相交以及包含的情况下，仍然可使预测框向真实框方向靠近，而且同时考虑了真实框完全包裹预测框的情况下预测框相同面积大小但不同长宽比的情形，L_EIoU不受长宽比的限制。

将该损失函数模块嵌入YOLOv3模型中替换IoU损失函数，并再次进行训练，训练过程与步骤三中的训练过程保持一致，输出权重文件Q₂，并对训练结果进行检测。

步骤四：对比经典的YOLOv3算法，分析测试结果。

测试过程中采用IoU＝0.5时的检测准确率作为算法性能的度量指标，如果算法对某张图片的预测矩形框和该图片的真实矩形框间的交并比大于0.5，那么就认为算法对该图片检测成功。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中需要使用的附图做简单介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法的流程图；

图2是训练集中部分样例图；

图3是YOLOv3网络模型结构图；

图4是网络训练流程示意图；

图5是IoU计算图；

图6是各IoU损失值对比图；

图7是EIoU损失值计算图；

图8是原YOLOv3模型的部分检测结果图；

图9是原YOLOv3与改进后YOLOv3模型部分检测结果对比图；

表1是原YOLOv3与改进后YOLOv3模型在验证数据集上的总体性能；

具体实施方式

为了让本发明的上述和其它目的、特征及优点能更明显，下面特举本发明实施例，并配合所附图示，做详细说明如下：

参照图1，本发明的实现步骤如下：

COCO的全称是Microsoft Common Objects in Context，是微软团队提供的一个可以用来进行图像识别的数据集。COCO数据集提供了80个对象类别。本发明用到的数据集中图片的标注类型为object detection(目标检测)类型，其表现为标注了图片中感兴趣目标的类别信息p_i及该目标所在的中心位置坐标(x,y)及目标的宽度w和高度h，用矩形框可视化。

图2是COCO数据集中训练集的部分样例图，以此表示目标检测对象的普适性，在不同场景不同角度下对不同图像进行训练。

参照图3和图4：YOLOv3网络模型结构图和网络训练流程示意图，YOLOv3算法的主体网络结构由52个卷积层组成，分为三个阶段，即三个不同尺度的输出。1～26层卷积为阶段1,27～43层卷积为阶段2,44～52层卷积为阶段3。

具体网络结构与训练过程如下，其中“×”代表乘积：

1.IoU损失L_IoU：

该IoU损失L_IoU表示目标位置损失值。

L_IoU＝1-IoU

其中IoU的计算已给出，参照图5。

2.置信度损失：

置信度损失使用的函数为二值交叉熵函数：

L_C＝obj_loss+noobj_loss

其中，N表示网络预测的边界框的总数，表示第i个预测的边界框中是否存在目标，若存在，则/>若不存在，则/>C_i表示目标所在第i个边界框的置信度，/>表示网络预测的第i个边界框的置信度。

3.类别损失

最终的损失函数L为：

L＝L_IoU+L_C+L_P

本发明根据精度要求设定迭代阈值epoch＝100，当迭代次数小于epoch时，利用Adam优化算法进行权值更新直到损失值低于设定的阈值或迭代次数大于epoch，结束训练过程，并输出权重文件Q₁，Q₁中包含训练过程中各个网络层的各参数的权重系数及偏移量，而后对训练结果进行性能检测。

综上，具体训练过程可简化总结如下：

(1)网络随机初始化权值，使初始化的值服从高斯正态分布。

(2)输入图片数据经过本发明步骤二中的网络模型输出三个不同尺度的特征图，并利用此特征图得到预测框信息。

(3)将预测框与真实框进行比对，此阶段计算损失误差主要包括IoU损失L_IoU，置信度损失损失L_C，类别损失L_P。

(4)此时当迭代次数小于epoch＝100时，利用Adam优化算法进行权值更新，直到损失值低于设定的阈值或迭代次数大于epoch，结束训练过程，并输出权重文件，而后对训练结果进行性能检测。本发明方法的主要测试指标为mAP(mean Average Precision)，代表平均的平均精确度，首先是一个类别内，求平均精确度AP(Average Precision)，然后对所有类别的平均精确度再求平均mAP(mean Average Precision)。

参照图7：基于EIoU表示的损失函数L_EIoU损失值计算图示，公式如下：

L_EIoU＝1-IoU+R

其中：

由上述公式可以看出，基于EIoU表示的损失函数L_EIoU将推动预测框与真实框不断靠近，对于预测框与真实框不相交以及包含的情况下，仍然可使预测框向真实框方向靠近，而且同时考虑了真实框完全包裹预测框的情况下预测框相同面积大小但不同长宽比的情形，L_EIoU不受长宽比的限制，且EIoU的取值范围与GIoU保持一致，均为[0,2)。

将该损失函数模块嵌入YOLOv3模型中替换基于IoU的损失函数L_IoU，并再次进行训练，训练过程与步骤三中的训练过程保持一致，输出权重文件，并对训练结果进行检测。

步骤四：对比经典的YOLOv3算法，分析测试结果。

下面结合仿真实例对该发明做进一步的描述。

仿真实例：

本发明采用原YOLOv3模型作为对比模型，采用COCO数据集作为训练集与测试集，并给出部分检测效果图。

图2是训练集中部分样例图，随机选取COCO数据集中部分测试数据，作为结果展示，选取不同背景，不同类别，不同目标大小，不同目标密度的图片，以展示测试结果的普适性。

图4是网络训练流程示意图，其中全局损失计算部分，本发明方法利用基于EIoU表示的损失函数L_EIoU代替基于IoU的损失函数L_IoU，其余部分保持相同，做控制变量对比，以检测本发明方法的准确性。

图6是本发明方法基于EIoU表示的损失函数L_EIoU计算与现行计算方法对比图示，其中红色框代表预测框，黑色框代表真实框，可见，当预测框完全被真实框包裹的情况下，对于预测框占真实框比例相同但是长宽比不同的情况，本发明方法提出的L_EIoU能够很好的区别开来，但是现行计算方法已无法区别。

图7表示本发明方法基于EIoU表示的损失函数L_EIoU计算图示，具体如下：

l²＝(max(x₂,x'₂)-min(x₁,x'₁))²＝8²＝64

w²＝(max(y₂,y'₂)-min(y₁,y'₁))²＝6²＝36

L_EIoU＝1-IoU+R＝1-0.3+0.064＝0.764

图8是原YOLOv3模型的部分检测结果图，选取了不同背景、不同类别、不同目标大小的检测图以展示原检测模型的普适性，可以看出，图片中对象的基本类别检测效果良好。

图9是原YOLOv3与改进后YOLOv3模型部分检测结果对比图，左侧一列为YOLOv3模型检测效果图，右侧一列为改进后YOLOv3模型检测效果，可以看出，原YOLOv3模型检测效果图中，对于两个或多个物体重叠的情况，并未取得很好的检测效果，如图示中三头大象、两匹马、两匹斑马，但原模型均只检测到一个。通过本发明方法改进后，可见对图片中目标物体均取得良好的检测效果，三头大象、两匹马、两匹斑马均已检测出。综上，改进后YOLOv3模型在部分检测图上的表现优于原YOLOv3模型。

附表1是原YOLOv3与改进后YOLOv3模型在验证数据集上的总体性能，可以看出改进后YOLOv3模型较原YOLOv3模型在验证集上的平均准确率mAP更高。

综上仿真实验表明嵌入EIoU模块改进后的YOLOv3模型具有相当优异的性能，且更适用于同一区域中有多个物体重叠时的情况，另外该模块也没有引入更多的计算量，与原模型相比，实时性没有受到影响。该模块仍然能够嵌入其他经典算法模型中做对比测试，更具适用性。

Claims

1.一种基于EIoU改进的YOLOv3方法，包含以下步骤：

步骤一：下载当前目标检测领域通用数据集COCO数据集，保证与该领域通用数据集保持一致，以达到比对效果，检测本发明方法性能；

步骤二：重建YOLOv3网络体系，并以步骤一中所选取的数据集为基础，训练YOLOv3网络，输出权重文件Q，检测其性能，并做好对比资料；

步骤三：针对当前基于IoU的损失L_IoU在预选框被目标框完全包裹情况下无法进行梯度回传的不足，提出改进版的基于EIoU表示的损失函数L_EIoU，并将其嵌入方法模型，进行训练检测其性能；

基于EIoU表示的损失函数L_EIoU损失值计算公式如下：

L_EIoU＝1-IoU+R

其中：

惩罚因子其中(x'₁,y'₁)、(x'₁,y'₂)、(x'₂,y'₁)、(x'₂,y'₂)分别代表预测框的四个顶点坐标，(x₁,y₁)、(x₁,y₂)、(x₂,y₁)、(x₂,y₂)分别代表真实框的四个顶点坐标，l、w分别代表的是能够同时包含预测框和真实框的最小闭包区域的长和宽，并且l2＝(max(x₂,x'₂)-min(x₁,x'₁))²，w²＝(max(y₂,y'₂)-min(y₁,y'₁))²，*代表乘积，IoU即是预测框与真实框之间的交并比，L_EIoU代表损失值；

由上述公式可以看出，L_EIoU将推动预测框与真实框不断靠近，对于预测框与真实框不相交以及包含的情况下，仍然可使预测框向真实框方向靠近，而且同时考虑了真实框完全包裹预测框的情况下预测框相同面积大小但不同长宽比的情形，L_EIoU不受长宽比的限制；

将该损失函数模块嵌入YOLOv3模型中替换基于IoU的损失函数L_IoU，并再次进行训练，训练过程与步骤三中的训练过程保持一致，输出权重文件，并对训练结果进行检测；

步骤四：对比经典的YOLOv3方法，分析测试结果。

2.根据权利要求1所述的一种基于EIoU改进的YOLOv3方法，步骤一：下载当前目标检测领域通用数据集COCO数据集，COCO的全称是Microsoft Common Objects in Context，是微软团队提供的一个可以用来进行图像识别的数据集，COCO数据集提供了80个对象类别，本发明用到的数据集中图片的标注类型为object detection(目标检测)类型，其表现为标注了图片中感兴趣目标的类别信息p_i及该目标所在的中心位置坐标(x,y)及目标的宽度w和高度h，用矩形框可视化；选取这个数据集与该领域通用数据集保持一致，以达到比对效果，检测本发明方法性能。

3.根据权利要求1所述的一种基于EIoU改进的YOLOv3方法，步骤二：重建YOLOv3网络体系，并以步骤一中所选取的数据集为基础，训练YOLOv3网络，输出权重文件Q，检测其性能，并做好对比资料，具体网络模型及训练过程如下：

YOLOv3方法的主体网络结构由52个卷积层组成，分为三个阶段，即三个不同尺度的输出；1～26层卷积为阶段1,27～43层卷积为阶段2,44～52层卷积为阶段3，阶段1的输出也就是第26个卷积层的输出感受野小，负责检测小目标，阶段2的输出也就是第43个卷积层的输出感受野居中，负责检测中等大小的目标，阶段3的输出也就是第52个卷积层的输出感受野大，容易检测出大目标；

首先网络随机初始化权值，使初始化的值服从高斯正态分布，然后输入像素为416×416×3的图片，通过第1层卷积层，卷积核尺寸为3×3，步长为1，个数为32，得到416×416×32的特征图输出；进入第2层卷积层，卷积核尺寸为3×3，步长为2，个数为64，得到208×208×64的特征图输出，以此类推；依据网络图中的各层不同的卷积核，分别进入三个不同阶段依次得到52×52×256的特征图、26×26×512的特征图和13×13×1024的特征图，然后进入特征交互层1，2，3继续进行卷积操作，分别如下：

特征交互层1是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×128,、3×3×256、1×1×128、3×3×256和1×1×128，步长均为1，得到52×52×128的特征图，并进行3×3×256和1×1×255的卷积操作，得到52×52×255的特征图1；

特征交互层2是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×256,、3×3×512、1×1×256、3×3×512和1×1×256，步长均为1，得到26×26×256的特征图，并进行3×3×512和1×1×255的卷积操作，得到26×26×255的特征图2；

特征交互层3是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×512,、3×3×1024、1×1×512、3×3×1024和1×1×512，步长均为1，得到13×13×512的特征图，并进行3×3×1024和1×1×255的卷积操作，得到13×13×255的特征图3；

以52×52×255特征图1为例进行说明：第一个维度52代表图片中横向像素点的个数，第二个维度52代表图片中纵向像素点的个数，第三个维度255代表感兴趣目标特征数，包含3个尺度的信息，每个尺度的信息又包含85个信息点，85个信息点分别为：感兴趣目标所在的中心位置坐标(x,y)、目标的宽度w和高度h，以及类别信息p_i和置信度C，其中类别信息p_i＝80；故3×(1+1+1+1+80+1)＝255；特征图2和特征图3各维度的意义与特征图1相同；

经过上述网络模型得到感兴趣目标的预测框信息，将预测框与真实框进行比对，计算损失误差，包括IoU损失L_IoU，置信度损失L_C，类别损失L_P，计算公式如下：

a.IoU损失L_IoU

L_IoU表示目标位置损失值：

L_IoU＝1-IoU；

b.置信度损失

置信度损失使用的函数为二值交叉熵函数：

L_C＝obj_loss+noobj_loss

其中，N表示网络预测的边界框的总数，表示第i个预测的边界框中是否存在目标，若存在，则/>若不存在，则/>C_i表示目标所在第i个边界框的置信度，/>表示网络预测的第i个边界框的置信度；

c.类别损失

其中，p_i表示目标所在第i个边界框中各类别的概率，表示网络预测的第i个边界框中各类别的概率；

最终的损失函数L为：

L＝L_IoU+L_C+L_P

本发明根据精度要求设定迭代阈值为100，当迭代次数小于100时，利用Adam优化方法进行权值更新直到损失值低于设定的阈值或迭代次数大于100，结束训练过程，并输出权重文件Q₁，Q₁中包含训练过程中各个网络层的各参数的权重系数及偏移量，而后对训练结果进行性能检测；

综上，具体训练过程可简化总结如下：

(1)网络随机初始化权值，使初始化的值服从高斯正态分布；

(2)输入图片数据经过本发明步骤二中的网络模型输出三个不同尺度的特征图，并利用此特征图得到预测框信息；

(3)将预测框与真实框进行比对，此阶段计算损失误差主要包括IoU损失L_IoU，置信度损失L_C，类别损失L_P；

(4)此时当迭代次数小于100时，利用Adam优化方法进行权值更新，直到损失值低于设定的阈值或迭代次数大于100，结束训练过程，并输出权重文件，而后对训练结果进行性能检测；本发明方法的主要测试指标为mAP(mean Average Precision)，代表平均的平均精确度，首先是一个类别内，求平均精确度(Average Precision)，然后对所有类别的平均精确度再求平均(mean Average Precision)。

4.根据权利要求1所述的一种基于EIoU改进的YOLOv3方法，步骤四：对比经典的YOLOv3方法，分析测试结果；

测试过程中采用IoU＝0.5时的检测准确率作为方法性能的度量指标，如果方法对某张图片的预测矩形框和该图片的真实矩形框间的交并比大于0.5，那么就认为方法对该图片检测成功。