CN113435269A

CN113435269A - 一种基于YOLOv3改进的水面漂浮物检测与识别方法及***

Info

Publication number: CN113435269A
Application number: CN202110647573.3A
Authority: CN
Inventors: 刘献忠; 徐浩
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-24

Abstract

本发明公开了一种基于改进YOLOv3识别模型的水面漂浮物检测与识别方法，涉及计算机视觉技术领域，包括以下步骤：预先采集水面漂流物数据，采用几何变换和色彩变换对图像数据进行增强扩增，并对数据中的漂流物进行标注，得到水面漂流物数据集，并拆分成训练集和测试集；构建改进的YOLOv3网络模型，并采用水面漂流物训练集对改进的YOLOv3网络模型进行训练；根据水面漂流物数据图像构建水面漂流物测试集，并用训练好的改进的YOLOv3网络模型对水面漂流物测试集进行检测与识别。本发明改进的YOLOv3有较强的泛化能力，占用存储空间和显存空间小，提高了检测识别准确率，而且还能保证实时性，能够在算力以及内存有限的客户端设备中实现精确和快速的水面漂流物的监测与识别。

Description

一种基于YOLOv3改进的水面漂浮物检测与识别方法及***

技术领域

本发明属于计算机视觉技术领域，涉及一种基于YOLOv3改进的水面漂流物检测与识别方法及***。

背景技术

近年来，我国城镇化、工业化的速度越来越快，经济迅猛发展的同时水环境污染问题也不容乐观。江河湖泊均存在大量漂浮物，不仅破坏了自然生态景观，也严重威胁着人类的生命健康和经济的可持续发展，因此，如何有效地监测河湖漂浮物的研究具有重要的现实意义。

现有的基于视频图像的水面漂浮物检测技术主要针对遥感影像，通过提取遥感影像的光谱特征、空间特征、纹理特征，分析检测是否存在漂浮物。由于遥感影像视野通常较远，所以难以检测城市河道中较小面积的漂浮物，同时由于生成遥感影像对成像设备有要求，采集大量存在漂浮物的遥感图像数据集具有一定难度，不利于在现实应用中推广。而传统的图像分割技术由于水面存在倒影，光照变化等因素分割效果很不理想，大量的水面倒影无法正确分割。

深度学***衡的问题。YOLOv3牺牲了一定的检测速度来提高检测精度，但是对于小目标的水面漂浮物的检测来说，依旧有一定的难度。

发明内容

为了解决现有技术存在的不足，本发明的目的是提出一种基于改进YOLOv3识别模型的水面漂浮物检测与识别方法，在保持并提高YOLOv3算法在水面漂浮物检测识别上的性能，同时对检测算法模型的体积进行了精简。

本发明的技术方案是这样实现的：

步骤一、预先获取用于水面漂流物训练的数据集，采用几何变换和色彩变换对图像数据进行了增强与扩增，并对数据集的漂流物进行标注，得到水面漂流物数据集，并拆分成训练集和测试集；

步骤二、构建改进的YOLOv3网络模型；

步骤三、使用步骤一中获得的水面漂流物训练集对步骤二构建得到的改进的YOLOv3网络模型进行训练；

步骤四、使用步骤一中获得的根据水面漂流物的数据图像拆分出的水面漂流物测试集，并用步骤三训练好的改进的YOLOv3网络模型对水面漂流物测试集进行检测与识别。

本发明数据集为人工现场收集，需要处理为YOLOv3使用的PASCAL VOC数据集格式。

进一步地，步骤一分为以下两个步骤：

1.1、人工现场获取水面漂流物训练数据集，通过调节色相、对比度、饱和度和亮度来进行色彩变换，并对图像进行几何变换以及随机裁剪，然后通过随机选择图片进行拼接从而生成新的图像；所述几何变换指的是缩放、平移、旋转；

1.2、采用Labelme对数据进行人工标注，并将数据集标签格式转换为PASCAL VOC数据集格式，采用8:2～9:1的比例划分训练数据集和测试数据集。

进一步地，步骤二中，构建改进的YOLOv3网络模型具体包括以下步骤：

2.1、将YOLOv3网络模型原有的DarkNet53网络替换为GhostNet网络；GhostNet 的GhostNet bottleneck中加入注意力机制层SELayer，增强对主要通道特征的关注程度；

2.2、依次从GhostNet网络结构中通过平均池化提取下采样倍数分别为4、8、16和32的特征图，并依次对特征图进行上采样与原有特征进行融合，获得四个新的特征图。

GhostNet主干网络除了最后输出的尺寸为13×13的特征图，还包括三个GhostNet的分支输出的特征图，尺寸分别为26×26，52×52以及104×104。

整个主干网络都是在进行特征提取，不同尺寸的特征图包含着不同层次的特征信息。层次越浅，特征含义越局限，层次越深，特征含义越丰富，104的特征图是通过GhostNet中前三个Ghost Block提取出的；接着又通过两个Ghost Block特征提取得到52的特征图；接着又通过六个Ghost Block得到了26的特征图；最后通过五个GhostBlock得到了13 的特征图，此时主干网络特征提取的过程结束。

2.3、采用GIOU损失替换YOLOv3网络模型原有的定位损失函数；

其中，IOU表示对于任意A、B框，分别求交集和并集，最后求两者的比值；所述 IOU表达式为：

GIOU表示对于任意的A、B框，首先找到一个能够包住它们的最小封闭形状C，然后计算C\(A∪B)的面积与C的面积的比值，所述C\(A∪B)的面积为C的面积减去A∪B 的面积，再用A、B的IOU值减去这个比值得到GIOU；所述GIOU表达式为：

其中：A、B为两个任意的凸形区域，C是指包含A和B的最小封闭形状；

最终定位损失的表达式为：

最终定位损失L_GIOU＝1-GIOU。

2.4、采用Focal Loss损失替换YOLOv3原有模型的类别损失函数；

所述Focal Loss计算公式如下：

FL(p_t)＝-α(1-p_t)^γlog(p_t)

式中α取值为2，γ取值为0.25，p_t代表的是正负样本的概率方程，p_t如下式所示：

其中：

p代表正样本概率，y代表标签值；

步骤2.2中，通过四尺度特征融合来获取更深层的特征，选择13×13、26×26、52×52和104×104作为四个输出特征图；网络迭代次数设置为1000；通过改进的上采样模块dw_res2net_block对四层特征图进一步提取特征，然后进行上采样与原有特征进行融合，作为新的候选特征。

所述dw_res2net_block是在原有Inverted_res_block结构的基础上，参考GhostNet与 Res2Net的基础结构进行构建。增加更小的残差连接模块，缓解了梯度消失的同时，增加了各段特征图之间的交流，同时用3×1、1×3替换了原有的3×3卷积层，使模块特征提取能力变得更加细腻的同时，使参数量下降了1/3。为了进一步减少模型参数，使用DWConv 来取代卷积的部分操作，从而消耗更少的算力就可以获取到与原卷积层相差不多的卷积效果。

步骤2.3中，对YOLOv3主干网络的改进包括通过自注意力机制SE获取更有效的通道信息，在GhostBottleneck中加入了SE自注意力机制来使网络更加注重重要通道特征的训练。

进一步地，对YOLOv3主干网络的改进还包括：对水面漂浮物数据集采用k-means++对anchor box的尺寸进行聚类，共生成12个不同的尺寸。采用该技术可以提高模型的检测性能，并加快收敛的速度。

步骤三中，所述改进的YOLOv3网络模型的训练包括以下步骤：

3.1、初始化改进的YOLOv3网络模型的权重以及各项参数，所述参数包括卷积层参数值、学习率、迭代次数epoch以及每个批次包含的数据量个数batch_size；

3.2、将训练集以及测试集放置于约定好的目录下，运行程序进行训练；

3.3、训练前程序会从训练集中选取1/10的数据作为验证集，每个迭代都会通过验证集进行验证，并对表现不好的困难样本进行记录。达到迭代次数后输出模型的各项指标；所述指标包括平均精度mAP、单类别平均精度AP、精确率和召回率。

3.4、训练结束后对记录的困难进行分析，并对困难样本进行增强，步骤3.3-3.4这个过程重复设置了三次。

3.5、达到迭代次数，训练结束，保存模型的各项参数以及权重。

步骤四中，采用平均类别准确率、模型参数以及FLOPs作为性能指标来检测所述改进的YOLOv3网络模型对水面漂浮物的检测能力。

本发明还提供了一种实现上述检测方法的***，所述***包括：数据输入模块、数据处理模块、YOLOv3网络模块、结果输出模块。

所述数据输入模块用于将获取的图像数据传输到数据处理模块中；

所述数据处理模块用于将图像数据经几何变换、色彩变换，对目标物进行标注后获得数据集，并拆分为训练集和测试集；

所述YOLOv3网络模块用于模型的训练和目标物的检测识别；

所述结果输出模块用于对输入的图像数据输出相应的结果。

基于前述方法，本发明还提出了一种检测与识别方法的***，包括：

用户登录界面、水面漂流物检测页面、图片上传、视频上传、检测功能以及摄像头识别；其中，

所述用户登录界面：展示应用的名称、作者以及应用版本信息，同时在该界面需要提供检测界面的入口；

所述水面漂流物检测页面：该界面是该应用主要功能按钮以及上传图片以及预测图片的展示区域；展示的功能主要有：图片上传，视频上传，开始检测以及摄像头检测；

所述图片上传：对需要检测的图片进行上传；

所述视频上传：对需要检测的视频进行上传；

所述检测功能：点击按钮进行识别，并将识别的结果进行展示；

摄像头识别：打开摄像头，对检测物体进行实时监测。

本发明的有益效果包括：

本发明中的YOLOv3改进网络模型采用GhostNet网络结构极大的减少了模型的参数以及FLOPs；同时采用四尺度特征图融合可以提升网络对小目标水面漂流物的检测效果；采用了GIOU损失函数；采用了Focal Loss损失函数，使得模型在训练的过程中更加注重困难样本的训练，解决了样本类别不均衡的问题；以及通过数据增强以及多尺度训练的方式，提高了模型的检测效果。通过上述方法，本发明实现了相较于YOLOv3原版算法更高的检测效果，模型的体积得到了大幅度的降低，且参数量也大幅度减少，能够在算力有限的移动客户端中实现准确快速的检测识别。

附图说明

图1为本发明实施例对困难样本数据集增强前频数图。

图2为本发明实施例对困难样本数据集增强后频数图。

图3为本发明YOLOv3改进网络的总体框架图。

图4为本发明网络中dw_res2net_block模块细节图。

图5为本发明模型训练流程图。

图6为本发明改进YOLOv3网络mAP收敛图。

图7为原始YOLOv3网络mAP收敛图。

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明提供了一种基于YOLOv3改进的水面漂浮物检测与识别方法，所述方法包括如下步骤：

步骤二、构建改进的YOLOv3网络模型；

所述YOLOv3网络模块用于模型的训练和目标物的检测识别；

所述结果输出模块用于对输入的图像数据输出相应的结果。

实施例

本实施例提供了一种基于YOLOv3改进的水面漂流物检测与识别方法，包括以下步骤：

步骤1、准备水面漂流物数据集，并对数据进行数据增强，其中具体包括如下步骤：

(1)本数据集收集于实地场景，共包括3443张图片，为了学习到更多的特征，采用了8：2的比例将数据集分为了训练集和测试集。其中训练集中包括2755张图片，测试集包括688张图片，并将其统一处理成了大小为416*416的图片，并用Labelme对图片进行了标记。由于本数据所含各个类别的数量以及训练难度有所差异，导致出现频率较低的困难样本在模型中无法得到充分的学习，所以在训练过程中会对精度小于50％的样本进行标记，训练结束后，重新对这类样本进行训练。图片标记文件的格式为json，为了方便网络训练，通过编码将其转化为VOC格式。

(2)为了让网络可以学***移、旋转等几何变换以及随机裁剪，然后通过随机选择图片进行拼接从而生成新的图像。然后在训练结束后，对精度小于50％的样本再次采用上面提到的增强方式进行增强，并与原始数据集合并一同作为训练数据。数据增强可以缓解数据样本不均衡的问题，如图1为实施例中对困难样本增强前的频数图，图2所示为实施例中对困难样本增强后的频数图。

步骤2、搭建YOLOv3改进网络模型。

(1)本发明中，如图3为YOLOv3改进网络的整体框架图。首先对YOLOv3主干网络进行了改进，将Darknet53中的ResNet block替换为了Ghost block，通过首先对图像进行部分卷积，然后将通过DWConv对图像进行线性运算，最后将两者的结果拼接在一起，从而得到新的特征图。GhostNet的连接方式在减少模型参数的同时，可以大大加深网路的深度，通过更少的算力获得更良好的特征提取能力。

(2)增强多尺度特征融合能力。依次从GhostNet结构中提取下采样倍数分别为13、26、52、104的特征图：Route-1，Route-2，Route-3，Route-4。如图4所示的dw_res2net_block进一步对特征进行融合提取，然后对提取的特征图进行上采样操作，获取融合特征m1、 m2、m3和m4，提升了对小目标的水面漂流物的检测能力。

(3)dw_res2net_block是在原有Inverted_res_block结构的基础上，参考GhostNet 与Res2Net的基础结构进行构建。增加更小的残差连接模块，缓解了梯度消失的同时，增加了各段特征图之间的交流，同时用3×1、1×3替换了原有的3×3卷积层，使模块特征提取能力变得更加细腻的同时，使参数量下降了1/3。为了进一步减少模型参数，使用DWConv来取代卷积的部分操作，从而消耗更少的算力就可以获取到与原卷积层相差不多的卷积效果。此外，加入了SE block对特征通道的权重进行分配，提升模型特征提取能力。

(4)采用GIOU损失替换YOLOv3网络模型原有的定位损失函数；

IOU表示对于任意A、B框，分别求交集和并集，最后求两者的比值；所述IOU表达式为：

最终定位损失表达式为：

最终定位损失L_GIOU＝1-GIOU

(5)采用Focal Loss损失替换YOLOv3原有模型的类别损失函数；

Focal Loss计算公式如下：

FL(p_t)＝-α(1-p_t)^γlog(p_t)

式中α取值为2，γ取值为0.25，pt代表的是正负样本的概率方程，pt如下式所示：

其中：

p代表正样本的概率，y代表标签值；

(6)YOLOv3的原网络模型中使用k-means算法来对anchor进行聚类，本发明中使用k-means++对其进行替换。k-means++相对于k-means一次性随机挑选k个聚类中心更加合理，k-mean++每次挑选都会在距离上一次更远聚类中心，从而挑选出12个anchor。 k-means++可以在一定程度上降低最终的位置误差。

步骤3、对改进模型进行训练

模型的图片输入尺寸为416×416，初始学习率设置为1e-3，将处理好的训练数据集根据设定好的batch_size(根据硬件条件进行设定)输入模型中进行前向传播并计算损失，然后对根据损失函数进行反向传播更新网络中的参数，经过多次迭代后，当网络损失趋于稳定时，停止模型的训练，并将网络模型的参数进行保存。

步骤4、使用训练好的改进模型进行检测测试

使用训练好的模型对测试数据进行检测，对检测结果取平均值，结果表明改进后的模型对水面漂流物的检测精度有较大的提升，尤其对小目标水面漂流物检测有着显著提升。

如表1所示为YOLOv3与改进的YOLOv3的各个类比的平均AP对比，可以看到各个类别的AP都有较大的提升，但是对于水草、树枝以及荷叶这些数量较少的类别识别能力并不高，当为改进的YOLOv3加入Focal loss后，水草、荷叶数量较少的困难样本会识别能力有所提升，仅仅是以消耗少量易训练样本的精度为代价。如表2所示，在模型的整体平均精度表现上改进的YOLOv3比YOLOv3的检测精度高13％，加入Focal Loss 可以为模型带来1％左右的性能提升。

表1各模型平均AP

表2模型的整体平均精度

如表3所示为模型的参数量与所需算力对比，改进的YOLOv3在体积上相对于YOLOv3有了大幅度的降低，且模型所需的算力也得到了大幅度的降低。改进后的 YOLOv3相比于YOLOv3更适合部署于算力有限、对实时性要求较高的设备中。

表3模型的参数量与所需算力对比

当网络迭代次数为1000时，在GPU2080ti上进行训练，改进后的YOLOv3网络大约训练了3天半收敛并结束，原始网络大约训练了一周收敛并结束。收敛的视图如图6和图7 所示(图6为改进后网络；图7为原始网络)，由图6和图7中可以看出改进后网络的训练过程更加平滑，收敛的更快，而原始网络的训练过程波动比较大，且训练速度慢。同时通过表3可以看出，改进模型的参数远远小于原始模型，所以在训练过程中需要计算更新的参数则更少，因此改进模型的训练速度以及收敛速度都更快。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于改进YOLOv3识别模型的水面漂浮物检测与识别方法，其特征在于，所述方法包括以下步骤：

步骤一、预先获取用于水面漂流物训练的数据集，采用几何变换和色彩变换对图像数据进行增强与扩增，并对数据集的漂流物进行标注，得到水面漂流物数据集，并拆分成训练集和测试集；

步骤二、构建改进的YOLOv3网络模型；

2.根据权利要求1所述的基于改进YOLOv3识别模型的水面漂浮物检测与识别方法，其特征在于，步骤一具体包括如下两个子步骤；

1.1、人工现场获取水面漂流物训练数据集，通过调节色相、对比度、饱和度和亮度进行色彩变换，通过缩放、平移、旋转对图像进行几何变换以及随机裁剪，然后通过随机选择图片进行拼接从而生成新的图像；

3.根据权利要求1所述的基于改进YOLOv3识别模型的水面漂流物检测与识别方法，其特征在于，步骤二中，所述构建改进的YOLOv3网络模型具体包括如下步骤：

2.1、将YOLOv3网络模型原有的DarkNet53网络替换为GhostNet网络；所述GhostNet的GhostNet bottleneck中加入注意力机制层SELayer，增强对主要通道特征的关注程度；

2.2、依次从GhostNet网络结构中通过平均池化提取下采样倍数分别为4、8、16和32的特征图，并依次对特征图进行上采样与原有特征进行融合，获得四个新的特征图；

2.3、采用GIOU损失替换YOLOv3网络模型原有的定位损失函数；

GIOU表示对于任意的A、B框，首先找到一个能够包住它们的最小封闭形状C，然后计算C\(A∪B)的面积与C的面积的比值，所述C\(A∪B)的面积为C的面积减去A∪B的面积，再用A、B的IOU值减去这个比值得到GIOU；所述GIOU表达式为：

其中，A、B为两个任意的凸形区域，C是指包含A和B的最小封闭形状；

最终定位损失的表达式为：

最终定位损失L_GIOU＝1-GIOU；

2.4、采用Focal Loss损失替换YOLOv3原有模型的类别损失函数；

所述Focal Loss计算公式如下：

FL(p_t)＝-α(1-p_t)^γlog(p_t)，

其中：

p代表正样本概率，y代表标签值。

4.根据权利要求3所述基于改进YOLOv3识别模型的水面漂流物检测与识别方法，其特征在于，步骤2.2中，通过四尺度特征融合来获取更深层的特征，选择13×13、26×26、52×52和104×104作为四个输出特征图；网络迭代次数设置为1000；通过改进的上采样模块dw_res2net_block对四层特征图进一步提取特征，然后进行上采样与原有特征进行融合，作为新的候选特征；

所述dw_res2net_block增加更小的残差连接模块，缓解了梯度消失的同时，增加了各段特征图之间的交流，使模块特征提取能力变得更加细腻并降低了1/3的参数量；同时使用DWConv取代卷积的部分操作。

5.根据权利要求3所述的基于改进YOLOv3识别模型的水面漂流物检测与识别方法，其特征在于，步骤二中，对YOLOv3主干网络进行的改进还包括在GhostBottleneck中加入了SE自注意力机制使网络更加注重重要通道特征的训练。

6.根据权利要求3所述的基于改进YOLOv3识别模型的水面漂流物检测与识别方法，其特征在于，步骤二中，对YOLOv3主干网络的改进还包括对水面漂浮物数据集采用k-means++对anchor box的尺寸进行聚类，共生成12个不同的尺寸，提高模型的检测性能，并加快收敛的速度。

7.根据权利要求1所述的基于改进YOLOv3识别模型的水面漂浮物检测与识别方法，其特征在于，步骤三中，所述改进的YOLOv3网络模型的训练包括以下步骤：

3.3、训练前程序会从训练集中选取1/10的数据作为验证集，每个迭代都会通过验证集进行验证，并对表现不好的困难样本进行记录；达到迭代次数后输出模型的各项指标；所述指标包括所述指标包括平均精度mAP、单类别平均精度AP、精确率和召回率；

3.4、训练结束后对记录的困难进行分析，并对困难样本进行增强，步骤3.3-3.4重复设置三次；

8.根据权利要求1所述的基于改进YOLOv3识别模型的水面漂浮物检测与识别方法，其特征在于，步骤四中，采用平均类别准确率、模型参数以及FLOPs作为性能指标来检测所述改进的YOLOv3网络模型对水面漂浮物的检测能力。

9.一种实现如权利要求1-8之任一项所述检测与识别方法的***，所述***包括：数据输入模块、数据处理模块、YOLOv3网络模块、结果输出模块；

所述YOLOv3网络模块用于模型的训练和目标物的检测识别；

所述结果输出模块用于对输入的图像数据输出相应的结果。

10.一种实现如权利要求1-8之任一项所述检测与识别方法的***，所述***包括：

所述图片上传：对需要检测的图片进行上传；

所述视频上传：对需要检测的视频进行上传；

摄像头识别：打开摄像头，对检测物体进行实时监测。