CN116912674A

CN116912674A - 基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及***

Info

Publication number: CN116912674A
Application number: CN202310951353.9A
Authority: CN
Inventors: 管志光; 侯成龙
Original assignee: Shandong Jiaotong University
Current assignee: Shandong Jiaotong University
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-20

Abstract

本发明公开了基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及***，S1：获取水下海产品的图像，对获取的图像进行标注与划分，建立海产品数据集；S2：对YOLOv5s网络模型的主干网络与检测头部分进行改进，建立基于改进的YOLOv5s网络模型；S3：将海产品数据集输入到基于改进的YOLOv5s网络模型中进行训练；S4：训练完成后，将待检测的水下海产品图像输入到训练后的基于改进的YOLOv5s网络模型进行检测，从而获取待检测的水下海产品的检测结果。本发明中的网络模型可以更加关注海产品，能够减少无用特征的影响，该模型可应用于水下复杂环境下海产品的检测识别工作，且识别精度高。

Description

基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及 ***

技术领域

本发明涉及海洋信息技术领域，具体涉及基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及***。

背景技术

目前，多数的目标检测框架都是基于卷积神经网络的理论进行构建，目标检测的对象是针对陆地上清晰环境的物体进行检测。该类网络的思路是将输入图像进行特征提取，对提取的特征在网络中进一步学习，从而生成权重文件实现对新输入图像内的被识别物体进行检测。

但是，将其应用于水下环境时，由于水下环境复杂，受光照等因素的影响，水下图像成像质量较差，将基于卷积神经网络的目标检测框架应用在水下养殖业中，在检测过程中存在检测精度低、回归不精准的情况。

发明内容

为了解决上述现有技术中存在的问题，提供了基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及***。

本发明解决其技术问题所采用的技术方案是：

本发明提出了基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，包括：

S1：获取水下海产品的图像，对获取的图像进行标注与划分，建立海产品数据集；

S2：对YOLOv5s网络模型的主干网络与检测头部分进行改进，建立基于改进的YOLOv5s网络模型；

S3：将海产品数据集输入到基于改进的YOLOv5s网络模型中进行训练；

S4：训练完成后，将待检测的水下海产品图像输入到训练后的基于改进的YOLOv5s网络模型进行检测，从而获取待检测的水下海产品的检测结果。

优选的，S1中，将数据集划分成训练集和测试集，并转化成深度学习框架所能读取的格式。

优选的，S3中，将训练集图像输入到基于改进的YOLOv5s网络模型进行特征提取，在主干网络中提取特征后在改进后的颈部网络进行特征融合，最后在检测头部输出。

优选的，S4中，基于改进的YOLOv5s网络模型训练完成后，生成训练的权重文件，将测试集样本输入到基于改进的YOLOv5s网络模型训练中加载权重文件进行预测，最终输出识别检测结果。

优选的，基于改进的YOLOv5s网络模型训练包括有主干部分、颈部部分和输出部分。

优选的，主干部分：在提取特征的主干网络部分的每个C3层后分别集成一个Hor_Block注意力模块，所述Hor_Block注意力模块用于加强YOLOv5s主干网络对水下图像的特征提取能力，所述Hor_Block注意力模块用于对输入的张量进行特征维度变换、水平层归一化、线性层线性变换、激活函数非线性映射、线性层线性变换、特征维度变换、DropPath层、输出张量，在每个C3模块后分别输出一个特征图记为S1、S2、S3、S4，具体包括以下步骤：

S11：对输入张量X进行规范化操作后进入DropPath层，在这一层中将张量进行递归门控卷积操作，再乘以缩放参数，最后进行随机丢弃特征；

S12：进入特征维度变换层，将张量的维度顺序从(N,C,H,W)变换为(N,H,W,C)，并对张量进行规范化操作；

S13：通过一个线性层、激活函数层、另一个线性层对张量进行处理，如果可学习参数T不为空，则将张量乘以可学习参数T；

S14：将张量的维度顺序变回(N,C,H,W)，与通过第一层的输出张量进行相加，并使用DropPath层进行随机丢弃特征输出最终的张量。

优选的，颈部部分：在主干部分和检测头之间采用特征金字塔网络的结构，特征金字塔网络用于处理图像中不同尺度的特征信息，以便有效地检测不同大小的目标；

在本模型中通过使用CBS模块、上采样模块、Concat模块和C3模块组成FPN网络结构，用于对特征的通道数进行调整、对特征的大小进行改变，最终将含有不同尺度特征信息的特征图进行融合；

CBS模块是通过使用多个1×1的卷积核来改变特征的通道数；

上采样模块的作用是将低分辨率的高语义特征与高分辨率的低语义特征结合起来，需要对较深层次的特征图进行上采样；

Concat模块和C3模块则是将上采样后的特征图与相应的浅层特征图进行融合，从而提高目标检测的性能；这两种模块的作用是使模型能够有效地处理不同尺度的目标，并具备更强大的特征表示能力；

对FPN网络结构的改进还包括：

S21：在80×80检测的检测头之后加入160×160的小目标检测，通过从第2层的C3模块引出特征图S1；

S22：在网络的21层后加入卷积模块、上采样模块、与第2层引出的特征图S1拼接后再进入一个C3模块，最终输出。

优选的，输出部分：由原来的80×80、40×40、20×20的三个检测头变成了160×160、80×80、40×40、20×20的四个检测头。

优选的，用于训练基于改进的YOLOv5s网络模型的损失函数采用CIoU Loss，该损失函数由置信度损失、类别损失和位置损失三部分组成，分别衡量模型训练过程中置信度的准确性、类别的准确判断以及检测框回归的精度，如公式(1)-(4)所示：

L＝L_box+L_cls+L_obj (1)

式中，L_box表示置信度损失，L_cls表示类别损失，L_obj表示位置损失，其中L_obj是通过CIoU Loss函数来实现的，CIoU计算公式如下：

式中，p²(b,b^gt)表示真实框与预测框的欧氏距离，c表示真实框与预测框最小外接矩形对角线的长度，v表示真实框与预测框长宽比的距离，a表示权重系数，w表示预测框的宽度，h表示预测框的高度，w^gt表示真实框的宽度，h^gt表示真实框的高度。

基于改进的YOLOv5s网络模型复杂水环境下目标检测***，包括：

采集模块，用于对水下海产品的图像进行采集；

特征提取模块，将训练集图像输入到基于改进的YOLOv5s网络模型进行特征提取；

Hor_Block注意力模块，用于对输入的数据进行特征维度变换、水平层归一化、线性层线性变换、激活函数非线性映射、线性层线性变换、特征维度变换、DropPath层、输出张量；

基于改进的YOLOv5s网络模型，用于对采集模块采集到的数据集，通过特征提取模块进行特征提取，在主干网络中提取特征后在改进后的颈部网络进行特征融合，最后在检测头部输出；

将测试集样本输入到基于改进的YOLOv5s网络模型中加载权重文件进行预测，以此输出测试集的识别检测结果。

与现有技术相比，本发明的有益效果是：

1.本发明基于改进的YOLOv5s网络模型，在加入Hor_Block模块后，改进的YOLOv5s的图像相比于原始的YOLOv5s提高了1.5％，由此可以说明在主干网络加入Hor_Block模块可以使得网络更加关注海产品，能够减少无用特征的影响，该模型可应用于水下复杂环境下海产品的检测识别工作。

2.本发明中在增加小目标检测后，模型的准确率提升了1.1％，实验结果表明，在参数方面，改进后的YOLOv5s相比与原始YOLOv5s增加了4.33M，模型最终的检测精度相比于原始的检测精度提高了1.9％，可有效提高海产品检测的精度，在检测精度上能够满足实验要求。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明中Hor_Block注意力模块结构示意图；

图2是本发明中改进后的YOLOv5网络结构示意图；

图3是本发明中初始模型效果图一；

图4是本发明中改进后的模型效果图一；

图5是本发明中初始模型效果图二；

图6是本发明中改进后的模型效果图二。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

实施例一

如图1-6所示，本实施例提出了基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，包括：

S1中，水下海产品包括有海参、海胆、海星和扇贝等常见产品种类，将数据集划分成训练集和测试集，并转化成深度学习框架所能读取的txt格式。

S3中，将训练集图像输入到基于改进的YOLOv5s网络模型进行特征提取，在主干网络中提取特征后在改进后的颈部网络进行特征融合，最后在检测头部输出。

S4中，基于改进的YOLOv5s网络模型训练完成后，生成训练的权重文件，将测试集样本输入到基于改进的YOLOv5s网络模型训练中加载权重文件进行预测，最终输出识别检测结果。

基于改进的YOLOv5s网络模型训练包括有主干部分、颈部部分和输出部分。

主干部分：在提取特征的主干网络部分的每个C3层后分别集成一个Hor_Block注意力模块，Hor_Block注意力模块结构如图1所示，Hor_Block注意力模块用于对输入的数据进行特征维度变换、水平层归一化、线性层线性变换、激活函数非线性映射、线性层线性变换、特征维度变换、DropPath层、输出张量，在每个C3模块后分别输出一个特征图记为S1、S2、S3、S4。

Hor_Block注意力模块的功能是针对图像特征不明显的水下数据集，加强YOLOv5s主干网络对水下图像的特征提取能力，从而提高对海产品检测的精度，具体包括以下步骤：

S11：对输入张量X进行规范化操作后进入DropPath层，在这一层中主要是将张量进行递归门控卷积操作，再乘以缩放参数，最后进行随机丢弃特征；

S13：通过一个线性层、激活函数层、另一个线性层对张量进行处理。如果可学习参数T不为空，则将张量乘以可学习参数T；

S14：最后，将张量的维度顺序变回(N,C,H,W)，与通过第一层的输出张量进行相加，并使用DropPath层进行随机丢弃特征输出最终的张量。

颈部部分：在主干部分和检测头之间采用FPN(特征金字塔网络)的结构，

在主干部分和检测头之间采用特征金字塔网络的结构，特征金字塔网络(FeaturePyramid Network，简称FPN)是一种用于解决多尺度目标检测的网络结构。它主要用于处理图像中不同尺度的特征信息，以便有效地检测不同大小的目标。

在本模型中通过使用CBS模块、上采样模块、Concat模块和C3模块组成FPN网络结构，其主要作用是对特征的通道数进行调整、对特征的大小进行改变，最终将含有不同尺度特征信息的特征图进行融合。

CBS模块是通过使用多个1×1的卷积核来改变特征的通道数。

上采样模块的作用是将低分辨率的高语义特征与高分辨率的低语义特征结合起来，因此需要对较深层次的特征图进行上采样。

Concat模块和C3模块则是将上采样后的特征图与相应的浅层特征图进行融合，从而提高目标检测的性能。这两种模块的作用是使模型能够有效地处理不同尺度的目标，并具备更强大的特征表示能力。

对FPN网络结构的改进还包括：

输出部分：由原来的80×80、40×40、20×20的三个检测头变成了160×160、80×80、40×40、20×20的四个检测头。

用于训练基于改进的YOLOv5s网络模型的损失函数采用CIoU Loss，该损失函数由置信度损失、类别损失和位置损失三部分组成，分别衡量模型训练过程中置信度的准确性、类别的准确判断以及检测框回归的精度，如公式(1)-(4)所示：

L＝L_box+L_cls+L_obj (1)

式中，L_box表示置信度损失，L_cls表示类别损失，L_obj表示位置损失，其中L_obj是通过CIoULoss函数来实现的，CIoU计算公式如下：

通过综合考虑置信度损失、类别损失和位置损失三个部分，CIoULoss提供了一个全面的训练目标，促使模型在目标检测任务中达到更好的性能。

基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，网络训练过程中使用6575张水下图像，按照7：3的比例随机划分训练集和验证集，划分完成后再次统计标注信息、类别比例和大小分布，保证训练集、验证集的分布具有相似性。

***环境为Windows10，采用GPU进行训练，配置了NIVIDIA推出的CUDA11.1版本与神经网络加速库cuDNN相互配置。训练环境整体配置如表1所示。在训练过程中batch_size为48，优化器使用的是Adam优化器，初始学习率为0.001，权重衰减率为0.0005，epochs是200。输入网络中的图片大小都会被调整成640×640像素的默认尺寸。

表1训练环境配置表

在加入Hor_Block模块后，改进的YOLOv5s的mAP相比于原始的YOLOv5s提高了1.5％，由此可以说明在主干网络加入Hor_Block模块可以使得网络更加关注海产品，能够减少无用特征的影响。

在增加小目标检测后，模型的准确率提升了1.1％，由此说明小目标检测可以使模型在检测过程中对小目标检测的识别准确率更高。

实验结果表明，改进后的YOLOv5s与原始YOLOv5s相比，在参数方面增加了4.33M，在速度方面降低了22.7ms。模型最终的检测精度相比于原始的检测精度提高了1.9％。

因此，模型虽然在检测速度上有所降低，但是在检测精度上能够满足实验要求。初始模型与改进后的模型对比效果图如图3-6所示。

实施例二

本实例中的目的是提供基于改进的YOLOv5s网络模型复杂水环境下目标检测***。包括：

采集模块，用于对水下海产品的图像进行采集；

在加入Hor_Block模块后，改进的YOLOv5s的图像相比于原始的YOLOv5s提高了1.5％由此可以说明在主干网络加入Hor_Block模块可以使得网络更加关注海产品，能够减少无用特征的影响，该模型可应用于水下复杂环境下海产品的检测识别工作。

在增加小目标检测后，模型的准确率提升了1.1％，实验结果表明，在参数方面，改进后的YOLOv5s相比于于原始YOLOv5s增加了4.33M，模型最终的检测精度相比于原始的检测精度提高了1.9％，可有效提高海产品检测的精度，在检测精度上能够满足实验要求。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，其特征在于，包括：

2.根据权利要求1所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，其特征在于，S1中，将数据集划分成训练集和测试集，并转化成深度学习框架所能读取的格式。

3.根据权利要求2所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，其特征在于，S3中，将训练集图像输入到基于改进的YOLOv5s网络模型进行特征提取，在主干网络中提取特征后在改进后的颈部网络进行特征融合，最后在检测头部输出。

4.根据权利要求2所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，其特征在于，S4中，基于改进的YOLOv5s网络模型训练完成后，生成训练的权重文件，将测试集样本输入到基于改进的YOLOv5s网络模型训练中加载权重文件进行预测，最终输出识别检测结果。

5.根据权利要求1所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，其特征在于，基于改进的YOLOv5s网络模型训练包括有主干部分、颈部部分和输出部分。

6.根据权利要求5所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，其特征在于，主干部分：在提取特征的主干网络部分的每个C3层后分别集成一个Hor_Block注意力模块，所述Hor_Block注意力模块用于加强YOLOv5s主干网络对水下图像的特征提取能力，所述Hor_Block注意力模块用于对输入的张量进行特征维度变换、水平层归一化、线性层线性变换、激活函数非线性映射、线性层线性变换、特征维度变换、DropPath层、输出张量，在每个C3模块后分别输出一个特征图记为S1、S2、S3、S4，具体包括以下步骤：

7.根据权利要求6所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，其特征在于，颈部部分：在主干部分和检测头之间采用特征金字塔网络的结构，特征金字塔网络用于处理图像中不同尺度的特征信息，以便有效地检测不同大小的目标；

CBS模块是通过使用多个1×1的卷积核来改变特征的通道数；

对FPN网络结构的改进还包括：

8.根据权利要求7所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，其特征在于，输出部分：由原来的80×80、40×40、20×20的三个检测头变成了160×160、80×80、40×40、20×20的四个检测头。

9.根据权利要求1所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，其特征在于，用于训练基于改进的YOLOv5s网络模型的损失函数采用CIoU Loss，该损失函数由置信度损失、类别损失和位置损失三部分组成，分别衡量模型训练过程中置信度的准确性、类别的准确判断以及检测框回归的精度，如公式(1)-(4)所示：

L＝L_box+L_cls+L_obj (1)

10.基于改进的YOLOv5s网络模型复杂水环境下目标检测***，用于实现如权利要求1-9所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法，其特征在于，包括：

采集模块，用于对水下海产品的图像进行采集；