CN116912674A - 基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及*** - Google Patents

基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及*** Download PDF

Info

Publication number
CN116912674A
CN116912674A CN202310951353.9A CN202310951353A CN116912674A CN 116912674 A CN116912674 A CN 116912674A CN 202310951353 A CN202310951353 A CN 202310951353A CN 116912674 A CN116912674 A CN 116912674A
Authority
CN
China
Prior art keywords
improved
yolov5s
network model
module
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310951353.9A
Other languages
English (en)
Inventor
管志光
侯成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jiaotong University
Original Assignee
Shandong Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jiaotong University filed Critical Shandong Jiaotong University
Priority to CN202310951353.9A priority Critical patent/CN116912674A/zh
Publication of CN116912674A publication Critical patent/CN116912674A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及***,S1:获取水下海产品的图像,对获取的图像进行标注与划分,建立海产品数据集;S2:对YOLOv5s网络模型的主干网络与检测头部分进行改进,建立基于改进的YOLOv5s网络模型;S3:将海产品数据集输入到基于改进的YOLOv5s网络模型中进行训练;S4:训练完成后,将待检测的水下海产品图像输入到训练后的基于改进的YOLOv5s网络模型进行检测,从而获取待检测的水下海产品的检测结果。本发明中的网络模型可以更加关注海产品,能够减少无用特征的影响,该模型可应用于水下复杂环境下海产品的检测识别工作,且识别精度高。

Description

基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及 ***
技术领域
本发明涉及海洋信息技术领域,具体涉及基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及***。
背景技术
目前,多数的目标检测框架都是基于卷积神经网络的理论进行构建,目标检测的对象是针对陆地上清晰环境的物体进行检测。该类网络的思路是将输入图像进行特征提取,对提取的特征在网络中进一步学习,从而生成权重文件实现对新输入图像内的被识别物体进行检测。
但是,将其应用于水下环境时,由于水下环境复杂,受光照等因素的影响,水下图像成像质量较差,将基于卷积神经网络的目标检测框架应用在水下养殖业中,在检测过程中存在检测精度低、回归不精准的情况。
发明内容
为了解决上述现有技术中存在的问题,提供了基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及***。
本发明解决其技术问题所采用的技术方案是:
本发明提出了基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,包括:
S1:获取水下海产品的图像,对获取的图像进行标注与划分,建立海产品数据集;
S2:对YOLOv5s网络模型的主干网络与检测头部分进行改进,建立基于改进的YOLOv5s网络模型;
S3:将海产品数据集输入到基于改进的YOLOv5s网络模型中进行训练;
S4:训练完成后,将待检测的水下海产品图像输入到训练后的基于改进的YOLOv5s网络模型进行检测,从而获取待检测的水下海产品的检测结果。
优选的,S1中,将数据集划分成训练集和测试集,并转化成深度学习框架所能读取的格式。
优选的,S3中,将训练集图像输入到基于改进的YOLOv5s网络模型进行特征提取,在主干网络中提取特征后在改进后的颈部网络进行特征融合,最后在检测头部输出。
优选的,S4中,基于改进的YOLOv5s网络模型训练完成后,生成训练的权重文件,将测试集样本输入到基于改进的YOLOv5s网络模型训练中加载权重文件进行预测,最终输出识别检测结果。
优选的,基于改进的YOLOv5s网络模型训练包括有主干部分、颈部部分和输出部分。
优选的,主干部分:在提取特征的主干网络部分的每个C3层后分别集成一个Hor_Block注意力模块,所述Hor_Block注意力模块用于加强YOLOv5s主干网络对水下图像的特征提取能力,所述Hor_Block注意力模块用于对输入的张量进行特征维度变换、水平层归一化、线性层线性变换、激活函数非线性映射、线性层线性变换、特征维度变换、DropPath层、输出张量,在每个C3模块后分别输出一个特征图记为S1、S2、S3、S4,具体包括以下步骤:
S11:对输入张量X进行规范化操作后进入DropPath层,在这一层中将张量进行递归门控卷积操作,再乘以缩放参数,最后进行随机丢弃特征;
S12:进入特征维度变换层,将张量的维度顺序从(N,C,H,W)变换为(N,H,W,C),并对张量进行规范化操作;
S13:通过一个线性层、激活函数层、另一个线性层对张量进行处理,如果可学习参数T不为空,则将张量乘以可学习参数T;
S14:将张量的维度顺序变回(N,C,H,W),与通过第一层的输出张量进行相加,并使用DropPath层进行随机丢弃特征输出最终的张量。
优选的,颈部部分:在主干部分和检测头之间采用特征金字塔网络的结构,特征金字塔网络用于处理图像中不同尺度的特征信息,以便有效地检测不同大小的目标;
在本模型中通过使用CBS模块、上采样模块、Concat模块和C3模块组成FPN网络结构,用于对特征的通道数进行调整、对特征的大小进行改变,最终将含有不同尺度特征信息的特征图进行融合;
CBS模块是通过使用多个1×1的卷积核来改变特征的通道数;
上采样模块的作用是将低分辨率的高语义特征与高分辨率的低语义特征结合起来,需要对较深层次的特征图进行上采样;
Concat模块和C3模块则是将上采样后的特征图与相应的浅层特征图进行融合,从而提高目标检测的性能;这两种模块的作用是使模型能够有效地处理不同尺度的目标,并具备更强大的特征表示能力;
对FPN网络结构的改进还包括:
S21:在80×80检测的检测头之后加入160×160的小目标检测,通过从第2层的C3模块引出特征图S1;
S22:在网络的21层后加入卷积模块、上采样模块、与第2层引出的特征图S1拼接后再进入一个C3模块,最终输出。
优选的,输出部分:由原来的80×80、40×40、20×20的三个检测头变成了160×160、80×80、40×40、20×20的四个检测头。
优选的,用于训练基于改进的YOLOv5s网络模型的损失函数采用CIoU Loss,该损失函数由置信度损失、类别损失和位置损失三部分组成,分别衡量模型训练过程中置信度的准确性、类别的准确判断以及检测框回归的精度,如公式(1)-(4)所示:
L=Lbox+Lcls+Lobj (1)
式中,Lbox表示置信度损失,Lcls表示类别损失,Lobj表示位置损失,其中Lobj是通过CIoU Loss函数来实现的,CIoU计算公式如下:
式中,p2(b,bgt)表示真实框与预测框的欧氏距离,c表示真实框与预测框最小外接矩形对角线的长度,v表示真实框与预测框长宽比的距离,a表示权重系数,w表示预测框的宽度,h表示预测框的高度,wgt表示真实框的宽度,hgt表示真实框的高度。
基于改进的YOLOv5s网络模型复杂水环境下目标检测***,包括:
采集模块,用于对水下海产品的图像进行采集;
特征提取模块,将训练集图像输入到基于改进的YOLOv5s网络模型进行特征提取;
Hor_Block注意力模块,用于对输入的数据进行特征维度变换、水平层归一化、线性层线性变换、激活函数非线性映射、线性层线性变换、特征维度变换、DropPath层、输出张量;
基于改进的YOLOv5s网络模型,用于对采集模块采集到的数据集,通过特征提取模块进行特征提取,在主干网络中提取特征后在改进后的颈部网络进行特征融合,最后在检测头部输出;
将测试集样本输入到基于改进的YOLOv5s网络模型中加载权重文件进行预测,以此输出测试集的识别检测结果。
与现有技术相比,本发明的有益效果是:
1.本发明基于改进的YOLOv5s网络模型,在加入Hor_Block模块后,改进的YOLOv5s的图像相比于原始的YOLOv5s提高了1.5%,由此可以说明在主干网络加入Hor_Block模块可以使得网络更加关注海产品,能够减少无用特征的影响,该模型可应用于水下复杂环境下海产品的检测识别工作。
2.本发明中在增加小目标检测后,模型的准确率提升了1.1%,实验结果表明,在参数方面,改进后的YOLOv5s相比与原始YOLOv5s增加了4.33M,模型最终的检测精度相比于原始的检测精度提高了1.9%,可有效提高海产品检测的精度,在检测精度上能够满足实验要求。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明中Hor_Block注意力模块结构示意图;
图2是本发明中改进后的YOLOv5网络结构示意图;
图3是本发明中初始模型效果图一;
图4是本发明中改进后的模型效果图一;
图5是本发明中初始模型效果图二;
图6是本发明中改进后的模型效果图二。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
实施例一
如图1-6所示,本实施例提出了基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,包括:
S1:获取水下海产品的图像,对获取的图像进行标注与划分,建立海产品数据集;
S2:对YOLOv5s网络模型的主干网络与检测头部分进行改进,建立基于改进的YOLOv5s网络模型;
S3:将海产品数据集输入到基于改进的YOLOv5s网络模型中进行训练;
S4:训练完成后,将待检测的水下海产品图像输入到训练后的基于改进的YOLOv5s网络模型进行检测,从而获取待检测的水下海产品的检测结果。
S1中,水下海产品包括有海参、海胆、海星和扇贝等常见产品种类,将数据集划分成训练集和测试集,并转化成深度学习框架所能读取的txt格式。
S3中,将训练集图像输入到基于改进的YOLOv5s网络模型进行特征提取,在主干网络中提取特征后在改进后的颈部网络进行特征融合,最后在检测头部输出。
S4中,基于改进的YOLOv5s网络模型训练完成后,生成训练的权重文件,将测试集样本输入到基于改进的YOLOv5s网络模型训练中加载权重文件进行预测,最终输出识别检测结果。
基于改进的YOLOv5s网络模型训练包括有主干部分、颈部部分和输出部分。
主干部分:在提取特征的主干网络部分的每个C3层后分别集成一个Hor_Block注意力模块,Hor_Block注意力模块结构如图1所示,Hor_Block注意力模块用于对输入的数据进行特征维度变换、水平层归一化、线性层线性变换、激活函数非线性映射、线性层线性变换、特征维度变换、DropPath层、输出张量,在每个C3模块后分别输出一个特征图记为S1、S2、S3、S4。
Hor_Block注意力模块的功能是针对图像特征不明显的水下数据集,加强YOLOv5s主干网络对水下图像的特征提取能力,从而提高对海产品检测的精度,具体包括以下步骤:
S11:对输入张量X进行规范化操作后进入DropPath层,在这一层中主要是将张量进行递归门控卷积操作,再乘以缩放参数,最后进行随机丢弃特征;
S12:进入特征维度变换层,将张量的维度顺序从(N,C,H,W)变换为(N,H,W,C),并对张量进行规范化操作;
S13:通过一个线性层、激活函数层、另一个线性层对张量进行处理。如果可学习参数T不为空,则将张量乘以可学习参数T;
S14:最后,将张量的维度顺序变回(N,C,H,W),与通过第一层的输出张量进行相加,并使用DropPath层进行随机丢弃特征输出最终的张量。
颈部部分:在主干部分和检测头之间采用FPN(特征金字塔网络)的结构,
在主干部分和检测头之间采用特征金字塔网络的结构,特征金字塔网络(FeaturePyramid Network,简称FPN)是一种用于解决多尺度目标检测的网络结构。它主要用于处理图像中不同尺度的特征信息,以便有效地检测不同大小的目标。
在本模型中通过使用CBS模块、上采样模块、Concat模块和C3模块组成FPN网络结构,其主要作用是对特征的通道数进行调整、对特征的大小进行改变,最终将含有不同尺度特征信息的特征图进行融合。
CBS模块是通过使用多个1×1的卷积核来改变特征的通道数。
上采样模块的作用是将低分辨率的高语义特征与高分辨率的低语义特征结合起来,因此需要对较深层次的特征图进行上采样。
Concat模块和C3模块则是将上采样后的特征图与相应的浅层特征图进行融合,从而提高目标检测的性能。这两种模块的作用是使模型能够有效地处理不同尺度的目标,并具备更强大的特征表示能力。
对FPN网络结构的改进还包括:
S21:在80×80检测的检测头之后加入160×160的小目标检测,通过从第2层的C3模块引出特征图S1;
S22:在网络的21层后加入卷积模块、上采样模块、与第2层引出的特征图S1拼接后再进入一个C3模块,最终输出。
输出部分:由原来的80×80、40×40、20×20的三个检测头变成了160×160、80×80、40×40、20×20的四个检测头。
用于训练基于改进的YOLOv5s网络模型的损失函数采用CIoU Loss,该损失函数由置信度损失、类别损失和位置损失三部分组成,分别衡量模型训练过程中置信度的准确性、类别的准确判断以及检测框回归的精度,如公式(1)-(4)所示:
L=Lbox+Lcls+Lobj (1)
式中,Lbox表示置信度损失,Lcls表示类别损失,Lobj表示位置损失,其中Lobj是通过CIoULoss函数来实现的,CIoU计算公式如下:
式中,p2(b,bgt)表示真实框与预测框的欧氏距离,c表示真实框与预测框最小外接矩形对角线的长度,v表示真实框与预测框长宽比的距离,a表示权重系数,w表示预测框的宽度,h表示预测框的高度,wgt表示真实框的宽度,hgt表示真实框的高度。
通过综合考虑置信度损失、类别损失和位置损失三个部分,CIoULoss提供了一个全面的训练目标,促使模型在目标检测任务中达到更好的性能。
基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,网络训练过程中使用6575张水下图像,按照7:3的比例随机划分训练集和验证集,划分完成后再次统计标注信息、类别比例和大小分布,保证训练集、验证集的分布具有相似性。
***环境为Windows10,采用GPU进行训练,配置了NIVIDIA推出的CUDA11.1版本与神经网络加速库cuDNN相互配置。训练环境整体配置如表1所示。在训练过程中batch_size为48,优化器使用的是Adam优化器,初始学习率为0.001,权重衰减率为0.0005,epochs是200。输入网络中的图片大小都会被调整成640×640像素的默认尺寸。
表1训练环境配置表
在加入Hor_Block模块后,改进的YOLOv5s的mAP相比于原始的YOLOv5s提高了1.5%,由此可以说明在主干网络加入Hor_Block模块可以使得网络更加关注海产品,能够减少无用特征的影响。
在增加小目标检测后,模型的准确率提升了1.1%,由此说明小目标检测可以使模型在检测过程中对小目标检测的识别准确率更高。
实验结果表明,改进后的YOLOv5s与原始YOLOv5s相比,在参数方面增加了4.33M,在速度方面降低了22.7ms。模型最终的检测精度相比于原始的检测精度提高了1.9%。
因此,模型虽然在检测速度上有所降低,但是在检测精度上能够满足实验要求。初始模型与改进后的模型对比效果图如图3-6所示。
实施例二
本实例中的目的是提供基于改进的YOLOv5s网络模型复杂水环境下目标检测***。包括:
采集模块,用于对水下海产品的图像进行采集;
特征提取模块,将训练集图像输入到基于改进的YOLOv5s网络模型进行特征提取;
Hor_Block注意力模块,用于对输入的数据进行特征维度变换、水平层归一化、线性层线性变换、激活函数非线性映射、线性层线性变换、特征维度变换、DropPath层、输出张量;
基于改进的YOLOv5s网络模型,用于对采集模块采集到的数据集,通过特征提取模块进行特征提取,在主干网络中提取特征后在改进后的颈部网络进行特征融合,最后在检测头部输出;
将测试集样本输入到基于改进的YOLOv5s网络模型中加载权重文件进行预测,以此输出测试集的识别检测结果。
在加入Hor_Block模块后,改进的YOLOv5s的图像相比于原始的YOLOv5s提高了1.5%由此可以说明在主干网络加入Hor_Block模块可以使得网络更加关注海产品,能够减少无用特征的影响,该模型可应用于水下复杂环境下海产品的检测识别工作。
在增加小目标检测后,模型的准确率提升了1.1%,实验结果表明,在参数方面,改进后的YOLOv5s相比于于原始YOLOv5s增加了4.33M,模型最终的检测精度相比于原始的检测精度提高了1.9%,可有效提高海产品检测的精度,在检测精度上能够满足实验要求。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,其特征在于,包括:
S1:获取水下海产品的图像,对获取的图像进行标注与划分,建立海产品数据集;
S2:对YOLOv5s网络模型的主干网络与检测头部分进行改进,建立基于改进的YOLOv5s网络模型;
S3:将海产品数据集输入到基于改进的YOLOv5s网络模型中进行训练;
S4:训练完成后,将待检测的水下海产品图像输入到训练后的基于改进的YOLOv5s网络模型进行检测,从而获取待检测的水下海产品的检测结果。
2.根据权利要求1所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,其特征在于,S1中,将数据集划分成训练集和测试集,并转化成深度学习框架所能读取的格式。
3.根据权利要求2所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,其特征在于,S3中,将训练集图像输入到基于改进的YOLOv5s网络模型进行特征提取,在主干网络中提取特征后在改进后的颈部网络进行特征融合,最后在检测头部输出。
4.根据权利要求2所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,其特征在于,S4中,基于改进的YOLOv5s网络模型训练完成后,生成训练的权重文件,将测试集样本输入到基于改进的YOLOv5s网络模型训练中加载权重文件进行预测,最终输出识别检测结果。
5.根据权利要求1所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,其特征在于,基于改进的YOLOv5s网络模型训练包括有主干部分、颈部部分和输出部分。
6.根据权利要求5所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,其特征在于,主干部分:在提取特征的主干网络部分的每个C3层后分别集成一个Hor_Block注意力模块,所述Hor_Block注意力模块用于加强YOLOv5s主干网络对水下图像的特征提取能力,所述Hor_Block注意力模块用于对输入的张量进行特征维度变换、水平层归一化、线性层线性变换、激活函数非线性映射、线性层线性变换、特征维度变换、DropPath层、输出张量,在每个C3模块后分别输出一个特征图记为S1、S2、S3、S4,具体包括以下步骤:
S11:对输入张量X进行规范化操作后进入DropPath层,在这一层中将张量进行递归门控卷积操作,再乘以缩放参数,最后进行随机丢弃特征;
S12:进入特征维度变换层,将张量的维度顺序从(N,C,H,W)变换为(N,H,W,C),并对张量进行规范化操作;
S13:通过一个线性层、激活函数层、另一个线性层对张量进行处理,如果可学习参数T不为空,则将张量乘以可学习参数T;
S14:将张量的维度顺序变回(N,C,H,W),与通过第一层的输出张量进行相加,并使用DropPath层进行随机丢弃特征输出最终的张量。
7.根据权利要求6所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,其特征在于,颈部部分:在主干部分和检测头之间采用特征金字塔网络的结构,特征金字塔网络用于处理图像中不同尺度的特征信息,以便有效地检测不同大小的目标;
在本模型中通过使用CBS模块、上采样模块、Concat模块和C3模块组成FPN网络结构,用于对特征的通道数进行调整、对特征的大小进行改变,最终将含有不同尺度特征信息的特征图进行融合;
CBS模块是通过使用多个1×1的卷积核来改变特征的通道数;
上采样模块的作用是将低分辨率的高语义特征与高分辨率的低语义特征结合起来,需要对较深层次的特征图进行上采样;
Concat模块和C3模块则是将上采样后的特征图与相应的浅层特征图进行融合,从而提高目标检测的性能;这两种模块的作用是使模型能够有效地处理不同尺度的目标,并具备更强大的特征表示能力;
对FPN网络结构的改进还包括:
S21:在80×80检测的检测头之后加入160×160的小目标检测,通过从第2层的C3模块引出特征图S1;
S22:在网络的21层后加入卷积模块、上采样模块、与第2层引出的特征图S1拼接后再进入一个C3模块,最终输出。
8.根据权利要求7所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,其特征在于,输出部分:由原来的80×80、40×40、20×20的三个检测头变成了160×160、80×80、40×40、20×20的四个检测头。
9.根据权利要求1所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,其特征在于,用于训练基于改进的YOLOv5s网络模型的损失函数采用CIoU Loss,该损失函数由置信度损失、类别损失和位置损失三部分组成,分别衡量模型训练过程中置信度的准确性、类别的准确判断以及检测框回归的精度,如公式(1)-(4)所示:
L=Lbox+Lcls+Lobj (1)
式中,Lbox表示置信度损失,Lcls表示类别损失,Lobj表示位置损失,其中Lobj是通过CIoULoss函数来实现的,CIoU计算公式如下:
式中,p2(b,bgt)表示真实框与预测框的欧氏距离,c表示真实框与预测框最小外接矩形对角线的长度,v表示真实框与预测框长宽比的距离,a表示权重系数,w表示预测框的宽度,h表示预测框的高度,wgt表示真实框的宽度,hgt表示真实框的高度。
10.基于改进的YOLOv5s网络模型复杂水环境下目标检测***,用于实现如权利要求1-9所述的基于改进的YOLOv5s网络模型复杂水环境下目标检测方法,其特征在于,包括:
采集模块,用于对水下海产品的图像进行采集;
特征提取模块,将训练集图像输入到基于改进的YOLOv5s网络模型进行特征提取;
Hor_Block注意力模块,用于对输入的数据进行特征维度变换、水平层归一化、线性层线性变换、激活函数非线性映射、线性层线性变换、特征维度变换、DropPath层、输出张量;
基于改进的YOLOv5s网络模型,用于对采集模块采集到的数据集,通过特征提取模块进行特征提取,在主干网络中提取特征后在改进后的颈部网络进行特征融合,最后在检测头部输出;
将测试集样本输入到基于改进的YOLOv5s网络模型中加载权重文件进行预测,以此输出测试集的识别检测结果。
CN202310951353.9A 2023-07-31 2023-07-31 基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及*** Pending CN116912674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310951353.9A CN116912674A (zh) 2023-07-31 2023-07-31 基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310951353.9A CN116912674A (zh) 2023-07-31 2023-07-31 基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及***

Publications (1)

Publication Number Publication Date
CN116912674A true CN116912674A (zh) 2023-10-20

Family

ID=88353024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310951353.9A Pending CN116912674A (zh) 2023-07-31 2023-07-31 基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及***

Country Status (1)

Country Link
CN (1) CN116912674A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117854116A (zh) * 2024-03-08 2024-04-09 中国海洋大学 一种基于贝塞尔曲线的海参原位长度测量方法
CN117876848A (zh) * 2024-03-13 2024-04-12 成都理工大学 基于改进yolov5的复杂环境落石检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117854116A (zh) * 2024-03-08 2024-04-09 中国海洋大学 一种基于贝塞尔曲线的海参原位长度测量方法
CN117854116B (zh) * 2024-03-08 2024-05-17 中国海洋大学 一种基于贝塞尔曲线的海参原位长度测量方法
CN117876848A (zh) * 2024-03-13 2024-04-12 成都理工大学 基于改进yolov5的复杂环境落石检测方法
CN117876848B (zh) * 2024-03-13 2024-05-07 成都理工大学 基于改进yolov5的复杂环境落石检测方法

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN108427920B (zh) 一种基于深度学习的边海防目标检测方法
CN111738344B (zh) 一种基于多尺度融合的快速目标检测方法
CN116912674A (zh) 基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及***
CN110766708B (zh) 基于轮廓相似度的图像比较方法
CN114972976B (zh) 基于频域自注意力机制的夜间目标检测、训练方法及装置
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN113591592B (zh) 水上目标识别方法、装置、终端设备及存储介质
CN114973222B (zh) 基于显式监督注意力机制的场景文本识别方法
CN111179270A (zh) 基于注意力机制的图像共分割方法和装置
CN113191222A (zh) 水下鱼类目标检测方法及装置
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法
CN113077438B (zh) 针对多细胞核彩色图像的细胞核区域提取方法及成像方法
CN112465821A (zh) 一种基于边界关键点感知的多尺度害虫图像检测方法
CN112270404A (zh) 一种基于ResNet64网络的紧固件产品鼓包缺陷的检测结构及其方法
CN112507770A (zh) 一种水稻病虫害识别方法和***
CN116543295A (zh) 一种基于退化图像增强的轻量化水下目标检测方法及***
CN115578364A (zh) 基于混合注意力与调和因子的微弱目标检测方法及***
Raj et al. A novel Ship detection method from SAR image with reduced false alarm
CN113435389B (zh) 基于图像特征深度学习的小球藻和金藻分类识别方法
Mao et al. Power transmission line image segmentation method based on binocular vision and feature pyramid network
CN112417961B (zh) 一种基于场景先验知识的海面目标检测方法
CN114964628A (zh) 一种氨气泄漏混洗自注意力轻量化红外检测方法及***
CN114463764A (zh) 表格线检测方法、装置、计算机设备和存储介质
CN113076819A (zh) 同色系背景下的果实识别方法、装置及果实采摘机器人

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination