CN116912675B - 一种基于特征迁移的水下目标检测方法及*** - Google Patents

一种基于特征迁移的水下目标检测方法及*** Download PDF

Info

Publication number
CN116912675B
CN116912675B CN202311175150.1A CN202311175150A CN116912675B CN 116912675 B CN116912675 B CN 116912675B CN 202311175150 A CN202311175150 A CN 202311175150A CN 116912675 B CN116912675 B CN 116912675B
Authority
CN
China
Prior art keywords
underwater
model
dca
yolov5
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311175150.1A
Other languages
English (en)
Other versions
CN116912675A (zh
Inventor
姜宇
宋建军
于慧勇
齐红
王跃航
赵明浩
阮寒涛
郭千仞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202311175150.1A priority Critical patent/CN116912675B/zh
Publication of CN116912675A publication Critical patent/CN116912675A/zh
Application granted granted Critical
Publication of CN116912675B publication Critical patent/CN116912675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于特征迁移的水下目标检测方法及***,涉及水下机器视觉目标检测技术领域。解决现有水下目标检测方法存在的水下图像质量差、识别误差大和泛化能力差的问题。方法为:构建基准数据集进而训练迁移对抗学习网络模型,采用训练后的迁移对抗学习网络模型将水下高清图像的特征迁移到水下模糊目标图像上;将两层坐标注意力增强模块添加到YOLOv5的骨干网络中,并添加一组锚框和SIOU位置损失函数,获得DCA‑YOLOv5目标检测模型;采用DCA‑YOLOv5目标检测模型对特征增强后的水下高清目标图像进行目标检测,获得目标的位置和类别信息。本发明适用于水下模糊场景增强以及高精度的水下目标检测。

Description

一种基于特征迁移的水下目标检测方法及***
技术领域
本发明涉及水下机器视觉目标检测技术领域。
背景技术
随着科技的不断进步和发展,人类发现海洋中存在大量的资源,开始逐步向海洋探索,并开展了大量的科学研究,以探究海洋环境和生物的奥秘。
水下目标检测是指在水下环境中自动检测、定位和识别目标物体的过程。水下目标检测的应用包括水下监控、海洋科学研究、海底资源勘探、水下机器人操作等领域。
目前,水下目标检测面临着以下挑战:
水下图像质量差:由于水下传输介质的吸收、散射和反射等因素,水下图像受到光线衰减、噪声干扰、模糊失真等问题的影响,使得水下图像的质量较差,不易进行目标检测。
数据缺乏:由于获取水下图像的成本昂贵、难度大,当前可用的水下数据集较少,这给水下目标检测算法的研究带来了困难。
为解决这些挑战,近年来涌现了许多基于深度学习的水下目标检测算法,如Faster R-CNN算法、YOLO算法和SSD算法等。这些算法通过使用深度卷积神经网络来提取图像特征,并采用多种技术进行目标检测和定位,如区域建议、锚框和空洞卷积等。此外,一些研究人员还尝试改进数据增强方法、特征融合技术等方面,以提高水下目标检测的性能和鲁棒性。
但是目前基于深度学习的水下目标检测器仍存在以下缺点:
检测性能不稳定:由于水下环境的复杂性,水下目标检测器的性能在不同场景和条件下表现不稳定。例如,在不同的水质、光照和目标尺寸等情况下,检测器的准确率和召回率可能会有很大差异。
泛化能力不足:由于水下环境的多样性,训练好的水下目标检测器可能无法适应新的、未知的水下环境或目标类型,这使得水下目标检测器的泛化能力有限,需要针对具体的任务进行调整和优化。
识别误差较大:由于水下图像的噪声和失真等问题,水下目标检测器经常出现识别误差较大的情况,尤其是对于形状复杂、外观多样的目标,如海草、珊瑚礁等。
因此,如何在复杂的水下环境中提高目标检测的准确性、减小识别误差以及提升泛化能力是当前研究的热点和难点。
发明内容
本发明解决现有水下目标检测方法存在的水下图像质量差、识别误差大和泛化能力差的问题。
为实现上述目的,本发明提供了如下方案:
本发明提供一种基于特征迁移的水下目标检测方法,所述方法为:
S1、采用水下模糊目标图像和水下高清图像构建基准数据集;
S2、采用所述基准数据集训练迁移对抗学习网络模型,获得训练后的迁移对抗学习网络模型;
S3、采用所述训练后的迁移对抗学习网络模型将所述水下高清图像的特征迁移到所述水下模糊目标图像上,获得特征增强后的水下高清目标图像;
S4、将两层双流坐标注意力模块DCA添加到YOLOv5的骨干网络中,获得DCA-YOLOv5模型;
S5、将一组锚框添加到所述DCA-YOLOv5模型中,获得具有小目标检查头的DCA-YOLOv5模型;
S6、将SIOU位置损失函数添加到所述具有小目标检查头的DCA-YOLOv5模型中,获得DCA-YOLOv5目标检测模型;
S7、采用所述DCA-YOLOv5目标检测模型对所述特征增强后的水下高清目标图像进行目标检测,获得目标的位置和类别信息。
进一步,还有一种优选实施例,上述步骤S1具体为:
S11、采集水下模糊目标图像和标签数据集;
S12、采集水下高清图像数据集;
S13、将所述水下模糊目标图像和水下高清图像数据集按比例1:1添加到训练集和测试集/>中;
S14、根据所述标签数据集、训练集和测试集/>,获得基准数据集。
进一步,还有一种优选实施例,上述步骤S3具体为:
S31、采用所述训练后的迁移对抗学习网络模型训练出一个生成器和一个生成器
S32、采用所述生成器对所述训练集中的水下模糊目标图像进行处理,生成水下高清目标图像;
S33、采用所述生成器对所述测试集中的水下高清目标图像进行处理,生成水下模糊目标图像;
S34、采用所述训练后的迁移对抗学习网络模型训练出一个判别器和一个判别器/>
S35、采用所述判别器对生成的水下高清目标图像与采集的水下高清图像进行对比,获得判别器/>判别结果,采用所述判别器/>对生成的水下模糊目标图像和采集的水下模糊目标图像进行对比,获得判别器/>判别结果;
S36、采用所述判别器判别结果不断优化所述生成器/>,采用所述判别器/>判别结果不断优化所述生成器/>,直至获得最优生成器/>和最优生成器/>
S37、采用循环一致性损失和损失函数平衡所述最优生成器和最优生成器/>生成的图像,直至获得特征增强后的水下高清目标图像。
进一步,还有一种优选实施例,上述步骤S4具体为:
S41、将两层双流坐标注意力模块DCA中的任意一层注意力增强模块添加到YOLOv5的骨干网络初始的两层卷积之后,获得具有一层注意力机制的YOLOv5模型;
S42、将两层双流坐标注意力模块DCA中的另一层注意力增强模块添加到所述具有一层注意力机制的YOLOv5模型骨干网络的空间金字塔池化模块之前,获得DCA-YOLOv5模型。
进一步,还有一种优选实施例,上述步骤S5中的锚框大小为:
进一步,还有一种优选实施例,上述步骤S6中的SIOU位置损失函数包括角度损失、距离损失、形状损失和交并比损失;
所述角度损失表示为:
所述距离损失表示为:
所述形状损失表示为:
所述交并比损失表示为:
所述SIOU位置损失函数表示为:
其中,为真实框和预测框中心点的高度差,/>为真实框和预测框中心点的距离,/>为权重系数,/>为x方向上的距离损失权重,/>为y方向上的距离损失权重,w为预测框的宽,h为预测框的高,/>为真实框的宽,/>为真实框的高,/>为控制对形状损失的关注程度,IOU为预测框与真实框面积的交并比。
进一步,还有一种优选实施例,上述步骤S7具体为:
S71、将所述特征增强后的水下高清目标图像进行预处理,并将预处理后的图像按照比例7:3划分为训练集和测试集;
S72、采用所述训练集对所述DCA-YOLOv5目标检测模型进行训练,获得训练模型;
S73、采用验证集对所述训练模型进行验证,获得最优模型;
S74、采用所述最优模型对所述特征增强后的水下高清目标图像进行目标检测,获得目标的位置和类别信息。
本发明所述的一种基于特征迁移的水下目标检测方法可以全部采用计算机软件实现,因此,对应的,本发明还提供一种基于特征迁移的水下目标检测***,所述***为:
用于采用水下模糊目标图像和水下高清图像构建基准数据集的存储装置;
用于采用所述基准数据集训练迁移对抗学习网络模型,获得训练后的迁移对抗学习网络模型的存储装置;
用于采用所述训练后的迁移对抗学习网络模型将所述水下高清图像的特征迁移到所述水下模糊目标图像上,获得特征增强后的水下高清目标图像的存储装置;
用于将两层双流坐标注意力模块DCA添加到YOLOv5的骨干网络中,获得DCA-YOLOv5模型的存储装置;
用于将一组锚框添加到所述DCA-YOLOv5模型中,获得具有小目标检查头的DCA-YOLOv5模型的存储装置;
用于将SIOU位置损失函数添加到所述具有小目标检查头的DCA-YOLOv5模型中,获得DCA-YOLOv5目标检测模型的存储装置;
用于采用所述DCA-YOLOv5目标检测模型对所述特征增强后的水下高清目标图像进行目标检测,获得目标的位置和类别信息的存储装置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任意一项所述的一种基于特征迁移的水下目标检测方法。
本发明还提供一种计算机设备,该设备包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行上述任意一项所述的一种基于特征迁移的水下目标检测方法。
本发明的有益效果为:
本发明提供一种基于特征迁移的水下目标检测方法,采用迁移对抗学习网络模型将水下高清图像的特征迁移到水下模糊目标图像上,解决因水下光照不均匀、水质模糊等一系列因素导致的图像模糊、光线弱等问题,提供了良好的视觉表达。
本发明提供一种基于特征迁移的水下目标检测方法,采用将两层双流坐标注意力模块DCA添加到YOLOv5的骨干网络中,获得DCA-YOLOv5模型,使得DCA-YOLOv5模型增强了对浅层目标信息与抽象目标信息的提取能力,从而能够更好的关注水下目标信息,提高模型检测的准确率。同时在DCA-YOLOv5模型中加入锚框,使得DCA-YOLOv5模型具有更宽的检测范围,在DCA-YOLOv5模型中加入SIOU位置损失函数,使得DCA-YOLOv5模型可以有效加快模型的收敛以及提高检测的精度。
本发明适用于水下模糊场景增强以及高精度的水下目标检测。
附图说明
图1是实施方式一所述的一种基于特征迁移的水下目标检测方法的流程图;
图2是实施方式一所述的DCA-YOLOv5模型结构图;
图3是图2的卷积结构示意图;
图4是实施方式一所述的坐标注意力模块图。
其中,Residual表示为残差模块,X Avg Pool表示为沿水平方向进行全局平均池化,Y Avg Pool表示为沿竖直方向进行全局平均池化,Concat表示为沿通道拼接,Conv2d表示为卷积,BatchNorm表示为批量标准化,Non-linear表示为非线性操作,Sigmoid表示为Sigmoid激活函数,Re-weight表示为加权融合,Split***操作。
具体实施方式
下面结合附图和实施例对本发明的具体实施方式作进一步详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进,这些都属于本发明的保护范围。
实施方式一. 参见图1至图4说明本实施方式,本实施方式提供一种基于特征迁移的水下目标检测方法,所述方法为:
S1、采用水下模糊目标图像和水下高清图像构建基准数据集;
S2、采用所述基准数据集训练迁移对抗学习网络模型,获得训练后的迁移对抗学习网络模型;
S3、采用所述训练后的迁移对抗学习网络模型将所述水下高清图像的特征迁移到所述水下模糊目标图像上,获得特征增强后的水下高清目标图像;
S4、将两层双流坐标注意力模块DCA添加到YOLOv5的骨干网络中,获得DCA-YOLOv5模型;
S5、将一组锚框添加到所述DCA-YOLOv5模型中,获得具有小目标检查头的DCA-YOLOv5模型;
S6、将SIOU位置损失函数添加到所述具有小目标检查头的DCA-YOLOv5模型中,获得DCA-YOLOv5目标检测模型;
S7、采用所述DCA-YOLOv5目标检测模型对所述特征增强后的水下高清目标图像进行目标检测,获得目标的位置和类别信息。
本实施方式在实际应用时,如图1所示,准备水下潜水员图像数据集和水下高清图像数据集,水下潜水员图像数据集,即水下模糊目标图像。其中,水下高清图像的采集可以使用水下相机,水下相机是一种专门用于水下拍摄的相机,可以通过不同的光学镜头和滤镜来适应不同的水下环境。高清水下相机通常具有更高的像素和更先进的图像传感器,可以提供更加清晰和细节丰富的水下图像。采用水下模糊目标图像和水下高清图像构建基准数据集;采用所述基准数据集训练迁移对抗学习网络模型,获得训练后的迁移对抗学习网络模型。采用所述训练后的迁移对抗学习网络模型将所述水下高清图像的特征迁移到所述水下模糊目标图像上,从而获得1000张特征增强后的水下高清目标图像。在YOLOv5的骨干网络中,加入两层双流坐标注意力模块,其中DCA表示为双流坐标注意力模块,代表分别在低层语义信息特征提取部分与高层语义信息特征提取部分使用了两个坐标注意力模块,如图4所示,得到了DCA-YOLOv5模型。然后在DCA-YOLOv5模型中加入锚框,获得具有小目标检查头的DCA-YOLOv5模型,小目标检查头的DCA-YOLOv5模型具有更高的检测准确率。在具有小目标检查头的DCA-YOLOv5模型中加入SIOU位置损失函数,获得DCA-YOLOv5目标检测模型,如图2和图3所示;将特征增强后的水下高清目标图像输入到DCA-YOLOv5目标检测模型中,获得目标的位置和类别信息。最后将输出结果进行后处理,包括去重、筛选、非极大值抑制等操作,以得到最终的水下潜水员检测结果。
本实施方式提供一种基于特征迁移的水下目标检测方法,采用迁移对抗学习网络模型将水下高清图像的特征迁移到水下模糊目标图像上,解决因水下光照不均匀、水质模糊等一系列因素导致的图像模糊、光线弱等问题,提供了良好的视觉表达。
本实施方式提供一种基于特征迁移的水下目标检测方法,采用将两层坐标注意力增强模块添加到YOLOv5的骨干网络中,获得DCA-YOLOv5模型,使得DCA-YOLOv5模型增强了对浅层目标信息与抽象目标信息的提取能力,从而能够更好的关注水下目标信息,提高模型检测的准确率。同时在DCA-YOLOv5模型中加入锚框,使得DCA-YOLOv5模型具有更宽的检测范围,在DCA-YOLOv5模型中加入SIOU位置损失函数,使得DCA-YOLOv5模型可以有效加快模型的收敛以及提高检测的精度。
实施方式二. 本实施方式是对实施方式一所述的一种基于特征迁移的水下目标检测方法中的步骤S1作举例说明,所述步骤S1具体为:
S11、采集水下模糊目标图像和标签数据集;
S12、采集水下高清图像数据集;
S13、将所述水下模糊目标图像和水下高清图像数据集按比例1:1添加到训练集和测试集/>中;
S14、根据所述标签数据集、训练集和测试集/>,获得基准数据集。
本实施方式在实际应用时,准备1000张水下模糊目标图像和标签数据集;准备1000张水下高清图像;将所述1000张水下模糊目标图像和1000张水下高清图像这两个不同域的图像,分别添加到对应的训练集X和测试集Y里面,其中训练集X与测试集Y比例为1:1,对水下模糊目标图像和水下高清图像进行整尺寸、裁剪、标准化等操作,以便它们适应网络模型的输入要求。使用迁移对抗学***衡所述最优生成器G和最优生成器F生成的图像,直至使用最优生成器G获得特征增强后的水下高清目标图像。
实施方式三. 本实施方式是对实施方式二所述的一种基于特征迁移的水下目标检测方法中的步骤S3作举例说明,所述步骤S3具体为:
S31、采用所述训练后的迁移对抗学习网络模型训练出一个生成器和一个生成器
S32、采用所述生成器对所述训练集中的水下模糊目标图像进行处理,生成水下高清目标图像;
S33、采用所述生成器对所述测试集中的水下高清目标图像进行处理,生成水下模糊目标图像;
S34、采用所述训练后的迁移对抗学习网络模型训练出一个判别器和一个判别器/>
S35、采用所述判别器对生成的水下高清目标图像与采集的水下高清图像进行对比,获得判别器/>判别结果,采用所述判别器/>对生成的水下模糊目标图像和采集的水下模糊目标图像进行对比,获得判别器/>判别结果;
S36、采用所述判别器判别结果不断优化所述生成器/>,采用所述判别器/>判别结果不断优化所述生成器/>,直至获得最优生成器/>和最优生成器/>
S37、采用循环一致性损失和损失函数平衡所述最优生成器和最优生成器/>生成的图像,直至获得特征增强后的水下高清目标图像。
本实施方式在实际应用时,将实施方式二步骤S13划分出的训练集和测试集/>进行特征迁移,通过训练后的迁移对抗学习网络模型训练出一个生成器/>和一个生成器/>,对于生成器/>,输入一个水下模糊目标图像,输出一个水下高清目标图像,即,/>;对于生成器/>,输入一个水下高清目标图像,输出一个水下模糊目标图像,即,/>
训练后的迁移对抗学习网络模型训练出一个判别器和一个判别器/>,采用所述判别器/>对生成的水下高清目标图像与采集的水下高清图像进行对比,获得判别器/>判别结果,采用所述判别器/>对生成的水下模糊目标图像和采集的水下模糊目标图像进行对比,获得判别器/>判别结果。通过生成器/>和判别器/>的互相博弈来使双方进化,通过生成器/>和判别器/>的互相博弈来使双方进化,直至获得最优生成器/>和最优生成器/>,其关系如下所示:
其中,z为生成器产生的噪声数据,服从的先验分布;/>代表真实数据,/>服从真实样本真实分布/>。当/>越大,判别器越能准确识别出真实样本;当/>越小,则越大,判别器也能增强判别能力,若固定判别器,增强生成器生成能力,判别器会将假数据判别为真,即/>增大,所以有/>
通过对偶学习方法建立不同域之间的联系,同时建立了循环一致性损失:
式中:、/>代表真实数据,/>、/>分别服从真实样本真实分布/>、/>。/>为生成的重构图像,下标1为/>范数,加入/>范数为了防止过拟合出现,/>重构了源域的图像,从而减少了与源域图像的差距,解决了特征迁移过程中内容发生变化的问题。
因此,特征迁移对抗学习的损失函数为对抗性损失和循环一致性损失之和:
式中:为/>与/>的对抗生成损失,/>为/>与/>的对抗生成损失,为循环一致性损失,/>为权重值,用于调节该损失的重要程度。
训练后的特征迁移对抗学习具有了将水下高清图像的高清特征迁移到水下模糊目标图像中的能力,从而得到水下高清目标图像。
实施方式四. 本实施方式是对实施方式一所述的一种基于特征迁移的水下目标检测方法中的步骤S4作举例说明,所述步骤S4具体为:
S41、将两层双流坐标注意力模块DCA中的任意一层注意力增强模块添加到YOLOv5的骨干网络初始的两层卷积之后,获得具有一层注意力机制的YOLOv5模型;
S42、将两层双流坐标注意力模块DCA中的另一层注意力增强模块添加到所述具有一层注意力机制的YOLOv5模型骨干网络的空间金字塔池化模块之前,获得DCA-YOLOv5模型。
本实施方式在实际应用时,对YOLOv5网络进行改进,将两层坐标注意力增强模块中的任意一层注意力增强模块添加到YOLOv5的骨干网络初始的两层卷积之后,获得具有一层注意力机制的YOLOv5模型,用于增强模型对浅层目标特征信息与位置信息的提取能力。将两层坐标注意力增强模块中的另一层注意力增强模块添加到所述具有一层注意力机制的YOLOv5模型骨干网络的空间金字塔池化模块之前,获得DCA-YOLOv5模型,用于增强模型对抽象目标特征信息与位置信息的提取能力。两层坐标注意力提取的特征会在颈部网络进行特征融合,从而使DCA-YOLOv5网络模型捕获全局特征信息。其中,坐标注意力将通道注意力分别沿两个空间方向分解为两个一维特征编码,并沿空间方向聚合特征。通过这种方式,可以沿一个空间方向捕获远程依赖关系,同时可以沿另一个空间方向保留精确的位置信息。然后将得到的特征图单独编码成一对方向感知和位置敏感的注意力图,这些图可以互补地应用于输入特征图以增强感兴趣对象的表示。它不仅能捕获跨通道的信息,还能捕获方向感知和位置感知的信息,能够更好的提取的特征信息与位置信息,从而帮助模型更加精准地定位和识别水下目标。为了促使注意力模块能够以精确的位置信息捕获远程依赖性,将全局池化分解为一对一维特征编码进行操作:
上式中表示了第c通道的输出,/>分别为池化核的高和宽,/>表示第c通道的输入。
给定输入,使用尺寸为(/>,1)或(1,/>)的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码。因此,高度为/>的第c通道的输出可以表示为:
同时,宽度为的第c通道的输出可以写成:
这种编码方式分别沿着垂直和水平方向进行聚合,形成一对方向感知特征图,每张特征图都包含着输入特征在一个空间方向的远程特征依赖关系以及在另外一个空间方向精确的位置信息。坐标信息的嵌入大大加深了网络对于感兴趣目标区域的关注程度。
坐标注意力机制将坐标信息嵌入在两个方向上生成的特征图进行拼接,使用共享的1×1卷积变换函数对其进行变换:
);
式中:为非线性激活函数。
生成的特征图是在水平方向和垂直方向对空间信息编码所形成的特征图。对特征图进行非线性处理与批量归一化,沿空间维度将/>分割为/>与/>。/>为缩减率,其作用是降低模型的复杂程度,防止过拟合。
使用卷积变换将和/>变换为与输入/>具有相同通道数量的特征图/>和/>,最后使用Sigmoid激活函数进行非线性化处理,得到注意力权重/>和/>
经过上述两个步骤,输出的坐标注意力为:
坐标注意力考虑了对空间信息的编码,包含了来自水平方向的注意力和来自垂直方向的注意力。沿水平和垂直方向的注意力同时应用于输入张量,两个注意力映射中的每个元素都反映了感兴趣的对象是否存在于相应行和列中。使用坐标注意力加强了网络对目标的关注程度,从而提升目标检测的准确率。
本实施方式提供一种基于特征迁移的水下目标检测方法,采用将两层坐标注意力增强模块添加到YOLOv5的骨干网络中,获得DCA-YOLOv5模型,使得CA-YOLOv5模型增强了对浅层目标信息与抽象目标信息的提取能力,从而能够更好的关注水下目标信息,提高模型检测的准确率。
实施方式五. 本实施方式是对实施方式一所述的一种基于特征迁移的水下目标检测方法中步骤S5的锚框大小作举例说明,所述锚框大小为:、/>
本实施方式在实际应用时,在DCA-YOLOv5模型的锚框基础上,加入大小为的锚框,从而得到具有小目标检查头的DCA-YOLOv5模型,在DCA-YOLOv5模型的neck部分的第19层后,继续对特征图进行卷积、上采样等处理,使得特征图继续扩大,同时在第22层时,将获取到的大小为的特征图与骨干网络中的第3层特征图进行拼接,以此获取更大的检测头对水下小目标进行检测。DCA-YOLOv5模型最后得到4个有效预测特征头。当输入为640*640的水下图像时,4个尺度上的特征头大小分别为:160x160、80x80、40x40、20x20,各自分别用来检测小目标、中小目标、中目标、大目标。
实施方式六. 实施方式是对实施方式一所述的一种基于特征迁移的水下目标检测方法中步骤S6的SIOU位置损失函数作举例说明,所述SIOU位置损失函数包括角度损失、距离损失、形状损失和交并比损失;
其中,所述角度损失表示为:
所述距离损失表示为:
所述形状损失表示为:
所述交并比损失表示为:
所述SIOU位置损失函数表示为:
其中,为真实框和预测框中心点的高度差,/>为真实框和预测框中心点的距离,/>为权重系数,/>为x方向上的距离损失权重,/>为y方向上的距离损失权重,w为预测框的宽,
h为预测框的高,为真实框的宽,/>为真实框的高,/>为控制对形状损失的关注程度,IOU为预测框与真实框面积的交并比。
本实施方式在实际应用时,DCA-YOLOv5模型的损失函数主要分类损失、置信度损失和坐标损失,其中,坐标损失函数表示为CIOU Loss,CIOU Loss通过考虑预测框和真实框之间的中心点距离、长宽比例差异和重叠度等因素来评价模型的性能,其公式为:
其中,为真实框,/>为预测框的中心点,/>为真实框的中心点,/>为预测框和真实框面积的交并比,/>为预测框与真实框中心点的欧式距离,/>为预测框和真实框的最小外接矩阵的对角线长度,/>为权重函数,v为用来衡量两个框之间长宽比的一致性,/>为真实框的宽高比,/>为预测框的宽高比。
但是坐标损失函数CIOU Loss仅考虑了中心点距离和长宽比差异等因素,而没有考虑到目标位置误差对检测精度的影响,导致模型精度不高以及收敛过慢。本实施方式采用SIOU Loss替换CIOU Loss作为坐标损失函数,其中SIOU Loss由角度损失Angle cost、距离损失Distance cost、形状损失Shape cost、交并比损失IOU cost四部分组成。
对于角度损失,公式如下:
其中为真实框和预测框中心点的高度差,/>为真实框和预测框中心点的距离。
对于距离损失,公式如下:
其中为权重系数,/>与/>分别表示x方向与y方向上的距离损失权重。
对于形状损失,公式如下:
其中w和h为预测框的宽和高,和/>分别为真实框的宽和高。/>为控制对形状损失的关注程度。
对于IOU损失,公式如下:
其中IOU为预测框与真实框面积的交并比。
最终SIOU Loss公式为:
使用SIOU Loss作为坐标损失函数可以有效加快模型的收敛以及提高检测的精度。
实施方式七. 本实施方式是对实施方式一所述的一种基于特征迁移的水下目标检测方法中步骤S7作举例说明,所述步骤S7具体为:
S71、将所述特征增强后的水下高清目标图像进行预处理,并将预处理后的图像按照比例7:3划分为训练集和测试集;
S72、采用所述训练集对所述DCA-YOLOv5目标检测模型进行训练,获得训练模型;
S73、采用验证集对所述训练模型进行验证,获得最优模型;
S74、采用所述最优模型对所述特征增强后的水下高清目标图像进行目标检测,获得目标的位置和类别信息。
本实施方式在实际应用时,将特征增强后的水下高清目标图像数据集按照7:3划分训练集与测试集,同时对图像进行预处理,包括图像的缩放、旋转、归一化、通道顺序的变换等操作,提高模型检测的精度与泛化能力。使用训练集对DCA-YOLOv5模型进行训练,获得训练模型,采用验证集对所述训练模型进行验证,获得最优模型;其中验证集是从训练集中划分出的一部分,通常将训练集的百分之三十作为验证集。采用最优模型对所述特征增强后的水下高清目标图像进行目标检测,获得检测结果,并对检测结果进行后处理,包括去重、筛选、非极大值抑制等操作,最终得到目标的位置和类别信息。
实施方式八. 本实施方式提供一种基于特征迁移的水下目标检测***,所述***为:
用于采用水下模糊目标图像和水下高清图像构建基准数据集的存储装置;
用于采用所述基准数据集训练迁移对抗学习网络模型,获得训练后的迁移对抗学习网络模型的存储装置;
用于采用所述训练后的迁移对抗学习网络模型将所述水下高清图像的特征迁移到所述水下模糊目标图像上,获得特征增强后的水下高清目标图像的存储装置;
用于将两层双流坐标注意力模块DCA添加到YOLOv5的骨干网络中,获得DCA-YOLOv5模型的存储装置;
用于将一组锚框添加到所述DCA-YOLOv5模型中,获得具有小目标检查头的DCA-YOLOv5模型的存储装置;
用于将SIOU位置损失函数添加到所述具有小目标检查头的DCA-YOLOv5模型中,获得DCA-YOLOv5目标检测模型的存储装置;
用于采用所述DCA-YOLOv5目标检测模型对所述特征增强后的水下高清目标图像进行目标检测,获得目标的位置和类别信息的存储装置。
实施方式九. 本实施方式提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施方式一至实施方式七任意一项所述的一种基于特征迁移的水下目标检测方法。
实施方式十. 本实施方式提供一种计算机设备,该设备包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行实施方式一至实施方式七任意一项所述的一种基于特征迁移的水下目标检测方法。
实施方式十一. 将实施方式一至实施方式十任意一项所述的一种基于特征迁移的水下目标检测方法与现有的基准模型YOLOv5、新的目标检测模型YOLOv7、YOLOv8、RT-DETR进行对比实验,实验结果表明一种基于特征迁移的水下目标检测方法分别在[email protected][email protected][email protected]:0.95指标上比YOLOv5高5.4%、4.3%、3.6%,比YOLOv7高5.1%、3.9%、3.4%,比YOLOv8高4.2%、3.7%、3.1%,比RT-DETR高3.6%、3.1%、2.9%。
由此可知,本实施方式所述的基于特征迁移的水下目标检测方法提高模型检测的准确率同时提高了检测的精度。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本发明的实施例而已,并不限制于本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.一种基于特征迁移的水下目标检测方法,其特征在于,所述方法为:
S1、采用水下模糊目标图像和水下高清图像构建基准数据集;
S2、采用所述基准数据集训练迁移对抗学习网络模型,获得训练后的迁移对抗学习网络模型;
S3、采用所述训练后的迁移对抗学习网络模型将所述水下高清图像的特征迁移到所述水下模糊目标图像上,获得特征增强后的水下高清目标图像;
S4、将两层双流坐标注意力模块DCA添加到YOLOv5的骨干网络中,获得DCA-YOLOv5模型;
S5、将一组锚框添加到所述DCA-YOLOv5模型中,获得具有小目标检查头的DCA-YOLOv5模型;
所述锚框大小为
S6、将SIOU位置损失函数添加到所述具有小目标检查头的DCA-YOLOv5模型中,获得DCA-YOLOv5目标检测模型;
S7、采用所述DCA-YOLOv5目标检测模型对所述特征增强后的水下高清目标图像进行目标检测,获得目标的位置和类别信息;
所述步骤S4具体为:
S41、将两层双流坐标注意力模块DCA中的任意一层注意力增强模块添加到YOLOv5的骨干网络初始的两层卷积之后,获得具有一层注意力机制的YOLOv5模型;
S42、将两层双流坐标注意力模块DCA中的另一层注意力增强模块添加到所述具有一层注意力机制的YOLOv5模型骨干网络的空间金字塔池化模块之前,获得DCA-YOLOv5模型;
其中,DCA-YOLOv5 模型中两层坐标注意力提取的特征会在颈部网络进行特征融合,DCA-YOLOv5 模型捕获全局特征信息。
2.根据权利要求1所述的一种基于特征迁移的水下目标检测方法,其特征在于,所述步骤S1具体为:
S11、采集水下模糊目标图像和标签数据集;
S12、采集水下高清图像数据集;
S13、将所述水下模糊目标图像和水下高清图像数据集按比例1:1添加到训练集和测试集/>中;
S14、根据所述标签数据集、训练集和测试集/>,获得基准数据集。
3.根据权利要求2所述的一种基于特征迁移的水下目标检测方法,其特征在于,所述步骤S3具体为:
S31、采用所述训练后的迁移对抗学习网络模型训练出一个生成器和一个生成器/>
S32、采用所述生成器对所述训练集中的水下模糊目标图像进行处理,生成水下高清目标图像;
S33、采用所述生成器对所述测试集中的水下高清目标图像进行处理,生成水下模糊目标图像;
S34、采用所述训练后的迁移对抗学习网络模型训练出一个判别器和一个判别器/>
S35、采用所述判别器对生成的水下高清目标图像与采集的水下高清图像进行对比,获得判别器/>判别结果,采用所述判别器/>对生成的水下模糊目标图像和采集的水下模糊目标图像进行对比,获得判别器/>判别结果;
S36、采用所述判别器判别结果不断优化所述生成器/>,采用所述判别器/>判别结果不断优化所述生成器/>,直至获得最优生成器/>和最优生成器/>
S37、采用循环一致性损失和损失函数平衡所述最优生成器和最优生成器/>生成的图像,直至获得特征增强后的水下高清目标图像。
4.根据权利要求1所述的一种基于特征迁移的水下目标检测方法,其特征在于,所述步骤S6中的SIOU位置损失函数包括角度损失、距离损失、形状损失和交并比损失;
所述角度损失表示为:
所述距离损失表示为:
所述形状损失表示为:
所述交并比损失表示为:
所述SIOU位置损失函数表示为:
其中,为真实框和预测框中心点的高度差,/>为真实框和预测框中心点的距离,/>为权重系数,/>为x方向上的距离损失权重,/>为y方向上的距离损失权重,w为预测框的宽,h为预测框的高,/>为真实框的宽,/>为真实框的高,/>为控制对形状损失的关注程度,IOU为预测框与真实框面积的交并比。
5.根据权利要求1所述的一种基于特征迁移的水下目标检测方法,其特征在于,所述步骤S7具体为:
S71、将所述特征增强后的水下高清目标图像进行预处理,并将预处理后的图像按照比例7:3划分为训练集和测试集;
S72、采用所述训练集对所述DCA-YOLOv5目标检测模型进行训练,获得训练模型;
S73、采用验证集对所述训练模型进行验证,获得最优模型;
S74、采用所述最优模型对所述特征增强后的水下高清目标图像进行目标检测,获得目标的位置和类别信息。
6.一种基于特征迁移的水下目标检测***,其特征在于,所述***为:
用于采用水下模糊目标图像和水下高清图像构建基准数据集的存储装置;
用于采用所述基准数据集训练迁移对抗学习网络模型,获得训练后的迁移对抗学习网络模型的存储装置;
用于采用所述训练后的迁移对抗学习网络模型将所述水下高清图像的特征迁移到所述水下模糊目标图像上,获得特征增强后的水下高清目标图像的存储装置;
用于将两层双流坐标注意力模块DCA添加到YOLOv5的骨干网络中,获得DCA-YOLOv5模型的存储装置;
用于将一组锚框添加到所述DCA-YOLOv5模型中,获得具有小目标检查头的DCA-YOLOv5模型的存储装置;
所述锚框大小为
用于将SIOU位置损失函数添加到所述具有小目标检查头的DCA-YOLOv5模型中,获得DCA-YOLOv5目标检测模型的存储装置;
用于采用所述DCA-YOLOv5目标检测模型对所述特征增强后的水下高清目标图像进行目标检测,获得目标的位置和类别信息的存储装置;
所述获得DCA-YOLOv5模型的具体步骤为:
S41、将两层双流坐标注意力模块DCA中的任意一层注意力增强模块添加到YOLOv5的骨干网络初始的两层卷积之后,获得具有一层注意力机制的YOLOv5模型;
S42、将两层双流坐标注意力模块DCA中的另一层注意力增强模块添加到所述具有一层注意力机制的YOLOv5模型骨干网络的空间金字塔池化模块之前,获得DCA-YOLOv5模型;
其中,DCA-YOLOv5 模型中两层坐标注意力提取的特征会在颈部网络进行特征融合,DCA-YOLOv5 模型捕获全局特征信息。
7.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行权利要求1-5任意一项所述的一种基于特征迁移的水下目标检测方法。
8.一种计算机设备,其特征在于,该设备包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行权利要求1-5任意一项所述的一种基于特征迁移的水下目标检测方法。
CN202311175150.1A 2023-09-13 2023-09-13 一种基于特征迁移的水下目标检测方法及*** Active CN116912675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311175150.1A CN116912675B (zh) 2023-09-13 2023-09-13 一种基于特征迁移的水下目标检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311175150.1A CN116912675B (zh) 2023-09-13 2023-09-13 一种基于特征迁移的水下目标检测方法及***

Publications (2)

Publication Number Publication Date
CN116912675A CN116912675A (zh) 2023-10-20
CN116912675B true CN116912675B (zh) 2023-11-28

Family

ID=88355033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311175150.1A Active CN116912675B (zh) 2023-09-13 2023-09-13 一种基于特征迁移的水下目标检测方法及***

Country Status (1)

Country Link
CN (1) CN116912675B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746233A (zh) * 2023-12-08 2024-03-22 江苏海洋大学 一种水域无人清理船目标轻量化检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884671A (zh) * 2021-02-26 2021-06-01 南京航空航天大学 一种基于无监督生成对抗网络的模糊图像复原方法
CN113052200A (zh) * 2020-12-09 2021-06-29 江苏科技大学 一种基于yolov3网络的声呐图像目标检测方法
CN113592715A (zh) * 2021-08-05 2021-11-02 昆明理工大学 一种面向小样本图像集的超分辨率图像重构方法
CN115731441A (zh) * 2022-11-29 2023-03-03 浙江大学 基于数据跨模态迁移学习的目标检测和姿态估计方法
CN115984681A (zh) * 2022-12-14 2023-04-18 燕山大学 一种基于YOLOv5的水下目标检测方法
CN116302874A (zh) * 2023-01-06 2023-06-23 苏州浪潮智能科技有限公司 模型能力测试方法、装置、电子设备、存储介质及产品
CN116543295A (zh) * 2023-04-07 2023-08-04 南京信息工程大学 一种基于退化图像增强的轻量化水下目标检测方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052200A (zh) * 2020-12-09 2021-06-29 江苏科技大学 一种基于yolov3网络的声呐图像目标检测方法
CN112884671A (zh) * 2021-02-26 2021-06-01 南京航空航天大学 一种基于无监督生成对抗网络的模糊图像复原方法
CN113592715A (zh) * 2021-08-05 2021-11-02 昆明理工大学 一种面向小样本图像集的超分辨率图像重构方法
CN115731441A (zh) * 2022-11-29 2023-03-03 浙江大学 基于数据跨模态迁移学习的目标检测和姿态估计方法
CN115984681A (zh) * 2022-12-14 2023-04-18 燕山大学 一种基于YOLOv5的水下目标检测方法
CN116302874A (zh) * 2023-01-06 2023-06-23 苏州浪潮智能科技有限公司 模型能力测试方法、装置、电子设备、存储介质及产品
CN116543295A (zh) * 2023-04-07 2023-08-04 南京信息工程大学 一种基于退化图像增强的轻量化水下目标检测方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于CotNet改进YOLOv5的接地线目标检测》;黄昊 等;《计算机***应用》;第287页 *
《基于深度对抗网络的水下图像增强算法研究》;李撼宇;《中国优秀硕士学位全文数据库》;论文第四章 *

Also Published As

Publication number Publication date
CN116912675A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN115601549B (zh) 基于可变形卷积和自注意力模型的河湖遥感图像分割方法
CN110728658A (zh) 一种基于深度学习的高分辨率遥感影像弱目标检测方法
Hu et al. Structure‐aware 3D reconstruction for cable‐stayed bridges: A learning‐based method
CN111626295B (zh) 车牌检测模型的训练方法和装置
CN116912675B (zh) 一种基于特征迁移的水下目标检测方法及***
CN114419467A (zh) 旋转船只目标检测模型的训练方法、训练装置和存储介质
CN113191204B (zh) 一种多尺度遮挡行人检测方法及***
CN111652864A (zh) 一种基于条件式生成对抗网络的铸件缺陷图像生成方法
CN116486231A (zh) 一种基于改进YOLOv5的混凝土裂缝检测方法
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法
CN116342536A (zh) 基于轻量化模型的铝带材表面缺陷检测方法、***及设备
Koziarski et al. Marine snow removal using a fully convolutional 3d neural network combined with an adaptive median filter
Guan et al. RoadCapsFPN: Capsule feature pyramid network for road extraction from VHR optical remote sensing imagery
CN117173412A (zh) 一种基于CNN和Transformer融合网络的医学图像分割方法
CN111696167A (zh) 自范例学习引导的单张影像超分辨率重构方法
CN114445726B (zh) 一种基于深度学习的样本库建立方法和装置
CN115527105A (zh) 一种基于多尺度特征学习的水下目标检测方法
CN116385915A (zh) 一种基于时空信息融合的水面漂浮物目标检测与跟踪方法
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
Kee et al. Cracks identification using mask region-based denoised deformable convolutional network
CN114998990B (zh) 一种工地人员安全行为识别方法及装置
CN117011688B (zh) 一种水下结构病害的识别方法、***及存储介质
Huo et al. Fast Small Object Detection Algorithm Based on Feature Enhancement and Reconstruction
Näs Water Level Measurement From Images Using Object Detection
Balcıoğlu et al. Machine Design Automation Model for Metal Production Defect Recognition with Deep Graph Convolutional Neural Network. Electronics 2023, 12, 825

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant