CN116704324A - 基于水下图像的目标检测方法、***、设备以及存储介质 - Google Patents

基于水下图像的目标检测方法、***、设备以及存储介质 Download PDF

Info

Publication number
CN116704324A
CN116704324A CN202310613728.0A CN202310613728A CN116704324A CN 116704324 A CN116704324 A CN 116704324A CN 202310613728 A CN202310613728 A CN 202310613728A CN 116704324 A CN116704324 A CN 116704324A
Authority
CN
China
Prior art keywords
sample
underwater image
feature
images
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310613728.0A
Other languages
English (en)
Inventor
陈蔚文
周星伦
唐小煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202310613728.0A priority Critical patent/CN116704324A/zh
Publication of CN116704324A publication Critical patent/CN116704324A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像检测领域,特别涉及一种基于水下图像的目标检测方法、装置、***以及存储介质,采用深度学习的方法,训练基于水下图像的目标检测模型,以提取水下图像的不同层次的特征信息,进行特征融合,根据获得的融合特征信息,实现了对水下图像的目标区域的检测,提高了检测的精准性以及效率性。

Description

基于水下图像的目标检测方法、***、设备以及存储介质
技术领域
本发明涉及图像检测领域,特别涉及是一种基于水下图像的目标检测方法、装置、***以及存储介质。
背景技术
水下目标探测对于各种应用至关重要,包括海洋保护、海洋学和国防领域。准确探测和分类这些目标是监测海洋生态***健康和识别水下基础设施的潜在威胁的关键技术之一。
然而,由于水下环境中存在各种复杂的场景因素,大多数探测器对水下目标的检测精度较差。主要原因是光线在水下环境中传播时会被水散射和吸收,导致最终相机捕捉到的图像内容在相当程度上衰减和模糊,这进一步增加了水下物体检测的难度。此外,照明条件的复杂性进一步限制了水下环境的能见度。水下物体大小、形状各异,包含海洋生物、海洋垃圾等多种类型,其结构也非常复杂,给目标识别和探测带来了挑战。另一个原因是水下环境中存在大量的背景干扰,如海藻、岩石等,可能会与目标混淆,增加探测难度。
发明内容
基于此,本发明的目的在于,提供一种基于水下图像的目标检测方法、装置、***以及存储介质,采用深度学习的方法,训练基于水下图像的目标检测模型,以提取水下图像的不同层次的特征信息,进行特征融合,根据获得的融合特征信息,实现了对水下图像的目标区域的检测,提高了检测的精准性以及效率性。
第一方面,本申请实施例提供了一种基于水下图像的目标检测方法,包括以下步骤:
获得样本水下图像集以及样本标签集,其中,所述样本水下图像数据集包括若干个样本图像,所述样本标签集包括若干个所述样本图像的若干个标签区域,以及若干个所述标签区域对应的标签数据;
获得预设的检测模型,所述检测模型包括骨干网络、颈部网络以及预测网络,将所述样本水下图像集输入至所述骨干网络中,根据预设的若干种尺度,获得各个所述样本水下图像的若干种尺度的骨干特征图;
将各个所述样本水下图像的若干种尺度的骨干特征图输入至所述颈部网络中进行特征融合,获得各个所述样本水下图像的融合特征图;
将各个所述样本水下图像的融合特征图输入至所述预测网络中,获得各个所述样本水下图像的若干个预测区域以及若干个预测区域的标签数据;
根据各个所述样本水下图像的若干个预测区域的标签数据以及若干个标签区域的标签数据,对所述检测模型进行训练,获得目标检测模型;
响应于检测指令,获得待检测水下图像,将所述待检测水下图像输入至所述目标检测模型,获得所述待检测水下图像的检测结果。
第二方面,本申请实施例提供了一种基于水下图像的目标检测装置,包括:
数据获取模块,用于获得样本水下图像集以及样本标签集,其中,所述样本水下图像数据集包括若干个样本图像,所述样本标签集包括若干个所述样本图像的若干个标签区域,以及若干个所述标签区域对应的标签数据;
骨干特征提取模块,用于获得预设的检测模型,所述检测模型包括骨干网络、颈部网络以及预测网络,将所述样本水下图像集输入至所述骨干网络中,获得各个所述样本水下图像的若干种尺度的骨干特征图;
特征融合模块,用于将各个所述样本水下图像的若干种尺度的骨干特征图输入至所述颈部网络中进行特征融合,获得各个所述样本水下图像的融合特征图;
预测模块,用于将各个所述样本水下图像的融合特征图输入至所述预测网络中,获得各个所述样本水下图像的若干个预测区域以及若干个预测区域的标签数据;
模型训练模块,用于根据各个所述样本水下图像的若干个预测区域的标签数据以及若干个标签区域的标签数据,对所述检测模型进行训练,获得目标检测模型;
检测模块,用于响应于检测指令,获得待检测水下图像,将所述待检测水下图像输入至所述目标检测模型,获得所述待检测水下图像的检测结果。
第三方面,本申请实施例提供了一种计算机设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如第一方面所述的基于水下图像的目标检测方法的步骤。
第四方面,本申请实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于水下图像的目标检测方法的步骤。
在本申请实施例中,提供一种基于水下图像的目标检测方法、装置、***以及存储介质,采用深度学习的方法,训练基于水下图像的目标检测模型,以提取水下图像的不同层次的特征信息,进行特征融合,根据获得的融合特征信息,实现了对水下图像的目标区域的检测,提高了检测的精准性以及效率性。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本申请第一实施例提供的基于水下图像的目标检测方法的流程示意图;
图2为本申请第二实施例提供的基于水下图像的目标检测方法的流程示意图;
图3为本申请第一实施例提供的基于水下图像的目标检测方法中S2的流程示意图;
图4为本申请第三实施例提供的基于水下图像的目标检测方法的流程示意图;
图5为本申请第一实施例提供的基于水下图像的目标检测方法中S4的流程示意图;
图6为本申请第一实施例提供的基于水下图像的目标检测方法中S5的流程示意图;
图7为本申请第四实施例提供的基于水下图像的目标检测装置的结构示意图;
图8为本申请第五实施例提供的计算机设备的结构示意图;
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
请参阅图1,图1为本申请第一实施例提供的基于水下图像的目标检测方法的流程示意图,所述方法包括如下步骤:
S1:获得样本水下图像集以及样本标签集。
所述基于水下图像的目标检测方法的执行主体为基于水下图像的目标检测方法的检测设备(以下简称检测设备)。在一个可选的实施例中,所述检测设备可以是一台计算机设备可以是服务器,或是多台计算机设备联合而成的服务器机群。
在本实施例中,检测设备可以获得用户输入的样本水下图像集以及样本标签集,也可以通过预设的数据库中,获得样本水下图像集以及样本标签集,其中,所述样本水下图像数据集包括若干个样本图像,所述样本标签集包括若干个所述样本图像的若干个标签区域,以及若干个所述标签区域对应的标签数据。
请参阅图2,图2为本申请第二实施例提供的基于水下图像的目标检测方法的流程示意图,包括步骤S7,所述步骤S7在步骤S2之前,具体如下:
S7:对所述样本水下图像集中若干个样本图像进行数据增强,获得数据增强后的所述样本水下图像集。
在本实施例中,检测设备对所述样本水下图像集中的若干个样本水下图像进行数据增强处理,获取数据增强处理后的样本水下图像集,以数据增强的方式扩大用于训练的样本水下图像集的大小,以增强训练后的模型的泛化性。在一个可选的实施例中,所述数据增强处理包括剪切、旋转、反射、翻转变换、缩放变换、平移变换、尺度变换、对比度变换、噪声扰动、颜色变换等一种或多种组合数据增强变换的方式来增加数据集的大小。
S2:获得预设的检测模型,所述检测模型包括骨干网络、颈部网络以及预测网络,将所述样本水下图像集输入至所述骨干网络中,根据预设的若干种尺度,获得各个所述样本水下图像的若干种尺度的骨干特征图。
所述检测模型为改进后的Yolov7神经网络模型,YOLOv7神经网络模型是YOLO系列的第七代目标检测网络,能够针对小尺度图像进行准确的目标检测。所述改进后的Yolov7模型包括骨干网络(Backbone)、颈部网络(Neck)以及预测网络(YoloHead)。
在本实施例中,检测设备获得预设的检测模型,将所述样本水下图像集输入至所述骨干网络中,根据预设的若干种尺度,获得各个所述样本水下图像的若干种尺度的骨干特征图。
所述检测模型的骨干网络包括依次相连的卷积模块以及特征提取模块,其中,所述特征提取模块包括依次相连的若干个子特征提取模块,所述子特征提取模块包括第一分支的第一子卷积模块以及第二分支的,相连的第二子卷积模块以及瓶颈卷积模块。
请参阅图3,图3为本申请第一实施例提供的基于水下图像的目标检测方法中S2的流程示意图,包括步骤S21~S22,具体如下:
S21:将所述样本水下图像输入至所述卷积模块,获得所述样本水下图像的卷积特征图。
所述卷积模块为包括四个CBS标准卷积激活模块,所述CBS标准卷积激活模块包括依次相连的Conv层、BN层以及SiLU层,其中,Conv层是卷积层,一个BN层是批归一化层,Silu层为激活层。
在本实施例中,检测设备将所述样本水下图像集输入至所述卷积模块,获得各个所述样本水下图像的卷积特征图。以对所述样本水下图像集中各个所述样本水下图像的进行初步卷积处理,提取初步特征信息。
S22:将所述样本水下图像的卷积特征图作为所述特征提取模块中第一个子特征提取模块的输入特征图,根据所述第一个子特征提取模块的第一分支中的第一特征提取算法,获得第一个子特征提取模块的第一分支输出的输出特征图。
所述第一特征提取算法为:
Fcbs()=σ(ρ(C(X,c)))
式中,Fcbs()为子特征提取模块的第一分支的第一子卷积模块输出的输出特征图,X为子特征提取模块的输入特征图,c为子特征提取模块的第一分支的输出通道,ρ()为归一化函数,σ()为激活函数,C()为卷积函数。
在本实施例中,检测设备将所述样本水下图像的卷积特征图作为所述特征提取模块中第一个子特征提取模块的输入特征图,根据所述第一个子特征提取模块的第一分支中的第一特征提取算法,获得第一个子特征提取模块的第一分支输出的输出特征图。
S23:根据所述第一个子特征提取模块的第一分支中的第二特征提取算法,获得第一个子特征提取模块的第二分支输出的输出特征图。
所述第二特征提取算法为:
式中,Fcef(i)为子特征提取模块的第二分支的瓶颈卷积模块输出的输出特征图,f()为卷积激活函数,concat()为拼接函数,C2为所述子特征提取模块的第二分支的瓶颈卷积模块的输出通道,g()为瓶颈函数。
在本实施例中,检测设备根据所述第一个子特征提取模块的第一分支中的第二特征提取算法,获得第一个子特征提取模块的第二分支输出的输出特征图。
S24:将所述第一个子特征提取模块的第一分支输出的输出特征图、第二分支输出的输出特征图进行拼接,获得所述第一个子特征提取模块输出的输出特征图。
在本实施例中,检测设备将所述第一个子特征提取模块的第一分支输出的输出特征图、第二分支输出的输出特征图进行拼接,获得所述第一个子特征提取模块输出的输出特征图,具体如下:
F=f(concat(Fcbs(),Fcef())
式中,F为所述子特征提取模块的输出特征图。
S25:将所述第一个子特征提取模块输出的输出特征图作为下一个子特征提取模块的输入特征图,重复上述步骤,获得各个所述子特征提取模块的输出特征图,作为所述若干种尺度的骨干特征图。
在本实施例中,检测设备将第一个所述子特征提取模块的输出特征图作为下一个所述子特征模块的输入特征图,重复上述步骤,直到获得最后一个所述子特征提取模块的输出特征图,获得各个所述子特征提取模块的输出特征图,作为所述若干种尺度的骨干特征图。相对于原始Yolov7神经网络模型,本申请通过在骨干网络中引入瓶颈卷积模块,以增强分支部分的特征信息提取能力,提高模型训练的精准性。
所述第一子卷积模块包括相连的若干个静态卷积激活层以及动态卷积激活层。其中,所述动态卷积激活层ODConv在卷积维度上对动态特性进行了扩展,同时了考虑了空域、输入通道、输出通道等维度上的动态性,以获取到更加细致、更大感受野的特征信息,提高模型训练的精准性。
请参阅图4,图4为本申请第三实施例提供的基于水下图像的目标检测方法的流程示意图,还包括步骤S8,所述步骤S8在步骤S3之前,具体如下:
S8:采用注意力机制,将各个所述样本水下图像的若干种尺度的骨干特征图进行注意力转换,获得各个所述样本水下图像的若干种尺度的增强骨干特征图。
所述注意力模块为Coordinate Attention(CA),在本实施例中,检测设备将各个所述样本水下图像的若干种尺度的骨干特征图输入至所述注意力模块中,采用注意力机制,通过精确的位置信息对通道关系和长期依赖性进行编码,将所述骨干特征图逐通道进行平均池化,使用池化核分别按水平和垂直方向进行池化对每个通道进行编码,分别产生沿水平方向和垂直方向的特征图。再将这两个特征图进行相应卷积以及非线性激活,最后进行水平和竖直方向的特征图进行扩展得到最后的输出特征图,获得各个所述样本水下图像的若干种尺度的增强骨干特征图,增强了水下远距离小目标的特征感知和位置信息,从而提高模型训练的精准性。
S3:将各个所述样本水下图像的若干种尺度的骨干特征图输入至所述颈部网络中进行特征融合,获得各个所述样本水下图像的融合特征图。
在本实施例中,检测设备将各个所述样本水下图像的若干种尺度的骨干特征图输入至所述颈部网络中进行特征融合,获得各个所述样本水下图像的融合特征图。将提取到的样本水下图像的不同层次的特征信息进行特征融合,获得细节更加丰富的融合特征图,以进行更加准确的目标检测。
S4:将各个所述样本水下图像的融合特征图输入至所述预测网络中,获得各个所述样本水下图像的若干个预测区域以及若干个预测区域的标签数据。
在本实施例中,检测设备将各个所述样本水下图像的融合特征图输入至所述预测网络中,获得各个所述样本水下图像的若干个预测区域以及若干个预测区域的标签数据。
请参阅图5,图5为本申请第一实施例提供的基于水下图像的目标检测方法中S4的流程示意图,包括步骤S41~S42,具体如下:
S41:根据各个所述样本水下图像的融合特征图,对各个所述样本水下图像进行网格划分,获得各个所述样本水下图像的网格坐标信息。
在本实施例中,检测设备对各个所述样本眼科超声图像的若干个通道的融合特征图,依次进行网格化预测,利用卷积操作得到指定通道数的卷积特征图,并基于卷积特征图,对各个所述样本眼科超声图像进行网格划分,获得各个所述样本水下图像的网格坐标信息。
S42:根据各个所述样本水下图像的网格坐标信息以及预设的检测器,获得各个所述样本眼科超声图像的若干个预测区域以及若干个预测区域的标签数据。
所述标签数据包括标签区域的中心点坐标参数、宽度参数以及高度参数,其中,所述中心点坐标参数包括中心点横坐标参数以及中心点纵坐标参数。
在本实施例中,检测设备预先设置有检测器,检测器可以为3个,每个检测器中有3个锚框,通常使用K-means聚类对训练集的目标框进行聚类得到,计算过程被集成在模型中,在训练不同部分时,自适应不同的锚框进行训练,用于预测时生成检测框。对每个检测框进行回归,得到预测区域的位置和大小。
在本实施例中,检测设备将各个所述样本水下图像的网格坐标信息输入至检测器,根据检测框参数和预设的回归系数计算预测区域的中心和宽高,得到预测结果。将回归系数归一化到(0,1)之间,然后乘以2减去0.5,使值固定在(-0.5,1.5)之间,结合所述网格坐标信息,得到预测区域的中心点坐标参数。将归一化后的回归系数乘以2后取平方,使值固定在(0,4)之间,乘以先验框的宽高,得到预测区域的宽度参数以及高度参数。
S5:根据各个所述样本水下图像的若干个预测区域的标签数据以及若干个标签区域的标签数据,对所述检测模型进行训练,获得目标检测模型。
在本实施例中,检测设备根据各个所述样本水下图像的若干个预测区域的标签数据以及若干个标签区域的标签数据,对所述检测模型进行训练,获得目标检测模型。
请参阅图6,图6为本申请第一实施例提供的基于水下图像的目标检测方法中S5的流程示意图,包括步骤S51~S52,具体如下:
S51:根据同一个所述样本水下图像对应的检测区域,检测区域对应的标签数据,以及对应的标签区域,标签区域对应的标签数据,以及预设的推土机距离损失函数,获得若干个数据增强后的所述样本水下图像对应的推土机距离损失值。
所述推土机损失距离函数为:
式中,L1(Na,Nb)为所述推土机距离函数,Na表示检测区域,Nb表示标签区域,cxa为检测区域对应的中心点横坐标参数,cya为检测区域对应的中心点纵坐标参数,wa为检测区域对应的宽度参数,ha为检测区域对应的高度参数,T为转置符号,cxb为标签区域对应的中心点横坐标参数,cyb为标签区域对应的中心点纵坐标参数,wb为标签区域对应的宽度参数,hb为标签区域对应的高度参数。
在本实施例中,检测设备根据同一个所述样本水下图像对应的检测区域,检测区域对应的标签数据,以及对应的标签区域,标签区域对应的标签数据,以及预设的推土机距离损失函数,获得若干个数据增强后的所述样本水下图像对应的推土机距离损失值。
检测设备通过对预测区域和标签区域中的图像像素进行加权,使得边界区域的中心像素的权重比最高,权重值从中心到边界逐渐减小。最后,利用归一化Wasserstein距离(NWD)将预测区域以及标签区域变换为二维高斯概率分布,可以更好地评价两个小尺寸目标物体的相似性,提高模型训练的准确性,更好地对小尺度目标物体的进行检测。
S52:根据若干个所述样本水下图像对应的推土机距离损失值,构建总损失函数,根据所述总损失函数,对所述改进后的检测模型中进行训练,获得目标检测模型。
所述总损失函数为:
式中,LOSS为总损失函数,k为预设的尺度系数,LCIOU为预设的检测器损失函数,α为第一比例系数,β为第二比例系数,c为预设的常量。
为了进一步体现预测区域以及标签区域之间的相关性,在本实施例中,检测设备将分布距离映射到0~1的概率区间,根据若干个所述样本水下图像对应的推土机距离损失值,构建总损失函数,根据所述总损失函数,对所述改进后的检测模型中进行训练,获得目标检测模型。
S6:响应于检测指令,获得待检测水下图像,将所述待检测水下图像输入至所述目标检测模型,获得所述待检测水下图像的检测结果。
所述检测指令是用户发出,检测设备接收的。
在本实施例中,检测设备响应于检测指令,获得待检测水下图像,将所述待检测水下图像输入至所述目标检测模型,获得所述待检测水下图像的检测结果,在检测设备预设的显示界面上进行显示。
请参考图7,图7为本申请第四实施例提供的基于水下图像的目标检测装置的结构示意图,该装置可以通过软件、硬件或两者的结合实现基于水下图像的目标检测装置的全部或一部分,该装置7包括:
数据获取模块71,用于获得样本水下图像集以及样本标签集,其中,所述样本水下图像数据集包括若干个样本图像,所述样本标签集包括若干个所述样本图像的若干个标签区域,以及若干个所述标签区域对应的标签数据;
骨干特征提取模块72,用于获得预设的检测模型,所述检测模型包括骨干网络、颈部网络以及预测网络,将所述样本水下图像集输入至所述骨干网络中,获得各个所述样本水下图像的若干种尺度的骨干特征图;
特征融合模块73,用于将各个所述样本水下图像的若干种尺度的骨干特征图输入至所述颈部网络中进行特征融合,获得各个所述样本水下图像的融合特征图;
预测模块74,用于将各个所述样本水下图像的融合特征图输入至所述预测网络中,获得各个所述样本水下图像的若干个预测区域以及若干个预测区域的标签数据;
模型训练模块75,用于根据各个所述样本水下图像的若干个预测区域的标签数据以及若干个标签区域的标签数据,对所述检测模型进行训练,获得目标检测模型;
检测模块76,用于响应于检测指令,获得待检测水下图像,将所述待检测水下图像输入至所述目标检测模型,获得所述待检测水下图像的检测结果。
在本申请实施例中,通过数据获取模块,用于获得样本水下图像集以及样本标签集,其中,所述样本水下图像数据集包括若干个样本图像,所述样本标签集包括若干个所述样本图像的若干个标签区域,以及若干个所述标签区域对应的标签数据;通过骨干特征提取模块,获得预设的检测模型,所述检测模型包括骨干网络、颈部网络以及预测网络,将所述样本水下图像集输入至所述骨干网络中,获得各个所述样本水下图像的若干种尺度的骨干特征图;通过特征融合模块,将各个所述样本水下图像的若干种尺度的骨干特征图输入至所述颈部网络中进行特征融合,获得各个所述样本水下图像的融合特征图;通过预测模块,将各个所述样本水下图像的融合特征图输入至所述预测网络中,获得各个所述样本水下图像的若干个预测区域以及若干个预测区域的标签数据;通过模型训练模块,根据各个所述样本水下图像的若干个预测区域的标签数据以及若干个标签区域的标签数据,对所述检测模型进行训练,获得目标检测模型;通过检测模块,响应于检测指令,获得待检测水下图像,将所述待检测水下图像输入至所述目标检测模型,获得所述待检测水下图像的检测结果。采用深度学习的方法,训练基于水下图像的目标检测模型,以提取水下图像的不同层次的特征信息,进行特征融合,根据获得的融合特征信息,实现了对水下图像的目标区域的检测,提高了检测的精准性以及效率性。
请参考图8,图8为本申请第五实施例提供的计算机设备的结构示意图,计算机设备8包括:处理器81、存储器82以及存储在存储器82上并可在处理器81上运行的计算机程序83;计算机设备可以存储有多条指令,指令适用于由处理器81加载并执行上述第一实施例至第三实施例所示的方法步骤,具体执行过程可以参见第一实施例至第三实施例所示的具体说明,在此不进行赘述。
其中,处理器81可以包括一个或多个处理核心。处理器81利用各种接口和线路连接服务器内的各个部分,通过运行或执行存储在存储器82内的指令、程序、代码集或指令集,以及调用存储器82内的数据,执行基于水下图像的目标检测装置7的各种功能和处理数据,可选的,处理器81可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrambleLogic Array,PLA)中的至少一个硬件形式来实现。处理器81可集成中央处理器81(CentralProcessing Unit,CPU)、图像处理器81(Graphics Processing Unit,GPU)和调制解调器等中的一个或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器81中,单独通过一块芯片进行实现。
其中,存储器82可以包括随机存储器82(Random Access Memory,RAM),也可以包括只读存储器82(Read-Only Memory)。可选的,该存储器82包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器82可用于存储指令、程序、代码、代码集或指令集。存储器82可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器82可选的还可以是至少一个位于远离前述处理器81的存储装置。
本申请实施例还提供了一种存储介质,所述存储介质可以存储有多条指令,所述指令适用于由处理器加载并执行上述第一实施例至第三实施例所示的方法步骤,具体执行过程可以参见第一实施例至第三实施例所示的具体说明,在此不进行赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束算法。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

Claims (10)

1.一种基于水下图像的目标检测方法,其特征在于,包括以下步骤:
获得样本水下图像集以及样本标签集,其中,所述样本水下图像数据集包括若干个样本图像,所述样本标签集包括若干个所述样本图像的若干个标签区域,以及若干个所述标签区域对应的标签数据;
获得预设的检测模型,所述检测模型包括骨干网络、颈部网络以及预测网络,将所述样本水下图像集输入至所述骨干网络中,根据预设的若干种尺度,获得各个所述样本水下图像的若干种尺度的骨干特征图;
将各个所述样本水下图像的若干种尺度的骨干特征图输入至所述颈部网络中进行特征融合,获得各个所述样本水下图像的融合特征图;
将各个所述样本水下图像的融合特征图输入至所述预测网络中,获得各个所述样本水下图像的若干个预测区域以及若干个预测区域的标签数据;
根据各个所述样本水下图像的若干个预测区域的标签数据以及若干个标签区域的标签数据,对所述检测模型进行训练,获得目标检测模型;
响应于检测指令,获得待检测水下图像,将所述待检测水下图像输入至所述目标检测模型,获得所述待检测水下图像的检测结果。
2.根据权利要求1所述的基于水下图像的目标检测方法,其特征在于:所述检测模型的骨干网络包括依次相连的卷积模块以及特征提取模块,其中,所述特征提取模块包括依次相连的若干个子特征提取模块,所述子特征提取模块包括第一分支以及第二分支,其中,所述第一分支包括第一子卷积模块,所述第二分支包括相连的第二子卷积模块以及瓶颈卷积模块;
所述将所述样本水下图像集输入至所述骨干网络中,获得各个所述样本水下图像的若干种尺度的骨干特征图,包括步骤:
将所述样本水下图像输入至所述卷积模块,获得所述样本水下图像的卷积特征图;
将所述样本水下图像的卷积特征图作为所述特征提取模块中第一个子特征提取模块的输入特征图,根据所述第一个子特征提取模块的第一分支中的第一特征提取算法,获得第一个子特征提取模块的第一分支输出的输出特征图,其中,所述第一特征提取算法为:
Fcbs()=σ(ρ(C(X,c)))
式中,Fcbs()为子特征提取模块的第一分支的第一子卷积模块输出的输出特征图,X为子特征提取模块的输入特征图,c为子特征提取模块的第一分支的输出通道,ρ()为归一化函数,σ()为激活函数,C()为卷积函数;
根据所述第一个子特征提取模块的第一分支中的第二特征提取算法,获得第一个子特征提取模块的第二分支输出的输出特征图,其中,所述第二特征提取算法为:
式中,Fcef(i)为子特征提取模块的第二分支的瓶颈卷积模块输出的输出特征图,f()为卷积激活函数,concat()为拼接函数,C2为所述子特征提取模块的第二分支的瓶颈卷积模块的输出通道,g()为瓶颈函数;
将所述第一个子特征提取模块的第一分支输出的输出特征图、第二分支输出的输出特征图进行拼接,获得所述第一个子特征提取模块输出的输出特征图,具体如下:
F=f(concat(Fcbs(),Fcef())
式中,F为所述子特征提取模块的输出特征图;
将所述第一个子特征提取模块输出的输出特征图作为下一个子特征提取模块的输入特征图,重复上述步骤,获得各个所述子特征提取模块的输出特征图,作为所述若干种尺度的骨干特征图。
3.根据权利要求1所述的基于水下图像的目标检测方法,其特征在于:所述第一子卷积模块包括相连的若干个静态卷积激活层以及动态卷积激活层。
4.根据权利要求2所述的基于水下图像的目标检测方法,其特征在于,所述将所述样本水下图像集输入至所述骨干网络中,获得各个所述样本水下图像的若干种尺度的骨干特征图,包括步骤:
采用注意力机制,将各个所述样本水下图像的若干种尺度的骨干特征图进行注意力转换,获得各个所述样本水下图像的若干种尺度的增强骨干特征图。
5.根据权利要求1所述的基于水下图像的目标检测方法,其特征在于,所述将各个所述样本水下图像的融合特征图输入至所述预测网络中,获得各个所述样本水下图像的若干个预测区域以及若干个预测区域的标签数据,包括步骤:
根据各个所述样本水下图像的融合特征图,对各个所述样本水下图像进行网格划分,获得各个所述样本水下图像的网格坐标信息;
根据各个所述样本水下图像的网格坐标信息以及预设的检测器,获得各个所述样本水下图像的若干个预测区域以及若干个预测区域的标签数据,其中,所述标签数据包括标签区域的中心点坐标参数、宽度参数以及高度参数,其中,所述中心点坐标参数包括中心点横坐标参数以及中心点纵坐标参数。
6.根据权利要求1所述的基于水下图像的目标检测方法,其特征在于,所述根据各个所述样本水下图像的若干个预测区域的标签数据以及若干个标签区域的标签数据,对所述检测模型进行训练,获得目标检测模型,包括步骤:
根据同一个所述样本水下图像对应的检测区域,检测区域对应的标签数据,以及对应的标签区域,标签区域对应的标签数据,以及预设的推土机距离损失函数,获得若干个数据增强后的所述样本水下图像对应的推土机距离损失值,其中,所述推土机损失距离函数为:
式中,L1(Na,Nb)为所述推土机距离函数,Na表示检测区域,Nb表示标签区域,cxa为检测区域对应的中心点横坐标参数,cya为检测区域对应的中心点纵坐标参数,wa为检测区域对应的宽度参数,ha为检测区域对应的高度参数,T为转置符号,cxb为标签区域对应的中心点横坐标参数,cyb为标签区域对应的中心点纵坐标参数,wb为标签区域对应的宽度参数,hb为标签区域对应的高度参数;
根据若干个所述样本水下图像对应的推土机距离损失值,构建总损失函数,根据所述总损失函数,对所述改进后的检测模型中进行训练,获得目标检测模型,其中,所述总损失函数为:
式中,LOSS为总损失函数,k为预设的尺度系数,LCIOU为预设的检测器损失函数,α为第一比例系数,β为第二比例系数,c为预设的常量。
7.根据权利要求1所述的基于水下图像的目标检测方法,其特征在于,所述将所述样本水下图像集以及样本标签集输入至改进后的检测模型中进行训练,获得目标检测模型之前,包括步骤:
对所述样本水下图像集中若干个样本图像进行数据增强,获得数据增强后的所述样本水下图像集。
8.一种基于水下图像的目标检测装置,其特征在于,包括:
数据获取模块,用于获得样本水下图像集以及样本标签集,其中,所述样本水下图像数据集包括若干个样本图像,所述样本标签集包括若干个所述样本图像的若干个标签区域,以及若干个所述标签区域对应的标签数据;
骨干特征提取模块,用于获得预设的检测模型,所述检测模型包括骨干网络、颈部网络以及预测网络,将所述样本水下图像集输入至所述骨干网络中,获得各个所述样本水下图像的若干种尺度的骨干特征图;
特征融合模块,用于将各个所述样本水下图像的若干种尺度的骨干特征图输入至所述颈部网络中进行特征融合,获得各个所述样本水下图像的融合特征图;
预测模块,用于将各个所述样本水下图像的融合特征图输入至所述预测网络中,获得各个所述样本水下图像的若干个预测区域以及若干个预测区域的标签数据;
模型训练模块,用于根据各个所述样本水下图像的若干个预测区域的标签数据以及若干个标签区域的标签数据,对所述检测模型进行训练,获得目标检测模型;
检测模块,用于响应于检测指令,获得待检测水下图像,将所述待检测水下图像输入至所述目标检测模型,获得所述待检测水下图像的检测结果。
9.一种计算机设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于水下图像的目标检测方法的步骤。
10.一种存储介质,其特征在于:所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于水下图像的目标检测方法的步骤。
CN202310613728.0A 2023-05-26 2023-05-26 基于水下图像的目标检测方法、***、设备以及存储介质 Pending CN116704324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310613728.0A CN116704324A (zh) 2023-05-26 2023-05-26 基于水下图像的目标检测方法、***、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310613728.0A CN116704324A (zh) 2023-05-26 2023-05-26 基于水下图像的目标检测方法、***、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN116704324A true CN116704324A (zh) 2023-09-05

Family

ID=87842526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310613728.0A Pending CN116704324A (zh) 2023-05-26 2023-05-26 基于水下图像的目标检测方法、***、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116704324A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409191A (zh) * 2023-12-12 2024-01-16 优备科技股份有限公司 基于无人机与改进YOLOv8目标检测算法的火灾巡检预警方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409191A (zh) * 2023-12-12 2024-01-16 优备科技股份有限公司 基于无人机与改进YOLOv8目标检测算法的火灾巡检预警方法
CN117409191B (zh) * 2023-12-12 2024-03-08 优备科技股份有限公司 基于无人机与改进YOLOv8目标检测算法的火灾巡检预警方法

Similar Documents

Publication Publication Date Title
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
CN111126258B (zh) 图像识别方法及相关装置
JP2019514123A (ja) 地理的領域におけるコンテナ内に格納された量の遠隔決定
CN108229418B (zh) 人体关键点检测方法和装置、电子设备、存储介质和程序
CN109165645A (zh) 一种图像处理方法、装置以及相关设备
CN112927234A (zh) 点云语义分割方法、装置、电子设备和可读存储介质
CN111079739A (zh) 一种多尺度注意力特征检测方法
CN112989995B (zh) 文本检测方法、装置及电子设备
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
Liu et al. DCNet: A deformable convolutional cloud detection network for remote sensing imagery
CN116311214B (zh) 车牌识别方法和装置
CN112001362A (zh) 一种图像分析方法、图像分析装置及图像分析***
CN115861823B (zh) 一种基于自监督深度学习的遥感变化检测方法和装置
CN110555424A (zh) 港口集装箱布局检测方法、装置、设备及可读存储介质
CN116704324A (zh) 基于水下图像的目标检测方法、***、设备以及存储介质
CN115272887A (zh) 基于无人机检测的海岸带垃圾识别方法、装置以及设备
CN116363526A (zh) MROCNet模型构建与多源遥感影像变化检测方法及***
Guo et al. Fully convolutional DenseNet with adversarial training for semantic segmentation of high-resolution remote sensing images
CN115984712A (zh) 基于多尺度特征的遥感图像小目标检测方法及***
CN115346115A (zh) 图像目标检测方法、装置、设备和存储介质
CN104616302A (zh) 一种目标实时识别方法
CN112651351B (zh) 一种数据处理的方法和装置
Pang et al. PTRSegNet: A Patch-to-Region Bottom-Up Pyramid Framework for the Semantic Segmentation of Large-Format Remote Sensing Images
CN114120056A (zh) 小目标识别方法、装置、电子设备、介质及产品
CN112633158A (zh) 一种输电线路走廊车辆识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination