CN116563726A - 一种基于卷积神经网络的遥感图像舰船目标检测方法 - Google Patents
一种基于卷积神经网络的遥感图像舰船目标检测方法 Download PDFInfo
- Publication number
- CN116563726A CN116563726A CN202310520115.2A CN202310520115A CN116563726A CN 116563726 A CN116563726 A CN 116563726A CN 202310520115 A CN202310520115 A CN 202310520115A CN 116563726 A CN116563726 A CN 116563726A
- Authority
- CN
- China
- Prior art keywords
- ship
- network
- remote sensing
- target detection
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 68
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims abstract description 10
- 238000007499 fusion processing Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 23
- 238000010586 diagram Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 5
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 238000012805 post-processing Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Biodiversity & Conservation Biology (AREA)
- Astronomy & Astrophysics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于卷积神经网络的遥感图像舰船目标检测方法,包括构建遥感舰船图像数据集,对舰船目标进行标注;对数据集进行数据增强,划分训练集、验证集和测试集;构建基于改进RetinaNet的目标检测网络模型;初始化网络,设置训练参数,使用训练集训练目标检测网络模型;将测试集图像输入训练后的目标检测网络模型,预测舰船目标的分类和回归结果。本发明基于改进RetinaNet进行舰船目标检测;通过在特征金字塔中嵌入坐标注意力模块,强化多尺度特征融合过程,增加网络对复杂目标的关注度;通过构建方向不变模型,生成深度旋转不变特征,提高网络对旋转目标的适应能力;通过定义基于KLD的回归损失函数,解决边界不连续性问题,提升网络对密集目标的检测能力。
Description
技术领域
本发明涉及遥感图像目标检测技术领域,具体而言,尤其涉及一种基于卷积神经网络的遥感图像舰船目标检测方法。
背景技术
近年来,随着遥感卫星和光电载荷成像的快速发展,遥感图像目标检测成为遥感图像解译领域的重要研究方向。舰船作为海上运输的主要载体,在货物运输、资源勘探和事故搜救等领域都发挥着重要作用。得益于海上交通运输的飞速发展,全球舰船数量大幅增长。综上,开展遥感图像舰船目标检测研究,实现有效海域***,在军事和民用领域都具有重要研究价值。在军事领域,通过实时检测海上舰船目标,可以迅速获取敌军方位和军舰数量,从而掌握战场上的主动权;在民用领域,海上舰船目标检测可用于港口管理、海上救援,以及打击非法捕鱼和走私等。我国正处于海洋发展的黄金时期,遥感图像舰船目标检测对于维护海洋权益、发展海洋经济具有重要意义。目前,遥感图像舰船目标检测主要面临以下难点:
1、密集排列:港口舰船目标通常密集排列,大长宽比导致边界框之间的交并比(IoU)对角度变化敏感;
2、方向多变:舰船目标可能以任意方向出现,这要求检测器具有精确的角度预测能力;
3、背景复杂:近岸舰船目标的检测容易受到岸边复杂背景的干扰。传统舰船目标检测方法依赖手工设计的底层视觉特征,需要大量先验知识来设置诸多参数,复杂度高、准确度低。
得益于卷积神经网络强大的语义表征能力,基于深度学***框标注,大多在Faster R-CNN、YOLO和SSD等网络的基础上进行改进。由于舰船目标的长宽比较大,使用这类方法会导致检测框中包含大量背景信息,当舰船密集排列时的检测精度较低。无向舰船目标检测方法使用旋转框标注,常见的有RRPN、RoI-Trans和R3Det等网络。由于设置了大量不同尺度、比例和角度的锚框,这些网络存在参数多、计算量大和检测速度慢的问题。此外,这类方法均采用基于五参数的回归方法,角度的回归会面临边界不连续性问题。
发明内容
根据上述提出的技术问题,提供一种基于卷积神经网络的遥感图像舰船目标检测方法。本发明能够实现复杂背景下任意方向舰船目标的高精度检测。
本发明采用的技术手段如下:
一种基于卷积神经网络的遥感图像舰船目标检测方法,包括:
构建遥感舰船图像数据集,并对舰船目标进行标注;
对构建的感舰船图像数据集进行数据增强,并划分为训练集、验证集和测试集;
构建基于改进RetinaNet的目标检测网络模型;
初始化网络,设置训练参数,并使用训练集训练构建的目标检测网络模型;
将测试集图像输入训练后的目标检测网络模型,预测舰船目标的分类和回归结果。
进一步地,所述构建遥感舰船图像数据集,并对舰船目标进行标注,包括:
采集Google Earth卫星地图上的包含船舶目标的远海、港口和岛屿场景的遥感图像,并将图像裁剪为1000×1000像素,形成数据集;
利用旋转标注工具roLabelImg对数据集中的舰船目标进行标注,得到XML格式的标注文件。
进一步地,所述对构建的感舰船图像数据集进行数据增强,并划分为训练集、验证集和测试集,包括:
对数据集中的图像进行数据增强,包括随机翻转、随机旋转和随机缩放,得到完整数据集;
将完整数据集按8:1:1的比例划分为训练集、验证集和测试集。
进一步地,所述构建基于改进RetinaNet的目标检测网络模型,包括:
使用残差网络ResNet50作为特征提取网络;
在特征金字塔网络FPN中嵌入坐标注意力模块;
利用主动旋转滤波器ARF和定向响应池化ORPooling构建方向不变模型;
设置不同尺度和比例的水平锚框,构建分类和回归子网络;
使用MaxIoU分配策略来区分正负样本,使用Rotate-NMS后处理方法来去除冗余的预测框;
使用Focal Loss作为分类损失函数,KLD Loss作为回归损失函数。
进一步地,所述在特征金字塔网络FPN中嵌入坐标注意力模块,包括:
构建特征金字塔网络FPN:
选择ResNet50中最后三个残差块的最后一层特征图{C3,C4,C5},构建自底向上的网络;
通过横向连接的1×1卷积和自顶而下的上采样得到三层特征图{P3,P4,P5},构建自顶而下的网络;
对特征图P5先后进行两次下采样后得到特征图P6和P7;
构建坐标注意力模块:
对于输入特征图其中C、H和W分别表示通道数、高和宽;在空间维度上沿两个正交方向进行平均池化,得到水平特征图/>和垂直特征图/>
将vx和vy进行合并得到特征图并先后利用1×1卷积(实现通道压缩)和Swish激活函数对vx,y进行编码,得到特征图/>
将ven进行拆分得到特征图和/>并先后利用1×1卷积(实现通道扩张)和Sigmoid激活函数对/>和/>进行解码,得到特征图/>和
将和Fin相乘,得到输出特征图/>
嵌入坐标注意力模块:
在特征金字塔网络FPN的横向连接和自顶向下的特征融合过程中加入坐标注意力模块。
进一步地,所述利用主动旋转滤波器ARF和定向响应池化ORPooling构建方向不变模型,包括:
使用ARF来编码方向信息:
ARF是一个k×k×N的滤波器,在卷积过程中主动旋转N-1次,生成具有N个方向通道的特征图,得到显式编码的位置和方向信息;滤波器与输入特征图M之间的方向响应卷积为:
式中,I(i)为输出特征图I的第i个方向通道,为/>顺时针旋转θi得到的新滤波器,/>和M(n)分别为/>和M的第n个方向通道;I不具有旋转不变性;
使用ORPooling来提取旋转不变特征:
ORPooling选择I中响应最强的方向通道作为最终输出特征图
其中,具有旋转不变性,中心点处的任意方向目标具有相同的旋转不变特征。
进一步地,所述设置不同尺度和比例的水平锚框,构建分类和回归子网络,包括:
设置锚框的尺度为{20,21/3,22/3},比例为{1:2,1:1,2:1},特征图{P3,P4,P5,P6,P7}的每个位置上有九个锚框;
分类子网用于预测检测框中存在目标的概率,回归子网用于预测检测框的位置、大小和角度,二者均由五层3×3卷积构成;分类和回归子网的预测特征图的尺寸分别为KA×H×W和5A×H×W,其中A表示特征图中每个位置的锚框数,K表示目标的类别数。
进一步地,所述使用Focal Loss作为分类损失函数,KLD Loss作为回归损失函数,包括:
将Focal Loss定义为:
式中,Lcls为分类损失函数,t为样本的标签,p为正样本的预测概率;参数γ用于减少易分类样本的权重,使网络更加关注难分类样本,设置γ=2;参数α为平衡因子,用于平衡正负样本的数量,设置α=0.25;
将旋转边界框转换为二维高斯分布其中μ表示均值,Σ表示协方差矩阵;
计算预测框的二维高斯分布和真实框的二维高斯分布/>之间的Kullback-Leibler散度(KLD):
Dkl中的每一项都由部分参数耦合组成,使得所有参数形成了链式耦合关系;
将KLD Loss定义为:
式中,Lreg为回归损失函数;参数τ用于调整损失,设置τ=1。
进一步地,所述初始化网络,设置训练参数,并使用训练集训练构建的目标检测网络模型,包括:
使用ImageNet上的预训练权重初始化主干ResNet50;
网络训练过程中采用随机梯度下降(SGD)作为优化器,动量因子设置为0.9,权重衰减设置为0.0001;
将初始学习率设置为0.0025,批处理大小设置为2;网络共训练50k iter,在30k和60k iter时将学习率分别降低为0.00025和0.000025。
进一步地,所述将测试集图像输入训练后的目标检测网络模型,预测舰船目标的分类和回归结果,包括:
将精确率Precision和召回率Recall定义为:
式中,TP、FP和FN分别为真阳性、假阳性和假阴性样本的数量;若预测框与真实框之间的IoU大于0.5,则认为该预测框为真阳性样本;
计算平均精度AP,如下:
式中,P和R分别为精确度和召回率。
较现有技术相比,本发明具有以下优点:
1、本发明提供的基于卷积神经网络的遥感图像舰船目标检测方法,通过深度卷积神经网络提取深层语义特征,并利用特征金字塔进行特征融合,实现舰船目标的多尺度检测。
2、本发明提供的基于卷积神经网络的遥感图像舰船目标检测方法,为强化特征融合过程,在FPN中嵌入坐标注意力模块。坐标注意力模块通过捕获跨通道的信息,以及方向和位置敏感的信息,增加网络对目标的关注度,以准确定位并识别复杂背景下的舰船目标。
3、本发明提供的基于卷积神经网络的遥感图像舰船目标检测方法,为提高网络对于旋转目标的适应能力,构建方向不变模型来增强特征的一致性。利用方向不变模型生成深度旋转不变特征,有效提升任意方向舰船目标的检测精度。
4、本发明提供的基于卷积神经网络的遥感图像舰船目标检测方法,为实现有向舰船目标检测,并解决传统回归方法面临的不连续性问题,在回归子网中增加角度参数,并定义基于KLD的回归损失函数。KLD可以根据目标的长宽比特征动态调整角度参数的梯度,进而实现密集排列时舰船目标的高精度检测。
基于上述理由本发明可在遥感图像目标检测等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
图2为本发明实施例提供的遥感舰船图像数据集中的样张图。
图3为本发明实施例提供的改进RetinaNet目标检测网络的示意图。
图4为本发明实施例提供的坐标注意力模块的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。
如图1所示,本发明提供了一种基于卷积神经网络的遥感图像舰船目标检测方法,包括:
S1、构建遥感舰船图像数据集,并对舰船目标进行标注;
S2、对构建的感舰船图像数据集进行数据增强,并划分为训练集、验证集和测试集;
S3、构建基于改进RetinaNet的目标检测网络模型;
S4、初始化网络,设置训练参数,并使用训练集训练构建的目标检测网络模型;
S5、将测试集图像输入训练后的目标检测网络模型,预测舰船目标的分类和回归结果。
具体实施时,作为本发明优选的实施方式,所述步骤S1中,构建遥感舰船图像数据集,并对舰船目标进行标注,包括:
S11、采集Google Earth卫星地图上的包含船舶目标的远海、港口和岛屿场景的遥感图像,并将图像裁剪为1000×1000像素,形成数据集;如图2所示为遥感舰船图像数据集中的样张图。
S12、利用旋转标注工具roLabelImg对数据集中的舰船目标进行标注,得到XML格式的标注文件。
具体实施时,作为本发明优选的实施方式,所述步骤S2中,对构建的感舰船图像数据集进行数据增强,并划分为训练集、验证集和测试集,包括:
S21、对数据集中的图像进行数据增强,包括随机翻转、随机旋转和随机缩放,得到完整数据集;
S22、将完整数据集按8:1:1的比例划分为训练集、验证集和测试集。
具体实施时,作为本发明优选的实施方式,所述步骤S3中,构建基于改进RetinaNet的目标检测网络模型,包括:
S31、使用残差网络ResNet50作为特征提取网络;
在本实施例中,如图3所示,为改进RetinaNet目标检测网络的示意图。其中,ResNet50通过堆叠残差块来减轻深层网络的退化问题,并使用批归一化(BN)来解决梯度消失或***问题。残差块由三层卷积构成,先后为1×1卷积、3×3卷积和1×1卷积,当输入特征和输出特征的通道数相同时才有残差连接。
S32、在特征金字塔网络FPN中嵌入坐标注意力模块;
在本实施例中,所述步骤S32包括以下步骤:
S321、首先,选择ResNet50中最后三个残差块的最后一层特征图{C3,C4,C5},构建自底向上的网络;然后,通过横向连接的1×1卷积和自顶而下的上采样得到三层特征图{P3,P4,P5},构建自顶而下的网络;最后,对特征图P5先后进行两次下采样后得到特征图P6和P7。通过上述过程,实现FPN的构建;
S322、如图4所示为坐标注意力模块的示意图。对于输入特征图其中C、H和W分别表示通道数、高和宽。首先,在空间维度上沿两个正交方向进行平均池化,得到水平特征图/>和垂直特征图/>其次,将vx和vy进行合并得到特征图并先后利用1×1卷积(实现通道压缩)和Swish激活函数对vx,y进行编码,得到特征图/>然后,将ven进行拆分得到特征图/>和/>并先后利用1×1卷积(实现通道扩张)和Sigmoid激活函数对/>和/>进行解码,得到特征图和/>最后,将/>和Fin相乘,得到输出特征图/>通过上述过程,实现坐标注意力模块的构建。在FPN的横向连接和自顶向下的特征融合过程中加入坐标注意力模块。
S33、利用主动旋转滤波器ARF和定向响应池化ORPooling构建方向不变模型;
在本实施例中,所述步骤S33包括以下步骤:
S331、使用ARF来编码方向信息。ARF是一个k×k×N的滤波器,其在卷积过程中主动旋转N-1次,生成具有N个方向通道的特征图,得到显式编码的位置和方向信息。滤波器与输入特征图M之间的方向响应卷积为:
式中,I(i)为输出特征图I的第i个方向通道,为/>顺时针旋转θi得到的新滤波器,/>和M(n)分别为/>和M的第n个方向通道。I不具有旋转不变性;
S332、使用ORPooling来提取旋转不变特征。ORPooling选择I中响应最强的方向通道作为最终输出特征图
其中,具有旋转不变性。中心点处的任意方向目标具有相同的旋转不变特征。
S34、设置不同尺度和比例的水平锚框,构建分类和回归子网络;
在本实施例中,所述步骤S34包括以下步骤:
S341、设置锚框的尺度为{20,21/3,22/3},比例为{1:2,1:1,2:1},特征图{P3,P4,P5,P6,P7}的每个位置上有九个锚框;
S342、分类子网用于预测检测框中存在目标的概率,回归子网用于预测检测框的位置、大小和角度,二者均由五层3×3卷积构成。分类和回归子网的预测特征图的尺寸分别为KA×H×W和5A×H×W,其中A表示特征图中每个位置的锚框数,K表示目标的类别数。
S35、使用MaxIoU分配策略来区分正负样本,使用Rotate-NMS后处理方法来去除冗余的预测框;
在本实施例中,所述步骤S35包括以下步骤:
S351、使用MaxIoU分配策略来区分正负样本。若锚框与真实框的IoU大于0.5,则为正样本;若锚框与所有真实框的IoU都小于0.4,则为负样本;其余的锚框则被舍弃;
S352、使用Rotate-NMS后处理方法来去除冗余的预测框。设置IoU阈值为0.75。
S36、使用Focal Loss作为分类损失函数,KLD Loss作为回归损失函数。
在本实施例中,所述步骤S36包括以下步骤:
S361、将Focal Loss定义为:
式中,Lcls为分类损失函数,t为样本的标签,p为正样本的预测概率;参数γ用于减少易分类样本的权重,使网络更加关注难分类样本,设置γ=2;参数α为平衡因子,用于平衡正负样本的数量,设置α=0.25;
S362、将旋转边界框转换为二维高斯分布其中μ表示均值,Σ表示协方差矩阵;
S363、计算预测框的二维高斯分布和真实框的二维高斯分布/>之间的Kullback-Leibler散度(KLD):
Dkl中的每一项都由部分参数耦合组成,使得所有参数形成了链式耦合关系;
S364、将KLD Loss定义为:
式中,Lreg为回归损失函数;参数τ用于调整损失,设置τ=1。
具体实施时,作为本发明优选的实施方式,所述步骤S4中,初始化网络,设置训练参数,并使用训练集训练构建的目标检测网络模型,包括:
S41、使用ImageNet上的预训练权重初始化主干ResNet50;
S42、网络训练过程中采用随机梯度下降(SGD)作为优化器,动量因子设置为0.9,权重衰减设置为0.0001;
S43、将初始学习率设置为0.0025,批处理大小设置为2;网络共训练50k iter,在30k和60k iter时将学习率分别降低为0.00025和0.000025。
具体实施时,作为本发明优选的实施方式,所述步骤S5中,将测试集图像输入训练后的目标检测网络模型,预测舰船目标的分类和回归结果,包括:
S51、将精确率Precision和召回率Recall定义为:
式中,TP、FP和FN分别为真阳性、假阳性和假阴性样本的数量;若预测框与真实框之间的IoU大于0.5,则认为该预测框为真阳性样本;
S52、计算平均精度AP,如下:
式中,P和R分别为精确度和召回率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于卷积神经网络的遥感图像舰船目标检测方法,其特征在于,包括:
构建遥感舰船图像数据集,并对舰船目标进行标注;
对构建的感舰船图像数据集进行数据增强,并划分为训练集、验证集和测试集;
构建基于改进RetinaNet的目标检测网络模型;
初始化网络,设置训练参数,并使用训练集训练构建的目标检测网络模型;
将测试集图像输入训练后的目标检测网络模型,预测舰船目标的分类和回归结果。
2.根据权利要求1所述的基于卷积神经网络的遥感图像舰船目标检测方法,其特征在于,所述构建遥感舰船图像数据集,并对舰船目标进行标注,包括:
采集Google Earth卫星地图上的包含船舶目标的远海、港口和岛屿场景的遥感图像,并将图像裁剪为1000×1000像素,形成数据集;
利用旋转标注工具roLabelImg对数据集中的舰船目标进行标注,得到XML格式的标注文件。
3.根据权利要求1所述的基于卷积神经网络的遥感图像舰船目标检测方法,其特征在于,所述对构建的感舰船图像数据集进行数据增强,并划分为训练集、验证集和测试集,包括:
对数据集中的图像进行数据增强,包括随机翻转、随机旋转和随机缩放,得到完整数据集;
将完整数据集按8:1:1的比例划分为训练集、验证集和测试集。
4.根据权利要求1所述的基于卷积神经网络的遥感图像舰船目标检测方法,其特征在于,所述构建基于改进RetinaNet的目标检测网络模型,包括:
使用残差网络ResNet50作为特征提取网络;
在特征金字塔网络FPN中嵌入坐标注意力模块;
利用主动旋转滤波器ARF和定向响应池化ORPooling构建方向不变模型;
设置不同尺度和比例的水平锚框,构建分类和回归子网络;
使用MaxIoU分配策略来区分正负样本,使用Rotate-NMS后处理方法来去除冗余的预测框;
使用Focal Loss作为分类损失函数,KLD Loss作为回归损失函数。
5.根据权利要求4所述的基于卷积神经网络的遥感图像舰船目标检测方法,其特征在于,所述在特征金字塔网络FPN中嵌入坐标注意力模块,包括:
构建特征金字塔网络FPN:
选择ResNet50中最后三个残差块的最后一层特征图{C3,C4,C5},构建自底向上的网络;
通过横向连接的1×1卷积和自顶而下的上采样得到三层特征图{P3,P4,P5},构建自顶而下的网络;
对特征图P5先后进行两次下采样后得到特征图P6和P7;
构建坐标注意力模块:
对于输入特征图其中C、H和W分别表示通道数、高和宽;在空间维度上沿两个正交方向进行平均池化,得到水平特征图/>和垂直特征图/>
将vx和vy进行合并得到特征图并先后利用1×1卷积(实现通道压缩)和Swish激活函数对vx,y进行编码,得到特征图/>
将ven进行拆分得到特征图和/>并先后利用1×1卷积(实现通道扩张)和Sigmoid激活函数对/>和/>进行解码,得到特征图/>和/>
将和Fin相乘,得到输出特征图/>
嵌入坐标注意力模块:
在特征金字塔网络FPN的横向连接和自顶向下的特征融合过程中加入坐标注意力模块。
6.根据权利要求4所述的基于卷积神经网络的遥感图像舰船目标检测方法,其特征在于,所述利用主动旋转滤波器ARF和定向响应池化ORPooling构建方向不变模型,包括:
使用ARF来编码方向信息:
ARF是一个k×k×N的滤波器,在卷积过程中主动旋转N-1次,生成具有N个方向通道的特征图,得到显式编码的位置和方向信息;滤波器与输入特征图M之间的方向响应卷积为:
式中,I(i)为输出特征图I的第i个方向通道,为/>顺时针旋转θi得到的新滤波器,和M(n)分别为/>和M的第n个方向通道;I不具有旋转不变性;
使用ORPooling来提取旋转不变特征:
ORPooling选择I中响应最强的方向通道作为最终输出特征图
0<n<N-1
其中,具有旋转不变性,中心点处的任意方向目标具有相同的旋转不变特征。
7.根据权利要求4所述的基于卷积神经网络的遥感图像舰船目标检测方法,其特征在于,所述设置不同尺度和比例的水平锚框,构建分类和回归子网络,包括:
设置锚框的尺度为{20,21/3,22/3},比例为{1:2,1:1,2:1},特征图{P3,P4,P5,P6,P7}的每个位置上有九个锚框;
分类子网用于预测检测框中存在目标的概率,回归子网用于预测检测框的位置、大小和角度,二者均由五层3×3卷积构成;分类和回归子网的预测特征图的尺寸分别为KA×H×W和5A×H×W,其中A表示特征图中每个位置的锚框数,K表示目标的类别数。
8.根据权利要求4所述的基于卷积神经网络的遥感图像舰船目标检测方法,其特征在于,所述使用Focal Loss作为分类损失函数,KLD Loss作为回归损失函数,包括:
将FocalLoss定义为:
式中,Lcls为分类损失函数,t为样本的标签,p为正样本的预测概率;参数γ用于减少易分类样本的权重,使网络更加关注难分类样本,设置γ=2;参数α为平衡因子,用于平衡正负样本的数量,设置α=0.25;
将旋转边界框转换为二维高斯分布其中μ表示均值,Σ表示协方差矩阵;
计算预测框的二维高斯分布和真实框的二维高斯分布/>之间的Kullback-Leibler散度(KLD):
Dkl中的每一项都由部分参数耦合组成,使得所有参数形成了链式耦合关系;
将KLD Loss定义为:
式中,Lreg为回归损失函数;参数τ用于调整损失,设置τ=1。
9.根据权利要求1所述的基于卷积神经网络的遥感图像舰船目标检测方法,其特征在于,所述初始化网络,设置训练参数,并使用训练集训练构建的目标检测网络模型,包括:
使用ImageNet上的预训练权重初始化主干ResNet50;
网络训练过程中采用随机梯度下降(SGD)作为优化器,动量因子设置为0.9,权重衰减设置为0.0001;
将初始学习率设置为0.0025,批处理大小设置为2;网络共训练50kiter,在30k和60kiter时将学习率分别降低为0.00025和0.000025。
10.根据权利要求1所述的基于卷积神经网络的遥感图像舰船目标检测方法,其特征在于,所述将测试集图像输入训练后的目标检测网络模型,预测舰船目标的分类和回归结果,包括:
将精确率Precision和召回率Recall定义为:
式中,TP、FP和FN分别为真阳性、假阳性和假阴性样本的数量;若预测框与真实框之间的IoU大于0.5,则认为该预测框为真阳性样本;
计算平均精度AP,如下:
式中,P和R分别为精确度和召回率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310520115.2A CN116563726A (zh) | 2023-05-08 | 2023-05-08 | 一种基于卷积神经网络的遥感图像舰船目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310520115.2A CN116563726A (zh) | 2023-05-08 | 2023-05-08 | 一种基于卷积神经网络的遥感图像舰船目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563726A true CN116563726A (zh) | 2023-08-08 |
Family
ID=87497639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310520115.2A Pending CN116563726A (zh) | 2023-05-08 | 2023-05-08 | 一种基于卷积神经网络的遥感图像舰船目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563726A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740622A (zh) * | 2023-08-16 | 2023-09-12 | 山东黄河三角洲国家级自然保护区管理委员会 | 基于多尺度特征编码的密集油滴目标检测计数方法和装置 |
CN116823838A (zh) * | 2023-08-31 | 2023-09-29 | 武汉理工大学三亚科教创新园 | 高斯先验标签分配与特征解耦的海洋船舶检测方法与*** |
CN117315614A (zh) * | 2023-11-28 | 2023-12-29 | 南昌大学 | 一种基于改进YOLOv7的交通目标检测方法 |
CN117392505A (zh) * | 2023-10-12 | 2024-01-12 | 同济大学 | 一种基于detr改进算法的图像目标检测方法及*** |
-
2023
- 2023-05-08 CN CN202310520115.2A patent/CN116563726A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740622A (zh) * | 2023-08-16 | 2023-09-12 | 山东黄河三角洲国家级自然保护区管理委员会 | 基于多尺度特征编码的密集油滴目标检测计数方法和装置 |
CN116740622B (zh) * | 2023-08-16 | 2023-10-27 | 山东黄河三角洲国家级自然保护区管理委员会 | 基于多尺度特征编码的密集油滴目标检测计数方法和装置 |
CN116823838A (zh) * | 2023-08-31 | 2023-09-29 | 武汉理工大学三亚科教创新园 | 高斯先验标签分配与特征解耦的海洋船舶检测方法与*** |
CN116823838B (zh) * | 2023-08-31 | 2023-11-14 | 武汉理工大学三亚科教创新园 | 高斯先验标签分配与特征解耦的海洋船舶检测方法与*** |
CN117392505A (zh) * | 2023-10-12 | 2024-01-12 | 同济大学 | 一种基于detr改进算法的图像目标检测方法及*** |
CN117315614A (zh) * | 2023-11-28 | 2023-12-29 | 南昌大学 | 一种基于改进YOLOv7的交通目标检测方法 |
CN117315614B (zh) * | 2023-11-28 | 2024-03-29 | 南昌大学 | 一种基于改进YOLOv7的交通目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109583369B (zh) | 一种基于目标区域分割网络的目标识别方法及装置 | |
CN111738112B (zh) | 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法 | |
CN110135267B (zh) | 一种大场景sar图像细微目标检测方法 | |
CN110276269B (zh) | 一种基于注意力机制的遥感图像目标检测方法 | |
CN116563726A (zh) | 一种基于卷积神经网络的遥感图像舰船目标检测方法 | |
CN113569667B (zh) | 基于轻量级神经网络模型的内河船舶目标识别方法及*** | |
Liu et al. | Detection of multiclass objects in optical remote sensing images | |
CN110796048B (zh) | 一种基于深度神经网络的船舰目标实时检测方法 | |
CN109800735A (zh) | 一种船目标精确检测与分割方法 | |
CN112560671B (zh) | 基于旋转卷积神经网络的船舶检测方法 | |
CN111753677B (zh) | 基于特征金字塔结构的多角度遥感船舶图像目标检测方法 | |
CN111079739B (zh) | 一种多尺度注意力特征检测方法 | |
Gong et al. | Object detection based on improved YOLOv3-tiny | |
Ding et al. | Alexnet feature extraction and multi-kernel learning for objectoriented classification | |
CN104392228A (zh) | 基于条件随机场模型的无人机图像目标类检测方法 | |
CN115019182B (zh) | 遥感图像目标细粒度识别方法、***、设备及存储介质 | |
Wang et al. | Ship detection based on fused features and rebuilt YOLOv3 networks in optical remote-sensing images | |
CN113408340A (zh) | 基于增强型特征金字塔的双极化sar小型船只检测方法 | |
CN106845343A (zh) | 一种光学遥感图像海上平台自动检测方法 | |
CN113487600A (zh) | 一种特征增强尺度自适应感知船舶检测方法 | |
Ding et al. | Building detection in remote sensing image based on improved YOLOv5 | |
Yildirim et al. | Ship detection in optical remote sensing images using YOLOv4 and Tiny YOLOv4 | |
Zhao et al. | Multitask learning for SAR ship detection with Gaussian-mask joint segmentation | |
Chang et al. | MLSDNet: Multi-class Lightweight SAR Detection Network Based on Adaptive scale distribution attention | |
Jie et al. | Target detection in sonar image based on faster RCNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |