CN111563473B - 基于密集特征融合和像素级注意力的遥感舰船识别方法 - Google Patents

基于密集特征融合和像素级注意力的遥感舰船识别方法 Download PDF

Info

Publication number
CN111563473B
CN111563473B CN202010418182.XA CN202010418182A CN111563473B CN 111563473 B CN111563473 B CN 111563473B CN 202010418182 A CN202010418182 A CN 202010418182A CN 111563473 B CN111563473 B CN 111563473B
Authority
CN
China
Prior art keywords
frame
network
remote sensing
mean
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010418182.XA
Other languages
English (en)
Other versions
CN111563473A (zh
Inventor
韩雅琪
彭真明
潘为年
鲁天舒
刘安
王慧
张天放
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010418182.XA priority Critical patent/CN111563473B/zh
Publication of CN111563473A publication Critical patent/CN111563473A/zh
Application granted granted Critical
Publication of CN111563473B publication Critical patent/CN111563473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像目标识别领域,提供了一种基于密集特征融合和像素级注意力的遥感舰船识别方法,其主旨在于克服经典神经网络在遥感图像舰船目标识别任务下的易将多个密集目标识别为一个目标、小目标大量漏检、边界框易重叠等问题。其主要方案为,对遥感图像数据集进行数据集划分,得到训练集和测试集,并进行训练集的数据增强;计算原始遥感图像数据集的RGB三通道平均值rmean,gmean,bmean,将扩充后数据集中的图像的RGB三通道值与rmean,gmean,bmean对应相减;将得到的数据集输入改进的Faster RCNN网络进行训练,该网络的核心模块为密集特征融合网络和像素级注意力网络,网络输出候选旋转框及其类别得分;对得到的结果进行基于skew IOU的旋转框非极大值抑制,即可得到遥感图像舰船目标的识别结果。

Description

基于密集特征融合和像素级注意力的遥感舰船识别方法
技术领域
本发明涉及一种基于密集特征融合和像素级注意力的遥感舰船识别方法,属于遥感图像处理中的目标识别领域。
背景技术
随着遥感技术的实时性和运行性的大幅增加,各类遥感图像产品正向着多尺度、多频率、全天候、高精度和高效快速的目标发展。面对海量的遥感图像,人工解译已经无法胜任,对遥感图像的二次信息提取和目标识别等数据处理变得越来越重要,已变成遥感图像的主要研究方向,对于遥感图像的处理越来越反映出整个领域结构及软硬件水平最主要的衡量标准。
遥感技术也越来越多的被用在海洋探测识别的领域中来,其中遥感图像舰船目标识别,尤其是复杂背景下的船舶自动检测和识别在国防建设、港口船舶航行管理、海洋渔业监控、海上救援、货物运输等方面均有重要应用价值。
目前对于遥感图像舰船目标识别任务主要有两类方法,一类是基于传统人工特征结合分类器的方法,此类方法对专家先验知识有一定要求,识别正确率依赖人工特征的设计,稳定性较差;另一类是基于深度学习的方法,此类方法降低了对专家先验知识的要求,稳定性较好。基于深度学习的方法可进一步划分为以YOLOv3为代表的单步识别网络和以Faster RCNN为代表的双步识别网络,单步识别网络速度更快但精度有所欠缺,双步识别网络速度稍慢但精度较高。但由于遥感图像舰船目标的图像质量差、背景复杂、舰船目标的尺度跨度大、长宽比极端、分布密集等特点与难点,经典神经网络在遥感图像舰船目标识别任务也表现出了一定的局限性。
此外,由于目前缺乏大规模的遥感图像舰船目标公开数据集,考虑到数据集标注工作的耗时性,遥感图像舰船目标数据集规模受限,样本量过少时会引起网络的过拟合现象。针对小样本学习问题,目前的研究主要集中在两个方向:数据扩充和迁移学习。其中,数据扩充通过旋转、随机裁剪、添加噪声等手段在原数据集的基础上扩大数据集规模,可有效解决过拟合现象;迁移学习在超大规模数据集上训练出的预训练模型的基础上进行网络参数的微调,可以在极大地缩短网络训练时间的同时减少过拟合现象。
发明内容
本发明的目的在于:针对遥感图像舰船目标的图像质量差、背景复杂、舰船目标的尺度跨度大、长宽比极端、分布密集等问题,在Fatser RCNN网络的基础上引入密集特征融合网络和像素级注意力网络以及其他改进措施,克服经典神经网络在遥感图像舰船目标识别任务下的易将多个密集目标识别为一个目标、小目标大量漏检、边界框易重叠等局限性,提升识别准确率和鲁棒性。
本发明为解决上述技术问题采用以下技术方案:
一种基于密集特征融合和像素级注意力的遥感舰船识别方法,包括如下步骤:
步骤1:对获取的遥感图像数据集进行数据集划分,得到训练集和测试集,通过随机翻转、旋转、添加高斯噪声手段进行训练集的数据增强以降低小样本学习情况下的过拟合风险;
步骤2:计算原始遥感图像数据集的RGB三通道平均值rmean,gmean,bmean,将步骤1得到的扩充后数据集中的图像的RGB三通道值与rmean,gmean,bmean对应相减,经过RBG均值相减操作后的数据集更能在网络训练中突出目标的差异性,提升训练效果;
步骤3:将步骤2得到的数据集输入改进的Faster RCNN网络进行训练,网络输出旋转框及其类别得分;
步骤4:对步骤3得到的结果进行基于skew IOU的旋转框的非极大值抑制,即可得到遥感图像舰船目标的识别结果。
进一步地,所述步骤1的具体步骤如下:
步骤1.1:将遥感图像数据集随机划分为训练集与测试集;
步骤1.2:对步骤1.1所得训练集进行数据扩充,数据扩充手段包括:翻转、旋转、随机裁剪、高斯噪声,将以上扩充手段随机组合应用在训练集图像上。
进一步地,所述步骤3的具体计算方法如下:
步骤3.1:使用经ImageNet预训练的Resnet网络参数进行网络初始化;
步骤3.2:锁定网络底层参数,使其在整体训练过程中保持初始值;
步骤3.3:随机选取步骤2得到的图像样本输入改进的Faster RCNN网络,该网络可划分为三个网络部件:基于Resnet的特征融合网络、像素级注意力网络、基于RPN的识别网络;
其中,基于Resnet的特征融合网络先使用残差块结构对原始图像进行特征提取,得到分辨率分别为原图的1/42,1/82,1/162,1/322的4个特征图Ci(i∈[2,5]),然后进行自顶向下的特征融合得到4个特征图Pi(i∈[2,5]),式为:
Figure GDA0002523380850000021
P5=Conv1×1(C5)
其中,A为CBAM模块,Upsample为双线性差值上采样;
像素级注意力网络包括空间注意力分支和通道注意力分支,其中,空间注意力分支以特征图Pi(i∈[2,5])为输入,经过4层256通道的Conv3×3操作与2个1层的2通道Conv3×3操作后,再经过softmax操作,得到2个与Pi(i∈[2,5])相同分辨率的单通道掩模M1与M2,M1与M2的取值均在[0,1]区间,其中M1用于区分目标与背景,为了突出目标、抑制背景,M2用于区分目标与目标,为了在密集目标情况下突出目标边界,掩模M1与M2加权相加得到空间注意力掩模M;通道注意力分支以特征图Pi(i∈[2,5])为输入,经过CBAM模块的通道注意力提取部分后得到通道数与Pi(i∈[2,5])相同的长宽为1×1的通道注意力C,将Pi(i∈[2,5])与空间注意力掩模M相乘,再与通道注意力C相乘得到P'i(i∈[2,5]);
基于RPN的识别网络以Pi'(i∈[2,5])为输入,分别经过共享权重的RPN网络后在特征图的每个点上得到K个水平候选框,在特征图P2'上对水平候选框进行ROI Align,其结果经过两个全连接层后输入并联的水平框回归分支、旋转框回归分支、舰船底层类别预测分支、舰船上级类别预测分支,各个分支的全连接层的神经元个数分别为4K,5K,K,K,其中水平框的回归公式为:
ux=(x-xa)/wa,uy=(y-ya)/ha,
uw=log(w/wa),uh=log(h/ha),
u'x=(x'-xa)/wa,u'y=(y'-ya)/ha,
u'w=log(w'/wa),u'h=log(h'/ha),
其中,(x,y)代表水平框的中心点坐标,w代表水平框的宽,h代表水平框的宽长,x,xa,x'分别代表预测框、锚框(Anchor)、真实框的中心x轴坐标,y,ya,y'分别代表预测框、锚框、真实框的中心y轴坐标,w,wa,w'分别代表预测框、锚框、真实框的宽,h,ha,h'分别代表预测框、锚框、真实框的宽;
旋转框的回归公式为:
vx=(x-xa)/wa,vy=(y-ya)/ha,
vw=log(w/wa),vh=log(h/ha),vθ=θ-θa
v'x=(x'-xa)/wa,v'y=(y'-ya)/ha,
v'w=log(w'/wa),v'h=log(h'/ha),v'θ=θ'-θa
其中,θ,θa,θ'分别代表预测框、锚框、真实框的旋转角度;
步骤3.4:根据步骤3.3的输出计算损失函数,具体为:
Figure GDA0002523380850000041
Figure GDA0002523380850000042
其中N,M分别表示候选框和真实框的总个数,tn
Figure GDA0002523380850000043
分别代表目标的底层标签和上级标签,pn
Figure GDA0002523380850000044
分别代表经由softmax函数计算得到的舰船底层类别和上层类别的概率分布,t'n只能取0或1(t'n取1表示前景,取0表示背景),v'*j,u'*j分别表示预测的旋转框回归向量和水平框回归向量,v*j,u*j分别表示旋转框的目标回归向量和水平框的目标回归向量,
Figure GDA0002523380850000045
分别代表掩模一在(i,j)像素处的真实标签和预测值,
Figure GDA0002523380850000046
分别代表掩模二在(i,j)像素处的真实标签和预测值,IoU,IoUnk,
Figure GDA0002523380850000047
分别代表预测框n与对应真实框kn、预测框n与真实框k,预测框n对应的真实框kn与真实框k的交并比,超参数λi(i∈[1,5])和α均为权重系数,Lcls,Lcls_up和Latt均为softmax交叉熵函数,Lreg为smooth L1函数;
步骤3.5:判断当前训练次数达到预设值,若未达到,则进行下一步,若达到,则将测试集输入训练完毕的网络得到旋转框及其类别得分,然后跳至步骤4;
步骤3.6:根据步骤3.4计算得到的损失,使用Adam算法进行反向传播,更新网络参数,具体为:
Figure GDA0002523380850000048
其中t为迭代轮次,W[t]为经t次迭代后的网络权重,L为步骤3.4得到的损失函数,α为学习率,β1和β2为超参数,
Figure GDA0002523380850000051
均为第t次迭代时产生的中间变量,网络权重更新之后,返回步骤3.3;
进一步地,所述步骤4的具体步骤如下:
步骤4.1:创建存放待处理旋转候选框的集合H,初始化为步骤3得到的全体共N个旋转预测框,并将集合H中的旋转候选框按步骤3得到的类别得分降序排序;
步骤4.2:创建存放最优框的集合M,初始化为空集;
步骤4.3:将集合H中得分最高的框m从集合H移动到集合M;
步骤4.4:遍历集合中的所有旋转候选框,分别与框m计算skew IOU交并比,若高于阈值,则将该框从集合H中移除;
步骤4.5:若集合H为空,则输出最优框集合M,M即为遥感图像舰船目标的识别结果,若不为空,则返回步骤4.3;
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.一种基于密集特征融合和像素级注意力的遥感舰船识别方法,通过使卷积神经网络的方式避免使用人工设计特征,提高了对遥感图像舰船目标的识别稳定性;
2.本发明采用旋转框对舰船目标进行框定,避免了使用水平框时目标边界框时不可接受的大量重叠,边界框之间的大量重叠会导致后续非极大值抑制操作错误地抑制预测正确的边界框,从而导致大量漏检,使用旋转框在避免该问题的同时极大地提高了舰船目标识别结果的视觉效果,但舰船目标的高长宽比特性使得旋转框的准确性对角度信息高度敏感,微小的角度偏差就会导致预测框与真实框交并比的急剧下降,不利于后续的非极大值抑制操作,本发明保留了水平边界框回归分支,帮助网络更快地学习到目标位置,使网络更专注于角度信息的学习,极大提升了网络的识别准确率;此外,在旋转框回归分支的损失函数中新增IOU因子,解决角度周期性引起的损失函数突变问题,进一步提升了识别准确率;
3.本发明在Faster RCNN网络的基础上新增了自顶向下的密集特征融合网络,平衡了高层特征图语义信息强但位置信息弱、低层特征图语义信息弱但位置信息强的矛盾,密集特征融合网络的各层输出都参与RPN网络对候选框的提取,各层特征图的感受野与各个尺寸的锚框相匹配,使得RPN网络输出的候选框精度更高,使用密集特征融合网络的特征最丰富、分辨率最高的最底层网络进行最后的位置和类别预测,密集特征融合网络的引入大大提升了对各个尺度尤其是小型舰船的识别效果,极大减少了小型舰船的漏检问题;
4.本发明新增了像素级注意力网络,该网络的可监督特性利于网络针对特定目的的学习,双掩模机制的引入使网络既能突出目标、抑制背景杂波,又能在密集目标场景下突出目标间的边界、减少目标间的粘连模糊现象,像素级注意力网络的引入极大提升了复杂场景下密集舰船目标的识别准确率;
5.本发明在预测网络中新增了上级标签分支,帮助网络学习众多舰船类别的潜在类间关系,提升了对数量较少的舰船类别的识别准确率和鲁棒性,降低了数量较少的舰船类别的过拟合风险。
附图说明
为了更清楚地说明本发明实施例的技术方案,本发明将通过例子并参照附图的方式说明,其中:
图1是基于密集特征融合和像素级注意力的遥感舰船识别方法的流程图;
图2是基于Resnet的特征融合网络的网络结构图;
图3是像素级注意力网络的网络结构图;
图4是底层类别与上级类别的概念释义图;
图5是本发明实施例一采用的原始遥感图像;
图6是本发明实施例一的注意力掩模真实值;
图7是本发明实施例一经过网络的输出结果;
图8是本发明实施例一的舰船目标最终识别结果;
图9是若干遥感图像样本实施本发明后的识别结果。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
下面结合图1至图9对本发明作详细说明。
一种基于密集特征融合和像素级注意力的遥感图像舰船目标识别方法,流程图如图1所示,具体包括如下步骤:
步骤1:对获取的遥感图像数据集进行数据集划分,得到训练集和测试集,通过随机翻转、旋转、添加高斯噪声手段进行训练集的数据增强以降低小样本学习情况下的过拟合风险;
步骤1.1:根据遥感图像数据集的图像数量进行数据集的划分,一般情况下,若图像数量的数量级在104及以下,可按照7:3的比例随机划分训练集与测试集,若图像数量的数量级在105及以上,可按照98:2的比例随机划分训练集与测试集;
步骤1.2:对步骤1.1所得训练集进行数据扩充,数据扩充手段包括:翻转、旋转、随机裁剪、高斯噪声,将以上扩充手段随机组合应用在训练集图像上,使用扩充后的训练集进行网络的训练可以提升网络的鲁棒性,避免过拟合现象。
步骤2:计算原始遥感图像数据集的RGB三通道平均值rmean,gmean,bmean,将步骤1得到的扩充后数据集中的图像的RGB三通道值与rmean,gmean,bmean对应相减,经过RBG均值相减操作后的数据集更能在网络训练中突出目标的差异性,提升训练效果;
步骤3:将步骤2得到的数据集输入改进的Faster RCNN网络进行训练,示例样本如图5所示;
步骤3.1:使用经ImageNet预训练的Resnet网络参数进行网络初始化;
步骤3.2:锁定网络参数中的底层参数,使其在整体训练过程中保持初始值;
步骤3.3:随机选取步骤3.2得到的图像样本输入改进的Faster RCNN网络,该网络可划分为三个网络部件:基于Resnet的特征融合网络、像素级注意力网络、基于RPN的识别网络;
其中,基于Resnet的特征融合网络的结构图如图2所示,先使用残差块结构对原始图像进行特征提取,得到分辨率分别为原图的1/42,1/82,1/162,1/322的4个特征图Ci(i∈[2,5]),然后进行自顶向下的特征融合得到4个特征图Pi(i∈[2,5]),式为:
Figure GDA0002523380850000071
P5=Conv1×1(C5)
其中,A为CBAM模块,Upsample为双线性差值上采样;
像素级注意力网络结构如图3所示,包括空间注意力分支和通道注意力分支,其中,空间注意力分支以特征图Pi(i∈[2,5])为输入,经过4层256通道的Conv3×3操作与2个1层的2通道Conv3×3操作后,再经过softmax操作,得到2个与Pi(i∈[2,5])相同分辨率的单通道掩模M1与M2,M1与M2的取值均在[0,1]区间,其中M1用于区分目标与背景,为了突出目标、抑制背景,M2用于区分目标与目标,为了在密集目标情况下突出目标边界,掩模M1与M2加权相加得到空间注意力掩模M,监督网络学习M1与M2的两个真实值掩模分别如图6(a)、图6(b)所示,分别意在区分目标与背景、目标与目标;通道注意力分支以特征图Pi(i∈[2,5])为输入,经经过CBAM模块的通道注意力提取部分后得到通道数与Pi(i∈[2,5])相同的长宽为1×1的通道注意力C,将Pi(i∈[2,5])与空间注意力掩模M相乘,再与通道注意力C相乘得到P'i(i∈[2,5]);
基于RPN的识别网络以Pi'(i∈[2,5])为输入,分别经过共享权重的RPN网络后在特征图的每个点上得到K个水平候选框,在特征图P2'上对水平候选框进行ROI Align,其结果经过两个全连接层后输入并联的水平框回归分支、旋转框回归分支、舰船底层类别预测分支、舰船上级类别预测分支(底层类别与上级类别的含义详见图4),各个分支的全连接层的神经元个数分别为4K,5K,K,K。其中水平框的回归公式为:
ux=(x-xa)/wa,uy=(y-ya)/ha,
uw=log(w/wa),uh=log(h/ha),
u'x=(x'-xa)/wa,u'y=(y'-ya)/ha,
u'w=log(w'/wa),u'h=log(h'/ha),
其中,(x,y)代表水平框的中心点坐标,w代表水平框的宽,h代表水平框的宽长,x,xa,x'分别代表预测框、锚框(Anchor)、真实框的中心x轴坐标,y,ya,y'分别代表预测框、锚框、真实框的中心y轴坐标,w,wa,w'分别代表预测框、锚框、真实框的宽,h,ha,h'分别代表预测框、锚框、真实框的宽;
旋转框的回归公式为:
vx=(x-xa)/wa,vy=(y-ya)/ha,
vw=log(w/wa),vh=log(h/ha),vθ=θ-θa
v'x=(x'-xa)/wa,v'y=(y'-ya)/ha,
v'w=log(w'/wa),v'h=log(h'/ha),v'θ=θ'-θa
其中,θ,θa,θ'分别代表预测框、锚框、真实框的旋转角度;
步骤3.4:根据步骤3.3的输出计算损失函数,具体为:
Figure GDA0002523380850000081
Figure GDA0002523380850000082
其中N,M分别表示候选框和真实框的总个数,tn
Figure GDA0002523380850000083
分别代表目标的底层标签和上级标签,pn
Figure GDA0002523380850000091
分别代表经由softmax函数计算得到的舰船底层类别和上层类别的概率分布,t'n只能取0或1(t'n取1表示前景,取0表示背景),v'*j,u'*j分别表示预测的旋转框回归向量和水平框回归向量,v*j,u*j分别表示旋转框的目标回归向量和水平框的目标回归向量,
Figure GDA0002523380850000092
分别代表掩模一在(i,j)像素处的真实标签和预测值,
Figure GDA0002523380850000093
分别代表掩模二在(i,j)像素处的真实标签和预测值,IoU,IoUnk,
Figure GDA0002523380850000094
分别代表预测框n与对应真实框kn、预测框n与真实框k,预测框n对应的真实框kn与真实框k的交并比,超参数λi(i∈[1,5])和α均为权重系数,Lcls,Lcls_up和Latt均为softmax交叉熵函数,Lreg为smooth L1函数;
步骤3.5:判断当前训练次数达到预设值,若未达到,则进行下一步,若达到,则将测试集输入训练完毕的网络得到旋转框及其类别得分,然后跳至步骤4;
步骤3.6:根据步骤3.4计算得到的损失,使用Adam算法进行反向传播,更新网络参数,具体为:
Figure GDA0002523380850000095
其中t为迭代轮次,W[t]为经t次迭代后的网络权重,L为步骤3.4得到的损失函数,α为学习率,β1和β2为超参数,
Figure GDA0002523380850000096
均为第t次迭代时产生的中间变量,网络权重更新之后,返回步骤3.3;
步骤4:对步骤3得到的结果进行基于skew IOU的旋转框的非极大值抑制,即可得到遥感图像舰船目标的识别结果。
步骤4.1:创建存放待处理候选框的集合H,初始化为步骤3得到的全体共N个预测框,并将集合H中的候选框按步骤3得到的类别得分降序排序;
步骤4.2:创建存放最优框的集合M,初始化为空集;
步骤4.3:将集合H中得分最高的框m从集合H移动到集合M;
步骤4.4:遍历集合中的所有候选框,分别与框m计算skew IOU交并比,如果高于阈值(对于旋转框框定的舰船目标一般为0.05),则将该框从集合H中移除;
步骤4.5:若集合H为空,则输出最优框集合M,M即为遥感图像舰船目标的识别结果,若不为空,则返回步骤4.3,示例样本的输出结果如图8所示,图9提供了若干其他遥感图像样本的识别结果;
本发明在获取遥感图像数据集后,先组合翻转、旋转、随机裁剪、高斯噪声等手段对训练集进行数据扩充;再减去原数据集的RBG三通道平均值;然后输入改进的FasterRCNN网络进行训练,输出舰船目标的旋转标定框及各类别得分;最后进行旋转框的非极大值抑制,输出最优旋转标定框及舰船类别。本发明针对遥感图像舰船目标的图像质量差、背景复杂、舰船目标的尺度跨度大、长宽比极端、分布密集等问题,大量改进了Faster RCNN网络,大大提高了复杂场景下密集舰船目标的识别准确率,提升了对各个尺度尤其是小型舰船的识别效果,提升了对数量较少的舰船类别的识别准确率和鲁棒性,同时由于采用了旋转框进行目标框定,极大提升了输出结果的视觉效果。
以上所述,仅为本发明的优选实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (3)

1.一种基于密集特征融合和像素级注意力的遥感舰船识别方法,其特征在于,包括如下步骤:
步骤1:对获取的遥感图像数据集进行数据集划分,得到训练集和测试集,通过随机翻转、旋转、添加高斯噪声手段进行训练集的数据增强以降低小样本学习情况下的过拟合风险;
步骤2:计算原始遥感图像数据集的RGB三通道平均值rmean,gmean,bmean,将步骤1得到的扩充后数据集中的图像的RGB三通道值与rmean,gmean,bmean对应相减;
步骤3:将步骤2得到的数据集输入改进的Faster RCNN网络进行训练,网络输出候选旋转框及其类别得分;
步骤4:对步骤3得到的结果进行基于skew IOU的旋转框非极大值抑制,即可得到遥感图像舰船目标的识别结果;
所述步骤3具体如下:
步骤3.1:使用经ImageNet预训练的Resnet网络参数进行网络初始化;
步骤3.2:锁定网络底层参数,使其在整体训练过程中保持初始值;
步骤3.3:随机选取步骤2得到的图像样本输入改进的Faster RCNN网络,该网络可划分为三个网络部件:基于Resnet的特征融合网络、像素级注意力网络、基于RPN的识别网络;
其中,基于Resnet的特征融合网络先使用残差块结构对原始图像进行特征提取,得到分辨率分别为原图的1/42,1/82,1/162,1/322的4个特征图Ci(i∈[2,5]),然后进行自顶向下的特征融合得到4个特征图Pi(i∈[2,5]),式为:
Figure FDA0003499803020000011
P5=Conv1×1(C5)
其中,A为CBAM模块,Upsample为双线性差值上采样;
像素级注意力网络包括空间注意力分支和通道注意力分支,其中,空间注意力分支以特征图Pi(i∈[2,5])为输入,经过4层256通道的Conv3×3操作与2个1层的2通道Conv3×3操作后,再经过softmax操作,得到2个与Pi(i∈[2,5])相同分辨率的单通道掩模M1与M2,M1与M2的取值均在[0,1]区间,其中M1用于区分目标与背景,为了突出目标、抑制背景,M2用于区分目标与目标,为了在密集目标情况下突出目标边界,掩模M1与M2加权相加得到空间注意力掩模M;通道注意力分支以特征图Pi(i∈[2,5])为输入,经过CBAM模块的通道注意力提取部分后得到通道数与Pi(i∈[2,5])相同的长宽为1×1的通道注意力C,将Pi(i∈[2,5])与空间注意力掩模M相乘,再与通道注意力C相乘得到P'i(i∈[2,5]);
基于RPN的识别网络以Pi'(i∈[2,5])为输入,分别经过共享权重的RPN网络后在特征图的每个点上得到K个水平候选框,在特征图P2'上对水平候选框进行ROI Align,其结果经过两个全连接层后输入并联的水平框回归分支、旋转框回归分支、舰船底层类别预测分支、舰船上级类别预测分支,各个分支的全连接层的神经元个数分别为4K,5K,K,K,其中水平框的回归公式为:
ux=(x-xa)/wa,uy=(y-ya)/ha,
uw=log(w/wa),uh=log(h/ha),
u'x=(x'-xa)/wa,u'y=(y'-ya)/ha,
u'w=log(w'/wa),u'h=log(h'/ha),
其中,(x,y)代表水平框的中心点坐标,w代表水平框的宽,h代表水平框的宽长,x,xa,x'分别代表预测框、锚框(Anchor)、真实框的中心x轴坐标,y,ya,y'分别代表预测框、锚框、真实框的中心y轴坐标,w,wa,w'分别代表预测框、锚框、真实框的宽,h,ha,h'分别代表预测框、锚框、真实框的宽;
旋转框的回归公式为:
vx=(x-xa)/wa,vy=(y-ya)/ha,
vw=log(w/wa),vh=log(h/ha),vθ=θ-θa
v'x=(x'-xa)/wa,v'y=(y'-ya)/ha,
v'w=log(w'/wa),v'h=log(h'/ha),v'θ=θ'-θa
其中,θ,θa,θ'分别代表预测框、锚框、真实框的旋转角度;
步骤3.4:根据步骤3.3的输出计算损失函数,具体为:
Figure FDA0003499803020000031
Figure FDA0003499803020000032
其中N,M分别表示候选框和真实框的总个数,tn
Figure FDA0003499803020000033
分别代表目标的底层标签和上级标签,pn
Figure FDA0003499803020000034
分别代表经由softmax函数计算得到的舰船底层类别和上层类别的概率分布,t'n只能取0或1,t'n取1表示前景,取0表示背景,v'*j,u'*j分别表示预测的旋转框回归向量和水平框回归向量,v*j,u*j分别表示旋转框的目标回归向量和水平框的目标回归向量,
Figure FDA0003499803020000035
分别代表掩模一在(i,j)像素处的真实标签和预测值,
Figure FDA0003499803020000036
分别代表掩模二在(i,j)像素处的真实标签和预测值,IoU,IoUnk,IoUknk分别代表预测框n与对应真实框kn、预测框n与真实框k,预测框n对应的真实框kn与真实框k的交并比,超参数λi(i∈[1,5])和α均为权重系数,Lcls,Lcls_up和Latt均为softmax交叉熵函数,Lreg为smooth L1函数;
步骤3.5:判断当前训练次数达到预设值,若未达到,则进行下一步,若达到,则将测试集输入训练完毕的网络得到旋转框及其类别得分,然后跳至步骤4;
步骤3.6:根据步骤3.4计算得到的损失,使用Adam算法进行反向传播,更新网络参数,具体为:
Figure FDA0003499803020000037
其中t为迭代轮次,W[t]为经t次迭代后的网络权重,L为步骤3.4得到的损失函数,α为学习率,β1和β2为超参数,
Figure FDA0003499803020000041
均为第t次迭代时产生的中间变量,网络权重更新之后,返回步骤3.3。
2.根据权利要求1所述的一种基于密集特征融合和像素级注意力的遥感舰船识别方法,其特征在于,所述步骤1的具体步骤如下:
步骤1.1:将遥感图像数据集随机划分为训练集与测试集;
步骤1.2:对步骤1.1所得训练集进行数据扩充,数据扩充手段包括:翻转、旋转、随机裁剪、高斯噪声,将以上扩充手段随机组合应用在训练集图像上。
3.根据权利要求1所述的一种基于密集特征融合和像素级注意力的遥感舰船识别方法,其特征在于,所述步骤4的具体步骤如下:
步骤4.1:创建存放待处理旋转候选框的集合H,初始化为步骤3得到的全体共N个旋转预测框,并将集合H中的旋转候选框按步骤3得到的类别得分降序排序;
步骤4.2:创建存放最优框的集合M,初始化为空集;
步骤4.3:将集合H中得分最高的框m从集合H移动到集合M;
步骤4.4:遍历集合中的所有旋转候选框,分别与框m计算skew IOU交并比,若高于阈值,则将该框从集合H中移除;
步骤4.5:若集合H为空,则输出最优框集合M,M即为遥感图像舰船目标的识别结果,若不为空,则返回步骤4.3。
CN202010418182.XA 2020-05-18 2020-05-18 基于密集特征融合和像素级注意力的遥感舰船识别方法 Active CN111563473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010418182.XA CN111563473B (zh) 2020-05-18 2020-05-18 基于密集特征融合和像素级注意力的遥感舰船识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010418182.XA CN111563473B (zh) 2020-05-18 2020-05-18 基于密集特征融合和像素级注意力的遥感舰船识别方法

Publications (2)

Publication Number Publication Date
CN111563473A CN111563473A (zh) 2020-08-21
CN111563473B true CN111563473B (zh) 2022-03-18

Family

ID=72072287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010418182.XA Active CN111563473B (zh) 2020-05-18 2020-05-18 基于密集特征融合和像素级注意力的遥感舰船识别方法

Country Status (1)

Country Link
CN (1) CN111563473B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464704B (zh) * 2020-10-12 2023-10-31 浙江理工大学 一种基于特征融合与旋转目标检测器的遥感图像识别方法
CN112508848B (zh) * 2020-11-06 2024-03-26 上海亨临光电科技有限公司 一种基于深度学习多任务端到端的遥感图像船舶旋转目标检测方法
CN112395969B (zh) * 2020-11-13 2023-06-30 中国人民解放军空军工程大学 一种基于特征金字塔的遥感图像旋转舰船检测方法
CN112395975A (zh) * 2020-11-17 2021-02-23 南京泓图人工智能技术研究院有限公司 一种基于旋转区域生成网络的遥感图像目标检测方法
CN112818903B (zh) * 2020-12-10 2022-06-07 北京航空航天大学 一种基于元学习和协同注意力的小样本遥感图像目标检测方法
CN113065446B (zh) * 2021-03-29 2022-07-01 青岛东坤蔚华数智能源科技有限公司 一种用于舰艇锈蚀区自动化识别的深度巡检方法
CN113378686B (zh) * 2021-06-07 2022-04-15 武汉大学 一种基于目标中心点估计的两阶段遥感目标检测方法
CN113449666A (zh) * 2021-07-07 2021-09-28 中南大学 基于数据融合与特征选择的遥感影像多尺度目标检测方法
CN113344148A (zh) * 2021-08-06 2021-09-03 北京航空航天大学 一种基于深度学习的海上舰船目标识别方法
CN113627558A (zh) * 2021-08-19 2021-11-09 中国海洋大学 鱼类图像识别方法、***及设备
CN113688722B (zh) * 2021-08-21 2024-03-22 河南大学 基于图像融合的红外行人目标检测方法
CN113902975B (zh) * 2021-10-08 2023-05-05 电子科技大学 一种用于sar舰船检测的场景感知数据增强方法
CN114255385B (zh) * 2021-12-17 2022-10-04 中国人民解放军战略支援部队信息工程大学 基于感知向量的光学遥感图像舰船检测方法及***
CN114612769B (zh) * 2022-03-14 2023-05-26 电子科技大学 一种融入局部结构信息的集成感知红外成像舰船检测方法
CN114663707A (zh) * 2022-03-28 2022-06-24 中国科学院光电技术研究所 基于Faster RCNN改进的少样本目标检测方法
CN114677596A (zh) * 2022-05-26 2022-06-28 之江实验室 一种基于注意力模型的遥感图像船舶检测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325507A (zh) * 2018-10-11 2019-02-12 湖北工业大学 一种结合超像素显著性特征与hog特征的图像分类算法和***
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110223302A (zh) * 2019-05-08 2019-09-10 华中科技大学 一种基于旋转区域提取的舰船多目标检测方法
CN110991230A (zh) * 2019-10-25 2020-04-10 湖北富瑞尔科技有限公司 基于旋转候选框的任意方向遥感影像舰船检测方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706336B2 (en) * 2017-03-17 2020-07-07 Nec Corporation Recognition in unlabeled videos with domain adversarial learning and knowledge distillation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325507A (zh) * 2018-10-11 2019-02-12 湖北工业大学 一种结合超像素显著性特征与hog特征的图像分类算法和***
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110223302A (zh) * 2019-05-08 2019-09-10 华中科技大学 一种基于旋转区域提取的舰船多目标检测方法
CN110991230A (zh) * 2019-10-25 2020-04-10 湖北富瑞尔科技有限公司 基于旋转候选框的任意方向遥感影像舰船检测方法及***

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A Lightweight Feature Optimizing Network for Ship Detection in SAR Image;Xiaohan Zhang等;《IEEE Access》;20190923;第7卷;141662-141678 *
Ship Detection for Optical Remote Sensing Images Based on Visual Attention Enhanced Network;Fukun Bi等;《Sensors》;20190501;第19卷(第10期);2271-2271 *
Ship Size Extraction for Sentinel-1 Images Based on Dual-Polarization Fusion and Nonlinear Regression: Push Error Under One Pixel;Boying Li等;《IEEE Transactions on Geoscience and Remote Sensing》;20180621;第56卷(第8期);4887-4905 *
动态视频监控中海上舰船目标检测;李庆忠等;《中国激光》;20140810;第41卷(第8期);1-7 *
机器视觉遥感图像目标显著性分析;陈天鸿等;《计算机与网络》;20190426;第45卷(第8期);44-46 *
遥感影像中的近岸舰船目标检测和细粒度识别方法研究;王昌安;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20200115(第1期);C028-232 *

Also Published As

Publication number Publication date
CN111563473A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN111563473B (zh) 基于密集特征融合和像素级注意力的遥感舰船识别方法
CN110503112B (zh) 一种增强特征学习的小目标检测及识别方法
CN112308019B (zh) 基于网络剪枝和知识蒸馏的sar舰船目标检测方法
CN111738112B (zh) 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN111967480A (zh) 基于权重共享的多尺度自注意力目标检测方法
CN109101897A (zh) 水下机器人的目标检测方法、***及相关设备
CN112560671B (zh) 基于旋转卷积神经网络的船舶检测方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN113159120A (zh) 一种基于多尺度跨图像弱监督学习的违禁物检测方法
CN112418108B (zh) 一种基于样本重加权的遥感图像多类目标检测方法
CN107992818A (zh) 一种光学遥感图像海面船只目标的检测方法
CN113096085A (zh) 基于两阶段卷积神经网络的集装箱表面损伤检测方法
CN113177503A (zh) 基于yolov5的任意朝向目标十二参数检测方法
CN114359245A (zh) 一种工业场景下产品表面缺陷检测方法
CN112733942A (zh) 一种基于多级特征自适应融合的变尺度目标检测方法
CN114241250A (zh) 一种级联回归目标检测方法、装置及计算机可读存储介质
CN113065431A (zh) 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法
CN114565824A (zh) 基于全卷积网络的单阶段旋转舰船检测方法
Xiao et al. FDLR-Net: A feature decoupling and localization refinement network for object detection in remote sensing images
Du et al. Semisupervised SAR ship detection network via scene characteristic learning
Pires et al. An efficient cascaded model for ship segmentation in aerial images
Hibban et al. Classification of ornamental betta fish using convolutional neural network method and grabcut segmentation
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN113657196B (zh) Sar图像目标检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant