CN116168240A - 基于注意力增强的任意方向密集舰船目标检测方法 - Google Patents

基于注意力增强的任意方向密集舰船目标检测方法 Download PDF

Info

Publication number
CN116168240A
CN116168240A CN202310070828.3A CN202310070828A CN116168240A CN 116168240 A CN116168240 A CN 116168240A CN 202310070828 A CN202310070828 A CN 202310070828A CN 116168240 A CN116168240 A CN 116168240A
Authority
CN
China
Prior art keywords
attention
feature map
feature
pooling
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310070828.3A
Other languages
English (en)
Inventor
梁毅
王雅丽
陈晧晖
邢孟道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310070828.3A priority Critical patent/CN116168240A/zh
Publication of CN116168240A publication Critical patent/CN116168240A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力增强的任意方向密集舰船目标检测方法,涉及图像处理技术领域,包括:获取原始图像;基于主干特征提取模块,提取原始图像的多尺度特征,得到多个特征图;基于双分支注意力增强模块,学习至少部分特征图中各通道和各空间的重要程度、学习至少部分特征图中各位置信息的重要程度,得到基于双分支注意力增强模块的输出特征图;基于加权双向特征融合网络,通过跨尺度连接操作,将输出特征图的信息进行筛选和融合,得到增强特征图;基于检测器中的分类结构和边界框回归结构,对增强特征图进行检测。本发明能够提升网络对重要特征的提取能力,实现对目标的精确提取和方向估计。

Description

基于注意力增强的任意方向密集舰船目标检测方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于注意力增强的任意方向密集舰船目标检测方法。
背景技术
合成孔径雷达(Synthetic aperture radar,SAR)作为一种主动式微波成像传感器,具有全天时、全天候对地观测的独特能力,成为当前对地观测的主要方式之一,在海洋探测领域占据重要地位。舰船目标检测作为海洋船舶管理***的基础功能,对进一步实现舰船目标识别、跟踪起到保障性作用,因此研究对海SAR舰船目标检测具有重要意义。
现有技术中,SAR图像目标检测研究的主要问题是从SAR图像中提取出感兴趣的目标区域,去除环境杂波和人造杂波虚警。现有主流的SAR舰船目标检测方法可分为基于模型驱动的传统检测算法和基于数据驱动的深度学***框进行检测,导致将大部分背景像素包含到检测框中,不能准确定位船舰目标的位置,不利于目标的检测工作。
因此,亟需改善现有技术中存在的缺陷。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于注意力增强的任意方向密集舰船目标检测方法。本发明要解决的技术问题通过以下技术方案实现:
第一方面,本发明提供一种基于注意力增强的任意方向密集舰船目标检测方法,包括:
获取原始图像;
基于主干特征提取模块,提取原始图像的多尺度特征,得到多个特征图;
基于双分支注意力增强模块,分别学习至少部分特征图中各通道和各空间的重要程度、以及学习至少部分特征图中各位置信息的重要程度,得到第一分支注意力特征图和第二分支注意力特征图,并将第一分支注意力特征图和第二分支注意力特征图进行合并,得到基于双分支注意力增强模块的输出特征图;
基于加权双向特征融合网络,通过跨尺度连接操作,将输出特征图的信息进行筛选和融合,得到增强特征图;
基于检测器中的分类结构和边界框回归结构,对增强特征图进行检测。
本发明的有益效果:
本发明提供的一种基于注意力增强的任意方向密集舰船目标检测方法,目的在于解决复杂海岸场景下检测性能不佳、出现漏检误检等问题,同时使用旋转检测框代替水平检测框,在有效区分目标区域与背景区域的同时实现了对目标的方向估计;使用加权双向特征融合网络BiFPN代替PANet网络,使用自适应调整特征权重获取更多的上下文信息和全局信息,提高信息利用率;使用双分支注意力增强模块,充分加强空间注意力信息、通道注意力信息、位置信息的作用,提升网络对重要特征的提取能力。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的基于注意力增强的任意方向密集舰船目标检测方法的一种结构图;
图2是本发明实施例提供的ResNet残差块网络结构的一种示意图;
图3是本发明实施例提供的双分支注意力增强模块的一种示意图;
图4是本发明实施例提供的通道注意力模块的一种示意图;
图5是本发明实施例提供的空间注意力模型的一种示意图;
图6是本发明实施例提供的坐标注意力模型的一种示意图;
图7是本发明实施例提供的BiFPN网络结构的一种示意图;
图8(a)是本发明实施例提供的舰船目标真实标注位置结果图;
图8(b)是本发明实施例提供的检测性能的实验对比的一种结果图;
图8(c)是本发明实施例提供的检测性能的实验结果图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
海遥感SAR图像场景相对而言较为复杂,尤其靠岸近岸区域存在大量的杂波虚警,而且对海舰船目标大多为远海小目标。现有技术的缺点是检测算法对SAR图像目标特征提取困难,难以有效获取弱小目标特征信息,且在背景复杂、目标尺度差异大等情况下检测精度不高,易出现误检漏检问题。另外,现有舰船目标检测方法大多使用水平检测框进行检测,导致将大部分背景像素包含到检测框中,不能准确定位舰船目标的位置,不利于目标的检测工作。
RetinaNet作为一种优秀的单阶段目标检测算法,在ImageNet、PASCAL VOC、MSCOCO等大型光学数据集上取得了十分显著的检测效果,然而由于SAR图像与光学图像存在较大差异,实际复杂场景中对海遥感SAR图像存在较强的杂波干扰,因此直接应用导致检测性能不佳。
有鉴于此,针对SAR图像背景复杂、目标尺度差异大、检测虚警率高等问题,本发明提供一种基于注意力增强的任意方向密集舰船目标检测方法,该检测方法在RetinaNet水平检测网络的基础上进行改进,首先,引入加权双向特征融合网络BiFPN代替PANet网络,使用自适应调整特征权重获取更多的上下文信息和全局信息,提高信息利用率;其次,提出一种双分支注意力增强模块,充分加强空间注意力信息、通道注意力信息、位置信息的作用,进一步增强网络的特征提取能力;同时,修改特征金字塔网络(Feature PyramidNetworks,FPN)结构,将所提双分支注意力增强模块放在BiFPN网络之前,在主干网络与BiFPN网络的每一层之间分别使用注意力机制;最后,采用旋转检测框实现对目标的方向估计,减少因水平检测框带来的检测物体的重叠问题,使检测框更精确的定位目标,同时更有利于对密集排列目标的检测。
请参见图1所示,图1是本发明实施例提供的基于注意力增强的任意方向密集舰船目标检测方法的一种结构图,本发明所提供的一种基于注意力增强的任意方向密集舰船目标检测方法,包括:
S101、获取原始图像。
具体而言,本实施例中,原始图像通过合成孔径雷达(Synthetic apertureradar,SAR)获取,获取的SAR图像场景较为复杂,尤其靠近近岸区域存在大量的杂波虚警,船舰检测虚警率高。
S102、基于主干特征提取模块,提取原始图像的多尺度特征,得到多个特征图。
具体而言,本实施例中,主干特征提取模块承担着提取图像多尺度特征的主要任务,一个性能较好的主干特征提取模块对检测目标的提取效果至关重要。一般而言,主干特征提取网络的深度直接影响模型性能的好坏,但随着网络深度的增加,网络性能出现退化。其中,ResNet残差网络通过使用跳跃连接的内部残差块缓解了深度神经网络在层数过深时带来的梯度消失和退化问题,其在结构中引入的跳跃连接方式使得上一个残差块的信息直接流入下一个残差块,提高了信息流通,请参见图2所示,图2是本发明实施例提供的ResNet残差块网络结构的一种示意图。
残差块网络结构可分为降采样残差块和普通残差块;其中,对应步长为2的降采样残差块,适用于输入与输出通道数不同的情况,在左侧旁路分支中添加卷积层,该卷积层起到匹配输入与输出维度差异的作用;对应步长为1普通残差块,适用于对应输入与输出通道数相同的情况,可将输入与跳跃连接的输出直接相加。本实施例中,针对舰船数据集的检测任务,选用ResNet50网络作为主干特征提取网络,经主干特征提取网络后生成5种不同尺寸的特征图,选取下采样步长分别为8/16/32的C3/C4/C5特征图作为下一级深度特征融合网络的输入特征层。
S103、基于双分支注意力增强模块,分别学习至少部分所述特征图中各通道和各空间的重要程度、以及学习至少部分所述特征图中各位置信息的重要程度,得到第一分支注意力特征图和第二分支注意力特征图,并将所述第一分支注意力特征图和第二分支注意力特征图进行合并,得到基于双分支注意力增强模块的输出特征图。
具体而言,本实施例中,为了使目标检测网络更加关注有用特征信息而抑制无效特征及噪声,提出一种双分支注意力增强模块,分别包括结合通道和空间信息的第一分支注意力增强模块和捕获方向和位置感知的第二分支注意力增强模块;第一分支注意力增强模块包括通道注意力模型和空间注意力模型,学习特征图不同通道和不同空间的重要程度,另外考虑到目标检测算法实现中网络需要将较多的关注点放在目标所在的位置区域,额外添加第二分支注意力增强模块包括的坐标注意力模型,捕获方向和位置感知的信息;相比于单分支注意力增强模块,采用双分支注意力增强模块可以捕获目标更多的特征信息,进一步加强了空间注意力、通道注意力信息、位置信息的作用,使得网络学习到目标多方面的特征信息,请参见图3所示,图3是本发明实施例提供的双分支注意力增强模块的一种示意图。
(1)通道注意力模块
具体而言,请参见图4所示,图4是本发明实施例提供的通道注意力模块的一种示意图,本实施例中,受CBAM注意力机制的启发,运用卷积的方式代替CBAM通道注意力机制中的全连接层会具有更好的跨通道信息获取能力;此外,使用全局平均池化(GlobalAvgpool)聚合上下文信息,使用全局最大池化(Global Maxpool)消除特征图中无用信息。
将至少部分特征图F经过第一全局最大池化层处理,得到最大池化特征图Fmax;将至少部分特征图F经过第一全局平均池化层处理,得到平均池化特征图Favg
将最大池化特征图Fmax经过第一动态卷积层处理,聚合最大池化特征图Fmax通道内邻域信息;将平均池化特征图Favg经过第二动态卷积层处理,聚合平均池化特征图Favg通道内邻域信息;
将经过第一动态卷积层处理后的最大池化特征图Fmax中的特征与经过第二动态卷积层处理后的平均池化特征图Favg中的特征逐个相加,并将相加结果经过第一Sigmoid激活函数处理,得到通道注意力特征图Mc
将至少部分特征图F中的特征与通道注意力特征图Mc中的特征逐个相乘,得到通道注意力生成结果Fc
其中,平均池化特征图Favg的表达式为:
Favg=AdaptiveAvgPool(F);
最大池化特征图Fmax的表达式为:
Fmax=AdaptiveMaxPool(F);
通道注意力特征图Mc的表达式为:
Figure BDA0004064735730000061
Figure BDA0004064735730000062
通道注意力生成结果Fc的表达式为:
Figure BDA0004064735730000063
上式中,AdaptiveAvgPool为自适应平均池化核,AdaptiveMaxPool为自适应最大池化核,
Figure BDA0004064735730000064
为以卷积核尺寸为k的一维动态卷积核,σ为第一Sigmoid激活函数,/>
Figure BDA0004064735730000065
为逐个相乘,C为特征图的特征通道数,odd为结果取最接近的奇数值。
需要说明的是,第一动态卷积层和第二动态卷积层的尺寸为k,用动态卷积核来做1*1卷积。
(2)空间注意力模型
具体而言,请参见图5所示,图5是本发明实施例提供的空间注意力模型的一种示意图,本实施例中,将通道注意力生成结果Fc经过第二最大池化层处理,得到最大池化特征图F1’;将通道注意力生成结果Fc经过第二平均池化层处理,得到平均池化特征图F2’;
将最大池化特征图F1’和平均池化特征图F2’按通道进行数据拼接处理,得到特征图F’,并将特征图F’经过空洞卷积层处理后,再由第二Sigmoid激活函数处理,得到特征图Fc中各像素点的特征权重Ms
将特征图Fc中各像素点的特征权重Ms与通道注意力生成结果Fc相乘,得到第一分支注意力特征图F1
其中,特征图F’的表达式为:
F'=concat[AvgPool(Fc);MaxPool(Fc)];
各像素点的特征权重Ms的表达式为:
Figure BDA0004064735730000071
第一分支注意力特征图F1的表达式为:
Figure BDA0004064735730000072
上式中,AvgPool为平均池化,MaxPool为最大池化,concat为按通道进行数据拼接处理,
Figure BDA0004064735730000073
的大小为3×3,空洞卷积膨胀率为3。
需要说明的是,空洞卷积层的大小为3×3。
(3)坐标注意力模型
具体而言,请参见图6所示,图6是本发明实施例提供的坐标注意力模型的一种示意图,本实施例中,考虑到原始CA(Coordinate Attention,CA)未使用全局最大池化消除无用信息,因此,在CA注意力机制的基础上添加全局最大池化处理,平衡SAR图像的特征信息。
将至少部分所述特征图F经过水平方向的全局平均池化层和垂直方向的全局平均池化层的处理,得到水平方向的平均池化结果和垂直方向的平均池化结果;将至少部分所述特征图F经过水平方向的全局最大池化层和垂直方向的全局最大池化层,得到水平方向的最大池化结果和垂直方向的最大池化结果;
其中,水平方向的平均池化结果、最大池化结果和垂直方向的平均池化结果、最大池化结果的表达式分别为:
Figure BDA0004064735730000081
Figure BDA0004064735730000082
Figure BDA0004064735730000083
Figure BDA0004064735730000084
其中,xc为与第C个通道相关的特征图,
Figure BDA0004064735730000085
为水平方向的平均池化结果,/>
Figure BDA0004064735730000086
为水平方向的最大池化结果,/>
Figure BDA0004064735730000087
为垂直方向的平均池化结果,/>
Figure BDA0004064735730000088
为垂直方向的最大池化结果。
将水平方向的平均池化结果和垂直方向的平均池化结果进行拼接,依次经过第一卷积层和第三非线性激活函数处理,得到特征图FA;将水平方向的最大池化结果和垂直方向的最大池化结果进行拼接,依次经过第二卷积层处理和第四非线性激活函数处理,得到特征图FM
其中,特征图FA的表达式为:
Figure BDA00040647357300000814
特征图FM的表达式为:
Figure BDA0004064735730000089
其中,第三卷积层、第四卷积层、第五卷积层、第六卷积层的大小为1×1,即C1×1为1×1的卷积处理,δ为一个非线性激活函数;
将特征图FA进行分离成第一水平方向特征图和第一垂直方向特征图;将特征图FM进行分离成第二水平方向特征图和第二垂直方向特征图;
将第一水平方向特征图依次经过第三卷积层和第五Sigmoid激活函数的处理,得到第一注意力权重
Figure BDA00040647357300000810
将第一垂直方向特征图依次经过第四卷积层和第六Sigmoid激活函数的处理,得到第二注意力权重/>
Figure BDA00040647357300000811
将第二水平方向特征图依次经过第五卷积层和第七Sigmoid激活函数的处理,得到第三注意力权重/>
Figure BDA00040647357300000812
将第二垂直方向特征图依次经过第六卷积层和第八Sigmoid激活函数的处理,得到第四注意力权重/>
Figure BDA00040647357300000813
第一注意力权重的表达式为:
Figure BDA0004064735730000091
第二注意力权重的表达式为:
Figure BDA0004064735730000092
第三注意力权重的表达式为:
Figure BDA0004064735730000093
第四注意力权重的表达式为:
Figure BDA0004064735730000094
将第一注意力权重
Figure BDA0004064735730000095
与第三注意力权重/>
Figure BDA0004064735730000096
相加,得到第一结果;将第二注意力权重/>
Figure BDA0004064735730000097
与第四注意力权重/>
Figure BDA0004064735730000098
相加,得到第二结果;将第一结果、第二结果和特征图F进行相乘,得到第二分支注意力特征F2
其中,第二分支注意力特征的表达式为:
Figure BDA0004064735730000099
/>
双分支注意力增强模块的输出结果为:
Fout=F1+F2
S104、基于加权双向特征融合网络,通过跨尺度连接操作,将所述输出特征图的信息进行筛选和融合,得到增强特征图。
具体而言,请参见图7所示,图7是本发明实施例提供的BiFPN网络结构的一种示意图,本实施例中,不同层次的特征表示不同的语义信息,其对网络的贡献度不一致,考虑到这一点,本实施例引入加权双向特征融合网络BiFPN代替原有PANet,实现特征信息的筛选和融合,通过跨尺度连接操作,使低层级细节信息更易于向高层语义信息映射,增强特征的传播和重用。
本实施例中,以节点6为例,融合结构地表达式为:
Figure BDA00040647357300000910
Figure BDA00040647357300000911
其中,
Figure BDA0004064735730000101
为自上而下路径的中间特征,/>
Figure BDA0004064735730000102
为自下而上路径的输出特征,ωi和ωi'为自适应权值,Conv为卷积操作,Resize为上采样或下采样操作,ε为一很小的数值。
S105、基于检测器中的分类结构和边界框回归结构,对所述增强特征图进行检测。
具体而言,本实施例中,大多数检测器在最后预测阶段由分类分支、边界框回归分支、质量评估分支组成,但本实施例可能会导致训练与测试阶段不一致,导致分类分数低的负样本排在某种正样本前面,考虑以上问题,采用分类结构和边界框回归结构来进行检测器设计。
检测器的损失函数为:
Figure BDA0004064735730000103
其中,cx,y为分类分数,
Figure BDA0004064735730000104
为目标的真实类别标签,tx,y=(xc,yc,w,h,t)为边界框回归结构预测的边框位置,/>
Figure BDA0004064735730000105
为真实边框位置,Npos为正样本的数量,λ为超参数,(x,y)∈pos为该样本点为正样本,Lcls为分类结构损失函数,Lreg为边界框回归结构损失函数。
分类结构损失函数的表达式为:
Figure BDA0004064735730000106
其中,α为平衡因子,控制正样本在整体损失中的权重,γ为调制系数,(x,y)∈neg为该样本点为正样本。
边界框回归结构损失函数的表达式为:
Figure BDA0004064735730000107
其中,r为边界框回归结构预测的边框位置与真实的边框位置的差值。
综上所述,本实施例提供的一种基于注意力增强的任意方向密集舰船目标检测方法,目的在于解决复杂海岸场景下检测性能不佳、出现漏检误检等问题,同时使用旋转检测框代替水平检测框,在有效区分目标区域与背景区域的同时实现了对目标的方向估计;使用加权双向特征融合网络BiFPN代替PANet网络,使用自适应调整特征权重获取更多的上下文信息和全局信息,提高信息利用率;使用双分支注意力增强模块,充分加强空间注意力信息、通道注意力信息、位置信息的作用,提升网络对重要特征的提取能力。
在本发明的一种可选地实施例中,通过以下仿真实验进行验证。
(1)实验数据及参数
本发明的仿真实验采用国内公开的SSDD+数据集实现,SSDD+数据集在SSDD数据集的基础上将目标标注框由水平边框变为旋转边框,便于进行旋转目标检测任务。按照8:2的划分规则将数据集划分为训练集和测试集,算法基于pytorch目标检测框架实现,使用随机梯度下降算法Adam作为优化器,训练最大迭代次数Max ieration=800,初始学习率lr=0.0001,实验在装有NVIDIA T40c GPU的电脑上运行,同时模型在光学数据集ImageNet上进行了预训练。
(2)检测性能比较
为验证所提舰船目标检测方法的有效性,选取一些经典的目标检测网络框架作为对比实验进行方法验证,并将改进网络与原始RetinaNet网络进行对比,对比结果请参见表1所示。
表1本发明的方法与其他方法性能对比
指标 R3Det ReDet RetinaNet 本发明方法
mAP 80.75 85.42 83.01 87.59
由表1可以得出,上述实施例所提检测方法具有较高的AP值,相比于基础RetinaNet网络,平均精度AP值提升4.58%,这得益于加权双向特征融合网络和改进注意力模块对网络特征提取能力的加强,由此可见上述实施例所提检测方法具有明显的检测性能优势。为了进一步直观展示所提检测算法的改进效果,选取几幅测试图像进行RetinaNet方法与改进的本文方法的验证,请参见图8(b)~8(c)所示,图8(a)为是本发明实施例提供的舰船目标真实标注位置结果图,图8(b)为是本发明实施例提供的检测性能的实验对比的一种结果图,图8(c)为是本发明实施例提供的检测性能的实验结果图。
请继续参见图8(a)~图8(c)所示,选取远海小尺度目标、靠岸角度多变的大尺度目标、近岸密集目标等三种情况下的目标。由图8(a)~图8(c)可见,针对远海小目标检测,上述实施例所提方法保持了原有检测方法较好的检测性能;针对靠岸角度多变的大尺度目标,RetinaNet方法检测结果出现漏警情况,而本发明所提方法有效解决了漏警问题,证明本发明所提方法具有较强的特征提取能力;针对近岸密集目标,虽然两者方法都存在一定的漏检,但是本发明所提方法有效降低了检测虚警,检测到更多的舰船目标,进一步说明了本实施例所提方法在有效抑制杂波背景的同时能够使网络更加关注有用的目标信息,提高了检测率。
本发明相比于经典RetinaNet方法,本发明所提的模型检测平均精度AP值提升4.55%,增强目标特征的同时抑制背景杂波,有效提高了复杂场景SAR舰船检测性能,使得针对SAR图像舰船目标的检测更加稳健且准确。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种基于注意力增强的任意方向密集舰船目标检测方法,其特征在于,包括:
获取原始图像;
基于主干特征提取模块,提取所述原始图像的多尺度特征,得到多个特征图;
基于双分支注意力增强模块,分别学习至少部分所述特征图中各通道和各空间的重要程度、以及学习至少部分所述特征图中各位置信息的重要程度,得到第一分支注意力特征图和第二分支注意力特征图,并将所述第一分支注意力特征图和第二分支注意力特征图进行合并,得到基于双分支注意力增强模块的输出特征图;
基于加权双向特征融合网络,通过跨尺度连接操作,将所述输出特征图的信息进行筛选和融合,得到增强特征图;
基于检测器中的分类结构和边界框回归结构,对所述增强特征图进行检测。
2.根据权利要求1所述的基于注意力增强的任意方向密集舰船目标检测方法,其特征在于,所述主干特征提取模块为ResNet50残差网络,所述ResNet50残差网络的残差块包括降采样残差块和普通残差块。
3.根据权利要求1所述的基于注意力增强的任意方向密集舰船目标检测方法,其特征在于,所述双分支注意力增强模块包括结合通道和空间信息的第一分支注意力增强模块、以及捕获方向和位置感知的第二分支注意力增强模块;
其中,所述第一分支注意力增强模块包括通道注意力模型和空间注意力模型;所述第二分支注意力增强模块包括坐标注意力模型。
4.根据权利要求3所述的基于注意力增强的任意方向密集舰船目标检测方法,其特征在于,所述通道注意力模型包括第一全局最大池化层、第一全局平均池化层、第一动态卷积层、第二动态卷积层和第一Sigmoid激活函数;
所述学习至少部分所述特征图中各通道的重要程度的过程包括:
将至少部分所述特征图F经过所述第一全局最大池化层处理,得到最大池化特征图Fmax;将至少部分所述特征图F经过所述第一全局平均池化层处理,得到平均池化特征图Favg
将所述最大池化特征图Fmax经过所述第一动态卷积层处理,聚合所述最大池化特征图Fmax通道内邻域信息;将所述平均池化特征图Favg经过所述第二动态卷积层处理,聚合所述平均池化特征图Favg通道内邻域信息;
将经过所述第一动态卷积层处理后的最大池化特征图Fmax中的特征与经过所述第二动态卷积层处理后的平均池化特征图Favg中的特征逐个相加,并将相加结果经过所述第一Sigmoid激活函数处理,得到通道注意力特征图Mc
将至少部分所述特征图F中的特征与所述通道注意力特征图Mc中的特征逐个相乘,得到通道注意力生成结果Fc
5.根据权利要求4所述的基于注意力增强的任意方向密集舰船目标检测方法,其特征在于,所述空间注意力模型包括第二最大池化层、第二平均池化层、空洞卷积层和第二Sigmoid激活函数;
所述学习至少部分所述特征图中各空间的重要程度的过程包括:
将所述通道注意力生成结果Fc经过所述第二最大池化层处理,得到最大池化特征图F1’;将所述通道注意力生成结果Fc经过所述第二平均池化层处理,得到平均池化特征图F2’;
将所述最大池化特征图F1’和所述平均池化特征图F2’按通道进行数据拼接处理,得到特征图F’,并将所述特征图F’经过所述空洞卷积层处理后,再由所述第二Sigmoid激活函数处理,得到所述特征图Fc中各像素点的特征权重Ms
将所述特征图Fc中各像素点的特征权重Ms与所述通道注意力生成结果Fc相乘,得到第一分支注意力特征图F1
6.根据权利要求3所述的基于注意力增强的任意方向密集舰船目标检测方法,其特征在于,所述坐标注意力模型包括水平方向的全局平局池化层和全局最大池化层、以及垂直方向的全局平均池化层和全局最大池化层、第一卷积层、第二卷积层、第三非线性激活函数、第四非线性激活函数、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第五Sigmoid激活函数、第六Sigmoid激活函数、第七Sigmoid激活函数和第八Sigmoid激活函数;
所述学习至少部分所述特征图中各位置信息的重要程度的过程包括:
将至少部分所述特征图F经过水平方向的全局平均池化层和垂直方向的全局平均池化层的处理,得到水平方向的平均池化结果和垂直方向的平均池化结果;将至少部分所述特征图F经过水平方向的全局最大池化层和垂直方向的全局最大池化层,得到水平方向的最大池化结果和垂直方向的最大池化结果;
将所述水平方向的平均池化结果和所述垂直方向的平均池化结果进行拼接,依次经过所述第一卷积层和所述第三非线性激活函数处理,得到特征图FA;将所述水平方向的最大池化结果和所述垂直方向的最大池化结果进行拼接,依次经过所述第二卷积层处理和所述第四非线性激活函数处理,得到特征图FM
将所述特征图FA分离成第一水平方向特征图
Figure FDA0004064735720000031
和第一垂直方向特征图/>
Figure FDA0004064735720000032
将所述特征图FM分离成第二水平方向特征图/>
Figure FDA0004064735720000033
和第二垂直方向特征图/>
Figure FDA0004064735720000034
将所述第一水平方向特征图
Figure FDA0004064735720000035
依次经过所述第三卷积层和所述第五Sigmoid激活函数的处理,得到第一注意力权重/>
Figure FDA0004064735720000036
将所述第一垂直方向特征图/>
Figure FDA0004064735720000037
依次经过所述第四卷积层和所述第六Sigmoid激活函数的处理,得到第二注意力权重/>
Figure FDA0004064735720000038
将所述第二水平方向特征图/>
Figure FDA0004064735720000039
依次经过所述第五卷积层和所述第七Sigmoid激活函数的处理,得到第三注意力权重/>
Figure FDA00040647357200000310
将所述第二垂直方向特征图/>
Figure FDA00040647357200000311
依次经过所述第六卷积层和所述第八Sigmoid激活函数的处理,得到第四注意力权重/>
Figure FDA00040647357200000312
将所述第一注意力权重
Figure FDA00040647357200000313
与所述第三注意力权重/>
Figure FDA00040647357200000314
相加,得到第一结果;将所述第二注意力权重/>
Figure FDA00040647357200000315
与所述第四注意力权重/>
Figure FDA00040647357200000316
相加,得到第二结果;将所述第一结果、所述第二结果和所述特征图F进行相乘,得到所述第二分支注意力特征F2
7.根据权利要求1所述的基于注意力增强的任意方向密集舰船目标检测方法,其特征在于,所述检测器的损失函数为:
Figure FDA00040647357200000317
其中,cx,y为分类分数,
Figure FDA0004064735720000041
为目标的真实类别标签,tx,y=(xc,yc,w,h,t)为边界框回归结构预测的边框位置,/>
Figure FDA0004064735720000042
为真实边框位置,Npos为正样本的数量,λ为超参数,(x,y)∈pos为该样本点为正样本,Lcls为分类结构损失函数,Lreg为边界框回归结构损失函数。
8.根据权利要求7所述的基于注意力增强的任意方向密集舰船目标检测方法,其特征在于,所述分类结构损失函数的表达式为:
Figure FDA0004064735720000043
其中,α为平衡因子,控制正样本在整体损失中的权重,γ为调制系数,(x,y)∈neg为该样本点为正样本。
9.根据权利要求7所述的基于注意力增强的任意方向密集舰船目标检测方法,其特征在于,所述边界框回归结构损失函数的表达式为:
Figure FDA0004064735720000044
其中,r为边界框回归结构预测的边框位置与真实的边框位置的差值。
CN202310070828.3A 2023-01-19 2023-01-19 基于注意力增强的任意方向密集舰船目标检测方法 Pending CN116168240A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310070828.3A CN116168240A (zh) 2023-01-19 2023-01-19 基于注意力增强的任意方向密集舰船目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310070828.3A CN116168240A (zh) 2023-01-19 2023-01-19 基于注意力增强的任意方向密集舰船目标检测方法

Publications (1)

Publication Number Publication Date
CN116168240A true CN116168240A (zh) 2023-05-26

Family

ID=86415871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310070828.3A Pending CN116168240A (zh) 2023-01-19 2023-01-19 基于注意力增强的任意方向密集舰船目标检测方法

Country Status (1)

Country Link
CN (1) CN116168240A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740622A (zh) * 2023-08-16 2023-09-12 山东黄河三角洲国家级自然保护区管理委员会 基于多尺度特征编码的密集油滴目标检测计数方法和装置
CN117523181A (zh) * 2023-12-29 2024-02-06 佛山科学技术学院 基于非结构化场景的多尺度物体抓取点检测方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740622A (zh) * 2023-08-16 2023-09-12 山东黄河三角洲国家级自然保护区管理委员会 基于多尺度特征编码的密集油滴目标检测计数方法和装置
CN116740622B (zh) * 2023-08-16 2023-10-27 山东黄河三角洲国家级自然保护区管理委员会 基于多尺度特征编码的密集油滴目标检测计数方法和装置
CN117523181A (zh) * 2023-12-29 2024-02-06 佛山科学技术学院 基于非结构化场景的多尺度物体抓取点检测方法及***
CN117523181B (zh) * 2023-12-29 2024-05-28 佛山科学技术学院 基于非结构化场景的多尺度物体抓取点检测方法及***

Similar Documents

Publication Publication Date Title
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN111222396B (zh) 一种全天候多光谱行人检测方法
CN109101897A (zh) 水下机器人的目标检测方法、***及相关设备
CN112183432B (zh) 一种基于中分辨率sar图像的建筑区提取方法以及***
CN111368690B (zh) 基于深度学习的海浪影响下视频图像船只检测方法及***
CN112308019A (zh) 基于网络剪枝和知识蒸馏的sar舰船目标检测方法
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN110060237A (zh) 一种故障检测方法、装置、设备及***
Wang et al. FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection
CN114565860B (zh) 一种多维度增强学习合成孔径雷达图像目标检测方法
CN107016357A (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法
CN110647802A (zh) 基于深度学习的遥感影像舰船目标检测方法
CN112149591B (zh) 用于sar图像的ssd-aeff自动桥梁检测方法及***
Wang et al. Ship detection based on fused features and rebuilt YOLOv3 networks in optical remote-sensing images
CN109726649B (zh) 遥感影像云检测方法、***及电子设备
CN109948527B (zh) 基于集成深度学习的小样本太赫兹图像异物检测方法
CN116343045A (zh) 基于YOLO v5的轻量化SAR图像舰船目标检测方法
Fan et al. A novel sonar target detection and classification algorithm
CN115841629A (zh) 一种基于卷积神经网络的sar图像舰船检测方法
CN113486819A (zh) 一种基于YOLOv4算法的船舶目标检测方法
CN114565824A (zh) 基于全卷积网络的单阶段旋转舰船检测方法
CN114926826A (zh) 场景文本检测***
CN109284752A (zh) 一种车辆的快速检测方法
Yang et al. SAR image target detection and recognition based on deep network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination