CN116524312A - 一种基于注意力融合特征金字塔网络的红外小目标检测方法 - Google Patents
一种基于注意力融合特征金字塔网络的红外小目标检测方法 Download PDFInfo
- Publication number
- CN116524312A CN116524312A CN202310487526.6A CN202310487526A CN116524312A CN 116524312 A CN116524312 A CN 116524312A CN 202310487526 A CN202310487526 A CN 202310487526A CN 116524312 A CN116524312 A CN 116524312A
- Authority
- CN
- China
- Prior art keywords
- feature
- module
- feature map
- multiplied
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 230000004927 fusion Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 79
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000011156 evaluation Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 8
- 230000018109 developmental process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010531 catalytic reduction reaction Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/143—Sensing or illuminating at different wavelengths
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力融合特征金字塔网络的红外小目标检测方法,其包括:步骤S1:获取数据训练样本集并进行数据扩充及数据集划分;步骤S2:构建包含损失函数的轻量卷积神经网络模型;步骤S3:获取训练样本集的预测标签;步骤S4:采用目标模型的损失函数计算轻量卷积神经网络的损失并对网络模型迭代训练;步骤S5:基于训练好的轻量卷积神经网络模型对所述测试集进行目标检测;步骤S6:输出目标检测结果,并对评价指标进行计算。本发明具有原理简单、网络模型复杂度低、易实现、检测性能、适用范围广等优点。
Description
技术领域
本发明主要涉及到红外小目标检测技术领域,特指一种基于注意力融合特征金字塔网络的红外小目标检测方法。
背景技术
基于单帧图像的红外小目标检测方法根据检测思想的不同,主要分为基于模型驱动的方法和基于数据驱动的方法。
传统的模型驱动方法更注重对红外小目标位置的检测,而忽略了对目标进行完整的分割。这些方法往往不能检测到目标的整个区域,在抑制背景的同时抑制了目标,只能检测到目标区域的极少像素。也就是说,基于模型驱动的方法依赖于合理的假设(依赖于大量的先验知识和模型参数合理的假设),不需要数据训练,严重依赖手工提取的特征,不能适应目标尺寸的变化,对噪声变化敏感,对背景噪声和边缘杂波具有较强的响应能力。因此在复杂背景场景中对红外小目标的检测性能较差。
传统模型驱动的方法通过分析目标的物理特性和成像特性,并针对不同的假设设计手工制作的特征和固定的超参数,主要包括基于背景抑制的方法:顶帽(Tophat)滤波算法、形态学算法、最大均值和最大中值滤波算法(Max-Mean/Max-Median filter);基于局部对比度的方法:局部对比测量方法(local contrast measure,LCM)、新型局部对比度测量(novel local contrast measure,NLCM)、新型加权图像熵图方法(novel weighted imageentropy map,NWIE)和考虑矩阵角度的基于优化的方法:红外块图像(Infrared patch-image,IPI),正则化和主成分方法。尽管理论和假设约束项层出不穷,但这些模型驱动的方法在真实场景的特征(例如,目标大小、目标形状、SCR和杂波背景)发生显著变化时,容易受到背景杂波和噪声等因素的影响,无法适应背景和目标的快速变化,存在检测精度低、鲁棒性差等问题,不能满足实际的检测任务。
近年来,基于数据驱动的卷积神经网络(convolutional neural networks,CNN)方法被引入到红外小目标检测,并将其视为像素级的分割任务,引起了广泛的关注。基于CNN的方法具有强大的特征表示能力,通过大量的数据学习小目标特征,取得了比传统模型驱动方法更好的检测性能。在基于数据驱动的红外小目标检测课题中,发展出了基于单阶段(Single Shot MultiBox Detector,SSD)目标检测模型的方法,基于恒定误报率的深度神经网络方法,基于生成式对抗网络(Generative Adversarial Network,GAN)的目标检测模型的方法,基于非对称注意力增强的语义分割方法,基于密集嵌套注意网络实现高层次和低层次渐进式特征融合的方法,基于上下文信息和增强特征利用率的方法。在红外小目标检测中,尽管这些方法已经利用卷积网络特征学习的能力,抑制了一定程度的背景噪声,降低了红外小目标检测的虚警率,获得了一定的性能提升,但这些方法仍然存在深层目标丢失和边缘细节分割不细致的问题,在复杂背景下出现虚警和漏检的现象,导致检测精度不高。此外,这些方法具有更为复杂的网络模型,不易在嵌入式开发板上实现实时的算法推理,限制了这些方法在实际应用中的部署。
由于红外小目标的像素数少,目标的形状轮廓不明显,纹理信息弱,小目标特征很容易在深层网络出现丢失的现象,复杂的深层网络无法有效保持和突出深层小目标的特征,目标的全局上下文先验信息丢失,导致像素之间的全局相关性不强。另一方面,他们对红外小目标浅层和深层的特征关注不够,浅层的特征包含精细的细节信息和空间位置信息,深层的特征包含丰富的语义信息,未能设计专门自适应增强红外小目标特征以及多尺度特征融合的模型,这些因素都降低了这些数据驱动方法的检测性能和对不同检测场景的鲁棒性。
也就是说,基于卷积神经网络的数据驱动方法仍然存在一些不足:首先,伪影问题严重降低了分割和检测的性能。其次,小目标在整个图像中所占比例较小,导致训练过程中遇到严重的类不平衡问题。在实际训练中,网络收敛速度较快,但无法充分学习目标小特征。最后,小目标的纹理信息弱、形状和轮廓特征不明显,小目标可能在网络的深层出现丢失的情况,网络在深层对小目标的特征提取能力和特征表示能力不强。
综上所述,现有红外小目标检测方法仍然存在一些困难和挑战:
(1)目标尺寸小。由于红外小目标检测时距传感器较远,成像距离较长,目标像素在几个像素到几十个像素之间,占整体像素数比例较小,容易淹没在背景杂波中。
(2)目标非常的暗淡。由于成像距离较远,成像信号质量差,目标信号弱,信杂比低。
(3)目标缺乏明显的形状和纹理细节信息,可鉴别特征少,在不同场景下目标的形状和大小变化大。
(4)背景复杂多变,目标容易受到背景噪声杂波的干扰。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种原理简单、网络模型复杂度低、易实现、检测性能、适用范围广的基于注意力融合特征金字塔网络的红外小目标检测方法。
为解决上述技术问题,本发明采用以下技术方案:
一种基于注意力融合特征金字塔网络的红外小目标检测方法,其包括:
步骤S1:获取数据训练样本集并进行数据扩充及数据集划分;
步骤S2:构建包含损失函数的轻量卷积神经网络模型;
步骤S3:获取训练样本集的预测标签;
步骤S4:采用目标模型的损失函数计算轻量卷积神经网络的损失并对网络模型迭代训练;
步骤S5:基于训练好的轻量卷积神经网络模型对所述测试集进行目标检测;
步骤S6:输出目标检测结果,并对评价指标进行计算。
作为本发明方法的进一步改进:所述步骤S1的流程包括:
步骤S11:采用基于图像增强的方法进行图像数据扩充;
步骤S12:将数据集划分为训练集、验证集和测试集;并且所述训练数据集占比为50%,验证数据集占比为20%,测试数据集占比为30%。
作为本发明方法的进一步改进:所述步骤S11中,所述基于图像增强方法进行数据扩充包括以下步骤:
步骤S111:图像裁剪及旋转:为每幅图像的每个目标裁剪五个图像,并确保目标位于裁剪图像的左上角、左下角、右上角、右下角和中心,然后每幅裁剪的图像以不同的角度随机旋转,角度在一定的范围内随机波动;
步骤S12:图像翻转:对图像分别进行水平翻转和垂直翻转;
步骤S13:随机叠加噪声;在原始图片的基础上,随机叠加高斯噪声。
作为本发明方法的进一步改进:所述步骤S2中,所述轻量卷积神经网络模型包括特征提取模块和特征融合模块;所述特征提取模块包括自下而上的前向传递路径和自顶向下的反向传递路径,网络的顶层包含特征池化模块和注意力融合模块;所述特征提取模块的用来从输入的原始图片中提取不同网络层次的红外小目标特征,并将特征结果进行转化;所述特征池化模块的用来减少子区域之间的上下文信息丢失,捕捉红外小目标图像的全局上下文先验信息;所述注意力融合模块的用来自适应增强包含精细的细节信息和空间位置信息的浅层特征以及包含丰富语义信息的深层特征以实现更好的特征融合;所述特征融合模块用来连接包含丰富语义特征和空间位置特征,生成鲁棒的全局特征图。
作为本发明方法的进一步改进:所述步骤S2中,轻量卷积神经网络包含十一个卷积阶段Stage;
C0采用卷积核大小3×3,输出特征32维,输出尺寸为256×256;
C1采用卷积核大小3×3,输出特征64维,输出尺寸为256×256;
C2采用大小为3×3的卷积核进行4次的残差连接操作,输出特征64维,输出尺寸为128×128;
C3采用大小为3×3的卷积核进行4次的残差连接操作,输出特征128维,输出尺寸为64×64;
C4采用大小为3×3的卷积核进行4次的残差连接操作,输出特征256维,输出尺寸为32×32;
PPM采用卷积核大小1×1的自适应平均池化操作,然后将卷积结果连接起来,输出特征256维,输出尺寸为32×32;
P4采用双线性差值进行上采样操作,输出特征64维,输出尺寸为32×32;
P3采用双线性差值进行上采样操作,输出特征64维,输出尺寸为64×64;
P2采用双线性差值进行上采样操作,输出特征64维,输出尺寸为128×128;
P1采用双线性差值进行上采样操作,输出特征64维,输出尺寸为256×256;
多尺度特征融合模块采取级联的方式将P1,P2,P3,P4层的特征进行融合,输出特征256维,输出尺寸为512×512;
预测模块采用1×1的卷积核大小进行操作,输出特征1维,输出尺寸为512×512。
作为本发明方法的进一步改进:将来自P4进行上采样之后的特征图与C3的输出特征图通过AF3模块处理之后作为P3的输入特征图,将来自P3进行上采样之后的特征图与C2的输出特征图通过AF2模块处理之后作为P2的输入特征图,将来自P2进行上采样之后的特征图与C1的输出特征图通过AF1模块处理之后作为P1的输入特征图。
作为本发明方法的进一步改进:将来自P4进行上采样后的特征图作为AF3模块的深层特征Y的输入,并将其通过通道注意力模块CA的操作得到对应的权重后与深层特征Y相乘,得到深层通道特征图Y3_1,将来自C3输出的特征图作为AF3模块的浅层特征X的输入,并将其通过空间注意力模块SA的操作得到对应的权重后与浅层特征X相乘,得到浅层空间特征图X3_1,接下来将空间特征图X3_1和通道特征图Y3_1相加,得到最终的融合上下文语义信息和空间位置信息的双注意力融合的特征图,并将融合后的特征进行基础卷积Conv的操作之后作为P3的输入。
作为本发明方法的进一步改进:将来自P3进行上采样后的特征图作为AF2模块的深层特征Y的输入,并将其通过通道注意力模块CA的操作得到对应的权重后与深层特征Y相乘,得到深层通道特征图Y2_1,将来自C2输出的特征图作为AF2模块的浅层特征X的输入,并将其通过空间注意力模块SA的操作得到对应的权重后与浅层特征X相乘,得到浅层空间特征图X2_1,接下来将空间特征图X2_1和通道特征图Y2_1相加,得到最终的融合上下文语义信息和空间位置信息的双注意力融合的特征图,并将融合后的特征进行基础卷积Conv的操作之后作为P2的输入。
作为本发明方法的进一步改进:将来自P2进行上采样后的特征图作为AF1模块的深层特征Y的输入,并将其通过通道注意力模块CA的操作得到对应的权重后与深层特征Y相乘,得到深层通道特征图Y1_1,将来自C1输出的特征图作为AF1模块的浅层特征X的输入,并将其通过空间注意力模块SA的操作得到对应的权重后与浅层特征X相乘,得到浅层空间特征图X1_1,接下来将空间特征图X1_1和通道特征图Y1_1相加,得到最终的融合上下文语义信息和空间位置信息的双注意力融合的特征图,并将融合后的特征进行基础卷积Conv的操作之后作为P1的输入。
作为本发明方法的进一步改进:所述步骤S4中采用目标模型的损失函数计算网络的损失并对网络的模型迭代训练包括:
步骤S41:所述损失函数选择为soft-IoU损失函数;
步骤S42:采用随机梯度下降作为优化器训练轻量卷积神经网络AFFPN的权重参数,动量和权重衰减系数分别设置为0.9和0.0005,同时采用poly的衰减策略动态调整学习率。
与现有技术相比,本发明的优点就在于:
1、本发明的基于注意力融合特征金字塔网络的红外小目标检测方法,该模型通过端到端学习的方式学习红外小目标的特征。为了提升模型的特征提取能力和特征表示能力,本发明采取特征池化金字塔聚合网络深层目标的全局上下文信息,在网络的浅层和深层设计空间注意力和通道注意力的融合机制以自适应增强不同层红外小目标特征以实现更好的特征融合。最后,将不同网络层的增强特征都放大到相同大小,并将这些具有丰富空间信息的浅层特征和具有语义信息的深层特征连接起来以形成鲁棒的红外小目标特征图。最后,对本发明的AFFPN方法在公开的红外小目标数据集上进行评估,实验结果表明,该方法具有较好的检测性能。
2、本发明的基于注意力融合特征金字塔网络的红外小目标检测方法,针对红外小目标的信噪比低,纹理和形状信息弱、目标像素数少的问题,采用基于注意力融合特征金字塔网络(AFFPN)的模型,提升了网络模型对红外小目标的检测性能。在网络的深层引入特征池化模块(PPM),避免红外小目标在深层网络的特征丢失,充分利用红外小目标的全局上下文先验信息;同时设计了关注浅层和深层网络对红外小目标的自适应特征选择能力的AF模块;为进一步提高小目标的特征利用率,设计了多尺度特征融合模块。本发明具有良好的鲁棒性,具体表现为该方法能够对海洋、建筑等杂波噪声干扰大的复杂背景中的红外小目标表现出良好的检测性能,并且本发明的复杂度低,可靠性程度高。。
3、本发明的基于注意力融合特征金字塔网络的红外小目标检测方法,具有非常轻量化的网络结构,可以部署到NVIDIA Jetson AGX Xavier嵌入式开发板上实现256×256分辨率图像的实时检测,这些优点使AFFPN在无人机的红外探测和搜索等应用中具有很大的应用潜力。
附图说明
图1是本发明方法的流程示意图。
图2是本发明在具体应用实例中的卷积神经网络AFFPN模型的结构原理示意图。
图3是本发明在具体应用实例中注意力融合模块结构原理示意图。
图4是本发明在具体应用实例中特征池化模块的结构原理示意图。
图5是本发明在具体应用实例中的AFFPN的残差模块Res结构原理示意图。
图6是本发明实施例中测试样本场景A的检测结果示意图。
图7是本发明实施例中测试样本场景B的检测结果示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
针对红外小目标检测精度不高的技术问题,本发明采用类似于特征金字塔网络的方式,提出一种专门用于红外小目标检测的注意力融合特征金字塔的轻量化网络(AFFPN)。该模型通过端到端学习的方式学习红外小目标的特征。
为了提升模型的特征提取能力和特征表示能力,本发明进一步采取特征池化金字塔聚合网络深层特征的全局上下文信息,在网络的浅层和深层设计空间注意力和通道注意力的融合机制以自适应增强不同层红外小目标特征以实现更好的特征融合。
进一步,本发明将不同网络层的增强特征都放大到相同大小,并将这些具有丰富空间信息的浅层特征和具有高级信息的深层特征连接起来以形成鲁棒的红外小目标特征图。
通过对本发明的AFFPN方法在公开的红外小目标数据集上进行了评估,实验结果表明,该方法具有较好的检测性能,较强的场景适应性和鲁棒性,网络模型的复杂度较低。
如图1-图5所示,本发明的基于注意力融合特征金字塔网络(AFFPN)的红外小目标检测方法,其流程包括:
步骤S1:获取数据训练样本集并进行数据扩充及数据集划分;即对包含红外小目标的图像数据进行数据增强和数据扩充;
步骤S2:构建包含损失函数的金字塔网络(AFFPN网络);即:建立具有注意力融合模块AF,特征池化模块PPM、残差模块Res、基础卷积网络Conv的轻量卷积神经网络AFFPN模型;
步骤S3:获取所述训练样本集的预测标签;即:获取红外小目标的训练图像数据和标签数据;
步骤S4:采用所述目标模型的损失函数计算AFFPN网络的损失并对网络模型迭代训练;即:采用所述目标模型的损失函数计算AFFPN网络的损失,通过训练数据集和标注信息对所述的轻量卷积神经网络AFFPN模型对网络模型迭代训练以及调参,并结合验证集验证模型的性能,保存性能最好的检测模型;
步骤S5:基于训练好的AFFPN网络对所述测试集进行目标检测;即:基于保存的性能最好的AFFPN网络模型对所述测试集进行红外小目标的检测;
步骤S6:输出目标检测结果,并对评价指标进行计算。
在具体应用实例中,根据实际应用的需要,所述步骤S1中进行数据扩充及数据集划分可以包括如下步骤:
步骤S11:采用基于图像增强的方法进行图像数据扩充;
步骤S12:将数据集划分为训练集、验证集和测试集。并且所述训练数据集占比为50%,验证数据集占比为20%,测试数据集占比为30%。
进一步,根据实际应用的需要,所述步骤S11中,所述基于图像增强方法进行数据扩充可以包括以下步骤:
步骤S111:图像裁剪及旋转:为每幅图像的每个目标裁剪五个图像,并确保目标位于裁剪图像的左上角、左下角、右上角、右下角和中心,然后每幅裁剪的图像以不同的角度随机旋转,角度在一定的范围内随机波动。
步骤S12:图像翻转:对图像分别进行水平翻转和垂直翻转。
步骤S13:随机叠加噪声。在原始图片的基础上,随机叠加高斯噪声。
在具体应用实例中,根据实际应用的需要,所述轻量卷积神经网络AFFPN模型包括特征提取模块和特征融合模块。所述特征提取模块包括自下而上的前向传递路径和自顶向下的反向传递路径,网络的顶层包含特征池化模块和注意力融合模块。所述特征提取模块的作用是从输入的原始图片中提取不同网络层次的红外小目标特征,并将特征结果进行转化;所述特征池化模块的作用是减少子区域之间的上下文信息丢失,更好的捕捉红外小目标图像的全局上下文先验信息;所述注意力融合模块的作用是自适应增强包含精细的细节信息和空间位置信息的浅层特征以及包含丰富语义信息的深层特征以实现更好的特征融合,从而保留和突出红外小目标的特征,增强模型的特征表示能力;所述特征融合模块的作用是连接包含丰富语义信息的深层特征和空间位置信息的浅层特征,生成鲁棒的全局特征图,提高模型的学习能力,从而提高目标检测的性能。
作为较佳应用实例,根据实际应用的需要,参见图2,所述步骤S2中,轻量卷积神经网络AFFPN模型包含十一个卷积阶段Stage;
C0采用卷积核大小3×3,输出特征32维,输出尺寸为256×256;
C1采用卷积核大小3×3,输出特征64维,输出尺寸为256×256;
C2采用大小为3×3的卷积核进行4次的残差连接操作,输出特征64维,输出尺寸为128×128;
C3采用大小为3×3的卷积核进行4次的残差连接操作,输出特征128维,输出尺寸为64×64;
C4采用大小为3×3的卷积核进行4次的残差连接操作,输出特征256维,输出尺寸为32×32;
PPM采用卷积核大小1×1的自适应平均池化操作,然后将卷积结果连接起来,输出特征256维,输出尺寸为32×32;
P4采用双线性差值进行上采样操作,输出特征64维,输出尺寸为32×32;
P3采用双线性差值进行上采样操作,输出特征64维,输出尺寸为64×64;
P2采用双线性差值进行上采样操作,输出特征64维,输出尺寸为128×128;
P1采用双线性差值进行上采样操作,输出特征64维,输出尺寸为256×256;
多尺度特征融合模块(Fusion模块)采取级联的方式将P1,P2,P3,P4层的特征进行融合,输出特征256维,输出尺寸为512×512;
预测模块(Predict)采用1×1的卷积核大小进行操作,输出特征1维,输出尺寸为512×512。
其中,将来自P4进行上采样之后的特征图与C3的输出特征图通过AF3模块处理之后作为P3的输入特征图,将来自P3进行上采样之后的特征图与C2的输出特征图通过AF2模块处理之后作为P2的输入特征图,将来自P2进行上采样之后的特征图与C1的输出特征图通过AF1模块处理之后作为P1的输入特征图。
进一步,作为较佳实施例,本发明进一步将来自P4进行上采样后的特征图作为AF3模块的深层特征Y的输入,并将其通过通道注意力模块CA的操作得到对应的权重后与深层特征Y相乘,得到深层通道特征图Y3_1,将来自C3输出的特征图作为AF3模块的浅层特征X的输入,并将其通过空间注意力模块SA的操作得到对应的权重后与浅层特征X相乘,得到浅层空间特征图X3_1,接下来将空间特征图X3_1和通道特征图Y3_1相加,得到最终的融合上下文语义信息和空间位置信息的双注意力融合的特征图,并将融合后的特征进行基础卷积Conv的操作之后作为P3的输入。
进一步,作为较佳实施例,本发明进一步将来自P3进行上采样后的特征图作为AF2模块的深层特征Y的输入,并将其通过通道注意力模块CA的操作得到对应的权重后与深层特征Y相乘,得到深层通道特征图Y2_1,将来自C2输出的特征图作为AF2模块的浅层特征X的输入,并将其通过空间注意力模块SA的操作得到对应的权重后与浅层特征X相乘,得到浅层空间特征图X2_1,接下来将空间特征图X2_1和通道特征图Y2_1相加,得到最终的融合上下文语义信息和空间位置信息的双注意力融合的特征图,并将融合后的特征进行基础卷积Conv的操作之后作为P2的输入。
进一步,作为较佳实施例,本发明进一步将来自P2进行上采样后的特征图作为AF1模块的深层特征Y的输入,并将其通过通道注意力模块CA的操作得到对应的权重后与深层特征Y相乘,得到深层通道特征图Y1_1,将来自C1输出的特征图作为AF1模块的浅层特征X的输入,并将其通过空间注意力模块SA的操作得到对应的权重后与浅层特征X相乘,得到浅层空间特征图X1_1,接下来将空间特征图X1_1和通道特征图Y1_1相加,得到最终的融合上下文语义信息和空间位置信息的双注意力融合的特征图,并将融合后的特征进行基础卷积Conv的操作之后作为P1的输入。
进一步,作为较佳实施例,本发明中特征池化模块PPM对图像的处理过程包括:
将来自C4的特征图分别经过卷积核大小为1×1、2×2、3×3和6×6的自适应平均池化操作得到不同的位置池化表示的特征图Y1,Y2,Y3,Y4;
对这四个不同尺度的特征Y1,Y2,Y3,Y4进行上采样,恢复到与输入特征图C4相同的大小;
将输入的特征图C4和四个不同尺度的特征Y1,Y2,Y3,Y4采用级联的操作得到融合全局上下文先验信息的特征图,并将融合后的特征进行基础卷积Conv的操作之后作为P4的输入。
需要特别说明的是,上述方式是根据实际应用进行的选择,并不是唯一的实施例。
进一步,作为较佳实施例,参见图3中所示为注意力融合AF模块的结构示意图,本发明中AF模块对图像的处理过程包括:
浅层输入的特征图X,分别采用卷积核大小为1×k和k×1进行卷积得到特征图X1_1和X1_2,以捕获低层红外小目标的空间位置和细节信息;
将特征图X1_1和X1_2相加之后利用Sigmoid函数对空间特征图进行归一化处理,再将得到的空间注意权重和输入的浅层特征图X相乘,得到浅层空间特征图X2;
深层输入的特征图Y,首先经过1×1大小的全局平均池化进行加权,然后通过两个全连接按层捕获通道之间的依赖关系,利用Sigmoid函数对通道特征图进行归一化处理后与输入的深层特征图Y相乘得到深层通道特征图Y2;
将浅层空间特征图X2和深层通道特征图Y2相加。
进一步地,对于浅层特征输入为其中C、H、W分别表示通道数、图像的高度和宽度,空间位置集由/>表示,(x,y)表示特征的空间坐标。对输入的浅层特征图分别采用卷积核大小为1×k和k×1进行卷积,以捕获低层红外小目标的空间位置和细节信息。最后利用Sigmoid函数对空间特征图进行归一化处理。关注浅层空间位置信息的SA注意权重/>可以计算为:
C1=Conv2(Conv1(X,W1 1),W1 2)
SA=S(X,W)=σ(C1+C2)
其中,Conv1和Conv2分别表示卷积核大小为1×k和k×1的卷积操作,W和σ分别表示空间注意的参数和sigmoid函数。然后,浅层特征的输出经过空间注意加权即可得到:
X'=SA·X
与浅层空间注意力不同,采用全局通道注意对多感受野的深层特征进行加权,以捕获高响应的通道特征。首先通过来生成通道级统计信息,得到具有全局感受野的大小为1×1×C的特征图,聚合全局上下文信息。然后通过两个全连接层捕获通道之间的依赖关系。最后利用Sigmoid函数对通道特征图进行归一化处理,关注深层通道信息的CA注意权重/>可以计算为:
其中,σ,和δ分别表示sigmoid函数,批量归一化(BN),整流线性单元(ReLU)。W1表示第一个全连接层,其目的是减少通道数,W2表示第二个全连接层,其目的是恢复通道数。
浅层和深层特征分别经过空间注意力和通道注意力之后,最终输出双注意力融合的特征图:
Z=X'+Y'=SA(X)+CA(Y)
其中,SA(·)和CA(·)分别表示空间注意力和通道注意力。
本发明采用PPM减少不同子区域之间的上下文信息丢失,更好的捕捉红外小目标图像的全局上下文先验信息。对于层级大小为N的金字塔,使用1×1卷积层将上下文表示的维度降低到原始层的1/N,然后通过双线性插值的方式对低维度特征图进行上采样,得到与原始特征图大小相同的特征。最后,将不同级别的特征级联相加作为最终的全局上下文场景先验。将不同尺度的金字塔池化模块的bin大小分别设置为1×1、2×2、3×3和6×6。关注全局上下文先验的特征池化模块PPM可以计算为:
L(X)=Conv(Concat[Lj(X),X])
其中Conv表示逐点卷积,卷积核尺寸大小为1×1,Up,和δ分别表示上采样,批量归一化(BN)和整流线性单元(ReLU).Concat表示不同尺度特征级联的操作,AdapPool表示对特征采取不同大小的全局池化操作。PPM不是本发明的改进要点,因此本发明对此不做过多赘述,
在具体应用实例中,本发明的所述步骤S4中采用目标模型的损失函数计算AFFPN网络的损失并对网络的模型迭代训练包括:
步骤S41:所述损失函数选择为soft-IoU损失函数;
优选的,所述soft-IoU损失函数的定义为:
其中,yi,j是网络的测试结果。
gi,j是红外图像的标签图。
步骤S42:采用随机梯度下降(SGD)作为优化器训练轻量卷积神经网络AFFPN的权重参数,动量和权重衰减系数分别设置为0.9和0.0005,同时采用poly的衰减策略动态调整学习率。
在具体应用实例中,本发明的步骤S6中,深度学习目标检测模型FPN,U-Net,ACM-U-Net,ACM-FPN采用所述的训练集、验证集、测试集进行网络模型的训练和测试,进行对比实验;统计对比实验的数据结果,对各个模型的检测性能进行比较,获得轻量卷积神经网络AFFPN的检测结果和性能数据。即:将所述的训练集、验证集、测试集作为深度学习目标检测模型FPN,U-Net,ACM-U-Net,ACM-FPN的输入,训练和测试所述的对比方法的深度学习目标检测模型,进行对比实验;统计对比实验的数据结果,对各个模型的检测性能进行比较,获得轻量卷积神经网络AFFPN的检测结果和性能数据。
作为优选方案,在具体应用中,所述步骤S6中的测试指标包括:
步骤S61:平均交并比(mean intersection-over-union,mIoU)、归一化交并比(normalized intersection-over-union,nIoU)、F-measure、平均精度(Averageprecision,AP)和曲线下面积(AUC),嵌入式开发板运算时间。
优选的,平均交并比(mean intersection-over-union,mIoU)、归一化交并比(normalized intersection-over-union,nIoU)、F-measure、平均精度(Averageprecision,AP)的定义为:
AP=∫P(R)dR
其中:
TP表示:被判定为正样本,实际上也是正样本的;
FP表示:被判定为正样本但是实际上是负样本的;
FN表示:被判定为负样本但实际上是正样本的。
N表示:样本总数。
优选的,所述嵌入式开发板运算时间的定义为:
实验模型在NVIDIA Jetson AGX Xavier嵌入式开发板对图像进行测试的消耗时间。
其中,mIoU即mean intersection-over-union,nIoU即normalizedintersection-over-union,F-measure、AP即Average precision,作为红外弱小目标检测中衡量检测精度的指标,mIoU、nIoU、F-measure、AP值越大,则检测的精确度越高,检测性能越好。
在具体的应用实例中,还包括步骤S62:选取深度学习目标检测模型FPN,U-Net,ACM-U-Net,ACM-FPN作为对比实验的对比方法模型;
步骤S63:设置相同的实验数据集,相同的实验参数和相同的实验硬件及软件环境,保证对比网络模型的实验可对比性。
步骤S64:具体地,不同网络模型的实验结果对比。
在一个具体的实施例中,实施使用到的硬件环境为:
CPU:Intel I9-10900X
GPU:TITAN RTX GPU
RAM:32G
编程语言:Python
深度学习框架:Pytorch
实施例使用SIRST公开数据集作训练和测试红外小目标检测网络模型,SIRST[Dai]等人建立的单帧红外小目标图像数据集,包含复杂的背景,目标弱小。
在该实施例中,对本发明的轻量卷积神经网络红外小目标模型进行了评估,并与其他最先进的方法进行了对比,包括FPN,U-Net,ACM-U-Net,ACM-FPN,在对比实验的过程中,对比模型采用了与之前实验相同的设置。。实验都是基于相同的公开数据集SIRST上进行的。表1为5种方法的对比实验结果,可以看出本发明提出的基于注意力融合特征金字塔网络(AFFPN)在五个评价指标的性能都达到了最好的性能,取得了令人满意的结果。
表1.5种不同方法的对比实验结果
Methods | mIoU(×10-2) | nIoU(×10-2) | F-measure(×10-2) | AP(×10-2) |
FPN | 72.18 | 70.41 | 80.39 | 75.90 |
U-Net | 73.64 | 72.35 | 80.81 | 76.11 |
ACM-FPN | 73.65 | 72.22 | 81.60 | 78.33 |
ACM-U-Net | 74.45 | 72.70 | 81.68 | 78.08 |
AFFPN(Ours) | 77.47 | 75.79 | 83.46 | 80.48 |
为进一步证明本发明在嵌入式平台部署的多种应用场景,对Jetson AGX Xavier开发板的不同功率模式的推理性能进行了比较。Jetson AGX Xavier开发板支持10W,15W,30W三种电源模式,以适应不同的应用。考虑到深度学***均处理时间。不同功率和不用批处理大小的推理速度结果如表2所示,我们提出的方法在10W、15W和30W功率模式下,批处理大小为16时,帧率分别高达22,24和43,这充分说明了AFFPN适合在多种嵌入式场景完成实时高效的目标检测任务。
表2不同功率模式和图像批量大小下的AFFPN推理时间。
参见图6和图7,是本发明在实施例场景A和场景B中八种不同方法的可视化检测结果。在图中,目标区域在右下角被放大,以便更直观的展示精细分割的结果,并分别用红色、黄色和绿色的圆圈表示正确检测到的目标、虚警和漏检。顶帽(Tophat)滤波,最大中值(Max_median)滤波,多尺度灰差加权图像熵(multiscale grey difference weightedimage entropy,MGDWE),非凸秩近似最小化联合l2,1规范(non-Convex rankapproximation minimization joint l2,1norm,NRAM)和张量核规范(partial sum ofthe tensor nuclear norm,PSTNN)都是传统的方法,他们的超参数设置如表3所示,算法是在MATLAB2019上面仿真实施的。
表3.传统方法的详细超参数设置.
从图中可以看出,基于滤波的Tophat和Max_median方法对噪声敏感,在不同场景下出现了不同程度的虚警现象,表明其对背景杂波和噪声具有较强的响应能力。基于LocalRank的方法也出现了较多的虚警和漏检的现象。值得注意的是,这些模型驱动的方法不能完全的对目标形状进行精确的分割,他们仅能感知到目标的大致位置。这是因为传统模型驱动的方法依赖于手工设计的特征和先验假设,不能适应SIRST数据集各种复杂背景的变化,因此在不同的复杂背景下鲁棒性较差。在数据驱动的方法中,U-Net没有考虑不同特征层的融合以及全局上下文信息的关联,所以在场景1和场景2中出现了虚警的情况,进一步说明了关注不同特征层之间的融合和全局上下文关联的重要性。而缺少特征注意融合模块的ACM_FPN在场景1和场景2中出现了虚警的情况。在AF模块和PPM的支持下,AFFPN能够对红外小目标进行精确的定位和形状轮廓细节分割,比其他方法实现了更好的小目标检测性能。
综上所述,本发明首先针对复杂的网络结构可能导致深层目标特征丢失,并且其不容易实际应用部署的情况,设计了专门用于红外小目标检测的轻量化卷积网络。针对深层网络像素之间的全局相关性不强,小目标特征可能在深层网络出现丢失情况的问题,采用了特征池化模块(PPM)聚合全局上下文先验信息,增强其对红外小目标的上下文信息建模能力,保持和突出红外小目标的在深层网络的特征。红外小目标在浅层的特征具有精细的细节信息和空间位置信息,在深层的特征包含丰富的语义信息,为了解决不同层的特征融合不充分的问题,设计了注意力融合机制来更好的实现特征融合,具体地说,在网络的浅层特征中加入关注空间位置信息的空间注意力,在网络的深层特征中加入关注通道信息和内容信息的通道注意力,以自适应增强不同层的红外小目标特征以实现更好的特征融合。最后,为进一步提高红外小目标的特征利用率,我们将不同网络层每个比例的增强特征都放大到相同大小,并将这些具有丰富空间信息的浅层特征和具有高级信息的深层特征连接起来以形成鲁棒的红外小目标特征图,从而显著提高红外小目标的检测性能。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (10)
1.一种基于注意力融合特征金字塔网络的红外小目标检测方法,其特征在于,包括:
步骤S1:获取数据训练样本集并进行数据扩充及数据集划分;
步骤S2:构建包含损失函数的轻量卷积神经网络模型;
步骤S3:获取训练样本集的预测标签;
步骤S4:采用目标模型的损失函数计算轻量卷积神经网络的损失并对网络模型迭代训练;
步骤S5:基于训练好的轻量卷积神经网络模型对所述测试集进行目标检测;
步骤S6:输出目标检测结果,并对评价指标进行计算。
2.根据权利要求1所述的基于注意力融合特征金字塔网络的红外小目标检测方法,其特征在于,所述步骤S1的流程包括:
步骤S11:采用基于图像增强的方法进行图像数据扩充;
步骤S12:将数据集划分为训练集、验证集和测试集;并且所述训练数据集占比为50%,验证数据集占比为20%,测试数据集占比为30%。
3.根据权利要求2所述的基于注意力融合特征金字塔网络的红外小目标检测方法,其特征在于,所述步骤S11中,所述基于图像增强方法进行数据扩充包括以下步骤:
步骤S111:图像裁剪及旋转:为每幅图像的每个目标裁剪五个图像,并确保目标位于裁剪图像的左上角、左下角、右上角、右下角和中心,然后每幅裁剪的图像以不同的角度随机旋转,角度在一定的范围内随机波动;
步骤S12:图像翻转:对图像分别进行水平翻转和垂直翻转;
步骤S13:随机叠加噪声;在原始图片的基础上,随机叠加高斯噪声。
4.根据权利要求1-3中任意一项所述的基于注意力融合特征金字塔网络的红外小目标检测方法,其特征在于,所述步骤S2中,所述轻量卷积神经网络模型包括特征提取模块和特征融合模块;所述特征提取模块包括自下而上的前向传递路径和自顶向下的反向传递路径,网络的顶层包含特征池化模块和注意力融合模块;所述特征提取模块的用来从输入的原始图片中提取不同网络层次的红外小目标特征,并将特征结果进行转化;所述特征池化模块的用来减少子区域之间的上下文信息丢失,捕捉红外小目标图像的全局上下文先验信息;所述注意力融合模块的用来自适应增强包含精细的细节信息和空间位置信息的浅层特征以及包含丰富语义信息的深层特征以实现更好的特征融合;所述特征融合模块用来连接包含丰富语义特征和空间位置特征,生成鲁棒的全局特征图。
5.根据权利要求4所述的基于注意力融合特征金字塔网络的红外小目标检测方法,其特征在于,所述步骤S2中,轻量卷积神经网络包含十一个卷积阶段Stage;
C0采用卷积核大小3×3,输出特征32维,输出尺寸为256×256;
C1采用卷积核大小3×3,输出特征64维,输出尺寸为256×256;
C2采用大小为3×3的卷积核进行4次的残差连接操作,输出特征64维,输出尺寸为128×128;
C3采用大小为3×3的卷积核进行4次的残差连接操作,输出特征128维,输出尺寸为64×64;
C4采用大小为3×3的卷积核进行4次的残差连接操作,输出特征256维,输出尺寸为32×32;
PPM采用卷积核大小1×1的自适应平均池化操作,然后将卷积结果连接起来,输出特征256维,输出尺寸为32×32;
P4采用双线性差值进行上采样操作,输出特征64维,输出尺寸为32×32;
P3采用双线性差值进行上采样操作,输出特征64维,输出尺寸为64×64;
P2采用双线性差值进行上采样操作,输出特征64维,输出尺寸为128×128;
P1采用双线性差值进行上采样操作,输出特征64维,输出尺寸为256×256;
多尺度特征融合模块采取级联的方式将P1,P2,P3,P4层的特征进行融合,输出特征256维,输出尺寸为512×512;
预测模块采用1×1的卷积核大小进行操作,输出特征1维,输出尺寸为512×512。
6.根据权利要求5所述的基于注意力融合特征金字塔网络的红外小目标检测方法,其特征在于,将来自P4进行上采样之后的特征图与C3的输出特征图通过AF3模块处理之后作为P3的输入特征图,将来自P3进行上采样之后的特征图与C2的输出特征图通过AF2模块处理之后作为P2的输入特征图,将来自P2进行上采样之后的特征图与C1的输出特征图通过AF1模块处理之后作为P1的输入特征图。
7.根据权利要求5所述的基于注意力融合特征金字塔网络的红外小目标检测方法,其特征在于,将来自P4进行上采样后的特征图作为AF3模块的深层特征Y的输入,并将其通过通道注意力模块CA的操作得到对应的权重后与深层特征Y相乘,得到深层通道特征图Y3_1,将来自C3输出的特征图作为AF3模块的浅层特征X的输入,并将其通过空间注意力模块SA的操作得到对应的权重后与浅层特征X相乘,得到浅层空间特征图X3_1,接下来将空间特征图X3_1和通道特征图Y3_1相加,得到最终的融合上下文语义信息和空间位置信息的双注意力融合的特征图,并将融合后的特征进行基础卷积Conv的操作之后作为P3的输入。
8.根据权利要求5所述的基于注意力融合特征金字塔网络的红外小目标检测方法,其特征在于,将来自P3进行上采样后的特征图作为AF2模块的深层特征Y的输入,并将其通过通道注意力模块CA的操作得到对应的权重后与深层特征Y相乘,得到深层通道特征图Y2_1,将来自C2输出的特征图作为AF2模块的浅层特征X的输入,并将其通过空间注意力模块SA的操作得到对应的权重后与浅层特征X相乘,得到浅层空间特征图X2_1,接下来将空间特征图X2_1和通道特征图Y2_1相加,得到最终的融合上下文语义信息和空间位置信息的双注意力融合的特征图,并将融合后的特征进行基础卷积Conv的操作之后作为P2的输入。
9.根据权利要求5所述的基于注意力融合特征金字塔网络的红外小目标检测方法,其特征在于,将来自P2进行上采样后的特征图作为AF1模块的深层特征Y的输入,并将其通过通道注意力模块CA的操作得到对应的权重后与深层特征Y相乘,得到深层通道特征图Y1_1,将来自C1输出的特征图作为AF1模块的浅层特征X的输入,并将其通过空间注意力模块SA的操作得到对应的权重后与浅层特征X相乘,得到浅层空间特征图X1_1,接下来将空间特征图X1_1和通道特征图Y1_1相加,得到最终的融合上下文语义信息和空间位置信息的双注意力融合的特征图,并将融合后的特征进行基础卷积Conv的操作之后作为P1的输入。
10.根据权利要求1-3中任意一项所述的基于注意力融合特征金字塔网络的红外小目标检测方法,其特征在于,所述步骤S4中采用目标模型的损失函数计算网络的损失并对网络的模型迭代训练包括:
步骤S41:所述损失函数选择为soft-IoU损失函数;
步骤S42:采用随机梯度下降作为优化器训练轻量卷积神经网络AFFPN的权重参数,动量和权重衰减系数分别设置为0.9和0.0005,同时采用poly的衰减策略动态调整学习率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310487526.6A CN116524312A (zh) | 2023-04-28 | 2023-04-28 | 一种基于注意力融合特征金字塔网络的红外小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310487526.6A CN116524312A (zh) | 2023-04-28 | 2023-04-28 | 一种基于注意力融合特征金字塔网络的红外小目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524312A true CN116524312A (zh) | 2023-08-01 |
Family
ID=87395519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310487526.6A Pending CN116524312A (zh) | 2023-04-28 | 2023-04-28 | 一种基于注意力融合特征金字塔网络的红外小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524312A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217627A (zh) * | 2023-11-09 | 2023-12-12 | 宁德市天铭新能源汽车配件有限公司 | 基于机器学习的汽车零部件生产质量优化方法及*** |
CN117893561A (zh) * | 2024-03-14 | 2024-04-16 | 大连理工大学 | 一种基于局部对比度计算方法的红外细小目标检测算法 |
CN118247784A (zh) * | 2024-05-28 | 2024-06-25 | 南昌大学第二附属医院 | 一种基于深度卷积神经网络的隐球菌图像识别方法 |
-
2023
- 2023-04-28 CN CN202310487526.6A patent/CN116524312A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217627A (zh) * | 2023-11-09 | 2023-12-12 | 宁德市天铭新能源汽车配件有限公司 | 基于机器学习的汽车零部件生产质量优化方法及*** |
CN117217627B (zh) * | 2023-11-09 | 2024-02-06 | 宁德市天铭新能源汽车配件有限公司 | 基于机器学习的汽车零部件生产质量优化方法及*** |
CN117893561A (zh) * | 2024-03-14 | 2024-04-16 | 大连理工大学 | 一种基于局部对比度计算方法的红外细小目标检测算法 |
CN117893561B (zh) * | 2024-03-14 | 2024-06-07 | 大连理工大学 | 一种基于局部对比度计算方法的红外细小目标检测算法 |
CN118247784A (zh) * | 2024-05-28 | 2024-06-25 | 南昌大学第二附属医院 | 一种基于深度卷积神经网络的隐球菌图像识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943145B2 (en) | Image processing methods and apparatus, and electronic devices | |
CN111310862B (zh) | 复杂环境下基于图像增强的深度神经网络车牌定位方法 | |
CN111126472B (zh) | 一种基于ssd改进的目标检测方法 | |
CN116524312A (zh) | 一种基于注意力融合特征金字塔网络的红外小目标检测方法 | |
CN112488210A (zh) | 一种基于图卷积神经网络的三维点云自动分类方法 | |
CN111179217A (zh) | 一种基于注意力机制的遥感图像多尺度目标检测方法 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN110991444B (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN115497005A (zh) | 一种融合特征转移与注意力机制的yolov4遥感目标检测方法 | |
CN104299006A (zh) | 一种基于深度神经网络的车牌识别方法 | |
CN111126278B (zh) | 针对少类别场景的目标检测模型优化与加速的方法 | |
CN111079739A (zh) | 一种多尺度注意力特征检测方法 | |
CN107871310A (zh) | 一种基于模糊核精细化的单幅图像盲去运动模糊方法 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测*** | |
CN111784624A (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
CN114299383A (zh) | 基于密度图与注意力机制融合的遥感图像目标检测方法 | |
CN117853955A (zh) | 一种基于改进YOLOv5的无人机小目标检测方法 | |
CN112926667B (zh) | 深度融合边缘与高层特征的显著性目标检测方法及装置 | |
CN111597875A (zh) | 一种交通标志识别方法、装置、设备及存储介质 | |
CN111160100A (zh) | 一种基于样本生成的轻量级深度模型航拍车辆检测方法 | |
CN115205793B (zh) | 基于深度学习二次确认的电力机房烟雾检测方法及装置 | |
CN116524338A (zh) | 一种改进yolox的大尺寸小目标危险行为检测方法及*** | |
CN116977895A (zh) | 用于通用相机镜头的污渍检测方法、装置及计算机设备 | |
CN112560907A (zh) | 基于混合域注意力的有限像素红外无人机目标检测方法 | |
CN116740528A (zh) | 一种基于阴影特征的侧扫声呐图像目标检测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |