CN116958782A - 一种红外与可见光特征融合的弱小目标检测方法及装置 - Google Patents
一种红外与可见光特征融合的弱小目标检测方法及装置 Download PDFInfo
- Publication number
- CN116958782A CN116958782A CN202310813236.6A CN202310813236A CN116958782A CN 116958782 A CN116958782 A CN 116958782A CN 202310813236 A CN202310813236 A CN 202310813236A CN 116958782 A CN116958782 A CN 116958782A
- Authority
- CN
- China
- Prior art keywords
- image
- visible light
- features
- infrared
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 64
- 230000004927 fusion Effects 0.000 claims abstract description 48
- 238000013145 classification model Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 10
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 abstract description 5
- 239000010410 layer Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011229 interlayer Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种红外与可见光特征融合的弱小目标检测方法及装置,方法包括:分别对红外图像以及可见光图像进行预处理,红外图像以及可见光图像中包括至少一检测目标;利用配置的双流主干网络,分别提取红外图像以及可见光图像的图像特征并进行特征融合,以得到多尺度图像特征;基于多尺度图像特征,利用配置的定位分类模型,获取检测目标的位置信息与分类结果。本实施例提供的方法,通过双流主干网络模型对红外光与可见光两种模态数据实现特征提取,并通过跨模态的多层级间特征融合实现两种模态特征的互补,使用基于深度学习的网络实现对弱小目标的定位与分类,助力弱小目标检测精度的提升。
Description
技术领域
本发明涉及红外与可见光图像检测技术领域,尤其涉及一种红外与可见光特征融合的弱小目标检测方法及装置。
背景技术
红外与可见光图像特征融合指的是将红外光与可见光两种模态图像通过基于深度学习的网络进行特征提取后,将相同浅层级或深层级的特征通过融合模块加以融合,利用特征之间的互补性,融合特征之间的优点,获得更多的位置信息和语义信息与进而提高模型定位与识别小目标的准确性。
红外弱小目标检测与分类是指在拍摄得到的红外图像中,有效的区别背景区域(如树木、海浪、建筑、天空等)与弱小目标区域(如无人机等),并对目标区域进行标注和完成对弱小目标的分类。
而传统红外弱小目标检测算法主要通过抑制背景、增强目标来实现检测过程,当红外图像背景较复杂或目标信噪比较低时,这些算法容易产生较多虚警,检测精确率低。而许多基于深度学习的方法通常直接使用通用的目标检测或语义分割网络的检测效果并不理想。
发明内容
本发明采用的技术方案是,如何解决复杂背景下红外弱小目标检测所存在的因红外弱小目标特征不显著等因素导致的检测精度欠佳问题;有鉴于此,本发明提供了一种红外与可见光特征融合的弱小目标检测方法及装置。
本发明技术方案,一种红外与可见光特征融合的弱小目标检测方法,包括:
步骤S1,分别对红外图像以及可见光图像进行预处理,所述红外图像以及所述可见光图像中包括至少一检测目标;
步骤S2,利用配置的双流主干网络,分别提取所述红外图像以及所述可见光图像的图像特征并进行特征融合,以得到多尺度图像特征;
步骤S3,基于所述多尺度图像特征,利用配置的定位分类模型,获取所述检测目标的位置信息与分类结果。
在一个实施方式中,所述步骤S1包括:
获取所述红外图像以及所述可见光图像;
基于配置的非锐化掩蔽的边缘和细节增强算法,将所述红外图像和低通滤波后的模糊图像进行差分运算,获得表征所述红外图像边缘和细节的高频分量,与配置的增益系数相乘后再叠加原始图像,以此获得目标边缘和细节增强的红外图像;
利用直方图均衡化对所述可见光图像进行滤波,对滤波后的可见光图像进行图像增强,增加样本数量,再基于配置的双线性差值算法来对当前可见光图像进行缩放。
在一个实施方式中,所述步骤S2包括:
利用配置的ResNet网络,对所述红外图像以及所述可见光图像进行特征提取,提取的特征包括浅层特征以及高层特征;
利用配置的空间信息引导模块,增强图像对应的目标区域的空间信息,并引导两种图像的浅层特征加以融合;
采用SE模块或坐标注意力模块中的至少一种增强高层特征的语义信息,采用不同种扩张率的膨胀卷积捕获两种模态高层特征的多尺度上下文信息,并与增强后的高层特征相拼接,以获得两模态增强后的高层特征;
将当前浅层特征以及所述高层特征进行融合,以得到多尺度图像特征。
在一个实施方式中,所述步骤S3包括:
获取所述高层图像特征;
利用配置的定位分类模型,获取所述检测目标的位置信息与分类结果,其中,所述定位分类模型是基于RPN和头部结构的两部分内容确定的。
本发明的另一方面还提供了一种红外与可见光特征融合的弱小目标检测装置,包括:
预处理单元,被配置为分别对红外图像以及可见光图像进行预处理,所述红外图像以及所述可见光图像中包括至少一检测目标;
融合单元,被配置为利用配置的双流主干网络,分别提取所述红外图像以及所述可见光图像的图像特征并进行特征融合,以得到多尺度图像特征;
检测单元,被配置为基于所述多尺度图像特征,利用配置定位分类模型,获取所述检测目标的位置信息与分类结果。
在一个实施方式中,所述预处理单元被进一步配置为:
获取所述红外图像以及所述可见光图像;
基于配置的非锐化掩蔽的边缘和细节增强算法,将所述红外图像和低通滤波后的模糊图像进行差分运算,获得表征所述红外图像边缘和细节的高频分量,与配置的增益系数相乘后再叠加原始图像,以此获得目标边缘和细节增强的红外图像;
利用直方图均衡化对所述可见光图像进行滤波,对滤波后的可见光图像进行图像增强,增加样本数量,再基于配置的双线性差值算法来对当前可见光图像进行缩放。
在一个实施方式中,所述融合单元被进一步配置为:
利用配置的ResNet网络,对所述红外图像以及所述可见光图像进行特征提取,提取的特征包括浅层特征以及高层特征;
利用配置的空间信息引导模块,增强图像对应的目标区域的空间信息,并引导两种图像的浅层特征加以融合;
采用SE模块或坐标注意力模块中的至少一种增强高层特征的语义信息,采用不同种扩张率的膨胀卷积捕获两种模态高层特征的多尺度上下文信息,并与增强后的高层特征相拼接,以获得两模态增强后的高层特征;
将当前浅层特征以及所述高层特征进行融合,以得到多尺度图像特征。
在一个实施方式中,所述检测单元被进一步配置为:
获取所述高层图像特征;
利用配置的定位分类模型,获取所述检测目标的位置信息与分类结果,其中,所述定位分类模型是基于RPN和头部结构的两部分内容确定的。
本发明的另一方面还提供了一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上任一项所述的红外与可见光特征融合的弱小目标检测方法的步骤。
本发明的另一方面还提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的红外与可见光特征融合的弱小目标检测方法的步骤。
采用上述技术方案,本发明至少具备以下优点:
本发明实施例提出的方法,通过双流主干网络模型对红外光与可见光两种模态数据实现特征提取,并通过跨模态的多层级间特征融合实现两种模态特征的互补,使用基于深度学习的网络实现对弱小目标的定位与分类,助力弱小目标检测精度的提升。
附图说明
图1为根据本发明实施例的红外与可见光特征融合的弱小目标检测方法流程示意图;
图2为根据本发明实施例的双流跨模态层间融合特征提取主干网络的结构图;
图3为根据本发明实施例的多感受野特征增强模块示意图;
图4为根据本发明实施例的混合注意力模块示意图;
图5为根据本发明实施例的浅层空间信息引导的跨模态融合模块结构示意图;
图6为根据本发明实施例的坐标注意力模块结构示意图;
图7为根据本发明实施例的高层语义信息引导的融合(CFF)模块结构示意图;
图8为根据本发明实施例的语义和空间信息增强的多尺度特征融合网络结构示意图;
图9为根据本发明实施例的语义增强模块(CEM)的结构示意图;
图10为根据本发明实施例的空间增强模块(SEM)的结构示意图;
图11为根据本发明实施例的红外弱小目标定位和分类模型结构示意图;
图12为根据本发明实施例的红外弱小目标检测与分类流程图;
图13为根据本发明实施例的红外与可见光特征融合的弱小目标检测装置组成结构图;
图14为根据本发明实施例的电子设备结构示意图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
在附图中,为了便于说明,已稍微夸大了物体的厚度、尺寸和形状。附图仅为示例而并非严格按比例绘制。
还应理解的是,用语“包括”、“包括有”、“具有”、“包含”和/或“包含有”,当在本说明书中使用时表示存在所陈述的特征、整体、步骤、操作、元件和/或部件,但不排除存在或附加有一个或多个其它特征、整体、步骤、操作、元件、部件和/或它们的组合。此外,当诸如“...中的至少一个”的表述出现在所列特征的列表之后时,修饰整个所列特征,而不是修饰列表中的单独元件。此外,当描述本申请的实施方式时,使用“可以”表示“本申请的一个或多个实施方式”。并且,用语“示例性的”旨在指代示例或举例说明。
如在本文中使用的,用语“基本上”、“大约”以及类似的用语用作表近似的用语,而不用作表程度的用语,并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。
除非另外限定,否则本文中使用的所有用语(包括技术用语和科学用语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是,用语(例如在常用词典中定义的用语)应被解释为具有与它们在相关技术的上下文中的含义一致的含义,并且将不被以理想化或过度正式意义解释,除非本文中明确如此限定。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明第一实施例,一种红外与可见光特征融合的弱小目标检测方法,如图1所示,包括以下步骤:
步骤S1,分别对红外图像以及可见光图像进行预处理,所述红外图像以及所述可见光图像中包括至少一检测目标;
步骤S2,利用配置的双流主干网络,分别提取所述红外图像以及所述可见光图像的图像特征并进行特征融合,以得到多尺度图像特征;
步骤S3,基于所述多尺度图像特征,利用配置的定位分类模型,获取所述检测目标的位置信息与分类结果。
下面将分步对本发明所提供的方法进行详细说明。
步骤S1,分别对红外图像以及可见光图像进行预处理,所述红外图像以及所述可见光图像中包括至少一检测目标。
本实施例中,步骤S1进一步包括:
S101,获取所述红外图像以及所述可见光图像;
S102,基于配置的非锐化掩蔽的边缘和细节增强算法,将所述红外图像和低通滤波后的模糊图像进行差分运算,获得表征所述红外图像边缘和细节的高频分量,与配置的增益系数相乘后再叠加原始图像,以此获得目标边缘和细节增强的红外图像;
S103,利用直方图均衡化对所述可见光图像进行滤波,对滤波后的可见光图像进行图像增强,增加样本数量,再基于配置的双线性差值算法来对当前可见光图像进行缩放。
具体地,由于红外成像过程中受大气干扰的影响,目标的辐射能量降低导致红外图像过低的信噪比,而目标的边缘和细节有助于弱小目标的检测,而目标的边缘和细节有助于弱小目标的检测,为此本发明拟引入非锐化掩蔽(UnshSarp Mask)的边缘和细节增强算法,将原始图像和低通滤波器(Low-Pass Filter,如均值滤波)后的模糊图像进行差分运算,获得表征图像边缘和细节的高频分量,与增益系数相乘后再叠加原始图像,以此获得目标边缘和细节增强的红外图像。
相应地,针对可见光图像,采用直方图均衡化来对图像进行滤波,并使用旋转、随机裁剪等方式进行图像增强增加样本数量,然后采用双线性差值(BilinearInterpolation)方法来对图像进行缩放,作为低分辨率图像。
步骤S2,利用配置的双流主干网络,分别提取所述红外图像以及所述可见光图像的图像特征并进行特征融合,以得到多尺度图像特征。
本实施例中,步骤S2进一步包括:
S201,利用配置的ResNet网络,对所述红外图像以及所述可见光图像进行特征提取,提取的特征包括浅层特征以及高层特征;
S202,利用配置的空间信息引导模块,增强图像对应的目标区域的空间信息,并引导两种图像的浅层特征加以融合;
S203,采用SE模块或坐标注意力模块中的至少一种增强高层特征的语义信息,采用不同种扩张率的膨胀卷积捕获两种模态高层特征的多尺度上下文信息,并与增强后的高层特征相拼接,以获得两模态增强后的高层特征;
S204,将当前浅层特征以及所述高层特征进行融合,以得到多尺度图像特征。
具体地,为弥补红外弱小目标信息匮乏所导致的检测精度欠佳问题,借助于可见光图像具有丰富纹理信息的优势,设计“双流主干网络”分别对两种模态数据实现特征提取,并通过跨模态的多层级间特征融合实现两种模态特征的互补,助力弱小目标检测精度的提升;在浅层与高层特征融合阶段,为增强弱小目标的语义信息,设计多尺度的语义增强模块;最后通过设计Loss function将弱小目标的定位和辨别转换为回归和分类问题加以实现。
1)特征提取
本实施例中,参考图2,考虑到ResNet系列网络能更好地拟合分布函数、获得更高的检测精度且有利于网络的训练学习,拟将ResNet网络系列(如ResNet34或ResNet50)作为两种模态图像特征提取网络的基本骨架,并在此基础上增设多视野特征增强模块和注意力机制模块,进一步增强骨干网络的特征提取能力。
由于真实场景中弱小目标所呈现的空间分布大小具有多样性和差异性,所在局部区域大小所包含的信息有助于小目标的检测,拟设计多感受野特征增强模块(如图3所示),丰富弱小目标的特征。将浅层特征输送进不同卷积核大小的几个残差模块中得到相应的多尺度特征图/>,并在通道维度上加以拼接实现多尺度特征的融合/>。尽管较大的卷积核能增加网络的感受野,但存在将弱小目标误提取为背景的风险,为此需根据弱小目标在图像中所占的空间尺寸设计残差模块的数量和卷积核的大小。
为防止重要细节纹理信息的丢失,借助于通道注意力(channel attention,CA)和空间注意力(spatial attention, SA),构建串联的混合注意力模块(如图4所示)。在多视野特征增强模块后增加混合注意力模块,选择性地关注空间或通道上的关键特征信息,而抑制无价值的特征。
2)跨模态层间融合
对于来自于两种模态图像相同浅层级的特征和/>,为增强特征的表达能力,可利用1×1卷积扩展特征的通道维度,进而引入空间注意力(SA)机制增强目标区域的空间信息,并引导两种模态图像的浅层特征加以融合。
空间信息引导(SAD)单元可来源于CBAM中的SAM模块,通过平均池化(AP)和最大池化(MP)操作来产生两个代表不同信息的空间特征图,合并后再通过一个感受野较大的7×7卷积进行特征融合,最后通过Sigmoid(σ)操作生成权重图(Ws),输出修正后的特征图。也可简化SAM模块,只采用AP或MP操作,利用感受野更大的K XK卷积生成权重图(Ws),从而实现两种模态图像目标区域的增强。
或
或/> (1)
鉴于两种模态各自具有重要的浅层空间信息,在SAD引导下采用对称结构实现跨模态的浅层特征融合(如图5所示),即:
(2)
两模态特征间元素相加的运算强调特征的互补,元素相乘的运算/>强调特征的共性,由BN(Batch Normalization)和激活函数(如ReLu,PReLu或Swish ReLu)所组成BP单元旨在通过低成本的计算来改善浅层特征的非线性特性。
不同于浅层特征,高层特征则具有丰富的语义信息而缺乏空间信息,为此在高层跨模态融合中,采用SE模块或坐标注意力模块为代表的通道注意力(CA)机制增强高层特征的语义信息。采用坐标注意力模块(如图6所示)的缘由在于,它不仅能捕获跨通道的信息,还能通过水平和垂直两个方向的平均池化操作捕获方向感知和位置敏感信息,这有助于模型更准确地定位和识别小目标。
此外,鉴于目标邻域的上下文信息有助于小目标的检测,如没有天空信息时我们难以识别鸟类,但将天空作为上下文信息时则很容易分辨出来,而空洞(Dilated)卷积可通过扩大感受野增强语义信息,为此采用几种不同扩张率的膨胀卷积捕获两种模态高层特征的多尺度上下文信息,并与CA机制增强后的特征/>相拼接构建CAD单元,如图7(a)所示,获得两模态增强后的高层语义特征/>。
(3)
进一步,类似于浅层跨模态融合方式,也采用对称结构实现高层语义信息引导的跨模态融合,如图7(b)所示。
(4)
3)多尺度特征融合网络
为实现浅层空间信息和高层语义信息的融合,拟在金字塔(FPN)结构的基础上,借助于高层特征含有丰富语义信息的特点,在高层特征传递中嵌入“语义增强模块(CEM)”,利用浅层特征含有丰富的空间信息的特点,在浅层特征传递中嵌入具有“超分辨率功能”的“空间增强模块(SEM)”(如图8所示),解决弱小目标的空间和语义信息易被淹没的问题,提升检测精度。
鉴于目标周围区域的上下文信息能提升弱小目标的检测,拟在具有强语义信息的高层C5与FPN中的P5之间嵌入一个“语义增强模块(CEM)”,采用不同扩张率r的空洞卷积获取不同感受野的多尺度上下文信息,使用多种融合方式加以实现。如图 9(a)所示,将C5经不同r的空洞卷积“并联编码”后采用相加融合的形式,或图9(b)所示采用拼接融合的形式,或采用图9(c)的串并级联融合方式,通过串联形式将视野较小的语义信息,逐步向视野更大的语义信息进行传递,并采用跳跃连接方式,一方面以增强各级空洞卷积前后输出特征之间的交互,增强特征融合,另一方面也通过跳跃连接方式降低计算复杂度,加快收敛和推理速度。
设计SEM模块目的在于从低分辨率图像中生成高分辨率特征,以支持弱小目标对象的检测,同时保持低计算成本。拟将金字塔(FPN) (如图10)中含丰富空间信息的浅层特征P_2作为参考,并与临近高层特征P_3在SEM模块中加以混合,生成利于弱小目标检测的中间特征P_3^',数学上可表示为:
(5)
其中, 和 />分别表示纹理和语义的提取操作,↑2×表示采用亚像素卷积实现的上采样操作。考虑到金字塔(FPN)的浅层特征图 />中较小的感受野有助于更好地定位弱小物体的特点,因而在生成中间特征/>后,将 />与/>同级的高分辨率特征图/>相叠加, 产生空间信息增强的金字塔层/>,用于后续弱小目标的定位与分类。特征图 />的生成在数学上可表示为:
(6)
步骤S3,基于所述多尺度图像特征,利用配置的定位分类模型,获取所述检测目标的位置信息与分类结果。
本实施例中,步骤S3进一步包括:
S301,获取所述高层图像特征;
S302,利用配置的定位分类模型,获取检测目标的位置信息与分类结果,其中,定位分类模型是基于RPN和头部结构的两部分内容确定的。
具体地,参考图11,考虑到模型将要部署到移动/嵌入或边缘端设备上,对检测速度具有较高的要求,因此,以特征提取和特征融合阶段得到的特征图为基础,在定位和分类阶段引入了Faster RCNN (Faster Regions with CNN Features)的RPN(RegionProposalNetwork)、RoI Pooling(Region of Interest Pooling)、分类和回归(ClassificationandRegression)三个结构层设计。其中,RPN利用Anchor机制将区域生成与卷积网络关联在一起,初步筛选含有目标的候选框以及前景、背景的判断,进一步,分类回归层输出最后的预测边界框和目标类别。
目标检测任务不仅要完成对目标的类别分类,也要完成对目标物体的分类。定位和分类模型的损失函数包含两个分支:RPN和头部结构。其中,RPN的损失函数设计为:
(7)
其中,表示第i个锚框是前景的预测概率;*为真是图像的标签,当锚框是正样本为1,负样本为0;ti表示第i个锚框的预测边界框的参数化坐标的向量;ti *表示第i个正锚框对应的真实边界框;Ncls是小批次的尺寸,本式中可设置为3;Nreg表示位置个数,本式中可设置为10;λ为平衡参数,本式中可设置为10。
RPN的分类损失函数为:
(8)
RPN的回归损失函数为:
(9)
(10)
在头部结构中,本发明引入均方误差(Mean Square Error , MSE)作为头部结构的分类损失函数为:
(11)
综合来自于RPN和头部结构的四个损失函数,设计出用于本项目弱小目标检测的总损失函数:
(12)
综上,红外弱小目标检测可大致分为上述三个步骤,首先是分别对红外图像与可见光图像进行图像预处理,然后通过双流主干网络提取两种模态图像的特征并进行融合得到高层特征,最后通过定位/分类模型实现对目标的检测与分类,流程图如图12所示。
需要说明的是,红外弱小目标检测算法需要进行训练后方可使用,对应的算法训练流程如下:
1)输入:测试数据集=(输入图像集,分类标签集);模型训练参数=(训练次数,初始学习率)
2)数据集处理:数据集增强;划分训练集、验证集和测试集;对训练集进行标注生成标注集。
3)模型训练:采用ADAM优化算法,自适应调整学习率;根据损失函数Focal Loss确定停止训练条件;输出网络训练后的权重集合;最后导入训练后的权重,并输入待检测的红外图像。
4)输出:红外弱小目标的位置信息与分类结果。
相较于现有技术,本实施例至少具备以下优点:
本实施例提供的方法,通过双流主干网络模型对红外光与可见光两种模态数据实现特征提取,并通过跨模态的多层级间特征融合实现两种模态特征的互补,使用基于深度学习的网络实现对弱小目标的定位与分类,助力弱小目标检测精度的提升。
本发明第二实施例,与第一实施例对应,参考图13,本实施例介绍一种红外与可见光特征融合的弱小目标检测装置,包括以下组成部分:
预处理单元,被配置为分别对红外图像以及可见光图像进行预处理,所述红外图像以及所述可见光图像中包括至少一检测目标;
融合单元,被配置为利用配置的双流主干网络,分别提取所述红外图像以及所述可见光图像的图像特征并进行特征融合,以得到多尺度图像特征;
检测单元,被配置为基于所述多尺度图像特征,利用配置定位分类模型,获取所述检测目标的位置信息与分类结果。
本实施例中,所述预处理单元被进一步配置为:
获取所述红外图像以及所述可见光图像;
基于配置的非锐化掩蔽的边缘和细节增强算法,将所述红外图像和低通滤波后的模糊图像进行差分运算,获得表征所述红外图像边缘和细节的高频分量,与配置的增益系数相乘后再叠加原始图像,以此获得目标边缘和细节增强的红外图像;
利用直方图均衡化对所述可见光图像进行滤波,对滤波后的可见光图像进行图像增强,增加样本数量,再基于配置的双线性差值算法来对当前可见光图像进行缩放。
本实施例中,所述融合单元被进一步配置为:
利用配置的ResNet网络,对所述红外图像以及所述可见光图像进行特征提取,提取的特征包括浅层特征以及高层特征;
利用配置的空间信息引导模块,增强图像对应的目标区域的空间信息,并引导两种图像的浅层特征加以融合;
采用SE模块或坐标注意力模块中的至少一种增强高层特征的语义信息,采用不同种扩张率的膨胀卷积捕获两种模态高层特征的多尺度上下文信息,并与增强后的高层特征相拼接,以获得两模态增强后的高层特征;
将当前浅层特征以及所述高层特征进行融合,以得到多尺度图像特征。
本实施例中,所述检测单元被进一步配置为:
获取所述高层图像特征;
利用配置的定位分类模型,获取所述检测目标的位置信息与分类结果,其中,所述定位分类模型是基于RPN和头部结构的两部分内容确定的。。
本发明第三实施例,一种电子设备,如图14所示,可以作为实体装置来理解,包括处理器以及存储有处理器可执行指令的存储器,当指令被处理器执行时,执行如下操作:
步骤S1,分别对红外图像以及可见光图像进行预处理,所述红外图像以及所述可见光图像中包括至少一检测目标;
步骤S2,利用配置的双流主干网络,分别提取所述红外图像以及所述可见光图像的图像特征并进行特征融合,以得到多尺度图像特征;
步骤S3,基于所述多尺度图像特征,利用配置的定位分类模型,获取所述检测目标的位置信息与分类结果。
本发明第四实施例,本实施例的红外与可见光特征融合的弱小目标检测方法的流程与第一、二或三实施例相同,区别在于,在工程实现上,本实施例可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的方法可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台设备执行本发明实施例的方法。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。
Claims (10)
1.一种红外与可见光特征融合的弱小目标检测方法,其特征在于,包括:
步骤S1,分别对红外图像以及可见光图像进行预处理,所述红外图像以及所述可见光图像中包括至少一检测目标;
步骤S2,利用配置的双流主干网络,分别提取所述红外图像以及所述可见光图像的图像特征并进行特征融合,以得到多尺度图像特征;
步骤S3,基于所述多尺度图像特征,利用配置的定位分类模型,获取所述检测目标的位置信息与分类结果。
2.根据权利要求1所述的红外与可见光特征融合的弱小目标检测方法,其特征在于,所述步骤S1包括:
获取所述红外图像以及所述可见光图像;
基于配置的非锐化掩蔽的边缘和细节增强算法,将所述红外图像和低通滤波后的模糊图像进行差分运算,获得表征所述红外图像边缘和细节的高频分量,与配置的增益系数相乘后再叠加原始图像,以此获得目标边缘和细节增强的红外图像;
利用直方图均衡化对所述可见光图像进行滤波,对滤波后的可见光图像进行图像增强,增加样本数量,再基于配置的双线性差值算法来对当前可见光图像进行缩放。
3.根据权利要求2所述的红外与可见光特征融合的弱小目标检测方法,其特征在于,所述步骤S2包括:
利用配置的ResNet网络,对所述红外图像以及所述可见光图像进行特征提取,提取的特征包括浅层特征以及高层特征;
利用配置的空间信息引导模块,增强图像对应的目标区域的空间信息,并引导两种图像的浅层特征加以融合;
采用SE模块或坐标注意力模块中的至少一种增强高层特征的语义信息,采用不同种扩张率的膨胀卷积捕获两种模态高层特征的多尺度上下文信息,并与增强后的高层特征相拼接,以获得两模态增强后的高层特征;
将当前浅层特征以及所述高层特征进行融合,以得到多尺度图像特征。
4.根据权利要求3所述的红外与可见光特征融合的弱小目标检测方法,其特征在于,所述步骤S3包括:
获取所述高层图像特征;
利用配置的定位分类模型,获取所述检测目标的位置信息与分类结果,其中,所述定位分类模型是基于RPN和头部结构的两部分内容确定的。
5.一种红外与可见光特征融合的弱小目标检测装置,其特征在于,包括:
预处理单元,被配置为分别对红外图像以及可见光图像进行预处理,所述红外图像以及所述可见光图像中包括至少一检测目标;
融合单元,被配置为利用配置的双流主干网络,分别提取所述红外图像以及所述可见光图像的图像特征并进行特征融合,以得到多尺度图像特征;
检测单元,被配置为基于所述多尺度图像特征,利用配置定位分类模型,获取所述检测目标的位置信息与分类结果。
6.根据权利要求5所述的红外与可见光特征融合的弱小目标检测装置,其特征在于,所述预处理单元被进一步配置为:
获取所述红外图像以及所述可见光图像;
基于配置的非锐化掩蔽的边缘和细节增强算法,将所述红外图像和低通滤波后的模糊图像进行差分运算,获得表征所述红外图像边缘和细节的高频分量,与配置的增益系数相乘后再叠加原始图像,以此获得目标边缘和细节增强的红外图像;
利用直方图均衡化对所述可见光图像进行滤波,对滤波后的可见光图像进行图像增强,增加样本数量,再基于配置的双线性差值算法来对当前可见光图像进行缩放。
7.根据权利要求5所述的红外与可见光特征融合的弱小目标检测装置,其特征在于,所述融合单元被进一步配置为:
利用配置的ResNet网络,对所述红外图像以及所述可见光图像进行特征提取,提取的特征包括浅层特征以及高层特征;
利用配置的空间信息引导模块,增强图像对应的目标区域的空间信息,并引导两种图像的浅层特征加以融合;
采用SE模块或坐标注意力模块中的至少一种增强高层特征的语义信息,采用不同种扩张率的膨胀卷积捕获两种模态高层特征的多尺度上下文信息,并与增强后的高层特征相拼接,以获得两模态增强后的高层特征;
将当前浅层特征以及所述高层特征进行融合,以得到多尺度图像特征。
8.根据权利要求5所述的红外与可见光特征融合的弱小目标检测装置,其特征在于,所述检测单元被进一步配置为:
获取所述高层图像特征;
利用配置的定位分类模型,获取所述检测目标的位置信息与分类结果,其中,所述定位分类模型是基于RPN和头部结构的两部分内容确定的。
9.一种电子设备,其特征在于,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述红外与可见光特征融合的弱小目标检测方法的步骤。
10.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述红外与可见光特征融合的弱小目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310813236.6A CN116958782A (zh) | 2023-07-05 | 2023-07-05 | 一种红外与可见光特征融合的弱小目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310813236.6A CN116958782A (zh) | 2023-07-05 | 2023-07-05 | 一种红外与可见光特征融合的弱小目标检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958782A true CN116958782A (zh) | 2023-10-27 |
Family
ID=88461207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310813236.6A Pending CN116958782A (zh) | 2023-07-05 | 2023-07-05 | 一种红外与可见光特征融合的弱小目标检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958782A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726958A (zh) * | 2024-02-07 | 2024-03-19 | 国网湖北省电力有限公司 | 配电线路无人机巡检图像目标检测及隐患智能识别方法 |
CN117974960A (zh) * | 2024-03-28 | 2024-05-03 | 临沂大学 | 一种双光融合动态超分辨率分层感知方法 |
-
2023
- 2023-07-05 CN CN202310813236.6A patent/CN116958782A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726958A (zh) * | 2024-02-07 | 2024-03-19 | 国网湖北省电力有限公司 | 配电线路无人机巡检图像目标检测及隐患智能识别方法 |
CN117726958B (zh) * | 2024-02-07 | 2024-05-10 | 国网湖北省电力有限公司 | 配电线路无人机巡检图像目标检测及隐患智能识别方法 |
CN117974960A (zh) * | 2024-03-28 | 2024-05-03 | 临沂大学 | 一种双光融合动态超分辨率分层感知方法 |
CN117974960B (zh) * | 2024-03-28 | 2024-06-18 | 临沂大学 | 一种双光融合动态超分辨率分层感知方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN108229490B (zh) | 关键点检测方法、神经网络训练方法、装置和电子设备 | |
CN113362329B (zh) | 病灶检测模型的训练方法及识别图像中的病灶的方法 | |
CN111738110A (zh) | 基于多尺度注意力机制的遥感图像车辆目标检测方法 | |
CN116958782A (zh) | 一种红外与可见光特征融合的弱小目标检测方法及装置 | |
Lewis et al. | Generative adversarial networks for SAR image realism | |
CN114202743A (zh) | 自动驾驶场景下基于改进faster-RCNN的小目标检测方法 | |
CN111898432A (zh) | 一种基于改进YOLOv3算法的行人检测***及方法 | |
CN112465700B (zh) | 一种基于深度聚类的图像拼接定位装置及方法 | |
Xiang et al. | License plate detection based on fully convolutional networks | |
CN116188944A (zh) | 一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法 | |
CN115527098A (zh) | 基于全局均值对比度空间注意力的红外小目标检测方法 | |
CN116310568A (zh) | 图像异常的识别方法、装置、计算机可读存储介质及设备 | |
Zhao et al. | Deep learning-based laser and infrared composite imaging for armor target identification and segmentation in complex battlefield environments | |
CN116953702A (zh) | 基于演绎范式的旋转目标检测方法及装置 | |
CN116977747A (zh) | 基于多路多尺度特征孪生网络的小样本高光谱分类方法 | |
CN115205793B (zh) | 基于深度学习二次确认的电力机房烟雾检测方法及装置 | |
Li et al. | Deep Learning-based Model for Automatic Salt Rock Segmentation | |
Ke et al. | Scale-aware dimension-wise attention network for small ship instance segmentation in synthetic aperture radar images | |
Dong et al. | Intelligent pixel-level pavement marking detection using 2D laser pavement images | |
CN115512428B (zh) | 一种人脸活体判别方法、***、装置和存储介质 | |
CN113506272B (zh) | 一种虚假视频的检测方法及*** | |
Jiwane et al. | Real-Time Object Measurement Using Image Processing | |
CN116894959B (zh) | 基于混合尺度和聚焦网络的红外小目标检测方法及装置 | |
Nan et al. | Material-aware multiscale atrous convolutional network for prohibited items detection in x-ray image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |