CN114782298A - 一种具有区域注意力的红外与可见光图像融合方法 - Google Patents

一种具有区域注意力的红外与可见光图像融合方法 Download PDF

Info

Publication number
CN114782298A
CN114782298A CN202210434625.3A CN202210434625A CN114782298A CN 114782298 A CN114782298 A CN 114782298A CN 202210434625 A CN202210434625 A CN 202210434625A CN 114782298 A CN114782298 A CN 114782298A
Authority
CN
China
Prior art keywords
image
fusion
infrared
encoder
visible light
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210434625.3A
Other languages
English (en)
Other versions
CN114782298B (zh
Inventor
杜友田
蓝宇
王航
王雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202210434625.3A priority Critical patent/CN114782298B/zh
Publication of CN114782298A publication Critical patent/CN114782298A/zh
Application granted granted Critical
Publication of CN114782298B publication Critical patent/CN114782298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

红外与可见光图像融合旨在利用信息互补性,融合同一场景下的热辐射、纹理细节等信息,使得融合图像内容更全面、清晰,并有利于人眼观察及后续任务等。图像融合的步骤通常为特征提取,特征融合和图像重构。本发明提出了一种具有区域注意力的融合方法。首先用编码器提取高维特征,然后设计了具有显著区域注意力的融合策略融合特征,最后用解码器重构图像。本发明旨在解决光照不足场景下的图像融合问题。结果表明本发明能够充分保留可见光图像良好的纹理细节,并利用红外图像对曝光不足的区域进行内容补充。另外,本发明对显著区域的关注使得源图像中高亮显示的区域在融合图像中仍保持高亮,达到红外和可见光图像优势互补的良好效果。

Description

一种具有区域注意力的红外与可见光图像融合方法
技术领域
本发明属于图像处理技术领域,特别涉及一种具有区域注意力的红外与可见光图像融合方法。
背景技术
随着硬件、软件产业的稳步发展,利用传感器采集信息,以及对信息的传输和处理能力也日渐增强。在这一背景下,基于视觉的传感器因为能够提供丰富的环境信息得到广泛应用。单一类型的传感器只具有表征某一方面的信息特征,无法满足对监测环境的全面描述,因而多传感器***开始得到越来越多关注与应用。多源传感器成像***完整地填补了单一传感器图像表达能力不足的空缺。目前,图像融合技术已经在遥感探测、安全导航、医学图像分析、反恐检查、环境保护、交通监测、清晰图像重建、灾情检测与预报,尤其在计算机视觉等领域发挥着重大的应用价值。
对于视觉的多源传感器***,红外和可见光图像可以通过相对简易的设备获取,最典型的便是红外和可见光的图像融和。由于两者成像机理不同,可见图像通常具有较高空间分辨率和图像对比度,适合于人类视觉感知,但其极易受到恶劣条件的影响,比如亮度不足、暴雨雾霾等特殊气候。然而红外图像恰好具有较好的场景抗干扰能力,并且对于温度高于环境的目标,例如行人等可以更加显著的显示出来。但通常红外图像分辨率较低,图像细节表现较差。融合两者,可以在一副图像上显示多种信息,突出目标,具有比单一图像更丰富的细节以及抵抗恶劣环境的能力。因此,红外和可见光图像融合,就是旨在将同一场景下的红外与可见光图像进行细致融合,同时保留红外图像具有热辐射信息的高亮目标以及可见光图像具有高分辨率的背景纹理细节信息,使得最终融合图像更具信息丰富性,从而更有利于人眼的识别和机器的自动探测,人类的观察审美和计算机的后续图像处理。
现有技术及其缺陷。
图像融合的一般步骤为特征提取,特征融合和特征重构,其中,特征重构是特征提取的逆过程,特征提取和融合是图像融合中最关键的两个要素。在传统方法中,多尺度变换(MST)是最为常用的图像融合方法,主要特点是能够精确表征图像的空间结构,并具有空间和频谱的一致性。并且已经有许许多多的多尺度变换被提出来,例如金字塔变换、小波变换,轮廓变换及相关变体等。除此之外,基于稀疏表示(Sparse Representation,SR)的融合算法,以及基于子空间的方法如主成分分析和独立分量分析等也被提了出来。
近年来,深度学习已在各种领域展示了最先进的性能,也已成功应用于图像融合。这些算法可以大致分为三类,基于Auto encoder(AE)的方法,基于CNN的方法,基于GAN的方法。Li等人提出了一种简单的自编码器(AE)融合架构,它包括编码器,融合层,解码器。后来他们还增加了编码器的复杂度,提出了基于自编码器的嵌套融合方法,来获得更全面的特征融合。上述方法的缺点是靠人工设计融合策略,限制了融合性能。Zhang等人通过通用网络结构,即特征提取层、融合层和图像重建层,开发了一个通用的图像融合框架,在一类复杂的损失函数的指导下学习特征提取、特征融合和图像重构。这类方法仅关注到了全局层面的融合,没有突出感兴趣的目标区域。Ma等人创造性地将GAN引入图像融合社区,它利用鉴别器强制生成器合成具有丰富纹理的融合图像。为了提高细节信息的质量和锐化热目标的边缘,他们还引入了细节损失和边缘增强损失。由于GAN训练困难,这种方法未能获得较好的融合质量,并且也无法高亮显示显著信息。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种具有区域注意力的红外与可见光图像融合方法,用来解决红外与可见光图像在光照不足场景下的图像融合问题。本发明提出的方法可以充分发挥红外与可见光图像在场景表征方面的优势。通过提取图像高维特征并融合,可以实现在光照不足场景下,充分的融合红外的热辐射信息和可见光图像的纹理信息。并且,融合网络中的区域注意力模块可以关注到高维特征中显著的区域,例如红外图像的高亮目标、可见光图像曝光充足的区域,并在融合中增加这一部分的像素强度,实现有区域注意力的图像融合,从而实现了红外与可见光图像的优势互补。
为了实现上述目的,本发明采用的技术方案是:
一种具有区域注意力的红外与可见光图像融合方法,包括:
步骤1,训练自编码器(Auto Encoder),所述自编码器包括编码器和解码器;
步骤1.1:以RGB格式读取训练集中的图像I,调整图像尺寸,再将其转换到YCbCr颜色空间;
步骤1.2:将图像的亮度通道IY输入至编码器,得到高维特征图F;
步骤1.3:将高维特征图F输入至解码器,输出亮度通道图OY
步骤1.4:根据损失函数计算IY和OY之间的特征损失,然后优化梯度并反向传播,更新自编码器的模型参数;
步骤1.5:重复步骤1.1到步骤1.4,直到在整个训练集上迭代次数达到设定阈值,得到训练好的自编码器;
步骤2:制作融合图像训练集
获取用于训练的红外与可见光图像对,并进行子图裁剪扩充数据集,裁剪尺寸与步骤1调整后的图像尺寸一致,得到融合图像训练集;
步骤3:训练融合网络
步骤3.1:将融合图像训练集中的红外与可见光图像对(IR,IV)分别转换到YCbCr颜色空间,并分别提取各自的亮度通道图,得到(IRY,IVY);
步骤3.2:分别将(IRY,IVY)输入步骤1中训练好的编码器,计算得到特征图(FR,FV);
步骤3.3:将(FR,FV)在特征维度连接,输入融合网络,计算得到融合特征图FF
步骤3.4:将FF输入解码器解码,得到亮度通道的融合图像OFY
步骤3.5:根据损失函数计算损失值,然后优化梯度并反向传播,更新融合网络的模型参数;
步骤3.6:重复步骤3.1到3.5,直到在整个融合图像训练集上计算次数达到设定值,得到训练好的融合网络;
步骤4,获取融合图像
步骤4.1:将待融合的红外与可见光图像对按照步骤3.1到3.4的方法,得到亮度通道的融合图像OFY
步骤4.2:将OFY和可见光图像的CbCr通道在特征维度连接,得到YCbCr格式的图像,再转换为RGB格式,得到融合图像。
在一个实施例中,所述编码器具有四层卷积层,采用密集连接;所述解码器采用四层卷积层直接连接。
在一个实施例中,编码器和解码器的卷积核尺寸为3×3,step为1,padding为1,采用ReLu激活函数。所述步骤1.2,输入尺寸为256×256×1,得到的高维特征图F尺寸为256×256×128,所述步骤1.3,亮度通道图OY尺寸为256×256×1。
在一个实施例中,步骤1.5之后,将训练数据改成测试数据,执行步骤1.1到1.3,得到OY,然后将OY与步骤1.1中的CbCr通道在特征维度连接,得到YCbCr格式的图像,再转换为RGB格式,得到输出图像O;主观验证O是否与I一致。
在一个实施例中,步骤3.3的计算步骤如下:
(1)将(FR,FV)在特征维度连接,经过卷积层Conv_1、卷积层Conv_2和卷积层Conv_3计算,得到全局信息融合特征图FF_0
(2)分别将(FR,FV)输入同一个区域注意力模块RAB,计算得到注意力特征图(MR,MV);将(MR,MV)在特征维度连接,输入到卷积层Conv_Att,得到融合注意力特征图MRV
(3)计算融合特征图FF=FF_0+MRV,即对应位置像素值相加。
在一个实施例中,所述步骤1.4和步骤3.5,均采用Adam优化器优化梯度,其中步骤3.5,固定自编码器的模型参数,仅更新融合网络的模型参数。
在一个实施例中,所述步骤2,从公开数据集TNO挑选包含光照不足场景且具有显著目标的图像构成训练集和测试集,并对训练集离线扩充,扩充方式为对原始红外和可见光图像进行子图裁剪,子图尺寸为256×256,裁剪步长为16。
与现有技术相比,本发明的有益效果是:
第一:在光照不足的场景下,能够充分融合可见光图像的纹理信息和红外图像的热辐射信息。编码器经过训练,可以充分提取到图像的高维特征,并且得益于高维特征计算损失,保证了在融合中可以对各维度的特征进行深度融合。
第二,在融合全局内容的基础上,还能关注到源图像中显著高亮的区域,使之在融合图像中仍保持高亮。融合网络包含了两条融合路径,全局融合和显著区域融合。区域注意力模块可以从多种尺度提取图像的显著区域,将两条融合路径结果相加,则使得显著区域具有更高强度的亮度值,达到高亮显示的效果。
第三,融合图像具有良好的对比度,清晰度。训练中,结构损失从灰度、对比度和结构相似度三方面进行度量。梯度损失则可使融合图像具有良好的图像纹理细节,增加了清晰度。另外,仅融合图像亮度通道的策略,使本发明既可处理灰度图像也能处理彩色图像。由于可见光图像的CbCr通道不参与计算,融合结果可以良好的还原可见光图像的颜色。
附图说明
图1给定方案的总体框架图。输入是待融合的红外和可见光图像,输出是融合图像。网络结构由编码器Encoder,注意力融合网络Attention FusionNet以及解码器Decoder组成。在虚线框中,注明了损失函数由三部分构成,分别是特征损失feature loss,结构相似度损失ssim loss,以及梯度损失gradient loss。
图2给定自编码器的结构以及训练所需的损失函数的构成。
图3给定注意力融合网络的结构。输入为特征图(FR,FV),输出为融合特征图FF
图4给定区域注意力模块的网络结构。输入特征图F,输出注意力图M。
图5给定了三组融合图像案例。方框标注的为显著目标的融合效果。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
可见光传感器在光照充足的情况下,通常能够捕获到足够清晰,并且符合人眼观察习惯的图像。最能凸显红外和可见光图像融合优势的领域往往是光照不足的场景。如何使融合结果能够弥补曝光不足的劣势,并突出感兴趣的目标,从而更利于人眼观察和后续高级任务,是当前面临的问题。
以前的大部分融合方法从全局的角度出发设计融合策略,着重于图像纹理细节等内容的融合,而对于原本在红外图像中的显著目标,例如人,车等,在融合图像由于引入了可见光图像的成分而导致亮度下降。一些方法虽然引入了对显著目标的关注,但是需要用额外的算法预先得到目标分割的二值图。另一方面,现有的方法对于红外成像应用最广的夜间场景研究不足。
基于此,本发明提供了一种具有区域注意力的红外与可见光图像融合方法,整体架构如图1,其步骤如下:
步骤1,训练自编码器(Auto Encoder)。自编码器的结构如图2所示,包含一个编码器Encoder和一个解码器Decoder。图中每一个矩形代表一层,编码器Encoder和解码器Decoder均由卷积层和激活层组成。损失包括结构损失ssim loss和内容损失pixel loss。本实施例中,编码器Encoder具有四层卷积层,采用密集连接;解码器Decoder采用四层卷积层直接连接,卷积层的卷积核尺寸为3×3,step为1,padding为1。激活层采用ReLu激活函数。编码器Encoder和解码器Decoder的各层参数具体设置为:
Layer Encoder Decoder
L1 Conv(I1,O32,K3,S1,P1),ReLu Conv(I128,O64,K3,S1,P1),ReLu
L2 Conv(I32,O32,K3,S1,P1),ReLu Conv(I64,O32,K3,S1,P1),ReLu
L3 Conv(I64,O32,K3,S1,P1),ReLu Conv(I32,O16,K3,S1,P1),ReLu
L4 Conv(I96,O32,K3,S1,P1),ReLu Conv(I16,O1,K3,S1,P1),ReLu
步骤1.1利用OpenCV的imread函数读取训练集中的图像I,读取的图像I为RGB格式,将其尺寸调整为256×256×3。然后从RGB转换到YCbCr颜色空间,转换方法可利用OpenCV的库函数cvtColor。最后,图像的每个像素除以255,将像素值归一化到[0,1],即得到输入图像。
步骤1.2:将图像的亮度通道IY输入编码器Encoder,输入尺寸为256×256×1,得到高维特征图F,尺寸为256×256×128。
步骤1.3:将高维特征图F输入解码器Decoder,得到输出的亮度通道图OY,尺寸为256×256×1。
步骤1.4:根据损失函数,计算IY和OY之间的特征损失,损失函数定义为:
Figure BDA0003612506110000071
其中,μ(1-SSIM(OY,IY))为结构损失,SSIM(·)为结构相似度函数。
Figure BDA0003612506110000072
为内容损失,即计算IY和OY的欧氏距离。μ为超参数,用于平衡两项损失。H和W分别为图像的高和宽。
步骤1.5:用Adam优化器等方式优化梯度并反向传播,更新自编码器的模型参数。
步骤1.6:重复步骤1.1到1.5。直到在整个训练集上迭代次数达到设定阈值,得到训练好的自编码器。
本实施例采用开源彩色图像数据集MS-COCO,共包含80000张图像。用python和pytorch实现算法,基于一块NVIDIA TITAN V的GPU训练,epoch设置为2,batch size设置为16,超参数μ设置为1。
步骤1.7:为对上述训练进行验证,可将训练数据改成测试数据,执行步骤1.1到1.3,得到OY。然后将OY与步骤1.1中的CbCr通道图在特征维度连接,得到YCbCr格式的图像,再转换为RGB格式,得到输出图像O;主观验证输出图像O是否与输入图像I一致。
步骤2,制作融合图像训练集和测试集。
从公开的红外和可见光图像融合数据集TNO中,挑选包含光照不足场景且具有显著目标的图像构成训练集和测试集。本实施例挑选了亮度较暗的41对图像作为训练集,25对作为测试集。然后,对训练集进行离线扩充,扩充方式为:对原始红外和可见光图像进行子图裁剪,每一个子图尺寸与步骤1调整后的图像尺寸一致,即256×256,裁剪移动步长为16,最终获得了共13940对红外与可见光图像对。
步骤3:训练融合网络。
步骤3.1:读取融合图像训练集中的红外与可见光图像对(IR,IV),然后分别执行同步骤1.1中的操作,即,转换到YCbCr颜色空间,并分别提取各自的亮度通道图,得到(IRY,IVY)。
步骤3.2:分别将(IRY,IVY)输入步骤1中训练好的编码器Encoder,计算得到特征图(FR,FV);
步骤3.3:将(FR,FV)在特征维度连接,输入融合网络,计算得到融合特征图FF。融合层的结构如图3所示。融合过程分为了两条路径,全局信息融合和注意力特征图融合,即全局信息融合网络和注意力特征图融合网络。前者包含三层卷积层,分别是Conv_1、Conv_2和Conv_3,后者包含一个区域注意力模块RAB和一层卷积层Conv_Att,在本实施例中,网络层参数可以设置为:
Figure BDA0003612506110000081
Figure BDA0003612506110000091
融合网络中的计算步骤如下:
(1)将(FR,FV)在特征维度连接,然后经过Conv_1、Conv_2和Conv_3计算,得到全局信息融合特征图FF_0
(2)计算注意力特征图。
分别将(FR,FV)输入到区域注意力模块RAB中,得到注意力特征图(MR,MV),尺寸为256×256×128。注意,此处采用同一个RFB模块分别计算。区域注意力模块RAB的结构如图4所示。其中包括最大池化,全局平均池化,全连接层、激活层,上采样操作和标准化操作。
Figure BDA0003612506110000092
表示权重和特征图相乘。
Figure BDA0003612506110000093
表示特征图相加。为了从多个尺度提取特征图权重,模块分别用了三种最大池化核。
具体的计算步骤为:输入特征图F,进行最大池化,得到特征图fs,尺寸为
Figure BDA0003612506110000094
其中,H和W代表图像尺寸,本实例中,H和W均为256,s分别为1、2、4,代表池化核的大小分别为1×1、2×2、4×4。然后,对fs进行全局平均池化操作,得到维度为1×1×128的向量。然后再接一个全连接层和激活层,最终得到权重向量ωs,维度为1×1×128。第k个维度特征的权重值用
Figure BDA0003612506110000095
表示,用于衡量第k个特征图层
Figure BDA0003612506110000096
的重要性。另一方面,为了得到和F相同尺寸的特征图,对fs进行上采样操作,然后将ωs和上采样后的特征图在对应维度相乘,得到加权特征图
Figure BDA0003612506110000097
其中,k表示第k个维度的特征图,Hup(·)表示上采样函数。最后,将三个尺度的特征图相加,再进行标准化,得到维度为H×W×128的注意力特征图:
Figure BDA0003612506110000098
其中,σ(·)表示标准化操作。
(3)将(MR,MV)在特征维度连接,输入到卷积层Conv_Att,得到融合注意力特征图MRV,尺寸为H×W×128。
(4)计算最终的融合特征图FF=FF_0+MRV,即对应位置像素值相加。
步骤3.4:将FF输入解码器Decoder解码,得到亮度通道的融合图像OFY
步骤3.5:根据损失函数L计算损失值,利用Adam优化器等方式优化损失梯度并反向传播,更新融合网络的模型参数,注意,此处固定自编码器的模型参数,仅更新融合网络的模型参数。
损失函数L包含了三个部分,结构损失Lssim、特征损失Lpixel和梯度损失Lgradient,计算公式为:
L=ωLssim+λLpixel+Lgradient
其中,ω、λ为超参数,用于平衡各类损失。
结构损失Lssim计算公式为:
Lssim=δ(1-SSIM(IRY,OY))+(1-δ)(1-SSIM(IVY,OY))
其中,δ为超参数,用于平衡两项损失值。
特征损失计算公式为:
Figure BDA0003612506110000101
其中,η为超参数,特征图尺寸为H×W×C。||·||2表示求特征图的欧氏距离。
梯度损失Lgradient计算公式为:
Figure BDA0003612506110000102
其中,
Figure BDA0003612506110000103
表示Sobel梯度计算操作,用于度量图像的细粒度纹理信息。
步骤3.6:重复步骤3.1到3.5,直到迭代次数在整个融合图像训练集上达到设定阈值,从而得到训练好的融合网络。在本实施例中,训练基于一块NVIDIA TITAN V的GPU,采用Adam优化器,batch size和epoch分别为4和2。初始学习率设置为1×10-4,损失函数的超参数ω、λ、δ、η分别设置为1,2.7,0.5,0.5。
步骤4:输入测试数据,得到融合图像。
步骤4.1:将测试数据或待融合的红外与可见光图像对按照步骤3.1到3.4的方法,得到亮度通道的融合图像OFY
步骤4.2:将OFY与可见光图像的CbCr通道在特征维度连接,得到YCbCr格式的图像,再转换为RGB格式,得到融合图像。
从测试中选取了三组融合图像,如图5所示。从图中可以看出,融合图像融合了可见光图像的纹理细节,如图中虚线方框所示,并且图像整体亮度得到一定提升。同时,仅在红外图像中具有的显著区域在融合图像中也得到了很好的体现,如图中实线方框所示。

Claims (7)

1.一种具有区域注意力的红外与可见光图像融合方法,其特征在于,包括:
步骤1,训练自编码器,所述自编码器包括编码器和解码器;
步骤1.1:以RGB格式读取训练集中的图像I,调整图像尺寸,再将其转换到YCbCr颜色空间;
步骤1.2:将图像的亮度通道IY输入至编码器,得到高维特征图F;
步骤1.3:将高维特征图F输入至解码器,输出亮度通道图OY
步骤1.4:根据损失函数计算IY和OY之间的特征损失,然后优化梯度并反向传播,更新自编码器的模型参数;
步骤1.5:重复步骤1.1到步骤1.4,直到在整个训练集上迭代次数达到设定阈值,得到训练好的自编码器;
步骤2:制作融合图像训练集
获取用于训练的红外与可见光图像对,并进行子图裁剪扩充数据集,裁剪尺寸与步骤1调整后的图像尺寸一致,得到融合图像训练集;
步骤3:训练融合网络
步骤3.1:将融合图像训练集中的红外与可见光图像对(IR,IV)分别转换到YCbCr颜色空间,并分别提取各自的亮度通道图,得到(IRY,IVY);
步骤3.2:分别将(IRY,IVY)输入步骤1中训练好的编码器,计算得到特征图(FR,FV);
步骤3.3:将(FR,FV)在特征维度连接,输入融合网络,计算得到融合特征图FF
步骤3.4:将FF输入解码器解码,得到亮度通道的融合图像OFY
步骤3.5:根据损失函数计算损失值,然后优化梯度并反向传播,更新融合网络的模型参数;
步骤3.6:重复步骤3.1到3.5,直到在整个融合图像训练集上计算次数达到设定值,得到训练好的融合网络;
步骤4,获取融合图像
步骤4.1:将待融合的红外与可见光图像对按照步骤3.1到3.4的方法,得到亮度通道的融合图像OFY
步骤4.2:将OFY和可见光图像的CbCr通道在特征维度连接,得到YCbCr格式的图像,再转换为RGB格式,得到融合图像。
2.根据权利要求1所述具有区域注意力的红外与可见光图像融合方法,其特征在于,所述编码器具有四层卷积层,采用密集连接;所述解码器采用四层卷积层直接连接;编码器和解码器中,卷积核尺寸为3×3,step为1,padding为1,采用ReLu激活函数。
3.根据权利要求2所述具有区域注意力的红外与可见光图像融合方法,其特征在于,所述步骤1.2,输入尺寸为256×256×1,得到的高维特征图F尺寸为256×256×128,所述步骤1.3,亮度通道图OY尺寸为256×256×1。
4.根据权利要求1所述具有区域注意力的红外与可见光图像融合方法,其特征在于,在步骤1.5之后,将训练数据改成测试数据,执行步骤1.1到1.3,得到OY,然后将OY与步骤1.1中的CbCr通道在特征维度连接,得到YCbCr格式的图像,再转换为RGB格式,得到输出图像O;主观验证O是否与I一致。
5.根据权利要求1所述具有区域注意力的红外与可见光图像融合方法,其特征在于,所述步骤3.3的计算步骤如下:
(1)将(FR,FV)在特征维度连接,经过卷积层Conv_1、卷积层Conv_2和卷积层Conv_3计算,得到全局信息融合特征图FF_0
(2)分别将(FR,FV)输入同一个区域注意力模块RAB,计算得到注意力特征图(MR,MV);将(MR,MV)在特征维度连接,输入到卷积层Conv_Att,得到融合注意力特征图MRV
(3)计算融合特征图FF=FF_0+MRV,即对应位置像素值相加。
6.根据权利要求1所述具有区域注意力的红外与可见光图像融合方法,其特征在于,所述步骤1.4和步骤3.5,均采用Adam优化器优化梯度,其中步骤3.5,固定自编码器的模型参数,仅更新融合网络的模型参数。
7.根据权利要求1所述具有区域注意力的红外与可见光图像融合方法,其特征在于,所述步骤2,从公开数据集TNO挑选包含光照不足场景且具有显著目标的图像构成训练集和测试集,并对训练集离线扩充,扩充方式为对原始红外和可见光图像进行子图裁剪,子图尺寸为256×256,裁剪步长为16。
CN202210434625.3A 2022-04-24 2022-04-24 一种具有区域注意力的红外与可见光图像融合方法 Active CN114782298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210434625.3A CN114782298B (zh) 2022-04-24 2022-04-24 一种具有区域注意力的红外与可见光图像融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210434625.3A CN114782298B (zh) 2022-04-24 2022-04-24 一种具有区域注意力的红外与可见光图像融合方法

Publications (2)

Publication Number Publication Date
CN114782298A true CN114782298A (zh) 2022-07-22
CN114782298B CN114782298B (zh) 2024-03-12

Family

ID=82433252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210434625.3A Active CN114782298B (zh) 2022-04-24 2022-04-24 一种具有区域注意力的红外与可见光图像融合方法

Country Status (1)

Country Link
CN (1) CN114782298B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311186A (zh) * 2022-10-09 2022-11-08 济南和普威视光电技术有限公司 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN115423734A (zh) * 2022-11-02 2022-12-02 国网浙江省电力有限公司金华供电公司 一种基于多尺度注意机制的红外与可见光图像融合方法
CN116363036A (zh) * 2023-05-12 2023-06-30 齐鲁工业大学(山东省科学院) 基于视觉增强的红外与可见光图像融合方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161201A (zh) * 2019-12-06 2020-05-15 北京理工大学 基于细节增强通道注意力的红外与可见光图像融合方法
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
CN111797779A (zh) * 2020-07-08 2020-10-20 兰州交通大学 基于区域注意力多尺度特征融合的遥感图像语义分割方法
US20220044374A1 (en) * 2019-12-17 2022-02-10 Dalian University Of Technology Infrared and visible light fusion method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161201A (zh) * 2019-12-06 2020-05-15 北京理工大学 基于细节增强通道注意力的红外与可见光图像融合方法
US20220044374A1 (en) * 2019-12-17 2022-02-10 Dalian University Of Technology Infrared and visible light fusion method
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
CN111797779A (zh) * 2020-07-08 2020-10-20 兰州交通大学 基于区域注意力多尺度特征融合的遥感图像语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何勇;: "基于注意力机制的眼周性别属性识别", 企业科技与发展, no. 06, 10 June 2020 (2020-06-10) *
陈潮起;孟祥超;邵枫;符冉迪;: "一种基于多尺度低秩分解的红外与可见光图像融合方法", 光学学报, no. 11, 10 June 2020 (2020-06-10) *
陈艳菲;桑农;王洪伟;但志平;: "基于视觉注意的可见光与红外图像融合算法", 华中科技大学学报(自然科学版), no. 1, 10 January 2014 (2014-01-10) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311186A (zh) * 2022-10-09 2022-11-08 济南和普威视光电技术有限公司 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN115423734A (zh) * 2022-11-02 2022-12-02 国网浙江省电力有限公司金华供电公司 一种基于多尺度注意机制的红外与可见光图像融合方法
CN116363036A (zh) * 2023-05-12 2023-06-30 齐鲁工业大学(山东省科学院) 基于视觉增强的红外与可见光图像融合方法
CN116363036B (zh) * 2023-05-12 2023-10-10 齐鲁工业大学(山东省科学院) 基于视觉增强的红外与可见光图像融合方法

Also Published As

Publication number Publication date
CN114782298B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN112949565B (zh) 基于注意力机制的单样本部分遮挡人脸识别方法及***
CN110909690B (zh) 一种基于区域生成的遮挡人脸图像检测方法
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN112507997B (zh) 一种基于多尺度卷积和感受野特征融合的人脸超分辨***
CN113673590B (zh) 基于多尺度沙漏密集连接网络的去雨方法、***和介质
CN114782298A (zh) 一种具有区域注意力的红外与可见光图像融合方法
CN110263705A (zh) 面向遥感技术领域两期高分辨率遥感影像变化检测方法
CN116071243B (zh) 一种基于边缘增强的红外图像超分辨率重建方法
CN111222396A (zh) 一种全天候多光谱行人检测方法
CN109034184B (zh) 一种基于深度学习的均压环检测识别方法
CN114066831B (zh) 一种基于两阶段训练的遥感图像镶嵌质量无参考评价方法
CN112686207A (zh) 一种基于区域信息增强的城市街道场景目标检测方法
CN111931857B (zh) 一种基于mscff的低照度目标检测方法
CN113610905B (zh) 基于子图像匹配的深度学习遥感图像配准方法及应用
CN114140672A (zh) 一种应用于雨雪天气场景下多传感器数据融合的目标检测网络***及方法
CN115841438A (zh) 基于改进gan网络的红外图像与可见光图像融合方法
CN116486074A (zh) 一种基于局部和全局上下文信息编码的医学图像分割方法
CN113095358A (zh) 一种图像融合方法及***
CN116645569A (zh) 一种基于生成对抗网络的红外图像彩色化方法和***
CN114913337A (zh) 一种基于三元级联感知的伪装目标框检测方法
CN117576402B (zh) 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法
CN114155165A (zh) 一种基于半监督的图像去雾方法
CN116977747B (zh) 基于多路多尺度特征孪生网络的小样本高光谱分类方法
CN114331931A (zh) 基于注意力机制的高动态范围多曝光图像融合模型及方法
CN111832508B (zh) 基于die_ga的低照度目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant