CN115035003A - 交互补偿注意力的红外与可见光图像对抗融合方法 - Google Patents
交互补偿注意力的红外与可见光图像对抗融合方法 Download PDFInfo
- Publication number
- CN115035003A CN115035003A CN202210376347.0A CN202210376347A CN115035003A CN 115035003 A CN115035003 A CN 115035003A CN 202210376347 A CN202210376347 A CN 202210376347A CN 115035003 A CN115035003 A CN 115035003A
- Authority
- CN
- China
- Prior art keywords
- attention
- infrared
- image
- interactive
- visible light
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 18
- 230000003141 anti-fusion Effects 0.000 title claims abstract description 10
- 230000002452 interceptive effect Effects 0.000 claims abstract description 112
- 230000004927 fusion Effects 0.000 claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000009471 action Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 50
- 238000010586 diagram Methods 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 35
- 238000011176 pooling Methods 0.000 claims description 30
- 230000004913 activation Effects 0.000 claims description 24
- 230000003993 interaction Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 10
- 230000001447 compensatory effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 5
- 230000008447 perception Effects 0.000 abstract description 4
- 108091006146 Channels Proteins 0.000 description 91
- 238000003384 imaging method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003331 infrared imaging Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种交互补偿注意力的红外与可见光图像对抗融合方法。本发明在交互补偿生成器中构造了具有三重路径的多尺度编码器‑解码器网络,红外路径和可见光路径在多尺度编码器‑解码器网络的交互注意力模块和补偿注意力模块的作用下,为连接路径提供了额外的强度和梯度信息,使得可以在融合图像中保留更突出的红外目标和丰富的纹理细节,增强了特征提取和特征重构能力,获得的注意力特征图更聚焦于红外图像目标感知和可见光图像纹理细节表征;在训练时通过双鉴别器对交互补偿生成器进行了优化,使用双鉴别器可以更加均衡地约束融合结果和源图像间的数据分布相似度,使交互补偿生成器生成更平衡的融合结果。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种交互补偿注意力的红外与可见光图像对抗融合方法。
背景技术
红外与可见光图像融合旨在综合两类传感器的优势,互补生成的融合图像具有更好的目标感知和场景表达,有利于人眼观察和后续计算处理。红外传感器对热源辐射敏感可以获取突出的目标区域信息,但所获得的红外图像通常缺乏结构特征和纹理细节。相反,可见光传感器通过光反射成像,可以获取丰富的场景信息和纹理细节,可见光图像具有较高的空间分辨率和丰富的纹理细节,但不能有效突出目标特性,且易受到外界环境影响,特别在低照度的环境条件下,信息丢失严重。由于红外和可见光成像机制的不同,这两类图像具有较强的互补信息,只有运用融合技术才能有效提高红外与可见光成像传感器的协同探测能力,在遥感探测、医疗诊断、智能驾驶、安全监控等领域有广泛应用。
目前,红外和可见光图像融合技术大致可以分为传统融合方法和深度学习融合方法。传统图像融合方法通常以相同的特征变换或特征表示提取图像特征,采用合适的融合规则进行合并,再通过反变换重构获得最终融合图像。由于红外与可见光传感器成像机制不同,红外图像以像素亮度表征目标特征,而可见光图像以边缘和梯度表征场景纹理。传统融合方法不考虑源图像的内在不同特性,采用相同的变换或表示模型无差别地提取图像特征,不可避免地造成融合性能低、视觉效果差的结果。此外,融合规则是人为设定,且越来越复杂,计算成本高,限制了图像融合的实际应用。
近年来,由于卷积操作具有很强的特征提取能力,且能从大量数据中学习构建模型参数,基于深度学习的融合方法虽然取得了令人满意的效果。尽管如此,但还存在一些不足。首先,这些方法盲目依靠卷积操作提取图像特征,未考虑两类图像内在特征交互,造成局部特征提取能力不足,易导致图像融合的目标亮度降低和纹理细节模糊。其次,这些方法完全依靠卷积操作提取图像的局部特征,未考虑到图像特征的全局依赖性,不能有效提取图像的全局特征信息,易导致融合图像全局特征信息缺失。
综上所述,急需一种能够同时提取两类图像的局部与全局特征,有效强化深度特征的表征能力,增强有用信息时抑制无关信息,进而提高红外与可见光图像的融合性能。
发明内容
为解决现有深度学***衡的融合结果,即融合图像不能同时有效保留红外典型目标和可见纹理细节的技术问题,本发明提供一种交互补偿注意力的红外与可见光图像对抗融合方法。所述的技术方案如下:
一种交互补偿注意力的红外与可见光图像对抗融合方法,其包括:
S1,将待融合红外图像、待融合可见光图像分别对应的红外路径、可见光路径以及待融合红外图像、待融合可见光图像进行通道连接得到的连接路径这三重路径确定为预先训练好的交互补偿生成器的输入,所述交互补偿生成器建立了三重路径的多尺度编码-解码网络框架,所述多尺度编码-解码网络框架包括交互注意力编码网络、融合层和补偿注意力解码网络;
S2,通过交互注意力编码网络采用的4个卷积核为3×3的卷积层,提取三重路径的多尺度深度特征,其中,交互注意力编码网络的第一卷积层、第二卷积层均是步长为1的卷积,用于提取图像的浅层特征,第三卷积层、第四卷积层均是步长为2的卷积,用于提取图像的多尺度深度特征,浅层特征和多尺度深度特征经过三级交互注意力作用后,得到最终的交互注意力图;
S3,通过融合层将最终的交互注意力图与红外路径、可见光路径的第四卷积层得到的补偿注意力图直接进行通道连接,获得融合的注意力特征图;
S4,通过补偿注意力解码网络采用的4个卷积核为3×3的卷积层重构特征,其中,补偿注意力解码网络的第一卷积层、第二卷积层伴随上采样操作;融合的注意力特征图经过上采样操作和第一卷积层的卷积操作,得到的输出与对应尺度的红外路径补偿注意图和可见路径补偿注意图进行通道连接,获得融合图像。
可选地,所述交互注意力编码网络的红外路径和可见光路径四个卷积层的输入通道数分别为1、16、16、32,输出通道数分别为16、16、32、64,连接路径四个卷积层的输入通道数分别为2、16、64、128,输出通道数分别为16、16、32、64,激活函数为PReLU;从第二卷积层开始,红外路径和可见光路径的特征分别与连接路径的特征进行通道连接,记为Φm和Φn,然后输入交互注意力编码网络的交互注意力模块,生成交互注意力融合图,记为ΦF。
可选地,所述补偿注意力解码网络的四个卷积层的输入通道数分别为384、192、96、32,输出通道数分别为128、64、32、1,激活函数为PReLU。
可选地,所述交互注意力模块,对于输入特征Φm和Φn∈RH×W×C,首先在通道注意力模型使用全局平均池化操作和最大池化操作分别将深度特征映射到通道向量,经过两个卷积层和PReLU激活层后,将输出特征向量进行通道连接,并输入到卷积层和Sigmod激活层,得到了初始通道加权系数和分别表示为
其中,Conv表示卷积运算,Con表示通道连接操作,AP(·)和MP(·)分别表示全局平均池化操作和最大池化操作,σ和δ代表PReLU和Sigmod激活函数,H和W分别表示图像的高度和宽度,C表示输入通道数;
可选地,所述补偿注意力模块,对于输入的红外图像特征或者可见光图像特征Φm∈RH×W×C,首先在通道注意力模型使用全局平均池化操作和最大池化操作将特征映射转到通道向量,经过两个卷积层和PReLU激活层后,将输出特征向量进行通道连接,并输入到卷积层和Sigmod激活层,得到了通道加权系数表示为
可选地,所述S1之前还包括:
S01,构建交互补偿生成器:以红外路径、可见光路径、红外图像与可见光图像通道连接的连接路径作为输入,建立三重路径的多尺度编码-解码网络框架,包括交互注意力编码网络、融合层和补偿注意力解码网络,用于生成初始融合图像;
所述交互注意力编码网络,分别采用4个卷积核为3×3的卷积层,提取三重路径的多尺度深度特征,其中,第一卷积层、第二卷积层是步长为1的卷积,用于提取图像的浅层特征,第三卷积层、第四卷积层是步长为2的卷积,用于提取图像多尺度深度特征;红外路径与可见光路径四个卷积层的输入通道数分别为1、16、16、32,输出通道数分别为16、16、32、64,连接路径四个卷积层的输入通道数分别为2、16、64、128,输出通道数分别为16、16、32、64,激活函数为PReLU;从第二卷积层开始,红外路径和可见光路径的特征分别与连接路径的特征进行通道连接,记为Φm和Φn,然后输入交互注意力模块,生成交互注意力融合图,记为ΦF;经过三级交互注意力作用后,得到最终的交互注意力图;
所述融合层,直接将最终的交互注意力图与红外路径、可见光路径的第四卷积层的补偿注意力图直接进行通道连接,获得融合的注意力特征图;
所述补偿注意力解码网络,分别采用4个卷积核为3×3的卷积层来重构特征,其中第一卷积层、第二卷积层伴随上采样操作;四个卷积层的输入通道数分别为384、192、96、32,输出通道数分别为128、64、32、1,激活函数为PReLU;融合的注意力特征图首先经过上采样操作和第一层卷积,得到的输出与对应尺度的红外路径补偿注意图和可见路径补偿注意图进行通道连接,最终获得初始融合图像;
S02,构建包括红外鉴别器和可见光鉴别器的双鉴别器模型;在训练过程中,将交互补偿生成器获得的初始融合图像与红外图像、可见光图像输入对应的鉴别器,以约束融合图像分别与红外图像、可见光图像同时具有相似的数据分布;当交互补偿生成器与红外鉴别器和可见光鉴别器的对抗博弈达到平衡时,得到最终的融合结果;
所述红外鉴别器与可见光鉴别器具有相同的网络结构,均由4个卷积层和1个全连接层组成,所有卷积层均采用3×3核大小和LeakyRelu激活函数,步长为2,相应的卷积层的输入通道分别为1、16、32、64,输出通道数分别为16、32、64、128;
S03,网络模型训练:以红外图像与可见光图像作为训练数据集,采用表征红外图像像素强度和可见光图像边缘梯度的损失函数监督网络模型训练,获得最优的网络模型参数;
所述损失函数包括交互补偿生成器损失函数和鉴别器损失函数;在交互补偿生成器中,损失函数由对抗性损失函数Ladv和内容损失函数Lcon组成,表示为LG=Ladv+Lcon;交互补偿生成器的内容损失函数可表示为其中,H和W分别表示图像的高度和宽度,||·||F和||·||1表示Frobenius范数,L1范数,表示梯度算子,If表示初始融合图像,Iir表示红外图像,Ivis表示可见光图像;在红外鉴别器和可见光鉴别器中,对抗损失函数表示为N表示训练图像数;同时,红外鉴别器和可见光鉴别器各自的损失函数分别表示为和其中,λ为正则化参数,||·||2表示L2范数;第一项表示融合结果与红外或可见光图像之间的wasserstein距离,第二项是梯度惩罚,用于限制红外鉴别器和可见光鉴别器的学习能力。
可选地,所述训练数据集采用TNO数据集的25组红外与可见光图像,使用步长为12的滑动窗口,将原始图像分割为尺寸128×128,灰度值范围转换为[-1,1],最终获得18813组图像作为训练集;
训练过程中使用Adam优化器更新网络模型参数,Batchsize和Epoch分别设置为4和16;交互补偿生成器和鉴别器的学习率分别设置为1×10-4和4×10-4,相应的迭代次数分别设置为1和2;正则化参数λ设置为10。
借由上述方案,本发明具有如下特点:
1、本发明在交互补偿生成器中,构造了一个具有三重路径的多尺度编码器-解码器网络。红外路径和可见光路径在多尺度编码器-解码器网络的交互注意力模块和补偿注意力模块的作用下,为连接路径提供了额外的强度和梯度信息,使得可以在融合图像中保留更突出的红外目标和丰富的纹理细节。
2、本发明开发了交互注意力模块和补偿注意力模块来传递路径特征,并从通道和空间维度建模全局特征,增强了特征提取和特征重构能力,获得的注意力特征图更聚焦于红外图像目标感知和可见光图像纹理细节表征。
3、本发明在训练交互补偿生成器时设计了包括红外鉴别器和可见光鉴别器的双鉴别器,通过双鉴别器对交互补偿生成器进行了优化,使用红外鉴别器与可见光图像鉴别器可以更加均衡地约束融合结果和源图像间的数据分布相似度,使交互补偿生成器生成更平衡的融合结果,从源图像中获取更相似的像素分布和更细致的纹理细节信息。
4、本发明提出了一种端到端的(即预训练网络模型与测试网络模型相同的,不需要在测试网络模型中添加额外融合规则的)红外图像与可见光图像生成对抗融合方法,融合效果明显提升,该方法也可以应用于多模态图像、多聚焦图像和医学图像融合,对图像融合领域具有很高的应用价值。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是本发明的流程图。
图2是通过交互注意力编码网络、融合层和补偿注意力解码网络对待融合红外图像和待融合可见光图像进行融合的过程示意图。
图3是交互注意图模块的数据处理过程示意图。
图4是补偿注意力模块的数据处理过程示意图。
图5是交互补偿生成器的训练过程示意图。
图6是第一组Solider_with_jeep融合结果对比示意图。
图7是第二组Street融合结果对比示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下灾施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明提供的交互补偿注意力的红外与可见光图像对抗融合方法,其包括:
S1,将待融合红外图像、待融合可见光图像分别对应的红外路径、可见光路径以及待融合红外图像、待融合可见光图像进行通道连接得到的连接路径这三重路径确定为预先训练好的交互补偿生成器的输入,所述交互补偿生成器建立了三重路径的多尺度编码-解码网络框架,所述多尺度编码-解码网络框架包括交互注意力编码网络、融合层和补偿注意力解码网络。
S2,通过交互注意力编码网络采用的4个卷积核为3×3的卷积层,提取三重路径的多尺度深度特征,其中,交互注意力编码网络的第一卷积层、第二卷积层均是步长为1的卷积,用于提取图像的浅层特征,第三卷积层、第四卷积层均是步长为2的卷积,用于提取图像的多尺度深度特征,浅层特征和多尺度深度特征经过三级交互注意力作用后,得到最终的交互注意力图。
其中,所述交互注意力编码网络的红外路径和可见光路径四个卷积层的输入通道数分别为1、16、16、32,输出通道数分别为16、16、32、64,连接路径四个卷积层的输入通道数分别为2、16、64、128,输出通道数分别为16、16、32、64,激活函数为PReLU;从第二卷积层开始,红外路径和可见光路径的特征分别与连接路径的特征进行通道连接(concatenation,对应图2至图5中的C),记为Φm和Φn,然后输入交互注意力编码网络的交互注意力模块(图2中的Inter_Att),生成交互注意力融合图,记为ΦF。
S3,通过融合层将最终的交互注意力图与红外路径、可见光路径的第四卷积层得到的补偿注意力图直接进行通道连接,获得融合的注意力特征图。
S4,通过补偿注意力解码网络采用的4个卷积核为3×3的卷积层重构特征,其中,补偿注意力解码网络的第一卷积层、第二卷积层伴随上采样操作(图2中的Upsampling);融合的注意力特征图经过上采样操作和第一卷积层的卷积操作,得到的输出与对应尺度的红外路径补偿注意图和可见路径补偿注意图进行通道连接,获得融合图像。
其中,所述补偿注意力解码网络的四个卷积层的输入通道数分别为384、192、96、32,输出通道数分别为128、64、32、1,激活函数为PReLU。补偿注意力解码网络中,将交互注意力编码网络中的红外路径与可见光路径经过补偿注意力模块(图2中的Comp_Att)得到的不同尺度特征,与连接路径的对应尺度特征进行通道连接,并伴随上采样操作完成对特征图的重构,得到初始融合图像。红外路径与可见光路径为连接路径提供了额外的强度和梯度信息,提高了特征解码能力。
如图2所示,其为通过交互注意力编码网络、融合层和补偿注意力解码网络对待融合红外图像和待融合可见光图像进行融合的过程示意图。图2中的Conv表示卷积运算,k3表示卷积核为3×3,s1表示步长为1的卷积,In16表述输出通道数为16,图2中的其余参数同理。
可选地,如图3所示,所述交互注意力模块,对于输入特征Φm和Φn∈RH×W×C,首先在通道注意力模型使用全局平均池化操作和最大池化操作分别将深度特征映射到通道向量,经过两个卷积层和PReLU激活层后,将输出特征向量进行通道连接,并输入到卷积层和Sigmod激活层,得到了初始通道加权系数和分别表示为和其中,Conv表示卷积运算,Con表示通道连接操作,AP(·)和MP(·)分别表示全局平均池化操作和最大池化操作,σ和δ代表PReLU和Sigmod激活函数,H和W分别表示图像的高度和宽度,C表示输入通道数;
可选地,如图4所示,所述补偿注意力模块,对于输入的红外图像特征或者可见光图像特征Φm∈RH×W×C,首先在通道注意力模型使用全局平均池化操作和最大池化操作将特征映射转到通道向量,经过两个卷积层和PReLU激活层后,将输出特征向量进行通道连接,并输入到卷积层和Sigmod激活层,得到了通道加权系数表示为H和W分别表示图像的高度和宽度,C表示输入通道数;
其中,交互注意力模块和补偿注意力模块用于建立局部特征的全局依赖关系,并实现三重路径的特征交互和补偿,增强特征提取和特征重构能力。
上述过程即为对待融合红外图像和待融合可见光图像进行图像融合的相关内容。为了能够通过交互补偿生成器对待融合红外图像和待融合可见光图像进行图像融合,需要预先训练交互补偿生成器,下述内容即为训练交互补偿生成器的过程。
具体地,在训练交互补偿生成器时包括:
S01,构建交互补偿生成器:以红外路径、可见光路径、红外图像与可见光图像通道连接的连接路径作为输入,建立三重路径的多尺度编码-解码网络框架,包括交互注意力编码网络、融合层和补偿注意力解码网络,用于生成初始融合图像。
所述交互注意力编码网络,分别采用4个卷积核为3×3的卷积层,提取三重路径的多尺度深度特征,其中,第一卷积层、第二卷积层是步长为1的卷积,用于提取图像的浅层特征,第三卷积层、第四卷积层是步长为2的卷积,用于提取图像多尺度深度特征;红外路径与可见光路径四个卷积层的输入通道数分别为1、16、16、32,输出通道数分别为16、16、32、64,连接路径四个卷积层的输入通道数分别为2、16、64、128,输出通道数分别为16、16、32、64,激活函数为PReLU从第二卷积层开始,红外路径和可见光路径的特征分别与连接路径的特征进行通道连接,记为Φm和Φn,然后输入交互注意力模块,生成交互注意力融合图,记为ΦF;经过三级交互注意力作用后,得到最终的交互注意力图;
所述融合层,直接将最终的交互注意力图与红外路径、可见光路径的第四卷积层的补偿注意力图直接进行通道连接,获得融合的注意力特征图;
所述补偿注意力解码网络,分别采用4个卷积核为3×3的卷积层来重构特征,其中第一卷积层、第二卷积层伴随上采样操作;四个卷积层的输入通道数分别为384、192、96、32,输出通道数分别为128、64、32、1,激活函数为PReLU;融合的注意力特征图首先经过上采样操作和第一层卷积,得到的输出与对应尺度的红外路径补偿注意图和可见路径补偿注意图进行通道连接,最终获得初始融合图像。
S02,构建包括红外鉴别器和可见光鉴别器的双鉴别器模型;在训练过程中,将交互补偿生成器获得的初始融合图像与红外图像、可见光图像输入对应的鉴别器,以约束融合图像分别与红外图像、可见光图像同时具有相似的数据分布;当交互补偿生成器与红外鉴别器和可见光鉴别器的对抗博弈达到平衡时,得到最终的融合结果。
红外鉴别器使融合图像保存尽可能多的红外像素强度信息,而可见光鉴别器使融合图像包含尽可能多的可见光细节信息。对抗博弈达到平衡时得到的最终的融合结果使融合图像同时具有源图像的红外像素强度和可见光纹理细节信息。
所述红外鉴别器与可见光鉴别器具有相同的网络结构,均由4个卷积层和1个全连接层组成,所有卷积层均采用3×3核大小和LeakyRelu激活函数,步长为2,相应的卷积层的输入通道分别为1、16、32、64,输出通道数分别为16、32、64、128;
S03,网络模型训练:以红外图像与可见光图像作为训练数据集,采用表征红外图像像素强度和可见光图像边缘梯度的损失函数监督网络模型训练,获得最优的网络模型参数,即最优的交互补偿生成器的参数。
所述损失函数包括交互补偿生成器损失函数和鉴别器损失函数;在交互补偿生成器中,损失函数由对抗性损失函数Ladv和内容损失函数Lcon组成,表示为LG=Ladv+Lcon;考虑到红外图像以像素强度表示目标特征,而可见光图像通过边缘和梯度表示场景纹理。故采用Frobenius范数对红外图像与融合图像的像素强度进行相似性约束,采用L1范数对可见光图像与融合图像的梯度变化进行相似性约束,因此,交互补偿生成器的内容损失函数可表示为其中,H和W分别表示图像的高度和宽度,||·||F和||·||1表示Frobenius范数,L1范数,表示梯度算子,If表示初始融合图像,Iir表示红外图像,Ivis表示可见光图像。在双鉴别器中,红外鉴别器与可见光鉴别器旨在平衡融合图像和源图像的真实性,迫使生成的融合图像同时倾向于红外图像和可见光图像的真实数据分布。在红外鉴别器和可见光鉴别器中,对抗损失函数表示为N表示训练图像数;同时,红外鉴别器和可见光鉴别器各自的损失函数分别表示为和其中,λ为正则化参数,||·||2表示L2范数;第一项表示融合结果与红外或可见光图像之间的wasserstein距离,第二项是梯度惩罚,用于限制红外鉴别器和可见光鉴别器的学习能力。
其中,所述训练数据集集采用TNO数据集的25组红外与可见光图像,使用步长为12的滑动窗口,将原始图像分割为尺寸128×128,灰度值范围转换为[-1,1],最终获得18813组图像作为训练集;训练过程中使用Adam优化器更新网络模型参数,Batchsize和Epoch分别设置为4和16;交互补偿生成器和鉴别器(红外鉴别器与可见光鉴别器)的学***台为IntelI9-10850KCPU,64GB内存和NVIDIA GeForce GTX3090 GPU。编译环境是Python和PyTorch平台。
进一步地,为了验证通过上述方法训练得到的交互补偿生成器的图像融合效果,本发明实施例还对训练好的交互补偿生成器进行了验证。
具体地,在测试阶段,从TNO数据集选取了22组图像进行测试验证。对比方法选择了9种典型方法,包括MDLatLRR、DenseFuse,IFCNN,Res2Fusion、SEDRFuse,RFN-Nest,PMGI,FusionGAN和GANMcC。此外,客观评价指标采用了平均梯度(AG)、信息熵(EN)、标准差(SD)、互信息(MI)、空间频率(SF)、非线性相关信息熵(NCIE)、Qabf和视觉信息保真度(VIF)等8个指标。验证结果包括下述两个方面。
(1)主观评价。图6和图7给出了两组图像Solider_with_jeep和Street的主观比较结果示意图。通过对比,可以发现本发明的融合方法具有三个优势。首先,融合结果可以保留红外图像中的高亮度目标信息。对于典型的红外目标,如图6的汽车和图7的行人,本发明的融合结果比其他方法具有更高亮度的目标特征。其次,融合结果可以保留可见光图像的纹理细节。例如,图6的房屋边缘和图7的广告牌,对于这些代表性细节信息,本发明的融合结果比其他方法更明显、更精晰。最后,融合结果获得更高的对比度和更好的视觉效果。与源图像和其他融合结果相比,本发明方法可以更好地保留突出的目标特征和丰富的的场景细节信息,获得更加平衡的融合结果。
(2)客观评价。表1给出了TNO数据集的22组图像的客观比较结果。最优平均值和次优平均值分别用加粗和下划线标注。可以看出,本发明方法取得了指标AG、EN、MI、SF、NCIE和VIF的最优平均值,指标SD和Qabf次优平均值。客观实验表明本发明方法比其他方法具有更好的融合性能。最大值EN表示可以保持源图像中丰富的有用信息。这是因为本发明方法采用了一个三重路径,红外路径和可见光路径为连接路径提供额外的强度和梯度信息。最大值MI和NCIE表示融合结果与源图像具有很强的相关性和相似性。这是因为本发明方法采用双鉴别器对交互补偿生成器进行监督和优化,可以产生更平衡的融合结果。最大值AG、SF和VIF表示可以获得更好的图像对比度和视觉效果。本发明方法采用交互注意力模块和补偿注意力模块,建立局部特征的长依赖关系,获取的注意力特征图更聚焦于红外目标感知和可见纹理细节表征。
表1
上述所有可选地技术方案均可任意组合,本发明不对一一组合后的结构进行详细说明。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (7)
1.一种交互补偿注意力的红外与可见光图像对抗融合方法,其特征在于,包括:
S1,将待融合红外图像、待融合可见光图像分别对应的红外路径、可见光路径以及待融合红外图像、待融合可见光图像进行通道连接得到的连接路径这三重路径确定为预先训练好的交互补偿生成器的输入,所述交互补偿生成器建立了三重路径的多尺度编码-解码网络框架,所述多尺度编码-解码网络框架包括交互注意力编码网络、融合层和补偿注意力解码网络;
S2,通过交互注意力编码网络采用的4个卷积核为3×3的卷积层,提取三重路径的多尺度深度特征,其中,交互注意力编码网络的第一卷积层、第二卷积层均是步长为1的卷积,用于提取图像的浅层特征,第三卷积层、第四卷积层均是步长为2的卷积,用于提取图像的多尺度深度特征,浅层特征和多尺度深度特征经过三级交互注意力作用后,得到最终的交互注意力图;
S3,通过融合层将最终的交互注意力图与红外路径、可见光路径的第四卷积层得到的补偿注意力图直接进行通道连接,获得融合的注意力特征图;
S4,通过补偿注意力解码网络采用的4个卷积核为3×3的卷积层重构特征,其中,补偿注意力解码网络的第一卷积层、第二卷积层伴随上采样操作;融合的注意力特征图经过上采样操作和第一卷积层的卷积操作,得到的输出与对应尺度的红外路径补偿注意图和可见路径补偿注意图进行通道连接,获得融合图像。
2.根据权利要求1所述的交互补偿注意力的红外与可见光图像对抗融合方法,其特征在于,所述交互注意力编码网络的红外路径和可见光路径四个卷积层的输入通道数分别为1、16、16、32,输出通道数分别为16、16、32、64,连接路径四个卷积层的输入通道数分别为2、16、64、128,输出通道数分别为16、16、32、64,激活函数为PReLU;从第二卷积层开始,红外路径和可见光路径的特征分别与连接路径的特征进行通道连接,记为Φm和Φn,然后输入交互注意力编码网络的交互注意力模块,生成交互注意力融合图,记为ΦF。
3.根据权利要求1所述的交互补偿注意力的红外与可见光图像对抗融合方法,其特征在于,所述补偿注意力解码网络的四个卷积层的输入通道数分别为384、192、96、32,输出通道数分别为128、64、32、1,激活函数为PReLU。
4.根据权利要求2所述的交互补偿注意力的红外与可见光图像对抗融合方法,其特征在于,
所述交互注意力模块,对于输入特征Φm和首先在通道注意力模型使用全局平均池化操作和最大池化操作分别将深度特征映射到通道向量,经过两个卷积层和PReLU激活层后,将输出特征向量进行通道连接,并输入到卷积层和Sigmod激活层,得到了初始通道加权系数和分别表示为
其中,Conv表示卷积运算,Con表示通道连接操作,AP(·)和MP(·)分别表示全局平均池化操作和最大池化操作,σ和δ代表PReLU和Sigmod激活函数,H和W分别表示图像的高度和宽度,C表示输入通道数;
随后,将相应的通道交互注意力图作为空间注意力模型的输入,经过全局平均池化操作和最大池化操作,并将输出的空间特征图进行通道连接,输入卷积层和Sigmod激活层,得到各自初始空间加权系数和分别表示为和接下来,再利用Softmax运算得到最终空间加权系数和分别表示为和将最终空间加权系数与其对应的通道注意图相乘,得到相应的空间交互注意力图和分别表示为和
5.根据权利要求3所述的交互补偿注意力的红外与可见光图像对抗融合方法,其特征在于,
所述补偿注意力模块,对于输入的红外图像特征或者可见光图像特征首先在通道注意力模型使用全局平均池化操作和最大池化操作将特征映射转到通道向量,经过两个卷积层和PReLU激活层后,将输出特征向量进行通道连接,并输入到卷积层和Sigmod激活层,得到了通道加权系数表示为H和W分别表示图像的高度和宽度,C表示输入通道数;
6.根据权利要求1所述的交互补偿注意力的红外与可见光图像对抗融合方法,其特征在于,所述S1之前还包括:
S01,构建交互补偿生成器:以红外路径、可见光路径、红外图像与可见光图像通道连接的连接路径作为输入,建立三重路径的多尺度编码-解码网络框架,包括交互注意力编码网络、融合层和补偿注意力解码网络,用于生成初始融合图像;
所述交互注意力编码网络,分别采用4个卷积核为3×3的卷积层,提取三重路径的多尺度深度特征,其中,第一卷积层、第二卷积层是步长为1的卷积,用于提取图像的浅层特征,第三卷积层、第四卷积层是步长为2的卷积,用于提取图像多尺度深度特征;红外路径与可见光路径四个卷积层的输入通道数分别为1、16、16、32,输出通道数分别为16、16、32、64,连接路径四个卷积层的输入通道数分别为2、16、64、128,输出通道数分别为16、16、32、64,激活函数为PReLU;从第二卷积层开始,红外路径和可见光路径的特征分别与连接路径的特征进行通道连接,记为Φm和Φn,然后输入交互注意力模块,生成交互注意力融合图,记为ΦF;经过三级交互注意力作用后,得到最终的交互注意力图;
所述融合层,直接将最终的交互注意力图与红外路径、可见光路径的第四卷积层的补偿注意力图直接进行通道连接,获得融合的注意力特征图;
所述补偿注意力解码网络,分别采用4个卷积核为3×3的卷积层来重构特征,其中第一卷积层、第二卷积层伴随上采样操作;四个卷积层的输入通道数分别为384、192、96、32,输出通道数分别为128、64、32、1,激活函数为PReLU;融合的注意力特征图首先经过上采样操作和第一层卷积,得到的输出与对应尺度的红外路径补偿注意图和可见路径补偿注意图进行通道连接,最终获得初始融合图像;
S02,构建包括红外鉴别器和可见光鉴别器的双鉴别器:在训练过程中,将交互补偿生成器获得的初始融合图像与红外图像、可见光图像输入对应的鉴别器,以约束融合图像分别与红外图像、可见光图像同时具有相似的数据分布;当交互补偿生成器与红外鉴别器和可见光鉴别器的对抗博弈达到平衡时,得到最终的融合结果;
所述红外鉴别器与可见光鉴别器具有相同的网络结构,均由4个卷积层和1个全连接层组成,所有卷积层均采用3×3核大小和LeakyRelu激活函数,步长为2,相应的卷积层的输入通道分别为1、16、32、64,输出通道数分别为16、32、64、128;
S03,网络模型训练:以红外图像与可见光图像作为训练数据集,采用表征红外图像像素强度和可见光图像边缘梯度的损失函数监督网络模型训练,获得最优的网络模型参数;
所述损失函数包括交互补偿生成器损失函数和鉴别器损失函数;在交互补偿生成器中,损失函数由对抗性损失函数Ladv和内容损失函数Lcon组成,表示为LG=Ladv+Lcon;交互补偿生成器的内容损失函数可表示为其中,H和W分别表示图像的高度和宽度,||·||F和||·||1表示Frobenius范数,L1范数,表示梯度算子,If表示初始融合图像,Iir表示红外图像,Ivis表示可见光图像;在红外鉴别器和可见光鉴别器中,对抗损失函数表示为N表示训练图像数;同时,红外鉴别器和可见光鉴别器各自的损失函数分别表示为和其中,λ为正则化参数,||·||2表示L2范数;第一项表示融合结果与红外或可见光图像之间的wasserstein距离,第二项是梯度惩罚,用于限制红外鉴别器和可见光鉴别器的学习能力。
7.根据权利要求6所述的交互补偿注意力的红外与可见光图像对抗融合方法,其特征在于,所述训练数据集采用TNO数据集的25组红外与可见光图像,使用步长为12的滑动窗口,将原始图像分割为尺寸128×128,灰度值范围转换为[-1,1],最终获得18813组图像作为训练集;
训练过程中使用Adam优化器更新网络模型参数,Batchsize和Epoch分别设置为4和16;交互补偿生成器和双鉴别器的学习率分别设置为1×104和4×104,相应的迭代次数分别设置为1和2;
在损失函数中,正则化参数λ设置为10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210376347.0A CN115035003A (zh) | 2022-04-11 | 2022-04-11 | 交互补偿注意力的红外与可见光图像对抗融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210376347.0A CN115035003A (zh) | 2022-04-11 | 2022-04-11 | 交互补偿注意力的红外与可见光图像对抗融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115035003A true CN115035003A (zh) | 2022-09-09 |
Family
ID=83119944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210376347.0A Withdrawn CN115035003A (zh) | 2022-04-11 | 2022-04-11 | 交互补偿注意力的红外与可见光图像对抗融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115035003A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115311186A (zh) * | 2022-10-09 | 2022-11-08 | 济南和普威视光电技术有限公司 | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 |
CN115423734A (zh) * | 2022-11-02 | 2022-12-02 | 国网浙江省电力有限公司金华供电公司 | 一种基于多尺度注意机制的红外与可见光图像融合方法 |
CN115546489A (zh) * | 2022-11-23 | 2022-12-30 | 南京理工大学 | 基于跨模态特征强化与交互的多模态图像语义分割方法 |
CN116363036A (zh) * | 2023-05-12 | 2023-06-30 | 齐鲁工业大学(山东省科学院) | 基于视觉增强的红外与可见光图像融合方法 |
CN116664462A (zh) * | 2023-05-19 | 2023-08-29 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200394409A1 (en) * | 2019-01-03 | 2020-12-17 | Lucomm Technologies, Inc. | System for physical-virtual environment fusion |
CN113706406A (zh) * | 2021-08-11 | 2021-11-26 | 武汉大学 | 基于特征空间多分类对抗机制的红外可见光图像融合方法 |
CN114187214A (zh) * | 2021-11-12 | 2022-03-15 | 国网辽宁省电力有限公司电力科学研究院 | 一种红外与可见光图像融合***及方法 |
-
2022
- 2022-04-11 CN CN202210376347.0A patent/CN115035003A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200394409A1 (en) * | 2019-01-03 | 2020-12-17 | Lucomm Technologies, Inc. | System for physical-virtual environment fusion |
CN113706406A (zh) * | 2021-08-11 | 2021-11-26 | 武汉大学 | 基于特征空间多分类对抗机制的红外可见光图像融合方法 |
CN114187214A (zh) * | 2021-11-12 | 2022-03-15 | 国网辽宁省电力有限公司电力科学研究院 | 一种红外与可见光图像融合***及方法 |
Non-Patent Citations (2)
Title |
---|
ZHISHE WANG等: "Infrared and Visible Image Fusion via Interactive Compensatory Attention Adversarial Learning", ARXIV, 29 March 2022 (2022-03-29), pages 1 - 13 * |
冉鑫;任蕾;: "基于可见光视频图像处理的水上弱小目标检测方法", 上海海事大学学报, no. 02, 15 June 2010 (2010-06-15) * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115311186A (zh) * | 2022-10-09 | 2022-11-08 | 济南和普威视光电技术有限公司 | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 |
CN115311186B (zh) * | 2022-10-09 | 2023-02-03 | 济南和普威视光电技术有限公司 | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 |
CN115423734A (zh) * | 2022-11-02 | 2022-12-02 | 国网浙江省电力有限公司金华供电公司 | 一种基于多尺度注意机制的红外与可见光图像融合方法 |
CN115546489A (zh) * | 2022-11-23 | 2022-12-30 | 南京理工大学 | 基于跨模态特征强化与交互的多模态图像语义分割方法 |
CN116363036A (zh) * | 2023-05-12 | 2023-06-30 | 齐鲁工业大学(山东省科学院) | 基于视觉增强的红外与可见光图像融合方法 |
CN116363036B (zh) * | 2023-05-12 | 2023-10-10 | 齐鲁工业大学(山东省科学院) | 基于视觉增强的红外与可见光图像融合方法 |
CN116664462A (zh) * | 2023-05-19 | 2023-08-29 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
CN116664462B (zh) * | 2023-05-19 | 2024-01-19 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ren et al. | Single image dehazing via multi-scale convolutional neural networks with holistic edges | |
Li et al. | Underwater scene prior inspired deep underwater image and video enhancement | |
CN115035003A (zh) | 交互补偿注意力的红外与可见光图像对抗融合方法 | |
US20200265597A1 (en) | Method for estimating high-quality depth maps based on depth prediction and enhancement subnetworks | |
CN111709902A (zh) | 基于自注意力机制的红外和可见光图像融合方法 | |
CN107818554B (zh) | 信息处理设备和信息处理方法 | |
CN111145131A (zh) | 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法 | |
CN109255358B (zh) | 一种基于视觉显著性和深度图的3d图像质量评价方法 | |
CN115311186B (zh) | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 | |
CN113283444B (zh) | 一种基于生成对抗网络的异源图像迁移方法 | |
CN114049335B (zh) | 一种基于时空注意力的遥感影像变化检测方法 | |
CN112991371B (zh) | 一种基于着色溢出约束的图像自动着色方法及*** | |
CN113592018B (zh) | 基于残差密集网络和梯度损失的红外光与可见光图像融合方法 | |
CN114782298B (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
CN111738948A (zh) | 一种基于双U-net的水下图像增强方法 | |
Singh et al. | Weighted least squares based detail enhanced exposure fusion | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN113920171B (zh) | 基于特征级和决策级融合的双模态目标跟踪方法 | |
CN114092774B (zh) | 基于信息流融合的rgb-t图像显著性检测***及检测方法 | |
CN113762277B (zh) | 一种基于Cascade-GAN的多波段红外图像融合方法 | |
CN114359041A (zh) | 一种光场图像空间超分辨率重建方法 | |
CN117292117A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN117495718A (zh) | 一种多尺度自适应的遥感图像去雾方法 | |
CN110689510B (zh) | 一种引入字典信息基于稀疏表示的图像融合方法 | |
CN107578406A (zh) | 基于网格与韦泊统计特性的无参考立体图像质量评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220909 |
|
WW01 | Invention patent application withdrawn after publication |