CN113706406B - 基于特征空间多分类对抗机制的红外可见光图像融合方法 - Google Patents
基于特征空间多分类对抗机制的红外可见光图像融合方法 Download PDFInfo
- Publication number
- CN113706406B CN113706406B CN202110916568.8A CN202110916568A CN113706406B CN 113706406 B CN113706406 B CN 113706406B CN 202110916568 A CN202110916568 A CN 202110916568A CN 113706406 B CN113706406 B CN 113706406B
- Authority
- CN
- China
- Prior art keywords
- fusion
- feature
- infrared
- fea
- visible light
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 23
- 230000007246 mechanism Effects 0.000 title claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 132
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 54
- 230000004913 activation Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 16
- 238000007499 fusion processing Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000009191 jumping Effects 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000009826 distribution Methods 0.000 abstract description 9
- 238000002474 experimental method Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000003472 neutralizing effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/92—Dynamic range modification of images or parts thereof based on global image properties
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种基于特征空间多分类对抗机制的红外可见光图像融合方法。本发明所提出的方法引入空间注意力机制,同时使用密集连接和残差连接来构建高性能编码器网络实现特征提取;引入通道注意力机制,同时使用多尺度卷积来构建高性能译码器网络实现图像重建。将融合策略网络化,引入多分类生成对抗机制使融合特征同时符合红外与可见光两种模态的概率分布,从而构建高性能的深度融合策略。最终的红外与可见光图像融合网络由训练好的编码器、特征融合网络以及译码器级联而成,生成高质量的融合结果。相较于现存方法,本发明所提出的方法可解释性好、融合速度快、适用范围广。
Description
技术领域
本发明涉及图像增强技术领域,具体地说,本发明涉及一种基于特征空间多分类对抗机制的红外可见光图像融合方法的技术方案。
背景技术
近几十年,基于深度学习的融合方法凭借神经网络强大的特征提取和图像重建能力,获得了远超传统方法的性能。现存的基于深度学习的图像融合方法可以分为端到端融合方法以及非端到端融合方法。
端到端融合方法通常直接使用一个整体网络将输入的红外和可见光图像进行融合。换句话说,融合的各个阶段如特征提取、特征融合以及图像重建都是隐式的。端到端融合方法可根据所采取的架构分为基于卷积神经网络的融合方法和基于生成式对抗网络的融合方法。这些方法的共性在于依赖融合图像与源图像绝对分布之间的距离损失。例如,PMGI在融合图像和两个源图像间建立强度和梯度距离损失,并通过调节损失项的权重系数来调整信息融合过程中的保留比例,从而控制融合绝对结果分布的倾向性。U2Fusion则在融合图像和两个源图像间建立强度和结构相似度损失,并通过度量特征图的信息质量来自适应地调整损失项系数,从而引导融合图像保留有效信息。不幸的是,这种融合图像与两个源图像绝对分布之间的距离损失会建立一个博弈,导致最终融合图像是两个源图像原始属性(如像素强度、梯度等)的折中,不可避免地造成有益信息被削弱。除此以外,FusionGAN网络的优化不仅依赖图像绝对分布之间的距离损失还依赖模态概率分布之间的对抗损失。随后,它们引入双鉴别器来平衡红外与可见光信息以进一步提升融合性能,但是网络优化仍离不开图像绝对分布之间的内容损失,这意味有益信息的丢失问题仍然存在。
非端到端融合方法主要是基于自编码架构,其特征提取、特征融合以及图像重建三个阶段都是非常明确的,由不同的网络或模块来实现。现存非端到端图像融合方法的融合质量一直受融合策略的性能制约。具体来说,现存的基于自编码结构的融合方法采用的融合规则都是手工制作的,且不可学习。例如,DenseFuse采用Addition策略和l1-norm策略;SEDRFuse采用最大值策略。这些策略不能根据输入图像自适应地调整,可能会造成亮度中和或过饱和、信息丢失等问题,因此研究可学习的融合规则非常有意义。
发明内容
针对现有的技术缺陷,本发明提出了一种基于特征空间多分类对抗机制的红外可见光图像融合网络的技术方案。经本发明增强得到的红外图像,可以避免有效信息被削弱和中和,能自适应地保留显著热目标和丰富纹理结构。。
本发明的技术方案包括以下步骤:
步骤1,设计一种新的自编码器网络来实现融合过程中的特征提取和图像重建,来实现特征提取和图像重建,所述的自编码器网络包括编码器和译码器,其中编码器将图像映射到高维特征空间,再利用译码器将高维特征重新映射为图像,设计损失函数对编码器和译码器进行训练;
步骤2,建立生成式对抗网络并对其进行训练,所述的生成式对抗网络包括特征融合网络和和多分类鉴别器,使用训练好的编码器从红外和可见光图像中提取特征,然后通过生成式对抗网络来融合这些特征;
步骤3,在整个训练结束后,将编码器、生成式对抗网络以及译码器级联组成完整的图像融合网络,使用训练好的编码器从红外和可见光图像中提取特征,将生成式对抗网络生成的融合特征经训练好的译码器译码得到高质量的融合图像。
进一步的,步骤1中编码器的网络结构如下;
建立编码器E,所述的编码器E使用跳跃连接和残差连接通过9个卷积层对原始的红外图像和可见光图像对中提取特征,所述的卷积层的卷积核尺寸均为3×3,激活函数均为Leaky ReLU,分别采用空间注意力模块对第4层和第8层卷积层加权;采用残差连接将第1层与第一个空间注意力模块进行残差连接,残差连接的结果通过激活函数Leaky ReLU后与第二个空间注意力模块进行残差连接;采用跳跃连接将第2层、第3层、第6层与第7层进行跳跃连接,最终得到红外特征Feair和可见光特征Feavis。
进一步的,步骤1中译码器的网络结构如下;
建立译码器D,所述的译码器D使用两个结合通道注意力模块的多尺度卷积层顺序连接,来处理编码器提取的编码特征,所述的多尺度卷积层由三个具有不同尺寸卷积核的卷积层组成,卷积核尺寸分别为7×7、5×5和3×3,激活函数均为Leaky ReLU;在每个多尺度卷积层后连接一个通道注意力模块,在此之后,使用三个卷积核尺寸为3×3的卷积层来重建红外图像和可见光图像,前两个卷积层使用Leaky ReLU作为激活函数,第三个卷积层使用Tanh作为激活函数。
进一步的,建立编码器和译码器的损失函数其为在强度域和梯度域构建重建图像与输入图像的一致性损失,其计算公式如下:
其中,是强度损失,/>是梯度损失,β是平衡强度损失项和梯度损失项的参数;
强度损失的计算公式如下:
梯度损失的计算公式如下:
其中,|·|是范数,/>是Sobel梯度算子,其从水平和竖直两个方向来计算图像的梯度;Iir和Ivis是输入的源红外和可见光图像,/>和/>是自编码网络重建的红外和可见光图像,其可以表示为:/>
训练自编码器网络,采用Adam优化器来更新参数,自编码器网络训练好后,冻结其参数。
进一步的,步骤2的具体实现方式如下;
步骤2.1,建立特征融合网络F,将训练好的编码器E提取的红外特征Feair和可见光特征Feavis进行融合,生成融合特征Feafused;
所述的特征融合网络F采用3个卷积核尺寸为3×3、激活函数为Leaky Relu的卷积层来处理编码器E提取的红外特征Feair与可见光特征Feavis;在此之后级联三个并列的两层卷积层分支,分别是2个融合权重预测分支和一个偏差预测分支,预测融合权重ωir、ωvis以及偏差项ε;所述的融合权重预测分支包含两个卷积层,其卷积尺寸均为3×3,两个卷积层分别使用Leaky Relu和Sigmoid作为激活函数;在偏差预测分支,也包含两个卷积层,其卷积尺寸均为3×3,两个卷积层的激活函数均为Leaky Relu。融合特征可以被表示为:
Feafused=F(Feair,Feavis)=ωir·Feair+ωvis·Feavis+ε
步骤2.2,建立多分类鉴别器MD区分红外特征Feair、可见光特征Feavis以及特征融合网络F合成的融合特征Feafused;所述的多分类鉴别器MD中,使用4个卷积层来处理编码器提取的红外特征Feair与可见光特征Feavis,卷积核尺寸均为3×3,激活函数均为LeakyRelu;然后,处理后的特征被重塑为一个一维向量,并使用一个线性层来输出一个1×2的预测向量,分别表示输入特征为红外特征的概率Pir,以及输入特征为可见光特征的概率Pvis;
步骤2.3,建立特征融合网络F的损失函数和多分类鉴别器MD的损失函数/>特征融合网络F和多分类鉴别器MD在对抗学习中迭代优化;
步骤2.4,特征融合网络F和多分类鉴别器MD连续地对抗学习,采用Adam优化器来更新参数,在训练好的编码器提取的特征空间中训练生成式对抗网络。
进一步的,对于特征融合网络F,其目的是产生可以骗过多分类鉴别器MD的融合特征Feafused,即让多分类鉴别器MD认为融合特征Feafused既是红外特征Feair又是可见光特征Feavis,因此,特征融合网络F的损失函数的计算公式如下:
其中,MD(·)表示多分类鉴别器MD的函数,其输出是一个1×2的概率向量.MD(Feafused)[1]指的是该向量的第一项,表示鉴别器判定输入特征是红外特征的概率Pir;MD(Feafused)[2]指的是该向量的第二项,表示鉴别器判定输入特征是可见光特征的概率Pvis,a是概率标签。
进一步的,多分类鉴别器MD,希望能准确判断输入特征是红外特征、可见光特征还是由特征融合网络F产生的融合特征,鉴别器损失函数包括三部分,分别是判定红外特征的损失/>判定可见光特征的损失/>以及判定融合特征的损失/>鉴别器损失函数/>的计算公式如下:
其中α1,α2和α3是平衡这些损失项的参数;
当输入特征为红外特征Feair,多分类鉴别器MD判定的Pir应趋于1,Pvis应趋于0,对应的损失函数的计算公式如下:
其中,b1和b2是红外特征对应的概率标签;
类似的,当输入特征为可见光特征Feavis,对应的损失函数的计算公式如下:
其中,c1和c2是可见光特征对应的概率标签;
当输入特征为融合特征Feafused,多分类鉴别器MD输出的Pir和Pvis都应趋于0,对应的损失函数的计算公式如下:
其中,d1和d2是融合特征对应的概率标签。
进一步的,步骤3中将编码器、生成式对抗网络以及译码器级联组成完整的图像融合网络表示如下;
通过训练好的编码器E提取红外图像Iir的红外特征Feair和可见光图像Ivis的可见光特征Feavis,将红外特征Feair和可见光特征Feavis输入训练好的特征融合网络F,特征融合网络F生成的融合特征Feafused经训练好的译码器D译码生成高质量的融合图像Ifused,整个融合过程可以被形式化为:
Ifused=D(F(E(Iir),E(Ivis)))
其中,Iir和Ivis分别表示红外图像和可见光图像;E(·)表示编码器函数,F(·)表示特征融合网络函数,D(·)表示译码器函数。
本发明与现有技术相比具有以下优点和有益效果:
(1)本发明提出了一个新的红外与可见光图像融合网络,其利用多分类对抗机制将传统融合策略扩展为可学习,具有更好的融合性能;
(2)本发明提出的方法将现存方法中融合图像与源图像绝对分布之间的距离损失扩展为模态概率分布之间的对抗损失,有效避免了现存融合方法中有益信息被削弱的问题;
(3)本发明提出的方法具有良好的泛化性,可以推广到任意红外与可见光图像融合数据集。
附图说明
图1为本发明的整体框架;
图2为本发明的自编码器网络结构图;
图3为本发明的生成式对抗网络结构图;
图4为本发明的对比实验的定性结果。
具体实施方式
下面结合附图和实施例对本发明技术方案进一步详细说明。
本发明所述方法选用TNO数据集作为对比实验的数据,选用RoadScene数据集作为泛化性实验的数据,这两个数据集中的图像对都已被严格配准。在对比试验和泛化性实验中,用于测试的图像对数量均为20。为了获取更多的训练数据,将TNO数据集中剩下图像进行有重叠地裁剪,共获得45910对尺寸为80×80的图像块用于自编码器和生成式对抗网络的训练。
步骤1:设计一种新的自编码器网络来实现融合过程中的特征提取和图像重建,本发明方法的总框架如图1所示。所述的自编码器网络包括编码器和译码器。建立编码器、译码器的损失函数,所述的编码器将图像映射到高维特征空间,再利用译码器将高维特征重新映射为图像,其结构如图2所示;
步骤2:建立生成式对抗网络并训练,所述的生成式对抗网络包括特征融合网络和多分类鉴别器。使用训练好的编码器从红外和可见光图像中提取特征,通过生成式对抗网络来融合这些特征。生成式对抗网络的结构如图3所示;
步骤3:在整个训练结束后,将编码器、生成式对抗网络以及译码器级联组成完整的图像融合网络。使用训练好的编码器从红外和可见光图像中提取特征,将生成式对抗网络生成的融合特征经训练好的译码器译码得到高质量的融合图像。
进一步的,步骤1包括如下步骤:
步骤1.1:建立编码器E,所述的编码器E使用9个卷积层从源图像中提取特征,其中卷积核尺寸均为3×3,激活函数均为Leaky Relu。在分别采用空间注意力模块对第4层和第8层卷积层加权;采用残差连接将第1层与第一个空间注意力模块进行残差连接,残差连接的结果通过激活函数Leaky ReLU后与第二个空间注意力模块进行残差连接;采用跳跃连接将第2层、第3层、第6层与第7层进行跳跃连接,最终得到红外特征Feair和可见光特征Feavis。空间注意力模块的网络结构如图2右下角所示,为现有技术,同时编码器将密集连接和残差连接相结合,把浅层特征不断跳跃连接到深层网络;
步骤1.2:建立译码器模型D,所述的译码器D使用两个结合通道注意力模块的多尺度卷积层来处理编码器E提取的中间特征。在每个多尺度卷积层,三个具有不同尺寸卷积核的卷积层并行处理输入特征,其卷积核尺寸分别为7×7、5×5和3×3,激活函数均为LeakyRelu。在此之后,使用三个卷积核尺寸为3×3的卷积层来重建源图像,前两个卷积层使用Leaky Relu作为激活函数,第三个卷积层使用Tanh作为激活函数。通道注意力模块的网络结构如图2左下角所示,为现有技术,其在通道维度上生成权重向量,以选择性增强那些对重建更有利的特征通道;
步骤1.3:所述的自编码器网络中的编码器和译码器需要损失函数对其进行约束,建立损失函数其为在强度域和梯度域构建重建图像与输入图像的一致性损失,其计算公式如下:
其中,是强度损失,/>是梯度损失,β是平衡强度损失项和梯度损失项的参数,参数β被设定为10。
强度损失的计算公式如下:
梯度损失的计算公式如下:
其中,|·|是范数,/>是Sobel梯度算子,其从水平和竖直两个方向来计算图像的梯度。Iir和Ivis是输入的源红外和可见光图像,/>和/>是自编码网络重建的红外和可见光图像,其可以表示为:/>
步骤1.4:训练编码器和译码器,采用Adam优化器来更新参数,训练好后,冻结其参数。
在训练过程中,批大小被设置为s1,训练一期需要m1步,一共训练M1期.在实验中,s1被设置为48,m1被设置为100,M1是训练图像块总数量和批大小s1的比率。
进一步的,步骤2包括如下步骤:
步骤2.1,建立特征融合网络F,将训练好的编码器E提取的红外特征Feair和可见光特征Feavis进行融合,生成融合特征Feafused;
所述的特征融合网络F使用3个卷积核尺寸为3×3、激活函数为Leaky Relu的卷积层来处理输入的红外特征Feair与可见光特征Feavis;在此之后级联三个并列的两层卷积层分支,分别是2个融合权重预测分支和一个偏差预测分支,预测融合权重ωir、ωvis以及偏差项ε。所述的融合权重预测分支包含两个卷积层,其卷积尺寸均为3×3,两个卷积层分别使用Leaky Relu和Sigmoid作为激活函数;在偏差预测分支,所述的融合权重预测分支两个卷积层的激活函数均为Leaky Relu。融合特征可以被表示为:
Feafused=F(Feair,Feavis)=ωir·Feair+ωvis·Feavis+ε
步骤2.2:使用一个多分类器MD作为鉴别器来区分红外特征Feair、可见光特征Feavis以及特征融合网络F合成的融合特征Feafused。在鉴别器MD中,先使用4个卷积层来处理输入特征,卷积核尺寸均为3×3,激活函数均为Leaky Relu。然后,处理后的特征被重塑为一个一维向量,并使用一个线性层来输出一个1×2的预测向量,分别表示输入特征为红外特征的概率Pir,以及输入特征为可见光特征的概率Pvis;
步骤2.3:特征融合网络F和多分类鉴别器MD在对抗学习中迭代优化,需要建立特征融合网络F的损失函数为和鉴别器MD的损失函数/>
进一步的,步骤2.3包括如下步骤:
步骤2.3.1:对于特征融合网络F,其目的是产生可以骗过鉴别器的融合特征Feafused,即让鉴别器认为融合特征Feafused既是红外特征Feair又是可见光特征Feavis.因此,特征融合网络F的损失函数的计算公式如下:
其中,MD(·)表示多分类鉴别器的函数,其输出是一个1×2的概率向量.MD(Feafused)[1]指的是该向量的第一项,表示鉴别器判定输入特征是红外特征的概率Pir;MD(Feafused)[2]指的是该向量的第二项,表示鉴别器判定输入特征是可见光特征的概率Pvis。a是概率标签,a被设定为0.5。
步骤2.3.2:多分类鉴别器MD(·)希望能准确判断输入特征是红外特征、可见光特征还是由特征融合网络F产生的融合特征。鉴别器损失函数包括三部分,分别是判定红外特征的损失/>判定可见光特征的损失/>以及判定融合特征的损失/>鉴别器损失函数/>的计算公式如下:
其中α1,α2和α3是平衡这些损失项的参数,参数α1,α2和α3分别被设定为0.25,0.25和0.5。
(1)当输入特征为红外特征Feair,多分类鉴别器MD判定的Pir应趋于1,Pvis应趋于0。对应的损失函数的计算公式如下:
其中,b1和b2是红外特征对应的概率标签,b1被设定为1,b2被设定为0。
(2)类似的,当输入特征为可见光特征Feavis,对应的损失函数的计算公式如下:
其中,c1和c2是可见光特征对应的概率标签,c1被设定为0,c2被设定为1。
(3)当输入特征为融合特征Feafused,多分类鉴别器MD输出的Pir和Pvis都应趋于0。对应的损失函数的计算公式如下:
其中,d1和d2是融合特征对应的概率标签,d1和d2都被设为0。
步骤2.4:特征融合网络F和多分类鉴别器MD连续地对抗学习,采用Adam优化器来更新参数,在训练好的编码器提取的特征空间中训练生成式对抗网络。
在生成式对抗网络的训练过程中,批大小被设置为s2,训练一期需要m2步,一共训练M2期.在实验中,s2被设置为48,M1被设置为20,m2是训练图像块总数量和批大小s2的比率。
进一步的,步骤3包括如下步骤:
将特征融合网络F生成的融合特征经训练好的译码器D译码得到高质量的融合图像Ifused,整个融合过程可以被形式化为:
Ifused=D(F(E(Iir),E(Ivis)))
其中,Iir和Ivis分别表示红外图像和可见光图像;E(·)表示编码器函数,F(·)表示特征融合网络函数,D(·)表示译码器函数。
具体实施时,可采用软件方式实现基于特征空间多分类对抗机制的红外可见光图像融合网络的设计方案。为了客观地衡量本发明所提方法的融合性能,从定性和定量两方面评估各方法性能。定性评估是一种主观评估方式,其依赖于人的视觉感受,好的融合结果应同时包含红外图像的显著对比度和可见光图像的丰富纹理。定量评估则通过一些统计指标来客观评估融合性能,本文选用了7个在图像融合领域被广泛使用的定量指标,如视觉信息保真度(Visual Information Fidelity,VIF)、信息熵(Entropy,EN)、差异相关和(TheSum of The Correlations of Differences,SCD)、互信息(Mutual Information,MI)、QAB /F、标准差(Standard Deviation,SD)及空间频率(Spatial Frequency,SF)。VIF测量融合图像保真度,大的VIF值表示融合图像保真度高。EN测量融合图像的信息量,EN值越大,融合图像包含的信息越多。SCD测量融合图像包含的信息与源图像的相关性,SCD越大意味着融合过程引入的伪信息越少。MI衡量融合图像中包含来自源图像的信息量,MI越大意味着融合图像包含来自源图像的信息越多。QAB/F衡量融合过程中边缘信息的保持情况,QAB/F越大,边缘被保持得越好。SD是对融合图像对比度的反映,大的SD值表示良好的对比度。SF测量融合图像整体细节丰富度,SF越大,融合图像包含的纹理越丰富。
定性对比:首先,5组典型的结果被挑选来定性地展示各算法的性能,如图4所示。可以看出,本文所提方法有两方面的优势。一方面,本文方法能非常精确地保留红外图像中的显著目标,它们的热辐射强度几乎没有损失,且边缘锐利。另一方面,所提方法也能很好地保留可见光图像中的纹理细节。从融合结果的倾向性可以把对比方法分为两类。第一类是融合结果倾向于可见光图像的方法,如MDLatLRR、DenseFuse和U2Fusion。从图4中可以看到,这一类方法的融合结果虽然包含丰富的纹理细节,但其对比度较差,热辐射目标被削弱。例如,在第一组结果中,MDLatLRR、DenseFuse和U2Fusion对树木纹理保留的较好,但却削弱了目标建筑物的亮度。类似的还有第二组中的水面、第三和第五组中的人以及第四组中的坦克。第二类是融合结果倾向于红外图像的方法,如GTF和FusionGAN。这一类方法能较好地保留热目标,但纹理细节不够丰富,它们的结果看起来很像是锐化的红外图像。如在图4中的第一组结果中,GTF和FusionGAN较好地保留了目标建筑物的显著性,但周边树木的纹理结构却不够丰富。类似地还有第二组中的灌木、第三组中的路灯以及第四组中的树叶。本发明所提方法综合了这两类方法的优势。具体来说,所提方法既能像第一类方法那样保持场景中的纹理细节,又能像第二类方法那样准确保持热辐射目标。值得注意的是所提方法对热目标边缘保持得比第二类方法更锐利。总的来说,本发明所提方法在定性对比上优于这些最新方法。
定量对比:在20张测试图像上的定量对比结果如表1所示。可以看出,本发明所提方法在EN、SCD、MI、QAB/F、SD以及SF这6个指标上都取得最好平均值;在VIF上,本发明方法排行第二,仅次于U2Fusion。这些结果说明:本发明方法在融合过程中从源图像传输到融合图像的信息最多、引入的伪信息最少、能最好地保持边缘。生成的融合结果包含的信息量最大、有最好的对比度、具有最丰富的整体纹理结构。总的来说,本发明方法相较于这些对比算法在定量上也是有优势的。
表1对比试验的定量结果,加粗表示最好,下横线表示第二好
本发明所提出的方法融合速度很快,比对比算法快5倍以上,详见表2。
表2各方法在两个数据集上的平均运行时间(单位:秒),加粗表示最好结果
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围的。
Claims (7)
1.基于特征空间多分类对抗机制的红外可见光图像融合方法,其特征在于,包括如下步骤:
步骤1,设计一种新的自编码器网络来实现融合过程中的特征提取和图像重建,所述的自编码器网络包括编码器和译码器,其中编码器将图像映射到高维特征空间,再利用译码器将高维特征重新映射为图像,设计损失函数对编码器和译码器进行训练;
建立编码器和译码器的损失函数其为在强度域和梯度域构建重建图像与输入图像的一致性损失,其计算公式如下:
其中,是强度损失,/>是梯度损失,β是平衡强度损失项和梯度损失项的参数;
强度损失的计算公式如下:
梯度损失的计算公式如下:
其中,|·|是范数,/>是Sobel梯度算子,其从水平和竖直两个方向来计算图像的梯度;Iir和Ivis是输入的源红外和可见光图像,/>和/>是自编码网络重建的红外和可见光图像,其可以表示为:/>
训练编码器和译码器,采用Adam优化器来更新参数,训练好后,冻结其参数;
步骤2,建立生成式对抗网络并对其进行训练,所述的生成式对抗网络包括特征融合网络和和多分类鉴别器,使用训练好的编码器从红外和可见光图像中提取特征,然后通过生成式对抗网络来融合这些特征;
步骤3,在整个训练结束后,将编码器、生成式对抗网络以及译码器级联组成完整的图像融合网络,使用训练好的编码器从红外和可见光图像中提取特征,将生成式对抗网络生成的融合特征经训练好的译码器译码得到高质量的融合图像。
2.如权利要求1所述的基于特征空间多分类对抗机制的红外可见光图像融合方法,其特征在于:步骤1中编码器的网络结构如下;
建立编码器E,所述的编码器E使用跳跃连接和残差连接通过9个卷积层对原始的红外图像和可见光图像对中提取特征,所述的卷积层的卷积核尺寸均为3×3,激活函数均为Leaky ReLU,分别采用空间注意力模块对第4层和第8层卷积层加权;采用残差连接将第1层与第一个空间注意力模块进行残差连接,残差连接的结果通过激活函数Leaky ReLU后与第二个空间注意力模块进行残差连接;采用跳跃连接将第2层、第3层、第6层与第7层进行跳跃连接,最终得到红外特征Feair和可见光特征Feavis。
3.如权利要求1所述的基于特征空间多分类对抗机制的红外可见光图像融合方法,其特征在于:步骤1中译码器的网络结构如下;
建立译码器D,所述的译码器D使用两个结合通道注意力模块的多尺度卷积层顺序连接,来处理编码器提取的编码特征,所述的多尺度卷积层由三个具有不同尺寸卷积核的卷积层组成,卷积核尺寸分别为7×7、5×5和3×3,激活函数均为Leaky ReLU;在每个多尺度卷积层后连接一个通道注意力模块,在此之后,使用三个卷积核尺寸为3×3的卷积层来重建红外图像和可见光图像,前两个卷积层使用Leaky ReLU作为激活函数,第三个卷积层使用Tanh作为激活函数。
4.如权利要求1所述的基于特征空间多分类对抗机制的红外可见光图像融合方法,其特征在于:步骤2的具体实现方式如下;
步骤2.1,建立特征融合网络F,将训练好的编码器E提取的红外特征Feair和可见光特征Feavis进行融合,生成融合特征Feafused;
所述的特征融合网络F采用3个卷积核尺寸为3×3、激活函数为Leaky Relu的卷积层来处理编码器E提取的红外特征Feair与可见光特征Feavis;在此之后级联三个并列的两层卷积层分支,分别是2个融合权重预测分支和一个偏差预测分支,预测融合权重ωir、ωvis以及偏差项ε;所述的融合权重预测分支包含两个卷积层,其卷积尺寸均为3×3,两个卷积层分别使用Leaky Relu和Sigmoid作为激活函数;在偏差预测分支,也包含两个卷积层,其卷积尺寸均为3×3,两个卷积层的激活函数均为Leaky Relu;融合特征可以被表示为:
Feafused=F(Feair,Feavis)=ωir·Feair+ωvis·Feavis+ε
步骤2.2,建立多分类鉴别器MD区分红外特征Feair、可见光特征Feavis以及特征融合网络F合成的融合特征Feafused;所述的多分类鉴别器MD中,使用4个卷积层来处理编码器提取的红外特征Feair与可见光特征Feavis,卷积核尺寸均为3×3,激活函数均为Leaky Relu;然后,处理后的特征被重塑为一个一维向量,并使用一个线性层来输出一个1×2的预测向量,分别表示输入特征为红外特征的概率Pir,以及输入特征为可见光特征的概率Pvis;
步骤2.3,建立特征融合网络F的损失函数和多分类鉴别器MD的损失函数/>特征融合网络F和多分类鉴别器MD在对抗学习中迭代优化;
步骤2.4,特征融合网络F和多分类鉴别器MD连续地对抗学习,采用Adam优化器来更新参数,在训练好的编码器提取的特征空间中训练生成式对抗网络。
5.如权利要求4所述的基于特征空间多分类对抗机制的红外可见光图像融合方法,其特征在于:对于特征融合网络F,其目的是产生可以骗过多分类鉴别器MD的融合特征Feafused,即让多分类鉴别器MD认为融合特征Feafused既是红外特征Feair又是可见光特征Feavis,因此,特征融合网络F的损失函数的计算公式如下:
其中,MD(·)表示多分类鉴别器MD的函数,其输出是一个1×2的概率向量.MD(Feafused)[1]指的是该向量的第一项,表示鉴别器判定输入特征是红外特征的概率MD(Feafused)[2]指的是该向量的第二项,表示鉴别器判定输入特征是可见光特征的概率Pvis,a是概率标签。
6.如权利要求4所述的基于特征空间多分类对抗机制的红外可见光图像融合方法,其特征在于:多分类鉴别器MD,希望能准确判断输入特征是红外特征、可见光特征还是由特征融合网络F产生的融合特征,鉴别器损失函数包括三部分,分别是判定红外特征的损失判定可见光特征的损失/>以及判定融合特征的损失/>鉴别器损失函数的计算公式如下:
其中α1,α2和α3是平衡这些损失项的参数;
当输入特征为红外特征Feair,鉴别器判定的Pir应趋于1,Pvis应趋于0,对应的损失函数的计算公式如下:
其中,b1和b2是红外特征对应的概率标签;
类似的,当输入特征为可见光特征Feavis,对应的损失函数的计算公式如下:
其中,c1和c2是可见光特征对应的概率标签;
当输入特征为融合特征Feafused,鉴别器输出的Pir和Pvis都应趋于0,对应的损失函数的计算公式如下:
其中,d1和d2是融合特征对应的概率标签。
7.如权利要求1所述的基于特征空间多分类对抗机制的红外可见光图像融合方法,其特征在于:步骤3中将编码器、生成式对抗网络以及译码器级联组成完整的图像融合网络表示如下;
通过训练好的编码器E提取红外图像Iir的红外特征Feair和可见光图像Ivis的可见光特征Feavis,将红外特征Feair和可见光特征Feavis输入训练好的特征融合网络F,特征融合网络F生成的融合特征Feafused经训练好的译码器D译码生成高质量的融合图像Ifused,整个融合过程可以被形式化为:
Ifused=D(F(E(Iir),E(Ivis)))
其中,Iir和Ivis分别表示红外图像和可见光图像;E(·)表示编码器函数,F(·)表示特征融合网络函数,D(·)表示译码器函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916568.8A CN113706406B (zh) | 2021-08-11 | 2021-08-11 | 基于特征空间多分类对抗机制的红外可见光图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916568.8A CN113706406B (zh) | 2021-08-11 | 2021-08-11 | 基于特征空间多分类对抗机制的红外可见光图像融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113706406A CN113706406A (zh) | 2021-11-26 |
CN113706406B true CN113706406B (zh) | 2023-08-04 |
Family
ID=78652182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110916568.8A Active CN113706406B (zh) | 2021-08-11 | 2021-08-11 | 基于特征空间多分类对抗机制的红外可见光图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113706406B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114332592B (zh) * | 2022-03-11 | 2022-06-21 | 中国海洋大学 | 一种基于注意力机制的海洋环境数据融合方法及*** |
CN115035003A (zh) * | 2022-04-11 | 2022-09-09 | 太原科技大学 | 交互补偿注意力的红外与可见光图像对抗融合方法 |
CN115620030B (zh) * | 2022-12-06 | 2023-04-18 | 浙江正泰智维能源服务有限公司 | 一种图像匹配方法、装置、设备、介质 |
CN116503300B (zh) * | 2023-06-25 | 2023-10-03 | 广东电网有限责任公司湛江供电局 | 一种电力设备的图像融合方法、***、设备和介质 |
CN116912649B (zh) * | 2023-09-14 | 2023-11-28 | 武汉大学 | 基于相关注意力引导的红外与可见光图像融合方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145131A (zh) * | 2019-11-28 | 2020-05-12 | 中国矿业大学 | 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN112634137A (zh) * | 2020-12-28 | 2021-04-09 | 西安电子科技大学 | 基于ae提取多尺度空谱特征的高光谱和全色图像融合方法 |
CN113112441A (zh) * | 2021-04-30 | 2021-07-13 | 中北大学 | 基于密集网络和局部亮度遍历算子的多波段低分辨率图像同步融合方法 |
EP3852068A1 (en) * | 2020-01-20 | 2021-07-21 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Method for training generative network, method for generating near-infrared image and apparatuses |
CN113159143A (zh) * | 2021-04-06 | 2021-07-23 | 中国人民解放军国防科技大学 | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 |
-
2021
- 2021-08-11 CN CN202110916568.8A patent/CN113706406B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145131A (zh) * | 2019-11-28 | 2020-05-12 | 中国矿业大学 | 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法 |
EP3852068A1 (en) * | 2020-01-20 | 2021-07-21 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Method for training generative network, method for generating near-infrared image and apparatuses |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN112634137A (zh) * | 2020-12-28 | 2021-04-09 | 西安电子科技大学 | 基于ae提取多尺度空谱特征的高光谱和全色图像融合方法 |
CN113159143A (zh) * | 2021-04-06 | 2021-07-23 | 中国人民解放军国防科技大学 | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 |
CN113112441A (zh) * | 2021-04-30 | 2021-07-13 | 中北大学 | 基于密集网络和局部亮度遍历算子的多波段低分辨率图像同步融合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113706406A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113706406B (zh) | 基于特征空间多分类对抗机制的红外可见光图像融合方法 | |
CN109308696B (zh) | 基于层级特征融合网络的无参考图像质量评价方法 | |
Wang et al. | Domain adaptation for underwater image enhancement | |
CN108830818A (zh) | 一种快速多聚焦图像融合方法 | |
CN112001868A (zh) | 基于生成对抗性网络的红外和可见光图像融合方法及*** | |
CN111047522A (zh) | 一种基于边缘生成的图像修复方法 | |
CN115619743A (zh) | Oled新型显示器件表面缺陷检测模型的构建方法及其应用 | |
CN113343943B (zh) | 基于巩膜区域监督的眼部图像分割方法 | |
CN111696136A (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN111967592A (zh) | 基于分离正负扰动生成对抗图像机器识别的方法 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN113762277B (zh) | 一种基于Cascade-GAN的多波段红外图像融合方法 | |
CN115331079A (zh) | 一种面向多模态遥感图像分类网络的对抗攻击方法 | |
Cui et al. | A novel underwater image restoration method based on decomposition network and physical imaging model | |
CN114639002A (zh) | 一种基于多模式特征的红外与可见光图像融合方法 | |
Wang et al. | Metalantis: A Comprehensive Underwater Image Enhancement Framework | |
CN116137043A (zh) | 一种基于卷积和Transformer的红外图像彩色化方法 | |
CN116844008A (zh) | 一种注意力机制引导的内容感知无参考图像质量评价方法 | |
CN113255704B (zh) | 一种基于局部二值模式的像素差卷积边缘检测方法 | |
CN116402701A (zh) | 一种基于景深信息成雾和Transformer网络的图像去雾方法及*** | |
CN116129417A (zh) | 一种基于低质量图像的数字仪表读数检测方法 | |
CN115546474A (zh) | 一种基于学习者集成策略的少样本语义分割方法 | |
CN115239943A (zh) | 图像矫正模型的训练方法及切片图像的色彩矫正方法 | |
US20220164934A1 (en) | Image processing method and apparatus, device, video processing method and storage medium | |
Wu et al. | N2PN: Non-reference two-pathway network for low-light image enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |