CN113781377A

CN113781377A - 基于对抗性语义引导与感知的红外和可见光图像融合方法

Info

Publication number: CN113781377A
Application number: CN202111292602.5A
Authority: CN
Inventors: 滕之杰; 韩静; 陈霄宇; 李怡然; 冯琳; 张权; 魏驰恒; 张靖远
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2021-12-10

Abstract

本发明涉及基于对抗性语义引导与感知的红外和可见光图像融合方法，包括：1.生成融合网络ASGGAN，2.学习优化，利用分割网络作为判别器，分割网络和融合网络形成生成对抗网络关系，分割网络和融合网络在对抗学习的过程中不断优化，3.获取全局性和局部性的GAN网络loss函数，4.加入分割label，加入分割label作为判别器先验优化融合上的空间选择，5.综合评价。本发明利用分割网络来迁移语义信息到图像融合的过程，增强了融合图像的目标显著性；利用U型判别器，保留图像的全局结构特征和局部纹理，使图像拥有自然观感。

Description

基于对抗性语义引导与感知的红外和可见光图像融合方法

技术领域

本发明涉及基于对抗性语义引导与感知的红外和可见光图像融合方法，属于图像处理技术领域。

背景技术

在图像处理领域的发展中，图像融合始终是贯穿整个图像领域发展的主题。由于在遥感、医疗和自动驾驶领域的广泛应用，而红外和可见光图像融合又一直是图像融合领域中的最主要的问题。由于探测器的原理和性质的差异，可见光和红外这两个谱段的图像也存在着比较明显的差异，两者各有优劣之处。可见光的图像往往蕴含着丰富的纹理细节信息，相较红外图像有着较高的分辨率，然而其图像质量较易受到外界环境的影响，比如在夜间光照不足、雾天能见度低、植被遮挡等等的情况下，可见光图像常常会损失重要的目标信息。相较而言，红外图像是探测器根据物体的温度特性或辐射率进行成像得到的，这种成像机理造就了红外图像在外界环境的影响较为稳定，常常能够获取到可见光图像忽略的信息，而且图像中热辐射特性明显不同的目标相对来说更加显著，让人更容易捕捉到目标。然而红外图像细节信息较为缺失，图像质量也不符合人眼的观感，分辨率也常比可见光图像小。因此将两种性质互补的图像进行图像融合，得到高质量的融合图像是很多实际生活中生产应用的需求。红外和可见光图像融合在实际生活中有着丰富广泛的应用领域，如遥感、军事、视频监控、医疗等领域。

在过去几年中，有大量的图像融合方法被提出。这些图像融合方法大致可以分为两大类别：传统图像融合算法和基于深度学习的图像融合算法。如果具体细分的话，传统方法大致可以分为以下几类：1、多尺度变换的图像融合方法，2、稀疏表示的图像融合方法，3，低秩表示的图像融合方法，4、基于子空间的图像融合方法，5、基于显著性的图像融合方法等等。但传统的算法往往依赖于人的设计，为了获得更好地融合效果，传统算法设计的规则越来越复杂，导致了实际应用的困难和计算时间过大。同时，大量的传统算法忽略图像的语义信息和目标的显著性，导致融合图像出现红外目标模糊且难以辨认的情况。

因此，随着近些年来深度学习和神经网络的兴起，将深度学习技术应用于红外和可见光图像融合的方法也在逐步涌现。而基于深度学习的方法大致可以划分为两类方法：1、基于神经网络进行端到端训练的图像融合方法，2、基于生成对抗网络的图像融合方法。尽管现有的基于深度学习的红外和可见光图像融合方法一定程度上有着较为优异的效果，但是这些方法仍然存在着一定的缺陷：1、由于红外和可见光的图像融合任务是一个无监督的任务，缺少融合图像的标签，因此现有的融合网络往往直截了当地使用主观的loss，只重视全局结构而忽视局部空间信息，融合图像也经常出现噪声。2、现有的图像融合网络忽视了图像中的高级语义信息，往往注重于图像全局的融合，目标与背景混为一谈，对目标的关注缺失，而忽略了目标的显著性，局部融合效果并不好，目标的显著性下降。

在以上提及的方法中，生成对抗网络（GAN）在处理类似这样的无监督的图像融合任务拥有着十分优异的效果。它无需复杂的融合准则，往往利用其对抗性的特点引导生成图像拥有可见光图像的视觉观感，并且利用合理的loss控制红外和可见光的图像成分，从而达到优秀的图像融合的效果。然而目前基于GAN的图像融合网络同样忽略了图像的目标显著性和局部融合效果，忽视了图像高级语义的功能和目标的重要性，造成了目标显著性的下降。

由于近年来深度学习的发展，语义分割的技术取得了长足的进步。基于深度学习的语义分割网络着力于挖掘图像的高级语义特征，同时致力于恢复到原图像的分辨率。易于进行图像分割的图像也代表着图像具有较好的目标显著性。语义分割技术作为经典的像素级任务，能够挖掘图像的语义，在其他的诸多任务中起到了重要的辅助作用，利用语义分割的特性提升了许多基于深度学习的任务的性能指标。包括在图像融合任务上，也有方案提出了语义分割也能够有效地引导图像融合任务。然而这些方法在测试阶段图像融合前还需要获取图像的分割标签，融合时加入分割标签作为先验，测试时耗费了标记分割标签的精力。

发明内容

为了解决上述技术问题，本发明提供一种基于对抗性语义引导与感知的红外和可见光图像融合方法，其具体技术方案如下：

基于对抗性语义引导与感知的红外和可见光图像融合方法，包括以下步骤：

步骤1：生成融合网络ASGGAN，基于结构简单的生成对抗网络，通过判别器和loss函数的的引导，优化生成一个双路判别器可见光和红外图像融合网络ASGGAN；

步骤2：学习优化，利用分割网络作为判别器，分割网络和融合网络形成生成对抗网络关系，分割网络和融合网络在对抗学习的过程中不断优化，以分割预测和分割label的loss为引导来使得融合图像具有目标显著性；

步骤3：获取全局性和局部性的GAN网络loss函数，使用U型的判别器结构，得到全局性和局部性两个GAN网络loss，使得融合网络不仅关注图像的全局信息，也关注图像的局部信息；

步骤4：加入分割label，加入分割label作为判别器先验优化融合上的空间选择；

步骤5：综合评价，通过定性的主观评价和定量的客观评价指标来揭示本文提出的ASGGAN相较其他的红外可见光图像融合方法具有优越的图像融合效果。

进一步的，所述步骤1中融合网络ASGGAN包括生成器和判别器，所述生成器生成图像，所述生成器采取双路Encoder和单路Decoder的全卷积网络结构，所述判别器区分生成器生成的虚假图像和真实图像，所述生成器和判别器持续优化，使得生成器能够生成欺骗判别器的虚假图像，判别器增强区分生成器生成的虚假图像和真实图像的能力。

进一步的，所述判别器包括感知判别器和语义判别器，所述感知判别器拉近可见光和融合图像的分布距离，使得融合图像的可见光观感更自然，所述语义判别器分割融合图像，利用分割网络产生的分割loss助推融合网络进行图像融合，所述感知判别器采用U型判别器，所述感知判别器包括Encoder和Decoder两部分，感知判别器通过Encoder和Decoder进行图像的全局判别和局部判别，所述语义判别器采用RPNet分割网络进行分割loss的计算。

进一步的，所述步骤3中GAN网络发展衍生形成DCGAN和LSGAN，所述DCGAN将原始GAN中的生成器和判别器的多层感知机改为卷积神经网络用于提取特征，所述LSGAN将GAN网络的交叉熵loss换为最小二乘loss，提高图片的生成质量并使得GAN网络的训练更加稳定。

进一步的，所述步骤4中分割label在网络训练中输入到网络结构进行图像融合。

进一步的，所述loss函数包括判别器loss函数、分割网络loss函数和生成器loss函数，所述判别器loss函数用于训练判别器，如公式（1）所示

（1）

式中

表示整体判别器的loss函数，

表示判别器的Encoder输出的全局信息的loss函数，

表示判别器的Decoder输出的局部信息的loss函数；

所述分割网络loss函数如公式（2）所示

（2）

式中

代表I_label在像素值（i，j）处one-hot向量第c个通道处的值，I_label为图像分割标签，

代表输出概率图在像素值（i，j）处第c个通道的输出概率值，N为通道数，W和H为图像的宽和高；

所述生成器loss函数包括感知对抗

、语义对抗

和细节

，所述生成器loss函数如公式（3）所示

（3）

式中

表示生成器总体函数，

和

为超参数，用于平衡三个loss的权重。

进一步的，所述客观评价指标包括AG、EI、SF和EN，所述AG评价指标用于衡量融合图像的清晰度，所述AG评价指标的公式如下

（4）

式中M和N分别代表融合图像的宽和高，

表示融合图像中的像素点位置，式中 AG值越大，融合图像清晰度越好，融合图像质量越好；

所述EI评价指标计算的是融合图像的边缘强度，所述EI评价指标的公式如下

（5）

（6）

式中，

、

为x和y方向上的sobel算子，

、

为sobel算子卷积后的结果，评价指标EI的值越大，融合图像质量越好；

所述SF评价指标计算的是图像灰度的变化率，所述SF评价指标的公式如下

（7）

（8）

（9）

式中RF为行空间频率，CF为列空间频率，SF值越大，融合图像质量越好；

所述EN评价指标计算的是图像中包含的信息量，所述EN评价指标的公式如下

（10）

式中

为灰度直方图的统计概率，EN值越大，即代表图像信息量越多，融合图像质量越好。

本发明的有益效果：

本发明利用分割网络来迁移语义信息到图像融合的过程，增强了融合图像的目标显著性；本发明利用U型判别器，在图像融合地过程中保留图像的全局结构特征和局部纹理，使生成的融合图像拥有自然观感；本发明加入分割标签作为判别器的先验信息，使融合更好地进行对抗学习。

附图说明

图1是本发明的方法流程图，

图2是本发明的ASGGAN网络结构示意图，

图3是本发明的生成器结构示意图，

图4是本发明的感知判别器结构示意图，

图5是本发明的可见光图像与红外图像对比示意图，

图6是图5在使用U型判别器和未使用U型判别器对比图，

图7是图5在使用label判别器和未使用label型判别器对比图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，本发明公开一种基于对抗性语义引导的红外和可见光图像融合方法，提出一种基于对抗性语义引导的红外和可见光图像融合网络ASGGAN（adversarialsemantic guiding GAN）。首先，我们提出的方法基于结构简单的生成对抗网络，无需和传统算法一样进行复杂的融合规则设计，通过判别器和loss的引导，优化生成式的融合网络，获得较好性能的融合网络。第二，本文利用了分割网络作为判别器，和融合网络形成生成对抗的关系，融合网络和分割网络在对抗学习的过程中不断优化，以分割预测和分割label的loss为引导来使得融合图像具有目标显著性。第三、我们使用U型的判别器结构，得到全局性和局部性两个GAN loss，让融合网络不仅关注图像的全局信息，也关注图像的局部信息。同时，我们加入分割label作为判别器先验优化融合上的空间选择。最后本文将通过定性的主观评价和定量的客观评价指标来揭示本文提出的ASGGAN相较其他的红外可见光图像融合方法具有优越的图像融合效果。

首先，生成对抗网络。Goodfellow et al.首次提出了生成对抗网络的概念，其在图像生成领域拥有着深刻而又广泛的应用。GAN网络一般由一对生成器G和判别器D所构成，以图像生成的任务来说，生成器G负责生成图像，在生成器G优化的过程中，以随机噪声z作为输入，生成器G的目的是生成一幅能够欺骗过判别器D的虚假图像G(z)。判别器D的任务是区分生成器G所生成的虚假图像G(z)和真实图像x，在判别器D优化的过程中，判别器D的目的是不断地增强区分真实图像x和虚假图像G(z)的能力。生成器G和判别器D在双方对抗生成的过程中不断优化，生成器G使得生成的虚假的图像也就不断地趋向于真实的图像，即生成图像的数据分布P_z和真实图像的数据分布P_data之间的距离不断地缩小，判别器D则不断地增大二者的区分能力反过来助力于使二者数据分布接近。生成器和判别器二者的对抗构成了一种零和博弈的模型，去完成一个最优化任务，优化的方向即生成器的生成能力变强，判别器的判别能力变强，生成虚假图像的质量接近真实图像的质量。为了使生成图像的质量更加优异，对抗训练的过程更加稳定，GAN网络在发展的过程中衍生出了一系列的变体。DCGAN将原始GAN中生成器和判别器的多层感知机改为卷积神经网络用于提取特征。LSGAN将GAN网络的交叉熵loss换为最小二乘loss，提高了图片的生成质量并使得GAN网络的训练更加稳定。CGAN则为GAN网络增加了附加的条件，使得GAN网络的生成过程变得具有可控性。WGAN则引入了Wasserstein距离，并简单地对原始GAN网络进行了调整，就得到了惊艳的效果，一定程度上解决了modecollapse、训练困难和不稳定的问题，并且生成器的loss能够对训练过程进行指示。BigGAN则通过增大参数量、扩大batchsize的方式使GAN网络获得最大的性能提升，运用了截断技巧（truncation trick）让训练过程更加平稳，同时在训练的平稳度和网络的性能上作出一定的平衡。U-NetGAN则是近几年图像生成效果十分优异的GAN网络，在多个数据集上达到了SOTA。U-Net GAN在BigGAN的基础上，将GAN网络的判别器改为了UNet结构，Encoder对输入图像进行全局性的判别，而Decoder对图像像素进行细节性的判别，从而使得生成图像的质量更高，在纹理细节信息上也更逼真。本文所提出的网络结构的判别器采取了U-Net GAN的想法，将判别器设计为一个简单的U型网络，对全局性的融合效果进行分类判别，同时使得融合图像的纹理细节得到一定程度的提高。

其次，进行语义分割。语义分割是贯穿计算机视觉发展过程中的一个基本的主题。语义分割是指将原始图像经过传统或神经网络的方式进行处理后，对图像进行细粒度的像素点的分类。从全局来看，图像分割识别出图像的内容信息，对图像的内容进行一个分割和定位，同时进行分类的任务。随着深度学习的普及，语义分割的性能有了巨大的飞跃，同时也让语义分割在其他的基于深度学习的任务中发挥了一定的作用。FCN是最早利用深度学习的方法在图像分割领域取得较大突破的网络，FCN将神经网络的全连接层改为卷积层，从而设计了一个全卷积神经网络，能够适应任意尺寸的输入，并在最后使用转置卷积来恢复到原始的图像尺寸，从而实现像素级精细分割结果的预测。UNet是最早用于医疗影像分割的神经网络，后来的语义分割网络或多或少都借鉴了它的网络架构。Olaf et al.提出的UNet网络结构的最大的两个特点是设计了U型的网络架构和使用了跳层连接，UNet的Encoder端每进行一次下采样，Decoder端就进行一次上采样，这种U型结构能够更好的提取图像的高级语义特征，而跳层连接则用于向Decoder端不断地补充浅层的细节信息。SegNet则是为了解决下采样过程损失的细节信息，在最大池化的过程中储存特征图最大值的位置信息，在Decoder端上采样的过程中利用最大池化的位置信息进行恢复图像的信息，提高了分割的指标。PSPNet则设计了池化金字塔模块PPM，融合了不同尺度的金字塔特征，更好地进行场景解析，通过图像的上下文助力于图像的分割。Google提出的Deeplab系列网络，为了解决图像分割过程中常见的提取特征的同时却损失图像的空间分辨率的问题，最早提出了空洞卷积的概念，并将其应用在图像分割的领域。最新的Deeplabv3+，把空间金字塔池化模块(SPPM)和Encoder-Decoder融合成一体，并且充分利用了Xception的深度可分离卷积结构，优化了边缘的细节效果。由于语义分割网络往往参数量较为庞大，而在实际工程应用场景中常常对实时性有着一定的需求，所以许多的大型语义分割网络的应用常常受到一定的限制。因此在此背景下，有不少的满足实时性的语义分割网络被提出，如ENet、ERFNet、ICNet和BiseNet。RPNet则新颖地提出了特征残差金字塔，残差金字塔浅层特征更注重细节纹理，高层更注重语义属性，最后金字塔式地合成完整场景，因此该网络能够帮助提升细节和边缘信息。本发明的语义分割网络使用了实时语义分割的RPNet网络，小参数量的特性有助与ASGGAN进行快速的训练，更容易进行梯度回传以及更快地达到网络的收敛。由于语义分割技术既能够进行对图像语义特征的提取，又能够进行像素级别的分类，因此常常用于辅助其他的基于深度学习的网络，提升其他任务的性能。在图像融合领域，Houetal.也利用语义分割的mask来作为图像融合网络的先验，将图像划分为前景和背景，进行高质量的融合，使融合图像保留更多的信息。本发明公开的ASGGAN也利用了语义分割网络所提取的语义信息，引导图像融合网络生成融合图像。

本发明公开的网络结构，只在训练时利用到label输入到网络结构中进行图像融合，无需在测试时加入分割label，避免了实际使用时需要引入人工标注的额外工作。本发明的ASGGAN网络框架，如图2所示，主要由三个部分所组成：生成器、感知判别器和语义判别器。在训练阶段，我们的生成器将RGB-T四通道图像作为输入，RGB图像I_vis和红外图像I_ir分别经过生成器的两个Encoder，将两个Encoder的输出concat后输入到Decoder，输出的结果为单通道的融合图像I_{f_y}。将该单通道的融合图像作为亮度通道的图像，加入可见光的颜色通道图像转为RGB图像，得到最终的融合图像I_f。感知判别器则只输入可见光图像的亮度通道I_{vis_y}和融合图像I_{f_y}进行判别，目的是为了让融合图像有着更倾向与可见光图像的整体自然观感，感知判别器的loss作用并非主要是为了增强可见光图像的细节，而是为了拉近可见光和融合图像的分布距离，是融合图像拥有更自然的可见光观感。语义判别器在此可以视作另一路判别器，用于将RGB融合图像I_f进行图像分割，得到分割预测图I_pred，然后利用分割网络所产生的分割loss，反过来助推融合网络进行图像融合，使得融合网络更有助于生成能够提升分割网络指标的生成图像，亦即融合图像包含更加显著的语义信息。两者与生成器和判别器类似，建立一对生成对抗的关系。在此做出假设，红外图像相较于可见光图像，包含着更加丰富和显著的目标信息，因此融合图像通过这一组对抗关系将加入红外图像更具有目标显著性的成分，生成易于进行分割的图像，也代表着相较可见光目标显著性的提升。在测试阶段，无需使用感知判别器和语义判别器，将RGB-T的图像作为输入，输入到生成器网络中，得到融合的亮度通道图像，再将可见光的颜色通道和融合的亮度通道图像进行RGB转换得到最终融合图像。由此可见，在测试时避免了在输入端输入分割的label作为先验信息。

生成器结构，如图3所示，生成器的网络结构采取了双路Encoder和单路Decoder的网络结构，该网络是一个全卷积网络。将可见光图像Ivis和红外图像Iir分别输入到双路Encoder中，两路Encoder的网络结构基本相同，每一个卷积层均采用3x3卷积，并且保持特征层尺度不变，在Encoder中卷积的通道数不断变大。为了防止图像的信息损失，整个过程中没有池化层。与此同时，借鉴了DenseNet。在Encoder中的各个路径向后进行密集连接，不断补充前向特征的信息，保证浅层的特征能够在深层卷积中进行重复有效利用，这样可以有效地帮助我们的融合图像保留更多的细节信息。可见光和红外图像两路Encoder输出的特征图，以concat的方式进行特征融合，输入到Decoder结构中。在Decoder过程中，特征图通道数逐步减小，最后用sigmoid激活函数得到通道数为2的概率图来作为融合图像中可见光和红外成分的概率分布，将两个通道对应和可见光亮度通道图像Ivis_y和红外图像Iir进行对应点乘，然后二者相加，最后经过tanh激活函数输出得到最终的融合图像。经过实验确认，这样进行操作可以防止由分割网络的作用导致的目标变黑的现象。在生成器整个架构中，每一层卷积后都使用谱归一化(SN)的操作。为了防止梯度***或梯度消失，并加快网络的收敛速度，加入批归一化(BN)。激活函数采用leakyrelu，相较而言，relu会损失融合过程中特征图的负数的数值，对于融合任务而言一定程度上会丢失信息，而使用leakyrelu可以将信息进行充分保留。

感知判别器的结构如图4所示，判别器的网络结构借鉴了UNet-GAN的结构，采用了条件U型判别器。与以往其他判别器只有Encoder结构不同，构造了Decoder结构，从而搭建了简单的U型判别器结构。判别器包含Encoder和Decoder两个部分，可以进行图像的全局判别和局部判别，让融合图像更倾向于可见光图像的观感。Encoder部分以非配对的方式输入可见光图像的亮度通道Ivis_y或者融合单通道图像If_y。在输入的同时两者concat各自的分割label，作为输入到判别器的辅助条件。加入分割label，判别器可以在分割label的基础上，对融合图像进行更高质量的判断，有助于融合图像图像细节的优化，基于高级语义在融合图像空间上合理地进行判别，对融合图像像素级的融合作出一定的约束。也就是说，给予U型判别器一定的高级语义信息，基于语义信息驱动图像融合，增加融合图像的信息量。输入至Encoder中后，Encoder的全卷积结构不断增大通道数，每进行一次卷积特征图尺寸减半，整个过程中Encoder提取全局特征，最后经过全局池化层和全连接层得到全局的判别结果。全局判别结果是对融合图像的整体观感和可见光进行一次判别，该判别对于融合图像整体图像的特征进行一定的约束，增强融合图像的整体图像观感，使其更具有自然性。在Decoder端，将Encoder的高级特征进行不断地转置卷积的操作，每进行一次转置卷积通道数变小，特征图尺寸变大，该过程和Encoder结构形成对称的关系。并且在每一层不断使用跳层连接补充前向信息，有效地重新利用了Encoder中因为卷积尺寸变小而丢失的信息。当特征图恢复到原图像尺寸之后，经过一次卷积操作对特征图进行整理，得到原图像尺寸的判定。这种决策可以理解为图像空间上像素级的决策，可以对融合图像的局部纹理结构进行决策，在空间上给予生成器一定的反馈。在本文的融合任务中，可以利用这种空间上的决策使得融合图像的局部纹理细节更具有可见光图像的观感，从局部的视角增强融合图像的自然度。判别器的每一层后都进行谱归一化，增加GAN网络训练过程中的稳定性。与生成器相同，每一层均使用Batchnorm以及利用leakyrelu作为激活函数。

语义判别器采取了RPNet分割网络，RPNet分割网络以残差金字塔为基础，具有较小的参数量，推理速度较快，同时拥有不错的分割性能。将融合的单通道图像加上可见光的色彩通道转换成RGB图像输入RPNet分割网络中，最终得到通道数和类别数相同的概率图，进行分割loss的计算。分割网络的作用相当于一个判别器。一方面，分割网络不断增强对融合图像语义特征的挖掘能力。另一方面，语义信息引导生成器融合出具有更好目标显著性的图像。分割loss的约束驱动分割网络学习融合图像的语义，进而引导融合图像在空间上进行合适的融合，实现高质量的图像融合。相较于不少融合网络采用融合图像和红外图像直接进行MSE loss，语义判别器采用利用图像的高级高级特征对融合图像进行解析，以指导图像融合。该方法考虑了融合图像的空间分布，而不是粗糙的全局均方误差损失。

本发明公开的ASGGAN中的loss函数包括判别器loss函数、分割网络loss函数和生成器loss函数，分别用于训练判别器、分割网络和生成器。感知判别器在训练的过程中不断强化区分可见光和融合图像的能力，在此过程中不断给予生成器反馈。当输入可见光的亮度通道图像I_{vis_y}的时候，判别器将判别为真，输入融合图像I_{f_y}时，判别器的判别为假。我们用D^U来表示判别器，判别器由Encoder和Decoder构成，分别表示为D^U _enc和D^U _dec来表示，输出两种loss。判别器的Encoder输出全局信息的

，判别器的Decoder输出局部信息的

。如公式（1）所示，

（1）

公式（1）表示整体判别器的loss函数，令输入的可见光亮度通道图像为I_{vis_y}，输入的融合图像为I_{f_y}，则Encoder的loss函数为：

判别器的Decoder端输出的loss为：

式中

和

均表示判别器在像素点（i，j）上的决策，具体的loss沿用了U-Net GAN中的hingeloss。判别器的两个loss函数分别代表全局和局部的决策距离。因此在判别器不断强化的过程中，判别器不仅能够进行全局的决策，也能够进行局部的决策。RPNet分割网络结构，为了简单直接，未采用RPNet中的辅助loss。在输入 RPNet融合图像I_f后，由RPNet得到输出的分割结果I_pred，将该结果和I_label进行分割网络常见的交叉熵loss进行计算，ASG模块loss函数公式如下：

（2）

其中

代表I_label在像素值（i，j）处one-hot向量第c个通道处的值，

代表输出概率图在像素值（i，j）处第c个通道的输出概率值，N为通道数，W和H为图像的宽和高。生成器的loss函数主要由三部分组成：感知对抗

，语义对抗

和细节

。感知对抗loss

用于引导融合图像在判别中识别为真，引导融合图像整体和局部细节上更趋向于可见光的观感。语义对抗

引导融合图像易于进行图像分割，由于红外图像包含更加丰富的语义信息，因此语义对抗

相当于同时将红外图像中目标显著信息加入融合图像之中，提高融合图像的目标显著性。细节

用于增强融合图像的可见光细节信息。计算对抗loss时，判别器参数固定，训练生成器的参数。此时生成器的目的是要训练出能够骗过判别器的融合图像，即目的是让判别器的判别为真。此时感知对抗

的计算如下：

对抗loss通过训练生成器，逐步拉近融合图像与可见光的距离，让融合图像更加具有可见光的图像的观感。同时Encoder和Decoder两部分loss的输出，让融合图像从全局和局部两个方面进行和可见光图像的约束。同样的，在训练中沿用U-Net GAN所使用的 Hingeloss。计算语义对抗

时，分割网络的参数固定，训练生成器的参数。此时生成器在训练的过程中不断调整，逐步输出能够获得较高分割指标的融合图像，图像的目标显著性将更加明显，语义信息将更易于在融合图像中显现，红外图像的有效信息也在融合图像中逐步增加。生成器中分割

的公式同样为交叉熵公式，公式与训练语义判别器时的loss公式一致。FusionGAN全局性的contentloss进行和红外像素值的均方差，会导致整体融合图像由于红外成分过多而模糊。相较于这种方式，使用对抗性的分割

来区域性地加入红外成分，使融合图像的目标更加显著。细节

是计算融合图像和可见光图像梯度之间的距离，我们计算两者的梯度并求出二者梯度之差的L2范数的均值，公式如下：

代表求图像梯度的操作，（i,j）代表像素点的位置，W和H代表图像的宽高。细节

用于拉近融合图像的梯度趋向于可见光的梯度，使得融合图像拥有更加丰富的细节信息。将以上三个loss进行组合，则得到生成器总体的loss函数，公式如下所示：

其中

和

为超参数，用于平衡三个loss的权重。

采用MFNet语义分割数据集，该数据集是为了进行可见光和红外图像语义分割而制作的，场景为车载场景。该数据集包含1569组RGB-T图像对，其中白天820组，夜间749组。拿夜间的RGB-T数据集进行训练，其中训练集有374张RGB-T图像对，验证集有187张，测试集有188张。图像的尺寸均为640*480的大小。虽然该数据集一直用作语义分割数据集，但是该数据集的RGB-T的图像对大部分是对齐的，因此可以用于进行图像融合。夜间场景也较为丰富，场景中常常出现灯光昏暗、炫光等驾驶中常见的场景。每个RGB-T图像对均有对应的label，最初的用于语义分割数据集除了未标记的类别，包含八个类别，在这里仅使用汽车、人和自行车这三个在驾驶中常见的三个类别作为分割label，其中人这一类别在红外特性中较为明显。在训练阶段，将图像进行数据增广。采用随即裁剪，随机裁剪的像素尺寸为400*400大小，同时进行随机平移、水平翻转的数据增广操作。在网络loss超参数的设定中，分割的loss超参数设定为10000，梯度loss超参数设定为100。训练阶段的batchsize=s，首先会训练M次判别器，再训练N次分割网络，最后训练一次生成器。本发明所使用的优化器为Adam优化器，训练的总共epoch的数目为K。经过实验，设定实验的参数设置为s=4，M=2，N=2，K=300，训练集数目NUM=374。在测试阶段，本发明将抛弃两个判别器，只保留生成器，去除掉随即裁剪等数据增广方式，以原尺寸输入RGB-T的测试图片，获得融合结果。训练和测试时使用的显卡为NVIDIA TITAN RTX，使用的内存为32GB。

本发明采用AG（Average gradient）、EI（Edgeintensity）、SF（Spatialfrequency）和EN（Entropy），这几类指标分别基于图像特征和基于信息学理论来定量地评价我们的图像质量，能够全方位地评价图像融合质量。因为融合图像是基于显著性描述的，所以在分割label的掩膜下，来和其他的方法比较图像质量。AG评价指标用于衡量融合图像的清晰度，AG评价指标的公式如下

（4）

式中M和N分别代表融合图像的宽和高，

表示融合图像中的像素点位置，式中 AG值越大，融合图像清晰度越好，融合图像质量越好。EI评价指标计算的是融合图像的边缘强度，EI评价指标的公式如下

（5）

（6）

式中，

、

为x和y方向上的sobel算子，

、

为sobel算子卷积后的结果，评价指标EI的值越大，融合图像质量越好。SF评价指标计算的是图像灰度的变化率，SF评价指标的公式如下

（7）

（8）

（9）

式中SF值越大，融合图像质量越好。EN评价指标计算的是图像中包含的信息量，EN评价指标的公式如下

（10）

式中

为灰度直方图的统计概率，EN值越大，即代表图像信息量越多，融合图像质量越好。由于图像融合任务拥有较多的评价指标，实际中各种方法进行比较时难以进行统一，而且往往会出现客观定量的评价指标较高的时候，图像质量的观感实际并不算好，所以在这里，定性地进行融合图像的主观评价，比较融合图像和其他融合方法的优劣。本发明通过采用实际的图片对比证明红外辐射特性明显的人群在本发明的融合方法中会更具有显著性；本发明的融合图像相较于其他的图像融合方法，人的信息更为显著。

消融实验。为了让融合图像的细节观感更强，本发明设计了U型判别器，让总体图像从全局的角度和从局部的角度对融合图像进行判别，增强图像的局部细节和观感。为了证明本发明的方法的有效性，在原有网络整体框架不变的情况下，仅仅去除U型判别器的 Decoder端进行实验和对比。从图5和图6可以看出在，使用U型判别器的情况下，融合图像具有更加丰富的可见光细节信息。比如广告牌和灯光的可见光信息，U型的判别器的条件下细节更丰富。这表明我们的U型判别器一定程度上增强了融合图像的可见光细节，增强了图像的可见光观感。实际上红外和可见光的信息是一对相对对抗的信息，然而实际上，无 Decoder的判别器的情况下，红外的细节信息同样没有使用U型判别器的融合图像更多。条件判别器实验。在判别器的输入端同时输入分割label作为判别器的先验，使得判别器在空间上能够获取一定的目标先验信息，让网络在区域上有选择性地进行融合规则的选择，具有一定的高级语义和空间感知能力。实验来对比，如图7所示。显然，从图片中可以看出，加入label作为判别器先验后，地面上的线条对比度有了明显的提升，细节信息更丰富，这也意味着加入分割label作为先验信息优化了融合网络的空间分布和观感，让图像的对比度得到了增强，细节感达到了提升，图片中加入的信息也就更多。语义判别器实验。本发明通过分割网络区域性的引入局部红外信息，为了显示语义判别器所起到的作用，本发明调整生成器的分割loss的超参数

来显示语义判别器对融合图像的影响。调整了分割网络loss 的超参数

，分别设定为1000、5000、10000、20000，显然，当超参数

较小时，融合图像的可见光细节明显更多，但是红外热特性明显的目标却并不太显著，也就代表着红外信息成分加入较少。随着

的逐步增大，分割网络的语义引导图像的融合，随之带来的是包含显著语义信息的红外图像的成分更多的加入到融合图像之中。当

更大之后，可见光的细节就会存在着一定的损失，红外的成分将会更多。因此，需要合理的调整超参数

。本发明选择了

=10000，以达到可见光的细节信息和红外的显著信息的一个平衡。

本发明提出了一种新颖的红外和可见光图像融合方法ASGGAN，本发明所提出的方法基于生成对抗网络，关键的特征在于利用分割网络作为一路判别器，利用语义引导生成器图像融合进行空间上有选择的图像融合，使得融合图像的目标具有极好的显著性。利用U型判别器来进行全局和局部细节的判别，让图像从整体性和局部细节上拥有更好的可见光观感。同时，利用分割label作为先验让判别器高级语义和空间感知能力。在MFNet数据集上进行实验，证明了本发明的方法与当前流行的方法相比，从客观上和主观上都具有更好的图像融合性能。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.基于对抗性语义引导与感知的红外和可见光图像融合方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于对抗性语义引导与感知的红外和可见光图像融合方法，其特征在于：所述步骤1中融合网络ASGGAN包括生成器和判别器，所述生成器生成图像，所述生成器采取双路Encoder和单路Decoder的全卷积网络结构，所述判别器区分生成器生成的虚假图像和真实图像，所述生成器和判别器持续优化，使得生成器能够生成欺骗判别器的虚假图像，判别器增强区分生成器生成的虚假图像和真实图像的能力。

3.根据权利要求1所述的基于对抗性语义引导与感知的红外和可见光图像融合方法，其特征在于：所述判别器包括感知判别器和语义判别器，所述感知判别器拉近可见光和融合图像的分布距离，使得融合图像的可见光观感更自然，所述语义判别器分割融合图像，利用分割网络产生的分割loss助推融合网络进行图像融合，所述感知判别器采用U型判别器，所述感知判别器包括Encoder和Decoder两部分，感知判别器通过Encoder和Decoder进行图像的全局判别和局部判别，所述语义判别器采用RPNet分割网络进行分割loss的计算。

4.根据权利要求1所述的基于对抗性语义引导与感知的红外和可见光图像融合方法，其特征在于：所述步骤3中GAN网络发展衍生形成DCGAN和LSGAN，所述DCGAN将原始GAN中的生成器和判别器的多层感知机改为卷积神经网络用于提取特征，所述LSGAN将GAN网络的交叉熵loss换为最小二乘loss，提高图片的生成质量并使得GAN网络的训练更加稳定。

5.根据权利要求1所述的基于对抗性语义引导与感知的红外和可见光图像融合方法，其特征在于：所述步骤4中分割label在网络训练中输入到网络结构进行图像融合。

6.根据权利要求1所述的基于对抗性语义引导与感知的红外和可见光图像融合方法，其特征在于：所述loss函数包括判别器loss函数、分割网络loss函数和生成器loss函数，所述判别器loss函数用于训练判别器，如公式（1）所示