CN113781377A - 基于对抗性语义引导与感知的红外和可见光图像融合方法 - Google Patents

基于对抗性语义引导与感知的红外和可见光图像融合方法 Download PDF

Info

Publication number
CN113781377A
CN113781377A CN202111292602.5A CN202111292602A CN113781377A CN 113781377 A CN113781377 A CN 113781377A CN 202111292602 A CN202111292602 A CN 202111292602A CN 113781377 A CN113781377 A CN 113781377A
Authority
CN
China
Prior art keywords
image
discriminator
network
fusion
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111292602.5A
Other languages
English (en)
Inventor
滕之杰
韩静
陈霄宇
李怡然
冯琳
张权
魏驰恒
张靖远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111292602.5A priority Critical patent/CN113781377A/zh
Publication of CN113781377A publication Critical patent/CN113781377A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于对抗性语义引导与感知的红外和可见光图像融合方法,包括:1.生成融合网络ASGGAN,2.学习优化,利用分割网络作为判别器,分割网络和融合网络形成生成对抗网络关系,分割网络和融合网络在对抗学习的过程中不断优化,3.获取全局性和局部性的GAN网络loss函数,4.加入分割label,加入分割label作为判别器先验优化融合上的空间选择,5.综合评价。本发明利用分割网络来迁移语义信息到图像融合的过程,增强了融合图像的目标显著性;利用U型判别器,保留图像的全局结构特征和局部纹理,使图像拥有自然观感。

Description

基于对抗性语义引导与感知的红外和可见光图像融合方法
技术领域
本发明涉及基于对抗性语义引导与感知的红外和可见光图像融合方法,属于图像处理技术领域。
背景技术
在图像处理领域的发展中,图像融合始终是贯穿整个图像领域发展的主题。由于在遥感、医疗和自动驾驶领域的广泛应用,而红外和可见光图像融合又一直是图像融合领域中的最主要的问题。由于探测器的原理和性质的差异,可见光和红外这两个谱段的图像也存在着比较明显的差异,两者各有优劣之处。可见光的图像往往蕴含着丰富的纹理细节信息,相较红外图像有着较高的分辨率,然而其图像质量较易受到外界环境的影响,比如在夜间光照不足、雾天能见度低、植被遮挡等等的情况下,可见光图像常常会损失重要的目标信息。相较而言,红外图像是探测器根据物体的温度特性或辐射率进行成像得到的,这种成像机理造就了红外图像在外界环境的影响较为稳定,常常能够获取到可见光图像忽略的信息,而且图像中热辐射特性明显不同的目标相对来说更加显著,让人更容易捕捉到目标。然而红外图像细节信息较为缺失,图像质量也不符合人眼的观感,分辨率也常比可见光图像小。因此将两种性质互补的图像进行图像融合,得到高质量的融合图像是很多实际生活中生产应用的需求。红外和可见光图像融合在实际生活中有着丰富广泛的应用领域,如遥感、军事、视频监控、医疗等领域。
在过去几年中,有大量的图像融合方法被提出。这些图像融合方法大致可以分为两大类别:传统图像融合算法和基于深度学习的图像融合算法。如果具体细分的话,传统方法大致可以分为以下几类:1、多尺度变换的图像融合方法,2、稀疏表示的图像融合方法,3,低秩表示的图像融合方法,4、基于子空间的图像融合方法,5、基于显著性的图像融合方法等等。但传统的算法往往依赖于人的设计,为了获得更好地融合效果,传统算法设计的规则越来越复杂,导致了实际应用的困难和计算时间过大。同时,大量的传统算法忽略图像的语义信息和目标的显著性,导致融合图像出现红外目标模糊且难以辨认的情况。
因此,随着近些年来深度学习和神经网络的兴起,将深度学习技术应用于红外和可见光图像融合的方法也在逐步涌现。而基于深度学习的方法大致可以划分为两类方法:1、基于神经网络进行端到端训练的图像融合方法,2、基于生成对抗网络的图像融合方法。尽管现有的基于深度学习的红外和可见光图像融合方法一定程度上有着较为优异的效果,但是这些方法仍然存在着一定的缺陷:1、由于红外和可见光的图像融合任务是一个无监督的任务,缺少融合图像的标签,因此现有的融合网络往往直截了当地使用主观的loss,只重视全局结构而忽视局部空间信息,融合图像也经常出现噪声。2、现有的图像融合网络忽视了图像中的高级语义信息,往往注重于图像全局的融合,目标与背景混为一谈,对目标的关注缺失,而忽略了目标的显著性,局部融合效果并不好,目标的显著性下降。
在以上提及的方法中,生成对抗网络(GAN)在处理类似这样的无监督的图像融合任务拥有着十分优异的效果。它无需复杂的融合准则,往往利用其对抗性的特点引导生成图像拥有可见光图像的视觉观感,并且利用合理的loss控制红外和可见光的图像成分,从而达到优秀的图像融合的效果。然而目前基于GAN的图像融合网络同样忽略了图像的目标显著性和局部融合效果,忽视了图像高级语义的功能和目标的重要性,造成了目标显著性的下降。
由于近年来深度学习的发展,语义分割的技术取得了长足的进步。基于深度学习的语义分割网络着力于挖掘图像的高级语义特征,同时致力于恢复到原图像的分辨率。易于进行图像分割的图像也代表着图像具有较好的目标显著性。语义分割技术作为经典的像素级任务,能够挖掘图像的语义,在其他的诸多任务中起到了重要的辅助作用,利用语义分割的特性提升了许多基于深度学习的任务的性能指标。包括在图像融合任务上,也有方案提出了语义分割也能够有效地引导图像融合任务。然而这些方法在测试阶段图像融合前还需要获取图像的分割标签,融合时加入分割标签作为先验,测试时耗费了标记分割标签的精力。
发明内容
为了解决上述技术问题,本发明提供一种基于对抗性语义引导与感知的红外和可见光图像融合方法,其具体技术方案如下:
基于对抗性语义引导与感知的红外和可见光图像融合方法,包括以下步骤:
步骤1:生成融合网络ASGGAN,基于结构简单的生成对抗网络,通过判别器和loss函数的的引导,优化生成一个双路判别器可见光和红外图像融合网络ASGGAN;
步骤2:学习优化,利用分割网络作为判别器,分割网络和融合网络形成生成对抗网络关系,分割网络和融合网络在对抗学习的过程中不断优化,以分割预测和分割label的loss为引导来使得融合图像具有目标显著性;
步骤3:获取全局性和局部性的GAN网络loss函数,使用U型的判别器结构,得到全局性和局部性两个GAN网络loss,使得融合网络不仅关注图像的全局信息,也关注图像的局部信息;
步骤4:加入分割label,加入分割label作为判别器先验优化融合上的空间选择;
步骤5:综合评价,通过定性的主观评价和定量的客观评价指标来揭示本文提出的ASGGAN相较其他的红外可见光图像融合方法具有优越的图像融合效果。
进一步的,所述步骤1中融合网络ASGGAN包括生成器和判别器,所述生成器生成图像,所述生成器采取双路Encoder和单路Decoder的全卷积网络结构,所述判别器区分生成器生成的虚假图像和真实图像,所述生成器和判别器持续优化,使得生成器能够生成欺骗判别器的虚假图像,判别器增强区分生成器生成的虚假图像和真实图像的能力。
进一步的,所述判别器包括感知判别器和语义判别器,所述感知判别器拉近可见光和融合图像的分布距离,使得融合图像的可见光观感更自然,所述语义判别器分割融合图像,利用分割网络产生的分割loss助推融合网络进行图像融合,所述感知判别器采用U型判别器,所述感知判别器包括Encoder和Decoder两部分,感知判别器通过Encoder和Decoder进行图像的全局判别和局部判别,所述语义判别器采用RPNet分割网络进行分割loss的计算。
进一步的,所述步骤3中GAN网络发展衍生形成DCGAN和LSGAN,所述DCGAN将原始GAN中的生成器和判别器的多层感知机改为卷积神经网络用于提取特征,所述LSGAN将GAN网络的交叉熵loss换为最小二乘loss,提高图片的生成质量并使得GAN网络的训练更加稳定。
进一步的,所述步骤4中分割label在网络训练中输入到网络结构进行图像融合。
进一步的,所述loss函数包括判别器loss函数、分割网络loss函数和生成器loss函数,所述判别器loss函数用于训练判别器,如公式(1)所示
Figure 807205DEST_PATH_IMAGE001
(1)
式中
Figure 790204DEST_PATH_IMAGE002
表示整体判别器的loss函数,
Figure 841206DEST_PATH_IMAGE003
表示判别器的Encoder输出的全局信 息的loss函数,
Figure 655578DEST_PATH_IMAGE004
表示判别器的Decoder输出的局部信息的loss函数;
所述分割网络loss函数如公式(2)所示
Figure 946882DEST_PATH_IMAGE005
(2)
式中
Figure 601199DEST_PATH_IMAGE006
代表Ilabel在像素值(i,j)处one-hot向量第c个通道处的值,Ilabel为图 像分割标签,
Figure 65678DEST_PATH_IMAGE007
代表输出概率图在像素值(i,j)处第c个通道的输出概率值,N为通道 数,W和H为图像的宽和高;
所述生成器loss函数包括感知对抗
Figure 141082DEST_PATH_IMAGE008
、语义对抗
Figure 931183DEST_PATH_IMAGE009
和细节
Figure 872463DEST_PATH_IMAGE010
,所述生成器loss函数如公式(3)所示
Figure 281579DEST_PATH_IMAGE011
(3)
式中
Figure 70543DEST_PATH_IMAGE012
表示生成器总体函数,
Figure 890601DEST_PATH_IMAGE013
Figure 335488DEST_PATH_IMAGE014
为超参数,用于平衡三个loss的权重。
进一步的,所述客观评价指标包括AG、EI、SF和EN,所述AG评价指标用于衡量融合图像的清晰度,所述AG评价指标的公式如下
Figure 407350DEST_PATH_IMAGE015
(4)
式中M和N分别代表融合图像的宽和高,
Figure 441034DEST_PATH_IMAGE016
表示融合图像中的像素点位置,式中 AG值越大,融合图像清晰度越好,融合图像质量越好;
所述EI评价指标计算的是融合图像的边缘强度,所述EI评价指标的公式如下
Figure 307358DEST_PATH_IMAGE017
(5)
Figure 177225DEST_PATH_IMAGE018
(6)
式中,
Figure 52778DEST_PATH_IMAGE019
Figure 6215DEST_PATH_IMAGE020
为x和y方向上的sobel算子,
Figure 918807DEST_PATH_IMAGE021
Figure 666183DEST_PATH_IMAGE022
为sobel算子卷积后的结果,评价 指标EI的值越大,融合图像质量越好;
所述SF评价指标计算的是图像灰度的变化率,所述SF评价指标的公式如下
Figure 938901DEST_PATH_IMAGE023
(7)
Figure 822544DEST_PATH_IMAGE024
(8)
Figure 906037DEST_PATH_IMAGE025
(9)
式中RF为行空间频率,CF为列空间频率,SF值越大,融合图像质量越好;
所述EN评价指标计算的是图像中包含的信息量,所述EN评价指标的公式如下
Figure 875130DEST_PATH_IMAGE026
(10)
式中
Figure 13857DEST_PATH_IMAGE027
为灰度直方图的统计概率,EN值越大,即代表图像信息量越多,融合图像 质量越好。
本发明的有益效果:
本发明利用分割网络来迁移语义信息到图像融合的过程,增强了融合图像的目标显著性;本发明利用U型判别器,在图像融合地过程中保留图像的全局结构特征和局部纹理,使生成的融合图像拥有自然观感;本发明加入分割标签作为判别器的先验信息,使融合更好地进行对抗学习。
附图说明
图1是本发明的方法流程图,
图2是本发明的ASGGAN网络结构示意图,
图3是本发明的生成器结构示意图,
图4是本发明的感知判别器结构示意图,
图5是本发明的可见光图像与红外图像对比示意图,
图6是图5在使用U型判别器和未使用U型判别器对比图,
图7是图5在使用label判别器和未使用label型判别器对比图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示,本发明公开一种基于对抗性语义引导的红外和可见光图像融合方法,提出一种基于对抗性语义引导的红外和可见光图像融合网络ASGGAN(adversarialsemantic guiding GAN)。首先,我们提出的方法基于结构简单的生成对抗网络,无需和传统算法一样进行复杂的融合规则设计,通过判别器和loss的引导,优化生成式的融合网络,获得较好性能的融合网络。第二,本文利用了分割网络作为判别器,和融合网络形成生成对抗的关系,融合网络和分割网络在对抗学习的过程中不断优化,以分割预测和分割label的loss为引导来使得融合图像具有目标显著性。第三、我们使用U型的判别器结构,得到全局性和局部性两个GAN loss,让融合网络不仅关注图像的全局信息,也关注图像的局部信息。同时,我们加入分割label作为判别器先验优化融合上的空间选择。最后本文将通过定性的主观评价和定量的客观评价指标来揭示本文提出的ASGGAN相较其他的红外可见光图像融合方法具有优越的图像融合效果。
首先,生成对抗网络。Goodfellow et al.首次提出了生成对抗网络的概念,其在图像生成领域拥有着深刻而又广泛的应用。GAN网络一般由一对生成器G和判别器D所构成,以图像生成的任务来说,生成器G负责生成图像,在生成器G优化的过程中,以随机噪声z作为输入,生成器G的目的是生成一幅能够欺骗过判别器D的虚假图像G(z)。判别器D的任务是区分生成器G所生成的虚假图像G(z)和真实图像x,在判别器D优化的过程中,判别器D的目的是不断地增强区分真实图像x和虚假图像G(z)的能力。生成器G和判别器D在双方对抗生成的过程中不断优化,生成器G使得生成的虚假的图像也就不断地趋向于真实的图像,即生成图像的数据分布Pz和真实图像的数据分布Pdata之间的距离不断地缩小,判别器D则不断地增大二者的区分能力反过来助力于使二者数据分布接近。生成器和判别器二者的对抗构成了一种零和博弈的模型,去完成一个最优化任务,优化的方向即生成器的生成能力变强,判别器的判别能力变强,生成虚假图像的质量接近真实图像的质量。为了使生成图像的质量更加优异,对抗训练的过程更加稳定,GAN网络在发展的过程中衍生出了一系列的变体。DCGAN将原始GAN中生成器和判别器的多层感知机改为卷积神经网络用于提取特征。LSGAN将GAN网络的交叉熵loss换为最小二乘loss,提高了图片的生成质量并使得GAN网络的训练更加稳定。CGAN则为GAN网络增加了附加的条件,使得GAN网络的生成过程变得具有可控性。WGAN则引入了Wasserstein距离,并简单地对原始GAN网络进行了调整,就得到了惊艳的效果,一定程度上解决了modecollapse、训练困难和不稳定的问题,并且生成器的loss能够对训练过程进行指示。BigGAN则通过增大参数量、扩大batchsize的方式使GAN网络获得最大的性能提升,运用了截断技巧(truncation trick)让训练过程更加平稳,同时在训练的平稳度和网络的性能上作出一定的平衡。U-NetGAN则是近几年图像生成效果十分优异的GAN网络,在多个数据集上达到了SOTA。U-Net GAN在BigGAN的基础上,将GAN网络的判别器改为了UNet结构,Encoder对输入图像进行全局性的判别,而Decoder对图像像素进行细节性的判别,从而使得生成图像的质量更高,在纹理细节信息上也更逼真。本文所提出的网络结构的判别器采取了U-Net GAN的想法,将判别器设计为一个简单的U型网络,对全局性的融合效果进行分类判别,同时使得融合图像的纹理细节得到一定程度的提高。
其次,进行语义分割。语义分割是贯穿计算机视觉发展过程中的一个基本的主题。语义分割是指将原始图像经过传统或神经网络的方式进行处理后,对图像进行细粒度的像素点的分类。从全局来看,图像分割识别出图像的内容信息,对图像的内容进行一个分割和定位,同时进行分类的任务。随着深度学习的普及,语义分割的性能有了巨大的飞跃,同时也让语义分割在其他的基于深度学习的任务中发挥了一定的作用。FCN是最早利用深度学习的方法在图像分割领域取得较大突破的网络,FCN将神经网络的全连接层改为卷积层,从而设计了一个全卷积神经网络,能够适应任意尺寸的输入,并在最后使用转置卷积来恢复到原始的图像尺寸,从而实现像素级精细分割结果的预测。UNet是最早用于医疗影像分割的神经网络,后来的语义分割网络或多或少都借鉴了它的网络架构。Olaf et al.提出的UNet网络结构的最大的两个特点是设计了U型的网络架构和使用了跳层连接,UNet的Encoder端每进行一次下采样,Decoder端就进行一次上采样,这种U型结构能够更好的提取图像的高级语义特征,而跳层连接则用于向Decoder端不断地补充浅层的细节信息。SegNet则是为了解决下采样过程损失的细节信息,在最大池化的过程中储存特征图最大值的位置信息,在Decoder端上采样的过程中利用最大池化的位置信息进行恢复图像的信息,提高了分割的指标。PSPNet则设计了池化金字塔模块PPM,融合了不同尺度的金字塔特征,更好地进行场景解析,通过图像的上下文助力于图像的分割。Google提出的Deeplab系列网络,为了解决图像分割过程中常见的提取特征的同时却损失图像的空间分辨率的问题,最早提出了空洞卷积的概念,并将其应用在图像分割的领域。最新的Deeplabv3+,把空间金字塔池化模块(SPPM)和Encoder-Decoder融合成一体,并且充分利用了Xception的深度可分离卷积结构,优化了边缘的细节效果。由于语义分割网络往往参数量较为庞大,而在实际工程应用场景中常常对实时性有着一定的需求,所以许多的大型语义分割网络的应用常常受到一定的限制。因此在此背景下,有不少的满足实时性的语义分割网络被提出,如ENet、ERFNet、ICNet和BiseNet。RPNet则新颖地提出了特征残差金字塔,残差金字塔浅层特征更注重细节纹理,高层更注重语义属性,最后金字塔式地合成完整场景,因此该网络能够帮助提升细节和边缘信息。本发明的语义分割网络使用了实时语义分割的RPNet网络,小参数量的特性有助与ASGGAN进行快速的训练,更容易进行梯度回传以及更快地达到网络的收敛。由于语义分割技术既能够进行对图像语义特征的提取,又能够进行像素级别的分类,因此常常用于辅助其他的基于深度学习的网络,提升其他任务的性能。在图像融合领域,Houetal.也利用语义分割的mask来作为图像融合网络的先验,将图像划分为前景和背景,进行高质量的融合,使融合图像保留更多的信息。本发明公开的ASGGAN也利用了语义分割网络所提取的语义信息,引导图像融合网络生成融合图像。
本发明公开的网络结构,只在训练时利用到label输入到网络结构中进行图像融合,无需在测试时加入分割label,避免了实际使用时需要引入人工标注的额外工作。本发明的ASGGAN网络框架,如图2所示,主要由三个部分所组成:生成器、感知判别器和语义判别器。在训练阶段,我们的生成器将RGB-T四通道图像作为输入,RGB图像Ivis和红外图像Iir分别经过生成器的两个Encoder,将两个Encoder的输出concat后输入到Decoder,输出的结果为单通道的融合图像If_y。将该单通道的融合图像作为亮度通道的图像,加入可见光的颜色通道图像转为RGB图像,得到最终的融合图像If。感知判别器则只输入可见光图像的亮度通道Ivis_y和融合图像If_y进行判别,目的是为了让融合图像有着更倾向与可见光图像的整体自然观感,感知判别器的loss作用并非主要是为了增强可见光图像的细节,而是为了拉近可见光和融合图像的分布距离,是融合图像拥有更自然的可见光观感。语义判别器在此可以视作另一路判别器,用于将RGB融合图像If进行图像分割,得到分割预测图Ipred,然后利用分割网络所产生的分割loss,反过来助推融合网络进行图像融合,使得融合网络更有助于生成能够提升分割网络指标的生成图像,亦即融合图像包含更加显著的语义信息。两者与生成器和判别器类似,建立一对生成对抗的关系。在此做出假设,红外图像相较于可见光图像,包含着更加丰富和显著的目标信息,因此融合图像通过这一组对抗关系将加入红外图像更具有目标显著性的成分,生成易于进行分割的图像,也代表着相较可见光目标显著性的提升。在测试阶段,无需使用感知判别器和语义判别器,将RGB-T的图像作为输入,输入到生成器网络中,得到融合的亮度通道图像,再将可见光的颜色通道和融合的亮度通道图像进行RGB转换得到最终融合图像。由此可见,在测试时避免了在输入端输入分割的label作为先验信息。
生成器结构,如图3所示,生成器的网络结构采取了双路Encoder和单路Decoder的网络结构,该网络是一个全卷积网络。将可见光图像Ivis和红外图像Iir分别输入到双路Encoder中,两路Encoder的网络结构基本相同,每一个卷积层均采用3x3卷积,并且保持特征层尺度不变,在Encoder中卷积的通道数不断变大。为了防止图像的信息损失,整个过程中没有池化层。与此同时,借鉴了DenseNet。在Encoder中的各个路径向后进行密集连接,不断补充前向特征的信息,保证浅层的特征能够在深层卷积中进行重复有效利用,这样可以有效地帮助我们的融合图像保留更多的细节信息。可见光和红外图像两路Encoder输出的特征图,以concat的方式进行特征融合,输入到Decoder结构中。在Decoder过程中,特征图通道数逐步减小,最后用sigmoid激活函数得到通道数为2的概率图来作为融合图像中可见光和红外成分的概率分布,将两个通道对应和可见光亮度通道图像Ivis_y和红外图像Iir进行对应点乘,然后二者相加,最后经过tanh激活函数输出得到最终的融合图像。经过实验确认,这样进行操作可以防止由分割网络的作用导致的目标变黑的现象。在生成器整个架构中,每一层卷积后都使用谱归一化(SN)的操作。为了防止梯度***或梯度消失,并加快网络的收敛速度,加入批归一化(BN)。激活函数采用leakyrelu,相较而言,relu会损失融合过程中特征图的负数的数值,对于融合任务而言一定程度上会丢失信息,而使用leakyrelu可以将信息进行充分保留。
感知判别器的结构如图4所示,判别器的网络结构借鉴了UNet-GAN的结构,采用了条件U型判别器。与以往其他判别器只有Encoder结构不同,构造了Decoder结构,从而搭建了简单的U型判别器结构。判别器包含Encoder和Decoder两个部分,可以进行图像的全局判别和局部判别,让融合图像更倾向于可见光图像的观感。Encoder部分以非配对的方式输入可见光图像的亮度通道Ivis_y或者融合单通道图像If_y。在输入的同时两者concat各自的分割label,作为输入到判别器的辅助条件。加入分割label,判别器可以在分割label的基础上,对融合图像进行更高质量的判断,有助于融合图像图像细节的优化,基于高级语义在融合图像空间上合理地进行判别,对融合图像像素级的融合作出一定的约束。也就是说,给予U型判别器一定的高级语义信息,基于语义信息驱动图像融合,增加融合图像的信息量。输入至Encoder中后,Encoder的全卷积结构不断增大通道数,每进行一次卷积特征图尺寸减半,整个过程中Encoder提取全局特征,最后经过全局池化层和全连接层得到全局的判别结果。全局判别结果是对融合图像的整体观感和可见光进行一次判别,该判别对于融合图像整体图像的特征进行一定的约束,增强融合图像的整体图像观感,使其更具有自然性。在Decoder端,将Encoder的高级特征进行不断地转置卷积的操作,每进行一次转置卷积通道数变小,特征图尺寸变大,该过程和Encoder结构形成对称的关系。并且在每一层不断使用跳层连接补充前向信息,有效地重新利用了Encoder中因为卷积尺寸变小而丢失的信息。当特征图恢复到原图像尺寸之后,经过一次卷积操作对特征图进行整理,得到原图像尺寸的判定。这种决策可以理解为图像空间上像素级的决策,可以对融合图像的局部纹理结构进行决策,在空间上给予生成器一定的反馈。在本文的融合任务中,可以利用这种空间上的决策使得融合图像的局部纹理细节更具有可见光图像的观感,从局部的视角增强融合图像的自然度。判别器的每一层后都进行谱归一化,增加GAN网络训练过程中的稳定性。与生成器相同,每一层均使用Batchnorm以及利用leakyrelu作为激活函数。
语义判别器采取了RPNet分割网络,RPNet分割网络以残差金字塔为基础,具有较小的参数量,推理速度较快,同时拥有不错的分割性能。将融合的单通道图像加上可见光的色彩通道转换成RGB图像输入RPNet分割网络中,最终得到通道数和类别数相同的概率图,进行分割loss的计算。分割网络的作用相当于一个判别器。一方面,分割网络不断增强对融合图像语义特征的挖掘能力。另一方面,语义信息引导生成器融合出具有更好目标显著性的图像。分割loss的约束驱动分割网络学习融合图像的语义,进而引导融合图像在空间上进行合适的融合,实现高质量的图像融合。相较于不少融合网络采用融合图像和红外图像直接进行MSE loss,语义判别器采用利用图像的高级高级特征对融合图像进行解析,以指导图像融合。该方法考虑了融合图像的空间分布,而不是粗糙的全局均方误差损失。
本发明公开的ASGGAN中的loss函数包括判别器loss函数、分割网络loss函数和生 成器loss函数,分别用于训练判别器、分割网络和生成器。感知判别器在训练的过程中不断 强化区分可见光和融合图像的能力,在此过程中不断给予生成器反馈。当输入可见光的亮 度通道图像Ivis_y的时候,判别器将判别为真,输入融合图像If_y时,判别器的判别为假。我们 用DU来表示判别器,判别器由Encoder和Decoder构成,分别表示为DU enc和DU dec来表示,输出 两种loss。判别器的Encoder输出全局信息的
Figure 627372DEST_PATH_IMAGE028
,判别器的Decoder输出局部信息的
Figure 271980DEST_PATH_IMAGE029
。如公式(1)所示,
Figure 587423DEST_PATH_IMAGE030
(1)
公式(1)表示整体判别器的loss函数,令输入的可见光亮度通道图像为Ivis_y,输入的融合图像为If_y,则Encoder的loss函数为:
Figure 342890DEST_PATH_IMAGE031
判别器的Decoder端输出的loss为:
Figure 76491DEST_PATH_IMAGE032
式中
Figure 892000DEST_PATH_IMAGE033
Figure 324485DEST_PATH_IMAGE034
均表示判别器在像素点(i,j)上的决策, 具体的loss沿用了U-Net GAN中的hingeloss。判别器的两个loss函数分别代表全局和局部 的决策距离。因此在判别器不断强化的过程中,判别器不仅能够进行全局的决策,也能够进 行局部的决策。RPNet分割网络结构,为了简单直接,未采用RPNet中的辅助loss。在输入 RPNet融合图像If后,由RPNet得到输出的分割结果Ipred,将该结果和Ilabel进行分割网络常 见的交叉熵loss进行计算,ASG模块loss函数公式如下:
Figure 759009DEST_PATH_IMAGE035
(2)
其中
Figure 206170DEST_PATH_IMAGE036
代表Ilabel在像素值(i,j)处one-hot向量第c个通道处的值,
Figure 113953DEST_PATH_IMAGE037
代 表输出概率图在像素值(i,j)处第c个通道的输出概率值,N为通道数,W和H为图像的宽和 高。生成器的loss函数主要由三部分组成:感知对抗
Figure 420300DEST_PATH_IMAGE038
,语义对抗
Figure 251990DEST_PATH_IMAGE039
和细 节
Figure 740609DEST_PATH_IMAGE040
。感知对抗loss
Figure 773287DEST_PATH_IMAGE041
用于引导融合图像在判别中识别为真,引导融合图像整 体和局部细节上更趋向于可见光的观感。语义对抗
Figure 160406DEST_PATH_IMAGE042
引导融合图像易于进行图像分 割,由于红外图像包含更加丰富的语义信息,因此语义对抗
Figure 186000DEST_PATH_IMAGE042
相当于同时将红外图 像中目标显著信息加入融合图像之中,提高融合图像的目标显著性。细节
Figure 545437DEST_PATH_IMAGE043
用于增 强融合图像的可见光细节信息。计算对抗loss时,判别器参数固定,训练生成器的参数。此 时生成器的目的是要训练出能够骗过判别器的融合图像,即目的是让判别器的判别为真。 此时感知对抗
Figure 873650DEST_PATH_IMAGE044
的计算如下:
Figure 141208DEST_PATH_IMAGE045
对抗loss通过训练生成器,逐步拉近融合图像与可见光的距离,让融合图像更加 具有可见光的图像的观感。同时Encoder和Decoder两部分loss的输出,让融合图像从全局 和局部两个方面进行和可见光图像的约束。同样的,在训练中沿用U-Net GAN所使用的 Hingeloss。计算语义对抗
Figure 580279DEST_PATH_IMAGE046
时,分割网络的参数固定,训练生成器的参数。此时生成 器在训练的过程中不断调整,逐步输出能够获得较高分割指标的融合图像,图像的目标显 著性将更加明显,语义信息将更易于在融合图像中显现,红外图像的有效信息也在融合图 像中逐步增加。生成器中分割
Figure 731906DEST_PATH_IMAGE047
的公式同样为交叉熵公式,公式与训练语义判别器时 的loss公式一致。FusionGAN全局性的contentloss进行和红外像素值的均方差,会导致整 体融合图像由于红外成分过多而模糊。相较于这种方式,使用对抗性的分割
Figure 231021DEST_PATH_IMAGE048
来区 域性地加入红外成分,使融合图像的目标更加显著。细节
Figure 982945DEST_PATH_IMAGE049
是计算融合图像和可见 光图像梯度之间的距离,我们计算两者的梯度并求出二者梯度之差的L2范数的均值,公式 如下:
Figure 897811DEST_PATH_IMAGE050
Figure 559737DEST_PATH_IMAGE051
代表求图像梯度的操作,(i,j)代表像素点的位置,W和H代表图像的宽高。细节
Figure 354386DEST_PATH_IMAGE052
用于拉近融合图像的梯度趋向于可见光的梯度,使得融合图像拥有更加丰富的细 节信息。将以上三个loss进行组合,则得到生成器总体的loss函数,公式如下所示:
Figure 203394DEST_PATH_IMAGE053
其中
Figure 859634DEST_PATH_IMAGE054
Figure 376066DEST_PATH_IMAGE055
为超参数,用于平衡三个loss的权重。
采用MFNet语义分割数据集,该数据集是为了进行可见光和红外图像语义分割而制作的,场景为车载场景。该数据集包含1569组RGB-T图像对,其中白天820组,夜间749组。拿夜间的RGB-T数据集进行训练,其中训练集有374张RGB-T图像对,验证集有187张,测试集有188张。图像的尺寸均为640*480的大小。虽然该数据集一直用作语义分割数据集,但是该数据集的RGB-T的图像对大部分是对齐的,因此可以用于进行图像融合。夜间场景也较为丰富,场景中常常出现灯光昏暗、炫光等驾驶中常见的场景。每个RGB-T图像对均有对应的label,最初的用于语义分割数据集除了未标记的类别,包含八个类别,在这里仅使用汽车、人和自行车这三个在驾驶中常见的三个类别作为分割label,其中人这一类别在红外特性中较为明显。在训练阶段,将图像进行数据增广。采用随即裁剪,随机裁剪的像素尺寸为400*400大小,同时进行随机平移、水平翻转的数据增广操作。在网络loss超参数的设定中,分割的loss超参数设定为10000,梯度loss超参数设定为100。训练阶段的batchsize=s,首先会训练M次判别器,再训练N次分割网络,最后训练一次生成器。本发明所使用的优化器为Adam优化器,训练的总共epoch的数目为K。经过实验,设定实验的参数设置为s=4,M=2,N=2,K=300,训练集数目NUM=374。在测试阶段,本发明将抛弃两个判别器,只保留生成器,去除掉随即裁剪等数据增广方式,以原尺寸输入RGB-T的测试图片,获得融合结果。训练和测试时使用的显卡为NVIDIA TITAN RTX,使用的内存为32GB。
本发明采用AG(Average gradient)、EI(Edgeintensity)、SF(Spatialfrequency)和EN(Entropy),这几类指标分别基于图像特征和基于信息学理论来定量地评价我们的图像质量,能够全方位地评价图像融合质量。因为融合图像是基于显著性描述的,所以在分割label的掩膜下,来和其他的方法比较图像质量。AG评价指标用于衡量融合图像的清晰度,AG评价指标的公式如下
Figure 341617DEST_PATH_IMAGE056
(4)
式中M和N分别代表融合图像的宽和高,
Figure 350024DEST_PATH_IMAGE016
表示融合图像中的像素点位置,式中 AG值越大,融合图像清晰度越好,融合图像质量越好。EI评价指标计算的是融合图像的边缘 强度,EI评价指标的公式如下
Figure 934589DEST_PATH_IMAGE057
(5)
Figure 427232DEST_PATH_IMAGE058
(6)
式中,
Figure 173471DEST_PATH_IMAGE019
Figure 138016DEST_PATH_IMAGE020
为x和y方向上的sobel算子,
Figure 260693DEST_PATH_IMAGE021
Figure 876351DEST_PATH_IMAGE022
为sobel算子卷积后的结果,评价 指标EI的值越大,融合图像质量越好。SF评价指标计算的是图像灰度的变化率,SF评价指标 的公式如下
Figure 731174DEST_PATH_IMAGE059
(7)
Figure 42070DEST_PATH_IMAGE060
(8)
Figure 93071DEST_PATH_IMAGE061
(9)
式中SF值越大,融合图像质量越好。EN评价指标计算的是图像中包含的信息量,EN评价指标的公式如下
Figure 438602DEST_PATH_IMAGE062
(10)
式中
Figure 402010DEST_PATH_IMAGE063
为灰度直方图的统计概率,EN值越大,即代表图像信息量越多,融合图 像质量越好。由于图像融合任务拥有较多的评价指标,实际中各种方法进行比较时难以进 行统一,而且往往会出现客观定量的评价指标较高的时候,图像质量的观感实际并不算好, 所以在这里,定性地进行融合图像的主观评价,比较融合图像和其他融合方法的优劣。本发 明通过采用实际的图片对比证明红外辐射特性明显的人群在本发明的融合方法中会更具 有显著性;本发明的融合图像相较于其他的图像融合方法,人的信息更为显著。
消融实验。为了让融合图像的细节观感更强,本发明设计了U型判别器,让总体图 像从全局的角度和从局部的角度对融合图像进行判别,增强图像的局部细节和观感。为了 证明本发明的方法的有效性,在原有网络整体框架不变的情况下,仅仅去除U型判别器的 Decoder端进行实验和对比。从图5和图6可以看出在,使用U型判别器的情况下,融合图像具 有更加丰富的可见光细节信息。比如广告牌和灯光的可见光信息,U型的判别器的条件下细 节更丰富。这表明我们的U型判别器一定程度上增强了融合图像的可见光细节,增强了图像 的可见光观感。实际上红外和可见光的信息是一对相对对抗的信息,然而实际上,无 Decoder的判别器的情况下,红外的细节信息同样没有使用U型判别器的融合图像更多。条 件判别器实验。在判别器的输入端同时输入分割label作为判别器的先验,使得判别器在空 间上能够获取一定的目标先验信息,让网络在区域上有选择性地进行融合规则的选择,具 有一定的高级语义和空间感知能力。实验来对比,如图7所示。显然,从图片中可以看出,加 入label作为判别器先验后,地面上的线条对比度有了明显的提升,细节信息更丰富,这也 意味着加入分割label作为先验信息优化了融合网络的空间分布和观感,让图像的对比度 得到了增强,细节感达到了提升,图片中加入的信息也就更多。语义判别器实验。本发明通 过分割网络区域性的引入局部红外信息,为了显示语义判别器所起到的作用,本发明调整 生成器的分割loss的超参数
Figure 200202DEST_PATH_IMAGE064
来显示语义判别器对融合图像的影响。调整了分割网络loss 的超参数
Figure 54894DEST_PATH_IMAGE064
,分别设定为1000、5000、10000、20000,显然,当超参数
Figure 927035DEST_PATH_IMAGE064
较小时,融合图像的 可见光细节明显更多,但是红外热特性明显的目标却并不太显著,也就代表着红外信息成 分加入较少。随着
Figure 451557DEST_PATH_IMAGE064
的逐步增大,分割网络的语义引导图像的融合,随之带来的是包含显著 语义信息的红外图像的成分更多的加入到融合图像之中。当
Figure 864609DEST_PATH_IMAGE064
更大之后,可见光的细节就 会存在着一定的损失,红外的成分将会更多。因此,需要合理的调整超参数
Figure 132779DEST_PATH_IMAGE064
。本发明选择 了
Figure 62689DEST_PATH_IMAGE064
=10000,以达到可见光的细节信息和红外的显著信息的一个平衡。
本发明提出了一种新颖的红外和可见光图像融合方法ASGGAN,本发明所提出的方法基于生成对抗网络,关键的特征在于利用分割网络作为一路判别器,利用语义引导生成器图像融合进行空间上有选择的图像融合,使得融合图像的目标具有极好的显著性。利用U型判别器来进行全局和局部细节的判别,让图像从整体性和局部细节上拥有更好的可见光观感。同时,利用分割label作为先验让判别器高级语义和空间感知能力。在MFNet数据集上进行实验,证明了本发明的方法与当前流行的方法相比,从客观上和主观上都具有更好的图像融合性能。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (7)

1.基于对抗性语义引导与感知的红外和可见光图像融合方法,其特征在于:包括以下步骤:
步骤1:生成融合网络ASGGAN,基于结构简单的生成对抗网络,通过判别器和loss函数的的引导,优化生成一个双路判别器可见光和红外图像融合网络ASGGAN;
步骤2:学习优化,利用分割网络作为判别器,分割网络和融合网络形成生成对抗网络关系,分割网络和融合网络在对抗学习的过程中不断优化,以分割预测和分割label的loss为引导来使得融合图像具有目标显著性;
步骤3:获取全局性和局部性的GAN网络loss函数,使用U型的判别器结构,得到全局性和局部性两个GAN网络loss,使得融合网络不仅关注图像的全局信息,也关注图像的局部信息;
步骤4:加入分割label,加入分割label作为判别器先验优化融合上的空间选择;
步骤5:综合评价,通过定性的主观评价和定量的客观评价指标来揭示本文提出的ASGGAN相较其他的红外可见光图像融合方法具有优越的图像融合效果。
2.根据权利要求1所述的基于对抗性语义引导与感知的红外和可见光图像融合方法,其特征在于:所述步骤1中融合网络ASGGAN包括生成器和判别器,所述生成器生成图像,所述生成器采取双路Encoder和单路Decoder的全卷积网络结构,所述判别器区分生成器生成的虚假图像和真实图像,所述生成器和判别器持续优化,使得生成器能够生成欺骗判别器的虚假图像,判别器增强区分生成器生成的虚假图像和真实图像的能力。
3.根据权利要求1所述的基于对抗性语义引导与感知的红外和可见光图像融合方法,其特征在于:所述判别器包括感知判别器和语义判别器,所述感知判别器拉近可见光和融合图像的分布距离,使得融合图像的可见光观感更自然,所述语义判别器分割融合图像,利用分割网络产生的分割loss助推融合网络进行图像融合,所述感知判别器采用U型判别器,所述感知判别器包括Encoder和Decoder两部分,感知判别器通过Encoder和Decoder进行图像的全局判别和局部判别,所述语义判别器采用RPNet分割网络进行分割loss的计算。
4.根据权利要求1所述的基于对抗性语义引导与感知的红外和可见光图像融合方法,其特征在于:所述步骤3中GAN网络发展衍生形成DCGAN和LSGAN,所述DCGAN将原始GAN中的生成器和判别器的多层感知机改为卷积神经网络用于提取特征,所述LSGAN将GAN网络的交叉熵loss换为最小二乘loss,提高图片的生成质量并使得GAN网络的训练更加稳定。
5.根据权利要求1所述的基于对抗性语义引导与感知的红外和可见光图像融合方法,其特征在于:所述步骤4中分割label在网络训练中输入到网络结构进行图像融合。
6.根据权利要求1所述的基于对抗性语义引导与感知的红外和可见光图像融合方法,其特征在于:所述loss函数包括判别器loss函数、分割网络loss函数和生成器loss函数,所述判别器loss函数用于训练判别器,如公式(1)所示
Figure 537287DEST_PATH_IMAGE001
(1)
式中
Figure 603332DEST_PATH_IMAGE002
表示整体判别器的loss函数,
Figure 920043DEST_PATH_IMAGE003
表示判别器的Encoder输出的全局信息的 loss函数,
Figure 438749DEST_PATH_IMAGE004
表示判别器的Decoder输出的局部信息的loss函数;
所述分割网络loss函数如公式(2)所示
Figure 990953DEST_PATH_IMAGE005
(2)
式中
Figure 255713DEST_PATH_IMAGE006
代表Ilabel在像素值(i,j)处one-hot向量第c个通道处的值,Ilabel为图像分 割标签,
Figure 133539DEST_PATH_IMAGE007
代表输出概率图在像素值(i,j)处第c个通道的输出概率值,N为通道数,W 和H为图像的宽和高;
所述生成器loss函数包括感知对抗
Figure 876891DEST_PATH_IMAGE008
、语义对抗
Figure 108153DEST_PATH_IMAGE009
和细节
Figure 883211DEST_PATH_IMAGE011
,所述生成器loss函数如公式(3)所示
Figure 400780DEST_PATH_IMAGE012
(3)
式中
Figure 769444DEST_PATH_IMAGE013
表示生成器总体函数,
Figure 663451DEST_PATH_IMAGE014
Figure 433961DEST_PATH_IMAGE015
为超参数,用于平衡三个loss的权重。
7.根据权利要求1所述的基于对抗性语义引导与感知的红外和可见光图像融合方法,其特征在于:所述客观评价指标包括AG、EI、SF和EN,所述AG评价指标用于衡量融合图像的清晰度,所述AG评价指标的公式如下
Figure 388010DEST_PATH_IMAGE016
(4)
式中M和N分别代表融合图像的宽和高,
Figure 243971DEST_PATH_IMAGE017
表示融合图像中的像素点位置,式中AG值 越大,融合图像清晰度越好,融合图像质量越好;
所述EI评价指标计算的是融合图像的边缘强度,所述EI评价指标的公式如下
Figure 941668DEST_PATH_IMAGE018
(5)
Figure 425739DEST_PATH_IMAGE019
(6)
式中,
Figure 691635DEST_PATH_IMAGE020
Figure 893947DEST_PATH_IMAGE021
为x和y方向上的sobel算子,
Figure 536281DEST_PATH_IMAGE022
Figure 871928DEST_PATH_IMAGE023
为sobel算子卷积后的结果,评价指标 EI的值越大,融合图像质量越好;
所述SF评价指标计算的是图像灰度的变化率,所述SF评价指标的公式如下
Figure 308726DEST_PATH_IMAGE024
(7)
Figure 998333DEST_PATH_IMAGE025
(8)
Figure 37833DEST_PATH_IMAGE026
(9)
式中RF为行空间频率,CF为列空间频率,SF值越大,融合图像质量越好;
所述EN评价指标计算的是图像中包含的信息量,所述EN评价指标的公式如下
Figure 371863DEST_PATH_IMAGE027
(10)
式中
Figure 104195DEST_PATH_IMAGE028
为灰度直方图的统计概率,EN值越大,即代表图像信息量越多,融合图像质 量越好。
CN202111292602.5A 2021-11-03 2021-11-03 基于对抗性语义引导与感知的红外和可见光图像融合方法 Pending CN113781377A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111292602.5A CN113781377A (zh) 2021-11-03 2021-11-03 基于对抗性语义引导与感知的红外和可见光图像融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111292602.5A CN113781377A (zh) 2021-11-03 2021-11-03 基于对抗性语义引导与感知的红外和可见光图像融合方法

Publications (1)

Publication Number Publication Date
CN113781377A true CN113781377A (zh) 2021-12-10

Family

ID=78873619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111292602.5A Pending CN113781377A (zh) 2021-11-03 2021-11-03 基于对抗性语义引导与感知的红外和可见光图像融合方法

Country Status (1)

Country Link
CN (1) CN113781377A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220130139A1 (en) * 2022-01-05 2022-04-28 Baidu Usa Llc Image processing method and apparatus, electronic device and storage medium
CN114758202A (zh) * 2022-04-01 2022-07-15 山东大学 基于语义感知特征增强的短波红外舰船检测方法及***
CN114882444A (zh) * 2022-07-01 2022-08-09 浙江智慧视频安防创新中心有限公司 一种图像融合处理方法、设备及介质
CN115550570A (zh) * 2022-01-10 2022-12-30 荣耀终端有限公司 图像处理方法与电子设备
CN116309913A (zh) * 2023-03-16 2023-06-23 沈阳工业大学 一种基于生成对抗网络asg-gan文本描述生成图像方法
CN116664462A (zh) * 2023-05-19 2023-08-29 兰州交通大学 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法
CN116757988A (zh) * 2023-08-17 2023-09-15 齐鲁工业大学(山东省科学院) 基于语义丰富和分割任务的红外与可见光图像融合方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767384A (zh) * 2017-11-03 2018-03-06 电子科技大学 一种基于对抗训练的图像语义分割方法
CN109118467A (zh) * 2018-08-31 2019-01-01 武汉大学 基于生成对抗网络的红外与可见光图像融合方法
AU2020100178A4 (en) * 2020-02-04 2020-03-19 Huang, Shuying DR Multiple decision maps based infrared and visible image fusion
CN111145131A (zh) * 2019-11-28 2020-05-12 中国矿业大学 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法
CN111709903A (zh) * 2020-05-26 2020-09-25 中国科学院长春光学精密机械与物理研究所 一种红外与可见光图像融合方法
CN112001868A (zh) * 2020-07-30 2020-11-27 山东师范大学 基于生成对抗性网络的红外和可见光图像融合方法及***
CN112184542A (zh) * 2020-07-17 2021-01-05 湖南大学 姿势导引的风格保持人体图像生成方法
CN112488970A (zh) * 2019-09-12 2021-03-12 四川大学 基于耦合生成对抗网络的红外和可见光图像融合方法
CN113077471A (zh) * 2021-03-26 2021-07-06 南京邮电大学 一种基于u型网络的医学图像分割方法
US20210224993A1 (en) * 2020-01-20 2021-07-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for training generative network, method for generating near-infrared image and device
CN113298816A (zh) * 2021-06-21 2021-08-24 江苏建筑职业技术学院 一种遥感图像语义分割方法、装置和计算机设备
CN113450297A (zh) * 2021-07-22 2021-09-28 山东澳万德信息科技有限责任公司 红外图像和可见光图像的融合模型构建方法及***

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767384A (zh) * 2017-11-03 2018-03-06 电子科技大学 一种基于对抗训练的图像语义分割方法
CN109118467A (zh) * 2018-08-31 2019-01-01 武汉大学 基于生成对抗网络的红外与可见光图像融合方法
CN112488970A (zh) * 2019-09-12 2021-03-12 四川大学 基于耦合生成对抗网络的红外和可见光图像融合方法
CN111145131A (zh) * 2019-11-28 2020-05-12 中国矿业大学 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法
US20210224993A1 (en) * 2020-01-20 2021-07-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for training generative network, method for generating near-infrared image and device
AU2020100178A4 (en) * 2020-02-04 2020-03-19 Huang, Shuying DR Multiple decision maps based infrared and visible image fusion
CN111709903A (zh) * 2020-05-26 2020-09-25 中国科学院长春光学精密机械与物理研究所 一种红外与可见光图像融合方法
CN112184542A (zh) * 2020-07-17 2021-01-05 湖南大学 姿势导引的风格保持人体图像生成方法
CN112001868A (zh) * 2020-07-30 2020-11-27 山东师范大学 基于生成对抗性网络的红外和可见光图像融合方法及***
CN113077471A (zh) * 2021-03-26 2021-07-06 南京邮电大学 一种基于u型网络的医学图像分割方法
CN113298816A (zh) * 2021-06-21 2021-08-24 江苏建筑职业技术学院 一种遥感图像语义分割方法、装置和计算机设备
CN113450297A (zh) * 2021-07-22 2021-09-28 山东澳万德信息科技有限责任公司 红外图像和可见光图像的融合模型构建方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HOU J: "A generative adversarial network for infrared and visible image fusion based on semantic segmentation", 《ENTROPY》, vol. 23, no. 3, 21 March 2021 (2021-03-21), pages 376 *
MA J 等: "Infrared and visible image fusion via detail preserving adversarial learning", 《INFORMATION FUSION》, vol. 54, no. 2, 29 February 2020 (2020-02-29), pages 85 - 98, XP085828974, DOI: 10.1016/j.inffus.2019.07.005 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220130139A1 (en) * 2022-01-05 2022-04-28 Baidu Usa Llc Image processing method and apparatus, electronic device and storage medium
US11756288B2 (en) * 2022-01-05 2023-09-12 Baidu Usa Llc Image processing method and apparatus, electronic device and storage medium
CN115550570B (zh) * 2022-01-10 2023-09-01 荣耀终端有限公司 图像处理方法与电子设备
CN115550570A (zh) * 2022-01-10 2022-12-30 荣耀终端有限公司 图像处理方法与电子设备
CN114758202A (zh) * 2022-04-01 2022-07-15 山东大学 基于语义感知特征增强的短波红外舰船检测方法及***
CN114758202B (zh) * 2022-04-01 2024-05-24 山东大学 基于语义感知特征增强的短波红外舰船检测方法及***
CN114882444A (zh) * 2022-07-01 2022-08-09 浙江智慧视频安防创新中心有限公司 一种图像融合处理方法、设备及介质
CN116309913A (zh) * 2023-03-16 2023-06-23 沈阳工业大学 一种基于生成对抗网络asg-gan文本描述生成图像方法
CN116309913B (zh) * 2023-03-16 2024-01-26 沈阳工业大学 一种基于生成对抗网络asg-gan文本描述生成图像方法
CN116664462A (zh) * 2023-05-19 2023-08-29 兰州交通大学 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法
CN116664462B (zh) * 2023-05-19 2024-01-19 兰州交通大学 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法
CN116757988A (zh) * 2023-08-17 2023-09-15 齐鲁工业大学(山东省科学院) 基于语义丰富和分割任务的红外与可见光图像融合方法
CN116757988B (zh) * 2023-08-17 2023-12-22 齐鲁工业大学(山东省科学院) 基于语义丰富和分割任务的红外与可见光图像融合方法

Similar Documents

Publication Publication Date Title
CN113781377A (zh) 基于对抗性语义引导与感知的红外和可见光图像融合方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
Li et al. Semantic-aware grad-gan for virtual-to-real urban scene adaption
Zheng et al. A novel background subtraction algorithm based on parallel vision and Bayesian GANs
CN111914797B (zh) 基于多尺度轻量级卷积神经网络的交通标志识别方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN109685724B (zh) 一种基于深度学习的对称感知人脸图像补全方法
CN111563909A (zh) 一种复杂街景图像语义分割方法
Zong et al. Local-CycleGAN: a general end-to-end network for visual enhancement in complex deep-water environment
CN114037674B (zh) 一种基于语义上下文的工业缺陷图像分割检测方法及装置
CN112990078B (zh) 一种基于生成式对抗网络的人脸表情生成方法
CN113378775B (zh) 一种基于深度学习的视频阴影检测与消除方法
CN115223082A (zh) 一种基于时空多尺度Transformer的航拍视频分类方法
Varior et al. Multi-scale attention network for crowd counting
CN113392711A (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及***
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN114842216A (zh) 一种基于小波变换的室内rgb-d图像语义分割方法
CN113807356A (zh) 一种端到端的低能见度图像语义分割方法
CN115620207A (zh) 一种基于注意力机制的红外行人检测方法
CN115311508A (zh) 一种基于深度u型网络的单帧图像红外弱小目标检测方法
Lu et al. Underwater image enhancement method based on denoising diffusion probabilistic model
Liu et al. Multi-Scale Underwater Image Enhancement in RGB and HSV Color Spaces
CN114155165A (zh) 一种基于半监督的图像去雾方法
CN111901610B (zh) 一种基于多层编码器的并行图像描述方法
Chacon-Murguia et al. Moving object detection in video sequences based on a two-frame temporal information CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination