CN113487530A - 一种基于深度学习的红外与可见光融合成像方法 - Google Patents

一种基于深度学习的红外与可见光融合成像方法 Download PDF

Info

Publication number
CN113487530A
CN113487530A CN202110878885.5A CN202110878885A CN113487530A CN 113487530 A CN113487530 A CN 113487530A CN 202110878885 A CN202110878885 A CN 202110878885A CN 113487530 A CN113487530 A CN 113487530A
Authority
CN
China
Prior art keywords
image
layer
pair
feature
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110878885.5A
Other languages
English (en)
Other versions
CN113487530B (zh
Inventor
程良伦
李卓
吴衡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110878885.5A priority Critical patent/CN113487530B/zh
Publication of CN113487530A publication Critical patent/CN113487530A/zh
Application granted granted Critical
Publication of CN113487530B publication Critical patent/CN113487530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种基于深度学习的红外与可见光融合成像方法,包括:针对目标同时采集相同尺寸的红外图像和可见光图像以构成目标物图像对,对目标物图像对中的子图像进行子图像对分割、预处理以及添加噪声图,将添加了噪声图的子图像对作为输入图像对输入到训练好的图像融合模型中,得到融合后的图像;所述图像融合模型包括浅层特征提取单元、编码器、融合模块以及解码器。本申请考虑了源图像含噪这一普遍事实,并将其作为实际成像应用的前提,在融合图像过程中进行图像去噪,有效避免了源图像对中的噪点被引入融合图像;本申请非常有利于红外与可见光融合及深度学习技术的应用研究,其有望在医学成像和夜间监测等领域得到广泛应用。

Description

一种基于深度学习的红外与可见光融合成像方法
技术领域
本申请涉及图像融合领域,具体涉及一种基于深度学习的红外与可见光融合成像方法。
背景技术
红外热成像以目标热辐射信息为输入,在光照不足时也可探测目标并根据辐射的差异将目标与背景区分开来。可见光传感器利用物体反射率对目标进行成像,可以提供具有高分辨率和清晰纹理细节的图像。红外与可见光成像***可以同时反应同一目标物的不同属性,从不同的方面提供场景信息,在军事、视频监控、汽车辅助驾驶、森林防火等领域都有广泛的应用。
近年来,随着红外与可见光成像技术被广泛应用,进一步提高了多模态传感器的信息利用率和成像***的可靠工作时间,但也暴露了一些问题,例如:红外热图像成像质量差、对比度低且噪声干扰严重;可见光图像容易受光照不足、雾和其他恶劣天气的影响;大多数成像***生成的图像均存在噪声干扰。因此,基于红外与可见光成像***的图像融合方法在图像信息融合领域显得格外重要,开发先进的图像融合算法非常有助于信息融合技术的应用与发展。
发明内容
本申请的目的是提供一种基于深度学习的红外与可见光融合成像方法,用以解决红外与可见光成像***中红外成像质量差、噪声干扰严重以及可见光图像易受恶劣天气影响的问题。
为了实现上述任务,本申请采用以下技术方案:
本申请第一方面提供了一种基于深度学习的红外与可见光融合成像方法,包括以下步骤:
针对目标同时采集相同尺寸的红外图像和可见光图像以构成目标物图像对,对目标物图像对中的子图像进行子图像对分割、预处理以及添加噪声图,将添加了噪声图的子图像对作为输入图像对输入到训练好的图像融合模型中,得到融合后的图像;
所述图像融合模型包括浅层特征提取单元、编码器、融合模块以及解码器,其中:
浅层特征提取单元用于对所述输入图像对进行浅层特征提取;
编码器为双层网络结构,包括上层网络和下层网络;其中,上层网络包括多层卷积层和线性整流层的连续堆叠和跳转连接,并在最后设置卷积层用于提取特征和重组信道;下层网络包括非局部增强模块、多层卷积层和线性整流层的连续堆叠和跳转连接,之后是一个二阶信息注意力模块和一个卷积层;
融合模块用于对上层网络输出的特征图对和下层网络输出的特征图对,结合了空间注意力机制和信道注意力机制来生成融合特征图;
解码器包括多个上采样层、多个卷积块,多层卷积层和线性整流层;其中每个卷积块包括两个卷积核大小不同的卷积层。
进一步地,所述对目标物图像对中的子图像进行子图像对分割、预处理以及添加噪声图,包括:
对目标物图像对进行下采样处理,以分割成子图像对;对子图像对中的每个子图像进行图像块提取以及重组像素,得到预处理后的子图像对;通过随机采样的方式构建噪声图,将噪声图作为额外通道加入到预处理后的子图像对中。
进一步地,所述浅层特征提取单元的处理过程包括:
输入图像对
Figure BDA0003191239180000021
以图像张量格式被输入到浅层特征提取单元;浅层特征提取单元包括一个卷积层和一个线性整流层ReLU,输入图像对
Figure BDA0003191239180000022
经过卷积层和线性整流层后完成浅层特征提取,得到浅层特征图对
Figure BDA0003191239180000023
进一步地,所述上层网络中的多层卷积层和线性整流层的连续堆叠和跳转连接,包括:
每一个卷积层和一个线性整流层ReLU构成一个特征提取单元,共4个特征提取单元;第一个特征提取单元的输入是浅层特征图对,第二个特征提取单元的输入是第一个特征提取单元的输出以及浅层特征图对,第三个特征提取单元的输入是第二个特征提取单元的输出、第一个特征提取单元的输出以及浅层特征图对,第四个特征提取单元的输入是第三个特征提取单元的输出、第二个特征提取单元的输出、第一个特征提取单元的输出以及浅层特征图对,从而构成连续堆叠和跳转连接。
进一步地,非局部增强模块包括图像划分层和四个卷积层,在编码器的下层网络中,浅层特征图对
Figure BDA0003191239180000031
首先被图像划分层划分图块,分别生成m×m个相同大小的图块,每个被划分出的特征图块均进行非局部特征增强,非局部特征增强的数学模型为:
Figure BDA0003191239180000032
其中,i是要计算的浅层特征图的特征位置索引,N为浅层特征图的位置索引个数;j是特征图中所有可能位置的索引,
Figure BDA0003191239180000033
表示第t个特征图块的第i个位置,
Figure BDA0003191239180000034
表示增强后的
Figure BDA0003191239180000035
Figure BDA0003191239180000036
分别表示非局部增强模块中的卷积处理,
Figure BDA0003191239180000037
Wψ,Wω,和Wρ为非局部增强模块中的四个卷积层学习到的权重;
每个增强后的特征图块
Figure BDA0003191239180000038
最终合并为特征图张量,生成增强特征图像对
Figure BDA0003191239180000039
经过下层网络中的卷积层和线性整流层ReLU的连续堆叠和跳转连接的处理后,进入二阶信息注意力模块。
进一步地,所述二阶信息注意力模块包括依次连接的归一化层,池化层,卷积层,线性整流层ReLU,卷积层,门控层Sigmoid;
增强特征图像对
Figure BDA00031912391800000310
被传入二阶信息注意力模块,通过考虑二阶统计量信道的特征信息来自适应的学习特征间依赖关系,重新调整通道。
进一步地,所述融合模块的数学模型为:
Figure BDA00031912391800000311
Figure BDA00031912391800000312
其中Sa(·)和Ca(·)分别代表空间注意力机制和信道注意力机制的隐函数,
Figure BDA00031912391800000313
Figure BDA00031912391800000314
表示融合特征图,
Figure BDA00031912391800000315
为上层网络输出的特征图对,
Figure BDA00031912391800000316
为下层网络输出的特征图对。
进一步地,所述卷积块有5个,记为CD1至CD5;每个卷积块均包含1层3×3卷积层和一层1×1卷积层;
5个卷积块CD采用上采样和跳转的方式相互连接,其中CD1、CD2、CD3依次连接,CD1的输入同时叠加CD2的输入和CD3的输入,CD1的输出同时叠加CD3的输入;CD4、CD5依次连接,CD4的输入一方面经过上采样层后叠加CD1的输入,另一方面叠加CD5的输入;CD4的输出经过上采样层后叠加CD2的输入,CD5的输出经过上采样层后叠加CD3的输入,CD3的输出经过上采样层后连接两个由3×3卷积层、线性整流层ReLU构成的特征提取单元,最后通过一个3×3卷积层得到输出的融合图像。
第二方面,本申请提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行计算机程序时实现前述第一方面的基于深度学习的红外与可见光融合成像方法的步骤。
第三方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现前述第一方面的基于深度学习的红外与可见光融合成像方法的步骤。
与现有技术相比,本申请具有以下技术特点:
本申请方法中,网络结构被设计为双层结构提取红外和可见图像的深度特征映射;融合策略将空间和信道注意力机制进行结合以生成更加丰富的融合特征图;嵌套连接架构应用在本申请的融合网络中来避免编码器与解码器之间的语义缺陷;噪声估计图被添加到深度学习融合网络中以实现去噪功能,使模型在融合图像的过程中进行去噪。相比现有技术,本申请考虑了源图像含噪这一普遍事实,并将其作为实际成像应用的前提,在融合图像过程中进行图像去噪,有效避免了源图像对中的噪点被引入融合图像。本申请非常有利于红外与可见光融合及深度学习技术的应用研究,其有望在医学成像和夜间监测等领域得到广泛应用。
附图说明
图1为本申请实施例中方法执行的流程示意图;
图2为实施例中经预处理所得到的图像,将1×320×240的红外与可见光图像对处理为5×160×120的图像对,噪声图M作为额外通道将添加到输入中;
图3为实施例中深度神经网络架构示意图,其最终结果为融合后的图像;
图4为实施例中网络解码器示意图,对红外与可见光图像进行特征提取生成特征图对;
图5为实施例中融合策略示意图,由空间与信道注意力机制组合形成;
图6为实施例中网络编码器示意图;
图7为实施例中卷积块CD示意图,由1层3×3卷积层和1层1×1卷积层构成。
具体实施方式
本申请提供了一种基于深度学习的红外与可见光融合成像方法,该方法提高了成像质量并且有效去除图像中的噪声干扰,使图像中目标突出,纹理清晰,便于更准确的识别目标,更利于成像***的全天候工作。
如图1所示,本申请使用深度学习图像融合方法处理目标物图像对,利用红外与可见光成像***拍摄被测目标物图像生成红外与可见光图像对,对目标图像对进行处理,其融合过程分为以下步骤:
S1,针对目标同时采集相同尺寸的红外图像和可见光图像以构成目标物图像对,对目标物图像对进行下采样处理,以分割成子图像对。
本申请中,对于大小均为nch×h×w的目标物图像对(Iir,Ivis)进行一次下采样分割,形成4nch×h/2×w/2的子图像对;其中Iir为红外图像,Ivis为可见光图像,nch为信道,h为高度,w为宽度。
S2,对子图像对中的每个子图像进行图像块提取以及重组像素,得到预处理后的子图像对。
该步骤中,对每个子图像(红外图像和可见光图像)取2×2图像块,并在输出图像的不同通道中重组其像素得到预处理后的子图像对
Figure BDA0003191239180000051
其数学模型可以表示如下:
Figure BDA0003191239180000052
Figure BDA0003191239180000053
上述表达式中,c为图像信道,x为图像像素横坐标,y为图像像素纵坐标,其中0≤c≤4nch,0≤x≤h,0≤y≤w。本申请的之后处理将在以上缩小的规模下实施。
S3,通过随机采样的方式构建噪声图,将噪声图作为额外通道加入到预处理后的子图像对中。
从噪声标准差为[σ12)均匀分布中随机采样出nch×h×w大小的样本,来构建噪声图M。噪声图M将作为额外通道添加到输入图像
Figure BDA0003191239180000054
Figure BDA0003191239180000055
中;该噪声图控制了降噪和细节保留之间的权衡;例如本实施例中,采用[0,75)的均匀分布。
经上述步骤预处理,得到目标图像大小为(4nch+nch)×h/2×w/2的红外与可见光图像的子图像对
Figure BDA0003191239180000061
其示意图如图2所示。
S4,将添加了噪声图的子图像对作为输入图像对输入到训练好的图像融合模型中,得到融合后的图像。
将添加了噪声图的子图像对
Figure BDA0003191239180000062
作为图3所示图像融合模型的输入,最终输出融合后的图像,其数学模型可以表示为:
Figure BDA0003191239180000063
上述表达式中,If为融合图像,F(·)为一个隐函数,表示图像融合模型;本实施例中该模型为卷积神经网络模型。
参见图3,本申请所提出的图像融合模型,从左到右,该模型依次包括:浅层特征提取单元、编码器、融合模块、解码器。各模块介绍如下:
1.浅层特征提取单元
输入图像对
Figure BDA0003191239180000064
以图像张量格式被输入到图像融合模型中的浅层特征提取单元;浅层特征提取单元包括一个3×3卷积层和一个线性整流层ReLU,输入图像对
Figure BDA0003191239180000065
经过卷积层和线性整流层后完成浅层特征提取,得到浅层特征图对
Figure BDA0003191239180000066
2.编码器
本申请提供了一种编码器模块结构用于提取输入图像对的深度特征图,如图4所示,编码器为双层网络结构,包括上层网络和下层网络;浅层特征图对
Figure BDA0003191239180000067
被分别传入双层网络中的上层网络与下层网络以生成4个深层特征图;其中:
2.1上层网络
上层网络从左到右包括4层3×3卷积层和线性整流层ReLU的连续堆叠和跳转连接,并在最后设置1层3×3卷积层用于提取特征和重组信道。其中连续堆叠和跳转连接是指,每一个3×3卷积层和一个线性整流层ReLU构成一个特征提取单元,共4个特征提取单元;第一个特征提取单元的输入是浅层特征图对,第二个特征提取单元的输入是第一个特征提取单元的输出以及浅层特征图对,第三个特征提取单元的输入是第二个特征提取单元的输出、第一个特征提取单元的输出以及浅层特征图对,第四个特征提取单元的输入是第三个特征提取单元的输出、第二个特征提取单元的输出、第一个特征提取单元的输出以及浅层特征图对,从而构成连续堆叠和跳转连接。
在编码器中,浅层特征图对
Figure BDA0003191239180000071
被传入上层网络进行深度特征提取,经过上层网络的最后一个卷积层后生成特征图对
Figure BDA0003191239180000072
2.2下层网络
下层网络从左到右包括非局部增强模块、4层3×3卷积层和线性整流层ReLU的连续堆叠和跳转连接,之后是一个二阶信息注意力模块,1层3×3卷积层;下层网络中也是有4个特征提取单元,其中第一个特征提取单元的输入是浅层特征图对
Figure BDA0003191239180000073
经过非局部增强模块后的输出,而该输出以及后续4个特征提取单元的输出则作为二阶信息注意力模块的输入;中间4个特征提取单元的连续堆叠和跳转连接与上层网络是类似的,在此不赘述。
(a)非局部增强模块
本申请中,非局部增强模块包括图像划分层和4个1×1卷积层。在编码器的下层网络中,浅层特征图对
Figure BDA0003191239180000074
首先被图像划分层划分图块,分别生成m×m个相同大小的图块,划分过程如下:
h1=h/m,w1=w/m
Figure BDA0003191239180000075
上述表达式中,h1和w1分别为被划分后的图像块大小,h为高度,w为宽度;
Figure BDA0003191239180000076
代表浅层特征图划分成的第k个特征图块,每个被划分出的特征图块均进行非局部特征增强,非局部特征增强的数学模型可表示为:
Figure BDA0003191239180000077
其中,i是要计算的浅层特征图的特征位置索引,N=h×w/k2为浅层特征图的位置索引个数;j是特征图中所有可能位置的索引,
Figure BDA0003191239180000078
表示第t个特征图块的第i个位置,
Figure BDA0003191239180000079
表示增强后的
Figure BDA00031912391800000710
Figure BDA00031912391800000711
Figure BDA00031912391800000712
分别表示非局部增强模块中的其中3个1×1卷积层的卷积处理,
Figure BDA00031912391800000713
Wψ,Wω,和Wρ为非局部增强模块中的四个1×1卷积层学习到的权重。
每个增强后的特征图块
Figure BDA0003191239180000081
最终合并为特征图张量,生成增强特征图像对
Figure BDA0003191239180000082
Figure BDA0003191239180000083
经过下层网络中4层3×3卷积层和线性整流层ReLU的连续堆叠和跳转连接的处理后,进入二阶信息注意力模块。
(b)二阶信息注意力模块
本申请中的二阶信息注意力模块,包括依次连接的归一化层,池化层,3×3卷积层,线性整流层ReLU,3×3卷积层,门控层Sigmoid。
增强特征图像对
Figure BDA0003191239180000084
经过四个特征提取单元处理后,被传入二阶信息注意力模块,通过考虑二阶统计量信道的特征信息来自适应的学习特征间依赖关系,重新调整通道,其数学模型可表示为:
fsola=Channel(Cov(fR))
其中,fR表示增强特征图像,Cov(·)表示协方差归一化,Channel(·)表示信道注意力,fsola为经信道信息增强的特征图。增强特征图像对
Figure BDA0003191239180000085
再经过特征提取单元处理、二阶信息注意力模块进行二阶信息增强后,生成深层特征图对
Figure BDA0003191239180000086
Figure BDA00031912391800000812
被传入3×3卷积层完成通道调整,生成特征图对
Figure BDA0003191239180000087
3.融合模块
在融合模块中,针对上层网络输出的特征图对
Figure BDA0003191239180000088
和下层网络输出的特征图对
Figure BDA0003191239180000089
结合了空间注意力机制和信道注意力机制来生成融合特征图,如图5所示,空间注意力机制用来融合图像对中的多尺度深度特征,考虑到深层特征是三维张量,在本申请中信道注意力机制用于信道信息计算,其融合策略的数学模型可以定义为:
Figure BDA00031912391800000810
Figure BDA00031912391800000811
其中Sa(·)和Ca(·)分别代表空间注意力机制和信道注意力机制的隐函数,
Figure BDA00031912391800000813
Figure BDA00031912391800000814
表示融合特征图。
4.解码器
如图6所示,解码器包括多个上采样层、5个卷积块CD,3层3×3卷积层,2个线性整流层ReLU;5个卷积块CD中,每个卷积块CD均包含1层3×3卷积层和一层1×1卷积层,如图7所示。
5个卷积块CD采用上采样和跳转的方式相互连接,本申请以CD1,CD2,CD3,CD4和CD5分别标记5个卷积块CD,其中CD1、CD2、CD3依次连接,CD1的输入同时叠加CD2的输入和CD3的输入,CD1的输出同时叠加CD3的输入;CD4、CD5依次连接,CD4的输入一方面经过上采样层后叠加CD1的输入,另一方面叠加CD5的输入;CD4的输出经过上采样层后叠加CD2的输入,CD5的输出经过上采样层后叠加CD3的输入,CD3的输出经过上采样层后连接两个由3×3卷积层、线性整流层ReLU构成的特征提取单元,最后通过一个3×3卷积层得到输出的融合图像。卷积块CD的这种连接方式使得网络模型避免了编码器与解码器之间的语义缺失。
在本申请中,融合特征图
Figure BDA0003191239180000091
首先与经过上采样的融合特征图
Figure BDA0003191239180000095
叠加生成特征图
Figure BDA0003191239180000092
Figure BDA0003191239180000093
被传入CD1进行特征提取,同时通过跳转连接将
Figure BDA0003191239180000094
分别传入CD2和CD3作为叠加输入,以提供更加丰富的融合信息;
Figure BDA0003191239180000096
分别经过CD1与CD4的特征提取生成特征图
Figure BDA0003191239180000097
Figure BDA0003191239180000098
Figure BDA0003191239180000099
经过上采样层后与
Figure BDA00031912391800000910
Figure BDA00031912391800000911
叠加作为CD2的输入,同时特征图
Figure BDA00031912391800000914
通过跳转连接叠加CD3的输入;
Figure BDA00031912391800000912
Figure BDA00031912391800000913
叠加输入到CD5以生成深层特征图
Figure BDA00031912391800000915
CD2输出
Figure BDA00031912391800000916
Figure BDA00031912391800000917
与经上采样的
Figure BDA00031912391800000918
叠加输入到CD3生成深度特征
Figure BDA00031912391800000919
经过上采样连接后,
Figure BDA00031912391800000920
被输入到两个由3×3卷积层以及线性整流层ReLU构成的特征提取单元,最后通过一个3×3卷积层以完成融合图像重建得到融合图像F′。
在深度神经网络训练过程中,采用Adam函数对损失函数L(Θ)进行优化,损失函数定义为:
L(Θ)=LMSE+λLSSIM
上式中LMSE为均方误差函数,可表示如下:
Figure BDA0003191239180000101
其中,
Figure BDA0003191239180000102
为高清的图像,
Figure BDA0003191239180000103
为带有参数标准差为σ=5的加性高斯白噪声的图像(输入图像对中的图像),N为用于训练的输入图像数量,F(·)为隐函数表示表示提出的图像融合模型的处理;LSSIM为对图像相似度的代价函数,其定义为:
Figure BDA0003191239180000104
其中SSIM(·)为图像相似度函数,数学表达式为:
Figure BDA0003191239180000105
在上式中,μk,σj,σjk和C分别是图像k的均值,图像j的方差,图像j和k的协方差以及常数。Θ为深度学习网络参数,λ为相似度代价函数权重控制参数。经过2000次训练后,可以得到优化参数Θ′。
本申请实施例进一步提供一种终端设备,该终端设备可以为计算机、服务器;包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述基于深度学习的红外与可见光融合成像方法的步骤,例如,前述的S1至S4。
计算机程序也可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器中,并由处理器执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
本申请的实施提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述基于深度学习的红外与可见光融合成像方法的步骤,例如,前述的S1至S4。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于深度学习的红外与可见光融合成像方法,其特征在于,包括以下步骤:
针对目标同时采集相同尺寸的红外图像和可见光图像以构成目标物图像对,对目标物图像对中的子图像进行子图像对分割、预处理以及添加噪声图,将添加了噪声图的子图像对作为输入图像对输入到训练好的图像融合模型中,得到融合后的图像;
所述图像融合模型包括浅层特征提取单元、编码器、融合模块以及解码器,其中:
浅层特征提取单元用于对所述输入图像对进行浅层特征提取;
编码器为双层网络结构,包括上层网络和下层网络;其中,上层网络包括多层卷积层和线性整流层的连续堆叠和跳转连接,并在最后设置卷积层用于提取特征和重组信道;下层网络包括非局部增强模块、多层卷积层和线性整流层的连续堆叠和跳转连接,之后是一个二阶信息注意力模块和一个卷积层;
融合模块用于对上层网络输出的特征图对和下层网络输出的特征图对,结合了空间注意力机制和信道注意力机制来生成融合特征图;
解码器包括多个上采样层、多个卷积块,多层卷积层和线性整流层;其中每个卷积块包括两个卷积核大小不同的卷积层。
2.根据权利要求1所述的基于深度学习的红外与可见光融合成像方法,其特征在于,所述对目标物图像对中的子图像进行子图像对分割、预处理以及添加噪声图,包括:
对目标物图像对进行下采样处理,以分割成子图像对;对子图像对中的每个子图像进行图像块提取以及重组像素,得到预处理后的子图像对;通过随机采样的方式构建噪声图,将噪声图作为额外通道加入到预处理后的子图像对中。
3.根据权利要求1所述的基于深度学习的红外与可见光融合成像方法,其特征在于,所述浅层特征提取单元的处理过程包括:
输入图像对
Figure FDA0003191239170000011
以图像张量格式被输入到浅层特征提取单元;浅层特征提取单元包括一个卷积层和一个线性整流层ReLU,输入图像对
Figure FDA0003191239170000012
经过卷积层和线性整流层后完成浅层特征提取,得到浅层特征图对
Figure FDA0003191239170000013
4.根据权利要求1所述的基于深度学习的红外与可见光融合成像方法,其特征在于,所述上层网络中的多层卷积层和线性整流层的连续堆叠和跳转连接,包括:
每一个卷积层和一个线性整流层ReLU构成一个特征提取单元,共4个特征提取单元;第一个特征提取单元的输入是浅层特征图对,第二个特征提取单元的输入是第一个特征提取单元的输出以及浅层特征图对,第三个特征提取单元的输入是第二个特征提取单元的输出、第一个特征提取单元的输出以及浅层特征图对,第四个特征提取单元的输入是第三个特征提取单元的输出、第二个特征提取单元的输出、第一个特征提取单元的输出以及浅层特征图对,从而构成连续堆叠和跳转连接。
5.根据权利要求1所述的基于深度学习的红外与可见光融合成像方法,其特征在于,非局部增强模块包括图像划分层和四个卷积层,在编码器的下层网络中,浅层特征图对
Figure FDA0003191239170000021
首先被图像划分层划分图块,分别生成m×m个相同大小的图块,每个被划分出的特征图块均进行非局部特征增强,非局部特征增强的数学模型为:
Figure FDA0003191239170000022
其中,i是要计算的浅层特征图的特征位置索引,N为浅层特征图的位置索引个数;j是特征图中所有可能位置的索引,
Figure FDA0003191239170000023
表示第t个特征图块的第i个位置,
Figure FDA0003191239170000024
表示增强后的
Figure FDA0003191239170000025
Figure FDA0003191239170000026
分别表示非局部增强模块中的卷积处理,
Figure FDA0003191239170000027
Wψ,Wω,和Wρ为非局部增强模块中的四个卷积层学习到的权重;
每个增强后的特征图块
Figure FDA0003191239170000028
最终合并为特征图张量,生成增强特征图像对
Figure FDA0003191239170000029
经过下层网络中的卷积层和线性整流层ReLU的连续堆叠和跳转连接的处理后,进入二阶信息注意力模块。
6.根据权利要求1所述的基于深度学习的红外与可见光融合成像方法,其特征在于,所述二阶信息注意力模块包括依次连接的归一化层,池化层,卷积层,线性整流层ReLU,卷积层,门控层Sigmoid;
增强特征图像对
Figure FDA0003191239170000031
被传入二阶信息注意力模块,通过考虑二阶统计量信道的特征信息来自适应的学习特征间依赖关系,重新调整通道。
7.根据权利要求1所述的基于深度学习的红外与可见光融合成像方法,其特征在于,所述融合模块的数学模型为:
Figure FDA0003191239170000032
Figure FDA0003191239170000033
其中Sa(·)和Ca(·)分别代表空间注意力机制和信道注意力机制的隐函数,
Figure FDA0003191239170000034
Figure FDA0003191239170000035
表示融合特征图,
Figure FDA0003191239170000036
为上层网络输出的特征图对,
Figure FDA0003191239170000037
为下层网络输出的特征图对。
8.根据权利要求1所述的基于深度学习的红外与可见光融合成像方法,其特征在于,所述卷积块有5个,记为CD1至CD5;每个卷积块均包含1层3×3卷积层和一层1×1卷积层;
5个卷积块CD采用上采样和跳转的方式相互连接,其中CD1、CD2、CD3依次连接,CD1的输入同时叠加CD2的输入和CD3的输入,CD1的输出同时叠加CD3的输入;CD4、CD5依次连接,CD4的输入一方面经过上采样层后叠加CD1的输入,另一方面叠加CD5的输入;CD4的输出经过上采样层后叠加CD2的输入,CD5的输出经过上采样层后叠加CD3的输入,CD3的输出经过上采样层后连接两个由3×3卷积层、线性整流层ReLU构成的特征提取单元,最后通过一个3×3卷积层得到输出的融合图像。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现根据权利要求1至8中任一权利要求所述基于深度学习的红外与可见光融合成像方法的步骤。
10.一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其特征在于,计算机程序被处理器执行时实现根据权利要求1至8中任一权利要求所述基于深度学习的红外与可见光融合成像方法的步骤。
CN202110878885.5A 2021-08-02 2021-08-02 一种基于深度学习的红外与可见光融合成像方法 Active CN113487530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110878885.5A CN113487530B (zh) 2021-08-02 2021-08-02 一种基于深度学习的红外与可见光融合成像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110878885.5A CN113487530B (zh) 2021-08-02 2021-08-02 一种基于深度学习的红外与可见光融合成像方法

Publications (2)

Publication Number Publication Date
CN113487530A true CN113487530A (zh) 2021-10-08
CN113487530B CN113487530B (zh) 2023-06-16

Family

ID=77945059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110878885.5A Active CN113487530B (zh) 2021-08-02 2021-08-02 一种基于深度学习的红外与可见光融合成像方法

Country Status (1)

Country Link
CN (1) CN113487530B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116723412A (zh) * 2023-08-10 2023-09-08 四川玉米星球科技有限公司 一种照片中背景光影均化方法及文本拍摄扫描***
CN116824462A (zh) * 2023-08-30 2023-09-29 贵州省林业科学研究院 一种基于视频卫星的森林智能防火方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160093034A1 (en) * 2014-04-07 2016-03-31 Steven D. BECK Contrast Based Image Fusion
WO2020243967A1 (zh) * 2019-06-06 2020-12-10 深圳市汇顶科技股份有限公司 人脸识别的方法、装置和电子设备
CN113034408A (zh) * 2021-04-30 2021-06-25 广东工业大学 一种红外热成像深度学习图像去噪方法及装置
CN113033630A (zh) * 2021-03-09 2021-06-25 太原科技大学 一种基于双非局部注意力模型的红外与可见光图像深度学习融合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160093034A1 (en) * 2014-04-07 2016-03-31 Steven D. BECK Contrast Based Image Fusion
WO2020243967A1 (zh) * 2019-06-06 2020-12-10 深圳市汇顶科技股份有限公司 人脸识别的方法、装置和电子设备
CN113033630A (zh) * 2021-03-09 2021-06-25 太原科技大学 一种基于双非局部注意力模型的红外与可见光图像深度学习融合方法
CN113034408A (zh) * 2021-04-30 2021-06-25 广东工业大学 一种红外热成像深度学习图像去噪方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程永翔;刘坤;贺钰博;: "基于卷积神经网络与视觉显著性的图像融合", 计算机应用与软件, no. 03, pages 231 - 236 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116723412A (zh) * 2023-08-10 2023-09-08 四川玉米星球科技有限公司 一种照片中背景光影均化方法及文本拍摄扫描***
CN116723412B (zh) * 2023-08-10 2023-11-10 四川玉米星球科技有限公司 一种照片中背景光影均化方法及文本拍摄扫描***
CN116824462A (zh) * 2023-08-30 2023-09-29 贵州省林业科学研究院 一种基于视频卫星的森林智能防火方法
CN116824462B (zh) * 2023-08-30 2023-11-07 贵州省林业科学研究院 一种基于视频卫星的森林智能防火方法

Also Published As

Publication number Publication date
CN113487530B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN112347859A (zh) 一种光学遥感图像显著性目标检测方法
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及***
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN113487530A (zh) 一种基于深度学习的红外与可见光融合成像方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、***及设备
CN114511798B (zh) 基于transformer的驾驶员分心检测方法及装置
US20240161304A1 (en) Systems and methods for processing images
CN116229452B (zh) 一种基于改进的多尺度特征融合的点云三维目标检测方法
CN116596792B (zh) 一种面向智能船舶的内河雾天场景恢复方法、***及设备
CN116311254B (zh) 一种恶劣天气情况下的图像目标检测方法、***及设备
CN112085717B (zh) 一种用于腹腔镜手术的视频预测方法及其***
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN115861650A (zh) 基于注意力机制和联邦学习的阴影检测方法、装置
CN115578262A (zh) 基于afan模型的偏振图像超分辨率重建方法
CN112926552B (zh) 基于深度神经网络的遥感影像车辆目标识别模型及方法
CN110555877B (zh) 一种图像处理方法、装置及设备、可读介质
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及***
CN116823908A (zh) 一种基于多尺度特征相关性增强的单目图像深度估计方法
CN115797782A (zh) 一种基于加权扩展特征金字塔的遥感图像小目标检测方法
Chen et al. Exploring efficient and effective generative adversarial network for thermal infrared image colorization
CN117576483B (zh) 基于多尺度卷积自编码器的多源数据融合地物分类方法
CN114842012B (zh) 基于位置意识u型网络的医学图像小目标检测方法及装置
CN116883232A (zh) 图像处理方法、装置、电子设备、存储介质及程序产品
Kong et al. Color subspace exploring for natural image matting
CN117788515A (zh) 一种结合注意力机制和加权响应的单目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant