CN113487530A

CN113487530A - 一种基于深度学习的红外与可见光融合成像方法

Info

Publication number: CN113487530A
Application number: CN202110878885.5A
Authority: CN
Inventors: 程良伦; 李卓; 吴衡
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-10-08
Anticipated expiration: 2041-08-02
Also published as: CN113487530B

Abstract

本申请公开了一种基于深度学习的红外与可见光融合成像方法，包括：针对目标同时采集相同尺寸的红外图像和可见光图像以构成目标物图像对，对目标物图像对中的子图像进行子图像对分割、预处理以及添加噪声图，将添加了噪声图的子图像对作为输入图像对输入到训练好的图像融合模型中，得到融合后的图像；所述图像融合模型包括浅层特征提取单元、编码器、融合模块以及解码器。本申请考虑了源图像含噪这一普遍事实，并将其作为实际成像应用的前提，在融合图像过程中进行图像去噪，有效避免了源图像对中的噪点被引入融合图像；本申请非常有利于红外与可见光融合及深度学习技术的应用研究，其有望在医学成像和夜间监测等领域得到广泛应用。

Description

一种基于深度学习的红外与可见光融合成像方法

技术领域

本申请涉及图像融合领域，具体涉及一种基于深度学习的红外与可见光融合成像方法。

背景技术

红外热成像以目标热辐射信息为输入，在光照不足时也可探测目标并根据辐射的差异将目标与背景区分开来。可见光传感器利用物体反射率对目标进行成像，可以提供具有高分辨率和清晰纹理细节的图像。红外与可见光成像***可以同时反应同一目标物的不同属性，从不同的方面提供场景信息，在军事、视频监控、汽车辅助驾驶、森林防火等领域都有广泛的应用。

近年来，随着红外与可见光成像技术被广泛应用，进一步提高了多模态传感器的信息利用率和成像***的可靠工作时间，但也暴露了一些问题，例如：红外热图像成像质量差、对比度低且噪声干扰严重；可见光图像容易受光照不足、雾和其他恶劣天气的影响；大多数成像***生成的图像均存在噪声干扰。因此，基于红外与可见光成像***的图像融合方法在图像信息融合领域显得格外重要，开发先进的图像融合算法非常有助于信息融合技术的应用与发展。

发明内容

本申请的目的是提供一种基于深度学习的红外与可见光融合成像方法，用以解决红外与可见光成像***中红外成像质量差、噪声干扰严重以及可见光图像易受恶劣天气影响的问题。

为了实现上述任务，本申请采用以下技术方案：

本申请第一方面提供了一种基于深度学习的红外与可见光融合成像方法，包括以下步骤：

针对目标同时采集相同尺寸的红外图像和可见光图像以构成目标物图像对，对目标物图像对中的子图像进行子图像对分割、预处理以及添加噪声图，将添加了噪声图的子图像对作为输入图像对输入到训练好的图像融合模型中，得到融合后的图像；

所述图像融合模型包括浅层特征提取单元、编码器、融合模块以及解码器，其中：

浅层特征提取单元用于对所述输入图像对进行浅层特征提取；

编码器为双层网络结构，包括上层网络和下层网络；其中，上层网络包括多层卷积层和线性整流层的连续堆叠和跳转连接，并在最后设置卷积层用于提取特征和重组信道；下层网络包括非局部增强模块、多层卷积层和线性整流层的连续堆叠和跳转连接，之后是一个二阶信息注意力模块和一个卷积层；

融合模块用于对上层网络输出的特征图对和下层网络输出的特征图对，结合了空间注意力机制和信道注意力机制来生成融合特征图；

解码器包括多个上采样层、多个卷积块，多层卷积层和线性整流层；其中每个卷积块包括两个卷积核大小不同的卷积层。

进一步地，所述对目标物图像对中的子图像进行子图像对分割、预处理以及添加噪声图，包括：

对目标物图像对进行下采样处理，以分割成子图像对；对子图像对中的每个子图像进行图像块提取以及重组像素，得到预处理后的子图像对；通过随机采样的方式构建噪声图，将噪声图作为额外通道加入到预处理后的子图像对中。

进一步地，所述浅层特征提取单元的处理过程包括：

输入图像对

以图像张量格式被输入到浅层特征提取单元；浅层特征提取单元包括一个卷积层和一个线性整流层ReLU，输入图像对

经过卷积层和线性整流层后完成浅层特征提取，得到浅层特征图对

进一步地，所述上层网络中的多层卷积层和线性整流层的连续堆叠和跳转连接，包括：

每一个卷积层和一个线性整流层ReLU构成一个特征提取单元，共4个特征提取单元；第一个特征提取单元的输入是浅层特征图对，第二个特征提取单元的输入是第一个特征提取单元的输出以及浅层特征图对，第三个特征提取单元的输入是第二个特征提取单元的输出、第一个特征提取单元的输出以及浅层特征图对，第四个特征提取单元的输入是第三个特征提取单元的输出、第二个特征提取单元的输出、第一个特征提取单元的输出以及浅层特征图对，从而构成连续堆叠和跳转连接。

进一步地，非局部增强模块包括图像划分层和四个卷积层，在编码器的下层网络中，浅层特征图对

首先被图像划分层划分图块，分别生成m×m个相同大小的图块，每个被划分出的特征图块均进行非局部特征增强，非局部特征增强的数学模型为:

其中，i是要计算的浅层特征图的特征位置索引，N为浅层特征图的位置索引个数；j是特征图中所有可能位置的索引，

表示第t个特征图块的第i个位置，

表示增强后的

分别表示非局部增强模块中的卷积处理，

W_ψ，W_ω，和W_ρ为非局部增强模块中的四个卷积层学习到的权重；

每个增强后的特征图块

最终合并为特征图张量，生成增强特征图像对

经过下层网络中的卷积层和线性整流层ReLU的连续堆叠和跳转连接的处理后，进入二阶信息注意力模块。

进一步地，所述二阶信息注意力模块包括依次连接的归一化层，池化层，卷积层，线性整流层ReLU，卷积层，门控层Sigmoid；

增强特征图像对

被传入二阶信息注意力模块，通过考虑二阶统计量信道的特征信息来自适应的学习特征间依赖关系，重新调整通道。

进一步地，所述融合模块的数学模型为：

其中Sa(·)和Ca(·)分别代表空间注意力机制和信道注意力机制的隐函数，

和

表示融合特征图，

为上层网络输出的特征图对，

为下层网络输出的特征图对。

进一步地，所述卷积块有5个，记为CD1至CD5；每个卷积块均包含1层3×3卷积层和一层1×1卷积层；

5个卷积块CD采用上采样和跳转的方式相互连接，其中CD1、CD2、CD3依次连接，CD1的输入同时叠加CD2的输入和CD3的输入，CD1的输出同时叠加CD3的输入；CD4、CD5依次连接，CD4的输入一方面经过上采样层后叠加CD1的输入，另一方面叠加CD5的输入；CD4的输出经过上采样层后叠加CD2的输入，CD5的输出经过上采样层后叠加CD3的输入，CD3的输出经过上采样层后连接两个由3×3卷积层、线性整流层ReLU构成的特征提取单元，最后通过一个3×3卷积层得到输出的融合图像。

第二方面，本申请提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，处理器执行计算机程序时实现前述第一方面的基于深度学习的红外与可见光融合成像方法的步骤。

第三方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现前述第一方面的基于深度学习的红外与可见光融合成像方法的步骤。

与现有技术相比，本申请具有以下技术特点：

本申请方法中，网络结构被设计为双层结构提取红外和可见图像的深度特征映射；融合策略将空间和信道注意力机制进行结合以生成更加丰富的融合特征图；嵌套连接架构应用在本申请的融合网络中来避免编码器与解码器之间的语义缺陷；噪声估计图被添加到深度学习融合网络中以实现去噪功能，使模型在融合图像的过程中进行去噪。相比现有技术，本申请考虑了源图像含噪这一普遍事实，并将其作为实际成像应用的前提，在融合图像过程中进行图像去噪，有效避免了源图像对中的噪点被引入融合图像。本申请非常有利于红外与可见光融合及深度学习技术的应用研究，其有望在医学成像和夜间监测等领域得到广泛应用。

附图说明

图1为本申请实施例中方法执行的流程示意图；

图2为实施例中经预处理所得到的图像，将1×320×240的红外与可见光图像对处理为5×160×120的图像对，噪声图M作为额外通道将添加到输入中；

图3为实施例中深度神经网络架构示意图，其最终结果为融合后的图像；

图4为实施例中网络解码器示意图，对红外与可见光图像进行特征提取生成特征图对；

图5为实施例中融合策略示意图，由空间与信道注意力机制组合形成；

图6为实施例中网络编码器示意图；

图7为实施例中卷积块CD示意图，由1层3×3卷积层和1层1×1卷积层构成。

具体实施方式

本申请提供了一种基于深度学习的红外与可见光融合成像方法，该方法提高了成像质量并且有效去除图像中的噪声干扰，使图像中目标突出，纹理清晰，便于更准确的识别目标，更利于成像***的全天候工作。

如图1所示，本申请使用深度学习图像融合方法处理目标物图像对，利用红外与可见光成像***拍摄被测目标物图像生成红外与可见光图像对，对目标图像对进行处理，其融合过程分为以下步骤：

S1，针对目标同时采集相同尺寸的红外图像和可见光图像以构成目标物图像对，对目标物图像对进行下采样处理，以分割成子图像对。

本申请中，对于大小均为n_ch×h×w的目标物图像对(I_ir,I_vis)进行一次下采样分割，形成4n_ch×h/2×w/2的子图像对；其中I_ir为红外图像，I_vis为可见光图像，n_ch为信道，h为高度，w为宽度。

S2，对子图像对中的每个子图像进行图像块提取以及重组像素，得到预处理后的子图像对。

该步骤中，对每个子图像(红外图像和可见光图像)取2×2图像块，并在输出图像的不同通道中重组其像素得到预处理后的子图像对

其数学模型可以表示如下：

上述表达式中，c为图像信道，x为图像像素横坐标，y为图像像素纵坐标，其中0≤c≤4n_ch，0≤x≤h，0≤y≤w。本申请的之后处理将在以上缩小的规模下实施。

S3，通过随机采样的方式构建噪声图，将噪声图作为额外通道加入到预处理后的子图像对中。

从噪声标准差为[σ₁,σ₂)均匀分布中随机采样出n_ch×h×w大小的样本，来构建噪声图M。噪声图M将作为额外通道添加到输入图像

和

中；该噪声图控制了降噪和细节保留之间的权衡；例如本实施例中，采用[0,75)的均匀分布。

经上述步骤预处理，得到目标图像大小为(4n_ch+n_ch)×h/2×w/2的红外与可见光图像的子图像对

其示意图如图2所示。

S4，将添加了噪声图的子图像对作为输入图像对输入到训练好的图像融合模型中，得到融合后的图像。

将添加了噪声图的子图像对

作为图3所示图像融合模型的输入，最终输出融合后的图像，其数学模型可以表示为：

上述表达式中，I_f为融合图像，F(·)为一个隐函数，表示图像融合模型；本实施例中该模型为卷积神经网络模型。

参见图3，本申请所提出的图像融合模型，从左到右，该模型依次包括：浅层特征提取单元、编码器、融合模块、解码器。各模块介绍如下：

1.浅层特征提取单元

输入图像对

以图像张量格式被输入到图像融合模型中的浅层特征提取单元；浅层特征提取单元包括一个3×3卷积层和一个线性整流层ReLU，输入图像对

2.编码器

本申请提供了一种编码器模块结构用于提取输入图像对的深度特征图，如图4所示，编码器为双层网络结构，包括上层网络和下层网络；浅层特征图对

被分别传入双层网络中的上层网络与下层网络以生成4个深层特征图；其中：

2.1上层网络

上层网络从左到右包括4层3×3卷积层和线性整流层ReLU的连续堆叠和跳转连接，并在最后设置1层3×3卷积层用于提取特征和重组信道。其中连续堆叠和跳转连接是指，每一个3×3卷积层和一个线性整流层ReLU构成一个特征提取单元，共4个特征提取单元；第一个特征提取单元的输入是浅层特征图对，第二个特征提取单元的输入是第一个特征提取单元的输出以及浅层特征图对，第三个特征提取单元的输入是第二个特征提取单元的输出、第一个特征提取单元的输出以及浅层特征图对，第四个特征提取单元的输入是第三个特征提取单元的输出、第二个特征提取单元的输出、第一个特征提取单元的输出以及浅层特征图对，从而构成连续堆叠和跳转连接。

在编码器中，浅层特征图对

被传入上层网络进行深度特征提取，经过上层网络的最后一个卷积层后生成特征图对

2.2下层网络

下层网络从左到右包括非局部增强模块、4层3×3卷积层和线性整流层ReLU的连续堆叠和跳转连接，之后是一个二阶信息注意力模块，1层3×3卷积层；下层网络中也是有4个特征提取单元，其中第一个特征提取单元的输入是浅层特征图对

经过非局部增强模块后的输出，而该输出以及后续4个特征提取单元的输出则作为二阶信息注意力模块的输入；中间4个特征提取单元的连续堆叠和跳转连接与上层网络是类似的，在此不赘述。

(a)非局部增强模块

本申请中，非局部增强模块包括图像划分层和4个1×1卷积层。在编码器的下层网络中，浅层特征图对

首先被图像划分层划分图块，分别生成m×m个相同大小的图块，划分过程如下：

h₁＝h/m,w₁＝w/m

上述表达式中，h₁和w₁分别为被划分后的图像块大小，h为高度，w为宽度；

代表浅层特征图划分成的第k个特征图块，每个被划分出的特征图块均进行非局部特征增强，非局部特征增强的数学模型可表示为:

其中，i是要计算的浅层特征图的特征位置索引，N＝h×w/k²为浅层特征图的位置索引个数；j是特征图中所有可能位置的索引，

表示第t个特征图块的第i个位置，

表示增强后的

分别表示非局部增强模块中的其中3个1×1卷积层的卷积处理，

W_ψ，W_ω，和W_ρ为非局部增强模块中的四个1×1卷积层学习到的权重。

每个增强后的特征图块

最终合并为特征图张量，生成增强特征图像对

经过下层网络中4层3×3卷积层和线性整流层ReLU的连续堆叠和跳转连接的处理后，进入二阶信息注意力模块。

(b)二阶信息注意力模块

本申请中的二阶信息注意力模块，包括依次连接的归一化层，池化层，3×3卷积层，线性整流层ReLU，3×3卷积层，门控层Sigmoid。

增强特征图像对

经过四个特征提取单元处理后，被传入二阶信息注意力模块，通过考虑二阶统计量信道的特征信息来自适应的学习特征间依赖关系，重新调整通道，其数学模型可表示为：

f^sola＝Channel(Cov(f^R))

其中，f^R表示增强特征图像，Cov(·)表示协方差归一化，Channel(·)表示信道注意力，f^sola为经信道信息增强的特征图。增强特征图像对

再经过特征提取单元处理、二阶信息注意力模块进行二阶信息增强后，生成深层特征图对

被传入3×3卷积层完成通道调整，生成特征图对

3.融合模块

在融合模块中，针对上层网络输出的特征图对

和下层网络输出的特征图对

结合了空间注意力机制和信道注意力机制来生成融合特征图，如图5所示，空间注意力机制用来融合图像对中的多尺度深度特征，考虑到深层特征是三维张量，在本申请中信道注意力机制用于信道信息计算，其融合策略的数学模型可以定义为：

和

表示融合特征图。

4.解码器

如图6所示，解码器包括多个上采样层、5个卷积块CD，3层3×3卷积层，2个线性整流层ReLU；5个卷积块CD中，每个卷积块CD均包含1层3×3卷积层和一层1×1卷积层，如图7所示。

5个卷积块CD采用上采样和跳转的方式相互连接，本申请以CD1，CD2，CD3，CD4和CD5分别标记5个卷积块CD，其中CD1、CD2、CD3依次连接，CD1的输入同时叠加CD2的输入和CD3的输入，CD1的输出同时叠加CD3的输入；CD4、CD5依次连接，CD4的输入一方面经过上采样层后叠加CD1的输入，另一方面叠加CD5的输入；CD4的输出经过上采样层后叠加CD2的输入，CD5的输出经过上采样层后叠加CD3的输入，CD3的输出经过上采样层后连接两个由3×3卷积层、线性整流层ReLU构成的特征提取单元，最后通过一个3×3卷积层得到输出的融合图像。卷积块CD的这种连接方式使得网络模型避免了编码器与解码器之间的语义缺失。

在本申请中，融合特征图

首先与经过上采样的融合特征图

叠加生成特征图

被传入CD1进行特征提取，同时通过跳转连接将

分别传入CD2和CD3作为叠加输入，以提供更加丰富的融合信息；

分别经过CD1与CD4的特征提取生成特征图

和

经过上采样层后与

和

叠加作为CD2的输入，同时特征图

通过跳转连接叠加CD3的输入；

与

叠加输入到CD5以生成深层特征图

CD2输出

与经上采样的

叠加输入到CD3生成深度特征

经过上采样连接后，

被输入到两个由3×3卷积层以及线性整流层ReLU构成的特征提取单元，最后通过一个3×3卷积层以完成融合图像重建得到融合图像F′。

在深度神经网络训练过程中，采用Adam函数对损失函数L(Θ)进行优化，损失函数定义为：

L(Θ)＝L_MSE+λL_SSIM

上式中L_MSE为均方误差函数，可表示如下：

其中，

为高清的图像，

为带有参数标准差为σ＝5的加性高斯白噪声的图像(输入图像对中的图像)，N为用于训练的输入图像数量，F(·)为隐函数表示表示提出的图像融合模型的处理；L_SSIM为对图像相似度的代价函数，其定义为：

其中SSIM(·)为图像相似度函数，数学表达式为：

在上式中，μ_k，σ_j，σ_jk和C分别是图像k的均值，图像j的方差，图像j和k的协方差以及常数。Θ为深度学习网络参数，λ为相似度代价函数权重控制参数。经过2000次训练后，可以得到优化参数Θ′。

本申请实施例进一步提供一种终端设备，该终端设备可以为计算机、服务器；包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述基于深度学习的红外与可见光融合成像方法的步骤，例如，前述的S1至S4。

计算机程序也可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器中，并由处理器执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

本申请的实施提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述基于深度学习的红外与可见光融合成像方法的步骤，例如，前述的S1至S4。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。