CN116681636B

CN116681636B - 基于卷积神经网络的轻量化红外与可见光图像融合方法

Info

Publication number: CN116681636B
Application number: CN202310924379.4A
Authority: CN
Inventors: 彭成磊; 洪宇宸; 苏鸿丽; 刘知豪; 潘红兵; 王宇宣
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-12-12
Anticipated expiration: 2043-07-26
Also published as: CN116681636A

Abstract

本发明公开了基于卷积神经网络的轻量化红外与可见光图像融合方法，属于图像处理和计算机视觉领域。本发明方法先进行图像配准，然后根据可见光图像的平均亮度是否低于某阈值来判断是否进行增强网络EnhanceNet处理，再将可见光Y分量与灰度图格式的红外图像分别输入到融合网络FusionNet中得到融合结果Y’，再进行格式转化得到最终融合图像。本发明将低光照图像增强与图像融合耦合在一起，使得本发明算法在低照度场景下也能实现良好的融合效果。本发明中的增强网络与融合网络都是参数量和计算量小、推理速度快的轻量化卷积神经网络，适合部署到资源受限的嵌入式设备。

Description

基于卷积神经网络的轻量化红外与可见光图像融合方法

技术领域

本发明涉及基于卷积神经网络的轻量化红外与可见光图像融合方法，属于图像处理和计算机视觉领域。

背景技术

卷积神经网络长期以来是图像识别领域的核心算法之一，并在学习数据充足时有稳定的表现，对于一般的大规模图像分类问题，卷积神经网络可用于构建阶层分类器（hierarchical classifier），也可以在精细分类识别（fine-grained recognition）中用于提取图像的判别特征以供其它分类器进行学习。对于后者，特征提取可以人为地将图像的不同部分分别输入卷积神经网络，也可以由卷积神经网络通过非监督学习自行提取。

评价轻量化指的是卷积神经网络的参数量小，学术界对于一个深度学习模型的参数量达到多小才能被称为轻量化并没有一个确切的、量化的定义，现在公认的轻量化卷积神经网络，比如MobileNet-v1的参数量为4.2M；ShuffleNet V2的参数量为2M。

现有的红外与可见光图像融合方法都是针对正常光照条件下设计的，因此忽略了夜间可见光图像中光照退化的困难，具体来说，在弱光条件下，以往的融合方法只使用红外信息来填补可见光图像中由光照退化造成的场景缺陷。因此，夜间可见光图像中丰富的场景信息无法在融合图像中表达出来，这偏离了红外和可见光图像融合任务的初衷。

一个直观的解决方案是使用先进的弱光增强算法对可见光图像进行预增强，然后通过融合方法合并源图像，但是，将图像增强和图像融合作为单独的任务，往往会导致不兼容的问题，导致融合结果较差，主要原因是：夜间可见光图像本身就有轻微的颜色失真，而低光增强算法改变了光源的颜色分布，并在一定程度上放大了整个图像的颜色失真，此外，在融合过程中，由于在Y通道中采用的融合策略改变了源图像的饱和度分布，融合图像也会发生颜色失真。因此，有必要设计一个适用于夜间场景的融合方法，它能在保证模型轻量化与高实时性的同时，提高红外和可见光图像的融合效果，减少融合图像的噪声、色彩失真以及伪影等现象。

发明内容

为了解决上述背景技术提到的技术问题，本发明提供了一种轻量化的、适用于低照度场景的红外与可见光图像融合卷积神经网络。本发明设计了一个增强网络，用于改善光照退化问题、优化图像亮度分布、增强对比度和纹理细节，它能够在不过分放大噪声的同时丰富融合图像中的可见光场景信息；此外，本发明的架构设计充分考虑了低光照图像增强与图像融合之间的内在联系，不仅减小了色彩失真，而且能够有效地将两个问题耦合在一起。

为了实现上述目的，本发明采取了如下技术方案：

基于卷积神经网络的轻量化红外与可见光图像融合方法，包括如下步骤：

S1：对同一场景下、在相近位置采集的一对红外图像与可见光图像进行图像配准，使得二者的匹配点在空间上对齐；

S2：将可见光图像由RGB格式转为YUV格式；

S3：判断可见光图像的平均亮度是否低于某阈值，若是则用增强网络EnhanceNet对其Y分量进行低光照图像增强；否则直接进入下一步骤；

S4：将经过增强或未经过增强的可见光Y分量与灰度图格式的红外图像分别输入到融合网络FusionNet的可见光分支与红外分支，经过处理后得到融合结果Y’；

S5：将融合结果Y’与原来可见光图像的UV分量组成的YUV格式图像转为RGB格式，得到最终的融合图像。

在一种实施方式中，所述步骤S1中的图像配准具体流程为：用Canny算子提取边缘，然后用SURF算法检测两幅边缘图像的特征点，根据正确的匹配点对之间斜率（方向）一致性的先验知识，进行特征点匹配，最后用随机采样一致性RANSAC算法剔除误匹配点并估计用于坐标系变换的单应性矩阵，用该矩阵与其中一张待配准图像相乘并裁剪后得到与另一张图像对齐的结果；涉及到多模态配准的概念，因为可见光图像是RGB格式，而红外图像是灰度格式，这种情况比一般的图像配准更具有挑战性，本发明只考虑涉及到刚性变换的红外与可见光图像配准方法。

在一种实施方式中，所述步骤S2中是将所有像素的亮度值除以255，并按如下公式将RGB格式转换为YUV格式（更准确地说其实是YUV颜色空间家族中的YCbCr格式）：

在一种实施方式中，所述步骤S3需要用增强网络EnhanceNet对平均亮度较低的图像进行增强处理，而对于那些在光照条件较好时拍摄的图像则不做该处理。

在一种实施方式中，S3中的平均亮度，其中I_vi表示可见光图像，H、W、C分别表示可见光图像的高、宽、通道数，若/>小于0.25，则用增强网络EnhanceNet对其Y分量进行低光照图像增强。

在一种实施方式中，所述增强网络EnhanceNet是一个用于低光照图像增强的轻量化卷积神经网络，结构非常紧凑而简单；所述增强网络EnhanceNet仅包含卷积层与残差连接，激活函数除了最后三个分支的输出层采用Tanh外其他层均采用ReLU。

在一种实施方式中，所述低光照图像是将其像素值归一化到之间后输入增强网络EnhanceNet，对于图像经过三个卷积层处理后的特征图，利用两个在同一层级上进行宽度拓展的多感受野卷积模块对其进行不同尺寸上的特征提取与特征聚合，然后将得到的特征图按通道维度拆分成三个分支，每个分支再进行两次卷积操作，最后通过Tanh激活函数输出用于调整图像像素值的五个亮度映射曲线参数图，分别为单通道的/>、/>、/>、/>、/>。

在一种实施方式中，所述多感受野卷积模块中，1*1卷积用于降维；一个分支上通过串联两个3*3卷积核来达到5*5的感受野；在同一层级上分出多个分支，分别用具有不同感受野大小的卷积核组合来对输入特征图进行特征提取，并以通道拼接的方式进行特征聚合，经过1*1卷积核的降维后与原来的特征图进行残差连接，得到最终的输出特征图。

在一种实施方式中，所述亮度映射曲线参数图是二维矩阵，用于对低光照图像的亮度值进行非线性变换，其中：是关于输入图像的三次多项式的一个参数，迭代调用该三次多项式，可以构建一个更高阶的亮度映射曲线，该曲线用于将原始图像不同像素的亮度分别映射到新的亮度上，而高阶多项式具有更强的表达能力，使调整结果具有更高的动态范围；/>和/>分别用于对数变换与伽马变换；将输入的低光照图像经过/>、/>、/>亮度映射后的三张中间图用三个权重参数图/>、/>、/>进行加权求和，得到最终的增强图像。

在一种实施方式中，所述步骤S4中的融合网络FusionNet是一个完成红外与可见光图像融合的轻量化卷积神经网络，其网络结构由特征提取部分、融合操作与图像重建部分组成；所述特征提取部分由两个卷积层和一个残差卷积模块所构成，其中残差卷积模块由两个卷积层和一个残差连接所组成，特征提取部分的权重参数为红外分支与可见光分支所共享，参数共享有助于减小参数量和引导卷积层学***均池化，使空间特征降维至1*1的尺寸，然后使用全连接层-ReLU-全连接层-Hard Sigmoid计算得到每个通道的权重系数，最后用该系数与原始特征图的每一个通道进行逐通道乘法，完成通道注意力对原始特征的重新标定；所述图像重建部分由两个残差卷积模块和两个卷积层所构成，与特征提取部分不同的是，这里的残差卷积模块使用了压缩-激励通道注意力机制。

在一种实施方式中，所述融合网络FusionNet的卷积层实际上是由深度可分离卷积-批归一化操作-ReLU激活函数三种基本操作组成的。

在一种实施方式中，所述步骤S5中将融合结果Y’与原来可见光图像的UV分量组成的YUV格式图像按如下公式转为RGB格式，得到最终的融合图像。

本发明还提供一种所述基于卷积神经网络的轻量化红外与可见光图像融合方法的神经网络训练方法，是基于增强网络EnhanceNet和融合网络FusionNet的二阶段的联合训练方法，利用图像增强与图像融合问题之间的内在关联将这两个子网络耦合起来成为一个整体网络。

在一种实施方式中，所述增强网络EnhanceNet的训练方法是先用RGB格式的低光照图像数据集对其进行有监督式的预训练，此时损失函数由重建损失、结构相似性损失和平滑度损失组成，引入平滑度损失的出发点是为了抑制噪声；然后用红外与可见光图像融合数据集中的低光照可见光图像的Y分量对其进行无监督式的微调，此时损失函数由空间一致性损失、曝光控制损失和平滑度损失组成。

在一种实施方式中，所述融合网络FusionNet的训练方法是采用自监督学习，损失函数由强度损失、纹理损失、色彩一致性损失和自适应结构相似性损失组成，虽然输入融合网络FusionNet的是增强后的可见光Y分量，但色彩一致性损失参考的是增强之前的RGB格式的可见光图像，这一损失项的引入不仅减小了色彩失真，而且能够有效地将增强问题和融合问题耦合在一起。

本发明还提供一种基于卷积神经网络的轻量化红外与可见光图像融合***，用于执行本发明的红外与可见光图像融合方法，包括：

增强网络EnhanceNet，用于对整体照度较低的可见光图像进行低光照图像增强；

融合网络FusionNet，用于将可见光图像的Y分量与红外灰度图像融合成为Y’；

RGB转YUV模块与YUV转RGB模块，用于完成彩色图像YUV格式与RGB格式之间的相互转换。

本发明还提供一种电子设备，包括存储器和处理器，以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成本发明所述的红外与可见光图像融合方法。

本发明的一种基于卷积神经网络的轻量化红外与可见光图像融合方法，涉及的背景技术主要包括图像配准、低光照图像增强和红外与可见光图像融合，下面依次展开简要介绍。

（1）图像配准。待融合的两张图像需要在几何结构上严格对齐，才能保证正常的融合效果，这要求在图像融合前添加一个称为图像配准的预处理步骤。图像配准是将在不同时间、从不同角度和/或由不同传感器拍摄的同一场景的图像（两个或多个）进行对齐、叠加的过程，图像融合效果通常严重依赖于图像配准的效果，所以必须保证采取一个好的图像配准算法。对红外与可见光图像的配准涉及到多模态配准的范畴，要求将纹理细节、边缘、显著区域等几何结构有着较大区别的红外灰度图和可见光彩色RGB图进行对齐。总体而言，红外与可见光图像配准的方法主要有两类：基于区域的配准方法（又称模板匹配法，代表算法包括：相关性方法、傅里叶变换、互信息、梯度信息等）与基于特征的配准方法（常见方法有：基于点特征、基于轮廓边缘、基于视觉显著特征和基于区域特征的图像配准方法）。其中基于特征的方法首先提取两组显著结构(如特征点)，然后确定它们之间的对应关系，并据此估计空间变换，从而进一步用于配准给定的图像对。与基于区域的方法相比，基于特征的方法在处理典型的外观变化和场景移动时具有更强的鲁棒性，此外如果软件实现较为合理，计算效率也会比较高。一般来说，基于特征的方法包括特征提取和特征匹配两个主要步骤，前者指的是对显著性目标的检测，而后者指的是在被检测到的特征之间建立对应关系。

（2）低光照图像增强。在照度较低的场景下拍摄的可见光图像称为低光照图像，对于人眼主观感受而言，这类图像普遍具有整体亮度和对比度低、色彩和纹理细节模糊甚至丢失的问题，若将这种低光照图像直接用于与红外图像的融合，容易导致融合图像无法很好地利用来自可见光图像的互补信息，从而视觉质量较低，所以有必要考虑在融合之前先对这类可见光图像进行低光照图像增强的处理。低光照图像增强是计算机视觉领域的底层任务，是指运用计算机技术对照明不足的图像中存在的低亮度、低对比度、噪声、伪影等问题进行处理，从而提升视觉质量，并且保持原图中物体的纹理、结构、色彩信息。

（3）红外与可见光图像融合。红外传感器通过捕获物体的热辐射信息成像，即使在光线不足、极端的条件、恶劣的天气以及部分遮挡的情况下也能够有效地突出显著目标。但是红外图像无法提供足够的环境信息，如纹理细节、环境照明等。与之相反，可见光传感器通过收集物体表面的反射光成像，因此可见光图像包含丰富的纹理细节信息并更加符合人类的视觉感知。红外和可见光图像融合旨在整合源图像中的互补信息并生成既能突出显著目标又包含丰富纹理细节的高对比度融合图像，实验表明，这种多模态融合图像有利于提升后续高层视觉任务的处理效果，比如目标检测、目标追踪、模式识别、语义分割等。主流的红外与可见光图像融合方法根据应用不同的理论主要分为6大类，分别是基于多尺度变换的方法，基于稀疏表示的方法，基于神经网络的方法，基于子空间的方法，基于显著性的方法以及将前述几种方法结合起来的混合方法。其中不采用神经网络的传统方法需要手动设计融合规则（例如逐像素相加、逐像素加权求和、最大选择策略与系数组合法），这种人为设计的融合规则通常比较粗糙，融合重建图像的工作与特征提取的工作无法很好地衔接，导致融合结果容易受到主观先验的干扰，无法有效地保留源图像的重要信息，甚至会产生伪影等瑕疵，而基于卷积神经网络的端到端图像融合框架是一种避免手动设计融合规则带来的弊端的技术路线，这类方法通常依靠精心设计的网络结构和损失函数来隐式地实现特征提取、特征融合和图像重建。

本发明的优点和效果：

（1）本发明中的两个卷积神经网络（增强网络EnhanceNet和融合网络FusionNet）都非常轻量化，增强网络EnhanceNet和融合网络FusionNet参数量分别为5.006K和4.34800K，计算效率高，实时性强，使得本发明算法在部署到资源有限的嵌入式设备时在占用资源小的同时也能达到较高的推理速度。

（2）本发明方法并不是把增强网络和融合网络简单串在一起，应该说它们是一个整体网络中相互耦合的两个子模块，而且可以根据可见光图像的平均亮度大小决定是否对其进行低光增强，因为如果可见光图像本身已经比较亮了，再对其低光增强反而会破坏其色彩分布。本发明将低光照图像增强与图像融合耦合在一起，使得本发明算法在低照度场景下也能实现良好的融合效果。

（3）总体而言，本发明提出的融合方法可以增强低光照可见光图像的亮度与对比度，丰富融合图像中的可见光场景信息，在保持纹理细节和原有色彩的同时提高显著热目标的辨识度。

附图说明

图1是用本发明方法进行红外与可见光图像融合的流程示意图。

图2是增强网络EnhanceNet的结构示意图，卷积核上方的数字表示输出特征图的通道数。

图3是融合网络FusionNet的结构示意图，卷积核上方的数字表示输出特征图的通道数。

图4是本发明一个实施例中选自某一数据集的一张拍摄于夜间的红外图像。

图5是本发明一个实施例中选自某一数据集的与图4配对的一张可见光图像。

图6是用本发明的增强网络EnhanceNet对图5进行低光照图像增强的结果。

图7是用本发明的融合网络FusionNet对图4和图6进行红外与可见光图像融合的结果。

具体实施方式

以下结合附图对本发明方案进行详细说明。

实施例1：

如图1所示，是用本发明方法进行红外与可见光图像融合的流程示意图，同时也是整体网络结构图，可以看到整体网络由增强网络和融合网络两个子网络所构成。

S1：对同一场景下、在相近位置采集的一对红外图像与可见光图像进行图像配准，使得二者的匹配点在空间上对齐。采用的配准算法具体流程为：对红外图像和可见光图像分别用Canny算子提取边缘，然后用SURF算法检测两幅边缘图像的特征点，根据正确的匹配点对之间斜率（方向）一致性的先验知识，进行特征点匹配，最后用随机采样一致性RANSAC算法剔除误匹配点并估计用于坐标系变换的单应性矩阵，用该矩阵与其中一张待配准图像相乘并裁剪后得到与另一张图像对齐的结果。

S2：归一化可见光图像，即将所有像素的亮度值除以255，并按如下公式将RGB格式转换为YUV格式（更准确地说其实是YUV颜色空间家族中的YCbCr格式）：

S3：计算可见光图像的归一化平均亮度，其中I_vi表示可见光图像，H、W、C分别表示可见光图像的高、宽、通道数，若/>小于0.25，则用增强网络EnhanceNet对其Y分量进行低光照图像增强，下面简要介绍增强网络EnhanceNet的工作流程。

增强网络EnhanceNet仅包含卷积层与残差连接，激活函数除了最后三个分支的输出层采用Tanh外其他层均采用ReLU。如图2所示，低光照图像将其像素值归一化到[0,1]之间后输入增强网络EnhanceNet，对于图像经过三个卷积层（3x3 cov）处理后的特征图，利用两个在同一层级上进行宽度拓展的多感受野卷积模块对其进行不同尺寸上的特征提取与特征聚合，然后将得到的特征图按通道维度拆分成三个分支，每个分支再进行两次卷积操作，最后通过Tanh激活函数输出用于调整图像像素值的五个亮度映射曲线参数图，其中第一个分支输出A，第二个分支输出和/>，第三个分支输出/>和/>，如图2所示。需要指出，输出/>所采用的激活函数实际上是/>，这是为了将它们的值限制在[0,0.5]之间，而输出/>,/>采用的激活函数为/>，值域为[0,1]。

所述亮度映射曲线参数图是二维矩阵，用于对低光照图像的亮度值进行非线性变换，其中：A重复用于构建一个高阶亮度映射曲线，总共需要4次迭代，每轮迭代都是由一个三次函数作为亮度增强曲线对图像进行亮度映射，具体过程可由如下公式表示：

其中LE表示亮度增强图，x表示像素坐标，下标n表示迭代轮次，取值为0、1、2、3、4，表示总共有4次迭代，取为输入的低光照图像/>，/>表示增强网络中的一个分支输出的亮度映射曲线参数图，这一公式的含义就是用一个相同的三次函数对上一轮迭代的亮度增强图进行进一步的亮度调整，相当于用该三次函数将图像中每一通道内的像素点的亮度值映射成为一个新的值，此即亮度映射曲线的含义。由三次函数进行4次迭代产生的高阶曲线比较光滑，可以在局部产生更大的曲率，因此具有更强的亮度调整能力，这样才能应对各种复杂的低照度场景。

根据上述三次函数迭代生成的高阶亮度映射曲线满足以下3个条件：（1）增强图像的每个像素值应落在[0,1]的归一化范围内，以避免溢出截断导致的信息丢失；（2）该曲线应保持单调，以保留相邻像素的差异(对比度)；（3）该曲线形式应尽可能简单，且在梯度反向传播过程中具有可微性。

用于对低光照图像的对数变换，具体过程可由如下公式表示：

其中表示低光照图像，/>表示低光照图像中的最大像素值，/>表示对数变换后的图像；/>表示哈达玛积，即矩阵按元素相乘。

G ₂用于对低光照图像的伽马变换，具体过程可由如下公式表示：

其中x表示像素坐标，伽马变换就是以低光照图像像素值为底数，以对应位置的值为指数，进行幂运算。

将用、/>、/>对低光照图像进行非线性亮度映射得到的亮度优化结果分别记为/>、、/>，用权重参数图/>、/>、/>对它们进行加权求和，这样的处理相当于集成了三种非线性亮度映射曲线的优势，计算公式如下：

其中表示哈达玛积，即矩阵按元素相乘；/>中的1在计算过程中会广播为一个形状与低光照图像相同、元素全为1的矩阵；/>即增强网络EnhanceNet对低光照图像的增强结果。

需要补充一个细节，增强网络EnhanceNet的输入是一个单通道图，当处理灰度图或YUV格式彩色图的Y分量时可以直接输入网络，但是预训练阶段使用的是RGB格式图像，这时需要将R、G、B三个颜色通道分别输入网络进行处理，把输出的三个单通道图拼接成RGB格式得到增强结果。

表1展示了增强网络EnhanceNet在分辨率为640*480的真实数据集上测试得到的评估指标（↑表示数值越大越好，反之↓表示数值越小越好），测试平台为Linux，NVIDIAGeForce RTX 3090。从表中数据可以看到即便在参数量很小的情况下，增强网络EnhanceNet得到的PSNR和SSIM指标依然是可观的。得益于模型轻量化的特点，增强网络EnhanceNet的推理速度非常快，这是它的一大优势。

表1 增强网络EnhanceNet的评估指标

S4：将经过增强或未经过增强的可见光Y分量与红外灰度图（即灰度图格式的红外图像）分别输入到融合网络FusionNet的可见光分支与红外分支，经过处理后得到融合结果Y’，下面简要介绍融合网络FusionNet的工作流程。

如图3所示，融合网络FusionNet是一个完成红外与可见光图像融合的轻量化卷积神经网络，其网络结构由特征提取部分、融合操作与图像重建部分组成，基本的卷积层是由深度可分离卷积-批归一化操作-ReLU激活函数三种基本操作组成的。

融合网络FusionNet的特征提取部分包括红外、可见光两个分支，两个分支使用的是结构相同、权重共享的同一套卷积层，具体来说是由两个卷积层和一个残差卷积模块所构成，其中残差卷积模块由两个卷积层和一个残差连接所组成。

融合网络FusionNet的融合操作引入了压缩-激励通道注意力机制：将红外分支与可见光分支输出的特征图按通道进行拼接，引出一个分支，先对其进行全局平均池化，使空间特征降维至1*1的尺寸，然后使用全连接层-ReLU-全连接层-Hard Sigmoid计算得到每个通道的权重系数，最后用该系数与原始特征图的每一个通道进行逐通道乘法，完成通道注意力对原始特征的重新标定。

融合网络FusionNet的图像重建部分由两个残差卷积模块和两个卷积层所构成，与特征提取部分不同的是，这里的残差卷积模块使用了压缩-激励通道注意力机制，输出层采用的是1*1卷积，激活函数采用f(X)=，以限制像素值在[0, 1]之间。激活函数的输出就是融合结果Y’，Y’=FusionNet(Y,I_ir)，I_ir表示红外图像。

表2展示了融合网络FusionNet在分辨率为640*480的真实数据集上测试得到的评估指标（↑表示数值越大越好，反之↓表示数值越小越好），测试平台为Linux，NVIDIAGeForce RTX 3090。需要特别指出的是，对于那些拍摄于夜间场景的图像，计算FusionNet融合效果的评估指标时参考的可见光图像是经过增强网络EnhanceNet处理后的RGB图像，而对于那些在光照条件良好时拍摄的图像，参考的是原始的RGB格式可见光图像。从表中数据可以看到，与增强网络EnhanceNet类似，融合网络FusionNet在参数量很小和平均推理时间很短的情况下，在性能指标上也能取得良好的表现。

表2 融合网络FusionNet的评估指标，↑表示数值越大越好，反之↓表示数值越小越好

S5：将融合结果Y’与原来可见光图像的UV分量组成的YUV格式图像按如下公式转为RGB格式，得到最终的融合图像。

本发明中，在训练增强网络EnhanceNet和融合网络FusionNet时采用二阶段的联合训练策略，旨在利用图像增强与图像融合问题之间的内在关联将这两个子网络耦合起来成为一个整体网络。下面展开详细介绍。

（1）训练增强网络EnhanceNet

先用RGB格式的低光照图像数据集对其进行有监督式的预训练，此时损失函数由重建损失、结构相似性损失和平滑度损失组成，引入平滑度损失的出发点是为了抑制噪声；然后用红外与可见光图像融合数据集中的低光照可见光图像的Y分量对其进行无监督式的微调，此时损失函数由空间一致性损失、曝光控制损失和平滑度损失组成。具体地，

首先需要进行有监督式的预训练，此时数据集采用的是RGB格式的低光照图像，损失函数由如下公式表示：

其中、/>、/>是各损失项的权重系数，是可调参数；/>为重建损失，GT为正常曝光的真实图像，E为低光照增强后的图像，/>、/>表示图像的高宽，该损失函数表征输出图像与真实图像之间逐像素的绝对值误差；/>为结构相似性损失，/>，/>和/>分别表示真实图像和输出图像的均值，/>表示真实图像和输出图像之间的协方差，/>和/>分别表示真实图像和输出图像的方差，/>和/>是常数，该损失函数表征输出图像与真实图像之间的结构相似性；为平滑度损失，/>和/>分别表示水平方向和垂直方向上的梯度算子，该损失函数用于抑制噪声，防止低光照图像的噪声强度在增强后过分放大。

完成预训练后，在使用红外与可见光图像融合数据集进行二阶段的联合训练时，对融合网络FusionNet进行从头开始的训练，而对EnhanceNet作无监督的微调，这里采用无监督学习的原因是融合数据集中的可见光图像没有配对的正常光照图像。此外，微调阶段需要先将RGB格式的可见光图像转为YUV格式，仅将其中的Y分量传入EnhanceNet，也就是说，预训练阶段增强的是RGB格式的图像，而微调阶段增强的是YUV图像中的Y分量，增强后的Y分量将直接作为融合网络FusionNet的输入。微调阶段采用的损失函数由如下公式表示：

其中、/>、/>是各损失项的权重系数，是可调参数，用于平衡不同损失的尺度；/>是空间一致性损失，通过保留输入图像与增强图像之间的相邻区域的差异来促进增强图像的空间相干性，/>和/>分别表示增强前后的可见光Y分量，/>表示一个形状为4*4的方形区域，K为图像中非重叠方形区域的总数，表示该区域的上、下、左、右4个相同形状的邻域，/>和/>分别表示增强图像和输入图像在4*4方形区域内的平均亮度值；/>是曝光控制损失，用于衡量增强图像中16*16局部区域的平均强度值/>到良好曝光水平/>之间的差距，/>是一个可调的先验值，k表示增强图像中16*16非重叠局部区域的索引值，M表示增强图像中非重叠局部区域的总数；/>是平滑度损失，作用与预训练阶段的平滑度损失相同，其中/>、/>分别表示水平方向和竖直方向上的梯度值，/>和/>分别表示水平方向和竖直方向上的Sobel梯度算子。

微调阶段在损失函数上的设计相比于预训练阶段的主要改动为：删去了依赖参考图像的重建损失和结构相似性损失；增加了空间一致性损失；增加了带有可调先验参数/>的曝光控制损失，调节这一参数可以使融合结果中可见光部分的亮度分布更适合于人眼的主观感受。

（2）训练融合网络FusionNet

训练融合网络FusionNet时采用自监督学习，损失函数由强度损失、纹理损失、色彩一致性损失和自适应结构相似性损失组成，虽然输入融合网络FusionNet的是增强后的可见光Y分量，但色彩一致性损失参考的是增强之前的RGB格式的可见光图像，这一损失项的引入不仅减小了色彩失真，而且能够有效地将增强问题和融合问题耦合在一起。具体地，

采用的损失函数由如下公式表示：

其中、/>、/>、/>是各损失项的权重系数，是可调参数；是强度损失，/>、/>表示图像的高宽，max表示逐元素的最大值选择策略，/>、/>和/>分别表示融合图像Y分量、增强后的可见光Y分量与红外图像；是纹理损失，实验发现融合图像的最佳纹理可以表示为红外和可见光图像纹理的逐元素最大值集合，故纹理损失用于迫使融合图像包含更多的纹理细节，式中/>表示Sobel梯度算子；/>是色彩一致性损失，/>表示输入整体网络之前、也即未经过增强的原始可见光图像，/>表示/>与原始UV拼接起来进行格式转换后的RGB图像，/>、/>分别表示融合图像与可见光图像在(i, j)位置上由RGB值组成的三维向量，该项损失函数通过约束图像增强与图像融合分别可能引起的色彩失真把两个问题耦合在了一起；/>是针对图像融合问题改进后的自适应结构相似性损失，其中，N表示计算SSIM时滑动窗口的总数，出发点是：结构相似性指标SSIM是用一个尺寸固定的滑动窗口/>去计算图像中与/>重叠区域的SSIM，然后将所有滑动窗口计算得到的SSIM取平均得到的，对于融合问题，可以用无参考图像评价指标去判断哪张源图像在这一窗口内的图像质量更优，然后选优与融合图像计算 SSIM。/>表示第i个滑动窗口区域的SSIM值，计算公式如下：

其中表示在图像/>的区域/>内的平均梯度，平均梯度越大，表示该区域包含的纹理信息更显著，但是对于那些像素值变化不是很明显的连续区域，在红外图像与可见光Y分量中对应窗口的平均梯度可能相差很小，所以在评价哪个源图像在该滑动窗口内的图像质量更优时，有必要以亮度信息作为额外的补充，具体做法是将可见光Y分量的像素值在区域/>内比红外图像更大的比例作为可见光Y分量的平均梯度的权重系数，计算公式为：/>，/>表示可见光Y分量/>在区域/>内比红外图像像素值更大的像素点个数，/>、/>表示滑动窗口的高宽。若在区域/>内可见光Y分量的加权平均梯度大于红外图像，即，则选择可见光Y分量与融合图像计算区域/>内的，反之选择红外图像。以这种计算方法设计的自适应结构相似性损失函数可以促使融合图像既可以保留足够的纹理特征，又可以捕捉到局部亮度更大的区域，实现对源图像显著特征的融合。

综上所述，本实施例提供的红外与可见光图像融合方法包含增强网络EnhanceNet和融合网络FusionNet两大核心模块，本发明方法可以在保证模型轻量化、推理速度快的前提下，即便在处理低光照图像时也能达到一个很好的融合效果：既能增强低光照可见光图像的亮度与对比度，丰富场景信息，又能在保持纹理细节和原有色彩的同时提高显著热目标的辨识度。

本实施例进行了增强网络EnhanceNet和融合网络FusionNet两大核心模块的结合实验。图4是本实施例中选自某一数据集的一张拍摄于夜间的红外图像，图5是本发明一个实施例中选自某一数据集的与图4配对的一张可见光图像，图6是用本发明的增强网络EnhanceNet对图5进行低光照图像增强的结果，图7是用本发明的融合网络FusionNet对图4和图6进行红外与可见光图像融合的结果。

直接用融合网络进行处理得到的性能指标应该是基本没有区别的，因为在本实施例中，在计算指标时，需要以红外图像、可见光图像、融合图像作为自变量，对于那些拍摄于夜间场景的图像，计算FusionNet融合效果的评估指标时参考的可见光图像是经过增强网络EnhanceNet处理后的RGB图像，也就是说，评价融合网络性能的时候它是对可见光图像是否经过增强是无法感知的，之所以引入增强网络，主要是为了融合结果让人眼的直观感受更好一些，增强网络本身对融合网络的融合性能并没有提升。对那些本身平均亮度就比较高的图片来说，增强反而会破坏它本来的色彩分布，造成颜色失真，所以设置一个经验性的阈值来防止所有图像都经过增强。

实施例2 一种红外与可见光图像融合的电子设备

一种电子设备，包括存储器和处理器，以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1所述的红外与可见光图像融合方法。

处理器还可以称为CPU(Central Processing Unit，中央处理单元)。处理器可能是一种集成电路芯片，具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器，或者该处理器也可以是任何常规的处理器等。

进一步，存储处理器可以储存用于运行所需的指令和数据。

可选地，所述电子设备可以是笔记本电脑，服务器，开发板。

实施例3 一种计算机可读存储介质

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1所述的红外与可见光图像融合方法。

计算机可读存储介质中，存储有指令/程序数据，该指令/程序数据被执行时实现本申请实施例2所述的方法。其中，该指令/程序数据可以形成程序文件以软件产品的形式存储在上述存储介质中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

可选地，前述的存储介质可以是U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等设备。

实施例4 一种红外与可见光图像融合***

一种基于卷积神经网络的轻量化红外与可见光图像融合***，包括：

所述红外与可见光图像融合***能够实现如下方法：

S2：将可见光图像由RGB格式转为YUV格式；

S3：判断可见光图像的平均亮度是否低于某阈值，若是则用增强网络EnhanceNet对其Y分量进行低光照图像增强；

S4：将经过增强或未经过增强的可见光Y分量与红外灰度图分别输入到融合网络FusionNet的可见光分支与红外分支，经过处理后得到融合结果Y’；

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅为本发明的一种具体实施方式，并非对本发明做任何形式上的限制。应当指出，图像采集设备、图像配准方法、图像分辨率、图像内容、应用场景、用于部署本发明算法的硬件平台以及采用的深度学习框架等皆不对本发明构成限制。本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.基于卷积神经网络的轻量化红外与可见光图像融合方法，其特征在于，包括以下步骤：

S2：将可见光图像由RGB格式转为YUV格式；

S3：判断可见光图像的平均亮度是否低于阈值，若是则用增强网络EnhanceNet对其Y分量进行低光照图像增强；否则直接进入下一步骤；所述增强网络EnhanceNet仅包含卷积层与残差连接，激活函数除了最后三个分支的输出层采用Tanh外其他层均采用ReLU；所述低光照图像将其像素值归一化到之间后输入增强网络EnhanceNet，对于图像经过三个常规卷积层处理后的特征图，利用两个在同一层级上进行宽度拓展的多感受野卷积模块对其进行不同尺寸上的特征提取与特征聚合，然后将得到的特征图按通道维度拆分成三个分支，每个分支再进行两次卷积操作，最后通过Tanh激活函数输出用于调整图像像素值的五个亮度映射曲线参数图；

S4：将经过增强或未经过增强的可见光Y分量与灰度图格式的红外图像分别输入到融合网络FusionNet的可见光分支与红外分支，经过处理后得到融合结果Y’；所述融合网络FusionNet是一个完成红外与可见光图像融合的轻量化卷积神经网络，其网络结构由特征提取部分、融合操作与图像重建部分组成；其中所述融合操作引入了压缩-激励通道注意力机制，将红外分支与可见光分支输出的特征图按通道进行拼接，引出一个分支，先对其进行全局平均池化，使空间特征降维至1*1的尺寸，然后使用全连接层-ReLU-全连接层-HardSigmoid计算得到每个通道的权重系数，最后用该系数与原始特征图的每一个通道进行逐通道乘法，完成通道注意力对原始特征的重新标定；

2.根据权利要求1所述的基于卷积神经网络的轻量化红外与可见光图像融合方法，其特征在于，步骤S3需要用增强网络EnhanceNet对平均亮度低于阈值的图像进行增强处理，否则不做该处理。

3.根据权利要求1所述的基于卷积神经网络的轻量化红外与可见光图像融合方法，其特征在于，所述多感受野卷积模块中，1*1卷积用于降维；一个分支上通过串联两个3*3卷积核来达到5*5的感受野；在同一层级上分出多个分支，分别用具有不同感受野大小的卷积核组合来对输入特征图进行特征提取，并以通道拼接的方式进行特征聚合，经过1*1卷积核的降维后与原来的特征图进行残差连接，得到最终的输出特征图；所述亮度映射曲线参数图是二维矩阵，用于对低光照图像的亮度值进行非线性变换，其中：是关于输入图像的三次多项式的一个参数，迭代调用该三次多项式；/>和/>分别用于对数变换与伽马变换；将输入的低光照图像经过/>、/>、/>亮度映射后的三张中间图用三个权重参数图/>、/>、进行加权求和，得到最终的增强图像。

4.根据权利要求1所述的基于卷积神经网络的轻量化红外与可见光图像融合方法，其特征在于，所述特征提取部分由两个卷积层和一个残差卷积模块所构成，其中残差卷积模块由两个卷积层和一个残差连接所组成，特征提取部分的权重参数为红外分支与可见光分支所共享，参数共享有助于减小参数量和引导卷积层学习红外图像与可见光图像之间的相似性；所述图像重建部分由两个残差卷积模块和两个卷积层所构成，与特征提取部分不同的是，图像重建部分中的残差卷积模块使用了压缩-激励通道注意力机制；所述融合网络FusionNet的卷积层实际上是由深度可分离卷积-批归一化操作-ReLU激活函数三种基本操作组成的。

5.根据权利要求1所述的基于卷积神经网络的轻量化红外与可见光图像融合方法，其特征在于，所述方法中，对增强网络EnhanceNet和融合网络FusionNet采用二阶段的联合训练策略，利用图像增强与图像融合问题之间的内在关联将这两个子网络耦合起来成为一个整体网络；

其中第一阶段：训练增强网络EnhanceNet，先用RGB格式的低光照图像数据集进行有监督式的预训练，此时损失函数由重建损失、结构相似性损失和平滑度损失组成；然后用红外与可见光图像融合数据集中的低光照可见光图像的Y分量进行无监督式的微调，此时损失函数由空间一致性损失、曝光控制损失和平滑度损失组成；

第二阶段：训练融合网络FusionNet时采用自监督学习，损失函数由强度损失、纹理损失、色彩一致性损失和自适应结构相似性损失组成；其中，色彩一致性损失参考的是增强之前的RGB格式的可见光图像。

6.根据权利要求1所述的基于卷积神经网络的轻量化红外与可见光图像融合方法，其特征在于，所述步骤S2是将RGB格式转换为YUV格式中的YCbCr格式；步骤S5是将YUV格式中的YCbCr格式图像转为RGB格式。

7.根据权利要求1所述的基于卷积神经网络的轻量化红外与可见光图像融合方法，其特征在于，所述步骤S1中的图像配准具体流程为：用Canny算子提取边缘，然后用SURF算法检测两幅边缘图像的特征点，根据正确的匹配点对之间斜率一致性的先验知识，进行特征点匹配，最后用随机采样一致性RANSAC算法剔除误匹配点并估计用于坐标系变换的单应性矩阵，用该矩阵与其中一张待配准图像相乘并裁剪后得到与另一张图像对齐的结果。

8.一种基于卷积神经网络的轻量化红外与可见光图像融合***，用于执行权利要求1-7任一所述的红外与可见光图像融合方法，包括：

9.一种电子设备，包括存储器和处理器，以及存储在存储器上并在处理器上运行的计算机指令，其特征在于，所述计算机指令被处理器运行时，完成权利要求1-7任一所述的红外与可见光图像融合方法。

10.一种计算机可读存储介质，用于存储计算机指令，其特征在于，所述计算机指令被处理器执行时，完成权利要求1-7任一所述的红外与可见光图像融合方法。