CN112200887B

CN112200887B - 一种基于梯度感知的多聚焦图像融合方法

Info

Publication number: CN112200887B
Application number: CN202011079638.0A
Authority: CN
Inventors: 班晓娟; 印象; 马博渊; 黄海友
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2023-08-01
Anticipated expiration: 2040-10-10
Also published as: CN112200887A

Abstract

本发明提供一种基于梯度感知的多聚焦图像融合方法，属于图像处理及人工智能领域。所述方法包括：获取多对待融合图像及其标注组成训练集；其中，每对待融合图像指两张同一场景下已配准的具有不同聚焦区域的图像；构建图像融合模型；利用得到的训练集，采用基于梯度感知的损失函数训练所述图像融合模型；采用训练好的所述图像融合模型对新的待融合图像进行图像融合。采用本发明，能够在去除复杂的后处理操作的同时，提高融合结果的质量。

Description

一种基于梯度感知的多聚焦图像融合方法

技术领域

本发明涉及图像处理及人工智能领域，特别涉及是指一种基于梯度感知的多聚焦图像融合方法。

背景技术

近年来，多聚焦图像融合是图像融合领域里的一个重要研究分支，在科研、军事、医疗、数码摄像等领域都发挥着重要的作用。由于光学传感器的固有特性，使得单次拍摄只能保证在对焦区域内的目标区域呈现清晰的像，其他区域呈现模糊的像，所以很难在一个镜头内将深度距离相差很大的物体全部聚焦。在实际应用中，往往采用多聚焦图像融合方法通过融合具有不同聚焦区域的多张图像来获得最终的全聚焦图像。

随着深度学***评估方法以及图像融合策略较为困难的问题。但是该算法引入了小区域移除策略等后处理操作来对预测得到的决策图进行矫正，这不但引入了较多难调节的超参数，而且由于后处理操作的不可导，导致算法无法进行端到端训练，降低了算法对于不同场景下图像融合的泛化性。Zhang等人通过引入编码器-解码器结构的全卷积网络来进行图像融合[Zhang Y,Liu Y,Sun P,Yan H,Zhao X,ZhangL.IFCNN:A general image fusion framework based on convolutional neuralnetwork[J].Information Fusion,2020,54:99-118]，去掉了复杂的后处理操作使算法实现了端到端的训练。但是由于解码器部分的非线性特性，导致其很难准确地重构融合结果。

在多聚焦图像融合任务中待融合图像梯度信息直接反映了其聚焦程度信息，聚焦区域往往具有相对较高梯度滤波响应而失焦区域往往具有相对较低梯度滤波响应。但现有的许多深度学习方法大多使用L2范数以及结构相似性(Structural Similarity，SSIM)来设计损失函数，没有考虑到约束融合图像对与待融合图像梯度信息的保留程度，致使融合效果不佳。

发明内容

本发明实施例提供了基于梯度感知的多聚焦图像融合方法，能够在去除复杂的后处理操作的同时，提高融合结果的质量。所述技术方案如下：

一方面，提供了一种基于梯度感知的多聚焦图像融合方法，该方法应用于电子设备，该方法包括：

获取多对待融合图像及其标注组成训练集；其中，每对待融合图像指两张同一场景下已配准的具有不同聚焦区域的图像；

构建图像融合模型；

利用得到的训练集，采用基于梯度感知的损失函数训练所述图像融合模型；

采用训练好的所述图像融合模型对新的待融合图像进行图像融合。

进一步地，所述获取多对待融合图像及其标注组成训练集包括：

按照人工标注图像的前景和背景区域划分，对原始图像的前景和背景区域进行随机模糊，得到原始图像的全失焦图像；其中，人工标注图像为真值决策图；

以人工标注图像为决策矩阵，对原始图像及其全失焦图像进行加权融合，生成前景聚焦图像与背景聚焦图像，其中，同一原始图像的前景聚焦图像与背景聚焦图像作为两张待融合图像构成一对待融合图像；

将多对待融合图像及其人工标注图像组成的图像集，按照预设的比例分为训练集与验证集。

进一步地，加权融合方法为：

img_A＝GT×img_Origin+(1-GT)×img_Blur

img_B＝GT×img_Blur+(1-GT)×img_Origin

其中，img_Origin、img_Blur分别为原始图像及其全失焦图像，GT为人工标注图像，img_A、img_B分别为生成的前景聚焦图像与背景聚焦图像。

进一步地，每对待融合图像包括：待融合图像A和待融合图像B；

所述图像融合模型包括：

第一图像特征提取模块，用于提取待融合图像A的特征；

第二图像特征提取模块，用于提取待融合图像B的特征；

图像特征融合模块，用于融合待融合图像A、B的特征，并生成最终预测决策图；

图像像素融合模块，用于依据所述最终预测决策图生成图像融合结果。

进一步地，每个图像特征提取模块包括：四层卷积层，在每个卷积层后引入通道注意力机制；

在每一层通道注意力机制后将第一图像特征提取模块和第二图像特征提取模块提取到的特征分别计算空间频率，并进行空间频率融合得到融合特征，将不同尺度的融合特征在通道维度拼接后送入图像特征融合模块。

进一步地，融合特征的计算方法为：

其中，分别为第一图像特征提取模块、第二图像特征提取模块第i个尺度下各自计算空间频率的结果，SFⁱ为对/>和/>进行空间频率融合得到的融合特征，k为超参数。

进一步地，所述图像特征融合模块包括：初始预测决策图生成单元和最终预测决策图生成单元；其中，

所述初始预测决策图生成单元，用于根据拼接后的融合特征生成初始预测决策图；其中，所述初始预测决策图生成单元包括：四个卷积层，在每个卷积层后引入空间注意力机制；

所述最终预测决策图生成单元，用于利用导向滤波对初始预测决策图进行处理；还用于对初始预测决策图进行模糊操作，对模糊后的初始预测决策图进行阈值操作，得到边界图；还用于利用边界图对初始预测决策图及其经过导向滤波后的结果进行加权处理，得到最终预测决策图：

DM_F＝(1-BM)×DM_I+BM×DM_IGF

其中，BM为边界图，DM_I与DM_IGF分别为初始预测决策图及其经过导向滤波后的结果，DM_F为最终预测决策图；

所述图像像素融合模块，用于利用最终预测决策图对待融合图像A、待融合图像B进行加权融合，得到最终融合结果：

F＝DM_F×img_A+(1-DM_F)×img_B

其中，img_A、img_B分别为待融合图像A、待融合图像B，F为最终融合结果。

进一步地，基于梯度感知的损失函数L表示为：

L＝L_Dice+λL_QG

其中，L_Dice和L_QG分别用于计算初始预测决策图损失和最终融合结果中的梯度保留损失，λ为平衡L_Dice和L_QG两个损失项的系数。

进一步地，L_Dice表示为：

其中，p_i为最终预测决策图像素i处的结果，g_i为真值决策图中像素i处的结果，N为待融合图像A中的像素数目。

进一步地，L_QG表示为：

其中，N为待融合图像A中的像素数目，分别表示待融合图像A到最终融合结果F的软化边界方向相对值、软化边界强度相对值，/>表示使用Sobel算子在待融合图像A像素i处计算得到的x方向梯度，/>表示使用Sobel算子在待融合图像A像素i处计算得到的y方向梯度，/>和/>分别表示待融合图像A的幅度信息图和角度信息图，/>和/>分别表示最终融合结果的幅度信息图和角度信息图，/>和/>分别表示待融合图像A到最终融合结果F的幅度保留图和角度保留图，k_g、k_α、σ_g和σ_α都表示超参数，/>表示根据待融合图像A到最终融合结果F的幅度保留图和角度保留图计算得到的梯度保留图，/>表示根据待融合图像B到最终融合结果F的幅度保留图和角度保留图计算得到的梯度保留图，/>表示待融合图像B的幅度信息图，形式/>k为超参数。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于梯度感知的多聚焦图像融合方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于梯度感知的多聚焦图像融合方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，获取多对待融合图像及其标注组成训练集；其中，每对待融合图像指两张同一场景下已配准的具有不同聚焦区域的图像；构建图像融合模型；利用得到的训练集，采用基于梯度感知的损失函数训练所述图像融合模型；采用训练好的所述图像融合模型对新的待融合图像进行图像融合。这样，能够在端到端训练的前提下生成融合结果，去除了复杂的后处理操作，提高了方法本身对于不同应用场景下泛化性，且采用基于梯度感知的损失函数可驱使图像融合模型在训练过程中保留待融合图像中的梯度信息，以便获得高质量的多聚焦融合结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于梯度感知的多聚焦图像融合方法的流程示意图；

图2为本发明实施例提供的多聚焦图像示意图；

图3为本发明实施例提供的图像融合模型工作流程示意图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，本发明实施例提供了一种基于梯度感知的多聚焦图像融合方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器，该方法包括：

S1，获取多对待融合图像及其标注组成训练集；其中，每对待融合图像指两张同一场景下已配准的具有不同聚焦区域的图像；

S2，构建图像融合模型；

S3，利用得到的训练集，采用基于梯度感知的损失函数训练所述图像融合模型；

S4，采用训练好的所述图像融合模型对新的待融合图像进行图像融合。

本发明实施例所述的基于梯度感知的多聚焦图像融合方法，获取多对待融合图像及其标注组成训练集；其中，每对待融合图像指两张同一场景下已配准的具有不同聚焦区域的图像；构建图像融合模型；利用得到的训练集，采用基于梯度感知的损失函数训练所述图像融合模型；采用训练好的所述图像融合模型对新的待融合图像进行图像融合。这样，能够在端到端训练的前提下生成融合结果，去除了复杂的后处理操作，提高了方法本身对于不同应用场景下泛化性，且采用基于梯度感知的损失函数可驱使图像融合模型在训练过程中保留待融合图像中的梯度信息，以便获得高质量的多聚焦融合结果。

本实施例中，所述多对待融合图像及其标注由COCO数据集计算得来。本实施例从COCO数据集中筛选得到的前景只有一个物体且前景大小在20000-170000像素之间的原始图像及其人工标注图像，如图2中“卡车”原始图像与人工标注图像所示。

在前述基于梯度感知的多聚焦图像融合方法的具体实施方式中，进一步地，所述获取多对待融合图像及其标注组成训练集具体可以包括以下步骤：

S11，按照人工标注图像的前景和背景区域划分，对原始图像的前景和背景区域进行随机模糊，得到原始图像的全失焦图像；其中，人工标注图像为真值决策图；

本实施例中，原始图像为真值融合结果。

本实施例中，随机模糊操作指采用标准差为2、半径为随机1-8的高斯核对原始图像的前景和背景区域进行模糊，得到原始图像的全失焦图像。

S12，以人工标注图像为决策矩阵，对原始图像及其全失焦图像进行加权融合，生成前景聚焦图像与背景聚焦图像，其中，同一原始图像的前景聚焦图像与背景聚焦图像作为具有不同聚焦区域的两张待融合图像，从而构成一对待融合图像，例如，图2中的前景聚焦图像与背景聚焦图像所示的多聚焦图像数据作为两张待融合图像；

本实施例中，加权融合方法为：

img_A＝GT×img_Origin+(1-GT)×img_Blur

img_B＝GT×img_Blur+(1-GT)×img_Origin

S13，将多对待融合图像及其人工标注图像组成的图像集，按照预设的比例分为训练集与验证集。

本实施例中，按照S11、S12处理后共得到5786对待融合图像及其人工标注图像组成的图像集，并按照预设的比例(例如，7：3)分为训练集与验证集。

在前述基于梯度感知的多聚焦图像融合方法的具体实施方式中，进一步地，每对待融合图像包括：待融合图像A和待融合图像B；

所述图像融合模型包括：

第一图像特征提取模块，用于提取待融合图像A的特征；

第二图像特征提取模块，用于提取待融合图像B的特征；

本实施例中，图像特征提取模块和图像特征融合模块中的算法包括：空间频率算子、梯度算子、卷积神经网络、支持向量机的一种或多种。

本实施例中，决策图指尺寸与待融合图像相同的矩阵，矩阵中每个元素的值域为[0,1]，记录着待融合图像在对应位置处元素的融合权重。

在前述基于梯度感知的多聚焦图像融合方法的具体实施方式中，进一步地，每个图像特征提取模块包括：四层卷积层，每个卷积层的结构如图3所示，在每个卷积层后引入通道注意力机制(channelly squeeze-excitation，cSE)，能够有效提高网络的特征提取能力，其结构如图3所示；

在图像特征提取模块中还引入了密集连接的操作，在融合多尺度特征的同时降低了网络参数数量。为了进一步融合有用的多尺度信息，在每一层通道注意力机制后将第一图像特征提取模块和第二图像特征提取模块提取到的特征分别计算空间频率，并进行空间频率融合得到融合特征，将不同尺度的融合特征在通道维度拼接后送入图像特征融合模块。

本实施例中，融合特征的计算方法为：

其中，分别为第一图像特征提取模块、第二图像特征提取模块第i个尺度下各自计算空间频率的结果，SFⁱ为对/>和/>进行空间频率融合得到的融合特征，k为超参数，在本实施例中k取1000。

本实施例中，所述图像特征融合模块包括：初始预测决策图生成单元和最终预测决策图生成单元；其中，

所述初始预测决策图生成单元，用于根据拼接后的融合特征生成初始预测决策图(简称：初始决策图)；其中，所述初始预测决策图生成单元包括：四个卷积层，卷积层结构如图3所示，为了提高生成的初始预测决策图的质量，减少点状噪声，在每个卷积层后引入空间注意力机制(spatially squeeze-excitation，sSE)，其结构如图3所示；

由于直接利用初始预测决策图进行融合后得到的融合结果在融合边界处会包含一些人为噪声，因此需要利用最终预测决策图生成单元来对初始预测决策图进行进一步处理，具体的：

首先，利用导向滤波(guided filtering，GF)对初始预测决策图进行处理，在保留边界的情况下得到平滑的一预测决策图；

接着，利用标准差为8半径为4的高斯核对初始预测决策图进行模糊操作，对模糊后的初始预测决策图进行阈值操作，得到边界图；其中，阈值操作表示为：

其中，BM(i,j)和DM_IB(i,j)分别为边界图和模糊后的初始预测决策图在坐标(i,j)处的值，其中i和j分别代表图中元素的横坐标和纵坐标；

最后，还用于利用边界图对初始预测决策图及其经过导向滤波后的结果进行加权处理，得到最终预测决策图(简称：最终决策图)：

DM_F＝(1-BM)×DM_I+BM×DM_IGF

其中，BM为边界图，DM_I与DM_IGF分别为初始预测决策图及其经过导向滤波后的结果，DM_F为最终预测决策图。

F＝DM_F×img_A+(1-DM_F)×img_B

本实施例中，相比于初始预测决策图，利用最终预测决策图对待融合图像进行加权融合能够在保证融合图像质量的同时有效降低融合图像融合边界处的噪声。

在前述基于梯度感知的多聚焦图像融合方法的具体实施方式中，进一步地，基于梯度感知的损失函数L表示为：

L＝L_Dice+λL_QG

其中，L_Dice和L_QG分别用于计算初始预测决策图损失和最终融合结果中的梯度保留损失，λ为平衡L_Dice和L_QG这两个损失项的系数，在本实施例中λ取1。

本实施例中，L_Dice采用Dice系数计算损失项，驱使所述图像融合模型生成的最终预测决策图与所述真值决策图相同。

在前述基于梯度感知的多聚焦图像融合方法的具体实施方式中，进一步地，L_Dice表示为：

其中，p_i为最终预测决策图像素i的预测结果(具体指：融合权重)，g_i为真值决策图中像素i的真值结果，N为待融合图像A中的像素数目。

本实施例中，将多聚焦图像融合任务中用于评估融合结果相对于待融合图像中边缘保留程度的指标Q_G改写为可导的损失函数L_QG。现有技术中，Q_G仅作为图像融合评估指标，而且计算过程不可导，难以作为损失函数训练所述图像融合模型。

本实施例中，Q_G评价指标改写为L_QG的过程主要包括软化Q_G计算中不可导的计算步骤以及将软化后的Q_G改写为损失函数形式。

其中，表示使用Sobel(索贝尔)算子在待融合图像A像素i处计算得到的x方向梯度，/>表示使用Sobel算子在待融合图像A像素i处计算得到的y方向梯度，所述x方向和y方向分别代表图像和横轴和纵轴；/>和/>分别表示待融合图像A的幅度信息图和角度信息图。

原本Q_G在计算待融合图像A与最终融合结果F边界强度相对值(RelativeStrength)时采用如下方式计算：

其中，g_A，g_F分别为待融合图像A与最终融合结果F利用Sobel边缘算子进行滤波后计算得到的边缘强度。由于这一步计算是不可导的，网络训练时无法进行反向传播，因此采用如下方式对这一步计算进行软化：

依据幅度信息图和角度信息图分别计算待融合图像A到最终融合结果F的幅度保留图和角度保留图/>

其中，和/>分别表示最终融合结果的幅度信息图和角度信息图，/>分别表示待融合图像A到最终融合结果F的软化边界方向相对值、软化边界强度相对值，/>和/>分别表示待融合图像A到最终融合结果F的幅度保留图和角度保留图；形式k为超参数，超参数k用来控制软化后的结果与原始计算结果的近似程度，k值越大则软化结果与原始计算结果越接近，为了取得较好的近似结果在本实施例中k取1000；k_g、k_α、σ_g和σ_α都表示超参数，超参数k_g、k_α、σ_g和σ_α控制幅度保留图和角度保留图的重要性比例。

根据待融合图像A到最终融合结果F的幅度保留图和角度保留图计算得到的梯度保留图

对两张待融合图像的梯度保留图中的所有像素加权平均，得到L_QG的表达式为：

其中，Q’_G代表软化后的Q_G评估指标，N为待融合图像A中的像素数目，表示根据待融合图像B到最终融合结果F的幅度保留图和角度保留图计算得到的梯度保留图，/>表示待融合图像B的幅度信息图。

本实施例中，利用得到的训练集，采用基于梯度感知的损失函数训练所述图像融合模型，具体可以包括以下步骤：

S31，将得到的训练集中的图像尺寸统一为224*224并转化为灰度图；

S32，对统一尺寸并转化为灰度图的训练集进行数据增广操作，具体可以包括以下步骤：

S321，将训练集中的图像进行随机剪裁到156*156大小；

S322，对随机剪裁后的图像分别以0.5的概率进行水平翻转与竖直翻转；

S323，将翻转后的图像进行随机旋转；

在本实施例中，随机的角度从0°、30°、60°、90°、120°、150°、180°、210°、240°、270°、300°、330°中等概率随机选择。

S324，将随机旋转后的图像进行随机模糊操作。

S33，以经过数据增广操作后得到的图像作为最终训练数据按照基于梯度感知的损失函数对所述图像融合模型进行训练，并取验证集上损失值最低点为最优图像融合模型(其中，损失值越低，代表预测结果与真实结果越像)。

本实施例中，图像融合模型训练的超参数设置如下：初始学习率为1×10^-4，学习率每两轮下降为原先的0.8，批尺寸(batch size)为16，共训练50轮，优化器选用Adam(Adaptive moment estimation，自适应矩估计)。图像融合模型训练时以0.5的概率随机交换前景聚焦图像与背景聚焦图像的输入顺序，来提高图像融合模型对输入数据顺序的鲁棒性。

本实施例中，采用训练好的所述图像融合模型对新的待融合图像进行图像融合。由于训练时采用的是灰度图像因此在推理时需要先将新的待融合图像进行灰度化预处理。

在本实施例中，通过收集26对待融合图像进行测试，以本领域内常用的6种无监督评估方法Q_g、Q_y、Q_ncie、Q_cb、FMI_edge和FMI_dct为评估指标(上述指标越高则代表图像融合方法的性能越高)，对本领域内常用的多种经典的多聚焦图像融合方法进行测试，同时为了对比算法的效率，本实施例在同一硬件配置机器上进一步对比了多种方法的执行时间，其中执行时间越短越好，不同方法性能评估结果如表1所示，其中，加粗字体代表性能最好的结果。。

表1不同方法性能评估结果

由表1可得，本实施例提供的方法在多个不同指标下均取得了性能优异的结果，同时执行时间排名第二，说明本发明提供的方法可有效应用于实践。

图4是本发明实施例提供的一种电子设备600的结构示意图，该电子设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)601和一个或一个以上的存储器602，其中，所述存储器602中存储有至少一条指令，所述至少一条指令由所述处理器601加载并执行以实现上述基于梯度感知的多聚焦图像融合方法。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于梯度感知的多聚焦图像融合方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于梯度感知的多聚焦图像融合方法，其特征在于，包括：

构建图像融合模型；

采用训练好的所述图像融合模型对新的待融合图像进行图像融合；

其中，每对待融合图像包括：待融合图像A和待融合图像B；

所述图像融合模型包括：

第一图像特征提取模块，用于提取待融合图像A的特征；

第二图像特征提取模块，用于提取待融合图像B的特征；

图像像素融合模块，用于依据所述最终预测决策图生成图像融合结果；

其中，每个图像特征提取模块包括：四层卷积层，在每个卷积层后引入通道注意力机制；

在每一层通道注意力机制后将第一图像特征提取模块和第二图像特征提取模块提取到的特征分别计算空间频率，并进行空间频率融合得到融合特征，将不同尺度的融合特征在通道维度拼接后送入图像特征融合模块；

其中，融合特征的计算方法为：

其中，分别为第一图像特征提取模块、第二图像特征提取模块第i个尺度下各自计算空间频率的结果，SFⁱ为对/>和/>进行空间频率融合得到的融合特征，k为超参数；

其中，所述图像特征融合模块包括：初始预测决策图生成单元和最终预测决策图生成单元；其中，

DM_F＝(1-BM)×DM_I+BM×DM_IGF

F＝DM_F×img_A+(1-DM_F)×img_B

2.根据权利要求1所述的基于梯度感知的多聚焦图像融合方法，其特征在于，所述获取多对待融合图像及其标注组成训练集包括：

3.根据权利要求2所述的基于梯度感知的多聚焦图像融合方法，其特征在于，加权融合方法为：

img_A＝GT×img_Origin+(1-GT)×img_Blur

im_g＝GT×img_Blur+(1-GT)×img_Origin

4.根据权利要求1所述的基于梯度感知的多聚焦图像融合方法，其特征在于，基于梯度感知的损失函数L表示为：

L＝L_Dice+λL_QG

5.根据权利要求4所述的基于梯度感知的多聚焦图像融合方法，其特征在于，L_Dice表示为：

6.根据权利要求4所述的基于梯度感知的多聚焦图像融合方法，其特征在于，L_QG表示为：