CN113763300A

CN113763300A - 一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法

Info

Publication number: CN113763300A
Application number: CN202111047787.3A
Authority: CN
Inventors: 徐川; 杨威; 刘畅; 叶志伟; 张欢
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-07
Anticipated expiration: 2041-09-08
Also published as: CN113763300B

Abstract

本发明针对传统方法不能充分挖掘图像聚焦关联信息导致融合细节失真的问题，提出了一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法。充分利用密集卷积神经网络特征复用的优势，将多聚焦源图像进行集成实现协同聚焦特征检测。采用多尺度金字塔池化策略聚合不同聚焦区域的全局上下文信息，增强聚焦与离焦的区分能力，得到粗略融合概率决策图。进一步采用卷积条件随机场对其进行优化，获得精细化概率决策图，最终得到细节保持的融合图像。利用公开数据集对融合方法进行主观与客观评价，实验结果表明本发明方法具有较好的融合效果，能够充分挖掘聚焦关联信息、保留足够的图像细节。

Description

一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法

技术领域

本发明涉及深度学习图像处理技术领域，尤其是涉及一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法。

背景技术

在光学成像中，由于镜头景深问题导致图像中只有局部区域可以聚焦，难以获得覆盖全场景的清晰图像。而多聚焦图像融合技术通过提取多幅局部对焦图像的互补信息，将其融合成一幅全聚焦清晰图像，从而使图像质量增强，便于视觉理解、提升图像信息利用率。目前，多聚焦图像融合广泛应用于医学显微成像、机器视觉测量、机器识别、军事安防等领域。

一般来说，多聚焦图像融合方法可分为三种：基于变换域的融合方法、基于空间域的融合方法以及基于深度学习的融合方法。其中，基于多尺度变换域(Multi-ScaleTransform,MST)的图像融合方法，包括基于拉普拉斯的算法、基于小波变换的算法、基于非子采样轮廓变换(Non-Subsampled Contourlet Transform,NSCT)的算法等。其融合过程主要包括三个步骤：a.根据图像的多尺度特征，将源图像分解为高频成分和低频成分；b.选择不同的融合规则得到高融合和低融合映射；c.通过逆MST得到最终的融合映射。然而基于MST的方法在变换融合过程中会出现空间不一致性问题，易导致不同程度的失真。基于空间域的图像融合方法，主要通过线性组合进行图像融合，通常可分为三类：基于像素的、基于块的和基于目标区域的方法。然而，利用像素的梯度相关信息或图像块进行图像融合，易在融合结果中引入伪影块，导致效果不佳。典型的空间域融合方法，包括基于引导滤波图像融合方法(Guided Filtering Fusion,GFF)和图像抠图(Image Fusion based on ImageMatting,IFM)的融合方法等，虽然在图像的特征提取和细节表达方面较好，但是难以人工设定理想的融合规则。近年来出现了基于深度学习的多聚焦图像融合方法，可充分发挥其学习能力强，泛化能力强，可移植性好的优点。如刘裕等人基于(Convolutional NeuralNetwork，CNN)的方法(Yu Liu et al,2017)，梅礼晔等人基于空间金字塔池化的方法(Lihua Mei et al,2017)，这些方法通过图像块来进行融合，导致运算较为复杂，且图像边缘会存在块效应。此外，郭晓鹏等人提出了基于全卷积神经网络的方法(Xiaopeng Guo etal,2018)，虽然较好解决了图像分块问题，但由于未充分考虑上下文信息之间的关联，使得适合全局特征的图像块被忽视省略。

针对传统方法不能充分挖掘图像聚焦关联信息导致融合细节失真的问题，本文将多聚焦图像融合当作上下文关联约束的二分类分割问题，即区分聚焦与非聚焦区域。提出了一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法。本发明采用深度密集卷积神经深度融合特征，挖掘聚焦信息，利用多尺度空间金字塔池化学习上下文信息。进而，在区分非聚焦与聚焦区域的处理过程中引入卷积条件随机场(Convolution ConditionalRandom Field，ConvCRFs)，可对网络概率预测图的准确度进行优化，进一步增强融合效果。最后，对本发明方法与7种主流融合方法进行实验对比，从主观视觉效果评价和客观对比评价两方面验证了本发明方法的高效性与优越性。

发明内容

针对上述问题，本发明提出一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法，其特征在于，包括以下步骤：

步骤1，将两张经过配准的多聚焦源图像I_A与I_B集成为一张多通道图像，然后将多通道图像输入到深度密集卷积神经网络进行聚焦检测，得到一个多维特征图；

步骤2，利用金字塔池化模型对步骤1中得到的多维特征图进行特征信息提取，得到多个特征图，然后进行特征图合并，以获得粗略的二分类概率决策图；

步骤3，对于步骤2所获得的二分类概率决策图，利用卷积条件随机场实现概率决策图精化，根据所获得精化后的概率决策图和融合计算规则进行融合以获得最终多聚焦图像融合结果；

步骤4，结合步骤1中的深度密集卷积神经网络和步骤2中的金字塔池化模型所构成的整体网络进行训练；

步骤5，利用训练好的整体网络对多聚焦图像进行融合。

进一步的，所述深度密集卷积神经网络包括多个密集块和过渡层，所述密集块包含多个1×1和3×3的卷积，其中1×1的卷积用于减少特征图的数量，3×3的卷积用于提取特征；过渡层介于两个密集块之间，起连接作用，由一个卷积层和一个池化层组成。

进一步的，所述金字塔池化模型的处理过程如下；

首先，对特征图分别池化到目标size，然后对池化后的结果进行1×1卷积将channel减少到原来的1/N，这里的N为金字塔池化模型的层数；接着，对上一步的每一个特征图利用双线性插值上采样得到原特征图相同的size，然后将原特征图和上采样得到的特征图按channel维进行concatenate，得到的channel是原特征图的channel的两倍，最后再用1×1卷积将channel缩小到原来的channel，最终的特征图和原来的特征图size和channel是一样的。

进一步的，步骤3中利用卷积条件随机场对二分类概率决策图进行优化的具体过程如下；

输入步骤2中得到的粗略的二分类概率决策图，记为O，利用卷积条件随机场进行处理的过程可以通过

来进行求解，

为优化概率决策图，其具体解析式为：

式中K＝{K₁，…，K_n}表示随机场，

表示随机场为

输入图像为O时的优化概率决策图，Z(O)为配分函数，

O′是O上一个随机类别的图像；

能量函数

表达式如下：

上式中N为随机场数量，i为小于N的随机数，j则为不等于i且小于N的随机数；其中一元势函数

用于衡量当像素点i的观测值为

时，该像素点属于O中类别标签的概率，其来自于整体网络的后端输出；二元势函数

则用于衡量两个事件同时发生的概率，计算公式如下：

为标签兼容项，它约束了像素间传导的条件，只有相同标签条件下，能量才可以相互传导，即当

与

标签相同时，

否则

后面的加和项中，ω^m是权值参数，

是特征函数，fi,fj是任意特征空间中像素i和j的特征向量，如下公式所示：

上述公式以特征的行驶表示不同像素之间的“亲密度”，公式第一项被称作表面核，第二项被称作平滑核，W⁽¹⁾，θ_α，θ_β为表面核参数，W⁽²⁾，θ_γ为平滑核参数，这些参数为模型参数，通过训练得到，p和I分别代表着像素点的实际位置和颜色。

进一步的，步骤3融合计算规则设计如下；

假设经过概率决策图精化后的二值图像矩阵为W_A，其另一半二值图为W_B，即W_B＝1-W_A，源图像为I_A和I_B，因此最终融合图像F的计算规则为：

F＝W_A·I_A+I_B·(1-W_A)。

进一步的，步骤4中的具体实现方式如下；

a)数据集制作：使用的数据集为VOC2012数据集，总共分为4个大类：车辆、住户、动物、人，该数据集分类为20个类别，加上背景共有21类，总计包含17125张图像；为了模拟多聚集图像，采用动态场景中多焦点图像融合图像抠图中的图像生成方法，利用高斯模糊来模拟真实多聚焦情况，总计通过五步获得合成后的多焦点图像，分别为高斯模糊，图像转化，图片反转，逐像素相乘，以及逐像素相加；

b)训练参数调整：将多聚焦图像I_A和多聚焦图像I_B合并为6通道送入整体网络进行训练，训练阶段图像大小为256*256，采用Adam作为梯度优化器，其学习速率为0.001，正则化项为0.9，每次送入网络1张图像，总共训练次数为n次，整体网络的损失函数采用二值交叉熵，在测试阶段，输入图像为图像原尺寸；二值交叉熵公式如下：

对于单个样本而言，其中

是样本的实际输出，y_i为样本的期望输出。

本发明提出了一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法。该融合方法利用密集卷积神经网络中的特征复用的优势，通过对多聚焦的源图像进行集成，以此来使其达成协同聚焦的特征检测，然后通过多尺度的金字塔来池化全局信息，将不同聚焦区域的上下文信息聚合起来，使其散聚焦的区分能力得到优化，并获得粗略的融合概率决策图。接着使用卷积条件随机场进行进一步的优化，由粗略融合概率决策图得到精确概率决策图，最后产生细节保持良好的融合结果图像。最终实验结果表明，本发明所提方法在视觉上获得了较好结果，在四个定量的指标上，也获得了最好结果，充分证明本发明所提方法的有效性，可有效应用于自动化成像视觉任务中。

附图说明

图1为本发明实施例的流程图。

图2为本发明金字塔池化多尺度信息提取图。

图3为多尺度金字塔池化协同检测的概率决策图，展示源图像，及其粗分割图和细分化分割图的效果。

图4为Lytro-3图像融合结果；

图5为Lytro-17实验结果对比图；

图6为Lytro-17图像残差伪彩色对比图。

具体实施方式

本发明技术方案可采用计算机软件技术实现自动运行流程。以下结合附图和实施例详细说明本发明技术方案。如图1，实施例的技术方案的流程包括以下步骤：

步骤1，利用密集网络协同聚焦检测图像：

首先对于输入的源图像I_A与I_B，考虑到两张经过配准的多聚焦源图像I_A与I_B存在关联信息，因此，本发明将其集成为一张多通道图像，在此基础上进行基于密集卷积网络的协同检测操作。

密集网络协同聚焦检测的核心是深度密集卷积神经网络，其基于卷积神经网络，并在理论上有了进一步的探索，引入了深度密集的概念。其最为主要的构成是：过渡层以及密集块，其中密集块彼此相互连接，既能减轻梯度消失又能够使网络特征信息的利用率得到较好提升。在每一个密集块的内部，每一层的输入是前面所有层输出的拼接，这里的拼接是指通道层面上的拼接。例如，将一个56×56×64的数据和一个56×56×32的数据拼接在一起，结果就是56×56×96，这里的96是64和32的和。定义等于growth rate(增长率)，表示每一层的输出都是一个确定的通道数。每个密集块都包含多个子结构，以第一个密集块第一个子结构为例，该子结构首先是Bottleneck层，该层操作为1×1的卷积，其目的是减少feature-maps特征图的数量，然后是卷积核为3×3卷积层，用于提取特征。本发明网络中密集块数量为4个，其结构为下表所示：

表1密集块结构表

过渡层介于两个密集块之间，起连接作用，由一个卷积层和一个池化层组成。如图1所示，该模块有着四个密集块。一般来说深度学习网络中，网络的深度越深，其梯度消失的情况就越发严重，因而引入密集块来进行缓解。在残差网络的基础上，深度密集卷积神经网络的结构更加复杂，且在加入了密集连接之后使各层都有着先前的所有层特征，可有效实现特征复用，使得不同层次的多聚焦图像特征信息的传输得到了优化和利用。多通道图像经过密集网络协同聚焦检测后得到一个多维特征图。

步骤2，金字塔池化多尺度信息提取，具体包含以下内容：

对于步骤1检测后的得到的多维特征图，利用金字塔池化进行多尺度特征信息提取。考虑到多聚焦图像最难检测点为聚焦区域和非聚焦区域，而高层卷积神经网络中未充分获得重要的全局先验知识，且高层特征包含了更多的语义和较少的位置信息，为进一步减少不同子区域间上下文信息的丢失，图1所示，本文引入金字塔池化模型,该模型在传统的机器学习特征提取中很常用，主要思路就是对于一副图像分成若干尺度的一些块，比如一幅图像分成1份，4份，8份等。然后对于每一块提取特征然后融合在一起，这样就可以兼容多个尺度的特征。

如图2所示，本方法采用了采用4种不同金字塔尺度，金字塔池化模块的层数和每层的size是可以修改的，本发明中金字塔池化模块是4层，每层的size分别是1×1,2×2,3×3,6×6。首先，对特征图分别池化到目标size，其操作过程为将图像化为n×n块，然后对每一块进行池化，如图一中红色砖块就为特征图经过1×1池化结果，然后对每个池化后的结果进行1×1卷积将channel减少到原来的1/N，这里N就为4。接着，对上一步的每一个特征图利用双线性插值上采样得到原特征图相同的size，然后将原特征图和上采样得到的特征图按channel维进行concatenate。得到的channel是原特征图的channel的两倍，最后再用1×1卷积将channel缩小到原来的channel。最终的特征图和原来的特征图size和channel是一样的。

其为一种有效的全局上下文先验模型，包含不同尺度、不同子区域间的信息，可有效提升网络利用全局上下文信息的能力，使网络充分挖掘到聚焦与非聚焦区域的边界信息，嵌入困难融合场景的上下文特征，提升融合效果。最后进行特征图合并，获得粗略的二分类概率决策图。

步骤3，卷积条件随机场概率决策图精化，具体包含以下步骤：

虽然步骤1中的深度密集卷积神经网络和步骤2中的金字塔池化模型在源图像全局上下文信息提取上具有较好效果，然而概率图中仍存在被误分类的像素，如图3所示。因而，为获得更准确更优秀的分割能力，利用卷积条件随机场(ConvCRFs)对概率决策图进行优化。卷积条件随机场是在全连接条件随机场(Fully Conditional Random Field,FullCRFs)基础之上进行优化。通过步骤2输入粗略的二分类概率决策图O可以经过

来进行求解，

为优化概率决策图，其具体解析式为：

式中K＝{K₁,…,K_n}表示随机场，

为随机场为

输入图像为O时的优化概率决策图，Z(O)为配分函数，

能量函数

表达式如下：

上式中N为随机场数量，i为小于N的随机数，j则为不等于i且小于N的随机数。其中一元势函数

用于衡量当像素点i的观测值为

时，该像素点属于O中类别标签的概率，其来自于步骤1中的深度密集卷积神经网络和步骤2中的金字塔池化模型构成的整体网络的后端输出。二元势函数

则用于衡量两个事件同时发生的概率，计算公式如下：

与

标签相同时，

否则

后面的加和项中，ω^m是权值参数，

是特征函数，f_i,f_j是任意特征空间中像素i和j的特征向量，如下公式所示：

上述公式以特征的行驶表示不同像素之间的“亲密度”，公式第一项被称作表面核，第二项被称作平滑核。W⁽¹⁾，θ_α，θ_β为表面核参数，W⁽²⁾，θ_γ为平滑核参数，这些参数为模型参数，通过分段训练得来。p和I分别代表着像素点的实际位置和颜色值，颜色值即为像素值。

在FullCRFs的框架中添加条件独立性因素，该操作使得在GPU上能够利用卷积随机条件场的卷积运算进行相应的有效推测，可高效结合CNN的特征提取能力以及随机字段的建模能力，使卷积随即条件场可以有效地对信息进行传递。

为实现对目标区域的精确显著性检测，通过卷积随机条件场来整合概率图的全局、局部以及边界信息，可有效获得精化概率决策图。在优化过程中，以卷积运算为基础对概率图的多个特征信息进行计算，通过CRFs把这些特征融合到精化图中，最终得到经过ConvCRFs优化后的精确图。

精化后，假设经过概率决策图精化后的二值图像矩阵为W_A，其另一半二值图为W_B，即W_B＝1-W_A。源图像为I_A和I_B，因此最终融合图像F的计算规则为：

F＝W_A·I_A+I_B·(1-W_A)

步骤4，对本发明深度密集神经网络及金字塔网络进行网络训练，具体包含以下步骤：

c)数据集制作：本文所使用的数据集为VOC2012数据集，总共分为4个大类：车辆、住户、动物、人，该数据集分类为20个类别(加上背景共有21类)，总计包含17125张图像。为了模拟多聚集图像，本发明采用李述涛等人用于动态场景中多焦点图像融合图像抠图中的图像生成方法(Shutao Li et al,2013)，利用高斯模糊来模拟真实多聚焦情况。总计通过五步获得合成后的多焦点图像，分别为高斯模糊，图像转化，图片反转，逐像素相乘，以及逐像素相加。

d)训练参数调整：本文将多聚焦图像I_A和多聚焦图像I_B合并为6通道送入整体网络中进行训练，训练阶段图像大小为256*256，采用Adam作为梯度优化器，其学习速率为0.001，正则化项为0.9。每次送入网络1张图像，总共训练次数为30，损失函数采用二值交叉熵。在测试阶段，输入图像为图像原尺寸。二值交叉熵公式如下：

对于单个样本而言，其中

是样本的实际输出，y_i为样本的期望输出。

步骤5，将本发明方法与主流方法对比试验分析，具体包含以下步骤：。

a)对比方法：为证明本发明所提融合方法的优越性与有效性，选择Lytro多聚焦的彩色图像数据集进行实验。选用了7种主流的图像融合方法作为对比方法，分别为：非下采样轮廓波变换融合方法(NSCT)、基于导引滤波的融合方法(GFF)、基于图像抠图的多聚焦图像融合方法(IFM)、基于双边过滤器(Cross Bilateral Filter,CBF)的融合方法、基于离散余弦谐波小波变换离散余弦谐波小波变换(Discrete Cosine Harmonic WaveletTransform,DCHWT)的融合方法、基于卷积神经网络的融合方法(CNN)、基于金字塔池化网络的融合方法(Pyramid Scene Parsing Network Fusion,PSPF)

b)定性分析：图4展示了不同融合方法对Lytro-3的视觉融合结果，从中可以看出在大多数对比方法中“男孩的耳朵边缘”变得较为模糊，但本文方法所求出的融合结果图的边缘结构相对清晰，可以证明本文所提的方法具有更好的边缘信息提取能力。而为了进一步验证本文方法效果，图5、图6给出了Lytro-17的融合结果，以及融合图像与源图像A的伪彩色差异图。从中容易看出，在不同图中，其留下的聚焦区域的痕迹越少，则说明聚焦部分的图像信息被提取到融合图中更多，也就意味着融合性能更好。从图5和图6可以看出，本文算法在图像下方信息较少，而CNN以及IFM方法都在边界区域有所不足，说明本文所提的融合方法边缘区域较好，充分利用图像上下文信息，较好的检测了聚焦边界。在主观视觉效果评价上较对比方法而言有着较为良好的融合效果。

c)定量比较：为了客观证明本发明方法的有效性，本文采用四种主流的多聚焦图像评价指标，作为量化指标，分别为互信息(Q_MI)、非线性相关信息熵(Q_NCIE)、边缘保持度(Q_AB/F)、视觉保真度(Q_VIF)，并与主流的7种方法进行了对比。实验结果如表2和表3所示，表2为5幅图像融合结果的客观评价，表3为20幅图像客观评价的平均结果。其中，加粗数值表示最优结果，下划线数值表示次优结果。

表2融合结果客观评价对比

表3融合结果平均客观评价对比

从表2可以看出，本文方法在四种客观评价指标中均取得了较好结果。从互信息、非线性相关信息熵、边缘保持度、视觉信息保真度等指标的评分得分来看，本文所提方法大部分都达到最优，说明采用所提的密集卷积网络协同检测方法可以很好地挖掘多聚焦图像深度特征，从而进行聚焦估计，而采用的空间金字塔池化模块更好地约束了上下文信息，从而使其图像边缘聚焦检测较好，因此，本发明算法的整体融合质量较高，能更多了保留源图像聚焦信息。尤其从表3平均评价结果可以看出，本文方法在视觉信息保真度评价指标上，也获得了仅次于CNN方法的次优结果。这也表明，在综合情况下，本发明方法与其它方法相比有着更好的融合效果。

d)总结分析：本发明提出了一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法。该融合方法利用密集卷积神经网络中的特征复用的优势，通过对多聚焦的源图像进行集成，以此来使其达成协同聚焦的特征检测，然后通过多尺度的金字塔来池化全局信息，将不同聚焦区域的上下文信息聚合起来，使其散聚焦的区分能力得到优化，并获得粗略的融合概率决策图。接着使用卷积条件随机场进行进一步的优化，由粗略融合概率决策图得到精确概率决策图，最后产生细节保持良好的融合结果图像。最终实验结果表明，本发明所提方法在视觉上获得了较好结果，在四个定量的指标上，也获得了最好结果，充分证明本发明所提方法的有效性，可有效应用于自动化成像视觉任务中。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法，其特征在于，包括以下步骤：

步骤5，利用训练好的整体网络对多聚焦图像进行融合。

2.根据权利要求1所述的联合深度上下文与卷积条件随机场的多聚焦图像融合方法，其特征在于：所述深度密集卷积神经网络包括多个密集块和过渡层，所述密集块包含多个1×1和3×3的卷积，其中1×1的卷积用于减少特征图的数量，3×3的卷积用于提取特征；过渡层介于两个密集块之间，起连接作用，由一个卷积层和一个池化层组成。

3.根据权利要求1所述的联合深度上下文与卷积条件随机场的多聚焦图像融合方法，其特征在于：所述金字塔池化模型的处理过程如下；

4.根据权利要求1所述的联合深度上下文与卷积条件随机场的多聚焦图像融合方法，其特征在于：步骤3中利用卷积条件随机场对二分类概率决策图进行优化的具体过程如下；