CN116823914A

CN116823914A - 基于全对焦图像合成的无监督焦点堆栈深度估计方法

Info

Publication number: CN116823914A
Application number: CN202311101094.7A
Authority: CN
Inventors: 黄章进; 周萌
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-09-29
Anticipated expiration: 2043-08-30
Also published as: CN116823914B

Abstract

本发明公开了一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，1、包括：S1、利用基于图像金字塔和基于焦点测量算子进行全对焦图像计算，得到对应的全对焦图像，将得到的全对焦图像进行融合并作为监督信息；S2、通过三维感知模块对焦点堆栈进行高频噪声过滤和初步特征提取；S3、将三维极化自注意力机制引入焦点堆栈中，将输入特征图分为通道极化特征图和空间极化特征图；S4、采用分层深度概率预测模块定位焦点堆栈最大清晰度所在的层次，并输出对应的概率值，确定最佳清晰度所在的层次，获得全对焦图像。本发明在深度预测方面表现出相对高的准确性和良好的泛化性能，适用于不同场景下的深度估计任务，具有很高的实用性。

Description

基于全对焦图像合成的无监督焦点堆栈深度估计方法

技术领域

本发明涉及单目深度估计技术领域，尤其涉及一种基于全对焦图像合成的无监督焦点堆栈深度估计方法。

背景技术

有监督方法在深度估计任务上表现出较高准确性，但局限在于需要深度真值，这在实际应用场景中可能难以获得。近年来，随着深度学习技术的不断发展和计算机视觉领域的不断探索，无监督单目深度估计领域取得了长足的进展。无监督单目深度估计是指在没有深度标签的情况下，通过计算机视觉算法推测场景的深度信息。无监督焦点堆栈深度估计可分为两类，即重建监督和辅助监督。

重建监督通过网络的重建损失对网络进行监督学习，从而学习到深度信息，将无监督焦点堆栈深度估计视为多视角单目深度估计的一种特殊情况，通过利用对焦序列的模糊差异来估计场景深度，然后，利用对焦图和估计的中间深度重新对焦，输出焦点堆栈，并利用重建损失进行监督学习。然而，由于深度估计任务的不适定性，重建模型容易导致多个深度解相互竞争，难以确定最优解，因此网络结构非常不稳定，同时，中间表示易被解释为焦点堆栈的信息压缩编码，导致模型难以收敛，因此通常需要引入额外的损失来对中间表示进行约束。

辅助监督则是在无监督情况下，通过一些辅助信息来指导网络的学习过程，采用全对焦图像作为辅助的监督信息，该方法首先将焦点堆栈输入编解码器结构中，输出各对焦距离下的深度分布概率，并将其分别与焦点堆栈和对焦距离相结合，输出全对焦图像的同时也能得到相对粗糙的深度图。然而，该模型存在一定的局限性，如参数量较大，并且需要数据集本身提供全对焦图像作为监督信息，所以应用限制较大。因此，如何提供一种基于全对焦图像合成的无监督焦点堆栈深度估计方法是本领域技术人员亟须解决的问题。

发明内容

本发明的一个目的在于提出一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，本发明在深度预测方面表现出相对高的准确性和良好的泛化性能，适用于不同场景下的深度估计任务，具有很高的实用性。

根据本发明实施例的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，包括：

S1、利用基于图像金字塔的全对焦图像合成方法和基于焦点测量算子的全对焦图像合成方法进行全对焦图像计算，得到对应的全对焦图像，将得到的全对焦图像进行融合并作为监督信息；

S2、通过三维感知模块对焦点堆栈进行高频噪声过滤和初步特征提取得到初提取特征，同时焦点堆栈经过差分值计算模块得到编码了模糊歧义性的特征，将初提取特征和模糊歧义性特征进行级联，即得到焦点体；

S3、将三维极化自注意力机制引入焦点堆栈中，将输入特征焦点体分为通道极化特征图和空间极化特征图；

S4、上述的通道极化特征图和空间极化特征图经过深度概率预测模块定位焦点堆栈最大清晰度所在的层次，并输出对应的概率值，确定最佳清晰度所在的层次，获得全对焦图像。

可选的，所述图像金字塔具体包括：

高斯金字塔下采样，以原图像表示高斯金字塔的最底层，其分辨率为/>，通过定义第i层的高斯金字塔：

;

其中，其中，表示卷积操作，/>表示大小为/>的卷积核，/>表示去除输入图像的偶数行和偶数列的下采样过程；

下采样将输入图像的分辨率降低为四分之一，通过不断迭代上述步骤，得到整个高斯金字塔；

高斯金字塔上采样，将原图像在每个方向上扩大为原来的两倍，新增的行和列以0填充，使用与先前相同的卷积核乘以四与放大后的图像进行卷积，得到重建后的图像；

重建后的图像内引入拉普拉斯金字塔，设表示拉普拉斯金字塔的第/>层：

;

其中，表示上采样过程，即将图像在每个方向上扩大为原来的两倍，新增的行和列以0填充；

原图像被分解为高斯金字塔和拉普拉斯金字塔，对于焦点堆栈中的每一张图像，执行相同的分解操作，得到一组图像金字塔。

可选的，所述图像金字塔的的融合过程具体包括：

给定焦点堆栈序列：

；

其中，表示像素点的空间坐标，/>表示对焦序列的数量，每一张图片都和特定的对焦距离相对应；

对焦点堆栈进行图像金字塔分解，得到高斯金字塔/>和拉普拉斯金字塔/>，其中，/>代表金字塔的层数；

对拉普拉斯金字塔的每一个位置/>进行焦点测量，获取最大清晰度对应的索引图/>，/> 由索引图和拉普拉斯金字塔生成：

利用对全对焦拉普拉斯金字塔/>自上而下地进行上采样，得到焦点堆栈对应的全对焦图像。

可选的，所述基于图像金字塔的全对焦图像合成方法具体包括对输入的焦点堆栈进行图像金字塔分解，得到高斯金字塔/>和拉普拉斯金字塔/>，对拉普拉斯金字塔/>进行区域信息熵计算，得到每一层的焦点测量清晰度度量值，提取清晰度度量值最大的一层作为对应层的全对焦图像，重建得到最终的全对焦图像。

可选的，所述基于焦点测量算子的全对焦图像合成方法包括将小区域邻域融合算子应用到各个对焦序列上得到各个焦点图像的焦点测量清晰度度量值，进行索引最大化确定最佳清晰度对应的索引，根据索引提取焦点堆栈中像素值作为全对焦图像。

可选的，所述基于焦点测量算子的全对焦图像合成方法具体包括：

通过向量运算将向量值图像转换为标量值图像获得综合特征：

设表示向量值像素，/>表示标量值像素，选取向量值图像中的小块尺寸/>，使/>为中心向量值像素，/>为窗口/>内的向量值像素；

其中，向量值像素对应的标量值像素/>通过缩放窗口内差分向量长度得到；

计算窗口内其他向量/>与中心向量/>之差得到差分向量/>：

;

其中，表示结果向量的点积形成的标量值，/>表示一个局部的自适应缩放因子；

;

其中，计算差分向量之间的点积，用来衡量特征间的相似性，提供差分向量/>和中心向量/>之间的叉积长度；

将得到的标量值图像应用于索引最大化操作，以评估图像的清晰度，根据最佳清晰度所在的索引从输入的焦点堆栈中提取相应位置的像素值，得到相应的全对焦图像。

可选的，所述三维感知模块通过一个四层的网络结构完成焦点堆栈的高频噪声过滤和初步特征提取，所述三维感知模块包括多个具有不同的卷积核大小和步长的并行卷积层，用于捕捉不同尺度上的模糊特征；

所述S2具体包括：

S21、使用一个3D卷积网络对焦点堆栈进行过滤，提取模糊特征；

S22、在网络结构中引入一个差分值计算模块，将模糊特征输入差分值计算模块中，差分值计算模块计算RGB三通道的差分值：

;

其中，表示融合后的RGB通道差分，/>代表输入特征的不同颜色维度；

S23、经过一个下采样层得到RGB差分特征，RGB差分特征与模糊特征进行融合，构建出融合了模糊歧义性的焦点体。

可选的，所述通道极化特征图通过对输入的特征图x进行极化变换得到：

极化变换将输入的特征图x转化为两组基向量和/>；

其中，和/>对应通道层面的查询和键；

计算和/>的相似度得分/>：

;

其中，表示激活函数，/>表示归一化指数函数，/>、/>和/>分别表示1×1的三维卷积层，/>和/>表示两个张量重塑操作符，×表示元素级别的乘法操作，/>和/>与/>之间的通道数为/>；

用得分作为权重，对输入向量进行加权求和，得到获得了通道关联的通道极化特征图/>:

;

其中，表示通道级乘法运算符。

可选的，所述空间极化特征图方法包括：

将输入的通道极化特征图进行极化变化，得到两组极化向向量和/>；

其中，通过对三通道进行全局池化以获取全局空间特征，/>通过三维卷积将输入特征图中的像素进行重新排列增强空间不同方向上的特征；

通过两组极化向量计算相似度矩阵：

;

其中，和分别表示标准的1×1三维卷积层，表示通道卷积的中间参数，、和，×表示矩阵点乘操作，表示全局池化；

通过相似度矩阵来获取对应的权重，将权重与输入的通道极化特征进行加权求和，得到关联了通道和空间特征的综合自注意力特征表示；

;

其中表示空间乘法运算符。

可选的，所述S4具体包括：

S41、经过一个去掉池化层的编解码器网络后，将焦点堆栈深度估计网络的输出分为多个层次，每个层次对应一个特定的对焦距离；

S42、在层次间应用操作确定最佳清晰度所在的层次，得到最佳对焦位置，获得全对焦图像；

S43、使用多层概率值加权求和的方式得到最终的深度估计结果。

本发明的有益效果是：

本发明首先合成全对焦图像并将其用作监督信息，然后通过特征粗提取模块、极化自注意力模块和分层深度估计模块进行深度估计。使用焦点堆栈合成全对焦图像用作监督信息并利用自注意力机制的关联能力来获取场景深度，使得本发明在深度预测方面表现出相对高的准确性和良好的泛化性能，适用于不同场景下的深度估计任务，具有很高的实用性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法中无监督焦点堆栈深度估计模型；

图2为本发明提出的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法中焦点测量清晰度度量值的结构框图；

图3为本发明提出的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法中全对焦图像合成定性对比图；

图4为本发明提出的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法中三维感知模块的结构框图；

图5为本发明提出的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法中通道差分模块的结构框图；

图6为本发明提出的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法中DefocusNet上泛化性能可视化对比图；

图7为本发明提出的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法中MobileDepth上泛化性能可视化对比图。

具体实施方式

现在结合附图对本发明做进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

参考图1，一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，包括：

参考图2，本实施方式中展示了两种方法的合成全对焦图像的过程。

图中的表示对焦序列，高斯金字塔下采样，以原图像/>表示高斯金字塔的最底层，其分辨率为/>，通过定义第i层的高斯金字塔：

;

其中，表示卷积操作，/>表示大小为/>的卷积核，/>表示去除输入图像的偶数行和偶数列的下采样过程；

;

本实施方式中，图像金字塔的的融合过程具体包括：

给定焦点堆栈序列：

；

对拉普拉斯金字塔的每一个位置/>进行焦点测量，获取最大清晰度对应的索引图/>，全对焦拉普拉斯金字塔/>由索引图和拉普拉斯金字塔生成：/>;

本实施方式中，基于图像金字塔的全对焦图像合成方法具体包括对输入的焦点堆栈进行分解，得到高斯金字塔/>和拉普拉斯金字塔/>，由于整个分解过程完全可逆，所以此图像变换方法没有信息损失，对拉普拉斯金字塔/>进行区域信息熵计算，得到每一层的焦点测量清晰度度量值，提取清晰度度量值最大的一层作为对应层的全对焦图像，重建得到最终的全对焦图像。

本实施方式中，基于焦点测量算子的全对焦图像合成方法包括将小区域邻域融合算子应用到各个对焦序列上得到各个焦点图像的焦点测量清晰度度量值，进行索引最大化确定最佳清晰度对应的索引，根据索引提取焦点堆栈中像素值作为全对焦图像。

本发明基于图像金字塔和小窗口融合算子的全对焦图像融合算法能够合成高质量的全对焦图像。提出的模型利用全局关联结构有效地提升了深度预测的精度，同时轻量化的设计使模型具备实时推理能力。

参考图3，本实施方式中，基于焦点测量算子的全对焦图像合成方法具体包括：

计算窗口内其他向量/>与中心向量/>之差得到差分向量/>：

;

其中，表示结果向量的点积形成的标量值，/>表示一个局部的自适应缩放因子，/>在计算标量特征图像上扮演着重要角色；

;

将得到的标量值图像应用于索引最大化操作，以评估图像的清晰度，根据最佳清晰度所在的索引从输入的焦点堆栈中提取相应位置的像素值，得到相应的全对焦图像，依据此方法，可以从对焦序列合成高质量的全对焦图像。

本实施方式中，三维感知模块通过一个四层的网络结构完成焦点堆栈的高频噪声过滤和初步特征提取，三维感知模块包括多个具有不同的卷积核大小和步长的并行卷积层，用于捕捉不同尺度上的模糊特征；

参考图4，S2具体包括：

;

其中，表示融合后的 RGB通道差分，代表输入特征的不同颜色维度；

本实施方式中，通道极化特征图通过对输入的特征图x进行极化变换得到：

极化变换将输入的特征图x转化为两组基向量和/>；

其中，和/>对应通道层面的查询和键；

计算和/>的相似度得分/>：

;

用得分作为权重，对输入向量进行加权求和，得到获得了通道关联的通道极化特征图/>：

;

其中，表示通道级乘法运算符。

本实施方式中，空间极化特征图方法包括：

将输入的通道极化特征图进行极化变化，得到两组极化向量和/>；

通过两组极化向量计算相似度矩阵：

;

其中，和/>分别表示标准的1×1三维卷积层，/>表示通道卷积的中间参数，、/>和/>表示三个张量重塑操作，×表示矩阵点乘操作，/>表示全局池化；

通过相似度矩阵来获取对应的权重，将权重与输入的通道极化特征进行加权求和，得到关联了通道和空间特征的综合自注意力特征表示；;

其中表示空间乘法运算符。

需要注意的是，上述所有的卷积操作和张量重塑操作都是在三个通道维度上进行的，因此，三维极化自注意力机制可以同时考虑通道关联性和空间模糊关联性。

本发明提出的模型在较小的焦点堆栈上表现出良好的性能，同时具有优秀的泛化能力。

本实施方式中，S4具体包括：

S42、在层次间应用Softmax操作确定最佳清晰度所在的层次，得到最佳对焦位置，获得全对焦图像；

在测试时，利用输入对焦序列中的模糊信息，确定目标深度所在的层次，并利用对应层次的概率密度函数计算深度概率值。

在实施例1：

本发明在4D Light Field、DefocusNet和FlyingThings3D数据集上进行了量化：

由上表1可以看出，提出的全对焦图像合成方法，可以从较小的焦点堆栈中合成比较精确的全对焦图像。

上表2-表4是本发明在 4D Light Field、DefocusNet和FlyingThings3D数据集上与最新的方法进行了量化对比结果。

由上表1-表4可以看出，在4D Light Field数据集上的结果表明，本发明在无监督深度估计中比 AiFDepthNet 方法MSE和RMSE指标上分别提升了42.5%和26.3%。与有监督方法的对比中，本方法超越了包括VDFF、PSPNet、DDFF在内的大部分有监督方法，即使与DefocusNet方法相比，在MSE和RMSE上的性能仅相差15.0%和4.6%。在DefocusNet数据集和FlyingThings3D数据集上的结果显示，相对于AiFDepthNet方法，本方法在 MAE、MSE、RMSE指标上均取得更高的精度。与AiFDepthNet方法16M参数量相比，本方法的参数量也更小，为3.3M，具有更高的计算效率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，其特征在于，包括：

S2、通过三维感知模块对焦点堆栈进行高频噪声过滤和初步特征提取得到初提取特征，同时焦点堆栈经过差分值计算模块得到编码了模糊歧义性特征，将初提取特征和模糊歧义性特征进行级联，得到焦点体；

S4、通道极化特征图和空间极化特征图经过深度概率预测模块定位焦点堆栈最大清晰度所在的层次，并输出对应的概率值，确定最佳清晰度所在的层次，获得全对焦图像。

2.根据权利要求1所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，其特征在于，所述图像金字塔具体包括：

;

3.根据权利要求2所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，其特征在于，所述图像金字塔的的融合过程具体包括：

给定焦点堆栈序列：

；

对焦点堆栈进行图像金字塔分解，得到高斯金字塔/>和拉普拉斯金字塔，其中，/>代表金字塔的层数；

对拉普拉斯金字塔的每一个位置/>进行焦点测量，获取最大清晰度对应的索引图/>，/>全对焦拉普拉斯金字塔由索引图和拉普拉斯金字塔生成：;

4.根据权利要求3所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，其特征在于，所述基于图像金字塔的全对焦图像合成方法具体包括对输入的焦点堆栈进行分解，得到高斯金字塔/>和拉普拉斯金字塔/>，对拉普拉斯金字塔进行区域信息熵计算，得到每一层的焦点测量清晰度度量值，提取清晰度度量值最大的一层作为对应层的全对焦图像，重建得到最终的全对焦图像。

5.根据权利要求3所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，其特征在于，所述基于焦点测量算子的全对焦图像合成方法包括将小区域邻域融合算子应用到各个对焦序列上得到各个焦点图像的焦点测量清晰度度量值，进行索引最大化确定最佳清晰度对应的索引，根据索引提取焦点堆栈中像素值作为全对焦图像。

6.根据权利要求5所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，其特征在于，所述基于焦点测量算子的全对焦图像合成方法具体包括：

计算窗口内其他向量/>与中心向量/>之差得到差分向量/>：

;

；

7.根据权利要求1所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，其特征在于，所述三维感知模块通过一个四层的网络结构完成焦点堆栈的高频噪声过滤和初步特征提取，所述三维感知模块包括多个具有不同的卷积核大小和步长的并行卷积层，用于捕捉不同尺度上的模糊特征；

所述S2具体包括：

；

8.根据权利要求1所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，其特征在于，所述通道极化特征图通过对输入的特征图x进行极化变换得到：

极化变换将输入的特征图x转化为两组基向量和/>；

其中，和/>对应通道层面的查询和键；

计算和/>的相似度得分/>：

;

其中，表示通道级乘法运算符。

9.根据权利要求8所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，其特征在于，所述空间极化特征图方法包括：

将输入的通道极化特征图进行极化变化，得到两组极化向量和/>其中，/>通过对三通道进行全局池化以获取全局空间特征，/>通过三维卷积将输入特征图中的像素进行重新排列增强空间不同方向上的特征；

通过两组极化向量计算相似度矩阵：

;

其中，和/>分别表示标准的1×1三维卷积层，/>表示通道卷积的中间参数，/>、和/>表示三个张量重塑操作，×表示矩阵点乘操作，/>表示全局池化；

;

其中表示空间乘法运算符。

10.根据权利要求1所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法，其特征在于，所述S4具体包括：