CN116402692B

CN116402692B - 基于非对称交叉注意力的深度图超分辨率重建方法与***

Info

Publication number: CN116402692B
Application number: CN202310666520.5A
Authority: CN
Inventors: 左一帆; 徐雅萍; 黄慧敏; 王琪; 方玉明; 姜文晖
Original assignee: Jiangxi Technical College Of Manufacturing; Jiangxi University of Finance and Economics
Current assignee: Jiangxi Technical College Of Manufacturing; Jiangxi University of Finance and Economics
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-08-18
Anticipated expiration: 2043-06-07
Also published as: CN116402692A

Abstract

本发明提出一种基于非对称交叉注意力的深度图超分辨率重建方法与***，包括：给定输入数据，提取引导图像和深度图像的浅层特征，并进行深度细化得到引导特征和深度特征；利用非对称交叉注意力域将引导特征的像素块和深度特征的像素块进行迭代融合的方式对引导特征和深度特征进行更新，经过上采样，得到第一最终特征和第二最终特征，并进行拼接融合特征，采用卷积，得到第三深度残差图；将低分辨率深度图进行双三次插值，再与将第三深度残差图相加，得到最终的深度超分辨率图像。本发明采用非对称交叉注意力融合引导特征与深度特征，将引导单目估计解与引导深度超分辨率解相结合，与现有技术相比，均达到了主观评价和客观评价的最好效果。

Description

基于非对称交叉注意力的深度图超分辨率重建方法与***

技术领域

本发明涉及计算机图像处理技术领域，特别涉及一种基于非对称交叉注意力的深度图超分辨率重建方法与***。

背景技术

深度图是对已配准的纹理图像的补充，用于记录真实场景的几何形状,与纹理图像的经典单幅图像超分辨率相比，单幅深度图超分辨率表现出两个不同之处。一是所需的上采样规模总是大于8倍。相比之下，纹理图像超分辨率的范围主要在2倍到4倍之间。另一个是深度图不用于直接观看，而是被用于恢复那些不适合生成模型的场景几何，例如生成对抗网络。充分的研究表明，在细粒度细节和微小结构失真或消失的大比例尺情况下，单深度图超分辨率不能表现出鲁棒性。为了提高大尺度下的性能，引导深度图超分辨率中显式地引入了配准的高分辨率纹理图像作为引导。而传统模型多采用手工边缘共现和浅学习的方法进行引导，如稀疏编码。目前来说，最先进的方法是基于卷积神经网络(CNN)。通过分层特征学习，基于CNN的深度模型在性能上与传统模型有明显的差距。

然而，CNN结构存在两个缺陷，限制了模型的泛化。首先，卷积层作为核心单元，专注于局部特征提取。为了提高训练效率，CNN模型总是通过堆叠3 × 3的卷积层来增加感受野。然而，最近有研究表明感受野的有效增长率低于预期。其次，卷积层的参数是与输入无关的，在测试阶段是固定的。针对这一问题，提出了信道注意、空间注意、动态卷积等方法。但是由于额外的复杂性负担，这些“后处理”层很少引入来辅助卷积层。

此外，当前最先进的神经网络通常由引导选择和深度重建两个分支组成。这些分支通过单向融合或双向融合进行交流。但是，只对深度图重构分支提供了监督，而没有引导选择。因此，这种设计不能保证减轻传统模型中广泛研究的域偏差产生的伪影，如纹理复制、边缘模糊。此外SOTA方法的另一个缺陷是对具有相同空间分辨率和通道数的深度图特征和引导特征进行了对称融合。而由于引导特征是高分辨率的，强行约束分辨率和通道数对引导特征的提取和选择是次优的。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于非对称交叉注意力的深度图超分辨率重建方法与***，以解决上述技术问题。

本发明提供了一种基于非对称交叉注意力的深度图超分辨率重建方法，所述方法包括如下步骤：

步骤1、给定输入数据，输入数据包括低分辨率深度图以及与所述低分辨率深度图相对应的高分辨率彩色图像，以所述高分辨率彩色图像为引导图像，以所述低分辨率深度图为深度图像；

步骤2、提取引导图像和深度图像的浅层特征，并进行深度细化以得到引导特征和深度特征；

步骤3、利用非对称交叉注意力域，将引导特征的像素块和深度特征的像素块进行双向交流，以交替迭代融合的方式对引导特征和深度特征进行更新，再经过上采样操作以逐步提高引导特征和深度特征的分辨率，并对应得到第一最终特征与第二最终特征；

步骤4、将第一最终特征与第二最终特征进行特征的拼接融合，在融合完成后进行卷积操作以得到第三深度残差图；

步骤5、将低分辨率深度图进行双三次插值以得到上采样深度图，将所述第三深度残差图与所述上采样深度图进行叠加以得到最终的深度超分辨率图像。

一种基于非对称交叉注意力的深度图超分辨率重建***，其特征在于，所述***包括：

引导特征提取模块，用于提取引导图像的浅层特征；

引导细化模块，用于深度细化浅层特征以得到引导特征；

深度估计模块，用于上采样操作以提高引导特征的分辨率，得到第一最终特征；

深度特征提取模块，用于提取深度图像的浅层特征；

深度细化模块，用于深度细化浅层特征以得到深度特征；

图像重建模块，用于上采样操作以逐步提高深度特征的分辨率，得到第二最终特征；

非对称交叉注意力模块，利用非对称交叉注意力域，用于引导特征的像素块和深度特征的像素块进行双向交流，以交替迭代融合的方式对引导特征和深度特征进行更新；

注意力融合模块，用于将第一最终特征与第二最终特征进行特征的拼接融合，在融合完成后进行卷积操作以得到第三深度残差图，将低分辨率深度图进行双三次插值以得到上采样深度图，将所述第三深度残差图与所述上采样深度图进行叠加以得到最终的深度超分辨率图像。

附图说明

图1为本发明提出的基于非对称交叉注意力的深度图超分辨率重建方法的流程图。

图2为本发明剔除基于非对称交叉注意力的深度图超分辨率重建***框架图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。

请参阅图1，本发明实施例提供了一种基于非对称交叉注意力的深度图超分辨率重建方法，所述方法包括如下步骤：

进一步的，在所述步骤2中，提取引导图像的浅层特征的方法具体包括：

先将引导图像通过三个卷积层进行卷积提取，以得到通道数为64的引导图像的浅层特征；其中，三个卷积层的核大小分别、/>和/>；

再将浅层特征利用下采样块进行2倍空间下采样，并进行2倍通道维数扩展，以得到通道数为128的引导图像的浅层特征；其中，下采样块包括Swin Transformer对、PixelUnshuffle、层归一化和无偏置的/>卷积。

在所述步骤2中，深度图像的浅层特征的提取的方法具体包括：

将深度图像通过三个卷积层进行卷积提取，以得到通道数为64的深度图像的浅层特征，三个卷积层的分别为/>、/>、/>。

进一步的，在所述步骤2中，浅层特征进行深度细化时，基于/>对SwinTransformer进行深度细化以输出引导特征/>；

浅层特征进行深度细化时，基于/>对Swin Transformer进行深度细化以输出深度特征/>。

步骤3、利用非对称交叉注意力域，将引导特征的像素块和深度特征的像素块进行双向交流，以交替迭代融合的方式对引导特征和深度特征进行更新，再经过上采样操作以逐步提高引导特征和深度特征的分辨率，并对应得到第一最终特征与第二最终特征；其中，上采样采用上采样块，上采样块包括卷积层和Pixel Shuffle。

进一步的，在所述步骤3中，以交替迭代融合的方式对引导特征和深度特征进行更新得到第一最终特征和第二最终特征的方法具体包括如下步骤：

步骤3.1、以全局注意力作为注意力域；

步骤3.2、设交叉注意力的归一化特征对为；

步骤3.3、从第一个元素获得查询，从第二个元素推导键和值，以分别得到查询、键/>和值/>；

步骤3.4、将查询、键和值嵌入导多头自注意力的每个头中，再进行上采样以逐步提高引导特征和深度特征的分辨率，从而得到第一最终特征和第二最终特征/>。

嵌入导多头自注意力的每个头中的表达式为：

；

其中，、/>和/>表示深度卷积层和点卷积层依照顺序组合形成卷积层的参数；

交叉注意力是由/>，/>和/>形状的转置/>，/>，/>计算所得，具体表达式为：

；

其中，是/>卷积层，/>是一个可学习的缩放参数，用于控制点积的大小。由于引导特征与深度特征之间的通道不一致，将注意力内积在空间维度/>上计算，而不是通道维度/>上。由于注意力图/>的形状为/>，远小于标准的全局注意力的/>，因此不需要进行窗口划分，增加了感受野。

进一步的，在执行上述步骤1至步骤5中，对应的训练方法包括如下训练步骤：

以训练数据作为输入数据重复步骤1至步骤5，以得到第一最终特征、第二最终特征和最终的深度超分辨率图像，将第一最终特征和第二最终特征分别进行卷积操作以得到第一深度残差图和第二深度残差图；

将第一深度残差图与第二深度残差图均分别与上采样深度图进行叠加，以分别得到第一深度超分图和第二深度超分图；

分别计算第一深度超分图、第二深度超分图以及最终的深度超分辨率图像与深度高分辨率原始图像之间的残差，根据残差设计得到对应的损失函数，通过不断迭代优化模型的可学习参数计算得到最小损失，损失函数表达式为：

；

其中，表示第/>个损失函数，/>表示第/>个残差，/>表示第一深度超分图、第二深度超分图或最终的深度超分辨率图像中的其中一个，/>表示深度高分辨率原始图像；

根据不同的损失函数得到总损失函数，总损失函数表达式为：

；

其中，表示总损失函数，/>和/>均为超参数，/>设置为/> ，/>设置为/>，/> 为训练图像的数量；

可学习参数之间存在如下关系式：

；

其中，表示为可学习参数，/>表示高分辨率图像，/>表示可学习参数与图像之间构建的模型关系。

进一步的，训练数据的构建方法具体包括如下步骤：

步骤6.1.1、获取高分辨率图像数据集，高分辨率图像数据集包括高分辨率深度真实图像与高分辨率彩色真实引导图像，将高分辨率图像数据集划分成训练集、验证集和测试集；

步骤6.1.2、将高分辨率图像数据集重叠裁剪为成对像素重叠的图像块，生成成对的高分辨率引导图像和高分辨率深度真实图像，并通过随机翻转和旋转进行数据增强；

步骤6.1.3、将高分辨率深度真实图像通过双三次插值和高斯噪声生成对应的低分辨率图像。

请参阅图2，本发明实施例还提供了一种基于非对称交叉注意力的深度图超分辨率重建***，其中，所述***包括：

引导特征提取模块，用于提取引导图像的浅层特征；

引导细化模块，用于深度细化浅层特征以得到引导特征；

深度特征提取模块，用于提取深度图像的浅层特征；

深度细化模块，用于深度细化浅层特征以得到深度特征；

需要说明的是，本发明两个分支之间通过双向非对称交叉注意力进行双向交流，最后通过注意力融合模块细化深度特征，生成高分辨率深度图像。相较于现有技术本发明的有益效果为：

其一，所提出的同时解决了不同分支中的两个子问题，即引导单目深度估计和引导深度图超分辨率。对单目深度估计的显式监督提高了引导选择的效率。采用双向交叉注意力的方法实现分支间的特征融合。

其二，受到视觉注意力机制启发，本发明是第一个基于Transfomer的引导深度图超分辨网络。本发明采用非对称交叉注意力融合引导特征与深度特征，将引导单目估计解与引导深度超分辨率解相结合。由于引导选择分支的输入为高分辨率图像，且为了保持引导的信息，本发明使用Pixel Unshuffle对通道数与深度特征不一致的引导特征进行重构，而不是普通的池化方法。本发明所提模型与***在主流数据集上，与目前最先进的方法比较，均达到了主观评价和客观评价的最好效果。

其三，本发明采用双三次插值的方式生成第一深度超分图、第二深度超分图和最终的深度超分辨率图像，可以在不影响清晰度的情况下有效降低算法难度，提升算法速率。

其四，本发明引导特征与深度特征之间的通道不一致，将注意力内积在空间维度上计算，而不是通道维度/>上，由于注意力图/>的形状为/>，远小于标准的全局注意力的/>，因此不需要进行窗口划分，增加了感受野。

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于非对称交叉注意力的深度图超分辨率重建方法，其特征在于，所述方法包括如下步骤：

步骤5、将低分辨率深度图进行双三次插值以得到上采样深度图，将所述第三深度残差图与所述上采样深度图进行叠加以得到最终的深度超分辨率图像；

其中，在所述步骤3中，上采样采用上采样块，上采样块包括3×3卷积层和PixelShuffle；

以交替迭代融合的方式对引导特征和深度特征进行更新得到第一最终特征和第二最终特征的方法具体包括如下步骤：

步骤3.1、以全局注意力作为注意力域；

步骤3.2、设交叉注意力的归一化特征对为；

步骤3.4、将查询、键和值嵌入导多头自注意力的每个头中，再进行上采样以逐步提高引导特征和深度特征的分辨率，从而得到第一最终特征和第二最终特征/>；

嵌入导多头自注意力的每个头中的表达式为：

；

其中，是1×1卷积层，/>是一个可学习的缩放参数，用于控制点积的大小；由于引导特征与深度特征之间的通道不一致，将注意力内积在空间维度/>上计算，而不是通道维度/>上；由于注意力图/>的形状为/>，远小于标准的全局注意力的/>，因此不需要进行窗口划分，增加了感受野。

2.根据权利要求1所述的基于非对称交叉注意力的深度图超分辨率重建方法，其特征在于，在执行上述步骤1至步骤5中，对应的训练方法包括如下训练步骤：

；

其中，表示总损失函数，/>和/>均为超参数，/>设置为/> ，/>设置为/>，/>为训练图像的数量。

3.根据权利要求2所述的基于非对称交叉注意力的深度图超分辨率重建方法，其特征在于，可学习参数之间存在如下关系式：

；

4.根据权利要求3所述的基于非对称交叉注意力的深度图超分辨率重建方法，其特征在于，在所述步骤2中，提取引导图像的浅层特征的方法具体包括：

先将引导图像通过三个卷积层进行卷积提取，以得到通道数为64的引导图像的浅层特征；

再将浅层特征利用下采样块进行2倍空间下采样，并进行2倍通道维数扩展，以得到通道数为128的引导图像的浅层特征。

5.根据权利要求4所述的基于非对称交叉注意力的深度图超分辨率重建方法，其特征在于，在所述步骤2中，深度图像的浅层特征的提取的方法具体包括：

将深度图像通过三个卷积层进行卷积提取，以得到通道数为64的深度图像的浅层特征。

6.根据权利要求5所述的基于非对称交叉注意力的深度图超分辨率重建方法，其特征在于，在所述步骤2中，浅层特征进行深度细化时，基于/>对Swin Transformer进行深度细化以输出引导特征/>；

浅层特征进行深度细化时，基于/>对Swin Transformer进行深度细化以输出深度特征。

7.根据权利要求1所述的基于非对称交叉注意力的深度图超分辨率重建方法，其特征在于，训练数据的构建方法具体包括如下步骤：

8.一种基于非对称交叉注意力的深度图超分辨率重建***，其特征在于，应用如上述权利要求1至7任一项所述的基于非对称交叉注意力的深度图超分辨率重建方法，所述***包括：

引导特征提取模块，用于提取引导图像的浅层特征；

引导细化模块，用于深度细化浅层特征以得到引导特征；

深度特征提取模块，用于提取深度图像的浅层特征；

深度细化模块，用于深度细化浅层特征以得到深度特征；