CN116258756B

CN116258756B - 一种自监督单目深度估计方法及***

Info

Publication number: CN116258756B
Application number: CN202310176306.1A
Authority: CN
Inventors: 张明亮; 周大正; 李彬; 智昱旻; 刘丽霞; 张友梅; 张瑜
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2024-03-08
Anticipated expiration: 2043-02-23
Also published as: CN116258756A

Abstract

本发明公开了一种自监督单目深度估计方法及***，该方法包括获取待估计图像，将预处理后的待估计图像输入自监督深度估计网络，进行深度估计；自监督深度估计网络包括Transformer分支和卷积分支，Transformer分支采用跳跃式连接的编码器‑解码器结构，用于捕获图像的全局上下文信息；卷积分支为卷积编码层和采用金字塔结构的矩形卷积模块，用于提取图像的局部上下文信息；卷积分支的输出特征与倒数第二个解码层的输出特征拼接，再通过最后的解码层输出深度图像；该深度图像输入至形状细化模块中，学习图像中相邻像素之间的亲和矩阵，将学习的亲和矩阵与像素深度逐像素关联，输出最终的深度图像，实现更准确的深度估计。

Description

一种自监督单目深度估计方法及***

技术领域

本发明涉及人工智能技术领域，尤其涉及一种自监督单目深度估计方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

单目深度估计是为输入的单幅图像的每个像素分配一个深度值，现已广泛应用于自动驾驶、3D重建、增强现实等计算机视觉任务及领域中。目前，基于深度学习的单目深度估计通常分为监督单目深度估计和自监督单目深度估计这两种方法及研究方向。虽然现有的监督方法可以在单目深度估计方面取得不错的性能，但其通常需要大量且多样的真实深度标签进行训练，这些真实深度标签的获取通常成本昂贵且存在缺陷，特别是在户外场景中，例如利用LiDAR(LIght Detection And Ranging，激光雷达)采集到的原始深度标签通常是稀疏点，不能很好地匹配原始图像，在一定程度上限制了其实际应用。相反，自监督学习方法可以通过跨不同视图的图像重投影来估计深度图，而不依赖训练期间的任何地面真实深度标签。因此，自监督深度估计的应用场景更广泛，且学习成本相对较低。

目前，自监督深度估计方法主要分为两种思路，即：利用CNN(ConvolutionalNeural Network，卷积神经网络)框架和利用Transformer框架对目标图像进行深度估计。现有研究所提出的方法或算法通常不能在有限的接受域内模拟全局相关，或建模局部信息时通常缺乏空间感知偏差，导致现有的自监督深度估计在视觉任务中表现不理想，具体的：

(1)基于CNN的方法能够很好地提取局部上下文信息，但是，由于接受域小、局部归纳偏差大，通常不足以提取语义丰富的全局上下文信息，这就导致虽然基于CNN算法的自监督深度估计的性能在逐渐提高，但其根本的困境仍然存在，无法模拟全局相关；

(2)基于Transformer的方法通常能够很好的提取全局上下文信息，进行上下文建模，但其潜在的瓶颈是缺乏细节和空间局部性的表示，其原因在于基于Transformer的方法的特点是Token(令牌)之间的交互，而在交互过程中往往忽略了局部特征。同时，由于深度值一般遵循长尾分布，自然场景中有许多深度值较小的近距离物体，基于Transformer的方法无法对其进行很好的估计。

发明内容

为解决上述现有技术的不足，本发明提供了一种自监督单目深度估计方法及***，融合基于CNN框架保留局部上下文信息和基于Transformer框架提取全局上下文信息的优点，以自监督的方式提取图像场景中完整的上下文信息，实现效果更优的自监督深度估计，同时通过构建金字塔结构的矩形卷积模块，沿水平和垂直方向感知半全局特征信息，从而获取更完整的上下文信息，通过构建形状细化模块，实现对物体边界更准确的估计。

第一方面，本公开提供了一种自监督单目深度估计方法。

一种自监督单目深度估计方法，包括：

获取待估计图像，对待估计图像进行预处理；

将预处理后的待估计图像输入至自监督深度估计网络中，进行深度估计，输出深度图像；

所述自监督深度估计网络包括Transformer分支和卷积分支，所述Transformer分支为采用跳跃式连接的编码器-解码器结构，用于捕获图像的全局上下文信息；所述卷积分支为卷积编码层和矩形卷积模块，用于提取图像的局部上下文信息；所述卷积分支的输出特征与所述Transformer分支中倒数第二个解码层的输出特征拼接，再通过最后的解码层输出深度图像。

进一步的技术方案，所述Transformer分支中，每层编码层包括多个Transformer块，每一Transformer块包括依次连接的第一归一化层、多头自注意力模块、第二归一化层和多层感知器模块。

进一步的技术方案，所述矩形卷积模块为金字塔结构，包括5×5卷积、深度可分离卷积和1×1卷积，每一卷积均采用条形卷积的形式；

所述卷积分支中，将卷积编码层输出的局部特征输入矩形卷积模块中，通过5×5卷积聚合局部特征信息，再通过包括不同卷积通道的深度可分离卷积分别提取全局上下文信息，利用1×1卷积聚合每个卷积通道所提取的信息和聚合的局部特征信息，将最终的聚合输出作为注意权重，与输入的局部特征加权，得到最终输出。

进一步的技术方案，所述预处理包括：

对输入图像进行分割，分割为多个大小一致的图像块。

进一步的技术方案，所述自监督深度估计网络还包括形状细化模块，所述形状细化模块包括依次连接的深度可分离卷积、卷积层和多层感知器模块；

将解码层输出的深度图像输入至形状细化模块中，所述形状细化模块学习图像中相邻像素之间的亲和矩阵，将学习的亲和矩阵与像素深度逐像素关联，输出最终的深度图像。

第二方面，本公开提供了一种自监督单目深度估计***。

一种自监督单目深度估计***，包括：

待估计图像获取模块，用于获取待估计图像，对待估计图像进行预处理；

深度估计模块，用于将预处理后的待估计图像输入至自监督深度估计网络中，进行深度估计，输出深度图像；

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

以上一个或多个技术方案存在以下有益效果：

1、本发明提供了一种自监督单目深度估计方法及***，融合基于CNN框架保留局部上下文信息和基于Transformer框架提取全局上下文信息的优点，以自监督的方式提取图像场景中完整的上下文信息，实现效果更优的自监督深度估计，避免了基于CNN框架不能在有限的接受域内模拟全局相关以及基于Transformer框架通常在建模时缺乏空间感知偏差的缺陷。

2、本发明考虑到图像场景中的矩形物体存在很强的相关性，构建了金字塔结构的矩形卷积模块，利用不同尺度的多个条形卷积来提取场景中的半全局信息，通过沿水平和垂直方向感知半全局特征信息，从而获取更完整的上下文信息。

3、本发明针对场景中物体边缘的细化问题，通过构建形状细化模块，学习相邻像素之间的亲和矩阵来获得精确的场景几何结构，在不影响模型复杂度的同时增强了物体边缘和细节的估计精度，进一步的提升了模型估计的准确性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例所述自监督单目深度估计方法的流程示意图；

图2为本发明实施例所述自监督单目深度估计方法的框架图；

图3为本发明实施例所述自监督单目深度估计方法的算法流程图；

图4为本发明实施例所述自监督深度估计网络中Transformer块的示意图；

图5为本发明实施例所述自监督深度估计网络中矩形卷积模块的框架图；

图6为本发明实施例所述自监督深度估计网络中形状细化模块的框架图；

图7为本发明实施例所述自监督深度估计网络中形状细化模块的算法示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

正如背景技术中现有自监督单目深度估计所存在的问题，本实施例提供了一种基于深度学习和机器视觉的细胞检测方法，提高深度估计的准确性，进而提高算法估计精度，实现更好的深度估计效果，如图1和图2所示，该方法包括：

获取待估计图像，对待估计图像进行预处理；

所述自监督深度估计网络包括Transformer分支和卷积分支，所述Transformer分支为采用跳跃式连接的编码器-解码器结构，用于捕获图像的全局上下文信息(在高级特征上语义丰富)，以弥补基于CNN的方法的缺点；所述卷积分支为卷积编码层和矩形卷积模块，用于提取图像的局部上下文信息(在低级特征上空间精确且有细粒度细节)，避免低级特征仅被基于Transformer的网络冲刷掉；所述卷积分支的输出特征与所述Transformer分支中倒数第二个解码层的输出特征拼接，再通过最后的解码层输出深度图像。

进一步的，通过编码得到的特征图像进入解码层，通过逐层上采样和图像重投影作为监督信号来预测深度图像。

本实施例的整体思路为：利用所构建的自监督深度估计网络对输入图像进行深度估计。上述自监督深度估计网络的总体框架基于编码器-解码器结构，在编码器和解码器之间设计了跳跃式连接。首先将预处理后的图片输入Transformer网络，提取场景的全局特征，具体而言，首先通过分区算子对输入图像进行分割，得到多个大小一致的图像块，每个图像块作为一个令牌；然后每个阶段包括一个Patch Merging(即补丁合并层)和多个Transformer块，具体的，在补丁合并层后依次连接多个Transformer块，Patch Merging的作用是使Patches(补丁)的分辨率减半，通道数加倍，每个Transformer块包括一个多头自注意模块和一个多层感知器模块。基于Transformer的方法的特点是Token(令牌)之间的交互，而在交互过程中往往忽略了局部特征，因此，在框架中引入卷积分支来对局部特征进行补充。在卷积分支中，由于基于CNN的模型通常主要在低层次的特征层提取局部信息，因此只使用第一个卷积层来精确地捕获空间和局部上下文信息，卷积分支后的输出特征映射在解码部分采用跳跃式连接与倒数第二特征层连接。

通过将CNN与Transformer结合应用于单目深度估计任务，检测准确率优于已有使用相同公共数据集的算法；使用卷积分支对局部特征进行补充，并只使用第一个卷积层来进行估计，在不增加计算复杂度情况下增强局部特征，提高深度估计的准确性，进而提高算法估计精度。与现有的仅使用自监督单目深度估计的方法相比，本实施例所述方案提高了估计准确率。

目前自监督单目深度估计主要通过跨不同视图的图像重投影作为监督信号来预测深度图，具体为：将校正后的N对立体图像对作为训练数据，其中，/>和/>分别表示第i对立体图像对的左图像和右图像，i∈N，N为训练数据的对数，在此基础上，建立输入图像与训练数据合成图像之间的图像重投影损失，公式为：

其中，为合成图像，d_l为左图像和右图像的视差图，f_ω(·)为翘曲函数。

基于上述损失函数对网络进行训练，之后利用左图像或右图像输入网络进行验证，输出深度图。以输入左图I_l∈R^H×W×3为例，编码层进行编码后输出特征图，特征图通过解码层逐层上采样，以图像重投影作为监督信号，通过网络估计出相应的视差图d_l，结合所提供的相机参数，即基线b和焦距f，则通过D_l＝bf/d_l得到最终深度图D_l。

基于图像重投影损失，本实施例给出了一种自监督深度估计框架，如图3所示，该框架由学习全局信息的Transformer分支和学习局部信息的卷积分支组成。进一步的，在卷积分支中增加一个额外的矩形卷积模块来学习半全局信息；为了解决深度估计边缘精度不足的问题，在Transformer分支和卷积分支的最后，增加形状细化模块，增强物体细节估计。

上述自监督深度估计网络的总体框架基于编码器-解码器结构，在编码器和解码器之间设计了跳跃式连接。基于CNN的方法可以很好地表达局部上下文，但由于接受域小、局部归纳偏差大，通常不足以提取语义丰富的全局上下文。相反，基于Transformer的方法通常表现出优秀的全局上下文建模，但潜在的瓶颈是缺乏细节和空间局部性的表示，主要原因在于基于Transformer的方法的特点是Token(令牌)之间的交互，而在交互过程中通常会忽略局部特征，同时，由于深度值一般遵循长尾分布，自然场景中有许多深度值较小的近距离物体，基于Transformer的方法不能很好地估计。因此，自监督学习的关键思想在于结合CNN和Transformer的优点，从单张图像中准确估计深度图。

本实施例所提出的自监督深度估计网络框架主要由两个分支组成。如图4所示，Transformer分支在编码部分有4个阶段。首先，通过patch(分区)算子对输入图像进行分割，得到多个大小一致的图像块，每个图像块作为一个令牌；然后，每个阶段有PatchMerging和多个Transformer块，每个块包括一个MSA(多头自注意模块)和一个MLP(多层感知器模块)以及两个归一化层(即规范层)。设第l-1个Transformer块后的输出特征为z^l-1，则第l个Transformer块后的特征表示为：

其中，LN是层归一化。考虑到丰富的空间信息对深度估计很重要。因此，将原框架中步长为4的卷积变换为步长为2的卷积，进而每层Transformer得到的特征图分辨率为其中H、W是输入原始图像的长宽。

在卷积分支中，由于基于CNN的模型通常主要在低层次的特征层提取局部信息，因此只使用第一个卷积层来精确地捕获空间和局部上下文信息，卷积分支后的输出特征映射在解码部分采用跳跃式连接与倒数第二特征层连接。通过设置卷积分支，可以避免Transformer分支丢弃关键的局部信息。

进一步的，在卷积分支中还包括金字塔结构的矩形卷积模块。基于卷积分支得到的特征，获取图像的半全局信息，提升卷积分支深度估计的准确性。

与传统的自我注意不同，在本实施例中，使用矩形卷积金字塔的结构比传统的自我注意力更简单有效，卷积采用条形卷积的形式，可以极大地分割场景中的条形对象，如行人、树木等。这种简单的结构化空间注意力比标准的卷积和自我注意力能够更好地处理空间信息。如图5所示，提出的金字塔结构的矩形卷积模块包括三个阶段：首先使用5×5深度卷积来聚合局部信息，然后使用深度可分离卷积来提取全局上下文信息，之后使用1×1卷积来聚合每个通道的信息。矩形卷积模块的输出直接作为注意机构的权重，并与矩形卷积模块的输入特征进行加权，得到最终输出，公式为：

其中，G₀表示输入ResNet-50的第一层特征，是逐元素矩阵乘法运算，DW-Conv表示逐深度卷积，Scale_i(0,1,2,3)表示不同的分支，Scale₀表示单位连接。在该框架中，金字塔结构的矩形卷积模块被放在编码器的卷积分支之后，使卷积分支得到的特征也具有一定的全局特征，并通过金字塔结构的矩形卷积模块中的条形卷积增强对条带对象的分割，通过金字塔结构的矩形卷积模块的卷积特性可以更好地融合Transformer分支的特性。

进一步的，由于Transformer的特性需要分析令牌块的相关性，因此不是直接对像素进行处理。在实际问题中，场景中的物体多为不规则形状，导致Transformer对边缘和小物体的估计不准确。但传统的密集预测方法计算量大，难以反映Transformer的优点。因此，为了缓解Transformer不擅长处理物体边缘的问题，本实施例设置了一种形状细化模块，通过学习相邻像素之间的亲和矩阵来获得精确的场景几何结构，在保证估计精度的同时减少计算量。

本实施例所提出的形状细化模块，如图6所示，该形状细化模块包括依次连接的深度可分离卷积、卷积层和多层感知器模块，将图像视为块级可学习区域的组合(或一组相互关联的区域)，每个块都有灵活的形状和统一的语义，摒弃了常见的笛卡尔特征布局，不仅仅按照网格将图像划分成块(这一方式不够精确，块网格不能很好地描述边缘形状)；而且该模块只在区域层面运行，因此可以大大提高模型的效率，保证模型的准确性。

具体的，本实施例建立一个像素到Token(令牌)的关联来描述区域几何，通过将像素与周围区域的标记相关联，得到描述区域的几何结构。从初始的H×W网格大小的图像开始，其中H×W＝N，每个标记都位于单个网格上，并且标记被用作其对应区域S的“基点”，这里的网格本身只是一个标记位置指示器，独立于实际的区域几何结构。通过将每个像素p按照概率q_s(p)分配给区域S，构建像素-Token(令牌)的关联，不需要应用于全局图像，相反的，仅用于满足以下相邻条件的Token(令牌)：

其中，N_p表示p的相邻区域。在本实施例中，将周围区域设为3×3，因此，N_p＝9，此时在所有模型中都表现良好。如图7所示，像素p被分配到周围9个区域之一，模块最终输出的分割映射的大小为W_h×W_w,h、w是单个网格大小的初始集，在网络中默认设置网格大小为4×4。如图6所示，该模块中包含了一个轻量级的亲和力判断模块，包括一个深度可分离卷积一个1D卷积，用于融合局部信息，并生成一个H×W×(9hw)大小的特征映射，最终恢复到原始图像大小。最后，将得到的亲和矩阵与像素深度逐像素关联，对于每个像素p，其深度计算公式如下:

其中，F_p是输出深度图，f_p是对应区域的像素级深度。

本实施例所提出的自监督单目深度估计方法，融合基于CNN框架保留局部上下文信息和基于Transformer框架提取全局上下文信息的优点，以自监督的方式提取图像场景中完整的上下文信息，实现效果更优的自监督深度估计，同时通过构建金字塔结构的矩形卷积模块，沿水平和垂直方向感知半全局特征信息，从而获取更完整的上下文信息，通过构建形状细化模块，实现对物体边界更准确的估计。

实施例二

本实施例提供了一种自监督单目深度估计***，包括：

实施例三

本实施例提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如上所述的自监督单目深度估计方法中的步骤。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如上所述的自监督单目深度估计方法中的步骤。

以上实施例二至四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种自监督单目深度估计方法，其特征是，包括：

获取待估计图像，对待估计图像进行预处理；

所述自监督深度估计网络包括Transformer分支和卷积分支，所述Transformer分支为采用跳跃式连接的编码器-解码器结构，用于捕获图像的全局上下文信息；所述卷积分支为卷积编码层和矩形卷积模块，用于提取图像的局部上下文信息；所述卷积分支的输出特征与所述Transformer分支中倒数第二个解码层的输出特征拼接，再通过最后的解码层输出深度图像；

所述矩形卷积模块为金字塔结构，包括5×5卷积、深度可分离卷积和1×1卷积，每一卷积均采用条形卷积的形式，条形卷积增强对条带对象的分割，金字塔结构矩形卷积模块增强与Transformer分支特性的融合效果；

所述卷积分支中，将卷积编码层输出的局部特征输入矩形卷积模块中，通过5×5卷积聚合局部特征信息，再通过包括不同卷积通道的深度可分离卷积分别提取全局上下文信息，利用1×1卷积聚合每个卷积通道所提取的信息和聚合的局部特征信息，将最终的聚合输出作为注意权重，与输入的局部特征加权，得到最终输出；

其中，所述将最终的聚合输出作为注意权重，与输入的局部特征加权，得到最终输出具体公式为：

其中，G₀表示输入ResNet-50的第一层特征，是逐元素矩阵乘法运算，DW-Conv表示逐深度卷积，Scale_i(0,1,2,3)表示不同的分支，Scale₀表示单位连接。

2.如权利要求1所述的自监督单目深度估计方法，其特征是，所述Transformer分支中，每层编码层包括多个Transformer块，每一Transformer块包括依次连接的第一归一化层、多头自注意力模块、第二归一化层和多层感知器模块。

3.如权利要求1所述的自监督单目深度估计方法，其特征是，所述预处理包括：

对输入图像进行分割，分割为多个大小一致的图像块。

4.如权利要求1所述的自监督单目深度估计方法，其特征是，所述自监督深度估计网络还包括形状细化模块，所述形状细化模块包括依次连接的深度可分离卷积、卷积层和多层感知器模块；

5.一种自监督单目深度估计***，基于如权利要求1-4任一所述的自监督单目深度估计方法，其特征是，包括：待估计图像获取模块，用于获取待估计图像，对待估计图像进行预处理；

6.如权利要求5所述的自监督单目深度估计***，其特征是，所述矩形卷积模块为金字塔结构，包括5×5卷积、深度可分离卷积和1×1卷积，每一卷积均采用条形卷积的形式；

7.如权利要求5所述的自监督单目深度估计***，其特征是，所述自监督深度估计网络还包括形状细化模块，所述形状细化模块包括依次连接的深度可分离卷积、卷积层和多层感知器模块；

8.一种电子设备，其特征是：包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如权利要求1-4中任一项所述的一种自监督单目深度估计方法的步骤。

9.一种计算机可读存储介质，其特征是：用于存储计算机指令，所述计算机指令被处理器执行时，完成如权利要求1-4中任一项所述的一种自监督单目深度估计方法的步骤。