CN114972517B

CN114972517B - 一种基于raft的自监督深度估计方法

Info

Publication number: CN114972517B
Application number: CN202210660035.2A
Authority: CN
Inventors: 耿向威; 司马崇昊; 李弘扬; 陈立; 张菘淳; 乔宇
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2024-05-31
Anticipated expiration: 2042-06-10
Also published as: CN114972517A

Abstract

本发明涉及计算机视觉技术领域，提出一种基于RAFT的自监督深度估计方法，包括下列步骤：估计场景中的深度信息以及相机自运动信息，并且利用所述深度信息以及所述相机自运动信息进行自监督训练；以及基于RAFT估计场景中的三维运动场信息，并且利用所述三维运动场信息进行自监督训练。

Description

一种基于RAFT的自监督深度估计方法

技术领域

本发明总的来说涉及计算机视觉技术领域。具体而言，本发明涉及一种基于RAFT(Recurrent All-Pairs Field Transforms，递归全对场变换)的自监督深度估计方法。

背景技术

从单目视觉***中同时估计相机的运动和场景的三维结构是一项复杂的任务，通常依赖于的场景的刚性假设。而当相机处在动态环境中时这一假设将被违反，导致相机的自运动和物体的运动之间出现耦合，进而会导致模型的训练困难，预测中出现无穷远“黑洞”等问题。

相机自运动和场景三维结构的同步估计是三维计算机视觉的一个基本研究课题，该任务对于三维场景重建以及同时定位建图等任务有很大的帮助。

传统的同步估计方法包括直接法与特征点法，这些方法通过最小化相邻两帧之间的光度一致性来对场景结构以及位姿进行联合估计。近年来，基于自监督深度学习的方法大幅度提升了深度估计的准确度，同时大幅度减少了所需的时间成本。其中，一项开创性的工作SFMlearner将相邻帧之间的重投影误差作为一个自监督信号，以此来联合训练深度估计网络和位姿估计网络。在这种基准结构的启发下，自监督的深度和运动学习的框架已经被广泛地研究。

然而，此类基于光度一致性的优化方法假设场景中的物体均为静态的，因此通常需要遮盖移动的物体以忽略非刚性的运动。现有的方法主要分为两类，其中基于实例分割的方法将前景与背景物体分别进行运动预测，以此消除非刚性带来的影响；此外，还有基于残差光流的方法，通过预测两幅图像之间的光流，以此来估计动态物体所处的区域。

现有的动态场景深度估计方法主要基于实例分割与残差光流。基于实例分割的方法，通过将前景物体分割出来后，将前景与背景分别送入运动估计网络预测各自的运动，可以得到较好的效果，然而该方法需要十分昂贵的逐像素的标注信息，因此难以投入实际使用。

此外基于光流的方法，即通过刚体变换以及光流联合进行图像的投影变化，由于稠密光流是对两张图像之间进行点对点的匹配，因此相比于位姿估计网络而言更加灵活，可以对视图的变换进行更加充分的描述。然而，该方法对于稠密光流的预测准确率要求较高，同时由于该方法基于匹配，因此在低纹理区域、光线变化剧烈以及大幅度运动的场景可能会失效。

发明内容

为至少部分解决现有技术中的上述问题，本发明提出一种基于RAFT动态物体感知的自监督深度估计方法，包括：

估计场景中的深度信息以及相机自运动信息，并且利用所述深度信息以及所述相机自运动信息进行自监督训练；以及

基于RAFT估计场景中的三维运动场信息，并且利用所述三维运动场信息进行自监督训练。

在本发明一个实施例中规定，估计场景中的深度信息包括下列步骤：

将场景中的第一图像和第二图像输入多尺度的FPN网络以提取所述第一和第二图像的多尺度特征，其中所述第一和第二图像是连续的图片帧；

将所述第一和第二图像输入相对位姿估计网络以预测所述第一图像与所述第二图像之间的相对位姿；以及

根据所述多尺度特征，在深度方向上划分深度区间，并以迭代的方式由粗到细进行区间划分进行深度估计。

在本发明一个实施例中规定，根据所述多尺度特征以及所述相对位姿估计场景中的深度信息包括下列步骤：

初始化场景中的深度最小值与深度最大值；

在所述深度最小值与深度最大值之间等间距地划N等分以便在相机坐标系下等间隔地构造多个与相机平面垂直的垂直平面；

根据所述多尺度特征、所述相对位姿以及所述多个垂直平面的深度，在所述垂直平面上进行特征代价匹配以构造第一代价体；

将所述第一代价体通过编码器-解码器架构以获取概率体；

将所述概率体在深度维度上的最小概率值作为当前像素上的深度值候选；以及

在深度维度上计算深度的期望以估计场景中的深度信息。

在本发明一个实施例中规定，所述基于RAFT的自监督深度估计方法，还包括下列步骤：

在低分辨率(长宽各取1/16)特征图下，对多个所述垂直平面前后的带状区域内进行等间隔的深度曲面采样；

在所述深度曲面上进行特征代价匹配以生成低分辨率深度信息；

根据所述低分辨率特征生成的深度信息结合高分辨率特征进行高精度的细分代价匹配以生成高分辨率深度信息。

在本发明中，“低分辨率”例如是指长宽各取1/16，“高分辨率”例如是指长宽各取1/8及1/4。

在本发明一个实施例中规定，利用所述深度信息以及所述相机自运动信息进行自监督训练包括：

确定相机的内参数；

根据所述相对位姿、所述深度信息、所述相机的内参数进行视图的单应变换以构造场景的第一重投影图像，表示为下式：

p_t～KT_s→t D_preK^-1p_s

其中，p_t表示重建图像，K表示相机的内参数，T_s→t表示源图像到目标图像的转移矩阵，p_s表示源图像

将所述第一重投影图像与场景的原图像的光度一致性作为优化目标进行第一自监督训练，其中损失函数表示为下式：

L_p＝∑pe(I_t，I_s)

其中，L_p表示光度损失函数，I_t表示目标图像，I_s表示源图像，pe()表示L1范数。

本发明一个实施例中规定，基于RAFT估计场景中的三维运动场信息包括下列步骤：

将所述第一图像与所述第二图像在同一坐标系下进行投影，并且将投影时未对齐的区域确定为动态物体区域；

基于所述第一和第二图像以及所述深度信息将所述第一和第二图像拼接为第三图像；

利用第一和第二骨干特征提取网络提取所述第三图像与所述原图像之间的第一和第二特征图；

对所述第一和第二特征图进行点积计算像素之间的相似度以构造第二代价体；

将所述第二代价体存储为四维的相似度查找表；

将所述三维运动场初始为全零矩阵；

将所述动态物体区域内的于每个像素利用所述相似度查找表查找最为相似的点并且进行循环迭代更新以获取三维运动场信息。

在本发明一个实施例中规定，进行循环迭代更新以获取三维运动场信息包括利用GRU模块以及卷积操作，计算出相对于上次迭代过程输出运动场的残差运动场，然后与上次迭代过程输出运动场进行相加用作补偿。

在本发明一个实施例中规定，利用所述三维运动场信息进行自监督训练包括下列步骤：

将所述三维运动场张量与所述相机自运动信息进行叠加并且逐像素构造场景的第二重投影图像，表示为下式：

p_t～KT_s→t(D_preK^-1p_s+T_flow)

其中，p_t表示重建图像，K表示相机的内参数，T_s→t表示源图像到目标图像的转移矩阵，，p_s表示源图像，T_flow表示三维运动场；以及

将所述第二重投影图像与场景的原图像的光度一致性作为优化目标进行第二自监督训练，其中损失函数表示为下式：

L_p＝∑pe(I_t，I_s)

在本发明一个实施例中规定，进行所述第一阶段自监督训练，再进行所述第二阶段自监督训练，并且在所述第一和第二自监督训练的过程后，对两个网络进行联合训练以进行参数微调更新。

本发明至少具有如下有益效果：本发明方法在动态物体区域上的深度估计指标有更好的表现，可以同时输出场景的深度信息、相机的自运动以及三维的物体运动场信息，同时可以适用于存在大量动态物体的场景，并且利用更小的显存占用实现了精度更高的深度估计。

附图说明

为进一步阐明本发明的各实施例中具有的及其它的优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。

图1示出了本发明一个实施例中一个基于RAFT的自监督深度估计方法的流程示意图。

图2示出了本发明一个实施例中估计场景中的深度信息以及相机自运动信息的示意图。

图3示出了本发明一个实施例中基于RAFT估计场景中的三维运动场信息的示意图。

具体实施方式

应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。在各附图中，给相同或功能相同的组件配备了相同的附图标记。

在本发明中，除非特别指出，“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外，“布置在…上或上方”仅仅表示两个部件之间的相对位置关系，而在一定情况下、如在颠倒产品方向后，也可以转换为“布置在…下或下方”，反之亦然。

在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。

在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。

在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。另外，除非另行说明，本发明的不同实施例中的特征可以相互组合。例如，可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征，所得到的实施例同样落入本申请的公开范围或记载范围。

在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推，在本发明中，表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。

另外，本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出，各方法步骤可以以不同顺序执行。

下面结合具体实施方式参考附图进一步阐述本发明。

图1示出了本发明一个实施例中一个基于RAFT的自监督深度估计方法的流程示意图。如图1所示，该方法可以包括下列步骤：

步骤100、估计场景中的深度信息以及相机自运动信息，并且利用所述深度信息以及所述相机自运动信息进行自监督训练；以及

步骤200、基于RAFT估计场景中的三维运动场信息，并且利用所述三维运动场信息进行自监督训练。

下面结合具体实施例进行说明。本发明方法提出一个基于单目连续帧序列的两阶段自监督学习框架，可以对场景的深度信息、相机的自运动以及场景中物体的三维运动场进行联合的估计。其中通过多阶段的训练，可以在动态环境或非刚性环境中进行自监督的深度估计。

步骤100、估计场景中的深度信息以及相机自运动信息，并且利用所述深度信息以及所述相机自运动信息进行自监督训练。其中在深度估计方面，利用基于多尺度特征代价匹配的方法来预测更加精细的深度图，同时减小显存的占用。

如图2所示，在该步骤中首先将连续的图片帧序列输入多尺度的特征图金字塔网络(FPN，Feature Pyramid Networks)提取各自的多尺度特征，同时将连续的两张图片输入相对位姿估计网络，预测两视图之间的相对位姿。

之后，按照基于平面扫描的多视角三维重建方法，首先根据场景的结构，初始化场景深度的最小值与最大值，并将其等间距划分为N等份，也就是说在相机坐标系下等间隔地构造了多个与相机平面垂直的平面结构。

之后利用此前提取的多尺度特征、预测的相对位姿以及构造的一系列垂直平面的深度，将垂直平面的上的三维点投影至前后两帧的特征图上，取对应特征向量进行点积或L1范数计算该空间位置的匹配代价。在这些虚拟的垂直平面上逐像素的计算匹配代价进而构造代价体。

为了融合代价体的信息，将代价体通过一个由3D卷积构成的3D的编码器-解码器架构后得到概率体，在深度维度上概率值(代价值)最小的即为当前像素的深度值候选，之后在深度维度上计算深度的期望即可得到当前尺度下预测的深度图。

为了减小上述过程的显存的占用量，并更好的融合多尺度的信息，将其划分为一个多尺度级联的深度估计过程，在分辨率较高的特征代价匹配部分，不会再使用密集的垂直平面进行匹配，而是在此前得到的深度表面前后的小型带状区域内进行等间隔的深度曲面采样，之后仅在这些曲面上进行特征的代价匹配，并重复之前的方法计算出每个尺度特征图对应的深度图预测。

通过预测得到的相对位姿以及深度信息，可以通过相机的内参数以及相对位姿进行视图的翘曲变换。

理论上当预测完全正确且场景中不存在动态物体时，重投影构造的图像将与原图像完全一致，基于此将两图像的光度一致性作为优化目标进行第一阶段的自监督学习。

步骤200、通基于RAFT估计场景中的三维运动场信息，并且利用所述三维运动场信息进行自监督训练。

如图3所示，在步骤100中获取到相邻两帧之间相机的相对位姿以及场景的深度信息之后，将两帧视图投影到相同坐标系下，此时相机视图中仍然未对齐的部分，将其建模为场景中的动态物体区域。利用两帧RGB图像以及各自对应预测的深度图，将其拼接为RGBD图像后，分别利用两组骨干特征提取网络提取重建的图像与原图像的特征图，之后对两者的特征图进行点积或L1范数计算像素之间的相似度以此构建代价体，并将该代价体结果存储为一个4维的相似度查找表，以此减少后续模型的计算复杂度。

之后，先将三维运动场初始为一个全零矩阵，对于每个像素利用之前得到的查找表，不断的在其领域内查找与其最为相似的点，并进行循环迭代多次更新，利用GRU模块以及卷积操作，计算出相对于上次迭代过程输出运动场的残差运动场，然后与上次迭代过程输出运动场进行相加用作补偿。经过多次的迭代操作，即可得到十分稠密且准确的三维运动场张量。在得到运动场向量后，将其与此前得到的自运动向量进行叠加，得到完整的场景运动描述并进行逐像素地视图重建，并将此时计算得出的光度一致性损失作为第二阶段训练的监督信号。

另外，为了使得网络能够更快的收敛，整个训练需要分阶段的进行。经过前两个个步骤，对网络的两个部分分别进行了训练，在该阶段将网络的参数联合进行微调更新，具体做法为将两个网络的权重梯度同时计算，继续在原有数据集上进行训练，同时更新两个网络的参数，使得整体的性能得到进一步的提升。

由于单目***无法恢复真实世界的尺度信息，因此在得到深度预测后，需要计算深度图的中值以及场景激光雷达点云的深度中值，按下式计算一个尺度因子，帮助模型恢复真实世界的尺度信息。

尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种基于RAFT的自监督深度估计方法，其特征在于，包括下列步骤：

基于RAFT估计场景中的三维运动场信息，并且利用所述三维运动场信息进行自监督训练；

其中估计场景中的深度信息包括下列步骤：

将场景中的第一图像和第二图像输入多尺度的FPN网络以提取第一图像和第二图像的多尺度特征，其中所述第一图像和第二图像是连续的图片帧；

将所述第一图像和第二图像输入相对位姿估计网络以预测所述第一图像与所述第二图像之间的相对位姿；以及

根据所述多尺度特征，在深度方向上划分深度区间，并以迭代的方式由粗到细进行区间划分进行深度估计以及所述场景中的对应位姿信息；

基于RAFT估计场景中的三维运动场信息包括下列步骤：

基于所述第一图像和第二图像以及所述深度信息将所述第一图像和第二图像拼接为第三图像；

利用第一和第二骨干特征提取网络提取所述第三图像与场景的原图像之间的第一和第二特征图；

将所述第二代价体存储为四维的相似度查找表；

将所述三维运动场初始为全零矩阵；以及

2.根据权利要求1所述的基于RAFT的自监督深度估计方法，其特征在于，根据所述多尺度特征以及所述相对位姿估计场景中的深度信息包括下列步骤：

初始化场景中的深度最小值与深度最大值；

将所述第一代价体通过编码器-解码器架构以获取概率体；

在深度维度上计算深度的期望以估计场景中的深度信息。

3.根据权利要求2所述的基于RAFT的自监督深度估计方法，其特征在于，还包括下列步骤：

在低分辨率特征图下，对多个所述垂直平面前后的带状区域内进行等间隔的深度曲面采样；

4.根据权利要求2所述的RAFT的自监督深度估计方法，其特征在于，利用所述深度信息以及所述相机自运动信息进行自监督训练包括：

确定相机的内参数；

根据所述相对位姿、所述深度信息、所述相机的内参数进行视图的单应变换以构造场景的第一重投影图像；以及

将所述第一重投影图像与场景的原图像的光度一致性作为优化目标进行第一自监督训练。

5.根据权利要求4所述的基于RAFT的自监督深度估计方法，其特征在于，进行循环迭代更新以获取三维运动场信息包括利用GRU模块以及卷积操作，计算出相对于上次迭代过程输出运动场的残差运动场，然后与上次迭代过程输出运动场进行相加用作补偿。

6.根据权利要求5所述的基于RAFT的自监督深度估计方法，其特征在于，利用所述三维运动场信息进行自监督训练包括下列步骤：

将所述三维运动场张量与所述相机自运动信息进行叠加并且逐像素构造场景的第二重投影图像；以及

将所述第二重投影图像与场景的原图像的光度一致性作为优化目标进行第二自监督训练。

7.根据权利要求6所述的基于RAFT的自监督深度估计方法，其特征在于，进行第一阶段自监督训练，再进行第二阶段自监督训练，并且在第一和第二自监督训练的过程后，对两个网络进行联合训练以进行参数微调更新。