CN112767467B

CN112767467B - 一种基于自监督深度学习的双图深度估计方法

Info

Publication number: CN112767467B
Application number: CN202110095247.6A
Authority: CN
Inventors: 郑健青; 黄保茹
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2022-11-11
Anticipated expiration: 2041-01-25
Also published as: CN112767467A

Abstract

本发明涉及一种基于自监督深度学习的双图深度估计方法，相比现有的深度学习双图深度估计技术，在应用场景中该发明通过两张图像所提取特征的对应关系内化得到基础矩阵参数，从而无须相机标定参数和位置姿态信息，提高了使用灵活性和适用价值，其中交互注意力机制实现了两张图像之间不同尺度上特征的匹配与融合，而嵌入的最优传输算法解决了这一过程中的特征筛选问题，提升了现有方法中特征提取和匹配的准确性和稳定性，其中二维坐标被额外串联于特征图中改善卷积神经网络对空间感知不足问题，进一步提高现有方法的精确性，另外相比于现有的自监督学习算法，该发明结合多个损失函数项避免训练陷入局部极值，提高了学习过程的稳健性。

Description

一种基于自监督深度学习的双图深度估计方法

技术领域

本发明涉及图像数据采集技术领域，特别是一种基于自监督深度学习的双图深度估计方法。

背景技术

图像的深度估计作为计算机视觉领域里通过二维图像获得三维信息的一种重要手段，被广泛应用于无人机/无人车控制、三维场景重建、手术机器人导航等方面，通常，根据使用图像数量分为单图深度估计方法和多图深度估计方法。

其中单图深度估计方法通过单张图片实现深度估计，由于完全依赖于该图像中观测对象的轮廓、纹理、光源等对观测物体的先验信息，从而导致容易缺失泛用性和对噪音的稳健性。

相比之下多图深度估计方法可以使用单个或多个摄像头，从不同位置角度观测同一物体，通过同一空间点在不同视角下的二维图像位置来估计到该空间点的深度。由于多图深度估计方法中包括双图深度估计方法，并且多图深度估计方法通常是基于双图方法拓展的，所以，以下在不失通用性前提下仅讨论双图深度估计方法。目前的双图深度估计方法主要分为传统算法和深度学习算法，其中深度学习算法可以根据训练过程是否需要标记深度图数据分为监督学习算法和自监督学习算法。自监督学习算法可以减少标记数据所需成本，但是现有的自监督学习算法通常往往只使用基于图像再投影的损失函数而容易陷入局部最优解。

双图深度估计过程通常包括三个部分：1)提取二维图像特征；2)寻找同一空间点的图像特征对应关系；3)通过两个视角的对应图像坐标来估测到该空间点的深度距离。

在第一部分中，传统算法基于特征点线面的提取方法(如SIFT、SURF)，通常需要根据使用的具体场景进行调整，缺少普适性。相对来说深度学习算法如卷积神经网络可以根据不同场景数据来自适应调整，但是监督学习算法通常需要大量的标记数据进行训练而增加成本。

第二部分中一大难点在于特征筛选，相机视野限制造成了存在没有同时被两张图像观测到的特征，传统算法通常需要迭代运算(如Ransac)来排除这些无法匹配的特征点，但是会因此消耗较多时间而无法进行实时任务。而目前已知的深度学习算法还尚未有效解决这一问题。

在第三部分中，现有的双图深度学习算法大多需要在使用前通过相机标定得到对应参数，并要求在深度估计过程中两张图片拍摄中相机的相对位置和姿态，这极大的限制了其应用场景。

另外目前双图深度学习方法通常依赖于卷积神经网络对图像进行处理，其中有两种主要方式：(1)将两张图像串联后处理，(2)用双生网络结构，即共享权重的双分支网络结构。其中(1)由于卷积操作的感受野大小限制了两张图像的视差大小，因此限制了双图方法相对单图方法的收益；而(2)中现有双生网络分支之间缺乏有效的特征融合，因此限制了该结构在第二部分特征匹配中的表现。

发明内容

本发明的目的是针对现有的双图深度估计方法所存在的不足，提供一种基于自监督的端到端的深度学习算法的双图深度估计方法。

本发明的基于自监督深度学习的双图深度估计方法，特征在于是通过以下措施来实现的：

步骤1.搭建一个包含双生编码器-双生解码器Siamese Encoder– SiameseDecode结构、包括两个并行的网络分支的卷积神经网络模型，对应两个并行的网络分支分别输入左图像和右图像，输出得到对应的左深度图和右深度图，依照网络分支的阶段区分得到双生编码器、特征融合器和双生解码器三个部分，其中：

所述的双生编码器和双生解码器中两个分支间的所述卷积层、反卷积层参数可以共享，以减少网络参数数量并加速网络训练,而中间特征融合器部分中的卷积层和激活层则不共享；

所述的双生编码器结构中的若干个卷积层、激活层和下采样层，被用于提取两个图像不同尺度的特征，得到特征图；

所述的特征融合器部分中的卷积层和激活层，被用于将经过双生编码器多次下采样后得到的左右特征图通过串联或相加操作进行抽象特征的融合；

所述的双生解码器结构中的若干个卷积层、激活层和反卷积层或上采样层，被用于恢复特征图的分辨率，以提供更多空间特征；

在所述的双生编码器和所述的双生解码器之间，用跃接特征图连接每一个对应尺度模块，以确保证其不同分辨率特征和对应坐标信息的传递；

在所述的卷积神经网络模型的两个并行分支之间，用交互注意力MutualAttention机制实现各个尺度上两个特征图之间的相似特征的匹配与融合,对矩阵变维后的左图特征向量组X^l和右图特征向量组X^r相互进行查找匹配和融合：

Y^r→l＝Φ(X^l,X^r)Ψ(X^r)

Y^l→r＝Φ(X^r,X^l)Ψ(X^l)

该公式通过匹配函数Φ得到第二个输入中的每一个向量到第一个输入中每一个向量的匹配矩阵，通过特征变换函数Ψ实现两个分支特征图之间对应关系的特征空间变换，最终得到右图到左图的融合特征向量组Y^r→l和左图到右图的融合特征向量组Y^l→r；

在所述的匹配函数Φ中，可用最优传输算法于特征模糊匹配问题，并通过排除因为未同时出现在两个特征图里而无法匹配的特征完成特征筛选，其中可用迭代Sinkhorn算法计算最优传输问题的近似数值解，使得最优传输算法得以嵌入神经网络中；

所述的卷积层中特征图的每个像素的二维坐标数值都可以作为两层额外串联的特征图进行卷积运算，以加强网络对空间信息的利用；

步骤2.利用步骤1中搭建的所述卷积神经网络模型，通过相机，对在已知位置、角度及标定参数下观测到的多张图像进行训练，先将左右图像输入网络，再输出对应深度图，计算得到损失函数，并通过优化该损失函数来训练获得网络参数；

在所述的卷积神经网络模型的训练过程中，可以采用自监督模式，从而减少人工标记的成本，仅需要对应的相机标定参数，包括内参数K和外参数T，优化一个包含图像再投影差异损失

一致性损失

和光滑度损失

的损失函数

其中α、β和γ分别是三者的权重，所述图像再投影差异损失项

计算左右图像I^l,I^r与右左图像I^r,I^l在对应深度图D^r,D^l位置被投影至左右相机像平面后的差异，其中包括SSIM图像结构相似度差异和曼哈顿距离对应像素差值；一致性损失项

计算左右深度图D^l,D^r在三维空间中的差异性(如三维点云距离Chamfer距离)或投影至同一校正像平面的差异性(如深度图再投影差值)；光滑度损失项

计算左右图所预测深度的光滑程度。

步骤3.经训练完成的所述卷积神经网络模型，用来对两个位置姿态相机所观测到的图像进行深度估计。

本发明的有益技术效果是：实现了基于自监督端到端学习算法的双图深度估计，相比现有的深度学习双图深度估计技术，在应用场景中该发明通过两张图像所提取特征的对应关系内化得到观测的相对位置姿态变换和标定参数，从而无须观测的位置姿态，提高了使用的灵活性和适用价值；其中交互注意力机制实现了左右图之间不同尺度的相似特征的匹配与融合，而嵌入的最优传输算法解决了这一过程中的特征筛选问题，提升了深度学习方法对于图像特征提取和匹配的准确性及稳定性；其中二维坐标数值被额外串联于特征图中改善了卷积神经网络对空间学习感知不足的问题，进一步提高了深度学习深度估计方法的精确性；另外相比于现有的自监督学习算法，该发明结合多个损失函数项避免训练陷入局部极值，提高了学习过程的稳健性。

附图说明

图1是本发明实施例的神经网络结构模块总体结构示意图；

图2是本发明实施例中双生下采样模块结构示意图；

图3是本发明实施例中交互注意的双生下采样模块结构示意图；

图4是本发明实施例中抽象特征融合模块结构示意图；

图5是本发明实施例中交互注意的双生上采样模块结构示意图；

图6是本发明实施例中双生上采样模块结构示意图。

图中：

1.双生下采样模块 2.交互注意的双生下采样模块 3.抽象特征融合模块 4.交互注意的双生上采样模块 5.双生上采样模块

具体实施方式

下面结合附图和典型实施例对本发明作进一步说明。

本发明一种基于自监督深度学习的双图深度估计方法，特征在于是通过以下措施来实现的：

步骤1.搭建一个包含双生编码器-双生解码器Siamese Encoder– SiameseDecoder结构、包括两个并行的网络分支的卷积神经网络模型，对应两个并行的网络分支分别输入左图像和右图像，输出得到得到对应的左深度图和右深度图，依照网络分支的阶段区分得到双生编码器、特征融合器和双生解码器三个部分，其中：

在图1中，所述的卷积神经网络模型主要包括：一个或多个的双生下采样模块1、交互注意的双生下采样模块2、抽象特征融合模块3、交互注意的双生上采样模块4、双生上采样模块5，所述的一个或多个双生下采样模块1、交互注意的双生下采样模块2、交互注意的双生上采样模块4、抽象特征融合模块3 和双生上采样模块5依次级联；

所有的双生下采样模块1和交互注意的双生下采样模块2组成双生编码器部分，左右图像被输入双生编码器中并行提取其不同尺度的左右特征图，所述特征图的每一个对应该位置向量用来表征该像素或区域的特征，通过交互注意力机制实现左右特征图之间在不同尺度的匹配与融合，经过多次采样后得到左右的抽象特征图被输出至所述特征融合器，而其它尺度的特征图作为跃接特征图输出至双生解码器中。

在图2中，所述的双生下采样模块1包括多个卷积层、激活层、下采样层，输入图像或特征图，输出卷积并采样后的特征图，可以通过级联多个双生下采样模块提取两个图像不同尺度的特征。

在图3中，所述的交互注意的双生下采样模块2包括多个卷积层、激活层、下采样层及交互注意力层，基于双生下采样模块基础上，嵌入交互注意力层来匹配两个图像之间非局部的相似特征并进行融合；

所述特征融合器部分仅包括所述抽象特征融合模块3，在融合左右分支多次采样后的抽象特征图后，输出融合后的左右特征图至双生解码器；

在图4中，所述的抽象特征融合模块3包括卷积层和激活层，将经过多次下采样后的左特征图和右特征图串联后，分别通过两个权值不共享的卷积层和激活层将左右图的抽象特征进行融合；

所述双生解码器由所有的交互注意的双生上采样模块4、双生上采样模块 5组成,输入融合后的抽象特征图与不同尺度的跃接特征图，通过交互注意力机制匹配与融合特征后计算对应图像深度；

在图5中，所述的交互注意的双生上采样模块4包括多个卷积层、激活层、反卷积层及交互注意力层，基于交互注意力层进行特征融合，并利用反卷积层和跃接特征图恢复特征图的分辨率；

在图6中，所述的双生上采样模块5包括多个卷积层、激活层、反卷积层，利用反卷积层和跃接特征图恢复特征图的分辨率并最终计算对应深度；

双生下采样模块1，交互注意的双生下采样模块2，交互注意的双生上采样模块4和双生上采样模块5中的卷积和反卷积在左右两个分支之间共享权重，而抽象特征融合模块3中左右分支之间则不共享；

在所述卷积神经网络模型的具体设计中，双生下采样模块1和交互注意的双生下采样模块2之间可以相互替换，交互注意的双生上采样模块4和双生上采样模块5可以相互替换，其中为了使输出深度图分辨率和输入图像一致，双生下采样模块1和交互注意的双生下采样模块2数量之和需要与交互注意的双生上采样模块4和双生上采样模块5数量之和保持一致；

所述的交互注意力层将矩阵变维后的左图特征向量组X^l和右图特征向量组X^r相互匹配和融合：

Y^r→l＝Φ(X^l,X^r)Ψ(X^r)

Y^l→r＝Φ(X^r,X^l)Ψ(X^l)

其中

分别是左右特征图的所有特征向量所组成的矩阵，该公式通过匹配函数Φ得到第二个输入的每一个向量到第一个输入的每一个向量的匹配矩阵，通过特征变换函数Ψ实现两个分支特征图之间对应关系的特征空间变换，最终得到右图到左图的融合特征向量组Y^r→l和左图到右图的融合特征向量组Y^l→r,如图3和图5中所示，在实施例中融合特征向量组被重新变维回特征图维度后与其对应特征图串联；

在所述匹配函数Φ中，最优传输算法可以被用于特征模糊匹配问题并完成特征筛选:

s.t.Mu＝σ₂(X₂),M^Tu＝σ₂(X₁)

其中||·||₁是曼哈顿(L1)范数，σ₁依次包括卷积层、激活层和特征向量的欧几里得(L2)范数正则化操作，σ₂依次包括卷积层和激活层，u表示一个元素全部为1的向量，⊙表示哈达玛(Hadamard)乘法运算，其中Sinkhorn算法可以用于计算最优传输问题的近似数值解，使得最优传输算法得以嵌入神经网络中；

在本实施例的所述特征变换函数Ψ使用了一个线性变换：

Ψ(X)＝WX+b

其中W，b分别是可训练的矩阵和向量参数，该操作也可以替换为：对矩阵变维前特征图进行1×1卷积核的有偏置卷积操作:

在本实施例中，所述卷积层，当特征图边长大于2时，卷积核均采用3×3大小，否则采用1×1，在3×3卷积核中空洞间隙0、2被交替采用，以扩展感受野范围，并且每次卷积前外圈会插补0数值，以保证卷积操作不改变特征图维度大小，另外特征图的每个像素的二维坐标数值都作为两层额外串联的特征图进行卷积运算，以加强网络对空间信息的利用；

在本实施例中，所述反卷积层可以等效为：在特征图每个相邻像素间和外侧插补一排/列0数值，然后进行空洞间隙为0的3×3卷积核的卷积操作；

在本实施例中所述激活层，激活函数选用了修正线性单元(ReLU)函数： ReLU(x)＝max(0,x)。

在所述的神经网络模型的训练过程中，可以采用自监督模式，从而减少人工标记的成本，仅需要对应的相机标定参数，包括内参数K和外参数T，优化一个包含图像再投影差异损失

一致性损失

和光滑度损失

的损失函数

其中α、β和γ分别是三者的权重；

在本实施例的所述图像再投影差异损失项

中，计算得到右左图像I^r,I^l的每个像素在对应深度图D^r,D^l所预测的位置上投影在左右相机像平面图像，与左右图像I^l,I^r的图像结构相似性(SSIM)误差与曼哈顿(L1)距离的加权之和：

其中proj_K,T(·,·)是投影函数根据第二个输入的空间位置，将第一个输入矩阵投影到对应平面中，并线性插值得到另外一个相机像平面的对应矩阵，α₁,α₂分别是是权重，图像结构相似性(SSIM)受观测对象物体纹理影响，容易陷入局部极值，而通常光度图像受到光线、相机角度和材质漫反射系数等因素影响，使得投影图像的曼哈顿(L1)距离无法精准刻画空间点的对应关系，因此一致性损失项

被同时使用以解决该问题；

在本实施例的所述一致性损失项

中，计算得到右左图的每个像素在对应深度图D^r,D^l所预测的空间点位置上到左右相机像平面图像的投影距离，与左右图像对应的估计深度值的曼哈顿距离(L1差值范数)：

使得左右图像估计的深度在空间位置中保持一致性，另外虽然该实施例中未加入，但是三维点云距离如Chamfer距离也可以在此使用；

在本实施例的所述光滑度损失项

中，计算得到估计的深度图里三维形状突变，并通过图像边缘进行指数加权，用以减少非物体边缘上的深度突变导致的误差：

其中

是一阶梯度差分算子，可以用横向和纵向两个索贝尔(sobel)卷积核实现。

在本实施例中，所述的神经网络结构被分别在KITTI2020数据集和一个医学内窥镜数据集Endovis中应用，并取得超过现有其他相关方法的结果，证明了本发明的通用性和实用性。

以上所述为本发明的一个实施例，但本发明范围并不局限于此，不仅可用于双图深度估计，还可用于包括其他基于多个图片的深度估计，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于自监督深度学习的双图深度估计方法，其特征在于是通过以下措施来实现：

步骤1.搭建一个包含双生编码器-双生解码器Siamese Encoder-Siamese Decoder结构、包括两个并行网络分支的卷积神经网络模型，对应两个并行网络分支分别输入左图像和右图像，输出得到对应的左深度图和右深度图，依照网络分支的阶段区分得到双生编码器、特征融合器和双生解码器三个部分，其中：

在所述的双生编码器和所述的双生解码器之间，用跃接特征图连接每一个对应尺度模块，以保证其不同分辨率特征和对应坐标信息的传递；

在所述的卷积神经网络模型的两个并行分支之间，用交互注意力机制MutualAttention实现各个尺度上两个特征图之间的相似特征的匹配与融合，对矩阵变维后的左图特征向量组X^l和右图特征向量组X^r相互进行查找匹配和融合：

Y^r→l＝Φ(X^l，X^r)Ψ(X^r)

Y^l→r＝Φ(X^r，X^l)Ψ(X^l)

2.根据权利要求1所述的基于自监督深度学习的双图深度估计方法，其特征在于所述的双生编码器和双生解码器中两个分支间的所述卷积层、反卷积层参数共享，以减少网络参数数量并加速网络训练，而中间特征融合器部分中的卷积层和激活层则不共享。

3.根据权利要求1所述的基于自监督深度学习的双图深度估计方法，其特征在于所述的卷积层中特征图的每个像素的二维坐标数值都作为两层额外串联的特征图进行卷积运算，以加强网络对空间信息的利用。

4.根据权利要求1所述的基于自监督深度学习的双图深度估计方法，其特征在于：在所述的匹配函数Φ中，采用最优传输算法于特征模糊匹配问题，并通过排除因为未同时出现在两个特征图里而无法匹配的特征完成特征筛选，采用迭代Sinkhorn算法计算最优传输问题的近似数值解，使得最优传输算法得以嵌入神经网络中。

5.根据权利要求1所述的基于自监督深度学习的双图深度估计方法，其特征在于：在步骤2所述的神经网络模型的训练过程中，采用自监督模式，从而减少人工标记的成本，仅需要对应的相机标定参数，包括内参数K和外参数T，优化一个包含图像再投影差异损失

一致性损失

和光滑度损失

的损失函数

计算左右图像I^l，I^r与右左图像I^r，I^l在对应深度图D^r，D^l位置被投影至左右相机像平面后的差异，其中包括：SSIM结构相似性差异和曼哈顿距离的对应像素差值；一致性损失项

计算左右深度图Dl，Dr在三维空间中的差异性，包括三维点云距离，或投影至同一校正像平面的差异性和深度图再投影差值；光滑度损失项

计算左右图所预测深度的光滑程度。