CN115457103A

CN115457103A - 一种基于分段平面先验的单目相机深度估计算法

Info

Publication number: CN115457103A
Application number: CN202211045411.3A
Authority: CN
Inventors: 姚健; 胡超; 邬伟杰; 邱伟斌; 顾剑峰; 虞祝豪; 潘倩
Original assignee: China Unicom Shanghai Industrial Internet Co Ltd
Current assignee: China Unicom Shanghai Industrial Internet Co Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-12-09

Abstract

本发明涉及单目相机深度估计技术领域，尤其为通过设计一种基于分段平面先验的单目相机深度估计算法，其步骤具体如下：步骤S1，数据构建、数据预处理；步骤S2，单目相机图像特征提取；步骤S3：输出像素级平面系数、预测偏移量和置信度图两个Head；步骤S4：深度估计的损失函数，本发明通过设计一种基于分段平面先验的单目相机深度估计算法，该算法利用3D场景中的局部平面信息来预测场景平滑部分的一致深度值，该方法使用平面系数表示深度，从而能够共享来自种子位置的信息并提高预测深度，能隐式地学习预测这些种子位置的偏移量，并根据精度自适应地权衡从它们获得的深度，并在用于单目深度估计的主要数据集KITTIDataset、NYUv2Dataset取得前列成绩。

Description

一种基于分段平面先验的单目相机深度估计算法

技术领域

本发明涉及单目相机深度估计技术领域，具体为一种基于分段平面先验的单目相机深度估计算法。

背景技术

在单目相机深度估计中，神经网络的方法建立大量的基准模型，现有的技术从图像到深度有多种方法，第一是为监督技术的引入，基于新颖视图合成的立体对的无监督深度学***面先验传统上已用于多视图立体和重建，在最近的基于深度学***面或通过适当设计损失隐式执行的。但是显示的预测每个平面像素计算量需求大，且容易忽略现实世界3D场景的高度规律性易产生分段平滑的深度图的，无法得到精度更高的深度图。

综上所述，本发明通过设计一种基于分段平面先验的单目相机深度估计算法来解决存在的问题。

发明内容

本发明的目的在于提供一种基于分段平面先验的单目相机深度估计算法来解决现存问题，设计了输出像素级平面系数、预测偏移量和置信度图两个Head的网络结构，由像素级平面系数Head得到第一个深度预测，通过预测偏移量对平面系数进行重采样得到第二个深度预测，两个深度预测与置信度图进行自适应融合，得到最终的高精度深度预测结果，在开源数据集上位于前列位置。

为实现上述目的，本发明提供如下技术方案：

一种基于分段平面先验的单目相机深度估计算法，其步骤具体如下：

步骤S1，数据构建、数据预处理：单目相机深度估计的开源数据集主要有KITTIDataset、NYUv2 Dataset，如需在自己的数据集上进行训练，需要将数据格式准备为与上述两个数据集一致，对数据进行预处理后，提取RGB图像特征；

步骤S2，单目相机图像特征提取：单目相机图像的特征提取是使用Resnet101网络，每个残差模块由一系列步长为2的卷积和最大池化操作组成，图像输入大小为1216*352，四个卷积层通道分别为[256，512，1024，2048]，通过减低特征图的分辨率来增加感受野，更好的使用不同分辨率的特征图捕获更多的上下文信息，最终的得到的特征图是输入图像的1/32；Resnet101网络利用4个不同的块将原始图像生成不同分辨率的特征图，并将不同尺度的特征图进行跳跃融合，最终网络输出两个Head，第一个Head解码获取像素级平面系数，第二个Head解码获取预测偏移量、置信度图；

步骤S3：输出像素级平面系数、预测偏移量和置信度图两个Head；

步骤S4：深度估计的损失函数。

作为本发明优选的方案，所述S1中的RGB图像维度是W*H*3，H和W分别的特征图的高和宽，3为通道数。

作为本发明优选的方案，所述S3中输出像素级平面系数、预测偏移量和置信度图两个Head，具体步骤如下：

首先像素级平面系数的解码，单目深度估计需要学习一个稠密映射：

f_θ:I(u,v)→D(u,v)，其中I是输入图像，D是对应的深度图；

对于深度图D以及相机内参，给定摄像机焦距(f_x,f_y)和主点(u₀,v₀)，每个像素点p＝(u,v)^T被映射到3D空间点p＝(X,Y,Z)^T，使用小孔成像模型将有：

将每个像素反向投影到3D空间，点p是3D场景的平面部分，因此点法线形式的关联平面方程可以表示为：

n·p＝d (2)

其中n＝(a,b,c)^T是平面法向量，-d是平面到原点的距离。

将公式(1)带入公式(2)得到：

令

经过归一化得到：

其中

由此公式(3)可以写成：

Z＝[(αu+βv+γ)ρ]^-1 (4)

使用如下标识符对公式(4)进行函数式表达：

Z＝h(C,u,v) (5)

至此得到像素级平面系数C＝(α,β,γ,ρ)^T，所以深度估计的稠密映射可以写为：

其中g_θ:I(u,v)→C(u,v)将图像映射到平面系数，应用公式(5)，那么有：

h:(C(u,v),u,v)→D_i(u,v)

由此得到初始深度预测D_i(u,v)；

其次，分段平面先验可以表述为对于每个具有关联3D平面的像素p，在p的邻域中存在一个种子像素q，它也与p相同的平面相关联，根据分段平面先验，像素点p的深度的预测转化为预测种子像素q，即通过预测偏移量o(p)＝p-q，鉴于此，模型的第二个Head首先预测偏移向量场o(p)，并使用如下方式对像素级平面系数进行重采样：

C_s(p)＝C(p+o(p)) (6)

使用双线性插值来处理小数偏移，利用重新采样的平面系数来计算第二个深度预测：

D_s(u,v)＝h(C_s(u,v),u,v) (7)

最后，先验并不总是有效，可能初始深度比第二个预测深度更可取，鉴于此，第二个Head额外预测一个置信度图F(u,v)，取值范围是[0,1]，表示模型在使用预测的种子像素通过D_i(u,v)估计深度时的置信度，置信度图通过自适应融合D_s(u,v)和D_s(u,v)来计算最终深度：

D_f＝F(u,v)D_s(u,v)+(1-F(u,v))D_i(u,v) (8)。

作为本发明优选的方案，所述S4中深度估计的损失函数，对于初始深度、第二个预测深度以及最终深度都需要进行监督，有如下损失函数：

其中μ和λ是超参数，L_depth＝L(D_f,D^gt)+λL(D_s,D^gt)+μL(D_i,D^gt)。

与现有技术相比，本发明的有益效果是：

1、本发明中，通过设计一种基于分段平面先验的单目相机深度估计算法，该算法利用3D场景中的局部平面信息来预测场景平滑部分的一致深度值，该方法使用平面系数表示深度，从而能够共享来自种子位置的信息并提高预测深度，能隐式地学习预测这些种子位置的偏移量，并根据精度自适应地权衡从它们获得的深度，并在用于单目深度估计的主要数据集KITTI Dataset、NYUv2 Dataset取得前列成绩。

附图说明

图1为本发明单目相机图像特征提取流程结构示意图；

图2为本发明输出像素级平面系数、预测偏移量和置信度图两个Head流程结构示意图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例,基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述,给出了本发明的若干实施例,但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例,相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件,当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件,本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同,本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明,本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例，请参阅图1-2，本发明提供一种技术方案：

其中所述S1中的RGB图像维度是W*H*3，H和W分别的特征图的高和宽，3为通道数；

步骤S2，单目相机图像特征提取：单目相机图像的特征提取是使用Resnet101网络，每个残差模块由一系列步长为2的卷积和最大池化操作组成，图像输入大小为1216*352，四个卷积层通道分别为[256，512，1024，2048]，通过减低特征图的分辨率来增加感受野，更好的使用不同分辨率的特征图捕获更多的上下文信息，最终的得到的特征图是输入图像的1/32；Resnet101网络利用4个不同的块将原始图像生成不同分辨率的特征图，并将不同尺度的特征图进行跳跃融合，最终网络输出两个Head，第一个Head解码获取像素级平面系数，第二个Head解码获取预测偏移量、置信度图，如图1；

具体的，S3中输出像素级平面系数、预测偏移量和置信度图两个Head，具体步骤如下：

f_θ:I(u,v)→D(u,v)，其中I是输入图像，D是对应的深度图；

n·p＝d (2)

其中n＝(a,b,c)^T是平面法向量，-d是平面到原点的距离。

将公式(1)带入公式(2)得到：

令

经过归一化得到：

其中

由此公式(3)可以写成：

Z＝[(αu+βv+γ)ρ]^-1 (4)

使用如下标识符对公式(4)进行函数式表达：

Z＝h(C,u,v) (5)

h:(C(u,v),u,v)→D_i(u,v)

由此得到初始深度预测D_i(u,v)；

C_s(p)＝C(p+o(p)) (6)

D_s(u,v)＝h(C_s(u,v),u,v) (7)

最后，先验并不总是有效，可能初始深度比第二个预测深度更可取，鉴于此，第二个Head额外预测一个置信度图F(u,v)，取值范围是[0,1]，表示模型在使用预测的种子像素通过D_i(u,v)估计深度时的置信度，置信度图通过自适应融合D_s(u,v)和D_s(u,v)来计算最终深度，如图2：

D_f＝F(u,v)D_s(u,v)+(1-F(u,v))D_i(u,v) (8)；

步骤S4：深度估计的损失函数；

具体的，所述S4中深度估计的损失函数，对于初始深度、第二个预测深度以及最终深度都需要进行监督，有如下损失函数：

具体实施案例：

基于分段平面先验的单目相机深度估计算法具体实施分为以下部分:

Step1，数据准备：深度估计的开源数据集主要有KITTI Dataset、NYUv2Dataset等，如需在自己的数据集上进行训练，需要将数据格式准备为与上述两个数据集一致，对数据进行预处理后，提取单目摄像机图像特征；

Step2，训练阶段：输入图像大小为1216*352*3，图像特征通道数为[256，512，1024，2048]，通过四个卷积层，提取图像特征；经过特征融合层FFM，将四个卷积层一次从最后一层向第一层进行特征融合，最后经过一个卷积、归一化、激活函数和上采样，得到解码的两个输出头；第一个Head输出像素级平面系数的四个参数，根据公式(4)计算得到初始深度；第二个Head第一个输出是预测偏移量，使用公式(6)对像素级平面系数进行重采样，计算得到第二个深度，第二个输出是置信度图，使用置信度图对初始深度和第二个深度进行加权自适应融合，应用公式(8)得到最终的深度图；

Step3，测试阶段：针对测试图片，送入网络进行推理，将得到的深度预测值和真值进行比较计算mAP即得到最终精度。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。