CN111179331B

CN111179331B - 深度估计方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111179331B
Application number: CN201911406449.7A
Authority: CN
Inventors: 黄浴
Original assignee: Zhiche Youxing Technology Shanghai Co ltd
Current assignee: Zhiche Youxing Technology Shanghai Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-09-08
Anticipated expiration: 2039-12-31
Also published as: CN111179331A

Abstract

本公开的实施例公开了一种深度估计方法、装置、电子设备及计算机可读存储介质。该方法包括：获取激光雷达采集的原始点云，以及获取摄像头采集的原始图像；确定原始点云对应的第一质量评估指标，以及确定原始图像对应的第二质量评估指标；根据第一质量评估指标和第二质量评估指标，确定原始点云和原始图像中，质量评估通过的第一目标数据；根据第一目标数据，以相应的深度估计策略，获得深度估计结果。与现有技术相比，本公开的实施例能够有效保证深度估计结果的可靠性。

Description

深度估计方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及深度估计技术领域，尤其涉及一种深度估计方法、装置、电子设备及计算机可读存储介质。

背景技术

对于自动驾驶***而言，深度估计是非常重要的一个环节，目前，在进行深度估计时，一般仅是利用摄像头采集的图像进行深度估计，一旦摄像头采集的图像质量差，会导致深度估计结果的可靠性非常差。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种深度估计方法、装置、电子设备及计算机可读存储介质。

根据本公开实施例的一个方面，提供了一种深度估计方法，包括：

获取激光雷达采集的原始点云，以及获取摄像头采集的原始图像；

确定所述原始点云对应的第一质量评估指标，以及确定所述原始图像对应的第二质量评估指标；

根据所述第一质量评估指标和所述第二质量评估指标，确定所述原始点云和所述原始图像中，质量评估通过的第一目标数据；

根据所述第一目标数据，以相应的深度估计策略，获得深度估计结果。

根据本公开实施例的另一个方面，提供了一种深度估计装置，包括：

第一获取模块，用于获取激光雷达采集的原始点云，以及获取摄像头采集的原始图像；

第一确定模块，用于确定所述原始点云对应的第一质量评估指标，以及确定所述原始图像对应的第二质量评估指标；

第二确定模块，用于根据所述第一质量评估指标和所述第二质量评估指标，确定所述原始点云和所述原始图像中，质量评估通过的第一目标数据；

第二获取模块，用于根据所述第一目标数据，以相应的深度估计策略，获得深度估计结果。

根据本公开实施例的再一个方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述深度估计方法。

根据本公开实施例的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述深度估计方法。

本公开的实施例中，在针对激光雷达采集的原始点云，确定出第一质量评估指标，以及针对摄像头采集的原始图像，确定出第二质量评估指标之后，可以根据第一质量评估指标和第二质量评估指标，确定原始点云和原始图像中，质量评估通过的第一目标数据；之后，可以根据第一目标数据，以相应的深度估计策略，获得深度估计结果。可见，本公开的实施例中使用的是多传感器***，多传感器***中可以同时包括激光雷达和摄像头，且进行深度估计时，依据的是激光雷达采集的原始点云和摄像头采集的原始图像中，质量评估通过的第一目标数据，也即，只要激光雷达和摄像头中的至少一者采集的数据能够符合要求，就能够得到可靠的深度估计结果，因此，与现有技术中直接依据摄像头采集的图像进行深度估计的情况相比，本公开的实施例能够有效保证深度估计结果的可靠性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开一示例性实施例提供的深度估计方法的流程示意图；

图2为本公开一示例性实施例中深度估计***的结构框图；

图3为本公开一示例性实施例中深度估计***的另一结构框图；

图4为本公开一示例性实施例中深度网络的工作原理图；

图5为本公开另一示例性实施例中深度网络的工作原理图；

图6为本公开再一示例性实施例中深度网络的工作原理图；

图7为本公开一示例性实施例提供的深度估计装置的结构框图；

图8为本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，不代表任何特定技术含义和必然逻辑顺序；“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本公开中字符“/”表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

本公开实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

示例性方法

图1是本公开一示例性实施例提供的深度估计方法的流程示意图。图1所示的方法可以包括步骤101、步骤102、步骤103和步骤104，下面对各步骤分别进行说明。

步骤101，获取激光雷达采集的原始点云，以及获取摄像头采集的原始图像。

这里，激光雷达采集的原始点云和摄像头采集的原始图像可以是时间同步的。如果激光雷达连续地采集原始点云，以得到由若干原始点云组成的点云序列，且摄像头连续地采集原始图像，以得到由若干原始图像组成的图像序列，点云序列与图像序列的帧率可以是相同的。

这里，摄像头的数量可以为一个；或者，摄像头的数量可以为至少两个。具体地，由图2、图3所示的深度估计***可知，摄像头的数量可以为两个，两个摄像头分别为摄像头1和摄像头2，摄像头1和摄像头2可以组成双目摄像头，这种情况下，步骤101中涉及的原始图像可以同时包括摄像头1采集的原始图像和摄像头2采集的原始图像。

步骤102，确定原始点云对应的第一质量评估指标，以及确定原始图像对应的第二质量评估指标。

这里，第一质量评估指标可以用于评估原始点云的质量优劣，第一质量评估指标的类型多样，为了布局清楚，后续进行举例介绍。

这里，第二质量评估指标可以用于评估原始图像的质量优劣，第二质量评估指标可以为传统图像处理和视频帧采集的测度，例如峰值信噪比(peaksignal-to-noiseratio，PSNR)、结构相似性(structural similarity，SSIM)等。

步骤103，根据第一质量评估指标和第二质量评估指标，确定原始点云和原始图像中，质量评估通过的第一目标数据。

由于第一质量评估指标用于评估原始点云的质量优劣，第二质量评估指标用于评估原始图像的质量优劣，依据第一质量评估指标和第二质量评估指标，可以分别确定原始点云和原始图像的质量评估是否通过，以根据确定结果，得到相应的第一目标数据。下面结合图2、图3，对第一目标数据的数据组成的几种可能的情况进行举例说明。

第一种情况，激光雷达采集的原始点云的质量评估通过，摄像头1采集的原始图像和摄像头2采集的原始图像的质量评估均通过，这时，第一目标数据中可以同时包括原始点云、摄像头1采集的原始图像，以及摄像头2采集的原始图像。

第二种情况，激光雷达采集的原始点云的质量评估通过，摄像头1采集的原始图像和摄像头2采集的原始图像的质量评估均不通过，这时，第一目标数据中可以仅包括原始点云。

第三种情况，激光雷达采集的原始点云的质量评估不通过，摄像头1采集的原始图像和摄像头2采集的原始图像中的至少一者的质量评估通过，这时，第一目标数据中可以仅包括摄像头1采集的原始图像和摄像头2采集的原始图像中，质量评估通过的原始图像。

第四种情况，激光雷达采集的原始点云的质量评估通过，摄像头1采集的原始图像和摄像头2采集的原始图像中的一者的质量评估通过，这时，第一目标数据中可以仅包括摄像头1采集的原始图像和摄像头2采集的原始图像中，质量评估通过的原始图像，以及原始点云。

步骤104，根据第一目标数据，以相应的深度估计策略，获得深度估计结果。

这里，在第一目标数据中仅包括原始点云的情况下，可以根据第一目标数据，以基于点云的深度估计策略，获得深度估计结果；在第一目标数据中仅包括摄像头1采集的原始图像和摄像头2采集的原始图像中的至少一者的情况下，可以根据第一目标数据，以基于图像的深度估计策略，获得深度估计结果；在第一目标数据中同时包括摄像头1采集的原始图像和摄像头2采集的原始图像中的至少一者，以及原始点云的情况下，可以根据第一目标数据，以基于点云和图像融合的深度估计策略，获得深度估计结果。可选地，深度估计结果可以为一致密深度图(例如后文中的第一致密深度图)。

需要说明的是，如图2、图3所示，深度估计***中可以对应于激光雷达设置控制开关A，对应于摄像头1设置控制开关B，以及对应于摄像头2设置控制开关C。

在第一目标数据中存在原始点云的情况下，控制开关A可以置于闭合状态，以使得原始点云可以用于后续的深度估计；否则，控制开关A可以置于断开状态。

类似地，在第一目标数据中存在摄像头1采集的原始图像的情况下，控制开关B可以置于闭合状态，以使得摄像头1采集的原始图像可以用于后续的深度估计；否则，控制开关B可以置于断开状态。

类似地，在第一目标数据中存在摄像头2采集的原始图像的情况下，控制开关C可以置于闭合状态，以使得摄像头2采集的原始图像可以用于后续的深度估计；否则，控制开关C可以置于断开状态。

在一个可选示例中，根据第一目标数据，以相应的深度估计策略，获得深度估计结果，包括：

在第一目标数据中包括原始图像的情况下，根据原始图像，进行特征提取，以得到第一图像特征；

根据第一图像特征，生成第一目标特征图；其中，第一目标特征图包括第一注意图、第一法线图和第一边缘图；

根据原始图像、第一目标特征图和深度网络，获得深度网络输出的第一致密深度图，并将第一致密深度图作为深度估计结果。

一般而言，注意图也可以称为attentionmap，法线图也可以称为normalmap，边缘图也可以称为edgemap，深度网络也可以称为depthnet。

本公开的实施例中，在第一目标数据中包括原始图像的情况下，可以根据原始图像，进行特征提取，以得到第一图像特征。

在第一目标数据中包括摄像头1采集的原始图像和摄像头2采集的原始图像的情况下，可以从摄像头1采集的原始图像和摄像头2采集的原始图像中选择原始图像，并将所选择的原始图像输入图2、图3中所示的编码器提取特征，以得到第一图像特征。

在第一目标数据中包括摄像头1采集的原始图像和摄像头2采集的原始图像中的一者的情况下，例如仅包括摄像头1采集的原始图像的情况下，可以直接将摄像头1采集的原始图像输入图2、图3所示的编码器提取特征，以得到第一图像特征。

上述两种情况中，编码器均可以利用残差网络或者致密网络提取特征。具体地，残差网络也可以称为ResNet，致密网络也可以称为DenseNet。

在得到第一图像特征之后，可以根据第一图像特征，生成第一目标特征图。这里，可以将第一图像特征分别输入图2、图3所示的分割网络、法线网络和边缘网络，以得到分割网络输出的第一注意图，法线网络输出的第一法线图，以及边缘网络输出的第一边缘图，第一注意图、第一法线图(其与表面法线信息相关)和第一边缘图(其与轮廓信息相关)可以构成第一目标特征图。具体地，分割网络也可以称为segmentationnet，分割网络可以为以U-Net为基准的网络，U-Net是一个图像分割网络；法线网络也可以称为normalnet；边缘网络也可以称为posenet。

在得到第一目标特征图之后，可以根据第一目标数据中的原始图像、第一目标特征图和深度网络，获得深度网络输出的第一致密深度图。具体地，深度网络可以为单目深度网络。

本公开的实施例中，在第一目标数据中包括原始图像的情况下，可以依据对原始图像进行特征提取得到的第一图像特征，得到包括第一注意图、第一法线图和第一边缘图的第一目标特征图，之后，依据第一目标数据中的原始图像、第一目标特征图和深度网络，进行深度估计，可以得到作为深度估计结果的第一致密深度图。可见，本公开的实施例中，可以将运动、轮廓、表面法线等信息用于深度估计，这样能够较好地保证深度估计结果的可靠性。

在一个可选示例中，根据原始图像、第一目标特征图和深度网络，获得深度网络输出的第一致密深度图，包括：

根据原始图像，确定第二目标数据；

根据第二目标数据、第一目标特征图和深度网络，获得深度网络输出的第一致密深度图。

这里，可以先根据原始图像，确定第二目标数据，下面对确定第二目标数据的具体实施方式进行介绍。

在一种具体实施方式中，摄像头的数量为一个，根据原始图像，确定第二目标数据，包括：

将第一目标数据中的原始图像作为第二目标数据。

这种实施方式中，直接将第一目标数据中的原始图像作为第二目标数据即可，因此，这种实施方式能够非常便捷地确定出第二目标数据。

在另一种具体实施方式中，摄像头的数量为两个，根据原始图像，确定第二目标数据，包括：

在第一目标数据中包括两个摄像头分别采集的原始图像的情况下，将第一目标数据中，两个摄像头分别采集的原始图像进行图像融合，得到融合结果，并确定包括融合结果的第二目标数据。

这里，在第一目标数据中包括两个摄像头分别采集的原始图像的情况下，例如，在第一目标数据中包括图2、图3中的摄像头1采集的原始图像和摄像头2采集的原始图像的情况下，可以将摄像头1采集的原始图像和摄像头2采集的原始图像进行图像融合，以得到新的图像作为融合结果，并得到包括融合结果的第二目标数据。

具体地，在进行图像融合时，可以直接做特征合并或者相关，例如，如图4所示，可以利用光流网络推广的视差网络做特征相关，图4中的相关可以代表一个双目图像特征做相关计算的层。具体地，光流网络也可以称为FlowNet，视差网络也可以称为DispNet。

当然，在进行图像融合时，也可以借传统立体视觉方法，计算四维成本容积，然后馈入三维深度卷积深度网络(Three Dimension Deep Convolutional Neural Networks，3-DCNN)，典型的基准网络有金字塔立体匹配深度学习网络、立体匹配回归网络等。具体地，四维成本容积也可以称为4-D costvolume，金字塔立体匹配深度学习网络也可以称为PSM-Net，立体匹配回归网络也可以称为GCNet。

这种实施方式中，在第一目标数据中包括两个摄像头分别采集的原始图像的情况下，通过图像融合，能够非常便捷地确定出第二目标数据。

无论采用上述何种方式确定第二目标数据，在确定出第二目标数据之后，均可以根据第二目标数据、第一目标特征图和深度网络，获得深度网络输出的第一致密深度图，下面对获得第一致密深度图的具体实施方式进行举例介绍。

在一种具体实施方式中，根据第二目标数据、第一目标特征图和深度网络，获得深度网络输出的第一致密深度图，包括：

在第一目标数据中不包括原始点云的情况下，将第二目标数据和第一目标特征图输入深度网络，以获得深度网络输出的第一致密深度图。

这里，在输出第一致密深度图的同时，深度网络还可以输出第一致密深度图对应的置信度图，置信度图可以用于表征第一致密深度图中的每个深度估计值的可信度，可信度可以用位于0和1之间的系数进行表征。

这种实施方式中，在第一目标数据中不包括原始点云的情况下，可以直接将第二目标数据和第一目标特征图一并输入深度网络，深度网络可以直接输出作为深度估计结果的第一致密深度图，因此，这种实施方式能够非常便捷地得到基于图像的深度估计结果。

在另一种具体实施方式中，根据第二目标数据、第一目标特征图和深度网络，获得深度网络输出的第一致密深度图，包括：

在第一目标数据中包括原始点云的情况下，根据原始点云，获得稀疏深度图和稀疏掩码；

将第二目标数据、第一目标特征图，以及所得到的稀疏深度图和稀疏掩码输入深度网络，以获得深度网络输出的第一致密深度图。

这里，在第一目标数据中包括原始点云的情况下，可以利用透视投影模块，对原始点云进行透视投影，以得到稀疏深度图和稀疏掩码(例如2-值稀疏掩码)，稀疏掩码可以通过0-1值，指示稀疏深度图中的哪些位置存在激光雷达提供的深度值，哪些位置不存在激光雷达提供的深度值。

之后，可以将第二目标数据、第一目标特征图，以及所得到的稀疏深度图和稀疏掩码一并输入深度网络，以通过深度网络实现第二目标数据、第一目标特征图，以及所得到的稀疏深度图和稀疏掩码的融合，从而得到深度网络输出的，作为深度估计结果的第一致密深度图。

这里，深度网络可以采用前融合方式或者后融合方式。一般而言，前融合指数据在进入融合之前做了很多预处理工作，比如特征提取；后融合指在特征空间或者最终任务空间(比如定位的坐标系)才开始将信息合并或者联结。

具体地，深度网络采用前融合方式时，如图5所示，可以先将稀疏深度图、稀疏掩码、第二目标数据中的图像(其可以为单目图像)、以及第一目标特征图中的注意图(其具体为上文中的第一注意图)、法线图(其具体为上文中的第一法线图)、边缘图(其具体为上文中的第一边缘图)输入深度网络的编码器进行合并，然后再将合并结果提供给深度网络的解码器，解码器可以据此输出第一致密深度图。

深度网络采用后融合方式时，如图6所示，稀疏深度图和稀疏掩码可以进入深度网络中的一个编码器，第二目标数据中的图像(其可以为单目图像)，以及第一目标特征图中的注意图(其具体为上文中的第一注意图)、法线图(其具体为上文中的第一法线图)、边缘图(其具体为上文中的第一边缘图)可进入深度网络中的另一个编码器，两个编码器的输出结果在深度网络的解码器的输入端进行合并，解码器可以据此输出第一致密深度图。

需要指出的是，图5、图6中的合并是指对同样空间大小的特征或者图像在通道维进行叠加。

这种实施方式中，在第一目标数据中同时包括原始点云和原始图像的情况下，可以将基于原始点云得到的稀疏深度图和稀疏掩码，以及第二目标数据和第一目标特征图一并输入深度网络，深度网络可以输出作为深度估计结果的第一致密深度图，因此，这种实施方式能够非常便捷地得到基于图像和点云的融合的深度估计结果。此外，这种实施方式能够能够充分利用摄像头的彩色图像信息，将激光雷达点云的稀疏深度数据进行内插，以实现深度完整，同时，依据激光雷达采集的点云数据在图像平面上离散点提供的可靠深度值，能够对图像推理深度的目标进行增强或者正则化修正，提高整个深度估计***的精度和鲁棒性。

可见，本公开的实施例中，利用根据原始图像确定出的第二目标数据，以及第一目标特征图和深度网络，能够便捷可靠地获得深度估计结果。

在一个可选示例中，根据原始图像、第一目标特征图和深度网络，获得深度网络输出的第一致密深度图之前，该方法还包括：

生成深度网络；

根据摄像头采集的训练图像，进行特征提取，以得到第二图像特征；

根据第二图像特征，获得摄像头的自运动参数以及获得第二目标特征图，将自运动参数进行扭曲，得到扭曲结果；其中，第二目标特征图包括第二注意图、第二法线图和第二边缘图；

将第二目标特征图和训练图像输入深度网络，以获得深度网络输出的第二致密深度图和置信度图；

将第二致密深度图和置信度图输入残差光流网络，以获得残差光流网络输出的残差光流；

将残差光流与扭曲结果相加，以得到光流域，并根据光流域，修正深度网络。

需要说明的是，为了能够使用深度网络进行深度估计，需要先进行深度网络的训练。以深度估计***中仅包括一个摄像头的情况为例，可以先调用摄像头采集训练图像，并生成初始的深度网络。

接下来，可以将训练图像输入至图2、图3所示的编码器进行特征提取，以得到第二图像特征，并将第二图像特征分别输入至图2、图3所示的分割网络、法线网络、边缘网络和姿态网络，以得到分割网络输出的第二注意图、法线网络输出的第二法线图、边缘网络输出的第二边缘图，以及姿态网络输出的摄像头的自运动参数；其中，第二法线图、第二法线图、第二边缘图可以组成第二目标特征图。具体地，姿态网络也可以称为posenet；自运动参数可以是姿态网络通过对连续两帧原始图像进行回归估计得到的；自运动参数可以包括旋转矩阵(其可以用R表示)和平移参数(其可以用t表示)。

之后，可以通过扭曲操作，对自运动参数进行扭曲，例如将自运动参数从左目图像平面扭曲至右目图像平面，以得到扭曲结果。另外，还可以将第二目标特征和训练图像输入当前的深度网络，以获得深度网络输出的第二致密深度图和置信度图。再之后，可以将所获得的第二致密深度图和置信度图输入残差光流网络，以获得残差光流网络输出的，去除自运动后的残差光流。具体地，扭曲也可以称为warp，残差光流网络也可以称为resflownet。

再之后，可以将残差光流与扭曲结果相加，以得到整个光流域，并根据光流域，修正深度网络，从而得到最终用于深度估计的深度网络。需要说明的是，光流估计的结果和深度估计的结果在训练时可以相互牵制，通过根据光流域修正深度网络，能够利用运动信息约束深度估计，从而优化深度网络，以保证最终用于深度估计的深度网络进行深度估计时，估计结果的可靠性。

需要指出的是，在进行深度网络的训练时，损失函数可以有多个损失项，如深度重建项、法线项、边缘项、注意图项、运动连续性项、立体几何项等。即使在没有立体双目输入的情况下，利用训练时估计的深度图(即上文中的第二致密深度图)和摄像头参数(即上文中的自运动参数)，可以将单目图像扭曲到另一个图像平面，以用于计算双目视觉的损失；运动连续性项来自残差光流网络和姿态网络的误差；法线项来自于深度图和法线图之间的几何转换。

在第一目标数据中不包括原始图像，且第一目标数据中包括原始点云的情况下，根据原始点云，得到稀疏深度图和稀疏掩码；

将所得到的稀疏深度图和稀疏掩码输入卷积神经网络，以获得卷积神经网络输出的第一致密深度图。

这里，卷积神经网络可以为图2中所示的稀疏不变卷积神经网络，或者为图3中所示的归一化不变卷积神经网络。具体地，稀疏不变卷积神经网络也可以称为稀疏不变CNN，归一化不变卷积神经网络也可以称为归一化不变CNN。

本公开地实施例中，在第一目标数据中仅包括原始点云的情况下，可以利用透视投影模块，对原始点云进行透视投影，以得到稀疏深度图和稀疏掩码(例如2-值稀疏掩码)，稀疏掩码可以通过0-1值，指示稀疏深度图中的哪些位置存在激光雷达提供的深度值，哪些位置不存在激光雷达提供的深度值。

在得到稀疏深度图和2-值稀疏掩码之后，可以将稀疏深度图和2-值稀疏掩码输入图2所示的稀疏不变CNN，稀疏不变CNN可以据此输出第一致密深度图。或者，在得到稀疏深度图和2-值稀疏掩码之后，可以将2-值稀疏掩码作为置信度图与稀疏深度图输入图3所示的归一化不变CNN，归一化不变CNN可以据此输出第一致密深度图。

可见，本公开的实施例中，在缺乏图像作为引导的情况下，利用卷积神经网络，能够便捷地获得基于点云的深度估计结果。

在一个可选示例中，确定原始点云对应的第一质量评估指标，包括：

将原始点云投影至摄像头的图像平面，以得到投影图像；

计算投影图像的梯度信息，以及原始图像的图像边缘信息的相关度，并将相关度作为原始点云对应的第一质量评估指标；或者，确定投影图像的雷尼二次熵，并将雷尼二次熵作为原始点云对应的第一质量评估指标。

以深度估计***中仅包括一个摄像头的情况为例，在获取激光雷达采集的原始点云和摄像头采集的原始图像之后，可以将原始点云投影至摄像头的图像平面，以得到投影图像，这时，可以认为激光雷达和摄像头的坐标系是标定的。接下来，根据投影图像，确定原始点云对应的第一质量评估指标，下面对确定第一质量评估指标的具体实施方式进行举例介绍。

在一种具体实施方式中，可以计算投影图像的梯度信息和原始图像的图像边缘信息，并计算梯度信息和图像边缘信息的相关度。具体地，计算相关度使用的公式可以为：

其中，Jc是相关度，w是视频窗大小，f是图像，(I,j)是图像中的像素位置，p是点云的3-D点，X是激光雷达采集的点云数据，D是图像梯度图(其用于表征梯度信息)。

在计算出相关度之后，可以将相关度作为原始点云对应的第一质量评估指标。这里，可以预先设置一相关度阈值，如果确定出的相关度大于相关度阈值，可以认为原始点云的质量评估通过；否则，可以认为原始点云的质量评估不通过。

容易看出，这种实施方式能够非常便捷地确定出第一质量评估指标，且能够非常便捷地实现对原始点云的质量评估。

在另一种具体实施方式中，可以计算投影图像的雷尼二次熵。具体地，计算雷尼二次熵采用的公式可以为：

其中，是雷尼二次熵，G(a，b)是均值为a，方差为b的高斯分布函数，RQE是将点云分布定义为一个高斯混合模型(Gaussian Mixture Model，GMM)形式下的致密测度，可以作为这里的质量测度。

在计算出雷尼二次熵之后，可以将雷尼二次熵作为原始点云对应的第一质量评估指标。具体地，可以预先设置一雷尼二次熵阈值，如果计算出的雷尼二次熵大于雷尼二次熵阈值，可以认为原始点云的质量评估通过；否则，可以认为原始点云的质量评估不通过。

容易看出，这种实施方式也能够非常便捷地确定出第一质量评估指标，且能够非常便捷地实现对原始点云的质量评估。

本公开的实施例中，通过将原始点云投影至摄像头的图像平面得到的投影图像，能够非常便捷地计算出相关度或者雷尼二次熵，以便于据此确定第一质量评估指标，从而实现对原始点云的质量评估。

需要指出的是，对原始图像进行质量评估的方式可以参照对原始点云进行质量评估的方式。具体地，可以预先设置一PSNR阈值，并针对原始图像计算PSNR，在计算出的PSNR大于PSNR阈值的情况下，可以认为原始图像的质量评估通过；否则，可以认为原始图像的质量评估不通过。

下面结合图2、图3，对深度估计***的工作原理进行介绍。

如图2、图3所示，深度估计***中可以包括激光雷达，摄像头1和摄像头2，深度估计***中除了对应于激光雷达设置控制开关A，对应于摄像头1设置控制开关B，以及对应于摄像头2设置控制开关C之外，还可以设置控制开关D，控制开关D可以具有两个工作位置，分别为第一工作位置和第二工作位置，处于第一工作位置时，控制开关D与卷积神经网络的输出端相连，处于第二工作位置时，控制开关D与深度网络的输出端相连。

为了实现深度估计，首先需要训练得到深度网络和卷积神经网络。

在激光雷达采集原始点云，摄像头1和摄像头2分别采集原始图像之后，可以对原始点云进行点云数据质量评估，并分别对摄像头1采集的原始图像，以及摄像头2采集的原始图像进行图像质量评估。之后可以有如下四种情况：

第一种情况，只有原始点云的质量评估通过，这时，可以将控制开关A置于闭合状态，将控制开关B和C均置于断开状态，且可以将控制开关D切换至第一工作位置。那么，点云数据通过透视投影得到的稀疏深度图和稀疏掩码可以一并输入卷积神经网络，以得到卷积神经网络输出的致密深度图(相当于上文中的第一致密深度图)。

第二种情况，原始点云的质量评估不通过，且摄像头1和摄像头2中的一者采集的原始图像的质量评估通过，例如仅摄像头1采集的原始图像的质量评估通过，这时，可以将控制开关B置于闭合状态，将控制开关A和C均置于断开状态，且可以将控制开关D切换至第二工作位置。接下来，可以将摄像头1采集的原始图像输入编码器提取特征，将提取出的图像特征(相当于上文中的第一图像特征)分别输入分割网络、法线网络和边缘网络，以得到分割网络输出的第一注意图、法线网络输出的第一法线图，以及边缘网络输出的第一边缘图。之后，可以第一注意图、第一法线图、第一边缘图，以及摄像头1采集的原始图像一并输入深度网络，以获得深度网络输出的致密深度图(相当于上文中的第一致密深度图)和置信度图。

第三种情况，原始点云的质量评估通过，摄像头1和摄像头2中的一者采集的原始图像的质量评估通过，例如摄像头1采集的原始图像的质量评估通过，这时，可以将控制开关A和控制开关B置于闭合状态，将控制开关C置于断开状态，且可以将控制开关D切换至第二工作位置。接下来，可通过与上述第二种情况类似的方式，获取第一注意图、第一法线图和第一边缘图，之后，可以将第一注意图、第一法线图，第一边缘图、摄像头1采集的原始图像，以及点云数据通过透视投影得到的稀疏深度图和稀疏掩码一并输入深度网络，以获得深度网络输出的致密深度图(相当于上文中的第一致密深度图)和置信度图。需要说明的是，第三种情况可以对应图5或图6所示的致密深度图获取方式。

第四种情况，原始点云的质量评估通过，且摄像头1和摄像头2采集的原始图像的质量评估均通过，这时，可以将控制开关A、控制开关B和控制开关C均置于闭合状态，且可以将控制开关D切换至第二工作位置。接下来，可通过与上述第二种情况类似的方式，获取第一注意图、第一法线图和第一边缘图，还可以将摄像头1采集的原始图像和摄像头2采集的原始图像进行图像融合，得到第二目标数据，还可以将第一注意图、第一法线图、第一边缘图、第二目标数据，以及点云数据通过透视投影得到的稀疏深度图和稀疏掩码一并输入深度网络，以获得深度网络输出的致密深度图(相当于上文中的第一致密深度图)和置信度图。需要说明的是，第四种情况可以对应图4所示的致密深度图获取方式。

需要指出的是，激光雷达测距十分准确，结果稳定，但存在稀疏、探测距离有限(例如100米左右)、采样帧率低(例如10FPS)等缺点，而基于摄像头图像获取深度的方法的立体匹配稳定性差，但分辨率高，因此，本公开的实施例中可以构建包括激光雷达和摄像头的深度估计***，并自适应地优先选择可靠的数据来获取深度估计结果，以保证***的灵活性和鲁棒性，这样，低成本的摄像头和高成本的激光雷达能够互补，特别是某些低线束的激光雷达仍然可以得到高分辨率的深度感知数据，不同传感器数据可以相互协同，以弥补彼此的不同，从而能够充分利用多传感器的优点，有效地保证深度估计结果的可靠性。进一步地，本发明实施例所述方法及装置还可应用于拟现实/增强现实/机器人导航/安防监控等领域。

示例性装置

图7是本公开一示例性实施例提供的深度估计装置的结构框图。图7所示的装置包括第一获取模块701、第一确定模块702、第二确定模块703和第二获取模块704。

第一获取模块701，用于获取激光雷达采集的原始点云，以及获取摄像头采集的原始图像；

第一确定模块702，用于确定原始点云对应的第一质量评估指标，以及确定原始图像对应的第二质量评估指标；

第二确定模块703，用于根据第一质量评估指标和第二质量评估指标，确定原始点云和原始图像中，质量评估通过的第一目标数据；

第二获取模块704，用于根据第一目标数据，以相应的深度估计策略，获得深度估计结果。

在一个可选示例中，第二获取模块704，包括：

第一获取子模块，用于在第一目标数据中包括原始图像的情况下，根据原始图像，进行特征提取，以得到第一图像特征；

生成子模块，用于根据第一图像特征，生成第一目标特征图；其中，第一目标特征图包括第一注意图、第一法线图和第一边缘图；

第二获取子模块，用于根据原始图像、第一目标特征图和深度网络，获得深度网络输出的第一致密深度图，并将第一致密深度图作为深度估计结果。

在一个可选示例中，第二获取子模块，包括：

确定单元，用于根据原始图像，确定第二目标数据；

获取单元，用于根据第二目标数据、第一目标特征图和深度网络，获得深度网络输出的第一致密深度图。

在一个可选示例中，获取单元，具体用于：

在第一目标数据中不包括原始点云的情况下，将第二目标数据和第一目标特征图输入深度网络，以获得深度网络输出的第一致密深度图；

获取单元，包括：

第一获取子单元，用于在第一目标数据中包括原始点云的情况下，根据原始点云，获得稀疏深度图和稀疏掩码；

第二获取子单元，用于将第二目标数据、第一目标特征图，以及所得到的稀疏深度图和稀疏掩码输入深度网络，以获得深度网络输出的第一致密深度图。

在一个可选示例中，

摄像头的数量为一个，确定单元，具体用于：

将第一目标数据中的原始图像作为第二目标数据；

或者，

摄像头的数量为两个，确定单元，具体用于：

在一个可选示例中，该装置还包括：

生成模块，用于根据原始图像、第一目标特征图和深度网络，获得深度网络输出的第一致密深度图之前，生成深度网络；

第一处理模块，用于根据摄像头采集的训练图像，进行特征提取，以得到第二图像特征；

第二处理模块，用于根据第二图像特征，获得摄像头的自运动参数以及获得第二目标特征图，将自运动参数进行扭曲，得到扭曲结果；其中，第二目标特征图包括第二注意图、第二法线图和第二边缘图；

第三获取模块，用于将第二目标特征图和训练图像输入深度网络，以获得深度网络输出的第二致密深度图和置信度图；

第四获取模块，用于将第二致密深度图和置信度图输入残差光流网络，以获得残差光流网络输出的残差光流；

第三处理模块，用于将残差光流与扭曲结果相加，以得到光流域，并根据光流域，修正深度网络。

在一个可选示例中，第二获取模块704，包括：

第三获取子模块，用于在第一目标数据中不包括原始图像，且第一目标数据中包括原始点云的情况下，根据原始点云，获得稀疏深度图和稀疏掩码；

第四获取子模块，用于将所得到的稀疏深度图和稀疏掩码输入卷积神经网络，以获得卷积神经网络输出的第一致密深度图。

在一个可选示例中，第一确定模块702，包括：

第五获取子模块，用于将原始点云投影至摄像头的图像平面，以得到投影图像；其中，目标摄像头为N个摄像头中的任一摄像头；

处理子模块，用于计算投影图像的梯度信息，以及原始图像的图像边缘信息的相关度，并将相关度作为原始点云对应的第一质量评估指标；或者，确定投影图像的雷尼二次熵，并将雷尼二次熵作为原始点云对应的第一质量评估指标。

示例性电子设备

下面，参考图8来描述根据本公开实施例的电子设备80。电子设备80可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

如图8所示，电子设备80包括一个或多个处理器81和存储器82。

处理器81可以是中央处理器(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，其控制电子设备80中的其他组件执行期望的功能。

存储器82可以包括一个或多个计算机程序产品，计算机程序产品可包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器81可以运行程序指令，以实现上文本公开的各个实施例的深度估计方法以及/或者其他期望的功能。

在一个示例中，电子设备80还可以包括：输入装置83和输出装置84，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。输入装置83可以包括键盘、鼠标等。输出装置84可以包括显示器、扬声器、远程输出装置等。

当然，为了简化，图8中仅示出了电子设备80中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备80还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，该指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的深度估计方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的深度估计方法中的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质可以包括电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，需要指出的是，本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为该优点、优势、效果等是本公开的各个实施例必须具备的。上述公开的具体细节仅是为了示例和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各实施例采用递进方式描述，每个实施例重点说明与其它实施例的差异，各实施例间相同或相似的部分相互参见即可。由于***实施例与方法实施例基本对应，描述的比较简单，相关之处参见方法实施例的说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为示例性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域任何技术人员能够做出或者使用本公开。对这些方面的各种修改对本领域技术人员而言是显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种深度估计方法，其特征在于，包括：

确定所述原始点云对应的第一质量评估指标，以及确定所述原始图像对应的第二质量评估指标，其中，所述第二质量评估指标用于评估原始图像的质量优劣，所述第二质量评估指标为传统图像处理和视频帧采集的测度；

根据所述第一质量评估指标和所述第二质量评估指标，确定所述原始点云和所述原始图像中，质量评估通过的第一目标数据，其中，所述第一目标数据包括通过所述第一质量评估指标和所述第二质量评估的原始点云和/或原始图像；

在所述第一目标数据中包括所述原始图像的情况下，根据所述原始图像，进行特征提取，以得到第一图像特征；根据所述第一图像特征，生成第一目标特征图；其中，所述第一目标特征图包括第一注意图、第一法线图和第一边缘图；根据所述原始图像、所述第一目标特征图和深度网络，获得所述深度网络输出的第一致密深度图，并将所述第一致密深度图作为深度估计结果；

所述确定所述原始点云对应的第一质量评估指标，包括：将所述原始点云投影至所述摄像头的图像平面，以得到投影图像；计算所述投影图像的梯度信息，以及所述原始图像的图像边缘信息的相关度，并将所述相关度作为所述原始点云对应的第一质量评估指标；或者，确定所述投影图像的雷尼二次熵，并将所述雷尼二次熵作为所述原始点云对应的第一质量评估指标。

2.根据权利要求1所述的方法，其特征在于，所述根据所述原始图像、所述第一目标特征图和深度网络，获得所述深度网络输出的第一致密深度图，包括：

根据所述原始图像，确定第二目标数据；

根据所述第二目标数据、所述第一目标特征图和深度网络，获得所述深度网络输出的第一致密深度图。

3.根据权利要求2所述的方法，其特征在于，

所述根据所述第二目标数据、所述第一目标特征图和深度网络，获得所述深度网络输出的第一致密深度图，包括：

在所述第一目标数据中不包括所述原始点云的情况下，将所述第二目标数据和所述第一目标特征图输入深度网络，以获得所述深度网络输出的第一致密深度图；

或者，

在所述第一目标数据中包括所述原始点云的情况下，根据所述原始点云，获得稀疏深度图和稀疏掩码；

将所述第二目标数据、所述第一目标特征图，以及所得到的稀疏深度图和稀疏掩码输入深度网络，以获得所述深度网络输出的第一致密深度图。

4.根据权利要求2所述的方法，其特征在于，

所述摄像头的数量为一个，所述根据所述原始图像，确定第二目标数据，包括：

将所述第一目标数据中的所述原始图像作为第二目标数据；

或者，

所述摄像头的数量为两个，所述根据所述原始图像，确定第二目标数据，包括：

在所述第一目标数据中包括两个所述摄像头分别采集的所述原始图像的情况下，将所述第一目标数据中，两个所述摄像头分别采集的所述原始图像进行图像融合，得到融合结果，并确定包括所述融合结果的第二目标数据。

5.根据权利要求1所述的方法，其特征在于，所述根据所述原始图像、所述第一目标特征图和深度网络，获得所述深度网络输出的第一致密深度图之前，所述方法还包括：

生成深度网络；

根据所述摄像头采集的训练图像，进行特征提取，以得到第二图像特征；

根据所述第二图像特征，获得所述摄像头的自运动参数以及获得第二目标特征图，将所述自运动参数进行扭曲，得到扭曲结果；其中，所述第二目标特征图包括第二注意图、第二法线图和第二边缘图；

将所述第二目标特征图和所述训练图像输入所述深度网络，以获得所述深度网络输出的第二致密深度图和置信度图；

将所述第二致密深度图和所述置信度图输入残差光流网络，以获得所述残差光流网络输出的残差光流；

将所述残差光流与所述扭曲结果相加，以得到光流域，并根据所述光流域，修正所述深度网络。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一目标数据，以相应的深度估计策略，获得深度估计结果，包括：

在所述第一目标数据中不包括所述原始图像，且所述第一目标数据中包括所述原始点云的情况下，根据所述原始点云，获得稀疏深度图和稀疏掩码；

将所得到的稀疏深度图和稀疏掩码输入卷积神经网络，以获得所述卷积神经网络输出的第一致密深度图。

7.一种深度估计装置，其特征在于，包括：

第一确定模块，用于确定所述原始点云对应的第一质量评估指标，以及确定所述原始图像对应的第二质量评估指标，其中，所述第二质量评估指标用于评估原始图像的质量优劣，所述第二质量评估指标为传统图像处理和视频帧采集的测度；

第二确定模块，用于根据所述第一质量评估指标和所述第二质量评估指标，确定所述原始点云和所述原始图像中，质量评估通过的第一目标数据，其中，所述第一目标数据包括通过所述第一质量评估指标和所述第二质量评估的原始点云和/或原始图像；

第二获取模块，用于根据所述第一目标数据，以相应的深度估计策略，获得深度估计结果；

所述第二获取模块，包括：

第一获取子模块，用于在所述第一目标数据中包括所述原始图像的情况下，根据所述原始图像，进行特征提取，以得到第一图像特征；

生成子模块，用于根据所述第一图像特征，生成第一目标特征图；其中，所述第一目标特征图包括第一注意图、第一法线图和第一边缘图；

第二获取子模块，用于根据所述原始图像、所述第一目标特征图和深度网络，获得所述深度网络输出的第一致密深度图，并将所述第一致密深度图作为深度估计结果；

所述第一确定模块，包括：

第五获取子模块，用于将所述原始点云投影至所述摄像头的图像平面，以得到投影图像；

处理子模块，用于计算所述投影图像的梯度信息，以及所述原始图像的图像边缘信息的相关度，并将所述相关度作为所述原始点云对应的第一质量评估指标；或者，确定所述投影图像的雷尼二次熵，并将所述雷尼二次熵作为所述原始点云对应的第一质量评估指标。

8.根据权利要求7所述的装置，其特征在于，所述第二获取子模块，包括：

确定单元，用于根据所述原始图像，确定第二目标数据；

获取单元，用于根据所述第二目标数据、所述第一目标特征图和深度网络，获得所述深度网络输出的第一致密深度图。

9.根据权利要求8所述的装置，其特征在于，

所述获取单元，具体用于：

所述获取单元，包括：

第一获取子单元，用于在所述第一目标数据中包括所述原始点云的情况下，根据所述原始点云，获得稀疏深度图和稀疏掩码；

第二获取子单元，用于将所述第二目标数据、所述第一目标特征图，以及所得到的稀疏深度图和稀疏掩码输入深度网络，以获得所述深度网络输出的第一致密深度图。

10.根据权利要求8所述的装置，其特征在于，

所述摄像头的数量为一个，所述确定单元，具体用于：

将所述第一目标数据中的所述原始图像作为第二目标数据；

或者，

所述摄像头的数量为两个，所述确定单元，具体用于：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

生成模块，用于根据所述原始图像、所述第一目标特征图和深度网络，获得所述深度网络输出的第一致密深度图之前，生成深度网络；

第一处理模块，用于根据所述摄像头采集的训练图像，进行特征提取，以得到第二图像特征；

第二处理模块，用于根据所述第二图像特征，获得所述摄像头的自运动参数以及获得第二目标特征图，将所述自运动参数进行扭曲，得到扭曲结果；其中，所述第二目标特征图包括第二注意图、第二法线图和第二边缘图；

第三获取模块，用于将所述第二目标特征图和所述训练图像输入所述深度网络，以获得所述深度网络输出的第二致密深度图和置信度图；

第四获取模块，用于将所述第二致密深度图和所述置信度图输入残差光流网络，以获得所述残差光流网络输出的残差光流；

第三处理模块，用于将所述残差光流与所述扭曲结果相加，以得到光流域，并根据所述光流域，修正所述深度网络。

12.根据权利要求7所述的装置，其特征在于，所述第二获取模块，包括：

第三获取子模块，用于在所述第一目标数据中不包括所述原始图像，且所述第一目标数据中包括所述原始点云的情况下，根据所述原始点云，获得稀疏深度图和稀疏掩码；

第四获取子模块，用于将所得到的稀疏深度图和稀疏掩码输入卷积神经网络，以获得所述卷积神经网络输出的第一致密深度图。

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1至6中任一所述的深度估计方法。

14.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序用于执行上述权利要求1至6中任一所述的深度估计方法。