WO2022165722A1

WO2022165722A1 - 单目深度估计方法、装置及设备

Info

Publication number: WO2022165722A1
Application number: PCT/CN2021/075318
Authority: WO
Inventors: 摩拉莱斯•斯皮诺扎•卡洛斯•埃曼纽尔; 李正卿
Original assignee: 华为技术有限公司
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2022-08-11

Abstract

一种单目深度估计方法、装置及设备。所述单目深度估计方法可以包括：获取待估计图像和相机标定参数，通过第一神经网络模型得到待估计图像对应的第一DSN图，根据相机标定参数确定第一相机滤波映射图，再基于第一DSN图和第一相机滤波映射图得到深度图。所述单目深度估计方法可以适用于现实生活中一般或普遍场景中的目标物体的深度估计，并且具有较好的深度估计准确性。

Description

单目深度估计方法、装置及设备

技术领域

本申请实施例涉及计算机视觉领域，尤其涉及一种单目深度估计方法、装置及设备。

背景技术

单目深度估计是利用单个相机拍摄的图像作为输入，估计现实世界的深度图像(深度图)。深度图中的每个像素都存储一个深度值，该深度值是该像素对应的现实世界的三维(3-dimension，3D)坐标点与相机视点之间的距离。单目深度估计可应用于诸多重要的需要三维环境信息的应用场景。这些应用场景包括但不限于增强现实(AR)、导航(如自动驾驶)、场景重建、场景识别、物体检测等。

单目深度估计(Monocular Depth Estimation，MDE)所使用的单目相机通常为RGB或灰度(Gray)摄像头。其原因是此类摄像头在智能手机、平板电脑等普通消费电子设备上被广泛使用。RGB或灰度(Gray)摄像头在光照好、小光比、相机/场景运动稳定的情况下，能捕捉到较好的图像效果。以单目相机为RGB摄像头为例，通过获取来自单目相机的两个RGB帧，对两个RGB帧进行立体匹配计算得到深度图。

上述通过两个RGB帧进行立体匹配估计深度的方式存在如下问题，在采集该两个RGB帧过程中，需要单目相机处于运动状态而现实世界的目标物体处于静止状态，且环境中的纹理细节和光照条件较好。然而，现实生活中，场景中的目标物体往往是动态的，例如，马路上的汽车等。这使得上述单目深度估计方式无法适用于现实生活中的目标物体的深度估计。

发明内容

本申请提供一种单目深度估计方法、装置及设备，以适用于现实生活中一般或普遍场景中的目标物体的深度估计。

第一方面，本申请实施例提供一种单目深度估计方法，该方法可以包括：获取待估计图像和该待估计图像对应的第一参数，该第一参数为拍摄该待估计图像的相机的相机标定参数。将该待估计图像输入至第一神经网络模型中，获取第一神经网络模型输出的第一距离缩放法线DSN图，该第一DSN图用于表示该待估计图像对应的目标物体的平面的朝向和该平面与该相机之间的距离。根据该待估计图像和该第一参数，确定第一相机滤波映射图，该第一相机滤波映射图用于表示该目标物体在空间中的3D点与2D平面的映射关系，该2D平面为该相机的成像平面。根据该第一DSN图和该第一相机滤波映射图，确定该待估计图像对应的第一深度图。

与直接使用神经网络模型输出深度图不同，本实现方式，基于第一DSN图和第一相机滤波映射图得到深度图，该深度图可以精确反映目标物体的距离，从而提升单目深度估计的准确性。与通过两个RGB帧进行立体匹配估计深度的方式不同，本实现方式通过一帧待估计图像便可以进行深度估计，没有需要单目相机处于运动状态而现实世界的目标物体处于静止状态的场景限制，可以适用于现实生活中一般或普遍场景中的目标物体的深度估计。

一种可能的设计中，该第一神经网络模型为使用训练图像和该训练图像对应的第二DSN图进行训练得到的，该第二DSN图是根据该训练图像对应的第二深度图、以及该训练图像对应的相机标定参数确定的。

本实现方式，由于第一神经网络模型是使用训练图像和该训练图像对应的第二DSN图进行训练得到的，所以第一神经网络模型具有输出输入图像对应的DSN图的能力，进而可以使用该DSN图和输入图像对应的相机滤波映射图，可以得到输入图像对应的深度图，以实现单目深度估计。

一种可能的设计中，该训练图像作为初始神经网络模型的输入。损失函数包括第一损失函数、第二损失函数或第三损失函数中至少一项，该损失函数用于调整该初始神经网络模型的参数，以训练得到该第一神经网络模型。该第一损失函数用于表示该第二DSN图和第三DSN图之间的误差，该第三DSN图为该初始神经网络模型输出的该训练图像对应的DSN图，该第二损失函数用于表示该第二深度图和第三深度图之间的误差，该第三深度图是根据该第三DSN图和第二相机滤波映射图确定的，该第二相机滤波映射图为根据该训练图像对应的相机标定参数和该训练图像确定的，该第三损失函数用于表示该第二深度图和第三深度图的匹配程度。

本实现方式，在神经网络模型训练过程中，通过评价该第二DSN图和第三DSN图之间的误差，该第二深度图和第三深度图之间的误差，或该第二深度图和第三深度图的匹配程度中一项或多项，对神经网络模型进行调整，以使得调整后的神经网络模型，满足一项或多项精度需求，进而提升使用训练后的神经网络模型的本申请实施例的单目深度估计方法的准确率。

一种可能的设计中，该训练图像可以是RGB相机、灰度相机、夜视相机、热敏相机、全景相机、事件相机或红外相机等任意相机拍摄所得到的图像。

本实现方式，通过采用RGB相机、灰度相机、夜视相机、热敏相机、全景相机、事件相机或红外相机等任意相机拍摄所得到的图像对神经网络模型进行训练，使得本申请实施例的单目深度估计方法可以支持对不同类型的相机所采集的图像进行深度估计。

一种可能的设计中，根据该待估计图像和该第一参数，确定第一相机滤波映射图，包括：根据该待估计图像的像素点的位置坐标和该第一参数，确定该第一相机滤波映射图，该第一相机滤波映射图包括该像素点对应的相机滤波映射向量，该相机滤波向量用于表示该3D点与该像素点的映射关系，该像素点为该3D点投影至该2D平面的点。

本实现方式，通过该待估计图像的像素点的位置坐标和该第一参数，确定该第一相机滤波映射图。该相机滤波映射图与输入图像的像素点以及相机模型相关，而不受场景中目标物体的3D结构影响。对于相同相机所拍摄的输入图像，其对应的相机滤波映射图相同，可以只计算一次。在更换相机时，可以根据新的相机的相机标定参数重新计算相机滤波映射图。对于相同相机所拍摄的输入图像，通过相机滤波映射图和DSN图得到深度图，可以提升单目深度估计的处理速度。

一种可能的设计中，该像素点的位置坐标包括横坐标和纵坐标，该像素点对应的相机滤波映射向量包括第一相机滤波映射分量和第二相机滤波映射分量，该第一相机滤波映射分量是根据该横坐标和该第一参数确定的，该第二相机滤波映射分量是根据该纵坐标和该第一参数，或者根据该横坐标、该纵坐标和该第一参数确定的。

一种可能的设计中，当拍摄该待估计图像的相机的视场角小于180度时，该第一参数包括述相机的中心坐标(c _x,c _y)和焦距(f _x,f _y)，该第一相机滤波映射分量是根据该横坐标和该第一参数确定的，该第二相机滤波映射分量是根据该纵坐标和该第一参数确定的。

一种可能的设计中，当拍摄该待估计图像的相机的视场角小于180度时，该第一参数包括相机的中心坐标(c _x,c _y)和焦距(f _x,f _y)，该像素点的位置坐标为i＝(u,v)，该第一相机滤波映射分量为F _u，

该第二相机滤波映射分量为F _v，

一种可能的设计中，当该待估计图像的相机的视场角大于180度时，该第一参数包括该待估计图像的宽度像素值W和高度像素值H，该第一相机滤波映射分量是根据该横坐标和该第一参数确定的，该第二相机滤波映射分量是根据该横坐标、该纵坐标和该第一参数确定的。

一种可能的设计中，当该待估计图像的相机的视场角大于180度时，该第一参数包括该待估计图像的宽度像素值W和高度像素值H，该像素点的位置坐标为i＝(u,v)，该第一相机滤波映射分量为F _u，

该第二相机滤波映射分量为F _v，

一种可能的设计中，该第一DSN图包括该待估计图像的像素点对应的第一DSN向量，根据该第一DSN图和该第一相机滤波映射图，确定该待估计图像对应的第一深度图，包括：根据该像素点对应的第一DSN向量和该像素点对应的相机滤波映射向量，确定该像素点对应的深度值。其中，该第一深度图包括该像素点对应的深度值。

一种可能的设计中，根据该像素点对应的第一DSN向量和该像素点对应的相机滤波映射向量，确定该像素点对应的深度值，包括：

根据公式ξ＝N·F，确定该像素点对应的逆深度值。

根据该像素点对应的逆深度值，确定该像素点对应的深度值。

其中，ξ为该像素点对应的逆深度值，N为该像素点对应的第一DNS向量，F为该像素点对应的相机滤波映射向量。

一种可能的设计中，该方法还可以包括：获取训练图像、训练图像对应的第二深度图像、以及训练图像对应的相机标定参数。使用训练图像、训练图像对应的第二深度图像以及训练图像对应的相机标定参数对初始神经网络模型进行训练，获取该第一神经网络模型。

一种可能的设计中，使用训练图像、训练图像对应的第二深度图像以及训练图像对应的相机标定参数对初始神经网络模型进行训练，获取第一神经网络模型，包括：根据训练图像对应的相机标定参数和训练图像，确定第二相机滤波映射图，该第二相机滤波映射图像包括该训练图像数据中的像素点对应的相机滤波映射向量。根据该第二相机滤波映射图和该第二深度图像，获取第二DSN图，该第二DSN图包括该训练图像的像素点对应的第二DSN向量，该第二DNS向量用于表示该像素点对应的场景中的3D点所在平面的朝向和与相机之间的距离。将训练图像输入至初始神经网络模型，获取初始神经网络模型输出的第三DSN图。根据第二DSN图、第三DSN图、第二深度图像或第二相机滤波映射图中至少两项，调整初始神经网络模型的参数，获取第一神经网络模型。

一种可能的设计中，根据第二相机滤波映射图和第二深度图像，获取第二DSN图，包括：根据训练图像的像素点i＝(u,v)和像素点i的相邻像素点，确定像素点i对应的场景中的3D点的单位表面法线；

根据公式

确定相机到3D点所在平面的距离h _i；

根据公式

确定3D点所在平面的DSN向量N _i；

其中，i＝(u,v)，单位表面法线为(n _xi,n _yi,n _zi)，Z为第二深度图像中的3D点的深度值，训练图像的像素点i对应的相机滤波映射向量为F，

第二DSN图包括训练图像的像素点对应的场景中的3D点所在平面的DSN向量。

一种可能的设计中，根据所述第二相机滤波映射图和第二深度图像，获取第二DSN图，包括：

根据公式

确定训练图像的像素点i对应的场景中的3D点所在平面的DSN向量N _i，N _i＝(N _xi,N _yi,N _zi)；

其中，i＝(u,v)，ξ _i为像素点i对应的场景中的3D点的逆深度值，逆深度值为深度值的倒数，第二DSN图包括训练图像的像素点对应的场景中的3D点所在平面的DSN向量。

一种可能的设计中，第一损失函数为

其中，

表示第二DSN图中像素点i对应的DSN向量，N _i＝(N _xi,N _yi,N _zi)表示第三DSN图中像素点i对应的DSN向量，

表示全部的有效像素集合。

一种可能的设计中，第二损失函数为

其中，‖·‖代表范式，

表示第二深度图中像素点i对应的逆深度值，ξ _i表示第三深度图中像素点i对应的逆深度值，

表示全部的有效像素集合。

一种可能的设计中第三损失函数为

其中，

是拉普拉斯算子，I是第二深度图中与第三深度图相匹配的图像数据，

表示相匹配的像素集合。

一种可能的设计中，损失函数为

其中，λ _DEP，λ _DSN和λ _INP分别大于或等于0。

一种可能的设计中，获取训练图像和训练图像对应的第二深度图像，包括以下至少一项：

获取多个训练图像，多个训练图像是由多个经标定和同步的相机拍摄场景得到的图像数据；使用3D视觉技术对所述多个训练图像进行处理，得到多个训练图像对应的第二深度图像；或者，

获取至少一个训练图像，以及至少一个训练图像中每个训练图像对应的第二深度图像；或者，

获取至少一个原始图像，对至少一个原始图像进行数据优化或数据增强，得到至少一个训练图像，数据优化包括空洞填充优化、锐化遮挡边缘优化或时间一致性优化中至少一项，数据增强用于改变原始图像所拍摄场景的环境条件以获取不同环境条件下的所述训练图像。

一种可能的设计中，每个训练图像对应的第二深度图像为深度传感器获取的；或者，每个训练图像对应的第二深度图像为教师单目深度估计网络对输入的训练图像进行处理后输出的深度图像。

第二方面，本申请实施例提供一种单目深度估计装置，该装置具有实现上述第一方面或第一方面任一种可能的设计的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块，例如，获取单元或模块，DSN单元或模块，相机滤波映射单元或模块，深度估计单元或模块。

第三方面，本申请实施例提供一种电子设备，该电子设备可以包括：一个或多个处理器；一个或多个存储器；其中，所述一个或多个存储器用于存储一个或多个程序；所述一个或多个处理器用于运行所述一个或多个程序，以实现如第一方面或第一方面任一种可能的设计所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其特征在于，包括计算机程序，所述计算机程序在计算机上被执行时，使得所述计算机执行如第一方面或第一方面任一种可能的设计所述的方法。

第五方面，本申请实施例提供一种芯片，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行如第一方面或第一方面任一种可能的设计所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面或第一方面任一种可能的设计所述的方法。

本申请实施例的单目深度估计方法、装置及设备，通过获取待估计图像和相机标定参数，通过第一神经网络模型得到待估计图像对应的第一DSN图，根据相机标定参数确定第一相机滤波映射图，再基于第一DSN图和第一相机滤波映射图得到深度图。与直接使用神经网络模型输出深度图不同，本申请实施例基于第一DSN图和第一相机滤波映射图得到深度图，该深度图可以精确反映目标物体的距离，从而提升单目深度估计的准确性。与通过两个RGB帧进行立体匹配估计深度的方式不同，本申请实施例通过一帧待估计图像便可以进行深度估计，没有需要单目相机处于运动状态而现实世界的目标物体处于静止状态的场景限制，可以适用于现实生活中一般或普遍场景中的目标物体的深度估计。

附图说明

图1为本申请实施例提供的一种***架构100的示意图；

图2为本申请实施例提供的一种卷积神经网络(CNN)200的示意图；

图3为本申请实施例提供的一种芯片硬件结构的示意图；

图4位本申请实施例提供的一种***架构400的示意图；

图5为本申请实施例提供的一种单目深度估计方法的流程图；

图6为本申请实施例提供的另一种单目深度估计方法的流程图；

图7为本申请实施例提供的一种场景中的3D点和透视(针孔)相机模型之间的几何对应关系的示意图；

图8为本申请实施例提供的一种单目深度估计处理过程的示意图；

图9为本申请实施例提供的一种第一神经网络模型的训练方法的流程图；

图10为本申请实施例提供的一种训练过程的示意图；

图11为本申请实施例提供的一种第一神经网络模型的训练过程的示意图；

图12为本申请实施例提供的一种第一神经网络模型的训练过程的示意图；

图13为本申请实施例提供的一种单目深度估计装置的结构示意图；

图14为本申请实施例提供的一种电子设备的结构示意图；

图15为本申请实施例提供的另一种单目深度估计装置的结构示意图。

具体实施方式

本申请实施例涉及的术语“第一”、“第二”等仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c分别可以是单个，也可以是多个。

与通过两个RGB帧进行立体匹配估计深度的方式不同，本申请实施例的单目深度估计方法，没有需要单目相机处于运动状态而现实世界的目标物体处于静止状态的场景限制，可以适用于现实生活中一般或普遍场景中的目标物体的深度估计。本申请实施例所述的一般或普遍场景具体指没有条件限制的任意场景，其中，条件限制可以包括但不限于光照条件限制、相机类型限制、目标物体类型限制、或相机与场景中的目标物体之间相对位置关系限制等。举例而言，光照条件可以是场景所在环境的光照好坏。相机类型可以是RGB相机、灰度相机、事件相机、夜视相机或热敏相机等。目标物体类型可以是人物、动物或物体等。相机与场景中的目标物体之间相对位置关系可以是近景、远景、静止或移动等。

本申请实施例所述的一般或普遍场景可以包括但不限于增强现实(Augmented Reality，AR)、导航(例如，自动驾驶或辅助驾驶)、场景重建、场景理解或物体检测等。

本申请实施例提供的方案中，将待估计图像输入至第一神经网络模型中，获取第一神经网络模型的第一距离缩放法线(Distance Scaled Normal，DSN)图，根据待估计图像和第一参数，确定第一相机滤波映射图，进而根据第一DSN图和第一相机滤波映射图，确定该待估计图像对应的第一深度图。其中，第一参数是拍摄该待估计图像的相机的相机标定参数。第一DSN图与场景中目标物体的3D结构(例如，几何结构)有关，而不受相机模型(例如，包括几何投影模型和相机标定参数等)的影响。而第一相机滤波映射图与待估计图像的像素点以及相机模型相关，而不受场景中目标物体的3D结构影响。相较于传统深度估计网络，通过第一DSN图和第一相机滤波映射图确定深度图，可以提升单目深度估计的准确率和效率。其具体实现方式可以参见下述实施例的解释说明。

首先对本申请实施例中的部分用语进行解释说明，以便于理解本申请实施例的单目深度估计方法。

目标物体：包括但不限于人物、动物或物体。物体可以是自然环境中的物体，例如，草地、或树木等，也可以是人文环境中的物体，例如，建筑物、道路、或车辆等。目标物体的表面通常具有规则平面结构。在一些实施例中，即使目标物体的表面没有完全平面的结构，该目标物体的表面也是可以被分割成多个小的平面区域。

目标物体在空间中的3D点：目标物体在空间中的外表面的平面上的点。例如，目标物体为车辆，那么目标物体在空间中的3D点可以是车辆的外表面上的任意一点，比如，前档风玻璃所构成平面上的点，车牌所构成平面上的点等。

距离缩放法线(Distance Scaled Normal，DSN)图：用于表示输入图像对应的目标物体的平面的朝向和该平面与相机之间的距离。其中，相机是指拍摄该输入图像的相机，目标物体的平面是指目标物体在3D空间中的外表面的平面。例如，目标物体为一个正方体，相机从一个角度拍摄该正方体，所得到的输入图像中呈现了该正方体的3个平面，那么目标物体的平面是指该正方体的3个平面。DSN图包括该正方体的3个平面的DSN向量，每一个平面的DSN向量可以表示各自平面的朝向和各自平面与相机之间的距离。每一个平面的DSN向量与场景中目标物体的3D结构有关，而不受相机模型的影响。目标物体的处于相同平面的共面3D点所对应的DSN向量相同。在DSN图中，每个像素点的DSN向量总是与相邻的属于同一平面的像素点的DSN向量相同。以输入图像为灰度图像为例，与输入图像中的每个像素点存储一个灰度值不同，DSN图中的每个像素点存储一个DSN向量。DSN图中的每个像素点所存储的数据的个数称为通道个数。由于这里每个像素点存储一个DSN向量，所以，通道个数等于DSN向量所包括的分量的个数。例如，空间中一个 3D点P＝(X,Y,Z)的DSN向量为N＝(N _x,N _y,N _z)，即DSN向量所包括的分量的个数为3，那么DSN图中的一个像素点所存储的数据为3通道的数据，DSN图中的一个像素点的一个通道用于存储该DSN向量的一个分量，也即一个维度的分量。以DSN向量为N＝(N _x,N _y,N _z)为例，DSN图中的一个像素点的一个通道用于存储N _x，另一个通道用于存储N _y，另一个通道用于存储N _z。

本申请实施例的单目深度估计方法可以使用神经网络模型对输入图像进行处理，得到DSN图。在神经网络模型应用过程中，输入图像为待估计图像，使用第一神经网络模型(也称目标神经网络模型)对待估计图像进行处理，得到第一DSN图。在神经网络模型训练过程中，输入图像为训练图像，使用初始神经网络模型对训练图像进行处理，得到第二DSN图。本申请实施例使用第一DSN图和第二DSN图以区别不同过程中神经网络模型所输出的DSN图。

相机滤波映射图：用于表示目标物体在空间中的3D点与2D平面的映射关系，该2D平面为相机的成像平面。相机滤波映射图与输入图像的像素点以及相机模型相关，而不受场景中目标物体的3D结构影响。相机模型可以包括几何投影模型、相机标定参数等，相机标定参数可以包括相机的中心坐标和焦距等。对于相同相机所拍摄的输入图像，其对应的相机滤波映射图相同，可以只计算一次。在更换相机时，可以根据新的相机的相机标定参数重新计算相机滤波映射图。以输入图像为灰度图像为例，与输入图像中的每个像素点存储一个灰度值不同，相机滤波映射图中的每个像素点存储一个相机滤波映射向量。举例而言，相机1拍摄目标物体1，得到的输入图像11，相机1拍摄目标物体2，得到的输入图像12，由于输入图像11和输入图像12均是相机1采集得到的，所以，输入图像11对应的相机滤波映射图和输入图像12对应的相机滤波映射图相同。

深度图：用于表示输入图像对应的目标物体在空间中的3D点到相机的距离(深度)。深度图中的每个像素点存储一个深度值，该深度值估计的是在相机拍摄该输入图像的时间，像素点对应的现实世界的3D点与相机视点之间的距离。该现实世界的3D点可以是任意场景中的任意目标物体，在空间中的3D点。

深度图中一个像素点的深度值可以通过两部分确定，这两部分包括该像素点的DSN向量和该像素点的相机滤波映射向量。

本申请实施例的电子设备可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(Virtual Reality，VR)终端设备、增强现实(Augmented Reality，AR)终端设备、工业控制(industrial control)中的终端设备、辅助驾驶的终端设备、无人驾驶(self driving)中的终端设备、远程手术(remote medical surgery)中的终端设备、智能电网(smart grid)中的终端设备、运输安全(transportation safety)中的终端设备、智慧城市(smart city)中的终端设备、智慧家庭(smart home)中的终端设备、智能手表、智能手环，智能眼镜，以及其他运动配件或可穿戴设备等等。例如，智慧家庭(smart home)中的终端设备可以是智能电视、智能音箱等智能家电。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于对神经网络中获取到的特征进行非线性变换，将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取特征的方式与位置无关。卷积核可以以随机大小的矩阵的形式化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(5)像素值

图像的像素值可以是一个红绿蓝(RGB)颜色值，像素值可以是表示颜色的长整数。例如，像素值为256*Red+100*Green+76*Blue，其中，Blue代表蓝色分量，Green代表绿色分量，Red代表红色分量。各个颜色分量中，数值越小，亮度越低，数值越大，亮度越高。对于灰度图像来说，像素值可以是灰度值。

下面介绍本申请实施例提供的***架构。

参见附图1，本申请实施例提供了一种***架构100。数据采集设备160用于采集训练数据。示例性地，本申请实施例中的训练数据可以包括训练图像和训练图像对应的第二DSN图，或者包括训练图像和训练图像对应的第二深度图，或者包括训练图像和训练图像对应的第二DSN图和第二深度图。在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

下面对训练设备120如何基于训练数据得到目标模型/规则101进行描述。示例性地，训练设备120通过本申请下述实施例的第一神经网络模型的训练方法对训练数据进行处理，将输出的图像与目标图像(例如，第二DSN图)进行比对，直到训练设备120输出的图像与目标图像的差值小于一定阈值，从而完成目标模型/规则101的训练。本申请实施例的目标模型/规则用于对输入的待估计图像进行处理，输出第一DSN图，该第一DSN图用于表示待估计图像对应的目标物体的平面的朝向和平面与相机之间的距离。

该目标模型/规则101能够用于实现本申请实施例提供的单目深度估计方法，即，将待处理的图像，例如待估计图像，通过相关预处理后输入该目标模型/规则101，即可得到第一深度图。本申请实施例中的目标模型/规则101具体可以为神经网络。需要说明的是，在实际的应用中，数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的***或设备中，如应用于图1所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。在附图1中，执行设备110配置有(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：待估计图像。

预处理模块113用于根据I/O接口112接收到的输入数据(如待估计图像)进行预处理，在本申请实施例中，预处理模块113可以用于对输入数据进行图像滤波等处理。

在本申请实施例中，也可以没有预处理模块113和预处理模块114，而直接采用计算模块111对输入数据进行处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储***150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储***150中。

最后，I/O接口112将处理结果，如上述得到的第一深度图返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在附图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，附图1仅是本申请实施例提供的一种***架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储***150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储***150置于执行设备110中。

再例如，在附图1中，训练设备120和执行设备110是两个设备，在其他情况下，训练设备120和执行设备110可以是一个设备。举例而言，训练设备120和执行设备110可以是一个服务器或服务器集群，客户设备140可以与服务器建立连接，服务器可以通过本申请实施例的单目深度估计方法，对待估计图像进行处理，得到第一深度图，将第一深度图提供给客户设备140。

再例如，在附图1中，执行设备110和客户设备140是两个设备，在其他情况下，执行设备110和客户设备140可以是一个设备。举例而言，执行设备110和客户设备140可以是一个智能手机，训练设备120可以是一个服务器或服务器集群，服务器可以通过本申请实施例的第一神经网络模型的训练方法对训练数据进行处理，生成目标模型/规则，将目标模型/规则提供给该智能手机，使得该智能手机可以通过本申请实施例的单目深度估计方法，对待估计图像进行处理，得到第一深度图。

如图1所示，根据训练设备120训练得到目标模型/规则101，该目标模型/规则101在本申请实施例中可以是本申请中的第一神经网络模型，具体的，本申请中的第一神经网络模型可以包括CNN或深度卷积神经网络(deep convolutional neural networks，DCNN)等等。

由于CNN是一种非常常见的神经网络，下面结合图2重点对CNN的结构进行详细的介绍。如前文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。

如图2所示，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及全连接层(fully connected layer)230。

卷积层/池化层220：

卷积层：

如图2所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同，再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络200进行正确的预测。

当卷积神经网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图2中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

全连接层230：

在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200需要利用全连接层230来生成一个或者一组所需要的类的数量的输出。因此，在全连接层230中可以包括多层隐含层(如图2所示的231、232至23n)，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在全连接层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图2由210至240方向的传播为前向传播)完成，反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失，及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的卷积神经网络200仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在，例如，仅包括图2中所示的网络结构的一部分，比如，本申请实施例中所采用的卷积神经网络可以仅包括输入层210、卷积层/池化层220和输出层240。

下面介绍本申请实施例提供的一种芯片硬件结构。

图3为本申请实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器30。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。如图2所示的卷积神经网络中各层的算法均可在如图3所示的芯片中得以实现。本申请实施例中的单目深度估计方法以及第一神经网络模型的训练方法均可在如图3所示的芯片中得以实现。

神经网络处理器30可以是神经网络处理器(neural-network processing unit，NPU)，张量处理器(tensor processing unit，TPU)，或者图形处理器(graphics processing unit，GPU)等一切适合用于大规模异或运算处理的处理器。以NPU为例：神经网络处理器NPU30作为协处理器挂载到主中央处理器(central processing unit，CPU)(host CPU)上，由主CPU分配任务。NPU的核心部分为运算电路303，控制器304控制运算电路303提取存储器(权重存储器或输入存储器)中的数据并进行运算。其中，TPU是谷歌(***)为机器学习全定制的人工智能加速器专用集成电路。

在一些实现中，运算电路303内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路303从权重存储器302中取矩阵B的权重数据，并缓存在运算电路303中的每一个PE上。运算电路303从输入存储器301中取矩阵A的输入数据，根据矩阵A的输入数据与矩阵B的权重数据进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)308中。

向量计算单元307可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元307可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现中，向量计算单元能307将经处理的输出的向量存储到统一缓存器306。例如，向量计算单元307可以将非线性函数应用到运算电路303的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元307生成归一化的值、合并值，或二者均有。在一些实现中，向量计算单元307将经处理的向量存储到统一存储器306。在一些实现中，经向量计算单元307处理过的向量能够用作运算电路303的激活输入，例如用于神经网络中后续层中的使用，如图2所示，若当前处理层是隐含层1(231)，则经向量计算单元307处理过的向量还可以被用到隐含层2(232)中的计算。

统一存储器306用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)305，被存入到权重存储器302中。输入数据也通过DMAC被存入到统一存储器306中。

总线接口单元(bus interface unit，BIU)310，用于DMAC和取指存储器(instruction fetch buffer)309的交互；总线接口单元301还用于取指存储器309从外部存储器获取指令；总线接口单元301还用于存储单元访问控制器305从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据存入到统一存储器306中，或将权重数据存入到权重存储器302中，或将输入数据存入到输入存储器301中。

与控制器304连接的取指存储器(instruction fetch buffer)309，用于存储控制器304使用的指令。

控制器304，用于调用指存储器309中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器306，输入存储器301，权重存储器302以及取指存储器309均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

其中，图2所示的卷积神经网络中各层的运算可以由运算电路303或向量计算单元307执行。示例性地，本申请实施例中的第一神经网络模型的训练方法以及单目深度估计方法均可以由运算电路303或向量计算单元307执行。

如图4所示，本申请实施例提供了一种***架构400。该***架构包括本地设备401、本地设备402以及执行设备410和数据存储***450，其中，本地设备401和本地设备402通过通信网络与执行设备410连接。

执行设备410可以由一个或多个服务器实现。可选的，执行设备410可以与其它计算设备配合使用，例如：数据存储器、路由器、负载均衡器等设备。执行设备410可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备410可以使用数据存储***450中的数据，或者调用数据存储***450中的程序代码来实现本申请实施例的第一神经网络模型的训练方法和/或单目深度估计方法。

用户可以操作各自的用户设备(例如本地设备401和本地设备402)与执行设备410进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备410进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

在一种实现方式中，本地设备401、本地设备402从执行设备410获取到第一神经网络模型，将第一神经网络模型部署在本地设备401、本地设备402上，利用该第一神经网络模型进行单目深度估计。

在另一种实现中，执行设备410上可以直接部署第一神经网络模型，执行设备410通过从本地设备401和本地设备402获取待处理的图像，并采用第一神经网络模型对待处理的图像进行单目深度估计。

上述执行设备410也可以为云端设备，此时，执行设备410可以部署在云端；或者，上述执行设备410也可以为终端设备，此时，执行设备410可以部署在用户终端侧，本申请实施例对此并不限定。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图5为本申请实施例的一种单目深度估计方法的流程图，如图5所示，本实施例的方法可以包括：

步骤101、获取待估计图像和待估计图像对应的第一参数。

待估计图像是通过相机对3D空间中的目标物体进行拍摄所得到的图像。该待估计图像可以是RGB相机、灰度相机、夜视相机、热敏相机、全景相机、事件相机或红外相机等任意相机拍摄(也称采集)所得到的图像。该待估计图像可以是一帧图像。第一参数为拍摄待估计图像的相机的相机标定参数。相机标定参数是与相机自身特性相关的参数。一种示例，相机标定参数可以包括相机的中心坐标和焦距。另一种示例，相机标定参数可以包括待估计图像的宽度像素值和高度像素值。

一种获取待估计图像的方式，可以是通过设备自身的上述任意相机采集获取该待估计图像。另一种获取待估计图像的方式，可以是接收其他设备发送的待估计图像，该待估计图像可以是其他设备的相机所采集的。

步骤102、将待估计图像输入至第一神经网络模型中，获取第一神经网络模型输出的第一DSN图。

其中，第一DSN图用于表示待估计图像对应的目标物体的平面的朝向和该平面与相机之间的距离。第一DSN图的具体解释说明可以参见上述部分用语解释，这里的输入图像即为该待估计图像。第一DSN图与3D空间中的目标物体的几何结构相关，而不受相机模型的影响，该第一DSN图可以更精确地表示三维世界。

该第一神经网络模型可以是任意神经网络模型，例如，深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Networks，CNN)或其组合等。

第一神经网络模型为使用训练图像和训练图像对应的第二DSN图进行训练得到的。第二DSN图为训练神经网络模型过程中的真实数据(ground truth)。在一些实施例中，第二DSN图是根据训练图像对应的第二深度图、以及训练图像对应的相机标定参数确定的。第二深度图为训练神经网络模型过程中的真实数据(ground truth)，第二DSN图可以通过第二深度图和训练图像对应的相机标定参数确定。

该第一神经网络模型通过训练图像和训练图像对应的第二DSN图训练，学习到由输入图像得到DSN图的映射特征，从而可以对上述待估计图像进行智能化感知，输出待估计图像对应的DSN图。

步骤103、根据待估计图像和第一参数，确定第一相机滤波映射图。

其中，该第一相机滤波映射图用于表示目标物体在空间中的3D点与2D平面的映射关系，该2D平面为相机的成像平面。第一相机滤波映射图的具体解释说明可以参见上述部分用语解释，这里的输入图像即为该待估计图像，即第一相机滤波映射图与待估计图像的像素点以及相机模型相关，而不受场景中目标物体的3D结构影响。

一种可实现方式，根据待估计图像的像素点的位置坐标和第一参数，确定第一相机滤波映射图。该第一相机滤波映射图包括像素点对应的相机滤波映射向量。换言之，第一相机滤波映射图中的像素点存储相机滤波映射向量。该相机滤波向量用于表示3D点与像素点的映射关系，该像素点为3D点投影至2D平面(相机成像平面)的点。

示例性的，像素点的位置坐标可以包括横坐标和纵坐标，像素点对应的相机滤波映射向量包括第一相机滤波映射分量和第二相机滤波映射分量，第一相机滤波映射分量是根据横坐标和第一参数确定的，第二相机滤波映射分量是根据纵坐标和第一参数，或者根据横坐标、纵坐标和第一参数确定的。

当拍摄待估计图像的相机的视场角小于180度时，即非全景相机拍摄的待估计图像，上述第一参数可以包括相机的中心坐标和焦距。第一相机滤波映射分量是根据横坐标和第一参数确定的，第二相机滤波映射分量是根据纵坐标和第一参数确定的。当待估计图像的相机的视场角大于180度时，即全景相机拍摄的待估计图像，上述第一参数可以包括待估计图像的宽度像素值和高度像素值，第一相机滤波映射分量是根据横坐标和第一参数确定的，第二相机滤波映射分量是根据横坐标、纵坐标和第一参数确定的。

步骤104、根据第一DSN图和第一相机滤波映射图，确定待估计图像对应的第一深度图。

第一深度图可以包括像素点对应的深度值，换言之，第一深度图中的像素点存储有深度值，该深度值用于表示在相机拍摄该待估计图像的时间，像素点对应的现实世界的3D点与相机视点之间的距离。该第一深度图是稠密的、可边缘感知的公制尺度深度图。

本申请实施例通过上述步骤可以得到两部分：第一DSN图和第一相机滤波映射图，通过这两部分最终可以得到该待估计图像对应的第一深度图。本申请实施例使用第一神经网络模型得到第一DSN图，该第一DSN图可以精确的表示3D空间中的目标物体的几何结构。根据待估计图像的相机标定参数确定第一相机滤波映射图，第一相机滤波映射图与待估计图像的像素点以及相机模型相关，而不受场景中目标物体的3D结构影响。再基于这两部分得到深度图。而直接使用神经网络模型输出深度图，会出现由于拍摄待估计图像的相机与神经网络模型训练过程中的训练图像的相机的相机标定参数不同，而产生估计误差的问题。与直接使用神经网络模型输出深度图不同，本申请实施例基于第一DSN图和第一相机滤波映射图得到深度图，该深度图可以精确反映目标物体的距离，提升单目深度估计的准确性。

该第一DSN图可以包括待估计图像的像素点对应的第一DSN向量，换言之，第一DSN图中的像素点存储DSN向量。根据像素点对应的第一DSN向量和像素点对应的相机滤波映射向量，可以确定像素点对应的深度值。即对第一DSN图和第一相机滤波映射图中相同像素位置的向量进行相应运算，可以得到相应像素位置的深度值。

示例性的，以像素点i对应的第一DSN向量和该像素点i对应的相机滤波映射向量为例，确定该像素点i对应的深度值的具体实现方式可以是，通过如下公式1和公式2确定。

ξ _i＝N _i·F _i (公式1)

其中，ξ _i为像素点i对应的场景中目标物体的3D点的逆深度值，N _i为像素点i对应的第一DSN向量，F _i为像素点i对应的相机滤波映射向量。N _i可以从第一DSN图的像素点i获取，F _i可以从第一相机滤波映射图的像素点i获取。

对逆深度值取倒数便可以得到像素点i对应的深度值。例如，根据下述公式2确定。

其中，Z _i为像素点i对应的逆深度值。

上述像素点i可以是待估计图像中的任意一个像素点。

需要说明的是，通过公式1和公式2确定像素点i对应的深度值，既可以适用于对透视相机模型的相机所采集的待估计图像进行单目深度估计，也可以适用于对非透视相机模型的相机所采集的待估计图像进行单目深度估计，该非透视相机模型的相机包括但不限于全景相机、360度球面相机、折反射相机、鱼眼相机等。

本实施例，通过获取待估计图像和相机标定参数，通过第一神经网络模型得到待估计图像对应的第一DSN图，根据相机标定参数确定第一相机滤波映射图，再基于第一DSN图和第一相机滤波映射图得到深度图。与直接使用神经网络模型输出深度图不同，本申请实施例基于第一DSN图和第一相机滤波映射图得到深度图，该深度图可以精确反映目标物体的距离，从而提升单目深度估计的准确性。与通过两个RGB帧进行立体匹配估计深度的方式不同，本申请实施例通过一帧待估计图像便可以进行深度估计，没有需要单目相机处于运动状态而现实世界的目标物体处于静止状态的场景限制，可以适用于现实生活中一般或普遍场景中的目标物体的深度估计。

图6为本申请实施例的另一种单目深度估计方法的流程图，如图6所示，本实施例的方法可以包括：

步骤201、获取待估计图像和待估计图像对应的第一参数。

待估计图像对应的第一参数可以包括相机的中心坐标和焦距，或者，可以包括待估计图像的宽度像素值和高度像素值。

在一些实施例中，待估计图像的宽度像素值和高度像素值可以基于相机的中心坐标计算得到。

步骤202、将待估计图像输入至第一神经网络模型中，获取第一神经网络模型输出的第一DSN图。

其中，步骤201至步骤202的解释说明可以参见图5所示实施例的步骤101至步骤102的具体解释说明，此处不再赘述。

步骤203、判断拍摄待估计图像的相机的视场角是否小于180，若是，则执行步骤204，若否，则执行步骤205。

步骤204、根据待估计图像的像素点的横坐标和纵坐标、以及拍摄待估计图像的相机的中心坐标和焦距，确定第一相机滤波映射图。

如上所述，该第一相机滤波映射图包括像素点对应的相机滤波映射向量。本实施例以像素点i为例，本步骤确定该像素点i对应的相机滤波映射向量的具体实现方式可以是，通过如下公式3至公式5确定。

F _i＝(F _u,F _v,1) (公式3)

其中，F _i为像素点i对应的相机滤波映射向量，F _u为F _i的第二相机滤波映射分量，F _v为F _i的第二相机滤波映射分量。i＝(u,v)，u为像素点i的横坐标，v为像素点i的纵坐标。(c _x,c _y)为拍摄待估计图像的相机的中心坐标，(f _x,f _y)为拍摄待估计图像的相机的焦距。

上述像素点i可以是待估计图像中的任意一个像素点，从而可以得到第一相机滤波映射图。

对透视相机模型的相机所采集的待估计图像进行单目深度估计过程中，可以采用本步骤中公式3至公式5确定第一相机滤波映射图。

步骤205、根据待估计图像的像素点的横坐标和纵坐标、以及待估计图像的宽度像素值和高度像素值，确定第一相机滤波映射图。

本实施例以像素点i为例，本步骤确定该像素点i对应的相机滤波映射向量的具体实现方式可以是，通过如公式3、公式6和7确定。

其中，W为待估计图像的宽度像素值，H为待估计图像的高度像素值。

需要说明的是，W和H也可以通过中心坐标(c _x,c _y)得到，例如，W＝2c _x，H＝2c _y。

对全景相机所采集的待估计图像进行单目深度估计过程中，可以采用本步骤中公式3、公式6和公式7确定第一相机滤波映射图。

步骤206、根据第一DSN图和第一相机滤波映射图，确定待估计图像对应的第一深度图。

其中，步骤206的解释说明可以参见图5所示实施例的步骤104的具体解释说明，此处不再赘述。

本申请实施例的单目深度估计方法，可以适用于对不同相机模型的相机所采集的待估计图像进行深度估计，从而实现对不同相机的待估计图像的泛化感知。

示例性的，以图7所示的场景中的3D点和透视(针孔)相机模型之间的几何对应关系，对深度值可以通过像素点的DSN向量和该像素点的相机滤波映射向量确定进行示例性解释说明。

参照图7所示，场景中目标物体的一个3D点被位置坐标位于(0,0,0)的相机捕获，并存储在位于图像平面中像素点i的2D像素里。P表示该3D点，P＝(X,Y,Z)，(X,Y,Z)表示该3D点在空间中的位置坐标(也称三维空间坐标)，i＝(u,v)，(u,v)表示像素点i的位置坐标，像素点i的位置坐标是从图像平面的左上角测量。场景中的3D点在空间中的位置坐标与像素点i的位置坐标之间的几何对应关系由以下公式1给出：

其中，相机标定参数可以包括透视(针孔)相机模型的相机的中心坐标和焦距，(c _x,c _y)为中心坐标，(f _x,f _y)为焦距。

场景中目标物体的3D点除了空间中的位置坐标P＝(X,Y,Z)的表示方法以外，该3D点也可建模表示为单位表面法线，(n _x,n _y,n _z)表示场景中目标物体的3D点的单位表面法线。单位表面法线中的表面指的是3D点与其相邻的共面3D点所构成的平面(可拓展为无穷大平面)。而这种单位向量的表示方法是与所使用的相机模型不相关的。于是，可以定义相机到3D点的扩展平面的距离为h。那么距离h在几何上可以用单位表面法线和三维空间坐标的标量积来计算得出：

h＝(n _x,n _y,n _z)·(X,Y,Z) (公式9)

根据公式8，可以使用透视相机模型的几何关系，替换公式9中的3D点空间坐标，并得到：

基于公式10，本申请实施例提出一个全新的3D结构表示方法，将场景中3D点的逆深度(即深度的倒数)分解为DSN向量和相机滤波映射向量，N表示3D点的DSN向量，F表示像素点i的相机滤波映射向量。参见下述公式11至公式15。

其中，ξ表示3D点的逆深度。

因此，逆深度可以根据本申请实施例提供的3D点结构表示法，即逆深度值可以通过DSN向量和相机滤波映射向量确定，表示为：

ξ＝N·F＝N _xF _u+N _yF _v+N _z (公式13)

其中，3D点的DSN向量为：

其对应的像素点i的相机滤波映射向量为：

其中，F _u即为上述第一相机滤波映射分量，F _v即为上述第二相机滤波映射分量。

需要说明的是，在单目深度估计方法的诸多实施例中，所使用的相机模型可以不限于上述透视相机模型的相机，也可以是非透视相机模型的相机，例如，全景相机、360度球面相机、折反射相机、或鱼眼相机等。在这些涉及非透视相机模型的相机的实施例中，本申请实施例的3D结构表示法可对场景的3D结构和非透视相机模型之间做几何对应的适配。在使用非透视相机模型的相机的情况下，一般场景的3D结构(根据公式9做几何建模)和DSN向量(根据公式13做几何建模)仍然有效成立。但是相机滤波映射向量(根据公式15计算)需要根据不同类型的相机进行更新。例如，在一种实施例中，相机可以是 360度全景相机。在这种情况下，场景中3D点P与像素点i之间的几何对应关系可以通过以下方式给出：

其中，

r为从位于(0,0,0)点的相机到场景3D点P的球面投影半径，W、H分别为图像的宽度像素值和高度像素值。通过结合公式9和公式16，场景中3D点的逆深度可分解为DSN向量和相机滤波映射向量，N表示DSN向量，F表示相机滤波映射向量。

其中，ξ表示3D点的逆深度。

因为，逆深度可以使用公式13提出的场景中3D点的3D结构表示法来结算。其中3D点对应的DSN向量可由公式14计算得到。而3D点在2D平面i＝(u,v)对应的相机滤波映射向量为：

本申请实施例为图5或图6所示实施例的单目深度估计方法提供了理论依据。使得本申请实施例的单目深度估计方法，可以通过第一神经网络模型输出待估计图像的各个像素点对应的第一DSN向量，根据公式3得到各个像素点对应的第一相机滤波映射向量，之后根据公式1和公式2得到各个像素点对应的深度值，从而实现单目深度估计，提升深度估计的准确性。

图8为本申请实施例的一种单目深度估计处理过程的示意图，如图8所示，本实施例以第一神经网络模型为卷积神经网络为例进行示意性举例说明，本实施例的单目深度估计方法可以包括：将图像数据L301输入至卷积神经网络L302，例如，可以将上述待估计图像作为图像数据L301。卷积神经网络L302输出DSN图L303。本实施例以DSN图L303中的一个像素点所存储的数据为3通道的数据为例，即DSN图L303包括的DSN向量包括三个分量，图像数据L301的像素点i，i＝(u,v)，N _i为像素点i对应的DSN向量，N _i＝(N _xi,N _yi,N _zi)为例，进行举例说明。在DSN图L303中，位于位置坐标i＝(u,v)的像素点上，存储有N _i＝(N _xi,N _yi,N _zi)。例如，DSN图中的一个像素点的一个通道用于存储该DSN向量的一个分量。在一些实施例中，卷积神经网络可以是基于ResNet-18的编码器-解码器架构的。

该卷积神经网络可以通过下述图9所示的训练方法训练得到。

根据公式4和公式5，或公式6和公式7，可以通过图像平面中的位置坐标i＝(u,v)和相机标定参数来计算得到相机滤波映射图L304。在相机滤波映射图L304中，位于位置坐标i＝(u,v)的像素点上，存储像素点i对应的相机滤波映射向量。本实施例以F _i为像素点 i对应的滤波映射向量，F _i＝(F _ui,F _vi)为例，相机滤波映射图L304中的位置坐标i＝(u,v)的像素点存储有(F _ui,F _vi)。对于相机标定参数固定的相机，则只需计算一次相机滤波映射图L304。

根据公式1，可使用相机滤波映射图L304来对DSN图L303做滤波处理，例如，通过滤波器L305，计算得到逆深度图L306，进而基于逆深度图L306得到深度图。本实施例以ξ _i为像素点i对应的逆深度值为例，逆深度图L306中的位置坐标i＝(u,v)的像素点存储有ξ _i。

图9为本申请实施例的一种第一神经网络模型的训练方法的流程图，该第一神经网络模型也可称为单目深度估计模型，如图9所示，本实施例的方法可以包括：

步骤301、获取训练图像和训练图像对应的第二DSN图。

该训练图像可以是RGB相机、灰度相机、夜视相机、热敏相机、全景相机、事件相机或红外相机等任意相机拍摄所得到的图像。

例如，训练图像可以来源于图1所示的数据库。数据库中可以存储有多个训练图像和训练图像对应的第二DSN图，或者存储有多个训练图像和训练图像对应的第二深度图，或者存储有多个训练图像和训练图像对应的第二DSN图以及第二深度图。

数据库中的训练数据可以通过如下方式获取。一种可实现方式，多个训练图像是由多个经标定和同步的相机拍摄场景得到的图像。使用3D视觉技术对多个训练图像进行处理，可以得到多个训练图像对应的第二深度图。该3D视觉技术可以是运动结构(structure from motion，sfm)恢复技术、多视角三维重建技术或视图合成技术等。

另一种可实现方式，将不同类型的相机安装在机架中并标定，可以得到训练图像和训练图像对应的第二DSN图。例如，不同类型的相机包括深度相机和热敏相机，将深度相机和热敏相机安装在机架中并标定，深度相机拍摄所得到的深度图可直接与热敏相机所得到的图像对齐，深度相机拍摄所得到的深度图可以作为训练图像对应的第二深度图，热敏相机所得到的图像可以作为训练图像。

又一种可实现方式，获取原始图像，原始图像可以是上述任意一种类型的相机拍摄得到的图像，对原始图像进行数据优化或数据增强，得到训练图像。该数据优化包括空洞填充优化、锐化遮挡边缘优化或时间一致性优化中至少一项。一种举例，通过图像处理滤波器来优化原始图像，以得到训练图像。该图像处理滤波器可以是双边滤波、或引导式图像滤波等。另一种举例，通过使用视频的帧与帧之间的时间信息或一致性来优化原始图像，以得到训练图像。例如，通过光流法添加时间约束。再一种举例，通过几何信息或语义分割信息来完成，这种方式可以由一些卷积神经网络来计算完成，比如，用于表面法向量分割或更表层类别的分割卷积神经网络。例如用于人物、植被、天空、汽车等不同类别分割的卷积神经网络。该数据增强用于改变原始图像所拍摄场景的环境条件以获取不同环境条件下的训练图像。该环境条件可以包括光照条件、天气条件、能见度条件等。

再一种可实现方式，训练图像对应的第二深度图可以为教师单目深度估计网络对输入的训练图像进行处理后输出的深度图。这里的教师单目深度估计网络可以是经过训练的MDE卷积神经网络。

可以理解的，上述训练数据的获取方式可以组合使用，以得到本申请实施例的数据库中的训练数据。

当训练数据包括训练图像和训练图像对应的第二深度图时，可以通过训练图像、训练图像对应的相机标定参数以及第二深度图确定第二DSN图。例如，可以通过如下两种方式计算得到训练图像对应的第二DSN图。

这里以第二深度图中的像素点i，所对应的DSN向量N _i＝(N _xi,N _yi,N _zi)为例，对基于深度图计算得到对应的DSN图的实现方式进行解释说明。

一种可实现方式，计算像素点i对应的单位表面法线。(n _xi,n _yi,n _zi)为像素点i对应的单位表面法线。在一些实施例中，可以使用像素点i的相邻像素的向量叉积来计算。

然后，根据像素点i对应的单位表面法线、像素点i对应的深度值、像素点i的位置坐标以及相机标定参数，计算像素点i对应的3D点所在平面到相机的距离。其中，相机标定参数可以是拍摄训练图像的相机的相机标定参数。

例如，可以通过如下公式19计算像素点i对应的3D点所在平面到相机的距离。

其中，h _i为像素点i对应的3D点所在平面到相机的距离，相机标定参数包括相机的中心坐标和焦距，(c _x,c _y)为相机的中心坐标，(f _x,f _y)为相机的焦距，(u,v)为像素点i的位置坐标，Z为像素点i对应的深度值。

之后，根据像素点i对应的3D点所在平面到相机的距离和像素点i对应的单位表面法线，计算像素点i对应的3D点所在平面的DSN向量。

例如，可以通过如下公式20计算像素点i对应的3D点所在平面的DSN向量。

其中，N _i为像素点i对应的3D点所在平面的DSN向量。

另一种可实现方式，DSN图可由逆深度图计算得到。计算方式可以为，通过计算逆深度图中像素点i处的图像梯度，得到像素点i对应的DSN向量，即像素点i对应的3D点所在平面的DSN向量。

例如，根据通过如下公式31计算像素点i对应的3D点所在平面的DSN向量。

其中，N _i为像素点i对应的3D点所在平面的DSN向量，N _i＝(N _xi,N _yi,N _zi)，ξ _i为像素点i对应的场景中的3D点的逆深度值，(c _x,c _y)为相机的中心坐标，(f _x,f _y)为相机的焦距， (u,v)为像素点i的位置坐标。

步骤302、使用训练图像和第二DSN图对初始神经网络模型进行训练，得到第一神经网络模型。

在本步骤中，可以将训练图像输入初始神经网络模型，得到第三DSN图。根据训练图像对应的相机标定参数和训练图像，确定第二相机滤波映射图。根据第二相机滤波映射图和第三DSN图，得到第三深度图。根据第三DSN图和训练图像对应的第二DSN图之间的差异，或者，第三深度图和第二深度图之间的差异，或者，第三深度图和第二深度图的匹配度中至少一项，调整初始神经网络模型的参数，重复上述过程，直至训练结束，得到上述第一神经网络模型。

换言之，可以根据损失函数调整神经网络模型的参数，直至得到满足训练目标的第一神经网络模型。损失函数可以包括第一损失函数、第二损失函数或第三损失函数中至少一项。第一损失函数用于表示第二DSN图和第三DSN图之间的误差，第二损失函数用于表示第二深度图和第三深度图之间的误差。第三损失函数用于表示第二深度图和第三深度图的匹配程度。

结合图10所示的本申请实施例的一种训练过程的示意图，对本申请实施例进行解释说明。如图10所示，从数据库L400中获取训练图像L501。将训练图像L501输入至卷积神经网络L502中，卷积神经网络L502输出第三DSN图L503。第三DSN图L503的位置坐标位于i＝(u,v)的像素点存储有估计的DSN向量，N _i表示该估计的DSN向量，N _i＝(N _xi,N _yi,N _zi)。根据训练图像L501对应的相机标定参数得到第二相机滤波映射图L504。第二相机滤波映射图L504的位置坐标位于i＝(u,v)的像素点存储有相机滤波映射向量，Fi表示该相机滤波映射向量，F _i＝(F _ui,F _vi)。将第三DSN图L503和第二相机滤波映射图L504提供至滤波器L505，滤波器L505输出逆深度图L506。逆深度图L506的位置坐标位于i＝(u,v)的像素点存储有估计的逆深度值，ξ _i表示该估计的逆深度值。在一些实施例中，可以基于逆深度图L506得到上述第三深度图。之后，将第三DSN图L503、逆深度图L506、真实DSN图L508以及真实逆深度图L509提供给损失函数L507，以确定损失函数值，根据损失函数值调整卷积神经网络L502。真实DSN图L508即为训练图像对应的第二DSN图。真实逆深度图L509可以由训练图像对应的第二深度图得到。真实DSN图L508的位置坐标位于i＝(u,v)的像素点存储有真实DSN向量，

表示该真实DSN向量，

真实逆深度图L509的位置坐标位于i＝(u,v)的像素点存储有真实逆深度值，

表示真实逆深度值。

一种可实现方式，损失函数

(L507)的定义如下。

其中的λ _DEP，λ _DSN和λ _INP是超参数，用于加权深度损失函数

DSN损失函数

以及修补损失函数

λ _DEP，λ _DSN和λ _INP分别大于或等于0。例如，给一个超参数赋零会取消其相应损失函数对网络训练的影响。

是一个计算真实逆深度值

(L509)和估计的逆深度值ξ _i(L506)之间误差的损失函数。该损失函数的计算会在全部的有效像素

上进行。该有效像素

可以是含有有效的真实逆深度值的像素。对于每一个位置坐标位于i＝(u,v)的有效像素，计算公式如下：

其中‖·‖代表范式，其可以是L1范式，L2范式等。根据实施例的具体情况，深度损失函数中的逆深度值也可视情况替换为深度值。

是DSN法线损失函数，用于计算真实DSN向量(L508)和估计的DSN向量(L503)之间误差的损失函数。该损失函数的计算会在全部的有效像素

上进行。该有效像素

可以是含有有效的真实DSN向量的像素。对于每一个位置坐标位于i＝(u,v)的有效像素，计算公式如下：

是修补损失函数，会在估计的DSN图L503中的全部像素

上被计算，方式如下：

其中，

是拉普拉斯算子，而I是与真实逆深度图L509相匹配的图像数据，

表示相匹配的像素点的个数。

通过上述公式22至公式25可以计算损失函数，以调整网络参数，得到第一神经网络模型。

本实施例，通过将训练图像输入至卷积神经网络，得到估计的DSN图。根据估计的DSN图和训练图像对应的相机滤波映射图，得到估计的逆深度图。基于估计的DSN图、真实的DSN图、估计的逆深度图和真实的逆深度图，计算损失函数值。根据损失函数值调整卷积神经网络的参数，重复上述步骤，以训练得到第一神经网络模型。第一神经网络模型可以学习到输入图像和DSN图的映射关系，从而使得第一神经网络模型可以基于输入图像输出输入图像对应的DSN图，使用该DSN图和输入图像对应的相机滤波映射图，可以得到输入图像对应的深度图，以实现单目深度估计。由于第一神经网络模型学习的是输入图像和DSN图的映射关系，该DSN图与输入图像对应的目标物体的3D结构有关，而不受相机模型的影响，从而使得在模型应用阶段，即使待估计图像对应的相机模型与训练图像对应的相机模型不同，该第一神经网络模型输出的待估计图像对应的DSN图，也可以较为准确的表示待估计图像对应的目标物体的3D结构。之后，基于待估计图像对应的DSN图，和与相机模型相关的相机滤波映射图，得到深度图。该深度图可以较为准确的表示目标物体在空间中的距离，从而提升单目深度估计的准确性。

由于训练图像可以是RGB相机、灰度相机、夜视相机、热敏相机、全景相机、事件相机或红外相机等任意相机拍摄所得到的图像，所以使得使用训练得到的第一神经网络模型可以感知任意相机拍摄的图像，即对相机可泛化感知。并基于第一神经网络模型的输出估计出深度图。

通过上述步骤训练得到的第一神经网络模型可以配置到电子设备中，以使得电子设备可以实现较为准确的单目深度估计。该第一神经网络模型也可以配置到服务器中，以使得服务器可以对电子设备发送的待估计图像进行处理，返回DSN图，之后由电子设备基于DSN图得到深度图，实现较为准确的单目深度估计。

第一神经网络模型可以是软件功能模块，也可以是固化的硬件电路，例如，该硬件电路可以是运算电路等，本申请实施例对第一神经网络模型的具体形态不作具体限定。

本申请实施例还可以采用如下方法训练神经网络模型，以得到第一神经网络模型。

例如，图11为本申请实施例的一种第一神经网络模型的训练过程的示意图。如图11所示，单目深度估计模块L515(即包括图8所示实施例的单目深度估计处理过程所涉及的部分)通过学习单目深度估计教师网络L511来估计深度。教师网络用于通过逆渲染来合成配对输入输出真实(Ground Truth)数据。使用该输入输出真实(Ground Truth)数据对单目深度估计模块L515进行训练。即对单目深度估计模块L515中的神经网络模型的训练，以得到第一神经网络模型。

示例性的，一个完成训练的单目深度估计教师网络L511可被用来作为MDE处理器。教师网络L511可以估计生成输入图像对应的深度图。教师网络的输入图像和估计的深度图可作为真实(Ground Truth)数据用于扩充数据库L400。

示例性的，教师网络L511可以通过输入一张噪声图像L510，估计与噪声对应的合成深度图L512。再通过使用教师网络L511的编码器和噪声图像L510，逆向渲染合成可被用于作为训练输入的合成图像数据L513。

示例性的，通过教师网络合成生成的逆渲染合成图像数据L513和合成深度图L512可作为一组配对的真实(Ground Truth)数据L514加入到数据库L400。

示例性的，单目深度估计模块L515被设定为学生网络，并使用教师网络生成的逆渲染合成图像数据L513作为输入，合成深度图L512作为真实(Ground Truth)数据，来进行训练。单目深度估计模块L515对逆渲染合成图像数据L513进行处理，输出估计的深度图L516。之后，将估计的深度图L516和合成深度图L512提供至训练损失函数L517，该训练损失函数L517可以采用上述图9所示实施例中的损失函数，当然也可以采用其他形式的损失函数，本申请实施例不作具体限定。根据训练损失函数L517调整单目深度估计模块L515中的神经网络模型，以得到第一神经网络模型。

本实施例，可以让单目深度估计模块L515，通过学习其他MDE处理器(例如，现成的MDE软件、已完成训练的MDE网络等)进行训练，而不直接访问这些MDE处理器/网络被训练时所使用的原始数据。这种方式是通过一种前沿的知识蒸馏算法来实现的。这种方式具有较高的训练效率。

例如，图12为本申请实施例的一种第一神经网络模型的训练过程的示意图。如图12所示，单目深度估计模块L523(与上文中L515相同的模块)和MDE处理器L521同时使用噪声作为输入，通过无数据蒸馏的方法，使单目深度估计模块L523从MDE处理器L521处学习深度估计的能力。

示例性的，一个完成训练的单目深度估计教师网络L521可被用来作为MDE处理器，用于扩充数据库L400。教师网络L521可以估计输入图像对应的深度图。单目深度估计模组L523被设定为学生网络。一张噪声图像可以被同时输入到单目深度估计模块L523和MDE处理器L521。单目深度估计模块L523对噪声图像进行处理，输出学生网络估计出的深度图L524。单目深度估计教师网络L521对噪声图像进行处理，输出教师网络估计出的深度图L522。将学生网络估计出的深度图L524和教师网络估计出的深度图L522提供至训练损失函数L525。通过训练损失函数L525，调整单目深度估计模块L523，以降低学生网络估计出的深度图L524和教师网络估计出的深度图L522之间的损失误差，实现对单目深度估计模块L523(即学生网络)的训练。

本实施例，可以让单目深度估计模块L523，通过学习其他MDE处理器(例如，现成的MDE软件、已完成训练的MDE网络等)进行训练，而不直接访问这些MDE处理器/网络被训练时所使用的原始数据。这种方式是通过一种前沿的知识蒸馏算法来实现的。这种方式具有较高的训练效率。

本申请实施例还提供一种单目深度估计装置，用于执行以上各方法实施例中的方法步骤。如图13所示，该单目深度估计装置可以包括：获取模块91、DSN模块92、相机滤波映射模块93和深度估计模块94。

获取模块91，用于获取待估计图像和待估计图像对应的第一参数，所述第一参数为拍摄所述待估计图像的相机的相机标定参数。

距离缩放法线DSN模块92，用于将所述待估计图像输入至第一神经网络模型中，获取第一神经网络模型输出的第一距离缩放法线DSN图，所述第一DSN图用于表示所述待估计图像对应的目标物体的平面的朝向和所述平面与所述相机之间的距离。

相机滤波映射模块93，用于根据所述待估计图像和所述第一参数，确定第一相机滤波映射图，所述第一相机滤波映射图用于表示所述目标物体在空间中的3D点与2D平面的映射关系，所述2D平面为所述相机的成像平面。

深度估计模块94，用于根据所述第一DSN图和所述第一相机滤波映射图，确定所述待估计图像对应的第一深度图。

在一些实施例中，所述第一神经网络模型为使用训练图像和所述训练图像对应的第二DSN图进行训练得到的，所述第二DSN图是根据所述训练图像对应的第二深度图、以及所述训练图像对应的相机标定参数确定的。

在一些实施例中，所述训练图像作为初始神经网络模型的输入，损失函数包括第一损失函数、第二损失函数或第三损失函数中至少一项，所述损失函数用于调整所述初始神经网络模型的参数，以训练得到所述第一神经网络模型。

所述第一损失函数用于表示所述第二DSN图和第三DSN图之间的误差，所述第三DSN图为所述初始神经网络模型输出的所述训练图像对应的DSN图，所述第二损失函数用于表示所述第二深度图和第三深度图之间的误差，所述第三深度图是根据所述第三DSN图和第二相机滤波映射图确定的，所述第二相机滤波映射图为根据所述训练图像对应的相机标定参数和所述训练图像确定的，所述第三损失函数用于表示所述第二深度图和第三深度图的匹配程度。

在一些实施例中，相机滤波映射模块93用于：根据所述待估计图像的像素点的位置坐标和所述第一参数，确定所述第一相机滤波映射图，所述第一相机滤波映射图包括所述像素点对应的相机滤波映射向量，所述相机滤波向量用于表示所述3D点与所述像素点的映射关系，所述像素点为所述3D点投影至所述2D平面的点。

在一些实施例中，所述像素点的位置坐标包括横坐标和纵坐标，所述像素点对应的相机滤波映射向量包括第一相机滤波映射分量和第二相机滤波映射分量，所述第一相机滤波映射分量是根据所述横坐标和所述第一参数确定的，所述第二相机滤波映射分量是根据所述纵坐标和所述第一参数，或者根据所述横坐标、所述纵坐标和所述第一参数确定的。

在一些实施例中，当拍摄所述待估计图像的相机的视场角小于180度时，所述第一参数包括述相机的中心坐标(c _x,c _y)和焦距(f _x,f _y)，所述第一相机滤波映射分量是根据所述横坐标和所述第一参数确定的，所述第二相机滤波映射分量是根据所述纵坐标和所述第一参数确定的。当所述待估计图像的相机的视场角大于180度时，所述第一参数包括所述待估计图像的宽度像素值W和高度像素值H，所述第一相机滤波映射分量是根据所述横坐标和所述第一参数确定的，所述第二相机滤波映射分量是根据所述横坐标、所述纵坐标和所述第一参数确定的。

在一些实施例中，所述第一DSN图包括所述待估计图像的像素点对应的第一DSN向量，深度估计模块94用于：根据所述像素点对应的第一DSN向量和所述像素点对应的相机滤波映射向量，确定所述像素点对应的深度值。其中，所述第一深度图包括所述像素点对应的深度值。

本申请实施例提供的单目深度估计装置可以用于执行上述单目深度估计方法，其内容和效果可参考方法部分，本申请实施例对此不再赘述。

本申请实施例另一些实施例还提供了一种电子设备，用于执行以上各方法实施例中的方法。如图14所示，该电子设备可以包括：图像采集器1001，图像采集器1001用于获取待估计图像和所述待估计图像对应的第一参数；一个或多个处理器1002；存储器1003；上述各器件可以通过一个或多个通信总线1005连接。其中上述存储器1003中存储一个或多个计算机程序1004，一个或多个处理器1002用于执行一个或多个计算机程序1004，该一个或多个计算机程序1004包括指令，上述指令可以用于执行上述方法实施例中的各个步骤。

例如，一个或多个处理器1002用于运行一个或多个计算机程序1004，以实现以下动作：

获取待估计图像和待估计图像对应的第一参数，所述第一参数为拍摄所述待估计图像的相机的相机标定参数。

将所述待估计图像输入至第一神经网络模型中，获取第一神经网络模型输出的第一距离缩放法线DSN图，所述第一DSN图用于表示所述待估计图像对应的目标物体的平面的朝向和所述平面与所述相机之间的距离。

根据所述待估计图像和所述第一参数，确定第一相机滤波映射图，所述第一相机滤波映射图用于表示所述目标物体在空间中的3D点与2D平面的映射关系，所述2D平面为所述相机的成像平面。

根据所述第一DSN图和所述第一相机滤波映射图，确定所述待估计图像对应的第一深度图。

所述第一损失函数用于表示所述第二DSN图和第三DSN图之间的误差，所述第三DSN图为所述初始神经网络模型输出的所述训练图像对应的DSN图，所述第二损失函数用于表示所述第二深度图和第三深度图之间的误差，所述第三深度图是根据所述第三DSN图和第二相机滤波映射图确定的，所述第二相机滤波映射图为根据所述训练图像对应的相机标定参数和所述训练图像确定的，所述第三损失函数用于表示所述第二深度图和第三深度图的匹配结果。

在一些实施例中，根据所述待估计图像的像素点的位置坐标和所述第一参数，确定所述第一相机滤波映射图，所述第一相机滤波映射图包括所述像素点对应的相机滤波映射向量，所述相机滤波向量用于表示所述3D点与所述像素点的映射关系，所述像素点为所述3D点投影至所述2D平面的点。

在一些实施例中，所述第一DSN图包括所述待估计图像的像素点对应的第一DSN向量，根据所述像素点对应的第一DSN向量和所述像素点对应的相机滤波映射向量，确定所述像素点对应的深度值。其中，所述第一深度图包括所述像素点对应的深度值。

当然，图14所示的电子设备还可以包含如音频模块以及SIM卡接口等其他器件，本申请实施例对此不做任何限制。

本申请实施例还提供一种单目深度估计装置，如图15所示，该单目深度估计装置包括处理器1101和传输接口1102，该传输接口1102用于获取待估计图像和所述待估计图像对应的第一参数。

传输接口1102可以包括发送接口和接收接口，示例性的，传输接口1102可以为根据任何专有或标准化接口协议的任何类别的接口，例如高清晰度多媒体接口(high definition multimedia interface，HDMI)、移动产业处理器接口(Mobile Industry Processor Interface，MIPI)、MIPI标准化的显示串行接口(Display Serial Interface，DSI)、视频电子标准协会 (Video Electronics Standards Association，VESA)标准化的嵌入式显示端口(Embedded Display Port，eDP)、Display Port(DP)或者V-By-One接口，V-By-One接口是一种面向图像传输开发的数字接口标准，以及各种有线或无线接口、光接口等。

该处理器1101被配置为调用存储在存储器中的程序指令，以执行如上述方法实施例的单目深度估计方法，其内容和效果可参考方法部分，本申请实施例对此不再赘述。可选的，该装置还包括存储器1103。该处理器1102可以为单核处理器或多核处理器组，该传输接口1102为接收或发送数据的接口，该单目深度估计装置处理的数据可以包括视频数据或图像数据。示例性的，该单目深度估计装置可以为处理器芯片。

本申请实施例另一些实施例还提供一种计算机存储介质，该计算机存储介质可包括计算机指令，当该计算机指令在电子设备上运行时，使得该电子设备执行上述方法实施例的各个步骤。

本申请实施例另一些实施例还提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得该计算机执行上述方法实施例的各个步骤。

以上各实施例中提及的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。处理器可以是通用处理器、数字信号处理器(digital signal processor,DSP)、特定应用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本申请实施例公开的方法的步骤可以直接体现为硬件编码处理器执行完成，或者用编码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

上述各实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。应注意，本文描述的***和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种单目深度估计方法，其特征在于，包括：

获取待估计图像和所述待估计图像对应的第一参数，所述第一参数为拍摄所述待估计图像的相机的相机标定参数；

将所述待估计图像输入至第一神经网络模型中，获取第一神经网络模型输出的第一距离缩放法线DSN图，所述第一DSN图用于表示所述待估计图像对应的目标物体的平面的朝向和所述平面与所述相机之间的距离；

根据所述待估计图像和所述第一参数，确定第一相机滤波映射图，所述第一相机滤波映射图用于表示所述目标物体在空间中的3D点与2D平面的映射关系，所述2D平面为所述相机的成像平面；

根据所述第一DSN图和所述第一相机滤波映射图，确定所述待估计图像对应的第一深度图。
根据权利要求1所述的方法，其特征在于，所述第一神经网络模型为使用训练图像和所述训练图像对应的第二DSN图进行训练得到的，所述第二DSN图是根据所述训练图像对应的第二深度图、以及所述训练图像对应的相机标定参数确定的。
根据权利要求2所述的方法，其特征在于，所述训练图像作为初始神经网络模型的输入；

损失函数包括第一损失函数、第二损失函数或第三损失函数中至少一项，所述损失函数用于调整所述初始神经网络模型的参数，以训练得到所述第一神经网络模型；

所述第一损失函数用于表示所述第二DSN图和第三DSN图之间的误差，所述第三DSN图为所述初始神经网络模型输出的所述训练图像对应的DSN图，所述第二损失函数用于表示所述第二深度图和第三深度图之间的误差，所述第三深度图是根据所述第三DSN图和第二相机滤波映射图确定的，所述第二相机滤波映射图为根据所述训练图像对应的相机标定参数和所述训练图像确定的，所述第三损失函数用于表示所述第二深度图和第三深度图的匹配程度。
根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述待估计图像和所述第一参数，确定第一相机滤波映射图，包括：

根据所述待估计图像的像素点的位置坐标和所述第一参数，确定所述第一相机滤波映射图，所述第一相机滤波映射图包括所述像素点对应的相机滤波映射向量，所述相机滤波向量用于表示所述3D点与所述像素点的映射关系，所述像素点为所述3D点投影至所述2D平面的点。
根据权利要求4所述的方法，其特征在于，所述像素点的位置坐标包括横坐标和纵坐标，所述像素点对应的相机滤波映射向量包括第一相机滤波映射分量和第二相机滤波映射分量，所述第一相机滤波映射分量是根据所述横坐标和所述第一参数确定的，所述第二相机滤波映射分量是根据所述纵坐标和所述第一参数，或者根据所述横坐标、所述纵坐标和所述第一参数确定的。
根据权利要求5所述的方法，其特征在于，当拍摄所述待估计图像的相机的视场角小于180度时，所述第一参数包括述相机的中心坐标(c _x,c _y)和焦距(f _x,f _y)，所述第一相机滤波映射分量是根据所述横坐标和所述第一参数确定的，所述第二相机滤波映射分量是根据所述纵坐标和所述第一参数确定的；

当所述待估计图像的相机的视场角大于180度时，所述第一参数包括所述待估计图像的宽度像素值W和高度像素值H，所述第一相机滤波映射分量是根据所述横坐标和所述第一参数确定的，所述第二相机滤波映射分量是根据所述横坐标、所述纵坐标和所述第一参数确定的。
根据权利要求4至6任一项所述的方法，其特征在于，所述第一DSN图包括所述待估计图像的像素点对应的第一DSN向量，根据所述第一DSN图和所述第一相机滤波映射图，确定所述待估计图像对应的第一深度图，包括：

根据所述像素点对应的第一DSN向量和所述像素点对应的相机滤波映射向量，确定所述像素点对应的深度值；

其中，所述第一深度图包括所述像素点对应的深度值。
一种单目深度估计装置，其特征在于，包括：

获取模块，用于获取待估计图像和所述待估计图像对应的第一参数，所述第一参数为拍摄所述待估计图像的相机的相机标定参数；

距离缩放法线DSN模块，用于将所述待估计图像输入至第一神经网络模型中，获取第一神经网络模型输出的第一距离缩放法线DSN图，所述第一DSN图用于表示所述待估计图像对应的目标物体的平面的朝向和所述平面与所述相机之间的距离；

相机滤波映射模块，用于根据所述待估计图像和所述第一参数，确定第一相机滤波映射图，所述第一相机滤波映射图用于表示所述目标物体在空间中的3D点与2D平面的映射关系，所述2D平面为所述相机的成像平面；

深度估计模块，用于根据所述第一DSN图和所述第一相机滤波映射图，确定所述待估计图像对应的第一深度图。
根据权利要求8所述的装置，其特征在于，所述第一神经网络模型为使用训练图像和所述训练图像对应的第二DSN图进行训练得到的，所述第二DSN图是根据所述训练图像对应的第二深度图、以及所述训练图像对应的相机标定参数确定的。
根据权利要求9所述的装置，其特征在于，所述训练图像作为初始神经网络模型的输入；

损失函数包括第一损失函数、第二损失函数或第三损失函数中至少一项，所述损失函数用于调整所述初始神经网络模型的参数，以训练得到所述第一神经网络模型；

所述第一损失函数用于表示所述第二DSN图和第三DSN图之间的误差，所述第三DSN图为所述初始神经网络模型输出的所述训练图像对应的DSN图，所述第二损失函数用于表示所述第二深度图和第三深度图之间的误差，所述第三深度图是根据所述第三DSN图和第二相机滤波映射图确定的，所述第二相机滤波映射图为根据所述训练图像对应的相机标定参数和所述训练图像确定的，所述第三损失函数用于表示所述第二深度图和第三深度图的匹配程度。
根据权利要求8至10任一项所述的装置，其特征在于，所述相机滤波映射模块用于：

根据所述待估计图像的像素点的位置坐标和所述第一参数，确定所述第一相机滤波映射图，所述第一相机滤波映射图包括所述像素点对应的相机滤波映射向量，所述相机滤波向量用于表示所述3D点与所述像素点的映射关系，所述像素点为所述3D点投影至所述2D平面的点。
根据权利要求11所述的装置，其特征在于，所述像素点的位置坐标包括横坐标和纵坐标，所述像素点对应的相机滤波映射向量包括第一相机滤波映射分量和第二相机滤波映射分量，所述第一相机滤波映射分量是根据所述横坐标和所述第一参数确定的，所述第二相机滤波映射分量是根据所述纵坐标和所述第一参数，或者根据所述横坐标、所述纵坐标和所述第一参数确定的。
根据权利要求12所述的装置，其特征在于，当拍摄所述待估计图像的相机的视场角小于180度时，所述第一参数包括述相机的中心坐标(c _x,c _y)和焦距(f _x,f _y)，所述第一相机滤波映射分量是根据所述横坐标和所述第一参数确定的，所述第二相机滤波映射分量是根据所述纵坐标和所述第一参数确定的；

当所述待估计图像的相机的视场角大于180度时，所述第一参数包括所述待估计图像的宽度像素值W和高度像素值H，所述第一相机滤波映射分量是根据所述横坐标和所述第一参数确定的，所述第二相机滤波映射分量是根据所述横坐标、所述纵坐标和所述第一参数确定的。
根据权利要求11至13任一项所述的装置，其特征在于，所述第一DSN图包括所述待估计图像的像素点对应的第一DSN向量，所述深度估计模块用于：根据所述像素点对应的第一DSN向量和所述像素点对应的相机滤波映射向量，确定所述像素点对应的深度值；其中，所述第一深度图包括所述像素点对应的深度值。
一种单目深度估计装置，其特征在于，包括处理器和传输接口，

所述传输接口，用于获取待估计图像和所述待估计图像对应的第一参数；

所述处理器，被配置为调用存储在存储器中的程序指令，以执行如权利要求1-7中任一项所述的方法。
一种电子设备，其特征在于，包括：

图像采集器，所述图像采集器用于获取待估计图像和所述待估计图像对应的第一参数；

一个或多个处理器；

存储器，用于存储程序指令；

所述一个或多个处理器被配置为调用存储在所述存储器中的程序指令，以实现如权利要求1-7中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括计算机程序，所述计算机程序在计算机或处理器上被执行时，使得所述计算机或所述处理器执行权利要求1-7中任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，当所述计算机程序被计算机或处理器执行时，用于执行权利要求1-7中任一项所述的方法。