CN113160298A

CN113160298A - 一种深度真值获取方法、装置、***及深度相机

Info

Publication number: CN113160298A
Application number: CN202110347156.7A
Authority: CN
Inventors: 兰富洋; 袁正刚; 杨鹏; 王兆民; 黄源浩; 肖振中
Original assignee: Orbbec Inc
Current assignee: Orbbec Inc
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-23
Anticipated expiration: 2041-03-31
Also published as: CN113160298B

Abstract

本申请适用于计算机视觉和相机标定技术领域，提供了一种深度真值获取方法、装置、***及深度相机，该深度真值获取方法包括：获取双目相机和目标相机各自的内参，双目相机外参，以及所述双目相机中任一相机与目标相机的外参；当开启目标相机时，获取目标场景的目标图像；当开启双目相机和投影模块，且旋转和/或平移投影模块时，获取多对目标场景的左目图像和右目图像；计算目标场景的多对左目图像和右目图像的视差，并计算融合视差图；根据融合视差图计算目标场景的深度信息，并利用目标相机的内参和外参获取目标相机的深度真值。本申请实施例可以便捷地生成与目标设备中成像器件逐像素对齐的高精度深度图。

Description

一种深度真值获取方法、装置、***及深度相机

技术领域

本发明属于计算机视觉和相机标定技术领域，尤其涉及一种深度真值获取方法、装置、***及深度相机。

背景技术

为了获得更为优质的三维信息和解决传统三维测量方法中难以克服的一些问题，越来越多的三维测量方法开始使用深度学习算法计算深度。如利用深度学习从单幅RGB图像或灰度图像中重构场景三维信息，解决间接飞行时间(indirect time-of-flight，iToF)测量中多路径和散射等效应导致的深度错误问题等。然而深度学习需要大量的数据和深度的真值(ground truth)作为训练样本，训练样本数量和深度真值的精度直接决定了深度学习算法的最终表现。

发明内容

有鉴于此，本发明实施例提供了一种深度真值获取方法、装置、***及深度相机，能够解决相关技术中的一个或多个技术问题。

第一方面，本申请一实施例提供了一种深度真值获取方法，包括：

获取双目相机和目标相机各自的内参，双目相机外参，以及所述双目相机中任一相机与目标相机的外参；

当开启目标相机时，获取目标场景的目标图像；当开启双目相机和投影模块，且旋转和/或平移投影模块时，获取多对目标场景的左目图像和右目图像；

计算目标场景的多对左目图像和右目图像的视差，并计算融合视差图；

根据融合视差图计算目标场景的深度信息，并利用目标相机的内参和外参获取目标相机的深度真值。

本实施例便捷地生成与目标设备中成像器件逐像素对齐的高精度深度图。在实际应用中，可以便捷、准确地为深度学习算法提供深度真值训练样本。

作为第一方面的一种实现方式，所述深度真值获取方法还包括：

将所述目标图像和所述深度真值作为一组训练样本，获取不同目标场景下的多组训练样本，利用所述多组训练样本训练神经网络模型，获得经训练的神经网络模型。

作为第一方面的另一种实现方式，所述计算目标场景的多对左目图像和右目图像的视差，并计算融合视差图，包括：

针对目标场景的每对左目图像和右目图像计算视差，获得视差图；

融合多帧所述视差图，获得融合视差图。

作为第一方面的另一种实现方式，所述根据融合视差图计算目标场景的深度信息，并利用目标相机的内参和外参获取目标相机的深度真值，包括：

利用所述融合视差图计算目标场景的深度信息；

将所述深度信息转换为点云数据，并基于目标相机的内参和外参，将所述点云数据投影至目标相机的成像平面上；

根据投影至目标相机的成像平面的点云数据，计算目标相机获取的深度真值。

作为第一方面的另一种实现方式，所述获取双目相机和目标相机各自的内参，双目相机外参，以及所述双目相机中任一相机与目标相机的外参，包括：

分别获取不同姿态的标定板的左目标定图像、右目标定图像和目标相机的目标标定图像；

利用双目相机获取的左目标定图像和右目标定图像对双目相机进行极线校正；

利用目标相机获取的目标标定图像，计算目标相机与双目相机中任一目相机的外参。

作为第一方面的另一种实现方式，所述当开启目标相机时，获取目标场景的目标图像；当开启双目相机和投影模块，且旋转和/或平移投影模块时，获取多对目标场景的左目图像和右目图像，包括：

仅开启目标相机，通过目标相机获取目标场景的目标图像；

关闭目标相机，开启双目相机和投影模块，在旋转和/或平移投影模块的过程中，通过双目相机采集目标场景的多对左目图像和右目图像。

第二方面，本申请一实施例提供了一种深度真值获取装置，包括：

标定模块，用于获取双目相机和目标相机各自的内参，双目相机外参，以及所述双目相机中任一相机与目标相机的外参；

图像获取模块，用于当开启目标相机时，获取所述目标相机采集的目标场景的目标图像；当开启双目相机和投影模块，且旋转和/或平移投影模块时，获取所述双目相机采集的多对目标场景的左目图像和右目图像；

视差计算模块，用于计算目标场景的多对左目图像和右目图像的视差，并计算融合视差图；

深度真值计算模块，用于根据融合视差图计算目标场景的深度信息，并利用目标相机的参数获取目标相机的深度真值。

作为第二方面的一种实现方式，还包括：

训练模块，用于将所述目标图像和所述深度真值作为一组训练样本，获取不同目标场景下的多组训练样本，利用所述多组训练样本训练神经网络模型，获得经训练的神经网络模型。

作为第二方面的另一种实现方式，所述视差计算模块，具体用于：

融合多帧所述视差图，获得融合视差图。

作为第二方面的另一种实现方式，所述深度真值计算模块，具体用于：

利用所述融合视差图计算目标场景的深度信息；

作为第二方面的另一种实现方式，所述标定模块，具体用于：

作为第二方面的另一种实现方式，所述图像获取模块，具体用于：

仅开启目标相机，通过目标相机获取目标场景的目标图像；

作为第二方面的另一种实现方式，还包括：

操纵执行模块，用于控制操纵模块驱动投影模块旋转和/或平移。

第三方面，本申请一实施例提供了一种深度真值获取***，包括双目相机、目标相机和投影模块，所述深度真值获取***还包括如第二方面或第二方面任一实现方式所述深度真值获取装置。

作为第三方面的一种实现方式，所述深度真值获取***还包括：操纵模块，所述操纵模块用于驱动所述投影模块旋转和/或平移。

第四方面，本申请一实施例提供了一种深度相机，包括采集模块及处理模块，

所述采集模块，用于采集目标区域的第一图像；

所述处理模块，包括经训练的训练单元，所述处理模块用于利用所述第一图像和所述训练单元获取所述目标区域的深度真值；

其中，所述训练单元为预先利用如第一方面或第一方面任一实现方式所述深度真值获取方法获取的目标图像作为训练样本训练的神经网络模型。

作为第四方面的一种实现方式，所述深度相机还可以包括投影模块，所述投影模块用于向目标区域投射红外光束，所述采集模块用于采集经所述目标区域反射回的红外光束并生成红外图像，所述处理模块用于利用所述红外图像和所述训练单元获取所述目标区域的深度真值。

可以理解的是，上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种深度真值获取***的结构示意图；

图2是本申请一实施例提供的一种处理单元的结构示意图；

图3是本申请一实施例提供的一种深度真值获取***的结构示意图；

图4是本申请一实施例提供的一种投影模块旋转前后的场景示意图；

图5是本申请一实施例提供的在激光投影旋转前后场景物体散斑分布变化示意图；

图6是本申请一实施例提供的一种深度真值获取方法的实现流程示意图；

图7是本申请一实施例提供的一种深度真值获取方法步骤S610的具体实现流程示意图；

图8是本申请一实施例提供的一种深度真值获取方法步骤S620的具体实现流程示意图；

图9是本申请一实施例提供的一种深度真值获取方法步骤S630的具体实现流程示意图；

图10是本申请一实施例提供的目标设备(即目标相机)默认输出的图像与对应的深度真值的示意图；

图11是本申请一实施例提供的一种深度真值获取方法步骤S640的具体实现流程示意图；

图12是本申请一实施例提供的一种深度真值获取装置的示意图；

图13是本申请一实施例提供的一种深度真值获取装置的示意图；

图14是本申请一实施例提供的一种深度相机的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本申请说明书中描述的“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

此外，在本申请的描述中，“多个”的含义是两个或两个以上。术语“第一”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

还应当理解，除非另有明确的规定或限定，术语“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是直接相连，也可以是通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

图1为本申请一实施例提供的一种深度真值获取***的结构示意图，深度真值获取***包括双目相机11、目标相机12、投影模块13和处理单元14，其中，双目相机11包括左目相机(或称为左相机或左摄像头)和右目相机(或称为右相机或右摄像头)，左目相机采集左目图像，右目相机采集右目图像；目标相机12用于采集目标场景的目标图像；投影模块13用于向目标场景投影光信号；处理单元14可以用于对双目相机11和目标相机12进行开关控制、标定、校正以及后续处理，并通过有线和/或无线网络与双目相机11和目标相机12进行通信。

在一个实施例中，目标相机12可以包括iToF相机、直接飞行时间(direct time-of-flight，dToF)相机、彩色相机或黑白相机等具有成像功能的成像器件。本申请实施例对目标相机的类型不作限制。本申请所称“目标相机”并非为某一或某种特定相机。更一般地，本申请所描述的术语“目标”仅用于区分描述，并不意在限制本申请。目标相机采集的目标图像可以是深度图像、或二维(twodimensional，2D)图像等。2D图像例如黑白图像、或彩色图像等。彩色图像可以是例如RGB图像等。

在一个实施例中，投影模块13可以包括边发射激光器(edge emitting laser，EEL)、垂直腔面发射激光器(vertical cavity surface emitting laser，VCSEL)等光源，也可以包括多个光源组成的光源阵列或投影仪等。光源所发射的光束可以是可见光、红外光、紫外光等。投影模块所投影的光束可以在目标场景上形成均匀、随机、或者特殊设计的强度分布投影图案。

在图1所示实施例中，处理单元14为计算机。在其他一些实施例中，处理单元14可以包括手机、平板电脑、笔记本电脑、上网本、个人数字助理(personal digitalassistant，PDA)等电子设备，本申请实施例对处理单元14的具体类型不作任何限制。

在本申请一些实施例中，如图2所示，处理单元可以包括一个或多个处理器20(图2中仅示出一个)，存储器21以及存储在存储器21中并可在一个或多个处理器20上运行的计算机程序22，例如，获取深度真值的程序。一个或多个处理器20执行计算机程序22时可以实现后述深度真值获取方法实施例中的各个步骤。或者，一个或多个处理器20执行计算机程序22时可以实现后述各深度真值获取装置实施例中各模块/单元的功能，此处不作限制。

本领域技术人员可以理解，图2仅仅是处理单元的示例，并不构成对处理单元的限定。处理单元可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如处理单元还可以包括输入输出设备、网络接入设备、总线等。

在一个实施例中，所称处理器20可以是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在一个实施例中，存储器21可以是处理单元的内部存储单元，例如处理单元的硬盘或内存。存储器21也可以是处理单元的外部存储设备，例如处理单元上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，存储器21还可以既包括处理单元的内部存储单元也包括外部存储设备。存储器21用于存储计算机程序以及处理单元所需的其他程序和数据。存储器21还可以用于暂时地存储已经输出或者将要输出的数据。

本申请一实施例还提供了处理单元14的另一种优选的实施例，在本实施例中，处理单元包括一个或多个处理器，该一个或多个处理器用于执行存储在存储器的以下程序模块：标定模块、图像获取模块、视差计算模块、深度真值计算模块，其中：

标定模块，用于获取双目相机和目标相机各自的内参，双目相机外参，以及所述双目相机中任一相机与目标相机的外参。

图像获取模块，用于当开启目标相机时，获取目标相机采集的目标场景的目标图像；当开启双目相机和投影模块，且旋转和/或平移投影模块时，获取双目相机采集的多对目标场景的左目图像和右目图像。

视差计算模块，用于计算目标场景的多对左目图像和右目图像的视差，并计算融合视差图。

深度真值计算模块，用于根据融合视差图计算目标场景的深度信息，并利用目标相机的参数获取目标相机的深度真值

在一些实施例中，处理单元可以独立于双目相机和目标相机，参见图1所示实施例。在其他一些实施例中，处理单元可以集成于双目相机和目标相机中的至少一个。也就是说，在其他一些实施例中，双目相机和/或目标相机自身的一个或多个处理器在执行计算机程序时可以实现后述深度真值获取方法实施例中的一个或多个步骤。或者，双目相机和/或目标相机自身的一个或多个处理器在执行计算机程序时可以实现后述各深度真值获取装置实施例中一个或多个模块/单元的功能。

在前述深度真值获取***实施例的基础上，在其他一些实施例中，深度真值获取***还包括操纵模块。此处以在图1所示实施例的基础上进行改进为例进行说明，如图3所示，深度真值获取***还包括操纵模块15，操纵模块15与投影模块13连接，用于控制投影模块旋转和/或平移以对目标场景进行扫描。操纵模块15通过有线和/或无线网络与处理单元14进行通信。处理单元14可以用于控制操纵模块15驱动投影模块13进行步进旋转和/或平移。图3所示实施例与图1所示实施例相同之处，此处不再赘述。图3所示实施例可以通过操纵模块驱动投影模块旋转和/或平移，依靠旋转和/或移动的投影模块投射图案以对目标场景进行扫描。

在一些实现方式中，操纵模块可以包括步进电机和/或驱动马达。步进电机和/或驱动马达连接投影模块13。当投影模块需要进行旋转时，处理单元14可以控制步进电机旋转，进而带动连接步进电机的投影模块进行步进旋转。当投影模块需要进行平移时，处理单元14可以控制驱动马达移动，进而带动连接驱动马达的投影模块平移。

作为一示例而非限定，投影模块的旋转示例可以参见如图4所示示例，在本示例中，投影模块采用激光投影，投影模块的光轴旋转一定角度，投影模块旋转前后，投射到场景物体上的散斑分布发生了平移，如图5所示，进而使双目相机采集的左目图像和右目图像中的散斑位置发生变化，便于获取多对目标场景的左目图像和右目图像。

需要说明的是，在其他一些实现方式中，也可以采用手动旋转和/或手动平移投影模块(或激光)的方式对目标场景进行扫描。应理解，在这些实现方式中，深度真值获取***不一定设有操纵模块，例如深度真值获取***可以包括图1或图3所示的结构。

图6是本发明一实施例提供的一种深度真值获取方法的实现流程示意图，本实施例中的深度真值获取方法可由电子设备执行，电子设备包括但不限于计算机、手机或相机等。作为示例而非限定，深度真值获取方法可应用于图1或图3所示的深度真值获取***，深度真值获取方法可由图1、图2、或图3所示实施例中的处理单元执行。本实施例中的深度真值获取方法适用于需要获取场景深度真值的情形，可以包括如图6所示的步骤S610至步骤S640。

S610，获取双目相机和目标相机各自的内参，双目相机外参，以及所述双目相机中任一相机与目标相机的外参。

通过对***进行标定，获取双目相机的内参K_s，获取目标相机的内参K，双目相机外参，以及双目相机中任一相机(左目相机或右目相机)与目标相机之间的外参数R和T。其中，R为旋转矩阵，T为平移矩阵。

在一些实现方式中，如图7所示，步骤S610包括步骤S611至S613。

S611，分别获取不同姿态的标定板的左目标定图像、右目标定图像和目标相机的目标标定图像。

具体地，双目相机和目标相机固定于标定板前方，利用双目相机和目标相机分别获取不同姿态的标定板的左目标定图像、右目标定图像和目标标定图像。针对某个姿态的标定板，双目相机与目标相机可同时采集该姿态的标定板的左目标定图像、右目标定图像和目标标定图像；双目相机与目标相机亦可时序采集标定板的左目标定图像、右目标定图像和目标标定图像，此处不作限制。

在一个实施例中，可通过改变标定板的位置和/或角度改变标定板的姿态。不同姿态的标定板可为图像提供丰富的坐标信息。应当理解的是，标定板可以包括圆点、棋盘格或编码图案等，本申请对此不作限制。

S612，利用双目相机获取的左目标定图像和右目标定图像对双目相机进行极线校正。

利用双目相机获取的不同姿态的左目标定图像和右目标定图像，对双目相机进行极线校正。

在一些实施例中，选择左目标定图像为参考图像，根据对应的右目标定图像的坐标信息与左目标定图像的映射关系，获取双目相机的内、外参数。在其他一些实施例中，选择右目标定图像为参考图像，根据对应的左标定图像的坐标信息与右目标定图像的映射关系，获取双目相机的内、外参数。应理解的是，的是，双目相机的左目相机和右目相机同时采集的左目标定图像和右目标定图像为对应的图像。

进一步地，根据双目相机的内、外参数，对双目相机进行极线校正。经过极线校正可以确保双目相机的左目相机和右目相机的光轴相互平行，左目相机和右目相机的成像平面与双目相机的基线互相平行。需要说明的是，极线校正的方法包括但不限于Bouguet算法、哈特利(Hartley)算法等，此处不作限制。

S613，利用目标相机获取的目标标定图像，计算目标相机与双目相机中任一目相机的外参。

在一些实施例中，利用目标相机获取目标标定图像，选择双目相机中左目相机获取的左目标定图像为参考图像，根据目标标定图像与左目标定图像的映射关系，获取目标相机与左目相机之间的外参数。

在其他一些实施例中，选择双目相机中右目相机获取的右目标定图像为参考图像，根据目标相机标定图像与右目标定图像的映射关系，获取目标相机与右目相机的外参数。

S620，当开启目标相机时，获取目标场景的目标图像；当开启双目相机和投影模块，且旋转和/或平移投影模块时，获取多对目标场景的左目图像和右目图像。

具体地，在开启目标相机时，通过目标相机获取目标场景的目标图像，此时并未开启双目相机和投影模块。在开启双目相机和投影模块，且旋转或平移投影模块时，通过双目相机获取多对目标场景的左目图像和右目图像。通过旋转和/或平移投影模块，扫描目标场景，获取多对目标场景的左目图像和右目图像。

在一些实现方式中，可以通过操纵模块旋转和/或平移投影模块，在投影模块步进旋转和/或平移的过程中，利用双目相机同步采集目标场景的左目图像和右目图像。在另一些实现方式中，可以手动旋转和/或平移投影模块，在每次旋转和/或平移投影模块后，利用双目相机同步采集目标场景的左目图像和右目图像。

在一些实现方式中，如图8所示，步骤S620包括步骤S621至S622。

S621，仅开启目标相机，通过目标相机获取目标场景的目标图像。

仅开启目标相机时，双目相机和投影模块处于关闭状态，且目标相机与目标场景保持相对静止。

S622，关闭目标相机，开启双目相机和投影模块，在旋转和/或平移投影模块的过程中，通过双目相机采集目标场景的多对左目图像和右目图像。

关闭目标相机，开启投影模块和双目相机，投影模块以预设角度步进旋转和/或以预设长度步进平移，以使投影模块投影可对目标场景进行扫描，投影模块步进旋转和/或平移一次，双目相机同步曝光一次对目标场景进行图像采集，获取一对左目图像和右目图像。优选地，投影模块向目标场景投影散斑，双目相机采集目标场景的左目散斑图像和右目散斑图像。

应当理解的是，预设角度可满足投影模块每旋转一次使双目相机采集的左、右目散斑图像中各自散斑平移一个散斑所占像素数。投影模块的旋转次数可根据具体的情况进行具体设计，在一些实施例中投影模块旋转N次，即可采集N对左、右目散斑图像。

同理，预设长度可满足投影模块每平移一次使双目相机采集的左、右目散斑图像中各自散斑平移一个散斑所占像素数。投影模块的平移次数可根据具体的情况进行具体设计，在一些实施例中投影模块平移N次，即可采集N对左、右目散斑图像，其中，N可以取大于或等于20的任一整数，例如30，50甚至100等。本申请对N的取值不作限制。

在其他一些实施例中，进一步地，为采集足够数量的训练样本用于深度学习，可多次改变目标场景，并针对每个目标场景，重复上述步骤S620(或步骤S621至S622)，就可以获得多个不同目标场景下的训练样本。

S630，计算目标场景的多对左目图像和右目图像的视差，并计算融合视差图。

在一些实施例中，如图9所示，S630包括步骤S631至S632。

S631，针对目标场景的每对左目图像和右目图像计算视差，获得视差图。

需要说明的是，经过极线校正的双目相机，其左目相机和右目相机的光轴相互平行，并且，成像平面与基线相互平行。因此，双目相机采集的左、右目图像，当已知某一像素点在左目图像(或右目图像)中的位置信息时，只需在右目图像(或左目图像)中等像素行的位置中寻找匹配点，可以将搜索范围从二维缩小到一维，加快了匹配速度，也提高了匹配的准确性。

在一些实施例中，经过极线校正后，双目相机采集左、右目散斑图像，根据左目散斑图像中的像素与右目散斑图像中对应的匹配像素的坐标信息进行视差计算可以获得视差值。

作为一非限制性示例，以左目散斑图像为参考图像，遍历左目散斑图像的所有像素，获取完整视差图。作为另一非限制性示例，以右目散斑图像为参考图像，遍历右目散斑图像的所有像素，获取完整视差图。

投影模块旋转一次，采集一对左、右目散斑图像，根据该对左、右目散斑图像可获取一帧视差图。投影模块旋转多次，可获取多帧视差图。例如，投影模块旋转N次，可获取N帧视差图。

同理，投影模块平移一次，采集一对左、右目散斑图像，根据该对左、右目散斑图像可获取一帧视差图。例如，投影模块平移N次，可获取N帧视差图。

应当理解的是，本申请对数据生成的实时性不高，因此还可以采用基于半全局匹配和互信息的立体处理(stereo processing by semi-global matching and mutualinformation，SGBM)或图割(graph cuts，GC)等效果佳的立体匹配方法进行视差计算，本申请不作限制。

S632，融合多帧视差图，获得融合视差图。

在一些实施例中，可以利用均值法融合多帧视差图，获得融合视差图。作为一非限制性示例，假设投影模块旋转N次分别对应的N帧视差图中的某一像素的视差依次为d₁、d₂、…、d_N，则该像素的融合视差为：

进一步地，若N帧视差图的视差矩阵中存在某一帧某一像素对应的视差值为无效数值，则在求取该像素的融合视差时需要对N进行减一操作。以N帧视差图中的任一帧视差图作为参考图像，遍历参考图像的每一个像素，获取融合视差图。

需要说明的是，在其他一些实施例中，视差融合还可以采用取中值法或双边权重等方法，本申请不作限制。

应当理解的是，获取融合视差图前，还可以对视差进行优化，利用左右一致性剔除视差图中的不可信点。

S640，根据融合视差图计算目标场景的深度信息，并利用目标相机的参数获取目标相机的深度真值。

根据融合视差图计算目标场景的深度信息，并利用目标相机的参数获取目标相机视角下的目标场景的深度真值。这样，就得到了目标图像对应的深度真值。

作为一非限制性示例，如图10所示为目标设备(即目标相机)默认输出的图像与对应的深度真值的示意图。如图10所示，图10中的左图表示目标设备默认输出的某一场景的二维图像，例如RGB图像或灰度图像。图10中的右图表示该场景的二维图像所对应的深度真值。

在一些实施例中，如图11所示，步骤S640可以包括步骤S641至S643。

S641，利用融合视差图计算目标场景的深度信息。

在一些实施例中，假设双目相机的左目相机与右目相机之间的距离为b，双目相机的焦距为f，融合视差图上某一像素的视差为d，则根据视差计算该像素的深度信息为：

遍历融合视差图上的每个像素，即可获取目标场景的完整深度信息。

S642，将深度信息转换为点云数据，并基于目标相机的内、外参数，将点云数据投影至目标相机的成像平面上。

作为一非限制性示例，将深度信息转换为点云数据的计算方法为：

其中，(x_s,y_s,z_s)为双目相机坐标系下的点云三维坐标，z为每个像素上的深度，(u,v)为像素坐标，(u₀,v₀)为图像主点坐标，dx和dy为双目相机传感器像元在两个方向上的物理尺寸，f’为焦距(单位为毫米)。

将步骤S641获取的深度信息转换为点云数据，并基于步骤S610获取的目标相机的内、外参数，即K、R和T，将点云数据投影至目标相机的成像平面上，获取目标相机视角下对应的点云数据。

S643：根据投影至目标相机的成像平面的点云数据，计算目标相机获取的深度真值。

根据投影至目标相机的成像平面的点云数据，计算目标相机获取的目标场景的深度信息，并以此深度信息作为目标相机的深度真值。

作为一非限制性示例，根据投影至目标相机的成像平面的点云数据，计算目标相机获取的深度真值的方法为：

其中，K为目标相机的内参，R和T为双目相机中任一相机与目标相机的外参数，(u,v)为步骤S642中的点云数据映射到目标相机后所对应的像素坐标，z_c为目标相机坐标系下点云的深度值。根据像素坐标对z_c进行插值即可得到与目标相机的目标图像对应的深度真值。

在前述实施例的基础上，通过步骤S610至S640，获取了目标相机的目标场景的目标图像，以及目标图像对应的深度真值。进一步地，在其他一些实施例中，目标图像以及对应的深度真值，可以作为一组训练数据，针对多个不同的场景，就可以获得多组训练数据，多组训练数据构成训练样本。利用训练样本训练神经网络模型，获取神经网络模型的权重参数，得到经训练的神经网络模型。经训练的神经网络模型可以部署于电子设备，电子设备例如计算机、手机或相机等，在应用时，电子设备可以根据某一相机或摄像头获得的某一区域或场景的成像图像，利用经训练的神经网络模型得到该区域或场景的深度图像。

本申请实施例利用目标相机获取目标场景的目标图像，并将其作为神经网络模型的输入，通过学习目标图像对应的深度真值，获取神经网络模型的权重参数。应当理解的是，经过上述步骤S610至S640，目标相机可依据双目相机获取不同场景的深度真值，利用目标相机获取不同场景的图像，利用神经网络模型学习不同场景的深度真值，可对神经网络模型的权重参数进行更新迭代，以确保目标相机获取的图像输入该神经网络模型后，可获取精度高的深度图像。

神经网络模型可以是例如卷积神经网络模型，全连接神经网络模型等，本申请对此不予限制。

相关技术中，深度学习需要大量的训练数据(例如图像)和深度真值(groundtruth)作为训练样本，训练样本数量和深度真值的精度直接决定了深度学习算法的最终表现。本申请实施例通过简单的方法和***，能够准确、高效的获取端对端深度学习神经网络所需的训练样本。

对应于上文的深度真值获取方法，本申请一实施例还提供一种深度真值获取装置。该深度真值获取装置中未详细描述之处请详见前述方法的描述。

参见图12，图12是本发明实施例提供的一种深度真值获取装置的示意框图。作为一个示例，所述深度真值获取装置配置于图1或图2所示的处理单元，所述处理单元连接双目相机、投影模块和目标相机。

所述深度真值获取装置包括：标定模块1201、图像获取模块1202、视差计算模块1203、深度真值计算模块1204。

标定模块1201，用于获取双目相机和目标相机各自的内参，双目相机外参，以及所述双目相机中任一相机与目标相机的外参数。

图像获取模块1202，用于当开启目标相机时，获取目标相机采集的目标场景的目标图像；当开启双目相机和投影模块，且旋转和/或平移投影模块时，获取双目相机采集的多对目标场景的左目图像和右目图像。

视差计算模块1203，用于计算目标场景的多对左目图像和右目图像的视差，并计算融合视差。

深度真值计算模块1204，用于根据融合视差图计算目标场景的深度信息，并利用目标相机的参数获取目标相机的深度真值。

可选的，作为另一示例，所述深度真值获取装置配置于图3所示实施例的处理单元，所述处理单元还连接操纵模块。如图13所示，所述深度真值获取装置还包括操纵执行模块1205，所述操纵执行模块1205用于控制所述操纵模块驱动投影模块旋转和/或平移。

可选的，如图13所示，所述深度真值获取装置还包括训练模块1206。所述训练模块1206，用于将所述目标图像和所述深度真值作为一组训练样本，获取不同目标场景下的多组训练样本，利用所述多组训练样本训练神经网络模型，获得经训练的神经网络模型。

图14为根据本发明提供的一种深度相机结构示意图，深度相机包括采集模块及处理模块，其中，采集模块，用于采集目标区域的第一图像；处理模块，包括训练单元，用于利用第一图像和训练单元获取目标区域的深度真值，其中，训练单元为经训练的神经网络模型，更具体地为，利用采集模块采集的目标图像，根据上述深度真值获取方法，以目标图像作为训练样本训练神经网络模型，获得经训练的神经网络模型。

在一个实施例中，深度相机还可以包括投影模块，投影模块用于向目标区域投射红外光束，采集模块用于采集经目标区域反射回的红外光束并生成红外图像，处理模块用于利用红外图像和训练单元获取目标区域的深度真值。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种电子设备，该电子设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意深度真值获取方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个深度真值获取方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备可实现上述各个深度真值获取方法实施例中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种深度真值获取方法，其特征在于，包括：

2.如权利要求1所述的深度真值获取方法，其特征在于，还包括：

3.如权利要求1或2所述的深度真值获取方法，其特征在于，所述计算目标场景的多对左目图像和右目图像的视差，并计算融合视差图，包括：

融合多帧所述视差图，获得融合视差图。

4.如权利要求1或2所述的深度真值获取方法，其特征在于，所述根据融合视差图计算目标场景的深度信息，并利用目标相机的内参和外参获取目标相机的深度真值，包括：

利用所述融合视差图计算目标场景的深度信息；

5.一种深度真值获取装置，其特征在于，包括：

6.如权利要求5所述的深度真值获取装置，其特征在于，还包括：

7.如权利要求5或6所述的深度真值获取装置，其特征在于，还包括：

8.一种深度真值获取***，其特征在于，包括双目相机、目标相机和投影模块，所述深度真值获取***还包括如权利要求5至7任一项所述的深度真值获取装置。

9.如权利要求8所述的深度真值获取***，其特征在于，还包括：操纵模块，所述操纵模块用于驱动所述投影模块旋转和/或平移。

10.一种深度相机，其特征在于，包括采集模块及处理模块，

所述采集模块，用于采集目标区域的第一图像；

其中，所述训练单元为预先利用权利要求1至5任一项的深度真值获取方法获取的目标图像作为训练样本训练的神经网络模型。

11.如权利要求10所述的深度相机，其特征在于，所述深度相机还包括投影模块，所述投影模块用于向目标区域投射红外光束，所述采集模块用于采集经所述目标区域反射回的红外光束并生成红外图像，所述处理模块用于利用所述红外图像和所述训练单元获取所述目标区域的深度真值。