CN109461180A

CN109461180A - 一种基于深度学习的三维场景重建方法

Info

Publication number: CN109461180A
Application number: CN201811112829.5A
Authority: CN
Inventors: 金福生; 赵钰; 秦勇
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-03-12
Anticipated expiration: 2038-09-25
Also published as: CN109461180B

Abstract

一种基于深度学习的三维场景重建方法，属于深度学习和机器视觉技术领域。通过卷积神经网络来估计场景的深度结构，并通过多视角方法对密集结构进行细化。具体通过训练一种全卷积残差神经网络来预测深度图，再基于从不同视角拍摄的彩色图像，利用对极几何和密集优化方法来优化深度图并估计相机的姿态；最后，将优化后的深度图投影到三维空间，并通过点云进行三维可视化。能够有效解决室外三维重建的问题，并提供高质量的点云输出结果；可在任意光照条件下使用；可克服单目方法无法估计物体实际尺寸的不足。

Description

一种基于深度学习的三维场景重建方法

技术领域

本发明涉及一种基于深度学习的三维场景重建方法，特别涉及一种通过深度学习方法估计场景深度图，然后通过多视角方法优化深度图，并通过三维点云重建场景的三维重建方法，属于深度学习和机器视觉技术领域。

背景技术

在计算机视觉和计算机图形学中，三维重建是捕捉真实物体形状和外观的过程。这个过程可以通过主动或被动方法完成。

运动结构(Structure from Motion，SfM)或同时定位和映射(SimultaneousLocalization and Mapping，SLAM)被认为是一种重建场景的有效方式，因为它可以并行估计相机和场景几何结构的姿态，然而，如何获得深度图是解决三维场景重建的核心难题之一。近年来，Kinect等距离传感器所捕获的深度图在SLAM方法的研究中越来越受欢迎，因为它为识别结构信息提供了捷径。然而，由于距离传感器存在着局限性，即它们具有有限的工作范围，并且在强光条件下效果无法保证，这使得上述方法无法工作在室外环境中。

此外，深度信息也可以由单目摄像机拍摄的彩色图像的立体视角生成。这种方法首先通过使用图像块匹配技术匹配不同图像中的特定部分来重建，然后，使用对极几何或优化方法来计算相机的运动和场景的深度。由于单目相机的通用性，这些方法可以适应大多数环境，但它们有明显的局限性。首先，单目多视角方法无法估计真实世界的尺度。其次，当相机仅旋转而不进行平移时，不能估计深度信息。这两个限制是由几何约束产生，所以在不利用其他技术的情况下改进它们是非常困难的。

近年来，深度学习方法被认为是一种有前景的从单幅图像预测深度图的方法，并受到越来越多的关注。特别是，使用深度卷积神经网络(CNN)已经证明了通过预先训练的模型了解场景深度结构的潜力。这些方法主要集中在预测单幅图像与实际尺度的深度图上，但很少方法将深度神经网络的预测信息与多视角方法结合。在本发明中，我们提出了一种三维场景重建方法，其中我们通过卷积神经网络预测场景深度图，并通过多视角方法对密集结构进行细化。

发明内容

本发明的目的在于克服现有基于深度相机的三维场景重建方法存在无法在室外条件工作和基于单目相机的方法无法有效估计尺度信息的技术缺陷，提出了一种基于深度学习的三维场景重建方法。

本发明的核心思想是：通过训练一种预训练的全卷积神经网络来预测深度图，再根据从不同视角拍摄的彩色图像，利用对极几何和密集优化方法来优化深度图并估计相机的姿态；最后，将优化后的深度图投影到三维空间，并通过点云进行三维可视化。

本发明的目的是通过以下技术方案实现的：

步骤一：通过彩色相机拍摄图像；

步骤二：根据步骤一中拍摄的图像，通过预先训练过的卷积神经网络，估计场景的三维深度结构，得到二维深度图；

步骤2.1将输入的三通道图像转化为神经网络中可以使用的张量，即将图像数据由三维转化为4维；

步骤2.2将经步骤2.1转化后得到的张量输入神经网络，神经网络通过该张量预测图像中场景的三维深度结构；

其中，神经网络采用全卷积神经网络结构，即其中只包含卷积层和反卷积层；常见的卷积神经网络中往往包含全连接层、池化层和卷积层；

常见的网络中，全连接层需要将图像张量转化为向量，这个过程中，二维图像结构被转化为1维向量，像素间的空间关系因此损失，导致图像的深度估计不准确；

同时，全连接层要求输入特定大小的向量，即图像张量的有确定的大小，这导致神经网络只能处理特定大小的图像；

步骤一中使用全卷积神经网络结构只是用卷积层和反卷积层，卷积层的输入为多维张量，不需要将图像转化为向量，这保持了像素间的空间关系；卷积层和反卷积层可以处理任意大小的张量，即神经网络可以处理任意大小的图像；

步骤2.3将神经网络得到的张量转化为深度图,神经网络输出的结果为多维张量，需要将张量转化为二维深度图；

步骤三：移动相机从不同视角拍摄图像；

步骤四：根据对极几何关系，估计相机的位置变化；

当***获取到场景不同视角的图像时，首先需要估计拍摄过程中相机的位置变化，估计具体通过PnP(Perspective-n-Point)方法以及本质矩阵方法两种中的一种进行，两种方法的核心思想都是通过提取不同视角图像中的特征点并进行匹配得到匹配点，根据匹配点位置的几何关系计算相机的位置变化；其中PnP方法需要现有的深度信息，而本质矩阵方法不需要现有的深度信息；

步骤4.1提取不同视角的图片中的特征点，具体采用计算机视觉中的AKAZE特征算子，在图像中提取特征点，并计算描述子；

步骤4.2根据步骤4.1特区的特征点和描述子，对特征点进行匹配，最终得到一组匹配点；

步骤4.3根据步骤4.2得到的匹配点，通过PnP算法以及本质矩阵方法两者之一估计相机位置变化；

当步骤2输出的二维深度图有效时，PNP算法估计相机位置，具体为：

获取三组以上的匹配点，根据步骤二预测得到的二维深度图，通过求解PnP算法估计相机位置变化，并通过随机抽样一致性(Random Sample Consensus,RANSAC)算法排除匹配错误的匹配点；

当步骤2输出的二维深度图无法使用时，采用本质矩阵方法估计相机位置，具体为：

获取八组以上的匹配点，通过八点法求解相机位置变化的基本矩阵，之后结合相机内部参数计算相机的位置变化；

步骤五：根据相机的位置变化，通过稠密匹配方法匹配不同图像中的像素点，以此优化步骤二中估计得到的深度图，具体为：

步骤5.1计算各像素的光度误差.设步骤四中得到的相机位置变化为T，Ir为参考图像，Im为目标图像，K为相机参数，u为对应点在目标图像中的像素坐标，d为对应点的深度，T为相机的运动量，函数Π为投影函数，即将三维空间点投影至二位平面，则对应的误差E可以表示为：

r＝I_r(u)-I_m(Π(KTΠ^-1(u,d)))

步骤5.2通过高斯牛顿优化方法优化误差项E。首先，求解误差项对于深度的偏导数：

其中，G为各点的权重，A为投影函数的雅可比矩阵，q为相机运动的李代数形式，θ为相机运动的角度，a为参考深度。则迭代式可表示为：

由此进行迭代直至误差小于0.05；

步骤六：重复步骤三到步骤五，从不同视角拍摄物体，并进行估计，直至物体需要重建的所有视角均被拍摄；

步骤七：将不同视角拍摄的图像根据空间关系建立图结构，并通过图优化方法进行全局优化,具体为：

步骤7.1建立各视角的位置节点；构建图优化结构，将不同视角拍摄的图片作为图中的节点，节点内容包括图片本身和拍摄相机的位置与姿态信息；

步骤7.2建立各视角的关系边，即分别计算不同视角间相机的，并作为关系边添加进入优化图结构；

其中，关系边连接的节点为不同的相机位置，数据为相机位置关系；

其中，图优化结构中的关系边代表了不同节点之间的位置关系，即不同视角间相机的位置关系；

步骤7.3对图优化结构进行优化，具体为：调用图优化工具提供的优化算法，调整节点位置，找到误差最小的位置关系，作为对图优化结构进行优化的结果，即不同视角拍摄时的相机位置；

步骤八：将多个视角的深度图投影至三维空间，并通过三维点云进行可视化，具体为：

步骤8.1将单张深度图的深度信息转化为三维点；设相机的焦距为fx与fy，相机的中心位置为cx与cy，对应点的深度为d，对于像素点(u.v)则其对应的三维坐标为：

x＝(u-cx)*d/fx

y＝(v-cy)*d/fy

z＝d

其中，(x,y,z)是深度为d处的三维坐标；

步骤8.2将不同视角的三维点融合；

由步骤七得到的相机位置为T，步骤8.1得到的三维坐标为P_local＝[x,y,z]^T,则该点的全局坐标为：

P_global＝TP_local

步骤8.3将所有的三维点导入点云，并调用点云工具中的滤波算法，以去除重复的点；

步骤8.4将点云进行可视化，即通过界面显示。

有益效果

本发明一种基于深度学习的三维场景重建方法，通过卷积神经网络来估计场景的深度结构，与现有的基于深度相机的重建技术相比，具有如下有益效果：

1.本方法通过深度神经网络预测场景的深度结构，并通过多视角方法优化其深度结构，最终通过点云对场景进行显示；

2.本发明采用的方法有效的克服了传统方法中深度相机无法在室外使用，单目相机无法估计尺寸的问题，能够有效解决室外三维重建的问题，并提供高质量的点云输出结果；

3.本发明采用的方法可以在任意光照条件下使用；

4.相对于传统单目视觉方法，本发明采用的方法可以克服单目方法无法估计物体实际尺寸的不足，同时在相近仅旋转时仍可以估计场景的深度结构。

附图说明

图1为基于深度学习的三维重建算法流程图；

图2为全卷积深度神经网络结构图。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明，同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

实施例1

本实施例1使用的神经网络包含了28个神经层，其结构如附图2中所示。本实施例具体实施步骤如图1所示，从图1可以看出，本发明所述方法包含如下步骤：

步骤A：初始化优化图；

具体到本实施例，即初始化图优化工具g2o，选择使用的求解器和优化算法；

步骤B：拍摄彩色图像；

具体到本实施例，通过彩色相机拍摄图像；

通过彩色相机拍摄场景的照片，照片内容的场景结构尽量明确。对应的图片通过USB端口传输至程序；

步骤C：估计场景深度；

具体到本实施例，即根据步骤A中拍摄的图像，通过预先训练过的卷积神经网络，估计场景的深度结构；

通过图2预先训练的神经网络，对图像的深度结构进行估计。神经网络程序采用tensor flow神经网络构建工具，首先建立一个神经网络session，将神经网络结构导入session，并将步骤一中获得的图像传入神经网络。通过卷积神经网络，可以预测得到场景的深度结构；

步骤D：移动相机从不同视角拍摄图像；

由于从单个视角预测的深度图存在误差，需要从不同视角获取图像；具体到本实施例，移动相机，从不同的视角拍摄要重建的场景；

步骤E：估计相机的位置变化；

具体到本实施例，即根据对极几何关系，通过PnP或本质矩阵方法，计算相机间的位置关系；本发明使用opencv完成特征点的匹配。通过opencv提取AKAZE特征点，并计算描述子；之后通过match函数对特征点进行匹配。

得到匹配的特征点后，通过PnP或本质矩阵方法，计算相机间的位置变化；计算过程由opencv完成，即将对应的点与匹配关系导入opencv求解函数，并通过RANSAC算法对特征点进行筛选，过滤匹配错误的点，最终得到相机位置变化；

步骤F：优化深度结构；

具体到本实施例，根据相机的位置变化，稠密匹配不同图像中的像素点，以此优化步骤B中估计得到的深度图；

本步骤中，使用直接匹配的优化方法来优化深度图，首先建立优化函数，并计算各像素点的深度信息误差，之后根据高斯牛顿方法对深度信息误差进行最小化，最终得到精确的深度信息。

步骤G：建立新关键帧；

具体到本实施例，即根据步骤B估计深度的图片和深度图建立关键，其中包含了图片、深度图和拍摄相机的位置变化；

步骤H：将关键帧加入有画图；

具体到本实施例，将步骤G中建立的关键帧加入步骤A中初始化的优化图中，调用g2o提供的工具添加节点和关系边；

步骤I：根据图结构进行图优化；

具体到本实施例，将不同视角拍摄的图像根图优化，通过g2o提供的图优化方法进行全局优化，以优化相机间的位置关系首先根据观测视角定义节点，并根据之前步骤求解得到的位置信息设置节点的位置信息；之后根据不同视角间的位置信息，定义优化边，边的两端连接不同的节点，边自身存储节点间的位置关系；最后，调用优化器对图结构进行优化，调整节点的位置与边的长度，最终得到精确的位置关系。

步骤J：将多个视角的深度图投影至三维空间，并通过三维点云进行可视化；

具体到本实施例，本发明使用通用的点云工具PCL进行点云重建；首先将深度信息根据上文所述的公式转化为三维点，并计算不同视角中三维点的全局坐标；之后将所有的三维点导入点云，并调用点云库的点云滤波函数对点云进行处理；最终，通过窗口将三维场景通过点云展示出来。

Claims

1.一种基于深度学习的三维场景重建方法，其特征在于：核心思想是：通过训练一种预训练的全卷积神经网络来预测深度图，再根据从不同视角拍摄的彩色图像，利用对极几何和密集优化方法来优化深度图并估计相机的姿态；最后，将优化后的深度图投影到三维空间，并通过点云进行三维可视化；

包括如下步骤：

步骤一：通过彩色相机拍摄图像；

步骤二：根据步骤一中拍摄的图像，通过预先训练过的卷积神经网络，估计场景的三维深度结构，得出二维深度图；

其中，神经网络采用全卷积神经网络结构，此全卷积神经网络结构中只包含卷积层和反卷积层；

步骤三：移动相机从不同视角拍摄图像；

步骤四：根据对极几何关系，估计相机的位置变化；

当***获取到场景不同视角的图像时，首先需要估计拍摄过程中相机的位置变化，估计具体通过PnP(Perspective-n-Point)方法以及本质矩阵方法两种中的一种进行，两种方法的核心思想都是通过提取不同视角图像中的特征点并进行匹配得到匹配点，根据匹配点位置的几何关系计算相机的位置变化；

其中，PnP方法需要现有的深度信息，而本质矩阵方法不需要现有的深度信息；

步骤5.1计算各像素的光度误差，设步骤四中得到的相机位置变化为T，Ir为参考图像，Im为目标图像，K为相机参数，u为对应点在目标图像中的像素坐标，d为对应点的深度，T为相机的运动量，函数Π为投影函数，即将三维空间点投影至二位平面，则对应的误差E可以表示为：

r＝I_r(u)-I_m(Π(KTΠ^-1(u，d)))

步骤5.2通过高斯牛顿优化方法优化误差项E，具体为:

首先，求解误差项对于深度的偏导数：

其中，G为各点的权重，A为投影函数的雅可比矩阵，q为相机运动的李代数形式，θ为相机运动的角度，a为参考深度；则迭代式可表示为：