CN108389226A

CN108389226A - 一种基于卷积神经网络和双目视差的无监督深度预测方法

Info

Publication number: CN108389226A
Application number: CN201810144465.2A
Authority: CN
Inventors: 刘波; 杨青相
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2018-08-10

Abstract

本发明公开一种基于卷积神经网络和双目视差的无监督深度预测方法，包括以下步骤：首先，使用卷积神经网络拟合一个非线性函数，将两幅RGB图像转换为对应的深度图像；然后，利用深度信息计算从左图像像素坐标经过变换得到在右图像的像素位置；在得到右图像的像素位置后经过双线性插值得到右图像的像素坐标和对应的像素值；最后利用求得像素值和左图像对应的像素值计算预测损失。通过这种不需要任何真实深度信息的训练可以得到相应的深度图像。该方法在不需要任何真实深度信息预测相应的深度图像。

Description

一种基于卷积神经网络和双目视差的无监督深度预测方法

技术领域

本发明属于深度学习技术领域，尤其涉及一种基于卷积神经网络和双目视差的无监督深度预测方法，应用于自动驾驶，距离估计。

背景技术

人类在很短的时间内可以非常容易的推断出自己的运动和一个场景的三维结构。例如,在街上行走时我们很容易发现障碍物并迅速做出反应避开障碍物。但是计算机想要完成上面的任务是非常复杂的，计算机在重建真实世界场景方面的能力是远不如人类的，尤其是处理遮挡和缺乏纹理的情况。

人类之所以能够在这些任务中比计算机做的更好。一种合理的假设是我们通过对世界的认知，包括四处走动和大量观察发展了我们对场景结构的理解。我们从数百万次这样的观察中了解到关于世界的规律是：路是平坦的，建筑物是直的，汽车是在路上面。当你观察一个新的场景时，就应用这些规律进行判断。在这个工作中我们通过训练一个模型来模拟这种方法，通过训练一组左右相机拍摄RGB图像来解释相机运动和场景结构。

近些年随着深度学习的广泛应用，特别是在卷积神经网络(CNN)应用在图像领域取得巨大成功后。研究人员意识到CNN因为能够捕获复杂和隐式的关系，所以它在图像领域取得了较好的效果。并且因为有ImageNet这样非常大的人工标注数据集的存在，有监督的深度学习方法成功解决了非常多的问题。

然而，现如今卷积神经网络比较明显的缺点是需要使用大量人工标记的数据来训练。对于ImageNet这样庞大的人工标记数据集一方面需要消耗大量的人力物力，另一方面在标记过程中也很容易出现错误。尤其对于采集户外场景的深度信息往往需要昂贵的硬件和认真细致的采集。尽管有KITTI这种使用了先进的3D传感器和多个校准过的摄像机采集的数据集，但是其采集的可靠深度仍然只在有限的范围内，并且采集成本较高。

现如今通过有监督的方法训练CNN进行深度预测的方法都是使用如NYUv2和KITTI这样的数据集通过RGB图像和其对应的深度图训练而成。但是，这些有监督的方法所学习的网络并没有在它们的直接应用领域之外推广。究其原因是如果将训练好的单视图深度估计模型应用到另一个场景，需要使用另一场景的RGB图像和其对应的深度图像，并且需要重新训练网络。

发明内容

为了解决上述存在的问题，本发明提出一种基于卷积神经网络和双目视差的无监督深度预测方法，在不需要任何真实深度信息的情况下训练卷积神经网络。

为实现上述目的，本发明采用如下的技术方案：

一种基于卷积神经网络和双目视差的无监督深度预测方法，包括以下步骤：

步骤1、使用卷积神经网络拟合一个非线性函数，将左右相机采集两幅RGB图像转换为对应的深度图像；

步骤2、利用深度信息计算从左图像像素坐标经过变换得到在右图像的像素位置；

步骤3、在得到右图像的像素位置后经过双线性插值得到右图像的像素坐标和对应的像素值；

步骤4、利用求得像素值和左图像对应的像素值计算预测损失。

本发明通过这种不需要任何真实深度信息的训练，可以得到相应的深度图像。该方法在不需要任何真实深度信息预测相应的深度图像。

附图说明

图1方法流程图；

图2本发明使用的卷积神经网络结构图；

图3a、图3b、图3c为测试结果效果图，其中，图3a为左图像，图3b为右图像，图3c为深度图。

具体实施方式

以下将结合附图和实施例对本发明作进一步详细说明。

本发明提供一种基于卷积神经网络和双目视差的无监督深度预测方法，在不需要任何真实深度信息的情况下训练卷积神经网络；为了训练卷积神经网络，使用KITTI数据集中通过左右彩色相机获取的一对RGB图像作为训练数据集；这些数据比校准过的RGB图像和其对应的真实深度图像更容易获取。

本发明使用一个CNN来模拟复杂的非线性变换，它利用左右图像的视差来将左右两幅RGB图像转换为对应的深度图。

描述发明方法所用符号如下:

I_L I_R	左右图像
		K_L K_R	左右相机对应的内参矩阵
T	左右相机之间的外参矩阵
		p_L p_R	左右图像对应的像素坐标
I_D	通过CNN预测出来的深度图
		I_w	通过双线性插值新生成的图像
q₀ q₁ q₂ q₃	表示旋转矩阵的四元素
		X_L Y_L Z_L	左相机坐标系三维坐标
X_R Y_R Z_R	右相机坐标系三维坐标

本发明的流程图如图1所示，包括四个步骤：

步骤1：将两幅RGB图像转换为对应的深度图像。

本发明使用如图2所示的卷积神经网络。网络层的前五层和Alexnet网络的前五层非常类似，我们将Alexnet网络的全链接层替换为全卷积层，最后我们使用五层的反卷积层进行上采样。

网络层名称依次为：左卷积层1，左卷积层2，右卷积层1，右卷积层2，通道合并层，卷积层3，卷积层4，卷积层5，全卷积层，反卷积层1，反卷积层2，反卷积层3，反卷积层4，反卷积层5。

我们使用左卷积层1和左卷积层2对左图像进行特征提取。同理我们使用右卷积层1和右卷积层2对右图像进行图像特征提取。然后，我们对左右图像提取的特征，在channels维度进行通道合并。为了提高我们神经网络的拟合能力，我们对于通道合并后产生的结果再依次进行：卷积层3，卷积层4，卷积层5，全卷积层。最后为了进行上采样我们对卷积层5产生的结果依次进行：反卷积层1，反卷积层2，反卷积层3，反卷积层4，反卷积层5。

我们使用如上所述的卷积神经网络拟合一个非线性函数:

D(I_L,I_R)＝I_D

我们使用这个卷积神经网络来将两幅RGB图像I_L和I_R转换为对应的深度图像I_D。

步骤2：利用深度信息计算投影位置。

首先将左图像的像素坐标变换到左相机的相机坐标，然后再将左相机的相机坐标变换到右相机的相机坐标，最后将右相机的相机坐标投影为右图像的像素位置。整个过程公式可表示为：

步骤2.1：左图像像素坐标逆变换到左相机坐标系。

将左图像的像素坐标变换到左相机的相机坐标，用公式表示为：

X_L＝I_D(p_L)(u_L-u_L0)/k_Lx

Y_L＝I_D(p_L)(v_L-v_L0)/k_Ly

Z_L＝I_D(p_L)

其中，u_L,v_L为图像的像素横纵坐标，u_L0，v_L0，k_Lx，k_Ly为相机的内参数，并且f_x和f_y为相机焦距。

步骤2.2：左相机坐标系变换到右相机坐标系。

通过旋转平移矩阵进行坐标系变换，用公式表示为：

其中，旋转矩阵用四元素可以表示为：

并且，四元素需要满足约束条件：

步骤2.3：右相机坐标系投影到右像素位置。

将右相机坐标通过投影变换为右像素位置，用公式表示为：

步骤3：对于求取的位置利用双线性插值转换为像素坐标。

步骤2中右相机投影得到的右像素位置(u_R，v_R)是连续值，我们用来表示投影后得到的右像素位置，用公式表示为：为了获得更好的像素填充效果，我们使用双线性插值的方法，使用四个像素邻域的值(左上角，右上角，左下角和右下角)的像素值进行插值。用公式可表示为：

其中，分别表示的四个像素邻域(左上角，右上角，左下角和右下角)的像素坐标；可以通过和之间的空间线性距离求取，并且满等式约束关系

步骤4：计算预测损失

本发明使用的重建损失函数计算方法，参考绝对值损失函数公式，公式表达式如下：

由于这种损失函数的梯度主要来源于周围四个领域的像素强度差。如果预测位置位于弱纹理位置将会出现几乎没有梯度的问题，或者预测位置和真实位置距离较大像素差过大出现梯度过大的情况。并且为了使出现的深度图更平滑，我们使用简单的L2正则化方法来约束深度图像的梯度公式表达如下：

我们最终的损失函数表示为：

其中，n为图像数量；λ是超参数，作为正则化的系数来调节正则化的强度。

实施例1：

本发明以英伟达GPU作为计算平台，使用caffe深度学习框架作为CNN框架。具体实施步骤如下：

步骤1：数据集准备。

我们使用KITTI公开数据集训练我们的神经网络，该数据集使用安装在移动车辆上的一对黑白摄像机，一对彩色相机，一个激光雷达来采集几个户外场景。我们使用11月26当天，同一车辆采集属于城镇，居住区，道路的场景数据中左右彩色相机采集的数据作为我们的训练数据。我们将左右相机采集的RGB原始图像降采样成160x608分辨率作为我们的神经网络输入。

训练集由13855个左右图像对组成，我们使用500个带有真实深度信息的数据作为测试集来评估我们的结果。

步骤2：构建卷积神经网络。

我们使用如图2所示的网络结构，其中网络层名称依次为：左卷积层1，左卷积层2，右卷积层1，右卷积层2，通道合并层，卷积层3，卷积层4，卷积层5，全卷积层，反卷积层1，反卷积层2，反卷积层3，反卷积层4，反卷积层5。

我们使用左卷积层1和左卷积层2对左图像进行特征提取。同理，我们使用右卷积层1和右卷积层2对右图像进行图像特征提取。然后，我们对左右图像提取的特征，在channels维度进行通道合并。为了提高我们神经网络的拟合能力，我们对于通道合并后产生的结果再依次进行：卷积层3，卷积层4，卷积层5，全卷积层。最后为了进行上采样我们对卷积层5产生的结果依次进行：反卷积层1，反卷积层2，反卷积层3，反卷积层4，反卷积层5。

所述左卷积层1和左卷积层2卷积核大小分别为：11*11大小和5*5大小，左卷积层1和左卷积层2输出特征图数量分别为：96个和256个，对应的右卷积层1和右卷积2与其相同。通道合并层我们使用caffe框架提供的concat层。卷积层3，卷积层4和卷积层5卷积核大小均为：3*3大小，其特征图输出数量分别为：384个，384个和256个。全卷积层我们使用1024个1*1大小的卷积核。五层反卷积层卷积核大小均为：4*4大小，输出特征图数量均为：1个。

步骤3：初始化左右相机的内外参数。

在训练我们的神经网络求取深度信息时，我们需要合理的初始化左右相机的内外参数，才能求解到较好的深度信息初始化过程如下：

相机内参数初始化：其中我们初始化u_L0，v_L0为我们降采样后的输入图像尺寸的一半，分别为304，80。同样的为了求解方便我们初始化右图像相应的参数u_R0，v_R0为304,80。我们初始化对应的k_Lx，k_Ly分别为950，950。同理初始化k_Rx，k_Ry为同样的值。

相机外参数初始化：因为我们使用的数据集两幅图像间的移动主要体现在水平方向上的平移，所以我们初始化对应的外参矩阵时，将旋转矩阵初始化为单位矩阵，初始化平移矩阵时只初始化水平方向的移动其他方向的移动初始化为0。我们旋转矩阵需要满足复杂的约束条件我们使用四元素表示单位矩阵，并且由于四元数需要满足等式约束：所以我们初始化四元数为q₀＝1，q₁＝0，q₂＝0，q₃＝0，我们初始化平移矩阵中的参数t_x,t_y,t_z分别为50,0,0。

我们使用上述初始化的相机内外参数来训练我们的神经网络。

步骤4：神经网络的训练和网络参数的设置。

在训练卷积神经网络时，我们每次读入7个图像对作为一个批次。我们使用SGD以0.9的动量和0.0005的权重衰减对网络进行优化。我们把RGB三个通道的减去对应的均值(104，117，123)，然后除以255使左右图像像素值分布在区间[-0.5,0.5]之间。在损失函数中我们设置超参数λ为0.05。

为了节省训练时间，在训练过程中我们使用Ravi Garg等人训练40000次的model中部分权值开始我们的训练。

具体实施步骤叙述完毕,效果如图3a、图3b、图3c所示。下面给出本发明的一个测试结果。实验环境为：GPU：TITAN，CUDA 7.5版本，使用KITTI数据集进行测试并与有监督单目预测的几种方法进行比较。我们用以下评估方法评估我们的结果：

结果对比：

其中c⁷和f分别表示Eigen方法的粗网络和精细网络。

我们基于卷积神经网络和双目视觉的无监督深度预测方法，相比较有监督的方法在准确率上相差并不是很大，还有比较大的发展空间和研究意义。

Claims

1.一种基于卷积神经网络和双目视差的无监督深度预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于卷积神经网络和双目视差的无监督深度预测方法，其特征在于，步骤1具体为：

所述卷积神经网络包括依次为：左卷积层1、左卷积层2、右卷积层1、右卷积层2、通道合并层、卷积层3、卷积层4、卷积层5、全卷积层、反卷积层1、反卷积层2、反卷积层3、反卷积层4、反卷积层5；其中，使用左卷积层1和左卷积层2对左图像进行特征提取。同理使用右卷积层1和右卷积层2对右图像进行图像特征提取；然后，对左右图像提取的特征，在channels维度进行通道合并；对于通道合并后产生的结果再依次进行：卷积层3，卷积层4，卷积层5，全卷积层；最后为了进行上采样对卷积层5产生的结果依次进行：反卷积层1，反卷积层2，反卷积层3，反卷积层4，反卷积层5；

使用如上所述的卷积神经网络拟合一个非线性函数:

D(I_L,I_R)＝I_D

使用这个卷积神经网络来将两幅RGB图像I_L和I_R转换为对应的深度图像I_D。

3.如权利要求1所述的基于卷积神经网络和双目视差的无监督深度预测方法，其特征在于，步骤2中，首先将左图像的像素坐标变换到左相机的相机坐标，然后再将左相机的相机坐标变换到右相机的相机坐标，最后将右相机的相机坐标投影为右图像的像素位置，整个过程公式可表示为：

具体包括：

步骤2.1：左图像像素坐标逆变换到左相机坐标系

X_L＝I_D(p_L)(u_L-u_L0)/k_Lx

Y_L＝I_D(p_L)(v_L-v_L0)/k_Ly

Z_L＝I_D(p_L)

其中，u_L,v_L为图像的像素横纵坐标，u_L0，v_L0，k_Lx，k_Ly为相机的内参数，并且f_x和f_y为相机焦距；

步骤2.2：左相机坐标系变换到右相机坐标系

通过旋转平移矩阵进行坐标系变换，用公式表示为：

其中，旋转矩阵用四元素可以表示为：

并且，四元素需要满足约束条件：

步骤2.3：右相机坐标系投影到右像素位置

将右相机坐标通过投影变换为右像素位置，用公式表示为：

4.如权利要求1所述的基于卷积神经网络和双目视差的无监督深度预测方法，其特征在于，步骤3具体为：

步骤2中右相机投影得到的右像素位置(u_R，v_R)是连续值，采用来表示投影后得到的右像素位置，用公式表示为：使用双线性插值的方法，使用四个像素邻域的值(左上角，右上角，左下角和右下角)的像素值进行插值，采用公式可表示为：

5.如权利要求1所述的基于卷积神经网络和双目视差的无监督深度预测方法，其特征在于，步骤4具体为：

使用的重建损失函数计算方法，参考绝对值损失函数公式，公式表达式如下：

损失函数的梯度来源于周围四个领域的像素强度差，为了使出现的深度图更平滑，使用简单的L2正则化方法来约束深度图像的梯度公式表达如下：

最终的损失函数表示为：