CN111105432B

CN111105432B - 基于深度学习的无监督端到端的驾驶环境感知方法

Info

Publication number: CN111105432B
Application number: CN201911345900.9A
Authority: CN
Inventors: 陈宗海; 洪洋; 王纪凯; 戴德云; 赵皓; 包鹏; 江建文
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-04-07
Anticipated expiration: 2039-12-24
Also published as: CN111105432A

Abstract

本发明公开了一种基于深度学习的无监督端到端的驾驶环境感知方法，包括：利用双目相机进行图像采集，并通过预处理获得训练数据；利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割；利用三个网络的输出结果进行刚性配准，来优化位姿估计网络的输出；利用深度估计网络的输出，以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流，并与光流估计网络的输出进行流一致性检查，从而进行运动分割。上述方法采用无监督的端到端框架不需要真值深度、位姿和光流作为标签监督训练，并且能够获得具有绝对尺度的相机位姿和稠密的深度图估计，从而可以以较高的精度分割出动态物体。

Description

基于深度学习的无监督端到端的驾驶环境感知方法

技术领域

本发明涉及智能驾驶技术领域，尤其涉及一种基于深度学习的无监督端到端的驾驶环境感知方法。

背景技术

从视频图像中学习三维场景几何结构、场景流以及机器人相对于刚性场景的运动是计算机视觉中的重要研究内容，并且已经在许多不同领域有着广泛应用，包括自动驾驶、机器人导航和视频分析等。然而，当前基于深度学习的环境感知方法都是监督型的学习框架，获取用于训练的真值标签是非常困难的。近年来，在利用卷积神经网络方法进行深度、光流和位姿的无监督学习方面，已经取得了许多进展。这些方法都有各自的优点和局限性。无监督的深度学习方法利用场景的几何结构并将问题分解为多个正交的问题，可以利用更多的时间图像帧或立体图像信息向解决方案中添加更多约束。一方面，当前基于深度学习的光流、深度与位姿估计方法假设整个场景是静态的，因此难以处理运动物体。另一方面，光流法原则上可以处理运动物体，但是在复杂结构区域和遮挡区域中存在困难。

中国专利《利用深度学习对视频序列中单目视图深度估计优化方法》(公开号：CN108765479A)利用深度学习对视频序列中单目视图深度估计优化，但这种基于单目视觉的方法具有尺度不确定性，因此估计的深度尺度未知，不具有实际应用价值。

中国专利《一种基于深度卷积网络的双目深度估计方法》(公开号：CN109598754A)利用双目图像来训练深层卷积神经网络来进行深度估计，但是训练过程中需要真值深度作为标签参与训练，然而在实际环境中获得真值深度是非常困难且昂贵的。

中国专利《一种基于无监督学习的单目视觉定位方法》(公开号：CN109472830A)利用无监督学习的方法进行单目视觉定位，但是单目视觉定位存在尺度不确定性和尺度漂移，定位精度差，且定位的尺度不确定性，在实际环境中没有工程价值。

因此，目前基于深度学习的驾驶环境感知方法中依然存在的问题如下：

1)使用单目图片序列训练的深度估计和位姿估计深度学习模型，受限于单目尺度不确定性及尺度漂移，所估计的深度及位姿尺度未知，不具有实际应用价值；

2)当前基于深度学习的深度估计、位姿估计和光流估计方法需要真值监督训练，但是现实环境中真值数据获取非常困难且需要高昂的代价；

3)实际驾驶环境中动态物体非常常见，当前基于深度学习的环境感知方法并没有考虑动态物体的影响，精度有待进一步提高。

发明内容

本发明的目的是提供一种基于深度学习的无监督端到端的驾驶环境感知方法，采用无监督的端到端框架不需要真值深度、位姿和光流作为标签监督训练，并且能够获得具有绝对尺度的相机位姿和稠密的深度图估计，从而可以以较高的精度分割出动态物体。

本发明的目的是通过以下技术方案实现的：

一种基于深度学习的无监督端到端的驾驶环境感知方法，包括：

利用双目相机进行图像采集，并通过预处理获得训练数据；

利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割；

训练完毕后，对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准，来优化位姿估计网络的输出；利用深度估计网络的输出，以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流，并与光流估计网络的输出进行流一致性检查，从而进行运动分割。

由上述本发明提供的技术方案可以看出，训练数据仅需要双目RGB图像，数据获取非常简单；采用统一的框架，能够同时学习光流、深度、位姿和运动分割，模型的训练过程简单直接，需要调整的参数非常少、场景迁移能力强；模型适应性好，能够以无监督端到端的方式学习光流及具有绝对尺度的深度和位姿等环境的几何信息，由于估计的光流、位姿和深度精度较高，可以以较高的精度分割出动态物体。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于深度学习的无监督端到端的驾驶环境感知方法的流程图；

图2为本发明实施例提供的一种基于深度学习的无监督端到端的驾驶环境感知方法的框架图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于深度学习的无监督端到端的驾驶环境感知方法，如图1～图2所示，分别为该方法的流程图与框架图。该方法主要包括：

1、利用双目相机进行图像采集，并通过预处理获得训练数据。

本发明实施例中，应用于驾驶环境感知，因而双目相机安装在车辆上，用于采集环境图像。

在输入网络训练之前，为了减少训练时间并降低计算代价和硬件消耗，对双目相机采集到的原始图像进行缩放，并且相应的相机内参也同时进行缩放。

此外，还应用数据增强方法来提高模型泛化性能并减轻过拟合，通过上述方式产生训练数据，每次训练提取两个连续的大小相同的立体图像对输入至网络进行训练。两个连续的大小相同的立体图像对记为L₁、R₁、L₂与R₂；其中，L₁、R₁对应的表示在t₁时刻的左、右图像，L₂、R₂对应的表示t₂时刻的左、右图像，其宽、高记为W、H。

本发明实施例中，数据增强方法，包括使用如下一个或多个方式进行数据增强：

使用亮度因子y对输入的单目图像进行随机校正；

按比例因子s_x和s_y沿X轴和Y轴对图像进行缩放，然后将图像随机裁剪为指定尺寸；

将图像随机旋转r度，并使用最近邻方法插值；

随机左右翻转以及随机时间顺序切换(交换t₁和t₂)。

示例性的，可采用如下设置γ∈[0.7，1.3]，s_x∈[1.0，1.2]，s_y∈[1.0，1.2]，r∈[-5，5]；指定尺寸可以设为：832×256。

2、利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割。

本步骤中，所述利用训练数据中两个连续的大小相同的立体图像训练光流估计网络、位姿估计网络、深度估计网络以及运动分割主要分为如下两个阶段：

第一阶段：利用训练数据中连续的大小相同的立体图像对训练光流估计网络，再同时训练位姿估计网络和深度估计网络。

在本阶段中，首先，利用两个连续左图像L₁与L₂以及设计的光流损失函数

训练光流估计网络，光流估计网络的输出为两个连续的大小相同的左图像L₁与L₂之间的光流

其维度和输入图像相同。

所述光流损失函数

包括：遮挡感知重建损失项

和平滑损失项

是基于结构相似性(structural similarity，SSIM)的损失和非封闭区域上的绝对光度差损失之间的加权平均值，

是移动区域上光流的边缘加权二阶导数的平均绝对值，将在一致性损失部分中提供对静态区域上的光流的约束。

其中，ψ(.)表示遮挡感知重建损失函数，α表示调节系数，O₁表示非遮挡区域，M₁表示损失掩模，N为归一化系数(也即移动区域的像素数量)；

表示根据L₁、L₂之间的光流

并结合L₂重建的左图像，并记为

e表示自然对数，(i，j)表示像素位置，

指沿图像x或者y方向的求导操作，其平方表示求二阶导，a指图像的x或y方向，用于指示求导的方向，β为权重，是一个定值。

然后，同时训练位姿估计网络和深度估计网络：

利用两个连续左图像L₁与L₂以及设计的刚性流损失函数

训练位姿估计网络，位姿估计网络输出为两个连续左图像L₁与L₂之间的相对相机位姿T₁₂；利用两个连续的大小相同的立体图像对L₁、R₁、L₂与R₂以及立体损失

训练深度估计网络，深度估计网络的输出为立体图像对之间的视差d，利用立体相机基线B和水平焦距f_x，通过视差d计算绝对尺度深度D＝Bf_x/d，将计算出的绝对尺度深度记为D_1，2。

所述立体损失

与monodepth相同。

所述刚性流损失

是在静态区域中应用于

和

的重建损失项：

其中，O₁表示非遮挡区域，M₁表示损失掩模；

表示根据刚性流

并结合L₂重建的两个左图像，记为

刚性流

通过绝对尺度深度D_1，2与位姿T₁₂计算得到(假设整个场景是静态的)，刚性流

通过绝对尺度深度D_1，2与优化后的位姿T′₁₂计算得到(T′₁₂的计算方式请参见后文)。

将

包含在损失中，因为刚性配准模块是不可微分的，需要

来监督训练位姿估计网络。

第二阶段：利用训练数据中连续的大小相同的立体图像对同时训练光流估计网络、位姿估计网络、深度估计网络以及运动分割。

本阶段，利用两个连续的大小相同的立体图像对L₁、R₁、L₂与R₂、光流损失

立体损失

刚性流损失

以及流一致性损失

同时训练光流估计网络、位姿估计网络、深度估计网络、刚性配准模块和流一致性检查模块。

本阶段训练光流估计网络、位姿估计网络、深度估计网络与第一阶段训练过程相同，输出结果也相同，不再赘述。区别在于，本阶段还结合三个网络的输出同时训练运动分割，由于这部分在测试阶段与训练阶段原理都是相同的，为了避免赘述，将在后文进行介绍。基于这一训练策略，可以避免网络在训练过程中产生的梯度消失问题。

可选地，光流估计网络可以采用PWC-Net框架，PWC-Net在端到端的可训练深度神经网络中融合了几种经典的光流估计技术，包括图像金字塔，变形和成本量，以实现最先进的结果。位姿估计网络可以采用基于循环卷积神经网络(RCNN)的框架，经CNN提取的特征输入到两层卷积LSTM(ConvLSTM)输出6-DoF位姿，由平移p＝(t_x，t_y，t_z)和旋转角

组成。深度估计网络可采用基于ResNet50的编码器和解码器架构，网络可以估计出与输入原始RGB图像大小相同的稠密深度图。

3、训练完毕后，对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准，来优化位姿估计网络的输出；利用深度估计网络的输出，以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流，并与光流估计网络的输出进行流一致性检查，从而进行运动分割。

1)刚性配准模块。

通过刚性配准模块，使用光流估计网络输出的光流

以及通过深度估计网络输出的视差d计算得到的绝对尺度深度D_1，2，来优化位姿估计网络输出的位姿T₁₂，得到优化后的位姿T′₁₂。

在刚性配准期间，将2D图像空间中的点转换为3D点云，公式为：

Q_k(i，j)＝D_k(i，j)K^-1P_k(i，j)，k＝1，2

其中，P_k(i，j)是图像L_k的(i，j)位置处的像素的齐次坐标，K是相机内参，D_k(i，j)是图像L_k的(i，j)位置处的绝对尺度深度，Q_k(i，j)是图像L_k的(i，j)位置处像素的对应3D坐标；

利用位姿T₁₂将3D点云Q1转换为3D点云

(

可以理解为在t₂时刻的L₁中的点的3D坐标构建成的点云)；并且，利用双线性采样方法，根据光流

将3D点云Q₂变形回到t₁时刻来获得相应的3D点云

通过变形步骤建立对应，使得

对应于

其中，W、H分别表示图像的宽、高；

分别表示光流

在x、y轴的分量；

如果一切都非常准确，则

应该等于场景的静态和非遮挡区域中的

因此，首先使用

的反向光流

估计非遮挡的区域O₁，然后通过严格对齐这两个非遮挡区域点云来重新确定位姿估计。具体的，通过最小化所选区域R中

和

之间的距离来估计改善姿势ΔT：

其中，区域R为

和

对应的非遮挡区域之间的最小距离排序的前R％(例如，25％)；通过这样做，试图排除移动区域中的点，因为它们往往在

和

之间具有更大的距离。通过组合T₁₂和ΔT可以获得优化后的位姿T′₁₂：

T′₁₂＝ΔT×T₁₂。

2)流一致性和运动分割。

通过优化后的位姿T′₁₂，可以计算由摄像机运动引起的刚性流的公式为：

其中，K是相机内参，P₁表示L₁中像素的齐次坐标；

如果

和

部是准确的，它们的值应该在静态区域匹配并且在移动区域中不同。在刚性流

和

之间执行一致性检查，如果两个刚性流流之间的差异大于阈值δ，则相应区域被标记为移动前景M¹，并且图像的其余部分被标记为静态背景M⁰，故图像损失掩模为M₁：

因O₁为

在遮挡区域中不太准确，可能导致误报，故默认估计的移动区域位于非遮挡区域。

在静态区域比

更准确。因此，使用

来指导学习

使用以下流一致性损失_con：

其中，SG表示停止梯度，

为由摄像机运动引起的刚性流，N为归一化系数。

基于上述方式，图2所示模型的总损失为：

上式中，λ为相应损失项的权重系数。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于深度学习的无监督端到端的驾驶环境感知方法，其特征在于，包括：

利用双目相机进行图像采集，并通过预处理获得训练数据；

训练完毕后，对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准，来优化位姿估计网络的输出；利用深度估计网络的输出，以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流，并与光流估计网络的输出进行流一致性检查，从而进行运动分割；

其中，利用双目相机进行图像采集，并通过预处理获得训练数据包括：首先，对双目相机采集到的原始图像进行缩放，并且相应的相机内参也同时进行缩放；然后，通过数据增强方法，产生训练数据；所述数据增强方法，包括使用如下一种或多种方式进行数据增强：使用亮度因子γ对输入的单目图像进行随机校正；按比例因子s_x和s_y沿X轴和Y轴对图像进行缩放，然后将图像随机裁剪为指定尺寸；将图像随机旋转r度，并使用最近邻方法插值；随机左右翻转以及随机时间顺序切换；

所述利用训练数据中两个连续的大小相同的立体图像训练光流估计网络、位姿估计网络、深度估计网络以及运动分割包括：首先，利用训练数据中连续的大小相同的立体图像对训练光流估计网络，再同时训练位姿估计网络和深度估计网络；然后，利用训练数据中连续的大小相同的立体图像对同时训练光流估计网络、位姿估计网络、深度估计网络以及运动分割；

两个连续的大小相同的立体图像对记为L₁、R₁、L₂与R₂；其中，L₁、R₁对应的表示在t₁时刻的左、右图像，L₂、R₂对应的表示L₂时刻的左、右图像；

利用两个连续左图像L₁与L₂以及设计的光流损失函数