CN111105432B - 基于深度学习的无监督端到端的驾驶环境感知方法 - Google Patents

基于深度学习的无监督端到端的驾驶环境感知方法 Download PDF

Info

Publication number
CN111105432B
CN111105432B CN201911345900.9A CN201911345900A CN111105432B CN 111105432 B CN111105432 B CN 111105432B CN 201911345900 A CN201911345900 A CN 201911345900A CN 111105432 B CN111105432 B CN 111105432B
Authority
CN
China
Prior art keywords
estimation network
pose
depth
image
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911345900.9A
Other languages
English (en)
Other versions
CN111105432A (zh
Inventor
陈宗海
洪洋
王纪凯
戴德云
赵皓
包鹏
江建文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201911345900.9A priority Critical patent/CN111105432B/zh
Publication of CN111105432A publication Critical patent/CN111105432A/zh
Application granted granted Critical
Publication of CN111105432B publication Critical patent/CN111105432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度学习的无监督端到端的驾驶环境感知方法,包括:利用双目相机进行图像采集,并通过预处理获得训练数据;利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割;利用三个网络的输出结果进行刚性配准,来优化位姿估计网络的输出;利用深度估计网络的输出,以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流,并与光流估计网络的输出进行流一致性检查,从而进行运动分割。上述方法采用无监督的端到端框架不需要真值深度、位姿和光流作为标签监督训练,并且能够获得具有绝对尺度的相机位姿和稠密的深度图估计,从而可以以较高的精度分割出动态物体。

Description

基于深度学习的无监督端到端的驾驶环境感知方法
技术领域
本发明涉及智能驾驶技术领域,尤其涉及一种基于深度学习的无监督端到端的驾驶环境感知方法。
背景技术
从视频图像中学习三维场景几何结构、场景流以及机器人相对于刚性场景的运动是计算机视觉中的重要研究内容,并且已经在许多不同领域有着广泛应用,包括自动驾驶、机器人导航和视频分析等。然而,当前基于深度学习的环境感知方法都是监督型的学习框架,获取用于训练的真值标签是非常困难的。近年来,在利用卷积神经网络方法进行深度、光流和位姿的无监督学习方面,已经取得了许多进展。这些方法都有各自的优点和局限性。无监督的深度学习方法利用场景的几何结构并将问题分解为多个正交的问题,可以利用更多的时间图像帧或立体图像信息向解决方案中添加更多约束。一方面,当前基于深度学习的光流、深度与位姿估计方法假设整个场景是静态的,因此难以处理运动物体。另一方面,光流法原则上可以处理运动物体,但是在复杂结构区域和遮挡区域中存在困难。
中国专利《利用深度学习对视频序列中单目视图深度估计优化方法》(公开号:CN108765479A)利用深度学习对视频序列中单目视图深度估计优化,但这种基于单目视觉的方法具有尺度不确定性,因此估计的深度尺度未知,不具有实际应用价值。
中国专利《一种基于深度卷积网络的双目深度估计方法》(公开号:CN109598754A)利用双目图像来训练深层卷积神经网络来进行深度估计,但是训练过程中需要真值深度作为标签参与训练,然而在实际环境中获得真值深度是非常困难且昂贵的。
中国专利《一种基于无监督学习的单目视觉定位方法》(公开号:CN109472830A)利用无监督学习的方法进行单目视觉定位,但是单目视觉定位存在尺度不确定性和尺度漂移,定位精度差,且定位的尺度不确定性,在实际环境中没有工程价值。
因此,目前基于深度学习的驾驶环境感知方法中依然存在的问题如下:
1)使用单目图片序列训练的深度估计和位姿估计深度学习模型,受限于单目尺度不确定性及尺度漂移,所估计的深度及位姿尺度未知,不具有实际应用价值;
2)当前基于深度学习的深度估计、位姿估计和光流估计方法需要真值监督训练,但是现实环境中真值数据获取非常困难且需要高昂的代价;
3)实际驾驶环境中动态物体非常常见,当前基于深度学习的环境感知方法并没有考虑动态物体的影响,精度有待进一步提高。
发明内容
本发明的目的是提供一种基于深度学习的无监督端到端的驾驶环境感知方法,采用无监督的端到端框架不需要真值深度、位姿和光流作为标签监督训练,并且能够获得具有绝对尺度的相机位姿和稠密的深度图估计,从而可以以较高的精度分割出动态物体。
本发明的目的是通过以下技术方案实现的:
一种基于深度学习的无监督端到端的驾驶环境感知方法,包括:
利用双目相机进行图像采集,并通过预处理获得训练数据;
利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割;
训练完毕后,对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准,来优化位姿估计网络的输出;利用深度估计网络的输出,以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流,并与光流估计网络的输出进行流一致性检查,从而进行运动分割。
由上述本发明提供的技术方案可以看出,训练数据仅需要双目RGB图像,数据获取非常简单;采用统一的框架,能够同时学习光流、深度、位姿和运动分割,模型的训练过程简单直接,需要调整的参数非常少、场景迁移能力强;模型适应性好,能够以无监督端到端的方式学习光流及具有绝对尺度的深度和位姿等环境的几何信息,由于估计的光流、位姿和深度精度较高,可以以较高的精度分割出动态物体。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于深度学习的无监督端到端的驾驶环境感知方法的流程图;
图2为本发明实施例提供的一种基于深度学习的无监督端到端的驾驶环境感知方法的框架图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于深度学习的无监督端到端的驾驶环境感知方法,如图1~图2所示,分别为该方法的流程图与框架图。该方法主要包括:
1、利用双目相机进行图像采集,并通过预处理获得训练数据。
本发明实施例中,应用于驾驶环境感知,因而双目相机安装在车辆上,用于采集环境图像。
在输入网络训练之前,为了减少训练时间并降低计算代价和硬件消耗,对双目相机采集到的原始图像进行缩放,并且相应的相机内参也同时进行缩放。
此外,还应用数据增强方法来提高模型泛化性能并减轻过拟合,通过上述方式产生训练数据,每次训练提取两个连续的大小相同的立体图像对输入至网络进行训练。两个连续的大小相同的立体图像对记为L1、R1、L2与R2;其中,L1、R1对应的表示在t1时刻的左、右图像,L2、R2对应的表示t2时刻的左、右图像,其宽、高记为W、H。
本发明实施例中,数据增强方法,包括使用如下一个或多个方式进行数据增强:
使用亮度因子y对输入的单目图像进行随机校正;
按比例因子sx和sy沿X轴和Y轴对图像进行缩放,然后将图像随机裁剪为指定尺寸;
将图像随机旋转r度,并使用最近邻方法插值;
随机左右翻转以及随机时间顺序切换(交换t1和t2)。
示例性的,可采用如下设置γ∈[0.7,1.3],sx∈[1.0,1.2],sy∈[1.0,1.2],r∈[-5,5];指定尺寸可以设为:832×256。
2、利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割。
本步骤中,所述利用训练数据中两个连续的大小相同的立体图像训练光流估计网络、位姿估计网络、深度估计网络以及运动分割主要分为如下两个阶段:
第一阶段:利用训练数据中连续的大小相同的立体图像对训练光流估计网络,再同时训练位姿估计网络和深度估计网络。
在本阶段中,首先,利用两个连续左图像L1与L2以及设计的光流损失函数
Figure BDA0002333342950000041
训练光流估计网络,光流估计网络的输出为两个连续的大小相同的左图像L1与L2之间的光流
Figure BDA0002333342950000042
其维度和输入图像相同。
所述光流损失函数
Figure BDA0002333342950000043
包括:遮挡感知重建损失项
Figure BDA0002333342950000044
和平滑损失项
Figure BDA0002333342950000045
Figure BDA0002333342950000046
是基于结构相似性(structural similarity,SSIM)的损失和非封闭区域上的绝对光度差损失之间的加权平均值,
Figure BDA0002333342950000047
是移动区域上光流的边缘加权二阶导数的平均绝对值,将在一致性损失部分中提供对静态区域上的光流的约束。
Figure BDA0002333342950000048
Figure BDA0002333342950000049
其中,ψ(.)表示遮挡感知重建损失函数,α表示调节系数,O1表示非遮挡区域,M1表示损失掩模,N为归一化系数(也即移动区域的像素数量);
Figure BDA00023333429500000410
表示根据L1、L2之间的光流
Figure BDA00023333429500000411
并结合L2重建的左图像,并记为
Figure BDA00023333429500000412
e表示自然对数,(i,j)表示像素位置,
Figure BDA00023333429500000413
指沿图像x或者y方向的求导操作,其平方表示求二阶导,a指图像的x或y方向,用于指示求导的方向,β为权重,是一个定值。
然后,同时训练位姿估计网络和深度估计网络:
利用两个连续左图像L1与L2以及设计的刚性流损失函数
Figure BDA00023333429500000414
训练位姿估计网络,位姿估计网络输出为两个连续左图像L1与L2之间的相对相机位姿T12;利用两个连续的大小相同的立体图像对L1、R1、L2与R2以及立体损失
Figure BDA00023333429500000415
训练深度估计网络,深度估计网络的输出为立体图像对之间的视差d,利用立体相机基线B和水平焦距fx,通过视差d计算绝对尺度深度D=Bfx/d,将计算出的绝对尺度深度记为D1,2
所述立体损失
Figure BDA0002333342950000051
与monodepth相同。
所述刚性流损失
Figure BDA0002333342950000052
是在静态区域中应用于
Figure BDA0002333342950000053
Figure BDA0002333342950000054
的重建损失项:
Figure BDA0002333342950000055
其中,O1表示非遮挡区域,M1表示损失掩模;
Figure BDA0002333342950000056
表示根据刚性流
Figure BDA0002333342950000057
并结合L2重建的两个左图像,记为
Figure BDA0002333342950000058
刚性流
Figure BDA0002333342950000059
通过绝对尺度深度D1,2与位姿T12计算得到(假设整个场景是静态的),刚性流
Figure BDA00023333429500000510
通过绝对尺度深度D1,2与优化后的位姿T′12计算得到(T′12的计算方式请参见后文)。
Figure BDA00023333429500000511
包含在损失中,因为刚性配准模块是不可微分的,需要
Figure BDA00023333429500000512
来监督训练位姿估计网络。
第二阶段:利用训练数据中连续的大小相同的立体图像对同时训练光流估计网络、位姿估计网络、深度估计网络以及运动分割。
本阶段,利用两个连续的大小相同的立体图像对L1、R1、L2与R2、光流损失
Figure BDA00023333429500000513
立体损失
Figure BDA00023333429500000514
刚性流损失
Figure BDA00023333429500000515
以及流一致性损失
Figure BDA00023333429500000516
同时训练光流估计网络、位姿估计网络、深度估计网络、刚性配准模块和流一致性检查模块。
本阶段训练光流估计网络、位姿估计网络、深度估计网络与第一阶段训练过程相同,输出结果也相同,不再赘述。区别在于,本阶段还结合三个网络的输出同时训练运动分割,由于这部分在测试阶段与训练阶段原理都是相同的,为了避免赘述,将在后文进行介绍。基于这一训练策略,可以避免网络在训练过程中产生的梯度消失问题。
可选地,光流估计网络可以采用PWC-Net框架,PWC-Net在端到端的可训练深度神经网络中融合了几种经典的光流估计技术,包括图像金字塔,变形和成本量,以实现最先进的结果。位姿估计网络可以采用基于循环卷积神经网络(RCNN)的框架,经CNN提取的特征输入到两层卷积LSTM(ConvLSTM)输出6-DoF位姿,由平移p=(tx,ty,tz)和旋转角
Figure BDA00023333429500000517
组成。深度估计网络可采用基于ResNet50的编码器和解码器架构,网络可以估计出与输入原始RGB图像大小相同的稠密深度图。
3、训练完毕后,对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准,来优化位姿估计网络的输出;利用深度估计网络的输出,以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流,并与光流估计网络的输出进行流一致性检查,从而进行运动分割。
1)刚性配准模块。
通过刚性配准模块,使用光流估计网络输出的光流
Figure BDA0002333342950000061
以及通过深度估计网络输出的视差d计算得到的绝对尺度深度D1,2,来优化位姿估计网络输出的位姿T12,得到优化后的位姿T′12
在刚性配准期间,将2D图像空间中的点转换为3D点云,公式为:
Qk(i,j)=Dk(i,j)K-1Pk(i,j),k=1,2
其中,Pk(i,j)是图像Lk的(i,j)位置处的像素的齐次坐标,K是相机内参,Dk(i,j)是图像Lk的(i,j)位置处的绝对尺度深度,Qk(i,j)是图像Lk的(i,j)位置处像素的对应3D坐标;
利用位姿T12将3D点云Q1转换为3D点云
Figure BDA0002333342950000062
(
Figure BDA0002333342950000063
可以理解为在t2时刻的L1中的点的3D坐标构建成的点云);并且,利用双线性采样方法,根据光流
Figure BDA0002333342950000064
将3D点云Q2变形回到t1时刻来获得相应的3D点云
Figure BDA0002333342950000065
通过变形步骤建立对应,使得
Figure BDA0002333342950000066
对应于
Figure BDA0002333342950000067
Figure BDA0002333342950000068
Figure BDA0002333342950000069
其中,W、H分别表示图像的宽、高;
Figure BDA00023333429500000610
分别表示光流
Figure BDA00023333429500000611
在x、y轴的分量;
如果一切都非常准确,则
Figure BDA00023333429500000612
应该等于场景的静态和非遮挡区域中的
Figure BDA00023333429500000613
因此,首先使用
Figure BDA00023333429500000614
的反向光流
Figure BDA00023333429500000615
估计非遮挡的区域O1,然后通过严格对齐这两个非遮挡区域点云来重新确定位姿估计。具体的,通过最小化所选区域R中
Figure BDA00023333429500000616
Figure BDA00023333429500000617
之间的距离来估计改善姿势ΔT:
Figure BDA00023333429500000618
其中,区域R为
Figure BDA00023333429500000619
Figure BDA00023333429500000620
对应的非遮挡区域之间的最小距离排序的前R%(例如,25%);通过这样做,试图排除移动区域中的点,因为它们往往在
Figure BDA00023333429500000621
Figure BDA00023333429500000622
之间具有更大的距离。通过组合T12和ΔT可以获得优化后的位姿T′12
T′12=ΔT×T12
2)流一致性和运动分割。
通过优化后的位姿T′12,可以计算由摄像机运动引起的刚性流的公式为:
Figure BDA00023333429500000623
其中,K是相机内参,P1表示L1中像素的齐次坐标;
如果
Figure BDA0002333342950000071
Figure BDA0002333342950000072
部是准确的,它们的值应该在静态区域匹配并且在移动区域中不同。在刚性流
Figure BDA0002333342950000073
Figure BDA0002333342950000074
之间执行一致性检查,如果两个刚性流流之间的差异大于阈值δ,则相应区域被标记为移动前景M1,并且图像的其余部分被标记为静态背景M0,故图像损失掩模为M1
Figure BDA0002333342950000075
Figure BDA0002333342950000076
因O1
Figure BDA0002333342950000077
在遮挡区域中不太准确,可能导致误报,故默认估计的移动区域位于非遮挡区域。
Figure BDA0002333342950000078
在静态区域比
Figure BDA0002333342950000079
更准确。因此,使用
Figure BDA00023333429500000710
来指导学习
Figure BDA00023333429500000711
使用以下流一致性损失con
Figure BDA00023333429500000712
其中,SG表示停止梯度,
Figure BDA00023333429500000713
为由摄像机运动引起的刚性流,N为归一化系数。
基于上述方式,图2所示模型的总损失为:
Figure BDA00023333429500000714
上式中,λ为相应损失项的权重系数。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,包括:
利用双目相机进行图像采集,并通过预处理获得训练数据;
利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割;
训练完毕后,对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准,来优化位姿估计网络的输出;利用深度估计网络的输出,以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流,并与光流估计网络的输出进行流一致性检查,从而进行运动分割;
其中,利用双目相机进行图像采集,并通过预处理获得训练数据包括:首先,对双目相机采集到的原始图像进行缩放,并且相应的相机内参也同时进行缩放;然后,通过数据增强方法,产生训练数据;所述数据增强方法,包括使用如下一种或多种方式进行数据增强:使用亮度因子γ对输入的单目图像进行随机校正;按比例因子sx和sy沿X轴和Y轴对图像进行缩放,然后将图像随机裁剪为指定尺寸;将图像随机旋转r度,并使用最近邻方法插值;随机左右翻转以及随机时间顺序切换;
所述利用训练数据中两个连续的大小相同的立体图像训练光流估计网络、位姿估计网络、深度估计网络以及运动分割包括:首先,利用训练数据中连续的大小相同的立体图像对训练光流估计网络,再同时训练位姿估计网络和深度估计网络;然后,利用训练数据中连续的大小相同的立体图像对同时训练光流估计网络、位姿估计网络、深度估计网络以及运动分割;
两个连续的大小相同的立体图像对记为L1、R1、L2与R2;其中,L1、R1对应的表示在t1时刻的左、右图像,L2、R2对应的表示L2时刻的左、右图像;
利用两个连续左图像L1与L2以及设计的光流损失函数
Figure FDA0004059770750000011
训练光流估计网络,光流估计网络的输出为两个连续的大小相同的左图像L1与L2之间的光流
Figure FDA0004059770750000012
同时训练位姿估计网络和深度估计网络:
利用两个连续左图像L1与L2以及设计的刚性流损失函数
Figure FDA0004059770750000013
训练位姿估计网络,位姿估计网络输出为两个连续左图像L1与L2以之间的相对相机位姿T12;利用两个连续的大小相同的立体图像对L1、R1、L2与R2以及立体损失
Figure FDA0004059770750000014
训练深度估计网络,深度估计网络的输出为立体图像对之间的视差d,利用立体相机基线B和水平焦距fx,通过视差d计算绝对尺度深度D=Bfx/d,将计算出的绝对尺度深度记为D1,2
2.根据权利要求1所述的一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,
所述光流损失函数
Figure FDA0004059770750000021
包括:遮挡感知重建损失项
Figure FDA0004059770750000022
和平滑损失项
Figure FDA0004059770750000023
Figure FDA0004059770750000024
Figure FDA0004059770750000025
其中,ψ(.)表示遮挡感知重建损失函数,α表示调节系数,O1表示非遮挡区域,M1表示损失掩模,N为归一化系数;
Figure FDA0004059770750000026
表示根据L1、L2之间的光流
Figure FDA0004059770750000027
并结合L2重建的左图像,记为
Figure FDA0004059770750000028
e表示自然对数,(i,j)表示像素位置,
Figure FDA0004059770750000029
指沿图像x或者y方向的求导操作,其平方表示求二阶导,a指图像的x或y方向,用于指示求导的方向,β为权重。
3.根据权利要求1所述的一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,
所述刚性流损失
Figure FDA00040597707500000210
是在静态区域中应用于
Figure FDA00040597707500000211
Figure FDA00040597707500000212
的重建损失项:
Figure FDA00040597707500000213
其中,ψ(.)表示遮挡感知重建损失函数,O1表示非遮挡区域,M1表示损失掩模;
Figure FDA00040597707500000214
表示根据刚性流
Figure FDA00040597707500000215
并结合L2重建的两个左图像,记为
Figure FDA00040597707500000216
通过绝对尺度深度D1,2与位姿T12计算得到,
Figure FDA00040597707500000217
通过绝对尺度深度D1,2与优化后的位姿计算得到。
4.根据权利要求1所述的一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,所述利用训练数据中连续的大小相同的立体图像对同时训练光流估计网络、位姿估计网络、深度估计网络以及运动分割包括:
两个连续的大小相同的立体图像对记为L1、R1、L2与R2;其中,L1、R1对应的表示在t1时刻的左、右图像,L2、R2对应的表示t2时刻的左、右图像;
利用两个连续的大小相同的立体图像对L1、R1、L2与R2、光流损失
Figure FDA00040597707500000218
立体声损失
Figure FDA00040597707500000219
刚性流损失
Figure FDA00040597707500000220
以及流一致性损失
Figure FDA00040597707500000221
同时训练光流估计网络、位姿估计网络、深度估计网络、刚性配准模块和流一致性检查模块。
5.根据权利要求1所述的一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,通过刚性配准模块,使用光流估计网络输出的光流
Figure FDA0004059770750000031
以及通过深度估计网络输出的视差d计算得到的绝对尺度深度D1,2,来优化位姿估计网络输出的位姿T12,得到优化后的位姿T′12
在刚性配准期间,将2D图像空间中的点转换为3D点云,公式为:
Qk(i,j)=Dk(i,j)K-1Pk(i,j),k=1,2
其中,Pk(i,j)是图像Lk的(i,j)位置处的像素的齐次坐标,K是相机内参,Dk(i,j)是图像Lk的(i,j)位置处的绝对尺度深度,Qk(i,j)是图像Lk的(i,j)位置处像素的对应3D坐标;
利用位姿T12将3D点云Q1转换为3D点云
Figure FDA0004059770750000032
并且,利用双线性采样方法,根据光流
Figure FDA0004059770750000033
将3D点云Q2变形回到t1时刻来获得相应的3D点云
Figure FDA0004059770750000034
通过变形步骤建立对应,使得
Figure FDA0004059770750000035
对应于
Figure FDA0004059770750000036
Figure FDA0004059770750000037
Figure FDA0004059770750000038
其中,W、H分别表示图像的的宽、高;
Figure FDA0004059770750000039
分别表示光流
Figure FDA00040597707500000310
在x、y轴的分量;
通过最小化所选区域R中
Figure FDA00040597707500000311
Figure FDA00040597707500000312
之间的距离来估计改善姿势ΔT:
Figure FDA00040597707500000313
其中,区域R为
Figure FDA00040597707500000314
Figure FDA00040597707500000315
对应的非遮挡区域之间的最小距离排序的前R%;
从而通过下式得到优化后的位姿T′12
T′12=ΔT×T12
6.根据权利要求4或5所述的一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,计算由摄像机运动引起的刚性流的公式为:
Figure FDA00040597707500000316
其中,K是相机内参,P1表示L1中像素的齐次坐标;
通过下式估计损失掩模:
Figure FDA00040597707500000317
Figure FDA00040597707500000318
其中,O1表示非遮挡区域,δ为阈值。
7.根据权利要求4或5所述的一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,流一致性损失
Figure FDA0004059770750000041
表示为:
Figure FDA0004059770750000042
其中,SG表示停止梯度,(i,j)表示像素位置,
Figure FDA0004059770750000043
表示L1、L2之间的光流,
Figure FDA0004059770750000044
为由摄像机运动引起的刚性流,通过绝对尺度深度D1,2与优化后的位姿T12计算得到,N为归一化系数。
CN201911345900.9A 2019-12-24 2019-12-24 基于深度学习的无监督端到端的驾驶环境感知方法 Active CN111105432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911345900.9A CN111105432B (zh) 2019-12-24 2019-12-24 基于深度学习的无监督端到端的驾驶环境感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911345900.9A CN111105432B (zh) 2019-12-24 2019-12-24 基于深度学习的无监督端到端的驾驶环境感知方法

Publications (2)

Publication Number Publication Date
CN111105432A CN111105432A (zh) 2020-05-05
CN111105432B true CN111105432B (zh) 2023-04-07

Family

ID=70423494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911345900.9A Active CN111105432B (zh) 2019-12-24 2019-12-24 基于深度学习的无监督端到端的驾驶环境感知方法

Country Status (1)

Country Link
CN (1) CN111105432B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627056B (zh) * 2020-05-14 2023-09-01 清华大学 基于深度估计的行车能见度确定方法及装置
CN111629194B (zh) * 2020-06-10 2021-01-26 北京中科深智科技有限公司 一种基于神经网络的全景视频转6dof视频的方法及***
CN113140011B (zh) * 2021-05-18 2022-09-06 烟台艾睿光电科技有限公司 一种红外热成像单目视觉测距方法及相关组件
CN113838104B (zh) * 2021-08-04 2023-10-27 浙江大学 基于多光谱与多模态图像一致性增强网络的配准方法
CN114187581B (zh) * 2021-12-14 2024-04-09 安徽大学 一种基于无监督学习的驾驶员分心细粒度检测方法
CN114359363B (zh) * 2022-01-11 2024-06-18 浙江大学 一种基于深度学习的视频一致性深度估计方法及装置
CN114494332B (zh) * 2022-01-21 2023-04-25 四川大学 一种无监督的合成到真实LiDAR点云场景流估计方法
GB2618775A (en) * 2022-05-11 2023-11-22 Continental Autonomous Mobility Germany GmbH Self-supervised learning of scene flow
CN115187638B (zh) * 2022-09-07 2022-12-27 南京逸智网络空间技术创新研究院有限公司 一种基于光流遮罩的无监督单目深度估计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097109A (zh) * 2019-04-25 2019-08-06 湖北工业大学 一种基于深度学习的道路环境障碍物检测***及方法
CN110189278A (zh) * 2019-06-06 2019-08-30 上海大学 一种基于生成对抗网络的双目场景图像修复方法
CN110443843A (zh) * 2019-07-29 2019-11-12 东北大学 一种基于生成对抗网络的无监督单目深度估计方法
CN110490919A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的单目视觉的深度估计方法
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
WO2019223382A1 (zh) * 2018-05-22 2019-11-28 深圳市商汤科技有限公司 单目深度估计方法及其装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11392131B2 (en) * 2018-02-27 2022-07-19 Nauto, Inc. Method for determining driving policy

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019223382A1 (zh) * 2018-05-22 2019-11-28 深圳市商汤科技有限公司 单目深度估计方法及其装置、设备和存储介质
CN110097109A (zh) * 2019-04-25 2019-08-06 湖北工业大学 一种基于深度学习的道路环境障碍物检测***及方法
CN110189278A (zh) * 2019-06-06 2019-08-30 上海大学 一种基于生成对抗网络的双目场景图像修复方法
CN110490919A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的单目视觉的深度估计方法
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN110443843A (zh) * 2019-07-29 2019-11-12 东北大学 一种基于生成对抗网络的无监督单目深度估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
毕天腾 ; 刘越 ; 翁冬冬 ; 王涌天 ; .基于监督学习的单幅图像深度估计综述.计算机辅助设计与图形学学报.2018,(08),全文. *

Also Published As

Publication number Publication date
CN111105432A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111105432B (zh) 基于深度学习的无监督端到端的驾驶环境感知方法
Mitrokhin et al. EV-IMO: Motion segmentation dataset and learning pipeline for event cameras
Shu et al. Feature-metric loss for self-supervised learning of depth and egomotion
Zhu et al. Unsupervised event-based learning of optical flow, depth, and egomotion
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
Zhan et al. Unsupervised learning of monocular depth estimation and visual odometry with deep feature reconstruction
CN110782490B (zh) 一种具有时空一致性的视频深度图估计方法及装置
WO2020037965A1 (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
TWI709107B (zh) 影像特徵提取方法及包含其顯著物體預測方法
US20170148186A1 (en) Multi-directional structured image array capture on a 2d graph
CN110689008A (zh) 一种面向单目图像的基于三维重建的三维物体检测方法
US20210183083A1 (en) Self-supervised depth estimation method and system
CN108491763B (zh) 三维场景识别网络的无监督训练方法、装置及存储介质
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN112019828B (zh) 一种视频的2d到3d的转换方法
CN110610486A (zh) 单目图像深度估计方法及装置
CN113850900B (zh) 三维重建中基于图像和几何线索恢复深度图的方法及***
WO2024051184A1 (zh) 一种基于光流遮罩的无监督单目深度估计方法
CN111899295A (zh) 一种基于深度学习的单目场景深度预测方法
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
Song et al. Self-supervised depth completion from direct visual-lidar odometry in autonomous driving
CN115035171A (zh) 基于自注意力导向特征融合的自监督单目深度估计方法
Huang et al. Learning optical flow with R-CNN for visual odometry
Basak et al. Monocular depth estimation using encoder-decoder architecture and transfer learning from single RGB image
CN113065506B (zh) 一种人体姿态识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant