CN111311664B - 一种深度、位姿与场景流的联合无监督估计方法及*** - Google Patents

一种深度、位姿与场景流的联合无监督估计方法及*** Download PDF

Info

Publication number
CN111311664B
CN111311664B CN202010140536.9A CN202010140536A CN111311664B CN 111311664 B CN111311664 B CN 111311664B CN 202010140536 A CN202010140536 A CN 202010140536A CN 111311664 B CN111311664 B CN 111311664B
Authority
CN
China
Prior art keywords
point cloud
network
scene flow
frame
frame image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010140536.9A
Other languages
English (en)
Other versions
CN111311664A (zh
Inventor
王贺升
王光明
张弛
田晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010140536.9A priority Critical patent/CN111311664B/zh
Publication of CN111311664A publication Critical patent/CN111311664A/zh
Application granted granted Critical
Publication of CN111311664B publication Critical patent/CN111311664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种深度、位姿与场景流的联合无监督估计方法及***,包括:步骤M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;步骤M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;步骤M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下,第一帧图像的空间点云
Figure DDA0002398926960000011
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure DDA0002398926960000012
步骤M4:根据场景流差异、第一帧图像的空间点云
Figure DDA0002398926960000013
和第二帧图像的空间点云
Figure DDA0002398926960000014
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习;本发明解决了场景流网络、深度网络、位姿网络的训练过程中缺乏标注数据集的问题,降低了训练模型的成本,并实现了较高的准确性,有利于实际应用。

Description

一种深度、位姿与场景流的联合无监督估计方法及***
技术领域
本发明涉及计算机视觉领域,具体地,涉及一种无监督学习方法及***,更为具体地,涉及一种基于深度网络、位姿网络与场景流网络的联合无监督学习方法。
背景技术
深度估计是预测一帧图像中每个像素点的深度,通过深度估计可以通过图像获得环境的三维空间信息,因此深度估计在无人驾驶领域等有较为广泛的应用。早期的深度估计集中于立体图形,通过设计基于几何学的算法来估计深度,而随着近期深度学习在图像识别领域的应用,应用卷积神经网络提取图像的深度信息取得了较好的成果。
位姿估计在计算机视觉领域有深远的意义,但也是一项巨大的挑战:给定若干传感器检测到的图像信息,想要得到传感器的运动信息,需要排除尺度变换、遮挡、模糊与噪声、光照等等因素的干扰。
目前在运动图像分析的研究中,场景流法成为了一种新兴起的研究方法。场景流结合立体空间的深度信息与传统的光流信息,实现了较好的场景适应性,且无需先验知识,在运动目标检测任务中表现良好。此外,它可以补充和改进最先进的视觉测距和SLAM算法,在机器人技术中用于实现动态环境中的自主导航与操纵。
本发明提出一种深度网络、位姿网络与场景流网络的联合无监督学习方法:基于场景流变换一致性损失与点云重建损失,在训练过程中场景流网络与深度网络、位姿网络间相互监督,起到联合训练的效果。采用无监督学习方法,无需带有标注的数据集,可以降低学习的成本,最终实现了较高的准确性。
名词解释:
点云:对于某一帧图像的深度图,结合相机内参,可以将深度图中的每一个像素点投影到该帧相机坐标系下的三维空间中。点云即三维坐标系下所有投影点的集合,点云包含丰富的信息,如三维坐标、RGB颜色值等等,在测绘、自动驾驶、医疗等领域有较为广泛的应用。
场景流与场景流网络:场景流把对物体的运动估计由二维推广至三维,可以反应空间中物体运动形成的三维运动场,本文中场景流为点云在三维坐标系下发生的相对位移,包括由于相机运动引起的静态场景流,点云自运动引起的动态场景流,以及包含两者的整体场景流。场景流网络可通过输入两帧图像对应的空间点云,给出两点云间的场景流,实现场景流估计。
图像深度与深度网络:图像深度是2D图像中每个像素点的深度信息。单目深度估计是只通过单帧图像获得图像的深度,相当于从二维图像推测出三维空间,其难度非常大。目前较为流行的研究方法是利用卷积神经网络估计深度,向神经网络输入单帧图像,网络对深度进行估计并输出该帧图像对应深度图。深度估计在3D建模、场景识别等领域有较大应用。
位姿估计与位姿网络:位姿估计是指给定若干图像,估计拍摄图像的相机的运动问题。通过位姿变换,可以从当前相机的位置与拍摄角度推演得到下一时刻相机的位置与拍摄角度。位姿网络通过输入两帧的图像,输出相机从第一帧运动至第二帧过程中的位姿变换。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种深度、位姿与场景流的联合无监督估计方法及***。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计方法,包括:
步骤M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
步骤M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
步骤M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure BDA0002398926940000021
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure BDA0002398926940000022
步骤M4:根据场景流差异、第一帧图像的空间点云
Figure BDA0002398926940000023
和第二帧图像的空间点云
Figure BDA0002398926940000024
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
优选地,所述步骤M4包括:
步骤M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
步骤M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
优选地,所述步骤M4.1包括:
步骤M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure BDA0002398926940000031
在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000032
根据第二帧图像中的空间点云
Figure BDA0002398926940000033
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000034
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure BDA0002398926940000035
步骤M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000036
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000037
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000038
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000039
得到两个点云间的动态场景流sfd,计算公式如下:
Figure BDA00023989269400000310
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
步骤M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400000311
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000312
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400000313
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000314
得到两个点云间的整体场景流sfo,计算公式如下:
Figure BDA00023989269400000315
步骤M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
Figure BDA00023989269400000316
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure BDA00023989269400000317
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure BDA00023989269400000318
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
步骤M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
优选地,所述步骤M4.2包括:
步骤M4.2.1:利用场景流网络,第一帧图像空间点云
Figure BDA0002398926940000041
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000042
计算公式如下:
Figure BDA0002398926940000043
Figure BDA0002398926940000044
其中,
Figure BDA0002398926940000045
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
步骤M4.2.2:利用第二帧图像的空间点云
Figure BDA0002398926940000046
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000047
的差异,计算整体场景流点云重建损失Epc-a
步骤M4.2.3:由第一帧图像的空间点云
Figure BDA0002398926940000048
经过静态场景流sfs变换得到空间点云
Figure BDA0002398926940000049
再由空间点云
Figure BDA00023989269400000410
经过动态场景流sfd′变换后得到空间点云
Figure BDA00023989269400000411
所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得。根据空间点云
Figure BDA00023989269400000412
与第二帧图像的空间点云
Figure BDA00023989269400000413
间差异,计算动静态场景流点云重建损失Epc-b
步骤M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失EPc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b  (8)
步骤M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,在通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛即总点云重建损失不再降低时,停止训练。
优选地,所述步骤M4.2.2包括:
步骤M4.2.2.1:对空间点云
Figure BDA00023989269400000414
中的每一个点
Figure BDA00023989269400000415
根据
Figure BDA00023989269400000416
的坐标
Figure BDA00023989269400000417
Figure BDA00023989269400000418
的点云中找到与坐标
Figure BDA00023989269400000419
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400000420
如下:
Figure BDA0002398926940000051
Figure BDA0002398926940000052
Figure 1
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA0002398926940000054
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure BDA0002398926940000055
的重建点P*(R*,G*,B*);
步骤M4.2.2.2:计算空间点云
Figure BDA0002398926940000056
中所有点的整体场景流点云重建损失Epc-a
Figure BDA0002398926940000057
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000058
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q  (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述步骤M4.2.3包括:
步骤M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000059
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000510
Figure BDA00023989269400000511
所述静态场景流sfs为上述步骤M4.1.1步骤算法所得;
步骤M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000512
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000513
Figure BDA00023989269400000514
Figure BDA00023989269400000515
步骤M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000516
中的每一个点
Figure BDA00023989269400000517
根据
Figure BDA00023989269400000518
的坐标
Figure BDA00023989269400000519
在第二帧图像的空间点云
Figure BDA00023989269400000520
的空间点云中找到与坐标
Figure BDA00023989269400000521
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400000522
如下:
Figure BDA00023989269400000523
Figure BDA0002398926940000061
Figure BDA0002398926940000062
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA0002398926940000063
间的距离;Ri、Gi、Bi对应点PI在颜色空间RGB上的对应值,由插值得到了
Figure BDA0002398926940000064
的重建点P*(R*,G*,B*);
步骤M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000065
中所有点的动静态场景流点云重建损失Epc-b
Figure BDA0002398926940000066
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000067
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q  (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计***,包括:
模块M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
模块M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
模块M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure BDA0002398926940000068
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure BDA0002398926940000069
模块M4:根据场景流差异、第一帧图像的空间点云
Figure BDA00023989269400000610
和第二帧图像的空间点云
Figure BDA00023989269400000611
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
优选地,所述模块M4包括:
模块M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
模块M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
优选地,所述模块M4.1包括:
模块M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure BDA00023989269400000612
在第一帧相机坐标系下的空间点云
Figure BDA00023989269400000613
根据第二帧图像中的空间点云
Figure BDA00023989269400000614
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000071
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure BDA0002398926940000072
模块M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000073
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000074
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000075
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000076
得到两个点云间的动态场景流sfd,计算公式如下:
Figure BDA0002398926940000077
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
模块M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000078
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000079
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400000710
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000711
得到两个点云间的整体场景流sfo,计算公式如下:
Figure BDA00023989269400000712
模块M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
Figure BDA00023989269400000713
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure BDA00023989269400000714
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure BDA00023989269400000715
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
模块M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
优选地,所述模块M4.2包括:
模块M4.2.1:利用场景流网络,第一帧图像空间点云
Figure BDA00023989269400000716
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000081
计算公式如下:
Figure BDA0002398926940000082
Figure BDA0002398926940000083
其中,
Figure BDA0002398926940000084
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
模块M4.2.2:利用第二帧图像的空间点云
Figure BDA0002398926940000085
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000086
的差异,计算整体场景流点云重建损失Epc-a
模块M4.2.3:由第一帧图像的空间点云
Figure BDA0002398926940000087
经过静态场景流sfs变换得到空间点云
Figure BDA0002398926940000088
再由空间点云
Figure BDA0002398926940000089
经过动态场景流sfd′变换后得到空间点云
Figure BDA00023989269400000810
所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得。根据空间点云
Figure BDA00023989269400000811
与第二帧图像的空间点云
Figure BDA00023989269400000812
间差异,计算动静态场景流点云重建损失Epc-b
模块M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b  (8)
模块M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到场景流网络中每一个参数的梯度,在通过梯度下降算法实现场景流网络参数的更新,实现场景流网络的训练,当场景流网络收敛即总点云重建损失不再降低时,停止训练。
优选地,所述模块M4.2.2包括:
模块M4.2.2.1:对空间点云
Figure BDA00023989269400000813
中的每一个点
Figure BDA00023989269400000814
根据
Figure BDA00023989269400000815
的坐标
Figure BDA00023989269400000816
Figure BDA00023989269400000817
的点云中找到与坐标
Figure BDA00023989269400000818
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400000819
如下:
Figure BDA00023989269400000820
Figure BDA00023989269400000821
Figure BDA00023989269400000822
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA00023989269400000823
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure BDA00023989269400000824
的重建点P*(R*,G*,B*);
模块M4.2.2.2:计算空间点云
Figure BDA00023989269400000825
中所有点的整体场景流点云重建损失Epc-a
Figure BDA00023989269400000826
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000091
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q  (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述模块M4.2.3包括:
模块M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000092
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000093
Figure BDA0002398926940000094
所述静态场景流sfs为上述模块M4.1.1模块算法所得;
模块M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000095
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000096
Figure BDA0002398926940000097
Figure BDA0002398926940000098
模块M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000099
中的每一个点
Figure BDA00023989269400000910
根据
Figure BDA00023989269400000911
的坐标
Figure BDA00023989269400000912
在第二帧图像的空间点云
Figure BDA00023989269400000913
的空间点云中找到与坐标
Figure BDA00023989269400000914
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400000915
如下:
Figure BDA00023989269400000916
Figure BDA00023989269400000917
Figure BDA00023989269400000918
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA00023989269400000919
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值,由插值得到了
Figure BDA00023989269400000920
的重建点P*(R*,G*,B*);
模块M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400000921
中所有点的动静态场景流点云重建损失Epc-b
Figure BDA00023989269400000922
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000101
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q  (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提出了一种新的深度网络、位姿网络与场景流网络的联合无监督学习方法,能够解决在训练深度网络、位姿网络与场景流网络的任务中,缺乏标注数据集的难题;
2、本发明采用无监督学习方法训练深度网络、位姿网络与场景流网络,并提出了两种损失函数:场景流变换一致性损失和点云重建损失。用两种损失函数对联合训练的结果进行惩罚,有利于下一轮的训练;
3、本发明解决了网络训练中标注数据集不足的问题,节约了人工标注数据的成本,能实现较高的准确性,有利于实际应用。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一种深度网络、位姿网络与场景流网络的联合无监督学习方法的***框架图;
图2为步骤(A)基于场景流变换一致性损失的深度网络、位姿网络和场景流网络的联合无监督学习方法的流程图;
图3为利用sfo与(sfs+sfd)的差异计算场景流变换一致性损失的示意图;
图4为步骤(B)基于点云重建损失的深度网络、位姿网络和场景流网络的联合无监督学习方法的流程图;
图5为用距离点
Figure BDA0002398926940000102
最近的3个点重建点
Figure BDA0002398926940000103
的示意图;
图3中,sfo是整体场景流,sfs是静态场景流,sfd是动态场景流,(nx,ny,nz) 是整体场景流sfo在坐标系下的三维坐标,(mx,my,mz)是动态场景流与静态场景流之和在坐标系下的三维坐标,该图表明实际状况下sfo与(sfs+sfd)有差异性。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明提供了一种深度网络、位姿网络与场景流网络的联合无监督学习方法,其过程为,首先由深度网络与位姿网络获得连续两帧图像的深度图和两帧图像间的位姿变换,结合相机模型可以得到两帧图像对应的空间点云,由场景流网络可获得两帧点云间的场景流。定义场景流变换一致性损失与点云重建损失,对不满足一致性的场景流和重建点云进行惩罚。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计方法,包括:
步骤M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
步骤M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
步骤M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure BDA0002398926940000111
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure BDA0002398926940000112
步骤M4:根据场景流差异、第一帧图像的空间点云
Figure BDA0002398926940000113
和第二帧图像的空间点云
Figure BDA0002398926940000114
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
具体地,如图1所示,所述步骤M4包括:
步骤M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
步骤M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
具体地,如图2所示,所述步骤M4.1包括:
步骤M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure BDA0002398926940000115
在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000116
根据第二帧图像中的空间点云
Figure BDA0002398926940000117
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000118
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure BDA0002398926940000121
步骤M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000122
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000123
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000124
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000125
得到两个点云间的动态场景流sfd,计算公式如下:
Figure BDA0002398926940000126
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;网络Nst会输出两帧点云间的场景流;
步骤M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000127
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000128
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000129
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001210
得到两个点云间的整体场景流sfo,计算公式如下:
Figure BDA00023989269400001211
步骤M4.1.4:理想状态下应满足sfo与(sfs+sfd)一致,如图3所示,利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,训练场景流网络;通过计算得到的一致性损失;
如图3所示,sfo是整体场景流,sfs是静态场景流,sfd是动态场景流,(nx,ny,nz) 是整体场景流sfo在空间坐标系下的三维坐标,(mx,my,mz)是动态场景流与静态场景流之和在空间坐标系下的三维坐标。理想状态下sfo与(sfs+sfd)应当一致,即应满足mi= ni,i∈{x,y,z}。而实际状况下,如图3所示,两者存在差异,因此,利用sfo与(sfs+sfd) 定义损失函数:所述场景流变换一致性损失计算公式如下:
Figure BDA00023989269400001212
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure BDA00023989269400001213
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure BDA00023989269400001214
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数,参数∈=0.01,q=0.4;
步骤M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
具体地,如图4所示,所述步骤M4.2包括:
步骤M4.2.1:利用场景流网络,第一帧图像空间点云
Figure BDA0002398926940000131
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000132
计算公式如下:
Figure BDA0002398926940000133
Figure BDA0002398926940000134
其中,
Figure BDA0002398926940000135
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
步骤M4.2.2:理想状态下应满足
Figure BDA0002398926940000136
Figure BDA0002398926940000137
一致,利用第二帧图像的空间点云
Figure BDA0002398926940000138
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000139
的差异,计算整体场景流点云重建损失Epc-a
步骤M4.2.3:由第一帧图像的空间点云
Figure BDA00023989269400001310
经过静态场景流sfs变换得到空间点云
Figure BDA00023989269400001311
再由空间点云
Figure BDA00023989269400001312
经过动态场景流sfd′变换后得到空间点云
Figure BDA00023989269400001313
所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得;根据空间点云
Figure BDA00023989269400001314
与第二帧图像的空间点云
Figure BDA00023989269400001315
间差异,计算动静态场景流点云重建损失Epc-b
步骤M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b  (8)
步骤M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到场景流网络中每一个参数的梯度,在通过梯度下降算法实现场景流网络参数的更新,实现场景流网络的训练,当场景流网络收敛即总点云重建损失不再降低时,停止训练。
具体地,所述步骤M4.2.2包括:
步骤M4.2.2.1:对空间点云
Figure BDA00023989269400001316
中的每一个点
Figure BDA00023989269400001317
根据
Figure BDA00023989269400001318
的坐标
Figure BDA00023989269400001319
Figure BDA00023989269400001320
的空间点云中找到与坐标
Figure BDA00023989269400001321
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400001322
如下:
Figure BDA00023989269400001323
Figure BDA0002398926940000141
Figure BDA0002398926940000142
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA0002398926940000143
间的距离;Ri、Ri、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure BDA0002398926940000144
的重建点P*(R*,G*,B*);
步骤M4.2.2.2:计算空间点云
Figure BDA0002398926940000145
中所有点的整体场景流点云重建损失Epc-a
Figure BDA0002398926940000146
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000147
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q  (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4;
所述步骤M4.2.3包括:
步骤M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000148
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000149
Figure BDA00023989269400001410
所述静态场景流sfs为上述步骤M4.1.1步骤算法所得;
步骤M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001411
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001412
Figure BDA00023989269400001413
Figure BDA00023989269400001414
步骤M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001415
中的每一个点
Figure BDA00023989269400001416
根据
Figure BDA00023989269400001417
的坐标
Figure BDA00023989269400001418
在第二帧图像的空间点云
Figure BDA00023989269400001419
的空间点云中找到与坐标
Figure BDA00023989269400001420
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400001421
如图5示意图,对于
Figure BDA00023989269400001422
中的点
Figure BDA00023989269400001423
Figure BDA00023989269400001424
中找到与其距离最近的三个点P1,P2,P3,并求出
Figure BDA00023989269400001425
点与三点的距离d1,d2,d3,实现对
Figure BDA00023989269400001426
点在颜色空间RGB上的重建如下:
Figure BDA0002398926940000151
Figure BDA0002398926940000152
Figure BDA0002398926940000153
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA0002398926940000154
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值,由插值得到了
Figure BDA0002398926940000155
的重建点P*(R*,G*,B*);
步骤M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000156
中所有点的动静态场景流点云重建损失Epc-b
Figure BDA0002398926940000157
其中,Ω为场景流中所有点的个数总和;
Figure BDA0002398926940000158
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q  (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4。
根据本发明提供的一种深度、位姿与场景流的联合无监督估计***,包括:
模块M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
模块M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
模块M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure BDA0002398926940000159
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure BDA00023989269400001510
模块M4:根据场景流差异、第一帧图像的空间点云
Figure BDA00023989269400001511
和第二帧图像的空间点云
Figure BDA00023989269400001512
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。
具体地,如图1所示,所述模块M4包括:
模块M4.1:基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
模块M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。
具体地,如图2所示,所述模块M4.1包括:
模块M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure BDA0002398926940000161
在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000162
根据第二帧图像中的空间点云
Figure BDA0002398926940000163
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000164
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure BDA0002398926940000165
模块M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000166
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000167
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000168
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA0002398926940000169
得到两个点云间的动态场景流sfd,计算公式如下:
Figure BDA00023989269400001610
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;网络Nsf会输出两帧点云间的场景流;
模块M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400001611
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001612
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400001613
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001614
得到两个点云间的整体场景流sfo,计算公式如下:
Figure BDA00023989269400001615
模块M4.1.4:理想状态下应满足sfo与(sfs+sfd)一致,如图3所示,利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,训练场景流网络;通过计算得到的一致性损失;
如图3所示,sfo是整体场景流,sfs是静态场景流,sfd是动态场景流,(nx,ny,nz) 是整体场景流sfo在空间坐标系下的三维坐标,(mx,my,mz)是动态场景流与静态场景流之和在空间坐标系下的三维坐标。理想状态下sfo与(sfs+sfd)应当一致,即应满足mi= ni,i∈{x,y,z}。而实际状况下,如图3所示,两者存在差异,因此,利用sfo与(sfs+sfd) 定义损失函数:所述场景流变换一致性损失计算公式如下:
Figure BDA00023989269400001616
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure BDA00023989269400001617
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure BDA0002398926940000171
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数,参数∈=0.01,q=0.4;
模块M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
具体地,如图4所示,所述模块M4.2包括:
模块M4.2.1:利用场景流网络,第一帧图像空间点云
Figure BDA0002398926940000172
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000173
计算公式如下:
Figure BDA0002398926940000174
Figure BDA0002398926940000175
其中,
Figure BDA0002398926940000176
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
模块M4.2.2:理想状态下应满足
Figure BDA0002398926940000177
Figure BDA0002398926940000178
一致,利用第二帧图像的空间点云
Figure BDA0002398926940000179
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001710
的差异,计算整体场景流点云重建损失Epc-a
模块M4.2.3:由第一帧图像的空间点云
Figure BDA00023989269400001711
经过静态场景流sfs变换得到空间点云
Figure BDA00023989269400001712
再由空间点云
Figure BDA00023989269400001713
经过动态场景流sfd′变换后得到空间点云
Figure BDA00023989269400001714
所述静态场景流sfs为上述模块M4.1.1所得,动态场景流sfd′为下述步骤M4.2.3.2算法所得;根据空间点云
Figure BDA00023989269400001715
与第二帧图像的空间点云
Figure BDA00023989269400001716
间差异,计算动静态场景流点云重建损失Epc-b
模块M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b  (8)
模块M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到场景流网络中每一个参数的梯度,在通过梯度下降算法实现场景流网络参数的更新,实现场景流网络的训练,当场景流网络收敛即总点云重建损失不再降低时,停止训练。
具体地,所述模块M4.2.2包括:
模块M4.2.2.1:对空间点云
Figure BDA00023989269400001717
中的每一个点
Figure BDA00023989269400001718
根据
Figure BDA00023989269400001719
的坐标
Figure BDA00023989269400001720
Figure BDA00023989269400001721
的空间点云中找到与坐标
Figure BDA0002398926940000181
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA0002398926940000182
如下:
Figure BDA0002398926940000183
Figure BDA0002398926940000184
Figure BDA0002398926940000185
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA0002398926940000186
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure BDA0002398926940000187
的重建点P*(R*,G*,B*);
模块M4.2.2.2:计算空间点云
Figure BDA0002398926940000188
中所有点的整体场景流点云重建损失Epc-a
Figure BDA0002398926940000189
其中,Ω为场景流中所有点的个数总和;
Figure BDA00023989269400001810
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q  (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4;
所述模块M4.2.3包括:
模块M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure BDA00023989269400001811
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001812
Figure BDA00023989269400001813
所述静态场景流sfs为上述模块M4.1.1模块算法所得;
模块M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001814
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001815
Figure BDA00023989269400001816
Figure BDA00023989269400001817
模块M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA00023989269400001818
中的每一个点
Figure BDA00023989269400001819
根据
Figure BDA00023989269400001820
的坐标
Figure BDA00023989269400001821
在第二帧图像的空间点云
Figure BDA00023989269400001822
的空间点云中找到与坐标
Figure BDA00023989269400001823
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure BDA00023989269400001824
如图5示意图,对于
Figure BDA0002398926940000191
中的点
Figure BDA0002398926940000192
Figure BDA0002398926940000193
中找到与其距离最近的三个点P1,P2,P3,并求出
Figure BDA0002398926940000194
点与三点的距离d1,d2,d3,实现对
Figure BDA0002398926940000195
点在颜色空间RGB上的重建如下:
Figure BDA0002398926940000196
Figure BDA0002398926940000197
Figure BDA0002398926940000198
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure BDA00023989269400001912
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值,由插值得到了
Figure BDA00023989269400001913
的重建点P*(R*,G*,B*);
模块M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure BDA0002398926940000199
中所有点的动静态场景流点云重建损失Epc-b
Figure BDA00023989269400001910
其中,Ω为场景流中所有点的个数总和;
Figure BDA00023989269400001911
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q  (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数,参数∈=0.01,q=0.4。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的***、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的***、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (8)

1.一种深度、位姿与场景流的联合无监督估计方法,其特征在于,包括:
步骤M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
步骤M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
步骤M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure FDA0004127245440000011
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure FDA0004127245440000012
步骤M4:根据场景流差异、第一帧图像的空间点云
Figure FDA0004127245440000013
和第二帧图像的空间点云
Figure FDA0004127245440000014
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换;
所述步骤M4包括:
步骤M4.1:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
步骤M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习;由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc
2.根据权利要求1所述的深度、位姿与场景流的联合无监督估计方法,其特征在于,所述步骤M4.1包括:
步骤M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure FDA0004127245440000015
在第一帧相机坐标系下的空间点云
Figure FDA0004127245440000016
根据第二帧图像中的空间点云
Figure FDA0004127245440000017
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure FDA0004127245440000018
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure FDA0004127245440000019
步骤M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00041272454400000110
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00041272454400000111
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00041272454400000112
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00041272454400000113
得到两个点云间的动态场景流sfd,计算公式如下:
Figure FDA00041272454400000114
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
步骤M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure FDA0004127245440000021
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure FDA0004127245440000022
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA0004127245440000023
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0004127245440000024
得到两个点云间的整体场景流sfo,计算公式如下:
Figure FDA0004127245440000025
步骤M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
Figure FDA0004127245440000026
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure FDA0004127245440000027
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure FDA0004127245440000028
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
步骤M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
3.根据权利要求2所述的深度、位姿与场景流的联合无监督估计方法,其特征在于,所述步骤M4.2包括:
步骤M4.2.1:利用场景流网络,第一帧图像空间点云
Figure FDA0004127245440000029
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00041272454400000210
计算公式如下:
Figure FDA00041272454400000211
Figure FDA00041272454400000212
其中,
Figure FDA00041272454400000213
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
步骤M4.2.2:利用第二帧图像的空间点云
Figure FDA00041272454400000214
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00041272454400000215
的差异,计算整体场景流点云重建损失Epc-a
步骤M4.2.3:由第一帧图像的空间点云
Figure FDA00041272454400000216
经过静态场景流sfs变换得到空间点云
Figure FDA0004127245440000031
再由空间点云
Figure FDA0004127245440000032
经过动态场景流sfd′变换后得到空间点云
Figure FDA0004127245440000033
根据空间点云
Figure FDA0004127245440000034
与第二帧图像的空间点云
Figure FDA0004127245440000035
间差异,计算动静态场景流点云重建损失Epc-b
步骤M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b    (8)
步骤M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,在通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛即总点云重建损失不再降低时,停止训练。
4.根据权利要求3所述的深度、位姿与场景流的联合无监督估计方法,其特征在于,所述步骤M4.2.2包括:
步骤M4.2.2.1:对空间点云
Figure FDA0004127245440000036
中的每一个点
Figure FDA0004127245440000037
根据
Figure FDA0004127245440000038
的坐标
Figure FDA0004127245440000039
Figure FDA00041272454400000310
的点云中找到与坐标
Figure FDA00041272454400000311
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure FDA00041272454400000312
如下:
Figure FDA00041272454400000313
Figure FDA00041272454400000314
Figure FDA00041272454400000315
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure FDA00041272454400000321
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure FDA00041272454400000316
的重建点P*(R*,G*,B*);
步骤M4.2.2.2:计算空间点云
Figure FDA00041272454400000317
中所有点的整体场景流点云重建损失Epc-a
Figure FDA00041272454400000318
其中,Ω为场景流中所有点的个数总和;
Figure FDA00041272454400000319
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q     (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述步骤M4.2.3包括:
步骤M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00041272454400000320
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0004127245440000041
Figure FDA0004127245440000042
所述静态场景流sfs为上述步骤M4.1.1步骤算法所得;
步骤M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0004127245440000043
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0004127245440000044
Figure FDA0004127245440000045
Figure FDA0004127245440000046
步骤M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0004127245440000047
中的每一个点
Figure FDA0004127245440000048
根据
Figure FDA0004127245440000049
的坐标
Figure FDA00041272454400000410
在第二帧图像的空间点云
Figure FDA00041272454400000411
的空间点云中找到与坐标
Figure FDA00041272454400000412
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure FDA00041272454400000421
如下:
Figure FDA00041272454400000413
Figure FDA00041272454400000414
Figure FDA00041272454400000415
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure FDA00041272454400000416
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值,由插值得到了
Figure FDA00041272454400000417
的重建点P*(R*,G*,B*);
步骤M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00041272454400000418
中所有点的动静态场景流点云重建损失Epc-b
Figure FDA00041272454400000419
其中,Ω为场景流中所有点的个数总和;
Figure FDA00041272454400000420
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q    (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
5.一种深度、位姿与场景流的联合无监督估计***,其特征在于,包括:
模块M1:对连续两帧图像,根据深度网络得到对应的两帧深度图;
模块M2:根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换;
模块M3:根据两帧间的位姿变换,结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云
Figure FDA0004127245440000051
以及在第二帧相机坐标系下第二帧图像的空间点云
Figure FDA0004127245440000052
模块M4:根据场景流差异、第一帧图像的空间点云
Figure FDA00041272454400000519
和第二帧图像的空间点云
Figure FDA0004127245440000053
指导深度网络、位姿网络和场景流网络的训练,实现无监督学习下的联合训练;
所述相机模型是根据小孔成像原理,利用线性方程组实现物体的空间坐标和相机坐标间的相互转换;
所述模块M4包括:
模块M4.1:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习;
模块M4.2:基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习;由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc
6.根据权利要求5所述的深度、位姿与场景流的联合无监督估计***,其特征在于,所述模块M4.1包括:
模块M4.1.1:结合位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的空间点云
Figure FDA0004127245440000054
在第一帧相机坐标系下的空间点云
Figure FDA0004127245440000055
根据第二帧图像中的空间点云
Figure FDA0004127245440000056
和第二帧图像的空间点云在第一帧相机坐标系下的空间点云
Figure FDA0004127245440000057
计算相机运动引起的静态场景流sfs,计算公式如下:
Figure FDA0004127245440000058
模块M4.1.2:向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA0004127245440000059
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00041272454400000510
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00041272454400000511
和第二帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00041272454400000512
得到两个点云间的动态场景流sfd,计算公式如下:
Figure FDA00041272454400000513
其中,Nsf(x,y)表示场景流网络,输入两帧空间点云x,y;
模块M4.1.3:向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云
Figure FDA00041272454400000514
和第二帧中的像素在第二帧相机坐标系下的空间点云
Figure FDA00041272454400000515
根据第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00041272454400000516
和第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00041272454400000517
得到两个点云间的整体场景流sfo,计算公式如下:
Figure FDA00041272454400000518
模块M4.1.4:利用整体场景流sfo与静态场景流sfs和动态场景流sfd之和的差异计算场景流变换一致性损失,通过计算得到的一致性损失;
所述场景流变换一致性损失计算公式如下:
Figure FDA0004127245440000061
其中,Ω为场景流中第一帧点云中所有点的个数总和;
Figure FDA0004127245440000062
为鲁棒性损失函数;
鲁棒性损失函数公式如下:
Figure FDA0004127245440000063
其中,mi表示变量m在i方向上的值,ni表示变量n在i方向上的值,i∈{x,y,z},表示空间坐标系下三个相互垂直的方向;ε,q表示参数;
模块M4.1.5:通过计算得到的一致性损失,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛时,即损失不再降低时,停止训练。
7.根据权利要求6所述的深度、位姿与场景流的联合无监督估计***,其特征在于,所述模块M4.2包括:
模块M4.2.1:利用场景流网络,第一帧图像空间点云
Figure FDA0004127245440000064
经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0004127245440000065
计算公式如下:
Figure FDA0004127245440000066
Figure FDA0004127245440000067
其中,
Figure FDA0004127245440000068
表示第二帧图像中的像素在第二帧相机坐标系下的空间点云;
模块M4.2.2:利用第二帧图像的空间点云
Figure FDA0004127245440000069
与第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00041272454400000610
的差异,计算整体场景流点云重建损失Epc-a
模块M4.2.3:由第一帧图像的空间点云
Figure FDA00041272454400000611
经过静态场景流sfs变换得到空间点云
Figure FDA00041272454400000612
再由空间点云
Figure FDA00041272454400000613
经过动态场景流sfd′变换后得到空间点云
Figure FDA00041272454400000614
根据空间点云
Figure FDA00041272454400000615
与第二帧图像的空间点云
Figure FDA00041272454400000616
间差异,计算动静态场景流点云重建损失Epc-b
模块M4.2.4:由整体场景流点云重建损失Epc-a和动静态场景流点云重建损失Epc-b,计算总点云重建损失Epc,总点云重建损失Epc计算公式如下:
Epc=Epc-a+Epc-b    (8)
模块M4.2.5:根据计算总点云重建损失Epc,利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度,在通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新,实现深度网络、位姿网络和场景流网络的训练,当深度网络、位姿网络和场景流网络收敛即总点云重建损失不再降低时,停止训练。
8.根据权利要求7所述的深度、位姿与场景流的联合无监督估计***,其特征在于,所述模块M4.2.2包括:
模块M4.2.2.1:对空间点云
Figure FDA0004127245440000071
中的每一个点
Figure FDA0004127245440000072
根据
Figure FDA0004127245440000073
的坐标
Figure FDA0004127245440000074
Figure FDA0004127245440000075
的点云中找到与坐标
Figure FDA0004127245440000076
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure FDA0004127245440000077
如下:
Figure FDA0004127245440000078
Figure FDA0004127245440000079
Figure FDA00041272454400000710
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure FDA00041272454400000711
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值;由插值得到了
Figure FDA00041272454400000712
的重建点P*(R*,G*,B*);
模块M4.2.2.2:计算空间点云
Figure FDA00041272454400000713
中所有点的整体场景流点云重建损失Epc-a
Figure FDA00041272454400000714
其中,Ω为场景流中所有点的个数总和;
Figure FDA00041272454400000715
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q     (13)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数;
所述模块M4.2.3包括:
模块M4.2.3.1:由第一帧图像中的像素在第一帧相机坐标系下的空间点云
Figure FDA00041272454400000716
和相机运动引起的静态场景流sfs,得到第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00041272454400000717
Figure FDA00041272454400000718
所述静态场景流sfs为上述模块M4.1.1模块算法所得;
模块M4.2.3.2:利用场景流网络,由第一帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00041272454400000719
经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0004127245440000081
Figure FDA0004127245440000082
Figure FDA0004127245440000083
模块M4.2.3.3:对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA0004127245440000084
中的每一个点
Figure FDA0004127245440000085
根据
Figure FDA0004127245440000086
的坐标
Figure FDA0004127245440000087
在第二帧图像的空间点云
Figure FDA0004127245440000088
的空间点云中找到与坐标
Figure FDA0004127245440000089
距离最近的三个点P1,P2,P3,并通过插值法实现由P1,P2,P3三点重建
Figure FDA00041272454400000810
如下:
Figure FDA00041272454400000811
Figure FDA00041272454400000812
Figure FDA00041272454400000813
其中,i∈{1,2,3},对应点P1,P2,P3;di为点Pi与点
Figure FDA00041272454400000814
间的距离;Ri、Gi、Bi对应点Pi在颜色空间RGB上的对应值,由插值得到了
Figure FDA00041272454400000815
的重建点P*(R*,G*,B*);
模块M4.2.3.4:计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云
Figure FDA00041272454400000816
中所有点的动静态场景流点云重建损失Epc-b
Figure FDA00041272454400000817
其中,Ω为场景流中所有点的个数总和;
Figure FDA00041272454400000818
为鲁棒性损失函数,定义如下:
φ(m,n)=∑i∈{R,G,B}(|mi-ni|+∈)q    (21)
其中i∈{R,G,B},mi表示变量m在颜色空间中i属性的值,ni表示变量n在颜色空间中i属性的值;ε,q表示参数。
CN202010140536.9A 2020-03-03 2020-03-03 一种深度、位姿与场景流的联合无监督估计方法及*** Active CN111311664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010140536.9A CN111311664B (zh) 2020-03-03 2020-03-03 一种深度、位姿与场景流的联合无监督估计方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010140536.9A CN111311664B (zh) 2020-03-03 2020-03-03 一种深度、位姿与场景流的联合无监督估计方法及***

Publications (2)

Publication Number Publication Date
CN111311664A CN111311664A (zh) 2020-06-19
CN111311664B true CN111311664B (zh) 2023-04-21

Family

ID=71155090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010140536.9A Active CN111311664B (zh) 2020-03-03 2020-03-03 一种深度、位姿与场景流的联合无监督估计方法及***

Country Status (1)

Country Link
CN (1) CN111311664B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706676B (zh) * 2021-08-26 2024-01-16 京东鲲鹏(江苏)科技有限公司 用于点云数据的模型自监督训练方法和装置
CN114494332B (zh) * 2022-01-21 2023-04-25 四川大学 一种无监督的合成到真实LiDAR点云场景流估计方法
CN114612545A (zh) * 2022-03-25 2022-06-10 浙江商汤科技开发有限公司 图像分析方法及相关模型的训练方法、装置、设备和介质
CN116758131B (zh) * 2023-08-21 2023-11-28 之江实验室 一种单目图像深度估计方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544677A (zh) * 2018-10-30 2019-03-29 山东大学 基于深度图像关键帧的室内场景主结构重建方法及***
CN110009674A (zh) * 2019-04-01 2019-07-12 厦门大学 基于无监督深度学习的单目图像景深实时计算方法
CN110246212A (zh) * 2019-05-05 2019-09-17 上海工程技术大学 一种基于自监督学习的目标三维重建方法
CN110782490A (zh) * 2019-09-24 2020-02-11 武汉大学 一种具有时空一致性的视频深度图估计方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8593506B2 (en) * 2007-03-15 2013-11-26 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for forming a panoramic image of a scene having minimal aspect distortion
CN107564061B (zh) * 2017-08-11 2020-11-20 浙江大学 一种基于图像梯度联合优化的双目视觉里程计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544677A (zh) * 2018-10-30 2019-03-29 山东大学 基于深度图像关键帧的室内场景主结构重建方法及***
CN110009674A (zh) * 2019-04-01 2019-07-12 厦门大学 基于无监督深度学习的单目图像景深实时计算方法
CN110246212A (zh) * 2019-05-05 2019-09-17 上海工程技术大学 一种基于自监督学习的目标三维重建方法
CN110782490A (zh) * 2019-09-24 2020-02-11 武汉大学 一种具有时空一致性的视频深度图估计方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Unsupervised Learning of Monocular Depth and Ego-Motion Using Multiple Masks;Guangming Wang等;IEEE International Conference on Robotics and Automation ICRA;4724-4730 *
软体机器人手眼视觉/形状混合控制;王昱欣等;机器人(第05期);45-51 *

Also Published As

Publication number Publication date
CN111311664A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111311664B (zh) 一种深度、位姿与场景流的联合无监督估计方法及***
CN106780576B (zh) 一种面向rgbd数据流的相机位姿估计方法
Mueggler et al. Continuous-time visual-inertial odometry for event cameras
CN108416840B (zh) 一种基于单目相机的三维场景稠密重建方法
CN109003325B (zh) 一种三维重建的方法、介质、装置和计算设备
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
CN103247075B (zh) 基于变分机制的室内环境三维重建方法
Grest et al. Nonlinear body pose estimation from depth images
Turner et al. Fast, automated, scalable generation of textured 3D models of indoor environments
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN111902826A (zh) 定位、建图和网络训练
CN111062326A (zh) 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
CN114581571A (zh) 基于imu和前向变形场的单目人体重建方法及装置
CN115205463A (zh) 基于多球面场景表达的新视角图像生成方法、装置和设备
CN112686952A (zh) 一种图像光流计算***、方法及应用
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计***
Huang et al. Self-supervised depth estimation in laparoscopic image using 3D geometric consistency
Cao et al. Single view 3D reconstruction based on improved RGB-D image
CN102663812A (zh) 基于变分光流的三维运动检测与稠密结构重建的直接方法
Zhao et al. 3D object tracking via boundary constrained region-based model
Lee et al. Event-and Frame-based Visual-Inertial Odometry with Adaptive Filtering based on 8-DOF Warping Uncertainty
Wang et al. Physical Priors Augmented Event-Based 3D Reconstruction
Elanattil et al. Non-rigid reconstruction with a single moving RGB-D camera
Yang et al. Linear perspective shape-from-shading method with two images
Ieng et al. Event-based 3D motion flow estimation using 4D spatio temporal subspaces properties

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant