CN111311685A - 一种基于imu/单目图像的运动场景重构无监督方法 - Google Patents

一种基于imu/单目图像的运动场景重构无监督方法 Download PDF

Info

Publication number
CN111311685A
CN111311685A CN202010395642.1A CN202010395642A CN111311685A CN 111311685 A CN111311685 A CN 111311685A CN 202010395642 A CN202010395642 A CN 202010395642A CN 111311685 A CN111311685 A CN 111311685A
Authority
CN
China
Prior art keywords
estimation value
network
frames
images
inertial navigation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010395642.1A
Other languages
English (en)
Other versions
CN111311685B (zh
Inventor
张礼廉
屈豪
胡小平
何晓峰
潘献飞
范晨
毛军
韩国良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010395642.1A priority Critical patent/CN111311685B/zh
Publication of CN111311685A publication Critical patent/CN111311685A/zh
Application granted granted Critical
Publication of CN111311685B publication Critical patent/CN111311685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于IMU/单目图像的运动场景重构无监督方法。所述方法包括:根据视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值,根据惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值,根据视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值,根据深度预测网络,得到原始图像的深度估计值,根据前后两帧图像之间相对位姿估计值与深度估计值的转换关系,构建用于网络训练的损失函数,根据损失函数,对视觉位姿预测网络、惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。采用本方法能够提高在特定场景下运动场景重构的准确率。

Description

一种基于IMU/单目图像的运动场景重构无监督方法
技术领域
本申请涉及图像处理技术领域,特别是涉及一种基于IMU/单目图像的运动场景重构无监督方法和装置。
背景技术
同步定位与建图***(SLAM)是AR、机器人和无人平台等领域的关键技术,主流的同步定位与建图***基于多视觉几何开发相关算法获得当前场景的实时运动信息(空间位置与点云信息)。SLAM使用外接传感器结合相关算法得到视场内准确的空间点坐标,按照所采用传感器不同,分为激光雷达SLAM与视觉SLAM。基于激光雷达的SLAM具有精度高,实时性好,抗干扰性强等优点,但它的成本较高不适于大规模的使用。视觉SLAM使用特征点或者光流等信息构建时间轴上的位置约束来求解移动载体的位置信息,然而视觉SLAM容易受到外界光照条件的影响,不具有较强的鲁棒性。深度学习神经使用大数据训练的方式找到原始数据存在的高维度信息,在模式识别等领域得到广泛的关注。已有研究人员使用深度学习构建里程计或者深度估计网络来解析图像/惯导信息中的运动信息,以此来重构运动场景。然而主流的方法都是采用端对端的网络学习原始数据与标签之间的关系,需采集大量的数据标签,这大大降低了算法开发的效率。
为了得到光滑和精确的场景重构模型,需得到视场内物体表面空间点的全局坐标,双目视觉SLAM使用双目相机构建视差模型推算出视场内的物体表面特征点的全局坐标,然而双目相机在使用之前需进行精密的标定,并在使用过程中会产生较大的计算量增加***的整体成本。因此使用单目相机进行运动信息估计受到学界的广泛关注,但使用单目相机图像无法得到全局一致的尺度,还需设计特定的算法进行尺度的恢复。国外学者(VitorGuizilini等,无监督单目深度估计,arXiv)提出了基于无监督学习的运动场景重构网络,网络分为位姿估计网络与深度估计网络,并设计了全局尺度一致性误差来训练网络,得到的场景重构模型较为光滑,然而此网络仅使用图像信息,在相机丢帧以及光线较暗的场景中,重构的效果并不理想。
发明内容
基于此,有必要针对上述技术问题,提供一种基于IMU/单目图像的运动场景重构无监督方法并在复杂环境下也能有较为理想的效果。
一种基于IMU/单目图像的运动场景重构无监督方法,所述方法包括:
根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
根据预先设置的深度预测网络,得到原始图像的深度估计值;
根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;
根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
在其中一个实施例中,还包括:将两帧图像输入预先设置的视觉位姿预测网络,通过所述视觉位姿预测网络的多层卷积神经网路,提取两帧图像的高维语义特征;将两帧图像的高维语义特征进行均值池化操作至预设维度,得到两帧图像之间的视觉相对位姿估计值。
在其中一个实施例中,还包括:将所述高维语义特征分别输入卷积神经网络不同的作用域中,将不同作用域输出的结果按元素相加,得到所述预设维度的权重掩膜;将所述权重掩膜与所述高维语义特征进行元素相乘,得到排除干扰噪声的高维语义特征。
在其中一个实施例中,所述惯导信息位姿估计网络为循环神经网络;还包括:将两帧图像的惯导信息输入所述循环神经网络,得到两帧图像之间的惯导相对位姿估计值。
在其中一个实施例中,还包括:将两帧图像之间的惯导信息分别输入到不同长度的循环神经网络中,将不同长度的循环神经网络的输出结果进行元素相加,得到多时域惯导特征;将所述多时域惯导特征输入全连接层,由全连接层输出预设维度的惯导相对位姿估计值。
在其中一个实施例中,还包括:将原始图像输入预先设置的深度预测网络,通过所述深度预测网络的多层卷积层提取得到原始图像的隐层特征;根据多层卷积层输出的隐层特征,构建特征金字塔,将特征金字塔输入对应的所述多层卷积层中,得到多尺度隐层特征;通过所述深度预测网络的回归器对所述多尺度隐层特征进行解析,得到与原始图像尺寸相同的深度估计值。
在其中一个实施例中,还包括:获取前后两帧图像之间所述相对位姿估计值与所述深度估计值之间的转换关系为:
Figure 327928DEST_PATH_IMAGE001
其中,
Figure 939169DEST_PATH_IMAGE002
Figure 872490DEST_PATH_IMAGE003
表示
Figure 10211DEST_PATH_IMAGE004
Figure 862629DEST_PATH_IMAGE005
时刻的匹配像素值,
Figure 85800DEST_PATH_IMAGE006
表示相机内参,
Figure 822812DEST_PATH_IMAGE007
表示
Figure 454519DEST_PATH_IMAGE008
Figure 87626DEST_PATH_IMAGE009
时刻之间的相对位姿估计值,
Figure 63672DEST_PATH_IMAGE010
表示
Figure 197850DEST_PATH_IMAGE011
时刻的视场内物体深度估计值;根据所述转换关系,得到
Figure 44583DEST_PATH_IMAGE012
时刻原始图像与
Figure 255116DEST_PATH_IMAGE013
时刻的合成图像的重投影误差为:
Figure 187300DEST_PATH_IMAGE014
其中,
Figure 266114DEST_PATH_IMAGE015
表示重投影误差,
Figure 357567DEST_PATH_IMAGE016
表示
Figure 598056DEST_PATH_IMAGE017
时刻的合成图像,
Figure 283115DEST_PATH_IMAGE018
表示
Figure 11293DEST_PATH_IMAGE019
时刻原始图像;利用所述深度预测网络得到
Figure 98198DEST_PATH_IMAGE020
Figure 775167DEST_PATH_IMAGE022
时刻的深度估计值
Figure 806577DEST_PATH_IMAGE023
Figure 227194DEST_PATH_IMAGE024
,将所述深度估计值
Figure 778392DEST_PATH_IMAGE025
Figure 626262DEST_PATH_IMAGE026
中每一个像素点的深度转换为全局坐标系下的深度,并得到匹配空间点坐标;将
Figure 285914DEST_PATH_IMAGE027
Figure 103697DEST_PATH_IMAGE028
时刻计算得到的空间点坐标的二范数作为尺度全局一致性误差为:
Figure 165194DEST_PATH_IMAGE029
其中,
Figure 918386DEST_PATH_IMAGE030
表示匹配点在
Figure 65334DEST_PATH_IMAGE031
时刻的空间点坐标,
Figure 201655DEST_PATH_IMAGE032
表示匹配点在
Figure 852079DEST_PATH_IMAGE033
时刻的空间点坐标,
Figure 41752DEST_PATH_IMAGE034
表示尺度全局一致性误差;根据所述重投影误差和所述尺度全局一致性误差,构建用于网络训练的损失函数为:
Figure 535050DEST_PATH_IMAGE035
其中,
Figure 570002DEST_PATH_IMAGE036
表示平衡系数。
一种基于IMU/单目图像的运动场景重构无监督装置,所述装置包括:
视觉位姿获取模块,用于根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
惯导位姿获取模块,用于根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
相对位姿获取模块,用于根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
深度获取模块,用于根据预先设置的深度预测网络,得到原始图像的深度估计值;
场景重构模块,用于根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
根据预先设置的深度预测网络,得到原始图像的深度估计值;
根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;
根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
根据预先设置的深度预测网络,得到原始图像的深度估计值;
根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;
根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
上述基于IMU/单目图像的运动场景重构无监督方法和装置,通过位姿预测网络,预测两帧图像之间的视觉相对位姿估计值,以及通过构建的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值,然后将视觉相对位姿估计值和惯导相对位姿估计值进行融合,可以得到包含惯导和视觉两方面信息的相对位姿估计值,然利用深度预测网络,得到原始图像的深度估计值,然后根据融合了惯导信息和视觉信息的相对位姿估计值与深度估计值之间的转换关系,构建深度学习的损失函数,根据损失函数对上述网络进行训练,可以进行对输入的图像序列进行运动场景重构。本发明实施例,利用了惯导信息,可以直接利用单目相机的图像,进行无标签的训练,提高了运动场景重构的准确性。
附图说明
图1为一个实施例中基于IMU/单目图像的运动场景重构无监督方法的流程示意图;
图2为一个实施例中相对位姿估计值计算的网络示意图;
图3为另一个实施例中深度预测网络的结构示意图;
图4为一个实施例中基于IMU/单目图像的运动场景重构无监督装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于IMU/单目图像的运动场景重构无监督方法,包括以下步骤:
步骤102,根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值。
视觉位姿预测网络可以由卷积神经网络、深度卷积网络等构成,通过视觉位姿预测网络可以提取图像的特征,通过特征之间的匹配、对比等方式,可以得到两帧图像之间的视觉相对位姿估计值。
步骤104,根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值。
惯导信息位姿估计网络可以采用循环神经网络实现,通过对不同时间输入的两帧图像输入循环神经网络,进行匹配、相加等操作之后,可以得到惯导相对位姿估计值。
步骤106,根据视觉相对位姿估计值和惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值。
将视觉相对位姿估计值和惯导相对位姿估计值采用松耦合的方式,可以将两种信息进行融合,得到两帧图像之间的相对位姿估计值。
步骤108,根据预先设置的深度预测网络,得到原始图像的深度估计值。
深度预测网络指的是预测原始图像深度估计值的网络,一般可以采用卷积层构建的深度网络实现,原始图像指的是单目相机拍摄的图像,深度估计值指的是针对于原始图像中的每个像素点,映射至深度对应的值。
步骤110,根据前后两帧图像之间相对位姿估计值与深度估计值的转换关系,构建用于网络训练的损失函数。
对于同一运动场景,时间前后的两幅图像,在相对位姿估计值和深度之间存在一定的内在联系,结合这部分联系,可以得到两幅图像的位姿信息与深度估计值的转换关系。损失函数指的是,通过深度学习时,预测值与实际值之间的差异信息,根据差异信息,利用学习器可以进行反向传播,对网络中的参数进行优化,从而提高预测的准确性,提高各种情况下重构运动场景的准确性。
步骤112,根据损失函数,对视觉位姿预测网络、惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
上述基于IMU/单目图像的运动场景重构无监督方法中,通过位姿预测网络,预测两帧图像之间的视觉相对位姿估计值,以及通过构建的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值,然后将视觉相对位姿估计值和惯导相对位姿估计值进行融合,可以得到包含惯导和视觉两方面信息的相对位姿估计值,然利用深度预测网络,得到原始图像的深度估计值,然后根据融合了惯导信息和视觉信息的相对位姿估计值与深度估计值之间的转换关系,构建深度学习的损失函数,根据损失函数对上述网络进行训练,可以进行对输入的图像序列进行运动场景重构。本发明实施例,利用了惯导信息,可以直接利用单目相机的图像,进行无标签的深度学习,提高了运动场景重构的准确性。
对于步骤102,在其中一个实施例中,得到两帧图像之间的视觉相对位姿估计值的步骤包括:将两帧图像输入预先设置的视觉位姿预测网络,通过视觉位姿预测网络的多层卷积神经网路,提取两帧图像的高维语义特征,将两帧图像的高维语义特征进行均值池化操作至预设维度,得到两帧图像之间的视觉相对位姿估计值。本实施例中,通过多层神经网络,可以准确的提取图像的高维语义特征,从而提高预测的准确性。
具体的,还将高维语义特征分别输入到不同尺寸的卷积核作用域中,将不同作用域输出的结果按元素相加,得到预设维度的权重掩膜;将权重掩膜与高维语义特征进行元素相乘,得到排除干扰噪声的高维语义特征。本实施例中,主要解决外界环境存在一些障碍物以及相对于移动载体静止的物体,这些噪声不利于相对位姿的求解,因此需要将上述噪声排除。
具体的,视觉位姿预测网络的工作原理如下:
Figure 606091DEST_PATH_IMAGE037
其中,
Figure 842032DEST_PATH_IMAGE038
Figure 432413DEST_PATH_IMAGE039
分别表示第
Figure 395690DEST_PATH_IMAGE040
Figure 286285DEST_PATH_IMAGE041
层卷积层输出特征值,
Figure 817761DEST_PATH_IMAGE042
Figure 161017DEST_PATH_IMAGE043
代表第
Figure 908744DEST_PATH_IMAGE044
层卷积层的参数和偏置,
Figure 653846DEST_PATH_IMAGE045
代表卷积核后的激活函数,卷积神经网络的结构会影响整体网络的功能与运算效率,为了增强整体网络的解析能力,需设计层数较多的卷积神经网络,为了确保网络在训练过程中不出现梯度消失的现象,需使用多个残差块来构成网络的主体。
在另一个具体实施例中,多个不同尺寸作用域的小型卷积核构建了注意力网络
Figure 356223DEST_PATH_IMAGE046
,构建过程如下:
Figure 45830DEST_PATH_IMAGE047
其中,
Figure 491855DEST_PATH_IMAGE048
Figure 701250DEST_PATH_IMAGE049
Figure 574529DEST_PATH_IMAGE050
分别代表尺寸为1、3和5的卷积核,上述卷积核均作用于第
Figure 626798DEST_PATH_IMAGE051
层卷积层的输出
Figure 1148DEST_PATH_IMAGE052
上,得到的特征图按元素相加得到与
Figure 189684DEST_PATH_IMAGE053
同维度的权重掩膜
Figure 233863DEST_PATH_IMAGE054
,在训练过程中抑制噪声特征的梯度,注意力网络输出的掩膜抑制噪声特征的过程如下:
Figure 412909DEST_PATH_IMAGE055
其中,
Figure 200737DEST_PATH_IMAGE056
表示排除干扰噪声的高维语义特征。
在特征提取器的最后一层添加均值池化操作将特征图压缩至6维度代表视觉位姿估计网络输出的两帧图像间的相对位姿
Figure 509358DEST_PATH_IMAGE057
对于步骤104,在其中一个实施例中,惯导信息位姿估计网络为循环神经网络,得到惯导相对位姿估计值的步骤包括:将两帧图像的惯导信息输入所述循环神经网络,得到两帧图像之间的惯导相对位姿估计值。本实施例中,利用循环神经网络,可以有效的提取出惯导信息中的位姿信息。
具体的,将两帧图像的惯导信息分别输入到不同长度的循环神经网络中,将不同长度的循环神经网络的输出结果进行元素相加,得到多时域惯导特征,将多时域惯导特征输入到全连接层,由全连接层输出预设维度的惯导相对位姿估计值。
本实施例中,循环神经网络对于输入的惯导信息的响应可描述为:
Figure 849073DEST_PATH_IMAGE058
其中,
Figure 141514DEST_PATH_IMAGE059
代表
Figure 201874DEST_PATH_IMAGE060
时刻的隐层特征,循环神经网络
Figure 240368DEST_PATH_IMAGE061
通过网络参数
Figure 891929DEST_PATH_IMAGE062
将不同时刻的隐层特征连接起来,将
Figure 265142DEST_PATH_IMAGE063
代入softmax函数得到当前时刻的输出
Figure 394772DEST_PATH_IMAGE064
由于单一长度的循环神经网络接受单一长度的惯导信息,从而限制了网络对于不同尺度数据的解析能力,为了确保网络的整体运算成本,可以设计不同长度的循环神经网络同时解析不同时间段的惯导数据,增强网络的解析能力,具体过程如下所示:
Figure 677986DEST_PATH_IMAGE065
其中,
Figure 611700DEST_PATH_IMAGE066
Figure 613154DEST_PATH_IMAGE067
Figure 280896DEST_PATH_IMAGE068
分别代表长度为3、5和10的循环神经网络,imu指的是惯导信息,将它们的输出按元素相加,经全连接层
Figure 808829DEST_PATH_IMAGE069
的处理变为预设维度的相对位姿
Figure 536614DEST_PATH_IMAGE070
值得说明的是,为了便于计算,可以将预设维度设置为6。
对于步骤106,如图2所示,在其中一个实施例中,将视觉位姿预测网络输出的视觉相对位姿估计值与惯导信息位姿估计网络输出的惯导相对位姿估计值使用松耦合的方式进行融合得到最终的两帧图像之间的相对位姿估计值为:
Figure 25364DEST_PATH_IMAGE071
其中,
Figure 106583DEST_PATH_IMAGE072
指的是相对位姿估计值。
对于步骤108,在其中一个实施例中,预测原始图像的深度估计值的步骤包括:将原始图像输入预先设置的深度预测网络,通过深度预测网络的多层卷积层提取得到原始图像的隐层特征;根据多层卷积层输出的隐层特征,构建特征金字塔,将特征金字塔输入对应的多层卷积层中,得到多尺度隐层特征;通过深度预测网络的回归器对多尺度隐层特征进行解析,得到与原始图像尺寸相同的深度估计值。
具体的,如图3所示,提取隐层特征的步骤如下:
Figure 364389DEST_PATH_IMAGE073
其中,
Figure 263075DEST_PATH_IMAGE074
表示深度预测网络的多层卷积层,
Figure 363755DEST_PATH_IMAGE075
Figure 107720DEST_PATH_IMAGE076
分别表示多层卷积层的参数和偏置。利用多层卷积层输出隐层特征h,可以构建特征金字塔,从而输出多尺度隐层特征,从而利用回归器解析得到原始图像尺寸相同的深度估计值,具体过程如下:
Figure 593934DEST_PATH_IMAGE077
其中,
Figure 663521DEST_PATH_IMAGE078
表示回归器,
Figure 126864DEST_PATH_IMAGE079
Figure 940099DEST_PATH_IMAGE080
分别表示回归器的参数和偏置。
对于步骤110,在其中一个实施例中,构建损失函数的步骤包括:获取前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系为:
Figure 297131DEST_PATH_IMAGE081
其中,
Figure 803199DEST_PATH_IMAGE082
Figure 488258DEST_PATH_IMAGE083
表示
Figure 714971DEST_PATH_IMAGE084
Figure 801876DEST_PATH_IMAGE085
时刻的匹配像素值,
Figure 478845DEST_PATH_IMAGE086
表示相机内参,
Figure 651200DEST_PATH_IMAGE087
表示
Figure 665293DEST_PATH_IMAGE088
Figure 606704DEST_PATH_IMAGE089
时刻之间的相对位姿估计值,
Figure 825546DEST_PATH_IMAGE090
表示
Figure 485197DEST_PATH_IMAGE091
时刻的视场内物体深度估计值;根据转换关系,得到
Figure 178347DEST_PATH_IMAGE093
时刻原始图像与
Figure 833319DEST_PATH_IMAGE094
时刻的合成图像的重投影误差为:
Figure 852090DEST_PATH_IMAGE095
其中,
Figure 999038DEST_PATH_IMAGE096
表示重投影误差,
Figure 636824DEST_PATH_IMAGE097
表示
Figure 552827DEST_PATH_IMAGE098
时刻的合成图像,
Figure 476921DEST_PATH_IMAGE099
表示
Figure 970219DEST_PATH_IMAGE100
时刻原始图像;利用深度预测网络得到
Figure 270751DEST_PATH_IMAGE101
Figure 306840DEST_PATH_IMAGE102
时刻的深度估计值
Figure 401835DEST_PATH_IMAGE103
Figure 897276DEST_PATH_IMAGE104
,将深度估计值
Figure 1498DEST_PATH_IMAGE105
Figure 360935DEST_PATH_IMAGE106
中每一个像素点的深度转换为全局坐标系下,得到匹配空间点坐标;将
Figure 17044DEST_PATH_IMAGE107
Figure 94722DEST_PATH_IMAGE011
时刻计算得到的空间点坐标的二范数作为尺度全局一致性误差为:
Figure 2635DEST_PATH_IMAGE108
其中,
Figure 623103DEST_PATH_IMAGE109
表示匹配点在
Figure 325480DEST_PATH_IMAGE111
时刻的空间点坐标,
Figure 156033DEST_PATH_IMAGE112
表示匹配点在
Figure 602058DEST_PATH_IMAGE113
时刻的空间点坐标,
Figure 326300DEST_PATH_IMAGE114
表示尺度全局一致性误差;根据重投影误差和尺度全局一致性误差,构建用于网络训练的损失函数为:
Figure 933999DEST_PATH_IMAGE115
其中,
Figure 251848DEST_PATH_IMAGE116
表示平衡系数。
在构建损失函数之后,可以通过Adam算法训练整体网络的参数与偏置:
Figure 612815DEST_PATH_IMAGE117
其中,
Figure 332510DEST_PATH_IMAGE118
为卷积层参数的偏导数,
Figure 111110DEST_PATH_IMAGE119
Figure 40889DEST_PATH_IMAGE120
是衰减系数,
Figure 828716DEST_PATH_IMAGE121
是学习率。
训练好网络之后,视觉位姿预测网络、惯导信息位姿估计网络以及深度预测网络可以准确的输出预测值,从而可以得到准确的运动场景。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于IMU/单目图像的运动场景重构无监督装置,包括:视觉位姿获取模块402、惯导位姿获取模块404、相对位姿获取模块406、深度获取模块408和场景重构模块410,其中:
视觉位姿获取模块402,用于根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
惯导位姿获取模块404,用于根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
相对位姿获取模块406,用于根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
深度获取模块408,用于根据预先设置的深度预测网络,得到原始图像的深度估计值;
场景重构模块410,用于根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
在其中一个实施例中,视觉位姿获取模块402还用于将两帧图像输入预先设置的视觉位姿预测网络,通过所述视觉位姿预测网络的多层卷积神经网路,提取两帧图像的高维语义特征;将两帧图像的高维语义特征进行均值池化操作至预设维度,得到两帧图像之间的视觉相对位姿估计值。
在其中一个实施例中,视觉位姿获取模块402还用于将所述高维语义特征分别输入卷积神经网络不同的作用域中,将不同作用域输出的结果按元素相加,得到所述预设维度的权重掩膜;将所述权重掩膜与所述高维语义特征进行元素相乘,得到排除干扰噪声的高维语义特征。
在其中一个实施例中,所述惯导信息位姿估计网络为循环神经网络;惯导位姿获取模块404还用于将两帧图像的惯导信息输入所述循环神经网络,得到两帧图像之间的惯导相对位姿估计值。
在其中一个实施例中,惯导位姿获取模块404还用于将两帧图像的惯导信息分别输入不同长度的循环神经网络中,将不同长度的循环神经网络的输出结果进行元素相加,得到多时域惯导特征;将所述多时域惯导特征输入全连接层,由全连接层输出预设维度的惯导相对位姿估计值。
在其中一个实施例中,深度获取模块408还用于将原始图像输入预先设置的深度预测网络,通过所述深度预测网络的多层卷积层提取得到原始图像的隐层特征;根据多层卷积层输出的隐层特征,构建特征金字塔,将特征金字塔输入对应的所述多层卷积层中,得到多尺度隐层特征;通过所述深度预测网络的回归器对所述多尺度隐层特征进行解析,得到与原始图像尺寸相同的深度估计值。
在其中一个实施例中,场景重构模块410还用于获取前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系为:
Figure 402917DEST_PATH_IMAGE122
其中,
Figure 617998DEST_PATH_IMAGE123
Figure 520226DEST_PATH_IMAGE124
表示
Figure 111744DEST_PATH_IMAGE125
Figure 274872DEST_PATH_IMAGE126
时刻的匹配像素值,
Figure 785488DEST_PATH_IMAGE127
表示相机内参,
Figure 565225DEST_PATH_IMAGE128
表示
Figure 429276DEST_PATH_IMAGE129
Figure 86391DEST_PATH_IMAGE130
时刻之间的相对位姿估计值,
Figure 908853DEST_PATH_IMAGE131
表示
Figure 910307DEST_PATH_IMAGE133
时刻的视场内物体深度估计值;根据所述转换关系,得到
Figure 843628DEST_PATH_IMAGE134
时刻原始图像与
Figure 105982DEST_PATH_IMAGE135
时刻的合成图像的重投影误差为:
Figure 833767DEST_PATH_IMAGE136
其中,
Figure 322517DEST_PATH_IMAGE137
表示重投影误差,
Figure 403737DEST_PATH_IMAGE138
表示
Figure 661543DEST_PATH_IMAGE139
时刻的合成图像,
Figure 825808DEST_PATH_IMAGE140
表示
Figure 660909DEST_PATH_IMAGE141
时刻原始图像;利用所述深度预测网络得到
Figure 936032DEST_PATH_IMAGE142
Figure 313924DEST_PATH_IMAGE143
时刻的深度估计值
Figure 383511DEST_PATH_IMAGE144
Figure 975684DEST_PATH_IMAGE145
,将所述深度估计值
Figure 788919DEST_PATH_IMAGE146
Figure 21317DEST_PATH_IMAGE147
中每一个像素点的深度转换为全局坐标系下,并得到匹配空间点坐标;将
Figure 386439DEST_PATH_IMAGE148
Figure 337078DEST_PATH_IMAGE149
时刻计算得到的空间点坐标的二范数作为尺度全局一致性误差为:
Figure 954004DEST_PATH_IMAGE150
其中,
Figure 650696DEST_PATH_IMAGE151
表示匹配点在
Figure 327664DEST_PATH_IMAGE152
时刻的空间点坐标,
Figure 500020DEST_PATH_IMAGE153
表示匹配点在
Figure DEST_PATH_IMAGE154
时刻的空间点坐标,
Figure 248533DEST_PATH_IMAGE155
表示尺度全局一致性误差;根据所述重投影误差和所述尺度全局一致性误差,构建用于网络训练的损失函数为:
Figure 455523DEST_PATH_IMAGE156
其中,
Figure 37814DEST_PATH_IMAGE157
表示平衡系数。
关于基于IMU/单目图像的运动场景重构无监督装置的具体限定可以参见上文中对于基于IMU/单目图像的运动场景重构无监督方法的限定,在此不再赘述。上述基于IMU/单目图像的运动场景重构无监督装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于IMU/单目图像的运动场景重构无监督方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于IMU/单目图像的运动场景重构无监督方法,所述方法包括:
根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
根据预先设置的深度预测网络,得到原始图像的深度估计值;
根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;
根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
2.根据权利要求1所述的方法,其特征在于,所述根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值,包括:
将两帧图像输入预先设置的视觉位姿预测网络,通过所述视觉位姿预测网络的多层卷积神经网路,提取两帧图像的高维语义特征;
将两帧图像的高维语义特征进行均值池化操作至预设维度,得到两帧图像之间的视觉相对位姿估计值。
3.根据权利要求2所述的方法,其特征在于,在提取两帧图像的高维语义特征之后,所述方法还包括:
将所述高维语义特征分别输入卷积神经网络的不同作用域中,将不同作用域输出的结果按元素相加,得到所述预设维度的权重掩膜;
将所述权重掩膜与所述高维语义特征进行元素相乘,得到排除干扰噪声的高维语义特征。
4.根据权利要求1所述的方法,其特征在于,所述惯导信息位姿估计网络为循环神经网络;
所述根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值,包括:
将两帧图像的惯导信息输入所述循环神经网络,得到两帧图像之间的惯导相对位姿估计值。
5.根据权利要求4所述的方法,其特征在于,所述将两帧图像的惯导信息输入所述循环神经网络,得到两帧图像之间的惯导相对位姿估计值,包括:
将两帧图像的惯导信息分别输入到不同长度的循环神经网络中,将不同长度的循环神经网络的输出结果进行元素相加,得到多时域惯导特征;
将所述多时域惯导特征输入全连接层,由全连接层输出预设维度的惯导相对位姿估计值。
6.根据权利要求1至5任一项所述的方法,其特征在于,根据预先设置的深度预测网络,得到原始图像的深度估计值,包括:
将原始图像输入预先设置的深度预测网络,通过所述深度预测网络的多层卷积层提取得到原始图像的隐层特征;
根据多层卷积层输出的隐层特征,构建特征金字塔,将特征金字塔输入对应的所述多层卷积层中,得到多尺度隐层特征;
通过所述深度预测网络的回归器对所述多尺度隐层特征进行解析,得到与原始图像尺寸相同的深度估计值。
7.根据权利要求1至5任一项所述的方法,其特征在于,根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数,包括:
获取前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系为:
Figure 966076DEST_PATH_IMAGE001
其中,
Figure 352058DEST_PATH_IMAGE002
Figure 397374DEST_PATH_IMAGE003
表示
Figure 995846DEST_PATH_IMAGE004
Figure 75797DEST_PATH_IMAGE005
时刻的匹配像素值,
Figure 101522DEST_PATH_IMAGE006
表示相机内参,
Figure 634135DEST_PATH_IMAGE007
表示
Figure 833035DEST_PATH_IMAGE008
Figure 705176DEST_PATH_IMAGE009
时刻之间的相对位姿估计值,
Figure 964119DEST_PATH_IMAGE010
表示
Figure 921711DEST_PATH_IMAGE011
时刻的视场内物体的深度估计值;
根据所述转换关系,得到
Figure 924302DEST_PATH_IMAGE012
时刻原始图像与
Figure 412134DEST_PATH_IMAGE013
时刻的合成图像的重投影误差为:
Figure 45241DEST_PATH_IMAGE014
其中,
Figure 286866DEST_PATH_IMAGE015
表示重投影误差,
Figure 827569DEST_PATH_IMAGE016
表示
Figure 674302DEST_PATH_IMAGE017
时刻的合成图像,
Figure 275048DEST_PATH_IMAGE018
表示
Figure 207232DEST_PATH_IMAGE019
时刻原始图像;
利用所述深度预测网络得到
Figure 551625DEST_PATH_IMAGE020
Figure 252865DEST_PATH_IMAGE021
时刻的深度估计值
Figure 290091DEST_PATH_IMAGE022
Figure 443992DEST_PATH_IMAGE023
,将所述深度估计值
Figure 592077DEST_PATH_IMAGE024
Figure 147823DEST_PATH_IMAGE025
中每一个像素点的深度转换为全局坐标系下的深度,得到匹配空间点坐标;
Figure 355950DEST_PATH_IMAGE026
Figure 997147DEST_PATH_IMAGE027
时刻计算得到的空间点坐标的二范数作为尺度全局一致性误差为:
Figure 683344DEST_PATH_IMAGE028
其中,
Figure 857711DEST_PATH_IMAGE029
表示匹配点在
Figure 236740DEST_PATH_IMAGE030
时刻的空间点坐标,
Figure 365233DEST_PATH_IMAGE031
表示匹配点在
Figure 855120DEST_PATH_IMAGE032
时刻的空间点坐标,
Figure 119879DEST_PATH_IMAGE033
表示尺度全局一致性误差;
根据所述重投影误差和所述尺度全局一致性误差,构建用于网络训练的损失函数为:
Figure 669809DEST_PATH_IMAGE034
其中,
Figure 285598DEST_PATH_IMAGE035
表示平衡系数。
CN202010395642.1A 2020-05-12 2020-05-12 一种基于imu与单目图像的运动场景重构无监督方法 Active CN111311685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010395642.1A CN111311685B (zh) 2020-05-12 2020-05-12 一种基于imu与单目图像的运动场景重构无监督方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010395642.1A CN111311685B (zh) 2020-05-12 2020-05-12 一种基于imu与单目图像的运动场景重构无监督方法

Publications (2)

Publication Number Publication Date
CN111311685A true CN111311685A (zh) 2020-06-19
CN111311685B CN111311685B (zh) 2020-08-07

Family

ID=71162794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010395642.1A Active CN111311685B (zh) 2020-05-12 2020-05-12 一种基于imu与单目图像的运动场景重构无监督方法

Country Status (1)

Country Link
CN (1) CN111311685B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950599A (zh) * 2020-07-20 2020-11-17 重庆邮电大学 一种动态环境下融合边缘信息的稠密视觉里程计方法
CN112184700A (zh) * 2020-10-21 2021-01-05 西北民族大学 基于单目相机的农业无人车障碍物感知方法及装置
CN112344922A (zh) * 2020-10-26 2021-02-09 中国科学院自动化研究所 单目视觉里程计定位方法及***
CN112561978A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 深度估计网络的训练方法、图像的深度估计方法、设备
CN112767373A (zh) * 2021-01-27 2021-05-07 大连理工大学 一种基于单目相机的机器人室内复杂场景避障方法
CN112837361A (zh) * 2021-03-05 2021-05-25 浙江商汤科技开发有限公司 一种深度估计方法及装置、电子设备和存储介质
CN113160294A (zh) * 2021-03-31 2021-07-23 中国科学院深圳先进技术研究院 图像场景深度的估计方法、装置、终端设备和存储介质
CN113570658A (zh) * 2021-06-10 2021-10-29 西安电子科技大学 基于深度卷积网络的单目视频深度估计方法
CN113744301A (zh) * 2021-08-05 2021-12-03 深圳供电局有限公司 移动机器人的运动轨迹估计方法、装置和存储介质
GB2596370A (en) * 2020-06-26 2021-12-29 Beijing Baidu Netcom Sci & Tech Co Ltd Model training method and apparatus, and prediction method and apparatus
CN114526728A (zh) * 2022-01-14 2022-05-24 浙江大学 一种基于自监督深度学习的单目视觉惯导定位方法
CN114993306A (zh) * 2022-08-04 2022-09-02 中国人民解放军国防科技大学 一种尺度自恢复的视觉惯性组合导航方法和装置
WO2023050632A1 (zh) * 2021-09-29 2023-04-06 深圳市慧鲤科技有限公司 定位方法及装置、设备、存储介质及计算机程序产品
WO2023155043A1 (zh) * 2022-02-15 2023-08-24 中国科学院深圳先进技术研究院 一种基于历史信息的场景深度推理方法、装置及电子设备
WO2023165093A1 (zh) * 2022-03-01 2023-09-07 上海商汤智能科技有限公司 视觉惯性里程计模型的训练方法、位姿估计方法、装置、电子设备、计算机可读存储介质及程序产品
CN116758131A (zh) * 2023-08-21 2023-09-15 之江实验室 一种单目图像深度估计方法、装置和计算机设备
CN117058430A (zh) * 2023-10-12 2023-11-14 北京万龙精益科技有限公司 用于视场匹配的方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110238303A1 (en) * 2005-12-15 2011-09-29 Bruno Scherzinger Land survey system
CN104811683A (zh) * 2014-01-24 2015-07-29 三星泰科威株式会社 用于估计位置的方法和设备
CN106446815A (zh) * 2016-09-14 2017-02-22 浙江大学 一种同时定位与地图构建方法
CN106856566A (zh) * 2016-12-16 2017-06-16 中国商用飞机有限责任公司北京民用飞机技术研究中心 一种基于ar设备的信息同步方法及***
CN109307508A (zh) * 2018-08-29 2019-02-05 中国科学院合肥物质科学研究院 一种基于多关键帧的全景惯导slam方法
CN110047142A (zh) * 2019-03-19 2019-07-23 中国科学院深圳先进技术研究院 无人机三维地图构建方法、装置、计算机设备及存储介质
CN111156998A (zh) * 2019-12-26 2020-05-15 华南理工大学 一种基于rgb-d相机与imu信息融合的移动机器人定位方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110238303A1 (en) * 2005-12-15 2011-09-29 Bruno Scherzinger Land survey system
CN104811683A (zh) * 2014-01-24 2015-07-29 三星泰科威株式会社 用于估计位置的方法和设备
CN106446815A (zh) * 2016-09-14 2017-02-22 浙江大学 一种同时定位与地图构建方法
CN106856566A (zh) * 2016-12-16 2017-06-16 中国商用飞机有限责任公司北京民用飞机技术研究中心 一种基于ar设备的信息同步方法及***
CN109307508A (zh) * 2018-08-29 2019-02-05 中国科学院合肥物质科学研究院 一种基于多关键帧的全景惯导slam方法
CN110047142A (zh) * 2019-03-19 2019-07-23 中国科学院深圳先进技术研究院 无人机三维地图构建方法、装置、计算机设备及存储介质
CN111156998A (zh) * 2019-12-26 2020-05-15 华南理工大学 一种基于rgb-d相机与imu信息融合的移动机器人定位方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11841921B2 (en) 2020-06-26 2023-12-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Model training method and apparatus, and prediction method and apparatus
GB2596370B (en) * 2020-06-26 2023-05-24 Beijing Baidu Netcom Sci & Tech Co Ltd Model training method and apparatus, and prediction method and apparatus
GB2596370A (en) * 2020-06-26 2021-12-29 Beijing Baidu Netcom Sci & Tech Co Ltd Model training method and apparatus, and prediction method and apparatus
CN111950599A (zh) * 2020-07-20 2020-11-17 重庆邮电大学 一种动态环境下融合边缘信息的稠密视觉里程计方法
CN111950599B (zh) * 2020-07-20 2022-07-01 重庆邮电大学 一种动态环境下融合边缘信息的稠密视觉里程计方法
CN112184700B (zh) * 2020-10-21 2022-03-18 西北民族大学 基于单目相机的农业无人车障碍物感知方法及装置
CN112184700A (zh) * 2020-10-21 2021-01-05 西北民族大学 基于单目相机的农业无人车障碍物感知方法及装置
CN112344922A (zh) * 2020-10-26 2021-02-09 中国科学院自动化研究所 单目视觉里程计定位方法及***
CN112561978A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 深度估计网络的训练方法、图像的深度估计方法、设备
CN112561978B (zh) * 2020-12-18 2023-11-17 北京百度网讯科技有限公司 深度估计网络的训练方法、图像的深度估计方法、设备
CN112767373A (zh) * 2021-01-27 2021-05-07 大连理工大学 一种基于单目相机的机器人室内复杂场景避障方法
CN112767373B (zh) * 2021-01-27 2022-09-02 大连理工大学 一种基于单目相机的机器人室内复杂场景避障方法
CN112837361A (zh) * 2021-03-05 2021-05-25 浙江商汤科技开发有限公司 一种深度估计方法及装置、电子设备和存储介质
CN113160294A (zh) * 2021-03-31 2021-07-23 中国科学院深圳先进技术研究院 图像场景深度的估计方法、装置、终端设备和存储介质
CN113570658A (zh) * 2021-06-10 2021-10-29 西安电子科技大学 基于深度卷积网络的单目视频深度估计方法
CN113744301A (zh) * 2021-08-05 2021-12-03 深圳供电局有限公司 移动机器人的运动轨迹估计方法、装置和存储介质
WO2023050632A1 (zh) * 2021-09-29 2023-04-06 深圳市慧鲤科技有限公司 定位方法及装置、设备、存储介质及计算机程序产品
CN114526728B (zh) * 2022-01-14 2023-12-05 浙江大学 一种基于自监督深度学习的单目视觉惯导定位方法
CN114526728A (zh) * 2022-01-14 2022-05-24 浙江大学 一种基于自监督深度学习的单目视觉惯导定位方法
WO2023155043A1 (zh) * 2022-02-15 2023-08-24 中国科学院深圳先进技术研究院 一种基于历史信息的场景深度推理方法、装置及电子设备
WO2023165093A1 (zh) * 2022-03-01 2023-09-07 上海商汤智能科技有限公司 视觉惯性里程计模型的训练方法、位姿估计方法、装置、电子设备、计算机可读存储介质及程序产品
CN114993306B (zh) * 2022-08-04 2022-10-28 中国人民解放军国防科技大学 一种尺度自恢复的视觉惯性组合导航方法和装置
CN114993306A (zh) * 2022-08-04 2022-09-02 中国人民解放军国防科技大学 一种尺度自恢复的视觉惯性组合导航方法和装置
CN116758131A (zh) * 2023-08-21 2023-09-15 之江实验室 一种单目图像深度估计方法、装置和计算机设备
CN116758131B (zh) * 2023-08-21 2023-11-28 之江实验室 一种单目图像深度估计方法、装置和计算机设备
CN117058430A (zh) * 2023-10-12 2023-11-14 北京万龙精益科技有限公司 用于视场匹配的方法、装置、电子设备和存储介质
CN117058430B (zh) * 2023-10-12 2023-12-22 北京万龙精益科技有限公司 用于视场匹配的方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111311685B (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111311685B (zh) 一种基于imu与单目图像的运动场景重构无监督方法
Ming et al. Deep learning for monocular depth estimation: A review
Li et al. Building and optimization of 3D semantic map based on Lidar and camera fusion
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
Tonioni et al. Unsupervised domain adaptation for depth prediction from images
CN111898635A (zh) 神经网络的训练方法、数据获取方法和装置
Saputra et al. Learning monocular visual odometry through geometry-aware curriculum learning
CN111047548A (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
Yang et al. Bayesian denet: Monocular depth prediction and frame-wise fusion with synchronized uncertainty
CN111539941B (zh) 帕金森病腿部灵活性任务评估方法及***、存储介质及终端
CN111160294B (zh) 基于图卷积网络的步态识别方法
CN106295613A (zh) 一种无人机目标定位方法及***
Huang et al. Contrast-weighted dictionary learning based saliency detection for VHR optical remote sensing images
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
CN115661336A (zh) 一种三维重建方法及相关装置
CN115170628A (zh) 基于光线隐式场的多视角建模方法、装置和建模设备
Sun et al. Two-stage deep regression enhanced depth estimation from a single RGB image
Zhou et al. A superior image inpainting scheme using Transformer-based self-supervised attention GAN model
CN114937125A (zh) 可重建度量信息预测方法、装置、计算机设备和存储介质
CN117058474B (zh) 一种基于多传感器融合的深度估计方法及***
CN113989854A (zh) 一种三维人体姿态估计方法、***、装置及介质
CN117635444A (zh) 基于辐射差和空间距离的深度补全方法、装置和设备
Ge et al. An improved U-net architecture for image dehazing
CN112686830A (zh) 基于图像分解的单一深度图的超分辨率方法
CN116958958A (zh) 基于图卷积双流形状先验自适应类别级物体姿态估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant