CN114663496B - 一种基于卡尔曼位姿估计网络的单目视觉里程计方法 - Google Patents

一种基于卡尔曼位姿估计网络的单目视觉里程计方法 Download PDF

Info

Publication number
CN114663496B
CN114663496B CN202210290482.3A CN202210290482A CN114663496B CN 114663496 B CN114663496 B CN 114663496B CN 202210290482 A CN202210290482 A CN 202210290482A CN 114663496 B CN114663496 B CN 114663496B
Authority
CN
China
Prior art keywords
pose
estimation network
network
loss function
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210290482.3A
Other languages
English (en)
Other versions
CN114663496A (zh
Inventor
曾慧
修海鑫
刘红敏
樊彬
张利欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Shunde Graduate School of USTB
Original Assignee
University of Science and Technology Beijing USTB
Shunde Graduate School of USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB, Shunde Graduate School of USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202210290482.3A priority Critical patent/CN114663496B/zh
Publication of CN114663496A publication Critical patent/CN114663496A/zh
Application granted granted Critical
Publication of CN114663496B publication Critical patent/CN114663496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于卡尔曼位姿估计网络的单目视觉里程计方法,属于计算机视觉技术领域。所述方法包括:构建深度估计网络和基于卡尔曼滤波的位姿估计网络;根据位姿估计网络输出的每对相邻帧图像之间的位姿变换以及深度估计网络输出的输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数;在构建的位姿估计网络与深度估计网络中,引入变分自动编码器结构,计算变分自动编码器损失函数;基于得到的光度误差损失函数和变分自动编码器损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络;利用训练好的位姿估计网络估计每帧图像对应的相机位姿。采用本发明,能够提高相机位姿估计的精度并适应帧缺失的情况。

Description

一种基于卡尔曼位姿估计网络的单目视觉里程计方法
技术领域
本发明涉及计算机视觉技术领域,特别是指一种基于卡尔曼位姿估计网络的单目视觉里程计方法。
背景技术
视觉里程计作为同时定位与建图技术的一部分,广泛应用在机器人导航、自动驾驶、增强现实、可穿戴计算等领域。视觉里程计是指根据输入视频图像帧估计相机当前的位置与姿态的方法。根据采用传感器的种类和数目不同,视觉里程计可分为单目视觉里程计、双目视觉里程计以及融合惯性信息的视觉里程计等。其中,单目视觉里程计具有着仅需要一个相机,对硬件要求较低、无需矫正等优点。
传统的视觉里程计方法首先进行图像特征提取与匹配,然后根据几何关系估计相邻两帧之间的相对位姿。这种方法在实际应用中取得了不错的结果,是当前视觉里程计的主流方法,但其存在计算性能与鲁棒性难以平衡的问题。
基于深度学习的单目视觉里程计可分为有监督的方法和自监督的方法。自监督的方法仅仅需要输入视频图像帧,不需要采集真实的位姿,没有对额外设备的依赖,适用性比有监督的方法更为广泛。
现有的许多自监督方法没有考虑帧与帧之间的关联,帧间的信息没有被充分利用,导致训练出的网络难以估计出更为精确的位姿,也不能适应帧缺失的情况。此外,场景中的运动物体,其与场景的欧氏变换不一致,不满足静态场景的假设,难以用一个欧氏变换去描述场景的运动,导致网络的估计结果出现偏差。
发明内容
本发明实施例提供了一种基于卡尔曼位姿估计网络的单目视觉里程计方法,能够提高相机位姿估计的精度并适应帧缺失的情况。所述技术方案如下:
本发明实施例提供了一种基于卡尔曼位姿估计网络的单目视觉里程计方法,包括:
构建深度估计网络和基于卡尔曼滤波的位姿估计网络;其中,位姿估计网络,用于输出输入的每对相邻帧图像之间的位姿变换,深度估计网络,用于输出输入帧的深度图像;
根据输出的每对相邻帧图像之间的位姿变换以及输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数;
在构建的位姿估计网络与深度估计网络中,引入变分自动编码器结构,计算变分自动编码器损失函数;
基于得到的光度误差损失函数和变分自动编码器损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络;
利用训练好的位姿估计网络估计待估计位姿的视频图像序列中每帧图像对应的相机位姿。
进一步地,所述位姿估计网络包括:位姿测量网络、位姿加权融合网络、位姿更新网络和位姿预测网络;其中,
通过位姿测量网络对输入的相邻帧图像It-1和It进行编码,得到t时刻的位姿测量向量Cmeasure,t
Cmeasure,t=Measure(It-1,It)
其中,It-1和It分别表示t-1时刻和t时刻的图像,Measure()为所述位姿测量网络;
将位姿测量向量Cmeasure,t和位姿预测向量Cpred,t输入到位姿加权融合网络,得到t时刻的位姿加权融合向量Cfuse,t
Cfuse,t=(1-Wt)*Cmeasure,t+Wt*Cpred,t
其中,Wt为位姿加权融合网络中最后一层全连接层输出的[0,1]之间的权重;Cpred,t为在将相邻帧图像It-2、It-1输入位姿估计网络时,位姿预测网络输出的t时刻的位姿预测向量,Cpred,t=Predict(Cfuse,t-1),Cfuse,t-1为t-1时刻的位姿加权融合向量,Predict为所述位姿预测网络;
将位姿加权融合向量Cfuse,t输入位姿更新网络估计位姿变换Tt→t-1
Tt→t-1=Update(Cfuse,t)
其中,Update()为所述位姿更新网络;Tt→t-1表示从It-1到It的6自由度相对位姿向量,包括:相对旋转和相对位移。
进一步地,位姿估计网络与深度估计网络都采用编码器-解码器结构。
进一步地,所述根据输出的每对相邻帧图像之间的位姿变换以及输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数包括:
将位姿估计网络输出的每对相邻帧图像之间的位姿变换相乘得到较长时段的位姿变换,基于得到的较长时段的位姿变换,计算图像之间基于运动加权的光度误差;
根据计算得到的光度误差,计算视频图像序列基于运动加权的光度误差损失函数。
进一步地,所述将位姿估计网络输出的每对相邻帧图像之间的位姿变换相乘得到较长时段的位姿变换,基于得到的较长时段的位姿变换,计算图像之间基于运动加权的光度误差包括:
对于长度为N的一段视频图像序列,其对应的时刻为t0,t1,...,tN-1,将位姿估计网络输出的每对相邻帧图像之间的位姿进行累积相乘,得到较长时段的位姿变换
Figure BDA0003561639670000031
其中,
Figure BDA0003561639670000032
为由时刻tj到时刻ti的图像之间的位姿变换;N为输入位姿估计网络与深度估计网络的每个批次的视频图像序列的长度;
对于图像
Figure BDA0003561639670000033
上的一个点
Figure BDA0003561639670000034
其三维坐标由其深度图像
Figure BDA0003561639670000035
还原;其在图像
Figure BDA0003561639670000036
上对应的投影点
Figure BDA0003561639670000037
表示为:
Figure BDA0003561639670000038
其中,K为摄相机内参数;
Figure BDA0003561639670000039
为tj时刻的深度图像;
通过对图像
Figure BDA00035616396700000310
采样,得到tj时刻图像
Figure BDA00035616396700000311
的重构图像
Figure BDA00035616396700000312
Figure BDA00035616396700000313
对于
Figure BDA00035616396700000314
处的像素
Figure BDA00035616396700000315
使用
Figure BDA00035616396700000316
计算其运动加权项Wmw
Figure BDA00035616396700000317
利用得到的运动加权项Wmw,计算图像
Figure BDA00035616396700000318
Figure BDA00035616396700000319
之间基于运动加权的光度误差:
Figure BDA00035616396700000320
其中,
Figure BDA00035616396700000321
表示图像
Figure BDA00035616396700000322
Figure BDA00035616396700000323
之间基于运动加权的光度误差,
Figure BDA0003561639670000041
表示原图像
Figure BDA0003561639670000042
与重构图像
Figure BDA0003561639670000043
之间的结构相似性,α0、α1、α2为控制各部分比例的超参数,符号*表示像素间乘积,‖·‖1表示1范数,‖·‖2表示2范数。
进一步地,在利用得到的运动加权项Wmw,计算图像
Figure BDA0003561639670000044
Figure BDA0003561639670000045
之间基于运动加权的光度误差之前,所述方法还包括:
确定参与光度误差计算的像素,将其标记为mask:
Figure BDA0003561639670000046
其中,
Figure BDA0003561639670000047
为ti时刻的原图像,
Figure BDA0003561639670000048
为tj时刻的原图像,
Figure BDA0003561639670000049
为从ti时刻的原图像
Figure BDA00035616396700000410
采样得到的tj时刻图像
Figure BDA00035616396700000411
的重构图像,‖·‖*代表光度误差,即1范数或2范数;
以便在计算图像
Figure BDA00035616396700000412
Figure BDA00035616396700000413
之间基于运动加权的光度误差时,仅用mask标记了的像素进行计算。
进一步地,所述光度误差损失函数表示为:
Figure BDA00035616396700000414
其中,Lp表示光度误差损失函数。
进一步地,变分自动编码器损失函数表示为:
Figure BDA00035616396700000415
其中,LVAE表示变分自动编码器损失函数,xd、xp都表示输入图像,λ1、λ2都表示超参数;pη(c)为先验分布,c为该分布的自变量;qd(cd|xd)为深度估计网络编码cd的被采样分布;qp(cp|xp)为深度估计网络编码cp的被采样分布,KL(·)为KL散度,KL(qd(cd|xd)||pη(c))表示qd(cd|xd)对于pη(c)的KL散度,KL(qp(cp|xp)||pη(c))表示qp(cp|xp)对于pη(c)的KL散度,
Figure BDA00035616396700000416
为将cd与cp分别输入深度估计网络与位姿估计网络的解码器得到的输出,进而生成的重构图像
Figure BDA00035616396700000417
的概率分布,
Figure BDA00035616396700000418
表示数学期望,cd~qd(cd|xd)表示cd服从qd(cd|xd),cp~qp(cp|xp)表示cp服从qp(cp|xp),
Figure BDA00035616396700000419
表示在满足cd~qd(cd|xd)及cp~qp(cp|xp)的条件下,
Figure BDA00035616396700000420
的数学期望;cd~qd(cd|xd)表示cd服从qd(cd|xd)分布;cp~qp(cp|xp)表示cp服从qp(cp|xp)分布。
进一步地,所述基于得到的光度误差损失函数和变分自动编码器损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络包括:
对于深度估计网络的输出,计算深度平滑损失函数:
Figure BDA0003561639670000051
其中,
Figure BDA0003561639670000052
为视差,与深度图像Dt成反比例关系,
Figure BDA0003561639670000053
分别表示x方向与y方向上的偏导数,It为t时刻的图像;
基于得到的深度平滑损失函数、光度误差损失函数和变分自动编码器损失函数,确定最终的损失函数L:
L=Lp+λLs+LVAE
其中,λ为控制深度平滑损失函数比例的超参数,Lp表示光度误差损失函数,LVAE表示变分自动编码器损失函数;
利用得到的最终的损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络。
进一步地,所述采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络包括:
将一个批次的视频图像序列中的所有图像输入到位姿估计网络与深度估计网络中,对位姿估计网络与深度估计网络进行训练;
将一个批次的视频图像序列中的所有图像输入到深度估计网络中,并将该批次的视频图像序列中的一帧或多帧图像置零后再输入位姿估计网络,对位姿估计网络与深度估计网络再进行训练。
本发明实施例所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,至少具有以下优点:
(1)针对现有的许多自监督方法没有考虑帧与帧之间的关联,帧间的信息没有被充分利用,导致训练出的网络难以估计出更为精确的位姿,也不能适应帧缺失的情况的问题,本实施例构建了基于卡尔曼滤波的位姿估计网络,并以此为基础,设计了针对帧缺失情况的训练策略,使得位姿估计网络可以利用帧间的信息估计当前的位姿,更加适应帧缺失的情况;
(2)针对场景中可能存在的运动物体与场景的欧氏变换不一致,不满足静态场景的假设,难以用一个欧氏变换去描述场景的运动,导致位姿估计网络的估计结果出现偏差的问题,本实施例采用一种运动加权策略,同时在位姿估计网络与深度估计网络中引入变分自动编码器结构,使得位姿估计网络与深度估计网络可以在训练阶段更关注场景中的静止物体,提高网络泛化能力,提升网络性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于卡尔曼位姿估计网络的单目视觉里程计方法的流程示意图;
图2为本发明实施例提供的位姿估计网络的结构示意图;
图3为本发明实施例提供的基于卡尔曼位姿估计网络的单目视觉里程计方法的工作流程示意图;
图4为本发明实施例提供的方法在KITTI里程计数据集中序列09、10上估计的轨迹示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
如图1所示,本发明实施例提供了一种基于卡尔曼位姿估计网络的单目视觉里程计方法,包括:
S101,构建深度估计网络(DepthNet)和基于卡尔曼滤波的位姿估计网络(KF-PoseNet);其中,位姿估计网络,用于输出输入的每对相邻帧图像之间的位姿变换,深度估计网络,用于输出输入帧的深度图像;
如图2所示,所述位姿估计网络包括:位姿测量网络、位姿加权融合网络、位姿更新网络和位姿预测网络;其中,如表1所示,
位姿测量网络包括ResNet50、三层卷积层以及一个全局平均池化层;三层卷积层中的前两层卷积层以ReLU(Rectification Linear Unit,整流线性单元)为激活函数,最后一层卷积层为纯卷积层,无激活函数;位姿测量网络的输入经过ResNet50后,再依次经过三层卷积层,最后经过全剧平均池化层输出;位姿测量网络使用ResNet50结构作为编码器;
位姿加权融合网络包括4个全连接层和一个加权融合层;4个全连接层中前三层全连接层使用ReLU作为激活函数,最后一层全连接层使用Sigmoid函数作为激活函数;Cmeasure,t和Cpred,t输入第一个全连接层后,依次经过后三个全连接层,输出取值范围为0-1的权重系数;该权重系数进一步与Cmeasure,t和Cpred,t一同送入加权融合层;
位姿更新网络包含4个全连接层,前三个全连接层使用ReLU作为激活函数;4个全连接层依次相连;
类似于位姿更新网络,位姿预测网络同样包含4个全连接层,4个全连接层依次相连。
表1 KF-PoseNet网络结构
Figure BDA0003561639670000071
本实施例中,所述位姿估计网络的工作流程为:
通过位姿测量网络对输入的相邻帧图像It-1和It进行编码,得到t时刻的位姿测量向量Cmeasure,t
Cmeasure,t=Measure(It-1,It)
其中,It-1和It分别表示t-1时刻和t时刻的图像,Measure()为所述位姿测量网络;应当注意的是,Cmeasure,t并不是6自由度位姿向量,而仅仅是包含图像对(It-1,It)位姿信息的编码向量;
将位姿测量向量Cmeasure,t和位姿预测向量Cpred,t输入到位姿加权融合网络,得到t时刻的位姿加权融合向量Cfuse,t
Cfuse,t=(1-Wt)*Cmeasure,t+Wt*Cpred,t
其中,Wt=Weight(Cmeasure,t,Cpred,t)为位姿加权融合网络中最后一层全连接层输出的[0,1]之间的权重,Weight为所述位姿加权融合网络中的4个全连接层;Cpred,t为在将相邻帧图像It-2、It-1输入位姿估计网络时,位姿预测网络输出的t时刻的位姿预测向量,Cpred,t=Predict(Cfuse,t-1),Cfuse,t-1为t-1时刻的位姿加权融合向量,Predict为所述位姿预测网络;
将位姿加权融合向量Cfuse,t输入位姿更新网络估计最终的位姿变换Tt→t-1
Tt→t-1=Update(Cfuse,t)
其中,Update()为所述位姿更新网络;Tt→t-1表示从It-1到It的6自由度相对位姿向量。
如图3所示,KF-PoseNet的输入为相邻两帧图像,输出为6自由度相对位姿向量,其前三个元素表示3自由度相对旋转R,后三个元素表示3自由度相对位移t。
本实施例中,位姿估计网络与深度估计网络都采用编码器-解码器结构,所述位姿估计网络中的编码器为位姿测量网络中的ResNet50结构,所述位姿估计网络的解码器为位姿测量网络中除ResNet50以外其余的结构、位姿加权融合网络、位姿预测网络和位姿更新网络。
本实施例中,深度估计网络(DepthNet)同样选择ResNet50结构作为编码器,以类似于DispNet解码器的多层反卷积结构作为解码器,并通过跳跃链接结构与编码器连接,输出层激活函数为Sigmoid。本实施例中,DepthNet的输入为单帧图像,输出为归一化的视差D*。要获得深度D,需要对获得的视差取倒数D=1/(aD*+b),其中,a和b为限制输出取值范围的参数,使输出深度为0.1到100之间。
本实施例中,为了控制内存占用的同时尽可能地保留细节,将位姿估计网络与深度估计网络的输入RGB图像缩放为了832×256的大小。
在本实施例中,设所述一对相邻帧图像为当前时刻t的图像It与上一时刻t-1的图像It-1。将相邻帧图像It和It-1输入构建的位姿估计网络与深度估计网络中,得到所述相邻帧图像之间的位姿变换Tt→t-1,与每个输入帧的深度图像Dt。
S102,根据输出的每对相邻帧图像之间的位姿变换以及输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数;具体可以包括以下步骤:
A1,将位姿估计网络输出的每对相邻帧图像之间的位姿变换相乘得到较长时段的位姿变换,基于得到的较长时段的位姿变换,计算图像之间基于运动加权的光度误差;
本实施例中,一个场景中往往还可能存在一些快速移动的运动物体。这些物体与相机的欧氏变换不一致。显然将这些物体对应的像素在训练网络时同等对待是不合理的。对于数据集中运动幅度不大、光照变化不明显的情况,相邻两帧中在同一位置的像素的亮度往往不会有太大变化。基于这一点,为了降低快速移动物体的影响,本发明设计了基于运动加权的光度误差。且为了使网络能考虑较长时间上的位姿变换的一致性,本实施例在计算基于运动加权的光度误差时利用了连续多帧图像计算了长时间位姿约束的光度误差,具体的:
对于长度为N的一段视频图像序列,其对应的时刻为t0,t1,...,tN-1,将位姿估计网络输出的每对相邻帧图像之间的位姿进行累积相乘,得到较长时段的位姿变换
Figure BDA0003561639670000091
Figure BDA0003561639670000092
其中,
Figure BDA0003561639670000093
为由时刻tj到时刻ti的图像之间的位姿变换;N为输入位姿估计网络与深度估计网络的每个批次的视频图像序列的长度;
接着,对于图像
Figure BDA0003561639670000094
上的一个点
Figure BDA0003561639670000095
其三维坐标可以由其深度图像
Figure BDA0003561639670000096
还原;则其在图像
Figure BDA0003561639670000097
上对应的投影点
Figure BDA0003561639670000098
可以由如下公式计算获得:
Figure BDA0003561639670000099
其中,K为摄相机内参数;
Figure BDA00035616396700000910
为tj时刻的深度图像;
上述公式忽略了部分齐次坐标系的计算;
通过对图像
Figure BDA00035616396700000911
采样,得到tj时刻图像
Figure BDA00035616396700000912
的重构图像
Figure BDA00035616396700000913
Figure BDA00035616396700000914
然后,对于
Figure BDA00035616396700000915
处的像素
Figure BDA00035616396700000916
可以使用
Figure BDA00035616396700000917
计算其运动加权项Wmw
Figure BDA00035616396700000918
最后,利用得到的运动加权项Wmw,计算图像
Figure BDA00035616396700000919
Figure BDA00035616396700000920
之间基于运动加权的光度误差
Figure BDA00035616396700000921
Figure BDA00035616396700000922
其中,
Figure BDA0003561639670000101
表示原图像
Figure BDA0003561639670000102
与重构图像
Figure BDA0003561639670000103
之间的结构相似性,α0、α1、α2为控制各部分比例的超参数,符号*表示像素间乘积,‖·‖1表示1范数,‖·‖2表示2范数。
本实施例中,使用上述的运动加权项Wmw对所计算的广度误差逐像素加权,得到所述运动加权的光度误差。
进一步地,考虑到当视野中存在相对相机静止的物体时,可能会影响深度估计的精确度,导致估计的深度变为无穷大。为此,本实施例中还使用一种自动标记静止像素的方法,并从训练过程中将之移除。具体而言,把当前图像与参考图像之间的误差小于重构误差的像素看作相对于相机静止的像素,仅利用重构误差小于当前图像与参考图像之间的误差的像素(即参与光度误差计算的像素)训练深度网络。
本实施例中,确定参与光度误差计算的像素,将其标记为mask:
Figure BDA0003561639670000104
其中,
Figure BDA0003561639670000105
为ti时刻的原图像,
Figure BDA0003561639670000106
为tj时刻的原图像,
Figure BDA0003561639670000107
为从ti时刻的原图像
Figure BDA0003561639670000108
采样得到的tj时刻图像
Figure BDA0003561639670000109
的重构图像,‖·‖*代表光度误差,即1范数或2范数;
以便在计算图像
Figure BDA00035616396700001010
Figure BDA00035616396700001011
之间基于运动加权的光度误差时,仅用mask标记了的像素进行计算,进而使用mask标记了的像素进行网络训练。
A2,根据计算得到的光度误差,计算视频图像序列运动加权的光度误差损失函数Lp
Figure BDA00035616396700001012
其中,Lp′表示所述运动加权的光度误差。
S103,在构建的位姿估计网络与深度估计网络中,引入变分自动编码器结构,计算变分自动编码器损失函数;
在本实施例中,KF-PoseNet与DepthNet都采用编码器-解码器结构;为了提高解码器的输出对其输入的编码中的噪声的鲁棒性,提高网络的泛化能力,将变分自动编码器(Variational Auto-Encoder,VAE)结构引入到了KF-PoseNet和DepthNet中;
以深度估计网络为例;
深度估计网络的编码器将输入图像xd=It映射到编码空间,得到均值向量Ed(xd);
进一步地,设qd(cd|xd)为待输入到解码器的编码cd的被采样分布,将其设为均值为输入图像的均值Ed,协方差为输入图像的协方差∑d的高斯分布
Figure BDA0003561639670000111
在qd(cd|xd)分布中随机采样得到编码cd,其中cd服从qd(cd|xd)分布,用cd~qd(cd|xd)表示;
进一步地,将编码cd输入解码器得到输入图像的深度图像;
为了满足深度网络反向传播的需要,本实施例中,在编码空间对编码进行随机采样时,采用如下重参数化方法,将随机采样过程变为可微操作:令η为服从零均值单位协方差高斯分布
Figure BDA0003561639670000112
的随机向量:
Figure BDA0003561639670000113
其中I为单位矩阵,则对cd~qd(cd|xd)的采样操作可以通过cd=Ed(xd)+∑dη实现,其中∑d为输入图像的协方差;
位姿估计网络同理;
进一步地,计算VAE损失函数LVAE为:
Figure BDA0003561639670000114
其中,xd、xp都表示输入图像,超参数λ1、λ2用于控制目标项的权重,pη(c)为先验分布,c为该分布的自变量;qd(cd|xd)为深度估计网络编码cd的被采样分布,qp(cp|xp)为深度估计网络编码cp的被采样分布,KL(·)为KL散度,KL(qd(cd|xd)||pη(c))表示qd(cd|xd)对于pη(c)的KL散度,KL(qp(cp|xp)||pη(c))表示qp(cp|xp)对于pη(c)的KL散度,
Figure BDA0003561639670000115
为将cd与cp分别输入深度估计网络与位姿估计网络的解码器得到的输出,进而生成的重构图像
Figure BDA0003561639670000116
的概率分布,
Figure BDA0003561639670000117
表示数学期望,cd~qd(cd|xd)表示cd服从qd(cd|xd),cp~qp(cp|xp)表示cp服从qp(cp|xp),
Figure BDA0003561639670000118
表示在满足cd~qd(cd|xd)及cp~qp(cp|xp)的条件下,
Figure BDA0003561639670000119
的数学期望;公式中前两项控制KL散度惩罚隐藏编码的分布背离先验分布的倾向;最后一项最小化非负对数似然项,等价于最小化光度误差损失函数;因此,VAE损失函数实际仅为公式中的前两项。
本实施例中,先验分布pη(c)为0均值的高斯分布
Figure BDA00035616396700001110
S104,基于得到的光度误差损失函数和变分自动编码器损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络;具体可以包括以下步骤:
首先,考虑到在三维空间中的一个纹理稳定平面内,其在深度图像中的深度往往不会产生太剧烈的变化。因此,在本实施例中,对于深度估计网络的输出,还按如下公式计算深度平滑损失函数Ls
Figure BDA0003561639670000121
其中,
Figure BDA0003561639670000122
为视差,与深度图像Dt成反比例关系,
Figure BDA0003561639670000123
分别表示x方向与y方向上的偏导数,It为t时刻的图像;
在本实施例中,上述深度平滑损失函数对每个批次中的每帧图像都进行了计算;
接着,基于得到的深度平滑损失函数、光度误差损失函数和变分自动编码器损失函数,确定最终的损失函数L:
L=Lp+λLs+LVAE
其中,λ为控制深度平滑损失函数比例的超参数,Lp表示光度误差损失函数,LVAE表示变分自动编码器损失函数;
最后,利用得到的最终的损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络。
S105,利用训练好的位姿估计网络估计待估计位姿的视频图像序列中每帧图像对应的相机位姿。
本实施例中,所述基于卡尔曼滤波的位姿估计网络(KF-PoseNet)在设计时由于参考了卡尔曼滤波的思想,多次估计之间存在时序上的关联,因此,本发明中的KF-PoseNet可以更好地适应帧缺失的情况;
本实施例中,在训练时,将一个批次的视频图像序列中的所有图像输入到位姿估计网络与深度估计网络中,对位姿估计网络与深度估计网络进行训练;进一步地,针对视觉里程计中存在的可能的帧缺失的情况,将一个批次的视频图像序列中的所有图像输入到深度估计网络中,并将该批次的视频图像序列中的一帧或多帧图像置零后再输入位姿估计网络,对位姿估计网络与深度估计网络再进行训练。例如,当N为5时,一个批次同时输入连续5帧图像到深度估计网络,并分别将每相邻两帧输入位姿估计网络;进一步地,针对视觉里程计中存在的可能的帧缺失的情况,从一次性输入的连续五帧的后3帧中随机将两帧图像置零,再输入位姿估计网络,进行训练,而深度估计网络的输入依然为完整的图像。
在训练完成后,利用训练好的位姿估计网络估计待估计位姿的视频图像序列中每帧图像对应的相机位姿。
本发明提供的所述基于卡尔曼位姿估计网络的单目视觉里程计,能够较为有效地根据输入图像序列估计每一帧对应的相机位姿并适应帧缺失的情况。本发明适用于用于自监督单目视觉里程计。
本发明实施例所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,至少具有以下优点:
(1)针对现有的许多自监督方法没有考虑帧与帧之间的关联,帧间的信息没有被充分利用,导致训练出的网络难以估计出更为精确的位姿,也不能适应帧缺失的情况的问题,本实施例构建了基于卡尔曼滤波的位姿估计网络,并以此为基础,设计了针对帧缺失情况的训练策略,使得位姿估计网络可以利用帧间的信息估计当前的位姿,更加适应帧缺失的情况;
(2)针对场景中可能存在的运动物体与场景的欧氏变换不一致,不满足静态场景的假设,难以用一个欧氏变换去描述场景的运动,导致位姿估计网络的估计结果出现偏差的问题,本实施例采用一种运动加权策略,同时在位姿估计网络与深度估计网络中引入变分自动编码器结构,使得位姿估计网络与深度估计网络可以在训练阶段更关注场景中的静止物体,提高网络泛化能力,提升网络性能。
为了验证本发明实施例提供的基于卡尔曼位姿估计网络的单目视觉里程计方法的有效性,使用KITTI里程计数据集中提供的评估指标测试其性能:
(1)相对位移均方误差(Rel.trans.):一个序列中全部长度为100、200、……、800米的子序列的平均位移RMSE(Root Mean Square Error),以%度量,即每100米偏差的米数,数值越小越好。
(2)相对旋转均方误差(Rel.rot.):一个序列中全部长度为100、200、……、800米的子序列的平均旋转RMSE,以deg/m度量,数值越小越好。
本实施例中,应用了KITTI里程计数据集中00-07这八个序列作为训练集与验证集训练位姿估计网络与深度估计网络,并用09-10这两个序列来测试所述的用于自监督单目视觉里程计的基于卡尔曼滤波的位姿估计网络的性能。
KITTI里程计数据集是车载相机等设备采集的城市中公路环境的双目图像,雷达点以及实际轨迹。
在实施过程中,构建深度估计网络和基于卡尔曼滤波的位姿估计网络;其中,位姿估计网络,用于输出输入的每对相邻帧图像之间的位姿变换,深度估计网络,用于输出输入帧的深度图像;根据输出的每对相邻帧图像之间的位姿变换以及输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数;在构建的位姿估计网络与深度估计网络中,引入变分自动编码器结构,计算变分自动编码器损失函数;基于得到的光度误差损失函数和变分自动编码器损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络;利用训练好的位姿估计网络估计待估计位姿的视频图像序列中每帧图像对应的相机位姿。
在本实施例中,光度误差损失函数的超参数的参数α0=0.85,α1=0.1,α2=0.05,深度平滑损失函数的参数λ=10-3,VAE损失函数参数λ1=λ2=0.01。网络的训练过程中,初始学习率为10-4,并随着训练的进行逐渐减小,每经过一轮迭代,学习率变为上一轮的0.97倍,采用Adam优化器进行45次迭代,每轮迭代的批量大小为2,每批次包含连续N=3帧图像。
为了验证本发明所述方法的性能,本实施例中,选择了近几年基于深度学习的自监督的单目视觉里程计方法进行了对比,实验结果如表2所示。本实施例生成的轨迹如图4所示,其中,虚线轨迹为真实的轨迹,实线轨迹为本实施例中估计出的轨迹。
由表2可以看出,相比于其他方法,由于对过去时刻提取出的信息的更好利用,对运动像素的加权,以及对VAE结构的应用,本实施例所述的方法取得了更好的性能。
表2本实施例的方法与其他方法对比
Figure BDA0003561639670000151
为了验证本实施例所述的方法各部分的意义,本实施例中还进行了消融实验。实验结果如表3所示,其中,第二行中的“without kalman struct”表示去除网络中的卡尔曼结构,此时位姿估计网络的解码器结构为四层卷积层,前三层卷积层的激活函数为ReLU,第四层输出经过全局平均池化得到6自由度位姿向量。第三至第五行的“without motionweighting”,“without VAE”,“without LTC”分别对应去除网络中的运动加权、VAE结构和长时一致性约束的实验结果。第六行和第七行的“#fc=6”和“#fc=2”分别表示位姿估计网络解码器部分采用不同层数的全连接层的实验结果。第一行“basic”表示不添加以上三个结构的实验结果。最后一行表示本文完整的方法的实验结果。
从实验结果中可以看到,类似与卡尔曼的结构,使得网络在估计当前相邻帧时可以从之前的数据中得到参考,使得当前的估计结果更为精确;运动加权的引入,使得网络在训练的时候可以更关注环境中静止物体的像素,削弱了与相机欧氏变换不一致的物体的干扰;VAE结构的引入,使得网络的解码器对编码器的结果中的噪声更具有鲁棒性,提高了网络的泛化能力,使结果有了近一步的提高。最终本文完整的方法取得了更好的实验结果。我们的方法的性能随着各个部分的增加而逐渐上升,证明了我们的方法中各个部分的意义。
表3消融实验结果
Figure BDA0003561639670000161
表4帧缺失的情况的实验结果
Figure BDA0003561639670000162
本实施例还对本发明中设计的针对帧缺失情况的训练策略进行了消融实验。在测试时,本实施例采取第50、150……帧将一帧图像置零,第100、200……帧将两帧置零的方式,对本发明在帧缺失的情况进行测试。测试结果如表4所示。其中,第一行“without framemissing training”表示本实施例中在训练时不采用针对帧缺失情况的训练方法进行训练的结果,第二行“without kalman struct”表示采用针对帧缺失情况的训练方法但不采用卡尔曼结构的实验结果,第三行为本实施例中采取针对帧缺失情况的训练方法训练的实验结果。从表4中可以看出,本实施例提出的方法可以很好地适应帧缺失的情况。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,包括:
构建深度估计网络和基于卡尔曼滤波的位姿估计网络;其中,位姿估计网络,用于输出输入的每对相邻帧图像之间的位姿变换,深度估计网络,用于输出输入帧的深度图像;
根据输出的每对相邻帧图像之间的位姿变换以及输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数;
在构建的位姿估计网络与深度估计网络中,引入变分自动编码器结构,计算变分自动编码器损失函数;
基于得到的光度误差损失函数和变分自动编码器损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络;
利用训练好的位姿估计网络估计待估计位姿的视频图像序列中每帧图像对应的相机位姿;
其中,所述根据输出的每对相邻帧图像之间的位姿变换以及输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数包括:
将位姿估计网络输出的每对相邻帧图像之间的位姿变换相乘得到较长时段的位姿变换,基于得到的较长时段的位姿变换,计算图像之间基于运动加权的光度误差;
根据计算得到的光度误差,计算视频图像序列基于运动加权的光度误差损失函数;
其中,所述将位姿估计网络输出的每对相邻帧图像之间的位姿变换相乘得到较长时段的位姿变换,基于得到的较长时段的位姿变换,计算图像之间基于运动加权的光度误差包括:
对于长度为N的一段视频图像序列,其对应的时刻为t0,t1,...,tN-1,将位姿估计网络输出的每对相邻帧图像之间的位姿进行累积相乘,得到较长时段的位姿变换
Figure FDA0003820200860000011
其中,
Figure FDA0003820200860000012
为由时刻tj到时刻ti的图像之间的位姿变换;N为输入位姿估计网络与深度估计网络的每个批次的视频图像序列的长度;
对于图像
Figure FDA0003820200860000013
上的一个点
Figure FDA0003820200860000014
其三维坐标由其深度图像
Figure FDA0003820200860000015
还原;其在图像
Figure FDA0003820200860000021
上对应的投影点
Figure FDA0003820200860000022
表示为:
Figure FDA0003820200860000023
其中,K为摄相机内参数;
Figure FDA0003820200860000024
为tj时刻的深度图像;
通过对图像
Figure FDA0003820200860000025
采样,得到tj时刻图像
Figure FDA0003820200860000026
的重构图像
Figure FDA0003820200860000027
Figure FDA0003820200860000028
对于
Figure FDA0003820200860000029
处的像素
Figure FDA00038202008600000210
使用
Figure FDA00038202008600000211
计算其运动加权项Wmw
Figure FDA00038202008600000212
利用得到的运动加权项Wmw,计算图像
Figure FDA00038202008600000213
Figure FDA00038202008600000214
之间基于运动加权的光度误差:
Figure FDA00038202008600000215
其中,
Figure FDA00038202008600000216
表示图像
Figure FDA00038202008600000217
Figure FDA00038202008600000218
之间基于运动加权的光度误差,
Figure FDA00038202008600000219
表示原图像
Figure FDA00038202008600000220
与重构图像
Figure FDA00038202008600000221
之间的结构相似性,α0、α1、α2为控制各部分比例的超参数,符号*表示像素间乘积,||·||1表示1范数,||·||2表示2范数。
2.根据权利要求1所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,所述位姿估计网络包括:位姿测量网络、位姿加权融合网络、位姿更新网络和位姿预测网络;其中,
通过位姿测量网络对输入的相邻帧图像It-1和It进行编码,得到t时刻的位姿测量向量Cmeasure,t
Cmeasure,t=Measure(It-1,It)
其中,It-1和It分别表示t-1时刻和t时刻的图像,Measure()为所述位姿测量网络;
将位姿测量向量Cmeasure,t和位姿预测向量Cpred,t输入到位姿加权融合网络,得到t时刻的位姿加权融合向量Cfuse,t
Cfuse,t=(1-Wt)*Cmeasure,t+Wt*Cpred,t
其中,Wt为位姿加权融合网络中最后一层全连接层输出的[0,1]之间的权重;Cpred,t为在将相邻帧图像It-2、It-1输入位姿估计网络时,位姿预测网络输出的t时刻的位姿预测向量,Cpred,t=Predict(Cfuse,t-1),Cfuse,t-1为t-1时刻的位姿加权融合向量,Predict为所述位姿预测网络;
将位姿加权融合向量Cfuse,t输入位姿更新网络估计位姿变换Tt→t-1
Tt→t-1=Update(Cfuse,t)
其中,Update()为所述位姿更新网络;Tt→t-1表示从It-1到It的6自由度相对位姿向量,包括:相对旋转和相对位移。
3.根据权利要求2所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,位姿估计网络与深度估计网络都采用编码器-解码器结构。
4.根据权利要求1所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,在利用得到的运动加权项Wmw,计算图像
Figure FDA00038202008600000310
Figure FDA00038202008600000311
之间基于运动加权的光度误差之前,所述方法还包括:
确定参与光度误差计算的像素,将其标记为mask:
Figure FDA0003820200860000031
其中,
Figure FDA0003820200860000032
为ti时刻的原图像,
Figure FDA0003820200860000033
为tj时刻的原图像,
Figure FDA0003820200860000034
为从ti时刻的原图像
Figure FDA0003820200860000035
采样得到的tj时刻图像
Figure FDA0003820200860000036
的重构图像,||·||*代表光度误差,即1范数或2范数;
以便在计算图像
Figure FDA0003820200860000037
Figure FDA0003820200860000038
之间基于运动加权的光度误差时,仅用mask标记了的像素进行计算。
5.根据权利要求1所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,所述光度误差损失函数表示为:
Figure FDA0003820200860000039
其中,Lp表示光度误差损失函数。
6.根据权利要求1所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,变分自动编码器损失函数表示为:
Figure FDA0003820200860000041
其中,LVAE表示变分自动编码器损失函数,xd、xp都表示输入图像,λ1、λ2都表示超参数;pη(c)为先验分布,c为该分布的自变量;qd(cd|xd)为深度估计网络编码cd的被采样分布;qp(cp|xp)为深度估计网络编码cp的被采样分布,KL(·)为KL散度,KL(qd(cd|xd)||pη(c))表示qd(cd|xd)对于pη(c)的KL散度,KL(qp(cp|xp)||pη(c))表示qp(cp|xp)对于pη(c)的KL散度,
Figure FDA0003820200860000042
为将cd与cp分别输入深度估计网络与位姿估计网络的解码器得到的输出,进而生成的重构图像
Figure FDA0003820200860000048
的概率分布,
Figure FDA0003820200860000049
表示数学期望,cd~qd(cd|xd)表示cd服从qd(cd|xd),cp~qp(cp|xp)表示cp服从qp(cp|xp),
Figure FDA0003820200860000043
表示在满足cd~qd(cd|xd)及cp~qp(cp|xp)的条件下,
Figure FDA0003820200860000044
的数学期望;cd~qd(cd|xd)表示cd服从qd(cd|xd)分布;cp~qp(cp|xp)表示cp服从qp(cp|xp)分布。
7.根据权利要求1所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,所述基于得到的光度误差损失函数和变分自动编码器损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络包括:
对于深度估计网络的输出,计算深度平滑损失函数:
Figure FDA0003820200860000045
其中,
Figure FDA0003820200860000046
为视差,与深度图像Dt成反比例关系,
Figure FDA0003820200860000047
分别表示x方向与y方向上的偏导数,It为t时刻的图像;
基于得到的深度平滑损失函数、光度误差损失函数和变分自动编码器损失函数,确定最终的损失函数L:
L=Lp+λLs+LVAE
其中,λ为控制深度平滑损失函数比例的超参数,Lp表示光度误差损失函数,LVAE表示变分自动编码器损失函数;
利用得到的最终的损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络。
8.根据权利要求1所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,所述采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络包括:
将一个批次的视频图像序列中的所有图像输入到位姿估计网络与深度估计网络中,同时对位姿估计网络与深度估计网络进行训练;
将一个批次的视频图像序列中的所有图像输入到深度估计网络中,并将该批次的视频图像序列中的一帧或多帧图像置零后再输入位姿估计网络,对位姿估计网络与深度估计网络再进行训练。
CN202210290482.3A 2022-03-23 2022-03-23 一种基于卡尔曼位姿估计网络的单目视觉里程计方法 Active CN114663496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210290482.3A CN114663496B (zh) 2022-03-23 2022-03-23 一种基于卡尔曼位姿估计网络的单目视觉里程计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210290482.3A CN114663496B (zh) 2022-03-23 2022-03-23 一种基于卡尔曼位姿估计网络的单目视觉里程计方法

Publications (2)

Publication Number Publication Date
CN114663496A CN114663496A (zh) 2022-06-24
CN114663496B true CN114663496B (zh) 2022-10-18

Family

ID=82031748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210290482.3A Active CN114663496B (zh) 2022-03-23 2022-03-23 一种基于卡尔曼位姿估计网络的单目视觉里程计方法

Country Status (1)

Country Link
CN (1) CN114663496B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131404B (zh) * 2022-07-01 2024-06-14 上海人工智能创新中心 基于运动估计深度的单目3d检测方法
CN115841151B (zh) * 2023-02-22 2023-05-23 禾多科技(北京)有限公司 模型训练方法、装置、电子设备和计算机可读介质
CN116612182B (zh) * 2023-07-19 2023-09-29 煤炭科学研究总院有限公司 单目位姿估计方法及装置
CN117214860B (zh) * 2023-08-14 2024-04-19 北京科技大学顺德创新学院 基于孪生特征金字塔和地面分割的激光雷达里程计方法
CN117197229B (zh) * 2023-09-22 2024-04-19 北京科技大学顺德创新学院 一种基于亮度对齐的多阶段估计单目视觉里程计方法
CN117974721A (zh) * 2024-04-01 2024-05-03 合肥工业大学 一种基于单目连续帧图像的车辆运动估计方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665496A (zh) * 2018-03-21 2018-10-16 浙江大学 一种基于深度学习的端到端的语义即时定位与建图方法
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN110910447A (zh) * 2019-10-31 2020-03-24 北京工业大学 一种基于动静态场景分离的视觉里程计方法
CN112102399A (zh) * 2020-09-11 2020-12-18 成都理工大学 一种基于生成式对抗网络的视觉里程计算法
CN113108771A (zh) * 2021-03-05 2021-07-13 华南理工大学 一种基于闭环直接稀疏视觉里程计的移动位姿估计方法
CN114022527A (zh) * 2021-10-20 2022-02-08 华中科技大学 基于无监督学习的单目内窥镜深度及位姿估计方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015069734A1 (en) * 2013-11-05 2015-05-14 Arris Enterprises, Inc. Bit depth variable for high precision data in weighted prediction syntax and semantics
US20200041276A1 (en) * 2018-08-03 2020-02-06 Ford Global Technologies, Llc End-To-End Deep Generative Model For Simultaneous Localization And Mapping
US11398048B2 (en) * 2020-07-30 2022-07-26 Apical Limited Estimating camera pose
CN113483762A (zh) * 2021-07-05 2021-10-08 河南理工大学 一种位姿优化方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665496A (zh) * 2018-03-21 2018-10-16 浙江大学 一种基于深度学习的端到端的语义即时定位与建图方法
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN110910447A (zh) * 2019-10-31 2020-03-24 北京工业大学 一种基于动静态场景分离的视觉里程计方法
CN112102399A (zh) * 2020-09-11 2020-12-18 成都理工大学 一种基于生成式对抗网络的视觉里程计算法
CN113108771A (zh) * 2021-03-05 2021-07-13 华南理工大学 一种基于闭环直接稀疏视觉里程计的移动位姿估计方法
CN114022527A (zh) * 2021-10-20 2022-02-08 华中科技大学 基于无监督学习的单目内窥镜深度及位姿估计方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Pose estimation for multi-camera systems;Chunhui Zhao et.al;《2017 IEEE International Conference on Unmanned Systems (ICUS)》;20180201;全文 *
Unsupervised Learning of Accurate Camera Pose and Depth From Video Sequences With Kalman Filter;YAN WANG et.al;《IEEE Access》;20190312;第32796页第1段,第32798-32801页 *
动态环境下融合边缘信息的稠密视觉里程计算法;周凯等;《哈尔滨工业大学学报》;20210129;第53卷(第2期);全文 *
基于学习的单目同步定位与地图构建方法研究;张玮奇;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20220215;全文 *

Also Published As

Publication number Publication date
CN114663496A (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN114663496B (zh) 一种基于卡尔曼位姿估计网络的单目视觉里程计方法
CN114782691B (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
CN110490928A (zh) 一种基于深度神经网络的相机姿态估计方法
CN111311666B (zh) 一种融合边缘特征和深度学习的单目视觉里程计方法
CN114663509B (zh) 一种关键点热力图引导的自监督单目视觉里程计方法
CN107424177B (zh) 基于连续相关滤波器的定位修正长程跟踪方法
Varma et al. Transformers in self-supervised monocular depth estimation with unknown camera intrinsics
CN110610486B (zh) 单目图像深度估计方法及装置
CN111311685A (zh) 一种基于imu/单目图像的运动场景重构无监督方法
CN103003846B (zh) 关节区域显示装置、关节区域检测装置、关节区域归属度计算装置、关节状区域归属度计算装置以及关节区域显示方法
CN111145255B (zh) 一种结合深度学习和几何优化的位姿计算方法和***
CN112233179B (zh) 一种视觉里程计测量方法
CN111899280B (zh) 采用深度学习和混合型位姿估计的单目视觉里程计方法
CN108986166A (zh) 一种基于半监督学习的单目视觉里程预测方法及里程计
CN110264526B (zh) 一种基于深度学习的场景深度和摄像机位置姿势求解方法
CN113256698B (zh) 一种具有深度预测的单目3d重建方法
CN110942484B (zh) 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN112233149A (zh) 场景流的确定方法及装置、存储介质、电子装置
CN114612545A (zh) 图像分析方法及相关模型的训练方法、装置、设备和介质
CN110428461A (zh) 结合深度学习的单目slam方法及装置
CN111275751B (zh) 一种无监督绝对尺度计算方法及***
CN115482252A (zh) 基于运动约束的slam闭环检测和位姿图优化方法
Son et al. Partial convolutional LSTM for spatiotemporal prediction of incomplete data
CN111767679A (zh) 时变矢量场数据的处理方法及装置
Li et al. Unsupervised joint learning of depth, optical flow, ego-motion from video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant