CN110533724A - 基于深度学习和注意力机制的单目视觉里程计算方法 - Google Patents
基于深度学习和注意力机制的单目视觉里程计算方法 Download PDFInfo
- Publication number
- CN110533724A CN110533724A CN201910839780.1A CN201910839780A CN110533724A CN 110533724 A CN110533724 A CN 110533724A CN 201910839780 A CN201910839780 A CN 201910839780A CN 110533724 A CN110533724 A CN 110533724A
- Authority
- CN
- China
- Prior art keywords
- attention mechanism
- vector
- light stream
- neural networks
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习和注意力机制的单目视觉里程计算方法,具体步骤包括:先采集原始单目彩色图像,并将图像尺寸裁剪为统一大小;将裁剪过后的第i张图像和第i+1张图片输入PWCnet光流计算模块,获取光流向量场,并将光流向量场按照4个象限等分为4个光流子向量场;将4个光流子向量场输入卷积神经网络,分别获取4个子特征向量;将4个子特征向量合并为一个总特征向量,然后将总特征向量输入全连接网络,获取估计位姿向量;实时采集图片,并依次送入卷积神经网络,得到若干连续的估计位姿向量,通过若干连续的估计位姿向量获取估计里程。本发明拥有很好的视觉里程计算精度和计算速度。
Description
技术领域
本发明属于移动机器人自主定位领域,具体涉及基于深度学习和注意力机制的单目视觉里程计算方法。
背景技术
视觉里程计技术是视觉同时定位与地图构建中的前端技术。通过视觉里程计得到帧间位姿估计可以获取局部地图,该局部地图经过后端优化后可以得到里程计所经过的路径的全局地图。从而可以进一步进行地图构建和三维重建等任务。
视觉里程计技术被广泛应用于移动机器人自主定位、自动驾驶、虚拟现实技术中,是近年来的热门研究领域。视觉里程计技术的主要研究任务是利用视觉特征向量来进行准确的帧间位姿估计。传统的视觉里程计技术分为直接法和特征向量点法。特征向量点法通过匹配相邻帧间的特征向量来估计相机位姿,其性能直接受特征向量设计的合理性以及特征向量匹配的准确性影响。由于特征向量的设计具有极强的人为性,导致所设计的特征向量具有局限性,使用特征向量点忽略了除特征向量点以外的其它信息。而且相机可能运动到特征向量点缺失的地方,这些地方没有明显的纹理信息。除此之外特征向量点的提取和描述子的计算十分耗时。直接法通过最小化光度误差来估计相机运动和像素的空间位置,其能够在特征向量不明显的场景中,例如走廊或者光滑的墙面上,取得较好的效果,但其只适用于运动幅度较小、图片整体亮度变化不大的情形。
传统的视觉里程计算方法都存在着以下两个问题:第一,必须需要知道相机的内参;第二,存在着精度与速度之间的艰难取舍。
发明内容
针对现有技术中的上述不足,本发明提供的基于深度学习和注意力机制的单目视觉里程计算方法解决了传统的视觉里程计算方法存在的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于深度学习和注意力机制的单目视觉里程计算方法,包括以下步骤:
S1、采用注意力机制构造注意力机制模块,并在注意力机制模块的基础上构建卷积神经网络;
S2、采集原始单目彩色图像,并将原始单目彩色图像尺寸裁剪为统一大小;
S3、将裁剪过后的第i张图像和第i+1张图片输入PWCnet光流计算模块,获取光流向量场,并将光流向量场按照4个象限等分为4个光流子向量场;
S4、将4个光流子向量场输入卷积神经网络,分别获取4个子特征向量;
S5、将4个子特征向量合并为一个总特征向量,然后将总特征向量输入全连接网络,获取估计位姿向量;
S6、以减少估计位姿误差为目标,对卷积神经网络进行训练;
S7、实时采集图片,并依次送入训练完成的卷积神经网络,得到若干连续的估计位姿向量,通过若干连续的估计位姿向量获取估计里程。
进一步地,所述卷积神经网络包括4条通道,所述4条通道的结构相同,均包括依次连接的第一卷积层、第一注意力机制模块、第二卷积层、第二注意力机制模块和第一特征向量合并模块,所述第一注意力机制模块还与第一特征向量合并模块的输入端连接,所述第一特征向量合并模块用于将第一注意力机制模块的输出数据和第二注意力机制模块输出数据组合;
所述第一卷积层为卷积核大小为9×9且卷积核数量为64的卷积层,所述第二卷积层为卷积核大小为3×3且卷积核数量为20的卷积层。
进一步地,所述第一注意力机制模块和第二注意力机制模块结构相同,均包括通道注意力模块和空间注意力模块;
所述通道注意力模块包括第一最大池化层、第一平均池化层、多层感知机、第一加法器和第一sigmoid激励函数单元,所述第一最大池化层的输入端为注意力机制模块的第一输入端,所述第一平均池化层的输入端为注意力机制模块的第二输入端,所述第一最大池化层的输出端和第一平均池化层的输出端分别与多层感知机的输入端连接,所述多层感知机的输出端与第一加法器的输入端连接,所述第一加法器的输出端与第一sigmoid激励函数单元的输入端连接;
所述空间注意力模块包括第二最大池化层、第二平均池化层、第二加法器、上卷积层和第二sigmoid激励函数单元,所述第二最大池化层的输入端和第二平均池化层的输入端分别与第一sigmoid激励函数单元的输出端连接,所述第二最大池化层的输出端和第二平均池化层的输出端分别与第二加法器的输入端连接,所述第二加法器的输出端与上卷积层的输入端连接,所述上卷积层的输出端与第二sigmoid激励函数单元的输入端连接,所述第二sigmoid激励函数单元的输出端为注意力机制模块的输出端。
进一步地,所述步骤S2中将原始单目彩色图像尺寸裁剪为1226×370×3,其中1226为图片宽度,370为图片高度,3为通道数。
进一步地,所述步骤S3中光流向量场数据格式为1226×370×2,其中1226为图片宽度,370为图片高度,2为通道数;4个光流子向量场数据格式均为613×185×2,其中613为图片宽度,185为图片高度,2为通道数。
进一步地,所述步骤S4中将4个光流子向量场输入卷积神经网络具体为:将第一象限的光流子向量场输入卷积神经网络的第一通道,将第二象限的光流子向量场输入卷积神经网络的第二通道,将第三象限的光流子向量场输入卷积神经网络的第三通道,将第四象限的光流子向量场输入卷积神经网络的第四通道;
所述4个光流子向量场在与其对应的通道中均经过以下步骤:
A1、通过第一卷积层提取数据维度为6×20×64的第一特征向量;
A2、将第一特征向量传递给第一注意力机制模块进行优化,获得数据维度为6×20×64的第二特征向量;
A3、将第二特征向量传输给第二卷积层,通过第二卷积层获取数据维度为2×5×20的第三特征向量;
A4、将第三特征向量传递给第二注意力机制模块进行优化,获得数据维度为2×5×20的第四特征向量;
A5、将数据维度为6×20×64的第二特征向量拉直成长度为7680的第五特征向量,将数据维度为2×5×20的第四特征向量拉直成长度为200的第六特征向量;
A6、通过第一特征向量合并模块将第一特征向量和第二特征向量合并为长度为7880的第七特征向量;
将4个光流子向量场对应4个第七特征向量作为4个子特征向量。
进一步地,所述步骤S5包括以下分步骤:
S5.1、通过第二特征向量合并模块将卷积神经网络4个通道输出的特征向量合并为长度为31520的第八特征向量,并将第八特征向量作为总特征向量;
S5.2、将第八特征向量传输给全连接网络中节点数为1024的第一全连接层处理后,经过一个elu激励函数,获取激励结果;
S5.3、将激励结果传递给第二全连接层,获取6自由度的估计位姿向量。
进一步地,所述步骤S6中对卷积神经网络进行训练的过程为:通过估计位姿向量获取估计位姿向量误差,根据深度学习理论,使用ADAM优化器对卷积神经网络进行训练,使估计位姿向量误差下降至0.1时训练完成。
进一步地,所述估计位姿向量误差loss为:
loss=||tpred-ttruth||2+β||rpred-rtruth||2 (1)
对卷积神经网络的训练时,将初始学习率设置为1×10-4,将训练过程每次传入神经网络的光流向量场个数设置为32,将训练的轮数设置为100,前70轮训练保持学习率保持不变,后30轮训练将学习率衰减至1×10-5;
其中,rpred为预测的旋转向量,rtruth为实际的旋转向量,tpred为预测位移向量,ttruth表示实际的位移向量,β表示平衡系数。
进一步地,所述估计里程s为:
s=[s0,s1,s2,...,sn-1,sn] (2)
其中,si表示第i次运动的估计位资向量,i=1,2,...n,xi表示第i次运动x轴的分量,yi表示第i次运动y轴的分量,zi表示第i次运动z轴的分量,φi表示旋转向量ri的在xy平面的欧拉角分量,θi表示旋转向量ri的在yz平面的欧拉角分量,表示旋转向量ri的在zx平面的欧拉角分量,dxi、dyi、dzi、dφi、dθi和分别表示xi、yi、zi、φi、θi和的变化量。
本发明的有益效果为:
(1)本发明卷积神经网络来进行特征向量提取,避免了传统特征向量提取方法的特征向量人为性大的问题,同时使用全连接层回归位姿的方法也避开了复杂的特征向量匹配计算,大大提高了运算速度。
(2)本发明中的光流提取算法是一种十分高效快速的深度学习算法,这也提高了算法的整体速度。
(3)本发明采用注意力机制构造注意力机制模块,在注意力机制模块的基础上构建卷积神经网络,注意力机制模块对卷积神经网络的优化作用使整个神经网络进行视觉里程估计更加准确,保证了里程估计的高精度。
(4)本发明与传统的方法相比无需手动获知相机参数,是一种全自动的视觉里程计实现方法。
(5)本发明作为一种单目视觉里程计算方法,其位移精度可与双目视觉里程计算方法媲美。
附图说明
图1为本发明提出的基于深度学习和注意力机制的单目视觉里程计算方法流程图。
图2为本发明提出的卷积神经网络的示意图。
图3为本发明提出的注意力机制模块示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
下面结合附图详细说明本发明的实施例。
如图1所示,一种基于深度学习和注意力机制的单目视觉里程计算方法,包括以下步骤:
S1、采用注意力机制构造注意力机制模块,并在注意力机制模块的基础上构建卷积神经网络;
S2、采集原始单目彩色图像,并将原始单目彩色图像尺寸裁剪为统一大小;
S3、将裁剪过后的第i张图像和第i+1张图片输入PWCnet光流计算模块,获取光流向量场,并将光流向量场按照4个象限等分为4个光流子向量场;
S4、将4个光流子向量场输入卷积神经网络,分别获取4个子特征向量;
S5、将4个子特征向量合并为一个总特征向量,然后将总特征向量输入全连接网络,获取估计位姿向量;
S6、以减少估计位姿误差为目标,对卷积神经网络进行训练;
S7、实时采集图片,并依次送入训练完成的卷积神经网络,得到若干连续的估计位姿向量,通过若干连续的估计位姿向量获取估计里程。
如图2所示,卷积神经网络包括4条通道,所述4条通道的结构相同,均包括依次连接的第一卷积层、第一注意力机制模块、第二卷积层、第二注意力机制模块和第一特征向量合并模块,所述第一注意力机制模块还与第一特征向量合并模块的输入端连接,所述第一特征向量合并模块用于将第一注意力机制模块的输出数据和第二注意力机制模块输出数据组合.
所述第一卷积层为卷积核大小为9×9且卷积核数量为64的卷积层,所述第二卷积层为卷积核大小为3×3且卷积核数量为20的卷积层。
第一注意力机制模块和第二注意力机制模块结构相同,均包括通道注意力模块和空间注意力模块;
如图3所示,通道注意力模块包括第一最大池化层、第一平均池化层、多层感知机、第一加法器和第一sigmoid激励函数单元,所述第一最大池化层的输入端为注意力机制模块的第一输入端,所述第一平均池化层的输入端为注意力机制模块的第二输入端,所述第一最大池化层的输出端和第一平均池化层的输出端分别与多层感知机的输入端连接,所述多层感知机的输出端与第一加法器的输入端连接,所述第一加法器的输出端与第一sigmoid激励函数单元的输入端连接。空间注意力模块包括第二最大池化层、第二平均池化层、第二加法器、上卷积层和第二sigmoid激励函数单元,所述第二最大池化层的输入端和第二平均池化层的输入端分别与第一sigmoid激励函数单元的输出端连接,所述第二最大池化层的输出端和第二平均池化层的输出端分别与第二加法器的输入端连接,所述第二加法器的输出端与上卷积层的输入端连接,所述上卷积层的输出端与第二sigmoid激励函数单元的输入端连接,所述第二sigmoid激励函数单元的输出端为注意力机制模块的输出端。
步骤S2中将原始单目彩色图像尺寸裁剪为1226×370×3,其中1226为图片宽度,370为图片高度,3为通道数。
步骤S3中光流向量场数据格式为1226×370×2,其中1226为图片宽度,370为图片高度,2为通道数;4个光流子向量场数据格式均为613×185×2,其中613为图片宽度,185为图片高度,2为通道数。
步骤S4中将4个光流子向量场输入卷积神经网络具体为:将第一象限的光流子向量场输入卷积神经网络的第一通道,将第二象限的光流子向量场输入卷积神经网络的第二通道,将第三象限的光流子向量场输入卷积神经网络的第三通道,将第四象限的光流子向量场输入卷积神经网络的第四通道;
所述4个光流子向量场在与其对应的通道中均经过以下步骤:
A1、通过第一卷积层提取数据维度为6×20×64的第一特征向量;
A2、将第一特征向量传递给第一注意力机制模块进行优化,获得数据维度为6×20×64的第二特征向量;
A3、将第二特征向量传输给第二卷积层,通过第二卷积层获取数据维度为2×5×20的第三特征向量;
A4、将第三特征向量传递给第二注意力机制模块进行优化,获得数据维度为2×5×20的第四特征向量;
A5、将数据维度为6×20×64的第二特征向量拉直成长度为7680的第五特征向量,将数据维度为2×5×20的第四特征向量拉直成长度为200的第六特征向量;
A6、通过第一特征向量合并模块将第一特征向量和第二特征向量合并为长度为7880的第七特征向量;
将4个光流子向量场对应4个第七特征向量作为4个子特征向量。
步骤S5包括以下分步骤:
S5.1、通过第二特征向量合并模块将卷积神经网络4个通道输出的特征向量合并为长度为31520的第八特征向量,并将第八特征向量作为总特征向量;
S5.2、将第八特征向量传输给全连接网络中节点数为1024的第一全连接层处理后,经过一个elu激励函数,获取激励结果;
S5.3、将激励结果传递给第二全连接层,获取6自由度的估计位姿向量。
步骤S6中对卷积神经网络进行训练的过程为:通过估计位姿向量获取估计位姿向量误差,根据深度学习理论,使用ADAM优化器对卷积神经网络进行训练,使估计位姿向量误差下降至0.1时训练完成。
估计位姿向量误差loss为:
loss=||tpred-ttruth||2+β||rpred-rtruth||2 (1)
对卷积神经网络的训练时,将初始学习率设置为1×10-4,将训练过程每次传入神经网络的光流向量场个数设置为32,将训练的轮数设置为100,前70轮训练保持学习率保持不变,后30轮训练将学习率衰减至1×10-5;
其中,rpred为预测的旋转向量,rtruth为实际的旋转向量,tpred为预测位移向量,ttruth表示实际的位移向量,β表示平衡系数。
进一步地,所述估计里程s为:
s=[s0,s1,s2,...,sn-1,sn] (2)
其中,si表示第i次运动的估计位资向量,i=1,2,...n,xi表示第i次运动x轴的分量,yi表示第i次运动y轴的分量,zi表示第i次运动z轴的分量,φi表示旋转向量ri的在xy平面的欧拉角分量,θi表示旋转向量ri的在yz平面的欧拉角分量,表示旋转向量ri的在zx平面的欧拉角分量,dxi、dyi、dzi、dφi、dθi和分别表示xi、yi、zi、φi、θi和的变化量。
在本实施例中,特征数据进入注意力机制模块后,经过以下步骤:
B1、输入的特征数据分别输入第一最大池化层和第一平均池化层中,获取两种优化过后的特征;
B2、两种优化过后的特征经过多层感知机处理后,经过第一加法器组合,获取第一组合特征;
B3、第一组合特征经过第一sigmoid激励函数单元激励后,获取通道域优化特征;
B4、通道域优化特征分别输入第二最大池化层和第二平均池化层中,将两种优化过后的特征经过第二加法器组合后,获取第二组合特征;
B5、第二组合特征经过上卷积层处理后,经过第二sigmoid激励函数单元激励,获取空间域优化特征。
其中,空间域优化特征为注意力机制模块的输出数据。
本发明卷积神经网络来进行特征向量提取,避免了传统特征向量提取方法的特征向量人为性大的问题,同时使用全连接层回归位姿的方法也避开了复杂的特征向量匹配计算,大大提高了运算速度。
本发明中的光流提取算法是一种十分高效快速的深度学习算法,这也提高了算法的整体速度。
本发明采用注意力机制构造注意力机制模块,在注意力机制模块的基础上构建卷积神经网络,注意力机制模块对卷积神经网络的优化作用使整个神经网络进行视觉里程估计更加准确,保证了里程估计的高精度。
本发明与传统的方法相比无需手动获知相机参数,是一种全自动的视觉里程计实现方法。本发明作为一种单目视觉里程计算方法,其位移精度可与双目视觉里程计算方法媲美。
Claims (10)
1.一种基于深度学习和注意力机制的单目视觉里程计算方法,其特征在于,包括以下步骤:
S1、采用注意力机制构造注意力机制模块,并在注意力机制模块的基础上构建卷积神经网络;
S2、采集原始单目彩色图像,并将原始单目彩色图像尺寸裁剪为统一大小;
S3、将裁剪过后的第i张图像和第i+1张图片输入PWCnet光流计算模块,获取光流向量场,并将光流向量场按照4个象限等分为4个光流子向量场;
S4、将4个光流子向量场输入卷积神经网络,分别获取4个子特征向量;
S5、将4个子特征向量合并为一个总特征向量,然后将总特征向量输入全连接网络,获取估计位姿向量;
S6、以减少估计位姿误差为目标,对卷积神经网络进行训练;
S7、实时采集图片,并依次送入训练完成的卷积神经网络,得到若干连续的估计位姿向量,通过若干连续的估计位姿向量获取估计里程。
2.根据权利要求1所述的基于深度学习和注意力机制的单目视觉里程计算方法,其特征在于,所述卷积神经网络包括4条通道,所述4条通道的结构相同,均包括依次连接的第一卷积层、第一注意力机制模块、第二卷积层、第二注意力机制模块和第一特征向量合并模块,所述第一注意力机制模块还与第一特征向量合并模块的输入端连接,所述第一特征向量合并模块用于将第一注意力机制模块的输出数据和第二注意力机制模块输出数据组合;
所述第一卷积层为卷积核大小为9×9且卷积核数量为64的卷积层,所述第二卷积层为卷积核大小为3×3且卷积核数量为20的卷积层。
3.根据权利要求2所述的基于深度学习和注意力机制的单目视觉里程计算方法,其特征在于,所述第一注意力机制模块和第二注意力机制模块结构相同,均包括通道注意力模块和空间注意力模块;
所述通道注意力模块包括第一最大池化层、第一平均池化层、多层感知机、第一加法器和第一sigmoid激励函数单元,所述第一最大池化层的输入端为注意力机制模块的第一输入端,所述第一平均池化层的输入端为注意力机制模块的第二输入端,所述第一最大池化层的输出端和第一平均池化层的输出端分别与多层感知机的输入端连接,所述多层感知机的输出端与第一加法器的输入端连接,所述第一加法器的输出端与第一sigmoid激励函数单元的输入端连接;
所述空间注意力模块包括第二最大池化层、第二平均池化层、第二加法器、上卷积层和第二sigmoid激励函数单元,所述第二最大池化层的输入端和第二平均池化层的输入端分别与第一sigmoid激励函数单元的输出端连接,所述第二最大池化层的输出端和第二平均池化层的输出端分别与第二加法器的输入端连接,所述第二加法器的输出端与上卷积层的输入端连接,所述上卷积层的输出端与第二sigmoid激励函数单元的输入端连接,所述第二sigmoid激励函数单元的输出端为注意力机制模块的输出端。
4.根据权利要求1所述的基于深度学习和注意力机制的单目视觉里程计算方法,其特征在于,所述步骤S2中将原始单目彩色图像尺寸裁剪为1226×370×3,其中1226为图片宽度,370为图片高度,3为通道数。
5.根据权利要求1所述的基于深度学习和注意力机制的单目视觉里程计算方法,其特征在于,所述步骤S3中光流向量场数据格式为1226×370×2,其中1226为图片宽度,370为图片高度,2为通道数;4个光流子向量场数据格式均为613×185×2,其中613为图片宽度,185为图片高度,2为通道数。
6.根据权利要求1所述的基于深度学习和注意力机制的单目视觉里程计算方法,其特征在于,所述步骤S4中将4个光流子向量场输入卷积神经网络具体为:将第一象限的光流子向量场输入卷积神经网络的第一通道,将第二象限的光流子向量场输入卷积神经网络的第二通道,将第三象限的光流子向量场输入卷积神经网络的第三通道,将第四象限的光流子向量场输入卷积神经网络的第四通道;
所述4个光流子向量场在与其对应的通道中均经过以下步骤:
A1、通过第一卷积层提取数据维度为6×20×64的第一特征向量;
A2、将第一特征向量传递给第一注意力机制模块进行优化,获得数据维度为6×20×64的第二特征向量;
A3、将第二特征向量传输给第二卷积层,通过第二卷积层获取数据维度为2×5×20的第三特征向量;
A4、将第三特征向量传递给第二注意力机制模块进行优化,获得数据维度为2×5×20的第四特征向量;
A5、将数据维度为6×20×64的第二特征向量拉直成长度为7680的第五特征向量,将数据维度为2×5×20的第四特征向量拉直成长度为200的第六特征向量;
A6、通过第一特征向量合并模块将第一特征向量和第二特征向量合并为长度为7880的第七特征向量;
将4个光流子向量场对应4个第七特征向量作为4个子特征向量。
7.根据权利要求1所述的基于深度学习和注意力机制的单目视觉里程计算方法,其特征在于,所述步骤S5包括以下分步骤:
S5.1、通过第二特征向量合并模块将卷积神经网络4个通道输出的特征向量合并为长度为31520的第八特征向量,并将第八特征向量作为总特征向量;
S5.2、将第八特征向量传输给全连接网络中节点数为1024的第一全连接层处理后,经过一个elu激励函数,获取激励结果;
S5.3、将激励结果传递给第二全连接层,获取6自由度的估计位姿向量。
8.根据权利要求1所述的基于深度学习和注意力机制的单目视觉里程计算方法,其特征在于,所述步骤S6中对卷积神经网络进行训练的过程为:通过估计位姿向量获取估计位姿向量误差,根据深度学习理论,使用ADAM优化器对卷积神经网络进行训练,使估计位姿向量误差下降至0.1时训练完成。
9.根据权利要求8所述的基于深度学习和注意力机制的单目视觉里程计算方法,其特征在于,所述估计位姿向量误差loss为:
loss=||tpred-ttruth||2+β||rpred-rtruth||2 (1)
对卷积神经网络的训练时,将初始学习率设置为1×10-4,将训练过程每次传入神经网络的光流向量场个数设置为32,将训练的轮数设置为100,前70轮训练保持学习率保持不变,后30轮训练将学习率衰减至1×10-5;
其中,rpred为预测的旋转向量,rtruth为实际的旋转向量,tpred为预测位移向量,ttruth表示实际的位移向量,β表示平衡系数。
10.根据权利要求1所述的基于深度学习和注意力机制的单目视觉里程计算方法,其特征在于,所述估计里程s为:
s=[s0,s1,s2,...,sn-1,sn] (2)
其中,si表示第i次运动的估计位资向量,i=1,2,...n,xi表示第i次运动x轴的分量,yi表示第i次运动y轴的分量,zi表示第i次运动z轴的分量,φi表示旋转向量ri的在xy平面的欧拉角分量,θi表示旋转向量ri的在yz平面的欧拉角分量,表示旋转向量ri的在zx平面的欧拉角分量,dxi、dyi、dzi、dφi、dθi和分别表示xi、yi、zi、φi、θi和的变化量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839780.1A CN110533724B (zh) | 2019-09-06 | 2019-09-06 | 基于深度学习和注意力机制的单目视觉里程计的计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839780.1A CN110533724B (zh) | 2019-09-06 | 2019-09-06 | 基于深度学习和注意力机制的单目视觉里程计的计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110533724A true CN110533724A (zh) | 2019-12-03 |
CN110533724B CN110533724B (zh) | 2021-10-22 |
Family
ID=68667196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910839780.1A Active CN110533724B (zh) | 2019-09-06 | 2019-09-06 | 基于深度学习和注意力机制的单目视觉里程计的计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110533724B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080699A (zh) * | 2019-12-11 | 2020-04-28 | 中国科学院自动化研究所 | 基于深度学习的单目视觉里程计方法及*** |
CN111667535A (zh) * | 2020-06-04 | 2020-09-15 | 电子科技大学 | 一种针对遮挡场景下的六自由度位姿估计方法 |
CN111899280A (zh) * | 2020-07-13 | 2020-11-06 | 哈尔滨工程大学 | 采用深度学习和混合型位姿估计的单目视觉里程计方法 |
CN112115790A (zh) * | 2020-08-18 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 人脸识别方法、装置、可读存储介质和电子设备 |
CN112288812A (zh) * | 2020-10-30 | 2021-01-29 | 西安工程大学 | 一种基于视觉特征的移动机器人实时定位方法 |
CN113569825A (zh) * | 2021-09-26 | 2021-10-29 | 北京国电通网络技术有限公司 | 视频监控方法、装置、电子设备和计算机可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140078258A1 (en) * | 2012-09-17 | 2014-03-20 | Nec Laboratories America, Inc. | Real-time monocular visual odometry |
CN109978924A (zh) * | 2017-12-27 | 2019-07-05 | 长沙学院 | 一种基于单目的视觉里程计实现方法和*** |
CN110136185A (zh) * | 2019-05-23 | 2019-08-16 | 中国科学技术大学 | 一种单目深度估计方法及*** |
-
2019
- 2019-09-06 CN CN201910839780.1A patent/CN110533724B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140078258A1 (en) * | 2012-09-17 | 2014-03-20 | Nec Laboratories America, Inc. | Real-time monocular visual odometry |
CN109978924A (zh) * | 2017-12-27 | 2019-07-05 | 长沙学院 | 一种基于单目的视觉里程计实现方法和*** |
CN110136185A (zh) * | 2019-05-23 | 2019-08-16 | 中国科学技术大学 | 一种单目深度估计方法及*** |
Non-Patent Citations (5)
Title |
---|
DEQING SUN 等: "PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume", 《ARXIV》 * |
G. COSTANTE 等: "Exploring Representation Learning With CNNs for Frame-to-Frame Ego-Motion Estimation", 《IEEE ROBOTICS AND AUTOMATION LETTERS》 * |
SANGHYUN WOO等: "CBAM: Convolutional Block Attention Module", 《ARXIV》 * |
Y. LI 等: "Pose Graph optimization for Unsupervised Monocular Visual Odometry", 《2019 INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA)》 * |
郭爽: "基于单目深度估计的视觉里程计算法", 《无人机***技术》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080699A (zh) * | 2019-12-11 | 2020-04-28 | 中国科学院自动化研究所 | 基于深度学习的单目视觉里程计方法及*** |
CN111080699B (zh) * | 2019-12-11 | 2023-10-20 | 中国科学院自动化研究所 | 基于深度学习的单目视觉里程计方法及*** |
CN111667535A (zh) * | 2020-06-04 | 2020-09-15 | 电子科技大学 | 一种针对遮挡场景下的六自由度位姿估计方法 |
CN111899280A (zh) * | 2020-07-13 | 2020-11-06 | 哈尔滨工程大学 | 采用深度学习和混合型位姿估计的单目视觉里程计方法 |
CN111899280B (zh) * | 2020-07-13 | 2023-07-25 | 哈尔滨工程大学 | 采用深度学习和混合型位姿估计的单目视觉里程计方法 |
CN112115790A (zh) * | 2020-08-18 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 人脸识别方法、装置、可读存储介质和电子设备 |
CN112288812A (zh) * | 2020-10-30 | 2021-01-29 | 西安工程大学 | 一种基于视觉特征的移动机器人实时定位方法 |
CN113569825A (zh) * | 2021-09-26 | 2021-10-29 | 北京国电通网络技术有限公司 | 视频监控方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110533724B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110533724A (zh) | 基于深度学习和注意力机制的单目视觉里程计算方法 | |
CN107564061B (zh) | 一种基于图像梯度联合优化的双目视觉里程计算方法 | |
CN109859296B (zh) | Smpl参数预测模型的训练方法、服务器及存储介质 | |
CN108921926B (zh) | 一种基于单张图像的端到端三维人脸重建方法 | |
CN111311666B (zh) | 一种融合边缘特征和深度学习的单目视觉里程计方法 | |
CN107341814B (zh) | 基于稀疏直接法的四旋翼无人机单目视觉测程方法 | |
CN108510535A (zh) | 一种基于深度预测和增强子网络的高质量深度估计方法 | |
CN111862213A (zh) | 定位方法及装置、电子设备、计算机可读存储介质 | |
CN108230395A (zh) | 双视角图像校准及图像处理方法、装置、存储介质和电子设备 | |
CN111402311B (zh) | 一种基于知识蒸馏的轻量级立体视差估计方法 | |
CN108364319A (zh) | 尺度确定方法、装置、存储介质及设备 | |
CN110473284A (zh) | 一种基于深度学习的运动物体三维模型重建方法 | |
CN113393522A (zh) | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 | |
CN114663509B (zh) | 一种关键点热力图引导的自监督单目视觉里程计方法 | |
CN114387319B (zh) | 点云配准方法、装置、设备以及存储介质 | |
CN113592927B (zh) | 一种结构信息引导的跨域图像几何配准方法 | |
CN110443849B (zh) | 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法 | |
CN112258565B (zh) | 图像处理方法以及装置 | |
CN112233179A (zh) | 一种视觉里程计测量方法 | |
CN111080699A (zh) | 基于深度学习的单目视觉里程计方法及*** | |
Li | A calibration method of computer vision system based on dual attention mechanism | |
CN112819853A (zh) | 一种基于语义先验的视觉里程计方法 | |
Wang et al. | Lrru: Long-short range recurrent updating networks for depth completion | |
CN109087344B (zh) | 三维重建中的图像选择方法及装置 | |
CN117711066A (zh) | 一种三维人体姿态估计方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |