WO2019169540A1

WO2019169540A1 - 紧耦合视觉slam的方法、终端及计算机可读存储介质

Info

Publication number: WO2019169540A1
Application number: PCT/CN2018/078076
Authority: WO
Inventors: 钟上焜; 王永锟
Original assignee: 斯坦德机器人（深圳）有限公司
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2019-09-12
Also published as: CN110462683B; CN110462683A

Abstract

本发明实施例公开了紧耦合视觉SLAM的方法、终端及计算机可读存储介质，通过紧耦合融合方式将二维码与目前的视觉SLAM进行融合，应用单目vSLAM于实际工业机器人直接得到米制尺度的地图并完成相机自身的定位工作。另外，基于二维码的唯一识别id，可以快速准确的完成重定位和回环检测，有效的处理环境中的重复纹理，得到更加鲁棒的***。

Description

紧耦合视觉SLAM的方法、终端及计算机可读存储介质

技术领域

本发明涉及机器人自动导航定位技术领域，尤其涉及紧耦合视觉SLAM的方法、终端及计算机可读存储介质。

背景技术

近些年来机器人的视同定位与构图技术(SLAM，全称是Simultaneous Localization and Mapping)一直成为机器人领域的热点，因为它是实现自主机器人的基础。单目相机具有质量轻、成本低、信息丰富等优点，单目视觉SLAM(vSLAM)利用单目相机提取图像中的特征点，进行特征匹配，然后利用视差同时估计出相机的位姿和恢复3D点的位置，利用单目视觉SLAM能够容易地扩展到陌生的环境中进行地图的构建和完成机器人定位任务。

目前，单目vSLAM实际工业机器人的应用并不广泛，是因为它还不够稳定。由于单目vSLAM实际工业机器人在实际运行时场地光照条件不断变化，自然特征点的匹配很容易出现误匹配，误匹配会直接导致地图的构建出错和定位的失败，从而导致在工业的应用中会造成巨大的经济损失和安全问题。

单目vSLAM还存在一个根本性的缺陷：尺度的不确定性，即直接由纯单目得到的位置和3D地图点不能直接用于机器人的定位和定姿，需要进行更进一步的尺度的估计才能得到米制尺度；由于特征点存在测量误差，随着单目vSLAM运行，其存在尺度漂移的现象，即尺度会在***长时间运行过程中发生膨胀或者收缩。

为了充分的发挥出单目vSLAM的优势，可以通过引入一些先验信息来获得绝对的尺度信息，并对尺度进行随时的更正。一般可以使用IMU(即惯性测量装置)来完成这样的工作，但是IMU的精度一般与其价格成正相关，这样反而无法突显单目低成本的优势。

发明内容

本发明实施例提供紧耦合视觉SLAM的方法、终端及计算机可读存储介质，可通过提前布置打印出来正方形二维码来进行单目vSLAM的尺度矫正和恢复，还可以保证鲁棒的特征点匹配和初始的位姿估计，更快更准确的完成重定位和回环检测，有效的对抗重复纹理场景。

第一方面，本发明实施例提供了一种紧耦合视觉SLAM的方法，该方法包括：

初始化SLAM地图，获取当前帧图像中ORB特征点，由当前帧图像中ORB特征点、匀速运动模型及PnP算法获取最优的当前帧位姿，若当前帧位姿满足预设的关键帧判断条件，将当前帧设置为关键帧，并加入局部构图线程的关键帧处理队列以及回环检测线程的关键帧处理队列中；

若局部构图线程的关键帧处理队列中为非空，获取队首的关键帧记为当前关键帧，由当前关键帧、与当前关键帧有共同可视3D点的局部活动关键帧构建共视图，删除共视图中满足预设的冗余地图点判断条件的冗余3D地图点，根据共视图的固定关键帧和活动关键帧，对应获取局部最优的相机位姿、3D点坐标和二维码位姿；

若回环检测线程的关键帧处理队列中为非空、且队首的关键帧为当前关键帧，获取关键帧中满足回环条件的候选关键帧，根据候选关键帧进行位姿迭代更新、闭环矫正、地图矫正及全局优化后，得到全局最优的相机位姿、3D点坐标和二维码位姿。

第二方面，本发明实施例提供了一种终端，该终端包括用于执行上述第一方面的方法的单元。

第三方面，本发明实施例提供了另一种终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持终端执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本发明实施例的紧耦合视觉SLAM的方法、终端及计算机可读存储介质，通过紧耦合融合方式将二维码与目前的视觉SLAM进行融合，利用单目vSLAM实际工业机器人直接得到米制尺度的地图并完成相机自身的定位工作。另外，基于二维码的唯一识别id，可以快速准确的完成重定位和回环检测，有效的处理环境中的重复纹理，得到更加鲁棒的***。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种紧耦合视觉SLAM的方法的示意流程图；

图1b是本发明实施例提供的一种紧耦合视觉SLAM的方法的子步骤的示意流程图；

图2是本发明实施例提供的一种紧耦合视觉SLAM的方法中另一子步骤的示意流程图；

图3a是通过本发明实施例提供的一种紧耦合视觉SLAM的方法及ORB-SLAM方法估计的3D轨迹空间曲线图。

图3b是通过本发明实施例提供的一种紧耦合视觉SLAM的方法打开回环模块后得到的估计3D轨迹曲线图。

图4a是通过本发明实施例提供的一种紧耦合视觉SLAM的方法及ORB-SLAM方法估计的另一3D轨迹空间曲线图。

图4b是通过本发明实施例提供的一种紧耦合视觉SLAM的方法打开闭环模块后得到的另一估计3D轨迹曲线图。

图5a是本发明实施例提供的一种终端的示意性框图；

图5b是本发明实施例提供的一种终端中子单元示意性框图；

图6是本发明实施例提供的一种终端中子单元的另一示意性框图；

图7是本发明另一实施例提供的一种终端的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

具体实现中，本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端。然而，应当理解的是，终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。

终端支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时信息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

参见图1a，图1a是本发明实施例提供一种紧耦合视觉SLAM的方法的示意流程图，它分为三个独立的线程并行运行：跟踪、局部构图与回环三个线程，具体流程如图1a所示，方法可包括：

步骤S100、初始化SLAM地图，获取当前帧图像中ORB特征点，由当前帧图像中ORB特征点、匀速运动模型及PnP算法获取最优的当前帧位姿，若当前帧位姿满足预设的关键帧判断条件，将当前帧设置为关键帧，并加入局部构图线程的关键帧处理队列以及回环检测线程的关键帧处理队列中；

具体参见图1b，在一些实施例中，步骤S100可以包括步骤S101-步骤S103，上述3个步骤为跟踪线程的步骤，具体如下：

步骤S101、初始化SLAM地图，获取3D点坐标和二维码位姿。

本实施例中，在单目vSLAM实际工业机器人的实际运行场地中(如仓库中)，首先通过不限于粘贴等方法将正方形二维码随机布置于一定的空间中，正方形的二维码粘贴要求平整，每一个二维码都具有唯一标识的ID，所有二维码打印的边长都相同。具体的，所述二维码中包括的信息有唯一标识的ID、及二维码的几何信息(该几何信息及二维码的尺寸等信息)。

具体参见图2，在一些实施例中，步骤S101可以包括：

步骤S1011、判断是否输入已构建地图；

步骤S1012、若输入已构建地图，读取已构建地图，得到初始化SLAM地图；

步骤S1013、若未输入已构建地图，判断第一帧是否检测到二维码；

步骤S1014、若第一帧检测到二维码，根据二维码得到初始化SLAM地图；

步骤S1015、若第一帧未检测到二维码，获取第一帧的ORB特征点及当前帧的ORB特征点，若第一帧的ORB特征点与当前帧的ORB特征点之间的匹配成功特征点点数超出预设的匹配点阈值，获取第一帧与当前帧之间的相对位姿，根据第一帧与当前帧之间的相对位姿对匹配成功特征点进行三角化，得到初始化SLAM地图。

其中，在进行SLAM的初始化时，首先会判断单目vSLAM实际工业机器人中是否输入已构建地图(即事先已经构建好的地图)，若存在输入的已构建地图，则直接读取保存的已构建地图。若不存在输入的已构建地图，则根据第一帧是否检测到二维码将SLAM的初始化分为两种情况。

若第一帧检测到二维码，使用二维码进行初始化。具体为第一帧中利用二维码的检测得到的4个特征点直接得到每种id二维码的位姿，在之后连续多帧图像处理中，使用已经构建的二维码与当前帧中检测的二维码进行匹配，匹配完成后利用迭代的PnP算法(Perspective-n-Point简记为PnP，PnP算法是指通过多对3D与2D匹配点，在已知或者未知相机内参的情况下，利用最小化重投影误差来求解相机外参的算法)求得当前帧的位姿。若当前帧与第一帧之间光心的距离大于一定的距离阈值，提取两帧之间的ORB特征点，进行匹配，然后使用特征点的三角化来初始化SLAM地图。此时完成了初始地图的构建，地图中存在一定规模的3D地图点以及二维码的位姿。

若第一帧未检测到二维码，提取第一帧和后续帧的ORB特征点，对第一帧的ORB特征点和当前帧的ORB特征点进行匹配，若匹配点数目足够多(即第一帧的ORB特征点与当前帧的ORB特征点之间的匹配成功特征点点数超出预设的匹配点阈值)，且匹配点的运动趋势较大，利用8点法，求得第一帧与当前帧这两帧之间的基础矩阵，对该基础矩阵进行分解和处理，得到两帧之间的相对位姿，利用相对位姿对匹配成功的特征点的三角化，获得初始的3D地图点的估计(即初始化SLAM地图的估计)。

通过以上方式获得的地图和关键帧的位姿缺少一个尺度参数，当后续的图像序列第一次观测到二维码的关键帧时，需要恢复地图的绝对尺度。在完成当前帧的ORB特征点匹配后，找到当前帧中所有落入二维码区域内的3D点，使用RANSAC(Random Sample Consensus的缩写，它是根据一组包含异常数据的样本数据集，计算出数据的数学模型参数，得到有效样本数据的算法)拟合出二维码平面的方程，利用二维码平面的方程求解出当前帧光心到平面的距离，利用二维码角点解算的二维码-相机相对位姿，得到当前帧光心到平面的实际距离，直接解算得到尺度因子。此时，需要矫正整个地图的尺度，将地图中所有的关键帧的位姿和3D点的位置转换到当前帧的坐标系下，对转后的量进行尺度的恢复，最后再将尺度恢复的位姿和3D点坐标变换到世界坐标系下。

步骤S102、获取当前帧图像的当前帧中ORB特征点，若当前帧中ORB特征点的状态对应跟踪成功状态，根据匀速运动模型及PnP算法获取最优的当前帧位姿。

在一些实施例中，步骤S102之后可以包括：若当前帧中ORB特征点的状态对应跟踪失败状态，根据二维码获取二维码初始位姿，根据PnP算法获取最优的当前帧位姿。

即步骤S102中实现了对当前帧的位姿跟踪，即提取当前帧中的ORB特征点，判断当前帧的前一帧的状态是否为跟踪成功状态(跟踪成功状态即表示当前帧中ORB特征点能与SLAM初始化时得到的3D点坐标构成3D-2D的匹配)，若当前帧的前一帧的状态为跟踪成功状态，使用匀速运动模型对当前帧的位姿做初步估计，将当前帧的ORB特征点与地图中的3D点进行匹配，最终使用迭代的PnP算法求得最优的当前帧位姿。若此次匹配的特征点数量过少，则当前帧的状态设为跟踪失败状态。若当前帧的前一帧的状态为跟踪失败状态，使用使用二维码找到一系列的候选关键帧，将候选关键帧中所有的3D点作为候选3D点，利用检测得到的二维码得到二维码初始位姿，匹配地图中的3D地图点和图像中的ORB特征点，最终使用迭代的PnP算法求得最优的当前帧位姿。

其中，匀速运动模型会假设相机的运动为匀速，假设k时刻的位姿速度为ΔT _k-1，那么可以利用上一帧的位姿对当前帧的位姿进行初步的预测，得到预测位姿

即

每次在成功跟踪当前帧位姿T _k后，需要对匀速模型进行更新：

特征点的匹配过程中，首先将上一帧中匹配成功的3D点与当前帧的特征点进行匹配，使用匀速模型预测的当前帧的位姿将这些3D点向当前帧的像平面进行投影，然后再以该投影点为中心，给定阈值的半径r内的所有ORB特征点进行匹配，找到两个特征向量的最小的汉明距离r _h，当r _h小于给定阈值，则可以接受匹配。匹配结束后，得到一组点对，包括一组3D点X _i和2D点p _i，i＝1，2，…，n，每一对匹配点存在一个重投影误差：

r _i＝p _i-π T，X _i (1.1)

在式(1.1)中，

其中f _x和f _y为相机的焦距，c _x和c _y为相机主点坐标，R为世界坐标系到某一帧相机坐标系的旋转矩阵和t为对应的平移向量，[x _C，y _C，z _C]为某一个在世界坐标系下3D的点p在相机系下的坐标；

由匀速模型提供的位姿作为初始值，将所有的重投影误差累加起来，使用L-M方法(Levenberg-Marquardt是通过在Hessian矩阵上加一个正定矩阵来进行分析评估的方法，是最优化算法中的一种)，优化当前帧位姿使得累计的重投影误差最小，得到最优的当前帧位姿。由于通过预测位姿精度不高，匹配的特征点数目可能较少，需要进一步利用优化后的位姿做进一步的匹配，这一步骤需要维护一个局部地图点集，以便能够更加高效准确的完成当前帧的2D特征点到3D地图点的匹配。首先需要找到与当前帧具有共视地图点的关键帧K ₁，局部地图来源于参考关键帧的在共视图中邻接帧所看到的3D点，找到局部地图点后，将这些3D点向当前帧的像平面进行投影，与之前方法一致找到最优的匹配点，再带入迭代的PnP算法得到最优的当前帧位姿。

步骤S103、若当前帧中所跟踪特征点数目满足预设的关键帧判断条件，将当前帧设置为关键帧，并加入局部构图线程的关键帧处理队列以及回环检测线程的关键帧处理队列中；其中，预设的关键帧判断条件是当前帧中所跟踪特征点数目小于预设的特征点数阈值，或小于上一帧中所跟踪特征点数目的90％。在步骤S103中是在进行当前帧是否为关键帧的判定。

步骤S200、若局部构图线程的关键帧处理队列中为非空，获取队首的关键帧记为当前关键帧，由当前关键帧、与当前关键帧有共同可视3D点的局部活动关键帧构建共视图，删除共视图中满足预设的冗余地图点判断条件的冗余3D地图点，根据共视图的固定关键帧和活动关键帧，对应获取局部最优的相机位姿、3D点坐标和二维码位姿。

具体参见图1b，在一些实施例中，步骤S200可以包括步骤S104-步骤S108，上述5个步骤为局部构图线程的步骤，具体如下：

步骤S104、若局部构图线程的关键帧处理队列为非空，取出队首的关键帧，标记为当前关键帧，获取与当前关键帧的共同可视3D点相同的局部活动关键帧，由关键帧及局部活动关键帧构建共视图。

在步骤S104中主要进行新关键帧的创建，即主要工作是构建和更新共视图。共视图是一种无向图，它以关键帧为节点，关键帧之间具有共同可视3D点，且共视3D点数量大于一定阈值。共视图的两帧之间存在一条边，边的权值为共视地图点的数量。首先，找到所有与当前帧具有共同可视3D点的关键帧，共视3D点数量大于一定的阈值，则向该关键帧与当前帧之间添加一条无向边，这个边的权重为共视3D点的数量。完成共视图的更新和创建后，将在共视图中当前帧的所有邻接关键帧为局部活动关键帧，将找到所有局部活动关键帧可观测到的3D点。

步骤S105、删除共视图中满足预设的冗余地图点判断条件的冗余3D地图点；其中，预设的冗余地图点判断条件是局部活动关键帧中可观测到3D点的匹配数量低于局部活动关键帧预测可观测数量的25％，且局部活动关键帧中可观测到3D点至少在3个关键帧中可见。在步骤S105中是在进行冗余3D地图点的删除。

步骤S106、若当前关键帧的ORB特征点与局部活动关键帧中未匹配的ORB特征点进行基线的搜索匹配成功，通过三角化以初始化3D地图点位置，并恢复在地图中对应的二维码位姿。在步骤S106中是在创建新的地图点。

步骤S107、根据共视图的固定关键帧和活动关键帧，对应获取局部最优的相机位姿、3D点坐标和二维码位姿。

在一些实施例中，步骤S107中以固定关键帧和活动关键帧中所有匹配到的3D点、关键帧的位姿、二维码的位姿作为状态量，以2D特征点和二维码提取的角点作为观测量，通过非线性最小二乘算法获取局部最优的相机位姿、3D点坐标和二维码位姿。

即在步骤S107中进行局部地图的优化，即在共视图中将固定关键帧和活动关键帧中所有匹配的3D地图点、关键帧的位姿和二维码的位姿作为状态量，2D特征点和二维码提取的角点作为观测量，利用非线性最小二乘求解局部最优的相机位姿、3D点坐标和二维码位姿。

具体操作为假设固定关键帧集合为K ₁，活动关键帧集合为K ₂，将所有的关键帧记做为K，所有的3D点集合记为P，地图中的二维码为A，编号为i的关键帧的位姿为T _i，编号为j的3D点的位置为p _j，设第j个3D点被第i个关键帧观测到投影点为u _ij，每一对匹配点存在一个重投影误差：

r _ij＝u _ij-π T _i，X _j (1.2)

其中，

编号为k的二维码位姿为T _k，若第k个二维码能够被第i个关键帧观测到，那么可以很容易得到二维码4个角点的观测量u _ikl(l＝1，2，3，4)，

对应于在二维码坐标系下的3D坐标X _l，利用相机的位姿和二维码的位姿，将4个点向当前帧进行投影：

r _ikl＝u _ikl-π T _iT _k，X _l (1.4)

其中π·如式(1.3)所示，T _i为第i帧关键帧的位姿，r _ikl为id为k的二维码在第i个关键帧d的第1个角点的重投影误差。

将上式中4个残差叠r _ikl(l＝1，2，3，4)加成一个向量，得到8维的向量

为了求解得到局部最优的相机位姿、3D点坐标和二维码位姿，优化以下函数：

其中r _ij为第j个3D点在第i个关键帧上的重投影误差，K为地图中所有的关键帧集合，P为地图中所有3D点集合，A为地图中所有二维码位姿集合。

本申请中使用L-M算法进行求解，其中固定关键帧位姿在迭代过程中保持不变。

步骤S108、删除满足预设的冗余关键帧判断条件的关键帧；其中，预设的冗余关键帧判断条件是关键帧中90％以上的特征点被多个关键帧中的至少3个其他关键帧所匹配。在步骤S108中进行冗余关键帧的删除。

步骤S300、若回环检测线程的关键帧处理队列中为非空、且队首的关键帧为当前关键帧，获取关键帧中满足回环条件的候选关键帧，根据候选关键帧进行位姿迭代更新、闭环矫正、地图矫正及全局优化后，得到全局最优的相机位姿、3D点坐标和二维码位姿。

具体参见图1b，在一些实施例中，步骤S300可以包括步骤S109-步骤S113，上述5个步骤为回环检测线程的步骤，具体如下：

步骤S109、通过二维码获取关键帧中满足回环条件的候选关键帧。

在一些实施例中，步骤S109中根据二维码与关键帧的映射表，搜索与当前帧观测到相同二维码ID的初始候选关键帧，若初始候选关键帧中有与当前帧在共视图中未邻接，初始候选关键帧未与当前帧相邻接的关键帧邻接，且初始候选关键帧的数量超出预设的关键帧数量阈值，获取初始候选关键帧中的候选关键帧。

即，在步骤S109中进行回环判定，即通过二维码找到一系列的候选关键帧。寻找方法为：在构建地图时会构建一个二维码id到关键帧的映射，通过该映射表可以很快的搜索出与当前帧观测到相同id的关键帧，但是若要成为候选关键帧，搜索的关键帧既不能与当前关键帧在共视图中相邻接，也不能与当前帧邻接的关键帧邻接，直到找到所有满足要求的关键帧。若候选关键帧的数量大于一定阈值，则判断回环成功。

步骤S110、获取与当前帧成功匹配特征点为多个值中最大值的回环帧，将回环帧与当前帧进行3D点的融合。

在步骤S110中，是对当前帧相对于环首地图位姿的计算，即将候选关键帧中的所有观测到的点作为候选3D点，根据二维码提供的初始位姿，对候选3D点与当前帧中的特征点进行匹配，匹配完成后使用RANSAC和PnP对算法位姿进行估计，使用得到的位姿再进行3D点的匹配，用更新后的匹配再对位姿做一次迭代更新，直到找到与当前帧具有最多数量的成功匹配特征点的回环帧。之后，需要利用回环帧与当前帧进行3D点的融合，其目的是将环尾的3D点和环首的3D点进行匹配，成功匹配一对3D点后，需要将被更少关键帧观测到丢掉，最后需要重新更新共视图的节点和边的信息。

步骤S111、获取共视图的最小生成树，根据最小生成树对共视图进行闭环矫正，得到矫正后的关键帧、矫正后的地图点以及矫正后的二维码位姿。

在一些实施例中，步骤S111中以最小生成树上每个关键帧的位姿作为状态量，用每两个关键帧之间的相对位姿作为观测量，固定回环帧的位姿进行优化，得到优化后的关键帧、优化后的地图点以及优化后的二维码位姿。

即在步骤S111中进行图优化的处理，由于在步骤S110中计算了当前帧相对之前的地图的位姿，需要利用该位姿对整个地图进行矫正，完成闭环矫正。具体过程为为先找到共视图的最小生成树，以最小生成树上每个关键帧的位姿作为状态量，用每两帧之间的相对位姿作为观测量，固定回环关键帧的位姿，对整个位姿图进行优化，得到优化后的关键帧、优化后的地图点以及优化后的二维码位姿。

步骤S112、获取共视图中未在最小生成树内的关键帧、共视图中所有3D点、及二维码位姿，分别根据优化后的关键帧、优化后的地图点以及优化后的二维码位姿进行矫正，对应得到矫正后的关键帧、矫正后的地图点以及矫正后的二维码位姿。

其中，步骤S112中进行地图的矫正。关键帧的矫正具体实现是遍历地图中所有的关键帧，判断该关键帧是否在最小生成树中出现，若没有出现，在经过矫正的关键帧中找到最多匹配点的关键帧作为参考关键帧，然后用参考关键帧矫正后的位姿乘以校正前的两帧之间的相对位姿，这样可以完成每一个关键帧的位姿矫正。

3D点的矫正的步骤为首先找到3D特征点的参考关键帧，参考关键帧的判定依据为计算该点到所有关键帧光心向量的均值，参考关键帧满足其3D点到光心的向量与该均值向量夹角最小。然后利用参考关键帧更新3D点的位置，具体操作为先用参考关键帧校正前位姿把3D点变换到参考关键帧坐标系下，再用校正后的位姿将3D点变换回到世界坐标系下。

二维码位姿的矫正为遍历所有的二维码，找到二维码出现在像平面最中间的关键帧，定义为参考关键帧，其具体操作为计算地图中二维码坐标系原点到所有能够观测到该二维码关键帧光心向量的均值，找到该向量与二维码坐标系原点到关键帧光心夹角最小的关键帧。然后利用参考关键帧更新二维码的位姿，具体操作为先用参考关键帧校正前位姿把二维码变换到参考关键帧坐标系下，再用校正后的位姿将二维码变换回到世界坐标系下。

步骤S113、根据矫正后的关键帧、矫正后的地图点以及矫正后的二维码位姿，对应获取全局最优的相机位姿、3D点坐标和二维码位姿。

在一些实施例中，步骤S113中以SLAM地图中所关键帧的位姿、所有地图点的位姿、二维码的位姿作为状态量，以以SLAM地图中所有匹配成功的特征点作为观测量，通过非线性最小二乘算法获取全局最优的相机位姿、3D点坐标和二维码位姿。

即在步骤S113中是进行全局优化，即将地图中的所有关键帧、地图点以及二维码的位姿作为状态量，以所有匹配的成功的特征点坐标为观测量，对状态量进行优化，求解出全局最优的相机位姿、3D点坐标和二维码位姿。

具体操作为将所有的关键帧记做为K，所有的3D点集合记为P，地图中的二维码为A，编号为i的关键帧的位姿为T _i，编号为j的3D点的位置为p _j，设第j个3D点被第i个关键帧观测到，投影点为u _ij，每一对匹配点存在一个重投影误差：

r _ij＝u _ij-π T _i，X _j (1.6)

其中，

r _ikl＝u _ikl-π T _iT _k，X _l (1.8) 将4个残差叠加成一个向量，得到8维的向量

为了求解得到最优的相机位姿、3D点坐标和二维码位姿，优化以下函数：

本申请中使用L-M算法进行求解，其中第一帧的位姿在优化过程中保持不变。

为了验证本申请中所述紧耦合视觉SLAM的方法准确度，通过以下具体实验来实现。首先在在某一指定地库中的柱子上垂直粘贴26个A4纸打印的二维码，每个二维码之间的间距为6～8m，使用kinect2(kinect2是一款微软发售的消费级RGB-D相机，RGB相机是卷帘相机，轻微的抖动会导致图像模糊)在地库环境中运动一圈后，记录下kinect2所录下的数据，然后使用本发明中的算法和一个经典的纯单目视觉SLAM算法(ORB-SLAM)进行对比，由于kinect2采集的图像包括RGB图像和深度图像，本发明只使用RGB图像。为了对比本发明的方法和经典的单目视觉SLAM，首先将关闭本发明中和ORB-SLAM回环模块，然后使用录制的数据跑完一圈后的估计轨迹如图3a所示，图中左侧封闭曲线为使用本发明的方法得到的估计的轨迹图像，右侧未闭合曲线为使用经典的单目SLAM(ORB-SLAM)估计的3D轨迹，可以从图中很明显的看出来，本发明提供的方法能够得到更加准确的估计轨迹。需要注意的是ORB-SLAM估计的轨迹是没有尺度信息的，在得到结果后，需要对整个轨迹进行尺度恢复。图3b是使用本发明的方法打开回环模块后得到的估计轨迹，使用米尺对长方形区域的长和宽进行测量，分别为85m和29m，本法明得到的估计结果和该测量结果很吻合，而且与纯单目SLAM相机，该轨迹可以直接得到，无需后续的处理。图3a和图3b中，trajectory表示在x，y，z轴下的轨迹。

在进一步的验证试验中，使用MT9V034在室内采集的图片，相机沿着走廊飞行两圈，每一圈的路径大约为70m，二维码沿着该路径总共布置了34个，且每个二维码的边长为0.232m。为了对比本发明的方法和经典的单目视觉SLAM，首先将关闭本发明中和ORB-SLAM回环模块，然后使用录制的数据跑完一圈后的估计轨迹如图4a所示，图中红线为使用本发明的方法得到的估计的轨迹图像，绿线为使用经典的单目SLAM(ORB-SLAM)估计的3D轨迹，可以从图中很明显的看出来，本发明提供的方法能够得到更加准确的估计轨迹，纯单目视觉 SLAM产生了较大的误差和尺度的漂移。需要注意的是ORB-SLAM估计的轨迹是没有尺度信息的，在得到结果后，需要对整个轨迹进行尺度恢复。图4b为由本发明的方法打开闭环模块后直接估计出来的轨迹，可以看出来该轨迹形状符合期望，将每一圈估计轨迹的路程累加起来得到75.5m，和测量的路径十分吻合。图4a和图4b中，trajectory表示在x，y，z轴下的轨迹。

本发明实施例还提供一种终端，该终端用于执行前述任一项所述的方法的单元。具体地，参见图5a，图5a是本发明实施例提供的一种终端的示意框图。本实施例的终端包括：位姿跟踪单元100、局部构图单元200、及回环检测单元300。

位姿跟踪单元100，用于初始化SLAM地图，获取当前帧图像中ORB特征点，由当前帧图像中ORB特征点、匀速运动模型及PnP算法获取最优的当前帧位姿，若当前帧位姿满足预设的关键帧判断条件，将当前帧设置为关键帧，并加入局部构图线程的关键帧处理队列以及回环检测线程的关键帧处理队列中。

局部构图单元200，用于若局部构图线程的关键帧处理队列中为非空，获取队首的关键帧记为当前关键帧，由当前关键帧、与当前关键帧有共同可视3D点的局部活动关键帧构建共视图，删除共视图中满足预设的冗余地图点判断条件的冗余3D地图点，根据共视图的固定关键帧和活动关键帧，对应获取局部最优的相机位姿、3D点坐标和二维码位姿。

回环检测单元300，用于若回环检测线程的关键帧处理队列中为非空、且队首的关键帧为当前关键帧，获取关键帧中满足回环条件的候选关键帧，根据候选关键帧进行位姿迭代更新、闭环矫正、地图矫正及全局优化后，得到全局最优的相机位姿、3D点坐标和二维码位姿。

在一些实施例中，如图5b所示，位姿跟踪单元100包括SLAM初始化单元101，当前帧的位姿跟踪单元102，关键帧判断单元103。局部构图单元200包括新关键帧创建单元104，冗余3D地图点删除单元105，新地图点创建单元106，局部地图优化单元107，冗余关键帧删除单元108。回环检测单元300包括回环判定单元109，当前帧相对位姿计算单元110，图优化单元111，地图矫正单元112，全局优化单元113。

SLAM初始化单元101，用于初始化SLAM地图，获得3D点坐标以及对应的二维码位姿。

当前帧的位姿跟踪单元102，用于获取当前帧图像的当前帧中ORB特征点，若当前帧中ORB特征点的状态对应跟踪成功状态，根据匀速运动模型及PnP算法获取最优的当前帧位姿。

具体地，请参考图6，在一些实施例中，SLAM初始化单元101可以包括：

地图输入判断单元1011，用于判断是否输入已构建地图；

地图读取单元1012，用于若输入已构建地图，读取已构建地图，得到初始化SLAM地图；

二维码判断判断单元1013，用于若未输入已构建地图，判断第一帧是否检测到二维码；

第一初始化单元1014，用于若第一帧检测到二维码，根据二维码得到初始化SLAM地图；

第二初始化单元1015，用于若第一帧未检测到二维码，获取第一帧的ORB特征点及当前帧的ORB特征点，若第一帧的ORB特征点与当前帧的ORB特征点之间的匹配成功特征点点数超出预设的匹配点阈值，获取第一帧与当前帧之间的相对位姿，根据第一帧与当前帧之间的相对位姿对匹配成功特征点进行三角化，得到初始化SLAM地图。

关键帧判断单元103，用于若当前帧中所跟踪特征点数目满足预设的关键帧判断条件，将当前帧设置为关键帧，并加入局部构图线程的关键帧处理队列以及回环检测线程的关键帧处理队列中；其中，预设的关键帧判断条件是当前帧中所跟踪特征点数目小于预设的特征点数阈值，或小于上一帧中所跟踪特征点数目的90％。

新关键帧创建单元104，用于若局部构图线程的关键帧处理队列为非空，取出队首的关键帧，标记为当前关键帧，获取与当前关键帧的共同可视3D点相同的局部活动关键帧，由当前关键帧及局部活动关键帧构建共视图。

冗余3D地图点删除单元105，用于删除共视图中满足预设的冗余地图点判断条件的冗余3D地图点；其中，预设的冗余地图点判断条件是局部活动关键帧中可观测到3D点的匹配数量低于局部活动关键帧预测可观测数量的25％，且局部活动关键帧中可观测到3D点至少在3个关键帧中可见。

新地图点创建单元106，用于若当前关键帧的ORB特征点与局部活动关键帧中未匹配的ORB特征点进行基线的搜索匹配成功，通过三角化以初始化3D 地图点位置，并恢复在地图中对应的二维码位姿。

局部地图优化单元107，用于根据共视图的固定关键帧和活动关键帧，对应获取局部最优的相机位姿、3D点坐标和二维码位姿。

冗余关键帧删除单元108，用于删除满足预设的冗余关键帧判断条件的关键帧；其中，预设的冗余关键帧判断条件是关键帧中90％以上的特征点被多个关键帧中的至少3个其他关键帧所匹配。

回环判定单元109，用于若回环检测线程中关键帧队列非空，队首的关键帧为当前关键帧，通过当前关键帧二维码id获取关键帧中满足回环条件的候选关键帧。

当前帧相对位姿计算单元110，用于获取与当前帧成功匹配特征点为多个值中最大值的回环帧，将回环帧与当前帧进行3D点的融合。

图优化单元111，用于获取共视图的最小生成树，根据最小生成树对共视图进行闭环矫正，得到优化后的关键帧、优化后的地图点以及优化后的二维码位姿。

地图矫正单元112，用于获取共视图中未在最小生成树内的关键帧、共视图中所有3D点、及二维码位姿，分别根据优化后的关键帧、优化后的地图点以及优化后的二维码位姿进行矫正，对应得到矫正后的关键帧、矫正后的地图点以及矫正后的二维码位姿。

全局优化单元113，用于根据矫正后的关键帧、矫正后的地图点以及矫正后的二维码位姿，对应获取全局最优的相机位姿、3D点坐标和二维码位姿。

参见图7，是本发明另一实施例提供的一种终端示意框图，此终端对应实现以上实施例的紧耦合视觉SLAM的方法。如图所示的本实施例中的终端可以包括：一个或多个处理器701；一个或多个输入设备702，一个或多个输出设备703和存储器704。上述处理器701、输入设备702、输出设备703和存储器704通过总线705连接。存储器702用于存储计算机程序，所述计算机程序包括程序指令，处理器701用于执行存储器702存储的程序指令。其中，处理器701被配置用于调用所述程序指令以执行以上实施例的紧耦合视觉SLAM的方法。

应当理解，在本发明实施例中，所称处理器701可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备702可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备703可以包括显示器(LCD等)、扬声器等。

该存储器704可以包括只读存储器和随机存取存储器，并向处理器701提供指令和数据。存储器704的一部分还可以包括非易失性随机存取存储器。例如，存储器704还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器701、输入设备702、输出设备703可执行本发明实施例提供的紧耦合视觉SLAM的方法的实施例中所描述的实现方式，也可执行本发明实施例所描述的终端的实现方式，在此不再赘述。

在本发明的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现以上实施例的紧耦合视觉SLAM的方法。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

一种紧耦合视觉SLAM的方法，其特征在于，包括：

初始化SLAM地图，获取当前帧图像中ORB特征点，由当前帧图像中ORB特征点、匀速运动模型及PnP算法获取最优的当前帧位姿，若当前帧位姿满足预设的关键帧判断条件，将当前帧设置为关键帧，并加入局部构图线程的关键帧处理队列以及回环检测线程的关键帧处理队列中；

若局部构图线程的关键帧处理队列中为非空，获取队首的关键帧记为当前关键帧，由当前关键帧、与当前关键帧有共同可视3D点的局部活动关键帧构建共视图，删除共视图中满足预设的冗余地图点判断条件的冗余3D地图点，根据共视图的固定关键帧和活动关键帧，对应获取局部最优的相机位姿、3D点坐标和二维码位姿；

若回环检测线程的关键帧处理队列中为非空、且队首的关键帧为当前关键帧，获取关键帧中满足回环条件的候选关键帧，根据候选关键帧进行位姿迭代更新、闭环矫正、地图矫正及全局优化后，得到全局最优的相机位姿、3D点坐标和二维码位姿。
根据权利要求1所述的方法，其特征在于，所述初始化SLAM地图，获取当前帧图像中ORB特征点，由当前帧图像中ORB特征点、匀速运动模型及PnP算法获取最优的当前帧位姿，若当前帧位姿满足预设的关键帧判断条件，将当前帧设置为关键帧，并加入局部构图线程的关键帧处理队列以及回环检测线程的关键帧处理队列中，包括：

初始化SLAM地图，获得3D点坐标以及对应的二维码位姿；

获取当前帧图像的当前帧中ORB特征点，若当前帧中ORB特征点的状态对应跟踪成功状态，根据匀速运动模型及PnP算法获取最优的当前帧位姿；

若当前帧中所跟踪特征点数目满足预设的关键帧判断条件，将当前帧设置为关键帧，并加入局部构图线程的关键帧处理队列以及回环检测线程的关键帧处理队列中；其中，预设的关键帧判断条件是当前帧中所跟踪特征点数目小于预设的特征点数阈值，或小于上一帧中所跟踪特征点数目的90％。
根据权利要求1所述的方法，其特征在于，所述若局部构图线程的关键帧处理队列中为非空，获取队首的关键帧记为当前关键帧，由当前关键帧、与当前关键帧有共同可视3D点的局部活动关键帧构建共视图，删除共视图中满足预设的冗余地图点判断条件的冗余3D地图点，根据共视图的固定关键帧和活动关键帧，对应获取局部最优的相机位姿、3D点坐标和二维码位姿，包括：

若局部构图线程的关键帧处理队列为非空，取出队首的关键帧，标记为当前关键帧，获取与当前关键帧的共同可视3D点相同的局部活动关键帧，由当前关键帧及局部活动关键帧构建共视图；

删除共视图中满足预设的冗余地图点判断条件的冗余3D地图点；其中，预设的冗余地图点判断条件是局部活动关键帧中可观测到3D点的匹配数量低于局部活动关键帧预测可观测数量的25％，且局部活动关键帧中可观测到3D点至少在3个关键帧中可见；

若当前关键帧的ORB特征点与局部活动关键帧中未匹配的ORB特征点进行基线的搜索匹配成功，通过三角化以初始化3D地图点位置，并恢复在地图中对应的二维码位姿；

根据共视图的固定关键帧和活动关键帧，对应获取局部最优的相机位姿、3D点坐标和二维码位姿；

删除满足预设的冗余关键帧判断条件的关键帧；其中，预设的冗余关键帧判断条件是关键帧中90％以上的特征点被多个关键帧中的至少3个其他关键帧所匹配。
根据权利要求1所述的方法，其特征在于，所述若回环检测线程的关键帧处理队列中为非空、且队首的关键帧为当前关键帧，获取关键帧中满足回环条件的候选关键帧，根据候选关键帧进行位姿迭代更新、闭环矫正、地图矫正及全局优化后，得到全局最优的相机位姿、3D点坐标和二维码位姿，包括：

若回环检测线程中关键帧队列非空，队首的关键帧为当前关键帧，通过当前关键帧二维码id获取关键帧中满足回环条件的候选关键帧；

获取与当前帧成功匹配特征点为多个值中最大值的回环帧，将回环帧与当前帧进行3D点的融合；

获取共视图的最小生成树，根据最小生成树对共视图进行闭环矫正，得到优化后的关键帧、优化后的地图点以及优化后的二维码位姿；

获取共视图中未在最小生成树内的关键帧、共视图中所有3D点、及二维码位姿，分别根据优化后的关键帧、优化后的地图点以及优化后的二维码位姿进行矫正，对应得到矫正后的关键帧、矫正后的地图点以及矫正后的二维码位姿；

根据矫正后的关键帧、矫正后的地图点以及矫正后的二维码位姿，对应获取全局最优的相机位姿、3D点坐标和二维码位姿。
根据权利要求2所述的方法，其特征在于，所述初始化SLAM地图，获得一系列的3D点坐标以及对应的二维码位姿，包括：

判断是否输入已构建地图；

若输入已构建地图，读取已构建地图，得到初始化SLAM地图；

若未输入已构建地图，判断第一帧是否检测到二维码；

若第一帧检测到二维码，根据二维码得到初始化SLAM地图；

若第一帧未检测到二维码，获取第一帧的ORB特征点及当前帧的ORB特征点，若第一帧的ORB特征点与当前帧的ORB特征点之间的匹配成功特征点点数超出预设的匹配点阈值，获取第一帧与当前帧之间的相对位姿，根据第一帧与当前帧之间的相对位姿对匹配成功特征点进行三角化，得到初始化SLAM地图。
根据权利要求2所述的方法，其特征在于，所述获取图像序列的当前帧中ORB特征点，若当前帧中ORB特征点的状态对应跟踪成功状态，根据匀速运动模型及PnP算法获取最优的当前帧位姿之后，还包括：

若当前帧中ORB特征点的状态对应跟踪失败状态，根据二维码获取二维码初始位姿，根据PnP算法获取最优的当前帧位姿。
根据权利要求4所述的方法，其特征在于，所述通若回环检测线程中关键帧队列非空，队首的关键帧为当前关键帧，通过当前关键帧二维码id获取关键帧中满足回环条件的候选关键帧，包括：

根据二维码与关键帧的映射表，搜索与当前帧观测到相同二维码ID的初始候选关键帧；

若初始候选关键帧中有与当前帧在共视图中未邻接，初始候选关键帧未与当前帧相邻接的关键帧邻接，且初始候选关键帧的数量超出预设的关键帧数量阈值，获取初始候选关键帧中的候选关键帧。
一种终端，其特征在于，包括用于执行如权利要求1-7任一权利要求所述的方法的单元。
一种终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。