CN109816686A

CN109816686A - 基于物体实例匹配的机器人语义slam方法、处理器及机器人

Info

Publication number: CN109816686A
Application number: CN201910037102.3A
Authority: CN
Inventors: 吴皓; 迟金鑫; 马庆; 焦梦林
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2019-05-28

Abstract

本公开提供了基于物体实例匹配的机器人语义SLAM方法、处理器及机器人。其中，机器人语义SLAM方法，包括获取机器人运行过程中拍摄的图像序列，对每帧图像进行特征点提取、匹配和跟踪来估计相机运动；提取关键帧，对关键帧进行实例分割，获取每帧关键帧中的所有的物体实例；对关键帧进行特征点提取并计算特征点描述子，对关键帧中的所有物体实例进行特征提取与编码来计算实例的特征描述向量，同时获取实例三维点云；分别对相邻关键帧之间的特征点及物体实例进行特征点匹配和实例匹配；融合特征点匹配和实例匹配对SLAM的位姿估计结果进行局部非线性优化，得到携带物体实例语义标注信息的关键帧，并将其映射到实例三维点云中，构建出三维语义地图。

Description

基于物体实例匹配的机器人语义SLAM方法、处理器及机器人

技术领域

本公开属于机器人导航技术领域，尤其涉及一种基于物体实例匹配的机器人语义SLAM方法、处理器及机器人。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

在机器人导航领域，同步定位与地图构建(Simultaneous Localization andMapping,SLAM)是指：机器人从未知环境的未知地点出发，在运动过程中通过重复观测到的环境特征定位自身位置和姿态，再根据自身位姿构建环境地图，从而达到同时定位和地图构建的目的。SLAM技术的目的主要是解决定位和地图构建这两个问题，自提出以来，迅速得到了广大学者的关注和研究，一直以来都被认为是实现全自主移动机器人的关键技术。针对一些特定的机器人(如无人机等)由于自身无法搭载里程计进行位置估计和激光雷达成本较高等原因，近年来，基于视觉的SLAM(Visual SLAM,vSLAM)技术受到了广泛的关注和研究，vSLAM主要包括视觉里程计、后端优化、地图构建和闭环检测等模块，实现方式主要有特征点法和直接法；数据源主要有单目、双目和RGB-D视频流。

然而传统vSLAM算法依赖于基于点、线、面等低语义层次的特征提取与匹配算法来估计相机运动，不仅缺乏语义信息，而且特征匹配的鲁棒性较低，容易引起较大的估计误差。同时传统vSLAM的闭环检测算法具有很强的视点依赖性，在复杂或重复的环境中容易产生较大的错误率。语义SLAM通过将语义信息与vSLAM进行有效融合，使得机器人能够从几何和内容两个方面感知环境，提高了机器人的服务能力和人机交互的智能性。但是发明人发现目前针对语义SLAM的研究工作大多是需要已知的三维模型作为先验知识，或者仅仅对有限的几种物体类别进行语义分割而无法区分物体的个体。

发明内容

根据本公开的一个或多个实施例的一个方面，提供一种基于物体实例匹配的机器人语义SLAM方法，能够实现识别场景中物体个体并构建三维语义地图，同时又可基于不同关键帧之间的实例匹配来优化SLAM位姿的估计结果。

本公开的一种基于物体实例匹配的机器人语义SLAM方法，包括：

获取机器人运行过程中拍摄的图像序列，对每帧图像进行特征点提取、匹配和跟踪来估计相机运动；

提取关键帧，对关键帧进行实例分割，获取每帧关键帧中的所有的物体实例；

对关键帧进行特征点提取并计算特征点描述子，对关键帧中的所有物体实例进行特征提取与编码来计算实例的特征描述向量，同时获取实例三维点云；

根据特征点描述子和特征描述向量，分别对相邻关键帧之间的特征点及物体实例进行特征点匹配和实例匹配；

融合特征点匹配和实例匹配对SLAM的位姿估计结果进行局部非线性优化，得到携带物体实例语义标注信息的关键帧；

将携带物体实例语义标注信息的关键帧映射到实例三维点云中，构建出三维语义地图。

在一个或多个实施例中，在估计相机运动的过程中，利用光束平差法求解相邻帧的相机运动：

首先对相邻帧图像进行ORB特征点提取与匹配，得到相邻帧的若干对ORB特征点；

然后根据这若干对ORB特征点构建非线性最小二乘问题，求解得到相机的位姿。

在一个或多个实施例中，在提取关键帧的过程中，将帧间相对运动距离的大小作为提取图像序列中的关键帧的依据。

在一个或多个实施例中，若帧间相对运动距离介于允许的帧间最小相对运动距离和最大相对运动距离之间，则当前帧为关键帧。

在一个或多个实施例中，采用基于深度学习的实例分割框架—Mask R-CNN网络来对关键帧图像进行实例分割，以获取每帧关键帧图像中的所有实例；其中，Mask R-CNN网络在Faster R-CNN的基础上添加一个全卷积神经网络分支用来输出实例掩码，从而对检测框中实例的轮廓进行像素级的分割。

在一个或多个实施例中，计算实例的特征描述向量的过程包括：

基于VLAD算法利用训练集构建视觉词汇表，对训练集中的每帧图像进行网格划分，对每个网格中心提取稠密SIFT特征和RGB颜色值，获得每个网格的特征描述向量；

利用k-mean算法将得到的网格特征描述向量聚类成预设数量的类，并计算每个网格特征描述向量与其聚类中的残差向量，对所有的残差向量进行幂率归一化和L2范数归一化，然后利用归一化的残差向量对实例的检测框图像进行特征编码，得到实例的特征描述向量。

根据本公开的一个或多个实施例的另一个方面，提供一种基于物体实例匹配的机器人语义SLAM处理器，能够实现识别场景中物体个体并构建三维语义地图，同时又可基于不同关键帧之间的实例匹配来优化SLAM位姿的估计结果。

本公开的一种基于物体实例匹配的机器人语义SLAM处理器，包括：

相机运动估计模块，其用于获取机器人运行过程中拍摄的图像序列，对每帧图像进行特征点提取、匹配和跟踪来估计相机运动；

实例获取模块，其用于提取关键帧，对关键帧进行实例分割，获取每帧关键帧中的所有的物体实例；

特征描述模块，其用于对关键帧进行特征点提取并计算特征点描述子，对关键帧中的所有物体实例进行特征提取与编码来计算实例的特征描述向量，同时获取实例三维点云；

特征点及实例匹配模块，其用于根据特征点描述子和特征描述向量，分别对相邻关键帧之间的特征点及物体实例进行特征点匹配和实例匹配；

位姿估计优化模块，其用于融合特征点匹配和实例匹配对SLAM的位姿估计结果进行局部非线性优化，得到携带物体实例语义标注信息的关键帧；

三维语义地图构建模块，其用于将携带物体实例语义标注信息的关键帧映射到实例三维点云中，构建出三维语义地图。

在一个或多个实施例中，在所述相机运动估计模块中，利用光束平差法求解相邻帧的相机运动：

在一个或多个实施例中，在所述实例获取模块中，将帧间相对运动距离的大小作为提取图像序列中的关键帧的依据。

在一个或多个实施例中，在所述实例获取模块中，采用基于深度学习的实例分割框架—Mask R-CNN网络来对关键帧图像进行实例分割，以获取每帧关键帧图像中的所有实例；其中，Mask R-CNN网络在Faster R-CNN的基础上添加一个全卷积神经网络分支用来输出实例掩码，从而对检测框中实例的轮廓进行像素级的分割。

在一个或多个实施例中，在所述特征描述模块中，计算实例的特征描述向量的过程包括：

在一个或多个实施例中，在所述实例获取模块中，若帧间相对运动距离介于允许的帧间最小相对运动距离和最大相对运动距离之间，则当前帧为关键帧。

根据本公开的一个或多个实施例的另一个方面，提供一种基于物体实例匹配的机器人语义SLAM机器人，能够实现识别场景中物体个体并构建三维语义地图，同时又可基于不同关键帧之间的实例匹配来优化SLAM位姿的估计结果。

本公开的一种基于物体实例匹配的机器人语义SLAM机器人，包括上述所述的基于物体实例匹配的机器人语义SLAM处理器。

本公开的有益效果是：

(1)本公开提供的基于物体实例匹配的机器人语义SLAM方法，用于室内环境下基于RGB-D视频流的语义SLAM方法，通过结合目前先进的基于深度学习的实例分割算法和vSLAM算法实现可检测和识别场景中的各种物体的个体，并将其构建到三维语义地图中去，同时利用物体实例匹配优化SLAM的位姿估计结果，提高了vSLAM定位精度的方法。

(2)本公开基于实例分割技术和vSLAM技术实现的语义SLAM方法，利用实例分割技术对关键帧进行处理获得关键帧中的所有的实例，借助vSLAM将实例映射到三维点云中去构建出面向物体实例的三维语义地图。

(3)本公开与传统语义分割技术不同的是语义分割仅仅是对图像中的物体类别进行区分，而实例分割技术能够对同一类别物体的不同个体进行区分，并且同时去除了实例的背景像素。同时本公开在不同关键帧间通过融合特征点匹配结果和实例匹配结果进行局部非线性优化提高vSLAM的定位精度。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开的一种基于物体实例匹配的语义SLAM方法实施例流程示意图。

图2是本公开的vSLAM的局部非线性优化方法实施例示意图。

图3是本公开的一种基于物体实例匹配的语义SLAM处理器实施例结构示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：

(1)ORB：Oriented FASTand Rotated BRIEF算法是目前最快速稳定的特征点检测和提取算法，许多图像拼接和目标追踪技术利用ORB特征进行实现。

(2)RGBD＝RGB+Depth Map；

RGB：RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色***之一。

Depth Map：在3D计算机图形中，Depth Map(深度图)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中，Depth Map类似于灰度图像，只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的，因而像素点之间具有一对一的对应关系。

(3)ICP(Iterative Closest Point迭代最近点)算法是一种点集对点集配准方法。ICP算法的实质是基于最小二乘法的最优匹配，它重复进行“确定对应关系的点集→计算最优刚体变换”的过程，直到某个表示正确匹配的收敛准则得到满足。

(4)MSCOCO数据集是微软构建的一个数据集，其包含detection,segmentation,keypoints等任务。MSCOCO主要是为了解决detecting non-iconic views of objects(对应常说的detection),contextual reasoning between objects and the precise 2Dlocalization of objects(对应常说的分割问题)这三种场景下的问题。

如图1所示，本公开实施例提供的一种基于物体实例匹配的语义SLAM方法，通过对深度相机的RGB-D视频序列进行处理，来估计相机运动并同时构建环境的三维语义地图，并同时利用物体实例匹配结果优化vSLAM位姿估计结果，提高定位精度。其具体包括以下：

步骤1：获取机器人运行过程中拍摄的图像序列，对每帧图像进行特征点提取、匹配和跟踪来估计相机运动。

具体地，对图像数据进行特征点提取，匹配与跟踪来估计相机运动，实现视觉里程计的功能；所述的图像数据为深度相机拍摄的RGB-D图像序列，为机器人在运动过程中拍摄的RGB-D图像集合I＝{I¹，...，I^N}，其中Iⁿ是第n幅RGB-D图像数据；机器人搭载的深度相机内参矩阵为K。

利用光束平差法(Bundle Adjustment,BA)求解相邻帧的相机运动，首先对相邻帧的RGB-D图像进行ORB特征点提取与匹配，得到相邻帧的n对ORB特征点，然后根据这n对ORB特征点构建非线性最小二乘问题，如下式所示，最后求解该优化问题得到相机的位姿ξ^*。

构建非线性最小二乘并利用BA来求解相邻帧相机的运动，所使用的代价函数：

其中，ξ^*是经BA优化后得到的相机位姿的李代数表示形式，min_ξ表示通过优化变量ξ来最小化代价函数，u_i是观测到的第i个点的像素坐标，exp(ξ^)是相机位姿的李群表示形式，是一个四维矩阵，P_i是第i个点的3D坐标，s_i是第i个点的深度值。

步骤2：提取关键帧，对关键帧进行实例分割，获取每帧关键帧中的所有的物体实例。

在具体实施中，将帧间相对运动距离的大小作为提取RGB-D图像序列中的关键帧的依据，首先计算得到帧间旋转向量R和平移向量t，然后计算帧间相对运动的距离D，如下式所示：

D＝‖Δt‖+min(2π-‖R‖，‖R‖)

其中，Δt表示平移向量差；‖.‖表示向量的长度。

根据帧间相对运动距离D来选择关键帧，规则如下：

1)若D_min≤D≤D_max，则Frame_curr＝Frame_key；

2)若D＜D_min or D＞D_max，则Frame_curr≠Frame_key

其中，D_min和D_max分别是允许的帧间最小相对运动距离和最大相对运动距离，Frame_curr为当前帧，Frame_key为关键帧。

在具体实施中，采用基于深度学习的实例分割框架—Mask R-CNN网络来对关键帧图像进行实例分割，以获取每帧关键帧图像中的所有实例，包括物体不同个体的目标检测框和去除背景后实例像素级的掩码。

在该步骤中，采用基于深度学习的实例分割框架-Mask R-CNN来对关键帧图像进行实例分割，以获取每帧关键帧图像中的所有实例，包括物体不同个体的检测框和去除背景后实例像素级的掩码。

其中，Mask R-CNN网络是在Faster R-CNN网络的基础上进行了改进，Faster R-CNN网络可以进行目标检测得到图像中每个目标的检测框，而无法对检测框中目标的轮廓进行准确分割。为了能够进行实例分割，Mask R-CNN网络在Faster R-CNN的基础上添加了一个全卷积神经网络分支用来输出实例掩码，从而对检测框中实例的轮廓进行像素级的分割。

R-CNN的缺点：即使使用了selective search(选择性搜索)等预处理步骤来提取潜在的bounding box(边框)作为输入，但是R-CNN仍会有严重的速度瓶颈，原因也很明显，就是计算机对所有region进行特征提取时会有重复计算，Fast-R-CNN正是为了解决这个问题诞生的。

在Fast-R-CNN中，把bbox regression(边框回归)放进了神经网络内部，与region(边界)分类和并成为了一个multi-task(多任务)模型，实际实验也证明，这两个任务能够共享卷积特征，并相互促进。Fast-R-CNN很重要的一个贡献是多类检测真的可以在保证准确率的同时提升处理速度。

利用Mask R-CNN网络对关键帧进行实例分割，首先选择MS COCO数据集作为MaskR-CNN的训练集，其具有80类不同类别的目标，所使用的损失函数为：L＝L_c+L_b+L_m，其中L_c为分类误差，L_b为目标检测误差，L_m为像素分割误差，定义为平均二值交叉熵损失。然后利用训练得到Mask R-CNN的权重模型对每帧关键帧进行预测，提取关键帧中所有的物品实例，得到每个实例的目标检测框和剔除背景后的实例像素级掩码。

步骤3：对关键帧进行特征点提取并计算特征点描述子，对关键帧中的所有物体实例进行特征提取与编码来计算实例的特征描述向量，同时获取实例三维点云。

具体地，首先基于VLAD算法利用训练集构建视觉词汇表，对训练集中的每帧图像进行网格划分，对每个网格中心提取稠密SIFT特征和RGB颜色值，获得每个网格的特征描述向量之后利用k-mean算法将n个网格特征描述向量聚类成64类，并计算每个网格特征描述向量与其聚类中的残差向量，对所有的残差向量进行幂率归一化和L2范数归一化，然后利用归一化的残差向量对实例的检测框图像进行特征编码：

首先对每个实例检测框图像进行网格划分和稠密SIFT特征提取，并基于上面构建的视觉词汇表对每个网格中的图像进行编码，得到实例图像的特征描述向量ψ，然后采用3级图像空间金字塔结构来统计实例图像的特征点分布，获取实例图像的空间信息，首先将第i层实例图像划分为4ⁱ个子区域，然后在每一个子区域上统计直方图特征，最后将3个层次直方图串联组成实例的特征描述向量

其中，VLAD是vector of locally aggregated descriptors的简称，是由Jegouet al.在2010年提出，其核心思想是aggregated(积聚)，主要应用于图像检索领域。

VLAD算法可以看做是一种简化的FV，其主要方法是通过聚类方法训练一个小的码本，对于每幅图像中的特征找到最近的码本聚类中心，随后所有特征与聚类中心的差值做累加，得到一个k*d的vlad矩阵，其中k是聚类中心个数，d是特征维数(如sift是128维),随后将该矩阵扩展为一个(k*d)维的向量，并对其L2归一化，所得到的向量即为VLAD。

VLAD算法流程：

(1)读取图片文件路径及特征提取；

(2)使用聚类方法训练码本；

(3)将每张图片的特征与最近的聚类中心进行累加；

*(4)对累加后的VLAD进行PCA降维并对其归一化；

*(5)得到VLAD后，使用ADC方法继续降低储存空间和提高搜索速度。

其中步骤*(4)、*(5)可选，在步骤(3)得到残差累加向量后进行L2归一化即可用欧氏距离等计算两张图片的相似性从而实现图片检索。

步骤4：根据特征点描述子和特征描述向量，分别对相邻关键帧之间的特征点及物体实例进行特征点匹配和实例匹配。

步骤5：融合特征点匹配和实例匹配对SLAM的位姿估计结果进行局部非线性优化，得到携带物体实例语义标注信息的关键帧。

图2是本公开中融合实例匹配和特征点匹配对vSLAM位姿估计结果进行优化的方法示意图，如图2所示，本公开方法在传统特征点匹配几何约束的基础上添加了实例匹配几何约束，对位姿估计结果进行进一步非线性优化，提高定位精度。对于特征点匹配结果，设z_ij是在位姿ξ_i处观察路标特征点p_j产生的数据，则代价函数为：

其中：m和n分别为参与优化的位姿的个数和特征点的个数，i是位姿的索引，j是特征点的索引，e_ij是在位姿ξ_i处第j个特征点的重投影误差，h(ξ_i，p_j)表示第j个特征点p_j在第i个位姿ξ_i处的投影。

对于实例匹配结果，采用ICP算法对实例点云进行配准从而实现对位姿的优化，设是位姿ξ_i处观察第j个实例点云中第k个点产生的数据，则代价函数写为：

将由特征点匹配优化后的位姿与由实例匹配优化后的位姿取加权平均得到融合后的位姿估计结果。

步骤6：将携带物体实例语义标注信息的关键帧映射到三维点云中，构建三维语义地图。

已知机器人搭载的深度相机内参矩阵为K，第i帧关键帧的位姿为ξ_i，关键帧的每个像素点用一个3维向量表示p＝[u，v，l]，其中u，v是横纵坐标，l是实例标签，将关键帧映射到三维点云中：

其中，[u_j，v_j，1]表示相应关键帧的第j个像素点；d_j表示第j个特征点的深度值，[X_j，Y_j，Z_j]^T是第j个特征点在三维空间中投影的坐标向量；exp(ξ^)是相机位姿的李群表示形式，是一个四维矩阵。

则三维点云中每个点表示为P＝[X，Y，Z，l]。

综上所述，本公开结合实例分割算法完善了基于RGB-D数据的vSLAM技术，使得vSLAM在获取环境几何信息的同时也获得了面向物体实例的环境语义信息，并且利用物体实例匹配对vSLAM进行进一步的几何约束，提高vSLAM的位姿估计精度。

图3是本公开的一种基于物体实例匹配的语义SLAM处理器结构示意图。

(1)相机运动估计模块，其用于获取机器人运行过程中拍摄的图像序列，对每帧图像进行特征点提取、匹配和跟踪来估计相机运动；

具体地，在所述相机运动估计模块中，利用光束平差法求解相邻帧的相机运动：

(2)实例获取模块，其用于提取关键帧，对关键帧进行实例分割，获取每帧关键帧中的所有的物体实例；

具体地，在所述实例获取模块中，将帧间相对运动距离的大小作为提取图像序列中的关键帧的依据。

具体地，在所述实例获取模块中，采用基于深度学习的实例分割框架—Mask R-CNN网络来对关键帧图像进行实例分割，以获取每帧关键帧图像中的所有实例；其中，MaskR-CNN网络在Faster R-CNN的基础上添加一个全卷积神经网络分支用来输出实例掩码，从而对检测框中实例的轮廓进行像素级的分割。

其中，在所述实例获取模块中，若帧间相对运动距离介于允许的帧间最小相对运动距离和最大相对运动距离之间，则当前帧为关键帧。

(3)特征描述模块，其用于对关键帧进行特征点提取并计算特征点描述子，对关键帧中的所有物体实例进行特征提取与编码来计算实例的特征描述向量，同时获取实例三维点云；

在所述特征描述模块中，计算实例的特征描述向量的过程包括：

(4)特征点及实例匹配模块，其用于根据特征点描述子和特征描述向量，分别对相邻关键帧之间的特征点及物体实例进行特征点匹配和实例匹配；

(5)位姿估计优化模块，其用于融合特征点匹配和实例匹配对SLAM的位姿估计结果进行局部非线性优化，得到携带物体实例语义标注信息的关键帧；

(6)三维语义地图构建模块，其用于将携带物体实例语义标注信息的关键帧映射到实例三维点云中，构建出三维语义地图。

本公开提供的基于物体实例匹配的机器人语义SLAM处理器，用于室内环境下基于RGB-D视频流的语义SLAM方法，通过结合目前先进的基于深度学习的实例分割算法和vSLAM算法实现可检测和识别场景中的各种物体的个体，并将其构建到三维语义地图中去，同时利用物体实例匹配优化SLAM的位姿估计结果，提高了vSLAM定位精度的方法。

本公开基于实例分割技术和vSLAM技术实现的语义SLAM方法，利用实例分割技术对关键帧进行处理获得关键帧中的所有的实例，借助vSLAM将实例映射到三维点云中去构建出面向物体实例的三维语义地图。

本公开的一种基于物体实例匹配的机器人语义SLAM机器人，包括如图3所示的基于物体实例匹配的机器人语义SLAM处理器。

本公开与传统语义分割技术不同的是语义分割仅仅是对图像中的物体类别进行区分，而实例分割技术能够对同一类别物体的不同个体进行区分，并且同时去除了实例的背景像素。同时本公开在不同关键帧间通过融合特征点匹配结果和实例匹配结果进行局部非线性优化提高vSLAM的定位精度。

本领域内的技术人员应明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于物体实例匹配的机器人语义SLAM方法，其特征在于，包括：

2.如权利要求1所述的基于物体实例匹配的机器人语义SLAM方法，其特征在于，在估计相机运动的过程中，利用光束平差法求解相邻帧的相机运动：

3.如权利要求1所述的基于物体实例匹配的机器人语义SLAM方法，其特征在于，在提取关键帧的过程中，将帧间相对运动距离的大小作为提取图像序列中的关键帧的依据。

4.如权利要求3所述的基于物体实例匹配的机器人语义SLAM方法，其特征在于，若帧间相对运动距离介于允许的帧间最小相对运动距离和最大相对运动距离之间，则当前帧为关键帧。

5.如权利要求1所述的基于物体实例匹配的机器人语义SLAM方法，其特征在于，采用基于深度学习的实例分割框架—Mask R-CNN网络来对关键帧图像进行实例分割，以获取每帧关键帧图像中的所有实例；其中，Mask R-CNN网络在Faster R-CNN的基础上添加一个全卷积神经网络分支用来输出实例掩码，从而对检测框中实例的轮廓进行像素级的分割。

6.如权利要求1所述的基于物体实例匹配的机器人语义SLAM方法，其特征在于，计算实例的特征描述向量的过程包括：

7.一种基于物体实例匹配的机器人语义SLAM处理器，其特征在于，包括：

8.如权利要求1所述的基于物体实例匹配的机器人语义SLAM方法，其特征在于，在所述相机运动估计模块中，利用光束平差法求解相邻帧的相机运动：

然后根据这若干对ORB特征点构建非线性最小二乘问题，求解得到相机的位姿；

或在所述实例获取模块中，将帧间相对运动距离的大小作为提取图像序列中的关键帧的依据；

或在所述实例获取模块中，采用基于深度学习的实例分割框架—MaskR-CNN网络来对关键帧图像进行实例分割，以获取每帧关键帧图像中的所有实例；其中，Mask R-CNN网络在Faster R-CNN的基础上添加一个全卷积神经网络分支用来输出实例掩码，从而对检测框中实例的轮廓进行像素级的分割；

或在所述特征描述模块中，计算实例的特征描述向量的过程包括：

9.如权利要求8所述的基于物体实例匹配的机器人语义SLAM方法，其特征在于，在所述实例获取模块中，若帧间相对运动距离介于允许的帧间最小相对运动距离和最大相对运动距离之间，则当前帧为关键帧。

10.一种机器人，其特征在于，包括如权利要求7-9中任一项所述的基于物体实例匹配的机器人语义SLAM处理器。