CN110533720B

CN110533720B - 基于联合约束的语义slam***及方法

Info

Publication number: CN110533720B
Application number: CN201910768052.6A
Authority: CN
Inventors: 韩红; 王毅飞; 张齐驰; 唐裕亮; 迟勇欣; 范迎春
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2023-05-02
Anticipated expiration: 2039-08-20
Also published as: CN110533720A

Abstract

本发明提出了一种基于联合约束的语义SLAM***与方法，旨在解决解决在像素深度值不稳定情况下相机位姿计算不准确和当动态目标占据相机视野大部分空间时无法计算相机位姿的问题，通过深度约束方法提高了相机位姿估计的准确性，采用极线约束方法提高了相机轨迹的完整性。实现方法为：数据采集模块获取图像序列；神经网络模块获取检测图像和实例分割图像；联合约束模块获取不同的特征点类别集合；数据融合模块获取静态目标实例分割图像和动态目标实例分割图像；视觉前端模块获取深度相机的位姿和三维空间中的路标点集合；后端优化模块获取全局最优的深度相机位姿和路标点；语义地图模块获取语义点云地图。

Description

基于联合约束的语义SLAM***及方法

技术领域

本发明属于计算机视觉技术领域，更进一步涉及一种基于联合约束的语义SLAM***与方法，可用于复杂高动态环境中相机的位姿估计与语义地图的构建。

背景技术

同时定位与地图构建***SLAM，在无人***的自主导航避障上扮演着重要的角色，过去的三十年中，SLAM***发展迅速，其主要目标是无人***在对未知环境进行自主探索的过程中进行自身精确定位的同时能够构建环境地图。但是传统的SLAM***建出的地图只包含环境中的点、线、面等低等级几何特征，而对于未来的无人***，只包含简单空间信息的地图难以满足其发展需求。语义地图的独到之处在于包含了环境中物体的语义信息，三维空间的语义地图能够使无人***正确感知周围情况，通过对环境的认知理解，能让SLAM***提升一定的定位精度，弥补现有无人***在环境感知，及理解的不足。语义SLAM***在建图过程中不仅获得环境中物体的几何结构信息，识别环境中物体，同时可以获取其位置、姿态和功能属性等语义信息，从而能有效的应对复杂场景及完成更加复杂的任务。

2018年10月，西班牙萨拉戈萨大学的Berta Bescos等人在IEEE Robotics andAutomation Letters第3卷第4期发表名称为“DynaSLAM:Tracking,Mapping,andInpainting in Dynamic Scenes”的文章，提出了一种基于实例分割的SLAM***及方法，在ORB-SLAM2的基础上，增加了动态目标检测功能，将RGB-D图像数据输入到Mask R-CNN网络中对所有具备先验动态性质的目标进行逐像素的分割，得到动态目标实例，并采用多视图几何方法检测不包含于CNN网络输出类别中的真实移动物体，通过不属于这些动态目标实例和真实移动物体的特征点匹配对计算相机位姿，解决了ORB-SLAM2 在环境中有动态目标情况下相机位姿估计不准确的问题。同时，在实例分割中将所有具备先验动态性质的目标实例分割出去，得到仅含有静态场景的图像，并使用静态场景图像构建点云地图。

然而，DynaSLAM将所有具有先验动态性质的目标去除，当这些目标在环境中是静态时，建立的静态场景地图将缺失这些物体的信息，从而使得地图构建不够准确。另一方面，在深度值不稳定的情况下，利用深度值不稳定的特征匹配对计算相机位姿将导致位姿估计误差较大，而且当动态目标占据相机视野中的大部分空间时，因为环境中的匹配点不足，会导致DynaSLAM无法计算相机位姿，从而出现丢帧现象，相机的轨迹将会不完整。

发明内容

本发明的目的在于克服上述已有技术的不足，提出了一种基于联合约束的语义SLAM***及方法，用于解决在像素深度值不稳定情况下相机位姿计算不准确和当动态目标占据相机视野大部分空间时无法计算相机位姿的问题，以提高相机位姿的准确性和相机轨迹的完整性，同时解决具有运动性质的物体在静止时无法在点云地图中构建的问题，获取更准确的点云地图。

为实现上述目的，本发明采取的技术方案为：

一种基于联合约束的语义SLAM***，包括数据采集模块、神经网络模块、联合约束模块、数据融合模块、视觉前端模块、后端优化模块和语义地图模块，其中：

数据采集模块，采用深度相机，用于采集室内环境的多帧深度图像和彩色图像，以获取深度图像序列和彩色图像序列；

神经网络模块，用于通过训练好BlitzNet网络模型，对彩色图像序列逐帧进行前向传播处理，以获取带有潜在动态目标框的检测图像和带有潜在动态目标实例的实例分割图像；

联合约束模块，用于对每一帧彩色图像与前一帧彩色图像进行特征匹配，并对匹配获取的每一特征匹配对的深度值构建深度约束，对潜在动态目标框区域内的特征点对构建极线约束，从而对该彩色图像所有特征点进行归类，以获取特征点各类别集合；

数据融合模块，用于对实例分割图像与特征点集合数据进行融合，以获取静态目标实例分割图像和动态目标实例分割图像；

视觉前端模块，用于通过稳定特征点计算深度相机位姿；

后端优化模块，用于通过深度相机位姿和特征点对应的三维空间路标点构建代价函数，对代价函数进行非线性优化，以获取全局最优相机位姿和路标点；

语义地图模块，用于根据深度相机的最优位姿建立点云地图，并将静态目标实例分割图像中带有语义的像素点映射到点云地图上，以获取语义点云地图。

一种基于联合约束的语义SLAM的实现方法，包括如下步骤：

(1)数据采集模块获取图像序列：

数据采集模块对室内环境进行N次持续拍摄，得到N帧彩色图像和N帧深度图像，并按照拍摄时间由前到后顺序分别对N帧彩色图像和N帧深度图像进行排序，得到彩色图像序列C₁,C₂,...,C_i,...,C_N和深度图像序列D₁,D₂,...,D_i,...,D_N，i＝1,2,...,N，N≥100；

(2)神经网络模块获取检测图像和实例分割图像：

神经网络模块采用通过COCO数据集训练的模型参数的BlitzNet网络模型，对彩色图像序列中的N帧彩色图像逐帧进行前向传播处理，得到带有潜在动态目标框的检测图像CD₁,CD₂,...,CD_i,...,CD_N，以及带有潜在动态目标实例的实例分割图像 CS₁,CS₂,...,CS_i,...,CS_N；

(3)联合约束模块获取不同的特征点类别集合DSP₂、EP₂、SP₂、DP₂和S：

(3a)联合约束模块对C₁和C₂分别进行ORB特征提取得到特征集合P₁和P₂，并对 P₁和P₂进行匹配，得到多个特征匹配对，然后采用深度约束方法，将P₂中所有满足深度约束的特征点归为深度稳定特征点集合DSP₂；

(3b)联合约束模块将DSP₂中位于目标检测图像CD₂的动态目标框内的特征点归为潜在动态特征点集合PP₂，将DSP₂中位于CD₂的潜在动态目标框外的特征点归为环境特征点集合EP₂；

(3c)联合约束模块通过EP₂计算基础矩阵F，然后采用极线约束方法，将PP₂中满足极线约束的特征点归为静态特征点集合SP₂，其余的特征点归为动态特征点集合 DP₂，并将EP₂和SP₂合并为稳定特征点集合S₂；

(4)数据融合模块获取静态目标实例分割图像CSS₂和动态目标实例分割图像CDS₂：

数据融合模块计算C₂的动态特征点比率和潜在动态特征点比率，并将实例分割图像CS₂中动态特征点比率和潜在动态特征点比率均小于预设的比率阈值的实例归为静态目标实例，其余的实例归为动态目标实例，得到静态目标实例分割图像CSS₂和动态目标实例分割图像CDS₂；

(5)视觉前端模块获取深度相机的位姿ξ₂和三维空间中的路标点集合L₂：

(5a)视觉前端模块采用迭代最近点ICP方法，并通过C₂的可用特征点S₂，以及 S₂在C₁中对应的匹配点，计算C₂深度相机的位姿ξ₂；

(5b)视觉前端模块通过相机内参和ξ₂，将S₂的像素坐标转化三维空间坐标，得到三维空间中的路标点集合L₂；

(5c)视觉前端模块按照获取ξ₂和L₂的方法获取C₃,C₄,...,C_i,...,C_N的深度相机位姿ξ₃,ξ₄,...,ξ_i,...,ξ_N和路标点集合L₃,L₄,...,L_i,...,L_N；

(6)后端优化模块获取全局最优的深度相机位姿和路标点：

后端优化模块将L₂,L₃,...,L_i,...,L_N合并为路标点集合L，其中包括路标点

p₁,p₂,...,p_j,...,p_M，构建以深度相机位姿ξ₂,ξ₃,...,ξ_i,...,ξ_N和路标点p₁,p₂,...,p_j,...,p_M为变量的代价函数Loss，并利用列文伯格-马夸尔特方法对代价函数Loss进行非线性优化，得到全局最优深度相机位姿ξ₂',ξ₃',...,ξ_i',...,ξ_N'和三维空间中的路标点

p₁',p₂',...,p_j',...,p_M'；

(7)语义地图模块获取语义点云地图：

(7a)语义地图模块对彩色图像序列C₂,C₃,...,C_i,...,C_N进行逐帧处理，将第i帧彩色图像C_i中深度值不为0的像素点归为像素点集合YP_i，并利用数据融合模块获取的 CDS_i中的动态目标实例信息将YP_i中不属于动态目标实例的像素点归为像素点集合 CP_i；

(7b)语义地图模块通过相机内参和ξ_i，计算CP_i在三维空间中的三维坐标位置，利用点云库PCL生成三维空间点，并将生成的所有三维空间点合并成点云PL_i；

(7c)语义地图模块利用数据融合模块中的静态目标实例分割图像CSS_i获取的语义信息，对CSS_i中静态目标实例的像素点对应的点云进行语义标注，得到语义点云PL_i'；

(7d)语义地图模块对语义点云PL₂',PL₃',...,PL_i',...,PL_N'进行拼接，得到全局语义点云地图PL。

本发明与现有的技术相比，具有以下优点：

第一，本发明采用深度约束方法实现对特征匹配对深度值距离的深度约束，得到深度稳定特征点集合，并通过深度稳定特征点和深度稳定特征点的匹配点计算相机位姿，与现有技术中通过环境中所有的特征点和特征点的匹配点计算相机位姿相比，提高了相机位姿估计的准确性；

第二，本发明采用极线约束方法实现对特征匹配对极线距离的极线约束，得到静态特征点集合和动态特征点集合，并通过静态特征点集合和环境特征点集合共同计算相机位姿，与现有技术中仅通过环境特征点集合计算相机位姿相比，解决了当动态目标占据相机视野中大部分空间时无法计算相机位姿的问题，从而绘制更完整的相机轨迹；

第三，本发明数据融合模块计算动态特征点比率和潜在动态特征点比率，将潜在动态目标实例分为动态静态目标实例和静态动态目标实例，语义地图模块将静态目标实例映射到点云地图中，与现有技术中将潜在动态目标实例均归为动态目标实例并在构建点云地图时没有利用动态目标实例相比，得到更准确的语义点云地图。

附图说明

图1是本发明语义SLAM***的结构示意图；

图2是本发明语义SLAM方法的实现流程图；

具体实施方式

以下结合附图和具体实施例，对本发明作进一步的详细说明。

参照图1，本发明基于联合约束的语义SLAM***，包括数据采集模块、神经网络模块、联合约束模块、数据融合模块、视觉前端模块、后端优化模块和语义地图模块，其中：

视觉前端模块，用于通过稳定特征点计算深度相机位姿；

参照图2，本发明基于联合约束的语义SLAM方法，包括如下步骤：

步骤(1)数据采集模块获取图像序列：

步骤(2)神经网络模块获取检测图像和实例分割图像：

步骤(3)联合约束模块获取不同的特征点类别集合DSP₂、EP₂、SP₂、DP₂和S：

步骤(3a)联合约束模块对C₁和C₂分别进行ORB特征提取得到特征集合P₁和P₂，并对P₁和P₂进行匹配，得到多个特征匹配对，然后采用深度约束方法，将P₂中所有满足深度约束的特征点归为深度稳定特征点集合DSP₂；

深度约束方法的实现步骤为：

步骤(3a1)构建以P₂中的每一个特征点

的像素坐标为中心且大小为3×3的图像块，并计算每一个图像块的平均深度值：

其中(x,y)表示

的像素坐标，depth(x,y)表示

的深度值；

步骤(3a2)通过

和

在C₁中的匹配特征点

计算特征匹配对深度值距离D_d：

步骤(3a3)设置阈值θ，并将P₂中D_d小于θ的特征点归为深度稳定特征点集合 DSP₂，实现对D_d的深度约束，这是因为去除深度不稳定的特征点可以减少无关数据量，从而提高求解效率，另一方面，深度突变的特征点在计算代价函数的误差时产生的误差较大，对非线性优化的结果带来较大的影响，使得求得的全局最优相机位姿不够准确；

步骤(3b)联合约束模块将DSP₂中位于目标检测图像CD₂的动态目标框内的特征点归为潜在动态特征点集合PP₂，将DSP₂中位于CD₂的潜在动态目标框外的特征点归为环境特征点集合EP₂，后续步骤利用环境特征点集合计算基础矩阵能得到准确的结果；

步骤(3c)联合约束模块通过EP₂计算基础矩阵F，然后采用极线约束方法，将PP₂中满足极线约束的特征点归为静态特征点集合SP₂，其余的特征点归为动态特征点集合 DP₂，并将EP₂和SP₂合并为稳定特征点集合S₂；

极线约束方法的实现步骤为：

步骤(3c1)通过相机的内参x轴缩放因子f_x、y轴缩放因子f_y、x轴平移因子c_x、 y轴平移因子c_y将PP₂中的每一个特征点

的像素坐标[u_s,v_s]^T转化为归一化坐标 [u_c,v_c,1]^T：

步骤(3c2)采用RANSAC方法选取EP₂中的八个特征点，并采用八点法通过八个特征点匹配对计算基础矩阵F，然后通过F和[u_c,v_c,1]^T计算

的极线l：

步骤(3c3)通过F、l、

和

在C₁中的匹配特征点

计算特征匹配对极线距离D_e：

步骤(3c4)设置阈值η，并将PP₂中D_e小于η的特征点归为静态特征点集合SP₂，其余的特征点归为动态特征点集合DP₂，实现对D_e的极线约束，这是因为当特征点为静态场景点时，

落在极线l上，在误差允许范围内，当

位于极线l附近时，均可认为特征点

为静态特征点，而D_e大于阈值时，

离极线l的距离较远，则认为特征点

为动态目标上的动态特征点，后续步骤利用静态特征点而不用动态特征点计算相机危机，从而提高相机位姿估计的准确性；

另一方面，在动态目标占据相机视野中大部分空间的情况下，静态场景中的特征点太少从而不足以计算相机位姿，这导致丢帧问题的出现，而静态特征点集合SP₂将会提供充足的特征点，利用静态特征点集合和环境特征点集合共同计算相机位姿，从而解决丢帧问题，并提高相机位姿估计的准确性；

步骤(4)数据融合模块获取静态目标实例分割图像CSS₂和动态目标实例分割图像CDS₂：

静态目标实例和动态目标实例的获取方法为：

步骤(4a)统计环境特征点集合EP₂的数目

静态特征点集合SP₂的数目

和动态特征点集合DP₂的数目

并计算动态特征点比率τ_d和潜在动态特征点比率τ_r：

步骤(4b)设定τ_d的阈值为0.5，τ_r的为0.15，当τ_d≤0.5且τ_r≤0.15时，则将检测框内的实例分割目标归为静态目标实例，其余的实例分割目标归为动态目标实例，这是因为神经网络模块将所有具备运动性质的物体都检测出来，当该具备运动性质的物体在环境中是静止时，该物体仍可归为静态场景，点云地图中应将该物体信息构建出来，否则地图构建不够准确和完整。

步骤(5)视觉前端模块获取深度相机的位姿ξ₂和三维空间中的路标点集合L₂：

步骤(5a)视觉前端模块采用迭代最近点ICP方法，并通过C₂的可用特征点S₂，以及S₂在C₁中对应的匹配点，计算C₂深度相机的位姿ξ₂；

步骤(5b)视觉前端模块通过相机内参和ξ₂，将S₂的像素坐标转化三维空间坐标，得到三维空间中的路标点集合L₂；

三维空间中的路标点集合L₂的获取方法为：

步骤(5b1)通过相机的内参将S₂中的每一个特征点的像素坐标[u_s,v_s]^T转化为归一化坐标[u_c,v_c,1]^T：

步骤(5b2)通过归一化坐标计算相机坐标P'＝[X',Y',Z']^T：

步骤(5b3)通过相机位姿ξ₂中的旋转矩阵R和平移向量t，将相机坐标P'转化为世界坐标P_w：

P_w＝R^-1(P'-t)＝[X,Y,Z]^T (10)

步骤(5b4)将位于P_w的三维空间点定义为路标点p，并将p归为路标点集合L₂。

步骤(5c)视觉前端模块按照获取ξ₂和L₂的方法获取C₃,C₄,...,C_i,...,C_N的深度相机位姿ξ₃,ξ₄,...,ξ_i,...,ξ_N和路标点集合L₃,L₄,...,L_i,...,L_N，具体实现方法按照步骤(3a)- (5b4)的方法为对C₂和C₃进行相同的处理得到深度相机位姿ξ₃和路标点集合L₃，接着对C₃和C₄、C₄和C₅、…、C_i-1和C_i、…、C_N-1和C_N进行相同的处理，得到ξ₃和L₃、ξ₄和L₄、…、ξ_i和L_i、…、ξ_N和L_N；

步骤(6)后端优化模块获取全局最优的深度相机位姿和路标点：

后端优化模块将L₂,L₃,...,L_i,...,L_N合并为路标点集合L，其中包括路标点 p₁,p₂,...,p_j,...,p_M，构建以深度相机位姿ξ₂,ξ₃,...,ξ_i,...,ξ_N和路标点p₁,p₂,...,p_j,...,p_M为变量的代价函数Loss，并利用列文伯格-马夸尔特方法对代价函数Loss进行非线性优化，得到全局最优深度相机位姿ξ₂',ξ₃',...,ξ_i',...,ξ_N'和三维空间中的路标点 p₁',p₂',...,p_j',...,p_M'；

构建代价函数的实现步骤为：

步骤(6a)根据相机位姿ξ₂中的旋转矩阵R和平移向量t，将L中的路标点p_j三维坐标[X,Y,Z]^T转化为相机坐标p_j'：

p_j'＝Rp_j+t＝[X',Y',Z']^T (11)

步骤(6b)通过相机坐标[X',Y',Z']^T计算归一化坐标[u_c,v_c,1]^T：

步骤(6c)通过相机的内参计算像素坐标P_j＝[u_s,v_s]：

步骤(6d)通过S₂中与p_j对应的特征点像素坐标P_j'计算误差e₂：

步骤(6e)按照步骤(7a)-(7d)的方法对ξ₃、ξ₄、…、ξ_i、…、ξ_N依次进行相同的操作，得到e₃、e₄、…、e_i、…、e_N；

步骤(6f)对e₂,e₃,...,e_i,...,e_N进行求和，得到代价函数Loss：

步骤(7)语义地图模块获取语义点云地图：

步骤(7a)语义地图模块对彩色图像序列C₂,C₃,...,C_i,...,C_N进行逐帧处理，将第i帧彩色图像C_i中深度值不为0的像素点归为像素点集合YP_i，并利用数据融合模块获取的CDS_i中的动态目标实例信息将YP_i中不属于动态目标实例的像素点归为像素点集合 CP_i；

步骤(7b)语义地图模块通过相机内参和ξ_i，计算CP_i在三维空间中的三维坐标位置，利用点云库PCL生成三维空间点，并将生成的所有三维空间点合并成点云PL_i；

步骤(7c)语义地图模块利用数据融合模块中的静态目标实例分割图像CSS_i获取的语义信息，对CSS_i中静态目标实例的像素点对应的点云进行语义标注，得到语义点云PL_i'；

步骤(7d)语义地图模块对语义点云PL₂',PL₃',...,PL_i',...,PL_N'进行拼接，得到全局语义点云地图PL。

Claims

1.一种基于联合约束的语义SLAM***，其特征在于，包括数据采集模块、神经网络模块、联合约束模块、数据融合模块、视觉前端模块、后端优化模块和语义地图模块，其中：

视觉前端模块，用于通过稳定特征点计算深度相机位姿；

2.一种基于联合约束的语义SLAM的实现方法，其特征在于，包括如下步骤：

(1)数据采集模块获取图像序列：

(2)神经网络模块获取检测图像和实例分割图像：

神经网络模块采用通过COCO数据集训练的模型参数的BlitzNet网络模型，对彩色图像序列中的N帧彩色图像逐帧进行前向传播处理，得到带有潜在动态目标框的检测图像CD₁,CD₂,...,CD_i,...,CD_N，以及带有潜在动态目标实例的实例分割图像CS₁,CS₂,...,CS_i,...,CS_N；

(3a)联合约束模块对C₁和C₂分别进行ORB特征提取得到特征集合P₁和P₂，并对P₁和P₂进行匹配，得到多个特征匹配对，然后采用深度约束方法，将P₂中所有满足深度约束的特征点归为深度稳定特征点集合DSP₂；

(3c)联合约束模块通过EP₂计算基础矩阵F，然后采用极线约束方法，将PP₂中满足极线约束的特征点归为静态特征点集合SP₂，其余的特征点归为动态特征点集合DP₂，并将EP₂和SP₂合并为稳定特征点集合S₂；

(5a)视觉前端模块采用迭代最近点ICP方法，并通过C₂的可用特征点S₂，以及S₂在C₁中对应的匹配点，计算C₂深度相机的位姿ξ₂；

(6)后端优化模块获取全局最优的深度相机位姿和路标点：

后端优化模块将L₂,L₃,...,L_i,...,L_N合并为路标点集合L，其中包括路标点p₁,p₂,...,p_j,...,p_M，构建以深度相机位姿ξ₂,ξ₃,...,ξ_i,...,ξ_N和路标点p₁,p₂,...,p_j,...,p_M为变量的代价函数Loss，并利用列文伯格-马夸尔特方法对代价函数Loss进行非线性优化，得到全局最优深度相机位姿ξ₂',ξ₃',...,ξ_i',...,ξ_N'和三维空间中的路标点p₁',p₂',...,p_j',...,p_M'；

(7)语义地图模块获取语义点云地图：

(7a)语义地图模块对彩色图像序列C₂,C₃,...,C_i,...,C_N进行逐帧处理，将第i帧彩色图像C_i中深度值不为0的像素点归为像素点集合YP_i，并利用数据融合模块获取的CDS_i中的动态目标实例信息将YP_i中不属于动态目标实例的像素点归为像素点集合CP_i；