CN116030130A

CN116030130A - 一种动态环境下的混合语义slam方法

Info

Publication number: CN116030130A
Application number: CN202211717231.5A
Authority: CN
Inventors: 郑晨; 杜雨扬; 王健; 王战玺; 孙腾飞; 王康宁; 安玉树; 吴浩宇; 白晶; 秦现生
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-04-28

Abstract

本发明一种动态环境下的混合语义SLAM方法，包括以下步骤：步骤一：在基于视觉的模块中通过处理RGB和深度图像获取动态环境中的语义信息，实现环境中动态和静态物体的解耦并生成静态语义点云信息；步骤二：在基于2D雷达的模块中根据雷达和IMU的信息生成对机器人运动平面的几何信息；步骤三：在语义融合模块将语义信息和几何信息进行融合处理，生成局部语义八叉树和栅格地图，通过不断更新体素和栅格的占据概率，完成全局混合语义地图的构建。本发明有效地在动态环境下构建出混合语义地图，能够直接用于移动机器人的控制和导航，同时可以用于提高移动机器人基于语义的推理、人机交互和智能决策的能力。

Description

一种动态环境下的混合语义SLAM方法

技术领域

本发明属于机器人技术领域，具体涉及一种动态环境下的混合语义SLAM方法。

背景技术

同步定位与建图(SLAM)是移动机器人和自动驾驶汽车在未知环境下自主导航的关键技术，已经广泛应用于移动机器人对几何环境的感知。由于环境中的语义信息是移动机器人推理、决策、人机协作和执行高级任务的关键，目前逐渐对语义SLAM方法开展了研究，分为基于视觉的、基于雷达的、基于多传感器融合的方法。

其中，基于视觉的方法通过采用深度学***面的信息，无法直接用于机器人的控制、导航。

基于雷达的方法分为基于2D和3D雷达的方法，前者仅能构建出环境的几何地图，不具备语义信息。后者通过对点云进行提取、分割、聚类等过程后，可以得到3D的语义点云，从而构建出语义点云地图，但这种方法的效率相对于基于视觉方法非常低，无法满足实时性的要求；

基于多传感器融合的方法通过利用视觉、雷达、惯性测量单元(IMU)等传感器信息，可以有效地构建出高精度的地图，这类方法仅关注了对环境几何信息更有效地提取和处理，却没有充分利用环境中的语义信息来构建语义地图，从而提高机器人基于上下文的推理能力和智能决策能力。

发明内容

为了克服现有技术的不足，本发明提供了一种动态环境下的混合语义SLAM方法。该方法包括：在视觉模块中，图像帧经过ORB-SLAM3框架筛选得到关键帧，通过对关键帧进行语义的提取，以此对动态和静态物体进行解耦，同时生成局部语义点云信息；在2D雷达模块中，2D雷达几何信息和IMU信息在融合过后，得到更为精准机器人的位姿；在语义融合模块中，将语义信息和几何信息进行融合处理，生成语义八叉树地图和栅格地图，进而构建局部地图，并根据占据栅格的概率对地图进行更新，最终生成全局混合语义地图。本发明方法可以显著提高移动机器人构建语义地图的效率、精度，为移动机器人的运动控制提供了几何信息，为移动机器人基于语义的推理、人机交互和智能决策提供了关键地语义信息。

本发明解决技术问题采用的技术方案是：一种动态环境下的混合语义SLAM方法，包括以下步骤：

步骤1：在视觉模块获取环境中的语义信息，实现对环境中动态和静态物体的解耦，同时生成静态的语义点云信息；

步骤2：在2D雷达模块中，得到机器人移动平面的几何信息；

步骤3：在语义融合模块中，构建全局混合语义地图。

进一步的，步骤1包括以下子步骤：

步骤1.1，标定相机在机器人上的安装位置，得到相机坐标系相对于机器人坐标系的相对位姿变换矩阵，记为T_CR；

步骤1.2，在追踪线程中，通过移动机器人平台获取每一帧RGB图像及其对应的深度图像，对RGB图像提取ORB特征点，提取对应深度图像中的深度信息，而后基于语义信息追踪相机的位姿；

步骤1.3，在语义获取线程中，对获取到的关键帧RGB图像采用基于Yolact的语义分割，生成对应像素的类别、置信度和颜色标签，得到动态物体的掩膜，基于动态掩膜剔除步骤1.2中的对应特征点；

步骤1.4，在局部建图线程中，生成并优化局部地图；

步骤1.5：在语义生成线程中，基于步骤1.2中得到的的语义信息和深度信息，对动态区域深度信息修正，得到修正后的深度图像，进而生成语义点云信息。

进一步的，步骤2包括以下子步骤：

步骤2.1，标定2D雷达在机器人上的安装位置，得到雷达坐标系相对于机器人坐标系的相对位姿变换矩阵，记为T_LR；

步骤2.2，将2D雷达和IMU的信息采用拓展卡尔曼滤波的方法进行融合处理，实现机器人的定位，得到机器人运动平面的几何信息；

步骤2.3，基于运动平面的几何信息完成雷达位姿的实时追踪。

进一步的，步骤3包括以下子步骤：

步骤3.1，根据相机坐标系相对于机器人坐标系的相对位姿变换矩阵T_CR，以及2D雷达坐标系相对于机器人坐标系的相对位姿变换矩阵T_LR，得到相机坐标系相对于雷达坐标系的相对位姿变换矩阵，记为

步骤3.2，将步骤1和步骤2所得到的语义点云信息和机器人运动平面的几何信息进行集成处理，分别生成局部语义八叉树和栅格地图；

步骤3.3，基于得到的相机坐标系相对于雷达坐标系的相对位姿变换矩阵T_CL，将语义八叉树和栅格地图对齐；

步骤3.4，基于步骤3.3生成的八叉树地图和栅格地图，实时更新相应体素、栅格占据概率；

步骤3.5：基于步骤3.4得到的更新后的八叉树地图和栅格地图，生成全局混合语义地图。

进一步的，所述步骤3.4中语义八叉树地图中的体素更新方法具体如下：

在t＝1，2，…，T时刻，体素的深度值分别为d＝d₁，d₂，…，d_T，则在T时体素占据概率P(n|d_1：T)为：

进一步的，所述语义八叉树地图中的在T时体素占据概率P(n|d_1：T)大于阈值时，则体素当前时刻为被占据状态。

进一步的，所述步骤3.4中栅格地图中栅格占据概率更新方法具体如下：

记上一时刻栅格的状态为s，当前激光雷达的观测结果为Z～{0|1}，则一个栅格占据状态s更新后的占据状态S′为：

其中s＝0表示空闲状态，s＝1表示占据状态。

进一步的，当所述一个栅格占据状态s更新后的状态S′的值大于设定阈值时，则该栅格处于占据状态；若小于阈值，则该栅格处于被认为空闲状态。

发明效果

本发明的有益效果如下：

本发明***地结合了基于视觉、基于雷达、基于多传感器融合的SLAM方法，克服了基于视觉方法在动态环境下构建语义地图中机器人移动平面几何信息不易表达的缺点；克服了基于2D雷达方法构建的地图不包含语义信息，无法用于机器人执行高级任务的缺陷；克服了基于3D雷达方法构建语义地图需要经过点云分割的耗时、低效的特点；克服了基于多传感器融合的方法构建的地图中语义信息缺乏的局限性。

本发明有效地在动态环境下构建出混合语义地图，即融合了基于视觉方法构建的语义地图和基于2D雷达方法构建的机器人移动平面地图，该混合语义地图既包括环境中的语义信息，又能包含机器人移动平面的几何信息，能够直接用于移动机器人的控制和导航，同时该地图可以用于提高移动机器人基于语义的推理、人机交互和智能决策的能力。

附图说明

图1为本发明混合语义SLAM方法框架图。

图2为本发明中基于视觉的模块运行结果示意图。

图3为本发明深度图像修正结果示意图。

图4为本发明混合语义SLAM方法构建的混合语义地图结果示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提供一种动态环境下的混合语义SLAM方法，本发明方法中采用三个模块，包括视觉模块、2D雷达模块和语义融合模块。本发明方法具体包括以下步骤：

步骤一；在视觉模块，通过处理RGB和深度图像获取动态环境中的语义信息，实现环境中动态和静态物体的解耦并生成静态语义点云信息；

步骤二：在2D雷达模块，根据2D雷达几何信息和IMU的信息融合生成机器人运动平面的几何信息；

步骤三：在语义融合模块将语义信息和几何信息进行融合处理，生成局部语义八叉树和栅格地图，通过不断更新体素和栅格的占据概率，完成全局混合语义地图的构建。

由于动态环境下机器人运动平面的信息依靠基于视觉的方法是难以精确检测的，在本发明中可以通过2D雷达模块提供的几何信息进行补充；另外，由于2D雷达模块不包含环境中的语义信息，在本发明中可以通过视觉模块获取。本发明方法在语义融合模块将语义信息和几何信息进行了有效地融合处理，克服了目前移动机器人在动态环境下语义及几何地图构建的局限性。

参照图1-图4；本发明一种动态环境下的混合语义SLAM方法，包括以下步骤：

在视觉模块中，图像帧经过ORB-SLAM3框架筛选得到关键帧，通过对关键帧进行语义的提取，以此对动态和静态物体进行解耦，同时生成局部语义点云信息；

具体包括：

步骤1.1：标定相机在机器人上的安装位置，得到相机坐标系相对于机器人坐标系的相对位姿变换矩阵，记为T_CR；

步骤1.2：在追踪线程中，通过移动机器人平台获取每一帧RGB图像及对应的深度图像，对RGB图像提取ORB(Oriented FAST and Rotated BRIEF)特征点并获取深度图像中对应每一帧RGB图像的深度信息，而后基于语义信息追踪相机的位姿；

步骤1.3：在语义获取线程中，对获取到的关键帧RGB图像采用基于Yolact的语义分割，生成对应像素的类别、置信度和语义标签，得到动态物体的掩膜，基于动态掩膜剔除步骤1.2中的对应位于动态掩模中的动态特征点；实施过程案例如附图2所示；

步骤1.4：在局部建图线程中，生成并优化局部地图；

步骤1.5：在语义生成线程中，基于步骤1.2中得到的语义信息和深度信息，对动态区域深度信息修正，得到修正后的深度图像，进而生成语义点云信息；深度信息即步骤1.1中的相对位姿变换矩阵。修正的结果示意图如附图3所示；

步骤2：在2D雷达模块中，得到机器人运动平面的几何信息，具体包括：

步骤2.1：标定2D雷达在机器人上的安装位置，得到雷达坐标系相对于机器人坐标系的相对位姿变换矩阵，记为T_LR；

步骤2.2：将2D雷达几何信息和IMU的信息采用拓展卡尔曼滤波的方法进行融合处理实现机器人的定位，得到机器人运动平面的几何信息；

步骤2.3：基于机器人运动平面的几何信息完成雷达位姿的实时追踪。

步骤3：在语义融合模块中，构建和更新全局混合语义地图，具体包括：

步骤3.1：根据相机坐标系相对于机器人坐标系的相对位姿变换矩阵T_CR，以及2D雷达坐标系相对于机器人坐标系的相对位姿变换矩阵T_LR，得到相机坐标系相对于雷达坐标系的相对位姿变换矩阵T_CL，记为

步骤3.2：将步骤1和步骤2所得到的语义点云信息和机器人运动平面的几何信息进行集成处理，分别生成局部语义八叉树地图和栅格地图；

步骤3.3：基于得到的相机坐标系相对于雷达坐标系的相对位姿变换矩阵T_CL，相机坐标系下的任一空间点P(x，y，z)均可以根据公式

P′(x′，y′，z′，1)＝P(x，y，z，1)*T_CL (2)

转换到雷达坐标系下，转换后的结果记为P′(x′，y′，z′，1)，将语义八叉树地图和栅格地图对齐；

步骤3.4：基于步骤3.3处理后对齐的八叉树地图和栅格地图，实时更新地图中体素、栅格占据概率，具体如下：

语义八叉树地图中的体素更新方式如下：

在t＝1，2，…，T时刻，体素的深度值分别为d＝d₁，d₂，…，d_T，则在T时占据概率P(n|d_1：T)可以通过公式

计算，在此将占据概率的阈值设置为0.85，即当计算出的概率大于等于0.85时，认为该体素当前时刻为被占据状态，在语义八叉树地图中通过渲染体素的透明度来表达体素占据概率的大小。

栅格地图的占据概率更新方式如下：根据上一时刻栅格的状态s，和当前激光雷达的观测结果Z～{0|1}，一个栅格占据状态s更新后的状态S′可以根据公式计算：

其中s＝0表示空闲状态，s＝1表示占据状态；

在本方法中，当S′的值大于设定的阈值0.85时，即认为该栅格处于占据状态，在地图上被表示为黑色不可通行栅格；若小于阈值0.85，则被认为空闲状态，在地图中表示为白色可通行栅格。

步骤3.5：基于步骤3.4得到的更新后的八叉树地图和栅格地图，生成全局混合语义地图。如附图4所示。

本发明有效地在动态环境下构建出了混合语义地图，即融合了基于视觉方法构建的语义地图和基于2D雷达方法构建的机器人移动平面地图，该混合语义地图既包括环境中的语义信息，又能包含机器人移动平面的几何信息，能够直接用于移动机器人的控制和导航，同时该地图可以用于提高移动机器人基于语义的推理、人机交互和智能决策的能力。

Claims

1.一种动态环境下的混合语义SLAM方法，其特征在于，具体包括以下步骤：

步骤1、在视觉模块，通过处理RGB和深度图像获取动态环境中的语义信息，实现环境中动态和静态物体的解耦，并生成静态语义点云信息；

步骤2、在2D雷达模块，根据2D雷达几何信息和IMU信息融合生成机器人运动平面的几何信息；

步骤3、在语义融合模块，将步骤一生成的静态语义点云信息和步骤2得到的机器人运动平面的几何信息进行融合处理，生成局部语义八叉树和栅格地图，不断更新体素和栅格的占据概率，完成全局混合语义地图的构建。

2.如权利要求1所述的一种动态环境下的混合语义SLAM方法，其特征在于，所述步骤1具体包括以下子步骤：

步骤1.1、标定相机在机器人上的安装位置，得到相机坐标系相对于机器人坐标系的相对位姿变换矩阵，记为T_CR；

步骤1.2、在追踪线程中，通过移动机器人平台获取每一帧RGB图像及对应的深度图像，对RGB图像提取Oriented FAST and Rotated BRIEF特征点并获取深度图像中对应每一帧RGB图像的深度信息，而后基于语义信息追踪相机的位姿；

步骤1.3、在语义获取线程中，对获取到的关键帧RGB图像采用基于Yolact的语义分割，生成对应像素的类别、置信度和语义标签，得到动态物体的掩膜，基于动态掩膜剔除步骤1.2中的位于动态掩模中的动态特征点；

步骤1.4、在局部建图线程中，生成并优化局部地图；

步骤1.5、在语义生成线程中，基于步骤1.2中得到的语义信息和深度信息，对动态区域深度信息修正，得到修正后的深度图像，生成语义点云信息。

3.如权利要求1所述的一种动态环境下的混合语义SLAM方法，其特征在于，所述步骤2具体包括以下子步骤：

步骤2.1、标定2D雷达在机器人上的安装位置，得到雷达坐标系相对于机器人坐标系的相对位姿变换矩阵,记为T_LR；

步骤2.2、将2D雷达几何信息和IMU的信息采用拓展卡尔曼滤波的方法进行融合处理，实现机器人的定位，得到机器人运动平面的几何信息；

步骤2.3、基于机器人运动平面的几何信息完成雷达位姿的实时追踪。

4.如权利要求1所述的一种动态环境下的混合语义SLAM方法，其特征在于，所述步骤3具体包括以下子步骤：

步骤3.1、根据相机坐标系相对于机器人坐标系的相对位姿变换矩阵T_CR，以及2D雷达坐标系相对于机器人坐标系的相对位姿变换矩阵T_LR，得到相机坐标系相对于雷达坐标系的相对位姿变换矩阵

步骤3.2、将步骤1生成的静态语义点云信息和步骤2所得到的机器人运动平面的几何信息进行集成处理，分别生成局部语义八叉树地图和栅格地图；

步骤3.3、基于步骤3.1得到的相机坐标系相对于雷达坐标系的相对位姿变换矩阵T_CL，将语义八叉树和栅格地图对齐；

步骤3.4、基于步骤3.3生成的八叉树地图和栅格地图，实时更新局部语义八叉树地图中的体素占据概率、栅格地图中的栅格占据概率；

5.如权利要求4所述的一种动态环境下的混合语义SLAM方法，其特征在于，所述步骤3.4中语义八叉树地图中的体素更新方法具体如下：

6.如权利要求5所述的一种动态环境下的混合语义SLAM方法，其特征在于：所述语义八叉树地图中的在T时体素占据概率P(n|d_1：T)大于阈值时，则体素当前时刻为被占据状态。

7.如权利要求4所述的一种动态环境下的混合语义SLAM方法，其特征在于，所述步骤3.4中栅格地图中栅格占据概率更新方法具体如下：

其中s＝0表示空闲状态，s＝1表示占据状态。

8.如权利要求4所述的一种动态环境下的混合语义SLAM方法，其特征在于，当所述一个栅格占据状态s更新后的状态S′的值大于设定阈值时，则该栅格处于占据状态；若小于阈值，则该栅格处于被认为空闲状态。