CN116563376A - 基于深度学习的lidar-imu紧耦合语义slam方法及相关装置 - Google Patents

基于深度学习的lidar-imu紧耦合语义slam方法及相关装置 Download PDF

Info

Publication number
CN116563376A
CN116563376A CN202310587747.0A CN202310587747A CN116563376A CN 116563376 A CN116563376 A CN 116563376A CN 202310587747 A CN202310587747 A CN 202310587747A CN 116563376 A CN116563376 A CN 116563376A
Authority
CN
China
Prior art keywords
semantic
point cloud
imu
frames
depth image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310587747.0A
Other languages
English (en)
Inventor
薛杜娟
马春运
何晓南
王迎新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Yunchi Zhitong Technology Co ltd
Original Assignee
Xi'an Yunchi Zhitong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Yunchi Zhitong Technology Co ltd filed Critical Xi'an Yunchi Zhitong Technology Co ltd
Priority to CN202310587747.0A priority Critical patent/CN116563376A/zh
Publication of CN116563376A publication Critical patent/CN116563376A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

基于深度学习的LIDAR‑IMU紧耦合语义SLAM方法及相关装置,包括:获取点云数据,并进行去畸变处理,得到去畸变点云;得到逐点云的语义信息;利用语义信息辅助特征提取和匹配,通过语义ICP得到两帧之间的位姿变换;将点云球投影得到的深度图像以及语义信息作为回环检测模块输入,判断两帧是否属于回环;将语义ICP得到的位姿变换、IMU预积分约束及回环检测结果作为后端优化输入。本发明使用改进点云语义分割算法,将当前帧及当前帧之前的连续N帧点云通过球投影的到深度图像作为语义分割算法的输入,获取包含动态信息的语义分割结果,将其引入传统SLAM的各环节,包括语义辅助的ICP及回环检测等,同时对动态点云进行去除,以满足不同应用场景下移动机器人***的定位和建图需求,提高算法的鲁棒性和可靠性。

Description

基于深度学习的LIDAR-IMU紧耦合语义SLAM方法及相关装置
技术领域
本发明属于移动机器人定位与地图构建技术领域,特别涉及基于深度学习的LIDAR-IMU紧耦合语义SLAM方法及相关装置。
背景技术
随着大量机器人在生产生活中各个领域的广泛应用,促进机器人的智能化、自动化不断发展。定位和建图是智能移动机器人成功的基础,路径规划、避障、交互等多种功能的实现都需要一个高性能的定位和建图方案,即SLAM。利用基于激光雷达和相机的传感技术可实现移动机器人的六自由度状态估计,但早期传统的SLAM方法主要以静态环境假设为前提,环境中存在的动态物体会对SLAM***的运行造成干扰,导致精度下降甚至失效。近年来人工智能方法的发展和应用,使得移动机器人在动态环境下的表现得到了显著提升,极大增强了移动机器人对不同环境的适应能力,提高算法的鲁棒性和可靠性。
场景中存在的可移动物体,比如行人、车辆、动物等,由于传统的SLAM方法的定位和场景认知能力较弱,不能有效对动态物体进行处理,导致移动的物体会极大地干扰场景结构和定位,结果可能不够可靠。
回环检测用于判断机器人是否到达之前到过的地方,可有效提高地图的全局一致性,减小建图误差。现有的基于LiDAR的环路闭合检测方法,包括局部、全局和基于分段的方法,可以取得很好的效果,但对语义信息的应用较少,同时,基于传统方法判断回环通常耗时较长,对于整体SLAM方法的实时性要求影响较大。
发明内容
本发明的目的在于提供基于深度学习的LIDAR-IMU紧耦合语义SLAM方法及相关装置,以解决现有技术中未能同时考虑机器人应用中动态环境干扰及场景认知能力弱、语义SLAM实时性差的问题。
为实现上述目的,本发明采用以下技术方案:
第一方面,本发明提供基于深度学习的LIDAR-IMU紧耦合语义SLAM方法,包括:
获取机器人激光雷达LIDAR和惯性测量单元IMU的点云数据,并进行去畸变处理,得到去畸变点云;
将去畸变点云通过球投影得到深度图像,输入到预设的语义分割模块,得到逐点云的语义信息;
将具有语义标签的点云作为SLAM***前端的输入,利用语义信息辅助特征提取和匹配,通过语义ICP得到两帧之间的位姿变换;
将深度图像以及语义信息作为回环检测模块,判断两帧是否属于回环;
将语义ICP得到的位姿变换、IMU预积分约束及回环检测结果作为后端优化输入。
可选的,获取机器人激光雷达LIDAR和惯性测量单元IMU的点云数据,并进行去畸变处理,得到去畸变点云:
通过IMU预积分获取机器人的位姿变化,把所有的点云补偿到一帧开始时刻,把本身在过去一帧内收集的点云统一到一个时间点上去,使得该帧所有点云数据都是相对统一原点;采用紧耦合的方案,将惯性测量单元IMU数据参与到SLAM后端优化,对IMU的偏差进行更新,减小其累计误差。
可选的,将去畸变点云通过球投影得到深度图像,输入到预设的语义分割模块,得到逐点云的语义信息:
采用基于球投影得到的深度图像的点云语义分割方法,先将去畸变的当前帧点云数据通过球投影得到深度图像,当前帧之前的N帧点云通过SLAM得到的位姿将其变换到当前帧时刻,统一其坐标系,然后通过球投影得到深度图像作为语义分割网络的额外输入,利用各帧一致性差异以实现最终的语义分割结果中包含对移动物体的分类;语义分割的过程中,先是得到深度图像上的语义分割结果,然后再将其反投影得到逐点云的语义信息。
可选的,将具有语义标签的点云作为SLAM***前端的输入,利用语义信息辅助特征提取和匹配,通过语义ICP得到两帧之间的位姿变换:
首先,利用语义信息,将被标记为动态物体的点云滤除;然后,将容易出现匹配错误导致精度下降的点云滤除,根据场景点云类别分布情况,采用不同的降采样率,同时对不同类别点云,引入权重参数;在点云匹配时,先用点云标签做粗匹配,再细化同类标签点云,同时对不同语义类别的点云采取不同模式计算匹配残差。
可选的,将深度图像以及语义信息作为回环检测模块,判断两帧是否属于回环:
逐点云的语义信息,结合球投影得到的深度图像,将其作为神经网络的输入,提取特征,最终得到具有旋转不变性的描述子,通过比较两帧的描述子之间相似性,当小于给定阈值时,作为回环检测候选帧,在得到回环检测候选帧之后,通过几何验证保证回环检测的准确性,同时,根据场景不同,通过调节候选帧确定阈值进而平衡正确率和召回率;几何验证是将检测为回环检测的两帧,通过语义ICP得到两帧之间的位姿变换,当位姿变换小于一定阈值时认为属于回环检测;大场景下先对位姿估计的不可靠性做评价,通过不可靠性确定其检索范围。
可选的,通过比较两帧的描述子之间相似性,来进行回环检测:
步骤1:将语义分割模块得到的深度图像和语义信息作为网络输入,得到偏航角旋转不变的全局描述子,偏航角变化导致的点云坐标变化变现到深度图像上只是其水平坐标的变化,在网络设计上只对纵向进行压缩特征提取,对横向不做变化,在网络的最后阶段再生成旋转不变的全局描述子;
步骤2:通过里程计得到的位姿估计的协方差矩阵判断位姿的不确定性,根据不确定性调整回环检测的搜索范围;
步骤3:判断回环检测候选帧:在搜索范围内,通过计算两帧的全局描述子之间的差异,小于给定阈值时,认为是回环候选帧;
步骤4:几何验证,将候选帧通过前述语义ICP方法得到两帧之间的位姿估计,当位姿估计小于给定值时,认为属于回环。
可选的,将语义ICP得到的位姿变换、IMU预积分约束及回环检测结果作为后端优化输入:
采用因子图的形式,将里程计位姿估计、IMU预积分以及回环检测结果分别作为因子添加到因子图中,进行优化。
第二方面,本发明提供基于深度学习的LIDAR-IMU紧耦合语义SLAM***,包括:
数据获取模块,用于获取机器人激光雷达LIDAR点云和惯性测量单元IMU的数据,并进行去畸变处理,得到去畸变点云;
语义分割模块,用于将去畸变点云通过球投影得到深度图像,输入到预设的语义分割模块,得到逐点云的语义信息;
位姿变换获取模块,用于将具有语义标签的点云作为SLAM***前端的输入,利用语义信息辅助特征提取和匹配,通过语义ICP得到两帧之间的位姿变换;
回环检测模块,用于将深度图像以及语义信息作为回环检测模块输入,判断两帧是否属于回环;
优化输入模块,用于将语义ICP得到的位姿变换、IMU预积分约束及回环检测结果作为后端优化输入。
第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于深度学习的LIDAR-IMU紧耦合语义SLAM方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于深度学习的LIDAR-IMU紧耦合语义SLAM方法的步骤。
与现有技术相比,本发明有以下技术效果:
本发明使用改进点云语义分割算法,将当前帧及当前帧之前的连续N帧点云通过球投影的到深度图像作为语义分割算法的输入,获取包含动态信息的语义分割结果,将其引入传统SLAM的各环节,包括语义辅助的ICP及回环检测等,以满足不同应用场景下移动机器人***的定位和建图需求,提高算法的鲁棒性和可靠性。
本发明通过基于点云球投影的深度学***衡不同语义类别点云对算法的影响。针对回环检测,结合计算机视觉领域的巨大成就,将点云通过球投影得到的深度图像,作为神经网络的输入,如果有必要也可以将其他信息作为输入,得到具有全局不变性的描述子,通过比较描述子分析两帧的相似性,判断是否属于回环。使用深度图像作为回环检测输入可以减少计算量,提高回环检测的效率。综上,有效提高SLAM算法的鲁棒性、准确性和可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图
图1是本发明方法的流程图。
图2引入语义信息的特征提取匹配示意图。
图3是基于深度学习的回环检测示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面结合附图和具体实施方式对本发明进行详细说明。
本发明公开了一种考虑动态环境的基于深度学习的LIDAR-IMU紧耦合语义SLAM方法
一种考虑动态环境的基于深度学习的LIDAR-IMU紧耦合语义SLAM方法,如图1所示,包括以下步骤
S1、利用IMU及LIDAR里程计信息将点云进行去畸变,得到去畸变点云。
激光雷达的一帧数据是过去一周期内形成的所有数据,数据带有时间戳,而非某个时刻的数据,由于在这一帧时间内的安装激光雷达的移动机器人通常会发生运动,导致这一帧的原点不一致,产生运动畸变。为解决该问题,通过IMU预积分获取机器人的位姿变化,把所有的点云补偿到一帧开始时刻,这样就可以把本身在过去一帧内收集的点云统一到一个时间点上去,使得该帧所有点云数据都是相对统一原点。由于IMU累积误差大,在整体方案上,采用紧耦合的方案,将惯性测量单元IMU数据参与到SLAM后端优化,对IMU的偏差进行更新,较小其累计误差,提高点云去畸变的精度。
S2、获取点云语义信息:将去畸变点云通过球投影得到深度图像,输入到语义分割模块,得到逐点云的语义信息,包含动态信息标签。
大多数现有的语义分割方法只能找到可移动的物体,如车辆和人类,但不能区分实际移动的物体与相应非移动/静态物体,如行驶的汽车或行走的行人和静止的汽车和行人,。为解决该问题,采用基于球投影得到的深度图像的点云语义分割方法,先将去畸变的当前帧点云数据通过球投影得到深度图像,当前帧之前的N帧点云通过SLAM得到的位姿将其变换到当前帧时刻,统一其坐标系,然后通过球投影得到深度图像作为语义分割网络的额外输入,利用各帧一致性差异以实现最终的语义分割结果中包含对移动物体的分类。值得注意的是,语义分割的过程中,先是得到深度图像上的语义分割结果,然后再将其反投影得到逐点云的语义信息。
S3、将具有语义标签的点云作为SLAM***前端的输入,利用语义信息辅助特征提取和匹配,通过语义ICP得到两帧之间的位姿变换。
首先,利用S2得到的语义信息,将被标记为动态物体的点云滤除,从而解决动态物体的影响。然后,将一些容易出现匹配错误导致精度下降的点云滤除,比如树叶、草丛等,不同语义标签的点云数量不同,为平衡各类点云对匹配的影响,根据场景点云类别分布情况,采用不同的降采样率,同时对不同类别点云,引入权重参数,从而平衡各类点云对最终建图的影响。在点云匹配时,先用点云标签做粗匹配,再细化同类标签点云,如边缘点、平面点等,同时对不同语义类别的点云采取不同模式计算匹配残差,例如对于地面,以点到面的距离作为残差,对于树干等,以点到线的距离作为残差,减少误匹配的可能性,提高精度,从而提高匹配质量。
S4、将S3中的深度图像以及语义信息作为回环检测模块输入,判断两帧是否属于回环。
S3中已经得到了逐点云的语义信息,结合球投影得到的深度图像,将其作为神经网络的输入,提取特征,最终得到具有旋转不变性的描述子,通过比较两帧的描述子之间相似性,当小于给定阈值时,作为回环检测候选帧,为保证回环检测的可靠性,不引入假阳性检测检测结果造成恶劣影响,在得到回环检测候选帧之后,通过几何验证保证回环检测的准确性,同时,根据场景不同,可以通过调节候选帧确定阈值进而平衡正确率和召回率,保证回环检测模块的高效准确。几何验证是将检测为回环检测的两帧,通过S3中提到的语义ICP得到两帧之间的位姿变换,当位姿变换小于一定阈值时才认为属于回环检测。值得注意的是,为保证实时性,大场景下不可能当前帧和之前所有帧的描述子都做比较,此时,先对位姿估计的不可靠性做评价,通过不可靠性确定其检索范围,提高效率。考虑到机器人运动过程中滚转角和俯仰角变化较小,主要是偏航角变化,即机器人朝向变化。当某两帧点云对应机器人位于同一位置但朝向不同时,需要回环检测模块对于该两帧最终得到的描述子差距尽可能小,偏航角变化对应在其深度图像上的变化为像素的水平移动,故是回环检测描述子构建模型应具有偏航角旋转不变性。
S5、后端优化,得到全局一致的地图:将语义ICP得到的位姿变换、IMU预积分约束及回环检测结果作为后端优化输入,提高全局一致性。
里程计只会对短程间添加约束,加上IMU的漂移,长时间运行后累计误差会比较大,为提高建图的全局一致性,采用因子图的形式,将里程计位姿估计、IMU预积分以及回环检测结果分别作为因子添加到因子图中,进行优化。
本发明为了满足机器人slam运行的实时性,语义分割部分采用基于球投影得到的深度图像的分割方法,这样可以实现分割精度和效率之间比较好的平衡。同时本发明为了满足机器人在动态环境下的鲁棒性和可靠性,能够在机器人工作环境中出现较多动态物体干扰时,尽可能保证机器人SLAM结果的准确性和可靠性,故在语义分割模块是将当前帧及之前的连续N帧在内的多帧点云作为输入,通过各帧一致性差异,以得到动态信息标签,从而去除动态物体的影响。
本发明所述的一种新的语义ICP方法,不同于LOAM系列等传统激光SLAM方法通过计算曲率划分边缘和平面特征等,而是通过语义标签来划分特征,对于不同语义类别的点云采取不同的降采样率,以平衡不同类别点云对算法最终结果的影响;在对点云进行ICP的时候,对不同语义类别的点云采取不同模式计算匹配残差,例如对于地面,以点到面的距离作为残差,对于树干等,以点到线的距离作为残差,减少误匹配的可能性,提高精度。
本发明为了满足高效率的精确回环检测,采用一种高效率的基于深度学习的两帧点云相似性比较方案,如图3所示。本发明所述的高效率的基于深度学习的两帧点云相似性比较方案包括如下步骤:步骤1:将语义分割模块得到的深度图像和语义信息作为网络输入,得到偏航角旋转不变的全局描述子,偏航角变化导致的点云坐标变化变现到深度图像上只是其纵坐标的变化,为了保障最终的偏航角旋转不变性,在网络设计上只对纵向进行压缩特征提取,对横向不做变化,在网络的最后阶段再生成旋转不变的全局描述子。步骤2:通过里程计得到的位姿估计的协方差矩阵判断位姿的不确定性,根据不确定性调整回环检测的搜索范围。步骤3:判断回环检测候选帧:在搜索范围内,通过计算两帧的全局描述子之间的差异,小于给定阈值时,认为是回环候选帧。步骤3:几何验证,将候选帧通过前述语义ICP方法得到两帧之间的位姿估计,当位姿估计小于给定值时,认为属于回环。
本发明在一实施例中,提供基于深度学习的LIDAR-IMU紧耦合语义SLAM***,能够用于实现上述的基于深度学习的LIDAR-IMU紧耦合语义SLAM方法,具体的,该***包括:
数据获取模块,用于获取机器人激光雷达LIDAR点云和惯性测量单元IMU的数据,并进行去畸变处理,得到去畸变点云;
语义分割模块,用于将去畸变点云通过球投影得到深度图像,输入到预设的语义分割模块,得到逐点云的语义信息;
位姿变换获取模块,用于将具有语义标签的点云作为SLAM***前端的输入,利用语义信息辅助特征提取和匹配,通过语义ICP得到两帧之间的位姿变换;
回环检测模块,用于将深度图像以及语义信息作为回环检测模块,判断两帧是否属于回环;
优化输入模块,用于将语义ICP得到的位姿变换、IMU预积分约束及回环检测结果作为后端优化输入。
本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于深度学习的LIDAR-IMU紧耦合语义SLAM方法的操作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作***。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于深度学习的LIDAR-IMU紧耦合语义SLAM方法的相应步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.基于深度学习的LIDAR-IMU紧耦合语义SLAM方法,其特征在于,包括:
获取机器人激光雷达LIDAR点云和惯性测量单元IMU的数据,并进行去畸变处理,得到去畸变点云;
将去畸变点云通过球投影得到深度图像,输入到预设的语义分割模块,得到逐点云的语义信息;
将具有语义标签的点云作为SLAM***前端的输入,利用语义信息辅助特征提取和匹配,通过语义ICP得到两帧之间的位姿变换;
将上述深度图像以及语义信息作为回环检测模块输入,判断两帧是否属于回环;
将语义ICP得到的位姿变换、IMU预积分约束及回环检测结果作为后端优化输入。
2.根据权利要求1所述的基于深度学习的LIDAR-IMU紧耦合语义SLAM方法,其特征在于,获取机器人激光雷达LIDAR点云和惯性测量单元IMU的数据,并进行去畸变处理,得到去畸变点云:
通过IMU预积分获取机器人的位姿变化,把所有的点云补偿到一帧开始时刻,把本身在过去一帧内收集的点云统一到一个时间点上去,使得该帧所有点云数据都是相对统一原点;采用紧耦合的方案,将惯性测量单元IMU数据参与到SLAM后端优化,对IMU的偏差进行更新,减小其累计误差。
3.根据权利要求1所述的基于深度学习的LIDAR-IMU紧耦合语义SLAM方法,其特征在于,将去畸变点云通过球投影得到深度图像,输入到预设的语义分割模块,得到逐点云的语义信息:
采用基于球投影得到的深度图像的点云语义分割方法,先将去畸变的当前帧点云数据通过球投影得到深度图像,当前帧之前的N帧点云通过SLAM得到的位姿将其变换到当前帧时刻,统一其坐标系,然后通过球投影得到深度图像作为语义分割网络的额外输入,利用各帧一致性差异以实现最终的语义分割结果中包含对移动物体的分类;语义分割的过程中,先是得到深度图像上的语义分割结果,然后再将其反投影得到逐点云的语义信息。
4.根据权利要求1所述的基于深度学习的LIDAR-IMU紧耦合语义SLAM方法,其特征在于,将具有语义标签的点云作为SLAM***前端的输入,利用语义信息辅助特征提取和匹配,通过语义ICP得到两帧之间的位姿变换:
首先,利用语义信息,将被标记为动态物体的点云滤除;然后,将容易出现匹配错误导致精度下降的点云滤除,根据场景点云类别分布情况,采用不同的降采样率,同时对不同类别点云,引入权重参数;在点云匹配时,先用点云标签做粗匹配,再细化同类标签点云,同时对不同语义类别的点云采取不同模式计算匹配残差。
5.根据权利要求1所述的基于深度学习的LIDAR-IMU紧耦合语义SLAM方法,其特征在于,将深度图像以及语义信息作为回环检测模块输入,判断两帧是否属于回环:
逐点云的语义信息,结合球投影得到的深度图像,将其作为神经网络的输入,提取特征,最终得到具有旋转不变性的描述子,通过比较两帧的描述子之间相似性,当小于给定阈值时,作为回环检测候选帧,在得到回环检测候选帧之后,通过几何验证保证回环检测的准确性,同时,根据场景不同,通过调节候选帧确定阈值进而平衡正确率和召回率;几何验证是将检测为回环检测的两帧,通过语义ICP得到两帧之间的位姿变换,当位姿变换小于一定阈值时认为属于回环检测;大场景下先对位姿估计的不可靠性做评价,通过不可靠性确定其检索范围。
6.根据权利要求5所述的基于深度学习的LIDAR-IMU紧耦合语义SLAM方法,其特征在于,通过比较两帧的描述子之间相似性,来进行回环检测:
步骤1:将语义分割模块得到的深度图像和语义信息作为网络输入,得到偏航角旋转不变的全局描述子,偏航角变化导致的点云坐标变化变现到深度图像上只是其水平坐标的变化,在网络设计上只对纵向进行压缩特征提取,对横向不做变化,在网络的最后阶段再生成旋转不变的全局描述子;
步骤2:通过里程计得到的位姿估计的协方差矩阵判断位姿的不确定性,根据不确定性调整回环检测的搜索范围;
步骤3:判断回环检测候选帧:在搜索范围内,通过计算两帧的全局描述子之间的差异,小于给定阈值时,认为是回环候选帧;
步骤4:几何验证,将候选帧通过前述语义ICP方法得到两帧之间的位姿估计,当位姿估计小于给定值时,认为属于回环。
7.根据权利要求1所述的基于深度学习的LIDAR-IMU紧耦合语义SLAM方法,其特征在于,将语义ICP得到的位姿变换、IMU预积分约束及回环检测结果作为后端优化输入:
采用因子图的形式,将里程计位姿估计、IMU预积分以及回环检测结果分别作为因子添加到因子图中,进行优化。
8.基于深度学习的LIDAR-IMU紧耦合语义SLAM***,其特征在于,包括:
数据获取模块,用于获取机器人激光雷达LIDAR点云和惯性测量单元IMU的数据,并进行去畸变处理,得到去畸变点云;
语义分割模块,用于将去畸变点云通过球投影得到深度图像,输入到预设的语义分割模块,得到逐点云的语义信息;
位姿变换获取模块,用于将具有语义标签的点云作为SLAM***前端的输入,利用语义信息辅助特征提取和匹配,通过语义ICP得到两帧之间的位姿变换;
回环检测模块,用于将深度图像以及语义信息作为回环检测模块输入,判断两帧是否属于回环;
后端优化输入模块,用于将语义ICP得到的位姿变换、IMU预积分约束及回环检测结果作为后端优化输入。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于深度学习的LIDAR-IMU紧耦合语义SLAM方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于深度学习的LIDAR-IMU紧耦合语义SLAM方法的步骤。
CN202310587747.0A 2023-05-23 2023-05-23 基于深度学习的lidar-imu紧耦合语义slam方法及相关装置 Pending CN116563376A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310587747.0A CN116563376A (zh) 2023-05-23 2023-05-23 基于深度学习的lidar-imu紧耦合语义slam方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310587747.0A CN116563376A (zh) 2023-05-23 2023-05-23 基于深度学习的lidar-imu紧耦合语义slam方法及相关装置

Publications (1)

Publication Number Publication Date
CN116563376A true CN116563376A (zh) 2023-08-08

Family

ID=87496314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310587747.0A Pending CN116563376A (zh) 2023-05-23 2023-05-23 基于深度学习的lidar-imu紧耦合语义slam方法及相关装置

Country Status (1)

Country Link
CN (1) CN116563376A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116819489A (zh) * 2023-08-25 2023-09-29 摩尔线程智能科技(北京)有限责任公司 动态物体检测方法、模型训练方法、装置、设备及介质
CN117542008A (zh) * 2023-10-12 2024-02-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种融合语义点云的自动驾驶场景识别方法、存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116819489A (zh) * 2023-08-25 2023-09-29 摩尔线程智能科技(北京)有限责任公司 动态物体检测方法、模型训练方法、装置、设备及介质
CN117542008A (zh) * 2023-10-12 2024-02-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种融合语义点云的自动驾驶场景识别方法、存储介质

Similar Documents

Publication Publication Date Title
Xiao et al. Dynamic-SLAM: Semantic monocular visual localization and mapping based on deep learning in dynamic environment
CN111460926B (zh) 一种融合多目标跟踪线索的视频行人检测方法
CN112734852B (zh) 一种机器人建图方法、装置及计算设备
WO2020215492A1 (zh) 基于YOLOv3多伯努利视频多目标检测跟踪方法
Wojek et al. Monocular visual scene understanding: Understanding multi-object traffic scenes
CN116563376A (zh) 基于深度学习的lidar-imu紧耦合语义slam方法及相关装置
CN109559330B (zh) 运动目标的视觉跟踪方法、装置、电子设备及存储介质
CN110348332B (zh) 一种交通视频场景下机非人多目标实时轨迹提取方法
Ciberlin et al. Object detection and object tracking in front of the vehicle using front view camera
CN101344965A (zh) 基于双目摄像的跟踪***
Vaquero et al. Dual-branch CNNs for vehicle detection and tracking on LiDAR data
CN113313763A (zh) 一种基于神经网络的单目相机位姿优化方法及装置
US20210350705A1 (en) Deep-learning-based driving assistance system and method thereof
Smith ASSET-2: Real-time motion segmentation and object tracking
Li et al. A mobile robot visual SLAM system with enhanced semantics segmentation
He et al. Fast online multi-pedestrian tracking via integrating motion model and deep appearance model
CN111242985A (zh) 基于马尔科夫模型的视频多行人追踪方法
Hu et al. Mapping and localization using semantic road marking with centimeter-level accuracy in indoor parking lots
Qing et al. A novel particle filter implementation for a multiple-vehicle detection and tracking system using tail light segmentation
US11978217B2 (en) Continuous learning for object tracking
CN111862147A (zh) 视频中多车辆和多行人目标的跟踪方法
Ristić-Durrant et al. Deep learning-based obstacle detection and distance estimation using object bounding box
CN103838795A (zh) 一种模板相关匹配方法
Sahili et al. A Survey of Visual SLAM Methods
Ji et al. DRV-SLAM: An Adaptive Real-Time Semantic Visual SLAM Based on Instance Segmentation Toward Dynamic Environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination