CN114140527A - 一种基于语义分割的动态环境双目视觉slam方法 - Google Patents

一种基于语义分割的动态环境双目视觉slam方法 Download PDF

Info

Publication number
CN114140527A
CN114140527A CN202111373890.7A CN202111373890A CN114140527A CN 114140527 A CN114140527 A CN 114140527A CN 202111373890 A CN202111373890 A CN 202111373890A CN 114140527 A CN114140527 A CN 114140527A
Authority
CN
China
Prior art keywords
feature points
dynamic
binocular
semantic
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111373890.7A
Other languages
English (en)
Inventor
沈晔湖
李星
卢金斌
王其聪
赵冲
蒋全胜
朱其新
谢鸥
牛福洲
牛雪梅
付贵忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University of Science and Technology
Original Assignee
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University of Science and Technology filed Critical Suzhou University of Science and Technology
Priority to CN202111373890.7A priority Critical patent/CN114140527A/zh
Publication of CN114140527A publication Critical patent/CN114140527A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • G01C21/3833Creation or updating of map data characterised by the source of data
    • G01C21/3841Data obtained from two or more sources, e.g. probe vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Automation & Control Theory (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于语义分割的动态环境双目视觉SLAM方法,包括如下步骤:获取物体的语义掩膜,所述语义掩膜通过深度学习网络生成;采用双目相机获取多帧连续的双目图像;提取每帧双目图像上的特征点,匹配相邻帧双目图像上的特征点;剔除位于语义掩膜上的特征点,并根据剩余的特征点计算相机位姿;基于所述相机位姿分离所述双目图像上的动态物体和静态物体;基于分离后的静态物体重新计算相机位姿;基于更新后的相机位姿以及位于所述静态物体上的特征点构建静态地图。本发明使用双目相机,将经过语义信息分割后的图像作为引导,能够识别场景中的动态、静态物体,并实现地图的构建,本方法运算简单、成本低,且能够应用于大多数实际场景中。

Description

一种基于语义分割的动态环境双目视觉SLAM方法
技术领域
本发明涉及视觉空间定位技术领域,尤其涉及一种基于语义分割的动态环境双目视觉SLAM方法。
背景技术
随着计算机技术和人工智能的发展,智能自主移动机器人成为机器人领域的一个重要研究方向和研究热点。随着移动机器人逐渐智能化,移动机器人对自身的定位以及环境地图的要求越来越高。目前,智能移动机器人在已知环境中完成自身定位和地图构建已经有了一些实用的应用,但是在未知环境中仍有很多挑战。在这样的环境中完成定位和地图构建的技术被称为SLAM(Simultaneous Localization and Mapping),即同步定位和地图构建,SLAM的目标是使机器人能够在未知环境的移动过程中,完成自身定位和增量式地图构建。
传统的SLAM算法主要依赖于稳定性较好的距离传感器,如激光雷达。然而激光雷达获得的距离数据非常稀疏,这就造成SLAM构建得到的环境地图仅包含极少量的路标点。这个地图仅能被用来提高机器人的定位精度,而无法用于路径规划等机器人导航的其它领域。此外激光雷达高昂的价格、较大的体积重量以及耗电量限制了其在某些领域的应用。相机虽然能在一定程度上克服激光雷达在价格、体积、质量以及耗电量上的劣势,同时相机能够获取丰富的信息,但是相机也存在一些问题,例如对光线变化敏感,运算复杂度高等。目前还有多传感器融合的SLAM算法,虽然能够有效缓解单一传感器自身不足带来的问题,但是也进一步增加了成本和算法的复杂程度。
现有的视觉SLAM算法大多基于环境静态假设,即场景是静态的,不存在相对运动的物体。但是在实际室外场景中大量存在行人、车辆等动态物体,从而限制了基于上述假设的SLAM***在实际场景中运用。针对动态环境下视觉SLAM算法的定位精度和稳定性下降的问题,现有的算法使用了一些基于概率统计或者几何约束的算法,减少了动态物体对视觉SLAM算法精度和稳定性的影响。例如当场景中存在少量动态物体时,可以使用RANSAC(Random Sample Consensus)等概率算法来剔除动态物体。但是当场景中出现大量动态物体时,上述算法将无法正常区分动态物体。而另一些算法使用光流法来区分动态物体,在存在大量动态物体的场景中,使用光流法确实能够区分动态物体,但是由于计算稠密光流的过程较为耗时,会降低SLAM算法的执行效率。
因此,如何提供一种运算简单、成本低,且能够应用于多数实际场景中的基于语义分割的动态环境双目视觉SLAM方法是本领域技术人员亟待解决的一个技术问题。
发明内容
本发明提供一种基于语义分割的动态环境双目视觉SLAM方法,以解决上述技术问题。
为解决上述技术问题,本发明提供一种基于语义分割的动态环境双目视觉SLAM方法,包括如下步骤:
获取物体的语义掩膜,所述语义掩膜通过深度学习网络生成;
采用双目相机获取多帧连续的双目图像;
提取每帧所述双目图像上的特征点,匹配相邻帧双目图像上的特征点;
剔除位于所述语义掩膜上的特征点,并根据剩余的特征点计算相机位姿;
基于所述相机位姿分离所述双目图像上的动态物体和静态物体;
基于分离后的动态物体估计动态物体的运动参数;
基于分离后的静态物体重新计算相机位姿;
基于更新后的相机位姿以及位于所述静态物体上的特征点构建静态地图。
较佳地,用于生成所述语义掩膜的深度学习网络为Mask R-CNN模型。
较佳地,所述提取每帧所述双目图像上的特征点,匹配相邻帧双目图像上的特征点的方法包括:
采用ORB方法提取所述特征点;
获取每个特征点分别在各帧双目图像上的描述子,计算一个特征点在位于相邻两帧双目图像上的两个描述子之间的汉明距离,汉明距离最小的两个特征点组成一组匹配的特征点。
较佳地,判断所述特征点是否位于所述语义掩膜上的方法包括:所述语义掩膜至少包括物体的边框,所述特征点的坐标位于所述边框范围内,则该特征点位于该语义掩膜上。
较佳地,所述根据剩余的特征点计算相机位姿的方法包括:采用PnP算法求解所述相机位姿。
较佳地,所述基于所述相机位姿分离所述双目图像上的动态物体和静态物体;基于分离后的动态物体估计动态物体的运动参数的方法包括:
分离动态物体:基于所述相机位姿,和相邻帧双目图像与所述语义掩膜的位置关系,计算该语义掩膜对应的物体的运动概率,若所述运动概率大于第一阈值,则判断该语义掩膜对应的物体为动态物体;
动态物体匹配:针对所述动态物体,计算该动态物体对应的语义掩膜在相邻帧双目图像的hu矩、中心点欧氏距离以及直方图分布,基于所述hu矩、中心点欧氏距离和直方图分布计算相邻帧双目图像中所述动态物体匹配的概率,若概率大于第二阈值,则相邻帧双目图像中的两个动态物体为同一物体;以及
动态物体运动估计:通过所述动态物体匹配完成连续帧之间动态物体的关联,通过PnP算法估计所述动态物体的运动参数。
较佳地,所述分离动态物体的步骤包括:
基于所述相机位姿,计算上一帧的语义掩膜在当前帧对应的位置;
利用视差图计算投影以后所述语义掩膜上所有特征点的三维坐标,所述视差图通过所述双目图像计算所得;
计算上一帧与当前帧对应特征点在x,y,z三个方向上的误差,其中误差的最大值作为该特征点的误差值;
将所述误差值转换为与该特征点所在的语义掩膜对应的物体的运动概率,基于所述运动概率判断与该语义掩膜对应的物体是否为动态物体。
较佳地,所述基于分离后的静态物体重新计算相机位姿的方法包括:剔除位于所述动态物体对应的语义掩膜上的特征点,根据剩余的特征点,采用PnP算法更新所述相机位姿。
较佳地,所述基于更新后的相机位姿以及位于所述静态物体上的特征点构建静态地图的方法包括:
基于更新后的相机位姿和位于所述静态物体上的特征点确定多个关键帧;
匹配多个所述关键帧上的特征点,剔除不匹配的特征点;
检验匹配后的特征点是否满足对极几何约束,剔除不满足的特征点;
检查剩余特征点正向景深、视差、反投影误差和尺度是否一致,剔除不一致的特征点,基于剩余特征点生成地图点;
基于所述地图点构建所述静态地图。
较佳地,在构建所述静态地图前,还包括对生成的地图点通过光束法平差进行优化的步骤。
与现有技术相比,本发明提供的基于语义分割的动态环境双目视觉SLAM方法使用双目相机,将经过语义信息分割后的图像作为引导,能够识别场景中的动态、静态物体,并实现地图的构建,本方法运算简单、成本低,且能够应用于大多数实际场景中。
附图说明
图1为本发明一具体实施方式中基于语义分割的动态环境双目视觉SLAM方法的流程示意图;
图2为本发明一具体实施方式中分离动态物体的流程示意图。
具体实施方式
为了更详尽的表述上述发明的技术方案,以下列举出具体的实施例来证明技术效果;需要强调的是,这些实施例用于说明本发明而不限于限制本发明的范围。
本发明提供的基于语义分割的动态环境双目视觉SLAM方法,如图1所示,包括如下步骤:
获取物体的语义掩膜,所述语义掩膜通过深度学习网络生成,本实施例中,用于生成所述语义掩膜的深度学习网络为Mask R-CNN模型,从而实现高质量的语义分割。
采用双目相机获取多帧连续的双目图像,从所述双目图像中可以获取二维图像像素点的第三维深度信息,当然,关于所述双目相机的内参以及外参,主要包括:相机焦距f、相机光心(u,v)、相机镜头径向畸变系数kc1和kc2等,上述参数可通过张正友标定法标定获得。
提取每帧所述双目图像上的特征点,匹配相邻帧双目图像上的特征点。具体方法包括:
采用ORB(英文全称:Oriented Fast and Rotated Brief)方法提取所述特征点;
获取每个特征点分别在各帧双目图像上的描述子,计算一个特征点在位于相邻两帧双目图像上的两个描述子之间的汉明距离,汉明距离最小的两个特征点组成一组匹配的特征点。
剔除位于所述语义掩膜上的特征点,并根据剩余的特征点计算相机位姿。判断所述特征点是否位于所述语义掩膜上的方法包括:所述语义掩膜至少包括物体的边框,所述特征点的坐标位于所述边框范围内,则该特征点位于该语义掩膜上;若不位于所述边框范围内,则该特征点不位于该语义掩膜上。所述根据剩余的特征点计算相机位姿的方法包括:采用PnP(英文全称Perspective-n-Point)算法求解所述相机位姿,构建重投影误差并优化如下式(1)所示:
Figure BDA0003363379700000051
通过最小化重投影误差,得到最优解,即为所需的相机位姿。
基于所述相机位姿分离所述双目图像上的动态物体和静态物体,具体方法包括:
分离动态物体:基于所述相机位姿,和相邻帧双目图像与所述语义掩膜的位置关系,计算该语义掩膜对应的物体的运动概率,若所述运动概率大于第一阈值,则判断该语义掩膜对应的物体为动态物体。具体步骤如图2所示,包括:
基于所述相机位姿,计算上一帧的语义掩膜在当前帧对应的位置;
利用视差图计算投影以后所述语义掩膜上所有特征点的三维坐标,所述视差图通过所述双目图像计算所得,具体可以采用ELAS(英文全称:Efficient Large Scale StereoMatching)算法计算视差图;
计算上一帧与当前帧对应特征点在x,y,z三个方向上的误差,其中误差的最大值作为该特征点的误差值;
将所述误差值转换为与该特征点所在的语义掩膜对应的物体的运动概率,基于所述运动概率判断与该语义掩膜对应的物体是否为动态物体。
由相机成像原理可知,三维坐标系和像素(二维)坐标系之间转换关系以及深度和视差转换为:
Figure BDA0003363379700000061
Figure BDA0003363379700000062
记t-1帧第j个语义掩膜在像素坐标系上的坐标集合为
Figure BDA0003363379700000063
通过公式(2)和公式(3),得到该时刻该语义掩膜的三维坐标集合
Figure BDA0003363379700000064
通过公式(4)得到运动过后三维点集合
Figure BDA0003363379700000065
Figure BDA0003363379700000066
通过公式(3)得到
Figure BDA0003363379700000067
转换到像素坐标系下的集合
Figure BDA0003363379700000068
然后利用
Figure BDA0003363379700000069
和视差图通过公式(2)和公式(3)计算得到
Figure BDA00033633797000000610
Figure BDA00033633797000000611
Figure BDA00033633797000000612
中第i个点,
Figure BDA00033633797000000613
Figure BDA00033633797000000614
第i个点,计算两点之间误差Δi为:
Figure BDA00033633797000000615
则该特征点对应的物体的误差为:
Figure BDA00033633797000000616
计算的运动概率S(Δj)即为:
Figure BDA00033633797000000617
动态物体匹配:针对所述动态物体,计算该动态物体对应的语义掩膜在相邻帧双目图像的hu矩(即图像矩)、中心点欧氏距离以及直方图分布,基于所述hu矩、中心点欧氏距离和直方图分布计算相邻帧双目图像中所述动态物体匹配的概率,若概率大于第二阈值,则相邻帧双目图像中的两个动态物体为同一物体。具体地,图像的hu矩是一种具有平移、旋转和尺度不变性的图像特征。
图像的普通矩计算公式如下:
Figure BDA0003363379700000071
计算hu矩需要计算中心距,首先计算质心坐标:
Figure BDA0003363379700000072
Figure BDA0003363379700000073
然后构造中心矩:
Figure BDA0003363379700000074
接着对中心距进行归一化:
Figure BDA0003363379700000075
通过中心矩构造hu矩,hu矩具有7个不变矩,具体公式如下:
Φ1=η2002
Figure BDA00033633797000000710
Φ3=(η20-3η12)2+3(η2103)2
Φ4=(η3012)2+(η2103)2
Φ5=(η30+3η12)(η3012)[(η3012)2-3(η2103)2+(3η2103)(η2103)[3(η3012)2-(η2103)2
Φ6=(η2002)[(η3012)2-(η2103)2]+4η113012)(η2103)
Φ7=(3η2103)(η3012)[(η3012)2-3(η2103)2]+]+(3η1230)(η2103)[3(η3012)2-(η2103)2] (12)
Figure BDA0003363379700000076
为第t-1帧的j个语义掩膜的hu矩,两个语义掩膜之间hu矩的距离为:
Figure BDA0003363379700000077
计算每个语义掩膜的中心位置,然后计算前后帧之间各个语义掩膜的中心点位置的欧氏距离,记为:
Figure BDA0003363379700000078
计算该语义掩膜的直方图分布,然后归一化,记为
Figure BDA0003363379700000079
然后计算前后帧不同语义掩膜的Kl散度(英文全称:Kullback–Leibler divergence,又称相对熵:relativeentropy)。
Figure BDA0003363379700000081
联合hu矩、欧氏距离和直方图,估计匹配概率:
Figure BDA0003363379700000082
基于分离后的动态物体估计动态物体的运动参数的方法包括:动态物体运动估计:通过所述动态物体匹配完成连续帧之间动态物体的关联,通过PnP算法估计所述动态物体的运动参数。
基于分离后的静态物体重新计算相机位姿,具体的方法包括:剔除位于所述动态物体对应的语义掩膜上的特征点,根据剩余的特征点,采用PnP算法更新所述相机位姿,具体计算方法可参考前述首次计算相机位姿的方法。
基于更新后的相机位姿以及位于所述静态物体上的特征点构建静态地图,具体方法包括:
基于更新后的相机位姿和位于所述静态物体上的特征点确定多个关键帧;
匹配多个所述关键帧上的特征点,然后将匹配到的特征点进行三角化,对于没有匹配上的点,再与其他关键帧中未被匹配的特征点进行匹配,直至找到全部的匹配的特征点,剔除不匹配的特征点;
检验匹配后的特征点是否满足对极几何约束,剔除不满足的特征点;
检查剩余特征点正向景深、视差、反投影误差和尺度是否一致,剔除不一致的特征点,基于剩余特征点生成地图点;
基于所述地图点构建所述静态地图。
较佳地,在构建所述静态地图前,还包括对生成的地图点通过光束法平差(BA,英文全称:bundle adjustment)进行优化的步骤。
上述方法通过对双目图像的处理,识别出双目图像中存在的动态物体,并且估算出相机位姿以及动态物体的位姿,构建环境地图,满足移动机器人对三维地图的需求。
综上所述,本发明提供的基于语义分割的动态环境双目视觉SLAM方法,包括如下步骤:获取物体的语义掩膜,所述语义掩膜通过深度学习网络生成;采用双目相机获取多帧连续的双目图像;提取每帧所述双目图像上的特征点,匹配相邻帧双目图像上的特征点;剔除位于所述语义掩膜上的特征点,并根据剩余的特征点计算相机位姿;基于所述相机位姿分离所述双目图像上的动态物体和静态物体;基于分离后的动态物体估计动态物体的运动参数;基于分离后的静态物体重新计算相机位姿;基于更新后的相机位姿以及位于所述静态物体上的特征点构建静态地图。本发明使用双目相机,将经过语义信息分割后的图像作为引导,能够识别场景中的动态、静态物体,并实现地图的构建,本方法运算简单、成本低,且能够应用于大多数实际场景中。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种基于语义分割的动态环境双目视觉SLAM方法,其特征在于,包括如下步骤:
获取物体的语义掩膜,所述语义掩膜通过深度学习网络生成;
采用双目相机获取多帧连续的双目图像;
提取每帧所述双目图像上的特征点,匹配相邻帧双目图像上的特征点;
剔除位于所述语义掩膜上的特征点,并根据剩余的特征点计算相机位姿;
基于所述相机位姿分离所述双目图像上的动态物体和静态物体;
基于分离后的动态物体估计动态物体的运动参数;
基于分离后的静态物体重新计算相机位姿;
基于更新后的相机位姿以及位于所述静态物体上的特征点构建静态地图。
2.如权利要求1所述的基于语义分割的动态环境双目视觉SLAM方法,其特征在于,用于生成所述语义掩膜的深度学习网络为Mask R-CNN模型。
3.如权利要求1所述的基于语义分割的动态环境双目视觉SLAM方法,其特征在于,所述提取每帧所述双目图像上的特征点,匹配相邻帧双目图像上的特征点的方法包括:
采用ORB方法提取所述特征点;
获取每个特征点分别在各帧双目图像上的描述子,计算一个特征点在位于相邻两帧双目图像上的两个描述子之间的汉明距离,汉明距离最小的两个特征点组成一组匹配的特征点。
4.如权利要求1所述的基于语义分割的动态环境双目视觉SLAM方法,其特征在于,判断所述特征点是否位于所述语义掩膜上的方法包括:所述语义掩膜至少包括物体的边框,所述特征点的坐标位于所述边框范围内,则该特征点位于该语义掩膜上。
5.如权利要求1所述的基于语义分割的动态环境双目视觉SLAM方法,其特征在于,所述根据剩余的特征点计算相机位姿的方法包括:采用PnP算法求解所述相机位姿。
6.如权利要求1所述的基于语义分割的动态环境双目视觉SLAM方法,其特征在于,所述基于所述相机位姿分离所述双目图像上的动态物体和静态物体;基于分离后的动态物体估计动态物体的运动参数的方法包括:
分离动态物体:基于所述相机位姿,和相邻帧双目图像与所述语义掩膜的位置关系,计算该语义掩膜对应的物体的运动概率,若所述运动概率大于第一阈值,则判断该语义掩膜对应的物体为动态物体;
动态物体匹配:针对所述动态物体,计算该动态物体对应的语义掩膜在相邻帧双目图像的hu矩、中心点欧氏距离以及直方图分布,基于所述hu矩、中心点欧氏距离和直方图分布计算相邻帧双目图像中所述动态物体匹配的概率,若概率大于第二阈值,则相邻帧双目图像中的两个动态物体为同一物体;以及
动态物体运动估计:通过所述动态物体匹配完成连续帧之间动态物体的关联,通过PnP算法估计所述动态物体的运动参数。
7.如权利要求6所述的基于语义分割的动态环境双目视觉SLAM方法,其特征在于,所述分离动态物体的步骤包括:
基于所述相机位姿,计算上一帧的语义掩膜在当前帧对应的位置;
利用视差图计算投影以后所述语义掩膜上所有特征点的三维坐标,所述视差图通过所述双目图像计算所得;
计算上一帧与当前帧对应特征点在x,y,z三个方向上的误差,其中误差的最大值作为该特征点的误差值;
将所述误差值转换为与该特征点所在的语义掩膜对应的物体的运动概率,基于所述运动概率判断与该语义掩膜对应的物体是否为动态物体。
8.如权利要求1所述的基于语义分割的动态环境双目视觉SLAM方法,其特征在于,所述基于分离后的静态物体重新计算相机位姿的方法包括:剔除位于所述动态物体对应的语义掩膜上的特征点,根据剩余的特征点,采用PnP算法更新所述相机位姿。
9.如权利要求1所述的基于语义分割的动态环境双目视觉SLAM方法,其特征在于,所述基于更新后的相机位姿以及位于所述静态物体上的特征点构建静态地图的方法包括:
基于更新后的相机位姿和位于所述静态物体上的特征点确定多个关键帧;
匹配多个所述关键帧上的特征点,剔除不匹配的特征点;
检验匹配后的特征点是否满足对极几何约束,剔除不满足的特征点;
检查剩余特征点正向景深、视差、反投影误差和尺度是否一致,剔除不一致的特征点,基于剩余特征点生成地图点;
基于所述地图点构建所述静态地图。
10.如权利要求9所述的基于语义分割的动态环境双目视觉SLAM方法,其特征在于,在构建所述静态地图前,还包括对生成的地图点通过光束法平差进行优化的步骤。
CN202111373890.7A 2021-11-19 2021-11-19 一种基于语义分割的动态环境双目视觉slam方法 Pending CN114140527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111373890.7A CN114140527A (zh) 2021-11-19 2021-11-19 一种基于语义分割的动态环境双目视觉slam方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111373890.7A CN114140527A (zh) 2021-11-19 2021-11-19 一种基于语义分割的动态环境双目视觉slam方法

Publications (1)

Publication Number Publication Date
CN114140527A true CN114140527A (zh) 2022-03-04

Family

ID=80390414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111373890.7A Pending CN114140527A (zh) 2021-11-19 2021-11-19 一种基于语义分割的动态环境双目视觉slam方法

Country Status (1)

Country Link
CN (1) CN114140527A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524026A (zh) * 2023-05-08 2023-08-01 哈尔滨理工大学 一种基于频域和语义的动态视觉slam方法
CN116958265A (zh) * 2023-09-19 2023-10-27 交通运输部天津水运工程科学研究所 一种基于双目视觉的船舶位姿测量方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524026A (zh) * 2023-05-08 2023-08-01 哈尔滨理工大学 一种基于频域和语义的动态视觉slam方法
CN116524026B (zh) * 2023-05-08 2023-10-27 哈尔滨理工大学 一种基于频域和语义的动态视觉slam方法
CN116958265A (zh) * 2023-09-19 2023-10-27 交通运输部天津水运工程科学研究所 一种基于双目视觉的船舶位姿测量方法及***

Similar Documents

Publication Publication Date Title
CN109345588B (zh) 一种基于Tag的六自由度姿态估计方法
CN111462135B (zh) 基于视觉slam与二维语义分割的语义建图方法
WO2021233029A1 (en) Simultaneous localization and mapping method, device, system and storage medium
CN111201451B (zh) 基于场景的激光数据和雷达数据进行场景中的对象检测的方法及装置
CN110335319B (zh) 一种语义驱动的相机定位与地图重建方法和***
CN110827395B (zh) 一种适用于动态环境的即时定位与地图构建方法
CN110322511B (zh) 一种基于物体和平面特征的语义slam方法和***
CN112396595B (zh) 一种动态环境下基于点线特征的语义slam方法
CN110688905B (zh) 一种基于关键帧的三维物体检测与跟踪方法
CN108537844B (zh) 一种融合几何信息的视觉slam回环检测方法
WO2021114776A1 (en) Object detection method, object detection device, terminal device, and medium
CN111882602B (zh) 基于orb特征点和gms匹配过滤器的视觉里程计实现方法
CN110070578B (zh) 一种回环检测方法
CN114140527A (zh) 一种基于语义分割的动态环境双目视觉slam方法
CN112419497A (zh) 基于单目视觉的特征法与直接法相融合的slam方法
Shi et al. An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds
CN111998862A (zh) 一种基于bnn的稠密双目slam方法
CN111899345B (zh) 一种基于2d视觉图像的三维重建方法
CN115410167A (zh) 目标检测与语义分割方法、装置、设备及存储介质
CN114088081A (zh) 一种基于多段联合优化的用于精确定位的地图构建方法
CN112634305B (zh) 一种基于边缘特征匹配的红外视觉里程计实现方法
Shi et al. Dense semantic 3D map based long-term visual localization with hybrid features
CN116468786A (zh) 一种面向动态环境的基于点线联合的语义slam方法
CN113570713B (zh) 一种面向动态环境的语义地图构建方法及装置
WO2021114775A1 (en) Object detection method, object detection device, terminal device, and medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination