CN116524026A - 一种基于频域和语义的动态视觉slam方法 - Google Patents

一种基于频域和语义的动态视觉slam方法 Download PDF

Info

Publication number
CN116524026A
CN116524026A CN202310505675.0A CN202310505675A CN116524026A CN 116524026 A CN116524026 A CN 116524026A CN 202310505675 A CN202310505675 A CN 202310505675A CN 116524026 A CN116524026 A CN 116524026A
Authority
CN
China
Prior art keywords
image
mask
motion
frame
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310505675.0A
Other languages
English (en)
Other versions
CN116524026B (zh
Inventor
栾添添
吕奉坤
班喜程
孙明晓
吕重阳
张晓霜
吴宝奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Yuntou Laisengou Digital Technology Co ltd
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202310505675.0A priority Critical patent/CN116524026B/zh
Publication of CN116524026A publication Critical patent/CN116524026A/zh
Application granted granted Critical
Publication of CN116524026B publication Critical patent/CN116524026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/37Determination of transform parameters for the alignment of images, i.e. image registration using transform domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于频域和语义的动态SLAM方法,完成在高动态与复杂光照环境中的定位与建图任务。首先,为精确获得物体的运动区域,采用傅里叶梅林算法在频域对图像进行配准以补偿相机运动,随后应用帧间差分算法获得图像的运动掩膜。同时,图像通过短时密集连接(STDC)网络进行语义分割得到潜在运动物体掩膜。将运动掩膜与物体掩膜相结合,获得最终的物体运动区域,对落在该区域的特征点进行剔除。最后,依据稳定的静态特征点跟踪优化,提升位姿精度。在公开数据集与现实环境中的测试结果表明,本方法在复杂动态场景下具有良好的定位精度与鲁棒性,能够有效的降低运动模糊与光照变化对于运动检测的影响。

Description

一种基于频域和语义的动态视觉SLAM方法
(一)技术领域
本发明属于计算机视觉领域,特别涉及同时定位与建图技术,尤其是一种基于频域和语义的动态视觉SLAM方法。
(二)背景技术
同步定位与地图构建技术(simultaneous location and mapping,SLAM)是指在没有任何先验知识的情况下,根据传感器数据实时构建周围环境地图,同时根据这个地图推测自身的定位。基于视觉传感器的SLAM技术称为视觉同步定位与地图创建(VSLAM)技术。在拥有采集速度快、采集信息丰富、价格相对低廉的RGB-D相机之后,VSLAM已经被广泛应用于多个领域。
在过去的30多年中,许多学者对SLAM进行了研究并取得了突出效果,如ORB-SLAM2、RGBD-SLAM-V2等。但是,传统的SLAM工作大都是基于静态环境的假设,但是SLAM的真实工作环境中不可避免的存在动态对象,这些对象的特征点是不稳定的,因此会对SLAM产生干扰并造成性能下降。在基于特征点的SLAM***中,当跟踪到不稳定的特征点时,会严重影响位姿估计,导致较大的轨迹误差甚至***崩溃。因此,在动态场景中性能下降与缺乏鲁棒性已经成为其实际应用中的主要障碍。
论文《动态场景下基于语义和光流约束的视觉同步定位与地图构建》中使用语义与光流信息对场景中的动态物体特征点进行剔除,以减少动态物体对SLAM的干扰,从而提升SLAM的精确性与鲁棒性。但光流法基于光照不变性假设,无法应用于光照变化的场景。论文《基于动态目标检测的室内移动机器人建图技术研究》中使用极线约束对动态特征点进行筛选,再利用动态场景中的语义信息和运动特征点过滤动态部分,从而提高姿态估计的准确性。但极线约束基于静态区域在场景中占据绝对多数的假设,这在大多数动态场景尤其是出现运动模糊的场景中并不成立。本发明虽同样使用了深度学习方法获取语义信息,但主要是改进了运动检测算法,使用傅里叶梅林变换配准图像进行运动检测,使其在光照剧烈变化与运动模糊的环境下仍然具有鲁棒性。
针对现有技术存在的在光照剧烈变化与运动模糊的环境下不鲁棒问题,本发明提出了一种基于频域和语义的动态视觉SLAM方法,能够有效的提高SLAM在光照剧烈变化与运动模糊的环境下的精度与鲁棒性。
(三)发明内容
本发明利用傅里叶梅林变换在图像配准方面的独特优势结合帧间差分(TemporalDifference,TD)算法,实现了一个高鲁棒的运动检测算法,结合可视化ORB-SLAM2和STDC语义分割网络,提出了一种在动态场景下基于傅里叶梅林变换的视觉SLAM算法。首先,为精确获得物体的运动区域,采用傅里叶梅林算法进行配准以补偿相机运动,随后应用帧间差分算法得到运动掩膜。同时,图像经过STDC语义分割网络得到潜在运动物体掩膜。将运动掩膜与物体掩膜相结合,得到最终的物体运动区域,对落在该区域的特征点进行剔除。最后,通过稳定的静态特征点进行跟踪优化提升位姿的精度。
为实现上述目的,本发明采用如下技术方案:
S1、获取输入图像序列,包括RGB图像与对应的深度图像;
S2、对输入帧的RGB图像进行ORB特征点的提取,具体包括以下子步骤:
S21、将输入的RGB图像转换为灰度图;
S22、初始化图像金字塔参数,其中包括提取特征点数目、金字塔缩放系数、金字塔层数、每一层预分配的特征点数与初始的FAST特征点的提取参数等;
S23、构建图像金字塔,在构建的过程中对每一层金字塔图像进行缩放,并对四周进行填充;
S24、遍历所有金字塔层的图像,对每一张图像进行网格化,在网格内调用opencv函数提取FAST角点;
S25、根据每一层预分配的特征点数使用八叉树法对特征点进行剔除,再使用灰度质心法计算每个特征点的方向;
S26、等待运动检测完成以获取运动物体区域;
S3、将输入的当前帧作为待配准图像,上一帧图像为配准图像,对配准图像与待配准图像利用傅里叶梅林变换在频域进行配准,具体包括以下子步骤:
S31、将输入配准图像与待配准图像的RGB图像转换为灰度图;
S32、对进行配准的灰度图进行离散傅里叶变换,再对经过离散傅里叶变换的频域图进行高通滤波;
S33、对高通滤波后的频域图进行对数极坐标变换并将对数极坐标变换后的图像输入相位相关步骤得到响应坐标(x,y);
S34、对相位相关步骤得到的响应坐标(x,y)进行坐标变换得到旋转角度θ与尺度因子S,根据该旋转角度θ与尺度因子s对待配准图像进行旋转与缩放;
S35、将经过旋转与缩放后的待配准图像与配准图像再次输入相位相关步骤,得到响应坐标(x,y),根据响应坐标(x,y)对待配准图像进行平移,得到最终的配准图像;
S4、对配准图像通过帧间差分法与前一帧图像进行运动检测,并通过阈值化、边缘检测与轮廓聚类等操作剔除噪音,具体包括以下子步骤:
S41、将配准图像与前一帧图像共同输入帧间差分模块得到差分图,帧间差分公式如下所示:
Di(x,y)=|fi(x,y)-fi+1(x,y)|
其中,Di(x,y)为第i帧差分图像,fi(x,y)为第i帧灰度图像,fi+1(x,y)为配准后的第i+1帧灰度图像;
S42、对差分图进行阈值化处理,阈值化公式如下所示:
其中,Ri(x,y)为第i帧阈值图,T=40为二值化阈值。即将差分图中像素值大于40的点的像素值设为255,像素值小于40的点的像素值设为0,得到阈值图;
S43、对阈值图应用Canny边缘检测算子进行边缘检测得到边缘掩膜;
S44、对边缘掩膜应用定向矩形框拟合得到轮廓,对每个矩形框计算纵横比,若纵横比小于0.1,将其归类为残像,对残像区域的像素点置0以实现剔除,得到最终的运动掩膜;
S5、将输入帧的RGB图像输入短时密集连接(STDC)网络进行语义分割,得到含有物体语义信息的物体掩膜;
S6、根据STDC网络获得的物体掩膜,结合运动掩膜对物体进行运动判定,具体包括以下子步骤:
S61、对物体掩膜与运动掩膜,通过如下公式计算物体的运动概率ρi
其中,Mi为物体掩膜中第i个对象的总像素个数,Mi为运动掩膜对应区域的总像素个数;
S62、设置一个阈值ε=0.1,若运动概率ρi大于阈值ε则将该物体视为运动物体,否则,视为静态物体,对静态物体区域的像素点置0得到先验的动态物体掩膜;
S63、将先验的动态物体掩膜与运动掩膜进行融合,得到最终动态物体掩膜;
S64、将动态物体掩膜输入到步骤S26,依据该动态物体掩膜对落在动态物体区域的特征点进行剔除。
本发明具有如下的有益效果:
(1)本发明通过改进的傅里叶梅林变换对图像进行配准以实现运动补偿,使用帧间差分获得运动掩膜,降低了运动模糊与光照变化对运动检测的影响;
(2)本发明结合运动检测与语义分割,提出了一种动态特征点过滤方法,可以有效地剔除动态对象对位姿估计与建图的干扰;
(3)本发明相较于传统动态SLAM在高动态的环境下可以取得更好的效果。在高动态序列中,本发明的绝对轨迹误差相比于ORB-SLAM2平均减少了95%以上,相比于DS-SLAM平均减少了30%以上,表明了本发明在动态环境下具有较高的准确性与鲁棒性。
(四)附图说明
图1为SLAM***的总体流程图;
图2为傅里叶梅林变换图像配准流程图;
图3为图像配准示例;
图4为图运动检测流程图;
图5为运动检测示例图;
图6为动态模糊下的掩码提取效果图;
图7为光照变化下的掩码提取效果图。
(五)具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及试验实例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。本发明***的总体流程图如图1所示。
S1、获取输入图像序列,包括RGB图像与对应的深度图像;
S2、对输入帧的RGB图像进行ORB特征点的提取,具体包括以下子步骤:
S21、将输入的RGB图像转换为灰度图;
S22、初始化图像金字塔参数,其中包括提取特征点数目、金字塔缩放系数、金字塔层数、每一层预分配的特征点数与初始的FAST特征点的提取参数等;
S23、构建图像金字塔,在构建的过程中对每一层金字塔图像进行缩放,并对四周进行填充;
S24、遍历所有金字塔层的图像,对每一张图像进行网格化,在网格内调用opencv函数提取FAST角点;
S25、根据每一层预分配的特征点数使用八叉树法对特征点进行剔除,再使用灰度质心法计算每个特征点的方向;
S26、等待运动检测完成以获取运动物体区域;
S3、将输入的当前帧作为待配准图像,上一帧图像为配准图像,对配准图像与待配准图像利用傅里叶梅林变换在频域进行配准,图像配准流程图如图2所示,具体包括以下子步骤:
S31、将输入配准图像与待配准图像的RGB图像转换为灰度图;
S32、对进行配准的灰度图进行离散傅里叶变换,再对经过离散傅里叶变换的频域图进行高通滤波;
S33、对高通滤波后的频域图进行对数极坐标变换并将对数极坐标变换后的图像输入相位相关步骤得到响应坐标(x,y);
S34、对相位相关步骤得到的响应坐标(x,y)进行坐标变换得到旋转角度θ与尺度因子s,根据该旋转角度θ与尺度因子s对待配准图像进行旋转与缩放;
S35、将经过旋转与缩放后的待配准图像与配准图像再次输入相位相关步骤,得到响应坐标(x,y),根据响应坐标(x,y)对待配准图像进行平移,得到最终的配准图像,图像配准示例图如图3所示;
S4、对配准图像通过帧间差分法与前一帧图像进行运动检测,并通过阈值化、边缘检测与轮廓聚类等操作剔除噪音,运动检测流程图如图4所示,具体包括以下子步骤:
S41、将配准图像与前一帧图像共同输入帧间差分模块得到差分图,帧间差分公式如下所示:
Di(x,y)=|fi(x,y)-fi+1(x,y)|
其中,Di(x,y)为第i帧差分图像,fi(x,y)为第i帧灰度图像,fi+1(x,y)为配准后的第i+1帧灰度图像;
S42、对差分图进行阈值化处理,阈值化公式如下所示:
其中,Ri(x,y)为第i帧阈值图,T=40为二值化阈值。即将差分图中像素值大于40的点的像素值设为255,像素值小于40的点的像素值设为0,得到阈值图;
S43、对阈值图应用Canny边缘检测算子进行边缘检测得到边缘掩膜;
S44、对边缘掩膜应用定向矩形框拟合得到轮廓,对每个矩形框计算纵横比,若纵横比小于0.1,将其归类为残像,对残像区域的像素点置0以实现剔除,得到最终的运动掩膜,运动检测示例图如图5所示;
S5、将输入帧的RGB图像输入短时密集连接(STDC)网络进行语义分割,得到含有物体语义信息的物体掩膜;
S6、根据STDC网络获得的物体掩膜,结合运动掩膜对物体进行运动判定,具体包括以下子步骤:
S61、对物体掩膜与运动掩膜,通过如下公式计算物体的运动概率ρi
其中,Mi为物体掩膜中第i个对象的总像素个数,Mi为运动掩膜对应区域的总像素个数;
S62、设置一个阈值ε=0.1,若运动概率ρi大于阈值ε则将该物体视为运动物体,否则,视为静态物体,对静态物体区域的像素点置0得到先验的动态物体掩膜;
S63、将先验的动态物体掩膜与运动掩膜进行融合,得到最终动态物体掩膜;
S64、将动态物体掩膜输入到步骤S26,依据该动态物体掩膜对落在动态物体区域的特征点进行剔除。
本发明使用绝对轨迹误差(Absolute Trajectory Error,ATE)和相对位姿误差(Relative Pose Error,RPE)来评估方法性能,采用均方根误差(Root Mean SquareError,RMSE)和标准差(Standard Deviation,SD)作为评价指标。在TUM数据集下的表现如表1和表2所示。
表1
表2
从表1与表2中可以看出,在高动态序列中,本发明的绝对轨迹误差的均方根误差与标准差都明显优于ORB-SLAM2与DS-SLAM,这表明本发明在高动态序列中具有更高的精度与更紧凑的误差分布。特别是在fr3/w/xyz和fr3/w/half两个序列上,本发明相对于这两个方法有明显的提高。在fr3/w/xyz序列中,本发明的均方根误差与标准差相对于ORB-SLAM2降低了约98.39%和97.79%,相对于DS-SLAM降低了约35.33%和42.94%。在fr3/w/half序列中,本发明的均方根误差于标准差相对于ORB-SLAM2降低了约97.71%和97.13%,相对于DS-SLAM降低了约39.91%和53.37%。这表明在动态场景下,本发明相对于ORB-SLAM2与DS-SLAM方法具有更好的鲁棒性。
但在低动态序列中,本发明的绝对轨迹误差的均方根误差与标准差相对于ORB-SLAM2降低仅为17.86%和15.82%,相对于DS-SLAM提高了7.80%与3.98%,这是因为在低动态序列中,运动对象并不是时刻运动,这导致了运动对象静止时其的特征点被用于定位,而在运动时,其的特征点被剔除,这在后续的全局优化中对***的精度造成了影响。此外,尽管本发明使用高通滤波与构造边缘掩膜等方法来消除配准误差带来的环境噪声影响,但在部分情况下,尤其是在相机剧烈运动的情况下,环境噪声仍难以彻底消除,这也是本发明相对于DS-SLAM算法在低动态序列中精度略差的原因之一。
与ORB-SLAM2和经典的DS-SLAM相比,本发明可以显著提高动态场景的定位精度。具体来说,对于低动态场景,本发明的精度比ORB-SLAM2提高了约15%。而对于高动态场景,改进效果则更加明显,本发明可以比ORB-SLAM2稳定提高95%以上的精度,相较于DS-SLAM提高了30%以上的精度。研究结果表明,本发明能够精确消除动态目标的干扰,从而减少了优化过程中的位姿误差。由于本发明优化了动态掩码的提取策略,因此相较于DS-SLAM使用RANSAC方法计算离群点从而得到动态特征点,本发明并不需要静态区域占据主要区域或感兴趣区域的假设。如图6与图7所示,本发明可以实现在动态模糊区域占图像大部分区域或场景发生剧烈光照变化的情况下准确地提取动态区域。
以上所述具体实施方案,对本发明的发明目的、技术方案和有益效果进行了进一步说明,以上实施例仅用于说明本发明的技术方案,而非对本发明创造保护范围的限制,本领域的普通技术人员应当理解,凡在本发明的技术方案进行修改、等同替换,均包含在本发明的保护范围内。

Claims (1)

1.一种基于频域和语义的动态视觉SLAM方法,其特征在于,包括以下步骤:
S1、获取输入图像序列,包括RGB图像与对应的深度图像;
S2、对输入帧的RGB图像进行ORB特征点的提取,具体包括以下子步骤:
S21、将输入的RGB图像转换为灰度图;
S22、初始化图像金字塔参数,其中包括提取特征点数目、金字塔缩放系数、金字塔层数、每一层预分配的特征点数与初始的FAST特征点的提取参数等;
S23、构建图像金字塔,在构建的过程中对每一层金字塔图像进行缩放,并对四周进行填充;
S24、遍历所有金字塔层的图像,对每一张图像进行网格化,在网格内调用opencv函数提取FAST角点;
S25、根据每一层预分配的特征点数使用八叉树法对特征点进行剔除,再使用灰度质心法计算每个特征点的方向;
S26、等待运动检测完成以获取运动物体区域;
S3、将输入的当前帧作为待配准图像,上一帧图像为配准图像,对配准图像与待配准图像利用傅里叶梅林变换在频域进行配准,具体包括以下子步骤:
S31、将输入配准图像与待配准图像的RGB图像转换为灰度图;
S32、对进行配准的灰度图进行离散傅里叶变换,再对经过离散傅里叶变换的频域图进行高通滤波;
S33、对高通滤波后的频域图进行对数极坐标变换并将对数极坐标变换后的图像输入相位相关步骤得到响应坐标(x,y);
S34、对相位相关步骤得到的响应坐标(x,y)进行坐标变换得到旋转角度θ与尺度因子s,根据该旋转角度θ与尺度因子s对待配准图像进行旋转与缩放;
S35、将经过旋转与缩放后的待配准图像与配准图像再次输入相位相关步骤,得到响应坐标(x,y),根据响应坐标(x,y)对待配准图像进行平移,得到最终的配准图像;
S4、对配准图像通过帧间差分法与前一帧图像进行运动检测,并通过阈值化、边缘检测与轮廓聚类等操作剔除噪音,具体包括以下子步骤:
S41、将配准图像与前一帧图像共同输入帧间差分模块得到差分图,帧间差分公式如下所示:
Di(x,y)=|fi(x,y)-fi+1(x,y)|
其中,Di(x,y)为第i帧差分图像,fi(x,y)为第i帧灰度图像,fi+1(x,y)为配准后的第i+1帧灰度图像;
S42、对差分图进行阈值化处理,阈值化公式如下所示:
其中,Ri(x,y)为第i帧阈值图,T=40为二值化阈值,即将差分图中像素值大于40的点的像素值设为255,像素值小于40的点的像素值设为0,得到阈值图;
S43、对阈值图应用Canny边缘检测算子进行边缘检测得到边缘掩膜;
S44、对边缘掩膜应用定向矩形框拟合得到轮廓,对每个矩形框计算纵横比,若纵横比小于0.1,将其归类为残像,对残像区域的像素点置0以实现剔除,得到最终的运动掩膜;
S5、将输入帧的RGB图像输入短时密集连接(STDC)网络进行语义分割,得到含有物体语义信息的物体掩膜;
S6、根据STDC网络获得的物体掩膜,结合运动掩膜对物体进行运动判定,具体包括以下子步骤:
S61、对物体掩膜与运动掩膜,通过如下公式计算物体的运动概率ρi
其中,Mi为物体掩膜中第i个对象的总像素个数,Mi为运动掩膜对应区域的总像素个数;
S62、设置一个阈值ε=0.1,若运动概率ρi大于阈值ε则将该物体视为运动物体,否则,视为静态物体,对静态物体区域的像素点置0得到先验的动态物体掩膜;
S63、将先验的动态物体掩膜与运动掩膜进行融合,得到最终动态物体掩膜;
S64、将动态物体掩膜输入到步骤S26,依据该动态物体掩膜对落在动态物体区域的特征点进行剔除。
CN202310505675.0A 2023-05-08 2023-05-08 一种基于频域和语义的动态视觉slam方法 Active CN116524026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310505675.0A CN116524026B (zh) 2023-05-08 2023-05-08 一种基于频域和语义的动态视觉slam方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310505675.0A CN116524026B (zh) 2023-05-08 2023-05-08 一种基于频域和语义的动态视觉slam方法

Publications (2)

Publication Number Publication Date
CN116524026A true CN116524026A (zh) 2023-08-01
CN116524026B CN116524026B (zh) 2023-10-27

Family

ID=87402762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310505675.0A Active CN116524026B (zh) 2023-05-08 2023-05-08 一种基于频域和语义的动态视觉slam方法

Country Status (1)

Country Link
CN (1) CN116524026B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036408A (zh) * 2023-08-22 2023-11-10 哈尔滨理工大学 一种动态环境下联合多目标跟踪的物体slam方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102970528A (zh) * 2012-12-28 2013-03-13 北京航空航天大学 基于变化检测和帧差累积的视频对象分割方法
CN106127801A (zh) * 2016-06-16 2016-11-16 乐视控股(北京)有限公司 一种运动区域检测的方法和装置
CN110334762A (zh) * 2019-07-04 2019-10-15 华南师范大学 一种基于四叉树结合orb和sift的特征匹配方法
CN110942484A (zh) * 2019-11-26 2020-03-31 福州大学 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN112465858A (zh) * 2020-12-10 2021-03-09 武汉工程大学 基于概率网格滤波的语义视觉slam方法
JP2021082265A (ja) * 2019-11-15 2021-05-27 広東工業大学Guangdong University Of Technology 深度点線特徴に基づくドローン視覚走行距離計方法
CN114140527A (zh) * 2021-11-19 2022-03-04 苏州科技大学 一种基于语义分割的动态环境双目视觉slam方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102970528A (zh) * 2012-12-28 2013-03-13 北京航空航天大学 基于变化检测和帧差累积的视频对象分割方法
CN106127801A (zh) * 2016-06-16 2016-11-16 乐视控股(北京)有限公司 一种运动区域检测的方法和装置
CN110334762A (zh) * 2019-07-04 2019-10-15 华南师范大学 一种基于四叉树结合orb和sift的特征匹配方法
JP2021082265A (ja) * 2019-11-15 2021-05-27 広東工業大学Guangdong University Of Technology 深度点線特徴に基づくドローン視覚走行距離計方法
CN110942484A (zh) * 2019-11-26 2020-03-31 福州大学 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN112465858A (zh) * 2020-12-10 2021-03-09 武汉工程大学 基于概率网格滤波的语义视觉slam方法
CN114140527A (zh) * 2021-11-19 2022-03-04 苏州科技大学 一种基于语义分割的动态环境双目视觉slam方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036408A (zh) * 2023-08-22 2023-11-10 哈尔滨理工大学 一种动态环境下联合多目标跟踪的物体slam方法
CN117036408B (zh) * 2023-08-22 2024-03-29 哈尔滨理工大学 一种动态环境下联合多目标跟踪的物体slam方法

Also Published As

Publication number Publication date
CN116524026B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN106780576B (zh) 一种面向rgbd数据流的相机位姿估计方法
JP6095018B2 (ja) 移動オブジェクトの検出及び追跡
CN114782691A (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
CN109767454B (zh) 基于时-空-频显著性的无人机航拍视频运动目标检测方法
CN104036524A (zh) 一种改进sift算法的快速目标跟踪方法
CN116524026B (zh) 一种基于频域和语义的动态视觉slam方法
CN112364865B (zh) 一种复杂场景中运动小目标的检测方法
CN115619826A (zh) 一种基于重投影误差和深度估计的动态slam方法
CN111914832B (zh) 一种rgb-d相机在动态场景下的slam方法
Yang et al. Robust RGB-D SLAM in dynamic environment using faster R-CNN
CN103428408A (zh) 一种适用于帧间的图像稳像方法
CN111950599B (zh) 一种动态环境下融合边缘信息的稠密视觉里程计方法
Min et al. Coeb-slam: A robust vslam in dynamic environments combined object detection, epipolar geometry constraint, and blur filtering
CN116894876A (zh) 基于实时图像的6-dof的定位方法
CN113592947B (zh) 一种半直接法的视觉里程计实现方法
CN116067374A (zh) 基于目标检测算法YOLOv4及几何约束的动态场景SLAM定位方法
CN113837243A (zh) 基于边缘信息的rgb-d相机动态视觉里程计方法
Wang et al. Semi-direct Sparse Odometry with Robust and Accurate Pose Estimation for Dynamic Scenes
Zhu et al. Toward the ghosting phenomenon in a stereo-based map with a collaborative RGB-D repair
Wei et al. Matching filter-based vslam optimization in indoor environments
Adachi et al. Improvement of Visual Odometry Using Classic Features by Semantic Information
Wang et al. An improved particle filter tracking algorithm based on motion and appearance features
Pan et al. A Novel RGB-D SLAM for Recognizing Features on Static Objects
Zong et al. An improved method of real-time camera pose estimation based on descriptor tracking
CN117557907A (zh) 基于Scharr提取边缘和轮廓的视觉里程计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240510

Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Patentee after: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region after: China

Address before: 150080 No. 52, Xuefu Road, Nangang District, Heilongjiang, Harbin

Patentee before: HARBIN University OF SCIENCE AND TECHNOLOGY

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240603

Address after: Room 301, Unit 3, 101 Century Road (New Area Hotel Complex Building), Hebei Street, Jiaohe City, Jilin Province, 132500

Patentee after: Jilin Yuntou Laisengou Digital Technology Co.,Ltd.

Country or region after: China

Address before: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Patentee before: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region before: China