CN110084850A - 一种基于图像语义分割的动态场景视觉定位方法 - Google Patents

一种基于图像语义分割的动态场景视觉定位方法 Download PDF

Info

Publication number
CN110084850A
CN110084850A CN201910270280.0A CN201910270280A CN110084850A CN 110084850 A CN110084850 A CN 110084850A CN 201910270280 A CN201910270280 A CN 201910270280A CN 110084850 A CN110084850 A CN 110084850A
Authority
CN
China
Prior art keywords
size
image
characteristic pattern
point
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910270280.0A
Other languages
English (en)
Other versions
CN110084850B (zh
Inventor
潘树国
盛超
曾攀
黄砺枭
赵涛
王帅
高旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910270280.0A priority Critical patent/CN110084850B/zh
Publication of CN110084850A publication Critical patent/CN110084850A/zh
Application granted granted Critical
Publication of CN110084850B publication Critical patent/CN110084850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像语义分割的动态场景视觉定位方法,属于SLAM(Simultaneous Localization and Mapping,同步定位与建图)领域。本发明首先采用深度学习中的有监督学习方式对原始图像中的动态物体进行分割,得到语义图像;在此基础上,从原始图像中提取ORB特征点并根据语义图像对动态物体特征点进行剔除;最后,基于剔除后的特征点采用基于点特征的单目SLAM方法对相机运动进行定位跟踪。定位结果表明,相比于传统方法,本发明公开的方法在动态场景中的定位精度提高13%到30%。

Description

一种基于图像语义分割的动态场景视觉定位方法
技术领域
本发明涉及深度学习在视觉SLAM中的应用,属于SLAM(SimultaneousLocalization and Mapping,同步定位与建图)领域。
背景技术
同时定位与建图(SLAM)是机器人在未知环境下自主运行的关键技术。基于机器人外部传感器检测到的环境数据,SLAM构造了机器人的周围环境图,同时给出了机器人在环境图中的位置。与雷达、声纳等测距仪器相比,视觉传感器具有体积小、功耗低、信息采集丰富等特点,能够在外部环境中提供丰富的纹理信息。因此,视觉SLAM已经成为当前研究的热点,并应用于自主导航、VR/AR等领域。
传统的基于点特征的视觉SLAM算法在恢复场景信息和相机运动时是基于静态环境假设的。场景中的动态物体会影响定位精度。目前,传统的基于点特征的视觉SLAM算法通过检测动态点并将其标记为外点来处理简单的动态场景问题。ORB-SLAM通过RANSAC、卡方检验、关键帧法和局部地图减少了动态物体对定位精度的影响。直接法通过优化代价函数来处理动态物体引起的遮挡问题。2013年,有学者提出了一种新的关键帧表达和更新方法,用于对动态环境进行自适应建模,有效地检测和处理动态环境中的外观或结构变化。同年,有学者引入了多摄像机间姿态估计和建图的方法用于处理动态场景。然而传统SLAM方法在动态场景下的定位精度和鲁棒性有待提升。
发明内容
本发明所要解决的技术问题是:
为了提升传统SLAM方法在动态场景下的定位精度和鲁棒性,提供一种基于图像语义分割的动态场景视觉定位方法,能够对场景中的动态物体进行分割,剔除动态物体特征点。
本发明为解决上述技术问题采用以下技术方案:
本发明提出一种基于图像语义分割的动态场景视觉定位方法,包括以下步骤:
步骤1、采集原始图像,构建卷积神经网络,并利用所述卷积神经网络分割所述原始图像中的动态物体,获得语义图像;
步骤2、在所述原始图像中提取ORB特征点;
步骤3、根据步骤1所得语义图像对步骤2所得ORB特征点中的动态物体特征点进行剔除,仅保留静态物体特征点;
步骤4、基于步骤3所得的静态物体特征点,采用传统的基于点特征的SLAM方法对相机运动进行定位跟踪。
如前所述的一种基于图像语义分割的动态场景视觉定位方法,进一步地:步骤1中,所述构建卷积神经网络的步骤包括:
步骤1.1.1、将原始图像降采样到1/4,输入PSPNet,逐级得到大小为1/8和1/16的特征图,最后输出1/32大小的特征图F1;
步骤1.1.2、将原始图像降采样到1/2,输入所述PSPNet,逐级得到大小为1/4和1/8的特征图,最后输出1/16大小的特征图F2;
步骤1.1.3、将特征图F1、F2以及尺寸为原始图像1/16的真值标签输入第一CFF单元融合,输出大小为1/16的特征图F1和第一分支的损失项L1
步骤1.1.4、将原始图像输入所述PSPNet,逐级得到大小为1/2和1/4的特征图,最后输出1/8大小的特征图F3;将特征图F1和特征图F3以及尺寸为原始图像1/8的真值标签输入第二CFF单元融合,输出大小为1/8的特征图F2和第二分支的损失项L2
步骤1.1.5、所述特征图F2经过上采样,得到大小为1/4的特征图F3,所述特征图F3经1/4大小的真值标签处理后输出第三分支的损失项L3
步骤1.1.6、将所述损失项L1、L2、L3叠加用于训练所述卷积神经网络。
如前所述的一种基于图像语义分割的动态场景视觉定位方法,进一步地:步骤1.1.3以及步骤1.1.4所述CFF单元包含的图像处理步骤包括:
将两个输入特征图中尺寸较小的特征图以采样率为2进行上采样,分别输入分类卷积层和膨胀卷积层,所述分类卷积层的卷积核尺寸为1*1*1,所述膨胀卷积层的卷积核尺寸为3*3*C3,膨胀率为2;将两个输入特征图中尺寸较大的特征图输入卷积核尺寸为1*1*C3的投影卷积层;对于所述膨胀卷积层和投影卷积层的输出结果分别批归一化然后求和,再将所述求和结果输入RELU函数,输出特征图Fc,将所述分类卷积层的输出结果和真值标签代入Softmax函数,得到所述CFF单元对应分支的损失项。
如前所述的一种基于图像语义分割的动态场景视觉定位方法,进一步地:步骤1.6所述将所述损失项L1、L2、L3叠加用于训练所述卷积神经网络的具体步骤包括:
对损失项L1、L2、L3求和,得到最终的损失项Ltotal
其中i为分支数,ωi为每个分支损失项的权重,为每个分支中用于计算损失函数的特征图,Yi×Xi的尺寸,N为预先设定的图像中待分割的物体种类数,为在特征图的(n,y,x)位置的数值,在(y,x)处对应的真值标签。
如前所述的一种基于图像语义分割的动态场景视觉定位方法,进一步地:步骤1所述利用所述卷积神经网络分割所述原始图像中的动态物体,获得语义图像包括以下步骤:
步骤1.2.1、将原始图像降采样到1/4,输入PSPNet,逐级得到大小为1/8和1/16的特征图,最后输出1/32大小的特征图F1;
步骤1.2.2、将原始图像降采样到1/2,输入所述PSPNet,逐级得到大小为1/4和1/8的特征图,最后输出1/16大小的特征图F2;
步骤1.2.3、将特征图F1、F2以及尺寸为原始图像1/16的真值标签输入第一CFF单元融合,输出大小为1/16的特征图F1
步骤1.2.4、将原始图像输入所述PSPNet,逐级得到大小为1/2和1/4的特征图,最后输出1/8大小的特征图F3;将特征图F1和特征图F3输入第二CFF单元融合,输出大小为1/8的特征图F2
步骤1.2.5、所述特征图F2经过上采样,得到大小为1/4的特征图F3,当测试过程时,将F3进行上采样,输出尺寸大小为1的特征图,该特征图即为语义分割图;
步骤1.2.6、对所述语义分割图进行二值化处理:对所述语义分割图中的动态物体利用黑色像素0进行标记,其他物体利用白色像素1进行标记,得到一张仅包含动态物体的黑白语义图像i′t
步骤1.2.7、对由原始图像组成的图像序列进行所述步骤1.1至1.7的操作,最终得到仅包含动态物体的语义图像序列I′={i′t,i′2,i′3,i′4,...,i′t}。
如前所述的一种基于图像语义分割的动态场景视觉定位方法,进一步地:所述步骤2中,在原始图像中提取ORB特征点具体步骤包括:
根据场景的复杂程度,设定待提取的特征数量,利用ORB特征提取器提取输入图像it中的特征点it(x,y),其中x,y为特征点的横纵坐标。
如前所述的一种基于图像语义分割的动态场景视觉定位方法,进一步地:所述步骤3中,根据步骤1所得语义图像对步骤2所得ORB特征点中的动态物体特征点进行剔除,仅保留静态物体特征点的步骤包括:
对于原始图像it中的每一个特征点it(x,y),在其语义图像i′t中确定对应位置i′t(x,y);
若i′t(x,y)=0,该点为黑色像素点,即属于动态物体特征,执行剔除操作;
若i′t(x,y)=1,该点为白色像素点,即属于静态物体特征,执行保留操作。
如前所述的一种基于图像语义分割的动态场景视觉定位方法,进一步地:所述步骤4中,基于步骤3所得的静态物体特征点,采用传统的基于点特征的SLAM方法对相机运动进行定位跟踪,具体为:
对于图像序列I={i1,i2,i3,i4,…,it},基于步骤3剔除后的ORB特征点,采用传统基于点特征的SLAM框架计算并优化相机位姿,完成相机的定位与跟踪。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明首先采用深度学习中的有监督学习方式对原始图像中的动态物体进行分割,得到语义图像;在此基础上,从原始图像中提取ORB特征点并根据语义图像对动态物体特征点进行剔除,从而提升了传统SLAM方法在动态场景下的定位精度和鲁棒性;
2、本发明提出的方法定位结果优于传统的ORB-SLAM的定位结果,定位精度提高13%到30%。
附图说明
图1是本方法流程图;
图2是本方法图像语义分割网络结构图;
图3是本方法级联特征融合单元结构图;
图4是本方法动态物体分割流程图;
图5是本方法图像语义分割结果图;
图6是本方法动态物体特征点剔除结果图;
图7是本方法与完整的ORB-SLAM在四个序列中的定位轨迹平面图;
图8是本方法与不完整的ORB-SLAM在四个序列中的定位轨迹平面图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
随着深度学习技术的发展,人们对图像的语义信息进行了探索,借此提高视觉SLAM的性能。语义分割是计算机视觉中的基本任务,在语义分割中需要将视觉输入分为不同的语义可解释类别。本发明提出一种基于图像语义分割的动态场景视觉定位方法,旨在剔除动态物体特征点的基础上,提高动态场景下SLAM的定位精度,同时可以获得场景丰富的语义信息。
本发明提出一种基于图像语义分割的动态场景视觉定位方法,图1是本方法流程图,图4是本方法动态物体分割流程图。首先采用深度学习中的有监督学习方式对原始图像中的动态物体进行分割,得到语义图像;在此基础上,从原始图像中提取ORB特征点并根据语义图像对动态物体特征点进行剔除;最后,基于剔除后的特征点采用基于点特征的单目SLAM方法对相机运动进行定位跟踪。
步骤1,构建卷积神经网络对原始图像中的动态物体进行分割,获得语义图像:
步骤1.1、构建用于语义分割的卷积神经网络
所构建的神经网络结构如图2所示。在图2描述的网络结构中,包括顶部、中部、底部三层分支;括号里的数字为相较于原始输入图像的尺寸比值;’CFF’为级联特征融合单元;顶层和中层分支的前三层网络共享相同的参数。
现对网络结构作进一步详细说明:
级联图像输入:在图2所描述网络的顶部分支,首先将原始图像降采样到1/4大小的图像,然后输入PSPNet,输出1/32大小的特征图,这是一种粗糙的分割结果,缺失许多细节和边界。在中部和底部分支,采用1/2大小的图像和原始图像对上述粗糙结果进行细节恢复和细化。虽然顶部分支的分割结果较为粗略,但包含了丰富的语义部分。因此,用于细节恢复和细化的中部和底部分支网络是轻量级的。利用级联特征融合单元(CFF)融合不同分支的输出特征图,采用级联标签引导增强不同分支的学习过程。
级联特征融合:图3展示了级联特征融合单元的具体结构,其中F1和F2为不同分支输出的特征图,F2的空间尺寸大小是F1的两倍。级联特征融合单元用于融合不同分支输出的特征图,此单元的输入包括两张特征图F1、F2和一个真值标签,F1的尺寸为Y1×X1×C1,,F2的尺寸为Y2×X2×C2,标签的尺寸为Y1×X1×1。对于特征图F1,首先以采样率为2进行上采样,输出和F2相同尺寸的特征图。然后一个核尺寸为3×3×C3、扩张率为2的扩张卷积层用于对上述输出特征图进行细化,因此F1的尺寸变为Y2×X2×C3。对于特征图F2,通过一个核尺寸为1×1×C3的卷积层,输出Y2×X2×C3尺寸的特征图。对F1和F2的输出同时进行批标准化,并通过求和层和’RELU’函数层,最终输出融合的特征图F2’。
级联标签引导;在图2描述的网络结构中,三个尺寸不同的(相对原始图像的尺寸大小分别为1/16,1/8,1/4)的真值标签用于在网络的顶部、中部和底部分支产生三个独立的损失项,并对三个损失项进行求和,得到最终的损失项:
其中ωt为每个分支损失项的权重,Ft为每个分支输出的特征图,Yt×Xt为Ft的尺寸,N为预先设定的图像中待分割的物体种类数,为在特征图Ft的(n,y,x)位置的数值,在(y,x)处对应的真值标签。
步骤1.2、分割原始输入图像中的动态物体:
图3展示了这一步骤的实现过程。对于给定的一组图像序列I={i1,i2,i3,i4,...,it},其中it为t时刻相机拍摄的图像:
(1)向步骤1.1所构建的语义分割网络输入一幅图像it,输出一幅分割后的彩色语义图像,在语义图像中,汽车、行人、建筑物、指示牌等物体均以不同颜色的像素进行标注;
(2)对(1)中的语义图像进行二值化处理,对图像中的动态物体(行人、汽车)利用黑色像素0进行标记,其他物体利用白色像素1进行标记,得到一张仅包含动态物体的黑白语义图像i′t
(3)对图像序列I中的每一张图像,重复步骤(1)和(2);
最终得到仅包含动态物体的语义图像序列I′={i′t,i′2,i′3,i′4,...,i′t}。
步骤2,在原始图像中提取ORB特征点,根据语义图像对动态物体特征点进行剔除,仅保留静态物体特征点:
步骤2.1、提取原始图像中的ORB特征点:
根据场景的复杂程度,设定待提取的特征数量,利用ORB特征提取器提取输入图像it中的特征点it(x,y),其中x,y为特征点的横纵坐标。
步骤3,根据语义图像对动态物体特征点进行剔除,仅保留静态物体特征点:
(1)对于it中的每一个特征点it(x,y),在语义图像i′t中确定对应位置i′t(x,y);
(2)若it(x,y)=0,该点为黑色像素点,即属于动态物体特征,执行剔除操作;
(3)若it(x,y)=1,该点为白色像素点,即属于静态物体特征,执行保留操作。
步骤4,基于步骤3剔除后的ORB特征点,采用传统的基于点特征的SLAM框架对相机进行定位跟踪:
对于图像序列I={i1,i2,i3,i4,...,it},基于步骤2剔除后的ORB特征点,采用传统基于点特征的SLAM框架计算并优化相机位姿,完成相机的定位与跟踪。
实施例一
本发明利用Frankfurt单目图像序列进行了评估,该序列是Cityscapes数据集的一部分。整个Frankfurt序列提供了超过10万帧的室外环境图像,并提供了可作为真值的的定位结果。将该序列划分为几个较小的序列,其中包含1300-2500帧的动态对象序列,如驾驶汽车或行人。实验平台的配置为:英特尔XeonE5-2690V4;128GB的RAM;英伟达TitanVGPU。
从原始Frankfurt序列中分离出来的序列如下:
Seq.01:frankfurt_000001_054140_leftImg8bit.png-frankfurt_000001_056555_leftImg8bit.png
Seq.02:frankfurt_000001_012745_leftImg8bit.png-frankfurt_000001_014100_leftImg8bit.png
Seq.03:frankfurt_000001_003311_leftImg8bit.png-frankfurt_000001_005555_leftImg8bit.png
Seq.04:frankfurt_000001_010580_leftImg8bit.png-frankfurt_000001_012739_leftImg8bit.png
图5展示了语义分割的结果。中间栏显示场景中的树木、建筑、道路、交通标志和其他物体被很好地分割。右侧只保留动态对象(汽车和行人)的分割结果。虽然边界不完全精确,但结果足以用于剔除特征点。
图6展示了动态物体特征点剔除的结果。白色汽车是行驶在在道路上的动态物体。左列的两幅图像为剔除前的结果,其中有许多属于动态汽车的特征点。右列为剔除结果,汽车的特征点已经被完全剔除。
图7展示了基于完整的ORB-SLAM的本方法和完整的ORB-SLAM在Seq.01、Seq.02、Seq.03、Seq.04四段视频序列中的定位轨迹平面图。由四幅图可知,本发明提出的方法得出的定位轨迹(Ours)相比于完整的ORB-SLAM计算出的轨迹(ORB-SLAM Full)与真实轨迹(Ground Truth)之间的偏差更小。由于Seq.01序列中动态车辆和行人较多,两种方法结果皆与真值之间偏差较大,但本方法在定位精度上仍优于完整的ORB-SLAM。由于***基于关键帧进行位置跟踪,定位轨迹会出现部分不连续。
完整的ORB-SLAM使用了卡方检验,在一定程度上减弱了动态特征点对定位精度的影响,图8展示了基于去除卡方检验的不完整ORB-SLAM的本方法和不完整ORB-SLAM在Seq.01、Seq.02、Seq.03、Seq.04四段视频序列中的定位轨迹平面图。由四幅图可知,本发明提出的方法得出的定位轨迹(Ours)相比于不完整的ORB-SLAM计算出的轨迹(ORB-SLAMImcomplete)与真实轨迹(Ground Truth)之间的偏差更小。由于场景中行人较多,场景中存在大量的动态特征点,不完整的ORB-SLAM在Seq.02中定位完全失败,证明本发明提出的方法鲁棒性更好。由于***基于关键帧进行位置跟踪,定位轨迹会出现部分不连续。
最后给出四段图像序列在完整的ORB-SLAM、不完整的ORB-SLAM及本方法中的定位结果。由表1和表2可知本发明提出的方法定位结果优于传统的ORB-SLAM的定位结果,定位精度提高13%到30%。
表1:两种方法在Seq01-Seq04图像序列上定位结果对比
表2:两种方法在Seq01-Seq04图像序列上定位结果对比
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于图像语义分割的动态场景视觉定位方法,其特征在于,包括以下步骤:
步骤1、采集原始图像,构建卷积神经网络,并利用所述卷积神经网络分割所述原始图像中的动态物体,获得语义图像;
步骤2、在所述原始图像中提取ORB特征点;
步骤3、根据步骤1所得语义图像对步骤2所得ORB特征点中的动态物体特征点进行剔除,仅保留静态物体特征点;
步骤4、基于步骤3所得的静态物体特征点,采用传统的基于点特征的SLAM方法对相机运动进行定位跟踪。
2.根据权利要求1所述一种基于图像语义分割的动态场景视觉定位方法,其特征在于:步骤1中,所述构建卷积神经网络的步骤包括:
步骤1.1.1、将原始图像降采样到1/4,输入PSPNet,逐级得到大小为1/8和1/16的特征图,最后输出1/32大小的特征图F1;
步骤1.1.2、将原始图像降采样到1/2,输入所述PSPNet,逐级得到大小为1/4和1/8的特征图,最后输出1/16大小的特征图F2;
步骤1.1.3、将特征图F1、F2以及尺寸为原始图像1/16的真值标签输入第一CFF单元融合,输出大小为1/16的特征图F1和第一分支的损失项L1
步骤1.1.4、将原始图像输入所述PSPNet,逐级得到大小为1/2和1/4的特征图,最后输出1/8大小的特征图F3;将特征图F1和特征图F3以及尺寸为原始图像1/8的真值标签输入第二CFF单元融合,输出大小为1/8的特征图F2和第二分支的损失项L2
步骤1.1.5、所述特征图F2经过上采样,得到大小为1/4的特征图F3,所述特征图F3经1/4大小的真值标签处理后输出第三分支的损失项L3
步骤1.1.6、将所述损失项L1、L2、L3叠加用于训练所述卷积神经网络。
3.根据权利要求2所述一种基于图像语义分割的动态场景视觉定位方法,其特征在于:步骤1.1.3以及步骤1.1.4所述CFF单元包含的图像处理步骤包括:
将两个输入特征图中尺寸较小的特征图以采样率为2进行上采样,分别输入分类卷积层和膨胀卷积层,所述分类卷积层的卷积核尺寸为1*1*1,所述膨胀卷积层的卷积核尺寸为3*3*C3,膨胀率为2;将两个输入特征图中尺寸较大的特征图输入卷积核尺寸为1*1*C3的投影卷积层;对于所述膨胀卷积层和投影卷积层的输出结果分别批归一化然后求和,再将所述求和结果输入RELU函数,输出特征图Fc,将所述分类卷积层的输出结果和真值标签代入Softmax函数,得到所述CFF单元对应分支的损失项。
4.根据权利要求2所述一种基于图像语义分割的动态场景视觉定位方法,其特征在于:步骤1.1.6所述将所述损失项L1、L2、L3叠加用于训练所述卷积神经网络的具体步骤包括:
对损失项L1、L2、L3求和,得到最终的损失项Ltotal
其中i为分支数,ωi为每个分支损失项的权重,为每个分支中用于计算损失函数的特征图,Yi×Xi的尺寸,N为预先设定的图像中待分割的物体种类数,为在特征图的(n,y,x)位置的数值,在(y,x)处对应的真值标签。
5.根据权利要求1所述一种基于图像语义分割的动态场景视觉定位方法,其特征在于:步骤1所述利用所述卷积神经网络分割所述原始图像中的动态物体,获得语义图像包括以下步骤:
步骤1.2.1、将原始图像降采样到1/4,输入PSPNet,逐级得到大小为1/8和1/16的特征图,最后输出1/32大小的特征图F1;
步骤1.2.2、将原始图像降采样到1/2,输入所述PSPNet,逐级得到大小为1/4和1/8的特征图,最后输出1/16大小的特征图F2;
步骤1.2.3、将特征图F1、F2以及尺寸为原始图像1/16的真值标签输入第一CFF单元融合,输出大小为1/16的特征图F1
步骤1.2.4、将原始图像输入所述PSPNet,逐级得到大小为1/2和1/4的特征图,最后输出1/8大小的特征图F3;将特征图F1和特征图F3输入第二CFF单元融合,输出大小为1/8的特征图F2
步骤1.2.5、所述特征图F2经过上采样,得到大小为1/4的特征图F3,当测试过程时,将F3进行上采样,输出尺寸大小为1的特征图,该特征图即为语义分割图;
步骤1.2.6、对所述语义分割图进行二值化处理:对所述语义分割图中的动态物体利用黑色像素0进行标记,其他物体利用白色像素1进行标记,得到一张仅包含动态物体的黑白语义图像i′t
步骤1.2.7、对由原始图像组成的图像序列进行所述步骤1.2.1至1.2.7的操作,最终得到仅包含动态物体的语义图像序列I′={i′t,i′2,i′3,i′4,...,i′t}。
6.根据权利要求1所述一种基于图像语义分割的动态场景视觉定位方法,其特征在于:所述步骤2中,在原始图像中提取ORB特征点具体步骤包括:
根据场景的复杂程度,设定待提取的特征数量,利用ORB特征提取器提取输入图像it中的特征点it(x,y),其中x,y为特征点的横纵坐标。
7.根据权利要求1所述一种基于图像语义分割的动态场景视觉定位方法,其特征在于:所述步骤3中,根据步骤1所得语义图像对步骤2所得ORB特征点中的动态物体特征点进行剔除,仅保留静态物体特征点的步骤包括:
对于原始图像it中的每一个特征点it(x,y),在其语义图像i′t中确定对应位置i′t(x,y);
若i′t(x,y)=0,该点为黑色像素点,即属于动态物体特征,执行剔除操作;
若i′t(x,y)=1,该点为白色像素点,即属于静态物体特征,执行保留操作。
8.根据权利要求1所述一种基于图像语义分割的动态场景视觉定位方法,其特征在于:所述步骤4中,基于步骤3所得的静态物体特征点,采用传统的基于点特征的SLAM方法对相机运动进行定位跟踪,具体为:
对于图像序列I={i1,i2,i3,i4,...,it},基于步骤3剔除后的ORB特征点,采用传统基于点特征的SLAM框架计算并优化相机位姿,完成相机的定位与跟踪。
CN201910270280.0A 2019-04-04 2019-04-04 一种基于图像语义分割的动态场景视觉定位方法 Active CN110084850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910270280.0A CN110084850B (zh) 2019-04-04 2019-04-04 一种基于图像语义分割的动态场景视觉定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910270280.0A CN110084850B (zh) 2019-04-04 2019-04-04 一种基于图像语义分割的动态场景视觉定位方法

Publications (2)

Publication Number Publication Date
CN110084850A true CN110084850A (zh) 2019-08-02
CN110084850B CN110084850B (zh) 2023-05-23

Family

ID=67414356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910270280.0A Active CN110084850B (zh) 2019-04-04 2019-04-04 一种基于图像语义分割的动态场景视觉定位方法

Country Status (1)

Country Link
CN (1) CN110084850B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610521A (zh) * 2019-10-08 2019-12-24 云海桥(北京)科技有限公司 一种采用测距标志与图像识别匹配的定位***及方法
CN110673607A (zh) * 2019-09-25 2020-01-10 优地网络有限公司 动态场景下的特征点提取方法、装置、及终端设备
CN110706269A (zh) * 2019-08-30 2020-01-17 武汉斌果科技有限公司 一种基于双目视觉slam的动态场景密集建模方法
CN110827305A (zh) * 2019-10-30 2020-02-21 中山大学 面向动态环境的语义分割与视觉slam紧耦合方法
CN111311708A (zh) * 2020-01-20 2020-06-19 北京航空航天大学 一种基于语义光流和逆深度滤波的视觉slam方法
CN111340881A (zh) * 2020-02-18 2020-06-26 东南大学 一种动态场景下基于语义分割的直接法视觉定位方法
CN111488882A (zh) * 2020-04-10 2020-08-04 视研智能科技(广州)有限公司 一种用于工业零件测量的高精度图像语义分割方法
CN111950561A (zh) * 2020-08-25 2020-11-17 桂林电子科技大学 一种基于语义分割的剔除语义slam动态点的方法
CN112163502A (zh) * 2020-09-24 2021-01-01 电子科技大学 一种室内动态场景下的视觉定位方法
CN112435278A (zh) * 2021-01-26 2021-03-02 华东交通大学 一种基于动态目标检测的视觉slam方法及装置
CN112734845A (zh) * 2021-01-08 2021-04-30 浙江大学 一种融合场景语义的室外单目同步建图与定位方法
CN112766136A (zh) * 2021-01-14 2021-05-07 华南理工大学 一种基于深度学习的空间车位检测方法
CN112967317A (zh) * 2021-03-09 2021-06-15 北京航空航天大学 一种动态环境下基于卷积神经网络架构的视觉里程计方法
CN113516664A (zh) * 2021-09-02 2021-10-19 长春工业大学 一种基于语义分割动态点的视觉slam方法
CN113673524A (zh) * 2021-07-05 2021-11-19 北京物资学院 一种仓库半结构化环境动态特征点祛除方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015180368A1 (zh) * 2014-05-27 2015-12-03 江苏大学 一种半监督语音特征可变因素分解方法
CN107169974A (zh) * 2017-05-26 2017-09-15 中国科学技术大学 一种基于多监督全卷积神经网络的图像分割方法
CN107833236A (zh) * 2017-10-31 2018-03-23 中国科学院电子学研究所 一种动态环境下结合语义的视觉定位***和方法
CN109186586A (zh) * 2018-08-23 2019-01-11 北京理工大学 一种面向动态泊车环境的同时定位及混合地图构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015180368A1 (zh) * 2014-05-27 2015-12-03 江苏大学 一种半监督语音特征可变因素分解方法
CN107169974A (zh) * 2017-05-26 2017-09-15 中国科学技术大学 一种基于多监督全卷积神经网络的图像分割方法
CN107833236A (zh) * 2017-10-31 2018-03-23 中国科学院电子学研究所 一种动态环境下结合语义的视觉定位***和方法
CN109186586A (zh) * 2018-08-23 2019-01-11 北京理工大学 一种面向动态泊车环境的同时定位及混合地图构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑腾辉等: "基于全卷积神经网络的手术器械图像语义分割算法", 《现代计算机(专业版)》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706269B (zh) * 2019-08-30 2021-03-19 武汉斌果科技有限公司 一种基于双目视觉slam的动态场景密集建模方法
CN110706269A (zh) * 2019-08-30 2020-01-17 武汉斌果科技有限公司 一种基于双目视觉slam的动态场景密集建模方法
CN110673607A (zh) * 2019-09-25 2020-01-10 优地网络有限公司 动态场景下的特征点提取方法、装置、及终端设备
CN110673607B (zh) * 2019-09-25 2023-05-16 优地网络有限公司 动态场景下的特征点提取方法、装置、及终端设备
CN110610521A (zh) * 2019-10-08 2019-12-24 云海桥(北京)科技有限公司 一种采用测距标志与图像识别匹配的定位***及方法
CN110827305A (zh) * 2019-10-30 2020-02-21 中山大学 面向动态环境的语义分割与视觉slam紧耦合方法
CN110827305B (zh) * 2019-10-30 2021-06-08 中山大学 面向动态环境的语义分割与视觉slam紧耦合方法
CN111311708A (zh) * 2020-01-20 2020-06-19 北京航空航天大学 一种基于语义光流和逆深度滤波的视觉slam方法
CN111340881A (zh) * 2020-02-18 2020-06-26 东南大学 一种动态场景下基于语义分割的直接法视觉定位方法
CN111340881B (zh) * 2020-02-18 2023-05-19 东南大学 一种动态场景下基于语义分割的直接法视觉定位方法
CN111488882B (zh) * 2020-04-10 2020-12-25 视研智能科技(广州)有限公司 一种用于工业零件测量的高精度图像语义分割方法
CN111488882A (zh) * 2020-04-10 2020-08-04 视研智能科技(广州)有限公司 一种用于工业零件测量的高精度图像语义分割方法
CN111950561A (zh) * 2020-08-25 2020-11-17 桂林电子科技大学 一种基于语义分割的剔除语义slam动态点的方法
CN112163502A (zh) * 2020-09-24 2021-01-01 电子科技大学 一种室内动态场景下的视觉定位方法
CN112163502B (zh) * 2020-09-24 2022-07-12 电子科技大学 一种室内动态场景下的视觉定位方法
CN112734845A (zh) * 2021-01-08 2021-04-30 浙江大学 一种融合场景语义的室外单目同步建图与定位方法
CN112766136A (zh) * 2021-01-14 2021-05-07 华南理工大学 一种基于深度学习的空间车位检测方法
CN112766136B (zh) * 2021-01-14 2024-03-19 华南理工大学 一种基于深度学习的空间车位检测方法
CN112435278B (zh) * 2021-01-26 2021-05-04 华东交通大学 一种基于动态目标检测的视觉slam方法及装置
CN112435278A (zh) * 2021-01-26 2021-03-02 华东交通大学 一种基于动态目标检测的视觉slam方法及装置
CN112967317A (zh) * 2021-03-09 2021-06-15 北京航空航天大学 一种动态环境下基于卷积神经网络架构的视觉里程计方法
CN113673524A (zh) * 2021-07-05 2021-11-19 北京物资学院 一种仓库半结构化环境动态特征点祛除方法及装置
CN113516664A (zh) * 2021-09-02 2021-10-19 长春工业大学 一种基于语义分割动态点的视觉slam方法

Also Published As

Publication number Publication date
CN110084850B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN110084850A (zh) 一种基于图像语义分割的动态场景视觉定位方法
CN111339903B (zh) 一种多人人体姿态估计方法
Yang et al. Deep detection network for real-life traffic sign in vehicular networks
Garcia-Garcia et al. A review on deep learning techniques applied to semantic segmentation
CN107038448B (zh) 目标检测模型构建方法
CN106599773B (zh) 用于智能驾驶的深度学习图像识别方法、***及终端设备
CN109035293B (zh) 适用于视频图像中显著人体实例分割的方法
Tan et al. Color model-based real-time learning for road following
CN112200111A (zh) 一种全局与局部特征融合的遮挡鲁棒行人重识别方法
CN108734194B (zh) 一种面向虚拟现实的基于单深度图的人体关节点识别方法
CN109597087A (zh) 一种基于点云数据的3d目标检测方法
CN114037833B (zh) 一种苗族服饰图像语义分割方法
CN112950645B (zh) 一种基于多任务深度学习的图像语义分割方法
CN111310773A (zh) 一种高效的卷积神经网络的车牌定位方法
CN105956560A (zh) 一种基于池化多尺度深度卷积特征的车型识别方法
CN114187665B (zh) 一种基于人体骨架热图的多人步态识别方法
CN112131908A (zh) 基于双流网络的动作识别方法、装置、存储介质及设备
CN108062569A (zh) 一种基于红外和雷达的无人车驾驶决策方法
CN108921850B (zh) 一种基于图像分割技术的图像局部特征的提取方法
CN111582232A (zh) 一种基于像素级语义信息的slam方法
CN112434723B (zh) 一种基于注意力网络的日/夜间图像分类及物体检测方法
CN111553869A (zh) 一种空基视角下的生成对抗网络图像补全方法
CN112381045A (zh) 一种面向物联网移动端设备的轻量级人体姿态识别方法
Milioto et al. Fast instance and semantic segmentation exploiting local connectivity, metric learning, and one-shot detection for robotics
CN111027586A (zh) 一种基于新型响应图融合的目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant