CN112435278A - 一种基于动态目标检测的视觉slam方法及装置 - Google Patents

一种基于动态目标检测的视觉slam方法及装置 Download PDF

Info

Publication number
CN112435278A
CN112435278A CN202110100524.8A CN202110100524A CN112435278A CN 112435278 A CN112435278 A CN 112435278A CN 202110100524 A CN202110100524 A CN 202110100524A CN 112435278 A CN112435278 A CN 112435278A
Authority
CN
China
Prior art keywords
dynamic
image
feature point
static
frame image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110100524.8A
Other languages
English (en)
Other versions
CN112435278B (zh
Inventor
徐雪松
曾昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202110100524.8A priority Critical patent/CN112435278B/zh
Publication of CN112435278A publication Critical patent/CN112435278A/zh
Application granted granted Critical
Publication of CN112435278B publication Critical patent/CN112435278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于动态目标检测的视觉SLAM方法,使用目标检测网络Yolov3暂时剔除图像的潜在动态区域,通过重投影误差优化单应矩阵,求解运动补偿帧并得到四帧差图,之后,对四帧差图进行滤波、二值化和形态学处理,同时结合Yolov3网络对动态目标检测结果进行优化,从而求得改善后的动态目标区域,最后,使用静态区域的特征点进行视觉SLAM的跟踪、建图与回环检测。上述方法采用深度学习目标检测网络先剔除场景中的潜在动态区域,粗略地估算一个单应矩阵,基于重投影误差和类间方差相结合的方法,来判断潜在动态区域上的特征点,能否用于单应矩阵的计算,以对单应矩阵进行优化,从而提高单应矩阵的精度。

Description

一种基于动态目标检测的视觉SLAM方法及装置
技术领域
本发明属于图像处理技术领域,尤其涉及一种基于动态目标检测的视觉SLAM方法及装置。
背景技术
同时定位与地图构建(SLAM,Simultaneous localization and mapping)技术越来越广泛地被运用于机器人定位和无人驾驶等领域,其中视觉传感器拥有携带方便、成本较低的特点,所以被广泛地运用于SLAM技术中,传统的视觉SLAM算法,大部分是假设相机在静态环境中,例如Orbslam2,DSO,SVO等,场景存在动态区域时,视觉SLAM在动态对象上提取的特征点,会影响算法的精度。
针对动态场景中视觉里程计精度下降的问题,常采用的方法是:对图像先进行动态对象检测,剔除动态区域特征点后,保留静态区域的特征点进行视觉SLAM的追踪建图,但是在动态区域占比大的图像中,剔除动态区域后,会较大程度的影响视觉SLAM的追踪建图的准确度。
现有技术中存在的缺陷主要是由以下原因导致的:单独使用深度学习目标检测网络,可以预先将人、汽车等具有可移动性的对象分类为潜在的动态目标,但是无法判断潜在动态目标是否处于真实的运动状态,如果潜在动态目标处于静止状态,则可能会剔除过多的静止特征点。需要结合深度信息进行动态检测的算法,在图像某些区域深度信息不确定时,或在前后景深度较为接近时,可能会导致分类不准确。
发明内容
本发明提供一种基于动态目标检测的视觉SLAM方法及装置,用于至少解决上述技术问题之一。
本发明提供一种基于动态目标检测的视觉SLAM方法,包括:响应于获取的各个图像帧,基于深度学习目标检测网络对所述各个图像帧进行区域分割,其中,所述各个图像帧中包括潜在动态区域和/或静态区域,所述潜在动态区域中包含运动特征点和/或第一静止特征点,所述静态区域中包含第二静止特征点;将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配;响应于获取的匹配关系,基于RANSAC(Random SampleConsensus)算法计算得到第一单应矩阵;基于运动特征点滤除方法分别提取所述上一帧图像第一静止特征点和所述当前帧图像的第一静止特征点,其中,所述运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法;基于所述上一帧图像的第一静止特征点和所述当前帧图像的第一静止特征点的匹配关系,使对所述第一单应矩阵进行优化并得到第二单应矩阵;依据所述第二单应矩阵,对所述上一帧图像进行运动补偿,使得到运动补偿帧图像。
本发明提供一种基于动态目标检测的视觉SLAM装置,包括:分割模块,配置为响应于获取的各个图像帧,基于深度学习目标检测网络对所述各个图像帧进行区域分割,其中,所述各个图像帧中包括潜在动态区域和/或静态区域,所述潜在动态区域中包含运动特征点和/或第一静止特征点,所述静态区域中包含第二静止特征点;匹配模块,配置为将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配;计算模块,配置为响应于获取的匹配关系,基于RANSAC算法计算得到第一单应矩阵;提取模块,配置为基于运动特征点滤除方法分别提取所述上一帧图像第一静止特征点和所述当前帧图像的第一静止特征点,其中,所述运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法;优化模块,配置为基于所述上一帧图像的第一静止特征点和所述当前帧图像的第一静止特征点的匹配关系,使对所述第一单应矩阵进行优化并得到第二单应矩阵;补偿模块,配置为依据所述第二单应矩阵,对所述上一帧图像进行运动补偿,使得到运动补偿帧图像。
提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明的基于动态目标检测的视觉SLAM方法。
本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明的基于动态目标检测的视觉SLAM方法。
本申请的方法及装置采用深度学习目标检测网络先剔除场景中的潜在动态区域,粗略地估算一个单应矩阵,基于重投影误差和类间方差相结合的方法,来判断潜在动态区域上的特征点,能否用于单应矩阵的计算,以对单应矩阵进行优化,从而有效地提高单应矩阵的精度,因此进一步优化了运动补偿的结果,通过帧差法可以较为准确地获取图像中的动态目标。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种基于动态目标检测的视觉SLAM方法的流程图;
图2为本发明一实施例提供的又一种基于动态目标检测的视觉SLAM方法的流程图;
图3为本发明一实施例提供的再一种基于动态目标检测的视觉SLAM方法的流程图;
图4为本发明一实施例提供的一具体实施例的图像模糊时动态区域检测的效果图;
图5为本发明一实施例提供的一种基于动态目标检测的视觉SLAM装置的结构框图;
图6是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本申请的基于动态目标检测的视觉SLAM方法一实施例的流程图。
如图1所示,基于动态目标检测的视觉SLAM方法包括以下步骤:
在S101中,响应于获取的各个图像帧,基于深度学习目标检测网络对各个图像帧进行区域分割,其中,各个图像帧中包括潜在动态区域和/或静态区域,潜在动态区域中包含运动特征点和/或第一静止特征点,静态区域中包含第二静止特征点;
在本实施例中,响应于获取的各个图像帧,基于深度学习目标检测网络对各个图像帧进行区域分割,深度学习目标检测网络采用了Darknet53网络和多尺度特征进行目标检测,具有较好的识别速度和精度,能够有效识别行人、车辆等常见的具有运动性的物体,这类具有运动性物体归类为潜在的动态物体,潜在的动态物体所在的区域为潜在动态区域,潜在动态区域中包含运动特征点和/或第一静止特征点,静态物体所在的区域为静态区域,静态区域中包含第二静止特征点。
本实施的方案,采用深度学习目标检测网络进行目标检测,对各个图像帧进行动态目标检测,使得将各个图像帧中的潜在动态区域和/或静态区域进行筛选分割,其中,各个图像帧中可能包括潜在动态区域,潜在动态区域中可能包含第一静止特征点,从而使得便于后续视觉SLAM装置暂时剔除潜在动态区域,以进行特征点匹配,采用RANSAC算法粗略计算单应矩阵。
在S102中,将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配。
在本实施例中,将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配,从而得到上一帧图像的第二静止特征点与当前帧图像的第二静止特征点的匹配关系。
在S103中,响应于获取的匹配关系,基于RANSAC算法计算得到第一单应矩阵。
在本实施例中,响应于获取的匹配关系,基于RANSAC算法计算得到第一单应矩阵,具体地,在动态区域占比较小的场景中,计算得到的第一单应矩阵能够直接对图像进行运动补偿。
在S104中,基于运动特征点滤除方法分别提取上一帧图像第一静止特征点和当前帧图像的第一静止特征点,其中,运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法。
在本实施例中,为了判断潜在动态区域的特征点是否能够用于计算单应矩阵H,采用了特征点重投影误差与最大类间方差相结合的方法,判断潜在动态区域的第一静止特征点是否能够用于计算单应矩阵H。
本实施的方案,采用基于重投影误差和类间方差相结合的方法,来判断潜在动态区域上的特征点,能否用于第一单应矩阵的计算,以便后续对第一单应矩阵进行优化,其中,重投影误差和类间方差相结合的方法来判断潜在动态区域上的特征点能否用于第一单应矩阵的计算的具体步骤如下:
假设
Figure 455375DEST_PATH_IMAGE001
Figure 565283DEST_PATH_IMAGE002
是前后帧相匹配的特征点,与单应矩阵
Figure 32298DEST_PATH_IMAGE003
满足式(1)。假设前后帧共有N对相匹配的特征点,则共有N个重投影误差,可以推算其中一对相匹配的特征点的重投影误差
Figure 634181DEST_PATH_IMAGE004
的公式如式(2)所示。将N个重投影误差分为
Figure 48107DEST_PATH_IMAGE005
级,第
Figure 278100DEST_PATH_IMAGE006
级特征点的个数为
Figure 384858DEST_PATH_IMAGE007
,其中
Figure 333092DEST_PATH_IMAGE008
,故有
Figure 986927DEST_PATH_IMAGE009
Figure 713837DEST_PATH_IMAGE010
(1)
Figure 21190DEST_PATH_IMAGE011
(2)
设N个重投影误差的平均值为
Figure 863244DEST_PATH_IMAGE012
。第一静止特征点和第二静止特征点的集合
Figure 415711DEST_PATH_IMAGE013
记作
Figure 761241DEST_PATH_IMAGE014
,动态特征点集合
Figure 380442DEST_PATH_IMAGE015
记作
Figure 804732DEST_PATH_IMAGE016
,设
Figure 534791DEST_PATH_IMAGE017
的比率为
Figure 903804DEST_PATH_IMAGE018
,动态特征点集
Figure 959484DEST_PATH_IMAGE019
的比率为
Figure 339912DEST_PATH_IMAGE020
Figure 998296DEST_PATH_IMAGE021
Figure 52839DEST_PATH_IMAGE022
Figure 639941DEST_PATH_IMAGE023
如式(3)所示,第一静止特征点集的均值
Figure 412725DEST_PATH_IMAGE024
和动态特征点集的均值
Figure 484586DEST_PATH_IMAGE025
如式(4)所示。
Figure 285314DEST_PATH_IMAGE026
(3)
Figure 151639DEST_PATH_IMAGE027
(4)
由此,可推算类间方差
Figure 37817DEST_PATH_IMAGE028
如式(5)所示:
Figure 647790DEST_PATH_IMAGE029
(5)
根据式(6)可将式(5)化简为式(7)。
Figure 67139DEST_PATH_IMAGE030
(6)
Figure 605830DEST_PATH_IMAGE031
(7)
在0~k之间遍历,能够使得方差
Figure 212261DEST_PATH_IMAGE032
最大的残差距离记为
Figure 455286DEST_PATH_IMAGE033
,若某一对匹配点的重投影误差
Figure 463562DEST_PATH_IMAGE034
,则为动态特征点,
Figure 937268DEST_PATH_IMAGE035
,则为第一静止特征点或第二静止特征点。
在S105中,基于上一帧图像的第一静止特征点和当前帧图像的第一静止特征点的匹配关系,使对第一单应矩阵进行优化并得到第二单应矩阵。
在本实施例中,基于上一帧图像的第一静止特征点和当前帧图像的第一静止特征点的匹配关系,使对第一单应矩阵进行优化并得到第二单应矩阵。
在S106中,依据优化后的第二单应矩阵,对上一帧图像进行运动补偿,使得到运动补偿帧图像。
本实施例的方案,采用上一帧图像的第一静止特征点和当前帧图像的第一静止特征点的匹配关系,以对第一单应矩阵进行优化,得到第二单应矩阵,依据第二单应矩阵对图像进行运动补偿,能够有效地提高了运动补偿帧图像的精度,具体地,依据第二单应矩阵,对上一帧图像进行运动补偿的表达式为:
Figure 532460DEST_PATH_IMAGE036
式中,
Figure 218656DEST_PATH_IMAGE037
为上一帧的像素点,
Figure 836764DEST_PATH_IMAGE038
Figure 215793DEST_PATH_IMAGE037
补偿后的像素点,
Figure 62395DEST_PATH_IMAGE039
为上一帧与当前帧的单应矩阵;
上述的方法,传统的视觉SLAM假设在静态环境中使用,当场景中存在动态物体时,会导致视觉SLAM精度下降,本申请主要检测图像中的动态目标,提升SLAM的精度。相机运动时,可以对当前帧图像进行运动补偿后再做帧差法得到图片中的动态区域。
相机的平移距离相对于场景的深度较小的时候,可以使用单应矩阵H当作运动补偿矩阵。单应矩阵H计算时,需要匹配前后帧的图像,如果场景中存在动态物体,会导致单应矩阵H估算不准确。采用深度学习目标检测网络先剔除场景中的潜在动态物体,粗略地估算一个单应矩阵H。由于深度学习目标检测网络无法判断潜在动态物体是否处于真实的运动状态,如果潜在动态物体处于静止状态时,则潜在动态物体上的特征点也可以参与单应矩阵H的计算,提高单应矩阵H的精度,通过重投影误差和类间方差相结合的方法,来判断潜在动态物体上的特征点,能否用于单应矩阵H的计算,以提高单应矩阵H的精度。
请参阅图2,其示出了本申请的基于动态目标检测的视觉SLAM方法又一实施例的流程图,该流程图主要是对流程图1的附加流程进一步限定的步骤的流程图。
如图2所示,在S201中,将运动补偿帧图像与当前帧图像进行作差,使得到帧差图;
在S202中,基于连通区域算法,对经由去噪以及形态学处理的帧差图进行分析,使确定动态区域,其中,动态区域仅包含运动特征点;
在S203中,对当前帧图像进行剔除动态区域,并基于剔除动态区域的当前帧图像进行视觉SLAM的跟踪、建图和回环检测。
在本实施例中,对于S201,将运动补偿帧图像与当前帧图像进行作差,使得到帧差图,其中,将运动补偿帧图像与当前帧图像进行作差的表达式为:
Figure 319326DEST_PATH_IMAGE040
,式中,
Figure 443140DEST_PATH_IMAGE041
为第
Figure 117704DEST_PATH_IMAGE042
帧在
Figure 828433DEST_PATH_IMAGE043
处的像素值,
Figure 574541DEST_PATH_IMAGE044
为第
Figure 54326DEST_PATH_IMAGE045
补偿帧在
Figure 634212DEST_PATH_IMAGE043
处的像素值,
Figure 65194DEST_PATH_IMAGE046
为第t帧
Figure 522982DEST_PATH_IMAGE043
处的像素,之后,对于S202,基于连通区域算法,对经由去噪以及形态学处理的帧差图进行分析,使确定动态区域,其中,动态区域仅包含运动特征点。之后,对于S203,对当前帧图像进行剔除动态区域,并基于剔除动态区域的当前帧图像进行视觉SLAM的跟踪、建图和回环检测。
请参阅图3,其示出了本申请的基于动态目标检测的视觉SLAM方法再一实施例的流程图,该流程图主要是对S202“基于连通区域算法,对经由去噪以及形态学处理的帧差图进行分析,使确定动态区域”的情况的进一步限定的步骤的流程图。
如图3所示,在S301中,响应于获取的帧差图,基于滤波和二值化处理对帧差图进行去噪,使得到二值图;
在S302中,响应于获取的二值图,基于深度学习目标检测网络对二值图中的静态区域的各个像素值置为零;
在S303中,对处理后的二值图进行形态学处理,并基于连通区域算法分析得到动态区域。
在本实施例中,对于S301,响应于获取的帧差图,基于滤波和二值化处理对帧差图进行去噪,使得到二值图。之后,对于S302,响应于获取的二值图,基于深度学习目标检测网络对二值图中的静态区域的各个像素值置为零。之后,对于S303,对处理后的二值图进行形态学处理,并基于连通区域算法分析得到动态区域。
本实施例的方法,在强视差场景或图像模糊时,再结合深度学习目标检测网络进行优化动态目标检测的结果,从而降低了模糊噪声的影响。
在一个具体的实施例中,潜在动态区域为包含潜在的动态物体的区域,其中,潜在的动态物体为行人或车辆。
在一些可选的实施例中,深度学习目标检测网络为Yolov3网络。这样,采用了Darknet53网络和多尺度特征进行目标检测,具有较好的识别速度和精度,能够有效识别行人、车辆等常见的具有运动性的物体。
需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
在一些可选的实施例中,基于动态目标检测的视觉SLAM方法包括以下步骤:
(1)对图像进行帧处理,从而得到各个图像帧;
(2)在上一帧图像和当前帧图像中提取特征点;
(3)通过Yolov3网络进行检测动态目标,并将动态目标进行剔除;
(4)将上一帧图像中的第二静止特征点与当前帧图像的第二静止特征点进行匹配,基于匹配关系通过RANSAC算法计算得到第一单应矩阵,再将在上一帧图像的动态目标中提取到的第一静止特征点与当前帧图像的动态目标中提取到的第一静止特征点进行匹配,基于匹配关系优化第一单应矩阵,使得到第二单应矩阵;
(5)通过第二单应矩阵对上一帧图像进行图像补偿,并通过四帧差法(将相邻的四帧图像分别进行作差)得到四帧差图,具体地,将第t帧、第t-1帧、第t-2帧、第t-3帧依次进行作差(第t帧-第t-1帧、第t-1帧-第t-2帧、第t-2帧-第t-3帧),分别得到两帧差图(
Figure 247487DEST_PATH_IMAGE047
Figure 263853DEST_PATH_IMAGE048
Figure 277071DEST_PATH_IMAGE049
),计算得到四帧差图
Figure 771506DEST_PATH_IMAGE050
Figure 193260DEST_PATH_IMAGE051
(6)得到四帧差图后,使用滤波、二值化对图像进行进一步去噪,经过形态学处理后使用连通区域算法判断动态目标。
(7)剔除真正运动的动态目标,并使用动态区域的第一静止特征点和静态区域的第二静止特征点进行视觉SLAM的跟踪、建图与回环检测。
如图4所示,由于相机的运动,可能会导致图像模糊,如图4(a)组所示,运动补偿的图像也会因此模糊,或在相机运动过程中如果产生强视差,会使得运动补偿矩阵计算不准确,运动补偿效果不够理想,这类情况下,上述方法的二值图无法处理过多的背景噪声,使得静态区域也出现了值不为0的像素点,这是图像模糊产生的噪声,从而造成许多静态区也被误判成了动态区域,如图4(b)。为了消除图像模糊时的背景噪声,结合Yolov3网络对二值图进行优化,将二值图中非潜在动态区域的像素值置为0,使得最终检测结果变为图4(c),对比图4(b)和图4(c),可见图4(c)方框标识出的动态目标更加精准,背景误检也明显减少。
根据以上过程求解出图像的动态对象后,通过保留的静态区域特征点进行后续视觉SLAM的建图与回环检测。
使用TUM(Technische Universität München)数据集进行测试,采用绝对轨迹误差(absolute trajectory error, ATE)获得定量评估。TUM数据集中,前缀为walking属于高动态序列,sitting是低动态序列;后缀rpy代表相机在r-p-y三个方向角进行旋转,xyz代表相机在x-y-z方向上移动,halfsphere是指相机在rpy和xyz的基础上,还增加弧形运动,static是指相机几乎保持静止状态。
将本申请算法与其他算法进行对比结果如表1所示,Orbslam2是没做动态滤除的原始算法;“DVO+MR(Dynamic visual odometry+motion removal)”使用了运动补偿的算法判断动态对象;“地图点权重”对特征点设置权重来判断是否为动态特征点,较为依赖深度信息的准确性;DS-SLAM采用深度学习和几何约束相结合的方法,来判断动态特征点;“orbslam2+Yolov3”是orbslam2直接与目标检测Yolov3相结合的算法,不加区分地将语义下动态区域的特征点均滤除。
Figure 616413DEST_PATH_IMAGE052
对比表1的绝对轨迹误差的均方根误差(root mean squared error, RMSE),orbslam2算法在低动态数据集精度较高,在高动态数据集中,会出现较大的精度误差。由于walking_rpy数据集有部分模糊和强视差图像,滤除动态特征点后,剩下的可用于跟踪的特征点减少,从而导致算法跟踪失败。本申请因为结合了Yolov3降低了模糊图像和强视差带来的影响,在鲁棒性上,有一定的提升。walking_halfsphere数据集中,由于相机运动强视差环境较多,对本申请计算单应矩阵和运动补偿有一定的影响,导致精度较DS-SLAM有所下降。
请参阅图5,其示出了本申请的一种基于动态目标检测的视觉SLAM装置的结构框图。
如图5所示,视觉SLAM装置包括分割模块410、匹配模块420、计算模块430、提取模块440、优化模块450以及补偿模块460。
其中,分割模块410,配置为响应于获取的各个图像帧,基于深度学习目标检测网络对各个图像帧进行区域分割,其中,各个图像帧中包括潜在动态区域和/或静态区域,潜在动态区域中包含运动特征点和/或第一静止特征点,静态区域中包含第二静止特征点;匹配模块420,配置为将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配;计算模块430,配置为响应于获取的匹配关系,基于RANSAC算法计算得到第一单应矩阵;提取模块440,配置为基于运动特征点滤除方法分别提取上一帧图像第一静止特征点和当前帧图像的第一静止特征点,其中,运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法;优化模块450,配置为基于上一帧图像的第一静止特征点和当前帧图像的第一静止特征点的匹配关系,使对第一单应矩阵进行优化并得到第二单应矩阵;补偿模块460,配置为依据第二单应矩阵,对上一帧图像进行运动补偿,使得到运动补偿帧图像。
应当理解,图5中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于动态目标检测的视觉SLAM方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于获取的各个图像帧,基于深度学习目标检测网络对各个图像帧进行区域分割,其中,各个图像帧中包括潜在动态区域和/或静态区域,潜在动态区域中包含运动特征点和/或第一静止特征点,静态区域中包含第二静止特征点;
将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配;
响应于获取的匹配关系,基于RANSAC算法计算得到第一单应矩阵;
基于运动特征点滤除方法分别提取上一帧图像第一静止特征点和当前帧图像的第一静止特征点,其中,运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法;
基于上一帧图像的第一静止特征点和当前帧图像的第一静止特征点的匹配关系,使对第一单应矩阵进行优化并得到第二单应矩阵;
依据第二单应矩阵,对上一帧图像进行运动补偿,使得到运动补偿帧图像。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据基于动态目标检测的视觉SLAM装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至基于动态目标检测的视觉SLAM装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项基于动态目标检测的视觉SLAM方法。
图6是本发明实施例提供的电子设备的结构示意图,如图6所示,该设备包括:处理器510以及存储器520,图6中以一个处理器510为例。基于动态目标检测的视觉SLAM方法的设备还可以包括:输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例基于动态目标检测的视觉SLAM方法。输入装置530可接收输入的数字或字符信息,以及产生与基于动态目标检测的视觉SLAM装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于基于动态目标检测的视觉SLAM装置中,用于客户端,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于获取的各个图像帧,基于深度学习目标检测网络对各个图像帧进行区域分割,其中,各个图像帧中包括潜在动态区域和/或静态区域,潜在动态区域中包含运动特征点和/或第一静止特征点,静态区域中包含第二静止特征点;
将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配;
响应于获取的匹配关系,基于RANSAC算法计算得到第一单应矩阵;
基于运动特征点滤除方法分别提取上一帧图像第一静止特征点和当前帧图像的第一静止特征点,其中,运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法;
基于上一帧图像的第一静止特征点和当前帧图像的第一静止特征点的匹配关系,使对第一单应矩阵进行优化并得到第二单应矩阵;
依据第二单应矩阵,对上一帧图像进行运动补偿,使得到运动补偿帧图像。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于动态目标检测的视觉SLAM方法,其特征在于,包括:
响应于获取的各个图像帧,基于深度学习目标检测网络对所述各个图像帧进行区域分割,其中,所述各个图像帧中包括潜在动态区域和/或静态区域,所述潜在动态区域中包含运动特征点和/或第一静止特征点,所述静态区域中包含第二静止特征点;
将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配;
响应于获取的匹配关系,基于RANSAC算法计算得到第一单应矩阵;
基于运动特征点滤除方法分别提取所述上一帧图像第一静止特征点和所述当前帧图像的第一静止特征点,其中,所述运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法;
基于所述上一帧图像的第一静止特征点和所述当前帧图像的第一静止特征点的匹配关系,使对所述第一单应矩阵进行优化并得到第二单应矩阵;
依据所述第二单应矩阵,对所述上一帧图像进行运动补偿,使得到运动补偿帧图像。
2.根据权利要求1所述的一种基于动态目标检测的视觉SLAM方法,其特征在于,在依据所述第二单应矩阵,对所述上一帧图像进行运动补偿,使得到运动补偿帧图之后,所述方法还包括:
将所述运动补偿帧图像与所述当前帧图像进行作差,使得到帧差图;
基于连通区域算法,对经由去噪以及形态学处理的所述帧差图进行分析,使确定动态区域,其中,所述动态区域仅包含运动特征点;
对当前帧图像进行剔除所述动态区域,并基于剔除动态区域的当前帧图像进行视觉SLAM的跟踪、建图和回环检测。
3.根据权利要求2所述的一种基于动态目标检测的视觉SLAM方法,其特征在于,所述基于连通区域算法,对经由去噪以及形态学处理的所述帧差图进行分析,使确定动态区域包括:
响应于获取的所述帧差图,基于滤波和二值化处理对所述帧差图进行去噪,使得到二值图;
响应于获取的所述二值图,基于所述深度学习目标检测网络对所述二值图中的静态区域的各个像素值置为零;
对处理后的二值图进行形态学处理,并基于所述连通区域算法分析得到动态区域。
4.根据权利要求1所述的一种基于动态目标检测的视觉SLAM方法,其特征在于,所述基于运动特征点滤除方法分别提取所述上一帧图像第一静止特征点和所述当前帧图像的第一静止特征点的具体步骤如下:
假设
Figure 40175DEST_PATH_IMAGE001
Figure 980712DEST_PATH_IMAGE002
是前后帧相匹配的特征点,前后帧相匹配的特征点与单应矩阵
Figure 381606DEST_PATH_IMAGE003
满足的关系式为
Figure 241240DEST_PATH_IMAGE004
假设前后帧共有N对相匹配的特征点,则共有N个重投影误差,可以推算其中一对相匹配的特征点的重投影误差
Figure 727585DEST_PATH_IMAGE005
的公式为
Figure 127605DEST_PATH_IMAGE006
将N个重投影误差分为
Figure 681208DEST_PATH_IMAGE007
级,第
Figure 351224DEST_PATH_IMAGE008
级特征点的个数为
Figure 590444DEST_PATH_IMAGE009
,其中
Figure 126644DEST_PATH_IMAGE010
,故有
Figure 643076DEST_PATH_IMAGE011
设N个重投影误差的平均值为
Figure 343047DEST_PATH_IMAGE012
Figure 571029DEST_PATH_IMAGE013
,第一静止特征点和第二静止特征点的集合
Figure 155594DEST_PATH_IMAGE014
Figure 355893DEST_PATH_IMAGE015
,动态特征点集合
Figure 492345DEST_PATH_IMAGE016
Figure 581524DEST_PATH_IMAGE017
,设
Figure 595879DEST_PATH_IMAGE015
的比率为
Figure 414799DEST_PATH_IMAGE018
Figure 833404DEST_PATH_IMAGE019
,动态特征点集
Figure 534513DEST_PATH_IMAGE017
的比率为
Figure 460881DEST_PATH_IMAGE020
Figure 432510DEST_PATH_IMAGE021
,第一静止特征点和第二静止特征点的点集的均值
Figure 51710DEST_PATH_IMAGE022
Figure 115481DEST_PATH_IMAGE023
,动态特征点的点集的均值
Figure 206059DEST_PATH_IMAGE024
Figure 671675DEST_PATH_IMAGE025
由此,可推算类间方差
Figure 87875DEST_PATH_IMAGE026
的公式为:
Figure 373363DEST_PATH_IMAGE027
基于公式
Figure 172692DEST_PATH_IMAGE028
,对
Figure 865053DEST_PATH_IMAGE027
简化得到式:
Figure 294897DEST_PATH_IMAGE029
在0~k之间遍历,能够使得方差
Figure 661157DEST_PATH_IMAGE030
最大的残差距离记为
Figure 359117DEST_PATH_IMAGE031
,若某一对匹配点的重投影误差
Figure 533746DEST_PATH_IMAGE032
,则为动态特征点,
Figure 291749DEST_PATH_IMAGE033
,则为第一静止特征点或第二静止特征点。
5.根据权利要求1所述的一种基于动态目标检测的视觉SLAM方法,其特征在于,所述依据所述第二单应矩阵,对所述上一帧图像进行运动补偿的表达式为:
Figure 551829DEST_PATH_IMAGE034
式中,
Figure 427381DEST_PATH_IMAGE035
为上一帧的像素点,
Figure 348195DEST_PATH_IMAGE036
Figure 385421DEST_PATH_IMAGE035
补偿后的像素点,
Figure 398376DEST_PATH_IMAGE037
为上一帧与当前帧的单应矩阵。
6.根据权利要求1所述的一种基于动态目标检测的视觉SLAM方法,其特征在于,所述潜在动态区域为包含潜在的动态物体的区域,其中,所述潜在的动态物体为行人或车辆。
7.根据权利要求1所述的一种基于动态目标检测的视觉SLAM方法,其特征在于,所述深度学习目标检测网络为Yolov3网络。
8.一种基于动态目标检测的视觉SLAM装置,其特征在于,包括:
分割模块,配置为响应于获取的各个图像帧,基于深度学习目标检测网络对所述各个图像帧进行区域分割,其中,所述各个图像帧中包括潜在动态区域和/或静态区域,所述潜在动态区域中包含运动特征点和/或第一静止特征点,所述静态区域中包含第二静止特征点;
匹配模块,配置为将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配;
计算模块,配置为响应于获取的匹配关系,基于RANSAC算法计算得到第一单应矩阵;
提取模块,配置为基于运动特征点滤除方法分别提取所述上一帧图像第一静止特征点和所述当前帧图像的第一静止特征点,其中,所述运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法;
优化模块,配置为基于所述上一帧图像的第一静止特征点和所述当前帧图像的第一静止特征点的匹配关系,使对所述第一单应矩阵进行优化并得到第二单应矩阵;
补偿模块,配置为依据所述第二单应矩阵,对所述上一帧图像进行运动补偿,使得到运动补偿帧图像。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7任一项所述的方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202110100524.8A 2021-01-26 2021-01-26 一种基于动态目标检测的视觉slam方法及装置 Active CN112435278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110100524.8A CN112435278B (zh) 2021-01-26 2021-01-26 一种基于动态目标检测的视觉slam方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110100524.8A CN112435278B (zh) 2021-01-26 2021-01-26 一种基于动态目标检测的视觉slam方法及装置

Publications (2)

Publication Number Publication Date
CN112435278A true CN112435278A (zh) 2021-03-02
CN112435278B CN112435278B (zh) 2021-05-04

Family

ID=74697251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110100524.8A Active CN112435278B (zh) 2021-01-26 2021-01-26 一种基于动态目标检测的视觉slam方法及装置

Country Status (1)

Country Link
CN (1) CN112435278B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222891A (zh) * 2021-04-01 2021-08-06 东方电气集团东方锅炉股份有限公司 一种基于线激光的旋转物体双目视觉三维测量方法
CN116452647A (zh) * 2023-06-15 2023-07-18 广东工业大学 一种基于匹配追踪的动态图像配准方法、***及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610177A (zh) * 2017-09-29 2018-01-19 联想(北京)有限公司 一种同步定位与地图构建中确定特征点的方法和设备
CN110084850A (zh) * 2019-04-04 2019-08-02 东南大学 一种基于图像语义分割的动态场景视觉定位方法
CN110378345A (zh) * 2019-06-04 2019-10-25 广东工业大学 基于yolact实例分割模型的动态场景slam方法
CN110533716A (zh) * 2019-08-20 2019-12-03 西安电子科技大学 一种基于3d约束的语义slam***及方法
CN111145251A (zh) * 2018-11-02 2020-05-12 深圳市优必选科技有限公司 一种机器人及其同步定位与建图方法和计算机存储设备
CN111156984A (zh) * 2019-12-18 2020-05-15 东南大学 一种面向动态场景的单目视觉惯性slam方法
US10825424B2 (en) * 2018-06-05 2020-11-03 Magic Leap, Inc. Homography transformation matrices based temperature calibration of a viewing system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610177A (zh) * 2017-09-29 2018-01-19 联想(北京)有限公司 一种同步定位与地图构建中确定特征点的方法和设备
US10825424B2 (en) * 2018-06-05 2020-11-03 Magic Leap, Inc. Homography transformation matrices based temperature calibration of a viewing system
CN111145251A (zh) * 2018-11-02 2020-05-12 深圳市优必选科技有限公司 一种机器人及其同步定位与建图方法和计算机存储设备
CN110084850A (zh) * 2019-04-04 2019-08-02 东南大学 一种基于图像语义分割的动态场景视觉定位方法
CN110378345A (zh) * 2019-06-04 2019-10-25 广东工业大学 基于yolact实例分割模型的动态场景slam方法
CN110533716A (zh) * 2019-08-20 2019-12-03 西安电子科技大学 一种基于3d约束的语义slam***及方法
CN111156984A (zh) * 2019-12-18 2020-05-15 东南大学 一种面向动态场景的单目视觉惯性slam方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘瑞等: ""基于高斯金字塔的视觉里程计算法研究"", 《华东交通大学学报》 *
许天野等: ""交互多模型算法在目标跟踪领域的应用"", 《四川兵工学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222891A (zh) * 2021-04-01 2021-08-06 东方电气集团东方锅炉股份有限公司 一种基于线激光的旋转物体双目视觉三维测量方法
CN113222891B (zh) * 2021-04-01 2023-12-22 东方电气集团东方锅炉股份有限公司 一种基于线激光的旋转物体双目视觉三维测量方法
CN116452647A (zh) * 2023-06-15 2023-07-18 广东工业大学 一种基于匹配追踪的动态图像配准方法、***及装置
CN116452647B (zh) * 2023-06-15 2023-12-08 广州安特激光技术有限公司 一种基于匹配追踪的动态图像配准方法、***及装置

Also Published As

Publication number Publication date
CN112435278B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
Zhang et al. Spatially variant defocus blur map estimation and deblurring from a single image
JP6230751B1 (ja) 物体検出装置および物体検出方法
US9947077B2 (en) Video object tracking in traffic monitoring
US10600158B2 (en) Method of video stabilization using background subtraction
CN111340749B (zh) 图像质量的检测方法、装置、设备及存储介质
JP2012038318A (ja) ターゲット検出方法及び装置
CN112215773B (zh) 基于视觉显著性的局部运动去模糊方法、装置及存储介质
CN112435278B (zh) 一种基于动态目标检测的视觉slam方法及装置
CN108629792A (zh) 基于背景建模与背景差分的激光目标检测方法和装置
CN110599516A (zh) 一种运动目标检测方法、装置、存储介质及终端设备
CN113780110A (zh) 一种图像序列中弱小目标实时检测方法及设备
Zhang et al. Depth enhancement with improved exemplar-based inpainting and joint trilateral guided filtering
Nguyen et al. UnfairGAN: An enhanced generative adversarial network for raindrop removal from a single image
CN112598743B (zh) 一种单目视觉图像的位姿估算方法及相关装置
CN110765940B (zh) 目标对象统计方法和装置
Xu et al. Features based spatial and temporal blotch detection for archive video restoration
CN111079624A (zh) 一种样本信息采集的方法、装置、电子设备以及介质
CN116188535A (zh) 基于光流估计的视频跟踪方法、装置、设备及存储介质
Lyu et al. Scene-Adaptive Real-Time Fast Dehazing and Detection in Driving Environment
CN111985423A (zh) 活体检测方法、装置、设备及可读存储介质
Bar et al. Blind space-variant single-image restoration of defocus blur
CN111104870A (zh) 基于卫星视频的运动检测方法、装置、设备和存储介质
US11620752B2 (en) Image-guided depth sampling and reconstruction
Gurrala et al. Enhancing Safety and Security: Face Tracking and Detection in Dehazed Video Frames Using KLT and Viola-Jones Algorithms.
CN114973175B (zh) 运动物体检测方法、装置、终端设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant