CN112435278A

CN112435278A - 一种基于动态目标检测的视觉slam方法及装置

Info

Publication number: CN112435278A
Application number: CN202110100524.8A
Authority: CN
Inventors: 徐雪松; 曾昱
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-03-02
Anticipated expiration: 2041-01-26
Also published as: CN112435278B

Abstract

本发明公开一种基于动态目标检测的视觉SLAM方法，使用目标检测网络Yolov3暂时剔除图像的潜在动态区域，通过重投影误差优化单应矩阵，求解运动补偿帧并得到四帧差图，之后，对四帧差图进行滤波、二值化和形态学处理，同时结合Yolov3网络对动态目标检测结果进行优化，从而求得改善后的动态目标区域，最后，使用静态区域的特征点进行视觉SLAM的跟踪、建图与回环检测。上述方法采用深度学习目标检测网络先剔除场景中的潜在动态区域，粗略地估算一个单应矩阵，基于重投影误差和类间方差相结合的方法，来判断潜在动态区域上的特征点，能否用于单应矩阵的计算，以对单应矩阵进行优化，从而提高单应矩阵的精度。

Description

一种基于动态目标检测的视觉SLAM方法及装置

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于动态目标检测的视觉SLAM方法及装置。

背景技术

同时定位与地图构建（SLAM，Simultaneous localization and mapping）技术越来越广泛地被运用于机器人定位和无人驾驶等领域，其中视觉传感器拥有携带方便、成本较低的特点，所以被广泛地运用于SLAM技术中，传统的视觉SLAM算法，大部分是假设相机在静态环境中，例如Orbslam2，DSO，SVO等，场景存在动态区域时，视觉SLAM在动态对象上提取的特征点，会影响算法的精度。

针对动态场景中视觉里程计精度下降的问题，常采用的方法是：对图像先进行动态对象检测，剔除动态区域特征点后，保留静态区域的特征点进行视觉SLAM的追踪建图，但是在动态区域占比大的图像中，剔除动态区域后，会较大程度的影响视觉SLAM的追踪建图的准确度。

现有技术中存在的缺陷主要是由以下原因导致的：单独使用深度学习目标检测网络，可以预先将人、汽车等具有可移动性的对象分类为潜在的动态目标，但是无法判断潜在动态目标是否处于真实的运动状态，如果潜在动态目标处于静止状态，则可能会剔除过多的静止特征点。需要结合深度信息进行动态检测的算法，在图像某些区域深度信息不确定时，或在前后景深度较为接近时，可能会导致分类不准确。

发明内容

本发明提供一种基于动态目标检测的视觉SLAM方法及装置，用于至少解决上述技术问题之一。

本发明提供一种基于动态目标检测的视觉SLAM方法，包括：响应于获取的各个图像帧，基于深度学习目标检测网络对所述各个图像帧进行区域分割，其中，所述各个图像帧中包括潜在动态区域和/或静态区域，所述潜在动态区域中包含运动特征点和/或第一静止特征点，所述静态区域中包含第二静止特征点；将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配；响应于获取的匹配关系，基于RANSAC（Random SampleConsensus）算法计算得到第一单应矩阵；基于运动特征点滤除方法分别提取所述上一帧图像第一静止特征点和所述当前帧图像的第一静止特征点，其中，所述运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法；基于所述上一帧图像的第一静止特征点和所述当前帧图像的第一静止特征点的匹配关系，使对所述第一单应矩阵进行优化并得到第二单应矩阵；依据所述第二单应矩阵，对所述上一帧图像进行运动补偿，使得到运动补偿帧图像。

本发明提供一种基于动态目标检测的视觉SLAM装置，包括：分割模块，配置为响应于获取的各个图像帧，基于深度学习目标检测网络对所述各个图像帧进行区域分割，其中，所述各个图像帧中包括潜在动态区域和/或静态区域，所述潜在动态区域中包含运动特征点和/或第一静止特征点，所述静态区域中包含第二静止特征点；匹配模块，配置为将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配；计算模块，配置为响应于获取的匹配关系，基于RANSAC算法计算得到第一单应矩阵；提取模块，配置为基于运动特征点滤除方法分别提取所述上一帧图像第一静止特征点和所述当前帧图像的第一静止特征点，其中，所述运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法；优化模块，配置为基于所述上一帧图像的第一静止特征点和所述当前帧图像的第一静止特征点的匹配关系，使对所述第一单应矩阵进行优化并得到第二单应矩阵；补偿模块，配置为依据所述第二单应矩阵，对所述上一帧图像进行运动补偿，使得到运动补偿帧图像。

提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明的基于动态目标检测的视觉SLAM方法。

本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明的基于动态目标检测的视觉SLAM方法。

本申请的方法及装置采用深度学习目标检测网络先剔除场景中的潜在动态区域，粗略地估算一个单应矩阵，基于重投影误差和类间方差相结合的方法，来判断潜在动态区域上的特征点，能否用于单应矩阵的计算，以对单应矩阵进行优化，从而有效地提高单应矩阵的精度，因此进一步优化了运动补偿的结果，通过帧差法可以较为准确地获取图像中的动态目标。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于动态目标检测的视觉SLAM方法的流程图；

图2为本发明一实施例提供的又一种基于动态目标检测的视觉SLAM方法的流程图；

图3为本发明一实施例提供的再一种基于动态目标检测的视觉SLAM方法的流程图；

图4为本发明一实施例提供的一具体实施例的图像模糊时动态区域检测的效果图；

图5为本发明一实施例提供的一种基于动态目标检测的视觉SLAM装置的结构框图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本申请的基于动态目标检测的视觉SLAM方法一实施例的流程图。

如图1所示，基于动态目标检测的视觉SLAM方法包括以下步骤：

在S101中，响应于获取的各个图像帧，基于深度学习目标检测网络对各个图像帧进行区域分割，其中，各个图像帧中包括潜在动态区域和/或静态区域，潜在动态区域中包含运动特征点和/或第一静止特征点，静态区域中包含第二静止特征点；

在本实施例中，响应于获取的各个图像帧，基于深度学习目标检测网络对各个图像帧进行区域分割，深度学习目标检测网络采用了Darknet53网络和多尺度特征进行目标检测，具有较好的识别速度和精度，能够有效识别行人、车辆等常见的具有运动性的物体，这类具有运动性物体归类为潜在的动态物体，潜在的动态物体所在的区域为潜在动态区域，潜在动态区域中包含运动特征点和/或第一静止特征点，静态物体所在的区域为静态区域，静态区域中包含第二静止特征点。

本实施的方案，采用深度学习目标检测网络进行目标检测，对各个图像帧进行动态目标检测，使得将各个图像帧中的潜在动态区域和/或静态区域进行筛选分割，其中，各个图像帧中可能包括潜在动态区域，潜在动态区域中可能包含第一静止特征点，从而使得便于后续视觉SLAM装置暂时剔除潜在动态区域，以进行特征点匹配，采用RANSAC算法粗略计算单应矩阵。

在S102中，将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配。

在本实施例中，将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配，从而得到上一帧图像的第二静止特征点与当前帧图像的第二静止特征点的匹配关系。

在S103中，响应于获取的匹配关系，基于RANSAC算法计算得到第一单应矩阵。

在本实施例中，响应于获取的匹配关系，基于RANSAC算法计算得到第一单应矩阵，具体地，在动态区域占比较小的场景中，计算得到的第一单应矩阵能够直接对图像进行运动补偿。

在S104中，基于运动特征点滤除方法分别提取上一帧图像第一静止特征点和当前帧图像的第一静止特征点，其中，运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法。

在本实施例中，为了判断潜在动态区域的特征点是否能够用于计算单应矩阵H，采用了特征点重投影误差与最大类间方差相结合的方法，判断潜在动态区域的第一静止特征点是否能够用于计算单应矩阵H。

本实施的方案，采用基于重投影误差和类间方差相结合的方法，来判断潜在动态区域上的特征点，能否用于第一单应矩阵的计算，以便后续对第一单应矩阵进行优化，其中，重投影误差和类间方差相结合的方法来判断潜在动态区域上的特征点能否用于第一单应矩阵的计算的具体步骤如下：

假设

和

是前后帧相匹配的特征点，与单应矩阵

满足式（1）。假设前后帧共有N对相匹配的特征点，则共有N个重投影误差，可以推算其中一对相匹配的特征点的重投影误差

的公式如式（2）所示。将N个重投影误差分为

级，第

级特征点的个数为

，其中

，故有

。

（1）

（2）

设N个重投影误差的平均值为

。第一静止特征点和第二静止特征点的集合

记作

，动态特征点集合

记作

，设

的比率为

，动态特征点集

的比率为

，

、

、

如式（3）所示，第一静止特征点集的均值

和动态特征点集的均值

如式（4）所示。

（3）

（4）

由此，可推算类间方差

如式（5）所示：

（5）

根据式（6）可将式（5）化简为式（7）。

（6）

（7）

在0~k之间遍历，能够使得方差

最大的残差距离记为

，若某一对匹配点的重投影误差

，则为动态特征点，

，则为第一静止特征点或第二静止特征点。

在S105中，基于上一帧图像的第一静止特征点和当前帧图像的第一静止特征点的匹配关系，使对第一单应矩阵进行优化并得到第二单应矩阵。

在本实施例中，基于上一帧图像的第一静止特征点和当前帧图像的第一静止特征点的匹配关系，使对第一单应矩阵进行优化并得到第二单应矩阵。

在S106中，依据优化后的第二单应矩阵，对上一帧图像进行运动补偿，使得到运动补偿帧图像。

本实施例的方案，采用上一帧图像的第一静止特征点和当前帧图像的第一静止特征点的匹配关系，以对第一单应矩阵进行优化，得到第二单应矩阵，依据第二单应矩阵对图像进行运动补偿，能够有效地提高了运动补偿帧图像的精度，具体地，依据第二单应矩阵，对上一帧图像进行运动补偿的表达式为：

；

式中，

为上一帧的像素点，

为

补偿后的像素点，

为上一帧与当前帧的单应矩阵；

上述的方法，传统的视觉SLAM假设在静态环境中使用，当场景中存在动态物体时，会导致视觉SLAM精度下降，本申请主要检测图像中的动态目标，提升SLAM的精度。相机运动时，可以对当前帧图像进行运动补偿后再做帧差法得到图片中的动态区域。

相机的平移距离相对于场景的深度较小的时候，可以使用单应矩阵H当作运动补偿矩阵。单应矩阵H计算时，需要匹配前后帧的图像，如果场景中存在动态物体，会导致单应矩阵H估算不准确。采用深度学习目标检测网络先剔除场景中的潜在动态物体，粗略地估算一个单应矩阵H。由于深度学习目标检测网络无法判断潜在动态物体是否处于真实的运动状态，如果潜在动态物体处于静止状态时，则潜在动态物体上的特征点也可以参与单应矩阵H的计算，提高单应矩阵H的精度，通过重投影误差和类间方差相结合的方法，来判断潜在动态物体上的特征点，能否用于单应矩阵H的计算，以提高单应矩阵H的精度。

请参阅图2，其示出了本申请的基于动态目标检测的视觉SLAM方法又一实施例的流程图，该流程图主要是对流程图1的附加流程进一步限定的步骤的流程图。

如图2所示，在S201中，将运动补偿帧图像与当前帧图像进行作差，使得到帧差图；

在S202中，基于连通区域算法，对经由去噪以及形态学处理的帧差图进行分析，使确定动态区域，其中，动态区域仅包含运动特征点；

在S203中，对当前帧图像进行剔除动态区域，并基于剔除动态区域的当前帧图像进行视觉SLAM的跟踪、建图和回环检测。

在本实施例中，对于S201，将运动补偿帧图像与当前帧图像进行作差，使得到帧差图，其中，将运动补偿帧图像与当前帧图像进行作差的表达式为：

，式中，

为第

帧在

处的像素值，

为第

补偿帧在

处的像素值，

为第t帧

处的像素，之后，对于S202，基于连通区域算法，对经由去噪以及形态学处理的帧差图进行分析，使确定动态区域，其中，动态区域仅包含运动特征点。之后，对于S203，对当前帧图像进行剔除动态区域，并基于剔除动态区域的当前帧图像进行视觉SLAM的跟踪、建图和回环检测。

请参阅图3，其示出了本申请的基于动态目标检测的视觉SLAM方法再一实施例的流程图，该流程图主要是对S202“基于连通区域算法，对经由去噪以及形态学处理的帧差图进行分析，使确定动态区域”的情况的进一步限定的步骤的流程图。

如图3所示，在S301中，响应于获取的帧差图，基于滤波和二值化处理对帧差图进行去噪，使得到二值图；

在S302中，响应于获取的二值图，基于深度学习目标检测网络对二值图中的静态区域的各个像素值置为零；

在S303中，对处理后的二值图进行形态学处理，并基于连通区域算法分析得到动态区域。

在本实施例中，对于S301，响应于获取的帧差图，基于滤波和二值化处理对帧差图进行去噪，使得到二值图。之后，对于S302，响应于获取的二值图，基于深度学习目标检测网络对二值图中的静态区域的各个像素值置为零。之后，对于S303，对处理后的二值图进行形态学处理，并基于连通区域算法分析得到动态区域。

本实施例的方法，在强视差场景或图像模糊时，再结合深度学习目标检测网络进行优化动态目标检测的结果，从而降低了模糊噪声的影响。

在一个具体的实施例中，潜在动态区域为包含潜在的动态物体的区域，其中，潜在的动态物体为行人或车辆。

在一些可选的实施例中，深度学习目标检测网络为Yolov3网络。这样，采用了Darknet53网络和多尺度特征进行目标检测，具有较好的识别速度和精度，能够有效识别行人、车辆等常见的具有运动性的物体。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

在一些可选的实施例中，基于动态目标检测的视觉SLAM方法包括以下步骤：

（1）对图像进行帧处理，从而得到各个图像帧；

（2）在上一帧图像和当前帧图像中提取特征点；

（3）通过Yolov3网络进行检测动态目标，并将动态目标进行剔除；

（4）将上一帧图像中的第二静止特征点与当前帧图像的第二静止特征点进行匹配，基于匹配关系通过RANSAC算法计算得到第一单应矩阵，再将在上一帧图像的动态目标中提取到的第一静止特征点与当前帧图像的动态目标中提取到的第一静止特征点进行匹配，基于匹配关系优化第一单应矩阵，使得到第二单应矩阵；

（5）通过第二单应矩阵对上一帧图像进行图像补偿，并通过四帧差法（将相邻的四帧图像分别进行作差）得到四帧差图，具体地，将第t帧、第t-1帧、第t-2帧、第t-3帧依次进行作差（第t帧-第t-1帧、第t-1帧-第t-2帧、第t-2帧-第t-3帧），分别得到两帧差图（

、

、

），计算得到四帧差图

，

。

（6）得到四帧差图后，使用滤波、二值化对图像进行进一步去噪，经过形态学处理后使用连通区域算法判断动态目标。

（7）剔除真正运动的动态目标，并使用动态区域的第一静止特征点和静态区域的第二静止特征点进行视觉SLAM的跟踪、建图与回环检测。

如图4所示，由于相机的运动，可能会导致图像模糊，如图4（a）组所示，运动补偿的图像也会因此模糊，或在相机运动过程中如果产生强视差，会使得运动补偿矩阵计算不准确，运动补偿效果不够理想，这类情况下，上述方法的二值图无法处理过多的背景噪声，使得静态区域也出现了值不为0的像素点，这是图像模糊产生的噪声，从而造成许多静态区也被误判成了动态区域，如图4（b）。为了消除图像模糊时的背景噪声，结合Yolov3网络对二值图进行优化，将二值图中非潜在动态区域的像素值置为0，使得最终检测结果变为图4（c），对比图4（b）和图4（c），可见图4（c）方框标识出的动态目标更加精准，背景误检也明显减少。

根据以上过程求解出图像的动态对象后，通过保留的静态区域特征点进行后续视觉SLAM的建图与回环检测。

使用TUM（Technische Universität München）数据集进行测试，采用绝对轨迹误差(absolute trajectory error, ATE)获得定量评估。TUM数据集中，前缀为walking属于高动态序列，sitting是低动态序列；后缀rpy代表相机在r-p-y三个方向角进行旋转，xyz代表相机在x-y-z方向上移动，halfsphere是指相机在rpy和xyz的基础上，还增加弧形运动，static是指相机几乎保持静止状态。

将本申请算法与其他算法进行对比结果如表1所示，Orbslam2是没做动态滤除的原始算法；“DVO+MR（Dynamic visual odometry+motion removal）”使用了运动补偿的算法判断动态对象；“地图点权重”对特征点设置权重来判断是否为动态特征点，较为依赖深度信息的准确性；DS-SLAM采用深度学习和几何约束相结合的方法，来判断动态特征点；“orbslam2+Yolov3”是orbslam2直接与目标检测Yolov3相结合的算法，不加区分地将语义下动态区域的特征点均滤除。

对比表1的绝对轨迹误差的均方根误差(root mean squared error, RMSE)，orbslam2算法在低动态数据集精度较高，在高动态数据集中，会出现较大的精度误差。由于walking_rpy数据集有部分模糊和强视差图像，滤除动态特征点后，剩下的可用于跟踪的特征点减少，从而导致算法跟踪失败。本申请因为结合了Yolov3降低了模糊图像和强视差带来的影响，在鲁棒性上，有一定的提升。walking_halfsphere数据集中，由于相机运动强视差环境较多，对本申请计算单应矩阵和运动补偿有一定的影响，导致精度较DS-SLAM有所下降。

请参阅图5，其示出了本申请的一种基于动态目标检测的视觉SLAM装置的结构框图。

如图5所示，视觉SLAM装置包括分割模块410、匹配模块420、计算模块430、提取模块440、优化模块450以及补偿模块460。

其中，分割模块410，配置为响应于获取的各个图像帧，基于深度学习目标检测网络对各个图像帧进行区域分割，其中，各个图像帧中包括潜在动态区域和/或静态区域，潜在动态区域中包含运动特征点和/或第一静止特征点，静态区域中包含第二静止特征点；匹配模块420，配置为将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配；计算模块430，配置为响应于获取的匹配关系，基于RANSAC算法计算得到第一单应矩阵；提取模块440，配置为基于运动特征点滤除方法分别提取上一帧图像第一静止特征点和当前帧图像的第一静止特征点，其中，运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法；优化模块450，配置为基于上一帧图像的第一静止特征点和当前帧图像的第一静止特征点的匹配关系，使对第一单应矩阵进行优化并得到第二单应矩阵；补偿模块460，配置为依据第二单应矩阵，对上一帧图像进行运动补偿，使得到运动补偿帧图像。

应当理解，图5中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于动态目标检测的视觉SLAM方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取的各个图像帧，基于深度学习目标检测网络对各个图像帧进行区域分割，其中，各个图像帧中包括潜在动态区域和/或静态区域，潜在动态区域中包含运动特征点和/或第一静止特征点，静态区域中包含第二静止特征点；

将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配；

响应于获取的匹配关系，基于RANSAC算法计算得到第一单应矩阵；

基于运动特征点滤除方法分别提取上一帧图像第一静止特征点和当前帧图像的第一静止特征点，其中，运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法；

基于上一帧图像的第一静止特征点和当前帧图像的第一静止特征点的匹配关系，使对第一单应矩阵进行优化并得到第二单应矩阵；

依据第二单应矩阵，对上一帧图像进行运动补偿，使得到运动补偿帧图像。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据基于动态目标检测的视觉SLAM装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至基于动态目标检测的视觉SLAM装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项基于动态目标检测的视觉SLAM方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：处理器510以及存储器520，图6中以一个处理器510为例。基于动态目标检测的视觉SLAM方法的设备还可以包括：输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例基于动态目标检测的视觉SLAM方法。输入装置530可接收输入的数字或字符信息，以及产生与基于动态目标检测的视觉SLAM装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于基于动态目标检测的视觉SLAM装置中，用于客户端，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于动态目标检测的视觉SLAM方法，其特征在于，包括：

响应于获取的各个图像帧，基于深度学习目标检测网络对所述各个图像帧进行区域分割，其中，所述各个图像帧中包括潜在动态区域和/或静态区域，所述潜在动态区域中包含运动特征点和/或第一静止特征点，所述静态区域中包含第二静止特征点；

基于运动特征点滤除方法分别提取所述上一帧图像第一静止特征点和所述当前帧图像的第一静止特征点，其中，所述运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法；

基于所述上一帧图像的第一静止特征点和所述当前帧图像的第一静止特征点的匹配关系，使对所述第一单应矩阵进行优化并得到第二单应矩阵；

依据所述第二单应矩阵，对所述上一帧图像进行运动补偿，使得到运动补偿帧图像。

2.根据权利要求1所述的一种基于动态目标检测的视觉SLAM方法，其特征在于，在依据所述第二单应矩阵，对所述上一帧图像进行运动补偿，使得到运动补偿帧图之后，所述方法还包括：

将所述运动补偿帧图像与所述当前帧图像进行作差，使得到帧差图；

基于连通区域算法，对经由去噪以及形态学处理的所述帧差图进行分析，使确定动态区域，其中，所述动态区域仅包含运动特征点；

对当前帧图像进行剔除所述动态区域，并基于剔除动态区域的当前帧图像进行视觉SLAM的跟踪、建图和回环检测。

3.根据权利要求2所述的一种基于动态目标检测的视觉SLAM方法，其特征在于，所述基于连通区域算法，对经由去噪以及形态学处理的所述帧差图进行分析，使确定动态区域包括：

响应于获取的所述帧差图，基于滤波和二值化处理对所述帧差图进行去噪，使得到二值图；

响应于获取的所述二值图，基于所述深度学习目标检测网络对所述二值图中的静态区域的各个像素值置为零；

对处理后的二值图进行形态学处理，并基于所述连通区域算法分析得到动态区域。

4.根据权利要求1所述的一种基于动态目标检测的视觉SLAM方法，其特征在于，所述基于运动特征点滤除方法分别提取所述上一帧图像第一静止特征点和所述当前帧图像的第一静止特征点的具体步骤如下：

假设

和

是前后帧相匹配的特征点，前后帧相匹配的特征点与单应矩阵

满足的关系式为

；

假设前后帧共有N对相匹配的特征点，则共有N个重投影误差，可以推算其中一对相匹配的特征点的重投影误差

的公式为

；

将N个重投影误差分为

级，第

级特征点的个数为

，其中

，故有

；

设N个重投影误差的平均值为

，

，第一静止特征点和第二静止特征点的集合

为

，动态特征点集合

为

，设

的比率为

，

，动态特征点集

的比率为

，

，第一静止特征点和第二静止特征点的点集的均值

，

，动态特征点的点集的均值

，

；

由此，可推算类间方差

的公式为：

；

基于公式

，对

简化得到式：

；

在0~k之间遍历，能够使得方差

最大的残差距离记为

，若某一对匹配点的重投影误差

，则为动态特征点，

，则为第一静止特征点或第二静止特征点。

5.根据权利要求1所述的一种基于动态目标检测的视觉SLAM方法，其特征在于，所述依据所述第二单应矩阵，对所述上一帧图像进行运动补偿的表达式为：

；

式中，

为上一帧的像素点，

为

补偿后的像素点，

为上一帧与当前帧的单应矩阵。

6.根据权利要求1所述的一种基于动态目标检测的视觉SLAM方法，其特征在于，所述潜在动态区域为包含潜在的动态物体的区域，其中，所述潜在的动态物体为行人或车辆。

7.根据权利要求1所述的一种基于动态目标检测的视觉SLAM方法，其特征在于，所述深度学习目标检测网络为Yolov3网络。

8.一种基于动态目标检测的视觉SLAM装置，其特征在于，包括：

分割模块，配置为响应于获取的各个图像帧，基于深度学习目标检测网络对所述各个图像帧进行区域分割，其中，所述各个图像帧中包括潜在动态区域和/或静态区域，所述潜在动态区域中包含运动特征点和/或第一静止特征点，所述静态区域中包含第二静止特征点；

匹配模块，配置为将上一帧图像的第二静止特征点和当前帧图像的第二静止特征点进行匹配；

计算模块，配置为响应于获取的匹配关系，基于RANSAC算法计算得到第一单应矩阵；

提取模块，配置为基于运动特征点滤除方法分别提取所述上一帧图像第一静止特征点和所述当前帧图像的第一静止特征点，其中，所述运动特征点滤除方法为特征点的重投影误差结合最大类间方差法形成的方法；

优化模块，配置为基于所述上一帧图像的第一静止特征点和所述当前帧图像的第一静止特征点的匹配关系，使对所述第一单应矩阵进行优化并得到第二单应矩阵；

补偿模块，配置为依据所述第二单应矩阵，对所述上一帧图像进行运动补偿，使得到运动补偿帧图像。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7任一项所述的方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7任一项所述的方法。