CN116952219A

CN116952219A - 点云地图构建方法、装置及移动机器人

Info

Publication number: CN116952219A
Application number: CN202310827682.2A
Authority: CN
Inventors: 杨程伟; 乔宏明; 俞科峰; 李嫚; 蒋艺荃
Original assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Current assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-10-27

Abstract

本申请涉及一种点云地图构建方法、装置及移动机器人。所述方法包括：响应于获取到深度图像和RGB图像，对RGB图像进行动态目标的标记，得到具有目标信息的RGB图像；基于深度图像和具有目标信息的RGB图像，确定出连续帧图像；对连续帧图像进行姿态估计，得到位姿信息；位姿信息包括静态位姿数据和基于目标信息所确定出的动态目标的动态位姿数据；获取对位姿信息进行位姿结果优化的优化结果，基于优化结果生成点云地图；其中，位姿结果优化用于依据动态位姿数据与静态位姿数据之间的相似程度，补偿对位姿信息的计算偏差。本申请降低了动态目标对位姿求解的影响，实现更加精确的位姿估计求解以生成稠密的点云地图，方便机器人导航和定位使用。

Description

点云地图构建方法、装置及移动机器人

技术领域

本申请涉及定位技术领域，特别是涉及一种点云地图构建方法、装置及移动机器人。

背景技术

针对智能化机器人和自动驾驶***等，为了实现类人的感知和决策能力，需要机器人能够获取环境中的各种信息，并通过各种传感器的数据来建立***感知模型，以便自身定位和建立完整地图，进而方便后续的路径规划和碰撞检测等操作。目前相对于激光雷达设备而言，视觉相机的信息获取和后续处理性能及成本更优，基于视觉的SLAM(Simultaneous Localization and Mapping，同步定位与地图构建)成为了研究重点。

然而，传统基于视觉的定位方式在实际场景中会降低相机位姿的估计精度，影响定位和建图的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高准确性的点云地图构建方法、装置及移动机器人。

第一方面，本申请提供了一种点云地图构建方法，方法包括：

响应于获取到深度图像和RGB图像，对RGB图像进行动态目标的标记，得到具有目标信息的RGB图像；

基于深度图像和具有目标信息的RGB图像，确定出连续帧图像；

对连续帧图像进行姿态估计，得到位姿信息；位姿信息包括静态位姿数据和基于目标信息所确定出的动态目标的动态位姿数据；

获取对位姿信息进行位姿结果优化的优化结果，基于优化结果生成点云地图；其中，位姿结果优化用于依据动态位姿数据与静态位姿数据之间的相似程度，补偿对位姿信息的计算偏差。

在其中一个实施例中，对连续帧图像进行姿态估计，得到位姿信息，包括：

对连续帧图像进行关键帧选取，得到关键帧图像；

对关键帧图像进行姿态估计，得到位姿信息。

在其中一个实施例中，RGB图像和深度图像为经至少一个数据采集设备采集得到；对连续帧图像进行关键帧选取，得到关键帧图像，包括：

响应于抽帧条件的触发，对连续帧图像进行抽帧处理，得到关键帧图像；抽帧条件包括数据采集设备的位移量大于位移阈值，以及数据采集设备的旋转量大于旋转阈值中的至少一种。

在其中一个实施例中，静态位姿数据包括对应静态区域的第一位姿变换矩阵；动态位姿数据包括对应动态区域的第二位姿变换矩阵；

对关键帧图像进行姿态估计，得到位姿信息，包括：

基于VSLAM模型和G20模型处理关键帧图像，得到第一位姿变换矩阵和第二位姿变换矩阵。

在其中一个实施例中，对位姿信息进行位姿结果优化，包括：

获取第一位姿变换矩阵的第一标准差，以及第二位姿变换矩阵的第二标准差；

获取第一位姿变换矩阵和第二位姿变换矩阵的协方差；

基于协方差、以及第一标准差与第二标准差之积，得到用于描述相似程度的可信度；

若根据可信度确定相似程度低于阈值，则基于动态区域的深度信息、以及静态区域中目标点与数据采集设备之间的平均距离，获取距离比例系数；其中，目标点为基于VSLAM模型选取得到；

根据距离比例系数、可信度和第二位姿变换矩阵，对第一位姿变换矩阵进行迭代计算，直至相似程度高于阈值。

在其中一个实施例中，对RGB图像进行动态目标的标记，得到具有目标信息的RGB图像，包括：

采用YOLOv5模型处理RGB图像，得到具有目标信息的RGB图像。

第二方面，本申请还提供了一种点云地图构建装置，装置包括：

标记模块，用于响应于获取到深度图像和RGB图像，对RGB图像进行动态目标的标记，得到具有目标信息的RGB图像；

图像模块，用于基于深度图像和具有目标信息的RGB图像，确定出连续帧图像；

位姿获取模块，用于对连续帧图像进行姿态估计，得到位姿信息；位姿信息包括静态位姿数据和基于目标信息所确定出的动态目标的动态位姿数据；

位姿优化模块，用于获取对位姿信息进行位姿结果优化的优化结果，基于优化结果生成点云地图；其中，位姿结果优化用于依据动态位姿数据与静态位姿数据之间的相似程度，补偿对位姿信息的计算偏差。

第三方面，本申请还提供了一种移动机器人，包括：

数据采集设备，用于采集深度图像和RGB图像；

存储器和处理器，处理器连接数据采集设备，存储器存储有计算机程序，处理器执行计算机程序时实现上述的方法的步骤。

在其中一个实施例中，数据采集设备包括RGB-D相机。

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的方法的步骤。

上述点云地图构建方法、装置及移动机器人，在获取到RGB图像和深度图像的情况下，先对RGB图像标记动态目标，得到具有目标信息的RGB图像，进而利用目标信息和连续帧图像获取位姿信息，该位姿信息包括静态位姿数据和动态位姿数据，并通过对位姿信息进行位姿结果优化，基于优化结果生成点云地图；其中，该位姿结果优化用于依据动态位姿数据与静态位姿数据之间的相似程度，补偿对位姿信息的计算偏差，进而实现了对动态环境获得较为精确的位置估计；本申请降低了动态目标对位姿求解的影响，实现更加精确的位姿估计求解，并生成稠密的点云地图，方便机器人导航和定位使用。

附图说明

图1为一个实施例中点云地图构建方法的流程示意图；

图2为一个实施例中获取位姿信息步骤的流程示意图；

图3为另一个实施例中点云地图构建方法的流程示意图；

图4为一个实施例中移动机器人关键帧的轨迹图；

图5为ORBSLAM2轨迹图；

图6为一个实施例中移动机器人关键帧的RPE示意图；

图7为ORBSLAM2的RPE示意图；

图8为一个实施例中点云地图构建装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

可以理解的是，本申请中诸如“第一”、“第二”等术语仅用于区分类似的对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

可以理解，以下实施例中的“连接”，如果被连接的电路、模块、单元等相互之间具有电信号或数据的传递，则应理解为“电连接”、“通信连接”等。

可以理解，“至少一个”是指一个或多个，“多个”是指两个或两个以上。

在此使用时，单数形式的“一”、“一个”和“所述/该”也可以包括复数形式，除非上下文清楚指出另外的方式。还应当理解的是，术语“包括/包含”或“具有”等指定所陈述的特征、整体、步骤、操作、组件、部分或它们的组合的存在，但是不排除存在或添加一个或更多个其他特征、整体、步骤、操作、组件、部分或它们的组合的可能性。同时，在本说明书中使用的术语“和/或”包括相关所列项目的任何及所有组合。

目前大多数视觉SLAM算法是基于场景刚性的假设，使用Bundle Adjustment方法优化特征点的位置以求解相机的位姿，但传统方案不能体现动态目标在图像中的影响，在实际场景中会降低相机位姿的估计精度，影响基于相机的定位和建图的准确性。

本申请实施例提供的点云地图构建方法，该方法应用于移动机器人，该移动机器人可以为扫地机器人、领路机器人、送餐机器人等，又如营业厅中迎宾接待移动机器人。该移动机器人还可以是无人机、自动驾驶汽车等。该方法所实现的功能可以通过移动机器人中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该移动机器人至少包括处理器和存储介质。

示例性地，本申请实施例可以部署在时间敏感的应用中，如自动驾驶汽车和视频监控***。可选地，本申请中的移动机器人可以指视觉SLAM终端。进一步地，本申请可用于移动机器人路径规划，以及也可用于移动计器人的多感官交互应用场景。基于本申请实施例，对于复杂场景的移动机器人的躲避障碍物的性能有所提升。

在一个实施例中，如图1所示，提供了一种点云地图构建方法，以该方法应用于移动机器人为例进行说明，包括以下步骤：

步骤102，响应于获取到深度图像和RGB图像，对RGB图像进行动态目标的标记，得到具有目标信息的RGB图像。

其中，移动机器人可以通过数据采集设备获取深度图像和RGB图像。示例性地，数据采集设备可以是相机，例如视觉相机；可选地，本申请实施例中的数据采集设备可以是RGB-D相机。进一步地，数据采集设备的数量可以为一个或多个。

移动机器人在获取到深度图像和RGB图像的情况下，需要对RGB图像做预处理，具体地，RGB图像需要经过目标监测处理，其中，可以标记RGB图像中的动态目标，以获得具有目标信息的RGB图像。示例性地，以数据采集设备是RGB-D相机为例，RGB-D相机采集得到的RGB视频和深度视频中的每一帧即为相应的图像，RGB-D的每一帧都需要经过目标检测处理。

示例性地，目标信息可以指标记信息，例如动态标记，移动机器人可以对RGB图像进行处理，获得具有动态标记的图像。可选地，目标信息可以指在连续帧中检测到的动态物体。

在其中一个实施例中，对RGB图像进行动态目标的标记，得到具有目标信息的RGB图像，可以包括：

采用YOLOv5模型处理RGB图像，得到具有目标信息的RGB图像。

具体而言，YOLOv5模型可以指YOLOv5网络，例如YOLOv5神经网络。本申请实施例中的移动机器人利用YOLOv5网络标记动态目标，例如通过开源的YOLOv5神经网络对RGB图像进行处理，获得具有动态标记的图像，利用YOLOV5模型可以快速地将画面中的动态物体与静态物体区分。

本申请实施例利用YOLOv5模型对RGB图像做预处理，可以适用于实时目标检测，能够快速高效的进行目标检测。示例性地，本申请中的YOLOv5模型每秒能够处理多个帧(YOLO架构的实时帧速率可以为45帧/秒，也可以为155帧/秒)，可以部署在时间敏感的应用中，如自动驾驶汽车和视频监控***；进一步地，本申请中的YOLOv5模型采用单网络架构，使用单个卷积神经网络来执行对象检测和分类，与其他需要多个网络或阶段的检测网络相比，更容易训练和部署。

本申请中通过基于YOLOV5检测环境对RGB图像进行动态目标的标记，生成所需的目标信息的过程，显著优于DPM(Deformable Parts Model，可变形部件模型)和R-CNN(Region-based Convolutional Neural Networks，基于区域的卷积神经网络)等检测方式；本申请实施例快速高效，适用于实时目标检测，能够配合后续确定出连续帧图像、获取位姿信息以及进行位姿结果优化等流程，实现对动态环境获得较为精确的位置估计，使得移动机器人在复杂的动态场景中具有更高的定位精度。

步骤104，基于深度图像和具有目标信息的RGB图像，确定出连续帧图像。

具体地，在获取到有目标信息的RGB图像的情况下，可以将深度图像和具有目标信息的RGB图像相结合，以确定出连续帧图像(简称连续帧)。

示例性地，以目标信息为动态标记为例，本申请实施例通过开源的YOLOv5神经网络对RGB图像进行处理，获得具有动态标记的图像，并与深度图像相结合，获得关键帧的数据，其中，关键帧的数据可以指对连续帧图像进行选取得到，例如连续帧的抽帧，进而抽帧得到的关键帧中也是包含目标信息的。

步骤106，对连续帧图像进行姿态估计，得到位姿信息；位姿信息包括静态位姿数据和基于目标信息所确定出的动态目标的动态位姿数据。

具体而言，移动机器人通过对连续帧图像进行姿态估计，可以得到位姿信息。示例性地，可以将深度图像和带有标记信息的RGB图像一起传递到SLAM程序中，利用标记信息和连续帧求解出位姿信息，该位姿信息可以包括静态位姿数据和动态位姿数据；其中，动态位姿数据可以是基于目标信息所确定出的。

示例性地，静态位姿数据可以指位姿变换矩阵，例如静态SE3(Special EuclideanGroup 3D)位姿矩阵，动态位姿数据可以指位姿变换矩阵，例如动态SE3位姿矩阵。

以使用YOLOv5模型为例，经过前端YOLOv5检测网络生成所需的目标信息后，可以将其传输到VSLAM(例如，视觉SLAM终端)以进行姿态估计。示例性地，移动机器人可以通过开源的动态VSLAM和G2O(General Graphic Optimization，通用图优化)对帧进行处理，以计算位姿信息。

以上，本申请实施例提出基于YOLOV5检测环境下的动态VSLAM方案，使移动计器人具有更加精确的位姿估计，实现更加高精度的定位。

步骤108，获取对位姿信息进行位姿结果优化的优化结果，基于优化结果生成点云地图；其中，位姿结果优化用于依据动态位姿数据与静态位姿数据之间的相似程度，补偿对位姿信息的计算偏差。

具体而言，在获取到位姿信息的情况下，移动机器人可以对位姿信息进行位姿结果优化，以获取优化结果。其中，该位姿结果优化用于依据动态位姿数据与静态位姿数据之间的相似程度，补偿对位姿信息的计算偏差。

本申请实施例中，通过对位姿信息进行位姿结果优化，可以消除两个变量变化幅度的影响，而单纯反应两个变量每单位变化时的相似程度，实现了对动态环境获得较为精确的位置估计。

示例性地，动态位姿数据与静态位姿数据之间的相似程度，可以用于描述在场景中动态目标的变化是否与数据采集设备(例如相机)相对于静态环境的变化相似。可选地，补偿对位姿信息的计算偏差可以指若基于相似程度确认二者差别很大，则可以补偿静态位姿的计算偏差。本申请实施例通过位姿结果优化获得静态位姿，相比于传统直接通过计算连续帧中的相似特征点位姿的方式，提高了位姿求解的精确性。

本申请极大地降低了动态目标对相机位姿求解的影响，实现更加精确的相机位姿估计求解，并可以生成稠密的静态点云地图，方便机器人导航和定位使用。其中，相机位姿可以指相机在采集图像时在特定坐标系(如世界坐标系或自定义坐标系等)中的坐标和旋转角度。

示例性地，在获取到优化结果的情况下，移动机器人可以基于优化结果生成点云地图。本申请实施例中，点云地图可以指由一组离散的采样点表示的地图，能够满足定位需求、导航与避障需求、以及可视化和交互需求等。

进一步地，机器人可以通过构建点云图的线程，建立稠密的点云地图。示例性地，构建出的点云地图可以用于机器人定位的应用。可选地，关于构建点云图的线程可以理解为是代码，以ORBSLAM2代码为例，可以将跟踪(Tracking)生成的关键帧(KeyFrame)以及彩色和深度图像***队列中，显示稠密点云的线程从队列中获取图像进行点云的生成。示例性地，可以采用PCL(Point Cloud Library，点云库)库，进行点云的生成、坐标变换、滤波和显示。

需要说明的是，本申请实施例中使用到的YOLOV5、G2O、VSLAM和构建点云图等可以是开源的模型，本申请实施例对此并无限定。

上述点云地图构建方法，通过快速地将画面中的动态物体与静态物体区分，并结合位姿结果优化，使移动计器人具有更加精确的位姿估计，实现更加高精度的定位。该位姿结果优化消除了两个变量变化幅度的影响，而单纯反应两个变量每单位变化时的相似程度，实现了对动态环境获得较为精确的位置估计。

在其中一个实施例中，如图2所示，对连续帧图像进行姿态估计，得到位姿信息，可以包括：

步骤202，对连续帧图像进行关键帧选取，得到关键帧图像；

具体地，本申请实施例在获取位姿信息的过程中，可以对连续帧图像进行关键帧选取，以获得关键帧图像(简称关键帧)。其中，关键帧选取可以指抽帧。

在其中一个实施例中，RGB图像和深度图像为经至少一个数据采集设备采集得到；对连续帧图像进行关键帧选取，得到关键帧图像，可以包括：

具体而言，关键帧可以指连续帧的抽帧。在抽帧条件触发的情况下，移动机器人可以对连续帧图像进行抽帧处理，进而得到关键帧图像。以数据采集设备为相机为例，该抽帧条件可以指相机坐标系相对特定坐标系(如世界坐标系或自定义坐标系等)的姿态(例如旋转角度)、平移距离等所满足的动作条件。可选地，抽帧条件可以包括数据采集设备的位移量大于位移阈值，以及数据采集设备的旋转量大于旋转阈值中的至少一种。

示例性地，RGB图像和深度图像可以是将每一时刻相同时间的帧作为数据，进而在相机有较大位移或旋转的时刻，或在一段时间后，获得关键帧。本申请实施例中，抽帧得到的关键帧中也包含目标信息。

步骤204，对关键帧图像进行姿态估计，得到位姿信息。

具体地，在获取到关键帧图像的情况下，移动机器人可以对关键帧图像进行姿态估计，进而得到位姿信息。示例性地，响应于获取到包含目标信息的关键帧，将其传输到本申请改进的视觉SLAM终端进行姿态估计，再通过开源的动态VSLAM和G2O对帧进行处理，以计算位姿信息。

在其中一个实施例中，静态位姿数据可以包括对应静态区域的第一位姿变换矩阵；动态位姿数据包括对应动态区域的第二位姿变换矩阵；

对关键帧图像进行姿态估计，得到位姿信息，包括：

具体地，第一位姿变换矩阵可以指静态SE3位姿矩阵，第二位姿变换矩阵可以指动态SE3位姿矩阵。本申请实施例可以利用目标信息和关键帧求解出动态和静态SE3位姿矩阵。示例性地，可以通过开源的动态VSLAM和G2O对帧进行处理，以得到第一位姿变换矩阵和第二位姿变换矩阵。

在其中一个实施例中，对位姿信息进行位姿结果优化，可以包括：

获取第一位姿变换矩阵和第二位姿变换矩阵的协方差；

具体而言，本申请提出通过位姿结果优化算法对位姿信息进行优化，并通过构建点云图的线程，建立稠密的点云地图，实现了对动态环境获得较为精确的位置估计。

可选地，以使用VSLAM模型为例，通过开源的VSLAM程序计算可得到静态区域位姿变换矩阵(第一位姿变换矩阵)，以及通过选取动态区域的点可得到动态位姿矩阵(即动态区域的相对位姿变换，也即第二位姿变换矩阵)，进而通过计算两个矩阵的协方差相Covariance比上二者的标准差之积，获得动态位姿矩阵的可信度，可信度用来补偿静态位姿和减少动态目标对SLAM求解的干扰。

示例性地，通过开源的VSLAM程序计算可得到静态区域位姿变换矩阵ξ_S，同理，选取动态区域的点可得到动态区域的相对位姿变换矩阵ξ_D。通过计算两个矩阵的协方差相Covariance比上二者的标准差之积，获得动态位姿矩阵的可信度ρ，用来补偿静态位姿和减少动态目标对SLAM求解的干扰，其中，可以基于以下公式得到可信度：

其中，为ξ_s的标准差，/>为ξ_D的标准差，ρ∈(-1,1)。

本申请实施例消除了两个变量变化幅度的影响，通过两个变量每单位变化时的相似程度，反映在场景中动态目标的变化是否与相机相对于静态环境的变化相似，若差别很大，则可以与距离比例系数相乘，得ξ_s＝ξ_S+λρξ_D用以迭代计算，补偿静态位姿的计算偏差(例如直至差别很小，又如直至相似程度高于阈值)，其中D_i为一帧图像中第i个动态目标区域，Z为相机相对世界坐标系的距离。通过上述位姿结果优化获得到的静态位姿，相比于传统直接通过计算连续帧中的相似特征点位姿的方式，提高了位姿求解的精确性。

需要说明的是，关于根据可信度确定相似程度低于阈值，可以指ρ∈(-1，-0.5)∪(0.5，1)的情况，此种情况下表示相似程度差别很大。示例性地，D_i可以指动态目标区域中的第i个深度信息，Z为静态区域中地图点(即目标点)与相机的平均距离；地图点可以指的是VSLAM中利用特征点法选择出特征点的集合。

示例性地，以数据采集设备为相机为例，在VSLAM中，世界坐标系通常与地图的坐标系对应。当开始构建地图时，可以设定相机的初始位置作为世界坐标的原点。一旦建立了世界坐标系，相机和地图点的位置就可以相对于世界坐标系进行描述。需要说明的是，本申请中的世界坐标系，可以指以相机初始位置为原点，以上方为z轴，以任意方向为x,y轴，建立的固定不变的x,y,z三维坐标系。

上述点云地图构建方法，通过位姿结果优化实现了使移动计器人对动态环境获得更加精确的位置估计，进而实现高精度的定位。

为了进一步阐释本申请的方案，下面结合一个具体示例予以说明，如图3所示，本申请利用YOLOV5模型处理RGB图像，可以快速地将画面中的动态物体与静态物体区分，通过将具有动态标记的RGB图像与深度图像相结合，获得关键帧，在通过VSLAM和G2O获取到位姿信息后，进而可以通过位姿结果优化，使移动计器人具有更加精确的位姿估计，实现更加高精度的定位。其中，位姿结果优化可以消除了两个变量变化幅度的影响，而单纯反应两个变量每单位变化时的相似程度，实现了对动态环境获得较为精确的位置估计。

本申请极大地降低了动态目标对相机位姿求解的影响，可以实现更加精确的相机位姿估计求解，并生成稠密的静态点云地图，方便机器人导航和定位使用。

进一步地，如图4和图5所示的实验对比结果，关于本申请实施例的位姿结果优化的效果，在同样的数据集中，分别采用本申请和ORBSLAM2进行比较，数据集为TUM数据集，场景为Dynamic Objects/fr3相机和用户都在移动。

比较如图4所示的本申请点云地图构建方法形成的轨迹图与图5所示的ORBSLAM2轨迹图可知，本申请的轨迹图和真实轨迹更加接近。通过计算二者的RPE(Relative PoseError)相对位姿误差值，比较如图6所示的本申请RPE和图7所示的ORBSLAM2的RPE，可知本申请的RPEsse相对位姿误差的和方差为0.182777，而ORBSLAM2的RPEsse为0.679336，前者表现出更小的运动误差和更高的鲁棒性。

以上，以ORBSLAM2为例，实验结果表明，与ORBSLAM2相比，在TUM-fr3数据集下，本申请的RPEsse仅为ORBSLAM2的26.9％，表现出更小的运动误差和更高的鲁棒性。

基于本申请实施例，移动机器人可以利用SLAM进行定位以及位姿结果优化。移动计器人可以通过YOLOv5神经网络对RGB图像进行处理，获得具有动态标记的图像，并与深度图像相结合，获得关键帧。然后，通过动态VSLAM和G2O对帧进行处理，以计算位姿信息。最后，使用位姿结果优化算法，再通过构建点云图的线程，建立稠密的点云地图；其中，位姿结果优化消除了两个变量变化幅度的影响，而单纯反应两个变量每单位变化时的相似程度，实现了对动态环境获得较为精确的位置估计。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的点云地图构建方法的点云地图构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个XXX装置实施例中的具体限定可以参见上文中对于点云地图构建方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种点云地图构建装置，包括：

标记模块801，用于响应于获取到深度图像和RGB图像，对RGB图像进行动态目标的标记，得到具有目标信息的RGB图像；

图像模块802，用于基于深度图像和具有目标信息的RGB图像，确定出连续帧图像；

位姿获取模块803，用于对连续帧图像进行姿态估计，得到位姿信息；位姿信息包括静态位姿数据和基于目标信息所确定出的动态目标的动态位姿数据；

位姿优化模块804，用于获取对位姿信息进行位姿结果优化的优化结果，基于优化结果生成点云地图；其中，位姿结果优化用于依据动态位姿数据与静态位姿数据之间的相似程度，补偿对位姿信息的计算偏差。

在其中一个实施例中，位姿获取模块803包括：

选帧模块，用于对连续帧图像进行关键帧选取，得到关键帧图像；

姿态估计模块，用于对关键帧图像进行姿态估计，得到位姿信息。

在其中一个实施例中，RGB图像和深度图像为经至少一个数据采集设备采集得到；选帧模块，用于响应于抽帧条件的触发，对连续帧图像进行抽帧处理，得到关键帧图像；抽帧条件包括数据采集设备的位移量大于位移阈值，以及数据采集设备的旋转量大于旋转阈值中的至少一种。

姿态估计模块，用于基于VSLAM模型和G20模型处理关键帧图像，得到第一位姿变换矩阵和第二位姿变换矩阵。

在其中一个实施例中，位姿优化模块804，用于获取第一位姿变换矩阵的第一标准差，以及第二位姿变换矩阵的第二标准差；获取第一位姿变换矩阵和第二位姿变换矩阵的协方差；基于协方差、以及第一标准差与第二标准差之积，得到用于描述相似程度的可信度；若根据可信度确定相似程度低于阈值，则基于动态区域的深度信息、以及静态区域中目标点与数据采集设备之间的平均距离，获取距离比例系数；其中，目标点为基于VSLAM模型选取得到；以及根据距离比例系数、可信度和第二位姿变换矩阵，对第一位姿变换矩阵进行迭代计算，直至相似程度高于阈值。

在其中一个实施例中，标记模块801，用于采用YOLOv5模型处理RGB图像，得到具有目标信息的RGB图像。

上述点云地图构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种点云地图构建方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

示例性地，上述计算机设备可以指移动机器人。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种移动机器人，包括：

数据采集设备，用于采集深度图像和RGB图像；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的方法的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种点云地图构建方法，其特征在于，所述方法包括：

响应于获取到深度图像和RGB图像，对所述RGB图像进行动态目标的标记，得到具有目标信息的RGB图像；

基于所述深度图像和所述具有目标信息的RGB图像，确定出连续帧图像；

对所述连续帧图像进行姿态估计，得到位姿信息；所述位姿信息包括静态位姿数据和基于所述目标信息所确定出的所述动态目标的动态位姿数据；

获取对所述位姿信息进行位姿结果优化的优化结果，基于所述优化结果生成点云地图；其中，所述位姿结果优化用于依据所述动态位姿数据与所述静态位姿数据之间的相似程度，补偿对所述位姿信息的计算偏差。

2.根据权利要求1所述的方法，其特征在于，所述对所述连续帧图像进行姿态估计，得到位姿信息，包括：

对所述连续帧图像进行关键帧选取，得到关键帧图像；

对所述关键帧图像进行姿态估计，得到所述位姿信息。

3.根据权利要求2所述的方法，其特征在于，所述RGB图像和所述深度图像为经至少一个数据采集设备采集得到；所述对所述连续帧图像进行关键帧选取，得到关键帧图像，包括：

响应于抽帧条件的触发，对所述连续帧图像进行抽帧处理，得到所述关键帧图像；所述抽帧条件包括所述数据采集设备的位移量大于位移阈值，以及所述数据采集设备的旋转量大于旋转阈值中的至少一种。

4.根据权利要求2所述的方法，其特征在于，所述静态位姿数据包括对应静态区域的第一位姿变换矩阵；所述动态位姿数据包括对应动态区域的第二位姿变换矩阵；

所述对所述关键帧图像进行姿态估计，得到所述位姿信息，包括：

基于VSLAM模型和G20模型处理所述关键帧图像，得到所述第一位姿变换矩阵和所述第二位姿变换矩阵。

5.根据权利要求4所述的方法，其特征在于，对所述位姿信息进行位姿结果优化，包括：

获取所述第一位姿变换矩阵的第一标准差，以及所述第二位姿变换矩阵的第二标准差；

获取所述第一位姿变换矩阵和所述第二位姿变换矩阵的协方差；

基于所述协方差、以及所述第一标准差与所述第二标准差之积，得到用于描述所述相似程度的可信度；

若根据所述可信度确定所述相似程度低于阈值，则基于所述动态区域的深度信息、以及所述静态区域中目标点与所述数据采集设备之间的平均距离，获取距离比例系数；其中，所述目标点为基于所述VSLAM模型选取得到；

根据所述距离比例系数、所述可信度和所述第二位姿变换矩阵，对所述第一位姿变换矩阵进行迭代计算，直至所述相似程度高于阈值。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述对所述RGB图像进行动态目标的标记，得到具有目标信息的RGB图像，包括：

采用YOLOv5模型处理所述RGB图像，得到所述具有目标信息的RGB图像。

7.一种点云地图构建装置，其特征在于，所述装置包括：

标记模块，用于响应于获取到深度图像和RGB图像，对所述RGB图像进行动态目标的标记，得到具有目标信息的RGB图像；

图像模块，用于基于所述深度图像和所述具有目标信息的RGB图像，确定出连续帧图像；

位姿获取模块，用于对所述连续帧图像进行姿态估计，得到位姿信息；所述位姿信息包括静态位姿数据和基于所述目标信息所确定出的所述动态目标的动态位姿数据；

位姿优化模块，用于获取对所述位姿信息进行位姿结果优化的优化结果，基于所述优化结果生成点云地图；其中，所述位姿结果优化用于依据所述动态位姿数据与所述静态位姿数据之间的相似程度，补偿对所述位姿信息的计算偏差。

8.一种移动机器人，其特征在于，包括：

数据采集设备，用于采集深度图像和RGB图像；

存储器和处理器，所述处理器连接所述数据采集设备，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.根据权利要求8所述的移动机器人，其特征在于，所述数据采集设备包括RGB-D相机。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。