CN115937842A

CN115937842A - 用于机器人的着色LiDAR点云物体检测方法及***

Info

Publication number: CN115937842A
Application number: CN202211629536.0A
Authority: CN
Inventors: 张伟民; 姜洲; 梁凯文; 刘永辉; 黄强
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-04-07

Abstract

本发明涉及一种用于机器人的着色LiDAR点云物体检测方法及***，属于物体检测领域，方法包括：对多个相机进和雷达行外参标定，得到多个相机之间的坐标关系和多个相机与雷达之间的坐标关系；对多个视觉惯性里程计和激光惯性里程计进行融合得到多传感融合里程计数据以及最优里程估计轨迹；根据最优里程估计轨迹确定点云地图；利用多个相机对点云地图进行上色，得到具有RGB颜色信息的点云地图；利用卷积神经网络对具有RGB颜色信息的点云地图进行物体检测，得到物体的大小和三维坐标。本发明能够得到具有真实尺度(大小和三维坐标)的物体，为后续机器人的导航和物体抓取提供极大的便利。

Description

用于机器人的着色LiDAR点云物体检测方法及***

技术领域

本发明涉及物体检测领域，特别是涉及一种用于机器人的着色LiDAR点云物体检测方法及***。

背景技术

人形护理机器人可为老人及生活不便的人提供护理服务，如根据语音等指令拿取传递物品、提供陪伴、监视病情定期提醒吃药等功能。对于物体识别与抓取的功能，传统的目标检测算法均都采用基于相机视觉的二维识别检测，在二维领域可以达到较高的准确度，但深度信息的缺失导致传统检测方法不适用于具有抓取功能的任务，无法为抓取物体的流程提供初步可用的三维位置。部分使用双目摄像头或者RGBD相机得到深度信息，但这种深度信息有很大的误差，尤其在物体较远时，无法得到物体真实的尺寸和三维坐标，为物体抓取工作带来了极大的挑战和困难。因此本技术建立了稠密的LiDAR点云地图，使用多个RGB相机给环境点云上色，最后使用神经网络对彩色点云进行物体检测，得到具有真实尺度(大小和三维坐标)的物体，为后续机器人的导航和物体抓取提供极大的便利。

发明内容

本发明的目的是提供一种用于机器人的着色LiDAR点云物体检测方法及***，能够得到具有真实尺度(大小和三维坐标)的物体，为后续机器人的导航和物体抓取提供极大的便利。

为实现上述目的，本发明提供了如下方案：

一种用于机器人的着色LiDAR点云物体检测方法，包括：

对机器人上的多个相机进行外参标定，得到所述多个相机之间的坐标关系；

对机器人上的多个相机与激光雷达进行外参标定，得到所述多个相机与激光雷达之间的坐标关系；

根据所述多个相机之间的坐标关系以及多个相机与激光雷达之间的坐标关系对多个视觉惯性里程计和激光惯性里程计进行融合，得到多传感融合里程计数据；

对所述多传感融合里程计数据进行非线性联合优化，得到最优里程估计轨迹；

根据所述最优里程估计轨迹确定点云地图；

利用所述多个相机对所述点云地图进行上色，得到具有RGB颜色信息的点云地图；

利用卷积神经网络对所述具有RGB颜色信息的点云地图进行物体检测，得到物体的大小和三维坐标。

可选的，所述对机器人上的多个相机进行外参标定，得到所述多个相机之间的坐标关系，具体包括：

利用机器人自带的IMU传感器分别标定各个相机的外参，得到所述IMU传感器与各个相机之间的坐标关系；

对所述IMU传感器与各个相机之间的坐标关系进行坐标变换，得到多个相机之间的坐标关系。

可选的，使用带有AprilTag的标定板对机器人上的多个相机与激光雷达进行外参标定。

可选的，采用如下公式对所述多传感融合里程计数据进行非线性联合优化：

其中，r_L为激光惯性里程计的残差，r_Ci为第i个相机的视觉惯性里程计残差，r_I为IMU预积分的残差。

可选的，所述利用多个相机对所述点云地图进行上色，具体包括：

利用体素网格对所述点云地图进行处理，得到处理后的点云地图；

利用多个相机拼接组成机器人一周的环境图像；

根据所述机器人一周的环境图像与处理后的点云地图的对应关系将同一个体素网格中的点云附着为同一个颜色。

可选的，所述卷积神经网络包括骨干网络、中部网络、区域建议网络和头部网络。。

可选的，所述卷积神经网络采用SmoothL1的损失函数进行回归。

可选的，所述利用卷积神经网络对所述具有RGB颜色信息的点云地图进行物体检测，具体包括：

对所述具有RGB颜色信息的点云地图使用点云重投影法得到4通道的图像；

将所述4通道的图像输入骨干网络提取3个尺度的特征图；

对所述3个尺度的特征图经过中部网络进行特征融合；

将经过融合的特征图输入区域建议网络，得到物体的3D框预测值，

将所述物体的3D框预测值与3个尺度的特征图输入头部网络，得到物体的大小和三维坐标。

一种用于机器人的着色LiDAR点云物体检测***，包括：

第一外参标定模块，用于对机器人上的多个相机进行外参标定，得到所述多个相机之间的坐标关系；

第二外参标定模块，用于对机器人上的多个相机与激光雷达进行外参标定，得到所述多个相机与激光雷达之间的坐标关系；

多传感融合模块，用于根据所述多个相机之间的坐标关系以及多个相机与激光雷达之间的坐标关系对多个视觉惯性里程计和激光惯性里程计进行融合，得到多传感融合里程计数据；

非线性联合优化模块，用于对所述多传感融合里程计数据进行非线性联合优化，得到最优里程估计轨迹；

点云地图确定模块，用于根据所述最优里程估计轨迹确定点云地图；

上色模块，用于利用所述多个相机对所述点云地图进行上色，得到具有RGB颜色信息的点云地图；

物体检测模块，用于利用卷积神经网络对所述具有RGB颜色信息的点云地图进行物体检测，得到物体的大小和三维坐标。

一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行所述的用于机器人的着色LiDAR点云物体检测方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明进行多相机标定与LiDAR与多相机联合标定，后续基于非线性优化联合优化多个视觉惯性里程计和激光惯性里程计信息，得到机器人最优的里程计。后基于精确的里程计和分辨率可变的体素网格建立稠密的点云地图。

本发明基于自适应距离的可变分辨率体素网格进行点云上色，使得原本没有颜色信息的稠密点云拥有RGB信息，得到彩色点云，为后续识别做基础。

本发明采取基于卷积神经网络的二阶3D物体检测器，使用高精雷达点云的深度信息和语义信息，通过深度卷积神经网络提取上下文特征，与深度和语义特征相融合，完成了空间中3D物体的检测；较于传统的二阶检测器，采取轻量化骨干网络提升推理速度；较于单阶检测器，采取分类和回归独立的检测头，提升了3D框定位的精度。

本发明最终实现具有真实尺度的物体检测，可检测出物体类别，大小(长宽高)以及相对于机器人的三维坐标。可为后续护理机器人导航及拿取物品等提供极大的便利。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明用于机器人的着色LiDAR点云物体检测方法流程图；

图2为本发明可变分辨率的体素网格示意图；

图3为本发明卷积神经网络结构示意图；

图4为bottleneck倒残差网络结构示意图；

图5为骨干网络示意图；

图6为区域建议网络锚框选取示意图；

图7为3D检测框八点回归法示意图；

图8为3D实际检测效果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明用于机器人的着色LiDAR点云物体检测方法流程图，如图1所示，一种用于机器人的着色LiDAR点云物体检测方法，包括：

步骤1：对机器人上的多个相机进行外参标定，得到所述多个相机之间的坐标关系。

步骤2：对机器人上的多个相机与激光雷达进行外参标定，得到所述多个相机与激光雷达之间的坐标关系。

步骤3：根据所述多个相机之间的坐标关系以及多个相机与激光雷达之间的坐标关系对多个视觉惯性里程计和激光惯性里程计进行融合，得到多传感融合里程计数据。

步骤4：对所述多传感融合里程计数据进行非线性联合优化，得到最优里程估计轨迹。

具体的，步骤1-4为基于多传感器建立稠密点云地图的过程，操作过程为：

使用激光雷达，多个相机和IMU进行多传感器融合定位和建图。

1)多相机外参标定：在护理机器人上安装有4个广角相机，可以覆盖机器人大部分视角。则将多个相机图像拼接需要先进行外参的标定，得到4个相机彼此的三维坐标关系。本算法采用基于标定板的方法，首先标定相机和护理机器人自带的IMU传感器的外参，再使用坐标变换，得到多相机之间的坐标变换。

具体过程为，使用AprilGrid标定板先标定一个相机和IMU的相对位姿T_C ^B，即相机到IMU的坐标变换，每个相机都进行标定则得到四个相机分别和IMU的相对位姿变换

则相机1和相机2的相对位姿变换为

同理可得到4个相机之间的坐标变换。用于后续图像拼接，可组合拼接为360度的图像，为后续点云着色提供便利(因为点云是360度无死角的，但是一个相机的视角只有80度左右，所以需要多个相机环绕机器人一周才能得到一周的RGB参数)。

2)相机与激光雷达外参标定：使用带有AprilTag的标定板，相机根据AprilTag得到三维坐标，雷达点云扫到标定板后，基于聚类算法将标定板上的点云分离，再根据PCA算法拟合平面，所得平面作为标定板平面，最后根据相机识别的平面坐标和雷达识别的标定板三维坐标进行变换，得到相机和雷达位姿的相对变换，完成相机和雷达外参的标定。

3)基于非线性优化融合多个视觉惯性里程计和激光惯性里程计数据

由于进行了相机和雷达的外参标定，因此可以将多个视觉惯性里程计(VIO)和激光惯性里程计(LIO)进行融合，得到最优的多传感融合里程计数据。

本发明创新性的提出基于多视觉和激光雷达及IMU融合的里程计用于后续机器人的定位及稠密点云建图，将多个视觉惯性里程计(VIO)和激光惯性里程计(LIO)进行融合，得到最优的多传感融合里程计数据。

其中多视觉惯性里程计VIO前端采用基于图像的光度误差来得到两帧图像的位姿变换，与传统的特征点法相比其不依赖提取准确的特征点进行配对，省去了提取特征点和描述子的时间。光度误差是两张图片中由变换矩阵关联起来的两个像素点的灰度差异。理想情况下，灰度差异应该为0，它们应该是同一个点(仍然基于灰度不变假设)。但实际中由于相机位姿变换矩阵不准确会造成一些差异，我们据此构建一个非线性优化问题，把大量像素点的光度误差的平方和作为总误差，优化相机位姿使该误差最小。其公式如下：

其中w_h是Huber权重，I₁,I₂分别是两帧图像，x₁,x₂分别是空间中一点X在影像上的像素坐标。

其中x₂可以写作：

即x₂是由x₁投影而来，投影的过程中需要两帧之间的相对位姿ξ₂₁和x₁在图像I₁中的逆深度ρ₁。VIO的后端使用传统的非线性优化得到视觉惯性里程计。

激光惯性里程计使用环境的几何特征，包括三维线特征和三维面特征。创新性的提出识别三维线特征时需要分离地面，使用非地面点的点云提取三维线特征；而三维面特征则使用地面点和非地面点共同提取。首先使用RANSAC算法分离地面，其核心思想是随机采样一致性，我们假设地面为平面，因为护理机器人多在屋内工作，地面多为水平的，则使用该算法拟合点云最下面的平面，即为地面点。

去除地面点后，使用DBSCAN密度聚类算法将非地面点中比较稠密的点聚类出来判断是否为三位直线或者三维平面，使用主成分分析法PCA算法进行三维直线和三维平面的拟合。首先计算协方差矩阵C，其中点云的x和y坐标的协方差公式如下：

其中n为点云的数量，x为点云中点的横坐标，y为纵坐标。

其他同理，最终得到点云的协方差矩阵C：

其中cov(x,y)为x坐标和y坐标的协方差，cov(z,y)为z坐标和y坐标的协方差，其余同理，C为总体的协方差矩阵。

求解协方差矩阵的特征值和分解，则特征值从大到小排列为ρ∈{ρ₁,ρ₂,ρ₃}，则当最大特征值ρ₁＞3ρ₂且ρ₁＞3ρ₃时，认为该聚类点簇是三维直线特征，且最大特征值ρ₁对应的特征向量v₁作为三维直线主方向；三维平面判别方式为最大特征是最小的特征值ρ₃＜s(s为一个自定义小值)且不满足最大特征值ρ₁＞3ρ₂且ρ₁＞3ρ₃，则认为该聚类点云簇为一个平面。特别的，三维平面点云分为地面点云和非地面点云。地面点云可以很好的约束旋转的pitch和roll角以及z方向的位姿，非地面点云可约束yaw和xy方向的位姿。

最后创新的融合多个视觉惯性里程计和激光惯性里程计的值进行非线性联合优化，得到最后最优里程计估计。非线性优化公式为：

其中，r_L为雷达惯性里程计的残差，

为第i个相机的视觉里程计残差，r_I为IMU预积分的残差。则最终可基于准确的里程轨迹得到稠密的点云地图。

利用里程轨迹得到稠密的点云地图具体过程为：两帧激光雷达扫描得到的点云为S₁,S₂，则基于上述传感器融合可得到在两帧雷达点云扫描时间间隔Δt时间内的位姿变换T_Δ1。将第一帧点云作为原始坐标O，则可将第两帧雷达点云S₂通过坐标变换T_Δ1与原始坐标O对齐，即得到两帧雷达点云拼接的点云地图，同理，将所有离散位姿变换累加即得到机器人里程计，且将后续接收到的点云使用上述方法全都投影在原始坐标O下，即可得到稠密的点云地图。

稠密的点云地图是具有真实尺度的环境信息，即激光雷达扫描到的物体都是具有真实的大小和距离等，而视觉重建的场景是经过缩放的，不具有真实尺度。我们后续基于稠密点云地图来进行物体检测，所检测到的物体拥有真实的大小和三维坐标，可以极大的提供护理机器人工作效率。

步骤5：根据所述最优里程估计轨迹确定点云地图。

步骤6：利用所述多个相机对所述点云地图进行上色，得到具有RGB颜色信息的点云地图。

具体的，步骤5-6是使用多相机为周围环境的点云地图上色，包括：

LiDAR点云上色：当稠密点云地图建立完成后，将对应视野的相机RGB信息附着在点云地图对应的点上。由于相机的分辨率和雷达点分辨率不相同，所以再附着RGB颜色时需要对齐大致分辨率。我们使用体素网格的方式维护点云地图，则将三维体素网格的分辨率根据距离远近进行划分(距离越远的网格越小)，与相机的分辨率大致相同。再将同一个体素网格中的点云都附着为同一个颜色。

该步骤作用：原始的稠密雷达点云地图是没有RGB颜色信息的，我们使用多相机拼接组成的机器人一周环境图像，给稠密点云上色，使得具有真实尺度的稠密雷达点云拥有RGB颜色信息，给后续神经网络训练提供颜色的特征。

我们创新的提出了可变体素的点云上色方案，传统的体素网格是分辨率不可变的，可变分辨率的体素网格结构如图2所示，我们使用八叉树结构(Octree)对体素进行管理，即距离机器人越远体素网格越密集，则进行RGB上色时就会更加精确。

步骤7：利用卷积神经网络对所述具有RGB颜色信息的点云地图进行物体检测，得到物体的大小和三维坐标。

使用卷积神经网络基于具有RGB颜色信息的稠密雷达点云上进行物体检测，可得到具有真实尺度的物体3D框和类别信息，即检测到的物体具有真实的大小和三维坐标。

网络结构图如图3所示，包括骨干网络、中部网络、区域建议网络和头部网络。其中骨干网络训练得到不同的特征，中部网络进行不同层次的特征之间的融合提高网络的鲁棒性，区域建议网络训练得到物体框的预测值(propose建议值)，头部网络进行最终的回归得到物体类别以及最终3D框。

1)基于深度学习的检测器设置：考虑到实际应用场景为识别物体为后续的导航和抓取提供位置信息，因此对检测器的精度及速度均由一定的要求，需要达成及时并精确的识别到场景中的物体，并对物体的三维位置进行估计的目标；

具体模型识别过程为：

①对上述稠密点云地图建立及RGB上色步骤得到的稠密着色点云使用点云重投影法得到4通道的图像；

我们使用3D点云前视图投影作为卷积神经网络输入，因为稠密3D点云地图是无序的，无法作为神经网络输入进行学习，所以我们将其投影到前视图，作为一个RGBD图像，其包括颜色RGB信息和深度信息D，以及体素滤波后的其在RGBD图像中的XY坐标值。

具体的点云重投影过程为：将foot坐标系下的建完图、上色后的稠密点云在3维空间分割成固定分辨率的体素，包含在体素中点的R、G、B、D、X、Y值平均值代替该体素的信息，对于一张固定视角的点云地图，重投影成与传统3通道图像H*W*C相对应的RGBD图像。本技术将点云地图前视图投影成一个1920*1280分辨率的图像，且为4通道(RGBD)，将其作为网络输入。下式为体素滤波求每个体素网格最终取得的信息。(体素滤波即为将三维空间划分为相同的立体网格，每个网格中的点取均值作为一个点，即每个体素网格只有一个点)；

其中分别求取每个网格的平均值得到一个x坐标、y坐标、深度d、RGB颜色信息作为一个网格的输出。

②将得到的的4通道图像送入骨干网络提取3个尺度的特征图，即下采样64、32和16倍的特征图。

具体骨干网络过程为：考虑到速度、精度与移动端运行需求，骨干网络采取MobileNetV2的设计思想，将输入的1920*1280*4维度大小的图像，经过若干Conv，InvertedResiduals和Bottleneck模块，最终得到下采样64、32和16倍的特征图用于特征融合。骨干网络如表1所示，其中t代表bottleneck中倒残差结构的升维比例，c代表该操作输出的通道数，n代表bottleneck倒残差结构重复的次数，s代表该操作步长，为下采样的倍数；第10,11,12层为下采样64、32和16倍的特征图。骨干网络最终得到了三种不同的特征图(下采样64、32和16倍的特征图，即9，10，11层网络的输出output)，可分别代表小特征，中特征和大特征，也就是下采样倍数越高，提取的特征越抽象，也越大(感受野越大，即同一个点能获取更多的信息)。下表为网络结构图，包括输入的像素值和通道数以及相关处理。

表1骨干网络参数

其中Conv2d为2d卷积操作，bottleneck为倒残差结构，倒残差结构就是对残差相连的模块，先进行投影卷积升维，然后通过深度卷积，最后再使用投影卷积降维，结构流程图如图4所示。

③并将得到的3尺度的特征图(上述步骤得到的下采样64、32和16倍的特征图)经过中部网络进行特征融合。

具体Neck过程为：采用PAFPN结构将得到下采样64、32、16倍的特征图，3层特征图经过空间注意力和通道注意力机制(图6中的注意力机制)对特征进一步融合后，进行路径融合，融合过程中采取拼接操作，利用浅层和深层特征加强3D大中小目标的检测能力，具体过程即使用注意力机制算法，将不同层次的特征相加融合，如下式，即可以感受到不同视野大小的不同特征，使得网络更具有鲁棒性。经过路径融合后，同样输出下采样64、32、16倍的特征图用于区域建议网络网络。

其中空间注意力机制将H*W*C的特征(F)经过卷积变成H*W*1(Fs)的特征，通道注意力机制将H*W*C的特征经过FC变成1*1*C(Fc)的特征，再与H*W*C的特征进行元素相乘。

F_c＝σ(FCs(Global_Avg_Pool(F))

如图5所示，经过骨干网络得到的三种不同层次的特征图，经过注意力机制两两融合，最终输出out_0out_1out_2为融合了不同层次特征图的信息，可以为后续识别分类提供多层次信息，增强其鲁棒性。

③经过融合的特征图送入区域建议网络进行3D框建议生成。

具体区域建议网络过程为：对于特征融合后的下采样64、32、16倍特征图，分别在3个特征图上进行区域建议网络(Region Proposal Net,区域建议网络网络)，具体过程为每一个像素点都铺上三种大小(长宽比不同)的锚框，则三个特征图有三个尺度(因为如第2点中所说不同下采样倍数的特征图可感受到不同尺度的信息，下采样越大，感受到的信息越广)，每个特征图锚点一共是3个框。

根据提前在每个特征图锚点上铺设好的3个的锚框，判断前景背景得分(为区域建议网络网络训练得到)，并进行第一次边框回归，如下面Loss公式即为回归公式。固定大小，不同尺度的锚框设置如图6所示，长宽比分别为1,0.5和2。

④将得到的3D框预测值与提取的3个尺度的特征图一起送入头部网络，如图3所示，进行ROI的分类和3D框回归得到最终检测的3D框和物体类别；

具体头部网络过程为：将三层区域建议网络输出的建议框(预测值)对应的特征图取出，经过自适应卷积模块，输出固定大小和维度的ROI特征(即感兴趣区域，将框中的所有3D点独立取出进行后续的物体分类)，采取物体分类和边框回归独立的检测头，对出入的点云重投影图进行检测。该步骤是进行识别3D物体类别和更新3D框预测值得到最终结果的过程，根据3D框预测值将点云取出，然后得到物体识别分类和最终的3D框。具体物体分类Loss过程为：物体类别的loss采取交叉熵loss，能够将网络输出的差距放大，从而更容易区分类别。

在本检测器中，采取八点法描述检测器输出的目标信息，即使用8个点进行计算，来回归最终的3D框，八点为三维空间中的八个点代表一个3D框，每个点包含RGBD四通道图像中的X、Y坐标信息，八点法示意图如下所示。该步骤为网络的最终输出，即最终检测到的物体3D框和物体类别。物体3D框是一个立体框，具体使用8个点进行表示，如图7和图8所示的框即可表示一个3D物体。

3D框的回归使用下式的LOSS进行，采用SmoothL1的损失函数进行回归得到最终的3D框。

不同于传统的2D框，3D框回归难度很高，因此采取SmoothL1代替传统的IOU loss。

基于上述方法，本发明还公开了一种用于机器人的着色LiDAR点云物体检测***，包括：

第一外参标定模块，用于对机器人上的多个相机进行外参标定，得到所述多个相机之间的坐标关系。

第二外参标定模块，用于对机器人上的多个相机与激光雷达进行外参标定，得到所述多个相机与激光雷达之间的坐标关系。

多传感融合模块，用于根据所述多个相机之间的坐标关系以及多个相机与激光雷达之间的坐标关系对多个视觉惯性里程计和激光惯性里程计进行融合，得到多传感融合里程计数据。

非线性联合优化模块，用于对所述多传感融合里程计数据进行非线性联合优化，得到最优里程估计轨迹。

点云地图确定模块，用于根据所述最优里程估计轨迹确定点云地图。

上色模块，用于利用所述多个相机对所述点云地图进行上色，得到具有RGB颜色信息的点云地图。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于机器人的着色LiDAR点云物体检测方法，其特征在于，包括：

根据所述最优里程估计轨迹确定点云地图；

2.根据权利要求1所述的用于机器人的着色LiDAR点云物体检测方法，其特征在于，所述对机器人上的多个相机进行外参标定，得到所述多个相机之间的坐标关系，具体包括：

3.根据权利要求1所述的用于机器人的着色LiDAR点云物体检测方法，其特征在于，使用带有AprilTag的标定板对机器人上的多个相机与激光雷达进行外参标定。

4.根据权利要求1所述的用于机器人的着色LiDAR点云物体检测方法，其特征在于，采用如下公式对所述多传感融合里程计数据进行非线性联合优化：

其中，r_L为激光惯性里程计的残差，

为第i个相机的视觉惯性里程计残差，r_I为IMU预积分的残差。

5.根据权利要求1所述的用于机器人的着色LiDAR点云物体检测方法，其特征在于，所述利用多个相机对所述点云地图进行上色，具体包括：

利用多个相机拼接组成机器人一周的环境图像；

6.根据权利要求1所述的用于机器人的着色LiDAR点云物体检测方法，其特征在于，所述卷积神经网络包括骨干网络、中部网络、区域建议网络和头部网络。

7.根据权利要求1所述的用于机器人的着色LiDAR点云物体检测方法，其特征在于，所述卷积神经网络采用SmoothL1的损失函数进行回归。

8.根据权利要求1所述的用于机器人的着色LiDAR点云物体检测方法，其特征在于，所述利用卷积神经网络对所述具有RGB颜色信息的点云地图进行物体检测，具体包括：

将所述4通道的图像输入骨干网络提取3个尺度的特征图；

对所述3个尺度的特征图经过中部网络进行特征融合；

9.一种用于机器人的着色LiDAR点云物体检测***，其特征在于，包括：

10.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1-8中任一项所述的用于机器人的着色LiDAR点云物体检测方法。