CN117472058A

CN117472058A - 一种基于3d点云的智能远程驾驶方法及***

Info

Publication number: CN117472058A
Application number: CN202311500235.2A
Authority: CN
Inventors: 陈建; 万杰; 郑明魁; 朱映韬; 徐晶晶
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-01-30

Abstract

本发明涉及一种基于3D点云的智能远程驾驶方法及***。包括行驶端编码传输过程以及远程控制端实时解码处理过程，行驶端编码传输过程包括：实时采集三维驾驶场景信息、数据预处理、编码与压缩、封装与传输，远程控制端解码处理过程包括：实时接收与解封装、实时解码、三维场景重构、同步定位与建图、多模态3D目标检测、智能判断驾驶。本发明利用恢复的双目相机和激光雷达数据进行了多模态的3D目标检测，实现3D场景下的人物与车辆的目标检测与醒目框选表示，提高远程驾驶可靠性。本发明***具有时间复杂度低、实时性高、安全可靠、高精度等优点，符合车路协同、远程智能驾驶、车载点云、机器人视觉技术领域要求。

Description

一种基于3D点云的智能远程驾驶方法及***

技术领域

本发明属于车路协同、智能驾驶、3D点云视频获取、实时视频编码、Lidar点云压缩、多模态3D目标检测、机器人视觉技术领域，尤其涉及一种基于3D点云的智能远程驾驶方法及***。

背景技术

随着新一代通信技术与新能源汽车平台的快速发展，家用汽车领域呈现智能化发展趋势，其中以无人自动驾驶、远程辅助驾驶等功能模块为主的新一代智能汽车随着智慧城市与智能交通的建设越来越受到人们的关注。然而，作为与人民生命安全直接相关的汽车行驶相关技术，无人驾驶技术的推广始终与其安全、可靠性直接相关。因此，在缺乏成熟的自动驾驶技术的当下，将无人驾驶同远程辅助驾驶相结合的机制可以有效保障自动驾驶场景下的乘客安全。其中，远程辅助驾驶是一种人车分离的驾驶模式，其要求驾驶员根据摄像头拍摄的道路画面来远程操控车辆的行驶状态，成熟的远程辅助驾驶***可实现包括车辆的加速、减速、转弯、换挡、制动等常规驾驶场景下的一切操作。由于远程辅助驾驶功能可以实现人车分离，保障驾驶员安全的同时避免长期道路行驶颠簸出现疲劳，因此应用场景非常广泛，已成为当前汽车领域的热点研究话题。

远程驾驶要求远程端驾驶员及时感知驾驶场景周围环境，目前主流解决方案是通过2D摄像头获取视频流后基于网络实现远程场景实时展示。然而，受限于2D视频本身不包括深度信息，无法提供驾驶场景的真实三维环境，因此不论是驾驶员自主观察亦或是基于学习的目标检测算法，均可能出现部分遮挡目标和远处检测对象的漏检、以及对形状相似的物体的错误检测等缺陷。并且，由于远程辅助驾驶需依托稳定且高带宽的网络环境，以保证低时延、高可靠的远程传输，因此，针对网络波动甚至断网的场景，需要应急方案来解决安全隐患。此外，由于车载Lidar点云的庞大数据量，对实时性能提出了巨大的挑战。最后，基于单传感器的激光雷达同步定位与建图(Simultaneous Localization andMapping，SLAM)算法由于恶劣环境以及成本导致的精度下降等因素，使得自动驾驶存在一定的误差。因此，设计发明一款兼顾可视化效果、安全性、实时性和精确度的智能远程驾驶非常有必要。

发明内容

本发明的目的在于上述现有技术存在的缺陷与不足，提供一种基于3D点云的智能远程驾驶方法及***，包括：三维点云视频采集压缩、实时传输、多传感器里融合、激光SLAM、辅助驾驶、多模态3D目标检测、驾驶模式智能切换。首先，对行驶场景下环境视频流进行多路实时压缩传输，并在驾驶端实现实时3D点云场景重构复现，提高远程驾驶的实时性和真实感；其次，根据解码得到的RGB信息以及激光雷达点云信息进行多模态3D目标检测，对3D场景下的人物与车辆进行醒目框表示，提高检测精度，并辅以语音模块，增加远程驾驶的可靠性；最后，在改进实时Lidar点云传输***的基础上，通过基于多传感器融合的Gmapping改进算法结合自适应蒙特卡洛定位算法(Adaptive Mentcarto Localization，AMCL)与move_base功能包实现一体化实时建图、定位、与导航功能，完成智能辅助驾驶，加强远程驾驶的安全性。

为实现上述目的，本发明的技术方案是：一种基于3D点云的智能远程驾驶方法，包含行驶端采集编码处理过程以及远程控制端解码控制过程。

所述行驶端采集编码传输过程包括以下步骤：

步骤C1：实时采集行驶场景信息；

C11：利用双目相机实时采集双路RGB视频；

C12：利用激光雷达实时采集点云数据；

C13：利用小车底部控制板实时获取轮式里程计信息；

步骤C2：将传感器采集到的数据传入行驶端微处理器进行预处理；

C21：根据双目相机采集的左右视频流计算视差，生成中间视点的彩***和其对应的深度图；

C22：实时解析激光雷达点云数据，去除激光点云畸变，之后进行距离图映射；

C23：将轮式里程计信息转换为字节数组，以便更好的打包传输；

步骤C3：对预处理后的数据进行编码压缩，以便达到实时传输的要求；

C31：对双目相机采集的一路彩***和生成的一路深度视频进行二维视频编码压缩；

C32：将映射之后的距离图进行双向预测以及多维浮点数组的无损压缩编码(Lossless compressor ofmultidimensional floating-point arrays，FPZIP)；

C33：将轮式里程计信息进行打包压缩；

步骤C4：对编码码流分别进行封装和传输；

C41：对编码码流进行封装；

C42：对封装后的比特流使用UDP协议进行网络传输；

所述远程控制端解码处理过程具体包括以下步骤：

步骤D1：实时接收数据与解封装；

D11：使用UDP网络协议接收；

D12：对接收的编码码流进行实时解析与解封装；

步骤D2：对解封装的码流进行解码；

D21：对视频编码比特流进行视频解码；

D22：对压缩的距离图进行解码和格式转换，重构激光雷达点云；

D23：对轮式里程计数据包进行解析；

步骤D3：三维场景重构；

D31：利用彩***和深度视频重构3D点云；

D32：通过重构的3D点云实现实时的驾驶场景三维复现；

步骤D4：基于的多传感器融合的同步定位与建图；

D41：基于EKF的视觉里程计、轮式里程计及激光雷达里程计的融合，并进行Gmapping激光雷达建图；

D42：AMCL重定位及move_base导航；

步骤D5：三维目标检测，用于辅助驾驶；

D51：基于相机和激光雷达解码数据的多模态3D目标检测；

D52：对D51检测出来的人物和车辆进行醒目框标记，并通过语音模块提醒驾驶者近距离出现以及突然加速的目标；

步骤D6：智能驾驶，利用多传感器针对特定的网络情况实现不同的驾驶模式；

D61：根据网络波动及丢包情况智能判断当前网络情况；

D62：如果网络情况良好，进行远程驾驶，以实现远程三维沉浸式安全驾驶；

D63：反之，若出现网络大幅波动及丢包情况，则根据建图信息及提前规划好的路径进行小车自动避障，实现部分极端情况的自适应安全驾驶及停靠；

D64：向行驶端微处理器下达实时驾驶命令。

进一步地，步骤C11，利用双目相机实时拍摄行驶端路况场景，并生成双路彩***。

进一步地，步骤C12，利用激光雷达实时扫描行驶端路况场景，获得稀疏的点云数据。

进一步地，步骤C13，利用小车底部控制板实时获取轮式里程计信息，包括小车的位置和姿态，以及前进速度和转向速度。

进一步地，步骤C21，利用双目相机拍摄的左右视点图像计算视差，通过配准和插值生成一路中间视点的彩色图像，并根据双目立体视觉的原理生成中间视点对应的深度图视频。

进一步地，步骤C22中，在对点云进行传输之前，首先利用传感器辅助的方法，通过轮式里程计提供的位姿信息对激光雷达点云进行分段线性插值，从而去除运动畸变。在对点云去畸变之后，对所有点云进行距离图映射以加快压缩速度。

进一步地，步骤C23中，从轮式编码器中获取到的轮式里程计还需转换成传输效率更高的字节数组，所用的方法是使用联合体(Union)，最后再添加帧头和校验码，用数据包的形式进行远程传输。

进一步地，步骤C31中，利用经典的混合视频编码算法对C21生成的一路彩***进行压缩，并将生成的一路深度视频视为视频的亮度分量进行二维视频编码。

进一步地，步骤C32中，点云映射为距离图像之后，首先通过编码模式判断，对距离图关键帧进行FPZIP编码，然后以关键帧的FPZIP解码后结果为参考，对其余距离图进行双向预测帧间编码，最后对预测的残差进行FPZIP浮点残差编码。

进一步地，步骤D21，对一路彩***及一路深度视频的编码码流分别采用二维视频解码器进行解码处理。

进一步地，步骤D22，对距离图编码码流进行实时解码并根据球坐标系到笛卡尔坐标系的转换规则，将距离图转换为激光雷达点云。

进一步地，步骤D23，对轮式里程计数据包进行解压缩并实时解析。

进一步地，步骤D3，将解码的一路彩***及一路深度图视频进行点云重构，实现3D驾驶场景复现。

进一步的，步骤D31，按时间顺序将每帧彩色图像和对应的深度图逆投影为3D点云，从而由一路彩***和一路深度图视频生成3D点云视频。

进一步地，步骤D41中，对来自相机的视觉里程计、来自小车控制板的轮式里程计以及激光雷达里程计通过扩展卡尔曼滤波算法(Extended Kalman Filter，EKF)进行融合，将融合之后的里程计数据用于Gmapping激光雷达建图。

进一步地，步骤D42中，实现Gmapping高精度实时建图之后，利用自适应蒙特卡洛定位算法(Adaptive Mentcarto Localization，AMCL)实现移动机器人操作***(RobotOperating System，ROS)小车的重定位，最后利用move_base功能包实现路径规划和导航功能。

进一步地，步骤D51，本发明中采用的是基于相机-激光雷达多传感器融合的3D目标检测，利用2D图像和激光雷达点云数据作为输入，通过图像和LiDAR特征提取网络分别得到2D和3D特征，之后解决跨模态对齐问题，最后将多模态特征加权融合，输出每个3D目标的参数。

进一步地，步骤D52中，将D51检测出来的人物和车辆等目标用醒目框框出，并标注目标的距离和速度等信息，以及时判断行驶端突然窜入的行人及高速行驶的车辆。进而，设定一定的速度及距离阈值，及时播报提醒远程驾驶者，避免因疲劳驾驶等因素导致不安全的驾驶。

本发明还提供了一种基于3D点云的智能远程驾驶***，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上述所述的方法步骤。

相较于现有技术，本发明具有以下有益效果：

本发明首先融合了基于RGB-D的2D视频压缩传输和3D点云的场景复现技术，既保证了驾驶场景的实时压缩，又能远程展示3D的可视化效果；其次，在基于视觉的远程驾驶***中引入基于Lidar的同步定位和建图技术和车辆自带的轮式里程计信息，采用基于扩展卡尔曼滤波算法实现多传感器里程计融合，改进了Gmapping建图算法的精度，结合AMCL算法和move_base功能包，实现了自动避障的辅助驾驶和异常处理功能，为智能远程驾驶提供了安全保障；此外，提出的距离图双向预测及FPZIP浮点帧内编码提高了Lidar点云的压缩效率；最后加入了多模态3D目标检测模块，能够充分利用相机和激光雷达不同传感器数据的优势，实现更高精度目标检测，并辅以实时语音模块，对近距离的人物车辆进行醒目框表示及语音提醒，进一步提高远程驾驶的可靠性。

附图说明

图1是本发明实施例行驶端编码处理过程流程图；

图2是本发明实施例远程控制端解码处理过程流程图；

图3是本发明实施例激光雷达自运动畸变示意图；

图4是本发明实施例分段线性插值去运动畸变示意图；

图5是本发明实施例从一帧点云生成距离图像的示意图；

图6是本发明实施例AVS3编码框架；

图7是本发明实施例双向帧间预测及FPZIP浮点帧内编码示意图；

图8是本发明实施例Gmapping建图及AMCL重定位算法流程图；

图9是本发明实施例Navigation Stack Setup中的move_base功能包；

图10是本发明实施例基于多模态目标检测算法的原理图。

具体实施方式

以下为让本专利申请的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图及实施例对本发明做进一步说明。

本发明提供了一种基于3D点云的智能远程驾驶方法，包含行驶端采集编码处理过程以及远程控制端解码控制过程。

如图1所示，所述行驶端采集编码传输过程包括以下步骤：

步骤C1：实时采集行驶场景信息；

C11：利用双目相机实时采集双路RGB视频；

C12：利用激光雷达实时采集点云数据；

C13：利用小车底部控制板实时获取轮式里程计信息；

C33：将轮式里程计信息进行打包压缩；

步骤C4：对编码码流分别进行封装和传输；

C41：对编码码流进行封装；

C42：对封装后的比特流使用UDP协议进行网络传输；

如图2所示，所述远程控制端解码处理过程具体包括以下步骤：

步骤D1：实时接收数据与解封装；

D11：使用UDP网络协议接收；

D12：对接收的编码码流进行实时解析与解封装；

步骤D2：对解封装的码流进行解码；

D21：对视频编码比特流进行视频解码；

D23：对轮式里程计数据包进行解析；

步骤D3：三维场景重构；

D31：利用彩***和深度视频重构3D点云；

D32：通过重构的3D点云实现实时的驾驶场景三维复现；

步骤D4：基于的多传感器融合的同步定位与建图；

D42：AMCL重定位及move_base导航；

步骤D5：三维目标检测，用于辅助驾驶；

D51：基于相机和激光雷达解码数据的多模态3D目标检测；

D61：根据网络波动及丢包情况智能判断当前网络情况；

D64：向行驶端微处理器下达实时驾驶命令。

进一步地，步骤C11，利用双目相机实时拍摄行驶端路况场景，并生成双路彩***。本实施例中，所使用的实时采集设备为ZED 2i型双目相机，采集率设置为每秒30帧。

进一步地，步骤C12，利用激光雷达实时扫描行驶端路况场景，获得稀疏的点云数据。本实施例中，所使用的点云序列实时采集设备为镭神32线激光雷达，智能小车基于机器人操作***(Robot Operating System，ROS)平台，在发送端实时捕获激光雷达原始数据，并广播至ROS平台形成可编码格式点云数据。

进一步地，步骤C13，利用小车底部控制板实时获取轮式里程计信息，包括小车的位置和姿态，以及前进速度和转向速度。本实施例中，所用的机器人为双电机四驱小车，因此，同侧车轮的速度是相同的，在发送右轮或者左轮的速度时，只需要发送同侧一个车轮速度即可。

进一步地，步骤C21，利用双目相机拍摄的左右视点图像计算视差，通过配准和插值生成一路中间视点的彩色图像，并根据双目立体视觉的原理生成中间视点对应的深度图视频。本实施例中，通过特征点配准可知，对于左图像I_L(u,v)上的每个像素，在右图像I_R(u,v+p)上可能存在一个具有视差值p的像素，以便两个像素描绘相同的3D位置。由于中点视点处于基线中心，与左右视点间的视差相同，可推断出中间视点的对应像素为I_M(u,v+p/2)，从而通过插值法获得中间视点的彩***。进而，根据双目立体视觉的原理将视差图可以转化为深度图，如下式所示：

其中，d是深度值，f是焦距，b是立体相机的基线长度。

进一步地，步骤C22中，在对点云进行传输之前，首先利用传感器辅助的方法，通过轮式里程计提供的位姿信息对激光雷达点云进行分段线性插值，从而去除运动畸变。在对点云去畸变之后，对所有点云进行距离图映射以加快压缩速度。本实施例中，激光雷达自运动畸变示意图如图3所示，当小车静止时，激光雷达实时扫描的示意图如3(a)所示。但是，由于实际情况中，激光雷达是伴随着小车运动的，在小车运动过程中，不同的时刻发出激光时小车的位置是不同的，这就产生了如图3(b)所示的运动畸变。由于激光雷达扫描的频率只有10Hz，且每个角度的激光数据都不是瞬时获得，因此小车运动带来的激光帧的运动误差是不能被忽略的。基于以上分析，本实施例中，使用Odom轮式里程计(100Hz)去除运动畸变，即微处理器(MPU)读取激光雷达数据，同时小车底部控制芯片上传里程计积分数据，在MPU上统一进行运动畸变去除，具体通过分段进行线性插值的方式实现。

如图4所示，把一帧的激光雷达按照时间间隔分成n个小区间，假设一帧的激光雷达n个数据对应的时间点为与/>为一帧中激光数据开始点与结束点对应的时刻，/>代表对应时刻的激光里程计位姿。而/>代表拥有里程计信息的时间戳，用/>表示对应时刻的轮式里程计位姿信息。由于里程计的更新频率远远高于激光雷的数据的发布频率，在相同的时间间隔内，里程计的时间戳比激光雷达的时间戳更加的密集，竖直虚线代表拥有里程计信息的时间戳。设移动机器人在每一个小区间内为匀速运动的，可以通过线性插值为该分段中每个激光束对应的激光雷达坐标系找到近似的里程计位姿。例如，用线性插值求出一帧激光数据开始点/>与结束点/>对应的时刻的里程计信息/>和/>可表示如下:

同理，用轮式里程计信息对n个激光点进行线性插值获取n个点对应的里程计信息。即可获得这一帧激光数据n个点对应的正确位姿。最后，通过坐标转换P_w＝RP_L+T，将该帧激光束统一到正确的世界坐标系下，将重新封装的激光数据发布出去即可。其中，P_w表示世界坐标系下位姿信息，P_L是轮式里程计坐标系下位姿信息，R表示旋转矩阵，T表示平移向量。

进一步地，步骤C22中，将去除畸变的点云转换为距离图像，以加快Lidar点云压缩传输速度。本实施例中一帧点云转换为距离图像的示意图如图5所示。首先，将3D直角坐标系中的点p(x,y,z)用球坐标系中的表示：

其中，ρ为范数(长度)，表示Lidar俯仰角，θ为偏航角。之后，将每个点/>根据以下公式转换为2D图像坐标系中的I(u,v):

其中，表示/>的绝对值，H和W分别表示投影的距离图像的宽度和高度。

进一步地，步骤C31中，利用经典的混合视频编码算法对C21生成的一路彩***进行压缩，并将生成的一路深度视频视为视频的亮度分量进行二维视频编码。本实施例中，使用AVS工作组制定的第三代音视频编解码技术标准(Audio Video Standard 3，AVS3)进行视频编码，拥有中国自主知识产权。AVS3的编码框架如图6所示，AVS3沿用了基于块的预测变换混合编码框架，如图6(a)所示，包括块划分、帧内预测、帧间预测、变换量化、熵编码、环路滤波等模块。相比于高效视频编码(HEVC)，采用了更灵活的块划分结构、更精细的预测模式、更具适应性的变换核，节省了约30％的码率，显著提升了编码效率。其中，AVS3引入了基于四叉、二叉(QTBT)和扩展四叉树(EQT)的划分方式，如图6(b)所示。

进一步地，步骤C32中，点云映射为距离图像之后，首先通过编码模式判断，对距离图关键帧进行FPZIP编码，然后以关键帧的FPZIP解码后结果为参考，对其余距离图进行双向预测帧间编码，最后对预测的残差进行FPZIP浮点残差编码。本实施例中，双向帧间预测及FPZIP帧内编码示意图如图7所示。首先对序列中的关键帧T_f-1、T_f+1利用FPZIP算法进行帧内编码，并通过帧内解码得到重构的然后以它们参考，对第T_f帧进行双向运动估计得到预测帧/>之后，对预测残差T_f-T_f'进行FPZIP编码，最后输出压缩后的比特流。

进一步地，步骤D22，对距离图编码码流进行实时解码并根据球坐标系到笛卡尔坐标系的转换规则，将距离图转换为激光雷达点云。本实施例中，首先通过FPZIP帧内解码重构距离图参考帧和预测残差，并通过双向运动估计和运动补偿恢复预测帧。之后，将重构的距离图按照球面坐标从2D空间重新投影到3D空间，如下式：

最后，每个点进一步逆变换到3D笛卡尔坐标系/>中：

进一步地，步骤D41中，对来自相机的视觉里程计、来自小车控制板的轮式里程计以及激光雷达里程计通过扩展卡尔曼滤波算法(Extended Kalman Filter，EKF)进行融合，将融合之后的里程计数据用于Gmapping激光雷达建图。本实施例中，扩展卡尔曼滤波算法融合视觉里程计、轮式里程计、激光雷达里程计信息的算法流程图如算法1所示，将机器人的状态向量设为s，涉及机器人状态的协方差为P，通过传感器观测得到的机器人观测向量为w，控制向量为u，则由t-1时刻到t时刻，通过扩展卡尔曼滤波推导各向量。其中，在EKF中，算法认为状态转移过程与观测过程为非线性，其对应的非线性函数分别为l和h，相对的，F和H分别对应状态转移函数和观测函数的雅可比矩阵，并将观测与预测过程中***的高斯白噪声的协方差分别用Q，R表示。假设***初试状态和协方差矩阵分别为和/>第一个传感器的观测更新后得到***的状态量/>及***协方差矩阵/>将二者作为下一个传感器更新过程的***预测状态量/>和***预测协方差矩阵/>进行状态更新。将最后一个传感器更新后得到的***的状态量/>及***协方差矩阵/>作为融合后输出，并将二者用于预测过程进行下一时刻的迭代。这样就能通过三个传感器得到对机器人状态进行估计后的均值与方差，可以大大提高实时建图定位与导航的精度。本实施例中按照激光雷达里程计(10Hz)、视觉里程计(30Hz)、轮式里程计(50Hz)的顺序利用算法1进行数据里程计融合：

算法1：基于扩展卡尔曼滤波的多传感器里程计融合算法

进一步地，步骤D42中，实现Gmapping高精度实时建图之后，利用自适应蒙特卡洛定位算法(Adaptive Mentcarto Localization，AMCL)实现移动机器人***的重定位，最后利用move_base功能包实现路径规划和导航功能。本实施例中，具体的Gmapping建图算法及AMCL重定位算法流程图如图8所示。如图8(a)所示为Gmapping算法流程图，Gmapping算法是一种基于栅格地图的SLAM算法，其核心流程包括初始化、激光数据获取、运动模型更新、权重计算、重采样、地图更新和结果发布。机器人通过激光传感器获取环境激光扫描数据，利用运动模型预测机器人的位姿。通过比较激光数据与地图的匹配程度，计算每个粒子的权重，并通过重采样使高权重的粒子得到保留，低权重的粒子被替换。地图则根据当前机器人位姿和激光数据进行更新，包括栅格地图的动态构建。最后，将构建好的地图保存起来，以供后续使用

如图8(b)所示为自适应蒙特卡洛定位算法流程图，AMCL(Adaptive Monte CarloLocalization)是一种用于移动机器人的概率定位算法，使用前面Gmapping保存地图来进行重定位。在AMCL中，机器人的姿态是通过对粒子滤波器进行采样来估计的。这些粒子是在机器人的状态空间中随机采样的，并且每个粒子都有一个权重，该权重表示该粒子与实际机器人状态之间的匹配程度。AMCL使用激光传感器数据来更新粒子的权重，并使用重采样技术来生成新的粒子集合。在重定位过程中，AMCL使用Gmapping生成的地图来初始化粒子集合，并使用机器人当前位置和方向作为初始姿态。

最后，在建图和重定位之后，利用move_base功能包进行导航，本实施例中，Navigation Stack Setup中的move_base功能包示意图如图9所示，其核心节点为move_base，充当强大的路径规划器，用于订阅目标位置话题并发布速度命令。初始阶段需要提供以下输入信息：机器人的位姿定位估计，通过自适应蒙特卡洛定位算法(AMCL)获取、传感器数据的坐标转换信息(Sensor transforms)、里程计数据(Odometry source)、传感器数据输入(Sensor sources)、地图信息(map_server)。这些信息会被发布到话题(例如/tf)，随后move_base功能包根据这些数据进行路径规划。路径规划的具体步骤如下：首先，通过激光雷达Gmapping建图生成全局代价地图(global_costmap)，并基于全局代价地图和Dijkstra算法实现全局路径规划(global_planner)。接着，通过实时传感器信息更新局部代价地图(local_costmap)，并基于局部代价地图和动态窗口法(DynamicWindowApproach，DWA)实现局部路径规划(local_planner)。最后，move_base功能包发布速度等话题信息，并通过底盘控制器(base controller)将这些信息转化为机器人的控制指令，随后发送给小车的驱动器，实现机器人在环境中的导航。

进一步地，步骤D51，本发明中采用的是基于相机-激光雷达多传感器融合的3D目标检测，利用2D图像和激光雷达点云数据作为输入，通过图像和LiDAR特征提取网络分别得到2D和3D特征，之后解决跨模态对齐问题，最后将多模态特征加权融合，输出每个3D目标的参数。本实施例中，基于多模态的3D目标检测算法示意图如图10所示，首先，在相机流中，通过图像主干网络ResNet50和特征金字塔网络(FPN)对图像进行多尺度特征提取获得多尺度特征图，然后通过正交特征变换(OFT)将它们转换为正交特征图，映射到三维空间。接下来，通过共享注意力编码器获得增强且细粒度的图像鸟瞰图(Bird’s-eye view，BEV)特征。同时，在激光雷达流中，通过采用稀疏嵌入卷积检测(SECOND)主干网络作为激光雷达点云的特征提取器提取鸟瞰图(BEV)特征信息。其次，使用注意力机制对两个传感器的BEV特征F_Camera和F_Lidar进行对齐。之后，将对齐之后的BEV特征通过交互注意力融合生成特征信息。最后，通过基于锚点的3D检测头预测物体类别和位置，输出我们需要的检测结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于3D点云的智能远程驾驶方法，其特征在于，包括：

编码过程：

步骤C1：实时采集行驶场景信息；

步骤C2：将实时采集行驶场景信息传入行驶端微处理器进行预处理；

步骤C3：对预处理后的数据进行编码压缩；

步骤C4：对编码码流分别进行封装和传输；

解码过程：

步骤D1：实时接收数据与解封装；

步骤D2：对解封装的码流进行解码；

步骤D3：三维场景重构；

步骤D4：基于多传感器融合的同步定位与建图；

步骤D5：三维目标检测，用于辅助驾驶；

步骤D6：智能驾驶，利用多传感器针对不同的网络情况实现不同的驾驶模式。

2.根据权利要求1所述的一种基于3D点云的智能远程驾驶方法，其特征在于，

在编码端，

步骤C1具体包括循环执行的以下步骤：

C11：利用双目相机实时采集双路RGB视频；

C12：利用激光雷达实时采集激光雷达点云数据；

C13：利用小车底部控制板实时获取轮式里程计信息；

步骤C2具体包括循环执行的以下步骤：

C21：根据双目相机实时采集的双路RGB视频的左右视频流计算视差，生成中间视点的彩***和其对应的深度图；

C23：将轮式里程计信息转换为字节数组；

步骤C3具体包括循环执行的以下步骤：

C31：对双目相机实时采集的一路彩***和生成的一路深度视频进行二维视频编码压缩，即利用混合视频编码算法对C21生成的一路彩***进行压缩，并将生成的一路深度视频视为视频的亮度分量进行二维视频编码；

C32：将映射之后的距离图进行双向预测以及多维浮点数组的无损压缩编码FPZIP；

C33：将轮式里程计信息进行打包压缩；

步骤C4具体包括循环执行的以下步骤：

C41：对编码码流进行封装；

C42：对封装后的比特流使用UDP协议进行网络传输；

在解码端，

步骤D1具体包括循环执行的以下步骤：

D11：使用UDP网络协议接收编码码流；

D12：对接收的编码码流进行实时解析与解封装；

步骤D2具体包括循环执行的以下步骤：

D21：对视频编码比特流进行视频解码；

D22：对压缩的距离图进行解码和格式转换，重构激光雷达点云数据；

D23：对轮式里程计数据包进行解析；

步骤D3具体包括循环执行的以下步骤：

D31：利用彩***和深度视频重构3D点云；

D32：通过重构的3D点云实现实时的驾驶场景三维复现；

步骤D4具体包括循环执行的以下步骤：

D41：基于扩展卡尔曼滤波算法EKF的视觉里程计、轮式里程计及激光雷达里程计的融合，进行Gmapping激光雷达建图；

D42：进行自适应蒙特卡洛定位算法AMCL重定位及move_base导航；

步骤D5具体包括循环执行的以下步骤：

D51：进行基于相机和激光雷达解码数据的多模态3D目标检测；

步骤D6具体包括循环执行的以下步骤：

D61：根据网络波动及丢包情况智能判断当前网络情况；

D63：反之，若出现网络大幅波动及丢包情况，则根据建图信息及提前规划好的路径进行小车自动避障，实现极端情况的自适应安全驾驶及停靠；

D64：向行驶端微处理器下达实时驾驶命令。

3.根据权利要求2所述的一种基于3D点云的智能远程驾驶方法，其特征在于，在步骤C21中，利用双目相机拍摄的双路RGB视频的左右视点图像计算视差，通过配准和插值生成一路中间视点的彩色图像，并根据双目立体视觉的原理生成中间视点对应的深度图视频；通过特征点配准可知，对于左图像I_L(u,v)上的每个像素，其中(u,v)表示2D图像坐标系，像素的横坐标u与纵坐标v分别是在其图像数组中所在的列数与所在行数，在右图像I_R(u,v+p)上可能存在一个具有视差值p的像素，以便两个像素描绘相同的3D位置；由于中点视点处于基线中心，与左右视点间的视差相同，可推断出中间视点的对应像素为I_M(u,v+p/2)，从而通过插值法获得中间视点的彩***；进而，根据双目立体视觉的原理将视差图转化为深度图，如下式所示：

其中，d是深度值，f是焦距，b是立体相机的基线长度。

4.根据权利要求2所述的一种基于3D点云的智能远程驾驶方法，其特征在于，在步骤C22中，在对点云进行传输之前，首先利用传感器辅助的方法，通过轮式里程计提供的位姿信息对激光雷达点云进行分段线性插值，以实现时间同步，从而去除运动畸变；在对点云去畸变之后，对所有点云进行距离图映射以加快压缩速度；把一帧的激光雷达按照时间间隔分成n个小区间，假设一帧的激光雷达n个数据对应的时间点为与/>为一帧中激光数据开始点与结束点对应的时刻，/>代表对应时刻的激光里程计位姿；而代表拥有里程计信息的时间戳，用/>表示对应时刻的轮式里程计位姿信息；由于里程计的更新频率远远高于激光雷的数据的发布频率，在相同的时间间隔内，里程计的时间戳比激光雷达的时间戳更加的密集；设移动机器人在每一个小区间内为匀速运动的，通过线性插值为相应小区间中每个激光束对应的激光雷达坐标系找到近似的里程计位姿；用线性插值求出一帧激光数据开始点/>与结束点/>对应的时刻的里程计信息/>和表示如下：

同理，用轮式里程计信息对n个激光点进行线性插值获取n个点对应的里程计信息，即可获得这一帧激光数据n个点对应的正确位姿；最后，通过坐标转换P_w＝RP_L+T，将相应帧激光束统一到正确的世界坐标系下，将重新封装的激光数据发布出去即可；其中，P_w表示世界坐标系下位姿信息，P_L是轮式里程计坐标系下位姿信息，R表示旋转矩阵，T表示平移向量。

5.根据权利要求2所述的一种基于3D点云的智能远程驾驶方法，其特征在于，在步骤C32中，点云映射为距离图像之后，首先通过编码模式判断，对序列中的关键帧T_f-1、T_f+1利用FPZIP算法进行帧内编码，并通过帧内解码得到重构的然后以它们为参考，对第T_f帧进行双向运动估计得到预测帧/>其中B代表双向预测关系，之后，对预测残差T_f-T_f'进行FPZIP编码，最后输出压缩后的比特流。

6.根据权利要求2所述的一种基于3D点云的智能远程驾驶方法，其特征在于，在步骤D41，对来自相机的视觉里程计、来自小车控制板的轮式里程计以及激光雷达里程计通过扩展卡尔曼滤波算法EKF进行融合，将融合之后的里程计数据用于Gmapping激光雷达建图；扩展卡尔曼滤波算法EKF融合视觉里程计、轮式里程计、激光雷达里程计信息的方式具体为：将机器人的状态向量设为s，涉及机器人状态的协方差为P，通过传感器观测得到的机器人观测向量为w，控制向量为u，则由t-1时刻到t时刻，通过扩展卡尔曼滤波推导各向量；其中，在扩展卡尔曼滤波算法EKF中，认为状态转移过程与观测过程为非线性，其对应的非线性函数分别为l和h，相对的，F和H分别对应状态转移函数和观测函数的雅可比矩阵，并将观测与预测过程中***的高斯白噪声的协方差分别用Q，R表示；假设***初试状态和协方差矩阵分别为和/>第一个传感器的观测更新后得到***的状态量/>及***协方差矩阵/>将二者作为下一个传感器更新过程的***预测状态量/>和***预测协方差矩阵/>进行状态更新；将最后一个传感器更新后得到的***的状态量/>及***协方差矩阵/>作为融合后输出，并将二者用于预测过程进行下一时刻的迭代；这样就能通过三个传感器得到对机器人状态进行估计后的均值与方差。

7.根据权利要求2所述的一种基于3D点云的智能远程驾驶方法，其特征在于，在骤D42中，实现Gmapping高精度实时建图之后，利用自适应蒙特卡洛定位算法AMCL实现移动机器人操作***ROS小车的重定位，最后利用move_base功能包实现路径规划和导航功能。

8.根据权利要求2所述的一种基于3D点云的智能远程驾驶方法，其特征在于，在步骤D51中，采用的是基于相机-激光雷达多传感器融合的3D目标检测，利用2D图像和激光雷达点云数据作为输入，通过图像和LiDAR特征提取网络分别得到2D和3D特征，之后解决跨模态对齐问题，最后将多模态特征加权融合，输出每个3D目标的参数；首先，在相机流中，通过图像主干网络ResNet50和特征金字塔网络FPN对图像进行多尺度特征提取获得多尺度特征图，然后通过正交特征变换OFT将它们转换为正交特征图，映射到三维空间；接下来，通过共享注意力编码器获得增强且细粒度的图像鸟瞰图BEV特征；同时，在激光雷达流中，通过采用稀疏嵌入卷积检测SECOND主干网络作为激光雷达点云的特征提取器提取鸟瞰图BEV特征信息；其次，使用注意力机制对两个传感器的BEV特征F_Camera和F_Lidar进行对齐；之后，将对齐之后的BEV特征通过交互注意力融合生成特征信息；最后，通过基于锚点的3D检测头预测物体类别和位置，输出需要的检测结果。

9.根据权利要求2所述的一种基于3D点云的智能远程驾驶方法，其特征在于，在步骤D52中，将D51检测出来的人物和车辆等目标用醒目框框出，并标注包括目标的距离和速度的信息，以及时判断行驶端突然窜入的行人及高速行驶的车辆；进而，设定预定的速度及距离阈值，及时播报提醒远程驾驶者，避免因疲劳驾驶等因素导致不安全的驾驶。

10.一种基于3D点云的智能远程驾驶***，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-9任一所述的方法步骤。