CN117830991A

CN117830991A - 一种基于多模融合的四足机器人复杂场景感知方法及***

Info

Publication number: CN117830991A
Application number: CN202410238784.5A
Authority: CN
Inventors: 李传鹏; 宋然; 方兴; 张伟; 李宇; 曹睿; 张生刚
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-04-05
Anticipated expiration: 2044-03-04
Also published as: CN117830991B

Abstract

本发明提出了一种基于多模融合的四足机器人复杂场景感知方法及***，包括：获取多模态传感器数据；基于获取的数据，通过深度神经网络编码‑解码对前方地形进行重构，去除3D传感器的环境噪声，得到更利于机器人运动规划的地形实际支撑面信息；通过对RGB图像聚类获取超像素图像，结合重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域，进而生成代价地图。

Description

一种基于多模融合的四足机器人复杂场景感知方法及***

技术领域

本发明属于机器人信息化处理技术领域，尤其涉及一种基于多模融合的四足机器人复杂场景感知方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，随着机器人和人工智能技术的快速发展，行业对智能机器人的需求提高，提升机器人智能化水平是急需解决的问题。相比于轮式机器人，腿足式机器人具有在崎岖地形中机动的能力，具有更高的灵活性。腿足式机器人的高敏捷性使其能够在崎岖的室外环境中运行。在这些场景下，关于地形的几何知识是实现安全移动的立足点规划的关键。

目前，四足机器人通常通过配备多线激光雷达和深度相机等外感传感器感知3D环境结构，并且将感知结果存储在2D栅格占用地图、2.5D高程图或3D体素图中，其中高程图由于平衡了感知精度和算力得到了更广泛的应用。

但是基于激光雷达和深度相机等深度传感器的感知方案只能在支撑面可见的地形下有着比较准确的感知，上述传感器原理为发射激光并接收返回信号，根据时间差计算距离，在可穿透或者高度柔软的地形(如草地)上，传感器会受到草的遮挡，无法穿透草看到真实的地面即可支撑面，进而影响对四足机器人的运动控制。

具体的，传统的2.5D高程图只依赖激光雷达、深度相机等外部传感器而忽略了四足机器人自身力传感器感知，在穿越草丛、雪地等非刚性地面时无法获取真实的可支撑地面高度，进而影响四足机器人的运动规划。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于多模融合的四足机器人复杂场景感知方法，在穿越复杂地形时，融合多传感器信息，识别地形种类，在可穿透地形合理估计支撑面，最终融合生成真实的估计平面，帮助机器人平稳安全地穿行于复杂地形。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了一种基于多模融合的四足机器人复杂场景感知方法，包括：

获取多模态传感器数据；

基于获取的数据，通过深度神经网络编码-解码对前方地形进行重构，去除3D传感器的环境噪声，得到更利于机器人运动规划的地形实际支撑面信息；

通过对RGB图像聚类获取超像素图像，结合重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域，进而生成代价地图。

作为进一步的技术方案，获取多模态传感器数据，包括：

将采集的深度相机点云生成以机器人为中心的的高程图；

将采集的深度相机RGB图像的RGB像素投影到BEV视角下并与高程图对齐，得到高程图、颜色图层；

将采集的四足机器人落脚点位置，通过高斯过程回归估计支撑平面。

作为进一步的技术方案，得到高程图颜色图层的具体过程为：

将深度相机设置为深度对齐模式，实现RGB像素与深度点云的一一对应，而后将深度相机生成的深度点云由相机坐标系经坐标变换变换到地图坐标系下；

将点云在地图坐标系下的坐标投影到地图坐标系X-Y平面得到BEV视图，进一步将点云按照高程图分辨率进行栅格化处理；

对投影到相同单元格的多个像素RGB通道取均值作为该单元格的颜色信息，最终得到颜色高程图层。

作为进一步的技术方案，将采集的四足机器人落脚点位置，通过高斯过程回归估计支撑平面，具体为：

实时采集四足机器人足端力传感器数据，当受力达到阈值时认为该足处于触地支撑状态，获取该足端在地图坐标系下的三维坐标，送入缓存队列；

取出缓存队列中所有落脚点坐标，以落脚点X,Y作为输入，Z作为输出，训练高斯过程回归超参数；

生成以机器人为中心的位置采样，将所有采样位置通过坐标变换变换至地图坐标系下，并经高斯过程回归处理得到所有采样点的Z坐标，即为预测的支撑面。

作为进一步的技术方案，高斯过程回归中核函数的选择，该核函数由3个具有不同特征的核函数组合而成：

核函数共包括三项：

第一项RBF核函数用于捕捉输入间的平滑关系，保证拟合平面的平滑性；

第二项指数核函数捕捉输入的指数衰减，弥补RBF核函数在不连续处的过分平滑；

第三项核函数捕捉输入间的线性关系，捕捉地形起伏较大的情况，更好地适用于楼梯、台阶场景的平面拟合。

作为进一步的技术方案，还包括：

结合高程图与颜色图层计算不同颜色的方差，方差大小代表该颜色下的地形起伏信息；

将高程图形状、生成的高程图颜色图层形状的通道合并为特征向量，而后执行DBSCAN聚类方法，将4通道特征向量聚类为n类；

对每一类聚类结果的RGB三通道的m个像素分别进行均值滤波得到每一类的颜色信息：

计算每一类的高程通道方差作为该类的方差，最终得到n个颜色对应的方差；

将每个类别对应的方差映射回高程图，得到颜色方差层用于表示不同颜色下的地形起伏信息，辅助地形编码。

作为进一步的技术方案，通过深度神经网络编码-解码对前方地形进行重构，包括：

将高程图、拟合支撑面、颜色方差送入深度神经网络，用于融合三通道感知信息，生成可靠的地形编码；

深度神经网络包含三个模块：特征提取模块、特征融合模块、地形编码模块；

特征提取模块由卷积神经网络和自注意力模块构成，用于提取各个模态输入自身特征；

特征融合模块由交叉注意力模块构成，分别提取颜色方差层与高程图层、高程图层与拟合支撑面层的共同特征；

地形编码模块采用编码器-解码器网络架构，该模块对多模提取特征做地形编码最终去除3D传感器的环境噪声，得到更利于机器人运动规划的地形实际支撑面信息。

作为进一步的技术方案，生成代价地图的具体步骤为：

将RGB图像分割为k个超像素块，对每个像素块做均值滤波作为该超像素块的颜色信息：

将各超像素块赋值回RGB图像得到超像素图像，将超像素图像与获取的地形重构后的实际支撑面输入卷积神经网络提取特征后，输入多层感知器，得到k个超像素的可通行性；

将每个像素对应的可通行性信息投影到地图坐标系下得到可通行区域，进而可生成栅格化代价地图，用于后续导航模块做路径规划与躲避障碍物。

第二方面，公开了一种基于多模融合的四足机器人复杂场景感知***，包括：

地形编码模块，被配置为：获取多模态传感器数据，包括高程图、RGB图像以及足迹拟合平面；

可通行区域分割与导航模块，被配置为：通过对RGB图像聚类获取超像素图像，结合重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域，进而生成代价地图。

以上一个或多个技术方案存在以下有益效果：

本发明技术方案在穿越复杂地形时，融合多传感器信息，识别地形种类，在可穿透地形合理估计支撑面，最终融合生成真实的估计平面，帮助机器人平稳安全地穿行于复杂地形。

具体的，本发明技术方案融合2.5D高程图、RGB图像以及足迹拟合平面等多模感知结果，通过深度神经网络编码-解码对前方地形进行重构，去除3D传感器的环境噪声（草、雪、光照等），得到更利于机器人运动规划的地形实际支撑面信息。通过对RGB图像聚类获取超像素图像，结合地形编码模块重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域，进而生成代价地图，可输入后续导航模块，指导机器人前进方向。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例***整体框架图；

图2为本发明实施例方法流程图；

图3为本发明实施例地形重构编码网络结构图；

图4为本发明实施例可通行区域分割网络结构图；

图5为本发明实施例高斯过程回归RBF核函数。

图6为本发明实施例高斯过程回归指数核函数。

图7为本发明实施例高斯过程回归开方指数核函数。

图8为本发明实施例RBF核函数和指数核函数加权效果。

图9为本发明实施例RBF核函数和开方指数核函数加权效果。

图10为本发明实施例综合三项核函数加权效果。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

参见附图2所示，本实施例公开了一种基于多模融合的四足机器人复杂场景感知方法，该方法包括下列顺序的步骤：

步骤一：该方法在四足机器人头部安装两部深度相机分别采集近景与远景图像信息，具体地，远景深度正视前方安装以获得更广视野，而近景相机采取45°向下倾斜安装以更好地关注脚底地形情况。采集近景深度相机的深度点云，生成以机器人为中心的的高程图。

步骤二：采集近景深度相机RGB图像，将RGB像素投影到BEV视角下并与高程图对齐，得到颜色图层。

具体地，首先将深度相机设置为深度对齐模式，实现RGB图像的RGB像素与深度点云的一一对应，而后将深度相机生成的深度点云由相机坐标系经坐标变换变换到地图坐标系下：

上式中，左侧、/>、/>表示点云在地图坐标系下的坐标，右侧/>、/>、/>表示点云在相机坐标系下的坐标，/>等参数表示相机坐标系到地图坐标系的旋转关系，/>表示两坐标系间的平移关系，旋转与平移关系组合构成两坐标系间的变换矩阵。

将点云在地图系下的坐标投影到地图坐标系X-Y平面得到BEV视图，进一步将点云按照高程图分辨率r进行栅格化处理:

上式中、/>表示点云在地图坐标下的坐标，该坐标除以高程图分辨率/>并取整得到点云所对应高程图的单元格索引。

对投影到相同单元格的多个像素RGB通道取均值作为该单元格的颜色信息，最终得到颜色图层。

上式中为落在该单元格的像素数量，/>、/>、/>分别为落在第i个单元格的第/>个像素的R、G、B三个颜色通道值，/>、/>、/>为均值滤波后第i个单元格的R、G、B三个颜色通道值。

步骤三：采集四足机器人落脚点位置，通过高斯过程回归估计支撑平面。

高斯过程回归是一种非参数化的回归方法，使用高斯过程来建模随机过程中的关系，在拟合平面上具有较强的表现。在高斯过程回归中，假设待建模的函数是一个高斯过程，给定一组输入数据点和对应的输出值，可以使用高斯过程的先验分布和观测数据来获得后验分布，进而得到对未知数据点的预测。

设有一组数据点,对应的输出为/>。高斯过程的先验分布可以表示为：

其中，为均值函数，/>为协方差函数。

当给定观测数据，可以使用贝叶斯定理得到高斯过程的后验分布。后验分布的均值和协方差矩阵取决于先验分布和观测数据。

通过后验分布可以预测新的未知数据点分布。给定新的输入，对应预测分布为：

对于拟合二维平面，设拟合区域为(n,n)的方形区域，输入对应高程图2D栅格的坐标位置，输出对应高程图各栅格位置的高度。通过历史观测数据更新建模参数，可以实现对二维平面的拟合与预测。

具体实现如下：

首先实时采集四足机器人足端力传感器数据，当受力达到阈值时认为该足处于触地支撑状态，获取该足端在地图坐标系下的三维坐标，送入缓存队列。

取出缓存队列中所有落脚点坐标/>，其中，以落脚点X,Y作为输入，Z作为输出，训练高斯过程回归超参数。具体地，(x,y,z)代表的是地图坐标系下的三维坐标，四足机器人的落脚点是在三维地图坐标系下记录的，反映了地图坐标系下水平面坐标为(x,y)的这个位置，支撑面高度为z。

生成以机器人为中心的x/>矩形位置采样/>，将所有采样位置通过坐标变换变换至地图坐标系下，并经高斯过程回归处理得到所有采样点的Z坐标，即为预测的支撑面。

高斯过程回归拟合效果关键在于核函数的选择，本发明提出一种新的核函数，来更好地拟合二维平面，该核函数由3个具有不同特征的核函数组合而成：

核函数共包括三项，第一项RBF核函数用于捕捉输入间的平滑关系，保证拟合平面的平滑性；第二项指数核函数捕捉输入的指数衰减，可以弥补RBF核函数在不连续处的过分平滑，第三项核函数捕捉输入间的线性关系，捕捉地形起伏较大的情况，更好地适用于楼梯、台阶等场景的平面拟合。

其中、/>、/>、/>、/>为超参数，其中/>为信号方差参数、/>为长度尺度，/>、/>、/>为三种核函数的组合比例参数，单核函数形状及组合效果见附图5-10。

步骤四：结合高程图与颜色图层/>计算不同颜色的方差，方差大小代表该颜色下的地形起伏信息。设高程图/>形状为/>，步骤二生成的颜色图层/>形状为/>，将二者通道合并为/>的特征向量/>，而后执行DBSCAN聚类方法，将4通道特征向量聚类为n类/>。

计算每一类的高程通道方差作为该类的方差，最终得到n个颜色对应的方差。

步骤五：将高程图、拟合支撑面、颜色方差送入深度神经网络进行编码-解码，获取真实的可支撑地形信息，可送入后续控制模块，控制机器人安全平稳穿行于多种复杂地形。

本发明设计了多地形生成网络MTG-NET(Muiti-Terrain-Generator -Network)，用于融合三通道感知信息，生成可靠的地形编码，具体的，多地形生成网络属于感知网络部分，输入为颜色方差层、高程图、拟合支撑面；经网络处理后得到更可靠的支撑面地形信息。MTG-NET包含三个模块：特征提取模块、特征融合模块、地形编码模块。

特征提取模块由卷积神经网络和自注意力模块(self-attention)构成用于提取各个模态输入自身特征。

特征融合模块由交叉注意力模块(cross-attention)构成，分别提取颜色方差层与高程图层/>、高程图层/>与拟合支撑面层/>的共同特征。

地形编码模块采用编码器-解码器网络架构，该架构可以采用Unet或者Transformer等常见的编码-解码架构。该模块对多模提取特征做地形编码最终去除3D传感器的环境噪声（草、雪、光照等），得到更利于机器人运动规划的地形实际支撑面信息。

具体网络结构见说明书附图3。

步骤六：用SLIC方法对远景深度相机采集到的RGB图像进行颜色聚类，将聚类色块结合步骤五得到的重构后的地形实际支撑面信息经多层感知器网络处理，得到每个色块的可通行性，进而获取在图像坐标系下的可通行区域，将可通行区域投影到地面获取可通行区域，进而生成代价地图，指导导航模块进行路径规划与躲避障碍物。

具体地，首先使用SLIC超像素分割方法将RGB图像分割为k个超像素块，对每个像素块做均值滤波作为该超像素块的颜色信息:

将各超像素块赋值回RGB图像得到超像素图像，将超像素图像与步骤五获取的地形重构后的实际支撑面输入卷积神经网络提取特征后，输入多层感知器(MLP)，得到k个超像素的可通行性。可通行区域分割网络结构图见附图4。

类似步骤二的过程，将每个像素对应的可通行性信息投影到地图坐标系下得到可通行区域，进而可生成栅格化代价地图，可用于后续导航模块做路径规划与躲避障碍物。

本发明将通过融合深度点云获取的高程图信息、相机采集的RGB图像信息、力传感器获取的足底拟合平面信息经神经网络进行地图编码，最终滤除传感器环境噪声，得到更适合机器人运动规划的实际地形支撑面信息，可以帮助机器人穿越草地、雪地等可穿透地形；本发明通过融合多模感知结果分割可通行区域，进而生成代价地图，可以帮助机器人实现复杂场景下的导航与路径规划。本算法对色彩信息的处理使用了DBSCAN以及SLIC的聚类方法，一方面可以提高处理效率，另一方面将像素聚类为色块处理降低了算法对感知精度的依赖，便于在仿真环境中的训练模型，降低了算法从仿真到现实迁移的难度。

实施例二

本实施例的目的是提供一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

实施例四

如图1所示，本实施例的目的是提供一种基于多模融合的四足机器人复杂场景感知***，包括：地形编码模块以及可通行区域分割与导航模块。

地形编码模块融合2.5D高程图、RGB图像以及足迹拟合平面等多模感知结果，通过深度神经网络编码-解码对前方地形进行重构，去除3D传感器的环境噪声（草、雪、光照等），得到更利于机器人运动规划的地形实际支撑面信息。可通行区域分割与导航模块通过对RGB图像聚类获取超像素图像，结合地形编码模块重构的实际支撑面信息经多层感知器网络处理生成图像坐标系下的可通行区域，进而生成代价地图，可输入后续导航模块，指导机器人前进方向。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于多模融合的四足机器人复杂场景感知方法，其特征是，包括：

获取多模态传感器数据；

2.如权利要求1所述的一种基于多模融合的四足机器人复杂场景感知方法，其特征是，获取多模态传感器数据，包括：

将采集的深度相机点云生成以机器人为中心的的高程图；

3.如权利要求1所述的一种基于多模融合的四足机器人复杂场景感知方法，其特征是，得到颜色图层的具体过程为：

4.如权利要求1所述的一种基于多模融合的四足机器人复杂场景感知方法，其特征是，将采集的四足机器人落脚点位置，通过高斯过程回归估计支撑平面，具体为：

5.如权利要求1所述的一种基于多模融合的四足机器人复杂场景感知方法，其特征是，高斯过程回归中核函数的选择，该核函数由3个具有不同特征的核函数组合而成：

核函数共包括三项：

6.如权利要求1所述的一种基于多模融合的四足机器人复杂场景感知方法，其特征是，还包括：

将高程图形状、生成的颜色图层形状的通道合并为特征向量，而后执行DBSCAN聚类方法，将4通道特征向量聚类为n类；

7.如权利要求1所述的一种基于多模融合的四足机器人复杂场景感知方法，其特征是，通过深度神经网络编码-解码对前方地形进行重构，包括：

地形编码模块采用编码器-解码器网络架构，该模块对多模提取特征做地形编码最终去除3D传感器的环境噪声，得到更利于机器人运动规划的地形实际支撑面信息；

优选的，生成代价地图的具体步骤为：

8.一种基于多模融合的四足机器人复杂场景感知***，其特征是，包括：

9.一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行上述权利要求1-7任一所述方法的步骤。