CN117132973B

CN117132973B - 一种地外行星表面环境重建与增强可视化方法及***

Info

Publication number: CN117132973B
Application number: CN202311403367.3A
Authority: CN
Inventors: 陈驰; 金昂; 毕杰皓; 杨必胜; 应申
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-30
Anticipated expiration: 2043-10-27
Also published as: CN117132973A

Abstract

本发明提出了一种基于深度学习的地外行星表面环境重建与增强可视化方法及***，以探测车双目导航相机采集图像数据为研究对象，制定立体匹配深度学习神经网络，完成立体像对的快速重建。并通过CSF滤波和SAM分割大模型实现重建场景的障碍物提取，并对重建场景进行可视化增强。该方法可以较好解决地外行星表面复杂地貌、光照变化以及纹理缺乏的情况下可能表现不佳，导致重建结果的精度和可视化效果不尽如人意的问题，能充分考虑研究人员与用户的地球地形地貌认知习惯，对重建结果进行可视化增强，从而实现更快速、准确的地外行星表面环境可视化。

Description

一种地外行星表面环境重建与增强可视化方法及***

技术领域

本发明属于深空探测技术领域，具体涉及一种基于深度学习的地外行星表面环境重建与增强可视化方法及***。

背景技术

地外行星表面场景重建首先是利用无人探测车采集的立体像对，通过立体匹配算法恢复场景三维信息。根据匹配基元的不同，立体匹配算法可大致分为基于区域的匹配和基于特征的匹配两类。基于区域的匹配算法包括归一相关算法、图像匹配绝对值算法，以及Zabih提出是Rank算法和Census算法；基于特征的匹配首先使用Förstner算子、SIFT算子、SURF算子等提取特征点，然后采用核线约束、从粗到精策略和三角网约束等匹配策略实现密集点匹配。随着深度学习方法与计算机视觉、计算机图形学理论融合的深入，有研究人员提出了基于卷积神经网络的MC-CNN-acrt架构、基于编码器-解码器架构的DispNet以及端到端网络GC-Net。然而，尽管当前的立体匹配算法在场景重建方面已取得一定进展，但在处理地外行星表面复杂地貌、光照变化以及纹理缺乏的情况下可能表现不佳，导致重建结果的精度和可视化效果不尽如人意。

而在地外行星表面环境可视化过程中，地外行星表面的障碍物是一类独特而重要的地物。未能正确识别和规避障碍物可能导致探测车陷入困境、卡在地形障碍上或发生其他不可逆的损坏。因此，准确提取障碍物信息对确保探测车的顺利行进至关重要。当前，在计算机视觉领域，有许多研究人员实现了影像中给定目标的精确提取。其中目标检测方法有如YOLOv8、Efficientdet等，可以在二维图像中识别和定位不同类型的目标。语义分割算法如SegViT、SegFormer等，可以在影像中的每个像素都给予所代表目标的标签。但它们通常仅限于分析图像的表面信息。另一方面，在三维场景中对非地面物体进行提取的方法也有很多，比如点云分割方法PointNet++以及点云滤波方法CSF。这些方法适用于从传感器数据中提取非地面物体的三维形状和位置信息，但它们通常不包括图像信息的融合，因此忽略了与障碍物相关的纹理和外观特征。目前，缺乏融合二维影像和三维点云数据的方法，特别是适用于地外行星表面环境的障碍物提取。

发明内容

针对行星探测车导航相机所拍摄的地外行星表面图像数据，现有方法场景重建的质量欠缺和可视化效果不足的问题，本专利提出一种基于深度学习的地外行星表面环境重建与增强可视化方法及***，可根据采集的立体像对数据进行实时场景重建并通过符合人类认知规律的方式进行增强可视化。

为了解决上述技术问题，本发明所设计的采用如下的技术方案：

首先，获取行星探测车导航相机所拍摄的地外行星表面立体像对数据，构建基于深度学习的立体匹配网络，进行表面环境重建；然后，基于重建表面环境的点云场景，提取地外行星表面的障碍物中心点。最后，依据中心点关键词，提出了一种基于SAM大模型的增强可视化方法，优化重建结果的可视化效果。

一种基于深度学习的地外行星表面环境重建与增强可视化方法，包括如下步骤：

步骤1，获取行星探测车导航相机所拍摄的可见光影像，经过彩色复原和彩色校正处理的地外行星表面彩色立体像对数据；构建实时立体匹配场景重建网络，将左右像对输入神经网络中获得重建场景；

步骤2，由立体匹配场景重建网络获得视差图后，根据投影关系将视差图恢复至三维空间获得点云；由地面滤波算法分割获得地外行星表面障碍物，如石块等。并重投影至二维影像获得二维中心点关键词。

步骤3，将中心点关键词作为SAM大模型的提示，从原始可见光影像中分割获得石块区域；根据人类对地球地形认知习惯结合深空探测任务需求，对可见光影像进行增强可视化，获取增强可视的地外行星表面场景图。

进一步地，步骤1中的立体匹配网络具体包括多尺度特征提取器、组合几何编码体、基于ConvGRU的更新算子和空间上采样模块组成。

进一步的，步骤2的具体实现包括如下子步骤：

步骤2.1，由立体匹配场景重建网络获得视差图后，根据投影关系将视差图计算得到深度图。深度图中的每个像素表示了该点的深度信息。计算公式如下：

其中，是深度图中像素/>处的深度值，/>是摄像机的焦距，/>是基线长度，是视差图中像素/>处的视差值。

步骤2.2，对于深度图中的每个像素，根据深度值/>，将其转换为三维坐标，添加到点云数据结构中，以生成三维点云。转化过程的公式如下所示：

其中，是图像中心的坐标，/>是摄像机的焦距。

步骤2.3，采用CSF地面滤波算法过滤地面点云。CSF是一种基于布料模拟的机载激光雷达滤波方法。模拟布料节点与相应的激光雷达点之间的相互作用，可以确定布料节点的位置以生成地面的近似值。然后，通过比较原始激光雷达点和生成的表面，从激光雷达点云中提取地面点和非地面点。

步骤2.4，基于欧式聚类算法，对提取到的非地面点点云进行聚类，并计算每一类的中心点。通过将点云中聚类得到的地面障碍物中心点映射回影像空间/>，将点云重投影到影像上。这个过程可以通过以下公式来实现：

其中，是摄像机的焦距，/>和/>是影像的中心点坐标。

进一步的，步骤3的具体实现包括如下子步骤：

进一步地，构建影像SAM大模型包含主要包含三个部分，分别是ViT-Tiny的轻量图像编码器、掩码解码器和关键词解码器。

优选地，对可见光影像进行增强可视化具体如下：

获得网络输出的左图像中每像素对应的视差，利用指数函数对预测的视差进行增强，增强近处物体的差异度，得到增强视差图，公式如下：

d为原始视差，d’表示通过增强的视差，m为指数函数的指数值。过实验统计，指数时效果最佳。

对增强视差图进行可视化，生成增强可视化结果。视差图采用颜色映射的方式将数组转为RGB影像，叠加显示在RGB影像中，得到增强可视化视差图。颜色映射方式可采用Jet映射。叠加的过程如公式：

公式中表示输出的结果影像，/>表示原始的左影像，/>表示增强视差/>经过JET映射产生的RGB图像。/>和/>用于控制需要融合的两张影像的权重，通常在0到1之间，且/>，/>为偏置值。

对增强可视化视差图进行分割地面障碍物的增强显示。将由关键中心点分割得到的地面障碍物掩码以叠加显示到增强可视化的视差图上。与上一步不同，由于地面障碍物对地外行星探测器是非常致命的危险，所以这里采用替换的方式，由掩码区域生成对应的条纹叠加显示在增强图像中。

与现有技术相比，本发明具有以下优点和有益效果：

本发明以探测车双目导航相机采集图像数据为研究对象，针对其数据特点，提出了一种基于深度学习的地外行星表面环境重建与增强可视化方法。结合深度学习神经网络，实现对采集图像和数据的实时分析和处理，进行环境信息的重建。并结合场景重建信息，设计了一种基于SAM大模型的分割方法，对地外行星表面的障碍物进行提取。融合场景重建信息和障碍物提取信息对原始立体像对进行可视化增强。该方法可以较好针对地外行星地形地貌特点，充分考虑研究人员与用户的地球地形地貌认知习惯，对重建结果进行可视化增强和障碍物标注，从而实现更快速、准确的地外行星表面环境可视化。

附图说明

图1本发明实施例中流程图。

图2本发明实施例中立体匹配神经网络结构图。

图3本发明实施例中SAM大模型网络结构图。

图4本发明实施例中可视化增强流程图。

具体实施方式

以下结合附图和实施例对本发明技术方案进行说明。

实施例一

本实施例所设计的一种地外行星表面环境重建与增强可视化方法，选择嫦娥三号月球探测车双目导航相机采集图像数据为研究对象对本发明提出的方法进行具体说明。参见图1，本发明实施例包含以下步骤：

步骤2，由立体匹配场景重建网络获得视差图后，根据投影关系将视差图恢复至三维空间获得点云；由地面滤波算法分割获得外地行星表面障碍物，如石块等。并重投影至二维影像获得二维中心点关键词。

进一步的，步骤1中的立体匹配网络具体包括多尺度特征提取器、组合几何编码体、基于ConvGRU的更新算子和空间上采样模块组成。

进一步的，步骤1中的特征提取器包含特征提取网络和上下文网络两个部分。在特征提取网络中，对于初始的左右像对，其高、宽、通道数分别记为H、W、C，单张影像原始特征记为C×H×W，通道数即C一般为3。首先，使用一个在ImageNet数据集上预训练过的MobileNetV2网络将初始左右像对下采样至原始尺寸的1/32，然后使用带有跳跃连接的上采样模块将其恢复到原始尺寸的1/4，从而获得多尺度特征/>。其中，多尺度特征的高、宽、通道数分别包含以下尺寸：，其中/>。在上下文网络网络中，将初始的左右像对/>送入如RAFT-Stereo的网络结构中，该网络由一系列残差块和下采样层组成，产生具有128个通道的输入图像分辨率的1/4、1/8和1/16的多尺度上下文特征。

进一步的，对于步骤1中的组合几何编码体，以特征提取器中产生的左右像对的维度特征/>作为输入，沿通道维度分成/>(/>=8)个组并逐组计算相关，如公式（1）：

其中，公式（1）中的代表内积，d是视差指数，/>代表特征通道数。使用轻量级3D正则化网络进一步处理/>以获得几何编码体。3D正则化网络R基于轻量级3D-UNet，由三个下采样块和三个上采样块组成。每个下采样块由两个3×3×3的3D卷积组成。三个下采样块的通道数分别为16、32、48。每个上采样块由一个4×4×4的3D转置卷积和两个3×3×3的3D卷积组成。如同CoEx使用根据左侧图像的特征计算的权重来激发立体匹配中的匹配代价，以进行代价聚合。对于代价聚合中的一个/>维的匹配代价/>，其中且/>，引导匹配代价激励表示为公式（2）：

其中是sigmoid函数，/>表示哈达玛积。随后，使用内核大小为2、步幅为2的一维平均池化来池化视差维度，以形成两级金字塔/>和所有配对相关代价金字塔/>，两者结合起来形成组合的几何编码体。

进一步的，步骤1中的基于ConvGRU的更新算子。根据公式（3）从几何编码体积中回归初始的视差/>。

其中是1/4分辨率下的一组预定视差索引。从/>开始，使用三个级别的ConvGRU迭代更新视差。三层ConvGRU的隐藏状态是根据步骤2中生成的多尺度上下文特征初始化的。对于每次迭代，使用当前视差/>通过线性插值从组合几何编码体积中进行索引，产生一组几何特征/>。/>的计算公式(4)为：

其中是当前视差，/>是索引半径，/>表示池化。这些几何特征和当前视差预测/>通过两个编码器层，然后与/>连接以形成/>。然后使用ConvGRU更新隐藏状态/>。

其中是从上下文网络生成的上下文特征。Conv表示卷积操作，/>表示表示隐藏状态的更新量，/>表示卷积的权重。ConvGRU隐藏状态的通道数为128，上下文特征的通道数也是128。/>和/>分别由两个卷积层组成。隐藏状态/>由两个卷积层解码残差视差△dk，然后更新当前视差/>，更新完的视差由/>表示，如公式（6）：

进一步的，步骤1中的空间上采样模块通过预测1/4分辨率下的视差的加权组合输出全分辨率视差图。对隐藏状态进行卷积以生成特征，然后将它们上采样到1/2分辨率。上采样的特征与左图像中的特征/>连接，产生维度为9×H×W的权重W。通过粗分辨率邻居的加权组合输出全分辨率视差。

进一步的，步骤1中的立体匹配网络中的损失包含从GEV回归的初始视差上的平滑L1损失/>，如公式（7）：

其中代表真实视差。计算所有N个预测视差/>的L1损失/>，并以指数方式增加权重，总损失定义为，如公式（8）：

其中γ=0.9，代表真实视差。

进一步的，步骤2的具体实现包括如下子步骤：

其中，是图像中心的坐标，/>是摄像机的焦距。

其中，是摄像机的焦距，/>和/>是影像的中心点坐标。

进一步的，步骤3的具体实现包括如下子步骤：

步骤3.1，构建影像SAM大模型包含主要包含三个部分，分别是ViT-Tiny的轻量图像编码器、掩码解码器和关键词解码器。

轻量级图像编码器由四个部分组成，逐渐降低分辨率。第一阶段由具有倒置残差的卷积块构成，而其余三个阶段由Transformer模块组成。在模型的开头，有2个步长为2的卷积块，用于对分辨率进行下采样。不同阶段之间的下采样操作由步长为2的卷积块处理。最后一个下采样卷积中的步长2设置为1，以使最终分辨率与ViT的分辨率相匹配。

关键词解码器针对投影生成的地面障碍物中心点进行编码。首先获得它的位置编码，然后根据它是前景还是背景生成已学习的一维向量特征。将位置编码和特征进行融合得到点的关键词特征。

由于原始SAM中的掩模解码器已经是轻量级的，专利采用其解码器架构。掩码解码器可以有效的将图像编码特征、中心点关键词提示特征和输出标记映射到掩码。解码器基于Transformer的解码器块修改，在解码器后添加了动态掩码预测头。解码器使用了提示自注意力和交叉注意力。完成后，对图像进行上采样再使用MLP将输出标记映射到动态线性分类器上，最终分割出图像中的地面障碍物。

步骤3.2，获得网络输出的左图像中每像素对应的视差，利用指数函数对预测的视差进行增强，增强近处物体的差异度，公式（12）如下：

d为原始视差，d’表示通过增强的视差，m为指数函数的指数值。过实验统计，确定在指数时效果最佳。

步骤3.3，对增强视差图进行可视化，生成增强可视化结果。视差图采用颜色映射的方式将数组转为RGB影像，叠加显示在RGB影像中。根据经验，颜色映射方式可采用Jet映射。采用Jet映射，相较于其他颜色映射方式有更多的色彩变化，而且红-黄-蓝的色彩分布也更符合人类的认知感觉，近处的红色代表危险的需要重点关注的区域，而远处的区域光线较少采用较暗的蓝色。也符合地外行星探测器的运行规则，探测器运行时要注意周围的环境是否存在较大坡度、可通行障碍等。叠加的过程如公式（13）：

公式中表示输出的结果影像，/>表示原始的左影像，/>表示增强视差/>经过JET映射产生的RGB图像。/>和/>用于控制需要融合的两张影像的权重，通常在0到1之间，且/>，/>为偏置值。在本专利中根据经验值，/>，/>。公式适用于RGB图像，对每个像素的RGB通道都应用相同的权重。

步骤3.4，对增强可视化视差图进行分割地面障碍物的增强显示。由于JET颜色映射包含红黄蓝等常见的色彩，且常用于标注危险信息的红色在图中已经使用。所以本专利采用红色条纹，将由关键中心点分割得到的地面障碍物掩码以叠加显示到增强可视化的视差图上。与上一步不同，由于地面障碍物对地外行星探测器是非常致命的危险，所以这里采用替换的方式，由掩码区域生成对应的条纹叠加显示在增强图像中。

利用嫦娥三号月球探测车双目导航相机采集图像数据，经过本发明方法处理之后，无人运行速度可在2秒内处理一对立体影像，并提供增强可视化产品。说明本发明可在实时的时间效率内提供快速、准确的地外行星表面环境可视化结果。并且在3D重建评估数据集ETH3D数据集上进行立体匹配，匹配结果的像素错误率低至3.6。

实施例二

基于同一发明构思，本方案还设计一种地外行星表面环境重建与增强可视化***，包括三维重建模块，获取行星表面数据，重建行星表面场景；

中心点关键词获取模块，从重建场景中的视差数据获取三维空间点云；并分割获得行星地面上的障碍物，并重投影至二维影像获得二维中心点关键词；

增强可视化模块，将中心点关键词作为SAM大模型的提示，从原始可见光影像中分割获得石块区域；对深度图进行增强可视化，获取增强可视的地外行星表面场景图。

由于本发明实施例二所介绍的设备为实施本发明实施例一种地外行星表面环境重建与增强可视化***，故而基于本发明实施例一介绍的方法，本领域所属技术人员能够了解该电子设备的具体结构及变形，故而在此不再赘述。

实施例三

基于同一发明构思，本发明还提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现实施例一中所述的方法。

由于本发明实施例三所介绍的设备为实施本发明实施例一一种地外行星表面环境重建与增强可视化方法所采用的电子设备，故而基于本发明实施例一介绍的方法，本领域所属技术人员能够了解该电子设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一种方法所采用的电子设备都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本发明还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例一中所述的方法。

由于本发明实施例四所介绍的设备为实施本发明实施例一一种地外行星表面环境重建与增强可视化方法采用的计算机可读介质，故而基于本发明实施例一介绍的方法，本领域所属技术人员能够了解该电子设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一方法所采用的电子设备都属于本发明所欲保护的范围。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种地外行星表面环境重建与增强可视化方法，其特征在于，包括以下步骤：

步骤1，利用行星探测车导航双目相机获取可见光影像，重建行星表面场景，获得与可见光影像对应的视差图；

步骤2，根据重建行星表面场景所获得的视差图获取三维空间点云；对所获取的三维空间点云进行分割获得地外行星表面障碍物，将所获得的地外行星表面障碍物重投影至可见光影像获得障碍物的二维中心点，并将该二维中心点作为关键词；

步骤3，将所述关键词作为SAM大模型的提示，从可见光影像中分割获得障碍物区域，所述障碍物区域包括石块；对可见光影像进行增强可视化，获取增强可视的地外行星表面场景图，具体操作如下：

获取左图像中每像素对应的视差，利用指数函数对预测的视差进行增强，得到增强视差图；

增强视差图采用颜色映射的方式将数组转为RGB影像，叠加在可见光影像上，得到增强可视化视差图；

将从可见光影像中分割得到的障碍物区域对应的掩码叠加到增强可视化视差图上，得到最终的增强可视化显示，其中，采用替换的方式，将由掩码区域生成的对应的条纹叠加显示在增强图像中。

2.根据权利要求1所述的地外行星表面环境重建与增强可视化方法，其特征在于：

步骤1中获取行星探测车导航相机所拍摄的可见光影像，经过彩色复原和彩色校正处理的地外行星表面彩色立体像对数据；构建实时立体匹配场景重建网络，将左右像对输入神经网络中获得重建场景。

3. 根据权利要求2所述的地外行星表面环境重建与增强可视化方法，其特征在于：立体匹配场景重建网络具体包括多尺度特征提取器、组合几何编码体、基于 ConvGRU的更新算子和空间上采样模块：

可见光影像的左右立体像对首先进入多尺度特征提取器，特征提取器提取到左右像对单独的影像特征和组合的多尺度上下文特征；

将像对单独的影像特征输入到组合几何编码体中，获得组合特征；

然后基于ConvGRU的更新算子对组合特征进行运算，迭代更新产生1/4分辨率的初始视差，并结合组合的多尺度上下文特征，进行ConvGRU的更新算子隐藏状态的更新；

空间上采样模块通过预测基于ConvGRU的更新算子生成的迭代视差组合输出全分辨率视差图。

4.根据权利要求2所述的地外行星表面环境重建与增强可视化方法，其特征在于，步骤2的具体过程如下：

步骤2.1，由立体匹配场景重建网络获得视差图后，根据投影关系将视差图计算得到深度图；

步骤2.2，对于深度图中的每个像素，根据深度值，将其转换为三维坐标，添加到点云数据结构中，以生成三维点云；

步骤2.3，采用CSF地面滤波算法过滤地面点云，然后，通过比较原始激光雷达点和过滤后的地面点云，从激光雷达点云中提取地面点和非地面点；

步骤2.4，基于欧式聚类算法，对提取到的非地面点点云进行聚类，并计算每一类的中心点，通过将点云中聚类得到的地面障碍物中心点映射回二维可见光影像空间，将点云重投影到影像上。

5.根据权利要求1所述的地外行星表面环境重建与增强可视化方法，其特征在于：所述SAM大模型包括基于ViT的轻量图像编码器、掩码解码器和关键词解码器；

可见光影像首先被送入基于ViT的轻量图像编码器提取影像特征；然后将提取的关键词输入到关键词解码器，获得关键词特征；影像特征和关键词特征共同输入到掩码解码器中，经过掩码解码器计算，输出影像中地面障碍物分割结果。

6.根据权利要求1所述的地外行星表面环境重建与增强可视化方法，其特征在于：得到增强可视化视差图中颜色映射方式采用Jet映射，叠加的过程如下：

公式中表示输出的结果影像，/>表示原始的左影像，/>表示增强视差/>经过JET映射产生的RGB图像，/>和/>用于控制需要融合的两张影像的权重，且/>，/>为偏置值。

7.一种地外行星表面环境重建与增强可视化***，其特征在于：

包括三维重建模块，利用行星探测车导航双目相机获取可见光影像，重建行星表面场景，获得与可见光影像对应的视差图；

关键词获取模块，根据重建行星表面场景所获得的视差图获取三维空间点云；对所获取的三维空间点云进行分割获得地外行星表面障碍物，将所获得的地外行星表面障碍物重投影至可见光影像获得障碍物的二维中心点，并将该二维中心点作为关键词；

增强可视化模块，将所述关键词作为SAM大模型的提示，从可见光影像中分割获得障碍物区域，所述障碍物区域包括石块；对可见光影像进行增强可视化，获取增强可视的地外行星表面场景图，具体操作如下：

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现权利要求1-6中任一项所述的方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现权利要求1-6中任一项所述的方法。