CN111080659A

CN111080659A - 一种基于视觉信息的环境语义感知方法

Info

Publication number: CN111080659A
Application number: CN201911317441.3A
Authority: CN
Inventors: 白成超; 郭继峰; 郑红星; 刘天航
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-04-28

Abstract

本发明提出了一种基于视觉信息的环境语义感知方法，包括：利用Kinect V1.0相机采集环境图像信息，得到配准后的彩色图及深度图；基于配准后的彩色图及深度图，通过ORB_SLAM2过程，根据每帧中提取的ORB特征点解算相机三维位姿，得到相机位姿信息；对每帧图像进行语义分割，生成语义颜色信息；同步根据输入的深度图和相机的内参矩阵生成点云；将语义颜色信息注册到点云中，得到局部语义点云结果；利用相机位姿信息与局部语义点云结果进行融合，得到新的全局语义点云信息；将融合后的全局语义点云信息用八叉树地图进行表示，得到最终的三维八叉树语义地图。本发明为地外天体巡视器环境探测提供了更深层的类人理解。

Description

一种基于视觉信息的环境语义感知方法

技术领域

本发明涉及一种基于视觉信息的环境语义感知方法，属于人工智能信息技术领域。

背景技术

通过同步定位与绘图技术可以实现移动平台在环境中的有效感知，既可以知道环境中的障碍信息，同步还可以得到自身与环境的相对关系，这是实现平台自主化的关键一步，但是随着平台和探测载荷的不断发展，更多的任务场景和需求被提出，对于目标外表、几何特征的识别不在能解决实际遇到的问题。在地外天体巡视过程中，外表相似的一片地形，如果仅依赖传统的识别方式，可以得到环境的三维重构，但是很难区分开两个地形的差别，对于之前的探测任务来说，只要能识别出来前方有无障碍、是否可以通过即可，但是随着探测时间、尺度的增加，现有的认知是远远不够的，需要对环境有语义层面的理解，即不仅要探测出是否有目标，还需要进一步分析出是什么，这将是巡视器走向智能的核心。在无人驾驶研究中，该问题同样重要，在行驶过程中会遇到车辆、行人、路障等随机性很大的目标，假设出现了无法避免相撞的情况，识别到前方有障碍，但是无法有效判断是什么障碍的时候，就突显出语义理解的重要性，当给出一个是人，另一个是草堆的理解结果之后，就很容易做出正确的判断。由上述实例可以分析出对环境的语义认知能力决定了执行任务的正确性和有效性。而且对环境的语义认知更近似于人的环境理解行为，现目前针对该问题的研究逐渐成为领域热点。

语义分割可以理解为将图像输入分为不同的语义可解释类别，常用的分割架构为卷积神经网络。2017年来自UCL的学者给出了基于深度学习的语义分割思路，提出了名为DeepLab的解决方案，主要由深度卷积网络、上采样卷积以及全连接条件随机场组成。其中利用上采样滤波可以有效控制特征响应计算的分辨率，同时可有效扩大滤波器视场范围，从而可以融合更多的语义信息；再者，利用上采样空间金字塔池化(Atrous SpatialPyramid Pooling)来实现目标的多尺度分割；最后，利用深度卷积神经网络和概率图模型相结合，改进了对目标边界的精确定位。Chaurasia等人针对现有的语义分割方法并没有有效利用神经网络参数的问题，利用编码器表示实现了高效的语义分割，提出了LinkNet解决方案，从而能够在不显著增加参数的前提下进行学习训练。Zhao等人则给出了针对高分辨图像的实时语义分割构架，提出了图像级联网络(ICNet)，通过引入级联特征融合单元，快速实现高质量语义分割。Schneider等人提出了一种新的多模卷积神经网络架构来进行语义分割和目标检测，除了利用了颜色信息外，还利用了互补的输入信息，这种联合模型的优点在于实现了中间级融合，使网络能够利用跨模态的相互依赖性。为了解决在不受限制的开放词汇环境中的场景解析，Zhao等人提出了金字塔场景分析网络(PSPNet)，利用基于不同区域的语义融合来实现全局的语义理解，从结果可以看出PSPNet为像素级预测提供了非常好的框架。除此之外，U-Net，SegNet，DeconvNet，RefineNet，PixelNet以及其它的方法也都表现出不错的分割效果，同时也有学者提出了基于端到端的分割模型以及基于对抗训练的实现思路，从而为后续的研究提供了新的方向。

基于上述背景调研及分析，可以看出对于环境语义感知的需求逐渐增加，也预示者未来的发展方向，故本发明将在现有感知技术的基础上，提出了一种全新的语义感知方法，为巡视器环境语义理解提供支撑。

发明内容

本发明提出一种基于视觉信息的环境语义感知方法，目的是为了提供现有环境感知在深层次语义理解能力方面的不足，同步为后续的规划控制阶段提供可靠的环境感知信息的问题。

一种基于视觉信息的环境语义感知方法，所述感知方法包括以下步骤：

步骤一：利用Kinect V1.0相机采集环境图像信息，得到配准后的彩色图及深度图，同时执行步骤二和步骤三；

步骤二：基于配准后的彩色图及深度图，通过ORB_SLAM2过程，根据每帧中提取的ORB特征点来解算相机三维位姿，得到相机位姿信息，而后执行步骤五；

步骤三：基于发布的彩色图，对每帧图像进行语义分割，生成语义颜色信息；同步根据输入的深度图和相机的内参矩阵生成点云；

步骤四：将步骤三中生成的语义颜色信息注册到步骤三生成的点云中，得到局部语义点云结果；

步骤五：利用步骤二得到的相机位姿信息与步骤四生成的局部语义点云结果进行融合，得到新的全局语义点云信息；

步骤六：将步骤五中得到的融合后的全局语义点云信息用八叉树地图进行表示，得到最终的三维八叉树语义地图。

进一步的，在步骤二中，具体的，所述的配准后的彩色图及深度图，通过OpenNI和OpenCV结合的方式来获得。

进一步的，在步骤二中，具体的，所述ORB_SLAM2的三个主要并行线程如下：

通过局部地图中匹配的特征定位每一帧的相机位置，并只运用运动BA最小化重投影误差，其中，BA为Bundle Adjustment，译为光束法平差；

基于局部BA实现局部地图的管理和优化；

执行回环检测，基于位姿图优化来矫正累积漂移。

进一步的，在步骤二中，具体的，所述ORB_SLAM2过程通过光束法平差优化。

进一步的，在步骤三中，具体的，所述点云为三维点云。

进一步的，在步骤三中，具体的，采用金字塔场景分析网络PSPNet作为实现语义分割网络的模型。

进一步的，在步骤五中，具体的，所述相机位姿信息与步骤四生成的局部语义点云结果进行融合的融合模式采用最大置信度融合模式。

进一步的，在步骤六中，具体的，在三维地图中***点云时，首先通过体素滤波器过滤点，以对点进行向下采样；然后将这些点***Octomap，并利用光线投射来清除自由空间，进而更新Octomap的内部节点，即分辨率较低的体素；最后，将更新后的Octomap整理以实现可视化。

本发明的主要优点是：

本发明基于视觉信息实现了对探测环境的语义重构，具备了同步三维重构、语义分割及空间语义表征的能力，为地外天体巡视器环境探测提供了更深层的类人理解，同时为任务规划及决策分析提供了更加可靠的信息输入。该发明属于人工智能信息技术方向，相比之前提升了其高层语义理解能力。

附图说明

图1为本发明的一种基于视觉信息的环境语义感知方法的基于RGB-D语义SLAM实现框架图；

图2为输入信息转换流程示意图；

图3为ORB_SLAM2实现框架；

图4为八叉树地图原理示意图；

图5为金字塔场景分析网络框架示意图；

图6为基于ORB_SLAM2在数据集环境下重构结果示意图；

图7为基于RGBD三维语义建图结果示意图；

图8为最终结果示意及语义标签示意图；

图9为基于ORB_SLAM2室内环境建图结果示意图；

图10为基于RGBD三维语义建图结果示意图；

图11为最终结果示意及语义标签示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，本发明提出了一种基于视觉信息的环境语义感知方法的一实施例，所述感知方法包括以下步骤：

步骤二：基于配准后的彩色图及深度图，通过ORB_SLAM2过程(同步定位与绘图)，根据每帧中提取的ORB特征点来解算相机三维位姿，得到相机位姿信息，而后执行步骤五；

具体的，本发明利用深度相机实现了视觉点云信息的位姿估计、语义分割、全局/局部语义重构，提高了对环境信息的理解能力，使得巡视器对环境的感知不仅仅局限于几何三维理解，增加了对障碍语义属性的理解，将更有利于任务的开展及路径的规划，将平台的智能性大大提升。

参照图2所示，在本部分优选实施例中，在步骤二中，具体的，所述的配准后的彩色图及深度图，通过OpenNI和OpenCV结合的方式来获得。

参照图3所示，在本部分优选实施例中，在步骤二中，具体的，所述ORB_SLAM2的三个主要并行线程如下：

通过局部地图中匹配的特征定位每一帧的相机位置，并只运用运动BA最小化重投影误差；

基于局部BA实现局部地图的管理和优化；

执行回环检测，基于位姿图优化来矫正累积漂移。

在本部分优选实施例中，在步骤二中，具体的，所述ORB_SLAM2过程通过光束法平差优化。

具体的，参照图2-图3所示，关于ORB_SLAM2，2017年Mur-Artal等人提出了适用于单目、双目和RGB-D相机的开源SLAM解决方案，即ORB_SLAM2，相比于之前的单目ORB_SLAM***，一是拓展了应用范围，不在局限于单目视觉，整个***框架包括了闭环检测、重定位以及地图的重新使用；二是通过在后端引入光束法平差(BA)优化，要比基于迭代最近点(ICP)或者光度和深度误差最小化等实时方法获得更高的精度；三是通过使用远处和近处的双目点匹配以及单目观测，最终的精度要优于直接双目匹配；四是提出了一个轻量级的定位模式，它利用视觉里程计跟踪未重构区域，并匹配到允许零漂移定位的地图点，有效解决了无法建图情况下的定位问题。现目前，该***已经被应用于多种应用场景，如手持环境重构设备、无人机环境重构以及大尺度环境下无人车的自动驾驶等，故本发明将使用ORB_SLAM2作为SLAM的后端，进行相机位姿的解算，该SLAM***不仅在大时间尺度下仍然可以得到精确的全局定位精度，同时对于运行环境要求也很常规，基于CPU即可实现实时的解算运行。

1)***输入

该***的输入为相机采集到的彩色图像和深度图像，对于每一帧图像，将会提取一组特征点，对应于本发明采用的Kinect V1.0相机，即在640×480大小的图像上，每个图像将会提取1000个点。同时要指出的是对于图像数据的采集应用，采用了OpenNI和OpenCV结合的方式来实现，因为OpenCV不能直接对传感器进行操作，而OpenNI提取的图像格式不能直接进行后续操作，其运行流程见图2所示。通过OpenNI检测传感器设备的可用状态，并对数据流进行采集，经过格式转换，转换为OpenCV可用的形式，即可进行后续操作的图片格式。获得的图像信息将以彩色图片和深度图片的形式存贮。

2)***结构和运行

在运行过程，该***具有三个主要的并行线程：首先是通过局部地图中匹配的特征定位每一帧的相机位置，并只运用运动BA最小化重投影误差；其次是基于局部BA来实现局部地图的管理和优化；再者是执行回环检测，基于位姿图优化来矫正累积漂移；在此之后，可以进行第四个线程，即完整的BA优化，从而给出最优的机构和运动解。除此之外，同时嵌入了一个基于DBoW2的位置识别模块，用于在跟踪失败时的重新定位，或者是在已经重构的场景中的重新初始化。同时该***还维护了共可见性图(covisibilitygraph)，即连接任意观察公共点的两个关键帧以及连接所有关键帧的最小生成树，这些图形结构允许检索关键帧的局部窗口，以便跟踪和局部绘图在局部进行。对于跟踪、绘图和识别任务该***均使用相同的ORB特征，这些特征对旋转和尺度稳健，以及对于相机的自动增益、自动曝光以及照明变化均有很好的不变性。而且具备快读提取和匹配的特点，在实时性操作方面具有优势。

3)光束法平差(Bundle Adjustment)优化

地图点三维坐标X_w,j∈³，关键帧位姿T_iw∈SE(3)，这里w表示世界系，对匹配关键点

的重投影误差进行优化，使其误差和最小化。在关键帧i中观察地图点j的误差项为：

e_i,j＝x_i,j-π_i(T_iw,X_w,j) (1)

这里π_i是投影方程：

[x_i,j y_i,j z_i,j]^T＝R_iwX_w,j+t_iw (3)

这里R_iw∈SO(3)、

分别是T_iw的旋转和平移部分。(f_i,u,f_i,v)和(c_i,u,c_i,v)是关键帧i时刻对应的相机内参。要最小化的代价函数是：

其中ρ_h是Huber鲁棒核函数，

是与检测关键点的尺度相关的协方差矩阵。对于完整的BA，优化所有点和关键帧，第一个关键帧固定为原点。在局部BA中，局部区域中包含的所有点都是优化的，而关键帧的子集是固定的。在“位姿图优化”或“运动BA”中，所有点都是固定的，只有相机位姿是优化的。下面给出在SE(3)约束下的位姿图优化(PoseGraph Optimization)。

首先给定二元边的位姿图，将边中的误差定义为：

在闭合边计算完毕后，log_SE(3)转换到切空间，因此误差向量是⁶中的向量。目标是优化SE(3)空间下的关键帧姿态，使如下代价函数最小化：

式中，Λ_i,j是边的信息矩阵。虽然该方法是一个完整BA的粗略近似，但它比BA具有更快、更好的收敛性。

在本部分优选实施例中，在步骤三中，具体的，所述点云为三维点云。

具体的，在***三维地图之前，环境结构信息以点云的形式存储，用于执行消息传递。点云是一组无序的点，每个点都包含某个参考系中该点的坐标。深度图像首先注册到彩色图像的参考帧。然后，根据每个像素在图像上的位置、深度和相机内参计算其真实世界坐标，进而生成点云信息。

在针孔相机模型中，给定一个像素及其像素坐标(x,y)和深度d，真实世界坐在相机光心坐标系中的坐标(X,Y,Z)可通过以下方式计算：

这里f_x、f_y是相机焦距，c_x、c_y是光轴中心在图像上的像素坐标。除了位置和RGB信息外，语义信息也存储在点云中。不同的点类型用于不同的语义融合方法。在本发明将采用最大置信度融合来实现三维语义重构，故其点云数据结构包含三维位置信息，RGB颜色信息，语义颜色信息以及语义置信度信息。

参照图5所示，在本部分优选实施例中，在步骤三中，具体的，采用金字塔场景分析网络PSPNet作为实现语义分割网络的模型。

具体的，语义分割的主要目的是对图像的语义信息进行区分，相比于目标识别和定位，在应用上更贴近于真实的应用，即目标识别给出的是图像中是否有需要识别的对象，定位则是给出了识别对象相对的空间关系，而语义分割则是对环境进行了语义区分，具备了对每一帧图像的理解能力。语义层面的环境感知则是实际应用中最为需要的，因为通过语义认知，结合先验知识可以更好的来判断所处环境的属性，从更多方面来考虑规划的约束，进而获得更加安全和优化的运行轨迹。

近几年随着人工智能技术的兴起，语义分割越来越受到重视，通过与神经网络的结合在很多领域已经初见成效，如智能机器人、无人驾驶、医疗影像等等，为不同任务场景的高层次理解提供了支撑，具备了从实际的测量信息到抽象的语义理解的转化。对于地外天体巡视器来说，同样需要这种能力来帮助巡视器自主开展巡视任务，在检测出前方有障碍物的同时，知道是什么障碍物，以及知道目前所处的地形如何，适不适合继续前进等等。

目前较为成熟的深度网络，如AlexNet，VGG-16，GoogleNet以及ResNet在图像语义分割实现上均表现出了不错的效果。本发明将采用金字塔场景分析网络(PSPNet)作为实现CNN语义分割网络的模型。图5-6给出了该网络模型的结构示意，其输入为采集到的场景彩色图像，输出结果为含有类别信息的分数图。为了实现该过程，首先利用ResNet将输入图像处理生成特征图；其次对于生成的特征图进行金字塔池化操作，从而可以获取不同分辨率的特征图；之后，对于每一个池化特征图进行卷积操作，在结合上采样特征图将结果堆叠起来形成最终的特征图；最后通过卷积处理得到类别的分数图。

对于在无人车平台上实现时，Kinect V1.0获取的图像首先要被调整到CNN语义分割网络的输入大小；同时在类别输出映射时采用了Softmax激活函数，以产生一个概率分布(分数总和为1)；然后，根据语义融合方法，对每个像素取概率最高的语义标签，这里将这些概率称为关联语义类别标签的语义置信度；最后根据颜色图将语义标签解码为RGB颜色。综上即完成了语义信息的获取和表征。

在本部分优选实施例中，在步骤五中，具体的，所述相机位姿信息与步骤四生成的局部语义点云结果进行融合的融合模式采用最大置信度融合模式。

具体的，通过对每一帧图像进行语义分割，可以得到每一帧图像像素所对应的语义标签，在连续运动的环境中，则需要将连续多个时刻的语义值进行融合从而实现全局的语义理解。在执行点云融合时，本发明采用了最大置信度融合模式，该融合包括CNN语义分割网络产生的具有最高置信度的语义颜色及其对生成的点云的置信度，同样的信息也存储在Octomap的每个体素中。在将点云***Octomap时，如果一个体素有一个新的测量，则将两个语义信息融合在一起。

如果两个语义颜色相同，则保持语义颜色，置信度是两个语义的置信度的平均值。在另一种情况下，如果两种语义颜色不同，则保留具有较高置信度的语义，本发明将置信度降低0.9，作为对不一致的惩罚。这样做还可以确保始终更新语义信息，即使已经具有非常高的可信度。该方法优点是只存储一个语义信息，从而提高了内存效率。其伪代码如表1所示：

表1语义融合-最大置信度融合

参照图4所示，在本部分优选实施例中，在步骤六中，具体的，在三维地图中***点云时，首先通过体素滤波器过滤点，以对点进行向下采样；然后将这些点***Octomap，并利用光线投射来清除一定范围内的自由空间，进而更新Octomap的内部节点，即分辨率较低的体素；最后，将更新后的Octomap整理以实现可视化。

具体的，关于八叉树地图：

三维重构地形的表示有很多种，在形式上可以分为度量地图和拓扑地图，为了更加有效的提高大尺度环境下的地图表征，本发明将使用Octomap作为三维地图表示。Octomap将一个大的有界空间表示为占用网格(体素)的八叉树。八叉树中的每个节点表示一个特定大小的体素，这取决于它在树中的级别。八叉树的每个父节点被细分为8个子节点，直到达到最佳分辨率。八叉树的图解如图4所示。这样，大比例尺的三维地图就可以有效地存储在内存中。

Octomap利用命中率和丢失率对传感器建模，并以概率的方式基于不同测量来更新体素的占用率。通过测试，可以发现对于发明的测试适合使用2厘米的分辨率，对于环境的表征不仅提供了很好的细节，同时保持了***地图的实时效率。除此之外，Octomap还能够区分自由空间和未知空间。

关于点云***地图：

在三维地图中***点云时，首先通过体素滤波器过滤点，以对点进行向下采样。然后将这些点***Octomap。并利用光线投射来清除一定范围内的自由空间。进而更新Octomap的内部节点，即分辨率较低的体素。最后，将更新后的Octomap整理以实现可视化。

其中体素滤波器用于对点云进行向下采样。其原理是在给定的体素空间中只保留一个点(分辨率)。因为只需要一个点来更新八叉树节点，所以体素滤波器的分辨率设置为与八叉树分辨率相同的值。这种滤波器可以大大提高性能，因为它减少了很多点，特别是对于远离传感器的点，光线投射非常耗时。对应于kinectV1.0，其图像大小为640×480，则需要***307200个点。经过体素过滤后，根据点的距离可以得到15000到60000个点，大大降低了点的存储，同时提高了对有效点的利用。

再者，在将点云***Octomap时，仅更新分辨率最高的体素(叶节点)。它们的占用概率、RGB颜色、语义颜色和置信度都会更新。同时根据最大置信度语义融合方法来更新语义颜色和置信度。考虑到深度相机的有限测量范围和效率，这里只***距离原点(相机的光学中心)一定距离的点。在本发明将这个最大范围设置为5米。对于占用概率，根据八叉树相关论文中的推导，假设t＝1,2,,T-1,T时刻，观测的数据为z₁,,z_T，那么第n个叶子节点记录的信息为：

为了清理自由空间，当在Octomap中***一个点时，可以执行光线投射以清除原点和该端点之间直线上的所有体素。当端点远离原点时，这可能是一个非常昂贵的操作，因为执行了许多八叉树搜索。为了清除必要的自由空间，同时保持合理的运行效率，本发明只在有限的范围内进行光线投射。

之后，通过更新八叉树的内部节点以获得低分辨率下的颜色和语义信息。其中将父节点的占用概率设置为其八个子节点的最大值，将父节点的颜色设置为其子节点的平均值，其父节点的语义信息是子节点语义的融合。

最后，在Octomap中，可以修剪相同的子节点以减小地图数据的大小。在Octomap的源代码实现中，如果所有这些子节点都具有相同的占用空间，则会修剪子节点。由于语义信息必须保存在叶节点上，因此只有当一个节点的所有子节点具有相同的占用概率、相同的语义颜色和相同的语义置信度时，才对其子节点进行删减。所以在实际的测试中，子节点被修剪的概率很低。

本发明的具体实施例：

(1)验证参数设置

基于上述方法，算法验证将在2个环境中完成，其中仿真环境验证将基于MIT发布的ADE20K数据集进行，该数据集为场景的感知、语义理解提供了很好的测试基准；复杂环境测试将在含有人、桌、椅、柜子、书籍等实验室环境进行，本发明选择了哈工大新技术ISAP实验室进行测试。

同时，选择蓝鲸XQ无人车平台为实验测试平台，同时搭载KinectV1.0深度视觉相机，其内参为f_x＝517.306408，f_y＝516.469215，c_x＝318.643040，c_y＝255.313989，切向畸变系数为k₁＝0.262383，k₂＝-0.953104，径向畸变系数为p₁＝-0.005358，p₂＝0.002628，p₃＝1.163314，则由下式可以计算出有效的深度范围为：

在实物测试过程中，所用Kinect V1.0相机的彩色图像与深度图像采集频率为30Hz，振动传感器采集频率为100Hz，特征向量频率为1.6Hz，ORB_SLAM2运行频率为15Hz。

(2)测试结果

公开数据集测试：

给出了在公开数据集环境下的语义重构测试分析，基于ADE20K数据集分别完成了ORB_SLAM2稀疏环境重建以及基于本发明所提方法的稠密三维语义重建，其中图6给出了基于ORB_SLAM2的测试结果，图中左侧为稀疏点云重构，可以看到仅能大概看出环境的变化趋势，这种地图常用于辅助导航，为平台提供前方障碍的检测反馈，右侧则给出了关键帧的图像示意及特征点检测结果，这种方法的优势在于提高了计算效率，可以在线的应用，其不足之处在与无法细致的表达环境的信息，不利于语义信息的提取和表征。

故如图7所示，给出了基于RGBD三维语义建图结果，共采集了数据集中52s的视频数据，其建图频率为0.9Hz。图中左侧展示了行进过程语义地图构建的结果，右侧则给出了数据里该过程图像示意，可以看到基于实验设置的参数，可以较为合理的重构出测试环境的结果，同时结合图8，可以得出对环境语义结果的判断与实际基本一致，例如地面、桌子、椅子、墙面等典型场景在重构图中的颜色示意与语义标签中的结果一致，图中绿色轨迹则是相机运动的轨迹示意。这里需要指出的是要想全局的来判断语义标记精度，需要知道重建点云的真实语义信息以及测试过程中的点云语义估计，但是该标准值的测量非常困难，同时每一次实验无法保证点云的选择完全一致，故本发明将根据语义颜色信息来进行正确性判断，再后续的实物测试中将根据实验平台基于语义信息的规划成功率来间接反馈该标记的可靠性。当然，也有一些数据集给出了对比真值，但是数据非常有限，本发明验证用的ADE20K数据集则没有给出该真值，故仍以点云的语义颜色与实际对比来判断，因为该认知能力最后还是要用于实物应用，所示上式判断方法具有一定的可操作性。

实物环境测试：

本发明在复杂实验室环境进行了实物测试，绕实验室走道行走一周，共采集84s视频数据，场景中包括了地板、墙、人、桌子、椅子、窗帘、玻璃、储物柜、包、垃圾桶等常见物品，同时在场景中放置了一块草坪，用于区分不同材质的地形。同数据集测试思路一致，首先给出了基于ORB_SLAM2的稀疏重构测试，如图9所示，左侧为环境三维点云重构示意，右侧给出了过程中的部分关键帧及特征点检测结果，同样可以得出该方法仅能对环境的大致形状给出示意，对于真正环境中物体的具体形状等信息则很难表示，而对于巡视任务来说，所处的环境是未知的，每一帧的信息无论是对于科学探测还是导航来说都是至关重要的，实际中更希望可以丰富的表达地外运行的环境，所以在此基础上基于本发明所述的方法对该环境下的稠密三维语义重构进行了实验。

图10给出了基于RGBD三维语义建图结果，建图过程频率为0.4Hz，图中左侧为测试过程中语义建图结果，不同的颜色代表了不同的语义信息，右侧为环绕ISAP实验室进行测试过程中采集的图像示意，可以看到所经过的环境含有较多的对象类别，可视为复杂场景处理，通过重构结果中的语义示意与实际环境中的信息对比，可以得出该方法所得结果可以很好的给出环境的理解，尤其对于地形部分的识别，不仅可以对地板的覆盖区域进行有效判断，同时对地板与草坪的材质区分也有较好的成功率，相比于稀疏重构来说，环境语义建模对于巡视平台在探测环境的运行和路径选择更有帮助。

在室内复杂环境下的最终语义建图结果由图11所示，绿色轨迹为实际运行路径，参考右侧所示的语义标签，在本实验中具备了对墙、地板、人、门、玻璃窗、储层柜、箱子、椅子、窗帘、草等16种物体的语义识别与重构能力，通过与实测环境对比，对于走过的环境信息具有不错的语义建图效果，同基于ORB_SLAM2的重构结果对比，虽然大致的环境结果示意相似，同样给出了探测环境是否有障碍物，但是对于语义建图的意义更大，比如图中左侧环境中为靠墙坐着的实验室学生，通过语义建图可以有效的从环境中分割出该信息并以不同的颜色值进行表示，而前者不可以，它只能给出有物体存在的结果。同时由于本发明主要目的是为了提高巡视器地形感知能力，故在测试环境中选择五类对象(墙、地板、草、储藏柜和门)随机抽取1000个点云点，并通过每一点的预测语义值与真实语义值进行对比，给出了测试标记精度的统计结果，其统计标准如下式所示：

其结果如表2所示：

表2语义重构标记精度

五类对象的标记精度均高于90％，且选择的几类为常规容易出现混淆的类别，所以说类比地外天体巡视来说，其运行对象及环境相对单一，且运行速度也相对较缓，可以获得更高精度的认知结果，故利用语义建图可以获取巡视路径上丰富的语义信息，使得巡视器具备了环境理解的能力，从而既可以规划巡视的最优路径，又可以“有想法”的自主设定任务的执行。这无疑是未来巡视器的发展趋势，而本发明的研究可以为此提供一定的参考。

Claims

1.一种基于视觉信息的环境语义感知方法，其特征在于，所述感知方法包括以下步骤：

2.根据权利要求1所述的一种基于视觉信息的环境语义感知方法，其特征在于，在步骤二中，具体的，所述的配准后的彩色图及深度图，通过OpenNI和OpenCV结合的方式来获得。

3.根据权利要求1所述的一种基于视觉信息的环境语义感知方法，其特征在于，在步骤二中，具体的，所述ORB_SLAM2的三个主要并行线程如下：

基于局部BA实现局部地图的管理和优化；

执行回环检测，基于位姿图优化来矫正累积漂移。

4.根据权利要求1所述的一种基于视觉信息的环境语义感知方法，其特征在于，在步骤二中，具体的，所述ORB_SLAM2过程通过光束法平差优化。

5.根据权利要求1所述的一种基于视觉信息的环境语义感知方法，其特征在于，在步骤三中，具体的，所述点云为三维点云。

6.根据权利要求1所述的一种基于视觉信息的环境语义感知方法，其特征在于，在步骤三中，具体的，采用金字塔场景分析网络PSPNet作为实现语义分割网络的模型。

7.根据权利要求1所述的一种基于视觉信息的环境语义感知方法，其特征在于，在步骤五中，具体的，所述相机位姿信息与步骤四生成的局部语义点云结果进行融合的融合模式采用最大置信度融合模式。

8.根据权利要求1所述的一种基于视觉信息的环境语义感知方法，其特征在于，在步骤六中，具体的，在三维地图中***点云时，首先通过体素滤波器过滤点，以对点进行向下采样；然后将这些点***Octomap，并利用光线投射来清除自由空间，进而更新Octomap的内部节点，即分辨率较低的体素；最后，将更新后的Octomap整理以实现可视化。