CN115187743A

CN115187743A - 一种地铁站内部环境布置预测和白模采集方法及***

Info

Publication number: CN115187743A
Application number: CN202210908029.4A
Authority: CN
Inventors: 高跃; 刘小兰; 黄晋; 肖罡; 杨钦文; 万可谦; 魏志宇
Original assignee: Jiangxi Kejun Industrial Co ltd
Current assignee: Jiangxi Kejun Industrial Co ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-14
Anticipated expiration: 2042-07-29
Also published as: CN115187743B

Abstract

本发明公开了一种地铁站内部环境布置预测和白模采集方法及***，本发明地铁站内部环境布置预测和白模采集方法包括：在目标位置采集图像和点云；将图像输入预先训练好的卷积神经网络模型以获得空间布局三维白模；将点云和所述空间布局三维白模融合得到目标位置的局部三维白模；其中卷积神经网络模型包括特征提取网络、上采样融合网络和布局预测网络。本发明针对当前SLAM类采集方案中会产生的大量白模空洞的缺点，采用基于图像进行基础白模构建并与采集到的点云进行融合的方式进行三维白模构建，由于基础白模由图像自动生成，因此也解决了手工白模构建中人力和时间成本过高的缺陷。

Description

一种地铁站内部环境布置预测和白模采集方法及***

技术领域

本发明涉及计算机视觉采集和建模技术，具体涉及一种地铁站内部环境布置预测和白模采集方法及***。

背景技术

三维白模是指物体的不含材质贴图的三维模型，三维白模构建是指对三维物体建立适合计算机表示和处理的数学模型(不含材质贴图的三维模型),是在计算机环境下对其进行处理、操作和分析的基础,也是在计算机中建立表达客观世界的虚拟现实的关键技术。

现有针对特定场景下的三维白模型构建方法主要分为激光SLAM建模、视觉SLAM建模和手工建模三类。1)视觉SLAM方案。以RTAB-Map为代表的视觉SLAM方案从功能角度上分为图像数据采集、视觉里程计、后端非线性优化、回环检测以及建图五个部分，其中图像数据采集模块通过相机对环境的2D视觉数据进行获取，视觉里程计通过不同时刻和不同位置的2D图像(由于运动产生的图像变化)对3D立体信息进行预测计算，通过后端非线性优化和回环检测进而估计自身位姿的过程。输入为图像、视频序列，输出相机运动轨迹和局部地图。在建图过程中将当前计算得到的相机运动轨迹和局部地图匹配拼接到原有地图中。地图融合将这一轮来自激光雷达的新数据拼接到原始地图当中，最终完成地图的更新。2)激光SLAM方案。以LIO-SAM为代表的激光SLAM，与视觉SLAM方案不同，激光SLAM方案以3D点云作为直接输入数据。从功能角度上分为点云数据采集、激光里程计、后端非线性优化、回环检测以及建图五个部分。其中点云数据采集通过激光雷达或其他传感器获取所在位置的环境信息，然后对激光雷达原始数据进行优化，剔除一些有问题的数据，或者进行滤波。激光里程计不再预测3D立体信息，而是直接将当前局部环境的点云数据在已建立的地图上寻找对应的位置，匹配的好坏对SLAM构建地图的精度有直接的影响。在SLAM过程中，需要将激光雷达当前采集的点云(红色部分)匹配拼接到原有地图中。后端非线性优化、回环检测以及建图模块与视觉SLAM方案一致。3)手工三维建模。通过相机对场景内的信息进行记录，然后以人工CAD方式对场景的3D模型进行绘制，然后构建光照和视角模型，在VR类模型中进行应用。但是，这些针对特定场景下的三维白模型构建方法中，前雷达或相机SLAM采集类技术方案，以点云或图像作为直接输入，经过视差进行建模，难以获得完整没有空洞的三维模型；手工类三维建模方案，人力和时间成本过高，难以大规模应用。

发明内容

本发明要解决的技术问题是：针对现有技术存在的上述技术问题，提供一种地铁站内部环境布置预测和白模采集方法及***，本发明旨在以点云或图像作为直接输入获得没有空洞的白模，且整个白模采集过程不需要人工干预、人力和时间成本低，可在包括地铁站内部环境以及类似场景下的广泛应用。

为了解决上述技术问题，本发明采用的技术方案为：

一种地铁站内部环境布置预测和白模采集方法，包括：

S1，在目标位置采集图像和点云；

S2，将图像输入预先训练好的卷积神经网络模型以获得空间布局三维白模；

S3，将点云和所述空间布局三维白模融合得到目标位置的局部三维白模。

可选地，步骤S2中的卷积神经网络模型包括：

特征提取网络，用于对图像进行特征提取得到特征向量；

上采样融合网络，用于对特征向量进行上采样融合得到融合特征；

布局预测网络，用于对融合特征进行布局预测得到空间布局三维白模；

所述特征提取网络、上采样融合网络以及布局预测网络依次相连。

可选地，所述特征提取网络包括编码器和解码器，所述编码器和解码器均包括堆叠布置的用于得到不同尺寸的特征图的多个卷积层，且所述编码器和解码器的堆叠方向相反，且编码器中任意卷积层的输出通过曼哈顿霍夫变换、卷积后作为解码器中相同尺寸的卷积层的输入；最终通过解码器的最后一个卷积层输出三个尺寸为128×1的特征向量。

可选地，所述上采样融合网络对特征向量进行上采样融合得到融合特征包括：将3个尺寸为128×1的特征向量在第一个维度上分别叠加4次，获得3个尺寸为512×1的特征向量；将3个尺寸为512×1的特征向量在第二个维度上进行复制，获得3个尺度为512×1024的特征向量。

可选地，所述布局预测网络对融合特征进行布局预测得到空间布局三维白模包括：将获得的3个尺度为512×1024的特征向量进行叠加得到尺寸为512×1024×3的特征图，在将叠加得到尺寸为512×1024×3的特征图经过三层等尺寸卷积获得尺寸为512×1024×3的输出三维模型以作为布局预测得到空间布局三维白模，该输出三维模型包含512×1024个顶点，每个顶点的3维特征表示该顶点的空间坐标值(x,y,z)。

可选地，步骤S1之前还包括对卷积神经网络模型进行训练的步骤，且训练卷积神经网络模型时采用的损失函数的函数表达式为：

上式中，

表示损失函数，X表示输出三维模型中的线、X^*表示输出三维模型中的线对应的样本真值，x_i表示线X的第i个点，

表示线X对应的样本真值X^*的第i个点。

可选地，步骤S3之后还包括：将局部三维白模增加到当前的全局三维白模中以得到新的全局三维白模；然后判断地铁站内部是否仍有尚未采集的位置，若地铁站内部仍有尚未采集的位置，则移动到地铁站内部新的目标位置，然后跳转步骤S1。

可选地，所述将局部三维白模增加到当前的全局三维白模中以得到新的全局三维白模时，记新生成的局部三维模型尺寸为M×3，M表示新生成的局部三维模型的顶点数，记当前的全局三维白模尺寸为N×3，N表示当前的全局三维白模的顶点数，所述将局部三维白模增加到当前的全局三维白模中指将全局三维模型N×3和局部三维模型M×3进行叠加以得到新的全局三维白模，且获得新的新的全局三维白模的尺寸为(N+M)×3。

此外，本发明还提供一种地铁站内部环境布置预测和白模采集***，包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行前述地铁站内部环境布置预测和白模采集方法的步骤。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行前述地铁站内部环境布置预测和白模采集方法的步骤。

和现有技术相比，本发明具有下述优点：本发明针对当前SLAM类采集方案中会产生的大量白模空洞的缺点，采用基于图像进行基础白模构建并与采集到的点云进行融合的方式进行三维白模构建，由于基础白模由图像自动生成，因此也解决了手工白模构建中人力和时间成本过高的缺陷，我们使用图像自动估计曼哈顿房间布局白模，然后与采集到的点云进行融合，生成完整白模，避免点云生成白模中具有空洞的缺陷。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例中卷积神经网络模型的结构示意图。

图3为本发明实施例中涉及的曼哈顿霍夫变换基本原理。

图4为本发明实施例中涉及的曼哈顿霍夫变换的实现方式。

图5为本发明实施例中特征上采样部分的实现流程。

图6为本发明实施例中输出三维模型生成部分实现流程。

具体实施方式

如图1所示，本实施例地铁站内部环境布置预测和白模采集方法包括：

S1，在目标位置采集图像和点云；

如图2所示，本实施例中步骤S2中的卷积神经网络模型包括：

特征提取网络，用于对图像进行特征提取得到特征向量；

如图2所示，本实施例中特征提取网络包括编码器和解码器，所述编码器和解码器均包括堆叠布置的用于得到不同尺寸的特征图的多个卷积层，且所述编码器和解码器的堆叠方向相反，且编码器中任意卷积层的输出通过曼哈顿霍夫变换、卷积后作为解码器中相同尺寸的卷积层的输入；最终通过解码器的最后一个卷积层输出三个尺寸为128×1的特征向量。

众所周知，全景图像存在失真，即3D空间中的直线在全景图像的圆柱投影视图中可能不是直的。通过采用E2P(Equirectangular to Perspective，全景-透视图)变换得到一个包含六个图块的立方体贴图。给定单个RGB图像作为输入，首先我们采取一些预处理步骤来对齐图像，获取立方体贴图并转换地面实况标签。在线检测的情况下，曼哈顿霍夫变换将图像中的线参数化为具有两个参数的极坐标，一个方向和一个距离。每个图像像素都会投票给一个离散化的参数，该参数表示相应的极坐标。参数空间表示为霍夫空间，最大局部峰值表示图像中的线。具体来说曼哈顿霍夫变换可以表示为：

上式中，

表示曼哈顿霍夫变换，ρ和θ表示三维空间点到远点的距离和方向角，l为球面空间中的一条直线，i为该直线上的每个点；X(x_i,y_i)为该点(x_i,y_i)上的特征。

如图3所示，曼哈顿霍夫变换提取得到的三个特征向量H,V,C分别为述曼哈顿霍夫变换提取得到的三个特征向量，表示水平线、垂直线和通过图像中心的线,其变换的方式由三维空间点到远点的距离和方向角ρ和θ所确定。

如图4所示，编码器中任意卷积层的输出的尺度为h×w×c的特征图经过卷积变换(图4中conv表示卷积变换)得到尺寸为h×w×c/2的特征图，然后通过曼哈顿霍夫头(简称MH)得到为H×c/2,V×c/2,C×c/2三个分特征H,V,C,再经过卷积变换(图4中conv表示卷积变换)得到尺寸为h×w×c的特征图以作为解码器中相同尺寸的卷积层的输入，其中h,w,c分别为特征图的高度、宽度和通道数量，H,V,C分别为述曼哈顿霍夫变换提取得到的三个特征向量，表示水平线、垂直线和通过图像中心的线。本实施例中的一个关键概念是检测每个立方体地图瓦片中房间布局边界的所有可能位置。因此将卷积神经网络模型与霍夫变换结合起来进行布局边界检测。具体来说，我们提出了结合深度CNN特征和曼哈顿世界假设的深度曼哈顿霍夫变换。它基于以下两个假设：1.曼哈顿世界假设，即所有的墙壁、天花板和地板都必须相互垂直，并且它们的所有交线必须与某些或正交坐标空间的坐标轴之一平行(命名为曼哈顿空间)。2.输入图像必须对齐，即每个立方体贴图瓦片的相机精确面向其中一面墙壁，并且其光轴与曼哈顿空间的坐标轴之一平行。在实际实现中将角度离散化，对应的线在坐标为整数的位置与图像的边界相交。通过上述离散化技术，特征提取网络的过程可以通过矩阵加法和乘法来实现，具有高度的并行性，适用于GPU计算。本实施例中将输入的图像记作I_equi，并等效变换尺寸为512×1024×3；作为一种可选的实施方式，编码器为五层残差卷积层，解码器与编码器结构相同但层数堆叠方式相反，同样为五层残差卷积层。需要说明的是，残差卷积层为现有网络结构，其详细实现在此不再详述。对于立方体贴图(全景-透视图)的六个图块中的每一个，为了捕获低级和高级特征，提取了编码器网络的中间特征。特别是，我们在下采样层之前从每个块中收集感知特征。然后，所有特征被输入到5个独立的曼哈顿霍夫头中，具有不同的输入和输出大小，并输入解码器中对应的层；编码器第1层输出的特征加入解码器第5层，同理编码器第2至5层的输出特征加入解码器第4至1层。

由于特征提取器(编码器)提取的特征图的大小随层的深度而变化，因此5个曼哈顿霍夫头的输出特征向量的大小不同。将所有特征向量上采样到与原始图像的宽度和高度相同的大小。本实施例中上采样融合网络对特征向量进行上采样融合得到融合特征包括：将3个尺寸为128×1的特征向量(共包含两个维度的二维向量)在第一个维度(图5中简称为第一维度)上分别叠加4次，获得3个尺寸为512×1的特征向量；将3个尺寸为512×1的特征向量在第二个维度(图5中简称为第二维度)上进行复制，获得3个尺度为512×1024的特征向量，单个特征的实现流程如图5所示。

如图6所示，本实施例中布局预测网络对融合特征进行布局预测得到空间布局三维白模包括：将获得的3个尺度为512×1024的特征向量进行叠加得到尺寸为512×1024×3的特征图，在将叠加得到尺寸为512×1024×3的特征图经过三层等尺寸卷积获得尺寸为512×1024×3的输出三维模型以作为布局预测得到空间布局三维白模，该输出三维模型包含512×1024个顶点，每个顶点的3维特征表示该顶点的空间坐标值(x,y,z)。

本实施例中，步骤S1之前还包括对卷积神经网络模型进行训练的步骤，且训练卷积神经网络模型时采用的损失函数的函数表达式为：

上式中，

表示线X对应的样本真值X^*的第i个点。通过上述调整后的Binary Cross Entropy(二元交叉熵)损失函数进行训练约束，可加速对卷积神经网络模型进行训练的收敛速度，从而提高训练效率。

本实施例中，步骤S3之后还包括：将局部三维白模增加到当前的全局三维白模中以得到新的全局三维白模；然后判断地铁站内部是否仍有尚未采集的位置，若地铁站内部仍有尚未采集的位置，则移动到地铁站内部新的目标位置，然后跳转步骤S1。

本实施例中，所述将局部三维白模增加到当前的全局三维白模中以得到新的全局三维白模时，记新生成的局部三维模型尺寸为M×3，M表示新生成的局部三维模型的顶点数，记当前的全局三维白模尺寸为N×3，N表示当前的全局三维白模的顶点数，所述将局部三维白模增加到当前的全局三维白模中指将全局三维模型N×3和局部三维模型M×3进行叠加以得到新的全局三维白模，且获得新的新的全局三维白模的尺寸为(N+M)×3。

综上所述，本实施例提供了一种在以地铁站为主要目标环境的室内进行布局预测和白模构建方法，当前雷达或相机SLAM采集类技术方案，以点云或图像作为直接输入，经过视差进行建模，难以获得完整没有空洞的三维模型；手工类三维建模方案，人力和时间成本过高，难以大规模应用。本实施例针对当前SLAM类采集方案中会产生的大量白模空洞的缺点，采用基于图像进行基础白模构建并与采集到的点云进行融合的方式进行三维白模构建，由于基础白模由图像自动生成，因此也解决了手工白模构建中人力和时间成本过高的缺陷。

此外，本实施例还提供一种地铁站内部环境布置预测和白模采集***，包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行前述地铁站内部环境布置预测和白模采集方法的步骤。

此外，本实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行前述地铁站内部环境布置预测和白模采集方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种地铁站内部环境布置预测和白模采集方法，其特征在于，包括：

S1，在目标位置采集图像和点云；

2.根据权利要求1所述的地铁站内部环境布置预测和白模采集方法，其特征在于，步骤S2中的卷积神经网络模型包括：

特征提取网络，用于对图像进行特征提取得到特征向量；

3.根据权利要求2所述的地铁站内部环境布置预测和白模采集方法，其特征在于，所述特征提取网络包括编码器和解码器，所述编码器和解码器均包括堆叠布置的用于得到不同尺寸的特征图的多个卷积层，且所述编码器和解码器的堆叠方向相反，且编码器中任意卷积层的输出通过曼哈顿霍夫变换、卷积后作为解码器中相同尺寸的卷积层的输入；最终通过解码器的最后一个卷积层输出三个尺寸为128×1的特征向量。

4.根据权利要求3所述的地铁站内部环境布置预测和白模采集方法，其特征在于，所述上采样融合网络对特征向量进行上采样融合得到融合特征包括：将3个尺寸为128×1的特征向量在第一个维度上分别叠加4次，获得3个尺寸为512×1的特征向量；将3个尺寸为512×1的特征向量在第二个维度上进行复制，获得3个尺度为512×1024的特征向量。

5.根据权利要求4所述的地铁站内部环境布置预测和白模采集方法，其特征在于，所述布局预测网络对融合特征进行布局预测得到空间布局三维白模包括：将获得的3个尺度为512×1024的特征向量进行叠加得到尺寸为512×1024×3的特征图，在将叠加得到尺寸为512×1024×3的特征图经过三层等尺寸卷积获得尺寸为512×1024×3的输出三维模型以作为布局预测得到空间布局三维白模，该输出三维模型包含512×1024个顶点，每个顶点的3维特征表示该顶点的空间坐标值(x,y,z)。

6.根据权利要求5所述的地铁站内部环境布置预测和白模采集方法，其特征在于，步骤S1之前还包括对卷积神经网络模型进行训练的步骤，且训练卷积神经网络模型时采用的损失函数的函数表达式为：

上式中，

表示线X对应的样本真值X^*的第i个点。

7.根据权利要求1所述的地铁站内部环境布置预测和白模采集方法，其特征在于，步骤S3之后还包括：将局部三维白模增加到当前的全局三维白模中以得到新的全局三维白模；然后判断地铁站内部是否仍有尚未采集的位置，若地铁站内部仍有尚未采集的位置，则移动到地铁站内部新的目标位置，然后跳转步骤S1。

8.根据权利要求7所述的地铁站内部环境布置预测和白模采集方法，其特征在于，所述将局部三维白模增加到当前的全局三维白模中以得到新的全局三维白模时，记新生成的局部三维模型尺寸为M×3，M表示新生成的局部三维模型的顶点数，记当前的全局三维白模尺寸为N×3，N表示当前的全局三维白模的顶点数，所述将局部三维白模增加到当前的全局三维白模中指将全局三维模型N×3和局部三维模型M×3进行叠加以得到新的全局三维白模，且获得新的新的全局三维白模的尺寸为(N+M)×3。

9.一种地铁站内部环境布置预测和白模采集***，包括相互连接的微处理器和存储器，其特征在于，所述微处理器被编程或配置以执行权利要求1～8中任意一项所述地铁站内部环境布置预测和白模采集方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其特征在于，所述计算机程序用于被微处理器编程或配置以执行权利要求1～8中任意一项所述地铁站内部环境布置预测和白模采集方法的步骤。