CN113808261B

CN113808261B - 一种基于全景图的自监督学习场景点云补全的数据集生成方法

Info

Publication number: CN113808261B
Application number: CN202111163824.7A
Authority: CN
Inventors: 李童; 杨鑫; 尹宝才; 张肇轩; 杜振军
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-10-21
Anticipated expiration: 2041-09-30
Also published as: CN113808261A; US11875583B2; US20230094308A1

Abstract

本发明属于计算机视觉领域中的三维重建技术领域，提供了一种基于全景图的自监督学习场景点云补全的数据集生成方法。以同一视点下的全景RGB图像、全景深度图和全景法线图作为输入，可以生成成对的带有RGB信息和法线信息的残缺点云和目标点云，用以构造训练场景点云补全网络的自监督学习数据集。本发明的关键点是基于视点转换的遮挡预测和等矩形投影及转换过程中针对条纹问题、点对点遮挡问题的处理。本发明的方法简化真实场景点云数据的采集方式；视点转换的遮挡预测思想；视点选取策略的设计。

Description

一种基于全景图的自监督学习场景点云补全的数据集生成方法

技术领域

本发明属于计算机视觉领域中的三维重建(3D Reconstruction)领域，具体实现结果为以全景图作为输入，通过自监督学习的方式，生成适用于训练场景点云补全网络的数据集。

背景技术

在采集三维场景的过程中，不可避免地存在一些遮挡区域，如何从这些遮挡区域中恢复缺失信息成为近年来一个非常活跃的研究领域。

但场景级别的点云重建方法目前存在两个关键问题，第一，在较为复杂的场景中，机器人难以灵活移动，多视角的采集费时费力，全局场景重建效果更难以保障。第二，在开放环境下，室内场景类型多样，难以获取充足的用于监督训练的数据，导致传统场景重建方法的适应性较差，难以重建出质量较好的真实点云场景。基于以上两个存在的问题，提出了基于全景图的自监督学习场景点云补全的数据集生成方法。

本说明书主要从场景点云数据集和全景图场景重建两个方面进行介绍。

(a)场景点云数据集

考虑到目前还没有专门针对场景点云补全任务的数据集，介绍一些现有的包含场景点云的数据集，比如2D-3D-S、ScanNetv2和Matterport3D。但是由于真实场景点云数据采集不易，用于监督训练的数据量有限；而且为了适用场景点云补全任务，还需单独设计生成模拟真实场景遮挡情况的缺失区域的方法。

2D-3D-S数据集提供了分布在6个不同的区域的270个室内点云建图场景。其中，图像和点云都进行了实例级别的语义标注，可用于语义分割和实例分割任务。同时，该数据集还提供了表面法向量的真值。

ScanNetV2数据集提供了1513个室内点云建图场景，包含语义和实例级别的标注，可用于图像和点云的语义分割和实例分割任务，同时也适用于场景识别任务。其中1201个场景用于训练，312个场景用于验证。

Matterport3D数据集共采集来自于90个教学楼场景下的194400张RGBD图片，拼接得到10800张三维全景图片和对应的三维场景。每个场景均进行了实例级别的语义标注，可用于图像和点云的语义分割、实例分割以及表面法向量估计。其中61个教学楼场景用于训练，11个用于验证，18个用于测试。

(b)全景图场景重建

2020年发表在ACM-TOG的工作(Noise-resilient reconstruction of panoramasand 3D scenes using robot-mounted unsynchronized commodity RGB-D cameras)核心思想是通过构建全景图来实现大型室内场景模型的三维重建，全文主要分为两个部分，第一部分是有关全景图的构建，第二部分是全景图的整合，通过几张全景图来实现室内场景的三维重建。但是因为全景图视角受限，部分区域产生遮挡，重建出来的场景点云存在很多缺失区域，不够精细化。

2021年发表在CVPR的工作(Indoor Panorama Planar 3D Reconstruction viaDivide and Conquer)核心思想是对室内全景平面进行三维重建，总体采用分治思想。首先根据像素的平面方向估计来划分像素，之后借助实例分割模块在每个平面方向组中完成平面聚类的任务，最后采用平面重建方法进行室内全景平面的三维重建。但是该工作主要是对平行或垂直于重力方向的平面进行重建，与整个室内场景重建还存在很大差距。

2020年发表在BMVC的工作(Pano2Scene:3D Indoor Semantic SceneReconstruction from a Single Indoor Panorama Image)核心思想是从单个室内全景图像重建三维室内语义场景，主要包括三部分内容，第一部分是全景深度估计和全景实例分割，第二部分是三维场景布局估计，第三部分是物体形状补全，最后输出重建的三维室内语义场景点云。但是该工作主要是场景布局下的物体补全，不包含墙壁、天花板、地板等边缘区域，而且未考虑物体间的关系，缺乏整体性。

发明内容

本发明针对场景点云补全领域数据集的匮乏问题，提出了一种基于全景图的自监督学习场景点云补全的数据集生成方法。以同一视点下的全景RGB图像、全景深度图和全景法线图作为输入，可以生成成对的带有RGB信息和法线信息的残缺点云和目标点云，用以构造训练场景点云补全网络的自监督学习数据集。本发明的关键点是基于视点转换的遮挡预测和等矩形投影及转换过程中针对条纹问题、点对点遮挡问题的处理。

本发明的技术方案为：

一种基于全景图的自监督学习场景点云补全的数据集生成方法，具体包括以下步骤：

步骤1：由特定视点下的全景图生成初始点云

1.1)引入球体来表示三维世界，通过经度和纬度可以表示x、y、z三个方向的坐标，球体半径r可以表示深度值。假定全景深度图D₁的长度对应于场景水平方向360度(-180°至180°)的范围，全景深度图D₁的宽度对应垂直方向180度(-90°至90°)的范围，将全景深度图D₁的每个像素的坐标用纬度和经度表示，每个像素对应球内点的半径是全景深度图D₁的每个像素的深度值。在球坐标系下，将每个像素的纬度、经度和深度值转换为相机坐标系下的x、y、z坐标，生成点云P₀。

1.2)基于视点v₁对应的相机外参将相机坐标系下的点云P₀转换到世界坐标系下，并按像素点先行后列的顺序将全景RGB图像C₁和全景法线图像N₁的颜色信息分别赋值给点云P₀中的每一个点，生成带有RGB信息的初始点云P₁和带有法线信息的初始点云P₂。

步骤2：基于初始点云选取新的遮挡预测视点

2.1)采用截断符号距离函数(TSDF)对初始点云P₁进行编码。将选定要建模的三维空间分割为诸多小块，每个小块被称为体素；体素存储该小块与其最近的物体表面之间的距离值，该距离值的符号表示体素是在自由空间中还是在封闭空间中；若该距离值的绝对值超过设定的截断距离D，则进行截断处理。

2.2)假定视点v₁对应的小体素块为t₀，更新t₀的距离值为0，并将t₀附近的小体素块按照距离t₀的远近更新距离值，距离t₀越近，距离值衰退的越多。

2.3)遍历每个小体素块，查找距离值最大的体素块。若有多个体素块的距离值相同，则选择距离场景中心最近的。若距离场景中心的距离仍相同，则在满足条件的体素块中进行随机选取。被选中的体素块的中心即为视点v₂所在的位置，由此可得视点v₂的平移矩阵，视点v₂的旋转矩阵保持与视点v₁的旋转矩阵相同。

步骤3：由初始点云生成选定视点下的全景图

3.1)基于视点v₂对应的相机外参，将世界坐标系下的带有RGB信息的初始点云P₁和带有法线信息的初始点云P₂转换到相机坐标系下。

3.2)在球坐标系下，分别将点云P₁和点云P₂中每个点的x、y、z坐标转化为用纬度、经度和半径表示，并对应到2D全景图的像素位置上，每个点的颜色也一并对应到像素位置上。考虑到遮挡是依靠点对点的遮挡完成的，与现实世界不符，因此增大每个点的影响范围，具体为将计算得到的每个像素(x,y)向外扩展到像素(x,y)，(x+1,y)，(x,y+1)和(x+1,y+1)，每个像素携带的信息一并复制到新像素上。

3.3)将像素点合并为全景图，存在多个点对应同一像素的问题，需要进行解决。算法首先初始化全景深度图D₂的每个像素的深度值为无符号16位二进制数所能表示的最大值65535，并分别初始化全景RGB图像C₂和全景法线图像N₂每个像素的颜色值为背景颜色，之后对步骤3.2中生成的所有像素进行如下操作：获取该像素的位置(x,y)以及对应的深度值，并与全景深度图D₂中(x,y)处的深度值进行比较，若前者深度值更小，则将全景深度图D₂中(x,y)处的深度值以及全景RGB图像C₂和全景法线图像N₂中(x,y)处的颜色值进行更新；若后者深度值更小，则保持不变。更新全部完成后，即可获得新视点v₂下渲染的全景RGB图像C₂、全景深度图D₂和全景法线图像N₂。

步骤4：由选定视点下的全景图生成残缺点云

～

4.1)类比步骤1.1，由全景深度图D₂生成点云P₀。

4.2)根据全景法线图N₂计算出世界坐标系下的法线方向，并根据视点v₂对应的相机外参将世界坐标系下的法线方向转化到相机坐标系下(注：全景法线图N₂是在视点v₂对应的相机坐标系下渲染的，但全景法线图的颜色记录的却是世界坐标系下的法线方向)。

4.3)大部分情况下场景缺失是由于遮挡而产生，但还有一部分是因为视角导致，比如以近似水平的角度去看桌子上平面，投影得到的点云即为条纹状；因此在2D-3D等矩形投影的过程中需要计算出角度掩码用以定位条纹区域，使场景点云补全网络更针对地补全真正的遮挡区域。具体实施方案为，在相机坐标系下对点云

中的每个点进行计算，记原点到

中的点的连线所表示的向量为

记由全景法线图N₂计算出的对应顺序下(先行后列)的点的向量为

计算向量

和向量

之间的夹角α，之后对夹角α与90°作差求绝对值，并对绝对值小于15°的点进行过滤，作为角度掩码。

4.4)基于视点v₂对应的相机外参将相机坐标系下的点云

转换到世界坐标系下，并按像素点先行后列的顺序将全景RGB图像C₂和全景法线图像N₂的颜色信息分别赋值给点云

中的每一个点，生成带有RGB信息的残缺点云P₃和带有法线信息的残缺点云P₄。

步骤5：构建自监督学习数据集

以带有RGB信息的残缺点云P₃和带有法线信息的残缺点云P₄以及角度掩码作为输入，即可用于场景点云补全网络的训练。场景点云补全网络的目标是带有RGB信息的残缺点云P₃和带有法线信息的残缺点云P₄。由此可生成用于场景点云补全的自监督学习数据对，进而构建自监督学习数据集。

本发明的有益效果：

(1)简化真实场景点云数据的采集方式。无需复杂、繁琐的场景采集，本发明仅以全景图作为输入，即可生成用于场景点云补全网络训练的数据集。

(2)视点转换的遮挡预测思想。相比于针孔相机视野有限，全景图本质上支持视点的变化，进而与基于视点转换的遮挡预测思想进行结合，可以真实模拟场景点云的缺失分布，进而支持以自监督学习的方式完成场景点云补全任务。

(3)视点选取策略的设计。视点的选取影响到预测的遮挡分布，若预测的遮挡区域很小，难以使网络学到有效的信息；若预测的遮挡区域过大或者与原始点云的缺失相近，则补全的难度大大提升。基于以上问题，本发明提出了遮挡预测视点选取策略，借助TSDF表达可以有效地进行视点的选取，用于辅助场景补全任务的完成。

附图说明

图1是整体框架的流程图。

图2是中间结果示例的可视化效果图。

图3是角度掩码示例的可视化效果图。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明基于斯坦福大学发布的2D-3D-Semantics数据集。该数据集涉及到6个大型室内区域，这些区域源自3个以教育和办公为主的不同建筑。数据集总共包含1413个等矩形全景RGB图像，以及相应的深度图、表面法线图、语义注释图、和相机元数据等，足以支持本发明提出的基于全景图的自监督学习场景点云补全的数据集生成方法。此外，其他拍摄或采集到的等矩形全景图也适用于本发明。

本发明包括四个主要模块，分别是2D-3D等矩形投影模块、视点选取模块、3D-2D等矩形投影及点对点遮挡处理模块，和2D-3D等矩形投影及角度掩码过滤模块，如图1所示。第一，2D-3D等矩形投影模块以v₁视点下的全景RGB图像C₁、全景深度图D₁和全景法线图N₁作为输入，生成带有RGB信息的初始点云P₁和带有法线信息的初始点云P₂。第二，视点选取模块以初始点云P₁作为输入，生成新的遮挡预测视点v₂。第三，3D-2D等矩形投影及点对点遮挡处理模块以初始点云P₁、初始点云P₂以及视点v₂作为输入，生成v₂视点下的全景RGB图像C₂、全景深度图D₂和全景法线图N₂。第四，2D-3D等矩形投影及角度掩码过滤模块以v₂视点下的全景RGB图像C₂、全景深度图D₂和全景法线图N₂作为输入，生成带有RGB信息的残缺点云P₃、带有法线信息的残缺点云P₄，以及用于过滤条纹区域的角度掩码。最后，生成的残缺点云P₃、残缺点云P₄以及角度掩码可以送入到场景点云补全网络中，最后生成补全后的点云P₅。其中，残缺点云P₃(输入)和初始点云P₁(预期目标)或残缺点云P₄(输入)和初始点云P₂(预期目标)可作为自监督学习数据对。

中间结果示例的可视化效果如图2所示，展示了v₁视点下的全景RGB图像C₁、全景深度图D₁和全景法线图N₁，初始点云P₁和初始点云P₂；以及v₂视点下的全景RGB图像C₂、全景深度图D₂和全景法线图N₂，残缺点云P₃和残缺点云P₄。

角度掩码示例的可视化效果如图3所示，展示了以近似水平的角度去看桌子上平面而生成的角度掩码，可见过滤的区域是条纹状，可有效解决视角导致的点云残缺问题。

Claims

1.一种基于全景图的自监督学习场景点云补全的数据集生成方法，其特征在于，步骤如下：

步骤1：由特定视点下的全景图生成初始点云

1.1)引入球体来表示三维世界，通过经度和纬度表示x、y、z三个方向的坐标，球体半径r表示深度值；假定全景深度图D₁的长度对应于场景水平方向-180°～180°范围，全景深度图D₁的宽度对应垂直方向-90°～90°范围，将全景深度图D₁的每个像素的坐标用纬度和经度表示，每个像素对应球内点的半径是全景深度图D₁的每个像素的深度值；在球坐标系下，将每个像素的纬度、经度和深度值转换为相机坐标系下的x、y、z坐标，生成点云P₀；

1.2)基于视点v₁对应的相机外参将相机坐标系下的点云P₀转换到世界坐标系下，并按像素点先行后列的顺序将全景RGB图像C₁和全景法线图像N₁的颜色信息分别赋值给点云P₀中的每一个点，生成带有RGB信息的初始点云P₁和带有法线信息的初始点云P₂；

步骤2：基于初始点云选取新的遮挡预测视点

2.1)采用截断符号距离函数对初始点云P₁进行编码；将选定要建模的三维空间分割为诸多小块，每个小块被称为体素；体素存储该小块与其最近的物体表面之间的距离值，该距离值的符号表示体素是在自由空间中还是在封闭空间中；若该距离值的绝对值超过设定的截断距离D，则进行截断处理；

2.2)假定视点v₁对应的小体素块为t₀，更新t₀的距离值为0，并将t₀附近的小体素块按照距离t₀的远近更新距离值，距离t₀越近，距离值衰退的越多；

2.3)遍历每个小体素块，查找距离值最大的体素块；若有多个体素块的距离值相同，则选择距离场景中心最近的；若距离场景中心的距离仍相同，则在满足条件的体素块中进行随机选取；被选中的体素块的中心即为视点v₂所在的位置，由此得视点v₂的平移矩阵，视点v₂的旋转矩阵保持与视点v₁的旋转矩阵相同；

步骤3：由初始点云生成选定视点下的全景图

3.1)基于视点v₂对应的相机外参，将世界坐标系下的带有RGB信息的初始点云P₁和带有法线信息的初始点云P₂转换到相机坐标系下；

3.2)在球坐标系下，分别将点云P₁和点云P₂中每个点的x、y、z坐标转化为用纬度、经度和半径表示，并对应到2D全景图的像素位置上，每个点的颜色也一并对应到像素位置上；考虑到遮挡是依靠点对点的遮挡完成的，与现实世界不符，因此增大每个点的影响范围，具体为将计算得到的每个像素(x,y)向外扩展到像素(x,y)，(x+1,y)，(x,y+1)和(x+1,y+1)，每个像素携带的信息一并复制到新像素上；

3.3)将像素点合并为全景图，存在多个点对应同一像素的问题；首先初始化全景深度图D₂的每个像素的深度值为无符号16位二进制数所能表示的最大值65535，并分别初始化全景RGB图像C₂和全景法线图像N₂每个像素的颜色值为背景颜色，之后对步骤3.2)中生成的所有像素进行如下操作：获取该像素的位置(x,y)以及对应的深度值，并与全景深度图D₂中(x,y)处的深度值进行比较，若前者深度值更小，则将全景深度图D₂中(x,y)处的深度值以及全景RGB图像C₂和全景法线图像N₂中(x,y)处的颜色值进行更新；若后者深度值更小，则保持不变；更新全部完成后，即获得新视点v₂下渲染的全景RGB图像C₂、全景深度图D₂和全景法线图像N₂；

步骤4：由选定视点下的全景图生成残缺点云

4.1)与步骤1.1)相同，由全景深度图D₂生成点云