CN106709481A

CN106709481A - 一种基于二维‑三维语义数据集的室内场景理解方法

Info

Publication number: CN106709481A
Application number: CN201710124139.0A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-03-03
Filing date: 2017-03-03
Publication date: 2017-05-24

Abstract

本发明中提出的一种基于二维‑三维语义数据集的室内场景理解方法，其主要内容包括：数据的收集和整理、训练和测试分割，其过程为，先捕捉图像输出扫描区域，输出扫描区域，原始颜色深度图像(RGB‑D)和3D纹理网格，接着通过对网格进行采样生成点云，对数据进行语义注释，然后将每个点标签投影在3D网格和图像域上，最后利用数据集中的某些区域表示在其外观和建筑特征方面具有相似性建筑物的部分，定义标准训练和测试分割。本发明提出的语义数据集可以利用大规模室内空间中存在的规律来开发联合跨模态学习模型和潜在的无监督方法；为语义、布局、遮挡、形状、模式检测等提供强有力的提示；不受规模、多样性和数量的限制。

Description

一种基于二维-三维语义数据集的室内场景理解方法

技术领域

本发明涉及场景理解领域，尤其是涉及了一种基于二维-三维语义数据集的室内场景理解方法。

背景技术

室内场景的识别与理解是智能化信息处理的关键技术之一，相关的研究成果已经成功应用在不同的领域，例如，在安全防范领域的目标追踪、行人检测和人脸检测与识别，互联网信息领域的图像内容检索，智能机器人领域的目标搜寻、场景理解、障碍物检测，智能家居和危险环境的救援等，使得人们的工作和生活变得更加方便，因此，室内场景的识别与理解具有重要的理论研究意义和工程应用价值。

传统的图像资源利用大多借助低层视觉特征，如颜色、形状、纹理，实质上是计算机对图像内容的理解。然而低层视觉特征仅代表视觉信息，忽略了图像内容所包含的语义信息，与人类对图像的理解存在一定差异。

本发明提出了一种基于二维-三维语义数据集的室内场景理解方法，先捕捉图像输出扫描区域，输出扫描区域，原始颜色深度图像(RGB-D)和3D纹理网格，接着通过对网格进行采样生成点云，对数据进行语义注释，然后将每个点标签投影在3D网格和图像域上，最后利用数据集中的某些区域表示在其外观和建筑特征方面具有相似性建筑物的部分，定义标准训练和测试分割。本发明提出的语义数据集可以利用大规模室内空间中存在的规律来开发联合跨模态学习模型和潜在的无监督方法；为语义、布局、遮挡、形状、模式检测等提供强有力的提示；不受规模、多样性和数量的限制。

发明内容

针对传统方法仅代表视觉信息而忽略语义信息的问题，本发明的目的在于提供一种基于二维-三维语义数据集的室内场景理解方法，先捕捉图像输出扫描区域，输出扫描区域，原始颜色深度图像(RGB-D)和3D纹理网格，接着通过对网格进行采样生成点云，对数据进行语义注释，然后将每个点标签投影在3D网格和图像域上，最后利用数据集中的某些区域表示在其外观和建筑特征方面具有相似性建筑物的部分，定义标准训练和测试分割。

为解决上述问题，本发明提供一种基于二维-三维语义数据集的室内场景理解方法，其主要内容包括：

(一)数据的收集和整理；

(二)训练和测试分割。

其中，所述的二维-三维语义数据集，收集的数据集是6个大型室内地区，来源于3个不同的建筑物，主要是教育和办公用途；对于每个区域，所有的方式在相同的参考***注册，产生像素到像素之间的对应关系；该数据集包含总共约102000种普通RGB和1413张等量的RGB图像，以及与它们对应的深度、表面法线、语义注释、坐标系XYZ的OpenEXR格式和相机的元数据；此外还提供了整个建筑三维重建纹理网格和相应的3D语义网格。

其中，所述的数据的收集和整理，使用相机收集数据，它结合了3个结构光传感器，在每个扫描位置旋转，360°捕获18种RGB和深度图像；输出扫描区域，原始颜色深度图像(RGB-D)和照相机元数据重构的3D纹理网格；使用这些数据作为基础生成额外的RGB-D数据，并通过对网格进行采样生成点云；直接在3D点云上对数据进行语义注释，然后将每个点标签投影在3D网格和图像域上；数据的收集和整理包括3D模式，2D形式和命名约定。

进一步地，所述的3D模式，该数据集包含两个主要的三维模式(3D点云数据和3D网格模型)和它们的语义对应的6个领域；包括三维点云和网格和3D语义；从相机得到重建的三维纹理的网格模型为每个扫描区域，每个模型包含200k个三角形面的平均值和材质映射到纹理图像，提供扫描空间的实际重建；产生的彩色3D点云密集和均匀采样点在网格表面上，并分配相应的颜色。

进一步地，所述的3D语义，语义上标注数据的3D点云，并指定以下13个对象类的每一个点：天花板、地板、墙壁、梁、柱、窗、门、桌子、椅子、沙发、书柜、板和杂波的所有其他元素；在3D进行注释，提供3D对象模型并且能够执行遮挡和模态分析，语义可以被投影到任何数量的图像上，在2D中提供标定好的真实数据；

数据集中的每个对象实例都有唯一的标识符；将点云数据注释为房间，并为每个房间分配以下11个场景标签之一：办公室、会议室、走廊、礼堂、休息室、大堂、休息室、茶水间、复印室、存储室和厕所；同样，点云中的每个实例都会收到一个唯一的索引；给定这些注释，计算每个实例最紧密的轴对齐对象边界框，并进一步将其体素化为具有二进制占有的6×6×6网格；该信息提供对底层几何的更好理解，并且可以利用在3D对象检测或分类中；然后，在网格模型的面上投射对象和场景语义，并生成保留相同类结构和实例索引的3D语义网格；使用投射方案将这些注释转移到网格；每个注释点对与其最接近的面进行投票，然后计算投票，并且用模式类来注释每个面。

进一步地，所述的2D形式，数据集包含每个扫描位置的密集采样的RGB图像，这些图像从使用由扫描仪捕获的原始数据(也是数据集的一部分)的每个扫描位置和模态生成的等方图像采样；包括RGB图像，每个图像的元数据和摄像机参数，深度图像，表面法线图像，语义标记图像和3D坐标编码图像。

进一步地，所述的RGB图像，每个图像的元数据和摄像机参数和深度图像，其特征在于，RGB图像使用提供的原始RGB数据形成每个扫描位置的立方图，并在此空间中采样新图像；对每个扫描位置采样3×72个图像，然后使用熵值的一半高斯来从它们中采样72个图像；熵值被定义为每个图像中当前语义类的分布上的信息熵；使用抽样方法，熵值通过不完全去除低熵场景来保持数据集的多样性；

每个图像的元数据和摄像机参数是每个生成的图像在“姿势文件夹”中提供的摄像机姿势；

深度图像是对于每个图像，提供从3D网格计算的深度；通过z缓冲区保存深度信息从3D网格中渲染这些图像；图像被保存为16位灰度PNG，其中像素强度的一个单位变化对应于深度的变化；因此，最大可观测范围为约128米超过此最大距离的所有深度均采用最大值(65,535)；对于没有深度信息的位置像素也采用该最大距离。

进一步地，所述的表面法线图像，语义标记图像和3D坐标编码图像，表面法线是法线传递计算出来的，并保存为24位RBG的PNG图像；从3D网格计算对应于每个像素的3D中的表面法线；法线向量保存在RGB颜色值中；每个通道都以127.5为中心，因此可以使用左右两个值(轴的)；

语义标记图像是将3D语义从网格模型投影到2D图像上；由于在网格模型中存在某些几何伪像，主要是由于重建中的细节水平，2D注释偶尔未对准底层像素小的局部，特别是具有到照相机的短距离的点，通过使用图形模型将图像内容与投影的注释融合来对准；语义标记的图像被保存为24位RGB的PNG图像，但每个像素的颜色值可以直接解释为列表中的索引；

3D坐标编码图像中的像素编码坐标系中点的X，Y，Z位置；该信息可以用于方便地关联RGB图像的内容；图像以OpenEXR格式存储，每个通道包含32位浮点数。

进一步地，所述的命名约定，数据集中图像的文件名是全局唯一的，因为没有两个文件共享摄像头uuid，帧号和域；房间类型包括方便过滤。

其中，所述的训练和测试分割，数据集中的某些区域表示在其外观和建筑特征方面具有相似性的建筑物的部分，因此定义标准训练和测试分割，使得没有类似建筑物的区域出现在两者之中。

附图说明

图1是本发明一种基于二维-三维语义数据集的室内场景理解方法的***框架图。

图2是本发明一种基于二维-三维语义数据集的室内场景理解方法的联合二维-三维语义数据集。

图3是本发明一种基于二维-三维语义数据集的室内场景理解方法的三维模式。

图4是本发明一种基于二维-三维语义数据集的室内场景理解方法的等角度投影采样图像。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于二维-三维语义数据集的室内场景理解方法的***流程图。主要包括数据的收集和整理，训练和测试分割。

数据的收集和整理，使用相机收集数据，它结合了3个结构光传感器，在每个扫描位置旋转，360°捕获18种RGB和深度图像；输出扫描区域，原始颜色深度图像(RGB-D)和照相机元数据重构的3D纹理网格；使用这些数据作为基础生成额外的RGB-D数据，并通过对网格进行采样生成点云；直接在3D点云上对数据进行语义注释，然后将每个点标签投影在3D网格和图像域上；数据的收集和整理包括3D模式，2D形式和命名约定。

RGB图像使用提供的原始RGB数据形成每个扫描位置的立方图，并在此空间中采样新图像；对每个扫描位置采样3×72个图像，然后使用熵值的一半高斯来从它们中采样72个图像；熵值被定义为每个图像中当前语义类的分布上的信息熵；使用抽样方法，熵值通过不完全去除低熵场景来保持数据集的多样性；

表面法线是法线传递计算出来的，并保存为24位RBG的PNG图像；从3D网格计算对应于每个像素的3D中的表面法线；法线向量保存在RGB颜色值中；每个通道都以127.5为中心，因此可以使用左右两个值(轴的)；

其中，命名约定，数据集中图像的文件名是全局唯一的，因为没有两个文件共享摄像头uuid，帧号和域；房间类型包括方便过滤。

训练和测试分割，数据集中的某些区域表示在其外观和建筑特征方面具有相似性的建筑物的部分，因此定义标准训练和测试分割，使得没有类似建筑物的区域出现在两者之中。

图2是本发明一种基于二维-三维语义数据集的室内场景理解方法的联合二维-三维语义数据集。收集的数据集是6个大型室内地区，来源于3个不同的建筑物，主要是教育和办公用途；对于每个区域，所有的方式在相同的参考***注册，产生像素到像素之间的对应关系；该数据集包含总共约102000种普通RGB和1413张等量的RGB图像，以及与它们对应的深度、表面法线、语义注释、坐标系XYZ的OpenEXR格式和相机的元数据；此外还提供了整个建筑三维重建纹理网格和相应的3D语义网格。

图3是本发明一种基于二维-三维语义数据集的室内场景理解方法的三维模式。该数据集包含两个主要的三维模式(3D点云数据和3D网格模型)和它们的语义对应的6个领域；包括三维点云和网格和3D语义；从相机得到重建的三维纹理的网格模型为每个扫描区域，每个模型包含200k个三角形面的平均值和材质映射到纹理图像，提供扫描空间的实际重建；产生的彩色3D点云密集和均匀采样点在网格表面上，并分配相应的颜色。

其中，3D语义，语义上标注数据的3D点云，并指定以下13个对象类的每一个点：天花板、地板、墙壁、梁、柱、窗、门、桌子、椅子、沙发、书柜、板和杂波的所有其他元素；在3D进行注释，提供3D对象模型并且能够执行遮挡和模态分析，语义可以被投影到任何数量的图像上，在2D中提供标定好的真实数据；

图4是本发明一种基于二维-三维语义数据集的室内场景理解方法的等角度投影采样图像。数据集包含每个扫描位置的密集采样的RGB图像，这些图像从使用由扫描仪捕获的原始数据(也是数据集的一部分)的每个扫描位置和模态生成的等方图像采样；包括RGB图像，每个图像的元数据和摄像机参数，深度图像，表面法线图像，语义标记图像和3D坐标编码图像。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于二维-三维语义数据集的室内场景理解方法，其特征在于，主要包括数据的收集和整理(一)；训练和测试分割(二)。

2.基于权利要求书1所述的二维-三维语义数据集，其特征在于，收集的数据集是6个大型室内地区，来源于3个不同的建筑物，主要是教育和办公用途；对于每个区域，所有的方式在相同的参考***注册，产生像素到像素之间的对应关系；该数据集包含总共约102000种普通RGB和1413张等量的RGB图像，以及与它们对应的深度、表面法线、语义注释、坐标系XYZ的OpenEXR格式和相机的元数据；此外还提供了整个建筑三维重建纹理网格和相应的3D语义网格。

3.基于权利要求书1所述的数据的收集和整理(一)，其特征在于，使用相机收集数据，它结合了3个结构光传感器，在每个扫描位置旋转，360°捕获18种RGB和深度图像；输出扫描区域，原始颜色深度图像(RGB-D)和照相机元数据重构的3D纹理网格；使用这些数据作为基础生成额外的RGB-D数据，并通过对网格进行采样生成点云；直接在3D点云上对数据进行语义注释，然后将每个点标签投影在3D网格和图像域上；数据的收集和整理包括3D模式，2D形式和命名约定。

4.基于权利要求书3所述的3D模式，其特征在于，该数据集包含两个主要的三维模式(3D点云数据和3D网格模型)和它们的语义对应的6个领域；包括三维点云和网格和3D语义；从相机得到重建的三维纹理的网格模型为每个扫描区域，每个模型包含200k个三角形面的平均值和材质映射到纹理图像，提供扫描空间的实际重建；产生的彩色3D点云密集和均匀采样点在网格表面上，并分配相应的颜色。

5.基于权利要求书4所述的3D语义，其特征在于，语义上标注数据的3D点云，并指定以下13个对象类的每一个点：天花板、地板、墙壁、梁、柱、窗、门、桌子、椅子、沙发、书柜、板和杂波的所有其他元素；在3D进行注释，提供3D对象模型并且能够执行遮挡和模态分析，语义可以被投影到任何数量的图像上，在2D中提供标定好的真实数据；

6.基于权利要求书3所述的2D形式，其特征在于，数据集包含每个扫描位置的密集采样的RGB图像，这些图像从使用由扫描仪捕获的原始数据(也是数据集的一部分)的每个扫描位置和模态生成的等方图像采样；包括RGB图像，每个图像的元数据和摄像机参数，深度图像，表面法线图像，语义标记图像和3D坐标编码图像。

7.基于权利要求书6所述的RGB图像，每个图像的元数据和摄像机参数和深度图像，其特征在于，RGB图像使用提供的原始RGB数据形成每个扫描位置的立方图，并在此空间中采样新图像；对每个扫描位置采样3×72个图像，然后使用熵值的一半高斯来从它们中采样72个图像；熵值被定义为每个图像中当前语义类的分布上的信息熵；使用抽样方法，熵值通过不完全去除低熵场景来保持数据集的多样性；

8.基于权利要求书6所述的表面法线图像，语义标记图像和3D坐标编码图像，其特征在于，表面法线是法线传递计算出来的，并保存为24位RBG的PNG图像；从3D网格计算对应于每个像素的3D中的表面法线；法线向量保存在RGB颜色值中；每个通道都以127.5为中心，因此可以使用左右两个值(轴的)；

9.基于权利要求书3所述的命名约定，其特征在于，数据集中图像的文件名是全局唯一的，因为没有两个文件共享摄像头uuid，帧号和域；房间类型包括方便过滤。

10.基于权利要求书1所述的训练和测试分割，其特征在于，数据集中的某些区域表示在其外观和建筑特征方面具有相似性的建筑物的部分，因此定义标准训练和测试分割，使得没有类似建筑物的区域出现在两者之中。