CN111311611A

CN111311611A - 一种实时三维大场景多对象实例分割的方法

Info

Publication number: CN111311611A
Application number: CN202010097978.XA
Authority: CN
Inventors: 方璐; 韩磊; 郑添; 王好谦
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-19
Anticipated expiration: 2040-02-17
Also published as: CN111311611B

Abstract

本发明提供一种实时三维大场景多对象实例分割的方法，包括：S1：通过传感器扫描场景得到的RGB图和深度图构建三维几何模型；S2：通过基于多任务学习的三维卷积神经网络提取所述三维几何模型的三维特征；S3：从所述三维特征中检测物体。全面地利用了丰富的三维信息，实例分割的准确度更高。利用了三维空间中物体无遮挡、无尺度不确定性的属性，提出体积项和空间项，进一步提高准确度。通过采用稀疏卷积神经网络并对卷积网络的计算的加速，可以达到实时运行的性能。

Description

一种实时三维大场景多对象实例分割的方法

技术领域

本发明涉及三维模型处理技术领域，尤其涉及一种实时三维大场景多对象实例分割的方法。

背景技术

三维模型的语义分割和物体检测是计算机视觉和机器人领域的重要问题。三维语义分割的目标是从三维场景中识别并定位物体，并为三维点云中的每一个点判断其所属的物体类别。把三维语义分割和三维物体检测结合起来的技术称为三维实例分割。三维实例分割要求算法不仅可以判断每一个点所属的类别，同时还可以区分同一类别中的不同物体。

现有的方法分为两类。第一类是基于二维实例分割神经网络的方法。这类方法利用较为成熟的二维卷积神经网络，在不同的二维视角下进行实例分割，并将分割结果投影到三维空间中，对于重叠的区域对结果进行投票或使用CRF等方法，最终得到三维的实例分割结果。第二类方法是直接采用三维卷积神经网络。这类方法利用Sparse ConvolutionalNetworks或PointNet++等三维特征提取器，并采用传统二维实例分割的网络结构，构建三维实例分割模型。

以上两种方法都有各自的弊端。对第一种方法，从三维模型投影到二维视角的过程中，不光损失了几何信息，全局信息，还会造成物体的遮挡或残缺，因此实例分割的精度较差。对于第二类方法，现有的方法没有有效地利用三维场景地内在属性，即相对与二维图像来说，三维模型不存在物体遮挡和尺度不确定性。除此之外，现有的方法由于计算效率不足，无法实现实时计算。

以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明为了解决现有的问题，提供一种实时三维大场景多对象实例分割的方法。

为了解决上述问题，本发明采用的技术方案如下所述：

一种实时三维大场景多对象实例分割的方法，包括如下步骤：S1：通过传感器扫描场景得到的RGB图和深度图构建三维几何模型；S2：通过基于多任务学习的三维卷积神经网络提取所述三维几何模型的三维特征；S3：从所述三维特征中检测物体。

优选地，通过构建稀疏卷积层来构建所述三维卷积神经网络。

优选地，构建稀疏卷积层包括如下步骤：S21：将所述传感器的点云按照三维坐标分割为若干个M*M*M的方格，M代表每个所述方格的边长；S22：判断每个所述方格内是否存在点云，若存在点云则为有效方格，保留；若不存在点云则为空的方格，舍弃；S23：对所有所述有效方格并行执行稀疏卷积。

优选地，使用图形处理器对所有所述有效的方格并行执行稀疏卷积，具体包括：所述有效方格中有N个三维点，输入通道数为I，输出通道数为O，V是卷积核的空间体积,那么一层稀疏卷积操作需要的参数矩阵大小为I*O*V；将所述输入通道数和所述输出通道数以K为大小进行拆分，每个所述图形处理器线程负责计算K个输入通道与K*K*V的参数矩阵进行卷积得到K个输出通道。

优选地，所述三维卷积神经网络包括：下采样部分，包含一系列卷积层、批标准化层、激活层和下采样层；其中，所述下采样层的步长为2，卷积核大小为3；上采样部分，包含一系列卷积层、批标准化层、激活层和上采样层；其中，所述上采样层步长为2，卷积核大小为3的反卷积层；所述上采样部分和所述下采样部分是对称的且级联；在每一个分辨率层面上，将所述下采样层中的特征拼接到所述上采样层的特征中；所述上采样层输出的特征随后被输入多个不同的线性层中，所述线性层对应不同的网络任务项。

优选地，所述三维卷积神经网络使用多任务学习的方式同时优化所述网络任务项，所述网络任务项包括：空间项：输出每个体素到其所属物体中心的位移向量；嵌入项：为每个所述体素估计一个嵌入向量，隐式地表征其所属的物体以及物体的种类；互相关项：输出所述空间项和所述嵌入项的置信度；体积项：对每个所述体素，估计其所属物体的大小；语义分割项：输出每个所述体素的语义标签得分。

优选地，所述空间项、所述互相关项、所述体积项的损失函数为逻辑回归损失函数；所述语义分割项的损失函数是交叉熵损失函数；所述嵌入项的损失函数如下：

其中，

代表第c个物体实例的平均嵌入值，S_i代表第c个物体实例中第i个体素所对应的嵌入值，Lse为嵌入项对应的损失项；δv和δd为参数；Lvar和Ldist两项分别用来保证属于相同物体的体素嵌入项相互接近，并让属于不同物体的体素嵌入项距离较远。

优选地，从所述三维特征中检测物体包括：S31：对所述三维模型进行预分割，得到超体素；S32：将得到超体素和三维特征一起输入迭代算法，将相似度最高的两个超体素合并，直到每个超体素都代表一个完整的物体。

优选地，所述迭代算法基于如下公式计算相似度：

其中，S为语义项，D为空间项，σ_s,σ_d分别为分别为语义项、空间项的互相关项，r的定义如下:

其中，O为体积项，|Ω|代表当前超体素的体积；r的值作为迭代算法终止的判断条件：如果r大于1，则还有所述超体素需要被合并。

优选地，所述超体素的所述相似度w大于0.5时才能合并；且，所述超体素合并之后得到的所述物体需要满足0.3<r<2。

本发明的有益效果为：提供一种实时三维大场景多对象实例分割的方法，通过将实时三维重建***和三维实例分割神经网络结合检测物体，全面地利用了丰富的三维信息，实例分割的准确度更高。

进一步，利用了三维空间中物体无遮挡、无尺度不确定性的属性，提出体积项和空间项，进一步提高准确度。

更进一步的，通过采用稀疏卷积神经网络并对卷积网络的计算的加速，可以达到实时运行的性能。

附图说明

图1是本发明实施例中一种实时三维大场景多对象实例分割的方法的示意图。

图2是本发明实施例中构建三维几何模型的流程示意图。

图3是本发明实施例中构建三维几何模型的方法示意图。

图4是本发明实施例中构建稀疏卷积层的方法示意图。

图5是本发明实施例中稀疏卷积加速方法示意图。

图6是本发明实施例中三维卷积神经网络的示意图。

图7是本发明实施例中从三维特征中检测物体的方法示意图。

图8是本发明实施例中硬件的示意图。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接既可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

如图1所示，本发明提供一种实时三维大场景多对象实例分割的方法，包括如下步骤：

S1：通过传感器扫描场景得到的RGB图和深度图构建三维几何模型；

S2：通过基于多任务学习的三维卷积神经网络提取所述三维几何模型的三维特征；

S3：从所述三维特征中检测物体。

通过将实时三维重建***和三维实例分割神经网络结合，利用三维卷积神经网络全面地利用了丰富的三维信息，较基于二维的方法，实例分割的准确度更高。

如图2所示，是构建三维几何模型的流程示意图。

如图3所示，构建三维几何模型包括如下步骤：

S11：通过跟踪线程计算所述RGB图的帧与帧之间的相对位移估计所述传感器的位姿；

跟踪线程具体包括：获取RGBD相机的输入，计算RGB图的帧与当前关键帧之间的关联，判断位移是否大于阈值，如果是，则标记为新的关键帧，并回环检测，实现跟踪RGBD相机的运行轨迹。

S12：优化所述线程进而对所述传感器的位姿进行优化；

S13：将所述深度图的点云融合为带符号距离场；

优化线程具体包括：对RGBD相机的全局进行配准，然后进行光束调整，然后将深度图的点云融合为带符号距离场。优化线程用于对全局的相机位姿进行优化，减少累计误差。

S14：由所述线程从所述带符号距离场中提取网络生成所述三维几何模型。

建图线程具体包括，提取网络以及在提取网络之后进行GUI渲染。

在本发明的另一种实施例中，为了实现实时性，采用了一种应用于稀疏点云数据的卷积加速方法。

在本发明中，三维卷积神经网络采用稀疏卷积作为构建的基础，网络中的所有卷积层均采用稀疏卷积。在深度学习中，对于三维或更多维度的数据，总的数据量会随着维度的增长成指数增长。在这种情况下，必须要利用数据的稀疏性来减少所需的计算资源。而对于空间三维数据来说，如RGB-D相机捕捉到的点云，或三维场景重建出来的多边形网格模型，它们是非常稀疏的，空间中只有很小的一部分区域存在数据，而大多数区域为空。本发明中使用了一个稀疏卷积计算库SSCN(Submanifold Sparse Convolutional Networks)，其特点在于，只对空间中有值的体素执行卷积计算，忽略值为空的体素，因此可以大大节省内存空间和计算复杂度。但是，现有的技术计算效率仍不足以达到实时计算的要求，因此，对稀疏卷积做了以下必要的技术改进以进一步加速其计算过程。

在本发明的一种实施例中，使用基于空间分块的方法对算法进一步优化。如图4所示，构建稀疏卷积层包括如下步骤：

S21：将所述传感器的点云按照三维坐标分割为若干个M*M*M的方格，M代表每个所述方格的边长；

S22：判断每个所述方格内是否存在点云，若存在点云则为有效方格，保留；若不存在点云则为空的方格，舍弃；

S23：对所有所述有效方格并行执行稀疏卷积。

在本发明一种具体的实施例中，M为0.05米。

如图5所示，使用图形处理器对所有所述有效的方格并行执行稀疏卷积，具体包括：所述有效方格中有N个三维点，输入通道数为I，输出通道数为O，V是卷积核的空间体积,那么一层稀疏卷积操作需要的参数矩阵大小为I*O*V；将所述输入通道数和所述输出通道数以K为大小进行拆分，每个所述图形处理器线程负责计算K个输入通道与K*K*V的参数矩阵进行卷积得到K个输出通道。

在本发明的一种实施例中，取K＝16，针对不同的硬件可能有不同的最优参数。这样拆分的好处不仅体现在最大化并行度，也能够提高GPU的内存存取效率。由于每个方格中的卷积计算独立，可以将输入点云、卷积参数矩阵储存到共享内存中，提高GPU内存读取效率。

如图6所示，将上述的改进后的稀疏卷积层按照图中的结构连接，构建卷积神经网络模型。其中，虚线箭头为拼接，实现箭头为相加，Input为输入层，SSC为卷积层，SC为下采样层，Deconv为上采样层，K为卷积核大小，S为步长。

本发明的三维卷积神经网络采用类似于UNet的结构，所述三维卷积神经网络包括：

下采样部分，包含一系列卷积层、批标准化层、激活层和下采样层；其中，所述下采样层的步长为2，卷积核大小为3；因此每经过一次下采样层，数据的分辨率就减小一半。同时，每次下采样后，卷积层的通道数也相应增加。

上采样部分，包含一系列卷积层、批标准化层、激活层和上采样层；其中，所述上采样层步长为2，卷积核大小为3的反卷积层；，每个上采样层使分辨率提高一倍。

所述上采样部分和所述下采样部分是对称的且级联；在每一个分辨率层面上，将所述下采样层中的特征拼接到所述上采样层的特征中；

所述上采样层输出的特征随后被输入多个不同的线性层中，所述线性层对应不同的网络任务项。三维卷积神经网络使用多任务学习的方式同时优化网络任务项，所述网络任务项包括：

(1)空间项：输出每个体素到其所属物体中心的位移向量，对应的线性层通道数为3，

(2)嵌入项：为每个体素估计一个嵌入向量，隐式地表征其所属的物体以及物体的种类，每一个嵌入向量的维度为64，对应的线性层的输出通道数为64.

(3)互相关项：输出上述两项的置信度，输出通道数为2，分别对应空间项置信度与语义项置信度；

(4)体积项：对每个体素，估计其所属物体的体积，即其所属物体占据体素的个数，对应线性层的输出通道数为1。

(5)语义分割项：输出每个体素的语义预测得分，对应线性层的输出通道数等于语义标签个数，本发明中输出通道数取20。

使用不同的损失项来约束以上网络任务项。对于(1)(3)(4)项，采用常规的逻辑回归损失函数，对于(5)，采用交叉熵损失函数；对于(2)项，采用以下损失函数：

其中，

代表第c个物体实例的平均嵌入值，S_i代表第c个物体实例中第i个体素所对应的嵌入值，Lse为嵌入项对应的损失项；δv和δd为参数，分别取0.1和1.5；Lvar和Ldist两项分别用来保证属于相同物体的体素嵌入项相互接近，并让属于不同物体的体素嵌入项距离较远。

对上述的所有损失函数做加权相加后作为整体的损失函数训练该模型。

在本发明的一种实施例中，可以使用不同的神经网络结构参数，如改变卷积通道数、卷积核大小、上采样、下采样的次数等。也可以使用类似的网络输出项，增加或减少网络输出项的个数。

在本发明的一种实施例中，使用公开的三维数据集ScanNet训练本发明的三维卷积神经网络。

如图7所示，从所述三维特征中检测物体包括：

S31：对所述三维模型进行预分割，得到超体素；

S32：将得到超体素和三维特征一起输入迭代算法，将相似度最高的两个超体素合并，直到每个超体素都代表一个完整的物体。

在本发明的一种实施例中，首先对三维模型进行预分割，以三维表面的法向量为分割标准，将法向量距离小于0.05m的相邻体素聚类，得到超体素(super-voxel)。

在本发明的另一种实施例中，所述迭代算法基于如下公式计算相似度，即权重最大的两个超体素：

其中，O为体积项，|Ω|代表当前超体素的体积；r的值作为迭代算法终止的判断条件：如果r大于1，则还有所述超体素需要被合并；如果r接近1时，代表本发明的网络估计的物体体积与输出的物体体积一致。

在本发明的另一种实施例中，还可以为超体素合并条件设定了一些阈值，以提高分割的准确率。例如，所述超体素的所述相似度w大于0.5时才能合并；且，所述超体素合并之后得到的所述物体需要满足0.3<r<2。迭代终止后，超体素则代表多物体实例检测的结果，不同的超体素代表不同的物体。

可以理解的是，可以改变超体素合并时的相关阈值参数，如r与w的阈值。

如图8所示，是本发明实施例的一种硬件的示意图，包括笔记本电脑1和RGBD相机2，具体采用的设备是：Surface Book+Xtion深度相机。利用本发明的方法可以实时地进行三维几何重建，同时以1～2Hz的速度实时更新多物体实例分割的结果。实验结果证明了本发明的方法能够高效、准确地进行多物体实例分割，可以支持较大的场景，并且能够区分细小且相互接近的物体。证实了本发明的有效性，并且验证了可以实时地运行在便携式设备上。

同时，在公共数据集ScanNet测试了语义分割准确率。公共数据集ScanNet包含了1513个室内场景，场景内容丰富，并且包含正确的语义和实例分割标签，被广泛用于三维实例分割结果的评估。在ScanNet训练集上训练三维卷积神经网络，并且在测试集上计算了本方法生成实例分割结果的准确率。平均准确率AP，即生成结果与真实结果的交集与真实结果的比值来评价结果的好坏。本发明的方法得到的平均AP值为67.2％，高于现有的最高值，由GICN得到的63.8％,目前位列ScanNet排行榜第一名,证明了本方法的有效性。

同样评估了本发明中稀疏卷积加速方法的有效性。在输入一组相同的真实大场景数据下，在与本发明达到同等精确度的现有的技术中，速度最快者完成一次实例分割耗时2871毫秒，而本方法耗时仅594毫秒。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种实时三维大场景多对象实例分割的方法，其特征在于，包括如下步骤：

S3：从所述三维特征中检测物体。

2.如权利要求1所述的实时三维大场景多对象实例分割的方法，其特征在于，

通过构建稀疏卷积层来构建所述三维卷积神经网络。

3.如权利要求2所述的实时三维大场景多对象实例分割的方法，其特征在于，构建稀疏卷积层包括如下步骤：

S23：对所有所述有效方格并行执行稀疏卷积。

4.如权利要求3所述的实时三维大场景多对象实例分割的方法，其特征在于，使用图形处理器对所有所述有效的方格并行执行稀疏卷积，具体包括：所述有效方格中有N个三维点，输入通道数为I，输出通道数为O，V是卷积核的空间体积,那么一层稀疏卷积操作需要的参数矩阵大小为I*O*V；将所述输入通道数和所述输出通道数以K为大小进行拆分，每个所述图形处理器线程负责计算K个输入通道与K*K*V的参数矩阵进行卷积得到K个输出通道。

5.如权利要求2所述的实时三维大场景多对象实例分割的方法，其特征在于，所述三维卷积神经网络包括：

下采样部分，包含一系列卷积层、批标准化层、激活层和下采样层；其中，所述下采样层的步长为2，卷积核大小为3；

上采样部分，包含一系列卷积层、批标准化层、激活层和上采样层；其中，所述上采样层步长为2，卷积核大小为3的反卷积层；

所述上采样层输出的特征随后被输入多个不同的线性层中，所述线性层对应不同的网络任务项。

6.如权利要求5所述的实时三维大场景多对象实例分割的方法，其特征在于，所述三维卷积神经网络使用多任务学习的方式同时优化所述网络任务项，所述网络任务项包括：

空间项：输出每个体素到其所属物体中心的位移向量；

嵌入项：为每个所述体素估计一个嵌入向量，隐式地表征其所属的物体以及物体的种类；

互相关项：输出所述空间项和所述嵌入项的置信度；

体积项：对每个所述体素，估计其所属物体的大小；

语义分割项：输出每个所述体素的语义标签得分。

7.如权利要求6所述的实时三维大场景多对象实例分割的方法，其特征在于，所述空间项、所述互相关项、所述体积项的损失函数为逻辑回归损失函数；

所述语义分割项的损失函数是交叉熵损失函数；