CN110660062A

CN110660062A - 一种基于PointNet的点云实例分割方法及***

Info

Publication number: CN110660062A
Application number: CN201910820019.3A
Authority: CN
Inventors: 潘琳琳; 孔慧
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-08-31
Filing date: 2019-08-31
Publication date: 2020-01-07
Anticipated expiration: 2039-08-31
Also published as: CN110660062B

Abstract

本发明公开了一种基于PointNet的点云实例分割方法及***，点云数据预处理模块进行分块、采样、平移和归一化操作；PointNet神经网络训练模块通过PointNet神经网络，提取点云特征矩阵；矩阵计算模块，包括训练相似网络、置信网络和语义分割网络，通过三个网络分支提取点云特征的相似矩阵、置信度矩阵和语义分割矩阵；聚类合并模块确定有效的分割实例组后，进行去噪去重操作，完成实例物体得分割。本发明可有效的对室内场景的点云数据进行实例分割，为场景理解提供了可参考的解决方法。

Description

一种基于PointNet的点云实例分割方法及***

技术领域

本发明涉及点云分割技术，特别涉及一种基于PointNet的点云实例分割方法及***。

背景技术

点云分割即根据空间、几何和纹理等特征将点云分为多个同质区域，使得同一划分内的点云拥有相似的特征，是许多应用的前提。点云分割分为两种：语义分割和实例分割，其中点云语义分割是给场景中的每个点打上语义标签，指出这个点是桌子还是椅子。而点云实例分割是在语义分割的基础上，把每个不同的物体分割出来，指出这个点是椅子1还是椅子2，是三维重建、场景理解和目标识别跟踪等各项任务处理的基础。目前，点云实例分割多通过对体素化三维数据进行卷积完成分割，由于进行了体素操作，处理的数据量大，时间和空间复杂度高，此外由于仅使用了部分几何结构信息，分割的准确率较低。

发明内容

本发明的目的在于提供一种基于PointNet的点云实例分割方法及***。

实现本发明目的的技术解决方案为：一种基于PointNet的点云实例分割方法，包括如下步骤：

步骤1、进行点云数据预处理，包括分块、采样、平移和归一化操作；

步骤2、训练PointNet神经网络，提取点云特征矩阵；

步骤3、训练相似网络、置信网络和语义分割网络，确定特征矩阵的相似矩阵、置信度矩阵和语义分割矩阵；

步骤4、根据相似网络和置信网络确定有效的分割实例组，去噪去重后得到完整的分割实例物体。

一种基于PointNet的点云实例分割***，包括：

点云数据预处理模块，用于分块、采样、平移和归一化操作；

PointNet神经网络训练模块，用于训练PointNet神经网络，提取点云特征矩阵；

矩阵计算模块，包括训练相似网络、置信网络和语义分割网络，用于提取点云特征的相似矩阵、置信度矩阵和语义分割矩阵；

聚类合并模块，用于确定有效的分割实例组，通过去噪去重操作完成实例物体得分割完成实例物体得分割。

本发明与现有技术相比，其显著优点为：在PointNet神经网络基础上设计了三个分支网络结构，通过训练网络获得每个点的实例标签，提高了点云实例分割的精度。

附图说明

图1为本发明基于PointNet的点云实例分割***的工作流程图。

图2为本发明数据处理模块的工作流程图。

图3为PointNet神经网络的结构示意图。

图4为本发明矩阵计算模块的工作流程图。

具体实施方式

下面结合附图和具体实施例，进一步说明本发明方案。

本发明在PointNet神经网络的基础上设计了三个分支网络结构，通过计算相应的属性矩阵获得每个点的实例标签，提高了点云实例分割的精度，包括数据处理模块、特征提取模块、矩阵计算模块和聚类合并模块，具体工作步骤如下：

步骤1、数据处理模块完成点云数据预处理，包括分块、采样、平移和归一化四个步骤，如2所示，具体流程如下：

首先将点云数据分成若干立方块，然后在每个块中随机采样，当块中点数大于设定阈值时，丢弃掉多出的点，点数小于设定阈值时，从块中随机挑点进行复制直到点数达到设定阈值，完成数据采样。点云数据是包括XYZ坐标值和RGB颜色值的6维向量，为了训练方便，以XYZ的最小坐标值的点为坐标原点，用公式(1)相应地计算其他点的坐标值，完成数据平移。为了提高分割精度，用公式(2)对XYZ进行归一化，增加3维新的坐标值xyz(0到1)，用公式(3)对RGB进行归一化，得到归一化后的颜色值R′G′B′(0-1)，最后输出处理后的9维点云数据。

X＝X-X_min，Y＝Y-Y_min，Z＝Z-Z_min (1)

步骤2、特征提取模块通过PointNet神经网络提取点云特征；

假设N_p为点的个数，PointNet神经网络包括5层多层感知机(MLP)，提取点云特征时，首先将N_p×9维的点云数据输入PointNet网络，经过五层MLP和最大池化后，得到点云的全局特征矩阵；然后将全局特征与第三层MLP操作输出的局部特征拼接起来，接着经过第四、五两层MLP操作，得到最终的特征矩阵F。

以图3所示的PointNet神经网络为例，前三层感知机大小为64，第四层感知机大小为128，第五层感知机大小为1024，经过五层的MLP得到每个点的维度为1024的特征矩阵，对N_p×1024特征矩阵采用最大池化操作，得到点云的全局特征。获取第三层MLP操作后的维度为64的局部特征，将全局特征和局部特征拼接起来得到N_p×1088特征矩阵，接着经过两层的MLP得到N_p×256的特征矩阵F。

步骤3、矩阵计算模块包括相似网络、置信网络和语义分割网络三个网络分支，根据提取的特征分别计算相似矩阵、置信度矩阵和语义分割矩阵。如图4所示，具体流程如下：

a、相似网络设计

特征矩阵F经过相似网络(一层128维的MLP)得到特征矩阵F_SIM。相似矩阵(Similarity Matrix)，简称为S，需要在特征矩阵F_SIM的基础上进行计算。记点对{P_i，P_j}在特征矩阵F_SIM中对应的特征向量为{F_SIMi，F_SIMj}，则相似矩阵S中每个元素为：S_ij＝||F_SIMi-F_SIMj||₂，表示点P_i和P_j在特征空间上的欧氏距离即特征相似度，距离越小特征相似度越高，当S_ij小于设定阈值时，则认为点P_i和P_j在特征空间上有着高相似度，属于同一个候选的分割实例组。对于N_p×256的特征矩阵F，相似矩阵的大小为N_p×N_p，每一行都可以看作是一个候选的分割实例组。

设计相似网络的损失函数L_SIM，首先需要给点对{P_i，P_j}定义如下三种潜在的情况：

1、P_i和P_j属于同一实例类别；

2、P_i和P_j属于相同语义但不同实例类别；

3、P_i和P_j属于不同语义类别。

直观上，满足情况1的点对欧式距离应小于满足情况2的点对欧式距离；满足情况2的点对欧式距离应小于满足情况3的点对欧式距离。

受到Triplet损失函数的启发，基于相似矩阵设计如下Double-Triplet损失函数：

分别表示属于情况1、情况2和情况3的点对集合，[·]₊表示函数max(0，·)，α、m₁、m₂均是常量，α＞1，m₁＞m₂。

b、置信网络设计

特征矩阵F分别经过置信网络(一层128维和一层1维的MLP)得到特征矩阵F_CM。置信度矩阵(Confidence Map)，简称为CM，就是大小为N_p×1的特征矩阵F_CM，用来给每个候选的分割实例组一个置信度。置信度高于某个阈值时，则认为是有效的分割实例组，删减(Pruning)低于这个阈值的分割实例组。一般来说，两个不同分割实例的边界区域置信度很低，同一个分割实例的置信度较高。

设计置信网络的损失函数L_CF，首先需要根据点云数据的真实标签类别获得与相似矩阵S相同大小的相似真值矩阵G，G是相似矩阵S的标签。每个元素G_ij都用one-hot码表示，点P_i和P_j属于相同类别的记为1，不同类别记为0，如果点P_i是背景点，不属于任何物体，那么G_i那一行的值都为0。之后计算S和G之间的IoU(Intersection over Union)值得到置信度真值矩阵CF，同样地，CF是置信度矩阵CM的标签，每个元素CF_i的计算公式如下：

其中，1{·}为指示函数。

损失函数L_CF由置信度矩阵CM和置信度真值矩阵CF之间的L₂损失计算得到，公式如下：

c、语义分割网络设计

特征矩阵F分别经过语义分割网络(一层128维和一层N_C维的MLP)得到特征矩阵F_SEM，N_C为语义分割类别数。语义分割矩阵M_SEM，就是大小为N_p×N_C的特征矩阵F_SEM，语义分割矩阵中的每个元素

表示点P_i属于语义类别C_j的概率。

语义分割网络的损失函数L_SEM，通过计算语义分割矩阵中每行元素的交叉熵损失的加权和得到，如公式(7)所示：

ac(C_j)＝medianfreq/freq(C_j) (8)

其中，1{·}为指示函数，y_i是点P_i的语义类别。公式(8)中的ac(C_j)用来给损失函数加权，freq(C_j)表示属于类别C_j的总点数，medianfreq表示所有freq(C_j)的中位数。

网络训练时，优化整个***网络的损失函数和：L＝L_SIM+L_CF+L_SEM，输出损失函数和最小的网络结构。

步骤4、聚类合并模块将分割实例组合并成完整的实例物体。

一个分割实例组可以看成是若干点形成的一个聚类。相似矩阵产生的候选的分割实例组经过置信矩阵的删减后得到了若干有效的分割实例组。由于有效的分割实例组依然存在较多的噪声和重叠组，因此首先删除组内点数小于20的分割实例组，用来去除噪声，之后使用非极大值抑制的方法，得到没有重叠的分割实例组，完成将若干分割实例组合并成完整的实例物体。

非极大值抑制(Non-Maximum Suppression，NMS)首先将分割实例组根据置信度矩阵给出的置信度排序，并将所有的分割实例组添加到一张候选列表中。接着，从候选列表里选择置信度最高的分割实例组G_max，并将其从候选列表中删除。最后，计算G_max与候选列表中所有实例组的IoU，删除所有IoU大于0.6的实例组，将它们与G_max合并。重复上述过程直到候选列表为空，将若干分割实例组合并成完整的实例物体。

本发明在PointNet神经网络基础上设计了三个分支网络结构，计算相应的属性矩阵，通过训练网络获得每个点的实例标签，提高了点云实例分割的精度。

实施例

为了验证本发明方案的有效性，以室内场景点云数据集S3DIS(Stanford 3DIndoor Semantic Dataset)作为实验数据，进行如下仿真实验，以预测每个点的实例标签。数据集包括6个场景271个房间的扫描数据，每一个点都标注了语义标签和实例标签，***具体工作步骤如下：

步骤1、点云数据预处理模块，进行分块、采样、平移和归一化四个操作。先将点云数据按照每个房间分成若干边长为1米的立方块，在每个块中随机采样4096个点，当块中点数大于4096时，丢弃掉多出的点，点数小于4096时，从块中随机挑点进行复制直到点数达到这个数值，完成采样；接着按照公式1-3完成数据的平移和归一化操作。

步骤2、PointNet神经网络模块，用于训练PointNet神经网络提取点云特征，得到4096×256的特征矩阵F。

步骤3、矩阵计算模块的三个分支网络中，将特征矩阵F输入到矩阵计算模块后，得到三个属性矩阵，三个分支网络具体如下：

a、相似网络设计

特征矩阵F经过一层128维的MLP得到的特征矩阵F_SIM，大小为4096×128。相似矩阵S中的每个元素S_ij小于10时，则认为点P_i和P_j属于同一个候选的分割实例组。相似矩阵大小为4096×4096，每一行都可以看作是一个候选的分割实例组。

b、置信网络设计

特征矩阵F分别经过一层128维和一层1维的MLP得到特征矩阵F_CM。置信度矩阵CM，就是大小为4096×1的特征矩阵F_CM，用来给每个候选的分割实例组一个置信度。置信度高于0.1时，则认为是有效的分割实例组，删减(Pruning)低于0.1的分割实例组。

c、语义分割网络设计

特征矩阵F分别经过一层128维和一层13维的MLP得到特征矩阵F_SEM，13为语义分割类别数。语义分割矩阵M_SEM，就是大小为4096×13的特征矩阵F_SEM。

本发明通过Tensorflow训练整个***网络，包括步骤2的PointNet神经网络，以及步骤3的三个分支网络，方法为：

首先对基于相似网络设计的损失函数L_SIM中涉及的三个参数：α、m₁、m₂进行初始化，设置α初始值为2，每训练5个周期(epoch)上升到原来的2倍，直到α等于10时停止上升，设置m₁、m₂分别为10和80。使用大小为32的batch训练网络，保留训练参数作为预训练模型对网络进行参数初始化。之后设置batch大小为4，并且采用带动量参数为0.9的ADAM算法优化整个***网络的损失函数L＝L_SIM+L_CF+L_SEM，使得损失降到网络的最小值。实验采取变化的学习率进行学习，初始化学习率为0.0001，每训练20个周期学习率下降到原来的0.5倍，直到学习率小于0.000001时停止下降。实验采用了早停止的策略，训练了200个周期。

步骤4、聚类合并模块，将分割实例组合删减、去噪、去重，分割完整的实例物体。

Claims

1.一种基于PointNet的点云实例分割方法，其特征在于，包括如下步骤：

步骤2、训练PointNet神经网络，提取点云特征矩阵；

2.根据权利要求1所述的基于PointNet的点云实例分割，其特征在于，步骤1中，点云数据预处理的具体方法为：

首先将点云数据分成若干立方块，然后在每个块中随机采样，当块中点数大于设定阈值时，丢弃掉多出的点，点数小于设定阈值时，从块中随机挑点进行复制直到点数达到设定阈值，完成数据采样；点云数据是包括XYZ坐标值和RGB颜色值的6维向量，为了训练方便，以XYZ的最小坐标值的点为坐标原点，用公式(1)相应地计算其他点的坐标值，完成数据平移；为了提高分割精度，用公式(2)对XYZ进行归一化，增加3维新的坐标值xyz(0到1)，用公式(3)对RGB进行归一化，得到归一化后的颜色值R'G'B'(0-1)，最后输出处理后的9维点云数据：

X＝X-X_min,Y＝Y-Y_min,Z＝Z-Z_min (1)

3.根据权利要求1所述的基于PointNet的点云实例分割，其特征在于，步骤2中，PointNet神经网络包括5层多层感知机(MLP)，假设N_p为点的个数，提取点云特征时，首先将N_p×9维的点云数据输入PointNet网络，经过五层MLP和最大池化后，得到点云的全局特征矩阵；然后将全局特征与第三层MLP操作输出的局部特征拼接起来，接着经过第四、五两层MLP操作，得到最终的特征矩阵F。

4.根据权利要求1所述的基于PointNet的点云实例分割，其特征在于，步骤3中，三个网络具体为：

a、相似网络设计

特征矩阵F经过一层128维的MLP得到特征矩阵F_SIM，相似矩阵S，需要在特征矩阵F_SIM的基础上进行计算，记点对{P_i,P_j}在特征矩阵F_SIM中对应的特征向量为{F_SIMi,F_SIMj}，则相似矩阵S中每个元素为：S_ij＝||F_SIMi-F_SIMj||₂，表示点P_i和P_j在特征空间上的欧氏距离即特征相似度，距离越小特征相似度越高，当S_ij小于设定阈值时，则认为点P_i和P_j在特征空间上有着高相似度，属于同一个候选的分割实例组；

设计相似网络的损失函数L_SIM，首先需要给点对{P_i,P_j}定义如下三种潜在的情况：

1、P_i和P_j属于同一实例类别；

2、P_i和P_j属于相同语义但不同实例类别；

3、P_i和P_j属于不同语义类别。

直观上，满足情况1的点对欧式距离应小于满足情况2的点对欧式距离；满足情况2的点对欧式距离应小于满足情况3的点对欧式距离；

分别表示属于情况1、情况2和情况3的点对集合，[·]₊表示函数max(0,·)，α、m₁、m₂均是常量，α>1，m₁>m₂；

b、置信网络设计

特征矩阵F分别经过一层128维和一层1维的MLP得到特征矩阵F_CM，置信度矩阵CM，就是大小为N_p×1的特征矩阵F_CM，用来给每个候选的分割实例组一个置信度，置信度高于某个阈值时，则认为是有效的分割实例组，删减低于这个阈值的分割实例组，一般来说，两个不同分割实例的边界区域置信度很低，同一个分割实例的置信度较高；

设计置信网络的损失函数L_CF，首先需要根据点云数据的真实标签类别获得与相似矩阵S相同大小的相似真值矩阵G，G是相似矩阵S的标签；每个元素G_ij都用one-hot码表示，点P_i和P_j属于相同类别的记为1，不同类别记为0，如果点P_i是背景点，不属于任何物体，那么G_i那一行的值都为0；之后计算S和G之间的IoU值得到置信度真值矩阵CF，同样地，CF是置信度矩阵CM的标签，每个元素CF_i的计算公式如下：

其中，1{·}为指示函数。

c、语义分割网络设计

特征矩阵F分别经过一层128维和一层N_C维的MLP得到特征矩阵F_SEM，N_C为语义分割类别数，语义分割矩阵M_SEM，就是大小为N_p×N_C的特征矩阵F_SEM，语义分割矩阵中的每个元素

表示点P_i属于语义类别C_j的概率；

ac(C_j)＝medianfreq/freq(C_j) (8)

其中，1{·}为指示函数，y_i是点P_i的语义类别，公式(8)中的ac(C_j)用来给损失函数加权，freq(C_j)表示属于类别C_j的总点数，medianfreq表示所有freq(C_j)的中位数；

5.根据权利要求1所述的基于PointNet的点云实例分割，其特征在于，步骤4中，将相似矩阵产生的候选的分割实例组经过置信矩阵的删减后得到了若干有效的分割实例组；由于有效的分割实例组依然存在较多的噪声和重叠组，因此首先删除组内点数小于20的分割实例组，用来去除噪声，之后使用非极大值抑制的方法，得到没有重叠的分割实例组，即得完整的分割实例物体。

6.一种基于PointNet的点云实例分割***，其特征在于，包括：

7.根据权利要求6所述的基于PointNet的点云实例分割***，其特征在于，点云数据预处理模块进行如下操作：

X＝X-X_min,Y＝Y-Y_min,Z＝Z-Z_min (1)

8.根据权利要求6所述的基于PointNet的点云实例分割***，其特征在于，PointNet神经网络训练模块训练的神经网络由5层多层感知机构成，假设N_p为点的个数，提取点云特征时，首先将N_p×9维的点云数据输入PointNet网络，经过五层MLP和最大池化后，得到点云的全局特征矩阵；然后将全局特征与第三层MLP操作输出的局部特征拼接起来，接着经过第四、五两层MLP操作，得到最终的特征矩阵F。

9.根据权利要求6所述的基于PointNet的点云实例分割***，其特征在于，矩阵计算模块的三个网络具体为：

a、相似网络设计

1、P_i和P_j属于同一实例类别；

2、P_i和P_j属于相同语义但不同实例类别；

3、P_i和P_j属于不同语义类别。

b、置信网络设计

其中，1{·}为指示函数。

c、语义分割网络设计

表示点P_i属于语义类别C_j的概率；

ac(C_j)＝medianfreq/freq(C_j) (8)

10.根据权利要求6所述的基于PointNet的点云实例分割***，其特征在于，聚类合并模块将相似矩阵产生的候选的分割实例组经过置信矩阵的删减后得到了若干有效的分割实例组；由于有效的分割实例组依然存在较多的噪声和重叠组，因此首先删除组内点数小于20的分割实例组，用来去除噪声，之后使用非极大值抑制的方法，得到没有重叠的分割实例组，即得完整的分割实例物体。