CN113657387A

CN113657387A - 基于神经网络的半监督三维点云语义分割方法

Info

Publication number: CN113657387A
Application number: CN202110764019.3A
Authority: CN
Inventors: 张扬刚; 陈涛; 廖永斌; 叶创冠
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-11-16
Anticipated expiration: 2041-07-07
Also published as: CN113657387B

Abstract

本发明属于深度学***均得到。实验表明，使用带有标注数据和未标注数据的半监督学习，网络的性能在每一个标注率上都有明显的提高。

Description

基于神经网络的半监督三维点云语义分割方法

技术领域

本发明属于深度学习、计算机视觉技术领域，具体涉及一种三维点云语义分割方法。

背景技术

近年来，深度学习在多种计算机视觉任务上都取得了出色的表现，特别是图像领域。然而，对于一些具有实际意义的应用比如自动驾驶、虚拟现实、增强现实来说，需要获取比单纯的图片更丰富的信息以实现更好的场景理解。由激光雷达或者RGB-D深度相机采集得到的三维数据是对二维图片数据的一个良好补充，这些三维数据的表现形式通常为点云。三维点云由大量具有三维坐标和颜色的点组成，是一种直观的三维数据格式，与二维图像相比，三维点云包含丰富的环境空间信息，更有助于场景理解，已经成为许多三维视觉分析任务的主要表示形式。

在所有的三维视觉分析任务中，点云语义分割是三维场景理解中必不可少的关键任务。近年来，点云语义分割取得了很大的进展，但现有方法都是用全监督学习方式进行训练的，严重依赖于大量精细标注的数据，既昂贵又耗时。此外，与分类和检测任务相比，语义分割需要密集的点级标注，耗时更长，成本更高。例如，一个室内场景的点往往可以达到百万的数量级，标注需要几个小时。半监督学习是一种减少数据标注成本的方法，它可以利用少量标记数据加上大量未标记数据来提高现有模型的性能。在许多领域，标签只能由相关领域的专家给出，而未标记的数据可以很容易地获得。与全监督学习不同，半监督学习的方法可以通过添加额外的未标记数据进行训练来提高性能，是一种克服数据饥饿的新方法。

下面简要介绍一些关于半监督学习和点云语义分割的相关算法。

1、半监督学习

半监督学***均，Mean Teacher由于简单而有效的架构，它一直是一致性正则化方法最常见的结构，在这项发明中，我们也选择mean teacher架构作为我们点云语义分割任务的但监督范式。

2、点云语义分割

现有的点云语义分割方法可以分为两类：基于点的方法和基于投影的方法。基于点的方法以原始点云为输入，但很难处理非结构化和无序的点云。PointNet[7]利用多层共享的感知机和变换矩阵模块进行点级特征学习，然后使用对称函数进行全局特征学习，PointNet++[8]更进一步地引入了特征学习的层次结构，因此它可以为每个点学习更准确的局部纹理特征和更丰富的局部结构信息；基于投影地方法通常将无序点云转换为中间正则的表示，然后将正则表示输入主干网以进行特征提取，[9]首先将点云投影到合成的二维图像上，然后可以通过2D-CNN方法学习图像特征，通过融合图像特征获得最终的语义分割结果并将其投影回点云上，[10]使用范围图像作为中间表示，并提出了一种新的后处理算法来克服离散化所引起的问题。SSCNs[11]首先对输入的点云进行体素化，并提出一种新的稀疏卷积的方法来缓解点云计算负担大的问题。

发明内容

本发明的目的在于提供一种数据标注要求低、准确率高、鲁棒性好的基于神经网络的半监督三维点云语义分割方法。

本发明提出的基于神经网络的半监督三维点云语义分割方法，结构整体描述如下：整个设计基于深度学***均得到。

本发明方法的具体步骤如下。

步骤1：划分训练数据集。

监督学习的训练样本由有标注数据和无标注数据两部分组成。对于已有的有标注数据集，划分出一定比例(比如10％～90％之间)的有标注训练样本，剩下的部分去除标签作为无标注训练样本。或者自行收集有标注训练样本和无标注训练样本。此过程需要注意的是，有标注样本中所包含的物体类需要包含所有待分割的物体类别。

步骤2：网络预训练。

使用步骤1中划分或收集得到的有标注数据对教师网络和学生网络使用的主干网络进行预训练，预训练过程采用全监督方式；训练过程中采用的损失函数为标准的交叉熵损失函数。

步骤3：网络训练。

输入到网络中的有标注点云样本和无标注点云样本分别记为

其中x_i∈R^p×6表示每个训练样本含有的p个点以及它的坐标和颜色信息。一批训练样本记为x^l∪x^u，其经过缩放、旋转变换后的版本记为

x^l∪x^u和

分别作为学生网络和教师网络分支的输入，它们对应的输出分别记为

和

网络开始训练前，使用步骤2中预训练过程得到的权重分别对学生网络和教师网络进行初始化；然后每一次训练，学生网络的输出

中的

由其对应的标注信息y进行监督计算损失

和

由我们设计的一致性损失函数

监督，具体描述如下：

其中，f_T和f_S分别指代教师网络和学生网络，τ表示上文提到的缩放、旋转变换，KL指代KL散度(Kullback-Leibler divergence)计算。整体的损失函数

记为：

其中，ω_c是一致性权重参数；

学生网络通过优化损失函数

更新网络参数；教师网络通过对学生网络的参数进行指数滑动平均(Exponential Moving Average)得到，具体算式如下：

θ′_t＝αθ′_t-1+(1-α)θ_t

θ′_t、θ_t分别记为第t次迭代教师网络和学生网络的权重，α是一个权重超参数。由此可见，教师网络的权重参数由其自身前一次迭代后的参数乘以权重超参数加上此时刻学生网络更新后的参数乘以1减去权重超参数。

步骤4：网络推理。

网络推理时使用经过训练的教师网络或学生网络均可得到理想的三维点云语义分割结果，两者分割的性能相近。

本发明中，半监督学习通过添加未标注的数据来和有标注的数据进行联合训练，以有效地提高模型的性能。本发明选择SSCNs作为点云语义分割的主干网，设计了两个损失函数来强制教师模型和学生模型具有相同的预测。本发明网络结构简单但有效，大量实验表明，通过使用带有标注数据和未标注数据的半监督学习，网络的性能在每一个标注率上能都有明显的提高。

附图说明

图1是本发明提出的半监督三维点云语义分割框架图。

具体实施方式

下面，在三维场景点云数据集中来说明本发明的具体实施方式。

数据集说明：本发明所涉及的三维场景点云数据集来自[12]，其中包含由707个室内场景重构得到的1513个扫描样本，官方将其划分为1201个训练样本和312个验证样本。

训练实验设置：

本节介绍三维场景点云语义分割的训练设置，代码采用PyTorch编写，选用上述内容介绍的数据集中的1201个训练样本作为训练样本。并且，本节所有实验都按照如下实验设置进行：

数据集划分：

按照有标注样本的比例，将1201个训练样本分别划分为10％、20％、30％、40％、50％、70％、100％七组实验，每组实验余下的样本去除标签作为无标注样本。

预训练阶段：

学习率：0.001。

训练周期：约250次遍历训练集，又叫做epochs数。

每次抓取的batch size的个数：32。

优化算法：Adam。

SSCNs的超参数：网络宽度m＝16，卷积块重复因子为1，体素大小为1/20，测试面的个数为1，不适用残差块。

训练阶段：

学习率：0.001，每50个训练周期缩小为前一阶段的1/10。

训练周期：约250次遍历训练集，又叫做epochs数。

每次抓取的batchsize的个数：有标注样本为6，无标注样本为24。

优化算法：Adam。

一致性权重ω_c：前40000步之间逐步由0上升至1。

权重超参数α：前40000步为0.99，后面为0.999。

测试实验设置：

验证集：数据集中的312个验证样本。

评估指标：mean Intersection-Over-Union(mIoU)。

基准线：指的是相同数量的标注样本对SSCNs网络进行训练，再去对同样的验证集进行推理的结果。

标注样本比例	10％	20％	30％	40％	50％	70％	100％
								基准线SSCNs	40.49	50.04	53.39	53.62	55.86	57.71	60.04
本发明	42.74	51.86	55.84	55.87	57.77	59.19	61.76

。

直推式学习结果验证：

直推式学习指的是对训练过程中的无标注样本进行推理，是半监督学习中一种常见的评估方式。本节展示了本发明在此评估方式下的结果。

验证集：用到的不同比例的无标注样本。

评估指标：mean Intersection-Over-Union(mIoU)。

标注样本比例	10％	20％	30％	40％	50％	70％
							基准线SSCNs	44.42	57.23	61.26	63.48	65.92	68.49
本发明	46.90	59.29	63.50	65.29	67.47	70.36

。

结果分析：

无论是在测试集上的结果还是在直推式学习的评估方式下，本发明提出的半监督三维点云语义分割方法均可对现有的三维点云方法的精度进行提升。从而可以利用少量标注的样本和大量的无标注样本提升三维点云的语义分割精度，对比常规的三维点云语义分割方法，大大减少了对数据标注的依赖。

为了说明本发明的内容及实施方法，本说明书给出了一个具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围，而是帮助理解本发明所述方法。本领域的技术人员应理解：在不脱离本发明及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的。因此，本发明不应局限于最佳实施例及附图所公开的内容。

参考文献

[1]N.Souly，C.Spampinato，M.Shah，Semi supervised semantic segmentationusing generative adversarial network，in：Proceedings of the IEEEInternationalConference on Computer Vision，2017，pp.5688-5696.

[2]S.Mittal，M.Tatarchenko，T.Brox，Semi-supervised semanticsegmentationwith high-and low-level consistency，IEEE Transactions onPatternAnalysis and Machine Intelligence.

[3]Y.Grandvalet，Y.Bengio，Semi-supervised learning by entropyminimization，Advances in neural information processing systems 17(2004)529-536.

[4]K.Sohn,D.Berthelot,C.-L.Li,Z.Zhang,N.Carlini,E.D.Cubuk,A.Kurakin,H.Zhang,C.Ra el,Fixmatch:Simplifying semi-supervised learningwith consistencyand confidence,arXiv preprint arXiv:2001.07685.

[5]S.Laine,T.Aila,Temporal ensembling for semi-supervised learning,arXiv preprint arXiv:1610.02242.

[6]A.Tarvainen,H.Valpola,Mean teachers are better role models:Weightaveragedconsistency targets improve semi-supervised deep learning results,in:Advances in neural information processing systems,2017,pp.1195–1204.

[7]C.R.Qi,H.Su,K.Mo,L.J.Guibas,Pointnet:Deep learning on pointsetsfor 3d classification and segmentation,in:Proceedings of the IEEEconferenceon computer vision and pattern recognition,2017,pp.652–660.

[8]C.R.Qi,L.Yi,H.Su,L.J.Guibas,Pointnet++:Deep hierarchicalfeaturelearning on point sets in a metric space,Advances in neuralinformationprocessing systems 30(2017)5099–5108.

[9]F.J.Lawin,M.Danelljan,P.Tosteberg,G.Bhat,F.S.Khan,M.Felsberg,Deepprojective 3d semantic segmentation,in:International Conferenceon ComputerAnalysis of Images and Patterns,Springer,2017,pp.95–107.

[10]A.Milioto,I.Vizzo,J.Behley,C.Stachniss,Rangenet++:Fast andaccuratelidar semantic segmentation,in:2019 IEEE/RSJ InternationalConferenceon Intelligent Robots and Systems(IROS),IEEE,2019,pp.4213–4220.

[11]B.Graham,M.Engelcke,L.Van Der Maaten,3d semantic segmentationwithsubmanifold sparse convolutional networks,in:Proceedings of theIEEEconference on computer vision and pattern recognition,2018,pp.9224–9232.

[12]A.Dai,A.X.Chang,M.Savva,M.Halber,T.Funkhouser,M.Nieβner,Scannet:Richly-annotated 3d reconstructions of indoor scenes,in:Pro-ceedings of theIEEE Conference on Computer Vision and Pattern Recog-nition,2017,pp.5828–5839.。