CN113657387A - 基于神经网络的半监督三维点云语义分割方法 - Google Patents
基于神经网络的半监督三维点云语义分割方法 Download PDFInfo
- Publication number
- CN113657387A CN113657387A CN202110764019.3A CN202110764019A CN113657387A CN 113657387 A CN113657387 A CN 113657387A CN 202110764019 A CN202110764019 A CN 202110764019A CN 113657387 A CN113657387 A CN 113657387A
- Authority
- CN
- China
- Prior art keywords
- network
- point cloud
- student
- teacher
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于深度学***均得到。实验表明,使用带有标注数据和未标注数据的半监督学习,网络的性能在每一个标注率上都有明显的提高。
Description
技术领域
本发明属于深度学习、计算机视觉技术领域,具体涉及一种三维点云语义分割方法。
背景技术
近年来,深度学习在多种计算机视觉任务上都取得了出色的表现,特别是图像领域。然而,对于一些具有实际意义的应用比如自动驾驶、虚拟现实、增强现实来说,需要获取比单纯的图片更丰富的信息以实现更好的场景理解。由激光雷达或者RGB-D深度相机采集得到的三维数据是对二维图片数据的一个良好补充,这些三维数据的表现形式通常为点云。三维点云由大量具有三维坐标和颜色的点组成,是一种直观的三维数据格式,与二维图像相比,三维点云包含丰富的环境空间信息,更有助于场景理解,已经成为许多三维视觉分析任务的主要表示形式。
在所有的三维视觉分析任务中,点云语义分割是三维场景理解中必不可少的关键任务。近年来,点云语义分割取得了很大的进展,但现有方法都是用全监督学习方式进行训练的,严重依赖于大量精细标注的数据,既昂贵又耗时。此外,与分类和检测任务相比,语义分割需要密集的点级标注,耗时更长,成本更高。例如,一个室内场景的点往往可以达到百万的数量级,标注需要几个小时。半监督学习是一种减少数据标注成本的方法,它可以利用少量标记数据加上大量未标记数据来提高现有模型的性能。在许多领域,标签只能由相关领域的专家给出,而未标记的数据可以很容易地获得。与全监督学习不同,半监督学习的方法可以通过添加额外的未标记数据进行训练来提高性能,是一种克服数据饥饿的新方法。
下面简要介绍一些关于半监督学习和点云语义分割的相关算法。
1、半监督学习
半监督学***均,Mean Teacher由于简单而有效的架构,它一直是一致性正则化方法最常见的结构,在这项发明中,我们也选择mean teacher架构作为我们点云语义分割任务的但监督范式。
2、点云语义分割
现有的点云语义分割方法可以分为两类:基于点的方法和基于投影的方法。基于点的方法以原始点云为输入,但很难处理非结构化和无序的点云。PointNet[7]利用多层共享的感知机和变换矩阵模块进行点级特征学习,然后使用对称函数进行全局特征学习,PointNet++[8]更进一步地引入了特征学习的层次结构,因此它可以为每个点学习更准确的局部纹理特征和更丰富的局部结构信息;基于投影地方法通常将无序点云转换为中间正则的表示,然后将正则表示输入主干网以进行特征提取,[9]首先将点云投影到合成的二维图像上,然后可以通过2D-CNN方法学习图像特征,通过融合图像特征获得最终的语义分割结果并将其投影回点云上,[10]使用范围图像作为中间表示,并提出了一种新的后处理算法来克服离散化所引起的问题。SSCNs[11]首先对输入的点云进行体素化,并提出一种新的稀疏卷积的方法来缓解点云计算负担大的问题。
发明内容
本发明的目的在于提供一种数据标注要求低、准确率高、鲁棒性好的基于神经网络的半监督三维点云语义分割方法。
本发明提出的基于神经网络的半监督三维点云语义分割方法,结构整体描述如下:整个设计基于深度学***均得到。
本发明方法的具体步骤如下。
步骤1:划分训练数据集。
监督学习的训练样本由有标注数据和无标注数据两部分组成。对于已有的有标注数据集,划分出一定比例(比如10%~90%之间)的有标注训练样本,剩下的部分去除标签作为无标注训练样本。或者自行收集有标注训练样本和无标注训练样本。此过程需要注意的是,有标注样本中所包含的物体类需要包含所有待分割的物体类别。
步骤2:网络预训练。
使用步骤1中划分或收集得到的有标注数据对教师网络和学生网络使用的主干网络进行预训练,预训练过程采用全监督方式;训练过程中采用的损失函数为标准的交叉熵损失函数。
步骤3:网络训练。
输入到网络中的有标注点云样本和无标注点云样本分别记为 其中xi∈Rp×6表示每个训练样本含有的p个点以及它的坐标和颜色信息。一批训练样本记为xl∪xu,其经过缩放、旋转变换后的版本记为xl∪xu和分别作为学生网络和教师网络分支的输入,它们对应的输出分别记为和
网络开始训练前,使用步骤2中预训练过程得到的权重分别对学生网络和教师网络进行初始化;然后每一次训练,学生网络的输出中的由其对应的标注信息y进行监督计算损失和由我们设计的一致性损失函数监督,具体描述如下:
其中,ωc是一致性权重参数;
θ′t=αθ′t-1+(1-α)θt
θ′t、θt分别记为第t次迭代教师网络和学生网络的权重,α是一个权重超参数。由此可见,教师网络的权重参数由其自身前一次迭代后的参数乘以权重超参数加上此时刻学生网络更新后的参数乘以1减去权重超参数。
步骤4:网络推理。
网络推理时使用经过训练的教师网络或学生网络均可得到理想的三维点云语义分割结果,两者分割的性能相近。
本发明中,半监督学习通过添加未标注的数据来和有标注的数据进行联合训练,以有效地提高模型的性能。本发明选择SSCNs作为点云语义分割的主干网,设计了两个损失函数来强制教师模型和学生模型具有相同的预测。本发明网络结构简单但有效,大量实验表明,通过使用带有标注数据和未标注数据的半监督学习,网络的性能在每一个标注率上能都有明显的提高。
附图说明
图1是本发明提出的半监督三维点云语义分割框架图。
具体实施方式
下面,在三维场景点云数据集中来说明本发明的具体实施方式。
数据集说明:本发明所涉及的三维场景点云数据集来自[12],其中包含由707个室内场景重构得到的1513个扫描样本,官方将其划分为1201个训练样本和312个验证样本。
训练实验设置:
本节介绍三维场景点云语义分割的训练设置,代码采用PyTorch编写,选用上述内容介绍的数据集中的1201个训练样本作为训练样本。并且,本节所有实验都按照如下实验设置进行:
数据集划分:
按照有标注样本的比例,将1201个训练样本分别划分为10%、20%、30%、40%、50%、70%、100%七组实验,每组实验余下的样本去除标签作为无标注样本。
预训练阶段:
学习率:0.001。
训练周期:约250次遍历训练集,又叫做epochs数。
每次抓取的batch size的个数:32。
优化算法:Adam。
SSCNs的超参数:网络宽度m=16,卷积块重复因子为1,体素大小为1/20,测试面的个数为1,不适用残差块。
训练阶段:
学习率:0.001,每50个训练周期缩小为前一阶段的1/10。
训练周期:约250次遍历训练集,又叫做epochs数。
每次抓取的batchsize的个数:有标注样本为6,无标注样本为24。
优化算法:Adam。
一致性权重ωc:前40000步之间逐步由0上升至1。
权重超参数α:前40000步为0.99,后面为0.999。
测试实验设置:
验证集:数据集中的312个验证样本。
评估指标:mean Intersection-Over-Union(mIoU)。
基准线:指的是相同数量的标注样本对SSCNs网络进行训练,再去对同样的验证集进行推理的结果。
标注样本比例 | 10% | 20% | 30% | 40% | 50% | 70% | 100% |
基准线SSCNs | 40.49 | 50.04 | 53.39 | 53.62 | 55.86 | 57.71 | 60.04 |
本发明 | 42.74 | 51.86 | 55.84 | 55.87 | 57.77 | 59.19 | 61.76 |
。
直推式学习结果验证:
直推式学习指的是对训练过程中的无标注样本进行推理,是半监督学习中一种常见的评估方式。本节展示了本发明在此评估方式下的结果。
验证集:用到的不同比例的无标注样本。
评估指标:mean Intersection-Over-Union(mIoU)。
基准线:指的是相同数量的标注样本对SSCNs网络进行训练,再去对同样的验证集进行推理的结果。
标注样本比例 | 10% | 20% | 30% | 40% | 50% | 70% |
基准线SSCNs | 44.42 | 57.23 | 61.26 | 63.48 | 65.92 | 68.49 |
本发明 | 46.90 | 59.29 | 63.50 | 65.29 | 67.47 | 70.36 |
。
结果分析:
无论是在测试集上的结果还是在直推式学习的评估方式下,本发明提出的半监督三维点云语义分割方法均可对现有的三维点云方法的精度进行提升。从而可以利用少量标注的样本和大量的无标注样本提升三维点云的语义分割精度,对比常规的三维点云语义分割方法,大大减少了对数据标注的依赖。
为了说明本发明的内容及实施方法,本说明书给出了一个具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围,而是帮助理解本发明所述方法。本领域的技术人员应理解:在不脱离本发明及其所附权利要求的精神和范围内,对最佳实施例步骤的各种修改、变化或替换都是可能的。因此,本发明不应局限于最佳实施例及附图所公开的内容。
参考文献
[1]N.Souly,C.Spampinato,M.Shah,Semi supervised semantic segmentationusing generative adversarial network,in:Proceedings of the IEEEInternationalConference on Computer Vision,2017,pp.5688-5696.
[2]S.Mittal,M.Tatarchenko,T.Brox,Semi-supervised semanticsegmentationwith high-and low-level consistency,IEEE Transactions onPatternAnalysis and Machine Intelligence.
[3]Y.Grandvalet,Y.Bengio,Semi-supervised learning by entropyminimization,Advances in neural information processing systems 17(2004)529-536.
[4]K.Sohn,D.Berthelot,C.-L.Li,Z.Zhang,N.Carlini,E.D.Cubuk,A.Kurakin,H.Zhang,C.Ra el,Fixmatch:Simplifying semi-supervised learningwith consistencyand confidence,arXiv preprint arXiv:2001.07685.
[5]S.Laine,T.Aila,Temporal ensembling for semi-supervised learning,arXiv preprint arXiv:1610.02242.
[6]A.Tarvainen,H.Valpola,Mean teachers are better role models:Weightaveragedconsistency targets improve semi-supervised deep learning results,in:Advances in neural information processing systems,2017,pp.1195–1204.
[7]C.R.Qi,H.Su,K.Mo,L.J.Guibas,Pointnet:Deep learning on pointsetsfor 3d classification and segmentation,in:Proceedings of the IEEEconferenceon computer vision and pattern recognition,2017,pp.652–660.
[8]C.R.Qi,L.Yi,H.Su,L.J.Guibas,Pointnet++:Deep hierarchicalfeaturelearning on point sets in a metric space,Advances in neuralinformationprocessing systems 30(2017)5099–5108.
[9]F.J.Lawin,M.Danelljan,P.Tosteberg,G.Bhat,F.S.Khan,M.Felsberg,Deepprojective 3d semantic segmentation,in:International Conferenceon ComputerAnalysis of Images and Patterns,Springer,2017,pp.95–107.
[10]A.Milioto,I.Vizzo,J.Behley,C.Stachniss,Rangenet++:Fast andaccuratelidar semantic segmentation,in:2019 IEEE/RSJ InternationalConferenceon Intelligent Robots and Systems(IROS),IEEE,2019,pp.4213–4220.
[11]B.Graham,M.Engelcke,L.Van Der Maaten,3d semantic segmentationwithsubmanifold sparse convolutional networks,in:Proceedings of theIEEEconference on computer vision and pattern recognition,2018,pp.9224–9232.
[12]A.Dai,A.X.Chang,M.Savva,M.Halber,T.Funkhouser,M.Nieβner,Scannet:Richly-annotated 3d reconstructions of indoor scenes,in:Pro-ceedings of theIEEE Conference on Computer Vision and Pattern Recog-nition,2017,pp.5828–5839.。
Claims (1)
1.一种基于神经网络的半监督三维点云语义分割方法,其特征在于,采用半监督学***均得到;
三维点云语义分割的具体步骤如下:
步骤1:划分训练数据集
监督学习的训练样本由有标注数据和无标注数据两部分组成;对于已有的有标注数据集,划分出一定比例的有标注训练样本,剩下的部分去除标签作为无标注训练样本;或者自行收集有标注训练样本和无标注训练样本;这里,有标注样本中所包含的物体类包含所有待分割的物体类别;
步骤2:网络预训练
使用步骤1中划分或收集得到的有标注数据对教师网络和学生网络使用的主干网络进行预训练,预训练过程采用全监督方式;训练过程中采用的损失函数为标准的交叉熵损失函数;
步骤3:网络训练
输入到网络中的有标注点云样本和无标注点云样本分别记为 其中xi∈Rp×6表示每个训练样本含有的p个点以及它的坐标和颜色信息;一批训练样本记为xl∪xu,其经过缩放、旋转变换后的版本记为xl∪xu和分别作为学生网络和教师网络分支的输入,它们对应的输出分别记为和
其中,ωc是一致性权重参数;
θ′t=αθ′t-1+(1-α)θt
θ′t、θt分别记为第t次迭代教师网络和学生网络的权重,α是一个权重超参数;
步骤4:网络推理
网络推理时使用经过训练的教师网络或学生网络均可得到理想的三维点云语义分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764019.3A CN113657387B (zh) | 2021-07-07 | 2021-07-07 | 基于神经网络的半监督三维点云语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764019.3A CN113657387B (zh) | 2021-07-07 | 2021-07-07 | 基于神经网络的半监督三维点云语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657387A true CN113657387A (zh) | 2021-11-16 |
CN113657387B CN113657387B (zh) | 2023-10-13 |
Family
ID=78477165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110764019.3A Active CN113657387B (zh) | 2021-07-07 | 2021-07-07 | 基于神经网络的半监督三维点云语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657387B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114187446A (zh) * | 2021-12-09 | 2022-03-15 | 厦门大学 | 一种跨场景对比学习的弱监督点云语义分割方法 |
CN115082800A (zh) * | 2022-07-21 | 2022-09-20 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分割方法 |
CN115131366A (zh) * | 2021-11-25 | 2022-09-30 | 北京工商大学 | 基于生成式对抗网络和半监督领域自适应的多模态小目标图像全自动分割方法及*** |
CN116012840A (zh) * | 2022-11-21 | 2023-04-25 | 浙江大学 | 一种基于主动学习和半监督的三维点云语义分割标注方法 |
WO2023116635A1 (zh) * | 2021-12-24 | 2023-06-29 | 中国科学院深圳先进技术研究院 | 一种基于互学习的半监督医学图像分割方法及其*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087303A (zh) * | 2018-08-15 | 2018-12-25 | 中山大学 | 基于迁移学习提升语义分割模型效果的框架 |
US20190108639A1 (en) * | 2017-10-09 | 2019-04-11 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Semantic Segmentation of 3D Point Clouds |
KR20190138238A (ko) * | 2018-06-04 | 2019-12-12 | 삼성전자주식회사 | 딥 블라인드 전의 학습 |
CN111489358A (zh) * | 2020-03-18 | 2020-08-04 | 华中科技大学 | 一种基于深度学习的三维点云语义分割方法 |
CN111862171A (zh) * | 2020-08-04 | 2020-10-30 | 万申(北京)科技有限公司 | 基于多视图融合的cbct与激光扫描点云数据牙齿配准方法 |
CN112085821A (zh) * | 2020-08-17 | 2020-12-15 | 万申(北京)科技有限公司 | 一种基于半监督的cbct与激光扫描点云数据配准方法 |
US20210004974A1 (en) * | 2019-07-06 | 2021-01-07 | Toyota Research Institute, Inc. | Systems and methods for semi-supervised depth estimation according to an arbitrary camera |
CN112233124A (zh) * | 2020-10-14 | 2021-01-15 | 华东交通大学 | 基于对抗式学习与多模态学习的点云语义分割方法及*** |
-
2021
- 2021-07-07 CN CN202110764019.3A patent/CN113657387B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190108639A1 (en) * | 2017-10-09 | 2019-04-11 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Semantic Segmentation of 3D Point Clouds |
KR20190138238A (ko) * | 2018-06-04 | 2019-12-12 | 삼성전자주식회사 | 딥 블라인드 전의 학습 |
CN109087303A (zh) * | 2018-08-15 | 2018-12-25 | 中山大学 | 基于迁移学习提升语义分割模型效果的框架 |
US20210004974A1 (en) * | 2019-07-06 | 2021-01-07 | Toyota Research Institute, Inc. | Systems and methods for semi-supervised depth estimation according to an arbitrary camera |
CN111489358A (zh) * | 2020-03-18 | 2020-08-04 | 华中科技大学 | 一种基于深度学习的三维点云语义分割方法 |
CN111862171A (zh) * | 2020-08-04 | 2020-10-30 | 万申(北京)科技有限公司 | 基于多视图融合的cbct与激光扫描点云数据牙齿配准方法 |
CN112085821A (zh) * | 2020-08-17 | 2020-12-15 | 万申(北京)科技有限公司 | 一种基于半监督的cbct与激光扫描点云数据配准方法 |
CN112233124A (zh) * | 2020-10-14 | 2021-01-15 | 华东交通大学 | 基于对抗式学习与多模态学习的点云语义分割方法及*** |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131366A (zh) * | 2021-11-25 | 2022-09-30 | 北京工商大学 | 基于生成式对抗网络和半监督领域自适应的多模态小目标图像全自动分割方法及*** |
CN114187446A (zh) * | 2021-12-09 | 2022-03-15 | 厦门大学 | 一种跨场景对比学习的弱监督点云语义分割方法 |
WO2023116635A1 (zh) * | 2021-12-24 | 2023-06-29 | 中国科学院深圳先进技术研究院 | 一种基于互学习的半监督医学图像分割方法及其*** |
CN115082800A (zh) * | 2022-07-21 | 2022-09-20 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分割方法 |
CN115082800B (zh) * | 2022-07-21 | 2022-11-15 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分割方法 |
CN116012840A (zh) * | 2022-11-21 | 2023-04-25 | 浙江大学 | 一种基于主动学习和半监督的三维点云语义分割标注方法 |
CN116012840B (zh) * | 2022-11-21 | 2023-08-18 | 浙江大学 | 一种基于主动学习和半监督的三维点云语义分割标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113657387B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Lego: Learning edge with geometry all at once by watching videos | |
CN113657387B (zh) | 基于神经网络的半监督三维点云语义分割方法 | |
Melekhov et al. | Dgc-net: Dense geometric correspondence network | |
Liu et al. | Deep learning markov random field for semantic segmentation | |
CN108229479B (zh) | 语义分割模型的训练方法和装置、电子设备、存储介质 | |
EP3608844A1 (en) | Methods for training a crnn and for semantic segmentation of an inputted video using said crnn | |
Bansal et al. | Pixelnet: Towards a general pixel-level architecture | |
JP6395158B2 (ja) | シーンの取得画像を意味的にラベル付けする方法 | |
CN105095862B (zh) | 一种基于深度卷积条件随机场的人体动作识别方法 | |
Li et al. | Traffic scene segmentation based on RGB-D image and deep learning | |
Sun et al. | Efficient spatial-temporal information fusion for lidar-based 3d moving object segmentation | |
CN113657560B (zh) | 基于节点分类的弱监督图像语义分割方法及*** | |
CN108241854B (zh) | 一种基于运动和记忆信息的深度视频显著性检测方法 | |
CN113408584A (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
Károly et al. | Optical flow-based segmentation of moving objects for mobile robot navigation using pre-trained deep learning models | |
Ding et al. | Global relational reasoning with spatial temporal graph interaction networks for skeleton-based action recognition | |
CN104463962B (zh) | 基于gps信息视频的三维场景重建方法 | |
CN115482387A (zh) | 基于多尺度类别原型的弱监督图像语义分割方法及*** | |
CN116310128A (zh) | 基于实例分割与三维重建的动态环境单目多物体slam方法 | |
Qin et al. | Depth estimation by parameter transfer with a lightweight model for single still images | |
CN113223037B (zh) | 一种面向大规模数据的无监督语义分割方法及*** | |
Zhang et al. | Small target detection based on squared cross entropy and dense feature pyramid networks | |
Dhingra et al. | Border-seggcn: Improving semantic segmentation by refining the border outline using graph convolutional network | |
He et al. | Building extraction based on U-net and conditional random fields | |
Zhang et al. | Dyna-depthformer: Multi-frame transformer for self-supervised depth estimation in dynamic scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |