CN116206306A - 一种类间表征对比驱动的图卷积点云语义标注方法 - Google Patents

一种类间表征对比驱动的图卷积点云语义标注方法 Download PDF

Info

Publication number
CN116206306A
CN116206306A CN202211672129.8A CN202211672129A CN116206306A CN 116206306 A CN116206306 A CN 116206306A CN 202211672129 A CN202211672129 A CN 202211672129A CN 116206306 A CN116206306 A CN 116206306A
Authority
CN
China
Prior art keywords
point
semantic
point cloud
neighborhood
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211672129.8A
Other languages
English (en)
Inventor
王旭哲
杨俊涛
李滨
杜俊健
陶昭彤
乔丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN202211672129.8A priority Critical patent/CN116206306A/zh
Publication of CN116206306A publication Critical patent/CN116206306A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种类间表征对比驱动的图卷积点云语义标注方法,属于摄影测量技术领域,用于进行点云的语义标注,本发明设计了一种几何结构编码模块,以此来描述各点邻域范围内的几何特征;利用一种几何结构与语义特征融合图卷积模块,在层间依靠堆叠的传递边卷积提取中心点与邻域各点间特征关系,并依靠自注意力机制将边特征信息聚合至对应中心节点内;与此同时将各编码层中几何结构编码信息进行多层间传递,从而为邻近点语义关系的挖掘提供更丰富的空间基础;采用一种类间表征对比和交叉熵损失协同驱动的多任务优化策略,使得在高维度语义特征空间中相同类别点特征距离更近,而不同类别点特征距离更远,从而得到具有更丰富语义表达能力的点特征。

Description

一种类间表征对比驱动的图卷积点云语义标注方法
技术领域
本发明公开一种类间表征对比驱动的图卷积点云语义标注方法,属于摄影测量技术领域。
背景技术
随着三维数据采集技术的高速发展,三维激光雷达***以其快速、直接、高精度获取地表三维空间信息的优势,成为当前不可或缺的三维数据获取手段,目前已被广泛应用于自动驾驶、计算机视觉、机器人等前沿领域。离散三维点云数据是三维激光雷达***获取的应用最为广泛的数据形式,鉴于其只包含三维空间的位置信息而不承载语义信息,因此离散三维点云语义标注是其后续应用的基础性工作。其语义标注的基本原理是利用计算机对不同地物在三维点云数据中所反映的不同特征进行定量分析,把每个点划归为若干个类别中的某一种,从而建立离散三维点云与其语义标签的关联机制。
由于离散三维点云数据具有无序性和非结构化的特性,难以利用传统的卷积神经网络处理,最初通过将离散三维点云数据离散化处理为规则的数据格式,如体素、多视图等。基于体素化的方法是在将点云体素化表达的基础上对其进行三维(3D)卷积运算,体素化虽解决了点云的无序性和非结构化等问题,但在体素化表达过程中会造成信息损失,并且体素格式会占用大量内存;基于多视图的方法则是将3D点云投影至多个视图中,在此基础上进行二维(2D)卷积,最后将2D语义分割结果再投影回3D空间,在信息转换过程中同样会造成严重的几何结构等信息损失,难以获得满意的语义标注结果。PointNet作为首个直接对点处理的语义分割模型,它开创性的使用T-Net、最大池化结构分别解决了点云旋转不变性以及点云的无序性,此外,还通过堆叠权重共享的多层感知器(MLP)将点云三维坐标信息提取、表达至更高维度的语义信息。然而,该网络仅在每个点上独立应用对称函数来提取点云的逐点特征,忽略了三维点间语义相关性,导致语义标注质量较低。
发明内容
本发明的目的在于公开一种类间表征对比驱动的图卷积点云语义标注方法,解决现有技术中语义标注结果精度低的问题。
一种类间表征对比驱动的图卷积点云语义标注方法,包括:
S1.利用几何结构编码描述点云邻域结构;
S2.将各编码层中几何结构编码信息进行多层间传递,依据不同感受野下的几何结构信息为邻近点语义关系的挖掘提供更丰富的空间基础;
S3.结合结构信息与语义特征融合图卷积模块,以邻域图结构为基础,在局部邻域范围内,通过传递边卷积以及注意力池化实现邻域信息的层内提取与传递,利用几何结构信息充分挖掘相邻点间的语义相关性,不断丰富语义特征信息;
S4.以类间表征对比作为驱动,利用对比损失函数使相同类别高维度语义特征在特征空间中聚集,使不同类别点语义特征尽可能远离,使用类间表征对比损失和交叉熵损失熵协同驱动优化策略对分类结果利用梯度反向传播进行训练;
S5.构建点云语义标注网络模型,利用点云语义标注网络模型进行三维点云数据的语义标注测试实验。
S1包括:定义一个张量P=[p1,p2,…,pi]T来表示空间中的点云,其中pi表示第i个点,为每一个中心点建立局部邻域,构建K邻近算法搜寻距离每个中心点最近的K个点,采用欧氏距离为距离度量方式,得到第i个点的局部邻域[p1,p2,…,pn],空间位置编码ri为:
Figure BDA0004016018990000021
其中/>
Figure BDA0004016018990000022
表示每个中心点所对应的K个邻域点,‖‖表示中心点与其邻域点的欧氏距离,[…]表示在特征维度上进行级联操作,获取到的点云几何结构信息r,该张量大小可表示为/>
Figure BDA0004016018990000023
其中/>
Figure BDA0004016018990000024
表示特定形状大小的张量,N表示点云数量,10表示由空间位置编码所描述的特征维度,其表述的特征是邻域范围内的,通过注意力池化操作实现点云特征信息在邻域内的聚合,得到各个点对应几何结构编码g,该张量大小可表示为/>
Figure BDA0004016018990000025
设gm为第m层中得到几何结构编码信息,经过前层几何结构编码传递后得到包含不同感受野点云几何结构编码gm′:gm′=[g1,DS(gm-1),…,DS(gm)],其中,DS表示下采样操作;
点云语义特征表示为F=[f1,f2,…,fn],将第m层gm′与语义特征D在特征维度上进行级联后,输入结构信息与语义特征融合图卷积模块,结果表示为:G=[gm′,F]。
结构信息与语义特征融合图卷积模块包括传递边卷积层、注意力池化层和残差堆叠图卷积。
所述传递边卷积层进行信息传递的过程包括:
S2.1.构建图模型,以KNN获取每个点最邻近的K个点的索引,并建立中心点与邻域点间的有向边;
S2.2.获取边向量,在建立有向边时使用富有语义信息的特征向量和具有邻域结构的几何编码信,边向量表示为:
Figure BDA0004016018990000026
其中Gi表示第i个点对应的几何结构编码,
Figure BDA0004016018990000027
表示第i个点对应邻域下第j个点的几何结构编码,/>
Figure BDA0004016018990000028
则表示第i个点与对应邻域下第j个点间有向边信息;
S2.3.提取边特征,将边向量通过三层连续堆叠的多层感知机MLP提取边属性特征;
S2.4.聚合边属性特征,使用自注意力机制自主的学习重要的邻域特征,最大程度上表征其所蕴含的邻域信息,最终结果表示为:Fi=hΘ(AttPool(Ei)),其中,AttPool表示注意力池化操作,Ei表示第i个点与其邻域点所对应的边属性特征,Fi表示边特征聚合后第i个点富有语义信息的特征向量。
所述注意力池化层包括:
给定邻域边属性特征Ei,在邻域维度下同时具有归一化特性的注意力得分score通过下式计算:score=δ(w,Ei),其中,w表示一组权重共享的权重,δ表示用以归一化注意力得分权重的softmax激活函数以及单层MLP;
所学习的注意力得分视为自动选择重要的潜在特征的掩膜,将注意力得分与对应中心点边属性特征进行逐一对应元素相乘,生成一组加权特征,对加权特征进行求和运算得到具有局部代表性的中心点特征
Figure BDA0004016018990000031
所述残差堆叠图卷积包括:
利用堆叠连续的传递边卷积层,通过邻域间特征聚合与传递,在不改变邻域点数量下,不断扩大点云感受野;并利用残差连接,共同组成残差堆叠图卷积。
点云语义标注网络模型包含4层下采样层,模型输入原始点云数量为45056,其对应语义特征维度为8,每次下采样后得到点的数量分别为11264、2816、704、176,而与之对应的语义特征维度分别为16、64、128、256;
下采样过程中,直接在原始点云内随机选取部分,设第i层采样前的点云为εi,采样后的点云为εi+1,首先以εi+1为中心点在εi中寻求局部邻域,得到
Figure BDA0004016018990000032
用邻域特征来表征中心点特征,使用最大池化聚合邻域特征信息,将未采样点的特征信息充分挖掘并整合至采样点中,减少点云在下采样过程中造成的信息丢失。
上采样使用较为轻便的最近邻插值方法,并借助于跳跃连接结构将高层次中丰富的语义特征信息与低层次中丰富的空间结构信息融合;
上采样也经过4层,其各层对应的点云数量分别为704、2816、11264、45056,其对应语义特征维度分别为256、128、32、32,通过上采样获得的原始点的语义特征信息,随后经过多个全连接层得到每个点在各个类别上的得分。
所述以类间表征对比作为驱动的对比损失函数为:
Figure BDA0004016018990000033
其中μv表示网络末层提取的对应于特定类别v的高维度语义特征向量,δi则表示不断更新的在第i个类别上的平均特征向量,D(·)这里选用欧式距离作为距离量测的标准,Δ表示特征向量之间相似程度;最终损失函数为:Ltotal=λ×Lcont+Lcro,λ为3.0,其中Lcro表示交叉熵损失函数。
相对比现有技术,本发明具有以下有益效果:采用一种类间表征对比和交叉熵损失协同驱动的多任务优化策略,以实现点云空间上下文语义信息的汇聚融合,以生成区分能力强的高层次语义特征表达。同时使得同类语义特征在高维空间中距离更近而不同类语义特征距离更远,进而提升语义特征的描述能力和判别能力。本发明有效地改善了三维点云语义标注的质量和效率,也为后续三维点云数据语义特征表达的深入探索提供理论支撑。
附图说明
图1是本发明的技术流程图。
图2为点云语义标注网络模型结构图。
图3为几何结构与语义特征融合图卷积模块结构图。
图4为残差-堆叠膨胀卷积模块感受野增大示意图。
图5为不同感受野下几何结构编码信息所造成差异示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明技术流程如图1。本发明主要针对无人车大场景下的语义标注算法的研究。在具体实施过程中,选用了采集于德国卡尔斯鲁厄周围的高速公路场景和乡村道路的SemanticKITTI数据集。该数据集提供23201个完整的3D扫描帧用于训练和20351帧用于测试,且每一帧点云数量超过105,是目前公开可用的最大数据集。该数据集使用汽车激光雷达Velodyne HDL64E扫描生成360度视野提供密集点云序列,对于验证点云语义标注网络(网络如图2所示)性能有着明显的优势。并且数据集分为22个序列,其中00-07,09-10场景为训练集,08场景数据为验证集,11-20场景为测试集。并且该3D点云数据包括X-Y-Z三维坐标和反射强度信息,不包含RGB信息,使得对于该数据集的点云语义标注任务更加具有挑战性。
点云是一系列无序的点集合,一个含有N个点的点云集合可以由两部分表征:由3D传感器所获取的三维空间中所固有的坐标
Figure BDA0004016018990000041
由卷积网络(CNN)获取到的蕴含语义信息的特征向量/>
Figure BDA0004016018990000042
其中C表示特征维度。虽然坐标信息P相较于语义特征向量F缺乏语义信息,无法对最终分类任务提供语义支撑,但坐标信息是语义信息提取的基础,并且随着网络层数的加深,语义特征会因为映射至高维度而缺乏点云几何坐标信息,从而造成分类精度下降。因此,充分利用点云坐标信息以及语义特征,提取到蕴含信息更为丰富的点云特征图,是提升语义分割精度的关键。
首先将点云坐标信息通过单层的多层感知器(MLP)以初步提取语义信息,其中包括一层1x1的卷积层、一层批标准化以及一层激活函数ReLU。通过K邻近点法搜寻各个点的邻域信息。接着将点云三维坐标信息经过空间位置编码以得到具有中心点与邻域各点间空间位置关系编码r,其张量大小可表示为
Figure BDA0004016018990000051
其中10表示由空间位置编码所描述的特征维度。
为充分捕捉点云细粒度特征,通过注意力池化实现邻域内位置编码信息的聚合,将位置编码信息r通过一层全连接层自主学习有用潜在特征掩模,即注意力得分,随后将注意力得分与局部邻域特征进行对应元素相乘,从而得到由局部代表性的特征,从而避免信息聚合过程中邻域重要几何信息的丢失,最终得到几何结构编码g,其张量大小可表示为
Figure BDA0004016018990000052
与此同时,考虑到在编码层中,由于下采样的进行,会导致采样点的邻域点信息会随之改变(如图5所示)。并且随着采样层数的加深,对应中心点的感受野不断增大。而在深层次中,由于其感受野要远大于第一层,虽然蕴含着语义层次更高且更为丰富的特征信息,但不可避免地会导致局部细节、几何结构的丢失。因此,通过将不同层次的空间位置编码信息进行多层间的传递,从而使得编码层中邻域几何信息更为丰富,同时包含不同感受野下的邻域几何结构信息,从而为离散三维点云相邻点之间的语义相关性的挖掘提供了空间基础。
此时将来自于几何结构编码信息多层间传递的几何信息与当前g以及对应点的语义特征信息f在特征维度上进行级联,得到G以输入GSAGCN模块中。
图卷积首先把数据构造成带有顶点和边的图结构,以图结构数据为基础,对节点信息、边信息或整个图结构进行特征提取。由于每个节点会受到其邻居节点状态的影响,因此点云在图卷积过程中更有利于局部邻域信息的提取与表达。
本发明以邻域图结构为基础,在局部邻域范围内,通过传递边卷积以及注意力池化实现邻域信息的层内提取与传递,利用几何结构信息充分挖掘相邻点间的语义相关性,不断丰富语义特征信息。不同于二维栅格图像,在某一特定场景下的三维点云是离散的、无序的,点与点之间没有明确的拓扑关系。而对于在欧氏空间中相邻近的点,通常具有相互作用关系。并且对于某一点而言,与其数个相邻近点所形成的几何结构便是点云邻近点语义信息挖掘的基础。基于此,本发明以KNN获取每个点最邻近的K个点的索引,并建立中心点与邻域点间的有向边。
GSAGCN中的一层传递边卷积层为:将级联后的特征信息G输入至几何结构与语义特征融合图卷积模块(结构如图3),根据点云邻域索引扩展邻域信息,建立中心点与邻域点间的有向边,从而完成邻域图结构的构建,选用中心节点与邻域各节点特征的差值作为边向量,最终可以表示为
Figure BDA0004016018990000061
其中Gi表示第i各点对应的几何结构编码,/>
Figure BDA0004016018990000062
表示第i个点对应邻域下第j个点的几何结构编码,/>
Figure BDA0004016018990000063
则表示第i个点与对应邻域下第j个点间有向边信息。目前常见的特征提取模块如多层感知器(MLP)能够灵活的表征高维度特征向量,通过一层1×1的卷积层、一层批标准化以及激活函数如ReLU或Sigmoid能够拟合复杂的非线性问题。但是由于其所包含的神经元数量有限,难以在短时间内从庞大的点云数据中挖掘想获取到的信息,从而导致拟合效果不理想。本发明堆叠了三层连续的MLP提取边属性特征,从而得到E。为了将边属性特征聚合至对应中心节点内,这里同样采用了自注意力机制自主的为各边向量特征分配注意力权重,最终通过对边属性特征按照注意力权重进行加权融合,以得到饱含细粒度、以及具有邻域代表性的节点特征。最终将聚合后的信息经过2层堆叠的MLP,对图节点信息进行提取得到特征/>
Figure BDA0004016018990000064
其中每一层MLP包括1×1的1D卷积层、批处理层以及激活函数ReLU。
在计算机视觉领域,膨胀卷积通过提升卷积核尺度以实现在不降低分辨率前提下来扩大感受野。而在本文中,利用堆叠连续的传递边卷积层,通过邻域间特征聚合与传递,在不改变邻域点数量下,不断扩大点云感受野。
当对输入特征G进行第一次传递边卷积时,此时各点感受野为对应的邻域范围数量,即为K。而当经过第二次传递边卷积时,虽此时中心点邻域数量不变,但由于其领域中的点在上一传递边卷积层中聚合了各自邻域内K个点的特征,从而使得此时各点感受野为K2(如图4所示)。
从理论上来讲,堆叠的层数越多,点云的感受野应越大,相应的各点所蕴含的语义信息也更为丰富。但感受野的不断增大同样意味着存在更多潜在的噪声点,并且感受野随着传递边卷积层堆叠的扩大速率达到了
Figure BDA0004016018990000065
此外,还综合考虑了大场景下语义分割任务运算效率以及内存问题。最终,本发明堆叠了两层传递边卷积层,并借助于残差连接,一同组成了残差-堆叠膨胀卷积网络。/>
关于下采样方法的选择,最远点采样方法虽然可以对点云有更好的覆盖面,但是对于105-106级数的点云而言,最远点采样时间复杂度为O(N2),在单个GPU上需要花费20秒左右的时间。而随机采样虽可以在时间复杂度为O(1)的情况下,实现高速采样,但易造成点云几何结构的缺失。因此,针对于大场景下的点云语义标注任务,本发明设计了一种轻便的逆密度采样方法。利用点云邻域重心与中心点距离的倒数来表征各点的密度。此外,本发明在下采样后,并没有直接舍弃掉未采样的点,因为这些点中同样也蕴含着丰富的几何及语义特征。设第i层采样前的点云为εi,而采样后的点云为εi+1,首先以εi+1为中心点在εi中寻求局部邻域,用邻域特征来表征中心点特征。最后使用最大池化聚合邻域特征信息,从而实现将未采样点的特征信息充分挖掘并整合至采样点中,以此来减少点云在下采样过程中造成的信息丢失。
本发明所使用的模型共包含4层下采样层,模型输入原始点云数量为45056,其对应语义特征维度为8。每次下采样后得到点的数量分别为11264、2816、704、176,而与之对应的语义特征维度分别为16、64、128、256。
上采样使用较为轻便的最近邻插值方法,并借助于跳跃连接结构将高层次中丰富的语义特征信息与低层次中丰富的空间结构信息融合。上采样同样经过4层,其各层对应的点云数量分别为704、2816、11264、45056,其对应语义特征维度分别为256、128、32、32。最终通过上采样获得的原始点的语义特征信息,随后经过多个全连接层得到每个点在各个类别上的得分,从而实现点云的语义分割任务。
经过上述的网络结构,点云语义特征首先经三维坐标提取变换后,又利用下采样的多层次结构,将不同感受野下的位置编码蕴含的几何结构信息与语义特征进行融合。因此,同类别间的点云语义特征向量较不同类别应更为相似。便以此为基础,利用网络末层特征向量构建对比损失函数,同时协同于交叉熵损失函数建立对比聚类与多任务交叉熵双驱动优化模型。在每次训练迭代过程中,都会将点根据类别分别存储至对应列表L内。其中,列表的每一项表示该类别最新的S个特征向量。并且每经过特定的迭代次数,会根据列表内容计算并更新各类别的平均特征向量。因此利用网络末层各点特征向量与平均特征向量作对比,二者若属于同一类别,则二者特征空间的欧式距离应更小,反之则更大。为了使得同类别间的特征向量间欧式距离不断减小,不同类间欧式距离不断增大。
对于点云的多任务分类而言,交叉熵损失函数最为常用,其具体公式如下:
Figure BDA0004016018990000071
其中yi表示网络模型预测值,
Figure BDA0004016018990000072
表示对应点的真值,V表示类别数量。交叉熵函数描述了预测概率分布与真实概率分布之间的差异,最终通过梯度反向传播不断减少交叉熵损失,实现预测概率分布不断接近真实概率分布。
交叉熵损失仅能缩小模型预测结果与真实类别间的差距,无法有效的利用点与点、类别与类别间语义特征联系。相同类别的点经过网络编码-解码结构生成的具有丰富语义信息的特征向量在特征空间中应距离的更近,因为它们具有相似的语义信息。而相反,不同类别点应距离的更远。
因此,该问题便可以抽象为一个对比聚类问题。本发明便以网络末层语义信息特征向量为基础,度量各个类别特征向量间的距离,通过将点云高维度语义特征空间中相同类别点特征距离更近,而使得不同类别点特征距离更远,即以类间表征作为驱动,构建了一种对比损失函数。
在具体的实现中,本发明首先定义了一个队列L,用于存储相应类别点的特征向量,每个类别i对应一个特征向量βi,其张量大小可表示为
Figure BDA0004016018990000081
D表示点中间层特征维度,S表示单个类别中只会存储最新的S个点。其中,在每次迭代过程中,考虑到输入点云数量众多,这里会随机选取固定数量的点用于更新队列,接着根据类别将各点特征向量拼接至对应类别β内,随后截取特征向量β的后S个以实现更新。每经过固定的Ip次迭代后,会根据队列L计算并更新各个类别平均激活特征向量/>
Figure BDA0004016018990000082
而为了防止各类别特征向量中心点在特征空间内震荡过快,在更新平均激活特征向量/>
Figure BDA0004016018990000083
时,本发明还设置了动量m,从而结果可表示为:
Figure BDA0004016018990000084
定义了如下对比损失函数:
Figure BDA0004016018990000085
其中μv表示网络末层提取的对应于类别v的高维度语义特征向量,δi则表示不断更新的在i类别上的平均特征向量,l(·,·)函数可表示为:
Figure BDA0004016018990000086
D(·)这里选用欧式距离作为距离量测的标准,Δ表示特征向量之间相似程度。
最终损失函数可以表示为:Ltotal=λ×Lcont+Lcro,这里令λ为3.0。
本发明设计的网络模型所预测出的结果已非常接近其真值,并且网络对于道路、房屋建筑、植被以及车等类别分类精度较高。虽行人、自行车等小类别物体分布较为离散,点云结构比较稀疏,但由于几何结构编码多层间传递模块以及残差堆叠图卷积使得网络通过点云不同大小感受野下特征信息的融合,对于较为稀疏、离散点云依然可以挖掘到较为完整的局部邻域结构信息。综上说明本发明提出的点云语义标注算法适用于无人车车载激光雷达室外场景的语义理解任务。
本发明选用了平均交并比以及总体精度来评价该网络模型在SemanticKITTI数据集上的性能。平均交并比计算公式如下:
Figure BDA0004016018990000087
其中,pij表示将i类别预测为j类别,pji表示将j类别预测为i类别,pii表示将i类别预测为i类别,k表示类别数量。经验证该模型平均交并比达到了59.2%,总体精度达到了91.4%,超越了传统的PointNet(14.6%)、PointNet++(20.1%),以及现有的适用于大场景点云语义标注网络Point ASNL(46.8%)、RandLA-Net(53.9%)、PolarNet(54.3%),其中括号中均表示平均交并比大小。从而证明了本发明设计的图卷积神经网络以及一种类间表征对比和交叉熵损失熵协同驱动优化策略的有效性。
以上实施例仅用于说明本发明的技术方案,而非对其限制,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,包括:
S1.利用几何结构编码描述点云邻域结构;
S2.将各编码层中几何结构编码信息进行多层间传递,依据不同感受野下的几何结构信息为邻近点语义关系的挖掘提供更丰富的空间基础;
S3.结合结构信息与语义特征融合图卷积模块,以邻域图结构为基础,在局部邻域范围内,通过传递边卷积以及注意力池化实现邻域信息的层内提取与传递,利用几何结构信息充分挖掘相邻点间的语义相关性,不断丰富语义特征信息;
S4.以类间表征对比作为驱动,利用对比损失函数使相同类别高维度语义特征在特征空间中聚集,使不同类别点语义特征尽可能远离,使用类间表征对比损失和交叉熵损失熵协同驱动优化策略对分类结果利用梯度反向传播进行训练;
S5.构建点云语义标注网络模型,利用点云语义标注网络模型进行三维点云数据的语义标注测试实验。
2.根据权利要求1所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,S1包括:定义一个张量P=[p1,p2,…,pi]T来表示空间中的点云,其中pi表示第i个点,为每一个中心点建立局部邻域,构建K邻近算法搜寻距离每个中心点最近的K个点,采用欧氏距离为距离度量方式,得到第i个点的局部邻域[p1,p2,…,pn],空间位置编码ri为:
Figure FDA0004016018980000011
其中/>
Figure FDA0004016018980000012
表示每个中心点所对应的K个邻域点,‖‖表示中心点与其邻域点的欧氏距离,[…]表示在特征维度上进行级联操作,获取到的点云几何结构信息r,该张量大小可表示为/>
Figure FDA0004016018980000013
其中/>
Figure FDA0004016018980000014
表示特定形状大小的张量,N表示点云数量,10表示由空间位置编码所描述的特征维度,其表述的特征是邻域范围内的,通过注意力池化操作实现点云特征信息在邻域内的聚合,得到各个点对应几何结构编码g,该张量大小可表示为/>
Figure FDA0004016018980000015
3.根据权利要求2所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,设gm为第m层中得到几何结构编码信息,经过前层几何结构编码传递后得到包含不同感受野点云几何结构编码gm′:gm′=[g1,DS(gm-1),…,DS(gm)],其中,DS表示下采样操作;
点云语义特征表示为F=[f1,f2,…,fn],将第m层gm′与语义特征F在特征维度上进行级联后,输入结构信息与语义特征融合图卷积模块,结果表示为:G=[gm′,F]。
4.根据权利要求3所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,结构信息与语义特征融合图卷积模块包括传递边卷积层、注意力池化层和残差堆叠图卷积。
5.根据权利要求4所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,所述传递边卷积层进行信息传递的过程包括:
S2.1.构建图模型,以KNN获取每个点最邻近的K个点的索引,并建立中心点与邻域点间的有向边;
S2.2.获取边向量,在建立有向边时使用富有语义信息的特征向量和具有邻域结构的几何编码信,边向量表示为:
Figure FDA0004016018980000021
其中Gi表示第i个点对应的几何结构编码,/>
Figure FDA0004016018980000022
表示第i个点对应邻域下第j个点的几何结构编码,/>
Figure FDA0004016018980000023
则表示第i个点与对应邻域下第j个点间有向边信息;
S2.3.提取边特征,将边向量通过三层连续堆叠的多层感知机MLP提取边属性特征;
S2.4.聚合边属性特征,使用自注意力机制自主的学习重要的邻域特征,最大程度上表征其所蕴含的邻域信息,最终结果表示为:Fi=hΘ(AttPool(Ei)),其中,AttPool表示注意力池化操作,Ei表示第i个点与其邻域点所对应的边属性特征,Fi表示边特征聚合后第i个点富有语义信息的特征向量。
6.根据权利要求5所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,注意力池化层包括:
给定邻域边属性特征Ei,在邻域维度下同时具有归一化特性的注意力得分score通过下式计算:score=δ(w,Ei),其中,w表示一组权重共享的权重,δ表示用以归一化注意力得分权重的softmax激活函数以及单层MLP;
所学习的注意力得分视为自动选择重要的潜在特征的掩膜,将注意力得分与对应中心点边属性特征进行逐一对应元素相乘,生成一组加权特征,对加权特征进行求和运算得到具有局部代表性的中心点特征
Figure FDA0004016018980000024
Figure FDA0004016018980000025
7.根据权利要求6所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,利用堆叠连续的传递边卷积层,通过邻域间特征聚合与传递,在不改变邻域点数量下,不断扩大点云感受野;并利用残差连接,共同组成残差堆叠图卷积。
8.根据权利要求7所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,点云语义标注网络模型包含4层下采样层,模型输入原始点云数量为45056,其对应语义特征维度为8,每次下采样后得到点的数量分别为11264、2816、704、176,而与之对应的语义特征维度分别为16、64、128、256;
下采样过程中,直接在原始点云内随机选取部分,设第i层采样前的点云为εi,采样后的点云为εi+1,首先以εi+1为中心点在εi中寻求局部邻域,得到
Figure FDA0004016018980000026
用邻域特征来表征中心点特征,使用最大池化聚合邻域特征信息,将未采样点的特征信息充分挖掘并整合至采样点中,减少点云在下采样过程中造成的信息丢失。
9.根据权利要求8所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,上采样使用较为轻便的最近邻插值方法,并借助于跳跃连接结构将高层次中丰富的语义特征信息与低层次中丰富的空间结构信息融合;
上采样也经过4层,其各层对应的点云数量分别为704、2816、11264、45056,其对应语义特征维度分别为256、128、32、32,通过上采样获得的原始点的语义特征信息,随后经过多个全连接层得到每个点在各个类别上的得分。
10.根据权利要求9所述的一种类间表征对比驱动的图卷积点云语义标注方法,其特征在于,对比损失函数为:
Figure FDA0004016018980000031
其中μv表示网络末层提取的对应于特定类别v的高维度语义特征向量,δi则表示不断更新的在第i个类别上的平均特征向量,D(·)这里选用欧式距离作为距离量测的标准,Δ表示特征向量之间相似程度;最终损失函数为:Ltotal=λ×Lcont+Lcro,λ为3.0,其中Lcro表示交叉熵损失函数。
CN202211672129.8A 2022-12-26 2022-12-26 一种类间表征对比驱动的图卷积点云语义标注方法 Pending CN116206306A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211672129.8A CN116206306A (zh) 2022-12-26 2022-12-26 一种类间表征对比驱动的图卷积点云语义标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211672129.8A CN116206306A (zh) 2022-12-26 2022-12-26 一种类间表征对比驱动的图卷积点云语义标注方法

Publications (1)

Publication Number Publication Date
CN116206306A true CN116206306A (zh) 2023-06-02

Family

ID=86513839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211672129.8A Pending CN116206306A (zh) 2022-12-26 2022-12-26 一种类间表征对比驱动的图卷积点云语义标注方法

Country Status (1)

Country Link
CN (1) CN116206306A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881430A (zh) * 2023-09-07 2023-10-13 北京上奇数字科技有限公司 一种产业链识别方法、装置、电子设备及可读存储介质
CN116993748A (zh) * 2023-07-31 2023-11-03 西安邮电大学 基于并行特征提取的点云语义分割方法
CN117288094A (zh) * 2023-11-24 2023-12-26 太原理工大学 基于激光传感器的掘进机实时定位***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993748A (zh) * 2023-07-31 2023-11-03 西安邮电大学 基于并行特征提取的点云语义分割方法
CN116881430A (zh) * 2023-09-07 2023-10-13 北京上奇数字科技有限公司 一种产业链识别方法、装置、电子设备及可读存储介质
CN116881430B (zh) * 2023-09-07 2023-12-12 北京上奇数字科技有限公司 一种产业链识别方法、装置、电子设备及可读存储介质
CN117288094A (zh) * 2023-11-24 2023-12-26 太原理工大学 基于激光传感器的掘进机实时定位***
CN117288094B (zh) * 2023-11-24 2024-01-26 太原理工大学 基于激光传感器的掘进机实时定位***

Similar Documents

Publication Publication Date Title
Garcia-Garcia et al. A survey on deep learning techniques for image and video semantic segmentation
US20230184927A1 (en) Contextual visual-based sar target detection method and apparatus, and storage medium
Huttunen et al. Car type recognition with deep neural networks
Li et al. A survey on semantic segmentation
CN116206306A (zh) 一种类间表征对比驱动的图卷积点云语义标注方法
Huo et al. Vehicle type classification and attribute prediction using multi-task RCNN
CN113449736B (zh) 一种基于深度学习的摄影测量点云语义分割方法
CN114120115B (zh) 一种融合点特征和网格特征的点云目标检测方法
Xiong et al. Contrastive learning for automotive mmWave radar detection points based instance segmentation
Hakim et al. Survey: Convolution neural networks in object detection
Mereu et al. Learning sequential descriptors for sequence-based visual place recognition
Yang et al. A two‐branch network with pyramid‐based local and spatial attention global feature learning for vehicle re‐identification
CN114187506B (zh) 视点意识的动态路由胶囊网络的遥感图像场景分类方法
CN117727069A (zh) 基于多尺度信息交互网络的文本-图像行人重识别方法
Saffari et al. Sparse adversarial unsupervised domain adaptation with deep dictionary learning for traffic scene classification
CN114359902A (zh) 基于多尺度特征融合的三维点云语义分割方法
Fan et al. GRC-net: Fusing GAT-based 4D radar and camera for 3D object detection
Chaturvedi et al. Small object detection using retinanet with hybrid anchor box hyper tuning using interface of Bayesian mathematics
CN117312594A (zh) 一种融合双尺度特征的草图化机械零件库检索方法
He et al. Automatic detection and mapping of solar photovoltaic arrays with deep convolutional neural networks in high resolution satellite images
Guo et al. Varied channels region proposal and classification network for wildlife image classification under complex environment
CN116503602A (zh) 基于多层级边缘增强的非结构化环境三维点云语义分割方法
Wencan et al. Segmentation of points in the future: Joint segmentation and prediction of a point cloud
CN116129234A (zh) 一种基于注意力的4d毫米波雷达与视觉的融合方法
Pei et al. Improved YOLOv5 for Dense Wildlife Object Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination