CN116129118A

CN116129118A - 基于图卷积的城市场景激光LiDAR点云语义分割方法

Info

Publication number: CN116129118A
Application number: CN202310082361.4A
Authority: CN
Inventors: 张蕊; 孟晓曼; 金玮
Original assignee: North China University of Water Resources and Electric Power
Current assignee: North China University of Water Resources and Electric Power
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-05-16
Anticipated expiration: 2043-01-17
Also published as: CN116129118B

Abstract

本发明属于计算机视觉技术领域，公开一种基于图卷积的城市场景激光LiDAR点云语义分割方法，包括：利用基于KNN算法的图注意力卷积进行建模，通过注意力机制为不同邻节点分配不同权重，更好地聚集邻域信息；对NetVLAD算法进行改进，提出NetVLAD++算法，应用于城市场景三维地物目标的语义标识和精准提取，通过充分提取点云特征，更好地融合了局部特征和全局上下文特征，提高了网络模型分割效果；将NetVLAD++算法和基于KNN算法的图注意力卷积模型进行融合，构成一个完整的网络模型进行端到端的训练，使用训练好的模型对城市场景激光点云进行语义分割。本发明提高了城市场景点云语义分割的精度和效果。

Description

基于图卷积的城市场景激光LiDAR点云语义分割方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于图卷积的城市场景激光LiDAR点云语义分割方法。

背景技术

随着卷积神经网络技术的迅速出现，基于深度学习的语义分割精度得到了大幅度提高。深度学习已经广泛应用于二维图像的处理中，但由于三维点云数据的不规则性、无序性等特点，使其在点云语义分割上的应用仍面临着诸多挑战。目前，基于深度学习技术的三维点云语义分割方法按照数据的表现形式可分为间接基于点云的方法和直接基于点云的方法。间接基于点云的方法是将不规则点云转化为规则的结构(包括投影、体素和多视图等)，然后将转化后的数据作为网络模型的输入。该类方法可以很好地弥补卷积神经网络难以处理点云数据的缺陷，但其在转换过程中会不可避免地造成一些重要的信息的损失，因此研究者们提出了直接基于点云的方法，最具代表性的是斯坦福大学Qi提出的PointNet和PointNet++。PointNet成功解决了点云的无序性，但由于PointNet中每个点的特征都是独立学习的，因此无法捕获点之间的局部特征来提取细粒度特征。为了解决这一问题，PointNet++方法以层次结构特征来学习点云的特征，通过加深网络层，使得局部特征更加精确，但是由于其网络结构设计复杂，所以导致运算复杂度过高。

针对PointNet和PointNet++的不足，许多网络也对其进行了改进。受2D图像中使用的尺度不变特征变换的启发，PointSIFT网络通过一个方向编码单元对八个方向的信息进行堆叠和编码，然后将各个编码层获取的信息进行联合，最终得到了点的空间特征。由于增加了参数，使得该方法计算量增大；同时，其所提取的局部特征对于方向也过于敏感。Thomas等人提出了一种适用于点云的扩张卷积网络，该网络的核心部分为KPConv，取半径邻域内的点作为输入，根据空间内的点到中心的欧式距离计算每个点与其相邻点之间的权重，利用核点卷积得到每个点的新特征，其中，中心点的选取根据点在空间的位置进行特殊处理得到。由于KPConv中核点数是可以任意设置的，它比逐点卷积等固定卷积核的方法更灵活。为了加强点云之间的特征联系，Engelmann等人在PointNet的研究基础上，设计出一种将点云块分组处理的方法。首先使用多尺度块和网络块获得输入级上下文，然后将PointNet提取的逐块特征依次做合并或循环合并，以获得输出级的上下文。循环合并能够将有关场景的信息保留，很好地提升学***面目标(如桌子等)有较高的分割精度，但将点云切片化会严重影响对点之间相互关系的学习，同时也没有明确每个点的局部特征学习邻域。

图卷积方法将卷积运算与图结构相结合。图卷积神经网络能够依赖图中节点之间的信息传递来捕获图中依赖关系，在计算机视觉领域的应用越来越广泛。利用图卷积网络性质可以有效地获取点云的空间几何结构，基于图卷积的方法将点云中的每个点视为图的顶点，并为每个点的邻域图生成有向边，在空间域或频谱域中进行特征学习，以捕获3D点云的局部几何结构信息。空间域的图卷积方法通过对空间邻域点采用多层感知机来达到卷积的目的。DGCNN网络采用了一个可微模块EdgeConv来提取点云的局部几何特征。其所构建的图是动态的，在网络的每一层之后进行更新，构建新的图结构。该网络提高了分割性能，但空间变换网络的引入使得网络中可训练参数相应增加，从而增加模型的优化难度。为了减小网络模型的优化难度，LDGCNN采用DenseNet的思想，将不同的动态图的层次特征连接起来，计算出边缘信息向量，减小了网络的规模，有效地避免了梯度消失的问题。FGCN网络使用图卷积网络(GCN)将空间信息或局部邻域特征编码为对称图结构，对无向对称图中相邻点的空间排列进行编码，并将其与从2D CNN提取的特征一起传递到包含三层局部图卷积的图卷积网络，利用局部和全局特征对3D点云进行语义分割，以生成完整的分割图。该网络能够有效提高分割任务的整体性能，但与现有架构相比，需要占用更多的内存。DDGCN网络将方向和距离结合起来，进一步获取点云中的局部特征。首先，该网络以邻接矩阵的形式获取点云中的采样点，其次，通过计算每个点之间的余弦相似度，得到点云的相似度矩阵，然后选择KNN算法来提取最相似的点，形成局部邻域图，最后，对邻域图进行动态图卷积，得到点云的局部特征。该网络在分类和语义分割任务中具有较好的性能效果。

频谱域的图卷积方法将卷积定义为频谱滤波,其通过将图信号和图拉普拉斯特征向量相乘实现。SpecGCN针对PointNet++忽略相邻点之间的关系信息的问题提出了一种局部谱图卷积方法，通过在局部图上使用谱图卷积获取每个点的邻域结构信息，使用图池化递归聚类谱坐标以聚合节点特征。RGCNN基于谱图理论，将点云中的点特征看作是图上的信号，用切比雪夫多项式近似定义了对图的卷积。RGCNN通过在自身的每一层中更新图拉普拉斯矩阵自适应地捕获动态图结构信息。该方法虽然相比于传统谱图卷积降低了计算复杂度，但计算复杂度受KNN的K取值的影响波动，无法适用于大规模数据集。

目前，图卷积网络的方法考虑了点之间的几何关系，能在一定程度上的捕获局部特征。但由于特征的各向同性，标准卷积在点云语义分割中存在固有的局限性，忽略了物体的边缘轮廓结构，导致分割结果中物体轮廓差，杂散区域小。而注意力机制的基本思想是使***忽略无关信息而关注重要信息，通过神经网络算出梯度并且通过前向传播和后向反馈来学习得到注意力的权重，可以从众多信息中找到对当前任务更重要的信息。因此，图注意力网络可以通过注意力机制为不同的邻节点分配不同的权重，从而能够更好地聚集邻域信息。

发明内容

本发明的目的在于提出一种基于图卷积的城市场景激光LiDAR点云语义分割方法，以更好的提取城市场景激光点云局部和全局特征，进一步提高网络模型分割精度，解决现有网络模型点云特征提取不充分的问题。

为了实现上述目的，本发明采用以下技术方案：

一种基于图卷积的城市场景激光LiDAR点云语义分割方法，包括：

步骤1：以DGCNN网络模型为基础模型，调整各个参数值，训练初步图卷积神经网络模型；

步骤2：采用图注意力卷积对DGCNN中边卷积EdgeConv进行优化：使用注意力权重区分无向连通图中每个点的K个邻节点的重要程度，设计图注意力边卷积块Att-EdgeConv；

步骤3：利用图注意力边卷积块Att-EdgeConv对城市场景三维地物目标进行建模，训练深度图注意力卷积神经网络模型，利用训练得到的模型对城市场景激光点云进行语义分割，得到城市场景点云语义初步分割结果；

步骤4：NetVLAD算法经过归一化后忽略了局部特征间的差异，可能导致不同聚类簇中出现相似的特征分布，从而对特征分布相似的点做出错误判断，据此对NetVLAD算法进行改进，提出NetVLAD++算法，设计NetVLAD++模块；

步骤5：将NetVLAD++模块与Att-EdgeConv块融合为一个特征提取块，与所述深度图注意力卷积神经网络模型构成一个完整的模型，进行端到端的训练；

步骤6：利用训练得到的模型对城市场景激光点云进行语义分割，得到城市场景点云语义分割结果。

进一步地，所述步骤2中，按照以下方式得到无向连通图：

通过KNN算法计算城市场景激光点云中每个点与剩余所有点之间的距离，并按照升序的方式进行排序，选取前K个点作为每个点的K个最近邻，每个点与其K个邻节点构成边，从而形成无向连通图。

进一步地，所述图注意力边卷积块Att-EdgeConv具体用于：

将图注意力机制作用于DGCNN网络进行边卷积运算的过程中，计算城市场景激光点云中每个点的K个最近邻，采用注意力机制来确定K个邻节点对目标节点的重要性，为无向连通图中每个点的邻节点分配不同的注意力权重，提取出目标节点的局部结构信息，得到物体的轮廓边界特征。

进一步地，所述注意力权重是根据城市场景激光点云中每个点与其K个邻节点之间的相对位置和特征差分计算得到的，然后注意力权重与K个邻节点的特征相乘得到的特征向量作为中心点的新特征。

进一步地，采用斯坦福大学提供的大场景室内3D点云数据集(Stanford Large-Scale 3D Indoor Spaces Dataset，S3DIS)进行初步图卷积神经网络模型及深度图注意力卷积神经网络模型的训练。

进一步地，所述NetVLAD算法是用于解决端到端的场景识别问题，它将传统的局部聚合描述子向量(Vector of Locally Aggregated Descriptors,VLAD)结构嵌入到卷积神经网络中，得到了一个新的NetVLAD层。

进一步地，所述步骤4包括：将NetVLAD层的输入特征和输出特征进行连接操作，将其作为NetVLAD++算法的输出特征向量，可有效融合局部特征和全局特征，解决NetVLAD算法对局部特征描述不足的问题，完成NetVLAD++模块设计。

进一步地，采用斯坦福大学提供的大场景室内3D点云数据集(Stanford Large-Scale 3D Indoor Spaces Dataset，S3DIS)进行步骤5中最终构建模型端到端的训练。

与现有技术相比，本发明具有的有益效果：

本发明利用基于KNN算法的图注意力卷积进行建模，通过注意力机制为不同邻节点分配不同权重，更好地聚集邻域信息。充分利用地物目标的三维结构信息提高图卷积神经网络模型的感知能力，并有效利用物体的轮廓边界提高网络模型边缘提取能力，解决了点云语义分割中标准卷积由于忽略物体的边缘结构导致分割结果中物体轮廓差、杂散区域小等问题。本发明对NetVLAD算法进行改进，提出NetVLAD++算法，应用于城市场景三维地物目标的语义标识和精准提取。通过充分提取点云特征，更好地融合了局部特征和全局上下文特征，提高了网络模型分割效果。最后，本发明将NetVLAD++算法和基于KNN算法的图注意力卷积模型进行融合，构成一个完整的网络模型进行端到端的训练，使用训练好的模型对城市场景激光点云进行语义分割。总的来说，本发明提高了城市场景点云语义分割的精度和效果。

附图说明

图1为本发明实施例一种基于图卷积的城市场景激光LiDAR点云语义分割方法的流程示意图；

图2为本发明实施例基于图注意力方法提取物体的轮廓边界特征的局部技术路线图；

图3为本发明实施例基于NetVLAD++算法的局部技术路线图；

图4为本发明实施例S3DIS点云数据集的6个区域示意图，所述6个区域包含272个3D房间场景，分为13个语义类别(墙壁、桌子、椅子等)；

图5为本发明实施例点云分割结果图；其中(a)为原图，(b)为网络分割图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，一种基于图卷积的城市场景激光LiDAR点云语义分割方法，包括：

步骤4：对NetVLAD算法进行改进，提出NetVLAD++算法，设计NetVLAD++模块；

步骤5：将NetVLAD++模块与Att-EdgeConv块融合为一个特征提取块，与所述深度图卷积神经网络构成一个完整的模型，进行端到端的训练；

具体地，DGCNN网络用边卷积运算(EdgeConv)考虑了点之间的几何关系，可以在一定程度上提取点云局部特征，且DGCNN网络所构建的图是动态的，在网络每一层之后进行更新，构造新的图结构。故本实施例步骤1中以DGCNN为基础模型，对其进行精调，并在S3DIS数据集上进行预训练。

进一步地，所述步骤2中，按照以下方式得到无向连通图：

通过KNN算法计算城市场景激光点云中每个点与剩余所有点之间的距离，并按照升序的方式进行排序，选取前K个点作为每个点的K个最近邻，每个点与其邻节点构成边，从而形成无向连通图。

进一步地，所述图注意力边卷积块Att-EdgeConv具体用于：

为更好的理解本发明，进行如下具体阐述：

1，物体的轮廓边界特征提取

如图2所示，本实施例基于图注意力机制对物体的轮廓边界进行特征提取。

将图注意力机制作用于DGCNN网络进行边卷积运算的过程中，计算城市激光点云中每个点的K个最近邻，采用注意力机制来确定K个邻节点对目标节点的重要性，为无向连通图中每个点的邻节点分配不同的注意力权重，提取出目标节点的局部结构信息，解决图卷积神经网络对物体边缘轮廓描述较差的问题。

为了学习更多的三维几何信息，使用KNN算法计算每个点的K个最近邻，并形成无向连通图(V,E)，其中V∈1,2,……N是图的顶点；E∈|V|×|V|是图的边。

给定一组点云P＝{p₁，p₂，...，p_N}∈R³，用h＝{h₁，h₂，...，h_N}∈R^F来代表每个点的特征，其中F为特征的维度。对每一个点i与其邻节点的权重计算公式为：

其中Δp_ij＝p_j-p_i，Δh_ij＝M_g(h_j)-M_g(h_i)，M_g为一个维度F到M的映射函数，||为拼接操作。

可以表示M个通道上的特征

最后将其对所有的j进行Softmax操作使得所有的权重和为1，公式如下：

其中α_ij，M代表第j个点对于第i个点在第M个通道上的权重值。随后更新每个点的特征，图卷积算子的公式如下：

其中α_ij表示为M个通道上的权重{α_ij，1，α_ij，2，...，α_ij，M}，*代表逐项相乘，h′_i是经过图卷积之后的输出值，即每个点更新后的特征。

2，全局和局部特征信息融合

如图3所示，本实施例使用NetVLAD++算法融合点云全局和局部特征信息。

将NetVLAD层的输入特征和输出特征进行连接，作为NetVLAD++层的输出，进一步融合局部和全局特征，提高网络模型的分割精度。

VLAD是一种特征池化方法，存储了特征向量及聚类中心的残差。给定N个F维的局部特征{x_i}为输入，P个聚类中心{c_p}为参数，VLAD的输出V为P×F维的矩阵，再将其进一步归一化为一个向量作为全局特征。公式如下所示：

其中x_i(j)代表第i个局部特征的第j个特征值；c_p(j)代表第p个聚类中心的第j个特征值，系数a_p(x_i)计算每个局部特征到聚类中心的距离权重，把局部特征描述子x_i在每个聚类簇下的权重设为为0或1，权重为1代表该特征离某个聚类簇中心近，权重为0说明距离聚类簇中心较远。由于a_p(x_i)的不连续性，VLAD无法反向传播进行训练。

NetVLAD算法对VLAD算法的缺点进行了改良，其对系数a_p(x_i)进行Softmax操作，把局部特征描述子x_i在每个聚类簇下的权重调整为0-1之间，权重高代表该特征离某个聚类簇中心近，权重低说明离簇中心较远。对系数a_p(x_i)进行Softmax操作公式如下：

进一步将上次进行平方展开，可得到下式：

其中

b＝-α||c_p||²，α是一个正常数，控制响应随距离大小的衰减。当α→∞时，就与原VLAD的方法相同。NetVLAD算法与原始VLAD相比，具有更好的灵活性。NetVLAD算法输出的特征向量公式为：

NetVLAD算法通过求取特征点与聚类中心的残差和，整合局部特征形成全局特征描述符，而经过归一化的残差和注重于特征间的相对分布关系，忽略了特征间的差异，可能导致不同聚类簇中出现相似的特征分布，从而对特征分布相似的点做出错误判断。

为此，本实施例对NetVLAD算法进行改进，提出NetVLAD++算法，将NetVLAD层的输入特征和输出特征进行连接操作，将其作为NetVLAD++算法的输出特征向量，可以有效融合局部特征和全局特征，也可解决NetVLAD算法中的不足之处，NetVLAD++算法输出特征向量公式为：

进一步地，将NetVLAD++模块与Att-EdgeConv块融合为一个特征提取块，与所述深度图卷积神经网络构成一个完整的模型，进行端到端的训练，对其进行精调，并在S3DIS数据集上进行预训练。

如图4所示，本实施例基于图注意力机制和NetVLAD++算法对城市场景激光点云数据进行特征提取，更进一步提升网络分割精度。

综上，本发明利用基于KNN算法的图注意力卷积进行建模，通过注意力机制为不同邻节点分配不同权重，更好地聚集邻域信息。充分利用地物目标的三维结构信息提高图卷积神经网络模型的感知能力，并有效利用物体的轮廓边界提高网络模型边缘提取能力，解决了点云语义分割中标准卷积由于忽略物体的边缘结构导致分割结果中物体轮廓差、杂散区域小等问题。本发明对NetVLAD算法进行改进，提出NetVLAD++算法，应用于城市场景三维地物目标的语义标识和精准提取。通过充分提取点云特征，更好地融合了局部特征和全局上下文特征，提高了网络模型分割效果。最后，本发明将NetVLAD++算法和基于KNN算法的图注意力卷积模型进行融合，构成一个完整的网络模型进行端到端的训练，使用训练好的模型对城市场景激光点云进行语义分割。总的来说，本发明提高了城市场景点云语义分割的精度和效果。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于图卷积的城市场景激光LiDAR点云语义分割方法，其特征在于，包括：

2.根据权利要求1所述的基于图卷积的城市场景激光LiDAR点云语义分割方法，其特征在于，所述步骤2中，按照以下方式得到无向连通图：

3.根据权利要求1所述的基于图卷积的城市场景激光LiDAR点云语义分割方法，其特征在于，所述图注意力边卷积块Att-EdgeConv具体用于：

4.根据权利要求3所述的基于图卷积的城市场景激光LiDAR点云语义分割方法，其特征在于，所述注意力权重是根据城市场景激光点云中每个点与其K个邻节点之间的相对位置和特征差分计算得到的，然后注意力权重与K个邻节点的特征相乘得到的特征向量作为中心点的新特征。

5.根据权利要求1所述的基于图卷积的城市场景激光LiDAR点云语义分割方法，其特征在于，采用S3DIS数据集进行初步图卷积神经网络模型及深度图注意力卷积神经网络模型的训练。

6.根据权利要求1所述的基于图卷积的城市场景激光LiDAR点云语义分割方法，其特征在于，通过所述NetVLAD算法将传统的局部聚合描述子向量结构嵌入到卷积神经网络中，得到一个NetVLAD层。

7.根据权利要求6所述的基于图卷积的城市场景激光LiDAR点云语义分割方法，其特征在于，所述步骤4包括：将NetVLAD层的输入特征和输出特征进行连接操作，将其作为NetVLAD++算法的输出特征向量，完成NetVLAD++模块设计。

8.根据权利要求1所述的基于图卷积的城市场景激光LiDAR点云语义分割方法，其特征在于，采用S3DIS数据集进行步骤5中最终构建模型端到端的训练。