CN117523549B

CN117523549B - 基于深宽知识蒸馏的三维点云物体识别方法

Info

Publication number: CN117523549B
Application number: CN202410009182.2A
Authority: CN
Inventors: 田逸非; 陈敏; 李朋阳; 尹捷明; 吕梦婕; 周剑
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-03-29
Anticipated expiration: 2044-01-04
Also published as: CN117523549A

Abstract

本发明属于三维点云物体识别领域，公开了一种基于深宽知识蒸馏的三维点云物体识别方法，首先，选取深度学习模型作为教师模型，将原始点云数据输入教师模型进行预训练和测试，分别获取训练和测试后的特征节点、增强节点以及预测结果；其次，将训练完成后得到的数据经过知识蒸馏后作为堆叠宽度学习模型的训练样本，训练得到宽度学习分类器，最后，将教师模型测试得到的数据经过知识蒸馏得到的样本数据作为测试数据，将其输入到训练完成的宽度学习分类器中得到类标签。本发明通过将教师模型的优势迁移至堆叠宽度学习模型，从而利用知识蒸馏后的学生模型可以获得更好的分类能力，并且利用堆叠宽度模型大大降低了模型的计算量，提高了分类的速度。

Description

基于深宽知识蒸馏的三维点云物体识别方法

技术领域

本发明属于三维点云物体识别领域，具体的说是涉及一种基于深宽知识蒸馏的三维点云物体识别方法。

背景技术

点云是一个由大量离散点组成的三维数据集，这些点可以表示三维空间中的物体和场景。每个点都包含了空间坐标信息，有时还包括其它信息，如颜色、法向量等。点云通常用于捕捉现实世界中的物体或场景的几何和视觉信息，而三维点云物体的识别是计算机视觉领域的经典任务，在自动驾驶和工业零部件生产等领域都有着广泛的应用。

三维点云物体识别中最具挑战应的任务之一就是特征提取和结构信息分析，特别是在处理点云所具有的独特性质时，如无序性、不规则性等。要克服这些挑战，需要强大的方法来有效处理点云数据所固有的复杂性。

受深度学习模型在图像处理领域取得的成就的启发，许多研究人员利用卷积神经网络从点云中识别三维物体。然而，要克服点云的特殊性质，点云不能够直接输入到传统的深度卷积网络中，需要进行预处理。一些网络模型将点云转化为2D/3D规则网格，例如，多视图图像、体素，以便直接使用现有的深度学习算法来识别三维物体。但是，这些预处理步骤会可能会导致原始几何细节的明显特征丢失。因此，基于网格的算法只适用于具有明显区分性特征的物体。为了避免点云在栅格化过程中丢失特征，一些研究人员使用多层感知器（MLPs）来模拟点云特征提取中的卷积核，通过堆叠共享权重的MLP，可以获得高维度的点对点特征以及它们的邻域信息。此外，针对点云的非结构特性，一些旨在直接提取点云特征的点卷积核也得到了研究，尽管这些卷积核的特征提取能力强于MLPs，但这些模型中的参数需要耗费大量时间和内存来训练和微调。并且大多数神经网络更加注重算子设计，从而忽视了在全连接层非线性分类对物体识别性能的影响。

尽管深层的网络结构能够使网络具有强大的学习能力，然而这种结构存在着大量的超参数以及相对应的传播过程，其训练过程相当耗时。宽度学习***（BLS）是一种浅层的神经网络结构，与深度结构相比，宽度学习***减少了层和层之间的耦合，使得网络结构更为简洁。宽度学习***利用输入生成特征节点和增强节点，且特征节点和增强节点与输出层连接，其权重通过计算伪逆来获得。此外，宽度学习***是一种增量学习***，可以以增量的方式更新网络参数，及新增加特征节点、增强节点或输入数据时，网络不需要从头开始重新训练，只要计算新增加部分的权重即可，因此，相比于深度结构网络，宽度学习***具有快速高效的特点。

然而，宽度学习***作为一个浅层的神经网络，其学习能力比较有限，在面对复杂的任务时，宽度学习***的准确率不能得到很好的保证。

发明内容

为了解决上述技术问题，本发明了一种基于深宽知识蒸馏的三维点云物体识别方法，该方法通过将深度学习网络与宽度学习网络进行结合，采用知识蒸馏的方法，大幅度提升了三维点云物体识别的精度。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于深宽知识蒸馏的三维点云物体识别方法，具体包括以下步骤：

步骤1，选取深度学习网络作为教师模型，基于训练点云数据集对教师模型进行训练，利用该教师模型提取原始点云数据的区分性特征，并获取模型生成的软标签；

步骤2，构造一个n层宽度学习网络的stackKDBLS模型，将其作为学生模型，并将步骤1中获取的特征进行拼接，作为学生模型的输入；

步骤3，利用深度学习网络获取的软标签信息和点云数据的真实标签对stackKDBLS模型进行训练；

步骤4，若步骤3中的最终训练结果超过一个预定的阈值的话，则在原始的stackKDBLS模型的基础上，进一步堆叠一个宽度学习网络。

本发明的进一步改进在于：步骤1中所需要获取的区分性特征分别为全局特征和局部特征，全局特征是通过对输入的点云数据进行一系列空间变换、特征提取和池化操作获得，它代表了点云的全局性质，对点云的几何结构和特征进行了总结和提取；局部特征是首先通过确定每个点的局部邻域范围，然后对于选定的每个局部邻域，将其坐标规范化，以减小旋转、平移等变换的影响，最后通过卷积或者池化来获得，然而与全局特征不同的是，它捕捉了在深度神经网络中间层学到的更具体和抽象的特征信息，这有助于网络更全面地理解点云数据的结构和特征。

本发明的进一步改进在于：步骤2中构造的学生模型包括n个宽度学习***模块，所述n个宽度学习***模块通过残差连接堆叠，第i-1个宽度学习***模块的输出将作为第i个宽度学习***模块的输入，且第i个宽度学习***模块的输出为第1，2，…，i-1个宽度学习***模块的残差，i≤n，宽度学习***模块最后输出为n个宽度学习***模块的输出总和，每个宽度学习***模块包括特征节点、特征节点权重、增强节点和增强节点权重。

假定输入数据为x，输出数据为y，则第i个宽度学习***模块的输出为u_i为：

，

其中，和/>为特征节点与输出层的连接权重，/>为随机生成的输入与特征节点之间的权重，/>为随机生成的特征节点与增强节点之间的连接权重；/>是/>和的复合映射，其中/>为特征节点的广义函数，/>为增强节点的广义函数，，/>为映射函数，***的最终输出为：

。

和/>通过求解优化问题来获得：

，

其中，是第i个宽度学***衡系数。

优化问题通过岭回归近似来求解：

，

其中，；/>为特征节点和增强节点与输出层的连接权重，/>为单位矩阵。

本发明的进一步改进在于：通常，在分类任务中，目标标签是采用一种称为one-hot编码的方式表示，其中每个类别由一个向量表示，只有一个元素为，其余元素为0，用于表示类别。而神经网络的输出是一组称为logits的分数，这些分数尚未通过softmax函数进行归一化，因此可以包含更加丰富的信息，尤其是目标类别与其他类别之间的相似性和相关性。因此在步骤3中采取了知识蒸馏的方式，使用教师模型θ来辅助训练stackKDBLS模型。

教师模型θ的logits和预测输出为：

，

其中为输入数据，/>为教师模型的logits，/>为教师模型θ的预测输出。

若不考虑教师模型θ_i，则，其中/>为伪逆矩阵，当使用教师模型θ来协助训练stackKDBLS模型时，目标输出 />的计算方式发生变化，其计算方式转为：

，

其中，为堆叠的stackKDBLS模型的数量，/>是蒸馏温度，/>是第l个stackKDBLS模型的预测输出。这种计算方式考虑了教师模型的输出和之前stackKDBLS模型的输出，有助于传递更多的信息来训练stackKDBLS模型。

如果k=1，则无需考虑前k个stackKDBLS模型输出的汇总。

本发明的进一步改进在于：步骤5中，为了确定是否将更多的宽度学习网络堆叠到stackKDBLS模型中，使用KL散度来度量预测输出与目标输出之间的差异。其中KL散度的计算公式为：

，

如果大于预定的阈值ε，那么就会额外添加一个BLS网络，以提高模型的性能。

本发明的有益效果是：

1、本发明允许不同类型的模型之间进行知识蒸馏，即从一个复杂的深度神经网络向一个轻量级的宽度学习网络传递知识，促进模型之间的知识共享和迁移；

2、本发明能够有效的利用作为学生模型的宽度学习网络，从教师模型中更快速的、直接的学习更多知识；

3、本发明所提出的stackKDBLS模型通过该知识传递框架改善了原始点云进行三维形状识别的整体性能，它能够在相同时间和资源开销较小的情况下，获得比原始深度学习网络更高的分类精度。

附图说明

图1为本发明的基于深宽知识蒸馏的三维点云物体识别方法流程框图。

图2为基于深宽知识蒸馏模型即stackKDBLS示意图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1所示，本发明是一种基于深宽知识蒸馏的三维点云物体识别方法，具体包括以下步骤：

步骤1、选取深度学习网络作为教师模型，基于训练点云数据集对教师模型进行训练，利用该教师模型提取原始点云数据的区分性特征，并获取模型生成的软标签。

具体操作如下：

（1）选取深度学习网络模型，将原始点云数据作为模型的输入；

（2）通过深度网络模型对原始点云数据进行一系列的空间变换、特征提取和池化等操作捕捉原始点云的全局特征和局部特征；

（3）利用训练完成的深度学习网络获取软标签信息。

步骤2、构造一个具有三层宽度学习网络的stackKDBLS模型，将其作为学生模型，并将步骤1中获取的特征进行拼接，作为学生模型的输入。具体操作如下：

步骤21、对于第一个宽度学习***模块，先随机初始化权重矩阵和/>，使用、/>和/>计算得到特征节点和增强节点/>，/>，便可通过公式：

；

步骤22、计算得到输入数据与期望输出/>之间的权重/>，/>，进而通过公式：/>，得到预测输出/>；

步骤23、在第一个宽度学习***模块的基础上堆叠新的宽度学习模块，对于堆叠的第i个（i=2，3）宽度学习***模块，输出为，即上一个宽度学习***模块的输出，期望输出为：

，

同样地随机初始化权重矩阵和/>，使用/>、/>和/>计算得到特征节点和增强节点/>，/>，便可通过公式:

计算得到输入/>与期望输出/>之间的权重/>、/>；

步骤24、从而通过公式：得到预测输出/>；

步骤25、重复步骤23直到堆叠的宽度学习***模块的数量等于n，最终的预测输出为：。

步骤3、利用深度学习网络获取的软标签信息和点云数据的真实标签对stackKDBLS模型进行训练。具体操作如下：

采用知识蒸馏的方式，使用步骤1中选取的深度学习网络作为教师模型θ来辅助训练stackKDBLS模型，教师模型θ的logits和预测输出为：

，

当采用教师模型θ来协助训练stackKDBLS模型时，期望输出的计算方式发生变化，转变为：

，

其中，为蒸馏温度；

步骤4、若步骤3中的最终训练结果超过一个预定的阈值的话，则在原始的stackKDBLS模型的基础上，进一步堆叠一个宽度学习网络。具体操作如下：

为了确定是否将更多的宽度学习***堆叠到模型中，使用KL散度来度量预测输出与目标输出之间的差异。其中KL散度的计算公式为：

，

如果大于预定的阈值ε，那么就会额外添加一个宽度学习***，以提高模型的性能。

本发明通过将教师模型的优势迁移至堆叠宽度学习模型，从而利用知识蒸馏后的学生模型可以获得更好的分类能力，并且利用堆叠宽度模型大大降低了模型的计算量，提高了分类的速度。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于深宽知识蒸馏的三维点云物体识别方法，其特征在于：所述三维点云物体识别方法包括如下步骤：

步骤1.选取深度学习网络模型作为教师模型，基于训练点云数据集对教师模型进行训练，利用所述教师模型提取原始点云数据的区分性特征，并获取所述教师模型生成的软标签；

步骤2.构造一个n层宽度学习网络的stackKDBLS模型，将所述stackKDBLS模型作为学生模型，并将步骤1中获取的区分性特征进行拼接，作为学生模型的输入；

步骤3.利用步骤1深度学习网络获取的软标签信息和点云数据的真实标签对步骤2构造的stackKDBLS模型进行训练；

步骤4.若步骤3中的最终训练结果超过一个预定的阈值的话，则在原始的stackKDBLS模型的基础上，进一步堆叠一个宽度学习网络，其中：

步骤2中构造的stackKDBLS模型即学生模型包括n个宽度学习***模块，所述n个宽度学习***模块通过残差连接堆叠，第i-1个宽度学习***模块的输出将作为第i个宽度学习***模块的输入，且第i个宽度学习***模块的输出为第1，2，…，i-1个宽度学习***模块的残差，i≤n，宽度学习***模块最后输出为n个宽度学习***模块的输出总和，每个宽度学习***模块包括特征节点、特征节点权重、增强节点和增强节点权重，

所述步骤2具体包括：

其中，和/>为特征节点与输出层的连接权重，/>为随机生成的输入与特征节点之间的权重，/>为随机生成的特征节点与增强节点之间的连接权重；Q_p(·)是P(·)和Q(·)的复合映射，其中P(·)为特征节点的广义函数，Q(·)为增强节点的广义函数，vi＝g(u_i-1)，g(·)为映射函数，***的最终输出为：

2.根据权利要求1所述的基于深宽知识蒸馏的三维点云物体识别方法，其特征在于：所述步骤1具体包括如下步骤：

步骤1.1、选取深度学习网络模型，将原始点云数据作为深度学习网络模型的输入；

步骤1.2、通过深度网络模型对原始点云数据进行空间变换、特征提取和池化操作捕捉原始点云数据的全局特征和局部特征；

步骤1.3、利用训练完成的深度学习网络获取点云数据的软标签信息。

3.根据权利要求2所述的基于深宽知识蒸馏的三维点云物体识别方法，其特征在于：所述步骤1中的区分性特征分别为全局特征和局部特征，所述全局特征是通过对输入的原始点云数据进行空间变换、特征提取和池化操作获得，它代表了点云的全局性质，对点云的几何结构和特征进行了总结和提取，所述局部特征通过确定每个点的局部邻域范围，对于选定的每个局部邻域，将其坐标规范化，最后通过卷积或者池化来获得，捕捉了在深度神经网络中间层学到的更局部和抽象的特征信息。

4.根据权利要求1所述的基于深宽知识蒸馏的三维点云物体识别方法，其特征在于：所述和/>通过求解优化问题来获得：

其中，y_i是第i个宽度学***衡系数，

优化问题通过岭回归近似来求解：

其中，W_i为特征节点和增强节点与输出层的连接权重，I为单位矩阵。

5.根据权利要求1所述的基于深宽知识蒸馏的三维点云物体识别方法，其特征在于：所述步骤3具体包括：

步骤3.1、采取了知识蒸馏的方式，使用教师模型θ来辅助训练stackKDBLS模型，教师模型θ的logits和预测输出为：

Z_t＝θ(X)

Y_t＝sofymax(θ(X))

其中，X为输入数据，Z_t为教师模型的logits，Y_t为教师模型θ的预测输出；

步骤3.2、若不考虑教师模型θ，则其中(A^k)⁺为伪逆矩阵，当使用教师模型θ来协助训练stackKDBLS模型时，目标输出Y^k的计算方式发生变化，其计算方式转为：

其中，k为堆叠的stackKDBLS模型的数量，t^k是蒸馏温度，Y^l是第l个宽度学习***模块的预测输出，

如果k＝1，则Y¹＝(1-1/t)Y_GT+1/tY_t，无需考虑前k个stackKDBLS模型输出的汇总。

6.根据权利要求1所述的基于深宽知识蒸馏的三维点云物体识别方法，其特征在于：步骤4中，为了确定是否将更多的宽度学习网络堆叠到stackKDBLS模型中，使用KL散度来度量预测输出Y^k与目标输出之间的差异，其中KL散度的计算公式为：

L^k＝D_KL(Y^k||Y_GT)

如果L^k大于预定的阈值ε，那么就额外添加一个宽度学习网络，以提高模型的性能。