CN115953586A

CN115953586A - 跨模态知识蒸馏的方法、***、电子装置和存储介质

Info

Publication number: CN115953586A
Application number: CN202211239339.8A
Authority: CN
Inventors: 李镇; 颜旭; 占贺深; 郑超达; 高建焘; 崔曙光
Original assignee: Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute
Current assignee: Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2023-04-11

Abstract

本发明公开了一种跨模态知识蒸馏的方法、***、电子装置和存储介质，方法包括：渲染CAD模型或从不同视角在点云上进行透视投影，获得点云对应的3D图像的多个视图的辅助图像；将所有的辅助图像输入到图像网络中，获得3D图像的全局特征；在点云和全局特征之间进行特征增强和分类器增强，将3D图像的图像特征蒸馏至点云。本发明利用感知二维图像的全局特征，并将全局特征蒸馏至点云，能够获得更具辨别性的点云表示，解决了图像和点云之间的跨模态学习障碍的问题，另外，本发明只需要将点云作为输入数据，在没有图像输入的情况下，仍然能够进行点云的形状进行推理和识别，提升了推理时模型对目标模态的性能。

Description

跨模态知识蒸馏的方法、***、电子装置和存储介质

技术领域

本发明涉及深度学习技术领域，尤其涉及一种跨模态知识蒸馏的方法、***、电子装置和存储介质。

背景技术

点云作为一种基本的3D表示方式，在各种应用中受到越来越多的关注，如自动驾驶、机器人感知、工程测绘等。点云通常由三维空间中稀疏无序的点组成，在提供空间信息和几何信息方面具有优势，但是点云的特征保留了点云稀疏且无纹理的特征，这与二维图像中密集规则的像素数组有明显区别：二维图像通常具有丰富的色彩和细粒度的纹理，但是缺乏深度和形状方面的信息。在过去，学者们将对二维图像和三维点云的理解视为两个独立的问题。然而随着科技发展，无人驾驶汽车(或无人机)等载体开始同时搭载摄像机和LiDaAR等多种传感器，实际生产生活中亟需一种方式将对于二维图像和三维点云两者结合起来。

基于点云的3D形状识别。这类方法将原始点云作为输入直接处理(也称为基于点的方法)。基于点云的3D形状识别由PointNet开创，对每个点使用多层感知机(MLP)和最大池化层来近似置换不变集函数。随后为了提取局部特征，采用了一种基于点的局部聚合算子。具体来说，这类方法从原始点云中采样多个子点，然后通过局部聚合算子聚合每个子点的相邻特征。基于点云的3D形状识别在提供空间和几何信息方面更胜一筹，但只保留了稀疏和无纹理的特征。

基于图像的3D形状识别。由于点云是不规则且无序的,因此一些工作考虑将3D形状从不同视点投影到多个图像中(也称为基于视图的方法)，然后利用成熟的2DCNN来处理3D数据。多视图学习的一项开创性工作是MVCNN。它使用共享的CNN并行提取每个视图的特征，然后通过视图级别的最大池化层进行聚合。大多数后续工作都提出了更有效的模块来聚合视图级特征。例如，其中一些通过考虑视图之间的相似性来增强聚合特征[11,56]，而另一些则关注视点关系。基于图像的3D形状识别很容易获得丰富的色彩和细粒度的纹理，但在深度和形状感知方面存在歧义。

要解决上述问题，一种直接的方法是融合二维图像和三维点云，即根据特定任务设计特殊深度学习网络架构来融合两种数据表示的信息。然而，利用额外的图像表示需要设计一个多模态网络，它在训练和推理阶段都需要额外的图像输入。此外，额外图像的利用通常需要强大的算力，而且成对图像在推理过程中很难获得。因此，多模态学习在很多方面都遇到了瓶颈。

之前的多模态学习受到知识蒸馏(knowledge distillation，KD)的启发，通常使用T-S(teacher-student)框架来对点云和图像学习到的特征进行匹配。在一个常见的KD问题中，老师网络(teacher model)和学生网络(student model)通常在具有相同分布的相同数据集上进行训练，并且老师网络通常比学生网络取得更好的成绩。然而，实际情况是，点云和图像所表示的物体特征具有差异性，图像和点云分析模型往往学习不同的特征表示和概率分布，它们通常是互补的。直接对这些特征进行匹配通常无法获得良好的提升，甚至有时候会产生反面效果。此外，以前的知识蒸馏方法将编码器和分类器视为一个整体架构，因为教师网络和学生网络通常具有相同的组件。而点云卷积网络与图像卷积网络的编码器有明显的不同，但具有相同的分类器设计；因此就造成了图像和点云之间的跨模态学习障碍，并且推理时模型对目标模态，即3D点云的性能较低。

发明内容

本发明的主要目的在于提供一种跨模态知识蒸馏的方法、***、电子装置和存储介质，旨在解决现有技术中图像和点云之间的跨模态学习障碍，并且推理时模型对目标模态性能较低技术问题。

为实现上述目的，本发明第一方面提供一种跨模态知识蒸馏的方法，包括：渲染CAD模型或从不同视角在点云上进行透视投影，获得点云对应的3D图像的多个视图的辅助图像；将所有的所述辅助图像输入到图像网络中，获得3D图像的全局特征；在点云和所述全局特征之间进行特征增强和分类器增强，将所述3D图像的图像特征蒸馏至点云。

进一步地，所述获得3D图像的全局图像特征包括：将所有的不同视角的图像放进一个卷积网络中进行特征提取，获得一些特征向量；将所有所述特征向量通过一个聚合函数生成一个全局特征，所述全局特征包含了多视角图像中的形状信息。

进一步地，所述将所述3D图像的图像特征蒸馏至点云包括：将所述全局特征映射到欧式空间，并使用EMD距离监督所述映射的过程；通过所述全局特征在所述欧式空间内重构点云。

进一步地，所述在点云和所述全局特征之间进行特征增强和分类器增强包括：优化分类损失、优化特征增强损失和优化分类器增强损失；对优化后的分类损失、特征增强损失和分类器增强损失分配权重，获得最终损失函数。

进一步地，所述优化分类损失的方法包括：使用点编码器和分类器设计点云分析模型；点编码器生成点云特征，并将所述点云特征输入分类器来获取一个分类网络；将所述分类网络的交叉熵损失作为分类的损失函数。

进一步地，所述优化特征增强损失方法的表达公式为：

其中，L_Feature为特征增强损失，

表示

和

的EMD距离，ρ为点云数据，ρ为点云

中的任意一个点，

为点云特征通过解码器生成的点云，

为图片特征通过解码器生成的点云，

和

具有相同大小，φ：

是双射的关系。

进一步地，所述优化分类器增强损失方法的表达公式为：

L_Classifier＝D_KL(Cls^pts(F^img)||Cls^pts(F^pts))

其中，F^img为所述全局特征，F^pts为点云特征，Cls^pts(*)为分类器，D_KL(*)表示两个分布的KL散度。

本发明第二方面提供一种跨模态知识蒸馏的***，包括：辅助图像获取模块，用于渲染CAD模型或从不同视角在点云上进行透视投影，获得点云对应的3D图像的多个视图的辅助图像；全局特征获取模块，将所有的所述辅助图像输入到图像网络中，获得3D图像的全局特征；特征蒸馏模块，用于在点云和所述全局特征之间进行特征增强和分类器增强，将所述3D图像的图像特征蒸馏至点云。

本发明第三方面提供一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述中的任意一项所述跨模态知识蒸馏的方法。

本发明第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述中的任意一项所述跨模态知识蒸馏的方法。

本发明提供一种跨模态知识蒸馏的方法、***、电子装置和存储介质，有益效果在于：利用感知二维图像的全局特征，并将全局特征蒸馏至点云，能够获得更具辨别性的点云表示，解决了图像和点云之间的跨模态学习障碍的问题，另外，本发明只需要将点云作为输入数据，在没有图像输入的情况下，仍然能够进行点云的形状进行推理和识别，提升了推理时模型对目标模态的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例跨模态知识蒸馏的方法流程图；

图2为本发明实施例跨模态知识蒸馏的***框架图；

图3为本发明实施例电子装置的结构示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了缓解图像和点云之间的跨模态学习障碍，并在推理时提高模型对目标模态(3D点云)的性能，本发明使用一种跨模态知识蒸馏的方法，设计了一个新的跨模态知识蒸馏框架，并提出了相应的跨模态训练策略，框架和训练策略统称为PointCMT。PointCMT将来自图像的特征蒸馏到点云表示中。

请参阅图1，为一种跨模态知识蒸馏的方法，包括：

S101、渲染CAD模型或从不同视角在点云上进行透视投影，获得点云对应的3D图像的多个视图的辅助图像；

S102、将所有的辅助图像输入到图像网络中，获得3D图像的全局特征；

S103、在点云和全局特征之间进行特征增强和分类器增强，将3D图像的图像特征蒸馏至点云。

本实施例提出的跨模态知识蒸馏的方法，利用感知二维图像的全局特征，并将全局特征蒸馏至点云，能够获得更具辨别性的点云表示，解决了图像和点云之间的跨模态学习障碍的问题，另外，本发明只需要将点云作为输入数据，在没有图像输入的情况下，仍然能够进行点云的形状进行推理和识别，提升了推理时模型对目标模态的性能。

在一个实施例中，将

定义为点云数据，

定义为真值标签，点云对应的视角图像数据为

分别为点的个数，多视角图像个数以及图像大小]。多视角图像可以通过渲染三维CAD模型或者对原始点云投影得到。我们将图像网络以及点云网络分别定义为T-S里面的T和S，即老师网络和学生网络。我们将多模态学习定义为知识蒸馏问题，而学习的过程就是将图像模型提取到的特征传递给点云特征，以获取图像增强后的理想点云特征F^KD。

根据贝叶斯统计理论观点，我们可以将一个神经网络看作一个概率模型，例如点云分析网络(学生网络)可以被看作P(y|ρ，，θ_S)。因此为了让点云网络学习到图像特征的信息，我们可以将该问题进一步定义为最大化概率：P(F^KD|ρ，γ；θ_S，K_T)，这个概率可以衡量点云网络对于多模态信息的特征提取能力。

为了确定上述概率的下确界，本实施例先将理想图像特征F_* ^img和理想点云特征

之间的差异定义为：

于是我们有引理一：上述概率的下确界为：P(F^KD|I，γ；θ_T)+λ-g，其中λ的定义如下：

λ＝P(F_* ^img|I，γ；θ_r)-P(F^KD|I，γ；θ_T)

λ用于衡量图像网络知识蒸馏的相容性，并且在网络结构确定的情况下是一个定值。P(F^KD|I，γ；θ_T)在参数θ_T和点云网络架构确定的情况下也是定值。因此引理一为知识蒸馏问题提供了一个理论支持。

在一个实施例中，获得3D图像的全局图像特征包括：将所有的不同视角的图像放进一个卷积网络中进行特征提取，获得一些特征向量；将所有特征向量通过一个聚合函数生成一个全局特征，全局特征包含了多视角图像中的形状信息。

在本实施例中，对于每个三维物体，我们只用多视角图像作为辅助数据，整个学习过程可以被描述为：

受到二维图像网络学习过程的启发，我们将V个不同视角的图像放进一个卷积网络中进行特征提取，并获得一些特征向量，这些特征向量通过一个聚合函数A{·}生成一个全局特征F^img。这个全局特征包含了多视角图像中的形状信息。最后，我们使用这些特征和一个图像分类器Cls^img(F^img)来获取一个网络结构。

在一个实施例中，将3D图像的图像特征蒸馏至点云包括：将全局特征映射到欧式空间，并使用EMD距离监督映射的过程；通过全局特征在欧式空间内重构点云。

在本实施例中，一个跨模态点生成器可以被看作一个从R^D-＞R^N×3的变换，这个变换过程将从图像中获取的全局特征F^img映射到欧式空间。这个操作可以有效避免直接进行特征对齐所可能产生的潜在负面效果。为了更好地将学习到的图像的先验知识融合到点云网络中，我们使用EMD(Earth Mover’s Distance)来监督这个过程。在预训练后，CMPG通过图像相关特征表示重构点云。

在一个实施例中，在点云和全局特征之间进行特征增强和分类器增强包括：优化分类损失、优化特征增强损失和优化分类器增强损失；对优化后的分类损失、特征增强损失和分类器增强损失分配权重，获得最终损失函数。

在本实施例中，模型的训练过程中，需要优化三个损失：分类损失L_CE、特征增强损失L_Feature、分类器增强损失L_classifier。

在分配权重时，具体规则如下：

L＝L_CE+αL_Feature+βL_Classifier

在本实施例中，α＝30，β＝0.3。

在一个实施例中，优化分类损失的方法包括：使用点编码器和分类器设计点云分析模型；点编码器生成点云特征，并将点云特征输入分类器来获取一个分类网络；将分类网络的交叉熵损失作为分类的损失函数。

在本实施例中，在PointCMT框架下中，可以组装任意点云分析模型。一般来说，点云分析模型应该通过一个点编码器和一个分类器来设计，其中点编码器取一个点云作为输入，这个点编码器生成点云特征F^pts并将其输入分类器Cls^pts(*)获取一个分类网络。最后，交叉熵损失L_cE作为分类的损失函数。

在一个实施例中，优化特征增强损失方法的表达公式为：

其中，L_Feature为特征增强损失，

表示

和

的EMD距离，ρ为点云数据，ρ为点云

中的任意一个点，

为点云特征通过解码器生成的点云，

为图片特征通过解码器生成的点云，

和

具有相同大小，φ：

是双射的关系。

在一个实施例中，除了通过上述图像增强损失来监督点云特征提取器，我们还提出对于点云分类器的约束。首先，通过老师网络提取到的二维图像特征作为输入进入三维点云分类器，并且只对点云网络进行梯度的反向传播。此外，为了提高点云网络对于图像特征的提取能力，我们提出了分类器增强模式。其损失可以表述为：

L_Classifier＝D_KL(Cls^pts(F^img)||Cls^pts(F^pts))

其中，F^img为全局特征，F^pts为点云特征，Cls^pts(*)为分类器，D_KL(*)表示两个分布的KL散度。

在一个实施例中，还对本发明提供的跨模态知识蒸馏的方法进行了验证，包括ModelNet40上的形状分类，ScanObjectNN的形状分类。

ModelNet40上的形状分类验证如下：

首先在合成数据集ModelNet40上评估我们的大规模的3D CAD模型数据集PointCMT。

数据集描述和处理：ModelNet40由40个类别的9,843个训练模型和2,468个测试模型组成。和PointNet一样，3D网络的输入是由官方数据集提供的点云。图像网络的输入是RotationNet中所使用的CAD模型中的20个渲染视图图像，图像的分辨率为224×224。由于它们包含了网格面和光照的信息，它们可以为3D网络提供更多的信息。图3为部分点云样本和相应的多视图图像。

实施：在图像网络方面，把ImageNet上预训练的ResNet-18作为特征提取器。根据MVCNN，我们通过对视图级特征应用视图级最大池化来获得全局形状特征。最后，用一个全连接层来输出分类结果。在上述网络的训练过程中，我们使用学习率为0.01的SGD作为优化器。批大小被设置为128，训练50个epochs。之后再固定图像网络，用Adam和32批大小训练CMPG，训练50个epochs。在实践中，CMPG由三层MLP组成。对于点云分析模型，DGCNN和RS-CNN是用其官方代码中提供的训练策略独立训练的。PointNet++采用RS-CNN的策略进行训练，以获得更好的性能。

与先进技术的比较：表1是ModelNet40的分类结果，比较了总体准确率(OA)和类平均准确率(mAcc)。表的上半部分显示了目前最先进的方法的结果，其中我们使用PointNet++,RS-CNN和DGCNN作为基线模型。我们没有使用PointMLP作为基线，因为它不能稳健地重现ModelNet40上的最高结果。对于从头开始训练的模型，PointMLP取得了最高的准确性。如表的下半部分所示，在用PointCMT训练后，所有基线的性能都得到了极大的提升，即在PointNet++上有1.0％的提升，在RS-CNN上有0.9％，在DGCNN上有0.6％。我们还将我们的方法与几个开源的方法进行了比较，并报告了参数和测试速度。如表的最后两栏所示，尽管PointMLP有更多的0.1％的总体精度，但它的网络由大约7.7倍的参数构成，只达到PointNet++的46％的速度。相比之下，PointCMT在轻量级模型上表现良好，这显示了它在实时应用上的巨大潜力，例如自动驾驶中的场景解析。

表1：ModelNet40数据集的分类结果表

在本次验证中，在只有1k个点的情况下，用PointCMT训练的PointNet++在类平均精度(mAcc)和总体精度(OA)指标上都取得了最先进的结果。这里，'pnt'和'nor'分别表示点和法向量。在一个Tesla V100 GPU和四个核心的AMD EPYC [email protected] CPU上测试的速度(样本/秒)，其中

表示原始论文的结果。对于PointNet++，用RS-CNN的训练方法来训练它。最好的和次好的用粗体和下划线标记。

ScanObjectNN上的形状分类验证如下：

尽管ModelNet40是广泛使用的点云分析基准，但由于其为合成数据，可能无法满足现实的要求。为此，我们也对ScanObjectNN基准进行了实验，这是一个采自真实世界的数据集。

数据集描述和处理：ScanObjectNN从真实世界的室内场景ScanNet和SceneNN中收集了2902个对象，分为15个类别。该数据集提供了几个变体，其中最具挑战性的是PB_T50_RS，即通过随机平移、移动、旋转和缩放引入扰动对象(训练和测试的数据分别为11,416和2,882)。由于背景、噪声和遮挡，这个基准对现有的点云分析方法提出了重大挑战。此外，由于PB_T50_RS数据集只保留了每个物体的空间坐标(XYZ)，而其他信息，如RGB，被丢弃，我们还比较了原始的2,902个物体(OBJ_ONLY)，其中包括额外的RGB信息。在上述两个数据集上，我们只使用通过对原始点云进行透视投影的深度图像作为额外的输入，如图3的最后一列所示。

实施：ScanObjectNN中的所有视图图像都是通过原始点云的投影获得的，我们遵循RS-CNN的结构，只为PB_T50_RS和OBJ_ONLY生成六个图像。我们从头开始训练图像网络，批大小为32，使用SGD优化器训练1,000个epochs。CMPG的训练策略与ModelNet40相同。对于从头开始训练的点云模型和PointCMT，我们使用SGD优化器对1,000个epochs进行批次大小为32的训练。

与先进技术的比较结果见表2，其中PointNet++和目前最先进的PointMLP被选为我们的基线。PointCMT在类平均精度(mAcc)和总体精度(OA)方面的表现都有明显改善，甚至在最先进的方法上也是如此。具体来说，尽管PB_T50_RS数据集上存在背景、噪声和遮挡，但PointCMT仍将PointNet++的总体准确率提高了3.9％。此外，PointCMT在OBJ_ONLY数据集上也取得了最先进的结果。所有视图图像都是通过点坐标的透视投影生成的。尽管如此，PointCMT仍然将PointMLP的mAcc从89.4％大幅提高到92.0％(+2.6％)。

表2：对ScanObjectNN的分类表

在本次验证中，我们在原始对象(OBJ_ONLY)和更具挑战性的变体(PB_T50_RS)上检验所有方法。我们用RS-CNN的训练策略训练PointNet++和PointMLP，以进行公平的比较。最好的和次好的都用粗体和下划线标出。我们训练和测试了四次，并报告了平均值±标准差的结果。

在一个实施例中，还评估了我们在有限数据情况下的方法。在这里，我们只在ModelNet40的每个类别中抽取少量的训练数据，并评估整个测试数据。我们的PointCMT在使用少量的训练数据子集时，与从头开始训练的PointNet++相比，显示出更大的差距。特别是当面对只有2％和10％的训练数据时，我们分别取得了约1.9％和2.8％的改进。这一结果说明，PointCMT在低数据设定下为点云模型提供了更重要的指导。

表3：ModelNet40上的数据高效学习表

在本实施例中，用少量的训练数据训练PointNet++数据并使用PointCMT进行训练。

在一个实施例中，还进行了消融研究，表4总结了三个数据集的消融结果，其中我们使用PointNet++作为基线。我们首先测试PointCMT中特征增强(FE)和分类器增强(CE)的有效性。结果表明，只使用FE已经大大提升了两个数据集的性能，即在ModelNet40和ScanObjetNN上的总体准确率增加了0.4％和3.1％。仅使用分类器增强(CE)就能提高大约0.6％和2.9％的准确率。最后，当我们在训练阶段同时使用FE和CE时，它分别取得了94.4％和83.3％的最佳结果。

表4：对ModelNet40和ScanObjetNN数据集的消融研究表

在本实施例中，总体准确率(％)为衡量标准。

在一个实施例中，为了进一步验证本发明提出的跨模态知识蒸馏的方法与典型的师生结构以及其他知识蒸馏方式相比更加有效，我们在表1中对PointCMT与典型的知识转移方法进行了比较。在所有的方法中，Hinton等人[17]是知识提炼的先驱研究，而Huang等人[21]和Yang等人[55]是最近的作品。如表所示，像Hinton等人那样在两种模式之间直接对齐特征会在ModelNet40上引起负转移。这种现象在ScanObjectNN上并没有出现，因为通过点云投影的视图图像可能比CAD模型的渲染图像有更小的差距。尽管如此，与PointCMT相比，其他KD技术只取得了微小的改进。

表5：各种方法的比较表

在本实施例中，我们比较了PointNet++在ModelNet40和ScanObjectNN上获得的总体精度(OA,％)。PointNet++在ModelNet40和ScanObjectNN上获得的总体精度(OA,％)。

在一个实施例中，还比较了不同视图图像生成策略的结果。在表6中比较了结果。如表6所示，与仅使用投影相比，由CAD模型渲染的图像改善更多，因为前者提供了额外的阴影和纹理信息。相比之下，我们发现在OBJ_ONLY数据集中使用额外的颜色不能提高性能。原因是OBJ_ONLY数据集只包含2,902个物体，而使用颜色信息时，图像网络更容易过度拟合。

表6:通过不同的视图-图像生成的结果比较表

在本实施例中，比较了ModelNet40和ScanObjectNN OBJ_ONLY数据集的总体准确性(OA,％)。

因此，与多模态方法相比，我们的方法具有以下优点：(1)通用性：它可以很容易地与任意点云分析模型集成，而无需对点云分析模型结构进行修改。(2)有效性:在几种基线方法上显著提高了性能，例如，PointNet++网络在ModelNet40数据集上整体精度从93.4％提升到了94.4％。(3)高效率:我们的训练策略PointCMT只在训练阶段使用辅助图像数据。经过训练后，增强的3D模型可以在没有图像输入的情况下部署。(4)灵活性:大量的实验表明，即使使用没有颜色的渲染图像，PointCMT也具有优异的性能，因此，即使直接使用稀疏和无纹理的点云直接投影的图像时，也可以大大提高其性能。总而言之，PointCMT提供了一个方案，用于解决加强点云形状分析时无法获取渲染图像的问题。

本发明的主要贡献可归纳如下：(1)我们将点云分析的跨模态学习表述为知识蒸馏问题，利用感知2D图像的纹理和颜色获得更具辨别性的点云表示。(2)我们提出点云跨模态训练范式，即PointCMT，在训练阶段采用相应策略来提升点云模型的精度。(3)在多个数据集上的大量实验验证了本发明的有效性，其中PointCMT极大地提高了几个基线模型的精度。例如，使用PointCMT训练的PointNet++网络在ModelNet40和ScanObjectNN上分别获得1.0％和4.4％的精度提高。即使基于PointMLP网络，它在ScanObjectNN数据集上的准确率也在86.7％的基础上提高了1％。

请参阅图2，本申请实施例还提供一种跨模态知识蒸馏的***，包括：辅助图像获取模块1、全局特征获取模块2、特征蒸馏模块3；辅助图像获取模块1用于渲染CAD模型或从不同视角在点云上进行透视投影，获得点云对应的3D图像的多个视图的辅助图像；全局特征获取模块2将所有的辅助图像输入到图像网络中，获得3D图像的全局特征；特征蒸馏模块3用于在点云和全局特征之间进行特征增强和分类器增强，将3D图像的图像特征蒸馏至点云。

在一个实施例中，全局特征获取模块2包括：特征提取单元和全局特征生成单元；特征提取单元用于将所有的不同视角的图像放进一个卷积网络中进行特征提取，获得一些特征向量；全局特征生成单元用于将所有特征向量通过一个聚合函数生成一个全局特征，全局特征包含了多视角图像中的形状信息。

在一个实施例中，特征蒸馏模块3包括：映射单元和重构单元；映射单元用于将全局特征映射到欧式空间，并使用EMD距离监督映射的过程；重构单元用于通过全局特征在欧式空间内重构点云。

在一个实施例中，特征蒸馏模块3还包括：损失优化单元和权重分配单元；损失优化单元用于优化分类损失、优化特征增强损失和优化分类器增强损失；权重分配单元用于对优化后的分类损失、特征增强损失和分类器增强损失分配权重，获得最终损失函数。

在一个实施例中，损失优化单元优化分类损失的方法包括：使用点编码器和分类器设计点云分析模型；点编码器生成点云特征，并将点云特征输入分类器来获取一个分类网络；将分类网络的交叉熵损失作为分类的损失函数。

在本实施例中，在PointCMT框架下中，可以组装任意点云分析模型。一般来说，点云分析模型应该通过一个点编码器和一个分类器来设计，其中点编码器取一个点云作为输入，这个点编码器生成点云特征F^pts并将其输入分类器〖Cls〗^pts(*)获取一个分类网络。最后，交叉熵损失L_CE作为分类的损失函数。

在一个实施例中，损失优化单元优化特征增强损失方法的表达公式为：

其中，L_Feature为特征增强损失，

表示

和

的EMD距离，ρ为点云数据，ρ为点云

中的任意一个点，

为点云特征通过解码器生成的点云，

为图片特征通过解码器生成的点云，

和

具有相同大小，φ：

是双射的关系。

L_Classifier＝D_KL(Cls^pts(F^img)||Cls^pts(F^pts))

本发明提出的PointCMT的点云跨模态训练策略，通过利用一些复杂的架构和合理的标准函数，我们的PointCMT可以显着提高点云分析方法在多个基准上的性能，大大优于以前的方法。我们相信我们的工作在未来可以应用于更广泛的其他场景。例如3D语义分割和对象检测。同时，我们的方法为理解缺少严重纹理细节的3D场景提供了一种替代解决方案。它可以通过图像先验和知识转移来提高性能。

无人驾驶：无人驾驶的车辆需要搭载激光雷达扫描仪和摄像头，它们会把周围的路面情况以点云和图片的形式采集并传送回车辆，车辆需要使用采集的数据来实现实时的对周围车辆的检测，从而做出下一步决策，避免发生事故，本发明可以有效提升检测算法的精确度，提高无人驾驶技术的安全性和稳定性。

现实三维建筑重构：在搭载激光雷达和摄像头的无人机上，可以获取对于建筑的点云数据和多视角图像，运用我们提出的PointCMT，可以提高生成点云的精度，加快重建速度，对于古迹保护有重大意义。

三维合成点云数据集生成：我们提出的PointCMT架构可以运用于虚拟引擎中的仿真模拟，使用这个架构，我们可以生成更加精确的数据集以供后续研究人员使用。

其他基于激光雷达和摄像头感知的***均可适用。

本申请实施例还提供一种电子装置，请参阅图3，该电子装置包括：存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序，处理器602执行该计算机程序时，实现前述中描述的跨模态知识蒸馏的方法。

进一步的，该电子装置还包括：至少一个输入设备603以及至少一个输出设备604。

上述存储器601、处理器602、输入设备603以及输出设备604，通过总线605连接。

其中，输入设备603具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备604具体可为显示屏。

存储器601可以是高速随机存取记忆体(RAM，Random Access Memory)存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器601用于存储一组可执行程序代码，处理器602与存储器601耦合。

进一步的，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的电子装置中，该计算机可读存储介质可以是前述中的存储器601。该计算机可读存储介质上存储有计算机程序，该程序被处理器602执行时实现前述实施例中描述的跨模态知识蒸馏的方法。

进一步的，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器601(ROM，Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种跨模态知识蒸馏的方法、***、电子装置和存储介质的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。