CN113870160A

CN113870160A - 一种基于变换器神经网络的点云数据处理方法

Info

Publication number: CN113870160A
Application number: CN202111060998.0A
Authority: CN
Inventors: 王旭; 曾宇乔; 金�一; 岑翼刚; 孙宇霄; 李浥东; 郎丛妍; 王涛; 冯松鹤
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-31
Anticipated expiration: 2041-09-10
Also published as: CN113870160B

Abstract

本发明提供了一种基于变换器神经网络的点云数据处理方法。该方法包括：构建三维物体对称检测模型，通过检测物体对称面/轴获取输入的点云数据的对称点，将点云数据的投影平面转换为对称结构的旋转平移操作，得到多组数据据增强后的点云图数据；通过变换器网络模型提取多组数据据增强后的点云图数据的全局特征信息和局部特征信息，得到下采样后的点云数据；结合不同的目标任务需求，构建任务驱动的任务网络模型，将下采样后的点云数据输入到任务网络模型，得到目标任务结果。本发明有效结合三维物体对称检测模型与变换器网络模型，能够在提高下采样模型鲁棒性的同时，进而具有最小化目标任务精度损失的能力，提升下采样规模和目标任务的精确度。

Description

一种基于变换器神经网络的点云数据处理方法

技术领域

本发明涉及点云数据下采样技术领域，尤其涉及一种基于变换器神经网络的点云数据处理方法。

背景技术

变换器(Transformer)是于2017年由谷歌机器翻译团队的论文《Attention isAll You Need》所提出的新的深度学习框架。深度学习领域中的变换器具有编码器-解码器(encoder-decoder)结构，包含三个主要的模块：输入数据嵌入模块(input embedding)、位置编码模块(positional encoding)、自注意力模块(self-attention)。

轨道交通***中的点云数据是由三维采集设备，如激光雷达、立体摄像头等，获取的在一个三维坐标***中的一组向量的集合，其中每个点包含三维坐标，有些还包括颜色、深度和反射强度等信息。

轨道交通***中获取的点云数据往往规模庞大，如单幅点云图的点云数量可达数十万至数百万之多，但是受限于时间、能耗等指标的制约，已有的嵌入式设备很难直接运行如此大规模的数据。与此同时，受到天气、道路颠簸、光照变化等影响，点云数据中常包含大量的噪声点，有可能严重影响数据的准确性，从而造成无人驾驶等依赖大数据规模的分析***的精确度降低。因此在实际的点云数据处理***中，常包含点云的下采样操作，即去除点云数据中的噪声点和冗余点。

数据增强包含一系列扩充已有训练样本的技术，这些技术主要分为两类：一类是传统的增强方法，如随机扩缩、旋转、抖动和平移等，另一类是基于深度学习的方法，如基于学习的训练样本迁移变换、部件重组等。应用数据增强技术的目的是扩充神经网络模型的训练样本数量，增加模型泛化性。

随着激光雷达等三维传感采样技术的发展，三维传感器在计算机视觉领域，尤其是自动驾驶、环境感知等方面发挥着越来越重要的作用。使用深度神经网络对三维点云所描述的物体或场景进行分类或分割已经成为领域内的热点问题。例如，在自动驾驶领域，车辆通常配备多个具有360°拍摄模式的三维传感器，以确保为深度神经网络捕获足够的冗余信息，使其更加准确和鲁棒。然而，以自动驾驶为代表的视觉任务对响应时间提出了很高的要求，大量未经处理的点云数据很难直接被使用，通常需要对三维点云数据进行下采样以降低数据规模、去除冗余和噪声点，从而加快运算、降低算力消耗。

目前，现有技术中的下采样方法主要分为传统方法与深度学习方法两种。传统的下采样方法以最远点采样和随机采样为代表。最远点采样的流程是以某一采样点作为起点，每次选择与其欧氏距离最远的点作为下一个采样点，如此重复操作直至选择完成总共K个取样点；随机采样则是从原始数据中随机抽取样本点，其采样策略不施加任何人为的意志。虽然传统方法可以有效降低点云数据的规模，并且一定程度下保证模型的输出精度，但是这种非任务驱动的下采样方式难以与后续的任务网络产生联系，忽略了下采样过程中对任务需求的考量，因此往往得到是次优的采样结果，难以在降低输入数据规模的同时最大程度地维持目标任务的输出精度。

基于深度学***均值为新的关键点。上述方法虽然一定程度的考虑了目标任务的需求，但是不可避免的造成了模型性能的退化。与此同时，不同深度学习框架结构也会对点云数据产生影响。基于卷积操作的点云学习网络，通常需要将点云体素化为三维网格，从而使用三维卷积神经网络进行物体学习，这种方法的缺点是计算效率与存储需求都随着精度的提升而以立方的速度急剧增加，并且在体素化的过程中破坏了点云稀疏的空间结构特征。基于点的方法的深度学习框架，如共享全连接网络，开创性的将多层感知机与最大池化操作相结合，有效降低神经网络计算与存储的开销，但是输入层会对点云进行重排序，破坏原有的点云空间分布特征，并且在隐藏层进行的矩阵乘法是将原始特征向其他维度的映射变换，也并未有效考虑点云空间结构信息。

综上所述，上述现有技术中的点云下采样方法的缺点为：现有点云下采样方法还未将变换器网络框架纳入到深度模型的设计中，同时没有将下采样规模和目标任务精确度的权衡问题简化为任务驱动的点云自注意力度量学习问题。

深度学习方法是数据驱动的，需要大量的、多样的训练样本才能提高深度网络模型的精度。对于传统二维视觉任务，公开数据集规模庞大，且质量较高，如ImageNet包含高达2.2万个类别，有超过1500万张人工注释的图像，其中至少有100万张图片带有目标物体的标定框，这为二维图像的物体分类、目标检测等视觉任务带来了巨大的便利性，研究者可以借助海量优质数据进行更多的探索。然而，现有三维点云的公开数据集规模较小，不利于深度模型的训练，例如，常用的数据集悉尼城市目标数据集(Sydney Urban ObjectsDataset)含有631个标记物体，RGB-D对象数据集(RGB-D Object Dataset)含有51个类别的300个物体，纽约大学深度数据集(NYU-Depth)含有2347个标记帧，108617个无标记帧。现有的公开数据集规模极为有限。

发明内容

本发明的实施例提供了一种基于变换器神经网络的点云数据处理方法，以实现点云数据下采样规模与点云目标任务精确度的权衡。

为了实现上述目的，本发明采取了如下技术方案。

一种基于变换器神经网络的点云数据处理方法，包括：

步骤S1、构建三维物体对称检测模型，所述三维物体对称检测模型通过检测物体对称面/轴获取输入的点云数据的对称点，利用所述对称点将所述点云数据的投影平面转换为对称结构的旋转平移操作，得到多组数据据增强后的点云图数据；

步骤S2、构建变换器网络模型，通过变换器网络模型提取所述多组数据据增强后的点云图数据的全局特征信息和局部特征信息，获取点云数据中每个点的重要程度信息，学习到下采样后的点云数据；

步骤S3、结合不同的目标任务需求，构建任务驱动的任务网络模型，将所述下采样后的点云数据输入到所述任务网络模型，所述任务网络模型进行目标任务学习，输出目标任务结果。

优选地，所述的步骤S1具体包括：

基于神经网络构建自注意力机制模块，收集和标注带有对称信息的训练样本，利用所述训练样本对所述自注意力机制模块进行训练；

通过引入多样损失函数将多个所述三维物体对称检测模型进行并联，得到构建共享自注意力模块，所述共享自注意力模块中的不同自注意力模块关注不同的目标；

基于所述共享自注意力模块构建三维物体对称检测模型，将原始点云数据P∈R^3+f输入到所述三维物体对称检测模型，在所述多样性损失函数L_var的约束下，每个自注意力模型学***面的特征信息，将原始点云数据P∈R^3+f与所有的特征信息进行串联，将串联结果输入到共享全连接网络中，实现同时学***移矩阵，其中f表示点云数据中除三维坐标的其他特征信息，所述串联操作表示为：

F_output＝concat(f_i ¹，f_i ²，…，f_i ⁹，f_i ¹⁰，P)

将所述原始点云数据与学***移矩阵相乘，得到多组投影平面为对称结构的新坐标下的数据据增强后的点云图数据。

优选地，所述的自注意力机制为点云数据中三维坐标下的每个点创建三个向量：查询向量Q、键向量K和值向量V，通过计算Q与K的乘积对输入点和点云中每个点的语义关联度进行重要度评分；

所述自注意力机函数形式化表示为：

其中y_i是经过自注意力模块产生的新的输出特征，

β和α表示逐点的特征变换操作，通过将点嵌入向量点乘神经网络训练过程中分别训练的三个特征变换矩阵得到Q、K、V三个向量,γ、θ是矩阵函数，其中γ代表计算Q与K的乘法操作；θ表示值向量的重要度分数矩阵与原始输入的点云数据的集合操作，ρ表示归一化函数。

优选地，所述的多样损失函数L_var表示如下：

i表示不同的点云图样本，w表示学习到的注意力权重，p与q表示同一共享注意力模块中不同的两个自注意力模型。

优选地，所述的共享全连接网络由三部分级联组成：多层感知机、批标准化函数和线性整流函数，所述共享全连接网络数学化表示为：

F_ouyput＝ReLU(BN(MLP(F_in)))。

优选地，所述的步骤S2具体包括：

构建包括输入嵌入模块、位置编码模块和自注意力模块的变换器网络模型，利用损失函数对所述变换器网络模型进行训练，将输入嵌入模块与位置编码模块进行合并，利用三维点云天然的位置坐标信息通过合并后的输入嵌入模块与位置编码模块对多组数据据增强后的点云图数据的空间分布进行建模；

基于多组数据据增强后的点云图数据的空间分布模型利用自注意力模型对多组数据据增强后的点云图数据进行分析，提取数据据增强后的点云图数据的全局特征信息；

构建包括抽样与分组层、卷积层的局部特征提取单元，通过抽样与分组层建立所述多组数据据增强后的点云图数据的层次化的多个点云子集，使用卷积神经网络层对所述多个点云子集进行特征提取，得到数据据增强后的点云图数据的细粒度局部特征；

所述自注意力模块将所述多组数据据增强后的点云图数据的全局特征信息和局部特征信息进行综合，选择出对任务网络的任务判别精确度贡献最大的三维点集合，得到下采样后的点云数据。

优选地，所述的利用损失函数对所述变换器网络模型进行训练包括：

对于包含n个点的输入点云图P＝{p_i∈R^3+f，i＝1，2，…，n}，变换器网络的训练目标是学习子集P_s，使得s＜n，且最小化任务采样损失L，目标函数L表示为:

其中t_i表示真实值，为了满足目标函数L的需求，引入采样正则化损失函数L_sampling，具体表式形式如下所示：

其中L_f和L_m分别表示平均和最大近邻损失，L_b表示近邻点匹配损失。

优选地，所述的步骤S3具体包括：

构建基于变换器神经网络的任务驱动的任务网络模型，将下采样后的点云数据输入到所述任务网络模型，基于所述任务网络模型设计三维物体对称检测模型和变换器网络模型，设计端到端的损失函数表示为：

L_total(P，P_s)＝αL_var(P)+βL_sampling(P，P_s)+L_task(P_s)

其中，α和β表示权重。

将所述端到端的损失函数作为三维物体对称检测模型和变换器网络模型的训练损失函数，通过神经网络固有的反向传播算法，对三维物体对称检测模型和变换器网络模型中的权重参数进行更新，不断优化三维物体对称检测模型、变换器网络模型和任务网络模型的输出精度；

通过最终优化的对称检测模型、变换器网络模型和任务网络模型对所述输入的点云数据进行下采样，将输入的下采样后的点云数据映射到特征空间，通过共享全连接层对特征空间上的点云输入特征进行学习，得到目标任务的输出结果。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提出了一种基于变换器神经网络的任务驱动的点云数据鲁棒性下采样框架。该框架有效结合三维物体对称检测模型与变换器网络模型，并级联目标任务网络，形成端到端的深度学习模型，最终达到点云数据下采样规模与点云目标任务精确度的权衡点，使得该方法能够在提高下采样模型鲁棒性的同时，进而具有最小化目标任务精度损失的能力，以此达到下采样规模和目标任务的精确度的双向提升。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于变换器神经网络的任务驱动下的点云数据鲁棒性下采样方法的处理流程图；

图2为本发明实施例提供的一种自注意力模型的具体实例化结构图；

图3为本发明实施例提供的一种三维物体对称检测模型的具体实例化结构图；

图4为本发明实施例提供的一种局部特征提取模块的具体实例化结构图；

图5为为本发明实施例提供的一种任务驱动下的变换器网络模型具体实例化结构图；

图6为本发明实施例提供的一种训练样本和对应的下采样后的点云图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

无人驾驶应用场景对三维点云分析处理的可靠性提出了更高的要求，如分类或识别网络需要具备足够高的精确度来进行可靠的判断。然而，在三维点云中远处或小体积的物体往往由较稀疏的点表示，在神经网络进行特征提取的过程中通常因为层数加深致使该物体特征丢失，导致模型漏检、误检率升高。对此，本发明实施例引入基于卷积神经网络框架的局部特征提取模块，细粒度地提取点云的细节语义信息，补充全局特征中忽略的局部特征，以提高整个下采样模型的鲁棒性。

本发明实施例借助于近年来兴起的变换器模型理论，第一次尝试将对变换器模型与目标任务网络级联在一起，将问题转化为任务驱动的点云自注意力度量学***移变换到投影为对称面的新坐标系下，以增加训练样本的规模，提高后续训练模型的泛化能力；构建变换器网络模型，尽可能多的获取丰富的点云语义信息，使得整个模型框架可以有效学习出点云中的关键点、冗余点和噪声点，从而获取数据中每个点的重要程度信息。之后，根据逐点的重要程度信息，进行基于度量的下采样，实现最小化目标任务精度损失的目的。

本发明实施例提出了一种基于变换器神经网络的任务驱动下的点云数据鲁棒性下采样框架。该框架有效结合三维物体对称检测模型与变换器网络模型，并级联目标任务网络，形成端到端的深度学习模型，最终达到点云数据下采样规模与点云目标任务精确度的权衡点，使得该方法能够在提高下采样模型鲁棒性的同时，让模型具有最小化目标任务精度损失的能力，以此达到下采样规模和目标任务的精确度的双向提升。

本发明将点云下采样算法中下采样规模和目标任务精确度的权衡问题简化为任务驱动的点云自注意力度量学***移变换到投影为对称面的新坐标系下，以增加训练样本的规模，提高后续训练模型的泛化能力；构建变换器网络模型，尽可能多地获取丰富的点云语义信息，使得整个模型框架可以有效学习出点云中的关键点、冗余点和噪声点，从而获取数据中每个点的重要程度信息。之后，根据逐点的重要程度信息，进行基于度量的下采样，实现最小化目标任务精度损失的目的。

三维空间中点云数据拥有平移不变性、旋转不变性、尺度不变性，即对点云做整体的平移、旋转、尺度变换，不会改变点云数据的真实表示和语义信息的表达。对称结构是自然界中大多数物体的基本几何属性，广泛存在于实际的轨道交通场景中，如行人、汽车、自行车等都具有广义上的对称结构，因此理解物体的对称性是深度学***面为对称结构的新坐标下的点云图。

为缓解传统下采样方法存在的采样策略与目标任务无关、噪声敏感等问题；缓解基于现有深度学习框架的下采样策略对点云空间分布特性的破坏等问题，本发明设计基于变换器神经网络的任务驱动下的点云数据鲁棒性下采样框架，充分利用自注意力模块对处理点云序列所具有的排列不变性，可以在有效提取点云全局特征的同时保护点云的空间分布特性；引入基于卷积神经网络框架的局部特征提取模块，细粒度的提取点云的细节语义信息，补充全局特征中忽略的局部特征，以提高整个下采样模型的鲁棒性，以此达到下采样模型鲁棒性和目标任务的精确度的双向提升。

本发明实施例的基于变换器神经网络的点云数据处理方法主要包含以下处理过程：

(1)构建三维物体对称检测模型。该模型基于共享注意力机制，引入多样性损失函数，促进不同注意力机制专注学***面信息，从而实现同时输出同一点云图的多组旋转平移矩阵；

(2)构建变换器网络模型。该模型由三个模块组成：局部特征提取模块、全局特征提取模块和点云重建模块。局部特征提取模块由一组级联的二维卷积神经网络组成，用于提取输入点云数据的细粒度语义特征信息。全局特征提取模块由一组级联的自注意力模块组成，用于提取输入点云数据的全局语义特征。点云重建模块级联三组共享全连接神经网络，用于将全局特征和局部特征中学习到的重要信息进行融合，然后重建包含重要程度信息的三维点云图；

(3)构建任务驱动的任务网络模型。结合不同的任务需求，将上述三维物体对称检测模型、变换器网络模型与任务模型相级联，组成端到端的一体化自学习模型框架。

本发明实施例提出的一种基于变换器神经网络的任务驱动下的点云数据鲁棒性下采样方法的处理流程图如图1所示，其具体包括以下步骤：

步骤S1：基于神经网络构建三维物体对称检测模型，该三维物体对称检测模型采用共享注意力机制，加入多样损失函数，以及收集和标注带有对称信息的训练样本。

三维物体对称检测模型通过检测物体对称面/轴获取输入的点云数据的对称点，利用所述对称点将所述点云数据的投影平面转换为对称结构的旋转平移操作，得到多组数据据增强后的点云图数据。

步骤S1-1：基于神经网络构建自注意力机制模块。

自注意力机制是计算机模仿了人类观察行为时大脑内部神经突触激活过程的方式，其将内部经验与外部感知信息进行融合对齐，从而增强感兴趣区域的观察精细度的机制。注意力机制的特有结构使其可以快速提取稀疏数据的重要特征，因此被本发明应用于具有稀疏空间分布的三维点云处理任务中，特别是点云下采样任务。自注意力模型的具体实例化结构如图2所示。自注意力机制为点云数据中三维坐标下的每个点创建三个向量：查询向量(query vector,Q)、键向量(key vector,K)、值向量(valuevector,V)。上述三个向量是计算机对计算和思考注意力的高级的抽象，然后通过计算Q与K的乘积，对输入点和点云中每个点的语义关联度进行重要度评分，分数决定了其他点对当前点的影响力，即用于判断其他点对于当前点的重要程度。

然后，利用逻辑回归函数对分数进行归一化处理，使其所有分数均为正值，且累加和为1。然后将归一化后的分数与V相乘，得到点云值向量的重要度分数矩阵。最后，利用矩阵函数将值向量的重要度分数矩阵与原始输入的点云数据进行集合操作，即可获得包含点云坐标信息与重要度信息的点云数据。将自注意力机函数形式化表示为：

其中y_i是经过自注意力模块产生的新的输出特征，

β和α表示逐点的特征变换操作，通过将点嵌入向量(pointembeddingvector)点乘神经网络训练过程中分别训练的三个特征变换矩阵，可以得到上述Q、K、V三个向量。γ、θ是矩阵函数，其中γ代表图2中计算Q与K的乘法操作；θ表示值向量的重要度分数矩阵与原始输入的点云数据的集合操作，常用函数有加法、减法、乘法、串联。δ表示点云的位置编码函数。ρ表示归一化函数，本发明具体使用softmax归一化函数。

步骤S1-2：构建共享自注意力机制模块，并引入多样性损失函数。

随着轨道交通数据中点云数据规模的不断增大，点云数据中所包含的语义信息也越来越复杂，往往单一的的注意力机制很难关注到所有重要的目标。因此本发明构建共享自注意力模块，通过并联多组S1-1步骤中的自注意力模型，使得该模块在深度学习训练过程中，每个自注意力模块都关注于特定目标，从而提高语义细节信息的特征提取能力。与此同时，为了使共享自注意力模块中不同自注意力模块可以有效关注不同的目标，而与其他注意力模块关注的目标区分开，本发明引入多样性损失函数，促进模型在学习的过程中有意识的学习多样性目标。多样性损失函数L_var表示如下：

其中i表示不同的点云图样本，w表示学习到的注意力权重，p与q表示同一共享注意力模块中不同的两个自注意力模型。

步骤S1-3：构建基于共享自注意力机制的三维物体对称检测模型结构。

基于S1-2的共享自注意力模块设计三维物体对称检测模型，具体实例化结构如图3所示。原始输入的点云数据到包含十个自注意力模块的共享自注意力模型中，在S1-2中多样性损失函数L_var的约束下，使得每个自注意力模型学***面的特征信息。然后将原始点云数据P∈R^3+f与所有的特征信息进行串联(concatenate)，将结果输入给共享全连接网络中，实现同时学***移矩阵。其中f表示点云数据中除三维坐标的其他特征信息，通常包含图像RGB、反射率、深度网络学习的特征等。串联操作可以表示为：

F_output＝concat(f_i ¹，f_i ²，…，f_i ⁹，f_i ¹⁰，P)

具体来说，串联操作是对神经网络中通道数的合并，即描述点云本身的特征增加了，而每一特征下的信息没有增加。共享全连接网络由三部分级联组成：多层感知机(Multilayer perceptron,MLP)、批标准化函数(BatchNormalization，BN)、线性整流函数(Rectified Linear Unit,ReLU)。共享全连接网络数学化表示为：

F_output＝ReLU(BN(MLP(F_in)))

最后将输入的点云数据与学***移矩阵相乘，即可得到多组投影平面为对称结构的新坐标下的多组数据据增强后的点云图数据。

步骤S1-4：收集和标注带有对称信息的训练样本。

当前基于深度学习的任务网络是依靠数据驱动，基于大数据可以通过神经网络学习等方法提升人工效率，甚至在特定场景下代替人工，从而实现机器智能化。本发明设计的三维物体对称检测模型最大的优点在于完全依赖数据驱动，无需进行人工干预，最大化的利用样本数据本身蕴含的信息来进行点云图对称面检测。因此，为了最大化模型的检测精度，本发明在已公开的含有对称信息标注的数据集：shapenet数据集和YCB数据集(已公开数据集访问地址：https://github.com/GodZarathustra/SymmetryNet)的基础上，会不断扩充真实场景中轨道交通***中出现的含有对称结构的样本数据，如行人、自行车、小汽车等，以此逐步提高对称检测模型的精确度。

本模块的目的是设计一个神经网络，使其可以学习到三维点云数据的对称性信息，并对数据进行旋转变换。神经网络本身只是一段机器代码，是通过大量数据样本训练后，让神经网络学习到特定的权重(权重可以想成矩阵参数，或者一个个数值)，然后通过固定的权重对神经网络输入进行处理。因此，让网络学习到三维点云的数据的第一步就是收集训练样本，并对样本进行标注，然后使用收集的训练样本对神经网络进行训练，才可以完成本模块的目的，即设计一个神经网络，使其可以学习到三维点云数据的对称性信息，并对数据进行旋转变换。

步骤S2：构建变换器网络模型，通过变换器网络模型提取所述多组数据据增强后的点云图数据的全局特征信息和局部特征信息，获取点云数据中每个点的重要程度信息，学习到下采样后的点云数据。

经过上述对输入点云图的处理，得到了训练点云变变换器网络模型所需的更加丰富的训练集。本发明的点云变换器网络模型主要包含两个模块：基于坐标的位置编码模块(coordinate-based positional encoding)、自注意力模块(self-attention)，其中自注意力模块是变换器模块的核心，用于得到输入点云图的精细化的全局特征信息。

本发明引入基于卷积神经网络框架的局部特征提取模块，细粒度的提取点云的细节语义信息，补充全局特征中忽略的局部特征，以提高整个下采样模型的鲁棒性。在接下来的部分，我们分别对上述模块进行详细阐述。

步骤S2-1：输入嵌入模块

点云变换器网络模型主要包含三个模块：输入嵌入模块(Input embedding)、位置编码模块(positional encoding)、自注意力模块(self-attention)。值得注意的，点云具有排列不变性，不同的排列顺序不会改变点云数据的真实表示和语义信息的表达，因此我们将输入嵌入模块与位置编码模块进行合并，利用三维点云天然的位置坐标信息对其空间分布进行建模。

上述点云变换器网络模型实际上是一种点云数据鲁棒性下采样模型，可以对各种点云输入进行点云下采样，即降低点云的规模，这样S3任务网络就只需要更少的点云，有效降低网络的计算开销和内存开销。

步骤S2-2：自注意力模型

在众多的现有点云处理任务中，自注意力模型已经证明其在点云任务上的高效性。因此本发明利用自注意力模型对数据增强后的点云数据进行分析，提取点云数据的全局特征信息。自注意力实例化模型与步骤S1-1中的图2结构完全一致。特别的，θ集合操作函数多样，常用函数如加法、减法、乘法、串联等，其具体数学化公式表示为：

加法操作:θ(SA(x_i)；x)＝SA(x_i)+x

减法操作:θ(SA(x_i)；x)＝SA(x_i)-x

串联操作:θ(SA(x_i)；x)＝[SA(x_i),x]

哈达玛积操作:θ(SA(x_i)；x)＝SA(x_i)⊙x

点积操作:θ(SA(x_i)；x)＝SA(x_i)·x

通过消融实验对上述五个常用函数进行测试，本发明发现对于点云下采样任务而言，串联操作可以为深度学习网络提供更高的精确度贡献。本发明通过级联三组注意力机制，验证达到最好特征提取效果。

步骤S2-3：构建局部特征提取单元

卷积神经网络具有强大的局部特征提取能力，可以用于识别细节信息和对复杂场景信息进行有效特征融合。对于传统卷积网络而言，二维图像中某个位置的输出不但与该位置的输入有关，还与此位置周边的位置的输入有关，不同位置的输入具有不同的权重。然而三维点云是一种结构稀疏的数据形式，不能保证每个相同位置都存在点云数据，因此很难直接应用卷积操作处理点云任务。为了解决上述问题，本发明设计提出了新的特征提取模块，共包含两个主要成分：抽样与分组层、卷积层，具体实例化结构如图4所示。

抽样与分组层的目标是建立一个层次化的输入点云集合。具体步骤如下：(1)使用最远点采样函数(Farthest Point Sample，FPS)获取初始的M个采样点索引，然后通过采样点索引将这些点从原始点云图P中提取出来，用new_points表示，并保留其在三维空间中的空间分布；(2)设定球半径参数r，以new_points中的每个点为中心坐标，以r为半径建立球坐标系；(3)将原始点云中new_points为中心，r为半径的球面体内的所有点云提取出来，形成新的点云数据图，用new_ball_points表示；(4)设定球坐标内采样点个数K，在每个new_ball_points内使用K近邻算法采样K个点，并将非采样点去除，形成新的固定采样点数的点云数据图，用new_ball_sampled_points表示；(5)new_ball_sampled_points区域内的点减去new_points的值，并将每个点上新的特征与旧的特征进行拼接，最后获得以球面立体空间为约束的固定点数的均匀点云图。上述流程使用数学符号可以表示为，对于包含N个点的输入点云图P，经过抽样与分组层，得到M个点云子集

其中每个点云子集p^m是对应的中心坐标点

的最近邻的K个点组成，且近邻点满足欧几里得度量(euclidean metric)ρ:

得到新的M个稠密的点云子集

后，我们使用卷积神经网络层对点云进行特征提取，得到点云图的细粒度局部特征，达到补充全局特征中忽略的局部特征的目的，以提高整个下采样模型的鲁棒性。本发明使用两组级联的局部特征提取模块完成局部细粒度语义特征提取目标。

步骤S2-4：构建训练变换器网络模型的损失函数

对于包含n个点的输入点云图P＝{p_i∈R^3+f，i＝1，2，…，n}，变换器网络的训练目标是学习子集P_s，使得s＜n，且最小化任务采样损失L。目标函数L可以表示为:

其中t_i表示真实值。为了满足目标函数L的需求，本发明引入采样正则化损失函数L_sampling，具体表式形式如下所示：

上述点云变换器网络模型选择出对任务网络的任务判别精确度贡献最大的三维点集合，将该三维点集合作为下采样后的点云数据。

步骤S3：结合不同的目标任务需求，构建任务驱动的任务网络模型，将所述下采样后的点云数据输入到所述任务网络模型，任务网络模型进行目标任务学习，输出目标任务结果。

对于特定的点云处理任务，如点云分类、点云重建等，本发明提出基于变换器神经网络的任务驱动的任务网络模型。该任务网络模型可以认为是一个三维点选择机制，用于完成原本的任务需求，例如目标分类等。

以步骤S2得到的下采样后的点云数据作为任务网络模型的输入，完成目标任务。为了同时对下采样规模和任务精确度进行权衡，将所述三维物体对称检测模型、变换器网络模型与任务网络模型相级联，组成端到端的一体化自学习模型框架，通过端到端的一体化自学习模型框架对指定任务下的点云数据进行下采样。

目标任务多种多样，针对相同数据集，可以做不同的任务，如目标检测、目标分类，语义分割等等。本发明所述的点云目标任务，即特指一个特定的任务，并以此为目标，对神经网络模型进行训练。因为相同数据集在神经网络中可以有不同的应用，比如同一数据集做目标分类、目标检测、目标重建等等，并且同一数据集对于不同任务而言在S2模块进行的下采样的方式是不同的，即网络会学习到不同的特征，所以在S3中加入限定词——指定任务下。

图5为本发明实施例提供的一种任务驱动下的变换器网络模型具体实例化结构图，如图5所示。首先是步骤S1构建的三维物体对称检测模型，用于对训练样本进行数据增强。其次将增强后的数据输入给步骤S2的变换器网络，以学习简化的点云图。最后将简化点云图输入给任务网络模型，输出目标任务结果。其中整个端到端的损失函数表示为：

L_total(P，P_s)＝αL_var(P)+βL_sampling(P，P_s)+L_task(P_s)

其中，α和β表示权重。

上述端到端的损失函数用作步骤S2的神经网络训练损失函数，通过神经网络固有的反向传播算法，对网络中的权重参数进行更新，从而不断优化网络的输出精度。其中α和β表示比例函数，即L_var(P)和L_sampling(P，P_s)在L_total(P，P_s)所乘的比例系数，其取值范围为(0,1](即取值0-1中间的一个数，左端小括号表示不能取0，右端中括号表示可以取1)。P表示原始的点云输入，Ps表示下采样后的点云数据。

任务网络可以根据用户的目标任务进行替换。本发明针对已经训练好的任务神经网络进行点云下采样模型设计，即S1和S2为可学习部分，根据点云输入和任务网络已经得到的网络参数进行训练。这其中，需要明确，任务网络为提前训练好的，参数已经固定下来的神经网络。本发明的意义在于，给我任意的任务网络S3，都可以通过S1和S2模块，学习到任务网络S3需要的更少的点云集合，从而有效降低整体网络的计算开销的同时保证任务网络的整体精度符合用户需求。

本发明以分类目标任务为例进行S3模型设计。原始点云数据输入到目标网络，首先进行特征映射，即将三维点云数据映射到特征空间，然后通过共享全连接层对特征空间上的点云输入特征进行学习，通过不断更新任务网络的权重参数，得到任务网络的最大输出精度。最后将训练好的任务网络模型固定下来，作为S3模型。

图6为本发明实施例提供的一种训练样本和对应的下采样后的点云图整体网络结构实例化示意图。

综上所述，本发明将点云下采样算法中下采样规模和目标任务精确度的权衡问题简化为任务驱动的点云自注意力度量学***移变换到多个投影为对称面的新坐标系下，以增加训练样本的规模，提高后续训练模型的泛化能力；构建变换器网络模型，尽可能多的获取丰富的点云语义信息，使得整个模型框架可以有效学习出点云中的关键点、冗余点和噪声点，从而获取数据中每个点的重要程度信息。之后，根据逐点的重要程度信息，进行基于度量的下采样，实现最小化目标任务精度损失的目的。

本发明方案有效解决训练样本不足的问题，为提高后续训练模型的鲁棒性、泛化性做出贡献。本发明利用物体对称面所包含的丰富几何与语义信息，实现对点云输入数据的动态多角度旋转，扩大训练数据的规模，以增强模型的泛化能力；引入自注意力与局部特征提取模型，从全局-局部两个维度对输入数据进行特征提取，尽可能多的获取丰富的语义信息，使得整个模型可以有效区分点云数据中的关键点和冗余、噪声点；结合上述模块，设计完整的点云下采样模型，使其根据指定点云任务进行自学习，最终实现任务驱动下的最小化目标任务精度损失的点云数据下采样目标。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。