CN113159232A - 一种三维目标分类、分割方法 - Google Patents

一种三维目标分类、分割方法 Download PDF

Info

Publication number
CN113159232A
CN113159232A CN202110560118.XA CN202110560118A CN113159232A CN 113159232 A CN113159232 A CN 113159232A CN 202110560118 A CN202110560118 A CN 202110560118A CN 113159232 A CN113159232 A CN 113159232A
Authority
CN
China
Prior art keywords
feature extraction
point
feature
attention
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110560118.XA
Other languages
English (en)
Inventor
韩先锋
金依菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University
Original Assignee
Southwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University filed Critical Southwest University
Priority to CN202110560118.XA priority Critical patent/CN113159232A/zh
Publication of CN113159232A publication Critical patent/CN113159232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Architecture (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种三维目标分类、分割方法,其中,分类方法包括:获取待分类目标的三维点云数据;利用基于Transformer的特征提取模块对所述三维点云数据进行特征提取,得到特征图;将所述特征图输入到由多个全连接层级联而成的全连接模块中,得到分类后的目标。本发明直接以原始的点云数据作为输入,不需要经过任何体素化或投影等预处理方法,因此不会受到信息损失和高计算复杂度的制约,同时还可以捕获长范围的上下文信息,具有较好的点云特征表达能力。

Description

一种三维目标分类、分割方法
技术领域
本发明涉及人工智能领域,具体涉及一种三维目标分类、分割方法。
背景技术
在计算机视觉发展初期,机器对客观世界的视觉感知主要依赖相机捕获的二维图像或图像序列。然而世界在欧氏空间内是三维的,图像因为仅仅捕捉了世界在某个视角下投影的信息将在对物体的尺度和几何属性表征上产生不确定性。相比之下,点云作为一种最原始的三维数据表征能够精准地反映物体的真实尺寸和形状结构,逐渐成为了机器视觉感知所依赖的另一种数据形式。随着诸如微软Kinect、谷歌Tango平板、英特尔RealSense等3D采集设备的出现,点云数据的获取和图像一样便捷,这进一步推动了三维计算机视觉技术的发展,3D点云也在虚拟/增强现实、自主驾驶、机器人技术等领域中发挥着越来越重要的作用,因此,如何进行有效的点云分析成为一个亟待解决的问题。
近年来,深度学习技术在计算机图像领域取得了巨大的成功,这实际上为更好地理解点云提供了机会。然而点云由若干离散、无序、无拓扑结构的三维点组成,是三维传感***所获取数据的初始形式,因此以往学者在使用传统的卷积神经网络处理点云数据之前,需要对点云数据进行预处理,目前采用的方式主要有两种:
1、基于多视图的方法旨在将点云数据投影到某些特定视角,如前视视角和鸟瞰视角的2D图像集合中,将3D问题转化为2D问题,从而可以应用2D神经网络进行特征学习。同时融合使用来自相机的图像信息,将不同视角的数据相结合,来实现点云数据的物体分类和部件和语义分割任务。开创性的工作MVCNN利用最大池操作将多视图特征提取到全局描述符中。View-GCN将视图作为节点来构造有向图。该方法虽然在对象分类等任务上取得了显著的效果,但要在几何信息丢失和高计算成本的制约下确定覆盖3D对象的适当视图数仍然很困难。
2、体素化:将点云数据划分到规则的网格中。此种方式通过分割三维空间,引入空间依赖关系到点云数据中,非常适合用三维卷积神经网络提取特征表示。学者们提出了OctNet和Kd-Net等方法集中数据信息,跳过空的体素网格。pointgrid方法通过在每个网格中包含点来改进局部几何细节学习。但该方法的精度依赖于三维空间的分割程度,而且3D卷积的运算复杂度也较高,在体积分辨率以及几何信息损失方面受到立方增长的计算复杂性和存储器需求的影响。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种三维目标分类、分割方法,用于解决现有技术的缺陷。
为实现上述目的及其他相关目的,本发明提供一种三维目标分类方法,包括:
获取待分类目标的三维点云数据;
利用基于Transformer的特征提取模块对所述三维点云数据进行特征提取,得到特征图;
将所述特征图输入到由多个全连接层级联而成的全连接模块中,得到分类后的目标。
可选地,所述基于Transformer的特征提取模块由多个特征提取单元级联而成;所述特征提取单元包括:
依次连接的特征下采样层、基于注意力机制的Transformer模型。
可选地,每个所述Transformer模型包括一个自注意力机制模块与一个通道自注意力机制模块,所述Transformer模型通过聚合点自注意力机制与通道自注意力机制得到所述特征图;
Figure BDA0003078631190000021
其中,
Figure BDA0003078631190000022
表示Transformer模型输出的第l+1层特征图,
Figure BDA0003078631190000023
表示对第l层点特征图进行多头点自注意力运算得到点特征图;
Figure BDA0003078631190000024
表示经过对第l层特征图进行通道自注意力运算得到的特征图。
可选地,所述点自注意力机制模型
Figure BDA0003078631190000025
表示为:
Figure BDA0003078631190000026
M表示第M个点自注意力机制模块,MHATPWSA(Fl)表示对第l层点特征图Fl进行多头自注意力操作;
Figure BDA0003078631190000027
其中,m代表点自注意力头的索引,m=1,2,3,...,M,
Figure BDA0003078631190000028
是第m个点自注意力头的点空间特征矩阵,σ代表softmax操作,
Figure BDA0003078631190000029
是三个线性层的可学习权重参数,并且dq=dk=dv=dc=C/M,C代表特征维度,
Figure BDA00030786311900000210
分别表示第l+1层点多头注意力模型第m个头的查询、键、值矩阵,(·)T表示转置。
可选地,所述通道自注意力机制模型
Figure BDA00030786311900000211
表示为:
Figure BDA00030786311900000212
MHATCWSA(Fl)表示对第l层点特征图Fl进行通道多头自注意力操作,
Figure BDA0003078631190000031
其中,
Figure BDA0003078631190000032
为通道特征矩阵,
Figure BDA0003078631190000033
是全连接层的权重矩阵,并且dc=C/M',
Figure BDA0003078631190000034
分别表示第l+1层通道多头注意力模型第m个头的查询、键、值矩阵,(·)T表示转置。
可选地,所述基于Transformer的特征提取模块包括依次级联的3个特征提取单元;所述特征图经过级联的3个全连接层,得到目标的类别。
为实现上述目的及其他相关目的,本发明提供一种三维目标分割方法,包括:
利用所述的分类方法对待分类目标进行分类,得到分类后的目标;
对所述分类后的目标的点云数据进行至少两次特征提取,得到特征图;
将所述特征图输入到由多个全连接层级联而成的全连接模块中,得到分割。
可选地,所述对所述分类后的目标的点云数据进行至少两次特征提取,包括:
通过第一特征提取模块对所述分类后的目标的点云数据以第一特征提取方式进行至少一次特征提取,得到第一特征图;
通过第二特征提取模块对所述第一特征图以第二特征提取方式进行至少一次特征提取,得到特征图;
所述第一特征提取模块包括第一级第一特征提取单元至第N级第一特征提取单元,所述第二特征提取模块包括第一级第二特征提取单元至第N级第二特征提取单元,第N级第一特征提取单元与所述第一级第二特征提取单元连接;第n级第二特征提取单元与第N-n级第一特征提取单元连接;
所述第一特征提取单元包括特征下采样层和特征提取子单元,所述第二特征提取单元包括特征上采样层和特征提取子单元,所述特征提取子单元包括:依次连接的基于注意力机制的Transformer模型。
可选地,每个所述Transformer模型包括一个自注意力机制模块与一个通道自注意力机制模块,所述Transformer模型通过聚合点自注意力机制与通道自注意力机制得到所述特征图;
Figure BDA0003078631190000035
其中,
Figure BDA0003078631190000036
表示Transformer模型输出的第l+1层特征图,
Figure BDA0003078631190000037
表示对第l层点特征图进行多头点自注意力运算得到点特征图;
Figure BDA0003078631190000038
表示经过对第l层特征图进行通道自注意力运算得到的特征图。
可选地,所述点自注意力机制模型
Figure BDA0003078631190000041
表示为:
Figure BDA0003078631190000042
M表示第M个点自注意力机制模块,MHATPWSA(Fl)表示对第l层点特征图Fl进行多头自注意力操作;
Figure BDA0003078631190000043
其中,m代表点自注意力头的索引,m=1,2,3,...,M,
Figure BDA0003078631190000044
是第m个点自注意力头的点空间特征矩阵,σ代表softmax操作,
Figure BDA0003078631190000045
是三个线性层的可学习权重参数,并且dq=dk=dv=dc=C/M,C代表特征维度,
Figure BDA0003078631190000046
分别表示第l+1层点多头注意力模型第m个头的查询、键、值矩阵,(·)T表示转置;
所述通道自注意力机制模型
Figure BDA0003078631190000047
表示为:
Figure BDA0003078631190000048
MHATCWSA(Fl)表示对第l层点特征图Fl进行通道多头自注意力操作,
Figure BDA0003078631190000049
其中,
Figure BDA00030786311900000410
为通道特征矩阵,
Figure BDA00030786311900000411
是全连接层的权重矩阵,并且dc=C/M',
Figure BDA00030786311900000412
分别表示第l+1层通道多头注意力模型第m个头的查询、键、值矩阵,(·)T表示转置。
如上所述,本发明的一种三维目标分类、分割方法,具有以下有益效果:
本发明直接以原始的点云数据作为输入,不需要经过任何体素化或投影等预处理方法,因此不会受到信息损失和高计算复杂度的制约,同时还可以捕获长范围的上下文信息,具有较好的点云特征表达能力。
附图说明
图1为本发明一实施例一种三维目标分类方法的流程图;
图2为本发明一实施例基于注意力机制的Transformer模型的示意图;
图3为本发明一实施例分类网络的示意图;
图4为本发明一实施例一种三维目标分割方法的流程图;
图5为本发明一实施例分割网络的示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,本申请实施例提供一种三维目标分类方法,包括:
S11获取待分类目标的三维点云数据;
S12利用基于Transformer的特征提取模块对所述三维点云数据进行特征提取,得到特征图;
S13将所述特征图输入到由多个全连接层级联而成的全连接模块中,得到分类后的目标。
本发明直接以原始的点云数据作为输入,不需要经过任何体素化或投影等预处理方法,因此不会受到信息损失和高计算复杂度的制约,同时还可以捕获长范围的上下文信息,具有较好的点云特征表达能力。
应该理解,上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,所述基于Transformer的特征提取模块由多个特征提取单元级联而成;所述特征提取单元包括:
依次连接的特征下采样层、基于注意力机制的Transformer模型。
图2示出了基于注意力机制的Transformer模型。在图2中,N代表点云模型的点数,C代表特征维度,Q,K,V分别代表自注意力机制中的查询(Query),键(Key),值(Value)矩阵。因为采用的是多头注意力机制,q,k,v可以看作是从大写Q,K,V中拆分出来的每个头的查询,键,值矩阵。kT,qT代表矩阵转置操作,dc表示每个头的维度。
在一实施例中,每个所述Transformer模型包括一个自注意力机制(Point-wiseself-attention,PWSA)模块(如图2上部分)与一个通道自注意力机制(Point-wiseself-attention,PWSA)模块(如图2下部分),所述Transformer模型通过聚合点自注意力机制与通道自注意力机制得到所述特征图;
Figure BDA0003078631190000061
其中,
Figure BDA0003078631190000062
表示Transformer模型输出的第l+1层特征图,
Figure BDA0003078631190000063
表示对第l层点特征图进行多头点自注意力运算得到点特征图;
Figure BDA0003078631190000064
表示经过对第l层特征图进行通道自注意力运算得到的特征图。
在一实施例中,所述点自注意力机制模型
Figure BDA0003078631190000065
表示为:
Figure BDA0003078631190000066
M表示第M个点自注意力机制模块,MHATPWSA(Fl)表示对第l层点特征图Fl进行多头自注意力操作;
Figure BDA0003078631190000067
表示经过上述自注意力运算得到的第l+1层点特征图。
Figure BDA0003078631190000068
其中,m代表点自注意力头的索引,m=1,2,3,...,M,
Figure BDA0003078631190000069
是第m个点自注意力头的点空间特征矩阵,σ代表softmax操作,
Figure BDA00030786311900000610
是三个线性层的可学习权重参数,并且dq=dk=dv=dc=C/M,C代表特征维度,
Figure BDA00030786311900000611
分别分别表示第l+1层点多头注意力模型第m个头的查询、键、值矩阵,(·)T表示转置。
为了强调不同点特征图通道之间的互动的重要性,本发明采用类似于点自注意力机制的基本思想构建了通道多头自注意力模型,如图2下部分所示。在一实施例中,所述通道自注意力机制模型
Figure BDA00030786311900000612
表示为:
Figure BDA00030786311900000613
MHATCWSA(Fl)表示对第l层点特征图Fl进行通道多头自注意力操作,
Figure BDA00030786311900000614
表示经过上述通道自注意力运算得到的第l+1层点特征图;
Figure BDA00030786311900000615
其中,
Figure BDA00030786311900000616
为通道特征矩阵,代表各通道相互的影响力;
Figure BDA00030786311900000617
Figure BDA00030786311900000618
是全连接层的权重矩阵,并且dc=C/M,
Figure BDA00030786311900000619
分别表示第l+1层通道多头注意力模型第m个头的查询、键、值矩阵,(·)T表示转置。
在一实施例中,所述基于Transformer的特征提取模块包括依次级联的3个特征提取单元;所述特征图经过级联的3个全连接层,得到目标的类别。
在一实施例中,以ModelNet数据集来对如图3所示的分类网络的总体准确率(OA)作为分类任务的评价指标。
ModelNet数据集由来自40个类别的12311个CAD模型组成,具有9843个用于训练的形状和2468个用于测试的对象。根据PointNet从每个模型中标准采样了1024个点。在训练期间,通过采用随机的点丢失、[0.8,1.25]中的随机缩放和[-0.1,0.1]中的随机移位来增强数据的真实性。
用于物体分类任务的网络如图3所示,该网络包括由基于Transformer的特征提取模块和三个级联的全连接层构成;基于Transformer的特征提取模块由三个特征提取单元级联而成,特征提取单元包括特征下采样层、基于注意力机制的Transformer模型。所述基于Transformer的特征提取模块由多个特征提取单元级联而成;所述特征提取单元包括:依次连接的特征下采样层FDS、基于注意力机制的Transformer模型DPCT。每层采用的点和通道数如下所示:
INPUT(N=1.024,C=3)-FDS(N=512,C=128)-DPCT(N=512,C=320)-FDS(N=128,C=256)-DPCT(N=256,C=640)-FDS(N=1,C=1024)-DPCT(C=1024)-FC(512)-FC(256)-FC(40)
参数设置:该网络在训练过程中共迭代为150次,每次处理16批数据,初始学习率为0.001并且每迭代20次降低0.7。
性能比较:表1展示了本发明与其他技术的定量性能比较。从结果可以清晰地看出,本发明的网络达到了92.9%的整体准确率,分别超出PointNet和Point2Sequence3.7%和0.3%。这证明了我们模型的有效性。
表1:基于ModelNet40的物体分类结果
Figure BDA0003078631190000081
本发明构建了基于注意力机制的Transformer模型,首先Transformer具有置换不变性,消除了因点不同的输入顺序所带来的变化,因此可以直接在点云上进行处理而不用进行如多视图、体素化网格之类的预处理操作,这样就大大降低了几何信息的损失,其次从空间相关性和通道相关性出发进行特征提取,以捕获上下文语义特征的依赖性,从而增强深度融合特征的表征能力,为三维点云场景精确理解提供重要支持。
如图4所示,本申请实施例提供一种三维目标分割方法,目标分割是在目标分类的基础上进行的,分类是确定整个点云模型属于是那个物体,如椅子点云模型分类后就是椅子;而分割是更细化的,是要对点云模型的每个点进行分类,比如椅子模型分割就要去区分出来那个地方是靠背,那个部分是腿,那个部分椅子面等。
图4所示的三维目标分割方法,包括以下步骤:
S41利用所述的分类方法对待分类目标进行分类,得到分类后的目标;
S42对所述分类后的目标的点云数据进行至少两次特征提取,得到特征图;
S43将所述特征图输入到由多个全连接层级联而成的全连接模块中,得到分割。
在一实施例中,所述对所述分类后的目标的点云数据进行至少两次特征提取,得到特征图,包括:
通过第一特征提取模块对所述分类后的目标的点云数据以第一特征提取方式进行至少一次特征提取,得到第一特征图;
通过第二特征提取模块对所述第一特征图以第二特征提取方式进行至少一次特征提取,得到特征图;
其中,所述第一特征提取模块包括第一级第一特征提取单元至第N级第一特征提取单元,所述第二特征提取模块包括第一级第二特征提取单元至第N级第二特征提取单元,第N级第一特征提取单元与所述第一级第二特征提取单元连接;第n级第二特征提取单元与第N-n级第一特征提取单元连接;
所述第一特征提取单元包括特征下采样层(Feature Down Sample Layer)和特征提取子单元,所述第二特征提取单元包括特征上采样层(Feature Up Sample Layer)和特征提取子单元,所述特征提取子单元包括:依次连接的基于注意力机制的Transformer模型。
如图5所示,第一特征提取模块包括4个第一特征提取单元,即第一级第一特征提取单元、第二级第一特征提取单元、第三级第一特征提取单元、第四级第一特征提取单元;第二特征提取模块饭知4个第二特征提取单元,即第一级第二特征提取单元、第二级第二特征提取单元、第三级第二特征提取单元、第四级第二特征提取单元。如图所示,第一级第一特征提取单元、第二级第一特征提取单元、第三级第一特征提取单元、第四级第一特征提取单元依次连接,第一级第二特征提取单元、第二级第二特征提取单元、第三级第二特征提取单元、第四级第二特征提取单元依次连接,且第一级第一特征提取单元与第三级第一特征提取单元连接,第二级第一特征提取单元与第二级第二特征提取单元连接,第三级第一特征提取单元与第一级第二特征提取单元连接,最后一级第二特征提取单元连接到全连接层(Fully Connected Layer),经全连接层后得到分割目标。
第一特征提取单元包括特征下采样层、与特征下采样层的输出连接的基于注意力机制的Transformer模型(Dual Point Cloud Transformer);第二特征提取单元包括特征上采样层、与特征上采样层的输出连接的基于注意力机制的Transformer模型。
图2示出了基于注意力机制的Transformer模型。在图2中,N代表点云模型的点数,C代表特征维度,Q,K,V分别代表自注意力机制中的查询(Query),键(Key),值(Value)矩阵。因为采用的是多头注意力机制,q,k,v可以看作是从大写Q,K,V中拆分出来的每个头的查询,键,值矩阵。kT,qT代表矩阵转置操作,dc表示每个头的维度。
在一实施例中,每个所述Transformer模型包括一个自注意力机制(Point-wiseself-attention,PWSA)模块(如图2上部分)与一个通道自注意力机制(Point-wise self-attention,PWSA)模块(如图2下部分),所述Transformer模型通过聚合点自注意力机制与通道自注意力机制得到所述特征图;
Figure BDA0003078631190000101
其中,
Figure BDA0003078631190000102
表示Transformer模型输出的第l+1层特征图,
Figure BDA0003078631190000103
表示对第l层点特征图进行多头点自注意力运算得到点特征图;
Figure BDA0003078631190000104
表示经过对第l层特征图进行通道自注意力运算得到的特征图。
在一实施例中,所述点自注意力机制模型
Figure BDA0003078631190000105
表示为:
Figure BDA0003078631190000106
M表示第M个点自注意力机制模块,MHATPWSA(Fl)表示对第l层点特征图Fl进行多头自注意力操作;
Figure BDA0003078631190000107
表示经过上述自注意力运算得到的第l+1层点特征图。
Figure BDA0003078631190000108
其中,m代表点自注意力头的索引,m=1,2,3,...,M,
Figure BDA0003078631190000109
是第m个点自注意力头的点空间特征矩阵,σ代表softmax操作,
Figure BDA00030786311900001010
是三个线性层的可学习权重参数,并且dq=dk=dv=dc=C/M,C代表特征维度,
Figure BDA00030786311900001011
分别表示第l+1层点多头注意力模型第m个头的查询、键、值矩阵,(·)T表示转置。
为了强调不同点特征图通道之间的互动的重要性,本发明采用类似于点自注意力机制的基本思想构建了通道多头自注意力模型,如图2下部分所示。在一实施例中,所述通道自注意力机制模型
Figure BDA00030786311900001012
表示为:
Figure BDA00030786311900001013
MHATCWSA(Fl)表示对第l层点特征图Fl进行通道多头自注意力操作,
Figure BDA00030786311900001014
表示经过上述通道自注意力运算得到的第l+1层点特征图;
Figure BDA00030786311900001015
其中,
Figure BDA00030786311900001016
为通道特征矩阵,代表各通道相互的影响力;
Figure BDA00030786311900001017
是全连接层的权重矩阵,并且dc=C/M',
Figure BDA00030786311900001018
分别表示第l+1层通道多头注意力模型第m个头的查询、键、值矩阵,(·)T表示转置。
在一实施例中,为了构建多尺度的分层特征,在基于注意力机制的Transformer模型前添加了特征下采样层(FDS)。具体来说,对于输入的特征图Fl,执行最远点采样算法(FPS)来生成子特征图
Figure BDA0003078631190000111
接着,对于子特征图F'l中的每一个点,聚合它的球形邻域中所有点的特征并赋予它,接着进行线性变换、批量归一化(BN)和ReLU操作。该下采样(FDS)层可简单概括为如下公式:
Fl+1=Relu(BN(W'l(Agg(FPS(Fl)))))
其中,Agg(·)指局部特征聚合操作,W'l代表线性变换的可学习权重参数。FPS(·)是对l层点特征图Fl进行最远点采样操作,进行下采样。
在一实施例中,为了在分割任务中进行较为精准的预测,将特征上采样层放置在解码器部分以将点特征图的分辨率提高到原始图像大小。在此基于欧氏距离利用K近邻插值算法对点集进行上采样。
在一实施例中,选取ShapeNet零件基准数据集来训练和测试分割网络的部件分割效果,该数据集由来自16个不同类别的16881个对象组成,共50个零件标签。遵循数据集官方给定的14007/2874的训练/测试数据配比,并且从每个形状中采样2048个点作为输入。此外,执行与分类任务相同的数据增强。评估指标包括所有零件类别的平均IoU值和分类IoU。
部件分割的网络架构如图5所示。编码器结构(多个第一特征提取单元)与分类任务类似,而解码器(多个第二特征提取单元)中则增加了三个第二特征提取单元(包括特征上采样层和基于注意力机制的Transformer模型)。每层采用的点和通道数如下所示:
Input(N=2048,C=3)-FDS(N=512,C=320)-DPCT(N=512,C=320)-FDS(N=128,C=512)-DPCT(N=128,C=512)-FDS(N=1,C=1024)-DPCT(N=1,C=2014)-FUS(N=128,C=256)-DPCT(N=128)
参数设置:该网络在训练过程中共迭代为80次,初始学习率为0.0005并且每迭代20次缩减50%。
性能比较:表2给出的方法与目前最新模型的定量比较。与PointNet,PointNet++和SO-Net将法向量和点坐标同时引入的方法不同,本发明的多Transformer模型仅将XYZ坐标作为输入特征。分割结果显示本发明的方法在mIoU上达到最高的85.6%,并分别超过PointNet++和目前的最佳方法SFCNN0.5%和0.2%。特别的是,与这些竞争方法相比,本发明的方法在某些类的分割效果上表现得更好,如椅子、灯、冰鞋、桌子等。
表2:基于ShapeNet数据集的部件分割结果
Figure BDA0003078631190000121
本发明突破了传统模式信息损失和高计算复杂度的制约,不需要经过任何体素化或投影等预处理方法,通过本发明可以直接输入原始的点云数据,同时具备捕获点云长范围的上下文信息的能力,具有较好的点云特征描述能力,适合在计算机视觉、计算机图形学、机器人学、遥感等领域推广应用,具有重要的实际应用价值。例如,在遥感领域的应用包括大场景遥感点云拼接以及地形场景重建;在文化遗产保护领域的应用包括基于多目点云拼接重建的古文物数字模型库构建;在计算机视觉领域的典型应用为三维人脸识别、三维目标分类检测与识别和三维运动物体的姿态跟踪;在航空航天领域的应用包括太空非合作目标的运动位姿解算等;在机器人领域的主要应用包括物体的抓取及摆放姿态的估计;在国防领域的应用包括空对地的精准目标打击等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器((RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种三维目标分类方法,其特征在于,包括:
获取待分类目标的三维点云数据;
利用基于Transformer的特征提取模块对所述三维点云数据进行特征提取,得到特征图;将所述特征图输入到由多个全连接层级联而成的全连接模块中,得到分类后的目标。
2.根据权利要求1所述的三维目标分类方法,其特征在于,所述基于Transformer的特征提取模块由多个特征提取单元级联而成;所述特征提取单元包括:
依次连接的特征下采样层、基于注意力机制的Transformer模型。
3.根据权利要求2所述的三维目标分类方法,其特征在于,每个所述Transformer模型包括一个自注意力机制模块与一个通道自注意力机制模块,所述Transformer模型通过聚合点自注意力机制与通道自注意力机制得到所述特征图;
Figure FDA0003078631180000011
其中,
Figure FDA0003078631180000012
表示Transformer模型输出的第l+1层特征图,
Figure FDA0003078631180000013
表示对第l层点特征图进行多头点自注意力运算得到点特征图;
Figure FDA0003078631180000014
表示经过对第l层特征图进行通道自注意力运算得到的特征图。
4.根据权利要求3所述的三维目标分类方法,其特征在于,所述点自注意力机制模型
Figure FDA0003078631180000015
表示为:
Figure FDA0003078631180000016
M表示第M个点自注意力机制模块,MHATPWSA(Fl)表示对第l层点特征图Fl进行多头自注意力操作;
Figure FDA0003078631180000017
其中,m代表点自注意力头的索引,m=1,2,3,...,M,
Figure FDA0003078631180000018
是第m个点自注意力头的点空间特征矩阵,σ代表softmax操作,
Figure FDA0003078631180000019
是三个线性层的可学习权重参数,并且dq=dk=dv=dc=C/M,C代表特征维度,
Figure FDA00030786311800000110
分别表示第l+1层点多头注意力模型第m个头的查询、键、值矩阵,(·)T表示转置。
5.根据权利要求4所述的三维目标分类方法,其特征在于,所述通道自注意力机制模型
Figure FDA00030786311800000111
表示为:
Figure FDA0003078631180000021
MHATCWSA(Fl)表示对第l层点特征图Fl进行通道多头自注意力操作,
Figure FDA0003078631180000022
其中,
Figure FDA0003078631180000023
为通道特征矩阵,
Figure FDA0003078631180000024
是全连接层的权重矩阵,并且
Figure FDA0003078631180000025
Figure FDA0003078631180000026
Figure FDA0003078631180000027
分别表示第l+1层通道多头注意力模型第m个头的查询、键、值矩阵。
6.根据权利要求5所述的三维目标分类方法,其特征在于,所述基于Transformer的特征提取模块包括依次级联的3个特征提取单元;所述特征图经过级联的3个全连接层,得到目标的类别。
7.一种三维目标分割方法,其特征在于,包括:
利用如权利要求1-6任意一项所述的分类方法对待分类目标进行分类,得到分类后的目标;
对所述分类后的目标的点云数据进行至少两次特征提取,得到特征图;
将所述特征图输入到由多个全连接层级联而成的全连接模块中,得到分割。
8.根据权利要求7所述的三维目标分割方法,其特征在于,所述对所述分类后的目标的点云数据进行至少两次特征提取,包括:
通过第一特征提取模块对所述分类后的目标的点云数据以第一特征提取方式进行至少一次特征提取,得到第一特征图;
通过第二特征提取模块对所述第一特征图以第二特征提取方式进行至少一次特征提取,得到特征图;
所述第一特征提取模块包括第一级第一特征提取单元至第N级第一特征提取单元,所述第二特征提取模块包括第一级第二特征提取单元至第N级第二特征提取单元,第N级第一特征提取单元与所述第一级第二特征提取单元连接;第n级第二特征提取单元与第N-n级第一特征提取单元连接;
所述第一特征提取单元包括特征下采样层和特征提取子单元,所述第二特征提取单元包括特征上采样层和特征提取子单元,所述特征提取子单元包括:依次连接的基于注意力机制的Transformer模型。
9.根据权利要求8所述的三维目标分割方法,其特征在于,每个所述Transformer模型包括一个自注意力机制模块与一个通道自注意力机制模块,所述Transformer模型通过聚合点自注意力机制与通道自注意力机制得到所述特征图;
Figure FDA0003078631180000031
其中,
Figure FDA0003078631180000032
表示Transformer模型输出的第l+1层特征图,
Figure FDA0003078631180000033
表示对第l层点特征图进行多头点自注意力运算得到点特征图;
Figure FDA0003078631180000034
表示经过对第l层特征图进行通道自注意力运算得到的特征图。
10.根据权利要求9所述的三维目标分割方法,其特征在于,所述点自注意力机制模型
Figure FDA0003078631180000035
表示为:
Figure FDA0003078631180000036
M表示第M个点自注意力通道,MHATPWSA(Fl)表示对第l层点特征图Fl进行多头自注意力操作;
Figure FDA0003078631180000037
其中,m代表点自注意力头的索引,m=1,2,3,...,M,
Figure FDA0003078631180000038
是第m个点自注意力头的点空间特征矩阵,σ代表softmax操作,
Figure FDA0003078631180000039
是三个线性层的可学习权重参数,并且dq=dk=dv=dc=C/M,C代表特征维度,
Figure FDA00030786311800000310
分别表示第l+1层点多头注意力模型第m个头的查询、键、值矩阵,(·)T表示转置;
所述通道自注意力机制模型
Figure FDA00030786311800000311
表示为:
Figure FDA00030786311800000312
MHATCWSA(Fl)表示对第l层点特征图Fl进行通道多头自注意力操作,
Figure FDA00030786311800000313
其中,
Figure FDA00030786311800000314
为通道特征矩阵,
Figure FDA00030786311800000315
是全连接层的权重矩阵,并且dc=C/M',
Figure FDA00030786311800000316
分别表示第l+1层通道多头注意力模型第m个头的查询、键、值矩阵,(·)T表示转置。
CN202110560118.XA 2021-05-21 2021-05-21 一种三维目标分类、分割方法 Pending CN113159232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110560118.XA CN113159232A (zh) 2021-05-21 2021-05-21 一种三维目标分类、分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110560118.XA CN113159232A (zh) 2021-05-21 2021-05-21 一种三维目标分类、分割方法

Publications (1)

Publication Number Publication Date
CN113159232A true CN113159232A (zh) 2021-07-23

Family

ID=76877650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110560118.XA Pending CN113159232A (zh) 2021-05-21 2021-05-21 一种三维目标分类、分割方法

Country Status (1)

Country Link
CN (1) CN113159232A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723208A (zh) * 2021-08-05 2021-11-30 北京大学 基于规范等变转换算子神经网络的三维物体形状分类方法
CN114211490A (zh) * 2021-12-17 2022-03-22 中山大学 一种基于Transformer模型的机械臂抓手位姿预测方法
CN114297237A (zh) * 2021-12-14 2022-04-08 重庆邮电大学 基于类别融合的三维点云数据检索方法、装置及计算机设备
CN114550162A (zh) * 2022-02-16 2022-05-27 北京工业大学 一种视图重要性网络与自注意力机制相结合的三维物体识别方法
CN114842260A (zh) * 2022-05-10 2022-08-02 杭州师范大学 一种基于蓝图分离卷积的点云分类方法
CN116012374A (zh) * 2023-03-15 2023-04-25 译企科技(成都)有限公司 一种三维pet-ct头颈部肿瘤分割***及方法
CN116091751A (zh) * 2022-09-09 2023-05-09 锋睿领创(珠海)科技有限公司 一种点云分类方法、装置、计算机设备及存储介质
WO2023098000A1 (zh) * 2021-11-30 2023-06-08 上海商汤智能科技有限公司 图像处理、缺陷检测方法及装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147245A1 (en) * 2017-11-14 2019-05-16 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
CN111489358A (zh) * 2020-03-18 2020-08-04 华中科技大学 一种基于深度学习的三维点云语义分割方法
CN112633330A (zh) * 2020-12-06 2021-04-09 西安电子科技大学 点云分割方法、***、介质、计算机设备、终端及应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147245A1 (en) * 2017-11-14 2019-05-16 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
CN111489358A (zh) * 2020-03-18 2020-08-04 华中科技大学 一种基于深度学习的三维点云语义分割方法
CN112633330A (zh) * 2020-12-06 2021-04-09 西安电子科技大学 点云分割方法、***、介质、计算机设备、终端及应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAN-FENG HAN等: "Dual Transformer for Point Cloud Analysis", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
梁铎瀚: "基于3D骨骼人体行为识别算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723208A (zh) * 2021-08-05 2021-11-30 北京大学 基于规范等变转换算子神经网络的三维物体形状分类方法
CN113723208B (zh) * 2021-08-05 2023-10-20 北京大学 基于规范等变转换算子神经网络的三维物体形状分类方法
WO2023098000A1 (zh) * 2021-11-30 2023-06-08 上海商汤智能科技有限公司 图像处理、缺陷检测方法及装置、电子设备和存储介质
CN114297237A (zh) * 2021-12-14 2022-04-08 重庆邮电大学 基于类别融合的三维点云数据检索方法、装置及计算机设备
CN114211490A (zh) * 2021-12-17 2022-03-22 中山大学 一种基于Transformer模型的机械臂抓手位姿预测方法
CN114211490B (zh) * 2021-12-17 2024-01-05 中山大学 一种基于Transformer模型的机械臂抓手位姿预测方法
CN114550162A (zh) * 2022-02-16 2022-05-27 北京工业大学 一种视图重要性网络与自注意力机制相结合的三维物体识别方法
CN114550162B (zh) * 2022-02-16 2024-04-02 北京工业大学 一种视图重要性网络与自注意力机制相结合的三维物体识别方法
CN114842260A (zh) * 2022-05-10 2022-08-02 杭州师范大学 一种基于蓝图分离卷积的点云分类方法
CN114842260B (zh) * 2022-05-10 2024-06-04 杭州师范大学 一种基于蓝图分离卷积的点云分类方法
CN116091751A (zh) * 2022-09-09 2023-05-09 锋睿领创(珠海)科技有限公司 一种点云分类方法、装置、计算机设备及存储介质
CN116091751B (zh) * 2022-09-09 2023-09-05 锋睿领创(珠海)科技有限公司 一种点云分类方法、装置、计算机设备及存储介质
CN116012374A (zh) * 2023-03-15 2023-04-25 译企科技(成都)有限公司 一种三维pet-ct头颈部肿瘤分割***及方法

Similar Documents

Publication Publication Date Title
Zhang et al. A review of deep learning-based semantic segmentation for point cloud
CN113159232A (zh) 一种三维目标分类、分割方法
CN110458939B (zh) 基于视角生成的室内场景建模方法
Wu et al. 3d shapenets: A deep representation for volumetric shapes
CN108921926A (zh) 一种基于单张图像的端到端三维人脸重建方法
CN113177555B (zh) 基于跨层级跨尺度跨注意力机制的目标处理方法及装置
CN113362382A (zh) 三维重建方法和三维重建装置
CN112990010B (zh) 点云数据处理方法、装置、计算机设备和存储介质
US20230206603A1 (en) High-precision point cloud completion method based on deep learning and device thereof
CN111414953B (zh) 点云分类方法和装置
CN113569979B (zh) 一种基于注意力机制的三维物体点云分类方法
CN111753698A (zh) 一种多模态三维点云分割***和方法
CN111695494A (zh) 一种基于多视角卷积池化的三维点云数据分类方法
Shi et al. Gesture recognition using spatiotemporal deformable convolutional representation
CN113345106A (zh) 一种基于多尺度多层级转换器的三维点云分析方法及***
CN112132739A (zh) 3d重建以及人脸姿态归一化方法、装置、存储介质及设备
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN114627290A (zh) 一种基于改进DeepLabV3+网络的机械零部件图像分割算法
CN110781894A (zh) 点云语义分割方法、装置及电子设备
CN113743417A (zh) 语义分割方法和语义分割装置
Afifi et al. Pixel2Point: 3D object reconstruction from a single image using CNN and initial sphere
Ahmad et al. 3D capsule networks for object classification from 3D model data
CN114299339A (zh) 一种基于区域相关性建模的三维点云模型分类方法及***
CN114638866A (zh) 一种基于局部特征学习的点云配准方法及***
CN113011506B (zh) 一种基于深度重分形频谱网络的纹理图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723