CN113313140B

CN113313140B - 基于深度注意力的三维模型分类和检索方法及装置

Info

Publication number: CN113313140B
Application number: CN202110402765.8A
Authority: CN
Inventors: 魏志强; 贾东宁; 许佳立; 殷波; 黄贤青; 马猛飞
Original assignee: Ocean University of China; Qingdao National Laboratory for Marine Science and Technology Development Center
Current assignee: Ocean University of China; Qingdao National Laboratory for Marine Science and Technology Development Center
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2022-11-01
Anticipated expiration: 2041-04-14
Also published as: EP4075328A1; CN113313140A

Abstract

本申请公开了一种基于深度注意力的三维模型分类和检索方法及装置。所述基于深度注意力的三维模型分类和检索方法包括：获取待检索三维模型；根据所述待检索三维模型，映射生成二维视图组，所述二维视图组包括至少两个二维视图；获取每个所述二维视图的特征；通过深度注意力网络融合各个所述二维视图的特征，从而形成一个融合特征；根据所述融合特征对所述待检索三维模型进行检索或者分类。本申请通过引入自注意力结构，能够从全局角度充分考虑多视图间的相关性信息，挖掘隐藏信息，减少信息冗余。

Description

基于深度注意力的三维模型分类和检索方法及装置

技术领域

本发明涉及三维模型检索分类技术领域，具体涉及一种基于深度注意力的三维模型分类和检索方法以及基于深度注意力的三维模型分类和检索装置。

背景技术

三维形状识别在计算机领域是一个重要课题，且由于近些年在实际场景中的广泛应用而获得了更多的研究关注，例如：计算机辅助设计，虚拟现实和工业产品设计。同时，随着三维采集技术的发展，获取大量三维形状数据变得更加方便了，这就对三维形状识别算法提出了越来越高的要求。由于基于数据驱动的深度学习技术的迅速发展，各种深度神经网络的研究应被用于三维形状识别，例如：PointNet，VoxNet和3D Shapenet。在这些方法中，基于视图的方法取得了更好的表现。因为基于视图的方法关注的是视图信息，这些方法就可以利用已经建立的模型，例如：VGG，GoogleNet和ResNet用于提取视觉特征。这些典型的深度学习模型可以有效改善模型表征的性能。

三维形状识别的关键点是描述子的设计。在深度学习方法的发展的基础上，人们提出了很多基于视图的三维形状识别的方法。Klokov等人提出了 KD网络，此结构可以处理非结构化的点云。它们利用kd树进行点云的细分计算。

现有的三维模型分类和检索问题在于：

1)由于三维模型数据量较大，如何高效地学习有区分度的特征，降低计算量是一个重大的挑战。

2)基于视图的方法往往不能同时有效地处理视图间有效信息的融合和冗余信息的去除，会产生冗余信息干扰有效信息融合的情况，或者去除冗余信息的时候导致了有效信息的融合能力下降。

因此，希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。

发明内容

本发明的目的在于提供一种基于深度注意力的三维模型分类和检索方法，来克服或至少减轻现有技术的至少一个上述缺陷。

本发明的一个方面，提供一种基于深度注意力的三维模型分类和检索方法，所述基于深度注意力的三维模型分类和检索方法包括：

获取待检索三维模型；

根据所述待检索三维模型，映射生成二维视图组，所述二维视图组包括至少两个二维视图；

获取每个所述二维视图的特征；

通过深度注意力网络融合各个所述二维视图的特征，从而形成一个融合特征；

根据所述融合特征对所述待检索三维模型进行检索或者分类。

可选地，所述根据所述待检索三维模型，映射生成二维视图组，所述二维视图组包括至少两个二维视图包括：

使用phong算法在不同的角度和/或距离提取所述三维模型的二维视图，使用GoogleNet网络提取每个视图的特征。

可选地，所述使用phong算法在不同的角度和/或距离提取所述三维模型的二维视图，使用GoogleNet网络提取每个视图的特征包括：

利用三维phong反射算法生成视图，以一定的间隔θ＝30环绕垂直方向的轴放置，与地平面成30度角，每个相机指向网格的质心。

可选地，所述深度注意力网络包括n个处理层；其中第一层处理层为卷积层、最后一个处理层称为拼接层，其他处理层称为自注意力层。

可选地，所述通过深度注意力网络融合各个所述二维视图的特征，从而形成一个融合特征包括：

各个自注意力层叠设，其中一个自注意力层与卷积层相接，作为第一层自注意力层，一个自注意力层与所述拼接层相接，作为最后一层自注意力层，除第一层自注意力层外，所述拼接层用于获取所述最后一层自注意力层的输入以及输出之和；其中，

所述卷积层用于根据各个所述二维视图的特征获取特征矩阵；

所述拼接层用于将最后一层自注意力层的输入以及输出之和拼接成所述融合特征；

所述第一层自注意力层进行如下操作获取本层的输入与所述输出之和：

获取本层的自定义权重矩阵，所述自定义权重矩阵包括W_i ^Q、

以及

获取卷积层输出的所述特征矩阵；

通过softmax函数根据所述特征矩阵以及本层的自定义权重矩阵W_i ^Q、

获取本层的权重矩阵；

根据本层的权重矩阵、自定义权重矩阵

以及所述特征矩阵，生成本层的自注意力特征矩阵；

将本层的所述自注意力特征矩阵与所述特征矩阵相加，从而获得本层的输入与所述输出之和；

所述除第一层自注意力层外的其他每层自注意力层进行如下操作获取自身的输入与所述输出之和：

获取上一层的自注意力层的输入与所述输出之和；

以及

通过softmax函数根据所述上一层的自注意力层的输入与所述输出之和以及本层的自定义权重矩阵W_i ^Q、

获取本层的权重矩阵；

根据本层的权重矩阵、自定义权重矩阵

以及所述上一层的自注意力层的输入与所述输出之和，生成本层的自注意力特征矩阵；

将本层的所述自注意力特征矩阵与所述上一层的自注意力层的输入与所述输出之和相加，从而获得本层的输入与所述输出之和。

可选地，所述根据本层的权重矩阵、自定义权重矩阵

以及所述特征矩阵，生成本层的自注意力特征矩阵包括：

将权重矩阵、自定义权重矩阵

以及所述特征矩阵相乘，以生成本层的自注意力特征矩阵；

所述根据本层的权重矩阵、自定义权重矩阵

以及所述上一层的自注意力层的输入与所述输出之和，生成本层的自注意力特征矩阵包括：

将权重矩阵、自定义权重矩阵

以及所述上一层的自注意力层的输入与所述输出之和相乘，以生成本层的自注意力特征矩阵。

可选地，所述根据所述融合特征对所述待检索三维模型进行检索或者分类包括：

将所述融合特征输入至训练好的分类器中，以获取分类标签；或，

将所述融合特征输入至预设数据库中，以从预设数据库中找到与所述融合特征匹配的特征所对应的三维模型。

本申请还提供了一种基于深度注意力的三维模型分类和检索装置，所述基于深度注意力的三维模型分类和检索装置包括：

获取模块，所述获取模块用于获取待检索三维模型；

二维视图组生成模块，所述二维视图组生成模块用于根据所述待检索三维模型，映射生成二维视图组，所述二维视图组包括至少两个二维视图；

二维视图特征获取模块，所述二维视图特征获取模块用于获取每个所述二维视图的特征；

融合特征生成模块，所述融合特征生成模块用于通过深度注意力网络融合各个所述二维视图的特征，从而形成一个融合特征；

检索或分类模块，所述检索或分类模块用于根据所述融合特征对所述待检索三维模型进行检索或者分类。

本申请还提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于深度注意力的三维模型分类和检索方法。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够实现如上所述的基于深度注意力的三维模型分类和检索方法。

有益效果

1、本申请使用预训练CNN网络提取视图特征，能够充分利用之前学习到的能力提取视图的细节信息，同时减少了很大一部分计算量，进而缩短了训练时长；

2、本申请通过引入自注意力结构，能够从全局角度充分考虑多视图间的相关性信息，挖掘隐藏信息，减少信息冗余；

3、本申请在自注意力层后使用前馈网络，结合了网络浅层和深层的信息，增强了网络结构的鲁棒性；

4、本申请通过增加自注意力层的深度，再结合自注意力层自身的特点，使有效信息逐步融合并集中在少数的典型视图上，增强视图特征的描述能力；

5、本申请通过对比试验，证实了优于其方法包括基于多视图的，证实了融合有效信息和去除冗余信息的能力。

附图说明

图1为本申请第一实施例的基于深度注意力的三维模型分类和检索方法的流程示意图。

图2是能够实现根据本申请一个实施例提供的基于深度注意力的三维模型分类和检索方法的电子设备的示例性结构图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、 “前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请保护范围的限制。

如图1所示的基于深度注意力的三维模型分类和检索方法包括：

步骤1：获取待检索三维模型；

步骤2：根据所述待检索三维模型，映射生成二维视图组，所述二维视图组包括至少两个二维视图；

步骤3：获取每个所述二维视图的特征；

步骤4：通过深度注意力网络融合各个所述二维视图的特征，从而形成一个融合特征；

步骤5：根据所述融合特征对所述待检索三维模型进行检索或者分类。

有益效果

在本实施例中，根据所述待检索三维模型，映射生成二维视图组，所述二维视图组包括至少两个二维视图包括：

在本实施例中，所述使用phong算法在不同的角度和/或距离提取所述三维模型的二维视图，使用GoogleNet网络提取每个视图的特征包括：

在本实施例中，所述深度注意力网络包括n个处理层；其中第一层处理层为卷积层、最后一个处理层称为拼接层，其他处理层称为自注意力层。

在本实施例中，所述通过深度注意力网络融合各个所述二维视图的特征，从而形成一个融合特征包括：

以及

获取卷积层输出的所述特征矩阵；

获取本层的权重矩阵；

根据本层的权重矩阵、自定义权重矩阵

以及所述特征矩阵，生成本层的自注意力特征矩阵；

获取上一层的自注意力层的输入与所述输出之和；

以及

获取本层的权重矩阵；

根据本层的权重矩阵、自定义权重矩阵

在本实施例中，所述根据本层的权重矩阵、自定义权重矩阵

以及所述特征矩阵，生成本层的自注意力特征矩阵包括：

将权重矩阵、自定义权重矩阵

以及所述特征矩阵相乘，以生成本层的自注意力特征矩阵；

所述根据本层的权重矩阵、自定义权重矩阵

将权重矩阵、自定义权重矩阵

在本实施例中，所述根据所述融合特征对所述待检索三维模型进行检索或者分类包括：

下面以举例的方式对本申请进行进一步详细阐述，可以理解的是，该举例并不构成对本申请的任何限制。

实施例1

本申请的基于深度注意力的三维模型分类和检索方法主要包含两部分内容：一是生成二维视图，并提取视图的特征；二是深度注意力优化多视图的表征能力，融合多视图的有效信息，去除冗余信息。

本发明实施例提出的方法就是基于深度注意力有效地融合视图间的信息进行分类和检索的方法。具体实施步骤如下：

步骤1：获取待检索三维模型；

步骤2：根据所述待检索三维模型，映射生成二维视图组，所述二维视图组包括至少两个二维视图，具体地，利用算法将待检索三维模型映射为一组二维视图；

步骤3：获取每个所述二维视图的特征，具体地，使用预训练卷积网络提取每个视图的特征；

步骤4：通过深度注意力网络融合各个所述二维视图的特征，从而形成一个融合特征；具体地，将同一个三维模型的所有的视图特征组合成特征矩阵，自注意力层对特征矩阵的信息进行赋权处理，并使用前馈结构增强网络的鲁棒性，后面增加多层相同的自注意力层，使融合信息逐步融合在典型视图上。

步骤5：根据所述融合特征对所述待检索三维模型进行检索或者分类。具体地，融合多视图特征为一个特征向量来表征三维模型，最后通过全连接层进一步优化应用到分类和检索任务中。

1)使用phong算法，绕三维模型垂直方向的轴，每隔30度获取一个视图。同时与地平面夹角为30，以获取更多的细节信息。虽然更多的视图能够提供更多的信息，但是也同时引入了更多的冗余信息，效果反而会下降。同时，将同类三维模型在空间上进行对齐，保证同类三维模型生成的视图有序对应。本发明是将输入的视图特征作为一个有序的向量组输入进后面的网络中，无序的输入会干扰到视图信息的整合。

2)本发明使用已经训练好的GooglNet(包含全连接层)，它会会从输入的视图中提取一个4096维的特征向量。一个三维模型由一组特征视图 f＝{f₁,f₂,...,f_N}(f_i表示一个视图特征)构成，因为三维模型对齐，输出的特征向量也是有序排列的。

其中通过深度注意力网络融合各个所述二维视图的特征，从而形成一个融合特征包括：

在前边的步骤会得到三维模型的视图特征f(f＝{f₁,f₂,...,f_N}，f为每个二维视图的特征之和，f_i第i个二维视图的特征)，将其中的特征组合为一个特征矩阵输入到自注意力层中。自注意力层首先利用三个可学习权重矩阵 W_i ^Q、

以及

分别对每个视图特征进行转换，其中，

和

得到三个对应的向量矩阵F_q，F_k，F_v。然后将F_q和F_k进行矩阵运算，结果的每列再进行softmax处理，得到了每个视图对应的权重矩阵。最后利用权重矩阵将F_v转化为N个特征向量，与输入特征向量的数量和维度保持一致。

为了充分利用多视图中的初始相关信息，提高网络的鲁棒性，我们将当前层的输入和输出相加作为下一个自注意力层的输入。这个过程中两个相邻层可以表示如下：Fⁱ⁺¹＝Attention(Fⁱ)+Fⁱ；其中， Attention(Fⁱ)表示第i层自注意力层的自注意力特征矩阵；Fⁱ表示上一层的自注意力层的输入与所述输出之和，其中，当i等于0时，Fⁱ表示卷积层输出的特征矩阵。

级联的自注意力层能够有效融合多视图信息。每个自注意力层的输入和输出的特征向量的数量和维度都相同，根据这个特性，我们将多个自注意力层直接进行级联。随着深度的增加，有助于有效信息的融合，并将融合后的信息集中在典型的视图上，去除冗余信息。随着学习的进行，每层最高的权重会集中在同一视图上。深度注意力网络关注注意力单元的深度，注意力单元可以探索更高层次的关联性。通过增加自注意力层的深度，有效信息可以逐步被提取出来并融合。此外，因为深度注意力网络仅关注有区分度的典型视图，可以去除冗余信息。

拼接层用于将最后一层自注意力层的输出拼接成所述融合特征。

融合特征为一个特征向量来表征待检索三维模型，并使用全连接层进一步优化。

我们融合的时候，直接将最后一层自注意力层的输入以及输出之和在拼接层进行拼接为一个一维的向量，即：N×M→1×N*M，直接使用最大池化会损失重要的信息，导致多视图特征融合成的一维向量描述三维模型的能力下降。

本发明有两种可执行的融合方案：

将最后一层自注意力层的输入以及输出之和都融合在一起，这样能够充分应用所有的视图的信息。

选取最后一层自注意力层的输入以及输出之和中的权重最大的2个视图特征进行融合。因为自注意力层深度的增加，多视图的有效信息融合逐渐集中在典型的视图上，表现为典型视图对应的权重值较大。

输入到全连接层，相当于又一次进行了加权处理，将拼接成的特征向量进一步融合来表征三维模型。在倒数第二层取其输出的向量作为三维模型的表征，进行检索任务。在全连接层后加softmax来直接执行分类任务。

以上可以独立执行，这样就可以将训练时间主要用在深度注意力网路的学习上。

实施例2

对于二维视图的生成和视图特征的提取，首先设计虚拟相机位置的摆放，获取更多三维模型细节。在经过卷积神经网络得到视图的特征向量。

原始三维模型为网格数据，这样可以在三维空间获得一个封闭的三维模型。phong算法模拟一个相机，拍摄12个不同的角度视图。同时可以设置空间位置，绕z的角度为{0°；30°；60°；90°；120°；150°；180°；210°；240°；270°；300°；330°}，与水平方向夹角为30°。

每个视图大小为300×300，输入进预训练好的GoogleNet中。最后在网络倒数第二层输出维度为4096的特征向量。

将同一模型的12个视图组合为一个12×4096的矩阵来作为这个模型初始描述。

对于深度注意力层，多级自注意力层对多视图特征进行加权处理，融合有效信息，去除冗余。

由上面可知，每个模型由一个12×4096的特征矩阵F表示。在一个自注意力层中，使用维度为4096×64的可学习的权重矩阵W^Q，W^K和W^V分别与输入特征矩阵相乘，得到维度为12×64的矩阵S_q，S_k和S_v。

S_q与S_k相乘，乘以常数

控制大小，再对矩阵的列进行softmax操作得到归一化的权重矩阵A，其维度为12×12。

具体公式如下：

其中，

d_k是输入特征向量的维度，

的引入是为了控制权重的大小再将A与S_v相乘，得到一个新的12×4096的特征向量矩阵表征三维模型。

将输出的特征向量和输出的特征向量加和，经过两层全连接处理，输出 12×4096的矩阵。以上构成一个完成的自注意力层。此处12×4096的矩阵会作为下一个自注意力层的输入。

级联连接6个自注意力层构成深度注意力层，充分融合多视图的有效信息，逐级减少冗余信息。

对于多视图特征融合

1)直接将最优一个自注意力层输出的12个4096维的特征向量进行拼接变成1×12*4096，再进行全连处理，在分类任务中最后经过softmax，使用交叉熵进行学习。在分类任务训练好之后，输出全连接倒数第二层4096的向量用于检索。

2)或者仅选择权重最高的2个视图对应的特征，拼接为1×2*4096的向量来表征三维模型。

综上所述，本发明实施例通过上述步骤详细地介绍了多视图信息逐渐融合，有效信息逐步集中在典型视图上，减少视图间的冗余信息，提高最终三维模型特征的表达能力。

实施例3

下面结合具体的实例，对实施例1和2中的方案进行可行性验证，详见下文描述：

本发明在普林斯顿ModelNet数据集上实验。MdelNet由622个种类的 127915个三维CAD模型构成。我们进一步下采样出ModelNet40作为 ModelNet的子集，这个子集包含了40个种类的12311个CAD模型。这些模型都经过了手动清洗，但是没有对姿势规范。ModelNet40训练和测试子集分别由9843和2468个模型构成。

本发明对比了与多头注意力网络进行了对比，证明了深度网络的优势，实验结果如表1。其中多头设置为{1；2；4；6；8}，自注意力层只有一层。而对比方案是单头自注意力层数为6和8的网络。

同时，本发明与一些当前最好的方法进行对比实验。我们展示了三个基于模型的典型方法的输出表现，包括：SPH，LFD和3D ShapeNets，许多基于视图的典型方法，例如：MVCNN，MVCNN-MultiRes和GVCNN，一些典型的基于点云的模型，像PointNet，PointNet++和PointCNN，还有一个典型的基于全景图的方法PANORAMA-NN用于扩展对比。如表2所示。

表1

表2

本申请还提供了一种基于深度注意力的三维模型分类和检索装置，所述基于深度注意力的三维模型分类和检索装置包括获取模块、二维视图组生成模块、二维视图特征获取模块、融合特征生成模块以及检索或分类模块，获取模块用于获取待检索三维模型；二维视图组生成模块用于根据所述待检索三维模型，映射生成二维视图组，所述二维视图组包括至少两个二维视图；二维视图特征获取模块用于获取每个所述二维视图的特征；融合特征生成模块用于通过深度注意力网络融合各个所述二维视图的特征，从而形成一个融合特征；检索或分类模块用于根据所述融合特征对所述待检索三维模型进行检索或者分类。

需要说明的是，前述对方法实施例的解释说明也适用于本实施例的装置，此处不再赘述。

本申请还提供了一种电子设备，包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的基于深度注意力的三维模型分类和检索方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的基于深度注意力的三维模型分类和检索方法。

如图2所示，电子设备包括输入设备501、输入接口502、中央处理器 503、存储器504、输出接口505以及输出设备506。其中，输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接，输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507 连接，进而与电子设备的其他组件连接。具体地，输入设备504接收来自外部的输入信息，并通过输入接口502将输入信息传送到中央处理器503；中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器504中，然后通过输出接口505将输出信息传送到输出设备506；输出设备506将输出信息输出到电子设备的外部供用户使用。

也就是说，图2所示的电子设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及一个或多个处理器，该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的基于深度注意力的三维模型分类和检索方法。

在一个实施例中，图2所示的电子设备可以被实现为包括：存储器504，被配置为存储可执行程序代码；一个或多个处理器503，被配置为运行存储器504中存储的可执行程序代码，以执行上述实施例中的自适应播放终端播放方法。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/ 输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动，媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

此外，显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称，而不标识任何特定的顺序。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地标识的方框实际上可以基本并行地执行，他们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的*** 来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本实施例中所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在本实施例中，装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上，但其实并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此，本申请的保护范围应当以本申请权利要求所界定的范围为准。

在本实施例中所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor， DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本实施例中，装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于深度注意力的三维模型分类和检索方法，其特征在于，所述基于深度注意力的三维模型分类和检索方法包括：

获取待检索三维模型；

获取每个所述二维视图的特征；

根据所述融合特征对所述待检索三维模型进行检索或者分类；所述根据所述待检索三维模型，映射生成二维视图组，所述二维视图组包括至少两个二维视图包括：

使用phong算法在不同的角度和/或距离提取所述三维模型的二维视图，使用GoogleNet网络提取每个视图的特征；所述使用phong算法在不同的角度和/或距离提取所述三维模型的二维视图，使用GoogleNet网络提取每个视图的特征包括：

利用三维phong反射算法生成视图，以一定的间隔θ＝30环绕垂直方向的轴放置，与地平面成30度角，每个相机指向网格的质心；所述深度注意力网络包括n个处理层；其中第一层处理层为卷积层、最后一个处理层称为拼接层，其他处理层称为自注意力层；所述通过深度注意力网络融合各个所述二维视图的特征，从而形成一个融合特征包括：

将各个自注意力层叠设，其中一个自注意力层与卷积层相接，作为第一层自注意力层，一个自注意力层与所述拼接层相接，作为最后一层自注意力层，除第一层自注意力层外，每层自注意力层的输入等于上一层的输入以及输出之和，所述拼接层用于获取所述最后一层自注意力层的输入以及输出之和；其中，

获取本层的自定义权重矩阵，所述自定义权重矩阵包括