CN113313140B - 基于深度注意力的三维模型分类和检索方法及装置 - Google Patents

基于深度注意力的三维模型分类和检索方法及装置 Download PDF

Info

Publication number
CN113313140B
CN113313140B CN202110402765.8A CN202110402765A CN113313140B CN 113313140 B CN113313140 B CN 113313140B CN 202110402765 A CN202110402765 A CN 202110402765A CN 113313140 B CN113313140 B CN 113313140B
Authority
CN
China
Prior art keywords
layer
attention
self
dimensional
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110402765.8A
Other languages
English (en)
Other versions
CN113313140A (zh
Inventor
魏志强
贾东宁
许佳立
殷波
黄贤青
马猛飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Qingdao National Laboratory for Marine Science and Technology Development Center
Original Assignee
Ocean University of China
Qingdao National Laboratory for Marine Science and Technology Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China, Qingdao National Laboratory for Marine Science and Technology Development Center filed Critical Ocean University of China
Priority to CN202110402765.8A priority Critical patent/CN113313140B/zh
Priority to EP21180769.8A priority patent/EP4075328A1/en
Publication of CN113313140A publication Critical patent/CN113313140A/zh
Application granted granted Critical
Publication of CN113313140B publication Critical patent/CN113313140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于深度注意力的三维模型分类和检索方法及装置。所述基于深度注意力的三维模型分类和检索方法包括:获取待检索三维模型;根据所述待检索三维模型,映射生成二维视图组,所述二维视图组包括至少两个二维视图;获取每个所述二维视图的特征;通过深度注意力网络融合各个所述二维视图的特征,从而形成一个融合特征;根据所述融合特征对所述待检索三维模型进行检索或者分类。本申请通过引入自注意力结构,能够从全局角度充分考虑多视图间的相关性信息,挖掘隐藏信息,减少信息冗余。

Description

基于深度注意力的三维模型分类和检索方法及装置
技术领域
本发明涉及三维模型检索分类技术领域,具体涉及一种基于深度注意力 的三维模型分类和检索方法以及基于深度注意力的三维模型分类和检索装 置。
背景技术
三维形状识别在计算机领域是一个重要课题,且由于近些年在实际场景 中的广泛应用而获得了更多的研究关注,例如:计算机辅助设计,虚拟现实 和工业产品设计。同时,随着三维采集技术的发展,获取大量三维形状数据 变得更加方便了,这就对三维形状识别算法提出了越来越高的要求。由于基 于数据驱动的深度学习技术的迅速发展,各种深度神经网络的研究应被用于 三维形状识别,例如:PointNet,VoxNet和3D Shapenet。在这些方法中,基 于视图的方法取得了更好的表现。因为基于视图的方法关注的是视图信息,这些方法就可以利用已经建立的模型,例如:VGG,GoogleNet和ResNet用 于提取视觉特征。这些典型的深度学习模型可以有效改善模型表征的性能。
三维形状识别的关键点是描述子的设计。在深度学习方法的发展的基础 上,人们提出了很多基于视图的三维形状识别的方法。Klokov等人提出了 KD网络,此结构可以处理非结构化的点云。它们利用kd树进行点云的细分 计算。
现有的三维模型分类和检索问题在于:
1)由于三维模型数据量较大,如何高效地学习有区分度的特征,降低 计算量是一个重大的挑战。
2)基于视图的方法往往不能同时有效地处理视图间有效信息的融合和 冗余信息的去除,会产生冗余信息干扰有效信息融合的情况,或者去除冗余 信息的时候导致了有效信息的融合能力下降。
因此,希望有一种技术方案来克服或至少减轻现有技术的至少一个上述 缺陷。
发明内容
本发明的目的在于提供一种基于深度注意力的三维模型分类和检索方 法,来克服或至少减轻现有技术的至少一个上述缺陷。
本发明的一个方面,提供一种基于深度注意力的三维模型分类和检索方 法,所述基于深度注意力的三维模型分类和检索方法包括:
获取待检索三维模型;
根据所述待检索三维模型,映射生成二维视图组,所述二维视图组包括 至少两个二维视图;
获取每个所述二维视图的特征;
通过深度注意力网络融合各个所述二维视图的特征,从而形成一个融合 特征;
根据所述融合特征对所述待检索三维模型进行检索或者分类。
可选地,所述根据所述待检索三维模型,映射生成二维视图组,所述二 维视图组包括至少两个二维视图包括:
使用phong算法在不同的角度和/或距离提取所述三维模型的二维视图, 使用GoogleNet网络提取每个视图的特征。
可选地,所述使用phong算法在不同的角度和/或距离提取所述三维模型 的二维视图,使用GoogleNet网络提取每个视图的特征包括:
利用三维phong反射算法生成视图,以一定的间隔θ=30环绕垂直方向的 轴放置,与地平面成30度角,每个相机指向网格的质心。
可选地,所述深度注意力网络包括n个处理层;其中第一层处理层为卷 积层、最后一个处理层称为拼接层,其他处理层称为自注意力层。
可选地,所述通过深度注意力网络融合各个所述二维视图的特征,从而 形成一个融合特征包括:
各个自注意力层叠设,其中一个自注意力层与卷积层相接,作为第一层 自注意力层,一个自注意力层与所述拼接层相接,作为最后一层自注意力层, 除第一层自注意力层外,所述拼接层用于获取所述最后一层自注意力层的输 入以及输出之和;其中,
所述卷积层用于根据各个所述二维视图的特征获取特征矩阵;
所述拼接层用于将最后一层自注意力层的输入以及输出之和拼接成所述 融合特征;
所述第一层自注意力层进行如下操作获取本层的输入与所述输出之和:
获取本层的自定义权重矩阵,所述自定义权重矩阵包括Wi Q
Figure BDA0003020968410000031
以及
Figure BDA0003020968410000032
获取卷积层输出的所述特征矩阵;
通过softmax函数根据所述特征矩阵以及本层的自定义权重矩阵Wi Q
Figure BDA0003020968410000033
获取本层的权重矩阵;
根据本层的权重矩阵、自定义权重矩阵
Figure BDA0003020968410000034
以及所述特征矩阵,生成本层 的自注意力特征矩阵;
将本层的所述自注意力特征矩阵与所述特征矩阵相加,从而获得本层的 输入与所述输出之和;
所述除第一层自注意力层外的其他每层自注意力层进行如下操作获取自 身的输入与所述输出之和:
获取上一层的自注意力层的输入与所述输出之和;
获取本层的自定义权重矩阵,所述自定义权重矩阵包括Wi Q
Figure BDA0003020968410000035
以及
Figure BDA0003020968410000036
通过softmax函数根据所述上一层的自注意力层的输入与所述输出之和 以及本层的自定义权重矩阵Wi Q
Figure BDA0003020968410000037
获取本层的权重矩阵;
根据本层的权重矩阵、自定义权重矩阵
Figure BDA0003020968410000038
以及所述上一层的自注意力层 的输入与所述输出之和,生成本层的自注意力特征矩阵;
将本层的所述自注意力特征矩阵与所述上一层的自注意力层的输入与所 述输出之和相加,从而获得本层的输入与所述输出之和。
可选地,所述根据本层的权重矩阵、自定义权重矩阵
Figure BDA0003020968410000041
以及所述特征矩 阵,生成本层的自注意力特征矩阵包括:
将权重矩阵、自定义权重矩阵
Figure BDA0003020968410000042
以及所述特征矩阵相乘,以生成本层的 自注意力特征矩阵;
所述根据本层的权重矩阵、自定义权重矩阵
Figure BDA0003020968410000043
以及所述上一层的自注意 力层的输入与所述输出之和,生成本层的自注意力特征矩阵包括:
将权重矩阵、自定义权重矩阵
Figure BDA0003020968410000044
以及所述上一层的自注意力层的输入与 所述输出之和相乘,以生成本层的自注意力特征矩阵。
可选地,所述根据所述融合特征对所述待检索三维模型进行检索或者分 类包括:
将所述融合特征输入至训练好的分类器中,以获取分类标签;或,
将所述融合特征输入至预设数据库中,以从预设数据库中找到与所述融 合特征匹配的特征所对应的三维模型。
本申请还提供了一种基于深度注意力的三维模型分类和检索装置,所述 基于深度注意力的三维模型分类和检索装置包括:
获取模块,所述获取模块用于获取待检索三维模型;
二维视图组生成模块,所述二维视图组生成模块用于根据所述待检索三 维模型,映射生成二维视图组,所述二维视图组包括至少两个二维视图;
二维视图特征获取模块,所述二维视图特征获取模块用于获取每个所述 二维视图的特征;
融合特征生成模块,所述融合特征生成模块用于通过深度注意力网络融 合各个所述二维视图的特征,从而形成一个融合特征;
检索或分类模块,所述检索或分类模块用于根据所述融合特征对所述待 检索三维模型进行检索或者分类。
本申请还提供了一种电子设备,包括存储器、处理器以及存储在所述存 储器中并能够在所述处理器上运行的计算机程序,所述处理器执行所述计算 机程序时实现如上所述的基于深度注意力的三维模型分类和检索方法。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存 储有计算机程序,所述计算机程序被处理器执行时能够实现如上所述的基于 深度注意力的三维模型分类和检索方法。
有益效果
1、本申请使用预训练CNN网络提取视图特征,能够充分利用之前学习 到的能力提取视图的细节信息,同时减少了很大一部分计算量,进而缩短了 训练时长;
2、本申请通过引入自注意力结构,能够从全局角度充分考虑多视图间 的相关性信息,挖掘隐藏信息,减少信息冗余;
3、本申请在自注意力层后使用前馈网络,结合了网络浅层和深层的信 息,增强了网络结构的鲁棒性;
4、本申请通过增加自注意力层的深度,再结合自注意力层自身的特点, 使有效信息逐步融合并集中在少数的典型视图上,增强视图特征的描述能力;
5、本申请通过对比试验,证实了优于其方法包括基于多视图的,证实 了融合有效信息和去除冗余信息的能力。
附图说明
图1为本申请第一实施例的基于深度注意力的三维模型分类和检索方法 的流程示意图。
图2是能够实现根据本申请一个实施例提供的基于深度注意力的三维模 型分类和检索方法的电子设备的示例性结构图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请 实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。在附 图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似 功能的元件。所描述的实施例是本申请一部分实施例,而不是全部的实施例。 下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能 理解为对本申请的限制。基于本申请中的实施例,本领域普通技术人员在没 有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范 围。下面结合附图对本申请的实施例进行详细说明。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、 “前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系, 仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件 必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请 保护范围的限制。
图1为本申请第一实施例的基于深度注意力的三维模型分类和检索方法 的流程示意图。
如图1所示的基于深度注意力的三维模型分类和检索方法包括:
步骤1:获取待检索三维模型;
步骤2:根据所述待检索三维模型,映射生成二维视图组,所述二维视 图组包括至少两个二维视图;
步骤3:获取每个所述二维视图的特征;
步骤4:通过深度注意力网络融合各个所述二维视图的特征,从而形成 一个融合特征;
步骤5:根据所述融合特征对所述待检索三维模型进行检索或者分类。
有益效果
1、本申请使用预训练CNN网络提取视图特征,能够充分利用之前学习 到的能力提取视图的细节信息,同时减少了很大一部分计算量,进而缩短了 训练时长;
2、本申请通过引入自注意力结构,能够从全局角度充分考虑多视图间 的相关性信息,挖掘隐藏信息,减少信息冗余;
3、本申请在自注意力层后使用前馈网络,结合了网络浅层和深层的信 息,增强了网络结构的鲁棒性;
4、本申请通过增加自注意力层的深度,再结合自注意力层自身的特点, 使有效信息逐步融合并集中在少数的典型视图上,增强视图特征的描述能力;
5、本申请通过对比试验,证实了优于其方法包括基于多视图的,证实 了融合有效信息和去除冗余信息的能力。
在本实施例中,根据所述待检索三维模型,映射生成二维视图组,所述 二维视图组包括至少两个二维视图包括:
使用phong算法在不同的角度和/或距离提取所述三维模型的二维视图, 使用GoogleNet网络提取每个视图的特征。
在本实施例中,所述使用phong算法在不同的角度和/或距离提取所述三 维模型的二维视图,使用GoogleNet网络提取每个视图的特征包括:
利用三维phong反射算法生成视图,以一定的间隔θ=30环绕垂直方向的 轴放置,与地平面成30度角,每个相机指向网格的质心。
在本实施例中,所述深度注意力网络包括n个处理层;其中第一层处理 层为卷积层、最后一个处理层称为拼接层,其他处理层称为自注意力层。
在本实施例中,所述通过深度注意力网络融合各个所述二维视图的特征, 从而形成一个融合特征包括:
各个自注意力层叠设,其中一个自注意力层与卷积层相接,作为第一层 自注意力层,一个自注意力层与所述拼接层相接,作为最后一层自注意力层, 除第一层自注意力层外,所述拼接层用于获取所述最后一层自注意力层的输 入以及输出之和;其中,
所述卷积层用于根据各个所述二维视图的特征获取特征矩阵;
所述拼接层用于将最后一层自注意力层的输入以及输出之和拼接成所述 融合特征;
所述第一层自注意力层进行如下操作获取本层的输入与所述输出之和:
获取本层的自定义权重矩阵,所述自定义权重矩阵包括Wi Q
Figure BDA0003020968410000081
以及
Figure BDA0003020968410000082
获取卷积层输出的所述特征矩阵;
通过softmax函数根据所述特征矩阵以及本层的自定义权重矩阵Wi Q
Figure BDA0003020968410000083
获取本层的权重矩阵;
根据本层的权重矩阵、自定义权重矩阵
Figure BDA0003020968410000084
以及所述特征矩阵,生成本层 的自注意力特征矩阵;
将本层的所述自注意力特征矩阵与所述特征矩阵相加,从而获得本层的 输入与所述输出之和;
所述除第一层自注意力层外的其他每层自注意力层进行如下操作获取自 身的输入与所述输出之和:
获取上一层的自注意力层的输入与所述输出之和;
获取本层的自定义权重矩阵,所述自定义权重矩阵包括Wi Q
Figure BDA0003020968410000085
以及
Figure BDA0003020968410000086
通过softmax函数根据所述上一层的自注意力层的输入与所述输出之和 以及本层的自定义权重矩阵Wi Q
Figure BDA0003020968410000087
获取本层的权重矩阵;
根据本层的权重矩阵、自定义权重矩阵
Figure BDA0003020968410000088
以及所述上一层的自注意力层 的输入与所述输出之和,生成本层的自注意力特征矩阵;
将本层的所述自注意力特征矩阵与所述上一层的自注意力层的输入与所 述输出之和相加,从而获得本层的输入与所述输出之和。
在本实施例中,所述根据本层的权重矩阵、自定义权重矩阵
Figure BDA0003020968410000089
以及所述 特征矩阵,生成本层的自注意力特征矩阵包括:
将权重矩阵、自定义权重矩阵
Figure BDA00030209684100000810
以及所述特征矩阵相乘,以生成本层的 自注意力特征矩阵;
所述根据本层的权重矩阵、自定义权重矩阵
Figure BDA00030209684100000811
以及所述上一层的自注意 力层的输入与所述输出之和,生成本层的自注意力特征矩阵包括:
将权重矩阵、自定义权重矩阵
Figure BDA0003020968410000091
以及所述上一层的自注意力层的输入与 所述输出之和相乘,以生成本层的自注意力特征矩阵。
在本实施例中,所述根据所述融合特征对所述待检索三维模型进行检索 或者分类包括:
将所述融合特征输入至训练好的分类器中,以获取分类标签;或,
将所述融合特征输入至预设数据库中,以从预设数据库中找到与所述融 合特征匹配的特征所对应的三维模型。
下面以举例的方式对本申请进行进一步详细阐述,可以理解的是,该举 例并不构成对本申请的任何限制。
实施例1
本申请的基于深度注意力的三维模型分类和检索方法主要包含两部分内 容:一是生成二维视图,并提取视图的特征;二是深度注意力优化多视图的 表征能力,融合多视图的有效信息,去除冗余信息。
本发明实施例提出的方法就是基于深度注意力有效地融合视图间的信息 进行分类和检索的方法。具体实施步骤如下:
步骤1:获取待检索三维模型;
步骤2:根据所述待检索三维模型,映射生成二维视图组,所述二维视 图组包括至少两个二维视图,具体地,利用算法将待检索三维模型映射为一 组二维视图;
步骤3:获取每个所述二维视图的特征,具体地,使用预训练卷积网络 提取每个视图的特征;
步骤4:通过深度注意力网络融合各个所述二维视图的特征,从而形成一 个融合特征;具体地,将同一个三维模型的所有的视图特征组合成特征矩阵, 自注意力层对特征矩阵的信息进行赋权处理,并使用前馈结构增强网络的鲁 棒性,后面增加多层相同的自注意力层,使融合信息逐步融合在典型视图上。
步骤5:根据所述融合特征对所述待检索三维模型进行检索或者分类。具 体地,融合多视图特征为一个特征向量来表征三维模型,最后通过全连接层 进一步优化应用到分类和检索任务中。
在本实施例中,根据所述待检索三维模型,映射生成二维视图组,所述二 维视图组包括至少两个二维视图包括:
1)使用phong算法,绕三维模型垂直方向的轴,每隔30度获取一个视 图。同时与地平面夹角为30,以获取更多的细节信息。虽然更多的视图能够 提供更多的信息,但是也同时引入了更多的冗余信息,效果反而会下降。同 时,将同类三维模型在空间上进行对齐,保证同类三维模型生成的视图有序 对应。本发明是将输入的视图特征作为一个有序的向量组输入进后面的网络 中,无序的输入会干扰到视图信息的整合。
2)本发明使用已经训练好的GooglNet(包含全连接层),它会会从输入 的视图中提取一个4096维的特征向量。一个三维模型由一组特征视图 f={f1,f2,...,fN}(fi表示一个视图特征)构成,因为三维模型对齐,输出的特 征向量也是有序排列的。
其中通过深度注意力网络融合各个所述二维视图的特征,从而形成一个 融合特征包括:
在前边的步骤会得到三维模型的视图特征f(f={f1,f2,...,fN},f为每个 二维视图的特征之和,fi第i个二维视图的特征),将其中的特征组合为一 个特征矩阵输入到自注意力层中。自注意力层首先利用三个可学习权重矩阵 Wi Q
Figure BDA0003020968410000101
以及
Figure BDA0003020968410000102
分别对每个视图特征进行转换,其中,
Figure BDA0003020968410000103
Figure BDA0003020968410000104
得到三个对应的向量矩阵Fq,Fk,Fv。然后将Fq和Fk进行矩 阵运算,结果的每列再进行softmax处理,得到了每个视图对应的权重矩阵。 最后利用权重矩阵将Fv转化为N个特征向量,与输入特征向量的数量和维度 保持一致。
为了充分利用多视图中的初始相关信息,提高网络的鲁棒性,我们将当 前层的输入和输出相加作为下一个自注意力层的输入。这个过程中两个相邻 层可以表示如下:Fi+1=Attention(Fi)+Fi;其中, Attention(Fi)表示第i层自注意力层的自注意力特征矩阵;Fi表示上一层的自 注意力层的输入与所述输出之和,其中,当i等于0时,Fi表示卷积层输出的特征矩阵。
级联的自注意力层能够有效融合多视图信息。每个自注意力层的输入和 输出的特征向量的数量和维度都相同,根据这个特性,我们将多个自注意力 层直接进行级联。随着深度的增加,有助于有效信息的融合,并将融合后的 信息集中在典型的视图上,去除冗余信息。随着学习的进行,每层最高的权 重会集中在同一视图上。深度注意力网络关注注意力单元的深度,注意力单 元可以探索更高层次的关联性。通过增加自注意力层的深度,有效信息可以 逐步被提取出来并融合。此外,因为深度注意力网络仅关注有区分度的典型视图,可以去除冗余信息。
拼接层用于将最后一层自注意力层的输出拼接成所述融合特征。
融合特征为一个特征向量来表征待检索三维模型,并使用全连接层进一 步优化。
我们融合的时候,直接将最后一层自注意力层的输入以及输出之和在拼 接层进行拼接为一个一维的向量,即:N×M→1×N*M,直接使用最大池化 会损失重要的信息,导致多视图特征融合成的一维向量描述三维模型的能力 下降。
本发明有两种可执行的融合方案:
将最后一层自注意力层的输入以及输出之和都融合在一起,这样能够充 分应用所有的视图的信息。
选取最后一层自注意力层的输入以及输出之和中的权重最大的2个视图 特征进行融合。因为自注意力层深度的增加,多视图的有效信息融合逐渐集 中在典型的视图上,表现为典型视图对应的权重值较大。
输入到全连接层,相当于又一次进行了加权处理,将拼接成的特征向量 进一步融合来表征三维模型。在倒数第二层取其输出的向量作为三维模型的 表征,进行检索任务。在全连接层后加softmax来直接执行分类任务。
以上可以独立执行,这样就可以将训练时间主要用在深度注意力网路的 学习上。
实施例2
对于二维视图的生成和视图特征的提取,首先设计虚拟相机位置的摆放, 获取更多三维模型细节。在经过卷积神经网络得到视图的特征向量。
原始三维模型为网格数据,这样可以在三维空间获得一个封闭的三维模 型。phong算法模拟一个相机,拍摄12个不同的角度视图。同时可以设置空 间位置,绕z的角度为{0°;30°;60°;90°;120°;150°;180°;210°;240°;270°;300°;330°},与 水平方向夹角为30°。
每个视图大小为300×300,输入进预训练好的GoogleNet中。最后在网络 倒数第二层输出维度为4096的特征向量。
将同一模型的12个视图组合为一个12×4096的矩阵来作为这个模型初始 描述。
对于深度注意力层,多级自注意力层对多视图特征进行加权处理,融合 有效信息,去除冗余。
由上面可知,每个模型由一个12×4096的特征矩阵F表示。在一个自注意 力层中,使用维度为4096×64的可学习的权重矩阵WQ,WK和WV分别与输入 特征矩阵相乘,得到维度为12×64的矩阵Sq,Sk和Sv
Sq与Sk相乘,乘以常数
Figure BDA0003020968410000121
控制大小,再对矩阵的列进行softmax操作 得到归一化的权重矩阵A,其维度为12×12。
具体公式如下:
Figure BDA0003020968410000122
其中,
dk是输入特征向量的维度,
Figure BDA0003020968410000123
的引入是为了控制权重的大小 再将A与Sv相乘,得到一个新的12×4096的特征向量矩阵表征三维模型。
将输出的特征向量和输出的特征向量加和,经过两层全连接处理,输出 12×4096的矩阵。以上构成一个完成的自注意力层。此处12×4096的矩阵会作 为下一个自注意力层的输入。
级联连接6个自注意力层构成深度注意力层,充分融合多视图的有效信 息,逐级减少冗余信息。
对于多视图特征融合
1)直接将最优一个自注意力层输出的12个4096维的特征向量进行拼接 变成1×12*4096,再进行全连处理,在分类任务中最后经过softmax,使用交 叉熵进行学习。在分类任务训练好之后,输出全连接倒数第二层4096的向量 用于检索。
2)或者仅选择权重最高的2个视图对应的特征,拼接为1×2*4096的向量 来表征三维模型。
综上所述,本发明实施例通过上述步骤详细地介绍了多视图信息逐渐融 合,有效信息逐步集中在典型视图上,减少视图间的冗余信息,提高最终三 维模型特征的表达能力。
实施例3
下面结合具体的实例,对实施例1和2中的方案进行可行性验证,详见 下文描述:
本发明在普林斯顿ModelNet数据集上实验。MdelNet由622个种类的 127915个三维CAD模型构成。我们进一步下采样出ModelNet40作为 ModelNet的子集,这个子集包含了40个种类的12311个CAD模型。这些模 型都经过了手动清洗,但是没有对姿势规范。ModelNet40训练和测试子集分 别由9843和2468个模型构成。
本发明对比了与多头注意力网络进行了对比,证明了深度网络的优势, 实验结果如表1。其中多头设置为{1;2;4;6;8},自注意力层只有一层。而对比 方案是单头自注意力层数为6和8的网络。
同时,本发明与一些当前最好的方法进行对比实验。我们展示了三个基 于模型的典型方法的输出表现,包括:SPH,LFD和3D ShapeNets,许多基 于视图的典型方法,例如:MVCNN,MVCNN-MultiRes和GVCNN,一些 典型的基于点云的模型,像PointNet,PointNet++和PointCNN,还有一个 典型的基于全景图的方法PANORAMA-NN用于扩展对比。如表2所示。
表1
Figure BDA0003020968410000131
表2
Figure BDA0003020968410000141
本申请还提供了一种基于深度注意力的三维模型分类和检索装置,所述 基于深度注意力的三维模型分类和检索装置包括获取模块、二维视图组生成 模块、二维视图特征获取模块、融合特征生成模块以及检索或分类模块,获 取模块用于获取待检索三维模型;二维视图组生成模块用于根据所述待检索 三维模型,映射生成二维视图组,所述二维视图组包括至少两个二维视图; 二维视图特征获取模块用于获取每个所述二维视图的特征;融合特征生成模 块用于通过深度注意力网络融合各个所述二维视图的特征,从而形成一个融 合特征;检索或分类模块用于根据所述融合特征对所述待检索三维模型进行 检索或者分类。
需要说明的是,前述对方法实施例的解释说明也适用于本实施例的装置, 此处不再赘述。
本申请还提供了一种电子设备,包括存储器、处理器以及存储在存储器 中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上 的基于深度注意力的三维模型分类和检索方法。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储有 计算机程序,计算机程序被处理器执行时能够实现如上的基于深度注意力的 三维模型分类和检索方法。
图2是能够实现根据本申请一个实施例提供的基于深度注意力的三维模 型分类和检索方法的电子设备的示例性结构图。
如图2所示,电子设备包括输入设备501、输入接口502、中央处理器 503、存储器504、输出接口505以及输出设备506。其中,输入接口502、 中央处理器503、存储器504以及输出接口505通过总线507相互连接,输 入设备501和输出设备506分别通过输入接口502和输出接口505与总线507 连接,进而与电子设备的其他组件连接。具体地,输入设备504接收来自外 部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中 央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处 理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后 通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信 息输出到电子设备的外部供用户使用。
也就是说,图2所示的电子设备也可以被实现为包括:存储有计算机可 执行指令的存储器;以及一个或多个处理器,该一个或多个处理器在执行计 算机可执行指令时可以实现结合图1描述的基于深度注意力的三维模型分类 和检索方法。
在一个实施例中,图2所示的电子设备可以被实现为包括:存储器504, 被配置为存储可执行程序代码;一个或多个处理器503,被配置为运行存储 器504中存储的可执行程序代码,以执行上述实施例中的自适应播放终端播 放方法。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/ 输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动,媒体可以 由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、 程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、 其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可 编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁 带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储 可以被计算设备访问的信息。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机 程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软 件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含 有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述 的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。 第一、第二等词语用来标识名称,而不标识任何特定的顺序。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和 计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或 框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程 序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指 令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以 不同于附图中所标注的顺序发生。例如,两个接连地标识的方框实际上可以 基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而 定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或总流程 图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的*** 来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本实施例中所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可 编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器 件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处 理器或者该处理器也可以是任何常规的处理器等。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在 存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装 置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中, 存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放 功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数 据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存 储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存 储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存 卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存 储器件。
在本实施例中,装置/终端设备集成的模块/单元如果以软件功能单元的 形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存 储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流 程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储 于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述 各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程 序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记 录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM, Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、 电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介 质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增 减。本申请虽然以较佳实施例公开如上,但其实并不是用来限定本申请,任 何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动 和修改,因此,本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/ 输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动,媒体可以 由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、 程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、 其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可 编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁 带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储 可以被计算设备访问的信息。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机 程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软 件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含 有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述 的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。 第一、第二等词语用来标识名称,而不标识任何特定的顺序。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和 计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或 框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程 序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指 令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以 不同于附图中所标注的顺序发生。例如,两个接连地标识的方框实际上可以 基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而 定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或总流程 图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的*** 来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本实施例中所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可 编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器 件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处 理器或者该处理器也可以是任何常规的处理器等。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在 存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装 置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中, 存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放 功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数 据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存 储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存 储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存 卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存 储器件。
在本实施例中,装置/终端设备集成的模块/单元如果以软件功能单元的 形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存 储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流 程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储 于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述 各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程 序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记 录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM, Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、 电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介 质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增 减。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描 述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员 而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或 改进,均属于本发明要求保护的范围。

Claims (6)

1.一种基于深度注意力的三维模型分类和检索方法,其特征在于,所述基于深度注意力的三维模型分类和检索方法包括:
获取待检索三维模型;
根据所述待检索三维模型,映射生成二维视图组,所述二维视图组包括至少两个二维视图;
获取每个所述二维视图的特征;
通过深度注意力网络融合各个所述二维视图的特征,从而形成一个融合特征;
根据所述融合特征对所述待检索三维模型进行检索或者分类;所述根据所述待检索三维模型,映射生成二维视图组,所述二维视图组包括至少两个二维视图包括:
使用phong算法在不同的角度和/或距离提取所述三维模型的二维视图,使用GoogleNet网络提取每个视图的特征;所述使用phong算法在不同的角度和/或距离提取所述三维模型的二维视图,使用GoogleNet网络提取每个视图的特征包括:
利用三维phong反射算法生成视图,以一定的间隔θ=30环绕垂直方向的轴放置,与地平面成30度角,每个相机指向网格的质心;所述深度注意力网络包括n个处理层;其中第一层处理层为卷积层、最后一个处理层称为拼接层,其他处理层称为自注意力层;所述通过深度注意力网络融合各个所述二维视图的特征,从而形成一个融合特征包括:
将各个自注意力层叠设,其中一个自注意力层与卷积层相接,作为第一层自注意力层,一个自注意力层与所述拼接层相接,作为最后一层自注意力层,除第一层自注意力层外,每层自注意力层的输入等于上一层的输入以及输出之和,所述拼接层用于获取所述最后一层自注意力层的输入以及输出之和;其中,
所述卷积层用于根据各个所述二维视图的特征获取特征矩阵;
所述拼接层用于将最后一层自注意力层的输入以及输出之和拼接成所述融合特征;
所述第一层自注意力层进行如下操作获取本层的输入与所述输出之和:
获取本层的自定义权重矩阵,所述自定义权重矩阵包括
Figure FDA0003858116550000021
以及
Figure FDA0003858116550000022
获取卷积层输出的所述特征矩阵;
通过softmax函数根据所述特征矩阵以及本层的自定义权重矩阵
Figure FDA0003858116550000023
Figure FDA0003858116550000024
获取本层的权重矩阵;
根据本层的权重矩阵、自定义权重矩阵
Figure FDA0003858116550000025
以及所述特征矩阵,生成本层的自注意力特征矩阵;
将本层的所述自注意力特征矩阵与所述特征矩阵相加,从而获得本层的输入与所述输出之和;
所述除第一层自注意力层外的其他每层自注意力层进行如下操作获取自身的输入与所述输出之和:
获取上一层的自注意力层的输入与所述输出之和;
获取本层的自定义权重矩阵,所述自定义权重矩阵包括
Figure FDA0003858116550000026
以及
Figure FDA0003858116550000027
通过softmax函数根据所述上一层的自注意力层的输入与所述输出之和以及本层的自定义权重矩阵
Figure FDA0003858116550000028
获取本层的权重矩阵;
根据本层的权重矩阵、自定义权重矩阵
Figure FDA0003858116550000029
以及所述上一层的自注意力层的输入与所述输出之和,生成本层的自注意力特征矩阵;
将本层的所述自注意力特征矩阵与所述上一层的自注意力层的输入与所述输出之和相加,从而获得本层的输入与所述输出之和。
2.如权利要求1所述的基于深度注意力的三维模型分类和检索方法,其特征在于,所述根据本层的权重矩阵、自定义权重矩阵
Figure FDA00038581165500000210
以及所述特征矩阵,生成本层的自注意力特征矩阵包括:
将权重矩阵、自定义权重矩阵
Figure FDA0003858116550000031
以及所述特征矩阵相乘,以生成本层的自注意力特征矩阵;
所述根据本层的权重矩阵、自定义权重矩阵
Figure FDA0003858116550000032
以及所述上一层的自注意力层的输入与所述输出之和,生成本层的自注意力特征矩阵包括:
将权重矩阵、自定义权重矩阵
Figure FDA0003858116550000033
以及所述上一层的自注意力层的输入与所述输出之和相乘,以生成本层的自注意力特征矩阵。
3.如权利要求1所述的基于深度注意力的三维模型分类和检索方法,其特征在于,所述根据所述融合特征对所述待检索三维模型进行检索或者分类包括:
将所述融合特征输入至训练好的分类器中,以获取分类标签;或,
将所述融合特征输入至预设数据库中,以从预设数据库中找到与所述融合特征匹配的特征所对应的三维模型。
4.一种基于深度注意力的三维模型分类和检索装置,其特征在于,所述基于深度注意力的三维模型分类和检索装置包括:
获取模块,所述获取模块用于获取待检索三维模型;
二维视图组生成模块,所述二维视图组生成模块用于根据所述待检索三维模型,映射生成二维视图组,所述二维视图组包括至少两个二维视图;
二维视图特征获取模块,所述二维视图特征获取模块用于获取每个所述二维视图的特征;
融合特征生成模块,所述融合特征生成模块用于通过深度注意力网络融合各个所述二维视图的特征,从而形成一个融合特征;
检索或分类模块,所述检索或分类模块用于根据所述融合特征对所述待检索三维模型进行检索或者分类;
所述根据所述待检索三维模型,映射生成二维视图组,所述二维视图组包括至少两个二维视图包括:
使用phong算法在不同的角度和/或距离提取所述三维模型的二维视图,使用GoogleNet网络提取每个视图的特征;所述使用phong算法在不同的角度和/或距离提取所述三维模型的二维视图,使用GoogleNet网络提取每个视图的特征包括:
利用三维phong反射算法生成视图,以一定的间隔θ=30环绕垂直方向的轴放置,与地平面成30度角,每个相机指向网格的质心;所述深度注意力网络包括n个处理层;其中第一层处理层为卷积层、最后一个处理层称为拼接层,其他处理层称为自注意力层;所述通过深度注意力网络融合各个所述二维视图的特征,从而形成一个融合特征包括:
将各个自注意力层叠设,其中一个自注意力层与卷积层相接,作为第一层自注意力层,一个自注意力层与所述拼接层相接,作为最后一层自注意力层,除第一层自注意力层外,每层自注意力层的输入等于上一层的输入以及输出之和,所述拼接层用于获取所述最后一层自注意力层的输入以及输出之和;其中,
所述卷积层用于根据各个所述二维视图的特征获取特征矩阵;
所述拼接层用于将最后一层自注意力层的输入以及输出之和拼接成所述融合特征;
所述第一层自注意力层进行如下操作获取本层的输入与所述输出之和:
获取本层的自定义权重矩阵,所述自定义权重矩阵包括
Figure FDA0003858116550000041
以及
Figure FDA0003858116550000042
获取卷积层输出的所述特征矩阵;
通过softmax函数根据所述特征矩阵以及本层的自定义权重矩阵
Figure FDA0003858116550000043
Figure FDA0003858116550000044
获取本层的权重矩阵;
根据本层的权重矩阵、自定义权重矩阵
Figure FDA0003858116550000045
以及所述特征矩阵,生成本层的自注意力特征矩阵;
将本层的所述自注意力特征矩阵与所述特征矩阵相加,从而获得本层的输入与所述输出之和;
所述除第一层自注意力层外的其他每层自注意力层进行如下操作获取自身的输入与所述输出之和:
获取上一层的自注意力层的输入与所述输出之和;
获取本层的自定义权重矩阵,所述自定义权重矩阵包括
Figure FDA0003858116550000051
以及
Figure FDA0003858116550000052
通过softmax函数根据所述上一层的自注意力层的输入与所述输出之和以及本层的自定义权重矩阵
Figure FDA0003858116550000053
获取本层的权重矩阵;
根据本层的权重矩阵、自定义权重矩阵
Figure FDA0003858116550000054
以及所述上一层的自注意力层的输入与所述输出之和,生成本层的自注意力特征矩阵;
将本层的所述自注意力特征矩阵与所述上一层的自注意力层的输入与所述输出之和相加,从而获得本层的输入与所述输出之和。
5.一种电子设备,包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的基于深度注意力的三维模型分类和检索方法。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时能够实现如权利要求1至3中任一项所述的基于深度注意力的三维模型分类和检索方法。
CN202110402765.8A 2021-04-14 2021-04-14 基于深度注意力的三维模型分类和检索方法及装置 Active CN113313140B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110402765.8A CN113313140B (zh) 2021-04-14 2021-04-14 基于深度注意力的三维模型分类和检索方法及装置
EP21180769.8A EP4075328A1 (en) 2021-04-14 2021-06-22 Method and device for classifying and searching for a 3d model on basis of deep attention

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110402765.8A CN113313140B (zh) 2021-04-14 2021-04-14 基于深度注意力的三维模型分类和检索方法及装置

Publications (2)

Publication Number Publication Date
CN113313140A CN113313140A (zh) 2021-08-27
CN113313140B true CN113313140B (zh) 2022-11-01

Family

ID=77367214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110402765.8A Active CN113313140B (zh) 2021-04-14 2021-04-14 基于深度注意力的三维模型分类和检索方法及装置

Country Status (2)

Country Link
EP (1) EP4075328A1 (zh)
CN (1) CN113313140B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779287B (zh) * 2021-09-02 2023-09-15 天津大学 基于多阶段分类器网络的跨域多视角目标检索方法及装置
CN116069435B (zh) * 2023-03-14 2023-06-13 南京维赛客网络科技有限公司 在虚拟场景中动态加载图片资源的方法、***及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990608A (zh) * 2019-12-03 2020-04-10 哈尔滨工业大学 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法
CN111242207A (zh) * 2020-01-08 2020-06-05 天津大学 一种基于视觉显著性信息共享的三维模型分类和检索方法
CN111259153A (zh) * 2020-01-21 2020-06-09 桂林电子科技大学 一种完全注意力机制的属性级情感分析方法
CN111310821A (zh) * 2020-02-11 2020-06-19 佛山科学技术学院 多视图特征融合方法、***、计算机设备及存储介质
CN111460142A (zh) * 2020-03-06 2020-07-28 南京邮电大学 一种基于自注意力卷积神经网络的短文本分类方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596329B (zh) * 2018-05-11 2020-08-07 北方民族大学 基于端到端深度集成学习网络的三维模型分类方法
CN112270762A (zh) * 2020-11-18 2021-01-26 天津大学 一种基于多模态融合的三维模型检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990608A (zh) * 2019-12-03 2020-04-10 哈尔滨工业大学 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法
CN111242207A (zh) * 2020-01-08 2020-06-05 天津大学 一种基于视觉显著性信息共享的三维模型分类和检索方法
CN111259153A (zh) * 2020-01-21 2020-06-09 桂林电子科技大学 一种完全注意力机制的属性级情感分析方法
CN111310821A (zh) * 2020-02-11 2020-06-19 佛山科学技术学院 多视图特征融合方法、***、计算机设备及存储介质
CN111460142A (zh) * 2020-03-06 2020-07-28 南京邮电大学 一种基于自注意力卷积神经网络的短文本分类方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
improved panoramic representction via bidirectional recurrent view aggregation for three-dimensional model retrieval;Xu Cheng等;《IEEE Computer Graphics and Applications》;20190430;第65-76页 *
基于多特征融合的三维模型检索;张艺琨等;《郑州大学学报(工学版)》;20190228;第1-6页 *

Also Published As

Publication number Publication date
EP4075328A1 (en) 2022-10-19
CN113313140A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
Li et al. So-net: Self-organizing network for point cloud analysis
Wang et al. Sketch-based 3d shape retrieval using convolutional neural networks
Seong et al. FOSNet: An end-to-end trainable deep neural network for scene recognition
CN113313140B (zh) 基于深度注意力的三维模型分类和检索方法及装置
CN110837811A (zh) 语义分割网络结构的生成方法、装置、设备及存储介质
CN115359219B (zh) 虚拟世界的虚拟形象处理方法及装置
CN111179419A (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN111310821B (zh) 多视图特征融合方法、***、计算机设备及存储介质
CN111860138A (zh) 基于全融合网络的三维点云语义分割方法及***
WO2019213857A1 (en) 3-dimensional model identification
JP2020522773A (ja) 画像内のオブジェクトの検出および表現
CN113392831A (zh) 分析一组帧中的对象
JP2021039758A (ja) 画像間の類似度を利用した類似領域強調方法およびシステム
CN112825199A (zh) 碰撞检测方法、装置、设备及存储介质
CN116912924B (zh) 一种目标图像识别方法和装置
Zong et al. A cascaded refined rgb-d salient object detection network based on the attention mechanism
Shao et al. Efficient three-dimensional point cloud object detection based on improved Complex-YOLO
TWI716938B (zh) 臉部表情建構方法、裝置及非暫態電腦可讀取紀錄媒體
Kakillioglu et al. Object classification from 3D volumetric data with 3D capsule networks
KR20110124834A (ko) 하드웨어를 이용한 케이디 트리 생성 방법 및 장치
CN113191401A (zh) 基于视觉显著性共享的用于三维模型识别的方法及装置
CN115358777A (zh) 虚拟世界的广告投放处理方法及装置
CN114092653A (zh) 基于2d图像重建3d图像方法、装置、设备及存储介质
CN113191400B (zh) 基于二维图像检索对应三维模型的方法及装置
Huang et al. ImGeo-VoteNet: image and geometry co-supported VoteNet for RGB-D object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant