CN113032613B - 一种基于交互注意力卷积神经网络的三维模型检索方法 - Google Patents

一种基于交互注意力卷积神经网络的三维模型检索方法 Download PDF

Info

Publication number
CN113032613B
CN113032613B CN202110270518.7A CN202110270518A CN113032613B CN 113032613 B CN113032613 B CN 113032613B CN 202110270518 A CN202110270518 A CN 202110270518A CN 113032613 B CN113032613 B CN 113032613B
Authority
CN
China
Prior art keywords
model
neural network
view
sketch
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110270518.7A
Other languages
English (en)
Other versions
CN113032613A (zh
Inventor
贾雯惠
高雪瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202110270518.7A priority Critical patent/CN113032613B/zh
Publication of CN113032613A publication Critical patent/CN113032613A/zh
Application granted granted Critical
Publication of CN113032613B publication Critical patent/CN113032613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于交互注意力卷积神经网络的三维模型检索方法。该方法首先对三维模型进行预处理,固定投影角度获取三维模型的6幅视图,并将其转换为线形图作为三维模型的视图集。其次,在卷积神经网络中嵌入交互注意模块来提取语义特征,增加了卷积神经网络两个网络层之间的数据交互。利用Gist算法和二维形状分布算法提取全局特征。再次,采用欧几里得距离计算草图与二维视图之间的相似度。然后,将这些特征与权值相结合检索三维模型。本发明弥补了使用小样本数据训练神经网络时过拟合导致的语义特征不准确问题,提高了三维模型检索的准确率。

Description

一种基于交互注意力卷积神经网络的三维模型检索方法
技术领域:
本发明涉及一种基于交互注意力卷积神经网络的三维模型检索方法,该方法在三维模型检索领域中有着很好的应用。
背景技术:
近年来,随着科学技术的日益发展,三维模型不仅在很多专业领域有着重要作用,在人们的日常生活中也被广泛普及,人们对三维模型的检索需求逐渐增大。基于实例的三维模型检索的测试对象只能是数据库中的模型,因此缺少了一定的通用性。基于草图的三维模型检索可以根据用户的需求随意绘制,方便适用,所以具有广泛的前景。
目前,一些常见的算法使用单一手工特征或深度学习的算法对来解决基于草图的模型检索问题。但是传统的手工特征存在不足,研究人员需要大量的先验知识,参数的设置需要手工提前设置,而且提取的特征效果并不想象。使用深度学习算法可以自动的调整参数,因此具有很好的扩展性。但是同样它也存在着一定的缺陷。由于深度神经网络的节点数量比较多,因此需要大量的数据来训练神经网络才能得到优秀的结果,一旦训练数据量不足就会导致过拟合,那么得到的结果也会出现偏差。为了能够在训练样本不足的前提下还能得到较好的检索结果,本发明提出了一种基于交互注意力卷积神经网络的三维模型检索方法。
发明内容:
为了解决在训练样本不足的前提下,基于草图的三维模型检索方法检索效果差的问题,本发明公开了一种基于交互注意力卷积神经网络的三维模型检索方法。
为此,本发明提供了如下技术方案:
1.一种基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,该方法包括以下步骤:
步骤1:进行数据预处理,对三维模型投影,得到三维模型对应的多幅视图并使用边缘检测算法得到模型的边缘视图集。
步骤2:设计深度卷积神经网络,使用交互注意力模块优化网络模型。选取其中一部分视图集作为训练集,另一部分视图集作为测试集。
步骤3:训练包括前向传播和反向传播两个过程。训练数据作为交互注意力卷积神经网络模型训练的输入,经过交互注意力卷积神经网络模型的训练,得到优化后的交互注意力卷积神经网络模型。
步骤4:使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征,使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征。
步骤5:将多个特征加权融合。根据欧几里得距离检索出与手绘草图最相似的模型。
2.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,所述步骤1中,对三维模型投影,得到三维模型对应的多幅视图并使用边缘检测算法得到模型的边缘视图集,具体步骤为:
步骤1-1将三维模型设置在一个虚拟球体的球心;
步骤1-2将虚拟摄像机放在该模型的上方,将模型以每步30度旋转360度,从而获得三维模型的12张视图集;
步骤1-3使用Canny边缘检测算法获得12张原始视图集各自的边缘视图;
对三维模型投影后,三维模型被表征为一组二维视图,使用Canny边缘检测算法可以减少手绘草图与三维模型视图之间的语义鸿沟。
3.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,所述步骤2中,设计深度卷积神经网络,使用交互注意力模块优化网络模型,具体步骤为:
步骤2-1确定卷积神经网络的深度,卷积核的大小,卷积层和池化层的数量;
步骤2-2设计交互注意力模块,在卷积层的输出后连接全局池化层,求出卷积层convn中每个通道的信息量Zk,其信息量计算公式如下:
Figure BDA0002974166900000031
其中,convnk表示第n个卷积层输出的第k个特征映射,其大小为Wn*Hn
步骤2-3在全局池化层之后连接两个全连接层,根据信息量自适应地调整各个信道的注意力权重Skn,权重的计算公式如下:
Skn=Fex(Z,W)=σ(g(Z,W))=σ(W2δ(W1Z))
其中,δ为Relu函数,σ为sigmoid函数。W1、W2分别为第一个全连接和第二个全连接的权重。
步骤2-4分别计算两个邻域卷积层的交互注意力权重Sk1和Sk2,并将其融合,得到最优注意力权重Sk,最优注意力权重的计算公式如下:
Sk=Average(Sk1,Sk2)
步骤2-5将注意权重Sk与第二卷积层conv2、第一池化层ap融合得到最终结果a2,融合的计算公式如下:
Figure BDA0002974166900000032
选取其中一部分视图集作为训练集,另一部分视图集作为测试集。
4.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,所述步骤3中,对卷积神经网络模型进行训练,具体步骤为:
步骤3-1把训练数据输入到初始化的交互注意力卷积神经网络模型中;
步骤3-2经过卷积层,提取更详细的视图特征,浅层次卷积层提取低层特征,高层次卷积层提取高级语义特征;
步骤3-3经过注意力模块,通过加权通道与邻域卷积层融合后,减少手绘草图或模型的边缘视图在池化时丢失的信息;
步骤3-4经过池化层,缩小视图特征的规模,从而减少参数个数,加快模型计算的速度;
步骤3-5经过Dropout层,减轻因为训练样本不足导致的过拟合问题;
步骤3-6通过卷积、注意力模块、Dropout和池化交替操作之后,最后输入全连接层,对所提取的特征进行降维,连接成一维的高层语义特征向量;
步骤3-7在反向传播过程中,使用带有标签的2D视图来优化交互注意力卷积神经网络的权重和偏置。2D视图集为{v1,v2,…,vn},对应的标签集为{l1,l2,…,ln}。2D视图有t类,包括1,2,…,t。正向传播后,vi在第j类下的预测概率为y_testj。将vi的标签li与类别j比较,计算期望概率yij,概率的计算公式如下:
Figure BDA0002974166900000041
步骤3-8将预测概率y_testij和真实概率yj进行比较,利用交叉熵损失函数来计算误差loss。
所述误差loss的计算过程如下所示:
Figure BDA0002974166900000051
不断迭代交互注意力卷积神经网络模型,得到优化后的交互注意力卷积神经网络模型,并将权重与偏置保存。
5.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,在所述步骤4中,使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征,使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征,具体过程为:
步骤4-1把测试数据输入到优化后的交互注意力卷积神经网络模型之中;
步骤4-2提取出全连接层的特征作为手绘草图或模型视图的高层语义特征。
步骤4-3将尺寸为m*n的草图或2D视图划分为4*4的块。每个块的大小是a*b,其中a=m/4,b=n/4。
步骤4-4每个块由4个尺度、8个方向的32个Gabor滤波器处理。将处理后的特征进行组合,得到gist特征。公式如下:
Figure BDA0002974166900000052
其中,i=4,j=8。G(x,y)是32个Gabor滤波器的gist特征,cat()表示拼接操作。这里,x和y是像素的位置,I(x,y)表示块。同时,gij(x,y)是第i个尺度和第j个方向的滤波器。*表示卷积运算。
步骤4-5将草图或2D视图边界上的点随机等距离采样,采集为点={(x1,y1),…,(xi,yi),…,(xn,yn)}。这里(xi,yi)是点坐标。
步骤4-6利用D1描述子表示草图或二维视图边界上质心与随机采样点之间的距离。从点中提取点,收集到PD1={ai1,…,aik,…,aiN}。D1形状分布特征集合为{D1_v1,…,D1_vi,…,D1_vBins}。其中,D1_vi是区间(BinsSize*(i-1),BinsSize*i)的统计量,Bins是区间的个数,BinsSize是区间的长度。D1_vi的计算公式如下:
D1_vi=|{P|dist(P,O)∈(BinSize*(i-1),BinSize*i),P∈PD1}|
其中,BinsSize=max({dist(P,O)|P∈PD1})/N,dist()为两点之间的欧氏距离。O为草图或2D视图的质心。
步骤4-7利用D2描述符描述草图或二维视图边界上两个随机采样点之间的距离。从点中提取点对,收集为PD2={(ai1,bi1),(ai2,bi2),…,(aiN,biN)}。D2形状分布特征集合为{D2_v1,…,D2_vi,…,D2_vBins}。这里,D2_vi表示区间(BinSize*(i-1),BinSize*i)中的统计量。D2_vi计算公式如下:
D2_vi=|{P|dist(P)∈(BinSize*(i-1),BinSize*i),P∈PD2}|
其中,BinsSize=max({dist(P)|P∈PD2})/N。
步骤4-8利用D3描述符用于描述草图或2D视图边界上3个随机采样点形成的面积的平方根。从点中提取点三元组,收集到PD3={(ai1,bi1,ci1),(ai2,bi2,ci2),…,(ain,bin,cin)}。D3形状分布特征集合为{D3_v1,…,D3_vi,…,D3_vBins}。这里,D3_vi表示区间(BinSize*(i-1),BinSize*i)中的统计信息。D3_vi计算公式如下:
D3_vi=|{P|herson(P)∈(BinSize*(i-1),BinSize*i),P∈PD3}|
其中,
Figure BDA0002974166900000061
herson()代表Helen公式,用Helen公式计算三角形P=(P1,P2,P3)的面积,计算公式如下所示:
Figure BDA0002974166900000062
Figure BDA0002974166900000063
其中,a=dist(P1,P2),b=dist(P1,P3),c=dist(P2,P3).
步骤4-9D1_vi,D2_vi,D3_vi连接形成形状分布特征,i=1,2,…,Bins。
6.根据权利要求1所述的基于交互注意力CNN和加权相似度计算的三维模型检索方法,其特征在于,在所述步骤5中,将多个特征进行融合,根据相似性度量公式检索出与手绘草图最相似的模型,具体过程为:
步骤5-1选择欧氏距离作为相似性度量方法;
步骤5-2利用改进的交互注意力卷积神经网络从二维视图和草图中提取特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance1,计算检索的准确率,记为t1;
步骤5-3使用gist特征提取草图与模型视图的特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance2,计算检索的准确率,记为t2;
步骤5-4使用二维形状分布特征提取草图与模型视图之间的特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance3,计算检索的准确率,记为t3;
步骤5-5比较三种特征的准确率,对特征进行加权融合,形成新的特征相似度Sim(distance)。公式如下:
Sim(distance)=w1*distance1+w2*distance2+w3*distance,w1+w2+w3=1
其中,w1=t1/(t1+t2+t3),w2=t2/(t1+t2+t3),w3=t3/(t1+t2+t3)
步骤5-6根据相似度从小到大排序,实现检索效果。
有益效果:
1.本发明是一种基于交互注意力卷积神经网络的三维模型检索方法。以SHREC13数据库与ModelNet40数据库为基础,进行了模型检索。实验结果表明,本文方法具有较高的准确性。
2.本发明所使用的检索模型为交互注意力模块与卷积神经网络模型,卷积神经网络有局部感知和参数共享的能力,可以很好地处理高维数据,无需手动选取数据特征。提出的交互注意模型将相邻两个卷积层的注意权值合并,实现两个网络层之间数据的交互。训练好的卷积神经网络模型,就可以获得较好的检索效果。
3.在训练模型时,采用随机梯度下降法进行参数更新。误差通过反向传播沿原路线返回,即从输出层反向经过各中间隐藏层,逐层更新每一层参数,最终回到输出层。不断地进行前向传播和反向传播,以减小误差,更新模型参数,直到CNN训练好为止。
4.本发明对三维形状分布特征进行改进,使其适用到草图与二维视图中。使用形状分布函数描述草图和三维模型视图的形状信息。
5.本发明采用多种特征自适应融合的方式,对提出的特征进行相似度融合,实现了较好的检索效果。
附图说明:
图1为本发明实施方式中的待检索的草图。
图2为本发明实施方式中的三维模型检索框架图。
图3为本发明实施方式中的模型的投影视图。
图4为本发明实施方式中的Canny边缘视图。
图5为本发明实施方式中的交互注意力卷积神经网络模型。
图6为本发明实施方式中的交互注意力卷积神经网络的训练过程。
图7为本发明实施方式中的交互注意力卷积神经网络的测试过程。
具体实施方式:
为了使本发明的实施例中的技术方案能够清楚和完整地描述,以下结合实施例中的附图,对本发明进行进一步的详细说明。
本发明使用SHREC13的草图与ModelNet40模型库数据进行试验验证。以SHREC13草图中的“17205.png”与ModelNet40模型库中的“table_0399.off”为例。待检索的草图如图1所示。
本发明实施基于交互注意力卷积神经网络的三维模型检索方法的实验框架图,如图2所示,包括以下步骤:
步骤1对三维模型投影,得到三维模型边缘视图集,具体为:
步骤1-1将table_0399.off文件置于虚拟球体的中心。
步骤1-2将虚拟摄像机放在该模型的上方,将模型以每步30度旋转360度,从而获得三维模型的12张视图集,以其中一张视图为例进行展示,模型的投影视图如图3所示;
步骤1-3使用Canny边缘检测算法获得的视图如图4所示;
步骤2设计深度卷积神经网络,使用交互注意力模块优化网络模型,如图5所示,具体为:
步骤2-1为了使得特征提取的效果更好,设计深度卷积神经网络,共有5个卷积层,4个池化层,两个dropout层,一个连接层,一个全连接层。
步骤2-2交互注意力模块嵌入设计好的卷积神经网络结构中,在卷积层的输出后连接全局池化层,求出卷积层中每个通道的信息量Zk。以草图为例,草图的第一卷积层信息量如下:
Zk=[[0.0323739 0.04996519 0.0190248 0.03274497 0.03221277 0.002067190.04075038 0.01613641 0.03390235 0.04024649 0.03553107 0.00632962 0.034426830.04588291 0.01900478 0.02144121 0.03710039 0.03861086 0.05596253 0.04396860.03611921 0.04850776 0.00716817 0.02596463 0.00525256 0.03657651 0.028091890.03490375 0.04528182 0.03938764 0.00690786 0.04449471]]
步骤2-3在全局池化层之后连接两个全连接层,根据信息量自适应地调整各个信道的注意力权重Skn。以草图为例,草图的注意力权重如下:
Skn=[[0.49450904 0.49921992 0.50748134 0.5051483 0.5093386 0.498442380.50426346 0.50664175 0.5053692 0.5012332 0.5004162 0.49788538 0.5056690.5012219 0.5009724 0.4942028 0.49796405 0.4992011 0.5064934 0.49631130.50500274 0.50238824 0.50202376 0.49661288 0.50185806 0.5048757 0.50732030.50703263 0.51684725 0.50641936 0.5052296 0.4979179]]
步骤2-4分别计算两个邻域卷积层的交互注意力权重Sk1和Sk2,并将其融合,得到最优注意力权重Sk,草图的最优注意力权重如下:
Sk=[[0.4625304 0.47821882 0.5064253 0.5032532 0.5093386 0.498774960.50426346 0.50664175 0.5053692 0.5012332 0.5004162 0.49784237 0.5056880.5011142 0.5008647 0.4942028 0.49796405 0.4991069 0.5064934 0.49631130.5102687 0.50125698 0.502524856 0.49675384 0.49365704 0.5027958 0.50765290.50814523 0.51006527 0.50361942 0.50422731 0.4635842]]
步骤2-5将注意权重Sk与第二卷积层conv2、第一池化层ap融合得到最终结果a2,草图的第二卷积层的部分结果为:
a2=[[[[0.14450312 0.0644969 0.10812703...0.18608719 0.01994037 0]
[0.18341058 0.15881275 0.24716881...0.18875208 0.14420813 0.08290599]
[0.17390229 0.14937611 0.2255666...0.15295741 0.18792515 0.08066748]
...
[0.31344187 0.18656467 0.22178406...0.22087486 0.22130579 0.00955889]
[0.12405898 0.10548315 0.11685486...0.10439464 0.2906406 0.14846338]]
[[0.10032222 0.21919143 0.09797319...0.13584027 0.0.12112971]
[0.20946684 0.14252397 0.17954415...0.09708451 0.0.15463363]
[0.06941956 0.03963253 0.13273408...0.00173131 0.04566149 0.14895247]
...
[[0.01296724 0.27460644 0.09022377...0.06938899 0.04487894 0.2567152]
[0.16118288 0.38024116 0.02033611...0.13374138 0 0.17068687]
[0.09430372 0.35878736 0...0.0846955 0 0.25289127]
...
[0.10363265 0.4103881 0...0.0728834 0 0.29586816]
[0.18578637 0.34666267 0...0.05323519 0 0.27042198]
[0.0096841 0.18718664 0...0.04646093 0.00576336 0.155898]]]]
步骤3对卷积神经网络模型进行训练,如图6所示,具体步骤为:
步骤3-1将草图与边缘二维视图作为训练数据输入到初始化的交互注意力卷积神经网络中;
步骤3-2经过卷积层,提取更详细的视图特征;
步骤3-3经过注意力模块,通过加权通道与邻域卷积层融合后,可以减少手绘草图或模型的边缘视图在池化时丢失的信息;
步骤3-4经过池化层,提取最大的视图信息;
步骤3-5经过Dropout层,减轻因为训练样本不足导致的过拟合问题;
步骤3-6通过卷积、注意力模块、Dropout和池化交替操作之后,最后输入全连接层,对所提取的特征进行降维,连接成一维的高层语义特征向量;
步骤3-7通过softmax函数得知草图“17205.png”在“table”类别下的概率为89.99%
步骤3-8将预测概率y_testij和真实概率yj进行比较,利用交叉熵损失函数来计算误差loss。
Figure BDA0002974166900000121
其中loss17205表示草图“17205.png”的误差。
不断迭代交互注意力卷积神经网络模型,得到优化后的交互注意力卷积神经网络模型。
步骤4提取语义特征与形状分布特征,具体为:
步骤4-1把测试数据输入到优化后的交互注意力卷积神经网络模型之中,测试过程如图7所示;
步骤4-2提取出全连接层的特征作为手绘草图或模型视图的高层语义特征。提取出的草图的部分高层语义特征如下所示:
Feature=[[0,0.87328064,0,0,1.3293583,0,2.3825126,0,0,4.8035927,0,1.5186063,0,3.6845286,1.0825952,0,1.8516512,1.0285587,0,0,0,3.3322043,1.0545557,0,0,4.8707848,3.042554,0,0,0,0,6.8227463,2.537525,1.5318785,2.7271123,0,3.0482264……]]
步骤4-3将尺寸为草图或二维视图划分为4*4的块;
步骤4-4每个块由4个尺度、8个方向的32个Gabor滤波器处理。将处理后的特征进行组合,得到gist特征。Gist特征共提取512维,草图的部分gist特征如下所示:
G(x,y)=[[5.81147151e-03 1.51588341e-02 1.75721212e-03 2.10059434e-011.62918585e-01 1.54040498e-01 1.44374291e-01 8.71880878e-01 5.26758657e-014.14263371e-01 7.17606844e-01 6.22190594e-01 1.11205845e-01 7.69002490e-042.18182730e-01 2.29565939e-01 9.32599080e-03 1.10805327e-02 1.40071468e-032.58543039e-01 5.67934220e-02 1.06132064e-01 9.10082146e-02 4.02163211e-012.97883778e-01 2.45860956e-01 4.02066928e-01 2.84401506e-01
1.03228724e-01 6.37419945e-04 2.71290458e-01……]]
步骤4-5将草图或二维视图边界上的点随机等距离采样;
步骤4-6利用D1描述子表示草图或二维视图边界上质心与随机采样点之间的距离。草图的部分D1描述子如下所示:
D1=[0.30470497858541628,0.6256941275550102,0.11237884569183111,0.23229854666522,0.2657159486944761,0.0731852015843772,0.40751749800795261……]
步骤4-7利用D2描述符描述草图或二维视图边界上两个随机采样点之间的距离。草图的部分D2描述子如下所示:
D2=[0.13203683803844625,0.028174099301372796,0.15392681513105217,0.130238265264,0.123460163767958,0.06985106421513015,0.12992235205980568……]
步骤4-8利用D3描述符用于描述草图或二维视图边界上3个随机采样点形成的面积的平方根。草图的部分D3描述子如下所示:
D3=[0.9193157274532394,0.5816923854309814,0.46980644879802125,0.498873567635874,0.7195175116705602,0.29425190983247506,0.8724092377243926……]
步骤4-9将D1,D2,D3串联形成形状分布特征;
步骤5将草图的多个特征进行融合,根据相似性度量公式检索出与手绘草图最相似的模型,具体为:
步骤5-1比较多种相似度检索方法,最终效果最好的为欧式距离;
步骤5-2利用改进的交互注意力卷积神经网络从二维视图和草图中提取特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance1,检索的准确率为0.96;
步骤5-3使用gist特征提取草图与模型视图的特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance2,检索的准确率为0.53;
步骤5-4使用二维形状分布特征提取草图与模型视图之间的特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance3,检索的准确率为0.42;
步骤5-5根据三种特征的检索准确率确定权重。
Figure BDA0002974166900000151
Figure BDA0002974166900000152
Figure BDA0002974166900000153
最终确定权重为:5:3:2
Sim(distance)=0.5*distance1+0.3*distance2+0.2*distance
步骤5-6根据相似度从小到大排序,实现检索效果。
本发明实施方式中的基于交互注意力卷积神经网络的三维模型检索方法,采用了传统特征与深度特征加权融合的方式,实现了较好的检索效果。
以上所述是结合附图对本发明的实施例进行的详细介绍,本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围内均可有所变更和修改,故本发明书不应理解为对本发明的限制。

Claims (5)

1.一种基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,该方法包括以下步骤:
步骤1:进行数据预处理,对三维模型投影,得到三维模型对应的多幅视图并使用边缘检测算法得到模型的边缘视图集;
步骤2:设计深度卷积神经网络,使用交互注意力模块优化网络模型,选取其中一部分视图集作为训练集,另一部分视图集作为测试集,包括:
步骤2-1,确定卷积神经网络的深度,卷积核的大小,卷积层和池化层的数量;
步骤2-2,设计交互注意力模块,在卷积层的输出后连接全局池化层,求出卷积层convn中每个通道的信息量Zk,其信息量计算公式如下:
Figure FDA0003751237570000011
其中,convnk表示第n个卷积层输出的第k个特征映射,其大小为Hn*Wn
步骤2-3,在全局池化层之后连接两个全连接层,根据信息量自适应地调整各个信道的注意力权重Skn,权重的计算公式如下:
Skn=Fex(Z,W)=σ(g(Z,W))=σ(W2δ(W1Z));
其中,δ为Relu函数,σ为sigmoid函数,W1、W2分别为第一个全连接和第二个全连接的权重;
步骤2-4,分别计算两个邻域卷积层的交互注意力权重Sk1和Sk2,并将其融合,得到最优注意力权重Sk,最优注意力权重的计算公式如下:
Sk=Average(Sk1,Sk2);
步骤2-5,将注意权重Sk与第二卷积层conv2、第一池化层ap融合得到最终结果a2,融合的计算公式如下:
Figure FDA0003751237570000012
选取其中一部分视图集作为训练集,另一部分视图集作为测试集;
步骤3:训练包括前向传播和反向传播两个过程,训练数据作为交互注意力卷积神经网络模型训练的输入,经过交互注意力卷积神经网络模型的训练,得到优化后的交互注意力卷积神经网络模型;
步骤4:使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征,使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征;
步骤5:将多个特征加权融合,根据欧几里得距离检索出与手绘草图最相似的模型。
2.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,所述步骤1中,对三维模型投影,得到三维模型对应的多幅视图并使用边缘检测算法得到模型的边缘视图集,具体步骤为:
步骤1-1,将三维模型设置在一个虚拟球体的球心;
步骤1-2,将虚拟摄像机放在该模型的上方,将模型以每步30度旋转360度,从而获得三维模型的12张视图集;
步骤1-3,使用Canny边缘检测算法获得12张原始视图集各自的边缘视图;
对三维模型投影后,三维模型被表征为一组二维视图,使用Canny边缘检测算法可以减少手绘草图与三维模型视图之间的语义鸿沟。
3.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,所述步骤3中,对卷积神经网络模型进行训练,具体步骤为:
步骤3-1,把训练数据输入到初始化的交互注意力卷积神经网络模型中;
步骤3-2,经过卷积层,提取更详细的视图特征,浅层次卷积层提取低层特征,高层次卷积层提取高级语义特征;
步骤3-3,经过注意力模块,通过加权通道与邻域卷积层融合后,减少手绘草图或模型的边缘视图在池化时丢失的信息;
步骤3-4,经过池化层,缩小视图特征的规模,从而减少参数个数,加快模型计算的速度;
步骤3-5,经过Dropout层,减轻因为训练样本不足导致的过拟合问题;
步骤3-6,通过卷积、注意力模块、Dropout和池化交替操作之后,最后输入全连接层,对所提取的特征进行降维,连接成一维的高层语义特征向量;
步骤3-7,在反向传播过程中,使用带有标签的2D视图来优化交互注意力卷积神经网络的权重和偏置,2D视图集为{v1,v2,…,vn},对应的标签集为{l1,l2,…,ln},2D视图有t类,包括1,2,…,t,正向传播后,vi在第j类下的预测概率为y_testj,将vi的标签li与类别j比较,计算期望概率yij,概率的计算公式如下:
Figure FDA0003751237570000021
步骤3-8,将预测概率y_testij和真实概率yj进行比较,利用交叉熵损失函数来计算误差loss;
所述误差loss的计算过程如下所示:
Figure FDA0003751237570000031
不断迭代交互注意力卷积神经网络模型,得到优化后的交互注意力卷积神经网络模型,并将权重与偏置保存。
4.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,在所述步骤4中,使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征,使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征,具体过程为:
步骤4-1,把测试数据输入到优化后的交互注意力卷积神经网络模型之中;
步骤4-2,提取出全连接层的特征作为手绘草图或模型视图的高层语义特征;
步骤4-3,将尺寸为m*n的草图或2D视图划分为4*4的块,每个块的大小是a*b,其中a=m/4,b=n/4;
步骤4-4,每个块由4个尺度、8个方向的32个Gabor滤波器处理,将处理后的特征进行组合,得到gist特征,公式如下:
Figure FDA0003751237570000032
其中,i=4,j=8,G(x,y)是32个Gabor滤波器的gist特征,cat()表示拼接操作,这里,x和y是像素的位置,I(x,y)表示块,同时,gij(x,y)是第i个尺度和第j个方向的滤波器,*表示卷积运算;
步骤4-5,将草图或2D视图边界上的点随机等距离采样,采集为点={(x1,y1),…,(xi,yi),…,(xn,yn)},这里(xi,yi)是点坐标,
步骤4-6,利用D1描述子表示草图或二维视图边界上质心与随机采样点之间的距离,从点中提取点,收集到PD1={ai1,…,aik,…,aiN},D1形状分布特征集合为{D1_v1,…,D1_vi,…,D1_vBins},其中,D1_vi是区间(BinsSize*(i-1),BinsSize*i)的统计量,Bins是区间的个数,BinsSize是区间的长度,D1_vi的计算公式如下:
D1_vi=|{P|dist(P,O)∈(BinSize*(i-1),BinSize*i),P∈PD1}|;
其中,BinsSize=max({dist(P,O)|P∈PD1})/N,dist()为两点之间的欧氏距离,O为草图或2D视图的质心;
步骤4-7,利用D2描述符描述草图或二维视图边界上两个随机采样点之间的距离,从点中提取点对,收集为PD2={(ai1,bi1),(ai2,bi2),…,(aiN,biN)},D2形状分布特征集合为{D2_v1,…,D2_vi,…,D2_vBins},这里,D2_vi表示区间(BinSize*(i-1),BinSize*i)中的统计量,D2_vi计算公式如下:
D2_vi=|{P|dist(P)∈(BinSize*(i-1),BinSize*i),P∈PD2}|;
其中,BinsSize=max({dist(P)|P∈PD2})/N,
步骤4-8,利用D3描述符用于描述草图或2D视图边界上3个随机采样点形成的面积的平方根,从点中提取点三元组,收集到PD3={(ai1,bi1,ci1),(ai2,bi2,ci2),…,(ain,bin,cin)},D3形状分布特征集合为{D3_v1,…,D3_vi,…,D3_vBins},这里,D3_vi表示区间(BinSize*(i-1),BinSize*i)中的统计信息,D3_vi为:
D3_vi=|{P|herson(P)∈(BinSize*(i-1),BinSize*i),P∈PD3}|;
其中,
Figure FDA0003751237570000041
herson()代表Helen公式,用Helen公式计算三角形P=(P1,P2,P3)的面积,计算公式如下所示:
Figure FDA0003751237570000042
Figure FDA0003751237570000043
其中,a=dist(P1,P2),b=dist(P1,P3),c=dist(P2,P3);
步骤4-9,D1_vi,D2_vi,D3_vi连接形成形状分布特征,i=1,2,…,Bins。
5.根据权利要求1所述的基于交互注意力卷积神经网络 的三维模型检索方法,其特征在于,在所述步骤5中,将多个特征进行融合,根据相似性度量公式检索出与手绘草图最相似的模型,具体过程为:
步骤5-1,选择欧氏距离作为相似性度量方法;
步骤5-2,利用改进的交互注意力卷积神经网络从二维视图和草图中提取特征向量,对特征向量进行归一化处理,使用欧氏距离计算相似度,记为distance1,计算检索的准确率,记为t1;
步骤5-3,使用gist特征提取草图与模型视图的特征向量,对特征向量进行归一化处理;使用欧氏距离计算相似度,记为distance2,计算检索的准确率,记为t2;
步骤5-4,使用二维形状分布特征提取草图与模型视图之间的特征向量,对特征向量进行归一化处理,使用欧氏距离计算相似度,记为distance3,计算检索的准确率,记为t3;
步骤5-5,比较三种特征的准确率,对特征进行加权融合,形成新的特征相似度distance,公式如下:
Sim(distance)=w1*distance1+w2*distance2+w3*distance,w1+w2+w3=1;
其中,w1=t1/(t1+t2+t3),w2=t2/(t1+t2+t3),w3=t3/(t1+t2+t3);
步骤5-6,根据相似度从小到大排序,实现检索效果。
CN202110270518.7A 2021-03-12 2021-03-12 一种基于交互注意力卷积神经网络的三维模型检索方法 Active CN113032613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110270518.7A CN113032613B (zh) 2021-03-12 2021-03-12 一种基于交互注意力卷积神经网络的三维模型检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110270518.7A CN113032613B (zh) 2021-03-12 2021-03-12 一种基于交互注意力卷积神经网络的三维模型检索方法

Publications (2)

Publication Number Publication Date
CN113032613A CN113032613A (zh) 2021-06-25
CN113032613B true CN113032613B (zh) 2022-11-08

Family

ID=76470237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110270518.7A Active CN113032613B (zh) 2021-03-12 2021-03-12 一种基于交互注意力卷积神经网络的三维模型检索方法

Country Status (1)

Country Link
CN (1) CN113032613B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658176B (zh) * 2021-09-07 2023-11-07 重庆科技学院 基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法
CN114842287B (zh) * 2022-03-25 2022-12-06 中国科学院自动化研究所 深度引导变形器的单目三维目标检测模型训练方法及装置
CN117952966A (zh) * 2024-03-26 2024-04-30 华南理工大学 基于Sinkhorn算法的多模态融合生存预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004748A (zh) * 2006-10-27 2007-07-25 北京航空航天大学 基于二维草图的三维模型检索方法
CN101089846A (zh) * 2006-06-16 2007-12-19 国际商业机器公司 数据分析方法、设备以及数据分析辅助方法
CN101110826A (zh) * 2007-08-22 2008-01-23 张建中 构建多维地址的方法、装置以及***
CN107122396A (zh) * 2017-03-13 2017-09-01 西北大学 基于深度卷积神经网络的三维模型检索算法
CN110569386A (zh) * 2019-09-16 2019-12-13 哈尔滨理工大学 基于手绘草图集成描述子的三维模型检索方法
CN111597367A (zh) * 2020-05-18 2020-08-28 河北工业大学 基于视图和哈希算法的三维模型检索方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350016B (zh) * 2007-07-20 2010-11-24 富士通株式会社 三维模型检索装置及方法
CN103295025B (zh) * 2013-05-03 2016-06-15 南京大学 一种三维模型最优视图的自动选择方法
CN105243137B (zh) * 2015-09-30 2018-12-11 华南理工大学 一种基于草图的三维模型检索视点选择方法
JP6798183B2 (ja) * 2016-08-04 2020-12-09 株式会社リコー 画像解析装置、画像解析方法およびプログラム
CN109783887A (zh) * 2018-12-25 2019-05-21 西安交通大学 一种面向三维加工特征的智能识别与检索方法
CN110033023B (zh) * 2019-03-11 2021-06-15 北京光年无限科技有限公司 一种基于绘本识别的图像数据处理方法及***
CN111078913A (zh) * 2019-12-16 2020-04-28 天津运泰科技有限公司 基于多视图卷积神经网络的三维模型检索方法
CN111242207A (zh) * 2020-01-08 2020-06-05 天津大学 一种基于视觉显著性信息共享的三维模型分类和检索方法
CN111625667A (zh) * 2020-05-18 2020-09-04 北京工商大学 一种基于复杂背景图像的三维模型跨域检索方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089846A (zh) * 2006-06-16 2007-12-19 国际商业机器公司 数据分析方法、设备以及数据分析辅助方法
CN101004748A (zh) * 2006-10-27 2007-07-25 北京航空航天大学 基于二维草图的三维模型检索方法
CN101110826A (zh) * 2007-08-22 2008-01-23 张建中 构建多维地址的方法、装置以及***
CN107122396A (zh) * 2017-03-13 2017-09-01 西北大学 基于深度卷积神经网络的三维模型检索算法
CN110569386A (zh) * 2019-09-16 2019-12-13 哈尔滨理工大学 基于手绘草图集成描述子的三维模型检索方法
CN111597367A (zh) * 2020-05-18 2020-08-28 河北工业大学 基于视图和哈希算法的三维模型检索方法

Also Published As

Publication number Publication date
CN113032613A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN110598029B (zh) 基于注意力转移机制的细粒度图像分类方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN106228185B (zh) 一种基于神经网络的通用图像分类识别***及方法
CN112633350B (zh) 一种基于图卷积的多尺度点云分类实现方法
CN110163258A (zh) 一种基于语义属性注意力重分配机制的零样本学习方法及***
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN112613552B (zh) 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN108052966A (zh) 基于卷积神经网络的遥感图像场景自动提取和分类方法
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN112347970B (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
CN110543906B (zh) 基于Mask R-CNN模型的肤质自动识别方法
WO2023019698A1 (zh) 基于富上下文网络的高光谱图像分类方法
CN112364931A (zh) 基于元特征和权重调整的少样本目标检测方法及网络模型
CN111125411A (zh) 一种深度强相关哈希学习的大规模图像检索方法
CN113095251B (zh) 一种人体姿态估计方法及***
CN112733602B (zh) 关系引导的行人属性识别方法
CN114510594A (zh) 一种基于自注意力机制的传统纹样子图检索方法
CN110263855A (zh) 一种利用共基胶囊投影进行图像分类的方法
CN110334777A (zh) 一种加权多视角无监督属性选择方法
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant