CN113032613B - 一种基于交互注意力卷积神经网络的三维模型检索方法 - Google Patents
一种基于交互注意力卷积神经网络的三维模型检索方法 Download PDFInfo
- Publication number
- CN113032613B CN113032613B CN202110270518.7A CN202110270518A CN113032613B CN 113032613 B CN113032613 B CN 113032613B CN 202110270518 A CN202110270518 A CN 202110270518A CN 113032613 B CN113032613 B CN 113032613B
- Authority
- CN
- China
- Prior art keywords
- model
- neural network
- view
- sketch
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 24
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 23
- 238000003062 neural network model Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 10
- 238000003708 edge detection Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 241000282326 Felis catus Species 0.000 claims description 2
- 238000000691 measurement method Methods 0.000 claims description 2
- 238000012821 model calculation Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于交互注意力卷积神经网络的三维模型检索方法。该方法首先对三维模型进行预处理,固定投影角度获取三维模型的6幅视图,并将其转换为线形图作为三维模型的视图集。其次,在卷积神经网络中嵌入交互注意模块来提取语义特征,增加了卷积神经网络两个网络层之间的数据交互。利用Gist算法和二维形状分布算法提取全局特征。再次,采用欧几里得距离计算草图与二维视图之间的相似度。然后,将这些特征与权值相结合检索三维模型。本发明弥补了使用小样本数据训练神经网络时过拟合导致的语义特征不准确问题,提高了三维模型检索的准确率。
Description
技术领域:
本发明涉及一种基于交互注意力卷积神经网络的三维模型检索方法,该方法在三维模型检索领域中有着很好的应用。
背景技术:
近年来,随着科学技术的日益发展,三维模型不仅在很多专业领域有着重要作用,在人们的日常生活中也被广泛普及,人们对三维模型的检索需求逐渐增大。基于实例的三维模型检索的测试对象只能是数据库中的模型,因此缺少了一定的通用性。基于草图的三维模型检索可以根据用户的需求随意绘制,方便适用,所以具有广泛的前景。
目前,一些常见的算法使用单一手工特征或深度学习的算法对来解决基于草图的模型检索问题。但是传统的手工特征存在不足,研究人员需要大量的先验知识,参数的设置需要手工提前设置,而且提取的特征效果并不想象。使用深度学习算法可以自动的调整参数,因此具有很好的扩展性。但是同样它也存在着一定的缺陷。由于深度神经网络的节点数量比较多,因此需要大量的数据来训练神经网络才能得到优秀的结果,一旦训练数据量不足就会导致过拟合,那么得到的结果也会出现偏差。为了能够在训练样本不足的前提下还能得到较好的检索结果,本发明提出了一种基于交互注意力卷积神经网络的三维模型检索方法。
发明内容:
为了解决在训练样本不足的前提下,基于草图的三维模型检索方法检索效果差的问题,本发明公开了一种基于交互注意力卷积神经网络的三维模型检索方法。
为此,本发明提供了如下技术方案:
1.一种基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,该方法包括以下步骤:
步骤1:进行数据预处理,对三维模型投影,得到三维模型对应的多幅视图并使用边缘检测算法得到模型的边缘视图集。
步骤2:设计深度卷积神经网络,使用交互注意力模块优化网络模型。选取其中一部分视图集作为训练集,另一部分视图集作为测试集。
步骤3:训练包括前向传播和反向传播两个过程。训练数据作为交互注意力卷积神经网络模型训练的输入,经过交互注意力卷积神经网络模型的训练,得到优化后的交互注意力卷积神经网络模型。
步骤4:使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征,使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征。
步骤5:将多个特征加权融合。根据欧几里得距离检索出与手绘草图最相似的模型。
2.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,所述步骤1中,对三维模型投影,得到三维模型对应的多幅视图并使用边缘检测算法得到模型的边缘视图集,具体步骤为:
步骤1-1将三维模型设置在一个虚拟球体的球心;
步骤1-2将虚拟摄像机放在该模型的上方,将模型以每步30度旋转360度,从而获得三维模型的12张视图集;
步骤1-3使用Canny边缘检测算法获得12张原始视图集各自的边缘视图;
对三维模型投影后,三维模型被表征为一组二维视图,使用Canny边缘检测算法可以减少手绘草图与三维模型视图之间的语义鸿沟。
3.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,所述步骤2中,设计深度卷积神经网络,使用交互注意力模块优化网络模型,具体步骤为:
步骤2-1确定卷积神经网络的深度,卷积核的大小,卷积层和池化层的数量;
步骤2-2设计交互注意力模块,在卷积层的输出后连接全局池化层,求出卷积层convn中每个通道的信息量Zk,其信息量计算公式如下:
其中,convnk表示第n个卷积层输出的第k个特征映射,其大小为Wn*Hn。
步骤2-3在全局池化层之后连接两个全连接层,根据信息量自适应地调整各个信道的注意力权重Skn,权重的计算公式如下:
Skn=Fex(Z,W)=σ(g(Z,W))=σ(W2δ(W1Z))
其中,δ为Relu函数,σ为sigmoid函数。W1、W2分别为第一个全连接和第二个全连接的权重。
步骤2-4分别计算两个邻域卷积层的交互注意力权重Sk1和Sk2,并将其融合,得到最优注意力权重Sk,最优注意力权重的计算公式如下:
Sk=Average(Sk1,Sk2)
步骤2-5将注意权重Sk与第二卷积层conv2、第一池化层ap融合得到最终结果a2,融合的计算公式如下:
选取其中一部分视图集作为训练集,另一部分视图集作为测试集。
4.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,所述步骤3中,对卷积神经网络模型进行训练,具体步骤为:
步骤3-1把训练数据输入到初始化的交互注意力卷积神经网络模型中;
步骤3-2经过卷积层,提取更详细的视图特征,浅层次卷积层提取低层特征,高层次卷积层提取高级语义特征;
步骤3-3经过注意力模块,通过加权通道与邻域卷积层融合后,减少手绘草图或模型的边缘视图在池化时丢失的信息;
步骤3-4经过池化层,缩小视图特征的规模,从而减少参数个数,加快模型计算的速度;
步骤3-5经过Dropout层,减轻因为训练样本不足导致的过拟合问题;
步骤3-6通过卷积、注意力模块、Dropout和池化交替操作之后,最后输入全连接层,对所提取的特征进行降维,连接成一维的高层语义特征向量;
步骤3-7在反向传播过程中,使用带有标签的2D视图来优化交互注意力卷积神经网络的权重和偏置。2D视图集为{v1,v2,…,vn},对应的标签集为{l1,l2,…,ln}。2D视图有t类,包括1,2,…,t。正向传播后,vi在第j类下的预测概率为y_testj。将vi的标签li与类别j比较,计算期望概率yij,概率的计算公式如下:
步骤3-8将预测概率y_testij和真实概率yj进行比较,利用交叉熵损失函数来计算误差loss。
所述误差loss的计算过程如下所示:
不断迭代交互注意力卷积神经网络模型,得到优化后的交互注意力卷积神经网络模型,并将权重与偏置保存。
5.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,在所述步骤4中,使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征,使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征,具体过程为:
步骤4-1把测试数据输入到优化后的交互注意力卷积神经网络模型之中;
步骤4-2提取出全连接层的特征作为手绘草图或模型视图的高层语义特征。
步骤4-3将尺寸为m*n的草图或2D视图划分为4*4的块。每个块的大小是a*b,其中a=m/4,b=n/4。
步骤4-4每个块由4个尺度、8个方向的32个Gabor滤波器处理。将处理后的特征进行组合,得到gist特征。公式如下:
其中,i=4,j=8。G(x,y)是32个Gabor滤波器的gist特征,cat()表示拼接操作。这里,x和y是像素的位置,I(x,y)表示块。同时,gij(x,y)是第i个尺度和第j个方向的滤波器。*表示卷积运算。
步骤4-5将草图或2D视图边界上的点随机等距离采样,采集为点={(x1,y1),…,(xi,yi),…,(xn,yn)}。这里(xi,yi)是点坐标。
步骤4-6利用D1描述子表示草图或二维视图边界上质心与随机采样点之间的距离。从点中提取点,收集到PD1={ai1,…,aik,…,aiN}。D1形状分布特征集合为{D1_v1,…,D1_vi,…,D1_vBins}。其中,D1_vi是区间(BinsSize*(i-1),BinsSize*i)的统计量,Bins是区间的个数,BinsSize是区间的长度。D1_vi的计算公式如下:
D1_vi=|{P|dist(P,O)∈(BinSize*(i-1),BinSize*i),P∈PD1}|
其中,BinsSize=max({dist(P,O)|P∈PD1})/N,dist()为两点之间的欧氏距离。O为草图或2D视图的质心。
步骤4-7利用D2描述符描述草图或二维视图边界上两个随机采样点之间的距离。从点中提取点对,收集为PD2={(ai1,bi1),(ai2,bi2),…,(aiN,biN)}。D2形状分布特征集合为{D2_v1,…,D2_vi,…,D2_vBins}。这里,D2_vi表示区间(BinSize*(i-1),BinSize*i)中的统计量。D2_vi计算公式如下:
D2_vi=|{P|dist(P)∈(BinSize*(i-1),BinSize*i),P∈PD2}|
其中,BinsSize=max({dist(P)|P∈PD2})/N。
步骤4-8利用D3描述符用于描述草图或2D视图边界上3个随机采样点形成的面积的平方根。从点中提取点三元组,收集到PD3={(ai1,bi1,ci1),(ai2,bi2,ci2),…,(ain,bin,cin)}。D3形状分布特征集合为{D3_v1,…,D3_vi,…,D3_vBins}。这里,D3_vi表示区间(BinSize*(i-1),BinSize*i)中的统计信息。D3_vi计算公式如下:
D3_vi=|{P|herson(P)∈(BinSize*(i-1),BinSize*i),P∈PD3}|
其中,a=dist(P1,P2),b=dist(P1,P3),c=dist(P2,P3).
步骤4-9D1_vi,D2_vi,D3_vi连接形成形状分布特征,i=1,2,…,Bins。
6.根据权利要求1所述的基于交互注意力CNN和加权相似度计算的三维模型检索方法,其特征在于,在所述步骤5中,将多个特征进行融合,根据相似性度量公式检索出与手绘草图最相似的模型,具体过程为:
步骤5-1选择欧氏距离作为相似性度量方法;
步骤5-2利用改进的交互注意力卷积神经网络从二维视图和草图中提取特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance1,计算检索的准确率,记为t1;
步骤5-3使用gist特征提取草图与模型视图的特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance2,计算检索的准确率,记为t2;
步骤5-4使用二维形状分布特征提取草图与模型视图之间的特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance3,计算检索的准确率,记为t3;
步骤5-5比较三种特征的准确率,对特征进行加权融合,形成新的特征相似度Sim(distance)。公式如下:
Sim(distance)=w1*distance1+w2*distance2+w3*distance,w1+w2+w3=1
其中,w1=t1/(t1+t2+t3),w2=t2/(t1+t2+t3),w3=t3/(t1+t2+t3)
步骤5-6根据相似度从小到大排序,实现检索效果。
有益效果:
1.本发明是一种基于交互注意力卷积神经网络的三维模型检索方法。以SHREC13数据库与ModelNet40数据库为基础,进行了模型检索。实验结果表明,本文方法具有较高的准确性。
2.本发明所使用的检索模型为交互注意力模块与卷积神经网络模型,卷积神经网络有局部感知和参数共享的能力,可以很好地处理高维数据,无需手动选取数据特征。提出的交互注意模型将相邻两个卷积层的注意权值合并,实现两个网络层之间数据的交互。训练好的卷积神经网络模型,就可以获得较好的检索效果。
3.在训练模型时,采用随机梯度下降法进行参数更新。误差通过反向传播沿原路线返回,即从输出层反向经过各中间隐藏层,逐层更新每一层参数,最终回到输出层。不断地进行前向传播和反向传播,以减小误差,更新模型参数,直到CNN训练好为止。
4.本发明对三维形状分布特征进行改进,使其适用到草图与二维视图中。使用形状分布函数描述草图和三维模型视图的形状信息。
5.本发明采用多种特征自适应融合的方式,对提出的特征进行相似度融合,实现了较好的检索效果。
附图说明:
图1为本发明实施方式中的待检索的草图。
图2为本发明实施方式中的三维模型检索框架图。
图3为本发明实施方式中的模型的投影视图。
图4为本发明实施方式中的Canny边缘视图。
图5为本发明实施方式中的交互注意力卷积神经网络模型。
图6为本发明实施方式中的交互注意力卷积神经网络的训练过程。
图7为本发明实施方式中的交互注意力卷积神经网络的测试过程。
具体实施方式:
为了使本发明的实施例中的技术方案能够清楚和完整地描述,以下结合实施例中的附图,对本发明进行进一步的详细说明。
本发明使用SHREC13的草图与ModelNet40模型库数据进行试验验证。以SHREC13草图中的“17205.png”与ModelNet40模型库中的“table_0399.off”为例。待检索的草图如图1所示。
本发明实施基于交互注意力卷积神经网络的三维模型检索方法的实验框架图,如图2所示,包括以下步骤:
步骤1对三维模型投影,得到三维模型边缘视图集,具体为:
步骤1-1将table_0399.off文件置于虚拟球体的中心。
步骤1-2将虚拟摄像机放在该模型的上方,将模型以每步30度旋转360度,从而获得三维模型的12张视图集,以其中一张视图为例进行展示,模型的投影视图如图3所示;
步骤1-3使用Canny边缘检测算法获得的视图如图4所示;
步骤2设计深度卷积神经网络,使用交互注意力模块优化网络模型,如图5所示,具体为:
步骤2-1为了使得特征提取的效果更好,设计深度卷积神经网络,共有5个卷积层,4个池化层,两个dropout层,一个连接层,一个全连接层。
步骤2-2交互注意力模块嵌入设计好的卷积神经网络结构中,在卷积层的输出后连接全局池化层,求出卷积层中每个通道的信息量Zk。以草图为例,草图的第一卷积层信息量如下:
Zk=[[0.0323739 0.04996519 0.0190248 0.03274497 0.03221277 0.002067190.04075038 0.01613641 0.03390235 0.04024649 0.03553107 0.00632962 0.034426830.04588291 0.01900478 0.02144121 0.03710039 0.03861086 0.05596253 0.04396860.03611921 0.04850776 0.00716817 0.02596463 0.00525256 0.03657651 0.028091890.03490375 0.04528182 0.03938764 0.00690786 0.04449471]]
步骤2-3在全局池化层之后连接两个全连接层,根据信息量自适应地调整各个信道的注意力权重Skn。以草图为例,草图的注意力权重如下:
Skn=[[0.49450904 0.49921992 0.50748134 0.5051483 0.5093386 0.498442380.50426346 0.50664175 0.5053692 0.5012332 0.5004162 0.49788538 0.5056690.5012219 0.5009724 0.4942028 0.49796405 0.4992011 0.5064934 0.49631130.50500274 0.50238824 0.50202376 0.49661288 0.50185806 0.5048757 0.50732030.50703263 0.51684725 0.50641936 0.5052296 0.4979179]]
步骤2-4分别计算两个邻域卷积层的交互注意力权重Sk1和Sk2,并将其融合,得到最优注意力权重Sk,草图的最优注意力权重如下:
Sk=[[0.4625304 0.47821882 0.5064253 0.5032532 0.5093386 0.498774960.50426346 0.50664175 0.5053692 0.5012332 0.5004162 0.49784237 0.5056880.5011142 0.5008647 0.4942028 0.49796405 0.4991069 0.5064934 0.49631130.5102687 0.50125698 0.502524856 0.49675384 0.49365704 0.5027958 0.50765290.50814523 0.51006527 0.50361942 0.50422731 0.4635842]]
步骤2-5将注意权重Sk与第二卷积层conv2、第一池化层ap融合得到最终结果a2,草图的第二卷积层的部分结果为:
a2=[[[[0.14450312 0.0644969 0.10812703...0.18608719 0.01994037 0]
[0.18341058 0.15881275 0.24716881...0.18875208 0.14420813 0.08290599]
[0.17390229 0.14937611 0.2255666...0.15295741 0.18792515 0.08066748]
...
[0.31344187 0.18656467 0.22178406...0.22087486 0.22130579 0.00955889]
[0.12405898 0.10548315 0.11685486...0.10439464 0.2906406 0.14846338]]
[[0.10032222 0.21919143 0.09797319...0.13584027 0.0.12112971]
[0.20946684 0.14252397 0.17954415...0.09708451 0.0.15463363]
[0.06941956 0.03963253 0.13273408...0.00173131 0.04566149 0.14895247]
...
[[0.01296724 0.27460644 0.09022377...0.06938899 0.04487894 0.2567152]
[0.16118288 0.38024116 0.02033611...0.13374138 0 0.17068687]
[0.09430372 0.35878736 0...0.0846955 0 0.25289127]
...
[0.10363265 0.4103881 0...0.0728834 0 0.29586816]
[0.18578637 0.34666267 0...0.05323519 0 0.27042198]
[0.0096841 0.18718664 0...0.04646093 0.00576336 0.155898]]]]
步骤3对卷积神经网络模型进行训练,如图6所示,具体步骤为:
步骤3-1将草图与边缘二维视图作为训练数据输入到初始化的交互注意力卷积神经网络中;
步骤3-2经过卷积层,提取更详细的视图特征;
步骤3-3经过注意力模块,通过加权通道与邻域卷积层融合后,可以减少手绘草图或模型的边缘视图在池化时丢失的信息;
步骤3-4经过池化层,提取最大的视图信息;
步骤3-5经过Dropout层,减轻因为训练样本不足导致的过拟合问题;
步骤3-6通过卷积、注意力模块、Dropout和池化交替操作之后,最后输入全连接层,对所提取的特征进行降维,连接成一维的高层语义特征向量;
步骤3-7通过softmax函数得知草图“17205.png”在“table”类别下的概率为89.99%
步骤3-8将预测概率y_testij和真实概率yj进行比较,利用交叉熵损失函数来计算误差loss。
其中loss17205表示草图“17205.png”的误差。
不断迭代交互注意力卷积神经网络模型,得到优化后的交互注意力卷积神经网络模型。
步骤4提取语义特征与形状分布特征,具体为:
步骤4-1把测试数据输入到优化后的交互注意力卷积神经网络模型之中,测试过程如图7所示;
步骤4-2提取出全连接层的特征作为手绘草图或模型视图的高层语义特征。提取出的草图的部分高层语义特征如下所示:
Feature=[[0,0.87328064,0,0,1.3293583,0,2.3825126,0,0,4.8035927,0,1.5186063,0,3.6845286,1.0825952,0,1.8516512,1.0285587,0,0,0,3.3322043,1.0545557,0,0,4.8707848,3.042554,0,0,0,0,6.8227463,2.537525,1.5318785,2.7271123,0,3.0482264……]]
步骤4-3将尺寸为草图或二维视图划分为4*4的块;
步骤4-4每个块由4个尺度、8个方向的32个Gabor滤波器处理。将处理后的特征进行组合,得到gist特征。Gist特征共提取512维,草图的部分gist特征如下所示:
G(x,y)=[[5.81147151e-03 1.51588341e-02 1.75721212e-03 2.10059434e-011.62918585e-01 1.54040498e-01 1.44374291e-01 8.71880878e-01 5.26758657e-014.14263371e-01 7.17606844e-01 6.22190594e-01 1.11205845e-01 7.69002490e-042.18182730e-01 2.29565939e-01 9.32599080e-03 1.10805327e-02 1.40071468e-032.58543039e-01 5.67934220e-02 1.06132064e-01 9.10082146e-02 4.02163211e-012.97883778e-01 2.45860956e-01 4.02066928e-01 2.84401506e-01
1.03228724e-01 6.37419945e-04 2.71290458e-01……]]
步骤4-5将草图或二维视图边界上的点随机等距离采样;
步骤4-6利用D1描述子表示草图或二维视图边界上质心与随机采样点之间的距离。草图的部分D1描述子如下所示:
D1=[0.30470497858541628,0.6256941275550102,0.11237884569183111,0.23229854666522,0.2657159486944761,0.0731852015843772,0.40751749800795261……]
步骤4-7利用D2描述符描述草图或二维视图边界上两个随机采样点之间的距离。草图的部分D2描述子如下所示:
D2=[0.13203683803844625,0.028174099301372796,0.15392681513105217,0.130238265264,0.123460163767958,0.06985106421513015,0.12992235205980568……]
步骤4-8利用D3描述符用于描述草图或二维视图边界上3个随机采样点形成的面积的平方根。草图的部分D3描述子如下所示:
D3=[0.9193157274532394,0.5816923854309814,0.46980644879802125,0.498873567635874,0.7195175116705602,0.29425190983247506,0.8724092377243926……]
步骤4-9将D1,D2,D3串联形成形状分布特征;
步骤5将草图的多个特征进行融合,根据相似性度量公式检索出与手绘草图最相似的模型,具体为:
步骤5-1比较多种相似度检索方法,最终效果最好的为欧式距离;
步骤5-2利用改进的交互注意力卷积神经网络从二维视图和草图中提取特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance1,检索的准确率为0.96;
步骤5-3使用gist特征提取草图与模型视图的特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance2,检索的准确率为0.53;
步骤5-4使用二维形状分布特征提取草图与模型视图之间的特征向量,对特征向量进行归一化处理。使用欧氏距离计算相似度,记为distance3,检索的准确率为0.42;
步骤5-5根据三种特征的检索准确率确定权重。
最终确定权重为:5:3:2
Sim(distance)=0.5*distance1+0.3*distance2+0.2*distance
步骤5-6根据相似度从小到大排序,实现检索效果。
本发明实施方式中的基于交互注意力卷积神经网络的三维模型检索方法,采用了传统特征与深度特征加权融合的方式,实现了较好的检索效果。
以上所述是结合附图对本发明的实施例进行的详细介绍,本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围内均可有所变更和修改,故本发明书不应理解为对本发明的限制。
Claims (5)
1.一种基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,该方法包括以下步骤:
步骤1:进行数据预处理,对三维模型投影,得到三维模型对应的多幅视图并使用边缘检测算法得到模型的边缘视图集;
步骤2:设计深度卷积神经网络,使用交互注意力模块优化网络模型,选取其中一部分视图集作为训练集,另一部分视图集作为测试集,包括:
步骤2-1,确定卷积神经网络的深度,卷积核的大小,卷积层和池化层的数量;
步骤2-2,设计交互注意力模块,在卷积层的输出后连接全局池化层,求出卷积层convn中每个通道的信息量Zk,其信息量计算公式如下:
其中,convnk表示第n个卷积层输出的第k个特征映射,其大小为Hn*Wn;
步骤2-3,在全局池化层之后连接两个全连接层,根据信息量自适应地调整各个信道的注意力权重Skn,权重的计算公式如下:
Skn=Fex(Z,W)=σ(g(Z,W))=σ(W2δ(W1Z));
其中,δ为Relu函数,σ为sigmoid函数,W1、W2分别为第一个全连接和第二个全连接的权重;
步骤2-4,分别计算两个邻域卷积层的交互注意力权重Sk1和Sk2,并将其融合,得到最优注意力权重Sk,最优注意力权重的计算公式如下:
Sk=Average(Sk1,Sk2);
步骤2-5,将注意权重Sk与第二卷积层conv2、第一池化层ap融合得到最终结果a2,融合的计算公式如下:
选取其中一部分视图集作为训练集,另一部分视图集作为测试集;
步骤3:训练包括前向传播和反向传播两个过程,训练数据作为交互注意力卷积神经网络模型训练的输入,经过交互注意力卷积神经网络模型的训练,得到优化后的交互注意力卷积神经网络模型;
步骤4:使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征,使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征;
步骤5:将多个特征加权融合,根据欧几里得距离检索出与手绘草图最相似的模型。
2.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,所述步骤1中,对三维模型投影,得到三维模型对应的多幅视图并使用边缘检测算法得到模型的边缘视图集,具体步骤为:
步骤1-1,将三维模型设置在一个虚拟球体的球心;
步骤1-2,将虚拟摄像机放在该模型的上方,将模型以每步30度旋转360度,从而获得三维模型的12张视图集;
步骤1-3,使用Canny边缘检测算法获得12张原始视图集各自的边缘视图;
对三维模型投影后,三维模型被表征为一组二维视图,使用Canny边缘检测算法可以减少手绘草图与三维模型视图之间的语义鸿沟。
3.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,所述步骤3中,对卷积神经网络模型进行训练,具体步骤为:
步骤3-1,把训练数据输入到初始化的交互注意力卷积神经网络模型中;
步骤3-2,经过卷积层,提取更详细的视图特征,浅层次卷积层提取低层特征,高层次卷积层提取高级语义特征;
步骤3-3,经过注意力模块,通过加权通道与邻域卷积层融合后,减少手绘草图或模型的边缘视图在池化时丢失的信息;
步骤3-4,经过池化层,缩小视图特征的规模,从而减少参数个数,加快模型计算的速度;
步骤3-5,经过Dropout层,减轻因为训练样本不足导致的过拟合问题;
步骤3-6,通过卷积、注意力模块、Dropout和池化交替操作之后,最后输入全连接层,对所提取的特征进行降维,连接成一维的高层语义特征向量;
步骤3-7,在反向传播过程中,使用带有标签的2D视图来优化交互注意力卷积神经网络的权重和偏置,2D视图集为{v1,v2,…,vn},对应的标签集为{l1,l2,…,ln},2D视图有t类,包括1,2,…,t,正向传播后,vi在第j类下的预测概率为y_testj,将vi的标签li与类别j比较,计算期望概率yij,概率的计算公式如下:
步骤3-8,将预测概率y_testij和真实概率yj进行比较,利用交叉熵损失函数来计算误差loss;
所述误差loss的计算过程如下所示:
不断迭代交互注意力卷积神经网络模型,得到优化后的交互注意力卷积神经网络模型,并将权重与偏置保存。
4.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法,其特征在于,在所述步骤4中,使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征,使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征,具体过程为:
步骤4-1,把测试数据输入到优化后的交互注意力卷积神经网络模型之中;
步骤4-2,提取出全连接层的特征作为手绘草图或模型视图的高层语义特征;
步骤4-3,将尺寸为m*n的草图或2D视图划分为4*4的块,每个块的大小是a*b,其中a=m/4,b=n/4;
步骤4-4,每个块由4个尺度、8个方向的32个Gabor滤波器处理,将处理后的特征进行组合,得到gist特征,公式如下:
其中,i=4,j=8,G(x,y)是32个Gabor滤波器的gist特征,cat()表示拼接操作,这里,x和y是像素的位置,I(x,y)表示块,同时,gij(x,y)是第i个尺度和第j个方向的滤波器,*表示卷积运算;
步骤4-5,将草图或2D视图边界上的点随机等距离采样,采集为点={(x1,y1),…,(xi,yi),…,(xn,yn)},这里(xi,yi)是点坐标,
步骤4-6,利用D1描述子表示草图或二维视图边界上质心与随机采样点之间的距离,从点中提取点,收集到PD1={ai1,…,aik,…,aiN},D1形状分布特征集合为{D1_v1,…,D1_vi,…,D1_vBins},其中,D1_vi是区间(BinsSize*(i-1),BinsSize*i)的统计量,Bins是区间的个数,BinsSize是区间的长度,D1_vi的计算公式如下:
D1_vi=|{P|dist(P,O)∈(BinSize*(i-1),BinSize*i),P∈PD1}|;
其中,BinsSize=max({dist(P,O)|P∈PD1})/N,dist()为两点之间的欧氏距离,O为草图或2D视图的质心;
步骤4-7,利用D2描述符描述草图或二维视图边界上两个随机采样点之间的距离,从点中提取点对,收集为PD2={(ai1,bi1),(ai2,bi2),…,(aiN,biN)},D2形状分布特征集合为{D2_v1,…,D2_vi,…,D2_vBins},这里,D2_vi表示区间(BinSize*(i-1),BinSize*i)中的统计量,D2_vi计算公式如下:
D2_vi=|{P|dist(P)∈(BinSize*(i-1),BinSize*i),P∈PD2}|;
其中,BinsSize=max({dist(P)|P∈PD2})/N,
步骤4-8,利用D3描述符用于描述草图或2D视图边界上3个随机采样点形成的面积的平方根,从点中提取点三元组,收集到PD3={(ai1,bi1,ci1),(ai2,bi2,ci2),…,(ain,bin,cin)},D3形状分布特征集合为{D3_v1,…,D3_vi,…,D3_vBins},这里,D3_vi表示区间(BinSize*(i-1),BinSize*i)中的统计信息,D3_vi为:
D3_vi=|{P|herson(P)∈(BinSize*(i-1),BinSize*i),P∈PD3}|;
其中,a=dist(P1,P2),b=dist(P1,P3),c=dist(P2,P3);
步骤4-9,D1_vi,D2_vi,D3_vi连接形成形状分布特征,i=1,2,…,Bins。
5.根据权利要求1所述的基于交互注意力卷积神经网络 的三维模型检索方法,其特征在于,在所述步骤5中,将多个特征进行融合,根据相似性度量公式检索出与手绘草图最相似的模型,具体过程为:
步骤5-1,选择欧氏距离作为相似性度量方法;
步骤5-2,利用改进的交互注意力卷积神经网络从二维视图和草图中提取特征向量,对特征向量进行归一化处理,使用欧氏距离计算相似度,记为distance1,计算检索的准确率,记为t1;
步骤5-3,使用gist特征提取草图与模型视图的特征向量,对特征向量进行归一化处理;使用欧氏距离计算相似度,记为distance2,计算检索的准确率,记为t2;
步骤5-4,使用二维形状分布特征提取草图与模型视图之间的特征向量,对特征向量进行归一化处理,使用欧氏距离计算相似度,记为distance3,计算检索的准确率,记为t3;
步骤5-5,比较三种特征的准确率,对特征进行加权融合,形成新的特征相似度distance,公式如下:
Sim(distance)=w1*distance1+w2*distance2+w3*distance,w1+w2+w3=1;
其中,w1=t1/(t1+t2+t3),w2=t2/(t1+t2+t3),w3=t3/(t1+t2+t3);
步骤5-6,根据相似度从小到大排序,实现检索效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110270518.7A CN113032613B (zh) | 2021-03-12 | 2021-03-12 | 一种基于交互注意力卷积神经网络的三维模型检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110270518.7A CN113032613B (zh) | 2021-03-12 | 2021-03-12 | 一种基于交互注意力卷积神经网络的三维模型检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113032613A CN113032613A (zh) | 2021-06-25 |
CN113032613B true CN113032613B (zh) | 2022-11-08 |
Family
ID=76470237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110270518.7A Active CN113032613B (zh) | 2021-03-12 | 2021-03-12 | 一种基于交互注意力卷积神经网络的三维模型检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032613B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658176B (zh) * | 2021-09-07 | 2023-11-07 | 重庆科技学院 | 基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法 |
CN114842287B (zh) * | 2022-03-25 | 2022-12-06 | 中国科学院自动化研究所 | 深度引导变形器的单目三维目标检测模型训练方法及装置 |
CN117952966A (zh) * | 2024-03-26 | 2024-04-30 | 华南理工大学 | 基于Sinkhorn算法的多模态融合生存预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101004748A (zh) * | 2006-10-27 | 2007-07-25 | 北京航空航天大学 | 基于二维草图的三维模型检索方法 |
CN101089846A (zh) * | 2006-06-16 | 2007-12-19 | 国际商业机器公司 | 数据分析方法、设备以及数据分析辅助方法 |
CN101110826A (zh) * | 2007-08-22 | 2008-01-23 | 张建中 | 构建多维地址的方法、装置以及*** |
CN107122396A (zh) * | 2017-03-13 | 2017-09-01 | 西北大学 | 基于深度卷积神经网络的三维模型检索算法 |
CN110569386A (zh) * | 2019-09-16 | 2019-12-13 | 哈尔滨理工大学 | 基于手绘草图集成描述子的三维模型检索方法 |
CN111597367A (zh) * | 2020-05-18 | 2020-08-28 | 河北工业大学 | 基于视图和哈希算法的三维模型检索方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350016B (zh) * | 2007-07-20 | 2010-11-24 | 富士通株式会社 | 三维模型检索装置及方法 |
CN103295025B (zh) * | 2013-05-03 | 2016-06-15 | 南京大学 | 一种三维模型最优视图的自动选择方法 |
CN105243137B (zh) * | 2015-09-30 | 2018-12-11 | 华南理工大学 | 一种基于草图的三维模型检索视点选择方法 |
JP6798183B2 (ja) * | 2016-08-04 | 2020-12-09 | 株式会社リコー | 画像解析装置、画像解析方法およびプログラム |
CN109783887A (zh) * | 2018-12-25 | 2019-05-21 | 西安交通大学 | 一种面向三维加工特征的智能识别与检索方法 |
CN110033023B (zh) * | 2019-03-11 | 2021-06-15 | 北京光年无限科技有限公司 | 一种基于绘本识别的图像数据处理方法及*** |
CN111078913A (zh) * | 2019-12-16 | 2020-04-28 | 天津运泰科技有限公司 | 基于多视图卷积神经网络的三维模型检索方法 |
CN111242207A (zh) * | 2020-01-08 | 2020-06-05 | 天津大学 | 一种基于视觉显著性信息共享的三维模型分类和检索方法 |
CN111625667A (zh) * | 2020-05-18 | 2020-09-04 | 北京工商大学 | 一种基于复杂背景图像的三维模型跨域检索方法及*** |
-
2021
- 2021-03-12 CN CN202110270518.7A patent/CN113032613B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101089846A (zh) * | 2006-06-16 | 2007-12-19 | 国际商业机器公司 | 数据分析方法、设备以及数据分析辅助方法 |
CN101004748A (zh) * | 2006-10-27 | 2007-07-25 | 北京航空航天大学 | 基于二维草图的三维模型检索方法 |
CN101110826A (zh) * | 2007-08-22 | 2008-01-23 | 张建中 | 构建多维地址的方法、装置以及*** |
CN107122396A (zh) * | 2017-03-13 | 2017-09-01 | 西北大学 | 基于深度卷积神经网络的三维模型检索算法 |
CN110569386A (zh) * | 2019-09-16 | 2019-12-13 | 哈尔滨理工大学 | 基于手绘草图集成描述子的三维模型检索方法 |
CN111597367A (zh) * | 2020-05-18 | 2020-08-28 | 河北工业大学 | 基于视图和哈希算法的三维模型检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113032613A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598029B (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN106228185B (zh) | 一种基于神经网络的通用图像分类识别***及方法 | |
CN112633350B (zh) | 一种基于图卷积的多尺度点云分类实现方法 | |
CN110163258A (zh) | 一种基于语义属性注意力重分配机制的零样本学习方法及*** | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN112613552B (zh) | 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法 | |
CN108052966A (zh) | 基于卷积神经网络的遥感图像场景自动提取和分类方法 | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN112347970B (zh) | 一种基于图卷积神经网络的遥感影像地物识别方法 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN113408605A (zh) | 基于小样本学习的高光谱图像半监督分类方法 | |
CN110543906B (zh) | 基于Mask R-CNN模型的肤质自动识别方法 | |
WO2023019698A1 (zh) | 基于富上下文网络的高光谱图像分类方法 | |
CN112364931A (zh) | 基于元特征和权重调整的少样本目标检测方法及网络模型 | |
CN111125411A (zh) | 一种深度强相关哈希学习的大规模图像检索方法 | |
CN113095251B (zh) | 一种人体姿态估计方法及*** | |
CN112733602B (zh) | 关系引导的行人属性识别方法 | |
CN114510594A (zh) | 一种基于自注意力机制的传统纹样子图检索方法 | |
CN110263855A (zh) | 一种利用共基胶囊投影进行图像分类的方法 | |
CN110334777A (zh) | 一种加权多视角无监督属性选择方法 | |
CN115457332A (zh) | 基于图卷积神经网络和类激活映射的图像多标签分类方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |