CN113032613B

CN113032613B - 一种基于交互注意力卷积神经网络的三维模型检索方法

Info

Publication number: CN113032613B
Application number: CN202110270518.7A
Authority: CN
Inventors: 贾雯惠; 高雪瑶
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-11-08
Anticipated expiration: 2041-03-12
Also published as: CN113032613A

Abstract

本发明提出了一种基于交互注意力卷积神经网络的三维模型检索方法。该方法首先对三维模型进行预处理，固定投影角度获取三维模型的6幅视图，并将其转换为线形图作为三维模型的视图集。其次，在卷积神经网络中嵌入交互注意模块来提取语义特征，增加了卷积神经网络两个网络层之间的数据交互。利用Gist算法和二维形状分布算法提取全局特征。再次，采用欧几里得距离计算草图与二维视图之间的相似度。然后，将这些特征与权值相结合检索三维模型。本发明弥补了使用小样本数据训练神经网络时过拟合导致的语义特征不准确问题，提高了三维模型检索的准确率。

Description

一种基于交互注意力卷积神经网络的三维模型检索方法

技术领域：

本发明涉及一种基于交互注意力卷积神经网络的三维模型检索方法，该方法在三维模型检索领域中有着很好的应用。

背景技术：

近年来，随着科学技术的日益发展，三维模型不仅在很多专业领域有着重要作用，在人们的日常生活中也被广泛普及，人们对三维模型的检索需求逐渐增大。基于实例的三维模型检索的测试对象只能是数据库中的模型，因此缺少了一定的通用性。基于草图的三维模型检索可以根据用户的需求随意绘制，方便适用，所以具有广泛的前景。

目前，一些常见的算法使用单一手工特征或深度学习的算法对来解决基于草图的模型检索问题。但是传统的手工特征存在不足，研究人员需要大量的先验知识，参数的设置需要手工提前设置，而且提取的特征效果并不想象。使用深度学习算法可以自动的调整参数，因此具有很好的扩展性。但是同样它也存在着一定的缺陷。由于深度神经网络的节点数量比较多，因此需要大量的数据来训练神经网络才能得到优秀的结果，一旦训练数据量不足就会导致过拟合，那么得到的结果也会出现偏差。为了能够在训练样本不足的前提下还能得到较好的检索结果，本发明提出了一种基于交互注意力卷积神经网络的三维模型检索方法。

发明内容：

为了解决在训练样本不足的前提下，基于草图的三维模型检索方法检索效果差的问题，本发明公开了一种基于交互注意力卷积神经网络的三维模型检索方法。

为此，本发明提供了如下技术方案：

1.一种基于交互注意力卷积神经网络的三维模型检索方法，其特征在于，该方法包括以下步骤：

步骤1：进行数据预处理，对三维模型投影，得到三维模型对应的多幅视图并使用边缘检测算法得到模型的边缘视图集。

步骤2：设计深度卷积神经网络，使用交互注意力模块优化网络模型。选取其中一部分视图集作为训练集，另一部分视图集作为测试集。

步骤3：训练包括前向传播和反向传播两个过程。训练数据作为交互注意力卷积神经网络模型训练的输入，经过交互注意力卷积神经网络模型的训练，得到优化后的交互注意力卷积神经网络模型。

步骤4：使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征，使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征。

步骤5：将多个特征加权融合。根据欧几里得距离检索出与手绘草图最相似的模型。

2.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法，其特征在于，所述步骤1中，对三维模型投影，得到三维模型对应的多幅视图并使用边缘检测算法得到模型的边缘视图集，具体步骤为：

步骤1-1将三维模型设置在一个虚拟球体的球心；

步骤1-2将虚拟摄像机放在该模型的上方，将模型以每步30度旋转360度，从而获得三维模型的12张视图集；

步骤1-3使用Canny边缘检测算法获得12张原始视图集各自的边缘视图；

对三维模型投影后，三维模型被表征为一组二维视图，使用Canny边缘检测算法可以减少手绘草图与三维模型视图之间的语义鸿沟。

3.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法，其特征在于，所述步骤2中，设计深度卷积神经网络，使用交互注意力模块优化网络模型，具体步骤为：

步骤2-1确定卷积神经网络的深度，卷积核的大小，卷积层和池化层的数量；

步骤2-2设计交互注意力模块，在卷积层的输出后连接全局池化层，求出卷积层conv_n中每个通道的信息量Z_k，其信息量计算公式如下：

其中，conv_nk表示第n个卷积层输出的第k个特征映射，其大小为W_n*H_n。

步骤2-3在全局池化层之后连接两个全连接层，根据信息量自适应地调整各个信道的注意力权重S_kn，权重的计算公式如下：

S_kn＝F_ex(Z,W)＝σ(g(Z,W))＝σ(W₂δ(W₁Z))

其中，δ为Relu函数，σ为sigmoid函数。W₁、W₂分别为第一个全连接和第二个全连接的权重。

步骤2-4分别计算两个邻域卷积层的交互注意力权重S_k1和S_k2，并将其融合，得到最优注意力权重S_k，最优注意力权重的计算公式如下：

S_k＝Average(S_k1,S_k2)

步骤2-5将注意权重S_k与第二卷积层conv₂、第一池化层a_p融合得到最终结果a₂，融合的计算公式如下：

选取其中一部分视图集作为训练集，另一部分视图集作为测试集。

4.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法，其特征在于，所述步骤3中，对卷积神经网络模型进行训练，具体步骤为：

步骤3-1把训练数据输入到初始化的交互注意力卷积神经网络模型中；

步骤3-2经过卷积层，提取更详细的视图特征，浅层次卷积层提取低层特征，高层次卷积层提取高级语义特征；

步骤3-3经过注意力模块，通过加权通道与邻域卷积层融合后，减少手绘草图或模型的边缘视图在池化时丢失的信息；

步骤3-4经过池化层，缩小视图特征的规模，从而减少参数个数，加快模型计算的速度；

步骤3-5经过Dropout层，减轻因为训练样本不足导致的过拟合问题；

步骤3-6通过卷积、注意力模块、Dropout和池化交替操作之后，最后输入全连接层，对所提取的特征进行降维，连接成一维的高层语义特征向量；

步骤3-7在反向传播过程中，使用带有标签的2D视图来优化交互注意力卷积神经网络的权重和偏置。2D视图集为{v₁,v₂，…，v_n}，对应的标签集为{l₁,l₂，…,l_n}。2D视图有t类，包括1,2，…，t。正向传播后，v_i在第j类下的预测概率为y_testj。将v_i的标签l_i与类别j比较，计算期望概率y_ij，概率的计算公式如下：

步骤3-8将预测概率y_test_ij和真实概率y_j进行比较，利用交叉熵损失函数来计算误差loss。

所述误差loss的计算过程如下所示：

不断迭代交互注意力卷积神经网络模型，得到优化后的交互注意力卷积神经网络模型，并将权重与偏置保存。

5.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法，其特征在于，在所述步骤4中，使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征，使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征，具体过程为：

步骤4-1把测试数据输入到优化后的交互注意力卷积神经网络模型之中；

步骤4-2提取出全连接层的特征作为手绘草图或模型视图的高层语义特征。

步骤4-3将尺寸为m*n的草图或2D视图划分为4*4的块。每个块的大小是a*b，其中a＝m/4,b＝n/4。

步骤4-4每个块由4个尺度、8个方向的32个Gabor滤波器处理。将处理后的特征进行组合，得到gist特征。公式如下：

其中，i＝4,j＝8。G(x,y)是32个Gabor滤波器的gist特征，cat()表示拼接操作。这里，x和y是像素的位置，I(x,y)表示块。同时，g_ij(x,y)是第i个尺度和第j个方向的滤波器。*表示卷积运算。

步骤4-5将草图或2D视图边界上的点随机等距离采样，采集为点＝{(x₁,y₁)，…，(x_i,y_i)，…，(x_n,y_n)}。这里(x_i,y_i)是点坐标。

步骤4-6利用D1描述子表示草图或二维视图边界上质心与随机采样点之间的距离。从点中提取点，收集到PD1＝{ai₁，…，ai_k，…，ai_N}。D1形状分布特征集合为{D1_v₁，…，D1_v_i，…，D1_v_Bins}。其中，D1_v_i是区间(BinsSize*(i-1)，BinsSize*i)的统计量，Bins是区间的个数，BinsSize是区间的长度。D1_v_i的计算公式如下：

D1_v_i＝|{P|dist(P,O)∈(BinSize*(i-1),BinSize*i),P∈PD1}|

其中，BinsSize＝max({dist(P,O)|P∈PD1})/N，dist()为两点之间的欧氏距离。O为草图或2D视图的质心。

步骤4-7利用D2描述符描述草图或二维视图边界上两个随机采样点之间的距离。从点中提取点对，收集为PD2＝{(ai₁,bi₁)，(ai₂,bi₂)，…，(ai_N,bi_N)}。D2形状分布特征集合为{D2_v₁，…，D2_v_i，…，D2_v_Bins}。这里，D2_v_i表示区间(BinSize*(i-1)，BinSize*i)中的统计量。D2_v_i计算公式如下：

D2_v_i＝|{P|dist(P)∈(BinSize*(i-1),BinSize*i),P∈PD2}|

其中，BinsSize＝max({dist(P)|P∈PD2})/N。

步骤4-8利用D3描述符用于描述草图或2D视图边界上3个随机采样点形成的面积的平方根。从点中提取点三元组，收集到PD3＝{(ai₁,bi₁,ci₁)，(ai₂,bi₂,ci₂)，…，(ai_n,bi_n,ci_n)}。D3形状分布特征集合为{D3_v₁，…，D3_v_i，…，D3_v_Bins}。这里，D3_v_i表示区间(BinSize*(i-1)，BinSize*i)中的统计信息。D3_v_i计算公式如下：

D3_v_i＝|{P|herson(P)∈(BinSize*(i-1),BinSize*i),P∈PD3}|

其中，

herson()代表Helen公式，用Helen公式计算三角形P＝(P₁,P₂,P₃)的面积，计算公式如下所示：

其中，a＝dist(P₁,P₂),b＝dist(P₁,P₃),c＝dist(P₂,P₃).

步骤4-9D1_v_i,D2_v_i,D3_v_i连接形成形状分布特征，i＝1,2，…，Bins。

6.根据权利要求1所述的基于交互注意力CNN和加权相似度计算的三维模型检索方法，其特征在于，在所述步骤5中，将多个特征进行融合，根据相似性度量公式检索出与手绘草图最相似的模型，具体过程为：

步骤5-1选择欧氏距离作为相似性度量方法；

步骤5-2利用改进的交互注意力卷积神经网络从二维视图和草图中提取特征向量，对特征向量进行归一化处理。使用欧氏距离计算相似度，记为distance1，计算检索的准确率，记为t1；

步骤5-3使用gist特征提取草图与模型视图的特征向量，对特征向量进行归一化处理。使用欧氏距离计算相似度，记为distance2，计算检索的准确率，记为t2；

步骤5-4使用二维形状分布特征提取草图与模型视图之间的特征向量，对特征向量进行归一化处理。使用欧氏距离计算相似度，记为distance3，计算检索的准确率，记为t3；

步骤5-5比较三种特征的准确率，对特征进行加权融合，形成新的特征相似度Sim(distance)。公式如下：

Sim(distance)＝w₁*distance1+w₂*distance2+w₃*distance，w₁+w₂+w₃＝1

其中，w₁＝t₁/(t₁+t₂+t₃)，w₂＝t₂/(t₁+t₂+t₃)，w₃＝t₃/(t₁+t₂+t₃)

步骤5-6根据相似度从小到大排序，实现检索效果。

有益效果：

1.本发明是一种基于交互注意力卷积神经网络的三维模型检索方法。以SHREC13数据库与ModelNet40数据库为基础，进行了模型检索。实验结果表明，本文方法具有较高的准确性。

2.本发明所使用的检索模型为交互注意力模块与卷积神经网络模型，卷积神经网络有局部感知和参数共享的能力，可以很好地处理高维数据，无需手动选取数据特征。提出的交互注意模型将相邻两个卷积层的注意权值合并，实现两个网络层之间数据的交互。训练好的卷积神经网络模型，就可以获得较好的检索效果。

3.在训练模型时，采用随机梯度下降法进行参数更新。误差通过反向传播沿原路线返回，即从输出层反向经过各中间隐藏层，逐层更新每一层参数，最终回到输出层。不断地进行前向传播和反向传播，以减小误差，更新模型参数，直到CNN训练好为止。

4.本发明对三维形状分布特征进行改进，使其适用到草图与二维视图中。使用形状分布函数描述草图和三维模型视图的形状信息。

5.本发明采用多种特征自适应融合的方式，对提出的特征进行相似度融合，实现了较好的检索效果。

附图说明：

图1为本发明实施方式中的待检索的草图。

图2为本发明实施方式中的三维模型检索框架图。

图3为本发明实施方式中的模型的投影视图。

图4为本发明实施方式中的Canny边缘视图。

图5为本发明实施方式中的交互注意力卷积神经网络模型。

图6为本发明实施方式中的交互注意力卷积神经网络的训练过程。

图7为本发明实施方式中的交互注意力卷积神经网络的测试过程。

具体实施方式：

为了使本发明的实施例中的技术方案能够清楚和完整地描述，以下结合实施例中的附图，对本发明进行进一步的详细说明。

本发明使用SHREC13的草图与ModelNet40模型库数据进行试验验证。以SHREC13草图中的“17205.png”与ModelNet40模型库中的“table_0399.off”为例。待检索的草图如图1所示。

本发明实施基于交互注意力卷积神经网络的三维模型检索方法的实验框架图，如图2所示，包括以下步骤：

步骤1对三维模型投影，得到三维模型边缘视图集，具体为：

步骤1-1将table_0399.off文件置于虚拟球体的中心。

步骤1-2将虚拟摄像机放在该模型的上方，将模型以每步30度旋转360度，从而获得三维模型的12张视图集，以其中一张视图为例进行展示，模型的投影视图如图3所示；

步骤1-3使用Canny边缘检测算法获得的视图如图4所示；

步骤2设计深度卷积神经网络，使用交互注意力模块优化网络模型，如图5所示，具体为：

步骤2-1为了使得特征提取的效果更好，设计深度卷积神经网络，共有5个卷积层，4个池化层，两个dropout层，一个连接层，一个全连接层。

步骤2-2交互注意力模块嵌入设计好的卷积神经网络结构中，在卷积层的输出后连接全局池化层，求出卷积层中每个通道的信息量Z_k。以草图为例，草图的第一卷积层信息量如下：

Z_k＝[[0.0323739 0.04996519 0.0190248 0.03274497 0.03221277 0.002067190.04075038 0.01613641 0.03390235 0.04024649 0.03553107 0.00632962 0.034426830.04588291 0.01900478 0.02144121 0.03710039 0.03861086 0.05596253 0.04396860.03611921 0.04850776 0.00716817 0.02596463 0.00525256 0.03657651 0.028091890.03490375 0.04528182 0.03938764 0.00690786 0.04449471]]

步骤2-3在全局池化层之后连接两个全连接层，根据信息量自适应地调整各个信道的注意力权重S_kn。以草图为例，草图的注意力权重如下：

S_kn＝[[0.49450904 0.49921992 0.50748134 0.5051483 0.5093386 0.498442380.50426346 0.50664175 0.5053692 0.5012332 0.5004162 0.49788538 0.5056690.5012219 0.5009724 0.4942028 0.49796405 0.4992011 0.5064934 0.49631130.50500274 0.50238824 0.50202376 0.49661288 0.50185806 0.5048757 0.50732030.50703263 0.51684725 0.50641936 0.5052296 0.4979179]]

步骤2-4分别计算两个邻域卷积层的交互注意力权重S_k1和S_k2，并将其融合，得到最优注意力权重S_k，草图的最优注意力权重如下：

S_k＝[[0.4625304 0.47821882 0.5064253 0.5032532 0.5093386 0.498774960.50426346 0.50664175 0.5053692 0.5012332 0.5004162 0.49784237 0.5056880.5011142 0.5008647 0.4942028 0.49796405 0.4991069 0.5064934 0.49631130.5102687 0.50125698 0.502524856 0.49675384 0.49365704 0.5027958 0.50765290.50814523 0.51006527 0.50361942 0.50422731 0.4635842]]

步骤2-5将注意权重S_k与第二卷积层conv₂、第一池化层a_p融合得到最终结果a₂，草图的第二卷积层的部分结果为：

a₂＝[[[[0.14450312 0.0644969 0.10812703...0.18608719 0.01994037 0]

[0.18341058 0.15881275 0.24716881...0.18875208 0.14420813 0.08290599]

[0.17390229 0.14937611 0.2255666...0.15295741 0.18792515 0.08066748]

...

[0.31344187 0.18656467 0.22178406...0.22087486 0.22130579 0.00955889]

[0.12405898 0.10548315 0.11685486...0.10439464 0.2906406 0.14846338]]

[[0.10032222 0.21919143 0.09797319...0.13584027 0.0.12112971]

[0.20946684 0.14252397 0.17954415...0.09708451 0.0.15463363]

[0.06941956 0.03963253 0.13273408...0.00173131 0.04566149 0.14895247]

...

[[0.01296724 0.27460644 0.09022377...0.06938899 0.04487894 0.2567152]

[0.16118288 0.38024116 0.02033611...0.13374138 0 0.17068687]

[0.09430372 0.35878736 0...0.0846955 0 0.25289127]

...

[0.10363265 0.4103881 0...0.0728834 0 0.29586816]

[0.18578637 0.34666267 0...0.05323519 0 0.27042198]

[0.0096841 0.18718664 0...0.04646093 0.00576336 0.155898]]]]

步骤3对卷积神经网络模型进行训练，如图6所示，具体步骤为：

步骤3-1将草图与边缘二维视图作为训练数据输入到初始化的交互注意力卷积神经网络中；

步骤3-2经过卷积层，提取更详细的视图特征；

步骤3-3经过注意力模块，通过加权通道与邻域卷积层融合后，可以减少手绘草图或模型的边缘视图在池化时丢失的信息；

步骤3-4经过池化层，提取最大的视图信息；

步骤3-7通过softmax函数得知草图“17205.png”在“table”类别下的概率为89.99％

其中loss₁₇₂₀₅表示草图“17205.png”的误差。

不断迭代交互注意力卷积神经网络模型，得到优化后的交互注意力卷积神经网络模型。

步骤4提取语义特征与形状分布特征，具体为：

步骤4-1把测试数据输入到优化后的交互注意力卷积神经网络模型之中，测试过程如图7所示；

步骤4-2提取出全连接层的特征作为手绘草图或模型视图的高层语义特征。提取出的草图的部分高层语义特征如下所示：

Feature＝[[0,0.87328064,0,0,1.3293583,0,2.3825126,0,0,4.8035927,0,1.5186063,0,3.6845286,1.0825952,0,1.8516512,1.0285587,0,0,0,3.3322043,1.0545557,0,0,4.8707848,3.042554,0,0,0,0,6.8227463,2.537525,1.5318785,2.7271123,0,3.0482264……]]

步骤4-3将尺寸为草图或二维视图划分为4*4的块；

步骤4-4每个块由4个尺度、8个方向的32个Gabor滤波器处理。将处理后的特征进行组合，得到gist特征。Gist特征共提取512维，草图的部分gist特征如下所示：

G(x,y)＝[[5.81147151e-03 1.51588341e-02 1.75721212e-03 2.10059434e-011.62918585e-01 1.54040498e-01 1.44374291e-01 8.71880878e-01 5.26758657e-014.14263371e-01 7.17606844e-01 6.22190594e-01 1.11205845e-01 7.69002490e-042.18182730e-01 2.29565939e-01 9.32599080e-03 1.10805327e-02 1.40071468e-032.58543039e-01 5.67934220e-02 1.06132064e-01 9.10082146e-02 4.02163211e-012.97883778e-01 2.45860956e-01 4.02066928e-01 2.84401506e-01

1.03228724e-01 6.37419945e-04 2.71290458e-01……]]

步骤4-5将草图或二维视图边界上的点随机等距离采样；

步骤4-6利用D1描述子表示草图或二维视图边界上质心与随机采样点之间的距离。草图的部分D1描述子如下所示：

D1＝[0.30470497858541628,0.6256941275550102,0.11237884569183111,0.23229854666522,0.2657159486944761,0.0731852015843772,0.40751749800795261……]

步骤4-7利用D2描述符描述草图或二维视图边界上两个随机采样点之间的距离。草图的部分D2描述子如下所示：

D2＝[0.13203683803844625,0.028174099301372796,0.15392681513105217,0.130238265264,0.123460163767958,0.06985106421513015,0.12992235205980568……]

步骤4-8利用D3描述符用于描述草图或二维视图边界上3个随机采样点形成的面积的平方根。草图的部分D3描述子如下所示：

D3＝[0.9193157274532394,0.5816923854309814,0.46980644879802125,0.498873567635874,0.7195175116705602,0.29425190983247506,0.8724092377243926……]

步骤4-9将D1,D2,D3串联形成形状分布特征；

步骤5将草图的多个特征进行融合，根据相似性度量公式检索出与手绘草图最相似的模型，具体为：

步骤5-1比较多种相似度检索方法，最终效果最好的为欧式距离；

步骤5-2利用改进的交互注意力卷积神经网络从二维视图和草图中提取特征向量，对特征向量进行归一化处理。使用欧氏距离计算相似度，记为distance1，检索的准确率为0.96；

步骤5-3使用gist特征提取草图与模型视图的特征向量，对特征向量进行归一化处理。使用欧氏距离计算相似度，记为distance2，检索的准确率为0.53；

步骤5-4使用二维形状分布特征提取草图与模型视图之间的特征向量，对特征向量进行归一化处理。使用欧氏距离计算相似度，记为distance3，检索的准确率为0.42；

步骤5-5根据三种特征的检索准确率确定权重。

最终确定权重为：5:3:2

Sim(distance)＝0.5*distance1+0.3*distance2+0.2*distance

步骤5-6根据相似度从小到大排序，实现检索效果。

本发明实施方式中的基于交互注意力卷积神经网络的三维模型检索方法，采用了传统特征与深度特征加权融合的方式，实现了较好的检索效果。

以上所述是结合附图对本发明的实施例进行的详细介绍，本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围内均可有所变更和修改，故本发明书不应理解为对本发明的限制。

Claims

步骤1：进行数据预处理，对三维模型投影，得到三维模型对应的多幅视图并使用边缘检测算法得到模型的边缘视图集；

步骤2：设计深度卷积神经网络，使用交互注意力模块优化网络模型，选取其中一部分视图集作为训练集，另一部分视图集作为测试集，包括：

步骤2-1，确定卷积神经网络的深度，卷积核的大小，卷积层和池化层的数量；

步骤2-2，设计交互注意力模块，在卷积层的输出后连接全局池化层，求出卷积层conv_n中每个通道的信息量Z_k，其信息量计算公式如下：

其中，conv_nk表示第n个卷积层输出的第k个特征映射，其大小为H_n*W_n；

步骤2-3，在全局池化层之后连接两个全连接层，根据信息量自适应地调整各个信道的注意力权重S_kn，权重的计算公式如下：

S_kn＝F_ex(Z,W)＝σ(g(Z,W))＝σ(W₂δ(W₁Z))；

其中，δ为Relu函数，σ为sigmoid函数，W₁、W₂分别为第一个全连接和第二个全连接的权重；

步骤2-4，分别计算两个邻域卷积层的交互注意力权重S_k1和S_k2，并将其融合，得到最优注意力权重S_k，最优注意力权重的计算公式如下：

S_k＝Average(S_k1,S_k2)；

步骤2-5，将注意权重S_k与第二卷积层conv₂、第一池化层a_p融合得到最终结果a₂，融合的计算公式如下：

选取其中一部分视图集作为训练集，另一部分视图集作为测试集；

步骤3：训练包括前向传播和反向传播两个过程，训练数据作为交互注意力卷积神经网络模型训练的输入，经过交互注意力卷积神经网络模型的训练，得到优化后的交互注意力卷积神经网络模型；

步骤4：使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征，使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征；

步骤5：将多个特征加权融合，根据欧几里得距离检索出与手绘草图最相似的模型。

步骤1-1，将三维模型设置在一个虚拟球体的球心；

步骤1-2，将虚拟摄像机放在该模型的上方，将模型以每步30度旋转360度，从而获得三维模型的12张视图集；

步骤1-3，使用Canny边缘检测算法获得12张原始视图集各自的边缘视图；

3.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法，其特征在于，所述步骤3中，对卷积神经网络模型进行训练，具体步骤为：

步骤3-1，把训练数据输入到初始化的交互注意力卷积神经网络模型中；

步骤3-2，经过卷积层，提取更详细的视图特征，浅层次卷积层提取低层特征，高层次卷积层提取高级语义特征；

步骤3-3，经过注意力模块，通过加权通道与邻域卷积层融合后，减少手绘草图或模型的边缘视图在池化时丢失的信息；

步骤3-4，经过池化层，缩小视图特征的规模，从而减少参数个数，加快模型计算的速度；

步骤3-5，经过Dropout层，减轻因为训练样本不足导致的过拟合问题；

步骤3-6，通过卷积、注意力模块、Dropout和池化交替操作之后，最后输入全连接层，对所提取的特征进行降维，连接成一维的高层语义特征向量；

步骤3-7，在反向传播过程中，使用带有标签的2D视图来优化交互注意力卷积神经网络的权重和偏置，2D视图集为{v₁,v₂，…，v_n}，对应的标签集为{l₁,l₂，…,l_n}，2D视图有t类，包括1,2，…，t，正向传播后，v_i在第j类下的预测概率为y_testj，将v_i的标签l_i与类别j比较，计算期望概率y_ij，概率的计算公式如下：

步骤3-8，将预测概率y_test_ij和真实概率y_j进行比较，利用交叉熵损失函数来计算误差loss；

所述误差loss的计算过程如下所示：

4.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法，其特征在于，在所述步骤4中，使用优化后的交互注意力卷积神经网络模型与gist特征分别提取手绘草图与模型视图的语义特征，使用二维形状分布特征分别提取手绘草图与模型视图的二维形状分布特征，具体过程为：

步骤4-1，把测试数据输入到优化后的交互注意力卷积神经网络模型之中；

步骤4-2，提取出全连接层的特征作为手绘草图或模型视图的高层语义特征；

步骤4-3，将尺寸为m*n的草图或2D视图划分为4*4的块，每个块的大小是a*b，其中a＝m/4,b＝n/4；

步骤4-4，每个块由4个尺度、8个方向的32个Gabor滤波器处理，将处理后的特征进行组合，得到gist特征，公式如下：

其中，i＝4,j＝8，G(x,y)是32个Gabor滤波器的gist特征，cat()表示拼接操作，这里，x和y是像素的位置，I(x,y)表示块，同时，g_ij(x,y)是第i个尺度和第j个方向的滤波器，*表示卷积运算；

步骤4-5，将草图或2D视图边界上的点随机等距离采样，采集为点＝{(x₁,y₁)，…，(x_i,y_i)，…，(x_n,y_n)}，这里(x_i,y_i)是点坐标，

步骤4-6，利用D1描述子表示草图或二维视图边界上质心与随机采样点之间的距离，从点中提取点，收集到PD1＝{ai₁，…，ai_k，…，ai_N}，D1形状分布特征集合为{D1_v₁，…，D1_v_i，…，D1_v_Bins}，其中，D1_vi是区间(BinsSize*(i-1)，BinsSize*i)的统计量，Bins是区间的个数，BinsSize是区间的长度，D1_vi的计算公式如下：

D1_v_i＝|{P|dist(P,O)∈(BinSize*(i-1),BinSize*i),P∈PD1}|；

其中，BinsSize＝max({dist(P,O)|P∈PD1})/N，dist()为两点之间的欧氏距离，O为草图或2D视图的质心；

步骤4-7，利用D2描述符描述草图或二维视图边界上两个随机采样点之间的距离，从点中提取点对，收集为PD2＝{(ai₁,bi₁)，(ai₂,bi₂)，…，(ai_N,bi_N)}，D2形状分布特征集合为{D2_v₁，…，D2_v_i，…，D2_v_Bins}，这里，D2_vi表示区间(BinSize*(i-1)，BinSize*i)中的统计量，D2_vi计算公式如下：

D2_v_i＝|{P|dist(P)∈(BinSize*(i-1),BinSize*i),P∈PD2}|；

其中，BinsSize＝max({dist(P)|P∈PD2})/N，

步骤4-8，利用D3描述符用于描述草图或2D视图边界上3个随机采样点形成的面积的平方根，从点中提取点三元组，收集到PD3＝{(ai₁,bi₁,ci₁)，(ai₂,bi₂,ci₂)，…，(ai_n,bi_n,ci_n)}，D3形状分布特征集合为{D3_v₁，…，D3_v_i，…，D3_v_Bins}，这里，D3_v_i表示区间(BinSize*(i-1)，BinSize*i)中的统计信息，D3_v_i为：

D3_v_i＝|{P|herson(P)∈(BinSize*(i-1),BinSize*i),P∈PD3}|；

其中，

其中，a＝dist(P₁,P₂),b＝dist(P₁,P₃),c＝dist(P₂,P₃)；

步骤4-9，D1_vi,D2_vi,D3_vi连接形成形状分布特征，i＝1,2，…，Bins。

5.根据权利要求1所述的基于交互注意力卷积神经网络的三维模型检索方法，其特征在于，在所述步骤5中，将多个特征进行融合，根据相似性度量公式检索出与手绘草图最相似的模型，具体过程为：

步骤5-1，选择欧氏距离作为相似性度量方法；

步骤5-2，利用改进的交互注意力卷积神经网络从二维视图和草图中提取特征向量，对特征向量进行归一化处理，使用欧氏距离计算相似度，记为distance1，计算检索的准确率，记为t1；

步骤5-3，使用gist特征提取草图与模型视图的特征向量，对特征向量进行归一化处理；使用欧氏距离计算相似度，记为distance2，计算检索的准确率，记为t2；

步骤5-4，使用二维形状分布特征提取草图与模型视图之间的特征向量，对特征向量进行归一化处理，使用欧氏距离计算相似度，记为distance3，计算检索的准确率，记为t3；

步骤5-5，比较三种特征的准确率，对特征进行加权融合，形成新的特征相似度distance，公式如下：

Sim(distance)＝w₁*distance1+w₂*distance2+w₃*distance，w₁+w₂+w₃＝1；

其中，w₁＝t₁/(t₁+t₂+t₃)，w₂＝t₂/(t₁+t₂+t₃)，w₃＝t₃/(t₁+t₂+t₃)；

步骤5-6，根据相似度从小到大排序，实现检索效果。