CN111797269A

CN111797269A - 基于多级视图关联卷积网络的多视图三维模型检索方法

Info

Publication number: CN111797269A
Application number: CN202010708117.0A
Authority: CN
Inventors: 张桦; 张焱; 高赞; 温显兵; 陈胜勇
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-20

Abstract

基于多级视图关联卷积网络的多视图三维模型检索方法，主要为解决在基于多视图的深度学习中，不能更好的获取视图之间的关联信息的问题，因此本发明通过挖掘多个视图之间的关联性特征，同时采用新的权重融合的方式融合多个视图的特征，从而得到单一紧凑的高辨别性特征描述符。其优越性能在三维物体检索中得到验证。该发明具体包含以下步骤：(1)获取模型的多视角图像。(2)对多视角图像进行预处理。(3)设计多级视图关联卷积网络。(4)多级视图关联卷积网络训练。(5)提取模型深度特征。(6)三维模型的检索。

Description

基于多级视图关联卷积网络的多视图三维模型检索方法

技术领域

本发明属于计算机视觉及深度学习领域。

背景技术

图像检索是自图像化计算机诞生以来就一直存在的迫切需求，早期的研究人员开发了大量的图像检索算法来满足这种需求，如尺度不变特征变换方法，估计最近邻方法，弱监督深度度量学习，二部图和特征学习等。近年来随着计算机硬件性能的增强，以及多种三维传感器，三维建模软件的快速发展，三维模型成为许多领域的基础组件，同时对三维模型的检索成为其重要程序，因此设计开发基于三维模型的检索算法是当前计算机视觉领域的一个研究热点。三维模型检索方法的研究又分为两个阶段：(1)早期基于传统方法的三维模型检索方法。(2)基于深度神经网络的三维模型检索算法。

早期基于传统方法的三维模型检索算法中包含基于模型的三维模型检索算法和基于多视图的三维模型检索算法。三维模型检索过程有两个关键步骤：(1)特征提取，(2)模型检索。早期的基于模型的算法在特征提取过程中有基于网格的表示以及基于点云的表示，其特征设计大多基于自身的几何性质及其形状。在检索方法中研究者开发了多种模型检索方法。有研究者将3D形状信息转换为直方图，使用欧氏距离来对两个模型的直方图进行比较从而得到其相似度。

在基于深度神经网络的三维模型检索方法中，同样包含基于模型的三维模型检索算法以及基于多视图的三维模型检索算法，其检索的关键步骤同传统方法相似。深度神经网络在图像分类，图像分割等领域实现了优良的性能，因此有许多基于深度神经网络的三维模型检索方法被提出。基于三维模型上的检索，主要使用三维卷积或者使用二维卷积来捕捉模型的点云，网格的特征信息，例如3D ShapeNets，PointNet，VoxNet。在基于视图的方法中，输入数据是从不同角度拍摄的视图。使用深度学习的方法进行视图表示通常是指利用已完成的模型来提取深度学习特征，如VGG，GoogLeNet和ResNet等深度神经网络。例如MVCNN，首先使用卷积神经网络为每个视图分别生成特征，然后通过视图聚合的方式将多视图的特征融合；MVCNN-MultiRes在MVCNN的基础上，加入了低阶的Mahalanobis度量的方法来提高检索的性能；GVCNN针对MVCNN在聚合层中不能关注每个view的区分性，提出了分组的策略，它考虑了view之间的组内相似性和组间区分性：相似度高的view被分到了同一组，组内特征对最终结果的影响因子是相同的，而不同的组间具有相对明显的区分性，每个组对最终结果会有不同的影响程度。但单纯使用神经网络所提取的视图特征不能包含三维模型的全面信息。

在基于多视角的三维模型检索中，每个三维模型都有多个视角图像表示，但是现有的深度神经网络主要用来识别单个图像，其识别效果受限于信息的不全面性。如何聚合多视角图像信息，如何挖掘不同视图之间的关联是提高三维模型检索性能的关键。

发明内容

本发明的目的是解决当前基于视图的深度学习方法，不能更好的捕获不同视图之间的联系性信息的问题，从而提出基于多级视图关联卷积网络的多视图三维模型检索方法，挖掘融合多视图的高响应特征，从而得到单一紧凑的高辨别性模型描述符。其优越性能在三维模型检索中得到验证。

基于多级视图关联卷积网络的多视图三维模型检索方法，共有如下几个步骤：

第1、获取模型的多视角图像；

本方法适用于现实中的物体，同时也适用于计算机制作得到的三维模型。在获取模型的多视图图像时，通过设置多个角度摄像头来捕获现实中物体的多角度视图，或对于计算机三维模型可以通过软件的模拟相机设置好多角度来渲染得到各个角度视图；

第2、多视角图像预处理；

为了更好的训练网络以及符合本方法的多级视图关联卷积网络的检索要求，需要对多视角图像进行预处理。其中包括图像裁剪，图像尺寸重置，图像翻转以及图像归一化操作；

第3、设计多级视图关联卷积网络；

第3.1、设计组内关联模块，对组内视角进行关联性融合；

由于多视角图片是由同一模型在不同角度渲染得到的，所以视图之间存在一定的关联性。本发明针对现有方法中很少考虑不同视图之间的关系的问题，设计了组内关联模块。该模块分为以下两个部分：对多角度视图进行分组，来区分不同视图对最终特征描述子的贡献程度的不同；通过关系模型得到同一组内单个视图与其他视图之间的关系，获得具有视图之间关联性信息的组级特征描述子；

第3.2、设计权重融合模块，关联组间视图信息，融合不同分组的特征；

针对不同贡献程度的组级视图之间的相异性，设计了新的融合方式，在区分不同分组之间的差异性的同时，将多视图特征进行融合，得到用于三维模型检索的最终特征描述子；

第4、多级视图关联卷积网络训练；

通过以上三步，能够得到训练多级视图关联卷积网络需要的数据以及网络架构，本发明使用PyTorch深度学习框架来训练网络模型，使用语言为python3.6；该网络可同时输入多张图像，本发明为每个模型取n个视图，n表示模型通过渲染得到的视图数量，n的数值大小综合考虑运算资源确定，假设每次输入z个模型，则输入的图像数量为n×z。随着迭代次数的增多，损失函数随之下降直到收敛；

第5、提取模型深度特征；

在提取模型深度特征时使用PyTorch深度学习框架，训练好本发明设计的多级视图关联卷积网络后，得到训练好的多级视图关联卷积网络模型参数，然后将检索匹配要用到的所有三维模型输入预训练好的多级视图关联卷积网络中，通过前面第3步的组内关联模块与权重融合模块挖掘到具有关联性信息的多视图的高响应特征并且对多视图融合，进而得到单一紧凑的高辨别性模型描述符；

第6、三维模型的检索；

对三维模型检索时，主要是度量模型之间的相关性，本发明使用基于L2范数的欧几里得度量方法来计算两个模型的距离，使用两个模型之间的距离大小来表示三维模型之间的相关性，计算公式如下：

其中a,b分别代表两个不同的模型，L(a,b)为计算所得的两模型间的距离，a_i,b_i分别表示a的i维特征及b的i维特征。

本发明的优点和有益效果；

1)针对多视角图像之间的关联性，设计了组内关联模块，区分不同视图对最终的模型描述符的贡献程度，同时训练得到不同视图之间的关系函数，从而得到具有组内视图关联性信息的组级特征描述符。2)设计了一种新的融合方式，在得到组间视图关联的同时，利用权重融合(weight-pooling)来融合多视图，得到具有不同组间视图关联性的高响应特征，从而获取紧凑的高辨别力的模型描述符。3)本发明的基于多级视图关联卷积网络的多视图三维模型检索方法在三维模型检索中实现了优良性能。

附图说明

图1为本发明设计的多级视图关联卷积网络。

图2为本发明设计的组内关联模块中的分组模块。

图3为本发明方法的流程图。

图4为三维模型的多视角获取示例图。

图5为modelnet40数据集上本发明与目前先进方法的性能对比。

图6为modelnet10数据集上本发明与目前先进方法的性能对比。

图5与图6中目前方法的对应文献如下所示。

[1]Hang Su，Subhransu Maji，Evangelos Kalogerakis，and Erik Learned-Miller.2015.Multi-view convolutional neural networks for 3d shaperecognition.In Proceedings of the IEEE international conference on computervision.945-953.

[2]Yifan Feng，Zizhao Zhang，Xibin Zhao，Rongrong Ji，and YueGao.2018.GVCNN:Group-view Convolutional Neural Networks for 3D ShapeRecognition.In IEEE Computer Society Conference on Computer Vision andPattern Recognition.264-272.

[3]Xinwei He，Yang Zhou，Zhichao Zhou，Song Bai，and XiangBai.2018.Triplet-Center Loss for Multi-view 3D Object Retrieval.Computervision and pattern recognition(2018)，1945-1954.

[4]Zhizhong Han，Mingyang Shang，Zhenbao Liu，Chi Man Vong，Yushen Liu，Matthias Zwicker，Junwei Han，and C L Philip Chen.2019.SeqViews2SeqLabels:Learning 3D Global Features via Aggregating Sequential Views by RNN WithAttention.IEEE Transactions on Image Processing 28，2(2019)，658-672.

[5]Zhizhong Han,Mingyang Shang,Yu-Shen Liu,and MatthiasZwicker.2019.View Inter-Prediction GAN:Unsupervised Representation Learningfor 3D Shapes by Learning Global Shape Memories to Support Local ViewPredictions.In Proceedings ofThirty-Third AAAI Conference on ArtificialIntelligence.

[6]Haoxuan You，Yifan Feng，Rongrong Ji，and Yue Gao.2018.PVNet:A JointConvolutional Network ofPoint Cloud and Multi-View for 3D ShapeRecognition.acm multimedia(2018)，1310-1318.

[7]ZhiZhong Han，Honglei Lu，Zhenbao Liu，Chi Man Vong，Yushen Liua，Matthias Zwicker，Junwei Han，and C K Philip Chen.2019.3D2SeqViews:AggregatingSequential Views for 3D Global Feature Learning by CNN with HierachicalAttention Aggregation.IEEE Transactions on Image Processing(2019)，1-8.

[8]Mohsen Yavartanoo,Eu Young Kim,and Kyoung Mu Lee.2018.SPNet:Deep3D Object Classification and Retrieval Using Stereographic Projection.asianconference on computer vision(2018),691–706.

具体实施方式

下面结合附图对本发明作进一步的描述。

实施例1

如图3为本发明的基于多级视图关联卷积网络的多视图三维模型检索方法实现步骤流程图，该方法的实现步骤细节如下：

步骤一获取模型的多视角图像

本方法适用于现实中的物体，同时也适用于计算机制作得到的三维模型。

在获取模型的多视图图像时，通过设置多个角度摄像头来捕获现实中物体的多角度视图，或对于计算机三维模型可以通过软件的模拟相机设置好多角度来渲染得到各个角度视图。

本发明使用的modelnet40以及modelnet10数据集，采用每隔30度获取1张当前视角下的图片的方式环绕模型一周，每个模型最终渲染得到12张多视角图片，modelnet40数据集里面有40个类，modelnet10数据集里面有10个类，图4表示本发明对椅子进行数据采样的示例。假若有w个类，每个类有m个模型，则该三维模型数据集共可获取到w×m×12张多视角图像。

步骤二多视角图像预处理

为了更好的训练网络以及符合本发明设计的多级视图关联卷积网络的检索要求，需要对多视角图像进行预处理。其中包括图像裁剪，图像尺寸重置，图像翻转以及图像归一化。其中数据归一化是用来对原始数据归一化到固定区间上的统计分布以保证程序收敛加快。原始图像尺寸统一化是因为网络模型设计好之后，其尺寸固定，因此输入图像尺寸要符合网络模型所需尺寸。随机裁剪，图像水平翻转以及竖直反转是为了增加数据量从而使训练模型参数泛化，防止网络模型过拟合。

步骤三设计多级视图关联卷积网络

图1为本发明的多级视图关联卷积网络结构图。

本发明在resnet34的基础上，增加了组内关联模块来找到不同视角图片之间的关联性信息即组内视图关联；同时与传统的最大池化(max-pooling)不同，设计了权重池化(weight-pooling)的模块，通过计算组间视图关联来融合不同视图的特征，从而得到用于检索的最终的特征描述符。

1.组内关联模块(group-module)：

组内关联模块分为分组模块、组内关联两部分。

分组模块：

图2为本发明的分组模块结构，分组模块的具体实现步骤如下：

(1)计算区分度

在对模型的多个视图进行组别划分之前，先要得到每个视图之间的区分度，然后根据每个视图的区分度对视图进行分组。下面的公式用来计算不同视角的区分度。其中i的取值范围为0～12(即单个模型的视图数量)，I_i表示输入的一组视图{I₁，I₂，...，I₁₂}，O_Ii表示I_i通过全连接层之后得到的一组输出值{O_I1，O_I2，...，O_I12}，引入sigmoid函数，使区分度的取值落在0～1之间，当sigmoid的输入高于5或小于-5时，其函数值便会趋向或者1或者0，这将不利于分组的进行，为了使得取值分布更加均匀，在sigmoid之前引入了abs和log函数。ξ(I_i)用来量化第i个视角的区分度。

(2)根据区分度进行分组

首先将区分度的取值范围定为(0，1)，将区间(0，1)平均划分为8个子区间，每个区间大小为0.125，接着依次查看每个视角的区分度，区分度落在同一个子区间的视图就被认为属于同一个组。最后便得到8个互不相交的分组{A₁，A₂，...，A₈}。

组内关联：

(1)计算组内视图之间关系

对于分组之后的组内视角，通过关系函数模型来训练得到成对视图之间的关系，如下面的公式所示，其中f_θ表示关系函数，θ是可学习的参数，[，]表示将两个视图的特征x_i、x_j进行拼接，每张视图的特征为512维，拼接之后得到1024维的特征图。这部分设计了一个三层的MLP来训练得到组内成对视图的关系分数r_ij。

r_ij＝f_θ([x_i，x_j])，i，j＝1，2，3，...，12

对x_i与同一组内其他视图特征进行关系建模，将得到的特征矩阵进行求和操作。如下所示，其中R_i表示所有与x_i相关的视角的关系分数的总和，Ω(i)表示与视图i相关的同一组内其他视图。

最后，如下面的公式所示，将R_i乘回x_i，得到包含有同一分组内其他视角信息的视图i的特征图x_i’，特征维度大小为512。

x′_i＝R_i×x_i，i＝1，2，3，...，12

(2)组内视图融合

通过上述过程得到了具有关联信息的新的视角特征，之后采用最大池化(max-pooling)的方式将组内视角特征进行融合，得到组级视图关联的组级特征描述符，其特征维度为512，最终得到特征维度*分组个数大小的特征向量。

2.权重融合模块(weight-pooling module)：

权重融合模块由两部分组成，包括权重计算即组间视图关联以及融合模块。结构如图1中的权重融合模块所示，具体实现步骤如下：

(1)首先对上面得到的组级特征描述符进行初步融合，采用平均池化(avg-pooling)的方式，即每个位置的特征取平均值，得到初步的融合特征。

(2)将组级特征与初步融合特征进行关系函数的建模，得到每个组级特征与全局特征的关系分数{s₁,s₂,...,s_n}，n为分组个数。

(3)通过归一化的方式对关系分数做处理，得到相加为1的关系分数{e₁,e₂,...,e_n}，n为分组个数，这部分关系分数定义为不同组级特征之间的差异性分数，这部分为组间视图关联。

(4)将差异性分数作为分组权重用于融合组级特征，图中⊙表示将分组权重与组级特征描述符对应相乘，从而得到最终的特征描述子，特征维度大小为512。

步骤四多级视图关联卷积网络训练

通过以上三步，可以得到训练多级视图关联卷积网络需要的数据以及其网络架构，本发明使用PyTorch深度学习框架来训练网络模型，使用语言为python3.6。该网络可同时输入多张图像，本发明为一个模型12个视图，则输入的图像数量为12的倍数。在初始参数设置中，epoch设置为100，Batch Size设置为16，初始学习率设置为0.0001，基础网络选择resnet34，预训练网络模型参数使用在大型数据集ImageNet上预训练好的网络模型参数。本发明使用自适应梯度优化器Adam，其可以针对不同参数来自适应调整学习率。

步骤五提取模型深度特征

提取模型深度特征时仍然使用PyTorch深度学习框架，训练好本发明设计的多级视图关联卷积网络后，得到训练好的多级视图关联卷积网络模型参数，然后将检索匹配要用到的所有三维模型输入预训练好的多级视图关联卷积网络中，模型输入为代表单个模型的多张不同视角的视图图像，通过前面的组内关联模块挖掘到具有组内视图关联性的高响应特征，使用权重池化(weight-pooling)操作在得到组间视图关联的同时，利用权重融合(weight-pooling)的方式来融合多视图，进而得到单一紧凑的高辨别性模型描述符。本发明使用权重池化(weight-pooling)操作后的输出作为模型特征，其特征维度为512。

步骤六三维模型的检索

本发明采用mAP(mean Average Precision)指标来衡量网络的优劣性。

给定一个模型，要在目标数据集中找到同该模型属于同类的模型即相关模型，假设检索数据集为Q，待查询数据集为G，则目标是在G中找到与Q中模型相关的模型。其实现形式为计算模型Q_i与数据集G中各个模型的相关性，根据相关性大小进行排序，从而得到与模型Q_i相关的模型。其具体实现形式如下所示。

检索模型集与待查询数据集都需要使用特征向量表示，本发明使用步骤五来提取模型特征。得到检索数据集与待查询数据集中各个模型的特征表示后，计算模型Q_i同待查询数据集G中各个模型的距离，用如下形式表示：

L_ij为模型Q_i,G_j之间的距离，其中f(Q_i,G_j)为两个模型之间的距离度量方法，n表示查询数据集的大小，使用欧氏距离作为本发明的距离度量方法，其计算过程如下：

其中a、b分别代表两个不同的模型，L(a,b)为计算所得的两模型间的距离，a_i,b_i分别表示a的i维特征及b的i维特征。计算得到Q_i与G中各个模型距离之后，对该距离进行排序，可以取前k个作为与Q_i相关的模型。

为了验证本发明的有效性，在公开的三维模型数据集modelnet40以及modelnet10上进行了评测。在modelnet40数据集上不同方法与本发明的性能比较如图5所示，从图5中可以看出，本发明提出的基于多级视图关联卷积网络的多视图三维模型检索方法在modelnet40数据集上面检索的准确率达到了93.45％，与MVCNN^[1]相比提高了13.25％；与GVCNN^[2]相比提高了7.75％；与Triplet Center Loss^[3]相比提高了5.45％；与SeqViews2SeqLabels^[4]相比提高了4.36％；与VIPGAN^[5]相比提高了4.22％；与PVNet^[6]相比提高了3.95％；与3D2SeqViews^[7]相比提高了2.69％。在modelnet10数据集上不同方法与本发明的性能比较如图6所示，从图6中可以看出，本发明提出的基于多级视图关联卷积网络的多视图三维模型检索方法在modelnet10数据集上面检索的准确率达到了96.45％，与SeqViews2SeqLabels^[4]相比提高了5.02％；与3D2SeqViews^[7]相比提高了4.33％；与SPNet^[8]相比提高了2.25％。从图5与图6中可以看出本发明在mAP上与目前先进方法相比均达到最好的检索准确率，证明本发明具有优良的性能。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于多级视图关联卷积网络的多视图三维模型检索方法，该方法挖掘出多个视图之间的关联性特征，同时采用新的权重融合的方式融合多个视图的特征，从而得到单一紧凑的高辨别性特征描述符；该方法包括如下步骤：

第1、获取模型的多视角图像；

本方法适用于现实中的物体，同时也适用于计算机制作得到的三维模型，在获取模型的多视图图像时，通过设置多个角度摄像头来捕获现实中物体的多角度视图，或对于计算机三维模型通过软件的模拟相机设置好多角度来渲染得到各个角度视图；

第2、多视角图像预处理；

为了更好的训练网络以及符合本方法的多级视图关联卷积网络的检索要求，需要对多视角图像进行预处理，其中包括图像裁剪，图像尺寸重置，图像翻转以及图像归一化操作；

第3、设计多级视图关联卷积网络；

第3.1、设计组内关联模块，对组内视角进行关联性融合；

由于多视角图片是由同一模型在不同角度渲染得到的，所以视图之间存在一定的关联性；针对现有方法中很少考虑不同视图之间的关系的问题，设计了组内关联模块，该模块分为以下两个部分：对多角度视图进行分组，来区分不同视图对最终特征描述子的贡献程度的不同；通过关系模型得到同一组内单个视图与其他视图之间的关系，获得具有视图之间关联性信息的组级特征描述子；

第4、多级视图关联卷积网络训练；

通过以上三步，能够得到训练多级视图关联卷积网络需要的数据以及网络架构，本发明使用PyTorch深度学习框架来训练网络模型，使用语言为python3.6；该网络可同时输入多张图像，本发明为每个模型取n个视图，n表示模型通过渲染得到的视图数量，n的数值大小综合考虑运算资源确定，假设每次输入z个模型，则输入的图像数量为n×z；随着迭代次数的增多，损失函数随之下降直到收敛；

第5、提取模型深度特征；

在提取模型深度特征时使用PyTorch深度学习框架，训练好本发明设计的多级视图关联卷积网络后，得到训练好的多级视图关联卷积网络模型参数，然后将检索匹配要用到的所有三维模型输入预训练好的多级视图关联卷积网络中，通过第3步的组内关联模块与权重融合模块挖掘到具有关联性信息的多视图的高响应特征并且对多视图融合，进而得到单一紧凑的高辨别性模型描述符；

第6、三维模型的检索；

对三维模型检索，主要是度量模型之间的相关性，本发明使用基于L2范数的欧几里得度量方法来计算两个模型的距离，使用两个模型之间的距离大小来表示三维模型之间的相关性，计算公式如下：