CN111597367B

CN111597367B - 基于视图和哈希算法的三维模型检索方法

Info

Publication number: CN111597367B
Application number: CN202010418065.3A
Authority: CN
Inventors: 张满囤; 燕明晓; 王红; 田琪; 崔时雨; 齐畅; 魏玮; 吴清; 王小芳
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2023-11-24
Anticipated expiration: 2040-05-18
Also published as: CN111597367A

Abstract

本发明为一种基于视图和哈希算法的三维模型检索方法，该方法包括获取不同三维模型不同角度拍摄的多张视图图片，并归一化；构建基于AlexNet的卷积神经网络：在5层卷积层后经视图层连接两层全连接层，并在最后一个全连接层后加入哈希层，将高维特征转为低维的哈希码，转化过程中设计量化损失函数来减少哈希码的量化误差；利用已有三维模型数据集训练基于AlexNet的卷积神经网络，每个模型的特征用经过训练好的网络学习到的哈希特征表示；利用汉明距离计算任意给定查询三维模型与三维模型数据库中的三维模型的相似性，选定汉明距离最小的前几个模型作为结果输出到检索列表，能提高三维模型的检索效率。

Description

基于视图和哈希算法的三维模型检索方法

技术领域

本发明的技术方案涉及三维(3D)模型的检索，具体地说是基于视图和哈希算法的三维模型检索方法。

背景技术

随着大数据时代的到来，图像获取变得越来越简单，获取方式也变得越来越多样化。近年来低成本3D采集设备和3D建模工具的大量出现，使得三维模型的数量迅速增加，网络上已经有非常庞大的三维模型资源。三维模型在三维游戏、虚拟现实、工业设计、影视娱乐等方面的应用越来越广泛，对准确、高效的三维对象检索的需求日益显现。

目前三维模型的检索工作主要可以分为两个方面：基于模型的检索和基于视图的检索。基于模型的检索主要是从三维数据的角度出发来表示模型特征，如多边形网格，体素网格、点云或隐式曲面。基于模型的方法可以较好的保留三维模型的原始数据信息以及空间几何特征。但是在现实世界中有时很难直接去用三维数据来表示模型,而且目前开源的三维特征模型数据库也比较少。基于视图的检索通过用一组二维图像来表示三维模型，将三维模型之间的匹配降维到二维层面来进行，通过匹配视图的相似度来查询所要查找的模型，能够在很大程度上避免过拟合问题。但是目前的基于视图的算法,将提取出的高维特征在欧氏空间进行度量完成相似性检索,检索效率较低。如何提高模型检索效率是提高三维模型检索性能的关键。

发明内容

本发明针对当前基于视图检索三维模型的算法检索效率较低的缺点，提供了一种基于视图和哈希算法的三维模型检索方法。该方法在卷积神经网络的最后一层加入哈希算法，将卷积层提取出的模型经视图层处理后将高维特征通过哈希层转为哈希码特征，而后在低维的汉明空间中利用汉明距离计算模型的相似性，提高模型检索效率。

本发明解决所述技术问题采用的技术方案是：提供一种基于视图和哈希算法的三维模型检索方法，该方法包括获取不同三维模型不同角度拍摄的多张视图图片，并归一化；

构建基于AlexNet的卷积神经网络：在5层卷积层后经视图层连接两层全连接层，并在最后一个全连接层后加入哈希层，将高维特征转为低维的哈希码，转化过程中设计量化损失函数来减少哈希码的量化误差；

利用已有三维模型数据集训练基于AlexNet的卷积神经网络，每个模型的特征用经过训练好的网络学习到的哈希特征表示；利用汉明距离计算任意给定查询三维模型与三维模型数据库中的三维模型的相似性，汉明距离越大表示模型越不相似，汉明距离越小表示模型越相似，按照汉明距离由小到大排序，选定排序最靠前的多个模型作为结果输出到检索列表。

上述检索方法中，在获取多张视图图片前要对不同的三维模型进行模型尺度标准化处理，由于网络上的模型种类繁多，数量庞大，为了避免在检索过程中受到模型的大小尺度的影响，需要对数据集中的所有模型进行标准化处理。通过对模型进行缩放处理将不同尺度的模型，缩放到边长为2的立方体中，这样能够保证模型特征的统一性和可用性。具体步骤是：

步骤2-1读取三维模型每个点的信息，找到模型最小的坐标点(x_min,y_min,z_min)和模型的最大的坐标点(x_max,y_max,z_max)。

步骤2-2计算最大的坐标点与最小的坐标点的差值,取三个维度上差值的最大值作为模型包围盒的边长l，构建一个正方体包围盒，将模型的中心放置在正方体的体心上；

步骤2-3将模型进行缩放，得到标准化模型：其中对于任一点的坐标(x,y,z)，经过缩放后得到新的坐标(x′,y′,z′)，具体的计算方法如下:

x′＝(x-x_min)×2/l-1

y′＝(y-y_min)×2/l-1

z′＝(z-z_min)×2/l-1

经过标准化处理后，模型所有点的坐标都位于[-1,1]，模型处于一个边长为2的立方体中，获得标准化模型。

上述检索方法中，多视图图片的获取过程是：将虚拟相机阵列在模型的周围，每个模型拍摄12张视图图片，将多张视图图片归一化处理为统一的大小后作为卷积神经网络的输入。

步骤3-1将标准化模型放置在正二十面体的体心，在正二十面体的12个顶点处放置虚拟相机进行拍摄，获取模型的一组256×256大小的12视图；

步骤3-2将模型的多视图裁剪为227×227大小,作为卷积神经网络的输入，剪切的方法为:

left＝C_w/2-C′_w/2

top＝C_h/2-C_h′/2

right＝left+C′_w

bottom＝top+C′_h

其中top、bottom、left、right分别表示新尺寸(C′_w,C′_h)在原尺寸(C_w,C_h)中的裁剪的上下左右边界。

上述检索方法，所述基于AlexNet的卷积神经网络的具体结构是：

步骤4-1将所有模型的12张227×227大小的视图依次输入到卷积神经网络中，先利用卷积池化层获取图像的局部特征，卷积层和池化层的具体设置为：

第一层包括一个卷积层和一个最大池化层，卷积层卷积核的大小为11×11，步长为4，设置激活函数为Relu函数。然后对卷积结果进行池化操作，最大池化层的卷积核大小为3×3，步长为2。

第二层包括一个卷积层和一个最大池化层，卷积层卷积核的大小为5×5，步长为1，设置激活函数为Relu函数。然后对卷积结果进行池化操作，最大池化层的卷积核大小为3×3，步长为2。

第三层包括一个卷积层，卷积层卷积核的大小为3×3，步长为1，设置激活函数为Relu函数。

第四层包括一个卷积层，卷积层卷积核的大小为3×3，步长为1，设置激活函数为Relu函数。

第五层包括一个卷积层和一个最大池化层，卷积层卷积核的大小为3×3，步长为1，设置激活函数为Relu函数。然后对卷积结果进行池化操作，最大池化层的卷积核大小为3×3，步长为2。

步骤4-2经过卷积层处理后,在第五层卷积层后加入一个视图层,将每个模型的12张图片经过卷积处理后的特征经过视图层处理，视图层对比12张图片取每个图片每个维度的特征最大值，生成该三维模型的特征描述子输入到全连接层中进行处理。全连接层共2层设置相同，设置了4096个神经元，加入Relu激活函数避免梯度消失，加入dropout层随机的将神经元的值置为0，减少网络参数，降低复杂度，防止过拟合。

步骤4-3在全连接层后加入哈希层，该层含有k个隐层神经元(即哈希码的位数)，设置sigmod激活函数。将全连接层输出的4096维特征映射到低维空间形成低维的哈希特征f_n，进一步将其转化为离散的哈希码b_n，转换过程为:b_n＝sgn(f_n-0.5)。同时设计量化损失函数L_ql，来控制哈希码量化过程的误差。N为输入的样本数，k为哈希码的位数。

训练网络时，使用公开的普林斯顿三维模型数据集ModelNet40，经过模型尺度标准化处理、多视图图片归一化处理后将训练集数据输入到基于AlexNet的卷积神经网络中进行训练，优化网络参数，生成网络模型；然后用生成的网络模型进行模型测试集的测试。本发明使用Tensorflow深度学习框架，语言为Python3.6。

汉明距离的计算过程是：

获取每个模型的特征对应的哈希码特征，模型之间的相似性由汉明距离D表示，汉明距离越大表示模型越不相似，汉明距离越小表示模型越相似。汉明距离的计算方法为b_i,b_j为两个模型的哈希码特征，/>为异或运算；对于任意一个查询三维模型Q,将其与三维模型数据库M中的三维模型进行相似性度量，匹配模型Q^*的计算过程为：

S(Q,M)＝argminD(b_i,b_j)

S表示模型间的相似性，M_m表示数据库中第m个模型(1≤m≤N^*)，N^*为数据库中的样本数；经过上述计算最终将与模型相似度最高的10个模型作为结果输出到检索列表。

与现有技术相比，本发明的有益效果是：

1.针对三维模型检索效率任务，提出了一种基于视图和哈希学习的算法。该方法同时综合了卷积神经网络、多视图和哈希算法检索的优势，在三维模型检索中取得了较好的结果。本发明的卷积网络设计是利用前面的卷积层对多个视图进行处理生成视图池(视图层)，将三维模型的多视图结合在一起，输入到后面的网络中提取特征，在全连接层处理后加入哈希层，哈希层为最后一层，高维特征然后又经过哈希算法学习到哈希特征，控制哈希量化的损失误差，生成几乎无损的哈希码，能提高三维检索精度和效率。

2.本发明检索方法对初始获得的三维模型数据进行尺度标准化处理，使其能适用于数据集或网络上种类繁多的模型，能避免由于模型尺度大小差异过大而导致影响模型提取出的特征的问题，实施例中选择采用三维模型的12张视图图片进行特征提取，在提高检测精度和效率的前提下也不会造成大量冗余。为了测试算法的性能，在ModelNet40数据集与已有算法进行比较，结果显示本发明具有良好的性能。

3.本发明方法中引入哈希层后加入特定量化损失函数来控制哈希码转化过程中的量化误差，提高检索效率，低维的哈希特征使得可以利用汉明距离进行快速检索，保证检索效率。

附图说明

图1是本发明的总体流程图。

图2是本发明的一个三维模型实例的标准化处理结果。

图3是本发明的三维模型的二维投影过程。

图4是本发明中一个实例模型投影获得的一组二维视图。

图5是本发明的网络层次结构图。

图6是本发明与其他先进算法在ModelNet40数据集上的性能对比的ROC曲线图。图6中其他5种算法的对应文献如下所示。

[1]Su H,Maji S,Kalogerakis E,et al.Multi-view convolutional neuralnetworks for 3D shape recognition//IEEE International Conference on ComputerVision,Santiago,2015:945-953.

[2]Wu N Z,Song S,Khosla A,et al.3D shapenets:a deep representationfor volumetric shape modeling//2015IEEE Conference on Computer Vision andPattern Recognition(CVPR),Boston,MA,2015:1912-1920.

[3]Cheng HC,Lo C H,Chu CH,Kim YS.Shape similarity measurement for 3Dmechanical part using D2shape distribution and negative featuredecomposition.Computers in Industry,2010,62(3):269-280.

[4]Kun Zhou,Minmin Gong,Xin Huang,Baining Guo.Data-parallel octreesfor surface reconstruction.IEEE transactions on visualization and computergraphics,2011,17(5):669–681.

具体实施方式

以下结合附图对本发明作进一步说明，但本发明的保护范围并不仅限于此。

如图1所示,本发明基于视图和哈希算法的三维模型检索方法主要包括7个模块：输入三维模型；模型标准化；获取模型的二维视图；设计卷积神经网络结构；训练卷积神经网络结构；生成模型特征；模型相似性检索。

1.输入模型模块

用户自行选择输入的三维模型，本发明使用普林斯顿大学公开的ModelNet40数据集，进行实验，数据集包括通用模型种类40类，每个类的模型分为训练集和测试集，本发明用训练集9461个模型来进行训练。

2.模型标准化

由于网络上的模型种类繁多，数量庞大。为了避免在检索过程中受到模型的大小尺度的影响，需要对数据集中的所有模型进行尺度标准化处理。对于图2中的飞机模型，模型标准化的实现步骤为：

步骤2-1读取飞机模型每个点的信息，找到模型最小的坐标点(x_min,y_min,z_min)和模型的最大的坐标点(x_max,y_max,z_max)。

步骤2-2计算(x_max-x_min),(y_max-y_min),(z_max-z_min),取三者的最大值作为模型包围盒的边长l，构建一个正方体包围盒，将模型的中心放置在正方体的体心上。

步骤2-3将模型进行缩放，得到标准化模型。其中对于任一点的坐标(x,y,z)，经过缩放后得到新的坐标(x′,y′,z′)，具体的计算方法如下:

x′＝(x-x_min)×2/l-1

y′＝(y-y_min)×2/l-1

z′＝(z-z_min)×2/l-1

经过标准化处理后，模型所有点的坐标都位于[-1,1]。如图2所示模型标准化后所有的点坐标都位于[-1,1],模型处于一个边长为2的立方体中。

3.获取模型的二维视图

步骤3-1如图3所示，将模型放置在正二十面体的体心，在正二十面体的12个顶点处放置虚拟相机进行拍摄，获取模型的一组12视图。图4所示的就是飞机模型实例拍摄出来的256×256大小的12张视图。

步骤3-2将模型的多视图裁剪为227×227大小,作为卷积神经网络的输入。剪切的方法为:

left＝C_w/2-C′_w/2

top＝C_h/2-C′_h/2

right＝left+C′_w

bottom＝top+C′_h

其中C_w＝C_h＝256,C′_w＝C′_h＝227，计算得left＝15,right＝242,top＝15,bottom＝242。

4.设计卷积神经网络结构

步骤4-1将剪裁好的模型多视图输入到卷积神经网络中，网络结构如图5所示，先利用卷积池化层获取图像的局部特征，卷积池化层的具体设置为：

步骤4-2经过卷积层处理后,在第五层卷积层后加入一个视图层,将每个模型的12张图片经过卷积处理后的特征经过视图层处理，视图层对比12张图片取每个图片的每个维度的特征最大值，生成该三维模型的特征描述子输入到全连接层中进行处理。全连接层共2层设置相同，设置了4096个神经元，加入Relu激活函数避免梯度消失，加入dropout层随机的将神经元的值置为0，减少网络参数，降低复杂度，防止过拟合。

步骤4-3在全连接层后加入哈希层，该层含有k个隐层神经元(即哈希码的位数)，设置sigmod激活函数。将全连接层输出的4096维特征映射到低维空间形成低维的哈希特征f_n，进一步将其转化为离散的哈希码b_n，转换过程为:b_n＝sgn(f_n-0.5)。同时设计量化损失函数L_ql，来控制哈希码量化过程的误差。N为输入的样本数，k为哈希码的位数。我们在进行实验时将N设置为9461，k为48。

5.训练卷积神经网络结构

本发明使用TensorFlow的深度学习框架，语言为Python3.6。训练时使用ModelNet40数据集中的训练集进行训练，共9461个模型，batch_size设置为16，学习率设置为0.0001。

6.生成模型特征

经过训练集的训练，生成能够很好的学习到模型哈希特征的网络模型，最后的哈希层输出模型的哈希特征，每个模型都有一个48位哈希特征，如图2飞机模型的哈希特征为[011101111001100110110111101110110110001100111010]。

7.模型相似性检索

每个模型的特征由经过第四步的训练好的网络学习到的哈希码表示。哈希层将模型的高维特征映射为低维的汉明空间中的哈希码特征。因此模型之间的相似性由汉明距离D表示，汉明距离越大表示模型越不相似，汉明距离越小表示模型越相似。汉明距离的计算方法为b_i,b_j为两个模型的哈希码特征，/>为异或运算。对于任意一个查询三维模型Q,将其与三维模型数据库M中的三维模型进行相似性度量，匹配模型Q^*的计算过程为：

S(Q,M)＝argminD(b_i,b_j)

S表示模型间的相似性，M_m表示数据库中第m个模型(1≤m≤N^*)，N^*为数据库M中的样本数。最后得到匹配模型Q^*。经过上述计算最终将与模型相似度最高的10个模型作为结果输出到检索列表。如图2中的飞机模型airplane_0219.off进行检索返回最相近的10个模型:['airplane_0219.off','airplane_0115.off','airplane_0218.off','airplane_0002.off','airplane_0027.off','airplane_0566.off','airplane_0020.off','airplane_0374.off','airplane_0613.off','airplane_0276.off']。

为了验证本发明的有效性，在公开的三维模型数据集ModelNet40上，与其他5种先进的算法进行了对比，图6显示了各算法的受试者工作特征曲线(ReceiverOperatingCharacteristic Curve，简称ROC曲线),ROC曲线纵坐标为真阳性率(TPR灵敏度)，横坐标为假阳性率(FPR特异度)。横坐标:假阳性率(False positive rate，FPR)，预测为正但实际为负的样本占所有负例样本的比例；纵坐标:真阳性率(True positive rate，TPR)，预测为正且实际为正的样本占所有正例样本的比例。曲线上的点越靠近左上角说明真正率越高、假正率越低，算法区分能力越强，性能越好。从图中结果可以看出，本发明提出的基于视图和哈希算法的三维模型检索方法具有优良的性能。

上述实施例中，所述AlexNet卷积神经网络、ModelNet40数据集、TensorFlow深度学习框架、Relu激活函数、dropout层和sigmod激活函数是本技术领域公知的。

以上所述是结合附图对本发明的实施例进行的详细介绍，以上的具体实施方式只是用于帮助更好地理解本发明方法。本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

本发明未述及之处适用于现有技术。

Claims

1.一种基于视图和哈希算法的三维模型检索方法，该方法包括获取不同三维模型不同角度拍摄的多张视图图片，并归一化；

利用已有三维模型数据集训练基于AlexNet的卷积神经网络，每个模型的特征用经过训练好的网络学习到的哈希特征表示；利用汉明距离计算任意给定查询三维模型与三维模型数据库中的三维模型的相似性，汉明距离越大表示模型越不相似，汉明距离越小表示模型越相似，按照汉明距离由小到大排序，选定排序最靠前的多个模型作为结果输出到检索列表；

所述视图层为，在经5层卷积层特征提取后的同一个三维模型的多张图片中选取每个图片每个维度的特征最大值，生成该三维模型的特征描述子输入到全连接层中进行处理；

所述全连接层输出的高维特征经哈希层转码为低维的哈希特征f_n，再将哈希特征f_n按照b_n＝sgn(f_n-0.5)，转化为离散的哈希码b_n；转化过程中量化损失函数L_ql为s.t.b_n∈{0,1}^k，N为输入的样本数，k为哈希码的位数。

2.根据权利要求1所述的检索方法，其特征在于，在获取多张视图图片前要对不同的三维模型进行模型尺度标准化处理，通过对模型进行缩放处理将不同尺度的模型缩放到边长为2的立方体中，具体步骤是：

1)读取三维模型每个点的信息，找到模型最小的坐标点(x_min,y_min,z_min)和模型的最大的坐标点(x_max,y_max,z_max)；

2)计算最大的坐标点与最小的坐标点的差值,取三个维度上差值的最大值作为模型包围盒的边长l，构建一个正方体包围盒，将模型的中心放置在正方体的体心上；

3)将模型进行缩放，得到标准化模型：其中对于任一点的坐标(x,y,z)，经过缩放后得到新的坐标(x′,y′,z′)，具体的计算方法是:

x′＝(x-x_min)×2/l-1

y′＝(y-y_min)×2/l-1

z′＝(z-z_min)×2/l-1

3.根据权利要求2所述的检索方法，其特征在于，多视图图片的获取过程是：将虚拟相机阵列在模型的周围，每个模型拍摄12张视图图片，将多张视图图片归一化处理为统一的大小后作为卷积神经网络的输入；具体步骤是：

1)将标准化模型放置在正二十面体的体心，在正二十面体的12个顶点处放置虚拟相机进行拍摄，获取模型的一组256×256大小的12视图；

2)将模型的多视图裁剪为227×227大小,作为卷积神经网络的输入，剪切的方法为:

left＝C_w/2-C′_w/2

top＝C_h/2-C′_h/2

right＝left+C′_w

bottom＝top+C′_h

4.根据权利要求3所述的检索方法，其特征在于，所述基于AlexNet的卷积神经网络的具体结构是：

1)将所有模型的12张227×227大小的视图依次输入到卷积神经网络中，先利用卷积池化层获取图像的局部特征，卷积层和池化层的具体设置为：

第一层包括一个卷积层和一个最大池化层，卷积层卷积核的大小为11×11，步长为4，设置激活函数为Relu函数；然后对卷积结果进行池化操作，最大池化层的卷积核大小为3×3，步长为2；

第二层包括一个卷积层和一个最大池化层，卷积层卷积核的大小为5×5，步长为1，设置激活函数为Relu函数；然后对卷积结果进行池化操作，最大池化层的卷积核大小为3×3，步长为2；

第三层包括一个卷积层，卷积层卷积核的大小为3×3，步长为1，设置激活函数为Relu函数；

第四层包括一个卷积层，卷积层卷积核的大小为3×3，步长为1，设置激活函数为Relu函数；

第五层包括一个卷积层和一个最大池化层，卷积层卷积核的大小为3×3，步长为1，设置激活函数为Relu函数；然后对卷积结果进行池化操作，最大池化层的卷积核大小为3×3，步长为2；

2)经过卷积层处理后,在第五层卷积层后加入一个视图层,将每个三维模型的12张图片经过卷积处理后的特征经过视图层处理，视图层对比12张图片取每个图片每个维度的特征最大值，生成该三维模型的特征描述子输入到全连接层中进行处理；全连接层共2层设置相同，设置4096个神经元，加入Relu激活函数避免梯度消失，加入dropout层随机的将神经元的值置为0；

3)在全连接层后加入哈希层，该层含有k个隐层神经元，即哈希码的位数，设置sigmod激活函数；将全连接层输出的4096维特征映射到低维空间形成低维的哈希特征f_n，进一步将其转化为离散的哈希码b_n，转换过程为:b_n＝sgn(f_n-0.5)；同时设计量化损失函数L_ql为

其中，b_n∈{0,1}^k，N为输入的样本数。

5.根据权利要求1所述的检索方法，其特征在于，训练网络时，使用公开的普林斯顿三维模型数据集ModelNet40，经过模型尺度标准化处理、多视图图片归一化处理后将训练集数据输入到基于AlexNet的卷积神经网络中进行训练，优化网络参数，生成网络模型；然后用生成的网络模型进行模型测试集的测试。

6.根据权利要求1所述的检索方法，其特征在于，汉明距离的计算过程是：

获取每个模型的特征对应的哈希码特征，汉明距离的计算方法为b_i,b_j为两个模型的哈希码特征，/>为异或运算；对于任意一个查询三维模型Q,将其与三维模型数据库M中的三维模型进行相似性度量，匹配模型Q^*的计算过程为：

S(Q,M)＝arg min D(b_i,b_j)