CN110990608A

CN110990608A - 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法

Info

Publication number: CN110990608A
Application number: CN201911224313.4A
Authority: CN
Inventors: 王滨; 王栋; 柳强; 赵京东; 刘宏
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-04-10

Abstract

一种基于Siamese结构双向长短时记忆网络的三维模型检索方法，属于图像处理技术领域，为了解决三维模型多视角特征的融合问题，通过Siamese结构长短时记忆经网络融合视角信息，增强多视角三维模型的检索准确率。构建卷积神经网络；构建双向长短时记忆网络网络；引入注意力机制增强模型特征的表达；构建基于Siamese结构的双向长短时记忆网络，融合多视角信息；对Siamese结构的长短时记忆网络模型参数进行训练，对多视角三维模型进行检索。本发明可实现多视角表达的三维模型的检索，在三维模型分类、检索领域，具有广泛的应用前景。

Description

一种基于Siamese结构双向长短时记忆网络的三维模型检索方法

技术领域

本发明属于图像处理技术领域，涉及一种多视角特征融合的多视角三维模型检索方法。

背景技术

目前，人工智能正在由感知发展到认知推理阶段，三维模型检索对三维场景理解、增强现实、机器人等领域的理论发展和技术进步有重要促进作用。近几年，新型深度卷积网络通过抽象提取图片中的底层、中层、高层特征，并结合分类器形成端到端的网络结构。这种方式具有很强的视觉表达能力，能高效的抽取模型语义信息。然而，自然图片与用多视角表达的三维模型的数据属于不同领域，直接用这些深度卷积网络处理多视角三维模型检索并不合适。面向三维模型的检索，数据集规模通常比较小，数量分布不平衡，当面对未知三维模型的数据检索时，往往缺少有标记的训练数据。按照传统多视角检索流程，用手工设计特征算法先提取视角特征，再通过距离度量模型特征间的相似性，返回最终检索结果。这种方式虽然可适用于任何未知模型的三维检索，但手工特征算法的描述能力弱，对视角的表示性差，特别是在数据分布复杂度高的情况下，传统算法已经很难取得理想效果。因此，提出一种基于多视角表达的三维模型的检索方法，提升多视角三维模型的检索性能是非常迫切和必要的。

文献号为CN110147460A的现有技术提供了一种基于卷积神经网络与多视角图的三维模型检索方法及装置，其中的方包括：获取非刚性三维模型的多张视角图，每张视角图分别对应不同的视角；通过卷积神经网络提取所述每张视角图的卷积特征；获取所述每张视角图的图像熵，并根据所述图像熵确定所述每张视角图的卷积特征对应的置信度；根据所述多张视角图的卷积特征及对应的置信度确定所述非刚性三维模型与三维模型中各个实体模型的相似度；根据所述相似度检索与所述非刚性三维模型匹配实体模型。但该现有技术没有考虑如何融合视角信息，如何增强多视角三维模型的检索准确率。

发明内容

本发明提出了基于Siamese结构的双向长短时记忆网络的多视角三维模型检索方法，以解决三维模型多视角特征的融合问题，通过Siamese结构长短时记忆经网络融合视角信息，增强多视角三维模型的检索准确率。

本发明为解决上述技术问题采取的技术方案是：

一种基于Siamese结构长短时记忆网络的多视角三维模型检索方法，所述方法的实现过程为：

步骤一、构建卷积神经网络，进行三维模型独立视角图片的特征学习；

步骤二、构建双向长短时记忆网络(Bi-LSTM)网络；

步骤三、引入注意力机制增强模型特征的表达；

步骤四、构建基于Siamese结构的双向长短时记忆网络，融合多视角信息；

步骤五、对Siamese结构的长短时记忆网络模型参数进行训练，对多视角三维模型进行检索。

步骤一的具体实现过程为：

1)数据预处理：对渲染好的三维模型每个视角图片做归一化处理，根据ResNet18网络特性，将各视角图片缩放到224×224大小的尺寸，完成对输入数据的预处理；

2)将原始ResNet18卷积神经网络的最后一层(全连接层)替换成模型检索任务中对应的类别输出层，进行独立视角特征训练；将第i个视角图片输入卷积神经网络，得到该视角的嵌入特征向量，表示为x_i，其中x_i∈R^d；此特征再经过最后一层全连接层转换成与类别相关的K维向量z_i＝W^Tx_i+b∈R^K，该层可以看作一个线性分类器，其参数z_i＝[z_i1,z_i2,....,z_ik]^T∈R^K，W＝[w₁,w₂,....,w_K]∈R^d×k，b＝[b₁,b₂,....,b_k]^T∈R^K；卷积神经网络的最后一特征层通过softmax层输出对应到每一类别上的概率，得到嵌入特征x_i属于某个类别k的概率：

该输出向量与真实类别的标签做交叉熵计算分类损失，交叉熵损失函数的形式

其中：p为实际输出，q为期望输出，H(p,q)为交叉熵；

3)通过交叉熵损失函数计算网络反向传播时的梯度更新值，利用Adam优化器更新网络各层参数，直到网络收敛到平稳状态；

4)利用训练好的卷积网络，计算每个模型的所有单视角特征，通过训练的ResNet18卷积神经网络提取单视角的特征向量，每个三维模型用一组特征来描述。

步骤二中的构建双向长短时记忆(Bi-LSTM)网络的过程为：

将每个模型对应的多视角看作是一组序列化图片的集合，利用长短时记忆网络(LSTM)处理序列化输入数据，构建长短时记忆网络(LSTM)，每个LSTM单元由四部分组成：输入门、输出门、遗忘门以及候选激活门；以视角特征序列{x₁,x₂,...,x_n}作为输入，以其中第t个视角作为输入，LSTM单元各个状态的特征值如下：

i_t＝σ(W_iix_t+b_ii+W_hih_t-1+b_hi)

f_t＝σ(W_ifx_t+b_if+W_hfh_t-1+b_hf)

g_t＝tanh(W_igx_t+b_ig+W_hgh_t-1+b_hg)

o_t＝σ(W_iox_t+b_io+W_hoh_t-1+b_ho)

c_t＝f_tc_t-1+i_tg_t

h_t＝o_ttanh(c_t)

其中:i_t、o_t、f_t、g_t分别表示输入门、输出门、遗忘门和候选门的激活向量，c_t和h_t分别代表记忆单元和隐状态，W表示LSTM的权值矩阵，b表示LSTM的偏置向量，σ(·)是按元素运算的sigmoid函数；

每个单元的输入包括两个变量：当前视角特征x_t与前一LSTM单元输出隐变量h_t-1，另一输入c_t-1是前一记忆单元信息，被看作网络中固有的循环输入；遗忘门f_t控制对前一记忆单元信息的修改，去掉那些被认为应该遗忘的记忆，采用的sigmoid函数的输出范围限定在[0,1]之间；输入门i_t和候选门g_t决定当前视角哪些信息应当被输入或丢弃，其中，g_t的激活函数被设计成双曲函数，使其输出范围为[-1,1]，输出门o_t则用于突出希望被放大的隐变量，作为下一循环的输入；

视角特征依次送入长短时记忆网络中，当每个视角特征输入该单元时，LSTM网络会筛选出特征中有用的部分并去除那些不利的分量，再与之前保留的记忆特征融合在一起形成新的记忆，依次循环整合视角序列的信息直到处理完成整个序列，并将最后一次循环隐含层的输出作为视角序列的最终特征表示；

构建双通道LSTM结构，在单通道的基础上叠加了一个反向序列通道，每一步视角的特征输出是正向与反向特征的拼接。

步骤三中引入注意力机制增强模型特征的表达，具体为：

注意力机制的融合方式是引入注意力层，对各阶段的拼接视角进行加权融合，计算各视角的权重a_t，以加权方式综合隐含层各视角特征h_t，得到最终特征表示r，基于注意力机制对各阶段的拼接视角进行加权融合，

e_t＝tanh(W_hh_t+b_h),e_t∈[-1,1]

其中：W_h是表示注意力层的权值矩阵，b_h表示注意力层的偏置向量，h_t表示隐含层各视角特征，a_t为各视角权重，r为最终的特征。

在步骤四中的构建基于Siamese结构的双向长短时记忆经网络，融合多视角信息，具体为：

给定各模型融合特征z₁,z₂,·L,z_n和对应类别标签{y₁,y₂,·L,y_n}，Siamese网络直接度量z_i和z_j的距离d(z_i,z_j)，使属于同一类别的两特征距离尽量接近，不同类别特征的距离要远离；

基于Siamese结构的双向长短时记忆网络整体结构分两部分，第一部分为卷积神经网络，第二部分为融入注意力机制的双向记忆网络，成对样本输入到网络中时，共用这两部分网络的参数，形成Siamese结构；

两个成对样本的损失函数为：

L(z_i,z_j)＝L[y_i＝y_j]d(z_i,z_j)+(1-L[y_i＝y_j])max(0,m-d(z_i,z_j))

其中：

表示欧式距离的平方；L(·)是指示函数，当条件满足时为1，不满足时0；m为期望距离阈值。

在步骤五中，对Siamese结构的双向长短时循环记忆网络模型参数进行训练，对多视角三维模型进行检索，具体为：

训练过程分两个阶段，第一阶段是由卷积神经网络(CNN)训练得到的卷积网络计算模型的单视角特征，去掉Softmax层，拿出剩下网络的最后一层全连接层的输出作为最终特征表示；第二阶段基于Siamese结构双向长短时记忆网络(Bi-LSTM)融合各视角特征，每一步训练过程，同时输入一对含有两个模型的训练样例，用分别得到的模型特征计算对比损失，以最小化损失函数为目标，更新Bi-LSTM部分的网络参数，直到网络收敛到平稳状态；

对多视角三维模型进行检索：首先，将模型数据库的多视角模型数据输入训练好的Siamese结构网络，得到模型特征库；其次，将查询模型的多视角图片集，输入Siamese结构网络，得到模型的特征向量；最后，对查询模型的特征向量与模型特征库中的特征向量进行距离度量，得到检索的物体。

本发明具有以下有益效果：

本发明提出了基于Siamese结构的双向长短时记忆网络模型，能解决多视角描述的三维模型的视角特征融合问题。该方法以独立视角的形式训练卷积神经网络，通过引入注意力机制度量每个视角重要性，并用双通道网络结构训练长短时记忆网络。相比于无监督的特征提取方式，训练后的特征大幅提高了三维模型的检索性能，相比于需要多对多距离度量的独立视角特征，长短时记忆网络能够有效融合各视角形成单一向量表示，有利于快速计算两模型之间距离。该方法有效解决了任意视角数量下的三维模型检索的特征融合问题，提高了多视角三维模型的检索性能，通过Siamese结构长短时记忆经网络融合视角信息，增强多视角三维模型的检索准确率。本发明可实现多视角表达的三维模型的检索，在三维模型分类、检索领域，具有广泛的应用前景。

附图说明

图1基于Siamese结构双向长短时记忆网络的三维模型检索方法流程图；

图2长短时记忆网络单元的原理图；

图3基于双向长短时记忆网络检索框架图；

图4注意力机制的视角融合方案图；

图5基于长短时记忆网络的Siamese结构框架图；

图6多视角三维模型的检索结果图。

具体实施方式

具体实施方式一：结合附图对本发明的具体实施方式作进一步阐述。本发明提出的基于Siamese结构双向长短时记忆网络的多视角三维模型检索方法利用Siamese结构的循环神经网络，采用独立视角的分类网络提取三维模型的单视角特征，在双向长短记忆神经网络中引入注意力机制度，用循环神经网络融合单视角卷积特征，以大量成对样本的形式训练网络，大幅提高了多视角三维模型的检索性能。

如图1所示，为本发明的基于Siamese结构双向长短时记忆网络的三维模型检索方法的流程图，

主要由以下步骤完成：

步骤一、构建卷积神经网络，进行独立视角的特征学习

1)数据预处理。对渲染好的三维模型每个视角图片做归一化处理，根据ResNet18网络特性，将各视角图片缩放到224×224大小的尺寸，完成对输入数据的预处理；

其中：p为实际输出，q为期望输出，H(p,q)为交叉熵。

3)通过交叉熵损失函数计算网络反向传播时的梯度更新值，利用Adam优化器更新网络各层参数，直到网络收敛到平稳状态。

4)利用训练好的卷积网络，计算每个模型的所有单视角特征。通过训练的ResNet18卷积神经网络提取单视角的特征向量，每个三维模型用一组特征来描述。

步骤二、构建双向长短时记忆(Bi-LSTM)网络

将每个模型对应的多视角看作是一组序列化图片的集合，利用长短时记忆网络(LSTM)处理序列化输入数据。构建长短时记忆网络(LSTM)，每个LSTM单元的基本结构如图2所示。一个LSTM单元由四部分组成：输入门、输出门、遗忘门以及候选激活门。以视角特征序列{x₁,x₂,...,x_n}作为输入，以其中第t个视角作为输入，LSTM单元各个状态的特征值如下：

i_t＝σ(W_iix_t+b_ii+W_hih_t-1+b_hi)

f_t＝σ(W_ifx_t+b_if+W_hfh_t-1+b_hf)

g_t＝tanh(W_igx_t+b_ig+W_hgh_t-1+b_hg)

o_t＝σ(W_iox_t+b_io+W_hoh_t-1+b_ho)

c_t＝f_tc_t-1+i_tog_t

h_t＝o_ttanh(c_t)

其中:i_t、o_t、f_t、g_t分别表示输入门、输出门、遗忘门和候选门的激活向量，c_t和h_t分别代表记忆单元和隐状态，W表示LSTM的权值矩阵，b表示LSTM的偏置向量，σ(·)是按元素运算的sigmoid函数。

每个单元的输入包括两个变量：当前视角特征x_t与前一LSTM单元输出隐变量h_t-1，另一输入c_t-1是前一记忆单元信息，被看作网络中固有的循环输入。遗忘门f_t控制对前一记忆单元信息的修改，去掉那些被认为应该遗忘的记忆，由于采用sigmoid函数，因此输出范围限定在[0,1]之间；输入门i_t和候选门g_t决定当前视角哪些信息应当被输入或丢弃，其中，g_t的激活函数被设计成双曲函数，使其输出范围为[-1,1]，这样在与遗忘门处理后的前一记忆单元加和时,可以去除那些不希望被保留的信息；输出门o_t则用于突出希望被放大的隐变量，作为下一循环的输入。

视角特征依次送入长短时记忆网络中，当每个视角特征输入该单元时，LSTM网络会筛选出特征中有用的部分并去除那些不利的分量，再与之前保留的记忆特征融合在一起形成新的记忆。依次循环整合视角序列的信息直到处理完成整个序列，并将最后一次循环隐含层的输出作为视角序列的最终特征表示。

构建双通道LSTM结构，在单通道的基础上叠加了一个反向序列通道，每一步视角的特征输出是正向与反向特征的拼接，如图3所示。

步骤三、引入注意力机制增强模型特征的表达

多视角表示的CAD模型，由于捕捉的角度不同，造成视角蕴含的检索信息不一样，因此，将各视角的重要性引入特征融合中，将有利于增强模型特征的表达。基于注意力机制的融合方式则是引入注意力层，对各阶段的拼接视角进行加权融合，如图4所示。计算各视角的权重a_t，以加权方式综合隐含层各视角特征h_t，得到最终特征表示r。基于注意力机制对各阶段的拼接视角进行加权融合，

e_t＝tanh(W_hh_t+b_h),e_t∈[-1,1]

步骤四、构建基于Siamese结构的双向长短时记忆经网络，融合多视角信息

Siamese结构，在度量物体间相对关系上有突出作用，特别是在训练集不大，样本的多样性受限制的情况下，Siamese网络结构可以有效的增加训练样本数目，提升物体特征的描述能力。具体来说，给定各模型融合特征z₁,z₂,L,z_n和对应类别标签{y₁,y₂,L,y_n}，Siamese网络直接度量z_i和z_j的距离d(z_i,z_j)，使属于同一类别的两特征距离尽量接近，不同类别特征的距离要远离。

基于Siamese结构的双向长短时记忆网络如图5所示，整体结构分两部分，第一部分为卷积神经网络，第二部分为融入注意力机制的双向记忆网络，成对样本输入到网络中时，共用这两部分网络的参数，形成Siamese结构。

两个成对样本的损失函数为：

L(z_i,z_j)＝L[y_i＝y_j]d(z_i,z_j)+(1-L[y_i＝y_j])max(0,m-d(z_i,z_j))

其中：

表示欧式距离的平方。L(·)是指示函数，当条件满足时为1，不满足时0；m为期望距离阈值。

步骤五、对Siamese结构的双向长短时循环记忆网络模型参数进行训练，对多视角三维模型进行检索。

训练过程分两个阶段，第一阶段是由卷积神经网络(CNN)训练得到的卷积网络计算模型的单视角特征，去掉Softmax层，拿出剩下网络的最后一层全连接层的输出作为最终特征表示；第二阶段基于Siamese结构双向长短时记忆网络(Bi-LSTM)融合各视角特征，每一步训练过程，同时输入一对含有两个模型的训练样例，用分别得到的模型特征计算对比损失，以最小化损失函数为目标，更新Bi-LSTM部分的网络参数，直到网络收敛到平稳状态。

对多视角三维模型进行检索。首先，将模型数据库的多视角模型数据输入训练好的Siamese结构网络，得到模型特征库；其次，将查询模型的多视角图片集，输入Siamese结构网络，得到模型的特征向量；最后，对查询模型的特征向量与模型特征库中的特征向量进行距离度量，得到检索的物体。

本发明的实施例

结合图1-图6说明本实施例，基于Siamese结构的双向长短时记忆网络的多视角三维模型检索方法的步骤为：

步骤一、构建卷积神经网络，进行独立视角的特征学习

基于单视角的卷积神经网络训练得到视角特征，在ETH80数据集上训练单视角分类网络。从每一类中随机拿出60％模型做训练，剩下40％做测试。将各视角图片缩放到224×224大小的尺寸，进行输入数据预处理。利用ResNet18作为基本网络结构，使用Adam优化器更新网络参数；训练小包大小为16，学习率设为0.01，训练网络参数。经30轮训练，网络收敛到稳定状态。选择分类准确率最高的一轮训练结果当作最优网络，将三维模型的各视角图片，输入训练好的网络，提取各视角的图片的特征向量。

步骤二、构建双向长短时记忆网络

LSTM网络层数设定为2，隐含层节点个数为512。构建双通道LSTM结构，在单通道的基础上叠加了一个反向序列通道，每一步视角的特征输出用正向与反向特征进行拼接。

步骤三、引入注意力机制增强模型特征的表达；

基于注意力机制对各阶段的拼接视角进行加权融合，计算各视角权重a_t，以加权方式综合各隐含层特征h_t，得到最终特征表示r。

步骤四、构建基于Siamese结构的双向长短时记忆网络，第一部分为卷积神经网络(CNN)，第二部分为融入注意力机制的双向记忆网络，成对样本输入网络中，共用这两部分网络的参数。

步骤五、对Siamese结构的长短时循环记忆网络模型参数进行训练，对多视角三维模型进行检索

两个成对样本的各视角图片分别通过卷积神经网络抽取出特征向量，视角特征依次送入双向长短时记忆网络中。当每个视角特征输入该单元时，Bi-LSTM网络会筛选出特征中有用的部分并去除那些不利的分量，再与之前保留的记忆特征融合在一起形成新的记忆。依次循环整合视角序列的信息直到处理完整个视角序列，并将最后一次循环隐含层的输出作为视角序列的最终特征表示。LSTM网络层数设定为2，隐含层节点个数为512，用Adam优化器更新网络参数，学***均准确率在ModelNet数据集上达到了90.93％，比LSTM网络和双向LSTM网络分别提升了2.45％和3.77％。

图6展示了ESB数据集检索结果的一些示例，最左侧一列是查询模型，每行右侧是按距离远近返回的前5个检索结果，每个机械部件的名称放在各子图的左上角。

Claims

1.一种基于Siamese结构长短时记忆网络的多视角三维模型检索方法，其特征在于，所述方法的实现过程为：

步骤二、构建双向长短时记忆网络网络；

步骤三、引入注意力机制增强模型特征的表达；

2.根据权利要求1所述的基于Siamese结构长短时记忆网络的多视角三维模型检索方法，其特征在于，步骤一的具体实现过程为：

2)将原始ResNet18卷积神经网络的最后一层替换成模型检索任务中对应的类别输出层，进行独立视角特征训练；将第i个视角图片输入卷积神经网络，得到该视角的嵌入特征向量，表示为x_i，其中x_i∈R^d；此特征再经过最后一层全连接层转换成与类别相关的K维向量z_i＝W^Tx_i+b∈R^K，该层可以看作一个线性分类器，其参数z_i＝[z_i1,z_i2,....,z_ik]^T∈R^K，W＝[w₁,w₂,....,w_K]∈R^d×k，b＝[b₁,b₂,....,b_k]^T∈R^K；卷积神经网络的最后一特征层通过softmax层输出对应到每一类别上的概率，得到嵌入特征x_i属于某个类别k的概率：

其中：p为实际输出，q为期望输出，H(p,q)为交叉熵；

3.根据权利要求1或2所述的基于Siamese结构长短时记忆网络的多视角三维模型检索方法，其特征在于，步骤二中的构建双向长短时记忆网络的过程为：

将每个模型对应的多视角看作是一组序列化图片的集合，利用长短时记忆网络处理序列化输入数据，构建长短时记忆网络，每个LSTM单元由四部分组成：输入门、输出门、遗忘门以及候选激活门；以视角特征序列{x₁,x₂,...,x_n}作为输入，以其中第t个视角作为输入，LSTM单元各个状态的特征值如下：

i_t＝σ(W_iix_t+b_ii+W_hih_t-1+b_hi)

f_t＝σ(W_ifx_t+b_if+W_hfh_t-1+b_hf)

g_t＝tanh(W_igx_t+b_ig+W_hgh_t-1+b_hg)

o_t＝σ(W_iox_t+b_io+W_hoh_t-1+b_ho)

c_t＝f_tc_t-1+i_tg_t

h_t＝o_ttanh(c_t)

4.根据权利要求3所述的基于Siamese结构长短时记忆网络的多视角三维模型检索方法，其特征在于，步骤三中引入注意力机制增强模型特征的表达，具体为：

e_t＝tanh(W_hh_t+b_h),e_t∈[-1,1]

5.根据权利要求4所述的基于Siamese结构长短时记忆网络的多视角三维模型检索方法，其特征在于，在步骤四中的构建基于Siamese结构的双向长短时记忆经网络，融合多视角信息，具体为：

两个成对样本的损失函数为：

L(z_i,z_j)＝L[y_i＝y_j]d(z_i,z_j)+(1-L[y_i＝y_j])max(0,m-d(z_i,z_j))

其中：

6.根据权利要求5所述的基于Siamese结构长短时记忆网络的多视角三维模型检索方法，其特征在于，在步骤五中，对Siamese结构的双向长短时循环记忆网络模型参数进行训练，对多视角三维模型进行检索，具体为：

训练过程分两个阶段，第一阶段是由卷积神经网络训练得到的卷积网络计算模型的单视角特征，去掉Softmax层，拿出剩下网络的最后一层全连接层的输出作为最终特征表示；第二阶段基于Siamese结构双向长短时记忆网络融合各视角特征，每一步训练过程，同时输入一对含有两个模型的训练样例，用分别得到的模型特征计算对比损失，以最小化损失函数为目标，更新Bi-LSTM部分的网络参数，直到网络收敛到平稳状态；