CN110990608A - 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法 - Google Patents

一种基于Siamese结构双向长短时记忆网络的三维模型检索方法 Download PDF

Info

Publication number
CN110990608A
CN110990608A CN201911224313.4A CN201911224313A CN110990608A CN 110990608 A CN110990608 A CN 110990608A CN 201911224313 A CN201911224313 A CN 201911224313A CN 110990608 A CN110990608 A CN 110990608A
Authority
CN
China
Prior art keywords
network
view
model
dimensional model
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911224313.4A
Other languages
English (en)
Inventor
王滨
王栋
柳强
赵京东
刘宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201911224313.4A priority Critical patent/CN110990608A/zh
Publication of CN110990608A publication Critical patent/CN110990608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于Siamese结构双向长短时记忆网络的三维模型检索方法,属于图像处理技术领域,为了解决三维模型多视角特征的融合问题,通过Siamese结构长短时记忆经网络融合视角信息,增强多视角三维模型的检索准确率。构建卷积神经网络;构建双向长短时记忆网络网络;引入注意力机制增强模型特征的表达;构建基于Siamese结构的双向长短时记忆网络,融合多视角信息;对Siamese结构的长短时记忆网络模型参数进行训练,对多视角三维模型进行检索。本发明可实现多视角表达的三维模型的检索,在三维模型分类、检索领域,具有广泛的应用前景。

Description

一种基于Siamese结构双向长短时记忆网络的三维模型检索 方法
技术领域
本发明属于图像处理技术领域,涉及一种多视角特征融合的多视角三维模型检索方法。
背景技术
目前,人工智能正在由感知发展到认知推理阶段,三维模型检索对三维场景理解、增强现实、机器人等领域的理论发展和技术进步有重要促进作用。近几年,新型深度卷积网络通过抽象提取图片中的底层、中层、高层特征,并结合分类器形成端到端的网络结构。这种方式具有很强的视觉表达能力,能高效的抽取模型语义信息。然而,自然图片与用多视角表达的三维模型的数据属于不同领域,直接用这些深度卷积网络处理多视角三维模型检索并不合适。面向三维模型的检索,数据集规模通常比较小,数量分布不平衡,当面对未知三维模型的数据检索时,往往缺少有标记的训练数据。按照传统多视角检索流程,用手工设计特征算法先提取视角特征,再通过距离度量模型特征间的相似性,返回最终检索结果。这种方式虽然可适用于任何未知模型的三维检索,但手工特征算法的描述能力弱,对视角的表示性差,特别是在数据分布复杂度高的情况下,传统算法已经很难取得理想效果。因此,提出一种基于多视角表达的三维模型的检索方法,提升多视角三维模型的检索性能是非常迫切和必要的。
文献号为CN110147460A的现有技术提供了一种基于卷积神经网络与多视角图的三维模型检索方法及装置,其中的方包括:获取非刚性三维模型的多张视角图,每张视角图分别对应不同的视角;通过卷积神经网络提取所述每张视角图的卷积特征;获取所述每张视角图的图像熵,并根据所述图像熵确定所述每张视角图的卷积特征对应的置信度;根据所述多张视角图的卷积特征及对应的置信度确定所述非刚性三维模型与三维模型中各个实体模型的相似度;根据所述相似度检索与所述非刚性三维模型匹配实体模型。但该现有技术没有考虑如何融合视角信息,如何增强多视角三维模型的检索准确率。
发明内容
本发明提出了基于Siamese结构的双向长短时记忆网络的多视角三维模型检索方法,以解决三维模型多视角特征的融合问题,通过Siamese结构长短时记忆经网络融合视角信息,增强多视角三维模型的检索准确率。
本发明为解决上述技术问题采取的技术方案是:
一种基于Siamese结构长短时记忆网络的多视角三维模型检索方法,所述方法的实现过程为:
步骤一、构建卷积神经网络,进行三维模型独立视角图片的特征学习;
步骤二、构建双向长短时记忆网络(Bi-LSTM)网络;
步骤三、引入注意力机制增强模型特征的表达;
步骤四、构建基于Siamese结构的双向长短时记忆网络,融合多视角信息;
步骤五、对Siamese结构的长短时记忆网络模型参数进行训练,对多视角三维模型进行检索。
步骤一的具体实现过程为:
1)数据预处理:对渲染好的三维模型每个视角图片做归一化处理,根据ResNet18网络特性,将各视角图片缩放到224×224大小的尺寸,完成对输入数据的预处理;
2)将原始ResNet18卷积神经网络的最后一层(全连接层)替换成模型检索任务中对应的类别输出层,进行独立视角特征训练;将第i个视角图片输入卷积神经网络,得到该视角的嵌入特征向量,表示为xi,其中xi∈Rd;此特征再经过最后一层全连接层转换成与类别相关的K维向量zi=WTxi+b∈RK,该层可以看作一个线性分类器,其参数zi=[zi1,zi2,....,zik]T∈RK,W=[w1,w2,....,wK]∈Rd×k,b=[b1,b2,....,bk]T∈RK;卷积神经网络的最后一特征层通过softmax层输出对应到每一类别上的概率,得到嵌入特征xi属于某个类别k的概率:
Figure BDA0002301299020000021
该输出向量与真实类别的标签做交叉熵计算分类损失,交叉熵损失函数的形式
Figure BDA0002301299020000022
其中:p为实际输出,q为期望输出,H(p,q)为交叉熵;
3)通过交叉熵损失函数计算网络反向传播时的梯度更新值,利用Adam优化器更新网络各层参数,直到网络收敛到平稳状态;
4)利用训练好的卷积网络,计算每个模型的所有单视角特征,通过训练的ResNet18卷积神经网络提取单视角的特征向量,每个三维模型用一组特征来描述。
步骤二中的构建双向长短时记忆(Bi-LSTM)网络的过程为:
将每个模型对应的多视角看作是一组序列化图片的集合,利用长短时记忆网络(LSTM)处理序列化输入数据,构建长短时记忆网络(LSTM),每个LSTM单元由四部分组成:输入门、输出门、遗忘门以及候选激活门;以视角特征序列{x1,x2,...,xn}作为输入,以其中第t个视角作为输入,LSTM单元各个状态的特征值如下:
it=σ(Wiixt+bii+Whiht-1+bhi)
ft=σ(Wifxt+bif+Whfht-1+bhf)
gt=tanh(Wigxt+big+Whght-1+bhg)
ot=σ(Wioxt+bio+Whoht-1+bho)
ct=ftct-1+itgt
ht=ottanh(ct)
其中:it、ot、ft、gt分别表示输入门、输出门、遗忘门和候选门的激活向量,ct和ht分别代表记忆单元和隐状态,W表示LSTM的权值矩阵,b表示LSTM的偏置向量,σ(·)是按元素运算的sigmoid函数;
每个单元的输入包括两个变量:当前视角特征xt与前一LSTM单元输出隐变量ht-1,另一输入ct-1是前一记忆单元信息,被看作网络中固有的循环输入;遗忘门ft控制对前一记忆单元信息的修改,去掉那些被认为应该遗忘的记忆,采用的sigmoid函数的输出范围限定在[0,1]之间;输入门it和候选门gt决定当前视角哪些信息应当被输入或丢弃,其中,gt的激活函数被设计成双曲函数,使其输出范围为[-1,1],输出门ot则用于突出希望被放大的隐变量,作为下一循环的输入;
视角特征依次送入长短时记忆网络中,当每个视角特征输入该单元时,LSTM网络会筛选出特征中有用的部分并去除那些不利的分量,再与之前保留的记忆特征融合在一起形成新的记忆,依次循环整合视角序列的信息直到处理完成整个序列,并将最后一次循环隐含层的输出作为视角序列的最终特征表示;
构建双通道LSTM结构,在单通道的基础上叠加了一个反向序列通道,每一步视角的特征输出是正向与反向特征的拼接。
步骤三中引入注意力机制增强模型特征的表达,具体为:
注意力机制的融合方式是引入注意力层,对各阶段的拼接视角进行加权融合,计算各视角的权重at,以加权方式综合隐含层各视角特征ht,得到最终特征表示r,基于注意力机制对各阶段的拼接视角进行加权融合,
et=tanh(Whht+bh),et∈[-1,1]
Figure BDA0002301299020000041
Figure BDA0002301299020000042
其中:Wh是表示注意力层的权值矩阵,bh表示注意力层的偏置向量,ht表示隐含层各视角特征,at为各视角权重,r为最终的特征。
在步骤四中的构建基于Siamese结构的双向长短时记忆经网络,融合多视角信息,具体为:
给定各模型融合特征z1,z2,·L,zn和对应类别标签{y1,y2,·L,yn},Siamese网络直接度量zi和zj的距离d(zi,zj),使属于同一类别的两特征距离尽量接近,不同类别特征的距离要远离;
基于Siamese结构的双向长短时记忆网络整体结构分两部分,第一部分为卷积神经网络,第二部分为融入注意力机制的双向记忆网络,成对样本输入到网络中时,共用这两部分网络的参数,形成Siamese结构;
两个成对样本的损失函数为:
L(zi,zj)=L[yi=yj]d(zi,zj)+(1-L[yi=yj])max(0,m-d(zi,zj))
其中:
Figure BDA0002301299020000043
表示欧式距离的平方;L(·)是指示函数,当条件满足时为1,不满足时0;m为期望距离阈值。
在步骤五中,对Siamese结构的双向长短时循环记忆网络模型参数进行训练,对多视角三维模型进行检索,具体为:
训练过程分两个阶段,第一阶段是由卷积神经网络(CNN)训练得到的卷积网络计算模型的单视角特征,去掉Softmax层,拿出剩下网络的最后一层全连接层的输出作为最终特征表示;第二阶段基于Siamese结构双向长短时记忆网络(Bi-LSTM)融合各视角特征,每一步训练过程,同时输入一对含有两个模型的训练样例,用分别得到的模型特征计算对比损失,以最小化损失函数为目标,更新Bi-LSTM部分的网络参数,直到网络收敛到平稳状态;
对多视角三维模型进行检索:首先,将模型数据库的多视角模型数据输入训练好的Siamese结构网络,得到模型特征库;其次,将查询模型的多视角图片集,输入Siamese结构网络,得到模型的特征向量;最后,对查询模型的特征向量与模型特征库中的特征向量进行距离度量,得到检索的物体。
本发明具有以下有益效果:
本发明提出了基于Siamese结构的双向长短时记忆网络模型,能解决多视角描述的三维模型的视角特征融合问题。该方法以独立视角的形式训练卷积神经网络,通过引入注意力机制度量每个视角重要性,并用双通道网络结构训练长短时记忆网络。相比于无监督的特征提取方式,训练后的特征大幅提高了三维模型的检索性能,相比于需要多对多距离度量的独立视角特征,长短时记忆网络能够有效融合各视角形成单一向量表示,有利于快速计算两模型之间距离。该方法有效解决了任意视角数量下的三维模型检索的特征融合问题,提高了多视角三维模型的检索性能,通过Siamese结构长短时记忆经网络融合视角信息,增强多视角三维模型的检索准确率。本发明可实现多视角表达的三维模型的检索,在三维模型分类、检索领域,具有广泛的应用前景。
附图说明
图1基于Siamese结构双向长短时记忆网络的三维模型检索方法流程图;
图2长短时记忆网络单元的原理图;
图3基于双向长短时记忆网络检索框架图;
图4注意力机制的视角融合方案图;
图5基于长短时记忆网络的Siamese结构框架图;
图6多视角三维模型的检索结果图。
具体实施方式
具体实施方式一:结合附图对本发明的具体实施方式作进一步阐述。本发明提出的基于Siamese结构双向长短时记忆网络的多视角三维模型检索方法利用Siamese结构的循环神经网络,采用独立视角的分类网络提取三维模型的单视角特征,在双向长短记忆神经网络中引入注意力机制度,用循环神经网络融合单视角卷积特征,以大量成对样本的形式训练网络,大幅提高了多视角三维模型的检索性能。
如图1所示,为本发明的基于Siamese结构双向长短时记忆网络的三维模型检索方法的流程图,
主要由以下步骤完成:
步骤一、构建卷积神经网络,进行独立视角的特征学习
1)数据预处理。对渲染好的三维模型每个视角图片做归一化处理,根据ResNet18网络特性,将各视角图片缩放到224×224大小的尺寸,完成对输入数据的预处理;
2)将原始ResNet18卷积神经网络的最后一层(全连接层)替换成模型检索任务中对应的类别输出层,进行独立视角特征训练;将第i个视角图片输入卷积神经网络,得到该视角的嵌入特征向量,表示为xi,其中xi∈Rd;此特征再经过最后一层全连接层转换成与类别相关的K维向量zi=WTxi+b∈RK,该层可以看作一个线性分类器,其参数zi=[zi1,zi2,....,zik]T∈RK,W=[w1,w2,....,wK]∈Rd×k,b=[b1,b2,....,bk]T∈RK;卷积神经网络的最后一特征层通过softmax层输出对应到每一类别上的概率,得到嵌入特征xi属于某个类别k的概率:
Figure BDA0002301299020000061
该输出向量与真实类别的标签做交叉熵计算分类损失,交叉熵损失函数的形式
Figure BDA0002301299020000062
其中:p为实际输出,q为期望输出,H(p,q)为交叉熵。
3)通过交叉熵损失函数计算网络反向传播时的梯度更新值,利用Adam优化器更新网络各层参数,直到网络收敛到平稳状态。
4)利用训练好的卷积网络,计算每个模型的所有单视角特征。通过训练的ResNet18卷积神经网络提取单视角的特征向量,每个三维模型用一组特征来描述。
步骤二、构建双向长短时记忆(Bi-LSTM)网络
将每个模型对应的多视角看作是一组序列化图片的集合,利用长短时记忆网络(LSTM)处理序列化输入数据。构建长短时记忆网络(LSTM),每个LSTM单元的基本结构如图2所示。一个LSTM单元由四部分组成:输入门、输出门、遗忘门以及候选激活门。以视角特征序列{x1,x2,...,xn}作为输入,以其中第t个视角作为输入,LSTM单元各个状态的特征值如下:
it=σ(Wiixt+bii+Whiht-1+bhi)
ft=σ(Wifxt+bif+Whfht-1+bhf)
gt=tanh(Wigxt+big+Whght-1+bhg)
ot=σ(Wioxt+bio+Whoht-1+bho)
ct=ftct-1+itogt
ht=ottanh(ct)
其中:it、ot、ft、gt分别表示输入门、输出门、遗忘门和候选门的激活向量,ct和ht分别代表记忆单元和隐状态,W表示LSTM的权值矩阵,b表示LSTM的偏置向量,σ(·)是按元素运算的sigmoid函数。
每个单元的输入包括两个变量:当前视角特征xt与前一LSTM单元输出隐变量ht-1,另一输入ct-1是前一记忆单元信息,被看作网络中固有的循环输入。遗忘门ft控制对前一记忆单元信息的修改,去掉那些被认为应该遗忘的记忆,由于采用sigmoid函数,因此输出范围限定在[0,1]之间;输入门it和候选门gt决定当前视角哪些信息应当被输入或丢弃,其中,gt的激活函数被设计成双曲函数,使其输出范围为[-1,1],这样在与遗忘门处理后的前一记忆单元加和时,可以去除那些不希望被保留的信息;输出门ot则用于突出希望被放大的隐变量,作为下一循环的输入。
视角特征依次送入长短时记忆网络中,当每个视角特征输入该单元时,LSTM网络会筛选出特征中有用的部分并去除那些不利的分量,再与之前保留的记忆特征融合在一起形成新的记忆。依次循环整合视角序列的信息直到处理完成整个序列,并将最后一次循环隐含层的输出作为视角序列的最终特征表示。
构建双通道LSTM结构,在单通道的基础上叠加了一个反向序列通道,每一步视角的特征输出是正向与反向特征的拼接,如图3所示。
步骤三、引入注意力机制增强模型特征的表达
多视角表示的CAD模型,由于捕捉的角度不同,造成视角蕴含的检索信息不一样,因此,将各视角的重要性引入特征融合中,将有利于增强模型特征的表达。基于注意力机制的融合方式则是引入注意力层,对各阶段的拼接视角进行加权融合,如图4所示。计算各视角的权重at,以加权方式综合隐含层各视角特征ht,得到最终特征表示r。基于注意力机制对各阶段的拼接视角进行加权融合,
et=tanh(Whht+bh),et∈[-1,1]
Figure BDA0002301299020000081
Figure BDA0002301299020000082
其中:Wh是表示注意力层的权值矩阵,bh表示注意力层的偏置向量,ht表示隐含层各视角特征,at为各视角权重,r为最终的特征。
步骤四、构建基于Siamese结构的双向长短时记忆经网络,融合多视角信息
Siamese结构,在度量物体间相对关系上有突出作用,特别是在训练集不大,样本的多样性受限制的情况下,Siamese网络结构可以有效的增加训练样本数目,提升物体特征的描述能力。具体来说,给定各模型融合特征z1,z2,L,zn和对应类别标签{y1,y2,L,yn},Siamese网络直接度量zi和zj的距离d(zi,zj),使属于同一类别的两特征距离尽量接近,不同类别特征的距离要远离。
基于Siamese结构的双向长短时记忆网络如图5所示,整体结构分两部分,第一部分为卷积神经网络,第二部分为融入注意力机制的双向记忆网络,成对样本输入到网络中时,共用这两部分网络的参数,形成Siamese结构。
两个成对样本的损失函数为:
L(zi,zj)=L[yi=yj]d(zi,zj)+(1-L[yi=yj])max(0,m-d(zi,zj))
其中:
Figure BDA0002301299020000083
表示欧式距离的平方。L(·)是指示函数,当条件满足时为1,不满足时0;m为期望距离阈值。
步骤五、对Siamese结构的双向长短时循环记忆网络模型参数进行训练,对多视角三维模型进行检索。
训练过程分两个阶段,第一阶段是由卷积神经网络(CNN)训练得到的卷积网络计算模型的单视角特征,去掉Softmax层,拿出剩下网络的最后一层全连接层的输出作为最终特征表示;第二阶段基于Siamese结构双向长短时记忆网络(Bi-LSTM)融合各视角特征,每一步训练过程,同时输入一对含有两个模型的训练样例,用分别得到的模型特征计算对比损失,以最小化损失函数为目标,更新Bi-LSTM部分的网络参数,直到网络收敛到平稳状态。
对多视角三维模型进行检索。首先,将模型数据库的多视角模型数据输入训练好的Siamese结构网络,得到模型特征库;其次,将查询模型的多视角图片集,输入Siamese结构网络,得到模型的特征向量;最后,对查询模型的特征向量与模型特征库中的特征向量进行距离度量,得到检索的物体。
本发明的实施例
结合图1-图6说明本实施例,基于Siamese结构的双向长短时记忆网络的多视角三维模型检索方法的步骤为:
步骤一、构建卷积神经网络,进行独立视角的特征学习
基于单视角的卷积神经网络训练得到视角特征,在ETH80数据集上训练单视角分类网络。从每一类中随机拿出60%模型做训练,剩下40%做测试。将各视角图片缩放到224×224大小的尺寸,进行输入数据预处理。利用ResNet18作为基本网络结构,使用Adam优化器更新网络参数;训练小包大小为16,学习率设为0.01,训练网络参数。经30轮训练,网络收敛到稳定状态。选择分类准确率最高的一轮训练结果当作最优网络,将三维模型的各视角图片,输入训练好的网络,提取各视角的图片的特征向量。
步骤二、构建双向长短时记忆网络
LSTM网络层数设定为2,隐含层节点个数为512。构建双通道LSTM结构,在单通道的基础上叠加了一个反向序列通道,每一步视角的特征输出用正向与反向特征进行拼接。
步骤三、引入注意力机制增强模型特征的表达;
基于注意力机制对各阶段的拼接视角进行加权融合,计算各视角权重at,以加权方式综合各隐含层特征ht,得到最终特征表示r。
步骤四、构建基于Siamese结构的双向长短时记忆网络,第一部分为卷积神经网络(CNN),第二部分为融入注意力机制的双向记忆网络,成对样本输入网络中,共用这两部分网络的参数。
步骤五、对Siamese结构的长短时循环记忆网络模型参数进行训练,对多视角三维模型进行检索
两个成对样本的各视角图片分别通过卷积神经网络抽取出特征向量,视角特征依次送入双向长短时记忆网络中。当每个视角特征输入该单元时,Bi-LSTM网络会筛选出特征中有用的部分并去除那些不利的分量,再与之前保留的记忆特征融合在一起形成新的记忆。依次循环整合视角序列的信息直到处理完整个视角序列,并将最后一次循环隐含层的输出作为视角序列的最终特征表示。LSTM网络层数设定为2,隐含层节点个数为512,用Adam优化器更新网络参数,学***均准确率在ModelNet数据集上达到了90.93%,比LSTM网络和双向LSTM网络分别提升了2.45%和3.77%。
图6展示了ESB数据集检索结果的一些示例,最左侧一列是查询模型,每行右侧是按距离远近返回的前5个检索结果,每个机械部件的名称放在各子图的左上角。

Claims (6)

1.一种基于Siamese结构长短时记忆网络的多视角三维模型检索方法,其特征在于,所述方法的实现过程为:
步骤一、构建卷积神经网络,进行三维模型独立视角图片的特征学习;
步骤二、构建双向长短时记忆网络网络;
步骤三、引入注意力机制增强模型特征的表达;
步骤四、构建基于Siamese结构的双向长短时记忆网络,融合多视角信息;
步骤五、对Siamese结构的长短时记忆网络模型参数进行训练,对多视角三维模型进行检索。
2.根据权利要求1所述的基于Siamese结构长短时记忆网络的多视角三维模型检索方法,其特征在于,步骤一的具体实现过程为:
1)数据预处理:对渲染好的三维模型每个视角图片做归一化处理,根据ResNet18网络特性,将各视角图片缩放到224×224大小的尺寸,完成对输入数据的预处理;
2)将原始ResNet18卷积神经网络的最后一层替换成模型检索任务中对应的类别输出层,进行独立视角特征训练;将第i个视角图片输入卷积神经网络,得到该视角的嵌入特征向量,表示为xi,其中xi∈Rd;此特征再经过最后一层全连接层转换成与类别相关的K维向量zi=WTxi+b∈RK,该层可以看作一个线性分类器,其参数zi=[zi1,zi2,....,zik]T∈RK,W=[w1,w2,....,wK]∈Rd×k,b=[b1,b2,....,bk]T∈RK;卷积神经网络的最后一特征层通过softmax层输出对应到每一类别上的概率,得到嵌入特征xi属于某个类别k的概率:
Figure FDA0002301299010000011
该输出向量与真实类别的标签做交叉熵计算分类损失,交叉熵损失函数的形式
Figure FDA0002301299010000012
其中:p为实际输出,q为期望输出,H(p,q)为交叉熵;
3)通过交叉熵损失函数计算网络反向传播时的梯度更新值,利用Adam优化器更新网络各层参数,直到网络收敛到平稳状态;
4)利用训练好的卷积网络,计算每个模型的所有单视角特征,通过训练的ResNet18卷积神经网络提取单视角的特征向量,每个三维模型用一组特征来描述。
3.根据权利要求1或2所述的基于Siamese结构长短时记忆网络的多视角三维模型检索方法,其特征在于,步骤二中的构建双向长短时记忆网络的过程为:
将每个模型对应的多视角看作是一组序列化图片的集合,利用长短时记忆网络处理序列化输入数据,构建长短时记忆网络,每个LSTM单元由四部分组成:输入门、输出门、遗忘门以及候选激活门;以视角特征序列{x1,x2,...,xn}作为输入,以其中第t个视角作为输入,LSTM单元各个状态的特征值如下:
it=σ(Wiixt+bii+Whiht-1+bhi)
ft=σ(Wifxt+bif+Whfht-1+bhf)
gt=tanh(Wigxt+big+Whght-1+bhg)
ot=σ(Wioxt+bio+Whoht-1+bho)
ct=ftct-1+itgt
ht=ottanh(ct)
其中:it、ot、ft、gt分别表示输入门、输出门、遗忘门和候选门的激活向量,ct和ht分别代表记忆单元和隐状态,W表示LSTM的权值矩阵,b表示LSTM的偏置向量,σ(·)是按元素运算的sigmoid函数;
每个单元的输入包括两个变量:当前视角特征xt与前一LSTM单元输出隐变量ht-1,另一输入ct-1是前一记忆单元信息,被看作网络中固有的循环输入;遗忘门ft控制对前一记忆单元信息的修改,去掉那些被认为应该遗忘的记忆,采用的sigmoid函数的输出范围限定在[0,1]之间;输入门it和候选门gt决定当前视角哪些信息应当被输入或丢弃,其中,gt的激活函数被设计成双曲函数,使其输出范围为[-1,1],输出门ot则用于突出希望被放大的隐变量,作为下一循环的输入;
视角特征依次送入长短时记忆网络中,当每个视角特征输入该单元时,LSTM网络会筛选出特征中有用的部分并去除那些不利的分量,再与之前保留的记忆特征融合在一起形成新的记忆,依次循环整合视角序列的信息直到处理完成整个序列,并将最后一次循环隐含层的输出作为视角序列的最终特征表示;
构建双通道LSTM结构,在单通道的基础上叠加了一个反向序列通道,每一步视角的特征输出是正向与反向特征的拼接。
4.根据权利要求3所述的基于Siamese结构长短时记忆网络的多视角三维模型检索方法,其特征在于,步骤三中引入注意力机制增强模型特征的表达,具体为:
注意力机制的融合方式是引入注意力层,对各阶段的拼接视角进行加权融合,计算各视角的权重at,以加权方式综合隐含层各视角特征ht,得到最终特征表示r,基于注意力机制对各阶段的拼接视角进行加权融合,
et=tanh(Whht+bh),et∈[-1,1]
Figure FDA0002301299010000031
Figure FDA0002301299010000032
其中:Wh是表示注意力层的权值矩阵,bh表示注意力层的偏置向量,ht表示隐含层各视角特征,at为各视角权重,r为最终的特征。
5.根据权利要求4所述的基于Siamese结构长短时记忆网络的多视角三维模型检索方法,其特征在于,在步骤四中的构建基于Siamese结构的双向长短时记忆经网络,融合多视角信息,具体为:
给定各模型融合特征z1,z2,·L,zn和对应类别标签{y1,y2,·L,yn},Siamese网络直接度量zi和zj的距离d(zi,zj),使属于同一类别的两特征距离尽量接近,不同类别特征的距离要远离;
基于Siamese结构的双向长短时记忆网络整体结构分两部分,第一部分为卷积神经网络,第二部分为融入注意力机制的双向记忆网络,成对样本输入到网络中时,共用这两部分网络的参数,形成Siamese结构;
两个成对样本的损失函数为:
L(zi,zj)=L[yi=yj]d(zi,zj)+(1-L[yi=yj])max(0,m-d(zi,zj))
其中:
Figure FDA0002301299010000033
表示欧式距离的平方;L(·)是指示函数,当条件满足时为1,不满足时0;m为期望距离阈值。
6.根据权利要求5所述的基于Siamese结构长短时记忆网络的多视角三维模型检索方法,其特征在于,在步骤五中,对Siamese结构的双向长短时循环记忆网络模型参数进行训练,对多视角三维模型进行检索,具体为:
训练过程分两个阶段,第一阶段是由卷积神经网络训练得到的卷积网络计算模型的单视角特征,去掉Softmax层,拿出剩下网络的最后一层全连接层的输出作为最终特征表示;第二阶段基于Siamese结构双向长短时记忆网络融合各视角特征,每一步训练过程,同时输入一对含有两个模型的训练样例,用分别得到的模型特征计算对比损失,以最小化损失函数为目标,更新Bi-LSTM部分的网络参数,直到网络收敛到平稳状态;
对多视角三维模型进行检索:首先,将模型数据库的多视角模型数据输入训练好的Siamese结构网络,得到模型特征库;其次,将查询模型的多视角图片集,输入Siamese结构网络,得到模型的特征向量;最后,对查询模型的特征向量与模型特征库中的特征向量进行距离度量,得到检索的物体。
CN201911224313.4A 2019-12-03 2019-12-03 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法 Pending CN110990608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911224313.4A CN110990608A (zh) 2019-12-03 2019-12-03 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911224313.4A CN110990608A (zh) 2019-12-03 2019-12-03 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法

Publications (1)

Publication Number Publication Date
CN110990608A true CN110990608A (zh) 2020-04-10

Family

ID=70089772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911224313.4A Pending CN110990608A (zh) 2019-12-03 2019-12-03 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法

Country Status (1)

Country Link
CN (1) CN110990608A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523649A (zh) * 2020-05-09 2020-08-11 支付宝(杭州)信息技术有限公司 针对业务模型进行数据预处理的方法及装置
CN111914897A (zh) * 2020-06-30 2020-11-10 电子科技大学 一种基于孪生长短时间记忆网络的故障诊断方法
CN112001044A (zh) * 2020-07-31 2020-11-27 宁波浙大联科科技有限公司 零件cad模型相似度估算方法与***
CN112818124A (zh) * 2021-02-21 2021-05-18 昆明理工大学 一种基于注意力神经网络的实体关系抽取方法
CN113313140A (zh) * 2021-04-14 2021-08-27 中国海洋大学 基于深度注意力的三维模型分类和检索方法及装置
CN115271256A (zh) * 2022-09-20 2022-11-01 华东交通大学 一种多维分类下的智能化订货方法
CN115515092A (zh) * 2022-07-01 2022-12-23 重庆邮电大学 一种基于cnn-lstm特征融合网络的室内定位方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316013A (zh) * 2017-06-14 2017-11-03 西安电子科技大学 基于nsct变换和dcnn的高光谱图像分类方法
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
CN109846472A (zh) * 2019-01-30 2019-06-07 郑州大学 基于BiLSTM-Attention深度神经网络的心搏分类方法
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316013A (zh) * 2017-06-14 2017-11-03 西安电子科技大学 基于nsct变换和dcnn的高光谱图像分类方法
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
CN109846472A (zh) * 2019-01-30 2019-06-07 郑州大学 基于BiLSTM-Attention深度神经网络的心搏分类方法
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUOXIAN DAI等: "Siamese CNN-BiLSTM Architecture for 3D Shape Representation Learning", 《ACM》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523649A (zh) * 2020-05-09 2020-08-11 支付宝(杭州)信息技术有限公司 针对业务模型进行数据预处理的方法及装置
CN111914897A (zh) * 2020-06-30 2020-11-10 电子科技大学 一种基于孪生长短时间记忆网络的故障诊断方法
CN112001044A (zh) * 2020-07-31 2020-11-27 宁波浙大联科科技有限公司 零件cad模型相似度估算方法与***
CN112001044B (zh) * 2020-07-31 2024-04-02 宁波智讯联科科技有限公司 零件cad模型相似度估算方法与***
CN112818124A (zh) * 2021-02-21 2021-05-18 昆明理工大学 一种基于注意力神经网络的实体关系抽取方法
CN113313140A (zh) * 2021-04-14 2021-08-27 中国海洋大学 基于深度注意力的三维模型分类和检索方法及装置
CN113313140B (zh) * 2021-04-14 2022-11-01 中国海洋大学 基于深度注意力的三维模型分类和检索方法及装置
CN115515092A (zh) * 2022-07-01 2022-12-23 重庆邮电大学 一种基于cnn-lstm特征融合网络的室内定位方法
CN115271256A (zh) * 2022-09-20 2022-11-01 华东交通大学 一种多维分类下的智能化订货方法
CN115271256B (zh) * 2022-09-20 2022-12-16 华东交通大学 一种多维分类下的智能化订货方法

Similar Documents

Publication Publication Date Title
CN110990608A (zh) 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法
CN111260594B (zh) 一种无监督的多模态图像融合方法
Li et al. Building-a-nets: Robust building extraction from high-resolution remote sensing images with adversarial networks
CN108090472B (zh) 基于多通道一致性特征的行人重识别方法及其***
Liu et al. Learning spatio-temporal representations for action recognition: A genetic programming approach
CN110414432A (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN108596329A (zh) 基于端到端深度集成学习网络的三维模型分类方法
CN111046821B (zh) 一种视频行为识别方法、***及电子设备
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN112085072B (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
Zhu et al. Efficient action detection in untrimmed videos via multi-task learning
CN112016601B (zh) 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN116402671B (zh) 用于自动打码***的样品打码图像处理方法
CN112905828A (zh) 一种结合显著特征的图像检索器、数据库及检索方法
CN110889335B (zh) 基于多通道时空融合网络人体骨架双人交互行为识别方法
CN106355210A (zh) 基于深度神经元响应模式的绝缘子红外图像特征表达方法
CN109857895B (zh) 基于多环路视图卷积神经网络的立体视觉检索方法与***
CN110415261B (zh) 一种分区域训练的表情动画转换方法及***
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN114972794A (zh) 基于多视图Pooling Transformer的三维对象识别方法
CN114694174A (zh) 一种基于时空图卷积的人体交互行为识别方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN117541956A (zh) 一种基于自监督学习的视频语义特征提取方法
CN112052795A (zh) 一种基于多尺度时空特征聚合的视频行为识别方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410