CN109033304B - 基于在线深层主题模型的多模态检索方法 - Google Patents

基于在线深层主题模型的多模态检索方法 Download PDF

Info

Publication number
CN109033304B
CN109033304B CN201810781063.3A CN201810781063A CN109033304B CN 109033304 B CN109033304 B CN 109033304B CN 201810781063 A CN201810781063 A CN 201810781063A CN 109033304 B CN109033304 B CN 109033304B
Authority
CN
China
Prior art keywords
matrix
text
layer
global
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810781063.3A
Other languages
English (en)
Other versions
CN109033304A (zh
Inventor
陈渤
肖肃诚
王超杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201810781063.3A priority Critical patent/CN109033304B/zh
Publication of CN109033304A publication Critical patent/CN109033304A/zh
Application granted granted Critical
Publication of CN109033304B publication Critical patent/CN109033304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于在线深层主题模型的多模态检索方法,属于图像处理技术领域,其思路为:确定J张图像和J个相应的文本为数据集,其中每个相应的文本为对应图像包括的若干个单词;对数据集进行预处理后,得到文本矩阵和图像特征矩阵;建立包括T层的泊松伽马置信网络,并得到文本矩阵的每一层变量权重矩阵;根据文本矩阵的每一层变量权重矩阵,并基于在线深层主题模型得到图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵;根据图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,以及图像特征矩阵,得到文本矩阵的预测单词矩阵后作为本发明的一种基于在线深层主题模型的多模态检索结果。

Description

基于在线深层主题模型的多模态检索方法
技术领域
本发明属于图像处理技术领域,特别涉及一种基于在线深层主题模型的多模态检索方法,适用于快速挖掘图像-文本两种不同模态的深层联系、提取联合特征,并利用所提取的联合特征对文本-图像进行检索。
背景技术
多模态检索技术是利用联合学习不同模态特征,并挖掘不同模态特征之间的联系,得到包含多模态信息的联合特征,做到不同模态数据之间相互生成;在线深层主题模型ONLINE-PGBN(泊松伽马置信网络)是一种基于贝叶斯框架的在线深层主题模型,ONLINE-PGBN模型拥有多层网络结构,能够快速提取出数据的多层特征,在文本处理上优于传统主题模型;ONLINE-PGBN模型不仅可以应用于文本处理,还可以应用于图像处理。
多模态学习技术是指,联合学习不同模态特征,挖掘不同模态特征之间的联系,得到包含多模态信息的联合特征,做到不同模态数据之间相互生成;基于泊松伽马置信网络的文本-图像多模态学习方法的主要思想为:利用泊松伽马置信网络发掘不同模态隐层之间由深到浅的联系,同时得到一个包含多模态信息的联合特征表示用于检索。
K Sohn,W Shang,H Lee等人在其发表的论文“Improved multimodal deeplearning with variation of information”(International Conference on NeuralInformation Processing Systems,2014:2141-2149)中提出了一种基于深度神经网络的多模态检索方法,该种基于深度神经网络的多模态检索方法首先构建了多个基于不同模态特征的受限制玻尔兹曼机深度神经网络,受限制玻尔兹曼机网络层内无连接,在初始化网络参数后训练下一层网络,这就形成了一个两层结构的受限制玻尔兹曼机,将一个受限制玻尔兹曼机的输出单元作为另一个受限制玻尔兹曼机的输入单元,就形成了多层深度网络。
该种基于深度神经网络的多模态检索方法引入了基于对比散度和多预测训练的学习方法,向深层网络反复编码结构调整整个网络,然后共享这些特定模态网络的最高层,通过联合学习的方法训练整个神经网络并把共享的隐层(最高层)作为联合特征表示;该种基于深度神经网络的多模态检索方法虽然能够挖掘的不同模态特征之间的联系,但该种基于深度神经网络的多模态检索方法仍然存在的不足之处是:由于深度神经网络的“黑箱”特性,多层受限制玻尔兹曼机的隐层单元局限于二值,表达能力有限,从而基于深度神经网络的多模态技术不能确切描述不同模态特征之间的深层联系;同时,受限制玻尔兹曼机隐层与观测数据之间存在非线性映射,很难将隐层与观测之间的关系可视化。
上海交通大学在其申请的专利文献“基于主题模型的文章特征抽取方法”(专利申请号:201511016955.7,公开号:CN 105631018A)中提出了一种基于主题模型的文章特征抽取检索方法,该种基于主题模型的文章特征抽取检索方法基于原始语料库构建文章的引用关系网络,构建主题模型的生成模型和参数联合表达式,根据所述生成模型构建主题模型的推断过程,对新语料库采样文章,根据采样文章的采样结果提取文章参数。
该种基于主题模型的文章特征抽取检索方法虽然能够直接对多模态的输入建立概率模型,把联合特征的表示问题转化成贝叶斯模型的隐层分布推断问题;但是,该种基于主题模型的文章特征抽取检索方法仍然存在的不足之处是:受限于传统主题模型都是浅层模型,仅限于构建不同模态浅层的联系,不能挖掘模态之间更深层的联系,从而影响检索性能。
发明内容
针对上述现有技术存在的不足,本发明的目的在于提出一种基于在线深层主题模型的多模态检索方法,该种基于在线深层主题模型的多模态检索方法利用在线深层主题模型:泊松伽马置信网络,发掘不同模态隐层之间由深到浅的联系,同时得到一个包含多模态信息的联合特征用于检索,并提高检索性能;此外,本发明用到的在线学习算法,使得模型能够更快地收敛。
为达到上述技术目的,本发明采用如下技术方案予以实现。
一种基于在线深层主题模型的多模态检索方法,包括以下步骤:
步骤1,确定J张图像和J个相应的文本为数据集,其中每个相应的文本为对应图像包括的若干个单词;对所述数据集进行预处理后,得到文本矩阵和图像特征矩阵;其中,J为大于1的正整数;
步骤2,建立包括T层的泊松伽马置信网络,并得到文本矩阵的每一层变量权重矩阵;其中,T为大于1的正整数;
步骤3,根据文本矩阵的每一层变量权重矩阵,并基于在线深层主题模型得到图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵;
步骤4,根据图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,以及图像特征矩阵,得到文本矩阵的预测单词矩阵,所述文本矩阵的预测单词矩阵为本发明的一种基于在线深层主题模型的多模态检索结果。
本发明与现有技术相比,具有以下优点:
第一,由于本发明采用初始化共享参数的操作,克服了现有技术中由于深度神经网络的“黑箱”特性,多层受限制玻尔兹曼机的隐层单元局限于二值,表达能力有限,从而基于深度神经网络的多模态技术不能确切描述不同模态特征之间的深层联系的不足,使得采用本发明方法检索时,对不同模态数据间的关联描述更加确切,检索性能更好。
第二,由于本发明采用了对隐变量参数的后验分布的吉布斯采样操作以更新第t层的隐变量参数的操作,克服了现有技术受限于传统主题模型都是浅层模型,仅限于构建不同模态浅层的联系,不能挖掘模态之间更深层联系的不足,使得采用本发明方法有助于提取深层的多模态联合特征表示,提高的隐层表示的检索准确率。
第三,由于本发明采用了在线梯度更新,使得模型能够更快地收敛,有助于高效地实现多模态检索。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1是本发明的一种基于在线深层主题模型的多模态检索方法流程图;
图2是本发明的数据集部分展示图;其中a-h八幅图中的每幅图右边生成7个单词。
具体实施方式
参照图1,为本发明的一种基于在线深层主题模型的多模态检索方法流程图;其中所述基于在线深层主题模型的多模态检索方法,包括以下步骤:
步骤1,获取MIR Flicker 25k数据,所述MIR Flicker 25k数据包括了从社交摄影网站Flickr下载下来的J张图像和对应的完整的人工标注的标签,第j张图像包括Nj个单词,其中j表示J张图像的第j张图像,Nj个单词是第j张图像对应的完整的人工标注的标签;每张图像包括的所有单词组成一个相应的文本,进而得到J张图像和J个相应的文本,将所述J张图像和J个相应的文本记为数据集;接下来就是对所述数据集进行预处理。
首先对J个相应的文本进行预处理,第一步是得到J个相应的文本词汇表:
1a)设定一个Nj×2维矩阵为第j个词汇表,Nj×2维矩阵中第1列分别为第j张图像的Nj个单词,Nj×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数;j的初始值为1,j的最大值为J,Nj表示第j张图像包括的单词总个数,V=1,2,…,J。
1b)令j的值加1,设定第j张图像的Nj个单词中Q个单词在第j-1个词汇表内出现,将第j张图像的Nj个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1,0≤Q≤Nj
然后将Nj-1×2维矩阵增加Nj-Q行后变换为(Nj-1+Nj-Q)×2维矩阵,
(Nj-1+Nj-Q)×2维矩阵中第1列为第j-1张图像的Nj-1个单词和个第j张图像的Nj个单词中的剩余Nj-Q个单词,(Nj-1+Nj-Q)×2维矩阵中第2列为第1列Nj-1+Nj-Q个单词在第j-1张图像和第j张图像中对应出现的次数,所述(Nj-1+Nj-Q)×2维矩阵为第j个词汇表。
1c)重复执行1b),直到得到第J个词汇表,所述第J个词汇表为J个相应的文本词汇表,且设定J个相应的文本词汇表包括Voriginal个单词和对应每个单词出现的次数;然后将j的值初始化为1。
1d)然后对Voriginal个单词按照Voriginal个单词中每个单词出现的次数由高到低进行排序,由于原始有Voriginal个单词的词汇表太过冗长,所以选取排序后出现次数最多的前V个单词作为最终词汇表,所述最终词汇表包括V个单词,其中V<Voriginal
这样就获得了最终的词汇表,这个词汇表就是上述得到的V×2维矩阵的第一列,即V个按照出现次数从高到低排序的单词所组成的列向量。
获得最终词汇表之后,对J个相应的文本中每个文本,统计出现在最终词汇表里的单词次数,保存在一个向量里,向量的每一维上的值表示该文档出现单词的次数。
1e)初始化:确定一个V×2维矩阵,V×2维矩阵中第1列分别为最终词汇表中的V个词汇,V×2维矩阵中第2列用于统计J个相应的文本包括的所有单词在最终词汇表中出现的次数,且V×2维矩阵中第2列初始值分别为0。
1f)设定第j张图像的Nj个单词中有Q'个单词在最终词汇表内出现,然后在V×2维矩阵中第1列相应找到Q'个单词,并将Q'个单词在V×2维矩阵中第2列相应值分别加1,其余V-Q'个单词未在最终词汇表内,V-Q'个单词在V×2维矩阵中第2列相应值仍然为0,将此时得到的V×2维矩阵第2列作为第j个相应的文本V维向量;0≤Q'≤Nj
1g)令j的值分别取1至J,重复执行1f),直到得到第1个相应的文本V维向量至第J个相应的文本V维向量,将所述第1个相应的文本V维向量至第J个相应的文本V维向量记为V×J维文本矩阵Xtext
用尺度不变特征变换(sift)算法提取每幅图像特征,进而得到一个以特征维度Vimg为行数、图像总张数J为列数的图像特征矩阵Ximg,Ximg是Vimg×J维矩阵,J为图像总张数,Vimg为每幅图像特征的维度。
步骤2.初始化在线深层主题模型的超参数和共享参数。
在此之前先简单介绍一下泊松伽马置信网络(PGBN),将置泊松伽马置信网络(PGBN)包括T层;本实施例中T取值为3。
PGBN网络主旨是:对于输入的V×J维文本矩阵Xtext,确定T层全局主题参数矩阵,分别为第一层全局主题参数矩阵Φ(1)、第二层全局主题参数矩阵Φ(2)、…、第t层全局主题参数矩阵Φ(t)、…、第T层全局主题参数矩阵Φ(T),第t层全局主题参数矩阵Φ(t)为Kt-1×Kt维,Kt表示第t层全局主题参数矩阵Φ(t)包括的主题总个数,t=1,2,…,T;其中,当t=1时K0=V。
另外,定义第t层全局主题重构参数矩阵为
Figure BDA0001732576290000051
Figure BDA0001732576290000052
若t取值为1时,
Figure BDA0001732576290000053
Figure BDA0001732576290000054
为V×Kt维;将V×J维文本矩阵Xtext中每一个相应的文本V维向量分别记为一个样本,进而得到J个样本,并将V×J维文本矩阵Xtext中第j个样本记为
Figure BDA00017325762900000514
j=1,2,3...,J。
2.1第t层全局主题重构参数矩阵
Figure BDA0001732576290000055
的第kt列是一个V维向量,记为
Figure BDA0001732576290000056
的第kt列V维向量
Figure BDA0001732576290000057
kt=1,2,3,...,Kt,所述
Figure BDA0001732576290000058
的第kt列V维向量
Figure BDA0001732576290000059
表示第t层全局主题参数矩阵Φ(t)的第kt个主题,之所以称
Figure BDA00017325762900000510
的第kt列V维向量
Figure BDA00017325762900000511
是主题,是因为
Figure BDA00017325762900000512
的第kt列V维向量
Figure BDA00017325762900000513
对应最终词汇表中的V个单词。
Figure BDA0001732576290000061
的第kt列V维向量
Figure BDA0001732576290000062
中第v个元素为
Figure BDA0001732576290000063
Figure BDA0001732576290000064
的第kt列V维向量
Figure BDA0001732576290000065
中每一个元素的值均为一个概率值,概率越大,那么最终词汇表中第v个单词出现的概率越大,且满足
Figure BDA0001732576290000066
v=1,2,3...,V。
2.2将V×J维文本矩阵Xtext中第j个样本
Figure BDA0001732576290000067
表示成:
Figure BDA0001732576290000068
其中,kt=1,2,3,...,Kt
Figure BDA0001732576290000069
表示第t层全局主题重构参数矩阵
Figure BDA00017325762900000610
的第kt个主题,
Figure BDA00017325762900000611
表示第j个样本
Figure BDA00017325762900000612
对应第kt个主题的权重;某个主题对应的权重越大,表示
Figure BDA00017325762900000613
由这个主题构成的比重也就越大;将
Figure BDA00017325762900000614
这Kt个元素合并成一个向量,记为第t层全局主题重构参数矩阵
Figure BDA00017325762900000615
的Kt维向量,将所述第t层全局主题重构参数矩阵
Figure BDA00017325762900000616
的Kt维向量作为第j个样本
Figure BDA00017325762900000617
的第t层变量权重向量
Figure BDA00017325762900000618
令j分别取1至J,进而分别得到第1个样本
Figure BDA00017325762900000619
的第t层变量权重向量
Figure BDA00017325762900000620
至第J个样本
Figure BDA00017325762900000621
的第t层变量权重向量
Figure BDA00017325762900000622
并记为V×J维文本矩阵Xtext的第t层变量权重矩阵θ(t),θ(t)的大小为Kt×J维,然后将j的值初始化为1。
2.3令t分别取1至T,重复执行2.2,进而分别得到V×J维文本矩阵Xtext的第1层变量权重矩阵θ(1)至V×J维文本矩阵Xtext的第T层变量权重矩阵θ(T),然后将V×J维文本矩阵Xtext表示为:
Xtext=Φ(1)×Φ(2)×…×Φ(t)×…×Φ(T)×θ(T)
其中,将Φ(1)×Φ(2)×…×Φ(t)记为第t层全局主题参数矩阵,大小为V×Kt维;进而得到T层全局主题参数矩阵;所述V×J维文本矩阵Xtext包括T层变量权重矩阵和T层全局主题参数矩阵。
在上面的基础上现在考虑输入图像特征矩阵Ximg和V×J维文本矩阵Xtext,对于共享的参数,一律在下标加上share;对于Ximg自己的参数,下标加img;对于Xtext自己的参数,下标加text;按照如下步骤来初始化网络,先初始化超参数:
Figure BDA0001732576290000071
然后初始化共享的参数,
Figure BDA0001732576290000072
Figure BDA0001732576290000073
Figure BDA0001732576290000074
Figure BDA0001732576290000075
Figure BDA0001732576290000076
Figure BDA0001732576290000077
Figure BDA0001732576290000078
其中,令V×J维文本矩阵Xtext和图像特征矩阵Ximg的第t层共享变量权重矩阵为
Figure BDA0001732576290000079
Figure BDA00017325762900000710
的第j列
Figure BDA00017325762900000711
表示V×J维文本矩阵Xtext的第j列文本
Figure BDA00017325762900000712
和图像特征矩阵Ximg的第j列图像
Figure BDA00017325762900000713
的共享权重向量;令V×J维文本矩阵Xtext和图像特征矩阵Ximg的第t层共享全局主题参数矩阵为
Figure BDA00017325762900000714
Figure BDA00017325762900000715
的第kt
Figure BDA00017325762900000716
表示
Figure BDA00017325762900000717
的第kt个主题;~表示服从,Gam表示Gamma分布,Dir表示狄利克雷分布;
Figure BDA00017325762900000718
表示
Figure BDA00017325762900000719
的第kt个主题的先验分布参数,
Figure BDA00017325762900000720
Figure BDA00017325762900000721
表示V×J维文本矩阵Xtext的第j列文本
Figure BDA00017325762900000722
和图像特征矩阵Ximg的第j列图像
Figure BDA00017325762900000723
的第t层共享变量权重矩阵
Figure BDA00017325762900000724
对应的先验分布参数,
Figure BDA0001732576290000081
e0=1,f0=1;令
Figure BDA0001732576290000082
表示V×J维文本矩阵Xtext的第j列文本
Figure BDA0001732576290000083
和图像特征矩阵Ximg的第j列图像
Figure BDA0001732576290000084
的第t层共享变量权重矩阵,令
Figure BDA0001732576290000085
表示第t层全局主题参数矩阵Φ(t)的第kt个共享主题,t=1,2,…,T,kt=1,2,…,Kt
接着,根据V×J维文本矩阵Xtext的第j列文本
Figure BDA0001732576290000086
和图像特征矩阵Ximg的第j列图像
Figure BDA0001732576290000087
的第1层共享隐层
Figure BDA0001732576290000088
分别得到V×J维文本矩阵Xtext的第j列文本
Figure BDA0001732576290000089
的第1层变量权重向量
Figure BDA00017325762900000810
和图像特征矩阵Ximg的第j列文本
Figure BDA00017325762900000811
的第1层变量权重向量
Figure BDA00017325762900000812
Figure BDA00017325762900000813
Figure BDA00017325762900000814
其中,kimg_j表示图像特征矩阵Ximg的第j列图像
Figure BDA00017325762900000815
的尺度参数,ktext_j表示V×J维文本矩阵Xtext中的第j列文本
Figure BDA00017325762900000816
的尺度参数,
Figure BDA00017325762900000817
表示V×J维文本矩阵Xtext的第j列文本
Figure BDA00017325762900000818
和图像特征矩阵Ximg的第j列图像
Figure BDA00017325762900000819
的第1层共享隐层;自适应的尺度参数按如下公式得到:
Figure BDA00017325762900000820
其中,
Figure BDA00017325762900000821
表示图像特征矩阵Ximg的第j列图像
Figure BDA00017325762900000822
的第v'个元素,v'=1,2,…,Vimg
Figure BDA00017325762900000823
表示V×J维文本矩阵Xtext的第j列文本
Figure BDA00017325762900000824
的第v个元素,v=1,2,…,V。
接着,再初始化最后的参数:
Figure BDA00017325762900000825
Figure BDA00017325762900000826
Figure BDA00017325762900000827
Figure BDA00017325762900000828
Figure BDA00017325762900000829
Figure BDA00017325762900000830
其中,令图像特征矩阵Ximg的第1层全局主题参数矩阵为
Figure BDA00017325762900000831
Figure BDA00017325762900000832
的第k1个主题为
Figure BDA0001732576290000091
令V×J维文本矩阵Xtext的第1层全局主题参数矩阵为
Figure BDA0001732576290000092
Figure BDA0001732576290000093
的第k1个主题为
Figure BDA0001732576290000094
t=1,2,…,T,kt=1,2,…,Kt;令
Figure BDA0001732576290000095
表示
Figure BDA0001732576290000096
的第k1个主题
Figure BDA0001732576290000097
的第v'个元素
Figure BDA0001732576290000098
的先验分布参数,
Figure BDA0001732576290000099
v'=1,2,…,Vimg;令
Figure BDA00017325762900000910
表示
Figure BDA00017325762900000911
的第k1个主题
Figure BDA00017325762900000912
的第v个元素
Figure BDA00017325762900000913
的先验分布参数,
Figure BDA00017325762900000914
v=1,2,…,V;
Figure BDA00017325762900000915
表示图像特征矩阵Ximg的第j列图像
Figure BDA00017325762900000916
的第1层变量权重向量,
Figure BDA00017325762900000917
表示V×J维文本矩阵Xtext的第j列文本
Figure BDA00017325762900000918
的第1层变量权重向量,
Figure BDA00017325762900000919
表示V×J维文本矩阵Xtext的第j列文本,
Figure BDA00017325762900000920
表示图像特征矩阵Ximg的第j列图像。
这样就初始化好了所有参数,记为初始化参数集,包括:
Figure BDA00017325762900000921
Figure BDA00017325762900000922
Figure BDA00017325762900000923
Figure BDA00017325762900000924
Figure BDA00017325762900000925
Figure BDA00017325762900000926
Figure BDA00017325762900000927
步骤3.训练在线深层主题模型。
将V×J维文本矩阵Xtext和图像特征矩阵Ximg输入泊松伽玛置信网络,但是为了能够训练,将输入的V×J维文本矩阵Xtext和图像特征矩阵Ximg分别划分L个迷你块,
Figure BDA00017325762900000928
Jm表示每个迷你块包括的文本总个数;将V×J维文本矩阵Xtext的第l'个迷你块记为第l'个文本迷你块
Figure BDA00017325762900000929
将图像特征矩阵Ximg的第l'个迷你块记为第l'个图像特征迷你块
Figure BDA00017325762900000930
l'=1,2,3...,L。
首先定义图像特征矩阵Ximg的第j列图像
Figure BDA00017325762900000931
的第v'个元素
Figure BDA00017325762900000932
的第1层层内增广向量为
Figure BDA00017325762900000933
Figure BDA00017325762900000934
Figure BDA00017325762900000935
表示图像特征矩阵Ximg的第j列图像
Figure BDA0001732576290000101
的第v'个元素
Figure BDA0001732576290000102
的第1层层内增广元素,其服从如下分布:
Figure BDA0001732576290000103
其中,
Figure BDA0001732576290000104
表示
Figure BDA0001732576290000105
的第k1个主题
Figure BDA0001732576290000106
的第v'个元素,
Figure BDA0001732576290000107
表示图像特征矩阵Ximg的第1层全局主题参数矩阵;
Figure BDA0001732576290000108
表示图像特征矩阵Ximg的第j列图像
Figure BDA0001732576290000109
的第1层变量权重向量
Figure BDA00017325762900001010
的第k1个元素,v'=1,2,3,...,Vimg,j=1,2,3,...,J,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数,~表示服从,Mult表示分布。
定义V×J维文本矩阵Xtext的第j列文本
Figure BDA00017325762900001011
的第v个元素
Figure BDA00017325762900001012
的第1层层内增广向量为
Figure BDA00017325762900001013
Figure BDA00017325762900001014
Figure BDA00017325762900001015
表示V×J维文本矩阵Xtext的第j列文本
Figure BDA00017325762900001016
的第v个元素
Figure BDA00017325762900001017
的第1层层内增广元素,其服从如下分布:
Figure BDA00017325762900001018
其中,
Figure BDA00017325762900001019
表示
Figure BDA00017325762900001020
的第k1个主题
Figure BDA00017325762900001021
的第v个元素,
Figure BDA00017325762900001022
表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵,
Figure BDA00017325762900001023
表示V×J维文本矩阵Xtext的第j列文本
Figure BDA00017325762900001024
的第1层变量权重向量
Figure BDA00017325762900001025
的第k1个元素,v=1,2,3,...,V,j=1,2,3,...,J,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数。
定义图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure BDA00017325762900001026
使用第l+1个图像特征迷你块
Figure BDA00017325762900001027
进行第e次更新后的向量为
Figure BDA00017325762900001028
Figure BDA00017325762900001029
Figure BDA00017325762900001030
表示图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure BDA00017325762900001031
的第k1个主题
Figure BDA00017325762900001032
使用第l+1个图像特征迷你块
Figure BDA00017325762900001033
进行第e次更新后的第k1个在线全局主题,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数。
定义V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure BDA00017325762900001034
使用第l+1个文本迷你块
Figure BDA0001732576290000111
进行第e次更新后的向量为
Figure BDA0001732576290000112
Figure BDA0001732576290000113
Figure BDA0001732576290000114
表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure BDA0001732576290000115
的第k1个主题
Figure BDA0001732576290000116
使用第l+1个文本迷你块
Figure BDA0001732576290000117
进行第e次更新后的第k1个在线全局主题,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数。
利用下述过程对图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure BDA0001732576290000118
进行梯度更新:
3.1初始化:令e表示第e次更新,e=1,2,3,...,E,e的初始值为1,E表示设定的总更新次数;令l=1,2,…,L-1,l+1=2,…,L。
3.2计算图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure BDA0001732576290000119
的第k1个主题
Figure BDA00017325762900001110
使用第l+1个图像特征迷你块
Figure BDA00017325762900001111
进行第e次更新后的第k1个在线全局主题
Figure BDA00017325762900001112
和V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure BDA00017325762900001113
的第k1个主题
Figure BDA00017325762900001114
使用第l+1个文本迷你块
Figure BDA00017325762900001115
进行第e次更新后的第k1个在线全局主题
Figure BDA00017325762900001116
其计算公式分别为:
Figure BDA00017325762900001117
Figure BDA00017325762900001118
其中,
Figure BDA00017325762900001119
表示图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure BDA00017325762900001120
的第k1个主题
Figure BDA00017325762900001121
使用第l个图像特征迷你块
Figure BDA00017325762900001122
进行第e次更新后的第k1个在线全局主题,
Figure BDA00017325762900001123
Figure BDA00017325762900001124
表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure BDA00017325762900001125
的第k1个主题
Figure BDA00017325762900001126
使用第l个文本迷你块
Figure BDA00017325762900001127
进行第e次更新后的第k1个在线全局主题,
Figure BDA0001732576290000121
Figure BDA0001732576290000122
ρ=L,εl表示第l次梯度更新后的学习率,εl=0.001;
Figure BDA0001732576290000123
Figure BDA0001732576290000124
Figure BDA0001732576290000125
Figure BDA0001732576290000126
Figure BDA0001732576290000127
v'=1,2,…,Vimg;c表示设定常数,c=0.01;上标T表示转置操作,N表示正态分布,diag表示对角矩阵。
3.3令l的值加1,如果l≥L,则转至3.4;如果l<L,返回3.2。
3.4令e的值加1,如果e≤E,则将l的值初始化为1,返回3.2;如果e>E,则停止更新,并将更新停止时对应得到的图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure BDA0001732576290000128
的第k1个主题
Figure BDA0001732576290000129
使用第L个图像特征迷你块
Figure BDA00017325762900001210
进行第E次更新后的第k1个在线全局主题
Figure BDA00017325762900001211
和V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure BDA00017325762900001212
的第k1个主题
Figure BDA00017325762900001213
使用第L个文本迷你块
Figure BDA00017325762900001214
进行第E次更新后的第k1个在线全局主题
Figure BDA00017325762900001215
分别作为图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure BDA00017325762900001216
的第k1个主题
Figure BDA00017325762900001217
的最优在线全局主题向量
Figure BDA00017325762900001218
以及V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure BDA00017325762900001219
的第k1个主题
Figure BDA00017325762900001220
的最优在线全局主题向量
Figure BDA00017325762900001221
令k1分别取1至K1,进而分别得到图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure BDA00017325762900001222
的第1个主题
Figure BDA00017325762900001223
的最优在线全局主题向量
Figure BDA00017325762900001224
至图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure BDA00017325762900001225
的第K1个主题
Figure BDA00017325762900001226
的最优在线全局主题向量
Figure BDA00017325762900001227
以及V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure BDA0001732576290000131
的第1个主题
Figure BDA0001732576290000132
的最优在线全局主题向量
Figure BDA0001732576290000133
至V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure BDA0001732576290000134
的第K1个主题
Figure BDA0001732576290000135
的最优在线全局主题向量
Figure BDA0001732576290000136
分别记为图像特征矩阵Ximg的第1层最优全局主题参数矩阵
Figure BDA0001732576290000137
和V×J维文本矩阵Xtext的第1层最优全局主题参数矩阵
Figure BDA0001732576290000138
步骤4.多模态检索。
通过输入图像特征矩阵Ximg来检索符合图像的标签。
具体方法为:根据AAAI2018上的论文《Multimodal Poisson Gamma BeliefNetwork》,对于图像特征矩阵Ximg的第j列图像
Figure BDA0001732576290000139
根据V×J维文本矩阵Xtext和图像特征矩阵Ximg的第t层共享变量权重矩阵
Figure BDA00017325762900001310
的第j列
Figure BDA00017325762900001311
得到V×J维文本矩阵Xtext和图像特征矩阵Ximg的第1层共享变量权重矩阵
Figure BDA00017325762900001312
的第j列
Figure BDA00017325762900001313
Figure BDA00017325762900001314
Figure BDA00017325762900001315
Figure BDA00017325762900001316
Figure BDA00017325762900001317
r~Gam(γ0,1/c0),c0=Gam(e0,1/f0),γ0~Gam(a0,1/b0),b0=0.01,a0=0.01;令
Figure BDA00017325762900001318
表示V×J维文本矩阵Xtext的第j列文本
Figure BDA00017325762900001319
和图像特征矩阵Ximg的第j列图像
Figure BDA00017325762900001320
的第t层共享变量权重矩阵
Figure BDA00017325762900001321
对应的先验分布参数,
Figure BDA00017325762900001322
e0=1,f0=1,t=1,2,3,~表示服从,Gam表示Gamma分布,Dir表示狄利克雷分布,
Figure BDA00017325762900001323
表示
Figure BDA00017325762900001324
的第k2个主题的先验分布参数,
Figure BDA00017325762900001325
表示
Figure BDA00017325762900001326
的第k3个主题的先验分布参数,
Figure BDA00017325762900001327
表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第2层共享全局主题参数矩阵,
Figure BDA00017325762900001328
表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第3层共享全局主题参数矩阵;kt=1,2,…,Kt,Kt表示第t层全局主题参数矩阵Φ(t)包括的主题总个数。
计算得到V×J维文本矩阵Xtext的第j列最终文本
Figure BDA00017325762900001329
Figure BDA00017325762900001330
将V×J维文本矩阵Xtext的第j列最终文本
Figure BDA00017325762900001331
中所有元素从大到小排序后选取前s个元素,选取的前s个元素中每个元素对于一个单词,进而得到s个单词,并记为V×J维文本矩阵Xtext的第j列s个预测单词。
令j=1,2,…J,进而分别得到V×J维文本矩阵Xtext的第1列s个预测单词至V×J维文本矩阵Xtext的第J列s个预测单词,记为V×J维文本矩阵Xtext的预测单词矩阵。
所述V×J维文本矩阵Xtext的预测单词矩阵为本发明的一种基于在线深层主题模型的多模态检索结果。
参照图2,为本发明的数据集部分展示图;其中a-h八幅图中的每幅图右边生成7个单词,这7个单词是对对应图的很好描述,单词的个数可以根据需要制定,进而实现检索符合每幅图的标签目的。

Claims (1)

1.一种基于在线深层主题模型的多模态检索方法,其特征在于,包括以下步骤:
步骤1,确定J张图像和J个相应的文本为数据集,其中每个相应的文本为对应图像包括的若干个单词;对所述数据集进行预处理后,得到文本矩阵和图像特征矩阵;其中,J为大于1的正整数;
在步骤1中,所述文本矩阵和图像特征矩阵,其得到过程为:
1a)设定一个Nj×2维矩阵为第j个词汇表,Nj×2维矩阵中第1列分别为第j张图像的Nj个单词,Nj×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数;j的初始值为1,j的最大值为J,Nj表示第j张图像包括的单词总个数,V=1,2,…,J,V表示最终词汇表中的单词的个数;
1b)令j的值加1,设定第j张图像的Nj个单词中Q个单词在第j-1个词汇表内出现,将第j张图像的Nj个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1,0≤Q≤Nj
然后将Nj-1×2维矩阵增加Nj-Q行后变换为(Nj-1+Nj-Q)×2维矩阵,
(Nj-1+Nj-Q)×2维矩阵中第1列为第j-1张图像的Nj-1个单词和个第j张图像的Nj个单词中的剩余Nj-Q个单词,(Nj-1+Nj-Q)×2维矩阵中第2列为第1列Nj-1+Nj-Q个单词在第j-1张图像和第j张图像中对应出现的次数,所述(Nj-1+Nj-Q)×2维矩阵为第j个词汇表;
1c)重复执行1b),直到得到第J个词汇表,所述第J个词汇表为J个相应的文本词汇表,且设定J个相应的文本词汇表包括Voriginal个单词和对应每个单词出现的次数;然后将j的值初始化为1;
1d)然后对Voriginal个单词按照Voriginal个单词中每个单词出现的次数由高到低进行排序,由于原始有Voriginal个单词的词汇表太过冗长,所以选取排序后出现次数最多的前V个单词作为最终词汇表,所述最终词汇表包括V个单词,其中V<Voriginal
1e)初始化:确定一个V×2维矩阵,V×2维矩阵中第1列分别为最终词汇表中的V个词汇,V×2维矩阵中第2列用于统计J个相应的文本包括的所有单词在最终词汇表中出现的次数,且V×2维矩阵中第2列初始值分别为0;
1f)设定第j张图像的Nj个单词中有Q'个单词在最终词汇表内出现,然后在V×2维矩阵中第1列相应找到Q'个单词,并将Q'个单词在V×2维矩阵中第2列相应值分别加1,其余V-Q'个单词未在最终词汇表内,V-Q'个单词在V×2维矩阵中第2列相应值仍然为0,将此时得到的V×2维矩阵第2列作为第j个相应的文本V维向量;0≤Q'≤Nj
1g)令j的值分别取1至J,重复执行1f),直到得到第1个相应的文本V维向量至第J个相应的文本V维向量,将所述第1个相应的文本V维向量至第J个相应的文本V维向量记为V×J维文本矩阵Xtext
用尺度不变特征变换算法提取每幅图像特征,进而得到一个以特征维度Vimg为行数、图像总张数J为列数的图像特征矩阵Ximg,Ximg是Vimg×J维矩阵,J为图像总张数,Vimg为每幅图像特征的维度;
步骤2,建立包括T层的泊松伽马置信网络,并得到文本矩阵的每一层变量权重矩阵;其中,T为大于1的正整数;
在步骤2中,所述文本矩阵的每一层变量权重矩阵,具体为V×J维文本矩阵Xtext的第t层变量权重矩阵θ(t),其得到过程为:
2.1确定T层全局主题参数矩阵,分别为第一层全局主题参数矩阵Φ(1)、第二层全局主题参数矩阵Φ(2)、…、第t层全局主题参数矩阵Φ(t)、…、第T层全局主题参数矩阵Φ(T),第t层全局主题参数矩阵Φ(t)为Kt-1×Kt维,Kt表示第t层全局主题参数矩阵Φ(t)包括的主题总个数,t=1,2,…,T;其中,当t=1时K0=V;
定义第t层全局主题重构参数矩阵为
Figure FDA0003548352210000021
Figure FDA0003548352210000022
若t取值为1时,
Figure FDA0003548352210000023
Figure FDA0003548352210000024
为V×Kt维;将V×J维文本矩阵Xtext中每一个相应的文本V维向量分别记为一个样本,进而得到J个样本,并将V×J维文本矩阵Xtext中第j个样本记为
Figure FDA0003548352210000025
j=1,2,3...,J;
第t层全局主题重构参数矩阵
Figure FDA0003548352210000026
的第kt列是一个V维向量,记为
Figure FDA0003548352210000027
的第kt列V维向量
Figure FDA0003548352210000031
所述
Figure FDA0003548352210000032
的第kt列V维向量
Figure FDA0003548352210000033
表示第t层全局主题参数矩阵Φ(t)的第kt个主题,且
Figure FDA0003548352210000034
的第kt列V维向量
Figure FDA0003548352210000035
对应最终词汇表中的V个单词;
Figure FDA0003548352210000036
的第kt列V维向量
Figure FDA0003548352210000037
中第v个元素为
Figure FDA0003548352210000038
Figure FDA0003548352210000039
的第kt列V维向量
Figure FDA00035483522100000310
中每一个元素的值均为一个概率值,概率越大,那么最终词汇表中第v个单词出现的概率越大,且满足
Figure FDA00035483522100000311
2.2将V×J维文本矩阵Xtext中第j个样本
Figure FDA00035483522100000312
表示成:
Figure FDA00035483522100000313
其中,kt=1,2,3,...,Kt
Figure FDA00035483522100000314
表示第t层全局主题重构参数矩阵
Figure FDA00035483522100000315
的第kt个主题,
Figure FDA00035483522100000316
表示第j个样本
Figure FDA00035483522100000317
对应第kt个主题的权重;将
Figure FDA00035483522100000318
这Kt个元素合并成一个向量,记为第t层全局主题重构参数矩阵
Figure FDA00035483522100000319
的Kt维向量,将所述第t层全局主题重构参数矩阵
Figure FDA00035483522100000320
的Kt维向量作为第j个样本
Figure FDA00035483522100000321
的第t层变量权重向量
Figure FDA00035483522100000322
令j分别取1至J,进而分别得到第1个样本
Figure FDA00035483522100000323
的第t层变量权重向量
Figure FDA00035483522100000324
至第J个样本
Figure FDA00035483522100000325
的第t层变量权重向量
Figure FDA00035483522100000326
并记为V×J维文本矩阵Xtext的第t层变量权重矩阵θ(t),θ(t)的大小为Kt×J维,然后将j的值初始化为1;
步骤3,根据文本矩阵的每一层变量权重矩阵,并基于在线深层主题模型得到图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵;
在步骤3中,所述图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,具体为图像特征矩阵Ximg的第1层最优全局主题参数矩阵
Figure FDA00035483522100000327
和V×J维文本矩阵Xtext的第1层最优全局主题参数矩阵
Figure FDA00035483522100000328
其得到过程为:
3.1将V×J维文本矩阵Xtext和图像特征矩阵Ximg分别划分L个迷你块,
Figure FDA00035483522100000329
Jm表示每个迷你块包括的文本总个数;将V×J维文本矩阵Xtext的第l'个迷你块记为第l'个文本迷你块
Figure FDA00035483522100000330
将图像特征矩阵Ximg的第l'个迷你块记为第l'个图像特征迷你块
Figure FDA00035483522100000331
l'=1,2,3...,L;
定义图像特征矩阵Ximg的第j列图像
Figure FDA0003548352210000041
的第v'个元素
Figure FDA0003548352210000042
的第1层层内增广向量为
Figure FDA0003548352210000043
Figure FDA0003548352210000044
Figure FDA0003548352210000045
表示图像特征矩阵Ximg的第j列图像
Figure FDA0003548352210000046
的第v'个元素
Figure FDA0003548352210000047
的第1层层内增广元素,其服从如下分布:
Figure FDA0003548352210000048
其中,
Figure FDA0003548352210000049
表示
Figure FDA00035483522100000410
的第k1个主题
Figure FDA00035483522100000411
的第v'个元素,
Figure FDA00035483522100000412
表示图像特征矩阵Ximg的第1层全局主题参数矩阵;
Figure FDA00035483522100000413
表示图像特征矩阵Ximg的第j列图像
Figure FDA00035483522100000414
的第1层变量权重向量
Figure FDA00035483522100000415
的第k1个元素,v'=1,2,3,...,Vimg,j=1,2,3,...,J,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;~表示服从,Mult表示分布;
定义V×J维文本矩阵Xtext的第j列文本
Figure FDA00035483522100000416
的第v个元素
Figure FDA00035483522100000417
的第1层层内增广向量为
Figure FDA00035483522100000418
Figure FDA00035483522100000419
Figure FDA00035483522100000420
表示V×J维文本矩阵Xtext的第j列文本
Figure FDA00035483522100000421
的第v个元素
Figure FDA00035483522100000422
的第1层层内增广元素,其服从如下分布:
Figure FDA00035483522100000423
其中,
Figure FDA00035483522100000424
表示
Figure FDA00035483522100000425
的第k1个主题
Figure FDA00035483522100000426
的第v个元素,
Figure FDA00035483522100000427
表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵,
Figure FDA00035483522100000428
表示V×J维文本矩阵Xtext的第j列文本
Figure FDA00035483522100000429
的第1层变量权重向量
Figure FDA00035483522100000430
的第k1个元素,v=1,2,3,...,V,j=1,2,3,...,J,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;
定义图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure FDA00035483522100000431
使用第l+1个图像特征迷你块
Figure FDA00035483522100000432
进行第e次更新后的向量为
Figure FDA00035483522100000433
Figure FDA00035483522100000434
Figure FDA00035483522100000435
表示图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure FDA00035483522100000436
的第k1个主题
Figure FDA00035483522100000437
使用第l+1个图像特征迷你块
Figure FDA0003548352210000051
进行第e次更新后的第k1个在线全局主题,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;
定义V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure FDA0003548352210000052
使用第l+1个文本迷你块
Figure FDA0003548352210000053
进行第e次更新后的向量为
Figure FDA0003548352210000054
Figure FDA0003548352210000055
Figure FDA0003548352210000056
表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure FDA0003548352210000057
的第k1个主题
Figure FDA0003548352210000058
使用第l+1个文本迷你块
Figure FDA0003548352210000059
进行第e次更新后的第k1个在线全局主题,k1=1,2,…,K1,K1表示第1层全局主题参数矩阵Φ(1)包括的主题总个数;
初始化:令e表示第e次更新,e=1,2,3,...,E,e的初始值为1,E表示设定的总更新次数;令l=1,2,…,L-1,l+1=2,…,L;
3.2计算图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure FDA00035483522100000510
的第k1个主题
Figure FDA00035483522100000511
使用第l+1个图像特征迷你块
Figure FDA00035483522100000512
进行第e次更新后的第k1个在线全局主题
Figure FDA00035483522100000513
和V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure FDA00035483522100000514
的第k1个主题
Figure FDA00035483522100000515
使用第l+1个文本迷你块
Figure FDA00035483522100000516
进行第e次更新后的第k1个在线全局主题
Figure FDA00035483522100000517
其计算公式分别为:
Figure FDA00035483522100000518
Figure FDA00035483522100000519
其中,
Figure FDA00035483522100000520
表示图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure FDA00035483522100000521
的第k1个主题
Figure FDA00035483522100000522
使用第l个图像特征迷你块
Figure FDA00035483522100000523
进行第e次更新后的第k1个在线全局主题,
Figure FDA00035483522100000524
Figure FDA00035483522100000525
表示图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure FDA00035483522100000526
的第k1个主题,
Figure FDA0003548352210000061
表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure FDA0003548352210000062
的第k1个主题
Figure FDA0003548352210000063
使用第l个文本迷你块
Figure FDA0003548352210000064
进行第e次更新后的第k1个在线全局主题,
Figure FDA0003548352210000065
Figure FDA0003548352210000066
表示V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure FDA0003548352210000067
的第k1个主题,
Figure FDA0003548352210000068
Figure FDA0003548352210000069
ρ=L,εl表示第l次梯度更新后的学习率,
Figure FDA00035483522100000610
Figure FDA00035483522100000611
Figure FDA00035483522100000612
Figure FDA00035483522100000613
Figure FDA00035483522100000614
v'=1,2,…,Vimg;c表示设定常数,上标T表示转置操作,N表示正态分布,diag表示对角矩阵;
3.3令l的值加1,如果l≥L,则转至3.4;如果l<L,返回3.2;
3.4令e的值加1,如果e≤E,则将l的值初始化为1,返回3.2;如果e>E,则停止更新,并将更新停止时对应得到的图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure FDA00035483522100000615
的第k1个主题
Figure FDA00035483522100000616
使用第L个图像特征迷你块
Figure FDA00035483522100000617
进行第E次更新后的第k1个在线全局主题
Figure FDA00035483522100000618
和V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure FDA00035483522100000619
的第k1个主题
Figure FDA00035483522100000620
使用第L个文本迷你块
Figure FDA00035483522100000621
进行第E次更新后的第k1个在线全局主题
Figure FDA00035483522100000622
分别作为图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure FDA00035483522100000623
的第k1个主题
Figure FDA00035483522100000624
的最优在线全局主题向量
Figure FDA00035483522100000625
以及V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure FDA00035483522100000626
的第k1个主题
Figure FDA00035483522100000627
的最优在线全局主题向量
Figure FDA00035483522100000628
令k1分别取1至K1,进而分别得到图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure FDA0003548352210000071
的第1个主题
Figure FDA0003548352210000072
的最优在线全局主题向量
Figure FDA0003548352210000073
至图像特征矩阵Ximg的第1层全局主题参数矩阵
Figure FDA0003548352210000074
的第K1个主题
Figure FDA0003548352210000075
的最优在线全局主题向量
Figure FDA0003548352210000076
以及V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure FDA0003548352210000077
的第1个主题
Figure FDA0003548352210000078
的最优在线全局主题向量
Figure FDA0003548352210000079
至V×J维文本矩阵Xtext的第1层全局主题参数矩阵
Figure FDA00035483522100000710
的第K1个主题
Figure FDA00035483522100000711
的最优在线全局主题向量
Figure FDA00035483522100000712
分别记为图像特征矩阵Ximg的第1层最优全局主题参数矩阵
Figure FDA00035483522100000713
和V×J维文本矩阵Xtext的第1层最优全局主题参数矩阵
Figure FDA00035483522100000714
步骤4,根据图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,以及图像特征矩阵,得到文本矩阵的预测单词矩阵,所述文本矩阵的预测单词矩阵为本方法 的一种基于在线深层主题模型的多模态检索结果;
在步骤4中,所述文本矩阵的预测单词矩阵,具体为V×J维文本矩阵Xtext的预测单词矩阵,其得到过程为:
计算得到V×J维文本矩阵Xtext的第j列最终文本
Figure FDA00035483522100000715
Figure FDA00035483522100000716
Figure FDA00035483522100000717
表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第1层共享变量权重矩阵
Figure FDA00035483522100000718
的第j列,
Figure FDA00035483522100000719
Figure FDA00035483522100000720
Figure FDA00035483522100000721
Figure FDA00035483522100000722
r~Gam(γ0,1/c0),c0=Gam(e0,1/f0),γ0~Gam(a0,1/b0),b0=0.01,a0=0.01;令
Figure FDA00035483522100000723
表示V×J维文本矩阵Xtext的第j列文本
Figure FDA00035483522100000724
和图像特征矩阵Ximg的第j列图像
Figure FDA00035483522100000725
的第t层共享变量权重矩阵
Figure FDA00035483522100000726
对应的先验分布参数,
Figure FDA00035483522100000727
e0=1,f0=1,t=1,2,3,~表示服从,Gam表示Gamma分布,Dir表示狄利克雷分布,
Figure FDA00035483522100000728
表示
Figure FDA00035483522100000729
的第k2个主题的先验分布参数,
Figure FDA00035483522100000730
表示
Figure FDA00035483522100000731
的第k3个主题的先验分布参数,
Figure FDA00035483522100000732
表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第2层共享全局主题参数矩阵,
Figure FDA00035483522100000733
表示V×J维文本矩阵Xtext和图像特征矩阵Ximg的第3层共享全局主题参数矩阵;kt=1,2,…,Kt,Kt表示第t层全局主题参数矩阵Φ(t)包括的主题总个数;
将V×J维文本矩阵Xtext的第j列最终文本
Figure FDA0003548352210000081
中所有元素从大到小排序后选取前s个元素,选取的前s个元素中每个元素对于一个单词,进而得到s个单词,并记为V×J维文本矩阵Xtext的第j列s个预测单词;
令j=1,2,…J,进而分别得到V×J维文本矩阵Xtext的第1列s个预测单词至V×J维文本矩阵Xtext的第J列s个预测单词,记为V×J维文本矩阵Xtext的预测单词矩阵。
CN201810781063.3A 2018-07-17 2018-07-17 基于在线深层主题模型的多模态检索方法 Active CN109033304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810781063.3A CN109033304B (zh) 2018-07-17 2018-07-17 基于在线深层主题模型的多模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810781063.3A CN109033304B (zh) 2018-07-17 2018-07-17 基于在线深层主题模型的多模态检索方法

Publications (2)

Publication Number Publication Date
CN109033304A CN109033304A (zh) 2018-12-18
CN109033304B true CN109033304B (zh) 2022-05-03

Family

ID=64643310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810781063.3A Active CN109033304B (zh) 2018-07-17 2018-07-17 基于在线深层主题模型的多模态检索方法

Country Status (1)

Country Link
CN (1) CN109033304B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766481B (zh) * 2019-01-11 2021-06-08 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN110222222B (zh) * 2019-06-18 2022-12-27 西安电子科技大学 基于深层主题自编码模型的多模态检索方法
CN115936008B (zh) * 2022-12-23 2023-10-31 中国电子产业工程有限公司 一种文本建模模型的训练方法、文本建模方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107609055A (zh) * 2017-08-25 2018-01-19 西安电子科技大学 基于深层主题模型的文本图像多模态检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107609055A (zh) * 2017-08-25 2018-01-19 西安电子科技大学 基于深层主题模型的文本图像多模态检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"SAR image target recognition via deep Bayesian generative network";D. Guo and B. Chen;《2017 International Workshop on Remote Sensing with Intelligent Processing (RSIP)》;20171231;1-4 *
"Image retrieval based on the texton co-occurrence matrix";Guang-HaiLiu 等;《Pattern Recognition》;20081130;第41卷(第12期);3521-3527 *
"场景图像内容表述和分类研究";江悦;《中国博士学位论文全文数据库(信息科技辑)》;20110815(第08期);I138-26 *

Also Published As

Publication number Publication date
CN109033304A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN111368896B (zh) 基于密集残差三维卷积神经网络的高光谱遥感图像分类方法
WO2021164772A1 (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN107679580B (zh) 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN106650789B (zh) 一种基于深度lstm网络的图像描述生成方法
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN106650813B (zh) 一种基于深度残差网络和lstm的图像理解方法
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
Zheng et al. Topic modeling of multimodal data: an autoregressive approach
Chen et al. Big data deep learning: challenges and perspectives
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN107832458B (zh) 一种字符级的基于嵌套深度网络的文本分类方法
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
CN110750665A (zh) 基于熵最小化的开集域适应方法及***
Ji et al. Unsupervised few-shot feature learning via self-supervised training
CN108960317B (zh) 基于词向量表示和分类器联合训练的跨语言文本分类方法
Wan et al. A hybrid neural network-latent topic model
CN109033304B (zh) 基于在线深层主题模型的多模态检索方法
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN110717330A (zh) 基于深度学习的词句级短文本分类方法
CN104700100A (zh) 面向高空间分辨率遥感大数据的特征提取方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN108549718A (zh) 一种通用主题嵌入模型联合训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant