CN109033304B

CN109033304B - 基于在线深层主题模型的多模态检索方法

Info

Publication number: CN109033304B
Application number: CN201810781063.3A
Authority: CN
Inventors: 陈渤; 肖肃诚; 王超杰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2022-05-03
Anticipated expiration: 2038-07-17
Also published as: CN109033304A

Abstract

本发明公开了一种基于在线深层主题模型的多模态检索方法，属于图像处理技术领域，其思路为：确定J张图像和J个相应的文本为数据集，其中每个相应的文本为对应图像包括的若干个单词；对数据集进行预处理后，得到文本矩阵和图像特征矩阵；建立包括T层的泊松伽马置信网络，并得到文本矩阵的每一层变量权重矩阵；根据文本矩阵的每一层变量权重矩阵，并基于在线深层主题模型得到图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵；根据图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵，以及图像特征矩阵，得到文本矩阵的预测单词矩阵后作为本发明的一种基于在线深层主题模型的多模态检索结果。

Description

基于在线深层主题模型的多模态检索方法

技术领域

本发明属于图像处理技术领域，特别涉及一种基于在线深层主题模型的多模态检索方法，适用于快速挖掘图像-文本两种不同模态的深层联系、提取联合特征，并利用所提取的联合特征对文本-图像进行检索。

背景技术

多模态检索技术是利用联合学习不同模态特征，并挖掘不同模态特征之间的联系，得到包含多模态信息的联合特征，做到不同模态数据之间相互生成；在线深层主题模型ONLINE-PGBN(泊松伽马置信网络)是一种基于贝叶斯框架的在线深层主题模型，ONLINE-PGBN模型拥有多层网络结构，能够快速提取出数据的多层特征，在文本处理上优于传统主题模型；ONLINE-PGBN模型不仅可以应用于文本处理，还可以应用于图像处理。

多模态学习技术是指，联合学习不同模态特征，挖掘不同模态特征之间的联系，得到包含多模态信息的联合特征，做到不同模态数据之间相互生成；基于泊松伽马置信网络的文本-图像多模态学习方法的主要思想为：利用泊松伽马置信网络发掘不同模态隐层之间由深到浅的联系，同时得到一个包含多模态信息的联合特征表示用于检索。

K Sohn，W Shang，H Lee等人在其发表的论文“Improved multimodal deeplearning with variation of information”(International Conference on NeuralInformation Processing Systems,2014:2141-2149)中提出了一种基于深度神经网络的多模态检索方法，该种基于深度神经网络的多模态检索方法首先构建了多个基于不同模态特征的受限制玻尔兹曼机深度神经网络，受限制玻尔兹曼机网络层内无连接，在初始化网络参数后训练下一层网络，这就形成了一个两层结构的受限制玻尔兹曼机，将一个受限制玻尔兹曼机的输出单元作为另一个受限制玻尔兹曼机的输入单元，就形成了多层深度网络。

该种基于深度神经网络的多模态检索方法引入了基于对比散度和多预测训练的学习方法，向深层网络反复编码结构调整整个网络，然后共享这些特定模态网络的最高层，通过联合学习的方法训练整个神经网络并把共享的隐层(最高层)作为联合特征表示；该种基于深度神经网络的多模态检索方法虽然能够挖掘的不同模态特征之间的联系，但该种基于深度神经网络的多模态检索方法仍然存在的不足之处是：由于深度神经网络的“黑箱”特性，多层受限制玻尔兹曼机的隐层单元局限于二值，表达能力有限，从而基于深度神经网络的多模态技术不能确切描述不同模态特征之间的深层联系；同时，受限制玻尔兹曼机隐层与观测数据之间存在非线性映射，很难将隐层与观测之间的关系可视化。

上海交通大学在其申请的专利文献“基于主题模型的文章特征抽取方法”(专利申请号：201511016955.7，公开号：CN 105631018A)中提出了一种基于主题模型的文章特征抽取检索方法，该种基于主题模型的文章特征抽取检索方法基于原始语料库构建文章的引用关系网络，构建主题模型的生成模型和参数联合表达式，根据所述生成模型构建主题模型的推断过程，对新语料库采样文章，根据采样文章的采样结果提取文章参数。

该种基于主题模型的文章特征抽取检索方法虽然能够直接对多模态的输入建立概率模型，把联合特征的表示问题转化成贝叶斯模型的隐层分布推断问题；但是，该种基于主题模型的文章特征抽取检索方法仍然存在的不足之处是：受限于传统主题模型都是浅层模型，仅限于构建不同模态浅层的联系，不能挖掘模态之间更深层的联系，从而影响检索性能。

发明内容

针对上述现有技术存在的不足，本发明的目的在于提出一种基于在线深层主题模型的多模态检索方法，该种基于在线深层主题模型的多模态检索方法利用在线深层主题模型：泊松伽马置信网络，发掘不同模态隐层之间由深到浅的联系，同时得到一个包含多模态信息的联合特征用于检索，并提高检索性能；此外，本发明用到的在线学习算法，使得模型能够更快地收敛。

为达到上述技术目的，本发明采用如下技术方案予以实现。

一种基于在线深层主题模型的多模态检索方法，包括以下步骤：

步骤1，确定J张图像和J个相应的文本为数据集，其中每个相应的文本为对应图像包括的若干个单词；对所述数据集进行预处理后，得到文本矩阵和图像特征矩阵；其中，J为大于1的正整数；

步骤2，建立包括T层的泊松伽马置信网络，并得到文本矩阵的每一层变量权重矩阵；其中，T为大于1的正整数；

步骤3，根据文本矩阵的每一层变量权重矩阵，并基于在线深层主题模型得到图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵；

步骤4，根据图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵，以及图像特征矩阵，得到文本矩阵的预测单词矩阵，所述文本矩阵的预测单词矩阵为本发明的一种基于在线深层主题模型的多模态检索结果。

本发明与现有技术相比，具有以下优点：

第一，由于本发明采用初始化共享参数的操作，克服了现有技术中由于深度神经网络的“黑箱”特性，多层受限制玻尔兹曼机的隐层单元局限于二值，表达能力有限，从而基于深度神经网络的多模态技术不能确切描述不同模态特征之间的深层联系的不足，使得采用本发明方法检索时，对不同模态数据间的关联描述更加确切，检索性能更好。

第二，由于本发明采用了对隐变量参数的后验分布的吉布斯采样操作以更新第t层的隐变量参数的操作，克服了现有技术受限于传统主题模型都是浅层模型，仅限于构建不同模态浅层的联系，不能挖掘模态之间更深层联系的不足，使得采用本发明方法有助于提取深层的多模态联合特征表示，提高的隐层表示的检索准确率。

第三，由于本发明采用了在线梯度更新，使得模型能够更快地收敛，有助于高效地实现多模态检索。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1是本发明的一种基于在线深层主题模型的多模态检索方法流程图；

图2是本发明的数据集部分展示图；其中a-h八幅图中的每幅图右边生成7个单词。

具体实施方式

参照图1，为本发明的一种基于在线深层主题模型的多模态检索方法流程图；其中所述基于在线深层主题模型的多模态检索方法，包括以下步骤：

步骤1，获取MIR Flicker 25k数据，所述MIR Flicker 25k数据包括了从社交摄影网站Flickr下载下来的J张图像和对应的完整的人工标注的标签，第j张图像包括N_j个单词，其中j表示J张图像的第j张图像，N_j个单词是第j张图像对应的完整的人工标注的标签；每张图像包括的所有单词组成一个相应的文本，进而得到J张图像和J个相应的文本，将所述J张图像和J个相应的文本记为数据集；接下来就是对所述数据集进行预处理。

首先对J个相应的文本进行预处理，第一步是得到J个相应的文本词汇表：

1a)设定一个N_j×2维矩阵为第j个词汇表，N_j×2维矩阵中第1列分别为第j张图像的N_j个单词，N_j×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数；j的初始值为1，j的最大值为J，N_j表示第j张图像包括的单词总个数，V＝1,2,…,J。

1b)令j的值加1，设定第j张图像的N_j个单词中Q个单词在第j-1个词汇表内出现，将第j张图像的N_j个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1，0≤Q≤N_j。

然后将N_j-1×2维矩阵增加N_j-Q行后变换为(N_j-1+N_j-Q)×2维矩阵，

(N_j-1+N_j-Q)×2维矩阵中第1列为第j-1张图像的N_j-1个单词和个第j张图像的N_j个单词中的剩余N_j-Q个单词，(N_j-1+N_j-Q)×2维矩阵中第2列为第1列N_j-1+N_j-Q个单词在第j-1张图像和第j张图像中对应出现的次数，所述(N_j-1+N_j-Q)×2维矩阵为第j个词汇表。

1c)重复执行1b)，直到得到第J个词汇表，所述第J个词汇表为J个相应的文本词汇表，且设定J个相应的文本词汇表包括V_original个单词和对应每个单词出现的次数；然后将j的值初始化为1。

1d)然后对V_original个单词按照V_original个单词中每个单词出现的次数由高到低进行排序，由于原始有V_original个单词的词汇表太过冗长，所以选取排序后出现次数最多的前V个单词作为最终词汇表，所述最终词汇表包括V个单词，其中V<V_original。

这样就获得了最终的词汇表，这个词汇表就是上述得到的V×2维矩阵的第一列，即V个按照出现次数从高到低排序的单词所组成的列向量。

获得最终词汇表之后，对J个相应的文本中每个文本，统计出现在最终词汇表里的单词次数，保存在一个向量里，向量的每一维上的值表示该文档出现单词的次数。

1e)初始化：确定一个V×2维矩阵，V×2维矩阵中第1列分别为最终词汇表中的V个词汇，V×2维矩阵中第2列用于统计J个相应的文本包括的所有单词在最终词汇表中出现的次数，且V×2维矩阵中第2列初始值分别为0。

1f)设定第j张图像的N_j个单词中有Q'个单词在最终词汇表内出现，然后在V×2维矩阵中第1列相应找到Q'个单词，并将Q'个单词在V×2维矩阵中第2列相应值分别加1，其余V-Q'个单词未在最终词汇表内，V-Q'个单词在V×2维矩阵中第2列相应值仍然为0，将此时得到的V×2维矩阵第2列作为第j个相应的文本V维向量；0≤Q'≤N_j。

1g)令j的值分别取1至J，重复执行1f)，直到得到第1个相应的文本V维向量至第J个相应的文本V维向量，将所述第1个相应的文本V维向量至第J个相应的文本V维向量记为V×J维文本矩阵X_text。

用尺度不变特征变换(sift)算法提取每幅图像特征，进而得到一个以特征维度V_img为行数、图像总张数J为列数的图像特征矩阵X_img，X_img是V_img×J维矩阵，J为图像总张数，V_img为每幅图像特征的维度。

步骤2.初始化在线深层主题模型的超参数和共享参数。

在此之前先简单介绍一下泊松伽马置信网络(PGBN)，将置泊松伽马置信网络(PGBN)包括T层；本实施例中T取值为3。

PGBN网络主旨是：对于输入的V×J维文本矩阵X_text，确定T层全局主题参数矩阵，分别为第一层全局主题参数矩阵Φ⁽¹⁾、第二层全局主题参数矩阵Φ⁽²⁾、…、第t层全局主题参数矩阵Φ^(t)、…、第T层全局主题参数矩阵Φ^(T)，第t层全局主题参数矩阵Φ^(t)为K_t-1×K_t维，K_t表示第t层全局主题参数矩阵Φ^(t)包括的主题总个数，t＝1,2,…,T；其中，当t＝1时K₀＝V。

另外，定义第t层全局主题重构参数矩阵为

若t取值为1时，

且

为V×K_t维；将V×J维文本矩阵X_text中每一个相应的文本V维向量分别记为一个样本，进而得到J个样本，并将V×J维文本矩阵X_text中第j个样本记为

j＝1,2,3...,J。

2.1第t层全局主题重构参数矩阵

的第k_t列是一个V维向量，记为

的第k_t列V维向量

k_t＝1,2,3,...,K_t，所述

的第k_t列V维向量

表示第t层全局主题参数矩阵Φ^(t)的第k_t个主题，之所以称

的第k_t列V维向量

是主题，是因为

的第k_t列V维向量

对应最终词汇表中的V个单词。

的第k_t列V维向量

中第v个元素为

的第k_t列V维向量

中每一个元素的值均为一个概率值，概率越大，那么最终词汇表中第v个单词出现的概率越大，且满足

v＝1,2,3...,V。

2.2将V×J维文本矩阵X_text中第j个样本

表示成：

其中，k_t＝1,2,3,...,K_t，

表示第t层全局主题重构参数矩阵

的第k_t个主题，

表示第j个样本

对应第k_t个主题的权重；某个主题对应的权重越大，表示

由这个主题构成的比重也就越大；将

这K_t个元素合并成一个向量，记为第t层全局主题重构参数矩阵

的K_t维向量，将所述第t层全局主题重构参数矩阵

的K_t维向量作为第j个样本

的第t层变量权重向量

令j分别取1至J，进而分别得到第1个样本

的第t层变量权重向量

至第J个样本

的第t层变量权重向量

并记为V×J维文本矩阵X_text的第t层变量权重矩阵θ^(t)，θ^(t)的大小为K_t×J维，然后将j的值初始化为1。

2.3令t分别取1至T，重复执行2.2，进而分别得到V×J维文本矩阵X_text的第1层变量权重矩阵θ⁽¹⁾至V×J维文本矩阵X_text的第T层变量权重矩阵θ^(T)，然后将V×J维文本矩阵X_text表示为：

X_text＝Φ⁽¹⁾×Φ⁽²⁾×…×Φ^(t)×…×Φ^(T)×θ^(T)

其中，将Φ⁽¹⁾×Φ⁽²⁾×…×Φ^(t)记为第t层全局主题参数矩阵，大小为V×K_t维；进而得到T层全局主题参数矩阵；所述V×J维文本矩阵X_text包括T层变量权重矩阵和T层全局主题参数矩阵。

在上面的基础上现在考虑输入图像特征矩阵X_img和V×J维文本矩阵X_text，对于共享的参数，一律在下标加上share；对于X_img自己的参数，下标加img；对于X_text自己的参数，下标加text；按照如下步骤来初始化网络，先初始化超参数：

然后初始化共享的参数，

其中，令V×J维文本矩阵X_text和图像特征矩阵X_img的第t层共享变量权重矩阵为

的第j列

表示V×J维文本矩阵X_text的第j列文本

和图像特征矩阵X_img的第j列图像

的共享权重向量；令V×J维文本矩阵X_text和图像特征矩阵X_img的第t层共享全局主题参数矩阵为

的第k_t列

表示

的第k_t个主题；～表示服从，Gam表示Gamma分布，Dir表示狄利克雷分布；

表示

的第k_t个主题的先验分布参数，

令

表示V×J维文本矩阵X_text的第j列文本

和图像特征矩阵X_img的第j列图像

的第t层共享变量权重矩阵

对应的先验分布参数，

e₀＝1,f₀＝1；令

表示V×J维文本矩阵X_text的第j列文本

和图像特征矩阵X_img的第j列图像

的第t层共享变量权重矩阵，令

表示第t层全局主题参数矩阵Φ^(t)的第k_t个共享主题，t＝1,2,…,T，k_t＝1,2,…,K_t。

接着，根据V×J维文本矩阵X_text的第j列文本

和图像特征矩阵X_img的第j列图像

的第1层共享隐层

分别得到V×J维文本矩阵X_text的第j列文本

的第1层变量权重向量

和图像特征矩阵X_img的第j列文本

的第1层变量权重向量

其中，k_{img_j}表示图像特征矩阵X_img的第j列图像

的尺度参数，k_{text_j}表示V×J维文本矩阵X_text中的第j列文本

的尺度参数，

表示V×J维文本矩阵X_text的第j列文本

和图像特征矩阵X_img的第j列图像

的第1层共享隐层；自适应的尺度参数按如下公式得到：

其中，

表示图像特征矩阵X_img的第j列图像

的第v'个元素，v'＝1,2,…,V_img；

表示V×J维文本矩阵X_text的第j列文本

的第v个元素，v＝1,2,…,V。

接着，再初始化最后的参数：

其中，令图像特征矩阵X_img的第1层全局主题参数矩阵为

的第k₁个主题为

令V×J维文本矩阵X_text的第1层全局主题参数矩阵为

的第k₁个主题为

t＝1,2,…,T，k_t＝1,2,…,K_t；令

表示

的第k₁个主题

的第v'个元素

的先验分布参数，

v'＝1,2,…,V_img；令

表示

的第k₁个主题

的第v个元素

的先验分布参数，

v＝1,2,…,V；

表示图像特征矩阵X_img的第j列图像

的第1层变量权重向量，

表示V×J维文本矩阵X_text的第j列文本

的第1层变量权重向量，

表示V×J维文本矩阵X_text的第j列文本，

表示图像特征矩阵X_img的第j列图像。

这样就初始化好了所有参数，记为初始化参数集，包括：

步骤3.训练在线深层主题模型。

将V×J维文本矩阵X_text和图像特征矩阵X_img输入泊松伽玛置信网络，但是为了能够训练，将输入的V×J维文本矩阵X_text和图像特征矩阵X_img分别划分L个迷你块，

J_m表示每个迷你块包括的文本总个数；将V×J维文本矩阵X_text的第l'个迷你块记为第l'个文本迷你块

将图像特征矩阵X_img的第l'个迷你块记为第l'个图像特征迷你块

l'＝1,2,3...,L。

首先定义图像特征矩阵X_img的第j列图像

的第v'个元素

的第1层层内增广向量为

表示图像特征矩阵X_img的第j列图像

的第v'个元素

的第1层层内增广元素，其服从如下分布：

其中，

表示

的第k₁个主题

的第v'个元素，

表示图像特征矩阵X_img的第1层全局主题参数矩阵；

表示图像特征矩阵X_img的第j列图像

的第1层变量权重向量

的第k₁个元素，v'＝1,2,3,...,V_img,j＝1,2,3,...,J，k₁＝1,2,…,K₁，K₁表示第1层全局主题参数矩阵Φ⁽¹⁾包括的主题总个数，～表示服从，Mult表示分布。

定义V×J维文本矩阵X_text的第j列文本

的第v个元素

的第1层层内增广向量为

表示V×J维文本矩阵X_text的第j列文本

的第v个元素

的第1层层内增广元素，其服从如下分布：

其中，

表示

的第k₁个主题

的第v个元素，

表示V×J维文本矩阵X_text的第1层全局主题参数矩阵，

表示V×J维文本矩阵X_text的第j列文本

的第1层变量权重向量

的第k₁个元素，v＝1,2,3,...,V,j＝1,2,3,...,J，k₁＝1,2,…,K₁，K₁表示第1层全局主题参数矩阵Φ⁽¹⁾包括的主题总个数。

定义图像特征矩阵X_img的第1层全局主题参数矩阵

使用第l+1个图像特征迷你块

进行第e次更新后的向量为

表示图像特征矩阵X_img的第1层全局主题参数矩阵

的第k₁个主题

使用第l+1个图像特征迷你块

进行第e次更新后的第k₁个在线全局主题，k₁＝1,2,…,K₁，K₁表示第1层全局主题参数矩阵Φ⁽¹⁾包括的主题总个数。

定义V×J维文本矩阵X_text的第1层全局主题参数矩阵

使用第l+1个文本迷你块

进行第e次更新后的向量为

表示V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第k₁个主题

使用第l+1个文本迷你块

利用下述过程对图像特征矩阵X_img的第1层全局主题参数矩阵

进行梯度更新：

3.1初始化：令e表示第e次更新，e＝1,2,3,...,E，e的初始值为1，E表示设定的总更新次数；令l＝1,2,…,L-1，l+1＝2,…,L。

3.2计算图像特征矩阵X_img的第1层全局主题参数矩阵

的第k₁个主题

使用第l+1个图像特征迷你块

进行第e次更新后的第k₁个在线全局主题

和V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第k₁个主题

使用第l+1个文本迷你块

进行第e次更新后的第k₁个在线全局主题

其计算公式分别为：

其中，

表示图像特征矩阵X_img的第1层全局主题参数矩阵

的第k₁个主题

使用第l个图像特征迷你块

进行第e次更新后的第k₁个在线全局主题，

表示V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第k₁个主题

使用第l个文本迷你块

进行第e次更新后的第k₁个在线全局主题，

ρ＝L，ε_l表示第l次梯度更新后的学习率，ε_l＝0.001；

v'＝1,2,…,V_img；c表示设定常数，c＝0.01；上标T表示转置操作，N表示正态分布，diag表示对角矩阵。

3.3令l的值加1，如果l≥L，则转至3.4；如果l<L，返回3.2。

3.4令e的值加1，如果e≤E，则将l的值初始化为1，返回3.2；如果e>E，则停止更新，并将更新停止时对应得到的图像特征矩阵X_img的第1层全局主题参数矩阵

的第k₁个主题

使用第L个图像特征迷你块

进行第E次更新后的第k₁个在线全局主题

和V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第k₁个主题

使用第L个文本迷你块

进行第E次更新后的第k₁个在线全局主题

分别作为图像特征矩阵X_img的第1层全局主题参数矩阵

的第k₁个主题

的最优在线全局主题向量

以及V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第k₁个主题

的最优在线全局主题向量

令k₁分别取1至K₁，进而分别得到图像特征矩阵X_img的第1层全局主题参数矩阵

的第1个主题

的最优在线全局主题向量

至图像特征矩阵X_img的第1层全局主题参数矩阵

的第K₁个主题

的最优在线全局主题向量

以及V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第1个主题

的最优在线全局主题向量

至V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第K₁个主题

的最优在线全局主题向量

分别记为图像特征矩阵X_img的第1层最优全局主题参数矩阵

和V×J维文本矩阵X_text的第1层最优全局主题参数矩阵

步骤4.多模态检索。

通过输入图像特征矩阵X_img来检索符合图像的标签。

具体方法为：根据AAAI2018上的论文《Multimodal Poisson Gamma BeliefNetwork》，对于图像特征矩阵X_img的第j列图像

根据V×J维文本矩阵X_text和图像特征矩阵X_img的第t层共享变量权重矩阵

的第j列

得到V×J维文本矩阵X_text和图像特征矩阵X_img的第1层共享变量权重矩阵

的第j列

r～Gam(γ₀,1/c₀)，c₀＝Gam(e₀,1/f₀)，γ₀～Gam(a₀,1/b₀)，b₀＝0.01，a₀＝0.01；令

表示V×J维文本矩阵X_text的第j列文本

和图像特征矩阵X_img的第j列图像

的第t层共享变量权重矩阵

对应的先验分布参数，

e₀＝1,f₀＝1，t＝1,2,3，～表示服从，Gam表示Gamma分布，Dir表示狄利克雷分布，

表示

的第k₂个主题的先验分布参数，

表示

的第k₃个主题的先验分布参数，

表示V×J维文本矩阵X_text和图像特征矩阵X_img的第2层共享全局主题参数矩阵，

表示V×J维文本矩阵X_text和图像特征矩阵X_img的第3层共享全局主题参数矩阵；k_t＝1,2,…,K_t，K_t表示第t层全局主题参数矩阵Φ^(t)包括的主题总个数。

计算得到V×J维文本矩阵X_text的第j列最终文本

将V×J维文本矩阵X_text的第j列最终文本

中所有元素从大到小排序后选取前s个元素，选取的前s个元素中每个元素对于一个单词，进而得到s个单词，并记为V×J维文本矩阵X_text的第j列s个预测单词。

令j＝1,2,…J，进而分别得到V×J维文本矩阵X_text的第1列s个预测单词至V×J维文本矩阵X_text的第J列s个预测单词，记为V×J维文本矩阵X_text的预测单词矩阵。

所述V×J维文本矩阵X_text的预测单词矩阵为本发明的一种基于在线深层主题模型的多模态检索结果。

参照图2，为本发明的数据集部分展示图；其中a-h八幅图中的每幅图右边生成7个单词，这7个单词是对对应图的很好描述，单词的个数可以根据需要制定，进而实现检索符合每幅图的标签目的。

Claims

1.一种基于在线深层主题模型的多模态检索方法，其特征在于，包括以下步骤：

在步骤1中，所述文本矩阵和图像特征矩阵，其得到过程为：

1a)设定一个N_j×2维矩阵为第j个词汇表，N_j×2维矩阵中第1列分别为第j张图像的N_j个单词，N_j×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数；j的初始值为1，j的最大值为J，N_j表示第j张图像包括的单词总个数，V＝1,2,…,J，V表示最终词汇表中的单词的个数；

1b)令j的值加1，设定第j张图像的N_j个单词中Q个单词在第j-1个词汇表内出现，将第j张图像的N_j个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1，0≤Q≤N_j；

(N_j-1+N_j-Q)×2维矩阵中第1列为第j-1张图像的N_j-1个单词和个第j张图像的N_j个单词中的剩余N_j-Q个单词，(N_j-1+N_j-Q)×2维矩阵中第2列为第1列N_j-1+N_j-Q个单词在第j-1张图像和第j张图像中对应出现的次数，所述(N_j-1+N_j-Q)×2维矩阵为第j个词汇表；

1c)重复执行1b)，直到得到第J个词汇表，所述第J个词汇表为J个相应的文本词汇表，且设定J个相应的文本词汇表包括V_original个单词和对应每个单词出现的次数；然后将j的值初始化为1；

1d)然后对V_original个单词按照V_original个单词中每个单词出现的次数由高到低进行排序，由于原始有V_original个单词的词汇表太过冗长，所以选取排序后出现次数最多的前V个单词作为最终词汇表，所述最终词汇表包括V个单词，其中V<V_original；

1e)初始化：确定一个V×2维矩阵，V×2维矩阵中第1列分别为最终词汇表中的V个词汇，V×2维矩阵中第2列用于统计J个相应的文本包括的所有单词在最终词汇表中出现的次数，且V×2维矩阵中第2列初始值分别为0；

1f)设定第j张图像的N_j个单词中有Q'个单词在最终词汇表内出现，然后在V×2维矩阵中第1列相应找到Q'个单词，并将Q'个单词在V×2维矩阵中第2列相应值分别加1，其余V-Q'个单词未在最终词汇表内，V-Q'个单词在V×2维矩阵中第2列相应值仍然为0，将此时得到的V×2维矩阵第2列作为第j个相应的文本V维向量；0≤Q'≤N_j；

1g)令j的值分别取1至J，重复执行1f)，直到得到第1个相应的文本V维向量至第J个相应的文本V维向量，将所述第1个相应的文本V维向量至第J个相应的文本V维向量记为V×J维文本矩阵X_text；

用尺度不变特征变换算法提取每幅图像特征，进而得到一个以特征维度V_img为行数、图像总张数J为列数的图像特征矩阵X_img，X_img是V_img×J维矩阵，J为图像总张数，V_img为每幅图像特征的维度；

在步骤2中，所述文本矩阵的每一层变量权重矩阵，具体为V×J维文本矩阵X_text的第t层变量权重矩阵θ^(t)，其得到过程为：

2.1确定T层全局主题参数矩阵，分别为第一层全局主题参数矩阵Φ⁽¹⁾、第二层全局主题参数矩阵Φ⁽²⁾、…、第t层全局主题参数矩阵Φ^(t)、…、第T层全局主题参数矩阵Φ^(T)，第t层全局主题参数矩阵Φ^(t)为K_t-1×K_t维，K_t表示第t层全局主题参数矩阵Φ^(t)包括的主题总个数，t＝1,2,…,T；其中，当t＝1时K₀＝V；

定义第t层全局主题重构参数矩阵为

若t取值为1时，

且

j＝1,2,3...,J；

第t层全局主题重构参数矩阵

的第k_t列是一个V维向量，记为

的第k_t列V维向量

所述

的第k_t列V维向量

表示第t层全局主题参数矩阵Φ^(t)的第k_t个主题，且

的第k_t列V维向量

对应最终词汇表中的V个单词；

的第k_t列V维向量

中第v个元素为

的第k_t列V维向量

2.2将V×J维文本矩阵X_text中第j个样本

表示成：

其中，k_t＝1,2,3,...,K_t，

表示第t层全局主题重构参数矩阵

的第k_t个主题，

表示第j个样本

对应第k_t个主题的权重；将

的K_t维向量，将所述第t层全局主题重构参数矩阵

的K_t维向量作为第j个样本

的第t层变量权重向量

令j分别取1至J，进而分别得到第1个样本

的第t层变量权重向量

至第J个样本

的第t层变量权重向量

并记为V×J维文本矩阵X_text的第t层变量权重矩阵θ^(t)，θ^(t)的大小为K_t×J维，然后将j的值初始化为1；

在步骤3中，所述图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵，具体为图像特征矩阵X_img的第1层最优全局主题参数矩阵

和V×J维文本矩阵X_text的第1层最优全局主题参数矩阵

其得到过程为：

3.1将V×J维文本矩阵X_text和图像特征矩阵X_img分别划分L个迷你块，

l'＝1,2,3...,L；

定义图像特征矩阵X_img的第j列图像

的第v'个元素

的第1层层内增广向量为

表示图像特征矩阵X_img的第j列图像

的第v'个元素

的第1层层内增广元素，其服从如下分布：

其中，

表示

的第k₁个主题

的第v'个元素，

表示图像特征矩阵X_img的第1层全局主题参数矩阵；

表示图像特征矩阵X_img的第j列图像

的第1层变量权重向量

的第k₁个元素，v'＝1,2,3,...,V_img,j＝1,2,3,...,J，k₁＝1,2,…,K₁，K₁表示第1层全局主题参数矩阵Φ⁽¹⁾包括的主题总个数；～表示服从，Mult表示分布；

定义V×J维文本矩阵X_text的第j列文本

的第v个元素

的第1层层内增广向量为

表示V×J维文本矩阵X_text的第j列文本

的第v个元素

的第1层层内增广元素，其服从如下分布：

其中，

表示

的第k₁个主题

的第v个元素，

表示V×J维文本矩阵X_text的第1层全局主题参数矩阵，

表示V×J维文本矩阵X_text的第j列文本

的第1层变量权重向量

的第k₁个元素，v＝1,2,3,...,V,j＝1,2,3,...,J，k₁＝1,2,…,K₁，K₁表示第1层全局主题参数矩阵Φ⁽¹⁾包括的主题总个数；

定义图像特征矩阵X_img的第1层全局主题参数矩阵

使用第l+1个图像特征迷你块

进行第e次更新后的向量为

表示图像特征矩阵X_img的第1层全局主题参数矩阵

的第k₁个主题

使用第l+1个图像特征迷你块

进行第e次更新后的第k₁个在线全局主题，k₁＝1,2,…,K₁，K₁表示第1层全局主题参数矩阵Φ⁽¹⁾包括的主题总个数；

定义V×J维文本矩阵X_text的第1层全局主题参数矩阵

使用第l+1个文本迷你块

进行第e次更新后的向量为

表示V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第k₁个主题

使用第l+1个文本迷你块

初始化：令e表示第e次更新，e＝1,2,3,...,E，e的初始值为1，E表示设定的总更新次数；令l＝1,2,…,L-1，l+1＝2,…,L；

3.2计算图像特征矩阵X_img的第1层全局主题参数矩阵

的第k₁个主题

使用第l+1个图像特征迷你块

进行第e次更新后的第k₁个在线全局主题

和V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第k₁个主题

使用第l+1个文本迷你块

进行第e次更新后的第k₁个在线全局主题

其计算公式分别为：

其中，

表示图像特征矩阵X_img的第1层全局主题参数矩阵

的第k₁个主题

使用第l个图像特征迷你块

进行第e次更新后的第k₁个在线全局主题，

表示图像特征矩阵X_img的第1层全局主题参数矩阵

的第k₁个主题，

表示V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第k₁个主题

使用第l个文本迷你块

进行第e次更新后的第k₁个在线全局主题，

表示V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第k₁个主题，

ρ＝L，ε_l表示第l次梯度更新后的学习率，

v'＝1,2,…,V_img；c表示设定常数，上标T表示转置操作，N表示正态分布，diag表示对角矩阵；

3.3令l的值加1，如果l≥L，则转至3.4；如果l<L，返回3.2；

的第k₁个主题

使用第L个图像特征迷你块

进行第E次更新后的第k₁个在线全局主题

和V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第k₁个主题

使用第L个文本迷你块

进行第E次更新后的第k₁个在线全局主题

分别作为图像特征矩阵X_img的第1层全局主题参数矩阵

的第k₁个主题

的最优在线全局主题向量

以及V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第k₁个主题

的最优在线全局主题向量

的第1个主题

的最优在线全局主题向量

至图像特征矩阵X_img的第1层全局主题参数矩阵

的第K₁个主题

的最优在线全局主题向量

以及V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第1个主题

的最优在线全局主题向量

至V×J维文本矩阵X_text的第1层全局主题参数矩阵

的第K₁个主题

的最优在线全局主题向量

分别记为图像特征矩阵X_img的第1层最优全局主题参数矩阵

和V×J维文本矩阵X_text的第1层最优全局主题参数矩阵

步骤4，根据图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵，以及图像特征矩阵，得到文本矩阵的预测单词矩阵，所述文本矩阵的预测单词矩阵为本方法的一种基于在线深层主题模型的多模态检索结果；

在步骤4中，所述文本矩阵的预测单词矩阵，具体为V×J维文本矩阵X_text的预测单词矩阵，其得到过程为：

计算得到V×J维文本矩阵X_text的第j列最终文本

表示V×J维文本矩阵X_text和图像特征矩阵X_img的第1层共享变量权重矩阵

的第j列，

表示V×J维文本矩阵X_text的第j列文本

和图像特征矩阵X_img的第j列图像

的第t层共享变量权重矩阵

对应的先验分布参数，

表示

的第k₂个主题的先验分布参数，

表示

的第k₃个主题的先验分布参数，

表示V×J维文本矩阵X_text和图像特征矩阵X_img的第3层共享全局主题参数矩阵；k_t＝1,2,…,K_t，K_t表示第t层全局主题参数矩阵Φ(^t)包括的主题总个数；

将V×J维文本矩阵X_text的第j列最终文本

中所有元素从大到小排序后选取前s个元素，选取的前s个元素中每个元素对于一个单词，进而得到s个单词，并记为V×J维文本矩阵X_text的第j列s个预测单词；