CN104317837A

CN104317837A - 一种基于主题模型的跨模态检索方法

Info

Publication number: CN104317837A
Application number: CN201410532057.6A
Authority: CN
Inventors: 庄越挺; 吴飞; 李玺; 王彦斐; 宋骏
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-10-10
Filing date: 2014-10-10
Publication date: 2015-01-28
Anticipated expiration: 2034-10-10
Also published as: CN104317837B

Abstract

本发明公开了一种基于主题模型的跨模态检索方法。它包括如下步骤：1）对数据库中各种类型模态数据提取特征和记录标签；2）基于主题的跨模态检索图模型的建立；3）采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型；4）用户提交一种类型模态的数据，并提取特征后，利用跨模态检索模型返回与之相关的另外一种类型模态数据；5）利用跨模态数据的真实对应信息和标签信息，对跨模态检索模型同时从对应性和区别性两方面来进行评价。本发明引入跨模态主题和不同模态主题增强概念，并且利用了标签信息，既增强了主题建模的可解释性和灵活性，而且具有很好的可扩展性和判别性。

Description

一种基于主题模型的跨模态检索方法

技术领域

本发明涉及跨模态检索，一种基于主题模型的跨模态检索方法。

背景技术

如今，各种类型数据在互联网上广泛存在，如文本、图像、声音和地理位置数据等等。同一语义内容往往通过不同类型数据来进行表达，因此跨媒体检索成为一种需求。比如，根据文本去检索与文本所包含语义相关的图像，或者根据图像去检索与图像有关的文本新闻报道。

现有的检索方法大多针对单一类型媒体数据，如文本检索文本或图像检索图像。最近，也出现了若干跨模态方法，但是这些跨模态检索方法大都是在同模态数据之间先做相似度计算，然后利用已知的不同类型模态数据之间存在的对应关系来实现跨模态数据检索，这些方法很少直接关联不同类型模态数据进行跨模态检索。在同一类型模态数据间进行关联比较的检索方法，其无法学习得到跨模态数据之间关系，查询效果不理想。因此，有必要提出直接建立不同模态间关联关系的跨模态检索方法。但是，不同模态数据由于底层特征构成差异巨大，表达含义丰富，使得跨媒体检索面临“语义鸿沟”的难题。为了克服语义鸿沟，需要学习跨媒体数据在语义层面的关联性。

基于这样的认识，一些方法将不同模态的数据看作随机变量，将其映射到一个隐含空间，在隐含空间来度量不同类型模态数据的相似性。为了寻找一种更好的映射，出现了线性映射、非线性映射、稀疏映射和最大间隔映射等方法。但是这些基于映射的方法完全依赖于数据的统计特性，对跨模态数据内在机理的分析较为欠缺，学习得到的隐含空间不具有很好可解释性。

作为一种文本聚类的方法，主题模型能够挖掘文本中隐性语义。近年来，主题模型在图像分析领域也取得了较好成功。因此，本发明提出一种基于主题模型的跨模态检索方法。基于主题的跨模态检索方法，将跨模态数据的底层特征映射到一个“隐性语义空间”。与上述基于映射方法不同，基于主题模型的方法通过生成式模型来发掘跨模态数据中隐含主题空间，学习得到的“主题”具有较强的可解释性。

发明内容

本发明的目的在于提供一种基于主题模型的跨模态检索方法，以便可以通过一种模态类型数据直接检索到与之相关的另外一种或几种模态类型的数据。

基于主题模型的跨模态检索方法包括如下步骤：

1)对数据库中各种类型模态数据提取特征和记录标签；

2)构建基于主题的跨模态检索图模型，建立不同模态数据所包含主题之间的相关关系，同时能利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息，最终进行跨模态之间相似性度量，实现跨模态检索；

3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型；

4)用户提交一种类型模态的数据，并提取特征后，利用跨模态检索模型返回与之相关的另外一种类型模态数据；

5)利用跨模态数据的真实对应信息和标签信息，对跨模态检索模型同时从对应性和区别性两方面来进行评价。

所述的步骤1)包括：

1)对数据库内所有的文本模态数据进行词性标注，去除非名词单词，保留文本中名词，将数据库中出现过的所有单词构成字典，统计字典中单词出现在每个文本中次数，用字典中单词出现的次数作为每个文本数据的表达；

2)对数据库内所有其他类型模态的数据提取底层特征作为单词，并进行聚类，用聚类中心点代表底层特征，形成该模态数据的字典；统计字典中每个单词出现在该模态数据中的次数，用字典中单词出现的次数作为每个模态数据的表达；

3)对数据库中不同类型模态数据，统计它们的标签信息，即记录每一个模态数据所属于的类别。

所述的步骤2)包括：

1)对于具有相关关系的不同模态数据，它们之间的相似性强弱通过其主题比例分布度量如下：

假设π_i和π_j是具有相关关系的两种不同模态数据的主题比例分布，这两个不同模态数据之间的相似性通过定义在其主题空间的势函数来计算，势函数的定义如公式(1)所示，

Ψ(π_i,π_j)＝exp(-λf(π_i,π_j)) (1)

其中λ是一个非负缩放比例参数，f(π_i,π_j)是对称KL-divergence距离，定义为

f (π_{i}, π_{j}) = \frac{1}{2} (D_{KL} (π_{i} | | π_{j}) + D_{KL} (π_{j} | | π_{i})) = \frac{1}{2} Σ_{k = 1}^{K} (π_{ik} \log \frac{π_{ik}}{π_{jk}} + π_{jk} \log \frac{π_{jk}}{π_{ik}}),

其中，K是π_i和π_j的维度，即主题数目；

2)利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息，由于相互关联的不同模态数据组成的跨模态文档具有一个共同的标签，因此通过跨模态文档经验主题频率向量采用softmax函数回归推理得到标签信息，计算如公式(2)所示，跨模态文档的经验主题频率由其所包含各种类型模态数据的经验主题频率拼接而成:

c_{d} = soft \max ({\overset{&OverBar;}{z}}_{d}, η) - - - (2)

其中，为跨模态文档d的经验主题频率向量，M为跨模态文档d所包含的模态个数，为模态m所对应数据的经验主题频率，softmax函数的表达式为

p (c | {\overset{&OverBar;}{z}}_{d}, η) = \frac{\exp (η_{c}^{T} {\overset{&OverBar;}{z}}_{d})}{Σ_{l = 1}^{C} \exp (η_{l}^{T} {\overset{&OverBar;}{z}}_{d})} .

所述的步骤3)包括：

1)由***自动设定，或者由用户指定主题比例Dirichlet分布超参数α初始值、各个模态的单词Dirichlet分布超参数β_1…M统一初始值β、不同模态数据相关关系比例系数λ初始值，以及各个类别初始化类别参数η_1…C统一初始值η，并且设定好迭代次数、收敛条件等参数；

2)对于包含相互关联的不同模态数据，称之为一个跨模态文档。对各个跨模态文档d中模态类型为m所对应数据中每一个单词x_dmn，随机分配K个主题中的某个主题作为单词x_dmn的主题z_dmn；

3)对于各个跨模态文档d，统计模态类型为m所对应数据在各个主题k上所分配单词数n_dmk；

4)对于模态类型为m所对应数据，统计单词v属于某个主题k的频率n_mkv；

5)已知模态类型为m所对应数据在各个主题k上所分配单词数n_dmk，主题k的主题比例分布由公式(3)计算得到：

{\hat{π}}_{dmk} = \frac{n_{dmk} + α}{Σ_{k = 1}^{K} (n_{dmk} + α)} - - - (3)

6)更新各个跨模态文档d中所包含模态类型为m的对应数据中每一个单词x_dmn的主题分配z_dmn，根据除x_dmn以外其他单词具有主题通过按如下公式(4)完成，公式(4)表示概率采样跨模态文档d中模态m数据的第n个单词的主题z_dmn：

其中，表示整个文档集合；n_dmk是跨模态文档d中模态类型为m所对应数据包含主题k分配的单词数，计数时不包含x_dmn这一单词；n_mkv是模态类型为m对应数据所包含主题k中单词v出现的频率，计数时不包含x_dmn这一单词；是单词x_dmn所包含主题z_dmn为k时跨模态文档d的经验主题频率向量，是排除单词x_dmn主题分配时跨模态文档d的经验主题频率向量；是排除单词x_dmn主题分配时跨模态文档d中模态m的数据的主题比例分布，是单词x_dmn所包含主题z_dmn为k时跨模态文档d中模态类型为m所对应数据的主题比例分布；

7)更新每个跨模态文档所包含模态类型数据中所有单词具有的主题分配后，按照以下公式(5)(6)(7)来更新参数α，β_1…M和η_1…C：

α &LeftArrow; \frac{α [Σ_{d = 1}^{D} Σ_{m = 1}^{M} Σ_{k = 1}^{K} (Ψ (n_{dmk} + α) - Ψ (α))]}{K [Σ_{d = 1}^{D} Σ_{m = 1}^{M} (Ψ (Σ_{k = 1}^{K} (n_{dmk} + α)) - Ψ (Σ_{k - 1}^{K} α))]} - - - (5)

β_{m} &LeftArrow; \frac{β_{m} [Σ_{k = 1}^{K} Σ_{v = 1}^{V} (Ψ (n_{mkv} + β_{m}) - Ψ (β_{m}))]}{V_{m} [Σ_{k = 1}^{K} (Ψ (Σ_{v = 1}^{V} (n_{mkv} + β_{m})) - Ψ (V_{m} β_{m}))]} - - - (6)

η_{c} = η_{c} + ϵ \times Σ_{d = 1}^{D} [{\overset{&OverBar;}{z}}_{d} (1 {c_{d} = c} - p (c_{d} = c | {\overset{&OverBar;}{z}}_{d}; η))],

其中ε设为0.001(7)；

8)检查算法是否满足收敛条件，如不满足返回3)；

9)算法收敛后，则可得到每个跨模态文档所包含的各种模态类型数据中所有单词主题分布，于是模态类型为m的数据所包含单词v在主题k上分布可通过如下公式(8)计算：

{\hat{φ}}_{mkv} = \frac{n_{mkv} + β_{m}}{Σ_{v = 1}^{V} (n_{mkv} + β_{m})} - - - (8) .

所述的步骤4)包括：

1)假设给定模态类型为p的检索样例数据X＝{x₁,x₂,…x_N}，要检索与之相关的模态类型为q的数据，首先计算模态类型为q的所有数据的主题比例，然后计算在此主题比例下生成模态类型为p的检索样例数据X＝{x₁,x₂,…x_N}的可能性大小，记模态类型为q的第i个数据产生X的概率为s_i，通过如下公式(9)来计算这一生成概率：

s_{i} = p (X | π_{i}) = Σ_{n = 1}^{N} p (x_{n} | π_{i}) = \prod_{n = 1}^{N} Σ_{k = 1}^{K} p (x_{n} | z = k) p (z = k | π_{i}) - - - (9)

其中，π_i是模态类型为q的第i个数据的主题比例，p(z＝k|π_i)是模态类型为p数据的主题-单词分布

2)按照s_i对模态类型为q的数据进行排序，找到与模态类型为p的检索样例数据X相关数据。

所述的步骤5)包括：

1)以对应性来评价跨模态检索。基于两种模态类型数据之间存在的对应关系，当某种类型模态数据出现时，另外一种类型模态数据也出现，采用百分比Percentage和平均排序倒数Mean Reciprocal Rank(MRR)两种评价来进行评价：1)Percentage：对于给定的t％指标，如果与检索样例数据所对应的另外一种模态类型数据排在t％前，则认为跨媒体检索结果正确，否则认为检索错误；2)Mean Reciprocal Rank(MRR)：定义为：其中，|Q|是检索样例数据的个数，rank_i是检索样例数据i所对应的另外一种模态类型数据在返回结果中的位置；

2)以区别来评价跨模态检索。基于两种类型模态数据是否属于标签所标识的同一类别来衡量跨模态检索性能。如果检索样例数据与检索结果中另外一种模态类型数据为同一类别，则认为其相关，否则认为不相关。具体采用信息检索中平均精度均值MAP(Mean Average Precision)这一指标来衡量。为了计算MAP，先要计算每个检索样例的平均精度AP(Average Precision)，对每一个检索样例，如果其得到的检索结果包含的数据数目为R，AP定义为：其中，L是返回结果中与检索样例相关的数据个数，如检索样例与检索结果中数据如果来自同一类别，则两者相关；prec(r)表示1…r检索结果中与检索样例相关数据所占比例，如果检索结果中第r个数据与检索样例相关，则δ(r)＝1，否则δ(r)＝0，MAP定义为所有检索样例AP值的平均值。

本发明具有的有益的效果是：

1.本发明与传统的跨媒体检索方法相比，可以直接关联比较不同模态类型数据，而不是依靠同一模态类型数据之间关联比较，然后再通过对应关系进行不同模态数据之间相似性度量，这样能挖掘跨媒体数据间的隐含关联关系。

2.与其他直接关联比较不同模态数据的跨模态检索方法相比，通过主题建模这一生成式方法来发掘隐含主题空间，可学习得到更有解释性的“主题语义空间”。

3.本发明引入独特的跨模态主题这一概念，来增强跨模态主题，并且利用了跨模态数据具有的标签信息，使得学习得到“主题语义空间”更具有判别性。

附图说明

图1是本发明核心算法的概率图模型表达，其中，带阴影的圆圈表示可观测变量，α、β_1…M、η_1…C为超参数，其余为隐变量。在图中，假设一共有D个跨模态文档和M个模态，虚线代表跨模态文档中属于某一特定模态类型数据的主题比例不仅与其先验超参数有关，还和与之关联的同一跨模态文档中其他模态数据有关。

图2是实施例维奇百科数据库中对应图像和文本的示例。

具体实施方式

基于主题模型的跨模态检索方法包括如下步骤：

1)对数据库中各种类型模态数据提取特征和记录标签；

所述的步骤1)包括：

所述的步骤2)包括：

Ψ(π_i,π_j)＝exp(-λf(π_i,π_j)) (1)

f (π_{i}, π_{j}) = \frac{1}{2} (D_{KL} (π_{i} | | π_{j}) + D_{KL} (π_{j} | | π_{i})) = \frac{1}{2} Σ_{k = 1}^{K} (π_{ik} \log \frac{π_{ik}}{π_{jk}} + π_{jk} \log \frac{π_{jk}}{π_{ik}}),

其中，K是π_i和π_j的维度，即主题数目；

c_{d} = soft \max ({\overset{&OverBar;}{z}}_{d}, η) - - - (2)

p (c | {\overset{&OverBar;}{z}}_{d}, η) = \frac{\exp (η_{c}^{T} {\overset{&OverBar;}{z}}_{d})}{Σ_{l = 1}^{C} \exp (η_{l}^{T} {\overset{&OverBar;}{z}}_{d})} .

所述的步骤3)包括：

{\hat{π}}_{dmk} = \frac{n_{dmk} + α}{Σ_{k = 1}^{K} (n_{dmk} + α)} - - - (3)

α &LeftArrow; \frac{α [Σ_{d = 1}^{D} Σ_{m = 1}^{M} Σ_{k = 1}^{K} (Ψ (n_{dmk} + α) - Ψ (α))]}{K [Σ_{d = 1}^{D} Σ_{m = 1}^{M} (Ψ (Σ_{k = 1}^{K} (n_{dmk} + α)) - Ψ (Σ_{k - 1}^{K} α))]} - - - (5)

β_{m} &LeftArrow; \frac{β_{m} [Σ_{k = 1}^{K} Σ_{v = 1}^{V} (Ψ (n_{mkv} + β_{m}) - Ψ (β_{m}))]}{V_{m} [Σ_{k = 1}^{K} (Ψ (Σ_{v = 1}^{V} (n_{mkv} + β_{m})) - Ψ (V_{m} β_{m}))]} - - - (6)

η_{c} = η_{c} + ϵ \times Σ_{d = 1}^{D} [{\overset{&OverBar;}{z}}_{d} (1 {c_{d} = c} - p (c_{d} = c | {\overset{&OverBar;}{z}}_{d}; η))],

其中ε设为0.001(7)；

8)检查算法是否满足收敛条件，如不满足返回3)；

{\hat{φ}}_{mkv} = \frac{n_{mkv} + β_{m}}{Σ_{v = 1}^{V} (n_{mkv} + β_{m})} - - - (8) .

所述的步骤4)包括：

s_{i} = p (X | π_{i}) = Σ_{n = 1}^{N} p (x_{n} | π_{i}) = \prod_{n = 1}^{N} Σ_{k = 1}^{K} p (x_{n} | z = k) p (z = k | π_{i}) - - - (9)

所述的步骤5)包括：

实施例

为了验证本发明的效果，利用“***-特色文本”(Wikipedia feature articles)的网页，每个网页中包含了一张图像以及几段对图像内容进行描述的文本构成跨模态文档，将这些跨模态文档数据作为本发明实验的数据集(如附图2)。这里，数据集包含文字和图像两个模态，文本的词库字典大小设为5000维，图像的聚类中心点个数设为1000。整个数据集划分为10个类别。数据库共包含2866个跨媒体文档，随机选择其中的1/5用作测试，其他文档作为训练数据。按照具体实施方式中描述的步骤，所得的实验结果如下：

表1.***数据集上的结果

同时，本发明在公开数据集NUS-WIDE上也进行了跨媒体检索实验。NUS-WIDE数据包含图像和图像上传者对图像的描述标注构成的跨模态文档，同时包含可以作为类别信息的概念标签。数据集包含81个概念(类别)，仅选择那些具有最普遍的10个类作为唯一标签的跨模态文档，得到26813个跨模态文档，随机选择其中的1/5用作测试，其他文档作为训练数据。按照具体实施方式中描述的步骤，所得的实验结果如下：

表2.NUS-WIDE数据集上的结果

Claims

1.一种基于主题模型的跨模态检索方法，其特征在于包括如下步骤：

1)对数据库中各种类型模态数据提取特征和记录标签；

2.根据权利要求1所述的一种基于主题模型的跨模态检索方法，其特征在于，所述的步骤1)包括：

3.根据权利要求1所述的一种基于主题模型的跨模态检索方法，其特征在于，所述的步骤2)包括：

Ψ(π_i,π_j)＝exp(-λf(π_i,π_j)) (1)

f (π_{i}, π_{j}) = \frac{1}{2} (D_{KL} (π_{i} | | π_{j}) + D_{KL} (π_{j} | | π_{i})) = \frac{1}{2} Σ_{k = 1}^{K} (π_{ik} \log \frac{π_{ik}}{π_{jk}} + π_{jk} \log \frac{π_{jk}}{π_{ik}}),

其中，K是π_i和π_j的维度，即主题数目；

c_{d} = soft \max ({\overset{&OverBar;}{z}}_{d}, η) - - - (2)

p (c | {\overset{&OverBar;}{z}}_{d}, η) = \frac{\exp (η_{c}^{T} {\overset{&OverBar;}{z}}_{d})}{Σ_{l = 1}^{C} \exp (η_{l}^{T} {\overset{&OverBar;}{z}}_{d})} .

4.根据权利要求1所述的一种基于主题模型的跨模态检索方法，其特征在于，所述的步骤3)包括：

1)由***自动设定，或者由用户指定主题比例Dirichlet分布超参数α初始值、各个模态的单词Dirichlet分布超参数β_1…M统一初始值β、不同模态数据相关关系比例系数λ初始值，以及各个类别初始化类别参数η_1…C统一初始值_η，并且设定好迭代次数、收敛条件等参数；

{\hat{π}}_{dmk} = \frac{n_{dmk} + α}{Σ_{k = 1}^{K} (n_{dmk} + α)} - - - (3)

其中，表示整个文档集合；n_dmk是跨模态文档d中模态类型为m所对应数据包含主题k分配的单词数，计数时不包含x_dmn这一单词；n_mkv是模态类型为m对应数据所包含主题k中单词v出现的频率，计数时不包含x_dmn这一单词；是单词x_dmn所包含主题z_dmn为k时跨模态文档d的经验主题频率向量，是排除单词x_dmn主题分配时跨模态文档d的经验主题频率向量；是排除单词x_dmn主题分配时

跨模态文档d中模态m的数据的主题比例分布，是单词x_dmn所包含主题z_dmn为k时跨模态文档d中模态类型为m所对应数据的主题比例分布；

7)更新每个跨模态文档所包含模态类型数据中所有单词具有的主题分配后，按照以下公式(5)(6)(7)来更新参数α，β_1…M和_η1…C：

α &LeftArrow; \frac{α [Σ_{d = 1}^{D} Σ_{m = 1}^{M} Σ_{k = 1}^{K} (ψ (n_{dmk} + α) - ψ (α))]}{K [Σ_{d = 1}^{D} Σ_{m = 1}^{M} (ψ (Σ_{k = 1}^{K} (n_{dmk} + α)) - ψ (Σ_{k - 1}^{K} α))]} - - - (5)

β &LeftArrow; \frac{β_{m} [Σ_{k = 1}^{K} Σ_{v = 1}^{V} (ψ (n_{mkv} + β_{m}) - ψ (β_{m}))]}{V_{m} [Σ_{k = 1}^{K} (ψ (Σ_{v = 1}^{V} (n_{mkv} + β_{m})) - Ψ (V_{m} β_{m}))]} - - - (6)

η_{c} = η_{c} + ϵ \times Σ_{d = 1}^{D} [{\overset{&OverBar;}{z}}_{d} (1 {c_{d} = c} - p (c_{d} = c | {\overset{&OverBar;}{z}}_{d}; η))],

其中ε设为0.001 (7)；

8)检查算法是否满足收敛条件，如不满足返回3)；

{\hat{φ}}_{mkv} = \frac{n_{mkv} + β_{m}}{Σ_{v = 1}^{V} (n_{mkv} + β_{m})} - - - (8) .

5.根据权利要求1所述的一种基于主题模型的跨模态检索方法，其特征在于，所述的步骤4)包括：

s_{i} = p (X | π_{i}) = Σ_{n = 1}^{N} p (x_{n} | π_{i}) = Π_{n = 1}^{N} Σ_{k = 1}^{K} p (x_{n} | z = k) p (z = k | π_{i}) - - - (9)

6.根据权利要求1所述的一种基于主题模型的跨模态检索方法，其特征在于，所述的步骤5)包括：