CN106886601A

CN106886601A - 一种基于子空间混合超图学习的交叉模态检索算法

Info

Publication number: CN106886601A
Application number: CN201710116758.5A
Authority: CN
Inventors: 陈志奎; 钟芳明; 钟华; 鲁飞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2017-03-02
Filing date: 2017-03-02
Publication date: 2017-06-23
Anticipated expiration: 2037-03-02
Also published as: CN106886601B

Abstract

一种基于子空间混合超图学习的交叉模态检索算法，基于典型相关性分析的交叉模态公共子空间学习；通过公共子空间的映射来计算模态内部和模态之间的相似度；通过不同模态内部和模态之间的相似度计算混合关系矩阵；通过对关系矩阵的提炼构建混合超图模型；最后采用超图学习进行交叉模态检索和样例排序。本发明实例针对交叉模态的异构差异性，以及样本之间的高阶关系，将超图模型结合交叉模态公共子空间学习，应用到交叉模态检索中，使模型能够同时考虑模态间的相似度和模态内部的相似度，同时兼顾多个样本之间的高阶关系，提高最终的交叉模态检索的查准率和查全率。本发明有效地提高了交叉模态检索的性能，能大大提高交叉模态检索的准确率和召回率。

Description

一种基于子空间混合超图学习的交叉模态检索算法

技术领域

本发明属于计算机技术领域，具体涉及一种基于子空间混合超图学习的交叉模态检索算法。

背景技术

当前，多模态检索问题已经吸引了大量学者的关注。由于在互联网中存在着大量的多媒体数据，如图像、文本、视频等等，也就因此对于一个目标的语义描述提供了多种多样的表达方式。例如对于猫的描述形式可以包含：一段关于猫的描述的文字，一段猫的录制视频，一段猫叫声的录音，或者是一些关于猫的照片。而多模态检索问题就是针对这种多模态之间的交叉检索，即用图片去检索相关的文本，或者用文本去检索相关的图片。针对两种模态之间的检索，称之为交叉模态检索。然而由于不同语义表现形式内在的异构性差异，如何去度量不同语义表现形式之间的相似度依然是一个极具挑战的科研课题。不仅如此，当前的方法基本上是以对于对之间的关系为基础，考虑交叉模态检索的，即衡量样本之间的关系都是考虑两两之间的关系，如何利用超过两个之间的关系即高阶关系，提高交叉模态检索依然是一个空白的研究点。

近些年，一大批研究工作主要集中在消除不同模态之间的异构差异性。这些工作主要可以被分成两大类：基于子空间学习的方法和交叉模态哈希方法。

子空间学习方法试图通过学习一个隐含的公共子空间，使不同模态都能够被投影到公共子空间，在子空间中由于模态的维度相同，因此能够消除不同模态之间的异构差异性，并且他们之间的相似度能够直接度量。子空间学习方法又可以分成有监督的和无监督的。无监督方法，例如典型相关性分析(CCA)，最小二乘(PLS)以及局部保留投影等方法直接将原始空间的数据映射到公共子空间中，并且不同模态之间的关系最大化。而有监督方法则是通过利用标签信息，是具有相同标签的不同模态数据在子空间中尽量靠近，反之则远离。有监督的子空间学习方法，能够在一定程度上优于无监督的方法，然而标签信息的获取是一项代价昂贵的活动，因此近些年半监督的方法也有学者研究并提出。

交叉模态哈希结合了多模态分析和哈希技术，通过投影不同模态的数据进入一个统一的哈希空间。在哈希空间中，不同模态的数据用哈希编码表示，降低了数据处理的空间复杂度和存储开销。并且哈希编码之间的相似度能够通过汉明距离直接计算，降低了相似度计算的时间复杂度。然而不管是基于交叉模态哈希的方法还是子空间学习的方法，它们大多数在衡量样本之间的关系时，仅仅考虑了两两之间的关系，而忽视了更多样本之间的高阶关系。

为了获取更多样本之间的高阶关系，超图学习已经被广泛应用于聚类、分类和信息检索领域。超图和普通图之间的区别在于：超图一条边能够连接两个以上数量的节点，而普通图的边仅仅连接两个顶点。正因为如此，通过超图能够将样本之间的高阶关系嵌入在超图的边中。通过已有的一些工作，我们发现超图有利于研究多个样本之间的高阶关系，而不仅仅是两两之间的关系。例如普通图通过一条边的权重能够度量两个点之间的相似度，而超图通过超边能够度量3个或者更多节点之前的相似性，这就为交叉模态检索提供了研究样本之间高阶关系的可能性。因此本发明利用超图来研究样本之间的高阶关系，发明一种基于子空间混合超图学习的交叉模态检索算法。消除异构模态之间的差异性，同时考虑模态内部和模态之间的相似度关系，计算混合相似度关系矩阵，以此构建混合超图模型，进而能够通过超图学习进行交叉模态的检索和结果排序。

发明内容

随着互联网中多模态数据量的逐渐增多，多模态检索成为越来越重要的多媒体应用。本发明针对两个模态之间的交叉检索，探究一种基于子空间混合超图学习的交叉模态检索算法，试图通过子空间学习，消除不同模态之间的异构差异性，通过考虑模态内部和模态之间的相似度关系，构建混合超图模型，通过超图学习进行交叉模态检索，提高交叉模态检索的准确率和召回率。算法包括以下步骤：

步骤1：基于典型相关性分析的公共子空间学习；

步骤2：计算模态内部和模态间相似度；

步骤3：计算混合邻接矩阵；

步骤4：构建超图；

步骤5：基于超图学习的交叉模态检索、重排序。

附图说明

图1是基于子空间混合超图学习的交叉模态检索算法(CHLS)流程图。

图2(a)是Wiki数据集上图片检索准确率对比图。

图2(b)是Wiki数据集上文本检索准确率对比图。

图2(c)是Wiki数据集上图片检索召回率对比图。

图2(d)是Wiki数据集上文本检索召回率对比图。

图3(a)是MIR Flickr数据集上图片检索准确率对比图。

图3(b)是MIR Flickr数据集上文本检索准确率对比图。

图3(c)是MIR Flickr数据集上图片检索召回率对比图。

图3(d)是MIR Flickr数据集上文本检索召回率对比图。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

图1为基于子空间混合超图学习的交叉模态检索算法的流程图。本发明以文本和图片两种模态作为交叉模态检索的样本。首先需要对不同模态进行特征提取，对于文本数据采用隐含狄利克雷分布(LDA)进行特征提取，对于图片模态，采用卷及神经网络(CNN)进行特征学习。获得两种模态的各自特征表示之后，下一步就是采用典型相关性分析进行公共子空间学习，将原始图片和文本模态映射到同一个维度空间下，使其之间的相似度能够直接度量，消除不同模态之间的异构差异性。在子空间中能够进行相似度的直接度量，通过计算模态内部和模态之间的相似度，构建混合关系矩阵，进而构建一个混合超图。最后通过混合超图学习进行交叉模态检索。

一种基于子空间混合超图学习的交叉模态检索算法，步骤如下：

步骤1、基于典型相关性分析的公共子空间学习；

步骤2、计算模态内部和模态间相似度；

步骤3、计算混合邻接矩阵；

步骤4、构建超图；

步骤5、基于超图学习的交叉模态检索、重排序。

步骤1、基于典型相关性分析的公共子空间学习；

在多媒体数据中，一个目标物体通常能有多种表现形式，如图像、文本、视频等，构成了多媒体的多模态数据表示。多模态数据如图像和文本由于存在着异构差异性，尽管表示的语义可能相似，但是图像和文本间由于这种异构差异性，图像和文本之间的相似度则不能直接度量，给交叉模态检索带来了挑战。为此需要将图像和文本这两种模态数据通过一定的方式，映射到相同维度的公共子空间下，方便相似度度量。本专利利用典型相关性分析(Canonical Correlation Analysis，CCA)来学习多模态的公共子空间。

给定图像和文本的样本集d₁≠d₂，对于x_i和y_i，CCA通过最大化相关系数进行投影矩阵的学习。子空间投影数据可以表示为其中最大化关系表示如公式(1)：

其中，Σ_xx和Σ_yy是单模态内部协方差矩阵，Σ_xy＝Σ_yx是模态间的协方差矩阵，W_x,W_y投影矩阵。最终的目标函数表示如公式(2)，通过优化公式(2)就能够获得投影矩阵，便能够将原始空间的多模态数据映射到公共子空间中，进行相似度度量。

对于交叉模态数据集中的每一对样本在子空间中的投影可以表示为令子空间表示数据将用于后续的步骤进行混合超图学习和交叉模态检索重排序等步骤。

通过子空间的学习，成功将异构的多模态数据映射到了同一子空间想下，消除了异构差异性，同时CCA最大化保留了交叉模态样本对之间的关联性，能够很好的应用于交叉模态检索。

步骤2、计算模态内部和模态间相似度；

本专利利用超图学习多模态样本之间的相关性，构建超图的首要步骤就是寻找合适的点构成超边。本专利首先计算样本相似度，然后利用相似度矩阵获得样本的k个最近的邻居构成超边。然而当前已有的跨模态检索方法通常只考虑模态间的相似度，忽略了模态内部的相似度，因此本专利额外考虑了模态内部相似度，通过模态内部的邻居分布信息，补充完善样本的关联性度量，从而提高跨模态检索准确率。

1)模态内部相似度

模态内部相似度能够很好的辅助跨模态检索，例如搜索文本为“猫”，那么返回结果应该是猫的图片。通过构建图片模态内部相似度，那些与直接通过跨模态返回的图片相似度高的图片也将作为检索结果返回，也就是说与猫的图片很相近的图片也会返回。

将子空间下的多模态数据样本看成一个顶点，那么模态x′内部的相似度可以表示为公式(3)：

其中，是所有顶点间距离的中值，同理对于其他模态如y′计算方法也是如此。

2)模态间相似度

模态间的相似度，是通过子空间学习之后，被映射到公共子空间中的两个模态之间的相似度矩阵计算公式与公式(3)相同，但是其中的v_i∈x′,v_j∈y′。

步骤3、计算混合邻接矩阵：

为了构建混合超图模型，需要首选建立组合相似度矩阵，同时考虑模态间的相似度和模态内部的相似度，给定查询来自模态x′，返回结果为模态y′的计算公式见公式(4)所示：

S_x＝θ*S_yy+(1-θ)*S_xy (4)

其中θ是平衡参数，均衡模态内部相似度和模态间相似度的贡献度。同样的对于给定查询来自y′，返回结果为x′的相似度计算公式见公式(5)所示：

S_y＝θ*S_xx+(1-θ)*S_yx (5)

步骤4、构建超图；

超图模型相比于普通图模型，最明显的区别就在于超图中的一条边连接的节点数量大于等于2.如此，超边是由多个顶点都成的，这样也就使得超图嵌入了顶点间的高阶关系，而不仅仅是两个节点之间的关系。这就为研究多模态间样本关联性提供了更加丰富的关联性。令G＝(V,E,w)表示一个超图，其中V表示顶点集，E表示超边的集合，w表示超边的权重向量。通常用一个关系矩阵(incidence matrix)来描述一个超图，关系矩阵的元素表示为H(v,e)＝1，如果v∈e，也就是该顶点属于一条超边，则置为1,，否则为0，即H(v,e)＝0。

在本方法提出的算法中，采用K-NN方法构造超图模型。利用步骤3计算得到的混合相似度矩阵，分别计算每一个样本的k个邻居，并且通过邻居关系构造关系矩阵H。将超边的数量设置为样本点的数量，每一条超边对应一个顶点以及其k个最近的邻居，将这些点的对应H的元素设置为1。当所有点的邻居够查找完毕之后，就构成了一个完整的关系矩阵。

超图中除了顶点、边之外，还有一个非常重要的参数，即边的权重。本专利中超边权重的计算公式如式(6)所示：

其中S便是混合相似度矩阵。

步骤5、基于超图学习的交叉模态检索、重排序。

构建混合超图模型之后，就是要利用超图学习来进行交叉模态的检索。在此之前，需要定义几个变量和参数。基于超图的关系矩阵H，定义顶点v∈V的度为d(v)，超边e∈E的度为δ(v)，其中令D_v，D_e分别表示两个对角矩阵，其中对角元上的元素分别为顶点的度和超边的度，W同样表示一个对角矩阵，其对角元素为超边权重值。

如此，便能够定义超图学习的目标函数，如式(7)所示：

其中f表示检索目标的排序分数向量，μ是平衡参数。通过优化目标函数(7)便能够求得f。

令可以得到超图拉普拉斯(hypergraph Laplacian)Δ＝I-Θ，正则化的目标函数则可以重新表示成式(8)所示：

Ω(f)＝f^TΔf+μ(f-y)^T(f-y) (8)

通过对Ω(f)求导可得：

通过式(9)便能够求得跨模态的检索结果。

通过选择不同的查询样本，将可以获得跨模态检索的结果f，通过排序f，便能够获取与输入查询最相关的另一个模态的样本。

验证结果：

在本发明的实验中，选择广泛应用的多模态数据集Wiki和MIR Flickr两个数据集作为验证数据。评价的标准为平均准确率均值(Mean Average Precision，MAP)、准确率曲线(Precision-Scope Curve)、召回率曲线(Recall-Scope Curve)。对比的方法又主成分分析(PCA)，局部保留投影(LPP)，典型相关性分析(CCA)，语义回归方法(SM)，子空间和语义回归混合方法(SCM)。

表1所示为在Wiki数据集中的MAP性能比较。本发明的方法表示为CHLS。包含了图片查询和文本查询两种任务。

表1算法在Wiki数据集上的MAP性能比较

表2所示为在MIR Flickr数据集中的MAP性能比较。

表2算法在MIR Flickr数据集上的MAP性能比较

从表1和表2中，可以发现本发明提出的方法在MAP指标上的交叉模态检索性能要由于对比的其他方法，说明了本发明的有效性。

另外为了显示本发明方法在交叉模态检索时准确率和召回率的变化，实验对所有方法的准确率和召回率变化作成曲线图如附图2和附图3所示。分别显示了图片检索的准确率和召回率，文本检索的准确率和召回率。从图2和图3中，我们发现，本发明提出的方法要明显优于其他方法，提供较高的准确率的同时，从召回率可以看出，本发明的方法能够在很早的阶段就达到80％以上的召回率。说明本发明提出的算法能够更快、更准地将正确的样本检索到，进一步说明了本发明的算法的有效性。

Claims

1.一种基于子空间混合超图学习的交叉模态检索算法，其特征在于，步骤如下：

步骤1、基于典型相关性分析的公共子空间学习

在多媒体数据中，一个目标物体的多种表现形式构成多媒体的多模态数据表示；多模态数据图像和文本间由于存在着异构差异性，因此，二者的相似度不能直接度量；为方便图像和文本的相似度度量，将图像和文本映射到相同维度的公共子空间下，交叉模态检索算法利用典型相关性分析CCA来学习多模态数据的公共子空间；

令表示图像和文本的集合，表示图像特征，表示文本特征，通常由于两种数据类型之间的异构差异性，会使d₁≠d₂；对于一个文本和图像对，即x_i和y_i，CCA通过最大化相关系数进行投影矩阵的学习；公共子空间投影数据表示为和其中最大化关系表示如公式(1)：

ρ = \frac{W_{x}^{T} Σ_{x y} W_{y}}{\sqrt{W_{x}^{T} Σ_{x} W_{x} W_{y}^{T} Σ_{y y} W_{y}}} - - - (1)

其中，Σ_xx和Σ_yy分别是图像和文本单模态内部协方差矩阵，Σ_xy＝Σ_yx是图像和文本模态间的协方差矩阵，W_x,W_y分别是图像和文本的投影矩阵；最终的目标函数表示如公式(2)，通过优化公式(2)获得投影矩阵，便将原始空间的多模态数据映射到公共子空间中，进行相似度度量；

\begin{matrix} \max_{W_{x}, W_{y}} W_{x}^{T} Σ_{x y} W_{y} \\ \begin{matrix} s . t & W_{x}^{T} Σ_{x x} W_{x} = 1; W_{y}^{T} Σ_{y y} W_{y} = 1 \end{matrix} \end{matrix} - - - (2)

因此对于交叉模态数据集中的每一对图像和文本在公共子空间中的投影表示为其中一个图像经过CCA投影之后的特征表示为文本的特征表示为如此两种模态数据的特征就处在同一空间下，并且维度相同，进行距离的度量；为了方便区分，给投影之后的数据重新命名，令用表示在子空间中的图像和文本特征，他们将被用于混合超图学习以及交叉模态检索；

通过公共子空间的学习，将异构的多模态数据映射到同一公共子空间下，消除了异构差异性，同时CCA最大化保留了交叉模态样本对之间的关联性，很好的应用于交叉模态检索；

步骤2、计算模态内部和模态间相似度

本交叉模态检索算法利用超图学习多模态样本之间的相关性，构建超图的首要步骤就是寻找合适的点构成超边；首先计算样本相似度，然后利用相似度矩阵获得样本的k个最近的邻居构成超边；然而当前已有的跨模态检索方法通常只考虑模态间的相似度，忽略了模态内部的相似度，因此本交叉模态检索算法额外考虑了模态内部相似度，通过模态内部的邻居分布信息，补充完善样本的关联性度量，从而提高跨模态检索准确率；

1)模态内部相似度

通过构建图片模态内部相似度，与直接通过跨模态返回的图片相似度高的图片也作为检索结果返回；

将公共子空间下的多模态数据样本看成一个顶点，即将x′_i当做顶点v_i，那么模态x′内部数据x′_i和x′_j之间的相似度S_xx(i,j)可以表示为公式(3)：

S_{x x} (i, j) = \{\begin{matrix} \exp (- \frac{| | v_{i} - v_{j} | |^{2}}{σ^{2}}), & i f i &NotEqual; j \\ 0 & o t h e r w i s e \end{matrix} - - - (3)

其中，σ是所有顶点间距离的中值；对于模态y′内部的相似度计算也是如此；

2)模态间相似度

模态间的相似度，通过公共子空间学习后，被映射到公共子空间中的两个模态之间的相似度矩阵计算公式与公式(3)相同，但是其中的v_i∈x′,v_j∈y′；

步骤3、计算混合邻接矩阵

为了构建混合超图模型，首选建立组合相似度矩阵，同时考虑模态间的相似度和模态内部的相似度，给定查询来自模态x′，返回结果为模态y′的情况下，组合相似度矩阵S_x的计算公式见公式(4)所示：

S_x＝θ*S_yy+(1-θ)*S_xy (4)

其中θ是平衡参数，均衡模态内部相似度和模态间相似度的贡献度；S_yy是模态y′内部的相似度，S_xy是模态间相似度；

同样的对于给定查询来自y′，返回结果为x′的情况下，组合相似度矩阵S_y的计算公式见公式(5)所示：

S_y＝θ*S_xx+(1-θ)*S_yx (5)

其中θ是平衡参数，S_xx是模态x′内部的相似度，是模态间相似度；

步骤4、构建超图

超图中的一条边连接的节点数量大于等于2，超边是由多个顶点构成的，使得超图嵌入了顶点间的高阶关系，而不仅仅是两个节点之间的关系；令G＝(V,E,w)表示一个超图，其中V表示顶点集，E表示超边的集合，w表示超边的权重向量；用一个关系矩阵来描述一个超图，关系矩阵的元素表示为H(v,e)＝1，如果v∈e，也就是该顶点属于一条超边，则置为1，否则为0，即H(v,e)＝0；

在交叉模态检索算法中，采用K-NN方法构造超图模型；利用步骤3计算得到的组合相似度矩阵，分别计算每一个样本的k个邻居，并且通过邻居关系构造关系矩阵H；将超边的数量设置为样本点的数量，每一条超边对应一个顶点以及其k个最近的邻居，将这些点的对应H的元素设置为1；当所有点的邻居查找完毕后，就构成了一个完整的关系矩阵；

超图中除了顶点、边之外，还有一个非常重要的参数，即边的权重；本交叉模态检索算法中超边权重的计算公式如式(6)所示：

w (e_{i}) = \underset{v_{j} &Element; e_{i}}{Σ} S (i, j) - - - (6)

其中S是组合相似度矩阵；

步骤5、基于超图学习的交叉模态检索、重排序

基于超图的关系矩阵H，定义顶点v∈V的度为d(v)，超边e∈E的度为δ(v)，其中d(v)＝∑_e∈Ew(e)H(v,e)，δ(v)＝∑_v∈VH(v,e)；令D_v，D_e分别表示两个对角矩阵，其中对角元上的元素分别为顶点的度和超边的度，W同样表示一个对角矩阵，其对角元素为超边权重值；

定义超图学习的目标函数，如式(7)所示：

\begin{matrix} Ω (f) = \frac{1}{2} \underset{e &Element; E}{Σ} \underset{u, v &Element; V}{Σ} \frac{w (e) H (u, e) H (v, e)}{δ (e)} \times {(\frac{f (u)}{\sqrt{d (u)}} - \frac{f (v)}{\sqrt{d (v)}})}^{2} \\ + μ \underset{u &Element; V}{Σ} {(f (u) - y (u))}^{2} \end{matrix} - - - (7)

其中，f表示检索目标的排序分数向量，μ是平衡参数；通过优化目标函数(7)求得f；

令得到超图拉普拉斯Δ＝I-Θ，正则化的目标函数则重新表示成式(8)所示：

Ω(f)＝f^TΔf+μ(f-y)^T(f-y) (8)

通过对Ω(f)求导得：

f = (\frac{μ}{1 + μ}) {(I - \frac{1}{1 + μ} Θ)}^{- 1} y - - - (9)

通过式(9)便能够求得跨模态的检索结果；

通过选择不同的查询样本，将获得跨模态检索的结果f，通过排序f，获取与输入查询最相关的另一个模态的样本。