CN103049526A

CN103049526A - 基于双空间学习的跨媒体检索方法

Info

Publication number: CN103049526A
Application number: CN201210559081XA
Authority: CN
Inventors: 王亮; 谭铁牛; 赫然; 王开业; 王威
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-12-20
Filing date: 2012-12-20
Publication date: 2013-04-17
Anticipated expiration: 2032-12-20
Also published as: CN103049526B

Abstract

本发明公开了一种基于双空间学习的跨媒体检索方法。该方法包括：首先提取不同模态的多媒体数据的特征，利用双空间学习方法学习得到两个映射矩阵，将不同模态的数据映射到同一个空间；对于测试样本集，将其分为两部分：查询数据集和目标数据集，使用学习得到的映射矩阵将两个数据集的数据映射到统一空间，然后度量查询数据和目标数据之间的距离，并得到与查询数据距离最近的目标数据。本发明可以将不同模态的多媒体数据映射入统一空间进行度量，且在映射的同时进行了特征选择，提高了检索的鲁棒性和准确性，具有良好的运用前景。

Description

基于双空间学习的跨媒体检索方法

技术领域

本发明涉及模式识别技术领域，特别是一种基于双空间学习的跨媒体检索方法。

背景技术

近些年来，随着Web2.0技术的兴起，互联网上的多媒体数据呈现出***式的增长，用户需要从这些海量数据中检索自己想要的文章、图片、视频等内容。而现在的主流搜索引擎如百度、谷歌等，采用的搜索技术依然是基于关键字的，而这种搜索技术无法解决各个媒体之间存在的语义鸿沟。为了实现跨媒体检索，需要提供一种从一类多媒体数据检索另一类多媒体数据的综合检索方法。

跨媒体检索方法的研究已经引起了国内外学术界的重视。目前国际上已经提出了一些方法来建模不同模态的多媒体数据之间的关系，现有方法可以分为两类：1)将两个模态的多媒体数据映射到同一子空间，然后在这个学习到的子空间里度量不同模态的多媒体之间的相似性，以此来实现跨媒体检索。2)将一类模态的多媒体数据转换到另一种模态的多媒体数据的特征空间中进行不同模态数据的相似性度量，以此来实现跨媒体检索。然而，现有方法都忽略了另一个重要问题，即如何从不同模态的特征空间中同时选择出最相关和最有区分力的特征，这个问题称为双空间特征选择。为了在学习子空间的同时，进行双空间特征选择，本发明提出一种基于双空间学习的跨媒体检索方法，该方法有效地实现了不同模态媒体之间的语义鸿沟的跨越，进而使得搜索引擎返回的结果更加准确。

发明内容

为了解决现有技术存在的问题，本发明的目的是提供一种基于双空间学习的跨媒体检索方法。该方法通过最小化一个目标函数，能同时进行子空间学习和双空间特征选择，在学习到的子空间中度量不同模态的多媒体数据的相似性，以此来实现跨媒体检索。

本发明提出的一种基于双空间学习的跨媒体检索方法包括以下步骤：

步骤S1，收集不同模态的多媒体数据样本，建立跨媒体检索知识数据库，并将所述数据库分为训练集和测试集；

步骤S2，提取所述数据库中不同模态多媒体数据样本的特征向量；

步骤S3，基于所述训练集中的不同模态数据的特征向量得到与所述不同模态分别对应的映射矩阵；

步骤S4，根据所述测试集中多媒体数据样本的模态类别，利用所述步骤S3得到的映射矩阵将它们映射到同一空间；

步骤S5，将映射到同一空间后的测试集中同一模态类别的多媒体数据作为查询集，另一模态类别的多媒体数据作为目标集；

步骤S6，对于所述查询集中的一个多媒体数据，根据多媒体数据之间的相似度，得到所述目标集中与它最为相似的多媒体数据，从而得到跨媒体检索结果。

根据本发明的方法，可以将不同模态的多媒体数据映射入统一空间进行度量，且在映射的同时进行了特征选择，提高了检索的鲁棒性和准确性，具有良好的运用前景。本发明方法能有效地跨越了不同模态媒体之间的语义鸿沟，进而使得跨媒体搜索引擎返回的结果更加准确。

附图说明

图1是本发明基于双空间学习的跨媒体检索方法流程图；

图2是根据本发明跨媒体检索方法从文本到图像的检索效果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明通过双空间学习来学习两个映射矩阵，将不同模态的数据映射到同一个子空间中去，并在映射的同时进行了特征选择；在学习到的子空间中度量不同模态的数据的相似性，以此来实现跨媒体检索的目的。

图1是本发明基于双空间学习的跨媒体检索方法流程图，如图1所示，本发明提出的一种基于双空间学习的跨模态检索方法包括以下几个步骤：

所述不同模态比如可以为文本、图像等模态，为了便于对本发明进行说明，下文以文本和图像这两个模态的数据为例进行解释。

在将所述数据库分为训练集和测试集时，可根据实际需要进行划分，比如可将所述数据库中的80％的数据划分为训练集，剩下的20％的数据划分为测试集。

本发明中，对于文本和图像分别使用隐狄雷克雷分布(Latent DirichletAllocation，LDA)算法和尺度不变特征变换(Scale-Invariant FeatureTransform，SIFT)算法进行特征提取。

在对该步骤进行详细介绍前，先介绍一些矩阵运算符：

对于矩阵

为n×m的矩阵空间，矩阵M的第i行元素表示为mⁱ，矩阵M的第j列元素表示为m_j，而矩阵M的Frobenius范数，简称F-范数定义为：

{| | M | |}_{F} = \sqrt{Σ_{i = 1}^{n} {| | m^{i} | |}_{2}^{2}} - - - (1)

矩阵M的行向量的二范数的和‖M‖₂₁定义为：

{| | M | |}_{21} = Σ_{i = 1}^{n} {| | m^{i} | |}_{2} - - - (2)

矩阵M的迹范数定义为：

{| | M | |}_{*} = Σ_{i = 1}^{\min (m, n)} σ_{i} - - - (3)

其中，σ_i表示矩阵M的第i个奇异值。

对于向量

表示一个对角线元素为u_i的对角矩阵，其中，u_i表示向量u的第i个元素。

设所述训练集中文本多媒体数据的特征向量组成的矩阵为

d1为特征向量的维数，n为特征向量的个数，a表示模态类别；图像多媒体数据的特征向量组成的矩阵为

d2为特征向量的维数，n为特征向量的个数，b表示模态类别；类别标签矩阵为

n为特征向量的个数，c为模态类别的个数。

所述步骤S3进一步包括以下步骤：

步骤S31，基于所述训练集中不同模态数据的特征向量建立目标函数：

\min_{U_{a}, U_{b}} \frac{1}{2} (| | X_{a}^{T} U_{a} - Y {| |}_{F}^{2} + | | X_{b}^{T} U_{b} - {Y | |}_{F}^{2}) + λ_{1} (| | U_{a} {| |}_{21} + | | U_{b} {| |}_{21}) + λ_{2} | | [X_{a}^{T} U_{a} X_{b}^{T} U_{b}] {| |}_{*} - - - (4)

其中，U_a和U_b为与文本和图像分别对应的两个映射矩阵，λ₁和λ₂均为待定参数，取值范围为0.0001至0.1；

步骤S32，求解所述目标函数(比如通过迭代算法)得到与所述不同模态分别对应的映射矩阵：

所述步骤S32进一步包括以下步骤：

步骤S321，设置映射矩阵U_a和U_b的初始值为零矩阵，设置最大迭代次数k，并设置迭代次数的初始值为1；

步骤S322，对矩阵

进行特征值分解，得到特征值分解结果：VDiag(d)V^T，其中，V为以矩阵

的特征值向量为列向量组成的矩阵；d为特征值向量对应的特征值组成的向量。

步骤S323，设定中间变量S^-1＝VDiag(c)V^T，其中，c是一个向量，它的第i个元素为

其中，d_i是向量d的第i个元素，μ为一极小数。

步骤S324，根据下式计算中间向量p和q的第i个元素p_i和q_i：

\{\begin{matrix} p_{i} = \frac{1}{2 \sqrt{{| | u_{a}^{i} | |}_{2}^{2} + ϵ}} \\ q_{i} = \frac{1}{2 \sqrt{{| | u_{b}^{i} | |}_{2}^{2} + ϵ}} \end{matrix} - - - (5)

并令P＝Diag(p)，Q＝Diag(q)，其中，ε为一极小数。

步骤S325，通过求解下式中的两个线性问题来求得所述映射矩阵U_a和U_b：

\{\begin{matrix} (X_{a} X_{a}^{T} + λ_{1} P_{a} + λ_{2} X_{a} S^{- 1} X_{a}^{T}) U_{a} = X_{a} Y \\ (X_{b} X_{b}^{T} + λ_{1} P_{b} + λ_{2} X_{b} S^{- 1} X_{b}^{T}) U_{b} = X_{b} Y \end{matrix} - - - (6)

步骤S326，判断此时的迭代次数是否小于最大迭代次数k，若是，则转向所述步骤S322继续迭代；若否，则停止迭代，得到所述映射矩阵U_a和U_b。

所述多媒体数据之间的相似度可以使用欧式距离来度量，对于欧式距离来说，距离越近就说明这两个多媒体数据越相似。

为了验证本发明方法的有效性，接下来将本发明所提出的方法应用于一个多媒体数据库。该数据库中包含10个语义范畴的多媒体数据，包括2866对相同语义信息的文本和图像，随机选取其中的2173对文本和图像样本作为训练集，选取其中的693对文本和图像样本作为测试集，应用本发明方法的具体步骤如下：

1)对于所述数据库中的数据根据模态类别的不同提取不同的特征向量：对于文本模态，提取10维的LDA语义特征，对于图像模态，提取128维的SIFT特征；

2)将所述训练集中文本数据的特征向量和图像数据的特征向量组成特征矩阵，构造目标函数，通过最小化目标函数来学习得到与文本和图像对应的两个映射矩阵，所述映射矩阵的学习过程是通过一个迭代过程实现的；

3)根据所述模态类别的不同，将测试集中的文本数据的特征向量和图像数据的特征向量通过学习得到的映射矩阵映射到同一空间中；

4)将测试集中的文本数据作为查询集，图像数据作为目标集，给定一个文本文档，能够得到目标集中和它最相似(即欧式距离最近)的图像。图2是根据本发明跨媒体检索方法从文本到图像的检索效果示意图，图2左侧是两个文本文档，右侧是根据本发明方法得到的与这两个文本文档最为相似的图像。

综上，本发明提出了一种有效的基于双空间学习的跨媒体检索方法。本发明易于实现、性能稳定，识别准确率高。本发明提出有效地跨越了不同模态媒体之间的语义鸿沟，与传统的跨媒体方法比较，本发明表现出更广泛的运用前景和更大的市场价值。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双空间学习的跨媒体检索方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述不同模态为双模态。

3.根据权利要求2所述的方法，其特征在于，所述双模态为文本和图像。

4.根据权利要求3所述的方法，其特征在于，对于文本多媒体数据样本，提取其隐狄雷克雷分布特征向量；对于图像多媒体数据样本，提取其尺度不变特征变换特征向量。

5.根据权利要求1所述的方法，其特征在于，所述步骤S3进一步包括以下步骤：

步骤S31，基于所述训练集中不同模态数据的特征向量建立目标函数；

步骤S32，求解所述目标函数得到与所述不同模态分别对应的映射矩阵。

6.根据权利要求5所述的方法，其特征在于，所述目标函数为：

\min_{U_{a}, U_{b}} \frac{1}{2} (| | X_{a}^{T} U_{a} - Y {| |}_{F}^{2} + | | X_{b}^{T} U_{b} - {Y | |}_{F}^{2}) + λ_{1} (| | U_{a} {| |}_{21} + | | U_{b} {| |}_{21}) + λ_{2} | | [X_{a}^{T} U_{a} X_{b}^{T} U_{b}] {| |}_{*},

其中，U_a和U_b为与双模态分别对应的两个映射矩阵，λ₁和λ₂均为待定参数，‖·‖_F为求取F-范数操作，‖·‖₂₁为求取行向量二范数和操作，‖·‖_*为求取迹范数操作。

7.根据权利要求5所述的方法，其特征在于，对于所述目标函数的求解使用迭代算法来进行。

8.根据权利要求7所述的方法，其特征在于，所述步骤S32进一步包括以下步骤：

步骤S321，设置映射矩阵U_a和U_b的初始值为零矩阵，设置最大迭代次数k，迭代次数的初始值为1；

步骤S322，对矩阵

进行特征值分解，得到特征值分解结果：VDiag(d)V^T，其中，

为所述训练集中文本多媒体数据的特征向量组成的矩阵，d1为特征向量的维数，n为特征向量的个数，a表示模态类别；为所述训练集中图像多媒体数据的特征向量组成的矩阵，d2为特征向量的维数，n为特征向量的个数，b表示模态类别；V为以矩阵

的特征值向量为列向量组成的矩阵；d为特征值向量对应的特征值组成的向量；

其中，d_i是向量d的第i个元素，μ为一极小数；

步骤S324，根据下式计算中间向量p和q的第i个元素p_i和q_i：

\{\begin{matrix} p_{i} = \frac{1}{2 \sqrt{{| | u_{a}^{i} | |}_{2}^{2} + ϵ}} \\ q_{i} = \frac{1}{2 \sqrt{{| | u_{b}^{i} | |}_{2}^{2} + ϵ}} \end{matrix},

并令P＝Diag(p)，Q＝Diag(q)，其中，ε为一极小数；

\{\begin{matrix} (X_{a} X_{a}^{T} + λ_{1} P_{a} + λ_{2} X_{a} S^{- 1} X_{a}^{T}) U_{a} = X_{a} Y \\ (X_{b} X_{b}^{T} + λ_{1} P_{b} + λ_{2} X_{b} S^{- 1} X_{b}^{T}) U_{b} = X_{b} Y \end{matrix},

其中，

为类别标签矩阵，n为特征向量的个数，c为模态类别的个数；

9.根据权利要求1所述的方法，其特征在于，所述多媒体数据之间的相似度使用欧式距离来度量。