CN105677830A

CN105677830A - 一种基于实体映射的异构媒体相似性计算方法及检索方法

Info

Publication number: CN105677830A
Application number: CN201610003735.9A
Authority: CN
Inventors: 黄雷; 彭宇新
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2016-01-04
Filing date: 2016-01-04
Publication date: 2016-06-15
Anticipated expiration: 2036-01-04
Also published as: CN105677830B

Abstract

本发明提出了一种基于实体映射的异构媒体相似性计算方法及检索方法，包括以下步骤：建立包含不同模态媒体数据的异构媒体数据库，提取不同模态媒体数据的特征向量；构建实体层，作为从底层特征到高层语义之间的过渡；考虑单一模态媒体数据以及不同模态媒体数据之间的关联，学习得到实体映射，进而得到不同模态媒体数据在实体层的统一表示；生成语义抽象，得到高层语义概念的概率向量表示，最终得到异构媒体相似性计算结果用于异构媒体检索。本发明构建了具有明确语义的实体层作为从底层特征到高层语义的过渡桥梁，减少了高层语义概念的歧义性，使得不同模态媒体数据能够互相促进，提高相似性计算的准确性，从而取得更高的异构媒体检索准确率。

Description

一种基于实体映射的异构媒体相似性计算方法及检索方法

技术领域

本发明涉及多媒体检索技术领域，具体涉及一种基于实体映射的异构媒体相似性计算方法，以及相应的异构媒体检索方法。

背景技术

近年来，随着多媒体技术和互联网技术的迅速发展和普及，互联网上的文本、图像、视频和音频等不同模态的媒体数据呈快速增长趋势。网络信息已经由传统的单一文本、图像为主的模式逐渐转变为文本、图像、视频以及音频的异构媒体综合体，并已成为人们传播知识、获取信息和休闲娱乐的主要方式。面对海量且高速增长的异构媒体数据，如何对之进行有效的管理，使用户能够迅速检索到想要的信息，成为了一个亟待解决的关键问题。

现有的检索方式一般局限于单一媒体检索，如基于关键字的检索和基于内容的图像检索。基于关键字的检索起源于文本检索领域，随后扩展到其他模态的媒体数据，主要是通过关键字关联索引数据，用户提供文本查询，检索***再根据关键字提取准则处理并进行检索。基于内容的图像检索是指用户提供查询图像，检索***依据图像内容在图像数据库中检索出符合查询条件的结果，一般需要对媒体数据提取特征，以此来描述媒体数据的内容。上述两种检索方式都限制了用户的查询输入，同时返回结果也局限于单一媒体数据，而用户常常希望能够检索得到所有相关数据，包括文本、图像、视频和音频等不同模态的媒体数据。因此，异构媒体检索获得了研究者的广泛关注。异构媒体检索提供了灵活的检索方式，不限制用户提交查询的媒体类型；同时提供了全面的检索结果，能够返回不同模态的媒体数据。

现有的异构媒体相似性计算方法主要有两类：第一类是基于统一图模型的方法；第二类是基于统一特征子空间的方法。基于统一图模型的方法主要是利用不同模态媒体数据的共存关系，将不同模态媒体数据作为结点，构建异构媒体的统一图模型，利用图模型来度量不同模态媒体数据之间的相似度。每个媒体对象对应于统一图模型中的一个结点，结点之间边的权值表示两个媒体对象之间的相似度。通过标签传递算法，可以计算出用户查询与所有结点的相似度。这类方法当用户查询在数据库之外时，算法效果会大大降低，需要依赖人工反馈来提升检索准确率，自动化程度大大降低。基于统一特征子空间的方法将不同模态的特征显式映射到统一特征子空间，然后在其上进行相似性计算。这类方法一般把统一特征子空间作为从底层特征到高层特征过渡的统一表示层，但往往没有明确的语义，将会较大程度地忽视原始媒体数据的语义信息。

发明内容

针对现有技术的不足，本发明提出了一种基于实体映射的异构媒体相似性计算方法，以及相应的异构媒体检索方法，在底层特征和高层语义之间构建细粒度实体层来过渡，一定程度上减少了高层语义概念的歧义性，同时能够充分挖掘具有相同语义的异构媒体数据之间的关联关系，提高异构媒体检索的准确率。

本发明采用的技术方案如下：

一种基于实体映射的异构媒体相似性计算方法，用于计算不同模态媒体数据之间的异构媒体相似性，实现异构媒体检索，包括以下步骤：

(1)建立包含不同模态媒体数据的异构媒体数据库，并标注一定数量的异构媒体数据作为训练集，提取不同模态媒体数据的特征向量；

(2)对训练集数据提取并筛选实体，构建实体层，作为从底层特征到高层语义之间的中间层；

(3)利用训练集的不同模态媒体数据的特征向量以及对应的标注，考虑单一模态媒体数据以及不同模态媒体数据之间的关联，学习得到实体映射，进而得到不同模态媒体数据在实体层的统一表示；

(4)在实体层的统一表示基础上生成语义抽象，得到高层语义概念的概率向量表示，最终得到异构媒体相似性计算结果。

进一步，上述一种基于实体映射的异构媒体相似性计算方法，所述步骤(1)：不同模态媒体数据为文本和图像，对于文本数据，提取隐狄利克雷分布(LatentDirichletAllocation,LDA)特征向量；对于图像数据，提取尺度不变特征变换(Scale-InvariantFeatureTransform，SIFT)特征，然后聚类量化得到视觉词袋特征向量。

进一步，上述一种基于实体映射的异构媒体相似性计算方法，所述步骤(2)：使用文本领域的实体抽取工具，对文本数据提取得到实体。基于处于同一个异构媒体文档的异构媒体包含相同实体的共存假设，得到与文本对应的其他模态媒体数据的实体。针对训练集抽取得到的实体集合，基于工具特性和分类信息筛选出有助于分类的实体，构建得到实体层。

上述一种基于实体映射的异构媒体相似性计算方法，所述步骤(3)：通过考虑异构媒体关联误差，挖掘具有相同语义的不同模态媒体数据之间的关联；通过考虑单一媒体重构误差，保证媒体数据与所属高层语义概念之间的关联；最终通过迭代优化求解得到实体映射。

上述一种基于实体映射的异构媒体相似性计算方法，所述步骤(4)：在实体层的统一表示基础上，采用逻辑回归算法进行语义抽象，计算每一个高层语义概念的后验概率，从而得到高层语义概念的概率向量表示，以此来计算不同模态媒体数据在高层语义概念上的相似性。

一种采用上述相似性计算方法的基于实体映射的异构媒体检索方法，用于实现异构媒体检索，包括以下步骤：

(1)采用上述相似性计算方法，得到不同模态媒体数据在高层语义概念上的相似性计算结果；

(2)基于相似性计算结果大小对查询结果进行排序，得到异构媒体检索结果。

本发明的效果在于：与现有方法相比，本发明能够更好地实现异构媒体检索，同时取得更高的异构媒体检索准确率。本发明之所以具有上述效果，其原因在于：本发明在底层特征和高层语义之间构建了具有明确语义的实体层，以此作为从底层特征到高层语义的过渡桥梁，减少了高层语义概念的歧义性，同时有效地减小了直接从底层特征到高层语义的困难；考虑异构媒体关联误差和单一媒体重构误差，使得不同模态媒体数据能够互相促进。因为实体层的稀疏性，选取线性映射作为实体映射，通过迭代学习得到实体映射，然后采用逻辑回归学习得到高层语义概念的概率向量表示，这些简洁有效的算法在保证效率的基础上也能取得较高的准确率。

附图说明

图1是本发明的技术流程图。

图2是本发明的框架示意图。

图3是实体层构建流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明是一种基于实体映射的异构媒体相似性计算方法，其技术流程如图1所示，框架示意图如图2所示，具体包含以下步骤：

(1)建立包含文本和图像的异构媒体数据库，并标注一定数量的异构媒体数据作为训练集，提取不同模态媒体数据的特征向量。

本实施例中，对于文本数据，提取隐狄利克雷分布特征向量；对于图像数据，提取尺度不变特征变换特征，然后聚类量化得到视觉词袋特征向量。本实施例的方法同样支持其他特征，例如文本词袋特征、图像颜色特征、纹理特征等。此外，本实施例的方法同样可以扩展到视频、音频等其他模态的异构媒体数据。

(2)对训练集数据使用实体抽取工具抽取实体，基于工具特性以及分类信息筛选出有用实体，构建得到实体层。

本实施例中，实体层构建流程图如图3所示，首先采用文本领域的实体抽取工具Wikifier作为实体抽取工具，对文本数据提取得到初始实体。同时，基于处于同一个异构媒体文档的异构媒体包含相同实体的共存假设，得到与文本对应的其他模态媒体数据的实体。

基于工具特性进行实体筛选，根据Wikifier抽取得到实体的情况，制定了两条启发式规则：首先选取预测得分大于一定阈值的实体；其次排除含有数字的实体，比如抽取得到的一些特定年份和时间结点。

基于分类信息进行实体筛选，采用互信息特征选择算法计算出每个实体关于每个高层语义概念的互信息，计算方法如下所示：

I (V_{E}, V_{C}) = \underset{e_{i} &Element; {0, 1}}{Σ} \underset{c_{i} &Element; {0, 1}}{Σ} P (V_{E} = e_{i}, V_{C} = c_{i}) \log \frac{P (V_{E} = e_{i}, V_{C} = c_{i})}{P (V_{E} = e_{i}, V_{C} = c_{i})} - - - (1)

其中，V_E∈{e_i|i＝1,2,...,n_E}表示实体变量，n_E表示实体数量；V_C∈{c_i|i＝1,2,...,n_C}表示高层语义概念变量，n_C表示概念数量。当e_i＝1和c_i＝1时，可以使用如下公式计算公式(1)中的概率：

P(e_i＝1,c_i＝1)＝n(e_i＝1,c_i＝1)/N

P(e_i＝1)＝n(e_i＝1)/N(2)

P(c_i＝1)＝n(c_i＝1)/N

其中，n(e_i＝1,c_i＝1)表示既包含实体e_i又属于概念c_i的异构媒体的数目；n(e_i＝1)表示包含实体e_i的异构媒体的数目；n(c_i＝1)属于概念c_i的异构媒体的数目，N表示异构媒体的总数目。

根据公式(1)和(2)计算得到每个实体关于每个高层语义概念的互信息，再取平均得到每个实体的互信息，以此来度量实体包含分类信息的大小，最后排序筛选出合适数目的实体，构建得到实体层。

(3)考虑单一模态媒体数据以及不同模态媒体数据之间的关联，学习得到实体映射，得到不同模态媒体数据在实体层的统一表示。

考虑到实体层的稀疏性以及检索效率，本实施例中选取线性映射作为实体映射，通过考虑异构媒体关联误差，挖掘具有相同语义的不同模态媒体数据之间的关联；通过考虑单一媒体重构误差，保证媒体数据与所属高层语义概念之间的关联。从而可以得到如下目标函数：

\min_{P_{T}, P_{I}} | | X_{T} P_{T} - X_{I} P_{I} | |_{F}^{2} + μ (| | X_{T} P_{T} - Y_{E} | |_{F}^{2} + | | X_{I} P_{I} - Y_{E} | |_{F}^{2}) + λ (| | P_{T} | |_{F}^{2} + | | P_{I} | |_{F}^{2}) - - - (3)

其中，表示弗罗贝尼乌斯范数(Frobeniusnorm)。X_T和X_I分别表示文本特征和图像特征，P_T和P_I分别表示文本特征和图像特征对应的实体映射，Y_E表示抽取得到的实体层标签。表示异构媒体关联误差，和表示单一媒体重构误差。和是防止过拟合的误差项。μ和λ是平衡不同误差项的参数。

公式(3)固定P_I求P_T，固定P_T求P_I：

P_{T} = {((1 + μ) X_{T}^{T} X_{T} + λ I)}^{- 1} (X_{T}^{T} X_{I} P_{I} + {μX}_{T}^{T} Y_{E}) - - - (4)

P_{I} = {((1 + μ) X_{I}^{T} X_{I} + λ I)}^{- 1} (X_{I}^{T} X_{T} P_{T} + {μX}_{I}^{T} Y_{E}) - - - (5)

通过迭代求解，得到实体映射。

本实施例中通过实体映射可以得到测试集样本在实体层的统一表示，如下公式所示：

Y_{E_{T}}^{*} = X_{T}^{*} P_{T} - - - (6)

Y_{E_{I}}^{*} = X_{I}^{*} P_{I} - - - (7)

其中，和分别表示测试集的文本特征和图像特征，和分别表示测试集的文本和图像在实体层的统一表示。

为了在高层语义层面上进行检索，需要进一步生成语义抽象。本实施例采用逻辑回归算法得到高层语义概念的概率向量表示，具体计算方法如下：

\min_{w} \frac{1}{2} w^{T} w + C \underset{i}{Σ} l o g (1 + \exp (- y_{c_{i}} w^{T} x_{i})) - - - (8)

其中，表示样本x_i的高层语义概念标签，w表示参数向量，C表示代价参数。

学习得到逻辑回归参数，得到高层语义概念的后验概率表示，然后计算不同模态媒体数据之间的中心归一化关联度作为相似性计算结果，具体计算方法如下：

d (p, q) = \frac{{(p - μ_{p})}^{T} (q - μ_{q})}{| | p - μ_{p} | | \cdot | | q - μ_{q} | |} - - - (9)

其中，p和q表示样本的特征向量，μ_p和μ_q分别表示p和q的平均值。

通过公式(9)得到异构媒体相似性计算结果，再对结果进行排序，输出最终的检索结果。

下面的实验结果表明，与现有方法相比，本发明基于实体映射的异构媒体相似性计算方法，可以取得更高的检索准确率。

本实施例中采用了Wikipedia异构媒体数据集进行实验，该数据集由文献“Anewapproachtocross-modalmultimediaretrieval”(作者N.Rasiwasia,J.Pereira,E.Coviello,G.Doyle,G.Lanckriet,R.Levy和N.Vasconcelos，发表在2010年的ACMinternationalconferenceonMultimedia)提出，其中包括2866个异构媒体文档，每个异构媒体文档包含相对应的一段文本和一张图像。该数据集包含10个高层语义概念，每个异构媒体文档只属于特定的一个高层语义概念，其中对应的2173段文本和2173张图像作为训练集，剩下的693段文本和693张图像作为测试集。我们测试了以下4种方法作为实验对比：

现有方法一：文献“Towardssemanticknowledgepropagationfromtextcorpustowebimages”(作者G.J.Qi,C.Aggarwal和T.Huang，发表在2011年的internationalconferenceonWorldWideWeb)中的方法，该方法将异构媒体特征投射到统一的隐主题空间，然后计算异构媒体相似性；

现有方法二：文献“Generalizedmultiviewanalysis:Adiscriminativelatentspace”(作者A.Sharma,A.Kumar,H.DaumeIII和D.W.Jacobs，发表在2012年的IEEEConferenceonComputerVisionandPatternRecognition)中的广义多视角分析(GeneralizedMultiviewAnalysis,GMA)，对典型相关分析(CanonicalCorrelationalAnalysis,CCA)进行了监督扩展，在统一特征子空间上进行相似性度量。

现有方法三：文献“Supervisedcoupleddictionarylearningwithgroupstructuresformulti-modalretrieval”(作者Y.Zhuang,Y.Wang,F.Wu,Y.Zhang和W.Lu，发表在2013年的AAAIConferenceonArtificialIntelligence)中的SliM²方法，该方法学习异构媒体的耦合字典，挖掘异构媒体中的共有字典结构特性，通过这些耦合字典学习得到不同模态媒体数据的映射，最后得到统一表示来计算相似性。

现有方法四：文献“Ontheroleofcorrelationandabstractionincross-modalmultimediaretrieval”(作者J.C.Pereira,E.Coviello,G.Doyle,N.Rasiwasia,G.Lanckriet,R.Levy和N.Vasconcelos，发表在2014年IEEETransactionsonPatternAnalysisandMachineIntelligence)中的语义相关匹配(SemanticCorrelationMatching,SCM)，该方法通过典型相关分析得到统一表示子空间，再通过语义抽象得到在高层语义概念上的统一表示，最后计算异构媒体相似性。

本发明：本实施例中的方法。

实验采用信息检索领域最常用的MAP(MeanAveragePrecision)指标来评测异构媒体检索的准确率，MAP是指每个查询样例检索准确率的平均值，MAP值越大，说明异构媒体检索的结果越好。

从表1可以看出，本发明取得了最好的异构媒体检索结果，对比现有方法一、现有方法二和现有方法三，这三种方法都是将异构媒体特征映射到统一的特征子空间，但是这个统一的特征子空间没有明确的语义，较大程度上忽视了原始媒体数据的语义信息。而对比现有方法四，主要区别也是集中在统一表示上，现有方法四是通过典型相关分析等非监督算法得到统一特征子空间；而本发明是通过构建具有明确语义的实体层来进行过渡，减少了高层语义概念的歧义性，同时有效地减小了直接从底层特征到高层语义的困难，因此能够有效提高异构媒体检索结果。

表1.与现有方法的对比实验结果

对比方法	图像查询文本	文本查询图像	平均
				现有方法一	0.237	0.137	0.187
现有方法二	0.283	0.214	0.249
				现有方法三	0.230	0.191	0.211
现有方法四	0.362	0.273	0.318
				本发明	0.387	0.290	0.339

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于实体映射的异构媒体相似性计算方法，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤(1)中不同模态媒体数据为文本和图像，对于文本数据，提取隐狄利克雷分布特征向量；对于图像数据，提取尺度不变特征变换特征，然后聚类量化得到视觉词袋特征向量。

3.如权利要求1所述的方法，其特征在于，所述步骤(2)使用实体抽取工具对文本数据提取得到初始实体；针对训练集抽取得到的实体集合，基于工具特性和分类信息筛选出有助于分类的实体，构建得到实体层。

4.如权利要求3所述的方法，其特征在于，基于分类信息进行实体筛选时，采用互信息特征选择算法计算出每个实体关于每个高层语义概念的互信息，再取平均得到每个实体的互信息，以此来度量实体包含分类信息的大小，最后排序筛选出合适数目的实体，构建得到实体层。

5.如权利要求1所述的方法，其特征在于，所述步骤(3)通过考虑异构媒体关联误差，挖掘具有相同语义的不同模态媒体数据之间的关联；通过考虑单一媒体重构误差，保证媒体数据与所属概念之间的关联。

6.如权利要求5所述的方法，其特征在于，考虑到实体层的稀疏性以及检索效率，选取线性映射作为实体映射，最终通过迭代优化求解得到实体映射。

7.如权利要求1所述的方法，其特征在于，所述步骤(4)在实体层的统一表示基础上，采用逻辑回归算法进行语义抽象，计算每一个高层语义概念的后验概率，从而得到高层语义概念的概率向量表示，然后计算不同模态媒体数据之间的中心归一化关联度作为相似性计算结果。

8.一种采用上述相似性计算方法的基于实体映射的异构媒体检索方法，包括以下步骤：

(1)采用权利要求1至7中任一项所述的相似性计算方法，得到不同模态媒体数据在高层语义概念上的相似性计算结果；