CN106202413B

CN106202413B - 一种跨媒体检索方法

Info

Publication number: CN106202413B
Application number: CN201610544156.5A
Authority: CN
Inventors: 王文敏; 韩梁; 范梦迪; 王荣刚; 李革; 董胜富; 王振宇; 李英; 赵辉; 高文
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2016-07-11
Filing date: 2016-07-11
Publication date: 2018-11-20
Anticipated expiration: 2036-07-11
Also published as: WO2018010365A1; CN106202413A; US20190205393A1; US10719664B2

Abstract

本发明公布了一种新的跨媒体检索方法，利用VGG提出的卷积神经网络VGG net提取图像特征，将VGG卷积神经网络中的第七层全连接层fc7通过ReLU激活函数之后的4096维特征作为图像特征；利用基于Word2vec的Fisher Vector提取文本特征，通过逻辑回归的方法对异构图像、文本特征进行语义匹配，通过基于逻辑回归的语义匹配方法找到图像、文本这两种异构特征之间的关联，从而实现跨媒体检索；本发明的特征提取方法能有效地表示图像和文本的深层语义，可提高跨媒体检索的准确度，从而大幅度提升跨媒体检索效果。

Description

一种跨媒体检索方法

技术领域

本发明属于深度学习和多媒体检索技术领域，涉及跨媒体检索方法，尤其涉及一种利用卷积神经网络提取图像特征和Fisher Vector提取文本特征的跨媒体检索方法。

背景技术

随着互联网的高速发展，图像、文本、视频、音频等不同类型的多媒体数据呈现出***性的增长。这些多媒体数据经常会同时出现，用来描述一个相同的事物。不同模态的信息反映了事物的不同属性，人们需要获取不同模态的信息来满足对事物不同形式的描述的需求。比如，对于一副图像，我们想要找到与其相关的文字描述；或者对于一段文本，找到符合这段文本语义的图像或是视频。要满足上述需求，就需要实现跨媒体检索的相关技术。

现有检索***大都是建立在单一模态文本信息的基础上，例如谷歌、百度等搜索引擎。通过查询请求检索图像、音频、视频的功能本质上是对一个由文字信息组成的元数据库上的内容匹配，这种检索仍然属于传统的基于关键字的检索技术。虽然关键字能够准确地描述概念的细节信息，但是它很难完整、生动地呈现一幅图片或一段视频的内容，并可能带有标注人的主观意愿。其固有缺陷使得大批学者开始转向研究基于内容的检索技术，通过充分挖掘多媒体数据的语义关联，使计算机能够更准确地理解多媒体信息表达的内容。然而，基于内容的检索一般只关注媒体底层特征，且通常针对单一模态媒体对象，使得查询和检索结果必须为相同的模态，无法实现跨越各种媒体类型的综合检索。因此，跨媒体检索的概念被提出。跨媒体检索是不依托于某个单一模态的媒体，可以实现任意模态媒体之间的相互检索。输入任意类型媒体的信息，通过跨媒体检索即可得到相关的其他媒体信息在多模态的巨量数据中，更快地检索出符合要求的结果。

现有的跨媒体检索方法主要涉及三个关键问题：跨媒体度量、跨媒体索引、跨媒体排序。针对这三个关键问题的典型方法分别是基于匹配模型的跨媒体度量方法、基于哈希学习的跨媒体索引方法和基于排序学习的跨媒体排序方法，具体如下：

第一，基于匹配模型的跨媒体度量方法，通过已知类别的训练数据对匹配模型进行训练，来挖掘不同类型数据之间的内在联系，进而对跨媒体数据之间的相似度进行计算，返回相关性最高的检索结果。匹配模型有两种匹配方法，一种是基于相关性的匹配，如利用典型相关性分析(Canonical Correlation Analysis，CCA)的方法；另一种是基于语义的匹配(SemanticMatching，SM)，如利用多类逻辑回归的方法进行语义分类。

第二，基于哈希学习的跨媒体索引方法。由于互联网中海量大数据的出现，使得人们对检索速度提出了更高的要求。哈希索引是加快近似近邻检索的一种有效方法。该方法通过学习到的哈希模型将原始特征数据转化为二进制哈希码，同时尽可能地保持原空间中的近邻关系，即保持相关性。

第三，基于排序学习的跨媒体排序方法。跨媒体排序的目的是学习不同模态之间的基于语义相似度的排序模型。具体做法是在检索出语义相关的跨媒体数据之后，对检索结果做一个更优的排序，使得相关性更高的数据更加靠前，不断迭代优化过程，直到收敛得到最优检索。

上述这些方法中，所用的图像和文本特征几乎都是使用人工定义的传统特征，如SIFT特征。随着计算机处理性能和计算能力的不断提高，传统的人工特征极大地阻碍了跨媒体检索性能的提升，近一年，人们开始关注深度学习相关技术与跨媒体检索的结合。事实证明，深度学习的有效应用往往能对检索效果带来突破性的进展。

发明内容

为了克服上述现有技术的不足，本发明提供一种新的跨媒体检索方法，利用Visual Geometry Group团队(简称VGG)提出的卷积神经网络(称作VGG net)提取图像特征，利用基于Word2vec的Fisher Vector提取文本特征，通过逻辑回归的方法对异构图像、文本特征进行语义匹配，从而实现跨媒体检索；现有跨媒体检索方法普遍都是基于传统的人工提取的特征，与人工定义的传统特征相比，本发明的特征提取方法能有效地表示图像和文本的深层语义，可提高跨媒体检索的准确度，从而大幅度提升跨媒体检索效果。

本发明的原理是：将文献[1](Simonyan K,Zisserman A.Very DeepConvolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014)记载的VGG卷积神经网络用来提取图像特征，使用基于Word2vec的Fisher Vector(简称，FV)特征作为文本特征，再通过基于逻辑回归的语义匹配(Semantic Matching，SM)方法找到图像、文本这两种异构特征之间的关联，由此达到跨媒体检索的目的。本发明所提出的特征能更好的对图像和文本进行表达，可提高跨媒体检索的准确度。

本发明提供的技术方案是：

一种跨媒体检索方法，利用VGG提出的卷积神经网络(称作VGG net)提取图像特征，利用基于Word2vec的Fisher Vector提取文本特征，通过逻辑回归的方法对异构图像、文本特征进行语义匹配，从而实现跨媒体检索；包括如下步骤：

1)收集含有类别标签的跨媒体检索数据集，设为D＝{D₁，D₂，...，D_n}，n表示数据集的大小；所述跨媒体检索数据集中数据的类型包括图像和文本两种媒体类型，表示为图像-文本对D_i(D_i∈D)，其中表示图像的原始数据，表示文本的原始数据；类别标签设为L，L＝[l₁，l₂，...，l_n]，其中l_i∈[1，2，...，C]，C为类别的数目，l_i表示第i对图像和文本所属的类别；将所述跨媒体检索数据集划分为训练数据和测试数据；

2)对于数据集D中的所有图像数据D^I，其中使用VGG卷积神经网络方法提取得到图像特征，将VGG卷积神经网络中的第七层全连接层fc7通过ReLU激活函数之后的4096维特征，记作I＝{I₁，I₂，...，I_n}，其中I_j∈R⁴⁰⁹⁶，j∈[1，n]，作为图像特征；

3)对于数据集中的文本特征数据D^T，其中使用基于Word2vec的Fisher Vector方法提取文本特征；具体将D^T转换成词向量集合W＝{W₁，W₂，...，W_n}，W为D^T包含的单词的词向量集合；将W＝{W₁，W₂，...，W_n}中的每个文本词向量集合Wi代入式1中的X，求得每个文本的Fisher Vector，记作T＝{T₁，T₂，...，T_n}，T_i∈R^{(2×dw+1)×G-1}，i∈[1，n]，其中，T_i表示由第i个文本计算出来的Fisher Vector；由此提取得到文本特征；

4)使用执行步骤2)和步骤3)得到的训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练，将文本特征T转换成了文本语义特征Π^T，c是类别的个数，也是文本语义特征的维数；将图像特征I_i转换成后验概率组成的语义特征，后验概率为表示图像I_i属于类别k的概率；

5)利用步骤4)训练好的语义匹配模型，使用步骤2和步骤3得到的测试数据的图像特征和文本特征，针对一幅图片或文本进行测试，得到相关的文本或图片，即为跨媒体检索结果。

针对上述跨媒体检索方法，进一步地，步骤3)使用基于Word2vec的Fisher Vector方法提取文本特征，具体包括如下过程：

31)将原始文本数据D^T，其中转换成词向量集合W＝{W₁，W₂，...，W_n}，W为D^T包含的单词的词向量集合；

32)将单词记作w，单词w所对应的词向量为f_word2vec(w)；对于有f_word2vec(w)∈W_i，i∈[1，n]，即其中w_i，j∈R^dw，j∈[1，b_i]，w_i，j为包含单词所对应的词向量，dw为词向量的维度，b_i为中包含的单词个数；

33)用X＝{x₁，x₂，...，x_nw}表示一个文本的词向量集合，nw为词向量个数；令混合高斯模型GMM的参数为λ，λ＝{ω_i，μ_i，∑_i，i＝1..G}，其中ω_i，μ_i，∑_i分别表示GMM中每个高斯函数的权重、均值向量和协方差矩阵，G表示模型中高斯函数的个数；

GMM函数定义为式1：

其中，p(x_t|λ)表示对于向量x_t(t∈[1，nw])，由GMM产生的概率值p(x_t|λ)，表示为式2：

对权重ω_i设置总和为1约束，表示为式3：

其中，p_i(x|λ)表示GMM中的第i个高斯函数，由式4给出：

其中，dw是向量的维度，|∑_i|表示求∑_i的行列式；

用γ_t(i)来表示向量x_t由第i个高斯函数产生的概率，表示为式5：

34)对高斯模型的参数求偏导即得到Fisher Vector；所述Fisher Vector是将所有参数的求导结果连接组成的向量；所述高斯混合模型中高斯函数个数为G，向量维度为dw，所述FisherVector的维度为(2×dw+1)×G-1；权重ω的自由度为N-1；

35)将W＝{W₁，W₂，...，W_n}中的每个文本词向量集合Wi代入式1中的文本的词向量集合X，求得每个文本的Fisher Vector，记作T＝{T₁，T₂，...，T_n}，T_i∈R^{(2×dw+1)×G-1}，i∈[1，n]，其中，T_i表示由第i个文本计算出来的Fisher Vector。

更进一步地，步骤34)所述对高斯模型的参数求偏导，具体地，对各个参数的求导公式如式6～式8：

其中，上标d表示向量的第d个维度。

针对上述跨媒体检索方法，进一步地，步骤4)所述使用训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练，所述图像特征为I＝{I₁，I₂，...，I_n}，I_j∈R⁴⁰⁹⁶；所述文本特征为T＝{T₁，T₂，...，T_n}，T_i∈R^{(2×dw+1)×G-1}；相应的图像特征和文本特征具有共同的标签为L＝[l₁，l₂，...，l_n]，其中l_i∈[1，2，...，C]；所述训练具体包括：

41)将文本特征T_i转换成由后验概率组成的语义特征Π^T， c是类别的个数，也是文本语义特征的维数；表示为式10：

其中，上标d表示向量中的第d个维度；后验概率为k∈[1，C]，表示文本Ti属于类别k的概率，通过式9计算得到

其中，是多类别逻辑回归线性分类器的参数，，表示的转置，对应类别k，其中D_T＝(2×dw+1)×G-1，D_T为文本特征的维度；

42)将图像特征T转换成图像语义特征Π^I， c是类别的个数，也就是图像语义特征的维数；表示为式12：

其中，上标d表示向量中的第d个维度；后验概率为表示图像I_i属于类别k的概率，其中的计算公式如下：

其中，是多类别逻辑回归线性分类器的参数，对应类别k，是一个D_I维的向量，D_I为图像特征的维度。

针对上述跨媒体检索方法，进一步地，步骤5)所述针对一幅图片或文本进行测试，得到相关的文本或图片；所述相关性的度量方法包括Kullback-Leibler divergence方法、Normalized Correlation方法、Centered Correlation方法和L2范式方法中的一种或多种。

与现有技术相比，本发明的有益效果是：

本发明使用VGG卷积神经网络提取图像特征，使用基于Word2vec的Fisher Vector(FV)特征作为文本特征，图像和文本都使用了神经网络提取特征的方法。与传统的人工特征相比，神经网络特征更加复杂，更能表现出图像和文本的内容。所以，使用神经网络特征来进行跨媒体检索，在检索效果上会有较大提升。

具体地，本发明具有如下优点：第一，本发明采用神经网络模拟生物视觉神经网络***，将像素级别的特征表示成高层的更加抽象的特征，用来解释图像数据。第二，本发明技术方案得益于计算机计算性能的提升，神经网络特征经过更加复杂的计算得到，能够在通过大规模数据的训练后取得很好的效果。

附图说明

图1是本发明提供的跨媒体检索方法的流程框图。

图2是本发明实施例采用wikipedia数据集中的图像和文本实例；

其中，(a)是wikipedia数据集中的一副图像；(b)是该图像所对应的文本，文本呈现形式为长段落。

图3是本发明实施例采用pascal sentence数据集的图像和文本实例；

其中，(a)是pascal sentence数据集中的一副图像；(b)是该图像所对应的文本，文本为五个句子。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种新的跨媒体检索方法，利用Visual Geometry Group团队(简称VGG)提出的卷积神经网络(称作VGG net)提取图像特征，利用基于Word2vec的FisherVector提取文本特征，通过逻辑回归的方法对异构图像、文本特征进行语义匹配，从而实现跨媒体检索；现有跨媒体检索方法普遍都是基于传统的人工提取的特征，与人工定义的传统特征相比，本发明的特征提取方法能有效地表示图像和文本的深层语义，可提高跨媒体检索的准确度，从而大幅度提升跨媒体检索效果。

图1是本发明提供的跨媒体检索方法的流程框图，包括如下步骤：

步骤1，收集含有类别标签的针对图像和文本两种媒体类型的跨媒体检索数据集，分别将图像和文本划分为训练数据和测试数据；

步骤2，对于数据集中的所有图像数据，使用VGG卷积神经网络的方法提取图像特征。

步骤3，对于数据集中的文本特征，使用基于Word2vec的Fisher Vector方法提取文本特征。

步骤4，使用步骤2，3后得到的训练数据中的图像和文本特征对基于逻辑回归的语义匹配模型进行训练。

步骤5，利用训练好的语义匹配模型，使用步骤2，3得到的测试数据的图像和文本特征进行测试，检验本发明的效果。

各步骤具体包括如下过程：

步骤1，收集含有类别标签(如在pascal sentence数据集中，分为20类，有飞机，汽车，鸟等类别)的针对图像和文本两种媒体类型的跨媒体检索数据集，将数据集划分为训练数据和测试数据。

将数据集定义为D＝{D₁，D₂，...，D_n}，其中n表示数据集的大小，对数据集中的任一图像-文本对D_i(D_i∈D)，可表示为其中表示图像的原始数据，表示文本的原始数据。L＝[l₁，l₂，...，l_n]，其中l_i∈[1，2，...，C]，C为类别的数目，l_i表示第i对图像和文本所属的类别。

VGG卷积神经网络有A～E五种配置，卷积层数从8到16递增。本发明实施例中，优选地，使用的卷积层数为16层，再加上3个全连接层，一共是19层的VGG网络。

每幅图像输入VGG网络后，在第七层全连接层(fc7)得到一个4096维的向量，通过ReLU(Rectified LinearUnits)激活函数后，用这个向量作为图像特征。具体地，将原始图像数据D^I，其中输入VGG网络中并提取图像特征。图像特征是第七层全连接层(fc7)通过ReLU(Rectified Linear Units)激活函数之后的4096维特征，记作I＝{I₁，I₂，...，I_n}，其中I_j∈R⁴⁰⁹⁶，j∈[1，n]。

将原始文本数据D^T，其中转换成词向量集合W＝{W₁，W₂，...，W_n}，W为D^T包含的单词的词向量集合。

进一步地，将单词记作w，单词w所对应的词向量为f_word2vec(w)，则对于有f_word2vec(w)∈W_i，i∈[1，n]。即其中w_i，i∈R^dw，j∈[1，b_i]，w_i，j为包含单词所对应的词向量，dw为词向量的维度，b_i为中包含的单词个数。

这里先假设用X＝{x₁，x₂，...，x_nw}表示一个文本的词向量集合，nw为词向量个数。令混合高斯模型(Gaussion Mixture Model，GMM)参数为λ，则λ＝{ω_i，μ_i，∑_i，i＝1..G}，其中ω_i，μ_i，∑_i分别表示GMM中每个高斯函数的权重、均值向量和协方差矩阵，G表示模型中高斯函数的个数。

对GMM函数定义如下：

对权重ω_i有如下约束，总和为1，表示为式3：

其中，p_i(x|λ)表示GMM中的第i个高斯函数，由式4给出：

其中，dw是向量的维度，|∑_i|表示求∑_i的行列式

对高斯模型的参数求偏导即得到Fisher Vector，对各个参数的求导公式如式6～式8，其中，上标d表示向量的第d个维度：

Fisher Vector就是将上述所有参数的求导结果连接组成的向量。因为高斯混合模型中高斯函数个数为G，向量维度为dw，所以，Fisher Vector的维度为(2×dw+1)×G-1；对于权重ω，含有总和为1的约束条件，其自由度为G-1；G为高斯模型中高斯函数的个数。

最后，将W＝{W₁，W₂，...，W_n}中的每个文本词向量集合Wi代入式1中的X，求得每个文本的Fisher Vector，记作T＝{T₁，T₂，...，T_n}，T_i∈R^{(2×dw+1)×G-1}，i∈[1，n]，其中，Ti表示由第i个文本计算出来的Fisher Vector。

步骤4，使用执行步骤2、3之后得到的训练数据中的图像和文本特征对基于逻辑回归的语义匹配模型进行训练。

得到的图像特征为I＝{I₁，I₂，...，I_n}，I_j∈R⁴⁰⁹⁶。

得到的文本特征为T＝{T₁，T₂，...，T_n}，T_i∈R^{(2×dw+1)×G-1}。

对于相应的图像和文本特征，有着共同的标签，L＝[l₁，l₂，...，l_n]，其中l_i∈[1，2，...，C]。

我们将文本特征Ti转换成由后验概率组成的语义特征，后验概率为k∈[1，C]，表示文本T_i属于类别k的概率，其中，通过式9计算得到

其中，是多类别逻辑回归线性分类器(multi-classlogistic regression)的参数，，表示的转置，对应类别k，其中D_T＝(2×dw+1)×G-1，D_T为文本特征的维度。

这样，我们将文本特征T转换成了文本语义特征Π^T， c是类别的个数，也是文本语义特征的维数。上标d表示向量中的第d个维度，则表示为式10：

同理，我们将图像特征Ii也转换成后验概率组成的语义特征，后验概率为表示图像I_i属于类别k的概率，其中的计算公式如下：

其中，是多类别逻辑回归线性分类器(multi-classlogistic regression)的参数，对应类别k，是一个D_I维的向量，D_I为图像特征的维度。

这样，我们将图像特征T转换成了图像语义特征Π^I， c是类别的个数，也就是图像语义特征的维数。用上标d来表示，向量中的第d个维度，则表示为式12：

以上对图像和文本语义特征进行计算，训练得到语义匹配模型。

步骤5，利用步骤4训练好的语义匹配模型，使用步骤2和步骤3得到的测试数据的图像和文本特征，针对一幅图片(或文本)进行测试，得到相关的文本(或图片)；并检验本发明的效果。

对于图像检索文本(Img2Text)，计算图像语义特征Π^I和文本语义特征Π^T的相关性，将文本语义特征Π^T按相关性从大到小排序，则和图像Π^I越相关的文本越靠前。

同理，对于文本检索图像(Text2Img)计算文本语义特征Π^T和图像语义特征Π^I的相关性，将图像语义特征Π^I按相关性从大到小排序，则和文本Π^T越相关的图像越靠前。

其中相关性的度量方法包括Kullback-Leibler divergence(KL)、NormalizedCorrelation(NC)、Centered Correlation(CC)以及L2范式(L2)。

对于图像检索文本(Img2Text)和文本检索图像(Text2Img)的结果，计算其MAP值(Mean Average Precision)，衡量检索结果。

在具体实施实验中，实施例一使用wikipedia的数据集，共包括2866对图像及其文本，有10个类别，分别为：Art&architecture(艺术&建筑)、Biology(生物)、Geography&places(地理&地点)、History(历史)、Literature&theatre(文学&戏剧)、Media(媒体)、Music(音乐)、Royalty&nobility(皇室&贵族)、Sport&recreation(运动&娱乐)、Warfare(战争)。划分其中的2173个数据为训练数据，693个数据为测试数据。数据集的图像和文本实例如图2所示，每个图像对应一段长文本。通过步骤2和步骤3得到图像特征和文本特征。其中，文本数据先用textteaser(一种开源文本自动摘要工具)提取出每个文本的前两个主题句，对于每个主题句提取Fisher Vector特征，然后将这两句的Fisher Vector特征连接在一起形成更高维度的特征，作为最终的特征。如一句话的Fisher vector特征是d维，两句话连接后的最终特征是2d维。之后，按照步骤4训练得到语义匹配模型，按照步骤5对待测试样本得到检索结果。

实验结果表明，与现有方法相比，本发明方法在Img2Text和Text2Img两个任务中，都取得了较优的结果。用于对比的提取传统人工特征进行跨媒体检索的方法包括CCA[2]，LCFS[3]，CDLFA[4]，HSNN[5]。他们使用的文本特征为10维的隐狄利克雷分布(LatentDirichlet Allocation，LDA)特征，图像特征为128维的SIFT特征。

同时本发明与最新的利用深度学习进行跨媒体检索的论文CVF[6]中的结果进行比较。CVF[6]中文本特征使用100维的LDA特征，图像特征使用4096维的DeCAF深度网络的CNN特征.

下表给出了实验结果，Proposed表示的是本发明的结果，通过对比可知，本发明较CCA[2]，LCFS[3]，CDLFA[4]，HSNN[5]中的方法效果有很大提升，和最新的CVF[6]中的方法效果相近，使用CC相关性度量的方法较CVF[6]效果有一定的提升。

表1 Wikipedia数据集实验结果

第二个实施例使用Pascal Sentence数据集，该数据集包含1000对图像-文本数据，分为20类(对应类别标签)，包括飞机、汽车、鸟等类别，如表2所示；每类包含50对图像和文本。

表2 Pascal Sentence数据集的20个类别

aeroplane	飞机	diningtable	饭桌
				bicycle	自行车	dog	狗
boat	船	house	房子
				bird	鸟	motorbike	摩托车
bottle	瓶子	person	人
				bus	公交车	pottedplant	盆栽
car	汽车	sheep	羊
				cat	猫	sofa	沙发
chair	椅子	train	火车
				cow	牛	tvmonitor	电视

图像和文本数据实例如图3所示，每个图像对应5个句子。从每类中随机抽取30对图像和文本，共600对作为训练数据，其余的400对作为测试数据。通过步骤2和步骤3提取出相应的图像特征和文本特征，其中，由于Pascal Sentence中的文本数据已经是句子，不需要做文本摘要处理，可直接提取Fisher Vector特征，一句话的Fisher vector特征是d维，然后，按照步骤4训练得到语义匹配模型，按照步骤5对待测试样本得到检索结果。

由于文献[2]～[5]中记载的方法没有使用本数据集做评测，我们直接与CVF[6]的结果进行比较，结果如表3：

表3 PascalSentence数据集实验结果

从实验结果可以看出，我们的方法对于Pascal Sentence数据集的检索正确率有较大提升。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种跨媒体检索方法，利用VGG提出的卷积神经网络提取图像特征，利用基于Word2vec的Fisher Vector提取文本特征，通过逻辑回归的方法对异构图像特征和文本特征进行语义匹配，从而实现跨媒体检索；包括如下步骤：

1)收集含有类别标签的跨媒体检索数据集，设为D＝{D₁，D₂，...，D_n}，n表示数据集的大小；所述跨媒体检索数据集中数据的类型包括图像和文本两种媒体类型，表示为图像-文本对D_i，D_i∈D，其中表示图像的原始数据，表示文本的原始数据；类别标签设为L，L＝[l₁，l₂，...，l_n]，其中l_i∈[1，2，..，C]，C为类别的数目，l_i表示第i对图像和文本所属的类别；将所述跨媒体检索数据集划分为训练数据和测试数据；

3)对于数据集中的文本特征数据D^T，其中使用基于Word2vec的Fisher Vector方法提取文本特征；具体包括如下过程：

33)用X＝{x₁，x₂，...，x_nw}表示一个文本的词向量集合，nw为词向量个数；令混合高斯模型GMM的参数为λ，λ＝{ω_i，μ_i，∑_i，i＝1..G}，其中ω_i，μ_i，∑_i分别表示混合高斯模型GMM中每个高斯函数的权重、均值向量和协方差矩阵，G表示混合高斯模型GMM中高斯函数的个数；

GMM函数定义为式1：

其中，p(x_t|λ)表示对于向量x_t(t∈[1，nw])，由GMM产生的概率值，表示为式2：

对权重ω_i设置总和为1约束，表示为式3：

其中，p_i(x|λ)表示GMM中的第i个高斯函数，由式4给出：

其中，dw是向量的维度，|∑_i|表示求∑_i的行列式；

34)对混合高斯模型GMM的参数求偏导即得到Fisher Vector；所述Fisher Vector是将所有参数的求导结果连接组成的向量；所述混合高斯模型GMM中高斯函数个数为G，向量维度为dw，所述Fisher Vector的维度为(2×dw+1)×G-1；权重ω的自由度为G-1；

35)将W＝{W₁，W₂，...，W_n}中的每个文本词向量集合Wi代入式1中的文本的词向量集合X，求得每个文本的FisherVector，记作T＝{T₁，T₂，...，T_n}，T_i∈R^{(2×dw+1)×G-1}，i∈[1，n]，其中，T_i表示由第i个文本计算出来的Fisher Vector；4)使用执行步骤2)和步骤3)得到的训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练，将文本特征T转换成了文本语义特征Π^T， i∈[1，n]，c是类别的个数，也是文本语义特征的维数；将图像特征I_i转换成后验概率组成的语义特征，后验概率为k∈[1，C]，表示图像Ii属于类别k的概率；

5)利用步骤4)训练好的语义匹配模型，使用步骤2)和步骤3)得到的测试数据的图像特征和文本特征，针对一幅图片或文本进行测试，得到相关的文本或图片，即为跨媒体检索结果。

2.如权利要求1所述跨媒体检索方法，其特征是，步骤34)所述对混合高斯模型GMM的参数求偏导，具体地，对各个参数的求导公式如式6～式8：

其中，上标d表示向量的第d个维度。

3.如权利要求1所述跨媒体检索方法，其特征是，步骤4)所述使用训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练，所述图像特征为I＝{I₁，I₂，...，I_n}，I_j∈R⁴⁰⁹⁶；所述文本特征为T＝{T₁，T₂，...，T_n}，T_i∈R^{(2×dw+1)×G-1}；相应的图像特征和文本特征具有共同的标签为L＝[l₁，l₂，...，l_n]，其中l_i∈[1，2，...，C]；所述训练具体包括：

41)将文本特征T_i转换成由后验概率组成的语义特征Π^T， i∈[1，n]，c是类别的个数，也是文本语义特征的维数；表示为式10：

其中，上标d表示向量中的第d个维度；后验概率为k∈[1，C]，表示文本T_i属于类别k的概率，通过式9计算得到

其中，是多类别逻辑回归线性分类器的参数，表示的转置，对应类别k，其中D_T＝(2×dw+1)×G-1，D_T为文本特征的维度；

42)将图像特征T转换成图像语义特征Π^I，i∈[1，n]，c是类别的个数，也就是图像语义特征的维数；表示为式12：

其中，上标d表示向量中的第d个维度；后验概率为k∈[1，C]，表示图像Ii属于类别k的概率，其中的计算公式如下：

4.如权利要求1所述跨媒体检索方法，其特征是，步骤5)所述针对一幅图片或文本进行测试，得到相关的文本或图片；相关性的度量方法包括Kullback-Leibler divergence方法、Normalized Correlation方法、Centered Correlation方法和L2范式方法中的一种或多种。