CN107562812A

CN107562812A - 一种基于特定模态语义空间建模的跨模态相似性学习方法

Info

Publication number: CN107562812A
Application number: CN201710684763.6A
Authority: CN
Inventors: 彭宇新; 綦金玮
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2018-01-09
Anticipated expiration: 2037-08-11
Also published as: CN107562812B

Abstract

本发明涉及一种基于特定模态语义空间建模的跨模态相似性学习方法，包括以下步骤：1.建立跨模态数据库，其中包含多种模态类型数据，并将数据库中的数据分为训练集、测试集和验证集。2.针对跨模态数据库中的每种模态类型，构造针对该特定模态的语义空间，将其他模态类型数据投射到该语义空间，得到针对该特定模态的跨模态相似度。3.将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合，得到最终跨模态相似度。4.取测试集中的任意一种模态类型作为查询模态，以另一种模态类型作为目标模态，计算查询样例和查询目标的相似性，根据相似性得到目标模态数据的相关结果列表。本发明能够提高跨模态检索的准确率。

Description

一种基于特定模态语义空间建模的跨模态相似性学习方法

技术领域

本发明涉及多媒体检索领域，具体涉及一种基于特定模态语义空间建模的跨模态相似性学习方法。

背景技术

如今，包括图像、视频、文本和音频在内的多模态数据在互联网上广泛存在，这些多模态数据是帮助人工智能认知现实世界的基础。一些研究工作已经在尝试打破不同模态数据之间的异构鸿沟，而跨模态检索作为其中一个热点的研究问题，可以实现跨越不同模态数据的信息检索，而且具有广泛的实际应用需求，例如搜索引擎和数字图书馆等。传统的单模态检索，例如图像检索、视频检索等，都局限于单一模态的形式，只能返回与查询相同模态类型的检索结果。与之不同的是，跨模态检索更加方便与有用，可以通过任意模态类型的查询检索得到不同模态的检索结果。

跨模态检索的一大挑战是如何应对不同模态的不一致性，并学习其间的内在关联。由于不同模态数据具有多种多样的表示形式以及分布特性，并且分散在各自的特征空间，这种异构特性使得度量不同模态之间的相似性十分困难，例如一幅图像和一段音频之间的相似性。针对上述问题，研究人员提出了一些方法，将不同模态数据的特征表示投射到同一个统一空间来学习统一表征，从而不同模态数据之间的相似性可以通过计算其对应统一表征之间距离来得到。传统方法通过为不同模态数据学习映射矩阵来最大化其间的关联，例如通过典型相关分析(Canonical Correlation Analysis，简称CCA)来分析不同模态数据之间成对的关联关系，将不同模态数据映射到同一维度的公共子空间。此外，Zhai等人在文献“Learning Cross-Media Joint Representation with Sparse and Semi-Supervised Regularization”中提出了基于图规约的方法，为不同模态数据构造图模型，同时进行跨模态关联学习和高层语义抽象。

近年来，深度学习取得的巨大进展促使研究人员使用深度神经网络来建模不同模态数据之间的关联关系，Feng等人在文献“Cross-modal Retrieval with CorrespondenceAutoencoder”中提出对应自编码器(Correspondence Autoencoder，简称Corr-AE)，通过构建两路相连的网络结构，同时建模不同模态数据的关联关系和重建信息。Peng等人在文献“Cross-media shared representation by hierarchical learning with multipledeep networks”提出了跨模态多网络结构模型(Cross-media Multiple Deep Network，简称CMDN)，其在单模态分离表示学习阶段同时建模模态内的语义信息以及不同模态之间的关联信息，然后在统一表征学习阶段构建多层网络结构，融合单模态语义抽象表示和单模态关联表示，并使用层叠学习的方式同时建模重建和关联信息学习得到跨模态统一表征。

然而上述现有方法大都是将不同模态的数据通过映射矩阵或深度模型同等地投射到统一空间来挖掘其间潜在的对齐关系，这意味着从不同模态数据中挖掘的信息是等量的。但一般来讲，不同模态数据，例如图像和文本，其间的关系往往是不平等而且互补的。当它们共同描述同一语义时，可能会包含不等量的信息，因为某些模态内部独有的信息并不能很好的与其他模态表述的内容进行对齐。因此，同等地对待不同模态数据来挖掘潜在的细粒度对齐内容并构建一个统一空间，会损失模态内独有且有用的信息，而不能充分利用每种模态提供的丰富的内在信息。

发明内容

针对现有技术的不足，本发明提出了一种基于特定模态语义空间建模的跨模态相似性学***衡的关联信息，最后使用动态融合的方式将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合，进一步挖掘不同模态语义空间的互补性，提高了跨模态检索的准确率。

为达到以上目的，本发明采用的技术方案如下：

一种基于特定模态语义空间建模的跨模态相似性学习方法，用于构造针对特定模态的语义空间，并将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合，得到不同模态数据的相似度，从而实现跨模态检索，包括以下步骤，其中步骤(1)-(3)得到跨模态相似度，步骤(4)进一步实现跨模态检索：

(1)建立跨模态数据库，其中包含多种模态类型的数据；

(2)针对跨模态数据库中的每种模态类型，构造针对该特定模态的语义空间，将其他模态类型数据投射到该语义空间，得到针对该特定模态的跨模态相似度；

(3)将从不同模态的语义空间得到的针对特定模态的跨模态相似度进行融合，得到最终跨模态相似度；

(4)使用任意一种模态类型作为查询模态，以另一种模态类型作为目标模态，将查询模态的每个数据作为查询样例，检索目标模态中的数据，计算查询样例和查询目标的相似性，根据相似性得到目标模态数据的相关结果列表。

进一步，上述一种基于特定模态语义空间建模的跨模态相似性学习方法，所述步骤(1)跨模态数据库可以包含多种模态类型，例如图像、文本等。

进一步，上述一种基于特定模态语义空间建模的跨模态相似性学习方法，所述步骤(2)的针对特定模态的语义空间构造方法，对该特定模态数据训练循环注意力网络，然后通过基于注意力机制的联合关联学习将其他模态类型数据投射到该模态的语义空间，得到针对该特定模态的跨模态相似度。

进一步，上述一种基于特定模态语义空间建模的跨模态相似性学习方法，所述步骤(3)中跨模态相似度学习方法，使用动态融合的方式将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合。

进一步，上述一种基于特定模态语义空间建模的跨模态相似性学习方法，所述步骤(4)的检索方式是，使用一种模态类型作为查询模态，另外一种模态类型作为目标模态。对于查询模态的每个数据作为查询样例，按照步骤(3)计算得到相似性之后，与目标模态的所有数据计算相似性，然后按照相似性从大到小排序，得到相关结果列表。

本发明的效果在于：与现有方法相比，本方法通过构造针对特定模态的语义空间，能够充分建模模态内部的细粒度信息以及空间上下文信息，然后通过基于注意力机制的联合关联学***衡的关联信息，最后使用动态融合的方式进一步挖掘不同模态语义空间的互补性，提高了跨模态检索的准确率。

本方法之所以具有上述发明效果，其原因在于：针对特定模态的语义空间，对该特定模态数据训练循环注意力网络，建模模态内部的细粒度信息以及空间上下文信息，然后通过基于注意力机制的联合关联学***衡的关联信息，最后使用动态融合的方式，将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合，进一步挖掘不同模态语义空间的互补性，提高了跨模态检索的准确率。

附图说明

图1是本发明的一种基于特定模态语义空间建模的跨模态相似性学习方法流程图。

图2是本发明的完整网络结构的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明的一种基于特定模态语义空间建模的跨模态相似性学习方法，其流程如图1所示，包含以下步骤：

(1)建立跨模态数据库，其中包含多种模态类型的数据，并将数据库中的数据分为训练集、测试集和验证集。

本实施例中，所述跨模态数据库可以包含多种模态类型，包括图像、文本。

用D表示跨模态数据集，D＝{D⁽ⁱ⁾,D^(t)}，其中

对于媒体类型r，其中r＝i,t(i表示图像，t表示文本)，定义n^(r)为其数据个数。训练集中的每个数据有且只有一个语义类别。

定义为媒体类型r中的第p个数据的特征向量，其表示结构为一个d^(r)×1的向量，其中d^(r)表示媒体类型r的特征向量维度。

定义的语义标签定为其表示结构为一个c×1的向量，其中c表示语义类别的总量。中有且只有一维为1，其余为0，表示该数据的语义类别为值是1的列所对应的标签。

(2)针对跨模态数据库中的每种模态类型，构造针对该特定模态的语义空间，将其他模态类型数据投射到该语义空间，得到针对该特定模态的跨模态相似度。

该步骤的过程如图2所示。本实施例中，针对图像语义空间构造，使用循环注意力网络模型建模图像数据，首先将原始图像缩放至256×256，并输入到卷积神经网络中。然后从卷积神经网络最后一个池化层(pooling layer)为图像不同的区域提取各自的特征表示并将一个图像中的各个区域按顺序组织成一个序列，使用LSTM(Long-Short TermMemory,长短期记忆)神经网络建模不同图像区域之间的空间上下文信息，其输出的序列可以表示为接着利用注意力机制使训练模型聚焦于更重要的图像区域，具体地，构造全连接网络和Softmax激活层，通过如下公式计算视觉注意力权重：

其中和为各层的网络参数，而aⁱ包含图像中不同区域的视觉注意力权重。因此，一个图像中第n个区域的特征向量可以表示为(如图2中图像语义空间中的所示)，同时包含了图像的局部细粒度信息以及空间上下文信息。下一步，将文本数据投射到图像语义空间来进行跨模态关联学习。具体地，先为文本数据中的每个词提取k维的词向量特征，然后包含n个词的一个文本可以表示为n×k的矩阵，输入到文本卷积神经网络得到该句话的特征表示接着图像i_p和文本t_p在图像语义空间的跨模态相似度定义如下(如图2中图像语义空间中的所示)：

其中表示图像i_p中的第j个区域特征向量。最后定义如下损失函数实现基于注意力的关联学习：

上述公式的两项分别定义如下：

其中表示匹配的图像/文本对，和表示不匹配的图像/文本对，α是边界参数，而N表示采样的三元组数目。至此，从图像语义空间可以得到针对图像模态的跨模态相似度sim_i，整合了表示学***衡的关联信息。

本实施例中，针对文本语义空间构造，使用循环注意力网络模型建模文本数据，先对于每一个文本数据，为其中每个词提取k维的词向量特征，则一个包含n个词的文本可以表示为n×k的矩阵，输入到文本卷积神经网络，并从网络最后一个池化层(pooling layer)提取不同文本块的特征表示。然后按顺序输入到LSTM神经网络中，来建模文本的上下文信息，其输出的序列可以表示为接着利用注意力机制使训练模型聚焦于更重要的文本片段，具体地，构造全连接网络和Softmax激活层，通过如下公式计算文本注意力权重：

其中和为各层的网络参数，而a^t包含文本中不同片段的文本注意力权重。因此，一个文本中第m个片段的特征向量可以表示为(如图2中文本语义空间中的所示)，同时包含了文本的局部细粒度信息以及空间上下文信息。下一步，将图像数据投射到文本语义空间来进行跨模态关联学习。具体地，先使用卷积神经网络提取图像整体的特征表示接着图像i_p和文本t_p在文本语义空间的跨模态相似度定义如下(如图2中文本语义空间中的所示)：

其中表示文本t_p中的第j个片段特征向量。最后定义如下损失函数实现基于注意力的关联学习：

上述公式的两项分别定义如下：

其中表示匹配的图像/文本对，和表示不匹配的图像/文本对，β是边界参数，而M表示采样的三元组数目。至此，从该文本语义空间可以得到针对文本模态的跨模态相似度sim_t，整合了表示学***衡的关联信息。

(3)将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合，得到最终跨模态相似度。

本实施例中，使用动态融合的方式将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合。首先，将从不同模态语义空间得到的针对特定模态的跨模态相似度按照如下的公式归一到0到1之间：

然后，对于图像/文本对(i_p,t_p)，从图像语义空间计算得到归一化后的得分会作为该图像/文本对在文本空间的动态权重，而从文本语义空间计算得到归一化后的得分会作为该图像/文本对在图像空间的动态权重。因此，最终的跨模态相似度定义如下：

Sim(i_p,t_p)＝r_t(i_p,t_p)·sim_i(i_p,t_p)+r_i(i_p,t_p)·sim_t(i_p,t_p)

能够充分地挖掘不同模态语义空间的互补性，并进一步提升跨模态检索的效果。

(4)使用测试集中的任意一种模态类型作为查询模态，以另一种模态类型作为目标模态。将查询模态的每个数据作为查询样例，检索目标模态中的数据，按照步骤(3)中的方式，计算查询样例和查询目标的相似性，将相似性按照从大到小排序，得到目标模态数据的相关结果列表。

下面的实验结果表明，与现有方法相比，本发明基于多粒度层级网络的跨模态关联学习方法，可以取得更高的检索准确率。

本实施例采用了Wikipedia跨模态数据集进行实验，该数据集由文献“A NewApproach to Cross-Modal Multimedia Retrieval”(作者N.Rasiwasia,J.Pereira,E.Coviello,G.Doyle,G.Lanckriet,R.Levy和N.Vasconcelos，发表在2010年的ACMinternational conference on Multimedia)提出，其中包括2866段文本和2866张图像，且文本和图像是一一对应的，总共分为10个类别，其中2173段文本和2173张图像作为训练集，231段文本和231张图像作为验证集，492段文本和492张图像作为测试集。测试了以下3种方法作为实验对比：

现有方法一：文献“Learning Cross-Media Joint Representation with Sparseand Semi-Supervised Regularization”(作者X.Zhai,Y.Peng,and J.Xiao)中的联合表示学习(Joint Representation Learning，简称JRL)方法，为不同模态数据构建图模型，同时进行跨模态关联学习和高层语义抽象，并且引入稀疏和半监督规约。

现有方法二：文献“Cross-modal Retrieval with CorrespondenceAutoencoder”(作者F.Feng,X.Wang,and R.Li)中的对应自编码器网络(CorrespondenceAutoencoder，简称Corr-AE)方法，构建了两路网络，并在中间层相连以同时建模关联信息与重建信息。

现有方法三：文献“Cross-media shared representation by hierarchicallearning with multiple deep networks”(作者Y.Peng,X.Huang,and J.Qi)中的跨模态多网络结构(Cross-media Multiple Deep Network，简称CMDN)，在单模态分离表示学习阶段同时建模模态内的语义信息以及不同模态之间的关联信息，然后在统一表征学习阶段构建多层网络结构，并使用层叠学习的方式同时建模重建和关联信息学习得到跨模态统一表征。

本发明：本实施例的方法。

实验采用信息检索领域常用的MAP(mean average precision)指标来评测跨模态检索的准确性，MAP是指每个查询样例检索准确性的平均值，MAP值越大，说明跨模态检索的结果就越好。

表1.本发明的实验结果展示

	图像查询文本	文本查询图像	平均
				现有方法一	0.479	0.428	0.454
现有方法二	0.442	0.429	0.436
				现有方法三	0.487	0.427	0.457
本发明	0.516	0.458	0.487

从表1可以看出，本发明在图像查询文本、文本查询图像两个任务中都比现有方法取得了较大提高。现有方法一在传统框架下构建图模型将不同模态数据线性映射到统一空间，难以充分建模复杂的跨模态关联关系。现有方法二和现有方法三均采用深度网络结构，但是将不同模态的数据通过深度模型同等地投射到统一空间来挖掘其间潜在的对齐关联，会损失模态内独有且有用的信息，而不能充分利用每种模态提供的内在信息。本发明一方面构造针对特定模态的语义空间，建模模态内部的细粒度信息以及空间上下文信息，同时充分学***衡的关联信息。另一方面，使用动态融合的方式将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合，进一步挖掘不同模态语义空间的互补性，从而提高了跨模态检索的准确率。

在其它实施例中，本发明步骤(2)中的构造特定模态语义空间的方法，使用LSTM(Long-Short Term Memory,长短期记忆)神经网络建模图像和文本数据的上下文信息，同样可以采用循环神经网络(Recurrent Neural Network，简称RNN)作为替代。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于特定模态语义空间建模的跨模态相似性学习方法，包括以下步骤：

(1)建立跨模态数据库，其中包含多种模态类型的数据；

(3)将从不同模态的语义空间得到的针对特定模态的跨模态相似度进行融合，得到最终的跨模态相似度。

2.如权利要求1所述的方法，其特征在于，所述跨模态数据库包含多种模态类型，所述多种模态类型包括图像、文本。

3.如权利要求1所述的方法，其特征在于，步骤(2)中的针对特定模态的语义空间构造方法是：对该特定模态的数据训练循环注意力网络，然后通过基于注意力机制的联合关联学习将其他模态类型的数据投射到该模态的语义空间，得到针对该特定模态的跨模态相似度。

4.如权利要求3所述的方法，其特征在于，图像语义空间的构造方法为：

a)将原始图像并输入到卷积神经网络中；

b)从卷积神经网络最后一个池化层为图像不同的区域提取各自的特征表示并将一个图像中的各个区域按顺序组织成一个序列，使用LSTM神经网络或RNN神经网络建模不同图像区域之间的空间上下文信息，其输出的序列表示为

c)利用注意力机制使训练模型聚焦于重要的图像区域，首先构造全连接网络和Softmax激活层，然后通过如下公式计算视觉注意力权重：

其中和为各层的网络参数，而aⁱ包含图像中不同区域的视觉注意力权重，因此，一个图像中第n个区域的特征向量表示为同时包含了图像的局部细粒度信息以及空间上下文信息；

d)将文本数据投射到图像语义空间来进行跨模态关联学习，首先为文本数据中的每个词提取k维的词向量特征，然后包含n个词的一个文本表示为n×k的矩阵，输入到文本卷积神经网络得到该句话的特征表示接着定义图像i_p和文本t_p在图像语义空间的跨模态相似度如下：

<mrow> <msub> <mi>sim</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>i</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>a</mi> <mi>j</mi> <msub> <mi>i</mi> <mi>p</mi> </msub> </msubsup> <msubsup> <mi>h</mi> <mi>j</mi> <msub> <mi>i</mi> <mi>p</mi> </msub> </msubsup> <mo>&CenterDot;</mo> <msubsup> <mi>q</mi> <mi>p</mi> <mi>t</mi> </msubsup> <mo>,</mo> </mrow>

其中表示图像i_p中的第j个区域特征向量；

e)定义如下损失函数实现基于注意力的关联学习：

<mrow> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>i</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>i</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>i</mi> <mi>n</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

上述公式中的两项分别定义如下：

<mrow> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>i</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mi>&alpha;</mi> <mo>+</mo> <msub> <mi>sim</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msubsup> <mi>i</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>+</mo> </msubsup> </mrow> <mo>)</mo> <mo>-</mo> <msub> <mi>sim</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msubsup> <mi>i</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>-</mo> </msubsup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

<mrow> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>i</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>i</mi> <mi>n</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mi>&alpha;</mi> <mo>+</mo> <msub> <mi>sim</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msubsup> <mi>i</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>+</mo> </msubsup> </mrow> <mo>)</mo> <mo>-</mo> <msub> <mi>sim</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msubsup> <mi>i</mi> <mi>n</mi> <mo>-</mo> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>+</mo> </msubsup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中表示匹配的图像/文本对，和表示不匹配的图像/文本对，α是边界参数，而N表示采样的三元组数目。

5.如权利要求4所述的方法，其特征在于，文本语义空间的构造方法为：

a)对于每一个文本数据，为其中每个词提取k维的词向量特征，则一个包含n个词的文本表示为n×k的矩阵，输入到文本卷积神经网络；

b)从卷积神经网络最后一个池化层提取不同文本块的特征表示，然后按顺序输入到LSTM神经网络或RNN神经网络中，来建模文本的上下文信息，其输出的序列表示为

c)利用注意力机制使训练模型聚焦于重要的文本片段，首先构造全连接网络和Softmax激活层，然后通过如下公式计算文本注意力权重：

其中和为各层的网络参数，而a^t包含文本中不同片段的文本注意力权重，因此一个文本中第m个片段的特征向量表示为同时包含了文本的局部细粒度信息以及空间上下文信息；

d)将图像数据投射到文本语义空间来进行跨模态关联学习，首先使用卷积神经网络提取图像整体的特征表示接着定义图像i_p和文本t_p在文本语义空间的跨模态相似度如下：

<mrow> <msub> <mi>sim</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>i</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>a</mi> <mi>j</mi> <msub> <mi>t</mi> <mi>p</mi> </msub> </msubsup> <msubsup> <mi>h</mi> <mi>j</mi> <msub> <mi>t</mi> <mi>p</mi> </msub> </msubsup> <mo>&CenterDot;</mo> <msubsup> <mi>q</mi> <mi>p</mi> <mi>i</mi> </msubsup> <mo>,</mo> </mrow>

其中表示文本t_p中的第j个片段特征向量；

e)定义如下损失函数实现基于注意力的关联学习：

<mrow> <msub> <mi>L</mi> <mi>t</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>l</mi> <mrow> <mi>t</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>i</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>i</mi> <mi>n</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>l</mi> <mrow> <mi>t</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>i</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>n</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

上述公式中的两项分别定义如下：

其中表示匹配的图像/文本对，和表示不匹配的图像/文本对，β是边界参数，而M表示采样的三元组数目。

6.如权利要求1所述的方法，其特征在于，步骤(3)使用动态融合的方式将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合，包括以下步骤：首先，将从不同模态语义空间得到的针对特定模态的跨模态相似度按照如下的公式归一到0到1之间：

然后，对于图像/文本对(i_p,t_p)，从图像语义空间计算得到归一化后的得分作为该图像/文本对在文本空间的动态权重，而从文本语义空间计算得到归一化后的得分会作为该图像/文本对在图像空间的动态权重；最终的跨模态相似度定义如下：

Sim(i_p,t_p)＝r_t(i_p,t_p)·sim_i(i_p,t_p)+r_i(i_p,t_p)·sim_t(i_p,t_p)。

7.一种跨模态检索方法，包括以下步骤：

1)采用权利要求1至6中任一权利要求所述方法计算跨模态相似度；

2)使用一种模态类型作为查询模态，以另一种模态类型作为目标模态，将查询模态的每个数据作为查询样例检索目标模态中的数据，计算查询样例和查询目标的相似性，根据相似性得到目标模态数据的检索结果。

8.如权利要求7所述的方法，其特征在于，步骤2)计算得到查询样例和查询目标的相似性之后，按照相似性从大到小排序，得到相关结果列表。