CN113792207B

CN113792207B - 一种基于多层次特征表示对齐的跨模态检索方法

Info

Publication number: CN113792207B
Application number: CN202111149240.4A
Authority: CN
Inventors: 张卫锋; 周俊峰; 王小江
Original assignee: Jiaxing University
Current assignee: Jiaxing University
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-11-17
Anticipated expiration: 2041-09-29
Also published as: CN113792207A

Abstract

本发明公开了一种基于多层次特征表示对齐的跨模态检索方法，涉及跨模态检索技术领域。本发明通过在跨模态细粒度精确对齐阶段，分别计算图像和文本两种不同模态数据之间的全局相似度、局部相似度和关系相似度，并融合得到图像‑文本综合相似度，在神经网络训练阶段，设计相应损失函数，挖掘跨模态结构约束信息，从多个角度约束和监督检索模型的参数学习，最后根据图像‑文本综合相似度获取测试查询样例的检索结果，从而通过引入图像和文本两种不同模态数据之间的细粒度关联关系，有效提高跨模态检索的准确率，在图文检索、模式识别等领域具有广泛的市场需求和应用前景。

Description

一种基于多层次特征表示对齐的跨模态检索方法

技术领域

本发明涉及跨模态检索技术领域，特别涉及一种基于多层次特征表示对齐的跨模态检索方法。

背景技术

随着移动互联网、社交网络等新一代互联网技术的快速发展，文本、图像、视频等多模态数据呈现***式增长。跨模态检索技术旨在通过挖掘和利用不同模态数据之间的关联信息，实现不同模态数据之间的跨越检索，其核心是实现跨模态数据之间的相似度度量。近年来，跨模态检索技术已成为国内外研究热点，受到学术界和工业界的广泛关注，是跨模态智能的重要研究领域之一，也是信息检索领域未来发展的重要方向。

跨模态检索同时涉及多种模态的数据，这些数据之间存在“异构鸿沟”，即它们在高层语义上相互关联，但在底层特征上呈现异构性，因此需要检索算法能够深入挖掘不同模态数据之间的关联信息，实现一种模态数据到另一种模态数据的对齐。

目前，子空间学习方法是跨模态检索的主流方法，该类方法又可细分为基于传统统计相关性分析的检索模型和基于深度学习的检索模型。其中，基于传统统计相关性分析的跨模态检索方法通过线性映射矩阵将不同模态数据映射到子空间，最大化不同模态数据之间的相关性。基于深度学习的跨模态检索方法利用深度神经网络的特征抽取能力抽取不同模态数据的有效表示，同时利用神经网络的复杂非线性映射能力挖掘跨模态数据之间复杂关联特性。

在实现本发明的过程中，申请人发现现有技术存在以下技术问题：

现有技术提供的跨模态检索方法注重图像和文本的全局特征和局部特征的表示学习、关联分析和对齐，但缺乏视觉目标之间关系的推理和关系信息的对齐，且无法全面有效利用训练数据蕴含的结构约束信息监督模型进行训练，导致跨模态检索方法对图像和文本的跨模态检索精确度较低。

发明内容

为了解决现有技术存在的上述问题，本发明提供了一种基于多层次特征表示对齐的跨模态检索方法，通过跨模态多层次表示关联，准确衡量图像和文本之间的相似度，有效提供检索准确率，从而解决现有跨模态检索方法表示不够精细、跨模态关联不够充分的技术问题，同时，利用跨模态结构约束信息监督检索模型的训练。本发明的技术方案如下：

根据本发明实施例的一个方面，提供一种基于多层次特征表示对齐的跨模态检索方法，其特征在于，所述方法包括：

获取训练数据集，对于所述训练数据集中的每组数据对，所述数据对包括图像数据、文本数据，以及所述图像数据与所述文本数据共同对应的语义标签；

对于所述训练数据集中的每组数据对，分别提取所述数据对中图像数据对应的图像全局特征、图像局部特征和图像关系特征，以及所述数据对中文本数据对应的文本全局特征、文本局部特征和文本关系特征；

对于所述训练数据集中任一图像数据与任一文本数据组成的目标数据对，根据所述目标数据对对应的图像全局特征和文本全局特征、所述目标数据对对应的图像局部特征和文本局部特征、所述目标数据对对应的图像关系特征和文本关系特征计算得到所述目标数据对对应的图像-文本综合相似度；

基于各组目标数据对对应的图像-文本综合相似度，设计模态间结构约束损失函数和模态内结构约束损失函数，并采用所述模态间结构约束损失函数和所述模态内结构约束损失函数对模型进行训练。

在一个优选的实施例中，所述对于所述训练数据集中的每组数据对，分别提取所述数据对中图像数据对应的图像全局特征、图像局部特征和图像关系特征，以及所述数据对中文本数据对应的文本全局特征、文本局部特征和文本关系特征的步骤，包括：

对于所述训练数据集中的每组数据对，采用卷积神经网络CNN提取所述数据对所对应图像数据的图像全局特征，然后采用视觉目标检测器检测所述图像数据包括的视觉目标并提取每个视觉目标的图像局部特征，其中，M为所述图像数据包括的视觉目标数量，为视觉目标的特征向量，再通过图像视觉关系编码网络提取各个视觉目标之间的图像关系特征，其中，为视觉目标和视觉目标之间的图像关系特征；

对于所述训练数据集中的每组数据对，采用词嵌入模型将所述数据对所对应文本数据中的每个词转换为词向量，其中，N为所述文本数据包括的词数量，然后将各个词向量依次输入至递归神经网络，获得所述文本数据对应的文本全局特征，再将各个词向量输入至前馈神经网络获得各个词对应的文本局部特征，同时将各个词向量输入至文本关系编码网络提取各个词之间的文本关系特征，其中，为词和词之间的文本关系特征。

在一个优选的实施例中，所述对于所述训练数据集中任一图像数据与任一文本数据组成的目标数据对，根据所述目标数据对对应的图像全局特征和文本全局特征、所述目标数据对对应的图像局部特征和文本局部特征、所述目标数据对对应的图像关系特征和文本关系特征计算得到所述目标数据对对应的图像-文本综合相似度的步骤，包括：

对于所述训练数据集中任一图像数据与任一文本数据组成的目标数据对，基于所述目标数据对中图像数据对应的图像全局特征和文本数据对应的文本全局特征的余弦距离，计算得到所述目标数据对对应的图像-文本全局相似度；其中，图像-文本全局相似度的计算公式如公式（1）：

) 公式（1）

采用文本引导注意力机制计算所述目标数据对中图像数据包括的每个视觉目标的权重，将各个视觉目标的图像局部特征进行对应权重加权后，经前馈神经网络映射获得新的图像局部表示，然后采用视觉引导注意力机制计算所述目标数据对中文本数据包括的每个词的权重，将各个词的文本局部特征进行对应权重加权后，经前馈神经网络映射得到新的文本局部表示，根据各个图像局部表示和各个文本局部表示计算所有视觉目标和词的余弦相似度，并以其均值计算得到所述目标数据对对应的图像-文本局部相似度；其中，图像-文本局部相似度的计算公式如公式（2），M为视觉目标数量，N为词数量：

公式（2）

根据所述目标数据对中各个图像关系特征和各个文本关系特征的余弦相似度均值，计算得到所述目标数据对对应的图像-文本关系相似度；其中，图像-文本关系相似度的计算公式如公式（3），P表示图像数据和文本数据的关系个数：

公式（3）

根据所述目标数据对对应的图像-文本全局相似度、图像-文本局部相似度、图像-文本关系相似度计算得到所述目标数据对对应的图像-文本综合相似度；其中，图像-文本综合相似度的计算公式如公式（4）：

公式（4）。

在一个优选的实施例中，所述模态间结构约束损失函数的计算公式如公式（5），其中，B为样本数，为模型超参数，为匹配的目标数据对，和为非匹配的目标数据对：

公式（5）

所述模态内结构约束损失函数的计算公式如公式（6），其中，为图像三元组，相比于，与具有更多共同语义标签，为文本三元组，相比于，与具有更多共同语义标签：

公式（6）。

在一个优选的实施例中，所述采用所述模态间结构约束损失函数和所述模态内结构约束损失函数对神经网络模型进行训练的步骤，包括：

从所述训练数据集中随机采样获得匹配的目标数据对、非匹配的目标数据对、图像三元组、文本三元组，分别根据所述模态间结构约束损失函数计算模态间结构约束损失函数值，根据所述模态内结构约束损失函数计算模态内结构约束损失函数值，并按公式（7）进行融合，利用反向传播算法优化网络参数：

公式（7）

其中是超参数。

在一个优选的实施例中，所述通过图像视觉关系编码网络提取各个视觉目标之间的图像关系特征的步骤，包括：

经图像视觉目标检测器获得图像中视觉目标和视觉目标的特征，，以及两个目标联合区域的特征，采用公式（8）对上述各个特征进行融合，计算得到各个关系特征：

公式（8）

其中[]为向量拼接操作，为神经元激活函数，为模型参数。

在一个优选的实施例中，所述将各个词向量输入至文本关系编码网络提取各个词之间的文本关系特征的步骤，包括：

在文本关系编码网络中，采用公式（9）计算词和词之间的文本关系特征：

公式（9）

其中，表示神经元激活函数，为模型参数。

在一个优选的实施例中，所述采用文本引导注意力机制计算所述目标数据对中图像数据包括的每个视觉目标的权重，将各个视觉目标的图像局部特征进行对应权重加权后，经前馈神经网络映射获得新的图像局部表示的步骤，包括：

采用文本引导注意力机制，通过公式（10）计算图像中每个视觉目标的权重：

公式（10）

其中，、为模型参数；

通过公式（11）对每个视觉目标进行加权，并经过前馈神经网络映射获得新的图像局部表示：

公式（11）

其中，为模型参数。

在一个优选的实施例中，所述采用视觉引导注意力机制计算所述目标数据对中文本数据包括的每个词的权重，将各个词的文本局部特征进行对应权重加权后，经前馈神经网络映射得到新的文本局部表示的步骤，包括：

采用视觉引导注意力机制，通过公式（12）计算文本中每个词的权重：

公式（12）

其中，、为模型参数；

通过公式（13）对各个词的文本局部特征进行对应权重加权，并经过前馈神经网络映射获得新的文本局部表示：

公式（13）

其中，为模型参数。

在一个优选的实施例中，所述训练数据集通过Wikipedia、MS COCO、Pascal Voc获取。

与现有技术相比，本发明提供的一种基于多层次特征表示对齐的跨模态检索方法具有以下优点：

本发明提供的一种基于多层次特征表示对齐的跨模态检索方法，通过在跨模态细粒度精确对齐阶段，分别计算图像和文本两种不同模态数据之间的全局相似度、局部相似度和关系相似度，并融合得到图像-文本综合相似度，在网络训练阶段，设计相应损失函数，挖掘跨模态结构约束信息，从多个角度约束和监督检索模型的参数学习，最后根据图像-文本综合相似度获取测试查询样例的检索结果，从而通过引入图像和文本两种不同模态数据之间的细粒度关联关系，有效提高跨模态检索的准确率，在图文检索、模式识别等领域具有广泛的市场需求和应用前景。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是本发明一个实施例提供的一种实施环境的示意图。

图2是根据一示例性实施例示出的一种基于多层次特征表示对齐的跨模态检索方法的方法流程图。

图3是本发明实施例示出的一种模态间结构约束损失示意图。

图4是本发明实施例示出的一种模态内结构约束损失示意图。

图5是本发明实施例进行文本检索图像的一种结果示意图。

图6是根据一示例性实施例示出的一种用于实现基于多层次特征表示对齐的跨模态检索方法的装置框图。

图7是根据一示例性实施例示出的一种用于实现基于多层次特征表示对齐的跨模态检索方法的装置框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，以下结合具体实施例（但不限于所举实施例)与附图详细描述本发明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例可以适用于多种场景，其涉及的实施环境可以包括单个服务器的输入输出场景，或者终端与服务器的互动场景。当实施环境为单个服务器的输入输出场景时，图像数据和文本数据的获取和存储主体均为服务器；当实施环境为终端与服务器的互动场景，此时，实施例所涉及的实施环境的示意图可以如图1所示。在图1所示实施环境的示意图中，该实施环境包括终端101和服务器102。

终端101是运行有至少一个客户端的电子设备，客户端是某个应用程序的客户端，又称APP（Application，应用程序）。终端101可以是智能手机、平板电脑等。

终端101和服务器102之间通过无线或有线网络连接。终端101用于向服务器102发送数据，或，终端用于接收服务器102发送的数据。在一种可能的实施方式中，终端101可以向服务器102发送图像数据或文本数据中的至少一种。

服务器102用于接收终端101发送的数据，或，服务器102用于向终端101发送数据。其中，服务器102可以对终端101发送的数据进行分析处理，从而从数据库中匹配出相似度最高的图像数据和文本数据并发送至终端101。

图2是根据一示例性实施例示出的一种基于多层次特征表示对齐的跨模态检索方法的方法流程图，如图2所示，该一种基于多层次特征表示对齐的跨模态检索方法，其特征在于，所述方法包括：

步骤100：获取训练数据集，对于所述训练数据集中的每组数据对，所述数据对包括图像数据、文本数据，以及所述图像数据与所述文本数据共同对应的语义标签。

需要说明的是，文本数据可以为任意语种对应的文本内容，比如英文、中文、日文、德文等；图像数据可以为任意色彩对应的图像内容，比如彩色图像、灰度图像等。

步骤200：对于所述训练数据集中的每组数据对，分别提取所述数据对中图像数据对应的图像全局特征、图像局部特征和图像关系特征，以及所述数据对中文本数据对应的文本全局特征、文本局部特征和文本关系特征。

在一个优选的实施例中，步骤200具体包括：

步骤210：对于所述训练数据集中的每组数据对，采用卷积神经网络CNN提取所述数据对所对应图像数据的图像全局特征，然后采用视觉目标检测器检测所述图像数据包括的视觉目标并提取每个视觉目标的图像局部特征，其中，M为所述图像数据包括的视觉目标数量，为视觉目标的特征向量，再通过图像视觉关系编码网络提取各个视觉目标之间的图像关系特征，其中，为视觉目标和视觉目标之间的图像关系特征。

步骤220：对于所述训练数据集中的每组数据对，采用词嵌入模型将所述数据对所对应文本数据中的每个词转换为词向量，其中，N为所述文本数据包括的词数量，然后将各个词向量依次输入至递归神经网络，获得所述文本数据对应的文本全局特征，再将各个词向量输入至前馈神经网络获得各个词对应的文本局部特征，同时将各个词向量输入至文本关系编码网络提取各个词之间的文本关系特征，其中，为词和词之间的文本关系特征。

通过上述步骤200的实施，可实现跨模态多层次精细化表示。

步骤300：对于所述训练数据集中任一图像数据与任一文本数据组成的目标数据对，根据所述目标数据对对应的图像全局特征和文本全局特征、所述目标数据对对应的图像局部特征和文本局部特征、所述目标数据对对应的图像关系特征和文本关系特征计算得到所述目标数据对对应的图像-文本综合相似度。

在一个优选的实施例中，步骤300具体包括：

步骤310：对于所述训练数据集中任一图像数据与任一文本数据组成的目标数据对，基于所述目标数据对中图像数据对应的图像全局特征和文本数据对应的文本全局特征的余弦距离，计算得到所述目标数据对对应的图像-文本全局相似度。

其中，图像-文本全局相似度的计算公式如公式（1）：

) 公式（1）

步骤320：采用文本引导注意力机制计算所述目标数据对中图像数据包括的每个视觉目标的权重，将各个视觉目标的图像局部特征进行对应权重加权后，经前馈神经网络映射获得新的图像局部表示，然后采用视觉引导注意力机制计算所述目标数据对中文本数据包括的每个词的权重，将各个词的文本局部特征进行对应权重加权后，经前馈神经网络映射得到新的文本局部表示，根据各个图像局部表示和各个文本局部表示计算所有视觉目标和词的余弦相似度，并以其均值计算得到所述目标数据对对应的图像-文本局部相似度。

其中，图像-文本局部相似度的计算公式如公式（2），M为视觉目标数量，N为词数量：

公式（2）

步骤330：根据所述目标数据对中各个图像关系特征和各个文本关系特征的余弦相似度均值，计算得到所述目标数据对对应的图像-文本关系相似度。其中，图像-文本关系相似度的计算公式如公式（3），P表示图像数据和文本数据的关系个数：

公式（3）

步骤340：根据所述目标数据对对应的图像-文本全局相似度、图像-文本局部相似度、图像-文本关系相似度计算得到所述目标数据对对应的图像-文本综合相似度。

其中，图像-文本综合相似度的计算公式如公式（4）：

公式（4）

通过上述步骤300的实施，可实现跨模态细粒度精确对齐。

步骤400：基于各组目标数据对对应的图像-文本综合相似度，设计模态间结构约束损失函数和模态内结构约束损失函数，并采用所述模态间结构约束损失函数和所述模态内结构约束损失函数对神经网络模型进行训练。

公式（5）

公式（6）

其中，图3是本发明实施例示出的一种模态间结构约束损失示意图。

公式（7）

其中是超参数。

其中，图4是本发明实施例示出的一种模态内结构约束损失示意图。

通过上述步骤400的实施，可实现利用跨模态结构约束信息监督检索模型的训练，从而使网络训练朝着拉升匹配的目标数据对之间相似度，降低非匹配的目标数据对之间相似度的方向进行，同时使训练后的网络能够学习到更具判别力的图像和文本表示。

公式（8）

其中[]为向量拼接操作，为神经元激活函数，为模型参数。

公式（9）

其中，表示神经元激活函数，为模型参数。

公式（10）

其中，、为模型参数；

公式（11）

其中，为模型参数。

公式（12）

其中，、为模型参数；

公式（13）

其中，为模型参数。

需要说明的是，当采用上述步骤100-400实现神经网络模型的训练后，不同模态的数据经过神经网络模型计算就能准确输出二者之间的相似度。使用测试数据集中的任意一种模态类型作为查询模态，以另一种模态类型作为目标模态，将查询模态的每个数据作为查询样例，检索目标模态中的数据，按照公式（4）所示图像-文本综合相似度计算公式，计算查询样例和查询目标的相似性。在一种可能的实施方式中，神经网络模型可以将相似性最高的目标模态数据作为匹配数据进行输出，或，神经网络模型将各个神经网络模型相似性按照从大到小排序，得到预设数量的目标模态数据的相关结果列表，从而实现不同模态数据间的跨模态检索作业。

本实施例采用了MS COCO跨模态数据集进行实验，该数据集由文献（T. Lin, etal. Microsoft COCO: Common objects in context, ECCV 2014, pp.740-755.）首次提出，已成为跨模态检索领域最常用的实验数据集之一。该数据集中的每张图片均带有5个文本标注，其中82783张图片及其文本标注作为训练样本集，在剩余样本中随机挑选5000张图片及其文本标注作为测试样本集。为了更好地说明本发明实施例提供的基于多层次特征表示对齐的跨模态检索方法的有益效果，将本发明提供的基于多层次特征表示对齐的跨模态检索方法与以下3种现有跨模态检索方法进行实验测试比对：

现有方法一：文献（I. Vendrov, R. Kiros, S. Fidler, and R. Urtasun,Order-embeddings ofimages and language, ICLR, 2016.）中记载的Order-embedding方法。

现有方法二：文献（F. Faghri, D. Fleet, R. Kiros, and S. Fidler, VSE++:Improved visualsemantic embeddings with hard negatives, BMVC, 2018.）中记载的VSE++方法。

现有方法三：文献（J. Yu, W. Zhang, Y. Lu, Z. Qin, et al. Reasoning onthe relation: Enhancing visual representation for visual question answeringand cross-modal retrieval, IEEE Transactions on Multimedia, 22(12):3196-3209,2020.）中记载的c-VRANet方法。

实验采用跨模态检索领域常用的R@n指标来评测跨模态检索的准确率，该指标表示检索返回的n个样例中正确样例的百分比，该指标越高表示检索的结果越好，本实验中n分别取1，5，10。

表一

通过表一示出的数据可知，与现有跨模态检索方法相比，本发明提供的一种基于多层次特征表示对齐的跨模态检索方法在图像数据检索文本数据，以及文本数据检索图像数据两大任务上的检索准确率均有明显提升，从而充分证明了本发明提出的图像文本全局-局部-关系多层次特征表示精细化对齐的有效性。为了便于理解，还示出采用本发明实施例进行文本检索图像的结果示意图，如图5所示，其中，第一列为检索用文本，第二列为数据集给定的匹配图像，第三列到第七列为相似度前五的对应检索结果。

下面的实验结果表明，与现有方法相比，本发明基于多层次特征表示对齐的跨模态检索方法，可以取得更高的检索准确率。

综上所述，本发明提供的一种基于多层次特征表示对齐的跨模态检索方法，通过在跨模态细粒度精确对齐阶段，分别计算图像和文本两种不同模态数据之间的全局相似度、局部相似度和关系相似度，并融合得到图像-文本综合相似度，在网络训练阶段，设计相应损失函数，挖掘跨模态结构约束信息，从多个角度约束和监督检索模型的参数学习，最后根据图像-文本综合相似度获取测试查询样例的检索结果，从而通过引入图像和文本两种不同模态数据之间的细粒度关联关系，有效提高跨模态检索的准确率，在图文检索、模式识别等领域具有广泛的市场需求和应用前景。

图6是根据一示例性实施例示出的一种用于实现基于多层次特征表示对齐的跨模态检索方法的装置框图。例如，装置600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出（I/ O）的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制装置600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理***，一个或多个电源，及其他与为装置600生成、管理和分配电力相关联的组件。

多媒体组件608包括在装置600和目标用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自目标用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风（MIC），当装置600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/ O接口612为处理组件602和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为装置600提供各个方面的状态评估。例如，传感器组件614可以检测到装置600的打开/关闭状态，组件的相对定位，例如组件为装置600的显示器和小键盘，传感器组件614还可以检测装置600或装置600一个组件的位置改变，目标用户与装置600接触的存在或不存在，装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件616还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，装置600可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由装置600的处理器620执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当存储介质中的指令由装置600的处理器执行时，使得装置600能够执行一种基于多层次特征表示对齐的跨模态检索方法，该方法包括：

基于各组目标数据对对应的图像-文本综合相似度，设计模态间结构约束损失函数和模态内结构约束损失函数，并采用所述模态间结构约束损失函数和所述模态内结构约束损失函数对神经网络模型进行训练。

图7是根据一示例性实施例示出的一种用于实现基于多层次特征表示对齐的跨模态检索方法的装置框图。例如，装置700可以被提供为一服务器。参照图7，装置700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理部件722执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行上述启动页面生成方法。

装置700还可以包括一个电源组件726被配置为执行装置700的电源管理，一个有线或无线网络接口750被配置为将装置700连接到网络，和一个输入输出（I/O）接口758。装置700可以操作基于存储在存储器732的操作***，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或类似。

虽然，前文已经用一般性说明、具体实施方式及试验，对本发明做了详尽的描述，但在本发明基础上，可以对之进行修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

本领域技术人员在考虑说明书及实践这里的发明的后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种基于多层次特征表示对齐的跨模态检索方法，其特征在于，所述方法包括：

对于所述训练数据集中的每组数据对，采用卷积神经网络CNN提取所述数据对所对应图像数据的图像全局特征f^vg，然后采用视觉目标检测器检测所述图像数据包括的视觉目标并提取每个视觉目标的图像局部特征其中，M为所述图像数据包括的视觉目标数量，/>为视觉目标i的特征向量，再通过图像视觉关系编码网络提取各个视觉目标之间的图像关系特征/>其中，/>为视觉目标i和视觉目标j之间的图像关系特征；所述通过图像视觉关系编码网络提取各个视觉目标之间的图像关系特征/>的步骤，包括：经图像视觉目标检测器获得图像中视觉目标i和视觉目标j的特征/>以及两个目标联合区域的特征/>采用公式(8)对上述各个特征进行融合，计算得到各个关系特征：

其中[]为向量拼接操作，σ为神经元激活函数，W₁为模型参数；

对于所述训练数据集中的每组数据对，采用词嵌入模型将所述数据对所对应文本数据中的每个词转换为词向量其中，N为所述文本数据包括的词数量，然后将各个词向量依次输入至递归神经网络，获得所述文本数据对应的文本全局特征/>再将各个词向量输入至前馈神经网络获得各个词对应的文本局部特征/>同时将各个词向量输入至文本关系编码网络提取各个词之间的文本关系特征/>其中，/>为词i和词j之间的文本关系特征；所述将各个词向量输入至文本关系编码网络提取各个词之间的文本关系特征/>的步骤，包括：在文本关系编码网络中，采用公式(9)计算词i和词j之间的文本关系特征/>

其中，σ表示神经元激活函数，W₂为模型参数；

对于所述训练数据集中任一图像数据与任一文本数据组成的目标数据对，基于所述目标数据对中图像数据对应的图像全局特征f^vg和文本数据对应的文本全局特征f^tg的余弦距离，计算得到所述目标数据对对应的图像-文本全局相似度s_g(v,t)；其中，图像-文本全局相似度s_g(v,t)的计算公式如公式(1)：

s_g(v,t)＝cos(f^vg,f^tg) 公式(1)；

采用文本引导注意力机制计算所述目标数据对中图像数据包括的每个视觉目标的权重，将各个视觉目标的图像局部特征f^vl进行对应权重加权后，经前馈神经网络映射获得新的图像局部表示然后采用视觉引导注意力机制计算所述目标数据对中文本数据包括的每个词的权重，将各个词的文本局部特征f^tl进行对应权重加权后，经前馈神经网络映射得到新的文本局部表示/>根据各个图像局部表示/>和各个文本局部表示/>计算所有视觉目标和词的余弦相似度，并以其均值计算得到所述目标数据对对应的图像-文本局部相似度s_l(v,t)；其中，图像-文本局部相似度s_l(v,t)的计算公式如公式(2)，M为视觉目标数量，N为词数量：

根据所述目标数据对中各个图像关系特征和各个文本关系特征的余弦相似度均值，计算得到所述目标数据对对应的图像-文本关系相似度s_r(v,t)；其中，图像-文本关系相似度s_r(v,t)的计算公式如公式(3)，P表示图像数据和文本数据的关系个数：

根据所述目标数据对对应的图像-文本全局相似度s_g(v,t)、图像-文本局部相似度s_l(v,t)、图像-文本关系相似度s_r(v,t)计算得到所述目标数据对对应的图像-文本综合相似度s(v,t)；其中，图像-文本综合相似度s(v,t)的计算公式如公式(4)：

s(v,t)＝s_g(v,t)+s_l(v,t)+s_r(v,t) 公式(4)；

基于各组目标数据对对应的图像-文本综合相似度，设计模态间结构约束损失函数和模态内结构约束损失函数，并采用所述模态间结构约束损失函数和所述模态内结构约束损失函数对神经网络模型进行训练，根据所述神经网络模型实现不同模态数据间的跨模态检索作业，所述模态间结构约束损失函数的计算公式如公式(5)，其中，B为样本数，α为模型超参数，(v_i,t_i)为匹配的目标数据对，(v_i,t^-)和(t_i,v^-)为非匹配的目标数据对：

所述模态内结构约束损失函数的计算公式如公式(6)，其中，(v_i,v⁺,v^-)为图像三元组，相比于v^-，v⁺与v_i具有更多共同语义标签，(t_i,t⁺,t^-)为文本三元组，相比于t^-，t⁺与t_i具有更多共同语义标签：

2.根据权利要求1所述的方法，其特征在于，所述采用所述模态间结构约束损失函数和所述模态内结构约束损失函数对神经网络模型进行训练的步骤，包括：

从所述训练数据集中随机采样获得匹配的目标数据对、非匹配的目标数据对、图像三元组、文本三元组，分别根据所述模态间结构约束损失函数计算模态间结构约束损失函数值，根据所述模态内结构约束损失函数计算模态内结构约束损失函数值，并按公式(7)进行融合，利用反向传播算法优化网络参数：

L＝η·L_inter+(1-η)·L_inner 公式(7)

其中_η是超参数。

3.根据权利要求1所述的方法，其特征在于，所述采用文本引导注意力机制计算所述目标数据对中图像数据包括的每个视觉目标的权重，将各个视觉目标的图像局部特征f^vl进行对应权重加权后，经前馈神经网络映射获得新的图像局部表示的步骤，包括：

采用文本引导注意力机制，通过公式(10)计算图像中每个视觉目标的权重：

其中，W₃、W₄为模型参数；

通过公式(11)对每个视觉目标进行加权，并经过前馈神经网络映射获得新的图像局部表示

其中，W₅为模型参数。

4.根据权利要求1所述的方法，其特征在于，所述采用视觉引导注意力机制计算所述目标数据对中文本数据包括的每个词的权重，将各个词的文本局部特征f^tl进行对应权重加权后，经前馈神经网络映射得到新的文本局部表示的步骤，包括：

采用视觉引导注意力机制，通过公式(12)计算文本中每个词的权重：

其中，W₆、W₇为模型参数；

通过公式(13)对各个词的文本局部特征f^tl进行对应权重加权，并经过前馈神经网络映射获得新的文本局部表示

其中，W₈为模型参数。

5.根据权利要求1所述的方法，其特征在于，所述训练数据集通过Wikipedia、MS COCO、Pascal Voc获取。