CN109783655A

CN109783655A - 一种跨模态检索方法、装置、计算机设备和存储介质

Info

Publication number: CN109783655A
Application number: CN201811490973.2A
Authority: CN
Inventors: 宋彬; 姚继鹏; 郭洁; 罗文雯
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2019-05-21
Anticipated expiration: 2038-12-07
Also published as: CN109783655B

Abstract

本发明涉及多模态数据检索技术领域，特别是涉及一种跨模态检索方法、装置、计算机设备和存储介质。所述方法包括：获取第一模态待匹配数据，所述第一模态待匹配数据包括图像数据、文本数据；当所述第一模态待匹配数据为图像数据时，利用深度残差网络ResNet模型进行特征向量提取，当所述第一模态待匹配数据为文本数据时，利用变分自编码器模型进行特征向量提取；利用预设的映射函数将所述特征向量映射到公共表示空间；在所述公共表示空间内计算所述第一模态待匹配数据与第二模态配对数据的相似度，并根据所述相似度输出对应的所述第二模态配对数据，完成跨模态检索。本发明对数据的特征提取更加充分，提高了检索准确率。

Description

一种跨模态检索方法、装置、计算机设备和存储介质

技术领域

本发明涉及多模态数据检索技术领域，特别是涉及一种跨模态检索方法、装置、计算机设备和存储介质。

背景技术

近年来随着深度学习技术的快速发展与多模态数据的迅猛增长，人们开始尝试将计算机视觉和自然语言处理两个相对独立的领域联合起来进行研究，实现视觉语义联合嵌入。该任务需要将图像以及文本数据表示成一个固定长度的向量，进而嵌入到同一个矢量空间中。跨模态检索就是视觉语义联合嵌入的一个典型应用。现在文字、图片和音频等数据正在呈现指数式增长，信息的载体变得越来越多元化，人们希望能够在不同的信息载体之间进行信息检索。现有的信息检索***多只局限于单一模态数据之间的检索，只能实现类似于以图搜图、文本搜索文本的功能。或者用关键词作为检索条件，利用搜索引擎在网络上的众多对象中查询请求最相匹配的内容。而随着需求的不同，人们希望信息检索***可实现跨模态数据之间的信息检索，更加关注内容本身，而不是凭借一两个词来进行检索。多数模态间的数据通常都是非结构化的，同时由于特征提取方式的不同使得不同模态特征间的维度往往不同，这将导致特征中所蕴含的信息无法直观的进行比较。从而加大了高层语义与底层特征间的语义鸿沟。

浙江大学在其申请的专利文献“一种基于主题模型的跨模态检索方法”(专利申请号：201410532057.6)中提出了一种基于主题模型的跨模态检索方法。该方法对数据库中的多种模态数据首先进行特征提取和标签记录，然后建立基于主题的跨模态检索图模型进行检索。

桂林电子科技大学在其申请的专利文献“基于深度关联网络的跨模态检索方法”(专利申请号：201710989497.8)中提出了一种新型跨模态检索方法。该方法分为三大模块：首先利用词的金字塔直方图(PHOW)、全局特征信息(Gist)、等方法对图像模态数据进行原始特征提取，利用词袋模型对文本模态数据进行原始特征提取；然后利用受限玻尔兹曼机模型和自动编码器模型进行高级表示向量学习；最后进行相似度匹配，按照计算结果给出检索列表。

可见，现有技术中图像、文本数据的特征提取方法基于传统算法，特征提取过于浅显，导致部分特征信息流失，跨模态检索准确性不高的问题。

发明内容

基于此，有必要针对上述的问题，提供一种跨模态检索方法、装置、计算机设备和存储介质。

本发明是这样实现的，一种跨模态检索方法，包括以下步骤：

获取第一模态待匹配数据，所述第一模态待匹配数据包括图像数据、文本数据；

当所述第一模态待匹配数据为图像数据时，利用深度残差网络ResNet模型对其进行特征向量提取，当所述第一模态待匹配数据为文本数据时，利用变分自编码器模型对所述待匹配数据进行特征向量提取；

利用预设的映射函数将所述特征向量映射到公共表示空间；

在所述公共表示空间内计算所述第一模态待匹配数据与第二模态配对数据的相似度，并根据所述相似度输出对应的所述第二模态配对数据，完成跨模态检索；

其中，所述第二模态配对数据包括图像数据、文本数据，且在一轮检索中，所述第一模态待匹配数据和所述第二模态配对数据为不同类型数据。

在本发明一个实施例中，还提供了一种跨模态检索装置，包括：

数据获取模块，用于获取第一模态待匹配数据，所述第一模态待匹配数据包括图像数据、文本数据；

特征向量提取模块，用于当所述第一模态待匹配数据为图像数据时，利用深度残差网络ResNet模型对其进行特征向量提取，当所述第一模态待匹配数据为文本数据时，利用变分自编码器模型对所述待匹配数据进行特征向量提取；

映射模块，用于利用预设的映射函数将所述特征向量映射到公共表示空间；

匹配模块，用于在所述公共表示空间内计算所述第一模态待匹配数据与第二模态配对数据的相似度，并根据所述相似度输出对应的所述第二模态配对数据，完成跨模态检索；

此外，本发明实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述跨模态检索方法的步骤。

此外，本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述跨模态检索方法的步骤。

本发明实施例提供了一种跨模态检索方法、装置、计算机设备和存储介质，所述方法通过深度残差网络ResNet模型对图像数据进行特征向量提取，利用变分自编码器模型对文本数据进行特征向量提取，克服了传统算法中图像、文本数据的特征提取方法存在部分特征信息流失，影响检索准确率的问题，且本发明关联网络结构简单，易于训练。

附图说明

图1为一个实施例中提供的一种跨模态检索方法的应用环境图；

图2为一个实施例中提供的一种跨模态检索方法的流程示意图；

图3为一个实施例中提供的变分自编码器模型结构图；

图4为一个实施例中文字检索图像实验效果图；

图5为一个实施例中图像检索文字实验效果图；

图6为一个实施例中一种跨模态检索装置的结构框图；

图7为一个实施例中计算机设备的内部结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx 脚本。

图1为一个实施例中提供的一种跨模态检索方法的应用环境图，如图1所示，在该应用环境中，包括终端110以及计算机设备120。

在本发明中，终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110以及计算机设备120 可以通过网络进行连接，本发明在此不做限制。

在本发明中，计算机设备120可以是独立的物理服务器或终端，也可以是多个物理服务器构成的服务器集群，可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。

如图2所示，在一个实施例中，提出了一种跨模态检索方法，本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。具体可以包括以下步骤：

步骤S201，获取第一模态待匹配数据，所述第一模态待匹配数据包括图像数据、文本数据；

步骤S202，当所述第一模态待匹配数据为图像数据时，利用深度残差网络 ResNet模型对其进行特征向量提取，当所述第一模态待匹配数据为文本数据时，利用变分自编码器模型对所述待匹配数据进行特征向量提取；

步骤S203，利用预设的映射函数将所述特征向量映射到公共表示空间；

步骤S204，在所述公共表示空间内计算所述第一模态待匹配数据与第二模态配对数据的相似度，并根据所述相似度输出对应的所述第二模态配对数据，完成跨模态检索；

在本发明中，步骤S201，第一模态待匹配数据可以是图像数据，也可以是文本数据，本发明所述跨模态检索指在图像数据与文本数据之间实现跨模态检索。可以理解，所述第一模态待匹配数据与第二模态配对数据为不同类型的数据，在一轮检索中，当第一模态等匹配数据为图像数据时，第二模态配对数据对应为文本数据；当第一模态等匹配数据为文本数据时，第二模态配对数据对应为图像数据。在本发明中所述第一模态待匹配数据为数据请求端提交的数据 (例如终端110或者计算机设备120)，所述第二模态配对数据为响应端通过检索数据库返回的数据，所述数据库可以设置于本地设备，也可设置于云端服务器等，本发明对此不作限制。

在本发明中，步骤S202，构建含有50层的深度卷积神经网络ResNet (ResidualNeural Network)作为图像特征提取模型，深度卷积神经网络的设置分为五部分，从前往后依次为conv1,conv2_x,conv3_x,conv4_x，conv5_x，通过输入层获取图片数据，逐层对图像数据进行特征提取，保证图像信息完整提取的同时兼顾了模型训练难度。

在本发明中，步骤S202，通过变分自编码器模型(Variational Auto-Encoder) 对文体信息进行提取，相对于传统统计词频等方法，以及现阶段较为流行的递归神经网络等方法，本发明克服的方法克服了文本数据本身存在的语义信息被严重忽略的问题，且本发明使用的变分自编码器模型在保留特征信息方面表现更优越。

在本发明中，步骤S204，根据所述相似度输出对应的所述第二模态配对数据，应当理解，输出的数据可以不唯一，例如相似度相同或者相近时多个数据均输出，又或者，默认输出相似度最高的前若干个配对数据等，本发明对此不作过多限制。

本发明实施例提供了一种跨模态检索方法，通过提取待匹配数据的特征向量并映射到公共空间，在公共空间内计算相似度，输出检索结果，相对于现有技术，本发明使用的是深度残差网络ResNet模型以及变分自编码器模型提取图像数据与文本数据的特征，相比于使用金字塔直方图(PHOW)、全局特征信息 (Gist)等方法处理图像数据，使用词袋模型等方法处理文本数据，本发明得到的特征向量表示要更加丰富准确；尤其是在文本数据处理方面，以往统计词频等方法严重忽视了文本数据本身存在的语义信息，并且相比较于现阶段较为流行的递归神经网络等，本发明使用的变分自编码器在保留特征信息方面表现更优越。

在一个实施例中，步骤S202中所述当所述第一模态待匹配数据为图像数据时，利用深度残差网络ResNet模型对其进行特征向量提取，具体可以包括以下步骤：

步骤S301，将所述第一模态待匹配数据调整为第一像素大小，并在所述第一像素大小范围内剪切出第二像素大小的部分区域，所述第二像素大小不大于所述第一像素大小；

步骤S302，利用深度残差网络ResNet模型提取所述第一模态待匹配数据的特征向量并存储。

在本发明实施例中，步骤S301，将图像数据裁剪为第一像素大小，目的在于统一图像的大小，以便于输入模型；将图像数据裁剪为第二像素大小，可以达到数据增强的目的。需要理解的是，第一尺寸大小是对图像的大小进行调整，不等于“裁剪”；第二像素大小则为在第一像素大小的范围内进行裁剪，例如第一像素大小可以是256*256，与之对应的第二像素大小可以是224*224，本发明对其具体组合不作限制。

在本发明中，步骤S302，构建50层的深度残差网络ResNet模型，下载在 ImageNet(用于视觉对象识别软件研究的大型可视化数据库)上预训练好的深度残差网络ResNet参数权重，将其加载到构建好的卷积神经网络ResNet模型中。将步骤S301处理后的图片从输入层输入，依次进行批标准化、卷积操作和非线性Relu(Rectified Linear Unit，线性整流函数)变换，经过卷积层与全连接层后，提取出图像的特征向量，向量表示维度为2048维；将提取的每幅图像的2048 维向量进行存储，方便后续网络架构直接使用。

本发明通过深度残差网络ResNet模型对图像数据进行特征向量提取，相对于现有技术，提取出的特征向量表示更为丰富，信息损失少，减少了特征信息的流失，提高检索准确率。

在一个实施例中，如图3所示，步骤S202中所述当所述第一模态待匹配数据为文本数据时，利用变分自编码器模型对所述待匹配数据进行特征向量提取，具体可以包括以下步骤：

步骤S401，将所述待匹配数据截断为预设长度；

步骤S402，利用词向量模型对所述待匹配数据的每个单词进行编码表示，并将所述编码进行级联；

步骤S403，利用变分自编码器模型对级联后的数据进行处理，得到所述第一模态待匹配数据的特征向量并存储。

在本发明中，步骤S401，目的在于统一每个文本数据的长度，尽量保留多的信息，同时不会造成数据冗余。例如将每个文本截断为25个词，当文本短于 25个词时使用编码0进行补足。

在本发明中，步骤S402，作用在于对长度经过调整的文本数据进行编码表示，每个单词的编码设置为300维，之后将每个句子中的单词进行级联，得到对应句子的向量，该向量维度为7500维。

在本发明中，步骤S403，将上述描述句子的7500维向量，送入变分自编码器的输入层，然后前向传输到全连接层，然后得到均值与标准差向量空间层，得到两个维度为n(n为隐含向量空间的向量维度)的向量：一个是均值向量，一个是标准差向量，从而由均值向量与标准差向量得到隐含向量空间层的向量表示，最后输入到解码器进行解码重构。

在模型构建过程中，此过程还包括变分自编码器的训练过程，训练时的目标函数为：

其中：φ，θ分别表示变分自编码器的编码、解码网络层参数；logp_θ(X|Z)是重构样本的对数似然估计；q_φ(Z|X)是包含编码网络参数φ的后验概率分布函数 p_θ(Z|X)的变分近似分布；p(Z)是先验正态分布；KL代表KL散度，用来衡量两个分布函数的相似度，当两个分布函数相同的时候，KL距离取得最小值0，因此在神经网络中，加入约束项，使得某些变量服从于设定的概率分布。

该损失函数实际上包括前后两项，前项代表重构损失，与变分自编码器模型相似，仅增加了期望值运算符，原因在于要从分布当中采样。损失函数的后项为相对熵，目标在于让训练出的分布接近于正态分布，即平均值接近0，标准差接近1。前项对应解码过程，是对数似然估计，用于重构原始样本数据，后项对应编码过程，用于衡量近似后验概率分布函数与先验分布的相似度。

所述变分自编码器的训练步骤如下：

第1步，向前传播阶段，将样本输入变分自编码器计算相应的实际输出，在此阶段，信息从变分自编码器输入层经过编码与解码逐级变换，传送到变分自编码器输出层。

第2步，向后传播阶段，根据上述描述的损失目标函数，按极小化误差的方法，反向传播调整变分自编码器的模型参数。

第3步，重复第1步和第2步的操作，直到变分自编码器目标目标函数降到一定阈值为止，得到训练好的变分自编码器模型。

在本发明中，步骤S403，采用上述训练好的变分自编码器模型对文本数据进行特征提取，取出隐含向量空间层中的特征向量，作为文本描述的提取特征。

本发明实施例提供了一种跨模态检索方法，通过变分自编码器模型对文本信息进行提取，特征向量保留了更为丰富准确的信息，提高了检索的准确性。

在一个实施例中，步骤S204中所述相似度通过所述第一模态待匹配数据与第二模态配对数据特征向量的内积进行衡量，所述内积通过评分函数计算，具体如下：

s(i,c)＝f(i；W_f,θ_φ)·g(c；W_g,θ_ψ)

其中：s(i,c)表示评分函数，(i,c)表示配对的图像文本数据，f(i；W_f,θ_φ)与 g(c；W_g,θ_ψ)分别表示所述图像数据和文本数据的特征向量在所述公共表示空间内的向量表示。

在本发明中，通过映射函数将提取出的图像、文本特征向量映射到公共向量表示空间，映射后两种模态数据的向量维度均一致，本本发设定为1024维。

本发明实施例给出了映射函数的具体形式，通过建立公共表示空间，将图像、文本数据的视觉、语义信息联合嵌入到此空间，有效克服了不同模态数据存在的语义鸿沟问题，且在公共表示空间中不同模态数据维度一致，方便进行相似度度量。

作为上述实施例的一个优化方案，所述映射函数通过排序损失函数进行优化，用于将所述图像、文体数据的特征向量映射到所述公共表示空间，所述映射函数的具体形式为：

其中：i代表图像数据，c代表文本数据；θ_φ与θ_ψ分别为图像、文本数据特征向量提取模型参数；φ(i；θ_φ)与ψ(c；θ_ψ)分别为提取到的图像、文本特征向量；W_f与W_g分别为图像、文本数据的映射权重矩阵，经所述排序损失函数优化后得到。

作为上述优化方案的进一步优化，所述排序损失函数根据所述评分函数进行设计，用于优化所述映射函数的映射权重矩阵，具体为：

其中：i′＝argmax_j≠is(j,c)，为数据库中不配对的数据中和文本c具有最高相似度的图像数据；c′＝argmax_d≠cs(i,d)，为数据库中不配对的数据中和图像i具有最高相似度的文本数据。

在本发明中，现有技术损失函数的形式为：

其中：[x]₊＝max(x,0)，s(i,c)表示成对的图像文本数据得分，与表示不成对的图像文本数据得分。损失函数第一项求和是给定一个图像查询i，求和所有不匹配的文本数据第二项求和是给定一个文本查询c，求和所有不匹配的图像数据现有损失函数的整体目的是让成对匹配的图像文本数据在公共表示空间中的距离比任意一对不匹配的图像文本数据距离都近。

本发明采用hard negative(难负样本)，即给定一个查询模态，从所有的不匹配的图像/文本数据对中找出得分最高的一对：i′＝argmax_j≠is(j,c)和 c′＝argmax_d≠cs(i,d)，(其中，(j,c)和(i,d)表示不配对的图像文本数据)从而得到本发明给出的形式。

本发明提供了一种跨模态检索方法，相对于现有技术，本发明采用修改后的排序损失函数作为目标损失函数，对不同模态数据间的相关性挖掘更为充分准确，且修改后的损失函数相对于现有的排序损失函数，计算量更少，速度更快，且准确率得到提升。

以下结合一个具体实施例，对本发明的达到的技术效果进行进一步说明。

本实施例的仿真硬件环境为：Intel Core(TM)[email protected]×8，GPU NVIDIAGeForce GTX 1070，8GB内存；软件环境：ubuntu 16.04，python3.6。

本实施例所做仿真试验基于Flickr30K数据集。首先分别用深度残差网络 ResNet模型和变分自编码器模型分别对图像、文本数据进行特征提取，然后通过映射函数将图像数据特征向量、文本数据特征向量映射到公共表示空间，在公共表示空间计算相似度。跨模态检索的一般常用标准为R@N：指检索出的前N个结果中，有正确结果的比例，该值越大越好。表1是现有方法与本发明所用方法的结果对比。

表1跨模态检索方法效果对比表

对照表1及附图4、5，可以发现，与其他方法相比，本发明不论是在文本检索图像还是图像检索文本中，都取得了更高的准确率与更好的效果。

如图6所示，在一个实施例中，提供了一种跨模态检索装置，具体可以包括：

数据获取模块601，用于获取第一模态待匹配数据，所述第一模态待匹配数据包括图像数据、文本数据；

特征向量提取模块602，用于当所述第一模态待匹配数据为图像数据时，利用深度残差网络ResNet模型对其进行特征向量提取，当所述第一模态待匹配数据为文本数据时，利用变分自编码器模型对所述待匹配数据进行特征向量提取；

映射模块603，用于利用预设的映射函数将所述特征向量映射到公共表示空间；

匹配模块604，用于在所述公共表示空间内计算所述第一模态待匹配数据与第二模态配对数据的相似度，并根据所述相似度输出对应的所述第二模态配对数据，完成跨模态检索；

在本发明中，数据获取模块601，第一模态待匹配数据可以是图像数据，也可以是文本数据，本发明所述跨模态检索指在图像数据与文本数据之间实现跨模态检索。可以理解，所述第一模态待匹配数据与第二模态配对数据为不同类型的数据，在一轮检索中，当第一模态等匹配数据为图像数据时，第二模态配对数据对应为文本数据；当第一模态等匹配数据为文本数据时，第二模态配对数据对应为图像数据。在本发明中所述第一模态待匹配数据为数据请求端提交的数据(例如终端110或者计算机设备120)，所述第二模态配对数据为响应端通过检索数据库返回的数据，所述数据库可以设置于本地设备，也可设置于云端服务器等，本发明对此不作限制。

在本发明中，特征向量提取模块602，构建含有50层的深度卷积神经网络 ResNet(Residual Neural Network)作为图像特征提取模型，深度卷积神经网络的设置分为五部分，从前往后依次为conv1,conv2_x,conv3_x,conv4_x， conv5_x，通过输入层获取图片数据，逐层对图像数据进行特征提取，保证图像信息完整提取的同时兼顾了模型训练难度。

在本发明中，特征向量提取模块602，通过变分自编码器模型(Variational Auto-Encoder)对文体信息进行提取，相对于传统统计词频等方法，以及现阶段较为流行的递归神经网络等方法，本发明克服的方法克服了文本数据本身存在的语义信息被严重忽略的问题，且本发明使用的变分自编码器模型在保留特征信息方面表现更优越。

在本发明中，匹配模块604，根据所述相似度输出对应的所述第二模态配对数据，应当理解，输出的数据可以不唯一，例如相似度相同或者相近时多个数据均输出，又或者，默认输出相似度最高的前若干个配对数据等，本发明对此不作过多限制。

本发明实施例提供了一种跨模态检索装置，通过提取待匹配数据的特征向量并映射到公共空间，在公共空间内计算相似度，输出检索结果，相对于现有技术，本发明使用的是深度残差网络ResNet模型以及变分自编码器模型提取图像数据与文本数据的特征，相比于使用金字塔直方图(PHOW)、全局特征信息 (Gist)等方法处理图像数据，使用词袋模型等方法处理文本数据，本发明得到的特征向量表示要更加丰富准确；尤其是在文本数据处理方面，以往统计词频等方法严重忽视了文本数据本身存在的语义信息，并且相比较于现阶段较为流行的递归神经网络等，本发明使用的变分自编码器在保留特征信息方面表现更优越。

在一个实施例中，特征向量提取模块602用于当所述第一模态待匹配数据为图像数据时，利用深度残差网络ResNet模型对其进行特征向量提取，具体为：

将所述第一模态待匹配数据调整为第一像素大小，并在所述第一像素大小范围内剪切出第二像素大小的部分区域，所述第二像素大小不大于所述第一像素大小；

利用深度残差网络ResNet模型提取所述第一模态待匹配数据的特征向量并存储。

在本发明实施例中，将图像数据裁剪为第一像素大小，目的在于统一图像的大小，以便于输入模型；将图像数据裁剪为第二像素大小，可以达到数据增强的目的。需要理解的是，第一尺寸大小是对图像的大小进行调整，不等于“裁剪”；第二像素大小则为在第一像素大小的范围内进行裁剪，例如第一像素大小可以是256*256，与之对应的第二像素大小可以是224*224，本发明对其具体组合不作限制。

在本发明中，构建50层的深度残差网络ResNet模型，下载在ImageNet(用于视觉对象识别软件研究的大型可视化数据库)上预训练好的深度残差网络 ResNet参数权重，将其加载到构建好的卷积神经网络ResNet模型中。将上一步处理后的图片从输入层输入，依次进行批标准化、卷积操作和非线性Relu (Rectified Linear Unit，线性整流函数)变换，经过卷积层与全连接层后，提取出图像的特征向量，向量表示维度为2048维；将提取的每幅图像的2048维向量进行存储，方便后续网络架构直接使用。

在一个实施例中，如图3所示，特征向量提取模块602用于当所述第一模态待匹配数据为文本数据时，利用变分自编码器模型对所述待匹配数据进行特征向量提取，具体用于为：

将所述待匹配数据截断为预设长度；

利用词向量模型对所述待匹配数据的每个单词进行编码表示，并将所述编码进行级联；

利用变分自编码器模型对级联后的数据进行处理，得到所述第一模态待匹配数据的特征向量并存储。

在本发明中，将所述待匹配数据截断为预设长度，目的在于统一每个文本数据的长度，尽量保留多的信息，同时不会造成数据冗余。例如将每个文本截断为25个词，当文本短于25个词时使用编码0进行补足。

在本发明中，利用词向量模型对所述待匹配数据的每个单词进行编码表示，并将所述编码进行级联，作用在于对长度经过调整的文本数据进行编码表示，每个单词的编码设置为300维，之后将每个句子中的单词进行级联，得到对应句子的向量，该向量维度为7500维。

在本发明中，利用变分自编码器模型对级联后的数据进行处理，得到所述第一模态待匹配数据的特征向量并存储，将上述描述句子的7500维向量，送入变分自编码器的输入层，然后前向传输到全连接层，然后得到均值与标准差向量空间层，得到两个维度为n(n为隐含向量空间的向量维度)的向量：一个是均值向量，一个是标准差向量，从而由均值向量与标准差向量得到隐含向量空间层的向量表示，最后输入到解码器进行解码重构。

其中，φ，θ分别表示变分自编码器的编码、解码网络层参数；logp_θ(X|Z) 是重构样本的对数似然估计；q_φ(Z|X)是包含编码网络参数φ的后验概率分布函数p_θ(Z|X)的变分近似分布；p(Z)是先验正态分布；KL代表KL散度，用来衡量两个分布函数的相似度，当两个分布函数相同的时候，KL距离取得最小值 0，因此在神经网络中，加入约束项，使得某些变量服从于设定的概率分布。

所述变分自编码器的训练步骤如下：

在本发明中，采用上述训练好的变分自编码器模型对文本数据进行特征提取，取出隐含向量空间层中的特征向量，作为文本描述的提取特征。

本发明实施例提供了一种跨模态检索装置，通过变分自编码器模型对文本信息进行提取，特征向量保留了更为丰富准确的信息，提高了检索的准确性。

在一个实施例中，匹配模块604，所述相似度通过所述第一模态待匹配数据与第二模态配对数据特征向量的内积进行衡量，所述内积通过评分函数计算，具体如下：

s(i,c)＝f(i；W_f,θ_φ)·g(c；W_g,θ_ψ)

其中：s(i,c)表示评分函数，(i,c)表示配对的图像文本数据，f(i；W_f,θ_φ) 与g(c；W_g,θ_ψ)分别表示所述图像数据和文本数据的特征向量在所述公共表示空间内的向量表示。

在本发明中，现有技术损失函数的形式为：

其中，[x]₊＝max(x,0)，s(i,c)表示成对的图像文本数据得分，与表示不成对的图像文本数据得分。损失函数第一项求和是给定一个图像查询i，求和所有不匹配的文本数据第二项求和是给定一个文本查询c，求和所有不匹配的图像数据现有损失函数的整体目的是让成对匹配的图像文本数据在公共表示空间中的距离比任意一对不匹配的图像文本数据距离都近。

本发明采用hard negative(难负样本)，即给定一个查询模态，从所有的不匹配的图像/文本数据对中找出得分最高的一对：i′＝argma^x _j≠is(j,c)和 c′＝argmax_d≠cs(i,d)，(其中，(j,c)和(i,d)表示不配对的图像文本数据)从而得到本发明给出的形式。

本发明提供了一种跨模态检索装置，相对于现有技术，本发明采用修改后的排序损失函数作为目标损失函数，对不同模态数据间的相关性挖掘更为充分准确，且修改后的损失函数相对于现有的排序损失函数，计算量更少，速度更快，且准确率得到提升。

图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图7所示，该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现跨模态检索方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行跨模态检索方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的跨模态检索装置可以实现为一种计算机程序的形式，计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该跨模态检索装置的各个程序模块，比如，图6所示的数据获取模块601、特征向量提取模块602、映射模块603和匹配模块604。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的跨模态检索方法中的步骤。

例如，图7所示的计算机设备可以通过如图6所示的跨模态检索装置中的数据获取模块601执行步骤S201；计算机设备可通过特征向量提取模块602执行步骤S202；计算机设备可通过映射模块603执行步骤S203；计算机设备可通过匹配模块604执行步骤S204。

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

在一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM 以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态 RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种跨模态检索方法，其特征在于，所述方法包括：

利用预设的映射函数将所述特征向量映射到公共表示空间；

2.如权利要求1所述的一种跨模态检索方法，其特征在于，所述当所述第一模态待匹配数据为图像数据时，利用深度残差网络ResNet模型对其进行特征向量提取，包括以下步骤：

3.如权利要求1所述的一种跨模态检索方法，其特征在于，所述当所述第一模态待匹配数据为文本数据时，利用变分自编码器模型对所述待匹配数据进行特征向量提取，包括以下步骤：

将所述待匹配数据截断为预设长度；

4.如权利要求1所述的一种跨模态检索方法，其特征在于，所述相似度通过所述第一模态待匹配数据与第二模态配对数据特征向量的内积进行衡量，所述内积通过评分函数计算，具体如下：

s(i,c)＝f(i；W_f,θ_φ)·g(c；W_g,θ_ψ)

其中：s(i,c)表示评分函数，f(i；W_f,θ_φ)与g(c；W_g,θ_ψ)分别表示所述图像数据和文本数据的特征向量在所述公共表示空间内的向量表示。

5.如权利要求4所述的一种跨模态检索方法，其特征在于，所述映射函数通过排序损失函数进行优化，用于将所述图像、文体数据的特征向量映射到所述公共表示空间，所述映射函数的具体形式为：

6.如权利要求5所述的一种跨模态检索方法，其特征在于，所述排序损失函数根据所述评分函数进行设计，用于优化所述映射函数的映射权重矩阵，具体为：

其中：i′＝argmax_j≠is(j,c)，为数据库中具有最高相似度配对数据的图像数据；c′＝argmax_d≠cs(i,d)，为数据库中具有最高相似度配对数据的文本数据。

7.一种跨模态检索装置，其特征在于，所述装置包括：

8.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至6中任一项权利要求所述跨模态检索方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至6中任一项权利要求所述跨模态检索方法的步骤。