CN106547826A

CN106547826A - 一种跨模态检索方法、装置及计算机可读介质

Info

Publication number: CN106547826A
Application number: CN201610872056.5A
Authority: CN
Inventors: 刘诣涵; 邓成; 陈兆佳; 杨延华; 李超; 杨二昆
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2017-03-29

Abstract

本发明提供了一种跨模态检索方法、装置及计算机可读介质，通过确定至少两种模态的数据样本，为每一种模态的数据样本中每一个数据计算对应的第一哈希码，设置距离阈值，确定待检索信息，并从所述待检索信息提取检索特征；利用所述检索特征，计算所述待检索信息的第二哈希码；分别计算所述第二哈希码与所述每一种模态的数据样本中每一个数据对应的第一哈希码之间的汉明距离；在每一种模态的数据样本中，确定并输出汉明距离小于所述距离阈值的数据。本发明提供的方案能够有效地提高检索的准确性。

Description

一种跨模态检索方法、装置及计算机可读介质

技术领域

本发明涉及计算机技术领域，特别涉及一种跨模态检索方法、装置及计算机可读介质。

背景技术

跨模态检索是用一种模态的关键词检索出多种模态的数据，如输入一段文字作为关键词，通过跨模态检索可以为该段文字匹配出相关的图像等。目前，随着以图像和文本为代表的多媒体数据呈现爆发式增长，跨模态检索越来越受到关注。

目前，跨模态检索的方式主要是，基于哈希学习的方式，为具有相似特征的不同模态的数据生成同一个哈希码，并通过哈希学习的方式，为检索信息的特征也生成一个哈希码，根据哈希码查找不同模态的数据。例如：为数据库中已经存在的具有关联的图像-文本对生成同一个哈希码，那么当检索信息对应的哈希码与某一个图像-文本对对应的哈希码一致时，则直接将该图像-文本对中的图像和文本输出。

由于检索信息常常是一种模态如文本或者图像，其哈希码仅为文本或者图像对应的哈希码，常常与图像文本对对应的哈希码存在一定的差异性。因此，现有的这种为相似特征的不同模态数据生成同一个哈希码的方式，造成检索的准确性较低。

发明内容

本发明实施例提供了一种跨模态检索方法、装置及计算机可读介质，能够有效地提高检索的准确性。

一种跨模态检索方法，确定至少两种模态的数据样本，为每一种模态的数据样本中每一个数据计算对应的第一哈希码，设置距离阈值，还包括：

确定待检索信息，并从所述待检索信息提取检索特征；

利用所述检索特征，计算所述待检索信息的第二哈希码；

分别计算所述第二哈希码与所述每一种模态的数据样本中每一个数据对应的第一哈希码之间的汉明距离；

在每一种模态的数据样本中，确定并输出汉明距离小于所述距离阈值的数据。

优选地，所述至少两种模态的数据样本，包括：图像数据样本和文本数据样本；

在所述确定至少两种模态的数据样本之后，在所述为每一种模态的数据样本中每一个数据计算对应的第一哈希码之前，进一步包括：

分别提取图像数据样本和文本数据样本包含的原始特征；

通过迭代最小化下述目标损失函数，确定每一种模态对应的哈希码计算公式；

目标损失函数：

其中，P表征目标损失函数值大小；X表征图像数据的原始特征；U_X表征图像的基矩阵；B_X表征图像对应的第一哈希码；Y表征文本数据的原始特征；U_Y表征文本的基矩阵；B_Y表征文本对应的第一哈希码；μ表征图像数据与文本数据的关联权重；γ表征平衡系数；表征避免过拟合的正则项；

所述计算对应的第一哈希码，包括：利用每一种模态对应的哈希码计算公式，计算每一种模态的数据样本中每一个数据计算对应的第一哈希码。

优选地，所述通过迭代最小化下述目标损失函数，包括：

顺序循环迭代优化下述S1至S3，直至所述P小于预先设置的损失常数；

S1：固定所述目标损失函数中的W_X、W_Y、B_X和B_Y，并令得到U_X和U_Y，并将U_X和U_Y的计算结果代入S2中；

S2：固定所述目标损失函数中的W_X、W_Y、U_X和U_Y，令得到B_X和B_Y，并将B_X和B_Y的计算结果代入S3中；

S3：固定所述目标损失函数中的U_X、U_Y、B_X和B_Y，令得到W_X和W_Y，并将W_X和W_Y的计算结果代入S1中；

其中，I表征单位矩阵。

优选地，所述为每一种模态的数据样本中每一个数据计算对应的第一哈希码，包括：

根据下述第一计算公式，计算图像数据样本中每一个数据计算对应的第一哈希码；

第一计算公式：

H_X＝sign(B_X)

其中，B_X表征图像样本数据中一个数据对应的第一哈希码；H_X表征图像数据的第一哈希码对应的符号。

优选地，根据下述第二计算公式，计算文本数据样本中每一个数据计算对应的第一哈希码；

第二计算公式：

H_Y＝sign(B_Y)

其中，B_Y表征文本样本数据中一个数据对应的第一哈希码；H_Y表征文本数据的第一哈希码对应的符号。

优选地，所述计算所述待检索信息的第二哈希码，包括：

当所述待检索信息为待检索图像信息时，

根据下述第三计算公式，计算所述待检索图像信息的第二哈希码；

第三计算公式：

其中，表征图像信息中的图像数据；x_i表征图像信息的检索特征；W_X表征图像数据对应的线性投影矩阵。

优选地，当所述待检索信息为待检索文本信息时，

根据下述第四计算公式，计算所述待检索文本信息的第二哈希码；

第四计算公式：

其中，表征文本信息中的文本数据；y_i表征文本信息的检索特征；W_Y表征文本数据对应的线性投影矩阵。

一种跨模态检索装置，包括：

样本确定单元，用于确定至少两种模态的数据样本，为每一种模态的数据样本中每一个数据计算对应的第一哈希码；

设置单元，用于设置距离阈值；

检索特征提取单元，用于确定待检索信息，并从所述待检索信息提取检索特征；

汉明距离计算单元，用于根据所述检索特征提取单元提取的检索特征，计算所述待检索信息的第二哈希码，并分别计算所述第二哈希码与所述样本确定单元确定出的每一种模态的数据样本中每一个数据对应的第一哈希码之间的汉明距离；

检索单元，用于在所述样本确定单元确定出的每一种模态的数据样本中，确定并输出所述汉明距离计算单元计算出的汉明距离小于所述设置单元设置的距离阈值的数据。

优选地，上述装置进一步包括：样本特征提取单元和迭代计算单元，其中，

所述样本确定单元，用于确定图像数据样本和文本数据样本，并利用所述迭代计算单元确定出的每一种模态对应的哈希码计算公式，计算每一种模态的数据样本中每一个数据计算对应的第一哈希码；

所述样本特征提取单元，用于分别提取所述样本确定单元确定出的图像数据样本和文本数据样本包含的原始特征；

所述迭代计算单元，用于通过迭代最小化下述目标损失函数，确定每一种模态对应的哈希码计算公式；

目标损失函数：

其中，P表征目标损失函数值大小；X表征样本特征提取单元提取出的图像数据的原始特征；U_X表征图像的基矩阵；B_X表征图像对应的第一哈希码；Y表征样本特征提取单元提取出的文本数据的原始特征；U_Y表征文本的基矩阵；B_Y表征文本对应的第一哈希码；μ表征图像数据与文本数据的关联权重；γ表征平衡系数；表征避免过拟合的正则项。

优选地，所述迭代计算单元，用于：

其中，I表征单位矩阵。

优选地，所述样本确定单元，包括：图像样本计算子单元和文本样本计算子单元，其中，

所述图像样本计算子单元，用于根据下述第一计算公式，计算图像数据样本中每一个数据计算对应的第一哈希码；

第一计算公式：

H_X＝sign(B_X)

其中，B_X表征图像样本数据中一个数据对应的第一哈希码；H_X表征图像数据的第一哈希码对应的符号；

所述文本样本计算子单元，用于根据下述第二计算公式，计算文本数据样本中每一个数据计算对应的第一哈希码；

第二计算公式：

H_Y＝sign(B_Y)

优选地，所述汉明距离计算单元，包括：图像检索计算子单元和文本检索计算子单元，其中，

所述图像检索计算子单元，用于当所述待检索信息为待检索图像信息时，

第三计算公式：

所述文本检索计算子单元，用于当所述待检索信息为待检索文本信息时，

第四计算公式：

一种计算机可读介质，包括：

所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述任一所述的方法。

本发明实施例提供了一种跨模态检索方法和装置，通过确定至少两种模态的数据样本，为每一种模态的数据样本中每一个数据计算对应的第一哈希码，设置距离阈值，确定待检索信息，并从所述待检索信息提取检索特征；利用所述检索特征，计算所述待检索信息的第二哈希码；分别计算所述第二哈希码与所述每一种模态的数据样本中每一个数据对应的第一哈希码之间的汉明距离；在每一种模态的数据样本中，确定并输出汉明距离小于所述距离阈值的数据，由于上述过程分别为每一种模态的数据样本均计算出了对应的哈希码，避免了不同模态的样本用同一个哈希码带来的误差，从而提高了检索的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种跨模态检索方法的流程图；

图2是本发明另一个实施例提供的一种跨模态检索方法的流程图；

图3是本发明一个实施例提供的一个准确率-召回率曲线对比图；

图4是本发明一个实施例提供的一个topN-准确率曲线对比图；

图5是本发明实施例提供的一种跨模态检索装置所在架构的结构示意图；

图6是本发明一个实施例提供的一种跨模态检索装置的结构示意图；

图7是本发明另一个实施例提供的一种跨模态检索装置的结构示意图；

图8是本发明又一个实施例提供的一种跨模态检索装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种跨模态检索方法，该方法可以包括以下步骤：

步骤101：确定至少两种模态的数据样本，为每一种模态的数据样本中每一个数据计算对应的第一哈希码，并设置距离阈值；

步骤102：确定待检索信息，并从所述待检索信息提取检索特征；

步骤103：利用所述检索特征，计算所述待检索信息的第二哈希码；

步骤104：分别计算所述第二哈希码与所述每一种模态的数据样本中每一个数据对应的第一哈希码之间的汉明距离；

步骤105：在每一种模态的数据样本中，确定并输出汉明距离小于所述距离阈值的数据。

在图1所示的实施例中，通过确定至少两种模态的数据样本，为每一种模态的数据样本中每一个数据计算对应的第一哈希码，设置距离阈值，确定待检索信息，并从所述待检索信息提取检索特征；利用所述检索特征，计算所述待检索信息的第二哈希码；分别计算所述第二哈希码与所述每一种模态的数据样本中每一个数据对应的第一哈希码之间的汉明距离；在每一种模态的数据样本中，确定并输出汉明距离小于所述距离阈值的数据，由于上述过程分别为每一种模态的数据样本均计算出了对应的哈希码，避免了不同模态的样本用同一个哈希码带来的误差，从而提高了检索的准确性。

在本发明一个实施例中，为了能够使一种模态的数据样本的哈希码计算公式与另一种模态的数据样本相关联，同时，使哈希码计算公式计算出的哈希码表达比较准确，所述至少两种模态的数据样本，包括：图像数据样本和文本数据样本；在所述确定至少两种模态的数据样本之后，在所述为每一种模态的数据样本中每一个数据计算对应的第一哈希码之前，进一步包括：

分别提取图像数据样本和文本数据样本包含的原始特征；

目标损失函数：

其中，P表征目标损失函数值大小；X表征图像数据的原始特征；U_X表征图像的基矩阵；B_X表征图像对应的第一哈希码；Y表征文本数据的原始特征；U_Y表征文本的基矩阵；B_Y表征文本对应的第一哈希码；μ表征图像数据与文本数据的关联权重；γ表征平衡系数；表征避免过拟合的正则项；所述计算对应的第一哈希码，包括：利用每一种模态对应的哈希码计算公式，计算每一种模态的数据样本中每一个数据计算对应的第一哈希码。

在本发明一个实施例中，为了能够使迭代最小化目标损失函数的过程比较准确，所述通过迭代最小化下述目标损失函数，包括：

其中，I表征单位矩阵。

在本发明一个实施例中，为了能够将数据样本对应的哈希码转化为对应的符号使哈希码仅用0，1表达，所述为每一种模态的数据样本中每一个数据计算对应的第一哈希码，包括：

第一计算公式：

H_X＝sign(B_X)

在本发明一个实施例中，所述为每一种模态的数据样本中每一个数据计算对应的第一哈希码，包括：

根据下述第二计算公式，计算文本数据样本中每一个数据计算对应的第一哈希码；

第二计算公式：

H_Y＝sign(B_Y)

在本发明一个实施例中，为了保证检索的准确性，为不同模态的检索信息配置不同的哈希码计算公式，所述计算所述待检索信息的第二哈希码，包括：

当所述待检索信息为待检索图像信息时，

第三计算公式：

在本发明一个实施例中，所述计算所述待检索信息的第二哈希码，包括：

当所述待检索信息为待检索文本信息时，

第四计算公式：

下面将以为待检索信息输出相关的图片和文本为例，展开说明跨模态检索方法，如图2所示，该方法可以包括如下步骤：

步骤200：设置距离阈值；

该步骤设置的距离阈值主要是为了使输出与待检索信息相关性比较大的图片或文本信息。

步骤201：确定图像数据样本和文本数据样本；

该图像数据样本和文本数据样本可以直接使用已经收集了图像和文本信息的数据库如WIKI数据库、NUS-WIDE数据库等，这些数据库中已经按照图像-文本对的方式建立了图像与文本之间的相似关联。

步骤202：分别提取图像数据样本和文本数据样本包含的原始特征；

该步骤中，提取的图像数据样本的原始特征主要为一定维度的直方图如128维的直方图、500维的直方图等。提取的文本数据样本的原始特征主要是一定维度的向量索引如10维的向量索引、1000维的向量索引等。该直方图是指图像的灰度值和灰度值出现的次数。向量索引是表征文本特征的一种方式。

步骤203：根据原始特征，分别确定图像模态和文本模态对应的哈希码计算公式；

该步骤的具体实现方式：通过迭代下述最小化下述目标损失函数，来确定哈希玛计算公式。其中，

目标损失函数：

在该步骤，上述目标损失函数得到的过程：

确定图像-样本对为一个哈希码时的原始损失函数：

其中，X表征图像数据；W_X表征图像数据对应的线性投影矩阵；B_X表征图像数据对应的哈希码；Y表征文本数据；W_Y表征文本数据对应的线性投影矩阵；B_Y表征文本数据对应的哈希码；表征范数的平方。

通过下述关联损失函数，耦合约束图像-文本对中的图像数据的哈希码与文本数据的哈希码之间的关联性，即保证图像-文本对中的图像数据的哈希码与文本数据的哈希码之间的关联；

关联损失函数：

上述关联损失函数表示对图像数据X进行线性投影后得到的哈希码应尽量接近文本数据对应的哈希码B_Y；而对文本数据Y进行线性投影后得到的哈希码应尽量接近图像数据对应的哈希码B_X。

分别将上述原始损失函数和关联损失函数嵌入到下述矩阵分解的定义式中，

矩阵分解的定义式：

其中，K表征待分解的图像数据或文本数据；U表征基矩阵；V表征系数矩阵；该基矩阵和系数矩阵可以通过设定方式得到。

通过上述矩阵分解的定义式进行矩阵分解能够充分挖掘原始数据(图像数据和文本数据)的潜在主题的特性。因此，以上述矩阵分解定义式作为矩阵分解的实现手段，将原始损失函数和关联损失函数重建嵌入到上述矩阵分解定义式中，得到矩阵分解损失函数。

矩阵分解损失函数：

通过将上述的原始损失函数和矩阵分解损失函数合并即得到上述的目标损失函数。

另外，上述目标损失函数具体的迭代过程：顺序循环迭代优化下述S1至S3，直至所述目标损失函数的P小于预先设置的损失常数；

其中，I表征单位矩阵。

在上述S1至S3迭代过程中，在开始迭代时，S1中固定的W_X、W_Y、B_X和B_Y为随机给定的值，当S3完成之后，还需要进行S1的过程时，S1中固定的W_X和W_Y为S3得到的，S1中固定的B_X和B_Y为S2得到的；S2中固定的W_X和W_Y与S1中的一致，S2中固定的U_X和U_Y为S1中得到的，S3中固定的U_X和U_Y为S1中得到的，S3中固定的B_X和B_Y为S2中得到的。直至P的值小于预先设置的损失常数时，对应的B_X和B_Y的计算公式则为哈希码计算公式。

步骤204：利用哈希码计算公式，分别为图像数据样本和文本数据样本中每一个数据计算对应的第一哈希码；

该步骤是通过上述步骤203确定出的哈希码计算公式进行计算，其中，哈希码计算公式包括：图像数据对应的哈希码计算公式和文本数据对应的哈希码计算公式，如下所示：

图像数据对应的哈希码计算公式：

文本数据对应的哈希码计算公式：

通过上述哈希码计算公式可以将高维原始特征变换为两个模态对应的低维哈希码。

步骤205：将图像数据样本中每一个数据对应的第一哈希码投影到第一汉明空间；

该步骤主要通过第一计算公式实现。

第一计算公式：

H_X＝sign(B_X)

通过上述第一计算公式可以将步骤204得到的哈希码转换为0，1表达的字符串投影到第一汉明空间，例如：一个图像样本投影到第一汉明空间中的字符串为00100111000。汉明空间可以对图像或文本对应的哈希码进行存储。

步骤206：将文本数据样本中每一个数据对应的第一哈希码投影到第二汉明空间；

该步骤主要通过第二计算公式实现。

第二计算公式：

H_Y＝sign(B_Y)

例如：一个文本样本投影到第二汉明空间中的字符串为10101111000。

上述步骤200至步骤206可以是预先完成的步骤，即预先将图像样本和文本样本的哈希码分别投影到对应的汉明空间，当通过待检索信息检索图片和/或文本时，则可直接执行下述步骤207至步骤210。

通过上述步骤205和步骤206实现了将图像和文本的哈希码分别投影到不同的汉明空间，使图像数据和文本数据的哈希码更加准确，同时，实现了对图像数据和文本数据的分别检索，使检索结果更加准确。

步骤207：确定待检索信息，并从所述待检索信息提取检索特征；

该步骤的待检索信息可以为图像信息也可以为文本信息，其提取的检索特征为图像的直方图或者是文本的向量索引等。该图像直方图是指图像各灰度值与图像灰度值出现的频率。

步骤208：利用所述检索特征，计算所述待检索信息的第二哈希码；

当待检索信息为图像信息时，则根据下述第三计算公式，计算所述待检索图像信息的第二哈希码；

第三计算公式：

当待检索信息为待检索文本信息时，

第四计算公式：

由于在整个过程中使用了线性映射矩阵，使得检索过程能够通过已训练好的映射矩阵就得到对应的哈希码，不需要重新引入到待优化函数中，从而降低了时间以及空间复杂度。

步骤209：分别计算所述第二哈希码与图像对应的汉明空间和文本对应的汉明空间中的每一个第一哈希码之间的汉明距离；

该步骤汉明距离的计算主要采用异或方式统计，例如：一个待检索信息的哈希码为1001011100，一个图像的哈希码为0001011100，一个文本的哈希码为0001011101，则待检索信息与图像的汉明距离为1，待检索信息与文本的汉明距离为2，即统计待检索信息的哈希码与图像的哈希码或文本的哈希码中字符差异的个数，也就是说，顺序将待检索信息的哈希码中的每一个字符与图像的哈希码中对应位置的字符进行比较，当字符一致时汉明距离为0，当字符不一致时汉明距离为1。

步骤210：在每一种模态的数据样本中，确定并输出汉明距离小于距离阈值的数据。

另外，为了验证本发明实施例提供的跨模态检索方法的准确性，本发明实施例进一步对上述方法进行了仿真评价，该仿真评价采用Wiki数据库和NUS-WIDE数据库中的部分图像-文本对作为训练样本即存储于汉明空间中的哈希码对应的图像或文本，另一部分图像-文本对作为作为测试样本即待检索信息。其中，

Wiki数据库数据库包含2866个图像-文本对。每一幅图像由128维的SIFT直方图表示，每一个文本由10维的主题模型表示。此数据库一共包含10个种类的主题，每一个图像-文本对由10个主题中的一个标定。只有当图像-文本对属于同一类才认为它们是相似的。

NUS-WIDE数据库：该数据库包含有269,648幅图像和相应的标签，这些图像和标签分属于91类。我们一般选取数据量最大的前10类，共计186,577个图像-文本对进行实验。该数据库的图像由500维的视觉词袋模型(BOVW)表示，而文本由1000维的共现特征向量表示。

在本发明实施例进行仿真测试时，在Wiki数据库上，选取75％的数据作为训练集，剩下的作为测试集。在NUS-WIDE数据库上，随机选取1000个图像-文本对作为测试集，剩下的作为训练集。与现有的跨模态检索方法进行比对。

在进行仿真测试时，直接确定哈希码计算公式中的μ＝0.01；γ＝0.001。

在进行仿真测试时，评测标准使用平均正确率均值(mean Average Precision,mAP)为指标对跨模态检索性能进行评测。越大表示检索效果越好。平均正确率(AveragePrecision,AP)通过下述平均正确率计算公式计算得到。

平均正确率计算公式：

其中，L表征检索集中与测试样本相关的样本个数，P(i)表征第i个检索到的数据的准确度，δ(i)表征第i个检索到的数据的指示函数，该指示函数为如果检索到的第i个数据是相关数据则为1，否则为0。

平均正确率均值则为多次检索得到的平均正确率的均值。

通过在哈希码比特数为16位、32位、64位和128位时，将本发明实施例提供的跨模态检索方法与现有的5种跨模态检索方法进行对比，结果如下述的表1和表2所示。其中，表1为以wiki数据库中的图像-文本对为训练样本和测试样本进行的评价结果；表2为以NUS-WIDE数据库中的图像-文本对为训练样本和测试样本进行的评价结果。由表1、2可见，在文本检索图像任务上，本发明实施例提出的方法在Wiki和NUS-WIDE上取得了最好的表现。具体来讲，在Wiki上，本发明提出的方法比现有的最好的检索方法在16,32,64,128比特上mAP值分别高出了0.3221,0.2885,0.2747和0.249。在NUS-WIDE上，本发明提出的方法的mAP值比当前最好的方法平均提升了29.7％；在图像检索文本任务上，本发明提出的方法也有优秀表现。在Wiki数据库上，本发明提出的方法的mAP值在所有比特数上都要高于其他方法，在NUS-WIDE数据库上，本发明提出的方法取得了很好的效果。进一步验证了本发明的先进性。

表1

表2

另外，还可以通过准确率-召回率曲线、topN-准确率曲线来对跨模态检索进行评价，本发明实施例以检测在wiki数据库上，文本查询图像的准确率-召回率曲线和topN-准确率曲线为例，展开说明本发明实施例提供的跨模态检索方法的有效性。如图3和图4所示的曲线，其中，图3为本发明实施例提供的方法与现有的5种方法在wiki数据库上文本查询图像的准确率-召回率曲线；

图4为本发明实施例提供的方法与现有的5种方法在wiki数据库上文本查询图像的topN-准确率曲线。在图3和图4中，本发明实施例提供的跨模态检索方法对应的曲线已经标示出，其余未标示的为现有技术方法的曲线。从图中可以直观的看出本发明实施例提供的检索方法显著优于现有的5种检索方法，进一步说明本发明实施例提供的跨模态检索方法的有效性。

如图5、图6所示，本发明实施例提供了一种跨模态检索装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图5所示，为本发明实施例提供的跨模态检索装置所在设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图6所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的跨模态检索装置，包括：

样本确定单元601，用于确定至少两种模态的数据样本，为每一种模态的数据样本中每一个数据计算对应的第一哈希码；

设置单元602，用于设置距离阈值；

检索特征提取单元603，用于确定待检索信息，并从所述待检索信息提取检索特征；

汉明距离计算单元604，用于根据所属检索特征提取单元603提取的检索特征，计算所述待检索信息的第二哈希码，并分别计算所述第二哈希码与所述样本确定单元601确定出的每一种模态的数据样本中每一个数据对应的第一哈希码之间的汉明距离；

检索单元605，用于在所述样本确定单元601确定出的每一种模态的数据样本中，确定并输出所述汉明距离计算单元604计算出的汉明距离小于所述设置单元602设置的距离阈值的数据。

如图7所示，在本发明另一实施例中，上述装置进一步包括：样本特征提取单元701和迭代计算单元702，其中，

所述样本确定单元601，进一步用于确定图像数据样本和文本数据样本；并利用所述迭代计算单元702确定出的每一种模态对应的哈希码计算公式，计算每一种模态的数据样本中每一个数据计算对应的第一哈希码；

所述样本特征提取单元701，用于分别提取所述样本确定单元601确定出的图像数据样本和文本数据样本包含的原始特征；

所述迭代计算单元702，用于通过迭代最小化下述损失函数，确定每一种模态对应的哈希码计算公式；

损失函数：

其中，P表征损失函数值大小；X表征样本特征提取单元701提取出的图像数据的原始特征；U_X表征图像的基矩阵；B_X表征图像对应的第一哈希码；Y表征样本特征提取单元701提取出的文本数据的原始特征；U_Y表征文本的基矩阵；B_Y表征文本对应的第一哈希码；μ表征图像数据与文本数据的关联权重；γ表征平衡系数；表征避免过拟合的正则项。

在本发明又一实施例中，所述迭代计算单元702，用于：

顺序循环迭代优化下述S1至S3，直至所述损失函数P小于预先设置的损失常数；

其中，I表征单位矩阵。

如图8所示，在本发明另一实施例中，所述样本确定单元601，包括：图像样本计算子单元801和文本样本计算子单元802，其中，

所述图像样本计算子单元801，用于根据下述第一计算公式，计算图像数据样本中每一个数据计算对应的第一哈希码；

第一计算公式：

H_X＝sign(B_X)

所述文本样本计算子单元802，用于根据下述第二计算公式，计算文本数据样本中每一个数据计算对应的第一哈希码；

第二计算公式：

H_Y＝sign(B_Y)

在本发明另一实施例中，所述汉明距离计算单元604，包括：图像检索计算子单元和文本检索计算子单元(图中未示出)，其中，

第三计算公式：

第四计算公式：

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明还提供了一种计算机存储介质，存储用于使一机器执行如本文所述的程序代码的审核方法的指令。具体地，可以提供配有存储介质的***或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

根据上述方案，本发明的各实施例，至少具有如下有益效果：

1.通过确定至少两种模态的数据样本，为每一种模态的数据样本中每一个数据计算对应的第一哈希码，设置距离阈值，确定待检索信息，并从所述待检索信息提取检索特征；利用所述检索特征，计算所述待检索信息的第二哈希码；分别计算所述第二哈希码与所述每一种模态的数据样本中每一个数据对应的第一哈希码之间的汉明距离；在每一种模态的数据样本中，确定并输出汉明距离小于所述距离阈值的数据，由于上述过程分别为每一种模态的数据样本均计算出了对应的哈希码，避免了不同模态的样本用同一个哈希码带来的误差，从而提高了检索的准确性。

2.本发明实施例通过损失函数计算得到哈希码计算公式不仅考虑了特征而且将文本与图像间的关联关系也计算在内，同时引入了避免过拟合的正则式，使哈希码计算更加准确，也进一步保证了检索的准确性。

3.本发明实施例由于将图像和文本两个模态的数据通过矩阵分解分别投影到不同的汉明空间，并通过损失函数将两个模态数据关联最大化，克服了现有技术的直接将两个模态数据投影到同一个共同空间导致的约束过强的问题，使得本发明对两个模态数据的哈希码的构建更为准确，从而提高了跨模态检索的效果。

4.本发明由于采用了矩阵分解来构建损失函数，完成跨模态重建，充分利用了矩阵分解能够挖掘潜在主题的优点，使得哈希码具有判别性更强的语义信息，从而进一步提高了跨模态检索的效果。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种跨模态检索方法，其特征在于，确定至少两种模态的数据样本，为每一种模态的数据样本中每一个数据计算对应的第一哈希码，设置距离阈值，还包括：

确定待检索信息，并从所述待检索信息提取检索特征；

利用所述检索特征，计算所述待检索信息的第二哈希码；

2.根据权利要求1所述的方法，其特征在于，

所述至少两种模态的数据样本，包括：图像数据样本和文本数据样本；

分别提取图像数据样本和文本数据样本包含的原始特征；

目标损失函数：

\begin{matrix} P = | | X - U_{X} B_{X} | |_{F}^{2} + | | Y - U_{Y} B_{Y} | |_{F}^{2} + μ (| | B_{Y} - W_{X} X | |_{F}^{2} + | | B_{X} - W_{Y} Y | |_{F}^{2}) \\ + γ R (B, W, U) \end{matrix}

3.根据权利要求2所述的方法，其特征在于，所述通过迭代最小化下述目标损失函数，包括：

U_{X} = {XB}_{X}^{T} {(B_{X} B_{X}^{T} + γ I)}^{- 1}

U_{Y} = {XB}_{Y}^{T} {(B_{Y} B_{Y}^{T} + γ I)}^{- 1}

B_{X} = {(U_{X}^{T} U_{X} + (μ + γ) I)}^{- 1} {(U_{X}^{T} X + {μW}_{Y} Y)}^{- 1}

B_{Y} = {(U_{Y}^{T} U_{Y} + (μ + γ) I)}^{- 1} {(U_{Y}^{T} Y + {μW}_{X} X)}^{- 1}

W_{X} = B_{Y} X^{T} {({XX}^{T} + \frac{γ}{μ} I)}^{- 1}

W_{Y} = B_{X} Y^{T} {({YY}^{T} + \frac{γ}{μ} I)}^{- 1}

其中，I表征单位矩阵。

4.根据权利要求3所述的方法，其特征在于，所述为每一种模态的数据样本中每一个数据计算对应的第一哈希码，包括：

第一计算公式：

H_X＝sign(B_X)

和/或，

第二计算公式：

H_Y＝sign(B_Y)

5.根据权利要求3所述的方法，其特征在于，所述计算所述待检索信息的第二哈希码，包括：

当所述待检索信息为待检索图像信息时，

第三计算公式：

h (\tilde{x}) = s i g n (W_{X} (\tilde{x} - Σ_{i = 1}^{n} \frac{x_{i}}{n}))

其中，表征图像信息中的图像数据；x_i表征图像信息的检索特征；W_X表征图像数据对应的线性投影矩阵；

和/或，

当所述待检索信息为待检索文本信息时，

第四计算公式：

h (\tilde{y}) = s i g n (W_{Y} (\tilde{y} - Σ_{i = 1}^{n} \frac{y_{i}}{n}))

6.一种跨模态检索装置，其特征在于，包括：

设置单元，用于设置距离阈值；

7.根据权利要求6所述的装置，其特征在于，进一步包括：样本特征提取单元和迭代计算单元，其中，

目标损失函数：

\begin{matrix} P = | | X - U_{X} B_{X} | |_{F}^{2} + | | Y - U_{Y} B_{Y} | |_{F}^{2} + μ (| | B_{Y} - W_{X} X | |_{F}^{2} + | | B_{X} - W_{Y} Y | |_{F}^{2}) \\ + γ R (B, W, U) \end{matrix}

8.根据权利要求7所述的装置，其特征在于，所述迭代计算单元，用于：

U_{X} = {XB}_{X}^{T} {(B_{X} B_{X}^{T} + γ I)}^{- 1}

U_{Y} = {XB}_{Y}^{T} {(B_{Y} B_{Y}^{T} + γ I)}^{- 1}

B_{X} = {(U_{X}^{T} U_{X} + (μ + γ) I)}^{- 1} {(U_{X}^{T} X + {μW}_{Y} Y)}^{- 1}

B_{Y} = {(U_{Y}^{T} U_{Y} + (μ + γ) I)}^{- 1} {(U_{Y}^{T} Y + {μW}_{X} X)}^{- 1}

W_{X} = B_{Y} X^{T} {({XX}^{T} + \frac{γ}{μ} I)}^{- 1}

W_{Y} = B_{X} Y^{T} {({YY}^{T} + \frac{γ}{μ} I)}^{- 1}

其中，I表征单位矩阵。

9.根据权利要求8所述的装置，其特征在于，

所述样本确定单元，包括：图像样本计算子单元和文本样本计算子单元，其中，

第一计算公式：

H_X＝sign(B_X)

第二计算公式：

H_Y＝sign(B_Y)

其中，B_Y表征文本样本数据中一个数据对应的第一哈希码；H_Y表征文本数据的第一哈希码对应的符号；

和/或，

所述汉明距离计算单元，包括：图像检索计算子单元和文本检索计算子单元，其中，

所述图像检索计算子单元，用于当所述待检索信息为待检索图像信息时，根据下述第三计算公式，计算所述待检索图像信息的第二哈希码；

第三计算公式：

h (\tilde{x}) = s i g n (W_{X} (\tilde{x} - Σ_{i = 1}^{n} \frac{x_{i}}{n}))

第四计算公式：

h (\tilde{y}) = s i g n (W_{Y} (\tilde{y} - Σ_{i = 1}^{n} \frac{y_{i}}{n}))

10.一种计算机可读介质，其特征在于，

所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至5中任一所述的方法。