CN115098707A

CN115098707A - 基于零样本学习的跨模态哈希检索方法及***

Info

Publication number: CN115098707A
Application number: CN202210726686.7A
Authority: CN
Inventors: 余国先; 白振华; 王峻; 闫中敏; 鹿旭东
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-09-23

Abstract

本发明提供了一种基于零样本学习的跨模态哈希检索方法及***，获取用户上传的文本数据和图片数据；从获取的文本数据和图片数据中，提取数据的深度特征；将提取的深度特征量化为哈希码，与数据库中的数据进行比较，得出汉明距离排序，选择用户指定数量的数据作为检索结果；本发明能够实现新旧类别样本的有效准确检索，克服了现有哈希检索***的封闭性难题。

Description

基于零样本学习的跨模态哈希检索方法及***

技术领域

本发明涉及数据检索技术领域，特别涉及一种基于零样本学习的跨模态哈希检索方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术，并不必然构成现有技术。

随着信息技术的发展以及多媒体数据的***性增长，人们可以轻易获取诸如文本、图片、视频等海量的多模态数据。面向互联网的开放环境，如何根据用户的需求从海量的多模态数据中进行快速精确的信息检索至关重要。由于具有低存储和高效查询的优点，哈希学习方法已被广泛地应用在大规模数据的检索中，而跨模态哈希学习在多模态数据信息检索中吸引了越来越多的关注。

跨模态哈希学习的主要目标是将高维的多模态数据以低维的二进制哈希码的形式映射到统一的汉明空间中，同时要求学习到的哈希码要保持原始数据的空间结构相似性，即在原始空间相似的数据在转化为二进制哈希码后也应该相似。

目前的跨模态哈希方法按照是否使用标签数据可以分为两类：有监督跨膜态哈希和无监督跨膜态哈希。无监督跨模态哈希方法不使用样本的标记信息进行训练，通常挖掘模态内与模态间数据的相似性与分布等信息指导哈希码的生成；监督跨模态哈希方法通常利用样本的内在属性(例如标签)以及结构化的信息指导哈希码产生并使哈希码保持跨模态相似度，因此表现一般要优于无监督的方法。

发明人发现，跨模态哈希方法已经取得了显著的进展，但也面临着许多问题，如需要大量标记信息、新类别识别效率低和模态数据匹配缺失等，使得数据的检索效率和准确率均较低。

发明内容

为了解决现有技术的不足，本发明提供了一种基于零样本学习的跨模态哈希检索方法及***，基于标签补全的策略充分挖掘有标记样本、部分标记样本和无标记样本之间的联系，可以提高在有标签缺失情况下的检索性能；基于复合相似度与深度学习的图片与文本特征提取网络可以捕捉数据的深度特征，从而可以发掘数据之间的跨模态相似性；此外，基于类级别属性向量的类别空间嵌入可以捕捉可见类与不可见类的联系，可以对新类别实现更高效率的识别。

为了实现上述目的，本发明采用如下技术方案：

本发明第一方面提供了一种基于零样本学习的跨模态哈希检索方法。

一种基于零样本学习的跨模态哈希检索方法，包括以下过程：

获取用户上传的文本数据和图片数据；

从获取的文本数据和图片数据中，提取数据的深度特征；

将提取的深度特征量化为哈希码，与数据库中的数据进行比较，得出汉明距离排序，选择用户指定数量的数据作为检索结果。

本发明第二方面提供了一种基于零样本学习的跨模态哈希检索***。

一种基于零样本学习的跨模态哈希检索***，包括：

数据获取模块，被配置为：获取用户上传的文本数据和图片数据；

数据特征提取模块，被配置为：从获取的文本数据和图片数据中，提取数据的深度特征；

跨膜态检索模块，被配置为：将提取的深度特征量化为哈希码，与数据库中的数据进行比较，得出汉明距离排序，选择用户指定数量的数据作为检索结果。

本发明第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于零样本学习的跨模态哈希检索方法中的步骤。

本发明第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于零样本学习的跨模态哈希检索方法中的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明所述的基于零样本学习的跨模态哈希检索方法及***，通过两个深度神经网络分别提取图片和文本数据的深度特征表达，并基于类级别属性向量将深度特征嵌入到一个类别属性空间，最后将学习到的数据特征量化为哈希码，提高了数据检索的准确度。2、本发明所述的基于零样本学习的跨模态哈希检索方法及***，通过一种标签补全策略将缺失的标签补全，使用补全后的标签矩阵进行训练，从而提高有缺失标签环境下的检索性能。

3、本发明所述的基于零样本学习的跨模态哈希检索方法及***，通过一种复合相似度指导深度神经网络提取特征，使学习到的特征保持跨模态相似度。

4、本发明所述的基于零样本学习的跨模态哈希检索方法及***，基于类级别属性向量将深度特征嵌入到类别空间可以发掘可见类与不可见类之间的联系，从而提高对新类别的识别效率。

5、本发明所述的基于零样本学习的跨模态哈希检索方法及***，将特征提取、类别空间学习、哈希码学习三个步骤结合在一起进行优化，相比之前的跨模态方法，解决了多个步骤之间不兼容的问题。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于零样本学习的跨模态哈希检索方法的流程示意图。

图2为本发明实施例2提供的基于零样本学习的跨模态哈希检索***的连接示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1所示，本发明实施例1提供了一种基于零样本学习的跨模态哈希检索方法，包括以下过程：

获取用户上传的文本数据和图片数据；

从获取的用户上传的数据中，提取数据的深度特征。

将提取的数据的深度特征量化为哈希码，与数据库中的数据进行比较，得出汉明距离排序，选择用户指定数量的数据为检索结果。

具体的，包括：

本实施例中，文本数据，是指：用户在搜索框中输入的文本内容，输入内容使用空格进行分隔，输入到训练后的文本特征提取网络，最终表示为500维特征向量；

本实施例中，图片数据，是指：用户通过网页上传的图片文件，文件上传后将尺寸统一为224*224*3。

还可以获取url数据，是指用户输入的图片的url地址，通过该url地址可以获取用户上传的图片，将上传的图像数据的尺寸统一为224*224*3。

进一步地，训练后的文本特征提取网络，训练步骤包括：

构建输出维度为500维的词嵌入网络；其中，词嵌入网络是通过word2vec网络来实现；

构建第一训练集；所述第一训练集为wiki语料库；

将第一训练集，输入到词嵌入网络中，通过训练集的输出结果来计算负对数似然函数，并通过该函数对词嵌入网络的参数进行优化。

本实施例中，所述从获取的用户上传的数据中，提取数据的深度特征，具体包括：

将获取的用户上传的图片和文本数据，输入到训练后图片和文本网络，得到数据的深度特征。

本发明通过类级别的属性向量，将样本的深度特征嵌入到一个类别空间，能够很好的发掘可见类与不可见类之间的关系，实现对新类别的高效识别。此外，本发明使用一种标签补全策略对缺失的标签矩阵进行补全，从而充分考虑有标记、部分标记和无标记的样本并对标签信息进行了充分的利用。

本实施例中，训练后图片和文本网络，训练步骤包括：

构建输入维度分别为500和224*224*3，输出维度均为16维的图片和文本特征提取网络；其中，文本特征提取网络采用全连接神经网络来实现；图片特征提取网络，采用卷积神经网络VGG19来实现；

构建第二训练集与验证集；所述第二训练集与验证集为部分标签已知的样本的图片和文本模态数据以及两个模态数据对应的标签；其中，图片数据尺寸为224*224*3；文本模态数据尺寸为500；标签中每个标签有三种取值：1代表有这个标签，-1代表没有这个标签，0代表该标签缺失将第二训练集与验证集，首先通过标签补全策略将缺失的标签矩阵转化为补全的标签矩阵，之后将图片和文本模态数据输入到图片和文本特征提取网络中，通过训练集的输出结果来计算损失函数，并通过该损失对图片和文本体征提取网络参数进行优化，选取在验证集上诊断性能最好的参数作为训练后的图片和文本特征提取网络。

示例性地，训练阶段，从获取的用户上传的数据中，提取数据的深度特征，具体包括：

S1021，获取样本图片和文本两个模态的数据以及样本对应的标签数据，对数据进行预处理操作，将样本数据转化为易于读取且便于卷积神经网络进行计算的数据。

具体的，所述将样本数据转化为易于读取且便于卷积神经网络进行计算的数据的具体实现过程如下：

对于图片模态数据，原始数据为尺寸不一的图片。然而，卷积神经网络的输入尺寸是统一的。所以，将原始的图片尺寸统一转化为224*224*3，用于输入到图片特征提取网络。

对于文本模态数据，原始数据为使用空格分隔的多个单词；为了将文本数据表示为数字特征并能够衡量文本数据之间的相似性，首先将文本数据进行分词处理，然后，将文本数据转化为one-shot编码输入到上述词嵌入网络中，最后得到500维的文本特征向量。

S1022，通过标签补全策略对缺失的标签矩阵进行补全。

具体地，所述通过标签补全的策略对缺失的标签矩阵进行补全，具体步骤如下：

采用标签补全方法MLML计算补全的标签矩阵Z：

首先，计算样本级别的平滑性，定义如下：

其中，其中I代表单位矩阵，D_X为对角矩阵，用于对相似度进行标准化使得样本级别平滑度这一项不受样本相似度规模的影响。V_X代表样本相似度，用于衡量每一对样本之间的关系。在这里，我们可以使用亲和矩阵进行定义。若x_j不是x_i的k近邻，则令V_x(i,j)＝0，否则按如下公式计算：

V_X(i,j)＝exp(-d²(x_i,x_j)/σ_iσ_j) (2)

其中，d_ij代表样本i与j之间的欧氏距离；σ_i＝d(x_i,x_h)，k与h是自定的参数。

之后，计算标签级别的平滑性，定义如下：

其中，I代表单位矩阵，D_C为对角矩阵，用于对相似度进行标准化使得标签级别平滑度这一项不受标签相似度V_C规模的影响。V_C代表标签相似度，定义如下：

其中

是Y_i的子向量，代表部分标记的样本数量。

最后，计算补全的标签矩阵Z，定义如下：

Z＝(1-α_X)(1-α_C)(I-α_CL_C)^-1Y(I-α_XL_X)^-1 (5)

其中α_X与α_C为超参数，L_C与L_X的定义已在上文给出。

需要注意的是，也可以选用其他的标签补全方法。

S1023，定义图片和文本两个模态内部和模态间的相似度。

具体的，所述定义图片和文本两个模态内部和模态间的相似度的具体实现过程如下：

首先，定义模态内部数据之间的特征相似度，该相似度作为最终复合相似度的一部分，定义如下：

其中v代表第v个模态(v＝{1,2}，1代表图片模态，2代表文本模态)，x_i,x_j代表样本i与样本j的特征，edist(x_i,x_j)代表x_i,x_j之间的欧拉距离。

然后，定义数据之间的标签相似度，定义如下：

其中v,v′∈{1,2}代表两个模态，L_i ^v代表模态v的样本i的标签集合。

之后，根据样本的特征相似度和标签相似度定义模态内部样本的复合相似度，定义如下：

其中，

代表模态v内部样本i,j之间的复合相似度，

代表样本i与j的特征相似度，

代表样本i与j的标签相似度，以上符号的定义已在上文给出。

对于两个有标签的数据，标签语义相似度可以作为特征相似度的补充，否则复合相似度与特征相似度相同。这样，不仅可以利用训练数据的标签和特征信息来解决标签不足的问题，还可以用来检索语义相关的实例。

最后，根据上述3个相似度计算模态间的复合相似度，定义如下：

其中

代表两个模态间样本的标签相似度，

与

分别为两个模态内部样本i与j的复合相似度，它们的定义已在上文给出。

S1024，在联合相似度的指导下，通过一个统一的目标方程，能够同时实现深度特征学习，类别空间学习和跨模态哈希编码学习，具体步骤如下：

首先，首先采用深度神经网络，来将原始的图片和文本信息学习出低维的特征向量。同时在这个过程中以复合相似度作为指导信息，以保持低维空间中同样能够保持原始的结构信息。假设x⁽¹⁾与x⁽²⁾的特征表达为

与

和

为网络的参数，公式化为：

其中，

代表样本x_i在两个神经网络下的输出。S^vv′代表模态v与v'间的复合相似度矩阵。

之后，通过属性向量来指导属性表达空间的学习，进而实现零样本跨模态哈希。为了避免领域漂移和语义差错，属性空间定义如下：

其中A⁽¹⁾,A⁽²⁾表示定义类间关系的属性矩阵，可以通过词嵌入的方式得出。C⁽¹⁾,C⁽²⁾为最终要学习到的类别空间。由于两个模态实际上来自同一领域，因此尽管类别标签可能不同，来自两个模态的潜在类别可以相同，不失一般性，A⁽¹⁾,A⁽²⁾都设置为它们的和矩阵。

然后，通过最小化量化损失来在类别表达空间中学得所需的哈希编码，定义如下：

其中，W⁽¹⁾,W⁽²⁾为两个模态的系数矩阵，B⁽¹⁾,B⁽²⁾为最终学习到的哈希码，在训练过程中，可令B⁽¹⁾＝B⁽²⁾＝B。

最后，将以上过程联合起来进行优化，最终目标函数如下：

其中α与β是超参数，公式中其他符号的含义已在上文给出。

本实施例中，所述将提取的数据的深度特征量化为哈希码，具体包括：将数据的特征向量通过哈希函数量化为哈希编码。

示例性地，提取的数据的深度特征量化为哈希码，具体实现方式如下：

设提取的数据的深度特征为x，哈希函数H定义如下：

H(x)＝sgn(x) (14)

其中sgn(x)定义如下：

本实施例中，所述与数据库中的数据进行比较，得出汉明距离排序，具体包括：

计算量化后的哈希编码与数据库中已有所有数据的哈希编码之间的汉明距离；

对汉明距离进行排序。

进一步地，所述数据库中已有的数据，存储过程如下：

将样本图片模态数据输入到训练后的图片网络，得到图片模态的特征；

将样本文本模态数据输入到训练后的文本网络，得到文本模态的特征；

将图片和文本模态的特征通过哈希函数进行量化得到哈希编码；

将哈希编码转为10进制存储到数据库中。

进一步地，计算汉明距离，过程如下：

将量化后的哈希编码转为十进制；

通过公式计算查询样本和数据库中样本的汉明距离。

设量化后的哈希编码为b，其对应的十进制为x，对于数据库中样本i哈希编码对应的十进制y，两者间的汉明距离定义如下：

bit(x^y) (16)

其中^代表异或运算，bit(a)代表a对应的二进制数中1的个数。

进一步地，所述对汉明距离进行排序，具体包括：将上述计算的汉明距离按从小到大排序。

进一步地，所述选择用户指定数量的数据作为检索结果，检索结果用于返回给用户，具体包括：根据用户指定地查询数量N(10、25和50)，选择前N个数据作为检索结果。

实施例2：

如图2所示，本发明实施例2提供了一种基于零样本学习的跨模态哈希检索***，包括：

所述***的工作方法与实施例1提供的基于零样本学习的跨模态哈希检索方法相同，这里不再赘述。

实施例3：

本发明实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明实施例1所述的基于零样本学习的跨模态哈希检索方法中的步骤。

实施例4：

本发明实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明实施例1所述的基于零样本学习的跨模态哈希检索方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于零样本学习的跨模态哈希检索方法，其特征在于：

包括以下过程：

获取用户上传的文本数据和图片数据；

从获取的文本数据和图片数据中，提取数据的深度特征；

2.如权利要求1所述的基于零样本学习的跨模态哈希检索方法，其特征在于：

所述文本数据为：用户在搜索框中输入的文本内容，输入内容使用空格进行分隔，输入到训练后的文本特征提取网络，最终表示为多维的特征向量。

3.如权利要求2所述的基于零样本学习的跨模态哈希检索方法，其特征在于：

训练后的文本特征提取网络，训练过程包括：

构建多输出维度的词嵌入网络；其中，词嵌入网络是通过word2vec网络来实现；

构建第一训练集；所述第一训练集为wiki语料库；

4.如权利要求1所述的基于零样本学习的跨模态哈希检索方法，其特征在于：

所述图片数据为：用户通过网页上传的图片文件，文件上传后将尺寸统一为预设大小。

5.如权利要求1所述的基于零样本学习的跨模态哈希检索方法，其特征在于：

将获取的用户上传的图片数据和文本数据，输入到训练后图片和文本网络，得到图片数据和文本数据的深度特征，包括：

获取样本图片和文本两个模态的数据以及样本对应的标签数据，对数据进行预处理操作，将样本数据转化为易于读取且便于卷积神经网络进行计算的数据；

定义图片和文本两个模态内部和模态间的相似度；

在联合相似度的指导下，通过一个统一的目标方程，同时实现深度特征学习、类别空间学习和跨模态哈希编码学习。

6.如权利要求5所述的基于零样本学习的跨模态哈希检索方法，其特征在于：

通过标签补全策略将缺失的标签矩阵进行补全，包括：

计算样本级别的平滑性；

计算标签级别的平滑性；

根据样本级别的平滑性和标签级别的平滑性计算补全后的标签矩阵；

或者，

定义图片和文本两个模态内部和模态间的相似度，包括：

定义模态内部数据之间的特征相似度，该相似度作为最终复合相似度的一部分；

定义数据之间的标签相似度；

根据样本的特征相似度和标签相似度定义模态内部样本的复合相似度，对于两个有标签的数据，标签语义相似度可以作为特征相似度的补充，否则复合相似度与特征相似度相同；

根据特征相似度、标签相似度和复合相似度计算模态间的复合相似度；

或者，

在联合相似度的指导下，通过一个统一的目标方程，同时实现深度特征学习、类别空间学习和跨模态哈希编码学习，包括：

采用深度神经网络，将原始的图片和文本信息学习出低维的特征向量，同时在这个过程中以复合相似度作为指导信息，以保持低维空间中同样能够保持原始的结构信息；

通过属性向量来指导属性表达空间的学习，以实现零样本跨模态哈希；

通过最小化量化损失来在类别表达空间中学得所需的哈希编码；

将以上过程联合起来进行优化，得到目标函数如下：

其中，α与β为超参数。

7.如权利要求1所述的基于零样本学习的跨模态哈希检索方法，其特征在于：

提取的数据的深度特征量化为哈希码，包括：

设提取的数据的深度特征为x，哈希函数H定义如下：

或者，

与数据库中的数据进行比较，得出汉明距离排序，包括：

bit(x^y)

^代表异或运算，bit(a)代表a对应的二进制数中1的个数，将上述计算的汉明距离按从小到大排序。

8.一种基于零样本学习的跨模态哈希检索***，其特征在于：

包括：

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于零样本学习的跨模态哈希检索方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于零样本学习的跨模态哈希检索方法中的步骤。