CN112199375A

CN112199375A - 跨模态的数据处理方法、装置、存储介质以及电子装置

Info

Publication number: CN112199375A
Application number: CN202011063096.8A
Authority: CN
Inventors: 董西伟; 严军荣; 张小龙
Original assignee: Sunwave Communications Co Ltd
Current assignee: Sunwave Communications Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-08
Anticipated expiration: 2040-09-30
Also published as: WO2022068196A1; CN112199375B

Abstract

本发明实施例提供了一种跨模态的数据处理方法、装置、存储介质以及电子装置，该方法包括：获取第一模态的查询数据，分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据，利用对象特征数据作为桥梁，将第一模态和第二模态有效地关联起来，进而可以缓解不同模态之间的语义鸿沟，能够解决相关技术中存在的难以有效地实现跨模态的数据处理，用于进行跨模态数据处理的方法的性能较差的技术问题，达到提高跨模态数据处理的效率，优化跨模态的数据处理性能的技术效果。

Description

跨模态的数据处理方法、装置、存储介质以及电子装置

技术领域

本发明实施例涉及通信领域，具体而言，涉及一种跨模态的数据处理方法、装置、存储介质以及电子装置。

背景技术

在实际应用中，对象可以用来自不同模态的特征进行描述，例如，在微信之类的社交平台，人们经常使用图片和相应的文字记录所发生的某个事件。跨模态检索旨在使用一个模态中的实例去检索另一个模态中与其语义相似的实例，例如，用图像检索与之相关的文档。随着多媒体技术的发展，多模态数据的数量也迅速增长。在大规模多模态数据集上，如何在不同模态之间完成信息检索是非常具有挑战性的问题。对于这个问题，哈希方法的低存储代价和高检索速度特点使其在跨模态检索领域受到广泛关注。

不同模态的数据分布和数据表示的不一致性，使得在不同模态之间直接进行相似性度量是非常困难的。这种困难亦可称为“模态鸿沟”，它是影响跨模态哈希检索性能的主要障碍。由于“模态鸿沟”的原因，现有跨模态哈希方法的检索性能还远不能满足人们的需求。并且，对于现有的基于浅层结构的跨模态哈希检索方法来说，因为它们大部分都使用手工特征，并且这些特征对不同的跨模态检索任务不具有通用性，因此，它们学习得到的哈希编码的鉴别能力是有限的，进而，这些浅层跨模态哈希检索方法的检索性能不能达到最优。

因此，目前的相关技术中，在进行跨模态的数据处理的过程中，数据处理的效率较低，性能远不能满足用户需求。

针对相关技术中存在的难以高效地实现跨模态的数据处理，用于进行跨模态数据处理的方法的性能较差的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种跨模态的数据处理方法、装置、存储介质以及电子装置，以至少解决相关技术中存在的难以高效地实现跨模态的数据处理，用于进行跨模态数据处理的方法的性能较差的技术问题。

根据本发明的一个实施例，提供了一种跨模态的数据处理方法，包括：

获取第一模态的查询数据；分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，所述第二模态的检索数据集合中包含多个所述第二模态的检索数据，所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性，所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，所述目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型，以及用于保持第一模态和第二模态间数据一致性的模态一致性模型，所述一组样本对中每个样本对包括样本数据以及对象特征数据，所述对象特征数据为通过图像对象检测方式得到的对象特征数据；根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。

可选地，在获取第一模态的查询数据之前，所述方法还包括：获取跨模态数据集，其中，所述跨模态数据集包括训练数据集和测试数据集；使用所述训练数据集训练初始神经网络模型，以得到目标神经网络模型，其中，所述初始神经网络模型包括基于注意力机制构建的初始对象注意力神经网络模型以及初始模态一致性模型所述目标神经网络模型用于为不同模态的数据学习哈希表示方式；将所述测试数据集输入所述目标神经网络模型，得到第一模态数据和第二模态数据的相似度，其中所述相似度用于指示所述第一模态的数据与第二模态的数据之间的相似性；基于所述相似度确定所述初始神经网络模型中的预定参数，以更新所述目标神经网络模型。

可选地，获取跨模态数据集，包括：使用卷积神经网络提取第一模态的特征数据集合；使用长短期记忆神经网络提取第二模态的特征数据集合；将所述第一模态的特征数据集合中的部分特征数据以及所述第二模态的特征数据集合中的部分特征数据确定为所述训练数据集；将所述第一模态的特征数据集合以及所述第二模态的特征数据集合中除所述训练数据集以外的其他特征数据确定为所述测试数据集。

可选地，使用所述训练数据集训练初始神经网络模型，以得到目标神经网络模型，包括：将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练，得到训练完成的第一模态注意力网络模型，并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练，得到训练完成的第二模态注意力网络模型；将所述训练完成的第一模态注意力网络模型以及所述第二模态注意力网络模型确定为目标对象注意力神经网络模型；使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束，以将所述初始模态一致性模型更新为目标模态一致性模型；将所述目标对象注意力神经网络模型以及所述目标模态一致性模型确定为所述目标神经网络模型。

可选地，将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练，得到训练完成的第一模态注意力网络模型，并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练，得到训练完成的第二模态注意力网络模型，包括：在所述第一模态的特征数据为图像数据、所述第二模态的特征数据为文本数据的情况下，对所述对象特征数据和所述图像数据使用第一预设函数生成第一目标注意力分布，对所述对象特征数据和所述文本数据使用第二预设函数生成第二目标注意力分布；基于所述第一目标注意力分布确定与所述图像数据对应的第一目标特征向量，以更新所述第一模态注意力网络模型中的第一预设参数，得到训练完成的第一模态注意力网络模型；基于所述第二目标注意力分布确定与所述文本数据对应的第二目标特征向量，以更新所述第二模态注意力网络模型中的第二预设参数，得到训练完成的第二模态注意力网络模型。

可选地，使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束，以将所述初始模态一致性模型更新为目标模态一致性模型，包括：将所述第一目标特征向量进行目标处理，得到汉明空间中的第一哈希编码，并将所述第二目标特征向量进行所述目标处理，得到所述汉明空间中的第二哈希编码；将所述第一哈希编码和所述第二哈希编码输入目标损失函数，以将所述初始模态一致性模型更新为目标模态一致性模型。

可选地，根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据，包括：确定所述第一模态的查询数据对应的第三哈希编码；查询所述第二模态的检索数据集合中包含多个所述第二模态的检索数据对应的一组哈希编码；计算所述第三哈希编码和所述一组哈希编码中每个哈希编码的汉明距离；将所述汉明距离小于或等于预定阈值的哈希编码所对应的第二模态的检索数据确定为与所述第一模态的查询数据对应的一个或多个所述第二模态的检索数据。

根据本发明的另一个实施例，提供了一种跨模态的数据处理装置，包括：获取模块，用于获取第一模态的查询数据；处理模块，用于分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，所述第二模态的检索数据集合中包含多个所述第二模态的检索数据，所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性，所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，所述目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型，以及用于保持第一模态和第二模态间数据一致性的模态一致性模型，所述一组样本对中每个样本对包括样本数据以及对象特征数据，所述对象特征数据为通过图像对象检测方式得到的对象特征数据；

确定模块，用于根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项方法实施例中的步骤。

通过本发明，采用获取第一模态的查询数据，分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据，利用对象特征数据作为桥梁，将第一模态和第二模态有效地关联起来，进而可以缓解不同模态之间的语义鸿沟，能够解决相关技术中存在的难以有效地实现跨模态的数据处理，用于进行跨模态数据处理的方法的性能较差的技术问题，达到提高跨模态数据处理的效率，优化跨模态的数据处理性能的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的跨模态的数据处理方法的移动终端的硬件结构框图；

图2是根据本发明实施例的一种可选的跨模态的数据处理方法的流程示意图；

图3是根据本发明实施例的另一种可选的跨模态的数据处理方法的流程示意图；

图4是根据本发明实施例的一种可选的跨模态的数据处理方法的示意图；

图5是根据本发明实施例的一种可选的跨模态的数据处理装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种跨模态的数据处理方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的跨模态的数据处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的跨模态的数据处理方法，图2是根据本发明实施例的一种可选的跨模态的数据处理方法的流程示意图，如图2所示，该流程包括如下步骤：

S202，获取第一模态的查询数据；

S204，分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，第二模态的检索数据集合中包含多个第二模态的检索数据，第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性，目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型，以及用于保持第一模态和第二模态间数据一致性的模态一致性模型，一组样本对中每个样本对包括样本数据以及对象特征数据，对象特征数据为通过图像对象检测方式得到的对象特征数据；

S206，根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。

可选地，在本实施例中，上述第一模态可以包括但不限于图像、文字、语音、视频、动作捕捉等。上述第二模态可以包括但不限于图像、文字、语音、视频、动作捕捉等，上述第一模态和第二模态为不同的模态，例如，上述第一模态为图像，上述第二模态为文字，或者，上述第一模态为拍摄的图像，上述第二模态为动作捕捉后，模拟生成的图像等。

可选地，在本实施例中，上述第一模态的查询数据可以包括但不限于对第一模态获取到的数据进行特征提取后得到的向量，还可以包括但不限于对第一模态获取到的数据进行特征提取后得到的向量所生成的哈希编码。

可选地，在本实施例中，上述第二模态的检索数据可以包括但不限于对第二模态获取到的数据进行特征提取后得到的向量，还可以包括但不限于对第二模态获取到的数据进行特征提取后得到的向量所生成的哈希编码，上述第二模态的检索数据集合是由多个预先确定的第二模态的检索数据所组成的集合。

可选地，在本实施例中，上述目标参数可以包括但不限于上述第一模态的查询数据所对应的哈希编码与上述第二模态的检索数据所对应的哈希编码之间的汉明距离，上述相似性可以包括但不限于通过比较汉明距离的大小来进行表示，上述汉明距离与上述相似性呈负相关，也即，在汉明距离越小的情况下，上述第一模态的查询数据和第二模态的检索数据越相似。

可选地，在本实施例中，上述目标神经网络模型可以包括但不限于一个或多个基于注意力机制配置的神经网络模型、一个或多个卷积神经网络模型、一个或多个模态一致性模型，可以包括但不限于上述的一种或者多种的组合。

可选地，在本实施例中，上述对象特征数据可以包括但不限于通过图像检测算法从图像采集设备采集到的图像中提取出的对象特征数据。

通过本实施例，采用获取第一模态的查询数据，分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据，利用对象特征数据作为桥梁，将第一模态和第二模态有效地关联起来，进而可以缓解不同模态之间的语义鸿沟，能够解决相关技术中存在的难以有效地实现跨模态的数据处理，用于进行跨模态数据处理的方法的性能较差的技术问题，达到提高跨模态数据处理的效率，优化跨模态的数据处理性能的技术效果。

在一个可选的实施例中，所述方法还包括：在获取第一模态的查询数据之前，获取跨模态数据集，其中，所述跨模态数据集包括训练数据集和测试数据集；使用所述训练数据集训练初始神经网络模型，以得到目标神经网络模型，其中，所述初始神经网络模型包括基于注意力机制构建的初始对象注意力神经网络模型以及初始模态一致性模型所述目标神经网络模型用于为不同模态的数据学习哈希表示方式；将所述测试数据集输入所述目标神经网络模型，得到第一模态数据和第二模态数据的相似度，其中所述相似度用于指示所述第一模态的数据与第二模态的数据之间的相似性；基于所述相似度确定所述初始神经网络模型中的预定参数，以更新所述目标神经网络模型。

可选地，在本实施例中，上述哈希表示方式可以包括但不限于在图像模态数据和文本模态数据之间建立有效的语义关联，并为

和

学习统一的哈希表示

和

进而利用统一的哈希表示进行跨模态的数据处理。

可选地，本实施例中，以上述第一模态为图像模态，第二模态为文本模态为例，所述的跨模态数据集包含的媒体类型为图像、文本。对于图像，在网络中使用像素特征作为原始输入特征，并采用基于VGGNet-19的卷积神经网络结构作为特征提取器，本方法同样支持其他用于图像特征提取的卷积神经网络结构；对于文本，使用词嵌入(Word Embedding)向量作为原始输入特征，采用长短期记忆(Long Short-Term Memory，LSTM)神经网络作为特征提取器。

在一个可选的实施例中，获取跨模态数据集，包括：使用卷积神经网络提取第一模态的特征数据集合；使用长短期记忆神经网络提取第二模态的特征数据集合；将所述第一模态的特征数据集合中的部分特征数据以及所述第二模态的特征数据集合中的部分特征数据确定为所述训练数据集；将所述第一模态的特征数据集合以及所述第二模态的特征数据集合中除所述训练数据集以外的其他特征数据确定为所述测试数据集。

可选地，在本实施例中，以上述第一模态为图像模态，第二模态为文本模态为例，可以包括但不限于使用

表示n个对象在图像模态的像素特征向量集，其中，v_i表示第i个对象在图像模态的像素特征向量。令

表示这n个对象在文本模态的特征向量，其中，t_i表示第i个对象在文本模态的特征向量。将n个对象的类别标签向量(对应于前述的对象特征数据)表示为

其中，c表示对象类别的数量。对于向量y_i来说，如果第i个对象属于第k类，则令向量y_i的第k个元素为1，否则，令向量y_i的第k个元素为0。在使用对象注意力模型后，对于第i个对象，令

表示它在图像模态的输出特征，其中，θ_v为图像模态的未知参数；令

表示它在文本模态的输出特征，其中，θ_t为文本模态的未知参数，特征向量集V和T为训练数据集。

可选地，在本实施例中，使用

表示图像模态的一个查询样本的特征向量，文本模态的一个查询样本的特征向量使用

进行表示，测试数据集中图像模态样本的特征向量集为

测试数据集中文本模态样本的特征向量集为

其中，

表示测试数据集中样本的数量。

在一个可选的实施例中，使用所述训练数据集训练初始神经网络模型，以得到目标神经网络模型，包括：将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练，得到训练完成的第一模态注意力网络模型，并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练，得到训练完成的第二模态注意力网络模型；将所述训练完成的第一模态注意力网络模型以及所述第二模态注意力网络模型确定为目标对象注意力神经网络模型；使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束，以将所述初始模态一致性模型更新为目标模态一致性模型；将所述目标对象注意力神经网络模型以及所述目标模态一致性模型确定为所述目标神经网络模型。

可选地，在本实施例中，以上述第一模态为图像模态，第二模态为文本模态为例，上述初始神经网络模型包括但不限于对象注意力网络模型和模态一致性模型。所述的对象注意力网络模型包括：图像注意力网络和文本注意力网络。对象注意力网络模型以目标检测得到的图像对象的特征为纽带，使用图像注意力网络与文本注意力网络，将图像模态和文本模态从高层语义上联系起来，提高哈希表示的检索准确性。模态一致性模型在学习跨模态数据的哈希表示的过程中，使学习到的哈希表示保持原始跨模态数据的模态间和模态内一致性，达到将哈希表示的近邻关系约束在原有的近邻拓扑框架之中，维持不同模态数据的原有语义关系，进而实现检索精度的提升。

需要说明的是，以上述第一模态为图像模态，第二模态为文本模态为例，其中，对象注意力网络模型包括：图像注意力网络和文本注意力网络，且对象注意力网络模型共有三路输入数据：图像模态数据、文本模态数据、目标检测得到的图像对象数据。图像模态数据使用图像注意力网络在接受迁移知识的基础上进行训练处理；文本模态数据使用文本注意力网络进行训练处理。对象注意力网络模型以目标检测得到的图像对象的特征为纽带，使用图像注意力网络与文本注意力网络，将图像模态和文本模态从高层语义上联系起来。

在一个可选的实施例中，将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练，得到训练完成的第一模态注意力网络模型，并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练，得到训练完成的第二模态注意力网络模型，包括：在所述第一模态的特征数据为图像数据、所述第二模态的特征数据为文本数据的情况下，对所述对象特征数据和所述图像数据使用第一预设函数生成第一目标注意力分布，对所述对象特征数据和所述文本数据使用第二预设函数生成第二目标注意力分布；基于所述第一目标注意力分布确定与所述图像数据对应的第一目标特征向量，以更新所述第一模态注意力网络模型中的第一预设参数，得到训练完成的第一模态注意力网络模型；基于所述第二目标注意力分布确定与所述文本数据对应的第二目标特征向量，以更新所述第二模态注意力网络模型中的第二预设参数，得到训练完成的第二模态注意力网络模型。

可选地，在本实施例中，图像注意力网络将从ImageNet分类任务中学习到的知识迁移到VGGNet-19，并将VGGNet-19最后一个池化层的输出

作为图像注意力模型的输入特征，其中R为图像分区的个数。图像注意力模型(对应于前述的第一模态注意力网络模型)将每个对象的特征O_m和图像分区特征

输入到单层神经网络并使用softmax函数(对应于前述的第一预设函数)生成一个图像在不同图像分区上的注意力分布，即：

其中，“；”表示向量的串联。

中的元素表示在给定对象特征O_m时每个图像分区的注意概率。基于注意力分布

与I_j对应的新特征向量为

(对应于前述的第一目标特征向量)。

可选地，在本实施例中，文本注意力网络(对应于前述的第二模态注意力网络模型)使用LSTM(长短期记忆)网络提取文本特征

并通过使用公式

(对应于前述的第二预设函数)可以得到与H_i对应的新特征向量

(对应于前述的第二目标特征向量)。

此外，令

表示n个对象在图像模态经过两个全连接层处理后的输出特征，其中θ_v为图像模态的未知参数(对应于前述的第一预设参数)；令

表示n个对象在文本模态经过两个全连接层处理后的输出特征，其中θ_t为文本模态的未知参数(对应于前述的第二预设参数)。

假设第i个对象在图像模态和文本模态的特征f(v_i；θ_v)和g(t_i；θ_t)分别生成汉明空间中的哈希编码

和

那么，可以通过优化如下损失函数进行跨模态哈希学习：

其中

和

为由-1和+1构成的k比特哈希编码，矩阵F和G的第i列的向量分别为f(v_i；θ_v)和g(t_i；θ_t)。

在一个可选的实施例中，使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束，以将所述初始模态一致性模型更新为目标模态一致性模型，包括：将所述第一目标特征向量进行目标处理，得到汉明空间中的第一哈希编码，并将所述第二目标特征向量进行所述目标处理，得到所述汉明空间中的第二哈希编码；将所述第一哈希编码和所述第二哈希编码输入目标损失函数，以将所述初始模态一致性模型更新为目标模态一致性模型。

可选地，在本实施例中，在本实施例中，上述模态一致性模型用于使学习到的哈希表示保持原始跨模态数据的模态间和模态内一致性，达到将哈希表示的近邻关系约束在原有的近邻拓扑框架之中，以维持不同模态数据的原有语义关系。模态一致性保持可以通过优化如下损失函数(对应于前述的目标损失函数)实现：

其中L＝D-W，

表示对角矩阵D的第i个对角元素，w_ij为矩阵W第i行第j列上的元素，B＝[b₁，b₂，...，b_n]^T∈{-1，+1}^n×k，

trace(·)表示矩阵的迹，

即为上述第一哈希编码，

即为上述第二哈希编码。

分别为图像模态、文本模态两个数据点之间的马氏距离，

分别为图像模态、文本模态两个数据点之间的欧氏距离，λ、β为距离度量平衡因子。当图像模态的第i个数据点与当文本模态的第j个数据点具有相同的语义标签时，使C_ij＝10，否则使C_ij＝0。由于本发明方法的网络架构为端到端结构，图像注意力网络、文本注意力网络可以通过反向传播算法进行联合训练。

在一个可选的实施例中，根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据，包括：确定所述第一模态的查询数据对应的第三哈希编码；查询所述第二模态的检索数据集合中包含多个所述第二模态的检索数据对应的一组哈希编码；计算所述第三哈希编码和所述一组哈希编码中每个哈希编码的汉明距离；将所述汉明距离小于或等于预定阈值的哈希编码所对应的第二模态的检索数据确定为与所述第一模态的查询数据对应的一个或多个所述第二模态的检索数据。

可选地，在本实施例中，由于对象注意力网络模型在(2)中已经训练完毕，基于训练好的模型参数，给定测试数据集中一种模态的查询数据，在网络中进行一次前向传播计算，便可得到其统一的哈希表示。跨模态数据的相似性取决于汉明空间中统一的哈希表示之间的汉明距离。统一的哈希表示之间的汉明距离越小，则相似度越大。在本实施例中，通过计算图像模态数据和文本模态数据的统一的汉明表示之间的汉明距离来反映二者的相似度。

可选地，在本实施例中，将跨模态测试数据集中的一种模态作为查询数据集，另一种模态作为检索数据集，进行跨模态哈希检索，按照查询数据与检索数据的相似度得到最终的检索结果。

下面结合具体的示例，对本发明进行进一步的解释说明：

针对现有技术的不足，本发明提出了一种基于注意力模型的跨模态哈希检索方法，能够将对象注意力模型与模态一致性保持模型统一于一个网络架构中，实现跨模态数据在高层语义层面的有效关联。该方法以目标检测得到的对象特征为纽带，使用图像注意力网络与文本注意力网络，将图像模态和文本模态从高层语义上联系起来，并通过模态一致性模型将哈希表示的近邻关系约束在原有的近邻拓扑框架之中，维持不同模态数据的原有语义关系，使得到的哈希表示更加适合于跨模态检索任务，提高了跨模态哈希检索的准确率。

为达到以上目的，本发明采用的技术方案如下：

一种基于注意力模型的跨模态哈希检索方法，用于在统一的网络架构中学习不同模态数据的统一的哈希表示，从而实现跨模态检索，图3是根据本发明实施例的一种可选的跨模态的数据处理的方法的流程示意图，如图3所示，包括以下步骤：

S302，构建跨模态数据集，同时将跨模态数据集中的数据分为训练数据集和测试数据集；

S304，使用跨模态数据集中的训练数据训练基于注意力模型的跨模态哈希学习模型，用于为不同模态的数据学习统一的哈希表示；

S306，使用训练好的基于注意力模型的跨模态哈希学习模型参数，得到跨模态数据集中测试数据的统一的哈希表示，进而计算跨模态数据的相似度；

S308，将跨模态测试数据集中的一种模态作为查询数据集，另一种模态作为检索数据集，进行跨模态哈希检索，按照查询数据与检索数据的相似度得到最终的检索结果。

进一步，一种基于注意力模型的跨模态哈希检索方法，所述步骤(1)中的跨模态数据集包含两种模态类型，具体为图像模态类型和文本模态类型。

进一步，一种基于注意力模型的跨模态哈希检索方法，所述步骤(2)中基于注意力模型的跨模态哈希学习模型，包括融合于统一网络架构中的对象注意力网络模型和模态一致性模型。所述的对象注意力网络模型包括：图像注意力网络和文本注意力网络。对象注意力网络模型以目标检测得到的图像对象的特征为纽带，使用图像注意力网络与文本注意力网络，将图像模态和文本模态从高层语义上联系起来，提高哈希表示的检索准确性。模态一致性模型在学习跨模态数据的哈希表示的过程中，使学习到的哈希表示保持原始跨模态数据的模态间和模态内一致性，达到将哈希表示的近邻关系约束在原有的近邻拓扑框架之中，维持不同模态数据的原有语义关系，进而实现检索精度的提升。

进一步，一种基于注意力模型的跨模态哈希检索方法，所述步骤(3)中跨模态数据的相似度取决于哈希表示之间的汉明距离，汉明距离越小，则相似度越大。

进一步，一种基于注意力模型的跨模态哈希检索方法，所述步骤(4)中的跨模态哈希检索方式为，从步骤(1)中的测试数据集中任意选择一类模态的数据作为查询样例，按照步骤(3)中的跨模态相似度计算方法，对测试集中另一类模态的所有数据进行相似度计算，然后按照相似度从大到小排序，返回检索结果列表。

本发明的效果在于：与现有方法相比，本方法能够将对象注意力模型与模态一致性保持模型统一于一个网络架构中，实现跨模态数据在高层语义层面的有效关联。在不同模态数据的统一的哈希表示学习过程中，本方法利用注意力模型挖掘多模态数据的语义关联，并利用模态一致性模型保持多模态数据的语义关联，提高了跨模态检索的准确率。

本方法之所以具有上述发明效果，其原因在于：本方法将对象注意力模型与模态一致性保持模型统一于一个网络架构中。其中的注意力模型以目标检测得到的对象特征为纽带，使用图像注意力网络与文本注意力网络，将图像模态和文本模态从高层语义上联系起来。其中的模态一致性模型将哈希表示的近邻关系约束在原有的近邻拓扑框架之中，使不同模态数据的原有语义关系得到维持。上述两个子模型构成的端到端的网络架构，充分挖掘了不同模态数据的语义关联，并充分维持了不同模态数据的原有语义关联，促进了多模态数据统一哈希表示的学习，提高了跨模态检索的准确性。

本发明的一种基于注意力模型的跨模态哈希检索方法，具体可以包括但不限于如下内容：

(1)构建跨模态数据集，同时将跨模态数据集中的数据分为训练数据集和测试数据集。

本实施例中，所述的跨模态数据集包含的媒体类型为图像、文本。对于图像，在网络中使用像素特征作为原始输入特征，并采用基于VGGNet-19的卷积神经网络结构作为特征提取器，本方法同样支持其他用于图像特征提取的卷积神经网络结构；对于文本，使用词嵌入(Word Embedding)向量作为原始输入特征，采用长短期记忆(Long Short-TermMemory，LSTM)神经网络作为特征提取器。

使用

表示这n个对象在文本模态的特征向量，其中，t_i表示第i个对象在文本模态的特征向量。将n个对象的类别标签向量表示为

表示它在文本模态的输出特征，其中，θ_t为文本模态的未知参数。特征向量集V和T为训练数据集。使用

进行表示，测试数据集中图像模态样本的特征向量集为

测试数据集中文本模态样本的特征向量集为

其中，

表示测试数据集中样本的数量。

学习的目标是通过融合对象注意力模型和模态一致性模型，在图像模态数据和文本模态数据之间建立有效的语义关联，并为

和

学习统一的哈希表示

和

进而利用统一的哈希表示进行跨模态检索任务。

(2)使用跨模态数据集中的训练数据训练基于注意力模型的跨模态哈希学习模型，用于为不同模态的数据学习统一的哈希表示。

该步骤所构建的网络结构如图4所示，本发明的基于注意力模型的跨模态哈希学习模型，包括融合于统一网络架构中的对象注意力网络模型和模态一致性模型。其中对象注意力网络模型包括：图像注意力网络402和文本注意力网络404，且对象注意力网络模型共有三路输入数据：图像模态数据406、文本模态数据408、目标检测得到的图像对象数据410。图像模态数据使用图像注意力网络在接受迁移知识的基础上进行训练处理；文本模态数据使用文本注意力网络进行训练处理。对象注意力网络模型以目标检测得到的图像对象的特征为纽带，使用图像注意力网络与文本注意力网络，将图像模态和文本模态从高层语义上联系起来。

在本实施例中，图像注意力网络把从ImageNet分类任务中学习到的知识迁移到VGGNet-19，并将VGGNet-19最后一个池化层的输出

作为图像注意力模型的输入特征，其中R为图像分区的个数。图像注意力模型将每个对象的特征O_m和图像分区特征

输入到单层神经网络并使用softmax函数生成一个图像在不同图像分区上的注意力分布，即：

其中，“；”表示向量的串联。

与I_j对应的新特征向量为

文本注意力网络使用LSTM(长短期记忆)网络提取文本特征

并通过使用公式

可以得到与H_i对应的新特征向量

令

表示n个对象在图像模态经过两个全连接层处理后的输出特征，其中θ_v为图像模态的未知参数；令

表示n个对象在文本模态经过两个全连接层处理后的输出特征，其中θ_t为文本模态的未知参数。

和

那么，可以通过优化如下损失函数进

其中

和

在本实施例中，模态一致性模型412用于使学习到的哈希表示保持原始跨模态数据的模态间和模态内一致性，达到将哈希表示的近邻关系约束在原有的近邻拓扑框架之中，以维持不同模态数据的原有语义关系。模态一致性保持可以通过优化如下损失函数实现：

其中L＝D-W，

trace(·)表示矩阵的迹，

分别为图像模态、文本模态两个数据点之间的马氏距离，

(3)使用训练好的基于注意力模型的跨模态哈希学习模型参数，得到跨模态数据集中测试数据的统一的哈希表示，进而计算跨模态数据的相似度。

由于对象注意力网络模型在(2)中已经训练完毕，基于训练好的模型参数，给定测试数据集中一种模态的数据，在网络中进行一次前向传播计算，便可得到其统一的哈希表示。跨模态数据的相似性取决于汉明空间中统一的哈希表示之间的汉明距离。统一的哈希表示之间的汉明距离越小，则相似度越大。在本实施例中，通过计算图像模态数据和文本模态数据的统一的汉明表示之间的汉明距离来反映二者的相似度。

(4)将跨模态测试数据集中的一种模态作为查询数据集，另一种模态作为检索数据集，进行跨模态哈希检索，按照查询数据与检索数据的相似度得到最终的检索结果。

下列实验结果表明，与现有方法相比，本发明基于注意力模型的跨模态哈希检索方法，可以取得更高的检索准确率。

以下结合具体实验对本发明的有益效果进行说明。

本实施例在Pascal VOC 2007数据集上进行实验。Pascal VOC 2007数据集包含来自于20个类别的9963张图像，每幅图像均被标注了标签。数据集被划分成包含5011个图像-标签对的训练集和包含4952个图像-标签对的测试集。图像模态使用原始像素特征作为输入特征。文本模态使用词嵌入向量作为输入特征。实验包括图像检索文本和用文本检索图像两种跨模态检索任务。报告的结果为进行10次随机实验所得结果的平均值。测试了以下3种方法作为实验对比：

现有方法一：文献“Semantic Deep Cross-modal Hashing”(作者Q.Lin，W.Cao，Z.He，and Z.He)中的语义深度跨模态哈希方法，该方法通过构建语义标签分支来提升特征学习部分，使学习得到的特征能够维持语义信息。

现有方法二：文献“Deep Joint-Semantics Reconstructing Hashing forLarge-Scale Unsupervised Cross-Modal Retrieval”(作者S.Su，Z.Zhong，and C.Zhang)中的深度联合语义重构哈希方法，该方法构造的联合语义仿射矩阵可以巧妙地融合来自不同模态的原始近邻信息。

现有方法三：文献“Deep Multiscale Fusion Hashing for Cross-ModalRetrieval”(作者X.Nie，B.Wang，J.Li，F.Hao，M.Jian，and Y.Yin)中的深度多尺度融合哈希方法，该方法首先为两个模态设计不同的网络分支，然后在每个分支网络上采用多尺度融合模型来融合多个尺度的语义，以更好地挖掘语义相关性。

在本实验中，采用信息检索领域常用的MAP(Mean Average Precision)值作为指标来评测跨模态检索的准确性，MAP值越大说明跨模态检索的结果越好。

表1 本发明和现有方法的实验结果展示

从表1可以看出，本发明在图像检索文本、文本检索图像两个任务中，对比现有方法都取得了检索准确率的提高。对比方法一注重使用语义标签使学习得到的特征中维持原有的多模态数据之间的语义关联，对多模态数据之间的高层语义关联挖掘不够充分。对比方法二和方法三注重从不同的层面将不同模态的语义信息融合起来，但是对于维持多模态数据原有的语义关联考虑不够充分。本发明将对象注意力模型与模态一致性保持模型统一于一个端到端的网络架构中。对象注意力网络模型以目标检测得到的图像对象的特征为纽带，使用图像注意力网络与文本注意力网络，将图像模态和文本模态从高层语义上联系起来。模态一致性模型将哈希表示的近邻关系约束在原有的近邻拓扑框架之中，以维持不同模态数据的原有语义关系。上述的对象注意力模型与模态一致性保持模型，充分地在多模态数据间挖掘和维持高层语义信息，促进了多模态数据统一的哈希表示的学习，提高了跨模态检索的准确率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种跨模态的数据处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的一种可选的跨模态的数据处理装置的结构框图，如图5所示，该装置包括：

获取模块502，用于获取第一模态的查询数据；

处理模块504，用于分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，所述第二模态的检索数据集合中包含多个所述第二模态的检索数据，所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性，所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，所述目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型，以及用于保持第一模态和第二模态间数据一致性的模态一致性模型，所述一组样本对中每个样本对包括样本数据以及对象特征数据，所述对象特征数据为通过图像对象检测方式得到的对象特征数据；

确定模块506，用于根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。

在一个可选的实施例中，所述装置还用于：在获取第一模态的查询数据之前，获取跨模态数据集，其中，所述跨模态数据集包括训练数据集和测试数据集；使用所述训练数据集训练初始神经网络模型，以得到目标神经网络模型，其中，所述初始神经网络模型包括基于注意力机制构建的初始对象注意力神经网络模型以及初始模态一致性模型所述目标神经网络模型用于为不同模态的数据学习哈希表示方式；将所述测试数据集输入所述目标神经网络模型，得到第一模态数据和第二模态数据的相似度，其中所述相似度用于指示所述第一模态的数据与第二模态的数据之间的相似性；基于所述相似度确定所述初始神经网络模型中的预定参数，以更新所述目标神经网络模型。

在一个可选的实施例中，所述装置用于通过如下方式获取跨模态数据集：使用卷积神经网络提取第一模态的特征数据集合；使用长短期记忆神经网络提取第二模态的特征数据集合；将所述第一模态的特征数据集合中的部分特征数据以及所述第二模态的特征数据集合中的部分特征数据确定为所述训练数据集；将所述第一模态的特征数据集合以及所述第二模态的特征数据集合中除所述训练数据集以外的其他特征数据确定为所述测试数据集。

在一个可选的实施例中，所述装置用于通过如下方式使用所述训练数据集训练初始神经网络模型，以得到目标神经网络模型：将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练，得到训练完成的第一模态注意力网络模型，并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练，得到训练完成的第二模态注意力网络模型；将所述训练完成的第一模态注意力网络模型以及所述第二模态注意力网络模型确定为目标对象注意力神经网络模型；使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束，以将所述初始模态一致性模型更新为目标模态一致性模型；将所述目标对象注意力神经网络模型以及所述目标模态一致性模型确定为所述目标神经网络模型。

在一个可选的实施例中，所述装置用于通过如下方式将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练，得到训练完成的第一模态注意力网络模型，并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练，得到训练完成的第二模态注意力网络模型：在所述第一模态的特征数据为图像数据、所述第二模态的特征数据为文本数据的情况下，对所述对象特征数据和所述图像数据使用第一预设函数生成第一目标注意力分布，对所述对象特征数据和所述文本数据使用第二预设函数生成第二目标注意力分布；基于所述第一目标注意力分布确定与所述图像数据对应的第一目标特征向量，以更新所述第一模态注意力网络模型中的第一预设参数，得到训练完成的第一模态注意力网络模型；基于所述第二目标注意力分布确定与所述文本数据对应的第二目标特征向量，以更新所述第二模态注意力网络模型中的第二预设参数，得到训练完成的第二模态注意力网络模型。

在一个可选的实施例中，所述装置用于通过如下方式使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束，以将所述初始模态一致性模型更新为目标模态一致性模型：将所述第一目标特征向量进行目标处理，得到汉明空间中的第一哈希编码，并将所述第二目标特征向量进行所述目标处理，得到所述汉明空间中的第二哈希编码；将所述第一哈希编码和所述第二哈希编码输入目标损失函数，以将所述初始模态一致性模型更新为目标模态一致性模型。

在一个可选的实施例中，所述装置用于通过如下方式根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据：确定所述第一模态的查询数据对应的第三哈希编码；查询所述第二模态的检索数据集合中包含多个所述第二模态的检索数据对应的一组哈希编码；计算所述第三哈希编码和所述一组哈希编码中每个哈希编码的汉明距离；将所述汉明距离小于或等于预定阈值的哈希编码所对应的第二模态的检索数据确定为与所述第一模态的查询数据对应的一个或多个所述第二模态的检索数据。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取第一模态的查询数据；

S2，分别确定第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，第二模态的检索数据集合中包含多个第二模态的检索数据，第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，目标参数用于指示第一模态的查询数据与第二模态的检索数据的相似性，目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型，以及用于保持第一模态和第二模态间数据一致性的模态一致性模型，一组样本对中每个样本对包括样本数据以及对象特征数据，对象特征数据为通过图像对象检测方式得到的对象特征数据；

S3，根据多个目标参数将一个或多个第二模态的检索数据确定为与第一模态的查询数据对应的目标数据。

计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：

S1，获取第一模态的查询数据；

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

在一个示例性实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取第一模态的查询数据；

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨模态的数据处理方法，其特征在于，包括：

获取第一模态的查询数据；

分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，所述第二模态的检索数据集合中包含多个所述第二模态的检索数据，所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性，所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，所述目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型，以及用于保持第一模态和第二模态间数据一致性的模态一致性模型，所述一组样本对中每个样本对包括样本数据以及对象特征数据，所述对象特征数据为通过图像对象检测方式得到的对象特征数据；

根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据。

2.根据权利要求1所述的方法，其特征在于，在获取第一模态的查询数据之前，所述方法还包括：

获取跨模态数据集，其中，所述跨模态数据集包括训练数据集和测试数据集；

使用所述训练数据集训练初始神经网络模型，以得到目标神经网络模型，其中，所述初始神经网络模型包括基于注意力机制构建的初始对象注意力神经网络模型以及初始模态一致性模型所述目标神经网络模型用于为不同模态的数据学习哈希表示方式；

将所述测试数据集输入所述目标神经网络模型，得到第一模态数据和第二模态数据的相似度，其中所述相似度用于指示所述第一模态的数据与第二模态的数据之间的相似性；

基于所述相似度确定所述初始神经网络模型中的预定参数，以更新所述目标神经网络模型。

3.根据权利要求2所述的方法，其特征在于，获取跨模态数据集，包括：

使用卷积神经网络提取第一模态的特征数据集合；

使用长短期记忆神经网络提取第二模态的特征数据集合；

将所述第一模态的特征数据集合中的部分特征数据以及所述第二模态的特征数据集合中的部分特征数据确定为所述训练数据集；

将所述第一模态的特征数据集合以及所述第二模态的特征数据集合中除所述训练数据集以外的其他特征数据确定为所述测试数据集。

4.根据权利要求2所述的方法，其特征在于，使用所述训练数据集训练初始神经网络模型，以得到目标神经网络模型，包括：

将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练，得到训练完成的第一模态注意力网络模型，并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练，得到训练完成的第二模态注意力网络模型；

将所述训练完成的第一模态注意力网络模型以及所述第二模态注意力网络模型确定为目标对象注意力神经网络模型；

使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束，以将所述初始模态一致性模型更新为目标模态一致性模型；

将所述目标对象注意力神经网络模型以及所述目标模态一致性模型确定为所述目标神经网络模型。

5.根据权利要求4所述的方法，其特征在于，将所述训练数据集中的第一模态的特征数据以及所述对象特征数据输入所述第一模态注意力网络模型进行训练，得到训练完成的第一模态注意力网络模型，并将所述训练数据集中的第二模态的特征数据以及所述对象特征数据输入所述第二模态注意力网络模型进行训练，得到训练完成的第二模态注意力网络模型，包括：

在所述第一模态的特征数据为图像数据、所述第二模态的特征数据为文本数据的情况下，对所述对象特征数据和所述图像数据使用第一预设函数生成第一目标注意力分布，对所述对象特征数据和所述文本数据使用第二预设函数生成第二目标注意力分布；

基于所述第一目标注意力分布确定与所述图像数据对应的第一目标特征向量，以更新所述第一模态注意力网络模型中的第一预设参数，得到训练完成的第一模态注意力网络模型；

基于所述第二目标注意力分布确定与所述文本数据对应的第二目标特征向量，以更新所述第二模态注意力网络模型中的第二预设参数，得到训练完成的第二模态注意力网络模型。

6.根据权利要求5所述的方法，其特征在于，使用所述初始模态一致性模型基于所述第一模态的特征数据的语义信息以及所述第二模态的特征数据的语义信息对所述第一模态的特征数据以及所述第二模态的特征数据进行约束，以将所述初始模态一致性模型更新为目标模态一致性模型，包括：

将所述第一目标特征向量进行目标处理，得到汉明空间中的第一哈希编码，并将所述第二目标特征向量进行所述目标处理，得到所述汉明空间中的第二哈希编码；

将所述第一哈希编码和所述第二哈希编码输入目标损失函数，以将所述初始模态一致性模型更新为目标模态一致性模型。

7.根据权利要求1所述的方法，其特征在于，根据所述多个目标参数将一个或多个所述第二模态的检索数据确定为与所述第一模态的查询数据对应的目标数据，包括：

确定所述第一模态的查询数据对应的第三哈希编码；

查询所述第二模态的检索数据集合中包含多个所述第二模态的检索数据对应的一组哈希编码；

计算所述第三哈希编码和所述一组哈希编码中每个哈希编码的汉明距离；

将所述汉明距离小于或等于预定阈值的哈希编码所对应的第二模态的检索数据确定为与所述第一模态的查询数据对应的一个或多个所述第二模态的检索数据。

8.一种跨模态的数据处理装置，其特征在于，包括：

获取模块，用于获取第一模态的查询数据；

处理模块，用于分别确定所述第一模态的查询数据与第二模态的检索数据集合中每个第二模态的检索数据之间的目标参数，以得到多个目标参数，其中，所述第二模态的检索数据集合中包含多个所述第二模态的检索数据，所述第二模态的检索数据为将第二模态的原始数据输入目标神经网络模型后得到的数据，所述目标参数用于指示所述第一模态的查询数据与所述第二模态的检索数据的相似性，所述目标神经网络模型是使用一组样本对对初始神经网络模型进行训练得到的神经网络模型，所述目标神经网络模型包括基于初始注意力模型训练得到第一模态注意力网络模型和第二模态注意力网络模型，以及用于保持第一模态和第二模态间数据一致性的模态一致性模型，所述一组样本对中每个样本对包括样本数据以及对象特征数据，所述对象特征数据为通过图像对象检测方式得到的对象特征数据；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。

10.一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。