CN114817655A

CN114817655A - 跨模态检索方法、网络训练方法、装置、设备及介质

Info

Publication number: CN114817655A
Application number: CN202210265872.5A
Authority: CN
Inventors: 何永明; 李涛; 梅丰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-07-29

Abstract

本公开关于一种跨模态检索方法、网络训练方法、装置、设备及介质，该跨模态检索方法包括：获取待检索数据和候选数据；所述待检索数据和所述候选数据对应不同的模态；基于跨模态检索网络提取所述待检索数据的第一特征和所述候选数据的第二特征；根据所述第一特征和所述第二特征的匹配度，从所述候选数据中检索出与所述待检索数据匹配的数据。采用本公开中的跨模态检索网络能够精准捕捉输入的待检索数据和候选数据的局部信息，输出更有效的特征，该更有效的特征在同模态间更加具有区分性，不同模态间更加具有可辨识性，从而提高细粒度的跨模态检索性能。

Description

跨模态检索方法、网络训练方法、装置、设备及介质

技术领域

本公开涉及计算机领域，尤其涉及一种跨模态检索方法、网络训练方法、装置、设备及介质。

背景技术

跨模态检索指的是检索结果的模态和查询数据的模态不同的检索方式。比如，使用图像检索文本、视频、音频等。

相关技术中，跨模态检索通常对检索网络输出的不同模态的特征进行相似度计算，得到相关性分数，根据相关性分数进行检索。在训练检索网络的时候，通常将两种模态数据映射到同一维度的高维表示空间中，得到两种模态的特征之后直接使用对比损失函数进行训练。该训练方式得到的检索网络所输出的特征不够精细，只能粗粒度的判断特征之间是否相关，对于细粒度的跨模态检索的检索效果较差。

发明内容

本公开提供一种跨模态检索方法、网络训练方法、装置、设备及介质，以至少解决相关技术中的检索网络所输出的特征不够精细，只能粗粒度的判断特征之间是否相关，对于细粒度的跨模态检索的检索效果较差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种跨模态检索方法，包括：

获取待检索数据和候选数据；所述待检索数据和所述候选数据对应不同的模态；

基于跨模态检索网络提取所述待检索数据的第一特征和所述候选数据的第二特征；

根据所述第一特征和所述第二特征的匹配度，从所述候选数据中检索出与所述待检索数据匹配的数据；

其中，所述跨模态检索网络为基于样本待检索数据、与所述样本待检索数据匹配的关联样本数据以及与所述样本待检索数据非匹配的非关联样本数据，对对抗网络中的与所述样本待检索数据对应的第一样本生成网络、与所述关联样本数据对应的第二样本生成网络、与所述非关联样本数据对应的第三样本生成网络进行对抗训练得到；所述关联样本数据与所述样本待检索数据对应不同的模态，所述关联样本数据与所述非关联样本数据对应相同的模态。

在一示例性的实施例中，所述跨模态检索网络包括与所述第一样本生成网络对应的第一生成网络、与所述第二样本生成网络对应的第二生成网络以及与所述第三样本生成网络对应的第三生成网络，所述基于跨模态检索网络提取所述待检索数据的第一特征和所述候选数据的第二特征，包括：

将所述待检索数据和所述候选数据输入所述跨模态检索网络；

基于所述第一生成网络提取所述第一特征；

根据所述第二生成网络和所述第三生成网络提取所述第二特征。

在一示例性的实施例中，所述根据所述第一特征和所述第二特征的匹配度，从所述候选数据中检索出与所述待检索数据匹配的数据，包括：

确定所述第一特征与所述第二特征之间的所述匹配度；

将目标第二特征对应的候选数据，作为所述与所述待检索数据匹配的数据；所述目标第二特征表征与所述第一特征的匹配度满足预设条件的第二特征。

根据本公开实施例的第二方面，提供一种跨模态检索网络的训练方法，包括：

获取样本待检索数据、与所述样本待检索数据匹配的关联样本数据以及与所述样本待检索数据非匹配的非关联样本数据；所述关联样本数据与所述样本待检索数据对应不同的模态，所述关联样本数据与所述非关联样本数据对应相同的模态；

将所述样本待检索数据、所述关联样本数据、所述非关联样本数据输入对抗网络中的第一样本生成网络、第二样本生成网络、第三样本生成网络，得到所述样本待检索数据的样本特征、所述关联样本数据的关联样本特征、所述非关联样本数据的非关联样本特征；

基于所述样本特征、所述关联样本特征和所述非关联样本特征对所述对抗网络进行对抗训练，得到跨模态检索网络。

在一示例性的实施例中，所述将所述样本待检索数据、所述关联样本数据、所述非关联样本数据输入对抗网络中的第一样本生成网络、第二样本生成网络、第三样本生成网络，得到所述样本待检索数据的样本特征、所述关联样本数据的关联样本特征、所述非关联样本数据的非关联样本特征，包括：

将所述样本待检索数据输入所述第一样本生成网络，基于所述第一样本生成网络提取所述样本特征；

将所述关联样本数据输入所述第二样本生成网络，根据所述第二样本生成网络提取所述关联样本特征；

将所述非关联样本数据输入所述第三样本生成网络，基于所述第三样本生成网络提取所述非关联样本特征。

在一示例性的实施例中，所述基于所述样本特征、所述关联样本特征和所述非关联样本特征对所述对抗网络进行对抗训练，得到跨模态检索网络，包括：

基于所述样本特征、所述关联样本特征和所述非关联样本特征，得到第一损失信息；

将所述样本特征、所述关联样本特征和所述非关联样本特征输入所述对抗网络中的判别网络，得到第二损失信息；

基于所述第一损失信息和所述第二损失信息训练所述对抗网络，得到第一生成网络、第二生成网络和第三生成网络；所述第一生成网络用于对待检索数据进行特征提取，所述第二生成网络和所述第三生成网络用于对候选数据进行特征提取；

根据所述第一生成网络、所述第二生成网络和所述第三生成网络，生成跨模态检索网络。

在一示例性的实施例中，所述将所述样本特征、所述关联样本特征和所述非关联样本特征输入所述对抗网络中的判别网络，得到第二损失信息，包括：

将所述样本特征、所述关联样本特征和所述非关联样本特征输入所述判别网络；

基于所述判别网络判别所述样本特征与所述关联样本特征之间的匹配度，得到第一判别结果，判别所述样本特征与所述非关联样本特征之间的匹配度，得到第二判别结果；

根据所述第一判别结果和所述第二判别结果，得到所述第二损失信息。

在一示例性的实施例中，所述根据所述第一判别结果和所述第二判别结果，得到所述第二损失信息，包括：

计算所述第一判别结果对应的第一对数和所述第二判别结果对应的第二对数；

根据所述第一对数和所述第二对数，得到所述第二损失信息。

在一示例性的实施例中，所述样本待检索数据的数量为多个，所述方法还包括：

从多个样本待检索数据中确定出目标样本待检索数据；

从所述关联样本数据中，确定出与所述目标样本待检索数据匹配的目标关联样本数据，并从所述非关联样本数据中，确定出与所述目标样本待检索数据非匹配的目标非关联样本数据；

所述将所述样本特征、所述关联样本特征和所述非关联样本特征输入所述对抗网络中的判别网络，得到第二损失信息，包括：

将所述目标样本待检索数据的样本特征、所述目标关联样本数据的关联样本特征和所述目标非关联样本数据的非关联样本特征输入所述判别网络，得到所述第二损失信息。

根据本公开实施例的第三方面，提供一种跨模态检索装置，包括：

数据获取模块，被配置为执行获取待检索数据和候选数据；所述待检索数据和所述候选数据对应不同的模态；

特征提取模块，被配置为执行基于跨模态检索网络提取所述待检索数据的第一特征和所述候选数据的第二特征；

数据检索模块，被配置为执行根据所述第一特征和所述第二特征的匹配度，从所述候选数据中检索出与所述待检索数据匹配的数据；

在一示例性的实施例中，所述跨模态检索网络包括与所述第一样本生成网络对应的第一生成网络、与所述第二样本生成网络对应的第二生成网络以及与所述第三样本生成网络对应的第三生成网络，所述特征提取模块，包括：

输入单元，被配置为执行将所述待检索数据和所述候选数据输入所述跨模态检索网络；

第一特征提取单元，被配置为执行基于所述第一生成网络提取所述第一特征；

第二特征提取单元，被配置为执行根据所述第二生成网络和所述第三生成网络提取所述第二特征。

在一示例性的实施例中，所述数据检索模块，包括：

匹配度确定单元，被配置为执行确定所述第一特征与所述第二特征之间的所述匹配度；

匹配数据确定单元，被配置为执行将目标第二特征对应的候选数据，作为所述与所述待检索数据匹配的数据；所述目标第二特征表征与所述第一特征的匹配度满足预设条件的第二特征。

在一示例性的实施例中，所述数据检索模块，包括：

根据本公开实施例的第四方面，提供一种跨模态检索网络的训练装置，包括：

样本数据获取模块，被配置为执行获取样本待检索数据、与所述样本待检索数据匹配的关联样本数据以及与所述样本待检索数据非匹配的非关联样本数据；所述关联样本数据与所述样本待检索数据对应不同的模态，所述关联样本数据与所述非关联样本数据对应相同的模态；

样本特征确定模块，被配置为执行将所述样本待检索数据、所述关联样本数据、所述非关联样本数据输入对抗网络中的第一样本生成网络、第二样本生成网络、第三样本生成网络，得到所述样本待检索数据的样本特征、所述关联样本数据的关联样本特征、所述非关联样本数据的非关联样本特征；

跨模态检索网络确定模块，被配置为执行基于所述样本特征、所述关联样本特征和所述非关联样本特征对所述对抗网络进行对抗训练，得到跨模态检索网络。

在一示例性的实施例中，所述样本特征确定模块，包括：

样本特征提取单元，被配置为执行将所述样本待检索数据输入所述第一样本生成网络，基于所述第一样本生成网络提取所述样本特征；

关联样本特征提取单元，被配置为执行将所述关联样本数据输入所述第二样本生成网络，根据所述第二样本生成网络提取所述关联样本特征；

非关联样本特征提取单元，被配置为执行将所述非关联样本数据输入所述第三样本生成网络，基于所述第三样本生成网络提取所述非关联样本特征。

在一示例性的实施例中，所述跨模态检索网络确定模块，包括：

第一损失信息确定单元，被配置为执行基于所述样本特征、所述关联样本特征和所述非关联样本特征，得到第一损失信息；

第二损失信息确定单元，被配置为执行将所述样本特征、所述关联样本特征和所述非关联样本特征输入所述对抗网络中的判别网络，得到第二损失信息；

训练单元，被配置为执行基于所述第一损失信息和所述第二损失信息训练所述对抗网络，得到第一生成网络、第二生成网络和第三生成网络；所述第一生成网络用于对待检索数据进行特征提取，所述第二生成网络和所述第三生成网络用于对候选数据进行特征提取；

跨模态检索网络生成单元，被配置为执行根据所述第一生成网络、所述第二生成网络和所述第三生成网络，生成跨模态检索网络。

在一示例性的实施例中，所述第二损失信息确定单元，包括：

样本特征输入子单元，被配置为执行将所述样本特征、所述关联样本特征和所述非关联样本特征输入所述判别网络；

判别结果确定子单元，被配置为执行基于所述判别网络判别所述样本特征与所述关联样本特征之间的匹配度，得到第一判别结果，判别所述样本特征与所述非关联样本特征之间的匹配度，得到第二判别结果；

第二损失信息确定子单元，被配置为执行根据所述第一判别结果和所述第二判别结果，得到所述第二损失信息。

在一示例性的实施例中，所述第二损失信息确定子单元，包括：

对数确定子模块，被配置为执行计算所述第一判别结果对应的第一对数和所述第二判别结果对应的第二对数；

第二损失信息确定子模块，被配置为执行根据所述第一对数和所述第二对数，得到所述第二损失信息。

在一示例性的实施例中，所述样本待检索数据的数量为多个，所述装置还包括：

第一确定模块，被配置为执行从多个样本待检索数据中确定出目标样本待检索数据；

第二确定模块，被配置为执行从所述关联样本数据中，确定出与所述目标样本待检索数据匹配的目标关联样本数据，并从所述非关联样本数据中，确定出与所述目标样本待检索数据非匹配的目标非关联样本数据；

所述第二损失信息确定单元，被配置为执行将所述目标样本待检索数据的样本特征、所述目标关联样本数据的关联样本特征和所述目标非关联样本数据的非关联样本特征输入所述判别网络，得到所述第二损失信息。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述任一实施方式所述的跨模态检索方法或跨模态检索网络的训练方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备执行如上述任一实施方式所述的跨模态检索方法或跨模态检索网络的训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任一实施方式所述的跨模态检索方法或跨模态检索网络的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例基于样本待检索数据、与样本待检索数据匹配的关联样本数据以及与样本待检索数据非匹配的非关联样本数据，对与样本待检索数据对应的第一样本生成网络、与关联样本数据对应的第二样本生成网络、与非关联样本数据对应的第三样本生成网络进行对抗训练得到跨模态检索网络。即本公开实施例提出了一种基于对抗训练的三塔结构的多模态表征训练框架，使用该框架训练得到的跨模态检索网络能够精准捕捉输入的待检索数据和候选数据的局部信息，输出更有效的特征，该更有效的特征在同模态间更加具有区分性，不同模态间更加具有可辨识性，从而提高细粒度的跨模态检索性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种跨模态检索方法或跨模态检索网络的训练方法的实施环境示意图。

图2是根据一示例性实施例示出的一种跨模态检索方法的流程图。

图3是根据一示例性实施例示出的一种提取第一特征和第二特征的流程图。

图4是根据一示例性实施例示出的一种根据第一特征和第二特征的匹配度，从候选数据中检索出与待检索数据匹配的数据的流程图。

图5是根据一示例性实施例示出的一种跨模态检索网络的训练方法的流程图。

图6是根据一示例性实施例示出的一种得到样本待检索数据的样本特征、关联样本数据的关联样本特征、非关联样本数据的非关联样本特征的流程图。

图7是根据一示例性实施例示出的一种跨模态检索网络的训练方法的流程图。

图8是根据一示例性实施例示出的一种得到跨模态检索网络的流程图。

图9是根据一示例性实施例示出的一种将样本特征、关联样本特征和非关联样本特征输入对抗网络中的判别网络，得到第二损失信息的流程图。

图10是根据一示例性实施例示出的一种确定目标样本待检索数据、目标关联样本数据以及目标非关联样本数据的流程图。

图11是根据一示例性实施例示出的一种跨模态检索装置框图。

图12是根据一示例性实施例示出的一种跨模态检索网络的训练装置框图。

图13是根据一示例性实施例示出的一种用于跨模态检索或跨模态检索网络的训练的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种跨模态检索方法或跨模态检索网络的训练方法的实施环境示意图。如图1所示，该实施环境至少可以包括终端01和服务器02，该终端01和服务器2之间可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

具体地，该终端可以用于采集待检索数据。可选地，该终端01可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、智能手表等，但并不局限于此。

具体地，该服务器02可以用于训练跨模态检索网络，以及用于基于跨模态检索网络从候选数据中检索出与待检索数据匹配的数据。可选地，该服务器02可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，图1仅仅是一种示例。在其他场景中，还可以包括其他实施环境，例如，该实施环境可以包括终端，通过终端训练得到跨模态检索网络，以及用于基于跨模态检索网络从候选数据中检索出与待检索数据匹配的数据。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

为了更好的理解本公开实施例提供的跨模态检测方法，首先介绍该跨模态检测方法可以应用的技术场景。具体而言，本公开实施例的跨模态检测方法可以应用在如下所示的场景A、场景B、场景C和场景D中，但本公开实施例的跨模态检测方法不限于这三种应用场景。下面分别对场景A、场景B、场景C和场景D进行简单的介绍。

场景A:

针对文本数据、视频数据进行检索匹配。通过本公开实施例的跨模态检索方法，可以将待检索文本作为查询输入来自动生成与该待检索文本匹配的视频，并推荐给终端账号。

场景B:

针对图像数据、文本数据进行检索匹配。通过本公开实施例的跨模态检索方法，可以将待检索图像作为查询输入来自动生成与该待检索图像匹配的文本描述，并推荐给终端账号。

场景C:

针对图像数据、语音数据进行检索匹配。例如手机智能语音搜图。通过本公开实施例的跨模态检索方法，可以将终端账号语音作为查询输入，通过在手机相册中的图像内容进行检索匹配，自动生成与该终端账号语音匹配的图像。

场景D：

针对视频数据、音乐数据的检索匹配。例如给娱乐短视频/广告视频配乐。通过本公开实施例的跨模态检索方法，可以利用跨模态检索的技术把待检索视频作为查询来自动寻找与之最为匹配的音乐，进行个性化推荐，例如主要是考虑视频的动作、镜头转换要与音乐节拍等进行匹配。

图2是根据一示例性实施例示出的一种跨模态检索方法的流程图。如图2所示，该方法用于图1中的包含终端和服务器的***中，包括以下步骤。

在步骤S11中，获取待检索数据和候选数据；上述待检索数据和上述候选数据对应不同的模态。

可选地，该待检索数据可以作为检索词，从候选数据中检索出与该待检索数据匹配的数据。示例性地，该待检索数据的模态包括但不限于：文本、视频、图像、语音等。该候选数据的模态包括但不限于：文本、视频、图像、语音等，但其与待检索数据的模态不同。例如，待检索数据的模态为文本，则候选数据的模态可以为视频、图像、语音等。待检索数据的模态为图像，则候选数据的模态可以为文本、视频、语音等。

在一种实施方式中，在上述步骤S11中，终端账号可以向服务器发送数据检索请求，该数据检索请求选中可以携带该待检索数据以及需要检索出的数据的目标模态，服务器可以响应于该数据检索请求，根据该目标模态从数据库中获取与该目标模态对应的候选数据。服务器响应于终端账号发送的数据检索请求而获取候选数据的方式，能够实现终端账号的个性化推荐。

在另一种实施方式中，在上述步骤S11中，服务器还可以自动获取终端账号的历史浏览过的数据，将该历史浏览过的数据作为待检索数据，并自动从数据库中获取模态与该待检索数据的模态不同的候选数据。由于历史浏览过的数据可能是终端账号感兴趣的数据，服务器根据历史浏览过的数据自动获取候选数据的方式，能够实现向终端账号自动推荐感兴趣数据，提高终端账号的体验。

在步骤S13中，基于跨模态检索网络提取上述待检索数据的第一特征和上述候选数据的第二特征。其中，跨模态检索网络为基于样本待检索数据、与样本待检索数据匹配的关联样本数据以及与样本待检索数据非匹配的非关联样本数据，对对抗网络中的与样本待检索数据对应的第一样本生成网络、与关联样本数据对应的第二样本生成网络、与非关联样本数据对应的第三样本生成网络进行对抗训练得到；关联样本数据与样本待检索数据对应不同的模态，关联样本数据与非关联样本数据对应相同的模态。

本公开实施例中，可以预先获取样本待检索数据、与样本待检索数据匹配的关联样本数据以及与样本待检索数据非匹配的非关联样本数据，其中，关联样本数据的模态和非关联样本数据的模态，均与样本待检索数据的模态不同，而关联样本数据的模态和非关联样本数据的模态相同。基于样本待检索数据、关联样本数据以及非关联样本数据对第一样本生成网络、第二样本生成网络、第三样本生成网络进行对抗训练得到该跨模态检索网络，其中，第一样本生成网络为以样本待检索数据为输入的生成网络、第二样本生成网络为以关联样本数据为输入的生成网络、第三样本生成网络为以非关联样本数据为输入的生成网络。

可选地，通过上述训练方式得到的跨模态检索网络包括与上述第一样本生成网络对应的第一生成网络、与上述第二样本生成网络对应的第二生成网络以及与上述第三样本生成网络对应的第三生成网络。该第一生成网络可以用于提取待检索数据的特征，该第二生成网络和第三生成网络可以用于提取候选数据的特征。

图3是根据一示例性实施例示出的一种提取第一特征和第二特征的流程图。如图3所示，在一个可选的实施例中，在上述步骤S13中，上述基于跨模态检索网络提取上述待检索数据的第一特征和上述候选数据的第二特征，包括：

在步骤S131中，将上述待检索数据和上述候选数据输入上述跨模态检索网络。

在步骤S133中，基于上述第一生成网络提取上述第一特征。

在步骤S135中，根据上述第二生成网络和上述第三生成网络提取上述第二特征。

可选地，将待检索数据输入上述跨模态检索网络之后，可以通过第一生成网络提取该待检索数据的第一特征，通过第二生成网络和第三生成网络提取该候选数据的第二特征。

需要说明的是，第二生成网络是与第二样本生成网络对应的，由于第二样本生成网络为以关联样本数据为输入的生成网络，因此，第二生成网络可以用于提取与待检索数据匹配的、且模态与待检索数据模态不同的数据的特征，由于第三样本生成网络为以非关联样本数据为输入的生成网络，因此，第三生成网络可以用于提取与待检索数据非匹配的、且模态与待检索数据模态不同的数据的特征。

若某一候选数据与待检索数据匹配，则通过第二生成网络可以提取出候选数据的第二特征或者可以提取出候选数据的更具有可辨识性的第二特征，而通过第三生成网络提取不出该候选数据的特征或者只能够提取出候选数据的可辨识性较低的第二特征。

同理，若某一候选数据与待检索数据不匹配，则通过第三生成网络可以提取出候选数据的第二特征或者可以提取出候选数据的更具有可辨识性的第二特征，而通过第二生成网络提取不出该候选数据的第二特征或者只能够提取出候选数据的可辨识性较低的第二特征。

假设候选数据包括候选数据1和候选数据2，候选数据1与待检索数据匹配，候选数据2与待检索数据不匹配，则将候选数据1、候选数据2分别输入第二生成网络和第三生成网络，第二生成网络能够提取出候选数据1的可辨识度较高的第二特征，但提取不出候选数据2的第二特征，或者第二生成网络提取出候选数据2的可辨识度较低的第二特征，第三生成网络能够提取出候选数据2的可辨识度较高的第二特征，但提取不出候选数据1的第二特征，或者第二生成网络提取出候选数据1的可辨识度较低的第二特征。

示例性地，上述第一特征或第二特征可以为一维特征向量，也可以称为向量表征。

可见，本公开实施例中的跨模态检索网络是基于第一生成网络、第二生成网络和第三生成网络的三塔结构，对于待检索数据来说，可以提取出更细粒度的第一特征，对于候选数据来说，不论某一候选数据是否与待检索数据匹配，通过第二生成网络和第三生成网络总能够提取出更有效的第二特征，该更有效的特征在同模态间更加具有区分性，不同模态间更加具有可辨识性，从而提高细粒度的跨模态检索性能和精度。

在步骤S15中，根据上述第一特征和上述第二特征的匹配度，从上述候选数据中检索出与上述待检索数据匹配的数据。

本公开实施例中，在得到第一特征和第二特征之后，可以计算第一特征和第二特征之间的匹配度，根据匹配度计算结果从候选数据中检索出与上述待检索数据匹配的数据。

图4是根据一示例性实施例示出的一种根据第一特征和第二特征的匹配度，从候选数据中检索出与待检索数据匹配的数据的流程图。如图4所示，在一个可选的实施例中，在上述步骤S15中，上述根据第一特征和第二特征的匹配度，从候选数据中检索出与待检索数据匹配的数据，可以包括：

在步骤S151中，确定上述第一特征与上述第二特征之间的上述匹配度。

在步骤S153中，将目标第二特征对应的候选数据，作为上述与上述待检索数据匹配的数据；上述目标第二特征表征与上述第一特征的匹配度满足预设条件的第二特征。

可选地，在上述步骤S151中，本公开可以采用多种方式计算第一特征与第二特征之间的匹配度，在此不做具体限定。

在一种实施方式中，可以计算第一特征和第二特征之间的余弦相似度，得到该匹配度。

在另一种实施方式中，还可以计算第一特征和第二特征之间的欧几里德距离，得到该匹配度。

在第三种实施方式中，还可以计算第一特征和第二特征之间的皮尔逊相关系数，通过该皮尔逊相关系数表征该匹配度，皮尔逊相关系数越大，匹配度越高，反之，匹配度越小。

可选地，在上述步骤S153中，本公开可以采用多种方式从上述候选数据中检索出与上述待检索数据匹配的数据，在此不做具体限定。

在一种实施方式中，可以将与第一特征的匹配度最高的第二特征作为该目标第二特征，并将该目标第二特征所对应的候选数据，作为与待检索数据匹配的数据。

在另一种实施方式中，还可以按照与第一特征之间的匹配度，对第二特征进行排序，得到第二特征序列，将第二特征序列中前预设数量个第二特征作为该目标第二特征，并将该目标第二特征所对应的候选数据，作为与待检索数据匹配的数据。

在第三种实施方式中，还可以设置匹配度阈值，将与第一特征之间的匹配度大于该匹配度阈值的第二特征作为该目标第二特征，并将该目标第二特征所对应的候选数据，作为与待检索数据匹配的数据。

其中，与上述待检索数据匹配的数据指的是，检索出的数据能够与待检索数据匹配上，例如，待检索数据为“羽毛球拍使用技巧”，若检索出的结果为“xxx牌羽毛球拍的使用技巧”的视频，则认为二者匹配，若检索出的结果为“xxx牌羽毛球拍，但不是使用技巧，是购买指南”的视频，则认为二者不匹配。

本公开实施例，第一特征通过三塔结构中的第一生成网络提取得到，第二特征通过三塔结构中的第二生成网络和第三生成网络提取得到，若候选数据为与待检索数据匹配的数据，则通过第二生成网络能够提取出与第一特征更加相关的第二特征，使得该第二特征与第一特征之间的匹配度更高，若该候选数据为与该待检索数据不匹配的数据，则通过该第三生成网络能够提取出与该第一特征差更加不相关的第二特征，使得该第二特征与第一特征之间的匹配度更低。在计算匹配度的时候，由于候选数据要么与待检索数据之间的匹配度更高，要么与待检索数据之间的匹配度更低，从而能够精准确定出与上述待检索数据匹配的数据，进而提高细粒度的跨模态检索的性能和精度。

以针对文本检索视频的场景为例，对本公开实施例所取得的有益效果进行说明：

假设待检索数据为“xxx牌羽毛球拍使用技巧”。

候选数据为：

视频1：介绍的是羽毛球拍、使用技巧，但不是xxx牌。

视频2：介绍的是xxx牌羽毛球拍，但是不是使用技巧，是购买指南。

视频3：介绍的是xxx牌羽毛球拍的使用技巧。

由于本公开的跨模态检索网络可以输出质量更好的特征向量，使得同模态间更加具有区分性，不同模态间更加具有可辨识性，使用本公开实施例中的跨模态检索方法检索出的结果为上述视频3，检索结果与待检索数据的相关性较高，检索效果较好。

由于相关技术得到的表征缺少细粒度信息，无法很好地对上述三个视频的相关性进行区分，导致检索出来的视频是视频1或视频2，检索结果与待检索数据的相关性较低，检索效果较差。

图5是根据一示例性实施例示出的一种跨模态检索网络的训练方法的流程图。如图5所示，可以包括：

在步骤S21中，获取样本待检索数据、与样本待检索数据匹配的关联样本数据以及与样本待检索数据非匹配的非关联样本数据。

可选地，与上述样本待检索数据匹配的关联样本数据，指的是模态与样本待检索数据的模态不同，且能够与样本待检索数据匹配的数据。与上述样本待检索数据非匹配的非关联样本数据，指的是模态与样本待检索数据的模态不同，且不能够与样本待检索数据匹配的数据。例如，样本待检索数据为“小猪佩奇”文本，关联样本数据可以为“小猪佩奇第一季”视频、“小猪佩奇第二季”视频、“小猪佩奇第三季”视频等，非关联样本数据可以为“白雪公主”视频、“奥特曼”视频等。

示例性地，可以分别准备好样本待检索数据与关联样本数据组成的数据组(即相关pair对)、样本待检索数据与非关联样本数据组成的数据组(即不相关pair对)，将相关pair对和不相关pair对称为数据集A。

以样本待检索数据为文本，关联样本数据和非关联样本数据为视频为例，对上述数据集A进行说明：

假设样本待检索数据包括“小猪佩奇”文本和“奥特曼”文本，则相关pair对可以为：

“小猪佩奇”文本—“小猪佩奇第一季”视频、“小猪佩奇”文本—“小猪佩奇第二季”视频、“小猪佩奇”文本—“小猪佩奇第三季”视频、“奥特曼”文本—“欧布奥特曼”视频、“奥特曼”文本—“贝利亚奥特曼”视频等。

不相关pair对：

“小猪佩奇”文本—“奥特曼”视频、“小猪佩奇”文本—“白雪公主”视频、“奥特曼”文本—“小猪佩奇”视频、“奥特曼”文本—“光头强”视频等。

将上述相关pair对和不相关pair对称为数据集A。可见，数据集A中可以包括多个不同的文本，以及与每个文本匹配的关联视频、与每个文本不匹配的非关联视频。

在步骤S23中，将样本待检索数据、关联样本数据、非关联样本数据输入对抗网络中的第一样本生成网络、第二样本生成网络、第三样本生成网络，得到样本待检索数据的样本特征、关联样本数据的关联样本特征、非关联样本数据的非关联样本特征。

可选地，该对抗网络包括与样本待检索数据对应的第一样本生成网络、与关联样本数据对应的第二样本生成网络、与第三样本生成网络对应的非关联样本数据。可以将三个样本数据，输入该对抗网络中，通过相应的生成网络对对应的样本数据进行特征向量提取，得到三个样本数据各自对应的样本特征。

以样本待检索数据为文本，关联样本数据和非关联样本数据为视频为例，则第一样本生成网络可以是来自双向变形表征编码器(Bidirectional EnocederRepresentations from Transformers，BERT)模型或者其他可以提取文本特征和反向传播训练的模型。第二样本生成网络与第三样本生成网络可以是视频识别网络(C3D)、三维卷积神经网络(3D ConvolutionalNeuralNetworks，3D CNN)等提取视频表征和反向传播的模型。

可选地，该对抗网络可以为生成式对抗网络(Generative AdversarialNetworks,GAN)，其中，GAN是一种深度学习模型。该模型中至少包括两个模块：一个模块是生成网络(generative model，本公开实施例中也称生成网络)，另一个模块是判别网络(discriminative model，本公开实施例中也称为判别网络)，通过这两个模块互相博弈学习，从而产生更好的输出。生成模型和判别模型都可以是神经网络，具体可以是深度神经网络，或者卷积神经网络。GAN的基本原理如下：以生成图片的GAN为例，假设有两个网络，G(generator)和D(discriminator)，其中G是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)；D是一个判别网络，用于判别一张图片是不是“真实的”。它的输入参数是一张图片，输出为该图片为真实图片的概率，如果为1，就代表100％是真实的图片，如果为0，就代表不可能是真实的图片。在对该生成式对抗网络进行训练的过程中，生成网络G的目标就是尽可能生成真实的图片去欺骗判别网络D，而判别网络D的目标就是尽量把G生成的图片和真实的图片区分开来。这样，G和D就构成了一个动态的“博弈”过程，也即“生成式对抗网络”中的“对抗”。最后博弈的结果，在理想的状态下，G可以生成足以“以假乱真”的图片G(z)，而D难以判定G生成的图片究竟是不是真实的，即D(G(z))＝0.5。这样就得到了一个优异的生成模型G，它可以用来生成图片。

示例性地，判别网络以是多层感知器神经网络(Multilayer Perceptron，MLP)等可以反向传播的模型。

其中，反向传播可以在训练过程中修正初始样本生成网络中参数的大小，使得初始样本生成网络的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始样本生成器中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的目标样本生成网络的参数，例如权重矩阵。

图6是根据一示例性实施例示出的一种得到样本待检索数据的样本特征、关联样本数据的关联样本特征、非关联样本数据的非关联样本特征的流程图。如图6所示，在一个可选的实施例中，在上述步骤S23中，上述将样本待检索数据、关联样本数据、非关联样本数据输入对抗网络中的第一样本生成网络、第二样本生成网络、第三样本生成网络，得到样本待检索数据的样本特征、关联样本数据的关联样本特征、非关联样本数据的非关联样本特征，可以包括：

在步骤S231中，将样本待检索数据输入第一样本生成网络，基于第一样本生成网络提取样本特征。

在步骤S233中，将关联样本数据输入第二样本生成网络，根据第二样本生成网络提取关联样本特征。

在步骤S235中，将非关联样本数据输入第三样本生成网络，基于第三样本生成网络提取非关联样本特征。

图7是根据一示例性实施例示出的一种跨模态检索网络的训练方法的流程图。如图7所示，可以将样本待检索数据输入与其对应的第一样本生成网络，基于上述第一样本生成网络提取样本待检索数据的样本特征。将关联样本数据输入与其对应的第二样本生成网络，根据上述第二样本生成网络提取关联样本数据的关联样本特征。将非关联样本数据输入与其对应的第三样本生成网络，基于第三样本生成网络提取非关联样本数据的非关联样本特征。

示例性地，上述样本特征、关联样本特征、非关联样本特征可以为一维特征向量，也可以称为向量表征。

本公开实施例提供一种包括第一样本生成网络、第二样本生成网络和第三样本生成网络的三塔结构，对于样本待检索数据来说，可以提取出更细粒度的样本特征，对于关联样本数据来说，可以通过关联的第二样本生成网络提取出更细粒度的关联样本特征，对于非关联样本数据来说，可以通过非关联的第三样本生成网络提取出更细粒度的非关联样本特征。针对样本特征、关联样本特征、非关联样本特征，总是能够提取出更具有可辨识性的样本特征，可以降低困难负样本的训练难度，从而使得不同模态间更加具有可辨识性，相同模态间更具有区分性，提高跨模态检索的训练精度。

在步骤S25中，基于样本特征、关联样本特征和非关联样本特征对上述对抗网络进行对抗训练，得到跨模态检索网络。

本公开实施例中，在得到样本特征、上述关联样本特征和上述非关联样本特征之后，可以基于该三个样本特征对对抗网络进行对抗训练，直至对抗网络收敛，得到该跨模态检索网络。

可选地，本公开实施例可以采用多种方式训练对抗网络，在此不做具体限定。

图8是根据一示例性实施例示出的一种得到跨模态检索网络的流程图。如图8所示，在一个可选的实施方式中，在上述步骤S25中，上述基于样本特征、关联样本特征和非关联样本特征对对抗网络进行对抗训练，得到跨模态检索网络，可以包括：

在步骤S251中，基于样本特征、关联样本特征和非关联样本特征，得到第一损失信息。

可选地，该第一损失信息可以为对比损失函数。对比损失是一种降维学习方法，其可以学习一种映射关系，这种映射关系可以使得在高维空间中，相同类别但距离较远的点，通过函数映射到低维空间后，距离变近，不同类别但距离都较近的点，通过映射后在低维空间变得更远。这样的结果就是，在低维空间，同一种类的点会产生聚类的效果，不同种类的点会被隔开。

在一种可行的实施方式中，在上述步骤S251中，可以通过以下公式计算得到第一损失信息L₁：

其中，L₁指的是第一损失信息，q指的是样本特征、v⁺指的是关联样本特征、v^-指的是非关联样本特征，τ指的是超参数。

在另一种可行的实施方式中，还可以为q、v⁺、v^-设置对应的权重a、b、c，并将对应的权重代入上述公式中，即使用q·a(即q与a的乘积)代替q，使用v⁺·b(即v⁺与b的乘积)代替v⁺，使用v^-·c(即v^-与c的乘积)代替v^-。

在第三种可行的实施方式中，还可以将对其他表示向量之间的相似度的函数进行设计，得到第一损失信息。例如，对余弦相似度进行设计得到该第一损失信息。

在步骤S253中，将样本特征、关联样本特征和非关联样本特征输入对抗网络中的判别网络，得到第二损失信息。

可选地，本公开实施例可以采用多种方式得到第二损失信息，在此不做具体限定。

图9是根据一示例性实施例示出的一种将样本特征、关联样本特征和非关联样本特征输入对抗网络中的判别网络，得到第二损失信息的流程图。如图9所示，在一个可选的实施方式中，在上述步骤S253中，上述将样本特征、关联样本特征和非关联样本特征输入对抗网络中的判别网络，得到第二损失信息，可以包括：

在步骤S2531中，将样本特征、关联样本特征和非关联样本特征输入判别网络。

在一种方式中，继续如图7所示，可以将样本特征与关联样本特征两两组合、样本特征与非关联样本特征两两组合的方式输入判别网络。

在另一种方式中，还可以直接将样本特征、关联样本特征和非关联样本特征直接输入判别网络，

在步骤S2533中，基于上述判别网络判别上述样本特征与上述关联样本特征之间的匹配度，得到第一判别结果，判别上述样本特征与上述非关联样本特征之间的匹配度，得到第二判别结果。

在步骤S2535中，根据上述第一判别结果和上述第二判别结果，得到上述第二损失信息。

在一个示例性的实施方式中，在上述步骤S2535中，上述根据第一判别结果和第二判别结果，得到第二损失信息，可以包括：

计算上述第一判别结果对应的第一对数和上述第二判别结果对应的第二对数。

根据上述第一对数和上述第二对数，得到上述第二损失信息。

在一种方式中，在上述步骤S2531-上述步骤S2535，可以采用以下公式计算得到第二损失信息L₂：

L₂＝L(q，v⁺，v^-)＝-logD(q，v⁺)-log(1-D(q，v^-))；

其中，L₂指的是第二损失信息，q指的是样本特征、v⁺指的是关联样本特征、v^-指的是非关联样本特征，D(q,v⁺)指的是第一判别结果，D(q,v^-)指的是第二判别结果、logD(q,v⁺)指的是第一对数，log(1-D(q,v⁺))指的是第二对数。

在另一种方式中，还可以为D(q,v⁺)和D(q,v^-)分别设置权重c，d，使用D(q,v⁺)·c(即D(q,v⁺)与c的乘积)替换上述公式中的D(q,v⁺)，使用D(q,v^-)·d(即D(q,v^-)与d的乘积)替换上述公式中的D(q,v^-)。

本公开实施例，通过样本特征与上述关联样本特征之间的第一判别结果以及样本特征与上述非关联样本特征之间的第二判别结果计算第二损失信息，能够充分考虑样本特征与上述关联样本特征之间的匹配度，以及样本特征与上述非关联样本特征之间的匹配度，使得不同模态间的数据更加具有可辨识性，提高第二损失信息的确定精度，从而提高跨模态检索的训练精度。此外，由于取对数不仅不会改变数据的性质和相关关系，而且还会压缩变量的尺度，缩小数据的绝对值，便于计算，因此，通过第一判别结果对应的第一对数和上述第二判别结果对应的第二对数，计算得到第二损失函数，不仅能够确保第二损失函数的精度，还能够提高第二损失函数的计算效率。

在步骤S255中，基于上述第一损失信息和上述第二损失信息训练上述对抗网络，得到第一生成网络、第二生成网络和第三生成网络；上述第一生成网络用于对待检索数据进行特征提取，上述第二生成网络和上述第三生成网络用于对候选数据进行特征提取。

在步骤S257中，根据上述第一生成网络、上述第二生成网络和上述第三生成网络，生成跨模态检索网络。

在一种实施方式中，在上述步骤S255-步骤S257中，可以将第一损失信息和第二损失信息的和作为总损失信息，并根据该总损失信息训练对抗网络，并利用梯度下降算法对模型进行优化，直至对抗网络收敛，得到第一生成网络、上述第二生成网络和上述第三生成网络，将第一生成网络、上述第二生成网络和上述第三生成网络作为该跨模态检索网络。

在另一种实施方式中，在上述步骤S255-步骤S257中，还可以对第一损失信息和第二损失信息进行加权处理，得到总损失信息，加权公式可以如下：L＝A*L₁+B*L₂；其中，L为总损失信息，A为L₁的权重，B为L₂的权重。根据该总损失信息训练对抗网络，并利用梯度下降算法对模型进行优化，直至对抗网络收敛，得到第一生成网络、上述第二生成网络和上述第三生成网络，将第一生成网络、上述第二生成网络和上述第三生成网络作为该跨模态检索网络。

本公开实施例中，通过由样本特征、关联样本特征和非关联样本特征，得到的第一损失信息，以及由将样本特征、关联样本特征和非关联样本特征输入对抗网络中的判别网络得到的第二损失信息，对对抗网络进行对抗训练，由于第一损失信息可以为对比损失函数，而对比损失是一种降维学习方法，其可以使得在高维空间中，相同类别但距离较远的点，通过函数映射到低维空间后，距离变近，不同类别但距离都较近的点，通过映射后再低维空间变得更远，第二损失信息能够充分考虑样本特征与关联样本特征之间的匹配度，以及样本特征与非关联样本特征之间的匹配度，使得不同模态间更加具有可辨识性，相同模态间更具有区分性，因此，通过上述第一损失信息和第二损失信息训练对抗网络，能够提高跨模态检索网络的训练精度，使得训练得到的跨模态检索网络能够输出更有效的向量表征。

图10是根据一示例性实施例示出的一种确定目标样本待检索数据、目标关联样本数据以及目标非关联样本数据的流程图。如图10所示，在一个可选的实施例中，上述样本待检索数据的数量为多个，上述方法还可以包括：

在步骤S31中，从多个样本待检索数据中确定出目标样本待检索数据。

在步骤S33中，从上述关联样本数据中，确定出与上述目标样本待检索数据匹配的目标关联样本数据，并从上述非关联样本数据中，确定出与上述目标样本待检索数据非匹配的目标非关联样本数据。

相应地，在上述步骤S253中，上述将上述样本特征、上述关联样本特征和上述非关联样本特征输入上述对抗网络中的判别网络，得到第二损失信息，可以包括：

将上述目标样本待检索数据的样本特征、上述目标关联样本数据的关联样本特征和上述目标非关联样本数据的非关联样本特征输入上述判别网络，得到上述第二损失信息。

可选地，上述数据集A中可以包括多个不同的样本待检索数据，每个样本待检索数据又可以对应多个关联样本数据和多个非关联样本数据。在步骤S31-步骤S33中，可以从该多个不同的样本待检索数据中确定出一个目标样本待检索数据，并从多个关联样本数据中确定出该目标样本待检索数据下的目标关联样本数据，以及从多个非关联样本数据中确定出该目标样本待检索数据下的目标非关联样本数据，从而得到数据集B，该数据集B为数据集A的子集，通过该方式构建数据集B，能够提高对数据的复用率，节约成本，降低服务器负担，从而提高跨模态检索网络的训练速度。

需要说明的是，数据集A中的任一样本待检索数据均可以作为该目标样本待检索数据。针对每一个样本待检索数据，均可以生成包括该样本待检索数据、相应的关联样本数据和相应的非关联样本数据的数据集B。

以下，对从上述数据集A中生成数据集B的过程进行介绍：

同一个文本(即目标样本待检索数据)和关联视频(即目标关联样本数据)组成的相关pair对：

“小猪佩奇”文本—“小猪佩奇第一季”视频、“小猪佩奇”文本—“小猪佩奇第二季”视频、“小猪佩奇”文本—“小猪佩奇第三季”视频等。

同一个文本(即目标样本待检索数据)和非关联视频(即目标非关联样本数据)组成的不相关pair对：

“小猪佩奇”文本—“奥特曼”视频、“小猪佩奇”文本—“白雪公主”视频、“小猪佩奇”文本—“光头强”视频等。

将上述相关pair对和不相关pair对称为数据集B。可见，数据集B中包含的是同一文本、与该同一文本匹配的关联视频、与该同一文本不匹配的非关联视频。

相应地，在上述步骤S253中，可以将数据集B中的目标样本待检索数据的样本特征与目标关联样本数据的关联特征两两组合、将目标样本待检索数据的样本特征与非目标关联样本数据的非关联特征两两组合，输入到判别网络，得到第二损失信息。其中，数据集B中的目标样本待检索数据的样本特征、目标关联样本数据的关联特征、非目标关联样本数据的非关联特征的提取过程，与样本待检索数据相似，在此不再赘述。

本公开实施例，从多个样本待检索数据中确定出目标样本待检索数据，并获取该目标样本待检索数据下的目标关联样本数据和目标非关联样本数据，能够提高对数据的复用率，节约成本，降低服务器负担，从而提高跨模态检索网络的训练速度；此外，将同一目标样本待检索数据下的目标关联样本数据和目标非关联样本数据输入判别网络，得到第二损失信息，能够降低判别网络的训练难度，提高第二损失信息的确定精度，从而提高提高跨模态检索网络的训练精度。

当然，在另一种方式中，在步骤S31-步骤S33中，数据集B可以从不同于数据集A的数据库中采集得到，从而可以提高数据的丰富性，进而提高跨模态检索网络的训练精度。

本公开实施例基于样本待检索数据、与样本待检索数据匹配的关联样本数据以及与样本待检索数据非匹配的非关联样本数据，对与样本待检索数据对应的第一样本生成网络、与关联样本数据对应的第二样本生成网络、与非关联样本数据对应的第三样本生成网络进行对抗训练得到跨模态检索网络。即本公开提出了一种基于对抗训练的三塔结构的多模态表征训练框架，该训练框架在训练过程中能够提取局部特征性，使得同模态间的数据更加具有区分性，不同模态间的数据更加具有可辨识性，从而提高跨模态检索网络的训练精度，进而使得训练得到的跨模态检索网络能够精准捕捉输入的待检索数据和候选数据的局部信息，输出更有效的特征，使得同模态间的数据更加具有区分性，不同模态间的数据更加具有可辨识性，从而提高细粒度检索性能。此外，训练过程使用了一个对抗网络，将样本数据输入到该对抗网络中，即可训练得到该跨模态检索网络，即训练过程是一个端到端的训练过程，减少了训练的复杂度，降低了训练过程对***资源的消耗。

图11是根据一示例性实施例示出的一种跨模态检索装置框图。参照图11，该装置包括数据获取模块41、特征提取模块43和数据检索模块45。

数据获取模块41，被配置为执行获取待检索数据和候选数据；上述待检索数据和上述候选数据对应不同的模态；

特征提取模块43，被配置为执行基于跨模态检索网络提取上述待检索数据的第一特征和上述候选数据的第二特征。

数据检索模块45，被配置为执行根据上述第一特征和上述第二特征的匹配度，从上述候选数据中检索出与上述待检索数据匹配的数据。

其中，上述跨模态检索网络为基于样本待检索数据、与上述样本待检索数据匹配的关联样本数据以及与上述样本待检索数据非匹配的非关联样本数据，对对抗网络中的与上述样本待检索数据对应的第一样本生成网络、与上述关联样本数据对应的第二样本生成网络、与上述非关联样本数据对应的第三样本生成网络进行对抗训练得到；上述关联样本数据与上述样本待检索数据对应不同的模态，上述关联样本数据与上述非关联样本数据对应相同的模态。

在一可选的实施例中，上述跨模态检索网络包括与上述第一样本生成网络对应的第一生成网络、与上述第二样本生成网络对应的第二生成网络以及与上述第三样本生成网络对应的第三生成网络，上述特征提取模块，包括：

输入单元，被配置为执行将上述待检索数据和上述候选数据输入上述跨模态检索网络。

第一特征提取单元，被配置为执行基于上述第一生成网络提取上述第一特征。

第二特征提取单元，被配置为执行根据上述第二生成网络和上述第三生成网络提取上述第二特征。

在一可选的实施例中，上述数据检索模块，包括：

匹配度确定单元，被配置为执行确定上述第一特征与上述第二特征之间的上述匹配度。

匹配数据确定单元，被配置为执行将目标第二特征对应的候选数据，作为上述与上述待检索数据匹配的数据；上述目标第二特征表征与上述第一特征的匹配度满足预设条件的第二特征。

图12是根据一示例性实施例示出的一种跨模态检索网络的训练装置框图。参照图12，包括：样本数据获取模块51、样本特征确定模块53、跨模态检索网络确定模块55。

样本数据获取模块51，被配置为执行获取样本待检索数据、与上述样本待检索数据匹配的关联样本数据以及与上述样本待检索数据非匹配的非关联样本数据；上述关联样本数据与上述样本待检索数据对应不同的模态，上述关联样本数据与上述非关联样本数据对应相同的模态。

样本特征确定模块53，被配置为执行将上述样本待检索数据、上述关联样本数据、上述非关联样本数据输入对抗网络中的第一样本生成网络、第二样本生成网络、第三样本生成网络，得到上述样本待检索数据的样本特征、上述关联样本数据的关联样本特征、上述非关联样本数据的非关联样本特征。

跨模态检索网络确定模块55，被配置为执行基于上述样本特征、上述关联样本特征和上述非关联样本特征对上述对抗网络进行对抗训练，得到跨模态检索网络。

在一可选的实施例中，上述样本特征确定模块，包括：

样本特征提取单元，被配置为执行将上述样本待检索数据输入上述第一样本生成网络，基于上述第一样本生成网络提取上述样本特征。

关联样本特征提取单元，被配置为执行将上述关联样本数据输入上述第二样本生成网络，根据上述第二样本生成网络提取上述关联样本特征。

非关联样本特征提取单元，被配置为执行将上述非关联样本数据输入上述第三样本生成网络，基于上述第三样本生成网络提取上述非关联样本特征。

在一可选的实施例中，上述跨模态检索网络确定模块，包括：

第一损失信息确定单元，被配置为执行基于上述样本特征、上述关联样本特征和上述非关联样本特征，得到第一损失信息。

第二损失信息确定单元，被配置为执行将上述样本特征、上述关联样本特征和上述非关联样本特征输入上述对抗网络中的判别网络，得到第二损失信息。

训练单元，被配置为执行基于上述第一损失信息和上述第二损失信息训练上述对抗网络，得到第一生成网络、第二生成网络和第三生成网络；上述第一生成网络用于对待检索数据进行特征提取，上述第二生成网络和上述第三生成网络用于对候选数据进行特征提取。

跨模态检索网络生成单元，被配置为执行根据上述第一生成网络、上述第二生成网络和上述第三生成网络，生成跨模态检索网络。

在一可选的实施例中，上述第二损失信息确定单元，包括：

样本特征输入子单元，被配置为执行将上述样本特征、上述关联样本特征和上述非关联样本特征输入上述判别网络。

判别结果确定子单元，被配置为执行基于上述判别网络判别上述样本特征与上述关联样本特征之间的匹配度，得到第一判别结果，判别上述样本特征与上述非关联样本特征之间的匹配度，得到第二判别结果。

第二损失信息确定子单元，被配置为执行根据上述第一判别结果和上述第二判别结果，得到上述第二损失信息。

在一可选的实施例中，上述第二损失信息确定子单元，包括：

对数确定子模块，被配置为执行计算上述第一判别结果对应的第一对数和上述第二判别结果对应的第二对数。

第二损失信息确定子模块，被配置为执行根据上述第一对数和上述第二对数，得到上述第二损失信息。

在一可选的实施例中，上述样本待检索数据的数量为多个，上述装置还包括：

第一确定模块，被配置为执行从多个样本待检索数据中确定出目标样本待检索数据。

第二确定模块，被配置为执行从上述关联样本数据中，确定出与上述目标样本待检索数据匹配的目标关联样本数据，并从上述非关联样本数据中，确定出与上述目标样本待检索数据非匹配的目标非关联样本数据。

上述第二损失信息确定单元，被配置为执行将上述目标样本待检索数据的样本特征、上述目标关联样本数据的关联样本特征和上述目标非关联样本数据的非关联样本特征输入上述判别网络，得到上述第二损失信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明

在示例性实施例中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述实施例中任一跨模态检索方法或跨模态检索网络的训练方法的步骤。

该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图13是根据一示例性实施例示出的一种用于跨模态检索或跨模态检索网络的训练的电子设备的框图，该电子设备60可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，CPU)61(中央处理器61可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器63，一个或一个以上存储应用程序623或数据622的存储介质62(例如一个或一个以上海量存储设备)。其中，存储器63和存储介质62可以是短暂存储或持久存储。存储在存储介质62的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器61可以设置为与存储介质62通信，在电子设备60上执行存储介质62中的一系列指令操作。电子设备60还可以包括一个或一个以上电源66，一个或一个以上有线或无线网络接口65，一个或一个以上输入输出接口64，和/或，一个或一个以上操作***621，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口64可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备60的通信供应商提供的无线网络。在一个实例中，输入输出接口64包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中，输入输出接口64可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图13所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备60还可包括比图13中所示更多或者更少的组件，或者具有与图13所示不同的配置。

在示例性实施例中，还提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例中任一跨模态检索方法或跨模态检索网络的训练方法的步骤。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一种实施方式中提供的跨模态检索方法或跨模态检索网络的训练方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种跨模态检索方法，其特征在于，包括：

2.根据权利要求1所述的跨模态检索方法，其特征在于，所述跨模态检索网络包括与所述第一样本生成网络对应的第一生成网络、与所述第二样本生成网络对应的第二生成网络以及与所述第三样本生成网络对应的第三生成网络，所述基于跨模态检索网络提取所述待检索数据的第一特征和所述候选数据的第二特征，包括：

基于所述第一生成网络提取所述第一特征；

3.根据权利要求1或2所述的跨模态检索方法，其特征在于，所述根据所述第一特征和所述第二特征的匹配度，从所述候选数据中检索出与所述待检索数据匹配的数据，包括：

确定所述第一特征与所述第二特征之间的所述匹配度；

4.一种跨模态检索网络的训练方法，其特征在于，包括：

5.根据权利要求4所述的跨模态检索网络的训练方法，其特征在于，所述将所述样本待检索数据、所述关联样本数据、所述非关联样本数据输入对抗网络中的第一样本生成网络、第二样本生成网络、第三样本生成网络，得到所述样本待检索数据的样本特征、所述关联样本数据的关联样本特征、所述非关联样本数据的非关联样本特征，包括：

6.一种跨模态检索装置，其特征在于，包括：

7.一种跨模态检索网络的训练装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如权利要求1至3中任一项所述的跨模态检索方法或4至5中任一项所述的跨模态检索网络的训练方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备执行如权利要求1至3中任一项所述的跨模态检索方法或4至5中任一项所述的跨模态检索网络的训练方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的跨模态检索方法或4至5中任一项所述的跨模态检索网络的训练方法。