CN115878874A

CN115878874A - 多模态检索方法、设备和存储介质

Info

Publication number: CN115878874A
Application number: CN202211363120.9A
Authority: CN
Inventors: 魏延恒; 郑赟; 赵德丽
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-03-31

Abstract

本申请提供一种多模态检索方法、设备和存储介质，该方法包括：获取对应于同一检索意图的不同模态的多个查询数据，通过多种特征提取模型分别提取每一查询数据对应的多个特征向量，特征提取模型用于对不同模态的数据进行特征提取。获取检索数据库中每一检索数据对应的多个特征向量，每个检索数据对应的多个特征向量分别通过多种特征提取模型提取。根据多个查询数据各自对应的多个特征向量与多个检索数据各自对应的多个特征向量，在检索数据库中检索出与多个查询数据对应的目标检索数据集。通过多表征、多查询的方式提高了数据检索结果的准确性。

Description

多模态检索方法、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多模态检索方法、设备和存储介质。

背景技术

随着移动互联网络等技术的发展，通过线上的方式为用户提供服务的商家越来越多，比如线上的商家、短视频网站或短视频发布者，等等。

用户在使用这些应用时，往往会具有数据搜索需求。现在，用户往往不仅仅局限于单模态的以文搜图的需求，更多的场景下会具有以图搜图、以图搜视频等多模态的检索需求。如何满足用户的这种检索需求，并提供能够获得更加准确的检索结果的检索方案，是亟待解决的问题。

发明内容

本发明实施例提供一种多模态检索方法、装置、设备和存储介质，用以实现准确的数据检索。

第一方面，本发明实施例提供一种多模态检索方法，所述方法包括：

获取对应于不同模态的多个查询数据，所述多个查询数据对应于同一检索意图；

通过多种特征提取模型分别提取每一查询数据对应的多个特征向量，所述特征提取模型用于对不同模态的数据进行特征提取，所述多种特征提取模型为不同的神经网络模型；

获取检索数据库中每一检索数据对应的多个特征向量，每一所述检索数据对应的多个特征向量分别通过所述多种特征提取模型提取；

根据所述多个查询数据各自对应的多个特征向量与所述检索数据库中多个检索数据各自对应的多个特征向量，在所述检索数据库中检索出与所述多个查询数据对应的目标检索数据集。

第二方面，本发明实施例提供一种多模态检索装置，所述装置包括：

查询获取模块，用于获取对应于不同模态的多个查询数据，所述多个查询数据对应于同一检索意图；

特征提取模块，用于通过多种特征提取模型分别提取每一查询数据对应的多个特征向量；以及，获取检索数据库中每一检索数据对应的多个特征向量，每一检索数据对应的多个特征向量分别通过所述多种特征提取模型提取，其中，所述特征提取模型用于对不同模态的数据进行特征提取，所述多种特征提取模型为不同的神经网络模型；

数据检索模块，用于根据所述多个查询数据各自对应的多个特征向量与所述检索数据库中多个检索数据各自对应的多个特征向量，在所述检索数据库中检索出与所述多个查询数据对应的目标检索数据集。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如第一方面所述的多模态检索方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如第一方面所述的多模态检索方法。

第五方面，本发明实施例提供一种多模态检索方法，所述方法包括：

接收终端设备通过调用设定服务触发的请求，所述请求中包括对应于不同模态的多个查询数据，所述多个查询数据对应于同一检索意图；

利用所述设定服务对应的处理资源执行如下步骤：

获取检索数据库中每一检索数据对应的多个特征向量，每一检索数据对应的多个特征向量分别通过所述多种特征提取模型提取；

根据所述多个查询数据各自对应的多个特征向量与所述检索数据库中多个检索数据各自对应的多个特征向量，在所述检索数据库中检索出与所述多个查询数据对应的目标检索数据集；

将所述目标检索数据集发送至所述终端设备进行显示。

第六方面，本发明实施例提供一种多模态检索方法，应用于虚拟现实设备，所述方法包括：

显示检索输入界面，所述检索输入界面用于输入不同模态的查询数据；

获取通过所述检索输入界面输入的对应于不同模态的多个查询数据，所述多个查询数据对应于同一检索意图；

显示包含所述目标检索数据集的检索推荐界面。

在本发明实施例提供的检索方案中，针对同一检索意图，用户可以输入多种模态的多个查询数据，比如文本、图像、视频等不同模态的查询数据。另外，采用了多种不同类型的特征提取模型来对查询数据以及检索数据库中的检索数据进行特征提取，以从不同维度提取同一数据(比如一个查询数据、一个检索数据)丰富的语义表征。最终，根据多个查询数据各自对应的多个特征向量与多个检索数据各自对应的多个特征向量，在检索数据库中检索出与上述多个查询数据对应的目标检索数据集。通过本方案可以获得更加准确的检索结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多模态检索方法的流程图；

图2为本发明实施例提供的一种多模态检索方法的应用示意图；

图3为本发明实施例提供的一种目标检索数据集的确定方法的流程图；

图4为本发明实施例提供的一种多模态检索方法的流程图；

图5为本发明实施例提供的一种多模态检索方法的流程图；

图6为本发明实施例提供的一种多模态检索方法的流程图；

图7为本发明实施例提供的一种多模态检索方法的应用示意图；

图8为本发明实施例提供的一种多模态检索装置的结构示意图；

图9为本实施例提供的一种电子设备的结构示意。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

在当前多模态检索场景，对于较为复杂的检索需求，用户很难用简单的单一查询(query)用来描述检索意图。此外，对于检索的结果，一次性的召回经常不满足用户的需求，用户的个性化反馈无法得到实时的响应。以上的种种需求，当前尚无合适的检索***满足以上需求。针对上述问题，本发明实施例提供了一种多表征、多query的交互式多模态检索方案，核心点如下：1、可以使用多个不同类型的输入query共同表述同一个检索意图；2、引入多种特征提取模型，从不同维度对query和检索数据进行特征提取，实现更加丰富的语义表征；3、对用户的交互式的反馈进行实时捕捉并给出相应进行优化后的检索结果。

本发明实施例提供的检索方案，可以由一电子设备执行，该电子设备可以是用户终端，也可以是用户侧的服务器，还可以是云端的服务器、虚拟机。

图1为本发明实施例提供的一种多模态检索方法的流程图，如图1所示，该方法包括如下步骤：

101、获取对应于不同模态的多个查询数据，多个查询数据对应于同一检索意图。

102、通过多种特征提取模型分别提取每一查询数据对应的多个特征向量，特征提取模型用于对不同模态的数据进行特征提取。

103、获取检索数据库中每一检索数据对应的多个特征向量，每一检索数据对应的多个特征向量分别通过多种特征提取模型提取。

104、根据多个查询数据各自对应的多个特征向量与检索数据库中多个检索数据各自对应的多个特征向量，在检索数据库中检索出与多个查询数据对应的目标检索数据集。

本发明实施例提供的检索方案，可以适用于面向商户、企业的一些应用场景中，比如线上的商家、短视频的发布者、视频网站，等等。

为使用该检索方案，首先需要进行离线的检索引擎的构建。其中，离线检索引擎的构建的主要目的是将用户(比如上述商家、视频发布者)的图像、文本、视频等检索数据构建成检索引擎，方便后续的在线检索。

概括来说，该离线检索引擎的构建包括：从预设的特征提取模型数据库中确定多种特征提取模型，针对检索数据库中包含的任一条检索数据i，通过这多种特征提取模型对该任一检索数据i进行特征提取，以得到该任一检索数据i对应的多个特征向量，其中，多个特征向量与上述多种特征提取模型一一对应。从而，基于检索数据库中多个检索数据各自对应的多个特征向量，可以构建检索引擎。

如上文所述，检索数据库中可以存储有不同模态的检索数据，比如图像、文本、视频等类型(即模态)的检索数据。本发明实施例中，适应于多模态检索的需求，上述多种特征提取模型是可以用于针对不同模态的数据进行特征提取的神经网络模型。比如，在电商应用场景中，上述不同模态的检索数据包括商品的文本介绍信息，商品图片，介绍商品的视频。

当然，检索数据库中也可以包括某一种模态的检索数据，比如图像或者视频。

在特征提取模型数据库中，可以设置有一种或多种适用于某模态的数据的特征提取的模型，根据当前用户的检索数据库中涉及的数据类型，可以从中选定合适的多种特征提取模型。比如，检索数据库中有文本和图像两种模态的数据，则多种特征提取模型中可以包括与文本数据对应的至少一种特征提取模型，包括与图像数据对应的至少一种特征提取模型，还可以包括同时适用于文本和图像数据的至少一种特征提取模型。而如果检索数据库中还包括视频数据，则多种特征提取模型中还可以包括与视频数据对应的至少一种特征提取模型，或者包括图像数据和视频数据均可以使用的至少一种特征提取模型。

实际应用中，从结构角度来说，上述多种特征提取模型比如可以包括采用卷积神经网络模型、循环神经网络模型、transformer模型、3D卷积神经网络模型等多种模型结构。从功能特点角度来说，上述多种特征提取模型可以包括多模态特征提取模型、动作识别模型、自监督特征提取模型、跨模态交互特征提取模型等不同的特征提取模型。实际应用中，可以根据需求，从现有的众多神经网络模型中选定适合的多种特征提取模型。

每个特征提取模型都是从不同维度进行训练而来，目的就是对同一个数据提取多种特征向量，以更丰富的信息来表征这一数据，从而实现更加准确和丰富的检索效果。

需要说明的是，本发明实施例中的多种特征提取模型，并不严格限定要同时适用于每一个检索数据，比如，多种特征提取模型中包括特征提取模型A，可以适用于文本和图像数据，如果某个检索数据是视频数据，则可以不使用该特征提取模型A对其进行特征提取，而是使用其他适于视频数据的特征提取模型来对其进行特征提取。基于此，可以在确定多种特征提取模型的时候按照如下可选规则进行选择：针对某种模态的数据，设置至少两种特征提取模型可用于对其进行特征提取，以及，选定至少一种特征提取模型可以同时适用于不同模态的数据。

本发明实施例中，为便于描述，假设一个数据可以分别通过上述多种(比如8种)特征提取模型进行特征提取，那么此时，一个检索数据可以提取出8个特征向量。

假设检索数据库中目前包含有1万条检索数据，每个检索数据通过8种特征提取模型提取出8个特征向量，则会得到8万个特征向量。

在一可选实施例中，上述检索引擎可以简单地实现为由这8万个特征向量构成的向量库。

在另一可选实施例中，为进一步提高数据存储、检索效率，可以使用诸如分层的可导航小世界(Hierarchical Navigable Small World graphs，简称HNSW)算法来进行向量索引的构建。具体地，是采用HNSW算法针对每种特征提取模型建立一个与之对应的向量索引库。为此，首先，针对任一特征提取模型j，获取通过该任一特征提取模型j对检索数据库中各个检索数据提取出的特征向量，由这些特征向量构成该任一特征提取模型j对应的特征向量集。之后，对该任一特征提取模型j对应的特征向量集施加HNSW算法，以构建出与该任一特征提取模型j对应的向量索引库。HNSW算法的实施过程参考现有相关技术实现，在此不赘述。可以理解的是，上述检索索引的建立方式仅为一种可选实现方式，实际上，也可以采用其他算法来构建。

以上是离线建立检索引擎的过程，该过程的重点是基于多种特征提取模型对各个检索数据分别进行多个特征向量的提取与存储。

之后，便可以执行在线检索过程。该在线检索过程主要实现针对用户输入的查询数据在检索数据库中召回对应的检索结果。

对于较为复杂的检索需求，用户很难用简单的单一查询数据用来描述检索意图，因此，本发明实施例提供的检索方案中，支持用户使用多个查询数据来描述其一个检索意图。这多个查询数据可以是不同模态的，比如包括文本、图像、视频等不同类型的查询数据。举例来说，假设用户想要查询一件某种款式的红色的连衣裙，则该用户可以输入一个参考图像和文本描述信息这两个查询数据，其中，参考图像中包括某种款式的一条蓝色的连衣裙，文本描述信息为“搜一个这种款式的红色的裙子”。这样，结合这两个查询数据来表述该用户想要搜索一条红色的这种款式的连衣裙的检索意图。

对于同一个检索意图允许用户输入多个查询数据进行描述，以期用户可以用更丰富的查询数据来更精确的描述检索意图。

与检索数据类似地，针对每个查询数据，通过多种特征提取模型分别提取该查询数据对应的多个特征向量，从而得到多个查询数据各自对应的多个特征向量。

之后，根据多个查询数据各自对应的多个特征向量与检索数据库中多个检索数据各自对应的多个特征向量，在检索数据库中检索出与该多个查询数据对应的目标检索数据集。

在一可选实施例中，目标检索数据集的确定过程可以实现为：

确定多种特征提取模型各自对应的特征向量集，其中，任一特征提取模型对应的特征向量集中包括通过所述任一特征提取模型分别对多个检索数据提取的特征向量；

根据任一查询数据的目标特征向量与目标特征提取模型对应的特征向量集中特征向量之间的相似度，确定与所述任一查询数据的目标特征向量相对应的检索数据集，其中，该目标特征向量是所述任一查询数据对应的多个特征向量中任一种，该目标特征向量是通过目标特征提取模型提取的；

根据多个查询数据的多个特征向量对应的多个检索数据集，确定目标检索数据集，其中，一个检索数据集与一个查询数据的一个特征向量一一对应。

为便于理解，结合图2举例来说，假设有8种特征提取模型，检索数据库中包含有1万条检索数据，每个检索数据通过8种特征提取模型提取出8个特征向量，则针对每种特征提取模型，可以得到由对应的1万个特征向量构成的特征向量集。而针对每个查询数据，通过上述8种特征提取模型会提取出8个特征向量，每个特征向量会产生一路召回结果：这个特征向量对应的检索数据集。假设用户输入了4个查询数据，每个查询数据提取出8个特征向量，最终会产生32个特征向量，从而最终会召回32个检索结果：32个检索数据集。最终，目标检索数据集中可以包括这32个检索数据集中包含的检索数据。

其中，以任一查询数据的目标特征向量fi为例，假设该目标特征向量fi是通过目标特征提取模型Mi提取出的，那么可选地，可以将目标特征向量fi分别与目标特征提取模型Mi对应的特征向量集中的1万个特征向量进行相似度计算，得到对应的1万个相似度分数，之后，设定topN阈值，比如N＝10，则可以从这1万个相似度分数中确定出分数靠前的N(10个)相似度分数，将这N个相似度分数对应的检索数据构成与该目标特征向量fi对应的检索数据集。在该N＝10以及多个查询数据对应有32个特征向量的举例中，可以得到32个检索数据集，每个检索数据集中包括10个检索数据。在不考虑重复性的情况下，目标检索数据集中将包括32*10＝320个检索数据。在得到该目标检索数据集后，可以在检索推荐界面中呈现该目标检索数据集中的检索数据。

在另一可选实施例中，如图3中所示，目标检索数据集的确定过程可以包括如下步骤：

301、确定多种特征提取模型各自对应的特征向量集，其中，任一特征提取模型对应的特征向量集中包括通过所述任一特征提取模型分别对多个检索数据提取的特征向量。

302、对目标特征提取模型对应的特征向量集进行聚类处理，以确定目标特征提取模型对应的多个簇的中心特征向量。

303、根据任一查询数据的目标特征向量分别与所述多个簇的中心特征向量之间的相似度分数，确定与所述目标特征向量对应的目标簇；其中，该目标特征向量是所述任一查询数据对应的多个特征向量中任一种，该目标特征向量是通过所述目标特征提取模型提取的。

304、根据所述目标特征向量分别与目标簇中各特征向量之间的相似度分数，确定与所述任一查询数据的目标特征向量相对应的检索数据集。

305、根据多个查询数据的多个特征向量对应的多个检索数据集，确定目标检索数据集，其中，一个检索数据集与一个查询数据的一个特征向量一一对应。

本实施例中，针对一个特征提取模型对应的特征向量集中的各特征向量，可以采用设定的聚类算法(比如k均值算法等)进行聚类处理，以得到多个簇，其中，每个簇对应有一个中心特征向量。可选地，该中心特征向量可以是通过对一个簇中包含的多个特征向量进行求均值计算得到的。

然后，某查询数据的目标特征向量fi是通过目标特征提取模型Mi提取出的，首先，计算目标特征向量fi与目标特征提取模型Mi对应的各个簇的中心特征向量之间的相似度分数，从中确定相似度分数最大值所对应的目标簇。之后，计算目标特征向量fi与目标簇中包含的各特征向量之间的相似度分数，从中确定topN个检索数据或者相似度分数大于设定阈值的检索数据构成目标特征向量fi对应的检索数据集。

通过这种检索方式，可以降低相似度计算的计算量。

在上述实施例提供的方案中，通过多表征、多查询的方式，结合查询数据的多种丰富的语义信息以及检索数据的多种丰富的语义信息，有助于实现更加准确和丰富的数据检索结果。

图4为本发明实施例提供的一种多模态检索方法的流程图，如图4所示，该方法包括如下步骤：

401、获取检索数据库中多个检索数据，所述多个检索数据中包括视频数据。

402、对视频数据进行场景类别识别，以确定视频数据中包含的至少一种场景类别，对视频数据进行切分以得到分别对应于所述至少一种场景类别的视频片段。

403、通过多种特征提取模型提取多个检索数据各自对应的多个特征向量，多个检索数据中包括切分出的各视频片段。

404、获取对应于同一检索意图的不同模态的多个查询数据，对多个查询数据进行相近语义扩展处理，通过多种特征提取模型分别提取扩展后的多个查询数据各自对应的多个特征向量。

405、根据扩展后的多个查询数据各自对应的多个特征向量与多个检索数据各自对应的多个特征向量，在检索数据库中检索出与多个查询数据对应的目标检索数据集。

本实施例中，当检索数据库中包括视频数据时，由于一段视频数据中可能涉及到不同的场景，为提高检索的精确性，可以对原始的一段完整的视频数据进行场景分类识别处理，以确定一段视频数据中包含的场景类别，以及每个场景类别对应的时间戳范围，从而对该视频数据按照场景类别进行切分，切分成一个个视频片段。之后，针对每个视频片段，通过多种特征提取模型进行特征提取。

当检索数据库中包括文本、图像数据时，可以直接采用相应的多种特征提取模型对其进行特征提取处理。

另外，本实施例中，还可以根据用户原始输入的多个查询数据进行语义扩展，以自动生产出更多的查询数据用来对用户的同一检索意图进行丰富地描述。比如，针对文本类型的查询数据，可以根据同义词替换、相近词替换等方式进行语义扩展。

通过上述场景切分处理、语义扩展处理，可以丰富用户的查询描述，提高检索结果的准确性。

本实施例中未展开介绍的步骤可以参考前述实施例中的相关说明，在此不赘述。

图5为本发明实施例提供的一种多模态检索方法的流程图，如图5所示，该方法包括如下步骤：

501、获取对应于不同模态的多个查询数据，多个查询数据对应于同一检索意图。

502、通过多种特征提取模型分别提取多个查询数据各自对应的多个特征向量，特征提取模型用于对不同模态的数据进行特征提取。

503、获取检索数据库中多个检索数据各自对应的多个特征向量，多个检索数据各自对应的多个特征向量分别通过多种特征提取模型提取。

504、确定多种特征提取模型各自对应的特征向量集，其中，任一特征提取模型对应的特征向量集中包括通过所述任一特征提取模型分别对多个检索数据提取的特征向量。

505、根据任一查询数据的目标特征向量与目标特征提取模型对应的特征向量集中特征向量之间的相似度，确定与所述任一查询数据的目标特征向量相对应的检索数据集，其中，该目标特征向量是所述任一查询数据对应的多个特征向量中任一种，该目标特征向量是通过目标特征提取模型提取的。

506、对于多个查询数据的多个特征向量对应的多个检索数据集中包含的任一检索数据，确定所述任一检索数据的排序因子。

507、根据多个检索数据集中各检索数据的排序因子，确定多个检索数据集中各检索数据的排序分数，根据多个检索数据集中各检索数据的排序分数对所述各检索数据进行排序处理，以得到具有排序处理结果的目标检索数据集。

本实施例中提供了一种对目标检索数据集中包含的检索数据进行排序的方案。

具体地，在得到多个查询数据的多个特征向量对应的多个检索数据集(比如上述举例中的32个特征向量对应的32个检索数据集，每个检索数据集中包括10个检索数据)之后，对这些检索数据集中包含的各个检索数据，进行其所对应的排序分数的确定，从而可以根据全部检索出的检索数据(即上述举例中的320个检索数据)各自对应的排序分数由高到低进行排序，得到具有该排序结果的目标检索数据集，在检索推荐界面中按照该排序来展示各检索数据。

其中，每个检索数据对应的排序分数，根据其所对应的至少一种排序因子来确定。

其中，任一检索数据的排序因子包括如下至少一种：所述任一检索数据在所述多个检索数据集中的出现次数，所述任一检索数据在所述多个检索数据集中分别对应的相似度分数排名，所述任一检索数据在所述多个检索数据集中分别对应的相似度分数。

为便于理解，举例来说，承接上文中的举例，假设基于多个查询数据各种对应的多个特征向量检索得到了32个检索数据集，任一检索数据x分别存在于其中的3个检索数据集中，即检索数据x在多个检索数据集中的出现次数为：3次。另外，假设检索数据x在这3个检索数据集中对应的相似度分数(经过归一化处理后的分数)分别是：0.7、0.8、0.6。假设检索数据x在这3个检索数据集中对应的相似度分数排名分别是：第4名、第3名、第8名。则可选地，可以计算平均相似度分数(0.7+0.8+0.6)/3＝0.7,计算平均排名：(4+3+8)/3＝5。其中，如上文所述，检索数据x在某检索数据集中对应的相似度分数是在进行上文的相似度分数计算过程中确定的。

在得到检索数据x对应的出现次数、平均排名、平均相似度分数之后，可以采用某种动态加权算法，确定这几个因子各自对应的权重，之后，按照确定的权重对这几个因子进行加权求和计算，计算结果作为检索数据x对应的排序分数。

其中，可选地，可以预先采用某种结构的神经网络模型训练一个权重确定模型，该权重确定模型用来确定多种输入信息(比如上述检索数据x对应的出现次数、平均排名、平均相似度分数)分别对应的权重。

通过上述排序处理，可以让多路召回的检索数据中出现频率更高、更符合用户检索需求的检索数据更靠前展示。

图6为本发明实施例提供的一种多模态检索方法的流程图，如图6所示，该方法包括如下步骤：

601、获取对应于不同模态的多个查询数据，多个查询数据对应于同一检索意图。

602、通过多种特征提取模型分别提取每一查询数据对应的多个特征向量，特征提取模型用于对不同模态的数据进行特征提取。

603、获取检索数据库中每一检索数据对应的多个特征向量，每一检索数据对应的多个特征向量分别通过多种特征提取模型提取。

604、根据多个查询数据各自对应的多个特征向量与检索数据库中多个检索数据各自对应的多个特征向量，在检索数据库中检索出与多个查询数据对应的目标检索数据集。

605、显示包含目标检索数据集的检索推荐界面。

606、响应于针对目标检索数据集中目标检索数据触发的重排操作，将目标检索数据作为查询补充数据，获取通过多种特征提取模型分别提取的该查询补充数据的多个特征向量，根据该查询补充数据对应的多个特征向量与多个检索数据各自对应的多个特征向量，在检索数据库中检索出与查询补充数据对应的检索数据集，以查询补充数据对应的检索数据集更新目标检索数据集。

本实施例中，在检索推荐界面中，每个检索数据可以关联有一个特定的操作项：重排操作。当用户选择某个检索数据(称为目标检索数据)并对其触发了重排操作时，意味着该用户想要将该检索数据作为一个新的查询数据以补充初始输入的多个查询数据。此时，将目标检索数据作为查询补充数据，通过多种特征提取模型分别提取该查询补充数据的多个特征向量，之后，根据该查询补充数据对应的多个特征向量与多个检索数据各自对应的多个特征向量，在检索数据库中检索出与查询补充数据对应的检索数据集。其中，该检索过程与前述实施例中“根据任一查询数据的目标特征向量与目标特征提取模型对应的特征向量集中特征向量之间的相似度，确定与所述任一查询数据的目标特征向量相对应的检索数据集”的过程相似，在此不再赘述。

得到该查询补充数据对应的检索数据集后，以该查询补充数据对应的检索数据集更新目标检索数据集。

其中，在一可选实施例中，如果不对目标检索数据集中检索数据进行上文所述的排序处理，则该更新可以是直接添加到目标检索数据集即可。

在另一可选实施例中，若考虑上述排序处理，则该更新体现为：对基于原始的多个查询数据得到的多个检索数据集，以及基于该查询补充数据得到的检索数据集中的各检索数据进行排序分数的重新计算，进而根据计算的排序分数进行排序，得到重新排序处理的目标检索数据集。

本发明实施例提供的多模态检索方法可以在云端来执行，在云端可以部署有若干计算节点(云服务器)，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口，用户调用该服务接口以使用相应的服务。

针对本发明实施例提供的方案，云端可以提供有设定服务(多模态检索服务)的服务接口，用户通过终端设备调用该服务接口，以向云端触发多模态检索请求，该请求中包括对应于不同模态的多个查询数据，所述多个查询数据对应于同一检索意图。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行如下步骤：

将所述目标检索数据集发送至所述终端设备进行显示。

上述执行过程可以参考前述其他实施例中的相关说明，在此不赘述。

为便于理解，结合图7来示例性说明。用户可以通过图7中示意的终端设备E1调用多模态检索服务，以上传用以表明用户的某检索意图的不同模态的多个查询数据。用户调用该服务的服务接口包括软件开发工具包(Software Development Kit，简称SDK)、应用程序接口(Application Programming Interface，简称API)等形式。图7中示意的是API接口的情形。在云端，如图中所示，假设由服务集群E2提供多模态检索服务，服务集群E2中包括至少一个计算节点。服务集群E2收到该请求后，执行前述实施例中所述的步骤，以得到目标检索数据集，并反馈给终端设备E1。

终端设备E1基于收到的目标检索数据集后在界面中进行展示。并且，可以接收用户的交互操作，并进行相应响应。

以下将详细描述本发明的一个或多个实施例的多模态检索装置。本领域技术人员可以理解，这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图8为本发明实施例提供的一种多模态检索装置的结构示意图，如图8所示，该装置包括：查询获取模块11、特征提取模块12、数据检索模块13。

查询获取模块11，用于获取对应于不同模态的多个查询数据，所述多个查询数据对应于同一检索意图。

特征提取模块12，用于通过多种特征提取模型分别提取每一查询数据对应的多个特征向量；以及，获取检索数据库中每一检索数据对应的多个特征向量，每一检索数据对应的多个特征向量分别通过所述多种特征提取模型提取，其中，所述特征提取模型用于对不同模态的数据进行特征提取，所述多种特征提取模型为不同的神经网络模型。

数据检索模块13，用于根据所述多个查询数据各自对应的多个特征向量与所述检索数据库中多个检索数据各自对应的多个特征向量，在所述检索数据库中检索出与所述多个查询数据对应的目标检索数据集。

可选地，所述数据检索模块13具体用于：确定所述多种特征提取模型各自对应的特征向量集，其中，任一特征提取模型对应的特征向量集中包括通过所述任一特征提取模型分别对所述多个检索数据提取的特征向量；根据任一查询数据的目标特征向量与目标特征提取模型对应的特征向量集中特征向量之间的相似度，确定与所述任一查询数据的目标特征向量相对应的检索数据集，所述目标特征向量是所述任一查询数据对应的多个特征向量中任一种，所述目标特征向量是通过所述目标特征提取模型提取的；根据所述多个查询数据的多个特征向量对应的多个检索数据集，确定所述目标检索数据集，其中，一个检索数据集与一个查询数据的一个特征向量对应。

可选地，所述数据检索模块13具体用于：对所述目标特征提取模型对应的特征向量集进行聚类处理，以确定所述目标特征提取模型对应的多个簇的中心特征向量；根据所述目标特征向量分别与所述多个簇的中心特征向量之间的相似度分数，确定与所述目标特征向量对应的目标簇；根据所述目标特征向量分别与所述目标簇中各特征向量之间的相似度分数，确定与所述任一查询数据的目标特征向量相对应的检索数据集。

可选地，所述数据检索模块13具体用于：对于所述多个检索数据集中包含的任一检索数据，确定所述任一检索数据的排序因子，其中，所述排序因子包括如下至少一种：所述任一检索数据在所述多个检索数据集中的出现次数，所述任一检索数据在所述多个检索数据集中分别对应的相似度分数排名，所述任一检索数据在所述多个检索数据集中分别对应的相似度分数；根据所述多个检索数据集中各检索数据的排序因子，确定所述多个检索数据集中各检索数据的排序分数；根据所述多个检索数据集中各检索数据的排序分数，对所述各检索数据进行排序处理，以得到具有所述排序处理结果的目标检索数据集。

可选地，所述装置还包括：显示模块，用于显示包含所述目标检索数据集的检索推荐界面。

所述特征提取模块12还用于：响应于针对所述目标检索数据集中目标检索数据触发的重排操作，将所述目标检索数据作为查询补充数据，获取通过所述多种特征提取模型分别提取的所述查询补充数据的多个特征向量。所述数据检索模块13还用于：根据所述查询补充数据对应的多个特征向量与所述多个检索数据各自对应的多个特征向量，在所述检索数据库中检索出与所述查询补充数据对应的检索数据集；以所述查询补充数据对应的检索数据集更新所述目标检索数据集。

可选地，所述多个检索数据中包括：视频数据。所述装置还包括：切分模块，用于对所述视频数据进行场景类别识别，以确定所述视频数据中包含的至少一种场景类别；对所述视频数据进行切分以得到分别对应于所述至少一种场景类别的视频片段，以便提取各视频片段对应的多个特征向量。

可选地，所述查询获取模块11还用于：接收原始输入的多个查询数据；对所述多个查询数据进行相近语义扩展处理。

图8所示装置可以执行前述实施例中的步骤，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图8所示多模态检索装置的结构可实现为一电子设备。如图9所示，该电子设备可以包括：处理器21、存储器22、通信接口23。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，使处理器21至少可以实现如前述实施例中提供的多模态检索方法。

在一可选实施例中，上述电子设备可以是虚拟现实设备。该虚拟现实设备可以执行如下方法：

获取检索数据库中每一检索数据对应的多个特征向量，所述检索数据库中存储有不同模态的检索数据，每一检索数据对应的多个特征向量分别通过所述多种特征提取模型提取；

显示包含所述目标检索数据集的检索推荐界面。

其中，上述检索数据库可以是虚拟现实设备中存储的众多图像、视频数据。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述实施例中提供的多模态检索方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多模态检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述多种特征提取模型各自对应的特征向量集，其中，任一特征提取模型对应的特征向量集中包括通过所述任一特征提取模型分别对所述多个检索数据提取的特征向量；

所述根据所述多个查询数据各自对应的多种特征向量与所述检索数据库中多个检索数据各自对应的多种特征向量，在所述检索数据库中检索出与所述多个查询数据对应的目标检索数据集，包括：

根据任一查询数据的目标特征向量与目标特征提取模型对应的特征向量集中特征向量之间的相似度，确定与所述任一查询数据的目标特征向量相对应的检索数据集，所述目标特征向量是所述任一查询数据对应的多个特征向量中任一种，所述目标特征向量是通过所述目标特征提取模型提取的；

根据所述多个查询数据的多个特征向量对应的多个检索数据集，确定所述目标检索数据集，其中，一个检索数据集与一个查询数据的一个特征向量对应。

3.根据权利要求2所述的方法，其特征在于，所述根据任一查询数据的目标特征向量与目标特征提取模型对应的特征向量集中特征向量之间的相似度，确定与所述任一查询数据的目标特征向量相对应的检索数据集，包括：

对所述目标特征提取模型对应的特征向量集进行聚类处理，以确定所述目标特征提取模型对应的多个簇的中心特征向量；

根据所述目标特征向量分别与所述多个簇的中心特征向量之间的相似度分数，确定与所述目标特征向量对应的目标簇；

根据所述目标特征向量分别与所述目标簇中各特征向量之间的相似度分数，确定与所述任一查询数据的目标特征向量相对应的检索数据集。

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个查询数据的多个特征向量对应的多个检索数据集，确定所述目标检索数据集，包括：

对于所述多个检索数据集中包含的任一检索数据，确定所述任一检索数据的排序因子，其中，所述排序因子包括如下至少一种：所述任一检索数据在所述多个检索数据集中的出现次数，所述任一检索数据在所述多个检索数据集中分别对应的相似度分数排名，所述任一检索数据在所述多个检索数据集中分别对应的相似度分数；

根据所述多个检索数据集中各检索数据的排序因子，确定所述多个检索数据集中各检索数据的排序分数；

根据所述多个检索数据集中各检索数据的排序分数，对所述各检索数据进行排序处理，以得到具有所述排序处理结果的目标检索数据集。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

显示包含所述目标检索数据集的检索推荐界面；

响应于针对所述目标检索数据集中目标检索数据触发的重排操作，将所述目标检索数据作为查询补充数据，获取通过所述多种特征提取模型分别提取的所述查询补充数据的多个特征向量；

根据所述查询补充数据对应的多个特征向量与所述多个检索数据各自对应的多个特征向量，在所述检索数据库中检索出与所述查询补充数据对应的检索数据集；

以所述查询补充数据对应的检索数据集更新所述目标检索数据集。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述多个检索数据中包括：视频数据；

所述方法还包括：

对所述视频数据进行场景类别识别，以确定所述视频数据中包含的至少一种场景类别；

对所述视频数据进行切分以得到分别对应于所述至少一种场景类别的视频片段，以便提取各视频片段对应的多个特征向量。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取对应于不同模态的多个查询数据，包括：

接收原始输入的多个查询数据；

对所述多个查询数据进行相近语义扩展处理。

8.一种多模态检索方法，其特征在于，包括：

利用所述设定服务对应的处理资源执行如下步骤：

将所述目标检索数据集发送至所述终端设备进行显示。

9.一种电子设备，其特征在于，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至7中任一项所述的多模态检索方法。

10.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被云服务器的处理器执行时，使所述处理器执行如权利要求1至7中任一项所述的多模态检索方法。

11.一种多模态检索方法，其特征在于，应用于虚拟现实设备，所述方法包括：

显示包含所述目标检索数据集的检索推荐界面。