CN116166843B

CN116166843B - 基于细粒度感知的文本视频跨模态检索方法和装置

Info

Publication number: CN116166843B
Application number: CN202310200445.3A
Authority: CN
Inventors: 罗引; 郝艳妮; 马先钦; 郝保; 方省; 曹家; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-11-07
Anticipated expiration: 2043-03-02
Also published as: CN116166843A

Abstract

本公开涉及一种基于细粒度感知的文本视频跨模态检索方法和装置。所述方法包括：通过文本特征编码模型，对待匹配文本进行特征提取，获得所述待匹配文本的多个词语的文本特征向量集；通过视频特征编码模型，对待匹配视频进行特征提取，获得多个目标对象的目标特征向量集；通过跨模态匹配模型，确定目标特征向量集和文本特征向量集之间的相关性得分。根据本公开的实施例的基于细粒度感知的文本视频跨模态检索方法，可在检索任务中引入更细粒度的语义特征，并在模型训练中针对更细粒度的语义特征的识别和对比能力加以训练，使得模型能够对更细粒度的语义特征进行检索，可提升跨模态检索的准确性。

Description

基于细粒度感知的文本视频跨模态检索方法和装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种基于细粒度感知的文本视频跨模态检索方法和装置。

背景技术

文本-视频检索作为多模态视频和语言理解的一项基础研究任务，目的是通过给定的查询文本返回最相关的视频或视频片段，反之亦然。随着互联网视频数量的快速增长，文本-视频检索成为了一种新的需求，在很多视频文本任务中都取得了显著的效果。由于视频和文本之间的语义差异较大，匹配模式复杂，因此文本-视频检索仍然是一个具有挑战性的问题。

为了突破视频和文本之间的语义差异，相关技术中许多方法将该问题分解为两部分处理，即视频域中的视觉特征表示和文本中的文本特征表示，然后计算它们之间的相似度。

虽然相关技术中不断改进特征表示的获取机制和对齐策略，但这些方法忽略了视频-文本匹配任务不仅是一个跨模态匹配任务，同样是一个复杂而主观的跨模态认知过程。当前视频-文本匹配技术主要围绕着提取更强大的多模态全局特征、捕获更准确的对齐策略和训练相关性计算网络几个方面，并没有考虑模态间的细粒度特征，从而对于更加抽象或者更为细粒度的检索任务(如图片中物体数量、不同汽车类型、人物的具体动作或花朵种类等)就会无能为力。

公开于本申请背景技术部分的信息仅旨在加深对本申请的一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本公开提出了一种基于细粒度感知的文本视频跨模态检索方法和装置。

根据本公开的一方面，提供了一种基于细粒度感知的文本视频跨模态检索方法，包括：

通过文本特征编码模型，对待匹配文本进行特征提取，获得所述待匹配文本的多个词语的文本特征向量集，其中，所述多个词语包括动词和名词，所述特征向量集中包括与所述动词对应的文本特征向量，以及与所述名词对应的文本特征向量；

通过视频特征编码模型，对待匹配视频进行特征提取，获得所述待匹配视频中多个目标对象的目标特征向量集，其中，所述目标特征向量集中包括与多个目标对象分别对应的目标特征向量；

通过跨模态匹配模型，确定所述目标特征向量集和所述文本特征向量集之间的相关性得分，其中，所述相关性得分用于在多个待匹配视频中检索与所述待匹配文本对应的视频，或者用于在多个待匹配文本中检索与所述待匹配视频对应的文本，所述跨模态匹配模型是通过对文本样本中的动词或名词进行随机去除后的训练文本进行训练获得的。

在一种可能的实现方式中，通过文本特征编码模型，对待匹配文本进行特征提取，获得所述待匹配文本的多个词语的文本特征向量集，包括：

对所述待匹配文本进行分词，获得所述待匹配文本的多个词语；

通过所述文本特征编码模型，对所述多个词语进行特征提取，获得与每个词语对应的文本特征向量；

根据多个所述文本特征向量，获得所述文本特征向量集。

在一种可能的实现方式中，通过视频特征编码模型，对待匹配视频进行特征提取，获得所述待匹配视频中多个目标对象的目标特征向量集，包括：

对所述待匹配视频进行采样，获得多个采样帧；

对所述多个采样帧中的目标对象进行检测，获得各采样帧中的目标对象所在区域；

保留各采样帧中的目标对象所在区域，并对非目标区域进行遮盖，获得与各采样帧对应的网格图像；

通过视频特征编码模型，对各网格图像中的目标对象所在区域进行特征提取，获得各个目标对象的目标特征向量；

根据多个所述目标特征向量，获得所述目标特征向量集。

在一种可能的实现方式中，通过跨模态匹配模型，确定所述目标特征向量集和所述文本特征向量集之间的相关性得分，包括：

通过跨模态匹配模型，确定所述目标特征向量集中的各个目标特征向量分别与所述文本特征向量集中的各个文本特征向量之间的相似度；

将所述相似度输入全连接网络，获得所述相关性得分。

在一种可能的实现方式中，所述方法还包括：

通过文本特征编码模型，对文本样本和文本样本的多个词语进行特征提取，获得所述文本样本的文本全局特征向量，和多个词语的样本文本特征向量集；

通过视频特征编码模型，对视频样本和所述视频样本的网格图像进行特征提取，获得所述视频样本的视频全局特征向量，和所述视频样本中多个目标对象的样本目标特征向量集；

根据所述样本文本特征向量集、所述样本目标特征向量集、所述文本全局特征向量和所述视频全局特征向量，确定目标感知对比损失；

根据所述跨模态匹配模型、对文本样本中的动词或名词进行随机去除后的训练文本、与所述文本样本匹配的视频样本，以及所述文本全局特征向量和所述视频全局特征向量，确定特征融合对比损失；

根据所述样本文本特征向量集和所述样本目标特征向量集，确定视频文本匹配对比损失；

根据所述目标感知对比损失、所述特征融合对比损失和所述视频文本匹配对比损失，确定所述文本特征编码模型、所述视频特征编码模型和所述跨模态匹配模型的综合损失；

根据所述综合损失，训练所述文本特征编码模型、所述视频特征编码模型和所述跨模态匹配模型，获得训练后的文本特征编码模型、训练后的视频特征编码模型和训练后的跨模态匹配模型。

在一种可能的实现方式中，根据所述样本文本特征向量集、所述样本目标特征向量集、所述文本全局特征向量和所述视频全局特征向量，确定目标感知对比损失，包括：

根据所述样本文本特征向量集、所述样本目标特征向量集和所述视频全局特征向量，确定文本对齐损失；

根据所述样本文本特征向量集、所述样本目标特征向量集和所述文本全局特征向量，确定视频对齐损失；

根据所述视频对齐损失和所述文本对齐损失，确定所述目标感知对比损失。

在一种可能的实现方式中，根据所述跨模态匹配模型、对文本样本中的动词或名词进行随机去除后的训练文本、与所述文本样本匹配的视频样本，以及所述文本全局特征向量和所述视频全局特征向量，确定特征融合对比损失，包括：

确定所述文本全局特征向量和所述视频全局特征向量之间的第一噪声对比估计损失；

根据所述跨模态匹配模型、对文本样本中的名词进行随机去除后的第一训练文本，以及与所述文本样本匹配的视频样本，确定第二噪声对比估计损失；

根据所述跨模态匹配模型、对文本样本中的动词进行随机去除后的第二训练文本，以及与所述文本样本匹配的视频样本，确定第三噪声对比估计损失；

根据所述第一噪声对比估计损失、所述第二噪声对比估计损失和所述第三噪声对比估计损失，确定所述特征融合对比损失。

在一种可能的实现方式中，根据所述跨模态匹配模型、对文本样本中的名词进行随机去除后的第一训练文本，以及与所述文本样本匹配的视频样本，确定第二噪声对比估计损失，包括：

通过所述文本特征编码模型，对所述第一训练文本进行特征提取，获得名词问题词特征；

通过所述视频特征编码模型，对所述文本样本匹配的视频样本进行特征提取，获得查询参考特征；

通过所述跨模态匹配模型，对所述名词问题词特征和所述查询参考特征，获得名词答案特征；

将去除的名词输入所述文本特征编码模型，获得名词特征；

根据所述名词特征和所述名词答案特征，确定所述第二噪声对比估计损失。

在一种可能的实现方式中，根据所述跨模态匹配模型、对文本样本中的动词进行随机去除后的第二训练文本，以及与所述文本样本匹配的视频样本，确定第三噪声对比估计损失，包括：

通过所述文本特征编码模型，对所述第二训练文本进行特征提取，获得动词问题词特征；

通过所述跨模态匹配模型，对所述动词问题词特征和所述查询参考特征，获得动词答案特征；

将去除的动词输入所述文本特征编码模型，获得动词特征；

根据所述动词特征和所述动词答案特征，确定所述第三噪声对比估计损失。

在一种可能的实现方式中，根据所述样本文本特征向量集和所述样本目标特征向量集，确定视频文本匹配对比损失，包括：

根据文本样本集中任意文本样本的样本文本特征向量集、视频样本集中的与所述文本样本匹配的视频样本的样本目标特征向量集，以及所述视频样本集中的与所述文本样本不匹配的视频样本的样本目标特征向量集，确定第一对比损失；

根据所述视频样本集中任意视频样本的样本目标特征向量集、所述文本样本集中与所述视频样本匹配的文本样本的样本文本特征向量集，以及所述文本样本集中与所述视频样本不匹配的文本样本的样本文本特征向量集，确定第二对比损失；

根据所述第一对比损失和所述第二对比损失，确定所述视频文本匹配对比损失。

根据本公开的另一方面，提供了一种基于细粒度感知的文本视频跨模态检索装置，所述装置包括：

文本编码模块，用于通过文本特征编码模型，对待匹配文本进行特征提取，获得所述待匹配文本的多个词语的文本特征向量集，其中，所述多个词语包括动词和名词，所述特征向量集中包括与所述动词对应的文本特征向量，以及与所述名词对应的文本特征向量；

视频编码模块，用于通过视频特征编码模型，对待匹配视频进行特征提取，获得所述待匹配视频中多个目标对象的目标特征向量集，其中，所述目标特征向量集中包括与多个目标对象分别对应的目标特征向量；

匹配模块，用于通过跨模态匹配模型，确定所述目标特征向量集和所述文本特征向量集之间的相关性得分，其中，所述相关性得分用于在多个待匹配视频中检索与所述待匹配文本对应的视频，或者用于在多个待匹配文本中检索与所述待匹配视频对应的文本，所述跨模态匹配模型是通过对文本样本中的动词或名词进行随机去除后的训练文本进行训练获得的。

在一种可能的实现方式中，所述文本编码模块进一步用于：

根据多个所述文本特征向量，获得所述文本特征向量集。

在一种可能的实现方式中，所述视频编码模块进一步用于：

对所述待匹配视频进行采样，获得多个采样帧；

根据多个所述目标特征向量，获得所述目标特征向量集。

在一种可能的实现方式中，所述匹配模块进一步用于：

将所述相似度输入全连接网络，获得所述相关性得分。

在一种可能的实现方式中，所述装置还包括，训练模块，用于：

在一种可能的实现方式中，所述训练模块进一步用于：

将去除的名词输入所述文本特征编码模型，获得名词特征；

在一种可能的实现方式中，所述训练模块进一步用于：

将去除的动词输入所述文本特征编码模型，获得动词特征；

在一种可能的实现方式中，所述训练模块进一步用于：

根据本公开的一方面，提供了一种基于细粒度感知的文本视频跨模态检索设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

根据本公开的实施例的基于细粒度感知的文本视频跨模态检索方法，可使得文本特征编码模型获取到待匹配文本的动词和名词的文本特征向量，并使视频特征编码模型在遮盖非目标区域的网格图像中获取多个目标对象的目标特征向量，从而获取到更细粒度的特征信息，并可通过跨模态匹配模型使得目标特征向量和文本特征向量对齐，并确定二者的相似度。从而能够识别更细粒度的特征，提升跨模态检索的准确性。进一步地，在训练过程中，可使得样本文本特征向量集、样本目标特征向量集、文本全局特征向量和视频全局特征向量对齐，并提升跨模态匹配模型对于细粒度特征的感知能力和对齐能力，以提升模型性能和检索准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将更清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例，

图1示出根据本公开实施例的基于细粒度感知的文本视频跨模态检索方法的流程图；

图2示出根据本公开实施例的网格图像的示意图；

图3示出根据本公开实施例的模型训练的示意图；

图4示出根据本公开实施例的基于细粒度感知的文本视频跨模态检索方法的应用示意图；

图5示出根据本公开实施例的基于细粒度感知的文本视频跨模态检索装置的框图；

图6示出根据本公开实施例的一种基于细粒度感知的文本视频跨模态检索设备的框图；

图7示出根据本公开实施例的一种电子设备的框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本公开的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

应当理解，在本公开中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本公开中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本公开中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

在一种可能的实现方式中，针对相关技术中无法检索更细粒度的任务的问题，本公开在检索任务中引入更细粒度的语义特征，并在模型训练中针对更细粒度的语义特征的识别和对比能力加以训练，使得模型能够对更细粒度的语义特征进行检索，提升跨模态检索的准确性。

图1示出根据本公开实施例的基于细粒度感知的文本视频跨模态检索方法的流程图，如图1所示，所述方法可包括：

步骤S11，通过文本特征编码模型，对待匹配文本进行特征提取，获得所述待匹配文本的多个词语的文本特征向量集，其中，所述多个词语包括动词和名词，所述特征向量集中包括与所述动词对应的文本特征向量，以及与所述名词对应的文本特征向量；

步骤S12，通过视频特征编码模型，对待匹配视频进行特征提取，获得所述待匹配视频中多个目标对象的目标特征向量集，其中，所述目标特征向量集中包括与多个目标对象分别对应的目标特征向量；

步骤S13，通过跨模态匹配模型，确定所述目标特征向量集和所述文本特征向量集之间的相关性得分，其中，所述相关性得分用于在多个待匹配视频中检索与所述待匹配文本对应的视频，或者用于在多个待匹配文本中检索与所述待匹配视频对应的文本，所述跨模态匹配模型是通过对文本样本中的动词或名词进行随机去除后的训练文本进行训练获得的。

在一种可能的实现方式中，所述文本特征编码模型可提取文本的语义特征，例如，可提取句子的语义特征或词语的语义特征等，由文本特征编码模型获取的特征可以是向量形式的信息，也可以是其他形式的信息，本公开对文本特征编码模型获得的特征的具体形式不做限制。所述文本特征编码模型可以是深度学习神经网络模型，本公开对文本特征编码模型的具体类型不做限制。

在一种可能的实现方式中，所述视频特征编码模型可提取视频或视频帧的语义特征，或者，视频或视频帧中各个目标对象的语义特征，例如，目标对象自身的形状特征、颜色特征，和/或动作特征等，所述视频特征编码模型获取的特征可以是向量形式的信息，也可以是其他形式的信息，本公开对视频特征编码模型获得的特征的具体形式不做限制。所述视频特征编码模型可以是深度学习神经网络模型，本公开对视频特征编码模型的具体类型不做限制。

在一种可能的实现方式中，所述跨模态匹配模型可用于使文本的特征信息与视频帧的特征信息进行融合与对比，例如，可使文本和视频的特征进行对齐(例如，通过映射等方式对齐)，使得文本和视频的特征转换为相同特征空间中的能够相比较的特征(例如，向量形式的特征)，并可通过激活网络和全连接网络等方式进行对比，获得文本和视频的特征相似度，从而确定文本和视频是否匹配。

在一种可能的实现方式中，可选定某个特定的待匹配文本，通过以上模型，在多个待匹配视频中检索对应的视频，也可选定某个待匹配视频，在多个待匹配文本中，检索对应的文本，检索过程如下。

在一种可能的实现方式中，在步骤S11中，可首先获取待匹配文本的细粒度的特征，从而在检索过程中通过细粒度的特征，提升检索的准确性。例如，待匹配文本中可包括多个词语，可确定出其中的动词和名词，并分别通过文本特征编码模型进行特征提取，获得动词的特征信息和名词的特征信息，例如，向量形式的特征信息。从而在获取特征时，相较于获得待匹配文本(例如，句子)的全局特征，可获得更多更细粒度的特征。

在一种可能的实现方式中，步骤S11可包括：对所述待匹配文本进行分词，获得所述待匹配文本的多个词语；通过所述文本特征编码模型，对所述多个词语进行特征提取，获得与每个词语对应的文本特征向量；根据多个所述文本特征向量，获得所述文本特征向量集。

在一种可能的实现方式中，所述待匹配文本可以是具有多个词语的文本，例如，句子、短语等，可利用多种方式对待匹配文本进行分词，例如，通过tokenizer模型进行分词，或者结巴分词等，本公开对分词的具体方式不做限制。

在一种可能的实现方式中，在获得各个分词后，可获得待匹配文本的多个词语，多个词语可包括动词和名词，可分别通过文本特征编码模型获取各个词语的特征，即，文本特征向量，这些文本特征向量中包括动词的文本特征向量，也包括名词的文本特征向量。多个词语的文本特征向量的集合即为所述文本特征向量集。在示例中，所述待匹配文本中可包括n个词语，则可通过文本特征编码模型获得n个文本特征向量，组成文本特征向量集T＝{e₁，e₂…e_i…e_n}，其中，1≤i≤n，i和n为正整数，e_i为待匹配文本中第i个词语的文本特征向量。

在一种可能的实现方式中，在步骤S12中，可获取待匹配视频的更细粒度的特征，从而在检索过程中通过细粒度的特征，提升检索的准确性。例如，待匹配视频中可包括多个目标对象，可获取目标对象的轮廓、颜色、动作等特征信息。从而在获取特征时，相较于获得待匹配视频的全局特征，可获得更多更细粒度的特征。

在一种可能的实现方式中，步骤S12可包括：对所述待匹配视频进行采样，获得多个采样帧；对所述多个采样帧中的目标对象进行检测，获得各采样帧中的目标对象所在区域；保留各采样帧中的目标对象所在区域，并对非目标区域进行遮盖，获得与各采样帧对应的网格图像；通过视频特征编码模型，对各网格图像中的目标对象所在区域进行特征提取，获得各个目标对象的目标特征向量；根据多个所述目标特征向量，获得所述目标特征向量集。

在一种可能的实现方式中，在待匹配视频中，某个场景中的多个相邻的视频帧的内容可能是相似的，因此，为节约运算资源，无需对所有视频帧进行特征提取，可对待匹配视频进行采样。例如，可获取待匹配视频的视频片段，例如，按照场景划分成两个或多个视频片段，并对每个视频片段的视频帧进行采样。在示例中，可在每个视频片段中采集预定数量的视频帧，作为所述采样帧。

在一种可能的实现方式中，可对采样帧中的目标对象进行检测，获得目标对象所在区域，在示例中，可通过图像检测模型对采样帧进行目标检测，从而确定各个采样帧中的各个目标对象所在区域。所述图像检测模型可以是卷积神经网络模型，本公开对图像检测模型的具体类型不做限制。

在一种可能的实现方式中，可保留各采样帧中的目标对象所在区域，并对非目标区域进行遮盖，获得与各采样帧对应的网格图像。例如，可通过掩码来遮盖非目标区域，即，不包含目标对象的区域。例如，可利用多个掩码来遮盖不同的非目标区域，所述多个掩码为规则形状的掩码，且互不重叠，从而可遮盖各个非目标区域。

图2示出根据本公开实施例的网格图像的示意图，如图2所示，可对各个采样帧中的非目标区域添加掩码，从而对非目标区域进行遮盖，获得网格图像。在网格图像中，可保留目标对象所在区域，即，如果对网格图像进行特征提取，则可获得目标对象的特征信息，而非整张图像的特征信息。

在一种可能的实现方式中，可通过视频特征编码模型对各个网格图像进行特征提取，由于非目标区域已被掩码遮盖，因此，可提取各个网格图像中的目标对象所在区域的特征信息，从而获得各个目标对象的目标特征向量。进而可将各个网格图像中的目标特征向量进行汇总，从而获得目标特征向量集。在示例中，各个采样帧中可包括多个目标对象，其中，第j个目标对象v_j的特征向量为l_j，目标特征向量集为V＝{l₁，l₂…l_j…l_m}，其中，1≤j≤m，j和m为正整数。

在一种可能的实现方式中，在步骤S13中，可通过跨模态匹配模型，根据待匹配视频的目标特征向量集和待匹配文本的文本特征向量集，对待匹配视频和待匹配文本进行匹配，从而在多个待匹配视频中检索出与选定的待匹配文本对应的视频，或者，在多个待匹配文本中检索出与选定的待匹配视频对应的文本。在示例中，可确定文本特征向量集中的各个文本特征向量与目标特征向量集中的各个目标特征向量之间的相似度，并基于各个相似度来确定待匹配视频和待匹配文本是否相似，例如，可对各个相似度进行加权求和，或者，确定各个相似度的最大值等处理，并确定处理结果是否符合相似度标准，例如，是否大于相似度阈值等，从而判断待匹配视频和待匹配文本是否相似。

在一种可能的实现方式中，步骤S13可包括：通过跨模态匹配模型，确定所述目标特征向量集中的各个目标特征向量分别与所述文本特征向量集中的各个文本特征向量之间的相似度；将所述相似度输入全连接网络，获得所述相关性得分。

在一种可能的实现方式中，所述模态匹配模型可通过映射等方式，将目标特征向量和文本特征向量对齐，例如，将二者映射至共同的特征空间，并利用处于特征空间中的与二者分别对应的特征向量求解二者的相似度，例如，欧氏距离、余弦相似度等，本公开对求解相似度的具体方式不做限制。

在一种可能的实现方式中，可迭代执行多次上述处理，从而分别确定各个目标特征向量与各个文本特征向量之间的相似度。进一步地，可将相似度输入全连接网络，获得待匹配视频与待匹配文本的相关性得分，也可通过激活函数(例如，sigmoid激活函数)进行激活处理后，输入全连接网络，获得所述相关性得分。该得分可以是概率形式的得分，例如，分值处于(0，1)区间的得分。本公开对得分的具体形式和范围不做限制。

在示例中，可通过以下公式(1)确定所述待匹配视频和待匹配文本的相关性得分：

Sim(T,V)＝F(f(T,V)) (1)

其中，Sim(T,V)为所述相关性得分，T为文本特征向量集，V为目标特征向量集，f为所述模态匹配模型的处理函数，F为全连接网络的处理函数。

在一种可能的实现方式中，如果选定待匹配文本，在多个待匹配视频中检索对应的视频，则可分别求解待匹配文本与多个待匹配视频的相关性得分，并可按照相关性得分来排列多个待匹配视频，并选取排列中相关性得分最高的一个或多个待匹配视频作为检索结果。反之，如果选定待匹配视频，在多个待匹配文本中检索对应的文本，则可分别求解待匹配视频与多个待匹配文本的相关性得分，并可按照相关性得分来排列多个待匹配文本，并选取排列中相关性得分最高的一个或多个待匹配文本作为检索结果。

通过这种方式，可使得文本特征编码模型获取到待匹配文本的动词和名词的文本特征向量，并使视频特征编码模型在遮盖非目标区域的网格图像中获取多个目标对象的目标特征向量，从而获取到更细粒度的特征信息，并可通过跨模态匹配模型使得目标特征向量和文本特征向量对齐，并确定二者的相似度。从而能够识别更细粒度的特征，提升跨模态检索的准确性。

在一种可能的实现方式中，以上文本特征编码模型、视频特征编码模型和跨模态匹配模型可在使用之前进行训练，从而提升上述模型对于细粒度的特征的识别和提取能力，以及对于跨模态的特征信息的对齐能力。

在一种可能的实现方式中，所述方法还包括：通过文本特征编码模型，对文本样本和文本样本的多个词语进行特征提取，获得所述文本样本的文本全局特征向量，和多个词语的样本文本特征向量集；通过视频特征编码模型，对视频样本和所述视频样本的网格图像进行特征提取，获得所述视频样本的视频全局特征向量，和所述视频样本中多个目标对象的样本目标特征向量集；根据所述样本文本特征向量集、所述样本目标特征向量集、所述文本全局特征向量和所述视频全局特征向量，确定目标感知对比损失；根据所述跨模态匹配模型、对文本样本中的动词或名词进行随机去除后的训练文本、与所述文本样本匹配的视频样本，以及所述文本全局特征向量和所述视频全局特征向量，确定特征融合对比损失；根据所述样本文本特征向量集和所述样本目标特征向量集，确定视频文本匹配对比损失；根据所述目标感知对比损失、所述特征融合对比损失和所述视频文本匹配对比损失，确定所述文本特征编码模型、所述视频特征编码模型和所述跨模态匹配模型的综合损失；根据所述综合损失，训练所述文本特征编码模型、所述视频特征编码模型和所述跨模态匹配模型，获得训练后的文本特征编码模型、训练后的视频特征编码模型和训练后的跨模态匹配模型。

图3示出根据本公开实施例的模型训练的示意图。如图3所示，可通过文本特征编码模型对文本样本进行特征提取获得文本全局特征向量，还可利用与以上对于待匹配文本中的词语(动词和名词)进行特征提取类似的方式，提取文本样本中的词语(动词和名词)的样本文本特征向量集。并可通过视频特征编码模型，对视频样本(例如，视频样本的多个视频帧，如图3中的CLS)进行特征提取，获得视频全局特征向量，还可通过与以上对于待匹配视频中的各个目标对象进行特征提取类似的方式，通过掩码对视频样本中采样帧的非目标区域进行遮盖，获得网格图像，并提取网格图像中目标对象的特征信息，获得样本目标特征向量集。

在一种可能的实现方式中，由于在特征提取过程中，可获得更细粒度的特征信息，并使得跨模态的细粒度的文本特征信息和细粒度的视频特征信息对齐，因此，如果进行特征提取的文本样本和视频样本是匹配的，则可在训练过程中，使得视频全局特征向量不仅与文本全局特征向量对齐，也与样本文本特征向量集中每个样本文本特征向量对齐。类似地，可使得文本全局特征向量不仅与视频全局特征向量对齐，还与样本目标特征向量集每个样本目标特征向量对齐。

在一种可能的实现方式中，根据所述样本文本特征向量集、所述样本目标特征向量集、所述文本全局特征向量和所述视频全局特征向量，确定目标感知对比损失，包括：根据所述样本文本特征向量集、所述样本目标特征向量集和所述视频全局特征向量，确定文本对齐损失；根据所述样本文本特征向量集、所述样本目标特征向量集和所述文本全局特征向量，确定视频对齐损失；根据所述视频对齐损失和所述视频对齐损失，确定所述目标感知对比损失。

在一种可能的实现方式中，可通过以下公式(2)确定文本对齐损失

其中，v为视频全局特征向量，w_i为第i个样本文本特征向量，vⁱ为第i个样本目标特征向量，I为样本文本特征向量集中向量的数量，τ为超参数，sim为相似度计算函数(例如，点积、余弦相似度等)。在训练过程中，如果样本文本和样本视频匹配，则可使得分子与分母中的相似度提升，使得视频全局特征向量与各个样本文本特征向量对齐，并使得各个样本文本特征向量与对应的各个样本目标特征向量对齐，使得对数的真数部分趋近于1，从而使得文本对齐损失趋近于0，即可在训练过程中缩小文本对齐损失。

在一种可能的实现方式中，可通过以下公式(3)确定视频对齐损失

其中，v_j为第j个样本目标特征向量，X为文本全局特征向量，w^j为对应的样本文本特征向量，J为样本目标特征向量集中的向量的数量。在训练过程中，如果样本文本和样本视频匹配，则可使得分子与分母中的相似度提升，使得文本全局特征向量与各个样本目标特征向量对齐，并使得各个样本目标特征向量与对应的各个样本文本特征向量对齐，使得对数的真数部分趋近于1，从而使得文本对齐损失趋近于0，即可在训练过程中缩小视频对齐损失。

在一种可能的实现方式中，在获得以上视频对齐损失和文本对齐损失/>后，可通过公式(4)确定所述目标感知对比损失/>

即，对视频对齐损失和文本对齐损失/>进行求和，从而在训练过程中目标感知对比损失/>缩小，以使得文本全局特征向量、样本文本特征向量、视频全局特征向量和样本目标特征向量对齐。

在一种可能的实现方式中，由于跨模态匹配模型可对跨模态的细粒度的特征信息进行对齐，因此，在训练过程中，不仅需要提升其对齐能力，还可训练其对于细粒度特征的感知和识别能力，可通过对比学习的方式，提升跨模态匹配模型对于细粒度特征的感知能力。如上所述，文本的细粒度特征包括动词和名词的文本特征，因此，可提升跨模态匹配模型对于动词和名词的感知能力，以及对于动词和名字与对应视频的对齐能力。

在一种可能的实现方式中，根据所述跨模态匹配模型、对文本样本中的动词或名词进行随机去除后的训练文本、与所述文本样本匹配的视频样本，以及所述文本全局特征向量和所述视频全局特征向量，确定特征融合对比损失，包括：确定所述文本全局特征向量和所述视频全局特征向量之间的第一噪声对比估计损失；根据所述跨模态匹配模型、对文本样本中的名词进行随机去除后的第一训练文本，以及与所述文本样本匹配的视频样本，确定第二噪声对比估计损失；根据所述跨模态匹配模型、对文本样本中的动词进行随机去除后的第二训练文本，以及与所述文本样本匹配的视频样本，确定第三噪声对比估计损失；根据所述第一噪声对比估计损失、所述第二噪声对比估计损失和所述第三噪声对比估计损失，确定所述特征融合对比损失。

在一种可能的实现方式中，可确定文本全局特征向量和视频全局特征向量之间的第一噪声对比估计损失，在示例中，可通过跨模态匹配模型分别将文本全局特征向量和视频全局特征向量映射至上述特征空间中，获得二者在特征空间中的向量表示，即，视频向量表示f_v和文本向量表示f_t。进而可通过视频向量表示f_v和文本向量表示f_t确定第一噪声对比估计损失。

在一种可能的实现方式中，可通过以下公式(5)确定噪声对比估计损失：

其中，为x_i、y_i为两个向量的噪声对比估计损失，B为批尺寸，即，y_j的数量。

在示例中，可利用文本样本的文本向量表示f_t代替x_i，利用匹配的视频样本的视频向量表示f_v代替y_i，并利用视频样本集中其他视频样本的视频向量表示代替y_j，利用公式(5)可确定第一噪声对比估计损失当然，也可利用视频样本的视频向量表示f_v代替x_i，利用匹配的文本样本的文本向量表示f_t代替y_i，并利用文本样本集中其他文本样本的文本向量表示代替y_j，利用公式(5)可确定第一噪声对比估计损失/>

在一种可能的实现方式中，可训练跨模态匹配模型对于细粒度特征的感知能力和对齐能力。所述细粒度特征可包括动词的文本特征和名词的文本特征。

在一种可能的实现方式中，对于其中的名词的文本特征，可通过以下步骤确定第二噪声对比估计损失，从而在训练过程中提升对于名词的文本特征的感知能力。根据所述跨模态匹配模型、对文本样本中的名词进行随机去除后的第一训练文本，以及与所述文本样本匹配的视频样本，确定第二噪声对比估计损失，包括：通过所述文本特征编码模型，对所述第一训练文本进行特征提取，获得名词问题词特征；通过所述视频特征编码模型，对所述文本样本匹配的视频样本进行特征提取，获得查询参考特征；通过所述跨模态匹配模型，对所述名词问题词特征和所述查询参考特征，获得名词答案特征；将去除的名词输入所述文本特征编码模型，获得名词特征；根据所述名词特征和所述名词答案特征，确定所述第二噪声对比估计损失。

在一种可能的实现方式中，可通过对比学习的方式，使跨模态匹配模型能够识别出缺失的名词，从而使得跨模态匹配模型提升对于名词特征的感知能力，以及与视频特征的对齐能力。第一训练文本为对于文本样本中的名词进行随机去除后的文本，如图3中的文本样本“游客在一个漂亮的公园欣赏美景”，在进行分词后，可获得“游客”、“欣赏”、“美景”、“公园”几个词语，其中的名词为“游客”、“美景”和“公园”，可对三个名词进行随机去除，例如，去除“公园”，则可获得第一训练文本“游客在一个漂亮的[？]欣赏美景”，该第一训练文本可作为名词问题输入文本特征编码模型，可获得名词问题词特征。

在一种可能的实现方式中，可将与文本样本匹配的视频样本输入视频特征编码模型，获得查询参考特征，作为参考信息，即，可使跨模态匹配模型以视频的特征作为参考，确定第一训练文本中缺失的名词。

在一种可能的实现方式中，跨模态匹配模型可基于名词问题词特征和查询参考特征来确定缺失的名词的特征，即，获得名词答案特征。该名词答案特征为跨模态匹配模型的输出特征，可能存在误差。

在一种可能的实现方式中，已去除的名词，例如，“公园”，可输入至文本特征编码模型，获得名词特征，即，不存在误差的名词答案。进而可将名词特征与名词答案特征进行对比，例如，可通过跨模态匹配模型将名词特征和名词答案特征映射至上述特征空间，获得名词答案特征的向量表示f_{noun_a}，以及名词特征的向量表示f_noun，并基于f_{noun_a}和f_noun来确定第二噪声对比估计损失。在训练过程中，可缩小第二噪声对比估计损失，同时使得如果名词答案特征是正确的，则可使f_{noun_a}和f_noun之间的相似度最大化，如果名词答案特征是错误的，则可使f_{noun_a}和f_noun之间的相似度最小化。

在示例中，可通过公式(5)来确定第二噪声对比估计损失，例如，可使f_noun代替公式(5)中的x_i，使正确的f_{noun_a}代替公式(5)中的y_i，使错误的f_{noun_a}代替公式(5)中的y_j，B为输出的名词答案特征的数量。经过以上替换，可获得第二噪声对比估计损失，从而可在使第二噪声对比估计损失缩小的过程中，使正确的名词答案特征得向量表示与名词特征的向量表示之间的相似度最大化，同时使错误的名词答案特征的向量表示与名词特征的向量表示之间的相似度最小化。例如，输出的“公园”的名词答案特征的向量表示与正确答案的名词特征的向量表示之间的相似度最大化，而输出的“草地”或“沙滩”的名词答案特征的向量表示与正确答案的名词特征的向量表示之间的相似度最小化。

在一种可能的实现方式中，另一方面，对于文本样本中的动词的文本特征，可通过以下步骤确定第三噪声对比估计损失，从而在训练过程中提升对于动词的文本特征的感知能力。根据所述跨模态匹配模型、对文本样本中的动词进行随机去除后的第二训练文本，以及与所述文本样本匹配的视频样本，确定第三噪声对比估计损失，包括：通过所述文本特征编码模型，对所述第二训练文本进行特征提取，获得动词问题词特征；通过所述视频特征编码模型，对所述文本样本匹配的视频样本进行特征提取，获得查询参考特征；通过所述跨模态匹配模型，对所述动词问题词特征和所述查询参考特征，获得动词答案特征；将去除的动词输入所述文本特征编码模型，获得动词特征；根据所述动词特征和所述动词答案特征，确定所述第三噪声对比估计损失。

在一种可能的实现方式中，可通过对比学习的方式，使跨模态匹配模型能够识别出缺失的动词，从而使得跨模态匹配模型提升对于动词特征的感知能力，以及与视频特征的对齐能力。第二训练文本为对于文本样本中的动词进行随机去除后的文本，如图3中的文本样本“游客在一个漂亮的公园欣赏美景”，在进行分词后，可获得“游客”、“欣赏”、“美景”、“公园”几个词语，其中的动词为“欣赏”，可对该动词进行去除，则可获得第二训练文本“游客在一个漂亮的公园[？]美景”，该第二训练文本可作为动词问题输入文本特征编码模型，可获得动词问题词特征。

在一种可能的实现方式中，可将与文本样本匹配的视频样本输入视频特征编码模型，获得查询参考特征，作为参考信息，即，可使跨模态匹配模型以视频的特征作为参考，确定第二训练文本中缺失的动词。

在一种可能的实现方式中，跨模态匹配模型可基于动词问题词特征和查询参考特征来确定缺失的动词的特征，即，获得动词答案特征。该动词答案特征为跨模态匹配模型的输出特征，可能存在误差。

在一种可能的实现方式中，已去除的动词，例如，“欣赏”，可输入至文本特征编码模型，获得动词特征，即，不存在误差的动词答案。进而可将动词特征与动词答案特征进行对比，例如，可通过跨模态匹配模型将动词特征和动词答案特征映射至上述特征空间，获得动词答案特征的向量表示f_{verb_a}，以及动词特征的向量表示f_verb，并基于f_{verb_a}和f_verb来确定第三噪声对比估计损失。在训练过程中，可缩小第三噪声对比估计损失，同时使得如果动词答案特征是正确的，则可使f_{verb_a}和f_verb之间的相似度最大化，如果动词答案特征是错误的，则可使f_{verb_a}和f_verb之间的相似度最小化。

在示例中，可通过公式(5)来确定第三噪声对比估计损失，例如，可使f_verb代替公式(5)中的x_i，使正确的f_{verb_a}代替公式(5)中的y_i，使错误的f_{verb_a}代替公式(5)中的y_j，B为输出的动词答案特征的数量。经过以上替换，可获得第三噪声对比估计损失，从而可在使第三噪声对比估计损失缩小的过程中，使正确的动词答案特征得向量表示与动词特征的向量表示之间的相似度最大化，同时使错误的动词答案特征的向量表示与动词特征的向量表示之间的相似度最小化。例如，输出的“欣赏”的动词答案特征的向量表示与正确答案的动词特征的向量表示之间的相似度最大化，而输出的“饱览”或“游玩”的动词答案特征的向量表示与正确答案的动词特征的向量表示之间的相似度最小化。

在一种可能的实现方式中，在获得以上第一噪声对比估计损失、第二噪声对比估计损失和第三噪声对比估计损失后，可通过以下公式(6)来确定特征融合对比损失：

其中，为所述特征融合对比损失，/>为所述第一噪声对比估计损失，为所述第二噪声对比估计损失，/>为所述第三噪声对比估计损失。

在一种可能的实现方式中，为了提升跨模态检索的准确性，还可在训练过程中提升匹配的文本样本和视频样本的特征信息的相似度，并缩小不匹配的文本样本和视频样本的特征信息的相似度。根据所述样本文本特征向量集和所述样本目标特征向量集，确定视频文本匹配对比损失，包括：根据文本样本集中任意文本样本的样本文本特征向量集、视频样本集中的与所述文本样本匹配的视频样本的样本目标特征向量集，以及所述视频样本集中的与所述文本样本不匹配的视频样本的样本目标特征向量集，确定第一对比损失；根据所述视频样本集中任意视频样本的样本目标特征向量集、所述文本样本集中与所述视频样本匹配的文本样本的样本文本特征向量集，以及所述文本样本集中与所述视频样本不匹配的文本样本的样本文本特征向量集，确定第二对比损失；根据所述第一对比损失和所述第二对比损失，确定所述视频文本匹配对比损失。

在一种可能的实现方式中，在通过文本检索视频的过程中，可利用以上全连接网络计算文本样本的样本文本特征向量集与匹配的视频样本的样本目标特征向量集之间的相关性得分，并计算样本文本特征向量集与不匹配的视频样本的样本目标特征向量集之间的相关性得分。进一步地，可对于文本样本集中每个文本样本，均进行以上处理，可获得多个相关性得分，基于这些相关性得分，可获得第一对比损失。

在一种可能的实现方式中，在通过视频检索文本的过程中，可利用以上全连接网络计算视频样本的样本目标特征向量集与匹配的文本样本的样本文本特征向量集之间的相关性得分，并计算样本目标特征向量集与不匹配的文本样本的样本文本特征向量集之间的相关性得分。进一步地，可对于视频样本集中的每个视频样本，均进行以上处理，获得多个相关性得分，基于这些相关性得分，可获得第二对比损失。

在一种可能的实现方式中，可根据第一对比损失和第二对比损失，确定视频文本匹配对比损失，在示例中，可根据以下公式(7)确定视频文本匹配对比损失

其中，Sim(T,V)为匹配的样本文本特征向量集与样本目标特征向量集之间的相关性得分，为样本文本特征向量集与不匹配的样本目标特征向量集之间的相关性得分，/>为样本目标特征向量集与不匹配的样本文本特征向量集之间的相关性得分，[]₊表示取中括号中的值与0之间的最大值。在训练过程中，可使得视频文本匹配对比损失减小，从而使得不匹配的样本目标特征向量集与样本文本特征向量集之间的相关性得分最小化，并使得匹配的样本文本特征向量集与样本目标特征向量集之间的相关性得分最大化。

在一种可能的实现方式中，在获得目标感知对比损失特征融合对比损失和视频文本匹配对比损失/>后，可根据以下公式(8)确定所述综合损失/>

在一种可能的实现方式中，可使用综合损失对所述文本特征编码模型、所述视频特征编码模型和所述跨模态匹配模型进行训练，即，利用综合损失进行反向传播，调整上述模型的参数，使得综合损失最小化。并可迭代执行训练处理，在达到训练条件后停止训练，所述训练条件可包括综合损失收敛，或者模型在测试集中的测试结果符合要求等，本公开对训练条件不做限制。

图4示出根据本公开实施例的基于细粒度感知的文本视频跨模态检索方法的应用示意图。

在示例中，可使用tokenizer模型进行分词，使用CLIP TextFormer作为文本特征编码模型，使用Faster RCNN作为图像检测模型，CLIP VideoFormer作为视频特征编码模型。并可通过BridgeNet模型作为跨模态匹配模型。

在示例中，可在Web Vid2.5M和Google Conceptual Captions(CC3M)数据集上进行以上模型的训练，其中，Web Vid2.5M包含了2.5M视频-文本对，CC3M包含了3.3M图像-文本对。并可在MSR-VTT、MSVD、LSMDC、DiDeMo和HowTo100M数据集上验证和测试。其中MSR-VTT包含1万条视频和20万条文本描述，其中，9000条视频为验证集，1000条视频为测试集。MSVD包含1970条视频和8万条文本描述，1300条视频为验证集，670条视频为测试集。LSMDC来源于202个影视的118081条视频片段，7408条视频为验证集，1000条视频为测试集。DiDeMo包含1万条视频和4万条文本数据，6000条视频为验证集，4000条视频为测试集，可将一条视频的所有描述文本拼接在一起作为单个视频的文本描述。HowTo100M包含1.22M视频和136M文本描述，73万条视频为验证集，49万条视频为测试集。

在示例中，在进行上述训练后，可利用文本特征编码模型获得标题文本的文本特征向量集{T₁,T₂…T_n}，并利用视频特征编码模型分别获得N个视频的目标特征向量集{V₁,V₂…V_n}。

在示例中，可通过跨模态匹配模型将标题文本的文本特征向量集与视频1的目标特征向量集进行对齐，并确定二者的相关性得分；通过跨模态匹配模型将标题文本的文本特征向量集与视频2的目标特征向量集进行对齐，并确定二者的相关性得分……可迭代执行此处理，直到获得标题文本与各个视频的相关性得分。进一步地，可按照相关性得分，对各个视频进行排序，从而可获得基于标题文本进行视频检索的检索结果。

图5示出根据本公开实施例的基于细粒度感知的文本视频跨模态检索装置的框图，如图3所示，所述装置包括：

文本编码模块11，用于通过文本特征编码模型，对待匹配文本进行特征提取，获得所述待匹配文本的多个词语的文本特征向量集，其中，所述多个词语包括动词和名词，所述特征向量集中包括与所述动词对应的文本特征向量，以及与所述名词对应的文本特征向量；

视频编码模块12，用于通过视频特征编码模型，对待匹配视频进行特征提取，获得所述待匹配视频中多个目标对象的目标特征向量集，其中，所述目标特征向量集中包括与多个目标对象分别对应的目标特征向量；

匹配模块13，用于通过跨模态匹配模型，确定所述目标特征向量集和所述文本特征向量集之间的相关性得分，其中，所述相关性得分用于在多个待匹配视频中检索与所述待匹配文本对应的视频，或者用于在多个待匹配文本中检索与所述待匹配视频对应的文本，所述跨模态匹配模型是通过对文本样本中的动词或名词进行随机去除后的训练文本进行训练获得的。

在一种可能的实现方式中，所述文本编码模块进一步用于：

根据多个所述文本特征向量，获得所述文本特征向量集。

在一种可能的实现方式中，所述视频编码模块进一步用于：

对所述待匹配视频进行采样，获得多个采样帧；

根据多个所述目标特征向量，获得所述目标特征向量集。

在一种可能的实现方式中，所述匹配模块进一步用于：

将所述相似度输入全连接网络，获得所述相关性得分。

在一种可能的实现方式中，所述训练模块进一步用于：

将去除的名词输入所述文本特征编码模型，获得名词特征；

在一种可能的实现方式中，所述训练模块进一步用于：

将去除的动词输入所述文本特征编码模型，获得动词特征；

在一种可能的实现方式中，所述训练模块进一步用于：

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。

本公开实施例还提出一种基于细粒度感知的文本视频跨模态检索设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现如上任一实施例提供的云应用管理方法的指令。

本公开实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的云应用管理方法的操作。

基于细粒度感知的文本视频跨模态检索设备可以被提供为终端、服务器或其它形态的设备。

图6示出根据本公开实施例的一种基于细粒度感知的文本视频跨模态检索设备800的框图。例如，设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端设备。

参照图6，设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出接口812，传感器组件814，以及通信组件816。

处理组件802通常控制设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为设备800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边缘，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

输入/输出接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为设备800的显示器和小键盘，传感器组件814还可以检测设备800或设备800一个组件的位置改变，用户与设备800接触的存在或不存在，设备800方位或加速/减速和设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于设备800和其他设备之间有线或无线方式的通信。设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器804，上述计算机程序指令可由设备800的处理器820执行以完成上述方法。

图7示出根据本公开实施例的一种电子设备1900的框图。例如，电子设备1900可以被提供为一终端或服务器。参照图7，电子设备1900包括处理单元1922，其进一步包括一个或多个处理器，以及由存储单元1932所代表的存储器资源，用于存储可由处理单元1922的执行的指令，例如应用程序。存储单元1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理单元1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源单元1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出接口1958。电子设备1900可以操作基于存储在存储单元1932的操作***，例如WindowsServer^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储单元1932，上述计算机程序指令可由电子设备1900的处理单元1922执行以完成上述方法。

本公开可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

可以理解，本公开提及的上述实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

注意，除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种基于细粒度感知的文本视频跨模态检索方法，其特征在于，包括：

通过跨模态匹配模型，确定所述目标特征向量集和所述文本特征向量集之间的相关性得分，其中，所述相关性得分用于在多个待匹配视频中检索与所述待匹配文本对应的视频，或者用于在多个待匹配文本中检索与所述待匹配视频对应的文本，所述跨模态匹配模型是通过对文本样本中的动词或名词进行随机去除后的训练文本进行训练获得的；

所述方法还包括：

2.根据权利要求1所述的基于细粒度感知的文本视频跨模态检索方法，其特征在于，通过文本特征编码模型，对待匹配文本进行特征提取，获得所述待匹配文本的多个词语的文本特征向量集，包括：

根据多个所述文本特征向量，获得所述文本特征向量集。

3.根据权利要求1所述的基于细粒度感知的文本视频跨模态检索方法，其特征在于，通过视频特征编码模型，对待匹配视频进行特征提取，获得所述待匹配视频中多个目标对象的目标特征向量集，包括：

对所述待匹配视频进行采样，获得多个采样帧；

根据多个所述目标特征向量，获得所述目标特征向量集。

4.根据权利要求1所述的基于细粒度感知的文本视频跨模态检索方法，其特征在于，通过跨模态匹配模型，确定所述目标特征向量集和所述文本特征向量集之间的相关性得分，包括：

将所述相似度输入全连接网络，获得所述相关性得分。

5.根据权利要求1所述的基于细粒度感知的文本视频跨模态检索方法，其特征在于，根据所述样本文本特征向量集、所述样本目标特征向量集、所述文本全局特征向量和所述视频全局特征向量，确定目标感知对比损失，包括：

6.根据权利要求1所述的基于细粒度感知的文本视频跨模态检索方法，其特征在于，根据所述跨模态匹配模型、对文本样本中的动词或名词进行随机去除后的训练文本、与所述文本样本匹配的视频样本，以及所述文本全局特征向量和所述视频全局特征向量，确定特征融合对比损失，包括：

7.根据权利要求6所述的基于细粒度感知的文本视频跨模态检索方法，其特征在于，根据所述跨模态匹配模型、对文本样本中的名词进行随机去除后的第一训练文本，以及与所述文本样本匹配的视频样本，确定第二噪声对比估计损失，包括：

将去除的名词输入所述文本特征编码模型，获得名词特征；

8.根据权利要求6所述的基于细粒度感知的文本视频跨模态检索方法，其特征在于，根据所述跨模态匹配模型、对文本样本中的动词进行随机去除后的第二训练文本，以及与所述文本样本匹配的视频样本，确定第三噪声对比估计损失，包括：

将去除的动词输入所述文本特征编码模型，获得动词特征；

9.根据权利要求1所述的基于细粒度感知的文本视频跨模态检索方法，其特征在于，根据所述样本文本特征向量集和所述样本目标特征向量集，确定视频文本匹配对比损失，包括：

10.一种基于细粒度感知的文本视频跨模态检索装置，其特征在于，包括：

匹配模块，用于通过跨模态匹配模型，确定所述目标特征向量集和所述文本特征向量集之间的相关性得分，其中，所述相关性得分用于在多个待匹配视频中检索与所述待匹配文本对应的视频，或者用于在多个待匹配文本中检索与所述待匹配视频对应的文本，所述跨模态匹配模型是通过对文本样本中的动词或名词进行随机去除后的训练文本进行训练获得的；

所述装置还包括，训练模块，用于：

11.一种基于细粒度感知的文本视频跨模态检索设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至9中任意一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-9中任一项所述的方法。