CN117725261A

CN117725261A - 一种视频文本跨模态检索方法、装置、设备与介质

Info

Publication number: CN117725261A
Application number: CN202311654788.3A
Authority: CN
Inventors: 赵山; 马文涛; 袁鹏飞; 辜丽川; 吴晓倩
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-03-19

Abstract

本发明公开了一种视频文本跨模态检索方法、装置、设备与介质，涉及跨模态检索技术领域，包括：获得视频特征表征和文本特征表征；建立多模态对比知识蒸馏模型，包括多模态对比损失教师模块和配对排序损失学生模块；将频数据特征表征和文本数据特征表征输入到多模态对比损失教师模块进行训练，获得包含有若干类特征表征的公共表征空间、软标签相似矩阵；将视频数据特征表征和文本数据特征表征输入到配对排序损失学生模块中进行训练；利用配对排序损失学生模块进行跨模态检索。本发明基于软标签相似矩阵、多模态对比损失、配对排序损失学生模块协同训练，将鲁棒强的信息传递到配对排序损失学生模块中，提高了排序损失学生模块的检索准确性。

Description

一种视频文本跨模态检索方法、装置、设备与介质

技术领域

本发明涉及跨模态检索技术领域，特别涉及一种视频文本跨模态检索方法、装置、设备与介质。

背景技术

随着移动互联网和数字媒体的快速发展，以视频为载体的多媒体数据在网络空间中不断生成。视频文本跨模态检索作为一种有前景的数据管理技术，已经受到学术界和工业界的广泛关注。

对比学习是一种可以学习具有强判别性的特征表征以提高下游任务性能的自监督学习框架,在多模态应用中已取得了令人瞩目的成就，如跨模态检索。尽管已有方法通过对比损失在图片-文本匹配中取得了很好的结果，但学习视频和文本之间的语义对齐更具挑战性，因为视频比图像包含更复杂的时空表征信息。知识蒸馏本质上是一种模型无关的压缩策略，用于在教师-学生范式中生成高效模型同时保持性能，即把从大模型中提取的知识传递给另一个模型以作为监督信号。它已被广泛应用于包括推荐***和跨模态检索等在内的领域。

在视频文本检索任务中，一个视频可能由多个文本描述，而一个文本描述也可能对应于多个不同的视频。现有的视频文本跨模态检索方法都倾向于学习一个公共表征空间，在这个空间中，不同模态的样本通过设定的配对排序损失函数进行相似性度量比较，其中视频文本正对被相互拉近，而负对则被推远；配对排序损失专注于视频和文本之间全局特征表征的距离。

然而，视频中的语义概念往往比较复杂，一个视频可能包含多个对象、场景和动作，而一个文本描述也可能涉及多个方面，导致公共表征空间中存在多个可能的表示，造成公共表征空间不稳，从而使得学生模块从该公共表征空间中学的跨模态信息不具有鲁棒性，则在使用该学生模块进行跨模态检索时的获得的检索结果不准确。

发明内容

本发明实施例提供一种视频文本跨模态检索方法、装置、设备与介质，可以解决现有技术中，由于公共表征空间不稳造成知识蒸馏模型中学生模块的检索结果不准确的问题。

本发明实施例提供一种视频文本跨模态检索方法，包括：

获得视频数据、描述视频数据的文本数据对应的视频特征表征、文本特征表征；

建立包括多模态对比损失教师模块和配对排序损失学生模块的多模态对比知识蒸馏模型；

将视频特征表征和文本特征表征输入到多模态对比损失教师模块中，通过引入概率的多模态对比损失函数对多模态对比损失教师模块进行训练，所述多模态对比损失教师模块包含有用于将视频特征表征和文本特征表征映射到公共表征空间的共享神经网络层；

基于训练完的多模态对比损失教师模块获得训练完的公共表征空间，根据训练完的公共表征空间输出软标签相似矩阵；

将视频特征表征和文本特征表征输入到配对排序损失学生模块中，通过最小化配对排序损失学生模块输出的结果与对应的软标签相似矩阵的差距对排序损失学生模块进行训练；

使用训练完成的配对排序损失学生模块进行视频文本的跨模态检索。

进一步的，所述多模态对比损失教师模块训练过程中使用的多模态对比损失函数为：

其中，表示第j个实例的第i个模态的数据样本，/>表示第j个实例的第i个模态的数据样本的特征表征向量，n表示一个batch-size内实例样本的数量，m表示模态数目；τ是超参数，P是/>在包含m个模态数据的实例样本中属于j的概率。

进一步的，所述配对排序损失学生模块训练过程中使用的损失函数为：

L＝αL_rank+(1-α)L_mc

L_rank＝[Δ+S(V⁺,T^-)-S(V⁺,T⁺)]+[Δ+S(T⁺,V^-)-S(T⁺,V⁺)]

其中，损失函数L用于计算配对排序损失学生模块输出的结果与对应的软标签相似矩阵的差距，L_rank是配对排序损失，α是调节参数；V和T分别表示视频特征表征和文本特征表征，(V⁺,T⁺)和(T⁺,V⁺)表示视频特征表征和文本特征表征相匹配的正对，(V⁺,T^-)和(T⁺,V^-)表示视频特征表征和文本特征表征不匹配的负对S(·,·)表示度量准则余弦距离，Δ是预定义的边界阈值。

进一步的，所述表示第j个实例的第i个模态的数据样本的特征表征向量，包括：

其中，L是公共表征空间的维度，g_i是第i个模态特定的特征表征嵌入函数。

进一步的，所述获得视频数据和文本数据对应的视频特征表征和文本特征表征，包括：

使用预训练的ResNet作为骨干网络对视频数据进行编码，获得视频特征表征；

利用预训练的GloVe对文本编码器进行初始化，使用初始化后的文本编码器对所述文本数据进行编码，获得文本特征表征。

进一步的，所述对所述多模态对比损失教师模块进行训练和所述对所述配对排序损失学生模块进行训练过程中使用的优化算法是ADAM优化器。

一种视频文本跨模态检索装置，包括：

数据采集模块，用于获得视频数据、描述视频数据的文本数据对应的视频特征表征、文本特征表征；

模型训练模块，用于：

跨模态检索模块，用于使用训练完成的配对排序损失学生模块进行视频文本的跨模态检索。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述视频文本跨模态检索方法。

一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述视频文本跨模态检索方法。

本发明实施例提供一种视频文本跨模态检索方法，与现有技术相比，其有益效果如下：

本发明在训练多模态对比损失教师模块的过程中，通过所设计的引入概率的多模态对比损失函数使得视觉-文本联合语义公共表征空间中不同模态间的差距最大化，获得了稳定的公共表征空间，然后基于该稳定的公共表征空间获得软标签相似矩阵，基于软标签相似矩阵、多模态对比损失、配对排序损失学生模块协同训练，将鲁棒强的信息传递到配对排序损失学生模块中，提高了排序损失学生模块的检索准确性。

附图说明

图1为多模态对比知识蒸馏模型结构示意图；

图2为MSR-VTT数据集上的皮尔逊相关性可视化；

图3为MSR-VTT数据集上的相似度分布；

图4为不同的α值对MCKD模型在R@1性能指标上的影响。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

实施例

配对排序损失(Pair-wise Ranking Loss)是一种在视频文本跨模态检索任务中被广泛使用的目标函数，其通过预定义的边界阈值使得正样本对之间的距离小于负样本对之间的距离。现有方法采用配对排序损失专注于视频和文本之间全局特征表征的距离。然而，仅使用配对排序损失用于全局特征表征对齐是具有挑战性的，有时也不适合现实实践中的视频文本跨模态检索任务。这是因为视频中的语义概念往往比较复杂，常见的视频文本检索的公共基准数据集中，存在多个文本句子能够从不同视图描述相同的视频。因此，多视图的文本表征为配对排序损失带来了独特的挑战：用于描述不同视频的文本之间的语义边界可能是模糊的。原因在于，如果文本只与其对应的视频概念部分对齐就会在文本和非对应视频之间带来虚假的关联。也就是说，对应视频的文本在配对排序损失中并不一直都是可靠的正样本对。因此，现有依赖于不可靠正样本对的解决方案会带来不稳定的优化，同时也会导致视频文本检索公共表征空间的崩塌。此外，配对排序损失采用预先定义的硬相似度(hard similarity)来确定正对和负对。然而，硬相似度可能会丢弃实例内和实例间的相关性。

根据上述分析，为了保持稳定且具有区分性的视觉-文本联合语义公共表征空间，就需要捕捉文本特征表征与其对应视频特征表征之间的语义关系，以更好地筛选可靠的正负样本对。

具体来说，描述不同视频的文本之间存在语义边界的模糊性，这对于实例级的视频-文本跨模态检索任务显然是不可取的。为了抑制这种不可靠的文本特征表征，提出的MCKD模型将视频及其对应的文本命名为“视频/文本组”，其基于一个强有力的假设：每个“视频/文本组”都是不同的实例类别，然后，考虑到多模态数据本质上由多个模态组成，通过最大化视觉-文本联合语义公共表征空间中不同模态间的一致性来学习特征表征，这是一种自监督的方法来实现“视频/文本组”的分类。值得注意的是，“视频/文本组”可以避免公共表征空间坍塌的风险，从而导致多个文本是有区分性的(同一视频对应不同的视图)，例如，“two dogs are chasing on the lawn”在多模态对比学习中其在语义上等同于“twodogs onthe lawn”。因此，需要采用配对排序损失来确保实例内文本之间的差异性。此外，配对排序损失采用预先定义的硬相似度(hard similarity)来确定正对和负对。然而，硬相似度可能会丢弃实例内和实例间的相关性。本发明提出了“软标签”相似度(softsimilarity)用于在视频-文本跨模态检索任务。简单地说，利用知识蒸馏模块来结合多模态对比损失和配对排序损失的优点。即多模态对比损失通过缩小视频-文本之间的异构鸿沟和语义鸿沟，然后为配对排序损失提供“软标签”监督信息，以确保实例内文本之间的差异性。

请参阅图1，本说明书提供一种视频文本跨模态检索方法，包括以下步骤：

1、建立多模态对比知识蒸馏模型，用于捕获文本特征与其对应视频特征之间的语义关系，从而构建一个稳定且具有区分性的视觉-文本联合语义公共表征空间，其中，多模态对比知识蒸馏模型包括：

多模态对比损失教师模块，采用多模态对比学习来弥合视频文本之间的语义鸿沟，以最大限度地分散模态间的样本，同时在公共表征空间中压缩模态内的样本，进而消除不可靠的文本表征。多模态对比损失教师模块包含有用于将视频特征表征和文本特征表征映射到公共表征空间的共享神经网络层。输出实例间互信息相似性矩阵S，为配对排序损失提供“软标签”监督信息；

配对排序损失学生模块，利用教师模型传递的“软标签”监督信息，结合多模态对比损失和配对排序损失正则化跨模态联合语义公共表征空间，以确保实例内文本之间的差异性。

2、对于视频编码，利用预训练的ResNet作为骨干网络，对于文本编码，将词嵌入大小设置为300，并利用预训练的GloVe对编码器进行初始化，具体地：

使用预训练的ResNet作为骨干网络对视频数据进行编码，获得视频特征表征；利用预训练的GloVe对文本编码器进行初始化，使用初始化后的文本编码器对所述文本数据进行编码，获得文本特征表征。

3、通过知识蒸馏模块结合配对排序损失和多模态对比损失训练所述多模态对比知识蒸馏模型；其中，多模态对比损失函数为：

其中，n表示一个batch-size内实例样本的数量，m表示模态数目，表示第j个实例的第i个模态的数据样本(包括视频、文本和音频等)，/>表示/>在包含m个模态数据的实例样本中属于实例j的概率：

表示第j个实例的第i个模态的数据样本的特征表征向量，由如下公式得到：其中L是公共表征空间的维度，g_i是第i个模态特定的特征表征嵌入函数。

配对排序损失为：

L_rank＝[Δ+S(V⁺,T^-)-S(V⁺,T⁺)]+[Δ+S(T⁺,V^-)-S(T⁺,V⁺)]

V和T分别表示视频和文本的输入特征表征，S(·,·)表示度量准则余弦距离。对于给定的四元输入(V⁺,T⁺,V^-,T^-)，其中，(V⁺,T⁺)和(T⁺,V⁺)表示视频特征表征和文本特征表征相匹配的正对，(V⁺,T^-)和(T⁺,V^-)表示视频特征表征和文本特征表征不匹配的负对，其包含视频和文本的特征表征向量，正对(V⁺,T⁺)和(T⁺,V⁺)将被相互拉近，而难度较大的负对(V⁺,T^-)和(T⁺,V^-)则被推到比预定义的边界阈值Δ更远。

4、利用训练完成的所述多模态对比知识蒸馏模型进行视频文本的跨模态检索。

以上步骤具体包括：

配对排序损失学生模块：传统的配对排序损失(Pair-wise Ranking Loss)通过预定义的边界阈值使得正样本对之间的距离小于负样本对之间的距离。然而，硬相似度可能会丢弃实例内和实例间的相关性。本发明采用“软标签”相似度(soft similarity)用于视频-文本跨模态检索任务，即多模态对比损失通过缩小视频-文本之间的异构鸿沟和语义鸿沟，并输出相似度矩阵S，然后为配对排序损失提供“软标签”监督信息，以确保实例内文本之间的差异性。具体来说，在一个batch-size中，V和T分别表示视频和文本的输入特征表征。对于给定的四元输入(V⁺,T⁺,V^-,T^-)，其包含视频和文本的特征表征向量，正对(V⁺,T⁺)和(T⁺,V⁺)将被相互拉近，而难度较大的负对(V⁺,T^-)和(T⁺,V^-)则被推到比预定义的边界阈值Δ更远。即(V⁺,T⁺,V^-,T^-)对于一组输入配对排序损失可描述为：

L_rank＝[Δ+S(V⁺,T^-)-S(V⁺,T⁺)]+[Δ+S(T⁺,V^-)-S(T⁺,V⁺)] (1)

其中，S(·,·)表示度量准则，在本发明中采用余弦距离。对于一个查询V⁺作为“video anchor”，其对应的文本描述应该具有更高的相似性。同时，对于一个查询T⁺作为“text anchor”，其语义相关的视频排名应该更高。配对排序损失是一种基本的匹配策略，尽管被广泛应用，但它侧重于视频和文本的全局特征表征之间的距离。因此，在真实世界的视频-文本检索中有时并不适用。例如，给定几个语义略有不同的视频帧，模型可能会输出相似的特征表征，导致与不对应的文本之间产生虚假关联。

因此，为了保持稳定且具有区分性的视觉-文本联合语义公共表征空间，受知识蒸馏和对比学习在跨模态检索任务中广泛应用的启发，本发明提出一种新颖的视频-文本匹配模型MCKD，其可以通过知识蒸馏来传递鲁棒且结构化的实例间互信息，通过配对排序损失并行正则化跨模态联合语义公共表征空间。

多模态对比损失教师模块:单模态数据的对比训练是通过数据增强的方式实现的。相比而言，多模态数据天然由多个模态组成，可以很自然地利用每个实例样本多个模态的数据来最大化互信息。本发明提出了一种实例级多模态对比损失，明确且充分地考虑了模态内和模态间的分布，以提高互信息并抑制实例内不可靠的语义文本表征。具体而言，根据“视频/文本组”假设(即每个“视频/文本组”是一个不同的实例类别，每个实例都包含视频和文本模态的数据)定义在包含m个模态数据的实例样本中属于j的概率如下：

其中，n表示一个batch-size内实例样本的数量，m表示模态数目，表示第j个实例的第i个模态的数据样本(包括视频、文本和音频等),j∈[1,n],i∈[1,m],/>表示第j个实例的第i个模态的数据样本的特征表征向量，由如下公式得到：

其中L是公共表征空间的维度，g_i是第i个模态特定的特征表征嵌入函数。

多模态对比损失如下：

通过最小化公式(4)，公共表征空间中语义相关的正样本将被拉近(即被视为属于同一实例的数据，如对于则/>)；负样本将被推远(即被视为不属于同一实例的数据，如对于/>则/>)

MCKD模型的整体损失函数可以描述为：

L＝αL_rank+(1-α)L_mc

其中，超参数α平衡了每类约束的影响。

MCKD模型采用随机梯度下降优化算法ADAM，以batch-to-batch的方式最小化联合损失函数L。因此，MCKD模型可以最大化内在共生模态之间的一致性，以弥合不同模态间的鸿沟并挖掘实例内和实例间的区别，从而保持稳定且具有区分性的视觉-文本联合语义公共表征空间。

本说明书采用通用的优化器ADAM来训练MCKD模型，并部署Two-Sta ge的训练策略：

Stage I：首先，冻结预训练的视频文本双塔结构的骨干网络权重，仅使用提出的多模态对比损失L_mc来微调剩余部分的参数，这个阶段的主要目的是抑制模糊的文本语义表征；

Stage II：接下来，当Stage I收敛时，通过交互蒸馏(即结合L_mc和L_rank的整体损失L)对视频文本匹配进行微调。也就是说，采用知识蒸馏模块来传递鲁棒且结构化的实例间互信息；

本说明书提供的基于多模态对比知识蒸馏视频文本跨模态检索方法，采用自监督教师模型的通用知识来纠正语义边界的模糊性。具体来说，教师模型通过在多模态对比学习中最大化模态的间互信息，以生成稳定的视觉-文本联合语义表征空间。然后，与配对排序损失协同训练，将鲁棒且结构化的实例间互信息传递到学生模型中，从而提高模型的匹配性能。

本说明书还提供了实验效果：

数据集：进行了广泛的实验，以评估多模态对比知识蒸馏模型的效果。的模型在视频文本检索数据集MSR-VTT、TGIF、VATEX与Youtube2Text上进行训练和测试。其中MSR-VTT数据集由10k个视频组成，每个视频时长10～30秒且对应20个自然文本描述。6573个视频用于训练，497和2990个视频分别用于验证和测试。TGIF数据集由GIF格式的视频组成，每个视频对应1～3个自然文本描述。79451个视频用于训练，10651和11310个视频分别用于验证和测试。VATEX数据集包含34991个视频，每个视频包含10个英文和10个中文的自然文本描述。25991个视频用于训练，3000和6000个视频分别用于验证和测试。值得注意的是，本实验只使用每个视频对应的英文文本描述。

Youtube2Text数据集包含1970个视频，每个视频有40个自然文本描述。1200个视频用于训练，100和670个视频用于验证和测试。只利用Youtube2Text的测试集来评估所提出MCKD模型的泛化性能。

评价指标：采用三个常用的评价指标来衡量MCKD模型的性能，即召回率(R@K)、中位数排名(MedR)和平均排名(MnR)。其中，R@K表示正确匹配出现在检索列表前K位的可能性，遵循常规的设置，即K＝1，5和10。MedR和MnR分别表示最接近真实结果的中位数和平均数，且得分越低越好。同时，为了评估MCKD模型的整体性能，还使用了所有R@K之和的“Rsum”指标。

实验结果：将提出的MCKD模型与两种范式(基于无图的范式和基于图的范式)的模型进行比较，以评估其在视频文本跨模态检索任务上的优越性。这两种范式包括了13个SoTA基线方法。对于基于无图的范式，比较了VSE、VSE++、W2VV、DualEn、S2Bin、DualEn*，PSM、T2VLAD。对于基于图的范式，比较了ViSERN、HGR、HANet、HCGC、QAMF。为了比较的公平性，实现了一些方法发布的代码和特征表征。同时，在适当的时候直接引用了部分论文中的原始实验数据。

表1展示了MCKD模型和13个SoTA基线方法在MSR-VTT数据集上的比较结果，可以得出以下两个观察：1)相比于所有基线方法(包括传统的和最先进的视频文本检索方法)，MCKD模型都能取得最好的性能。与两个代表性的基线方法HGR和HCGC相比，虽然它们都实现了层次图推理来进行细粒度的视频文本匹配，但MCKD同样也优于它们。尤其是，因为HGR方法很难探索视频-文本层次匹配策略，在MCKD模型中则是采用多模态对比损失来建模多模态数据实例样本之间的不变性。而HCGC则在视频-文本跨模态匹配中联合建模多图一致性学习，其提升的性能显著地表明依赖模态内和模态间交互的优势。2)MCKD模型的性能在所有指标(包括R@1，R@5，R@10和Rsum)上也超越SoTA竞争者DualEn*，PSM和T2VLAD。特别是对于反映整体检索质量的Rsum指标，MCKD模型相对提升幅度较大，分别为+21.5％，+14.7％和+6.9％。

表1MCKD模型在MSR-VTT数据集上的性能比较

表2展示了MCKD模型与SoTA基线方法在TGIF和VATEX数据集上的性能比较，从表中的数据可以看到，MCKD在TGIF数据集上始终比其它SoTA基线方法有更好的性能。值得注意的是，相同的方法在表1中有较低的性能，这意味着TGIF数据集比MSR-VTT更复杂。即便如此，MCKD仍然可以在R@K(K＝1，5和10)指标上分别取得6.8％，18.7％和25.6％的性能。而在VATEX数据集上，MCKD再次超越所有列出的方法，并在R@K(K＝1，5和10)指标上保持了39.6％，77.4％和85.4％的性能，相比之下DualEn*则仅为36.8％，73.6％和83.7％。

表2MCKD模型在TGIF和VATEX数据集上的性能比较

综上所述，MCKD与其它SoTA基线方法相比具有明显的优势，表明提出的视频文本跨模态检索方法的有效性。

消融实验：在MSR-VTT数据集上对MCKD模型进行了一系列的消融实验，以探究不同组件(即Two-Stage训练策略、以及L_rank以及L_mc)对模型性能的影响。实验结果如表3所示，从中可以得出以下两个结论：

训练策略：分别采用L_mc和L_rank在Stage I冻结预训练的视频-文本双塔结构骨干网络的权重来评估模型的性能。从表3的前两行可以看出，L_mc取得了更好的结果。由于L_rank关注的是视频和文本全局特征表征之间的距离，不同视频描述的文本在语义边界上存在歧义，这可能会导致文本和其非对应视频之间产生虚假的关联。而L_mc则可以最大化内在共生模态之间互信息的一致性，以弥合视频文本之间的语义鸿沟。在Stage II，只使用L_rank或L_mc时MCKD模型的性能可以持续优于Stage I。甚至比一些SoTA基线方法(如DualEn，S²Bin和HGR)更好。此外，与仅使用L_rank或L_mc的MCKD模型变体相比，结合两种损失函数的完整MCKD具有更高的性能，这表明多模态对比损失可以保持稳定且具有区分性的视觉-文本联合语义公共表征空间，并传递鲁棒且结构化的实例间互信息。

双重损失函数：分别比较了L_rank和L_mc对视频-文本特征表征的分布，以探究L_mc能够学习到模态内有辨别力的特征表征，并为L_rank传递鲁棒且结构化的实例间互信息。如图2和图3所示，从中可以得出以下两点观察：在Stage II的训练中，从MSR-VTT数据集中随机选择100个视频-文本对，并分别用L_rank和L_mc提取特征。同时，如图2所示，对视频和文本两种模态的特征表征进行了皮尔逊相关性可视化。也就是说，两种模态特征表征之间的皮尔逊相关性越低，表明正交性越高。由于L_rank能够显式地考虑实例间的样本距离，于是可以观察到在L_rank训练后，两种模态的特征表征之间的皮尔逊相关性较小。实际上，L_rank鼓励模型寻找细粒度的细节信息，以区分语义相似的“视频/文本组”。为了说明不同损失函数提供的语义空间中正样本对和负样本对的分布情况，本发明还参考了先前工作的做法：在MSR-VTT数据集上定量可视化了实例内相似度分布P和实例间相似度分布Q。由于描述不同视频的文本之间存在模糊的语义边界，可能会导致文本与其非对应视频之间产生虚假的关联。因此，如图3(a)所示，仅使用L_rank会在正样本对和负样本对之间获得相对较大的间隔(即在视觉-文本联合语义公共表征空间中存在许多相似度高的“难”负样本)。利用定量指标函数(数值越低越好)分别计算了仅使用L_rank，仅使用L_mc和完整版MCKD模型(使用L_rank和L_mc)下的指标分数：Area(L_rank)＝0.3246，Area(L_mc)＝0.2714和Area(MCKD)＝0.1673。也就是说，在不同的嵌入公共表征空间中特征的可分离程度可以形式化为Area(MCKD)>Area(L_mc)>Area(L_rank)。因此，MCKD模型可以为视频-文本双向检索提供一个稳定且具有区分性的联合语义公共表征空间。

泛化能力：还评估了提出的MCKD模型在未见过的数据集上的泛化能力，即在Youtube2Text数据集上实施Zero-Shot任务。现有最先进的视频-文本检索方法主要是在原始数据集衍生出来的测试集上进行评估。然而，在实际场景中，将训练好的模型泛化到域外(从未见过的)数据也是评估性能的一个重要指标。因此，在MSR-VTT数据集上训练模型，然后在Youtube2Text测试集上测试性能。如表3所示，可以看到MCKD模型在Youtube2Text数据集上仍能取得很好的性能。与表1中的结果相比，DualEn和VSE++都在MSR-VTT上取得了很好的性能，但是很难在新的数据集上泛化得很好。此外，HGR模型和HCGC模型也有类似的现象。与其它基线方法相比，MCKD模型可以在不同的数据集(包括域内和域外)上都能产生一致性的性能收益。

表3MCKD模型在MSR-VTT数据集上的消融实验

此外，α是平衡配对排序损失和多模态对比损失的关键超参数。因此，在实验的Stage II训练中，尝试以0.1为步长手动调整L_rank和L_mc之间的权重比例(如0.1和0.9，0.2和0.8等)来评估超参数比例的影响。如图4所示，在MSR-VTT数据集上，MCKD模型在一个相对密集的范围内(即0.4和0.6，0.5和0.5，0.4和0.6)可以获得稳定的性能。因此，在发明实验中默认采用1:1比例的权重超参数。

本说明书还提供了6种方法在Youtube2Text数据集上的泛化性能评估，如表4所示。

表4在Youtube2Text数据集上的泛化性能评估

关于视频文本跨模态检索装置的具体限定可以参见上文中对于视频文本跨模态检索方法的限定，在此不再赘述。上述视频文本跨模态检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述视频文本跨模态检索方法。

本说明书还提供了一种计算机设备，在硬件层面，该计算机设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述的视频文本跨模态检索方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种视频文本跨模态检索方法，包括：

2.如权利要求1所述的一种视频文本跨模态检索方法，其特征在于，所述多模态对比损失教师模块训练过程中使用的多模态对比损失函数为：

3.如权利要求2所述的一种视频文本跨模态检索方法，其特征在于，所述配对排序损失学生模块训练过程中使用的损失函数为：

L＝αL_rank+(1-α)L_mc

L_rank＝[Δ+S(V⁺,T^-)-S(V⁺,T⁺)]+[Δ+S(T⁺,V^-)-S(T⁺,V⁺)]

4.如权利要求2所述的一种视频文本跨模态检索方法，其特征在于，所述表示第j个实例的第i个模态的数据样本的特征表征向量，包括：

5.如权利要求1所述的一种视频文本跨模态检索方法，其特征在于，所述获得视频数据和文本数据对应的视频特征表征和文本特征表征，包括：

6.如权利要求1所述的一种视频文本跨模态检索方法，其特征在于，所述对所述多模态对比损失教师模块进行训练和所述对所述配对排序损失学生模块进行训练过程中使用的优化算法是ADAM优化器。

7.一种视频文本跨模态检索装置，其特征在于，包括：

模型训练模块，用于：

8.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1～6任一所述的方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～6任一项所述的方法。