CN115204301A

CN115204301A - 视频文本匹配模型训练、视频文本匹配方法和装置

Info

Publication number: CN115204301A
Application number: CN202210868349.1A
Authority: CN
Inventors: 刘烁; 全卫泽; 陈思宏; 陈宸; 周明; 严冬明
Original assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-10-18

Abstract

本申请涉及一种视频文本匹配模型训练、视频文本匹配方法、装置、计算机设备、存储介质和计算机程序产品。本申请涉及人工智能技术。所述方法包括：将训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型；参考特征包括音频特征和动作特征中的至少一种；基于同一训练视频对应的参考特征对相应的视频特征进行特征增强，得到训练视频对应的参考增强视频特征；将训练文本对应的训练文本特征，分别和训练视频对应的视频特征、参考增强视频特征进行相似度计算；基于各个训练样本对所对应的相似度集合训练初始视频文本匹配模型，得到目标视频文本匹配模型。采用本方法能够提高模型预测准确性。

Description

视频文本匹配模型训练、视频文本匹配方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频文本匹配模型训练、视频文本匹配方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，出现了视频文本匹配模型，基于视频文本匹配模型可以从大量的视频和文本中确定相互匹配的视频和文本，视频文本匹配模型可以应用于视频文本检索、视频内容推荐、视频内容理解等场景中。

传统技术中，通常是基于视频特征和文本特征训练视频文本匹配模型。然而，视频特征仅仅能够提供视频的图像信息，无法准确表征视频中的丰富信息，通过目前的训练方式训练得到的视频文本匹配模型，存在预测准确性较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高模型预测准确性的视频文本匹配模型训练、视频文本匹配方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

本申请提供了一种视频文本匹配模型训练方法。所述方法包括：

获取训练样本对集合；所述训练样本对集合中的训练样本对包括正样本对和与正样本对相匹配的负样本对，所述训练样本对包括训练视频和训练文本，所述正样本对中的训练视频和训练文本相互匹配；

将所述训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型；所述参考特征包括训练视频对应的音频特征和动作特征中的至少一种；

基于同一训练视频对应的参考特征，对相应的视频特征进行特征增强，得到训练视频对应的参考增强视频特征；所述参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种；

针对同一训练样本对，将训练文本对应的训练文本特征，分别和训练视频对应的视频特征、参考增强视频特征进行相似度计算，得到各个训练样本对分别对应的相似度集合；

基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算训练损失，基于所述训练损失调整所述初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型；所述目标视频文本匹配模型用于确定视频和文本之间的匹配结果。

本申请还提供了一种视频文本匹配模型训练装置。所述装置包括：

训练样本对集合获取模块，用于获取训练样本对集合；所述训练样本对集合中的训练样本对包括正样本对和与正样本对相匹配的负样本对，所述训练样本对包括训练视频和训练文本，所述正样本对中的训练视频和训练文本相互匹配；

特征输入模块，用于将所述训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型；所述参考特征包括训练视频对应的音频特征和动作特征中的至少一种；

特征增强模块，用于基于同一训练视频对应的参考特征，对相应的视频特征进行特征增强，得到训练视频对应的参考增强视频特征；所述参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种；

相似度计算模块，用于针对同一训练样本对，将训练文本对应的训练文本特征，分别和训练视频对应的视频特征、参考增强视频特征进行相似度计算，得到各个训练样本对分别对应的相似度集合；

模型调整模块，用于基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算训练损失，基于所述训练损失调整所述初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型；所述目标视频文本匹配模型用于确定视频和文本之间的匹配结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述视频文本匹配模型训练方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频文本匹配模型训练方法所述的步骤。

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述视频文本匹配模型训练方法所述的步骤。

上述视频文本匹配模型训练方法、装置、计算机设备、存储介质和计算机程序产品，通过获取训练样本对集合；训练样本对集合中的训练样本对包括正样本对和与正样本对相匹配的负样本对，训练样本对包括训练视频和训练文本，正样本对中的训练视频和训练文本相互匹配；将训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型；参考特征包括训练视频对应的音频特征和动作特征中的至少一种；基于同一训练视频对应的参考特征，对相应的视频特征进行特征增强，得到训练视频对应的参考增强视频特征；参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种；针对同一训练样本对，将训练文本对应的训练文本特征，分别和训练视频对应的视频特征、参考增强视频特征进行相似度计算，得到各个训练样本对分别对应的相似度集合；基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算训练损失，基于训练损失调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型；目标视频文本匹配模型用于确定视频和文本之间的匹配结果。这样，视频特征可以提供视频的图像信息，音频特征可以提供视频的声音信息，动作特征可以提供视频的运动信息，基于训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征训练视频文本匹配模型，可以利用视频中丰富的模态信息来提升模型对视频内容的理解，从而提高模型的预测准确性。并且，基于音频特征或动作特征对视频特征进行特征增强、特征引导，可以突出视频中的重要信息，分别基于视频特征和参考增强视频特征，与训练文本特征进行相似度计算，基于计算得到的相似度集合生成的训练损失调整模型参数，能够使得模型更好的建立视频与文本之间的关系，进一步提高模型的预测准确性。

本申请提供了一种视频文本匹配方法。所述方法包括：

获取待匹配视频对应的待匹配视频特征和待匹配参考特征，获取待匹配文本对应的待匹配文本特征；所述待匹配参考特征包括所述待匹配视频对应的音频特征和动作特征中的至少一种；

基于所述待匹配参考特征，对所述待匹配视频特征进行特征增强，得到所述待匹配视频对应的参考增强视频特征；所述参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种；

将所述待匹配文本特征，分别和所述待匹配视频特征、所述参考增强视频特征进行相似度计算，得到所述待匹配视频和所述待匹配文本对应的相似度集合；

基于所述待匹配视频和所述待匹配文本对应的相似度集合，确定所述待匹配视频和所述待匹配文本之间的匹配结果。

在一个实施例中，所述对所述待匹配视频对应的视频文本特征和所述待匹配文本对应的目标文本特征进行相似度计算，得到所述视频文本特征和所述目标文本特征之间的参考相似度，包括：

计算所述视频文本特征和所述目标文本特征之间的初始相似度，得到初始相似度矩阵；

对所述初始相似度矩阵中数值大于预设阈值的矩阵元素进行数量统计，得到第一数量；

对所述待匹配文本和视频文本分别对应的文本词语数量进行融合，得到第二数量；所述视频文本是指所述视频文本特征对应的文本；

基于所述第一数量和所述第二数量，得到所述视频文本特征和所述目标文本特征之间的参考相似度。

在一个实施例中，当前文本为音频文本、图像文本和待匹配文本中的任意一种，所述当前文本对应的文本特征为音频文本特征、图像文本特征或目标文本特征中的任意一种，所述当前文本对应的文本特征的生成过程包括以下步骤：

对所述当前文本进行名词提取，得到文本名词；

对所述文本名词进行特征提取，得到所述当前文本对应的文本特征。

在一个实施例中，所述基于所述待匹配参考特征，对所述待匹配视频特征进行特征增强，得到所述待匹配视频对应的参考增强视频特征，将所述待匹配文本特征，分别和所述待匹配视频特征、所述参考增强视频特征进行相似度计算，得到所述待匹配视频和所述待匹配文本对应的相似度集合，包括：

将所述待匹配视频特征、所述待匹配参考特征和所述待匹配文本特征输入目标视频文本匹配模型，得到所述待匹配视频和所述待匹配文本对应的相似度集合；所述目标视频文本匹配模型用于进行特征增强和相似度计算。

本申请还提供了一种视频文本匹配装置。所述装置包括：

特征获取模块，用于获取待匹配视频对应的待匹配视频特征和待匹配参考特征，获取待匹配文本对应的待匹配文本特征；所述待匹配参考特征包括所述待匹配视频对应的音频特征和动作特征中的至少一种；

特征增强模块，用于基于所述待匹配参考特征，对所述待匹配视频特征进行特征增强，得到所述待匹配视频对应的参考增强视频特征；所述参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种；

相似度计算模块，用于将所述待匹配文本特征，分别和所述待匹配视频特征、所述参考增强视频特征进行相似度计算，得到所述待匹配视频和所述待匹配文本对应的相似度集合；

匹配结果确定模块，用于基于所述待匹配视频和所述待匹配文本对应的相似度集合，确定所述待匹配视频和所述待匹配文本之间的匹配结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述视频文本匹配方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频文本匹配方法所述的步骤。

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述视频文本匹配方法所述的步骤。

上述视频文本匹配方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待匹配视频对应的待匹配视频特征和待匹配参考特征，获取待匹配文本对应的待匹配文本特征；待匹配参考特征包括待匹配视频对应的音频特征和动作特征中的至少一种；基于待匹配参考特征，对待匹配视频特征进行特征增强，得到待匹配视频对应的参考增强视频特征；参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种；将待匹配文本特征，分别和待匹配视频特征、参考增强视频特征进行相似度计算，得到待匹配视频和待匹配文本对应的相似度集合；基于待匹配视频和待匹配文本对应的相似度集合，确定待匹配视频和待匹配文本之间的匹配结果。这样，视频特征可以提供视频的图像信息，音频特征可以提供视频的声音信息，动作特征可以提供视频的运动信息，基于待匹配视频对应的视频特征、参考特征和待匹配文本对应的文本特征确定待匹配视频和待匹配文本之间的匹配结果，可以利用视频中丰富的模态信息来提升对视频内容的理解，从而提高匹配准确性。并且，基于音频特征或动作特征对视频特征进行特征增强、特征引导，可以突出视频中的重要信息，进一步提升对视频内容的理解。分别基于视频特征和参考增强视频特征，与文本特征进行相似度计算，基于计算得到的相似度集合确定匹配结果，能够进一步提高匹配准确性。

附图说明

图1为一个实施例中视频文本匹配模型训练方法和视频文本匹配方法的应用环境图；

图2为一个实施例中视频文本匹配模型训练方法的流程示意图；

图3为一个实施例中视频增强视频特征与文本特征匹配网络的示意图；

图4为一个实施例中音频增强视频特征与文本特征匹配网络的示意图；

图5为一个实施例中进行相似度计算和损失计算的流程示意图；

图6为一个实施例中确定测试样本对所对应的预测匹配排名的流程示意图；

图7为一个实施例中对相似度矩阵进行排序的示意图；

图8为一个实施例中视频文本匹配方法的流程示意图；

图9为另一个实施例中视频文本匹配方法的流程示意图；

图10为一个实施例中基于待匹配文本和视频文本计算得到的余弦相似度矩阵的示意图；

图11为一个实施例中计算待匹配文本和视频文本之间相似度的流程示意图；

图12为一个实施例中视频文本匹配方法的架构示意图；

图13为另一个实施例中待匹配文本和视频文本的示意图；

图14为一个实施例中视频文本匹配模型训练装置的结构框图；

图15为一个实施例中视频文本匹配装置的结构框图；

图16为一个实施例中计算机设备的内部结构图；

图17为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、语音技术、自然语言处理、机器学习等技术，具体通过如下实施例进行说明：

本发明实施例可应用于各种场景，包括但不限于云技术、人工智能、数据检索、数据推荐等。

本申请实施例提供的视频文本匹配模型训练方法和视频文本匹配方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储***可以存储服务器104需要处理的数据。数据存储***可以集成在服务器104上，也可以放在云上或其他服务器上。终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。

终端和服务器均可单独用于执行本申请实施例中提供的视频文本匹配模型训练方法和视频文本匹配方法。

例如，服务器获取训练样本对集合；训练样本对集合中的训练样本对包括正样本对和与正样本对相匹配的负样本对，训练样本对包括训练视频和训练文本，正样本对中的训练视频和训练文本相互匹配。服务器将训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型；参考特征包括训练视频对应的音频特征和动作特征中的至少一种。在模型中，基于同一训练视频对应的参考特征，对相应的视频特征进行特征增强，得到训练视频对应的参考增强视频特征，参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种，针对同一训练样本对，将训练文本对应的训练文本特征，分别和训练视频对应的视频特征、参考增强视频特征进行相似度计算，得到各个训练样本对分别对应的相似度集合。服务器基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算训练损失，基于训练损失调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型。

服务器获取待匹配视频对应的待匹配视频特征和待匹配参考特征，获取待匹配文本对应的待匹配文本特征；待匹配参考特征包括待匹配视频对应的音频特征和动作特征中的至少一种。服务器基于待匹配参考特征，对待匹配视频特征进行特征增强，得到待匹配视频对应的参考增强视频特征；参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种。服务器将待匹配文本特征，分别和待匹配视频特征、参考增强视频特征进行相似度计算，得到待匹配视频和待匹配文本对应的相似度集合，基于待匹配视频和待匹配文本对应的相似度集合，确定待匹配视频和待匹配文本之间的匹配结果。

终端和服务器也可协同用于执行本申请实施例中提供的视频文本匹配模型训练方法和视频文本匹配方法。

例如，服务器从终端获取训练样本对集合，基于训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征，对初始视频文本匹配模型进行模型训练，得到目标视频文本匹配模型。

终端发送数据匹配请求至服务器，数据匹配请求携带待匹配视频和待匹配文本分别对应的数据标识，服务器基于数据标识获取待匹配视频对应的待匹配视频特征和待匹配参考特征。服务器基于待匹配参考特征，对待匹配视频特征进行特征增强，得到待匹配视频对应的参考增强视频特征；参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种。服务器将待匹配文本特征，分别和待匹配视频特征、参考增强视频特征进行相似度计算，得到待匹配视频和待匹配文本对应的相似度集合，基于待匹配视频和待匹配文本对应的相似度集合，确定待匹配视频和待匹配文本之间的匹配结果。服务器将匹配结果发送至终端。

在一个实施例中，如图2所示，提供了一种视频文本匹配模型训练方法，以该方法应用于计算机设备来举例说明，该计算机设备可以是上述图1中的终端102或服务器104。参考图2，视频文本匹配模型训练方法包括以下步骤：

步骤S202，获取训练样本对集合；训练样本对集合中的训练样本对包括正样本对和与正样本对相匹配的负样本对，训练样本对包括训练视频和训练文本，正样本对中的训练视频和训练文本相互匹配。

其中，训练样本对集合包括多个训练样本对。一个训练样本对包括一个训练视频和一个训练文本。训练样本对可以分为正样本对和负样本对。正样本对中的训练视频和训练文本相互匹配，也就是，正样本对中的训练视频和训练文本表达的内容、信息是匹配的，正样本对中的训练文本可以用于描述、说明正样本对中的训练视频。负样本对中的训练视频和训练文本不匹配，也就是，负样本对中的训练视频和训练文本表达的内容、信息是不匹配的。

训练样本对集合中的训练样本对包括正样本对和与正样本对相匹配的负样本对。与正样本对相匹配的负样本对包括与正样本对包含同一训练视频和不同训练文本的负样本对、与正样本对包含同一训练文本和不同训练视频的负样本对中的至少一种。

具体地，计算机设备可以在本地或从其他设备上获取训练样本对集合，基于训练样本对集合进行模型训练，得到训练完成的视频文本匹配模型。

步骤S204，将训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型；参考特征包括训练视频对应的音频特征和动作特征中的至少一种。

其中，视频特征是指视频的图像特征，用于表征视频中的图像模态信息。音频特征用于表征视频中的音频模态信息。动作特征用于表征视频中的动作模态信息(即运动模态信息)。参考特征包括训练视频对应的音频特征和动作特征中的至少一种。对训练视频进行特征提取，可以得到训练视频对应的视频特征、动作特征和音频特征。可以基于机器学习模型对训练视频进行特征提取，具体可以基于视频特征提取模型提取训练视频对应的视频特征，基于动作特征提取模型提取训练视频对应的动作特征，基于音频特征提取模型提取训练视频对应的音频特征。例如，基于S3D模型提取训练视频对应的动作特征，基于VGGish模型提取训练视频对应的音频特征。

文本特征用于表征文本的文本模态信息。训练文本特征是指训练文本对应的文本特征。可以基于机器学习模型对训练文本进行特征提取，具体可以基于文本特征提取模型提取训练文本对应的训练文本特征。

在一个实施例中，训练视频对应的视频特征和训练文本对应的文本特征可以是基于同一机器学习模型得到的。可以基于视频文本处理模型提取训练视频对应的视频特征和训练文本对应的文本特征，视频文本处理模型包括视频编码器和文本编码器，基于视频编码器提取训练视频对应的视频特征，基于文本编码器提取训练文本对应的文本特征。在一个实施例中，视频文本处理模型用于基于视频的描述文本对视频进行分类，视频文本处理模型的输入数据为视频和对应的描述文本，输出数据为视频的分类结果。例如，基于CLIP(Contrastive Language-Image Pre-training，对比文本-图像预训练模型)模型提取训练视频对应的视频特征和训练文本对应的文本特征。

初始视频文本匹配模型是指待训练的视频文本匹配模型。视频文本匹配模型的输入数据为训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征。

具体地，计算机设备可以将训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型，在初始视频文本匹配模型中对视频特征、参考特征和训练文本特征进行数据处理，得到各个训练样本对分别对应的相似度集合，初始视频文本匹配模型可以输出各个训练样本对分别对应的相似度集合。

步骤S206，基于同一训练视频对应的参考特征，对相应的视频特征进行特征增强，得到训练视频对应的参考增强视频特征；参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种。

其中，特征增强用于强化视频特征中与参考特征相关的信息，弱化视频特征中的其他信息。例如，基于训练视频对应的动作特征，对训练视频对应的视频特征进行特征增强，得到动作增强视频特征，动作增强视频特征加重了对视频中运动对象的特征表示，而其他背景、噪声的特征表示都会得到削弱。

动作增强视频特征是基于训练视频对应的动作特征，对该训练视频对应的视频特征进行特征增强得到的。音频增强视频特征是基于训练视频对应的音频特征，对该训练视频对应的视频特征进行特征增强得到的。

可以理解，基于动作特征对视频特征进行特征增强和基于音频特征对视频特征进行特征增强的处理过程可以相同可以不同。

具体地，在初始视频文本匹配模型中，可以基于同一训练视频对应的参考特征，对相应的视频特征进行特征增强，得到训练视频对应的参考增强视频特征。若参考特征包括动作特征，则基于同一训练视频对应的动作特征，对相应的视频特征进行特征增强，得到训练视频对应的动作增强视频特征，参考增强视频特征包括动作增强视频特征。若参考特征包括音频特征，则基于同一训练视频对应的音频特征，对相应的视频特征进行特征增强，得到训练视频对应的音频增强视频特征，参考增强视频特征包括音频增强视频特征。

在一个实施例中，融合参考特征和视频特征得到参考视频特征，参考视频特征融合有视频的图像信息和运动信息。对参考视频特征进行通道注意力处理，得到参考通道注意力权重，基于参考通道注意力权重对视频特征进行特征增强，得到参考增强视频特征。基于参考通道注意力权重对视频特征进行特征增强，有助于将视频特征中存在运动联系的对象之间建立关联，突出视频特征中的运动对象。

步骤S208，针对同一训练样本对，将训练文本对应的训练文本特征，分别和训练视频对应的视频特征、参考增强视频特征进行相似度计算，得到各个训练样本对分别对应的相似度集合。

其中，一个相似度集合对应一个训练样本对。一个相似度集合包括对训练文本对应的训练文本特征和训练视频对应的视频特征进行相似度计算得到的目标相似度、对训练文本对应的训练文本特征和训练视频对应的参考增强视频特征进行相似度计算得到的目标相似度。

具体地，在初始视频文本匹配模型中，针对同一训练样本对，将训练文本对应的训练文本特征，分别和训练视频对应的视频特征、参考增强视频特征进行相似度计算，将计算得到的目标相似度组成训练样本对所对应的相似度集合。由于有多个训练样本对，最终可以得到各个训练样本对分别对应的相似度集合。

若参考增强视频特征包括动作增强视频特征，则相似度集合包括对训练文本特征和动作增强视频特征进行相似度计算得到的目标相似度。若参考增强视频特征包括音频增强视频特征，则相似度集合包括对训练文本特征和音频增强视频特征进行相似度计算得到的目标相似度。

可以理解，在进行相似度计算时，可以是计算两个特征之间的欧式距离或余弦相似度，也可以是基于自定义公式或算法计算两个特征之间的相似度。

步骤S210，基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算训练损失，基于训练损失调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型；目标视频文本匹配模型用于确定视频和文本之间的匹配结果。

其中，目标视频文本匹配模型是指训练完成的视频文本匹配模型。收敛条件可以是训练损失小于预设阈值、模型迭代次数大于预设次数等条件中的至少一种。

具体地，在确定各个训练样本对分别对应的相似度集合后，计算机设备可以基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算训练损失。计算机设备可以基于损失函数计算训练损失，损失函数可以是模型训练中常用的损失函数，也可以是自定义的损失函数。进而，计算机设备可以基于训练损失调整初始视频文本匹配模型的模型参数，基于训练损失进行反向传播调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型。

目标视频文本匹配模型用于确定任意视频和任意文本之间的匹配结果。例如，可以将待匹配视频对应的视频特征、参考特征和待匹配文本对应的文本特征输入目标视频文本匹配模型，目标视频文本匹配模型输出待匹配视频和待匹配文本对应的相似度集合，基于相似度集合确定待匹配视频和待匹配文本之间的匹配结果。也可以在目标视频文本匹配模型内部基于相似度集合确定待匹配视频和待匹配文本之间的匹配结果，目标视频文本匹配模型输出待匹配视频和待匹配文本之间的匹配结果。

在一个实施例中，训练损失包括各种相似度分别对应的训练子损失，即训练损失包括各个相似度类别分别对应的训练子损失。计算机设备可以先基于正样本对和相匹配的负样本对中属于同一相似度类别的目标相似度计算训练子损失，得到各个相似度类别分别对应的训练子损失，再基于各种训练子损失得到训练损失。可以理解，基于类型相同的数据计算得到的目标相似度属于同一相似度类别。

在一个实施例中，在计算任意一种训练子损失时，计算机设备可以融合正样本对和相匹配的负样本对分别对应的目标相似度，得到各个正样本对分别对应的融合相似度。例如，将正样本对和相匹配的负样本对分别对应的目标相似度的总和作为融合相似度；先对正样本对和相匹配的负样本对分别对应的目标相似度进行以自然常数e为底的指数处理，再将各个指数处理结果的总和作为融合相似度；等等。进而，计算机设备基于同一正样本对所对应的目标相似度和融合相似度之间的差异计算样本损失，得到各个正样本对分别对应的样本损失。例如，将目标相似度和融合相似度的比值作为样本损失；对正样本对所对应的目标相似度进行以自然常数e为底的指数处理，再将正样本对所对应的指数处理结果与融合相似度的比值作为样本损失；等等。最终，计算机设备基于各个样本损失计算训练子损失。例如，计算各个样本损失的平均值作为训练子损失；将各个样本损失中的中位值作为训练子损失；等等。

在一个实施例中，计算机设备可以获取多个训练样本对集合，从各个训练样本对集合中随机选取一个训练样本对集合作为当前样本对集合。计算机设备将当前样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型，经过初始视频文本匹配模型的数据处理，得到当前样本对集合中各个训练样本对分别对应的相似度集合，基于当前样本对集合所对应的各个相似度集合计算训练损失，基于训练损失调整初始视频文本匹配模型的模型参数，得到中间视频文本匹配模型。计算机设备将下一训练样本对集合作为新的当前样本对集合，将中间视频文本匹配模型作为新的初始视频文本匹配模型，返回将当前样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型的步骤执行来进行迭代训练，以此类推，通过多次迭代训练，不断调整模型参数，直至满足收敛条件，得到目标视频文本匹配模型。例如，若在某一轮训练中，基于当前样本对集合所对应的各个相似度集合计算得到的训练损失小于预设阈值，则停止调整模型参数，将最新调整得到的视频文本匹配模型作为目标视频文本匹配模型。若某一轮训练后模型迭代次数大于预设次数，则将最新调整得到的视频文本匹配模型作为目标视频文本匹配模型。

可以理解，基于一个当前样本对集合调整模型参数为一轮模型训练、一次模型迭代。不同训练样本对集合可以包含重复的训练样本对，也可以不包含重复的训练样本对。

上述视频文本匹配模型训练方法中，通过获取训练样本对集合；训练样本对集合中的训练样本对包括正样本对和与正样本对相匹配的负样本对，训练样本对包括训练视频和训练文本，正样本对中的训练视频和训练文本相互匹配；将训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型；参考特征包括训练视频对应的音频特征和动作特征中的至少一种；基于同一训练视频对应的参考特征，对相应的视频特征进行特征增强，得到训练视频对应的参考增强视频特征；参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种；针对同一训练样本对，将训练文本对应的训练文本特征，分别和训练视频对应的视频特征、参考增强视频特征进行相似度计算，得到各个训练样本对分别对应的相似度集合；基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算训练损失，基于训练损失调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型；目标视频文本匹配模型用于确定视频和文本之间的匹配结果。这样，视频特征可以提供视频的图像信息，音频特征可以提供视频的声音信息，动作特征可以提供视频的运动信息，基于训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征训练视频文本匹配模型，可以利用视频中丰富的模态信息来提升模型对视频内容的理解，从而提高模型的预测准确性。并且，基于音频特征或动作特征对视频特征进行特征增强、特征引导，可以突出视频中的重要信息，分别基于视频特征和参考增强视频特征，与训练文本特征进行相似度计算，基于计算得到的相似度集合生成的训练损失调整模型参数，能够使得模型更好的建立视频与文本之间的关系，进一步提高模型的预测准确性。

在一个实施例中，步骤S202，包括：

获取多个正样本对；将各个正样本对进行数据重组，得到多个负样本对；将与正样本对存在重合数据的负样本对作为与正样本对相匹配的负样本对；基于各个正样本对和相匹配的各个负样本对，得到训练样本对集合。

其中，数据重组是指将不同正样本对之间的训练视频或训练文本进行交换，以重组训练样本对。例如，可以将两个正样本对之间的训练视频进行交换，得到两个负样本对，将两个正样本对之间的训练文本进行交换，得到另外两个负样本对。

具体地，计算机设备可以在本地或从其他设备上获取多个正样本对，将各个正样本对进行数据重组，得到多个负样本对。在各个负样本对中，计算机设备可以将与正样本对存在重合数据的负样本对作为与正样本对相匹配的负样本对，从而得到各个正样本对分别对应的负样本对。最后，将各个正样本对和相匹配的各个负样本对组成训练样本对集合。

举例说明，正样本对A包括训练视频a1和训练文本a2，正样本对B包括训练视频b1和训练文本b2，正样本对C包括训练视频c1和训练文本c2。将三个正样本对进行重组，最多可以得到六个负样本对，负样本对D1包括训练视频a1和训练文本b2，负样本对D2包括训练视频a1和训练文本c2，负样本对D3包括训练视频b1和训练文本a2，负样本对D4包括训练视频b1和训练文本c2，负样本对D5包括训练视频c1和训练文本a2，负样本对D6包括训练视频c1和训练文本b2。将正样本对A、正样本对B、正样本对C、负样本对D1-负样本对D6组成训练样本对集合。

上述实施例中，将各个正样本对进行数据重组，得到多个负样本对，将存在重合数据的训练样本对作为相互匹配的训练样本对，将各个正样本对和相匹配的各个负样本对组成训练样本对集合。这样，基于正样本对可以快速得到同时包含正样本对和负样本对的训练样本对集合。

在一个实施例中，动作增强视频特征的生成过包括以下步骤：

分别对当前训练视频对应的视频特征和动作特征进行模态内注意力处理，得到当前训练视频对应的自注意力视频特征和自注意力动作特征；对当前训练视频对应的视频特征和自注意力动作特征进行模态间注意力处理，得到当前训练视频对应的交叉注意力视频特征，对当前训练视频对应的动作特征和自注意力视频特征进行模态间注意力处理，得到当前训练视频对应的交叉注意力动作特征；融合当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征，得到当前训练视频对应的动作视频融合特征；对当前训练视频对应的动作视频融合特征进行通道注意力处理，得到第一通道注意力权重，基于第一通道注意力权重，对当前训练视频对应的视频特征进行特征增强，得到当前训练视频对应的动作增强视频特征。

其中，模态是指信息的来源或者形式。例如，视频特征为一种模态数据，动作特征为另一种模态数据，音频特征为另一种模态数据。

模态内注意力处理是对单模态数据进行注意力处理，用于突出单模态数据内部的重点、重要信息。模态间注意力处理是指对至少两种模态数据进行注意力处理，用于将不同的模态数据进行信息交互，以突出两种模态数据之间相关联的信息。

通道注意力处理是在特征的通道维度进行注意力处理，用于突出特征中重要通道所表征的信息。可以理解，对数据进行特征提取得到的数据特征通常包括多个通道分别对应的数据子特征，不同通道的信息关注点不同，不同通道对应的数据子特征可以表征数据中不同语义的信息。

具体地，在基于视频的动作特征对视频特征进行特征增强时，可以通过多种注意力处理方式对视频特征和动作特征进行数据处理，得到第一通道注意力权重，基于第一通道注意力权重对视频特征进行特征增强，得到动作增强视频特征。

当前训练视频是指当前处理的训练视频，可以是任意一个训练视频。计算机设备先对当前训练视频对应的视频特征进行模态内注意力处理，得到当前训练视频对应的自注意力视频特征，对当前训练视频对应的动作特征进行模态内注意力处理，得到当前训练视频对应的自注意力动作特征。通过模态内注意力处理，可以对各自模态进行特征加权，突出各自模态中的重点内容。

然后，计算机设备对当前训练视频对应的视频特征和自注意力动作特征进行模态间注意力处理，得到当前训练视频对应的交叉注意力视频特征，对当前训练视频对应的动作特征和自注意力视频特征进行模态间注意力处理，得到当前训练视频对应的交叉注意力动作特征。通过对视频特征和自注意力动作特征进行模态间注意力处理，基于自注意力动作特征对视频特征进行加权，可以得到动作加权的视频特征，即交叉注意力视频特征。动作加权的视频特征用于突出视频特征中的运动信息。通过对动作特征和自注意力视频特征进行模态间注意力处理，基于自注意力视频特征对动作特征进行加权，可以得到视频加权的动作特征，即交叉注意力动作特征。视频加权的动作特征用于突出动作特征中的图像信息。

进一步的，计算机设备融合当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征，得到当前训练视频对应的动作视频融合特征。通过融合交叉注意力动作特征和交叉注意力视频特征，可以进一步突出动作特征和视频特征之间彼此存在联系的信息。

最后，计算机设备对当前训练视频对应的动作视频融合特征进行通道注意力处理，得到第一通道注意力权重。第一通道注意力权重有助于将视频特征中存在运动联系的对象之间建立关联。计算机设备基于第一通道注意力权重，对当前训练视频对应的视频特征进行特征增强，得到当前训练视频对应的动作增强视频特征。动作增强视频特征加重了对于视频中运动对象的特征表达，而削弱了对于视频中的背景、噪声等其他信息的特征表达。

可以理解，音频增强视频特征也可以采用上述方式得到。

在一个实施例中，模态内注意力处理和模态间注意力处理可以是基于常用的注意力机制实现的注意力处理，例如，键值对注意力机制、多头注意力机制等。当然，也可以基于自定义公式或算法实现模态内注意力处理和模态间注意力处理。模态内注意力处理和模态间注意力处理的区别在于输入信息不同，模态内注意力处理的输入信息为一种模态数据，模态间注意力处理的输入信息为不同的模态数据。同样的，通道注意力处理可以是基于常用的通道注意力机制实现的注意力处理，也可以基于自定义公式或算法实现通道注意力处理。

在一个实施例中，可以通过公式(1)对动作视频融合特征进行通道注意力处理，进而得到动作增强视频特征：

V_t ^M＝W_t ^C⊙V_t,W_t ^C＝σ(W₂δ(W₁MV_t)) 公式(1)

其中，

和

为两个线性转换。δ和σ分别代表ReLU(Rectified Linear Unit，一种激活函数)和sigmoid(一种激活函数)的激活操作。d_v表示动作视频融合特征MV对应的特征维度，d表示基于W1对动作视频融合特征MV进行线性转换后得到的数据对应的特征维度。MV_t表示视频中第t个视频帧对应的动作增强视频特征。W_t ^C表示视频中第t个视频帧对应的第一通道注意力权重。V_t ^M表示视频中第t个视频帧对应的动作增强视频特征。

上述实施例中，通过有机结合模态内注意力处理、模态间注意力处理和通道注意力处理，能够从视频特征和动作特征中挖掘出彼此相关联的重要信息，得到第一通道注意力权重，基于第一通道注意力权重对视频特征进行特征增强，得到动作增强视频特征，动作增强视频特征加重了对于视频中运动对象的特征表达，能够更好地表达视频的语义信息，从而有助于在模型训练时提高模型预测准确性。

在一个实施例中，分别对当前训练视频对应的视频特征和动作特征进行模态内注意力处理，得到当前训练视频对应的自注意力视频特征和自注意力动作特征，包括：

将当前训练视频对应的视频特征进行模态内融合，得到第一自注意力权重，将当前训练视频对应的视频特征和第一自注意力权重进行融合，得到第一注意力特征，基于当前训练视频对应的视频特征和第一注意力特征，得到自注意力视频特征；将当前训练视频对应的动作特征进行模态内融合，得到第二自注意力权重，将当前训练视频对应的动作特征和第二自注意力权重进行融合，得到第二注意力特征，基于当前训练视频对应的动作特征和第二注意力特征，得到自注意力动作特征。

其中，模态内融合是对单模态数据进行融合。例如，可以通过将视频特征和视频特征相乘再进行softmax(归一化指数函数)操作来进行模态内融合；也可以将视频特征进行线性变换，将变换后的视频特征和变换后的视频特征相乘再进行softmax操作来进行模态内融合；等等。

具体地，在对当前训练视频对应的视频特征进行模态内注意力处理时，计算机设备可以将当前训练视频对应的视频特征进行模态内融合，得到第一自注意力权重，将当前训练视频对应的视频特征和第一自注意力权重进行融合，得到第一注意力特征。第一注意力特征加重了视频特征中的重要信息，加重了视频特征中具有重要语义的信息。进而，计算机设备基于当前训练视频对应的视频特征和第一注意力特征，得到自注意力视频特征。例如，将视频特征和第一注意力特征的平均值作为自注意力视频特征；将视频特征和第一注意力特征的加权平均值作为自注意力视频特征；等等。

同样的，在对当前训练视频对应的动作特征进行模态内注意力处理时，计算机设备可以将当前训练视频对应的动作特征进行模态内融合，得到第二自注意力权重，将当前训练视频对应的动作特征和第二自注意力权重进行融合，得到第二注意力特征。第二注意力特征加重了动作特征中的重要信息，加重了动作特征中具有重要语义的信息。进而，计算机设备基于当前训练视频对应的动作特征和第二注意力特征，得到自注意力动作特征。

上述实施例中，基于通过对视频特征进行模态内融合得到的第一自注意力权重，对视频特征进行加权融合，能够加重视频特征中重要信息的特征表达，再基于视频特征和通过加权融合得到的第一注意力特征能够得到准确的自注意力视频特征。基于通过对动作特征进行模态内融合得到的第二自注意力权重，对动作特征进行加权融合，能够加重动作特征中重要信息的特征表达，再基于动作特征和通过加权融合得到的第二注意力特征能够得到准确的自注意力动作特征。

在一个实施例中，对当前训练视频对应的视频特征和自注意力动作特征进行模态间注意力处理，得到当前训练视频对应的交叉注意力视频特征，对当前训练视频对应的动作特征和自注意力视频特征进行模态间注意力处理，得到当前训练视频对应的交叉注意力动作特征，包括：

将当前训练视频对应的视频特征和自注意力动作特征进行拼接，得到第一拼接特征，将当前训练视频对应的视频特征和第一拼接特征进行模态间融合，得到第一交叉注意力权重，将第一拼接特征和第一交叉注意力权重进行融合，得到第一交叉注意力特征，基于第一拼接特征和第一交叉注意力特征，得到交叉注意力视频特征；将当前训练视频对应的动作特征和自注意力视频特征进行拼接，得到第二拼接特征，将当前训练视频对应的动作特征和第二拼接特征进行模态间融合，得到第二交叉注意力权重，将第二拼接特征和第二交叉注意力权重进行融合，得到第二交叉注意力特征，基于第二拼接特征和第二交叉注意力特征，得到交叉注意力动作特征。

其中，模态间融合是对不同的模态数据进行融合。例如，可以通过将视频特征和第一拼接特征相乘再进行softmax操作来进行模态间融合；也可以将视频特征和第一拼接特征进行线性变换，将变换后的视频特征和变换后的视频特征和第一拼接特征相乘再进行softmax操作来进行模态间融合；等等。

具体地，在对当前训练视频对应的视频特征和自注意力动作特征进行模态间注意力处理时，计算机设备将当前训练视频对应的视频特征和自注意力动作特征进行拼接得到第一拼接特征。第一拼接特征融合了视频的图像信息和动作信息，是区别于视频特征的新特征。进而，计算机设备将当前训练视频对应的视频特征和第一拼接特征进行模态间融合，得到第一交叉注意力权重，将第一拼接特征和第一交叉注意力权重进行融合，得到第一交叉注意力特征。第一交叉注意力特征加重了第一拼接特征中的重要信息，加重了第一拼接特征中具有重要语义的信息。最后，计算机设备基于第一拼接特征和第一交叉注意力特征，得到交叉注意力视频特征。

同样的，在动作特征和自注意力视频特征进行模态间注意力处理时，计算机设备将当前训练视频对应的动作特征和自注意力视频特征进行拼接得到第二拼接特征。第二拼接特征融合了视频的图像信息和动作信息，是区别于动作特征的新特征。进而，计算机设备将当前训练视频对应的动作特征和第二拼接特征进行模态间融合，得到第二交叉注意力权重，将第二拼接特征和第二交叉注意力权重进行融合，得到第二交叉注意力特征。第二交叉注意力特征加重了第二拼接特征中的重要信息，加重了第二拼接特征中具有重要语义的信息。最后，计算机设备基于第二拼接特征和第二交叉注意力特征，得到交叉注意力动作特征。

上述实施例中，将视频特征和自注意力动作特征拼接得到第一拼接特征，基于通过对视频特征和第一拼接特征进行模态间融合得到的第一交叉注意力权重，对第一拼接特征进行加权融合，能够加重第一拼接特征中重要信息的特征表达，再基于第一拼接特征和通过加权融合得到的第一交叉注意力特征能够得到准确的交叉注意力视频特征。将动作特征和自注意力视频特征拼接得到第二拼接特征，基于通过对动作特征和第二拼接特征进行模态间融合得到的第二交叉注意力权重，对第二拼接特征进行加权融合，能够加重第二拼接特征中重要信息的特征表达，再基于第二拼接特征和通过加权融合得到的第二交叉注意力特征能够得到准确的交叉注意力动作特征。

在一个实施例中，融合当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征，得到当前训练视频对应的动作视频融合特征，包括：

将当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征进行拼接，得到交叉注意力拼接特征；将当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征进行融合，得到交叉注意力融合特征；将交叉注意力拼接特征和交叉注意力融合特征进行模态间融合，得到第三交叉注意力权重，将交叉注意力拼接特征和第三交叉注意力权重进行融合，得到第三交叉注意力特征，基于交叉注意力拼接特征和第三交叉注意力特征，得到动作视频融合特征。

具体地，在融合交叉注意力动作特征和交叉注意力视频特征时，计算机设备可以将当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征进行拼接，得到交叉注意力拼接特征。计算机设备可以将当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征进行融合，得到交叉注意力融合特征，例如，将交叉注意力动作特征和交叉注意力视频特征相乘得到交叉注意力融合特征；将交叉注意力动作特征和交叉注意力视频特征相乘再进行缩放得到交叉注意力融合特征；等等。进而，计算机设备将交叉注意力拼接特征和交叉注意力融合特征进行模态间融合，得到第三交叉注意力权重，将交叉注意力拼接特征和第三交叉注意力权重进行融合，得到第三交叉注意力特征。第三交叉注意力特征加重了交叉注意力拼接特征中的重要信息，加重了交叉注意力拼接特征中具有重要语义的信息。最后，基于交叉注意力拼接特征和第三交叉注意力特征，得到动作视频融合特征。

上述实施例中，将交叉注意力动作特征和交叉注意力视频特征分别进行拼接和融合得到交叉注意力拼接特征和交叉注意力融合特征，基于通过对交叉注意力拼接特征和交叉注意力融合特征进行模态间融合得到的第三交叉注意力权重，对交叉注意力拼接特征进行加权融合，能够加重交叉注意力拼接特征中重要信息的特征表达，再基于交叉注意力拼接特征和通过加权融合得到的第三交叉注意力特征能够得到准确的动作视频融合特征。

在一个实施例中，可以基于Transformer编码器的双流融合策略来进行注意力处理。Transformer编码器如公式(2)所示：

其中，MHA代表多头注意力机制(Multi-Head Attention)，工作原理是使用Q和K矩阵相乘，再经过softmax操作后得到权重W，然后W和V矩阵相乘得到加权后的结果。FFN代表前向反馈层(Feed Forward Network)，LN代表层标准化(Layer Normalization)，Encoder代表Transformer的编码器，公式(2)中的Q，K，V是输入编码器的特征。

表示线性变换，d为特征维度。

对视频特征V进行模态内注意力处理得到的自注意力视频特征V_self＝Encoder(V,V,V)。

对动作特征M进行模态内注意力处理得到的自注意力动作特征M_self＝Encoder(M,M,M)。

对视频特征V和自注意力动作特征M_self进行模态间注意力处理得到的交叉注意力视频特征V_cross＝Encoder(V,cat(V,M_self),cat(V,M_self))。其中，cat是在时间维度对特征进行拼接。

对动作特征M和自注意力视频特征V_self进行模态间注意力处理得到的交叉注意力动作特征M_cross＝Encoder(M,cat(M,V_self),,cat(M,V_self))。

融合交叉注意力视频特征V_cross和交叉注意力动作特征M_cross得到的动作视频融合特征MV＝Encoder(V_cross·M_cross,cat(V_cross,M_cross),cat(V_cross,M_cross))。

对动作视频融合特征MV进行通道层面的注意力操作得到第一通道注意力权重，基于第一通道注意力权重对视频特征V进行特征增强、引导，得到动作增强视频特征V^M。

在一个实施例中，初始视频文本匹配模型包括动作增强视频特征与文本特征匹配网络，动作增强视频特征与文本特征匹配网络包括第一模态内注意力层、第二模态内注意力层、第一模态间注意力层、第二模态间注意力层、动作视频融合注意力层、第一通道注意力层和第一相似度计算层。

第一模态内注意力层用于对视频特征进行模态内注意力处理，第二模态内注意力层用于对动作特征进行模态内注意力处理；第一模态间注意力层用于对视频特征和自注意力动作特征进行模态间注意力处理，第二模态间注意力层用于对动作特征和自注意力视频特征进行模态间注意力处理；动作视频融合注意力层用于融合同一训练视频对应的交叉注意力动作特征和交叉注意力视频特征；第一通道注意力层用于对动作视频融合特征进行通道注意力处理；第一相似度计算层用于计算动作增强视频特征和训练文本特征之间的相似度。

其中，动作增强视频特征与文本特征匹配网络是用于基于训练视频对应的动作特征对训练视频对应的视频特征进行特征增强，并计算动作增强视频特征和训练文本对应的训练文本特征之间的目标相似度的网络。

参考图3，动作增强视频特征与文本特征匹配网络包括第一模态内注意力层、第二模态内注意力层、第一模态间注意力层、第二模态间注意力层、动作视频融合注意力层、第一通道注意力层和第一相似度计算层。其中，模态内注意力层也可以称为模态内注意力模块，模态间注意力层也可以称为模态间融合注意力模块，动作视频融合注意力层也可以称为动作-视频融合注意力模块。

将当前训练视频对应的视频特征输入第一模态内注意力层进行模态内注意力处理，从而对模态内部进行探索，第一模态内注意力层输出自注意力视频特征。将当前训练视频对应的动作特征输入第二模态内注意力层进行模态内注意力处理，从而对模态内部进行探索，第二模态内注意力层输出自注意力动作特征。将当前训练视频对应的视频特征和自注意力动作特征输入到第一模态间注意力层进行模态间注意力处理，从而进行模态间关系建模，第一模态间注意力层输出交叉注意力视频特征。将当前训练视频对应的动作特征和自注意力视频特征输入到第二模态间注意力层进行模态间注意力处理，从而进行模态间关系建模，第二模态间注意力层输出交叉注意力动作特征。将当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征输入动作视频融合注意力层，对动作特征和视频特征进一步融合，得到动作视频融合特征(也可以称为动作视频融合特征)。将动作视频融合特征输入第一通道注意力层进行通道注意力处理，第一通道注意力层输出第一通道注意力权重。基于第一通道注意力权重，对当前训练视频对应的视频特征进行特征增强，得到动作增强视频特征(也可以称为动作增强的视频特征)。将当前训练视频对应的动作增强视频特征和相应训练文本对应的训练文本特征输入第一相似度计算层进行相似度计算、相似度匹配，第一相似度计算层输出当前训练视频和相应训练文本之间的一种目标相似度。

上述实施例中，初始视频文本匹配模型包括动作增强视频特征与文本特征匹配网络，通过专门的动作增强视频特征与文本特征匹配网络来进行特征增强得到动作增强视频特征，通过动作增强视频特征与文本特征匹配网络来计算动作增强视频特征和文本特征之间的相似度，可以降低与其他模态混淆的风险，有助于提高模型训练质量。

在一个实施例中，音频增强视频特征的生成过程包括以下步骤：

对当前训练视频对应的视频特征和音频特征进行融合，得到初始音视频融合特征；对初始音视频融合特征进行随机失活处理和池化处理，得到中间音视频融合特征；对中间音视频融合特征进行归一化处理，得到目标音视频融合特征；对目标音视频融合特征进行通道注意力处理，得到第二通道注意力权重，基于第二通道注意力权重，对当前训练视频对应的视频特征进行特征增强，得到当前训练视频对应的音频增强视频特征。

其中，随机失活处理是随机改变初始音视频融合特征中的部分子特征，例如，随机将初始音视频融合特征中的部分子特征的特征值置为预设值。

池化处理是对经过随机失活处理后得到的特征中子特征的特征值进行统计。例如，池化处理具体可以是求和池化处理(sum pooling)，将经过随机失活处理后得到的特征划分为多个特征区域，一个特征区域包括多个子特征，对各个特征区域的子特征的特征值求和，得到各个特征区域分别对应的特征统计值，基于各个特征统计值得到池化处理结果。

归一化处理是将数据映射到预设取值范围内。

具体地，在基于视频的音频特征对视频特征进行特征增强时，可以通过对视频特征和音频特征进行数据处理，得到第二通道注意力权重，基于第二通道注意力权重对视频特征进行特征增强，得到音频增强视频特征。

计算机设备可以融合当前训练视频对应的视频特征和音频特征进行融合得到初始音视频融合特征，例如，将视频特征和音频特征扩张到相同维度再进行相乘得到初始音视频融合特征；将视频特征和音频特征进行线性变换，将线性变换后的视频特征和音频特征进行点乘得到初始音视频融合特征。接着，计算机设备对初始音视频融合特征进行随机失活处理，对随机失活处理后的初始音视频融合特征进行池化处理，得到中间音视频融合特征，再对中间音视频融合特征进行归一化处理，得到目标音视频融合特征。通过随机失活处理、池化处理和归一化处理可以将视频特征和音频特征进行有效准确地融合，以获得高语义的目标音视频融合特征。最后，计算机设备对目标音视频融合特征进行通道注意力处理，得到第二通道注意力权重，基于第二通道注意力权重，对当前训练视频对应的视频特征进行特征增强，得到当前训练视频对应的音频增强视频特征。

可以理解，动作增强视频特征也可以采用上述方式得到。

在一个实施例中，归一化处理包括平方归一化处理和L2归一化。对中间音视频融合特征进行平方归一化处理，对平方归一化处理后的中间音视频融合特征再进行L2归一化。

上述实施例中，通过一系列的融合、随机失活处理、池化处理和归一化处理，可以将视频特征和音频特征进行充分融合得到准确的目标音视频融合特征。基于对目标音视频融合特征进行通道注意力处理得到的第二通道注意力权重，对视频特征进行特征增强，可以得到准确的音频增强视频特征。

在一个实施例中，初始视频文本匹配模型包括音频增强视频特征与文本特征匹配网络，音频增强视频特征与文本特征匹配网络包括音视频融合层、随机失活层、池化层、归一化层、第二通道注意力层和第二相似度计算层。

音视频融合层用于对视频特征和音频特征进行融合；随机失活层用于对输入的数据进行随机失活处理；池化层用于对输入的数据进行池化处理；归一化层用于对输入的数据进行归一化处理；第二通道注意力层用于对输入的数据进行通道注意力处理；第二相似度计算层用于计算音频增强视频特征和训练文本特征之间的相似度。

其中，音频增强视频特征与文本特征匹配网络是用于基于训练视频对应的音频特征对训练视频对应的视频特征进行特征增强，并计算音频增强视频特征和训练文本对应的训练文本特征之间的目标相似度的网络。

参考图4，音频增强视频特征与文本特征匹配网络包括音视频融合层、随机失活层、池化层、归一化层、第二通道注意力层和第二相似度计算层。

将当前训练视频对应的视频特征和音频特征输入音视频融合层，通过使用ReLU激活的全连接层(也可以称为FC层)将音频特征A_t和视频特征V_t扩张到相同维度kd_o，再进行融合得到初始音视频融合特征。将初始音视频融合特征输入随机失活层(dropout层)进行随机失活处理，将随机失活层的输出数据输入求和池化层进行池化处理，得到中间音视频融合特征。将中间音视频融合特征输入归一化层进行归一化处理，得到目标音视频融合特征。将目标音视频融合特征输入第二通道注意力层进行通道注意力处理，得到第二通道注意力权重。基于第二通道注意力权重，对当前训练视频对应的视频特征进行特征增强，得到当前训练视频对应的音频增强视频特征(也可以称为音频增强的视频特征)。将当前训练视频对应的音频增强视频特征和相应训练文本对应的训练文本特征输入第二相似度计算层进行相似度计算、相似度匹配，第二相似度计算层输出当前训练视频和相应训练文本之间的一种目标相似度。

上述实施例中，初始视频文本匹配模型包括音频增强视频特征与文本特征匹配网络，通过专门的音频增强视频特征与文本特征匹配网络来进行特征增强得到音频增强视频特征，通过音频增强视频特征与文本特征匹配网络来计算音频增强视频特征和文本特征之间的相似度，可以降低与其他模态混淆的风险，有助于提高模型训练质量。

在一个具体的实施例中，通过使用ReLU激活的全连接层将音频特征A_t和视频特征V_t扩张到相同维度kd_o，然后将扩张的特征输入到MFB(Multi-modal Factorized Bilinear，多模态双线性分解)模块对视频特征和音频特征进行融合以得到视听融合特征AV_t(即目标音视频融合特征)。

AV_t＝SP(D(φ^TA_t⊙Ψ^TV_t,k)) 公式(3)

其中，

和

是两个可学习的矩阵参数，SP(f,k)代表核和步长都为k的sum pooling操作，D(·)代表dropout层用来防止过拟合。

另外，引入平方归一化和L2归一化，用于达到稳定模型训练的目的。

参考公式(4)，先进行一遍平方归一化，再进行一遍L2归一化。

表示平方归一化，

表示L2归一化。sign()表示符号函数。

将视听融合特征AV_t输入到第二通道注意力层，进行通道层面的注意力操作得到第二通道注意力权重，基于第二通道注意力权重对视频特征进行特征增强、引导，得到音频增强视频特征V_t ^A。

其中，

和

为两个线性转换，δ和σ分别代表ReLU和sigmoid的激活操作。

在一个实施例中，除了动作增强视频特征与文本特征匹配网络、音频增强视频特征与文本特征匹配网络，初始视频文本匹配模型还可以包括视频特征与文本特征匹配网络。视频特征与文本特征匹配网络用于计算视频特征与文本特征之间的相似度。

在一个实施例中，视频文本匹配模型训练方法还包括：

当训练视频中缺失音频时，获取预设特征或训练视频对应的视频特征作为训练视频对应的音频特征。

具体地，某些视频存在缺失音频的现象，针对这类视频，可以基于预设特征或视频特征对其进行对齐。若训练视频中缺失音频，计算机设备可以获取预设特征或训练视频对应的视频特征作为训练视频对应的音频特征。其中，预设特征是预先设置的特征，具体可以根据实际需要进行设置，例如，音频特征在某些样本中存在缺失的现象，对缺失音频特征的样本，使用1.0将其对齐。

基于音频特征对视频特征进行特征增强、引导，目的是加大声源的权重，但是当有一些视频中音频缺失时，将音频特征固定为1或者将音频特征换为视频特征，这两种方式都可以实现当音频特征不存在的时候，视频特征代替音频特征进行引导。

上述实施例中，当训练视频中缺失音频时，获取预设特征或训练视频对应的视频特征作为训练视频对应的音频特征，能够在模态缺失时进行模态对齐，进而有助于提高模型的鲁棒性。

在一个实施例中，相似度集合包括至少两种目标相似度，当前视频特征为当前训练样本对中训练视频对应的视频特征和参考增强视频特征中的任意一种，当前文本特征为当前训练样本对中训练文本对应的训练文本特征，训练视频包括多个视频帧，训练文本包括多个文本词语。

当前视频特征和当前文本特征之间的目标相似度的计算过程包括以下步骤；

计算当前视频特征和当前文本特征之间的初始相似度；初始相似度包括训练文本中多个文本词语分别和同一视频帧之间的子相似度、训练视频中多个视频帧分别和同一文本词语之间的子相似度；基于当前文本特征得到文本权重，基于当前视频特征得到视频权重；针对初始相似度，从同一视频帧对应的多个子相似度中获取最大值作为第一子相似度，从同一文本词语对应的多个子相似度中获取最大值作为第二子相似度，得到各个视频帧分别对应的第一子相似度和各个文本词语分别对应的第二子相似度；基于各个第一子相似度得到第一相似度，基于各个第二子相似度得到第二相似度；将第一相似度和文本权重进行融合，得到第一融合数据，将第二相似度和视频权重进行融合，得到第二融合数据；基于第一融合数据和第二融合数据，得到当前视频特征和当前文本特征之间的目标相似度。

其中，相似度集合包括至少两种目标相似度。例如，相似度集合包括基于训练文本特征和视频特征计算得到的一种目标相似度、基于训练文本特征和动作增强视频特征计算得到的另一种目标相似度、基于训练文本特征和音频增强视频特征计算得到的另一种目标相似度。

当前训练样本对是指当前处理的训练样本对。当前视频特征为当前训练样本对中训练视频对应的视频特征和参考增强视频特征中的任意一种。可以理解，若参考增强视频特征包括动作增强视频特征和音频增强视频特征，当前视频特征为当前训练样本对中训练视频对应的视频特征、动作增强视频特征和音频增强视频特征中的任意一种。当前文本特征为当前训练样本对中训练文本对应的训练文本特征。

可以理解，训练视频包括多个视频帧，训练文本包括多个文本词语。训练视频对应的特征包括各个视频帧分别对应的子特征，训练文本对应的特征包括各个文本词语分别对应的子特征。

具体地，各种目标相似度的计算方式可以相同，以计算当前视频特征和当前文本特征之间的目标相似度为例说明计算过程。

首先，计算机设备计算当前视频特征和当前文本特征之间的初始相似度，例如，可以计算当前视频特征和当前文本特征之间的余弦相似度作为初始相似度。初始相似度包括训练文本中多个文本词语分别和同一视频帧之间的子相似度、训练视频中多个视频帧分别和同一文本词语之间的子相似度。例如，初始相似度可以用矩阵来表示，矩阵的横轴表示训练文本中多个文本词语，具体表示多个文本词语分别和同一视频帧之间的子相似度，矩阵中不同的行对应不同的视频帧，矩阵的纵轴表示训练视频中多个视频帧，具体表示多个视频帧分别和同一文本词语之间的子相似度，矩阵中不同的列对应不同的文本词语。针对初始相似度，计算机设备从同一视频帧对应的多个子相似度中获取最大值作为第一子相似度，得到各个视频帧分别对应的第一子相似度，将各个第一子相似度组成第一相似度。同理，针对初始相似度，计算机设备从同一文本词语对应的多个子相似度中获取最大值作为第二子相似度，得到各个文本词语分别对应的第二子相似度，将各个第二子相似度组成第二相似度。例如，初始相似度、第一相似度、第二相似度可以用矩阵来表示，初始相似度矩阵的横轴表示训练文本中多个文本词语分别和同一视频帧之间的子相似度，将初始相似度矩阵的每一行取最大值组成第一相似度矩阵，初始相似度矩阵的纵轴表示训练视频中多个视频帧分别和同一文本词语之间的子相似度，将初始相似度矩阵的每一列取最大值组成第二相似度矩阵。

计算机设备还可以对当前文本特征和当前视频特征求权重，基于当前文本特征得到文本权重，基于当前视频特征得到视频权重。文本权重中具备重要语义的文本词语具有较高的权重，视频权重中具备重要语义的视频帧具有较高的权重。第一相似度包含的第一子相似度表示多个文本词语分别和同一视频帧之间的子相似度，文本权重包括各个文本词语分别对应的文本子权重，将第一相似度和文本权重进行融合，得到第一融合数据，第一融合数据中加重了具备重要语义的文本词语和视频帧之间的子相似度。第二相似度包含的第二子相似度表示多个视频帧分别和同一文本词语之间的子相似度，视频权重包括各个视频帧分别对应的视频子权重，将第二相似度和视频权重进行融合，得到第二融合数据，第二融合数据中加重了具备重要语义的视频帧和文本词语之间的子相似度。

最终，计算机设备基于第一融合数据和第二融合数据，得到当前视频特征和当前文本特征之间的目标相似度。例如，将第一融合数据和第二融合数据的平均值作为目标相似度。

上述实施例中，对初始相似度进行数据处理得到的第一相似度和第二相似度中集成了最匹配的视频帧和文本词语之间的子相似度，再基于由文本特征确定的文本权重对第一相似度进行加权融合，由视频特征确定的视频权重对第二相似度进行加权融合，基于加权融合结果得到的目标相似度为加权相似度，具有更高的准确性，有助于提高模型训练质量。

在一个具体的实施例中，可以通过下列公式计算视频特征和训练文本特征之间的目标相似度WTI。

WTI(V_i,C_i)＝(c2v_logits+v2c_logits)/2

其中，WTI(V_i,C_i)表示第i个正样本中训练视频对应的视频特征V_i和训练文本对应的训练文本特征C_i之间的目标相似度。c2v_logits表示第i个正样本对应的第一相似度，可以认为是在从文本到视频(caption to video，简称c2v)任务上的相似度，v2c_logits表示第i个正样本对应的第二相似度，可以认为是在从视频到文本(video to caption，简称v2c)任务上的相似度。c2v任务(也可以称为t2c任务)表示针对多个文本，确定每个文本分别描述的视频。v2c(也可以称为v2t任务)任务表示针对多个视频，确定每个视频分别对应的视频描述文本。

f_cw,θ和f_vw,θ是带有SoftMax的经典MLP(Multilayer Perceptron，多层感知机)结构，f_cw,θ用于对文本特征求权重，f_vw,θ用于对视频特征求权重。L_C和L_V分别代表训练文本的token(即文本词语)数量和训练视频的frame(视频帧)数量，p、q分别代表训练文本的token序号和训练视频的frame序号。

表示基于训练文本特征C_i和视频特征V_i矩阵计算得到初始相似度矩阵，初始相似度矩阵横轴代表训练文本的token，纵轴代表训练视频的frame。

表示对

进行矩阵转置。

表示对

进行归一化。

表示对初始相似度矩阵的每一行求最大值得到本行最大值。

表示对初始相似度矩阵的每一列求最大值得到本列最大值。

在一个实施例中，相似度集合包括至少两种目标相似度。基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算训练损失，包括：

从各个相似度类别中确定目标类别；基于正样本对和与正样本对包含同一训练文本的各个负样本对在目标类别上的目标相似度，得到各个训练样本对在目标类别上分别对应的第一相似度权重，基于正样本对和与正样本对包含同一训练视频的各个负样本对在目标类别上的目标相似度，得到各个训练样本对在目标类别上分别对应的第二相似度权重；融合同一训练样本对在目标类别上的目标相似度和第一相似度权重，得到各个训练样本对分别对应的第一更新相似度，融合同一训练样本对在目标类别上的目标相似度和第二相似度权重，得到各个训练样本对分别对应的第二更新相似度；基于正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度，得到第一损失，基于正样本对和与正样本对包含同一训练文本的各个负样本对分别对应的第二更新相似度，得到第二损失；基于第一损失和第二损失，得到目标类别对应的训练子损失；获取下一相似度类别作为目标类别，返回基于正样本对和与正样本对包含同一训练文本的各个负样本对在目标类别上的目标相似度，得到各个训练样本对在目标类别上分别对应的第一相似度权重的步骤执行，直至确定各个相似度类别分别对应的训练子损失；基于各种训练子损失得到训练损失。

具体地，相似度集合包括至少两种目标相似度，训练损失包括各种相似度类别分别对应的训练子损失，各种训练子损失的计算方式相同。

计算机设备可以从各个相似度类别中随机选取一个相似度类别作为目标类别，基于正样本对和与正样本对匹配的各个负样本对在目标类别上的目标相似度计算得到目标类别对应的训练子损失。计算机设备可以从各个相似度类别中获取下一相似度类别作为新的目标类别，基于正样本对和与正样本对匹配的各个负样本对在新的目标类别上的目标相似度计算得到新的目标类别对应的训练子损失。以此类推，计算机设备最终可以计算得到各种相似度类别分别对应的训练子损失，基于各种训练子损失得到训练损失。

可以理解，计算机设备也可以并行计算各种相似度类别分别对应的训练子损失。

针对任意一个相似度类别，计算机设备基于正样本对和与正样本对包含同一训练文本的各个负样本对在目标类别上的目标相似度，计算得到各个训练样本对在目标类别上分别对应的第一相似度权重。例如，将正样本对分别和与正样本对包含同一训练文本的负样本对组成训练样本对子集，基于正样本对分别和训练样本对子集中各个训练样本对在目标类别上的目标相似度的差异，确定训练样本对子集中各个训练样本对分别对应的第一相似度权重。第一相似度权重是基于包含同一训练文本的各个训练样本对在目标类别上的目标相似度生成的，可以认为第一相似度权重融合了针对c2v任务的相关信息。

同样的，计算机设备基于正样本对和与正样本对包含同一训练视频的各个负样本对在目标类别上的目标相似度，计算得到各个训练样本对在目标类别上分别对应的第二相似度权重。第二相似度权重是基于包含同一训练视频的各个训练样本对在目标类别上的目标相似度生成的，可以认为第二相似度权重融合了针对v2c任务的相关信息。

进而，计算机设备将同一训练样本对在目标类别上的目标相似度和第一相似度权重进行融合，得到各个训练样本对分别对应的第一更新相似度。例如，将目标相似度和第一相似度权重相乘得到第一更新相似度。基于正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度，得到第一损失，具体可以基于正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度计算第一子损失，得到各个正样本对分别对应的第一子损失，基于各个正样本对分别对应的第一子损失得到第一损失。第一相似度权重融合有针对c2v任务的相关信息，基于目标相似度和第一相似度权重计算得到的第一更新相似度也可以认为融合有针对c2v任务的相关信息。基于正样本对和与正样本对包含同一训练视频的各个负样本对的相关数据计算得到的数据，可以认为融合了针对v2c任务的相关信息。基于正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度计算第一损失，可以认为是综合考虑了针对c2v任务和v2c任务的相关信息，基于这样的损失进行模型调整，可以使得模型在c2v任务和v2c任务上均有良好的表现。

同样的，计算机设备将同一训练样本对在目标类别上的目标相似度和第二相似度权重进行融合，得到各个训练样本对分别对应的第二更新相似度，基于正样本对和与正样本对包含同一训练文本的各个负样本对分别对应的第二更新相似度，得到第二损失。第二相似度权重融合有针对v2c任务的相关信息，基于目标相似度和第一相似度权重计算得到的第一更新相似度也可以认为融合有针对v2c任务的相关信息。基于正样本对和与正样本对包含同一训练视频的各个负样本对的相关数据计算得到的数据，可以认为融合了针对c2v任务的相关信息。基于正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度计算第一损失，可以认为是综合考虑了针对c2v任务和v2c任务的相关信息，基于这样的损失进行模型调整，可以使得模型在c2v任务和v2c任务上均有良好的表现。

最终，计算机设备基于第一损失和第二损失得到目标类别对应的训练子损失。例如，将第一损失和第二损失的平均值作为训练子损失；将第一损失和第二损失的加权平均值作为训练子损失；等等。

上述实施例中，分别计算各个相似度类别对应的训练子损失，再基于各个训练子损失可以得到准确的训练损失。基于正样本对和与正样本对包含同一训练文本的各个负样本对在目标类别上的目标相似度，计算得到第一相似度权重，融合目标相似度和第一相似度权重，得到第一更新相似度，基于第一更新相似度计算得到的第一损失有助于在模型训练过程中使得模型在c2v任务和v2c任务上均有良好的表现。基于正样本对和与正样本对包含同一训练视频的各个负样本对在目标类别上的目标相似度，计算得到第二相似度权重，融合目标相似度和第二相似度权重，得到第二更新相似度，基于第二更新相似度计算得到的第二损失有助于在模型训练过程中使得模型在c2v任务和v2c任务上均有良好的表现。

在一个实施例中，基于正样本对和与正样本对包含同一训练文本的各个负样本对在目标类别上的目标相似度，得到各个训练样本对在目标类别上分别对应的第一相似度权重，基于正样本对和与正样本对包含同一训练视频的各个负样本对在目标类别上的目标相似度，得到各个训练样本对在目标类别上分别对应的第二相似度权重，包括：

基于各个训练样本对在目标类别上的目标相似度，得到第一相似度矩阵；第一相似度矩阵的第一维度表征包含同一训练视频的各个训练样本对在目标类别上的目标相似度，目标相似度矩阵的第二维度表征包含同一训练文本的各个训练样本对在目标类别上的目标相似度，目标相似度矩阵的对角线表征各个正样本对在目标类别上的目标相似度；基于第一相似度矩阵中的当前矩阵元素和当前矩阵元素在第二维度上的前向矩阵元素，生成当前矩阵元素对应的第二矩阵元素，基于第一相似度矩阵中各个矩阵元素分别对应的第二矩阵元素，生成第二相似度矩阵；基于第一相似度矩阵中的当前矩阵元素和当前矩阵元素在第一维度上的前向矩阵元素，生成当前矩阵元素对应的第三矩阵元素，基于第一相似度矩阵中各个矩阵元素分别对应的第三矩阵元素，生成第三相似度矩阵；基于正样本对在目标类别上的目标相似度，对第二相似度矩阵中各个矩阵元素进行调整，得到第四相似度矩阵，基于正样本对在目标类别上的目标相似度，对第三相似度矩阵中各个矩阵元素进行调整，得到第五相似度矩阵；第四相似度矩阵表征各个训练样本对在目标类别上分别对应的第一相似度权重，第五相似度矩阵表征各个训练样本对在目标类别上分别对应的第二相似度权重。

其中，当前矩阵元素在第二维度上的前向矩阵元素是指在第一相似度矩阵中，在第二维度上排列在当前矩阵元素之前的矩阵元素。当前矩阵元素在第一维度上的前向矩阵元素是指在第一相似度矩阵中，在第一维度上排列在当前矩阵元素之前的矩阵元素。

具体地，在计算第一相似度权重和第二相似度权重时，基于各个训练样本对在目标类别上的目标相似度生成第一相似度矩阵，以矩阵形式对矩阵元素进行有序的数据处理，可以快速得到第一相似度权重和第二相似度权重。

基于各个训练样本对在目标类别上的目标相似度生成的第一相似度矩阵的第一维度表征包含同一训练视频的各个训练样本对在目标类别上的目标相似度，目标相似度矩阵的第二维度表征包含同一训练文本的各个训练样本对在目标类别上的目标相似度，目标相似度矩阵的对角线表征各个正样本对在目标类别上的目标相似度。

例如，假设训练样本对集合中包括三个正样本对和六个负样本对。三个正样本对分别为包含训练视频1和训练文本1的正样本对A、包含训练视频2和训练文本2的正样本对B、包含训练视频3和训练文本3的正样本对C。六个负样本对是对三个正样本对进行数据重组得到的。

第一相似度矩阵为

其中，S₁₁、S₂₂、S₃₃分别表示三个正样本对在目标类别上的目标相似度，S₁₂、S₁₃表示与正样本对A同样包含训练视频1的各个负样本对在目标类别上的目标相似度，S₂₁、S₂₃表示与正样本对B同样包含训练视频2的各个负样本对在目标类别上的目标相似度，S₃₁、S₃₂表示与正样本对C同样包含训练视频3的各个负样本对在目标类别上的目标相似度。

在计算第一相似度权重时，基于第一相似度矩阵中的当前矩阵元素和当前矩阵元素在第二维度上的前向矩阵元素，生成当前矩阵元素对应的第二矩阵元素，例如，可以将当前矩阵元素和当前矩阵元素在第二维度上的前向矩阵元素进行以自然常数e为底的指数处理，再相加得到当前矩阵元素对应的第二矩阵元素；将当前矩阵元素和当前矩阵元素在第二维度上的前向矩阵元素进行等比放大，再对放大后的数据以自然常数e为底的指数处理，再对指数处理后的数据相加得到当前矩阵元素对应的第二矩阵元素；等等。确定各个矩阵元素分别对应的第二矩阵元素后，将各个第二矩阵元素组成第二相似度矩阵。基于正样本对在目标类别上的目标相似度，对第二相似度矩阵中各个矩阵元素进行调整，得到第四相似度矩阵，例如，将正样本对在目标类别上的目标相似度分别除以各个矩阵元素得到第四相似度矩阵。第四相似度矩阵表征各个训练样本对在目标类别上分别对应的第一相似度权重。

例如，第一相似度矩阵为

第一相似度矩阵的第一维度为行，矩阵的第二维度为列。

第二相似度矩阵为:

第四相似度矩阵为：

其中，exp()表示以自然常数e为底的指数函数。

第四相似度矩阵中第一行数据为正样本对A、包含训练视频1和训练文本2的负样本对、包含训练视频1和训练文本3的负样本对在目标类别上分别对应的第一相似度权重，第二行数据为包含训练视频2和训练文本1的负样本对、正样本对B、包含训练视频2和训练文本3的负样本对在目标类别上分别对应的第一相似度权重，第三行数据为包含训练视频3和训练文本1的负样本对、包含训练视频3和训练文本2的负样本对、正样本对C在目标类别上分别对应的第一相似度权重。

与计算第一相似度权重类似，在计算第二相似度权重时，基于第一相似度矩阵中的当前矩阵元素和当前矩阵元素在第一维度上的前向矩阵元素，生成当前矩阵元素对应的第三矩阵元素，基于第一相似度矩阵中各个矩阵元素分别对应的第三矩阵元素，生成第三相似度矩阵。基于正样本对在目标类别上的目标相似度，对第三相似度矩阵中各个矩阵元素进行调整，得到第五相似度矩阵，第五相似度矩阵表征各个训练样本对在目标类别上分别对应的第二相似度权重。

例如，第一相似度矩阵为

第一相似度矩阵的第一维度为行，矩阵的第二维度为列。

第三相似度矩阵为：

第五相似度矩阵为：

第五相似度矩阵中第一行数据为正样本对A、包含训练视频1和训练文本2的负样本对、包含训练视频1和训练文本3的负样本对在目标类别上分别对应的第二相似度权重，第二行数据为包含训练视频2和训练文本1的负样本对、正样本对B、包含训练视频2和训练文本3的负样本对在目标类别上分别对应的第二相似度权重，第三行数据为包含训练视频3和训练文本1的负样本对、包含训练视频3和训练文本2的负样本对、正样本对C在目标类别上分别对应的第二相似度权重。

上述实施例中，基于各个训练样本对在目标类别上的目标相似度得到第一相似度矩阵，基于第一相似度矩阵中第二维度上的矩阵元素生成第二相似度矩阵，基于正样本对在目标类别上的目标相似度，对第二相似度矩阵中各个矩阵元素进行调整，得到第四相似度矩阵，第四相似度矩阵融合有针对c2v任务的相关信息，有助于在模型训练时提高模型对于c2v任务的处理能力。基于第一相似度矩阵中第一维度上的矩阵元素生成第三相似度矩阵，基于正样本对在目标类别上的目标相似度，对第三相似度矩阵中各个矩阵元素进行调整，得到第五相似度矩阵，第五相似度矩阵融合有针对v2c任务的相关信息，有助于在模型训练时提高模型对于v2c任务的处理能力。

在一个实施例中，基于正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度，得到第一损失，基于正样本对和与正样本对包含同一训练文本的各个负样本对分别对应的第二更新相似度，得到第二损失，包括：

融合正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度，得到各个正样本对分别对应的第一相似度统计值，基于同一正样本对所对应的第一更新相似度和第一相似度统计值，得到各个正样本对分别对应的第一子损失，基于各个第一子损失得到第一损失；融合正样本对和与正样本对包含同一训练文本的各个负样本对分别对应的第二更新相似度，得到各个正样本对分别对应的第二相似度统计值，基于同一正样本对所对应的第二更新相似度和第二相似度统计值，得到各个正样本对分别对应的第二子损失，基于各个第二子损失得到第二损失。

具体地，在计算第一损失时，融合正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度，得到各个正样本对分别对应的第一相似度统计值，例如，将正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度的总和作为第一相似度统计值。基于同一正样本对所对应的第一更新相似度和第一相似度统计值，得到各个正样本对分别对应的第一子损失，例如，将正样本对所对应的第一更新相似度和第一相似度统计值的比值作为第一子损失。最后，基于各个第一子损失得到第一损失，例如，计算各个第一子损失的平均值作为第一损失。

与计算第一损失类似，在计算第二损失时，融合正样本对和与正样本对包含同一训练文本的各个负样本对分别对应的第二更新相似度，得到各个正样本对分别对应的第二相似度统计值，基于同一正样本对所对应的第二更新相似度和第二相似度统计值，得到各个正样本对分别对应的第二子损失，基于各个第二子损失得到第二损失。

上述实施例中，融合正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度，基于同一正样本对所对应的第一更新相似度和第一相似度统计值，得到各个正样本对分别对应的第一子损失，基于各个第一子损失得到第一损失，体现了一种归一化的思想，基于这样的第一损失生成的训练子损失有助于提高模型训练质量。融合正样本对和与正样本对包含同一训练文本的各个负样本对分别对应的第二更新相似度，基于同一正样本对所对应的第二更新相似度和第二相似度统计值，得到各个正样本对分别对应的第二子损失，基于各个第二子损失得到第二损失，体现了一种归一化的思想，基于这样的第二损失生成的训练子损失有助于提高模型训练质量。

在一个具体的实施例中，针对基于视频特征和训练文本特征计算得到的目标相似度，可以通过下列公式(7)计算所属相似度类别对应的训练子损失。

其中，WTI(V_i,C_i)表示由训练视频i和训练文本j组成的训练样本对所对应的目标相似度，该目标相似度是基于视频特征V和训练文本特征C计算得到的。

表示由训练视频i和训练文本j组成的训练样本对所对应的第一相似度权重，

表示由训练视频i和训练文本j组成的训练样本对所对应的第二相似度权重。Pr^v2c表示第四相似度矩阵，融合了c2v任务的相关信息。Pr^c2v表示第五相似度矩阵，融合了v2c任务的相关信息。Pr^v2c和Pr^c2v也可以称为优先矩阵。

L^v2c表示第一损失，L^c2v表示第二损失。

表示基于视频特征和训练文本特征计算得到的目标相似度所属相似度类别对应的训练子损失，也可以表示视频特征与文本特征匹配网络对应的损失信息。

temp代表温度超参数，用于使梯度平滑，可以根据实际需要进行设置。L代表缩放参数，可以根据实际需要进行设置。B表示正样本对的数量。

针对动作增强视频特征和训练文本特征，可以将动作增强视频特征与训练文本特征进行WTI相似度匹配，得到相似度矩阵Sim_{c_m}＝WTI(C,V^M)。类似公式(7)，可以得到损失函数：Loss_m＝L^m2c+L^c2m,

表示基于动作增强视频特征和训练文本特征计算得到的目标相似度所属相似度类别对应的训练子损失，也可以表示动作增强视频特征与文本特征匹配网络对应的损失信息。

针对音频增强视频特征和训练文本特征，可以将动作增强视频特征与训练文本特征进行WTI相似度匹配，得到相似度矩阵Sim_{c_a}＝WTI(C,V^A)。类似公式(7)，可以得到损失函数：Loss_a＝L^a2c+L^c2a,

表示基于音频增强视频特征和训练文本特征计算得到的目标相似度所属相似度类别对应的训练子损失，也可以表示音频增强视频特征与文本特征匹配网络对应的损失信息。

在一个具体的实施例中，参考图5，以视频特征和文本特征为例说明相似度计算过程和损失计算过程。训练视频对应的视频特征可以是将训练视频输入视频编码器得到的，训练文本对应的训练文本特征可以是将训练文本输入文本编码器得到的。在计算视频特征和训练文本特征之间的目标相似度时，先计算视频特征和训练文本特征之间的初始相似度(参考

)，再对初始相似度进行max操作，具体是对初始相似度按行取最大值得到的3*1矩阵(参考

)，对初始相似度按列取最大值得到1*3的矩阵(参考

)，还有求训练文本对应的文本权重(参考

)，求训练视频对应的视频权重(参考

)，最后将3*1矩阵和文本权重进行加权融合(参考c2v_logits)，将1*3的矩阵和视频权重进行加权融合(参考v2c_logits)，基于各个加权融合结果得到视频特征和训练文本特征之间的目标相似度。

由于存在多个训练样本对，各个训练样本对基于各自的视频特征和训练文本特征都可以计算得到相应的目标相似度，各个训练样本对分别对应的目标相似度组成目标相似度矩阵，目标相似度矩阵的对角线为各个正样本对分别对应的目标相似度。基于正样本对所对应的目标相似度，对目标相似度矩阵按列进行softmax计算得到相似度权重矩阵(参考Pr^v2c)，基于正样本对所对应的目标相似度，对目标相似度矩阵按行进行softmax计算得到相似度权重矩阵(参考Pr^c2v)。将目标相似度矩阵分别和两个相似度权重矩阵进行相应矩阵元素的相乘，得到两个更新相似度矩阵(参考

和

)。基于正样本对所对应的目标相似度，对更新相似度矩阵进行softmax计算得到损失(参考L^v2c和L^c2v，即第一损失和第二损失)。最后，基于第一损失和第二损失得到训练子损失(参考

)。

在一个实施例中，初始视频文本匹配模型包括视频特征与文本特征匹配网络、参考增强视频特征与文本特征匹配网络，参考增强视频特征与文本特征匹配网络包括动作增强视频特征与文本特征匹配网络、音频增强视频特征与文本特征匹配网络中的至少一种，训练损失包括各种网络分别对应的训练子损失。

基于训练损失调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型，包括：

基于各个训练子损失分别调整初始视频文本匹配模型中对应网络的模型参数，直至满足各种网络分别对应的收敛条件，得到目标视频文本匹配模型。

具体地，模型的训练模式可以采用集成训练模式。集成训练模式是指分别训练初始视频文本匹配模型中的各种网络，各种网络基于各自的损失信息进行模型训练。若所有网络训练结束，则将各个训练完成的网络组成目标视频文本匹配模型。

基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算的训练损失包括各种网络分别对应的训练子损失，计算机设备可以各个训练子损失分别调整初始视频文本匹配模型中对应网络的模型参数，直至满足各种网络分别对应的收敛条件，得到目标视频文本匹配模型。具体可以基于视频特征与文本特征匹配网络对应的训练子损失调整视频特征与文本特征匹配网络的模型参数，直至满足视频特征与文本特征匹配网络对应的收敛条件，得到训练完成的视频特征与文本特征匹配网络。若存在动作增强视频特征与文本特征匹配网络，基于动作增强视频特征与文本特征匹配网络对应的训练子损失调整动作增强视频特征与文本特征匹配网络的模型参数，直至满足动作增强视频特征与文本特征匹配网络对应的收敛条件，得到训练完成的动作增强视频特征与文本特征匹配网络。若存在音频增强视频特征与文本特征匹配网络，基于音频增强视频特征与文本特征匹配网络对应的训练子损失调整音频增强视频特征与文本特征匹配网络的模型参数，直至满足音频增强视频特征与文本特征匹配网络对应的收敛条件，得到训练完成的音频增强视频特征与文本特征匹配网络。

在模型应用时，集成目标视频文本匹配模型中各种网络的预测结果得到最终的预测结果。例如，从目标视频文本匹配模型的三种网络输出的相似度中获取最大值作为目标值，若目标值大于预设阈值，则确定最终的匹配结果为匹配成功；获取目标视频文本匹配模型的三种网络输出的相似度，计算平均值作为目标值，若目标值大于预设阈值，则确定最终的匹配结果为匹配成功；等等。

上述实施例中，基于各个训练子损失分别调整初始视频文本匹配模型中对应网络的模型参数，能够让视频文本匹配模型中各个网络分别达到自身的最优，保障最终得到的目标视频文本匹配模型具有较高的预测准确性。

在一个实施例中，训练损失包括各个相似度类别分别对应的第一训练子损失。基于训练损失调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型，包括：

从各个第一训练子损失中获取最小值作为第一目标子损失；基于第一目标子损失分别和各个剩余训练子损失之间的差异，得到各个剩余训练子损失分别对应的损失贡献度；基于各个剩余训练子损失分别对应的损失贡献度，得到各个剩余训练子损失分别对应的损失权重；基于各个训练子损失分别对应的损失权重，融合各个训练子损失，得到第一目标损失；第一目标子损失对应的损失权重为预设权重；基于第一目标损失调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型。

其中，训练损失包括各个相似度类别分别对应的第一训练子损失。若初始视频文本匹配模型包括多种网络，则某一相似度类别对应的第一训练子损失即为相应网络对应的训练子损失。

具体地，模型的训练模式可以采用端到端训练模式(也可以称为E2E训练模式)，端到端训练模式的最终损失函数可以采用多模态平衡损失函数，将各种第一训练子损失按照贡献度进行融合得到最终的目标损失，基于最终的目标损失调整整个模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型。

首先，计算机设备从各个第一训练子损失中获取最小值作为第一目标子损失，将其他第一训练子损失作为剩余训练子损失。由于第一目标子损失的数值最小，第一目标子损失可以认为是贡献最大的子损失。接着，计算机设备基于第一目标子损失分别和各个剩余训练子损失之间的差异，计算各个剩余训练子损失分别对应的损失贡献度。损失贡献度随着剩余训练子损失的数值的增大而减小，剩余训练子损失越大，表明相应的网络越不准确，其对应的损失贡献度就越小。进而，计算机设备基于各个剩余训练子损失分别对应的损失贡献度，计算各个剩余训练子损失分别对应的损失权重。损失权重随着损失贡献度的增大而增大，训练子损失的损失贡献度越大，对应的损失权重越大。最后，计算机设备基于各个训练子损失分别对应的损失权重融合各个训练子损失，得到第一目标损失。其中，第一目标子损失对应的损失权重为预设权重。在一个实施例中，预设权重大于各个剩余训练子损失分别对应的损失权重。

第一目标损失可以认为是模型的一种综合损失。计算机设备基于第一目标损失进行反向传播来调整初始视频文本匹配模型的模型参数，对模型进行整体端到端的训练，直至满足收敛条件，得到目标视频文本匹配模型。

在一个实施例中，设计三种模态定义为i,j,k∈{v,a,m}，各个模态之间的贡献率定义为

其中，i为贡献最大的模态，具体可以将损失最小的模态作为i。v表示视频特征对应的模态，也可以表征视频特征对应的相似度类别；a表示音频增强视频特征对应的模态，也可以表征音频增强视频特征对应的相似度类别；m表示动作增强视频特征对应的模态，也可以表征动作增强视频特征对应的相似度类别。

首先，将损失最小的模态作为i，这种模态一定满足

其他模态分别作为j和k。然后，参考下列公式(8)，利用贡献率可以动态的调整平衡各个模态的贡献，以得到各个模态的平衡系数(即损失权重)。参考下列公式(9)，利用平衡系数计算最终的第一目标损失。

Loss1＝theta_i·Loss_i+theta_j·Loss_j+theta_k·Loss_k 公式(9)

其中，theta_i表示i对应的平衡系数，theta_j表示j对应的平衡系数，theta_k表示k对应的平衡系数。tanh()表示双曲正切函数。α表示调整参数，可以根据实际需要进行设置，例如，设置为1.0。Loss_i表示i对应的训练子损失，Loss_j表示j对应的训练子损失，Loss_k表示k对应的训练子损失，Loss1表示第一目标损失。

上述实施例中，基于各个第一训练子损失的损失贡献度，对各个第一训练子损失进行加权融合得到第一目标损失，基于第一目标损失对模型进行端到端训练，可以有效提高模型的训练质量，保障最终得到的目标视频文本匹配模型具有较高的预测准确性。

在一个实施例中，训练损失包括各个正样本对在各个相似度类别上分别对应的第二训练子损失。基于训练损失调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型，包括：

针对同一正样本对，从各个第二训练子损失中获取最小值作为第二目标子损失，得到各个正样本对分别对应的第二目标子损失；基于各个第二目标子损失的统计值，得到第二目标损失；基于第二目标损失调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型。

其中，训练损失包括各个正样本对在各个相似度类别上分别对应的第二训练子损失。例如，参考Loss_v、Loss_a和Loss_m，各个正样本对存在各自对应的Loss_v、Loss_a和Loss_m，Loss_v、Loss_a和Loss_m是正样本对在各个相似度类别上分别对应的第二训练子损失。

具体地，在采用端到端训练模式时，端到端训练模式的最终损失函数可以采用最优损失函数。最优损失函数是通过集成同一正样本对在每个相似度类别上的最优损失作为正样本对所对应的最终损失，基于各个正样本对分别对应的最终损失得到模型的最终损失。

针对同一正样本对，计算机设备可以从各个第二训练子损失中获取最小值作为第二目标子损失，针对各个正样本对，计算机设备最终可以得到各个正样本对分别对应的第二目标子损失。然后，计算机设备基于各个第二目标子损失的统计值得到第二目标损失，例如，计算各个第二目标子损失的平均值作为第二目标损失；计算各个第二目标子损失的中位值作为第二目标损失；等等。

第二目标损失也可以认为是模型的一种综合损失，计算机设备基于第二目标损失进行反向传播来调整初始视频文本匹配模型的模型参数，对模型进行整体端到端的训练，直至满足收敛条件，得到目标视频文本匹配模型。

在一个实施例中，参考下列公式(10)，利用平衡系数计算最终的目标损失。

从同一正样本对所对应的Loss_v,Loss_m,Loss_a中找到最小值作为Loss，得到各个正样本对分别对应的Loss，求各个Loss的平均值作为第二目标损失

上述实施例中，对于每个正样本对，取每个支路最优的第二训练子损失作为最终训练子损失用于计算最终的第二目标损失，基于第二目标损失对模型进行端到端训练，可以有效提高模型的训练质量，保障最终得到的目标视频文本匹配模型具有较高的预测准确性。

在一个实施例中，视频文本匹配模型训练方法还包括：

将测试样本对集合中测试视频对应的视频特征、参考特征和测试文本对应的测试文本特征输入目标视频文本匹配模型，得到测试样本对集合中各个测试样本对分别对应的相似度集合；基于各个测试样本对分别对应的相似度集合，生成各个相似度类别分别对应的相似度测试矩阵；基于各个相似度类别分别对应的相似度测试矩阵，确定各个测试样本对在各个相似度类别上分别对应的预测匹配子排名；基于同一测试样本对所对应的各个预测匹配子排名确定预测匹配排名，得到各个测试样本对分别对应的预测匹配排名；基于各个测试样本对中匹配样本对所对应的预测匹配排名，确定目标视频文本匹配模型对应的预测准确度。

其中，测试样本对集合包括多个测试样本对。测试样本对集合中包括匹配测试样本对和非匹配测试样本对。匹配测试样本对是指测试样本对中的测试视频和测试文本是匹配的，非匹配测试样本对是指测试样本对中的测试视频和测试文本是不匹配的。

具体地，在训练得到目标视频文本匹配模型后，还可以进一步对模型进行测试，评估模型性能，在模型测试通过后，再将模型投入使用。在进行模型测试时，可以采用多模态后融合的处理策略。多模态后融合的处理策略是指先计算各个模态分别对应的相似度，再集成各个相似度得到最终的匹配结果。

在测试时，需要将测试样本对集合中测试视频对应的视频特征、参考特征和测试文本对应的测试文本特征输入目标视频文本匹配模型，经过模型的数据处理，可以得到测试样本对集合中各个测试样本对分别对应的相似度集合。一个相似度集合包括各个相似度类别分别对应的目标相似度。计算机设备可以基于各个测试样本对分别对应的相似度集合生成各个相似度类别分别对应的相似度测试矩阵。一个相似度测试矩阵中包括各个测试样本对在同一相似度类别上对应的目标相似度。进而，计算机设备可以基于各个相似度类别分别对应的相似度测试矩阵确定各个测试样本对在各个相似度类别上分别对应的预测匹配子排名，具体可以对某一相似度测试矩阵中的矩阵元素的数值按行或按列进行从大到小排序，得到各个测试样本对在相应相似度类别上分别对应的预测匹配子排名。计算机设备再基于同一测试样本对所对应的各个预测匹配子排名可以确定测试样本对所对应的预测匹配排名，得到各个测试样本对分别对应的预测匹配排名，例如，可以从各个预测匹配子排名中获取最大排名作为预测匹配排名；可以从各个预测匹配子排名中获取平均排名作为预测匹配排名；等等。最终，计算机设备基于各个测试样本对中匹配样本对所对应的预测匹配排名来确定目标视频文本匹配模型对应的预测准确度。

若预测准确度大于预设准确度，则确定目标视频文本匹配模型通过测试，可以将模型投入使用。若预测准确度小于或等于预设准确度，则确定目标视频文本匹配模型没有通过测试。若目标视频文本匹配模型没有通过测试，可以获取新的训练样本对集合对目标视频文本匹配模型进行进一步的训练，再次调整模型参数。其中，预设准确度是指预先设置的准确度，可以根据实际需要进行设置。

在一个实施例中，基于各个测试样本对中匹配样本对所对应的预测匹配排名统计R@1,R@5,R@10,Median Score或Mean Score中至少一种数据来确定目标视频文本匹配模型对应的预测准确度，来评估模型性能。R@1是基于预测匹配排名为第一名的匹配样本对在所有匹配样本对中所占的比例得到的，R@5是基于预测匹配排名为前五名的匹配样本对在所有匹配样本对中所占的比例得到的，R@10是基于预测匹配排名为前十名的匹配样本对在所有匹配样本对中所占的比例得到的，Median Score是基于预测匹配排名为中间排名的匹配样本对在所有匹配样本对中所占的比例得到的。Mean Score是基于各个匹配样本对所对应的预测匹配排名的平均值得到的。R@1、R@5和R@10都是数值越大，表明模型预测准确度越高，模型性能越好。Median Score和Mean Score都是数值越小，表明模型预测准确度越高，模型性能越好。

在一个实施例中，还可以引入正则项来辅助模型测试。可以对视频进行文本特征提取得到视频文本特征，计算测试样本对中测试视频的视频文本特征和测试文本的测试文本特征之间的目标相似度，得到各个测试样本对在新的相似度类别上分别对应的目标相似度。基于各个测试样本对在新的相似度类别上分别对应的目标相似度，确定各个测试样本对在新的相似度类别上分别对应的预测匹配子排名。基于同一测试样本对所对应的各个预测匹配子排名确定预测匹配排名，得到各个测试样本对分别对应的预测匹配排名。基于各个测试样本对中匹配样本对所对应的预测匹配排名，确定目标视频文本匹配模型对应的预测准确度。

参考图6，视频文本匹配模型包括四个支路，四个支路分别用于计算测试样本对中视频对应的视频特征和文本对应的文本特征之间的相似度、视频文本特征和文本特征之间的相似度、动作引导的视频特征(即动作增强视频特征)和文本特征之间的相似度、音频引导的视频特征(即音频增强视频特征)和文本特征之间的相似度。将测试样本对集合中测试视频对应的视频特征、视频文本特征、动作引导的视频特征、音频引导的视频特征和测试文本对应的测试文本特征输入目标视频文本匹配模型，分别计算各个支路的相似度矩阵。对相似度矩阵按行或按列进行排序，得到各个测试样本对的预测匹配子排名，然后，取各个支路最优的排名成绩作为各个测试样本对最终的预测匹配排名。利用各个匹配样本对最终的预测匹配排名统计R@1,R@5,R@10,Median Score和Mean Score来评估模型性能。参考图6，测试样本对1在各个支路的预测匹配子排名分别为7、6、0、3，从各个预测匹配子排名中获取最优排名作为最终的预测匹配排名，测试样本对1最终的预测匹配排名为0。

参考图7，对相似度矩阵进行排序时，若相似度矩阵的横轴代表包含相同视频的测试样本对，纵轴代表包含相同文本的测试样本对，此时，对相似度矩阵按行进行排序得到的排名是在c2v任务上的排名结果，对相似度矩阵按列进行排序得到的排名是在v2c任务上的排名结果。

可以理解，在确定一个测试样本对在一个相似度类别上的预测匹配子排名可以包括在c2v任务或v2c任务中至少一者上的排名结果。

上述实施例中，基于测试样本对集合对训练完成的视频文本匹配模型进行模型测试，模型测试采用了多模态后融合的策略，取各支路最优预测结果作为最终预测结果，有助于保障模型测试的效果。相应的，在模型应用时，也可以采用多模态后融合的策略，能够显著地提升模型的预测性能。

在一个实施例中，如图8所示，提供了一种视频文本匹配方法，以该方法应用于计算机设备来举例说明，该计算机设备可以是上述图1中的终端102或服务器104。参考图8，视频文本匹配方法包括以下步骤：

步骤S802，获取待匹配视频对应的待匹配视频特征和待匹配参考特征，获取待匹配文本对应的待匹配文本特征；待匹配参考特征包括待匹配视频对应的音频特征和动作特征中的至少一种。

其中，待匹配视频和待匹配文本是指待确定是否匹配的视频和文本。待匹配视频特征是指待匹配视频对应的视频特征，待匹配参考特征是指待匹配视频对应的参考特征。待匹配视频特征、待匹配参考特征的获取过程可以参考训练视频对应的视频特征、参考特征的获取过程。待匹配文本特征是指待匹配文本对应的文本特征，待匹配文本特征的获取过程可以参考训练文本对应的训练文本特征的获取过程。

步骤S804，基于待匹配参考特征，对待匹配视频特征进行特征增强，得到待匹配视频对应的参考增强视频特征；参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种。

具体地，计算机设备可以获取待匹配视频对应的待匹配视频特征和待匹配参考特征，基于待匹配参考特征对待匹配视频特征进行特征增强，得到待匹配视频对应的参考增强视频特征。若待匹配参考特征包括动作特征，则基于动作特征对待匹配视频特征进行特征增强，得到动作增强视频特征，参考增强视频特征包括动作增强视频特征。若待匹配参考特征包括音频特征，则基于音频特征对待匹配视频特征进行特征增强，得到音频增强视频特征，参考增强视频特征包括音频增强视频特征。

可以理解，特征增强的具体过程都可以参照前述图像生成模型训练方法的各个相关实施例的内容。例如，分别对待匹配视频特征和动作特征进行模态内注意力处理，得到自注意力视频特征和自注意力动作特征；对待匹配视频特征和自注意力动作特征进行模态间注意力处理，得到交叉注意力视频特征，对动作特征和自注意力视频特征进行模态间注意力处理，得到交叉注意力动作特征；融合交叉注意力动作特征和交叉注意力视频特征，得到动作视频融合特征；对动作视频融合特征进行通道注意力处理，得到第一通道注意力权重，基于第一通道注意力权重，对待匹配视频特征进行特征增强，得到动作增强视频特征。

步骤S806，将待匹配文本特征，分别和待匹配视频特征、参考增强视频特征进行相似度计算，得到待匹配视频和待匹配文本对应的相似度集合。

其中，相似度集合包括待匹配文本特征和待匹配视频特征之间的相似度、待匹配文本特征和参考增强视频特征之间的相似度。

可以理解，相似度计算的具体过程都可以参照前述图像生成模型训练方法的各个相关实施例的内容。例如，计算待匹配文本特征和待匹配文本特征之间的初始相似度；初始相似度包括待匹配文本中多个文本词语分别和同一视频帧之间的子相似度、待匹配视频中多个视频帧分别和同一文本词语之间的子相似度；基于待匹配文本特征得到文本权重，基于待匹配视频特征得到视频权重；针对初始相似度，从同一视频帧对应的多个子相似度中获取最大值作为第一子相似度，从同一文本词语对应的多个子相似度中获取最大值作为第二子相似度，得到各个视频帧分别对应的第一子相似度和各个文本词语分别对应的第二子相似度；基于各个第一子相似度得到第一相似度，基于各个第二子相似度得到第二相似度；将第一相似度和文本权重进行融合，得到第一融合数据，将第二相似度和视频权重进行融合，得到第二融合数据；基于第一融合数据和第二融合数据，得到待匹配视频特征和待匹配文本特征之间的目标相似度。

步骤S808，基于待匹配视频和待匹配文本对应的相似度集合，确定待匹配视频和待匹配文本之间的匹配结果。

具体地，计算机设备可以在本地、或从其他设备上获取待匹配视频对应的待匹配视频特征和待匹配参考特征，获取待匹配文本对应的待匹配文本特征，然后基于待匹配参考特征对待匹配视频特征进行特征增强，得到待匹配视频对应的参考增强视频特征，例如，分别单独训练用于生成动作增强视频特征和音频增强视频特征的模型，将待匹配视频的视频特征和动作特征输入用于生成动作增强视频特征的模型，得到动作增强视频特征，将待匹配视频的视频特征和音频特征输入用于生成音频增强视频特征的模型，得到音频增强视频特征。进而，计算机设备计算待匹配文本特征分别和待匹配视频特征、参考增强视频特征之间的相似度，得到待匹配视频和待匹配文本对应的相似度集合，例如，计算待匹配文本特征分别和待匹配视频特征、参考增强视频特征之间的余弦相似度，得到相似度集合。最终，计算机设备基于待匹配视频和待匹配文本对应的相似度集合，确定待匹配视频和待匹配文本之间的匹配结果，例如，若相似度集合中各个相似度均大于预设阈值，则确定待匹配视频和待匹配文本之间的匹配结果为匹配成功，否则，匹配结果为匹配失败；若相似度集合中至少两个相似度均大于预设阈值，则确定待匹配视频和待匹配文本之间的匹配结果为匹配成功，否则，匹配结果为匹配失败；从相似度集合中获取最大值作为目标值，若目标值大于预设阈值，则确定匹配结果为匹配成功，否则，匹配结果为匹配失败；等等。

可以理解，特征增强和相似度计算的具体过程都可以参照前述图像生成模型训练方法的各个相关实施例的内容。前述视频文本匹配模型训练方法的各个相关实施例所述的方法不仅可以由一个模型实现，也可以由多个模型实现，例如，可以分别单独训练用于生成动作增强视频特征和音频增强视频特征的模型。前述视频文本匹配模型训练方法的各个相关实施例所述的方法还可以不依赖于模型，设计相应算法或公式来实现。

在一个实施例中，待匹配视频和待匹配文本中的至少一者可以有多个，各个待匹配视频和待匹配文本两两组合可以得到多个视频文本对。与测试模型类似，在确定匹配结果时，可以基于各个视频文本对分别对应的相似度集合，生成各个相似度类别分别对应的相似度预测矩阵，基于各个相似度类别分别对应的相似度预测矩阵，确定各个视频文本对在各个相似度类别上分别对应的预测匹配子排名，基于同一视频文本对所对应的各个预测匹配子排名确定预测匹配排名，得到各个视频文本对分别对应的预测匹配排名，最终基于各个视频文本对分别对应的预测匹配排名确定各个视频文本对分别对应的匹配结果。例如，可以将预测匹配排名在前10％的视频文本对对应的匹配结果确定为匹配成功。

本申请的视频文本匹配方法可以应用在数据检索和数据推荐场景下。例如，在视频检索场景下，可以将用户的搜索语句作为待匹配文本，将候选视频集合中的视频作为待匹配视频，基于目标视频文本匹配模型确定各个视频文本对分别对应的预测匹配排名，将预测匹配排名在前10的视频文本对中的候选视频作为目标视频，将各个目标视频作为该搜索语句对应的视频搜索结果。

上述视频文本匹配方法，通过获取待匹配视频对应的待匹配视频特征和待匹配参考特征，获取待匹配文本对应的待匹配文本特征；待匹配参考特征包括待匹配视频对应的音频特征和动作特征中的至少一种；基于待匹配参考特征，对待匹配视频特征进行特征增强，得到待匹配视频对应的参考增强视频特征；参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种；将待匹配文本特征，分别和待匹配视频特征、参考增强视频特征进行相似度计算，得到待匹配视频和待匹配文本对应的相似度集合；基于待匹配视频和待匹配文本对应的相似度集合，确定待匹配视频和待匹配文本之间的匹配结果。这样，视频特征可以提供视频的图像信息，音频特征可以提供视频的声音信息，动作特征可以提供视频的运动信息，基于待匹配视频对应的视频特征、参考特征和待匹配文本对应的文本特征确定待匹配视频和待匹配文本之间的匹配结果，可以利用视频中丰富的模态信息来提升对视频内容的理解，从而提高匹配准确性。并且，基于音频特征或动作特征对视频特征进行特征增强、特征引导，可以突出视频中的重要信息，进一步提升对视频内容的理解。分别基于视频特征和参考增强视频特征，与文本特征进行相似度计算，基于计算得到的相似度集合确定匹配结果，能够进一步提高匹配准确性。

在一个实施例中，如图9所示，步骤S804和步骤S806，包括：

步骤S902，将待匹配视频特征、待匹配参考特征和待匹配文本特征输入目标视频文本匹配模型，得到待匹配视频和待匹配文本对应的相似度集合。

其中，目标视频文本匹配模型的训练过程包括以下步骤：

获取训练样本对集合；训练样本对集合中的训练样本对包括正样本对和与正样本对相匹配的负样本对，训练样本对包括训练视频和训练文本，正样本对中的训练视频和训练文本相互匹配；将训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型；参考特征包括训练视频对应的音频特征和动作特征中的至少一种；基于同一训练视频对应的参考特征，对相应的视频特征进行特征增强，得到训练视频对应的参考增强视频特征；参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种；针对同一训练样本对，将训练文本对应的训练文本特征，分别和训练视频对应的视频特征、参考增强视频特征进行相似度计算，得到各个训练样本对分别对应的相似度集合；基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算训练损失，基于训练损失调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型。

可以理解，目标视频文本匹配模型的训练过程可以参考前述视频文本匹配模型训练方法中各个实施例的内容，此处不再赘述。

具体地，计算机设备可以获取待匹配视频对应的待匹配视频特征和待匹配参考特征，获取待匹配文本对应的待匹配文本特征，将待匹配视频特征、待匹配参考特征和待匹配文本特征输入目标视频文本匹配模型，经过模型的数据处理，得到待匹配视频和待匹配文本对应的相似度集合。在目标视频文本匹配模型中，基于待匹配参考特征，对待匹配视频特征进行特征增强，得到待匹配视频对应的参考增强视频特征。在目标视频文本匹配模型中，将待匹配文本特征，分别和待匹配参考特征、参考增强视频特征进行相似度计算，得到待匹配视频和待匹配文本对应的相似度集合。

上述实施例中，通过获取待匹配视频对应的待匹配视频特征和待匹配参考特征，获取待匹配文本对应的待匹配文本特征；待匹配参考特征包括待匹配视频对应的音频特征和动作特征中的至少一种；将待匹配视频特征、待匹配参考特征和待匹配文本特征输入目标视频文本匹配模型，得到待匹配视频和待匹配文本对应的相似度集合；基于待匹配视频和待匹配文本对应的相似度集合，确定待匹配视频和待匹配文本之间的匹配结果。这样，通过一个目标视频文本匹配模型来进行特征增强和相似度计算，可以有效提高数据处理效率，快速得到待匹配视频和待匹配文本对应的相似度集合，进而快速确定待匹配视频和待匹配文本之间的匹配结果。

在一个实施例中，视频文本匹配方法还包括：

对待匹配视频对应的视频文本特征和待匹配文本对应的目标文本特征进行相似度计算，得到视频文本特征和目标文本特征之间的参考相似度；视频文本特征包括音频文本特征和图像文本特征中的至少一种，音频文本特征是对从待匹配视频的音频中提取得到的音频文本进行特征提取得到的，图像文本特征是对从待匹配视频的图像中提取到的图像文本进行特征提取得到的；基于待匹配视频和待匹配文本对应的相似度集合和参考相似度，确定待匹配视频和待匹配文本之间的匹配结果。

具体地，在确定待匹配视频和待匹配文本之间的匹配结果时，还可以进一步综合考虑待匹配视频对应的视频文本特征和待匹配文本对应的目标文本特征之间的相似度，来提高匹配准确性。

计算机设备可以获取待匹配视频对应的视频文本特征和待匹配文本对应的目标文本特征，对待匹配视频对应的视频文本特征和待匹配文本对应的目标文本特征进行相似度计算，将计算结果作为视频文本特征和目标文本特征之间的参考相似度，最终基于待匹配视频和待匹配文本对应的相似度集合和参考相似度，综合判断待匹配视频和待匹配文本之间的匹配结果。例如，若相似度集合中各个相似度和参考相似度均大于预设阈值，则确定待匹配视频和待匹配文本之间的匹配结果为匹配成功，否则，匹配结果为匹配失败；若相似度集合和参考相似度中至少两个相似度均大于预设阈值，则确定待匹配视频和待匹配文本之间的匹配结果为匹配成功，否则，匹配结果为匹配失败；等等

其中，视频文本特征包括音频文本特征和图像文本特征中的至少一种。音频文本特征是对从待匹配视频的音频中提取得到的音频文本进行特征提取得到的，图像文本特征是对从待匹配视频的图像中提取到的图像文本进行特征提取得到的。可以基于ASR(Automatic Speech Recognition，自动语音识别技术)从待匹配视频的音频中提取得到音频文本，可以基于OCR(Optical Character Recognition，光符识别技术)从待匹配视频的图像中提取得到图像文本。进一步可以基于机器学习模型对音频文本进行特征提取得到音频文本特征，基于机器学习模型对图像文本进行特征提取得到图像文本特征。

可以理解，目标文本特征和待匹配文本特征可以相同可以不同。

若视频文本特征包括音频文本特征和图像文本特征，可以对音频文本特征和目标文本特征进行相似度计算得到第一参考相似度，对图像文本特征和目标文本特征进行相似度计算得到第二参考相似度，基于待匹配视频和待匹配文本对应的相似度集合、第一参考相似度和第二参考相似度，确定待匹配视频和待匹配文本之间的匹配结果。

上述实施例中，在确定待匹配视频和待匹配文本之间的匹配结果，综合考虑相似度集合和参考相似度，能够进一步提高匹配准确性。

在一个实施例中，对待匹配视频对应的视频文本特征和待匹配文本对应的目标文本特征进行相似度计算，得到视频文本特征和目标文本特征之间的参考相似度，包括：

计算视频文本特征和目标文本特征之间的初始相似度，得到初始相似度矩阵；对初始相似度矩阵中数值大于预设阈值的矩阵元素进行数量统计，得到第一数量；对待匹配文本和视频文本分别对应的文本词语数量进行融合，得到第二数量；视频文本是指视频文本特征对应的文本；基于第一数量和第二数量，得到视频文本特征和目标文本特征之间的参考相似度。

具体地，计算机设备可以先基于视频文本特征和目标文本特征计算初始相似度，得到初始相似度矩阵，例如，将视频文本特征和目标文本特征的余弦相似度作为初始相似度。初始相似度矩阵中矩阵元素的数值越大，表明待匹配文本和视频文本中相应文本词语之间的相似程度越高。因此，计算机设备可以对初始相似度矩阵中数值大于预设阈值的矩阵元素进行数量统计，将统计结果作为第一数量。同时，计算机设备可以对待匹配文本和视频文本分别对应的文本词语数量进行融合，得到第二数量。例如，将待匹配文本和视频文本对应的文本词语数量的总和作为第二数量；将待匹配文本和视频文本对应的文本词语数量的乘积作为第二数量；等等。最终，计算机设备基于第一数量和第二数量，得到视频文本特征和目标文本特征之间的参考相似度。例如，将第一数量和第二数量的比值作为参考相似度。

在一个实施例中，计算视频文本特征和目标文本特征的余弦相似度矩阵，然后利用余弦相似度矩阵计算关键词分数，将关键词分数作为参考相似度。可以通过下列公式(11)计算关键词分数。

N_{key_word}＝L(Sim_maxtirx＞＝threshold)

其中，N_{key_word}表示余弦相似度矩阵中大于等于阈值元素个数，Sim表示余弦相似度矩阵，threshold表示阈值。Score_{caption_text}表示关键词分数，L_C表示待匹配文本的文本词语数量，L_T表示视频文本的文本词语数量。

图10为余弦相似度矩阵的示意图，余弦相似度矩阵的横轴表示待匹配文本中各个文本词语，纵轴表示视频文本中各个文本词语。图10中的一个方格表示余弦相似度矩阵的一个矩阵元素，余弦相似度矩阵的矩阵元素表示待匹配文本和视频文本中相应文本词语之间的相似度，相似度越高，方格颜色越深。

上述实施例中，在计算参考相似度时，无需对视频文本特征和目标文本特征进行复杂数据处理，基于对初始相似度矩阵的矩阵元素进行统计得到的第一数量和对文本词语数量进行融合得到的第二数量，可以快速计算得到视频文本特征和目标文本特征之间的参考相似度。

在一个实施例中，当前文本为音频文本、图像文本和待匹配文本中的任意一种，当前文本对应的文本特征为音频文本特征、图像文本特征或目标文本特征中的任意一种。当前文本对应的文本特征的生成过程包括以下步骤：

对当前文本进行名词提取，得到文本名词；对文本名词进行特征提取，得到当前文本对应的文本特征。

具体地，视频文本特征和目标文本特征可以是基于同一方式生成的。通过数据分析发现，文本中的人名、地名等抽象名词在视频特征、动作特征和音频特征中很难表现，但是文本中的人名、地名对于视频文本匹配任务又具有重要作用。因此，在生成视频文本特征和目标文本特征时，计算机设备可以对当前文本进行名词提取，从当前文本中过滤出名词，得到文本名词，只对文本名词进行特征提取，得到当前文本对应的文本特征。

在一个实施例中，参考图11，为了进一步提高当前文本对应的文本特征的特征准确性，可以对待匹配文本和视频文本进行预处理，再对预处理后的待匹配文本和视频文本进行特征提取得到目标文本特征和视频文本特征，基于目标文本特征和视频文本特征计算关键词分数作为参考相似度。其中，预处理包括过滤出名词，将单词还原为原始词性和字母小写化，具体是先从文本中过滤出名词，再将名词还原为原始词性，再将原始词性的名词进行字母小写化处理。

上述实施例中，基于视频文本中的名词来生成视频文本特征，基于待匹配文本中的名词来生成目标文本特征，这样的视频文本特征和目标文本特征有助于在视频文本匹配时考虑到其他模态所难以表达的视频和文本中的名词信息，从而有助于提高视频文本的匹配准确性。

在一个具体的实施例中，本申请的视频文本匹配方法是一种多级多模态混合融合方法。参考图12，目标视频文本匹配模型包括四个支路，分别为视频特征与待匹配文本特征匹配支路(也可以称为视频特征与文本特征匹配网络)、视频文本特征与目标文本特征匹配支路(也可以称为视频文本特征与目标文本特征匹配网络)、动作引导的视频特征与待匹配文本特征匹配支路(也可以称为动作增强视频特征与文本特征匹配网络)、音频引导的视频特征与待匹配文本特征匹配支路(也可以称为音频增强视频特征与文本特征匹配网络)。

视频特征与待匹配文本特征匹配支路的输入数据为待匹配视频的视频特征和待匹配文本的待匹配文本特征，输出数据为基于视频特征与待匹配文本特征计算得到的目标相似度。视频文本特征与目标文本特征匹配支路的输入数据为待匹配视频的视频文本特征和待匹配文本的目标文本特征，输出数据为基于视频文本特征与目标文本特征计算得到的目标相似度。动作引导的视频特征与待匹配文本特征匹配支路的输入数据为待匹配视频的视频特征、动作特征和待匹配文本的目标文本特征，输出数据为基于动作引导的视频特征与待匹配文本特征计算得到的目标相似度。音频引导的视频特征与待匹配文本特征匹配支路的输入数据为待匹配视频的视频特征、音频特征和待匹配文本的目标文本特征，输出数据为基于音频引导的视频特征与待匹配文本特征计算得到的目标相似度。

目标视频文本匹配模型利用前向融合方式，分别利用音频特征和动作特征对视频特征进行引导，然后再分别利用视频特征、音频引导的视频特征、动作引导的视频特征以及目标文本特征，与待匹配文本的文本特征进行相似度计算。

目标视频文本匹配模型利用后向融合方式，集成四个支路的预测结果得到最终预测结果。

同时，还可以采用视频特征填充不对齐的音频特征，以对齐多模态特征，实现当模态不对齐的时候，可以利用自身的视频特征进行引导，可以在一定程度上提高了视频文本匹配的性能。

目标视频文本匹配模型利用前向和后向混合融合的方式，充分地挖掘和利用各个模态特征的检测能力，最终显著提高了视频文本匹配的性能。这种多级多模态混合融合的视频文本匹配方法，已经在相关数据集上达到了最高的检测性能。

本申请的视频文本匹配方法，利用到多模态信息，多模态信息可以为视频文本匹配提供许多图像特征不能提供的信息，有助于提高视频文本匹配的性能。例如，参考图13，文本信息可以提供类似于人名、地名等抽象名词信息。图13中视频对应的视频文本和待匹配文本分别包括“民众”和“教育”这些名词信息。

本申请的视频文本匹配方法采用的多级模态混合融合的策略，可以将视频的多模态特征分层次的与文本的文本特征建立关系，利用前向和后向混合融合的策略显著地提高了模型的检索性能。前向融合在特征层面，对模态进行融合得到多模态融合特征，后向融合可以集成每个支路的最优预测结果。此外，为每个模态信息都设计与待匹配文本的文本信息互相检索的匹配支路，降低了模态混淆的风险，分层次的将多种模态信息与待匹配文本的文本信息进行相似度匹配，降低了模态混淆的风险，提升了模型的检测性能。

本申请的视频文本匹配方法也对模态对齐进行了探索，可以达到实现当模态缺失的时候，也可以对视频特征进行引导的效果，增加了模型的鲁棒性。

针对模型训练，本申请的视频文本匹配方法也提出了两种训练模式：集成训练模式和E2E训练模式。集成训练模式利用提出的多模态后融合的处理策略，对各支路的预测结果进行集成。E2E训练模式提出了两种用于整合各支路的损失函数：多模态平衡损失函数和最优损失函数。其中，多模态平衡损失函数可以对各个支路的损失进行平衡，调整各支路的比重。最优损失函数，会整合每个支路训练样本最低损失，作为最终损失。

相比于传统方法，本申请的视频文本匹配方法可以深入地挖掘视频中的有效信息，并与文本进行相互匹配，从而能有效地提升无论是针对t2v任务还是v2t任务的检索性能。

可以理解，本申请的视频文本匹配方法能应用到视频内容理解、视频内容推荐、视频文本检索等多个场景中。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频文本匹配模型训练方法的视频文本匹配模型训练装置，该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似。本申请实施例还提供了一种用于实现上述所涉及的视频文本匹配方法的视频文本匹配装置，该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似。故下面所提供的一个或多个视频文本匹配模型训练装置实施例中的具体限定可以参见上文中对于视频文本匹配模型训练方法的限定，下面所提供的一个或多个视频文本匹配装置实施例中的具体限定可以参见上文中对于视频文本匹配方法的限定，在此不再赘述。

在一个实施例中，如图14所示，提供了一种视频文本匹配模型训练装置，包括：训练样本对集合获取模块1402、特征输入模块1404、特征增强模块1406、相似度计算模块1408和模型调整模块1410，其中：

训练样本对集合获取模块1402，用于获取训练样本对集合；训练样本对集合中的训练样本对包括正样本对和与正样本对相匹配的负样本对，训练样本对包括训练视频和训练文本，正样本对中的训练视频和训练文本相互匹配。

特征输入模块1404，用于将训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型；参考特征包括训练视频对应的音频特征和动作特征中的至少一种。

特征增强模块1406，用于基于同一训练视频对应的参考特征，对相应的视频特征进行特征增强，得到训练视频对应的参考增强视频特征；参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种。

相似度计算模块1408，用于针对同一训练样本对，将训练文本对应的训练文本特征，分别和训练视频对应的视频特征、参考增强视频特征进行相似度计算，得到各个训练样本对分别对应的相似度集合。

模型调整模块1410，用于基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算训练损失，基于训练损失调整初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型；目标视频文本匹配模型用于确定视频和文本之间的匹配结果。

上述视频文本匹配模型训练装置，视频特征可以提供视频的图像信息，音频特征可以提供视频的声音信息，动作特征可以提供视频的运动信息，基于训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征训练视频文本匹配模型，可以利用视频中丰富的模态信息来提升模型对视频内容的理解，从而提高模型的预测准确性。并且，基于音频特征或动作特征对视频特征进行特征增强、特征引导，可以突出视频中的重要信息，分别基于视频特征和参考增强视频特征，与训练文本特征进行相似度计算，基于计算得到的相似度集合生成的训练损失调整模型参数，能够使得模型更好的建立视频与文本之间的关系，进一步提高模型的预测准确性。

在一个实施例中，训练样本对集合获取模块还用于：

在一个实施例中，特征增强模块还用于：

在一个实施例中，视频文本匹配模型训练装置还用于：

相似度计算模块还用于：

在一个实施例中，相似度集合包括至少两种目标相似度。模型调整模块还用于：

在一个实施例中，模型调整模块还用于：

模型调整模块还用于：

在一个实施例中，训练损失包括各个相似度类别分别对应的第一训练子损失。模型调整模块还用于：

在一个实施例中，训练损失包括各个正样本对在各个相似度类别上分别对应的第二训练子损失。模型调整模块还用于：

在一个实施例中，视频文本匹配模型训练装置还用于：

在一个实施例中，如图15所示，提供了一种视频文本匹配装置，包括：特征获取模块1502、特征增强模块1504、相似度计算模块1506和匹配结果确定模块1508，其中：

特征获取模块1502，用于获取待匹配视频对应的待匹配视频特征和待匹配参考特征，获取待匹配文本对应的待匹配文本特征；待匹配参考特征包括待匹配视频对应的音频特征和动作特征中的至少一种。

特征增强模块1504，用于基于待匹配参考特征，对待匹配视频特征进行特征增强，得到待匹配视频对应的参考增强视频特征；参考增强视频特征包括动作增强视频特征和音频增强视频特征中的至少一种。

相似度计算模块1506，用于将待匹配文本特征，分别和待匹配视频特征、参考增强视频特征进行相似度计算，得到待匹配视频和待匹配文本对应的相似度集合。

匹配结果确定模块1508，用于基于待匹配视频和待匹配文本对应的相似度集合，确定待匹配视频和待匹配文本之间的匹配结果。

上述视频文本匹配装置，视频特征可以提供视频的图像信息，音频特征可以提供视频的声音信息，动作特征可以提供视频的运动信息，基于待匹配视频对应的视频特征、参考特征和待匹配文本对应的文本特征确定待匹配视频和待匹配文本之间的匹配结果，可以利用视频中丰富的模态信息来提升对视频内容的理解，从而提高匹配准确性。并且，基于音频特征或动作特征对视频特征进行特征增强、特征引导，可以突出视频中的重要信息，进一步提升对视频内容的理解。分别基于视频特征和参考增强视频特征，与文本特征进行相似度计算，基于计算得到的相似度集合确定匹配结果，能够进一步提高匹配准确性。

在一个实施例中，视频文本匹配装置还用于：

在一个实施例中，当前文本为音频文本、图像文本和待匹配文本中的任意一种，当前文本对应的文本特征为音频文本特征、图像文本特征或目标文本特征中的任意一种。视频文本匹配装置还用于：

在一个实施例中，视频文本匹配装置还用于：

将待匹配视频特征、待匹配参考特征和待匹配文本特征输入目标视频文本匹配模型，得到待匹配视频和待匹配文本对应的相似度集合；目标视频文本匹配模型用于进行特征增强和相似度计算。

上述视频文本匹配模型训练装置和视频文本匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本对集合、测试样本对集合、目标视频文本匹配模型等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频文本匹配模型训练方法和视频文本匹配方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图17所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频文本匹配模型训练方法和视频文本匹配方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图16、17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频文本匹配模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取训练样本对集合，包括：

获取多个正样本对；

将各个正样本对进行数据重组，得到多个负样本对；

将与正样本对存在重合数据的负样本对作为与正样本对相匹配的负样本对；

基于各个正样本对和相匹配的各个负样本对，得到所述训练样本对集合。

3.根据权利要求1所述的方法，其特征在于，所述动作增强视频特征的生成过包括以下步骤：

分别对当前训练视频对应的视频特征和动作特征进行模态内注意力处理，得到所述当前训练视频对应的自注意力视频特征和自注意力动作特征；

对所述当前训练视频对应的视频特征和自注意力动作特征进行模态间注意力处理，得到所述当前训练视频对应的交叉注意力视频特征，对所述当前训练视频对应的动作特征和自注意力视频特征进行模态间注意力处理，得到所述当前训练视频对应的交叉注意力动作特征；

融合所述当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征，得到所述当前训练视频对应的动作视频融合特征；

对所述当前训练视频对应的动作视频融合特征进行通道注意力处理，得到第一通道注意力权重，基于所述第一通道注意力权重，对所述当前训练视频对应的视频特征进行特征增强，得到所述当前训练视频对应的动作增强视频特征。

4.根据权利要求3所述的方法，其特征在于，所述分别对当前训练视频对应的视频特征和动作特征进行模态内注意力处理，得到所述当前训练视频对应的自注意力视频特征和自注意力动作特征，包括：

将所述当前训练视频对应的视频特征进行模态内融合，得到第一自注意力权重，将所述当前训练视频对应的视频特征和所述第一自注意力权重进行融合，得到第一注意力特征，基于所述当前训练视频对应的视频特征和第一注意力特征，得到所述自注意力视频特征；

将所述当前训练视频对应的动作特征进行模态内融合，得到第二自注意力权重，将所述当前训练视频对应的动作特征和所述第二自注意力权重进行融合，得到第二注意力特征，基于所述当前训练视频对应的动作特征和所述第二注意力特征，得到所述自注意力动作特征。

5.根据权利要求3所述的方法，其特征在于，所述对所述当前训练视频对应的视频特征和自注意力动作特征进行模态间注意力处理，得到所述当前训练视频对应的交叉注意力视频特征，对所述当前训练视频对应的动作特征和自注意力视频特征进行模态间注意力处理，得到所述当前训练视频对应的交叉注意力动作特征，包括：

将所述当前训练视频对应的视频特征和自注意力动作特征进行拼接，得到第一拼接特征，将所述当前训练视频对应的视频特征和所述第一拼接特征进行模态间融合，得到第一交叉注意力权重，将所述第一拼接特征和所述第一交叉注意力权重进行融合，得到第一交叉注意力特征，基于所述第一拼接特征和所述第一交叉注意力特征，得到所述交叉注意力视频特征；

将所述当前训练视频对应的动作特征和自注意力视频特征进行拼接，得到第二拼接特征，将所述当前训练视频对应的动作特征和所述第二拼接特征进行模态间融合，得到第二交叉注意力权重，将所述第二拼接特征和所述第二交叉注意力权重进行融合，得到第二交叉注意力特征，基于所述第二拼接特征和所述第二交叉注意力特征，得到所述交叉注意力动作特征。

6.根据权利要求3所述的方法，其特征在于，所述融合所述当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征，得到所述当前训练视频对应的动作视频融合特征，包括：

将所述当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征进行拼接，得到交叉注意力拼接特征；

将所述当前训练视频对应的交叉注意力动作特征和交叉注意力视频特征进行融合，得到交叉注意力融合特征；

将所述交叉注意力拼接特征和所述交叉注意力融合特征进行模态间融合，得到第三交叉注意力权重，将所述交叉注意力拼接特征和所述第三交叉注意力权重进行融合，得到第三交叉注意力特征，基于所述交叉注意力拼接特征和所述第三交叉注意力特征，得到所述动作视频融合特征。

7.根据权利要求3所述的方法，其特征在于，所述初始视频文本匹配模型包括动作增强视频特征与文本特征匹配网络，所述动作增强视频特征与文本特征匹配网络包括第一模态内注意力层、第二模态内注意力层、第一模态间注意力层、第二模态间注意力层、动作视频融合注意力层、第一通道注意力层和第一相似度计算层；

所述第一模态内注意力层用于对视频特征进行模态内注意力处理，所述第二模态内注意力层用于对动作特征进行模态内注意力处理；

所述第一模态间注意力层用于对视频特征和自注意力动作特征进行模态间注意力处理，所述第二模态间注意力层用于对动作特征和自注意力视频特征进行模态间注意力处理；

所述动作视频融合注意力层用于融合同一训练视频对应的交叉注意力动作特征和交叉注意力视频特征；

所述第一通道注意力层用于对动作视频融合特征进行通道注意力处理；

所述第一相似度计算层用于计算动作增强视频特征和训练文本特征之间的相似度。

8.根据权利要求1所述的方法，其特征在于，所述音频增强视频特征的生成过程包括以下步骤：

对当前训练视频对应的视频特征和音频特征进行融合，得到初始音视频融合特征；

对所述初始音视频融合特征进行随机失活处理和池化处理，得到中间音视频融合特征；

对所述中间音视频融合特征进行归一化处理，得到目标音视频融合特征；

对所述目标音视频融合特征进行通道注意力处理，得到第二通道注意力权重，基于所述第二通道注意力权重，对所述当前训练视频对应的视频特征进行特征增强，得到所述当前训练视频对应的音频增强视频特征。

9.根据权利要求8所述的方法，其特征在于，所述初始视频文本匹配模型包括音频增强视频特征与文本特征匹配网络，所述音频增强视频特征与文本特征匹配网络包括音视频融合层、随机失活层、池化层、归一化层、第二通道注意力层和第二相似度计算层；

所述音视频融合层用于对视频特征和音频特征进行融合；

所述随机失活层用于对输入的数据进行随机失活处理；

所述池化层用于对输入的数据进行池化处理；

所述归一化层用于对输入的数据进行归一化处理；

所述第二通道注意力层用于对输入的数据进行通道注意力处理；

所述第二相似度计算层用于计算音频增强视频特征和训练文本特征之间的相似度。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1所述的方法，其特征在于，所述相似度集合包括至少两种目标相似度，当前视频特征为当前训练样本对中训练视频对应的视频特征和参考增强视频特征中的任意一种，当前文本特征为所述当前训练样本对中训练文本对应的训练文本特征，所述训练视频包括多个视频帧，所述训练文本包括多个文本词语；

计算当前视频特征和当前文本特征之间的初始相似度；所述初始相似度包括训练文本中多个文本词语分别和同一视频帧之间的子相似度、训练视频中多个视频帧分别和同一文本词语之间的子相似度；

基于当前文本特征得到文本权重，基于当前视频特征得到视频权重；

针对所述初始相似度，从同一视频帧对应的多个子相似度中获取最大值作为第一子相似度，从同一文本词语对应的多个子相似度中获取最大值作为第二子相似度，得到各个视频帧分别对应的第一子相似度和各个文本词语分别对应的第二子相似度；

基于各个第一子相似度得到第一相似度，基于各个第二子相似度得到第二相似度；

将所述第一相似度和所述文本权重进行融合，得到第一融合数据，将所述第二相似度和所述视频权重进行融合，得到第二融合数据；

基于所述第一融合数据和所述第二融合数据，得到所述当前视频特征和当前文本特征之间的目标相似度。

12.根据权利要求1所述的方法，其特征在于，所述相似度集合包括至少两种目标相似度，所述基于正样本对所对应的相似度集合和相匹配的负样本对所对应的相似度集合计算训练损失，包括：

从各个相似度类别中确定目标类别；

基于正样本对和与正样本对包含同一训练文本的各个负样本对在目标类别上的目标相似度，得到各个训练样本对在目标类别上分别对应的第一相似度权重，基于正样本对和与正样本对包含同一训练视频的各个负样本对在目标类别上的目标相似度，得到各个训练样本对在目标类别上分别对应的第二相似度权重；

融合同一训练样本对在目标类别上的目标相似度和第一相似度权重，得到各个训练样本对分别对应的第一更新相似度，融合同一训练样本对在目标类别上的目标相似度和第二相似度权重，得到各个训练样本对分别对应的第二更新相似度；

基于正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度，得到第一损失，基于正样本对和与正样本对包含同一训练文本的各个负样本对分别对应的第二更新相似度，得到第二损失；

基于所述第一损失和所述第二损失，得到目标类别对应的训练子损失；

获取下一相似度类别作为目标类别，返回所述基于正样本对和与正样本对包含同一训练文本的各个负样本对在目标类别上的目标相似度，得到各个训练样本对在目标类别上分别对应的第一相似度权重的步骤执行，直至确定各个相似度类别分别对应的训练子损失；

基于各种训练子损失得到所述训练损失。

13.根据权利要求12所述的方法，其特征在于，所述基于正样本对和与正样本对包含同一训练文本的各个负样本对在目标类别上的目标相似度，得到各个训练样本对在目标类别上分别对应的第一相似度权重，基于正样本对和与正样本对包含同一训练视频的各个负样本对在目标类别上的目标相似度，得到各个训练样本对在目标类别上分别对应的第二相似度权重，包括：

基于各个训练样本对在目标类别上的目标相似度，得到第一相似度矩阵；所述第一相似度矩阵的第一维度表征包含同一训练视频的各个训练样本对在目标类别上的目标相似度，所述目标相似度矩阵的第二维度表征包含同一训练文本的各个训练样本对在目标类别上的目标相似度，所述目标相似度矩阵的对角线表征各个正样本对在目标类别上的目标相似度；

基于第一相似度矩阵中的当前矩阵元素和当前矩阵元素在第二维度上的前向矩阵元素，生成当前矩阵元素对应的第二矩阵元素，基于第一相似度矩阵中各个矩阵元素分别对应的第二矩阵元素，生成第二相似度矩阵；

基于第一相似度矩阵中的当前矩阵元素和当前矩阵元素在第一维度上的前向矩阵元素，生成当前矩阵元素对应的第三矩阵元素，基于第一相似度矩阵中各个矩阵元素分别对应的第三矩阵元素，生成第三相似度矩阵；

基于正样本对在目标类别上的目标相似度，对第二相似度矩阵中各个矩阵元素进行调整，得到第四相似度矩阵，基于正样本对在目标类别上的目标相似度，对第三相似度矩阵中各个矩阵元素进行调整，得到第五相似度矩阵；所述第四相似度矩阵表征各个训练样本对在目标类别上分别对应的第一相似度权重，所述第五相似度矩阵表征各个训练样本对在目标类别上分别对应的第二相似度权重。

14.根据权利要求12所述的方法，其特征在于，所述基于正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度，得到第一损失，基于正样本对和与正样本对包含同一训练文本的各个负样本对分别对应的第二更新相似度，得到第二损失，包括：

融合正样本对和与正样本对包含同一训练视频的各个负样本对分别对应的第一更新相似度，得到各个正样本对分别对应的第一相似度统计值，基于同一正样本对所对应的第一更新相似度和第一相似度统计值，得到各个正样本对分别对应的第一子损失，基于各个第一子损失得到所述第一损失；

融合正样本对和与正样本对包含同一训练文本的各个负样本对分别对应的第二更新相似度，得到各个正样本对分别对应的第二相似度统计值，基于同一正样本对所对应的第二更新相似度和第二相似度统计值，得到各个正样本对分别对应的第二子损失，基于各个第二子损失得到所述第二损失。

15.根据权利要求1至14任一项所述的方法，其特征在于，所述初始视频文本匹配模型包括视频特征与文本特征匹配网络、参考增强视频特征与文本特征匹配网络，所述参考增强视频特征与文本特征匹配网络包括动作增强视频特征与文本特征匹配网络、音频增强视频特征与文本特征匹配网络中的至少一种，所述训练损失包括各种网络分别对应的训练子损失；

所述基于所述训练损失调整所述初始视频文本匹配模型的模型参数，直至满足收敛条件，得到目标视频文本匹配模型，包括：

基于各个训练子损失分别调整所述初始视频文本匹配模型中对应网络的模型参数，直至满足各种网络分别对应的收敛条件，得到所述目标视频文本匹配模型。

16.根据权利要求1至14任一项所述的方法，其特征在于，所述训练损失包括各个相似度类别分别对应的第一训练子损失；

从各个第一训练子损失中获取最小值作为第一目标子损失；

基于第一目标子损失分别和各个剩余训练子损失之间的差异，得到各个剩余训练子损失分别对应的损失贡献度；

基于各个剩余训练子损失分别对应的损失贡献度，得到各个剩余训练子损失分别对应的损失权重；

基于各个训练子损失分别对应的损失权重，融合各个训练子损失，得到第一目标损失；所述第一目标子损失对应的损失权重为预设权重；

基于所述第一目标损失调整所述初始视频文本匹配模型的模型参数，直至满足收敛条件，得到所述目标视频文本匹配模型。

17.根据权利要求1至14任一项所述的方法，其特征在于，所述训练损失包括各个正样本对在各个相似度类别上分别对应的第二训练子损失；

针对同一正样本对，从各个第二训练子损失中获取最小值作为第二目标子损失，得到各个正样本对分别对应的第二目标子损失；

基于各个第二目标子损失的统计值，得到第二目标损失；

基于所述第二目标损失调整所述初始视频文本匹配模型的模型参数，直至满足收敛条件，得到所述目标视频文本匹配模型。

18.根据权利要求1至14任一项所述的方法，其特征在于，所述方法还包括：

将测试样本对集合中测试视频对应的视频特征、参考特征和测试文本对应的测试文本特征输入目标视频文本匹配模型，得到所述测试样本对集合中各个测试样本对分别对应的相似度集合；

基于所述各个测试样本对分别对应的相似度集合，生成各个相似度类别分别对应的相似度测试矩阵；

基于所述各个相似度类别分别对应的相似度测试矩阵，确定所述各个测试样本对在各个相似度类别上分别对应的预测匹配子排名；

基于同一测试样本对所对应的各个预测匹配子排名确定预测匹配排名，得到所述各个测试样本对分别对应的预测匹配排名；

基于所述各个测试样本对中匹配样本对所对应的预测匹配排名，确定所述目标视频文本匹配模型对应的预测准确度。

19.一种视频文本匹配方法，其特征在于，所述方法还包括：

20.根据权利要求19所述的方法，其特征在于，所述方法还包括：

对所述待匹配视频对应的视频文本特征和所述待匹配文本对应的目标文本特征进行相似度计算，得到所述视频文本特征和所述目标文本特征之间的参考相似度；所述视频文本特征包括音频文本特征和图像文本特征中的至少一种，所述音频文本特征是对从所述待匹配视频的音频中提取得到的音频文本进行特征提取得到的，所述图像文本特征是对从所述待匹配视频的图像中提取到的图像文本进行特征提取得到的；

基于所述待匹配视频和所述待匹配文本对应的相似度集合和所述参考相似度，确定所述待匹配视频和所述待匹配文本之间的匹配结果。

21.一种视频文本匹配模型训练装置，其特征在于，所述装置包括：

22.一种视频文本匹配装置，其特征在于，所述装置包括：

23.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至20中任一项所述的方法的步骤。

24.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至20中任一项所述的方法的步骤。

25.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至20中任一项所述的方法的步骤。