CN115130650A

CN115130650A - 一种模型训练方法及相关装置

Info

Publication number: CN115130650A
Application number: CN202210452459.XA
Authority: CN
Inventors: 李廷天; 孙子荀
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-09-30

Abstract

本申请实施例公开了一种人工智能领域的模型训练方法及相关装置，其中该方法包括：获取多个包括视频片段和音频片段的训练样本；通过第一编码网络根据各训练样本中的第一片段，确定各训练样本对应的第一预测特征；基于各训练样本对应的第一预测特征进行聚类处理，确定各训练样本中第一片段所属的类别，根据训练样本中第一片段所属的类别，为训练样本中第二片段配置伪标签；通过第二编码网络根据各训练样本中的第二片段，确定各训练样本对应的第二预测特征，并确定各训练样本中的第二片段对应的类别预测结果；基于各训练样本中的第二片段对应的类别预测结果和伪标签，训练第二编码网络。该方法能够提高视频编码网络和音频编码网络的特征编码能力。

Description

一种模型训练方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型训练方法及相关装置。

背景技术

在实际应用中，视觉和听觉的交互作用能够使人类的感知功能更完整和精确；例如，人们观看视频时，通常需要借助声音来理解视频画面中的内容。基于此，针对视频执行相关任务(如分类任务等)时，往往需要综合考虑该视频的图像特征和音频特征；目前主要通过视频编码网络根据视频画面确定视频的图像特征，通过音频编码网络根据视频的音频确定视频的音频特征。

相关技术中，通常采用对比学习的方式，训练上述视频编码网络和音频编码网络。具体的，可以将一段视频中同步的视频片段和音频片段作为正样本，将不同视频中的视频片段和音频片段、或同一视频中不同步的视频片段和音频片段作为负样本；然后，训练用于识别正样本和负样本的二分类模型，该二分类模型中包括的视频编码网络和音频编码网络在此过程中也会得到相应的训练。

然而，通过上述方式训练得到的视频编码网络和音频编码网络所具备的特征编码能力并不理想，二者编码得到的图像特征和音频特征往往难以很好地应用于下游任务。原因在于，上述训练方法中使用的正样本与负样本之间的区别通常非常明显，在模型训练的过程中，所训练的二分类模型很容易就能准确地分辨出正样本和负样本，而其中的视频编码网络和音频编码网络并没有得到充分的训练。

发明内容

本申请实施例提供了一种模型训练方法及相关装置，能够保证训练得到的视频编码网络和音频编码网络具备较优的特征编码能力，从而更好地应用于下游任务。

有鉴于此，本申请第一方面提供了一种模型训练方法，所述方法包括：

获取多个训练样本；所述训练样本中包括视频片段及其对应的音频片段；

针对每个所述训练样本，通过第一编码网络，根据所述训练样本中的第一片段，确定所述训练样本对应的第一预测特征；所述第一编码网络为视频编码网络和音频编码网络中的任一个；

基于所述多个训练样本各自对应的第一预测特征进行聚类处理，确定每个所述训练样本中的第一片段所属的类别；并针对每个所述训练样本，根据所述训练样本中的第一片段所属的类别，为所述训练样本中的第二片段配置对应的伪标签；所述第二片段与所述第一片段不同；

针对每个所述训练样本，通过第二编码网络，根据所述训练样本中的第二片段，确定所述训练样本对应的第二预测特征；根据所述训练样本对应的第二预测特征，确定所述训练样本中的第二片段对应的类别预测结果；所述第二编码网络为所述视频编码网络和所述音频编码网络中的任一个，且不同于所述第一编码网络；

基于所述多个训练样本中的第二片段各自对应的类别预测结果和伪标签，训练所述第二编码网络。

本申请第二方面提供了一种模型训练装置，所述装置包括：

训练样本获取模块，用于获取多个训练样本；所述训练样本中包括视频片段及其对应的音频片段；

第一特征预测模块，用于针对每个所述训练样本，通过第一编码网络，根据所述训练样本中的第一片段，确定所述训练样本对应的第一预测特征；所述第一编码网络为视频编码网络和音频编码网络中的任一个；

第一特征聚类模块，用于基于所述多个训练样本各自对应的第一预测特征进行聚类处理，确定每个所述训练样本中的第一片段所属的类别；并针对每个所述训练样本，根据所述训练样本中的第一片段所属的类别，为所述训练样本中的第二片段配置对应的伪标签；所述第二片段与所述第一片段不同；

第二网络预测模块，用于针对每个所述训练样本，通过第二编码网络，根据所述训练样本中的第二片段，确定所述训练样本对应的第二预测特征；根据所述训练样本对应的第二预测特征，确定所述训练样本中的第二片段对应的类别预测结果；所述第二编码网络为所述视频编码网络和所述音频编码网络中的任一个，且不同于所述第一编码网络；

第二网络训练模块，用于基于所述多个训练样本中的第二片段各自对应的类别预测结果和伪标签，训练所述第二编码网络。

本申请第三方面提供了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的模型训练方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的模型训练方法的步骤。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的模型训练方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种模型训练方法，在该方法中，先获取多个包括视频片段及其对应的音频片段的训练样本；然后，针对每个训练样本，通过第一编码网络(其可以是视频编码网络和音频编码网络中的任一种)，根据该训练样本中的第一片段(其是视频片段和音频片段中适用于被第一编码网络处理的片段)，确定该训练样本对应的第一预测特征；接着，基于多个训练样本各自对应的第一预测特征进行聚类处理，确定每个训练样本中的第一片段所属的类别，并据此为该训练样本中的第二片段(视频片段和音频片段中除第一片段外的另一片段)配置对应的伪标签；进而，针对每个训练样本，通过第二编码网络(其是视频编码网络和音频编码网络中除第一编码网络外的另一编码网络)，根据该训练样本中的第二片段，确定该训练样本对应的第二预测特征，并根据该训练样本对应的第二预测特征，确定该训练样本中的第二片段对应的类别预测结果；最终，可以根据多个训练样本中的第二片段各自对应的类别预测结果和伪标签，训练该第二编码网络。通过上述方法训练视频编码网络和音频编码网络时，利用其中一个编码网络生成的编码特征的聚类结果，确定训练另一个编码网络时可用的有监督信号；一方面，避免了标注训练样本，也即节省了因标注训练样本而耗费的处理资源，同时还可以避免因所构建的训练样本存在缺陷而导致所训练的编码网络性能不佳的问题；另一方面，由于训练样本中的视频片段与音频片段之间具有对应关系，因此，基于训练样本中一种片段对应的特征聚类结果，为该训练样本中另一种片段配置对应的伪标签，可以在一定程度上保证所配置的伪标签的可靠性，相应地，将该伪标签作为有监督信号训练另一编码网络，可以保证对该编码网络进行可靠的训练，也即保证所训练的视频编码网络或音频编码网络能够具备较优的特征编码能力，可以更好地应用于下游任务。

附图说明

图1为本申请实施例提供的模型训练方法的应用场景示意图；

图2为本申请实施例提供的模型训练方法的流程示意图；

图3为本申请实施例提供的协同训练视频编码网络和音频编码网络的实现原理示意图；

图4为本申请实施例提供的将视频编码网络和音频编码网络应用于目标分类任务的实现原理示意图；

图5为本申请实施例提供的将视频编码网络和音频编码网络应用于背景音频生成任务的实现原理示意图；

图6为本申请实施例提供的模型训练方法的实现原理示意图；

图7为本申请实施例提供的模型训练装置的结构示意图；

图8为本申请实施例提供的终端设备的结构示意图；

图9为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习技术。此外，本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

相关技术中，采用对比学习的方式训练得到的视频编码网络和音频编码网络普遍性能不佳，二者具备的特征编码能力并不理想，通过二者编码得到的图像特征和音频特征往往难以很好地应用于下游任务。

为了解决上述问题，本申请实施例提供了一种模型训练方法，通过该方法训练视频编码网络和音频编码网络时，利用其中一种编码网络生成的编码特征的聚类结果，辅助训练另一种编码网络，从而达到视频编码网络与音频编码网络协同训练的效果，并且提高所训练的视频编码网络和音频编码网络的性能。

具体的，在本申请实施例提供的模型训练方法中，先获取多个包括视频片段及其对应的音频片段的训练样本。然后，针对每个训练样本，通过第一编码网络(其可以是视频编码网络和音频编码网络中的任一种)，根据该训练样本中的第一片段(其是视频片段和音频片段中适用于被第一编码网络处理的片段)，确定该训练样本对应的第一预测特征。接着，基于多个训练样本各自对应的第一预测特征进行聚类处理，确定每个训练样本中的第一片段所属的类别，并据此为该训练样本中的第二片段(视频片段和音频片段中除第一片段外的另一片段)配置对应的伪标签。进而，针对每个训练样本，通过第二编码网络(其是视频编码网络和音频编码网络中除第一编码网络外的另一编码网络)，根据该训练样本中的第二片段，确定该训练样本对应的第二预测特征，并根据该训练样本对应的第二预测特征，确定该训练样本中的第二片段对应的类别预测结果。最终，可以根据多个训练样本中的第二片段各自对应的类别预测结果和伪标签，训练该第二编码网络。

上述模型训练方法，在训练视频编码网络和音频编码网络的过程中并未构建正负样本，因此，可以避免相关技术中基于对比学习的模型训练方法中因使用正负样本而引起的问题。通过上述方法训练视频编码网络和音频编码网络时，利用其中一个编码网络生成的编码特征的聚类结果，确定训练另一个编码网络时可用的有监督信号。一方面，避免了标注训练样本，也即节省了因标注训练样本而耗费的处理资源，同时还可以避免因所构建的训练样本存在缺陷而导致所训练的编码网络性能不佳的问题。另一方面，由于训练样本中的视频片段与音频片段之间具有对应关系，因此，基于训练样本中一种片段对应的特征聚类结果，为该训练样本中另一种片段配置对应的伪标签，可以在一定程度上保证所配置的伪标签的可靠性，相应地，将该伪标签作为有监督信号训练另一编码网络，可以保证对该编码网络进行可靠的训练，也即保证所训练的视频编码网络或音频编码网络能够具备较优的特征编码能力，可以更好地应用于下游任务。

应理解，本申请实施例提供的模型训练方法可以由具备图像处理能力和音频处理能力的计算机设备执行，该计算机设备可以是终端设备或服务器。其中，终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等；服务器具体可以为应用服务器或Web服务器，在实际部署时，可以为独立服务器，也可以为由多个物理服务器构成的集群服务器或云服务器。本申请实施例涉及的数据可以保存于区块链上。

为了便于理解本申请实施例提供的模型训练方法，下面以该模型训练方法的执行主体为服务器为例，对该模型训练方法的应用场景进行示例性介绍。

参见图1，图1为本申请实施例提供的模型训练方法的应用场景示意图。如图1所示，该应用场景中包括服务器110和数据库120；服务器110可以通过网络访问数据库120，或者数据库120也可以集成在服务器110中。其中，服务器110用于执行本申请实施例提供的方法，以训练视频编码网络或音频编码网络；数据库120中存储有若干具有对应关系的视频片段和音频片段。

在实际应用中，服务器110可以从数据库120中获取多组具有对应关系的视频片段和音频片段，进而，将所获取的具有对应关系的视频片段和音频片段作为训练样本。示例性的，具有对应关系的视频片段和音频片段可以是基于同一有声视频得到的，例如，可以从某有声视频中截取某个播放时间段对应的视频片段作为训练样本中的视频片段，并且截取该有声视频中该播放时间段对应的视频音频作为该训练样本中的音频片段，如此截取到的该有声视频中对应于同一播放时间段的视频片段和音频片段，即为具有对应关系的视频片段和音频片段。

服务器110获取到多个包括具有对应关系的视频片段和音频片段的训练样本后，可以针对每个训练样本，通过第一编码网络111根据该训练样本中的第一片段，确定该训练样本对应的第一预测特征。需要说明的是，该第一编码网络111可以是视频编码网络和音频编码网络中的任一个；相应地，该第一片段可以是训练样本包括的视频片段和音频片段中适用于被该第一编码网络111处理的片段。

服务器110通过第一编码网络111，获得多个训练样本各自对应的第一预测特征后，可以对多个训练样本各自对应的第一预测特征进行聚类处理，以确定每个训练样本中的第一片段所属的类别。此外，由于每个训练样本包括的视频片段和音频片段之间具有对应关系，因此，确定出每个训练样本中的第一片段所属的类别后，可以进一步根据该训练样本中第一片段所属的类别，为该训练样本中的第二片段配置对应的伪标签，该伪标签可作为后续训练第二编码网络112时的有监督信号。需要说明的是，第二编码网络112是视频编码网络和音频编码网络中的任一个，且该第二编码网络112与第一编码网络111不同；相应地，该第二片段是训练样本包括的视频片段和音频片段中适用于被该第二编码网络112处理的片段，该第二片段与第一片段不同。

服务器110通过上述方式配置出各训练样本中的第二片段对应的伪标签后，可以进一步基于各训练样本中的第二片段及其对应的伪标签，训练第二编码网络112。具体的，针对每个训练样本，服务器110可以通过第二编码网络112根据该训练样本中的第二片段，确定该训练样本对应的第二预测特征；然后，可以根据该训练样本对应的第二预测特征，确定该训练样本中的第二片段对应的类别预测结果。

服务器110通过上述方式得到各训练样本中的第二片段对应的类别预测结果后，可以基于各训练样本中的第二片段对应的类别预测结果和伪标签，训练第二编码网络112；应理解，当第二编码网络112为视频编码网络时，通过上述方式即可实现对于视频编码网络的训练，当第二编码网络112为音频编码网络时，通过上述方式即可实现对于音频编码网络的训练。

应理解，在实际应用中，服务器110除了可以基于上述方式对第二编码网络112进行训练以外，也可以基于上述方式对第一编码网络111进行训练。具体的，服务器110也可以通过聚类处理的方式，为训练样本中的第一片段配置对应的伪标签；即，服务器110可以基于多个训练样本各自对应的第二预测特征进行聚类处理，确定每个训练样本中的第二片段所属的类别，并针对每个训练样本，根据该训练样本中的第二片段所属的类别，为该训练样本中的第一片段配置对应的伪标签。进而，服务器110可以针对每个训练样本，根据该训练样本对应的第一预测特征(即第一编码网络111根据该训练样本中的第一片段确定的编码特征)，确定该训练样本中第一片段对应的类别预测结果；进而，基于多个训练样本中的第一片段对应的类别预测结果和伪标签，训练第一编码网络111。

应理解，图1所示的应用场景仅为示例，在实际应用中，本申请实施例提供的模型训练方法还可以应用于其它场景；例如，服务器110也可以通过其它渠道获得多个训练样本(如基于特定对象上传的有声视频确定训练样本)。在此不对本申请实施例提供的模型训练方法的应用场景做任何限定。

下面通过方法实施例对本申请提供的模型训练方法进行详细介绍。

参见图2，图2为本申请实施例提供的模型训练方法的流程示意图。为了便于描述，下述实施例仍以该模型训练方法的执行主体为服务器为例进行介绍。如图2所示，该模型训练方法包括以下步骤：

步骤201：获取多个训练样本；所述训练样本中包括视频片段及其对应的音频片段。

在本申请实施例中，服务器训练视频编码网络或音频编码网络前，需要先获取多个用于训练该视频编码网络或该音频编码网络的无监督的训练样本，所获取的训练样本中包括具有对应关系的视频片段和音频片段。

需要说明的是，上述视频编码网络是用于根据视频中多帧具有时序关系的视频画面编码视频特征的神经网络。上述音频编码网络是用于根据视频的音频编码音频特征的神经网络。训练样本中具有对应关系的视频片段和音频片段可以基于同一有声视频得到，例如，可以在某有声视频中截取某个播放时间段内的视频片段，并且截取该有声视频中该播放时间段内的音频片段，如此基于同一有声视频截取的对应于同一播放时间段的视频片段和音频片段，即为训练样本中具有对应关系的视频片段和音频片段；当然，在实际应用中，训练样本中具有对应关系的视频片段和音频片段也可以通过其它方式获得，例如，可以针对某视频片段标注对应的背景音频片段，该视频片段和所标注的背景音频片段也可作为训练样本中具有对应关系的视频片段和音频片段，本申请在此不对训练样本中具有对应关系的视频片段和音频片段的获得方式做任何限定。

示例性的，服务器可以基于相关的数据库获取上述多个训练样本，此处的多个具体是指大于或等于两个；例如，服务器可以从相关的数据库中获取大量有声视频，然后，从有声视频中截取对应于同一播放时间段的视频片段和音频片段组成训练样本。服务器也可以基于终端设备发送过来的有声视频获取上述训练样本；例如，服务器可以接收终端设备上传的有声视频，然后，从有声视频中截取对应于同一播放时间段的视频片段和音频片段组成训练样本；又例如，服务器可以接收终端设备上传的视频片段以及其为该视频片段配置的背景音频片段，然后，可以利用该视频片段和该背景音频片段组成训练样本。服务器还可以直接基于开源的训练视频数据集(如AudioSet数据集)获取上述多个训练样本，此类开源的训练视频数据集中通常包括大量的视频数据，服务器可以从该训练视频数据集中获取特定比例(如90％)的视频数据构建训练样本，并获取该训练视频数据集中剩余(如10％)的视频数据构建测试样本；通过截取视频数据中对应于同一播放时间段的视频片段和音频片段，获得训练样本和测试样本。本申请在此不对服务器获得训练样本的方式和渠道做任何限定。

步骤202：针对每个所述训练样本，通过第一编码网络，根据所述训练样本中的第一片段，确定所述训练样本对应的第一预测特征；所述第一编码网络为视频编码网络和音频编码网络中的任一个。

服务器获取到多个训练样本后，可以针对每个训练样本，通过第一编码网络，对该训练样本中的第一片段进行特征编码处理，从而得到该训练样本对应的第一预测特征。应理解，此处的特征编码处理是将训练样本中的第一片段转换为机器可识别的数值型信息，且转换得到的数值型信息能够在一定程度上反映该第一片段自身的特征。

需要说明的是，上述第一编码网络为所要训练的视频编码网络和音频编码网络中的任一种，第一片段为训练样本包括的视频片段和音频片段中适用于被第一编码网络处理的片段，第一预测特征为训练样本中第一片段对应的预测编码特征。例如，当第一编码网络为视频编码网络时，第一片段为训练样本中的视频片段，第一预测特征为训练样本中的视频片段对应的预测视频编码特征；当第一编码网络为音频编码网络时，第一片段为训练样本中的音频片段，第一预测特征为训练样本中的音频片段对应的预测音频编码特征。

在一种可能的实现方式中，当第一编码网络为视频编码网络时，服务器通过视频编码网络对训练样本中的视频片段进行特征编码处理前，可以先对该训练样本中的视频片段进行预处理。示例性的，服务器可以从训练样本中的视频片段中随机采样特定帧数(如16帧)的视频画面；并对所采样的视频画面进行缩放处理，例如，在不改变该视频画面长宽比的条件下，使该视频画面较短的一边为256个像素；然后，服务器可以从经缩放处理得到的视频画面中截取特定大小(如224像素×224像素)的区域；进而，基于所采样的各帧视频画面中截取的区域可以构建得到尺寸为16×3×224×224的图像张量，其中，16表示从训练样本包括的视频片段中采样的视频画面的帧数，3表示红绿蓝(Red Green Blue，RGB)通道值，224×224表示从每帧视频画面中截取的区域大小；如此得到的图像张量可以作为视频编码网络的输入数据。

进而，服务器可以将通过上述预处理得到的图像张量输入视频编码网络，该视频编码网络通过对输入的图像张量进行分析处理，可以相应地输出对应的预测视频编码特征，也即训练样本对应的第一预测特征。

需要说明的是，上述视频编码网络可以使用预设层数(如18层)的R(2+1)D网络，该网络结合了二维卷积和三维卷积，可以利用二维卷积提取空间信息，利用三维网络综合时空信息，从而更有利于学习视频片段的特征。此外，该视频编码网络也可以为其它网络结构，如SlowFast网络、膨胀卷积网络(Inflated 3D ConvNet，I3D)、行为识别网络(C3D)、Video Swin Transformer等，本申请在此不对该视频编码网络的结构做任何限定。

在另一种可能的实现方式中，当第一编码网络为音频编码网络时，服务器通过音频编码网络对训练样本中的音频片段进行特征编码处理前，可以先对该训练样本中的音频片段进行预处理。示例性的，服务器可以对音频片段进行短时傅里叶变换，并对经短时傅里叶变换得到的结果进行求对数处理，得到横轴为时间、纵轴为频率、值为强度的对数光谱图(例如可以为尺寸为40×100的张量)，该对数光谱图即可作为音频编码网络的输入数据。

进而，服务器可以将通过上述预处理得到的对数光谱图输入音频编码网络，该音频编码网络通过对输入的对数光谱图进行分析处理，可以相应地输出对应的预测音频编码特征，也即训练样本对应的第一预测特征。

需要说明的是，上述音频编码网络可以使用基于二维卷积的18层ResNet，也可以使用时序卷积网络、循环神经网络(Recurrent Neural Network，RNN)等结构，本申请在此也不对该音频编码网络的结构做任何限定。

步骤203：基于所述多个训练样本各自对应的第一预测特征进行聚类处理，确定每个所述训练样本中的第一片段所属的类别；并针对每个所述训练样本，根据所述训练样本中的第一片段所属的类别，为所述训练样本中的第二片段配置对应的伪标签；所述第二片段与所述第一片段不同。

服务器通过第一编码网络完成对于各训练样本中的第一片段的编码处理，得到各训练样本各自对应的第一预测特征后，可以进一步对各训练样本各自对应的第一预测特征进行聚类处理，以确定每个训练样本中的第一片段所属的类别。进而，针对每个训练样本，服务器可以根据该训练样本中第一片段所属的类别，为该训练样本中的第二片段配置对应的伪标签。

需要说明的是，上述第二片段为训练样本中除第一片段外的另一片段，例如，当第一片段为训练样本中的视频片段时，该第二片段为该训练样本中的音频片段，当第一片段为训练样本中的音频片段时，该第二片段为该训练样本中的视频片段。该第二片段为第二编码网络的处理对象，第二编码网络为所要训练的视频编码网络和音频编码网络中、除第一编码网络外的另一编码网络，例如，当第一编码网络为视频编码网络时，该第二编码网络为音频编码网络，当第一编码网络为音频编码网络时，该第二编码网络为视频编码网络。

应理解，此处为第二片段配置的伪标签相当于为该第二片段标注的类别，由于在模型训练阶段第一编码网络的性能可能不够可靠稳定，因此，通过对第一编码网络生成的第一预测特征进行聚类处理，并根据该聚类处理的结果为第二片段标注的类别也可能不够可靠稳定，故将其称为伪标签；由于训练样本中的视频片段与音频片段之间具有对应关系，因此，训练样本中的第一片段所属的类别也能表征该训练样本中的第二片段所属的类别，该伪标签可以作为基于训练样本中的第二片段训练第二编码网络时使用的有监督信号。

示例性的，服务器可以采用K-Means聚类算法对各训练样本各自对应的第一预测特征进行聚类处理，以得到预设数量的聚类簇；其中，每个聚类簇对应一个类别，训练样本对应的第一预测特征所属的聚类簇对应的类别，即为该训练样本中的第一片段所属的类别。进而，针对每个训练样本，服务器可以将训练样本中的第一片段所属的类别，作为该训练样本中的第二片段对应的伪标签，例如，可以将该训练样本中第一片段所属的类别的标识作为该训练样本中的第二片段对应的伪标签。

为了便于理解，下面以第一编码网络为视频编码网络，第一片段为训练样本中的视频片段，第一预测特征为训练样本中的视频片段的预测视频编码特征为例，对上述伪标签配置过程进行介绍。假设视频编码网络针对第i(i为大于或等于1的整数)个训练样本中的视频片段vi，编码得到对应的预测视频编码特征F(vi)；服务器采用K-Means算法对各训练样本各自对应的预测视频编码特征进行聚类处理，将各训练样本各自对应的预测视频编码特征分为256类；其中，第i个训练样本中的视频片段vi对应的预测视频编码特征所属的类别为y_vi，即该第i个训练样本中的视频片段vi所属的类别为y_vi；基于此，针对该第i个训练样本中的音频片段ai，服务器可以为该音频片段ai配置对应的伪标签为y_vi，该伪标签y_vi可以作为训练音频编码网络时使用的有监督信号。

应理解，在实际应用中，服务器对各训练样本各自对应的第一预测特征进行聚类处理时，除了可以采用K-Means聚类算法外，也可以采用其它聚类算法，本申请在此不对所采用的聚类算法做任何限定。

步骤204：针对每个所述训练样本，通过第二编码网络，根据所述训练样本中的第二片段，确定所述训练样本对应的第二预测特征；根据所述训练样本对应的第二预测特征，确定所述训练样本中的第二片段对应的类别预测结果；所述第二编码网络为所述视频编码网络和所述音频编码网络中的任一个，且不同于所述第一编码网络。

服务器获取到多个训练样本后，还可以针对每个训练样本，通过第二编码网络根据该训练样本中的第二片段，确定该训练样本对应的第二预测特征，进而根据该训练样本对应的第二预测特征，对该训练样本中的第二片段进行分类处理，得到该训练样本中的第二片段对应的类别预测结果。

需要说明的是，上述第二预测特征为训练样本中的第二片段对应的预测编码特征；例如，当第二片段为训练样本中的视频片段，第二编码网络为视频编码网络时，该第二预测特征为训练样本中的视频片段对应的预测视频编码特征，当第二片段为训练样本中的音频片段，第二编码网络为音频编码网络时，该第二预测特征为训练样本中的音频片段对应的预测音频编码特征。

正如上文步骤202所介绍的，在通过第一编码网络对训练样本中的第一片段进行特征编码处理前，需要先对该训练样本中的第一片段进行预处理，以得到适用于第一编码网络处理的输入数据，上述步骤202对于视频片段和音频片段的预处理方式均已进行了详细的介绍。相类似地，服务器通过第二编码网络对训练样本中的第二片段进行特征编码处理之前，也需要对该训练样本中的第二片段进行预处理；当第二片段为训练样本中的视频片段时，可以采用步骤202中介绍的对于视频片段的预处理方式进行预处理，当第二片段为训练样本中的音频片段时，可以采用步骤202中介绍的对于音频片段的预处理方式进行预处理，详细可参见上文的相关介绍内容，此处不再赘述。

示例性的，服务器可以通过对应的预处理方式，对各训练样本中的第二片段进行预处理，以得到适用于第二编码网络处理的输入数据。进而，针对每个训练样本，服务器可以将对该训练样本中的第二片段进行预处理后得到的输入数据输入第二编码网络，第二编码网络通过对输入数据进行分析处理，将相应地输出该训练样本对应的第二预测特征；然后，服务器可以通过分类器，根据该训练样本对应的第二预测特征，进一步预测该训练样本中的第二片段对应的类别预测结果；该类别预测结果为基于训练样本对应的第二预测特征预测的该训练样本中的第二片段所属的类别。

为了便于理解，下面以第一编码网络为视频编码网络，第二编码网络为音频编码网络，第一片段为训练样本中的视频片段，第二片段为训练样本中的音频片段为例，对上述确定类别预测结果的过程进行介绍。假设通过步骤203的处理，确定第i个训练样本中的视频片段vi所属的类别为y_vi，并据此为该第i个训练样本中的音频片段ai配置对应的伪标签y_vi；针对该第i个训练样本，服务器可以通过音频编码网络对该第i个训练样本中的音频片段ai进行特征编码处理，得到对应的预测音频编码特征G(ai)，并通过分类器根据该预测音频编码特征G(ai)，确定该音频片段ai对应的类别预测结果

应理解，在实际应用中，服务器可以先执行步骤202和步骤203、后执行步骤204，也可以先执行步骤204、后执行步骤202和步骤203，还可以同时执行步骤204、以及步骤202和步骤203，本申请在此不对步骤202和步骤203、以及步骤204之间的执行顺序做任何限定。需要说明的是，上述步骤202和步骤203之间具有时序关联关系，需要先执行步骤202，进而再基于步骤202的执行结果执行步骤203，因此可以将步骤202和步骤203视为一个整体，该整体与步骤204相并列。

步骤205：基于所述多个训练样本中的第二片段各自对应的类别预测结果和伪标签，训练所述第二编码网络。

服务器通过步骤203得到各训练样本中的第二片段对应的伪标签，以及通过步骤204得到各训练样本中的第二片段对应的类别预测结果后，可以基于各训练样本中的第二片段各自对应的类别预测结果和伪标签，构建损失函数，并基于该损失函数调整第二编码网络中的模型参数，以达到训练该第二编码网络的目的。

示例性的，服务器可以根据各训练样本中的第二片段各自对应的类别预测结果和伪标签，构建交叉熵损失函数，并以降低该交叉熵损失函数为目标，调整该第二编码网络中的模型参数。应理解，在实际应用中，服务器也可以构建其它类型的损失函数，本申请对于训练第二编码网络时构建的损失函数的类型不做任何限定。

应理解，当第二编码网络为视频编码网络时，服务器通过上述方式即可实现对于视频编码网络的训练；当第二编码网络为音频编码网络时，服务器通过上述方式即可实现对于音频编码网络的训练。

为了实现对于视频编码网络和音频编码网络的协同训练，在本申请实施例中，还可以采用与训练第二编码网络相类似的方式，对第一编码网络进行训练，即实现对于第一编码网络和第二编码网络的协同训练，从而同时训练得到可投入实际应用的视频编码网络和音频编码网络。

即，服务器可以基于各训练样本各自对应的第二预测特征进行聚类处理，确定每个训练样本中的第二片段所属的类别；并针对每个训练样本，根据该训练样本中的第二片段所属的类别，为该训练样本中的第一片段配置对应的伪标签。然后，针对每个训练样本，服务器可以根据该训练样本对应的第一预测特征，确定该训练样本中的第一片段对应的类别预测结果。进而，基于多个训练样本中的第一片段各自对应的类别预测结果和伪标签，训练该第一编码网络。

为了便于理解，下面以第一编码网络为视频编码网络，第二编码网络为音频编码网络，第一片段为训练样本中的视频片段，第二片段为训练样本中的音频片段为例，对上述协同训练视频编码网络和音频编码网络的实现方式进行示例性介绍。

图3为本申请实施例提供的协同训练视频编码网络和音频编码网络的实现原理示意图。如图3中左侧所示的训练过程，服务器可以先固定视频编码网络，对音频编码网络进行训练。训练音频编码网络时，服务器可以利用固定的视频编码网络，对各训练样本中的视频片段vi(i＝1,2,3，……)进行特征编码处理，得到各训练样本各自对应的预测视频编码特征F(vi)(即第一预测编码特征)；然后，再利用K-Means聚类算法对各训练样本各自对应的预测视频编码特征F(vi)进行聚类处理，将各训练样本各自对应的预测视频编码特征划分为256类，确定每个训练样本中的视频片段所属的类别y_vi，并且为每个训练样本中的音频片段ai配置对应的伪标签y_vi。接着，服务器可以利用当前训练的音频编码网络，对各训练样本中的音频片段ai进行特征编码处理，得到各训练样本各自对应的预测音频编码特征G(ai)(即第二预测编码特征)，并通过分类器根据该预测音频编码特征G(ai)，确定各训练样本中的音频片段对应的类别预测结果

进而，服务器可以根据各训练样本中的音频片段对应的类别预测结果

和伪标签y_vi构建损失函数，基于该损失函数训练音频编码网络。

如图3中右侧所示的训练过程，服务器可以固定音频编码网络，对视频编码网络进行训练。训练视频编码网络时，服务器可以利用固定的音频编码网络，对各训练样本中的音频片段ai(i＝1,2,3，……)进行特征编码处理，得到各训练样本各自对应的预测音频编码特征G(ai)(即第二预测编码特征)；然后，再利用K-Means聚类算法对各训练样本各自对应的预测音频编码特征G(ai)进行聚类处理，将各训练样本各自对应的预测音频编码特征划分为256类，确定每个训练样本中的音频片段所属的类别y_ai，并为每个训练样本中的视频片段vi配置对应的伪标签y_ai。接着，服务器可以利用当前训练的视频编码网络，对各训练样本中的视频片段vi进行特征编码处理，得到各训练样本各自对应的预测视频编码特征F(vi)(即第一预测编码特征)，并通过分类器根据该预测视频编码特征F(vi)，确定各训练样本中的视频片段对应的类别预测结果

进而，服务器可以根据各训练样本中的视频片段对应的类别预测结果

和伪标签y_ai构建损失函数，基于该损失函数训练视频编码网络。

如此，服务器可以通过上述方式，对视频编码网络和音频编码网络进行轮流训练，将基于其中一个编码网络编码得到的预测特征的聚类结果，作为训练另一个编码网络时使用的有监督信号，实现对于视频编码网络和音频编码网络的协同高效训练。

可选的，考虑到每次基于所有训练样本各自对应的预测特征(包括第一预测特征和第二预测特征)进行聚类处理，均需要耗费较多的计算资源，且需要耗费较长的计算时间；因此，为了节约计算资源和计算时间，在本申请实施例中，可以在基于各训练样本各自对应的预测特征进行聚类处理前，对聚类处理所使用的预测特征的编码网络进行测试，在测试确定该编码网络的性能满足预设要求时，再基于通过该编码网络产生的预测特征进行聚类处理。

在一种可能的实现方式中，服务器可以在基于各训练样本各自对应的第一预测特征进行聚类处理之前，获取多个测试样本，该测试样本中包括视频片段及其对应的音频片段。然后，针对每个测试样本，通过第一编码网络，根据该测试样本中的第一片段，确定该测试样本对应的第一预测特征；并且根据该测试样本对应的第一预测特征，确定该测试样本中的第一片段对应的类别预测结果。接着，基于各测试样本中的第一片段各自对应的类别预测结果和伪标签，构建第一参考损失函数；此处测试样本中的第一片段对应的伪标签是通过对各测试样本各自对应的第二预测特征进行聚类处理确定的，该第二预测特征是通过第二编码网络根据该测试样本中的第二片段确定的。进而，判断该第一参考损失函数是否满足第一预设损失条件；若是，则执行基于各训练样本各自对应的第一预测特征进行聚类处理，确定每个训练样本中的第一片段所属的类别；若否，则继续基于多个训练样本训练第一编码网络。

具体的，服务器基于各训练样本各自对应的第一预测特征进行聚类处理前，可以先利用测试样本对生成该第一预测特征的第一编码网络进行测试。需要说明的是，此处的测试样本是用于在训练视频编码网络和音频编码网络的过程中对二者进行测试的样本，该测试样本中也包括具有对应关系的视频片段和音频片段；测试样本的获取方式与上文中介绍的训练样本的获取方式相类似，示例性的，服务器可以将开源的训练视频数据集(如AudioSet数据集)中90％的视频数据用作提供训练样本，将该训练视频数据集中10％的视频数据作用提供测试样本。

服务器通过第一编码网络确定测试样本对应的第一预测特征，以及根据测试样本对应的第一预测特征，确定该测试样本中第一片段对应的类别预测结果的实现方式，与上文介绍的通过第一编码网络确定训练样本对应的第一预测特征，以及根据训练样本对应的第一预测特征，确定该训练样本中第一片段对应的类别预测结果的实现方式相同，此处不再赘述。

服务器获得各测试样本中的第一片段对应的类别预测结果后，可以根据各测试样本中的第一片段对应的类别预测结果和伪标签，构建第一参考损失函数，例如可以构建交叉熵损失函数。需要说明的是，此处测试样本中的第一片段对应的伪标签的确定方式，与上文中训练样本中的第一片段对应的伪标签的确定方式相同；具体的，可以利用上一训练轮次训练得到的第二编码网络，根据各测试样本中的第二片段，确定各测试样本各自对应的第二预测特征，进而基于各测试样本各自对应的第二预测特征进行聚类处理，确定出各测试样本中的第二片段所属的类别，并针对每个测试样本，将该测试样本中的第二片段所属的类别作为该测试样本中的第一片段对应的伪标签。

进而，服务器可以判断该第一参考损失函数是否满足第一预设损失条件；此处的第一预设损失条件是用于衡量第一编码网络当前的性能是否满足当前训练轮次对于该第一编码网络的要求的条件；例如，第一预设损失条件可以为第一参考损失函数对应的下降幅度(其是本次确定的第一参考损失函数相对于上次确定的第一参考损失函数的下降幅度)小于预设下降幅度，该第一预设损失条件还可以为第一参考损失函数对应的损失值是否小于预设损失值，等等，本申请在此不对该第一预设损失条件做任何限定。若该第一参考损失函数满足第一预设损失条件，则可以认为当前的第一编码网络已满足当前训练轮次对于第一编码网络的要求，该第一编码网络当前确定的第一预测特征较为可靠，因此，可以基于通过该第一编码网络确定的各训练样本各自对应的第一预测特征进行聚类处理，相应地，经聚类处理得到的聚类结果也较为可靠，可以保证为训练样本中第二片段配置的伪标签的可靠性。反之，若该第一参考损失函数不满足第一预设损失条件，则可以认为当前的第一编码网络未满足当前训练轮次对于第一编码网络的要求，该第一编码网络当前确定的第一预测特征并不可靠，相应地，需要基于各训练样本继续对该第一编码网络进行训练。

在另一种可能的实现方式中，服务器可以在基于各训练样本各自对应的第二预测特征进行聚类处理之前，获取多个测试样本，该测试样本中包括视频片段及其对应的音频片段。然后，针对每个测试样本，通过第二编码网络，根据该测试样本中的第二片段，确定该测试样本对应的第二预测特征；并且根据该测试样本对应的第二预测特征，确定该测试样本中的第二片段对应的类别预测结果。接着，基于各测试样本中的第二片段各自对应的类别预测结果和伪标签，构建第二参考损失函数；此处测试样本中的第二片段对应的伪标签是通过对各测试样本各自对应的第一预测特征进行聚类处理确定的，该第一预测特征是通过第一编码网络根据该测试样本中的第一片段确定的。进而，判断该第二参考损失函数是否满足第二预设损失条件；若是，则执行基于各训练样本各自对应的第二预测特征进行聚类处理，确定每个训练样本中的第二片段所属的类别；若否，则继续基于多个训练样本训练第二编码网络。

相类似的，服务器在基于各训练样本各自对应的第二预测特征进行聚类处理前，也可以先利用测试样本对生成该第二预测特征的第二编码网络进行测试。具体测试该第二编码网络的实现方式，与上文中测试第一编码网络的实现方式相类似，详细可参见上文的相关介绍内容，此处不再赘述。

应理解，测试第二编码网络时依据的第二预测损失条件，是用于衡量第二编码网络当前的性能是否满足当前训练轮次对于该第二编码网络的要求的条件；例如，第二预设损失条件可以为第二参考损失函数对应的下降幅度(其是本次确定的第二参考损失函数相对于上次确定的第二参考损失函数的下降幅度)小于预设下降幅度，该第二预设损失条件还可以为第二参考损失函数对应的损失值是否小于预设损失值，等等，本申请在此不对该第二预设损失条件做任何限定。

如此，服务器基于各训练样本各自对应的预测特征(包括第一预测特征和第二预测特征)进行聚类处理前，利用测试样本对生成该预测特征的编码网络进行测试，可以保证聚类处理时使用的预测特征的可靠性，从而有利于减少在协同训练视频编码网络和音频编码网络的过程中所需执行的聚类处理的次数，进而可以提高模型训练效率，减少对于计算资源的浪费。

在本申请实施例中，为了保证所训练的视频编码网络和音频编码网络均具有较优的性能，服务器可以对视频编码网络和音频编码网络迭代训练多个训练轮次。具体的，当所训练的第一编码网络满足当前训练轮次中的第一训练结束条件，且所训练的第二编码网络满足当前训练轮次中的第二训练结束条件时，可以确定完成当前训练轮次的模型训练；然后，检测当前已完成的训练轮次的次数是否达到预设训练次数；若是，则确定完成对于第一编码网络和第二编码网络的训练；若否，则继续执行下一训练轮次的模型训练。

具体的，服务器轮流训练第一编码网络和第二编码网络时，可以检测当前训练的编码网络是否满足当前训练轮次中该编码网络对应的训练结束条件。以在轮流训练的过程中，先固定第一编码网络、训练第二编码网络，后固定第二编码网络、训练第一编码网络为例；服务器训练第二编码网络时，可以检测所训练的第二编码网络是否满足当前训练轮次中的第二训练结束条件，若满足，则可以确定完成当前训练轮次对于该第二编码网络的训练，启动对于第一编码网络的训练，若不满足，则需要继续基于训练样本训练该第二编码网络；此处第二训练结束条件是用于衡量是否在当前训练轮次中停止对于第二编码网络的训练的条件，该第二训练结束条件例如可以是上文中提及的第二参考损失函数满足第二预设损失条件，该第二训练结束条件又例如可以是在当前训练轮次中对第二编码网络的训练次数达到预设次数，等等，本申请在此不对该第二训练结束条件做任何限定。

服务器在当前训练轮次中完成对于第二编码网络的训练后，可以训练第一编码网络，在训练第一编码网络的过程中，服务器可以检测所训练的第一编码网络是否满足当前训练轮次中的第一训练结束条件，若满足，则可以确定完成当前训练轮次对于该第一编码网络的训练，也即可以确定已完成当前轮次的模型训练(包括对第一编码网络和第二编码网络的训练)，若不满足，则需要继续基于训练样本训练该第一编码网络；此处第一训练结束条件是用于衡量是否在当前训练轮次中停止对于第一编码网络的训练的条件，该第一训练结束条件例如可以是上文中提及的第一参考损失函数满足第一预设损失条件，该第一训练结束条件又例如可以是在当前训练轮次中对第一编码网络的训练次数达到预设次数，等等，本申请在此不对该第一训练结束条件做任何限定。

服务器确定完成当前训练轮次的模型训练后，可以检测当前已完成的训练轮次的次数是否达到预设训练次数(如10次)；若已达到，则可以已确定完成对于第一编码网络和第二编码网络的训练，也即确定已完成对于视频编码网络和音频编码网络的训练；若未达到，则可以启动下一训练轮次的模型训练。

如此，通过上述方式，在轮流训练第一编码网络和第二编码网络的基础上，对第一编码网络和第二编码网络均进行多轮训练，并保证第一编码网络和第二编码网络在每轮训练中均满足对应的训练结束条件，从而可以保证所训练的第一编码网络和第二编码网络具备较优的模型性能。

可选的，在本申请实施例中，为了进一步提高模型训练效率，并且保证训练得到的视频编码网络和音频编码网络具备较优的模型性能，本申请实施例还可以进一步在构建损失函数的过程中引入知识蒸馏的思想。

所谓知识蒸馏是指，利用一个编码网络学习到的特征，影响另一个编码网络的训练，在所训练的视频编码网络和音频编码网络之间实现信息传递。在本申请实施例中，利用训练样本中一个片段所属的类别，为该训练样本中另一个片段配置对应的伪标签，本质上也能起到信息传递的作用，但是这种信息传递的方式效率较低。其原因在于，所配置的伪标签本质上是一种“硬标签”，其只能表征数据属于某个类别，而无法进一步体现该数据与其它数据之间的关系，也无法体现各个类别之间的关系。例如，假设某个视频片段所属的类别为“弹钢琴”，那么，由于“弹钢琴”与“弹吉他”、“弹手风琴”等动作之间关系较近，因此，该视频片段对应的预测视频编码特征与所属于“弹吉他”、“弹手风琴”等类别的视频片段对应的预测视频编码特征应当较接近，相反，由于“弹钢琴”与“打篮球”这一动作之间关系较远，因此，该视频片段对应的预测视频编码特征与所属于“打篮球”的视频片段对应的预测视频编码特征应当较疏远；而伪标签无法反应上述数据与数据之间关系的远近，即在模型训练的过程中，配置有伪标签“弹钢琴”的视频片段与配置有“弹吉他”的视频片段之间的关系，与配置为伪标签“弹钢琴”的视频片段与配置有“打篮球”的视频片段之间的关系是相等同的；而这并不利于提升音视频编码网络提高其学习到的音视频特征的表达能力。

基于此，在本申请实施例中，服务器训练第二编码网络时，可以基于多个训练样本中的第一片段各自对应的类别预测结果、多个训练样本中的第二片段各自对应的类别预测结果和伪标签，训练该第二编码网络。相类似地，服务器训练第一编码网络时，也可以基于多个训练样本中的第二片段各自对应的类别预测结果、多个训练样本中的第一片段各自对应的类别预测结果和伪标签，训练该第一编码网络。

具体的，服务器训练第二编码网络时，可以确定各训练样本中第一片段各自对应的类别预测结果的分布情况、与各训练样本中第二片段各自对应的类别预测结果的分布情况之间的差异，以及确定各训练样本中第二片段对应的类别预测结果和伪标签之间的差异，构建损失函数，进而基于该损失函数训练第二编码网络。相类似地，服务器训练第一编码网络时，可以确定各训练样本中第一片段各自对应的类别预测结果的分布情况、与各训练样本中第二片段各自对应的类别预测结果的分布情况之间的差异，以及确定各训练样本中第一片段对应的类别预测结果和伪标签之间的差异，构建损失函数，进而基于该损失函数训练第一编码网络。

在一种可能的实现方式中，服务器可以通过以下方式训练第二编码网络：针对每个训练样本，根据该训练样本中的第二片段对应的类别预测结果和伪标签，构建该训练样本对应的基础损失函数；以及，根据该训练样本中的第一片段和第二片段各自对应的类别预测结果，构建该训练样本对应的蒸馏损失函数；进而，服务器可以基于各训练样本各自对应的基础损失函数和蒸馏损失函数，训练所述第二编码网络。

具体的，服务器可以针对每个训练样本，根据该训练样本中的第二片段对应的类别预测结果与伪标签之间的差异构建交叉熵损失函数，作为该训练样本对应的基础损失函数；此外，针对每个训练样本，服务器还可以根据该训练样本中的第一片段对应的类别预测结果与该训练样本中的第二片段对应的类别预测结果之间的差异，构建该训练样本对应的蒸馏损失函数。进而，服务器可以根据各训练样本各自对应的基础损失函数和蒸馏损失函数，构建综合损失函数；例如，服务器可以根据各训练样本各自对应的基础损失函数构建整体基础损失函数，根据各训练样本各自对应的蒸馏损失函数构建整体蒸馏损失函数，进而，服务器可以对上述整体基础损失函数和整体蒸馏损失函数进行加权处理，得到综合损失函数。最终，服务器可以基于该综合损失函数，调整第二编码网络的模型参数。

应理解，第一编码网络的训练方式与上述第二编码网络的训练方式相类似，此处不再赘述。

作为一种示例，服务器构建训练样本对应的蒸馏损失函数时，可以构建基于响应的蒸馏损失函数和基于关系的蒸馏损失函数中的至少一种。具体的，服务器可以根据训练样本中的第一片段和第二片段各自对应的类别预测结果之间的差异，构建第一蒸馏损失函数(即基于响应的蒸馏损失函数)；服务器可以根据训练样本中的第一片段对应的类别预测结果与其它训练样本中的第一片段对应的类别预测结果之间的差异、和训练样本中的第二片段对应的类别预测结果与其它训练样本中的第二片段对应的类别预测结果之间的差异，构建第二蒸馏损失函数(即基于关系的蒸馏损失函数)。

示例性的，类别预测结果可以包括片段属于各个类别的概率，除了正标签(即片段所属的类别，片段属于该类别的概率最高)外，负标签(即片段不属的类别，片段属于此类类别的概率并非最高)中也包含有大量模型归纳推理出的知识、类别间的关系。例如，对于一个经过充分训练的分类器而言，由于“弹钢琴”、“弹吉他”和“弹手风琴”这三个类别之间具有较高的相似性，因此，该分类器针对某片段在“弹钢琴”这一类别上的预测结果(即预测该片段属于“弹钢琴”类别的概率)，与针对该片段在“弹吉他”、“弹手风琴”类别上的预测结果应均具有较高的响应。

本申请实施例基于上述知识，构建了用于将知识从一个模态的编码网络传递至另一个模态的编码网络的基于响应的蒸馏损失函数，也即第一蒸馏损失函数。具体的，针对每个训练样本，服务器可以根据该训练样本中第一片段对应的类别预测结果与该训练样本中第二片段对应的类别预测结果之间的差异，构建该训练样本对应的第一蒸馏损失函数。训练第二编码网络时，服务器需要根据各训练样本各自对应的基第一蒸馏损失函数，构建整体第一蒸馏损失函数，服务器具体可以通过以下式(1)构建该整体第一蒸馏损失函数L_Response：

其中，N为训练样本的总数目，

为第i个训练样本中的视频片段vi对应的类别预测结果，

为第i个训练样本中的音频片段ai对应的类别预测结果。

此外，除了类别之间的关系，训练样本之间的关系也是重要的需要学习的知识。将所要训练的一个编码网络学习到的训练样本之间的关系，传递给另一个编码网络，拉近同类的训练样本之间的距离，推远不同类的训练样本之间的距离，可以有助于提高对于两个编码网络的训练速度。

本申请实施例基于上述知识，构建了用于将学习到的训练样本间的关系从一个模态的编码网络传递至另一个模态的编码网络的基于关系的蒸馏损失函数，也即第二蒸馏损失函数。具体的，针对每个训练样本，服务器可以根据该训练样本中的第一片段对应的类别预测结果与其它训练样本中的第一片段对应的类别预测结果之间的差异、和该训练样本中的第二片段对应的类别预测结果与其它训练样本中的第二片段对应的类别预测结果之间的差异，构建该训练样本对应的第二蒸馏损失函数。训练第二编码网络时，服务器需要根据各训练样本各自对应的第二蒸馏损失函数，构建整体第二蒸馏损失函数，服务器具体可以通过以下式(2)构建该整体第二蒸馏损失函数L_Relation：

其中，N为训练样本的总数目，

为第i个训练样本中的视频片段vi对应的类别预测结果，

为第j个训练样本中的视频片段vj对应的类别预测结果，

为第i个训练样本中的音频片段ai对应的类别预测结果，

为第j个训练样本中的音频片段aj对应的类别预测结果。

如此，通过上述方式，引入第一蒸馏损失函数和第二蒸馏损失函数中的至少一种，可以基于所引入的蒸馏损失函数，提高对于视频编码网络和音频编码网络的训练效率，并且提高所训练的视频编码网络和音频编码网络的特征编码能力。

通过本申请实施例提供的模型训练方法训练得到的视频编码网络和音频编码网络，可以进一步应用于下游任务，以利用通过视频编码网络编码得到的图像特征、以及通过音频编码网络编码得到的音频特征，辅助下游任务的实现。在本申请实施例中，下游任务可以包括任一种基于通过视频编码网络编码得到的图像特征和通过音频编码网络编码得到的音频特征实现的任务，如视频分类任务、动作识别任务、视频背景音频生成任务等等，本申请在此不对该下游任务做任何限定。

在一种可能的实现方式中，通过本申请实施例提供的模型训练方法训练得到的视频编码网络和音频编码网络，可以应用于目标分类任务，此处目标分类任务是基于视频中的视频画面、以及视频的音频对视频进行分类的任务，该目标分类任务例如可以为动作识别任务(即识别视频中存在的动作所属的类别的任务)，又例如可以为普适性的视频分类任务(即视频所属的类别，如游戏视频、美食视频、宠物视频、美妆视频等等)。

将训练得到的视频编码网络和音频编码网络应用于目标分类任务时，可以利用少量的预先标注的第一标注样本，对包括有该视频编码网络和该音频编码网络的分类模型进行训练。即，服务器可以获取目标分类任务对应的多个第一标注样本，第一标注样本中包括具有对应关系的视频片段和音频片段、以及分类标签；然后，服务器可以通过待训练的分类模型中的视频编码网络，根据第一标注样本中的视频片段，确定该第一标注样本对应的图像特征；并通过该分类模型中的音频编码网络，根据该第一标注样本中的音频片段，确定该第一标注样本对应的音频特征；进而，通过该分类模型中的分类器，根据该第一标注样本对应的图像特征和音频特征，确定该第一标注样本对应的类别预测结果；最终，基于该第一标注样本对应的类别预测结果、以及该第一标注样本中的分类标签，训练该分类模型。

需要说明的是，第一标注样本是用于训练执行目标分类任务的分类模型的有监督训练样本；该第一标注样本中包括具有对应关系的视频片段和音频片段，此处具有对应关系的视频片段和音频片段，与上文步骤201中介绍的训练样本中包括的具有对应关系的视频片段和音频片段的获得方式相类似；该第一标注样本中还包括分类标签，该分类标签用于表征该第一标注样本中的视频片段和音频片段所属的类别，该分类标签所表征的类别即为目标分类任务中的某种分类类别，例如，当目标分类任务为动作识别任务时，该分类标签表征的类别即为视频中存在的动作所属的类别。

此外，由于所要训练的分类模型中包括已通过本申请实施例提供的模型训练方法训练好的视频编码网络和音频编码网络，该视频编码网络和该音频编码网络经过训练后已具备较优的特征编码能力，因此，训练该分类模型时，仅利用目标分类任务下少量的第一标注样本对该分类模型进行微调即可，即仅获取少量的第一标注样本即可，如此可以减少因标注该第一标注样本所需耗费的资源。

图4为本申请实施例提供的一种将视频编码网络和音频编码网络应用于目标分类任务的实现原理示意图。如图4所示，服务器获取到第一标注样本后，可以先对该第一标注样本中的视频片段和音频片段进行预处理，以得到可供视频编码网络和音频编码网络处理的输入数据，预处理的方式已在步骤202中详细介绍，此处不再赘述。服务器通过预处理得到第一标注样本中视频片段对应的输入数据后，将该输入数据输入所要训练的分类模型的视频编码网络中，该视频编码网络通过对该输入数据进行分析处理，可以相应地输出该第一标注样本对应的图像特征；类似地，服务器通过预处理得到第一标注样本中音频片段对应的输入数据后，将该输入数据输入所要训练的分类模型的音频编码网络中，该音频编码网络通过对该输入数据进行分析处理，可以相应地输出该第一标注样本对应的音频特征。进而，可以将该第一标注样本对应的图像特征和音频特征拼接起来得到融合特征，并通过该分类模型中的分类器根据该融合特征，确定该第一标注样本对应的类别预测结果。最终，根据该第一标注样本对应的类别预测结果和该第一标注样本中的分类标签，构建损失函数，并基于该损失函数训练该分类模型，以对该分类模型中的视频编码网络、音频编码网络和分类器的参数进行调整。

如此，将通过本申请实施例提供的方法训练得到的视频编码网络和音频编码网络，应用于实现目标分类任务的分类模型中，可以减少训练该分类模型时所需的标注样本，基于目标分类任务下少量的标注样本对分类模型进行有监督微调即可，通过短时间的训练即可达到较好的模型训练效果，即可以保证训练得到的分类模型具有较高的准确率。

作为一种示例，通过上述方式训练得到的分类模型可以应用于动作识别、视频分类等目标分类任务中，此时，基于该分类模型执行目标分类任务时，服务器可以通过该分类模型中的视频编码网络，根据第一待处理视频片段，确定该第一待处理视频片段对应的图像特征；并且通过该分类模型中的音频编码网络，根据该第一待处理视频片段对应的第一待处理音频片段，确定该第一待处理音频片段对应的音频特征；进而，通过该分类模型中的分类器，根据第一待处理视频片段对应的图像特征和第一待处理音频片段对应的音频特征，确定该第一待处理视频片段在目标分类任务中的分类结果。

需要说明的是，第一待处理视频片段和第一待处理音频片段是执行目标分类任务时的处理对象，即该第一待处理视频片段是所需分类的视频片段，该第一待处理音频片段是该第一待处理视频片段对应的音频片段，如该第一待处理视频片段的音频、或者该第一待处理视频片段对应的背景音频。

服务器执行目标分类任务时，可以先对第一待处理视频片段和第一待处理音频分别进行预处理，得到可供视频编码网络和音频编码网络处理的输入数据。然后，通过训练好的分类模型中的视频编码网络，根据该第一待处理视频片段对应的输入数据，确定该第一待处理视频片段对应的图像特征；以及，通过训练好的分类模型中的音频编码网络，根据该第一待处理音频片段对应的输入数据，确定该第一待处理音频片段对应的音频特征。进而，通过训练好的分类模型中的分类器，根据该第一待处理视频片段对应的图像特征和该第一待处理音频片段对应的音频特征的拼接特征，得到第一待处理视频片段在目标分类任务中的分类结果；例如，当目标分类任务为动作识别任务时，该分类结果应为第一待处理视频片段中存在的动作所属的类别，又例如，当目标分类任务为普适性的视频分类任务时，该分类结果应为该第一待处理视频片段所属的类别，如游戏视频、美食视频、宠物视频、美妆视频等等。

作为一种示例，通过上述方式训练得到的分类模型可以应用于动作时序定位任务中，所谓动作时序定位任务是指，针对时长较长的视频片段检测其中存在的动作所属的类别，并确定检测出的各动作的发生时序。基于该分类模型执行动作时序定位任务时，服务器可以针对第二待处理视频片段，确定该第二待处理视频片段中存在预设动作的子候选视频片段，并确定各子候选视频片段的排列顺序。然后，服务器可以针对每个子候选视频片段，通过分类模型中的视频编码网络，根据该子候选视频片段，确定该子候选视频片段对应的图像特征；以及通过该分类模型中的音频编码网络，根据子候选视频片段对应的子候选音频片段，确定该子候选音频片段对应的音频特征。进而，通过该分类模型中的所述分类器，根据该子候选视频片段对应的图像特征和该子候选音频片段对应的音频特征，确定该子候选视频片段对应的动作识别结果。最终，根据各子候选视频片段各自对应的动作识别结果、以及各子候选视频片段的排列顺序，确定动作时序定位结果。

需要说明的是，第二待处理视频片段是执行动作时序定位任务时的处理对象，该第二待处理视频片段的时长通常较长，其中可能涉及多个动作，且其中可能包括没有任何动作发生的子片段。

服务器针对第二待处理视频片段执行动作时序定位任务时，可以先通过回归器，检测该第二待处理视频片段中可能存在动作的子候选视频片段，并且确定各子候选视频片段各自对应的起始时刻和终止时刻，以据此确定各子候选视频片段的时间排列顺序。针对每个子候选视频片段，服务器可以先对该子候选视频片段及其对应的子候选音频片段进行预处理，以得到可供视频编码网络和音频编码网络处理的输入数据；然后，服务器可以通过训练好的分类模型中的视频编码网络处理该子候选视频片段对应的输入数据，得到该子候选视频片段对应的图像特征；以及，通过该分类模型中的音频编码网络处理该子候选音频片段对应的输入数据，得到该子候选音频片段对应的音频特征；进而，通过该分类模型中的分类器，根据该子候选视频片段对应的图像特征和该子候选音频片段对应的音频特征的拼接特征，确定该子候选视频片段对应的动作识别结果，也即确定该子候选视频片段中存在的动作所属的动作类别。最终，服务器可以按照各子候选视频片段的时间排列顺序，排列各子候选视频片段各自对应的动作识别结果，得到该第二待处理视频片段对应的动作时序定位结果。

在另一种可能的实现方式中，通过本申请实施例提供的模型训练方法训练得到的视频编码网络和音频编码网络，可以应用于背景音频生成任务，该背景音频生成任务是用于针对视频片段生成其对应的背景音频的任务。

将训练得到的视频编码网络和音频编码网络应用于背景音频生成任务时，可以利用少量的预先标注的第二标注样本，分别训练特征转换网络以及背景音频生成模型；此处的特征转换网络是用于将视频片段对应的图像特征转换为对应的音频特征的神经网络，此处的背景音频生成模型是用于根据音频特征生成对应的背景音频的神经网络模型。

即，服务器可以获取背景音频生成任务对应的多个第二标注样本，第二标注样本中包括具有对应关系的视频片段和标注背景音频片段。然后，服务器可以通过预先训练得到的视频编码网络，根据第二标注样本中的视频片段，确定该视频片段对应的图像特征；以及，通过预先训练得到的音频编码网络，根据该第二标注样本中的标注背景音频片段，确定该标注背景音频片段对应的音频特征。进而，服务器可以通过待训练的特征转换网络，对第二标注样本中的视频片段对应的图像特征进行特征转换处理，得到参考音频转换特征；并基于该第二标注样本中的标注背景音频片段对应的音频特征和该参考音频转换特征，训练该特征转换网络。此外，服务器还可以通过待训练的背景音频生成模型，根据标注背景音频片段对应的音频特征，生成预测背景音频片段；并基于标注背景音频片段和预测背景音频片段，训练背景音频生成模型。

需要说明的是，第二标注样本是用于训练执行背景音频生成任务的特征转换网络和背景音频生成模型的有监督训练样本；该第二标注样本包括具有对应关系的视频片段和标注背景音频片段，此处的标注背景音频片段是结合该视频片段的内容标注的背景音频。

图5为本申请实施例提供的一种将视频编码网络和音频编码网络应用于背景音频生成任务的实现原理示意图。如图5所示，针对某个第二标注样本，服务器可以先对该第二标注样本中的视频片段和标注背景音频片段分别进行预处理，得到该视频片段和该标注背景音频片段各自对应的输入数据。然后，服务器可以通过预先训练好的视频编码网络对第二标注样本中视频片段对应的输入数据进行处理，得到该视频片段对应的图像特征；以及，通过预先训练好的音频编码网络对该第二标注样本中标注背景音频片段对应的输入数据进行处理，得到该标注背景音频片段对应的音频特征。

进而，服务器可以基于第二标注样本中视频片段对应的图像特征、以及该第二标注样本中标注背景音频片段对应的音频特征，对特征转换网络以及背景音频生成模型分别进行训练。

具体训练特征转换网络时，服务器可以先利用待训练的特征转换网络对第二标注样本中视频片段对应的图像特征进行特征转换处理，从而得到对应的参考音频转换特征。进而，服务器可以根据该参考音频转换特征与该第二标注样本中标注背景音频片段对应的音频特征之间的差异，构建损失函数，并基于该损失函数训练该特征转换网络。

具体训练背景音频生成模型时，服务器可以先利用待训练的背景音频生成模型，根据第二标注样本中标注背景音频片段对应的音频特征，生成预测背景音频片段。进而，服务器可以根据该标注背景音频片段与该预测背景音频片段之间的差异，构建损失函数，并基于该损失函数训练该背景音频生成模型。

如此，将通过本申请实施例提供的方法训练得到的视频编码网络和音频编码网络，用于训练实现背景音频生成任务的特征转换网络和背景音频生成模型中，可以保证基于训练得到的特征转换网络和背景音频生成模型生成的背景音频与视频更匹配。

作为一种示例，通过上述方式训练得到的特征转换网络和背景音频生成模型，可以通过以下方式实现背景音频生成任务：通过视频编码网络，根据待生成背景音频的目标视频片段，确定目标视频片段对应的图像特征；然后，通过特征转换网络，对该目标视频片段对应的图像特征进行特征转换处理，得到该目标视频片段对应的音频转换特征；进而，通过背景音频生成模型，根据该目标视频片段对应的音频转换特征，生成该目标视频片段对应的背景音频片段。

具体的，针对待生成背景音频的目标视频片段，服务器可以先对该目标视频片段进行预处理，得到该目标视频片段对应的输入数据，然后，服务器可以将该目标视频片段对应的输入数据输入预先训练好的视频编码网络，该视频编码网络通过对该输入数据进行分析处理，可以相应地输出该目标视频片段对应的图像特征。进而，服务器可以将该目标视频片段对应的图像特征输入预先训练好的特征转换网络，该特征转换网络通过对该图像特征进行特征转换处理，相应地得到该目标视频片段对应的音频转换特征。最终，服务器可以通过预先训练好的背景音频生成模型，对该目标视频片段对应的音频转换特征进行处理，得到该目标视频片段对应的背景音频片段。

应理解，通过本申请实施例提供的方法训练得到的视频编码网络和音频编码网络，除了可以应用于上述下游任务外，还可以应用于其它下游任务，本申请在此不对该视频编码网络和音频编码网络可应用的下游任务做任何限定。

上述模型训练方法训练视频编码网络和音频编码网络时，利用其中一个编码网络生成的编码特征的聚类结果，确定训练另一个编码网络时可用的有监督信号。一方面，避免了标注训练样本，也即节省了因标注训练样本而耗费的处理资源，同时还可以避免因所构建的训练样本存在缺陷而导致所训练的编码网络性能不佳的问题。另一方面，由于训练样本中的视频片段与音频片段之间具有对应关系，因此，基于训练样本中一种片段对应的特征聚类结果，为该训练样本中另一种片段配置对应的伪标签，可以在一定程度上保证所配置的伪标签的可靠性，相应地，将该伪标签作为有监督信号训练另一编码网络，可以保证对该编码网络进行可靠的训练，也即保证所训练的视频编码网络或音频编码网络能够具备较优的特征编码能力，可以更好地应用于下游任务。

为了便于进一步理解本申请实施例提供的模型训练方法，下面结合图6所示的实现原理示意图，对该模型训练方法进行整体示例性介绍。

在本申请实施例中，可以基于AudioSet数据集训练视频编码网络和音频编码。AudioSet数据集中包括超过两百万个的视频，本申请实施例可以从中选取90％的视频作为训练样本，并将剩余10％的视频作为测试样本。该数据集中每个视频的时长在10秒左右，帧率为30帧/秒；在本申请实施例中，可以从每个视频中截取时长为2秒的具有对应关系的视频片段和音频片段，构建训练样本和测试样本。对于训练样本和测试样本中的视频片段，服务器可以从2秒的视频片段中随机采样16帧视频画面，对于每帧视频画面，可以在不改变其长宽比的条件下进行缩放，使得较短的一边为256个像素，之后再从缩放后的视频画面中随机截取一个大小为224×224像素的区域，如此，经上述预处理，针对每个视频片段可以得到对应的尺寸为16×3×224×224的视频张量vi，作为视频编码网络的输入。对于训练样本和测试样本中的音频片段，服务器可以对2秒的音频片段进行短时傅里叶变换，并对短时傅里叶变换结果求对数，得到横轴为时间、纵轴为频率、值为强度的对数光谱图ai(其为尺寸为40×100的音频张量)，作为音频编码网络的输入。

训练视频编码网络和音频编码网络时，服务器可以对二者进行轮流训练。具体的，可以先固定视频编码网络，训练音频编码网络。即先通过视频编码网络依次处理各训练样本中的视频片段对应的视频张量vi(i＝1,2,3，……)，得到各训练样本各自对应的预测视频编码特征。然后采用K-Means聚类算法，对各训练样本各自对应的预测视频编码特征进行聚类处理，将预测视频编码特征分为256类，确定每个训练样本中的视频片段所属的类别y_vi，并将每个训练样本中视频片段所属的类别作为该训练样本中音频片段对应的伪标签。进而，可以通过音频编码网络依次处理各训练样本中的音频片段对应的音频张量ai，得到各训练样本各自对应的预测音频编码特征，并根据各训练样本各自对应的预测音频编码特征，确定各训练样本中的音频片段对应的类别预测结果

最终，可以将各训练样本中音频片段对应的伪标签作为有监督信号，基于各训练样本中音频片段对应的类别预测结果和伪标签，构建交叉熵损失函数，对该音频编码网络进行训练。

完成当前训练轮次中对于音频编码网络的训练后，服务器可以固定音频编码网络，训练视频编码网络。即，服务器可以采用采用K-Means聚类算法，对各训练样本各自对应的预测音频编码特征(其在当前训练轮次中训练得到的音频编码网络确定的)进行聚类处理，将预测音频编码特征分为256类，确定每个训练样本中的音频片段所属的类别y_ai，并将每个训练样本中音频片段所属的类别作为该训练样本中视频片段对应的伪标签。然后，可以通过视频编码网络依次处理各训练样本中的视频片段对应的视频张量vi，得到各训练样本各自对应的预测视频编码特征，并根据各训练样本各自对应的预测视频编码特征，确定各训练样本中的视频片段对应的类别预测结果

进而，可以将各训练样本中视频片段对应的伪标签作为有监督信号，基于各训练样本中视频片段对应的类别预测结果和伪标签，构建交叉熵损失函数，对该视频编码网络进行训练。

服务器可以重复执行轮流训练视频编码网络和音频编码网络的步骤10次，即分别对视频编码网络和音频编码网络进行10轮训练。

考虑到基于所有训练样本对应的预测编码特征(包括预测视频编码特征和预测音频编码特征)进行聚类处理十分耗时，因此，可以在每次执行聚类处理之前，先利用各测试样本对用于生成聚类处理所依据的预测编码特征的编码网络进程测试，在基于测试样本得到的损失函数停止下降前，持续对该编码网络训练，该编码网络得到充分训练后，再基于该编码网络生成的预测编码特征进行聚类处理，以基于聚类处理的结果对另一编码网络进行训练。通过这种方式可以降低聚类处理的次数，提升模型训练效率。

此外，在本申请实施例中，在训练视频编码网络和音频编码网络的过程中，还可以引入知识蒸馏的思想在所训练的视频编码网络和音频编码网络间传递信息，使得一个模态的编码网络可以学习到另一模态的知识，从而加速网络训练并提升性能。

具体的，类别预测结果通常包括片段属于各个类别的概率，除了正标签(即片段所属的类别，片段属于该类别的概率最高)外，负标签(即片段不属的类别，片段属于此类类别的概率并非最高)中也包含有大量模型归纳推理出的知识、类别间的关系。例如，对于一个经过充分训练的分类器而言，由于“弹钢琴”、“弹吉他”和“弹手风琴”这三个类别之间具有较高的相似性，因此，该分类器针对某片段在“弹钢琴”这一类别上的预测结果(即预测该片段属于“弹钢琴”类别的概率)，与针对该片段在“弹吉他”、“弹手风琴”类别上的预测结果应均具有较高的响应。基于此，本申请实施例在训练视频编码网络和音频编码网络时，可以构建如下所示的基于响应的蒸馏损失函数：

其中，N为训练样本的总数目，

为第i个训练样本中的视频片段vi对应的类别预测结果，

为第i个训练样本中的音频片段ai对应的类别预测结果。

除了类别之间的关系，训练样本之间的关系也是重要的需要学习的知识。将所要训练的一个编码网络学习到的训练样本之间的关系，传递给另一个编码网络，拉近同类的训练样本之间的距离，推远不同类的训练样本之间的距离，可以有助于提高对于两个编码网络的训练速度。基于此，本申请实施例训练视频编码网络和音频编码网络时，可以构建如下所示的基于关系的蒸馏损失函数：

其中，N为训练样本的总数目，

为第i个训练样本中的视频片段vi对应的类别预测结果，

为第j个训练样本中的视频片段vj对应的类别预测结果，

为第i个训练样本中的音频片段ai对应的类别预测结果，

为第j个训练样本中的音频片段aj对应的类别预测结果。

若服务器训练视频编码网络和音频编码网络时，同时构建了交叉熵损失函数(根据类别预测结果和伪标签之间的差异构建的)、以及上述基于响应的蒸馏损失函数和基于关系的蒸馏损失函数，则可以对这三者进行加权处理，以得到综合损失函数，基于该综合损失函数训练视频编码网络和音频编码网络。

通过上述方式训练得到的视频编码网络和音频编码网络可以应用于分类任务(如动作识别任务、视频分类任务等)。在该种情况下，服务器可以获取对应的分类任务下的标注训练样本，此类标注训练样本中可以包括具有对应关系的视频片段和音频片段、以及对应的分类标签。然后，服务器可以通过待训练的分类模型中的视频编码网络，根据标注训练样本中的视频片段确定该标注训练样本对应的图像特征；以及，通过该分类模型中的音频编码网络，根据标注训练样本中的音频片段确定该标注训练样本对应的音频特征。进而，服务器可以通过该分类模型中的分类器，根据该标注训练样本对应的视频特征和音频特征，确定该标注训练样本对应的类别预测结果；最终，服务器可以根据该标注训练样本对应的类别预测结果、以及该标注训练样本中的分类标签，训练该分类模型。

更具体的，通过上述方式训练得到的视频编码网络和音频编码网络可以应用于游戏场景中的分类任务(如游戏操作识别任务、游戏视频分类任务等)。例如，当应用于游戏操作识别任务时，服务器可以获取游戏视频中具有对应关系的视频片段和音频片段、以及对应的分类标签(用于表征该游戏视频中包括的游戏操作)构建标注训练样本，进而，基于所获取的标注分类样本，训练包括视频编码网络和音频编码网络的游戏操作识别模型。又例如，当应用于游戏视频分类任务时，服务器可以获取游戏视频中具有对应关系的视频片段和音频片段、以及对应的分类标签(用于表征该游戏视频所属的类别)构建标注训练样本，进而，基于所获取的标注分类样本，训练包括视频编码网络和音频编码网络的游戏视频分类模型。

通过上述方式训练得到的视频编码网络和音频编码网络可以应用于背景音频生成任务(如背景音乐生成任务等)。在该种情况下，服务器可以获取对应的背景音频生成任务下的标注训练样本，此类标注训练样本中可以包括视频片段及其对应的标注背景音频片段。然后，服务器可以通过预先训练好的视频编码网络，根据标注训练样本中的视频片段确定该标注训练样本对应的图像特征；以及，通过预先训练好的音频编码网络，根据该标注训练样本中的标注背景音频片段确定该标注训练样本对应的音频特征。进而，服务器可以通过待训练的特征转换网络，对该标注训练样本对应的图像特征进行转换处理，得到该标注训练样本对应的音频转换特征，并根据该音频转换特征和该标注训练样本对应的音频特征之间的距离(如余弦距离等)，训练该特征转换网络。此外，服务器还可以通过待训练的背景音频生成模型，根据该标注训练样本对应的音频特征，生成预测背景音频片段，并根据该预测背景音频片段和该标注训练样本中的标注背景音频片段，训练该背景音频生成模型。

更具体的，通过上述方式训练得到的视频编码网络和音频编码网络可以应用于游戏场景中的背景音频生成任务，即针对游戏视频生成与其中的操作节奏相匹配的背景音频。在该种情况下，服务器可以获取包括游戏视频片段及其对应的标注背景音频片段的标注训练样本；然后，分别通过预先训练好的视频编码网络和音频编码网络，根据标注训练样本中的游戏视频片段以及标注背景音频片段，生成该标注训练样本对应的图像特征和音频特征；进而，基于该标注训练样本对应的图像特征和音频特征，训练用于将图像特征转换为音频特征的特征转换网络；以及，基于该标注训练样本对应的音频特征和标注背景音频片段，训练用于预测游戏视频的背景音频的背景音频生成模型。

针对上文描述的模型训练方法，本申请还提供了对应的模型训练装置，以使上述模型训练方法在实际中得以应用及实现。

参见图7，图7是与上文图2所示的模型训练方法对应的一种模型训练装置700的结构示意图。如图7所示，该模型训练装置700包括：

训练样本获取模块701，用于获取多个训练样本；所述训练样本中包括视频片段及其对应的音频片段；

第一特征预测模块702，用于针对每个所述训练样本，通过第一编码网络，根据所述训练样本中的第一片段，确定所述训练样本对应的第一预测特征；所述第一编码网络为视频编码网络和音频编码网络中的任一个；

第一特征聚类模块703，用于基于所述多个训练样本各自对应的第一预测特征进行聚类处理，确定每个所述训练样本中的第一片段所属的类别；并针对每个所述训练样本，根据所述训练样本中的第一片段所属的类别，为所述训练样本中的第二片段配置对应的伪标签；所述第二片段与所述第一片段不同；

第二网络预测模块704，用于针对每个所述训练样本，通过第二编码网络，根据所述训练样本中的第二片段，确定所述训练样本对应的第二预测特征；根据所述训练样本对应的第二预测特征，确定所述训练样本中的第二片段对应的类别预测结果；所述第二编码网络为所述视频编码网络和所述音频编码网络中的任一个，且不同于所述第一编码网络；

第二网络训练模块705，用于基于所述多个训练样本中的第二片段各自对应的类别预测结果和伪标签，训练所述第二编码网络。

可选的，所述装置还包括：

第二特征聚类模块，用于基于所述多个训练样本各自对应的第二预测特征进行聚类处理，确定每个所述训练样本中的第二片段所属的类别；并针对每个所述训练样本，根据所述训练样本中的第二片段所属的类别，为所述训练样本中的第一片段配置对应的伪标签；

第一网络预测模块，用于针对每个所述训练样本，根据所述训练样本对应的第一预测特征，确定所述训练样本中的第一片段对应的类别预测结果；

第一网络训练模块，用于基于所述多个训练样本中的第一片段各自对应的类别预测结果和伪标签，训练所述第一编码网络。

可选的，所述装置还包括第一网络测试模块；该第一网络测试模块用于：

获取多个测试样本；所述测试样本中包括视频片段及其对应的音频片段；

针对每个所述测试样本，通过所述第一编码网络，根据所述测试样本中的第一片段，确定所述测试样本对应的第一预测特征；根据所述测试样本对应的第一预测特征，确定所述测试样本中的第一片段对应的类别预测结果；

基于所述多个测试样本中的第一片段各自对应的类别预测结果和伪标签，构建第一参考损失函数；所述测试样本中的第一片段对应的伪标签是通过对所述多个测试样本各自对应的第二预测特征进行聚类处理确定的，所述第二预测特征是通过所述第二编码网络根据所述测试样本中的第二片段确定的；

判断所述第一参考损失函数是否满足第一预设损失条件；若是，则执行所述基于所述多个训练样本各自对应的第一预测特征进行聚类处理，确定每个所述训练样本中的第一片段所属的类别；若否，则继续基于所述多个训练样本训练所述第一编码网络。

可选的，所述装置还包括第二网络测试模块；该第二网络测试模块用于：

针对每个所述测试样本，通过所述第二编码网络，根据所述测试样本中的第二片段，确定所述测试样本对应的第二预测特征；根据所述测试样本对应的第二预测特征，确定所述测试样本中的第二片段对应的类别预测结果；

基于所述多个测试样本中的第二片段各自对应的类别预测结果和伪标签，构建第二参考损失函数；所述测试样本中的第二片段对应的伪标签是通过对所述多个测试样本各自对应的第一预测特征进行聚类处理确定的，所述第一预测特征是通过所述第一编码网络根据所述测试样本中的第一片段确定的；

判断所述第二参考损失函数是否满足第二预设损失条件；若是，则执行所述基于所述多个训练样本各自对应的第二预测特征进行聚类处理，确定每个所述训练样本中的第二片段所属的类别；若否，则继续基于所述多个训练样本训练所述第二编码网络。

可选的，所述装置还包括训练轮次检测模块；该训练轮次检测模块用于：

当所训练的所述第一编码网络满足当前训练轮次中的第一训练结束条件，且所训练的所述第二编码网络满足所述当前训练轮次中的第二训练结束条件时，确定完成所述当前训练轮次的模型训练；

检测当前已完成的训练轮次的次数是否达到预设训练次数；

若是，则确定完成对于所述第一编码网络和所述第二编码网络的训练；若否，则继续执行下一训练轮次的模型训练。

可选的，所述第二网络训练模块705具体用于：

基于所述多个训练样本中的第一片段各自对应的类别预测结果、所述多个训练样本中的第二片段各自对应的类别预测结果和伪标签，训练所述第二编码网络。

可选的，所述第二网络训练模块705具体用于：

针对每个所述训练样本，根据所述训练样本中的第二片段对应的类别预测结果和伪标签，构建所述训练样本对应的基础损失函数；以及，根据所述训练样本中的第一片段和第二片段各自对应的类别预测结果，构建所述训练样本对应的蒸馏损失函数；

基于所述多个训练样本各自对应的基础损失函数和蒸馏损失函数，训练所述第二编码网络。

可选的，所述第二网络训练模块705具体用于通过以下至少一种方式构建训练样本对应的蒸馏损失函数：

根据所述训练样本中的第一片段和第二片段各自对应的类别预测结果之间的差异，构建第一蒸馏损失函数；

根据所述训练样本中的第一片段对应的类别预测结果与其它训练样本中的第一片段对应的类别预测结果之间的差异、和所述训练样本中的第二片段对应的类别预测结果与其它训练样本中的第二片段对应的类别预测结果之间的差异，构建第二蒸馏损失函数。

可选的，所述装置还包括分类模型训练模块；该分类模型训练模块用于：

获取目标分类任务对应的多个第一标注样本；所述第一标注样本中包括具有对应关系的视频片段和音频片段、以及分类标签；

通过待训练的分类模型中的所述视频编码网络，根据所述第一标注样本中的视频片段，确定所述第一标注样本对应的图像特征；通过所述分类模型中的所述音频编码网络，根据所述第一标注样本中的音频片段，确定所述第一标注样本对应的音频特征；

通过所述分类模型中的分类器，根据所述第一标注样本对应的图像特征和音频特征，确定所述第一标注样本对应的类别预测结果；

基于所述第一标注样本对应的类别预测结果、以及所述第一标注样本中的分类标签，训练所述分类模型。

可选的，所述装置还包括第一分类模型应用模块；该第一分类模型应用模块用于：

完成对于所述分类模型的训练后，通过所述分类模型中的所述视频编码网络，根据第一待处理视频片段，确定所述第一待处理视频片段对应的图像特征；通过所述分类模型中的所述音频编码网络，根据所述第一待处理视频片段对应的第一待处理音频片段，确定所述第一待处理音频片段对应的音频特征；

通过所述分类模型中的所述分类器，根据所述第一待处理视频片段对应的图像特征和所述第一待处理音频片段对应的音频特征，确定所述第一待处理视频片段在所述目标分类任务中的分类结果。

可选的，所述装置还包括第二分类模型应用模块；该第二分类模型应用模块用于：

当所述目标分类任务为动作时序定位任务时，完成对于所述分类模型的训练后，针对第二待处理视频片段，确定所述第二待处理视频片段中存在预设动作的子候选视频片段，并确定各所述子候选视频片段的排列顺序；

针对每个所述子候选视频片段，通过所述分类模型中的所述视频编码网络，根据所述子候选视频片段，确定所述子候选视频片段对应的图像特征；通过所述分类模型中的所述音频编码网络，根据所述子候选视频片段对应的子候选音频片段，确定所述子候选音频片段对应的音频特征；通过所述分类模型中的所述分类器，根据所述子候选视频片段对应的图像特征和所述子候选音频片段对应的音频特征，确定所述子候选视频片段对应的动作识别结果；

根据各所述子候选视频片段各自对应的动作识别结果、以及各所述子候选视频片段的排列顺序，确定动作时序定位结果。

可选的，所述装置还包括背景音频生成模型训练模块；该背景音频生成模型训练模块用于：

获取背景音频生成任务对应的多个第二标注样本；所述第二标注样本中包括具有对应关系的视频片段和标注背景音频片段；

通过所述视频编码网络，根据所述第二标注样本中的视频片段，确定所述视频片段对应的图像特征；通过所述音频编码网络，根据所述第二标注样本中的标注背景音频片段，确定所述标注背景音频片段对应的音频特征；

通过待训练的特征转换网络，对所述第二标注样本中的视频片段对应的图像特征进行特征转换处理，得到参考音频转换特征；并基于所述第二标注样本中的标注背景音频片段对应的音频特征和所述参考音频转换特征，训练所述特征转换网络；

通过待训练的背景音频生成模型，根据所述标注背景音频片段对应的音频特征，生成预测背景音频片段；基于所述标注背景音频片段和所述预测背景音频片段，训练所述背景音频生成模型。

可选的，所述装置还包括背景音频生成模型应用模块；该背景音频生成模型应用模块用于：

完成对于所述特征转换网络和所述背景音频生成模型的训练后，通过所述视频编码网络，根据待生成背景音频的目标视频片段，确定所述目标视频片段对应的图像特征；

通过所述特征转换网络，对所述目标视频片段对应的图像特征进行特征转换处理，得到所述目标视频片段对应的音频转换特征；

通过所述背景音频生成模型，根据所述目标视频片段对应的音频转换特征，生成所述目标视频片段对应的背景音频片段。

上述模型训练装置训练视频编码网络和音频编码网络时，利用其中一个编码网络生成的编码特征的聚类结果，确定训练另一个编码网络时可用的有监督信号。一方面，避免了标注训练样本，也即节省了因标注训练样本而耗费的处理资源，同时还可以避免因所构建的训练样本存在缺陷而导致所训练的编码网络性能不佳的问题。另一方面，由于训练样本中的视频片段与音频片段之间具有对应关系，因此，基于训练样本中一种片段对应的特征聚类结果，为该训练样本中另一种片段配置对应的伪标签，可以在一定程度上保证所配置的伪标签的可靠性，相应地，将该伪标签作为有监督信号训练另一编码网络，可以保证对该编码网络进行可靠的训练，也即保证所训练的视频编码网络或音频编码网络能够具备较优的特征编码能力，可以更好地应用于下游任务。

本申请实施例还提供了一种用于训练模型的计算机设备，该计算机设备具体可以是终端设备或者服务器，下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。

参见图8，图8是本申请实施例提供的终端设备的结构示意图。如图8所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、销售终端(Point of Sales，POS)、车载电脑等任意终端设备，以终端为计算机为例：

图8示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图8，计算机包括：射频(Radio Frequency，RF)电路810、存储器820、输入单元830(其中包括触控面板831和其他输入设备832)、显示单元840(其中包括显示面板841)、传感器850、音频电路860(其可以连接扬声器861和传声器862)、无线保真(wireless fidelity，WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图8中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器880是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行计算机的各种功能和处理数据。可选的，处理器880可包括一个或多个处理单元；优选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

在本申请实施例中，该终端所包括的处理器880还用于执行本申请实施例提供的模型训练方法的任意一种实现方式的步骤。

参见图9，图9为本申请实施例提供的一种服务器900的结构示意图。该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(centralprocessing units，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作***，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器结构。

其中，CPU 922用于执行本申请实施例提供的模型训练方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种模型训练方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种模型训练方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述多个训练样本各自对应的第二预测特征进行聚类处理，确定每个所述训练样本中的第二片段所属的类别；并针对每个所述训练样本，根据所述训练样本中的第二片段所属的类别，为所述训练样本中的第一片段配置对应的伪标签；

针对每个所述训练样本，根据所述训练样本对应的第一预测特征，确定所述训练样本中的第一片段对应的类别预测结果；

基于所述多个训练样本中的第一片段各自对应的类别预测结果和伪标签，训练所述第一编码网络。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述方法还包括：

检测当前已完成的训练轮次的次数是否达到预设训练次数；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述基于所述多个训练样本中的第二片段各自对应的类别预测结果和伪标签，训练所述第二编码网络，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述多个训练样本中的第一片段各自对应的类别预测结果、所述多个训练样本中的第二片段各自对应的类别预测结果和伪标签，训练所述第二编码网络，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述训练样本中的第一片段和第二片段各自对应的类别预测结果，构建所述训练样本对应的蒸馏损失函数，包括以下至少一种：

9.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，完成对于所述分类模型的训练后，所述方法还包括：

通过所述分类模型中的所述视频编码网络，根据第一待处理视频片段，确定所述第一待处理视频片段对应的图像特征；通过所述分类模型中的所述音频编码网络，根据所述第一待处理视频片段对应的第一待处理音频片段，确定所述第一待处理音频片段对应的音频特征；

11.根据权利要求9所述的方法，其特征在于，当所述目标分类任务为动作时序定位任务时，完成对于所述分类模型的训练后，所述方法还包括：

针对第二待处理视频片段，确定所述第二待处理视频片段中存在预设动作的子候选视频片段，并确定各所述子候选视频片段的排列顺序；

12.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

13.根据权利要求12所述的方法，其特征在于，完成对于所述特征转换网络和所述背景音频生成模型的训练后，所述方法还包括：

通过所述视频编码网络，根据待生成背景音频的目标视频片段，确定所述目标视频片段对应的图像特征；

14.一种模型训练装置，其特征在于，所述装置包括：

15.一种计算机设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至13中任一项所述的模型训练方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至13中任一项所述的模型训练方法。

17.一种计算机程序产品，包括计算机程序或者指令，其特征在于，所述计算机程序或者所述指令被处理器执行时，实现权利要求1至13中任一项所述的模型训练方法。