CN116935170A

CN116935170A - 视频处理模型的处理方法、装置、计算机设备和存储介质

Info

Publication number: CN116935170A
Application number: CN202311183099.9A
Authority: CN
Inventors: 李博; 陈曦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-10-24
Anticipated expiration: 2043-09-14
Also published as: CN116935170B

Abstract

本申请涉及一种视频处理模型的处理方法、装置、计算机设备、存储介质和计算机程序产品。方法可应用于云技术、人工智能、智慧交通等场景，方法包括：对无监督数据进行数据采样，得到不同数据分布的无监督采样集；通过视频处理模型对各无监督采样集进行处理，得到各无监督采样集的预测标签；视频处理模型是基于多模态的有监督数据训练得到的；将有监督数据与各无监督采样集进行融合，并将融合所得的各结果进行数据增强处理，得到各数据分布的增强数据集；基于各增强数据集和预测标签分别对视频处理模型进行对抗训练，得到至少两个训练后视频处理模型；基于至少两个训练后视频处理模型确定目标视频处理模型。采用本方法能提高视频处理的准确性。

Description

视频处理模型的处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频处理模型的处理方法、装置、计算机设备和存储介质。

背景技术

近年来随着短视频行业的飞速发展，各个视频平台日均上传的短视频量也快速增长，对视频进行正确的分类和标注有助于视频平台的内容审核、内容推荐、广告投放。

通过视频处理模型对视频进行分类和标注能够在一定程度上提高对视频的处理效率，然而目前通常是基于人工标注的监督视频图像数据来训练视频处理模型，人工标注的效率较低使得可用于模型训练的监督视频图像数据的数据量不足且不具备代表性，从而对视频处理模型的训练效果较差，进而导致所得到的视频处理模型对视频处理的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高视频处理准确性的视频处理模型的处理方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种视频处理模型的处理方法。所述方法包括：

对无监督数据进行数据采样，得到不同数据分布的无监督采样集；

通过视频处理模型对各所述无监督采样集进行处理，得到各所述无监督采样集的预测标签；所述视频处理模型是基于多模态的有监督数据训练得到的；

将所述有监督数据与各所述无监督采样集进行融合，并将融合所得的各结果进行数据增强处理，得到各所述数据分布的增强数据集；

基于各所述增强数据集和所述预测标签分别对所述视频处理模型进行对抗训练，得到至少两个训练后视频处理模型；

基于所述至少两个训练后视频处理模型确定目标视频处理模型；所述目标视频处理模型用于依据视频处理请求执行视频处理任务。

第二方面，本申请还提供了一种视频处理模型的处理装置。所述装置包括：

数据采样模块，用于对无监督数据进行数据采样，得到不同数据分布的无监督采样集；

标签预测模块，通过视频处理模型对各所述无监督采样集进行处理，得到各所述无监督采样集的预测标签；所述视频处理模型是基于多模态的有监督数据训练得到的；

数据增强模块，将所述有监督数据与各所述无监督采样集进行融合，并将融合所得的各结果进行数据增强处理，得到各所述数据分布的增强数据集；

对抗训练模块，用于基于各所述增强数据集和所述预测标签分别对所述视频处理模型进行对抗训练，得到至少两个训练后视频处理模型；

模型确定模块，用于基于所述至少两个训练后视频处理模型确定目标视频处理模型；所述目标视频处理模型用于依据视频处理请求执行视频处理任务。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述视频处理模型的处理方法、装置、计算机设备、存储介质和计算机程序产品，通过使用多模态的有监督数据和无监督数据来训练视频处理模型，可以充分利用不同数据源的信息，使得模型更好地理解视频并进行更准确的处理；并且通过数据增强可以在不增加实际数据量的情况下，生成更多的样本，从而提升模型的泛化性能；对抗训练可以帮助模型更好地应对各种干扰和扰动，从而提高模型的鲁棒性；从无监督数据中采样不同数据分布的无监督采样集用于训练，可以避免数据分布不均匀导致的模型性能差；根据不同数据分布的融合数据集分别训练视频处理模型，得到至少两个训练后视频处理模型，不同的训练后视频处理模型会专门针对数据的某些特定方面进行优化，基于至少两个训练后视频处理模型确定目标视频处理模型，可以进一步提高目标视频处理模型的性能，使得目标视频处理模型在依据视频处理请求执行视频处理任务时能够对视频处理的更加准确。

附图说明

图1为一个实施例中视频处理模型的处理方法的应用环境图；

图2为另一个实施例中视频处理模型的处理方法的应用环境图；

图3为一个实施例中视频处理模型的处理方法的流程示意图；

图4为一个实施例中数据融合示意图；

图5为一个实施例中模型训练示意图；

图6为另一个实施例中视频处理模型的处理方法的流程示意图；

图7为一个实施例中视频打标页面的示意图；

图8为一个实施例中视频标签预测结果的示意图；

图9为一个实施例中视频搜索页面的示意图；

图10为另一个实施例中视频处理模型的处理方法的流程示意图；

图11为一个实施例中特征提取网络的示意图；

图12为一个实施例中模型性能验证结果示意图；

图13为一个实施例中视频处理模型的处理装置的结构框图；

图14为一个实施例中视频处理模型的处理装置的结构框图；

图15为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视频处理模型的处理方法，涉及人工智能的机器学习、计算机视觉等技术，其中：

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的视频处理模型的处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储***可以存储服务器104需要处理的数据。数据存储***可以集成在服务器104上，也可以放在云上或其他服务器上。该视频处理模型的处理方法由终端102或服务器104单独执行，或者由终端102和服务器104协同执行。在一些实施例中，该视频处理模型的处理方法由服务器执行，服务器104对无监督数据进行数据采样，得到不同数据分布的无监督采样集；通过视频处理模型对各无监督采样集进行处理，得到各无监督采样集的预测标签；视频处理模型是基于多模态的有监督数据训练得到的；将有监督数据与各无监督采样集进行融合，并将融合所得的各结果进行数据增强处理，得到各数据分布的增强数据集；基于各增强数据集和预测标签分别对视频处理模型进行对抗训练，得到至少两个训练后视频处理模型；基于至少两个训练后视频处理模型确定目标视频处理模型；目标视频处理模型用于依据视频处理请求执行视频处理任务。

本申请实施例提供的视频处理模型的处理方法可以应用于视频处理场景中，参考图1所示的应用环境图，服务器104可以采用本申请实施例提供的视频处理模型的处理方法训练得到目标视频处理模型，并将该目标视频处理模型部署与服务器104，终端102可相应于用户的视频处理操作生成视频处理请求，并将视频处理请求发送至服务器104，服务器104基于接收的视频处理请求确定待处理视频以及对应的视频处理任务，并通过目标视频处理模型对待处理视频执行对应的视频处理任务，例如通过目标视频处理模型对待处理视频进行分类，并输出其类别，或者通过目标视频处理模型对待处理视频进行标注，标注也可以称为打标，并输出其标注标签，标注标签也可以称为内容标签或打标标签。

本申请实施例提供的视频处理模型的处理方法还可以应用于视频推送场景中，参考图2所示的应用环境图，其中，终端202、终端204和终端206分别通过网络与服务器208进行通信，服务器208可以采用本申请实施例提供的视频处理模型的处理方法训练得到目标视频处理模型，并将该目标视频处理模型部署与服务器208，终端202、终端204和终端206均可向服务器208上传视频以及接收来自服务器206的推荐视频，例如终端202向服务器208上传视频A后，服务器208通过部署的目标视频处理模型对视频A进行分类和标注，得到视频A的分类标签和标注标签，并基于视频A的分类标签和标注标签确定视频A的推送对象，如确定的推送对象为终端206，则将该视频A推送给终端206，并通过终端206对视频A进行显示。

此外，服务器206在得到视频的分类标签和标注标签之后，处理基于视频的分类标签和标注标签对视频进行推荐，还可以基于视频的分类标签和标注标签对视频进行审核，具体可以是内容审核、质量审核、生态安全审核和底线安全审核等。

其中，终端可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备、便携式可穿戴设备和网络设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。网络设备可为路由器、交换机、防火墙、负载均衡器、网络存储器、网络适配器等。

服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，如图3所示，提供了一种视频处理模型的处理方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S302，对无监督数据进行数据采样，得到不同数据分布的无监督采样集。

其中，无监督数据是指在训练机器学习模型时没有与之对应的明确标签或类别信息的数据，可以理解的是，本申请实施例中无监督数据用于训练视频处理模型，因此无监督数据至少可包括视频各帧的图像数据，此外无监督数据还可以包括视频的文本数据和视频的音频数据，视频的文本数据具体可以是视频的标题、视频的字幕、视频的发布者标识等数据，视频的音频数据具体可以是视频中的语音对话、背景音乐或音效、视频中的环境声音等数据等。

数据采样是从大型数据集中选择一个子集，本申请实施例中可以根据需求选择不同的采样方式对无监督数据进行采样，以得到不同数据分布的子集，所得到的子集即为无监督采样集。

数据分布是指在某一采样维度下的不同类别的视频（视频样本）在整个数据集中的分布情况，其中，维度可以是视频的属性，如视频分类维度、视频标签维度、视频上传时间维度、视频时长维度等，每个维度下的类别代表了在维度下的属性取值，简称属性值，例如视频分类维度下的类别代表了不同类型的视频，如动物、人物、自然风景、城市景观、体育运动等，视频标签维度下的类别代表了不同的标签，如猫、狗、篮球、足球等，视频上传时间维度下的类别代表了不同的历史时段，如第一历史时段、第二历史时段、第三历史时段、第四历史时段等，视频时长维度下的类别代表了不同的视频时长区间，如0秒-30秒、30秒-60秒、1分钟-3分钟、3分钟以上等。

无监督采样集的数据分布包括第一数据分布和第二数据分布，其中第一数据分布是指在某一维度下在无监督采样集中不同类别的视频的数据分布，与原始的无监督数据的不同类别的视频的数据分布情况一致，第二数据分布是指在某一维度下的不同类别的视频呈现均衡分布。

具体的，计算机设备在得到无监督数据之后，可以获取预设的数据采样条件，并根据预设的数据采样条件在无监督数据中进行数据采样，得到该数据采样条件所对应的不同数据分布的无监督采样集。

其中，数据采样条件包括维度条件和分布条件，维度条件用于指定数据采样的维度，分布条件用于指定采样结果的数据分布。

S304，通过视频处理模型对各无监督采样集进行处理，得到各无监督采样集的预测标签。

其中，视频处理模型是针对视频数据的机器学习模型，用于对视频内容进行分析、处理和理解，可以用于视频分类、视频标注、对象检测、视频生成、行为识别等任务，具体可以是基于卷积神经网络（CNN）、循环神经网络（RNN）和长短时记忆网络（LSTM）、Transformer模型中的至少一种构建的。

视频处理模型是基于多模态的有监督数据训练得到的，有监督数据是指在训练机器学习模型时，每个样本都有与之对应的标签或答案的数据，在有监督学习中，模型通过学习输入数据与对应标签之间的关系，从而能够进行预测和分类。多模态是多种模态，模态是指数据集中不同类型或形式的信息源，在多模态数据中，每个模态都代表了数据的一种不同方面，本申请实施例中，不同的模态可以包括图像模态、音频模态、文本模态等，图像模态的数据又可以称为图像数据、音频模态是数据可以称为音频数据，文本模态的数据可以称为文本数据，也就是说，有监督数据包括视频各帧的图像数据、文本数据、音频数据以及视频对应的标签信息，其中标签信息具体可以是类别标签或者内容标签，其中类别标签用于描述视频的类型，如动物、人物、自然风景、城市景观、体育运动等，内容标签也可以称为内容标签，用于描述视频的内容，如猫、狗、篮球、足球等。

预测标签是对无监督采样集中的视频进行分类、标注后所得到的结果，具体可以是预测分类标签和预测内容标签中的至少一个，可以理解的是，当视频处理模型可用于执行分类任务时，预测标签即为无监督采样集中的视频进行分类所得到的结果，即预测分类标签，当视频处理模型可用于执行标注任务时，预测标签即为无监督采样集中的视频进行标注所得到的结果，即预测内容标签，当视频处理模型可用于同时执行分类任务和标注任务时，预测标签即为无监督采样集中的视频进行分类和标注所得到的结果，即包括预测分类标签和预测内容标签。

具体的，计算机设备可以预先使用有监督数据训练出视频处理模型，并在无监督数据采样得到不同数据分布的无监督采样集之后，通过视频处理模型分别对各无监督采样集中的各视频的数据特征提取，得到进行分类和标注中的至少一种处理，得到各视频的视频特征，并基于各视频特征进行预测，得到各无监督采样集中各视频的预测标签。

例如，假设采样得到的无监督采样集有S1，S2，……，SK，则针对任意一个无监督采样集Si，对将该无监督采样集Si中的各个视频的数据输入视频处理模型，通过视频处理模型对各视频的数据进行处理，得到无监督采样集Si中的各视频的预测标签，当完成对全部无监督采样集的上述处理后，得到无监督采样集有S1，S2，……，SK中每个视频的预测标签。

需要说明的是，本申请实施例，通过视频处理模型对无监督采样集进行处理所得到的预测标签，用于后续对目标视频处理模型的训练，由于预测标签并非无监督采样集中视频的真实标签，具有一定的误判性，因此，在后续模型训练时，这些预测标签也可以被称为是伪标签。

S306，将有监督数据与各无监督采样集进行融合，并将融合所得的各结果进行数据增强处理，得到各数据分布的增强数据集。

其中，融合是指将不同的数据源、数据集或者信息合并在一起，以创建一个更全面、更封堵的数据集或信息源，本申请实施例中，融合是指将有监督数据与各无监督采样集进行合并，有监督数据可以为模型提供有标签的样本，从而帮助模型学习不同类别之间的关系，无监督采样集则可以扩展模型的数据分布范围，使其更好地适应多样的情况和场景，从而后续在基于融合的结果来训练目标视频处理模型时，可以提高模型的性能，如提高模型对视频处理的准确性或以及模型本身的鲁棒性。

数据增强处理是指对原始数据进行一系列变换和处理，以生成新的样本，从而增加数据集的多样性和丰富性，通过使用数据增强后的数据来训练目标视频处理模型，可以提高模型的鲁棒性和泛化能力，使模型在不同情况下都能取得良好的性能。

具体的，计算机设备可以将有监督数据分别与各个无监督采样集进行合并，从而可以得到对应各数据分布的融合数据集，针对任意一个融合数据集，对该融合数据集中的各视频进行数据增强处理，从而得到各融合数据集对应的增强数据集。

如图4所示，采样得到的无监督采样集有S1，S2，……，SK，有监督数据为P，则可以将有监督数据P分别与S1，S2，……，SK进行合并，即Si+P，从而得到各融合数据集D1，D2，……，DK，其中任意一个融合数据集Di均包含两部分数据，即包含无监督采样集Si和有监督数据P，对各融合数据集D1，D2，……，DK分别进行数据增强处理，得到增强数据集H1，H2，……，HK。

S308，基于各增强数据集和预测标签分别对视频处理模型进行对抗训练，得到至少两个训练后视频处理模型。

其中，对抗训练是一种训练方法，旨在使机器学习模型在面对不确定性、干扰和变化时变得更加鲁棒。

具体的，计算机设备在得到各增强数据集和预测标签之后，针对任意一个增强数据集，可以将该增强数据集中的各个视频作为训练样本，将各个视频对应的标签信息或者预测标签，作为模型训练的标签，基于训练样本生成对抗样本或者对抗特征，基于对抗样本或者对抗特征对相应的视频处理模型进行对抗训练，得到对应的训练后视频处理模型。例如图5所示，针对K个增强数据集H1，H2，……，HK，每个增强数据集分别训练一个视频处理模型M0，最终得到K个训练后视频处理模型M1，M2，……，MK。

其中，对抗样本是一种特殊设计的数据样本，经过精心构造以欺骗机器学习模型，使其在这些样本上出现错误的分类结果或误判，从而训练模型以在面对干扰、噪声和变化时更好地保持性能，对抗样本可以通过在训练样本上添加扰动或噪声的方式来生成；对抗特征是一种特殊设计的数据特征，经过精心构造以欺骗机器学习模型，使其在这些特征上出现错误的分类结果或误判，从而训练模型以在面对干扰、噪声和变化时更好地保持性能，对抗特征可以是在对训练样本所提取的样本特征上添加扰动或噪声的方式来生成。

S310，基于至少两个训练后视频处理模型确定目标视频处理模型。

具体的，计算机设备在得到至少两个训练后视频处理模型之后，可以从各训练后视频处理模型中选取一个训练后视频处理模型作为目标视频处理模型；还可以对各训练后视频处理模型进行模型融合，从而得到目标视频处理模型；还可以基于各训练后视频处理模型训练新的模型，从而得到目标视频处理模型。

目标视频处理模型用于依据视频处理请求执行视频处理任务，其中，视频处理任务可以是视频分类任务、视频标注任务，或者是与视频分类任务、视频标注任务相关联的内容审核、质量审核、生态安全审核和底线安全审核等审核任务；还可以是与视频分类任务、视频标注任务相关联的视频推荐任务等。

具体的，计算机设备在得到目标视频处理模型之后，可以将目标视频处理模型部署在计算机设备本地，例如部署在服务器本地，服务器可以接收来自终端或者其他服务器的视频处理请求，并基于视频处理请求确定待处理视频以及对应的视频处理任务，并通过视频处理模型按照视频处理任务对待处理视频进行相应的处理。

例如，视频处理任务为视频分类任务，则服务器通过目标视频处理模型对待处理视频进行分类处理，得到待处理视频的分类标签；视频处理任务为视频标注任务，则服务器通过目标视频处理模型对待处理视频进行标注处理，得到待处理视频的内容标签；视频处理任务为分类与标注任务，则服务器通过目标视频处理模型对待处理视频进行分类与标注处理，得到待处理视频的分类标签和内容标签；视频处理任务为视频推荐任务，则服务器通过目标视频处理模型对待处理视频进行分类与标注处理，得到待处理视频的分类标签和内容标签，并基于分类标签和标注标签确定待处理视频的推荐对象，并将待处理视频推送给所确定的推荐对象；视频处理任务为审核任务，则服务器通过目标视频处理模型对待处理视频进行分类与标注处理，得到待处理视频的分类标签和内容标签，并基于分类标签和标注标签对待处理视频进行审核。

在一个实施例中，计算机设备还可以对待处理视频进行处理，具体可以包括以下步骤：通过目标视频处理模型对待处理视频进行特征提取，得到待处理视频特征；基于待处理视频特征进行预测，得到待处理视频的预测标签。

具体的，计算机设备可以通过目标视频处理模型的特征提取网络对待处理视频的图像数据、文本数据和音频数据进行特征处理，得到多模态融合的待处理视频特征，并将该待处理视频特征输入目标视频处理模型的预测网络，通过预测网络进行分类预测，得到预测标签。其中预测标签可以是分类标签和标注标签中的至少一个。

在一个实施例中，目标视频处理模型的特征提取网络可以包括图像特征处理分支、文本特征处理分支、音频特征处理分支和特征融合网络，计算机设备通过目标视频处理模型的特征提取网络对待处理视频的图像数据、文本数据和音频数据进行特征处理，得到多模态融合的待处理视频特征的过程包括以下步骤：通过图像特征处理分支提取待处理视频的图像数据的特征，得到图像特征；通过文本特征处理分支提取待处理视频的文本数据的特征，得到文本特征；通过音频特征处理分支提取待处理视频的音频数据的特征，得到音频特征；通过特征融合网络对图像特征、文本特征和音频特征进行特征融合，得到多模态的待处理视频特征。

在一个实施例中，目标视频处理模型的预测网络包括类别预测分支和内容预测分支，计算机设备将待处理视频特征输入目标视频处理模型的预测网络，通过预测网络进行分类预测得到预测标签的过程包括以下步骤：将待处理视频特征输入类别预测分支以进行分类，得到无监督采样集中各视频的预测分类标签；将待处理视频特征输入内容预测分支以进行标注，得到无监督采样集中各视频的预测内容标签。

上述视频处理模型的处理方法中，通过使用多模态的有监督数据和无监督数据来训练视频处理模型，可以充分利用不同数据源的信息，使得模型更好地理解视频并进行更准确的处理；并且通过数据增强可以在不增加实际数据量的情况下，生成更多的样本，从而提升模型的泛化性能；对抗训练可以帮助模型更好地应对各种干扰和扰动，从而提高模型的鲁棒性；从无监督数据中采样不同数据分布的无监督采样集用于训练，可以避免数据分布不均匀导致的模型性能差；根据不同数据分布的融合数据集分别训练视频处理模型，得到至少两个训练后视频处理模型，不同的训练后视频处理模型会专门针对数据的某些特定方面进行优化，基于至少两个训练后视频处理模型确定目标视频处理模型，可以进一步提高目标视频处理模型的性能，使得目标视频处理模型在依据视频处理请求执行视频处理任务时能够对视频处理的更加准确。

在一个实施例中，在通过视频处理模型对各无监督采样集进行处理之前，上述视频处理模型的处理方法还包括训练视频处理模型的过程，该过程具体包括以下步骤：获取有监督数据；有监督数据包括视频的多模态数据和视频对应的标签信息；通过初始视频处理模型对多模态数据进行特征处理，得到初始多模态融合特征；基于初始多模态融合特征生成初始预测结果；基于初始预测结果和标签信息对初始视频处理模型进行优化，得到视频处理模型。

其中，视频的多模态数据包括视频的图像数据、文本数据和音频数据，标签信息是指为每个视频提供的真实分类标签和真实标注标签中的至少一种。

初始视频处理模型是在训练过程中的初始阶段所使用的模型，还没有经过充分的训练，需要经过优化和调整以提高其性能，即初始视频处理模型是训练的起点，通过反向传播和优化算法逐渐改进，最终得到视频处理模型。

初始预测结果可以是初始分类结果和初始标注结果中的至少一种，具体可以是初始分类标签和初始标注标签中的至少一种。

具体的，计算机设备可以从公共数据集、自有数据集或者第三方数据提供商处获取视频的多模态数据，并对各个视频进行人工标注得到视频的标签信息，从而构建出有监督数据，并将有监督数据中的各个视频的图像数据、文本数据和音频数据输入初始视频处理模型，通过初始视频处理模型的特征提取网络对图像数据、文本数据和音频数据进行特征处理，得到初始多模态融合特征，并基于初始多模态融合特征生成初始预测结果，并根据初始预测结果和标签信息确定初始训练损失值，基于初始训练损失值调整初始视频处理模型的参数，直至达到收敛条件，得到初始视频处理模型。

在一个实施例中，初始预测结果包括初始分类标签，计算机设备可以基于初始分类标签和真实分类标签确定初始训练损失值，其中初始训练损失值、初始分类标签和真实分类标签之间满足以下关系：

其中，L ₁是视频分类对应的初始训练损失值，N为训练集中视频的总数，p _i表示第i个视频对应的模型预测结果，z _i表示第i个视频对应的Transformer输出向量，K ₁是视频分类的类别总数。

在一个实施例中，初始预测结果包括初始标注标签，计算机设备可以基于初始标注标签和真实标注标签确定初始训练损失值，其中初始训练损失值、初始标注标签和真实标注标签之间满足以下关系：

其中，L ₂是视频打标对应的初始训练损失值，N为训练集中视频总数，K ₂表示标签类别总数，L ^c表示第c个类别对应的损失值，表示对于第i个视频而言，c个类别对应的真值标签（0/1），/>表示对于第i个视频而言，第c个类别对应的预测概率，/>表示第i个视频对应的Transformer输出向量，/>表示/>向量的第c个位置对应的值。

在一个实施例中，初始预测结果包括初始分类标签和初始标注标签，计算机设备可以初始分类标签和真实分类标签确定初始分类训练损失值，基于初始标注标签和真实标注标签确定初始标注训练损失值，基于初始分类训练损失值和初始标注训练损失值确定初始训练损失值，初始训练损失值、初始分类训练损失值和初始标注训练损失值之间的满足以下关系：

其中，L ₁表示初始分类训练损失值，L ₂表示初始标注训练损失值，α表示初始分类训练损失值对应的权重，（1-α）表示初始标注训练损失值对应的权重。

在一个实施例中，初始视频处理模型的特征提取网络包括图像特征处理分支、文本特征处理分支、音频特征处理分支和特征融合网络，计算机设备初始视频处理模型的特征提取网络对图像数据、文本数据和音频数据进行特征处理，得到初始多模态融合特征的过程包括以下步骤：通过图像特征处理分支提取图像数据的特征，得到初始图像特征；通过文本特征处理分支提取文本数据的特征，得到初始文本特征；通过音频特征处理分支提取音频数据的特征，得到初始音频特征；通过特征融合网络对初始图像特征、初始文本特征和初始音频特征进行特征融合，得到初始多模态融合特征。

上述实施例中，计算机设备利用多模态的有监督数据训练初始视频处理模型，有监督数据通常是经过人工标注的高质量数据，通过利用这些数据来训练模型，可以帮助模型学习到正确的特征和标签信息，从而提高模型的准确性和效果，通过利用多模态的视频数据训练初始视频处理模型，可以更加全面地理解视频内容，进一步提高了初始视频模型的准确性和效果。

在一个实施例中，无监督采样集包括视频的图像数据、视频的文本数据和视频的音频数据，计算机设备通过视频处理模型对各无监督采样集进行处理，得到各无监督采样集的预测标签的过程包括以下步骤：通过视频处理模型对无监督采样集中各视频的图像数据、文本数据和音频数据进行多模态特征处理，得到多模态融合特征；基于多模态融合特征生成无监督采样集中各视频的预测标签。

其中，无监督采样集包括视频的多模态数据，多模态数据包括图像数据、文本数据和音频数据。

具体的，针对无监督采样集中的任意一个视频的图像数据、文本数据和音频数据，计算机设备将该视频的图像数据、文本数据和音频数据输入视频处理模型的特征值提取网络，通过特征提取网络对输入的图像数据、文本数据和音频数据进行特征处理，得到该视频的多模态融合特征，并将多模态融合特征输入视频处理模型的预测网络中，通过预测网络基于输入的多模态融合特征进行预测，得到该视频的预测标签。

上述实施例中，计算机设备通过对无监督采样集中的图像数据、文本数据和音频数据进行多模态特征处理，可以将不同模态的信息有效地融合在一起，从而更全面地理解视频内容，提高初始视频处理模型对无监督采样集中视频处理的准确，得到视频更加准确的预测标签，通过视频处理模型对无监督采样集中视频进行预测，得到各视频的预测标签，后续可以基于无监督采样集和对应的预测标签训练目标视频处理模型。

在一个实施例中，视频处理模型包括图像特征处理分支、文本特征处理分支、音频特征处理分支和特征融合网络，计算机设备通过视频处理模型对无监督采样集中各视频的图像数据、文本数据和音频数据进行多模态特征处理，得到多模态融合特征的过程包括以下步骤：通过图像特征处理分支提取图像数据的特征，得到图像特征；通过文本特征处理分支提取文本数据的特征，得到文本特征；通过音频特征处理分支提取音频数据的特征，得到音频特征；通过特征融合网络对图像特征、文本特征和音频特征进行特征融合，得到多模态融合特征。

其中，图像特征处理分支用于对输入的图像数据进行特征处理，该分支可以是卷积神经网络（CNN）结构或者转换器（Transformer）结构，Transformer结构具体可以是视频时序窗口转换器（Video Swin-Transformer）结构。

文本特征处理分支用于对输入的文本数据进行特征处理，该分支可以是循环神经网络（RNN）结构、长短时记忆网络（LSTM）结构或者转换器（Transformer）结构，Transformer结构具体可以是BERT（Bidirectional Encoder Representations from Transformers）结构。

音频特征处理分支用于对输入的音频数据进行特征处理，该分支可以是循环神经网络（RNN）结构、卷积神经网络（CNN）结构或者转换器（Transformer）结构，卷积神经网络（CNN）结构具体可以是VGGNet（Visual Geometry Group Net, 牛津大学计算机视觉组网络）结构。

特征融合网络用于图像模态的特征、文本模态的特征和音频模态的特征进行融合，该网络具体可以是前馈神经网络（Multi-Layer Perceptrons，MLPs）结构、门控机制结构（如LSTM和GRU）、注意力机制结构、转换器（Transformer）结构等。

具体的，计算机设备通过图像特征处理分支的各个网络层分别对图像数据进行卷积操作、激活操作和池化操作，从而捕获不同图像数据在不同层次的特征，并将最后一层的输出的特征作为提取出的图像特征；通过文本特征处理分支对输入的文本数据进行分词处理，得到各词，并对各词进行编码得到词向量，基于词向量生成文本特征；通过音频特征处理分支对音频数据进行分帧，并对分帧所得的各帧音频进行卷积操作、激活操作和池化操作，从而捕获每帧音频的特征，并将每帧的特征汇总成整个音频的特征，得到音频特征；将图像特征、文本特征和音频特征输入特征融合网络，通过特征融合网络将图像特征、文本特征和音频特征进行融合，得到融合结果，基于融合结果确定多模态融合特征。

需要说明的是，可以通过连接、相加、相乘等方式实现图像特征、文本特征和音频特征的融合；此外，基于融合结果确定多模态融合特征具体可以直接将融合结果作为多模态融合特征输出，也可以对融合结果进行非线性处理，得到处理后结果，将处理后结果确定为多模态融合特征，从而可以引入非线性性质，以捕获更丰富的特征信息，非线性处理具体可以采用激活函数来实现。

上述实施例中，计算机设备通过将不同模态的视频数据进行特征处理和融合，可以获得更全面、丰富的多模态特征，从而更准确地表征视频的内容和特性，使得后续基于多模态融合特征进行模型训练时，可以提高模型的性能。

在一个实施例中，视频处理模型包括类别预测分支和内容预测分支；预测标签包括预测分类标签和预测内容标签；计算机设备基于多模态融合特征生成无监督采样集中各视频的预测标签的过程包括以下步骤：将多模态融合特征输入类别预测分支以进行分类，得到无监督采样集中各视频的预测分类标签；将多模态融合特征输入内容预测分支以进行标注，得到无监督采样集中各视频的预测内容标签。

其中，类别预测分支用于对视频进行分类，也就是将视频分到不同的类别中，如动物、人物、自然风景等，具体可以包括一个或多个全连接层，最后连接一个具有Softmax激活函数的输出层；内容预测分支用于对视频进行标注，如猫、狗等，具体可以包括一个或多个全连接层，最后连接一个具有Softmax激活函数的输出层。

具体的，计算机设备在得到多模态融合特征以后，将多模态融合特征输入到类别预测分支，类别预测分支通过全连接层对多模态融合特征进行线性变换，得到低维特征，并通过类别预测分支激活函数层对低维特征进行处理，以引入非线性关系，得到处理后特征，并通过类别预测分支的具有Softmax激活函数的输出层（最后一个全连接层）基于处理后特征输出预测结果，预测结果为每个类别的概率分数，具体可以将最高分数对应的类别作为预测分类标签；将多模态融合特征输入到内容预测分支，内容预测分支通过全连接层对多模态融合特征进行线性变换，得到低维特征，并通过类别预测分的支激活函数层对低维特征进行处理，以引入非线性关系，得到处理后特征，并通过内容预测分支的具有Softmax激活函数的输出层（最后一个全连接层）基于处理后特征输出预测结果，输出结果为不同内容标签的概率分布，具体可以将达到概率阈值的内容标签作为预测内容标签。

上述实施例中，计算机设备通过类别预测分支和内容预测分支对视频的不同方面进行预测，类别预测关注整体分类，内容预测则关注视频中的细节内容，通过这两个分支的预测，可以从不同角度捕获视频的各个特征，提供更全面的预测结果。

在一个实施例中，计算机设备对无监督数据进行数据采样，得到不同数据分布的无监督采样集的过程包括以下步骤：获取采样维度；按照采样维度对无监督数据进行均匀采样，得到第一无监督采样集，第一无监督采样集属于第一数据分布；按照采样维度对无监督数据的进行均衡采样，得到第二无监督采样集，第二无监督采样集属于第二数据分布。

其中，采样维度、第一无监督采样集和第二无监督采样集的数量相同，且为至少一个。采样维度具体可以是视频分类维度、视频标签维度、视频上传时间维度、视频时长维度中的至少一个维度。

具体的，计算机设备获取预设的数据采样条件，并根据数据采样条件中维度条件确定采样维度，以及根据数据采样条件中的分布条件确定采样方式，采样方式具体可以是第一数据分布所对应的均匀采样和第二数据分布所对应的均衡采样，并在采样维度下对无监督数据进行均匀采样得到第一无监督采样集，以及在采样维度下对无监督数据进行均衡采样得到第二无监督采样集。

例如，无监督数据为视频集X，指定的数据维度为视频分类维度，具体包括动物（类型A）视频有100个，人物（类型B）视频有150个，自然风景（类型C）视频有250个，城市景观（类型D）视频有500个，由此可见，动物视频占视频集X中全部视频的10%，人物视频占视频集X中全部视频的15%，自然风景视频占视频集X中全部视频的25%，城市景观视频占视频集X中全部视频的50%，通过对视频集在视频分类维度下均匀采样和均衡采样100个视频作为无监督采样集，则可以得到第一数据分布的无监督采样集Y1和第二数据分布的无监督采样集Y2，其中无监督采样集Y1中包含有动物（类型A）视频有10个，人物（类型B）视频有15个，自然风景（类型C）视频有25个，城市景观（类型D）视频有50个，由此可见，动物视频占无监督采样集Y1中全部视频的10%，人物视频占无监督采样集Y1中全部视频的15%，自然风景视频占无监督采样集Y1中全部视频的25%，城市景观视频占无监督采样集Y1中全部视频的50%；无监督采样集Y2包含有动物（类型A）视频有25个，人物（类型B）视频有25个，自然风景（类型C）视频有25个，城市景观（类型D）视频有25个，由此可见，动物视频占无监督采样集Y2中全部视频的25%，人物视频占无监督采样集Y2中全部视频的25%，自然风景视频占无监督采样集Y2中全部视频的25%，城市景观视频占无监督采样集Y2中全部视频的25%。

可以理解的是，当采样维度有m个时，所得到的无监督采样集有2m个，其中属于第一数据分布的无监督采样集有m个，属于第二数据分布的无监督采样集也有m个，若总共得到K个无监督采样集，所得到的无监督采样集可以记作S1，S2，……，SK。

上述实施例中，计算机设备通过获取采样维度；按照采样维度对无监督数据进行均匀采样，得到第一无监督采样集，第一无监督采样集属于第一数据分布；按照采样维度对无监督数据的进行均衡采样，得到第二无监督采样集，第二无监督采样集属于第二数据分布，从而可以获得不同数据分布的无监督采样集，通过均匀采样和均衡采样，可以避免数据分布不均衡带来的问题，后续使用不同数据分布的无监督采样集训练模型时，可以提升模型的稳定性和性能。

在一个实施例中，融合的结果中包括图像数据、文本数据和音频数据，增强数据集包括增强图像数据、增强文本数据和增强音频数据，计算机设备将融合所得的各结果进行数据增强处理，得到各数据分布的增强数据集的过程包括以下步骤：对图像数据进行图像增强处理，得到图像增强数据；对文本数据进行文本增强处理，得到文本增强数据；对音频数据进行音频增强处理，得到音频增强数据。

其中，图像数据增强处理是指对图像进行变换，以生成更多样化的图像样本，具体可以包括亮度调整处理、图像裁剪处理和图像融合处理中的至少一种，亮度调整处理是指调节图像的亮度，可以使得图像变亮或者变暗；图像裁剪处理是指随机或规则地裁剪图像的一部分，以改变图像的组成和焦点；图像融合处理是指将两张或多张图像合成为一张，具体可将同一视频的不同视频帧进行图像融合。

文本增强数据是对文本进行修改，以生成多样的文本样本，具体可以包括字符替换处理、字符缩写处理和字符删除处理中的至少一种，字符替换处理是指随机替换文本中的字符，可以增加样本的多样性；字符缩写处理是指对文本中的一些词汇进行缩写，以模拟用户的不同表达方式；字符删除处理是指随机删除文本中的字符，以模拟文本中的遗漏或错误。

音频增强处理是对音频进行变换，以生成更多样化的音频样本，音频增强处理包括信息抹除处理、频率变换处理中的至少一种，信息抹除处理是指随机移除音频片段，模拟噪声、丢失或截断的情况；频率变换处理是指对音频进行频率变换，如添加噪声、改变音调或进行频谱扭曲。

上述实施例中，计算机设备分别进行图像增强、文本增强和音频增强处理，可以生成更多样化、更丰富的数据样本，从而得到各数据分布的增强数据集，这些增强数据集在后续的训练和任务执行中可以提高模型的鲁棒性和性能。

在一个实施例中，增强数据集的数量和视频处理模型的数量相同，且为N个，N为大于或等于二；计算机设备基于各增强数据集和预测标签分别对视频处理模型进行对抗训练，得到至少两个训练后视频处理模型的过程具体包括以下步骤：针对每个视频处理模型和每个增强数据集，通过视频处理模型对增强数据集中各视频的图像数据、文本数据和音频数据进行对抗扰动特征提取，得到各视频的对抗扰动融合特征；基于对抗扰动融合特征生成对抗预测结果；基于对抗预测结果、预测标签和有监督数据的标签信息对视频处理模型进行优化；在完成每个视频处理模型的优化后，得到N个训练后视频处理模型。

其中，对抗扰动是通过在数据或特征中引入微小的、经过精心设计的扰动，以使机器学习模型产生误判或错误的预测，这种扰动通常是以人眼难以察觉的形式存在的，但却足以导致模型产生错误的输出。对抗预测结果包括对抗预测分类标签和对象预测标注标签中的至少一种。

具体的，针对N个视频处理模型中的第i个视频处理模型，以及N个增强数据集中的第i个增强数据集，计算机设备将该数据集中的各视频的图像数据、文本数据和音频数据输入该视频处理模型的特征提取网络，通过特征提取网络提取图像特征、文本特征和音频特征，并通过特征提取网络中的对抗生成网络生成扰动特征，图像特征、文本特征和音频特征和扰动特征进行融合，得到各视频的对抗扰动融合特征，并将对抗扰动特征输入到该视频处理模型的预测网络，通过预测网络输出对抗预测结果，针对该增强数据集中各视频的对抗预测结果、视频对应的预测标签或者标签信息确定对抗训练损失值，基于对抗训练损失值对该视频处理模型的参数进行调整，直至达到收敛条件时停止训练，得到该视频处理模型对应的训练后视频处理模型，通过对N个视频处理模型分别基于以上N各增强数据集进行训练，从而可以得到N个训练后视频处理模型。

其中，收敛条件可以是训练轮次条件或者损失值条件，训练轮次条件是基于训练轮次数量的终止条件，可以预先指定进行多少轮训练，然后在达到指定的轮次后停止训练；损失值条件是基于损失值的终止条件，可以设置一个损失值的阈值，当模型的损失值降低到该阈值以下时，停止训练。

上述实施例中，计算机设备通过视频处理模型进行对抗训练，得到训练后视频处理模型，对抗训练时模型在输入数据或特征中引入扰动，使其更能够应对现实世界中的噪声和干扰，从而提高模型的鲁棒性，即在复杂环境中的性能更加稳定；帮助模型学习到数据的更本质特征，而不仅仅是过度拟合训练数据，这样可以提升模型的泛化能力，使其在未见过的数据上表现更好；对抗训练引入了对抗性的干扰，降低了模型过于拟合训练数据的风险，从而减少过拟合问题，使模型能够更好地适应各种输入。

在一个实施例中，计算机设备通过视频处理模型对增强数据集中各视频的图像数据、文本数据和音频数据进行对抗特征提取，得到各视频的对抗扰动融合特征的过程包括以下步骤：通过视频处理模型对增强数据集中各视频的图像数据、文本数据和音频数据进行特征提取，得到各视频的增强图像特征、增强文本特征和增强视频特征；分别对增强图像特征、增强文本特征和增强音频特征进行对抗扰动处理，得到对抗扰动图像特征、对抗扰动文本特征和对抗扰动音频特征；对对抗扰动图像特征、对抗扰动文本特征和对抗扰动音频特征进行特征融合，得到各视频的对抗扰动融合特征。

具体的，针对任意一个视频，计算机设备在得到该视频的增强图像特征、增强文本特征和增强视频特征之后，还可以生成图像扰动向量、文本扰动向量和音频扰动向量，并在增强图像特征上添加图像扰动向量，得到对抗扰动图像特征，在增强文本特征上添加文本扰动向量，得到对抗扰动文本特征，在增强音频特征上增加音频扰动向量，得到对抗扰动音频特征，并将对抗扰动图像特征、对抗扰动文本特征和对抗扰动音频特征输入视频处理模型的特征融合网络，通过特征融合网络输出该视频的对抗扰动融合特征。

其中，图像扰动向量、文本扰动向量和音频扰动向量可以通过随机生成、自编码器生成、生成对抗网络（GAN）生成等方式来得到，添加扰动向量可以是将原始特征与扰动向量合并，例如，某个视频的增强文本特征为F _t、增强图像特征为F _i、增强音频特征为F _a，生成的文本扰动向量为f _t，图像扰动向量为f _i，音频扰动向量为f _a，从而可以得到对抗扰动文本特征F _t+f _t、对抗扰动图像特征F _i+f _i、对抗扰动音频特征F _a+f _a。

上述实施例中，计算机设备通过对增强图像特征、增强文本特征和增强音频特征进行对抗扰动处理，得到对抗扰动图像特征、对抗扰动文本特征和对抗扰动音频特征；对对抗扰动图像特征、对抗扰动文本特征和对抗扰动音频特征进行特征融合，得到各视频的对抗扰动融合特征，使得后续基于对抗扰动融合特征训练的模型在特征层面上增强了鲁棒性、安全性和泛化能力，进而提升了模型在各种任务中的性能和适应性，比如使模型在视频分类、打标等任务中的对视频处理的更加准确。

在一个实施例中，计算机设备基于至少两个训练后视频处理模型确定目标视频处理模型的过程包括以下步骤：以至少两个训练后视频处理模型为参考模型对蒸馏训练数据进行处理，得到参考特征和参考标签；通过待训练模型对蒸馏训练数据进行处理，得到训练特征和训练标签；基于参考特征、参考标签、训练特征和训练标签对待训练模型进行优化，得到目标视频处理模型。

其中，蒸馏训练数据是用于进行知识蒸馏（knowledge distillation）训练的数据集，本申请实施例中，蒸馏训练数据可以是从有监督数据和无监督数据中至少一种中采样得到的，具体可以是对各个增强数据集进行采样得到的。

参考模型是结果用作参考的模型，也可以称为教师模型，待训练模型是希望训练的目标模型，本申请实施例中待训练模型的结构可以与训练后视频处理模型的模型结构相同，也可以与训练后视频处理模型的模型结构不同，具体可以相比于训练后视频处理模型的模型结构更加简单，参数更少，待训练模型会通过训练来逐渐调整自己的参数，以便更好地拟合参考模型的知识。

参考特征可以是参考模型输出的多模态融合特征；训练特征可以是待训练模型输出的多模态融合特征；参考标签可以是参考模型输出的预测结果；训练标签可以是待训练模型输出预测结果。

具体的，针对N个训练后视频处理模型，计算机设备可以将蒸馏训练数据中的各视频的图像数据、文本数据和音频数据分别输入该N个训练后视频处理模型，通过训练后视频处理模型的特征提取网络对输入数据进行特征提取得到各视频的参考特征，并将参考特征输入训练后视频处理模型的预测网络，通过预测网络输出预测标签；以及将蒸馏训练数据输入待训练模型，通过待训练模型的特征提取网络对输入数据进行特征提取得到各视频的训练特征，并将训练特征输入待训练模型的预测网络，通过预测网络输出训练标签，并基于参考特征、参考标签、训练特征和训练标签确定训练损失值，基于训练损失值对待训练模型的参数进行优化，得到目标视频处理模型。

上述实施例中，计算机设备通过以至少两个训练后视频处理模型为参考模型对蒸馏训练数据进行处理，得到参考特征和参考标签；通过待训练模型对蒸馏训练数据进行处理，得到训练特征和训练标签；基于参考特征、参考标签、训练特征和训练标签对待训练模型进行优化，得到目标视频处理模型，从而可以将多个参考模型的知识传递给待训练模型，可以使待训练模型更加精细地学***衡造成的问题，比如某些类别的样本较少，蒸馏可以帮助模型更好地学习少数类别的特征，从而提高在少数类别上的性能。

在一个实施例中，计算机设备基于参考特征、参考标签、训练特征和训练标签对待训练模型进行优化，得到目标视频处理模型的过程具体包括以下步骤：基于参考特征和训练特征确定特征损失值；基于参考标签和训练标签确定标签损失值；基于特征损失值和标签损失值，对待训练模型进行参数优化，直至达到收敛条件，得到目标视频处理模型。

具体的，计算机设备在得到N个训练后视频处理模型的参考特征和参考标签之后，可以基于N个参考特征确定目标参考特征，以及基于N个参考标签确定目标参考标签，并确定目标参考特征和训练特征之间的特征差异，基于特征差异确定特征损失值，确定目标参考标签和训练标签之间标签差异，基于标签差异确定标签损失值，并获取特征损失值对应的特征损失权重，以及标签损失值对应的标签损失权重，基于特征损失值、特征损失权重、标签损失值和标签损失权重，确定训练损失值，基于训练损失值对待训练模型的模型参数进行调整，直至达到收敛条件，得到目标视频处理模型。

在一个实施例中，计算机设备基于N个参考特征确定目标参考特征，以及基于N个参考标签确定目标参考标签具体可以是，确定N个参考特征的特征平均值，将该特征平均值确定为目标参考特征，以及确定N个参考标签的标签平均值，将该标签平均值确定为目标参考标签。

在一个实施例中，训练损失值、特征损失值、特征损失权重、标签损失值和标签损失权重之间满足以下关系：

其中，L _kd表示训练损失值，F ^teacher是训练后视频处理模型的融合特征向量，F ^student是待训练模型的融合特征向量，p ^teacher训练后视频处理模型对各个分类类别预测的预测分数（logits），p ^student是待训练模型对各个分类类别预测的预测分数，α和β分别表示特征损失和标签损失所对应的损失权重，这里会根据不同数据进行调整，一般都设置成0.5。

上述实施例中，计算机设备通过联合考虑特征损失和标签损失，可以使模型更全面地学习数据的特征和模式，从而提高模型的泛化能力，由于特征损失和标签损失都提供了有效的梯度信息，模型在训练过程中很可能更快地收敛到一个较优的状态，减少了训练时间和资源的浪费。

在另一个实施例中，计算机设备通过基于至少两个训练后视频处理模型确定目标视频处理模型的过程包括以下步骤：确定至少两个训练后视频处理模型分别对应的性能评分；基于性能评分从至少两个训练后视频处理模型中选取目标视频处理模型。

其中，性能评分是用来衡量不同训练后视频处理模型在特定任务上的表现指标，具体可以是准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1分数（F1 Score）中的至少一种，具体可以根据实际情况来选择合适的评价指标，准确率是分类器正确分类的样本数与总样本数之比，精确率是指被分类器正确判断为正类的样本数占所有被分类为正类的样本数的比例，召回率是指被分类器正确判断为正类的样本数占所有实际正类样本数的比例，F1分数是精确率和召回率的调和平均值，可以综合考虑精确性和覆盖率，F1分数越高，表示模型在同时考虑了精确率和召回率方面的表现越好。

具体的，计算机设备可以获取测试数据集，并将测试数据集输入各训练后视频处理模型，针对任意一个训练后视频处理模型，其通过特征提取网络对输入数据进行特征提取和预测，得到预测结果，并根据预测结果确定相应的训练后视频处理模型的准确率、精确率、召回率、F1分数中的至少一个指标，从而得到各个训练后视频处理模型的性能评分，并对各训练后视频处理模型的性能评分进行排序，基于排序结果从至少两个训练后视频处理模型中选取目标视频处理模型，例如可以按照性能评分由大到小的顺序进行排序，将排序第一的训练后视频处理模型确定为目标视频处理模型。

上述实施例中，计算机设备通过对多个训练后模型进行性能评分，能够更客观地评估每个模型的性能表现，通过性能评分选择模型可以在训练结束后迅速进行决策，节省时间和资源，使模型的部署和应用更加高效。

在一个实施例中，如图6所示，还提供了一种视频处理模型的处理方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S602，获取有监督数据；有监督数据包括视频的多模态数据和视频对应的标签信息。

S604，通过初始视频处理模型对多模态数据进行特征处理，得到初始多模态融合特征。

S606，基于初始多模态融合特征生成初始预测结果。

S608，基于初始预测结果和标签信息对初始视频处理模型进行优化，得到视频处理模型。

S610，对无监督数据进行数据采样，得到不同数据分布的无监督采样集。

S612，通过视频处理模型对各无监督采样集进行处理，得到各无监督采样集的预测标签。

S614，将有监督数据与各无监督采样集进行融合，将融合所得的各结果进行数据增强处理，得到各数据分布的增强数据集。

S616，基于各增强数据集和预测标签分别对视频处理模型进行对抗训练，得到至少两个训练后视频处理模型。

S618，以至少两个训练后视频处理模型为参考模型对蒸馏训练数据进行处理，得到参考特征和参考标签。

S620，通过待训练模型对蒸馏训练数据进行处理，得到训练特征和训练标签。

S622，基于参考特征、参考标签、训练特征和训练标签对待训练模型进行优化，得到目标视频处理模型。

本申请还提供一种应用场景，该应用场景可以是视频标注场景，该应用场景应用视频处理模型的处理方法所得到的目标视频处理模型，具体的终端可以展示有如图7所示上传页面，用户可以在该页面将本地的视频文件上传至服务器，服务器可以基于部署的目标视频处理模型对上传的视频文件进行内容标签预测，如图8所示，展示预测概率前5的标注标签及相应的概率，并给出最终的预测标注标签；此外用户还可以在终端所展示的视频搜索页面（如图9所示）输入标注标签，终端响应于标注标签的输入操作生成视频搜索请求，并将视频搜索请求发送给服务器，服务器基于视频搜索请求所携带的标注标签进行视频搜索，并将搜索结果返回给终端展示。

本申请还提供一种应用场景，该应用场景具体可以是视频分类和打标的任务场景，该应用场景应用上述的视频处理模型的处理方法，如图10所示，该方法包括以下步骤：

步骤1：采用监督数据训练初始模型M0。

在视频分类和打标项目中，能获得少量的标注数据，如视频内容审核业务中的人工审核结果，这部分数据通常被称为监督数据，首先在这部分监督数据上训练初始模型M0，M0可以是任意一种多模态分类器，如NextVLAD（Next ector of Locally AggregatedDescriptors，局部聚合描述符的下一个向量）、ALPRO（Audio-Visual LearningandReasoning from Partial Observations，基于部分观测的视听学习与推理）或METER（Multimodal Embeddings for Temporal Reasoning，多模态时间推理的嵌入），本应用场景选用了Transformer多模态模型架构，并在模型结构上做了改进，增加了一个音频分支，用于处理视频中丰富的声音信息，具体模型结构如图11所示，分别对视频的标题文本、发文作者账号、OCR（Optical CharacterRecognition，光学字符识别）识别结果、ASR（AutomaticSpeech Recognition，自动语音识别）识别结果、图像帧和音频信息进行了建模，分别运用了BERT、Video Swin-Transformer和VGGNet来提取文本、视频帧和音频特征，然后用Transformer网络来做多模态特征融合，所提出的模型既可以用于视频分类任务，也可以用于视频打标任务。

步骤2：对无监督数据做不同数据分布的采样，得到采样集S1，S2，……，SK，用初始模型M0对各采样集做推理，得到对应的伪标签。

实际业务中，通常能够获得大量的没有标注数据，如数据库里日常存储的大量短视频数据，具体包含了视频帧、音频、视频标题、发文作者账号等信息，这部分数据通常被称为无监督数据。

为了获得差异化的半监督模型，对大量的无监督数据做了不同数据分布的采样，如按照视频的类别分布进行均匀和均衡采样，按照视频中各个标签的分布进行均匀和均衡采样，按照不同时间段对视频进行均匀和均衡采样，采样后的数据集分别记作S1，S2，……，SK，其中，K为采样分布的总数，即数据集的总数。然后采用步骤1中得到的模型M0对各采样集做推理，以获得相应的伪标签，后续半监督训练会将伪标签当作真实的标注参与训练。

步骤3：分别融合监督数据和上一步的采样集S1~SK，构造训练集D1，D2，……，DK，并对各个模态的数据做数据增强和对抗训练，得到模型M1，M2，……，MK。

将监督数据分别与步骤2中的不同采样数据集S1，S2，……，SK进行融合，获得训练集D1，D2，……，DK，然后分别在这些数据上进行模型训练。

在模型训练的过程中，对视频的各个模态都做了较强的数据增强，如对于视频帧模态，引入了图像亮度变换、随机裁剪图像、随机将不同帧的图像做融合，随机添加图像黑块等方法；对于文本模态，引入了随机对文本进行替换、缩写、随机去掉文本的一部分字符等方法；对于音频模型，引入了随机将音频的部分信息进行抹除、随机变换频率等方法。

另外，还在特征维度上引入了对抗训练，以进一步提升模型的鲁棒性。具体来说，在模型的文本特征向量F _t、图像帧特征向量F _i和音频特征向量F _a上分别添加一个对抗的扰动向量f _t、f _i、f _a，然后用新的向量F _t+f _t、F _i+f _i、F _a+f _a，替代原有的向量来F _t、F _i、F _a做对抗训练。经过对抗训练之后，模型对各个模态的变化更加鲁棒。

步骤4：对模型M1~MK构造的混合专家***做蒸馏，获得模型V。

考虑到上线部署的成本，对模型M1，M2，……，MK构造的混合专家***进行知识蒸馏，这样可以用单个模型来拟合多个模型构成的混合专家***的综合效果。

具体可以以混合的专家***作为老师模型，单个模型V作为学生模型，对模型的特征层和分类输出层同时做蒸馏。对于同一个输入视频，模型M1，M2，……，MK可能会给出不同的分类和标签结果，对所有模型的输出概率值做平均，这个平均分值作为混合专家***的输出结果。

步骤5：用模型V替换初始模型M0，并重新执行从无监督数据采样的步骤，直到模型收敛。

用模型V替换初始模型M0，重复步骤2-步骤5直到模型收敛，即模型V在分类和打标上的效果不再提升。这个模型V就是最终训练得到的模型，可以直接部署上线。

此外，在实际的某应用视频数据上做了验证，验证结果如图12所示，在这个验证实验里，监督的视频数有1万个，无监督视频数总共取了200万个，分类类别总数有28个，标签类别总数共有6万+个。方法一仅用有监督数据训练了视频分类和打标模型，由于监督数据量较少，模型效果较差。方法二采用了业界常规的半监督方案，从图12可以看出，本申请实施例提供的处理方法所得到的目标视频处理模型在处理视频分类任务时，比于仅用监督数据的方法和业界常规半监督方法均提升明显，算法在分类上的准确率上达到90.5%，标签的准确率上达到85.0%，标签的召回率上达到70.4%，满足了业务上线的需求。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频处理模型的处理方法的视频处理模型的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频处理模型的处理装置实施例中的具体限定可以参见上文中对于视频处理模型的处理方法的限定，在此不再赘述。

在一个实施例中，如图13所示，提供了一种视频处理模型的处理装置，包括：数据采样模块1302、标签预测模块1304、数据增强模块1306、对抗训练模块1308和模型确定模块1310，其中：

数据采样模块1302，用于对无监督数据进行数据采样，得到不同数据分布的无监督采样集；

标签预测模块1304，通过视频处理模型对各无监督采样集进行处理，得到各无监督采样集的预测标签；视频处理模型是基于多模态的有监督数据训练得到的；

数据增强模块1306，将有监督数据与各无监督采样集进行融合，并将融合所得的各结果进行数据增强处理，得到各数据分布的增强数据集；

对抗训练模块1308，用于基于各增强数据集和预测标签分别对视频处理模型进行对抗训练，得到至少两个训练后视频处理模型；

模型确定模块1310，用于基于至少两个训练后视频处理模型确定目标视频处理模型；目标视频处理模型用于依据视频处理请求执行视频处理任务。

上述实施例中，通过使用多模态的有监督数据和无监督数据来训练视频处理模型，可以充分利用不同数据源的信息，使得模型更好地理解视频并进行更准确的处理；并且通过数据增强可以在不增加实际数据量的情况下，生成更多的样本，从而提升模型的泛化性能；对抗训练可以帮助模型更好地应对各种干扰和扰动，从而提高模型的鲁棒性；从无监督数据中采样不同数据分布的无监督采样集用于训练，可以避免数据分布不均匀导致的模型性能差；根据不同数据分布的融合数据集分别训练视频处理模型，得到至少两个训练后视频处理模型，不同的训练后视频处理模型会专门针对数据的某些特定方面进行优化，基于至少两个训练后视频处理模型确定目标视频处理模型，可以进一步提高目标视频处理模型的性能，使得目标视频处理模型在依据视频处理请求执行视频处理任务时能够对视频处理的更加准确。

在一个实施例中，如图14所示，装置还包括初始模型训练模块1312，用于：获取有监督数据；有监督数据包括视频的多模态数据和视频对应的标签信息；通过初始视频处理模型对多模态数据进行特征处理，得到初始多模态融合特征；基于初始多模态融合特征生成初始预测结果；基于初始预测结果和标签信息对初始视频处理模型进行优化，得到视频处理模型。

在一个实施例中，无监督采样集包括视频的图像数据、视频的文本数据和视频的音频数据；标签预测模块1304，还用于：通过视频处理模型对无监督采样集中各视频的图像数据、文本数据和音频数据进行多模态特征处理，得到多模态融合特征；基于多模态融合特征生成无监督采样集中各视频的预测标签。

在一个实施例中，视频处理模型包括图像特征处理分支、文本特征处理分支、音频特征处理分支和特征融合网络；标签预测模块1304，还用于：通过图像特征处理分支提取图像数据的特征，得到图像特征；通过文本特征处理分支提取文本数据的特征，得到文本特征；通过音频特征处理分支提取音频数据的特征，得到音频特征；通过特征融合网络对图像特征、文本特征和音频特征进行特征融合，得到多模态融合特征。

在一个实施例中，视频处理模型包括类别预测分支和内容预测分支；预测标签包括预测分类标签和预测内容标签；标签预测模块1304，还用于：将多模态融合特征输入类别预测分支以进行分类，得到无监督采样集中各视频的预测分类标签；将多模态融合特征输入内容预测分支以进行标注，得到无监督采样集中各视频的预测内容标签。

在一个实施例中，数据分布包括第一数据分布和第二数据分布；数据采样模块1302，还用于：获取采样维度；按照采样维度对无监督数据进行均匀采样，得到第一无监督采样集，第一无监督采样集属于第一数据分布；按照采样维度对无监督数据的进行均衡采样，得到第二无监督采样集，第二无监督采样集属于第二数据分布；其中，采样维度、第一无监督采样集和第二无监督采样集的数量相同，且为至少一个。

在一个实施例中，结果中包括图像数据、文本数据和音频数据；增强数据集包括增强图像数据、增强文本数据和增强音频数据；数据增强模块1306，还用于：对图像数据进行图像增强处理，得到图像增强数据；图像增强处理包括亮度调整处理、图像裁剪处理和图像融合处理中的至少一种；对文本数据进行文本增强处理，得到文本增强数据；文本增强处理包括字符替换处理、字符缩写处理和字符删除处理中的至少一种；对音频数据进行音频增强处理，得到音频增强数据；音频增强处理包括信息抹除处理、频率变换处理中的至少一种。

在一个实施例中，增强数据集的数量和视频处理模型的数量相同，且为N个，N为大于或等于二；对抗训练模块1308，还用于：针对每个视频处理模型和每个增强数据集，通过视频处理模型对增强数据集中各视频的图像数据、文本数据和音频数据进行对抗扰动特征提取，得到各视频的对抗扰动融合特征；基于对抗扰动融合特征生成对抗预测结果；基于对抗预测结果、预测标签和有监督数据的标签信息对视频处理模型进行优化；在完成每个视频处理模型的优化后，得到N个训练后视频处理模型。

在一个实施例中，对抗训练模块1308，还用于：通过视频处理模型对增强数据集中各视频的图像数据、文本数据和音频数据进行特征提取，得到各视频的增强图像特征、增强文本特征和增强视频特征；分别对增强图像特征、增强文本特征和增强音频特征进行对抗扰动处理，得到对抗扰动图像特征、对抗扰动文本特征和对抗扰动音频特征；对对抗扰动图像特征、对抗扰动文本特征和对抗扰动音频特征进行特征融合，得到各视频的对抗扰动融合特征。

在一个实施例中，模型确定模块1310，还用于：以至少两个训练后视频处理模型为参考模型对蒸馏训练数据进行处理，得到参考特征和参考标签；通过待训练模型对蒸馏训练数据进行处理，得到训练特征和训练标签；基于参考特征、参考标签、训练特征和训练标签对待训练模型进行优化，得到目标视频处理模型。

在一个实施例中，模型确定模块1310，还用于：基于参考特征和训练特征确定特征损失值；基于参考标签和训练标签确定标签损失值；基于特征损失值和标签损失值，对待训练模型进行参数优化，直至达到收敛条件，得到目标视频处理模型。

在一个实施例中，模型确定模块1310，还用于：确定至少两个训练后视频处理模型分别对应的性能评分；基于性能评分从至少两个训练后视频处理模型中选取目标视频处理模型。

上述视频处理模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频处理模型的处理方法。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频处理模型的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取有监督数据；所述有监督数据包括视频的多模态数据和所述视频对应的标签信息；

通过初始视频处理模型对所述多模态数据进行特征处理，得到初始多模态融合特征；

基于所述初始多模态融合特征生成初始预测结果；

基于所述初始预测结果和所述标签信息对所述初始视频处理模型进行优化，得到所述视频处理模型。

3.根据权利要求1所述的方法，其特征在于，所述无监督采样集包括视频的图像数据、所述视频的文本数据和所述视频的音频数据；

所述通过视频处理模型对各所述无监督采样集进行处理，得到各所述无监督采样集的预测标签，包括：

通过视频处理模型对所述无监督采样集中各所述视频的所述图像数据、所述文本数据和所述音频数据进行多模态特征处理，得到多模态融合特征；

基于所述多模态融合特征生成所述无监督采样集中各所述视频的预测标签。

4.根据权利要求3所述的方法，其特征在于，所述视频处理模型包括图像特征处理分支、文本特征处理分支、音频特征处理分支和特征融合网络；所述通过视频处理模型对所述无监督采样集中各所述视频的所述图像数据、所述文本数据和所述音频数据进行多模态特征处理，得到多模态融合特征，包括：

通过所述图像特征处理分支提取所述图像数据的特征，得到图像特征；

通过所述文本特征处理分支提取所述文本数据的特征，得到文本特征；

通过所述音频特征处理分支提取所述音频数据的特征，得到音频特征；

通过所述特征融合网络对所述图像特征、所述文本特征和所述音频特征进行特征融合，得到多模态融合特征。

5.根据权利要求3所述的方法，其特征在于，所述视频处理模型包括类别预测分支和内容预测分支；所述预测标签包括预测分类标签和预测内容标签；

所述基于所述多模态融合特征生成所述无监督采样集中各所述视频的预测标签，包括：

将所述多模态融合特征输入所述类别预测分支以进行分类，得到所述无监督采样集中各所述视频的预测分类标签；

将所述多模态融合特征输入所述内容预测分支以进行标注，得到所述无监督采样集中各所述视频的预测内容标签。

6.根据权利要求1所述的方法，其特征在于，所述数据分布包括第一数据分布和第二数据分布；所述对无监督数据进行数据采样，得到不同数据分布的无监督采样集，包括：

获取采样维度；

按照所述采样维度对无监督数据进行均匀采样，得到第一无监督采样集，所述第一无监督采样集属于所述第一数据分布；

按照所述采样维度对所述无监督数据的进行均衡采样，得到第二无监督采样集，所述第二无监督采样集属于所述第二数据分布；

其中，所述采样维度、所述第一无监督采样集和所述第二无监督采样集的数量相同，且为至少一个。

7.根据权利要求1所述的方法，其特征在于，所述结果中包括图像数据、文本数据和音频数据；所述增强数据集包括增强图像数据、增强文本数据和增强音频数据；所述将融合所得的各结果进行数据增强处理，得到各所述数据分布的增强数据集，包括：

对所述图像数据进行图像增强处理，得到图像增强数据；所述图像增强处理包括亮度调整处理、图像裁剪处理和图像融合处理中的至少一种；

对所述文本数据进行文本增强处理，得到文本增强数据；所述文本增强处理包括字符替换处理、字符缩写处理和字符删除处理中的至少一种；

对所述音频数据进行音频增强处理，得到音频增强数据；所述音频增强处理包括信息抹除处理、频率变换处理中的至少一种。

8.根据权利要求1所述的方法，其特征在于，所述增强数据集的数量和所述视频处理模型的数量相同，且为N个，N为大于或等于二；所述基于各所述增强数据集和所述预测标签分别对所述视频处理模型进行对抗训练，得到至少两个训练后视频处理模型，包括：

针对每个所述视频处理模型和每个所述增强数据集，通过所述视频处理模型对所述增强数据集中各视频的图像数据、文本数据和音频数据进行对抗扰动特征提取，得到各所述视频的对抗扰动融合特征；

基于所述对抗扰动融合特征生成对抗预测结果；

基于所述对抗预测结果、所述预测标签和所述有监督数据的标签信息对所述视频处理模型进行优化；

在完成每个所述视频处理模型的优化后，得到N个训练后视频处理模型。

9.根据权利要求8所述的方法，其特征在于，所述通过所述视频处理模型对所述增强数据集中各视频的图像数据、文本数据和音频数据进行对抗特征提取，得到各所述视频的对抗扰动融合特征，包括：

通过所述视频处理模型对所述增强数据集中各视频的图像数据、文本数据和音频数据进行特征提取，得到各所述视频的增强图像特征、增强文本特征和增强视频特征；

分别对所述增强图像特征、所述增强文本特征和所述增强音频特征进行对抗扰动处理，得到对抗扰动图像特征、对抗扰动文本特征和对抗扰动音频特征；

对所述对抗扰动图像特征、所述对抗扰动文本特征和所述对抗扰动音频特征进行特征融合，得到各所述视频的对抗扰动融合特征。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述基于所述至少两个训练后视频处理模型确定目标视频处理模型，包括：

以所述至少两个训练后视频处理模型为参考模型对蒸馏训练数据进行处理，得到参考特征和参考标签；

通过待训练模型对所述蒸馏训练数据进行处理，得到训练特征和训练标签；

基于所述参考特征、所述参考标签、所述训练特征和所述训练标签对所述待训练模型进行优化，得到目标视频处理模型。

11.根据权利要求10所述的方法，其特征在于，所述基于所述参考特征、所述参考标签、所述训练特征和所述训练标签对所述待训练模型进行优化，得到目标视频处理模型，包括：

基于所述参考特征和所述训练特征确定特征损失值；

基于所述参考标签和所述训练标签确定标签损失值；

基于所述特征损失值和所述标签损失值，对所述待训练模型进行参数优化，直至达到收敛条件，得到目标视频处理模型。

12.根据权利要求1至9中任一项所述的方法，其特征在于，所述基于所述至少两个训练后视频处理模型确定目标视频处理模型，包括：

确定所述至少两个训练后视频处理模型分别对应的性能评分；

基于所述性能评分从所述至少两个训练后视频处理模型中选取目标视频处理模型。

13.一种视频处理模型的处理装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。