CN113449700A

CN113449700A - 视频分类模型的训练、视频分类方法、装置、设备及介质

Info

Publication number: CN113449700A
Application number: CN202111001173.1A
Authority: CN
Inventors: 班寅虓; 谯睿智; 任博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-09-28
Anticipated expiration: 2041-08-30
Also published as: CN113449700B

Abstract

本申请公开了一种视频分类模型的训练、视频分类方法、装置、设备及介质，涉及人工智能技术领域中的计算机视觉技术。该视频分类模型的训练方法包括：获取样本视频和视频分类模型，样本视频对应有分类标签，视频分类模型包括至少两个视频分类子模型；调用各个视频分类子模型分别对样本视频进行分类，得到各个视频分类子模型分别输出的参考特征和视频分类结果；基于各个视频分类子模型分别对应的第一损失函数和第二损失函数，获取目标损失函数；利用目标损失函数对各个视频分类子模型进行训练，得到目标视频分类模型。此方式，扩展了训练过程所利用的监督信息，训练效果较好，根据训练得到的目标视频分类模型对视频进行分类的准确性较高。

Description

视频分类模型的训练、视频分类方法、装置、设备及介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种视频分类模型的训练、视频分类方法、装置、设备及介质。

背景技术

随着人工智能技术的发展，越来越多的应用场景调用视频分类模型对视频进行分类，以确定出视频对应的类别。视频对应的类别可以指示视频中的行为、场景等。

相关技术中，直接根据分类结果损失函数对视频分类模型进行训练，分类结果损失函数用于指示视频分类模型预测的视频分类结果和分类标签之间的差异。分类结果损失函数仅能从视频分类结果和分类标签之间的差异的角度提供监督信息，训练过程所利用的监督信息较局限，训练效果不佳，根据训练得到的视频分类模型对视频进行分类的准确性较低。

发明内容

本申请实施例提供了一种视频分类模型的训练、视频分类方法、装置、设备及介质，可用于提高视频分类模型的训练效果，提高视频分类模型的分类准确性。

一方面，本申请实施例提供了一种视频分类模型的训练方法，所述方法包括：

获取样本视频和视频分类模型，所述样本视频对应有分类标签，所述视频分类模型包括至少两个视频分类子模型；

调用各个视频分类子模型分别对所述样本视频进行分类，得到所述各个视频分类子模型分别输出的参考特征和视频分类结果；

基于所述各个视频分类子模型分别对应的第一损失函数和第二损失函数，获取目标损失函数；利用所述目标损失函数对所述各个视频分类子模型进行训练，得到目标视频分类模型；

其中，第一视频分类子模型对应的第一损失函数用于衡量所述第一视频分类子模型输出的视频分类结果与所述分类标签之间的差异，所述第一视频分类子模型对应的第二损失函数用于衡量所述第一视频分类子模型输出的第一参考特征与各个第二参考特征之间的差异，所述第一视频分类子模型为所述各个视频分类子模型中的任一视频分类子模型，所述各个第二参考特征为所述各个视频分类子模型中除所述第一视频分类子模型外的各个视频分类子模型输出的参考特征。

还提供了一种视频分类方法，所述方法包括：

获取待处理视频和目标视频分类模型，所述目标视频分类模型包括至少两个目标视频分类子模型，所述目标视频分类模型利用视频分类模型中的各个视频分类子模型分别对应的第一损失函数和第二损失函数对所述各个视频分类子模型进行训练得到；

调用所述至少两个目标视频分类子模型中的满足选取条件的参考视频分类子模型对所述待处理视频进行分类，得到所述参考视频分类子模型输出的参考视频分类结果；

基于所述参考视频分类结果，确定所述待处理视频对应的类别。

另一方面，提供了一种视频分类模型的训练装置，所述装置包括：

第一获取单元，用于获取样本视频和视频分类模型，所述样本视频对应有分类标签，所述视频分类模型包括至少两个视频分类子模型；

第二获取单元，用于调用各个视频分类子模型分别对所述样本视频进行分类，得到所述各个视频分类子模型分别输出的参考特征和视频分类结果；

第三获取单元，用于基于所述各个视频分类子模型分别对应的第一损失函数和第二损失函数，获取目标损失函数；

训练单元，用于利用所述目标损失函数对所述各个视频分类子模型进行训练，得到目标视频分类模型；

在一种可能实现方式中，所述第三获取单元，用于获取多元性约束损失函数，所述多元性约束损失函数用于增强所述各个视频分类子模型分别输出的参考特征之间的多元性；基于所述各个视频分类子模型分别对应的第一损失函数、第二损失函数以及所述多元性约束损失函数，获取所述目标损失函数。

在一种可能实现方式中，所述第三获取单元，还用于基于所述各个第二参考特征，获取第一待学习结果；基于所述第一参考特征和所述第一待学习结果，获取所述第一视频分类子模型对应的第二损失函数。

在一种可能实现方式中，所述装置还包括：

第四获取单元，用于获取所述各个视频分类子模型输出的参考特征分别对应的转化结果；

所述第三获取单元，还用于基于所述各个第二参考特征分别对应的转化结果，获取第一待学习结果；基于所述第一参考特征对应的转化结果和所述第一待学习结果，获取所述第一视频分类子模型对应的第二损失函数。

在一种可能实现方式中，所述第三获取单元，还用于获取所述各个第二参考特征分别与所述第一参考特征的关联系数；基于所述各个第二参考特征以及所述各个第二参考特征分别与所述第一参考特征的关联系数，获取所述第一待学习结果。

在一种可能实现方式中，所述第三获取单元，还用于获取所述第一参考特征对应的第一注意力信息；获取任一第二参考特征对应的第二注意力信息；基于所述第一参考特征对应的第一注意力信息和所述任一第二参考特征对应的第二注意力信息，获取所述任一第二参考特征与所述第一参考特征的关联系数。

在一种可能实现方式中，所述各个视频分类子模型中存在利用目标处理模块替换基础视频分类模型中的参考模块得到的视频分类子模型，所述目标处理模块具有的计算复杂度低于所述参考模块具有的计算复杂度，所述基础视频分类模型为用于实现视频分类的单分支模型。

在一种可能实现方式中，所述第一获取单元，用于对原始视频执行时间上的数据增强或空间上的数据增强中的至少一种数据增强，得到所述样本视频。

还提供了一种视频分类装置，所述装置包括：

第一获取单元，用于获取待处理视频和目标视频分类模型，所述目标视频分类模型包括至少两个目标视频分类子模型，所述目标视频分类模型利用视频分类模型中的各个视频分类子模型分别对应的第一损失函数和第二损失函数对所述各个视频分类子模型进行训练得到；

第二获取单元，用于调用所述至少两个目标视频分类子模型中的满足选取条件的参考视频分类子模型对所述待处理视频进行分类，得到所述参考视频分类子模型输出的参考视频分类结果；

确定单元，用于基于所述参考视频分类结果，确定所述待处理视频对应的类别。

在一种可能实现方式中，所述满足选取条件的参考视频分类子模型为未对所述待处理视频进行处理的各个目标视频分类子模型中具有的计算复杂度最小的目标视频分类子模型；所述确定单元，用于响应于所述参考视频分类结果满足参考条件，基于所述参考视频分类结果，确定所述待处理视频对应的类别。

在一种可能实现方式中，所述确定单元，还用于响应于所述参考视频分类结果不满足所述参考条件，从未对所述待处理视频进行处理的各个目标视频分类子模型中确定新的参考视频分类子模型，调用所述新的参考视频分类子模型对所述待处理视频进行分类，得到所述新的参考视频分类子模型输出的新的参考视频分类结果，直至得到满足所述参考条件的参考视频分类结果，基于所述满足所述参考条件的参考视频分类结果，确定所述待处理视频对应的类别。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述计算机设备实现上述任一所述的视频分类模型的训练方法或视频分类方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使计算机实现上述任一所述的视频分类模型的训练方法或视频分类方法。

另一方面，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行上述任一所述的视频分类模型的训练方法或视频分类方法。

本申请实施例提供的技术方案至少带来如下有益效果：

本申请实施例提供的技术方案中，视频分类模型包括至少两个视频分类子模型，用于对各个视频分类子模型进行训练的目标损失函数是根据各个视频分类子模型分别对应的第一损失函数和第二损失函数获取的。视频分类子模型对应的第一损失函数能够从视频分类结果与分类标签之间的差异的角度提供监督信息，视频分类子模型对应的第二损失函数能够从视频分类子模型输出的参考特征之间的差异的角度提供监督信息，扩展了训练过程所利用的监督信息，有利于提高视频分类模型的训练效果，进而提高根据训练得到的目标视频分类模型对视频进行分类的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种视频分类模型的训练方法的流程图；

图3是本申请实施例提供的一种目标处理模块中的第一循环神经网络、第二循环神经网络和第三循环神经网络的处理过程的示意图；

图4是本申请实施例提供的一种视频分类模型的结构的示意图；

图5是本申请实施例提供的一种视频分类方法的流程图；

图6是本申请实施例提供的一种视频分类应用场景的示意图；

图7是本申请实施例提供的一种视频分类模型的训练装置的示意图；

图8是本申请实施例提供的一种视频分类模型的训练装置的示意图；

图9是本申请实施例提供的一种视频分类装置的示意图；

图10是本申请实施例提供的一种服务器的结构示意图；

图11是本申请实施例提供的一种终端的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在示例性实施例中，本申请实施例提供的视频分类模型的训练方法和视频分类方法能够应用于人工智能技术领域。接下来对人工智能技术进行介绍。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。本申请实施例提供的视频分类模型的训练方法和视频分类方法涉及计算机视觉技术和机器学习技术。

计算机视觉（Computer Vision，CV）技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR（Optical Character Recognition，光学字符识别）、视频处理、视频语义理解、视频内容/行为识别、视频分类、三维物体重建、3D（Three Dimensional，三维）技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在示例性实施例中，本申请实施例中提供的视频分类模型的训练方法和视频分类方法在区块链***中实现，本申请实施例提供的视频分类模型的训练方法中涉及的样本视频、样本视频对应的分类标签以及目标视频分类模型等，以及视频分类方法中涉及的待处理视频、待处理视频对应的类别等均保存在区块链***中的区块链上，供区块链***中的各个节点设备应用，以保证数据的安全性和可靠性。

图1示出了本申请实施例提供的实施环境的示意图。该实施环境包括：终端11和服务器12。

本申请实施例提供的视频分类模型的训练可以由终端11执行，也可以由服务器12执行，还可以由终端11和服务器12共同执行，本申请实施例对此不加以限定。对于本申请实施例提供的视频分类模型的训练由终端11和服务器12共同执行的情况，服务器12承担主要计算工作，终端11承担次要计算工作；或者，服务器12承担次要计算工作，终端11承担主要计算工作；或者，服务器12和终端11二者之间采用分布式计算架构进行协同计算。

本申请实施例提供的视频分类方法可以由终端11执行，也可以由服务器12执行，还可以由终端11和服务器12共同执行，本申请实施例对此不加以限定。对于本申请实施例提供的视频分类方法由终端11和服务器12共同执行的情况，服务器12承担主要计算工作，终端11承担次要计算工作；或者，服务器12承担次要计算工作，终端11承担主要计算工作；或者，服务器12和终端11二者之间采用分布式计算架构进行协同计算。

本申请实施例提供的视频分类模型的训练方法和视频分类方法可以由相同的设备执行，也可以由不同的设备执行，本申请实施例对此不加以限定。

在一种可能实现方式中，终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC（Personal Computer，个人计算机）、手机、智能手机、PDA（Personal Digital Assistant，个人数字助手）、可穿戴设备、PPC（Pocket PC，掌上电脑）、平板电脑、智能车机、智能电视、智能音箱、车载终端等。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供一种视频分类模型的训练方法，该视频分类模型的训练方法由计算机设备执行，该计算机设备可以为服务器12，也可以为终端11，本申请实施例对此不加以限定。如图2所示，本申请实施例提供的视频分类模型的训练方法包括如下步骤201至步骤203。

在步骤201中，获取样本视频和视频分类模型，样本视频对应有分类标签，视频分类模型包括至少两个视频分类子模型。

样本视频是指训练视频分类模型所需的视频。样本视频是由参考数量个视频帧构成的视频，参考数量个视频帧在时序上是存在先后关系的。参考数量根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定，例如，参考数量为16，也即，一个样本视频中包括16个视频帧。示例性地，样本视频为一种包括时间维度、宽维度、高维度和通道维度的数据。示例性地，包括时间维度、宽维度、高维度和通道维度的数据需要利用3D网络进行处理。也就是说，本申请实施例中的视频分类模型为一种3D网络模型。

在示例性实施例中，本申请实施例中提到的样本视频是指对视频分类模型训练一次所依据的样本视频，样本视频的数量可以为一个，也可以为多个，本申请实施例对此不加以限定。示例性地，样本视频的数量为多个，以保证模型训练效果。示例性地，对于样本视频的数量为多个的情况，不同的样本视频中的视频帧的数量相同，以保证模型的训练效果。

样本视频对应有分类标签，分类标签用于指示样本视频实际对应的类别。本申请实施例对样本视频对应的分类标签的表示形式不加以限定，示例性地，样本视频对应的分类标签利用样本视频实际对应的类别的标识信息表示，如，类别的名称、类别的代码等。示例性地，样本视频实际对应的类别用于描述样本视频中的内容。示例性地，样本视频实际对应的类别为候选类别中的类别，候选类别根据经验设置，或者根据实际的应用场景灵活调整，本申请实施例对此不加以限定。

需要说明的是，一个样本视频实际对应的类别可能为一个或多个，本申请实施例对此不加以限定，例如，若一个样本视频中的内容为表演者弹奏乐器，则该样本视频实际对应的类别为弹奏乐器；或者，若一个样本视频中的内容为某人边散步边唱歌，则该样本视频实际对应的类别为散步和唱歌。

本申请实施例对获取样本视频的方式不加以限定，示例性地，计算机设备获取样本视频的方式为：计算机设备从视频库中提取样本视频。示例性地，计算机获取样本视频的方式为：计算机设备从视频数据集中提取样本视频，如，视频数据集为kinetics（一种视频数据集）数据集，如，kinetics-200、kinetics-400、kinetics-600。

示例性地，计算机设备获取样本视频的方式为：计算机设备通过对原始视频进行处理，得到样本视频。原始视频可以是指视频库中的视频。在一种可能实现方式中，计算机设备通过对原始视频进行处理，得到样本视频的方式为：计算机设备对原始视频执行时间上的数据增强或空间上的数据增强中的至少一种数据增强，得到样本视频。通过对一个原始视频进行处理，能够得到一个或多个样本视频，这与实际处理过程有关，本申请实施例对此不加以限定。通过对多个原始视频进行处理，能够得到用于训练视频分类模型所需的样本视频。

在得到原始视频后，可以利用视频处理工具（如，FFmpeg）获取原始视频中的视频帧的信息，如，视频帧的尺寸、各个视频帧分别对应的时间点等，然后通过时间上的数据增强或空间上的数据增强中的至少一种数据增强，将一整段完整的原始视频切分为一个个样本视频，以将样本视频输入视频分类模型进行特定长度的视频帧的处理。在示例性实施例中，对原始视频进行处理的过程可以通过编写代码（如，dataloader代码）实现，示例性地，每个样本视频可以称为一个clip（修剪）。

时间上的数据增强用于增强样本视频在时间上的随机性，空间上的数据增强用于增强样本视频在空间上的随机性。本申请实施例对时间上的数据增强方式以及空间上的数据增强方式不加以限定，可以根据实际的应用场景灵活设置。

在示例性实施例中，时间上的数据增强方式为：在待处理视频中随机选定一个视频帧作为起始视频帧，从该起始视频帧开始截取连续的参考数量的视频帧构成一个样本视频。参考数量为一个样本视频中需要包括的视频帧的数量。示例性地，待处理视频可以是指原始视频，也可以是指对原始视频执行空间上的数据增强后得到的视频。

在示例性实施例中，空间上的数据增强方式包括但不限于：根据参考尺寸进行裁剪、帧数据归一化、帧数据抖动偏移中的至少一种。参考尺寸是指样本视频中的视频帧的尺寸，参考尺寸根据经验设置，或者根据应用场景灵活调整，本申请实施例对此加以限定。根据参考尺寸进行裁剪可以是指根据参考尺寸进行中心裁剪，也可以是指根据参考尺寸进行随机裁剪等，本申请实施例对此不加以限定。根据参考尺寸进行中心裁剪是指从待处理视频的视频帧的中心处裁剪参考尺寸的视频帧。根据参考尺寸进行随机裁剪是指从待处理视频的视频帧中随机选取裁剪中心，从该裁剪中心处裁剪参考尺寸的视频帧。待处理视频可以是指原始视频，也可以是指对原始视频执行时间上的数据增强后得到的视频。

示例性地，帧数据归一化是指利用待处理视频的视频帧中的各个像素点的像素值的均值和标准差对待处理视频的视频帧中的各个像素点的像素值进行归一化，以使待处理视频的视频帧中的各个像素点的像素值更加规范。示例性地，帧数据抖动偏移是指对待处理视频的视频帧的亮度、对比度、饱和度、色相中的至少一个进行随机偏移。

一个样本视频可能是通过对一个原始视频仅执行时间上的数据增强得到的，也可能是通过对一个原始视频仅执行空间上的数据增强得到的，还可能是通过对一个原始视频执行时间上的数据增强和空间上的数据增强得到的，本申请实施例对此不加以限定。对于一个样本视频是通过对一个原始视频执行时间上的数据增强和空间上的数据增强得到的情况，本申请实施例对执行时间上的数据增强和空间上的数据增强的先后顺序不加以限定。

视频分类模型是指待训练的用于实现视频分类的模型，本申请实施例中的视频分类模型包括至少两个视频分类子模型，以通过额外考虑至少两个视频分类子模型之间的互学习，实现对模型的训练，提高模型的训练效果。视频分类模型中的每个视频分类子模型均能够实现对样本视频进行分类，输出参考特征和视频分类结果的功能。

本申请实施例对视频分类模型的结构不加以限定。示例性地，视频分类模型仅包括至少两个视频分类子模型；示例性地，视频分类模型包括一个底层卷积模型和至少两个视频分类子模型。在确定视频分类模型的结构之后，构建得到视频分类模型。视频分类模型中的各个部分的参数可以是随机初始化的参数，也可以是通过在其他分类任务中进行预训练得到的参数，本申请实施例对此不加以限定。

本申请实施例对每个视频分类子模型的结构不加以限定，不同视频分类子模型的结构可以相同，也可以不同。需要说明的是，无论结构是否相同，不同的视频分类子模型输出的参考特征尺寸相同，不同的视频分类子模型输出的视频分类结果尺寸相同，以保证不同的视频分类子模型输出的参考特征之间的可比性以及不同的视频分类子模型输出的视频分类结果之间的可比性。

在示例性实施例中，各个视频分类子模型均为基础视频分类模型，该基础视频分类模型为用于实现视频分类的单分支模型。例如，基础视频分类模型为3D ResNet（Residual Network，残差网络）模型（如，3D ResNet 18、3D ResNet 34等）、C3D（Convolutional 3D，三维卷积）模型等。

在示例性实施例中，各个视频分类子模型中存在利用目标处理模块替换基础视频分类模型中的参考模块得到的视频分类子模型，其中，目标处理模块具有的计算复杂度低于参考模块具有的计算复杂度，基础视频分类模型为用于实现视频分类的单分支模型。某一模块具有的计算复杂度用于指示利用该模块进行处理所需的计算量。本申请实施例对计算复杂度的衡量指标不加以限定，示例性地，计算复杂度的衡量指标为FLOPs（Floating-point Operations Per second，每秒浮点运算次数）、MACCs（Multiply-Accumulateoperations，乘-加操作，也可称为MAdds）。

也就是说，视频分类模型中的各个视频分类子模型中有一个或多个视频分类子模型是通过利用目标处理模块替换基础视频分类模型中的参考模块后得到的，此种利用目标处理模块替换基础视频分类模型中的参考模块后得到的视频分类子模型具有的计算复杂度低于基础视频分类模型具有的计算复杂度。

在示例性实施例中，将利用目标处理模块替换视频分类模型中的参考模块得到的视频分类子模型称为指定视频分类子模型，对于一个指定视频分类子模型而言，目标处理模块的类型以及降采样倍数根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。示例性地，目标处理模块的类型为基于循环神经网络（Recurrent NeuralNetwork，RNN）的池化算子，例如，目标处理模块为RNN Pooling 3D（三维循环神经网络池化）模块。示例性地，RNN Pooling 3D模块是通过对二维的RNN Pooling模块进行时间维度的拓展得到的模块，RNN Pooling 3D能够处理包括时间维度的视频数据。在示例性实施例中，拓展方法是利用Fast GRNN（Fast Generalized Regression Neural Network，快速广义回归神经网络）将二维的RNN Pooling模块所得到的帧的特征在时间维度上去融合。

目标处理模块的降采样倍数用于指示目标处理模块将输入信息的时间数、高度和宽度缩小的倍数。基础视频分类模型中的被目标处理模块替换的参考模块的降采样倍数与目标处理模块的降采样倍数相同。示例性地，目标处理模块的降采样倍数为2倍、4倍、8倍等。在示例性实施例中，基础视频分类模型中被目标处理模块替换的参考模块在基础视频分类模型中所处的位置根据经验设置，或者根据实际的应用场景灵活调整，本申请实施例对此不加以限定，只要保证参考模块的降采样倍数与目标处理模块的降采样倍数相同即可。被目标处理模块替换的参考模块可以由一个或多个子模块构成，本申请实施例对此不加以限定。

对于各个视频分类子模型中存在多个指定视频分类子模型的情况，获取不同的指定视频分类子模型所利用的目标处理模块的类型可以相同，也可以不同；获取不同的指定视频分类子模型所利用的目标处理模型的降采样倍数可以相同，也可以不同，本申请实施例对此不加以限定。获取不同的指定视频分类子模型所依据的基础视频分类模型的类型可以相同，也可以不同。若获取不同的指定视频分类子模型所利用的目标处理模块的降采样倍数不同，则所依据的基础视频分类模型中被目标处理模块替换的参考模块的降采样倍数也不同。

在一种可能实现方式中，不同的视频分类子模型具有的计算复杂度不同，以便于从多元性的角度强化不同的视频分类子模型之间的互学习。

在步骤202中，调用各个视频分类子模型分别对样本视频进行分类，得到各个视频分类子模型分别输出的参考特征和视频分类结果。

在获取样本视频和视频分类模型后，调用视频分类模型中的各个视频分类子模型分别对样本视频进行分类，得到各个视频分类子模型分别输出的参考特征和视频分类结果。任一视频分类子模型输出的视频分类结果用于指示任一视频分类分类子模型预测的样本视频属于各个候选类别的概率。候选类别根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。在示例性实施例中，任一视频分类分类子模型预测的样本视频属于各个候选类别的概率之和为1。

各个视频分类子模型分别输出的参考特征为用于实现各个视频分类子模型之间的互学习所依据的结果，各个视频分类子模型分别输出的参考特征为相同类型、相同尺寸的结果，以保证可比性。本申请实施例对视频分类子模型输出的参考特征不加以限定。示例性地，每个视频分类子模型均包括特征提取层，特征提取层中包括一个或多个子特征提取层，则视频分类子模型输出的参考特征可以是指视频分类子模型中的特征提取层中的某个模块提取的特征，如，特征提取层中的最后一个模块提取的特征（可称为高层特征）。无论哪种情况，不同视频分类子模型输出的参考特征均为相同类型、相同尺寸的结果。在示例性实施例中，还可以将视频分类结果作为参考特征。

在一种可能实现方式中，根据视频分类模型的结构的不同，调用各个视频分类子模型分别对样本视频进行分类的方式有所不同。在示例性实施例中，视频分类模型是由各个样本视频分类子模型并列构成的多分支模型，此种情况下，直接将样本视频分别输入各个视频分类子模型进行分类。

在示例性实施例中，视频分类模型是由底层卷积模型和各个并列的样本视频分类子模型构成的，此种情况下，先将样本视频输入视频分类模型中的底层卷积模型进行卷积，得到样本视频的基础特征，然后调用视频分类模型中的各个视频分类子模型分别对样本视频的基础特征进行分类。此种方式，各个视频分类子模型共享底层卷积模型输出的样本视频的基础特征，能够一定程度上减小计算复杂度。

调用视频分类子模型对样本视频进行分类的过程为视频分类子模型的内部处理过程，不同的视频分类子模型的内部处理过程可能相同，也可能不同，这与不同的视频分类子模型的结构是否相同有关。

在示例性实施例中，视频分类子模型中可能包括多个串联的模块，调用视频分类子模型对样本视频进行分类的过程是指利用视频分类子模型中的各个模块级联的进行分类的过程，第一个模块的输入信息为视频分类子模型的输入信息，下一个模块的输入信息为上一个模块的输出信息。

在示例性实施例中，目标处理模块为一种基于循环神经网络的池化算子，目标处理模块包括第一循环神经网络、第二循环神经网络和第三循环神经网络和通道数变换网络，目标处理模块的处理过程包括以下步骤1至步骤6。

步骤1：调用第一循环神经网络对第一分解特征中的各行子特征分别进行处理，得到各行子特征分别对应的特征；调用第一循环神经网络对第一分解特征中的各列子特征分别进行处理，得到各列子特征分别对应的特征。

其中，第一分解特征为第一特征在时间维度下分解出的各个分解特征中的任一分解特征，第一分解特征中的子特征通过对第一分解特征在宽维度和高维度下分解得到。第一特征为从输入信息中提取的与目标处理模块的降采样倍数匹配的任一特征。

示例性地，假设目标处理模块的降采样倍数为4倍，则第一特征为宽度、高度和时间数均为4的特征。第一特征在时间维度下分解出的任一分解特征为宽度和高度均为4的特征。对第一分解特征在宽维度和高维度下分解得到的第一分解特征中的子特征为宽度和高度均为1的特征，第一分解特征的每行子特征的数量为4个，共有4行；第一分解特征的每列子特征的数量为4个，共有4列。

循环神经网络用于对序列进行处理，输出序列的特征。每行子特征以及每列子特征均为输入第一循环神经网络的一个序列。调用第一循环神经网络，能够获取第一分解特征中的各行子特征分别对应的特征以及第一分解特征中的各列子特征分别对应的特征。

步骤2：调用第二循环神经网络对各行子特征分别对应的特征进行处理，得到第一分解特征对应的第一处理特征和第二处理特征；调用第二循环神经网络对各列子特征分别对应的特征进行处理，得到第一分解特征对应的第三处理特征和第四处理特征。

一行子特征对应一个特征，各行子特征对应的特征构成一个序列，第二循环神经网络对各行子特征对应的特征构成的序列进行双向遍历，得到两个特征，这两个特征分别称为第一分解特征对应的第一处理特征和第二处理特征。

同理地，一列子特征对应一个特征，各列子特征对应的特征构成一个序列，第二循环神经网络对各列子特征对应的特征构成的序列进行双向遍历，得到两个特征，这两个特征分别称为第一分解特征对应的第三处理特征和第四处理特征。

步骤3：将第一分解特征对应的第一处理特征、第二处理特征、第三处理特征和第四处理特征在通道维度进行拼接，得到第一分解特征对应的拼接特征。

示例性地，第一分解特征对应的第一处理特征、第二处理特征、第三处理特征和第四处理特征的时间数、宽度和高度均为1，通道数与输入信息的通道数相同。将第一分解特征对应的第一处理特征、第二处理特征、第三处理特征和第四处理特征在通道维度进行拼接，能够得到通道数是输入信息的通道数的4倍的拼接特征，该拼接特征为第一分解特征对应的拼接特征。

步骤4：调用第三循环神经网络对各个分解特征分别对应的拼接特征进行处理，得到第一特征对应的候选特征。

根据步骤1至3的方式能够获取第一特征的各个分解特征分别对应的拼接特征，一个分解特征对应一个拼接特征，各个分解特征分别对应的拼接特征构成一个序列。第三循环神经网络对各个分解特征分别对应的拼接特征构成的序列进行处理，得到第一特征对应的候选特征，第一特征对应的候选特征的宽度为第一特征的宽度的1/Q，第一特征对应的候选特征的高度为第一特征的高度的1/Q，第一特征对应的候选特征的时间数为第一特征的时间数的1/Q，其中，Q是指目标处理模块的降采样倍数，示例性地，Q为2、4或8等。第一特征对应的候选特征的通道数为第一特征的通道数的4倍。

示例性地，目标处理模块中的第一循环神经网络、第二循环神经网络以及第三循环神经网络的处理过程如图3所示。

步骤5：基于从输入信息中提取的与目标处理模块的降采样倍数匹配的各个特征分别对应的候选特征，获取目标特征。

示例性地，将从输入信息中提取的与目标处理模块的降采样倍数匹配的各个特征分别对应的候选特征按照从输入信息中提取的与目标处理模块的降采样倍数匹配的各个特征在输入信息中的排列顺序进行排列，得到目标特征。

步骤6：调用通道数变换网络对目标特征的通道数进行变换，得到目标处理模块的输出信息。

目标特征的通道数为输入信息的通道数的4倍，调用通道数变换网络对目标特征的通道数进行变换能够将目标特征的通道数变换为参考通道数。参考通道数根据经验设置，或者根据目标处理模型的结构以及降采样倍数等灵活调整，本申请实施例对此不加以限定。

示例性地，通过目标处理模块，能够获取样本视频的降采样特征信息，目标处理模块是基于RNN的池化算子，由于RNN并不是依赖于像卷积操作一样的大量并行滤波器计算，而是一种线性的顺序的时间序列的特征提取过程，所以通过目标处理模块所提取到的特征信息的计算复杂度会相对与卷积来说低很多。同时目标处理模块可以设置不同的参数来获得不同降采样倍数，目标处理模块既具有降采样的功能，还具有在降采样的同时对输入信息进行特征提取的功能。

需要说明的是，本申请实施例详细叙述了用于降低计算复杂度的目标处理模型的处理过程，视频分类子模型中的其他模块的处理过程与基础视频分类模型中的相应模块的处理过程相同，可以根据获取视频分类子模型所依据的基础视频视频分类模型确定，本申请实施例对此不加以限定。

示例性地，视频分类模型的结构如图4所示，视频分类模型包括底层卷积模型以及四个并列的视频分类子模型，该底层卷积模型为Conv3D（三维卷积）模块。四个并列的视频分类子模型的计算复杂度依次下降。第一个视频分类子模型包括串联的一个Maxpool3D（三维最大池化）模块、四个Conv3D模块、一个Avgpool3D（三维平均池化）模块和一个FC（全连接）模块。第二个视频分类子模型包括串联的一个RNN Pooling 3D模块（也即目标处理模块）、三个Conv3D模块、一个Avgpool3D模块和一个FC模块，该第二个视频分类子模块中的RNN Pooling 3D模块的降采样倍数为2倍。

第三个视频分类子模型包括串联的一个RNN Pooling 3D模块（也即目标处理模块）、两个Conv3D模块、一个Avgpool3D模块和一个FC模块，该第三个视频分类子模块中的RNN Pooling 3D模块的降采样倍数为4倍。第四个视频分类子模型包括串联的一个RNNPooling 3D模块（也即目标处理模块）、一个Conv3D模块、一个Avgpool3D模块和一个FC模块，该第四个视频分类子模块中的RNN Pooling 3D模块的降采样倍数为8倍。

底层卷积模型输出的结果的尺寸为[B, 3, 16, 112, 112]，其中，B表示样本视频的数量，3表示通道数，16表示时间数，两个112分别表示高度和宽度。第一个视频分类子模型中的Maxpool3D模块输出的结果的尺寸为[B, 64, 16, 56, 56]；第一个视频分类子模型中的第一个Conv3D模块以及第二个视频分类子模型中的RNN Pooling 3D模块输出的结果的尺寸为[B, 64, 8, 28, 28]；第一个视频分类子模型中的第二个Conv3D模块、第二个视频分类子模型中的第一个Conv3D模块以及第三个视频分类子模型中的RNN Pooling 3D模块输出的结果的尺寸为[B, 128, 4, 14, 14]。

第一个视频分类子模型中的第三个Conv3D模块、第二个视频分类子模型中的第二个Conv3D模块、第三个视频分类子模型中的第一个Conv3D模块以及第四个视频分类子模型中的RNN Pooling 3D模块输出的结果的尺寸为[B, 256, 2, 7, 7]；第一个视频分类子模型中的第四个Conv3D模块、第二个视频分类子模型中的第三个Conv3D模块、第三个视频分类子模型中的第二个Conv3D模块以及第四个视频分类子模型中的Conv3D模块输出的结果的尺寸为[B, 512, 1, 4, 4]；各个视频分类子模型中的Avgpool3D模块输出的结果的尺寸均为[B, 512, 1, 1, 1]；各个视频分类子模型中的FC模块输出的结果的尺寸均为[B, C]，其中，C表示候选类别的数量。

在步骤203中，基于各个视频分类子模型分别对应的第一损失函数和第二损失函数，获取目标损失函数；利用目标损失函数对各个视频分类子模型进行训练，得到目标视频分类模型；

其中，第一视频分类子模型对应的第一损失函数用于衡量第一视频分类子模型输出的视频分类结果与分类标签之间的差异，第一视频分类子模型对应的第二损失函数用于衡量第一视频分类子模型输出的第一参考特征与各个第二参考特征之间的差异，第一视频分类子模型为各个视频分类子模型中的任一视频分类子模型，各个第二参考特征为各个视频分类子模型中除第一视频分类子模型外的各个视频分类子模型输出的参考特征。

在示例性实施例中，在执行步骤203之前，需要先获取各个视频分类子模型分别对应的第一损失函数和第二损失函数。获取各个视频分类子模型分别对应的第一损失函数的原理相同，获取各个视频分类子模型分别对应的第二损失函数的原理也相同，本申请实施例以获取第一视频分类子模型对应的第一损失函数以及第一视频分类子模型对应的第二损失函数的过程为例进行说明。其中，第一视频分类子模型为各个视频分类子模型中的任一视频分类子模型。

第一视频分类子模型对应的第一损失函数用于衡量第一视频分类子模型输出的视频分类结果与样本视频对应的分类标签之间的差异，通过考虑第一视频分类子模型对应的第一损失函数能够在模型训练的过程中利用分类标签提供的监督信息。本申请实施例对获取第一视频分类子模型对应的第一损失函数的方式不加以限定，示例性地，获取第一视频分类子模型输出的视频分类结果与分类标签的交叉熵损失函数，将该交叉熵损失函数作为第一视频分类模型对应的第一损失函数。

第一视频分类子模型对应的第二损失函数用于衡量第一视频分类子模型输出的第一参考特征与各个第二参考特征之间的差异。其中，各个第二参考特征是指各个视频分类子模型中除第一视频分类子模型外的各个视频分类子模型输出的参考特征。通过考虑第一视频分类子模型对应的第二损失函数，能够在模型训练的过程中利用除第一视频分类子模型外的其他视频分类子模型提供的监督信息。在一种可能实现方式中，第一视频分类子模型对应的第二损失函数的获取方式包括以下步骤A和步骤B。

步骤A：基于各个第二参考特征，获取第一待学习结果。

第一待学习结果为用于为第一视频分类子模型的互学习过程提供监督的结果。在一种可能实现方式中，基于各个第二参考特征，获取第一待学习结果的方式为：将各个第二参考特征的汇总结果作为第一待学习结果。

在另一种可能实现方式中，基于各个第二参考特征，获取第一待学习结果的方式为：获取各个第二参考特征分别与第一参考特征的关联系数；基于各个第二参考特征以及各个第二参考特征分别与第一参考特征的关联系数，获取第一待学习结果。此种过程，各个第二参考特征分别与第一参考特征的关联系数可以视为在获取第一待学习结果的过程中为各个第二参考特征分别赋予的注意力分数。某一第二参考特征与第一参考特征的关联系数越大，则说明该第二参考特征与第一参考特征的相似度越高，越应该在获取第一待学习结果的过程中为该第二参考特征赋予较大的注意力分分数，以便于第一视频分类子模型能够从输出该第二参考特征的视频分类子模型中学习更多的知识。此种方式能够通过考虑关联系数，减少第一视频分类子模型被关联较小的其他视频分类子模型的不利影响，提高互学习的效率。

在一种可能实现方式中，获取各个第二参考特征分别与第一参考特征的关联系数的原理相同，本申请实施例以获取任一第二参考特征与第一参考特征的关联系数的方式为例进行说明。在示例性实施例中，获取任一第二参考特征与第一参考特征的关联系数的方式为：获取第一参考特征对应的第一注意力信息；获取任一第二参考特征对应的第二注意力信息；基于第一参考特征对应的第一注意力信息和任一第二参考特征对应的第二注意力信息，获取任一第二参考特征与第一参考特征的关联系数。

在一种可能实现方式中，获取第一参考特征对应的第一注意力信息的方式为：将第一参考特征与第一注意力矩阵的乘积作为第一参考特征对应的第一注意力信息。获取任一第二参考特征对应的第二注意力信息的方式为：将任一第二参考特征与第二注意力矩阵的乘积作为任一第二参考特征对应的第二注意力信息。第一注意力矩阵和第二注意力矩阵根据经验设置，或者根据实际的应用场景灵活调整，本申请实施例对此不加以限定。示例性地，第一注意力矩阵可以称为K矩阵，第二注意力矩阵可以称为Q矩阵。

在示例性实施例中，基于第一参考特征对应的第一注意力信息和任一第二参考特征对应的第二注意力信息，获取任一第二参考特征与第一参考特征的关联系数的过程基于公式1实现。

（公式1）

其中，g_a表示第一参考特征；g_b表示任一第二参考特征；α_ab表示第二参考特征g_b与第一参考特征g_a的关联系数；K(g_a)^T表示第一参考特征g_a对应的第一注意力信息的转置；Q(g_b)表示第二参考特征g_b对应的第二注意力信息；M表示各个视频分类子模型的数量；Q(g_f)表示第f（f为不小于1且不大于M的整数）个视频分类子模型输出的参考特征对应的第二注意力信息，Q(g_f)可以参见获取任一第二参考特征对应的第二注意力信息的方式获取得到。

获取关联系数的过程可视为获取相似性的过程，也即关联系数的大小可以体现出相似性的高度。示例性地，将当前视频分类子模型输出的参考特征与其他视频分类子模型输出的参考特征进行相似性的检验，如果足够相似那么就会提升当前视频分类子模型对该其他视频分类子模型的注意力分数，那么该其他视频分类子模型与当前视频分类子模型的互学习相关度就会得到提升。若相似度差距很大，就减少注意力分数，使得该其他视频分类子模型与当前视频分类子模型的互学习相关度降低。通过此番设置，模型会自适应地多与自己相似性高的模型互学习，同时也会与相似性较小的模型互学习，前者互学习程度大，后者程度小，因此预测分布较为精准的模型不会被预测分布较为差的模型所影响，同时又能够从其他模型上学习其他模型的特征表达。

需要说明的是，根据公式1实现基于第一参考特征对应的第一注意力信息和任一第二参考特征对应的第二注意力信息，获取任一第二参考特征与第一参考特征的关联系数的方式仅为一种示例性描述，本申请实施例并不局限于此。在示例性实施例中，根据公式

实现基于第一参考特征对应的第一注意力信息和任一第二参考特征对应的第二注意力信息，获取任一第二参考特征与第一参考特征的关联系数的过程。

根据上述介绍的获取任一第二参考特征与第一参考特征的关联系数的方式能够获取各个第二参考特征分别与第一参考特征的关联系数。在获取各个第二参考特征分别与第一参考特征的关联系数后，基于各个第二参考特征以及各个第二参考特征分别与第一参考特征的关联系数，获取第一待学习结果。此过程为利用各个第二参考特征分别与第一参考特征的关联系数，对各个第二参考特征进行加权求和的过程。示例性地，基于各个第二参考特征以及各个第二参考特征分别与第一参考特征的关联系数，获取第一待学习结果的过程基于公式2实现。

（公式2）

其中，t_a表示第一待学习结果；M表示各个视频分类子模型的数量；α_ab表示第二参考特征g_b与第一参考特征g_a的关联系数；g_b表示第b（b为不小于1且不大于M-1的整数）个第二参考特征。

在另一种可能实现方式中，在获取各个视频分类子模型分别输出的参考特征后，还包括：获取各个视频分类子模型输出的参考特征分别对应的转化结果。此种情况下，基于各个第二参考特征，获取第一待学习结果的方式为：基于各个第二参考特征分别对应的转化结果，获取第一待学习结果。

任一视频分类子模型输出的参考特征对应的转化结果通过对任一视频分类子模型输出的参考特征进行转化得到，在示例性实施例中，参考特征对应的转化结果还可以称为软化结果。示例性地，对于参考特征为特征的情况，则转化结果为软化特征。在示例性实施例中，在互学习的过程中，软化结果对于模型性能的提升效果更明显。

在一种可能实现方式中，任一视频分类子模型输出的参考特征由多个元素构成，获取任一视频分类子模型输出的参考特征对应的转化结果的方式通过获取任一视频分类子模型输出的参考特征中的各个元素对应的转化元素实现。示例性地，参考特征的形式为矩阵，则参考特征由多个矩阵元素构成。示例性地，获取任一视频分类子模型输出的参考特征中的任一元素对应的转化元素的过程基于公式3实现。

（公式3）

其中，

表示视频分类子模型i输出的参考特征中的第j个元素对应的转化元素；g_ij表示视频分类子模型i输出的参考特征中的第j个元素；T为参考值，T根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定；k表示表示视频分类子模型i输出的参考特征中的任一元素。

在一种可能实现方式中，基于各个第二参考特征分别对应的转化结果，获取第一待学习结果的实现方式为：将各个第二参考特征分别对应的转化结果的汇总结果作为第一待学习结果。

在另一种可能实现方式中，基于各个第二参考特征分别对应的转化结果，获取第一待学习结果的方式为：获取各个第二参考特征分别与第一参考特征的关联系数；基于各个第二参考特征对应的转化结果以及各个第二参考特征分别与第一参考特征的关联系数，获取第一待学习结果。示例性地，该过程基于公式4实现。

（公式4）

其中，t_a表示第一待学习结果；M表示各个视频分类子模型的数量；α_ab表示第二参考特征g_b与第一参考特征g_a的关联系数；

表示第b（b为不小于1且不大于M-1的整数）个第二参考特征对应的转化结果。

步骤B：基于第一参考特征和第一待学习结果，获取第一视频分类子模型对应的第二损失函数。

在获取第一待学习结果后，基于第一参考特征和第一待学习结果，获取第一视频分类子模型对应的第二损失函数。第一视频分类子模型对应的第二损失函数用于根据第一参考特征和第一待学习结果之间的差异提供监督信息，以缩小第一参考特征与第一待学习结果之间的差距。第一参考特征与各个第二参考特征之间的差异利用第一参考特征和第一待学习结果之间的差异体现。

在一种可能实现方式中，基于第一参考特征和第一待学习结果，获取第一视频分类子模型对应的第二损失函数的方式为：获取第一参考特征和第一待学习结果之间的散度损失函数，将散度损失函数作为第一视频分类子模型对应的第二损失函数。示例性地，获取第一参考特征和第一待学习结果之间的散度损失函数的过程基于公式5实现。

（公式5）

其中，

表示第一视频分类子模型对应的第二损失函数；KL表示散度损失函数；t_a表示第一视频分类子模型对应的第一待学习结果；g_a表示第一参考特征。

在另一种可能实现方式中，基于第一参考特征和第一待学习结果，获取第一视频分类子模型对应的第二损失函数的方式为：获取第一参考特征和第一待学习结果之间的交叉熵损失函数，将交叉熵损失函数作为第一视频分类子模型对应的第二损失函数。

在另一种可能实现方式中，对于第一待学习结果是基于各个第二参考特征分别对应的转化结果获取的情况，基于第一参考特征和第一待学习结果，获取第一视频分类子模型对应的第二损失函数的方式为：基于第一参考特征对应的转化结果和第一待学习结果，获取第一视频分类子模型对应的第二损失函数。

在示例性实施例中，基于第一参考特征对应的转化结果和第一待学习结果，获取第一视频分类子模型对应的第二损失函数的方式为：获取第一参考特征对应的转化结果和第一待学习结果之间的交叉熵损失函数，将交叉熵损失函数作为第一视频分类子模型对应的第二损失函数。在示例性实施例中，基于第一参考特征对应的转化结果和第一待学习结果，获取第一视频分类子模型对应的第二损失函数的方式为：获取第一参考特征对应的转化结果和第一待学习结果之间的散度损失函数，将散度损失函数作为第一视频分类子模型对应的第二损失函数。示例性地，获取第一参考特征对应的转化结果和第一待学习结果之间的散度损失函数的过程基于公式6实现。

（公式6）

其中，

表示第一视频分类子模型对应的第二损失函数；KL表示散度损失函数；t_a表示第一视频分类子模型对应的第一待学习结果；

表示第一参考特征对应的转化结果。

根据获取第一视频分类子模型对应的第一损失函数的方式能够获取各个视频分类子模型分别对应的第一损失函数，根据获取第一视频分类子模型对应的第二损失函数的方式能够获取各个视频分类子模型分别对应的第二损失函数。

在获取各个视频分类子模型分别对应的第一损失函数以及第二损失函数后，基于各个视频分类子模型分别对应的第一损失函数和第二损失函数，获取目标损失函数，以便于利用目标损失函数对各个视频分类子模型进行训练。此种方式获取的目标损失函数是通过综合考虑视频分类子模型输出的视频分类结果与分类标签之间的差异以及视频分类子模型输出的参考特征与其他视频分类子模型输出的参考特征之间的差异得到的损失函数，不仅能够提供视频分类结果与分类标签之间的差异方面的监督信息，还能够提供其他视频分类子模型与当前视频分类子模型输出的参考特征之间的差异方面的监督信息，目标损失函数提供的监督信息较丰富，有利于提高模型的训练效果。

在一种可能实现方式中，基于各个视频分类子模型分别对应的第一损失函数和第二损失函数，获取目标损失函数的方式为：直接基于各个视频分类子模型分别对应的第一损失函数和第二损失函数，获取目标损失函数。此种方式，无需获取其他方面的损失函数，获取目标函数的效率较高。

在示例性实施例中，直接基于各个视频分类子模型分别对应的第一损失函数和第二损失函数，获取目标损失函数的方式为：对各个视频分类子模型分别对应的第一损失函数进行加权求和，得到第一值；对各个视频分类子模型分别对应的第二损失函数进行加权求和，得到第二；对第一值和第二值进行加权求和，得到目标损失函数。对各个视频分类子模型分别对应的第一损失函数进行加权求和的过程中为各个视频分类子模型分别对应的第一损失函数赋予的权重根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。例如，为各个视频分类子模型分别对应的第一损失函数赋予的权重均为1，则对各个视频分类子模型分别对应的第一损失函数进行加权求和的过程即为对各个视频分类子模型分别对应的第一损失函数直接求和的过程。

同理地，对各个视频分类子模型分别对应的第二损失函数进行加权求和的过程中为各个视频分类子模型分别对应的第二损失函数赋予的权重，以及对第第一值和第二值进行加权求和的过程中为第一值和第二值赋予的权重根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。

在另一种可能实现方式中，基于各个视频分类子模型分别对应的第一损失函数和第二损失函数，获取目标损失函数的过程为：获取多元性约束损失函数，多元性约束损失函数用于增强各个视频分类子模型分别输出的参考特征之间的多元性；基于各个视频分类子模型分别对应的第一损失函数、第二损失函数以及多元性约束损失函数，获取目标损失函数。此种方式，多元性约束损失函数能够起到约束随着互学习各个视频分类子模型之间越来越相似的现象。目标损失函数除了能够提供视频分类结果与分类标签之间的差异方面的监督信息以及互学习方面的监督信息外，还能够提供多元性约束方面的监督信息。从而能够在强化多元性的基础上提高互学习效率，提升模型训练效果。

在示例性实施例中，获取多元性约束损失函数的过程基于公式7实现。

（公式7）

其中，

表示多元性损失约束损失函数；KL表示散度损失函数；g_p表示第p（p为不小于1且不大于M的整数）个视频分类子模型输出的参考特征；g_q表示第q（q为不小于1且不大于M的整数）个视频分类子模型输出的参考特征；p与q不相等。

在一种可能实现方式中，基于各个视频分类子模型分别对应的第一损失函数、第二损失函数以及多元性约束损失函数，获取所述目标损失函数的过程为：对各个视频分类子模型分别对应的第一损失函数进行加权求和，得到第一值；对各个视频分类子模型分别对应的第二损失函数进行加权求和，得到第二值；对第一值、第二值以及多元性约束损失函数进行加权求和，得到目标损失函数。

需要说明的是，上述基于各个视频分类子模型分别对应的第一损失函数、第二损失函数以及多元性约束损失函数，获取述目标损失函数的方式仅为一种示例性描述，本申请实施例并不局限于此，还可以通过其他方式实现基于各个视频分类子模型分别对应的第一损失函数、第二损失函数以及多元性约束损失函数，获取目标损失函数的过程。

在获取目标损失函数之后，利用目标损失函数对各个视频分类子模型进行训练，得到目标视频分类模型。示例性地，利用目标损失函数对各个视频分类子模型进行训练的方式为：利用目标损失函数反向更新各个视频分类子模型的模型参数。

在示例性实施例中，视频分类模型中除包括各个视频分类子模型外，还包括其他需要更新参数的模型或模块（如，底层卷积模型），则利用目标损失函数对各个视频分类子模型进行训练的方式为：利用目标损失函数对各个视频分类子模型以及其他需要更新参数的模型或模块进行训练。也就是说，利用目标损失函数反向更新各个视频分类子模型以及其他需要更新参数的模型或模块的参数。

在示例性实施例中，目标视频分类模型为训练好的视频分类模型，获取目标视频分类模型的过程为迭代训练过程，每利用目标损失函数对各个视频分类子模型训练一次，则判断一次是否满足训练终止条件；若满足训练终止条件，则将当前的视频分类模型作为目标视频分类模型；若不满足训练终止条件，则根据步骤201至步骤203的方式继续获取新的目标损失函数，利用新的目标损失函数继续对各个视频分类子模型进行训练，以此类推，直至满足训练终止条件，将满足训练终止条件时得到的视频分类模型作为训练好的目标视频分类模型。

在示例性实施例中，满足训练终止条件包括以下任一种：训练次数达到次数阈值；目标损失函数收敛；目标损失函数小于损失函数阈值。次数阈值以及损失函数阈值根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。

在获取目标视频分类模型之后，能够利用目标视频分类模型实现对待处理视频的分类，利用目标视频分类模型实现对待处理视频的分类的过程参见图5所示的实施例，此处暂不赘述。

在示例性实施例中，通过计算完整视频级别的分类正确率来衡量视频分类模型的分类性能。示例性地，一个完整视频被裁剪为多个相同大小的验证视频，将这个多个验证视频的分类结果求平均值得到一个平均预测分类结果，将平均预测分类结果中的最大概率类别作为完整视频的类别。示例性地，以视频分类模型的结构如图4所示为例，在kinetics-200数据集上进行了关于损失函数的消融实验，实验结果如表1所示。

表1

其中，1loss是指仅利用各个视频分类子模型对应的第一损失函数进行训练；2loss是指利用各个视频分类子模型对应的第一损失函数和第二损失函数进行训练；3loss是指利用各个视频分类子模型对应的第一损失函数、第二损失函数以及多元性约束损失函数进行训练。经过损失函数数量的消融实验可知，本申请实施例提供的方法下，每一个损失函数可以实现平均性能的提升，互学***均性能近4%的提升。

在示例性实施例中，在图4所示的模型结构下，各个视频分类子模型具有的计算复杂度对比结果如表2所示。

表2

根据表2可知，包括2倍降采样、4倍降采样以及8倍降采样的目标处理模块的视频分类子模型都能带来1~4倍的FLOPs的计算复杂度的下降。结合表可知，在降低计算复杂度的同时，保留了比基础视频分类模型更优的模型性能。

在示例性实施例中，本申请实施例提出了一种基于目标处理模块（如，RNNPooling 3D模块）的多样性增强的互学习视频分类方法，为了尽可能地降低3D网络的模型复杂度，构建了RNN Pooling 3D模块的3D网络替代架构，从而可以将3D网络中的图像降采样过程通过RNN Pooling 3D去处理，在降低网络计算复杂度的同时保留较为竞争力的性能。

此外，为了在保留模型性能的基础上进一步提高模型泛化性，采用多个视频分类子模型互学习（也可称为知识互蒸馏）的方式来提高模型性能。多个视频分类子模型可以通过设置不同降采样倍数的RNN Pooling 3D模块而具有不同的计算复杂度，通过在多个视频分类子模型之间进行互学习来验证互学习的有效性和泛化性。此外，设计一个多元性约束损失函数来进一步增强模型的推理性能。此种方式，通过使多个视频分类子模型之间关注更加多元化的特征，再用注意力机制指导下的互学习将多元化的特征分享给其他的视频分类子模型，从而通过互学习使得各个视频分类子模型都可以找到相对更小的损失函数收敛值。

本申请实施例提供的RNN架构+互学习的视频分类模型方法相对新颖且可以在降低模型计算复杂度的同时增强模型的算法性能，使之具有比相关技术中的模型更优的性能。在注意力机制的基础上，进一步提升网络之间的多元性，能够进一步提升模型的学习空间从而进一步提升模型性能。在提升多元性角度，可以设置多个不同计算复杂度的视频分类子模型，还可以设计多元性约束损失函数来约束模型的特征学习，从而在注意力模型的基础上进一步提升特征学习的多元性，从而进一步提升互学习效率，提高模型精度。

基于上述图1所示的实施环境，本申请实施例提供一种视频分类方法，该视频分类方法由计算机设备执行，该计算机设备可以为服务器12，也可以为终端11，本申请实施例对此不加以限定。如图5所示，本申请实施例提供的图视频分类方法包括如下步骤501至步骤503。

在步骤501中，获取待处理视频和目标视频分类模型，目标视频分类模型包括至少两个目标视频分类子模型，目标视频分类模型利用视频分类模型中的各个视频分类子模型分别对应的第一损失函数和第二损失函数对各个视频分类子模型进行训练得到。

待处理视频是指需要进行分类的视频，本申请实施例对待处理视频的获取方式不加以限定，示例性地，计算机设备从本地获取待处理视频；或者，计算机设备接收人工上传的待处理视频等。在示例性实施例中，待处理视频中的视频帧的尺寸以及视频帧的数量与图2所示的实施例中的样本视频中的视频帧的尺寸以及视频帧的数量相同，以保证利用样本数量训练得到的目标视频分类模型能够对待处理视频进行较为准确地分类。

目标视频分类模型是指训练好的用于对视频进行分类的模型，目标视频分类模型包括至少两个目标视频分类子模型。目标视频分类模型的结构参见图2所示的实施例中对待训练的视频分类模型的结构的介绍，此处不再赘述。在示例性实施例中，目标视频分类模型利用视频分类模型中的各个视频分类子模型分别对应的第一损失函数和第二损失函数对各个视频分类子模型进行训练得到，该步骤501中的获取目标视频分类模型可以是指实时训练得到目标视频分类模型，也可以是指提取预先训练得到并存储的目标视频分类模型，本申请实施例对此不加以限定。训练得到目标视频分类模型的方式参见图2所示的实施例，此处不再赘述。

在步骤502中，调用至少两个目标视频分类子模型中的满足选取条件的参考视频分类子模型对待处理视频进行分类，得到参考视频分类子模型输出的参考视频分类结果。

满足选取条件的参考视频分类子模型是指目标视频分类模型中用于对待处理视频进行分类的目标视频分类子模型。目标视频分类模型中的哪个或哪些目标视频分类子模型满足选取条件根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。

在示例性实施例中，目标视频分类模型中的全部目标视频分类子模型均为满足参考条件的参考视频分类子模型。也就是说，满足选取条件的参考视频分类子模型是指全部的目标视频分类子模型。

在示例性实施例中，满足选取条件的参考视频分类子模型为未对待处理视频进行处理的各个目标视频分类子模型中具有的计算复杂度最小的目标视频分类子模型。此种方式，能够减少对待处理视频进行分类的计算复杂度。

在确定出满足选取条件的参考视频分类子模型后，调用满足选取条件的参考视频分类子模型对待处理视频进行分类，得到满足选取条件的参考视频分类子模型输出的参考视频分类结果，该过程的实现方式参见图2所示的实施例中的步骤202，此处不再赘述。

在示例性实施例中，对于满足选取条件的参考视频分类子模型为未对待处理视频进行处理的各个目标视频子模型中具有的计算复杂度最小的目标视频分类子模型的情况，在获取参考视频分类结果后，判断参考视频分类结果是否满足参考条件，若参考视频分类结果满足参考条件，则执行步骤503。

本申请实施例对判断参考视频分类结果是否满足参考条件的方式不加以限定。示例性地，参考视频分类结果满足参考条件是指参考视频分类结果满足概率条件和模型条件中的至少一个。示例性地，模型条件用于对获取参考视频分类结果所调用的目标视频分类子模型进行约束，示例性地，满足模型条件是指参考视频分类结果是通过调用计算复杂度最大的目标视频分类子模型获取的。

示例性地，概率条件用于对参考视频分类结果指示的概率进行约束。示例性地，若参考视频分类结果指示的最大概率小于第一阈值，则确定参考视频分类结果不满足概率条件；若参考视频分类结果指示的最大概率不小于第一阈值，则确定参考视频分类结果满足概率条件。第一阈值根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。

示例性地，若参考视频分类结果指示的第K（K为不小于2的整数）大的概率小于第二阈值，则确定参考视频分类结果不满足概率条件；若参考视频分类结果指示的第K大概率不小于第二阈值，则确定参考视频分类结果满足概率条件。K的取值以及第二阈值根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。

在步骤503中，基于参考视频分类结果，确定待处理视频对应的类别。

满足选取条件的参考视频分类子模型的数量为一个或多个，每个参考视频分类子模型均会输出一个参考视频分类结果，也就是说，参考视频分类结果的数量为一个或多个。

在示例性实施例中，对于参考视频分类结果的数量为一个的情况，基于参考视频分类结果，确定待处理视频对应的类别的方式为：基于参考视频分类结果，确定满足第一条件的候选类别，将满足第一条件的候选类别作为待处理视频对应的类别。在示例性实施例中，参考视频分类结果用于指示待处理视频分别对应各个候选类别的概率，响应于参考视频分类结果指示待处理视频对应某一候选类别的概率不低于概率阈值，则将该候选类别作为一个满足第一条件的候选类别。概率阈值根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定，例如，概率阈值为0.7。

在示例性实施例中，对于参考视频分类结果的数量为多个的情况，基于参考视频分类结果，确定待处理视频对应的类别的方式为：获取多个参考视频分类结果的平均分类结果；基于平均分类结果，确定待处理视频对应的类别。平均分类结果用于指示待处理视频对应各个候选类别的平均概率，基于平均分类结果，确定待处理视频对应的类别的方式参见参考视频分类结果的数量为一个的情况下，基于参考视频分类结果，确定待处理视频对应的类别的方式，此处不再赘述。

在示例性实施例中，对于满足选取条件的目标视频分类子模型为未对待处理视频进行处理的各个目标视频分类子模型中具有的计算复杂度最小的目标视频分类子模型的情况，该步骤503的实现方式为：响应于参考视频分类结果满足参考条件，基于参考视频分类结果，确定待处理视频对应的类别。也就是说，在参考视频分类结果满足参考条件的情况下，再执行基于参考视频分类结果，确定待处理视频对应的类别的步骤。

在示例性实施例中，参考视频分类结果还可能不满足参考条件。若参考视频分类结果不满足参考条件，则说明利用当前计算复杂度最小的目标视频分类子模型对待处理视频进行分类，无法获取满足需求的视频分类结果。此种情况下，响应于参考视频分类结果不满足参考条件，从未对待处理视频进行处理的各个目标视频分类子模型中确定新的参考视频分类子模型，调用新的参考视频分类子模型对待处理视频进行分类，得到新的参考视频分类子模型输出的新的参考视频分类结果，直至得到满足参考条件的参考视频分类结果，基于满足参考条件的参考视频分类结果，确定待处理视频对应的类别。

基于此种将未对待处理视频进行处理的各个目标视频分类子模型中具有的计算复杂度最小的目标视频分类子模型作为满足选取条件的参考视频分类子模型，以及在参考视频分类结果不满足参考条件的情况下，继续利用下一个满足选取条件的参考视频分类子模型进行分类的方式，能够从计算复杂度最小的视频分类子模型开始进行分类，若计算复杂度最小的视频分类子模型能够输出满足参考条件的参考视频分类结果，则直接根据参考视频分类结果确定待处理视频对应的类别，无需调用其他视频分类子模型进行分类，确定待处理视频对应的类别所需的计算复杂度较小，有利于提高效率。

也就是说，目标分类模型提供多种计算复杂度的视频分类子模型供调用，先从计算复杂度小的视频分类子模型开始调用，依次提高计算复杂度，直至得到满足参考条件的参考视频分类结果。此种方式有利于在较小的计算复杂度的基础上实现较高的分类性能从而能够将视频分类模型部署在移动设备上，降低视频分类应用的落地难度。

本申请实施例提供的视频分类能够识别视频中行为或是场景。视频分类的应用场景较为广泛。比如，如图6中的（a）所示，某些设备中具备手势交互技术，通过设备的摄像头捕捉跟踪用户的手势视频，通过对手势视频进行分类，能够识别出用户的手势，从而完成用户的手势命令。如图6中的（b）所示，通过对用户的动作视频进行分类，能够识别出用户所做的动作，如，举左手、举右手等。如图6中的（c）所示，一些设备（如，体感游戏设备、运动教学设备）具有姿态交互功能，通过对用户的姿态视频进行分类，能够识别出用户的姿态，然后通过将用户的姿态与标准姿态进行比对实现对用户的智能评分，从而实现对体感游戏、运动教学任务的辅助与监督。

示例性地，如图6中的（d）所示，通过视频检测，检测出视频中的两个用户，利用检测框标记出两个用户在视频帧中的位置，将用户在每个视频帧中所在的区域截取出来构成该用户的子视频，通过对两个用户的子视频分别进行视频分类，能够得到两个用户的子视频分别可能对应的类别。图6中的（d）中，在原视频中标记出了两个用户的子视频分别可能对应的类别以及对应类别的概率，以便于查看。

本申请实施例提供的技术方案中，目标视频分类模型是根据各个视频分类子模型分别对应的第一损失函数和第二损失函数训练得到的。视频分类子模型对应的第一损失函数能够从视频分类结果与分类标签之间的差异的角度提供监督信息，视频分类子模型对应的第二损失函数能够从视频分类子模型输出的参考特征之间的差异的角度提供监督信息，训练过程所利用的监督信息较丰富，目标视频分类模型的训练效果较好，根据目标视频分类模型对视频进行分类的准确性较高。

参见图7，本申请实施例提供了一种视频分类模型的训练装置，该装置包括：

第一获取单元701，用于获取样本视频和视频分类模型，样本视频对应有分类标签，视频分类模型包括至少两个视频分类子模型；

第二获取单元702，用于调用各个视频分类子模型分别对样本视频进行分类，得到各个视频分类子模型分别输出的参考特征和视频分类结果；

第三获取单元703，用于基于各个视频分类子模型分别对应的第一损失函数和第二损失函数，获取目标损失函数；

训练单元704，用于利用目标损失函数对各个视频分类子模型进行训练，得到目标视频分类模型；

在一种可能实现方式中，第三获取单元703，用于获取多元性约束损失函数，多元性约束损失函数用于增强各个视频分类子模型分别输出的参考特征之间的多元性；基于各个视频分类子模型分别对应的第一损失函数、第二损失函数以及多元性约束损失函数，获取目标损失函数。

在一种可能实现方式中，第三获取单元703，还用于基于各个第二参考特征，获取第一待学习结果；基于第一参考特征和第一待学习结果，获取第一视频分类子模型对应的第二损失函数。

在一种可能实现方式中，参见图8，该装置还包括：

第四获取单元705，用于获取各个视频分类子模型输出的参考特征分别对应的转化结果；

第三获取单元703，还用于基于各个第二参考特征分别对应的转化结果，获取第一待学习结果；基于第一参考特征对应的转化结果和第一待学习结果，获取第一视频分类子模型对应的第二损失函数。

在一种可能实现方式中，第三获取单元703，还用于获取各个第二参考特征分别与第一参考特征的关联系数；基于各个第二参考特征以及各个第二参考特征分别与第一参考特征的关联系数，获取第一待学习结果。

在一种可能实现方式中，第三获取单元703，还用于获取第一参考特征对应的第一注意力信息；获取任一第二参考特征对应的第二注意力信息；基于第一参考特征对应的第一注意力信息和任一第二参考特征对应的第二注意力信息，获取任一第二参考特征与第一参考特征的关联系数。

在一种可能实现方式中，各个视频分类子模型中存在利用目标处理模块替换基础视频分类模型中的参考模块得到的视频分类子模型，目标处理模块具有的计算复杂度低于参考模块具有的计算复杂度，基础视频分类模型为用于实现视频分类的单分支模型。

在一种可能实现方式中，第一获取单元701，用于对原始视频执行时间上的数据增强或空间上的数据增强中的至少一种数据增强，得到样本视频。

参见图9，本申请实施例提供了一种视频分类装置，该装置包括：

第一获取单元901，用于获取待处理视频和目标视频分类模型，目标视频分类模型包括至少两个目标视频分类子模型，目标视频分类模型利用视频分类模型中的各个视频分类子模型分别对应的第一损失函数和第二损失函数对各个视频分类子模型进行训练得到；

第二获取单元902，用于调用至少两个目标视频分类子模型中的满足选取条件的参考视频分类子模型对待处理视频进行分类，得到参考视频分类子模型输出的参考视频分类结果；

确定单元903，用于基于参考视频分类结果，确定待处理视频对应的类别。

在一种可能实现方式中，满足选取条件的参考视频分类子模型为未对待处理视频进行处理的各个目标视频分类子模型中具有的计算复杂度最小的目标视频分类子模型；确定单元903，用于响应于参考视频分类结果满足参考条件，基于参考视频分类结果，确定待处理视频对应的类别。

在一种可能实现方式中，确定单元903，还用于响应于参考视频分类结果不满足参考条件，从未对待处理视频进行处理的各个目标视频分类子模型中确定新的参考视频分类子模型，调用新的参考视频分类子模型对待处理视频进行分类，得到新的参考视频分类子模型输出的新的参考视频分类结果，直至得到满足参考条件的参考视频分类结果，基于满足参考条件的参考视频分类结果，确定待处理视频对应的类别。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行，以使该计算机设备实现上述任一种视频分类模型的训练方法或视频分类方法。该计算机设备可以为服务器，也可以为终端，本申请实施例对此不加以限定。接下来，分别对服务器和终端的结构进行介绍。

图10是本申请实施例提供的一种服务器的结构示意图，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器（Central Processing Units，CPU）1001和一个或多个存储器1002，其中，该一个或多个存储器1002中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器1001加载并执行，以使该服务器实现上述各个方法实施例提供的视频分类模型的训练方法或视频分类方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

图11是本申请实施例提供的一种终端的结构示意图。示例性地，该终端可以是：PC、手机、智能手机、PDA、可穿戴设备、PPC、平板电脑、智能车机、智能电视、智能音箱、车载终端等。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（CentralProcessing Unit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以集成有GPU，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行，以使该终端实现本申请中方法实施例提供的视频分类模型的训练方法或视频分类方法。

在一些实施例中，终端还可选包括有：***设备接口1103和至少一个***设备。处理器1101、存储器1102和***设备接口1103之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1103相连。具体地，***设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。

***设备接口1103可被用于将I/O（Input/Output，输入/输出）相关的至少一个***设备连接到处理器1101和存储器1102。射频电路1104用于接收和发射RF（RadioFrequency，射频）信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。显示屏1105用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。摄像头组件1106用于采集图像或视频。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。定位组件1108用于定位终端的当前地理位置，以实现导航或LBS（Location Based Service，基于位置的服务）。电源1109用于为终端中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。

在一些实施例中，终端还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。陀螺仪传感器1112可以检测终端的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端的3D动作。压力传感器1113可以设置在终端的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端的侧边框时，可以检测用户对终端的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。

指纹传感器1114用于采集用户的指纹，由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份，或者，由指纹传感器1114根据采集到的指纹识别用户的身份。光学传感器1115用于采集环境光强度。接近传感器1116，也称距离传感器，通常设置在终端的前面板。接近传感器1116用于采集用户与终端的正面之间的距离。

本领域技术人员可以理解，图11中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由计算机设备的处理器加载并执行，以使计算机实现上述任一种视频分类模型的训练方法或视频分类方法。

在一种可能实现方式中，上述计算机可读存储介质可以是只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、只读光盘（Compact DiscRead-Only Memory，CD-ROM）、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种视频分类模型的训练方法或视频分类方法。

需要说明的是，本申请中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以上示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频分类模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述各个视频分类子模型分别对应的第一损失函数和第二损失函数，获取目标损失函数，包括：

获取多元性约束损失函数，所述多元性约束损失函数用于增强所述各个视频分类子模型分别输出的参考特征之间的多元性；

基于所述各个视频分类子模型分别对应的第一损失函数、第二损失函数以及所述多元性约束损失函数，获取所述目标损失函数。

3.根据权利要求1或2所述的方法，其特征在于，所述第一视频分类子模型对应的第二损失函数的获取方式，包括：

基于所述各个第二参考特征，获取第一待学习结果；

基于所述第一参考特征和所述第一待学习结果，获取所述第一视频分类子模型对应的第二损失函数。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取所述各个视频分类子模型输出的参考特征分别对应的转化结果；

所述基于所述各个第二参考特征，获取第一待学习结果，包括：

基于所述各个第二参考特征分别对应的转化结果，获取第一待学习结果；

所述基于所述第一参考特征和所述第一待学习结果，获取所述第一视频分类子模型对应的第二损失函数，包括：

基于所述第一参考特征对应的转化结果和所述第一待学习结果，获取所述第一视频分类子模型对应的第二损失函数。

5.根据权利要求3所述的方法，其特征在于，所述基于所述各个第二参考特征，获取第一待学习结果，包括：

获取所述各个第二参考特征分别与所述第一参考特征的关联系数；

基于所述各个第二参考特征以及所述各个第二参考特征分别与所述第一参考特征的关联系数，获取所述第一待学习结果。

6.根据权利要求5所述的方法，其特征在于，所述获取所述各个第二参考特征分别与所述第一参考特征的关联系数，包括：

获取所述第一参考特征对应的第一注意力信息；

获取任一第二参考特征对应的第二注意力信息；

基于所述第一参考特征对应的第一注意力信息和所述任一第二参考特征对应的第二注意力信息，获取所述任一第二参考特征与所述第一参考特征的关联系数。

7.根据权利要求1-2、4-6任一所述的方法，其特征在于，所述各个视频分类子模型中存在利用目标处理模块替换基础视频分类模型中的参考模块得到的视频分类子模型，所述目标处理模块具有的计算复杂度低于所述参考模块具有的计算复杂度，所述基础视频分类模型为用于实现视频分类的单分支模型。

8.根据权利要求1-2、4-6任一所述的方法，其特征在于，所述获取样本视频，包括：

对原始视频执行时间上的数据增强或空间上的数据增强中的至少一种数据增强，得到所述样本视频。

9.一种视频分类方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述满足选取条件的参考视频分类子模型为未对所述待处理视频进行处理的各个目标视频分类子模型中具有的计算复杂度最小的目标视频分类子模型；所述基于所述参考视频分类结果，确定所述待处理视频对应的类别，包括：

响应于所述参考视频分类结果满足参考条件，基于所述参考视频分类结果，确定所述待处理视频对应的类别。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

响应于所述参考视频分类结果不满足所述参考条件，从未对所述待处理视频进行处理的各个目标视频分类子模型中确定新的参考视频分类子模型，调用所述新的参考视频分类子模型对所述待处理视频进行分类，得到所述新的参考视频分类子模型输出的新的参考视频分类结果，直至得到满足所述参考条件的参考视频分类结果，基于所述满足所述参考条件的参考视频分类结果，确定所述待处理视频对应的类别。

12.一种视频分类模型的训练装置，其特征在于，所述装置包括：

13.一种视频分类装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述计算机设备实现如权利要求1至8任一所述的视频分类模型的训练方法，或者如权利要求9至11任一所述的视频分类方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使计算机实现如权利要求1至8任一所述的视频分类模型的训练方法，或者如权利要求9至11任一所述的视频分类方法。