CN112214639A

CN112214639A - 视频筛选方法、视频筛选装置及终端设备

Info

Publication number: CN112214639A
Application number: CN202011178088.8A
Authority: CN
Inventors: 尹康
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-12
Anticipated expiration: 2040-10-29
Also published as: CN112214639B

Abstract

本申请提供的一种视频筛选方法，包括：基于视频训练集，对第一分类模型进行训练，获得训练完成的第一分类模型；针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型针对所述视频得到的特征向量；根据所述视频训练集中的各个视频所分别对应的特征向量，从所述视频训练集中，筛选出目标视频。通过上述方法，可以提升视频数据集的质量。

Description

视频筛选方法、视频筛选装置及终端设备

技术领域

本申请属于视频处理技术领域，尤其涉及视频筛选方法、视频筛选装置、终端设备及计算机可读存储介质。

背景技术

目前，各类机器学习模型大量应用于对图像、视频的分类、检测等场景中。在实际应用场景中，对于给定任务(如视频分类)，开发者需要收集足够数量的训练数据集，并通过训练数据集对指定的机器学习模型(如视频分类模型)进行训练，从而使得该指定的机器学习模型对于给定任务获得较好的性能表现。可见，训练数据集的质量是决定机器学习模型实际表现的关键因素之一。

而在视频分类等应用场景中，相较于图像数据集，视频数据集因为数据量大、标注成本高而有着更高的收集难度，导致目前的视频数据集的质量往往较差，从而在通过视频训练集进行模型训练等具体应用中，限制了训练得到的视频分类模型的性能。

发明内容

本申请实施例提供了视频筛选方法、视频筛选装置、终端设备及计算机可读存储介质，可以提升视频数据集的质量。

第一方面，本申请实施例提供了一种视频筛选方法，包括：

基于视频训练集，对第一分类模型进行训练，获得训练完成的第一分类模型，其中，所述视频训练集中包括多个基础视频，以及各个所述基础视频所分别对应的拓展视频，每一个所述拓展视频根据对应的基础视频而得到；

针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型针对所述视频得到的特征向量；

根据所述视频训练集中的各个视频所分别对应的特征向量，从所述视频训练集中，筛选出目标视频。

第二方面，本申请实施例提供了一种视频筛选装置，包括：

第一训练模块，用于基于视频训练集，对第一分类模型进行训练，获得训练完成的第一分类模型，其中，所述视频训练集中包括多个基础视频，以及各个所述基础视频所分别对应的拓展视频，每一个所述拓展视频根据对应的基础视频而得到；

特征提取模块，用于针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型针对所述视频得到的特征向量；

筛选模块，用于根据所述视频训练集中的各个视频所分别对应的特征向量，从所述视频训练集中，筛选出目标视频。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器、显示器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，其特征在于，上述处理器执行上述计算机程序时实现如第一方面上述的视频筛选方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如第一方面上述的视频筛选方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中上述的视频筛选方法。

本申请实施例与现有技术相比存在的有益效果是：本申请实施例中，可以基于视频训练集，对第一分类模型进行训练，获得训练完成的第一分类模型，其中，所述视频训练集中包括多个基础视频，以及各个所述基础视频所分别对应的拓展视频。由于每一个所述拓展视频根据对应的基础视频而得到，即，每一个扩展视频与其对应的基础视频是具有一定的相似性的，因此，根据多个基础视频和各个所述基础视频所分别对应的拓展视频训练所述第一分类模型，可以使得训练完成的第一分类模型更好地识别出相似的视频，并能够对相似的视频提取出相似的特征向量，从而在后续处理过程中，保证通过训练完成的第一分类模型对输入的视频提取特征向量的准确性；然后，针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型针对所述视频得到的特征向量；此时，可以通过训练完成的第一分类模型分别提取各个视频的特征向量，以根据所述视频训练集中的各个视频所分别对应的特征向量，从所述视频训练集中，筛选出目标视频，从而可以根据需求，基于所述特征向量对所述视频训练集中的各个视频进行数据清洗，获得符合期望的目标视频。此时，由于所述目标视频为基于所述特征向量对所述视频训练集中的各个视频进行数据清洗后得到，因此，所得到的所述目标视频更符合期望，从而获得质量更高的视频数据集。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种视频筛选方法的流程示意图；

图2是本申请一实施例提供的步骤S101的一种流程示意图；

图3是本申请一实施例提供的对所述第一分类模型和所述第三分类模型进行训练的一种示意图；

图4是本申请一实施例提供的一种视频筛选装置的结构示意图；

图5是本申请一实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的视频筛选方法可以应用于服务器、台式电脑、手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

在实际应用过程中，在视频分类这一应用场景中，相较于图像数据集，视频数据集因为数据量大、标注成本高而有着更高的收集难度，导致目前的视频数据集的质量往往较差，视频训练集中的实际有效的视频的数量较小，从而可能会增大过拟合等风险，限制了视频分类模型的泛化性能。

而现有的获取质量较高的视频训练集的方法往往是基于传统的计算机视觉(computer vision，CV)特征描述子，例如尺度不变特征变换(Scale-invariant featuretransform，SIFT)、方向梯度直方图(Histogram of Oriented Gradient,HOG)等特征描述子来识别视频训练集的视频之间的相似性，从而从视频训练集中筛选得到质量较高的视频以进行训练。然而，该类特征描述子的特征表征能力较低，往往不能较为有效地对视频进行识别，从而也就无法准确地筛选得到质量较高的视频，大大影响了训练得到的视频分类模型的性能，以及限制了对该视频数据集的其他应用。

而通过本申请实施例，可以通过包括多个基础视频以及各个所述基础视频所分别对应的拓展视频的视频训练集对第一分类模型进行训练，从而保证通过训练完成的第一分类模型对输入的视频进行特征向量提取的准确性，再针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型针对所述视频得到的特征向量，从而根据所述特征向量从视频训练集中，筛选出较为符合期望的目标视频。

具体地，图1示出了本申请实施例提供的一种视频筛选方法的流程图，该视频筛选方法可以应用于终端设备。

如图1所示，该视频筛选方法可以包括：

步骤S101，基于视频训练集，对第一分类模型进行训练，获得训练完成的第一分类模型，其中，所述视频训练集中包括多个基础视频，以及各个所述基础视频所分别对应的拓展视频，每一个所述拓展视频根据对应的基础视频而得到。

本申请实施例中，所述第一分类模型可以为能够进行视频分类的模型。示例性的，所述第一分类模型可以为卷积神经网络(Convolutional Neural Networks，CNN)模型等机器学习模型。所述第一分类模型的结构在此不作限制。

在一些实施例中，各个所述基础视频可以分别对应有预设标签。此时，所述基础视频可以为所述视频训练集中，对应有预设标签的视频。示例性的，所述预设标签可以包括内容标识以及视频编号等信息。所述基础视频所对应的预设标签的获取方式可以有多种。例如，所述预设标签可以是人工标注得到的，也可以是通过诸如关键词提取或者其他信息提取算法而得到的。其中，所述预设标签可以用于在对第一分类模型进行训练时通过损失函数等来评估训练结果，即评估所述第一分类模型的分类精度，从而判断是否训练完成。

所述拓展视频可以是预先根据对应的基础视频而得到。每个基础视频所对应的拓展视频的个数可以不同，也可以相同。例如，在一些示例中，每个基础视频可以分别对应10个拓展视频。所述拓展视频所对应的标签可以为对应的基础视频的预设标签，可以为对对应的基础视频的预设标签进行提取而得到。例如，若所述拓展视频仅包括所述基础视频中的部分内容，则可以将所述预设标签中与该部分内容所关联的部分作为所述拓展视频的标签。

本申请实施例中，根据多个基础视频和各个所述基础视频所分别对应的拓展视频训练所述第一分类模型，可以使得训练完成的第一分类模型更好地识别相似的视频，并能够对相似的视频提取出相似的特征向量，从而在训练过程中，提升所述第一分类模型对视频进行特征提取时的准确性。

在一些实施例中，所述视频训练集中的各个视频均满足预设格式条件，以使得所述视频训练集中的各个视频的格式保持统一，便于相应的分类模型进行读取和处理。

例如，所述视频训练集中的各个基础视频的预设标签的格式可以为固定维度的标签向量，并且，所述视频训练集中的各个基础视频的文件类型相同、视频帧帧数相同、视频时长相同、视频帧尺寸相同和/或视频帧中的像素点的取值范围相同等等。

所述拓展视频的获取方式可以有多种，例如，所述拓展视频可以为对相应的基础视频进行采样而得到的；和/或，所述拓展视频可以为对相应的基础视频的各个视频帧中的指定图像区域进行图像提取而得到，和/或，所述拓展视频可以为对相应的基础视频中的每一视频帧添加指定噪声而得到。

在一些示例中，对于每一个基础视频，所述基础视频的拓展视频可以单独根据以下实施例或者其组合而生成。

在一些实施例中，在基于视频训练集，对第一分类模型进行训练之前，包括：

针对每一个基础视频，以预设采样率对所述基础视频进行采样，获得所述基础视频对应的部分或全部的拓展视频，其中，若采样获得的拓展视频的数量为两个以上，则，采样获得的各个拓展视频在所述基础视频中所分别对应的起始采样帧不同。

本申请实施例中，各个拓展视频所对应的起始采样帧可以根据场景需求来确定。例如，对于基础视频A，该基础视频a的拓展视频A1可以为对所述基础视频a的第0、5、10、15…帧视频帧进行采样后得到，而该基础视频a的拓展视频A2可以为对所述基础视频a的第3、8、13、18…帧视频帧进行采样后得到。

可选的，为了所述视频训练集中的各个视频均满足预设格式条件，以使得所述视频训练集中的各个视频的格式保持统一，在对所述基础视频进行采样，获取到采样获得的拓展视频之后，还可以对所述基础视频和/或所述采样获得的拓展视频进行调整，获得满足预设格式条件的所述基础视频，并获得满足预设格式条件的采样获得的拓展视频；示例性的，该预设格式条件可以为文件类型为指定类型、视频帧帧数为指定帧数、视频时长为指定时长、视频帧尺寸为指定尺寸和/或视频帧中的像素点的取值范围为指定范围。然后，可以将满足预设格式条件的所述基础视频和满足预设格式条件的采样获得的拓展视频作为所述视频训练集中的至少部分基础视频和至少部分拓展视频。

针对每一个基础视频，对所述基础视频的各个视频帧中的指定图像区域进行图像提取，获得所述基础视频对应的部分或全部的拓展视频，其中，若图像提取获得的拓展视频的个数为两个以上，则，图像提取获得的各个拓展视频在所述基础视频中所分别对应的指定图像区域不同。

其中，示例性的，图像提取获得的各个拓展视频在所述基础视频中所分别对应的指定图像区域可以大小不同，也可以是在对应的基础视频中的区域位置不同。例如，对于基础视频b，该基础视频b的拓展视频B1可以为对所述基础视频b中的每一帧视频帧的左上角的h×w图像子区域进行图像提取后得到，而该基础视频b的拓展视频B2可以为对所述基础视频b的每一帧视频帧的右下角的h×w图像子区域进行图像提取后得到。

可选的，为了所述视频训练集中的各个视频均满足预设格式条件，以使得所述视频训练集中的各个视频的格式保持统一，在对所述基础视频进行图像提取，获取到图像提取获得的拓展视频之后，还可以对所述基础视频和/或所述图像提取获得的拓展视频进行调整，获得满足预设格式条件的所述基础视频，并获得满足预设格式条件的图像提取获得的拓展视频；示例性的，该预设格式条件可以为文件类型为指定类型、视频帧帧数为指定帧数、视频时长为指定时长、视频帧尺寸为指定尺寸和/或视频帧中的像素点的取值范围为指定范围。然后，可以将满足预设格式条件的所述基础视频和满足预设格式条件的采样获得的拓展视频作为所述视频训练集中的至少部分基础视频和至少部分拓展视频。

针对每一个基础视频，向所述基础视频中的每一视频帧添加指定噪声，获得所述基础视频对应的部分或全部的拓展视频，其中，若添加指定噪声获得的拓展视频的数量为两个以上，则，添加指定噪声获得的各个拓展视频所分别对应的指定噪声不同。

本申请实施例中，示例性的，所述指定噪声可以为高斯分布的噪声或者均匀分布的噪声。添加指定噪声获得的各个拓展视频所分别对应的指定噪声可以是分布方式不同，也可以是噪声大小不同。

需要说明的是，上述用于获取视频训练集中的各个基础视频所分别对应的拓展视频的实施例可以单独实施，也可以进行组合。例如，对于某一个基础视频，该基础视频的拓展视频可以有1个采样获得的拓展视频、2个图像提取获得的拓展视频以及1个添加指定噪声获得的拓展视频。或者，在另一种场景中，对于另一个基础视频，该基础视频的拓展视频可以为通过采样后再进行图像提取而得到的拓展视频。可见，各个基础视频所分别对应的拓展视频的获取方式可以有多种。

在一些实施例中，所述步骤S101具体可以包括：

步骤S201，在每一次迭代训练中，从所述视频训练集中随机获取第一视频和第二视频；

步骤S202，将所述第一视频输入所述第一分类模型，将所述第二视频输入第三分类模型，并获取所述第一分类模型针对所述第一视频得到的第一训练结果以及获取所述第三分类模型针对所述第二视频得到的第二训练结果，其中，所述第三分类模型的结构与所述第一分类模型的结构相同；

步骤S203，基于所述第一训练结果和所述第二训练结果，根据预设损失函数得到当前损失值，并判断所述当前损失值是否符合预设条件；

步骤S204，若所述当前损失值符合预设条件，则将所述第一分类模型作为训练完成的第一分类模型；

步骤S205，若所述当前损失值不符合预设条件，则根据所述第一训练结果和所述第二训练结果对所述第一分类模型进行更新，并根据更新后的所述第一分类模型，执行下一次迭代训练。

本申请实施例中，所述第一分类模型和所述第三分类模型可以构成一个孪生结构，即有两个完全一样的支路的结构，然后，根据预设损失函数对该结构进行迭代更新，直到迭代更新后得到的孪生结构所对应的预设损失函数的损失值符合预设条件，则结束该训练过程。

通过所述第一分类模型和所述第三分类模型构成的孪生结构，可以在训练过程中，对所述第一分类模型和所述第三分类模型各自对应的训练结果进行相互验证，并用于后续的训练迭代中更新所述第一分类模型和所述第三分类模型的参数。

此外，每一次迭代训练中所对应的第一视频和第二视频均为从所述视频训练集中随机获取的，因此，所述第一视频和所述第二视频可能相互为相似视频，例如，所述第一视频为基础视频，而所述第二视频可以为该基础视频所对应的一个拓展视频。或者，所述第一视频和所述第二视频可能相互存在较大差异。此时，在每次训练迭代时，可以根据所述第一训练结果和所述第二训练结果，判断所述第一分类模型和所述第三分类模型是否能够较好地识别得到输入的视频中的相似特征，并区分输入的视频中的不同特征，从而使得训练完成的第一分类模型以及第三分类模型更好地识别出相似的视频，并能够对相似的视频提取出相似的特征向量，以在后续处理过程中，保证通过训练完成的第一分类模型对输入的视频提取特征向量的准确性。

需要说明的是，在对所述第一分类模型和所述第三分类模型训练完成之后，所得到的训练完成的第一分类模型和训练完成的第三分类模型中的参数可以是完全相同的，因此，在实际应用中，可以将所述孪生结构中的任一支路作为所述第一分类模型，而另一支路作为所述第三分类模型。

在一些实施例中，所述预设损失函数包括关于所述第一分类模型的第一分类损失函数、关于所述第三分类模型的第二分类损失函数，以及所述第一分类模型与所述第三分类模型之间的相似性损失函数；

所述第一训练结果包括所述第一分类模型中的指定中间层针对所述第一视频输出的第一特征向量，还包括所述第一分类模型对所述第一视频的第一分类结果；

所述第二训练结果包括所述第三分类模型中的指定中间层针对所述第二视频输出的第二特征向量，还包括所述第三分类模型对所述第二视频的第二分类结果；

所述基于所述第一训练结果和所述第二训练结果，根据预设损失函数得到当前损失值，并判断所述当前损失值是否符合预设条件，包括：

根据所述第一特征向量、所述第二特征向量和所述相似性损失函数，计算第一损失值；

根据所述第一分类结果和所述第一分类损失函数，计算第二损失值；

根据所述第二分类结果和所述第二分类损失函数，计算第三损失值；

根据所述第一损失值、第二损失值和第三损失值，计算所述当前损失值；

确定所述当前损失值是否符合预设条件。

如图3所示，为对所述第一分类模型和所述第三分类模型进行训练的示意图。

其中，所述第一分类模型可以通过指定中间层输出第一特征向量，所述第三分类模型可以通过指定中间层输出第二特征向量，然后，可以根据所述第一特征向量、所述第二特征向量和所述相似性损失函数，计算第一损失值。此时，该第一损失值可以用于指示所述第一分类模型与所述第三分类模型之间的相似性损失。

此外，所述第一分类模型还可以针对所述第一视频输出第一分类结果，所述第三分类模型可以针对所述第二视频输出第二分类结果，从而可以根据所述第一分类结果和所述第一分类损失函数，计算第二损失值，并根据所述第二分类结果和所述第二分类损失函数，计算第三损失值。此时，所述第二损失值可以用于指示所述第一分类模型的分类损失，所述第三损失值可以用于指示所述第三分类模型的分类损失。

因此，结合所述第一损失值、第二损失值和第三损失值，可以计算所述当前损失值。其中，具体的，可以根据所述第一损失值、第二损失值和第三损失值所分别对应的权重进行加权求和等方式，计算所述当前损失值，从而可以较为全面地评估所述第一分类模型和所述第三分类模型是否训练完成。

示例性的，所述相似性损失函数L_REG可以为：

L_REG＝max(0,α-δ(y₁＝y₂)D(f₁-f₂))

其中，f₁为第一特征向量，f₂为第二特征向量，D(·)为选定的距离函数，δ(·)当且仅当第一视频和第二视频与同一个基础视频相关联时，取1，否则取0，α为第一预定权重。

所述第一分类损失函数L_CE1和所述第二分类损失函数L_CE2可以为指示交叉熵损失的函数。

所述预设损失函数Loss可以为：

Loss＝L_CE1+L_CE2+βL_REG

其中，β为第二预定权重。

当然，所述预设损失函数还可以有其他设置方式，上述说明仅为对所述预设损失函数的一种示例性说明，而非限定。

步骤S102，针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型针对所述视频得到的特征向量。

可以理解的是，本申请实施例中，所述所述视频训练集中的各个视频包括基础视频和拓展视频。

本申请实施例中，可以通过所述训练完成的第一分类模型，获得针对输入的视频的特征向量。其中，所述特征向量的个数可以有一个或者两个以上。例如，该特征向量可以包括所述训练完成的第一分类模型针对所述视频所输出的类别概率向量；此外，该特征向量还可以包括所述训练完成的第一分类模型中的一个或两个以上中间层针对所述视频所输出的特征提取向量，例如，可以包括所述训练完成的第一分类模型中的分类器(一般为最后一个全连接层)的前一层所输出的特征提取向量。

本申请实施例中，可以通过所述视频所对应的特征向量，表征所述视频的图像特征，以便于根据所述特征向量，对所述视频训练集中的各个视频进行进一步的筛选。

步骤S103，根据所述视频训练集中的各个视频所分别对应的特征向量，从所述视频训练集中，筛选出目标视频。

本申请实施例中，从所述视频训练集中筛选目标视频的方式可以有多种。示例性的，可以根据各个特征向量的熵、各个视频在实际应用场景中所分别对应的累计播放次数、各个视频所分别对应的视频时长、各个视频所分别对应的模糊帧占比以及所各个视频所分别对应的关键帧数量等信息，从所述视频训练集中筛选出所述目标视频。

本申请实施例中，可以通过训练完成的第一分类模型分别提取各个视频的特征向量，以根据所述视频训练集中的各个视频所分别对应的特征向量，从所述视频训练集中，筛选出目标视频，从而可以根据需求，基于所述特征向量对所述视频训练集中的各个视频进行数据清洗，获得符合期望的目标视频。

通过对所述视频训练集进行筛选，可以从所述视频训练集中删除一些诸如重复率过高、信息量较少、特征不清晰等状态的视频，而获得更符合训练要求的目标视频，以避免过多的质量较差的视频在训练过程中对相应的视频分类模型的负面影响。

在一些实施例中，所述特征向量包括第三特征向量和第四特征向量；

所述针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型针对所述视频得到的特征向量，包括：

针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型的指定中间层针对所述视频输出的第三特征向量，和/或，获得所述训练完成的第一分类模型的最后一层针对所述视频输出的第四特征向量；

所述根据所述视频训练集中的各个视频所分别对应的特征向量，从所述视频训练集中，筛选出目标视频，包括：

根据所述视频训练集中的各个视频所分别对应的第三特征向量和/或第四特征向量，从所述视频训练集中，筛选出目标视频。

本申请实施例中，所述指定中间层可以为能够输出针对所述视频提取得到的第三特征向量。所述指定中间层可以根据所述第一分类模型的结构来确定。在一些示例中，所述指定中间层为所述训练完成的第一分类模型中的分类器(一般为最后一个全连接层)的前一层。所述第三特征向量可以包含从所述视频中提取得到的特征信息，所述第四特征向量可以为类别概率向量。

在获取到各个视频所分别对应的第三特征向量和/或第四特征向量之后，可以根据对应的所述第三特征向量和/或所述第四特征向量分别判别各个视频的所包含的视频帧的图像特征，以及判断各个视频之间的相似性等信息，从而根据需求，对所述视频训练集中的视频进行筛选。

其中，从所述视频训练集中，筛选出目标视频的方式可以有多种。例如，可以根据各个所述第三特征向量进行聚类，获得聚类结果，再根据各个所述第四特征向量，从所述聚类结果中筛选出目标视频；或者，可以根据各个视频在实际应用场景中所分别对应的累计播放次数、各个视频所分别对应的视频时长、各个视频所分别对应的模糊帧占比以及所各个视频所分别对应的关键帧数量等信息，从所述视频训练集中筛选出所述目标视频。

在一些实施例中，所述根据所述视频训练集中的各个视频所分别对应的第三特征向量和/或第四特征向量，从所述视频训练集中，筛选出目标视频，包括：

对各个所述第三特征向量进行聚类，获得聚类结果，所述聚类结果中，包括至少两个簇，每个簇中包括至少一个第三特征向量；

针对每一簇，从所述簇的各个第三特征向量所分别对应的视频中，筛选出所述簇所对应的目标视频。

本申请实施例中，对各个所述第三特征向量进行聚类的方式可以有多种，例如，可以通过K-MEANS聚类算法、DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise)等基于密度的聚类算法、使用高斯混合模型(Gaussian Mixture Model，GMM)的期望最大化聚类算法等等中的至少一种，对各个所述第三特征向量进行聚类。在一些示例中，在对各个所述第三特征向量进行聚类时，为了便于对各个所述第三特征向量之间的距离的归一化进行比较，减小人工指定超参数可能引起的性能下降，各个所述第三特征向量之间的距离度量可以选择余弦距离，所述聚类算法可以采用DBSCAN(Density-BasedSpatial Clustering of Applications with Noise)等基于密度的聚类算法。

本申请实施例中在获得聚类结果之后，针对每一簇，可以根据所述簇的各个第三特征向量所分别对应的视频所分别对应的视频时长、模糊帧占比以及关键帧数量等信息，从所述簇所对应的视频中筛选出所述簇所对应的目标视频，从而获得满足预设需求的目标视频。

在一些实施例中，所述针对每一簇，从所述簇的各个第三特征向量所分别对应的视频中，筛选出所述簇所对应的目标视频，包括：

针对每一簇，计算所述簇的各个第三特征向量所分别对应的第四特征向量的熵；

根据各个第四特征向量的熵，确定所述簇所对应的目标第四特征向量；

将所述目标第四特征向量所对应的视频作为所述簇所对应的目标视频。

其中，可以根据以下公式计算每一个第四特征向量的熵：

其中，所述第四特征向量为B，b_i∈B，H_B为所述第四特征向量的熵。

在获取到各个第四特征向量的熵之后，可以将所述簇所对应的熵最大的L个第四特征向量作为所述簇所对应的目标第四特征向量，从而可以从所述簇中筛选得到质量较好的目标视频，而可以删除所述视频训练集中其他类似的且信息量可能较小的视频。

本申请实施例中，可以基于视频训练集，对第一分类模型进行训练，获得训练完成的第一分类模型，其中，所述视频训练集中包括多个基础视频，以及各个所述基础视频所分别对应的拓展视频。由于每一个所述拓展视频根据对应的基础视频而得到，即，每一个扩展视频与其对应的基础视频是具有一定的相似性的，因此，根据多个基础视频和各个所述基础视频所分别对应的拓展视频训练所述第一分类模型，可以使得训练完成的第一分类模型更好地识别出相似的视频，并能够对相似的视频提取出相似的特征向量，从而在后续处理过程中，保证通过训练完成的第一分类模型对输入的视频提取特征向量的准确性；然后，针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型针对所述视频得到的特征向量；此时，可以通过训练完成的第一分类模型分别提取各个视频的特征向量，以根据所述视频训练集中的各个视频所分别对应的特征向量，从所述视频训练集中，筛选出目标视频，从而可以根据需求，基于所述特征向量对所述视频训练集中的各个视频进行数据清洗，获得符合期望的目标视频。此时，由于所述目标视频为基于所述特征向量对所述视频训练集中的各个视频进行数据清洗后得到，因此，所得到的所述目标视频更符合期望，从而获得质量更高的视频数据集。

在一些实施例中，在筛选出目标视频之后，还包括：

基于所述目标视频，对第二分类模型进行训练，获得训练完成的第二分类模型，其中，所述第二分类模型的结构与所述第一分类模型的结构相同。

本申请实施例中，所述第二分类模型的结构与所述第一分类模型的结构相同。而由于筛选得到的所述目标视频的质量往往较好，因此，基于所述目标视频，对第二分类模型进行训练，所获得的训练完成的第二分类模型的泛化性能等性能往往较好，不会出现过拟合等情况，从而可以提升视频分类的准确率。

在基于所述目标视频，对第二分类模型进行训练，获得训练完成的第二分类模型之后，还包括：

获取待预测视频；

若所述待预测视频的格式不满足预设格式条件，对所述待预测视频进行格式调整，以使得格式调整后的待预测视频的格式满足预设格式条件；

将所述格式调整后的待预测视频输入所述训练完成的第二分类模型，获得训练完成的第二分类模型针对所述格式调整后的待预测视频输出的类别向量；

根据所述类别向量，确定所述待预测视频的类别。

其中，示例性的，所述类别向量P可以为P＝{p1,p2,…,pn}。根据所述类别向量，确定所述待预测视频的类别的方式可以是：

以预设阈值T遍历P，如果存在pi>T，则确定所述待预测视频属于pi所对应的类别。

或者，根据所述类别向量，确定所述待预测视频的类别的方式可以是：

从所述类别向量P中，筛选出大小最大为前K个元素，并确定所述待预测视频属于该前K个元素所对应的类别。

可以理解的是，所述待预测视频可以属于一个类别，或者，也可以属于两个以上类别。

本申请实施例中，所述视频训练集中包括多个基础视频可以根据需求，基于所述特征向量对所述视频训练集中的各个视频进行数据清洗，获得符合期望的目标视频，再基于所述目标视频，对第二分类模型进行训练，获得训练完成的第二分类模型，其中，所述第二分类模型的结构与所述第一分类模型的结构相同，此时，由于所述目标视频为基于所述特征向量对所述视频训练集中的各个视频进行数据清洗后得到，因此，所述目标视频更符合期望，从而可以提升训练得到的第二分类模型的性能。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例上述的视频筛选方法，图4示出了本申请实施例提供的一种视频筛选装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图4，该视频筛选装置4包括：

第一训练模块401，用于基于视频训练集，对第一分类模型进行训练，获得训练完成的第一分类模型，其中，所述视频训练集中包括多个基础视频，以及各个所述基础视频所分别对应的拓展视频，每一个所述拓展视频根据对应的基础视频而得到；

特征提取模块402，用于针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型针对所述视频得到的特征向量；

筛选模块403，用于根据所述视频训练集中的各个视频所分别对应的特征向量，从所述视频训练集中，筛选出目标视频。

可选的，该视频筛选装置4还包括：

第二训练模块，用于基于所述目标视频，对第二分类模型进行训练，获得训练完成的第二分类模型，其中，所述第二分类模型的结构与所述第一分类模型的结构相同。

可选的，该视频筛选装置4还包括：

采样模块，用于针对每一个基础视频，以预设采样率对所述基础视频进行采样，获得所述基础视频对应的部分或全部的拓展视频，其中，若采样获得的拓展视频的数量为两个以上，则，采样获得的各个拓展视频在所述基础视频中所分别对应的起始采样帧不同。

可选的，该视频筛选装置4还包括：

图像提取模块，用于针对每一个基础视频，对所述基础视频的各个视频帧中的指定图像区域进行图像提取，获得所述基础视频对应的部分或全部的拓展视频，其中，若图像提取获得的拓展视频的个数为两个以上，则，图像提取获得的各个拓展视频在所述基础视频中所分别对应的指定图像区域不同。

可选的，该视频筛选装置4还包括：

噪声添加模块，用于针对每一个基础视频，向所述基础视频中的每一视频帧添加指定噪声，获得所述基础视频对应的部分或全部的拓展视频，其中，若添加指定噪声获得的拓展视频的数量为两个以上，则，添加指定噪声获得的各个拓展视频所分别对应的指定噪声不同。

可选的，所述第一训练模块401具体包括：

第一获取单元，用于在每一次迭代训练中，从所述视频训练集中随机获取第一视频和第二视频；

第一处理单元，用于将所述第一视频输入所述第一分类模型，将所述第二视频输入第三分类模型，并获取所述第一分类模型针对所述第一视频得到的第一训练结果以及获取所述第三分类模型针对所述第二视频得到的第二训练结果，其中，所述第三分类模型的结构与所述第一分类模型的结构相同；

第二处理单元，用于基于所述第一训练结果和所述第二训练结果，根据预设损失函数得到当前损失值，并判断所述当前损失值是否符合预设条件；

第三处理单元，用于若所述当前损失值符合预设条件，则将所述第一分类模型作为训练完成的第一分类模型；

第四处理单元，用于若所述当前损失值不符合预设条件，则根据所述第一训练结果和所述第二训练结果对所述第一分类模型进行更新，并根据更新后的所述第一分类模型，执行下一次迭代训练。

可选的，所述预设损失函数包括关于所述第一分类模型的第一分类损失函数、关于所述第三分类模型的第二分类损失函数，以及所述第一分类模型与所述第三分类模型之间的相似性损失函数；

所述第二处理单元包括：

第一计算子单元，用于根据所述第一特征向量、所述第二特征向量和所述相似性损失函数，计算第一损失值；

第二计算子单元，用于根据所述第一分类结果和所述第一分类损失函数，计算第二损失值；

第三计算子单元，用于根据所述第二分类结果和所述第二分类损失函数，计算第三损失值；

第四计算子单元，用于根据所述第一损失值、第二损失值和第三损失值，计算所述当前损失值；

确定子单元，用于确定所述当前损失值是否符合预设条件。

可选的，所述特征向量包括第三特征向量和第四特征向量；

所述特征提取模块402具体用于：

所述筛选模块403具体用于：

可选的，所述筛选模块403具体包括：

聚类单元，用于对各个所述第三特征向量进行聚类，获得聚类结果，所述聚类结果中，包括至少两个簇，每个簇中包括至少一个第三特征向量；

筛选单元，用于针对每一簇，从所述簇的各个第三特征向量所分别对应的视频中，筛选出所述簇所对应的目标视频。

本申请实施例中，可以基于视频训练集，对第一分类模型进行训练，获得训练完成的第一分类模型，其中，所述视频训练集中包括多个基础视频，以及各个所述基础视频所分别对应的拓展视频。由于每一个所述拓展视频根据对应的基础视频而得到，即，每一个扩展视频与其对应的基础视频是具有一定的相似性的，因此，根据多个基础视频和各个所述基础视频所分别对应的拓展视频训练所述第一分类模型，可以使得训练完成的第一分类模型更好地识别出相似的视频，并能够对相似的视频提取出相似的特征向量，从而在后续处理过程中，保证通过训练完成的第一分类模型对输入的视频提取特征向量的准确性；然后，针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型针对所述视频得到的特征向量；此时，可以通过训练完成的第一分类模型分别提取各个视频的特征向量，以根据所述视频训练集中的各个视频所分别对应的特征向量，从所述视频训练集中，筛选出目标视频，从而可以根据需求，基于所述特征向量对所述视频训练集中的各个视频进行数据清洗，获得符合期望的目标视频。此时，由于所述目标视频为基于所述特征向量对所述视频训练集中的各个视频进行数据清洗后得到，因此，所得到的所述目标视频更符合期望，从而获得质量更高的视频数据集。所述视频训练集中包括多个基础视频

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图5为本申请一实施例提供的终端设备的结构示意图。如图5所示，该实施例的终端设备5包括：至少一个处理器50(图5中仅示出一个)、存储器51以及存储在上述存储器51中并可在上述至少一个处理器50上运行的计算机程序52，上述处理器50执行上述计算机程序52时实现上述任意各个视频筛选方法实施例中的步骤。

上述终端设备5可以是服务器、手机、可穿戴设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、桌上型计算机、笔记本、台式电脑以及掌上电脑等计算设备。该终端设备可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是终端设备5的举例，并不构成对终端设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入设备、输出设备、网络接入设备等。其中，上述输入设备可以包括键盘、触控板、指纹采集传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风、摄像头等，输出设备可以包括显示器、扬声器等。

上述处理器50可以是中央处理单元(Central Processing Unit，CPU)，该处理器50还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器51在一些实施例中可以是上述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。上述存储器51在另一些实施例中也可以是上述终端设备5的外部存储设备，例如上述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，上述存储器51还可以既包括上述终端设备5的内部存储单元也包括外部存储设备。上述存储器51用于存储操作***、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等，例如上述计算机程序的程序代码等。上述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

另外，尽管未示出，上述终端设备5还可以包括网络连接模块，如蓝牙模块Wi-Fi模块、蜂窝网络模块等等，在此不再赘述。

本申请实施例中，上述处理器50执行上述计算机程序52以实现上述任意各个视频筛选方法实施例中的步骤时，可以基于视频训练集，对第一分类模型进行训练，获得训练完成的第一分类模型，其中，所述视频训练集中包括多个基础视频，以及各个所述基础视频所分别对应的拓展视频。由于每一个所述拓展视频根据对应的基础视频而得到，即，每一个扩展视频与其对应的基础视频是具有一定的相似性的，因此，根据多个基础视频和各个所述基础视频所分别对应的拓展视频训练所述第一分类模型，可以使得训练完成的第一分类模型更好地识别出相似的视频，并能够对相似的视频提取出相似的特征向量，从而在后续处理过程中，保证通过训练完成的第一分类模型对输入的视频提取特征向量的准确性；然后，针对多个所述基础视频和多个所述拓展视频中的每一个视频，将所述视频输入所述训练完成的第一分类模型，获得所述训练完成的第一分类模型针对所述视频得到的特征向量；此时，可以通过训练完成的第一分类模型分别提取各个视频的特征向量，以根据所述视频训练集中的各个视频所分别对应的特征向量，从所述视频训练集中，筛选出目标视频，从而可以根据需求，基于所述特征向量对所述视频训练集中的各个视频进行数据清洗，获得符合期望的目标视频。此时，由于所述目标视频为基于所述特征向量对所述视频训练集中的各个视频进行数据清洗后得到，因此，所得到的所述目标视频更符合期望，从而获得质量更高的视频数据集。所述视频训练集中包括多个基础视频

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频筛选方法，其特征在于，包括：

2.如权利要求1所述的视频筛选方法，其特征在于，在基于视频训练集，对第一分类模型进行训练之前，包括：

3.如权利要求1所述的视频筛选方法，其特征在于，在基于视频训练集，对第一分类模型进行训练之前，包括：

4.如权利要求1所述的视频筛选方法，其特征在于，在基于视频训练集，对第一分类模型进行训练之前，包括：

5.如权利要求1所述的视频筛选方法，其特征在于，所述基于视频训练集，对第一分类模型进行训练，获得训练完成的第一分类模型，包括：

在每一次迭代训练中，从所述视频训练集中随机获取第一视频和第二视频；

将所述第一视频输入所述第一分类模型，将所述第二视频输入第三分类模型，并获取所述第一分类模型针对所述第一视频得到的第一训练结果以及获取所述第三分类模型针对所述第二视频得到的第二训练结果，其中，所述第三分类模型的结构与所述第一分类模型的结构相同；

基于所述第一训练结果和所述第二训练结果，根据预设损失函数得到当前损失值，并判断所述当前损失值是否符合预设条件；

若所述当前损失值符合预设条件，则将所述第一分类模型作为训练完成的第一分类模型；

若所述当前损失值不符合预设条件，则根据所述第一训练结果和所述第二训练结果对所述第一分类模型进行更新，并根据更新后的所述第一分类模型，执行下一次迭代训练。

6.如权利要求5所述的视频筛选方法，其特征在于，所述预设损失函数包括关于所述第一分类模型的第一分类损失函数、关于所述第三分类模型的第二分类损失函数，以及所述第一分类模型与所述第三分类模型之间的相似性损失函数；

确定所述当前损失值是否符合预设条件。

7.如权利要求1所述的视频筛选方法，其特征在于，在筛选出目标视频之后，还包括：

8.如权利要求1至7任意一项所述的视频筛选方法，其特征在于，所述特征向量包括第三特征向量和第四特征向量；

9.如权利要求8所述的视频筛选方法，其特征在于，所述根据所述视频训练集中的各个视频所分别对应的第三特征向量和/或第四特征向量，从所述视频训练集中，筛选出目标视频，包括：

10.一种视频筛选装置，其特征在于，包括：

11.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的视频筛选方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的视频筛选方法。