CN110377787A

CN110377787A - 一种视频分类方法、装置及计算机可读存储介质

Info

Publication number: CN110377787A
Application number: CN201910545220.5A
Authority: CN
Inventors: 杨洋
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-10-25
Anticipated expiration: 2039-06-21
Also published as: CN110377787B

Abstract

本发明提供了一种视频分类方法、装置及计算机可读存储介质，包括：提取目标视频中的视频姿态数据；将视频姿态数据与预设的姿态检索库包括的种子姿态数据进行匹配，确定视频姿态数据对应的姿态分类类别，姿态检索库包括姿态数据与姿态分类类别的对应关系；将视频姿态数据对应的姿态分类类别，确定为目标视频的分类类别，本发明可以通过视频姿态数据与种子姿态数据进行姿态维度的匹配，实现在姿态维度对目标视频分类的目的。降低了其他维度的信息造成的干扰，从而降低了数据计算量，解决了由于特征相似度计算而导致计算量较大的问题。另外，通过姿态数据的匹配方式，避免了对视频进行逐帧特征提取的操作，提高了对目标视频分类的效率。

Description

一种视频分类方法、装置及计算机可读存储介质

技术领域

本发明属于计算机技术领域，特别是涉及一种视频分类方法、装置及计算机可读存储介质。

背景技术

在长视频中，有些情节展现的人物往往存在很多在姿态上比较夸张的肢体动作，包含这些内容的视频区间往往是相对精彩的视频片段，在视频推荐，抽取精彩看点，视频打标签等方面，能够高效率、准确的找到这些夸张姿态对应的视频片段，并对这些视频片段进行分类，对视频业务具有重要的价值和意义。

现有技术中，视频中会展现很多精彩画面，而对这些精彩画面对应的片段进行提取和分类，目前常采用基于静态图片的特征进行分析的分类模型进行处理，具体的，该分类模型中由人工定义了包括一些精彩画面特征集合的模板，以及定义了这些集合的类别标签，每个集合都包括了多个精彩画面特征，分类模型通过提取视频中的各个视频帧的图像特征，并将这些图像特征与精彩画面特征集合中的预设图像特征进行匹配，并依据精彩画面特征集合的类别标签，确定视频及精彩片段的类别。

但是，在进行视频分类的过程中，需要对视频的视频帧进行逐帧特征提取，以及进行特征相似度计算，数据计算量较大，使得处理效率较低。

发明内容

有鉴于此，本发明提供一种视频分类方法、装置及计算机可读存储介质，在一定程度上解决了目前方案中视频分类的数据计算量较大，处理效率较低的问题。

依据本发明的第一方面，提供了一种视频分类方法，该方法可以包括：

提取目标视频中的视频姿态数据；

将所述视频姿态数据与预设的姿态检索库包括的种子姿态数据进行匹配，确定所述视频姿态数据对应的姿态分类类别，所述姿态检索库包括所述种子姿态数据与姿态分类类别的对应关系；

将所述视频姿态数据对应的姿态分类类别，作为所述目标视频的分类类别。

依据本发明的第二方面，提供了一种视频分类装置，该装置可以包括：

第一提取模块，用于提取目标视频中的视频姿态数据；

匹配模块，用于将所述视频姿态数据与预设的姿态检索库包括的种子姿态数据进行匹配，确定所述视频姿态数据对应的姿态分类类别，所述姿态检索库包括所述种子姿态数据与姿态分类类别的对应关系；

确定模块，用于将所述视频姿态数据对应的姿态分类类别，作为所述目标视频的分类类别。

第三方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的视频分类方法的步骤。

针对在先技术，本发明具备如下优点：

本发明提供的一种视频分类方法，通过提取目标视频中的视频姿态数据；将视频姿态数据与预设的姿态检索库进行匹配，确定视频姿态数据对应的姿态分类类别，姿态检索库包括姿态数据与姿态分类类别的对应关系；将姿态分类类别确定为目标视频的分类类别，在本发明中，姿态数据是一种仅关注姿态动作的信息，相较于视频中视频帧的图像特征，姿态数据的数据量较小，匹配时产生的计算量也较小。本发明可以通过目标视频中的视频姿态数据，与预设的姿态检索库中的种子姿态数据进行姿态维度的匹配，实现在姿态维度对目标视频分类的目的。本发明在姿态数据的匹配过程中，降低了其他维度的信息造成的干扰，从而降低了数据计算量，解决了由于图像特征之间特征相似度计算而导致计算量较大的问题。另外，通过姿态数据的匹配方式，避免了对视频进行逐帧特征提取的操作，提高了对目标视频分类的效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种视频分类方法的步骤流程图；

图2是本发明实施例提供的一种人体姿态数据的示意图；

图3是本发明实施例提供的另一种人体姿态数据的示意图；

图4是本发明实施例提供的另一种视频分类方法的步骤流程图；

图5是本发明实施例提供的另一种人体姿态数据的示意图；

图6是本发明实施例提供的另一种人体姿态数据的示意图；

图7是本发明实施例提供的另一种人体姿态数据的示意图；

图8是本发明实施例提供的另一种视频分类方法的步骤流程图；

图9是本发明实施例提供的一种视频分类装置的框图；

图10是本发明实施例提供的另一种视频分类装置的框图；

图11是本发明实施例提供的一种匹配模块的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种视频分类方法的步骤流程图，应用于终端，如图1所示，该方法可以包括：

步骤101、提取目标视频中的视频姿态数据。

在本发明实施例中，视频画面中的物体内容在做出相关动作时，物体内容一般会产生形体上的形变，而姿态数据可以用来表达这种形体上的形变，姿态数据可以包括物体内容上的多个关键点，以及多个关键点之间的相对位置信息，根据物体内容的结构，多个关键点之间可以建立连接关系，由于姿态数据仅包括多个具有连接关系的关键点，所以姿态数据的数据量一般较小，使得在对姿态数据的处理过程中，产生的计算量相对较小。

在本发明实施例中，相较于视频中视频帧的图像特征信息，姿态数据的数据量更小，且姿态数据更针对于姿态动作本身，姿态数据可以通过几个关键点和关键点之间的相对位置矢量来准确表达一个姿态动作，并且，姿态数据中剔除了视频画面中一些不相关的其他维度信息，如，该其他维度信息可以包括视频画面中的色调、对比度等信息。由于姿态数据剔除了不相关的其他维度信息，因此在视频分类过程中降低了数据计算量，提高了分类精确度。

在该步骤中，提取目标视频中的视频姿态数据，则可以先提取目标视频的一帧视频帧图像，之后根据视频帧图像中的物体内容的结构，在该物体内容中确定若干个关键点，以及这几个关键点之间的相对位置信息。

例如，参照图2，其示出了一种人体姿态数据的示意图，具体的，假设图2示出了视频中的一帧视频帧图像，其中展示了人物下跪的姿态，则人体姿态数据的建立可以先确定视频帧图像中的6个关键点：A、B、C、D、E、F。之后根据人体肢体的结构，建立6个关键点之间的连线关系，如可以通过连线AB确定人体的头部姿态、通过连线BC确定人体的手臂姿态、通过连线BD确定人体的躯干姿态、通过连线DE和连线EF确定人体的腿部姿态，因此，通过人体姿态数据中包括的6个关键点以及这6个关键点之间的连线关系，可以准确表达当前视频帧图像中人物下跪的姿态。

步骤102、将所述视频姿态数据与预设的姿态检索库包括的种子姿态数据进行匹配，确定所述视频姿态数据对应的姿态分类类别，所述姿态检索库包括所述种子姿态数据与姿态分类类别的对应关系。

在本发明实施例中，视频画面中的人物等物体内容，常常存在很多较夸张或独特的姿态动作，包含这些姿态动作内容的视频区间往往是相对看点的精彩内容，快速精确的实现确定这些精彩内容的分类，以及对这些精彩内容片段进行提取，在商业中具有重要的应用价值。本发明实施例可以提供一种基于姿态维度实现视频分类的方法，能够通过姿态数据之间的匹配，精确快速的查找到视频中精彩内容的姿态分类类别，实现对视频的分类。

基于姿态维度实现视频分类，可以通过目标视频中的视频姿态数据，与预设的姿态检索库中的种子姿态数据进行姿态维度的匹配，从而避免进行对目标视频的特征提取处理以及后续的特征匹配计算处理，并且降低了除姿态维度之外其他维度信息的干扰，大大降低了分类过程中的数据计算量。

例如，参照图2，图2示出了一种人物下跪的姿态动作，图2中的人体姿态数据包括6个关键点：A、B、C、D、E、F，以及这6个关键点之间的相对位置信息，假设姿态检索库中存储了下跪姿态动作的下跪姿态数据，参照图3，该下跪姿态数据包括标准下跪动作对应的6个关键点：A’、B’、C’、D’、E’、F’，以及这6个关键点之间的相对位置信息，则在将图2中的人体姿态数据与图3中的下跪姿态数据进行匹配过程中，图2中的人体姿态数据与图3中的下跪姿态数据的关键点数量相同，且关键点之间的相对位置高度相似，因此通过姿态数据之间的匹配，图2中的人体姿态数据会被直接匹配到下跪姿态分类类别。

步骤103、将所述视频姿态数据对应的姿态分类类别，作为所述目标视频的分类类别。

本发明实施例中，若目标视频为较长视频，具有多个姿态动作，则多个姿态动作对应的姿态数据都会与姿态检索库进行匹配，从而为每一个姿态动作确定一个姿态分类类别，使得该较长的目标视频具有多个姿态分类类别。

另外，在提取目标视频中一个姿态动作的视频姿态数据时，还可以将视频姿态数据与包括该姿态动作的视频帧进行关联，使得在确定该姿态动作的姿态分类类别的同时，还确定了该姿态动作对应的视频帧，将这些视频帧进行抽取可以单独生成为一个视频片段，从而实现了从目标视频中提取姿态动作对应的视频片段的目的。

综上，本发明实施例提供的视频分类方法，包括：提取目标视频中的视频姿态数据；将视频姿态数据与预设的姿态检索库进行匹配，确定视频姿态数据对应的姿态分类类别，姿态检索库包括姿态数据与姿态分类类别的对应关系；将姿态分类类别确定为目标视频的分类类别，本发明可以通过目标视频中的视频姿态数据，与预设的姿态检索库中的种子姿态数据进行姿态维度的匹配，实现在姿态维度对目标视频分类的目的。本发明在姿态数据的匹配过程中，降低了其他维度的信息造成的干扰，从而降低了数据计算量，解决了由于图像特征之间特征相似度计算而导致计算量较大的问题。另外，通过姿态数据的匹配方式，避免了对视频进行逐帧特征提取的操作，提高了对目标视频分类的效率。

图4是本发明实施例提供的另一种视频分类方法的步骤流程图，如图4所示，该方法可以包括：

步骤401、将按照第一预设时间周期，从所述目标视频中提取到的多个视频帧图像，以作为所述视频姿态数据。

具体的，在该步骤中，假设本发明实施例提供的视频分类方法需要服务于客户，则目标视频来自于客户，与客户的业务高度相关，此时可以将按照第一预设时间周期，从目标视频中提取到的多个视频帧图像，并可以具体利用open pose算法在视频姿态数据中确定多个关键点，以及多个关键点之间的相对位置矢量。其中，open pose算法是基于深度学习的姿势估计开源框架，通过open pose开源算法，可以实现对图像中姿态数据的提取。

另外，在对目标视频进行提取时，可以按照较快的第一预设时间周期，以从目标视频中提取较多的信息，避免关键信息的遗漏。如，第一预设时间周期可以为1秒。

步骤402、根据所述视频姿态数据与所述种子姿态数据之间的相似度值，从所述视频姿态数据中选取目标视频姿态数据，所述目标视频姿态数据与所述目标种子姿态数据之间的相似度值大于或等于第一相似度阈值。

在本发明实施例中，通过姿态检索库中所包含的具有代表性或具有高价值的种子姿态数据，而通过步骤401得到的视频姿态数据的数量非常多，则可以根据视频姿态数据与种子姿态数据之间的相似度值，利用种子姿态数据对视频姿态数据进行筛选，从而从视频姿态数据中筛选出具有较高价值的目标视频姿态数据，以及与目标视频姿态数据之间的相似度大于或等于第一预设相似度阈值的目标种子姿态数据，并将目标种子姿态数据对应的姿态分类类别，确定为目标视频姿态数据的姿态分类类别。

可选的，每个所述视频姿态数据和每个所述种子姿态数据都包括多个具有连接关系的关键点，以及所述关键点之间的相对位置矢量，在本发明实施例的一种实现方式中，步骤402具体可以包括：

子步骤4021，根据所述视频姿态数据中第一关键点之间的相对位置矢量，获取目标第一关键点对应的第一夹角。

在本发明实施例中，参照图2，假设图2示出了一个视频姿态数据的图形示意图，视频姿态数据中包括了6个关键点：A、B、C、D、E、F，以及这6个关键点之间的相对位置信息，其中非末端端点的目标第一关键点B、D、E分别对应第一夹角∠ABC、∠BDE、∠DEF，这三个第一夹角可以确定为视频姿态数据第一中关键点之间的相对位置信息。

子步骤4022，根据所述种子姿态数据中第二关键点之间的相对位置矢量，获取目标第二关键点对应的第二夹角。

在本发明实施例中，参照图3，假设图3示出了一个种子姿态数据的图形示意图，种子姿态数据中包括了6个关键点：A’、B’、C’、D’、E’、F’，以及这6个关键点之间的相对位置信息，其中非末端端点的目标第一关键点B’、D’、E’分别对应第二夹角∠A’B’C’、∠B’D’E’、∠D’E’F’，这三个第二夹角可以确定为种子姿态数据中第二关键点之间的相对位置信息。

子步骤4023，将所述第一夹角中的目标第一夹角所对应的视频姿态数据作为所述目标视频姿态数据。

子步骤4024，将所述第二夹角中的目标第二夹角对应的种子姿态数据作为所述目标视频姿态数据。

其中，所述目标第一夹角与所述目标第二夹角之间的差值，小于或等于预设夹角值的绝对值；所述第一关键点和所述第二关键点为非末端端点的关键点。

在本发明实施例中，针对子步骤4021的示例中提供的第一夹角∠ABC、∠BDE、∠DEF，以及子步骤4022的示例中提供的第二夹角∠A’B’C’、∠B’D’E’、∠D’E’F’，可以进行∠ABC与∠A’B’C’之间差值的计算，进行∠BDE与∠B’D’E’之间差值的计算，以及进行∠DEF与∠D’E’F’之间差值的计算。

在第一夹角与第二夹角的均值均小于或等于预设夹角值的绝对值时，可以确定图3示出的种子姿态数据，与图2示出的作为视频姿态数据高度相似，从而可以确定第一夹角为目标第一夹角，并确定该目标第一夹角对应的如图2所示的视频姿态数据作为所述目标视频姿态数据。进一步，该第三图像可以被确定为种子姿态数据。可以确定第二夹角为目标第二夹角，并确定该目标第二夹角对应的如图3所示的种子姿态数据作为所述目标种子姿态数据。预设夹角值的绝对值优选为10度至40度。

由于姿态检索库包括种子姿态数据与姿态分类类别的对应关系，所以在本发明实施例的一种实现方式中，在确定目标视频姿态数据和目标种子姿态数据之后，可以将目标种子姿态数据对应的姿态分类类别，以作为视频姿态数据对应的姿态分类类别。

可选的，在本发明实施例的一种实现方式中，在子步骤4024之后，还可以包括：

子步骤4025，根据所述目标视频姿态数据，建立第一矩阵。

在本发明实施例中，在通过夹角的匹配，目标视频姿态数据和目标种子姿态数据，但是为了更高的分类精度，还需要对目标视频姿态数据进行进一步的筛选，因此，本发明实施例提供了一种通过仿射变换计算，来从目标视频姿态数据中筛除与种子姿态数据相似度较低的目标视频姿态数据。

具体的，仿射变换计算是一个线性变换过程，为了降低仿射变换计算的计算量，可以根据目标视频姿态数据，建立第一矩阵，使得目标视频姿态数据以矩阵形式表达。

子步骤4026，根据所述目标种子姿态数据，建立第二矩阵。

在该步骤中，为了降低仿射变换计算的计算量，可以根据目标种子姿态数据，建立第二矩阵，使得目标种子姿态数据以矩阵形式表达。

子步骤4027，将所述第一矩阵与所述第二矩阵进行仿射变换计算，得到计算结果。

具体在实际应用中，视频画面在拍摄过程中，根据拍摄角度和拍摄距离的改变，所呈现出的姿态动作为3D姿态动作，若将一个3D姿态动作转换为逐帧的视频帧，则该3D姿态动作在2D的视频帧中会具有多种不同的呈现方式。而在本发明实施例中，预设的姿态检索库中存储了姿态数据与姿态分类类别的对应关系，目标视频中的视频姿态数据与姿态检索库中存储的姿态数据，可以通过仿射变换计算，消除视频姿态数据与姿态数据之间在2D、3D角度维度上的空间信息。因此，针对一个视频姿态数据，即使在拍摄过程中发生了拍摄角度、拍摄距离的变化，但只要该视频姿态数据的关键点和关键点之间的相对位置信息没有发生改变，就可以通过仿射变换计算，实现该视频姿态数据与姿态检索库中的种子姿态数据之间的同维度匹配，从而从视频姿态数据中进一步筛选出更具有价值的视频姿态数据，使得在视频分类过程中，提供了拍摄角度、拍摄距离更鲁棒的匹配方式。

具体的，在本发明实施例中，仿射变换，又称仿射映射，仿射变换在几何上定义为两个向量空间之间的一个仿射变换或者仿射映射，具体是指在几何中，一个向量空间进行一次线性变换并接上一个平移向量，变换为另一个向量空间的过程。仿射变换包括旋转、平移、伸缩，原来的直线仿射变换后还是直线，原来的平行线经过仿射变换之后还是平行线，这就是仿射。仿射变换保持了二维图形的“平直性”(直线经仿射变换后依然为直线)和“平行性”(直线之间的相对位置关系保持不变，平行线经仿射变换后依然为平行线，且直线上点的位置顺序不会发生变化)。

在该步骤中，通过仿射计算的目的为判断计算结果中是否求解得到仿射矩阵。在仿射计算的过程中，存在一个向量空间进行一次线性变换并接上一个平移向量，变换为另一个向量空间的过程，仿射矩阵可以为该平移向量的矩阵表达形式，用于反映两个向量空间之间的空间映射关系。

子步骤4028，若所述计算结果包括得到仿射矩阵，且所述仿射矩阵与所述第一矩阵相乘后得到的乘积矩阵，与所述第二矩阵之间的平均距离大于或等于预设阈值，则从所有的所述目标视频姿态数据中，删除所述第一矩阵对应的目标视频姿态数据。

如，在本发明实施例中，假设第一矩阵为S，第二矩阵为M。将第二矩阵M进行仿射变化，通过最优化的方式解得一个仿射矩阵T，若这个仿射矩阵T在与第二矩阵相乘后得到的乘积矩阵，与第一矩阵之间的平均距离大于或等于预设阈值，则认为第二矩阵M对应的目标种子姿态数据与第一矩阵S对应的目标视频姿态数据之间的相似度较小，从而可以从所有目标视频姿态数据中删除第二矩阵M对应的目标种子姿态数据。若乘积矩阵，与第一矩阵之间的平均距离小于预设阈值，则认为第二矩阵M对应的目标种子姿态数据与第一矩阵S对应的目标视频姿态数据之间的相似度较大，从而可以从所有目标视频姿态数据中保留第二矩阵M对应的目标种子姿态数据。

例如，参照图2和图5，图2示出了一种常规拍摄角度下拍摄的人物下跪的姿态动作，其拍摄角度为从侧边拍摄人物的下跪动作，图2可以理解为本发明实施例中的目标视频姿态数据。假设为了拍摄到下跪人物的其他角度画面，摄像头的拍摄角度发生了偏转，从而得到了图5中的姿态动作，图5可以理解为本发明实施例中的目标种子姿态数据，则根据图5中包括的目标种子姿态数据与图2中的目标视频姿态数据进行仿射变换计算，若能够得到一个仿射矩阵，且这个仿射矩阵在与第二矩阵相乘后得到的乘积矩阵，与第一矩阵之间的平均距离小于预设阈值，则认为图5中包括的目标种子姿态数据与图2中的目标视频姿态数据之间的相似度较大。图5包括的目标种子姿态数据在经过仿射矩阵的映射后，会转化为与图2的目标视频姿态数据的拍摄角度一致，即图5会转化为图6，最终求乘积矩阵与第一矩阵之间的平均距离，也即是求图6与图2之间的相似度，且图6与图2之间的相似度由图中可以看出，二者之间高度相似，可以在所有目标视频姿态数据中保留第二矩阵M对应的目标种子姿态数据。

子步骤4029，若所述计算结果包括得到仿射矩阵，且根据所述仿射矩阵得到的旋转分量值大于或等于预设分量值，从所有的所述目标视频姿态数据中，删除所述第一矩阵对应的目标视频姿态数据。

在本发明实施例中，存在一些姿态动作的整体角度易混淆的匹配问题，如图2中的侧视人物下跪姿态，在顺时针旋转90度后，会得到图7，图7中的动作姿态又容易与骑自行车的动作姿态混淆，这种混淆会造成视频分类精度的降低，如，图7只是图2的顺时针旋转90度后得到的图，其画面还是一个人物下跪的动作，而在进行视频分类时，常常会将图7对应的画面确定为骑自行车分类，该分类结果是错误的。

而在本发明实施例中，可以针对一个姿态动作预先定义一个预设分量值，该预设分量值包含了该姿态动作所能被接收的旋转程度，即合法程度，当姿态动作的分量值小于预设分量值时，可以确定姿态动作不合法。当姿态动作的分量值大于或等于预设分量值时，可以确定姿态动作合法。

根据第一矩阵与第二矩阵进行仿射变换计算解得的仿射矩阵，可以进一步求得旋转分量值，若该旋转分量值大于或等于预设分量值，则可以从确定该第一矩阵对应的目标视频姿态数据不合法，从而可以从所有目标视频姿态数据中删除第一矩阵对应的目标视频姿态数据。

如，针对下跪动作预设的预设分量值为100度，则图7仅仅是图2的顺时针旋转90度后得到的图，其旋转分量值小于100度，可以认为图7中的动作姿态为合法的下跪姿态。

子步骤40210，若所述计算结果包括未得到仿射矩阵，从所有的所述目标视频姿态数据中，删除所述第一矩阵对应的目标视频姿态数据。

在该步骤中，参照子步骤4028中的示例，若计算结果包括未得到仿射矩阵，即仿射计算求解不出对应的仿射矩阵，或求得的乘积矩阵与第一矩阵之间的平均距离大于或等于预设阈值，则认为图5中包括的目标种子姿态数据与图2中的目标视频姿态数据之间的相似度较小，需从所有目标视频姿态数据中删除图5所示的目标视频姿态数据。

步骤403、从所述种子姿态数据中，选取与所述目标视频姿态数据对应的目标种子姿态数据。

在该步骤中，当确定了目标视频姿态数据时，还可以进一步从种子姿态数据中，确定与目标视频姿态数据之间的相似度值大于或等于第一相似度阈值的目标种子姿态数据。

步骤404、将所述目标种子姿态数据对应的姿态分类类别，以作为所述视频姿态数据对应的姿态分类类别。

在该步骤中，将目标种子姿态数据对应的姿态分类类别，确定为目标视频姿态数据的姿态分类类别，即确定了目标视频中，视频姿态数据对应的姿态动作的姿态分类类别。

可选的，在步骤404之后，还可以包括：

步骤405，根据所述目标视频姿态数据，建立视频片段。

在本发明实施例中，根据确定的目标视频姿态数据，还可以在目标视频中同时找到目标视频姿态数据对应的视频帧图像，将这些视频帧图像进行提取，即可生成一个视频片段，该视频片段往往对应一个精彩内容的姿态动作，达到了在目标视频中根据姿态动作提取精彩内容片段的目的。

步骤406，将所述目标视频姿态数据的姿态分类类别确定为所述视频片段的姿态分类类别。

在该步骤中，将目标视频姿态数据的姿态分类类别，确定为视频片段的姿态分类类别，即确定了目标视频中，视频片段对应的姿态动作的姿态分类类别。

可选的，参照图8，在步骤402之前，还可以包括：

步骤407，提取视频样本中的样本姿态数据。

在本发明实施例中，目前的现有技术都需要事先由人来定义精彩的姿态动作，但是由于人的想象力是有限的，因而导致人工挖掘出的姿态数据之间比较相近，姿态数据的种类也相对较少，在本发明实施例中，可以利用海量的视频样本，通过无监督的方式进行姿态动作的挖掘，达到自动化、全方位的挖掘效果。

具体的，由于是海量的视频样本，因此从视频样本中提取得到的样本姿态数据数量也很多，本发明可以通过无监督自动的方式，对该样本姿态数据进行筛选，从而从所有样本姿态数据中筛选出具有价值的样本姿态数据，以进行姿态检索库的建立。使得姿态动作的定义以纯数学计算方式的自动进行，解决了姿态动作依赖人工定义的问题，由于姿态动作的定义为无监督自动的方式，则可以引入数量巨大的视频样本，实现姿态动作的全方位挖掘，降低了高价值姿态动作的遗漏几率。

另外，视频样本可以从同一个视频样本库中进行选取，也可以分别从不同的视频样本库中提取所需的视频样本，本发明实施例对此不作限定。

可选的，步骤407具体可以包括：

子步骤4071，按照第二预设时间周期，将从第一视频样本中提取的多个视频帧图像，以作为第一样本姿态数据。

在该步骤中，可以从海量的视频样本库中，选取一定数量(如5至10万)的第一视频样本，并将每隔第二预设时间周期从第一视频样本提取的一帧视频帧图像作为第一样本姿态数据，并具体可以利用open pose算法提取第一样本姿态数据中反映主要物体内容的关键点以及关键点之间的相对位置矢量。

子步骤4072，对所述第一样本姿态数据进行分类，得到多个样本类别。

通过子步骤4071得到的第一样本姿态数据，这些第一样本姿态数据的数量繁多，且大量存在姿态数据与姿态数据之间高度相似的情况，因此，在该步骤，对所述第一样本姿态数据进行分类，得到多个样本类别。

具体的，对第一样本姿态数据进行分类的方式，可以通过聚类算法模型进行实现，具体为，将这些第一样本姿态数据导入预设的聚类算法模型，通过聚类算法模型对第一样本姿态数据进行分类，得到的每一个样本类别可以作为一个群簇(cluster)，在通过聚类算法得到的群簇中，可以认为聚类后具有第一样本姿态数据较多的群簇往往对应常见的姿态动作，比如站立，走路等；而那些具有第一样本姿态数据较少的群簇，大概率是比较罕见的姿态动作，这些姿态很可能是比较夸张且有看点的姿态，比如下跪，倒立等，往往对应着精彩的内容。

具体的，聚类算法又称群分析，它是研究分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类算法是由若干模式(Pattern)组成的，通常，模式是一个度量(Measurement)的向量，或者是多维空间中的一个点，聚类算法以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。在本发明实施例中，聚类算法模型可以将第一样本姿态数据作为模式进行分析，研究各个第一样本姿态数据之间的相似性，并将相似性较高的一类第一样本姿态数据聚类到一个群簇中。

子步骤4073，从每个所述样本类别包括的第一样本姿态数据中选取第二样本姿态数据。

在该步骤中，聚类得到的群簇中，包含了常见姿态动作对应的群簇以及罕见姿态动作对应的群簇，一般来说，常见姿态动作对应的群簇以及罕见姿态动作对应的群簇中包含了较多数量的第一样本姿态数据，可以从群簇包括的第一样本姿态数据中选取一个或多个第二样本姿态数据，这些第二样本姿态数据可以是群簇中具有一定代表性或具有高价值的姿态动作。

子步骤4074，将按照第三预设时间周期，将从第二视频样本中提取到的多个视频帧图像，以作为第三样本姿态数据。

其中，所述第二预设时间周期大于所述第三预设时间周期。

在该步骤中，假设本发明实施例提供的视频分类方法需要服务于客户，则第一视频样本可以来自于互联网，或来自于己方的视频样本库，第二视频样本可以来自于客户，与客户的业务高度相关，即第二视频样本可以来自于客户方提供的任务视频样本集，或来自于客户方的视频样本库，此时可以将按照第三预设时间周期，将从第二视频样本中提取到的多个视频帧图像，以作为第三样本姿态数据，并具体利用open pose算法提取第三样本姿态数据中反映主要物体内容的关键点以及关键点之间的相对位置矢量。

另外，针对第一视频样本，可以按照较慢的第二预设时间周期进行视频帧图像的提取，因为在上述应用场景中，第一视频样本为通用的视频样本，其来源并没有具体限定，因此不需要太高的抽帧频率。而第二视频样本往往与客户方的业务需求强相关，因此，在对第二视频样本进行提取时，可以按照较快的第三预设时间周期，以从第二视频样本中提取较多的信息，避免关键信息的遗漏。如，第二预设时间周期可以为10秒，第三预设时间周期可以为1秒。

需要说明的是，在一些其他的视频分类场景中，第一视频样本和第二视频样本也可以来自于同一视频样本库，本发明实施例对此不作限定。

步骤408，从所述样本姿态数据中选取所述种子姿态数据。

在本发明实施例中，由于对视频样本中提取得到了较多的样本姿态数据，因此可以通过进一步的筛选，从较多的样本姿态数据中筛选出具有代表性或具有高价值的样本姿态数据，以进行姿态检索库的建立，保证姿态检索库中数据的有效性。

可选的，步骤408具体可以通过从所述第三样本姿态数据中，选取与所述第二样本姿态数据之间的相似度大于或等于第二相似度阈值的第三样本姿态数据，以作为所述种子姿态数据的方式进行实现。

具体的，从所述第三样本姿态数据中，选取与所述第二样本姿态数据之间的相似度大于或等于第二相似度阈值的第三样本姿态数据，以作为所述种子姿态数据的实现过程，具体可以参照上述步骤402及步骤402的相关子步骤的描述，此处不再赘述。

步骤409，建立包括所述种子姿态数据的姿态检索库。

在该步骤中，可以将种子姿态数据存储至姿态检索库，使得在后续在实现视频分类方法过程中，可以通过调用姿态检索库来获取其中的种子姿态数据。

可选的，步骤409具体可以包括：

子步骤4091，为所述种子姿态数据添加对应的姿态分类类别。

针对种子姿态数据，可以基于图像分析或人工分析，对种子姿态数据进行特征识别，并进一步添加对应的姿态分类类别，如，跑步、下跪、跳舞等姿态分类类别。

子步骤4092，将所述种子姿态数据与所述姿态分类类别，添加至所述姿态检索库。

在视频分类方法服务于客户方的应用场景中，该过程即是从通用的第一视频样本中得到具有代表性或具有高价值姿态动作的第二样本姿态数据，并进一步从客户方提供的第二视频样本中提取得到第三样本姿态数据，通过第二样本姿态数据与第三样本姿态数据之间的相似度计算，从所述第三样本姿态数据中，选取与所述第二样本姿态数据之间的相似度大于或等于第二相似度阈值的第三样本姿态数据，以作为种子姿态数据，并根据种子姿态数据与对应的姿态分类类别，建立姿态检索库，使得后续在进行针对该客户方的视频分类业务时，姿态检索库能够提供更加具有针对性的分类服务。

综上所述，本发明实施例提供的视频分类方法，包括：提取目标视频中的视频姿态数据；将视频姿态数据与预设的姿态检索库进行匹配，确定视频姿态数据对应的姿态分类类别，姿态检索库包括姿态数据与姿态分类类别的对应关系；将姿态分类类别确定为目标视频的分类类别，在本发明中，姿态数据是一种仅关注姿态动作的信息，姿态数据的数据量较小，匹配时产生的计算量也较小。本发明可以通过目标视频中的视频姿态数据，与预设的姿态检索库中的种子姿态数据进行姿态维度的匹配，实现在姿态维度对目标视频分类的目的。本发明在姿态数据的匹配过程中，降低了其他维度的信息造成的干扰，从而降低了数据计算量，解决了由于图像特征之间特征相似度计算而导致计算量较大的问题。另外，通过姿态数据的匹配方式，避免了对视频进行逐帧特征提取的操作，提高了对目标视频分类的效率。另外，针对视频中的一个姿态动作，在将其对应的姿态数据与姿态检索库进行匹配的过程中，可以消除拍摄过程中因拍摄角度、拍摄距离的改变而造成的空间维度差异，从而为该姿态动作匹配到准确的姿态分类类别，提高了分类精确度。

图9是本发明实施例提供的一种视频分类装置的框图，如图9所示，该视频分类装置90可以包括：

第一提取模块901，用于提取目标视频中的视频姿态数据；

可选的，所述第一提取模块901具体用于将按照第一预设时间周期，从所述目标视频中提取到的多个视频帧图像，以作为所述视频姿态数据。

匹配模块902，用于将所述视频姿态数据与预设的姿态检索库包括的种子姿态数据进行匹配，确定所述视频姿态数据对应的姿态分类类别，所述姿态检索库包括所述种子姿态数据与姿态分类类别的对应关系；

确定模块903，用于将所述视频姿态数据对应的姿态分类类别，作为所述目标视频的分类类别。

可选的，参照图10，所述装置还包括：

第二提取模块904，用于提取视频样本中的样本姿态数据；

可选的，第二提取模块904具体用于：

按照第二预设时间周期，将从第一视频样本中提取的多个视频帧图像，以作为第一样本姿态数据；

对所述第一样本姿态数据进行分类，得到多个样本类别；

从每个所述样本类别包括的第一样本姿态数据中选取第二样本姿态数据；

将按照第三预设时间周期，将从第二视频样本中提取到的多个视频帧图像，以作为第三样本姿态数据；

其中，所述第二预设时间周期大于所述第三预设时间周期。

选取模块905，用于从所述样本姿态数据中选取所述种子姿态数据；

可选的，选取模块905具体用于：

从所述第三样本姿态数据中，选取与所述第二样本姿态数据之间的相似度大于或等于第二相似度阈值的第三样本姿态数据，以作为所述种子姿态数据；

建立模块906，用于建立包括所述种子姿态数据的姿态检索库。

可选的，所述建立模块906具体用于：

为所述种子姿态数据添加对应的姿态分类类别；

将所述种子姿态数据与所述姿态分类类别，添加至所述姿态检索库。

可选的，参照图11，匹配模块902，包括：

第一选取子模块9021，用于根据所述视频姿态数据与所述种子姿态数据之间的相似度值，从所述视频姿态数据中选取目标视频姿态数据，所述目标视频姿态数据与所述目标种子姿态数据之间的相似度值大于或等于第一相似度阈值；

可选的，每个所述视频姿态数据和每个所述种子姿态数据都包括多个具有连接关系的关键点，以及所述关键点之间的相对位置矢量，所述第一选取子模块9021具体用于：

根据所述视频姿态数据中第一关键点之间的相对位置矢量，获取目标第一关键点对应的第一夹角；

根据所述种子姿态数据中第二关键点之间的相对位置矢量，获取目标第二关键点对应的第二夹角；

将所述第一夹角中的目标第一夹角所对应的视频姿态数据作为所述目标视频姿态数据；

将所述第二夹角中的目标第二夹角对应的种子姿态数据作为所述目标视频姿态数据；

可选的，所述第一选取子模块9021具体用于：

根据所述目标视频姿态数据，建立第一矩阵；

根据所述目标种子姿态数据，建立第二矩阵；

将所述第一矩阵与所述第二矩阵进行仿射变换计算，得到计算结果；

若所述计算结果包括得到仿射矩阵，且所述仿射矩阵与所述第一矩阵相乘后得到的乘积矩阵，与所述第二矩阵之间的平均距离大于或等于预设阈值，则从所有的所述目标视频姿态数据中，删除所述第一矩阵对应的目标视频姿态数据；

若所述计算结果包括得到仿射矩阵，且根据所述仿射矩阵得到的旋转分量值大于或等于预设分量值，从所有的所述目标视频姿态数据中，删除所述第一矩阵对应的目标视频姿态数据；

若所述计算结果包括未得到仿射矩阵，从所有的所述目标视频姿态数据中，删除所述第一矩阵对应的目标视频姿态数据。

第二选取子模块9022，用于从所述种子姿态数据中，选取与所述目标视频姿态数据对应的目标种子姿态数据；

第一确定子模块9023，用于将所述目标种子姿态数据对应的姿态分类类别，以作为所述视频姿态数据对应的姿态分类类别。

建立子模块9024，用于根据所述目标视频姿态数据，建立视频片段；

第二确定子模块9025，用于将所述目标视频姿态数据的姿态分类类别确定为所述视频片段的姿态分类类别。

综上所述，本发明实施例提供的视频分类装置，包括：提取目标视频中的视频姿态数据；将视频姿态数据与预设的姿态检索库进行匹配，确定视频姿态数据对应的姿态分类类别，姿态检索库包括姿态数据与姿态分类类别的对应关系；将姿态分类类别确定为目标视频的分类类别，本发明可以通过目标视频中的视频姿态数据，与预设的姿态检索库中的种子姿态数据进行姿态维度的匹配，实现在姿态维度对目标视频分类的目的。本发明在姿态数据的匹配过程中，降低了其他维度的信息造成的干扰，从而降低了数据计算量，解决了由于图像特征之间特征相似度计算而导致计算量较大的问题。另外，通过姿态数据的匹配方式，避免了对视频进行逐帧特征提取的操作，提高了对目标视频分类的效率。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

优选的，本发明实施例还提供一种终端，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述视频分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的视频分类方法不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视频分类方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

提取目标视频中的视频姿态数据；

2.根据权利要求1所述的方法，其特征在于，所述提取目标视频中的视频姿态数据的步骤，包括：

将按照第一预设时间周期，从所述目标视频中提取到的多个视频帧图像，以作为所述视频姿态数据。

3.根据权利要求2所述的方法，其特征在于，所述将所述视频姿态数据与预设的姿态检索库包括的种子姿态数据进行匹配，确定所述视频姿态数据对应的姿态分类类别的步骤，包括：

根据所述视频姿态数据与所述种子姿态数据之间的相似度值，从所述视频姿态数据中选取目标视频姿态数据，所述目标视频姿态数据与所述目标种子姿态数据之间的相似度值大于或等于第一相似度阈值；

从所述种子姿态数据中，选取与所述目标视频姿态数据对应的目标种子姿态数据；

将所述目标种子姿态数据对应的姿态分类类别，以作为所述视频姿态数据对应的姿态分类类别。

4.根据权利要求3所述的方法，其特征在于，每个所述视频姿态数据和每个所述种子姿态数据都包括多个具有连接关系的关键点，以及所述关键点之间的相对位置矢量，所述根据所述视频姿态数据与所述种子姿态数据之间的相似度值，从所述视频姿态数据中选取目标视频姿态数据的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，在将所述第一夹角中的目标第一夹角所对应的视频姿态数据作为所述目标视频姿态数据的步骤之后，还包括：

根据所述目标视频姿态数据，建立第一矩阵；

根据所述目标种子姿态数据，建立第二矩阵；

6.根据权利要求3所述的方法，其特征在于，在将所述目标种子姿态数据对应的姿态分类类别，以作为所述视频姿态数据对应的姿态分类类别的步骤之后，还包括：

根据所述目标视频姿态数据，建立视频片段；

将所述目标视频姿态数据的姿态分类类别确定为所述视频片段的姿态分类类别。

7.根据权利要求1所述的方法，其特征在于，在将所述视频姿态数据与预设的姿态检索库包括的种子姿态数据进行匹配，确定所述视频姿态数据对应的姿态分类类别的步骤之前，所述方法还包括：

提取视频样本中的样本姿态数据；

从所述样本姿态数据中选取所述种子姿态数据；

建立包括所述种子姿态数据的姿态检索库。

8.根据权利要求7所述的方法，其特征在于，所述提取所述视频样本中的姿态数据，包括：

对所述第一样本姿态数据进行分类，得到多个样本类别；

其中，所述第二预设时间周期大于所述第三预设时间周期。

9.根据权利要求8所述的方法，其特征在于，所述从所述样本姿态数据中选取所述种子姿态数据，包括：

所述建立包括所述种子姿态数据的姿态检索库，包括：

为所述种子姿态数据添加对应的姿态分类类别；

10.一种视频分类装置，其特征在于，所述装置包括：

第一提取模块，用于提取目标视频中的视频姿态数据；

11.根据权利要求10所述的装置，其特征在于，所述第一提取模块具体用于将按照第一预设时间周期，从所述目标视频中提取到的多个视频帧图像，以作为所述视频姿态数据。

12.根据权利要求11所述的装置，其特征在于，所述匹配模块，包括：

第一选取子模块，用于根据所述视频姿态数据与所述种子姿态数据之间的相似度值，从所述视频姿态数据中选取目标视频姿态数据，所述目标视频姿态数据与所述目标种子姿态数据之间的相似度值大于或等于第一相似度阈值；

第二选取子模块，用于从所述种子姿态数据中，选取与所述目标视频姿态数据对应的目标种子姿态数据；

第一确定子模块，用于将所述目标种子姿态数据对应的姿态分类类别，以作为所述视频姿态数据对应的姿态分类类别。

13.根据权利要求12所述的装置，其特征在于，每个所述视频姿态数据和每个所述种子姿态数据都包括多个具有连接关系的关键点，以及所述关键点之间的相对位置矢量；

所述第一选取子模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述第一选取子模块具体用于：

根据所述目标视频姿态数据，建立第一矩阵；

根据所述目标种子姿态数据，建立第二矩阵；

15.根据权利要求12所述的装置，其特征在于，所述匹配模块还包括：建立子模块，用于根据所述目标视频姿态数据，建立视频片段；

第二确定子模块，用于将所述目标视频姿态数据的姿态分类类别确定为所述视频片段的姿态分类类别。

16.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第二提取模块，用于提取视频样本中的样本姿态数据；

选取模块，用于从所述样本姿态数据中选取所述种子姿态数据；

建立模块，用于建立包括所述种子姿态数据的姿态检索库。

17.根据权利要求16所述的装置，其特征在于，所述第二提取模块具体用于：

对所述第一样本姿态数据进行分类，得到多个样本类别；

其中，所述第二预设时间周期大于所述第三预设时间周期。

18.根据权利要求17所述的装置，其特征在于，所述选取模块具体用于：

所述建立模块具体用于：

为所述种子姿态数据添加对应的姿态分类类别；

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一所述的视频分类方法。