CN111400551B

CN111400551B - 一种视频分类方法、电子设备和存储介质

Info

Publication number: CN111400551B
Application number: CN202010176420.0A
Authority: CN
Inventors: 周晓晓
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2022-11-15
Anticipated expiration: 2040-03-13
Also published as: CN111400551A

Abstract

本发明实施例提供了一种视频分类方法、装置、电子设备和存储介质，通过视频分类模型实现对视频的分类，该视频分类模型包括根据作为训练参数的聚类中心矩阵和所述特征信息进行运算的聚类运算层。通过聚类运算层的运算过程，能够基于聚类中心矩阵中每一列向量所表示的聚类中心对特征信息进行聚类式的分析，提取有利于确定视频所属类别的特征，提高视频分类的准确性。同时，通过视频分类模型实现视频的自动分类，提高了对视频分类的分类效率。

Description

一种视频分类方法、电子设备和存储介质

技术领域

本发明涉及机器学习和视频分析技术领域，尤其是涉及一种视频分类方法、电子设备和存储介质。

背景技术

视频分类有助于进行视频的检索和管理，通常通过对视频添加的标签表示视频所属的类别。传统的方法多通过人工标注的方式对视频进行分类。然而，随着互联网技术的发展，越来越多的视频，尤其是短视频，出现在网络，例如，个人用户上传的短视频。这些短视频涉及动漫、影视、饮食、文娱、体育、游戏等多个类别。如果通过人工标注的方式进行分类，不仅需要消耗大量人力成本，且容易被受个人主观因素影响导致分类不全面和不准确。

可见，通过人工标注的方式对视频进行分类不仅效率低，且容易导致分类不准确。

发明内容

本发明实施例提供一种视频分类方法、电子设备和存储介质，用以解决现有技术中通过人工标注的方式对视频进行分类不仅效率低，且容易导致分类不准确的问题。

针对以上技术问题，第一方面，本发明实施例提供一种视频分类方法，包括：

根据视频的组成元素提取特征信息，其中，所述组成元素包括视频的图像、音频和/或字幕；

将所述特征信息输入视频分类模型，得到由所述视频分类模型输出的分类信息；所述分类信息用于表示所述视频所属的类别；

其中，所述视频分类模型为，将根据样本视频提取的特征信息作为输入，通过机器学习训练得到的用于对视频进行分类的模型；所述视频分类模型包括聚类运算层，所述聚类运算层用于根据作为训练参数的聚类中心矩阵和所述特征信息进行运算。

第二方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上所述的视频分类方法的步骤。

第三方面，本发明实施例提供一种非暂态可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以上任一项所述的视频分类方法的步骤。

本发明的实施例提供了一种视频分类方法、电子设备和存储介质，通过视频分类模型实现对视频的分类，该视频分类模型包括根据作为训练参数的聚类中心矩阵和所述特征信息进行运算的聚类运算层。通过聚类运算层的运算过程，能够基于聚类中心矩阵中每一列向量所表示的聚类中心对特征信息进行聚类式的分析，提取有利于确定视频所属类别的特征，提高视频分类的准确性。同时，通过视频分类模型实现视频的自动分类，提高了对视频分类的分类效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频分类方法的流程示意图；

图2是本发明另一实施例提供的视频分类方法的原理示意图；

图3是本发明另一实施例提供的聚类子层的信息处理过程示意图；

图4是本发明另一实施例提供的权重聚合层的实现原理示意图；

图5是本发明另一实施例提供的视频分类装置的结构框图；

图6是本发明另一实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供一种视频分类方法，适于对任何需要进行分类的视频进行分类，该方法可以由任一设备执行，例如，计算机、服务器、手机等。举例来说，提供大量短视频的社交平台，需要对各用户上传到该社交平台的视频标注标签。为了正确高效地对视频标注标签，可以通过本申请提供的视频分类方法确定视频所属的类别，然后对视频标注与该类别对应的标签。

图1为本实施例提供的视频分类方法的流程示意图，参见图1，该方法包括如下步骤：

步骤101：根据视频的组成元素提取特征信息，其中，所述组成元素包括视频的图像、音频和/或字幕。

其中，所述组成元素还可以包括用于对所述视频进行描述的描述文本和描述语音等，本实施例对此不做具体限制。

其中，特征信息包括根据多种组成元素提取的信息或者根据某一种组成元素提取的信息，例如，特征信息包括根据视频的图像提取的特征矩阵和根据视频的音频提取的特征矩阵，或者特征信息仅包括根据视频的图像提取的特征矩阵。

其中，特征信息的提取包括：将从视频中提取的多帧图像输入Inception_v3模型，将Inception_v3模型输出的特征矩阵作为根据视频的图像提取的特征矩阵；将从视频的音频中获取的音频片段输入vgg模型，将vgg模型输出的特征矩阵作为根据视频的音频提取的特征矩阵。

步骤102：将所述特征信息输入视频分类模型，得到由所述视频分类模型输出的分类信息；所述分类信息用于表示所述视频所属的类别；其中，所述视频分类模型为，将根据样本视频提取的特征信息作为输入，通过机器学习训练得到的用于对视频进行分类的模型；所述视频分类模型包括聚类运算层，所述聚类运算层用于根据作为训练参数的聚类中心矩阵和所述特征信息进行运算。

具体地，视频分类模型为，以从样本视频中提取的样本特征信息作为输入，以表示样本视频所属类别的分类信息作为期望输出，对预先构建的初始模型进行训练得到的模型。所述初始模型包括以聚类中心矩阵作为训练参数的聚类运算层。

视频所属的类别包括动漫、影视、饮食、文娱、体育、游戏等等。分类信息可以是表示视频属于各类别的概率，通常将最大的概率对应的类别作为视频所属的类别。

聚类中心矩阵中的每一列向量均表示一个聚类中心。经过模型的训练过程后，聚类运算层能够基于各聚类中心将视频的特征信息进行聚类式的分析，从而准确地确定视频所属的类别。

本实施例提供了一种视频分类方法，通过视频分类模型实现对视频的分类，该视频分类模型包括根据作为训练参数的聚类中心矩阵和所述特征信息进行运算的聚类运算层。通过聚类运算层的运算过程，能够基于聚类中心矩阵中每一列向量所表示的聚类中心对特征信息进行聚类式的分析，提取有利于确定视频所属类别的特征，提高视频分类的准确性。同时，通过视频分类模型实现视频的自动分类，提高了对视频分类的分类效率。

其中，为了对视频标注标签，在上述步骤102之后还包括：根据所述分类信息确定所述视频所属的类别，对所述视频标记与所述视频所属的类别对应的标签。

进一步地，在上述实施例的基础上，所述将所述特征信息输入视频分类模型，得到由所述视频分类模型输出的分类信息，包括：

将所述特征信息输入所述聚类运算层，由所述聚类运算层输出第一矩阵；

将所述第一矩阵输入所述视频分类模型的权重聚合层，由所述权重聚合层输出第二矩阵；

将所述第二矩阵输入所述视频分类模型的全连接层，由所述全连接层输出预测向量，将所述预测向量作为所述分类信息；

其中，所述权重聚合层包括至少一个卷积子层和至少一个激活函数；所述预测向量包括所述视频所属的类别为各预设类别的概率。

在本实施例中，视频分类模型包括聚类运算层、权重聚合层和全连接层。从视频提取的特征信息依次经过聚类运算层、权重聚合层和全连接层的处理输出分类信息。其中，权重聚合层由卷积子层和激活函数组成，能够进一步地强化表示类别的特征之间的差异，有利于准确地确定视频的类别。

图2为本实施例提供的视频分类方法的原理示意图，参见图2，视频特征(即根据视频的图像提取的特征矩阵)和音频特征(即根据视频的音频提取的特征矩阵)输入聚类运算层201后，由聚类运算层201确定第一矩阵，并将第一矩阵输入权重聚合层202。由权重聚合层202确定第二矩阵后，将第二矩阵输入全连接层203，经过全连接层203输出与各预设类别对应的预测向量，从而通过该预测向量能够确定视频属于各预设类别的概率，将概率最大的一个类别或者将概率较大的多个类别作为该视频所属的类别，根据该视频所属的类别添加标签。

本实施例通过权重聚合层进一步强化了对应于各类别的特征之间的差异，从而有利于更为准确地预测视频所属的类别。

其中，所述将所述第一矩阵输入所述视频分类模型的权重聚合层，由所述权重聚合层输出第二矩阵，包括：

将所述第二矩阵输入所述权重聚合层中的第一卷积子层，得到第一卷积结果，通过第一激活函数对所述第一卷积结果进行处理，得到第一处理结果，将所述第一处理结果输入第二卷积子层，得到第二卷积结果，通过第二激活函数对所述第二卷积结果进行处理，得到所述第二矩阵。

其中，所述第一激活函数为Relu，所述第二激活函数为Sigmod。

本实施例中构建了由第一卷积子层、第一激活函数、第二卷积子层和第二激活函数组成的权重聚合层，其中，表1为由第一卷积子层、第一激活函数、第二卷积子层和第二激活函数组成的权重聚合层的结构。可理解的是，也可以根据需要构建其它结构的权重聚合层，例如，构建由三个或三个以上的卷积子层，以及三个或三个以上的激活函数组成的权重聚合层。

表1权重聚合层的结构信息

本实施例提供了一种结构较为简单的权重聚合层，通过该权重聚合层在不增加计算复杂度的前提下，进一步提高了分类效果。

进一步地，在上述各实施例的基础上，所述将所述特征信息输入所述聚类运算层，由所述聚类运算层输出第一矩阵，包括：

将所述特征信息中根据任一组成元素提取的特征矩阵，作为目标特征矩阵，从所述聚类运算层的各聚类子层中确定与所述目标特征矩阵对应的目标聚类子层；

将所述目标特征矩阵输入所述目标聚类子层，由所述目标聚类子层输出聚类运算矩阵；

获取所述特征信息中每一特征矩阵对应的聚类子层输出的聚类运算矩阵，将获取的聚类运算矩阵进行拼接，得到所述第一矩阵；

其中，所述目标聚类子层用于根据所述目标特征矩阵和属于所述目标聚类子层的聚类中心矩阵进行运算。

若特征信息中包括根据不同的组成元素提取的特征矩阵，则可以将每一特征矩阵输入到与该特征矩阵对应的聚类子层中，最后将各聚类子层输出的聚类运算矩阵进行拼接，得到第一矩阵。

需要说明的是，每一聚类子层中均包括一个聚类中心矩阵，不同聚类子层中的聚类中心矩阵的大小可以不同也可以相同。例如，图2用于对视频特征进行处理的聚类子层中的聚类中心矩阵的大小为1024*64，用于对音频特征进行处理的聚类子层中的聚类中心矩阵的大小为128*32。

本实施例对根据不同种类的组成元素提取的特征矩阵分别进行聚类分析，避免不同种类特征矩阵之间的干扰，最后将各聚类运算矩阵进行拼接，使得后续分类过程基于各组成元素进行，分类过程对视频不同种类的特征进行了全面考虑。

进一步地，在上述各实施例的基础上，为了清楚地说明每一聚类子层的运算过程，图3为本实施例提供的聚类子层的信息处理过程示意图，参见图3，所述将所述目标特征矩阵输入所述目标聚类子层，由所述目标聚类子层输出聚类运算矩阵，包括：

1)将属于所述目标聚类子层的聚类中心矩阵作为目标聚类中心矩阵，将所述目标特征矩阵输入所述目标聚类子层中的聚类分析单元，由所述聚类分析单元输出聚类分析结果；

2)将所述聚类分析结果和所述目标特征矩阵输入所述目标聚类子层中的中间运算单元，由所述中间运算单元输出中间运算结果；

3)将所述聚类分析结果和所述中间运算结果输入所述目标聚类子层中的第一运算单元，由所述第一运算单元根据所述聚类分析结果、所述中间运算结果和作为训练参数的协方差矩阵，确定第一编码矩阵；

4)将所述聚类分析结果、所述中间运算结果和所述目标特征矩阵输入所述目标聚类子层中的第二运算单元，由所述第二运算单元根据所述聚类分析结果、所述中间运算结果、所述目标特征矩阵和所述协方差矩阵，确定第二编码矩阵；

5)将所述第一编码矩阵和所述第二编码矩阵进行拼接，得到由所述目标聚类子层输出的聚类运算矩阵。

上述1)中所述将所述目标特征矩阵输入所述目标聚类子层中的聚类分析单元，由所述聚类分析单元输出聚类分析结果，具体包括：

将所述目标特征矩阵in_put输入所述聚类分析单元，由所述聚类分析单元根据所述目标特征矩阵in_put与所述目标聚类中心矩阵Ck进行叉乘的结果，确定第一变换矩阵，根据所述第一变换矩阵确定第一权重矩阵activation，对所述第一权重矩阵activation进行转置，得到第二权重矩阵activation_T；

根据所述第一权重矩阵activation的每一列向量中各元素的和，确定特征聚类向量a_sum，将所述第二权重矩阵activation_T和所述特征聚类向量a_sum作为所述聚类分析结果。

其中，所述根据所述第一变换矩阵确定第一权重矩阵，包括：将所述第一变换矩阵经过softmax函数激活，得到所述第一权重矩阵。

上述2)中所述将所述聚类分析结果和所述目标特征矩阵输入所述目标聚类子层中的中间运算单元，由所述中间运算单元输出中间运算结果，包括；

将所述目标特征矩阵in_put和所述聚类分析结果中的所述第二权重矩阵activation_T输入所述中间运算单元，由所述中间运算单元根据所述第二权重矩阵activation_T和所述目标特征矩阵in_put进行叉乘的结果，确定第二变换矩阵，对所述第二变换矩阵进行转置，得到第三变换矩阵fv1_1，将所述第三变换矩阵fv1_1作为所述中间运算结果。

上述3)中所述将所述聚类分析结果和所述中间运算结果输入所述目标聚类子层中的第一运算单元，由所述第一运算单元根据所述聚类分析结果、所述中间运算结果和作为训练参数的协方差矩阵，确定第一编码矩阵，包括：

将所述聚类分析结果中的所述特征聚类向量a_sum，以及所述第三变换矩阵fv1_1输入所述第一运算单元，由所述第一运算单元根据所述目标聚类中心矩阵Ck的每一行向量分别与所述特征聚类向量对应位置元素相乘的结果，确定第四变换矩阵a1；

根据所述第三变换矩阵fv1_1与所述第四变换矩阵a1相减的结果，确定第一残差矩阵fv1_2，根据所述第一残差矩阵fv1_2与所述协方差矩阵δ_k相除的结果，确定所述第一编码矩阵fv1_3。

上述4)中所述将所述聚类分析结果、所述中间运算结果和所述目标特征矩阵输入所述目标聚类子层中的第二运算单元，由所述第二运算单元根据所述聚类分析结果、所述中间运算结果、所述目标特征矩阵和所述协方差矩阵，确定第二编码矩阵，包括：

将所述第二权重矩阵activation_T、所述特征聚类向量a_sum、所述第三变换矩阵fv1_1和所述目标特征矩阵in_put输入所述第二运算单元，由所述第二运算单元对所述目标特征矩阵的每一元素进行平方运算，得到二阶特征矩阵，根据所述第二权重矩阵activation_T与所述二阶特征矩阵进行叉乘的结果，确定第五变换矩阵，对所述第五变换矩阵进行转置，得到第六变换矩阵fv2_1；

对所述目标聚类中心矩阵Ck的每一元素进行平方运算，得到二阶聚类中心矩阵，根据所述二阶聚类中心矩阵的每一行向量分别与所述特征聚类向量a_sum对应位置元素相乘的结果，确定第七变换矩阵a2；

将所述目标聚类中心矩阵Ck的每一元素乘以预设比值，得到变换聚类中心矩阵，根据所述第三变换矩阵fv1_1与所述变换中心矩阵进行点乘的结果，确定第八变换矩阵b2；

对所述协方差矩阵δ_k的每一元素进行平方运算，得到二阶协方差矩阵，将所述第六变换矩阵fv2_1、所述第七变换矩阵a2和所述第八变换矩阵b2相加，得到第二残差矩阵fv2_2，根据所述第二残差矩阵fv2_2与所述二阶协方差矩阵相除的结果，确定所述第二编码矩阵fv2_3。

其中，所述预设比值由人为设定，例如，所述预设比值为-2。

其中，目标特征矩阵in_put为根据视频的图像提取的特征in_video、根据视频的音频提取的特征in_audio。

上述4)中，根据经过平方运算的目标特征矩阵、目标聚类中心矩阵和协方差矩阵进行运算，增加了聚类子层对目标特征矩阵进行分析过程中的非线性因素，非线性因素的增加有利于提高分类的准确性。

其中，上述5)中所述将所述第一编码矩阵和所述第二编码矩阵进行拼接，得到由所述目标聚类子层输出的聚类运算矩阵，包括：

对所述第一编码矩阵fv1_3进行归一化处理，对所述第二编码矩阵fv2_3进行归一化处理，将归一化处理后的第一编码矩阵fv1_3和归一化处理后的第二编码矩阵fv2_3进行拼接，得到由所述目标聚类子层输出的聚类运算矩阵。

其中，5)中归一化处理的目的是为了后面数据处理的方便，以及保证模型运行时收敛加快。

本实施例通过聚类子层中的聚类分析单元、中间运算单元、第一运算单元和第二运算单元实现了对目标特征矩阵进行聚类性的分析，有利于根据分析对视频进行分类。

其中，所述根据视频的组成元素提取特征信息，包括：

从所述视频中提取帧数等于预设帧数的图像，将提取的图像输入Inception_v3模型，将Inception_v3模型最后一个隐层输出的矩阵作为根据所述视频的图像提取的特征矩阵；

从所述视频的音频中提取片段数量等于预设片段数量的音频片段，将提取的音频片段输入vgg模型中，将vgg模型输出的矩阵作为根据所述视频的音频提取的特征矩阵；

将根据所述视频的图像提取的特征矩阵和根据所述视频的音频提取的特征矩阵，作为所述特征信息；

其中，所述视频包含的图像帧数越多，所述预设帧数越大；所述视频的音频时长越长，所述预设片段数量越大。

本实施例提供的方法可以用于对任意时长的视频进行分类，但是为了保证视频分类的效率，本实施例提供的方法通常用于对短视频进行分类。其中，短视频为视频播放时长小于预设播放时长的视频。例如，所述预设播放时长为5分钟，预设帧数等于300，所述预设片段数量等于300。

视频分类模型通过对初始模型进行训练得到，以下对视频分类模型的训练过程进行介绍：

作为示例，所述初始模型包括上述实施例中的聚类运算层、权重聚合层和全连接层，其中，聚类运算层包括至少一个聚类子层。初始模型中的训练参数包括各聚类子层的聚类中心矩阵和各聚类子层的协方差矩阵。在模型的训练过程中，以从样本视频中提取的样本特征信息作为输入，以表示样本视频所属类别的分类信息作为训练标签，通过对训练参数的不断调整得到视频分类模型。

以下提供一种具体的通过模型训练得到视频分类模型的过程，该过程以通过视频的图像提取特征矩阵(in_video)和通过视频的音频提取特征矩阵作为特征信息(in_audio)，该过程包括如下4个步骤：

步骤1：构建样本数据集

获取大量时长短于5分钟的视频，对每个视频均匀采样300帧图像，将300张采样图像输入现有的Inception_v3模型，通过该模型最后一个隐层的输出，得到维度是2048的向量。由于采样图像为300张，因而得到2048×300的初始图像特征矩阵。再采用PCA降维处理，得到300*1024的图像特征矩阵in_video(根据图像提取的特征矩阵)。

对音频进行均匀采样，得到300个音频片段，输入现有的vgg模型，得到300X128的音频特征矩阵in_audio(根据音频提取的特征矩阵)。预设类别包括如下至少一种：自拍、搞笑、动画、游戏、篮球、足球、综艺、电影等。将视频特征矩阵、音频特征、以及视频标签label整合，得到视频标签数据集。

步骤2：构建深度学习模型

第一模块：实现in_video聚类

(1)定义用于处理根据视频图像提取的特征矩阵in_video的聚类中心矩阵C_k，其中，C_k为1024*64的矩阵，k表示64个聚类中心，每个聚类中心为1024维。定义协方差矩阵δ_k为1024*64的矩阵，与C_k对应，用来调整误差大小。

(2)将根据视频图像提取的特征矩阵in_video与图像对应的聚类中心矩阵C_k相乘，得到300*64大小的第一变换矩阵，将该第一变换矩阵阵经过softmax函数激活，得到第一权重矩阵activation，维度为300*64。

(3)将得到的第一权重矩阵activation，依次计算每列元素的总和，得到特征聚类向量a_sum，维度为1*64。该特征聚类向量表示视频图像特征到每个聚类中心的距离，若特征聚类向量中的值越接近1，则表示视频图像特征距对应的聚类中心更近。反之，若值越接近0，则表示视频图像特征距对应的聚类中心越远。

(4)将第一权重矩阵activation进行矩阵转置，得到64*300的第二权重矩阵activation_T。

(5)将第二权重矩阵activation_T与特征矩阵in_video相乘，得到大小为64*1024的第二变换矩阵，将该第二变换矩阵转置，得到1024*64的第三变换矩阵fv1_1。

(6)将特征聚类向量a_sum与聚类中心矩阵C_k的每行向量进行逐点相乘，得到大小为1024*64的第四变换矩阵a1。

(7)将第三变换矩阵fv1_1与第四变换矩阵a1相减，得到大小为1024*64的第一残差矩阵fv1_2，第一残差矩阵fv1_2表示各个1024维特征关于每个聚类中心的累加残差。

(8)将第一残差矩阵fv1_2与协方差矩阵δ_k相除，得到大小为1024*64的一阶数据，作为第一编码矩阵fv1_3。

(9)将特征矩阵in_video中的每一个元素求平方，得到大小为300*1024的二阶特征矩阵，将第二权重矩阵activation_T与该二阶特征矩阵相乘，得到大小为64*1024的第五变换矩阵,将该第五变换矩阵转置，得到1024*64的第六变换矩阵fv2_1。

(10)将聚类中心矩阵C_k中的每一个元素求平方，得到大小为1024*64的二阶聚类中心矩阵。将特征聚类向量a_sum与该二阶聚类中心矩阵的每行向量进行逐点相乘，得到大小为1024*64的第七变换矩阵a2。

(11)将聚类中心矩阵C_k中的每一个元素等比例放大-2倍，得到大小为1024*64的变换聚类中心矩阵，将第三变换矩阵fv1_1与该变换中心矩阵的每行向量进行逐点相乘，得到大小为1024*64的第八变换矩阵b2。

(12)将第六变换矩阵fv2_1与第七变换矩阵a2、第八变换矩阵b2相加，得到大小为1024*64的第二残差矩阵fv2_2，即各个1024维特征关于每个聚类中心的残差平方的累加。

(13)将协方差矩阵δ_k中的每一个元素求平方，得到1024*64的矩阵

将第二残差矩阵fv2_2与矩阵

相除，得到大小为1024*64的二阶数据，作为第二编码矩阵fv2_3。

(14)将第一编码矩阵fv1_3作归一化处理，得到大小为1*65536的矩阵fv1_4,将第二编码矩阵fv2_3作归一化处理，得到大小为1*65536的矩阵fv2_4。将矩阵fv1_4和fv2_4矩阵按列拼接，得到1*131072的输出矩阵fv_video(即聚类子层输出的聚类运算矩阵)。

第二模块：实现in_audio聚类(其中，第一模块与第二模块的处理过程相互独立)

(1)定义用于处理根据视频图像提取的特征矩阵in_audio的聚类中心矩阵C_k为128*32的矩阵，k表示32个聚类中心，每个聚类中心为128维。定义协方差矩阵δ_k为128*32的矩阵，与C_k对应，用来调整误差大小。

(2)将根据视频音频提取的特征矩阵in_audio与音频对应的聚类中心矩阵C_k相乘，得到300*128大小的第一变换矩阵，将该第一变换矩阵经过softmax函数激活，得到第一权重矩阵activation，维度为300*32.

(3)将得到的第一权重矩阵activation，依次计算每列元素的总和，得到特征聚类向量a_sum，维度为1*32。该特征聚类向量表示视频的音频到每个聚类中心的距离，若特征聚类向量中的值越接近1，则表示音频特征距对应的聚类中心更近。反之，若值越接近0，则表示音频特征距对应的聚类中心越远。

(4)将第一权重矩阵activation进行矩阵转置，得到32*300的第二权重矩阵activation_T。

(5)将第二权重矩阵activation_T与特征矩阵in_audio相乘，得到大小为32*128的第二变换矩阵，将该第二变换矩阵转置，得到128*32的第三变换矩阵fv1_1。

(6)将特征聚类向量a_sum与聚类中心矩阵C_k的每行向量进行逐点相乘，得到大小为128*32的第四变换矩阵a1。

(7)将第三变换矩阵fv1_1与第四变换矩阵a1相减，得到大小为128*32的第一残差矩阵fv1_2，第一残差矩阵fv1_2表示各个128维特征关于每个聚类中心的累加残差。

(8)将第一残差矩阵fv1_2与协方差矩阵δ_k相除，得到大小为128*64的的一阶数据，作为第一编码矩阵fv1_3。

(9)将特征矩阵in_audio中的每一个元素求平方，得到大小为300*128的二阶特征矩阵，将第二权重矩阵activation_T与该二阶特征矩阵相乘，得到大小为32*128的第五变换矩阵,,将该第五变换矩阵转置，得到128*32的第六变换矩阵fv2_1。

(10)将聚类中心矩阵C_k中的每一个元素求平方，得到大小为128*32的二阶聚类中心矩阵。将特征聚类向量a_sum与该二阶聚类中心矩阵的每行向量进行逐点相乘，得到大小为128*32的第第七变换矩阵a2。

(11)将聚类中心矩阵C_k中的每一个元素等比例放大-2倍，得到大小为128*32的变换聚类中心矩阵，将第三变换矩阵fv1_1与该变换中心矩阵的每行向量进行逐点相乘，得到大小为128*32的第八变换矩阵b2。

(12)将第六变换矩阵fv2_1与第七变换矩阵a2、第八变换矩阵b2相加，得到大小为128*32的第二残差矩阵fv2_2，即各个128维特征关于每个聚类中心的残差平方的累加。

(13)将协方差矩阵δ_k中的每一个元素求平方，得到128*32的矩阵δ_k^2，将第二残差矩阵fv2_2与矩阵δ_k^2相除，得到大小为128*32的二阶数据，作为第二编码矩阵fv2_3。

(14)将第一编码矩阵fv1_3作归一化处理，得到大小为1*4096的矩阵fv1_4,将第二编码矩阵fv2_3作归一化处理，得到大小为1*4096的矩阵fv2_4。将矩阵fv1_4和fv2_4矩阵按列拼接，得到1*8192的输出矩阵fv_audio。

第三模块：WeightLayer实现特征权重聚合

(1)将视频输出矩阵fv_video与音频输出矩阵fv_audio按列拼接，得到大小为1*139264的输出矩阵fv。将

然后对矩阵fv通过权重聚合层进行处理：

(2)将矩阵fv输入到卷积组WeightLayer中，其中卷积组WeightLayer的网络结构定义如下。如下表所示，WeightLayer包含2个卷积层、1个Relu层以及1个sigmod激活函数，其中2个卷积层的卷积核大小均为1*1。WeightLayer的结构如上表1所示。

图4为本实施例提供的权重聚合层的实现原理示意图，参见图4，对于输入矩阵fv，获取经过Relu层之后的图像特征P0以及经过sigmod激活函数之后的对应权重W2，其中P0、W2都是大小为1X2048的矩阵。将P0与W2进行矩阵点乘，得到大小为1*2048的特征矩阵P1。其中，图4中的Snow、Tree和Ski均为用于表示视频类别的标签词。

第四模块：标签分类

将特征矩阵P1通过全连接层，得到输出predict(即预测向量)，其表现形式为视频在每个类别的概率，该值越大则表示更接近对应类别，反之，该值越小，则表示与对应类别差别越大。

步骤3：训练模型

(1)将样本数据输入到步骤2构建的模型中。一组样本数据包含视频特征、音频特征和标签数据label。

(2)采用交叉熵损失函数，将模型输出值predict与实际标签label进行交叉熵损失计算得到损失loss值。交叉熵损失函数公式如下，其中y代表实际值label,x代表输出值predict，w为初始化权重：

loss(x,y)＝-w[ylogx+(1-y)log(1-x)]

例如，短视频的预设分类类别为动漫、影视、饮食、文娱、体育、游戏，且短视频分类结果为[动漫(0.01)，影视(0.91)，饮食(0.87)，文娱(0.02)，体育(0.01)，游戏(0.01)]，生成的分类输出predict即为(0.01，0.98，0.95，0.02，0.01，0.01)。若短视频实际标签label为[动漫(0)，影视(1)，饮食(1)，文娱(0)，体育(0)，游戏(0)]，0代表不属于该分类，1代表属于对应分类，即(0，1，1，0，0，0)。依次计算每个类型的交叉熵损失，进行累加求平均，即得到最终的损失loss值。得到损失loss值后，通过反向传播算法对模型进行训练。

(3)训练完成后，得到深度学习模型。

步骤4：对短视频进行自动标签分类检测

抽取短视频的300帧,通过特征提取得到短视频的视频特征以及音频特征，将该特征输入训练好的短视频分类模型，输出每个类别的对应概率，提取概率最大的前3个类别，作为短视频的类别输出。

本实施例提供的方法能够实现短视频标签的自动分类，准确高效，且经过模拟，结果符合预期。

图5为本实施例提供的视频分类装置的结构框图，参见图5，所述视频分类装置包括提取模块501和分类模块502，其中，

提取模块501，用于根据视频的组成元素提取特征信息，其中，所述组成元素包括视频的图像、音频和/或字幕；

分类模块502，用于将所述特征信息输入视频分类模型，得到由所述视频分类模型输出的分类信息；所述分类信息用于表示所述视频所属的类别；

本发明的实施例提供了一种视频分类装置，通过视频分类模型实现对视频的分类，该视频分类模型包括根据作为训练参数的聚类中心矩阵和所述特征信息进行运算的聚类运算层。通过聚类运算层的运算过程，能够基于聚类中心矩阵中每一列向量所表示的聚类中心对特征信息进行聚类式的分析，提取有利于确定视频所属类别的特征，提高视频分类的准确性。同时，通过视频分类模型实现视频的自动分类，提高了对视频分类的分类效率。

本实施例提供的视频分类装置适用于上述各实施例提供的视频分类方法，在此不再赘述。

可选地，所述将所述特征信息输入视频分类模型，得到由所述视频分类模型输出的分类信息，包括：

可选地，所述将所述特征信息输入所述聚类运算层，由所述聚类运算层输出第一矩阵，包括：

可选地，所述将所述目标特征矩阵输入所述目标聚类子层，由所述目标聚类子层输出聚类运算矩阵，包括：

将属于所述目标聚类子层的聚类中心矩阵作为目标聚类中心矩阵，将所述目标特征矩阵输入所述目标聚类子层中的聚类分析单元，由所述聚类分析单元输出聚类分析结果；

将所述聚类分析结果和所述目标特征矩阵输入所述目标聚类子层中的中间运算单元，由所述中间运算单元输出中间运算结果；

将所述聚类分析结果和所述中间运算结果输入所述目标聚类子层中的第一运算单元，由所述第一运算单元根据所述聚类分析结果、所述中间运算结果和作为训练参数的协方差矩阵，确定第一编码矩阵；

将所述聚类分析结果、所述中间运算结果和所述目标特征矩阵输入所述目标聚类子层中的第二运算单元，由所述第二运算单元根据所述聚类分析结果、所述中间运算结果、所述目标特征矩阵和所述协方差矩阵，确定第二编码矩阵；

将所述第一编码矩阵和所述第二编码矩阵进行拼接，得到由所述目标聚类子层输出的聚类运算矩阵。

可选地，所述将所述目标特征矩阵输入所述目标聚类子层中的聚类分析单元，由所述聚类分析单元输出聚类分析结果，包括：

将所述目标特征矩阵输入所述聚类分析单元，由所述聚类分析单元根据所述目标特征矩阵与所述目标聚类中心矩阵进行叉乘的结果，确定第一变换矩阵，根据所述第一变换矩阵确定第一权重矩阵，对所述第一权重矩阵进行转置，得到第二权重矩阵；

根据所述第一权重矩阵的每一列向量中各元素的和，确定特征聚类向量，将所述第二权重矩阵和所述特征聚类向量作为所述聚类分析结果。

可选地，所述将所述聚类分析结果和所述目标特征矩阵输入所述目标聚类子层中的中间运算单元，由所述中间运算单元输出中间运算结果，包括；

将所述目标特征矩阵和所述聚类分析结果中的所述第二权重矩阵输入所述中间运算单元，由所述中间运算单元根据所述第二权重矩阵和所述目标特征矩阵进行叉乘的结果，确定第二变换矩阵，对所述第二变换矩阵进行转置，得到第三变换矩阵，将所述第三变换矩阵作为所述中间运算结果。

可选地，所述将所述聚类分析结果和所述中间运算结果输入所述目标聚类子层中的第一运算单元，由所述第一运算单元根据所述聚类分析结果、所述中间运算结果和作为训练参数的协方差矩阵，确定第一编码矩阵，包括：

将所述聚类分析结果中的所述特征聚类向量，以及所述第三变换矩阵输入所述第一运算单元，由所述第一运算单元根据所述目标聚类中心矩阵的每一行向量分别与所述特征聚类向量对应位置元素相乘的结果，确定第四变换矩阵；

根据所述第三变换矩阵与所述第四变换矩阵相减的结果，确定第一残差矩阵，根据所述第一残差矩阵与所述协方差矩阵相除的结果，确定所述第一编码矩阵。

可选地，所述将所述聚类分析结果、所述中间运算结果和所述目标特征矩阵输入所述目标聚类子层中的第二运算单元，由所述第二运算单元根据所述聚类分析结果、所述中间运算结果、所述目标特征矩阵和所述协方差矩阵，确定第二编码矩阵，包括：

将所述第二权重矩阵、所述特征聚类向量、所述第三变换矩阵和所述目标特征矩阵输入所述第二运算单元，由所述第二运算单元对所述目标特征矩阵的每一元素进行平方运算，得到二阶特征矩阵，根据所述第二权重矩阵与所述二阶特征矩阵进行叉乘的结果，确定第五变换矩阵，对所述第五变换矩阵进行转置，得到第六变换矩阵；

对所述目标聚类中心矩阵的每一元素进行平方运算，得到二阶聚类中心矩阵，根据所述二阶聚类中心矩阵的每一行向量分别与所述特征聚类向量对应位置元素相乘的结果，确定第七变换矩阵；

将所述目标聚类中心矩阵的每一元素乘以预设比值，得到变换聚类中心矩阵，根据所述第三变换矩阵与所述变换中心矩阵进行点乘的结果，确定第八变换矩阵；

对所述协方差矩阵的每一元素进行平方运算，得到二阶协方差矩阵，将所述第六变换矩阵、所述第七变换矩阵和所述第八变换矩阵相加，得到第二残差矩阵，根据所述第二残差矩阵与所述二阶协方差矩阵相除的结果，确定所述第二编码矩阵。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令，以执行如下方法：根据视频的组成元素提取特征信息，其中，所述组成元素包括视频的图像、音频和/或字幕；将所述特征信息输入视频分类模型，得到由所述视频分类模型输出的分类信息；所述分类信息用于表示所述视频所属的类别；其中，所述视频分类模型为，将根据样本视频提取的特征信息作为输入，通过机器学习训练得到的用于对视频进行分类的模型；所述视频分类模型包括聚类运算层，所述聚类运算层用于根据作为训练参数的聚类中心矩阵和所述特征信息进行运算。

此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：根据视频的组成元素提取特征信息，其中，所述组成元素包括视频的图像、音频和/或字幕；将所述特征信息输入视频分类模型，得到由所述视频分类模型输出的分类信息；所述分类信息用于表示所述视频所属的类别；其中，所述视频分类模型为，将根据样本视频提取的特征信息作为输入，通过机器学习训练得到的用于对视频进行分类的模型；所述视频分类模型包括聚类运算层，所述聚类运算层用于根据作为训练参数的聚类中心矩阵和所述特征信息进行运算。

另一方面，本发明实施例还提供一种非暂态可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：根据视频的组成元素提取特征信息，其中，所述组成元素包括视频的图像、音频和/或字幕；将所述特征信息输入视频分类模型，得到由所述视频分类模型输出的分类信息；所述分类信息用于表示所述视频所属的类别；其中，所述视频分类模型为，将根据样本视频提取的特征信息作为输入，通过机器学习训练得到的用于对视频进行分类的模型；所述视频分类模型包括聚类运算层，所述聚类运算层用于根据作为训练参数的聚类中心矩阵和所述特征信息进行运算。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频分类方法，其特征在于，包括：

其中，所述视频分类模型为，将根据样本视频提取的特征信息作为输入，通过机器学习训练得到的用于对视频进行分类的模型；所述视频分类模型包括聚类运算层，所述聚类运算层用于根据作为训练参数的聚类中心矩阵和所述特征信息进行运算；

所述将所述特征信息输入视频分类模型，得到由所述视频分类模型输出的分类信息，包括：

获取所述特征信息中每一特征矩阵对应的聚类子层输出的聚类运算矩阵，将获取的聚类运算矩阵进行拼接，得到第一矩阵；

其中，所述目标聚类子层用于根据所述目标特征矩阵和属于所述目标聚类子层的聚类中心矩阵进行运算；

2.根据权利要求1所述的视频分类方法，其特征在于，所述将所述目标特征矩阵输入所述目标聚类子层，由所述目标聚类子层输出聚类运算矩阵，包括：

3.根据权利要求2所述的视频分类方法，其特征在于，所述将所述目标特征矩阵输入所述目标聚类子层中的聚类分析单元，由所述聚类分析单元输出聚类分析结果，包括：

4.根据权利要求3所述的视频分类方法，其特征在于，所述将所述聚类分析结果和所述目标特征矩阵输入所述目标聚类子层中的中间运算单元，由所述中间运算单元输出中间运算结果，包括；

5.根据权利要求4所述的视频分类方法，其特征在于，所述将所述聚类分析结果和所述中间运算结果输入所述目标聚类子层中的第一运算单元，由所述第一运算单元根据所述聚类分析结果、所述中间运算结果和作为训练参数的协方差矩阵，确定第一编码矩阵，包括：

6.根据权利要求4所述的视频分类方法，其特征在于，所述将所述聚类分析结果、所述中间运算结果和所述目标特征矩阵输入所述目标聚类子层中的第二运算单元，由所述第二运算单元根据所述聚类分析结果、所述中间运算结果、所述目标特征矩阵和所述协方差矩阵，确定第二编码矩阵，包括：

将所述目标聚类中心矩阵的每一元素乘以预设比值，得到变换聚类中心矩阵，根据所述第三变换矩阵与变换中心矩阵进行点乘的结果，确定第八变换矩阵；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的视频分类方法的步骤。

8.一种非暂态可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述的视频分类方法的步骤。