CN112084371A

CN112084371A - 一种电影多标签分类方法、装置、电子设备以及存储介质

Info

Publication number: CN112084371A
Application number: CN202010708014.4A
Authority: CN
Inventors: 吕子钰; 禹一童; 杨敏; 李成明; 姜青山
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-12-15
Anticipated expiration: 2040-07-21
Also published as: CN112084371B

Abstract

本申请公开了一种电影多标签分类方法、装置、电子设备以及计算机可读存储介质，该电影多标签分类方法包括：获取连续的视频帧序列，其中，视频帧序列包括若干视频片段；基于预设的神经网络模型获取视频帧序列的视频片段特征；基于视频片段特征计算注意力矩阵；根据注意力矩阵遍历视频帧序列，以输出视频帧序列的标签类别。上述方案，能够提高对视频中重要内容的关注程度，提高多标签分类的准确性。

Description

一种电影多标签分类方法、装置、电子设备以及存储介质

技术领域

本申请涉及计算机视觉应用技术领域，特别是涉及一种人脸点名方法、装置、电子设备以及存储介质。

背景技术

电影的类别标签(例如战争、喜剧、动画等)作为一种高度浓缩了电影内容的信息，不仅是人们选择影片的重要标准而且也是构建电影数据库的基础。但是，随着电影工业的发展，电影类别的种类也随之增多。因此，构建一个高效的电影标签分类***来对旧电影的电影标签进行更新具有十分重要的现实意义和应用价值。

目前，现有的电影分类算法主要包括基于电影预告片的和海报。其中，基于海报的方法的局限性在于电影的海报种类繁多，并且海报可能无法完全蕴含其类别信息，所以此类方法的预测精度有限。而基于电影预告片的电影分类方法所存在的主要问题主要有：

(1)认为一部影片仅从属于单个类别；

(2)多利用电影预告片中的低级视觉特征进行分类；

(3)并未将某些具有固定模式且不包含有用的分类特征的视频帧(例如开场和结尾)和其他视频帧加以区分，可能误导分类。

目前的分类方法不仅无法有效地对视频中的时序信息建模，而且在选择关键帧时还有可能挑选到无效帧(如电影中的片头和片尾)。

发明内容

本申请至少提供一种电影多标签分类方法、装置、电子设备以及计算机可读存储介质。

本申请第一方面提供了一种电影多标签分类方法，所述电影多标签分类方法包括：

获取连续的视频帧序列，其中，所述视频帧序列包括若干视频片段；

基于预设的神经网络模型获取所述视频帧序列的视频片段特征；

基于所述视频片段特征计算注意力矩阵；

根据所述注意力矩阵遍历所述视频帧序列，以输出所述视频帧序列的标签类别。

其中，所述根据所述注意力矩阵遍历所述视频帧序列，以输出所述视频帧序列的标签类别的步骤，包括：

基于所述注意力矩阵以及所述视频片段特征获取对应的视频特征矩阵；

通过所述注意力矩阵和所述视频特征矩阵组成两层感知机；

根据所述两层感知机将所述视频帧序列所在的空间转换到电影类别空间；

在所述电影类别空间输出所述视频帧序列的标签类别。

其中，所述基于所述视频片段特征计算注意力矩阵的步骤，包括：

基于BiLSTM计算所述视频片段特征的前向隐藏状态以及后向隐藏状态；

采用自注意力机制计算所有所述视频片段特征的前向隐藏状态以及后向隐藏状态的注意力矩阵。

其中，所述采用自注意力机制计算所有所述视频片段特征的前向隐藏状态以及后向隐藏状态的注意力矩阵的步骤，包括：

计算每一视频片段特征的前向隐藏状态以及后向隐藏状态的隐藏元素；

获取所述BiLSTM的隐层节点数量；

基于所有所述视频片段特征的隐藏元素以及所述隐层节点数量得到所述注意力矩阵。

其中，所述基于所述注意力矩阵以及所述视频片段特征获取对应的视频特征矩阵的步骤，包括：

获取所有所述视频片段特征的隐藏元素集合；

采用所述自注意力机制对所述隐藏元素集合进行归一化处理，得到所述注意力矩阵；

通过所述注意力矩阵以及所述隐藏元素集合的乘积得到所述视频特征矩阵。

其中，所述输出所述视频帧序列的标签类别的步骤之后，所述分类方法还包括：

获取所述神经网络模型的交叉熵损失函数；

基于所述交叉熵损失函数评价所述标签类别的评分；

其中，所述神经网络模型的输出层为全连接层fc7。

其中，所述获取连续的视频帧序列的步骤之后，所述分类方法还包括：

计算所述连续的视频帧序列中相邻帧在每一个灰度级的差值的累加和；

在所述累加和大于预设阈值的情况下，将所述累加和叠加到所述相邻帧中在后一帧视频帧的颜色直方图上；

将叠加处理后的视频帧序列按照时序划分为若干段视频片段，并从每一段所述视频片段内抽取预设帧数视频帧，从而组成新的视频片段序列。

本申请第二方面提供了一种电影多标签分类装置，所述电影多标签分类装置包括：

获取模块，用于获取连续的视频帧序列；

特征提取模块，用于基于预设的神经网络模型获取所述视频帧序列的视频片段特征；

注意力计算模块，用于基于所述视频片段特征计算注意力矩阵；

标签分类模块，用于根据所述注意力矩阵遍历所述视频帧序列，以输出所述视频帧序列的标签类别。

本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的电影多标签分类方法。

本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的电影多标签分类方法。

上述方案，电影多标签分类装置获取连续的视频帧序列，其中，视频帧序列包括若干视频片段；基于预设的神经网络模型获取视频帧序列的视频片段特征；基于视频片段特征计算注意力矩阵；根据注意力矩阵遍历视频帧序列，以输出视频帧序列的标签类别。上述方案，能够提高对视频中重要内容的关注程度，提高多标签分类的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请提供的电影多标签分类方法一实施例的流程示意图；

图2是本申请提供的电影多标签分类模型的框架示意图；

图3是图1所示电影多标签分类方法中步骤S103的具体流程示意图；

图4是图1所示电影多标签分类方法中步骤S104的具体流程示意图；

图5是本申请提供的电影多标签分类装置一实施例的框架示意图；

图6是本申请提供的电子设备一实施例的框架示意图；

图7是本申请提供的计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

请参阅图1和图2，图1是本申请提供的电影多标签分类方法一实施例的流程示意图，图2是本申请提供的电影多标签分类模型的框架示意图。本申请提出的电影多标签分类方法可以应用于对电影正片或者电影预告片进行多种不同的类别标签的分类，便于观众了解电影的基本信息。

本申请的电影多标签分类方法的执行主体可以是一种电影多标签分类装置，例如，电影多标签分类方法可以由终端设备或服务器或其它处理设备执行，其中，电影多标签分类装置可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无线电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该电影多标签分类方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

具体而言，本公开实施例的电影多标签分类方法可以包括以下步骤：

步骤S101：获取连续的视频帧序列，其中，视频帧序列包括若干视频片段。

其中，分类装置获取连续的视频帧序列，该视频帧序列可以为电影预告片或电影正片的部分或全部片段。在对连续的视频帧序列进行片段生成之前，为了使未经处理的视频帧序列能够符合后续神经网络模型的输入规则，分类装置可以对连续的视频帧序列进行数据预处理。

预处理流程可以有效降低网络过拟合风险，消除原始数据中与类别信息无关的噪声，例如，视频中可能会使用黑色边框填充在图像四周来保持视频的横纵比和视频尺寸，然而这些黑色边框不仅对分类结果没有帮助，而且还可能会让神经网络模型误以为这些信息是有用信息，从而影响预测结果。

以C3D网络(Converse3D，虚拟现实引擎)为例，其标准输入是一个4维矩阵(通道数X帧数X帧高度X帧宽度)。对于一个给定的视频帧序列U＝{u_c},e∈{1,2,......,T-1}，预处理阶段主要针对每一帧视频帧中的帧高度和帧宽度进行处理，视频帧中原始帧高度为Height，原始帧宽度为Width。

预处理的具体流程如下：首先，分类装置去除图像中的黑色边框，并在保持原有图像横纵比的情况下将视频帧大小调整为预设视频帧尺寸。例如，分类装置可以将视频帧大小裁剪为196(帧宽度)X128(帧高度)。然后，在训练时，分类装置可以输入为112(帧宽度)X112(帧高度)的抖动的随即裁剪，以提高***的鲁棒性，此时的视频帧序列为

对于本公开实施例而言，经过上述预处理流程后的视频帧序列为

分类装置计算视频帧序列中每一帧视频帧与其下一帧视频帧在每一个灰度级上的差值

差值计算公式如下：

其中，H_e(j)，H_e+1(j)分别为视频帧

的颜色直方图在灰度级j上的值，n为颜色直方图中灰度级的数量。

当上述差值D大于给定的预设阈值时，则认为该视频帧序列发生了镜头变换，分类装置将该差值D叠加到视频帧序列

中。经过镜头检测后，分类装置可以得到新的视频帧序列

其中，角标t表示第t个片段，k表示视频帧序列由k个片段组成，角标r表示视频片段中第r个视频帧，m_t表示该视频帧序列中的第t个视频片段共含有m_t个视频帧。

然后，为了满足后续的神经网络模型，例如C3D网络的输入需求，具体请参阅图2中的Candidate Clip Generation(候选片段生成)部分，分类装置还可以从每一个视频片段中按照规定顺序或随机抽取16帧视频帧组成新的视频片段。例如，对于一个给定的视频片段

分类装置按照抽取间隔

进行等距抽取，其中，Frame_rate表示当前视频的帧速率，从而由新的视频片段组成新的视频帧序列F＝{f_t ^(j)},t∈{1,2,...k},j∈{1,1+δ,...,1+15*δ}。

步骤S102：基于预设的神经网络模型获取视频帧序列的视频片段特征。

其中，分类装置将上述视频帧序列输入预设的神经网络模型，以C3D网络为例，从而获取视频帧序列的视频片段特征。

在本公开实施例中，分类装置通过C3D网络来提取上述视频帧序列中的视频片段特征：{x_t＝f(f_t ¹:f_t ^1+15*)}，具体请参阅图2中的Spatio-temporal Descriptor(时空特征描述器)部分。C3D网络在大规模监督训练数据集的背景下，已在许多视频分析任务上产生良好的性能，可以成功学习视频中的时空特征并对之建模。然而，直接使用C3D网络存在的一个问题是任务数据集缺少相关的动作标注数据来让C3D网络学习动态特征。预训练可以有效解决这一问题，预训练被广泛应用于计算机视觉领域，可以显著促进应用效果，近年来，在自然语言处理领域也取得了成功的效果。

一般来说，预训练处理都会先创建一个训练任务，并获取训练好的模型参数，然后在本公开实施例的C3D网络上加载训练好的模型参数，从而初始化C3D网络的模型权重。

加载模型权重主要包括两种加载方法：一种是加载的模型参数在训练本公开实施例的任务过程中保持不变，称为“Frozen”方式；另一种是C3D网络的模型权重虽然被初始化了，但在本公开实施例的任务过程中仍然随着训练的过程不断改变，称为“Fine-Tuning”方式。

需要说明的是，在本公开实施例中，分类装置采用“Frozen”方式初始化C3D网络的模型权重。

具体地，分类装置将C3D网络在Sports-1M数据集上进行预训练处理，并将训练好的C3D网络应用于本公开实施例的任务数据集中，并取C3D网络中倒数第二层全连接层，即fc7的输出作为网络最终的输出值。

需要说明的是，由于直接将C3D网络的输出应用到任务上存在抽取得到的特征与具体任务无关的问题，为了保持特征的通用性，本公开实施例选择fc7的输出作为视频片段特征的特征向量。删除fc7后面的处理层有利于增强C3D网络的迁移能力，满足本申请多标签类别分类的需求。

步骤S103：基于视频片段特征计算注意力矩阵。

其中，分类装置根据上述获取的视频片段特征计算注意力矩阵，具体过程请参阅图2的Attention-based Sequential Module(基于注意力机制的序列化模块)部分以及图3，图3是图1所示电影多标签分类方法中步骤S103的具体流程示意图。具体而言，包括以下步骤：

步骤S201：计算每一视频片段特征的前向隐藏状态以及后向隐藏状态的隐藏元素。

其中，分类装置在提取了视频帧序列中的每个视频片段特征X＝(x₁,x₂,...,x_k)∈R^k*D之后，还需要对视频片段特征之间的依赖性建模。在本公开实施例中，分类装置使用BiLSTM对上述步骤获取的视频片段特征进行处理：

步骤S202：获取BiLSTM的隐层节点数量。

其中，分类装置进一步将视频片段特征的前向隐藏状态以及后向隐藏状态进行连接得到h_t，当设置LSTM的隐层节点为u时，设H∈R^k*2u表示为所有隐层状态的集合：

H＝(h₁,h₂,...,h_k)

其中，隐层状态中的每一个元素h_i描述了视频帧序列中第i个视频片段附近的整体信息。

步骤S203：基于所有视频特征的隐藏元素以及隐层节点数量得到注意力矩阵。

其中，此处，LSTM一般对所有位置的内容都会给予相同的关注度，而本公开实施例则希望让C3D网络只对视频中的重点内容加以关注。为了实现这个功能，本公开实施例在LSTM之后加入了自注意力机制，其输入为隐层状态集合H，输出为一个注意力矩阵V：

V＝softmax(W_btanh(W_aH^T))

其中，

为两个系数权重矩阵且D_a和D_b为超参数，最终V的形状为

由于使用了softmax函数做归一化处理，V的行向量中的每一个维度可以看作是视频中对应位置的注意力，而每一个行向量则是视频中某一特定内容的表示。由于一部电影常常包含有多个不同的类别标签，而不同的类别标签通常由视频中的不同内容加以体现，且同一类型也可能由不同的内容所表现，因此，本公开实施例选择设置D_a和D_b作为超参数来让C3D网络学习视频中的不同内容部分。

进一步地，分类装置得到视频的注意力矩阵之后，还需要进一步得到对应的视频特征矩阵B，具体计算方式为：

B＝VH

步骤S104：根据注意力矩阵遍历视频帧序列，以输出视频帧序列的标签类别。

其中，分类装置基于上述步骤获取的注意力矩阵和视频特征矩阵提取视频帧序列中视频特征，并根据视频特征输出视频帧序列的多种不同的标签类别。具体过程请参阅图4，图4是图1所示电影多标签分类方法中步骤S104的具体流程示意图。具体而言，包括以下步骤：

步骤S301：基于注意力矩阵以及视频片段特征获取对应的视频特征矩阵。

步骤S302：通过注意力矩阵和视频特征矩阵组成两层感知机。

其中，分类装置将注意力矩阵和视频特征矩阵依次叠加组成两层感知机。

步骤S303：根据两层感知机将视频帧序列所在的空间转换到电影类别空间。

其中，分类装置使用两层感知机将视频帧序列所在的原空间转换到电影类别空间

步骤S304：在电影类别空间输出视频帧序列的标签类别。

其中，分类装置在电影类别空间提取视频帧序列的视频特征，并根据视频特征的类别输出视频帧序列对应的多个标签类别。

在输出视频帧序列的标签类别之后，分类装置进一步根据该多标签学习任务构造C3D网络的交叉熵损失函数L：

其中，分类装置可以根据交叉熵损失函数L评价该多标签学习任务的评分，即输出标签类别的准确度，以及可以根据交叉熵损失函数L优化本公开实施例的C3D网络。

在本实施例中，分类装置获取连续的视频帧序列，其中，视频帧序列包括若干视频片段；基于预设的神经网络模型获取视频帧序列的视频片段特征；基于视频片段特征计算注意力矩阵；根据注意力矩阵遍历视频帧序列，以输出视频帧序列的标签类别。上述方案，能够提高对视频中重要内容的关注程度，提高多标签分类的准确性。

具体地，相较于目前的电影分类方法，本申请的电影分类方法包括以下优点：(1)使用C3D网络抽取底层特征，有效保留视频中的时序特征；(2)引入注意力机制，通过关注所有位置并在嵌入空间中取其加权平均值来计算视频帧序列中某一位置的响应，一方面可以提高对重要内容的关注程度，另一方面可以减少无效信息片段(如片头和片尾)对分类结果的影响；(3)考虑到一个影片往往从属于多个类别，将电影分类任务拓展为一种多标签学习任务。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

请继续参阅图5，图5是本申请提供的电影多标签分类装置一实施例的框架示意图。电影多标签分类装置50包括：

获取模块51，用于获取连续的视频帧序列。

特征提取模块52，用于基于预设的神经网络模型获取视频帧序列的视频片段特征。

注意力计算模块53，用于基于视频片段特征计算注意力矩阵。

标签分类模块54，用于根据注意力矩阵遍历视频帧序列，以输出视频帧序列的标签类别。

请参阅图6，图6是本申请提供的电子设备一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62，处理器62用于执行存储器61中存储的程序指令，以实现上述任一电影多标签分类方法实施例中的步骤。在一个具体的实施场景中，电子设备60可以包括但不限于：微型计算机、服务器，此外，电子设备60还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器62用于控制其自身以及存储器61以实现上述任一电影多标签分类方法实施例中的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由集成电路芯片共同实现。

请参阅图7，图7是本申请提供的计算机可读存储介质一实施例的框架示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令701，程序指令701用于实现上述任一电影多标签分类方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种电影多标签分类方法，其特征在于，所述电影多标签分类方法包括：

基于所述视频片段特征计算注意力矩阵；

2.根据权利要求1所述的电影多标签分类方法，其特征在于，

所述根据所述注意力矩阵遍历所述视频帧序列，以输出所述视频帧序列的标签类别的步骤，包括：

通过所述注意力矩阵和所述视频特征矩阵组成两层感知机；

在所述电影类别空间输出所述视频帧序列的标签类别。

3.根据权利要求2所述的电影多标签分类方法，其特征在于，

所述基于所述视频片段特征计算注意力矩阵的步骤，包括：

4.根据权利要求3所述的电影多标签分类方法，其特征在于，

所述采用自注意力机制计算所有所述视频片段特征的前向隐藏状态以及后向隐藏状态的注意力矩阵的步骤，包括：

获取所述BiLSTM的隐层节点数量；

5.根据权利要求4所述的电影多标签分类方法，其特征在于，

所述基于所述注意力矩阵以及所述视频片段特征获取对应的视频特征矩阵的步骤，包括：

获取所有所述视频片段特征的隐藏元素集合；

6.根据权利要求1所述的电影多标签分类方法，其特征在于，

所述输出所述视频帧序列的标签类别的步骤之后，所述分类方法还包括：

获取所述神经网络模型的交叉熵损失函数；

基于所述交叉熵损失函数评价所述标签类别的评分；

其中，所述神经网络模型的输出层为全连接层fc7。

7.根据权利要求1所述的电影多标签分类方法，其特征在于，

所述获取连续的视频帧序列的步骤之后，所述分类方法还包括：

8.一种电影多标签分类装置，其特征在于，所述电影多标签分类装置包括：

获取模块，用于获取连续的视频帧序列；

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至7任一项所述的电影多标签分类方法。

10.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至7任一项所述的电影多标签分类方法。