CN109145840B

CN109145840B - 视频场景分类方法、装置、设备及存储介质

Info

Publication number: CN109145840B
Application number: CN201810996637.9A
Authority: CN
Inventors: 李�根; 许世坤; 朱延东; 王长虎
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2022-06-24
Anticipated expiration: 2038-08-29
Also published as: CN109145840A

Abstract

本公开实施例公开了一种视频场景分类方法、装置、设备及存储介质。其中，方法包括：从视频帧序列中，抽取多个待处理视频帧；将所述多个待处理视频帧输入至场景分类模型中，得到场景分类模型输出的多个待处理视频帧对应的场景类别；其中，场景分类模型包括聚合模型、分类器和多个特征提取模型，场景分类模型通过每个特征提取模型提取输入的待处理视频帧中的图像特征，通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征，通过分类器对聚合特征进行分类得到对应的场景类别。本公开实施例能够实现视频中的场景分类。

Description

视频场景分类方法、装置、设备及存储介质

技术领域

本公开实施例涉及计算机视觉技术，尤其涉及一种视频场景分类方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，可以通过摄像机拍摄视频并将视频通过网络发送到智能终端，人们得以在智能终端上观看来自世界各地的视频，比如运动视频、道路视频、比赛视频等。

精彩的视频对观众的吸引力较大，视频是否精彩取决于其中的场景。例如足球比赛视频中，射门、点球、任意球等场景是观众喜闻乐见的内容。但是，视频中的场景瞬息万变，导致很难从视频中得到场景分类。

发明内容

本公开实施例提供一种视频场景分类方法、装置、设备及存储介质，以实现视频中的场景分类。

第一方面，本公开实施例提供了一种视频场景分类方法，包括：

从视频帧序列中，抽取多个待处理视频帧；

将所述多个待处理视频帧输入至场景分类模型中，得到所述场景分类模型输出的多个待处理视频帧对应的场景类别，其中，场景分类模型包括聚合模型、分类器和多个特征提取模型，所述场景分类模型通过每个特征提取模型提取输入的待处理视频帧中的图像特征，通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征，通过所述分类器对聚合特征进行分类得到对应的场景类别。

第二方面，本公开实施例还提供了一种视频场景分类装置，包括：

抽取模块，用于从视频帧序列中，抽取多个待处理视频帧；

输入输出模块，用于将所述多个待处理视频帧输入至场景分类模型中，得到所述场景分类模型输出的多个待处理视频帧对应的场景类别；

其中，场景分类模型包括聚合模型、分类器和多个特征提取模型，所述场景分类模型，用于通过每个特征提取模型提取输入的待处理视频帧中的图像特征，通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征，通过所述分类器对聚合特征进行分类得到对应的场景类别。

第三方面，本公开实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一实施例所述的视频场景分类方法。

第四方面，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的视频场景分类方法。

本公开实施例中，通过从视频帧序列中，抽取多个待处理视频帧；将多个待处理视频帧输入至场景分类模型中，得到场景分类模型输出的多个待处理视频帧对应的场景类别，实现了视频中的场景分类，满足用户的个性化观看需求；进一步地，通过对多个待处理视频帧进行特征提取、聚合和分类，从而以多个待处理视频帧为整体，进行场景识别，无需对每个待处理视频帧分别进行图像处理，也无需对待处理视频帧进行裁剪、识别等其他操作，使得识别速率较快；而且，通过特征聚合，能够有效提高场景分类的准确度。

附图说明

图1是本公开实施例一提供的一种视频场景分类方法的流程图；

图2是本公开实施例二提供的一种视频场景分类方法的流程图；

图3是本公开实施例三提供的一种视频场景分类方法的流程图；

图4是本公开实施例四提供的一种视频场景分类装置的结构示意图；

图5是本公开实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。下述各实施例中，每个实施例中同时提供了可选特征和示例，实施例中记载的各个特征可进行组合，形成多个可选方案，不应将每个编号的实施例仅视为一个技术方案。

实施例一

图1是本公开实施例一提供的一种视频场景分类方法的流程图，本实施例可适用于对视频流中的视频帧序列进行场景分类的情况，该方法可以由视频场景分类装置来执行，该装置可以由硬件和/或软件构成，并集成在电子设备中，具体包括如下步骤：

S110、从视频帧序列中，抽取多个待处理视频帧。

视频帧序列指视频流中的一段时间内的连续视频帧，例如5秒或者8秒时间段内的连续视频帧，该视频帧序列包括多个视频帧。

可选地，在抽取多个待处理视频帧时，可以在视频帧序列中连续抽取，也可以不连续抽取；

进一步可选地，可以在视频流的处理过程中，从视频帧序列中抽取多个视频帧。视频流的处理过程包括但不限于视频流的接收、分发、编解码等。在一示例中，该装置集成在一电子设备(例如服务器)中，在向终端分发视频流的同时，从视频帧序列中抽取多个视频帧，并执行后续操作。在另一示例中，该装置集成在另一电子设备(例如终端)中，在接收服务器分发的视频流的同时，从视频流的视频帧序列中抽取多个视频帧。

为了方便描述和区分，从视频帧序列中抽取并输入至场景分类模型中的多个视频帧称为待处理视频帧。

S120、将多个待处理视频帧输入至场景分类模型中，得到场景分类模型输出的多个待处理视频帧对应的场景类别，其中，场景分类模型包括聚合模型、分类器和多个特征提取模型，场景分类模型通过每个特征提取模型提取输入的待处理视频帧中的图像特征，通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征，通过分类器对聚合特征进行分类得到对应的场景类别。

场景分类模型输入多个待处理视频帧，并输出多个待处理视频帧对应的场景类别。在一示例中，假设视频帧序列的内容是足球比赛，则待处理视频帧对应的场景类别包括但不限于点球、射门、角球、任意球、犯规等。

本实施例中，场景分类模型包括聚合模型、分类器和多个特征提取模型。

多个待处理视频帧分别输入至特征提取模型中，可选地，多个待处理视频帧分别输入至不同的特征提取模型中，待处理视频帧的数量与特征提取模型的数量相同，待处理视频帧与特征提取模型一一对应。当然，不限于此，特征提取模型也可以输入两个或者两个以上的待处理视频帧。

场景分类模型通过每个特征提取模型提取输入的待处理视频帧中的图像特征。可选地，图像特征包括但不限于颜色特征、纹理特征、形状特征、空间关系特征。特征提取模型可以是基于深度学习的特征提取模型，包括但不限于卷积神经网络模型(ConvolutionalNeural Networks，CNN)、稀疏模式的自动编码算法、GoogLe Net、VGG模型等。

多个特征提取模型并行排布，且多个特征提取模型的输出端分别与聚合模型的输入端连接。场景分类模型通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征。聚合模型对多个特征提取模型输出的对应待处理视频帧中的图像特征进行聚合，得到聚合后的图像特征。可选地，聚合模型据聚合多个待处理视频帧中的图像特征的方式包括但不限于特征拼接、特征叠加、特征融合等。为了方便描述与区分，聚合后的图像特征称为聚合特征。聚合特征能够综合体现多个待处理视频帧中的图像特征。

聚合模型的输出端与分类器的输入端连接。场景分类模型通过分类器对聚合特征进行分类得到对应的场景类别。分类器预存有场景类别标签集合，场景类别标签集合包括多个场景类别标签。场景类别标签指用于指示场景类别的标识，例如标签1表示角球场景类别，标签3表示射门场景类别。

对于输入分类器的聚合特征，分类器从场景类别标签集合中找出一个场景类别标签，并把该场景类别标签分配给该聚合特征，并分配给多个待处理视频帧。如此，得到多个待处理视频帧对应的场景类别。可选地，分类器可以是基于机器学习的图像分类器，包括但不限于K-Nearest Neighbor分类器、基于haar特征的adaboost级联分类器、OpenCV和Haar特征分类器等。

在上述实施例和下述实施例中，场景分类模型具体通过聚合模型对多个待处理视频帧中的图像特征进行加权平均，得到聚合特征。

在一示例中，聚合模型输入的图像特征包括M₁、M₂、M₃和M₄。每个图像特征对应的权重分别为a、b、c和d。则根据公式

对输入的各图像特征进行加权平均得到聚合特征M。可选地，每个图像特征对应的权重可以在场景分类模型的训练阶段得到。

在一种情况下，为了减少场景分类模型中的参数，每个特征对应的权重均为1，则聚合模型对多个待处理视频帧中的图像特征进行平均，得到聚合特征。

本实施例中，通过对多个待处理视频帧中的图像特征进行加权平均，综合考虑了各待处理视频帧中的图像特征，使得聚合特征更全面、准确地包含多个待处理视频帧中的图像特征，进一步提高场景分类的准确度。

在上述实施例和下述实施例中，在从视频帧序列中，抽取多个待处理视频帧之前，还包括：场景分类模型的识别过程。

可选地，场景分类模型的识别过程包括以下两步：

第一步：获取待训练的场景分类模型、多组样本视频帧和与多组样本视频帧分别对应的场景类别标签。

其中，待训练的场景分类模型包括待训练的多个特征提取模型，待训练的聚合模型和待训练的分类器。采集多组样本视频帧并为每组视频帧标记对应的场景类别标签。具体地，从多段视频帧序列中分别采集一组样本视频帧，每组样本视频帧包括多个视频帧，人工为每组样本视频帧标记对应的场景类别标签。

第二步：采用多组样本视频帧和与多组样本视频帧分别对应的场景类别标签对待训练的场景分类模型进行训练。

将多组样本视频帧依次输入至待训练的场景分类模型中，迭代场景分类模型中的参数，使得模型输出逼近输入的一组样本视频帧对应的场景类别标签。

实施例二

在上述实施例的各可选实施方式中，可以在视频流的任意一段视频帧序列中，抽取待处理视频帧，并对待处理视频帧进行场景分类。但是，视频流包含的内容庞杂，并不能保证每段视频帧序列中的待处理视频帧均属于某一预设的场景类别。基于此，本实施例首先根据拍摄视角锁定某一段视频帧序列，再对该段视频帧序列中的视频帧进行场景分类。

图2是本公开实施例二提供的一种视频场景分类方法的流程图，本实施例可以与上述一个或者多个实施例中各个可选方案结合，具体包括以下步骤：

S210、从视频流中，抽取至少一个待识别视频帧。

为了方便描述和区分，从视频流中抽取并输入至图像识别模型中的至少一个视频帧称为待识别视频帧。

可选地，从视频流中的任意位置抽取一个待识别视频帧，或者在视频流中抽取两个或者两个以上的连续的待识别视频帧。

S220、将至少一个待识别视频帧分别输入至第一图像识别模型，得到至少一个待识别视频帧分别对应的拍摄视角。

本实施例中，拍摄视角包括近距离拍摄视角、远距离拍摄视角、中景拍摄视角、特写拍摄视角、大特写拍摄视角等。下面以近距离拍摄视角和远距离拍摄视角为例进行说明。

采用近距离拍摄视角拍摄出的图像表现目标对象胸部以上或者景物局部面貌。目标对象指图像中的人或者物，例如，足球比赛图像中的队员和足球。采用远距离拍摄视角拍摄出的图像表现目标对象活动的整个背景，摄入内容较多，例如足球比赛图像中的足球场。

近距离拍摄视角和远距离拍摄视角针对不同的场景有不同的界定规则。在待识别视频帧为足球比赛图像的应用场景中，如果图像中的目标对象的高度或者面积占据整个图像的第一预设比例以上，第一预设比例例如是1/2、1/3，则认为待识别视频帧对应近距离拍摄视角。如果图像中的目标对象的高度或者面积占据整个图像的第二预设比例以下，第二预设比例小于第一预设比例，第二预设比例例如是1/8、1/10，则认为待识别视频帧对应远距离拍摄视角。

可选地，根据第一图像识别模型的用途不同，S220包括以下两种实施方式：

第一种实施方式：将至少一个待识别视频帧分别输入至第一图像识别模型，得到第一图像识别模型输出的每个待识别视频帧对应的拍摄视角。

本实施方式中，第一图像识别模型能够直接识别出待识别视频帧的拍摄视角。那么在训练第一图像识别模型时，采用远距离拍摄视角的视频帧样本和远距离拍摄视角标签，以及近距离拍摄视角的视频帧样本和近距离拍摄视角标签作为模型输入，进行训练。

第二种实施方式：将至少一个待识别视频帧分别输入至第一图像识别模型，得到第一图像识别模型输出的每个待识别视频帧中目标对象的显示区域。接着，根据目标对象的显示区域的高度或者面积与整个待识别视频帧的高度或者面积的比较结果，确定每个待识别视频帧对应的拍摄视角。

本实施方式中，第一图像识别模型实际是一个物体检测模型，例如YOLO模型、Faster R-CNN、SSD。第一图像识别模型输入待识别视频帧，输出待识别视频帧中目标对象的边框(bounding box)。接着，如果目标对象的边框的高度或者面积占据整个待识别视频帧的高度或者面积的第一预设比例以上，说明待识别视频帧对应近距离拍摄视角，如果目标对象的边框的高度或者面积占据整个待识别视频帧的高度或者面积的第二预设比例以下，说明待识别视频帧对应远距离拍摄视角。

S230、如果存在待识别视频帧对应的拍摄视角为预设拍摄视角，或者，对应预设拍摄视角的待识别视频帧的数量超过第一预设阈值，从至少一个待识别视频帧对应的视频帧序列中抽取多个待处理视频帧。

预设拍摄视角为与各个场景类别对应的拍摄视角。根据经验，视频中展示预设类别的场景时，拍摄视角一般为近距离拍摄视角或者远距离拍摄视角，则本实施例中，将预设拍摄视角设定为近距离拍摄视角或者远距离拍摄视角。当然，在不同的应用场景中，视频中展示预设类别的场景时，拍摄视角还可能为中景拍摄视角、特写拍摄视角、大特写拍摄视角，本公开实施例不对此进行限定。

可选地，如果存在拍摄视角为预设拍摄视角的待识别视频帧或者对应预设拍摄视角的待识别视频帧的数量超过第一预设阈值，则说明至少一个待识别视频帧对应的视频帧序列可能展示有预设类别的场景，则从该视频帧序列中抽取多个待处理视频帧，并对多个待处理视频帧进行场景分类。可选地，可将待识别视频帧直接作为待处理视频帧的部分或者全部。如果待识别视频帧有多个且作为待处理视频帧的全部时，直接对抽取出的待识别视频帧进行场景分类，不需要再次抽取。

其中，第一预设阈值可以是1、2或者其它值。至少一个待识别视频帧对应的视频帧序列可以是至少一个待识别视频帧包含在的一段视频帧序列。如果待识别视频帧有一个，则视频帧序列可以为待识别视频帧之前预设数量个视频帧，和/或，待识别视频帧之后预设数量个视频帧。如果待识别视频帧有两个或者两个以上，则视频帧序列可以为第一个待识别视频帧和最后一个待识别视频帧之间的视频帧。

可选地，如果不存在对应预设拍摄视角的待识别视频帧，则继续从视频流中抽取至少一个待识别视频帧，并进行后续操作。

S240、将多个待处理视频帧输入至场景分类模型中，得到场景分类模型输出的多个待处理视频帧对应的场景类别。

本实施例中，通过从视频流中，抽取至少一个待识别视频帧；将至少一个待识别视频帧分别输入至第一图像识别模型，得到至少一个待识别视频帧分别对应的拍摄视角；如果存在待识别视频帧对应的拍摄视角为预设拍摄视角，或者，对应预设拍摄视角的待识别视频帧的数量超过第一预设阈值，从至少一个待识别视频帧对应的视频帧序列中抽取多个待处理视频帧，从而根据拍摄视角锁定一段包含预设类别的场景的视频帧序列，提高场景分类的准确性和效率。

实施例三

基于视频流包含的内容庞杂，并不能保证每段视频帧序列中的待处理视频帧均属于某一预设的场景类别的缺陷。本实施例首先根据识别到预设对象锁定某一段视频帧序列，再对该段视频帧序列中的视频帧进行场景分类。

图3是本公开实施例三提供的一种视频场景分类方法的流程图，本实施例可以与上述一个或者多个实施例中各个可选方案结合，具体包括以下步骤：

S310、从视频流中，抽取至少一个待识别视频帧。

本步骤与上述实施例中的S210相同，此处不再赘述。

S320、将至少一个待识别视频帧分别输入至第二图像识别模型，识别至少一个待识别视频帧中的预设对象。

预设对象指与各个预设的场景类别对应的对象，预设对象的数量为一个、两个或者多个。以足球比赛视频中的射门场景为例，预设对象包括球门、球门线和足球。以足球比赛视频中的犯规场景为例，预设对象包括罚牌。

第二图像识别模型用于识别待识别视频帧中的预设对象。具体将待识别视频帧输入至第二图像识别模型，如果识别到预设对象，输出识别到预设对象对应的标识，例如1，如果未识别到预设对象，输出未识别到预设对象对应的标识，例如0。可选地，第二图像识别模型包括CNN、Keras等。

S330、如果在至少一个待识别视频帧中识别到预设对象，或者，识别到预设对象的待识别视频帧的数量超过第二预设阈值，从至少一个待识别视频帧对应的视频帧序列中抽取多个待处理视频帧。

根据经验，视频中展示某一预设类别的场景时，其中的视频帧一般会显示预设对象。基于此，如果在至少一个待识别视频帧中识别到预设对象，或者识别到预设对象的待识别视频帧的数量超过第二预设阈值，则说明至少一个待识别视频帧对应的视频帧序列可能展示有某一预设类别的场景，则从该视频帧序列中抽取多个待处理视频帧，并对多个待处理视频帧进行场景分类。可选地，可将待识别视频帧直接作为待处理视频帧的部分或者全部。如果待识别视频帧有多个且作为待处理视频帧的全部时，直接对抽取出的待识别视频帧进行场景分类，不需要再次抽取。

其中，第二预设阈值可以是1、2或者其它值。至少一个待识别视频帧对应的视频帧序列可以是至少一个待识别视频帧包含在的一段视频帧序列。如果待识别视频帧有一个，则视频帧序列可以为待识别视频帧之前预设数量个视频帧，和/或，待识别视频帧之后预设数量个视频帧。如果待识别视频帧有两个或者两个以上，则视频帧序列可以为第一个待识别视频帧和最后一个待识别视频帧之间的视频帧。

可选地，如果不存在识别到预设对象的待识别视频帧，则继续从视频流中抽取至少一个待识别视频帧，并进行后续操作。

S340、将多个待处理视频帧输入至场景分类模型中，得到场景分类模型输出的多个待处理视频帧对应的场景类别。

本实施例中，通过从视频流中，抽取至少一个待识别视频帧；将至少一个待识别视频帧分别输入至第二图像识别模型，识别至少一个待识别视频帧中的预设对象；如果在至少一个待识别视频帧中识别到预设对象，或者识别到预设对象的待识别视频帧的数量超过第二预设阈值，从至少一个待识别视频帧对应的视频帧序列中抽取多个待处理视频帧，从而通过识别到预设对象锁定一段包含预设类别的场景的视频帧序列，提高场景分类的准确性和效率。

在上述实施例和下述实施例中，为了进一步提高场景分类的准确性，在得到多个待处理视频帧对应的场景类别之后，还包括对场景类别的进一步判断过程。

具体地，在将多个待处理视频帧输入至场景分类模型中，得到多个待处理视频帧对应的场景类别之后，还包括：根据多个待处理视频帧对应的场景类别，确定与场景类别对应的目标场景对象；将多个待处理视频帧分别输入至第三图像识别模型，识别多个待处理视频帧中的目标场景对象；如果在多个待处理视频帧中识别到目标场景对象，或者识别到目标场景对象的待处理视频帧的数量超过第三预设阈值，确定场景类别为最终场景类别。

其中，目标场景对象指对应的场景类别中不可缺少的对象。例如，多个待处理视频帧对应的场景类别为角球，则与角球场景对应的目标场景元素为足球、球员和底线；又例如，多个待处理视频帧对应的场景类别为点球，则与点球场景对应的目标场景元素为足球、球员和罚球点；又例如，多个待处理视频帧对应的场景类别为犯规，则与犯规场景对应的目标场景元素为罚牌。

第三图像识别模型用于识别多个待处理视频帧中的目标场景对象，具体将多个待处理视频帧依次输入至第二图像识别模型，如果识别到目标场景对象，输出识别到目标场景对象对应的标识，例如1，如果未识别到目标场景对象，输出未识别到目标场景对象对应的标识，例如0。可选地，第三图像识别模型包括CNN、Keras等。

如果在多个待处理视频帧中识别到目标场景对象，或者识别到目标场景对象的待处理视频帧的数量超过第三预设阈值，确定场景类别为最终场景类别。可选地，第二预设阈值可以是1、2或者其它值。

在上述各实施例的各可选实施方式的基础上，还包括视频帧序列和场景类别的显示操作。具体地，在将多个待处理视频帧输入至场景分类模型中，得到多个待处理视频帧对应的场景类别之后，或者确定场景类别为最终场景类别之后，还包括：从视频流中截取视频帧序列，生成视频文件；关联视频文件和对应的场景类别信息；对相关联的视频文件和对应的场景类别信息进行展示操作。

在确定视频帧序列后，从视频流中截取该视频帧序列，生成视频文件。场景类别信息可以是表示场景类别的文字信息，例如“角球”、“射门”，也可以是表示场景类别的图像信息，例如射门简图、点球简图，还可以图像和文字的结合。关联视频文件和对应的场景类别信息可以是在视频文件的每个视频帧中的预设位置处添加场景类别信息，或者在视频文件的描述信息中添加场景类别信息，又或者将视频文件归类到场景类别信息对应的集合中。接着，对于该装置集成在一电子设备(例如服务器)中的情况，将相关联的视频文件和对应的场景类别信息推送至终端，并在终端上进行展示。对于该装置集成在另一电子设备(例如终端)中的情况，直接展示相关联的视频文件和对应的场景类别信息。

通过对相关联的视频文件和对应的场景类别信息进行展示操作，从而展示不同类别的视频文件，满足用户的个性化观看需求，提高内容分发效率。

实施例四

图4是本公开实施例四提供的一种视频场景分类装置的结构示意图，包括：抽取模块41和输入输出模块42。

抽取模块41，用于从视频帧序列中，抽取多个待处理视频帧；

输入输出模块42，用于将抽取模块41抽取的多个待处理视频帧输入至场景分类模型中，得到场景分类模型输出的多个待处理视频帧对应的场景类别；

其中，场景分类模型包括聚合模型、分类器和多个特征提取模型；场景分类模型，用于通过每个特征提取模型提取输入的待处理视频帧中的图像特征，通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征，通过分类器对聚合特征进行分类得到对应的场景类别。

可选地，场景分类模型在通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征时，具体用于：通过聚合模型对多个待处理视频帧中的图像特征进行加权平均，得到所述聚合特征。

可选地，抽取模块41在从视频帧序列中，抽取多个待处理视频帧时，具体用于：从视频流中，抽取至少一个待识别视频帧；将至少一个待识别视频帧分别输入至第一图像识别模型，得到至少一个待识别视频帧分别对应的拍摄视角；如果存在待识别视频帧对应的拍摄视角为预设拍摄视角，或者，对应预设拍摄视角的待识别视频帧的数量超过第一预设阈值，从至少一个待识别视频帧对应的视频帧序列中抽取多个待处理视频帧。

可选地，抽取模块41在从视频帧序列中，抽取多个待处理视频帧时，具体用于：从视频流中，抽取至少一个待识别视频帧；将至少一个待识别视频帧分别输入至第二图像识别模型，识别至少一个待识别视频帧中的预设对象；如果在至少一个待识别视频帧中识别到预设对象，或者识别到预设对象的待识别视频帧的数量超过第二预设阈值，从至少一个待识别视频帧对应的视频帧序列中抽取多个待处理视频帧。

可选地，该装置还包括确定模块，用于在将多个待处理视频帧输入至场景分类模型中，得到多个待处理视频帧对应的场景类别之后，根据多个待处理视频帧对应的场景类别，确定与场景类别对应的目标场景对象；将多个待处理视频帧分别输入至第三图像识别模型，识别多个待处理视频帧中的目标场景对象；如果在多个待处理视频帧中识别到目标场景对象，或者识别到目标场景对象的待处理视频帧的数量超过第三预设阈值，确定场景类别为最终场景类别。

可选地，该装置还包括显示操作模块，用于从视频流中截取视频帧序列，生成视频文件；关联视频文件和对应的场景类别信息；对相关联的视频文件和对应的场景类别信息进行展示操作。

本公开实施例所提供的视频场景分类装置可执行本公开任意实施例所提供的视频场景分类方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是本公开实施例五提供的一种电子设备的结构示意图，如图5所示，该电子设备包括处理器50、存储器51；电子设备中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；电子设备中的处理器50、存储器51可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本公开实施例中的视频场景分类方法对应的程序指令/模块(例如，视频场景分类装置中的抽取模块41、输入输出模块42)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的视频场景分类方法。

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例六

本公开实施例六还提供一种其上存储有计算机程度的计算机可读存储介质，计算机程序在由计算机处理器执行时用于执行一种视频场景分类方法，该方法包括：

从视频帧序列中，抽取多个待处理视频帧；

将多个待处理视频帧输入至场景分类模型中，得到场景分类模型输出的多个待处理视频帧对应的场景类别；

其中，场景分类模型包括聚合模型、分类器和多个特征提取模型，场景分类模型通过每个特征提取模型提取输入的待处理视频帧中的图像特征，通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征，通过分类器对聚合特征进行分类得到对应的场景类别。

当然，本公开实施例所提供的一种其上存储有计算机程度的计算机可读存储介质，其计算机程序不限于如上所述的方法操作，还可以执行本公开任意实施例所提供的视频场景分类方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本公开可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述的方法。

值得注意的是，上述视频场景分类装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本公开的保护范围。

注意，上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解，本公开不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此，虽然通过以上实施例对本公开进行了较为详细的说明，但是本公开不仅仅限于以上实施例，在不脱离本公开构思的情况下，还可以包括更多其他等效实施例，而本公开的范围由所附的权利要求范围决定。

Claims

1.一种视频场景分类方法，其特征在于，包括：

从视频帧序列中，抽取多个待处理视频帧；

将所述多个待处理视频帧输入至场景分类模型中，得到所述场景分类模型输出的多个待处理视频帧对应的场景类别，其中，场景分类模型包括聚合模型、分类器和多个特征提取模型，其中，所述多个特征提取模型并行排布，且所述多个特征提取模型的输出端分别与所述聚合模型的输入端连接，所述场景分类模型通过每个特征提取模型提取输入的待处理视频帧中的图像特征，通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征，通过所述分类器对聚合特征进行分类得到对应的场景类别，所述多个待处理视频帧分别输入至所述多个特征提取模型中；

所述分类器预存有场景类别标签集合，所述场景类别标签集合包括多个场景类别标签，所述场景类别标签是用于指示场景类别的标识；

所述图像特征包括颜色特征、纹理特征、形状特征、空间关系特征；

将至少一个待识别视频帧分别输入至第一图像识别模型，得到至少一个所述待识别视频帧分别对应的拍摄视角；

如果存在待识别视频帧对应的拍摄视角为预设拍摄视角，或者，对应预设拍摄视角的待识别视频帧的数量超过第一预设阈值，从至少一个待识别视频帧对应的视频帧序列中抽取多个待处理视频帧；

所述将至少一个待识别视频帧分别输入至第一图像识别模型，得到至少一个所述待识别视频帧分别对应的拍摄视角，包括：

将至少一个所述待识别视频帧分别输入至所述第一图像识别模型，得到所述第一图像识别模型输出的每个所述待识别视频帧对应的拍摄视角；

或将至少一个所述待识别视频帧分别输入至所述第一图像识别模型，得到所述第一图像识别模型输出的每个所述待识别视频帧中目标对象的显示区域，根据所述目标对象的显示区域的高度或者面积与整个所述待识别视频帧的高度或者面积的比较结果，确定每个所述待识别视频帧对应的拍摄视角。

2.根据权利要求1所述的方法，其特征在于，所述场景分类模型通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征，包括：

所述场景分类模型通过聚合模型对多个待处理视频帧中的图像特征进行加权平均，得到所述聚合特征。

3.根据权利要求1所述的方法，其特征在于，所述从视频帧序列中，抽取多个待处理视频帧，还包括：

从视频流中，抽取至少一个待识别视频帧；

将至少一个待识别视频帧分别输入至第二图像识别模型，识别至少一个待识别视频帧中的预设对象；

如果在至少一个待识别视频帧中识别到预设对象，或者识别到预设对象的待识别视频帧的数量超过第二预设阈值，从至少一个待识别视频帧对应的视频帧序列中抽取多个待处理视频帧。

4.根据权利要求1所述的方法，其特征在于，在将所述多个待处理视频帧输入至场景分类模型中，得到所述场景分类模型输出的多个待处理视频帧对应的场景类别之后，还包括：

根据多个待处理视频帧对应的场景类别，确定与所述场景类别对应的目标场景对象；

将多个待处理视频帧分别输入至第三图像识别模型，识别多个待处理视频帧中的目标场景对象；

如果在多个待处理视频帧中识别到目标场景对象，或者，识别到目标场景对象的待处理视频帧的数量超过第三预设阈值，确定所述场景类别为最终场景类别。

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

从视频流中截取所述视频帧序列，生成视频文件；

关联所述视频文件和对应的场景类别信息；

对相关联的视频文件和对应的场景类别信息进行展示操作。

6.一种视频场景分类装置，其特征在于，包括：

抽取模块，用于从视频帧序列中，抽取多个待处理视频帧；

其中，场景分类模型包括聚合模型、分类器和多个特征提取模型，其中，所述多个特征提取模型并行排布，且所述多个特征提取模型的输出端分别与所述聚合模型的输入端连接，所述场景分类模型，用于通过每个特征提取模型提取输入的待处理视频帧中的图像特征，通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征，通过所述分类器对聚合特征进行分类得到对应的场景类别，所述多个待处理视频帧分别输入至所述多个特征提取模型中；

所述抽取模块具体用于：将至少一个待识别视频帧分别输入至第一图像识别模型，得到至少一个待识别视频帧分别对应的拍摄视角；

所述将至少一个待识别视频帧分别输入至第一图像识别模型，得到至少一个待识别视频帧分别对应的拍摄视角，包括：

7.根据权利要求6所述的装置，其特征在于，所述场景分类模型在通过聚合模型聚合多个待处理视频帧中的图像特征得到聚合特征时，具体用于：

通过聚合模型对多个待处理视频帧中的图像特征进行加权平均，得到所述聚合特征。

8.根据权利要求6所述的装置，其特征在于，所述抽取模块，还具体用于：

从视频流中，抽取至少一个待识别视频帧；

9.根据权利要求6所述的装置，其特征在于，还包括：确定模块，用于：

10.根据权利要求6-9任一项所述的装置，其特征在于，还包括：显示操作模块，用于：

从视频流中截取所述视频帧序列，生成视频文件；

关联所述视频文件和对应的场景类别信息；

对相关联的视频文件和对应的场景类别信息进行展示操作。

11.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的视频场景分类方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的视频场景分类方法。