CN111797912B

CN111797912B - 影片年代类型识别的***、方法及识别模型的构建方法

Info

Publication number: CN111797912B
Application number: CN202010580262.5A
Authority: CN
Inventors: 杨唤晨; 徐杰; 谢恩鹏; 刘永辉
Original assignee: Shandong Inspur Ultra HD Video Industry Co Ltd
Current assignee: Shandong Inspur Ultra HD Video Industry Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2023-09-22
Anticipated expiration: 2040-06-23
Also published as: CN111797912A

Abstract

本发明提供了一种影片年代类型识别的***、方法及识别模型的构建方法。一种影片年代类型识别的***，包括：训练好的影片年代类型识别模型；计算设备、存储设备和输入输出设备构成用于自动识别过程的计算机设备；数字影片解码、截图和图片预处理构成的卷积神经网络***；能够根据模型推理结果分析影片年代类型的分类器。通过该***和方法，计算设备从存储设备获得数字影片后可自动识别影片的年代类型。相比人工识别，使用计算设备识别具有可靠、快速、廉价和可批量处理等诸多优势。

Description

影片年代类型识别的***、方法及识别模型的构建方法

技术领域

本发明涉及一种影片年代类型识别的***、方法及识别模型的构建方法，属于信息技术技术领域。

背景技术

近年来，视频业务发展迅速，追网剧、看数字电视等活动成为人们的重要娱乐方式。视频服务商往往储存有大量的影片，如何自动、快速、可靠、批量地给这些影片打上年代、题材、体裁等标签，对于帮助服务商提供优质的视频服务具有重要意义。

发明内容

本发明目的是提供了一种影片年代类型识别的***、方法及识别模型的构建方法。

本发明为实现上述目的，通过以下技术方案实现：

一种影片年代类型识别的***，包括：

训练好的影片年代类型识别模型；

计算设备、存储设备和输入输出设备构成用于自动识别过程的计算机设备；

数字影片解码、截图和图片预处理构成的卷积神经网络***；

能够根据模型推理结果分析影片年代类型的分类器。

上述影片年代类型识别的***基础上，卷积神经网络***为VGG-16网络结构。

一种所述的***进行影片年代类型识别方法，包括如下步骤：

计算设备从存储设备读取待识别的影片，将影片的开头a分钟和结尾b分钟掐去后，均匀时间间隔地截取M张图片；

将M张图片进行预处理之后，分别输入至卷积神经网络；

对于每一个图片输入，卷积神经网络会推理出一个N维概率向量，每一维都对应图片属于相应年代类型的概率；

M张图片全部推理完成后，影片年代类型识别的***将M个概率向量输入至分类器。

一种所述影片年代类型识别模型的构建方法，其特征在于，包括如下步骤：

S1. 构建训练集和验证集：准备分属于N种年代类型的大量的数字影片，从每个影片时间间隔均匀地截取图片，作为该类型的训练数据和验证数据；

S2. 卷积神经网络的搭建：使用一种用于图像分类任务的深层卷积网络作为本网络的主体；

S3. 卷积神经网络的训练：冻结卷积基的参数，训练分类器，分类器的第一层使用Dropout；经多轮训练，分类器达到较好的正确率后，解冻卷积基的底层，进行微调训练，并验证集上验证网络的正确率。

上述所述影片年代类型识别模型的构建方法，所有的训练图片和验证图片应进行预处理，包括如下步骤：1)缩放至神经网络要求的输入尺寸；2)每张图片的像素减去整个图片数据集的平均的RGB值；3)将RGB的像素值除以255，使得RGB数值介于0到1。

6.根据权利要求3所述影片年代类型识别模型的构建方法，其特征在于：分类器按照下述算法分析出影片的年代类型：视频流的任一播放时刻t都对应一个帧，将该帧作为模型的输入可得到一个N维概率向量/> ，向量的每个维度分别对应一个年代类型；

引入评分函数，其中；

将所有播放时刻的评分函数做积分，得到总评分，总评分是一个N维向量，其各个维的定义式为/> ，且每一维都对应一个年代类型；

取总评分最大的年代类型作为该视频的分类结果。

本发明的优点在于：通过该***和方法，计算设备从存储设备获得数字影片后可自动识别影片的年代类型，相比人工识别，使用计算设备识别具有可靠、快速、廉价和可批量处理等诸多优势。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明影片年代类型识别模型的构建方法流程示意图。

图2为本发明影片年代类型识别方法流程图。

图3为本发明影片年代类型识别***连接示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种年代类型识别的***，包括：训练好的影片年代类型识别模型；计算设备、存储设备和输入输出设备构成用于自动识别过程的计算机设备；数字影片解码、截图和图片预处理构成的卷积神经网络***；能够根据模型推理结果分析影片年代类型的分类器。

一种所述的***进行影片年代类型识别方法，该方法将待识别影片打上年代类型标签，待识别影片的实际年代类型必须是预设的N个年代类型当中的一个，这些年代类型可以是古装、民国、当代等类型，方法包括如下步骤：

将M张图片进行预处理之后，分别输入至卷积神经网络；

图片预处理包括但不限于将图片每个像素的RGB值减去所有像素的平均RGB值，将所有像素的RGB值乘1/255从而让数值落在0-1的区间内，将图片缩放至某一固定尺寸，等等；

一种所述影片年代类型识别模型的构建方法，包括如下步骤：

S1. 构建训练集和验证集：对于每一类年代类型，都要准备S部数字影片，S要足够大；对于每一部影片，首先掐去开头的a分钟和结尾的b分钟，保证片头和片尾被掐去；等时间间隔地截取T张图片，作为该类型的数据；这样，每个类型都能得到S×T张图片，按照一定比例分配给训练集和验证集；

S2. 卷积神经网络的搭建：使用一种用于图像分类任务的深层卷积网络作为本网络的主体，例如，VGG16网络，使用在大型的图片数据集上训练的VGG16网络的参数，初始化自己的网络，例如，使用Keras下载训练好的VGG16网络；

S3. 卷积神经网络的训练：冻结卷积基的参数，训练分类器，分类器的第一层使用Dropout，用于减轻过拟合问题；经多轮训练，分类器达到较好的正确率后，解冻卷积基的底层，进行微调训练，并验证集上验证网络的正确率。

所有的训练图片和验证图片应进行预处理，包括如下步骤：1)缩放至神经网络要求的输入尺寸；2)每张图片的像素减去整个图片数据集的平均的RGB值；3)将RGB的像素值除以255，使得RGB数值介于0到1。

分类器按照下述算法分析出影片的年代类型：引入N维概率向量的函数/>，其中/>，后文将/>称作评分函数；

对于一个时长为T的视频流S，其每一播放时刻t都对应一帧，将F输入网络可得到一个概率向量/> ，而评分函数又是概率向量的一元函数，由链式法则可知，评分函数也是播放时刻t的一元函数R=R(t)；

将视频流S的各个时刻的评分做积分，得到总评分，该函数是一个N维向量，且

于是，即为影片类型，其中/> 运算求向量的下标。

对于数字视频，其播放时刻是离散的，换句话说，一部帧率25fps的数字影片每秒包含25个帧，而不是无数个帧。在这种情况下，积分表达式退化为求和表达式，即

等号左边的T是常量，对分类结果没有影响，为了方便，可以重新定义总评分函数的表达式为

的那个维度的数值大，就给影片打上对应的年代类型标签。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种影片年代类型识别方法，其特征在于，包括一种影片年代类型识别***，所述***包括：

数字影片解码、截图、图片预处理和训练好的影片年代类型识别模型构成的卷积神经网络***；识别模型为VGG-16网络结构；

能够根据模型推理结果分析影片年代类型的分类器；

所述方法包括如下步骤：

将M张图片进行预处理之后，分别输入至卷积神经网络；

M张图片全部推理完成后，影片年代类型识别的***将M个概率向量输入至分类器；

分类器按照下述算法分析出影片的年代类型：视频流的任一播放时刻t都对应一个帧，将该帧作为模型的输入可得到一个N维概率向量/>，向量的每个维度分别对应一个年代类型，引入评分函数/>，其中/>，将所有播放时刻的评分函数做积分，得到总评分/>，总评分是一个N维向量，其各个维的定义式为/>

且每一维都对应一个年代类型，取总评分最大的年代类型作为该视频的分类结果。

2.根据权利要求1所述的影片年代类型识别方法，其特征在于，包括如下步骤：

S1.构建训练集和验证集：准备分属于N种年代类型的大量的数字影片，从每个影片时间间隔均匀地截取图片，作为该类型的训练数据和验证数据；

S2.卷积神经网络的搭建：使用一种用于图像分类任务的深层卷积网络作为本网络的主体；

S3.卷积神经网络的训练：冻结卷积基的参数，训练分类器，分类器的第一层使用Dropout；经多轮训练，分类器达到较好的正确率后，解冻卷积基的底层，进行微调训练，并验证集上验证网络的正确率。

3.根据权利要求2所述的影片年代类型识别方法，其特征在于：将M张图片进行预处理包括如下步骤：1)缩放至神经网络要求的输入尺寸；2)每张图片的像素减去整个图片数据集的平均的RGB值；3)将RGB的像素值除以255，使得RGB数值介于0到1。