CN111797912B - 影片年代类型识别的***、方法及识别模型的构建方法 - Google Patents

影片年代类型识别的***、方法及识别模型的构建方法 Download PDF

Info

Publication number
CN111797912B
CN111797912B CN202010580262.5A CN202010580262A CN111797912B CN 111797912 B CN111797912 B CN 111797912B CN 202010580262 A CN202010580262 A CN 202010580262A CN 111797912 B CN111797912 B CN 111797912B
Authority
CN
China
Prior art keywords
film
type
picture
pictures
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010580262.5A
Other languages
English (en)
Other versions
CN111797912A (zh
Inventor
杨唤晨
徐杰
谢恩鹏
刘永辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Ultra HD Video Industry Co Ltd
Original Assignee
Shandong Inspur Ultra HD Video Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Ultra HD Video Industry Co Ltd filed Critical Shandong Inspur Ultra HD Video Industry Co Ltd
Priority to CN202010580262.5A priority Critical patent/CN111797912B/zh
Publication of CN111797912A publication Critical patent/CN111797912A/zh
Application granted granted Critical
Publication of CN111797912B publication Critical patent/CN111797912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种影片年代类型识别的***、方法及识别模型的构建方法。一种影片年代类型识别的***,包括:训练好的影片年代类型识别模型;计算设备、存储设备和输入输出设备构成用于自动识别过程的计算机设备;数字影片解码、截图和图片预处理构成的卷积神经网络***;能够根据模型推理结果分析影片年代类型的分类器。通过该***和方法,计算设备从存储设备获得数字影片后可自动识别影片的年代类型。相比人工识别,使用计算设备识别具有可靠、快速、廉价和可批量处理等诸多优势。

Description

影片年代类型识别的***、方法及识别模型的构建方法
技术领域
本发明涉及一种影片年代类型识别的***、方法及识别模型的构建方法,属于信息技术技术领域。
背景技术
近年来,视频业务发展迅速,追网剧、看数字电视等活动成为人们的重要娱乐方式。视频服务商往往储存有大量的影片,如何自动、快速、可靠、批量地给这些影片打上年代、题材、体裁等标签,对于帮助服务商提供优质的视频服务具有重要意义。
发明内容
本发明目的是提供了一种影片年代类型识别的***、方法及识别模型的构建方法。
本发明为实现上述目的,通过以下技术方案实现:
一种影片年代类型识别的***,包括:
训练好的影片年代类型识别模型;
计算设备、存储设备和输入输出设备构成用于自动识别过程的计算机设备;
数字影片解码、截图和图片预处理构成的卷积神经网络***;
能够根据模型推理结果分析影片年代类型的分类器。
上述影片年代类型识别的***基础上,卷积神经网络***为VGG-16网络结构。
一种所述的***进行影片年代类型识别方法,包括如下步骤:
计算设备从存储设备读取待识别的影片,将影片的开头a分钟和结尾b分钟掐去后,均匀时间间隔地截取M张图片;
将M张图片进行预处理之后,分别输入至卷积神经网络;
对于每一个图片输入,卷积神经网络会推理出一个N维概率向量,每一维都对应图片属于相应年代类型的概率;
M张图片全部推理完成后,影片年代类型识别的***将M个概率向量输入至分类器。
一种所述影片年代类型识别模型的构建方法,其特征在于,包括如下步骤:
S1. 构建训练集和验证集:准备分属于N种年代类型的大量的数字影片,从每个影片时间间隔均匀地截取图片,作为该类型的训练数据和验证数据;
S2. 卷积神经网络的搭建:使用一种用于图像分类任务的深层卷积网络作为本网络的主体;
S3. 卷积神经网络的训练:冻结卷积基的参数,训练分类器,分类器的第一层使用Dropout;经多轮训练,分类器达到较好的正确率后,解冻卷积基的底层,进行微调训练,并验证集上验证网络的正确率。
上述所述影片年代类型识别模型的构建方法,所有的训练图片和验证图片应进行预处理,包括如下步骤:1)缩放至神经网络要求的输入尺寸;2)每张图片的像素减去整个图片数据集的平均的RGB值;3)将RGB的像素值除以255,使得RGB数值介于0到1。
6.根据权利要求3所述影片年代类型识别模型的构建方法,其特征在于:分类器按照下述算法分析出影片的年代类型:视频流的任一播放时刻t都对应一个帧,将该帧作为模型的输入可得到一个N维概率向量/> ,向量的每个维度分别对应一个年代类型;
引入评分函数,其中
将所有播放时刻的评分函数做积分,得到总评分 ,总评分是一个N维向量,其各个维的定义式为/> ,且每一维都对应一个年代类型;
取总评分最大的年代类型作为该视频的分类结果。
本发明的优点在于:通过该***和方法,计算设备从存储设备获得数字影片后可自动识别影片的年代类型,相比人工识别,使用计算设备识别具有可靠、快速、廉价和可批量处理等诸多优势。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明影片年代类型识别模型的构建方法流程示意图。
图2为本发明影片年代类型识别方法流程图。
图3为本发明影片年代类型识别***连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种年代类型识别的***,包括:训练好的影片年代类型识别模型;计算设备、存储设备和输入输出设备构成用于自动识别过程的计算机设备;数字影片解码、截图和图片预处理构成的卷积神经网络***;能够根据模型推理结果分析影片年代类型的分类器。
一种所述的***进行影片年代类型识别方法,该方法将待识别影片打上年代类型标签,待识别影片的实际年代类型必须是预设的N个年代类型当中的一个,这些年代类型可以是古装、民国、当代等类型,方法包括如下步骤:
计算设备从存储设备读取待识别的影片,将影片的开头a分钟和结尾b分钟掐去后,均匀时间间隔地截取M张图片;
将M张图片进行预处理之后,分别输入至卷积神经网络;
图片预处理包括但不限于将图片每个像素的RGB值减去所有像素的平均RGB值,将所有像素的RGB值乘1/255从而让数值落在0-1的区间内,将图片缩放至某一固定尺寸,等等;
对于每一个图片输入,卷积神经网络会推理出一个N维概率向量,每一维都对应图片属于相应年代类型的概率;
M张图片全部推理完成后,影片年代类型识别的***将M个概率向量输入至分类器。
一种所述影片年代类型识别模型的构建方法,包括如下步骤:
S1. 构建训练集和验证集:对于每一类年代类型,都要准备S部数字影片,S要足够大;对于每一部影片,首先掐去开头的a分钟和结尾的b分钟,保证片头和片尾被掐去;等时间间隔地截取T张图片,作为该类型的数据;这样,每个类型都能得到S×T张图片,按照一定比例分配给训练集和验证集;
S2. 卷积神经网络的搭建:使用一种用于图像分类任务的深层卷积网络作为本网络的主体,例如,VGG16网络,使用在大型的图片数据集上训练的VGG16网络的参数,初始化自己的网络,例如,使用Keras下载训练好的VGG16网络;
S3. 卷积神经网络的训练:冻结卷积基的参数,训练分类器,分类器的第一层使用Dropout,用于减轻过拟合问题;经多轮训练,分类器达到较好的正确率后,解冻卷积基的底层,进行微调训练,并验证集上验证网络的正确率。
所有的训练图片和验证图片应进行预处理,包括如下步骤:1)缩放至神经网络要求的输入尺寸;2)每张图片的像素减去整个图片数据集的平均的RGB值;3)将RGB的像素值除以255,使得RGB数值介于0到1。
分类器按照下述算法分析出影片的年代类型:引入N维概率向量的函数/>,其中/>,后文将/>称作评分函数;
对于一个时长为T的视频流S,其每一播放时刻t都对应一帧,将F输入网络可得到一个概率向量/> ,而评分函数又是概率向量的一元函数,由链式法则可知,评分函数也是播放时刻t的一元函数R=R(t);
将视频流S的各个时刻的评分做积分,得到总评分,该函数是一个N维向量,且
于是,即为影片类型,其中/> 运算求向量的下标。
对于数字视频,其播放时刻是离散的,换句话说,一部帧率25fps的数字影片每秒包含25个帧,而不是无数个帧。在这种情况下,积分表达式退化为求和表达式,即
等号左边的T是常量,对分类结果没有影响,为了方便,可以重新定义总评分函数的表达式为
的那个维度的数值大,就给影片打上对应的年代类型标签。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种影片年代类型识别方法,其特征在于,包括一种影片年代类型识别***,所述***包括:
计算设备、存储设备和输入输出设备构成用于自动识别过程的计算机设备;
数字影片解码、截图、图片预处理和训练好的影片年代类型识别模型构成的卷积神经网络***;识别模型为VGG-16网络结构;
能够根据模型推理结果分析影片年代类型的分类器;
所述方法包括如下步骤:
计算设备从存储设备读取待识别的影片,将影片的开头a分钟和结尾b分钟掐去后,均匀时间间隔地截取M张图片;
将M张图片进行预处理之后,分别输入至卷积神经网络;
对于每一个图片输入,卷积神经网络会推理出一个N维概率向量,每一维都对应图片属于相应年代类型的概率;
M张图片全部推理完成后,影片年代类型识别的***将M个概率向量输入至分类器;
分类器按照下述算法分析出影片的年代类型:视频流的任一播放时刻t都对应一个帧,将该帧作为模型的输入可得到一个N维概率向量/>,向量的每个维度分别对应一个年代类型,引入评分函数/>,其中/>,将所有播放时刻的评分函数做积分,得到总评分/>,总评分是一个N维向量,其各个维的定义式为/>
且每一维都对应一个年代类型,取总评分最大的年代类型作为该视频的分类结果。
2.根据权利要求1所述的影片年代类型识别方法,其特征在于,包括如下步骤:
S1.构建训练集和验证集:准备分属于N种年代类型的大量的数字影片,从每个影片时间间隔均匀地截取图片,作为该类型的训练数据和验证数据;
S2.卷积神经网络的搭建:使用一种用于图像分类任务的深层卷积网络作为本网络的主体;
S3.卷积神经网络的训练:冻结卷积基的参数,训练分类器,分类器的第一层使用Dropout;经多轮训练,分类器达到较好的正确率后,解冻卷积基的底层,进行微调训练,并验证集上验证网络的正确率。
3.根据权利要求2所述的影片年代类型识别方法,其特征在于:将M张图片进行预处理包括如下步骤:1)缩放至神经网络要求的输入尺寸;2)每张图片的像素减去整个图片数据集的平均的RGB值;3)将RGB的像素值除以255,使得RGB数值介于0到1。
CN202010580262.5A 2020-06-23 2020-06-23 影片年代类型识别的***、方法及识别模型的构建方法 Active CN111797912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010580262.5A CN111797912B (zh) 2020-06-23 2020-06-23 影片年代类型识别的***、方法及识别模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010580262.5A CN111797912B (zh) 2020-06-23 2020-06-23 影片年代类型识别的***、方法及识别模型的构建方法

Publications (2)

Publication Number Publication Date
CN111797912A CN111797912A (zh) 2020-10-20
CN111797912B true CN111797912B (zh) 2023-09-22

Family

ID=72803677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010580262.5A Active CN111797912B (zh) 2020-06-23 2020-06-23 影片年代类型识别的***、方法及识别模型的构建方法

Country Status (1)

Country Link
CN (1) CN111797912B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103229223A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用多个候选答案评分模型提供问题答案
CN105844251A (zh) * 2016-03-31 2016-08-10 乐视控股(北京)有限公司 一种卡通视频识别方法及装置
CN107067020A (zh) * 2016-12-30 2017-08-18 腾讯科技(上海)有限公司 图片识别方法及装置
CN107194419A (zh) * 2017-05-10 2017-09-22 百度在线网络技术(北京)有限公司 视频分类方法及装置、计算机设备与可读介质
CN108154134A (zh) * 2018-01-11 2018-06-12 天格科技(杭州)有限公司 基于深度卷积神经网络的互联网直播色情图像检测方法
CN109753984A (zh) * 2017-11-07 2019-05-14 北京京东尚科信息技术有限公司 视频分类方法、装置和计算机可读存储介质
CN109919031A (zh) * 2019-01-31 2019-06-21 厦门大学 一种基于深度神经网络的人体行为识别方法
CN110147700A (zh) * 2018-05-18 2019-08-20 腾讯科技(深圳)有限公司 视频分类方法、装置、存储介质以及设备
CN110766096A (zh) * 2019-10-31 2020-02-07 北京金山云网络技术有限公司 视频分类方法、装置及电子设备
CN110866593A (zh) * 2019-11-05 2020-03-06 西南交通大学 一种基于人工智能的高速公路恶劣天气识别方法
CN110991246A (zh) * 2019-10-31 2020-04-10 天津市国瑞数码安全***股份有限公司 一种视频检测方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015167420A1 (en) * 2014-04-28 2015-11-05 Hewlett-Packard Development Company, L.P. Term chain clustering
US10402697B2 (en) * 2016-08-01 2019-09-03 Nvidia Corporation Fusing multilayer and multimodal deep neural networks for video classification

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103229223A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用多个候选答案评分模型提供问题答案
CN105844251A (zh) * 2016-03-31 2016-08-10 乐视控股(北京)有限公司 一种卡通视频识别方法及装置
CN107067020A (zh) * 2016-12-30 2017-08-18 腾讯科技(上海)有限公司 图片识别方法及装置
CN107194419A (zh) * 2017-05-10 2017-09-22 百度在线网络技术(北京)有限公司 视频分类方法及装置、计算机设备与可读介质
CN109753984A (zh) * 2017-11-07 2019-05-14 北京京东尚科信息技术有限公司 视频分类方法、装置和计算机可读存储介质
CN108154134A (zh) * 2018-01-11 2018-06-12 天格科技(杭州)有限公司 基于深度卷积神经网络的互联网直播色情图像检测方法
CN110147700A (zh) * 2018-05-18 2019-08-20 腾讯科技(深圳)有限公司 视频分类方法、装置、存储介质以及设备
CN109919031A (zh) * 2019-01-31 2019-06-21 厦门大学 一种基于深度神经网络的人体行为识别方法
CN110766096A (zh) * 2019-10-31 2020-02-07 北京金山云网络技术有限公司 视频分类方法、装置及电子设备
CN110991246A (zh) * 2019-10-31 2020-04-10 天津市国瑞数码安全***股份有限公司 一种视频检测方法及***
CN110866593A (zh) * 2019-11-05 2020-03-06 西南交通大学 一种基于人工智能的高速公路恶劣天气识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Video classification and recommendation based on affective analysis of viewers;Sicheng Zhao等;《Neurocomputing》;第119卷;第101–110页 *
基于多分类器集成的模式识别研究;潘翔;《中国优秀硕士学位论文全文数据库 信息科技辑》(第(2002)02期);I138-526 *
基于智能机顶盒视频点播***的设计与实现;朱宁;《中国优秀硕士学位论文全文数据库 信息科技辑》(第(2015)07期);I136-439 *
基于视频流行度及视频分类标签的Top-N推荐;周瑞环;《中国优秀硕士学位论文全文数据库 信息科技辑》(第(2018)10期);I138-1031 *

Also Published As

Publication number Publication date
CN111797912A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
US9805270B2 (en) Video segmentation techniques
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
CN111754267B (zh) 基于区块链的数据处理方法及***
US20170347151A1 (en) Facilitating Television Based Interaction with Social Networking Tools
Ul Haq et al. Personalized Movie Summarization Using Deep CNN‐Assisted Facial Expression Recognition
WO2019007020A1 (zh) 一种视频摘要的生成方法及装置
US20230353828A1 (en) Model-based data processing method and apparatus
CN102236796A (zh) 数字视频不良内容的分类方法和***
WO2022087826A1 (zh) 视频处理方法、装置、可移动设备及可读存储介质
US20210225005A1 (en) Selection of Video Frames Using a Machine Learning Predictor
US10897658B1 (en) Techniques for annotating media content
CN111985281A (zh) 图像生成模型的生成方法、装置及图像生成方法、装置
CN111914734A (zh) 面向短视频场景的主题情感分析方法
CN109348287A (zh) 视频摘要生成方法、装置、存储介质和电子设备
CN116977774A (zh) 图像生成方法、装置、设备和介质
US20210327071A1 (en) Automated Cropping of Images Using a Machine Learning Predictor
CN111797912B (zh) 影片年代类型识别的***、方法及识别模型的构建方法
CN114064968A (zh) 一种新闻字幕摘要生成方法和***
CN113468925B (zh) 一种遮挡人脸识别方法、智能终端及存储介质
CN111444822B (zh) 对象识别方法和装置、存储介质和电子装置
US20210224571A1 (en) Automated Cropping of Images Using a Machine Learning Predictor
US20140307968A1 (en) Method and apparatus for automatic genre identification and classification
US20230066331A1 (en) Method and system for automatically capturing and processing an image of a user
CN113705666B (zh) 分割网络训练方法、使用方法、装置、设备及存储介质
CN114743170A (zh) 一种基于ai算法的自动驾驶场景标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 250100 West District, North First Floor, S06 Building, 1036 Langchao Road, Jinan High-tech Zone, Shandong Province

Applicant after: Shandong Inspur Ultra HD Video Industry Co.,Ltd.

Address before: 250101 west area, North 1st floor, S06 building, 1036 Chaochao Road, high tech Zone, Jinan City, Shandong Province

Applicant before: SHANDONG YUNMAN INTELLIGENT TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant