CN110852195A - 一种基于video slice的视频类型分类方法 - Google Patents
一种基于video slice的视频类型分类方法 Download PDFInfo
- Publication number
- CN110852195A CN110852195A CN201911015725.7A CN201911015725A CN110852195A CN 110852195 A CN110852195 A CN 110852195A CN 201911015725 A CN201911015725 A CN 201911015725A CN 110852195 A CN110852195 A CN 110852195A
- Authority
- CN
- China
- Prior art keywords
- video
- classification
- slice
- image
- classification method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于video slice的视频类型分类方法,包括以下步骤:101)设定分类步骤、102)提取slice图像步骤、103)类别分类步骤、104)类别判定步骤;本发明提供性能提高至少100倍以上的一种基于video slice的视频类型分类方法。
Description
技术领域
本发明涉及视频分类技术领域,更具体的说,它涉及一种基于video slice的视频类型分类方法。
背景技术
视频内容分析是一种视频处理的基础技术,包括:(1)镜头切换检测;(2)类型分类,确定如喜剧、战争、悬疑、动漫等;(3)特定物体检测,如检测人脸、汽车、广告牌;(4)语义分析;(5)内容比对等。视频内容分析技术,可以应用于多种领域,如视频编辑软件,视频推荐,内容审核,广告投放,版权维护等等。
视频由很多图像组成,一段10分钟的视频,可包含1万多帧图像,简单的基于图像分析视频内容十分困难,假设一张图像处理50ms(通常比这个时间长),1万张就需要8分钟。因此目前的应用局限性比较大,比较成熟的有版权维护(采用视频比对技术),精确性还是不如人工,而且需投放大量服务器。因此很多关于视频处理的工作,基本通过人工来完成,如视频网站的内容审核。
发明内容
本发明克服了现有技术的不足,提供一种基于video slice的视频类型分类方法。
本发明的技术方案如下:
一种基于video slice的视频类型分类方法,包括以下步骤:
101)设定分类步骤:根据应用场景,设计分类标签,所述分类标签包括喜剧、科幻、动漫、色情、暴恐;
102)提取slice图像步骤:采用视频切片方法快速进行视频内容提取,视频切片方法为从每一帧图像中提取部分像素,组合成有一定规律的可代表短视频内容的图像,公式如下:
其中x为切片图像,I为视频帧中间一行像素;
由视频切片方法形成新图像,提取后得到n张256x256的新图像,n的大小和视频总帧数成正比,并通过video slice对视频图像中的场景切换进行检测;
103)类别分类步骤:采用自研神经网络作为分类方法,即以卷积层Lc、激活层Lr、池化层Lp级联组合,加上内积层构成,可快速有效的进行分类任务,公式表示为;
f=Lp(Lr(Lc(x)))
arg min|F-M·g|
其中,f为神经网络单级特征,g为联合特征,M为内积矩阵,F为分类概率;
104)类别判定步骤:统计n个新图像的标签,找到数量最多分类结果,作为整个视频的分类标签。
进一步的,由中断裂位置判定为cut镜头切换,模糊过滤的位置为渐变镜头切换。
进一步的,将视频类型分类方法的框架部署在服务端;客户端通过http请求方式上传视频,服务端分类后将得到的结果返回。
本发明相比现有技术优点在于:
本发明相对于采用原始帧图像(采样或者全帧),或者人工来进行的分类方法,性能提高至少100倍以上;video slice的方法有效的抽象了视频的特征,减少了冗余信息,再加上自研网络强大的分类能力,目前的效果已完全替代人工分类。
附图说明
图1为本发明的video slice提取画框部分内容图;
图2为本发明的新图像图;
图3为本发明的分类过程示意图;
图4为本发明的视频分类流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进一步说明。
如图1至图4所示,一种基于video slice的视频类型分类方法,包括以下步骤:
101)设定分类步骤:根据应用场景,设计分类标签,所述分类标签包括喜剧、科幻、动漫、色情、暴恐等标签。
102)提取slice图像步骤:对一个视频中连续的图像,取每一帧图像中间一行像素作为列,形成新图像,这种新的图像可以反映一些视频的特征,视频的镜头切换、视频内容运动方式、内容风格等特征。如图2所示,视频的镜头切换新图像明显的断裂位置为cut镜头切换,模糊过滤的位置为渐变镜头切换。视频内容运动方式,内容静止为静态镜头(如图2从左往右的第一张图中间部分),内容连续变化(如图2从左往右的第二张图中间部分,镜头往上运动)。内容风格,如图2从左往右的第一、第二张图为动漫视频(冒险类型),后两张为美剧视频(悬疑类型),可以明显看出,前两张图像色彩绚丽,后两张颜色暗淡。
采用视频切片方法快速进行视频内容提取,即从每一帧图像中提取部分像素,组合成有一定规律的可代表短视频内容的图像,公式如下,其中x为切片图像,I为视频帧中间一行像素,运算为拼接运算;
通过视频切片方法提取后得到n张256x256的新图像,n的大小和视频总帧数成正比,并通过video slice对视频图像中的场景切换进行检测。如一段视频如果有25600帧,共可以得到256帧slice图像,对每张图像进行上述特征检测。
103)类别分类步骤:采用神经网络作为分类方法,即以卷积层Lc、激活层Lr、池化层Lp三者的级联组合,加上内积层构成,可快速有效的根据特征检测进行分类任务,公式表示为;
f=Lp(Lr(Lc(x)))
argmin|F-M·g|
f为神经网络单级特征,g为联合特征,M为内积矩阵,F为分类概率。
即对每一张新图像通过多级的由卷积层Lc、激活层Lr、池化层Lp三者的级联组合,得到的数据再通过内积层从而得到分类结果;与全卷积网络相比(如cascade cnn),上述网络主要引入池化层,同时包含一个很巧妙的结构,最后的特征包含所有卷积层的统计值,因此很好的保留了前后相关性,在和全卷积网络同等参数量的情况下,计算量更小,表示能力更强。卷积层、激活层、池化层都为常用深度神经网络的基础组件。
104)类别判定步骤:统计n个新图像的标签,找到数量最多分类结果,作为整个视频的分类标签。
最终,将视频类型分类方法的框架部署在服务端;客户端通过http请求方式上传视频,服务端分类后将得到的结果返回,实现完整的应用。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
Claims (3)
1.一种基于video slice的视频类型分类方法,其特征在于,包括以下步骤:
101)设定分类步骤:根据应用场景,设计分类标签,所述分类标签包括喜剧、科幻、动漫、色情、暴恐;
102)提取slice图像步骤:采用视频切片方法快速进行视频内容提取,视频切片方法为从每一帧图像中提取部分像素,组合成有一定规律的可代表短视频内容的图像,公式如下:
其中x为切片图像,I为视频帧中间一行像素;
由视频切片方法形成新图像,提取后得到n张256x256的新图像,n的大小和视频总帧数成正比,并通过video slice对视频图像中的场景切换进行检测;
103)类别分类步骤:采用自研神经网络作为分类方法,即以卷积层Lc、激活层Lr、池化层Lp级联组合,加上内积层构成,可快速有效的进行分类任务,公式表示为;
f=Lp(Lr(Lc(x)))
arg min|F-M·g|
其中,f为神经网络单级特征,g为联合特征,M为内积矩阵,F为分类概率;
104)类别判定步骤:统计n个新图像的标签,找到数量最多分类结果,作为整个视频的分类标签。
2.根据权利要求1所述的一种基于video slice的视频类型分类方法,其特征在于,由中断裂位置判定为cut镜头切换,模糊过滤的位置为渐变镜头切换。
3.根据权利要求1所述的一种基于video slice的视频类型分类方法,其特征在于,将视频类型分类方法的框架部署在服务端;客户端通过http请求方式上传视频,服务端分类后将得到的结果返回。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911015725.7A CN110852195A (zh) | 2019-10-24 | 2019-10-24 | 一种基于video slice的视频类型分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911015725.7A CN110852195A (zh) | 2019-10-24 | 2019-10-24 | 一种基于video slice的视频类型分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852195A true CN110852195A (zh) | 2020-02-28 |
Family
ID=69596990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911015725.7A Pending CN110852195A (zh) | 2019-10-24 | 2019-10-24 | 一种基于video slice的视频类型分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852195A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753790A (zh) * | 2020-07-01 | 2020-10-09 | 武汉楚精灵医疗科技有限公司 | 一种基于随机森林算法的视频分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330392A (zh) * | 2017-06-26 | 2017-11-07 | 司马大大(北京)智能***有限公司 | 视频场景标注装置与方法 |
CN107679462A (zh) * | 2017-09-13 | 2018-02-09 | 哈尔滨工业大学深圳研究生院 | 一种基于小波的深度多特征融合分类方法 |
CN108594997A (zh) * | 2018-04-16 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 手势骨架构建方法、装置、设备及存储介质 |
CN109948721A (zh) * | 2019-03-27 | 2019-06-28 | 北京邮电大学 | 一种基于视频描述的视频场景分类方法 |
CN110070067A (zh) * | 2019-04-29 | 2019-07-30 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
-
2019
- 2019-10-24 CN CN201911015725.7A patent/CN110852195A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330392A (zh) * | 2017-06-26 | 2017-11-07 | 司马大大(北京)智能***有限公司 | 视频场景标注装置与方法 |
CN107679462A (zh) * | 2017-09-13 | 2018-02-09 | 哈尔滨工业大学深圳研究生院 | 一种基于小波的深度多特征融合分类方法 |
CN108594997A (zh) * | 2018-04-16 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 手势骨架构建方法、装置、设备及存储介质 |
CN109948721A (zh) * | 2019-03-27 | 2019-06-28 | 北京邮电大学 | 一种基于视频描述的视频场景分类方法 |
CN110070067A (zh) * | 2019-04-29 | 2019-07-30 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
ZEESHAN RASHEED ET AL;: "《On the Use of Computable Features for Film Classification》", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753790A (zh) * | 2020-07-01 | 2020-10-09 | 武汉楚精灵医疗科技有限公司 | 一种基于随机森林算法的视频分类方法 |
CN111753790B (zh) * | 2020-07-01 | 2023-12-12 | 武汉楚精灵医疗科技有限公司 | 一种基于随机森林算法的视频分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10779037B2 (en) | Method and system for identifying relevant media content | |
CN111598026B (zh) | 动作识别方法、装置、设备及存储介质 | |
KR101089287B1 (ko) | 다중 얼굴 특징 정보 융합 기반 자동 얼굴 인식 장치 및 방법 | |
CN111489372A (zh) | 基于级联卷积神经网络的视频前背景分离方法 | |
CN102819528A (zh) | 生成视频摘要的方法和装置 | |
CN112150450B (zh) | 一种基于双通道U-Net模型的图像篡改检测方法及装置 | |
CN109033476B (zh) | 一种基于事件线索网络的智能时空数据事件分析方法 | |
Hadizadeh et al. | Video error concealment using a computation-efficient low saliency prior | |
CN111222450A (zh) | 模型的训练及其直播处理的方法、装置、设备和存储介质 | |
CN112163488A (zh) | 一种视频虚假人脸检测方法及电子装置 | |
CN110852195A (zh) | 一种基于video slice的视频类型分类方法 | |
CN107301245B (zh) | 一种电力信息视频搜索*** | |
Wang | A survey on IQA | |
US11830286B2 (en) | Data processing apparatus, data processing method, and non-transitory storage medium | |
Liu et al. | Unified frequency-assisted transformer framework for detecting and grounding multi-modal manipulation | |
EP2345978A1 (en) | Detection of flash illuminated scenes in video clips and related ranking of video clips | |
Qiu et al. | Dual focus attention network for video emotion recognition | |
CN112651271A (zh) | 一种基于深度学习算法搜索视频关键帧的方法及*** | |
CN106649545A (zh) | 一种交通视频的检索方法及检索服务器 | |
Lee et al. | Summarizing long-length videos with gan-enhanced audio/visual features | |
CN114996227A (zh) | 一种监控视频压缩及复原方法 | |
CN115410131A (zh) | 一种用于短视频智能分类的方法 | |
CN116189027A (zh) | 基于多层特征融合的Faster R-cnn上下文机制优化方法 | |
Roka et al. | Deep stacked denoising autoencoder for unsupervised anomaly detection in video surveillance | |
CN112380999B (zh) | 一种针对直播过程中诱导性不良行为的检测***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |