CN105844251A - 一种卡通视频识别方法及装置 - Google Patents

一种卡通视频识别方法及装置 Download PDF

Info

Publication number
CN105844251A
CN105844251A CN201610201081.0A CN201610201081A CN105844251A CN 105844251 A CN105844251 A CN 105844251A CN 201610201081 A CN201610201081 A CN 201610201081A CN 105844251 A CN105844251 A CN 105844251A
Authority
CN
China
Prior art keywords
interval
video
key frame
cartoon
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610201081.0A
Other languages
English (en)
Inventor
杨帆
白茂生
魏伟
蔡砚刚
刘阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Holding Beijing Co Ltd
LeTV Cloud Computing Co Ltd
Original Assignee
LeTV Holding Beijing Co Ltd
LeTV Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Holding Beijing Co Ltd, LeTV Cloud Computing Co Ltd filed Critical LeTV Holding Beijing Co Ltd
Priority to CN201610201081.0A priority Critical patent/CN105844251A/zh
Publication of CN105844251A publication Critical patent/CN105844251A/zh
Priority to PCT/CN2016/096153 priority patent/WO2017166597A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种卡通视频识别方法及装置,属于模式识别技术领域。该方法包含从待识别视频中提取关键帧、从关键帧中获取图像特征、根据每个关键帧的图像特征计算该关键帧的卡通图像隶属度,以及根据待识别视频的所有关键帧的卡通图像隶属度判断该视频是否为卡通视频等步骤。本发明具有算法简单、图像特征选取合理的特点,尤其是在识别速度和识别准确率之间达到了一个恰当的平衡,非常适合大量视频的识别场景。

Description

一种卡通视频识别方法及装置
技术领域
本发明涉及模式识别技术领域,特别是指一种卡通视频识别方法及装置。
背景技术
目前,随着网络技术和多媒体技术的高速发展,各种多媒体信息日渐庞博,大大丰富了人们的日常生活。同时,视频作为一种常见的多媒体形式,与人类的日常生活息息相关,也是网络上访问较多的一种资源模式。
根据中国互联网中心第34次中国互联网络发展状况统计报告,截止2014年6月底中国已经拥有高达4.39亿的互联网视频用户,网络视频的用户数量占到了中国人口总数的1/3。随着用户数量的增多,用户对于在线视频的需求也越来越大。为了充分的满足用户的需求,各大门户网站不断扩充在线视频库,导致互联网视频数量的急剧增加,单个门户网站的视频数量可以达到数百亿个之多。据知名调研机构ComScore的调研数据,2011年10月优酷网的视频播放量达到46亿次,日上传量为7万。
但是,由于视频的种类和数量与日俱增,所以如何对这些海量的视频进行分类整理,以使人们能够根据类别快速找到自己感兴趣的内容便成为了一个重要的课题。为此,视频的自动分析***便应运而生,视频的自动分类检测算法也成为模式识别领域的一个研究热点。
从乐视网的视频分类标签中可以看到,常见的视频类型主要有电影、电视剧、体育、动漫等等类别,其中动漫也就是卡通视频。在这些视频种类中,卡通视频是一种特殊的类别,它不同于其他视频的“真实性”,而是通过手工或电脑绘画制作出来的视频。目前,动漫产业在国内外都已成为一个重要的文化产业,因此动漫视频所占的比重也将日益庞大。因此,卡通视频识别就成为视频分类领域的一个重要研究方向。
卡通视频的一个重要特点是,卡通视频具有较为明显的边缘特征,同时,卡通视频的色彩也更加丰富。基于这些特征,现有技术中已有一些卡通视频识别方法,比如通过统计视频的颜色、纹理、形状、运动等等特征来对视频种类进行识别,其中“识别”其实就是使用事先训练好的分类器对某一组具体的图像特征进行分类。但是,由于对图像特征的提取不可能全面,分类器也存在不可避免的偏差,因此识别结果存在一定地不准确性。
发明内容
有鉴于此,本发明的目的在于提出一种卡通视频识别方法及装置,能够进一步提高卡通视频识别的准确率。
基于上述目的,本发明提供的技术方案为:
一种卡通视频识别方法,该方法包含:
从待识别视频中提取关键帧;
从关键帧中获取图像特征;
使用第一分类算法根据每个关键帧的图像特征计算该关键帧的卡通图像隶属度;
将卡通图像隶属度的取值范围分成至少三个区间,并统计所有关键帧的卡通图像隶属度的区间分布情况;
使用第二分类算法根据所述区间分布情况判断待识别视频是否为卡通视频。
具体地,图像特征可以包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例和颜色矩信息,其中颜色矩信息由颜色直方图计算得到;边缘直方图通过统计像素点的梯度方向和梯度幅值得出;高亮像素比例是指HSV(Hue-Saturation-Value,色调-饱和度-明度)空间中V(Value,明度)参数大于阈值X的像素点的比例;边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。
具体地,边缘直方图以矩阵形式表示的计算方式为:
Bmn=Lm×Gn
式中,Bmn表示m行n列的边缘直方图矩阵,Lm表示m行1列的梯度幅值直方图矩阵,Gn表示1行n列的梯度方向直方图矩阵;
上述梯度方向直方图矩阵的计算方式为:
G n = 1 N Σ j = 1 N Q n j ,
式中:N表示被统计像素点的总数;Qnj为一个1行n列的矩阵,表示第j个像素点对每一个梯度方向区间的贡献;
上述Qnj的计算方式为:设第j个像素点的梯度方向落入量化区间S,则它对量化区间S以及量化区间T均有贡献,而对其他量化区间均无贡献,所述量化区间T是除量化区间S外与第j个像素点的梯度方向夹角最小的量化区间;第j个像素点对量化区间S的贡献vS和对量化区间T的贡献vT按下式计算:
v S = θ T γ S T ,
v T = θ S γ S T ,
式中,γST表示量化区间S的中点所表征的方向与量化区间T的中点所表征的方向的夹角,θS表示第j个像素点的梯度方向与量化区间S的中点所表征的方向的夹角,θT表示第j个像素点的梯度方向与量化区间T的中点所表征的方向的夹角。
具体地,颜色直方图是在HSV空间中对颜色进行线性量化得出的,颜色矩信息由颜色直方图的前三阶矩组成,即一阶矩(平均值Mean)、二阶矩(方差Variance)和三阶矩(偏度Skewness)。
具体地,梯度方向在0~180度范围内的区间划分与它在180~360度范围内的区间划分镜像对称。
具体地,关键帧均来自于待识别视频的有效区段,有效区段是待识别视频去掉开头部分和结尾部分后的剩余部分,有效区段的时长至少为整个待识别视频时长的50%,且开头部分和结尾部分的时长均至少为整个待识别视频时长的8%。这样做的好处是:一般不论卡通视频还是非卡通视频都会有片头和片尾,且片头和片尾可能是字幕,这会影响算法对视频的识别结果,因此最好将视频的开头和结尾去掉。
具体地,图像特征全部来自于关键帧的有效区域,有效区域的面积至少为整个关键帧面积的25%,且有效区域位于关键帧的可取区域内;可取区域为与关键帧具有共同几何中心的关键帧的相似形,且可取区域的面积为关键帧面积的64%。这样做的好处是:不论卡通视频还是非卡通视频可能会在视频的边缘部分具有黑框和/或字幕,为了避免黑框和字幕的干扰,识别时最好选取视频关键帧的几何中间部分。
一种卡通视频识别装置,包含:
关键帧提取模块:用于从待识别视频中提取关键帧;
图像特征提取模块:用于从关键帧中获取图像特征;
第一分类模块:用于使用第一分类算法根据每个关键帧的图像特征计算该关键帧的卡通图像隶属度;
隶属度分布统计模块:用于将卡通图像隶属度的取值范围分成至少三个区间,并统计所有关键帧的卡通图像隶属度的区间分布情况;
第二分类模块:用于使用第二分类算法根据所述区间分布情况判断待识别视频是否为卡通视频。
具体地,图像特征可以包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例,以及由颜色直方图得到的颜色矩信息;边缘直方图通过统计像素点的梯度方向和梯度幅值得出;高亮像素比例是指HSV空间中V参数大于阈值X的像素点的比例;边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。
具体地,边缘直方图以矩阵形式表示的计算方式为:
Bmn=Lm×Gn
式中,Bmn表示m行n列的边缘直方图矩阵,Lm表示m行1列的梯度幅值直方图矩阵,Gn表示1行n列的梯度方向直方图矩阵;
上述梯度方向直方图矩阵的计算方式为:
G n = 1 N Σ j = 1 N Q n j ,
式中:N表示被统计像素点的总数;Qnj为一个1行n列的矩阵,表示第j个像素点对每一个梯度方向区间的贡献;
上述Qnj的计算方式为:设第j个像素点的梯度方向落入量化区间S,则它对量化区间S以及量化区间T均有贡献,而对其他量化区间均无贡献,所述量化区间T是除量化区间S外与第j个像素点的梯度方向夹角最小的量化区间;第j个像素点对量化区间S的贡献vS和对量化区间T的贡献vT按下式计算:
v S = θ T γ S T ,
v T = θ S γ S T ,
式中,γST表示量化区间S的中点所表征的方向与量化区间T的中点所表征的方向的夹角,θS表示第j个像素点的梯度方向与量化区间S的中点所表征的方向的夹角,θT表示第j个像素点的梯度方向与量化区间T的中点所表征的方向的夹角。
具体地,颜色直方图是在HSV空间中对颜色进行线性量化得出的,颜色矩信息由颜色直方图的前三阶矩组成,即一阶矩(平均值Mean)、二阶矩(方差Variance)和三阶矩(偏度Skewness)。
具体地,梯度方向在0~180度范围内的区间划分与它在180~360度范围内的区间划分镜像对称。
具体地,关键帧均来自于待识别视频的有效区段,有效区段是待识别视频去掉开头部分和结尾部分后的剩余部分,有效区段的时长至少为整个待识别视频时长的50%,且开头部分和结尾部分的时长均至少为整个待识别视频时长的8%。这样做的好处是:一般不论卡通视频还是非卡通视频都会有片头和片尾,且片头和片尾可能是字幕,这会影响算法对视频的识别结果,因此最好将视频的开头和结尾去掉。
具体地,图像特征全部来自于关键帧的有效区域,有效区域的面积至少为整个关键帧面积的25%,且有效区域位于关键帧的可取区域内;可取区域为与关键帧具有共同几何中心的关键帧的相似形,且可取区域的面积为关键帧面积的64%。这样做的好处是:不论卡通视频还是非卡通视频可能会在视频的边缘部分具有黑框和/或字幕,为了避免黑框和字幕的干扰,识别时最好选取视频关键帧的几何中间部分。
从上面所述可以看出,本发明的有益效果在于:
本发明将卡通图像隶属度划分成了多个区间,并对所有关键帧的卡通图像隶属度的分布情况进行了统计,然后将统计结果输入第二分类器进行了再次分类,从而提高了卡通视频的判断准确性,同时依然保持了较低的算法复杂度,对现有技术是一种重要改进。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法实施例的一种流程图;
图2为本发明装置实施例的一种结构示意图;
图3为本发明实施例中的一种角度区间划分方式示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
一种卡通视频识别方法,该方法包含:
从待识别视频中提取关键帧,关键帧可以使用ffmpeg等等软件提取;
从关键帧中获取图像特征;
使用第一分类算法根据每个关键帧的图像特征计算该关键帧的卡通图像隶属度;
将卡通图像隶属度的取值范围分成至少三个区间,并统计所有关键帧的卡通图像隶属度的区间分布情况;
使用第二分类算法根据所述区间分布情况判断待识别视频是否为卡通视频。
具体地,图像特征包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例,以及由颜色直方图得到的颜色矩信息;边缘直方图通过统计像素点的梯度方向和梯度幅值得出,具体地可以使用Sobel算子;高亮像素比例是指HSV(Hue-Saturation-Value,色调-饱和度-明度)空间中V(Value,明度)参数大于阈值X的像素点的比例;边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。
具体地,边缘直方图以矩阵形式表示的计算方式为:
Bmn=Lm×Gn
式中,Bmn表示m行n列的边缘直方图矩阵,Lm表示m行1列的梯度幅值直方图矩阵,Gn表示1行n列的梯度方向直方图矩阵;
上述梯度方向直方图矩阵的计算方式为:
G n = 1 N Σ j = 1 N Q n j ,
式中:N表示被统计像素点的总数;Qnj为一个1行n列的矩阵,表示第j个像素点对每一个梯度方向区间的贡献;
上述Qnj的计算方式为:设第j个像素点的梯度方向落入量化区间S,则它对量化区间S以及量化区间T均有贡献,而对其他量化区间均无贡献,所述量化区间T是除量化区间S外与第j个像素点的梯度方向夹角最小的量化区间;第j个像素点对量化区间S的贡献vS和对量化区间T的贡献vT按下式计算:
v S = θ T γ S T ,
v T = θ S γ S T ,
式中,γST表示量化区间S的中点所表征的方向与量化区间T的中点所表征的方向的最小正夹角,θS表示第j个像素点的梯度方向与量化区间S的中点所表征的方向的最小正夹角,θT表示第j个像素点的梯度方向与量化区间T的中点所表征的方向的最小正夹角。
例如,如图3所示为一种角度区间划分方式,其中每两条相邻实线为一个角度区间,图中的两条虚线分别表示第一角度区间和第二角度区间的角平分线,图中的点划线表示某一像素点的梯度方向,其落在第二角度区间内,同时也落在两条虚线的夹角范围内,因此该像素点对第一角度区间和第二角度区间均有贡献,它对第一角度区间的贡献为而对第二角度区间的贡献为
当然,关于梯度方向的统计还有更简单的方式,即若某一像素点的梯度方向落在第二角度区间内,则该像素点只对第二角度区间有贡献,而对其他角度区间均无贡献。这两种统计方法均可应用在本发明的所有具体实施方式中。
具体地,颜色直方图是在HSV空间中对颜色进行线性量化得出的,颜色矩信息由颜色直方图的前三阶矩组成,即一阶矩(平均值Mean)、二阶矩(方差Variance)和三阶矩(偏度Skewness),其计算方式分别为:
一阶矩:
二阶矩:
三阶矩:
其中,N表示像素点的总数,i表示图像通道(即HSV空间中的H通道、S通道或V通道),pij表示关键帧第j个像素点在通道i下的灰度值。
具体地,梯度方向在0~180度范围内的区间划分与它在180~360度范围内的区间划分镜像对称,比如从0度开始将圆周均匀地划分为8个区间。
具体地,关键帧均来自于待识别视频的有效区段,有效区段是待识别视频去掉开头部分和结尾部分后的剩余部分,有效区段的时长至少为整个待识别视频时长的50%,且开头部分和结尾部分的时长均至少为整个待识别视频时长的8%。这样做的好处是:一般不论卡通视频还是非卡通视频都会有片头和片尾,且片头和片尾可能是字幕,这会影响算法对视频的识别结果,因此最好将视频的开头和结尾去掉。
具体地,图像特征全部来自于关键帧的有效区域,有效区域的面积至少为整个关键帧面积的25%,且有效区域位于关键帧的可取区域内;可取区域为与关键帧具有共同几何中心的关键帧的相似形,且可取区域的面积为关键帧面积的64%。这样做的好处是:不论卡通视频还是非卡通视频可能会在视频的边缘部分具有黑框和/或字幕,为了避免黑框和字幕的干扰,识别时最好选取视频关键帧的几何中间部分。
一种卡通视频识别装置,它包含:
关键帧提取模块:用于从待识别视频中提取关键帧;
图像特征提取模块:用于从关键帧中获取图像特征;
第一分类模块:用于使用第一分类算法根据每个关键帧的图像特征计算该关键帧的卡通图像隶属度;
隶属度分布统计模块:用于将卡通图像隶属度的取值范围分成至少三个区间,并统计所有关键帧的卡通图像隶属度的区间分布情况;
第二分类模块:使用第二分类算法根据区间分布情况判断待识别视频是否为卡通视频。
具体地,图像特征包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例,以及由颜色直方图得到的颜色矩信息;边缘直方图通过统计像素点的梯度方向和梯度幅值得出;高亮像素比例是指HSV空间中V参数大于阈值X的像素点的比例;边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。
具体地,边缘直方图以矩阵形式表示的计算方式为:
Bmn=Lm×Gn
式中,Bmn表示m行n列的边缘直方图矩阵,Lm表示m行1列的梯度幅值直方图矩阵,Gn表示1行n列的梯度方向直方图矩阵;
上述梯度方向直方图矩阵的计算方式为:
G n = 1 N Σ j = 1 N Q n j ,
式中:N表示被统计像素点的总数;Qnj为一个1行n列的矩阵,表示第j个像素点对每一个梯度方向区间的贡献;
上述Qnj的计算方式为:设第j个像素点的梯度方向落入量化区间S,则它对量化区间S以及量化区间T均有贡献,而对其他量化区间均无贡献,所述量化区间T是除量化区间S外与第j个像素点的梯度方向夹角最小的量化区间;第j个像素点对量化区间S的贡献vS和对量化区间T的贡献vT按下式计算:
v S = θ T γ S T ,
v T = θ S γ S T ,
式中,γST表示量化区间S的中点所表征的方向与量化区间T的中点所表征的方向的最小正夹角,θS表示第j个像素点的梯度方向与量化区间S的中点所表征的方向的最小正夹角,θT表示第j个像素点的梯度方向与量化区间T的中点所表征的方向的最小正夹角。
当然,关于梯度方向的统计还有更简单的方式,即若某一像素点的梯度方向落在第二角度区间内,则该像素点只对第二角度区间有贡献,而对其他角度区间均无贡献。这两种统计方法均可应用在本发明所有实施方式的具体实践中。
具体地,颜色直方图是在HSV空间中对颜色进行线性量化得出的,颜色矩信息由颜色直方图的前三阶矩组成,即一阶矩(平均值Mean)、二阶矩(方差Variance)和三阶矩(偏度Skewness)。
具体地,梯度方向在0~180度范围内的区间划分与它在180~360度范围内的区间划分镜像对称。
具体地,关键帧均来自于待识别视频的有效区段,有效区段是待识别视频去掉开头部分和结尾部分后的剩余部分,有效区段的时长至少为整个待识别视频时长的50%,且开头部分和结尾部分的时长均至少为整个待识别视频时长的8%。这样做的好处是:一般不论卡通视频还是非卡通视频都会有片头和片尾,且片头和片尾可能是字幕,这会影响算法对视频的识别结果,因此最好将视频的开头和结尾去掉。
具体地,图像特征全部来自于关键帧的有效区域,有效区域的面积至少为整个关键帧面积的25%,且有效区域位于关键帧的可取区域内;可取区域为与关键帧具有共同几何中心的关键帧的相似形,且可取区域的面积为关键帧面积的64%。这样做的好处是:不论卡通视频还是非卡通视频可能会在视频的边缘部分具有黑框和/或字幕,为了避免黑框和字幕的干扰,识别时最好选取视频关键帧的几何中间部分。
作为本发明方法的一个实施例,如图1所示,一种卡通视频识别方法,该方法包含如下步骤:
步骤101,截取待识别视频的中间80%时长部分;
步骤102,从截取部分中提取关键帧;
步骤103,截取关键帧的长、宽中部70%的区域;
步骤104,将截取区域的图像转换到HSV空间;
步骤105,在HSV空间中统计截取区域的颜色直方图,H参数均匀地划分为8个区间,S和V参数分别均匀地划分为6个区间;同时统计截取区域的边缘直方图,其中边缘直方图是通过统计像素点的梯度方向和梯度幅值得出的,梯度方向和梯度幅值都均匀地划分为8个区间;
步骤106,根据颜色直方图和边缘直方图统计截取区域的高亮像素比例和边缘像素比例;其中高亮像素比例为V参数大于0.5的像素点的比例,边缘像素比例为梯度幅值大于阈值0.087的像素点的比例;
步骤107,使用事先训练过的SVM(Support Vector Machine,支持向量机)分类器对截取区域进行分类,计算出截取区域的卡通图像隶属度;
步骤108,将隶属度的取值范围均匀分为5个区间,统计所有关键帧的隶属度分布;
步骤109,将隶属度分布输入另一经过事先训练的SVM分类器,从而计算该视频为卡通视频的概率,若概率超过50%则判定其为卡通视频;
步骤110,输出判定结果。
作为本发明装置的一个实施例,如图2所示,一种装置,该卡通视频识别装置2包含关键帧提取模块201、图像特征提取模块202、第一分类模块203、隶属度分布统计模块204和第二分类模块205;隶属度分布统计模块204用于将卡通图像隶属度的取值范围分成5个区间,并统计卡通图像隶属度的区间分布情况,再根据区间分布情况使用第二分类算法进行分类,从而判断待识别视频是否为卡通视频。使用时,将待识别视频输入关键帧提取模块201,关键帧提取模块201将提取到的关键帧传递给图像特征提取模块202,图像特征提取模块202从关键帧中提取图像特征,其提取方法可以采用本发明方法中提及的任何一种方式,接着图像特征提取模块202将图像特征传递给第一分类模块203,第一分类模块203计算出每个关键帧的卡通图像隶属度,并将结果传递给隶属度分布统计模块204,隶属度分布统计模块204将统计结果传递给第二分类模块205,经过第二分类模块205的分类计算判断待分类视频是否为卡通视频,最终输出视频类型。
容易想到,本发明装置的具体实现既可以是一种专用设备,也可以是在电脑、手机、平板等智能设备上安装特定软件而形成的设备。
需要说明的是,以上叙述中对范围做出了限定的各个参数,在该范围内选取任何端点值或中间值都是可取的,并且各参数的不同取值组合也是可行的。在了解到本发明具体实施方式所限定的范围后,本领域技术人员不需要付出任何创造性劳动都可以对其中的每一个参数进行具体取值,其所得到的应用效果都没有超出本发明所记载的范围,因此,为了节约篇幅,发明人不再对各种可能取值及其可能组合一一列举。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种卡通视频识别方法,其特征在于,包含:
从待识别视频中提取关键帧;
从关键帧中获取图像特征;
使用第一分类算法根据每个关键帧的图像特征计算该关键帧的卡通图像隶属度;
将所述卡通图像隶属度的取值范围分成至少三个区间,并统计所有关键帧的卡通图像隶属度的区间分布情况;
使用第二分类算法根据所述区间分布情况判断待识别视频是否为卡通视频。
2.根据权利要求1所述的卡通视频识别方法,其特征在于:所述图像特征包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例和颜色矩信息,其中颜色矩信息由所述颜色直方图计算得出;所述边缘直方图通过统计像素点的梯度方向和梯度幅值得出;
所述高亮像素比例是指HSV空间中V参数大于阈值X的像素点的比例;所述边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。
3.根据权利要求2所述的卡通视频识别方法,其特征在于:所述边缘直方图以矩阵形式表示的计算方式为:
Bmn=Lm×Gn
式中,Bmn表示m行n列的边缘直方图矩阵,Lm表示m行1列的梯度幅值直方图矩阵,Gn表示1行n列的梯度方向直方图矩阵;
所述梯度方向直方图矩阵的计算方式为:
G n = 1 N Σ j = 1 N Q n j ,
式中:N表示被统计像素点的总数;Qnj为一个1行n列的矩阵,表示第j个像素点对每一个梯度方向区间的贡献;
Qnj的计算方式为:设第j个像素点的梯度方向落入量化区间S,则它对量化区间S以及量化区间T均有贡献,而对其他量化区间均无贡献,所述量化区间T是除量化区间S外与第j个像素点的梯度方向夹角最小的量化区间;第j个像素点对量化区间S的贡献vS和对量化区间T的贡献vT按下式计算:
v S = θ T γ S T ,
v T = θ S γ S T ,
式中,γST表示量化区间S的中点所表征的方向与量化区间T的中点所表征的方向的夹角,θS表示第j个像素点的梯度方向与量化区间S的中点所表征的方向的夹角,θT表示第j个像素点的梯度方向与量化区间T的中点所表征的方向的夹角。
4.根据权利要求2所述的卡通视频识别方法,其特征在于:所述颜色直方图是在HSV空间中对颜色进行线性量化得出的,所述颜色矩信息由所述颜色直方图的前三阶矩组成。
5.根据权利要求2所述的卡通视频识别方法,其特征在于:所述梯度方向在0~180度范围内的区间划分与它在180~360度范围内的区间划分镜像对称。
6.根据权利要求1所述的卡通视频识别方法,其特征在于:所述关键帧均来自于所述待识别视频的有效区段,所述有效区段是待识别视频去掉开头部分和结尾部分后的剩余部分,所述有效区段的时长至少为整个待识别视频时长的50%,且所述开头部分和所述结尾部分的时长均至少为整个待识别视频时长的8%。
7.根据权利要求1所述的卡通视频识别方法,其特征在于:所述图像特征全部来自于关键帧的有效区域,所述有效区域的面积至少为整个关键帧面积的25%,且有效区域位于关键帧的可取区域内;所述可取区域为与关键帧具有共同几何中心的关键帧的相似形,且可取区域的面积为关键帧面积的64%。
8.一种卡通视频识别装置,其特征在于,包含:
关键帧提取模块:用于从待识别视频中提取关键帧;
图像特征提取模块:用于从关键帧中获取图像特征;
第一分类模块:用于使用第一分类算法根据每个关键帧的图像特征计算该关键帧的卡通图像隶属度;
隶属度分布统计模块:用于将所述卡通图像隶属度的取值范围分成至少三个区间,并统计所有关键帧的卡通图像隶属度的区间分布情况;
第二分类模块:使用第二分类算法根据所述区间分布情况判断待识别视频是否为卡通视频。
9.根据权利要求8所述的卡通视频识别装置,其特征在于:所述图像特征包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例和颜色矩信息,其中颜色矩信息由颜色直方图计算得到;所述边缘直方图通过统计像素点的梯度方向和梯度幅值得出;所述高亮像素比例是指HSV空间中V参数大于阈值X的像素点的比例;所述边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。
10.根据权利要求9所述的卡通视频识别装置,其特征在于:所述边缘直方图以矩阵形式表示的计算方式为:
Bmn=Lm×Gn
式中,Bmn表示m行n列的边缘直方图矩阵,Lm表示m行1列的梯度幅值直方图矩阵,Gn表示1行n列的梯度方向直方图矩阵;
所述梯度方向直方图矩阵的计算方式为:
G n = 1 N Σ j = 1 N Q n j ,
式中:N表示被统计像素点的总数;Qnj为一个1行n列的矩阵,表示第j个像素点对每一个梯度方向区间的贡献;
Qnj的计算方式为:设第j个像素点的梯度方向落入量化区间S,则它对量化区间S以及量化区间T均有贡献,而对其他量化区间均无贡献,所述量化区间T是除量化区间S外与第j个像素点的梯度方向夹角最小的量化区间;第j个像素点对量化区间S的贡献vS和对量化区间T的贡献vT按下式计算:
v S = θ T γ S T ,
v T = θ S γ S T ,
式中,γST表示量化区间S的中点所表征的方向与量化区间T的中点所表征的方向的夹角,θS表示第j个像素点的梯度方向与量化区间S的中点所表征的方向的夹角,θT表示第j个像素点的梯度方向与量化区间T的中点所表征的方向的夹角。
11.根据权利要求9所述的卡通视频识别装置,其特征在于:所述颜色直方图是在HSV空间中对颜色进行线性量化得出的,所述颜色矩信息由所述颜色直方图的前三阶矩组成。
12.根据权利要求9所述的卡通视频识别装置,其特征在于:所述梯度方向在0~180度范围内的区间划分与它在180~360度范围内的区间划分镜像对称。
13.根据权利要求9所述的卡通视频识别装置,其特征在于:所述关键帧均来自于所述待识别视频的有效区段,所述有效区段是待识别视频去掉开头部分和结尾部分后的剩余部分,所述有效区段的时长至少为整个待识别视频时长的50%,且所述开头部分和所述结尾部分的时长均至少为整个待识别视频时长的8%。
14.根据权利要求9所述的卡通视频识别装置,其特征在于:所述图像特征全部来自于关键帧的有效区域,所述有效区域的面积至少为整个关键帧面积的25%,且有效区域位于关键帧的可取区域内;所述可取区域为与关键帧具有共同几何中心的关键帧的相似形,且可取区域的面积为关键帧面积的64%。
CN201610201081.0A 2016-03-31 2016-03-31 一种卡通视频识别方法及装置 Pending CN105844251A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610201081.0A CN105844251A (zh) 2016-03-31 2016-03-31 一种卡通视频识别方法及装置
PCT/CN2016/096153 WO2017166597A1 (zh) 2016-03-31 2016-08-22 一种卡通视频识别方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610201081.0A CN105844251A (zh) 2016-03-31 2016-03-31 一种卡通视频识别方法及装置

Publications (1)

Publication Number Publication Date
CN105844251A true CN105844251A (zh) 2016-08-10

Family

ID=56597759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610201081.0A Pending CN105844251A (zh) 2016-03-31 2016-03-31 一种卡通视频识别方法及装置

Country Status (2)

Country Link
CN (1) CN105844251A (zh)
WO (1) WO2017166597A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166597A1 (zh) * 2016-03-31 2017-10-05 乐视控股(北京)有限公司 一种卡通视频识别方法、装置和电子设备
CN111797912A (zh) * 2020-06-23 2020-10-20 山东云缦智能科技有限公司 影片年代类型识别的***、方法及识别模型的构建方法
CN113222058A (zh) * 2021-05-28 2021-08-06 新疆爱华盈通信息技术有限公司 一种图像分类方法、装置、电子设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871827B (zh) * 2019-03-14 2022-10-25 大连海事大学 一种结合区域置信度和压力分布方向强度的足迹表达方法
CN111325181B (zh) * 2020-03-19 2023-12-05 京东科技信息技术有限公司 一种状态监测方法、装置、电子设备及存储介质
CN111479130B (zh) * 2020-04-02 2023-09-26 腾讯科技(深圳)有限公司 一种视频定位方法、装置、电子设备和存储介质
CN115544473B (zh) * 2022-09-09 2023-11-21 苏州吉弘能源科技有限公司 一种光伏发电站运维终端登录控制***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6363380B1 (en) * 1998-01-13 2002-03-26 U.S. Philips Corporation Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser
CN101650728A (zh) * 2009-08-26 2010-02-17 北京邮电大学 视频高层特征检索***及其实现
CN101977311A (zh) * 2010-11-03 2011-02-16 上海交通大学 基于多特征分析的cg动画视频检测方法
CN104881675A (zh) * 2015-05-04 2015-09-02 北京奇艺世纪科技有限公司 一种视频场景的识别方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001027865A1 (en) * 1999-10-08 2001-04-19 British Telecommunications Public Limited Company Cartoon recognition
EP1130546A1 (en) * 2000-03-02 2001-09-05 BRITISH TELECOMMUNICATIONS public limited company Cartoon recognition
US6810144B2 (en) * 2001-07-20 2004-10-26 Koninklijke Philips Electronics N.V. Methods of and system for detecting a cartoon in a video data stream
WO2004019224A2 (en) * 2002-08-26 2004-03-04 Koninklijke Philips Electronics N.V. Unit for and method of detection a content property in a sequence of video images
CN100541524C (zh) * 2008-04-17 2009-09-16 上海交通大学 基于内容的互联网动画媒体垃圾信息过滤方法
CN105844251A (zh) * 2016-03-31 2016-08-10 乐视控股(北京)有限公司 一种卡通视频识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6363380B1 (en) * 1998-01-13 2002-03-26 U.S. Philips Corporation Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser
CN101650728A (zh) * 2009-08-26 2010-02-17 北京邮电大学 视频高层特征检索***及其实现
CN101977311A (zh) * 2010-11-03 2011-02-16 上海交通大学 基于多特征分析的cg动画视频检测方法
CN104881675A (zh) * 2015-05-04 2015-09-02 北京奇艺世纪科技有限公司 一种视频场景的识别方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166597A1 (zh) * 2016-03-31 2017-10-05 乐视控股(北京)有限公司 一种卡通视频识别方法、装置和电子设备
CN111797912A (zh) * 2020-06-23 2020-10-20 山东云缦智能科技有限公司 影片年代类型识别的***、方法及识别模型的构建方法
CN111797912B (zh) * 2020-06-23 2023-09-22 山东浪潮超高清视频产业有限公司 影片年代类型识别的***、方法及识别模型的构建方法
CN113222058A (zh) * 2021-05-28 2021-08-06 新疆爱华盈通信息技术有限公司 一种图像分类方法、装置、电子设备及存储介质
CN113222058B (zh) * 2021-05-28 2024-05-10 芯算一体(深圳)科技有限公司 一种图像分类方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2017166597A1 (zh) 2017-10-05

Similar Documents

Publication Publication Date Title
CN105844251A (zh) 一种卡通视频识别方法及装置
Lo et al. Assessment of photo aesthetics with efficiency
CN105118048B (zh) 翻拍证件图片的识别方法及装置
CN103577475B (zh) 一种图片自动化分类方法、图片处理方法及其装置
CN103605667B (zh) 一种图像自动标注算法
CN104376105B (zh) 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合***及方法
CN104899586B (zh) 对图像中包含的文字内容进行识别方法及装置
CN104063712A (zh) 一种车辆信息提取方法和***
CN104408429A (zh) 一种视频代表帧提取方法及装置
CN108629319B (zh) 图像检测方法及***
CN103605991A (zh) 一种视频广告的自动检测方法
CN106203454A (zh) 证件版式分析的方法及装置
CN103793717A (zh) 判断图像主体显著性及训练其分类器的方法和***
CN103092930A (zh) 视频摘要生成方法和视频摘要生成装置
CN106408529A (zh) 一种阴影去除方法及装置
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN104050684A (zh) 一种基于在线训练的视频运动目标分类方法与***
Sikirić et al. Classifying traffic scenes using the GIST image descriptor
CN103985130A (zh) 一种针对复杂纹理图像的图像显著性分析方法
CN104680189B (zh) 基于改进词袋模型的不良图像检测方法
CN109213886A (zh) 基于图像分割和模糊模式识别的图像检索方法及***
CN101977311B (zh) 基于多特征分析的cg动画视频检测方法
CN106066887B (zh) 一种广告序列图像快速检索和分析方法
Ma et al. Lecture video segmentation and indexing
CN102129569A (zh) 基于多尺度对比特征的对象检测设备和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160810

WD01 Invention patent application deemed withdrawn after publication