CN105844251A

CN105844251A - 一种卡通视频识别方法及装置

Info

Publication number: CN105844251A
Application number: CN201610201081.0A
Authority: CN
Inventors: 杨帆; 白茂生; 魏伟; 蔡砚刚; 刘阳
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Cloud Computing Co Ltd
Current assignee: LeTV Holding Beijing Co Ltd; LeTV Cloud Computing Co Ltd
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-10
Also published as: WO2017166597A1

Abstract

本发明公开了一种卡通视频识别方法及装置，属于模式识别技术领域。该方法包含从待识别视频中提取关键帧、从关键帧中获取图像特征、根据每个关键帧的图像特征计算该关键帧的卡通图像隶属度，以及根据待识别视频的所有关键帧的卡通图像隶属度判断该视频是否为卡通视频等步骤。本发明具有算法简单、图像特征选取合理的特点，尤其是在识别速度和识别准确率之间达到了一个恰当的平衡，非常适合大量视频的识别场景。

Description

一种卡通视频识别方法及装置

技术领域

本发明涉及模式识别技术领域，特别是指一种卡通视频识别方法及装置。

背景技术

目前，随着网络技术和多媒体技术的高速发展，各种多媒体信息日渐庞博，大大丰富了人们的日常生活。同时，视频作为一种常见的多媒体形式，与人类的日常生活息息相关，也是网络上访问较多的一种资源模式。

根据中国互联网中心第34次中国互联网络发展状况统计报告，截止2014年6月底中国已经拥有高达4.39亿的互联网视频用户，网络视频的用户数量占到了中国人口总数的1/3。随着用户数量的增多，用户对于在线视频的需求也越来越大。为了充分的满足用户的需求，各大门户网站不断扩充在线视频库，导致互联网视频数量的急剧增加，单个门户网站的视频数量可以达到数百亿个之多。据知名调研机构ComScore的调研数据，2011年10月优酷网的视频播放量达到46亿次，日上传量为7万。

但是，由于视频的种类和数量与日俱增，所以如何对这些海量的视频进行分类整理，以使人们能够根据类别快速找到自己感兴趣的内容便成为了一个重要的课题。为此，视频的自动分析***便应运而生，视频的自动分类检测算法也成为模式识别领域的一个研究热点。

从乐视网的视频分类标签中可以看到，常见的视频类型主要有电影、电视剧、体育、动漫等等类别，其中动漫也就是卡通视频。在这些视频种类中，卡通视频是一种特殊的类别，它不同于其他视频的“真实性”，而是通过手工或电脑绘画制作出来的视频。目前，动漫产业在国内外都已成为一个重要的文化产业，因此动漫视频所占的比重也将日益庞大。因此，卡通视频识别就成为视频分类领域的一个重要研究方向。

卡通视频的一个重要特点是，卡通视频具有较为明显的边缘特征，同时，卡通视频的色彩也更加丰富。基于这些特征，现有技术中已有一些卡通视频识别方法，比如通过统计视频的颜色、纹理、形状、运动等等特征来对视频种类进行识别，其中“识别”其实就是使用事先训练好的分类器对某一组具体的图像特征进行分类。但是，由于对图像特征的提取不可能全面，分类器也存在不可避免的偏差，因此识别结果存在一定地不准确性。

发明内容

有鉴于此，本发明的目的在于提出一种卡通视频识别方法及装置，能够进一步提高卡通视频识别的准确率。

基于上述目的，本发明提供的技术方案为：

一种卡通视频识别方法，该方法包含：

从待识别视频中提取关键帧；

从关键帧中获取图像特征；

使用第一分类算法根据每个关键帧的图像特征计算该关键帧的卡通图像隶属度；

将卡通图像隶属度的取值范围分成至少三个区间，并统计所有关键帧的卡通图像隶属度的区间分布情况；

使用第二分类算法根据所述区间分布情况判断待识别视频是否为卡通视频。

具体地，图像特征可以包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例和颜色矩信息，其中颜色矩信息由颜色直方图计算得到；边缘直方图通过统计像素点的梯度方向和梯度幅值得出；高亮像素比例是指HSV(Hue-Saturation-Value，色调-饱和度-明度)空间中V(Value，明度)参数大于阈值X的像素点的比例；边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。

具体地，边缘直方图以矩阵形式表示的计算方式为：

B_mn＝L_m×G_n，

式中，B_mn表示m行n列的边缘直方图矩阵，L_m表示m行1列的梯度幅值直方图矩阵，G_n表示1行n列的梯度方向直方图矩阵；

上述梯度方向直方图矩阵的计算方式为：

G_{n} = \frac{1}{N} Σ_{j = 1}^{N} Q_{n j},

式中：N表示被统计像素点的总数；Q_nj为一个1行n列的矩阵，表示第j个像素点对每一个梯度方向区间的贡献；

上述Q_nj的计算方式为：设第j个像素点的梯度方向落入量化区间S，则它对量化区间S以及量化区间T均有贡献，而对其他量化区间均无贡献，所述量化区间T是除量化区间S外与第j个像素点的梯度方向夹角最小的量化区间；第j个像素点对量化区间S的贡献v_S和对量化区间T的贡献v_T按下式计算：

v_{S} = \frac{θ_{T}}{γ_{S T}},

v_{T} = \frac{θ_{S}}{γ_{S T}},

式中，γ_ST表示量化区间S的中点所表征的方向与量化区间T的中点所表征的方向的夹角，θ_S表示第j个像素点的梯度方向与量化区间S的中点所表征的方向的夹角，θ_T表示第j个像素点的梯度方向与量化区间T的中点所表征的方向的夹角。

具体地，颜色直方图是在HSV空间中对颜色进行线性量化得出的，颜色矩信息由颜色直方图的前三阶矩组成，即一阶矩(平均值Mean)、二阶矩(方差Variance)和三阶矩(偏度Skewness)。

具体地，梯度方向在0～180度范围内的区间划分与它在180～360度范围内的区间划分镜像对称。

具体地，关键帧均来自于待识别视频的有效区段，有效区段是待识别视频去掉开头部分和结尾部分后的剩余部分，有效区段的时长至少为整个待识别视频时长的50％，且开头部分和结尾部分的时长均至少为整个待识别视频时长的8％。这样做的好处是：一般不论卡通视频还是非卡通视频都会有片头和片尾，且片头和片尾可能是字幕，这会影响算法对视频的识别结果，因此最好将视频的开头和结尾去掉。

具体地，图像特征全部来自于关键帧的有效区域，有效区域的面积至少为整个关键帧面积的25％，且有效区域位于关键帧的可取区域内；可取区域为与关键帧具有共同几何中心的关键帧的相似形，且可取区域的面积为关键帧面积的64％。这样做的好处是：不论卡通视频还是非卡通视频可能会在视频的边缘部分具有黑框和/或字幕，为了避免黑框和字幕的干扰，识别时最好选取视频关键帧的几何中间部分。

一种卡通视频识别装置，包含：

关键帧提取模块：用于从待识别视频中提取关键帧；

图像特征提取模块：用于从关键帧中获取图像特征；

第一分类模块：用于使用第一分类算法根据每个关键帧的图像特征计算该关键帧的卡通图像隶属度；

隶属度分布统计模块：用于将卡通图像隶属度的取值范围分成至少三个区间，并统计所有关键帧的卡通图像隶属度的区间分布情况；

第二分类模块：用于使用第二分类算法根据所述区间分布情况判断待识别视频是否为卡通视频。

具体地，图像特征可以包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例，以及由颜色直方图得到的颜色矩信息；边缘直方图通过统计像素点的梯度方向和梯度幅值得出；高亮像素比例是指HSV空间中V参数大于阈值X的像素点的比例；边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。

具体地，边缘直方图以矩阵形式表示的计算方式为：

B_mn＝L_m×G_n，

上述梯度方向直方图矩阵的计算方式为：

G_{n} = \frac{1}{N} Σ_{j = 1}^{N} Q_{n j},

v_{S} = \frac{θ_{T}}{γ_{S T}},

v_{T} = \frac{θ_{S}}{γ_{S T}},

从上面所述可以看出，本发明的有益效果在于：

本发明将卡通图像隶属度划分成了多个区间，并对所有关键帧的卡通图像隶属度的分布情况进行了统计，然后将统计结果输入第二分类器进行了再次分类，从而提高了卡通视频的判断准确性，同时依然保持了较低的算法复杂度，对现有技术是一种重要改进。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法实施例的一种流程图；

图2为本发明装置实施例的一种结构示意图；

图3为本发明实施例中的一种角度区间划分方式示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

一种卡通视频识别方法，该方法包含：

从待识别视频中提取关键帧，关键帧可以使用ffmpeg等等软件提取；

从关键帧中获取图像特征；

具体地，图像特征包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例，以及由颜色直方图得到的颜色矩信息；边缘直方图通过统计像素点的梯度方向和梯度幅值得出，具体地可以使用Sobel算子；高亮像素比例是指HSV(Hue-Saturation-Value，色调-饱和度-明度)空间中V(Value，明度)参数大于阈值X的像素点的比例；边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。

具体地，边缘直方图以矩阵形式表示的计算方式为：

B_mn＝L_m×G_n，

上述梯度方向直方图矩阵的计算方式为：

G_{n} = \frac{1}{N} Σ_{j = 1}^{N} Q_{n j},

v_{S} = \frac{θ_{T}}{γ_{S T}},

v_{T} = \frac{θ_{S}}{γ_{S T}},

式中，γ_ST表示量化区间S的中点所表征的方向与量化区间T的中点所表征的方向的最小正夹角，θ_S表示第j个像素点的梯度方向与量化区间S的中点所表征的方向的最小正夹角，θ_T表示第j个像素点的梯度方向与量化区间T的中点所表征的方向的最小正夹角。

例如，如图3所示为一种角度区间划分方式，其中每两条相邻实线为一个角度区间，图中的两条虚线分别表示第一角度区间和第二角度区间的角平分线，图中的点划线表示某一像素点的梯度方向，其落在第二角度区间内，同时也落在两条虚线的夹角范围内，因此该像素点对第一角度区间和第二角度区间均有贡献，它对第一角度区间的贡献为而对第二角度区间的贡献为

当然，关于梯度方向的统计还有更简单的方式，即若某一像素点的梯度方向落在第二角度区间内，则该像素点只对第二角度区间有贡献，而对其他角度区间均无贡献。这两种统计方法均可应用在本发明的所有具体实施方式中。

具体地，颜色直方图是在HSV空间中对颜色进行线性量化得出的，颜色矩信息由颜色直方图的前三阶矩组成，即一阶矩(平均值Mean)、二阶矩(方差Variance)和三阶矩(偏度Skewness)，其计算方式分别为：

一阶矩：

二阶矩：

三阶矩：

其中，N表示像素点的总数，i表示图像通道(即HSV空间中的H通道、S通道或V通道)，p_ij表示关键帧第j个像素点在通道i下的灰度值。

具体地，梯度方向在0～180度范围内的区间划分与它在180～360度范围内的区间划分镜像对称，比如从0度开始将圆周均匀地划分为8个区间。

一种卡通视频识别装置，它包含：

关键帧提取模块：用于从待识别视频中提取关键帧；

图像特征提取模块：用于从关键帧中获取图像特征；

第二分类模块：使用第二分类算法根据区间分布情况判断待识别视频是否为卡通视频。

具体地，图像特征包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例，以及由颜色直方图得到的颜色矩信息；边缘直方图通过统计像素点的梯度方向和梯度幅值得出；高亮像素比例是指HSV空间中V参数大于阈值X的像素点的比例；边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。

具体地，边缘直方图以矩阵形式表示的计算方式为：

B_mn＝L_m×G_n，

上述梯度方向直方图矩阵的计算方式为：

G_{n} = \frac{1}{N} Σ_{j = 1}^{N} Q_{n j},

v_{S} = \frac{θ_{T}}{γ_{S T}},

v_{T} = \frac{θ_{S}}{γ_{S T}},

当然，关于梯度方向的统计还有更简单的方式，即若某一像素点的梯度方向落在第二角度区间内，则该像素点只对第二角度区间有贡献，而对其他角度区间均无贡献。这两种统计方法均可应用在本发明所有实施方式的具体实践中。

作为本发明方法的一个实施例，如图1所示，一种卡通视频识别方法，该方法包含如下步骤：

步骤101，截取待识别视频的中间80％时长部分；

步骤102，从截取部分中提取关键帧；

步骤103，截取关键帧的长、宽中部70％的区域；

步骤104，将截取区域的图像转换到HSV空间；

步骤105，在HSV空间中统计截取区域的颜色直方图，H参数均匀地划分为8个区间，S和V参数分别均匀地划分为6个区间；同时统计截取区域的边缘直方图，其中边缘直方图是通过统计像素点的梯度方向和梯度幅值得出的，梯度方向和梯度幅值都均匀地划分为8个区间；

步骤106，根据颜色直方图和边缘直方图统计截取区域的高亮像素比例和边缘像素比例；其中高亮像素比例为V参数大于0.5的像素点的比例，边缘像素比例为梯度幅值大于阈值0.087的像素点的比例；

步骤107，使用事先训练过的SVM(Support Vector Machine，支持向量机)分类器对截取区域进行分类，计算出截取区域的卡通图像隶属度；

步骤108，将隶属度的取值范围均匀分为5个区间，统计所有关键帧的隶属度分布；

步骤109，将隶属度分布输入另一经过事先训练的SVM分类器，从而计算该视频为卡通视频的概率，若概率超过50％则判定其为卡通视频；

步骤110，输出判定结果。

作为本发明装置的一个实施例，如图2所示，一种装置，该卡通视频识别装置2包含关键帧提取模块201、图像特征提取模块202、第一分类模块203、隶属度分布统计模块204和第二分类模块205；隶属度分布统计模块204用于将卡通图像隶属度的取值范围分成5个区间，并统计卡通图像隶属度的区间分布情况，再根据区间分布情况使用第二分类算法进行分类，从而判断待识别视频是否为卡通视频。使用时，将待识别视频输入关键帧提取模块201，关键帧提取模块201将提取到的关键帧传递给图像特征提取模块202，图像特征提取模块202从关键帧中提取图像特征，其提取方法可以采用本发明方法中提及的任何一种方式，接着图像特征提取模块202将图像特征传递给第一分类模块203，第一分类模块203计算出每个关键帧的卡通图像隶属度，并将结果传递给隶属度分布统计模块204，隶属度分布统计模块204将统计结果传递给第二分类模块205，经过第二分类模块205的分类计算判断待分类视频是否为卡通视频，最终输出视频类型。

容易想到，本发明装置的具体实现既可以是一种专用设备，也可以是在电脑、手机、平板等智能设备上安装特定软件而形成的设备。

需要说明的是，以上叙述中对范围做出了限定的各个参数，在该范围内选取任何端点值或中间值都是可取的，并且各参数的不同取值组合也是可行的。在了解到本发明具体实施方式所限定的范围后，本领域技术人员不需要付出任何创造性劳动都可以对其中的每一个参数进行具体取值，其所得到的应用效果都没有超出本发明所记载的范围，因此，为了节约篇幅，发明人不再对各种可能取值及其可能组合一一列举。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种卡通视频识别方法，其特征在于，包含：

从待识别视频中提取关键帧；

从关键帧中获取图像特征；

将所述卡通图像隶属度的取值范围分成至少三个区间，并统计所有关键帧的卡通图像隶属度的区间分布情况；

2.根据权利要求1所述的卡通视频识别方法，其特征在于：所述图像特征包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例和颜色矩信息，其中颜色矩信息由所述颜色直方图计算得出；所述边缘直方图通过统计像素点的梯度方向和梯度幅值得出；

所述高亮像素比例是指HSV空间中V参数大于阈值X的像素点的比例；所述边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。

3.根据权利要求2所述的卡通视频识别方法，其特征在于：所述边缘直方图以矩阵形式表示的计算方式为：

B_mn＝L_m×G_n，

所述梯度方向直方图矩阵的计算方式为：

G_{n} = \frac{1}{N} Σ_{j = 1}^{N} Q_{n j},

Q_nj的计算方式为：设第j个像素点的梯度方向落入量化区间S，则它对量化区间S以及量化区间T均有贡献，而对其他量化区间均无贡献，所述量化区间T是除量化区间S外与第j个像素点的梯度方向夹角最小的量化区间；第j个像素点对量化区间S的贡献v_S和对量化区间T的贡献v_T按下式计算：

v_{S} = \frac{θ_{T}}{γ_{S T}},

v_{T} = \frac{θ_{S}}{γ_{S T}},

4.根据权利要求2所述的卡通视频识别方法，其特征在于：所述颜色直方图是在HSV空间中对颜色进行线性量化得出的，所述颜色矩信息由所述颜色直方图的前三阶矩组成。

5.根据权利要求2所述的卡通视频识别方法，其特征在于：所述梯度方向在0～180度范围内的区间划分与它在180～360度范围内的区间划分镜像对称。

6.根据权利要求1所述的卡通视频识别方法，其特征在于：所述关键帧均来自于所述待识别视频的有效区段，所述有效区段是待识别视频去掉开头部分和结尾部分后的剩余部分，所述有效区段的时长至少为整个待识别视频时长的50％，且所述开头部分和所述结尾部分的时长均至少为整个待识别视频时长的8％。

7.根据权利要求1所述的卡通视频识别方法，其特征在于：所述图像特征全部来自于关键帧的有效区域，所述有效区域的面积至少为整个关键帧面积的25％，且有效区域位于关键帧的可取区域内；所述可取区域为与关键帧具有共同几何中心的关键帧的相似形，且可取区域的面积为关键帧面积的64％。

8.一种卡通视频识别装置，其特征在于，包含：

关键帧提取模块：用于从待识别视频中提取关键帧；

图像特征提取模块：用于从关键帧中获取图像特征；

隶属度分布统计模块：用于将所述卡通图像隶属度的取值范围分成至少三个区间，并统计所有关键帧的卡通图像隶属度的区间分布情况；

第二分类模块：使用第二分类算法根据所述区间分布情况判断待识别视频是否为卡通视频。

9.根据权利要求8所述的卡通视频识别装置，其特征在于：所述图像特征包含颜色直方图、边缘直方图、高亮像素比例、边缘像素比例和颜色矩信息，其中颜色矩信息由颜色直方图计算得到；所述边缘直方图通过统计像素点的梯度方向和梯度幅值得出；所述高亮像素比例是指HSV空间中V参数大于阈值X的像素点的比例；所述边缘像素比例是指梯度幅值大于阈值Y的像素点的比例。

10.根据权利要求9所述的卡通视频识别装置，其特征在于：所述边缘直方图以矩阵形式表示的计算方式为：

B_mn＝L_m×G_n，

所述梯度方向直方图矩阵的计算方式为：

G_{n} = \frac{1}{N} Σ_{j = 1}^{N} Q_{n j},

Q_nj的计算方式为：设第j个像素点的梯度方向落入量化区间S，则它对量化区间S以及量化区间T均有贡献，而对其他量化区间均无贡献，所述量化区间T是除量化区间S外与第j个像素点的梯度方向夹角最小的量化区间；第j个像素点对量化区间S的贡献vS和对量化区间T的贡献v_T按下式计算：

v_{S} = \frac{θ_{T}}{γ_{S T}},

v_{T} = \frac{θ_{S}}{γ_{S T}},

11.根据权利要求9所述的卡通视频识别装置，其特征在于：所述颜色直方图是在HSV空间中对颜色进行线性量化得出的，所述颜色矩信息由所述颜色直方图的前三阶矩组成。

12.根据权利要求9所述的卡通视频识别装置，其特征在于：所述梯度方向在0～180度范围内的区间划分与它在180～360度范围内的区间划分镜像对称。

13.根据权利要求9所述的卡通视频识别装置，其特征在于：所述关键帧均来自于所述待识别视频的有效区段，所述有效区段是待识别视频去掉开头部分和结尾部分后的剩余部分，所述有效区段的时长至少为整个待识别视频时长的50％，且所述开头部分和所述结尾部分的时长均至少为整个待识别视频时长的8％。

14.根据权利要求9所述的卡通视频识别装置，其特征在于：所述图像特征全部来自于关键帧的有效区域，所述有效区域的面积至少为整个关键帧面积的25％，且有效区域位于关键帧的可取区域内；所述可取区域为与关键帧具有共同几何中心的关键帧的相似形，且可取区域的面积为关键帧面积的64％。