CN111651633A

CN111651633A - 一种视频封面选取方法和***

Info

Publication number: CN111651633A
Application number: CN202010354980.0A
Authority: CN
Inventors: 何林晋; 黄鑫; 赵玉良; 王连杰
Original assignee: Shanghai Tuele Information Technology Service Co ltd
Current assignee: Shanghai Tuele Information Technology Service Co ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-09-11

Abstract

本发明涉及一种视频封面选取方法和***。其中所述方法包括：从视频中提取画质符合封面要求的多个关键帧；利用视觉特征分别对所述多个关键帧进行美学预测，获取所述美学预测的结果中排序最高的N个关键帧，其中，N≥2；以及从所述N个关键帧中选择视频封面。所述***包括关键帧提取模块、预测模块和分析模块。本发明能够自动地从原视频中选取出一帧视频帧作为视频封面，节约人力成本，选取效率高，视频封面合理。

Description

一种视频封面选取方法和***

技术领域

本发明涉及一种视频处理方法和***，特别地涉及一种视频封面选取方法和***。

背景技术

随着各种视频网站、App的普及，无论是以娱乐为目的的娱乐视频，还是用于产品/商品展示的演示视频，将视频发布到视频网站或者App中时，通常需要一幅图像作为视频封面。视频封面作为视频内容的第一眼信息，很大程度上影响着用户的点击意愿，对于演示商品的视频，好的视频封面甚至可以直接激发用户购买的欲望。

目前，视频封面的选取方法通常有两类：人为选取视频外的一幅图片作为视频封面；或者人工或者***自动从视频中选取一帧图像作为视频封面。其中，对于前类方法，由于作为视频封面的图片不是视频中的内容，并且需要进行额外的操作才能得到视频封面；对于后者，如果人工从视频中选取封面，不但劳动量大，并且封面内容受人为的主观因素影响较大。如果是***自动选取，受选取算法的影响，选取封面的效果不稳定，无法确定选取的封面为突出视频亮点的图像。

发明内容

针对现有技术中存在的技术问题，本发明提出了一种视频封面选取方法和***，能够自动、高效地从原视频中合理选取一帧视频帧作为视频封面。

为了解决上述技术问题，根据本发明的一个方面，本发明提供了一种视频封面选取方法，其中包括以下步骤：

从视频中提取画质符合封面要求的多个关键帧；

利用视觉特征分别对所述多个关键帧进行美学预测，获取所述美学预测的结果中排序最高的N个关键帧，其中，N≥2；以及

从所述N个关键帧中选择视频封面。

优选地，从视频中提取画质符合封面要求的多个关键帧的步骤包括：

对所述视频进行切帧处理以得到多个视频帧；以及

按照预置的图像特征及其阈值逐帧过滤所述多个视频帧以得到多个预关键帧。

优选地，从视频中提取画质符合封面要求的多个关键帧的步骤进一步包括：对所述多个预关键帧按照聚类特征进行聚类，将每一类中聚类特征值最高的M个预视频帧确定为关键帧，其中M≥1。

优选地，采用k-means聚类算法对所述多个预关键帧进行聚类；其中，聚类中心数量基于视频时长设置，聚类特征为图像特征。

优选地，采用图像特征作为聚类特征对所述多个预关键帧进行聚类；其中，根据采用的图像特征预置相应的聚类中心及其数量。

优选地，聚类特征为以下图像特征中的一者或多者：亮度、亮度均衡性、清晰度、HSL直方图、垂直方向梯度直方图和水平方向梯度直方图。

优选地，所述的方法中对所述多个关键帧进行美学预测的步骤进一步包括：

计算所述关键帧的视觉特征值；以及

以所述关键帧的所述视觉特征值作为美学预测模型的输入数据，经所述美学预测模型的计算得到所述关键帧的美学预测分数，其中，所述美学预测模型为利用机器学习算法训练得到的模型。

优选地，所述的机器学习算法为随机森林算法、分类树算法、决策树算法、KNN算法LR算法或k-means算法。

优选地，所述用于预测的所述视觉特征值包括多个一维图像特征的特征值和/或多维图像特征的一个或多个维度的特征值。

优选地，所述的方法进一步包括：选择一个或多个一维图像特征和/或一个或多个多维图像特征构造预测所需的视觉特征。

优选地，所述的方法进一步包括：分析所述N个关键帧成为视频封面的可能性，将可能性最高的关键帧确定为视频封面。

优选地，所述的方法进一步包括：利用以视频封面图像和非视频封面图像作为训练集得到的深度学习模型计算所述N个关键帧成为视频封面的分类分数；以及将分类分数最高的关键帧确定为视频封面。

优选地，所述深度学习模型为采用CNN架构、AlexNet架构、VGG架构、GoogLeNet架构或者ResNet架构的模型。

为了解决上述技术问题，根据本发明的一个方面，本发明提供了一种视频封面选取***，包括关键帧提取模块、预测模块和分析模块，其中，所述关键帧提取模块经配置以从视频中提取出多个画质符合封面要求的关键帧；所述预测模块经配置以利用视觉特征分别对所述多个关键帧进行美学预测，获取美学预测结果中排序最高的N个关键帧，其中，N≥2；所述分析模块经配置以分析所述N个关键帧，并从中确定出视频封面。

优选地，所述关键帧提取模块进一步包括切帧单元和过滤单元，其中，所述切帧单元经配置对所述视频进行切帧处理以得到多个视频帧；所述过滤单元经配置以按照预置的图像特征及其阈值逐帧过滤所述多个视频帧以得到多个预关键帧。

优选地，所述关键帧提取模块进一步包括聚类单元，其经配置以对所述多个预关键帧按照聚类特征进行聚类，将每一类中聚类特征值最高的M个预视频帧确定为关键帧，其中M≥1。

优选地，所述聚类单元进一步采用k-means聚类算法对所述多个预关键帧进行聚类，其中，基于视频时长设置聚类中心数量，聚类特征为图像特征。

优选地，所述聚类单元进一步采用图像特征作为聚类特征，根据采用的图像特征预置相应的聚类中心及其数量。

优选地，所述预测模块包括预测集生成单元、预测模型单元和预测排序单元，其中，所述预测集生成单元经配置以计算所述关键帧的视觉特征值；所述预测模型单元经配置以所述关键帧的所述视觉特征值作为美学预测模型的输入数据，经所述美学预测模型的计算得到所述关键帧的美学预测分数，其中，所述美学预测模型为利用机器学习算法训练得到的模型；所述预测排序单元经配置以对所述美学预测分数进行排序，并获取排序最高的N个关键帧，其中，N≥2。

优选地，所述预测模块还进一步包括特征构造单元，经配置以选择一个或多个一维图像特征和/或一个或多个多维图像特征构造预测所需的视觉特征。

优选地，所述分析模块经进一步配置包括分类模型单元和分类排序单元，其中，所述分类模型单元经配置以基于深度学习模型分别计算所述N个关键帧成为视频封面的分类分数，其中，所述深度学习由包括视频封面图像和非视频封面图像的训练集训练得到；所述分类排序单元经配置以对所述分类分数进行排序，并获取排序最高的关键帧作为视频封面。

本发明结合深度学习算法和传统计算机相关视觉特征，能够自动地从原视频中选取出一帧合理的视频帧作为视频封面，不但节约了大量的人力成本，而且，作为视频内容第一眼信息的视频封面，可以增加用户的点击意愿，甚至可以激发用户直接购买的欲望；另一方面，合理的、突出视频亮点的视频封面有助于用户对视频的理解，不需要用户对该视频作无效的浏览，因而节省了用户时间。

附图说明

下面，将结合附图对本发明的优选实施方式进行进一步详细的说明，其中：

图1是根据本发明的一个实施例的视频封面选取方法流程图；

图2是根据本发明的一个实施例的提取预关键帧的方法流程图；

图3是根据本发明的一个实施例的对视频帧进行过滤的方法流程图；

图4是根据本发明的一个实施例的对预关键帧进行聚类的方法程图；

图5是根据本发明的一个实施例的卷积神经网络架构图；

图6是根据本发明的一个实施例的视频封面选取***的原理框图；以及

图7是根据本发明的一个实施例的过滤单元的原理框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的详细描述中，可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中，相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述，使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解，还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。

图1是根据本发明一个实施例的视频封面选取方法流程图。在本实施例中所述视频封面选取方法用于从一个视频选出一帧图像作为该视频的封面，如图1所示，包括以下步骤：

步骤S10，从视频中提取出多个关键帧。作为封面的视频帧至少应满足一些画质要求，如画面清晰、画面的亮度及均匀性好等，在本发明中，将符合画质要求的视频帧称为关键帧，关键帧为选择封面的基础帧。为了从视频中提取出关键帧，如图2所示，包括以下步骤：

步骤S100，对所述视频进行切帧处理以得到多个视频帧。例如，通过功能函数调用公开视觉库的API对该视频进行切帧，从而将该视频切分得到多个视频帧。所述的公开视觉库如OpenCV(Open Source Computer Vision Library，开源计算机视觉库)或FFmpeg(可自由使用的音视频处理的开源工具)。

步骤S101，按照预置的图像特征及其阈值逐帧过滤所述多个视频帧以得到多个预关键帧。在得到视频帧后，在步骤S101对所有视频帧进行粗过滤，在一个具体实施方式中，如图3所示，具体包括以下步骤：

步骤S1011，从前述的视频帧中取一个视频帧作为处理对象。

步骤S1012，按照预置的图像特征计算其特征值。其中，所述图像特征可为一种或多种，设置的数量越多，过滤时使用的参考信息越多。在一些实施例中，图像特征可以为亮度、亮度均衡性和清晰度。

当***设置了图像特征为亮度时，由于灰度的黑白与亮度的明暗都具有色相无关的性质，因而在本实施例中，利用每视频帧的灰度值来表示其亮度。例如，根据以下Luminosity方法中的亮度公式(1-1)计算每一视频帧的灰度值L：

L(I_rgb)＝0.299I_r+0.587I_g+0.114I_b 1-1

其中，L(I_rgb)是指该视频帧中一个像素的灰度值，公式右侧的I_r指的是该像素的Red通道的数值，I_g指的是该像素的Green通道的数值，I_b指的是该像素Blue通道的数值。在得到一个像素的灰度值L后，通过公式

可以得到一帧视频帧的灰度值。其中，k为该视频帧的总像素数量。

当然，关于灰度值的计算还可以采用其他方法，如lightness方法，即取最突出颜色和最不突出颜色的平均值，公式为：Gray＝(max(R,G,B)+min(R,G,B))/2；或者是采用Average方法，即Gray＝(R+G+B)/3；为了避免浮点计算的复杂性，可以采用整数算法，例如采用公式：Gray＝(R*299+G*587+B*114+500)/1000或者其简化版：Gray＝(R*30+G*59+B*11+50)/100。

当***设置的图像特征为亮度均衡性时，在本实施例中，计算一个视频帧中灰度值在前10％的像素数量占该帧视频帧中所有像素数量的比例。具体可按照以下公式1-2来计算：

其中，hist(I_gray)代表灰度直方图，sort(hist(I_gray))表示按直方图统计大小排序，cdf()表示积累分布函数。当然，本实施例中取top10％，也可是其他百分比，如top20％top15％top5％等等。

该公式仅是一种计算亮度均衡性的方法，也可以采用其他算法，比如把整个画面平分成5x5或3x3网格，求四个角落网格的亮度与中心网格亮度的比值。

当***设置的图像特征为清晰度时，本实施例利用图像熵表示灰度分布的聚集特征，根据Shannon信息论，熵最大时信息量最多，将此原理应用到对焦过程，因而，利用公式1-3计算该帧视频帧的图像熵D，图像熵D越大则图像越清晰。

其中，Pi是某个灰度在该图像中出现的概率，其可由灰度直方图获得。在一些电商视频帧中，Pi为195-205的灰度在图像中的概率。

步骤S1013，将计算得到的图像特征值与对应的阈值进行对比。例如，将亮度、亮度均衡性和清晰度三个图像特征的图像特征值分别与对应的阈值进行比较。

步骤S1014，判断图像特征值是否大于或等于对应的阈值，如果是有多个图像特征，则分别判断。当所有的图像特征值全部大于或等于对应的阈值时，在步骤S1015将该视频帧作为预视频帧，如果有任意一个图像特征值小于其对应的阈值，在步骤S1016，则将该视频帧确认为不是预视频帧，对其不作处理。

步骤S1017，判断是否已处理完全部的视频帧，如果已处理完全部的视频帧，则结束，如果还有未处理的视频帧，则返步骤S1011，获取另一视频帧，再重复前述步骤，直到对所有的视频帧完成该过滤处理。从而可以得到多个预视频帧。

通过前述步骤，利用三个图像特征(当然也可以增加或减少图像特征的数量，而不仅限于三个)过滤掉了大量视频帧。当过滤后得到的预关键帧仍然数量巨大，为了能够减少计算量、快速有效地在后续的预测、分类中得到封面帧，本实施例还包括对大量的预关键帧利用聚类算法进行聚类的步骤以得到数量较少的关键帧，该步骤为可选步骤，如果预关键帧数量不多时，可以不进行聚类。

步骤S102，对所述多个预关键帧进行聚类以得到多个关键帧。例如，对所述多个预关键帧按照聚类特征进行聚类时，将每一类中聚类特征值最高的M个预视频帧确定为关键帧，其中M≥1。在一个实施方式中，采用k-means聚类算法，根据视频时长设置聚类中心数量，以图像特征作为聚类特征。具体如图4所示，例如：

步骤S1021，设置k个聚类中心。在本实施例中，根据视频时长设置聚类中心数量k。其中，每一个聚类中心对应一个时长，k个聚类中心分别对应于视频起点的时长分别为T₁，T₂……T_k。

步骤S1022，计算每个预关键帧到各个聚类中心的距离，根据距离最短为每一个预关键帧确定与其对应的聚类中心，从而将所有的预关键帧分为k个类别组。其中，计算每帧预关键帧到各个聚类中心的距离时使用的聚类特征为某个预置的图像特征，如HSL直方图、垂直方向梯度直方图或水平方向梯度直方图，也可以是亮度、亮度均衡性、清晰度等。其中，为了取得较好的处理效果，聚类时使用与前述过滤时不同的图像特征。以下以对一组预关键帧的处理过程为例说明确定关键帧的步骤：

步骤S1023，计算每组中的所有的预关键帧到其聚类中心的距离均值h_i，其中，所述i＝1,2,……或k，泛指任何一组。

步骤S1024，确定每组距离均值所在的时长T_hi。

步骤S1025，判断所述距离均值所在的时长T_hi是否为原来聚类中心所在的时长T_i；如果是，则对该类预关键帧的聚类结束，执行步骤S1027；如果所述距离均值所在的时长T_hi不是原来聚类中心所在的时长T_i，则在步骤S1026，以所述时长T_hi对应的点作为新的聚类中心，然后返回步骤S1022，重复上述过程，直到得到确定不变的聚类中心，从而得到k个视频帧类别组。

以上实施例中的聚类算法以时长将视频帧分为k个类别组，也可以采用其他的聚类方法。例如可以通过单独计算某些图像特征，如亮度、清晰度等的方法将整个视频分为不同的场景，每个场景作为一个类别组。例如，将相邻帧亮度相差在20以内的视频帧视为同场景，通过计算对比，将整个视频按照场景分为多个类别组。

步骤S1027，比较该类中的预关键帧中图像特征值的大小，所述的图像特征是指前述确定预关键帧时使用的图像特征，如前述已计算得到的亮度、亮度均衡性、清晰度等的特征值。

步骤S1028，将每个类别组中离聚类中心最短、图像特征值最高的M个预视频帧作为关键帧。由于共有k类，每一类得到M个关键帧，因而此时得到的总的关键帧量为M*k。

在本实施例中，k的取值可以根据视频的时长而定。关于M的取值，其与k的取值相关，为了不使M*k的数量过大，当k值较大时，M取值较小。反之，如果k值较小，为了保证最终选取封面帧的精度，M取值较大。

步骤S12，构造用于预测的多维视觉特征。此步骤为可选步骤，当视觉特征已知时，不需此步骤。构造用于预测的视觉特征时，可从美学角度选取多个一维或多维的图像特征，例如关于色彩方面的特征，对应的图像特征如平均HSV、HSV颜色直方图等，还例如关于布局方面的特征，对应的图像特征如九宫格显著性；还例如关于画面品质的特征，如曝光平衡、对比度等图像特征。因而，所述视频特征由多个一维或多维的图像特征够成，提供的图像特征越多、维度越多，预测时的参考信息越多，预测时得到的结果越符合美学要求，但预测过程也会越复杂。为了得到一个符合美学要求但效率又高的预测结果，所述的总维度可以取10、20、56或64等等，在一个实施例中，所述的视觉特征包括23个图像特征，总共56个维度，如以下表1所示：

表1

特征	维度
		对比度	1
平均HSV	3
		中央平均HSV	3
HSV颜色直方图	20
		HSV对比度	3
灰度共生能量	1
		灰度共生图像熵	1
灰度共生相关性	1
		灰度共生逆差矩	1
拉普拉斯梯度	1
		对比度平衡	1
曝光平衡	1
		Sobel梯度	1
九宫格显著性	9
		图像均匀性	1
Hog特征对称性	1
		LBP梯度	1
Tamura粗糙度	1
		Tamura对比度	1
Tamura方向度	1
		Tamura线像度	1
Tamura规整度	1
		Tamura粗略度	1
	总计56

步骤S14，利用视觉特征分别对所述多个关键帧进行预测。在一个实施例中，利用已训练好的美学预测模型对关键帧进行预测。所述的美学预测模型利用相应的算法对关键帧的多维视觉特征进行计算，输出对该关键帧的预测分数，所述预测分数代表了对关键帧的美学评估结果，分数越高，说明所述关键帧越符合美学要求。

其中，所述美学预测模型为利用机器学习算法，通过大量训练数据训练得到的模型。所述的机器学习算法可以为随机森林算法、分类树算法、决策树算法、KNN算法、LR算法或k-means算法。

以随机森林算法为例，利用大量图像的多维度视觉特征作为原始训练集，从所述原始训练集中使用Bootstraping方法随机采样选出m个样本，共进行n次采样，生成n个训练集。对于n个训练集，分别训练成为n个决策树模型。对于单个决策树模型，假设训练样本特征的个数为n，那么每次***时根据信息增益/信息增益比/基尼指数等选择最好的特征进行***。每棵树都一直这样***下去，直到该节点的所有训练样例都属于同一类，在决策树的***过程中不需要剪枝，保持决策树的完整，生成的多棵决策树则组成了随机森林，即得到了需要的美学预测模型。

每一个关键帧的多维视觉特征作为一个测试集，将其作为输入样本输入到所述美学预测模型，经过n个决策树模型自上而下流转下来并被赋予一个预测值。当森林中的每棵树都有了预测值时，对所有的预测值取均值即得到所述关键帧的预测分数。

以上只是对基于随机森林算法的美学预测模型的简要说明，本领域普通技术人员可参照当前的行业标准自行设计美学预测模型，或者是采用现有的开源模型。由于此为现有的公知技术，本发明不再重复说明。

步骤S16，按照预测分数的高低排序，获取排序最高的N个关键帧，其中，N≥2，在一个实施例中，N＝4，即获取排序最高的4个关键帧。

步骤S18，分析所述N个关键帧成为视频封面的可能性，将可能性最高的关键帧确定为视频封面。

在一个实施例，利用以视频封面图像和非视频封面图像作为训练集得到的深度学习模型计算所述N个关键帧成为视频封面的分类分数。所述分类分数的高低代表了成为视频封面的可能性。

其中，所述深度学习模型可以采用经典的卷积神经网络(Convolutional NeuralNetwork,简称CNN)架构，如图5所示。其中，conv为卷积网络层、fc为全连接层、pool为池化层。当然也可以采用其他的CNN模型，如AlexNet、VGG、GoogLeNet、ResNet等经典模型架构。其中，在一个实施例中，采用由building block残差块构成的残差网络模型，如模型ResNet34，或者是由bottleneck残差块构成的残差网络模型，如模型ResNet50、模型ResNet101或模型ResNet152。

本发明采用视频封面为正样本、非视频封面为负样本，通过大量的正、负样本对所述的深度学习模型进行训练，使其可以对输入的图像进行分类，得到值在0-1之间的分类分数，其分值越高，将其分类到视频封面的可能性越高。因而，在本步骤中，将N个关键帧输入到所述模型中后，分别得到对应的分类分数，取分数最高的作为本视频的封面。

在利用构造的视觉特征对关键帧进行预测时，根据预测分数可以确定该关键帧符合由视觉特征构造出的美学要求程度，其中，预测分数越高，符合的美学程度越高。本发明在获得了预测分数最高的N个关键帧后，对其进一步处理，确定其成为视频封面的可能性，从而更进一步确定了视频封面的合理性。因而本发明选取出的视频封面不但画质好，如画面亮度高且均匀、清晰，也符合设置的美学要求，而且也符合作为视频封面应符合的要求。例如，作为一个产品展示视频，虽然视频中的某个天空视频帧画质好、更符合美学视角，也就是经过过滤、预测后，预测分数最高，但是其并不适合作为产品展示视频的封面。因而，根据本发明提供的方法，可以避免将天空内容的视频帧选为产品展示视频的视频封面这样的不合理问题。

本发明还提供了一种视频封面选取***，如图6所示，为本发明提供的一种视频封面选取***的原理框图。所述***包括关键帧提取模块10、特征构造模块12、预测模块14和分析模块16，其中，所述关键帧提取模块10用于从视频中提取出多个关键帧。在一实施例中，所述关键帧提取模块10包括切帧单元101、过滤单元102和聚类单元103，其中，所述切帧单元101用以从视频中提取出多个视频帧。例如，通过FFmpeg的功函数调用其API，实现对所述视频切帧，从而得到视频帧。过滤单元102经配置以按照预置的图像特征及其阈值对所述多个视频帧逐帧过滤以得到多个预关键帧。如前述方法所述，计算***内设置的图像特征的特征值，并根据设置的对应阈值来过滤视频帧。为了提高计算及过滤效率，在一实施例中，通过设置并行处理的方式，可以同时计算不同的图像特征的特征值，例如，在一个实施例中，如图7所示，过滤单元102包括一个图像特征配置子单元1021，多个计算子单元和过滤子单元1023，计算子单元例如包括亮度计算子单元1022a、亮度均衡性计算子单元1022b和清晰度计算子单元1022c等等。其中，图像特征配置子单元1021可以配置逐帧过滤时所使用的图像特征、与图像特征对应的特征关系式及其对应的阈值。例如，可以配置图像特征为亮度、亮度均衡性及清晰度，当然还可以包括其他的图像特征，如对比度、色阶、色温等图像特征，本领域的普通技术人员可根据实际视频要求、业务逻辑等来选取合适的图像特征，并设置计算其特征值时使用的参数、公式等，以使对应的计算子单元可以计算出对应的特征值。为了使过滤子单元可以过滤视频帧，还需要设置对应的阈值。所述阈值可以采用一些默认值，也可以根据具体情况人为修改。

每一个计算子单元根据其设置的计算规则、特征关系式、参数等对每一帧视频帧进行计算，进而得到对应的图像特征值，并将其发送给过滤子单元1023。

其中，亮度计算子单元1022a首先获取该视频帧中每一个像素各个颜色通道值，根据公式(1-1)计算计算出每一个像素的灰度值，用于代表亮度。

L(I_rgb)＝0.299I_r+0.587I_r+0.114I_b 1-1

亮度均衡性计算子单元1022b按照公式1-2获取该视频帧的亮度均衡性。其中，根据公式1-2，首先要获得该视频帧的灰度直方图，然后对其进行排序。再得到所述视频帧中灰度值在前10％的像素数量占该帧视频帧中所有像素数量的比例。

清晰度计算子单元1022c首先利用该帧视频帧的灰度直方图获得设定灰度在该帧视频帧图像中出现的概率Pi，然后利用公式1-3计算每一帧视频帧的图像熵D。

过滤子单元1023从图像特征配置子单元1021获取需要使用的图像特征及对应的阈值，根据从各个计算子单元接收到的实际计算得到的图像特征值进行对比，确定该视频帧是否被过滤掉，从而得到预关键帧。

聚类单元103为一个可选单元，在预关键帧数量较大时，利用聚类算法对多个预关键帧进行聚类，将每一类中的所述图像特征值最高的M个预视频帧作为关键帧，其中M≥1。其中，可以利用不同的聚类算法得到关键帧，例如k-means、K-means++、ISODATA、Kernel K-means或GMM等算法。对所述的多个预关键帧聚类完成后得到多个分类，以离聚类中心距离较短的图像特征值最大(如亮度、均衡度和清晰度都较高)的M个视频帧作为关键帧。如果设置了k个聚类中心，则聚类单元103得到k*M个关键帧。

特征构造模块12为一可选模块，其用以构造多个维度的视觉特征，由一个或多个一维图像特征和/或一个或多个多维图像特征构成。如前述表1所示，共有56个维度，还可以增加RGB颜色的色彩维度，从而形成64维度。

预测模块14提供美学预测模型，其以所述多个关键帧的多维度视觉特征作为模型输入，对所述多个关键帧进行预测，获取预测排序最高的N个关键帧，其中，N≥2，如N＝4。其中，所述的美学预测模型利用随机森林算法、分类树算法或决策树算法(ID3，C4.5，CART)等得到的机器学习模块。在一个实施例中，如图6所示，所述预测模块14包括预测集生成单元140、预测模型单元141和预测排序单元142。所述预测集生成单元140分别对每一个关键帧进行计算以得到所述关键帧的对应的视觉特征值，从而形成对应的预测集，为了便于区分，每一个关键帧的视觉特征值形成一个预测集。所述预测模型单元141提供美学预测模型，所述美学预测模型为利用机器学习算法训练得到的模型，基中一个典型的例如随机森林预测模型。所述预测模型单元141以预测集中的视觉特征值作为美学预测模型的输入样本，经所述美学预测模型的计算得到所述关键帧的美学预测分数。所述预测模型单元141将每次预测得到的美学预测分数发送给预测排序单元142。预测排序单元142按照美学预测分数的高低进行排序，并从中选出排序最高的前N个关键帧。

分析模块16分析所述N个关键帧成为视频封面的可能性。在一个实施例中，所述分析模块16经进一步配置包括分类模型单元160和分类排序单元161，其中，所述分类模型单元160基于深度学习模型分别计算所述N个关键帧成为视频封面的分类分数，并将N个关键帧对应的分类分数发送给分类排序单元161。所述分类排序单元161对N个关键帧的分类分数进行排序，并将排序最高的一个关键帧作为视频封面。其中，所述深度学习模型由包括视频封面图像和非视频封面图像的训练集训练得到；所述深度学习模型可以采用CNN架构、AlexNet、VGG、GoogLeNet、ResNet等经典模型架构，其中，在一个具体的实施例中，可以采用开源模型，如ResNet34、ResNet50/101/152等残差网络模型。本领域的普通技术人员可参考具体模型的应用说明进行调用、训练得到符合要求的模型。

本发明结合相关的机器学习算法、深度学习算法和传统的计算机视觉特征，能够自动、高效地从原视频中选取出一帧视频帧作为视频封面，通过构造特征可以灵活地修改、提高选取视频封面时的参考因素，从而使得选出的视频封面更加合理的、更符合美学观念，利于用户对视频理解，可以有效地激发用户的浏览兴趣，从而达到吸引用户的目的。

上述实施例仅供说明本发明之用，而并非是对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明范围的情况下，还可以做出各种变化和变型，因此，所有等同的技术方案也应属于本发明公开的范畴。

Claims

1.一种视频封面选取方法，包括：

从视频中提取画质符合封面要求的多个关键帧；

从所述N个关键帧中选择视频封面。

2.根据权利要求1所述的方法，其中从视频中提取画质符合封面要求的多个关键帧的步骤包括：

对所述视频进行切帧处理以得到多个视频帧；以及

3.根据权利要求2所述的方法，其中进一步包括：对所述多个预关键帧按照聚类特征进行聚类，将每一类中聚类特征值最高的M个预视频帧确定为关键帧，其中M≥1。

4.根据权利要求3所述的方法，其中采用k-means聚类算法对所述多个预关键帧进行聚类；其中，聚类中心数量基于视频时长设置，聚类特征为图像特征。

5.根据权利要求3所述的方法，其中采用图像特征作为聚类特征对所述多个预关键帧进行聚类；其中，根据采用的图像特征预置相应的聚类中心及其数量。

6.根据权利要求3所述的方法，其中所述聚类特征为以下图像特征中的一者或多者：亮度、亮度均衡性、清晰度、HSL直方图、垂直方向梯度直方图和水平方向梯度直方图。

7.根据权利要求1所述的方法，其中对所述多个关键帧进行美学预测的步骤包括：

计算所述关键帧的视觉特征值；以及

8.根据权利要求7所述的方法，所述的机器学习算法为随机森林算法、分类树算法、决策树算法、KNN算法LR算法或k-means算法。

9.根据权利要求7所述的方法，其中所述用于预测的所述视觉特征值包括多个一维图像特征的特征值和/或多维图像特征的一个或多个维度的特征值。

10.根据权利要求1所述的方法，其中进一步包括：选择一个或多个一维图像特征和/或一个或多个多维图像特征构造预测所需的视觉特征。

11.根据权利要求1所述的方法，其中进一步包括：分析所述N个关键帧成为视频封面的可能性，将可能性最高的关键帧确定为视频封面。

12.根据权利要求11所述的方法，其中，进一步包括：利用以视频封面图像和非视频封面图像作为训练集得到的深度学习模型计算所述N个关键帧成为视频封面的分类分数；以及将分类分数最高的关键帧确定为视频封面。

13.根据权利要求12所述的方法，其中，所述深度学习模型为采用CNN架构、AlexNet架构、VGG架构、GoogLeNet架构或者ResNet架构的模型。

14.一种视频封面选取***，包括：

关键帧提取模块，经配置以从视频中提取出多个画质符合封面要求的关键帧；

预测模块，经配置以利用视觉特征分别对所述多个关键帧进行美学预测，获取美学预测结果中排序最高的N个关键帧，其中，N≥2；以及

分析模块，经配置以分析所述N个关键帧，并从中确定出视频封面。

15.根据权利要求14所述的***，其中所述关键帧提取模块包括：

切帧单元，经配置对所述视频进行切帧处理以得到多个视频帧；以及

过滤单元，经配置以按照预置的图像特征及其阈值逐帧过滤所述多个视频帧以得到多个预关键帧。

16.根据权利要求15所述的***，其中所述关键帧提取模块进一步包括：

聚类单元，经配置以对所述多个预关键帧按照聚类特征进行聚类，将每一类中聚类特征值最高的M个预视频帧确定为关键帧，其中M≥1。

17.根据权利要求16所述的***，其中所述聚类单元进一步采用k-means聚类算法对所述多个预关键帧进行聚类，其中，基于视频时长设置聚类中心数量，聚类特征为图像特征。

18.根据权利要求16所述的***，其中所述聚类单元进一步采用图像特征作为聚类特征，根据采用的图像特征预置相应的聚类中心及数量。

19.根据权利要求14所述的***，其中所述预测模块包括：

预测集生成单元，经配置以计算所述关键帧的视觉特征值；

预测模型单元，经配置以所述关键帧的所述视觉特征值作为美学预测模型的输入数据，经所述美学预测模型的计算得到所述关键帧的美学预测分数，其中，所述美学预测模型为利用机器学习算法训练得到的模型；以及

预测排序单元，经配置以对所述美学预测分数进行排序，并获取排序最高的N个关键帧，其中，N≥2。

20.根据权利要求14所述的***，其中还进一步包括特征构造模块，经配置以选择一个或多个一维图像特征和/或一个或多个多维图像特征构造预测所需的视觉特征。

21.根据权利要求14所述的***，其中所述分析模块经进一步配置包括：

分类模型单元，经配置以基于深度学习模型分别计算所述N个关键帧成为视频封面的分类分数，其中，所述深度学习由包括视频封面图像和非视频封面图像的训练集训练得到；以及

分类排序单元，经配置以对所述分类分数进行排序，并获取排序最高的关键帧作为视频封面。