CN104408429B

CN104408429B - 一种视频代表帧提取方法及装置

Info

Publication number: CN104408429B
Application number: CN201410710682.5A
Authority: CN
Inventors: 王涛; 赵雄; 王凯旋; 张彦刚; 乐俊娴
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2017-10-27
Anticipated expiration: 2034-11-28
Also published as: CN104408429A

Abstract

本发明实施例公开了一种视频代表帧提取方法及装置，涉及视频处理技术领域，其中，所述方法包括：提取目标视频中第一预设数量k个视频帧；根据所提取的各个视频帧对应的图像信息，计算所提取的各个视频帧的图像质量评估值，其中，所述图像质量评估值用于表示视频帧图像质量的高低；根据计算得到的各个视频帧的图像质量评估值进行排序，优先选择所提取的k个视频帧中图像质量高的视频帧作为所述目标视频的代表帧。应用本发明实施例提供的方案提取视频代表帧，无需通过人工筛选的方式也能够获得目标视频的代表帧，提高了处理速度和工作效率。

Description

一种视频代表帧提取方法及装置

技术领域

本发明涉及视频处理技术领域，特别涉及一种视频代表帧提取方法及装置。

背景技术

随着视频技术的快速发展，服务提供商提供的视频资源越来越丰富。为方便用户从众多视频资源中选择感兴趣的视频资源，服务提供商一般通过视频代表帧和视频名称相结合的方式向用户展示视频信息。其中，视频代表帧是指视频中能够准确、清晰的表现视频的主要人物或主要场景的视频帧。

现有技术中，一般通过人工筛选的方式获得目标视频的视频代表帧，这样可以得到高图像质量的视频代表帧，然而，这种通过人工筛选获得视频代表帧的方式，处理速度慢，工作效率低。

发明内容

本发明实施例公开了一种视频代表帧提取方法及装置，以实现自动提取目标视频的视频代表帧，提高处理速度以及工作效率。

为达到上述目的，本发明实施例公开了一种视频代表帧提取方法，所述方法包括：

提取目标视频中第一预设数量k个视频帧；

根据所提取的各个视频帧对应的图像信息，计算所提取的各个视频帧的图像质量评估值，其中，所述图像质量评估值用于表示视频帧图像质量的高低；

根据计算得到的各个视频帧的图像质量评估值进行排序，优先选择所提取的k个视频帧中图像质量高的视频帧作为所述目标视频的代表帧。

具体的，所述根据所提取的各个视频帧对应的图像信息，计算所提取的各个视频帧的图像质量评估值，包括：

对于任一目标视频帧i，根据所提取的目标视频帧i对应的图像信息，获得以下目标视频帧特征值中的至少一种，其中，i＝1,2......k：

用于表示所述目标视频帧相似度的特征值S_ri；

用于表示所述目标视频帧人物特征的特征值S_fi；

用于表示所述目标视频帧画质特征的特征值S_qi；

用于表示所述目标视频帧构图特征的特征值S_si；

根据所获得的目标视频帧特征值，计算所述目标视频帧的图像质量评估值。

具体的，根据所提取的目标视频帧i对应的图像信息，获得用于表示所述目标视频帧相似度的特征值S_ri，包括：

根据所述目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度e_ij，计算所述目标视频帧i在所述目标视频中的颜色相似度特征值s_i，其中，

在e_ij≥预设阈值的情况下，y_ij＝e_ij，在e_ij＜预设阈值的情况下，y_ij＝0；

根据所述目标视频帧i所属聚类中包含视频帧的数量numImg_n，计算所述目标视频帧i的聚类特征值g_i，其中，g_i＝numImg_i/maxCluserSize，n∈{1、2......Num_c}，Num_c为根据所提取的k个视频帧对应的图像信息，将所提取的k个视频帧按照预设的聚类算法进行聚类后，得到的聚类的数目，maxCluserSize为所得到的Num_c个聚类中，各个聚类所包含视频帧帧数目的最大值；

计算用于表示所述目标视频帧相似度的特征值S_ri，其中，S_ri＝w_i1s_i+w_i2g_i；

具体的，通过以下步骤确定所述目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度e_ij：

分别将所提取的k个视频帧划分为第二预设数量个图像块，并确定所提取的k个视频帧的Num_a维分块颜色直方图统计关系hist()；

计算所述目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度e_ij，其中，

min(hist_i(p)，hist_j(p))表示hist_i(p)、hist_j(p)两者中的最小值。

具体的，所述预设阈值为：所提取的k个视频帧中任意两帧之间帧间相似度的平均值与所提取的k个视频帧中任意两帧之间帧间相似度的标准方差之和。

具体的，所述Num_c为根据所提取的k个视频帧对应的图像信息，将所提取的k个视频帧按照预设的聚类算法进行聚类后，得到的聚类的数目，包括：

Num_c为根据所提取的k个视频帧中任意两帧之间的帧间相似度，将所提取的k个视频帧按照预设的聚类算法进行聚类后，得到的聚类的数目。

具体的，根据所提取的目标视频帧i对应的图像信息，获得用于表示所述目标视频帧人物特征的特征值S_fi，包括：

确定所述目标视频帧i中所包含人脸的数量Num_f；

分别获得所述目标视频帧i中各张人脸所在位置faceCenter_m和各张人脸的人脸宽度faceWidth_m，其中，m∈{1、2......Num_f}；

根据所获得的人脸宽度，计算所述目标视频帧i的平均人脸宽度face_size_i，其中，

maxFaceWidth为预设的人脸宽度中的最大值；

根据关系式

获得所述目标视频帧i中的各张人脸偏离所述目标视频帧的图像中心的平均距离bias_center_i，其中，faceCenter_m表示第m张人脸所在区域的中心点，imgCenter表示所述目标视频帧的图像中心点，dist()表示两点之间的距离，imgWidth表示所述目标视频帧的图像宽度；

根据关系式

获得所述目标视频帧i中各张人脸上人眼的平均睁眼系数eyeopen_i，其中，distEyeLid_m表示第m张人脸中上下眼睑间的距离，eyeWidth_m表示第m张人脸中眼睛的宽度；

根据关系式S_fi＝face_size_i·bias_center_i·eyeopen_i，计算用于表示所述目标视频帧人物特征的特征值S_fi。

具体的，根据所提取的目标视频帧i对应的图像信息，获得用于表示所述目标视频帧画质特征的特征值S_qi，包括：

确定所述目标视频帧i的Num_b维颜色直方图对应的统计关系hist'_i()；

根据如下关系式，计算用于表示所述目标视频帧画质特征的特征值S_qi：

其中，

具体的，根据所提取的目标视频帧i对应的图像信息，获得用于表示所述目标视频帧构图特征的特征值S_si，包括：

确定所述目标视频帧i中的前景区域；

判断所确定的前景区域的面积是否大于预设的阈值；

若大于，根据如下关系式计算用于表示所述目标视频帧构图特征的特征值S_si：

S_si＝1-dist(objCenter，imgCenter)/(imgWidth/2)，其中，objCenter表示所述前景区域的中心点，imgCenter表示所述目标视频帧的图像中心点，dist()表示两点之间的距离，imgWidth表示所述目标视频帧的图像宽度。

具体的，所述根据所获得的目标视频帧特征值，计算所述目标视频帧的图像质量评估值，包括：

对所获得的目标视频帧特征值进行0-1的归一化处理；

根据归一化处理后的目标视频特征值，按照如下表达式计算所述目标视频帧的图像质量评估值S_i：

S_i＝w_rS'_ri+w_fS'_fi+w_qS'_qi+w_sS'_si，其中，w_r、w_f、w_q和w_s为加权系数，w_r+w_f+w_q+w_s＝1，S'_ri、S'_fi、S'_qi、S'_si分别为S_ri、S_fi、S_qi、S_si归一化后的数值。

为达到上述目的，本发明实施例公开了一种视频代表帧提取装置，所述装置包括：

视频帧提取模块，用于提取目标视频中第一预设数量k个视频帧；

图像质量评估值计算模块，用于根据所提取的各个视频帧对应的图像信息，计算所提取的各个视频帧的图像质量评估值，其中，所述图像质量评估值用于表示视频帧图像质量的高低；

代表帧选择模块，用于根据计算得到的各个视频帧的图像质量评估值进行排序，优先选择所提取的k个视频帧中图像质量高的视频帧作为所述目标视频的代表帧。

具体的，所述图像质量评估值计算模块，包括：

特征值获得子模块，用于对于任一目标视频帧i，根据所提取的目标视频帧i对应的图像信息，获得以下目标视频帧特征值中的至少一种，其中，i＝1,2......k：

用于表示所述目标视频帧相似度的特征值S_ri；

用于表示所述目标视频帧人物特征的特征值S_fi；

用于表示所述目标视频帧画质特征的特征值S_qi；

用于表示所述目标视频帧构图特征的特征值S_si；

图像质量评估值计算子模块，用于根据所获得的目标视频帧特征值，计算所述目标视频帧的图像质量评估值。

具体的，所述特征值获得子模块，包括：

颜色特征值计算单元，用于根据所述目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度e_ij，计算所述目标视频帧i在所述目标视频中的颜色相似度特征值s_i，其中，

聚类特征值计算单元，用于根据所述目标视频帧i所属聚类中包含视频帧的数量numImg_n，计算所述目标视频帧i的聚类特征值g_i，其中，g_i＝numImg_i/max CluserSize，n∈{1、2......Num_c}，Num_c为根据所提取的k个视频帧对应的图像信息，将所提取的k个视频帧按照预设的聚类算法进行聚类后，得到的聚类的数目，maxCluserSize为所得到的Num_c个聚类中，各个聚类所包含视频帧帧数目的最大值；

视频帧相似度计算单元，用于计算用于表示所述目标视频帧相似度的特征值S_ri，其中，S_ri＝w_i1s_i+w_i2g_i；

所述装置还包括：帧间相似度确定模块，用于确定所述目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度e_ij；

所述帧间相似度确定模块，包括：

统计关系确定子模块，用于分别将所提取的k个视频帧划分为第二预设数量个图像块，并确定所提取的k个视频帧的Num_a维分块颜色直方图统计关系hist()；

帧间相似度计算子模块，用于计算所述目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度e_ij，其中，

min(hist_i(p)，hist_j(p))表示hist_i(p)、hist_j(p)两者中的最小值。

具体的，所述特征值获得子模块，包括：

人脸数量确定单元，用于确定目标视频帧i中所包含人脸的数量Num_f；

参数获得单元，用于分别获得所述目标视频帧i中各张人脸所在位置faceCenter_m和各张人脸的人脸宽度faceWidth_m，其中，m∈{1、2......Num_f}；

平均人脸宽度计算单元，用于根据所获得的人脸宽度，计算所述目标视频帧i的平均人脸宽度face_size_i，其中，

maxFaceWidth为预设的人脸宽度中的最大值；

距离获得单元，用于根据关系式

睁眼系数获得单元，用于根据关系式

第一特征值计算单元，用于根据关系式S_fi＝face_size_i·bias_center_i·eyeopen_i，计算用于表示所述目标视频帧i的人物特征的特征值S_fi。

具体的，所述特征值获得子模块，包括：

统计关系确定单元，用于确定所述目标视频帧i的Num_b维颜色直方图对应的统计关系hist'_i()；

第二特征值计算单元，用于根据如下关系式，计算用于表示所述目标视频帧画质特征的特征值S_qi：

其中，

具体的，所述特征值获得子模块，包括：

前景区域确定单元，用于确定目标视频帧i中的前景区域；

面积判断单元，用于判断所确定的前景区域的面积是否大于预设的阈值；

第三特征值计算单元，用于在所述面积判断单元的判断结果为是的情况下，根据如下关系式计算用于表示所述目标视频帧构图特征的特征值S_si：

具体的，所述图像质量评估值计算子模块，包括：

归一化处理单元，用于对所获得的目标视频帧特征值进行0-1的归一化处理；

图像质量评估值计算单元，用于根据归一化处理后的目标视频特征值，按照如下表达式计算所述目标视频帧的图像质量评估值S_i：

由以上可见，本发明实施例提供的方案中，提取目标视频中的若干视频帧后，先计算所提取的各个视频帧的图像质量评估值，再根据计算得到的图像质量评估值，选择所提取的视频帧中图像质量高的视频帧作为目标视频帧的代表帧。可见，本发明实施例提供的方案中，无需通过人工筛选的方式也能够获得目标视频的代表帧，提高了处理速度和工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频代表帧提取方法的流程示意图；

图2为本发明实施例提供的第一种获得视频帧特征值的方法的流程示意图；

图3为本发明实施例提供的第二种获得视频帧特征值的方法的流程示意图；

图4为本发明实施例提供的第三种获得视频帧特征值的方法的流程示意图；

图5为本发明实施例提供的第四种获得视频帧特征值的方法的流程示意图；

图6a为一具体的视频帧；

图6b为图6a的前景区域图；

图6c为图6b二值化后的图示；

图7为本发明实施例提供的一种视频代表帧提取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种视频代表帧提取方法的流程示意图，该方法包括：

S101：提取目标视频中第一预设数量k个视频帧。

由于视频帧数据量较大，提取目标视频的视频代表帧时，若以目标视频包含的所有视频帧为对象进行提取，效率低、耗时高。

另外，在未发生场景切换的情况下，相邻的若干帧之间存在较强的时间相关性，即相邻的若干帧之间画面内容相似。

鉴于上述两方面的原因，提取目标视频的代表帧时，可先提取目标视频中第一预设数量k个视频帧，并以所提取的视频帧为对象，提取目标视频的代表帧。

具体的，可以按照固定的时间间隔、固定的帧数间隔等提取视频帧，另外，提取视频帧时还可以考虑视频帧的编码类型等，例如：只提取I帧和P帧。

S102：根据所提取的各个视频帧对应的图像信息，计算所提取的各个视频帧的图像质量评估值。

其中，图像质量评估值用于表示视频帧图像质量的高低。

具体的，根据所提取的各个视频帧对应的图像信息，计算所提取的各个视频帧的图像质量评估值，可以通过以下步骤实现：

用于表示目标视频帧相似度的特征值S_ri；

用于表示目标视频帧人物特征的特征值S_fi；

用于表示目标视频帧画质特征的特征值S_qi；

用于表示目标视频帧构图特征的特征值S_si；

根据所获得的目标视频帧特征值，计算目标视频帧的图像质量评估值。

上述的各个视频帧特征中，视频帧相似度较高的视频帧，这里是指与所提取的各个视频帧相似度均较高的视频帧，也就是说该视频帧具有所提取的各个视频帧共有的特性，能够代表所提取的各个视频帧，具体的，在获得用于表示目标视频帧相似度的特征值的过程中需考虑目标视频帧i与所提取的k个视频帧之间的相似度关系，而非仅仅考虑目标视频帧i与某一视频帧之间的关系；

人物特征较佳的视频帧，其图像中人物靠近图像的中心位置，且具有丰富的表情；

画质特征较佳的视频帧，其图像颜色分布均匀、对比度适中、颜色鲜艳；

构图特征较佳的视频帧，其前景区域一般位于图像的中心区域，且该前景区域具有足够的面积，但是并未充满整个图像。

根据所获得的目标视频帧特征值，计算目标视频帧的图像质量评估值时，可以先对所获得的目标视频帧特征值进行0-1的归一化处理，再根据归一化处理后的目标视频特征值，按照如下表达式计算目标视频帧的图像质量评估值S_i：

当所获得的视频特征值只包括上述特征值中的一种或几种时，将未获得的特征值对应的加权系数设置为0。

例如，假设所获得的视频特征值包括：S_fi和S_qi，则w_r＝w_s＝0，S_i＝w_fS'_fi+w_qS'_qi，w_f+w_q＝1。

另外，上述的归一化处理可以是，根据计算结果，分别获得各个视频特征值的最大值和最小值，然后根据所获得最大值和最小值进行归一化处理。

S103：根据计算得到的各个视频帧的图像质量评估值进行排序，优先选择所提取的k个视频帧中图像质量高的视频帧作为目标视频的代表帧。

上述的排序可以是升序排序，也可以是降序排序，实际应用中可以根据具体情况确定。

由前述描述可知，根据所获得的目标视频帧的图像信息可以获得目标视频帧的多种视频帧特征值，下面通过具体实施例分别描述如何获得各个视频帧特征值。

图2为本发明实施例提供的第一种获得视频帧特征值的方法的流程示意图，本实施例中，根据所提取的目标视频帧i对应的图像信息，获得用于表示目标视频帧帧间相似度的特征值S_ri，包括：

S102A：根据目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度，计算目标视频帧i在目标视频中的颜色相似度特征值。

其中，目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度以e_ij表示。

一种具体实现方式中，目标视频帧i在所述目标视频中的颜色相似度特征值s_i，可以根据以下表达式计算：

其中，在e_ij≥预设阈值的情况下，y_ij＝e_ij，在e_ij＜预设阈值的情况下，y_ij＝0。

具体的，上述的预设阈值可以是所提取的k个视频帧中任意两帧之间帧间相似度的平均值与所提取的k个视频帧中任意两帧之间帧间相似度的标准方差之和，当然，也可以是预先设定的固定值，本申请并不对此进行限定。

S102B：根据目标视频帧i所属聚类中包含视频帧的数量，计算目标视频帧i的聚类特征值。

其中，目标视频帧i所属聚类中包含视频帧的数量以numImg_n表示，目标视频帧i的聚类特征值以g_i表示。

一种具体实现方式中，可以通过以下表达式计算g_i：

g_i＝numImg_i/max CluserSize，n∈{1、2......Num_c}，Num_c为根据所提取的k个视频帧对应的图像信息，将所提取的k个视频帧按照预设的聚类算法进行聚类后，得到的聚类的数目，maxCluserSize为所得到的Num_c个聚类中，各个聚类所包含视频帧帧数目的最大值。

具体的，Num_c可以是根据所提取的k个视频帧中任意两帧之间的帧间相似度，将所提取的k个视频帧按照预设的聚类算法进行聚类后，得到的聚类的数量，其中，预设的聚类算法可以是leading forward，K-Means等聚类算法，还可以是层次聚类、模糊聚类算法等等。

S102C：根据关系式1计算用于表示目标视频帧相似度的特征值。

其中，用于表示目标视频帧相似度的特征值以S_ri表示，关系式1可以为：S_ri＝w_i1s_i+w_i2g_i，s_i为目标视频帧i在目标视频中的颜色相似度特征值，g_i为目标视频帧i的聚类特征值，w_i1、w_i2为目标视频帧i对应的加权系数，w_i1与w_i2可以相等，也可以不相等。

另外，其他视频帧对应的加权系数可以与目标视频对应的加权系数相等，也可以不相等。

本发明的一个较佳实施例中，w_i1＝w_i2＝1，则S_ri＝s_i+g_i。

实际应用中，可根据所提取视频帧的颜色直方图对应的统计关系，通过以下步骤确定目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度e_ij，其中，直方图是灰度值p的函数，描述的是数字图像中的每一灰度值与其出现的频率间的统计关系，上述的每一灰度值出现的频率，可以理解为该灰度值的像素数量，也可以理解为该灰度值出现的概率；颜色直方图反映的是不同色彩在整幅图像中所占的比例，例如：RGB颜色直方图、HSV颜色直方图、LUV颜色直方图和LAB颜色直方图等等。

具体步骤包括：

计算目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度e_ij，其中，

min(hist_i(p)，hist_j(p))表示hist_i(p)、hist_j(p)两者中的最小值。

需要说明的是，在计算视频帧的帧间相似度的过程中，每个所提取的视频帧的Num_a维分块颜色直方图统计关系是不变的，所以，整个过程中只确定一次所提取的各个视频帧的Num_a维分块颜色直方图统计关系即可。

另外，一个优选的实施例中，可根据所提取的k个视频帧中任意两帧之间的帧间相似度，进行聚类，则该实施例中在获得用于表示目标视频帧帧间相似度的特征值S_ri之前，需先计算出所提取的k个视频帧中任意两个视频帧之间的帧间相似度e_ij，并根据计算得到的帧间相似度进行聚类，之后再根据所提取的目标视频帧i对应的图像信息，获得用于表示目标视频帧帧间相似度的特征值S_ri。

实际应用中，还可以在计算得到所提取的k个视频帧中任意两帧之间的帧间相似度之后，以矩阵运算的形式，一次计算得到所提取的k个视频帧分别对应的颜色相似度特征值，进而分别计算用于表示所提取的各个视频帧的相似度的特征值。当然，也可以不采用矩阵运算，而是一帧一帧的进行计算。

图3为本发明实施例提供的第二种获得视频帧特征值的方法的流程示意图，本实施例中，根据所提取的目标视频帧对应的图像信息，获得用于表示目标视频帧人物特征的特征值S_fi，包括：

S102D：确定目标视频帧i中所包含人脸的数量。

实际应用中可以通过人脸识别技术，确定目标视频帧中所包含人脸的数量Num_f，现有技术中已有多种成熟的人脸识别算法，这里不再赘述。

S102E：分别获得目标视频帧i中各张人脸所在位置和各张人脸的人脸宽度。

分别获得目标视频帧i中各张人脸所在位置faceCenter_m和各张人脸的人脸宽度faceWidth_m，其中，m∈{1、2......Num_f}

除了可以通过人脸识别技术确定目标视频帧中所包含的人脸的数量Num_f之外，还可以通过人脸识别技术获得各张人脸所在位置faceCenter_m和各张人脸的人脸宽度faceWidth_m，其中，m∈{1、2......Num_f}，faceCenter_m可以以人脸所在区域中心点坐标、顶点坐标的形式表示等等。

S102F：根据所获得的人脸宽度，计算目标视频帧i的平均人脸宽度。

一种具体实现方式中，目标视频帧i的平均人脸宽度face_size_i可以通过以下表达式计算：

其中，maxFaceWidth为预设的人脸宽度中的最大值。

S102G：获得目标视频帧i中的各张人脸偏离目标视频帧的图像中心的平均距离。

本步骤中，可以根据关系式

获得目标视频帧i中的各张人脸偏离目标视频帧的图像中心的平均距离bias_center_i，其中，faceCenter_m表示第m张人脸所在区域的中心点，imgCenter表示目标视频帧的图像中心点，dist()表示两点之间的距离，imgWidth表示目标视频帧的图像宽度。

在二维坐标系中，faceCenter_m可以表示为：(x_m，y_m)，imgCenter可以表示为：(x_c，y_c)，则faceCenter_m和imgCenter之间的距离dist(faceCenter_m，imgCenter)可以表示为：

为简化计算dist()还可以表示为：

dist(faceCenter_m，imgCenter)＝|x_m-x_m|+|y_m-y_m|。

S102H：获得目标视频帧i中各张人脸上人眼平均的睁眼系数。

本步骤中，可以根据关系式

获得目标视频帧i中各张人脸上人眼的平均睁眼系数eyeopen_i，其中，distEyeLid_m表示第m张人脸中上下眼睑间的距离，eyeWidth_m表示第m张人脸中眼睛的宽度。

distEyeLid_m和eyeWidth_m可以通过检测人脸上关键点的方式获得。

S102I：计算用于表示目标视频帧人物特征的特征值。

本步骤中，可以根据关系式S_fi＝face_size_i·bias_center_i·eyeopen_i，计算用于表示目标视频帧人物特征的特征值S_fi。

图4为本发明实施例提供的第三种获得视频帧特征值的方法的流程示意图，本实施例中，根据所提取的目标视频帧i对应的图像信息，获得用于表示目标视频帧画质特征的特征值S_qi，包括：

S102J：确定目标视频帧i的Num_b维颜色直方图对应的统计关系。

本实施例中，目标视频帧i的Num_b维颜色直方图对应的统计关系以hist'_i()表示。

S102K：计算用于表示目标视频帧画质特征的特征值。

本步骤中，可以根据关系式

计算用于表示目标视频帧画质特征的特征值S_qi，其中，

图5为本发明实施例提供的第四种获得视频帧特征值的方法的流程示意图，本实施例中，根据所提取的目标视频帧对应的图像信息，获得用于表示目标视频帧构图特征的特征值S_si，包括：

S102L：确定目标视频帧i中的前景区域。

实际应用中，可以通过现有的图像识别算法识别出目标视频帧中的前景区域。一种较佳的实现方式中，在通过现有的图像识别算法识别出目标视频帧中的前景区域后，还可以进一步对所得到的前景区域进行二值化，以得到更准确的前景区域。

具体的，可参见图6中a、b、c所示的具体示例。

其中，图6a为一具体的视频帧；

图6b为图6a的前景区域图；

图6c为图6b二值化后的图示。

S102M：判断所确定的前景区域的面积是否大于预设的阈值，若大于，执行S102N，否则，执行S102O。

S102N：计算用于表示目标视频帧构图特征的特征值。

本步骤中，可以根据关系式

S_si＝1-dist(objCenter，imgCenter)/(imgWidth/2)，计算用于表示目标视频帧构图特征的特征值S_si，其中，objCenter表示前景区域的中心点，imgCenter表示目标视频帧的图像中心点，dist()表示两点之间的距离，imgWidth表示目标视频帧的图像宽度。

S102O：结束本流程。

由以上可见，上述各实施例提供的方案中，提取目标视频中的若干视频帧后，先计算所提取的各个视频帧的图像质量评估值，再根据计算得到的图像质量评估值，选择所提取的视频帧中图像质量高的视频帧作为目标视频帧的代表帧。可见，上述各实施例提供的方案中，无需通过人工筛选的方式也能够获得目标视频的代表帧，提高了处理速度和工作效率。

与上述的视频代表帧提取方法相对应，本发明实施例还提供了一种视频代表帧提取装置。

图7为本发明实施例提供的一种视频代表帧提取装置的结构示意图，该装置包括：视频帧提取模块701、图像质量评估值计算模块702和代表帧选择模块703。

其中，视频帧提取模块701，用于提取目标视频中第一预设数量k个视频帧；

图像质量评估值计算模块702，用于根据所提取的各个视频帧对应的图像信息，计算所提取的各个视频帧的图像质量评估值，其中，所述图像质量评估值用于表示视频帧图像质量的高低；

代表帧选择模块703，用于根据计算得到的各个视频帧的图像质量评估值进行排序，优先选择所提取的k个视频帧中图像质量高的视频帧作为所述目标视频的代表帧。

具体的，所述图像质量评估值计算模块702，包括：特征值获得子模块和图像质量评估值计算子模块(图中未示出)。

其中，特征值获得子模块，用于对于任一目标视频帧i，根据所提取的目标视频帧i对应的图像信息，获得以下目标视频帧特征值中的至少一种，其中，i＝1,2......k：

用于表示所述目标视频帧相似度的特征值S_ri；

用于表示所述目标视频帧人物特征的特征值S_fi；

用于表示所述目标视频帧画质特征的特征值S_qi；

用于表示所述目标视频帧构图特征的特征值S_si；

在本发明的一个具体实施例中，上述的特征值获得子模块，包括：颜色特征值计算单元、聚类特征值计算单元和视频帧相似度计算单元(图中未示出)。

其中，颜色特征值计算单元，用于根据所述目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度e_ij，计算所述目标视频帧i在所述目标视频中的颜色相似度特征值s_i，其中，

本实施例中上述的视频代表帧提取装置还包括：帧间相似度确定模块(图中为示出)，该模块用于确定所述目标视频帧i与所提取的k个视频帧中任一视频帧j之间的帧间相似度e_ij；

所述帧间相似度确定模块，包括：统计关系确定子模块和帧间相似度计算子模块(图中未示出)。

其中，统计关系确定子模块，用于分别将所提取的k个视频帧划分为第二预设数量个图像块，并确定所提取的k个视频帧的Num_a维分块颜色直方图统计关系hist()；

min(hist_i(p)，hist_j(p))表示hist_i(p)、hist_j(p)两者中的最小值。

在本发明的另一个具体实施例中，所述特征值获得子模块，包括：人脸数量确定单元、参数获得单元、平均人脸宽度计算单元、距离获得单元、睁眼系数获得单元和第一特征值计算单元(图中未示出)。

其中，人脸数量确定单元，用于确定目标视频帧i中所包含人脸的数量Num_f；

maxFaceWidth为预设的人脸宽度中的最大值；

距离获得单元，用于根据关系式

睁眼系数获得单元，用于根据关系式

在本发明的另一个具体实施例中，所述特征值获得子模块，包括：统计关系确定单元和第二特征值计算单元(图中未示出)。

其中，统计关系确定单元，用于确定所述目标视频帧i的Num_b维颜色直方图对应的统计关系hist'_i()；

其中，

在本发明的另一个具体实施例中，所述特征值获得子模块，包括：前景区域确定单元、面积判断单元和第三特征值计算单元(图中未示出)。

其中，前景区域确定单元，用于确定目标视频帧i中的前景区域；

可选的，所述图像质量评估值计算子模块可以包括：归一化处理单元和图像质量评估值计算单元(图中未示出)。

其中，归一化处理单元，用于对所获得的目标视频帧特征值进行0-1的归一化处理；

对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频代表帧提取方法，其特征在于，所述方法包括：

提取目标视频中第一预设数量k个视频帧；

根据计算得到的各个视频帧的图像质量评估值进行排序，优先选择所提取的k个视频帧中图像质量高的视频帧作为所述目标视频的代表帧；

其中，所述根据所提取的各个视频帧对应的图像信息，计算所提取的各个视频帧的图像质量评估值，包括：

对于任一目标视频帧i，根据所提取的目标视频帧i对应的图像信息，获得以下目标视频帧特征值中的至少一种，其中，i＝1,2……k：

用于表示所述目标视频帧相似度的特征值S_ri；

用于表示所述目标视频帧人物特征的特征值S_fi；

用于表示所述目标视频帧画质特征的特征值S_qi；

用于表示所述目标视频帧构图特征的特征值S_si；

2.根据权利要求1所述的方法，其特征在于，根据所提取的目标视频帧i对应的图像信息，获得用于表示所述目标视频帧相似度的特征值S_ri，包括：

<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> </mrow>

根据所述目标视频帧i所属聚类中包含视频帧的数量numImg_n，计算所述目标视频帧i的聚类特征值g_i，其中，g_i＝numImg_i/max CluserSize，n∈{1、2……Numc}，Num_c为根据所提取的k个视频帧对应的图像信息，将所提取的k个视频帧按照预设的聚类算法进行聚类后，得到的聚类的数目，maxCluserSize为所得到的Num_c个聚类中，各个聚类所包含视频帧帧数目的最大值；

计算用于表示所述目标视频帧相似度的特征值S_ri，其中，S_ri＝w_i1*s_i+w_i2*g_i，w_i1、w_i2为目标视频帧i对应的加权系数；

<mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>p</mi> <mo>=</mo> <msub> <mi>Num</mi> <mi>a</mi> </msub> </mrow> </msubsup> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>hist</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>,</mo> <msub> <mi>hist</mi> <mi>j</mi> </msub> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

min(hist_i(p)，hist_j(p))表示hist_i(p)、hist_j(p)两者中的最小值，p表示灰度值。

3.根据权利要求2所述的方法，其特征在于，所述预设阈值为：所提取的k个视频帧中任意两帧之间帧间相似度的平均值与所提取的k个视频帧中任意两帧之间帧间相似度的标准方差之和。

4.根据权利要求2所述的方法，其特征在于，所述Num_c为根据所提取的k个视频帧对应的图像信息，将所提取的k个视频帧按照预设的聚类算法进行聚类后，得到的聚类的数目，包括：

5.根据权利要求1所述的方法，其特征在于，根据所提取的目标视频帧i对应的图像信息，获得用于表示所述目标视频帧人物特征的特征值S_fi，包括：

确定所述目标视频帧i中所包含人脸的数量Num_f；

分别获得所述目标视频帧i中各张人脸所在位置faceCenter_m和各张人脸的人脸宽度faceWidth_m，其中，m∈{1、2……Num_f}；

<mrow> <mi>f</mi> <mi>a</mi> <mi>c</mi> <mi>e</mi> <mo>_</mo> <msub> <mi>size</mi> <mi>i</mi> </msub> <mo>=</mo> <mrow> <mo>(</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>Num</mi> <mi>f</mi> </msub> </mrow> </msubsup> <mi>min</mi> <mo>(</mo> <mrow> <msub> <mi>faceWidth</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>max</mi> <mi>F</mi> <mi>a</mi> <mi>c</mi> <mi>e</mi> <mi>W</mi> <mi>i</mi> <mi>d</mi> <mi>t</mi> <mi>h</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>/</mo> <mi>max</mi> <mi>F</mi> <mi>a</mi> <mi>c</mi> <mi>e</mi> <mi>W</mi> <mi>i</mi> <mi>d</mi> <mi>t</mi> <mi>h</mi> <mo>/</mo> <msub> <mi>Num</mi> <mi>f</mi> </msub> <mo>,</mo> </mrow>

maxFaceWidth为预设的人脸宽度中的最大值；

根据关系式

<mrow> <mi>b</mi> <mi>i</mi> <mi>a</mi> <mi>s</mi> <mo>_</mo> <msub> <mi>center</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>Num</mi> <mi>f</mi> </msub> </mrow> </msubsup> <msub> <mi>faceCenter</mi> <mi>m</mi> </msub> <mo>/</mo> <msub> <mi>Num</mi> <mi>f</mi> </msub> <mo>,</mo> <mi>i</mi> <mi>m</mi> <mi>g</mi> <mi>C</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>e</mi> <mi>r</mi> <mo>)</mo> </mrow> <mo>/</mo> <mrow> <mo>(</mo> <mi>i</mi> <mi>m</mi> <mi>g</mi> <mi>W</mi> <mi>i</mi> <mi>d</mi> <mi>t</mi> <mi>h</mi> <mo>/</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

根据关系式

6.根据权利要求1所述的方法，其特征在于，根据所提取的目标视频帧i对应的图像信息，获得用于表示所述目标视频帧画质特征的特征值S_qi，包括：

其中，

7.根据权利要求1所述的方法，其特征在于，根据所提取的目标视频帧i对应的图像信息，获得用于表示所述目标视频帧构图特征的特征值S_si，包括：

确定所述目标视频帧i中的前景区域；

判断所确定的前景区域的面积是否大于预设的阈值；

8.根据权利要求1所述的方法，其特征在于，所述根据所获得的目标视频帧特征值，计算所述目标视频帧的图像质量评估值，包括：

对所获得的目标视频帧特征值进行0-1的归一化处理；

9.一种视频代表帧提取装置，其特征在于，所述装置包括：

代表帧选择模块，用于根据计算得到的各个视频帧的图像质量评估值进行排序，优先选择所提取的k个视频帧中图像质量高的视频帧作为所述目标视频的代表帧；

其中，所述图像质量评估值计算模块，包括：

特征值获得子模块，用于对于任一目标视频帧i，根据所提取的目标视频帧i对应的图像信息，获得以下目标视频帧特征值中的至少一种，其中，i＝1,2……k：

用于表示所述目标视频帧相似度的特征值S_ri；

用于表示所述目标视频帧人物特征的特征值S_fi；

用于表示所述目标视频帧画质特征的特征值S_qi；

用于表示所述目标视频帧构图特征的特征值S_si；

10.根据权利要求9所述的装置，其特征在于，所述特征值获得子模块，包括：

聚类特征值计算单元，用于根据所述目标视频帧i所属聚类中包含视频帧的数量numImg_n，计算所述目标视频帧i的聚类特征值g_i，其中，g_i＝numImg_i/max CluserSize，n∈{1、2……Num_c}，Num_c为根据所提取的k个视频帧对应的图像信息，将所提取的k个视频帧按照预设的聚类算法进行聚类后，得到的聚类的数目，maxCluserSize为所得到的Num_c个聚类中，各个聚类所包含视频帧帧数目的最大值；

视频帧相似度计算单元，用于计算用于表示所述目标视频帧相似度的特征值S_ri，其中，S_ri＝w_i1*s_i+w_i2*g_i，w_i1、w_i2为目标视频帧i对应的加权系数；

所述帧间相似度确定模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述预设阈值为：所提取的k个视频帧中任意两帧之间帧间相似度的平均值与所提取的k个视频帧中任意两帧之间帧间相似度的标准方差之和。

12.根据权利要求10所述的装置，其特征在于，所述Num_c为根据所提取的k个视频帧对应的图像信息，将所提取的k个视频帧按照预设的聚类算法进行聚类后，得到的聚类的数目，包括：

13.根据权利要求9所述的装置，其特征在于，所述特征值获得子模块，包括：

参数获得单元，用于分别获得所述目标视频帧i中各张人脸所在位置faceCenter_m和各张人脸的人脸宽度faceWidth_m，其中，m∈{1、2……Num_f}；

maxFaceWidth为预设的人脸宽度中的最大值；

距离获得单元，用于根据关系式

睁眼系数获得单元，用于根据关系式

<mrow> <msub> <mi>eyeopen</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>Num</mi> <mi>f</mi> </msub> </mrow> </msubsup> <mrow> <mo>(</mo> <msub> <mi>distEyeLid</mi> <mi>m</mi> </msub> <mo>/</mo> <msub> <mi>eyeWidth</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>/</mo> <msub> <mi>Num</mi> <mi>f</mi> </msub> <mo>,</mo> </mrow>

14.根据权利要求9所述的装置，其特征在于，所述特征值获得子模块，包括：

其中，

15.根据权利要求9所述的装置，其特征在于，所述特征值获得子模块，包括：

前景区域确定单元，用于确定目标视频帧i中的前景区域；

16.根据权利要求9所述的装置，其特征在于，所述图像质量评估值计算子模块，包括：