CN105959685B

CN105959685B - 一种基于视频内容及聚类分析的压缩码率预测方法

Info

Publication number: CN105959685B
Application number: CN201610378960.0A
Authority: CN
Inventors: 宋利; 朱雨桐; 解蓉; 张文军
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2018-01-19
Anticipated expiration: 2036-05-31
Also published as: CN105959685A

Abstract

本发明公开一种基于视频内容及聚类分析的压缩码率预测方法，该方法首先对视频的每一帧做sobel滤波，得到空间复杂度信息；然后对相邻两帧的亮度信息做差值，得到时间复杂度信息；接着对空间信息及时间信息，利用k‑means方法做聚类分析；随后在每一个类上，做系数回归，得到预测模型，并利用该模型预测压缩码率。本发明提出的先进行k‑means聚类分析，再在每个类上做回归预测的方法，明显提升了模型的预测准确率用。此种“先聚类再回归”的方法来进行预测，能够获得更好的效果。

Description

一种基于视频内容及聚类分析的压缩码率预测方法

技术领域

本发明涉及一种视频质量评测领域的方法，具体是一种基于视频空间信息及时间信息，通过对视频源序列做聚类分析后，在具有相似特性的每一类中运用无参考视频质量评价模型的压缩码率预测方法。

背景技术

多媒体的飞速发展也为视频观看提供了多种终端选择，包括大屏幕的TV、小尺寸的智能手机，以及尺寸介于两者之间的平板电脑等。观看者对视频数量及质量的追求逐渐提升，对于设备的更大存储空间及更高压缩码率的要求也随之增高。因此，在达到一定的视频质量时，如何找到尽可能小的压缩码率成为本专利的研究要点。为此，本专利提出了一种基于视频内容及聚类分析的压缩码率预测方法。

视频质量评测可以主要分为两大种方法：主观及客观。客观质量评测与主观方法相比较，更为灵活、快捷、易于实践。客观质量评测又分为全参考、部分参考及无参考评测方法。其中，无参考视频质量评价方法直接对视频进行分析，随后对视频质量好坏做出评估。目前已有一大类基于视频本身信息参数的无参考视频质量评测方法，由于其不需要对视频源序列进行压缩处理，方法的复杂度较低，也易于实践，因此该方法可以应用于实时***中，具有实际应用意义。

现有的研究结果表明，视频主观质量主要受以下几个因素影响：编码方式、视频内容、压缩码率、视频帧率以及视频分辨率。目前所提出的一些基于视频参数模型的无参考视频质量评测方法也基本基于以上五个元素中的一种或几种。如Motohiro Takagi等人在2014年IEEE International Conference on Visual Communications and ImageProcessing,pp.33-36(2014年IEEE视觉通信与图像处理国际会议，33至36页)上发表的“Optimized spatial and temporal resolution based on subjective qualityestimation without encoding”(基于非编码主观质量估计的时域及空域分辨率优化)文章中，即利用压缩码率及视频帧率对视频质量进行预测。

然而，已有的无参考视频质量评价的多为对视频运动信息或编码信息进行提取后，

对视频质量直接进行预测，很少针对视频内容的类别做分析。已有的为数不多的通过对视频进行分类后做预测的方法，也多为通过肉眼观察视频内容进行分类，如分为“新闻类”、“动画片类”等等。在准确性上仍然差强人意。

为此，本发明提出基于视频内容本身信息并且利用聚类分析做压缩码率预测的方法，以提高模型预测的准确性与实用性。

发明内容

本发明在现有无参考视频客观质量评价方法的基础上，提供一种基于视频内容及聚类分析的压缩码率预测方法，对视频本身信息进行分类，以此提高预测准确性。

为实现上述目的，本发明采用的技术方案如下：

S1：对视频的每一帧做sobel滤波，得到空间信息SI；对相邻两帧的亮度信息做差值，得到时间信息TI；

S2：对S1得到的空间信息SI及时间信息TI，利用k-means方法做聚类分析，得到多个类；

S3：在S2的每一个类上，做系数回归，得到压缩码率预测模型，并利用该模型预测压缩码率。通过在每个类上对其进行回归，提高预测准确性。

较优地，所述S1：对于原视频序列的第n帧图像，用下列两个公式分别进行处理，从而得到空间信息SI(Spatial Information)及时间信息TI(Temporal Information)：

SI＝max_time{std_space[Sobel(F_n)]}

TI＝max_time{std_space[F_n(i,j)–F_n-1(i,j)]}

其中F_n是当前帧的亮度信息，Sobel表示经典图像处理中的Sobel算子，std_space表示对该帧内的经过Sobel计算得到的结果求标准差，max_time表示对所有帧经过标准差计算得到的结果取最大值。

较优地，所述S2：取S1中的空间信息SI及时间信息TI结果，带入K-means算法中做聚类分析，采用欧式距离的平方(Squared Euclidean distance)作为计算聚类的距离指标。同时，采用K-means聚类分析中的silhouette值作为聚类结果分析指标，通过分析该值，确定最终的聚类个数。最后，将具有相似SI及TI信息的视频聚拢为一类。

较优地，所述S3，在S2完成聚类分析后，在每一个聚拢的类上，将S1中计算的空间信息SI及时间信息TI带入以下压缩码率预测模型中，对应不同的视频的序列，带入不同的视频主观质量评测MOS分值，得到压缩码率的预测值，实现对特定质量要求下视频压缩所需码率的预测：

v_c＝TI·SI (2)

α(v_c)＝c₁+c₂·log(v_c) (3)

γ(v_c)＝c₄+c₅·log(v_c) (5)

其中，c₁到c₆为模型参数。α、β、γ只是中间参数。MOS(Mean Opinion Score)表示视频主观测试分值，根据不同的测试方法有不同的取值，本发明采取了ITU-RBT-500文件中的DSI Variant II方法，并且采用了5分制的原则，即：1分表示质量非常差；2分表示质量较差；3分表示质量一般；4分表示质量较好；5分表示质量非常好。另外，TI及SI分别代表时间信息及空间信息。v_c代表的是视频内容(video content)，由TI及SI确定。BR_p则表示的是预测的压缩码率。

进一步的，所述模型参数c₁，c₂，c₃，c₄，c₅，c₆通过以下方法确定：在保证实际应用中的编码器类型、视频分辨率和帧率与主观视频质量评价材料一致情况下，运用主观质量评价结果对提出的数学模型进行最小二乘回归计算，求出针对特定应用的模型参数。

本发明考虑了视频内容对视频质量的影响，利用空间信息与时间信息做为视频内容特征，并且对视频内容特征做聚类分析，将具有相似特征的视频聚拢为一类。对基于视频参数的模型进行反变换后，即可结合视频内容与要求的视频质量，在每一个类中做压缩码率预测。此方法通常可以用在编码之前，用来确定达到要求的视频质量之时所需要的大致压缩码率。

与现有技术相比，本发明具有如下的有益效果：

本发明提出的先进行k-means聚类分析，再在每个类上做回归预测的方法，明显提升了模型的预测准确率用。此种“先聚类再回归”的方法来进行预测，能够获得更好的效果。

附图说明

通过阅读参照以下附图，对于本发明的特征、目的和优点以及整体方法将会变得更明显清晰：

图1是基于视频内容与聚类分析的压缩码率预测方法的流程框图。

图2是本发明一实施例中用来回归模型参数的视频源序列的空间信息与时间信息。

图3是使用本发明方法后的预测结果。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

以下结合本发明方法在无参考客观视频质量评价应用描述具体实施例，即将本发明提出的利用TI及SI进行聚类分析，之后在每个类进行回归预测应用于质量评价，具体流程框图如图1所示。此处将本发明应用到利用HEVC压缩编码的帧率为30fps的4K超高清视频序列中。需要说明的是，该结果(如皮尔森相关系数PCC)仅适用于HEVC编码的帧率为30fps的4K视频，对于不同场景下的应用，可能出现不同结果。但整体的方法是通用的，不影响本发明的实质。

下面首先介绍视频时间复杂度的提取步骤，然后介绍视频空间复杂度的提取步骤，接下来将在此基础之上详细介绍k-means聚类方法，及聚类个数分析方法，最后介绍所建立的无参考视频质量评价模型。

1)计算视频的空间及时间信息。

SI＝max_time{std_space[Sobel(F_n)]}

TI＝max_time{std_space[F_n(i,j)–F_n-1(i,j)]}

2)对视频的SI及TI进行K-means聚类分析。

本发明利用k-means方法进行聚类分析，由于k-means为无监督学习方法，只需要确定所聚的类数。故并选择silhouette值作为评测不同类数下聚类结果的指标。该指标取值范围[-1,1]，通常该值越大，说明该视频序列离其他类越远，在其所属类中的聚合效果越好。

在分析silhouette的结果时，本发明选择以下四个特征进行结果分析：最小值Silh_min，最大值Silh_max，均值Silh_mean以及标准差Silh_dev。下面以表一为例进行分析。其中，K_ca表示聚类个数。

表一不同类数的聚类分析silhouette值结果

类别	K_ca＝2	K_ca＝3	K_ca＝4	K_ca＝5
					Silh_min	0.3905	0.1383	0.5069	0.5069
Silh_max	0.9381	0.9793	0.9677	1
					Silh_mean	0.839	0.7643	0.7410	0.7717
Silh_dev	0.1726	0.2305	0.1620	0.1911

当K_ca＝2时，尽管其均值最高，且标准差排在第二小，但是通过后续对每一类进行回归预测时，发现准确率低，效果较差。其根本原因还在于只聚为2类，类数过少，此时的结果与未聚类的差别很小。即，聚为2类时，尽管在数据上符合要求，可没有实际的意义。

当K_ca＝3时，其最小值低至0.1383，这意味着聚类效果非常差，只有一个类的聚拢结果不明显。因此，需要更多的类数才能满足要求。

当K_ca＝5时，其最大值为1，从数据上看这说明聚拢效果非常非常好。可是从结果上看，该类中只有一个视频序列，即，此时的类数过多，应减少类数。

综上分析，K_ca取值为4时有最佳的聚拢效果。

确定聚类分析的类数后，即可按照k-means算法进行聚类分析。最后，将具有相似空间信息SI及时间信息TI特征的视频聚拢为一类。

3)根据聚类分析结果，在每个类上，对该类中的视频进行做回归，从而提高预测准确率。

进行聚类分析后，在每一个类中，利用最小二乘法回归得到模型参数c₁到c₆，随后利用无参考视频质量评价模型进行压缩码率的预测。

以上海交通大学图像通信与网络工程研究所公开的4K分辨率视频数据库为例(http://medialab.sjtu.edu.cn/resources/resources.html)，该数据库以10个参考视频为基础，分别以6个码率点对其进行压缩，并给出相应的主观DMOS值。斯皮尔曼系数(SROCC)和皮尔森系数(LCC)被用来作为衡量预测准确性的指标。

表二通过聚类分析后，每一类的预测结果，以及未进行聚类分析时的预测结果。可以看出，事先进行聚类分析后，PCC最高提升了28.76％，RMSE最高降低了68.98％。通过本发明，确实获得了更好的效果。

表二预测结果

类别	PCC	SCC	RMSE	MOS
					类别A	0.972	0.986	0.102	3.945
类别B	0.953	0.951	0.087	3.818
					类别C	0.901	0.865	0.274	4.124
类别D	0.961	0.969	0.177	4.041
					未聚类时所有序列	0.672	0.753	1.174	4.002

以上所述仅是本发明的优选实施方式，本发明的保护范围不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范畴。应当指出，对于本技术领域的技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也都应视为本发明的保护范围。

Claims

1.一种基于视频内容及聚类分析的压缩码率预测方法，其特征在于包括如下步骤：

S3：在S2的每一个类上，做系数回归，得到压缩码率预测模型，并利用该模型预测压缩码率；

所述S3：在S2完成聚类分析后，在每一个聚拢的类上，将S1中计算的空间信息SI及时间信息TI带入以下压缩码率预测模型中，对应不同的视频的序列，带入不同的视频主观质量评测MOS分值，得到压缩码率的预测值，实现对特定质量要求下视频压缩所需码率的预测：

v_c＝TI·SI (2)

α(v_c)＝c₁+c₂·log(v_c) (3)

γ(v_c)＝c₄+c₅·log(v_c) (5)

其中，c₁到c₆为模型参数，α、β、γ只是中间参数，MOS表示视频主观测试分值，采取ITU-RBT-500文件中的DSI Variant II方法，并且采用了5分制的原则，即：1分表示质量非常差，2分表示质量较差，3分表示质量一般，4分表示质量较好，5分表示质量非常好；TI及SI分别代表时间信息及空间信息；v_c代表的是视频内容，由SI及TI确定，BR_p则表示的是预测的压缩码率。

2.根据权利要求1所述的基于视频内容及聚类分析的压缩码率预测方法，其特征在于：所述S1：对于原视频序列的第n帧图像，用下列两个公式分别进行处理，从而得到空间信息SI及时间信息TI：

SI＝max_time{std_space[Sobel(F_n)]}

TI＝max_time{std_space[F_n(i,j)–F_n-1(i,j)]}

3.根据权利要求1所述的基于视频内容及聚类分析的压缩码率预测方法，其特征在于：所述S2：取S1中的空间信息SI及时间信息TI结果，带入K-means算法中做聚类分析，采用欧式距离的平方作为计算聚类的距离指标，同时，采用K-means聚类分析中的silhouette值作为聚类结果分析指标，通过分析该silhouette值，确定最终的聚类个数，最后，将具有相似空间信息SI及时间信息TI特征的视频聚拢为一类。

4.根据权利要求1-3任一项所述的基于视频内容及聚类分析的压缩码率预测方法，其特征在于：所述模型参数c₁，c₂，c₃，c₄，c₅，c₆通过以下方法确定：在保证实际应用中的编码器类型、视频分辨率和帧率与主观视频质量评价材料一致情况下，运用主观质量评价结果对提出的数学模型进行最小二乘回归计算，求出针对特定应用的模型参数。