CN105959685B - 一种基于视频内容及聚类分析的压缩码率预测方法 - Google Patents
一种基于视频内容及聚类分析的压缩码率预测方法 Download PDFInfo
- Publication number
- CN105959685B CN105959685B CN201610378960.0A CN201610378960A CN105959685B CN 105959685 B CN105959685 B CN 105959685B CN 201610378960 A CN201610378960 A CN 201610378960A CN 105959685 B CN105959685 B CN 105959685B
- Authority
- CN
- China
- Prior art keywords
- video
- information
- bit rate
- cluster analysis
- compression bit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开一种基于视频内容及聚类分析的压缩码率预测方法,该方法首先对视频的每一帧做sobel滤波,得到空间复杂度信息;然后对相邻两帧的亮度信息做差值,得到时间复杂度信息;接着对空间信息及时间信息,利用k‑means方法做聚类分析;随后在每一个类上,做系数回归,得到预测模型,并利用该模型预测压缩码率。本发明提出的先进行k‑means聚类分析,再在每个类上做回归预测的方法,明显提升了模型的预测准确率用。此种“先聚类再回归”的方法来进行预测,能够获得更好的效果。
Description
技术领域
本发明涉及一种视频质量评测领域的方法,具体是一种基于视频空间信息及时间信息,通过对视频源序列做聚类分析后,在具有相似特性的每一类中运用无参考视频质量评价模型的压缩码率预测方法。
背景技术
多媒体的飞速发展也为视频观看提供了多种终端选择,包括大屏幕的TV、小尺寸的智能手机,以及尺寸介于两者之间的平板电脑等。观看者对视频数量及质量的追求逐渐提升,对于设备的更大存储空间及更高压缩码率的要求也随之增高。因此,在达到一定的视频质量时,如何找到尽可能小的压缩码率成为本专利的研究要点。为此,本专利提出了一种基于视频内容及聚类分析的压缩码率预测方法。
视频质量评测可以主要分为两大种方法:主观及客观。客观质量评测与主观方法相比较,更为灵活、快捷、易于实践。客观质量评测又分为全参考、部分参考及无参考评测方法。其中,无参考视频质量评价方法直接对视频进行分析,随后对视频质量好坏做出评估。目前已有一大类基于视频本身信息参数的无参考视频质量评测方法,由于其不需要对视频源序列进行压缩处理,方法的复杂度较低,也易于实践,因此该方法可以应用于实时***中,具有实际应用意义。
现有的研究结果表明,视频主观质量主要受以下几个因素影响:编码方式、视频内容、压缩码率、视频帧率以及视频分辨率。目前所提出的一些基于视频参数模型的无参考视频质量评测方法也基本基于以上五个元素中的一种或几种。如Motohiro Takagi等人在2014年IEEE International Conference on Visual Communications and ImageProcessing,pp.33-36(2014年IEEE视觉通信与图像处理国际会议,33至36页)上发表的“Optimized spatial and temporal resolution based on subjective qualityestimation without encoding”(基于非编码主观质量估计的时域及空域分辨率优化)文章中,即利用压缩码率及视频帧率对视频质量进行预测。
然而,已有的无参考视频质量评价的多为对视频运动信息或编码信息进行提取后,
对视频质量直接进行预测,很少针对视频内容的类别做分析。已有的为数不多的通过对视频进行分类后做预测的方法,也多为通过肉眼观察视频内容进行分类,如分为“新闻类”、“动画片类”等等。在准确性上仍然差强人意。
为此,本发明提出基于视频内容本身信息并且利用聚类分析做压缩码率预测的方法,以提高模型预测的准确性与实用性。
发明内容
本发明在现有无参考视频客观质量评价方法的基础上,提供一种基于视频内容及聚类分析的压缩码率预测方法,对视频本身信息进行分类,以此提高预测准确性。
为实现上述目的,本发明采用的技术方案如下:
S1:对视频的每一帧做sobel滤波,得到空间信息SI;对相邻两帧的亮度信息做差值,得到时间信息TI;
S2:对S1得到的空间信息SI及时间信息TI,利用k-means方法做聚类分析,得到多个类;
S3:在S2的每一个类上,做系数回归,得到压缩码率预测模型,并利用该模型预测压缩码率。通过在每个类上对其进行回归,提高预测准确性。
较优地,所述S1:对于原视频序列的第n帧图像,用下列两个公式分别进行处理,从而得到空间信息SI(Spatial Information)及时间信息TI(Temporal Information):
SI=maxtime{stdspace[Sobel(Fn)]}
TI=maxtime{stdspace[Fn(i,j)–Fn-1(i,j)]}
其中Fn是当前帧的亮度信息,Sobel表示经典图像处理中的Sobel算子,stdspace表示对该帧内的经过Sobel计算得到的结果求标准差,maxtime表示对所有帧经过标准差计算得到的结果取最大值。
较优地,所述S2:取S1中的空间信息SI及时间信息TI结果,带入K-means算法中做聚类分析,采用欧式距离的平方(Squared Euclidean distance)作为计算聚类的距离指标。同时,采用K-means聚类分析中的silhouette值作为聚类结果分析指标,通过分析该值,确定最终的聚类个数。最后,将具有相似SI及TI信息的视频聚拢为一类。
较优地,所述S3,在S2完成聚类分析后,在每一个聚拢的类上,将S1中计算的空间信息SI及时间信息TI带入以下压缩码率预测模型中,对应不同的视频的序列,带入不同的视频主观质量评测MOS分值,得到压缩码率的预测值,实现对特定质量要求下视频压缩所需码率的预测:
vc=TI·SI (2)
α(vc)=c1+c2·log(vc) (3)
γ(vc)=c4+c5·log(vc) (5)
其中,c1到c6为模型参数。α、β、γ只是中间参数。MOS(Mean Opinion Score)表示视频主观测试分值,根据不同的测试方法有不同的取值,本发明采取了ITU-RBT-500文件中的DSI Variant II方法,并且采用了5分制的原则,即:1分表示质量非常差;2分表示质量较差;3分表示质量一般;4分表示质量较好;5分表示质量非常好。另外,TI及SI分别代表时间信息及空间信息。vc代表的是视频内容(video content),由TI及SI确定。BRp则表示的是预测的压缩码率。
进一步的,所述模型参数c1,c2,c3,c4,c5,c6通过以下方法确定:在保证实际应用中的编码器类型、视频分辨率和帧率与主观视频质量评价材料一致情况下,运用主观质量评价结果对提出的数学模型进行最小二乘回归计算,求出针对特定应用的模型参数。
本发明考虑了视频内容对视频质量的影响,利用空间信息与时间信息做为视频内容特征,并且对视频内容特征做聚类分析,将具有相似特征的视频聚拢为一类。对基于视频参数的模型进行反变换后,即可结合视频内容与要求的视频质量,在每一个类中做压缩码率预测。此方法通常可以用在编码之前,用来确定达到要求的视频质量之时所需要的大致压缩码率。
与现有技术相比,本发明具有如下的有益效果:
本发明提出的先进行k-means聚类分析,再在每个类上做回归预测的方法,明显提升了模型的预测准确率用。此种“先聚类再回归”的方法来进行预测,能够获得更好的效果。
附图说明
通过阅读参照以下附图,对于本发明的特征、目的和优点以及整体方法将会变得更明显清晰:
图1是基于视频内容与聚类分析的压缩码率预测方法的流程框图。
图2是本发明一实施例中用来回归模型参数的视频源序列的空间信息与时间信息。
图3是使用本发明方法后的预测结果。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
以下结合本发明方法在无参考客观视频质量评价应用描述具体实施例,即将本发明提出的利用TI及SI进行聚类分析,之后在每个类进行回归预测应用于质量评价,具体流程框图如图1所示。此处将本发明应用到利用HEVC压缩编码的帧率为30fps的4K超高清视频序列中。需要说明的是,该结果(如皮尔森相关系数PCC)仅适用于HEVC编码的帧率为30fps的4K视频,对于不同场景下的应用,可能出现不同结果。但整体的方法是通用的,不影响本发明的实质。
下面首先介绍视频时间复杂度的提取步骤,然后介绍视频空间复杂度的提取步骤,接下来将在此基础之上详细介绍k-means聚类方法,及聚类个数分析方法,最后介绍所建立的无参考视频质量评价模型。
1)计算视频的空间及时间信息。
SI=maxtime{stdspace[Sobel(Fn)]}
TI=maxtime{stdspace[Fn(i,j)–Fn-1(i,j)]}
其中Fn是当前帧的亮度信息,Sobel表示经典图像处理中的Sobel算子,stdspace表示对该帧内的经过Sobel计算得到的结果求标准差,maxtime表示对所有帧经过标准差计算得到的结果取最大值。
2)对视频的SI及TI进行K-means聚类分析。
本发明利用k-means方法进行聚类分析,由于k-means为无监督学习方法,只需要确定所聚的类数。故并选择silhouette值作为评测不同类数下聚类结果的指标。该指标取值范围[-1,1],通常该值越大,说明该视频序列离其他类越远,在其所属类中的聚合效果越好。
在分析silhouette的结果时,本发明选择以下四个特征进行结果分析:最小值Silhmin,最大值Silhmax,均值Silhmean以及标准差Silhdev。下面以表一为例进行分析。其中,Kca表示聚类个数。
表一 不同类数的聚类分析silhouette值结果
类别 | Kca=2 | Kca=3 | Kca=4 | Kca=5 |
Silhmin | 0.3905 | 0.1383 | 0.5069 | 0.5069 |
Silhmax | 0.9381 | 0.9793 | 0.9677 | 1 |
Silhmean | 0.839 | 0.7643 | 0.7410 | 0.7717 |
Silhdev | 0.1726 | 0.2305 | 0.1620 | 0.1911 |
当Kca=2时,尽管其均值最高,且标准差排在第二小,但是通过后续对每一类进行回归预测时,发现准确率低,效果较差。其根本原因还在于只聚为2类,类数过少,此时的结果与未聚类的差别很小。即,聚为2类时,尽管在数据上符合要求,可没有实际的意义。
当Kca=3时,其最小值低至0.1383,这意味着聚类效果非常差,只有一个类的聚拢结果不明显。因此,需要更多的类数才能满足要求。
当Kca=5时,其最大值为1,从数据上看这说明聚拢效果非常非常好。可是从结果上看,该类中只有一个视频序列,即,此时的类数过多,应减少类数。
综上分析,Kca取值为4时有最佳的聚拢效果。
确定聚类分析的类数后,即可按照k-means算法进行聚类分析。最后,将具有相似空间信息SI及时间信息TI特征的视频聚拢为一类。
3)根据聚类分析结果,在每个类上,对该类中的视频进行做回归,从而提高预测准确率。
进行聚类分析后,在每一个类中,利用最小二乘法回归得到模型参数c1到c6,随后利用无参考视频质量评价模型进行压缩码率的预测。
以上海交通大学图像通信与网络工程研究所公开的4K分辨率视频数据库为例(http://medialab.sjtu.edu.cn/resources/resources.html),该数据库以10个参考视频为基础,分别以6个码率点对其进行压缩,并给出相应的主观DMOS值。斯皮尔曼系数(SROCC)和皮尔森系数(LCC)被用来作为衡量预测准确性的指标。
表二通过聚类分析后,每一类的预测结果,以及未进行聚类分析时的预测结果。可以看出,事先进行聚类分析后,PCC最高提升了28.76%,RMSE最高降低了68.98%。通过本发明,确实获得了更好的效果。
表二 预测结果
类别 | PCC | SCC | RMSE | MOS |
类别A | 0.972 | 0.986 | 0.102 | 3.945 |
类别B | 0.953 | 0.951 | 0.087 | 3.818 |
类别C | 0.901 | 0.865 | 0.274 | 4.124 |
类别D | 0.961 | 0.969 | 0.177 | 4.041 |
未聚类时所有序列 | 0.672 | 0.753 | 1.174 | 4.002 |
以上所述仅是本发明的优选实施方式,本发明的保护范围不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范畴。应当指出,对于本技术领域的技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也都应视为本发明的保护范围。
Claims (4)
1.一种基于视频内容及聚类分析的压缩码率预测方法,其特征在于包括如下步骤:
S1:对视频的每一帧做sobel滤波,得到空间信息SI;对相邻两帧的亮度信息做差值,得到时间信息TI;
S2:对S1得到的空间信息SI及时间信息TI,利用k-means方法做聚类分析,得到多个类;
S3:在S2的每一个类上,做系数回归,得到压缩码率预测模型,并利用该模型预测压缩码率;
所述S3:在S2完成聚类分析后,在每一个聚拢的类上,将S1中计算的空间信息SI及时间信息TI带入以下压缩码率预测模型中,对应不同的视频的序列,带入不同的视频主观质量评测MOS分值,得到压缩码率的预测值,实现对特定质量要求下视频压缩所需码率的预测:
vc=TI·SI (2)
α(vc)=c1+c2·log(vc) (3)
γ(vc)=c4+c5·log(vc) (5)
其中,c1到c6为模型参数,α、β、γ只是中间参数,MOS表示视频主观测试分值,采取ITU-RBT-500文件中的DSI Variant II方法,并且采用了5分制的原则,即:1分表示质量非常差,2分表示质量较差,3分表示质量一般,4分表示质量较好,5分表示质量非常好;TI及SI分别代表时间信息及空间信息;vc代表的是视频内容,由SI及TI确定,BRp则表示的是预测的压缩码率。
2.根据权利要求1所述的基于视频内容及聚类分析的压缩码率预测方法,其特征在于:所述S1:对于原视频序列的第n帧图像,用下列两个公式分别进行处理,从而得 到空间信息SI及时间信息TI:
SI=maxtime{stdspace[Sobel(Fn)]}
TI=maxtime{stdspace[Fn(i,j)–Fn-1(i,j)]}
其中Fn是当前帧的亮度信息,Sobel表示经典图像处理中的Sobel算子,stdspace表示对该帧内的经过Sobel计算得到的结果求标准差,maxtime表示对所有帧经过标准差计算得到的结果取最大值。
3.根据权利要求1所述的基于视频内容及聚类分析的压缩码率预测方法,其特征在于:所述S2:取S1中的空间信息SI及时间信息TI结果,带入K-means算法中做聚类分析,采用欧式距离的平方作为计算聚类的距离指标,同时,采用K-means聚类分析中的silhouette值作为聚类结果分析指标,通过分析该silhouette值,确定最终的聚类个数,最后,将具有相似空间信息SI及时间信息TI特征的视频聚拢为一类。
4.根据权利要求1-3任一项所述的基于视频内容及聚类分析的压缩码率预测方法,其特征在于:所述模型参数c1,c2,c3,c4,c5,c6通过以下方法确定:在保证实际应用中的编码器类型、视频分辨率和帧率与主观视频质量评价材料一致情况下,运用主观质量评价结果对提出的数学模型进行最小二乘回归计算,求出针对特定应用的模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610378960.0A CN105959685B (zh) | 2016-05-31 | 2016-05-31 | 一种基于视频内容及聚类分析的压缩码率预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610378960.0A CN105959685B (zh) | 2016-05-31 | 2016-05-31 | 一种基于视频内容及聚类分析的压缩码率预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105959685A CN105959685A (zh) | 2016-09-21 |
CN105959685B true CN105959685B (zh) | 2018-01-19 |
Family
ID=56907484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610378960.0A Active CN105959685B (zh) | 2016-05-31 | 2016-05-31 | 一种基于视频内容及聚类分析的压缩码率预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105959685B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111447446B (zh) * | 2020-05-15 | 2022-08-23 | 西北民族大学 | 一种基于人眼视觉区域重要性分析的hevc码率控制方法 |
CN112861852A (zh) * | 2021-01-19 | 2021-05-28 | 北京金山云网络技术有限公司 | 样本数据筛选方法、装置、电子设备及存储介质 |
CN113038142B (zh) * | 2021-03-25 | 2022-11-01 | 北京金山云网络技术有限公司 | 视频数据的筛选方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101715097A (zh) * | 2008-09-29 | 2010-05-26 | 索尼株式会社 | 图像处理设备和系数学习设备 |
CN101742355A (zh) * | 2009-12-24 | 2010-06-16 | 厦门大学 | 基于空时域特征提取的无线视频部分参考测评方法 |
CN102118803A (zh) * | 2011-04-14 | 2011-07-06 | 北京邮电大学 | 一种基于QoE预测的移动通信***视频跨层调度方法 |
CN103780901A (zh) * | 2014-01-22 | 2014-05-07 | 上海交通大学 | 基于视频空间和时间信息的视频质量及压缩码率估计方法 |
-
2016
- 2016-05-31 CN CN201610378960.0A patent/CN105959685B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101715097A (zh) * | 2008-09-29 | 2010-05-26 | 索尼株式会社 | 图像处理设备和系数学习设备 |
CN101742355A (zh) * | 2009-12-24 | 2010-06-16 | 厦门大学 | 基于空时域特征提取的无线视频部分参考测评方法 |
CN102118803A (zh) * | 2011-04-14 | 2011-07-06 | 北京邮电大学 | 一种基于QoE预测的移动通信***视频跨层调度方法 |
CN103780901A (zh) * | 2014-01-22 | 2014-05-07 | 上海交通大学 | 基于视频空间和时间信息的视频质量及压缩码率估计方法 |
Non-Patent Citations (2)
Title |
---|
Optimized spatial and temporal resolution based on subjective quality estimation without encoding;Motohiro Takagi, Hiroshi Fujii, Atsushi Shimizu;《Visual Communications and Image Processing Conference, 2014 IEEE》;20150302;第33-36页 * |
基于神经网络的IPTV视频质量评估模型;李蕊;《中国优秀硕士学位论文全文数据库-信息科技辑》;20130315;I136-952 * |
Also Published As
Publication number | Publication date |
---|---|
CN105959685A (zh) | 2016-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Perceptual quality assessment of screen content images | |
CN102611910B (zh) | 基于关键帧图像质量加权的无参考视频质量客观评价方法 | |
Jin et al. | CNN oriented fast QTBT partition algorithm for JVET intra coding | |
Ma et al. | Reduced-reference image quality assessment in reorganized DCT domain | |
CN109286825A (zh) | 用于处理视频的方法和装置 | |
Temel et al. | Perceptual image quality assessment through spectral analysis of error representations | |
CN109657600B (zh) | 一种视频区域移除篡改检测方法和装置 | |
CN107046639B (zh) | 基于内容的hevc码流质量预测模型 | |
CN103313047B (zh) | 一种视频编码方法及装置 | |
Zuo et al. | Screen content image quality assessment via convolutional neural network | |
CN108280480B (zh) | 一种基于残差共生概率的隐写图像载体安全性评价方法 | |
Aqqa et al. | Understanding How Video Quality Affects Object Detection Algorithms. | |
CN105959685B (zh) | 一种基于视频内容及聚类分析的压缩码率预测方法 | |
CN105049851A (zh) | 基于色彩感知的通用无参考图像质量评价方法 | |
Gu et al. | Learning a unified blind image quality metric via on-line and off-line big training instances | |
CN106375754B (zh) | 基于视觉刺激衰减特性的无参考视频质量评估方法 | |
Rezaie et al. | No-reference image quality assessment using local binary pattern in the wavelet domain | |
CN101426148A (zh) | 一种视频客观质量评价方法 | |
CN108513132A (zh) | 一种视频质量评价方法及装置 | |
CN103413336A (zh) | 一种网格非对齐双重jpeg压缩的检测方法和装置 | |
Chang et al. | Image Quality Evaluation Based on Gradient, Visual Saliency, and Color Information | |
Yang et al. | Subjective quality evaluation of compressed digital compound images | |
Gao et al. | Modeling image quality score distribution using alpha stable model | |
Wang et al. | Spatio-temporal ssim index for video quality assessment | |
CN115052146A (zh) | 一种基于分类的内容自适应下采样视频编码优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |