CN105991995A

CN105991995A - 基于3d-dct域统计分析的无参考视频质量评价方法

Info

Publication number: CN105991995A
Application number: CN201510080147.0A
Authority: CN
Inventors: 李学龙; 卢孝强; 郭群
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2015-02-13
Filing date: 2015-02-13
Publication date: 2016-10-05
Anticipated expiration: 2035-02-13
Also published as: CN105991995B

Abstract

本发明公开了一种基于3D-DCT域统计分析的无参考视频质量评价方法，主要解决现有方法中应用失真类型有限，对视频的空-时信息利用不足的局限。其实现步骤是：(1)对数据集所有视频进行局部3D-DCT计算；(2)根据3D-DCT系数，提取反映不同统计特性的特征；(3)对特征进行合并得视频总体特征；(4)将数据集分为训练集和测试集，训练集用于训练特征到真实质量分数之间的回归映射模型，再将学习到的回归模型预测测试视频的质量分数。统计预测结果与真实分数之间相关性，作为质量评价的性能指标。本发明与现有方法相比，不需要额外的运动估计，仅需对3D-DCT域统计分析，实现了同时捕获视频的空-时统计特性，提高了客观质量预测与主观评价的一致性。

Description

基于3D-DCT域统计分析的无参考视频质量评价方法

技术领域

本发明属于图像/视频处理技术领域，特别涉及视频质量评价方法，可用于多媒体信息处理、影视创作等领域。

背景技术

随着多媒体与网络传输技术的快速发展，海量的视频信号在用户端和视频服务商间产生、传输、存储和显示，并用于不同的应用中，如网络电视、视频监控、视频会议等。然而由于压缩损失、传输信道带宽等因素的限制，原始的视频会不可避免的引入一些失真或丢失部分信息，造成视频质量的下降。为了将用户端视频质量维持在可接受的范围内，提高用户的体验质量，设计准确的视频质量评价算法是非常必要且重要的。客观的质量评价方法目的在于在无人类观察者参与的情况下自动评价视频的视觉质量。根据评价过程中有无参考视频参与，可将客观评价方法分为三类：有参考、半参考和无参考。其中无参考视频质量评价是应用最为广泛、最具挑战的一类工作，也是本发明要探索的问题。目前无参考视频质量评价方法面临的挑战主要有以下三点。1)参考视频信息的缺失使得无法从相似度或保真度的角度定义质量；2)视频的时空复杂度高。难以提取质量相关的反映视频时空特性的特征；3)对人类视觉***理解有限，提取特征与主观视觉质量之间的映射关系难以建模。

目前，无参考的视频质量评价方法主要分为两类：

一是针对特定视频类型的评价方法。这种方法是研究特定失真如压缩、传输误差失真等的特性以及其与视频视觉质量的映射关系，从而对这类失真视频质量进行评价。如Zhang等人在文献“F.Zhang,W.Lin,Z.Chen,and K.N.Ngan.Additive log-logistic model for networkedvideo quality assessment.IEEE Transactions on Image Processing,22(4):1536-1547,2013.”中提出的针对数据库IPTV(Internet ProtocolTelevision)的质量评价方法。该方法首先提取了反映视频压缩、贴片和冻结严重程度的特征，并提出了ALM(Additive log-logisticmodel)模型建模多维特征与主观评价之间的非线性关系。通过经典的统计推理可以选择特征并估计模型参量。

该类方法存在的不足之处是，只能应用到特定失真类型的视频，同时提取特征的过程中需要利用视频的编码和信道信息如量化参量、丢包率等，而在大多数应用中，这些信息是无法获得的。

二是通用的视频质量评价方法。目前已存在这类方法是基于对NVS(natural video statistics)的研究，这类方法认为自然(无失真)场景视频存在NVS,而视频质量的下降会使其偏离NVS模型,从而通过度量失真视频与NVS之间的距离评价视频质量。此外人类视觉***普遍被认为是根据自然环境进行进化，因此NVS一定程度上也反映了人类感知特性。最近Saad等人在文献“M.A.Saad,A.C.Bovik,C.Charrier.Blind prediction of natural video quality.IEEE Transactionson Image Processing,23(3):1352-1365,2014.”中提出了一种基于NVS模型的方法。该方法中通过帧间差的2维DCT变换获取局部的空间和时间频域信息，通过广义高斯模型对频域系数建模，并以低中高频模型参量比作为NVS模型特征。另外该方法还提出了对视频运动相干性的度量以反映相干运动对失真的掩蔽特性。

该方法存在的不足之处是，帧间差的方法只能捕获连续两帧之间的变化，而无法反映持续短时的时间频域信息。另外相干运动的度量需要对首先对视频进行运动估计，使得算法运行更加耗时。

发明内容

本发明的目的在于针对上述现有方法的不足，提出一种适应各种类型的无参考视频、适用于短时间频域信息的基于3D-DCT域统计分析的通用型无参考视频质量评价方法。

本发明的具体技术方案包括如下步骤：

一种基于3D-DCT域统计分析的无参考视频质量评价方法，其特征在于，包括以下步骤：

1)对视频质量评估数据库中的每个视频进行3D-DCT计算，获取反映视频时空频域信息的一维向量形式的交流系数；

2)利用步骤1)一维向量形式的交流系数，提取每个视频中每M×N个时空立方体的时空统计特征；所述视频中每M×N个时空立方体的时空统计特征包括基本谱特征、能量波动特征、形状参量特征以及分布变化特征；

2.1)提取视频3D-DCT域的基本谱特征；

2.1.1)利用无符号交流系数的均值和方差度量之比获得K个交流频率的基本谱特征，所述无符号交流系数为交流系数的绝对值；

2.1.2)将所有K个交流频率的基本谱特征连接一起构成特征f₁＝[s₁,s₂…,s_K]^T；

2.2)提取描述视频3D-DCT域能量波动特征；所述视频3D-DCT域能量波动特性包括平均谱能量和熵度量；

2.2.1)计算平均谱能量和熵度量，具体计算公式分别为：

r_{k} = \frac{1}{NM} Σ_{m = 1}^{m = M} Σ_{n = 1}^{n = N} \log_{2} {[C_{k} (m, n)]}^{2},

e_{k} = - Σ_{i = 1}^{i = N_{b}} p_{i} (| C_{k} |) \log_{2} (p_{i} (| C_{k} |)),

其中，r_k为第k个交流频率上的平均谱能量，e_k为第k个交流频率上的熵度量，p_i(|C_k|)为第k个交流频率上无符号交流系数落在第i箱内的概率，N_b为总的箱数；

2.2.2)将所有K个交流频率对应的平均谱能量和熵度量分别连接一起构成特征f₂＝[r₁,r₂…,r_K]^T和f₃＝[e₁,e₂…,e_K]^T；

2.3)提取描述视频3D-DCT域形状参量特征；

2.3.1)统计各交流频率上交流系数的概率分布，并利用广义高斯分布对每个交流频率上交流系数的概率分布进行拟合，获取每个交流频率上分布的形状参量；

2.3.2)将所有K个交流频率上分布的形状参量连接一起构成对应的特征f₄＝[γ₁,γ₂…,γ_K]^T；

2.4)提取视频3D-DCT域分布变化特征；

2.4.1)计算每个交流频率上交流系数分布与所有K个交流频率上交流系数的平均分布之间的city-block距离从而度量两者之间的距离，计算公式如下：

d_{k} = Σ_{i = 1}^{i = N_{b}} | p_{i} (| C_{k} |) - {mp}_{i} |

其中，d_k为第k个交流频率上交流系数分布与所有K个交流频率上交流系数的平均分布之间的距离度量，为所有K个交流频率上交流系数的平均分布，p_i(|C_k|)为第k个交流频率上无符号交流系数落在第i箱内的概率；

2.4.2)将所有K个交流频率上计算得到的距离度量连接组成特征f₅＝[d₁,d₂…,d_K]；

3)由步骤2)中获取视频中M×N个时空立方体的时空统计特征，对时空统计特征在时间轴上进行平均合并后再实施PCA降维，获取质量评价特征；

4)在视频质量评价数据库中训练回归模型，进行测试，计算预测结果与真实质量分数的相关系数；

4.1)将视频质量评价数据库中视频分为两部分：一部分视频作为训练集，其余视频作为测试集；其中，训练集中的视频和测试集中的视频在内容上完全无重叠；

训练集中视频数量为P，训练集提取到的质量评价特征表示为训练集真实质量分数为y^train∈R^P；利用训练集训练回归模型；

4.2)设测试集中视频数量为Q，测试集提取到的质量评价特征表示测试集真实质量分数为y^test∈R^Q，将测试集X^test输入训练好的回归模型，得到测试集中视频的预测分数y^predict∈R^Q；

4.3)通过皮尔斯线性相关系数以及斯皮尔曼等级相关系数计算测试集中视频的预测分数y^predict与真实质量分数y^test之间的相关性：

4.4)重复步骤4.1)至步骤4.3)，对视频质量评估数据库中的所有视频进行相关系数的计算，实现评估。

上述步骤1)的具体步骤是：

1.1)将视频质量评估数据库中的每个视频分为大小为n×n×n的的时空立方体，各个时空立方体空间上重叠两个像素，时间维上无重叠；所述每个视频的时间立方体有M×N×T个；其中M、N、T分别表示视频横轴，纵轴和时间轴上对应的时空立方体数量；

1.2)对M×N×T个时空立方体进行3D-DCT计算，得到M×N×T个3D-DCT域系数块；每个3D-DCT域系数块包含1个直流系数以及K个交流系数；

其中，在一个3D-DCT域系数块中，每个交流系数对应一个交流频率；在每一视频中，一个交流频率对应M×N×T个交流系数；

1.3)将3D-DCT域系数块利用Matlab中reshape函数转换为一维向量形式，C_k(m,n)表示第m行第n列3D-DCT域系数块转换为一维向量形式后的第k个交流系数；

上述步骤3)的具体步骤是：

3.1)对步骤2)中提取的每种特征在时间维上进行平均合并，得到视频质量评估数据库中所有视频的全局统计特征

3.2)对步骤3.1)中的五种全局特征实施PCA降维；最终可以得到用于质量评价的特征，其表达式为：

x = [PCA ({\overset{&OverBar;}{f}}_{1}); PCA ({\overset{&OverBar;}{f}}_{2}); PCA ({\overset{&OverBar;}{f}}_{3}); PCA ({\overset{&OverBar;}{f}}_{4}); PCA ({\overset{&OverBar;}{f}}_{5})], x &Element; R^{d};

其中，x∈R^d表示x为d维实数空间中的向量。

本发明的优点在于：

1、本发明由于利用3D-DCT将视频变换到三维频域空间，变换系数能够同时捕获视频的局部空间和时间频域信息。

2、同时提取的四种简单的特征有效地反映了视频在不同方面的时空统计特性，这些特征与视频的视觉质量是密切相关的由这些特征回归得到预测分数与真实分数有较高的一致性，从而显示无参考视频的评估。

附图说明

图1为本发明中基于3D-DCT域统计分析的无参考视频质量评价方法中的流程图。

图2为本发明方法在LIVE数据库上得到的预测质量分数对真实主观质量分数的散点图。

具体实施方式

参照图1，本发明实现的步骤如下：

步骤1)对视频质量评估数据库中的每个视频进行3D-DCT计算，该视频数据库出自于文献“K.Seshadrinathan,R.Soundararajan,A.C.Bovik,and L.K.Cormack.Study of subjective and objective qualityassessment of video.IEEE transaction on Image Processing,19(6):1427–1441,2010”，获取反映视频时空频域信息的一维向量形式的交流系数；

具体步骤是：

步骤1.1)将视频质量评估数据库中的每个视频分为大小为n×n×n的的时空立方体，各个时空立方体空间上重叠两个像素，时间维上无重叠；所述每个视频的时空立方体有M×N×T个,其中M、N、T分别表示视频横轴，纵轴和时间轴上对应的时空立方体数量；

步骤1.2)对每个时空立方块进行3D-DCT计算，得到M×N×T个3D-DCT域系数块，每个3D-DCT域系数块包含1个直流系数以及K个交流系数；

例如：对于一个3D信号其3D-DCT计算公式如下：

C (u, v, w) = Σ_{x = 0}^{N_{1} - 1} Σ_{y = 0}^{N_{2} - 1} Σ_{z = 0}^{N_{3} - 1} A (x, y, z) f_{1} (x, u) f_{2} (y, v) f_{3} (z, w),

其中A(x,y,z)为要进行变换的三维信号,C(u,v,w)为变换后的频域系数，x＝0,1,…,N₁-1,y＝0,1,…,N₂-1,z＝0,1,…,N₃-1为三维信号的时空坐标索引，u＝0,1,…,N₁-1,v＝0,1,…,N₂-1,w＝0,1,…,N₃-1为三维变换空间频率索引，

f_{i} (x, u) = \{\begin{matrix} \frac{1}{\sqrt{N_{i}}} & if u = 0; \\ \sqrt{\frac{2}{N_{i}}} \cos [\frac{π (2 x + 1) u}{{2 N}_{i}}] & otherwise; \end{matrix}

其中，i＝1,2,3；

步骤1.3)将3D-DCT域系数块利用Matlab中reshape函数转换为一维向量形式，C_k(m,n)表示第m行第n列3D-DCT域系数块转换为一维向量形式后的第k个交流系数；

步骤2)提取视频中M×N个时空立方体的时空统计特征；实验观察得到无失真视频和失真视频3D-DCT系数统计差异主要体现在幅值、方差、尖峰拖尾程度以及各频率分布之间的相似程度；本发明从这几方面出发提出了以下几种与质量较为相关的特征；

步骤2.1)提取视频3D-DCT域的基本谱特征。

本发明利用视频局部(M×N个时空立方体)无符号交流系数，(即各交流系数的绝对值)的均值μ(|C_k|)和方差σ(|C_k|)度量K个交流频率上的谱幅值和对比度。考虑到视觉感知中存在的对比度增益控制，本发明利用对比度标准化的幅值描述各交流频率上的基本谱特性：

s_{k} = \frac{μ (| C_{k} |)}{σ (| C_{k} |)}

将所有K个交流频率的s_k连接一起构成特征f₁＝[s₁,s₂…,s_K]^T。

步骤2.2)提取描述视频3D-DCT域能量波动特性的特征。

本发明利用平均谱能量和熵度量表示视频3D-DCT域能量；平均谱能量和熵度量的具体计算公式分别为：

r_{k} = \frac{1}{NM} Σ_{m = 1}^{m = M} Σ_{n = 1}^{n = N} \log_{2} {[C_{k} (m, n)]}^{2};

e_{k} = - Σ_{i = 1}^{i = N_{b}} p_{i} (| C_{k} |) \log_{2} (p_{i} (| C_{k} |));

其中，r_k为第k个交流频率上的平均谱能量，e_k为第k个交流频率上的熵度量，p_i(|C_k|)为第k个交流频率上无符号交流系数落在第i箱内的概率，N_b为总的箱数，本发明中N_b＝128；

将所有K个交流频率对应的r_k和e_k分别连接一起构成特征和f₃＝[e₁,e₂…,e_K]^T描述能量在不同频率上的波动。

步骤2.3)提取描述视频3D-DCT域形状参量特征，统计各交流频率上交流系数概率分布，并利用广义高斯分布对概率分布进行拟合。广义高斯分布是一种指数族分布函数，能够有效建模有峰且长拖尾的分布。广义高斯分布的公式如下：

f(x|α,β,γ)＝αexp(-(β|x-μ|^γ))

其中x为随机变量，α,β,γ分别为概率分布模型的尺度，均值和形状参量。形状参量是该分布中最重要的参量，用于决定概率分布衰减率，从而影响分布的尖峰和拖尾程度。本发明利用文献“K.Sharifi,A.Leon-Garcia.Estimation of shape parameter for generalized Gaussiandistributions in subband decompositions of video.IEEE Transactions onCircuits and Systems for Video Technology,5(1):52-56,1995.”中提出的方法估计各频率分布的形状参量并得到对应特征f₄＝[γ₁,γ₂…,γ_K]^T。

步骤2.4)提取视频3D-DCT域分布变化特征。本发明计算各交流频率上交流系数分布与所有K个交流频率上交流系数的平均分布之间的city-block距离度量两者之间的距离，计算公式如下:

d_{k} = Σ_{i = 1}^{i = N_{b}} | p_{i} (| C_{k} |) - {mp}_{i} |

其中，d_k为第k个交流频率上交流系数分布与所有K个交流频率上交流系数的平均分布之间的距离度量，为所有K个交流频率上交流系数的平均分布，p_i(|C_k|)为第k个交流频率上无符号交流系数落在第i箱内的概率，N_b为总的箱数。所有K个交流频率上的距离度量连接组成特征f₅＝[d₁,d₂…,d_K]描述频域的分布变化。

步骤3)对步骤2)中的视频局部(M×N个时空立方体)时空统计特征进行时间合并得到反映视频全局统计特性的特征，并利用主成分分析对各特征分别降维，得到最终用于质量预测的全局特征；

具体步骤是：

步骤3.1)对步骤2)中提取的每种特征在时间维上进行平均合并，得到视频的全局统计特征

步骤3.2)对步骤3.1)中的五种全局特征实施PCA降维；利用表示对降维后的结果。对于每个视频，最终可以得到质量评价特征

x = [PCA ({\overset{&OverBar;}{f}}_{1}); PCA ({\overset{&OverBar;}{f}}_{2}); PCA ({\overset{&OverBar;}{f}}_{3}); PCA ({\overset{&OverBar;}{f}}_{4}); PCA ({\overset{&OverBar;}{f}}_{5})], x &Element; R^{d};

其中，x∈R^d表示x为d维实数空间中的向量。

步骤4)在视频质量评价数据库中训练回归模型，进行测试，计算预测分数与真实质量分数的相关系数；

步骤4.1)将数据库中视频分为两部分：一部分(80％)的视频作为训练集，另一部分(20％)的视频作为测试集。训练集的视频和测试集的视频在内容上完全无重叠。

训练集中视频数量为P，训练集提取到的质量评价特征表示为

X^{train} = [x_{1}^{train}, x_{2}^{train} \cdot \cdot \cdot x_{p}^{train}], X^{train} &Element; R^{d \times P},

训练集真实质量分数为y^train∈R^P；利用训练集训练回归(ε-SVR)模型；

步骤4.2)设测试集中视频数量为Q，测试集提取到的质量评价特征表示为测试集视频的真实质量分数为y^test∈R^Q，将测试集X^test输入训练好的回归模型(ε-SVR)，得到测试视频的预测分数y^predict∈R^Q；

步骤4.3)通过皮尔斯线性相关系数(PLCC)以及斯皮尔曼等级相关系数(SROCC)计算测试集中视频的预测分数y^predict与视频质量评价数据库中真实质量分数y^test之间的相关性；

步骤4.4)重复步骤步骤4.1)至步骤4.3)，对视频质量评估数据库中的所有视频进行相关系数的计算，实现评估。

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件

本发明是在中央处理器为Intel(R)Core i3-21303.4GHZ、内存16G、WINDOWS 8操作***上，运用MATLAB软件进行的仿真。

实验中数据库为德州大学图像与视频工程实验室发布的LIVE视频质量评价数据集。

2.仿真内容

按如下步骤用本发明方法进行视频质量评价：

首先，依照上述具体实施方式中的步骤1，2，3提取视频的特征；

其次，将提取的特征输入SVR回归模型，得到预测的质量分数。计算与真实分数之间的SROCC和PLCC。统计多次迭代测试后两种性能指标的中值表示算法总体性能。将本发明方法与经典的有参考评价算法PSNR和SSIM，以及最新的无参考通用型方法V-BLIINDS进行比较，结果如表1所示。

表1总体SROCC和PLCC比较

从表1可见，在没有原始无失真视频的作参考的情况下，本发明的评价结果与真实主观评价之间的相关性依然高于经典的有参考算法，同时也优与现有的最新无参考方法V-BLIINDS。这是因为本发明对3D-DCT域的统计信息进行分析，这种方式能同时获取视频的空-时信息。同时提取不同的特征有效地描述了视频在三维变换域不同方面的统计信息，因此获得了更好的预测结果。

图2为本发明方法在LIVE数据库上得到的预测质量分数对真实主观质量分数的散点图。由图2可见，预测分数与真实分数间有很明显的线性关系，进一步验证了本发明的先进性。

Claims

1.一种基于3D-DCT域统计分析的无参考视频质量评价方法，其特征在于，包括以下步骤：

2.1)提取视频3D-DCT域的基本谱特征；

2.2.1)计算平均谱能量和熵度量，具体计算公式分别为：

r_{k} = \frac{1}{NM} Σ_{m = 1}^{m - M} Σ_{n = 1}^{n - N} \log_{2} {[C_{k} (m, n)]}^{2},

e_{k} = - Σ_{i = 1}^{i = N_{b}} p_{i} (| C_{k} |) \log_{2} (p_{i} (| C_{k} |)),

2.3)提取描述视频3D-DCT域形状参量特征；

2.4)提取视频3D-DCT域分布变化特征；

d_{k} = Σ_{i = 1}^{i = N_{b}} | p_{i} (| C_{k} |) - {mp}_{i} |

训练集中视频数量为P，训练集提取到的质量评价特征表示为X^train∈R^d×P训练集真实质量分数为y^train∈R^P；利用训练集训练回归模型；

4.2)设测试集中视频数量为Q，测试集提取到的质量评价特征表示X^test∈R^d×Q，测试集真实质量分数为y^test∈R^Q，将测试集X^test输入训练好的回归模型，得到测试集中视频的预测分数y^predict∈R^Q；

2.根据权利要求1所述的基于3D-DCT域统计分析的无参考视频质量评价方法，其特征在于：所述步骤1)的具体步骤是：

1.3)将3D-DCT域系数块利用Matlab中reshape函数转换为一维向量形式，C_k(m,n)表示第m行第n列3D-DCT域系数块转换为一维向量形式后的第k个交流系数。

3.根据权利要求1所述的基于3D-DCT域统计分析的无参考视频质量评价方法，其特征在于：所述步骤3)的具体步骤是：

x = [PCA ({\overset{&OverBar;}{f}}_{1}); PCA ({\overset{&OverBar;}{f}}_{2}); PCA ({\overset{&OverBar;}{f}}_{3}); PCA ({\overset{&OverBar;}{f}}_{4}); PCA ({\overset{&OverBar;}{f}}_{5})], x &Element; R^{d};

其中，x∈R^d表示x为d维实数空间中的向量。