CN109905694B

CN109905694B - 一种立体视频的质量评价方法、装置和设备

Info

Publication number: CN109905694B
Application number: CN201711297034.1A
Authority: CN
Inventors: 尤安通; 方华; 陈民; 张聪
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2020-09-08
Anticipated expiration: 2037-12-08
Also published as: CN109905694A

Abstract

本发明公开了一种立体视频的质量评价方法、装置和设备，所述方法包括：针对输入的原始立体视频序列中的每一视频帧，将该视频帧划分成若干个图像块，并分别确定各个图像块的运动特征和底层特征，针对任一图像块，确定该图像块的运动特征和底层特征分别能够引起视觉注意的视觉关注度；根据所述运动特征的视觉关注度和所述底层特征的视觉关注度，确定该图像块的视觉关注度权重值；根据该视频帧与失真处理后的视频帧的相似度和该视频帧包含的图像块的视觉关注度权重值，确定该视频帧的客观质量得分；基于所述原始立体视频序列中各个左、右视频帧的客观质量得分，确定所述原始立体视频序列的客观质量得分，由此得到准确度更高的评价结果。

Description

一种立体视频的质量评价方法、装置和设备

技术领域

本发明涉及数字图像处理技术领域，尤其涉及一种立体视频的质量评价方法、装置和设备。

背景技术

视频质量评价技术要解决的问题是如何使用客观算法更好地模拟人眼对受损视频质量的主观感受，以减少主观实验所耗费得大量人力物力。视频质量评价技术在实际中具有比较广泛的应用场景：例如，及时监测和分析视频质量状况；作为视频编码模型优化的参考；对立体视频编解码和处理***的性能进行评估和比较等。

目前，绝大多数立体视频质量评价算法都是在传统的视频质量评价客观算法的基础上，考虑立体视频的多种底层特征信息改进而成的，如在PSNR算法(Peak Signal toNoise Ratio，峰值信噪比)或SSIM算法(structural similarity，结构相似性)的基础上结合底层特征对立体视频进行质量评价。例如，通过提取立体视频的深度特征、亮度特征等，通过多元非线性回归分析建立数学模型，在结构相似性算法的基础上实现了双目立体视频质量评价客观算法。

但现有的立体视频质量评价客观算法，大多是从提取底层特征角度出发改进传统算法，没有考虑到立体视频在拍摄时与传统的2D视频的不同之处，导致评价结果与人眼的实际感受仍存在一定的差距，评价结果的准确性较低。

因此，如何提高双目立体视频的质量评价结果的准确性是亟待解决的技术问题之一。

发明内容

本发明实施例提供一种立体视频的质量评价方法、装置和设备，用以解决现有技术采用的评价方法来评价双目立体视频的质量的评价结果的准确性较低的问题。

第一方面，本发明实施例提供一种立体视频的质量评价方法，包括：

针对输入的原始立体视频序列中的每一视频帧，将该视频帧划分成若干个图像块，并分别确定各个图像块的运动特征和底层特征，所述视频帧包含左视频帧和右视频帧；以及

针对任一图像块，确定该图像块的运动特征和底层特征分别能够引起视觉注意的视觉关注度；

根据所述运动特征的视觉关注度和所述底层特征的视觉关注度，确定该图像块的视觉关注度权重值；

根据该视频帧与失真处理后的视频帧的相似度和该视频帧包含的图像块的视觉关注度权重值，确定该视频帧的客观质量得分；

基于所述原始立体视频序列中各个左、右视频帧的客观质量得分，确定所述原始立体视频序列的客观质量得分。

第二方面，本发明实施例提供一种立体视频的质量评价装置，包括：

处理单元，用于针对输入的原始立体视频序列中的每一视频帧，将该视频帧划分成若干个图像块，并分别确定各个图像块的运动特征和底层特征，所述视频帧包含左视频帧和右视频帧；

第一确定单元，用于针对任一图像块，确定该图像块的运动特征和底层特征分别能够引起视觉注意的视觉关注度；

第二确定单元，用于根据所述运动特征的视觉关注度和所述底层特征的视觉关注度，确定该图像块的视觉关注度权重值；

第三确定单元，用于根据该视频帧与失真处理后的视频帧的相似度和该视频帧包含的图像块的视觉关注度权重值，确定该视频帧的客观质量得分；

第四确定单元，用于基于所述原始立体视频序列中各个左、右视频帧的客观质量得分，确定所述原始立体视频序列的客观质量得分。

第三方面，本发明实施例提供一种通信设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述程序时实现如本申请提供的任一项所述的立体视频的质量评价方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请提供的任一项所述的立体视频的质量评价方法中的步骤。

本发明有益效果：

本发明实施例提供的立体视频的质量评价方法、装置和设备，针对输入的原始立体视频序列中的每一视频帧，将该视频帧划分成若干个图像块，并分别确定各个图像块的运动特征和底层特征，所述视频帧包含左视频帧和右视频帧；以及针对任一图像块，确定该图像块的运动特征和底层特征分别能够引起视觉注意的视觉关注度；根据所述运动特征的视觉关注度和所述底层特征的视觉关注度，确定该图像块的视觉关注度权重值；根据该视频帧与失真处理后的视频帧的相似度和该视频帧包含的图像块的视觉关注度权重值，确定该视频帧的客观质量得分；基于所述原始立体视频序列中各个左、右视频帧的客观质量得分，确定所述原始立体视频序列的客观质量得分。采用上述方法，通过将立体视频的运动特征和底层特征相结合来评价立体视频的质量，更加符合人眼在观看立体视频时的主观体验，由此得到的评价结果更加准确。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一提供的立体视频的质量评价方法的流程示意图；

图2a为本发明实施例一提供的确定该图像块的校正深度值的流程示意图；

图2b为本发明实施例一提供的视频帧中各个图像块的深度值构成的原始深度图；

图2c为本发明实施例一提供的视频帧中各个图形块的运动特征对各个图像块的深度值进行校正得到的校正深度图；

图3a为本发明实施例一提供的针对任一图像块，来确定该图像块的底层特征能够引起视觉注意的视觉关注度的流程示意图；

图3b为本发明实施例一提供的人眼视觉注意机制的一个样本图；

图3c为本发明实施例一提供的人眼视觉注意机制的另一个样本图；

图4为本发明实施例一提供的确定该视频帧中、基于底层特征的视觉不确定度的流程示意图；

图5为本发明实施例一提供的确定所述原始立体视频序列的客观质量得分的流程示意图；

图6为本发明实施例二提供的立体视频的质量评价装置的结构示意图。

具体实施方式

本发明实施例提供的立体视频的质量评价方法、装置和设备，用以解决现有技术采用的评价方法来评价双目立体视频的质量的评价结果的准确性较低的问题。

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，为本发明实施例一提供的立体视频的质量评价方法的流程示意图，包括以下步骤：

S11、针对输入的原始立体视频序列中的每一视频帧，将该视频帧划分成若干个图像块，并分别确定各个图像块的运动特征和底层特征。

具体实施时，可以根据预先设置的划分规则，将输入的原始立体视频序列中的每一视频帧划分成若干个图像块。例如可以划分成16*8、8*8等图像块。

在将视频帧划分图像块后，针对该视频帧中的任一图像块，可以按照六边形搜索法得到该图像块的运动特征，所述运动特征为用于表征该图像块运动快慢的物理量。视频图像中，相邻视频帧之间的变化是由构成景物的各种物体的运动引起的，可以基于图像块中的物体，利用相邻视频帧中该物体在前一视频帧中的位置与该物体在当前视频帧中的位置来确定该图像块的运动特征。确定出的运动特征具有运动大小和运动方向，其中运动大小包括水平运动大小和垂直运动大小，由此可以确定出该图像块的运动特征的模值。

较佳地，所述视频帧包含左视频帧和右视频帧，故可以分别确定左视频帧的包含的各个图像块的运动特征和底层特征，以及确定右视频帧包含的各个图像块的运动特征和底层特征。

S12、针对任一图像块，确定该图像块的运动特征和底层特征分别能够引起视觉注意的视觉关注度。

具体实施时，基于确定出的图像块的运动特征，以及人眼的中央凹视觉特性来确定运动特征能够引起视觉注意的视觉关注度；同时，为了细化人眼对不同特征区域的视觉感知特性，还需要基于图像块的底层特征，来确定底层特征能够引起视觉注意的视觉关注度。

具体地，所述运动特征用于指示图像块的运动快慢；以及针对任一图像块，可以按照公式(1)来确定该图像块的运动特征能够引起视觉注意的视觉关注度：

其中，VA_scene(x,y)为第x行第y列对应的图像块的运动特征能够引起视觉注意的视觉关注度；

MV(x,y)为第x行第y列对应的图像块的运动特征的模值大小；

d'为第x行第y列对应的图像块的校正深度值；

α,β,γ为拟合参数。

具体实施时，例如将视频帧划分成M*N个图像块，则可以认为该视频帧被划分成M行N列，故公式(1)中的x表示该视频帧中第x行；y表示该视频帧中第y列，(x,y)表示该视频帧中第x行第y列对应的图像块。该图像块的运动特征具有运动大小，如该运动大小包括水平方向运动大小a和垂直方向运动大小b，则可以将

确定为该图像块的运动特征的模值大小。

公式(1)中α,β,γ是基于大量的主观实验拟合得到的参数值。主观实验可以但不限于包括：左右视频在二维视频质量中的差异对三维视频质量的影响、质量评价与失真率评估和法国南特大学的立体视频质量数据库等。

较佳地，可以按照图2a所示的流程确定该图像块的校正深度值，包括以下步骤：

S21、确定该视频帧中各个图像块的深度值。

具体实施时，可以按照立体匹配的方法来确定该图像块的深度值，以左视频帧为基准，针对左视频帧中的像素点在右视频帧中确定与该像素点对应的像素点，在右视频帧中确定出与左视频帧中像素点对应的像素点后，可以基于这两个像素点的位置信息来确定这两个像素点的视差值，然后将该视差值映射到[0，255]范围内，则可以得到深度值。由于图像块是对视频帧进行划分得到的，即得出图像块是由像素点构成的，故可以基于图像块中像素点得到的视差值来确定该图像块的深度值。本发明中的立体匹配方法可以但不限于为图割法。

S22、根据该视频帧中各个图像块的运动特征的模值和各个图像块之间的方差，确定该视频帧中、基于运动特征能够引起视觉注意的图像块。

具体实施时，可以根据当前图像块的运动特征与视频帧中所有图像块的运动特征的整体分布，采用最大类间方差法来确定该视频帧中、基于运动特征能够引起视觉注意的图像块。具体地，视频帧中各个图像块的运动特征具有大小，基于此可以确定出各个图像块的模值和各个图像块之间的方差，然后可以按照模值由大到小的顺序排列该视频帧中各个图像块，由此可以区分出该视频帧中模值较大且彼此之间方差较小的图像块的数量。例如，该视频帧划分了8个图像块，可以基于8个图像块的运动特征的大小确定各个图像块之间的方差，然后按照8个图像块的运动特征的模值由大到小的顺序排列后，当确定出1～5对应的图像块彼此之间的方差较少，6～8对应的图像块彼此之间的方差较小，而1～5对应的图像块与6～8对应的图像块彼此之间的方差较大。而方差较小表明两个图像块之间差别较小；方差较大表明两个图像块之间差别较大。而各个图像块运动特征的模值较大表明该图像块的运动比较快，而运动快越能够引起人眼的视觉注意。故可以得出8个图像块中基于运动特征能够引起视觉注意的图像块的数量为5个。

S23、基于确定出的、基于运动特征能够引起视觉注意的图像块的深度值，确定加权深度值。

具体实施时，可以引入加权系数，基于能够引起视觉注意的图像块的深度值和各个图像块的加权系数来，进行加权求和得到加权深度值。而加权系数的确定可以基于运动特征能够引起视觉注意的图像块的深度值来确定，也可以基于大量实验和/或经验值来确定。

S24、根据确定出的加权深度值和该图像块的深度值，确定该图像块的校正深度值。

具体实施时，根据确定出的加权深度值和该图像块的深度值，可以按照公式(2)来确定该图像块的校正深度值：

其中，d'(x,y)为第_x行第y列对应的图像块的校正深度值；

d_MV为确定出的加权深度值；

d_x,y为第x行第y列对应的图像块的深度值。

具体实施时，为了提高立体视频评价结果的准确性，本发明提出对图像块的深度值进行校正。具体地，针对该视频帧中的图像块，如果确定出该图像块的深度值小于步骤S23确定出的加权深度值，则按照公式(2)中第二个条件对应的公式来确定该图像块的校正深度值；否则按照公式(2)中第一个条件对应的公式来确定该图像块的校正深度值。图2b给出了视频帧中各个图像块的深度值构成的原始深度图，图2c给出了视频帧中各个图形块的运动特征对各个图像块的深度值进行校正得到的校正深度图，从这两个图中可以看出校正深度图还原出的视频特征较多，相对于原始深度图，基于校正深度值得到的立体视频评价结果更准确。

较佳地，所述底层特征包括：亮度、对比度、方向和颜色；以及可以按照图3a所示的流程针对任一图像块，来确定该图像块的底层特征能够引起视觉注意的视觉关注度，可以包括以下步骤：

S31、对该视频帧进行多层级滤波和采样处理。

具体实施时，可以采用改进的Itti特征增强算法来确定基于底层特征能够引起视觉注意的视觉关注度。具体地，把输入视频帧表示成9层的高斯金字塔，其中第0层是输入的视频帧，1到8层分别是用5x5的高斯差分滤波器对输入的视频帧进行滤波和采样形成的，大小分别为对输入视频帧的1/2采样到1/256采样。

S32、基于每一层级滤波和采样处理得到的视频帧，提取该图像块的底层特征。

具体地，基于每一层级滤波和采样处理得到的视频帧，构成金字塔，然后对得到的金字塔的每一层分别提取底层特征，如亮度、方向和颜色等，所述颜色可以但不限于包括红色、绿色、蓝色和黄色。基于各个底层特征可以得到亮度金字塔、色度金字塔和方向金字塔。

S33、对不同层级间底层特征进行差值处理得到相应的特征图。

在得到各个金字塔后，针对任一底层特征，可以对该特征在金字塔的不同尺度间作差，由此可以得到各个底层特征的特征图。

S34、对得到的各个特征图执行归一化处理和特征融合，得到该图像块的底层特征能够引起视觉注意的视觉关注度。

具体地，所述特征图包括亮度特征图、颜色特征图和方向特征图，以及对得到的各个特征图执行归一化处理和特征融合，可以按照公式(3)得到该图像块的底层特征能够引起视觉注意的视觉关注度：

其中，VA_floor(x,y)为第x行第y列对应的图像块的底层特征能够引起视觉注意的视觉关注度；

I(x,y)为第x行第y列对应的图像块的亮度特征图执行归一化处理得到的亮度显著度；

O(x，y)为第x行第y列对应的图像块的方向特征图执行归一化处理得到的方向显著度；

C(x，y)为第x行第y列对应的图像块的颜色特征图执行归一化处理得到的颜色显著度。

具体实施时，在得到各个特征图后，可以将得到的特征图进行特征融合，Itti模型中提出一种归一化函数，基于该归一化函数可以对步骤S33得到的特征图执行归一化处理，由此可以得到特征图的显著度。即例如将颜色特征图中的每一个像素点的显著值归一化到一个区间内，这样可以避免由于不同特征的显著值分布的区间不同产生消极影响，然后在对该颜色特征图中潜在的显著区域位置进行放大，使得那些位置的显著度相对于背景更突出，至此可以得到颜色特征图对应的显著度。

基于此可以得到亮度特征图对应的显著度和方向特征图对应的显著度。考虑到亮度对比度对人眼的刺激相对较大，故采用公式(3)来确定基于底层特征能够引起视觉注意的视觉关注度。

具体地，人眼的视觉注意机制是一种心理层面上的意识活动，是由大脑对传入的视觉信息进行选择和过滤的处理过程，是一种有意识的指向性对传入的信息进行加工的能力。也即本发明中能够引起视觉注意，是指针对输入的视频帧，自动的对感兴趣区域进行处理而选择性地忽略不感兴趣区域，可以利用颜色、亮度等特征判断目标区域和它周围像素的差异，参考图3a和3b可知，图3a中人眼会对该图中的圆形更感兴趣，同样图3c中人眼会对该图中的白色圆圈更感兴趣。现有的视觉注意机制有以下几种模型：基于认知、贝叶斯、决策论、信息论、图模型、频域分析和基于模式分类等来确定图像块是否能够引起人眼的视觉注意。本发明模拟人眼的视觉注意机制来确定运动特征和底层特征能够引起视觉注意的视觉关注度，由此得到的立体视频评价结果更贴合人眼实际对立体视频的感知结果。

S13、根据所述运动特征的视觉关注度和所述底层特征的视觉关注度，确定该图像块的视觉关注度权重值。

较佳地，在执行步骤S22之后，即在根据该视频帧中各个图像块的运动特征的模值和各个图像块之间的方差，确定该视频帧中能够引起视觉注意的图像块之后，还包括：

分别确定该视频帧中、基于运动特征的视觉不确定度和基于底层特征的视觉不确定度。

具体实施时，视频帧中运动特征与底层特征能够引起视觉注意的图像块是不相同的，有点图像块的运动特征能够引起视觉注意，但该图像块的底层特征不一定能够引起视觉注意，故要分别确定该视频帧中基于运动特征能够引起视觉注意的图像块的数量和基于底层特征能够引起视觉注意的图像块的数量。基于此可以分别得到基于运动特征的视觉不确定度和基于底层特征的视觉不确定度。

具体实施时，可以按照公式(4)来确定该视频帧中、基于运动特征的视觉不确定度：

其中，VU_scene为该视频帧中、基于运动特征的视觉不确定度；

P_scene为该视频帧中、基于运动特征能够引起视觉注意的图像块的数量；

N为该视频帧中划分的图像块的数量。

具体实施时，步骤S22中已经给出了确定该视频帧中、基于运动特征能够引起视觉注意的图像块的数量，在此不再详细描述。

具体地，可以按照图4所示的流程确定该视频帧中、基于底层特征的视觉不确定度，包括以下步骤：

S41、确定该视频帧中、基于底层特征能够引起视觉注意的图像块的数量。

具体实施时，在确定该视频帧中、基于底层特征能够引起视觉注意的图像块的数量时也可以按照步骤S22中的最大类间方差法来确定，当然也可以采取其它方法来确定，本发明对此不进行限定。

S42、根据确定出的、该视频帧中、基于底层特征能够引起视觉注意的图像块的数量，按照公式(5)确定该视频帧中、基于底层特征的视觉不确定度。

其中，VU_floor为该视频帧中、基于底层特征的视觉不确定度；

P_floor为该视频帧中、基于底层特征能够引起视觉注意的图像块的数量；

N为该视频帧中划分的图像块的数量。

较佳地，在分别确定出基于该视频帧中、基于运动特征的视觉不确定度和基于底层特征的视觉不确定度之后，可以根据所述运动特征的视觉关注度和所述底层特征的视觉关注度，按照公式(6)确定该图像块的视觉关注度权重值：

W为第x行第y列对应的图像块的视觉关注度权重值；

VU_scene为该视频帧中、基于运动特征的视觉不确定度；

VU_floor为该视频帧中、基于底层特征的视觉不确定度。

由于立体视频帧中图像块的深度值保持连续性的特点，参考不同深度层次画面的运动特征确定的视觉关注度，再结合提取的底层特征的视觉关注度，得到该图像块的视觉关注度权重值，由此得到的立体视频的评价结果更符合人眼对立体视频的主观感知。

S14、根据该视频帧与失真处理后的视频帧的相似度和该视频帧包含的图像块的视觉关注度权重值，确定该视频帧的客观质量得分。

具体实施时，所述失真处理后的视频帧是利用预设处理算法对输入的视频帧进行视频压缩处理得到的，所述预设处理算法可以但不限于包括：H264/265视频压缩算法、3D-HEVC算法，或3D-MVC算法。

具体实施时，可以采用增强了边缘损失权重的梯度相似度GSSIM算法来确定视频帧与失真处理后的视频帧的相似度。具体地，可以预先对输入的原始立体视频序列中的各个视频帧进行失真处理得到处理后的立体视频序列，然后在获取到输入的视频帧后，从处理后的立体视频序列中确定出输入的视频帧对应的处理后的视频帧。再针对该视频帧中的任一图像块，确定处理后的视频帧中与该图像块对应的图像块，再利用GSSIM算法来确定这两个图像块的相似度。基于此可以确定出视频帧中所有图像块与处理后的视频帧中对应的图像块之间的相似度。

在确定出该视频帧中各个图像块的相似度后，基于各个图像块的视觉关注度权重值，执行加权求和处理，即可得到该视频帧的客观质量得分。

由于所述视频帧包含左视频帧和右视频帧，故按照上述方法可以分别确定出原始立体视频序列中左视频帧的客观质量得分和右视频帧的客观质量得分。

S15、基于所述原始立体视频序列中各个左、右视频帧的客观质量得分，确定所述原始立体视频序列的客观质量得分。

具体实施时，可以按照图5所示的流程确定所述原始立体视频序列的客观质量得分，包括以下步骤：

S51、根据左、右视频帧的客观质量得分，确定双目立体视频帧的综合质量得分。

具体地，可以按照公式(7)确定双目立体视频帧的综合质量得分：

Q_3D＝α₁*Q_L-α₂*(Q_L-Q_R) (7)

其中，Q_3D为双目立体视频帧的综合质量得分；

Q_L为左视频帧的客观质量得分；

Q_R为右视频帧的客观质量得分；

α₁,α₂为对所述原始立体视频序列进行主观实验拟合得到的参数值。

具体实施时，α₁，α₂为对所述原始立体视频序列进行主观实验得到的拟合参数值，所述主观实验与步骤S12中的主观实验一样，在此不再描述。

S52、基于所述原始立体视频序列中各个视频帧确定出的双目立体视频帧的综合质量得分，确定各个视频帧对应的质量权重。

具体实施时，可以按照公式(8)确定各个视频帧对应的质量权重：

其中，q_i为第i个视频帧对应的质量权重；

Q_mean为各个视频帧的综合质量得分的平均值；

Q_max为所述原始立体视频序列中综合质量得分的最大值；

Q_i为第i个视频帧的综合质量得分。

具体实施时，客观质量得分较差的会对整个原始立体视频序列的总体感知带来更大影响，故基于质降模型来计算输入的原始立体视频序列的客观指令得分，可以将单个视频帧的客观质量得分较低的富有较高的权重，由此得到的原始立体视频序列的客观质量得分更加准确。

S53、根据各个视频帧确定出的双目立体视频帧的综合质量得分及其对应的质量权重，确定所述原始立体视频序列的客观质量得分。

本发明实施例一提供的立体视频的质量评价方法，针对输入的原始立体视频序列中的每一视频帧，将该视频帧划分成若干个图像块，并分别确定各个图像块的运动特征和底层特征，所述视频帧包含左视频帧和右视频帧；以及针对任一图像块，确定该图像块的运动特征和底层特征分别能够引起视觉注意的视觉关注度；根据所述运动特征的视觉关注度和所述底层特征的视觉关注度，确定该图像块的视觉关注度权重值；根据该视频帧与失真处理后的视频帧的相似度和该视频帧包含的图像块的视觉关注度权重值，确定该视频帧的客观质量得分；基于所述原始立体视频序列中各个左、右视频帧的客观质量得分，确定所述原始立体视频序列的客观质量得分。采用上述方法，通过将立体视频的运动特征和底层特征相结合来评价立体视频的质量，更加符合人眼在观看立体视频时的主观体验，由此得到的评价结果更加准确。

实施例二

基于同一发明构思，本发明实施例中还提供了一种立体视频的质量评价装置，由于上述装置解决问题的原理与立体视频的质量评价方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图6所示，为本发明实施例二提供的立体视频的质量评价装置的结构示意图，包括：处理单元61、第一确定单元62、第二确定单元63、第三确定单元64和第四确定单元65，其中：

处理单元61，用于针对输入的原始立体视频序列中的每一视频帧，将该视频帧划分成若干个图像块，并分别确定各个图像块的运动特征和底层特征，所述视频帧包含左视频帧和右视频帧；

第一确定单元62，用于针对任一图像块，确定该图像块的运动特征和底层特征分别能够引起视觉注意的视觉关注度；

第二确定单元63，用于根据所述运动特征的视觉关注度和所述底层特征的视觉关注度，确定该图像块的视觉关注度权重值；

第三确定单元64，用于根据该视频帧与失真处理后的视频帧的相似度和该视频帧包含的图像块的视觉关注度权重值，确定该视频帧的客观质量得分；

第四确定单元65，用于基于所述原始立体视频序列中各个左、右视频帧的客观质量得分，确定所述原始立体视频序列的客观质量得分。

较佳地，所述第三确定单元64，具体用于针对输入的原始立体视频序列中的每一视频帧，获得该视频帧对应的处理后的视频帧；并针对该视频帧的每一图像块，确定所述处理后的视频帧中与该图像块对应的图像块；确定该图像块和所述处理后的视频帧中与该图像块对应的图像块之间的相似度；基于各个图像块得到的相似度和各个图像块的视觉关注度权重值，确定该视频帧的客观质量得分。

优选地，所述运动特征用于指示图像块的运动快慢；以及

所述第一确定单元62，具体用于针对任一图像块，按照下述公式确定该图像块的运动特征能够引起视觉注意的视觉关注度：

其中，VA_scene(x，y)为第_x行第y列对应的图像块的运动特征能够引起视觉注意的视觉关注度；

MV(x,y)为第x行第y列对应的图像块的运动特征的模值大小；

d'为第x行第y列对应的图像块的校正深度值；

α,β,γ为拟合参数。

较佳地，所述第一确定单元62，具体用于按照下述方法确定该图像块的校正深度值：确定该视频帧中各个图像块的深度值；根据该视频帧中各个图像块的运动特征的模值和各个图像块之间的方差，确定该视频帧中、基于运动特征能够引起视觉注意的图像块；基于确定出的、基于运动特征能够引起视觉注意的图像块的深度值，确定加权深度值；根据确定出的加权深度值和该图像块的深度值，确定该图像块的校正深度值。

较佳地，所述第一确定单元62，具体用于根据确定出的加权深度值和该图像块的深度值，按照下述公式确定该图像块的校正深度值：

其中，d'(x,y)为第x行第y列对应的图像块的校正深度值；

d_MV为确定出的加权深度值；

d_x，y为第x行第y列对应的图像块的深度值。

优选地，所述底层特征包括：亮度、对比度、方向和颜色；以及

所述第一确定单元62，具体用于对该视频帧进行多层级滤波和采样处理；基于每一层级滤波和采样处理得到的视频帧，提取该图像块的底层特征；对不同层级间底层特征进行差值处理得到相应的特征图；并对得到的各个特征图执行归一化处理和特征融合，得到该图像块的底层特征能够引起视觉注意的视觉关注度。

进一步地，所述特征图包括亮度特征图、颜色特征图和方向特征图，以及

所述第一确定单元62，具体用于对得到的各个特征图执行归一化处理和特征融合，按照下述公式得到该图像块的底层特征能够引起视觉注意的视觉关注度：

I(x，y)为第x行第y列对应的图像块的亮度特征图执行归一化处理得到的亮度显著度；

C(x,y)为第x行第y列对应的图像块的颜色特征图执行归一化处理得到的颜色显著度。

较佳地，所述装置，还包括：

第五确定单元，用于在所述第一确定单元根据该视频帧中各个图像块的运动特征的模值和各个图像块之间的方差，确定该视频帧中能够引起视觉注意的图像块之后，分别确定该视频帧中、基于运动特征的视觉不确定度和基于底层特征的视觉不确定度；以及

所述第二确定单元63，具体用于根据所述运动特征的视觉关注度和所述底层特征的视觉关注度，按照下述公式确定该图像块的视觉关注度权重值：

W为第x行第y列对应的图像块的视觉关注度权重值；

VU_scene为该视频帧中、基于运动特征的视觉不确定度；

VU_floor为该视频帧中、基于底层特征的视觉不确定度。

进一步地，所述第五确定单元，具体用于按照下述公式确定该视频帧中、基于运动特征的视觉不确定度：

N为该视频帧中划分的图像块的数量。

进一步地，所述第五确定单元，具体用于确定该视频帧中、基于底层特征能够引起视觉注意的图像块的数量；并根据确定出的、该视频帧中、基于底层特征能够引起视觉注意的图像块的数量，按照下述公式确定该视频帧中、基于底层特征的视觉不确定度：

N为该视频帧中划分的图像块的数量。

较佳地，所述第四确定单元65，具体用于根据左、右视频帧的客观质量得分，确定双目立体视频帧的综合质量得分；基于所述原始立体视频序列中各个视频帧确定出的双目立体视频帧的综合质量得分，确定各个视频帧对应的质量权重；根据各个视频帧确定出的双目立体视频帧的综合质量得分及其对应的质量权重，确定所述原始立体视频序列的客观质量得分。

进一步地，所述第四确定单元65，具体用于根据左、右视频帧的客观质量得分，按照下述公式确定双目立体视频帧的综合质量得分：

Q_3D＝α₁*Q_L-α₂*(Q_L-Q_R)

其中，Q_3D为双目立体视频帧的综合质量得分；

Q_L为左视频帧的客观质量得分；

Q_R为右视频帧的客观质量得分；

α₁，α₂为对所述原始立体视频序列进行主观实验拟合得到的参数值。

所述第四确定单元65，具体用于基于所述原始立体视频序列中各个视频帧确定出的双目立体视频帧的综合质量得分，按照下述公式确定各个视频帧对应的质量权重：

其中，q_i为第i个视频帧对应的质量权重；

Q_mean为各个视频帧的综合质量得分的平均值；

Q_max为所述原始立体视频序列中综合质量得分的最大值；

Q_i为第i个视频帧的综合质量得分。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

本申请的实施例所提供的立体视频的质量评价装置可通过计算机程序实现。本领域技术人员应该能够理解，上述的模块划分方式仅是众多模块划分方式中的一种，如果划分为其他模块或不划分模块，只要立体视频的质量评价装置具有上述功能，都应该在本申请的保护范围之内。

实施例三

本发明实施例三提供一种通信设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述程序时实现如本发明实施例一提供的任一项所述的立体视频的质量评价方法。

实施例四

本发明实施例四提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例一提供的任一项所述的立体视频的质量评价方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种立体视频的质量评价方法，其特征在于，包括：

针对输入的原始立体视频序列中的每一视频帧，将该视频帧划分成若干个图像块，并分别确定各个图像块的运动特征和底层特征，所述视频帧包含左视频帧和右视频帧，所述底层特征包括：亮度、对比度、方向和颜色；以及

针对任一图像块，确定该图像块的底层特征能够引起视觉注意的视觉关注度，具体包括：对该视频帧进行多层级滤波和采样处理；基于每一层级滤波和采样处理得到的视频帧，提取该图像块的底层特征；对不同层级间底层特征进行差值处理得到相应的特征图；并对得到的各个特征图执行归一化处理和特征融合，得到该图像块的底层特征能够引起视觉注意的视觉关注度；

2.如权利要求1所述的方法，其特征在于，根据该视频帧与失真处理后的视频帧的相似度和该视频帧包含的图像块的视觉关注度权重值，确定该视频帧的客观质量得分，具体包括：

针对输入的原始立体视频序列中的每一视频帧，获得该视频帧对应的处理后的视频帧；并

针对该视频帧的每一图像块，确定所述处理后的视频帧中与该图像块对应的图像块；

确定该图像块和所述处理后的视频帧中与该图像块对应的图像块之间的相似度；

基于各个图像块得到的相似度和各个图像块的视觉关注度权重值，确定该视频帧的客观质量得分。

3.如权利要求1所述的方法，其特征在于，所述运动特征用于指示图像块的运动快慢；以及针对任一图像块，按照下述公式确定该图像块的运动特征能够引起视觉注意的视觉关注度：

MV(x,y)为第x行第y列对应的图像块的运动特征的模值大小；

d'为第x行第y列对应的图像块的校正深度值；

α,β,γ为拟合参数。

4.如权利要求3所述的方法，其特征在于，按照下述方法确定该图像块的校正深度值：

确定该视频帧中各个图像块的深度值；

根据该视频帧中各个图像块的运动特征的模值和各个图像块之间的方差，确定该视频帧中、基于运动特征能够引起视觉注意的图像块；

基于确定出的、基于运动特征能够引起视觉注意的图像块的深度值，确定加权深度值；

根据确定出的加权深度值和该图像块的深度值，确定该图像块的校正深度值。

5.如权利要求4所述的方法，其特征在于，根据确定出的加权深度值和该图像块的深度值，按照下述公式确定该图像块的校正深度值：

其中，d'(x,y)为第x行第y列对应的图像块的校正深度值；

d_MV为确定出的加权深度值；

d_x,y为第x行第y列对应的图像块的深度值。

6.如权利要求1所述的方法，其特征在于，所述特征图包括亮度特征图、颜色特征图和方向特征图，以及对得到的各个特征图执行归一化处理和特征融合，按照下述公式得到该图像块的底层特征能够引起视觉注意的视觉关注度：

O(x,y)为第x行第y列对应的图像块的方向特征图执行归一化处理得到的方向显著度；

7.如权利要求4所述的方法，其特征在于，在根据该视频帧中各个图像块的运动特征的模值和各个图像块之间的方差，确定该视频帧中能够引起视觉注意的图像块之后，还包括：

分别确定该视频帧中、基于运动特征的视觉不确定度和基于底层特征的视觉不确定度；以及

根据所述运动特征的视觉关注度和所述底层特征的视觉关注度，按照下述公式确定该图像块的视觉关注度权重值：

W为第x行第y列对应的图像块的视觉关注度权重值；

VU_scene为该视频帧中、基于运动特征的视觉不确定度；

VA_floor(x,y)为第x行第y列对应的图像块的底层特征能够引起视觉注意的视觉关注度；

VU_floor为该视频帧中、基于底层特征的视觉不确定度。

8.如权利要求7所述的方法，其特征在于，按照下述公式确定该视频帧中、基于运动特征的视觉不确定度：

N为该视频帧中划分的图像块的数量。

9.如权利要求7所述的方法，其特征在于，确定该视频帧中、基于底层特征的视觉不确定度，具体包括：

确定该视频帧中、基于底层特征能够引起视觉注意的图像块的数量；并

根据确定出的、该视频帧中、基于底层特征能够引起视觉注意的图像块的数量，按照下述公式确定该视频帧中、基于底层特征的视觉不确定度：

N为该视频帧中划分的图像块的数量。

10.如权利要求1所述的方法，其特征在于，基于所述原始立体视频序列中各个左、右视频帧的客观质量得分，确定所述原始立体视频序列的客观质量得分，具体包括：

根据左、右视频帧的客观质量得分，确定双目立体视频帧的综合质量得分；

基于所述原始立体视频序列中各个视频帧确定出的双目立体视频帧的综合质量得分，确定各个视频帧对应的质量权重；

根据各个视频帧确定出的双目立体视频帧的综合质量得分及其对应的质量权重，确定所述原始立体视频序列的客观质量得分。

11.如权利要求10所述的方法，其特征在于，根据左、右视频帧的客观质量得分，按照下述公式确定双目立体视频帧的综合质量得分：

Q_3D＝α₁*Q_L-α₂*(Q_L-Q_R)

其中，Q_3D为双目立体视频帧的综合质量得分；

Q_L为左视频帧的客观质量得分；

Q_R为右视频帧的客观质量得分；

12.如权利要求10所述的方法，其特征在于，基于所述原始立体视频序列中各个视频帧确定出的双目立体视频帧的综合质量得分，按照下述公式确定各个视频帧对应的质量权重：

其中，q_i为第i个视频帧对应的质量权重；

Q_mean为各个视频帧的综合质量得分的平均值；

Q_max为所述原始立体视频序列中综合质量得分的最大值；

Q_i为第i个视频帧的综合质量得分。

13.一种立体视频的质量评价装置，其特征在于，包括：

处理单元，用于针对输入的原始立体视频序列中的每一视频帧，将该视频帧划分成若干个图像块，并分别确定各个图像块的运动特征和底层特征，所述视频帧包含左视频帧和右视频帧，所述底层特征包括：亮度、对比度、方向和颜色；

所述第一确定单元，具体用于对该视频帧进行多层级滤波和采样处理；基于每一层级滤波和采样处理得到的视频帧，提取该图像块的底层特征；对不同层级间底层特征进行差值处理得到相应的特征图；并对得到的各个特征图执行归一化处理和特征融合，得到该图像块的底层特征能够引起视觉注意的视觉关注度；

14.一种通信设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述程序时实现如权利要求1～12任一项所述的立体视频的质量评价方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～12任一项所述的立体视频的质量评价方法中的步骤。