CN113486821B

CN113486821B - 基于时域金字塔的无参考视频质量评价方法

Info

Publication number: CN113486821B
Application number: CN202110782615.4A
Authority: CN
Inventors: 何立火; 廖乙霖; 甘海林; 邓夏迪; 柯俊杰; 唐杰浩; 张超仑; 高新波; 路文
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2023-07-04
Anticipated expiration: 2041-07-12
Also published as: CN113486821A

Abstract

本发明公开了一种基于时域金字塔的无参考视频质量评价方法，主要解决现有技术利用时域信息不充分，导致视频质量评价准确度较低的问题。其实现方案是：获取训练集和测试集；从视频中获取帧组，并对其进行特征提取，获得低、高层视频特征；构建由时域金字塔模块和质量融合模块级联组成的质量评价网络；对质量评价网络进行训练；将测试视频样本输入到训练好的质量评价网络中，得到被测视频的预测质量分数。本发明通过用时域金字塔模块获取时域信息形成金字塔特征，将视频帧间信息进行交互，并作不同方式的采样，提升了来自视频的时域信息的丰富度，充分利用了视频的时域信息，提高了视频质量评价的准确度，可用于图像的采集、管理、传输和处理。

Description

基于时域金字塔的无参考视频质量评价方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种无参考视频质量评价方法，可用于图像的采集、管理、传输和处理。

背景技术

视觉信息占人接收到的所有感官信息的70％，故视觉信息对于人的重要性不言而喻。随着移动智能设备和移动互联网的发展，制作和观看视频的方式越来越大众化，所以人们对于视频质量的要求也越来越高。因此，依据人类视觉***的特性，建立视频质量评价模型，对视频处理***的改进和人们生活质量的提升具有重大的现实意义和研究价值。

尽管当前已经有了一些视频质量评价方法，如峰值信噪比和结构相似度等，但是还远远不能满足生活和生产的需要。其主要有以下两个原因：一是现有的评价方法多依赖原始视频作为参考，具有很大的局限性；二是这些方法的评价结果较人类的主观视觉感受仍存在一定差距。因此，更具实用性的无参考视频质量评价方法更具研究价值，而深度学习技术在质量评价领域的应用已经收获了许多成果。

杭州电子科技大学在其申请的专利“基于深层次时空信息的无参考视频质量评价方法”(专利申请号：202011637358.7，申请公开号：112784698A)中提出利用卷积神经网络和循环神经网络对视频进行无参考质量评价的方法。其首先提取视频帧的图像特征，将作为特征提取器的卷积神经网络中不同层得到的特征图抽出，并进行全局平均池化和全局标准差池化；再将不同时刻、来自不同层、应用不同方式池化的特征向量拼接形成该视频的特征向量。然后进行特征整合，采用门控循环单元建模视频帧长依赖。最后进行质量聚合，提出主观启发的时间池化模型利用各帧质量分数计算视频质量分数。该发明存在的不足之处是，该发明获取时域信息的方式较为单一，对视频时域信息利用不充分，影响了主客观一致性，对于时域信息变化复杂的视频难以给出准确的评价。

发明内容

本发明的目的是针对上述现有技术存在的不足，提出一种基于时域金字塔的无参考视频质量评价方法，以充分利用视频时域信息，提高对视频质量评价的准确度。

为实现上述目的，本发明的技术方案如下：

(1)从KoNViD-1k视频质量评价数据集中任意获取占所有视频数80％的视频作为训练样本集，剩余的视频作为测试样本集，将数据集中所有的失真视频的亮度通道映射到[0,1]区间，将数据集的质量分数标签映射到[0,1]区间；

(2)获得视频的低、高层视频特征：

按每个视频的帧数量，取正比于帧数量的采样间隔，得到由该视频数个帧按时间顺序排布的帧组，下载在ImageNet图像分类数据集预训练的网络ResNet-50，对帧组中的每个帧进行特征提取，即取出ResNet-50网络中第3残差子单元和第4残差子单元的输出，分别作为低层帧特征和高层帧特征；

将每个帧组的低层帧特征按时间顺序拼接，得到该视频的低层视频特征；

将每个帧组的高层帧特征按时间顺序拼接，得到该视频的高层视频特征；

(3)构建质量评价网络：

(3a)建立时域金字塔模块，其由空域调制单元→并行的第一时域调制单元和第二时域调制单元→并行的自顶向下支路和自底向上支路→信息流融合单元依次级联组成；

所述自顶向下支路，由上采样单元→第一采样特征融合单元依次级联组成；

所述自底向上支路，由下采样单元→第二采样特征融合单元依次级联组成；

(3b)建立质量融合模块，其由第1全连接层→第2全连接层→门控循环单元→第3全连接层→分数融合层依次级联组成；

(3c)将时域金字塔模块与质量融合模块进行级联，构成质量评价网络；

(4)对质量评价网络进行训练：

(4a)将训练集中的每个视频的低层视频特征和高层视频特征依次输入到质量评价网络中，利用最小绝对误差LAE的公式，计算该质量评价网络的损失值L；

(4b)利用随机梯度下降法，通过损失值L更新网络中的两类参数W和b，其中，W表示质量评价网络中边连接的权值向量，b表示质量评价网络中下一层对上一层的偏置，经过100次迭代，得到训练好的质量评价网络；

(5)将测试样本集视频的低层视频特征和高层视频特征依次输入到训练好的质量评价网络中，得到视频质量分数预测结果。

与现有技术相比，本发明由于构建了时域金字塔，具有以下优点：

1.利用时域金字塔中的时域调制单元将视频特征来自不同时间的信息进行交互，克服了现有技术利用时域信息不充分的缺点；

2.通过时域金字塔中的自顶向下支路和自底向上支路进行不同方式的采样，克服了现有技术仅在输入端使用单一方式采样输入视频的缺点；

3.利用时域金字塔中的信息流融合单元将经过不同方式采样的特征进行融合，提升了来自视频的时域信息的丰富度，充分利用了视频的时域信息，提升了主客观一致性；

以上三条最终提高了对视频质量评价的准确度。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述：

参照图1，本发明包括如下步骤：

步骤1，获取训练样本集和测试样本集，并进行亮度通道映射和质量分数标签映射。

从KoNViD-1k视频质量评价数据集中任意获取占所有视频数80％的视频作为训练样本集，剩余的视频作为测试样本集，并将数据集中所有的失真视频的亮度通道映射到[0,1]区间，将数据集的质量分数标签映射到[0,1]区间。

步骤2，获得视频的低、高层视频特征。

按每个视频的帧数量，取正比于帧数量的采样间隔，得到由该视频数个帧按时间顺序排布的帧组；

下载在ImageNet图像分类数据集预训练的网络ResNet-50，对帧组中的每个帧进行特征提取，即取出ResNet-50网络中第3残差子单元的输出作为低层帧特征，取出ResNet-50网络中第4残差子单元的输出作为高层帧特征；

本实例中，将帧数量除以8并向下取整得到抽样间隔，按照该间隔对序列进行无重叠采样，得到长度为8的帧组。

步骤3，构建质量评价网络。

(3.1)建立时域金字塔模块，其由空域调制单元→并行的第一时域调制单元和第二时域调制单元→并行的自顶向下支路和自底向上支路→信息流融合单元依次级联组成；

所述空域调制单元，其为一个二维卷积层，卷积核的大小为3×3，步长为2×2，卷积核个数为1024，输出通道数为2048；

所述第一时域调制单元和第二时域调制单元，均为一个三维卷积层，卷积核的大小为3×1×1，步长为1×1×1，卷积核个数为2048，输出通道数为1024；

所述上采样单元，其为一个最近邻插值层，插值采样因子为1×1×1；

所述下采样单元，其结构依次为：三维卷积层→批量归一化层→最大池化层，其中，该三维卷积核的大小为3×1×1，步长为1×1×1，卷积核个数为1024，输出通道数为1024；该最大池化层的采样因子为1×1×1；

所述第一采样特征融合单元和第二采样特征融合单元，其结构相同，每个单元依次为：第1三维卷积层→批量归一化层→最大池化层→第2三维卷积层→批量归一化层，该第1三维卷积核的大小为3×1×1，步长为1×1×1，卷积核个数为1024，输出通道数为1024，该第2三维卷积核的大小为1×1×1，步长为1×1×1，卷积核个数为2048，输出通道数为2048；该最大池化层的采样因子为1×1×1；

所述信息流融合单元，其结构依次为：三维卷积层→批量归一化层→自适应三维池化层，其中，该三维卷积核的大小为1×1×1，步长为1×1×1，卷积核个数为4096，输出通道数为2048；该自适应三维池化层的输出尺寸为8×1×1；

时域金字塔模块的输入为低层视频特征和高层视频特征，首先，将低层视频特征经过空域调制单元得到中间特征A；然后，将中间特征A和高层视频特征分别输入两个并行的时域调制单元中，得到两个中间特征，即第一中间特征B和第二中间特征C；接着，两个并行的时域调制单元分为两个支路，即自顶向下支路和自底向上支路：

通过自顶向下支路，将第二中间特征C输入到上采样单元得到第三中间特征D，将第一中间特征B和第三中间特征D输入到第一采样特征融合单元得到自顶向下特征；

通过自底向上支路，将第一中间特征B输入到下采样单元得到第四中间特征E，将第四中间特征E和第二中间特征C输入到第二采样特征融合单元得到自底向上特征；

最后将自顶向下特征和自底向上特征输入信息流融合单元得到金字塔特征；

(3.2)建立质量融合模块，其由第1全连接层→第2全连接层→门控循环单元→第3全连接层→分数融合层依次级联组成；

所述第1全连接层的输入和输出尺寸分别为2048和64；

所述第2全连接层的输入和输出尺寸分别为64和64；

所述门控循环单元的输入序列尺寸为64，隐藏层尺寸为16；

所述第3全连接层的输入和输出尺寸分别为64和1；

所述分数融合层对第3全连接层的输出取均值；

(3.3)将时域金字塔模块与质量融合模块进行级联，构成质量评价网络。

步骤4，对质量评价网络进行训练。

(4.1)将训练集中的每个视频的低层视频特征和高层视频特征依次输入到质量评价网络中，利用最小绝对误差LAE的公式，计算该质量评价网络的损失值L：

其中，|| ||₁表示一范数操作，S表示训练样本集中失真视频的质量分数，P表示训练样本集中视频经质量评价网络的预测质量分数；

(4.2)利用随机梯度下降法，通过损失值L更新网络中的两类参数W和b，其中，W表示质量评价网络中边连接的权值向量，b表示质量评价网络中下一层对上一层的偏置，经过100次迭代，得到训练好的质量评价网络，具体操作为：

(4.2a)输入一个有标签的训练数据；

(4.2b)按照下式，更新网络的每个参数，将参数更新后的网络参数放入一个参数集合中：

其中，θ′_k表示质量评价网络更新后的第k个参数，θ_k表示质量评价网络更新前的第k个参数，α表示更新参数时的学习率，α∈[0,1]，P_k表示质量评价网络的第k个参数，L是质量评价网络的损失值；

(4.2c)执行(4.2a)-(4.2b)共100次，从参数集合中的100个模块参数中选取与KoNViD-1k视频质量评价数据集标签相关性最高的网络参数，并将该网络参数作为训练好的质量评价网络参数。

所述相关性，是通过Spearman秩次相关系数SROCC和Pearson线性相关系数PLCC两种标准测量方法计算得到的，其计算公式如下：

其中，n表示用来评价的视频总数，b_e表示第e个视频的质量评价结果与其标准主观评价结果之差；s_r表示质量评价算法给出的第r个视频的质量评价结果，

表示所有需要测试的视频的质量评价结果的平均值，p_r表示第r个视频的标准主观评价结果，/>

表示需要测试的所有视频的标准主观评价结果的平均值。

步骤5，将测试样本集的视频空域特征输入到训练好的质量评价网络中，得到视频质量分数标签。

下面结合仿真实验对本发明的效果作进一步的描述：

1.仿真实验条件：

仿真实验的硬件测试平台是：Intel(R)Xeon(R)Silver 4114CPU，主频为2.20GHz，内存128GB，GPU为NVIDIA RTX TITAN。

仿真实验的软件平台是：Ubuntu 18.04 LTS操作***、编程语言Python 3.8、深度学习框架PyTorch 1.6。

2.仿真内容及其结果分析：

本发明的仿真实验是采用本发明的方法，从Hosu等人在其发表的论文“TheKonstanz Natural Video Database”中下载KoNViD-1k视频质量评价数据集，该数据集包含1200个视频。

用现有的3个视频质量评价方法V-BLIINDS，VSFA，TLVQM与本发明在相同的条件下对测试样本集进行视频质量评价，并取10次测试结果的均值作为本发明在数据集上的评价结果，得到每个方法的视频质量分数标签，利用每个方法的标签和数据集的标签计算各方法的斯皮尔曼秩相关系数SROCC和线性相关系数PLCC，结果如表1。

表1 各方法的评价效果

表1中：V-BLIIND是指Saad等人在其发表的论文“Blind prediction of naturalvideo quality”(IEEE Transactions on Image Processing,2014)中公开的一种基于时空自然场景统计的无参考视频质量评价方法。

VSFA是指Li等人在其发表的论文“Quality Assessment of In-the-WildVideos”(ACM International Conference on Multimedia,2019)中公开的一种基于内容依赖和时延记忆的无参考视频质量评价方法。

TLVQM是指Korhonen等人在其发表的论文“Two-Level Approach for No-Reference Consumer Video Quality Assessment”(IEEE Transactions on ImageProcessing,2019)中公开的一种基于两阶段特征的无参考视频质量评价方法。

表1中斯皮尔曼秩相关系数SROCC∈[-1,1]，其数值越高，说明被评判的视频质量评价方法能更准确地区分高质量视频和低质量视频；线性相关系数PLCC∈[-1,1]，其数值越高，说明被评判的视频质量评价方法给出的质量评价结果和人类给出的主观评价分数相关性越高。

从表1可见，本发明在KoNViD-1k视频质量评价数据集上评价结果的斯皮尔曼秩相关系数SROCC和线性相关系数PLCC均高于3种现有技术，证明本发明具有更好的视频质量评价效果。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于时域金字塔的无参考视频质量评价方法，其特征在于，包括：

(2)获得视频的低、高层视频特征：

(3)构建质量评价网络：

所述建立的时域金字塔模块，其各单元的结构参数及工作过程如下：

(3a1)各单元的结构参数：

所述第一和第二时域调制单元，其为一个三维卷积层，卷积核的大小为3×1×1，步长为1×1×1，卷积核个数为2048，输出通道数为1024；

所述第一和第二采样特征融合单元，其结构依次为：第1三维卷积层→批量归一化层→最大池化层→第2三维卷积层→批量归一化层，该第1三维卷积核的大小为3×1×1，步长为1×1×1，卷积核个数为1024，输出通道数为1024，该第2三维卷积核的大小为1×1×1，步长为1×1×1，卷积核个数为2048，输出通道数为2048；该最大池化层的采样因子为1×1×1；

(3a2)各单元的工作过程：

(4)对质量评价网络进行训练：

2.根据权利要求1所述的方法，其中(3b)构建的质量融合模块，其各层的结构参数如下：

所述第1全连接层的输入和输出尺寸分别为2048和64；

所述第2全连接层的输入和输出尺寸分别为64和64；

所述门控循环单元的输入序列尺寸为64，隐藏层尺寸为16；

所述第3全连接层的输入和输出尺寸分别为64和1；

所述分数融合层对第3全连接层的输出取均值。

3.根据权利要求1所述的方法，其中(4a)中计算该质量评价网络的损失值L，公式如下：

其中，||||₁表示一范数操作，S表示训练样本集中失真视频的质量分数，P表示训练样本集中视频经质量评价网络的预测质量分数。

4.根据权利要求1所述的方法，其中(4b)中利用随机梯度下降法，通过损失值L更新网络中的两类参数W和b，实现如下：

(4b1)输入一个有标签的训练数据；

(4b2)按照下式，更新网络的每个参数，将参数更新后的网络参数放入一个参数集合中：

(4b3)执行(4b1)-(4b2)共100次，从参数集合中的100个模块参数中选取与视频质量评价数据集标签相关性最高的网络参数，将该网络参数作为训练好的质量评价网络参数，该相关性是通过Spearman秩次相关系数SROCC和Pearson线性相关系数PLCC两种标准测量方法计算得到的。