CN108307193A

CN108307193A - 一种有损压缩视频的多帧质量增强方法及装置

Info

Publication number: CN108307193A
Application number: CN201810125244.0A
Authority: CN
Inventors: 徐迈; 杨韧; 刘铁; 李天�; 李天一; 方兆吉
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2018-07-20
Anticipated expiration: 2038-02-08
Also published as: US20200404340A1; WO2019154152A1; US10965959B2; CN108307193B

Abstract

本发明提供一种有损压缩视频的多帧质量增强方法及装置，方法包括：针对解压缩的视频流的第i帧，采用所述第i帧关联的m个帧对所述第i帧进行质量增强，以播放质量增强后的第i帧；所述m个帧属于所述视频流中的帧，且所述m个帧中每一帧与所述第i帧分别具有相同或相应的像素数量大于预设阈值；m为大于1的自然数。在具体应用中，可利用峰值质量帧增强两个峰值质量帧之间的非非峰值质量帧。上述方法减轻了视频流播放过程中多帧之间的质量波动，同时使得有损压缩后视频中的各帧质量得到增强。

Description

一种有损压缩视频的多帧质量增强方法及装置

技术领域

本发明涉及图像处理技术领域，特别是一种有损压缩视频的多帧质量增强方法及装置。

背景技术

在过去的几十年里，视频在互联网上变得大受欢迎。根据思科数据流量预测，在2016年，视频流量占互联网总流量的60％，预计这一数字在2020年前将达到78％。由于互联网带宽受限，必须应用视频压缩来节省编码比特率。但是，视频在压缩过程中不可避免地会出现压缩失真，例如，方块效应，振铃效应和模糊等。这些工件可能会导致体验质量

(QoE)严重下降。因此，十分有必要研究针对压缩后视频的质量增强方法。

近年来，针对提高压缩图像或视频的视觉质量的方法被不断提出，例如，Dong等人设计了一个四层卷积神经网络(CNN)，名为AR-CNN，这大大提高了JPEG图像的质量。后来，Yang等人设计了一个解码器端可分层卷积神经网络(DS-CNN)用于提高视频质量。DS-CNN由两个子网络组成，旨在减轻帧内和帧间编码失真。

然而，现有技术中所有质量增强方法在对当前帧进行质量增强时，都不会利用任何相邻帧的信息，因此相邻帧的性能很大程度上受到限制。

发明内容

针对现有技术中的问题，本发明提供一种一种有损压缩视频的多帧质量增强方法及装置，质量增强方法中任一帧解压缩中能够合理结合相邻帧的信息，提高当前帧的播放质量。

第一方面，本发明提供一种有损压缩视频的多帧质量增强方法，包括：

针对有损压缩的视频流的第i帧，采用所述第i帧关联的m个帧对所述第i帧进行质量增强，以播放质量增强后的第i帧；

所述m个帧属于所述视频流中的帧，且所述m个帧中每一帧与所述第i帧分别具有相同或相应的像素数量大于预设阈值；m为大于1的自然数。

可选地，针对有损压缩的视频流的第i帧，采用所述第i帧关联的m个帧对所述第i帧进行质量增强的步骤，包括：

识别所述视频流中的峰值质量帧和非峰值质量帧；

所述第i帧为非峰值质量帧时，将其记为F_np。采用所述非峰值质量帧第i帧F_np之前的峰值质量帧F_p1和第i帧之后的峰值质量帧F_p2对所述非峰值质量帧第i帧F_np进行质量增强。

可选地，所述识别所述视频流中的峰值质量帧和非峰值质量帧，包括：

采用训练后的支持向量机SVM识别所述视频流中的峰值质量帧和非峰值质量帧。

例如，SVM可采用空间域无参考图像质量评估方法，从每一帧中提取36个像素值分布特征，把某一帧的前后各两帧，一共5帧共180个特征提取出来，判断这一帧是否是峰值质量帧。

可选地，还包括：提供多个训练视频，每一个训练视频中的每一帧为一个训练样本；

对所有训练视频进行有损压缩，计算每一个训练视频中每一帧与未进行有损压缩的训练视频之间的峰值信噪比；

根据每一帧对应的峰值信噪比，确定训练视频中的每一帧是否是峰值质量帧；提取训练视频中每一帧的36个像素分布特征，以及

对于训练视频中的第i帧，使用第i帧与相邻帧的像素分布特征作为第i个训练样本的训练特征，将第i帧是否为峰值质量帧作为第i个训练样本的训练标签；使用所有训练样本的特征和标签对SVM进行训练。

可选地，采用所述非峰值质量帧第i帧F_np之前的峰值质量帧F_p1和第i帧之后的峰值质量帧F_p2对所述第i帧F_np进行质量增强，包括：

将所述非峰值质量帧第i帧F_np和所述峰值质量帧F_p1、峰值质量帧F_p2输入多帧卷积神经网络结构，利用多帧卷积神经网络结构中的运动补偿子网络，将所述峰值质量帧F_p1和F_p2进行运动补偿，得到补偿后的峰值质量帧F_p'₁和F_p'₂，通过多帧卷积神经网络结构的质量增强子网络对非峰值质量帧第i帧F_np进行质量增强，最后质量增强子网络输出的质量增强后的非峰值质量帧第i帧记作F_np+R_np(θ_qe)，其中R_np(θ_qe)表示根据可训练的参数θ_qe重建的残差，输出的质量增强后的非峰值质量帧第i帧F_np+R_np(θ_qe)。

可选地，所述多帧卷积神经网络结构包括：用于补偿相邻帧之间时域运动的运动补偿子网络和用于将运动补偿子网络中补偿时域运动后的帧的特征进行融合的质量增强子网络。

可选地，将所述非峰值质量帧第i帧F_np和所述峰值质量帧F_p1、峰值质量帧F_p2输入多帧卷积神经网络结构，获取输出的质量增强后的非峰值质量帧第i帧F_np+R_np(θ_qe)之前，还包括：

训练所述多帧卷积神经网络结构中的所述运动补偿子网络和所述质量增强子网络。

可选地，若有损压缩视频流中的第i帧与无损压缩视频流中的第i帧的峰值信噪比PSNR，大于有损压缩视频流中的第i-1帧和无损压缩视频流中的第i-1帧的峰值信噪比，且大于有损压缩视频流中的第i+1帧和无损压缩视频流中的第i+1帧的峰值信噪比，则有损压缩视频流中的第i帧为峰值质量帧，所述有损压缩视频流中不属于峰值质量帧的视频帧称为非峰值质量帧。

第二方面，本发明还提供一种有损压缩视频的多帧质量增强装置，包括：存储器、处理器、总线以及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面任一所述的方法。

第三方面，本发明还提供一种计算机存储介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现如第一方面任一所述的方法。

本发明具有的有益效果：

本发明的方法分析了各种视频编码标准压缩的视频序列的帧间质量波动，利用邻近的峰值质量帧对非峰值质量帧进行质量增强，进而看到的视频流的质量无损失。

附图说明

图1为现有技术中解压缩后视频流中不同帧之间图像质量的差异示意图；

图2为本发明一实施例提供的有损压缩视频的多帧质量增强方法的流程示意图；

图3为本发明一实施例提供的图2的方法使用多帧卷积神经网络结构的示意图；

图4为本发明一实施例提供的运动补偿子网络的示意图；

图5为本发明一实施例提供的质量增强子网络的示意图；

图6为本发明一实施例提供的质量增强子网络的卷积层信息的表格示意图；

图7为本发明一实施例提供的有损压缩视频的多帧质量增强装置的结构示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

本发明提供一种有损压缩视频的多帧质量增强方法，包括：针对解有损压缩的视频流的第i帧，采用所述第i帧关联的m个帧对所述第i帧进行质量增强，以播放质量增强后的第i帧。

特别地，m个帧属于所述视频流中的帧，且所述m个帧中每一帧与所述第i帧F_np分别具有相同或相应的像素数量大于预设阈值；m为大于1的自然数。

优选地，在实际应用中，针对有损压缩的视频流的第i帧，采用所述第i帧关联的m个帧对所述第i帧进行质量增强的步骤，包括：

识别所述视频流中的峰值质量帧和非峰值质量帧；所述第i帧F_np为非峰值质量帧时，采用所述非峰值质量帧第i帧F_np之前的峰值质量帧F_p1和第i帧之后的峰值质量帧F_p2对所述非峰值质量帧第i帧F_np进行质量增强。

本实施例的方法分析了各种视频编码标准压缩的视频序列的帧间质量波动，利用邻近的峰值质量帧对非峰值质量帧进行质量增强，进而看到的质量增强后的视频。

在一种可选的实现方式中，如图2所示，本实施例的方法可包括下述步骤：

201、采用训练后的支持向量机SVM识别所述视频流中的峰值质量帧和非峰值质量帧。

举例来说，可使用若干训练视频，训练视频中的每一帧为一个训练样本；首先，对所有训练视频进行有损压缩，计算各个训练视频中每一帧与未进行有损压缩的训练视频之间的峰值信噪比；

其次，根据每一帧对应的峰值信噪比，确定训练视频中的每一帧是否是峰值质量帧；峰值质量帧用1表示，非峰值质量帧用0表示；

然后，提取训练视频中每一帧的36个像素分布特征，以及对于训练视频中的第i帧，使用第i帧与相邻帧(即第i-j帧到第i+k帧)的像素分布特征(即共(j+k+1)*36个特征)作为第i个训练样本的训练特征，将第i帧是否为峰值质量帧(即0或1)作为第i个训练样本的训练标签；使用所有训练样本的特征和标签对SVM进行训练。

训练后的SVM可采用空间域无参考图像质量评估方法，从每一帧中提取36个像素值分布特征，把某一帧的前后各两帧，一共5帧共180个特征提取出来，判断这一帧是否是峰值质量帧。

需要说明的是，利用训练后的SVM识别峰值质量帧还可采用其他方法，本发明实施例并不对齐进行限定，根据实际需要选择。

举例来说，若有损压缩视频流中的第i帧与无损压缩视频流中的第i帧的峰值信噪比PSNR，大于有损压缩视频流中的第i-1帧和无损压缩视频流中的第i-1帧的峰值信噪比，且大于有损压缩视频流中的第i+1帧和无损压缩视频流中的第i+1帧的峰值信噪比，则有损压缩视频流中的第i帧为峰值质量帧，所述有损压缩视频流中不属于峰值质量帧的视频帧称为非峰值质量帧。

202、第i帧F_np为非峰值质量帧时，采用所述非峰值质量帧第i帧F_np之前的峰值质量帧F_p1和第i帧之后的峰值质量帧F_p2对所述非峰值质量帧第i帧F_np进行质量增强。

例如，将所述非峰值质量帧第i帧F_np和所述峰值质量帧F_p1、峰值质量帧F_p2输入多帧卷积神经网络结构，利用多帧卷积神经网络结构中的运动补偿子网络，将所述峰值质量帧F_p1和F_p2进行运动补偿，得到补偿后的峰值质量帧F'_p1和F'_p2，通过多帧卷积神经网络结构的质量增强子网络对非峰值质量帧第i帧F_np进行质量增强，最后质量增强子网络输出的质量增强后的非峰值质量帧第i帧记作F_np+R_np(θ_qe)，其中R_np(θ_qe)表示根据可训练的参数θ_qe重建的残差，输出的质量增强后的非峰值质量帧第i帧F_np+R_np(θ_qe)。

本实施例中，多帧卷积神经网络结构包括：用于补偿相邻帧之间时域运动的运动补偿子网络和用于将运动补偿子网络中补偿时域运动后的帧的特征进行融合的质量增强子网络。

在使用多帧卷积神经网络结构之前，可训练所述多帧卷积神经网络结构中的所述运动补偿子网络和所述质量增强子网络。

图4示出了运动补偿子网络的示意图。在图4中可直接将待补偿的峰值质量帧F_p1和非峰值质量帧第i帧F_np直接输入运动补偿子网络，然后输出补偿后的峰值质量帧F'_p1。同样，再将待补偿的峰值质量帧F_p2和第i帧直接输入运动补偿子网络，然后输出补偿后的峰值质量帧F'_p2。

在图4所示的运动补偿子网络中，最下面的一行是像素级运动估计，就是逐像素运动评估，相当于是运动补偿子网络的一部分，最后输出结果就是补偿后的峰值质量帧F'_p1。

为更好理解本发明实施例的方案，对部分内容进行说明：

如图1所示，解压缩后视频的不同帧质量波动很大，参见图1中的第58帧和第59帧等非峰值质量帧显示的图像质量较差。所以针对需要提高非峰值质量帧的问题，本发明实施例中可以使用峰值质量帧来提高邻近的非峰值质量帧的质量。这可以被视为多帧质量增强，类似于多帧超分辨率。

本发明实施例中对压缩后视频提出了一种有损压缩视频的多帧质量增强方法。具体来说，现有的编码标准中，压缩视频中不同帧之间的质量波动较大，如图1所示。因此，本发明实施例的可以识别峰值质量帧，用于提高相邻非峰值质量帧的质量。

具体地，训练支持向量机(SVM)作为一种无参考方法来检测峰值质量帧。

然后，一种新型的多帧卷积神经网络结构提高质量，其中当前帧和其相邻的峰值质量帧都作为输入。

本发明实施例中的多帧卷积神经网络结构包含两个子网络，运动补偿子网络(如图4所示)和质量增强子网络(如图5所示)。

运动补偿子网络补偿当前非峰值质量帧和其相邻峰值质量帧之前的运动。

质量增强子网络，以当前的非峰值质量帧和被补偿的峰值质量帧为输入，输出质量增强后的当前非峰值质量帧。例如，在从当前的非峰值质量帧和被补偿的峰值质量帧中提取特征，并进行特征融合，终于达到增强当前帧质量的目的。

这就相当于借助相邻的峰值质量帧来提升当前非峰值质量帧的质量。

例如，如图1所示，当前的非峰值质量帧(帧59)和最相近的峰值质量帧(帧57和帧61)被输入到本实施例的方法的多帧卷积神经网络结构中。结果，利用峰值质量帧(帧57和61)的高质量内容(如数字87)对非峰值质量帧进行增强处理。如非峰值质量帧(帧59)的低质量内容(如数字87)可以被明显增强(未示出增强后的示意图)，即非峰值质量帧的质量得到改善。

由此，本实施例中分析了各种视频编码标准压缩的视频序列的帧间质量波动，利用邻近的峰值质量帧减少非峰值质量帧的压缩失真，提高了非峰值质量帧的播放质量。

针对多帧卷积神经网络

图3显示了本发明的方法使用的多帧卷积神经网络结构的框架。本实施例的方法中，首先检测峰值质量帧，以用于提升非峰值质量帧的质量。在质量增强方法的实际应用中，原始的无损视频无法得到，因此峰值质量帧和非峰值质量帧不能通过与无损视频比较来区分。因此，本实施例中提供了一个无参考的峰值质量帧检测器。

多帧卷积神经网络结构利用最近的峰值质量帧(之前和之后的峰值质量帧)来增强当前的非峰值质量帧。

多帧卷积神经网络架构由运动补偿子网络和质量增强子网络组成。

运动补偿子网络补偿相邻帧之间的时域运动。具体而言，运动补偿子网络首先预测当前非峰值质量帧与其最近的峰值质量帧之间的时域运动。然后，根据估计的运动，对两个最近的峰值质量帧进行运动补偿。如此，可以补偿非峰值质量帧和峰值质量帧之间的时域运动。

上述的时域运动是预测出XY方向的位置变换，然后对峰值质量帧的每个点进行x和y两个方向上的运动，得到运动补偿后的峰值质量帧。

最后，在质量增强子网络中，将当前的非峰值质量帧F_np和运动补偿后的当前帧前面最临近的峰值质量帧F_p'₁，以及运动补偿后的当前帧后面最临近的峰值质量帧F'_p2作为输入，(也就是说总共输入三帧)，这样就可以利用最近的峰值质量帧提高当前的非峰值质量帧的质量。

基于SVM的峰值质量帧检测器

在本发明中，SVM分类器通过训练实现无参考峰值质量帧检测。回想一下，峰值质量帧是比相邻帧质量更高的帧。因此，使用当前帧和四个相邻帧的特征来检测峰值质量帧。峰值质量帧检测器遵循无参考质量评估方法从当前帧中提取36个空间特征，每个空间特征是一维的。除此之外，还从两个前面的帧和两个后面的帧中提取这种类型的空间特征。因此，基于SVM分类器，获得180个一维特征来预测帧是峰值质量帧还是非峰值质量帧。

即，从每帧提取36个空间特征的方法是一种已有的方法，本发明将其使用过来，并不对其进行特别改进。本实施例中的36个空间特征是像素值分布的特征。

另外，使用当前待检测的帧与其相邻的几帧(不局限于4帧或是5帧，应该是总共(j+k+1)帧)，每一帧的36个特征，总共(j+k+1)*36个特征，来训练SVM分类器，检测峰值质量帧和非峰值质量帧。

也就是说，提取训练视频中每一帧的36个像素分布特征，以及对于训练视频中的第i帧，使用第i帧与相邻帧(即第i-j帧到第i+k帧)的像素分布特征(即共(j+k+1)*36个特征)作为第i个训练样本的训练特征，将第i帧是否为峰值质量帧(即0或1)作为第i个训练样本的训练标签；使用所有训练样本的特征和标签对SVM进行训练。

运动补偿子网络

峰值质量帧被检测后，非峰值质量帧的质量可以通过利用邻近的峰值质量帧来增强。然而，非峰值质量帧和峰值质量帧之间存在时域运动。因此，利用运动补偿子网络来补偿跨帧的时域运动。

下面详细介绍运动补偿子网络的架构和训练策略。

运动补偿子网络的架构

如图4所示，空间变换运动补偿方法采用卷积层估计×4和×2的尺度缩小的运动矢量图，记为M×4和M×2。在M×4和M×2中，尺度缩小是通过采用一些步幅为2卷积层来实现的。尺度缩小运动评估对于处理大尺度运动是有效的。但是，由于尺度缩小，运动矢量估计的准确性会降低。

因此，除了STMC之外，在运动补偿子网络中开发了一些卷积层，用于逐像素运动评估，其中不包含任何尺度缩小的过程。逐像素运动评估卷积层如表2所示。如图4所示，STMC的输出包括×2尺度缩小运动矢量图M×2和相应的经补偿的峰值质量帧F_p'×2。将它们和原始的峰值质量帧和非峰值质量帧联合起来，作为逐像素运动估计卷积层的输入。然后，可以生成逐像素的运动矢量图，用M表示。

注意，运动矢量图M包含两个通道，即横向运动矢量图Mx和纵向运动矢量图My。其中，x和y是像素的横向坐标和纵向坐标。给定Mx和My，峰值质量帧被平移以补偿运动。将压缩的峰值质量帧和非峰值质量帧分别设为F_p和F_np。经过补偿的峰值质量帧F_p'可以表示为

F'_p(x,y)＝I{F_p(x+M_x(x,y),y+M_y(x,y))}

其中I{·}表示双线性插值。采用双线性插值是因为M_x(x,y)和M_y(x,y)可能是非整数值。

运动补偿子网络的训练策略

由于很难获得运动矢量的真值，卷积层关于运动评估的参数不能通过直接训练得出。超分辨工作通过最小化补偿相邻帧和当前帧之间的MSE来训练。

在运动补偿子网络中，输入的F_p和F_np都是经过压缩的帧，图像质量失真。因此，当最小化F'_p与F_np之间的均方差(MSE)时，运动补偿子网络是由经过失真的运动矢量来训练的，结果会使运动估计不准确。

因此，令运动补偿子网络在原始图像的监督下训练。这就是说，使用运动评估卷积层输出的运动矢量图，对无损的峰值质量帧进行运动补偿，并且使补偿的无损的峰值质量帧和无损的非峰值质量帧之间的MSE最小化。运动补偿子网络的失真函数为

式中，θ_mc代表运动补偿子网络的可训练参数。注意，在测试时不需要原始图像和仅在训练时需要.

质量增强子网络

质量增强子网络是以时空结构设计的，在给定补偿后的峰值质量帧(PQF)的情况下，可以提高非峰值质量帧的质量。具体而言，质量增强子网络的输入包括，当前处理的非峰值质量帧F_np，和补偿的先前和随后的峰值质量帧(由F'_p1和F'_p2表示)。这样，这三个图像的空间和时间特征都被检测和合并。因此，相邻的峰值质量帧中有利的信息可以用来提高非峰值质量帧的质量。这种方法不同于仅基于卷积神经网络的单帧质量增强方法，因为单帧质量增强方法只用了帧内的空间信息。

质量增强子网络的架构如图5所示，卷积层的信息如图6所示的表格信息。在质量增强子网络中，卷积层Conv1,2和3提取输入帧的空间特征F'_p1，F_np和F'_p2。那么，为了使用F'_p1的高质量信息，Conv 4合并F_np和F'_p1的特征。也就是说，Conv 1和2的输出共同输入到Conv 4中进行合并。类似地，Conv 5合并F_np和F'_p2的特征。Conv 6/7从Conv 4/5中提取更复杂的特征。因此，Conv 6和Conv 7的提取特征经过非线性映射到另一个空间Conv8。最后，Conv9利用Conv 8的特征，实现F_np的重构。

此外，质量增强子网络采用残差学习来快速合并。具体来说，Conv9训练重构原始图像和压缩图像间的残差。因此，非峰值质量帧F_np通过添加重构的残差，得到增强。这个过程被表示为F_np+R_np(θ_qe)，其中R_np(θ_qe)是质量增强子网络通过训练参数θ_qe生成的重构残差。

多帧卷积神经网络中的运动补偿子网络和质量增强子网络以端到端的方式联合训练。设和为分别原始帧之前和之后的峰值质量帧(PQF)。我们的MF-CNN的失真函数可以表述为

如上式所示，MF-CNN的失真函数是L_MC和L_QE的加权和，即运动补偿子网络和质量增强子网络失真函数的加权和。因为运动补偿子网络生成的F_p'₁和F_p'₂是质量增强子网络的基础，在训练一开始设置a＞＞b。当观察到L_MC的收敛后，设置a＜＜b来继续训练。因此，非峰值质量帧F_np的质量通过相邻的峰值质量帧中的高质量信息得到提高。

由此，第i帧若为非峰值质量帧，则记为F_np。这一帧之前的一个峰值质量帧记作F_p1，之后的一个峰值质量帧记作F_p2。利用多帧卷积神经网络结构中的运动补偿子网络，将这两个峰值质量帧F_p1和F_p2进行运动补偿，得到补偿后的峰值质量帧F_p'₁和F_p'₂。最后利用多帧卷积神经网络结构中的质量增强子网络输出的质量增强后的非峰值质量帧记作F_np+R_np(θ_qe)，其中R_np(θ_qe)表示根据可训练的参数θ_qe重建的残差。进而非峰值质量帧F_np的质量通过相邻的峰值质量帧中的高质量信息得到提高。

另外，结合图2描述的本发明实施例的有损压缩视频的多帧质量增强方法可以由利用有损压缩视频的多帧质量增强装置来实现。如图7所示。

有损压缩视频的多帧质量增强装置可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地，上述处理器501可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器502可在数据处理装置的内部或外部。在特定实施例中，存储器502是非易失性固态存储器。在特定实施例中，存储器502包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现上述实施例中的任意一种有损压缩视频的多帧质量增强方法。

在一个示例中，有损压缩视频的多帧质量增强装置还可包括通信接口503和总线510。其中，如图7所示，处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。

通信接口503，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线510包括硬件、软件或两者，将上述装置的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线510可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的有损压缩视频的多帧质量增强方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或***。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种有损压缩视频的多帧质量增强方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，针对有损压缩的视频流的第i帧，采用所述第i帧关联的m个帧对所述第i帧进行质量增强的步骤，包括：

识别所述视频流中的峰值质量帧和非峰值质量帧；

所述第i帧为非峰值质量帧时，将其记为F_np。采用所述非峰值质量帧第i帧之前的峰值质量帧F_p1和第i帧之后的峰值质量帧F_p2对所述第i帧F_np进行质量增强。

3.根据权利要求2所述的方法，其特征在于，所述识别所述视频流中的峰值质量帧和非峰值质量帧，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

提供多个训练视频，每一个训练视频中的每一帧为一个训练样本；

5.根据权利要求2所述的方法，其特征在于，采用所述非峰值质量帧第i帧之前的峰值质量帧F_p1和第i帧之后的峰值质量帧F_p2对所述第i帧F_np进行质量增强，包括：

将所述非峰值质量帧第i帧和所述峰值质量帧F_p1、峰值质量帧F_p2输入多帧卷积神经网络结构，利用多帧卷积神经网络结构中的运动补偿子网络，将所述峰值质量帧F_p1和F_p2进行运动补偿，得到补偿后的峰值质量帧F′_p1和F′_p2，通过多帧卷积神经网络结构的质量增强子网络对非峰值质量帧第i帧F_np进行质量增强，最后质量增强子网络输出的质量增强后的非峰值质量帧第i帧记作F_np+R_np(θ_qe)，其中R_np(θ_qe)表示根据可训练的参数θ_qe重建的残差，输出的质量增强后的第i帧F_np+R_np(θ_qe)。

6.根据权利要求5所述的方法，其特征在于，

所述多帧卷积神经网络结构包括：用于补偿相邻帧之间时域运动的运动补偿子网络和用于将运动补偿子网络中补偿时域运动后的帧的特征进行融合的质量增强子网络。

7.根据权利要求6所述的方法，其特征在于，将所述非峰值质量帧第i帧和所述峰值质量帧F_p1、峰值质量帧F_p2输入多帧卷积神经网络结构，获取输出的质量增强后的非峰值质量帧第i帧F_np+R_np(θ_qe)之前，还包括：

8.根据权利要求4所述的方法，其特征在于，

若有损压缩视频流中的第i帧与无损压缩视频流中的第i帧的峰值信噪比PSNR，大于有损压缩视频流中的第i-1帧和无损压缩视频流中的第i-1帧的峰值信噪比，且大于有损压缩视频流中的第i+1帧和无损压缩视频流中的第i+1帧的峰值信噪比，则有损压缩视频流中的第i帧为峰值质量帧，所述有损压缩视频流中不属于峰值质量帧的视频帧称为非峰值质量帧。

9.一种有损压缩视频的多帧质量增强装置，其特征在于，包括：

存储器、处理器、总线以及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-8任意一项的方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现如权利要求1-8任意一项的方法。