CN115103188B

CN115103188B - Svc的错误隐藏方法、模型训练方法、***及设备

Info

Publication number: CN115103188B
Application number: CN202211017771.2A
Authority: CN
Inventors: 张昊; 王照; 彭春华; 黄兴军; 孙意翔; 肖婴然
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-12-30
Anticipated expiration: 2042-08-24
Also published as: CN115103188A

Abstract

本申请实施例涉及技术领域，特别涉及一种SVC的错误隐藏方法、模型训练方法、***及设备，本申请利用卷积神经网络充分提取前一帧基础层和增强层图像对中的偏移量参数，进而利用这个参数来修正当前帧的基础层图像的上采样图像，从而提升增强层错误隐藏的效果；本申请还计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，然后通过卷积神经网络融合残差图像和修正后的上采样图像，充分利用时域和空域的相关性对修正后的上采样图像进行后处理，提升了增强层错误隐藏的效果。

Description

SVC的错误隐藏方法、模型训练方法、***及设备

技术领域

本申请实施例涉及视频编码技术领域，尤其涉及一种SVC的错误隐藏方法、模型训练方法、***及设备。

背景技术

SVC（Scalable Video Coding，可伸缩编码）是视频编码的一种，该技术把视频信号编码成分层的形式，当带宽不足时只对基础层的码流进行传输和解码，但这时解码的视频质量不高。当带宽慢慢变大时，可以传输和解码增强层的码流来提升视频的解码质量。

SVC的技术应用可以分为两点，第一点是，SVC由于其特点可以适应与客户端性能受限和网络环境受限的场景。比如有些客户端会限制解码的计算复杂度，这个时候在只解码基础层也能获得一定质量的图像，也就是说客户端可以根据自己的情况来对解码复杂度和质量之间做选择，而单一流的解码就做不到这一点。另外有些网络环境会限制带宽，在使用MANE(Media-aware Network element)的网络中，可以选择丢弃增强层的数据包来限制带宽和流量。总结来说，这一特点给予了终端一定选择的空间。第二点是，SVC相比于单一流传输来说有更好的抗丢包性能。一般SVC的基础层会给予更多的错码保护，所以一般假设丢包概率会比较小。由于增强层的编码参考了基础层，所以即使发生丢包也能从基础层有限的恢复，保证一定的质量。

现阶段的SVC的错误隐藏方案还存在如下技术缺陷：

1)构建主要来自于经验，利用的主要是编码时的一些信息，导致错误隐藏的效果较差：

2)由于使用了如运动矢量、残差或者分块之类的编码信息，所以对于特定的编码标准有着依赖性，存在局限性。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本公开实施例的主要目的在于提出一种SVC的错误隐藏方法、模型训练方法、***及设备，能够提升增强层错误隐藏的效果。

本申请的第一方面，提供了一种SVC的错误隐藏方法，所述错误隐藏方法包括：

当视频的可伸缩视频编码的增强层发生丢包，获取当前帧的基础层图像、前一帧的基础层图像以及前一帧的增强层图像；

根据第一卷积神经网络计算所述前一帧的基础层图像和所述前一帧的增强层图像之间的偏移量参数；

对所述当前帧的基础层图像进行双线性插值上采样，得到当前帧的基础层图像的上采样图像，并根据第二卷积神经网络利用所述偏移量参数对所述当前帧的基础层图像的上采样图像进行修正，得到修正后的上采样图像；

计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，并根据第三卷积神经网络利用所述残差图像和所述修正后的上采样图像，计算出当前帧的增强层图像。

本申请的第二方面，提供了一种模型训练方法，所述模型训练方法包括：

设置可伸缩视频编码的多种量化参数或码率；

将视频按照每种所述量化参数或码率，分别进行可伸缩视频编码；

当在目标量化参数或码率的情况下，所述可伸缩视频编码的增强层发生丢包，则获取在所述目标量化参数或码率的情况下的当前帧的基础层图像、前一帧的基础层图像以及前一帧的增强层图像，并构建数据集；其中，所述目标量化参数或码率是所述多种量化参数或码率中的任意一种；

通过所述数据集对所述深度模型进行训练，直至得到收敛后的所述深度模型；其中，所述深度模型用于执行如上述的SVC的错误隐藏方法。

本申请的第三方面，提供了一种SVC的错误隐藏***，所述错误隐藏***包括：

图像获取单元，用于当视频的可伸缩视频编码的增强层发生丢包，获取当前帧的基础层图像、前一帧的基础层图像以及前一帧的增强层图像；

退化参数获取单元，用于根据第一卷积神经网络计算所述前一帧的基础层图像和所述前一帧的增强层图像之间的偏移量参数；

第一图像恢复单元，用于对所述当前帧的基础层图像进行双线性插值上采样，得到当前帧的基础层图像的上采样图像，并根据第二卷积神经网络利用所述偏移量参数对所述当前帧的基础层图像的上采样图像进行修正，得到修正后的上采样图像；

第二图像恢复单元，用于计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，并根据第三卷积神经网络利用所述残差图像和所述修正后的上采样图像，计算出当前帧的增强层图像。

本申请的第四方面，提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个计算机程序；

所述计算机程序被存储在所述存储器中，处理器执行所述至少一个计算机程序以实现：

如上述的SVC的错误隐藏方法和/或上述的模型训练方法。

本申请的第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如上述的SVC的错误隐藏方法和/或上述的模型训练方法。

本申请的第一方面，提供了一种SVC的错误隐藏方法，本方法利用卷积神经网络充分提取前一帧基础层和增强层图像对中的偏移量参数，进而利用这个参数来修正当前帧的基础层图像的上采样图像，从而提升增强层错误隐藏的效果。本方法还先计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，然后通过卷积神经网络融合残差图像和修正后的上采样图像，充分利用时域和空域的相关性对修正后的上采样图像进行后处理，提升了增强层错误隐藏的效果。本方法还忽略编码标准的限制，适用范围大。

本申请的第二方面，提供了一种模型训练方法，本方法首先获取不同量化参数或码率的情况下可伸缩视频编码发生丢包的图像数据，利用图像数据训练深度模型直至收敛，通过该深度模型实现上述第一方面的SVC的错误隐藏方法。本方法利用不同QP参数或码率组合制作的数据集的数据分布的差异，提升深度模型的训练效果，提升深度模型错误隐藏的效果。

可以理解的是，上述第三方面至第五方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同，可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的可伸缩视频编码空间分层示意图；

图2是本申请提供的可伸缩视频编码的示意图；

图3是本申请提供的基础层直接上采样算法的示意图；

图4是本申请提供的基础层运动信息上采样算法的示意图；

图5是本申请一个实施例提供的SVC的错误隐藏方法的流程示意图；

图6是图5中步骤S103的流程示意图；

图7是本申请一个实施例提供的普通的卷积运算示意图；

图8是本申请一个实施例提供的可变形卷积示意图；

图9是图5中步骤S107的流程示意图；

图10是本申请另一个实施例提供的SVC的错误隐藏方法的逻辑框图；

图11是图10中Offset模块的逻辑框图；

图12是图10中Upsample模块的逻辑框图；

图13是图10中Fusion模块的逻辑框图；

图14是本申请另一个实施例提供的SVC的错误隐藏方法的流程示意图；

图15是本申请一个实施例提供的模型训练方法的流程示意图；

图16是本申请一个实施例提供的SVC的错误隐藏***的流程示意图；

图17是本申请一个实施例提供的电子设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

第一部分、基本技术概念介绍：

1、可伸缩编码（Scalable Video Coding，SVC）；

网络的异构、用户终端的差异等因素，使得原有的面向存储和电路交换的视频压缩算法，已经很难满足现代的IP网络，特别是无线网络的实时传输要求。对于直播或广播的场合，通常同一份实时编码的内容，会通过网络分发给很多不同的观众观看。上行的链路一般比较好保障，但对于成千上万观众的下行链路，就无法保证每一个下行链路都能有匹配带宽。

为了解决这些问题，JVT在H.264/AVC的标准中引入了SVC的扩展，随着视频编码标准的发展，在HEVC标准的第2个版本中也引入了可伸缩编码扩展（SHVC）。一般分层分为时间分层、空间分层和质量分层，为了降低码率，一般层与层之间存在着依赖关系。按照时间分层来说，奇数编号的帧可以是一层，偶数编号的帧是另外的增强层。当增强层丢失时，并不影响基础层的解码，对观看体验并不明显影响（相当于降低了帧率）。以空间分层来说如图1所示，基础层可以是720p的图像，加上增强层后可以形成1080p的图像。质量分层则是从画质方面体现，多层叠加后可以得到更清晰的画质。本申请实施例主要解决空间分层中出现的丢包问题。

SVC的技术应用可以分为两点，这也是SVC技术的优势。第一点是，SVC由于其特点可以适应与客户端性能受限和网络环境受限的场景。比如有些客户端会限制解码的计算复杂度，这个时候在只解码基础层也能获得一定质量的图像，也就是说客户端可以根据自己的情况来对解码复杂度和质量之间做选择，而单一流的解码就做不到这一点。另外有些网络环境会限制带宽，在使用MANE(Media-aware Network element)的网络中，可以选择丢弃增强层的数据包来限制带宽和流量。总结来说，这一特点给予了终端一定选择的空间。第二点是，SVC相比于单一流传输来说有更好的抗丢包性能。一般SVC的基础层会给予更多的错码保护，所以一般假设丢包概率会比较小。由于增强层的编码参考了基础层，所以即使发生丢包也能从基础层有限的恢复，保证一定的质量。

2、卷积神经网络（Convolutional Neural Network，CNN）；

CNN是一种前馈神经网络，最早在1986年BP算法中提出，是目前应用最广的深度学习网络框架。卷积神经网络的一般由卷积层、池化层和激活函数构成。使用一个卷积神经网络模型需要除了需要基本的模块之外，还需要构建损失函数，最后使用基于梯度回归的反向传播算法在大量的数据上进行训练达到收敛。卷积神经网络由于在提取图像特征方面有优越的性能，所以在图像分类、目标识别、目标检测等领域得到了非常广泛的应用。

3、评价指标；

对图像的评价根据主客观可以分为主观评价和客观评价。目前比较常用的评价指标有PSNR、SSIM和vmaf。其中PSNR和SSIM都是客观评价，而vmaf是利用机器学习技术得到的一种和主观比较接近的指标。

4、图像超分或视频超分；

如果把下采样的过程表示成：

其中，D代表一个下采样函数或者叫做退化映射函数，

代表相应的高分辨率图像，

代表这个映射过程中的一些其他参数（例如：比例因子或者噪声项）。图像超分就是上述过程的逆过程，如下式：

其中，F就是超分的模型，

是模型的参数。

第二部分、现阶段技术缺陷介绍：

为解决空间分层中出现的丢包问题，有传统的几种SVC的错误隐藏算法，例如：基础层图像直接上采样算法、基础层运动信息上采样算法以及在此基础上的混合和改进算法。接下来详细解释这几种算法及其存在的问题：

由于SVC最常用的场景按照视频的分辨率大小进行分层编码，因此上述算法都在此场景下应用。如图2（

上标表示增强层，下标表示第t+1帧，

上标表示基础层）所示，假设基础层的图像没有丢包正常被解码，增强层图像t+1发生了丢包。算法的目的是最大程度恢复这一帧的图像内容。

如图3所示，基础层直接上采样算法是将

进行上采样作为

丢失后的补偿图像，上采样的方法可以采用例如线性插值上采样等传统的上采样算法。之所以这么做是因为图像

和

的图像内容是一样的区别在于分辨率不同，但是这种算法会导致图像高频信号的丢失，从而图像会产生模糊的现象。另外如果作为后续图像的参考帧也会引入后续解码图像的失真。

基础层运动信息上采样算法分为三个步骤，首先对基础层的运动矢量进行上采样（如图4所示），接着使用上采样的运动矢量信息进行增强层的运动补偿，最后将基础层的残差信息上采样与第二步运动补偿的图像相加得到最后的结果。这么做的原因是，因为基础层和增强层的纹理信息相似，所以使用运动估计的结果也应该相似，使用基础层运动矢量上采样的方法可以一定程度恢复增强层的运动信息从而达到补偿的目的。但是这种方法的缺点也很明显，如表1实验统计的数据显示，基础层的运动信息上采样之后与增强层实际的运动信息相差还是很大，而且增强层中的I块（帧内编码块）运动矢量为0、参考基础层的块运动矢量无法通过上采样基础层运动信息得到，因此这种方法存在很大的误差。虽然有些论文希望通过一些方式来缓解这些难题，例如使用残差的能量（方差）来决定是否选用基础层上采样的信息，但是取得的效果很有限。

表1

由于不同的标准所使用的运动估计算法不一样，所以运动矢量的精确度也不同由此也会使得同一种基于运动矢量信息的错误隐藏算法的性能有很大的差别，需要对相应的标准重新设计，所以算法存在着很大的局限性。

综上所述，现阶段针对SVC的错误隐藏方法还存在如下缺陷：

1)构建主要来自于经验，利用的主要是编码时的一些信息，对于时域和空域的信息利用都不够充分，错误隐藏的效果较差：

第三部分、本申请实施例介绍：

参照图5，本申请的一个实施例，提供了一种SVC的错误隐藏方法，本方法包括如下步骤S101、步骤S103、步骤S105和步骤S107：

步骤S101、当目标视频的可伸缩视频编码的增强层发生丢包，获取当前帧的基础层图像、前一帧的基础层图像以及前一帧的增强层图像。

步骤S103、根据第一卷积神经网络计算前一帧的基础层图像和前一帧的增强层图像之间的偏移量参数。

步骤S105、对当前帧的基础层图像进行双线性插值上采样，得到当前帧的基础层图像的上采样图像，并根据第二卷积神经网络利用偏移量参数对当前帧的基础层图像的上采样图像进行修正，得到修正后的上采样图像。

步骤S107、计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，并根据第三卷积神经网络利用残差图像和修正后的上采样图像，计算出当前帧的增强层图像。

在本实施例的步骤S101中，目标视频是指当前需要编解码处理的视频数据。当目标视频在增强层发生丢包后，先获取当前帧的基础层图像，还有前一帧的基础层图像以及前一帧的增强层图像，这里可通过编码器获取图像，具体内容不再细述。

在本实施例的步骤S103中，由于是针对视频的错误隐藏处理，所以除了单帧的基础层图像做超分以外（现阶段有通过基础层图像做超分以恢复出增强层图像），还可以利用之前正常解码帧的信息来提升错误隐藏的效果（因为当前帧和前一帧在时间上相邻，所以相邻帧的低分辨率图像和高分辨率图像中的像素之间的相关关系和当前帧中像素的相关关系也相似）；而且基于深度学习的卷积神经网络可以充分的提取图像的特征，自适应的使用相邻像素之间的相关性，从而提升上采样的效果。因此本步骤利用卷积神经网络学习前一帧的基础层图像和前一帧的增强层图像之间的偏移量参数（即退化参数或偏移量矩阵），通过该偏移量参数来对步骤S105的上采样图像进行修正，以提升错误隐藏的效果。

如图6所示，在一些实施例的步骤S103中，具体包括如下步骤S1031至S1033：

步骤S1031、对前一帧的基础层图像进行双线性插值上采样，得到前一帧的基础层图像的上采样图像。

步骤S1032、将前一帧的基础层图像的上采样图像和前一帧的增强层图像拼接融合，得到融合图像。

步骤S1033、将融合图像输入至第一卷积神经网络中，得到第一卷积神经网络输出的偏移量参数；其中，第一卷积神经网络由线性的卷积层和PReLU激活层组成。

在一些具体实施例中，第一卷积神经网络如图11所示。

在本实施例的步骤S105中，首先对基础层的图像进行上采样，得到上采样图像。在得到当前帧的基础层图像的上采样图像后，然后将步骤S103得到的偏移量参数和当前帧的基础层图像的上采样图像作为输入参数，输入至卷积神经网络中，得到卷积神经网络输出的修正后的上采样图像。本步骤利用步骤S103从相邻帧的基础层和增强层的关系中提取的特征，结合卷积神经网络对当前帧基础层进行上采样，能够获得更好的错误隐藏的效果。

在一些实施例的步骤S105中，第二卷积神经网络为可变形卷积神经网络。

因为卷积运算根据卷积核的大小和设计可以提取图像的不同特征，普通的卷积运算如图7所示。卷积的结果每个像素的值由周围像素根据卷积核计算而来，但是普通的卷积运算的卷积核的形状是固定的一般都是矩形，然而实际物体的形状是不规则的，如果使用更大的卷积核可以获得更大的感受野，但是也会提升运算的复杂度，因此本实施例中使用可变形卷积，在不提升过多计算复杂度的情况下，提升卷积运算的灵活性，从而适应更复杂的形态变化。可变形卷积通过对普通的卷积引入一个offset来提升卷积运算的感受野，如图8所示，可变形卷积在普通卷积运算的基础之上在每个位置引入了一个偏移量，使得卷积核的形状有一定的灵活性。相较于上述实施例，本实施例利用“可变形卷积”的特性能够提升错误隐藏的效果。

在本实施例的步骤S107中，由于增强层各图像之前存在时间的相关性，所以可以对超分的图像进行后处理进一步提升效果。于是，本步骤首先计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像；然后将残差图像和修正后的上采样图像作为输入参数，输入至卷积神经网络中，得到卷积神经网络输出的当前帧的增强层图像。本步骤将当前帧的基础层图像的上采样图像和前一帧计算出的残差图像进行融合，充分利用时域和空域的相关性，提升错误隐藏的准确性。

参照图9，在一些实施例的步骤S107中，计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，包括如下步骤S1071和S1072：

步骤S1071、将前一帧的增强层图像进行双线性插值上采样，得到前一帧的增强层图像的上采样图像。

步骤S1072、计算前一帧的增强层图像的上采样图像和前一帧的基础层图像之间的残差图像。

参照图13，在一些实施例的步骤S107中，第三卷积神经网络包括第一卷积神经子网络、第二卷积神经子网络和第三卷积神经子网络，第一卷积神经子网络、第二卷积神经子网络和第三卷积神经子网络的网络结构相同，且第一卷积神经子网络由线性的卷积层和PReLU激活层组成；根据第三卷积神经网络利用残差图像和修正后的上采样图像，计算出当前帧的增强层图像，包括如下步骤S1073至S1076：

步骤S1073、将残差图像输入至第一卷积神经子网络，得到第一卷积神经子网络输出的第一子图像。

步骤S1074、将修正后的上采样图像输入至第二卷积神经子网络，得到第二卷积神经子网络输出的第二子图像。

步骤S1075、将第一子图像和第二子图像拼接融合，得到第三子图像。

步骤S1076、将第三子图像输入至第三卷积神经子网络，得到第三卷积神经子网络输出的当前帧的增强层图像。

步骤S1071至S1072计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像；步骤S1073至S1076利用深度卷积神经网络将当前帧的基础层图像的上采样图像和前一帧计算出的残差图像进行融合并在融合后再充分提取特征，充分的利用了时域和空域的相关性，提升错误隐藏的准确性。

在一些实施例的步骤S101之前，本方法还包括如下步骤：

判断目标视频的可伸缩视频编码的基础层是否丢包，当基础层没有丢包，则解码视频；当基础层发生丢包，则重传目标视频的数据包。

与步骤S101至S105不同的是，本步骤围绕判断基础层是否丢包，当没有发生丢包，则继续解码视频并需要判断增强层是否丢包，并执行步骤S101至S105。当发生丢包，则重传目标视频的数据包。

本方法实施例具有如下有益效果：

（1）基于深度学习的卷积神经网络可以充分的提取图像的特征，自适应的使用相邻像素之间的相关性，从而提升上采样的效果；而且由于当前帧和前一帧在时间上相邻，所以相邻帧的低分辨率图像和高分辨率图像中的像素之间的相关关系（退化参数或偏移量参数）和当前帧中像素的相关关系也相似。因此，本方法利用卷积神经网络充分提取前一帧基础层和增强层图像对中的偏移量参数，进而利用这个参数来修正当前帧的基础层图像的上采样图像，从而提升增强层错误隐藏的效果。

（2）本方法充分利用时域和空域的相关性对修正后的上采样图像进行后处理，即先计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，然后通过卷积神经网络融合残差图像和修正后的上采样图像，从而提升增强层错误隐藏的效果。

（3）相较于传统卷积神经网络，本方法利用可变形的卷积神经网络结合偏移量参数对当前帧的基础层图像的上采样图像进行修正，可变形卷积在普通卷积运算的基础之上在每个位置引入了一个偏移量，使得卷积核的形状有一定的灵活性，基于该特征能够提升增强层错误隐藏的效果。

（4）传统的SVC的错误隐藏算法一般针对特定的视频编码标准进行设计，所利用的特性也来自于对应的编码标准，所以通用性不强。使用SVC思想的编码标准有H.264、H.265、LCEVC等，每种编码标准差异很大，例如H.264和H.265关于块划分的方式就存在差异，所以得到运动矢量也会有差异，在H.264当中使用运动矢量进行错误隐藏的效果和H.265就不一样。本方法可以忽略编码标准的限制，适用范围大。

参照图10至图14，本申请的一个实施例，提供了一种SVC的错误隐藏方法，包括如下步骤：

步骤S201、判断目标视频在SVC编码过程中是否丢包；

步骤S202、当没有发生丢包，则正常解码，并结束流程；

步骤S203、当基础层发生丢包，则重传；

步骤S204、当增强层发生丢包，则根据量化参数或码率选择对应的深度模型。

关于步骤S204，需要注意的是：在视频编码的过程中是通过QP(量化参数)或码率（与QP是相反的）来控制量化过程，而量化过程直接影响的是图像的损失，QP越大视频编码带来的损失会越大。量化参数是在视频编码一开始就需要指定的，在本实施例中SVC分成了两层进行编码，需要对每一层指定相应的QP进行编码，通过不同的参数组合进行编解码制作了不同的数据集（见数据集制作部分），进而在不同的数据集上训练得到对应的模型。之所以这么做，是因为不同QP参数组合制作的数据集的数据分布会存在差异，所以针对性的训练得到的深度模型效果会更好，因此在实际使用的时候也需要选择相应参数下训练好的深度模型才能获得更好的效果。

步骤S205、通过步骤S204选择的深度模型执行如下步骤S2051至S2053：

参照图10，在本申请实施例中，深度模型中包括三个模块，分别命名为：Offset（图中为偏移量）模块、Upsample（图中为上采样）模块和Fusion（图中为融合）模块。如图11至图13，三个模块分别执行步骤S2051、S2052、S2053。其中，

表示第t帧的基础层的图像，

表示第t帧的增强层图像，类似的

表示第t+1帧的基础层图像，

表示使用错误隐藏算法恢复的第t+1帧的图像。

步骤S2051、使用Offset模块从输入的数据

和

当中计算出一个偏移量矩阵。

具体计算过程如图11所示，首先对

进行双线性插值上采样并与

拼接，然后通过一个线性的由卷积层和PReLU激活层组成的卷积神经网络得到offset偏移矩阵。

步骤S2052、使用Upsample模块结合第一步中计算出的偏移量矩阵对

进行上采样。

Upsample模块的目的是使用offset矩阵作为变形卷积的参数，使用变形卷积对

上采样的图像进行修正。具体计算过程如图12所示，首先对

进行双线性插值上采样，然后使用可变性卷积结合offset参数矩阵对上采样的图像进行一次卷积操作得到图像F。

步骤S2053、使用Fusion模块将

和

计算得到的残差矩阵与步骤S2052中计算得到的上采样图像进行融合得到最终结果。

Fusion模块的目的是利用残差信息进一步优化图像F的恢复效果。具体计算过程如图13所示，首先计算

与上采样之后

的残差，然后残差信息和图像F都通过一个由卷积层和激活层组成的线性的卷积神经网络，最后进行后处理模型得到最终的恢复的图像

。

本方法实施例具有如下有益效果：

本方法的应用场景当中，相邻帧的低分辨率图像和高分辨率图像的参考可以作为当前帧上采样的参考信息加以利用，这是因为时间上相邻，所以相邻帧中的像素之间的相关关系和当前帧中像素的相关关系也是相似的。所以结合“可变形卷积”的特性，创新性地提出从前一组相邻帧的基础层和增强层图像中学习offset并以此指导当前帧的卷积运算，并进一步利用残差信息结合卷积网络优化恢复效果。本方法有效地提升了上采样的效果进而提升了错误隐藏的效果。

以下提供一组实验结果来证明本申请实施的有效性：

1、实施例的实验环境；

本实施例整个深度模型的训练和测试平台的软硬件具体配置如下表2所示。

表2

2、数据集的制作；

制作训练数据集使用JianingDeng等人在论文“Spatio-Temporal DeformableConvolution for Compressed Video Quality Enhancement”中给出的公开未压缩的130个原始视频序列数据，这些原始视频序列包括了各种分辨率和各种视频内容，它们基本上来自Xiph和VQEG这两大数据库。

这里，选取其中的108个序列作为训练的视频序列集，其余的作为验证的视频序列集。首先，使用SHM-12.4中默认的LowDelay-P的配置在基础层和增强层QP为{26，26}{30，30}{34，34}和{38，38}四个条件下分别进行编解码。接着按照{

}组成一组数据，其中前三个作为输入，最后一个作为目标值。训练时，每组数据的尺寸分别是{64x64, 128x128, 64x64, 128x128}。通过随机裁剪最后将数据扩增为322570条。测试集使用了标准的测试序列，考虑到显存的限制，只测试了分辨率为1080p的几个序列。测试之前也使用相同的参数对序列进行编解码。

测试序列如下表3所示：

表3

训练参数设置如下表4所示：

表4

3、实施例的实验结果；

为了评估本实施例性能，所以测试过程中假设每一帧的增强层都发生了丢失，但是丢失帧前一帧可以正常解码。即在测试第t+1帧错误隐藏的效果的时候，假设第t帧的基础层和增强层都能正常的解码。为了对比效果，同时测试了基础层上采样算法（BL-UP）、帧拷贝算法（Frame Copy）、基础层运动信息上采样方法（BL-Skip）和本实施例方案。实验的结果如下表5所示。可以发现，在各个测试条件下，基于深度学习的错误隐藏算法都取得了超越传统方法的效果。

表5

参照图15，本申请一个实施例提供了一种模型训练方法，本方法包括如下步骤S301至S304：

步骤S301、设置可伸缩视频编码的多种量化参数或码率。

步骤S302、将历史视频按照每种量化参数或码率，分别进行可伸缩视频编码。

步骤S303、当在目标量化参数或码率的情况下，可伸缩视频编码的增强层发生丢包，则获取在目标量化参数或码率的情况下的当前帧的基础层图像、前一帧的基础层图像以及前一帧的增强层图像，并构建数据集；其中，目标量化参数或码率是多种量化参数或码率中的任意一种。

步骤S304、通过数据集对深度模型进行训练，直至得到收敛后的深度模型；其中，深度模型用于执行如上述实施例的SVC的错误隐藏方法。

这里的历史视频是指用于作为数据集中数据来源的视频。

请参照图16，图16是本申请一些实施例提供的一种SVC的错误隐藏***的***框图。在一些实施例中，错误隐藏***1000包括图像获取单元1100、退化参数获取单元1200、第一图像恢复单元1300和第二图像恢复单元1400，其中：

图像获取单元1100用于当目标视频的可伸缩视频编码的增强层发生丢包，获取当前帧的基础层图像、前一帧的基础层图像以及前一帧的增强层图像。

退化参数获取单元1200用于根据第一卷积神经网络计算前一帧的基础层图像和前一帧的增强层图像之间的偏移量参数。

第一图像恢复单元1300用于对当前帧的基础层图像进行双线性插值上采样，得到当前帧的基础层图像的上采样图像，并根据第二卷积神经网络利用偏移量参数对当前帧的基础层图像的上采样图像进行修正，得到修正后的上采样图像。

第二图像恢复单元1400用于计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，并根据第三卷积神经网络利用残差图像和修正后的上采样图像，计算出当前帧的增强层图像。

需要说明的是，本申请实施例的SVC的错误隐藏***与前述的SVC的错误隐藏方法是基于同一个发明构思，因此，本申请实施例的SVC的错误隐藏***与前述的SVC的错误隐藏方法相对应，具体的实现过程请参照前述的SVC的错误隐藏方法，在此不再赘述。

参照图17，本申请实施例还提供了一种电子设备，本电子设备包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

程序被存储在存储器中，处理器执行至少一个程序以实现本公开实施上述的SVC的错误隐藏方法。

该电子设备可以为包括手机、平板电脑、个人数字助理（Personal DigitalAssistant，PDA）、车载电脑等任意智能终端。

本申请实施例的电子设备，用于执行上述SVC的错误隐藏方法，利用卷积神经网络充分提取前一帧基础层和增强层图像对中的偏移量参数，进而利用这个参数来修正当前帧的基础层图像的上采样图像，从而提升增强层错误隐藏的效果。还先计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，然后通过卷积神经网络融合残差图像和修正后的上采样图像，充分利用时域和空域的相关性对修正后的上采样图像进行后处理，提升了增强层错误隐藏的效果。

下面结合图17对本申请实施例的电子设备进行详细介绍。

如图17，图17示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器1600，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器1700，可以采用只读存储器（Read Only Memory，ROM）、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器1700可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1700中，并由处理器1600来调用执行本公开实施例的SVC的错误隐藏方法。

输入/输出接口1800，用于实现信息输入及输出；

通信接口1900，用于实现本设备与其他设备的通信交互，可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信；

总线2000，在设备的各个组件（例如处理器1600、存储器1700、输入/输出接口1800和通信接口1900）之间传输信息；

其中处理器1600、存储器1700、输入/输出接口1800和通信接口1900通过总线2000实现彼此之间在设备内部的通信连接。

本公开实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述SVC的错误隐藏方法。

本申请实施例的存储介质，用于执行上述SVC的错误隐藏方法，利用卷积神经网络充分提取前一帧基础层和增强层图像对中的偏移量参数，进而利用这个参数来修正当前帧的基础层图像的上采样图像，从而提升增强层错误隐藏的效果。还先计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，然后通过卷积神经网络融合残差图像和修正后的上采样图像，充分利用时域和空域的相关性对修正后的上采样图像进行后处理，提升了增强层错误隐藏的效果。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory， ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序的介质

以上是对本申请实施例的较佳实施进行了具体说明，但本申请实施例并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请实施例精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请实施例权利要求所限定的范围内。

Claims

1.一种SVC的错误隐藏方法，其特征在于，所述错误隐藏方法包括：

当目标视频的可伸缩视频编码的增强层发生丢包，获取当前帧的基础层图像、前一帧的基础层图像以及前一帧的增强层图像；

根据第一卷积神经网络计算所述前一帧的基础层图像和所述前一帧的增强层图像之间的偏移量参数；其中，所述根据第一卷积神经网络计算所述前一帧的基础层图像和所述前一帧的增强层图像之间的偏移量参数，包括：

对所述前一帧的基础层图像进行双线性插值上采样，得到前一帧的基础层图像的上采样图像；

将所述前一帧的基础层图像的上采样图像和所述前一帧的增强层图像拼接，得到拼接图像；

将所述拼接图像输入至所述第一卷积神经网络中，得到所述第一卷积神经网络输出的偏移量参数；其中，所述第一卷积神经网络由线性的卷积层和PReLU激活层组成；其中，所述偏移量参数是指偏移量矩阵；

对所述当前帧的基础层图像进行双线性插值上采样，得到当前帧的基础层图像的上采样图像，并根据第二卷积神经网络利用所述偏移量参数对所述当前帧的基础层图像的上采样图像进行修正，得到修正后的上采样图像；其中，所述第二卷积神经网络为可变形卷积神经网络；

计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，并根据第三卷积神经网络利用所述残差图像和所述修正后的上采样图像，计算出当前帧的增强层图像；其中，所述计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像包括：

将所述前一帧的基础层图像进行双线性插值上采样，得到前一帧的基础层图像的上采样图像；

计算所述前一帧的基础层图像的上采样图像和所述前一帧的增强层图像之间的残差图像。

2.根据权利要求1所述的SVC的错误隐藏方法，其特征在于，所述第三卷积神经网络包括第一卷积神经子网络、第二卷积神经子网络和第三卷积神经子网络，所述第一卷积神经子网络、所述第二卷积神经子网络和所述第三卷积神经子网络的网络结构相同，且所述第一卷积神经子网络由线性的卷积层和PReLU激活层组成；所述根据第三卷积神经网络利用所述残差图像和所述修正后的上采样图像，计算出当前帧的增强层图像，包括：

将所述残差图像输入至所述第一卷积神经子网络，得到所述第一卷积神经子网络输出的第一子图像；

将所述修正后的上采样图像输入至所述第二卷积神经子网络，得到所述第二卷积神经子网络输出的第二子图像；

将所述第一子图像和所述第二子图像拼接，得到第三子图像；

将所述第三子图像输入至所述第三卷积神经子网络，得到所述第三卷积神经子网络输出的当前帧的增强层图像。

3.根据权利要求1至2任一项所述的SVC的错误隐藏方法，其特征在于，在所述当目标视频的可伸缩视频编码的增强层发生丢包之前，所述错误隐藏方法还包括：

判断目标视频的可伸缩视频编码的基础层是否丢包，当所述基础层没有丢包，则解码所述视频；当所述基础层发生丢包，则重传所述目标视频的数据包。

4.一种模型训练方法，其特征在于，所述模型训练方法包括：

设置可伸缩视频编码的多种量化参数或码率；

将历史视频按照每种所述量化参数或码率，分别进行可伸缩视频编码；

通过所述数据集对深度模型进行训练，直至得到收敛后的所述深度模型；其中，所述深度模型用于执行如权利要求1至3任一项所述的SVC的错误隐藏方法。

5.一种SVC的错误隐藏***，其特征在于，所述错误隐藏***包括：

图像获取单元，用于当目标视频的可伸缩视频编码的增强层发生丢包，获取当前帧的基础层图像、前一帧的基础层图像以及前一帧的增强层图像；

退化参数获取单元，用于根据第一卷积神经网络计算所述前一帧的基础层图像和所述前一帧的增强层图像之间的偏移量参数；其中，所述根据第一卷积神经网络计算所述前一帧的基础层图像和所述前一帧的增强层图像之间的偏移量参数，包括：

第一图像恢复单元，用于对所述当前帧的基础层图像进行双线性插值上采样，得到当前帧的基础层图像的上采样图像，并根据第二卷积神经网络利用所述偏移量参数对所述当前帧的基础层图像的上采样图像进行修正，得到修正后的上采样图像；其中，所述第二卷积神经网络为可变形卷积神经网络；

第二图像恢复单元，用于计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像，并根据第三卷积神经网络利用所述残差图像和所述修正后的上采样图像，计算出当前帧的增强层图像；其中，所述计算前一帧的增强层图像和前一帧的基础层图像之间的残差图像包括：

6.一种电子设备，其特征在于，包括：

至少一个存储器；

至少一个处理器；

至少一个计算机程序；

如权利要求1至3任一项所述的SVC的错误隐藏方法和/或权利要求4所述的模型训练方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：