CN114051137A

CN114051137A - 一种空间可分级视频编码方法及解码方法

Info

Publication number: CN114051137A
Application number: CN202111193953.0A
Authority: CN
Inventors: 李国平; 王国中; 范涛; 侯世维; 商习武; 方中华; 沈怡君
Original assignee: Shanghai University of Engineering Science
Current assignee: Shanghai University of Engineering Science
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-02-15

Abstract

本发明属于编解码的技术领域，公开了一种空间可分级视频编码方法，以视频图像中的各帧图像作为原始图像，将原始图像采用下采样方法得到各级增强层图像和基本层图像，其中，基本层图像为最下层，其他层为增强层图像；对基本层图像采用已有视频编码标准进行编码，输出基本层编码数据流，然后，采用图像超分技术和图像复原技术，计算当前增强层图像编码时需要的两个参考图像，从下至上逐一对各级增强层图像进行编码，输出各级增强层编码数据流，逐帧完成视频图像的编码。还公开了一种空间可分级视频图像解码方法。

Description

一种空间可分级视频编码方法及解码方法

技术领域

本发明属于视频编解码的技术领域，具体涉及一种空间可分级视频编码方法及解码方法。

背景技术

可分级编码是实现渐进编码的一种重要技术途径。编码器产生的码流包含一个或多个可以单独解码的子码流，子码流可以具有不同的码率，帧率和空间分辨率，其码流一般可分为一个基本层和若干增强层，基本层的传输优先级最高，应确保收到，当信道条件允许时，随着各增强层码字的接收解码，图像质量将不断提高。有空域、时域、信噪比可分级等方式：

时域可分级(Temporal scalability)：可以从码流中提出具有不同帧频的码流。

空间可分级(Spatial scalability)：可以从码流中提出具有不同图像尺寸的码流。

质量可分级(Quality scalability)：可以从码流中提出具有不同图像质量的码流。

H.264SVC(Scalable Video Coding)是以H.264为基础，在语法和工具集上进行了扩展，支持具有分级特性的码流，H.264SVC是H.264标准的附录G，同时作为H.264新的profile，H.264SVC在2007年10月成为正式标准，SHVC(SVC for HEVC)也于2014年10月纳入H.265标准附录H。

SVC在设计上有几处不足，首先，SVC EL宏块语法和解码过程与AVC完全不一样，无法在AVC解码器不经过更改的情况下直接解码SVC，甚至连BL都解码不了；其次，为了权衡计算负载与内存占用，SVC解码端有一个单循环约束(single-loop decoding constraint)，好处是无需解码所有层或重建所有RL就可以解码最高层图像，所带来的问题是它可以包含所有层帧内预测的编码宏块，但是不能包含所有层帧间预测的编码宏块，所以一旦EL某宏块使用了IntraBL，层间预测也必须从RL对应的帧内预测编码宏块进行，受约束的帧内预测用于RL的所有帧，RL的空间帧内预测只能在帧内预测编码空间的相邻块去寻找，不能从帧间预测编码空间的相关位置宏块中寻找；最后，不能在传输过程中任意时刻进行向下层级的转换，如果解码器一直在EL解码，那么在BL解码是不充分的，如果网络适应性优化策略在带宽不足的情况下把EL给丢弃了，那么BL也无法解码了，因为BL的时域参考没有了。

针对于SVC的不足，SHVC提出了新的思路，有两个指导原则：一是BL尽量做的通用，尽量在高层语法上而不是底层实现上做修改调整；二是继续高效发掘ILP来提升EL编码效率。

SHVC的BL有带内带外两种传输手段，前者需要解码器解复用，但解码本身就是标准的HEVC解码器；EL层解码器和标准的HEVC解码器差距仅仅是片头级或更高层语法的不同，块级逻辑都是相同的，这就满足了第一个原则。层间处理主要关注点在于如何用BL的DPB生成EL的DPB之间，这就使层间处理与每一层的编码解耦，此外和SVC的one-loop解码不同，SHVC使用multi-loop解码，允许了层间预测使用RL参考区域的所有像素点，为第二个原则奠定好了架构基础。SHVC显然比较SVC在编码效率上和通用性上更好，但是编解码复杂度上都有很大增加，给未来的实际应用带来了很大挑战，如对于一个8K视频来说，要实现空间可分级需要分别对1K，2K，4K，8K进行编解码，这样给实际应用带来了很多的计算量。

发明内容

本发明提供了一种空间可分级视频编码方法及解码方法，极大降低了超高清编解码的计算量，极大降低了超高清视频的码率，同时具有可分级编码在传输应用中的网络适应性。

本发明可通过以下技术方案实现：

一种空间可分级视频编码方法，以视频图像中的各帧图像作为原始图像，将原始图像采用下采样方法得到各级增强层图像和基本层图像，其中，基本层图像为最下层，其他层为增强层图像；对基本层图像采用已有视频编码标准进行编码，输出基本层编码数据流，然后，采用图像超分技术和图像复原技术，计算当前增强层图像编码时需要的两个参考图像，从下至上逐一对各级增强层图像进行编码，输出各级增强层编码数据流，逐帧完成视频图像的编码。

进一步，所述两个参考图像分别定义为第一参考图像和第二参考图像，通过对下一级的编码重建图像进行基于深度学习的视频图像超分处理，获得与当前增强层图像的分辨率相同的超分图像即为第一参考图像；

将当前增强层图像所在帧之前的一帧或者多帧对应的增强层的编码重建图像与第一参考图像经过图像复原技术产生的图像即为第二参考图像。

进一步，将所需编码的当前增强层图像划分成包含N*N个像素的编码块，以编码块为单位进行编码，根据当前编码块图像，从两个所述参考图像对应位置中择优选择一个参考块图像作为预测块图像，将当前编码块图像与预测块图像相减得到残差块图像；在残差块图像中根据率失真优化代价选择不同形状的多个变换块；最后对当前编码块中所有变换块依次进行变换、量化和熵编码，输出当前编码块图像编码数据流，最终输出当前增强层编码数据流。

进一步，分别计算两个所述参考块图像与当前编码块图像之间的绝对误差和SAD、或者峰值信噪比PSNR或者结构相似性SSIM，比较计算结果择优选择一个参考块图像作为预测块图像。

进一步，从下至上、每相邻两层之间的图像分辨率的比例关系设置为偶数倍。

一种基于上文所述的空间可分级视频编码方法的空间可分级视频图像解码方法，采用已有视频解码标准对基本层编码数据流进行解码，获得基本层图像；

然后从下至上依次计算增强层的两个参考图像，以编码块为单位，对各级增强层编码数据流进行熵解码、反量化、反变换，得到对应各级增强层图像中对应的残差块图像，再根据编码时记录在编码块中的参考块图像索引信息，从两个参考图像对应位置中确定预测块图像，最后将所述预测块图像和残差块图像相加输出当前编码块重建图像即为解码块图像，逐个编码块进行解码完成整帧图像的解码，再逐帧完成视频图像的解码。

进一步，对下一级的解码图像进行基于深度学习的视频图像超分处理，得到与当前解码图像具有相同分辨率大小的超分图像即为第一参考图像，同时通过当前解码图像所在帧之前的一帧或者多帧对应解码图像和第一参考图像经过图像复原技术产生图像即为第二参考图像。

进一步，从各级增强层编码数据流中获得每个编码块信息、每个编码块中所有变换块类型和参考块图像索引信息，以及残差系数和量化步长QP；然后根据编码块中所有变换块的残差系数进行熵解码，再根据量化步长QP对熵解码数据进行反量化，对所有变换块的反量化数据进行反变换，得到对应各级增强层图像中各个解码块对应的残差块图像。

本发明有益的技术效果在于：

1、可实现空间可分级性编码，在网络传输应用中具有很强的网络适应性。

2、仅仅在基本层使用已有视频编码标准方法，在增强层只需要变换量化熵编码，没有计算复杂的运动估计模式选择，极大降低了超高清编解码的计算量。

3、仅仅在基本层使用视频编码标准方法产生基本层码流，在增强层只有少量的残差图像生产的码流，这样极大降低了超高清视频的码率。

附图说明

图1是本发明的编码流程示意框图；

图2是本发明的解码流程示意框图。

具体实施方式

下面结合附图及较佳实施例详细说明本发明的具体实施方式。

可分级编码在传输应用中具有很好的网络适应性，但是SHVC和SVC在编解码复杂度上都有很大提高，在编码效率上也有不少下降，这些给未来的实际应用带来了很大挑战。为了解决这个问题，本发明提出了一种空间可分级编码方法及解码方法，极大降低了超高清编解码的计算量，极大降低了超高清视频的码率，从而加速了超高清视频可分级编码的应用。

一、编码方法：

将视频图像中的各帧图像作为原始图像，采用下采样方法得到各级增强层图像和基本层图像，其中，基本层图像为最下层，其他层为增强层图像；对基本层图像采用已有视频编码标准进行编码，输出基本层编码数据流，然后，采用图像超分技术和图像复原技术，计算当前增强层图像对应的两个参考图像，从下至上逐一对各级增强层图像进行编码，输出各级增强层编码数据流，逐帧完成视频图像的编码。具体如下：

1.本发明空间可分级最大可分为6级，基本层BL的分辨率不能小于176x144即基本层的宽不小于176，高不小于144，最大支持16K分辨率图像。支持各种分辨率视频编码，每种分辨率格式也采用不同的分级方式；

2.各层级关系定义为：原始输入图像为最上层，由原始输入图像下采样得到各级增强层图像和基本层图像，基本层图像为最下层；从下至上、每相邻两层之间的图像分辨率的比例关系设置为偶数倍，如2倍，或4倍，或8倍，或16倍，或32倍；

3.如图1所示，首先采用已有的编码方法编码基本层视频图像，并且输出基本层编码数据流，可采用H.264、H265等各种已有视频编码标准方法，帧间编码结构为IPPPP；然后对增强层图像进行编码，输出增强层编码数据流，增强层编码仅仅需要下一层(基本层图像或者增强层图像)的编码重建图像，从而有效降低了对下层的数据依赖。

对于增强层编码，首先，对下一级(基本层图像或者增强层图像)的编码重建图像进行基于深度学习的视频图像超分处理，得到与当前增强层图像相同分辨率大小的超分图像即为第一参考图像，基于深度学习的视频和图像超分技术可以选择多个深度学习网络如EDVR，EDSR等实现，然后通过计算产生的超分图像与当然增强层图像之间的绝对误差和SAD、峰值信噪比PSNR或者结构相似性SSIM，比较计算结果选择最优的超分图像作为第一参考图像，同时通过当前增强层图像所在帧之前的一帧或者多帧对应的增强层的编码重建图像与第一参考图像经过基于深度学习的视频和图像复原技术(基于深度学习的图像复原技术如EDVR等)产生的图像即为第二参考图像，当前增强层图像所在帧之前的帧图像个数由最大编码参考帧数量决定；

然后，将所需编码的当前增强层图像划分成包含N*N(N＝16,32,64,128)个像素的编码块，以编码块为单位对当前增强层图像进行编码，根据当前编码块图像，从两个参考图像对应位置中择优选择一个参考块图像作为预测块图像，可通过计算第一和第二参考块图像与当前增强层编码块图像之间绝对误差和SAD、或者峰值信噪比PSNR或者结构相似性SSIM，比较计算结果选择最优的参考块图像作为预测块图像，将当前编码块图像与预测块图像相减得到残差块图像；在残差图像块中根据率失真优化代价选择不同形状的变换块TU；最后对编码块中所有变换块TU进行变换、量化和熵编码，输出增强层编码数据流，其变换、量化、熵编码可采用H.264，H265等已有的技术方法，可以采用基本层编码中相关技术，也可以采用与基本层编码中相关技术不同的技术实现。

每个编码块CU由不同大小形状的预测块PU组成，每个预测块PU可以选择不同的参考块图像，每个预测块PU由不同形状的变换块TU组成，根据不同尺寸变换块的率失真优化代价选择最优变换块TU尺寸类型；对编码块中所有变换块TU经过变换后量化时，每个变换块TU可以选择不同的量化步长QP，以达到更好编码效果。

二、解码方法

本发明还提供了一种基于上文所述的空间可分级视频编码方法的空间可分级视频图像解码方法，采用已有视频解码标准对基本层编码数据流进行解码，获得基本层图像；然后从下至上依次计算增强层的两个参考图像，以编码块为单位，对各级增强层编码数据流进行熵解码、反量化、反变换，得到对应各级增强层图像中对应的残差块图像，再根据编码时记录在编码块中的参考块索引信息，从两个参考图像对应位置中确定预测块图像，最后将该预测块图像和残差块图像相加输出当前编码块重建图像即为解码块图像，逐个编码块进行解码完成整帧图像的解码，再逐帧完成视频图像的解码。具体如下：

如图2所示，首先，采用现有的解码方法对基本层码流进行解码，并且输出基本层解码重建图像，如H.264、H265等各种已有的解码方法，帧间编码结构为IPPPP；然后对增强层码流进行解码，输出增强解码重建图像，增强层解码仅仅需要下一级(基本层或者增强层)解码后的重建图像，从而有效降低了对下层的数据依赖。

对增强层编码数据流进行解码时，首先，对下一级增强层或者基本层图像的解码图像进行基于深度学习的视频图像超分处理，得到与当前增强层图像的解码图像具有相同分辨率大小的超分图像即为第一参考图像，同时通过当前增强层图像的解码图像所在帧之前的一帧或者多帧对应解码图像和第一参考图像经过图像复原技术产生图像即为第二参考图像。

其次，对每个解码块CU中所有变换块TU进行熵解码、反量化、反变换，得到对应各级增强层的残差块图像，具体地从增强层编码数据流中获得每个编码块信息、每个编码块中所有预测块PU类型和参考块图像索引信息、每个编码块的所有变换块TU的残差系数和量化步长QP，然后根据解码块中所有变换块TU的残差系数进行熵解码，再根据量化步长QP对熵解码数据进行反量化，最后对所有变换块TU的反量化数据进行反变换，得到对应各级增强层图像中各个解码块对应的残差块图像；

然后根据预测块PU中参考块图像的索引信息，从第一参考图像和第二参考图像的对应位置中找到对应预测块PU的预测块图像，将该预测块图像和残差块图像相加输出当前编码块重建图像即为解码块图像，逐个编码块进行解码完成整帧图像的解码，再逐帧完成视频图像的解码。

注意：在对变换块TU解码时，反变换、反量化、熵解码采用H.264，H265等已有的技术方法。

下面以一个8K视频图像为例，详细说明本发明提出的空间可分级编解码方法的实施过程。

实施实例一：

编码过程实施如下：

1.采用5层空间分解，对应的各层分辨率分别为：基本层(BL0级)：480x270，增强层(EL1级)：960x540，增强层(EL2级)：1920x1080(2K)，增强层(EL3级)：3840x2160(4K)，增强层(EL4级)：7680x4320(8K)；每层之间分辨率比为2；

2.基本层采用H.264编码方法，帧间编码结构为IPPPP；

3.增强层编码先对下一级(基本层或者增强层)编码重建图像进行2倍基于深度学习的视频图像超分处理，得到与该级增强层相同分辨率大小的参考图像；同时通过当前增强层以前的编码重建图像和下一级(基本层或者增强层)编码重建图像的超分图像经过图像复原技术EDVR产生另外的参考图像；

然后，将所需编码的当前增强层图像划分成包含N*N(N＝16,32,64,128)个像素的编码块，以编码块为单位对当前增强层图像进行编码，根据当前编码块图像，从两个参考图像对应位置中择优选择一个参考块图像作为预测块图像，将当前编码块图像与预测块图像相减得到残差块图像；在残差图像块中根据率失真优化代价选择不同形状的变换块TU；最后对编码块中所有变换块TU进行变换，量化和熵编码，输出增强层码流；

4.增强层的参考图像通过对下层编码重建图像进行超分技术获得，通过计算EDVR和EDSR深度学习网络产生的超分图像与增强层输入图像之间PSNR，比较计算结果获得最优超分图像作为参考图像；

5.另外的参考图像通过当前增强层以前的编码重建图像和下一级(基本层或者增强层)编码重建图像的超分图像经过图像复原技术EDVR获得，如基于深度学习的图像复原技术EDVR等；

6.每个编码块由不同大小形状的PU组成，每个PU可以选择不同的参考图像；

7.对残差图像进行TU块划分，每个PU块由不同形状的TU块组成，根据不同尺寸变换块的率失真优化代价选择最优变换块尺寸类型；

8.对编码块中所有变换块经过变换后量化时，每个变换块可以选择不同的量化步长QP，以达到更好编码效果；

9.增强层对TU编码时，采用H265的变换，量化，熵编码方法实现。

解码过程实施如下：

1.基本层采用H.264解码方法，帧间编码结构为IPPPP；

2.增强层解码时，先对下一级增强层或者基本层图像的解码图像进行基于深度学习的视频图像超分处理，得到与当前增强层图像的解码图像具有相同分辨率大小的超分图像即为第一参考图像，同时通过当前增强层图像的解码图像所在帧之前的一帧或者多帧对应解码图像和第一参考图像经过图像复原技术产生图像即为第二参考图像；

以编码块为单位，对各级增强层编码数据流进行熵解码、反量化、反变换，得到对应各级增强层图像中对应的残差块图像，再根据编码时记录在编码块中的参考块索引信息，从两个参考图像对应位置中确定预测块图像，最后将该预测块图像和残差块图像相加输出当前编码块重建图像即为解码块图像，逐个编码块进行解码完成整帧图像的解码，再逐帧完成视频图像的解码；

3.从增强层编码数据流中获得每个编码块信息，每个编码块中所有预测块PU类型和参考块图像索引信息，每个编码块的所有变换块残差系数和量化步长QP；

4.根据编码块中所有变换块的残差系数进行熵解码，然后根据量化步长QP对熵解码数据进行反量化，最后对所有变换块的反量化数据进行反变换，得到残差块图像；

5.参考图像通过对下层图像进行超分技术获得，通过增强层解码数据流中指定的深度学习网络类型产生超分图像；

6.另外的参考图像通过当前增强层以前的解码重建图像和下一级(基本层或者增强层)解码重建图像的超分图像经过基于深度学习的视频图像复原技术EDVR获得；

7.增强层对TU解码时，反变换，反量化，熵解码采用H265技术方法实现。

实施实例二：

编码过程实施如下：

1.采用3层空间分解，对应的各层分辨率分别为：基本层(BL0级)：480x270，增强层(EL1级)：1920x1080(2K)，增强层(EL2级)：7680x4320(8K)；每层之间分辨率放大比为4；

2.基本层采用H.265编码方法，帧间编码结构为IPPPP；

4.增强层的参考图像通过对下层图像进行超分技术获得，通过计算EDVR和EDSR深度学习网络产生的超分图像与增强层输入图像之间SSIM，比较计算结果获得最优超分图像作为参考图像；

5.另外的参考图像通过当前增强层以前的编码重建图像和下一级(基本层或者增强层)编码重建图像的超分图像经过图像复原技术EDVR获得；

空间可分级解码实施如下：

1.基本层采用H.265解码方法，帧间编码结构为IPPPP；

3.从增强层解码数据流中获得每个编码块信息，每个编码块中所有PU块类型和参考图像索引信息，每个编码块的所有变换块残差系数和量化步长QP；

4.根据编码块中所有变换块的残差系数进行熵解码，然后根据量化步长QP对熵解码数据进行反量化，最后对所有变换块的反量化数据进行反变换，得到增强层残差图像；

6.另外的参考图像通过当前增强层以前的解码重建图像和下一级(基本层或者增强层)解码重建图像的超分图像经过图像复原技术EDVR获得；

本发明借助基于深度学习的视频图像超分技术和复原技术，结合下一级增强层图像以及当前增强层图像之前一帧或者多帧图像获得两个参考图像，从中选取一个最优的参考图像作为预测图像，进而得到当前增强层图像对应的残差图像，通过对残差图像进行编解码完成对整个视频图像的编解码，没有计算复杂的运动估计模式选择，极大降低了超高清编解码的计算量，在增强层只有少量的残差图像生产的码流，极大降低了超高清视频的码率，加速了超高清视频可分级编码的应用。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，在不背离本发明和实质的前提下，可以对这些实施方式做出多种变更或修改，因此，本发明的保护范围由所附权利要求书限定。

Claims

1.一种空间可分级视频编码方法，其特征在于：以视频图像中的各帧图像作为原始图像，将原始图像采用下采样方法得到各级增强层图像和基本层图像，其中，基本层图像为最下层，其他层为增强层图像；对基本层图像采用已有视频编码标准进行编码，输出基本层编码数据流，然后，采用图像超分技术和图像复原技术，计算当前增强层图像编码时需要的两个参考图像，从下至上逐一对各级增强层图像进行编码，输出各级增强层编码数据流，逐帧完成视频图像的编码。

2.根据权利要求1所述的空间可分级视频编码方法，其特征在于：所述两个参考图像分别定义为第一参考图像和第二参考图像，通过对下一级的编码重建图像进行基于深度学习的视频图像超分处理，获得与当前增强层图像的分辨率相同的超分图像即为第一参考图像；

3.根据权利要求2所述的空间可分级视频编码方法，其特征在于：将所需编码的当前增强层图像划分成包含N*N个像素的编码块，以编码块为单位进行编码，根据当前编码块图像，从两个所述参考图像对应位置中择优选择一个参考块图像作为预测块图像，将当前编码块图像与预测块图像相减得到残差块图像；在残差块图像中根据率失真优化代价选择不同形状的多个变换块；最后对当前编码块中所有变换块依次进行变换、量化和熵编码，输出当前编码块图像编码数据流，最终输出当前增强层编码数据流。

4.根据权利要求3所述的空间可分级视频编码方法，其特征在于：分别计算两个所述参考块图像与当前编码块图像之间的绝对误差和SAD或者峰值信噪比PSNR或者结构相似性SSIM，比较计算结果择优选择一个参考块图像作为预测块图像。

5.根据权利要求1所述的空间可分级视频编码方法，其特征在于：从下至上、每相邻两层之间的图像分辨率的比例关系设置为偶数倍。

6.一种基于权利要求1所述的空间可分级视频编码方法的空间可分级视频图像解码方法，其特征在于：采用已有视频解码标准对基本层编码数据流进行解码，获得基本层图像；

7.根据权利要求6所述的空间可分级视频图像解码方法，其特征在于：对下一级的解码图像进行基于深度学习的视频图像超分处理，得到与当前解码图像具有相同分辨率大小的超分图像即为第一参考图像，同时通过当前解码图像所在帧之前的一帧或者多帧对应解码图像和第一参考图像经过图像复原技术产生图像即为第二参考图像。

8.根据权利要求6所述的空间可分级视频图像解码方法，其特征在于：从各级增强层编码数据流中获得每个编码块信息、每个编码块中所有变换块类型和参考块图像索引信息，以及残差系数和量化步长QP；然后根据编码块中所有变换块的残差系数进行熵解码，再根据量化步长QP对熵解码数据进行反量化，对所有变换块的反量化数据进行反变换，得到对应各级增强层图像中各个解码块对应的残差块图像。