CN108174218A

CN108174218A - 基于学习的视频编解码框架

Info

Publication number: CN108174218A
Application number: CN201810064012.9A
Authority: CN
Inventors: 陈志波; 何天宇; 金鑫; 刘森
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2018-06-15
Anticipated expiration: 2038-01-23
Also published as: CN108174218B

Abstract

本发明公开了一种基于学习的视频编解码框架，包括：空时域重构内存，用于存储经编码与解码之后的重构视频内容；空时域预测网络，用于利用重构视频内容的空时域相关性，通过卷积神经网络以及循环神经网络对其建模，输出当前编码块的预测值；预测值与原始值相减形成残差；迭代分析器与迭代合成器，逐级对输入残差编解码；二值化器，将迭代分析器的输出量化为二值表示；熵编码器，对量化后的编码输出进行熵编码，后获得输出码流；熵解码器，对输出码流进行熵解码，后输出给迭代合成器。该编码框架，通过基于学习的VoxelCNN(空时域预测网络)实现了空时域的预测，并用残差迭代编码的方法实现视频编码率失真优化的控制。

Description

基于学习的视频编解码框架

技术领域

本发明涉及视频编解码技术领域，尤其涉及一种基于学习的视频编解码框架。

背景技术

现有的图像视频编码标准诸如：JPEG、H.261、MPEG-2、H.264、H.265，均基于混合编码框架。经过多年的发展，编码性能的提升伴随着复杂度的不断增加，进一步在现有混合编码架构下提升编码性能也面临越来越多的挑战。

但是，目前混合编码框架通常按照启发式的方法实现图像视频的优化编码，越来越难以满足当下诸如人脸识别、目标跟踪、图像检索等复杂、智能的媒体应用需求。

发明内容

本发明的目的是提供一种基于学习的视频编解码框架，可以实现视频编码率失真优化的控制。

本发明的目的是通过以下技术方案实现的：

一种基于学习的视频编解码框架，其特征在于，包括：编码端与解码端；其中编码端包括：空时域重构内存、空时域预测网络、迭代分析器、迭代合成器、二值化器、熵编码器以及熵解码器；

所述空时域重构内存，用于存储经编码与解码之后的重构视频内容；

所述空时域预测网络，用于利用重构视频内容的空时域相关性，通过卷积神经网络以及循环神经网络对其建模，输出当前编码块的预测值；

所述迭代分析器，包含卷积神经网络与循环神经网络结构，将所述空时域预测网络输出的预测值与原始相减形成的残差作为输入，输出为该残差的压缩表达；

所述迭代合成器，包含卷积神经网络与循环神经网络结构，接收熵解码器解码产生的上述残差的压缩表达，并叠加所述空时域预测网络输出的预测值，形成重构视频内容；

所述迭代分析器与迭代合成器，逐级对输入残差编解码，通过增加码流为代价逐步减少残差的失真程度，实现高低码流情况下不同失真程度的编码；

所述二值化器，将迭代分析器的输出量化为二值表示；

所述熵编码器，对量化后的编码输出进行熵编码，后获得输出码流；

所述熵解码器，对输出码流进行熵解码，后输出给迭代合成器。

由上述本发明提供的技术方案可以看出，集成了空时域预测与残差迭代编码方法，通过基于学习的VoxelCNN(空时域预测网络)实现了空时域的预测，并用残差迭代编码的方法实现视频编码率失真优化的控制。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于学习的视频编解码框架示意图；

图2为本发明实施例提供的视频编解码框架的主要处理过程示意图；

图3为本发明实施例提供的运动插补过程示意图；

图4为本发明实施例提供的运动延伸过程示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于学习的视频编解码框架，该视频编解码框架主要包括：编码端与解码端；如图1所示，其中编码端主要包括：空时域重构内存、空时域预测网络、迭代分析器、迭代合成器、二值化器、熵编码器以及熵解码器；

所述空时域重构内存，用于存储经编码与解码之后的重构视频内容，包含已经解码的帧以及当前帧已经解码的块。编解码过程通常按照视频时间轴的正向(P-frame)或者双向(B-frame)进行，每一帧通常逐块按照从左到右、从上到下的顺序编解码。

所述空时域预测网络(VoxelCNN)，用于利用重构视频内容的空时域相关性，通过卷积神经网络以及循环神经网络对其建模，输出当前编码块的预测值；预测值与原始值相减形成残差，并通过迭代分析器与迭代合成器进行迭代编码，实现率失真优化。

所述二值化器，将迭代分析器的输出量化为二值表示；

所述熵解码器，对输出码流进行熵解码后，输出给迭代合成器。

本发明实施例中熵编码器、熵解码器可以利用基于上下文的算术编解码等方法实现，即使用算术编码器/解码器作为熵编码器/解码器。

本发明实施例中，所述空时域重构内存、空时域预测网络、迭代合成器与熵解码器构成编码端中的解码器。

本领域技术人员可以理解，因解码端仅能获得重构视频内容，而非原始视频内容，故编码端包含解码功能以提供重构视频内容供编码器参考。

为了便于理解，下面结合如图2所示的具体示例对视频编解码框架中的主要处理过程做详细介绍。

本发明实施例中，所述空时域预测网络计算编码块的预测值包含运动合成与混合预测两个过程。

1、运动合成。

运动合成包含运动插补和运动延伸，为两种不同编码模式，在操作中任选其中一种方式。

1)运动插补为根据重构视频内容中相邻两帧获得物体运动轨迹并插补至相邻两帧之间，作为插补帧。如图3所示，运动插补过程如下：令v_x,v_y,x,其中(v_x,v_y)表示运动矢量，表示整数集。将插补帧记为重构视频内容中相邻两帧分别记为与通过编码块尺寸为m的运动补偿操作确定一个以坐标(x,y)为中心的编码块的运动矢量(v_x,v_y)，插补帧中以(x,y)为中心的编码块的值由中以为中心的编码块复制得到，按照此种方法，可以得到一个完整的插补帧并作为运动插补操作的输出。

2)运动延伸为通过重构视频内容的前两帧获得物体运动轨迹并向后延伸，从而获得一延伸帧如图4所示，运动延伸过程如下：首先在前两帧与中，通过编码块尺寸为m的运动补偿操作确定一个以坐标(x,y)为中心的编码块的运动矢量(v_x,v_y)，延伸帧中以(x,y)为中心的编码块的值由中以(x-v_x,y-v_y)为中心的编码块复制得到，按照此种方法，可以获得一个完整的延伸帧并作为运动延伸操作的输出。

2、混合预测。

混合预测包含卷积及卷积LSTM结构，将插补帧或者延伸帧(图2中假设运动合成过程中做了运动延伸操作，则此处即为延伸帧)、插补帧或者延伸帧的前两帧(与)，以及位于当前帧中当前编码块上方与左方已经解码的块作为输入，通过学习对视频空时域信息的建模，生成当前帧中当前编码块的预测值；通过迭代计算，按照从左到右，从上到下的顺序，每一次都会生成当前编码块的预测值，最终拼出总体。

如图2所示，假设采用运动延伸编码模式，则在运动延伸模式下，将延伸帧的前两帧(与)，以及位于当前帧中当前编码块左上方已经解码的块(对于每一帧按照从上到下，从左到右的顺序进行编解码)作为输入；在运动插补模式下，将插补帧的前一帧与后一帧(与)，以及位于当前帧中当前编码块左上方已经解码的块作为输入。混合预测通过学习对视频空时域信息的建模，生成当前编码块的预测值；通过迭代计算，按照从上到下，从左到右的顺序，每一次都会生成当前编码块的预测值，最终拼出总体。本发明实施例中，空时域预测网络输出的预测值与原始值相减形成残差，并通过迭代分析器与迭代合成器进行迭代编码，空时域预测网络的优化目标为：

其中，B为优化所涉及的总帧数，J是重构视频内容中每一帧总的编码块数量，分别对应为第i帧中的第j个编码块的原始值、预测值。

本发明实施例中，优化目标相当于损失函数，空时域预测网络作用是产生预测值，并使得这个预测值接近于原始值。

本发明实施例中，迭代分析器与迭代合成器均包含S个基于卷积的自编码器组成的S个编码阶段，重构值和目标值不断地迭代分析与合成以实现可变的压缩率，每一阶段迭代分析器产生一个对于输入残差的压缩表达，压缩表达经过量化后形成输出码流，迭代分析器与迭代合成器的优化目标表示为：

其中，为初始阶段(即第1个阶段)输入的残差，表示第n个阶段时输入的残差，表示第n个阶段的输出(即n个阶段对于输入残差的压缩表达)。

本发明实施例中，迭代分析器与迭代合成器是联合优化的，公式中的实际上是经过了迭代分析器、二值化器、迭代合成器的输出，因此这里的参数包含了迭代分析器、迭代合成器中的所有参数。

本发明实施例提供的上述方案，解决了神经网络中难以通过集成训练实现运动预测等问题，提出VoxelCNN以同时建模视频内容的空时域先验，并集成迭代分析器/合成器、二值化器、熵编码器/解码器等，实现基于学习的视频编解码。试验验证中，在没有熵编码器/解码器的情况下，该方法的性能超过了MPEG-2标准编码器，达到了与H.264近似的效果。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于学习的视频编解码框架，其特征在于，包括：编码端与解码端；其中编码端包括：空时域重构内存、空时域预测网络、迭代分析器、迭代合成器、二值化器、熵编码器以及熵解码器；

所述二值化器，将迭代分析器的输出量化为二值表示；

2.根据权利要求1所述的一种基于学习的视频编解码框架，其特征在于，所述空时域重构内存、空时域预测网络、迭代合成器与熵解码器构成编码端中的解码器。

3.根据权利要求1所述的一种基于学习的视频编解码框架，其特征在于，所述空时域预测网络计算编码块的预测值包含运动合成与混合预测两个过程，其中：

运动合成为运动插补或者运动延伸操作，运动插补为通过重构视频内容相邻两帧获得物体运动轨迹并插补至相邻两帧之间，作为插补帧；运动延伸为通过重构视频内容的前两帧获得物体运动轨迹并向后延伸，从而获得一延伸帧；

混合预测包含卷积及卷积LSTM结构，将插补帧或者延伸帧、插补帧或者延伸帧的前两帧，以及位于当前帧中当前编码块上方与左方已经解码的块作为输入，通过学习对视频空时域信息的建模，生成当前帧中当前编码块的预测值；通过迭代计算，最终获得每一编码块的预测值。

4.根据权利要求3所述的一种基于学习的视频编解码框架，其特征在于，运动插补过程如下：将插补帧记为重构视频内容中相邻两帧分别记为与通过编码块尺寸为m的运动补偿操作确定一个以坐标(x,y)为中心的编码块的运动矢量(v_x,v_y)，插补帧中以(x,y)为中心的编码块的值由中以为中心的编码块复制得到，按照此种方法，得到一个完整的插补帧

5.根据权利要求3所述的一种基于学习的视频编解码框架，其特征在于，运动延伸过程如下：在重构视频内容前两帧与中，通过编码块尺寸为m的运动补偿操作确定一个以坐标(x,y)为中心的编码块的运动矢量(v_x,v_y)，延伸帧中以(x,y)为中心的编码块的值由中以(x-v_x,y-v_y)为中心的编码块复制得到，按照此种方法，获得一个完整的延伸帧

6.根据权利要求1或3所述的一种基于学习的视频编解码框架，其特征在于，空时域预测网络输出的预测值与原始值相减形成残差，并通过迭代分析器与迭代合成器进行迭代编码，空时域预测网络的优化目标为：

7.根据权利要求6所述的一种基于学习的视频编解码框架，其特征在于，迭代分析器与迭代合成器均包含S个基于卷积的自编码器组成的S个编码阶段，重构值和目标值不断地迭代分析与合成以实现可变的压缩率，每一阶段迭代分析器产生一个对于输入残差的压缩表达，压缩表达经过量化后形成输出码流，迭代迭代分析器与迭代合成器的优化目标表示为：

其中，为初始阶段输入的残差，表示第n个阶段时输入的残差，表示第n个阶段的输出。