CN110557646B

CN110557646B - 一种智能视点间的编码方法

Info

Publication number: CN110557646B
Application number: CN201910775875.1A
Authority: CN
Inventors: 雷建军; 张宗千; 侯春萍; 张凯明; 刘晓寰; 石雅南
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2021-12-07
Anticipated expiration: 2039-08-21
Also published as: CN110557646A

Abstract

本发明公开了一种智能视点间的编码方法，包括：分别获取基于相邻块视差矢量模式得到的第一预测块、基于传统视差补偿预测模式得到的第二预测块；构建可变卷积核大小的残差学习卷积神经网络结构；将上述两个预测块的亮度分量通道级联后的结果作为卷积神经网络的输入，网络的输出为原始图像块的增强预测块；根据四种不同的量化参数训练四种不同的网络模型；分别提取第一、第二预测块的亮度分量并进行通道级联，将级联后的结果根据当前编码块的大小以及量化参数值调用相应的网络模型；最后对增强预测块计算率失真代价并与当前编码块的最优模式代价进行比较，如果小于最优模式代价，选择本方法作为最优编码模式，并对相应的标志进行编码传输至解码端。

Description

一种智能视点间的编码方法

技术领域

本发明涉及3D视频编码领域，尤其涉及一种智能视点间的编码方法。

背景技术

3D视频数据量大，对视频的存储和传输带来了前所未有的困难与挑战。因此，如何实现高效的3D视频编码具有重要的理论研究意义和实际应用价值。目前，由MPEG(动态图像专家组)和VCEG(视频编码专家组)联合组建的视频编码国际标准组织JCT-VC开发的3D-HEVC(3D高效视频编码)是最新的3D视频编码标准。3D-HEVC对非独立视点及深度视频引入了新的预测技术和编码工具，增加了适用于多视点视频编码和深度视频编码的技术，提高了编码效率。然而，多视点视频编码的视点间预测技术仍有很大的提升空间。

目前人们对视点间预测编码技术的研究主要集中在视差矢量的获取和视差补偿预测等方面。Chen等利用视频空时域相邻编码块的视差矢量与当前块视差矢量的相关性，计算当前块的视差矢量，降低了视差矢量对深度图编码的依赖。Zhang等提出一种仅从当前编码块的空域和时域邻块来获取当前编码块视差矢量、并进行视点间预测的方法，提升了编码效率。Woontack等提出了一种重叠块视差补偿与自适应窗口立体图像编码方案。Wong等详细分析了视图间存在的水平缩放和剪切现象，为了以最小的复杂度实现基于HSS(水平缩放和剪切)的视差补偿预测，采用了一种高效的亚采样块匹配技术，有效的实现了多视点视频编码的比特节省。

深度学***面彩***编码的研究，在帧内预测、帧间预测、滤波后处理、端到端图像编码等方面实现了编码性能的显著提升。

Cui等提出一种针对帧内预测的卷积神经网络，该网络以预测块周围已编码块作为输入，能够充分学习参考块的纹理信息，提供准确的预测结果。Yan等人将分数像素运动补偿转化为图像间的回归问题，利用卷积神经网络解决这一问题，提高了编码效率。Liu等提出一种基于CNN(卷积神经网络)的运动补偿增强算法，不仅对当前块进行运动补偿，还利用当前编码块的临近重建区域来进一步提高预测的准确度。Li等人提出了一种帧级的动态元数据后处理方法，首先将视频帧依据内容复杂度和质量进行分类，并将分类标志传输到解码端作为辅助信息，然后利用一个20层的卷积神经网络对不同类别的帧进行图像增强，实现了滤波性能的提高。然而，在利用深度学习技术提高3D视频编码性能方面，还少有人研究，尤其目前还没有智能的视点间编码方法，因此提出一种智能的视点间编码方法就成为本发明的根本立意所在。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

现有建模视差关系的算法，对参考图像进行伸缩和剪切等操作，虽然能有效提高预测的准确度，但适用性较差，对于纹理复杂且动作丰富的视频，效果欠佳；目前缺乏智能视点间的编码方法。

发明内容

本发明提供了一种智能视点间的编码方法，本发明通过充分挖掘相邻视点间的高度相似性，利用3D视频编码过程中的预测信息，设计一种基于卷积神经网络的智能视点间预测模型，获得对当前编码块更加精确的预测，进一步提高了编码效率，详见下文描述：

一种智能视点间的编码方法，所述方法包括以下步骤：

分别获取基于相邻块视差矢量模式得到的第一预测块、基于传统视差补偿预测模式得到的第二预测块；

构建可变卷积核大小的残差学习卷积神经网络结构；将上述两个预测块的亮度分量通道级联后的结果作为卷积神经网络的输入，网络的输出为原始图像块的增强预测块；

根据四种不同的量化参数训练四种不同的网络模型；

分别提取第一、第二预测块的亮度分量并进行通道级联，将级联后的结果根据当前编码块的大小以及量化参数值调用相应的网络模型；

最后对增强预测块计算率失真代价并与当前编码块的最优模式代价进行比较，如果小于最优模式代价，选择本方法作为最优编码模式，并对相应的标志进行编码传输至解码端。

其中，所述获取基于相邻块视差矢量模式得到的第一预测块具体为：

如果存在基于相邻块视差矢量模式得到的视差矢量，则设定标志记录其在最终候选列表中的位置，保存使用该视差矢量进行补偿所得到的预测块，待编码完整帧图像后输出预测图像；

将存在且使用该视差矢量进行预测的块标记为1，否则为0，将标记以表格的形式输出并对预测图像进行切割，仅保留使用相邻块视差矢量模式的预测块作为训练数据。

进一步地，所述获取基于传统视差补偿预测模式得到的第二预测块具体为：

通过判断参考图片的视点索引找到视点间参考图片，使用该参考图片进行视差补偿，采用率失真优化，保存不同PU划分方式下最优的预测结果作为DCP预测块；

待编码完整帧图像后输出预测图像，利用表格，对预测图像进行切割，并按顺序输出和存储。

其中，所述构建可变卷积核大小的残差学习卷积神经网络可表示为：

其中，f(·)为预测函数，

表示通道级联，l{·,·}表示损失函数，用于计算预测值与真实值之间的误差，第一预测块记为P₁，第二预测块记为P₂，原始图像块作为Label，记为Y。

本发明提供的技术方案的有益效果是：

1、本发明充分利用视点间预测信息，将深度学习技术引入到3D视频视点间预测编码领域，利用卷积神经网络的学习特性生成更加准确的预测块，使其更加接近于原始图像块，从而减小原始图像块与预测块之间的残差，降低编码传输所需的比特开销，进一步提高编码效率；

2、本发明采用数据驱动的方式，利用丰富多样的数据来训练卷积神经网络，使得本发明有更好的泛化性。

附图说明

图1为一种智能视点间的编码方法的流程图。

图2为智能视点间预测的网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例提出了一种智能视点间的编码方法，将编码过程中由NBDV(相邻块视差矢量)模式得到的预测块与DCP(传统视差补偿预测)模式得到的预测块进行融合，并利用卷积神经网络的学习特性，生成更加精确的预测块，具体实现步骤如下：

一、获取训练数据

基于NBDV的预测与DCP是3D视频编码中两种不同的视点间预测编码模式，然而有些待编码块没有NBDV矢量，因此在获取训练数据过程中需要分别获取由NBDV过程得到的预测块及与之对应的DCP预测块。在本发明实施例中获取的预测块的大小为64×64，后续会对更小的预测块进行实验。

1)NBDV数据的获取

NBDV模式存在于Merge模式中，通过NBDV过程获得的视差矢量(记为IvDC)会作为Merge候选列表中的一个预测候选，在编码过程中会遍历列表中的每一个候选，此时，如果存在IvDC，则设定一个额外的标志记录其在最终候选列表中的位置，同时保存使用IvDC矢量进行补偿所得到的预测块。

然而，并不是所有的待编码块都能通过NBDV获得视差矢量，也不是所有的IvDC矢量都能存入最终的候选列表，因此，将存在且使用IvDC进行预测的块标记为1，否则标记为0。待编码完整帧图像后输出预测图像，同时将这些标记以表格的形式输出，最后利用matlab将输出的预测结果结合对应的表格进行切割，并按顺序输出，只保留那些使用NBDV模式的预测块作为训练数据。

2)DCP数据的获取

视差补偿预测和运动补偿预测具有相似的概念，均可理解为帧间预测的一种方法。但是两者的参考帧是有本质区别的。运动补偿预测(MCP)的参考帧是不同时刻，同一视点的已编码帧，而视差补偿预测(DCP)参考的是同一时刻，不同视点的已编码帧。由于DCP与MCP有异曲同工的作用，因此DCP模式与MCP模式混合存在于帧间预测模式中。在进行帧间预测/视点间预测的运动估计过程中会遍历参考图片列表，此时通过判断参考图片的视点索引找到视点间参考图片，保存使用该参考图片进行补偿所得到的预测块。

此外，考虑到Merge模式只能应用于PU大小为2N×2N的预测块，而对于同一大小的编码单元CU来说，帧间预测模式会遍历所有的PU划分方式，包括2N×2N、2N×N以及N×N等。在此，为了获得更高质量的预测块，本发明实施例采用率失真优化技术，对不同PU划分方式下的预测结果进行比较，保存不同PU划分方式下最优的预测结果作为DCP预测块。

为了从输出的预测图中找到与NBDV预测块相对应的DCP预测块，再利用前面获取NBDV数据过程中得到的表格，对其进行切割，并按顺序输出和存储。

二、预测网络的构建

本发明实施例基于VRCNN(可变卷积核大小的残差学习卷积神经网络)的网络结构，利用上一步方法获得NBDV数据和DCP数据，将通过NBDV模式得到的预测块记为P₁，通过DCP模式得到的预测块记为P₂，对应的原始图像块作为Label，记为Y。通过网络，获得更好的预测，使得预测块尽可能的接近原始图像，公式记为：

其中，f(·)为预测函数，

表示通道级联，l{·,·}表示损失函数，用于计算预测值与真实值之间的误差。从回归的角度分析，公式可写成如下形式：

其中，r(·)代表卷积神经网络，θ为网络参数，P_i为网络的输入数据，Y_i为其对应的Label。损失函数l{·,·}可具体写为：

三、网络模型训练

本发明实施例将NBDV预测块与DCP预测块通道级联后的结果作为网络的输入，网络的输出为更加接近于原始图像块的增强预测块。网络总共包含四个卷积层，除最后一层外，每一层均使用ReLU作为非线性激活函数，f(x)＝max(0,x)，其中第二层和第三层分为两支，用不同大小的卷积核提取特征并进行融合，融合后的特征作为下一层的输入。最后采用残差学习的方式，先将输入的两通道数据进行线性叠加，再与网络的最后一层的输出相加得到最终的增强预测块，这样既有利于网络的收敛，又能提高网络预测的准确度。具体的网络结构见图2。

本发明实施例在Caffe平台上进行训练，针对四种不同QP训练不同的模型(25_34、30_39、35_42、40_45)，训练的块大小为64×64。后续会根据不同大小的块训练不同的模型，如32×32、16×16、8×8。本发明实施例中的训练和测试都只针对亮度分量进行。

四、嵌入编码框架

本发明实施例使用的编码平台为HTM16.2，将网络与编码框架整合，首先分别提取NBDV模式得到的预测块与对应的DCP预测块的亮度分量并进行通道级联，然后将级联后的结果根据当前块的大小以及QP(量化参数)值调用相应的网络模型，最后对网络输出的预测块计算率失真代价并与当前编码块的最优模式代价进行比较，如果小于最优模式代价，选择本发明所提方法作为最优编码模式，并对相应的标志进行编码传输至解码端。

其中，将代价最小的模式作为最优模式。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能视点间的编码方法，其特征在于，所述方法包括以下步骤：

根据四种不同的量化参数训练四种不同的网络模型；

2.根据权利要求1所述的一种智能视点间的编码方法，其特征在于，所述获取基于相邻块视差矢量模式得到的第一预测块具体为：

3.根据权利要求1所述的一种智能视点间的编码方法，其特征在于，所述获取基于传统视差补偿预测模式得到的第二预测块具体为：

通过判断参考图片的视点索引找到视点间参考图片，使用该参考图片进行视差补偿，采用率失真优化，保存不同PU划分方式下最优的预测结果作为传统视差补偿预测模式得到的第二预测块；

4.根据权利要求1所述的一种智能视点间的编码方法，其特征在于，所述构建可变卷积核大小的残差学习卷积神经网络表示为：

其中，f(·)为预测函数，