CN108012157B

CN108012157B - 用于视频编码分数像素插值的卷积神经网络的构建方法

Info

Publication number: CN108012157B
Application number: CN201711207766.7A
Authority: CN
Inventors: 宋利; 张翰; 杨小康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2020-02-04
Anticipated expiration: 2037-11-27
Also published as: CN108012157A

Abstract

本发明提供一种用于视频编码分数像素插值的卷积神经网络的构建方法，包括：收集不同内容、分辨率的图像，形成包含不同类型、编码复杂度的数据的原始训练数据集；对原始训练数据集进行预处理操作，得到符合视频编码帧间预测分数像素插值特性的训练数据；搭建深度卷积神经网络，得到适用于视频编码帧间预测分数像素插值的卷积神经网络结构；使用预处理得到的数据输入搭建好的卷积神经网络，同时将原始训练数据集作为对应的真值，训练搭建的卷积神经网络。本发明保证了卷积神经网络可顺利训练，且使用训练好的卷积神经网络插值得到的分数像素满足视频编码分数像素插值特性需求，使用本发明进行分数像素插值可实现视频编码效率的提升。

Description

用于视频编码分数像素插值的卷积神经网络的构建方法

技术领域

本发明涉及一种图像处理技术领域的方法，具体是一种适用于视频编码帧间预测分数像素插值的卷积神经网络方法。

背景技术

帧间预测是视频编码标准中的一项关键技术，利用帧与帧之间视频内容的相似性，可以有效去除视频在时间上的冗余度，从而提高编码压缩效率。同时，由于在数字化过程中的离散采样操作，真实的物体运动不一定是按照采样网格进行的。为了进一步提高物体运动预测的准确性，在视频编码标准中物体的运动都是以分数像素为单位的。采样网格上位于分数像素位置的像素值不是真实存在的，在应用中，这些分数像素位置的像素值需要利用真实存在的整数位置的像素值插值得到。

然而，目前在视频编码中生成分数像素用到的插值滤波器是在基于一些先验假设的基础上，人为设计的。这些插值滤波器的参数是固定的，随着视频内容的不断丰富以及视频分辨率的不断增加，这种固定参数的滤波器并不能全部适用。

深度学习是通过设计的神经网络对海量数据拟合从而得到普遍适用模型的一种方法。基于深度学习的方法不仅在一些语义级问题例如目标跟踪、行人检测上取得了重大突破，在图像超分辨率等像素级问题上也显著的提升了效果。

帧间预测分数像素插值与图像超分辨率有一定的相似性，即两者都是由真实存在的小图按一定倍率生成大图。但是，图像超分辨率是利用低分辨率图像生成整张高分辨率大图，而帧间预测分数像素插值则是根据真实存在的整数位置像素生成其余的分数位置像素，需要保证整数位置像素不改变。此外，对于帧间预测分数像素插值，位于分数位置的像素并不是真实存在的，因此，在卷积神经网络的训练过程中，没有真实的真值可以参考，导致训练不能正常进行。

发明内容

本发明针对现有技术存在的上述缺陷，提供一种适用于视频编码帧间预测分数像素插值的卷积神经网络的构建方法，该方法利用在图像超分辨率问题上取得良好性能的卷积神经网络的优点，同时考虑视频编码帧间预测分数像素插值的特点，设计了适用于视频编码帧间预测分数像素插值的卷积神经网络以及使训练顺利进行的预处理操作，如此可以提高视频编码重建帧的客观质量，实现编码效率的提升。

为实现上述目的，本发明所述的用于视频编码分数像素插值的卷积神经网络的构建方法包括：

收集不同内容、不同分辨率的图像，形成包含不同类型、不同编码复杂度的数据的原始训练数据集；

对收集到的原始训练数据集进行预处理操作，得到符合视频编码帧间预测分数像素插值特性的训练数据，该数据作为训练卷积神经网络的输入数据；

搭建深度卷积神经网络，考虑视频编码分数像素插值特性，得到适用于视频编码帧间预测分数像素插值的卷积神经网络结构；

使用预处理得到的数据输入搭建好的卷积神经网络，同时将所述原始训练数据集作为对应的真值，训练搭建的卷积神经网络，得到适用于视频编码帧间预测分数像素插值的卷积神经网络模型。

优选地，所述预处理操作，过程如下：

a)根据需要插值生成的分数像素位置对原始训练数据集中的图像进行相应倍率的降采样操作，得到用于步骤b)的低分辨率训练数据；

b)根据视频编码标准中对静态图像编码的配置对低分辨率训练数据进行压缩编码，得到用于步骤c)的低分辨率编码重建图像；

c)对低分辨率编码重建图像进行步骤a)中对应倍率的上采样操作，恢复到原始图像尺寸，得到训练卷积神经网络的输入数据。

更优选地，所述c)中，对低分辨率编码重建图像的上采样操作，保证上采样之后高分辨率图像整数像素位置的像素值与上采样之前的低分辨率编码重建图一致。

优选地，所述搭建深度卷积神经网络，其中搭建的深度卷积神网络包含20 个权重层以及1个权重掩蔽层；对于权重掩蔽层，W_I为整数像素位置的权重， W_H为分数像素位置的权重，所有分数像素位置共用一个权重。

更优选地，所述视频编码帧间预测分数像素插值，其中整数像素位置像素值不变，只生成分数像素位置。

与现有技术相比，本发明的有益效果是：

本发明在利用深度卷积神经网络从海量数据中提取特征的强大能力以外，还考虑了视频编码特有的数据特性以及视频编码帧间预测分数像素插值相比于图像超分辨率独有的特点，重新设计了深度卷积神经网络，同时设计了配套的预处理操作，保证卷积神经网络的训练可以顺利进行，从而得到了适用于视频编码分数像素插值的卷积神经网络模型，提升了压缩编码重建视频的客观质量，提高了视频编码效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明一实施例的方法流程图；

图2是本发明一实施例的卷积神经网络结构示意图；

图3是本发明一实施例整数像素位置、二分之一分数像素位置、四分之一分数像素位置示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明提供一种用于视频编码分数像素插值的卷积神经网络的构建方法，如图1所示，其设计思路为：

收集不同内容、不同分辨率的图像，得到包含不同类型、不同编码复杂度的数据的训练数据集；

对收集到的训练数据集进行预处理，得到训练卷积神经网络的输入数据。预处理操作具体包括：

搭建适用于视频编码帧间预测分数像素插值的深度卷积神经网络，将经过预处理操作得到的图像作为网络的输入，同时将原始训练数据集中相应的图像作为对应的真值，设置训练参数，训练卷积神经网络；

使用训练得到的卷积神经网络模型进行分数像素插值操作，实现基于卷积神经网络的视频编码帧间预测分数像素插值。

所述预处理步骤的b)，根据视频编码标准中对于静态图像压缩编码的配置，对降采样后的低分辨率图像进行压缩编码，使低分辨率图像的重建值成为包含视频编码数据特性的图像。

所述预处理步骤的c)，对于压缩编码后低分辨率重建图像的上采样操作，需要保证上采样之后高分辨率图像整像素位置的像素值与上采样之前低分辨率图像一致，只生成分数像素位置的像素值。

本发明在图像超分辨率卷积神经网络的基础上，考虑视频编码分数像素插值的固有特性即整数位置像素不变，只生成分数位置像素，重新设计卷积神经网络，同时，配合上述预处理操作，保证了卷积神经网络可以顺利训练，并且使用训练好的卷积神经网络插值得到的分数像素满足视频编码分数像素插值特性需求，使得使用本发明进行分数像素插值可以实现视频编码效率的提升。此外，使用本发明得到的卷积神经网络，可以在一次操作中同时生成所有分数像素位置的像素值。

以下将本发明应用到最新的视频编码标准——高性能视频编码(HEVC)中，介绍适用于HEVC帧间预测二分之一像素插值的卷积神经网络构建方法，主要是对数据预处理、卷积神经网络结构搭建等具体实现细节进行详细说明。当然，本发明也可以应用于其他的编码标准。

1.数据预处理过程

对于数据预处理过程中对低分辨率图像的压缩编码步骤，采用HEVC的全帧内(AI)配置对降采样得到的低分辨图像进行编码。

对于预处理过程中对低分辨压缩编码重建图像的上采样过程，采用基于离散余弦变换的插值滤波器。对于二分之一像素位置，基于离散余弦变换的插值滤波器为8抽头滤波器，抽头系数如表1所示。

表1基于离散余弦变换的插值滤波器抽头系数

Index i	-3	-2	-1	0	1	2	3	4
									Hfilter[i]	-1	4	-11	40	40	-11	4	-1

使用基于离散余弦变换的插值滤波器产生图3中的二分之一像素位置像素的过程如下：

其中，b_0,j,h_i,0,j_0,0,表示二分之一像素位置的像素值，A_i,j表示整像素位置像素值， hfilter[i]表示基于离散余弦变换的插值滤波器的抽头系数，B为像素值表示位深。

2.卷积神经网络结构搭建

本发明采用J Kim等在2016年IEEE Conference on Computer Vision andPattern Recognition(IEEE国际计算机视觉与模式识别会议)会议上发表的 AccurateImage Super-Resolution Using Very Deep Convolutional Networks为基本框架，在原始框架中加入权重掩蔽层，W_I为整数位置像素值的权重值，W_H为二分之一像素位置像素值的权重值。

如图2所示，本实施例搭建的卷积神经网络结构包括20个卷积层，1个权重掩蔽层。对于卷积层，除第一个卷积层与最后一个卷积层之外，每个卷积层都包含64个不同的滤波器，每个滤波器的尺寸为3×3×64。对于第一个卷积层，包含64个尺寸为3×3×1的滤波器。对于最后一个卷积层，包含1个尺寸为 3×3×64的滤波器。对于权重掩蔽层，整数像素位置与分数像素位置使用不同的权值，其中W_I为整数像素位置权值，W_H为二分之一像素位置权值。本实施例中的卷积神经网络输入为由低分辨率图像经过预处理后得到的目标尺寸的高分辨率图像。本实施例中的卷积神经网络预测的是最终输出的高分辨率图像与起始输入的经过预处理图像之间的残差图像，定义如下：

R＝Y_H-X_ILR (4)

其中Y_H表示最终输出的高分辨率图像，X_ILR表示起始输入的预处理后图像。

通过将卷积神经网络预测得到的残差图像与输入预处理图像相加，得到最终输出的高分辨率图像。

3.训练卷积神经网络

卷积神经网络的训练过程采用欧式距离作为损失函数：

其中θ表示卷积神经网络需要学习的参数集，

表示训练图像，表示原始训练数据集中对应的真值图像，F(X_i；θ)表示最终输出的高分辨率图像。由于本实施例中卷积神经网络预测的是残差图像，式(5)中的F(X_i；θ)应该表示为：

其中，表示起始输入的经过预处理的图像。

以上训练得到适用于视频编码帧间预测分数像素插值的卷积神经网络模型。

4.实施效果

将本实施例训练得到的卷积神经网络模型应用到HEVC编码框架中，使用改进后的编码器与标准HEVC编码器对测试序列进行编码。测试序列如表2所示，所有测试序列都为4:2:0的YUV格式，表示位深为8。

表2测试序列详情

本实施例中采用的HEVC编码器为HM-16.7，编码配置为低延迟P帧(LDP) 通用测试配置，编码采用的量化参数(QP)分别为22,27,32,37.本实施例只针对亮度Y分量使用基于卷积神经网络的分数像素插值方法，其余色度分量仍然使用标准插值滤波器生成分数像素。

在上述实施条件下，得到了表3所示的编码测试结果。表3采用的性能指标为BD-Rate指标，表示的是与标准HEVC编码器相比，在相同峰值信噪比(PSNR) 的情况下，使用本实施例训练得到的卷积神经网络进行帧间预测二分之一分数像素插值码率节省的百分比。如表3所示，在上述实施条件下，Y、U、V三个分量的平均BD-Rate分别为-0.9％、-0.1％、-0.1％。特别地，序列BasketballPass的增益最显著，Y、U、V三分量的增益可以达到-2.4％、-0.1％、-1.6％。从表3可以看出，相比于标准HEVC编码器，使用本实施例中针对亮度Y分量训练得到的卷积神经网络对亮度分量进行二分之一像素插值的方法有明显的编码效率提升。此外，由于编码器使用了基于亮度分量预测色度分量的技术，随着亮度分量重建质量的提升，其余色度分量也可以获得一定的编码性能提升。

表3测试序列编码性能(BD-Rate)

为进一步说明本发明的卷积神经网络构建更适用于视频编码帧间预测中的分数像素插值，表4所示是直接使用针对图像超分辨率问题训练得到的卷积神经网络进行二分之一分数像素插值与使用标准HEVC编码器比较的测试结果。从表4可以看出，直接使用图像超分辨率的卷积神经网络进行分数像素插值有明显的编码性能损失。

表4使用图像超分辨率卷积神经网络编码测试结果(BD-Rate)

综上，本发明针对视频编码帧间预测分数像素插值设计了专门的卷积神经网络，同时，本发明设计了配套的数据预处理过程，使得卷积神经网络的训练可以顺利进行，并且使用训练好的卷积神经网络生成的分数像素可以满足分数像素插值的特定需求。使用本发明得到的卷积神经网络进行分数像素插值可以取得显著的编码性能提升，更适用于视频编码帧间预测的分数像素插值部分。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种用于视频编码分数像素插值的卷积神经网络的构建方法，其特征在于：所述方法包括：

使用预处理得到的数据输入搭建好的卷积神经网络，同时将所述原始训练数据集作为对应的真值，训练搭建的卷积神经网络，得到适用于视频编码帧间预测分数像素插值的卷积神经网络模型；

所述预处理操作，过程如下：

a)根据需要插值生成的分数像素位置对原始训练数据集中的图像进行相应倍率的降采样操作，得到用于步骤b)中的低分辨率训练数据；

b)根据视频编码标准中对静态图像编码的配置对低分辨率训练数据进行编码，得到用于步骤c)中的低分辨率编码重建图像；

c)采用基于离散余弦变换的插值滤波器对低分辨率编码重建图像进行步骤a)中对应倍率的上采样操作，恢复到原始图像尺寸，得到训练卷积神经网络的输入数据。

2.根据权利要求1所述的用于视频编码分数像素插值的卷积神经网络的构建方法，其特征在于：所述c)中，对低分辨率编码重建图像的上采样操作，保证上采样之后高分辨率图像整数像素位置的像素值与上采样之前的低分辨率编码重建图一致。

3.根据权利要求1-2任一项所述的用于视频编码分数像素插值的卷积神经网络的构建方法，其特征在于：所述搭建深度卷积神经网络，其中搭建的深度卷积神经网络包含20个权重层以及1个权重掩蔽层；对于权重掩蔽层，W_I为整数像素位置的权重，W_H为分数像素位置的权重，所有分数像素位置共用一个权重。

4.根据权利要求3所述的用于视频编码分数像素插值的卷积神经网络的构建方法，其特征在于：所述视频编码帧间预测分数像素插值，其中整数像素位置像素值不变，只生成分数像素位置。

5.一种权利要求1-4任一项所述方法构建得到的卷积神经网络模型的应用，其特征在于：将所述卷积神经网络模型用于分数像素插值操作，实现基于卷积神经网络的视频编码帧间预测分数像素插值。