CN110177282A

CN110177282A - 一种基于srcnn的帧间预测方法

Info

Publication number: CN110177282A
Application number: CN201910388829.6A
Authority: CN
Inventors: 颜成钢; 黄智坤; 李志胜; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-08-27
Anticipated expiration: 2039-05-10
Also published as: CN110177282B

Abstract

本发明公开了一种基于SRCNN的帧间预测方法，其特征在于使用超分辨率卷积神经网络对图像序列进行帧间预测；对图像序列做运动估计和运动补偿操作后，结合超分辨率卷积神经网络训练出特征模型；使用模型中的参数对图像进行超分辨率重建，同时对图像进行运动估计和运动补偿，得到与当前图像的下一帧图像一致的图像。本发明将深度学习应用到视频编码的帧间预测，使用卷积神经网络，对图像序列间的运动估计、运动补偿操作进行特征提取和训练学习。同时，使用超分辨率神经网络，在图像重建时，图像的画质会得到增强。

Description

一种基于SRCNN的帧间预测方法

技术领域

本发明属于视频编码领域中的帧间预测，主要为了提高视频传输效率，具体涉及一种基于SRCNN的帧间预测方法。

背景技术

超分辨率(Super-Resolution)意味着将一幅低分辨率(Low Resolution)图像转变成一幅高分辨率(HighResolution)图像，通常可以提高图像质量、清晰度。超分辨率卷积神经网络(Super-ResolutionConvolutionalNeuralNetwork，SRCNN)是一个应用于图像超分辨率重建的卷积神经网络，通过提取图像块的特征，对特征进行非线性映射后，重建出高分辨率的图像。此卷积神经网络自提出后，被广泛使用，准确性和可靠性得到了很好的验证。

在当今这个信息时代里，从科学家们的研究和统计的数据表明，人类获取的来自外界的信息中，大概75％的是通过眼睛获得的，眼睛获得的信息通过视觉***转换成图像并传输到大脑。随着当今生活水平的快速提高，人们对图像视频质量要求越来越高。而图像、视频的分辨率不断提高也为信息传输带来巨大的挑战。越清晰的图像、视频意味着更大的数据量和需要更高的传输速率。为了保证人们的观感舒适度，现今电影等视频的帧率一般要高于24帧每秒，如果将每一帧的图像保存下来，再逐帧播放，不仅对硬盘容量要求特别高，并且对播放设备的传输、显示速率都有着巨大的挑战。如果以此方式播放视频，因为传输速率的限制，那么将不会存在2K、4K等高清视频。视频编码技术极大程度上消除了图像序列之间的冗余，使得视频的数据量大大压缩，配合现有硬件技术，让超高清视频走进人们的生活中，极大程度上满足了人们的观感需求。

帧间预测是视频编码中最主要的一环，是利用视频图像帧间的相关性，即时间相关性，来达到图像压缩的目的，广泛用于普通电视、会议电视、视频电话、高清晰度电视的压缩编码。在图像传输技术中，活动图像特别是电视图像是关注的主要对象。活动图像是由时间上以帧周期为间隔的连续图像帧组成的时间图像序列，它在时间上比在空间上具有更大的相关性。大多数电视图像相邻帧间细节变化是很小的，即视频图像帧间具有很强的相关性，利用帧所具有的相关性的特点进行帧间编码，可获得比帧内编码高得多的压缩比。

在帧间预测编码中，由于活动图像邻近帧中的景物存在着一定的相关性。因此，可将活动图像分成若干块或宏块，并设法搜索出每个块或宏块在邻近帧图像中的位置，并得出两者之间的空间位置的相对偏移量，得到的相对偏移量就是通常所指的运动矢量，得到运动矢量的过程被称为运动估计。运动矢量和经过运动匹配后得到的预测误差共同发送到解码端，在解码端按照运动矢量指明的位置，从已经解码的邻近参考帧图像中找到相应的块或宏块，和预测误差相加后就得到了块或宏块在当前帧中的位置。通过运动估计可以去除帧间冗余度，使得视频传输的比特数大为减少，因此，运动估计是视频压缩处理***中的一个重要组成部分。本节先从运动估计的一般方法入手，重点讨论了运动估计的三个关键问题：将运动场参数化、最优化匹配函数定义以及如何寻找到最优化匹配。

发明内容

本发明的目的是区别于主流的HEVC视频编码方式，提出一种基于SRCNN的帧间预测方法。本发明旨在使用超分辨率卷积神经网络对图像序列进行帧间预测。对图像序列做运动估计和运动补偿操作后，结合超分辨率卷积神经网络训练出特征模型。使用模型中的参数，可以在对图像进行超分辨率重建，同时对图像进行运动估计和运动补偿，得到与当前图像的下一帧图像基本一致的图像。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：收集大量不同场景的视频文件，按不同的量化参数(QP)对视频进行压缩；

步骤2：从视频中提取图像序列，提取图像序列时，前后两帧图像的时间间隔设置为t，t<0.1秒；

步骤3：将图像序列中的部分划分为验证集。逐帧读取剩余图像，除了读取的图像序列的首帧外，每张图像使用当前帧和前一帧，计算两帧图像之间的残差，将前一帧图像和此残差结合，对其进行运动补偿，得到前一帧图像的预测帧。保存计算所得的预测帧序列，将预测帧图像序列进行划分，得到训练集和测试集，二者的比例为4：1。

步骤4：输入训练集和测试集，设置合适的超参数，使用超分辨率卷积神经网络(SRCNN)训练参数模型；

步骤5：计算验证集内每一图像序列中的第i帧图像与第i+1帧的峰值信噪比(PSNR)，记作PSRN1；读取参数模型中的参数对获取的图像序列内的第i帧图像进行处理，得到重建图像I；计算重建图像I与验证集内图像序列的第i帧图像之间的PSNR，记作PSNR2；

比较计算所得的两个PSNR值，若PSNR2≥PSNR1，则认为该模型有效；

若PSNR2<PSNR1，则认为模型效果不好；记ERR＝PSNR1-PSNR2；若ERR<5,则认为训练超参数设置有问题，返回步骤4，调整学习率的超参数，然后重新训练参数模型；若ERR≥5，则认为数据集的划分策略又问题，返回步骤3，通过扩充数据集使数据集包含更多场景，重新划分训练集和测试集后进行训练和验证；

若两张图像差别较大，PSNR值超出最低预设阈值，则调整训练集、测试集；

若两张图像差别较小，PSNR值在最佳预设阈值和最低预设阈值之间，则返回步骤4调整超分辨率卷积神经网络的参数，重新训练参数模型。

所述的使用参数模型重建图像具体实现如下：

1.将输入的低分辨率图像转到YCbCr色彩空间取灰度图，作为图像重建操作的输入i。对图像i进行下采样，下采样的步长设置为k，得到低维度的图像；

2.对低维度的图像使用双三次插值，将其放大到目标大小，即输入的低分辨率图像大小；

3.读取参数模型中的参数，包括各个网络节点的权重和偏置。通过三层卷积网络对插值后的图像做非线性映射，得到的重建后的结果，图像I；

4.将图像I转回RGB彩色图，得到重建的高分辨率图像。

本发明有益效果如下：

本发明的创新性在于将深度学习应用到视频编码的帧间预测，使用卷积神经网络，对图像序列间的运动估计、运动补偿操作进行特征提取和训练学习。同时，使用超分辨率神经网络，在图像重建时，图像的画质会得到增强。

附图说明

图1是超分辨率卷积神经网络SRCNN的示意图；

图2是本发明实施的流程图。

具体实施方式

本发明主要针对视频编码内的帧间预测方法进行算法创新，对于整个模型的训练流程进行了详细的介绍，以下结合附图，详细阐述本发明的具体实施步骤，本发明的目的和效果将变得更加明显。

图1是超分辨率卷积神经网络SRCNN的示意图，从图中可以清楚地看到该卷积神经网络结构简单，通过非线性映射和图像重建，可以对图像的画质起到增强作用。运用该网络，可以在对图像序列进行帧间预测的同时，提高图像的分辨率。

图2是本发明的实施流程图，其中具体操作包括：

1.收集大量YUV格式的视频文件，包含各种不同的场景。

2.使用不同的量化参数对视频文件进行压缩，量化参数越高，则压缩程度越高，主要关注量化参数在28至42之间的压缩比。

3.从视频文件中提取图像序列，根据不同时长的视频，提取不同数量的图像，来保证图像序列的间隔一致。为了保证前后两帧图像间的变化不大，提取图像的时间间隔要设置得很小，具体根据视频的长度来设置。

4.对提取出来的每一张图像做运动估计、运动补偿，此操作具体为输入当前帧及下一帧图像，通过对比两帧图像，对当前帧做运动估计、运动补偿。

5.使用处理好的图像序列，组织训练集和测试集。验证模型所需的验证集则需要用没有做过运动估计、运动补偿的图像序列。

6.输入训练集和测试集，设置合适的参数，使用超分辨率卷积神经网络SRCNN来训练模型。

7.验证训练好的模型是否有效，通过对比原本提取出的下一帧图像和使用该模型参数重建出的图像，若两张图像几无差别，则可认为该模型有效。若两张图像有着明显的差别，还要根据不同情况作出调整。若两张图像的差别很大，则需要调整数据集，重新训练模型，如果两图像间差别不是很大，则需要在成像效果上做出改进，调整网络参数，重新训练出复合要求的模型。

在对比生成图像和原图像的下一帧图像时，需要结合视觉上的主观判断跟客观数值分析。主观上，通过肉眼观察两帧图像，如果两张图片几无差别，可以主观上认为模型有效。但由于原本前后帧图像的区别并不大，还需借助数学工具，来对两张图像进行比较。可以使用，即峰值信噪比即PSNR来对重建效果进行客观评价，PSNR是一种评价图像的客观标准，其公式如下：

其中，MSE为均方误差(Meansquarederror)。分别计算原图像与其下一帧图像、原图像和重建出的图像间的PSNR数值，若两者数值接近，则说明该模型效果很好，基本重建出了与原图像下一帧图像相同的图片。若后者的PSNR数值更高，则可以认为，程序在对图像进行帧间预测的同时，还提高了图像质量。

借助PSNR，可以从客观上再次验证模型的准确性，以此来减少工作量，并保证该方案有效地实施。

Claims

1.一种基于SRCNN的帧间预测方法，其特征在于使用超分辨率卷积神经网络对图像序列进行帧间预测；对图像序列做运动估计和运动补偿操作后，结合超分辨率卷积神经网络训练出特征模型；使用模型中的参数对图像进行超分辨率重建，同时对图像进行运动估计和运动补偿，得到与当前图像的下一帧图像一致的图像。

2.根据权利要求1所述的种基于SRCNN的帧间预测方法，其特征在于具体实现包括如下步骤：

步骤1：收集大量不同场景的视频文件，按不同的量化参数对视频进行压缩；

步骤3：将图像序列中的部分划分为验证集；逐帧读取剩余图像序列，除了读取的图像序列的首帧外，每张图像使用当前帧和前一帧，计算两帧图像之间的残差，将前一帧图像和此残差结合，对其进行运动补偿，得到前一帧图像的预测帧；保存计算所得的预测帧图像序列，将预测帧图像序列进行划分，得到训练集和测试集，二者的比例为4：1；

步骤4：输入训练集和测试集，设置超参数，使用超分辨率卷积神经网络训练参数模型；

3.根据权利要求2所述的种基于SRCNN的帧间预测方法，其特征在于所述的使用参数模型来重建图像具体实现如下：

1.将输入的低分辨率图像转到YCbCr色彩空间取灰度图，作为图像重建操作的输入图像i；对输入图像i进行下采样，下采样的步长设置为k，得到低维度的图像；

3.读取参数模型中的参数，包括各个网络节点的权重和偏置；通过三层卷积网络对插值后的图像做非线性映射，得到重建后的图像I；

4.将图像I转回RGB彩色图，得到重建的高分辨率图像。