CN110324664B

CN110324664B - 一种基于神经网络的视频补帧方法及其模型的训练方法

Info

Publication number: CN110324664B
Application number: CN201910612434.XA
Authority: CN
Inventors: 刘俐君; 任金凯; 王子义; 公倩昀; 许靖桐
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2021-06-04
Anticipated expiration: 2039-07-11
Also published as: CN110324664A

Abstract

本发明提供了一种基于神经网络的视频补帧方法及其模型的训练方法；基于预设的训练集合确定当前的训练参考帧后，将训练参考帧输入至预设的初始模型；通过特征提取网络生成训练参考帧的预设层级数量的初始特征图；通过特征融合网络将预设层级数量的初始特征图融合为融合特征图；再将融合特征图输入至输出网络，输出第一训练帧和第二训练帧之间的训练补充视频帧；通过预设的预测损失函数确定训练补充视频帧的损失值；继续向初始模型输入下一组训练参考帧进行训练，直至初始模型中的参数收敛，结束训练，得到视频补帧模型。本发明通过特征提取、特征融合过程获取到参考帧全面的特征信息，从而得到补帧效果较好的视频补充帧，从而提高用户观影体验。

Description

一种基于神经网络的视频补帧方法及其模型的训练方法

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种基于神经网络的视频补帧方法及其模型的训练方法。

背景技术

相关技术中，通常采用运动补偿方法或基于光流的方法对视频进行补帧。通过运动补偿方法进行补帧时，将参考帧图像分割为静止和运动的两部分，根据运动部分估计物体的位移向量，从而确定获取待补视频帧的图像数据；然而，在视频两帧之间物体发生快速运动情形下，补帧结果较差。通过基于光流的方法对视频进行补帧时，假设是相邻帧之间的亮度恒定，利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而确定待补视频帧；当视频两帧之间出现突然的亮度变化时，补帧结果较差；由于上述视频补帧方式只在补帧过程中考虑到参考帧的部分信息，导致补帧效果较差，导致用户观影体验较差。

发明内容

有鉴于此，本发明的目的在于提供一种基于神经网络的视频补帧方法及其模型的训练方法，以提高补帧效果。

第一方面，本发明实施例提供了一种基于神经网络的视频补帧模型的训练方法，包括：基于预设的训练集合确定当前的训练参考帧；训练参考帧包括第一训练帧和第二训练帧；将训练参考帧输入至预设的初始模型；初始模型包括特征提取网络、特征融合网络及输出网络；通过特征提取网络生成训练参考帧的预设层级数量的初始特征图；通过特征融合网络将预设层级数量的初始特征图融合为融合特征图；将融合特征图输入至输出网络，输出第一训练帧和第二训练帧之间的训练补充视频帧；通过预设的预测损失函数确定训练补充视频帧的损失值；根据损失值对初始模型进行训练，直至初始模型中的参数收敛，得到视频补帧模型。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述特征提取网络包括依次连接的多组第一卷积网络；每组第一卷积网络包括相互连接的卷积层和平均池化层。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述初始特征图的层级数量为多层；多层初始特征图之间的尺度不同；通过特征融合网络将预设层级数量的初始特征图融合为融合特征图的步骤，包括：根据各层初始特征图的尺度，将多层初始特征图依次排列；其中，最顶层级的初始特征图的尺度最小；最底层级的初始特征图的尺度最大；将最顶层级的初始特征图确定为最顶层级的融合特征图；除最顶层级以外，将当前层级的初始特征图和当前层级的上一层级的融合特征图进行融合，得到当前层级的融合特征图；将最低层级的融合特征图确定为最终的融合特征图。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述特征融合网络包括依次连接的多组第二卷积网络；每组第二卷积网络包括相互连接的双线性插值层和卷积层；将当前层级的初始特征图和当前层级的上一层级的融合特征图进行融合，得到当前层级的融合特征图的步骤，包括：通过双线性插值层对当前层级的上一层级的融合特征图进行插值处理，得到与当前层级的初始特征图的尺寸相匹配的融合特征图；通过卷积层将当前层级的初始特征图与插值处理后的当前层级的上一层级的融合特征图进行卷积计算，得到当前层级的融合特征图。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，上述输出网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层及特征合成层；第一卷积层、第二卷积层、第三卷积层和第四卷积层分别与特征融合网络连接；第一卷积层、第二卷积层、第三卷积层和第四卷积层分别与特征合成层连接；将融合特征图输入至输出网络，输出第一训练帧和第二训练帧之间的训练补充视频帧的步骤，包括：通过第一卷积层对融合特征图中第一训练帧对应的特征数据进行第一卷积运算，输出第一竖直特征图；通过第二卷积层对融合特征图中第一训练帧对应的特征数据进行第二卷积运算，输出第一水平特征图；通过第三卷积层对融合特征图中第二训练帧对应的特征数据进行第三卷积运算，输出第二竖直特征图；通过第四卷积层对融合特征图中第二训练帧对应的特征数据进行第四卷积运算，输出第二水平特征图；通过特征合成层对第一竖直特征图、第一水平特征图、第二竖直特征图及第二水平特征图进行特征叠加处理，得到训练补充视频帧。

第二方面，本发明实施例还提供一种基于神经网络的视频补帧方法，包括：获取待补帧视频的第一参考帧及第二参考帧；将第一参考帧及第二参考帧输入至预先建立的视频补帧模型，生成补充视频帧；视频补帧模型通过上述基于神经网络的视频补帧模型的训练方法训练得到；将补充视频帧***至第一参考帧及第二参考帧之间。

第三方面，本发明实施例还提供一种基于神经网络的视频补帧模型的训练装置，包括：训练参考帧确定模块，用于基于预设的训练集合确定当前的训练参考帧；训练参考帧包括第一训练帧和第二训练帧；训练参考帧输入模块，用于将训练参考帧输入至预设的初始模型；初始模型包括特征提取网络、特征融合网络及输出网络；特征提取模块，用于通过特征提取网络生成训练参考帧的预设层级数量的初始特征图；特征融合模块，用于通过特征融合网络将预设层级数量的初始特征图融合为融合特征图；补充帧确定模块，用于将融合特征图输入至输出网络，输出第一训练帧和第二训练帧之间的训练补充视频帧；损失值获取模块，通过预设的预测损失函数确定训练补充视频帧的损失值；训练模块，用于根据损失值对初始模型进行训练，直至初始模型中的参数收敛，得到视频补帧模型。

第四方面，本发明实施例还提供一种基于神经网络的视频补帧装置，包括：参考帧获取模块，用于获取待补帧视频的第一参考帧及第二参考帧；补充帧生成模块，用于将第一参考帧及第二参考帧输入至预先建立的视频补帧模型，生成补充视频帧；视频补帧模型通过上述基于神经网络的视频补帧模型的训练方法训练得到；补充帧***模块，用于将补充视频帧***至第一参考帧及第二参考帧之间。

第五方面，本发明实施例还提供一种服务器，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述基于神经网络的视频补帧模型的训练方法，或者上述基于神经网络的视频补帧方法的步骤。

第六方面，本发明实施例还提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现实现上述基于神经网络的视频补帧模型的训练方法，或者上述基于神经网络的视频补帧方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种基于神经网络的视频补帧方法及其模型的训练方法、装置及服务器；基于预设的训练集合确定当前的训练参考帧后，将训练参考帧输入至预设的初始模型；通过特征提取网络生成训练参考帧的预设层级数量的初始特征图；通过特征融合网络将预设层级数量的初始特征图融合为融合特征图；再将融合特征图输入至输出网络，输出第一训练帧和第二训练帧之间的训练补充视频帧；通过预设的预测损失函数确定训练补充视频帧的损失值；继续向初始模型输入下一组训练参考帧进行训练，直至初始模型中的参数收敛，结束训练，得到视频补帧模型。该方式中，通过特征提取网络及特征融合网络获取到参考帧的较为丰富全面的特征信息，则通过训练好的视频补帧模型可以得到补帧效果较好的视频补充帧，从而提高用户观影体验。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于神经网络的视频补帧模型的训练方法的流程图；

图2为本发明实施例提供的一种基于神经网络的视频补帧模型的训练方法中，初始模型的结构示意图；

图3为本发明实施例提供的另一种基于神经网络的视频补帧模型的训练方法的流程图；

图4为本发明实施例提供的一种基于神经网络的视频补帧方法的流程图；

图5为本发明实施例提供的一种基于深度学习的自适应视频补帧方法中，神经网络框架的数据流向示意图；

图6为本发明实施例提供的一种基于神经网络的视频补帧模型的训练装置的结构示意图；

图7为本发明实施例提供的一种基于神经网络的视频补帧装置的结构示意图；

图8为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，通常采用运动补偿方法或基于光流的方法进行补帧。

运动补偿方法的基本思想为：将图像分割为静止得和运动的两部分，估计物体的位移向量，然后按照估计得到的位移向量取得前一帧的图像数据，再通过使用预测滤波器，得到前一帧图像数据的预测像素。然而，在.快速运动情形下，通过该补帧方式得到的补充帧很容易出现模糊甚至严重失真的情形；当对遮挡区域求得的运动矢量不准确，运动矢量场的平滑性难以得到保证；在对转场视频进行补帧时，补充帧会出现严重的扭曲变形情况。

基于光流的补帧方法的基本思想为：利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息。然而，由于光流法的基本假设是相邻帧之间的亮度恒定，所以突然的亮度变化违反了该假设，这导致帧插值结果中的可见伪像。此外，光流法要求相邻视频帧的取帧时间连续，或者，相邻帧之间物体的运动比较“微小”，因而不适用于间距较大的图像之间的补帧。

基于此，本发明实施例提供了一种基于神经网络的视频补帧方法及其模型的训练方法、装置及服务器，可以应用于视频的补帧或相关的图像处理中，如2D视频或3D视频等。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于神经网络的视频补帧模型的训练方法进行详细介绍。

参见图1所示的一种基于神经网络的视频补帧模型的训练方法的流程图，该方法包括以下步骤：

步骤S100，基于预设的训练集合确定当前的训练参考帧；训练参考帧包括第一训练帧和第二训练帧。

上述预设的训练集合中存在多组视频帧；由于该方法主要用于视频补帧模型的训练；而待补帧的两个参考帧之间通常有一定的相似度。可以基于预设的该视频补帧模型的适用范围，划分两个参考帧的相似度范围，从而确定当前的训练参考帧。比如，如果两个参考帧属于不同的场景，二者之间的相似度较低，而通常情况下没有必要进行二者之间的补帧，因此可以在设定作为训练参考帧的两帧之间相似度大于某个阈值，以满足第一参考帧和第二参考帧属于同一场景的需求。

步骤S102，将训练参考帧输入至预设的初始模型。

通常来说，同一个视频的两个参考帧的大小相同；如果不同，可以调整两个参考帧的图片大小，调整后再输入至预设的初始网络。具体实施过程中，可以将第一训练帧和第二训练帧拼接为一个图像，输入到预设的初始模型中，进行处理；上述的初始模型可以包括特征提取网络、特征融合网络及输出网络，三者分别实现进行特征提取处理，特征融合处理及最终输出补充视频帧的功能。此外，当上述训练参考帧为彩色图像时，在初始模型中通常采用三通道进行处理。

步骤S104，通过特征提取网络生成训练参考帧的预设层级数量的初始特征图。

上述特征提取网络可以为不同形式的神经网络，如全卷积网络或全连接网络等；将训练参考帧输入至特征提取网络后，可以得到预设层级数量的初始特征图；该预设层级数量与特征提取网络中的卷积层数量相关，具体可根据需求设置。在具体实施过程中，可以将前一卷积层输出的初始特征图作为当前卷积层的输入，由当前卷积层对其进行卷积运算，输出当前层的初始特征图，此时，当前层的初始特征图的尺度小于低一层的初始特征图。

步骤S106，通过特征融合网络将预设层级数量的初始特征图融合为融合特征图。

由于不同的初始特征图通过不同的卷积核进行卷积运算得到，因此不同的初始特征图中包含训练参考帧的不同种类或维度的特征；通过特征融合网络将这些特征融合起来，用于后续的补充帧输出，可以使得补充帧更能还原相应的细节；该融合过程也可以通过卷积计算得到，因此，特征融合网络也可以为不同形式的神经网络，如全卷积网络或全连接网络等；在初始特征图尺度不同时，还可以添加采样层对初始特征图或融合过程中的特征图进行尺度的变换。

步骤S108，将融合特征图输入至输出网络，输出第一训练帧和第二训练帧之间的训练补充视频帧。

上述融合特征图中包含了第一训练帧及第二训练帧的特征，补充视频帧的特征与第一训练帧及第二训练帧的特征具有一定的关系；上述输出网络中也可以包括卷积神经网络的结构，分别从第一训练帧的特征及第二训练帧的特征中提取出属于补充视频帧的特征，从而合成当前训练参考帧对应的训练补充视频帧。

步骤S110，通过预设的预测损失函数确定训练补充视频帧的损失值。

上述预测损失函数可以包括感知损失函数、SSIM(structural similarityindex，结构相似性)损失函数等，可根据需要或历史经验选择相应的损失函数。

步骤S112，根据所述损失值对所述初始模型进行训练，直至所述初始模型中的参数收敛，得到视频补帧模型。

上述损失值可以反映训练补充视频帧与理想补充视频帧的符合程度；可以预先设定需要达到的损失值，在模型训练过程中，模型中的参数的调整方向会向该损失值靠拢，直到到达该损失值，初始模型中的参数收敛，可以得到较为成熟的视频补帧模型。该过程需要大量的样本数据；实际上，在训练该初始模型的过程中，使用的训练参考帧可以为不重复的样本组，也可以存在相互重复的样本组。

本发明实施例提供了一种基于神经网络的视频补帧模型的训练方法；基于预设的训练集合确定当前的训练参考帧后，将训练参考帧输入至预设的初始模型；通过特征提取网络生成训练参考帧的预设层级数量的初始特征图；通过特征融合网络将预设层级数量的初始特征图融合为融合特征图；再将融合特征图输入至输出网络，输出第一训练帧和第二训练帧之间的训练补充视频帧；通过预设的预测损失函数确定训练补充视频帧的损失值；继续向初始模型输入下一组训练参考帧进行训练，直至初始模型中的参数收敛，结束训练，得到视频补帧模型。该方式中，通过特征提取网络及特征融合网络获取到参考帧的较为丰富全面的特征信息，则通过训练好的视频补帧模型可以得到补帧效果较好的视频补充帧，从而提高用户观影体验。

本发明实施例还提供了另一种基于神经网络的视频补帧模型的训练方法；该方法重点描述了通过特征融合网络对初始特征图的融合过程及通过输出网络输出训练补充帧的过程。

该方法基于如图2所示的初始模型；该初始模型包括特征提取网络、特征融合网络及输出网络；其中，特征提取网络包括依次连接的多组第一卷积网络；每组第一卷积网络包括相互连接的卷积层和平均池化层；图2中以包括5层第一卷积网络为例。特征融合网络包括依次连接的第二卷积网络；每组第二卷积网络包括相互连接的双线性插值层和卷积层；图2中以包括5层第二卷积网络为例。输出网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层及特征合成层；第一卷积层、第二卷积层、第三卷积层和第四卷积层分别与特征融合网络连接；第一卷积层、第二卷积层、第三卷积层和第四卷积层分别与特征合成层连接。

该方法的流程图如图3所示，包括以下步骤：

步骤S300，基于预设的训练集合确定当前的训练参考帧；训练参考帧包括第一训练帧和第二训练帧。

步骤S302，将训练参考帧输入至预设的初始模型。

步骤S304，通过特征提取网络生成训练参考帧的预设层级数量的初始特征图；结合图2所示的初始模型的结构，预设层级数量为5，每一层第一卷积网络输出一个初始特征图；即训练参考帧输入至初始网络后，经过第一层级的第一卷积网络的卷积层及平均池化层处理后，输出第一层级的初始特征图；第一层级的初始特征图经过第二层级的第一卷积网络的卷积层及平均池化层处理后，输出第二层级的初始特征图；以此类推，直至得到5个层级的初始特征图。

步骤S306，根据各层所述初始特征图的尺度，将多层所述初始特征图依次排列；其中，最顶层级的初始特征图的尺度最小；最底层级的初始特征图的尺度最大。

步骤S308，将最顶层级的初始特征图确定为所述最顶层级的融合特征图。

步骤S310，除所述最顶层级以外，将当前层级的初始特征图和所述当前层级的上一层级的融合特征图进行融合，得到当前层级的融合特征图。

步骤S312，将最低层级的融合特征图确定为最终的融合特征图。

基于图2所示的特征融合网络的结构，上述步骤S310可以通过以下方式实现：

(1)通过双线性插值层对当前层级的上一层级的融合特征图进行插值处理，得到与当前层级的初始特征图的尺寸相匹配的融合特征图。

(2)通过卷积层将当前层级的初始特征图与插值处理后的当前层级的上一层级的融合特征图进行卷积计算，得到当前层级的融合特征图；实际上，在采用卷积层对初始特征图和融合特征图处理前，可以将初始特征图和融合特征图的对应部分进行叠加。

通常来说，为了融合所有层级的初始特征图，特征融合网络的层级数量与特征提取网络的层级数量相同，如图2所示。在实际中，也可以根据需求，采用不同的层级数量。由于特征融合网络需要对初始特征图进行处理，特征提取网络的第一卷积网络还与特征融合网络的第二卷积网络对应连接，如图2所示。

步骤S314，通过第一卷积层对融合特征图中第一训练帧对应的特征数据进行第一卷积运算，输出第一竖直特征图。

步骤S316，通过第二卷积层对融合特征图中第一训练帧对应的特征数据进行第二卷积运算，输出第一水平特征图。

步骤S318，通过第三卷积层对融合特征图中第二训练帧对应的特征数据进行第三卷积运算，输出第二竖直特征图。

步骤S320，通过第四卷积层对融合特征图中第二训练帧对应的特征数据进行第四卷积运算，输出第二水平特征图。

上述第一卷积层、第二卷积层、第三卷积层及第四卷积层的卷积核均为一维卷积核，相比较于二维卷积核，运算量更小，运算时间较短；通过一维卷积核分别对融合特征图中第一训练帧、第二训练帧的竖直特征及水平特征进行提取；采用图2所示的结构时，上述4个步骤可以同时进行，减少运算时间。

步骤S322，通过特征合成层对第一竖直特征图、第一水平特征图、第二竖直特征图及第二水平特征图进行特征叠加处理，得到训练补充视频帧。

步骤S324，通过预设的预测损失函数确定训练补充视频帧的损失值。

步骤S326，根据所述损失值对所述初始模型进行训练，直至所述初始模型中的参数收敛，得到视频补帧模型。

上述方法中，在生成初始特征图的过程中采用了由卷积层和平均池化层组成的多个第一卷积网络，将初始特征图融合为融合特征图的过程中采用了由卷积层和双线性差值层组成的多个第二卷积网络，获取了训练参考帧较为丰富全面的特征；输出层网络基于四个卷积层对融合特征图中第一训练帧、第二训练帧的竖直特征及水平特征进行并行提取，最后合成补充视频帧；该方式可以得到较好的补帧效果，并且降低了运算量，减少了运算时间。

基于上述视频补帧模型的训练方法实施例，本发明实施例还提供了一种基于神经网络的视频补帧方法，其流程图如图4所示，该方法包括以下步骤：

步骤S400，获取待补帧视频的第一参考帧及第二参考帧。

上述第一参考帧及第二参考帧可以为待补帧视频的视频帧序列中相邻的两帧，也可以中间隔有其他视频帧；第一参考帧及第二参考帧的选取过程还可以参照视频补帧模型训练过程中，对训练参考帧的一些要求，如两个视频帧处于同一场景内等。

步骤S402，将第一参考帧及第二参考帧输入至预先建立的视频补帧模型，生成补充视频帧；视频补帧模型通过上述基于神经网络的视频补帧模型的训练方法训练得到。

输入模型的第一参考帧及第二参考帧的尺度大小应相同；如果不同，则需要调整至相同后，再输入预先建立的视频补帧模型进行处理。

步骤S404，将补充视频帧***至第一参考帧及第二参考帧之间。

该方法的整个处理过程是端到端的，不需要对视频帧进行后续的处理，视频帧率转换效果良好，较传统方法，可以提供更高质量的视频帧插值。

基于上述实施例，本发明还提供了一种基于深度学习的自适应视频补帧方法，该方法包括以下步骤：

步骤(1)，设计一个基于完全卷积的神经网络框架。

具体地，采用完全卷积的神经网络，此网络包括一个用于特征提取的收缩组件(相当于上述特征提取网络)和一个包含上采样层以执行预测的扩展层(相当于上述特征融合网络)，进一步使用跳跃连接让扩展层获得来自神经网络收缩部分的特征。将信息流引导到最后一个扩展层，该扩展层分成四个子网(相当于上述输出网络中的四个卷积层)，每个子网计算其中一个内核；其数据流向示意图如图5所示，收缩组件与扩展层组成的结构相当于编码器-解码器网络，提取的特征发送至给予四个子网，估计的像素相关内核与输入帧卷积以产生内插帧I。其中，每个子网以密集像素方式估计每个输出像素的四个1D内核中的一个(相当于训练过程)；在子网中除了卷积层还有一个双线性差值层，其作用为将提取到的特征放大至与输入帧相匹配。图5中，I₁’表示从I₁参考帧提取到的属于补充帧I’的特征，I₂’表示从I₂参考帧提取到的属于补充帧I’的特征。

具体如下：对于视频帧插值来说，目标在于通过两个输入帧I₁和I₂，得出中间帧

传统的视频帧插值方法包含两步：运动估计与像素合成，通常通过光流和像素插值两种方法实现。当光流由于遮挡，运动模糊等问题而变得不可靠时，这个方法得到的插值结果可能会不准确。

对于本方法，对于每个输出像素

利用基于卷积的方法估计一对二维卷积核K₁(x,y)和K₂(x,y)并使用它们与I₁和I₂进行卷积并计算输出像素的颜色，每个输出像素的数学描述为：

其中P₁(x,y)和P₂(x,y)是以I₁和I₂中的(x,y)为中心的补丁，相当于I₁和I₂通过上述收缩组件和扩展层处理后得到特征矩阵(相当于上述融合特征图)。

通过估计一对接近二维内核的一维内核来解决对于较大内核带来的计算上的消耗问题。对于K₁和K₂，估计<k_1,v,k_1,h>和<k_2,v,k_2,h>将其近似为k_1,v*k_1,h和k₂,_v*k_2,h，k_1,v、k_1,h分别K₁的水平向量和竖直向量，k_2,v和k_2,h分别为K₂的水平向量和竖直向量，实现了将每个内核的参数数量从原来的n*n减少到了2n。

为估计四组一维内核，信息流引导到最后一个扩展层，该扩展层分为四个子网，每个子网计算其中一个内核。也可将四个内核的组合表示视为统一模型进行建模，但在使用四个子网络时训练期间收敛速度更快。

同时为解决实验中伪影问题，使用双线性插值来处理这些伪像，以在网络的解码器中执行上采样。

步骤(2)，构建损失函数，使得基于特征重建损失的VGG-19网络效果更好。

使用感知损失函数来定义损失，感知损失函数的数学描述如下：

其中φ是从图像中提取出的特征，

表示预测值，I_gt表示真实值。

步骤(3)，使用卷积感知初始化方法初始化神经网络参数并使用AdaMax进行训练，使用了128*128大小的图像区域，避免使用不包含有用信息的图像区域，改善训练效果。

用卷积感知初始化方法初始化神经网络参数，并使用AdaMax进行训练，其中β1＝0.9为一阶矩估计的指数衰减率，β2＝0.999为二阶矩估计的指数衰减率，学习率为0.001，将其分为16个minibatch。使用128×128大小的图像区域，而非训练整个视频帧。避免了使用不包含有用的信息的图像区域，改善了训练效果。

生成训练集的具体过程如下：将所有视频帧分为三帧组，并在每个三帧组中随机选取一帧，再在视频中提取出以该帧为中心的三帧组。由于视频的分辨率对于模型有较大的影响，选取了分辨率较高的视频，并将其缩放为1280*720的分辨率以减少视频压缩带来的影响。为避免选取三帧组中有大量没有或很少运动的帧，计算三帧组中第一帧和最后一帧之间的光流并计算平均光流量。然后，不替换地选择了500,000个三帧组。其中，一个三帧组中的运动量越大，就更容易被选取。通过这种方式，得到了一个具有较大运动的训练集。同时因为一些视频会由许多镜头组成，计算不同帧之间的颜色差异来检测镜头的切换并删除跨越不同镜头的组。最后，计算在每个样本中光流的熵，最后选择出250,000个具有最大熵的三帧组来形成训练数据集。在此训练数据集中，大约70％的像素的光流量大小至少为20个像素。平均值为25个像素，最大值为38个像素。

在训练的同时对训练数据进行增强。训练数据集中的每个样本大小为150×150像素，而使用大小为128×128像素的补丁进行训练，这样可以通过对训练数据进行随机裁剪来执行数据增强，防止网络学***或垂直地随机翻转裁剪的贴片并随机交换它们的时间顺序，使得训练数据集内的运动对称并防止网络偏置。

在视频补帧模型训练结束后，采用该模型进行视频插帧之前，可以判断两个参考帧是否处于同一场景；在判断过程中，可以将第一参考帧及第二参考帧的对应像素位置的像素值相减，得到每个像素位置对应的像素差值；根据每个像素位置对应的像素差值，计算总像素差；判断总像素差是否大于或等于预设的差值阈值；如果否，则确认第一参考帧与所述第二参考帧处于同一场景；如果是，则确认第一参考帧与所述第二参考帧不处于同一场景。当两个参考帧不处于同一场景时，通常不需要进行视频补帧。

上述基于深度学习的自适应视频补帧方法：包括合并计算相邻帧之间的特征、通过结果生成中间帧两个步骤；将输入帧与空间自适应卷积核进行卷积；将视频帧插值表示为使用一对一维的卷积核对输入帧上的局部进行卷积，以解决较大内核带来的计算占用的内存容量增长的问题；利用所述优化后的深度完全卷积神经网络，能够一次计算内核并合并成整个中间帧，并能够允许结合感知损失来训练神经网络以产生高质量的中间帧。

上述方法，对于补帧模糊情形，由于采用的是自适应卷积的方法，因而能够最大限度保持原图清晰度，没有重影伪影；对于遮挡区域以及突然亮度变化情形：用光流的方法不可靠，而本方法通过深度学习估计卷积核，自动合成像素，补帧效果稳定；此外，还能够实现边缘感知像素插值的卷积核。上述视频补帧模型对于所有内核，极少数具有非零值；沿图像边缘的像素，核是各向异性的，并且取向和边缘方向很好的对准。

对应于上述视频补帧模型的训练方法实施例，本发明实施例还提供了一种基于神经网络的视频补帧模型的训练装置，其结构示意图如图6所示，包括：

训练参考帧确定模块600，用于基于预设的训练集合确定当前的训练参考帧；训练参考帧包括第一训练帧和第二训练帧。

训练参考帧输入模块602，用于将训练参考帧输入至预设的初始模型；初始模型包括特征提取网络、特征融合网络及输出网络。

特征提取模块604，用于通过特征提取网络生成训练参考帧的预设层级数量的初始特征图。

特征融合模块606，用于通过特征融合网络将预设层级数量的初始特征图融合为融合特征图。

补充帧确定模块608，用于将融合特征图输入至输出网络，输出第一训练帧和第二训练帧之间的训练补充视频帧。

损失值获取模块610，通过预设的预测损失函数确定训练补充视频帧的损失值。

训练模块612，用于根据损失值对初始模型进行训练，直至初始模型中的参数收敛，得到视频补帧模型。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

对应于上述视频补帧方法实施例，本发明实施例还提供了一种基于神经网络的视频补帧装置，其结构示意图如图7所示，包括：

参考帧获取模块700，用于获取待补帧视频的第一参考帧及第二参考帧；补充帧生成模块702，用于将第一参考帧及第二参考帧输入至预先建立的视频补帧模型，生成补充视频帧；视频补帧模型通过上述基于神经网络的视频补帧模型的训练方法训练得到；补充帧***模块703，用于将补充视频帧***至第一参考帧及第二参考帧之间。

本发明实施例还提供了一种服务器，参见图8所示，该服务器包括处理器130和存储器131，该存储器131存储有能够被处理器130执行的机器可执行指令，该处理器130执行机器可执行指令以实现上述基于神经网络的视频补帧模型的训练方法或基于神经网络的视频补帧方法。

进一步地，图8所示的服务器还包括总线132和通信接口133，处理器130、通信接口133和存储器131通过总线132连接。

其中，存储器131可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线132可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器130可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131，处理器130读取存储器131中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述基于神经网络的视频补帧模型的训练方法或基于神经网络的视频补帧方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的基于神经网络的视频补帧方法及其模型的训练方法、装置及服务器的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于神经网络的视频补帧模型的训练方法，其特征在于，包括：

基于预设的训练集合确定当前的训练参考帧；所述训练参考帧包括第一训练帧和第二训练帧；

将所述训练参考帧输入至预设的初始模型；所述初始模型包括特征提取网络、特征融合网络及输出网络；

通过所述特征提取网络生成所述训练参考帧的预设层级数量的初始特征图；

通过所述特征融合网络将所述预设层级数量的初始特征图融合为融合特征图；

将所述融合特征图输入至所述输出网络，输出所述第一训练帧和所述第二训练帧之间的训练补充视频帧；

通过预设的预测损失函数确定所述训练补充视频帧的损失值；

根据所述损失值对所述初始模型进行训练，直至所述初始模型中的参数收敛，得到视频补帧模型。

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括依次连接的多组第一卷积网络；每组所述第一卷积网络包括相互连接的卷积层和平均池化层。

3.根据权利要求2所述的方法，其特征在于，所述初始特征图的层级数量为多层；多层所述初始特征图之间的尺度不同；

通过所述特征融合网络将所述预设层级数量的初始特征图融合为融合特征图的步骤，包括：

根据各层所述初始特征图的尺度，将多层所述初始特征图依次排列；其中，最顶层级的初始特征图的尺度最小；最底层级的初始特征图的尺度最大；

将最顶层级的初始特征图确定为所述最顶层级的融合特征图；

除所述最顶层级以外，将当前层级的初始特征图和所述当前层级的上一层级的融合特征图进行融合，得到当前层级的融合特征图；

将最低层级的融合特征图确定为最终的融合特征图。

4.根据权利要求3所述的方法，其特征在于，所述特征融合网络包括依次连接的多组第二卷积网络；每组所述第二卷积网络包括相互连接的双线性插值层和卷积层；

将当前层级的初始特征图和所述当前层级的上一层级的融合特征图进行融合，得到当前层级的融合特征图的步骤，包括：

通过所述双线性插值层对所述当前层级的上一层级的融合特征图进行插值处理，得到与所述当前层级的初始特征图的尺寸相匹配的融合特征图；

通过所述卷积层将所述当前层级的初始特征图与插值处理后的当前层级的上一层级的融合特征图进行卷积计算，得到当前层级的融合特征图。

5.根据权利要求1所述的方法，其特征在于，所述输出网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层及特征合成层；所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层分别与所述特征融合网络连接；所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层分别与所述特征合成层连接；

将所述融合特征图输入至所述输出网络，输出所述第一训练帧和所述第二训练帧之间的训练补充视频帧的步骤，包括：

通过所述第一卷积层对所述融合特征图中第一训练帧对应的特征数据进行第一卷积运算，输出第一竖直特征图；

通过所述第二卷积层对所述融合特征图中第一训练帧对应的特征数据进行第二卷积运算，输出第一水平特征图；

通过所述第三卷积层对所述融合特征图中第二训练帧对应的特征数据进行第三卷积运算，输出第二竖直特征图；

通过所述第四卷积层对所述融合特征图中第二训练帧对应的特征数据进行第四卷积运算，输出第二水平特征图；

通过所述特征合成层对所述第一竖直特征图、所述第一水平特征图、所述第二竖直特征图及所述第二水平特征图进行特征叠加处理，得到所述训练补充视频帧。

6.一种基于神经网络的视频补帧方法，其特征在于，包括：

获取待补帧视频的第一参考帧及第二参考帧；

将所述第一参考帧及第二参考帧输入至预先建立的视频补帧模型，生成补充视频帧；所述视频补帧模型通过权利要求1-5任一项所述的视频补帧模型的训练方法训练得到；

将所述补充视频帧***至所述第一参考帧及所述第二参考帧之间。

7.一种基于神经网络的视频补帧模型的训练装置，其特征在于，包括：

训练参考帧确定模块，用于基于预设的训练集合确定当前的训练参考帧；所述训练参考帧包括第一训练帧和第二训练帧；

训练参考帧输入模块，用于将所述训练参考帧输入至预设的初始模型；所述初始模型包括特征提取网络、特征融合网络及输出网络；

特征提取模块，用于通过所述特征提取网络生成所述训练参考帧的预设层级数量的初始特征图；

特征融合模块，用于通过所述特征融合网络将所述预设层级数量的初始特征图融合为融合特征图；

补充帧确定模块，用于将所述融合特征图输入至所述输出网络，输出所述第一训练帧和所述第二训练帧之间的训练补充视频帧；

损失值获取模块，通过预设的预测损失函数确定所述训练补充视频帧的损失值；

训练模块，用于根据所述损失值对所述初始模型进行训练，直至所述初始模型中的参数收敛，得到视频补帧模型。

8.一种基于神经网络的视频补帧装置，其特征在于，包括：

参考帧获取模块，用于获取待补帧视频的第一参考帧及第二参考帧；

补充帧生成模块，用于将所述第一参考帧及第二参考帧输入至预先建立的视频补帧模型，生成补充视频帧；所述视频补帧模型通过权利要求1-5任一项所述的基于神经网络的视频补帧模型的训练方法训练得到；

补充帧***模块，用于将所述补充视频帧***至所述第一参考帧及所述第二参考帧之间。

9.一种服务器，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至5任一项所述的基于神经网络的视频补帧模型的训练方法，或者权利要求6所述的基于神经网络的视频补帧方法的步骤。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现权利要求1至5任一项所述的基于神经网络的视频补帧模型的训练方法，或者权利要求6所述的基于神经网络的视频补帧方法的步骤。