CN113891027B

CN113891027B - 视频插帧模型训练方法、装置、计算机设备和存储介质

Info

Publication number: CN113891027B
Application number: CN202111477500.0A
Authority: CN
Inventors: 周昆; 李文博; 蒋念娟; 沈小勇; 吕江波
Original assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Current assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-15
Anticipated expiration: 2041-12-06
Also published as: WO2023103378A1; CN113891027A

Abstract

本申请涉及一种视频插帧模型训练方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取训练图像帧组；将每一训练图像帧组中第一个图像帧及第三个图像帧输入至视频插帧模型，输出每一训练图像帧组对应的预估中间图像帧；基于每一训练图像帧组中的第一差异、第二差异以及第三差异，调整视频插帧模型中的参数，直至满足训练停止条件时结束训练。采用本发明方法能够有效的生成高质量的视频帧，从而提升视频的帧率，增加画面的流畅感。

Description

视频插帧模型训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种视频插帧模型训练方法、装置、计算机设备和存储介质。

背景技术

随着图像处理技术的发展，人们对于高刷新率的高质量视频画面的需求也在快速增长，因此，出现了视频插帧模型训练技术，视频插帧的主要目的是为了通过增加帧率，提升画面的流畅感。如今，视频插帧技术已被应用于各个领域中，比如，随着手机硬件的发展，刷新率也得到了极大的提升，而以前的视频内容也需要提升帧率来匹配硬件能支持的最高刷新率。在动画制作中，同样也需要视频插帧方法，可以根据少量关键的图像帧得到一段更为流畅的视频片段。

在相关技术中，对于大位移的物体难以准确的捕捉时序的对应，从而容易产生模糊的插帧结果，此外，现有技术依赖监督学***均的内容，导致生成的中间图像帧的图像过度平滑和纹理不清晰。

发明内容

基于此，有必要针对上述技术问题，提供一种视频插帧模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种视频插帧模型训练方法。所述方法包括：

获取训练图像帧组，每一训练图像帧组是由视频中连续的三个图像帧按顺序排布所构成的，每一训练图像帧组中的第二个图像帧作为每一训练图像帧组对应的标签中间图像帧；

将每一训练图像帧组中第一个图像帧及第三个图像帧输入至视频插帧模型，输出每一训练图像帧组对应的预估中间图像帧；

基于每一训练图像帧组中的第一个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第一差异、每一训练图像帧组中的第二个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第二差异、以及每一训练图像帧组中的第三个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第三差异，调整视频插帧模型中的参数，直至满足训练停止条件时结束训练；其中，第二差异与参数调整之间的关联度大于第一差异及第三差异。

在其中一个实施例中，将每一训练图像帧组中第一个图像帧及第三个图像帧输入至视频插帧模型，输出每一训练图像帧组对应的预估中间图像帧，包括：

对于任一训练图像帧组，将任一训练图像帧组中第一个图像帧与第三个图像帧分别作为第一图像帧及第三图像帧，对第一图像帧与第三图像帧同时采用相同分辨率进行调整；其中，共调整n-1次且每次调整所采用的分辨率均不相同，其中，n为正整数且不小于2；

对每次调整后的两个图像帧各自进行特征提取，由每次调整后的两个图像帧所提取的特征组成每一图像帧特征组，由每一图像帧特征组构成图像帧特征组集合；

将第一图像帧在图像帧特征组集合中对应的特征向第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到第一图像帧的对齐结果；

将第三图像帧在图像帧特征组集合中对应的特征向第一图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到第三图像帧的对齐结果；

将第一图像帧的对齐结果及第三图像帧的对齐结果进行双向信息融合，获取双向信息融合结果；

对双向信息融合结果进行重建处理，获取预估中间图像帧。

在其中一个实施例中，图像帧特征组集合中图像帧特征组对应的分辨率按顺序是依次变大的；其中，将第一图像帧在图像帧特征组集合中对应的特征向第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到第一图像帧的对齐结果，包括：

对于第i个图像帧特征组，若i为1，则将第一图像帧在第i个图像帧特征组中对应的特征与第三图像帧在第i个图像帧特征组中对应的特征作对齐处理，得到第i个对齐处理结果，若i不为1，则将前i-1个双线性插值计算结果及第三图像帧在第i个图像帧特征组中对应的特征作跨尺度融合处理，得到第i个跨尺度融合处理结果，将第i个跨尺度融合处理结果与第一图像帧在第i个图像帧特征组中对应的特征作对齐处理，得到第i个对齐处理结果，重复上述对每一图像帧特征组的处理过程，直至所有图像帧特征组处理完毕，将第n个对齐处理结果作为第一图像帧的对齐结果，其中，i为不小于1且不大于n的正整数；

其中，对于前i-1个双线性插值计算结果中第j个双线性插值计算结果，第j个双线性插值计算结果是对第j个对齐处理结果连续进行i-j次双线性插值计算所得到的，j为不小于1且小于i的正整数。

在其中一个实施例中，将第一图像帧的对齐结果及第三图像帧的对齐结果进行双向信息融合，获取双向信息融合结果，包括：

将第一图像帧的对齐结果及第三图像帧的对齐结果进行卷积，获取卷积结果；

对卷积结果进行计算，获取融合权重；

根据融合权重，对第一图像帧的对齐结果及第三图像帧的结果进行融合处理，得到双向信息融合结果。

在其中一个实施例中，第一差异及第三差异为相似度；第一差异及第三差异的确定过程，包括：

对于任一训练图像帧组，从任一训练图像帧组对应的预估中间图像帧中选取任一t*t的像素，根据任一t*t的像素的中心像素在任一训练图像帧组对应的预估中间图像帧中的位置，分别在任一训练图像帧组中第一个图像帧中确定t*t的第一目标像素及在任一训练图像帧组中第三个图像帧中确定t*t的第三目标像素，其中，t为不等于1的奇数；

根据t*t的第一目标像素，确定第一字符集合；根据t*t的第三目标像素，确定第三字符集合；根据任一t*t的像素，确定第二字符集合；

根据第一字符集合、第二字符集合及第三字符集合，确定任一像素与第一目标像素之间的相似度，作为第一差异，确定任一像素与第三目标像素之间的相似度，作为第三差异。

在其中一个实施例中，第二差异的确定过程，包括：

对于任一训练图像帧组，根据任一训练图像帧组中第二个图像帧中的所有像素的RGB值以及任一训练图像帧组对应的预估中间图像帧中所有像素的RGB值，确定任一训练图像帧组中的第二图像帧与任一训练图像帧组对应的预估中间图像帧之间的RGB值差异，作为第二差异。

第二方面，本申请还提供了一种视频插帧模型训练装置。所述装置包括：

获取模块，用于获取训练图像帧组，每一训练图像帧组是由视频中连续的三个图像帧按顺序排布所构成的，每一训练图像帧组中的第二个图像帧作为每一训练图像帧组对应的标签中间图像帧；

视频插帧模块，用于将每一训练图像帧组中第一个图像帧及第三个图像帧输入至视频插帧模型，输出每一训练图像帧组对应的预估中间图像帧；

调整模块，用于基于每一训练图像帧组中的第一个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第一差异、每一训练图像帧组中的第二个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第二差异、以及每一训练图像帧组中的第三个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第三差异，调整视频插帧模型中的参数，直至满足训练停止条件时结束训练；其中，第二差异与参数调整之间的关联度大于第一差异及第三差异。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述视频插帧模型训练方法、装置、计算机设备、存储介质和计算机程序产品，通过获取训练图像帧组，其中，每一训练图像帧组是由视频中连续的三个图像帧按顺序排布所构成的，每一训练图像帧组中的第二个图像帧作为每一训练图像帧组对应的标签中间图像帧。将每一训练图像帧组中第一个图像帧及第三个图像帧输入至视频插帧模型，输出每一训练图像帧组对应的预估中间图像帧。基于每一训练图像帧组中的第一个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第一差异、每一训练图像帧组中的第二个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第二差异、以及每一训练图像帧组中的第三个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第三差异，调整视频插帧模型中的参数，直至满足训练停止条件时结束训练。

相较于相关技术中只通过比较第二个图像帧与预估中间图像帧之间的差异调整视频插帧模型中的参数，由于加入了比较第一图像帧以及第三图像帧与预估中间图像帧之间的差异调整视频插帧模型中的参数，可以使视频插帧模型输出的中间图像帧纹理更加清晰，且更加逼近于输入图像帧的纹理结构，避免生成模糊以及纹理不清晰的内容。

附图说明

图1为一个实施例中视频插帧模型训练方法的应用环境图；

图2为一个实施例中视频插帧模型训练方法的流程示意图；

图3为一个实施例中视频插帧模型训练方法的重建处理的示意图；

图4为一个实施例中视频插帧模型训练方法的跨尺度对齐处理的示意图；

图5为一个实施例中视频插帧模型训练方法的匹配过程的示意图；

图6为一个实施例中视频插帧模型训练方法的训练过程的示意图；

图7a为一个实施例中单帧视频内插的对比评测结果图；

图7b为一个实施例中多帧视频内插的对比评测结果图；

图7c为一个实施例中单帧视频外插的对比评测结果图；

图7d为一个实施例中将已训练好的视频插帧模型集成在一个视频超分辨率模型后的可视化效果对比图；

图7e为一个实施例中单帧视频内插的可视化对比图；

图7f为一个实施例中多帧视频内插的可视化对比图；

图7g为一个实施例中单帧视频外插的可视化对比图；

图7h为一个实施例中单帧视频内插对视频超分的影响对比图；

图7i为一个实施例中加入TCL损失函数的单个可视化对比图；

图7j为一个实施例中加入TCL损失函数的多个可视化对比图；

图8为一个实施例中视频插帧模型训练装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词，但除非特别说明，这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说，在不脱离本申请的范围的情况下，第三预设阈值与第四预设阈值可以相同可以不同。

本申请实施例提供的视频插帧模型训练方法，可以应用于如图1所示的应用环境中。其中，终端101通过网络与服务器102进行通信。数据存储***可以存储服务器102需要处理的数据。数据存储***可以集成在服务器102上，也可以放在云上或其他网络服务器上。终端101获取训练图像帧组，服务器对训练图像帧组进行处理。当然，实际实施过程中，服务器102的处理功能也可以直接集成到终端101中，也即终端101获取训练图像帧，并对训练图像帧进行处理得到训练好的视频插帧模型。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备。服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种视频插帧模型训练方法，以该方法应用于图1中的终端101为例进行说明，包括以下步骤：

201、获取训练图像帧组，每一训练图像帧组是由视频中连续的三个图像帧按顺序排布所构成的，每一训练图像帧组中的第二个图像帧作为每一训练图像帧组对应的标签中间图像帧；

202、将每一训练图像帧组中第一个图像帧及第三个图像帧输入至视频插帧模型，输出每一训练图像帧组对应的预估中间图像帧；

203、基于每一训练图像帧组中的第一个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第一差异、每一训练图像帧组中的第二个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第二差异、以及每一训练图像帧组中的第三个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第三差异，调整视频插帧模型中的参数，直至满足训练停止条件时结束训练；其中，第二差异与参数调整之间的关联度大于第一差异及第三差异。

在上述步骤201中，训练图像帧组指的是对视频进行图像帧提取处理后，将提取得到的每连续的三个图像帧作为一组训练图像帧组。其中，每一训练图像帧组中的三个图像帧按其在视频中出现时间顺序排布。另外，视频可以不只是一段视频，也可以是多段不相同的视频，因此得到的训练图像帧组可以来自一段视频，也可以来自多段视频。

对于每一图像帧组中的第二个图像帧，因为其是对应图像帧组中第一个图像帧与第三个图像帧的中间图像帧，第二个图像帧的内容为第一个图像帧与第三个图像帧之间可以构成关联的连接内容，因此，本实施例将第二个图像帧作为每一训练图像帧组的对应的标签中间图像帧，以每一训练图像帧组的对应的标签中间图像帧作为每一训练图像帧组的监督图像，可以对视频插帧模型进行监督训练。

在上述步骤202中，每一训练图像帧组的第一个图像帧及第三个图像帧输入至视频插帧模型后，都会得到每一训练图像帧组对应的预估中间图像帧，预估中间图像帧的内容是通过对第一个图像帧及三个图像帧的内容进行处理后得到的，而且，预估中间图像帧的内容与每一训练图像帧组对应的标签中间图像帧的内容相似。

值得一提的是，每一训练图像帧组的第二个图像帧只是对应训练图像帧组中第一个图像帧到第三个图像帧的其中一个可能性的解，比如，视频拍摄的内容为一个小球从A点经过B和C点移动到E点，若某一训练图像帧组的第一个图像帧显示小球在A点，第三个图像帧显示小球在E点，而第二个图像帧显示小球在B点，但实际小球在移动时也经过了C点，但是在C点的这一位置并没有被捕捉到，这是因为视频是由一幅幅静止图像帧组成，因此，视频不能反应出小球在时间上的连续移动，视频拍摄的小球的移动过程反映出的只是小球某一个时刻在某一个位置。

在上述步骤203中，训练停止条件指的是：视频插帧模型在训练过程中，不断地调整视频插帧模型的参数，当视频插帧模型的参数的变化率不超出预定范围时，则视频插帧模型就满足了训练停止条件。

具体地，根据每一训练图像帧组对视频插帧模型进行训练时，本实施例中增加了监督函数，可以使视频插帧模型在训练时，调整视频插帧模型的参数，使得视频插帧模型在训练过程中在不断优化。其中，监督函数分为两部分，第一部分为第一损失函数，由每一训练图像帧组对应的标签中间图像帧与每一训练图像帧组对应的预估中间图像帧之间的第二差异决定；第二部分为纹理一致性损失函数（Texture Consistency Loss，TCL），由每一训练图像帧组中的第一个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第一差异以及每一训练图像帧组中的第三个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第三差异决定。

此外，上述步骤203中，第二差异与参数调整之间的关联度大于所述第一差异及所述第三差异指的是：在监督函数中，第一损失函数的参数调整之间的关联度大于纹理一致性损失函数。

其中，监督函数可以如公式（1）示：

（1）

公式（1）中，

表示每一训练图像帧组对应的预估中间图像帧，I₀表示每一训练图像帧组对应的标签中间图像帧，I-₁表示每一训练图像帧组中的第一个图像帧，I₁表示每一训练图像帧组中的第三个图像帧，

为可调系数，L₁为第一损失函数，L_p为纹理一致性损失函数。

本发明实施例提供的方法，由于在原有的监督函数的基础上增加了纹理一致性损失函数，使得视频插帧模型在进行监督训练的过程中，不只考虑每一训练图像帧组对应的标签中间图像帧的内容，还会考虑每一训练图像帧组中的第一个图像帧和第三个图像帧的内容，可以减缓监督训练中的过约束问题，使得视频插帧模型输出的图像帧的纹理清晰度、信噪比及结构相似性更高，从而提升视频的帧率，增加画面的流畅感。

在一个实施例中，将每一训练图像帧组中第一个图像帧及第三个图像帧输入至视频插帧模型，输出每一训练图像帧组对应的预估中间图像帧，包括：

301、对于任一训练图像帧组，将任一训练图像帧组中第一个图像帧与第三个图像帧分别作为第一图像帧及第三图像帧，对第一图像帧与第三图像帧同时采用相同分辨率进行调整；其中，共调整n-1次且每次调整所采用的分辨率均不相同，其中，n为正整数且不小于2；

302、对每次调整后的两个图像帧各自进行特征提取，由每次调整后的两个图像帧所提取的特征组成每一图像帧特征组，由每一图像帧特征组构成图像帧特征组集合；

303、将第一图像帧在图像帧特征组集合中对应的特征向第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到第一图像帧的对齐结果；

304、将第三图像帧在图像帧特征组集合中对应的特征向第一图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到第三图像帧的对齐结果；

305、将第一图像帧的对齐结果及第三图像帧的对齐结果进行双向信息融合，获取双向信息融合结果；

306、对双向信息融合结果进行重建处理，获取预估中间图像帧。

具体地，对于任一训练图像帧组，在对第一图像帧及第三图像帧进行特征提取前，会先对其中的第一图像帧及第三图像帧进行n-1次的分辨率调整，每次分辨率调整，都会使得到的第一图像帧及第三图像帧比这次进行分辨率调整前的第一图像帧及第三图像帧的分辨率低。

比如，对第一图像帧及第三图像帧进行第3次分辨率调整，是在第2次分辨率调整后得到的第一图像帧及第三图像帧的基础上降低该第一图像帧及第三图像帧的分辨率，因此，第3次分辨率调整后得到的第一图像帧及第三图像帧的分辨率小于第2次分辨率调整后得到的第一图像帧及第三图像帧的分辨率。此外，对于第一图像帧及第三图像帧的分辨率调整次数，应不小于1次。

对分辨率调整后的图像帧分组，将分辨率相同的图像帧分为一组，由于进行了n-1次分辨率调整，再加上原来未调整分辨率的图像帧组，因此，一共有n组的分辨率不同的图像帧组。然后对n组的分辨率不同的图像帧组各自进行特征提取，得到n组的图像特征组集合。

此外，对于获取不同分辨率的图像帧特征组集合的方法，本实施例对其不作具体限定，包括但不限于：上述步骤301、302的实现过程，以及：对于任一训练图像帧组，将任一训练图像帧组中第一个图像帧与第三个图像帧分别作为第一图像帧及第三图像帧，对第一图像帧与第三图像帧同时采用相同分辨率提取特征，由每次调整后的两个图像帧所提取的特征组成每一图像帧特征组，由每一图像帧特征组构成图像帧特征组集合，其中，共提取n次的特征且每次提取特征的分辨率均不相同，n为正整数且不小于2。具体地，可以采用卷积的方式，对第一图像帧与第三图像帧同时进行分辨率调整以及提取特征，以此得到上述步骤302中的图像帧特征组集合。

对于得到第一图像帧的对齐结果及第三图像帧的对齐结果的顺序，本发明实施例对其不做具体限定，可以先得到第一图像帧的对齐结果，再得到第二图像帧的对齐结果。也可以先得到第二图像帧的对齐结果，再得到第一图像帧的对齐结果。还可以同时得到第一图像帧的对齐结果以及第二图像帧的对齐结果。

此外，将第一图像帧在图像帧特征组集合中对应的特征向第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理的过程与将第三图像帧在图像帧特征组集合中对应的特征向第一图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理的过程相同。

上述步骤306中，重建处理指的是根据双向信息融合结果回归出预估中间图像帧。具体地，先对对双向信息融合结果进行处理，然后将处理结果进行输入进行单层卷积，最后输出预估中间图像帧。

比如，如图3所示，先对双向信息融合结果F₀输入至第一层（Layer1）中进行处理，然后将处理结果进行输入至第二层（Layer2）中进行单层卷积，最后输出预估中间图像帧

。图3中，“40×RB(128)”表示用了40个“RB(128)”，RB(128)表示通道维度为128的残差块； “Conv(128,3,3,1)”表示单层卷积，其中，输入和输出为128，3，以及卷积核为3，卷积步长为 1。

本发明实施例提供的方法，通过将每一训练图像组的第一个图像帧及第三个图像输入视频插帧模型中，输出每一训练图像组对应的预估中间图像帧，以此来对视频插帧模型进行训练，可以调整视频插帧模型的参数，从而提高视频插帧模型输出图像帧的质量。

结合上述实施例的内容，在一个实施例中，图像帧特征组集合中图像帧特征组对应的分辨率按顺序是依次变大的；其中，将第一图像帧在图像帧特征组集合中对应的特征向第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐（Cross-scale PyramidAlignment）处理，得到第一图像帧的对齐结果，包括：

对于第i个图像帧特征组，若i为1，则将第一图像帧在第i个图像帧特征组中对应的特征与第三图像帧在第i个图像帧特征组中对应的特征作对齐（Alignment Block,AB）处理，得到第i个对齐处理结果，若i不为1，则将前i-1个双线性插值(Bilinear Upsampling,BU)计算结果及第三图像帧在第i个图像帧特征组中对应的特征作跨尺度融合(Cross-scale Fusion,CSF)处理，得到第i个跨尺度融合处理结果，将第i个跨尺度融合处理结果与第一图像帧在第i个图像帧特征组中对应的特征作对齐处理，得到第i个对齐处理结果，重复上述对每一图像帧特征组的处理过程，直至所有图像帧特征组处理完毕，将第n个对齐处理结果作为第一图像帧的对齐结果，其中，i为不小于1且不大于n的正整数；

具体地，对于图像帧特征组集合中图像帧特征组对应的分辨率的大小，本实施例对齐不作具体限定。而且，在进行跨尺度对齐处理过程中，进行对齐处理的次数与上述步骤302中的图像帧特征组集合中图像帧特征组的组数相同。

比如，若图像帧特征组集合中有4组图像帧特征组，则在将第一图像帧在图像帧特征组集合中对应的特征向第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理的过程中，需要进行4次的对齐处理。

此外，将第一图像帧在图像帧特征组集合中对应的特征向第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理的过程中进行对齐处理的处理次数应不小于2次。

对于将第一图像帧在图像帧特征组集合中对应的特征向第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理的过程，以图像帧特征组集合中包含3组图像帧特征组进行举例说明，如图4中的（a）所示，其中，

、

为图像帧特征组集合中分辨率最高的图像帧特征组，即该图像特征组的分辨率与进行分辨率调整前的图像帧的分辨率相同。图4中的（a）的

、

为图像帧特征组集合中分辨率大小排第二的图像帧特征组，图4中的（a）的

、

为图像帧特征组集合中分辨率最小的图像帧特征组。另外，

、

及

表示第一图像帧经过2次分辨率调整后提取到的3个图像帧特征，

、

及

表示第三图像帧经过2次分辨率调整后提取到的3个图像帧特征。

表示第一图像帧的对齐结果。

其中，对齐处理的过程如图4中的（b）所示，首先将两个输入的图像帧特征拼接 (Concatenation)起来，然后将拼接结果依次输入到单层卷积“Conv3×3”，5个串行的残差块“Res.block×5”，和另一个卷积层“Conv3×3”中，得到权重张量

和

，最后采用形变卷积处理得到此次对齐的结果

，其中l为分辨率调整处理的次数。

本发明实施例提供的方法，通过将分辨率相同的特征进行对齐处理，并且增加了跨尺度融合处理过程，可以从多个尺度的图像帧中提取到有效的重建信号，从而提升输出的第一图像帧的对齐结果的精度，可以全面且有效地利用多尺度的信息。

在一个实施例中，将第三图像帧在图像帧特征组集合中对应的特征向第一图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到第三图像帧的对齐结果，包括：

对于第i个图像帧特征组，若i为1，则将第三图像帧在第i个图像帧特征组中对应的特征与第一图像帧在第i个图像帧特征组中对应的特征作对齐处理，得到第i个对齐处理结果，若i不为1，则将前i-1个双线性插值计算结果及第一图像帧在第i个图像帧特征组中对应的特征作跨尺度融合处理，得到第i个跨尺度融合处理结果，将第i个跨尺度融合处理结果与第三图像帧在第i个图像帧特征组中对应的特征作对齐处理，得到第i个对齐处理结果，重复上述对每一图像帧特征组的处理过程，直至所有图像帧特征组处理完毕，将第n个对齐处理结果作为第三图像帧的对齐结果。

需要说明的是，得到第三图像帧的对齐结果与得到第三图像帧的对齐结果的处理方法相同，此处不再对其进行说明。得到第三图像帧的对齐结果的具体处理过程参见上述得到第一图像帧的对齐结果的处理过程。

本发明实施例提供的方法，通过将第三图像帧在图像帧特征组集合中对应的特征向第一图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，可以得到第三图像帧的对齐结果。

结合上述实施例的内容，在一个实施例中，将第一图像帧的对齐结果及第三图像帧的对齐结果进行双向信息融合（Attention-based Fusion），获取双向信息融合结果，包括：

401、将第一图像帧的对齐结果及第三图像帧的对齐结果进行卷积，获取卷积结果；

402、对卷积结果进行计算，获取融合权重；

403、根据融合权重，对第一图像帧的对齐结果及第三图像帧的结果进行融合处理，得到双向信息融合结果。

上述步骤402中，对于对卷积结果进行计算的计算方式选择，本实施例对其不作具体限定，包括但不限于:Sigmoid函数等。

具体地，先将第一图像帧的对齐结果及第三图像帧的对齐结果进行单层卷积后，得到卷积处理结果，然后将卷积处理结果经过函数激活，得到融合权重，然后根据融合权重，对第一图像帧的对齐结果及第三图像帧的结果进行如公式(2)计算处理，得到双向信息融合结果。

（2）

公式（2）中，M为融合权重，

为第一图像帧的对齐结果，

为第三图像帧的对齐结果，F₀为双向信息融合结果。

本发明实施例提供的方法，通过将第一图像帧的对齐结果与第三图像帧的结果进行双向信息融合，可以得到双向信息融合结果，从而可以提高视频插帧模型输出的图像帧的质量。

结合上述实施例的内容，在一个实施例中，第一差异及第三差异为相似度；第一差异及第三差异的确定过程，包括：

501、对于任一训练图像帧组，从任一训练图像帧组对应的预估中间图像帧中选取任一t*t的像素，根据任一t*t的像素的中心像素在任一训练图像帧组对应的预估中间图像帧中的位置，分别在任一训练图像帧组中第一个图像帧中确定t*t的第一目标像素及在任一训练图像帧组中第三个图像帧中确定t*t的第三目标像素；

502、根据t*t的第一目标像素，确定第一字符集合；根据t*t的第三目标像素，确定第三字符集合；根据任一t*t的像素，确定第二字符集合；

503、根据第一字符集合、第二字符集合及第三字符集合，确定任一像素与第一目标像素之间的相似度，作为第一差异，确定任一像素与第三目标像素之间的相似度，作为第三差异。

具体地，对于任一训练图像帧组，当视频插帧模型输出对应的预估中间图像帧

后，会从该预估中间图像帧

中选择任一t*t的像素块

，其中t为不为1的奇数，比如，3、5、 7等，x为这个像素块的中心像素的二维坐标。然后根据像素块

的中心像素的二维坐标x，确定所述任一训练图像帧组中第一个图像帧的第一目标像素及在任一训练图像帧组中第三个图像帧中确定第三目标像素。

再根据二维坐标x在任一训练图像帧组中第一个图像帧中的确定t*t的第一目标像素以及任一训练图像帧组中第三个图像帧中的确定t*t的第三目标像素。将t*t的第一目标像素以及第三目标像素作为待匹配像素。

将

和待匹配像素经过CT（Census Transform）变换，确定第一字符集合、第一字符集合及第三字符集合。最后，根据第一字符集合、第二字符集合及第三字符集合，确定任一t*t的像素与第一目标像素之间的相似度，将其作为第一差异，确定任一t*t的像素与第三目标像素之间的相似度，将其作为第三差异。

比较第一差异与第三差异，确定所述任一t*t的像素的中心像素的最佳匹配像素，即根据第一差异与第三差异，从t*t的第一目标像素和t*t的第三目标像素中选出与所述任一t*t的像素的中心像素的最佳匹配像素。然后根据最佳匹配像素，通过纹理一致性损失函数（Texture Consistency Loss，TCL）计算所述任一t*t的像素的中心像素在x处的纹理一致性损失，并根据纹理一致性损失对视频插帧模型进行监督训练。

结合上述内容，当从t*t的第一目标像素和t*t的第三目标像素中选出与所述任一t*t的像素的中心像素对应的最佳匹配像素之后，可以计算所述任一t*t的像素的中心像素的纹理一致性损失函数。

其中，纹理一致性损失是通过比较所述任一t*t的像素的中心像素与最佳匹配像素的RGB值确定的。

以从预估中间图像帧

中选择任一3*3的像素

为例来对本发明实施例提供的方法进行说明：

（1）对于

中任一3*3的像素

（x表示这个图像块中心点的二维坐标），需要从第一个图像帧I_-1，以及第三个图像帧I₁中通过匹配算法找到最佳匹配像素

；

（2）使用最佳匹配像素

对预估得到的

进行监督，其中,

表示图像帧的标号，即最佳匹配像素来自的是第一个图像帧或第三个图像帧，y*表示最佳匹配像素的二维坐标。

匹配过程如图5所示，共分为4个步骤：

1、对于任一训练图像帧组，输入任一训练图像帧组对应的预估中间图像帧

中任一3*3的像素

、第一个图像帧I_-1以及第三个图像帧I₁；

2、以任一3*3的像素

的中心二维坐标x所在位置的像素为中心像素，在一定范围 d内分别从第一个图像帧I_-1以及第三个图像帧I₁内取得所有的待匹配的的像素

，其中，d 的取值为不小于3的奇数，比如，3、5、7等，

,t表示待匹配的像素来自第一个图像帧还是第三个图像帧，y表示了待匹配像素

的二维坐标，二维坐标

确定公式如公式（3）所示：

（3）

3、将

和所有的待匹配3*3像素经过CT（Census Transform）变换，变换得到第二字符串

以及从第一字符串和第三字符串中选出的字符串

，CT变换公式为：

（4）

公式（4）中，

为任一3*3的像素

的中心位置的像素的RGB值，

为其他待匹配的像素的RGB值，x为所述中心位置的像素的坐标为（0，0）,x_n为其他待匹配的像素的二维坐标，R为除中心位置的像素的其他八个像素的坐标；

其中，

。

4、每个像素经过CT变换后，按照公式（5）进行相似度的匹配，得到最佳匹配像素的二维坐标y*和对应的图像帧的标号t*；

（5）

公式（5）中，L2为进行相似度匹配的匹配函数。

本发明实施例提供的方法，由于采用了纹理一致性函数，可以缓解因为图像帧中物体的运动歧义性带来的过约束问题，从而使得训练好的视频插帧模型输出的图像帧的纹理更加清晰，更逼近于输入图像帧的纹理结构，避免生成模糊和纹理不清晰的内容。

结合上述实施例的内容，在一个实施例中，第二差异的确定过程，包括：

对于任一训练图像帧组，根据任一训练图像帧组对应的标签中间图像帧中的所有像素的RGB值以及任一训练图像帧组对应的预估中间图像帧中所有像素的RGB值，确定任一训练图像帧组对应的标签中间图像帧与任一训练图像帧组对应的预估中间图像帧之间的RGB值差异，作为第二差异。

具体地，对于任一训练图像帧组，在确定第二差异之前，需要先确定任一训练图像帧组对应的标签中间图像帧中的所有像素的RGB值以及任一训练图像帧组对应的预估中间图像帧中所有像素的RGB值，然后将所述标签中间图像帧中的所有像素与所述预估中间图像帧中所有像素中二维坐标相同的像素的的RGB值一一比较，确定所述标签中间图像帧中的所有像素与所述预估中间图像帧中所有像素的RGB值的差值，将所有像素的RGB值的差值求和后再求平均值，此平均值即可作为第二差异。

本发明实施例提供的方法，通过比较任一训练图像帧组对应的标签中间图像帧与对应的预估中间图像帧之间的差异，可以利用此差异实现对视频插帧模型的监督训练，从而可以提高视频插帧模型输出图像帧的准确度，进而可以提高视频的流畅度与清晰度。

结合上述实施例的内容，在一个实施例中，在视频插帧模型训练好之后，包括：

601、获取待处理视频中两个图像帧；

602、将两个图像帧输入至已训练好的视频插帧模型中，获取两个待处理图像帧的中间图像帧。

具体地，视频插帧模型的训练过程如图6所示，当视频插帧模型训练完成之后，对其使用的过程为，获取需要进行视频插帧的视频，然后对该视频进行图像帧提取，从提取的图像帧中选择出两个图像帧，将两个图像帧输入至已训练好的视频插帧模型中，经过视频插帧模型处理后，可以输出两个图像帧的中间图像帧。

值得一提的是，本实施例中训练好的视频插帧模型，既可以完成单帧视频内插和外插，又可以完成多帧视频内插。即本实施例中已训练好的视频插帧模型可以用于生成两个图像帧中间图像帧，也可以用于生成置于两个图像帧之后的未来图像帧，同时也可以用于多个图像帧生成一个中间图像帧。

视频插帧模型输出的结果与现有技术实现的插帧结果相比，生成的图像帧能有效提升视频超分辨率的性能，具体地，通过本发明实施例提供的视频插帧模型与通过现有技术得到的图像帧的对比示意图如图7a至图7j所示。

其中，图7a为单帧视频内插的对比评测结果图，其中，视频插帧模型的输入图像帧为2个，输出1个中间图像帧。图7b为多帧视频内插的对比评测结果图，其中，视频插帧模型的输入图像帧为4个，输出1个中间图像帧。图7c为单帧视频外插的对比评测结果图，其中，视频插帧模型的输入图像帧为2个，输出1个未来图像帧。图7d为将已训练好的视频插帧模型集成在一个视频超分辨率模型后的可视化效果对比图。图7e为单帧视频内插的可视化对比图。图7f为多帧视频内插的可视化对比图。图7g为单帧视频外插的可视化对比图。图7h为单帧视频内插对视频超分的影响对比图。图7i为加入TCL损失函数的单个可视化对比图。图7j为加入TCL损失函数的多个可视化对比图。

本发明实施提供的方法，通过训练好的视频插帧模型对待处理的视频进行处理，能够输出高清晰度的图像帧，从而可以有效地提升视频超分辨率的性能，与现有技术方法相比，本实施例提供的方法取得了最高的峰值信噪比(Peak Signal to Noise Ratio，PSNR)和结构相似性（Structural Similarity，SSIM）。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频插帧模型训练方法的视频插帧模型训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频插帧模型训练装置实施例中的具体限定可以参见上文中对于视频插帧模型训练方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种视频插帧模型训练装置，包括：获取模块、视频插帧模块和调整模块，其中：

获取模块801，用于获取训练图像帧组，每一训练图像帧组是由视频中连续的三个图像帧按顺序排布所构成的，每一训练图像帧组中的第二个图像帧作为每一训练图像帧组对应的标签中间图像帧；

视频插帧模块802，用于将每一训练图像帧组中第一个图像帧及第三个图像帧输入至视频插帧模型，输出每一训练图像帧组对应的预估中间图像帧；

调整模块803，用于基于每一训练图像帧组中的第一个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第一差异、每一训练图像帧组对应的标签中间图像帧与每一训练图像帧组对应的预估中间图像帧之间的第二差异、以及每一训练图像帧组中的第三个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第三差异，调整视频插帧模型中的参数，直至满足训练停止条件时结束训练；其中，第二差异与参数调整之间的关联度大于第一差异及第三差异。

在一个实施例中，所述视频插帧模块802，包括：

调整子模块，用于对于任一训练图像帧组，将任一训练图像帧组中第一个图像帧与第三个图像帧分别作为第一图像帧及第三图像帧，对第一图像帧与第三图像帧同时采用相同分辨率进行调整；其中，共调整n-1次且每次调整所采用的分辨率均不相同，其中，n为正整数且不小于2；

特征提取子模块，用于对每次调整后的两个图像帧各自进行特征提取，由每次调整后的两个图像帧所提取的特征组成每一图像帧特征组，由每一图像帧特征组构成图像帧特征组集合；

第一对齐子模块，用于将第一图像帧在图像帧特征组集合中对应的特征向第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到第一图像帧的对齐结果；

第二对齐子模块，用于将第三图像帧在图像帧特征组集合中对应的特征向第一图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到第三图像帧的对齐结果；

双向信息融合子模块，用于将第一图像帧的对齐结果及第三图像帧的对齐结果进行双向信息融合，获取双向信息融合结果；

重建模块，对双向信息融合结果进行重建处理，获取预估中间图像帧。

在一个实施例中，所述第一对齐子模块，包括：

重复单元，用于对于第i个图像帧特征组，若i为1，则将第一图像帧在第i个图像帧特征组中对应的特征与第三图像帧在第i个图像帧特征组中对应的特征作对齐处理，得到第i个对齐处理结果，若i不为1，则将前i-1个双线性插值计算结果及第三图像帧在第i个图像帧特征组中对应的特征作跨尺度融合处理，得到第i个跨尺度融合处理结果，将第i个跨尺度融合处理结果与第一图像帧在第i个图像帧特征组中对应的特征作对齐处理，得到第i个对齐处理结果，重复上述对每一图像帧特征组的处理过程，直至所有图像帧特征组处理完毕，将第n个对齐处理结果作为第一图像帧的对齐结果，其中，i为不小于1且不大于n的正整数。

在一个实施例中，所述双向信息融合子模块，包括：

第一获取单元，用于将第一图像帧的对齐结果及第三图像帧的对齐结果进行卷积，获取卷积结果；

第二获取单元，用于对卷积结果进行计算，获取融合权重；

第一处理单元，用于根据融合权重，对第一图像帧的对齐结果及第三图像帧的结果进行融合处理，得到双向信息融合结果。

在一个实施例中，所述调整模块803，包括：

第一确定单元，用于对于任一训练图像帧组，从任一训练图像帧组对应的预估中间图像帧中选取任一t*t的像素，根据任一t*t的像素的中心像素在任一训练图像帧组对应的预估中间图像帧中的位置，分别在任一训练图像帧组中第一个图像帧中确定t*t的第一目标像素及在任一训练图像帧组中第三个图像帧中确定t*t的第三目标像素，其中，t为不等于1的奇数；

第二确定单元，用于根据t*t的第一目标像素，确定第一字符集合；根据t*t的第三目标像素，确定第三字符集合；根据任一t*t的像素，确定第二字符集合；

第三确定单元，用于根据第一字符集合、第二字符集合及第三字符集合，确定任一像素与第一目标像素之间的相似度，作为第一差异，确定任一像素与第三目标像素之间的相似度，作为第三差异。

在一个实施例中，所述调整模块803，还包括：

第四确定单元，用于对于任一训练图像帧组，根据任一训练图像帧组对应的标签中间图像帧中的所有像素的RGB值以及任一训练图像帧组对应的预估中间图像帧中所有像素的RGB值，确定任一训练图像帧组对应的标签中间图像帧与任一训练图像帧组对应的预估中间图像帧之间的RGB值差异，作为第二差异。

上述视频插帧模型装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种视频插帧模型方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

基于每一训练图像帧组中的第一个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第一差异、每一训练图像帧组对应的标签中间图像帧与每一训练图像帧组对应的预估中间图像帧之间的第二差异、以及每一训练图像帧组中的第三个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第三差异，调整视频插帧模型中的参数，直至满足训练停止条件时结束训练；其中，第二差异与参数调整之间的关联度大于第一差异及第三差异。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对双向信息融合结果进行重建处理，获取预估中间图像帧。

对卷积结果进行计算，获取融合权重；

根据第一字符集合、第二字符集合及第三字符集合，确定任一像素与所述第一目标像素之间的相似度，作为第一差异，确定任一像素与第三目标像素之间的相似度，作为第三差异。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

对于任一训练图像帧组，将任一训练图像帧组中第一个图像帧与第三个图像帧分别作为第一图像帧及第三图像帧，对第一图像帧与第三图像帧同时采用相同分辨率进行调整；其中，共调整n-1次且每次调整所采用的分辨率均不相同，n为正整数且不小于2；

对双向信息融合结果进行重建处理，获取预估中间图像帧。

对卷积结果进行计算，获取融合权重；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

基于每一训练图像帧组中的第一个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第一差异、每一训练图像帧组对应的标签中间图像帧与每一训练图像帧组对应的预估中间图像帧之间的第二差异、以及每一训练图像帧组中的第三个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第三差异，调整视频插帧模型中的参数，直至满足训练停止条件时结束训练；其中，第二差异与参数调整之间的关联度大于第一差异及所述第三差异。

对双向信息融合结果进行重建处理，获取预估中间图像帧。

对卷积结果进行计算，获取融合权重；

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频插帧模型训练方法，其特征在于，所述方法包括：

基于第一损失函数及纹理一致性损失函数，调整所述视频插帧模型中的参数，直至满足训练停止条件时结束训练；其中，所述第一损失函数由每一训练图像帧组对应的标签中间图像帧与每一训练图像帧组对应的预估中间图像帧之间的第二差异决定，所述纹理一致性损失函数由每一训练图像帧组中的第一个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第一差异以及每一训练图像帧组中的第三个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第三差异决定；所述第二差异与参数调整之间的关联度大于所述第一差异及所述第三差异。

2.根据权利要求1所述的方法，其特征在于，所述将每一训练图像帧组中第一个图像帧及第三个图像帧输入至视频插帧模型，输出每一训练图像帧组对应的预估中间图像帧，包括：

对于任一训练图像帧组，将所述任一训练图像帧组中第一个图像帧与第三个图像帧分别作为第一图像帧及第三图像帧，对所述第一图像帧与所述第三图像帧同时采用相同分辨率进行调整；其中，共调整n-1次且每次调整所采用的分辨率均不相同，所述n为正整数且不小于2；

将所述第一图像帧在图像帧特征组集合中对应的特征向所述第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到所述第一图像帧的对齐结果；

将所述第三图像帧在图像帧特征组集合中对应的特征向所述第一图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到所述第三图像帧的对齐结果；

将所述第一图像帧的对齐结果及所述第三图像帧的对齐结果进行双向信息融合，获取双向信息融合结果；

对所述双向信息融合结果进行重建处理，获取所述预估中间图像帧。

3.根据权利要求2所述的方法，其特征在于，所述图像帧特征组集合中图像帧特征组对应的分辨率按顺序是依次变大的；所述将所述第一图像帧在图像帧特征组集合中对应的特征向所述第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到所述第一图像帧的对齐结果，包括：

对于第i个图像帧特征组，若i为1，则将所述第一图像帧在所述第i个图像帧特征组中对应的特征与所述第三图像帧在所述第i个图像帧特征组中对应的特征作对齐处理，得到第i个对齐处理结果，若i不为1，则将前i-1个双线性插值计算结果及所述第三图像帧在第i个图像帧特征组中对应的特征作跨尺度融合处理，得到第i个跨尺度融合处理结果，将所述第i个跨尺度融合处理结果与所述第一图像帧在第i个图像帧特征组中对应的特征作对齐处理，得到第i个对齐处理结果，重复上述对每一图像帧特征组的处理过程，直至所有图像帧特征组处理完毕，将第n个对齐处理结果作为所述第一图像帧的对齐结果，其中，所述i为不小于1且不大于n的正整数；

其中，对于所述前i-1个双线性插值计算结果中第j个双线性插值计算结果，所述第j个双线性插值计算结果是对第j个对齐处理结果连续进行i-j次双线性插值计算所得到的，所述j为不小于1且小于i的正整数。

4.根据权利要求3所述的方法，其特征在于，所述将所述第一图像帧的对齐结果及所述第三图像帧的对齐结果进行双向信息融合，获取双向信息融合结果，包括：

将所述第一图像帧的对齐结果及第三图像帧的对齐结果进行卷积，获取卷积结果；

对所述卷积结果进行计算，获取融合权重；

根据所述融合权重，对所述第一图像帧的对齐结果及第三图像帧的结果进行融合处理，得到所述双向信息融合结果。

5.根据权利要求1所述的方法，其特征在于，所述第一差异及所述第三差异为相似度；所述第一差异及所述第三差异的确定过程，包括：

对于任一训练图像帧组，从所述任一训练图像帧组对应的预估中间图像帧中选取任一t*t的像素，根据所述任一t*t的像素的中心像素在所述任一训练图像帧组对应的预估中间图像帧中的位置，分别在所述任一训练图像帧组中第一个图像帧中确定t*t的第一目标像素及在所述任一训练图像帧组中第三个图像帧中确定t*t的第三目标像素，其中，t为不等于1的奇数；

根据所述t*t的第一目标像素，确定第一字符集合；根据所述t*t的第三目标像素，确定第三字符集合；根据所述任一t*t的像素，确定第二字符集合；

根据所述第一字符集合、所述第二字符集合及所述第三字符集合，确定所述任一像素与所述第一目标像素之间的相似度，作为第一差异，确定所述任一像素与所述第三目标像素之间的相似度，作为第三差异。

6.根据权利要求1所述的方法，其特征在于，所述第二差异的确定过程，包括：

对于任一训练图像帧组，根据所述任一训练图像帧组对应的标签中间图像帧中的所有像素的RGB值以及所述任一训练图像帧组对应的预估中间图像帧中所有像素的RGB值，确定所述任一训练图像帧组对应的标签中间图像帧与所述任一训练图像帧组对应的预估中间图像帧之间的RGB值差异，作为第二差异。

7.一种视频插帧模型训练装置，其特征在于，所述装置包括：

调整模块，用于基于第一损失函数及纹理一致性损失函数，调整所述视频插帧模型中的参数，直至满足训练停止条件时结束训练；其中，所述第一损失函数由每一训练图像帧组对应的标签中间图像帧与每一训练图像帧组对应的预估中间图像帧之间的第二差异决定，所述纹理一致性损失函数由每一训练图像帧组中的第一个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第一差异以及每一训练图像帧组中的第三个图像帧与每一训练图像帧组对应的预估中间图像帧之间的第三差异决定；所述第二差异与参数调整之间的关联度大于所述第一差异及所述第三差异。

8.根据权利要求7所述的装置，其特征在于，所述视频插帧模块，包括：

调整子模块，用于对于任一训练图像帧组，将所述任一训练图像帧组中第一个图像帧与第三个图像帧分别作为第一图像帧及第三图像帧，对所述第一图像帧与所述第三图像帧同时采用相同分辨率进行调整；其中，共调整n-1次且每次调整所采用的分辨率均不相同，所述n为正整数且不小于2；

第一对齐子模块，用于将所述第一图像帧在图像帧特征组集合中对应的特征向所述第三图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到所述第一图像帧的对齐结果；

第二对齐子模块，用于将所述第三图像帧在图像帧特征组集合中对应的特征向所述第一图像帧在图像帧特征组集合中对应的特征进行跨尺度对齐处理，得到所述第三图像帧的对齐结果；

双向信息融合子模块，用于将所述第一图像帧的对齐结果及所述第三图像帧的对齐结果进行双向信息融合，获取双向信息融合结果；

重建模块，用于对所述双向信息融合结果进行重建处理，获取所述预估中间图像帧。

9.根据权利要求8所述的装置，其特征在于，所述第一对齐子模块，包括：

重复单元，用于对于第i个图像帧特征组，若i为1，则将所述第一图像帧在所述第i个图像帧特征组中对应的特征与所述第三图像帧在所述第i个图像帧特征组中对应的特征作对齐处理，得到第i个对齐处理结果，若i不为1，则将前i-1个双线性插值计算结果及所述第三图像帧在第i个图像帧特征组中对应的特征作跨尺度融合处理，得到第i个跨尺度融合处理结果，将所述第i个跨尺度融合处理结果与所述第一图像帧在第i个图像帧特征组中对应的特征作对齐处理，得到第i个对齐处理结果，重复上述对每一图像帧特征组的处理过程，直至所有图像帧特征组处理完毕，将第n个对齐处理结果作为所述第一图像帧的对齐结果，其中，所述i为不小于1且不大于n的正整数；

10.根据权利要求9所述的装置，其特征在于，所述双向信息融合子模块，包括：

第一获取单元，用于将所述第一图像帧的对齐结果及第三图像帧的对齐结果进行卷积，获取卷积结果；

第二获取单元，用于对所述卷积结果进行计算，获取融合权重；

第一处理单元，用于根据所述融合权重，对所述第一图像帧的对齐结果及第三图像帧的结果进行融合处理，得到所述双向信息融合结果。

11.根据权利要求7所述的装置，其特征在于，所述调整模块，包括：

第一确定单元，用于对于任一训练图像帧组，从所述任一训练图像帧组对应的预估中间图像帧中选取任一t*t的像素，根据所述任一t*t的像素的中心像素在所述任一训练图像帧组对应的预估中间图像帧中的位置，分别在所述任一训练图像帧组中第一个图像帧中确定t*t的第一目标像素及在所述任一训练图像帧组中第三个图像帧中确定t*t的第三目标像素，其中，t为不等于1的奇数；

第二确定单元，用于根据所述t*t的第一目标像素，确定第一字符集合；根据所述t*t的第三目标像素，确定第三字符集合；根据所述任一t*t的像素，确定第二字符集合；

第三确定单元，用于根据所述第一字符集合、所述第二字符集合及所述第三字符集合，确定所述任一像素与所述第一目标像素之间的相似度，作为第一差异，确定所述任一像素与所述第三目标像素之间的相似度，作为第三差异。

12.根据权利要求7所述的装置，其特征在于，所述调整模块，还包括：

第四确定单元，用于对于任一训练图像帧组，根据所述任一训练图像帧组对应的标签中间图像帧中的所有像素的RGB值以及所述任一训练图像帧组对应的预估中间图像帧中所有像素的RGB值，确定所述任一训练图像帧组对应的标签中间图像帧与所述任一训练图像帧组对应的预估中间图像帧之间的RGB值差异，作为第二差异。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。