CN113132664A

CN113132664A - 一种插帧生成模型构建方法、视频插帧方法

Info

Publication number: CN113132664A
Application number: CN202110419381.7A
Authority: CN
Inventors: 贾若然
Original assignee: iFlytek Co Ltd
Current assignee: Ma'anshan Big Data Asset Operation Co ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-16
Anticipated expiration: 2041-04-19
Also published as: CN113132664B

Abstract

本申请公开了一种插帧生成模型构建方法、视频插帧方法，先利用第一样本图像集、该第一样本图像集对应的实际插帧图像、第二样本图像集、该第二样本图像集对应的实际插帧图像、第三样本图像集和该第三样本图像集对应的实际插帧图像，构建插帧生成模型；再利用该插帧生成模型针对待插帧视频中各个待插帧位置上的插帧图像进行预测，并将预测得到的各个插帧图像分别***该待插帧视频。其中，因预先构建的插帧生成模型具有较好的插帧图像预测性能，使得由该插帧生成模型针对待插帧视频预测得到的各个插帧图像均携带有准确的变化细节信息，从而使得插帧后的待插帧视频携带有更准确的变化细节信息，如此使得插帧后的待插帧视频具有更好的慢速回放效果。

Description

一种插帧生成模型构建方法、视频插帧方法

技术领域

本申请涉及计算机技术领域，尤其涉及一种插帧生成模型构建方法、视频插帧方法。

背景技术

对于一些瞬间完成的变化过程(例如，闪电的出现过程、子弹击碎物品的发生过程、因车辆行驶速度太快导致的车祸过程)来说，因这些变化过程的变化速度太快，使得相关人员无法清楚地看到这些变化过程的变化细节，故可以利用视频拍摄设备针对这些变化过程进行视频拍摄，以便后续相关人员能够借助对记录有这些变化过程的视频进行慢速回放的方式观察分析这些变化过程的变化细节。

然而，因一些视频的自身缺陷(如，因低帧率的视频拍摄设备每秒只能记录少量图片导致由该视频拍摄设备拍摄的视频中图像帧数较少)，使得这些视频记录有较少的变化细节，如此导致在对这些视频进行慢速回放时无法清楚地展示出变化细节，从而导致慢速回放效果较差。

发明内容

本申请实施例的主要目的在于提供一种插帧生成模型构建方法、视频插帧方法，能够针对由低帧率的视频拍摄设备拍摄的视频进行较好地插帧处理，使得插帧后视频能够具有更好的慢速回放效果。

本申请实施例提供了一种插帧生成模型构建方法，所述方法包括：

获取第一样本图像集、所述第一样本图像集对应的实际插帧图像、第二样本图像集、所述第二样本图像集对应的实际插帧图像、第三样本图像集和所述第三样本图像集对应的实际插帧图像；根据所述第一样本图像集和所述第一样本图像集对应的实际插帧图像，构建向后预测模型；根据所述第二样本图像集和所述第二样本图像集对应的实际插帧图像，构建向前预测模型；根据所述第三样本图像集和所述第三样本图像集对应的实际插帧图像，构建图像融合模型；利用所述向后预测模型、所述向前预测模型和所述图像融合模型，构建插帧生成模型。

本申请实施例还提供了一种视频插帧方法，所述方法包括：

从待插帧视频中确定待插帧位置、所述待插帧位置对应的向前预测参考图像集和所述待插帧位置对应的向后预测参考图像集；将所述待插帧位置对应的向前预测参考图像集和所述待插帧位置对应的向后预测参考图像集输入预先构建的插帧生成模型，得到所述插帧生成模型输出的所述待插帧位置对应的插帧图像；其中，所述插帧生成模型是利用权利要求1-14任一项所述的插帧生成模型构建方法构建的；将所述待插帧位置对应的插帧图像***至所述待插帧视频中所述待插帧位置。

本申请实施例还提供了一种设备，其特征在于，所述设备包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的插帧生成模型构建方法的任一实施方式，或者执行本申请实施例提供的视频插帧方法的任一实施方式。

本申请实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行本申请实施例提供的插帧生成模型构建方法的任一实施方式，或者执行本申请实施例提供的视频插帧方法的任一实施方式。

本申请实施例还提供了一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行本申请实施例提供的插帧生成模型构建方法的任一实施方式，或者执行本申请实施例提供的视频插帧方法的任一实施方式。

基于上述技术方案，本申请具有以下有益效果：

本申请提供的技术方案中，先利用第一样本图像集、该第一样本图像集对应的实际插帧图像、第二样本图像集、该第二样本图像集对应的实际插帧图像、第三样本图像集和该第三样本图像集对应的实际插帧图像，构建插帧生成模型；再利用构建好的插帧生成模型针对待插帧视频中各个待插帧位置上的插帧图像进行预测，并将预测得到的各个插帧图像分别***该待插帧视频。其中，因预先构建的插帧生成模型具有较好的插帧图像预测性能，使得由该插帧生成模型针对待插帧视频预测得到的各个插帧图像均携带有准确的变化细节信息，从而使得该待插帧视频对应的插帧后视频携带有更准确的变化细节信息，如此使得该待插帧视频对应的插帧后视频具有更好的慢速回放效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种插帧生成模型构建方法的流程图；

图2为本申请实施例提供的一种第一样本视频的示意图；

图3为本申请实施例提供的一种第二样本视频的示意图；

图4为本申请实施例提供的一种第三样本图像集的结构示意图；

图5为本申请实施例提供的另一种第三样本图像集的结构示意图；

图6为本申请实施例提供的一种第一模型的结构示意图；

图7为本申请实施例提供的一种第二模型的结构示意图；

图8为本申请实施例提供的一种视频插帧方法的流程图；

图9为本申请实施例提供的一种待插帧视频的示意图；

图10为本申请实施例提供的一种插帧生成模型构建装置的结构示意图；

图11为本申请实施例提供的一种视频插帧装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请实施例提供的技术方案，下面先介绍插帧生成模型构建方法，再介绍视频插帧方法(也就是，插帧生成模型的使用过程)。

方法实施例一

参见图1，该图为本申请实施例提供的一种插帧生成模型构建方法的流程图。

本申请实施例提供的插帧生成模型构建方法，包括S101-S105：

S101：获取第一样本图像集、该第一样本图像集对应的实际插帧图像、第二样本图像集、该第二样本图像集对应的实际插帧图像、第三样本图像集和该第三样本图像集对应的实际插帧图像。

其中，第一样本图像集用于构建向后预测模型；而且本申请实施例不限定第一样本图像集的个数。另外，本申请实施例也不限定第一样本图像集中图像的个数，例如，第一样本图像集中图像的个数可以是N₁。其中，N₁为正整数。

第一样本图像集对应的实际插帧图像是指在利用该第一样本图像集构建向后预测模型时所需依据的标签数据。

第二样本图像集用于构建向前预测模型；而且本申请实施例不限定第二样本图像集的个数。另外，本申请实施例也不限定第二样本图像集中图像的个数，例如，第二样本图像集中图像的个数可以是N₂。其中，N₂为正整数。

第二样本图像集对应的实际插帧图像是指在利用该第二样本图像集构建向前预测模型时所需依据的标签数据。

第三样本图像集用于构建图像融合模型；而且本申请实施例不限定第三样本图像集的个数。另外，本申请实施例也不限定第三样本图像集中图像的个数。

第三样本图像集对应的实际插帧图像是指利用该第三样本图像集构建图像融合模型时所需依据的标签数据。

另外，本申请实施例不限定S101的实施方式，例如，在一种可能的实施方式下，S101具体可以包括S1011-S1014：

S1011：获取第一样本视频、第二样本视频和第三样本视频。

其中，第一样本视频、第二样本视频和第三样本视频均是由高帧率的视频拍摄设备拍摄的。

另外，本申请实施例不限定第一样本视频、第二样本视频和第三样本视频之间的关系，三者可以是指由高帧率的视频拍摄设备采集的同一个视频，也可以是指由高帧率的视频拍摄设备采集的不同视频。

S1012：从第一样本视频中抽取第一样本图像集和该第一样本图像集对应的实际插帧图像。

实际上，因第一样本视频是由高帧率的视频拍摄设备采集的，使得该第一样本视频中视频图像携带的变化细节更多，故为了使得第一样本图像集更接近于由低帧率的视频拍摄设备采集的视频，可以按照一定间隔从第一样本视频中抽取第一样本图像集。基于此，本申请实施例提供了S1012的一种可能的实施方式，其具体可以包括S10121-S10123：

S10121：按照第一间隔从第一样本视频中抽取N₁个第一样本图像，得到第一样本图像集，以使该第一样本图像集包括N₁个第一样本图像。其中，N₁为正整数。

其中，第一间隔可以预先设定。例如，第一间隔可以是M₁。

第一样本图像是指从第一样本视频中抽取的视频图像。例如，如图2所示，若从第一样本视频中分别抽取第t₁帧视频图像、第t₁+M₁帧视频图像、第t₁+2×M₁帧视频图像、……、以及第t₁+(N₁-1)×M₁帧视频图像，则可以将该第t₁帧视频图像、第t₁+M₁帧视频图像、第t₁+2×M₁帧视频图像、……、以及第t₁+(N₁-1)×M₁帧视频图像均确定为第一样本图像。其中，t₁为正整数。

基于上述S10121的相关内容可知，如图2所示，在获取到第一样本视频之后，可以从该第一样本视频中分别抽取第t₁帧视频图像、第t₁+M₁帧视频图像、第t₁+2×M₁帧视频图像、……、以及第t₁+(N₁-1)×M₁帧视频图像，并将该第t₁帧视频图像、第t₁+M₁帧视频图像、第t₁+2×M₁帧视频图像、……、以及第t₁+(N₁-1)×M₁帧视频图像的集合确定为第一样本图像集，以使该第一样本图像集可以表示出由第t₁帧视频图像、第t₁+M₁帧视频图像、第t₁+2×M₁帧视频图像、……、以及第t₁+(N₁-1)×M₁帧视频图像携带的图像信息，从而使得该第一样本图像集能够更接近于由低帧率的视频拍摄设备采集的视频。

S10122：将第一样本图像集中N₁个第一样本图像的视频位置的最大值加第一预设值，得到向后标签位置。

其中，第一样本图像的视频位置用于描述该第一样本图像在第一样本视频中所处位置。另外，本申请实施例不限定视频位置的表示方式，例如，若将第t₁帧视频图像确定为第一样本图像，则该第一样本图像的视频位置可以表示为t₁。

第一预设值可以预先设定，而且该第一预设值小于第一间隔。例如，第一预设值可以是1。

向后标签位置用于描述该第一样本图像集对应的实际插帧图像在第一样本视频中所处位置。

基于上述S10122的相关内容可知，在获取到第一样本图像集之后，可以先确定出第一样本图像集中所有第一样本图像的视频位置的最大值；再根据该最大值确定向后标签位置。例如，如图2所示，若第一样本图像集包括第t₁帧视频图像、第t₁+M₁帧视频图像、第t₁+2×M₁帧视频图像、……、以及第t₁+(N₁-1)×M₁帧视频图像，则可以确定该第一样本图像集中N₁个第一样本图像的视频位置的最大值为t₁+(N₁-1)×M₁，故可以将t₁+(N₁-1)×M₁+1确定为向后标签位置，以便后续能够基于该向后标签位置从第一样本视频中抽取第一样本图像集对应的实际插帧图像。

S10123：按照向后标签位置从第一样本视频中抽取第一样本图像集对应的实际插帧图像。

本申请实施例中，在获取到向后标签位置之后，可以将第一样本视频中向后标签位置上的视频图像，确定为第一样本图像集对应的实际插帧图像。例如，如图2所示，若向后标签位置为t₁+(N₁-1)×M₁+1，则将第一样本视频中第t₁+(N₁-1)×M₁+1帧视频图像，确定为第一样本图像集对应的实际插帧图像。

基于上述S1012的相关内容可知，在获取到第一样本视频之后，可以从该第一样本视频中分别抽取第一样本图像集及其对应的实际插帧图像，以使该第一样本图像集能够表示出由低帧率的视频拍摄设备采集的视频，并使得该第一样本图像集对应的实际插帧图像能够表示出由低帧率的视频拍摄设备采集的视频中实际应该***的插帧图像。

S1013：从第二样本视频中抽取第二样本图像集和该第二样本图像集对应的实际插帧图像。

同上文S1012中所示的理由，为了使得第二样本图像集更接近于由低帧率的视频拍摄设备采集的视频，本申请实施例提供了S1013的一种可能的实施方式，其具体可以包括S10131-S10133：

S10131：按照第二间隔从第二样本视频中抽取N₂个第二样本图像，得到第二样本图像集，以使该第二样本图像集包括N₂个第二样本图像。其中，N₂为正整数。

其中，第二间隔可以预先设定。例如，第二间隔可以是M₂。

第二样本图像是指从第二样本视频中抽取的视频图像。例如，如图3所示，若从第二样本视频中分别抽取第t₂帧视频图像、第t₂+M₂帧视频图像、第t₂+2×M₂帧视频图像、……、以及第t₂+(N₂-1)×M₂帧视频图像，则可以将该第t₂帧视频图像、第t₂+M₂帧视频图像、第t₂+2×M₂帧视频图像、……、以及第t₂+(N₂-1)×M₂帧视频图像均确定为第二样本图像。其中，t₂为正整数。

需要说明的是，本申请实施例不限定M₁与M₂之间的关系(也就是，第一间隔与第二间隔之间的关系)，可以是相同的，也可以是不同的。另外，本申请实施例也不限定N₁与N₂之间的关系，可以是相同的，也可以是不同的。

基于上述S10131的相关内容可知，如图3所示，在获取到第二样本视频之后，可以从该第二样本视频中分别抽取第t₂帧视频图像、第t₂+M₂帧视频图像、第t₂+2×M₂帧视频图像、……、以及第t₂+(N₂-1)×M₂帧视频图像，并将该第t₂帧视频图像、第t₂+M₂帧视频图像、第t₂+2×M₂帧视频图像、……、以及第t₂+(N₂-1)×M₂帧视频图像的集合确定为第二样本图像集，以使该第二样本图像集可以表示出由第t₂帧视频图像、第t₂+M₂帧视频图像、第t₂+2×M₂帧视频图像、……、以及第t₂+(N₂-1)×M₂帧视频图像携带的图像信息，从而使得该第二样本图像集能够更接近于由低帧率的视频拍摄设备采集的视频。

S10132：将第二样本图像集中N₂个第二样本图像的视频位置的最小值减第二预设值，得到向前标签位置。

其中，第二样本图像的视频位置用于描述该第二样本图像在第二样本视频中所处位置。

第二预设值可以预先设定，而且该第二预设值小于第二间隔。例如，第二预设值可以是1。

向前标签位置用于描述该第二样本图像集对应的实际插帧图像在第二样本视频中所处位置。

基于上述S10132的相关内容可知，在获取到第二样本图像集之后，可以先确定出第二样本图像集中所有第二样本图像的视频位置的最小值；再根据该最小值确定向前标签位置。例如，如图3所示，若第二样本图像集包括第t₂帧视频图像、第t₂+M₂帧视频图像、第t₂+2×M₂帧视频图像、……、以及第t₂+(N₂-1)×M₂帧视频图像，则可以确定该第二样本图像集中N₂个第二样本图像的视频位置的最小值为t₂，故可以将t₂-1确定为向前标签位置，以便后续能够基于该向前标签位置从第二样本视频中抽取第二样本图像集对应的实际插帧图像。

S10133：按照向前标签位置从第二样本视频中抽取第二样本图像集对应的实际插帧图像。

本申请实施例中，在获取到向后标签位置之后，可以将第二样本视频中向后标签位置上的视频图像，确定为第二样本图像集对应的实际插帧图像。例如，如图3所示，若向前标签位置为t₂-1，则将第二样本视频中第t₂-1帧视频图像，确定为第二样本图像集对应的实际插帧图像。

基于上述S1013的相关内容可知，在获取到第二样本视频之后，可以从该第二样本视频中分别抽取第二样本图像集及其对应的实际插帧图像，以使该第二样本图像集能够表示出由低帧率的视频拍摄设备采集的视频，并使得该第二样本图像集对应的实际插帧图像能够表示出由低帧率的视频拍摄设备采集的视频中实际应该***的视频图像。

S1014：从第三样本视频中抽取第三样本图像集和该第三样本图像集对应的实际插帧图像。

同上文S1012中所示的理由，为了使得第三样本图像集更接近于由低帧率的视频拍摄设备采集的视频，本申请实施例提供了S1014的两种可能的实施方式，下面分别进行介绍。

在第一种可能的实施方式下，S1014具体可以包括S1014A1-S1014A6：

S1014A1：按照第三间隔从第三样本视频中抽取N₃个第三样本图像。其中，N₃为正整数。

其中，第三间隔可以预先设定。例如，第三间隔可以是M₃。

第三样本图像是指从第三样本视频中抽取的视频图像。例如，如图4所示，若从第三样本视频中抽取第t₃帧视频图像、第t₃+M₃帧视频图像、第t₃+2×M₃帧视频图像、……、以及第t₃+(N₃-1)×M₃帧视频图像(和/或，后续再次抽取的第t₃+(N₃-1)×M₃+2帧视频图像、第t₃+(N₃-1)×M₃+2+M₃帧视频图像、……、以及第t₃+(N₃-1)×M₃+2+(N₄-1)×M₃帧视频图像)，则可以将该上述N₃(和/或N₄)帧视频图像均确定为第三样本图像。其中，t₃为正整数。

需要说明的是，本申请实施例不限定M₁、M₂与M₃之间的关系(也就是，第一间隔、第二间隔以及第三间隔之间的关系)，可以是相同的，也可以是不同的。另外，本申请实施例也不限定N₃与N₄之间的关系，可以是相同的，也可以是不同的。

基于上述S1014A1的相关内容可知，如图4所示，在获取到第三样本视频之后，可以先从该第三样本视频中分别抽取第t₃帧视频图像、第t₃+M₃帧视频图像、第t₃+2×M₃帧视频图像、……、以及第t₃+(N₃-1)×M₃帧视频图像，以便后续能够根据上述N₃帧视频图像确定第三样本图像集，以使该第三样本图像集可以表示出由上述N₃帧视频图像携带的图像信息。

S1014A2：将N₃个第三样本图像的视频位置的最大值加第三预设值，得到第一插帧标签位置。

其中，第三样本图像的视频位置用于描述该第三样本图像在第三样本视频中所处位置。

第三预设值可以预先设定，而且该第三预设值小于第三间隔。例如，第三预设值可以是1。

第一插帧标签位置用于描述利用N₃个第三样本图像确定的第三样本图像集对应的实际插帧图像在第三样本视频中所处位置。

基于上述S1014A2的相关内容可知，在获取到N₃个第三样本图像之后，可以先确定该N₃个第三样本图像的视频位置的最大值，再根据该最大值确定第一插帧标签位置。例如，如图4所示，若N₃个第三样本图像包括第t₃帧视频图像、第t₃+M₃帧视频图像、第t₃+2×M₃帧视频图像、……、以及第t₃+(N₃-1)×M₃帧视频图像，则可以确定该N₃个第三样本图像的视频位置的最大值为t₃+(N₃-1)×M₃，故可以将t₃+(N₃-1)×M₃+1确定为第一插帧标签位置，以便后续能够基于该第一插帧标签位置从第三样本视频中抽取第三样本图像集对应的实际插帧图像。

S1014A3：将N₃个第三样本图像的视频位置的最大值加第四预设值，得到抽取起始位置。

其中，第四预设值可以预先设定。另外，第四预设值大于所述第三预设值，且该第四预设值小于第三间隔。例如，第四预设值可以是2。

抽取起始位置是指抽取N₄个第三样本图像时所使用的最小抽取位置(也就是，N₄个第三样本图像的视频位置的最小值)。

基于上述S1014A3的相关内容可知，在获取到N₃个第三样本图像之后，可以先确定该N₃个第三样本图像的视频位置的最大值，再根据该最大值确定抽取起始位置。例如，如图4所示，若N₃个第三样本图像包括第t₃帧视频图像、第t₃+M₃帧视频图像、第t₃+2×M₃帧视频图像、……、以及第t₃+(N₃-1)×M₃帧视频图像，则可以确定该N₃个第三样本图像的视频位置的最大值为t₃+(N₃-1)×M₃，故可以将t₃+(N₃-1)×M₃+2确定为抽取起始位置，以便后续能够依据该抽取起始位置继续抽取N₄个第三样本图像。

S1014A4：按照第一插帧标签位置从第三样本视频中抽取第三样本图像集对应的实际插帧图像。

本申请实施例中，在获取到第一插帧标签位置之后，可以将第三样本视频中第一插帧标签位置上的视频图像，确定为第三样本图像集对应的实际插帧图像。例如，如图4所示，若第一插帧标签位置为t₃+(N₃-1)×M₃+1，则可以将第三样本视频中第t₃+(N₃-1)×M₃+1帧视频图像，确定为第三样本图像集对应的实际插帧图像。

S1014A5：按照抽取起始位置和第三间隔从第三样本视频中抽取N₄个第三样本图像，以使N₄个第三样本图像的视频位置均不小于抽取起始位置。其中，N₄为正整数。

本申请实施例中，在获取到抽取起始位置之后，可以从第三样本视频中抽取起始位置开始按照第三间隔继续向后抽取N₄个第三样本图像。例如，如图4所示，若抽取起始位置为t₃+(N₃-1)×M₃+2，则可以从该第三样本视频中继续抽取第t₃+(N₃-1)×M₃+2帧视频图像、第t₃+(N₃-1)×M₃+2+M₃帧视频图像、……、以及第t₃+(N₃-1)×M₃+2+(N₄-1)×M₃帧视频图像，以便后续能够根据上述N₄帧视频图像确定第三样本图像集，以使该第三样本图像集可以表示出由上述N₄帧视频图像携带的图像信息。

S1014A6：将N₃个第三样本图像和N₄个第三样本图像的集合，确定为第三样本图像集。

本申请实施例中，在获取到N₃个第三样本图像和N₄个第三样本图像之后，可以直接将该N₃个第三样本图像和N₄个第三样本图像的集合确定为第三样本图像集(如图4所示，第三样本图像集可以包括第t₃帧视频图像、第t₃+M₃帧视频图像、第t₃+2×M₃帧视频图像、……、第t₃+(N₃-1)×M₃帧视频图像、以及第t₃+(N₃-1)×M₃+2帧视频图像、第t₃+(N₃-1)×M₃+2+M₃帧视频图像、……、第t₃+(N₃-1)×M₃+2+(N₄-1)×M₃帧视频图像)，以使该第三样本图像集能够表示出由上述N₃和N₄帧视频图像携带的图像信息，从而使得该第三样本图像集能够更接近于由低帧率的视频拍摄设备采集的视频。

基于上述S1014A1至S1014A6的相关内容可知，在获取到第三样本视频之后，可以先从该第三样本视频中依次抽取出N₃个第三样本图像、第三样本图像集对应的实际插帧图像、N₄个第三样本图像；再根据N₃个第三样本图像和N₄个第三样本图像的集合，确定该第三样本图像集。

在第二种可能的实施方式下，S1014具体可以包括S1014B1-S1014B6：

S1014B1：按照第四间隔从第三样本视频中抽取N₅个第三样本图像。其中，N₅为正整数。

其中，第四间隔可以预先设定。例如，第四间隔可以是M₄。需要说明的是，本申请实施例不限定本申请实施例不限定M₁、M₂、M₃与M₄之间的关系(也就是，第一间隔、第二间隔、第三间隔以及第四间隔之间的关系)，可以是相同的，也可以是不同的。

基于上述S1014B1的相关内容可知，如图5所示，在获取到第三样本视频之后，可以先从该第三样本视频中分别抽取第t₄帧视频图像、第t₄+M₄帧视频图像、第t₄+2×M₄帧视频图像、……、以及第t₄+(N₅-1)×M₄帧视频图像，以便后续能够根据上述N₅帧视频图像确定第三样本图像集，以使该第三样本图像集可以表示出由上述N₅帧视频图像携带的图像信息。

S1014B2：将N₅个第三样本图像的视频位置的最小值减第五预设值，得到第二插帧标签位置。

其中，第五预设值可以预先设定，而且该第五预设值小于第四间隔。例如，第五预设值可以是1。

第二插帧标签位置用于描述利用N₅个第三样本图像确定的第三样本图像集对应的实际插帧图像在第三样本视频中所处位置。

基于上述S1014B2的相关内容可知，在获取到N₅个第三样本图像之后，可以先确定该N₅个第三样本图像的视频位置的最小值，再根据该最小值确定第二插帧标签位置。例如，如图5所示，若N₅个第三样本图像包括第t₄帧视频图像、第t₄+M₄帧视频图像、第t₄+2×M₄帧视频图像、……、以及第t₄+(N₅-1)×M₄帧视频图像，则可以确定该N₅个第三样本图像的视频位置的最小值为t₄，故可以将t₄-1确定为第二插帧标签位置，以便后续能够基于该第二插帧标签位置从第三样本视频中抽取第三样本图像集对应的实际插帧图像。

S1014B3：将N₅个第三样本图像的视频位置的最小值减二，得到抽取终止位置。

其中，第六预设值可以预先设定。另外，第六预设值大于所述第五预设值，且该第六预设值小于第四间隔。例如，第六预设值可以是2。

抽取终止位置是指抽取N₆个第三样本图像时所使用的最大抽取位置(也就是，N₅个第三样本图像的视频位置的最大值)。

基于上述S1014B3的相关内容可知，本申请实施例中，在获取到N₅个第三样本图像之后，可以先确定该N₅个第三样本图像的视频位置的最小值，再根据该最小值确定抽取终止位置。例如，如图5所示，若N₅个第三样本图像包括第t₄帧视频图像、第t₄+M₄帧视频图像、第t₄+2×M₄帧视频图像、……、以及第t₄+(N₅-1)×M₄帧视频图像，则可以确定该N₅个第三样本图像的视频位置的最小值为t₄，故可以将t₄-2确定为抽取终止位置，以便后续能够依据该抽取终止位置继续抽取N₆个第三样本图像。

S1014B4：按照第二插帧标签位置从第三样本视频中抽取第三样本图像集对应的实际插帧图像。

本申请实施例中，在获取到第二插帧标签位置之后，可以将第三样本视频中第二插帧标签位置上的视频图像，确定为第三样本图像集对应的实际插帧图像。例如，如图5所示，若第二插帧标签位置为t₄-1，则可以将第三样本视频中第t₄-1帧视频图像，确定为第三样本图像集对应的实际插帧图像。

S1014B5：按照抽取终止位置和第四间隔从第三样本视频中抽取N₆个第三样本图像，以使N₆个第三样本图像的视频位置均不大于抽取终止位置。其中，N₆为正整数。

本申请实施例中，在获取到抽取终止位置之后，可以从第三样本视频中从抽取终止位置开始按照第三间隔向前抽取N₄个第三样本图像。例如，如图5所示，若抽取终止位置为t₄-2，则可以从该第三样本视频中继续抽取第t₄-2帧视频图像、第t₄-2-M₃帧视频图像、……、以及第t₄-2-(N₆-1)×M₃帧视频图像，以便后续能够根据上述N₆帧视频图像确定第三样本图像集，以使该第三样本图像集可以表示出由上述N₆帧视频图像携带的图像信息。

需要说明的是，本申请实施例也不限定N₅与N₆之间的关系，可以是相同的，也可以是不同的。

S1014B6：将N₅个第三样本图像和N₆个第三样本图像的集合，确定为第三样本图像集。

本申请实施例中，在获取到N₅个第三样本图像和N₆个第三样本图像之后，可以直接将该N₅个第三样本图像和N₆个第三样本图像的集合确定为第三样本图像集(如图5所示，第三样本图像集可以包括第t₄帧视频图像、第t₄+M₄帧视频图像、第t₄+2×M₄帧视频图像、……、第t₄+(N₅-1)×M₄帧视频图像、以及第t₄-2帧视频图像、第t₄-2-M₃帧视频图像、……、第t₄-2-(N₆-1)×M₃帧视频图像的集合)，以使该第三样本图像集能够表示出由上述N₅和N₆帧视频图像携带的图像信息，从而使得该第三样本图像集能够更接近于由低帧率的视频拍摄设备采集的视频。

基于上述S1014B1至S1014B6的相关内容可知，在获取到第三样本视频之后，可以先从该第三样本视频中依次抽取出N₅个第三样本图像、第三样本图像集对应的实际插帧图像、N₆个第三样本图像；再根据N₅个第三样本图像和N₆个第三样本图像的集合，确定该第三样本图像集。

基于上述S1014的相关内容可知，在获取到第三样本视频之后，可以从该第三样本视频中分别抽取第三样本图像集及其对应的实际插帧图像，以使该第三样本图像集能够表示出由低帧率的视频拍摄设备采集的视频，并使得该第三样本图像集对应的实际插帧图像能够表示出由低帧率的视频拍摄设备采集的视频中实际应该***的视频图像。

S102：根据第一样本图像集和该第一样本图像集对应的实际插帧图像，构建向后预测模型。

向后预测模型用于向后预测插帧图像(也就是，根据至少一帧历史视频图像预测一帧未来插帧图像)。另外，本申请实施例不限定向后预测模型，例如，向后预测模型可以是一种全卷积神经网络模型。

此外，本申请实施例也不限定向后预测模型的构建过程(也就是，S102的实施方式)，例如，在一种可能的实施方式下，S102具体可以包括S1021-S1024：

S1021：将第一样本图像集输入第一模型，得到该第一模型输出的该第一样本图像集对应的预测插帧图像。

其中，第一样本图像集对应的预测插帧图像是由第一模型针对第一样本图像集进行向后预测插帧图像得到的。

第一模型也用于向后预测插帧图像。另外，本申请实施例不限定第一模型，例如，第一模型可以是一种全卷积神经网络模型。此外，本申请实施例也不限定第一模型的模型结构，例如，在一种可能的实施方式中，如图6所示，该第一模型600可以包括第一特征生成层601、第一特征分离层602、第一像素权重确定层603、第一图像加权层604和向后特征预测层605。

为了便于理解图6所示的第一模型的工作原理，下面以第一样本图像集对应的预测插帧图像的生成过程作为示例进行说明。

作为示例，若第一模型为图6所示的第一模型600，则第一样本图像集对应的预测插帧图像的生成过程可以包括步骤11-步骤17：

步骤11：将第一样本图像集输入第一特征生成层601，得到该第一特征生成层601输出的该第一样本图像集对应的第一待分离特征。

其中，第一样本图像集对应的第一待分离特征是指由第一特征生成层601针对第一样本图像集生成的特征。

第一特征生成层601用于针对该第一特征生成层601的输入数据进行特征生成。另外，本申请实施例不限定第一特征生成层601的结构，例如，在一种可能的实施方式下，第一特征生成层601可以包括第一特征提取子层和第一注意力子层，而且该第一注意力子层的输入数据包括该第一特征提取子层的输出数据。

为了便于理解第一特征生成层601的工作原理，下面以第一样本图像集对应的第一待分离特征的生成过程作为示例进行说明。

作为示例，若第一特征生成层601包括第一特征提取子层和第一注意力子层，则该第一样本图像集对应的第一待分离特征的生成过程可以包括步骤21-步骤22：

步骤21：将第一样本图像集输入第一特征提取子层，得到该第一特征提取子层输出的该第一样本图像集对应的第一提取特征。

其中，第一特征提取子层用于针对该第一特征提取子层的输入数据进行特征提取。另外，本申请实施例不限定第一特征提取子层的实施方式，可以采用任一种能够实现特征提取的方法进行实施。

第一样本图像集对应的第一提取特征是由第一特征提取子层针对第一样本图像集进行特征提取得到的。

基于上述步骤21的相关内容可知，对于包括第一特征提取子层和第一注意力子层的第一特征生成层601来说，在将第一样本图像集输入该第一特征生成层601之后，可以由该第一特征生成层601中第一特征提取子层针对该第一样本图像集进行特征提取，得到并输出该第一样本图像集对应的第一提取特征，以便后续能够基于该第一提取特征，确定该第一样本图像集对应的第一待分离特征。

步骤22：将第一样本图像集对应的第一提取特征输入第一注意力子层，得到该第一注意力子层输出的该第一样本图像集对应的第一待分离特征。

其中，第一注意力子层用于针对该第一注意力子层的输入数据进行注意力处理(如，基于时空注意力机制的注意力处理)。另外，本申请实施例不限定第一注意力子层的实施方式，可以采用任一种能够实现注意力处理的方法(如，基于时空注意力机制)进行实施。

基于上述步骤22的相关内容可知，对于包括第一特征提取子层和第一注意力子层的第一特征生成层601来说，在由该第一特征提取子层输出第一样本图像集对应的第一提取特征之后，可以由该第一注意力子层针对该第一提取特征进行注意力处理，得到并输出该第一样本图像集对应的第一待分离特征。

基于上述步骤11的相关内容可知，对于图6所示的第一模型600来说，在将第一样本图像集输入该第一模型600之后，可以由该第一模型600中第一特征生成层601针对该第一样本图像集进行特征生成，得到并输出该第一样本图像集对应的第一待分离特征，以使该第一待分离特征能够准确地表示出该第一样本图像集携带的信息。

步骤12：将第一样本图像集对应的第一待分离特征输入第一特征分离层602，得到该第一特征分离层602输出的该第一样本图像集对应的第一非运动特征和该第一样本图像集对应的第一运动特征。

其中，第一特征分离层602用于针对该第一特征分离层602的输入数据进行特征分离(尤其是进行运动特征与非运动特征之间的分离)。另外，本申请实施例不限定第一特征分离层602的实施方式。

第一样本图像集对应的第一非运动特征用于描述该第一样本图像集携带的非运动信息(例如，背景信息)。

第一样本图像集对应的第一运动特征用于描述该第一样本图像集携带的运动信息。

基于上述步骤12的相关内容可知，对于图6所示的第一模型600来说，在由第一特征生成层601输出第一样本图像集对应的第一待分离特征之后，可以由第一特征分离层602针对该第一待分离特征进行特征分离，得到并输出该第一样本图像集对应的第一非运动特征和该第一样本图像集对应的第一运动特征，以使该第一非运动特征以及该第一运动特征分别能够准确地表示出该第一样本图像集携带的非运动信息以及运动信息。

步骤13：将第一样本图像集对应的第一运动特征输入第一像素权重确定层603，得到该第一像素权重确定层603输出的该第一样本图像集对应的像素级权重。

其中，第一样本图像集对应的像素级权重用于表示该第一样本图像集中每个图像内各个像素点对应的加权权重(也就是，用于表示向后预测过程针对第一样本图像集中每个图像内各个像素值的依赖程度)。

另外，本申请实施例不限定第一样本图像集对应的像素级权重的表示方式，例如，若第一样本图像集包括N₁个图像，且该N₁个图像中各个图像均包括L₁×W₁个像素点，则该第一样本图像集对应的像素级权重可以表示为N₁×L₁×W₁的三维矩阵。

第一像素权重确定层603用于针对该第一像素权重确定层603的输入数据进行像素级依赖权重确定。另外，本申请实施例不限定第一像素权重确定层603的实施方式，例如，在一种可能的实施方式中，第一像素权重确定层603可以包括第一依赖衰减系数确定子层和第一依赖权重生成子层，而且该第一依赖权重生成子层的输入数据包括该第一依赖衰减系数确定子层的输出数据。

为了便于理解上述第一像素权重确定层603的工作原理，下面以第一样本图像集对应的像素级权重的生成过程作为示例进行说明。

作为示例，若第一像素权重确定层603包括第一依赖衰减系数确定子层和第一依赖权重生成子层，则第一样本图像集对应的像素级权重的生成过程，具体可以包括步骤31-步骤32：

步骤31：将第一样本图像集对应的第一运动特征输入第一依赖衰减系数确定子层，得到该第一依赖衰减系数确定子层输出的该第一样本图像集对应的像素级依赖衰减系数。

其中，第一依赖衰减系数确定子层用于针对该第一依赖衰减系数确定子层的输入数据进行依赖衰减系数确定。另外，本申请实施例不限定第一依赖衰减系数确定子层的实施方式。

第一样本图像集对应的像素级依赖衰减系数用于表示第一样本图像集中不同像素点位置对应的依赖衰减系数。另外，本申请实施例不限定第一样本图像集对应的像素级依赖衰减系数的表示方式，例如，若第一样本图像集包括N₁个图像，且该N₁个图像中各个图像均包括L₁×W₁个像素点，则该第一样本图像集对应的像素级依赖衰减系数可以表示为L₁×W₁的二维矩阵(如公式(1)所示)，以使该二维矩阵中各个元素分别表示第一样本图像集中各个像素点位置对应的依赖衰减系数。

式中，R₁表示第一样本图像集对应的像素级依赖衰减系数；r_ij表示第一样本图像集中第i行第j列像素点位置对应的依赖衰减系数；i为正整数，i≤L₁；j为正整数，j≤W₁。

基于上述步骤31的相关内容可知，对于包括第一依赖衰减系数确定子层和第一依赖权重生成子层的第一像素权重确定层603来说，在将第一样本图像集对应的第一运动特征输入该第一像素权重确定层603之后，可以由该第一像素权重确定层603中第一依赖衰减系数确定子层根据该第一运动特征，确定并输出该第一样本图像集对应的像素级依赖衰减系数，以便后续能够基于该像素级依赖衰减系数，确定该第一样本图像集对应的像素级权重。

步骤32：将第一样本图像集对应的像素级依赖衰减系数输入第一依赖权重生成子层，得到该第一依赖权重生成子层输出的该第一样本图像集对应的像素级权重。

其中，第一依赖权重生成子层用于进行像素级依赖权重的确定。另外，本申请实施例不限定第一依赖权重生成子层的实施方式。

此外，本申请实施例不限定第一依赖权重生成子层的工作原理，例如，若第一样本图像集对应的像素级依赖衰减系数为公式(1)所示的R₁，则该第一样本图像集对应的像素级权重可以利用公式(2)进行计算。

式中，

表示第一样本图像集中距离向后预测插帧图像第k近的图像内第i行第j列像素点对应的加权权重，k为正整数，k≤N₁，N₁表示第一样本图像集中图像个数；w_base表示第一像素权重确定层603对应的基础依赖权重，而且本申请实施例不限定w_base，例如，w_base＝1；r_ij表示第一样本图像集中第i行第j列像素点位置对应的依赖衰减系数；i为正整数，i≤L₁；j为正整数，j≤W₁。

需要说明的是，上述“第一样本图像集中距离向后预测插帧图像第k近的图像”是按照视频位置确定的。例如，若第一样本图像集为图2所示的第一样本图像集，则第一样本图像集中距离向后预测插帧图像第1近的图像是第t₁+(N₁-1)×M₁帧视频图像，第一样本图像集中距离向后预测插帧图像第2近的图像是第t₁+(N₁-2)×M₁帧视频图像，……(以此类推)、第一样本图像集中距离向后预测插帧图像第N₁近的图像是第t₁帧视频图像。

基于上述步骤32的相关内容可知，对于包括第一依赖衰减系数确定子层和第一依赖权重生成子层的第一像素权重确定层603来说，在由该第一依赖衰减系数确定子层输出第一样本图像集对应的像素级依赖衰减系数之后，可以由该第一依赖权重生成子层根据该像素级依赖衰减系数，生成并输出该第一样本图像集对应的像素级权重，以使该像素级权重能够准确地表示出向后预测过程针对第一样本图像集中每个图像内各个像素值的依赖程度。

基于上述步骤13的相关内容可知，对于图6所示的第一模型600来说，在由第一特征分离层602输出第一样本图像集对应的第一运动特征之后，可以由第一像素权重确定层603根据该第一运动特征，确定并输出该第一样本图像集对应的像素级权重，以使该像素级权重能够准确地表示出该第一样本图像集中每个图像内各个像素点对应的加权权重。

步骤14：将第一样本图像集对应的像素级权重和该第一样本图像集输入第一图像加权层604，得到该第一图像加权层604输出的第一样本图像集对应的加权图像集。

其中，第一图像加权层604用于进行像素级加权处理。另外，本申请实施例不限定第一图像加权层604的实施方式，例如，第一图像加权层604可以采用公式(3)进行实施。

式中，

表示第一样本图像集中距离向后预测插帧图像第k近的图像内第i行第j列像素点的加权像素值(也就是，第一样本图像集对应的加权图像集中距离向后预测插帧图像第k近的图像内第i行第j列像素点的像素值)；

表示第一样本图像集中距离向后预测插帧图像第k近的图像内第i行第j列像素点的像素值；

表示第一样本图像集中距离向后预测插帧图像第k近的图像内第i行第j列像素点对应的加权权重，k为正整数，k≤N₁，N₁表示第一样本图像集中图像个数；i为正整数，i≤L₁；j为正整数，j≤W₁。

第一样本图像集对应的加权图像集是由第一图像加权层604针对该第一样本图像集进行像素级加权处理得到的。

基于上述步骤14的相关内容可知，对于图6所示的第一模型600来说，在由第一像素权重确定层603输出第一样本图像集对应的像素级权重之后，可以由第一图像加权层604按照该第一样本图像集对应的像素级权重对该第一样本图像集进行像素级加权处理，得到并输出该第一样本图像集对应的加权图像集，以便后续能够依据该加权图像集进行向后预测处理。

步骤15：将第一样本图像集对应的加权图像集输入第一特征生成层601，得到该第一特征生成层601输出的该第一样本图像集对应的第二待分离特征。

其中，第一样本图像集对应的第二待分离特征是指针对第一样本图像集对应的加权图像集生成的特征。

需要说明的是，第一样本图像集对应的第二待分离特征的生成过程可以采用上文步骤11中“第一样本图像集对应的第一待分离特征的生成过程”的任一实施方式进行实施。例如，若第一特征生成层601包括第一特征提取子层和第一注意力子层，则第一样本图像集对应的第二待分离特征的生成过程，具体可以包括步骤41-步骤42：

步骤41：将第一样本图像集对应的加权图像集输入第一特征提取子层，得到该第一特征提取子层输出的该第一样本图像集对应的第二提取特征。

其中，第一样本图像集对应的第二提取特征是由第一特征提取子层针对第一样本图像集对应的加权图像集进行特征提取得到的。

步骤42：将第一样本图像集对应的第二提取特征输入第一注意力子层，得到该第一注意力子层输出的该第一样本图像集对应的第二待分离特征。

基于上述步骤41至步骤42的相关内容可知，对于包括第一特征提取子层和第一注意力子层的第一特征生成层601来说，在将第一样本图像集对应的加权图像集输入第一特征生成层601之后，先由该第一特征提取子层针对该加权图像集进行特征提取，得到并输出该第一样本图像集对应的第二提取特征；再由该第一注意力子层针对该第二提取特征进行注意力处理，得到并输出该第一样本图像集对应的第二待分离特征。

基于上述步骤15的相关内容可知，对于图6所示的第一模型600来说，在由第一图像加权层604输出第一样本图像集对应的加权图像集之后，可以由第一特征生成层601针对该加权图像集进行特征生成，得到并输出该第一样本图像集对应的第二待分离特征，以使该第二待分离特征能够准确地表示出该加权图像集携带的信息。

步骤16：将第一样本图像集对应的第二待分离特征输入第一特征分离层602，得到该第一特征分离层602输出的该第一样本图像集对应的第二非运动特征和该第一样本图像集对应的第二运动特征。

其中，第一样本图像集对应的第二非运动特征用于描述该第一样本图像集对应的加权图像集携带的非运动信息(例如，背景信息)。

第一样本图像集对应的第二运动特征用于描述该第一样本图像集对应的加权图像集携带的运动信息。

基于上述步骤16的相关内容可知，对于图6所示的第一模型600来说，在由第一特征生成层601输出第一样本图像集对应的第二待分离特征之后，可以由第一特征分离层602针对该第二待分离特征进行特征分离，得到并输出第一样本图像集对应的第二非运动特征和该第一样本图像集对应的第二运动特征，以使该第二非运动特征以及该第二运动特征分别能够准确地表示出该第一样本图像集对应的加权图像集携带的非运动信息以及运动信息。

步骤17：将第一样本图像集对应的第二非运动特征和该第一样本图像集对应的第二运动特征输入向后特征预测层605，得到该向后特征预测层605输出的第一样本图像集对应的预测插帧图像。

其中，向后特征预测层605用于向后预测插帧图像。另外，本申请实施例不限定向后特征预测层605的实施方式，例如，在一种可能的实施方式下，向后特征预测层605可以包括第一运动特征预测子层和第一特征融合子层，且该第一特征融合子层的输入数据包括该第一运动特征预测子层的输出数据。

为了便于理解向后特征预测层605的工作原理，下面以第一样本图像集对应的预测插帧图像的生成过程作为示例进行说明。

作为示例，若向后特征预测层605包括第一运动特征预测子层和第一特征融合子层，则第一样本图像集对应的预测插帧图像的生成过程，具体可以包括步骤51-步骤52：

步骤51：将第一样本图像集对应的第二运动特征输入第一运动特征预测子层，得到该第一运动特征预测子层输出的该第一样本图像集对应的预测运动特征。

其中，第一运动特征预测子层用于进行向后运动特征预测(也就是未来运动特征预测)。

第一样本图像集对应的预测运动特征用于表示第一样本图像集对应的预测插帧图像携带的运动信息。

基于步骤51的相关内容可知，对于包括第一运动特征预测子层和第一特征融合子层的向后特征预测层605来说，在将第一样本图像集对应的第二运动特征输入该向后特征预测层605之后，可以由该向后特征预测层605中的第一运动特征预测子层根据该第二运动特征进行向后运动特征预测，得到并输出该第一样本图像集对应的预测运动特征，以使该预测运动特征能够表示出向后预测插帧图像中携带的运动信息。

步骤52：将第一样本图像集对应的第二非运动特征和该第一样本图像集对应的预测运动特征输入第一特征融合子层，得到该第一特征融合子层输出的该第一样本图像集对应的预测插帧图像。

其中，第一特征融合子层用于进行运动特征和非运动特征的融合。

第一样本图像集对应的预测插帧图像用于描述向后预测插帧图像中携带的运动信息以及非运动信息。

基于步骤52的相关内容可知，对于包括第一运动特征预测子层和第一特征融合子层的向后特征预测层605来说，在由该第一运动特征预测子层输出第一样本图像集对应的预测运动特征之后，可以由该第一特征融合子层将该预测运动特征和第一样本图像集对应的第二非运动特征进行特征融合，得到并输出该第一样本图像集对应的预测插帧图像。

基于上述第一模型的相关内容可知，在将第一样本图像集输入第一模型之后，该第一模型能够针对该第一样本图像集进行向后预测插帧图像处理，得到并输出该第一样本图像集对应的预测插帧图像，以便后续能够基于该第一样本图像集对应的预测插帧图像，确定该第一模型的向后预测性能。

S1022：判断是否达到第一停止条件，若是，则执行S1024；若否，则执行S1023。

其中，第一停止条件可以预先设定；而且本申请实施例不限定第一停止条件，例如，第一停止条件可以是第一模型的损失值低于第一预设损失阈值，也可以是第一模型的损失值的变化率低于第一预设变化率阈值，还可以是第一模型的更新次数达到第一预测次数阈值。

需要说明的是，第一预设损失阈值、第一预设变化率阈值以及第一预测次数阈值均可以预先设定。另外，本申请实施例不限定第一模型的损失值的计算过程。

基于上述S1022的相关内容可知，对于当前轮的第一模型来说，可以判断该当前轮的第一模型是否达到第一停止条件；若达到第一停止条件，则表示当前轮的第一模型具有较好地向后预测性能，故可以直接根据当前轮的第一模型构建向后预测模型即可；若没有达到第一停止条件，则表示当前轮的第一模型的向后预测性能依旧比较差，故根据第一样本图像集对应的预测插帧图像以及对应的实际插帧图像更新第一模型，以使更新后的第一模型具有较好的向后预测性能。

S1023：根据第一样本图像集对应的预测插帧图像和该第一样本图像集对应的实际插帧图像，更新第一模型，并返回执行S1021。

本申请实施例中，在确定当前轮的第一模型没有达到第一停止条件之后，可以根据第一样本图像集对应的预测插帧图像以及对应的实际插帧图像，对该第一模型进行更新，以使更新后的第一模型具有更好的向后预测性能，并返回继续执行S1021及其后续步骤。

S1024：根据第一模型，确定向后预测模型。

本申请实施例中，在确定当前轮的第一模型达到第一停止条件之后，可以根据当前轮的第一模型构建向后预测模型(例如，直接将当前轮的第一模型确定为向后预测模型。又如，可以根据当前轮的第一模型的模型结构以及模型参数，确定向后预测模型的模型结构以及模型参数，以使该向后预测模型的模型结构以及模型参数分别与当前轮的第一模型的模型结构以及模型参数保持相同)，以使构建好的向后预测模型所具有的向后预测性能与当前轮的第一模型所具有的向后预测性能保持一致，从而使得构建好的向后预测模型也具有较好的向后预测性能。

基于上述S102的相关内容可知，在获取到第一样本图像集及其对应的实际插帧图像之后，可以利用该第一样本图像集及其对应的实际插帧图像构建向后预测模型，以使构建好的向后预测模型也具有较好的向后预测性能。

S103：根据第二样本图像集和该第二样本图像集对应的实际插帧图像，构建向前预测模型。

向前预测模型用于向前预测插帧图像(也就是，根据至少一帧视频图像预测一帧历史插帧图像)。另外，本申请实施例不限定向前预测模型，例如，向前预测模型可以是一种全卷积神经网络模型。

此外，本申请实施例也不限定向前预测模型的构建过程(也就是，S103的实施方式)，例如，在一种可能的实施方式下，S103具体可以包括S1031-S1034：

S1031：将第二样本图像集输入第二模型，得到该第二模型输出的该第二样本图像集对应的预测插帧图像。

其中，第二样本图像集对应的预测插帧图像是由第二模型针对第一样本图像集进行向后预测插帧图像得到的。

第二模型也用于向前预测插帧图像。另外，本申请实施例不限定第二模型，例如，第二模型可以是一种全卷积神经网络模型。此外，本申请实施例也不限定第二模型的模型结构，例如，在一种可能的实施方式中，如图7所示，该第二模型700可以包括第二特征生成层701、第二特征分离层702、第二像素权重确定层703、第二图像加权层704和向前特征预测层705。

为了便于理解图7所示的第二模型的工作原理，下面以第二样本图像集对应的预测插帧图像的生成过程作为示例进行说明。

作为示例，若第二模型为图7所示的第二模型700，则第二样本图像集对应的预测插帧图像的生成过程可以包括步骤61-步骤67：

步骤61：将第二样本图像集输入第二特征生成层701，得到该第二特征生成层701输出的该第二样本图像集对应的第一待分离特征。

其中，第二样本图像集对应的第一待分离特征是指由第二特征生成层701针对第二样本图像集生成的特征。

第二特征生成层701用于针对该第二特征生成层701的输入数据进行特征生成。另外，本申请实施例不限定第二特征生成层701的结构，例如，在一种可能的实施方式下，第二特征生成层701可以包括第二特征提取子层和第二注意力子层，而且该第二注意力子层的输入数据包括该第二特征提取子层的输出数据。

为了便于理解第二特征生成层701的工作原理，下面以第二样本图像集对应的第一待分离特征的生成过程作为示例进行说明。

作为示例，若第二特征生成层701包括第二特征提取子层和第二注意力子层，则该第二样本图像集对应的第一待分离特征的生成过程可以包括步骤71-步骤72：

步骤71：将第二样本图像集输入第二特征提取子层，得到该第二特征提取子层输出的该第二样本图像集对应的第一提取特征。

其中，第二特征提取子层用于针对该第二特征提取子层的输入数据进行特征提取。另外，本申请实施例不限定第二特征提取子层的实施方式，可以采用任一种能够实现特征提取的方法进行实施。

第二样本图像集对应的第一提取特征是由第二特征提取子层针对第二样本图像集进行特征提取得到的。

基于上述步骤71的相关内容可知，对于包括第二特征提取子层和第二注意力子层的第二特征生成层701来说，在将第二样本图像集输入该第二特征生成层701之后，可以由该第二特征生成层701中第二特征提取子层针对该第二样本图像集进行特征提取，得到并输出该第二样本图像集对应的第一提取特征，以便后续能够基于该第一提取特征，确定该第二样本图像集对应的第二待分离特征。

步骤72：将第二样本图像集对应的第一提取特征输入第二注意力子层，得到该第二注意力子层输出的该第二样本图像集对应的第一待分离特征。

其中，第二注意力子层用于针对该第二注意力子层的输入数据进行注意力处理(如，基于时空注意力机制的注意力处理)。另外，本申请实施例不限定第二注意力子层的实施方式，可以采用任一种能够实现注意力处理的方法(如，基于时空注意力机制)进行实施。

基于上述步骤72的相关内容可知，对于包括第二特征提取子层和第二注意力子层的第二特征生成层701来说，在由该第二特征生成层701中第二特征提取子层输出第二样本图像集对应的第一提取特征之后，可以由该第二特征生成层701中第二注意力子层针对该第一提取特征进行注意力处理，得到并输出该第二样本图像集对应的第一待分离特征。

基于上述步骤61的相关内容可知，对于图7所示的第二模型700来说，在将第二样本图像集输入该第二模型700之后，可以由该第二模型700中第二特征生成层701针对该第二样本图像集进行特征生成，得到并输出该第二样本图像集对应的第一待分离特征，以使该第一待分离特征能够准确地表示出该第二样本图像集携带的信息。

步骤62：将第二样本图像集对应的第一待分离特征输入第二特征分离层702，得到该第二特征分离层702输出的该第二样本图像集对应的第一非运动特征和该第二样本图像集对应的第一运动特征。

其中，第二特征分离层702用于针对该第二特征分离层702的输入数据进行特征分离(尤其是进行运动特征与非运动特征之间的分离)。另外，本申请实施例不限定第二特征分离层702的实施方式。

第二样本图像集对应的第一非运动特征用于描述该第二样本图像集携带的非运动信息(例如，背景信息)。

第二样本图像集对应的第一运动特征用于描述该第二样本图像集携带的运动信息。

基于上述步骤62的相关内容可知，对于图7所示的第二模型700来说，在由第二特征生成层701输出第二样本图像集对应的第一待分离特征之后，可以由第二特征分离层702针对该第一待分离特征进行特征分离，得到并输出该第二样本图像集对应的第一非运动特征和该第二样本图像集对应的第一运动特征，以使该第一非运动特征以及该第一运动特征分别能够准确地表示出该第二样本图像集携带的非运动信息以及运动信息。

步骤63：将第二样本图像集对应的第一运动特征输入第二像素权重确定层703，得到该第二像素权重确定层703输出的该第二样本图像集对应的像素级权重。

其中，第二样本图像集对应的像素级权重用于表示该第二样本图像集中每个图像内各个像素点对应的加权权重(也就是，用于表示向前预测过程针对第二样本图像集中每个图像内各个像素值的依赖程度)。

另外，本申请实施例不限定第二样本图像集对应的像素级权重的表示方式，例如，若第二样本图像集包括N₂个图像，且该N₂个图像中各个图像均包括L₂×W₂个像素点，则该第二样本图像集对应的像素级权重可以表示为N₂×L₂×W₂的三维矩阵。

第二像素权重确定层703用于针对该第二像素权重确定层703的输入数据进行像素级依赖权重确定。另外，本申请实施例不限定第二像素权重确定层703的实施方式，例如，在一种可能的实施方式中，第二像素权重确定层703可以包括第二依赖衰减系数确定子层和第二依赖权重生成子层，而且该第二依赖权重生成子层的输入数据包括该第二依赖衰减系数确定子层的输出数据。

为了便于理解上述第二像素权重确定层703的工作原理，下面以第二样本图像集对应的像素级权重的生成过程作为示例进行说明。

作为示例，若第二像素权重确定层703包括第二依赖衰减系数确定子层和第二依赖权重生成子层，则第二样本图像集对应的像素级权重的生成过程，具体可以包括步骤81-步骤82：

步骤81：将第二样本图像集对应的第二运动特征输入第二依赖衰减系数确定子层，得到该第二依赖衰减系数确定子层输出的该第二样本图像集对应的像素级依赖衰减系数。

其中，第二依赖衰减系数确定子层用于针对该第二依赖衰减系数确定子层的输入数据进行依赖衰减系数确定。另外，本申请实施例不限定第二依赖衰减系数确定子层的实施方式。

第二样本图像集对应的像素级依赖衰减系数用于表示第二样本图像集中不同像素点位置对应的依赖衰减系数。另外，本申请实施例不限定第二样本图像集对应的像素级依赖衰减系数的表示方式，例如，若第二样本图像集包括N₂个图像，且该N₂个图像中各个图像均包括L₂×W₂个像素点，则该第二样本图像集对应的像素级依赖衰减系数可以表示为L₂×W₂的二维矩阵(如公式(4)所示)，以使该二维矩阵中各个元素分别表示第二样本图像集中任一图像内各个像素点位置对应的依赖衰减系数。

式中，R₂表示第二样本图像集对应的像素级依赖衰减系数；e_ij表示第二样本图像集中第x行第y列像素点位置对应的依赖衰减系数；x为正整数，x≤L₂；y为正整数，y≤W₂。

基于上述步骤81的相关内容可知，对于包括第二依赖衰减系数确定子层和第二依赖权重生成子层的第二像素权重确定层703来说，在将第二样本图像集对应的第一运动特征输入该第二像素权重确定层703之后，可以由该第二像素权重确定层703中第二依赖衰减系数确定子层根据该第一运动特征，确定并输出该第二样本图像集对应的像素级依赖衰减系数，以便后续能够基于该像素级依赖衰减系数，确定该第二样本图像集对应的像素级权重。

步骤82：将第二样本图像集对应的像素级依赖衰减系数输入第二依赖权重生成子层，得到该第二依赖权重生成子层输出的该第二样本图像集对应的像素级权重。

其中，第二依赖权重生成子层用于进行像素级依赖权重的确定。另外，本申请实施例不限定第二依赖权重生成子层的实施方式。

此外，本申请实施例不限定第二依赖权重生成子层的工作原理，例如，若第二样本图像集对应的像素级依赖衰减系数为公式(4)所示的R₂，则该第二样本图像集对应的像素级权重可以利用公式(5)进行计算。

式中，

表示第二样本图像集中距离向前预测插帧图像第m近的图像内第x行第y列像素点对应的加权权重，m为正整数，m≤N₂，N₂表示第二样本图像集中图像个数；h_base表示第二像素权重确定层703对应的基础依赖权重，而且本申请实施例不限定h_base，例如，h_base＝1；e_xy表示第二样本图像集中第x行第y列像素点位置对应的依赖衰减系数；x为正整数，x≤L₂；y为正整数，y≤W₂。

需要说明的是，上述“第二样本图像集中距离向前预测插帧图像第m近的图像”是按照视频位置确定的。例如，若第二样本图像集为图3所示的第二样本图像集，则第二样本图像集中距离向前预测插帧图像第1近的图像是第t₂帧视频图像，第二样本图像集中距离向前预测插帧图像第2近的图像是第t₂+M₂帧视频图像，……(以此类推)、第二样本图像集中距离向前预测插帧图像第N₂近的图像是第t₂+(N₂-1)×M₂帧视频图像。

基于上述步骤82的相关内容可知，对于包括第二依赖衰减系数确定子层和第二依赖权重生成子层的第二像素权重确定层703来说，在由该第二依赖衰减系数确定子层输出第二样本图像集对应的像素级依赖衰减系数之后，可以由该第二依赖权重生成子层根据该像素级依赖衰减系数，生成并输出该第二样本图像集对应的像素级权重，以使该像素级权重能够准确地表示出向前预测过程针对第二样本图像集中每个图像内各个像素值的依赖程度。

基于上述步骤63的相关内容可知，对于图7所示的第二模型700来说，在由第二特征分离层702输出第二样本图像集对应的第一运动特征之后，可以由第二像素权重确定层703根据该第一运动特征，确定并输出该第二样本图像集对应的像素级权重，以使该像素级权重能够准确地表示出该第二样本图像集中每个图像内各个像素点对应的加权权重。

步骤64：将第二样本图像集对应的像素级权重和该第二样本图像集输入第二图像加权层704，得到该第二图像加权层704输出的第二样本图像集对应的加权图像集。

其中，第二图像加权层704用于进行像素级加权处理。另外，本申请实施例不限定第二图像加权层704的实施方式，例如，第二图像加权层704可以采用公式(6)进行实施。

式中，

表示第二样本图像集中距离向前预测插帧图像第m近的图像内第x行第y列像素点的加权像素值(也就是，第二样本图像集对应的加权图像集中距离向前预测插帧图像第m近的图像内第x行第y列像素点的像素值)；

表示第二样本图像集中距离向前预测插帧图像第m近的图像内第x行第y列像素点的像素值；

表示第二样本图像集中距离向前预测插帧图像第m近的图像内第x行第y列像素点对应的加权权重，m为正整数，m≤N₂，N₂表示第二样本图像集中图像个数；x为正整数，x≤L₂；y为正整数，y≤W₂。

第二样本图像集对应的加权图像集是由第二图像加权层704针对该第二样本图像集进行像素级加权处理得到的。

基于上述步骤64的相关内容可知，对于图7所示的第二模型700来说，在由第二像素权重确定层703输出第二样本图像集对应的像素级权重之后，可以由第二图像加权层704按照该第二样本图像集对应的像素级权重对该第二样本图像集进行像素级加权处理，得到并输出该第二样本图像集对应的加权图像集，以便后续能够依据该加权图像集进行向前预测处理。

步骤65：将第二样本图像集对应的加权图像集输入第二特征生成层701，得到该第二特征生成层701输出的该第二样本图像集对应的第二待分离特征。

其中，第二样本图像集对应的第二待分离特征是指针对第二样本图像集对应的加权图像集生成的特征。

需要说明的是，第二样本图像集对应的第二待分离特征的生成过程可以采用上文步骤61中“第二样本图像集对应的第一待分离特征的生成过程”的任一实施方式进行实施。例如，若第二特征生成层701包括第二特征提取子层和第二注意力子层，则第二样本图像集对应的第二待分离特征的生成过程，具体可以包括步骤91-步骤92：

步骤91：将第二样本图像集对应的加权图像集输入第二特征提取子层，得到该第二特征提取子层输出的该第二样本图像集对应的第二提取特征。

其中，第二样本图像集对应的第二提取特征是由第二特征提取子层针对第二样本图像集对应的加权图像集进行特征提取得到的。

步骤92：将第二样本图像集对应的第二提取特征输入第二注意力子层，得到该第二注意力子层输出的该第二样本图像集对应的第二待分离特征。

基于上述步骤91至步骤92的相关内容可知，对于包括第二特征提取子层和第二注意力子层的第二特征生成层701来说，在将第二样本图像集对应的加权图像集输入第二特征生成层701之后，先由该第二特征提取子层针对该加权图像集进行特征提取，得到并输出该第二样本图像集对应的第二提取特征；再由该第二注意力子层针对该第二提取特征进行注意力处理，得到并输出该第二样本图像集对应的第二待分离特征。

基于上述步骤65的相关内容可知，对于图7所示的第二模型700来说，在由第二图像加权层704输出第二样本图像集对应的加权图像集之后，可以由第二特征生成层701针对该加权图像集进行特征生成，得到并输出该第二样本图像集对应的第二待分离特征，以使该第二待分离特征能够准确地表示出该加权图像集携带的信息。

步骤67：将第二样本图像集对应的第二待分离特征输入第二特征分离层702，得到该第二特征分离层702输出的该第二样本图像集对应的第二非运动特征和该第二样本图像集对应的第二运动特征。

其中，第二样本图像集对应的第二非运动特征用于描述该第二样本图像集对应的加权图像集携带的非运动信息(例如，背景信息)。

第二样本图像集对应的第二运动特征用于描述该第二样本图像集对应的加权图像集携带的运动信息。

基于上述步骤67的相关内容可知，对于图7所示的第二模型700来说，在由第二特征生成层701输出第二样本图像集对应的第二待分离特征之后，可以由第二特征分离层702针对该第二待分离特征进行特征分离，得到并输出第二样本图像集对应的第二非运动特征和该第二样本图像集对应的第二运动特征，以使该第二非运动特征以及该第二运动特征分别能够准确地表示出该第二样本图像集对应的加权图像集携带的非运动信息以及运动信息。

步骤67：将第二样本图像集对应的第二非运动特征和该第二样本图像集对应的第二运动特征输入向前特征预测层705，得到该向前特征预测层705输出的第二样本图像集对应的预测插帧图像。

其中，向前特征预测层705用于向前预测插帧图像。另外，本申请实施例不限定向前特征预测层705的实施方式，例如，在一种可能的实施方式下，向前特征预测层705可以包括第二运动特征预测子层和第二特征融合子层，且该第二特征融合子层的输入数据包括该第二运动特征预测子层的输出数据。

为了便于理解向前特征预测层705的工作原理，下面以第二样本图像集对应的预测插帧图像的生成过程作为示例进行说明。

作为示例，若向前特征预测层705包括第二运动特征预测子层和第二特征融合子层，则第二样本图像集对应的预测插帧图像的生成过程，具体可以包括步骤101-步骤102：

步骤101：将第二样本图像集对应的第二运动特征输入第二运动特征预测子层，得到该第二运动特征预测子层输出的该第二样本图像集对应的预测运动特征。

其中，第二运动特征预测子层用于进行向前运动特征预测(也就是历史运动特征预测)。

第二样本图像集对应的预测运动特征用于表示第二样本图像集对应的预测插帧图像携带的运动信息。

基于步骤101的相关内容可知，对于包括第二运动特征预测子层和第二特征融合子层的向前特征预测层705来说，在将第二样本图像集对应的第二运动特征输入该向前特征预测层705之后，可以由该向前特征预测层705中的第二运动特征预测子层根据该第二运动特征进行向前运动特征预测，得到并输出该第二样本图像集对应的预测运动特征，以使该预测运动特征能够表示出向前预测插帧图像中携带的运动信息。

步骤102：将第二样本图像集对应的第二非运动特征和该第二样本图像集对应的预测运动特征输入第二特征融合子层，得到该第二特征融合子层输出的该第二样本图像集对应的预测插帧图像。

其中，第二特征融合子层用于进行运动特征和非运动特征的融合。

第二样本图像集对应的预测插帧图像用于描述向前预测插帧图像中携带的运动信息以及非运动信息。

基于步骤102的相关内容可知，对于包括第二运动特征预测子层和第二特征融合子层的向前特征预测层705来说，在由该第二运动特征预测子层输出第二样本图像集对应的预测运动特征之后，可以由该第二特征融合子层将该预测运动特征和第二样本图像集对应的第二非运动特征进行特征融合处理，得到并输出该第二样本图像集对应的预测插帧图像。

基于上述第二模型的相关内容可知，在将第二样本图像集输入第二模型之后，该第二模型能够针对该第二样本图像集进行向前预测插帧图像处理，得到并输出该第二样本图像集对应的预测插帧图像，以便后续能够基于该第二样本图像集对应的预测插帧图像，确定该第二模型的向前预测性能。

S1032：判断是否达到第二停止条件，若是，则执行S1034；若否，则执行S1033。

其中，第二停止条件可以预先设定；而且本申请实施例不限定第二停止条件，例如，第二停止条件可以是第二模型的损失值低于第二预设损失阈值，也可以是第二模型的损失值的变化率低于第二预设变化率阈值，还可以是第二模型的更新次数达到第二预测次数阈值。

需要说明的是，第二预设损失阈值、第二预设变化率阈值以及第二预测次数阈值均可以预先设定。另外，本申请实施例不限定第二模型的损失值的计算过程。

基于上述S1032的相关内容可知，对于当前轮的第二模型来说，可以判断该当前轮的第二模型是否达到第二停止条件；若达到第二停止条件，则表示当前轮的第二模型具有较好地向前预测性能，故可以直接根据当前轮的第二模型构建向前预测模型即可；若没有达到第二停止条件，则表示当前轮的第二模型的向前预测性能依旧比较差，故根据第二样本图像集对应的预测插帧图像以及对应的实际插帧图像更新第二模型，以使更新后的第二模型具有较好的向前预测性能。

S1033：根据第二样本图像集对应的预测插帧图像和该第二样本图像集对应的实际插帧图像，更新第二模型，并返回执行S1031。

本申请实施例中，在确定当前轮的第二模型没有达到第二停止条件之后，可以根据第二样本图像集对应的预测插帧图像以及对应的实际插帧图像，对该第二模型进行更新，以使更新后的第二模型具有更好的向前预测性能，并返回继续执行S1031及其后续步骤。

S1034：根据第二模型，确定向前预测模型。

本申请实施例中，在确定当前轮的第二模型达到第二停止条件之后，可以根据当前轮的第二模型构建向前预测模型(例如，直接将当前轮的第二模型确定为向前预测模型。又如，可以根据当前轮的第二模型的模型结构以及模型参数，确定向前预测模型的模型结构以及模型参数，以使该向前预测模型的模型结构以及模型参数分别与当前轮的第二模型的模型结构以及模型参数保持相同)，以使构建好的向前预测模型所具有的向前预测性能与当前轮的第二模型所具有的向前预测性能保持一致，从而使得构建好的向前预测模型也具有较好的向前预测性能。

基于上述S103的相关内容可知，在获取到第二样本图像集及其对应的实际插帧图像之后，可以利用该第二样本图像集及其对应的实际插帧图像构建向前预测模型，以使构建好的向前预测模型也具有较好的向前预测性能。

S104：根据第三样本图像集和该第三样本图像集对应的实际插帧图像，构建图像融合模型。

其中，图像融合模型用于针对该图像融合模型的输入数据进行图像融合。另外，本申请实施例不限定图像融合模型，例如，图像融合模型可以是一种全卷积神经网络模型。此外，本申请实施例不限定图像融合模型的构建过程(也就是，S104的实施方式)，例如，在一种可能的实施方式下，S104具体可以包括S1041-S1046：

S1041：获取第三样本图像集对应的向后插帧图像。

其中，第三样本图像集对应的向后插帧图像是利用该第三样本图像集中发生时间比较靠前的图像(如图4中第t₃帧视频图像、第t₃+M₃帧视频图像、第t₃+2×M₃帧视频图像、……、以及第t₃+(N₃-1)×M₃帧视频图像；或者，图5中第t₄-2帧视频图像、第t₄-2-M₃帧视频图像、……、第t₄-2-(N₆-1)×M₃帧视频图像)确定的插帧图像。

另外，本申请实施例不限定S1041的实施方式，例如，若第三样本图像集包括至少一个向后预测参考图像，则S1041具体可以包括：根据该至少一个向后预测参考图像和预先构建的向后预测模型，确定该第三样本图像集对应的向后插帧图像。其中，向后预测参考图像是指第三样本图像集中参与向后预测插帧图像过程的图像。

为了便于理解，下面结合图4所示的第三样本图像集对S1041进行说明。

作为示例，若第三样本图像集为图4所示的第三样本图像集，则上文“至少一个向后预测参考图像”可以包括第t₃帧视频图像、第t₃+M₃帧视频图像、第t₃+2×M₃帧视频图像、……、以及第t₃+(N₃-1)×M₃帧视频图像，且S1041具体可以包括：将第t₃帧视频图像、第t₃+M₃帧视频图像、第t₃+2×M₃帧视频图像、……、以及第t₃+(N₃-1)×M₃帧视频图像的集合输入预先构建的向后预测模型，得到该向后预测模型输出的第三样本图像集对应的向后插帧图像。

基于上述S1041的相关内容可知，在获取到第三样本图像集之后，可以先根据该第三样本图像集中至少一个向后预测参考图像，确定第一参考图像集，以使该第一参考图像集包括该至少一个向后预测参考图像；再将该第一参考图像集输入预先构建的向后预测模型，以使该向后预测模型针对该第一参考图像集进行向后预测插帧图像处理，得到并输出该第一参考图像集对应的向后插帧图像，并将该第一参考图像集对应的向后插帧图像，确定为该第三样本图像集对应的向后插帧图像。

S1042：获取第三样本图像集对应的向前插帧图像。

其中，第三样本图像集对应的向前插帧图像是利用第三样本图像集中发生时间比较靠后的图像(如，图4中第t₃+(N₃-1)×M₃+2帧视频图像、第t₃+(N₃-1)×M₃+2+M₃帧视频图像、……、第t₃+(N₃-1)×M₃+2+(N₄-1)×M₃帧视频图像；或者，图5中第t₄帧视频图像、第t₄+M₄帧视频图像、第t₄+2×M₄帧视频图像、……、以及第t₄+(N₅-1)×M₄帧视频图像)确定的插帧图像。

另外，本申请实施例不限定S1042的实施方式，例如，若第三样本图像集包括至少一个向前预测参考图像，则S1042具体可以包括：根据该至少一个向前预测参考图像和预先构建的向前预测模型，确定该第三样本图像集对应的向前插帧图像。其中，向前预测参考图像是指第三样本图像集中参与向前预测插帧图像过程的图像。

为了便于理解，下面结合图4所示的第三样本图像集对S1042进行说明。

作为示例，若第三样本图像集为图4所示的第三样本图像集，则上文“至少一个向前预测参考图像”可以包括第t₃+(N₃-1)×M₃+2帧视频图像、第t₃+(N₃-1)×M₃+2+M₃帧视频图像、……、第t₃+(N₃-1)×M₃+2+(N₄-1)×M₃帧视频图像，且S1042具体可以包括：将第t₃+(N₃-1)×M₃+2帧视频图像、第t₃+(N₃-1)×M₃+2+M₃帧视频图像、……、以及第t₃+(N₃-1)×M₃+2+(N₄-1)×M₃帧视频图像的集合输入预先构建的向前预测模型，得到该向前预测模型输出的第三样本图像集对应的向前插帧图像。

基于上述S1042的相关内容可知，在获取到第三样本图像集之后，可以先根据该第三样本图像集中至少一个向前预测参考图像，确定第二参考图像集，以使该第二参考图像集包括该至少一个向前预测参考图像；再将该第二参考图像集输入预先构建好的向前预测模型，以使该向前预测模型针对该第二参考图像集进行向前预测插帧图像处理，得到并输出该第二参考图像集对应的向前插帧图像，并将该第二参考图像集对应的向前插帧图像，确定为该第三样本图像集对应的向前插帧图像。

S1043：将第三样本图像集对应的向前插帧图像和该第三样本图像集对应的向后插帧图像输入第三模型，得到该第三模型输出的该第三样本图像集对应的预测插帧图像。

其中，第三模型用于针对该第三模型的输入数据进行图像融合。另外，本申请实施例不限定第三模型，例如，第三模型可以是一种全卷积神经网络模型。

第三样本图像集对应的预测插帧图像是由第三模型针对该第三样本图像集对应的向前插帧图像和该第三样本图像集对应的向后插帧图像进行图像融合得到的。

基于上述S1043的相关内容可知，在获取到第三样本图像集对应的向前插帧图像和该第三样本图像集对应的向后插帧图像之后，可以将该向前插帧图像和该向后插帧图像输入第三模型，以使该第三模型针对该向前插帧图像和该向后插帧图像进行图像融合，得到并输出该第三样本图像集对应的预测插帧图像，以便后续能够依据该第三样本图像集对应的预测插帧图像，确定该第三模型的图像融合性能。

S1044：判断是否达到第三停止条件，若是，则执行S1046；若否，则执行S1045。

其中，第三停止条件可以预先设定；而且本申请实施例不限定第三停止条件，例如，第三停止条件可以是第三模型的损失值低于第三预设损失阈值，也可以是第三模型的损失值的变化率低于第三预设变化率阈值，还可以是第三模型的更新次数达到第三预测次数阈值。

需要说明的是，第三预设损失阈值、第三预设变化率阈值以及第三预测次数阈值均可以预先设定。另外，本申请实施例不限定第三模型的损失值的计算过程。

基于上述S1044的相关内容可知，对于当前轮的第三模型来说，可以判断该当前轮的第三模型是否达到第三停止条件；若达到第三停止条件，则表示当前轮的第三模型具有较好地图像融合性能，故可以直接根据当前轮的第三模型构建图像融合模型即可；若没有达到第三停止条件，则表示当前轮的第三模型的图像融合性能依旧比较差，故根据第三样本图像集对应的预测插帧图像以及对应的实际插帧图像更新第三模型，以使更新后的第三模型具有较好的图像融合性能。

S1045：根据第三样本图像集对应的预测插帧图像和该第三样本图像集对应的实际插帧图像，更新第三模型，并返回执行S1043。

本申请实施例中，在确定当前轮的第三模型没有达到第三停止条件之后，可以根据第三样本图像集对应的预测插帧图像以及对应的实际插帧图像，对该第三模型进行更新，以使更新后的第三模型具有更好的图像融合性能，并返回继续执行S1043及其后续步骤。

S1046：根据第三模型，确定图像融合模型。

本申请实施例中，在确定当前轮的第三模型达到第三停止条件之后，可以根据当前轮的第三模型构建图像融合模型(例如，直接将当前轮的第三模型确定为图像融合模型。又如，可以根据当前轮的第三模型的模型结构以及模型参数，确定图像融合模型的模型结构以及模型参数，以使该图像融合模型的模型结构以及模型参数分别与当前轮的第三模型的模型结构以及模型参数保持相同)，以使构建好的图像融合模型所具有的图像融合性能与当前轮的第三模型所具有的图像融合性能保持一致，从而使得构建好的图像融合模型也具有较好的图像融合性能。

基于上述图像融合模型的相关内容可知，在获取到第三样本图像集及其对应的实际插帧图像之后，可以利用第三样本图像集及其对应的实际插帧图像，构建图像融合模型，以使构建好的图像融合模型也具有较好的图像融合性能。

S105：利用向后预测模型、向前预测模型和图像融合模型，构建插帧生成模型。

其中，插帧生成模型用于针对该插帧生成模型的输入数据进行插帧图像预测。

另外，本申请实施例不限定插帧生成模型的模型结构，例如，在一种可能的实施方式中，插帧生成模型可以包括向后预测网络、向前预测网络和图像融合网络，而且该图像融合网络的输入数据包括该向后预测网络的输出数据和该向前预测网络的输出数据。其中，向后预测网络用于向后预测插帧图像。向前预测网络用于向前预测插帧图像。图像融合网络用于进行图像融合(尤其是，将向后预测的插帧图像和向前预测的插帧图像融合成一张插帧图像)。

此外，本申请实施例不限定插帧生成模型的构建过程(也就是，S105的实施方式)，例如，在一种可能的实施方式中，若插帧生成模型包括向后预测网络、向前预测网络和图像融合网络，则S105具体可以包括S1051-S1053：

S1051：根据向后预测模型，生成向后预测网络。

本申请实施例中，在构建好向后预测模型之后，可以利用该向后预测模型构建插帧生成模型中向后预测网络(例如，将向后预测模型确定为向后预测网络。又如，根据向后预测模型的模型结构以及模型参数，确定向后预测网络的模型结构以及模型参数，以使构建好的向后预测网络的模型结构以及模型参数分别与该向后预测模型的模型结构以及模型参数保持相同)，以使构建好的向后预测网络的向后预测性能与该向后预测模型的向后预测性能保持一致，从而使得构建好的向后预测网络也具有较好的向后预测性能，如此有利于提高插帧生成模型的预测性能。

S1052：根据向前预测模型，生成向前预测网络。

本申请实施例中，在构建好向前预测模型之后，可以利用该向前预测模型构建插帧生成模型中向前预测网络(例如，将向前预测模型确定为向前预测网络。又如，根据向前预测模型的模型结构以及模型参数，确定向前预测网络的模型结构以及模型参数，以使构建好的向前预测网络的模型结构以及模型参数分别与该向前预测模型的模型结构以及模型参数保持相同)，以使构建好的向前预测网络的向前预测性能与该向前预测模型的向前预测性能保持一致，从而使得构建好的向前预测网络也具有较好的向前预测性能，如此有利于提高插帧生成模型的预测性能。

S1053：根据图像融合模型，生成图像融合网络。

本申请实施例中，在构建好图像融合模型之后，可以利用该图像融合模型构建插帧生成模型中图像融合网络(例如，将图像融合模型确定为图像融合网络。又如，根据图像融合模型的模型结构以及模型参数，确定图像融合网络的模型结构以及模型参数，以使构建好的图像融合网络的模型结构以及模型参数分别与该图像融合模型的模型结构以及模型参数保持相同)，以使构建好的图像融合网络的图像融合性能与该图像融合模型的图像融合性能保持一致，从而使得构建好的图像融合网络也具有较好的图像融合性能，如此有利于提高插帧生成模型的预测性能。

基于上述S101至S105的相关内容可知，在本申请实施例提供的插帧生成模型构建方法中，先利用第一样本图像集、该第一样本图像集对应的实际插帧图像、第二样本图像集、该第二样本图像集对应的实际插帧图像、第三样本图像集和该第三样本图像集对应的实际插帧图像，分别构建向后预测模型、向前预测模型和图像融合模型；再利用该向后预测模型、该向前预测模型和该图像融合模型，构建插帧生成模型。

可见，因利用第一样本图像集和该第一样本图像集对应的实际插帧图像构建的向后预测模型能够准确地进行向后预测插帧图像，且利用第二样本图像集和该第二样本图像集对应的实际插帧图像构建的向前预测模型能够准确地进行向前预测插帧图像，使得基于该向后预测模型和向前预测模型构建的插帧生成模型也能够准确地进行向后预测插帧图像以及向前预测插帧图像；还因利用第三样本图像集和该第三样本图像集对应的实际插帧图像构建的图像融合模型能够准确地进行图像融合，使得基于该图像融合模型构建的插帧生成模型也能够准确地进行图像融合，从而使得构建好的插帧生成模型能够准确地进行插帧图像预测，如此有利于提高插帧图像的预测效果，从而有利于提高插帧后的视频的慢速回放效果。

需要说明的是，本申请实施例不限定插帧生成模型构建方法的执行主体，例如，本申请实施例提供的插帧生成模型构建方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。

基于上述提供的插帧生成模型构建方法的相关内容可知，在构建好插帧生成模型之后，可以利用该插帧生成模型进行插帧图像预测。基于此，本申请实施例还提供了一种视频插帧方法，下面结合附图进行说明。

方法实施例二

参见图8，该图为本申请实施例提供的一种视频插帧方法的流程图。

本申请实施例提供的视频插帧方法，包括S801-S803：

S801：从待插帧视频中确定待插帧位置、该待插帧位置对应的向前预测参考图像集和该待插帧位置对应的向后预测参考图像集。

其中，待插帧视频是指需要进行插帧处理的视频。另外，本申请实施例不限定待插帧视频，例如，该待插帧视频可以是指由低帧率的视频拍摄设备拍摄的视频。

待插帧位置是指待插帧视频中需要***插帧图像的位置。另外，本申请实施例不限定待插帧位置，例如，该待插帧位置可以是指待插帧视频中满足预设插帧条件的位置。其中，预设插帧条件可以预先设定。

另外，本申请实施例不限定预设插帧条件，例如，若向后预测模型的输入数据包括N₁个图像，且向前预测模型的输入数据包括N₂个图像，则预设插帧条件可以包括待插帧位置对应的左视频图像的视频位置不小于N₁，且待插帧位置对应的右视频图像的视频位置不超过N_max-N₂。其中，N_max表示待插帧视频中视频位置最高值。其中，待插帧位置对应的左视频图像的视频位置用于描述待插帧位置对应的左视频图像在该待插帧视频所处位置。待插帧位置对应的右视频图像的视频位置用于描述待插帧位置对应的右视频图像在该待插帧视频所处位置。

待插帧位置对应的左视频图像和该待插帧位置对应的右视频图像是指在待插帧视频中距离该待插帧位置最近的两帧视频图像，且该待插帧位置对应的左视频图像的视频位置小于该待插帧位置对应的右视频图像的视频位置。例如，若待插帧位置为图9中“插帧图像”所***位置，则该待插帧位置对应的左视频图像可以是图9所示的“待插帧位置对应的左视频图像”，且该待插帧位置对应的右视频图像可以是图9所示的“待插帧位置对应的右视频图像”。

此外，本申请实施例不限定待插帧位置的个数，例如，待插帧视频中可以存在至少一个待插帧位置。

待插帧位置对应的向前预测参考图像集用于表示针对***待插帧位置上的插帧图像进行向前预测时所需使用的视频图像；而且待插帧位置对应的向前预测参考图像集中各个图像(如图9中的N₂个向前预测参考图像)的视频位置均不小于该待插帧位置对应的右视频图像的视频位置。

另外，本申请实施例不限定待插帧位置对应的向前预测参考图像集的确定过程，例如，在一种可能的实施方式中，其具体可以包括步骤111-步骤112：

步骤111：从待插帧视频中确定待插帧位置对应的第一图像抽取参考位置。

其中，待插帧位置对应的第一图像抽取参考位置是指该待插帧位置对应的右视频图像在待插帧视频中所处位置。

步骤112：从待插帧视频中待插帧位置对应的第一图像抽取参考位置开始向后抽取第一个数的视频图像，得到待插帧位置对应的向前预测参考图像集。

其中，步骤112中“向后抽取”是指针对待插帧视频中视频位置比较大(尤其是，视频位置大于第一图像抽取参考位置)的视频图像进行抽取。

第一个数可以预先设定；而且可以根据向前预测模型的输入数据中图像个数确定。例如，若向前预测模型的输入数据包括N₂个图像，则该第一个数可以是N₂。

基于上述步骤111至步骤112的相关内容可知，在确定出待插帧位置之后，可以先将该待插帧位置对应的右视频图像(如，待插帧视频中第t₅帧视频图像)在待插帧视频中所处位置，确定为该待插帧位置对应的第一图像抽取参考位置；再从待插帧视频中该第一图像抽取参考位置开始向后抽取第一个数(如N₂)的视频图像，得到待插帧位置对应的向前预测参考图像集(如，包括待插帧视频中第t₅帧视频图像、第t₅+1帧视频图像、第t₅+2帧视频图像、……、以及第t₅+N₂-1帧视频图像的向前预测参考图像集)。

待插帧位置对应的向后预测参考图像集用于表示针对***待插帧位置上的插帧图像进行向后预测时所需使用的视频图像；而且待插帧位置对应的向后预测参考图像集中各个图像如图9中的N₁个向后预测参考图像)的视频位置均不大于该待插帧位置对应的左视频图像的视频位置。

另外，本申请实施例不限定待插帧位置对应的向后预测参考图像集的确定过程，例如，在一种可能的实施方式中，其具体可以包括步骤121-步骤122：

步骤121：从待插帧视频中确定待插帧位置对应的第二图像抽取参考位置。

其中，待插帧位置对应的第二图像抽取参考位置是指该待插帧位置对应的左视频图像在待插帧视频中所处位置。

步骤122：从待插帧视频中待插帧位置对应的第二图像抽取参考位置开始向前抽取第二个数的视频图像，得到待插帧位置对应的向后预测参考图像集。

其中，步骤122中“向前抽取”是指针对待插帧视频中视频位置比较小(尤其是，视频位置小于第二图像抽取参考位置)的视频图像进行抽取。

第二个数可以预先设定；而且可以根据向后预测模型的输入数据中图像个数确定。例如，若向后预测模型的输入数据包括N₁个图像，则该第二个数可以是N₁。

基于上述步骤121至步骤122的相关内容可知，在确定出待插帧位置之后，可以先将该待插帧位置对应的左视频图像(如，待插帧视频中第t₅-1帧视频图像)在待插帧视频中所处位置，确定为该待插帧位置对应的第二图像抽取参考位置；再从待插帧视频中该第二图像抽取参考位置开始向前抽取第一个数(如N₁)的视频图像，得到待插帧位置对应的向后预测参考图像集(如，包括待插帧视频中第t₅-1帧视频图像、第t₅-2帧视频图像、第t₅-3帧视频图像、……、以及第t₅-N₁帧视频图像的向后预测参考图像集)。

基于上述S801的相关内容可知，在获取到待插帧视频之后，可以从该待插帧视频中确定第g个待插帧位置、该第g个待插帧位置对应的向前预测参考图像集和该第g个待插帧位置对应的向后预测参考图像集，以便后续能够基于该第g个待插帧位置对应的向前预测参考图像集以及对应的向后预测参考图像集，确定该第g个待插帧位置的插帧图像。其中，g为正整数，g≤G，G表示待插帧视频中待插帧位置的个数。

S802：将待插帧位置对应的向前预测参考图像集和该待插帧位置对应的向后预测参考图像集输入预先构建的插帧生成模型，得到该插帧生成模型输出的该待插帧位置对应的插帧图像。

其中，插帧生成模型可以利用本申请实施例提供的插帧生成模型构建方法的任一实施方式进行构建。

待插帧位置对应的插帧图像是由插帧生成模型依据该待插帧位置对应的向前预测参考图像集以及对应的向后预测参考图像集预测得到的。

另外，本申请实施例不限定待插帧位置对应的插帧图像的生成过程，例如，若插帧生成模型包括向后预测网络、向前预测网络和图像融合网络，则该待插帧位置对应的插帧图像的生成过程可以包括步骤131-步骤133：

步骤131：将待插帧位置对应的向后预测参考图像集输入向后预测网络，得到该向后预测网络输出的该待插帧位置对应的向后预测图像。

本申请实施例中，在将待插帧位置对应的向后预测参考图像集输入插帧生成模型之后，可以由该插帧生成模型中向后预测网络针对该向后预测参考图像集进行向后预测插帧图像，得到并输出该待插帧位置对应的向后预测图像，以使该向后预测图像能够准确地表示出依据向后预测参考图像集确定出的***该待插帧位置的插帧图像应该携带的变化细节信息。

步骤132：将待插帧位置对应的向前预测参考图像集输入向前预测网络，得到该向前预测网络输出的该待插帧位置对应的向前预测图像。

本申请实施例中，在将待插帧位置对应的向前预测参考图像集输入插帧生成模型之后，可以由该插帧生成模型中向前预测网络针对该向前预测参考图像集进行向前预测插帧图像，得到并输出该待插帧位置对应的向前预测图像，以使该向前预测图像能够准确地表示出依据向前预测参考图像集确定出的***该待插帧位置的插帧图像应该携带的变化细节信息。

步骤133：将待插帧位置对应的向后预测图像和该待插帧位置对应的向前预测图像输入图像融合网络，得到该图像融合网络输出的该待插帧位置对应的插帧图像。

本申请实施例中，在向后预测网络输出待插帧位置对应的向后预测图像，且向前预测网络输出该待插帧位置对应的向前预测图像之后，可以由图像融合网络针对该待插帧位置对应的向后预测图像以及向前预测图像进行图像融合，得到并输出该待插帧位置对应的插帧图像，以使该插帧图像能够更准确地表示出***该待插帧位置的插帧图像应该携带的变化细节信息。

基于上述802的相关内容可知，在获取到第g个待插帧位置对应的向前预测参考图像集以及对应的向后预测参考图像集之后，可以将该第g个待插帧位置对应的向前预测参考图像集以及对应的向后预测参考图像集均输入预先构建的插帧生成模型，以使该插帧生成模型通过借助向前预测、向后预测、以及图像融合等手段，生成并输出该第g个待插帧位置对应的插帧图像，以使该插帧图像能够更准确地表示出***该第g个待插帧位置的插帧图像应该携带的变化细节信息。其中，g为正整数，g≤G，G表示待插帧视频中待插帧位置的个数。

S803：将待插帧位置对应的插帧图像***至待插帧视频中待插帧位置。

本申请实施例中，在获取到第g个待插帧位置对应的插帧图像之后，可以将该第g个待插帧位置对应的插帧图像***至待插帧视频中第g个待插帧位置，得到该待插帧视频对应的插帧后视频，以使该插帧后视频携带的变化细节信息多于该待插帧视频携带的变化细节信息。其中，g为正整数，g≤G，G表示待插帧视频中待插帧位置的个数。

基于上述S801至S803的相关内容可知，在获取到待插帧视频之后，可以先从该待插帧视频中确定待插帧位置、该待插帧位置对应的向前预测参考图像集和该待插帧位置对应的向后预测参考图像集；再将该待插帧位置对应的向前预测参考图像集以及对应的向后预测参考图像集输入预先构建好的插帧生成模型，以使该插帧生成模型根据该待插帧位置对应的向前预测参考图像集以及对应的向后预测参考图像集，预测并输出该待插帧位置对应的插帧图像；最后，将该待插帧位置对应的插帧图像***至待插帧视频中待插帧位置，得到该待插帧视频对应的插帧后视频，以使该插帧后视频携带的变化细节信息多于该待插帧视频携带的变化细节信息。可见，因预先构建的插帧生成模型具有较好的插帧图像预测性能，使得由该插帧生成模型针对待插帧视频预测得到的各个插帧图像均携带有准确的变化细节信息，从而使得该待插帧视频对应的插帧后视频携带有更准确的变化细节信息，如此使得该待插帧视频对应的插帧后视频具有更好的慢速回放效果。

需要说明的是，本申请实施例不限定视频插帧方法的执行主体，例如，本申请实施例提供的视频插帧方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。

基于上述方法实施例提供的插帧生成模型构建方法，本申请实施例还提供了一种插帧生成模型构建装置，下面结合附图进行解释和说明。

装置实施例一

装置实施例对插帧生成模型构建装置进行介绍，相关内容请参见上述方法实施例。

参见图10，该图为本申请实施例提供的一种插帧生成模型构建装置的结构示意图。

本申请实施例提供的插帧生成模型构建装置1000，包括：

第一获取单元1001，用于获取第一样本图像集、所述第一样本图像集对应的实际插帧图像、第二样本图像集、所述第二样本图像集对应的实际插帧图像、第三样本图像集和所述第三样本图像集对应的实际插帧图像；

第一构建单元1002，用于根据所述第一样本图像集和所述第一样本图像集对应的实际插帧图像，构建向后预测模型；

第二构建单元1003，用于根据所述第二样本图像集和所述第二样本图像集对应的实际插帧图像，构建向前预测模型；

第三构建单元1004，用于根据所述第三样本图像集和所述第三样本图像集对应的实际插帧图像，构建图像融合模型；

第四构建单元1005，用于利用所述向后预测模型、所述向前预测模型和所述图像融合模型，构建插帧生成模型。

在一种可能的实施方式中，所述第一获取单元1001，包括：

第一获取子单元，用于获取第一样本视频、第二样本视频和第三样本视频；其中，所述第一样本视频、所述第二样本视频和所述第三样本视频均是由高帧率的视频拍摄设备拍摄的；

第一提取子单元，用于从所述第一样本视频中抽取所述第一样本图像集和所述第一样本图像集对应的实际插帧图像；

第二提取子单元，用于从所述第二样本视频中抽取所述第二样本图像集和所述第二样本图像集对应的实际插帧图像；

第三提取子单元，用于从所述第三样本视频中抽取所述第三样本图像集和所述第三样本图像集对应的实际插帧图像。

在一种可能的实施方式中，所述第一提取子单元，具体用于：按照第一间隔从所述第一样本视频中抽取N₁个第一样本图像，得到所述第一样本图像集，以使所述第一样本图像集包括N₁个第一样本图像；将所述第一样本图像集中N₁个第一样本图像的视频位置的最大值加第一预设值，得到向后标签位置；按照所述向后标签位置从所述第一样本视频中抽取所述第一样本图像集对应的实际插帧图像；其中，N₁为正整数。

在一种可能的实施方式中，所述第二提取子单元，具体用于：按照第二间隔从所述第二样本视频中抽取N₂个第二样本图像，得到所述第二样本图像集，以使所述第二样本图像集包括N₂个第二样本图像；将所述第二样本图像集中N₂个第二样本图像的视频位置的最小值减第二预设值，得到向前标签位置；按照所述向前标签位置从所述第二样本视频中抽取所述第二样本图像集对应的实际插帧图像；其中，N₂为正整数。

在一种可能的实施方式中，所述第三提取子单元，具体用于：按照第三间隔从所述第三样本视频中抽取N₃个第三样本图像；将所述N₃个第三样本图像的视频位置的最大值加第三预设值，得到第一插帧标签位置，并将所述N₃个第三样本图像的视频位置的最大值加第四预设值，得到抽取起始位置；按照所述第一插帧标签位置从所述第三样本视频中抽取所述第三样本图像集对应的实际插帧图像；按照所述抽取起始位置和所述第三间隔从所述第三样本视频中抽取N₄个第三样本图像，以使所述N₄个第三样本图像的视频位置均不小于所述抽取起始位置；将所述N₃个第三样本图像和所述N₄个第三样本图像的集合，确定为所述第三样本图像集；其中，所述第四预设值大于所述第三预设值；N₃为正整数，且N₄为正整数。

在一种可能的实施方式中，所述第三提取子单元，具体用于：按照第四间隔从所述第三样本视频中抽取N₅个第三样本图像；将所述N₅个第三样本图像的视频位置的最小值减第五预设值，得到第二插帧标签位置，并将所述N₅个第三样本图像的视频位置的最小值减第六预设值，得到抽取终止位置；按照所述第二插帧标签位置从所述第三样本视频中抽取所述第三样本图像集对应的实际插帧图像；按照所述抽取终止位置和所述第四间隔从所述第三样本视频中抽取N₆个第三样本图像，以使所述N₆个第三样本图像的视频位置均不大于所述抽取终止位置；将所述N₅个第三样本图像和所述N₆个第三样本图像的集合，确定为所述第三样本图像集；其中，所述第六预设值大于所述第五预设值；N₅为正整数，且N₆为正整数。

在一种可能的实施方式中，所述第一构建单元1002，具体用于：将所述第一样本图像集输入第一模型，得到所述第一模型输出的所述第一样本图像集对应的预测插帧图像；根据所述第一样本图像集对应的预测插帧图像和所述第一样本图像集对应的实际插帧图像，更新所述第一模型，并继续执行所述将所述第一样本图像集输入第一模型的步骤，直至在达到第一停止条件时，根据所述第一模型，确定所述向后预测模型。

在一种可能的实施方式中，所述第二构建单元1002，具体用于：将所述第二样本图像集输入第二模型，得到所述第二模型输出的所述第二样本图像集对应的预测插帧图像；根据所述第二样本图像集对应的预测插帧图像和所述第二样本图像集对应的实际插帧图像，更新所述第二模型，并继续执行所述将所述第二样本图像集输入第二模型的步骤，直至在达到第二停止条件时，根据所述第二模型，确定所述向前预测模型。

在一种可能的实施方式中，所述第一模型包括第一特征生成层、第一特征分离层、第一像素权重确定层、第一图像加权层和向后特征预测层；而且，所述第一样本图像集对应的预测插帧图像的生成过程，包括：将所述第一样本图像集输入所述第一特征生成层，得到所述第一特征生成层输出的所述第一样本图像集对应的第一待分离特征；将所述第一样本图像集对应的第一待分离特征输入所述第一特征分离层，得到所述第一特征分离层输出的所述第一样本图像集对应的第一非运动特征和所述第一样本图像集对应的第一运动特征；将所述第一样本图像集对应的第一运动特征输入所述第一像素权重确定层，得到所述第一像素权重确定层输出的所述第一样本图像集对应的像素级权重；将所述第一样本图像集对应的像素级权重和所述第一样本图像集输入所述第一图像加权层，得到所述第一图像加权层输出的所述第一样本图像集对应的加权图像集；将所述第一样本图像集对应的加权图像集输入所述第一特征生成层，得到所述第一特征生成层输出的所述第一样本图像集对应的第二待分离特征；将所述第一样本图像集对应的第二待分离特征输入所述第一特征分离层，得到所述第一特征分离层输出的所述第一样本图像集对应的第二非运动特征和所述第一样本图像集对应的第二运动特征；将所述第一样本图像集对应的第二非运动特征和所述第一样本图像集对应的第二运动特征输入所述向后特征预测层，得到所述向后特征预测层输出的所述第一样本图像集对应的预测插帧图像。

在一种可能的实施方式中，所述第一像素权重确定层包括第一依赖衰减系数确定子层和第一依赖权重生成子层，且所述第一样本图像集对应的像素级权重的生成过程包括：将所述第一样本图像集对应的第一运动特征输入所述第一依赖衰减系数确定子层，得到所述第一依赖衰减系数确定子层输出的所述第一样本图像集对应的像素级依赖衰减系数；将所述第一样本图像集对应的像素级依赖衰减系数输入所述第一依赖权重生成子层，得到所述第一依赖权重生成子层输出的所述第一样本图像集对应的像素级权重。

在一种可能的实施方式中，所述第一特征生成层包括第一特征提取子层和第一注意力子层，且所述第一样本图像集对应的第一待分离特征的生成过程，包括：将所述第一样本图像集输入所述第一特征提取子层，得到所述第一特征提取子层输出的所述第一样本图像集对应的第一提取特征；将所述第一样本图像集对应的第一提取特征输入所述第一注意力子层，得到所述第一注意力子层输出的所述第一样本图像集对应的第一待分离特征。

在一种可能的实施方式中，所述向后特征预测层包括第一运动特征预测子层和第一特征融合子层，且所述第一样本图像集对应的预测插帧图像的生成过程，包括：将所述第一样本图像集对应的第二运动特征输入所述第一运动特征预测子层，得到所述第一运动特征预测子层输出的所述第一样本图像集对应的预测运动特征；将所述第一样本图像集对应的第二非运动特征和所述第一样本图像集对应的预测运动特征输入所述第一特征融合子层，得到所述第一特征融合子层输出的所述第一样本图像集对应的预测插帧图像。

在一种可能的实施方式中，所述第二模型包括第二特征生成层、第二特征分离层、第二像素权重确定层、第二图像加权层和向前特征预测层；而且，所述第二样本图像集对应的预测插帧图像的生成过程，包括：将所述第二样本图像集输入所述第二特征生成层，得到所述第二特征生成层输出的所述第二样本图像集对应的第一待分离特征；将所述第二样本图像集对应的第一待分离特征输入所述第二特征分离层，得到所述第二特征分离层输出的所述第二样本图像集对应的第一非运动特征和所述第二样本图像集对应的第一运动特征；将所述第二样本图像集对应的第一运动特征输入所述第二像素权重确定层，得到所述第二像素权重确定层输出的所述第二样本图像集对应的像素级权重；将所述第二样本图像集对应的像素级权重和所述第二样本图像集输入所述第二图像加权层，得到所述第二图像加权层输出的所述第二样本图像集对应的加权图像集；将所述第二样本图像集对应的加权图像集输入所述第二特征生成层，得到所述第二特征生成层输出的所述第二样本图像集对应的第二待分离特征；将所述第二样本图像集对应的第二待分离特征输入所述第二特征分离层，得到所述第二特征分离层输出的所述第二样本图像集对应的第二非运动特征和所述第二样本图像集对应的第二运动特征；将所述第二样本图像集对应的第二非运动特征和所述第二样本图像集对应的第二运动特征输入所述向前特征预测层，得到所述向前特征预测层输出的所述第二样本图像集对应的预测插帧图像。

在一种可能的实施方式中，所述第二像素权重确定层包括第二依赖衰减系数确定子层和第二依赖权重生成子层，且所述第二样本图像集对应的像素级权重的生成过程包括：将所述第二样本图像集对应的第一运动特征输入所述第二依赖衰减系数确定子层，得到所述第二依赖衰减系数确定子层输出的所述第二样本图像集对应的像素级依赖衰减系数；将所述第二样本图像集对应的像素级依赖衰减系数输入所述第二依赖权重生成子层，得到所述第二依赖权重生成子层输出的所述第二样本图像集对应的像素级权重。

在一种可能的实施方式中，所述第二特征生成层包括第二特征提取子层和第二注意力子层，且所述第二样本图像集对应的第一待分离特征的生成过程，包括：将所述第二样本图像集输入所述第二特征提取子层，得到所述第二特征提取子层输出的所述第二样本图像集对应的第一提取特征；将所述第二样本图像集对应的第二提取特征输入所述第二注意力子层，得到所述第二注意力子层输出的所述第二样本图像集对应的第一待分离特征。

在一种可能的实施方式中，所述向前特征预测层包括第二运动特征预测子层和第二特征融合子层，且所述第二样本图像集对应的预测插帧图像的生成过程，包括：将所述第二样本图像集对应的第二运动特征输入所述第二运动特征预测子层，得到所述第二运动特征预测子层输出的所述第二样本图像集对应的预测运动特征；将所述第二样本图像集对应的第二非运动特征和所述第二样本图像集对应的预测运动特征输入所述第二特征融合子层，得到所述第二特征融合子层输出的所述第二样本图像集对应的预测插帧图像。

在一种可能的实施方式中，所述第三构建单元1004，具体用于：获取所述第三样本图像集对应的向前插帧图像和所述第三样本图像集对应的向后插帧图像；将所述第三样本图像集对应的向前插帧图像和所述第三样本图像集对应的向后插帧图像输入第三模型，得到所述第三模型输出的所述第三样本图像集对应的预测插帧图像；根据所述第三样本图像集对应的预测插帧图像和所述第三样本图像集对应的实际插帧图像，更新所述第三模型，并继续执行所述将所述第三样本图像集对应的向前插帧图像和所述第三样本图像集对应的向后插帧图像输入第三模型的步骤，直至在达到第三停止条件时，根据所述第三模型，确定所述图像融合模型。

在一种可能的实施方式中，若所述第三样本图像集包括至少一个向后预测参考图像，则所述第三样本图像集对应的向后插帧图像是利用所述至少一个向后预测参考图像和所述向后预测模型确定的。

在一种可能的实施方式中，若所述第三样本图像集包括至少一个向前预测参考图像，则所述第三样本图像集对应的向前插帧图像是利用所述至少一个向前预测参考图像和所述向前预测模型确定的。

在一种可能的实施方式中，所述插帧生成模型包括向后预测网络、向前预测网络和图像融合网络，且所述图像融合网络的输入数据包括所述向后预测网络的输出数据和所述向前预测网络的输出数据；而且，所述第四构建单元1005，具体用于：根据所述向后预测模型，生成所述向后预测网络；根据所述向前预测模型，生成所述向前预测网络；根据所述图像融合模型，生成所述图像融合网络。

基于上述方法实施例提供的视频插帧方法，本申请实施例还提供了一种视频插帧装置，下面结合附图进行解释和说明。

装置实施例二

装置实施例对视频插帧装置进行介绍，相关内容请参见上述方法实施例。

参见图11，该图为本申请实施例提供的一种视频插帧装置的结构示意图。

本申请实施例提供的视频插帧装置1100，包括：

第二获取单元1101，用于从待插帧视频中确定待插帧位置、所述待插帧位置对应的向前预测参考图像集和所述待插帧位置对应的向后预测参考图像集；

插帧预测单元1102，用于将所述待插帧位置对应的向前预测参考图像集和所述待插帧位置对应的向后预测参考图像集输入预先构建的插帧生成模型，得到所述插帧生成模型输出的所述待插帧位置对应的插帧图像；其中，所述插帧生成模型是利用权利要求1-14任一项所述的插帧生成模型构建方法构建的；

视频插帧单元1103，用于将所述待插帧位置对应的插帧图像***至所述待插帧视频中所述待插帧位置。

在一种可能的实施方式中，所述待插帧位置对应的向前预测参考图像集的确定过程，包括：从待插帧视频中确定所述待插帧位置对应的第一图像抽取参考位置；从所述待插帧视频中所述待插帧位置对应的第一图像抽取参考位置开始向后抽取第一个数的视频图像，得到所述待插帧位置对应的向前预测参考图像集。

在一种可能的实施方式中，所述待插帧位置对应的向后预测参考图像集的确定过程，包括：从待插帧视频中确定所述待插帧位置对应的第二图像抽取参考位置；从所述待插帧视频中所述待插帧位置对应的第二图像抽取参考位置开始向前抽取第二个数的视频图像，得到所述待插帧位置对应的向后预测参考图像集。

进一步地，本申请实施例还提供了一种设备，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述插帧生成模型构建方法的任一种实现方法，或者执行上述视频插帧方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述插帧生成模型构建方法的任一种实现方法，或者执行上述视频插帧方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述插帧生成模型构建方法的任一种实现方法，或者执行上述视频插帧方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个向后”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种插帧生成模型构建方法，其特征在于，所述方法包括：

获取第一样本图像集、所述第一样本图像集对应的实际插帧图像、第二样本图像集、所述第二样本图像集对应的实际插帧图像、第三样本图像集和所述第三样本图像集对应的实际插帧图像；

根据所述第一样本图像集和所述第一样本图像集对应的实际插帧图像，构建向后预测模型；

根据所述第二样本图像集和所述第二样本图像集对应的实际插帧图像，构建向前预测模型；

根据所述第三样本图像集和所述第三样本图像集对应的实际插帧图像，构建图像融合模型；

利用所述向后预测模型、所述向前预测模型和所述图像融合模型，构建插帧生成模型。

2.根据权利要求1所述的方法，其特征在于，所述获取第一样本图像集、所述第一样本图像集对应的实际插帧图像、第二样本图像集、所述第二样本图像集对应的实际插帧图像、第三样本图像集和所述第三样本图像集对应的实际插帧图像，包括：

获取第一样本视频、第二样本视频和第三样本视频；

从所述第一样本视频中抽取所述第一样本图像集和所述第一样本图像集对应的实际插帧图像；

从所述第二样本视频中抽取所述第二样本图像集和所述第二样本图像集对应的实际插帧图像；

从所述第三样本视频中抽取所述第三样本图像集和所述第三样本图像集对应的实际插帧图像。

3.根据权利要求2所述的方法，其特征在于，所述从所述第一样本视频中抽取所述第一样本图像集和所述第一样本图像集对应的实际插帧图像，包括：

按照第一间隔从所述第一样本视频中抽取N₁个第一样本图像，得到所述第一样本图像集；将所述第一样本图像集中N₁个第一样本图像的视频位置的最大值加第一预设值，得到向后标签位置；按照所述向后标签位置从所述第一样本视频中抽取所述第一样本图像集对应的实际插帧图像；其中，N₁为正整数；

和/或，

所述从所述第二样本视频中抽取所述第二样本图像集和所述第二样本图像集对应的实际插帧图像，包括：

按照第二间隔从所述第二样本视频中抽取N₂个第二样本图像，得到所述第二样本图像集；将所述第二样本图像集中N₂个第二样本图像的视频位置的最小值减第二预设值，得到向前标签位置；按照所述向前标签位置从所述第二样本视频中抽取所述第二样本图像集对应的实际插帧图像；其中，N₂为正整数。

4.根据权利要求2或3所述的方法，其特征在于，所述从所述第三样本视频中抽取所述第三样本图像集和所述第三样本图像集对应的实际插帧图像，包括：

按照第三间隔从所述第三样本视频中抽取N₃个第三样本图像；将所述N₃个第三样本图像的视频位置的最大值加第三预设值，得到第一插帧标签位置，并将所述N₃个第三样本图像的视频位置的最大值加第四预设值，得到抽取起始位置；按照所述第一插帧标签位置从所述第三样本视频中抽取所述第三样本图像集对应的实际插帧图像；按照所述抽取起始位置和所述第三间隔从所述第三样本视频中抽取N₄个第三样本图像，以使所述N₄个第三样本图像的视频位置均不小于所述抽取起始位置；将所述N₃个第三样本图像和所述N₄个第三样本图像的集合，确定为所述第三样本图像集；其中，所述第四预设值大于所述第三预设值；N₃为正整数，且N₄为正整数；

或者，

所述从所述第三样本视频中抽取所述第三样本图像集和所述第三样本图像集对应的实际插帧图像，包括：

按照第四间隔从所述第三样本视频中抽取N₅个第三样本图像；将所述N₅个第三样本图像的视频位置的最小值减第五预设值，得到第二插帧标签位置，并将所述N₅个第三样本图像的视频位置的最小值减第六预设值，得到抽取终止位置；按照所述第二插帧标签位置从所述第三样本视频中抽取所述第三样本图像集对应的实际插帧图像；按照所述抽取终止位置和所述第四间隔从所述第三样本视频中抽取N₆个第三样本图像，以使所述N₆个第三样本图像的视频位置均不大于所述抽取终止位置；将所述N₅个第三样本图像和所述N₆个第三样本图像的集合，确定为所述第三样本图像集；其中，所述第六预设值大于所述第五预设值；N₅为正整数，且N₆为正整数。

5.根据权利要求1所述的方法，其特征在于，所述向后预测模型的构建过程，包括：

将所述第一样本图像集输入第一模型，得到所述第一模型输出的所述第一样本图像集对应的预测插帧图像；根据所述第一样本图像集对应的预测插帧图像和所述第一样本图像集对应的实际插帧图像，更新所述第一模型，并继续执行所述将所述第一样本图像集输入第一模型的步骤，直至在达到第一停止条件时，根据所述第一模型，确定所述向后预测模型；

和/或，

所述向前预测模型的构建过程，包括：

将所述第二样本图像集输入第二模型，得到所述第二模型输出的所述第二样本图像集对应的预测插帧图像；根据所述第二样本图像集对应的预测插帧图像和所述第二样本图像集对应的实际插帧图像，更新所述第二模型，并继续执行所述将所述第二样本图像集输入第二模型的步骤，直至在达到第二停止条件时，根据所述第二模型，确定所述向前预测模型。

6.根据权利要求5所述的方法，其特征在于，所述第一模型包括第一特征生成层、第一特征分离层、第一像素权重确定层、第一图像加权层和向后特征预测层；

所述第一样本图像集对应的预测插帧图像的生成过程，包括：

将所述第一样本图像集输入所述第一特征生成层，得到所述第一特征生成层输出的所述第一样本图像集对应的第一待分离特征；

将所述第一样本图像集对应的第一待分离特征输入所述第一特征分离层，得到所述第一特征分离层输出的所述第一样本图像集对应的第一非运动特征和所述第一样本图像集对应的第一运动特征；

将所述第一样本图像集对应的第一运动特征输入所述第一像素权重确定层，得到所述第一像素权重确定层输出的所述第一样本图像集对应的像素级权重；

将所述第一样本图像集对应的像素级权重和所述第一样本图像集输入所述第一图像加权层，得到所述第一图像加权层输出的所述第一样本图像集对应的加权图像集；

将所述第一样本图像集对应的加权图像集输入所述第一特征生成层，得到所述第一特征生成层输出的所述第一样本图像集对应的第二待分离特征；

将所述第一样本图像集对应的第二待分离特征输入所述第一特征分离层，得到所述第一特征分离层输出的所述第一样本图像集对应的第二非运动特征和所述第一样本图像集对应的第二运动特征；

将所述第一样本图像集对应的第二非运动特征和所述第一样本图像集对应的第二运动特征输入所述向后特征预测层，得到所述向后特征预测层输出的所述第一样本图像集对应的预测插帧图像。

7.根据权利要求6所述的方法，其特征在于，所述第一像素权重确定层包括第一依赖衰减系数确定子层和第一依赖权重生成子层，且所述第一样本图像集对应的像素级权重的生成过程包括：

将所述第一样本图像集对应的第一运动特征输入所述第一依赖衰减系数确定子层，得到所述第一依赖衰减系数确定子层输出的所述第一样本图像集对应的像素级依赖衰减系数；

将所述第一样本图像集对应的像素级依赖衰减系数输入所述第一依赖权重生成子层，得到所述第一依赖权重生成子层输出的所述第一样本图像集对应的像素级权重。

8.根据权利要求6所述的方法，其特征在于，所述第一特征生成层包括第一特征提取子层和第一注意力子层，且所述第一样本图像集对应的第一待分离特征的生成过程，包括：

将所述第一样本图像集输入所述第一特征提取子层，得到所述第一特征提取子层输出的所述第一样本图像集对应的第一提取特征；将所述第一样本图像集对应的第一提取特征输入所述第一注意力子层，得到所述第一注意力子层输出的所述第一样本图像集对应的第一待分离特征；

和/或，

所述向后特征预测层包括第一运动特征预测子层和第一特征融合子层，且所述第一样本图像集对应的预测插帧图像的生成过程，包括：

将所述第一样本图像集对应的第二运动特征输入所述第一运动特征预测子层，得到所述第一运动特征预测子层输出的所述第一样本图像集对应的预测运动特征；

将所述第一样本图像集对应的第二非运动特征和所述第一样本图像集对应的预测运动特征输入所述第一特征融合子层，得到所述第一特征融合子层输出的所述第一样本图像集对应的预测插帧图像。

9.根据权利要求5所述的方法，其特征在于，所述第二模型包括第二特征生成层、第二特征分离层、第二像素权重确定层、第二图像加权层和向前特征预测层；

所述第二样本图像集对应的预测插帧图像的生成过程，包括：

将所述第二样本图像集输入所述第二特征生成层，得到所述第二特征生成层输出的所述第二样本图像集对应的第一待分离特征；

将所述第二样本图像集对应的第一待分离特征输入所述第二特征分离层，得到所述第二特征分离层输出的所述第二样本图像集对应的第一非运动特征和所述第二样本图像集对应的第一运动特征；

将所述第二样本图像集对应的第一运动特征输入所述第二像素权重确定层，得到所述第二像素权重确定层输出的所述第二样本图像集对应的像素级权重；

将所述第二样本图像集对应的像素级权重和所述第二样本图像集输入所述第二图像加权层，得到所述第二图像加权层输出的所述第二样本图像集对应的加权图像集；

将所述第二样本图像集对应的加权图像集输入所述第二特征生成层，得到所述第二特征生成层输出的所述第二样本图像集对应的第二待分离特征；

将所述第二样本图像集对应的第二待分离特征输入所述第二特征分离层，得到所述第二特征分离层输出的所述第二样本图像集对应的第二非运动特征和所述第二样本图像集对应的第二运动特征；

将所述第二样本图像集对应的第二非运动特征和所述第二样本图像集对应的第二运动特征输入所述向前特征预测层，得到所述向前特征预测层输出的所述第二样本图像集对应的预测插帧图像。

10.根据权利要求9所述的方法，其特征在于，所述第二像素权重确定层包括第二依赖衰减系数确定子层和第二依赖权重生成子层，且所述第二样本图像集对应的像素级权重的生成过程包括：

将所述第二样本图像集对应的第一运动特征输入所述第二依赖衰减系数确定子层，得到所述第二依赖衰减系数确定子层输出的所述第二样本图像集对应的像素级依赖衰减系数；

将所述第二样本图像集对应的像素级依赖衰减系数输入所述第二依赖权重生成子层，得到所述第二依赖权重生成子层输出的所述第二样本图像集对应的像素级权重。

11.根据权利要求1所述的方法，其特征在于，所述图像融合模型的构建过程，包括：

获取所述第三样本图像集对应的向前插帧图像和所述第三样本图像集对应的向后插帧图像；

将所述第三样本图像集对应的向前插帧图像和所述第三样本图像集对应的向后插帧图像输入第三模型，得到所述第三模型输出的所述第三样本图像集对应的预测插帧图像；

根据所述第三样本图像集对应的预测插帧图像和所述第三样本图像集对应的实际插帧图像，更新所述第三模型，并继续执行所述将所述第三样本图像集对应的向前插帧图像和所述第三样本图像集对应的向后插帧图像输入第三模型的步骤，直至在达到第三停止条件时，根据所述第三模型，确定所述图像融合模型。

12.根据权利要求1所述的方法，其特征在于，所述插帧生成模型包括向后预测网络、向前预测网络和图像融合网络，且所述图像融合网络的输入数据包括所述向后预测网络的输出数据和所述向前预测网络的输出数据；

所述插帧生成模型的构建过程，包括：

根据所述向后预测模型，生成所述向后预测网络；根据所述向前预测模型，生成所述向前预测网络；根据所述图像融合模型，生成所述图像融合网络。

13.一种视频插帧方法，其特征在于，所述方法包括：

从待插帧视频中确定待插帧位置、所述待插帧位置对应的向前预测参考图像集和所述待插帧位置对应的向后预测参考图像集；

将所述待插帧位置对应的向前预测参考图像集和所述待插帧位置对应的向后预测参考图像集输入预先构建的插帧生成模型，得到所述插帧生成模型输出的所述待插帧位置对应的插帧图像；其中，所述插帧生成模型是利用权利要求1-12任一项所述的插帧生成模型构建方法构建的；

将所述待插帧位置对应的插帧图像***至所述待插帧视频中所述待插帧位置。

14.根据权利要求13所述的方法，其特征在于，所述待插帧位置对应的向前预测参考图像集的确定过程，包括：

从待插帧视频中确定所述待插帧位置对应的第一图像抽取参考位置；从所述待插帧视频中所述待插帧位置对应的第一图像抽取参考位置开始向后抽取第一个数的视频图像，得到所述待插帧位置对应的向前预测参考图像集；

和/或，

所述待插帧位置对应的向后预测参考图像集的确定过程，包括：

从待插帧视频中确定所述待插帧位置对应的第二图像抽取参考位置；从所述待插帧视频中所述待插帧位置对应的第二图像抽取参考位置开始向前抽取第二个数的视频图像，得到所述待插帧位置对应的向后预测参考图像集。

15.一种设备，其特征在于，所述设备包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1至12任一项所述的插帧生成模型构建方法，或者执行权利要求13至14任一项所述的视频插帧方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1至12任一项所述的插帧生成模型构建方法，或者执行权利要求13至14任一项所述的视频插帧方法。

17.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1至12任一项所述的插帧生成模型构建方法，或者执行权利要求13至14任一项所述的视频插帧方法。