CN114339409B

CN114339409B - 视频处理方法、装置、计算机设备及存储介质

Info

Publication number: CN114339409B
Application number: CN202111500576.0A
Authority: CN
Inventors: 姜博源; 孔令通; 罗栋豪; 邰颖; 汪铖杰; 黄小明; 李季檩; 黄飞跃; 吴永坚
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2023-06-20
Anticipated expiration: 2041-12-09
Also published as: US20230401672A1; CN114339409A; WO2023103576A1

Abstract

本申请公开了一种视频处理方法，该方法包括获取目标视频中的第一视频帧和第二视频帧，第一视频帧是第二视频帧的前一帧；将第一视频帧和第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧，目标神经网络为基于光流蒸馏约束和特征一致性约束训练得到；将目标中间视频帧***第一视频帧和第二视频帧之间。以此，通过将相邻的两个视频帧输入基于光流蒸馏约束和特征一致性约束训练得到的预先训练的目标神经网络，输出目标中间视频帧以进行插帧操作，使得网络能够快速地输出更加准确的目标中间视频帧，本申请实施例应用人工智能技术有效地提升了视频插帧的效率和准确率，增强视频处理的显示效果。

Description

视频处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，更具体地，涉及一种视频处理方法、装置、计算机设备及存储介质。

背景技术

随着计算机视觉技术的迅速发展，人们对于视频帧率的要求越来越高，高帧率的视频能极大地提升用户的观看体验。人们为了观看到流畅度/清晰度更高的视频，将现有相机拍摄的视频帧率也从25FPS提升到60FPS，再到240FPS甚至更高，但仅靠相机的硬件迭代来提升帧率，成本较大，因此视频插帧技术应运而生。

视频插帧的目的是根据低帧率视频来生成高帧率视频，视频插帧的一般操作是给定相邻的两个视频帧的图像生成中间帧的图像。目前，大多视频插帧的方法采用对物体运动进行建模以估算出中间帧的光流。考虑到真实场景中物体的运动过程较为复杂，现有方法通常集联一个修正网络对估算出的中间帧的光流进行修正，然而这种集联的方式会明显的增加网络的推理耗时，不利于视频插帧算法的实际部署。

发明内容

鉴于上述问题，本申请提出了一种视频处理方法、装置、计算机设备及存储介质。

第一方面，本申请一些实施例提供一种视频处理方法，该方法包括：获取目标视频中的第一视频帧和第二视频帧，所述第一视频帧是所述第二视频帧的前一帧；将所述第一视频帧和所述第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧，所述目标神经网络为基于光流蒸馏约束和特征一致性约束训练得到；将所述目标中间视频帧***所述第一视频帧和所述第二视频帧之间。

第二方面，本申请一些实施例还提供一种视频处理装置，该装置包括：获取模块，用于获取目标视频中的第一视频帧和第二视频帧，所述第一视频帧是所述第二视频帧的前一帧；输出模块，用于将所述第一视频帧和所述第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧，所述目标神经网络为基于光流蒸馏约束和特征一致性约束训练得到；插帧模块，用于将所述目标中间视频帧***所述第一视频帧和所述第二视频帧之间。

第三方面，本申请一些实施例还提供一种计算机设备，包括处理器以及存储器，存储器存储有计算机程序指令，计算机程序指令被处理器调用时执行上述第一方面提供的视频处理方法。

第四方面，本申请一些实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有程序代码，其中，在所述程序代码被处理器运行时执行上述第一方面提供的视频处理方法。

第五方面，本申请一些实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机执行上述视频处理方法中的步骤。

本申请提供的一种视频处理方法，可以获取目标视频中的第一视频帧和第二视频帧，该第一视频帧是该第二视频帧的前一帧，并将第一视频帧和第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧，由于该目标神经网络为基于光流蒸馏约束和特征一致性约束训练得到，因此通过光流蒸馏约束将预训练好的光流网络的知识迁移到目标神经网络的学习中，从而去除对外部光流网络的依赖，并且通过特征一致性约束使得网络能够学习到更多的中间帧信息，进而，将目标中间视频帧***第一视频帧和第二视频帧之间，由此大大提升视频插帧的速度，增强视频插帧的显示效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种视频处理方法的流程示意图。

图2示出了本申请实施例提供的另一种视频处理方法的流程示意图。

图3示出了本申请实施例提供的一种视频处理方法的网络架构图。

图4示出了图2中生成第一目标特征和第二目标特征的步骤的一种流程示意图。

图5示出了图2中生成第一目标光流和第二目标光流的步骤的一种流程示意图。

图6示出了图2中生成第一候选视频帧和第二候选视频帧的步骤的一种流程示意图。

图7示出了本申请实施例提供的又一种视频处理方法的流程示意图。

图8示出了图7中计算出第一损失值的步骤的一种流程示意图。

图9示出了图7中计算出第二损失值的步骤的一种流程示意图。

图10示出了本申请实施例提供的一种插帧方法速度-效果对比图。

图11示出了本申请实施例提供的一种视频插帧的可视化效果图。

图12示出了本申请实施例提供的一种视频插帧的测试结果图。

图13示出了本申请实施例提供的一种视频处理装置的模块框图。

图14是本申请实施例提供的一种计算机设备的模块框图。

图15是本申请实施例提供的一种计算机可读存储介质的模块框图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

终端服务商为了提升用户观看视频的体验，通常会利用视频插帧技术对视频进行优化使得视频画面的流畅度会有比较明显的改善。其中，视频插帧算法可以根据中间帧（中间视频帧）合成方式的不同大致分为三类：基于光流的方法，基于核的方法，基于图像生成的方法。

基于核的方法通过在每个输出像素附近的局部块上进行卷积来生成图像，对每个输出像素周围的局部块进行卷积操作来合成中间帧。然而，它不能处理超出内核大小的大运动（Large Motion），且通常计算成本较高。而基于图像生成的方法可生成较为细致的纹理结构，但如果视频中存在运动较大的物体，则会出现重影等问题，影响插帧后的视频观感。

受深度学***面上的像素运动的瞬时速度）的方法。例如，Depth-AwareVideo Frame Interpolation（DAIN）算法，该算法包含一个光流估计模块，深度估计模块，特征提取模块，插值核估计模块，将输入的前后帧图像分别通过这四个模块获取对应的光流图、深度图、特征图和插值核，然后利用光流和局部插值核对输入帧、深度图和上下文特征进行扭曲，送入目标帧合成网络合成输出帧。

DAIN算法通过估计相邻两帧的光流，并利用线性假设估算中间帧相对前帧的光流，该算法只适用于物体的运动为匀速运动，否则通过线性假设估计的中间帧光流就会跟实际偏差较大。针对这个问题，Quadratic Video Interpolation（QVI）算法提出通过利用前后三帧估算物体的加速度，然后利用匀加速运动假设估算中间帧的光流。

由于在真实场景下物体的运动是非常复杂的，仅依靠基于匀速运动或者更加复杂的匀加速运动进行单一模式的运动建模无法覆盖到所有的情况。为此，现有方法通常集联一个修正网络对估计的中间帧的光流进行修正。然而这种集联的方式会明显的增加神经网络的时间复杂度和空间复杂度，进而延长推理耗时，不利于插帧算法在实际的应用场景中进行部署。

针对上述问题，发明人提出了本申请实施例提供的视频处理方法，该方法可以获取目标视频中的第一视频帧和第二视频帧，并将第一视频帧和第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧，该目标神经网络为基于光流蒸馏约束和特征一致性约束训练得到，进一步地，将所述目标中间视频帧***所述第一视频帧和所述第二视频帧之间。由此通过将相邻的两个视频帧输入基于光流蒸馏约束和特征一致性约束训练得到的预先训练的目标神经网络，进而输出目标中间视频帧进行插帧操作，使得能够快速地输出更加准确的目标中间视频帧。其中，具体的视频处理方法在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一个实施例提供的视频处理方法的流程示意图。在具体的实施例中，所述视频处理方法应用于如图13所示的视频处理装置400以及配置有所述视频处理装置400的计算机设备500（图14）。下面将以计算机设备为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的计算机设备可以为服务器或者终端等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、区块链以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。下面将针对图1所示的流程进行详细的阐述，所述视频处理方法具体可以包括以下步骤：

步骤S110：获取目标视频中的第一视频帧和第二视频帧。

在本申请实施例中，电子设备可以获取需要对视频进行插帧的目标视频。其中，目标视频可以为一个个连续的视频帧所组成的视频帧序列，可以理解的是，每一个视频帧即为一个帧图像。第一视频帧和第二视频帧属于该视频帧序列，需要说明的是，第一视频帧为第二视频帧的前一帧。

作为一种实施方式，计算机设备可以通过网络下载上述目标视频，进而从该目标视频的视频帧序列中获取第一视频帧和第二视频帧。具体地，终端设备可以通过应用程序接口（Application Programming Interface，API）从服务器调取目标视频。其中，该服务器可以是针对不同应用场景，进行存储或者生成视频帧的特定服务器。终端设备可以包括智能手机、平板等具有存储和运算功能的计算机设备。

例如，在直播观看的场景中，客户端通过API从直播平台的媒体资源服务器实时在线地获取直播视频，进而从该直播视频的视频帧序列获取相邻的两个视频帧作为第一视频帧和第二视频帧。在使用虚拟数字人进行智能化妆的应用场景中，智能手机可以通过智能化妆应用软件提供的API获取服务器生成的数字人帧视频，进而可以对该数字人帧视频进行插帧操作。

作为另一种实施方式，计算机设备可以从本地获取目标视频，也即可以从本地存储的文件中离线地获取目标视频。例如，计算机设备为笔记本电脑时，可以从硬盘获取目标视频，即笔记本电脑预先将视频存储在本地文件夹，或者预先从网络下载视频后存储在本地文件夹等，然后在需要对该视频进行插帧时，从文件夹中读取该视频，进而从该本地视频的视频帧序列获取相邻的两个视频帧作为第一视频帧和第二视频帧。

步骤S120：将第一视频帧和第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧。

计算机设备在获取到目标视频中的第一视频帧和第二视频帧时，可以将第一视频帧和第二视频帧输入至预先训练的目标神经网络，以便生成目标中间视频帧。其中，目标中间视频帧指的是在两个连续的视频帧：第一视频帧

和第二视频帧/>

中***的新的视频帧/>

。

在本申请实施例中，目标神经网络为基于光流蒸馏约束和特征一致性约束训练得到。光流蒸馏约束实质为在目标神经网络训练过程中，于网络生成的中间视频帧的光流与真实样本中间帧（Ground Truth）的光流之间建立的约束。特征一致性约束实质为在目标神经网络训练过程中，于网络生成的中间视频帧的特征与真实样本中间帧的特征之间建立的约束。通过基于光流蒸馏约束和特征一致性约束训练目标神经网络的过程可以去除对外部光流网络的依赖，从而提高网络生成目标中间视频的效率，同时网络能够学习到更多的中间帧的信息，从而提高视频插帧后的可视化效果。其中，目标神经网络可以由编码器和解码器组成。

在一些实施例中，计算机设备获取目标视频的第一视频帧

和第二视频帧

后，可以将第一视频帧/>

和第二视频帧/>

输入目标神经网络的解码器中，由解码器进行视频帧的图像的特征提取，分别得到第一视频帧/>

和第二视频帧/>

对应的视频帧的图像的特征。进一步地，将对应的视频帧的图像的特征输入解码器中，以便预测出待***的新的视频帧/>

分别到第一视频帧/>

和第二视频帧/>

的两个光流。进一步地，根据上述两个光流生成目标中间视频帧。

步骤S130：将目标中间视频帧***第一视频帧和第二视频帧之间。

作为一种实施方式，计算机设备通过目标神经网络生成目标中间视频帧后，可以将获取的目标中间视频帧

***第一视频帧/>

和第二视频帧/>

之间。可选地，在实际的视频插帧场景中，计算机设备可以从目标视频中选择多对相邻的两个视频帧，并在该两个相邻的视频帧之间***中间视频帧，从而增强目标视频的流畅度和清晰度。

例如，为了避免电脑播放的一段动画出现跳帧的感觉，可以对该动画的视频帧序列{

_,/>

_,/>

_,/>

_,/>

}进行视频插帧操作，n可以为该段动画的视频帧的时间序列。电脑可以在该动画的视频帧时间序列的两两相邻的视频帧{/>

}，{/>

}，{

}，/>

，{/>

}之间分别***对应的目标中间视频帧{/>

}。

本申请实施例中，计算机设备可以获取目标视频中的第一视频帧和第二视频帧，并将第一视频帧和第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧，该目标神经网络为基于光流蒸馏约束和特征一致性约束训练得到，进一步地，将所述目标中间视频帧***所述第一视频帧和所述第二视频帧之间。由此通过光流蒸馏约束将预训练好的光流网络的知识迁移到目标神经网络的学习中从而去除对外部光流网络的依赖，并且通过特征一致性约束使得网络能够学习到更多的中间帧信息，从而提高生成中间帧到相邻帧的光流的效率。

请参阅图2，图2示出了本申请实施例提供的另一种视频处理方法，在具体的实施例中，该视频处理方法运用到如图3所示的目标神经网络。下面针对图3所示的目标神经网络的网络架构图进行详细描述。

本申请实施例结合人工智能(Artificial Intelligence, AI)技术，人工智能技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的计算机视觉技术(Computer Vision,CV)等技术，具体通过如下实施例进行说明：

计算机视觉技术计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

作为一种实施方式，目标神经网络可以包括编码器和解码器，优选地，编码器可以采用金字塔特征编码器（Pyramid Encoder），解码器可以采用精细化解码器（Coarse-to-Fine Decoder）。

可选地，编码器可以由4个卷积块构成，每个卷积块包括两个卷积核大小为3

3，步长分别为2和1的卷积层，其中，4个卷积块的卷积层的通道数分别为32，48，72，96。解码器也由4个卷积块构成，每个卷积块包含两个卷积核分别为3/>

3和4/>

4的卷积，步长分比为1和1/2的卷积层。每个卷积块的通道数和它对应层级的编码器的卷积块的通道数一致。例如，编码器第一层级的卷积块/>

的通道数与解码器第一层级的卷积块/>

的通道数对应相同。需要说明的是，编码器与解码器的卷积块的个数或者编码器/解码器的层级数可以根据输入的目标视频的视频帧的分辨率（Res）Resolution进行设置。可选地，对于卷积块的个数或者编码器/解码器的层级数num满足/>

< Res，在此不做限定。例如，当目标视频的视频帧的分辨率为256/>

256时，编码器/解码器的层级可以最多设置8个层级。

下面将结合图2所示的流程和图3所示的网络架构图进行详细的阐述，该视频处理方法具体可以包括以下步骤：

步骤S210：获取目标视频中的第一视频帧和第二视频帧。

在本实施例中，步骤S210的具体实施，可以参考上文实施例所提供的步骤S110的阐述，此处不再赘述。

步骤S220：将第一视频帧和第二视频帧输入编码器，得到第一视频帧对应的第一目标特征和第二视频帧对应的第二目标特征。

在本申请实施例中，第一目标特征指的是第一视频帧通过编码器进行编码，在编码器最后一个层级的卷积块输出的视频帧的特征。第二目标特征指的是第二视频帧通过编码器进行编码，在编码器最后一个层级的卷积块输出的视频帧的特征。具体地，请参阅图4，步骤S220可以包括步骤S221至步骤S224。

步骤S221：将第一视频帧和第二视频帧输入编码器的第一层级，得到第一视频帧对应的第一特征和第二视频帧对应的第二特征。

步骤S222：将第一特征和第二特征输入编码器的第二层级，得到第一视频帧对应的第三特征和第二视频帧对应的第四特征。

步骤S223：将第三特征和第四特征输入编码器的第三层级，得到第一视频帧对应的第五特征和第二视频帧对应的第六特征。

步骤S224：将第五特征和第六特征输入编码器的第四层级，得到第一视频帧对应的第一目标特征和第二视频帧对应的第二目标特征。

为了从第一视频帧和第二视频帧获取到更多的图像特征信息，本申请实施例采用金字塔特征编码器从输入的第一视频帧和第二视频帧的图像信息获取深度的图像特征信息。

作为一种实施方式，计算机设备可以将相邻的两个视频帧依次通过金字塔特征编码器的各个层级，分别在每个层级的卷积块得到4对不同分辨率和通道数的金字塔特征{

，/>

}，其中，k为编码器的层级数。具体地，将第一视频/>

和第二视频帧/>

输入金字塔特征编码器的第一层级的卷积块/>

，得到第一视频帧/>

对应的第一特征/>

和第二视频帧/>

对应的第二特征/>

，进一步地，将第一特征/>

和第二特征/>

输入第二层级的卷积块/>

，得到第三特征/>

和第四特征/>

，进一步地，将第三特征/>

和第四特征/>

输入第三层级的卷积块/>

，得到第五特征/>

和第六特征/>

，进一步地，将第五特征/>

和第六特征/>

输入第四层级（最低层级）的卷积块/>

，得到第一目标特征/>

和第二目标特征/>

。

步骤S230：对编码器第一层级至第三层级得到的特征进行变换操作，得到对应的变化特征。

其中，变换操作为对于特征数据进行特征变换的一种数学运算（Warp操作）在本申请实施例中用于将编码器的卷积块生成的视频帧特征变化为解码器可以利用的输入特征。

作为一种实施方式，在获取编码器各个层级对应的金字塔特征{

，/>

}后，可以对编码器的第一层级至第三层级得到的特征进行变换操作，得到对应的变化特征{/>

，

}。具体地，对第一层级的第一特征/>

和第二特征/>

进行变换操作得到第一变化特征/>

和第二变化特征/>

，进一步地，对第二层级的第三特征/>

和第四特征/>

进行变换操作得到第三变化特征/>

和第四变化特征/>

，对第三层级的第五特征/>

和第六特征/>

进行变换操作得到第五变化特征/>

和第六变化特征/>

。

步骤S240：将第一目标特征和第二目标特征输入解码器，得到第一目标光流和第二目标光流。

在一些实施例中，编码器输入的第一视频帧和第二视频帧的图像信息提取了深度图像特征信息之后，计算机设备可以利用解码器对编码器提取到的特征进行计算，以便预测待生成的目标中间视频帧到其相邻的两个视频帧的光流，也即第一目标光流和第二目标光流。具体地，请参阅图5，步骤S240可以包括步骤S241至步骤S244。

步骤S241：将编码器的第四层级输出的第一目标特征和第二目标特征输入解码器的第四层级，得到第一光流、第二光流以及第一中间帧特征。

步骤S242：将第一光流、第二光流、第一中间帧特征、第五变化特征和第六变化特征输入解码器的第三层级，得到第三光流、第四光流及以第二中间帧特征。

步骤S243：将第三光流、第四光流、第二中间帧特征、第三变化特征和第四变化特征输入解码器的第二层级，得到第五光流、第六光流以及第三中间帧特征。

步骤S244：将第五光流、第六光流、第三中间帧特征、第一变化特征、第二变化特征输入解码器的第一层级，得到第一目标光流和第二目标光流、融合参数和残差。

作为一种实施方式，计算机设备可以将编码器的第四层级输出的第一目标特征

和第二目标特征/>

输入解码器的第四层级的卷积块/>

，得到第一光流/>

、第二光流/>

以及第一中间帧特征/>

，进一步地，将第一光流/>

、第二光流/>

、第一中间帧特征/>

、第五变化特征/>

和第六变化特征/>

输入解码器的第三层级的卷积块

，得到第三光流/>

、第四光流/>

以及第二中间帧特征/>

，进一步地，将第三光流/>

、第四光流/>

以及第二中间帧特征/>

、第三变化特征/>

和第四变化特征

输入解码器的第二层级的卷积块/>

，得到第五光流/>

、第六光流/>

以及第三中间帧特征/>

，进一步地，将第五光流/>

、第六光流/>

、第三中间帧特征/>

、第一变化特征/>

和第二变化特征/>

输入解码器的第一层级的卷积块/>

，得到第一目标光流/>

和第二目标光流/>

、融合参数（M）Mask和残差R。

具体地，将第一目标特征和第二目标特征输入解码器，得到第一目标光流和第二目标光流的计算过程可以根据以下公式：

=/>

([/>

])

=/>

([/>

])

=/>

([/>

])

=/>

([/>

])

步骤S250：根据第一目标光流、第二目标光流、第一视频帧以及第二视频帧生成第一候选视频帧和第二候选视频帧。

其中，第一候选视频帧和第二候选视频帧是由第一视频帧和第二视频帧对应的光流通过变换操作得到。具体地，请参阅图6，步骤S250可以包括步骤S251至步骤S252。

步骤S251：对第一目标光流和第一视频帧进行变换操作得到第一候选视频帧。

步骤S252：对第二目标光流和第二视频帧进行变换操作得到第二候选视频帧。

作为一种实施方式，可以采用Warp操作由第一目标光流

和第一视频帧/>

计算出第一候选视频帧/>

，同样地，可以采用Warp操作由第二目标光流/>

和第二视频帧计算出第二候选视频帧/>

。

具体地，变换操作的计算过程可以根据以下公式：

其中，

用于表示Warp操作，也即变换操作。

步骤S260：基于第一候选视频帧、第二候选视频帧、融合参数以及残差生成目标中间视频帧。

作为一种实施方式，计算机设备可以基于第一候选视频帧

、第二候选视频帧

、融合参数M以及残差R生成目标中间视频帧/>

，具体地，生成目标中间视频帧的计算过程可以根据下述公式：

其中，

为元素对应位置相乘（Element-wise Multiplication）的运算符号，融合参数M是一个元素范围从0到1的单通道合并掩码，融合参数M可以根据遮挡情况调整混合比，通过融合参数M，可以将第一候选视频帧和第二候选视频帧进行融合生成目标中间视频帧。

残差R是一个可以补偿上下文细节的三通道图像残差，残差R在目标帧的区域在两个视图中都被遮挡或发生突然的亮度变化时，R会补偿一些细节。例如，当重建出的视频帧的图像纹理不够锐利时，残差R可以补充纹理信息，从而让视频帧对应的图像显示地更加真实。

步骤S270：将目标中间视频帧***第一视频帧和第二视频帧之间。

在本实施例中，步骤S270的具体实施，可以参考上文实施例所提供的步骤S130的阐述，此处不再赘述。

本申请实施例中，计算机设备可以获取目标视频中的第一视频帧和第二视频帧，并将第一视频帧和第二视频帧输入编码器，得到第一视频帧对应的第一目标特征和第二视频帧对应的第二目标特征，进一步地，对编码器第一层级至第三层级得到的特征进行变换操作，得到对应的变化特征，并将第一目标特征和第二目标特征输入解码器，得到第一目标光流和第二目标光流，从而基于第一候选视频帧、第二候选视频帧、融合参数以及残差生成目标中间视频帧，并将目标中间视频帧***第一视频帧和第二视频帧之间。由此，将视频帧特征提取、中间视频帧的光流的估计、前后视频帧的融合，统一到一个完整的神经网络中，从而可以直接生成中间帧到相邻帧的光流，提高生成中间视频帧的效率，便于处理更加复杂的运动场景。

如图7所示，图7示意性地示出本申请实施例提供的又一种视频处理方法，该视频处理方法可以包括步骤S310至步骤S390。

考虑到在实际的应用场景中对视频插帧的速度要求比较高，为此可以去除对外置光流网络的生成光流的依赖，使得目标神经网络直接生成光流，从而可以有效提高网络生成光流的速度，进而提高视频插帧的速度。所以，本申请通过将预训练好的光流网络的知识迁移（知识蒸馏）到目标神经网络中，从而去除对外部光流网络的依赖。在本申请实施例中，计算机设备可以通过光流蒸馏约束使得最终训练得到的目标神经网络与预训练好的预设光流网络生成的真实中间视频帧的光流接近一致。

步骤S310：获取待训练视频中的第一样本视频帧和第二样本视频帧，并将第一样本视频帧和第二样本视频帧输入至预设神经网络的编码器，得到第一训练特征和第二训练特征。

针对前述实施例中的目标神经网络，本申请实施例中还包括对该目标神经网络的训练方法，值得说明的是，对目标神经网络的训练可以是根据获取的训练数据集合预先进行的，后续在每次需要对目标视频进行视频插帧时，则可以利用训练得到的目标神经网络生成目标中间视频帧，而无需每次对目标视频进行处理时对目标神经网络进行训练。

本申请实施例提供的视频插帧方法，在对预设神经网络进行训练的过程中可以使用数据集Vimeo90K作为训练集，其中，Vimeo90K是一个用于视频处理的大规模、高质量的视频数据集。该数据集包含89800个视频剪辑，涵盖了大量场景和动作。它专为以下四种视频处理任务而设计：视频插帧、视频去噪、视频去块和视频超分辨率。

可选地，根据本申请实施例对应的视频处理任务的需求，也即视频插帧，可以从Vimeo-90K中选择三元组数据集（Triplet Dataset），该三元组数据集由73171 个三帧视频帧序列组成，固定分辨率为448

256，从Vimeo-90K的15K选定视频剪辑中提取。

在本申请实施例中，训练样本集合可以包括多个待训练视频，该待训练视频包括多个视频帧，相邻两个视频帧之间可以具有真实样本中间帧（Ground Truth）。在一些实施例中，可以从开源的视频库中获取大量的待训练视频，从而构建训练样本集合。预设神经网络指的是待训练的用于生成中间视频帧的网络，预设神经网络训练完成后即为目标神经网络。

作为一种实施方式，计算机设备可以从待训练视频中获取两两相邻的视频帧数据作为第一样本视频帧和第二样本视频帧，进一步地，可以将第一样本视频帧和第二样本视频帧同时输入至预设神经网络的编码器中，进而编码器的最底层级（第四层级）输出第一样本视频帧对应的第一训练特征和第二样本视频帧对应的第二训练特征。

步骤S320：将第一训练特征和第二训练特征输入至预设神经网络的解码器生成训练光流以及训练中间帧特征。

其中，训练光流指的是预设神经网络的解码器在训练过程中各个层级的卷积块对应生成的第一样本视频帧对应的光流以及第二样本视频帧对应的光流。

作为一种实施方式，计算机设备可以将编码器生成的第一训练特征和第二训练特征输入至预设神经网络的解码器中，进而解码器的每一层级的卷积块生成第一样本视频帧对应的训练光流

以及第二样本视频帧对应的训练光流/>

，k为层级数。

步骤S330：根据光流蒸馏约束，基于真实样本光流、训练光流计算出第一损失值。

为了让预设神经网络生成学习的光流能够与真实中间视频帧的光流接近一致，可以通过根据光流蒸馏约束，基于真实样本光流、训练光流计算出第一损失值。具体地，请参阅图8，步骤S330可以包括步骤S331至步骤S333。

步骤S331：获取真实样本视频帧。

步骤S332：将真实样本中间帧输入至预设光流网络计算出真实样本光流。

其中，真实样本视频帧包括真实样本中间帧

及其相邻的两个视频帧/>

及

，预设光流网络为预先训练好的光流网络，该预设光流网络用于计算真实样本中间帧

到其前一视频帧/>

的真实样本光流/>

以及真实样本中间帧/>

到其后一视频帧/>

的真实样本光流/>

。

作为一种实施方式，计算机设备可以从训练样本集合中获取并将真实样本中间帧

及其相邻的两个视频帧/>

及/>

输入预设光流网络，进而得出真实样本光流

和真实样本光流/>

。

步骤S333：基于光流蒸馏约束对真实样本光流、训练光流进行损失计算，得到第一损失值。

作为一种实施方式，计算机设备根据真实样本光流

，解码器的最高层级预测的训练光流/>

确定加权系数，该加权系数/>

可以根据以下公式获取：

其中，

为大于零的固定参数，l为视频帧序列，加权系数/>

可以根据解码器的最高层级预测的训练光流跟真实样本光流的相似程度决定，若相似度越高，则对应位置加权系数/>

越大，反之，加权系数/>

越小，通过加权系数/>

可以使得预设神经网络预测的光流越准确，从而加权系数/>

可以用于增强预设神经网络对视频帧特征学习的准确性。

进一步地，确定缩放系数

，缩放系数/>

用于第一训练光流和第二训练光流与真实样本光流保持相同的空间大小。具体地，可以对真实样光流进行上采样（Up Sample），将真实样光流分别缩放到和解码器各个层级输出的训练光流具有相同的空间大小，从而便于进行光流蒸馏约束。/>

进一步地，基于光流蒸馏约束对加权系数、缩放系数、真实光流和训练光流进行损失计算，得到第一损失值。该第一损失值

可以根据以下公式获取：

其中，

为固定参数，可以根据训练过程的实际需求进行设置，在此不做限定。

步骤S340：根据特征一致性约束，基于真实样本中间帧特征、训练中间帧特征计算出第二损失值。

为了使预设神经网络从视频帧获取到更多的图像信息，在预设神经网络训练的过程中，若学习到中间视频帧的特征信息和真实样本中间帧的特征信息越接近，则表明预设神经网络生成的中间视频帧越真实，从而增强视频插帧的可视化效果，为此，本申请实施例中，可以利用特征一致性约束对预设神经网络进行训练。

步骤S341：获取参数共享编码器。

步骤S342：将真实样本中间帧输入参数共享编码器，得到与预设神经网络的解码器各个层级对应的真实样本中间帧特征。

其中，参数共享编码器指的是与预设神经网络的编码器具有相同参数的编码器。作为一种实施方式，计算机设备可以将真实样本中间帧

输入到参数共享编码器，进而该参数共享编码器各个层级的卷积块输出对应的真实样本中间帧特征/>

，

步骤S343：基于特征一致性约束对真实样本中间帧特征和训练中间帧特征进行损失计算，得到第二损失值。

作为一种实施方式，计算机设备可以将真实样本中间帧特征

与训练中间帧特征/>

进行特征一致性约束，计算第二损失值，该第二损失值/>

可以根据以下公式获取：

其中，

为常用的Census损失函数，考虑到过紧的约束会损害重构训练中间帧特征所包含的信息，以及受到普查变换的局部几何对齐特性的启发，对特征一致性约束进行了放松，也即将普查（Census）损失扩展到多尺度特征空间中进行递进监督，以计算真实样本中间帧特征/>

与训练中间帧特/>

征之间的Soft Hamming距离。

步骤S350：根据真实样本中间帧和训练中间帧计算出第三损失值。

为了使得预设神经网络生成的中间视频帧

与真实样本中间帧/>

保持接近，可以在中间视频帧与真实样本中间帧之间进行约束。作为一种实施方式，根据真实样本中间帧/>

和训练中间帧/>

计算出第三损失值，该第三损失值/>

可以根据以下公式获取：

其中，

，/>

和/>

步骤S360：基于第一损失值、第二损失值以及第三损失值，确定预设神经网络的总损失值，并根据总损失值对预设神经网络进行迭代训练，直至预设神经网络满足预设条件，得到目标神经网络。

其中，预设条件可以为：总损失值小于预设值、总损失值不再变化、或者训练次数达到预设次数等。可以理解的，在根据训练样本集合对预设神经网络进行多个训练周期的迭代训练后，其中，每个训练周期包括多次的迭代训练，不断对预设神经网络的参数进行优化，则以上总损失值越来越小，最后变小为一个固定值，或者小于以上预设值，此时，则表示预设神经网络已收敛；当然也可以是在训练次数达到预设次数后，确定预设神经网络已经收敛。

作为一种实施方式, 基于第一损失值

、第二损失值/>

以及第三损失值/>

，确定预设神经网络的总损失值/>

（/>

，/>

为权重参数），并根据总损失值对预设神经网络进行迭代训练，直至预设神经网络满足预设条件，得到目标神经网络。

示例性地，为了评估本申请提出的视频插帧方法的性能，可以在相同数据集上对分别对本申请的视频插帧方法和其他视频插帧方法进行测试比较，具体地，目标神经网络的训练虽然是在Vimeo90K训练集上进行的，但可以在涵盖不同运动场景的各种数据集上评估本申请提出的视频插帧方法，以进行全面的比较。

定量评价采用PSNR、SSIM等常用指标。数据集可以包括：

Vimeo90K数据集包含448 x 256分辨率的三帧视频帧。51.312个三帧视频帧用于训练，3.782三帧视频帧用于测试。UCF101数据集可以采用DVF中选择的测试集，该测试集包括379个256

256帧大小的三帧视频帧。SNU-FILM数据集是一个最近提出的VFI基准，包含1240三帧视频帧，分辨率约为1280 x720。按运动幅度分为易、中、难、极四个部分。

如图10所示的插帧方法速度-效果对比图，本申请的视频插帧方法（IFR-Net /IFR-Net Large），在达到和其他视频插帧方法相近的插帧效果的前提下速度快了11.6倍。本申请的视频插帧方法对于720P的视频，在英伟达V100显卡上可在25毫秒内完成对一副图像的插帧。

同时，在本申请实施例中，挑选了一些数据集中相对复杂的案例进行视频插帧操作，并对这些案例的插帧结果进行可视化，如图11所示的视频插帧的可视化效果图。当运动比较大时，本申请的视频插帧方法插帧得到的图片在物体的运动边界比较清晰，并且包含更丰富的纹理细节。此外，在标准数据集上对本申请的视频插帧方法和其他视频插帧方法进行性能测试比较，如图12所示的视频插帧的测试结果图，可以看出本申请的视频插帧方法（IFR-Net / IFR-Net Large）相较其他视频插帧方法，在不同评估指标下都达到了最优。

本申请实施例提供的新颖的高效深度架构，称为IFR-Net，用于视频帧插帧，该深度架构无任何级联细化单元。它可同优秀的中间帧特征一起逐渐精确化中间视频帧的光流，这不仅可以促进光流估计以合成清晰的运动边界，还可以提供全局表征以生成生动的上下文细节。此外，本申请实施例提供的新的面向任务的光流蒸馏约束和特征一致性约束可以充分释放IFR-Net的潜力。在各种基准上的实验证明了所提出视频插帧方法较之前的视频插帧方法，拥有先进的性能和快速的推理速度。

步骤S370：获取目标视频中的第一视频帧和第二视频帧，并将第一视频帧和第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧。

步骤S380：将目标中间视频帧***第一视频帧和第二视频帧之间。

在本实施例中，步骤S370以及步骤S380的具体实施，可以分别参考上文实施例所提供的步骤S110至步骤S130的阐述，此处不再一一赘述。

请参阅图13，图13示出了本申请实施例提供的一种视频处理装置400的结构框图。该视频处理装置400包括：获取模块410，用于获取目标视频中的第一视频帧和第二视频帧，所述第一视频帧是所述第二视频帧的前一帧；输出模块420，用于将所述第一视频帧和所述第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧，所述目标神经网络为基于光流蒸馏约束和特征一致性约束训练得到；插帧模块430，用于将所述目标中间视频帧***所述第一视频帧和所述第二视频帧之间。

在一些实施例中，目标神经网络包括编码器和解码器，输出模块430可以包括：目标特征生成单元，用于将所述第一视频帧和所述第二视频帧输入所述编码器，得到所述第一视频帧对应的第一目标特征和所述第二视频帧对应的第二目标特征；目标光流生成单元，将所述第一目标特征和所述第二目标特征输入所述解码器，得到第一目标光流和第二目标光流；目标视频帧生成单元，用于根据所述第一目标光流和所述第二目标光流生成目标中间视频帧。

在一些实施例中，编码器包括四个层级，目标特征生成单元可以包括：第一特征生成子单元，用于将所述第一视频帧和所述第二视频帧输入所述编码器的第一层级，得到所述第一视频帧对应的第一特征和所述第二视频帧对应的第二特征；第二特征生成子单元，用于将所述第一特征和第二特征输入所述编码器的第二层级，得到所述第一视频帧对应的第三特征和所述第二视频帧对应的第四特征；第三特征生成子单元，用于将所述第三特征和第四特征输入所述编码器的第三层级，得到所述第一视频帧对应的第五特征和所述第二视频帧对应的第六特征；第四特征生成子单元，用于将所述第五特征和第六特征输入所述编码器的第四层级，得到所述第一视频帧对应的第一目标特征和所述第二视频帧对应的第二目标特征。

在一些实施例中，目标特征生成单元可以包括：第一特征变化子单元，用于对所述第一层级的第一特征和所述第二特征进行变换操作，得到第一变化特征和第二变化特征；第二特征变化子单元，用于对所述第二层级的第三特征和所述第四特征进行变换操作，得到第三变化特征和第四变化特征；第三特征变化子单元，用于对所述第三层级的第五特征和所述第六特征进行变换操作，得到第五变化特征和第六变化特征。

在一些实施例中，解码器包括四个层级，目标光流生成单元可以包括：第一光流生成子单元，用于将所述编码器的第四层级输出的所述第一目标特征和所述第二目标特征输入所述解码器的第四层级，得到第一光流、第二光流以及第一中间帧特征；第二光流生成子单元，用于将所述第一光流、所述第二光流、所述第一中间帧特征、所述第五变化特征和所述第六变化特征输入所述解码器的三层级，得到第三光流、第四光流以及第二中间帧特征；第三光流生成子单元，用于将所述第三光流、所述第四光流、所述第二中间帧特征、所述第三变化特征和所述第四变化特征输入所述解码器的二层级，得到第五光流、第六光流以及第三中间帧特征；第四光流生成子单元，用于将所述第五光流、所述第六光流、第三中间帧特征、所述第一变化特征、所述第二变化特征输入所述解码器的第一层级，得到第一目标光流和第二目标光流。

在一些实施例中，目标光流生成单元可以具体用于将所述第一目标特征和所述第二目标特征输入所述解码器，得到第一目标光流、第二目标光流、融合参数和残差；

目标视频帧生成单元可以包括：候选帧生成子单元，用于根据所述第一目标光流、所述第二目标光流、所述第一视频帧以及所述第二视频帧生成第一候选视频帧和第二候选视频帧；目标中间视频帧生成子单元，用于基于所述第一候选视频帧、所述第二候选视频帧、所述融合参数以及所述残差生成所述目标中间视频帧。

在一些实施例中，候选帧生成子单元可以具体用于：对所述第一目标光流和所述第一视频帧进行所述变换操作得到第一候选视频帧；对所述第二目标光流和所述第二视频帧进行所述变换操作得到第二候选视频帧。

在一些实施例中，视频处理装置400还可以包括：样本获取模块，用于获取待训练视频中的第一样本视频帧和第二样本视频帧；训练特征生成模块，用于将所述第一样本视频帧和所述第二样本视频帧输入至预设神经网络的编码器，得到第一训练特征和第二训练特征；训练光流生成模块，用于将所述第一训练特征和所述第二训练特征输入至所述预设神经网络的解码器生成训练光流以及训练中间帧特征；第一损失计算模块，用于根据所述光流蒸馏约束，基于真实样本光流、所述训练光流计算出第一损失值；第二损失计算模块，用于根据所述特征一致性约束，基于真实样本中间帧特征、所述训练中间帧特征计算出第二损失值；第三损失计算模块，用于根据所述真实样本中间帧和所述训练中间帧计算出第三损失值；损失确定模块，用于基于所述第一损失值、所述第二损失值以及所述第三损失值，确定所述预设神经网络的总损失值；网络训练模块，用于根据所述总损失值对所述预设神经网络进行迭代训练，直至所述预设神经网络满足预设条件，得到所述目标神经网络。

在一些实施例中，第一损失计算模块可以包括：样本获取单元，用于获取真实样本视频帧，所述真实样本视频帧包括真实样本中间帧及其相邻的两个视频帧；样本光流计算单元，用于将所述真实样本视频帧输入至预设光流网络计算出真实样本光流；第一损失计算单元，用于基于所述光流蒸馏约束对所述真实样本光流、所述训练光流进行损失计算，得到第一损失值。

在一些实施例中，第一损失计算单元可以具体用于：根据所述真实样本光流、所述训练光流确定加权系数，所述加权系数用于增强所述预设神经网络对视频帧特征学习的准确性；确定缩放系数，所述缩放系数用于将所述真实样本光流放缩至与所述训练光流保持相同的空间大小。基于所述光流蒸馏约束对所述加权系数、所述缩放系数、所述真实光流和所述训练光流进行损失计算，得到第一损失值。

在一些实施例中，第二损失计算模块可以具体用于：获取参数共享编码器；将真实样本中间帧输入所述参数共享编码器，得到与所述预设神经网络的解码器各个层级对应的真实样本中间帧特征；基于所述特征一致性约束对所述真实样中间帧特征和所述训练中间帧特征进行损失计算，得到第二损失值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请提供的方案，计算机设备可以获取目标视频中的第一视频帧和第二视频帧，并将第一视频帧和第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧，该目标神经网络为基于光流蒸馏约束和特征一致性约束训练得到，进一步地，将所述目标中间视频帧***所述第一视频帧和所述第二视频帧之间。由此通过光流蒸馏约束将预训练好的光流网络的知识迁移到目标神经网络的学习中从而去除对外部光流网络的依赖，并且通过特征一致性约束使得网络能够学习到更多的中间帧信息，从而提高生成中间帧到相邻帧的光流的效率。

如图14所示，本申请实施例还提供一种计算机设备500，该该计算机设备500可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器501可包括一个或多个处理核心；可选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

计算机设备还包括给各个部件供电的电源503，可选的，电源503可以通过电源管理***与处理器501逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

计算机设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现前述实施例提供的各种方法步骤。

如图15所示，本申请实施例还提供一种计算机可读存储介质600，该计算机可读存储介质600中存储有计算机程序指令610，计算机程序指令610可被处理器调用以执行上述实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭示如上，然而并非用以限定本申请，任何本领域技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取目标视频中的第一视频帧和第二视频帧，所述第一视频帧是所述第二视频帧的前一帧；

将所述第一视频帧和所述第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧，所述目标神经网络为基于第一损失值、第二损失值和第三损失值确定的总损失值对预设神经网络进行训练得到，所述第一损失值为基于真实样本光流和训练光流经光流蒸馏约束计算得到，所述第二损失值为基于真实样本中间帧特征和训练中间帧特征经特征一致性约束计算得到，所述第三损失值为基于真实样本中间帧和训练中间帧计算得到，所述训练光流为基于第一训练特征和第二训练特征经所述预设神经网络的解码器计算所得，所述第一训练特征和所述第二训练特征为基于第一样本视频帧和第二样本视频帧经所述预设神经网络的编码器计算所得，所述训练中间帧为基于所述训练光流计算所得；

将所述目标中间视频帧***所述第一视频帧和所述第二视频帧之间。

2.根据权利要求1所述的方法，其特征在于，所述目标神经网络包括编码器和解码器，所述将所述第一视频帧和所述第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧，包括：

将所述第一视频帧和所述第二视频帧输入所述编码器，得到所述第一视频帧对应的第一目标特征和所述第二视频帧对应的第二目标特征；

将所述第一目标特征和所述第二目标特征输入所述解码器，得到第一目标光流和第二目标光流；

根据所述第一目标光流和所述第二目标光流生成目标中间视频帧。

3.根据权利要求2所述的方法，其特征在于，所述编码器包括四个层级，所述将所述第一视频帧和所述第二视频帧输入所述编码器，得到所述第一视频帧对应的第一目标特征和所述第二视频帧对应的第二目标特征，包括：

将所述第一视频帧和所述第二视频帧输入所述编码器的第一层级，得到所述第一视频帧对应的第一特征和所述第二视频帧对应的第二特征；

将所述第一特征和第二特征输入所述编码器的第二层级，得到所述第一视频帧对应的第三特征和所述第二视频帧对应的第四特征；

将所述第三特征和第四特征输入所述编码器的第三层级，得到所述第一视频帧对应的第五特征和所述第二视频帧对应的第六特征；

将所述第五特征和第六特征输入所述编码器的第四层级，得到所述第一视频帧对应的第一目标特征和所述第二视频帧对应的第二目标特征。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对所述第一层级的第一特征和所述第二特征进行变换操作，得到第一变化特征和第二变化特征；

对所述第二层级的第三特征和所述第四特征进行变换操作，得到第三变化特征和第四变化特征；

对所述第三层级的第五特征和所述第六特征进行变换操作，得到第五变化特征和第六变化特征。

5.根据权利要求4所述的方法，其特征在于，所述解码器包括四个层级，所述将所述第一目标特征和所述第二目标特征输入所述解码器，得到第一目标光流和第二目标光流，包括：

将所述编码器的第四层级输出的所述第一目标特征和所述第二目标特征输入所述解码器的第四层级，得到第一光流、第二光流以及第一中间帧特征；

将所述第一光流、所述第二光流、所述第一中间帧特征、所述第五变化特征和所述第六变化特征输入所述解码器的第三层级，得到第三光流、第四光流以及第二中间帧特征；

将所述第三光流、所述第四光流、所述第二中间帧特征、所述第三变化特征和所述第四变化特征输入所述解码器的第二层级，得到第五光流、第六光流以及第三中间帧特征；

将所述第五光流、所述第六光流、第三中间帧特征、所述第一变化特征、所述第二变化特征输入所述解码器的第一层级，得到第一目标光流和第二目标光流。

6.根据权利要求2~5任一项所述的方法，其特征在于，所述将所述第一目标特征和所述第二目标特征输入所述解码器，得到第一目标光流和第二目标光流，包括：

将所述第一目标特征和所述第二目标特征输入所述解码器，得到第一目标光流、第二目标光流、融合参数和残差；

所述根据所述第一目标光流和所述第二目标光流生成目标中间视频帧，包括：

根据所述第一目标光流、所述第二目标光流、所述第一视频帧以及所述第二视频帧生成第一候选视频帧和第二候选视频帧；

基于所述第一候选视频帧、所述第二候选视频帧、所述融合参数以及所述残差生成目标中间视频帧。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一目标光流、所述第二目标光流、所述第一视频帧以及所述第二视频帧生成第一候选视频帧和第二候选视频帧，包括：

对所述第一目标光流和所述第一视频帧进行变换操作得到第一候选视频帧；

对所述第二目标光流和所述第二视频帧进行变换操作得到第二候选视频帧。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待训练视频中的第一样本视频帧和第二样本视频帧；

将所述第一样本视频帧和所述第二样本视频帧输入至预设神经网络的编码器，得到第一训练特征和第二训练特征；

将所述第一训练特征和所述第二训练特征输入至所述预设神经网络的解码器生成训练光流以及训练中间帧特征；

根据所述光流蒸馏约束，基于真实样本光流、所述训练光流计算出第一损失值；

根据所述特征一致性约束，基于真实样本中间帧特征、所述训练中间帧特征计算出第二损失值；

根据真实样本中间帧和训练中间帧计算出第三损失值；

基于所述第一损失值、所述第二损失值以及所述第三损失值，确定所述预设神经网络的总损失值；

根据所述总损失值对所述预设神经网络进行迭代训练，直至所述预设神经网络满足预设条件，得到所述目标神经网络。

9.根据权利要求8所述的方法，其特征在于，所述根据所述光流蒸馏约束，基于真实样本光流、所述训练光流计算出第一损失值，包括：

获取真实样本视频帧，所述真实样本视频帧包括真实样本中间帧及其相邻的两个视频帧；

将所述真实样本视频帧输入至预设光流网络计算出真实样本光流；

基于所述光流蒸馏约束对所述真实样本光流、所述训练光流进行损失计算，得到第一损失值。

10.根据权利要求9所述的方法，其特征在于，所述基于所述光流蒸馏约束对所述真实样本光流、所述训练光流进行损失计算，得到第一损失值，包括：

根据所述真实样本光流、所述训练光流确定加权系数，所述加权系数用于增强所述预设神经网络对视频帧特征学习的准确性；

确定缩放系数，所述缩放系数用于将所述真实样本光流缩放至与所述训练光流保持相同的空间大小；

基于所述光流蒸馏约束对所述加权系数、所述缩放系数、所述真实样本光流和所述训练光流进行损失计算，得到第一损失值。

11.根据权利要求8所述的方法，其特征在于，所述根据所述特征一致性约束，基于真实样本中间帧特征、所述训练中间帧特征计算出第二损失值，包括：

获取参数共享编码器；

将真实样本中间帧输入所述参数共享编码器，得到与所述预设神经网络的解码器各个层级对应的真实样本中间帧特征；

基于所述特征一致性约束对所述真实样本中间帧特征和所述训练中间帧特征进行损失计算，得到第二损失值。

12.一种视频处理装置，其特征在于，所述装置包括：

获取模块，用于获取目标视频中的第一视频帧和第二视频帧，所述第一视频帧是所述第二视频帧的前一帧；

输出模块，用于将所述第一视频帧和所述第二视频帧输入至预先训练的目标神经网络，输出目标中间视频帧，所述目标神经网络为基于第一损失值、第二损失值和第三损失值确定的总损失值对预设神经网络进行训练得到，所述第一损失值为基于真实样本光流和训练光流经光流蒸馏约束计算得到，所述第二损失值为基于真实样本中间帧特征和训练中间帧特征经特征一致性约束计算得到，所述第三损失值为基于真实样本中间帧和训练中间帧计算得到，所述训练光流为基于第一训练特征和第二训练特征经所述预设神经网络的解码器计算所得，所述第一训练特征和所述第二训练特征为基于第一样本视频帧和第二样本视频帧经所述预设神经网络的编码器计算所得，所述训练中间帧为基于所述训练光流计算所得；

插帧模块，用于将所述目标中间视频帧***所述第一视频帧和所述第二视频帧之间。

13.一种计算机设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1~11任一项所述的视频处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1~11任一项所述的视频处理方法。