CN112804561A

CN112804561A - 视频插帧方法、装置、计算机设备及存储介质

Info

Publication number: CN112804561A
Application number: CN202011603134.4A
Authority: CN
Inventors: 戴长军; 林绪虹; 刘铭瑀
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-05-14
Also published as: WO2022141819A1

Abstract

本申请公开一种视频插帧方法、装置、计算机设备及存储介质，包括：获取待处理的目标视频；提取所述目标视频中的第一参考帧图和第二参考帧图，其中，所述第一参考帧图与所述第二参考帧图在时间轴上相邻；将所述第一参考帧图和第二参考帧图合并输入至预设的插帧模型中，其中，所述插帧模型为预先训练至收敛，用于根据所述第一参考帧图和第二参考帧图之间的运动向量对所述目标视频进行插帧处理的神经网络模型；读取所述插帧模型输出的升帧图像，并将所述升帧图像***至所述第一参考帧图和第二参考帧图之间。运动向量的引入，能够使升帧图像的图像画面显示两张参考帧图之间的中间状态，使插帧结果更加自然，极大的提高了用户体验。

Description

视频插帧方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及视频处理领域，尤其是一种视频插帧方法、装置、计算机设备及存储介质。

背景技术

帧率是以帧称为单位的位图图像连续出现在显示器上的频率(速率)。帧率的多少直接影响到视频播放时的流畅度，帧率高的视频播放流畅度较好，反之，则越差，当帧率过低时视频播放就回出现卡顿现象。

本发明创造的发明人在研究中发现，在视频网络直播过程中，因用户网络状况多重多样，在不理想的情况下，需要降低传输视频的码率，而降低码率的方式包括：降低视频分辨率或者降低视频帧率，而现有技术中，为了保证视频画质往往对视频进行降帧处理，降低帧率则会降低视频流播放畅度，影响用户的观看体验。

发明内容

本发明实施例提供一种能够提升视频播放流畅度的视频插帧方法、装置、计算机设备及存储介质。

为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种视频插帧方法，包括：

获取待处理的目标视频；

提取所述目标视频中的第一参考帧图和第二参考帧图，其中，所述第一参考帧图与所述第二参考帧图在时间轴上相邻；

将所述第一参考帧图和第二参考帧图合并输入至预设的插帧模型中，其中，所述插帧模型为预先训练至收敛，用于根据所述第一参考帧图和第二参考帧图之间的运动向量对所述目标帧图，进行插帧处理的神经网络模型；

读取所述插帧模型输出的升帧图像，并将所述升帧图像***至所述第一参考帧图和第二参考帧图之间。

可选地，所述图像标准为帧率阈值，所述获取待处理的目标视频包括：

获取待播放视频的帧率数据；

将所述帧率数据与所述帧率阈值进行比对；

当所述帧率数据表征的帧率值小于所述帧率阈值，确定所述待播放视频为所述目标视频。

可选地，所述插帧模型包括运动向量网络模型，所述将所述第一参考帧图和第二参考帧图合并输入至预设的插帧模型中包括：

将所述第一参考帧图和第二参考帧图进行通道图像叠加后生成叠加图像，并将所述叠加图像输入至所述运动向量网络模型中，其中，所述运动向量网络模型为预先训练至收敛，用于提取图像之间运动向量的卷积神经网络模型；

所述运动向量网络模型通过卷积层对所述叠加图像进行卷积池化处理，生成下采样特征；

所述运动向量网络模型通过反卷积层对所述下采样特征进行插值处理，生成上采样特征；

将所述下采样特征和所述上采样特征进行特征融合叠加生成所述运动向量。

可选地，所述插帧模型包括帧合成网络模型，所述将所述第一参考帧图和第二参考帧图合并输入至预设的插帧模型中包括：

对所述运动向量进行插值处理生成中间帧图；

将所述运动向量、中间帧图、第一参考帧图和第二参考帧图合并输入至所述帧合成网络模型中，其中，所述帧合成网络模型为预先训练至收敛状态，用于对图像进行插值处理的卷积神经网络模型；

所述帧合成网络模型对所述运动向量、中间帧图、第一参考帧图和第二参考帧图进行卷积处理，生成可见掩码图；

所述帧合成网络模型对所述可见掩码图和所述运动向量进行插值处理，生成所述升帧图像。

可选地，所述插帧模型的训练方法包括：

对预先采集的样本视频进行帧化处理生成样本图集，其中，所述样本图集包括：第一训练帧图、第二训练帧图和样本帧图，所述样本帧图位于所述第一训练帧图和第二训练帧图表征的时间区间内；

将所述第一训练帧图和第二训练帧图输入至预设的第一初始模型中，其中，所述第一初始模型为尚未训练至收敛状态，用于提取图像之间运动向量的卷积神经网络模型；

读取所述第一初始模型输出的训练运动向量，并根据训练运动向量的插值生成训练中间帧图；

将所述第一训练帧图、第二训练帧图、训练运动向量和训练中间帧图输入至预设的第二初始模型中，其中，所述第二初始模型为尚未训练至收敛状态，用于对图像进行插值处理的卷积神经网络模型；

读取所述第二初始模型输出的训练升帧图像，并根据预设的损失函数计算所述训练升帧图像与所述样本帧图之间的特征差值；

当所述特征差值大于预设的损失阈值，基于所述特征差值对所述第一初始模型和所述第二初始模型中的权重值进行反复迭代更新，直至所述特征差值小于等于所述损失阈值为止。

可选地，所述基于所述特征差值对所述第一初始模型和所述第二初始模型中的权重值进行反复迭代更新，直至所述特征差值小于等于所述损失阈值为止之后包括：

通过若干所述样本图集对所述插帧模型进行反复迭代的监督训练，直至所述插帧模型符合预设的收敛条件为止；

确定训练至收敛状态的所述第一初始模型为所述运动向量网络模型，所述第二初始模型为所述帧合成网络模型。

可选地，所述插帧模型包括损失函数，所述损失函数由重构差异函数和运动向量估计还原差异函数加权组成。

为解决上述技术问题，本发明实施例还提供一种视频插帧装置，包括：

获取模块，用于获取待处理的目标视频；

提取模块，用于提取所述目标视频中的第一参考帧图和第二参考帧图，其中，所述第一参考帧图与所述第二参考帧图在时间轴上相邻；

处理模块，用于将所述第一参考帧图和第二参考帧图合并输入至预设的插帧模型中，其中，所述插帧模型为预先训练至收敛，用于根据所述第一参考帧图和第二参考帧图之间的运动向量对所述目标帧图，进行插帧处理的神经网络模型；

读取模块，用于读取所述插帧模型输出的升帧图像，并将所述升帧图像***至所述第一参考帧图和第二参考帧图之间。

可选地，所述图像标准为帧率阈值，所述视频插帧装置还包括：

第一获取子模块，用于获取待播放视频的帧率数据；

第一比对子模块，用于将所述帧率数据与所述帧率阈值进行比对；

第一执行子模块，用于当所述帧率数据表征的帧率值小于所述帧率阈值，确定所述待播放视频为所述目标视频。

可选地，所述插帧模型包括运动向量网络模型，所述视频插帧装置还包括：

第一输入子模块，用于将所述第一参考帧图和第二参考帧图进行通道图像叠加后生成叠加图像，并将所述叠加图像输入至所述运动向量网络模型中，其中，所述运动向量网络模型为预先训练至收敛，用于提取图像之间运动向量的卷积神经网络模型；

第一生成子模块，用于所述运动向量网络模型通过卷积层对所述叠加图像进行卷积池化处理，生成下采样特征；

第二生成子模块，用于所述运动向量网络模型通过反卷积层对所述下采样特征进行插值处理，生成上采样特征；

第一叠加子模块，用于将所述下采样特征和所述上采样特征进行特征融合叠加生成所述运动向量。

可选地，所述插帧模型包括帧合成网络模型，所述视频插帧装置还包括：

第三生成子模块，用于对所述运动向量进行插值处理生成中间帧图；

第二输入子模块，用于将所述运动向量、中间帧图、第一参考帧图和第二参考帧图合并输入至所述帧合成网络模型中，其中，所述帧合成网络模型为预先训练至收敛状态，用于对图像进行插值处理的卷积神经网络模型；

第四生成子模块，用于所述帧合成网络模型对所述运动向量、中间帧图、第一参考帧图和第二参考帧图进行卷积处理，生成可见掩码图；

第五生成子模块，用于所述帧合成网络模型对所述可见掩码图和所述运动向量进行插值处理，生成所述升帧图像。

可选地，所述视频插帧装置还包括：

第一处理子模块，用于对预先采集的样本视频进行帧化处理生成样本图集，其中，所述样本图集包括：第一训练帧图、第二训练帧图和样本帧图，所述样本帧图位于所述第一训练帧图和第二训练帧图表征的时间区间内；

第三输入子模块，用于将所述第一训练帧图和第二训练帧图输入至预设的第一初始模型中，其中，所述第一初始模型为尚未训练至收敛状态，用于提取图像之间运动向量的卷积神经网络模型；

第一读取子模块，用于读取所述第一初始模型输出的训练运动向量，并根据训练运动向量的插值生成训练中间帧图；

第四输入子模块，用于将所述第一训练帧图、第二训练帧图、训练运动向量和训练中间帧图输入至预设的第二初始模型中，其中，所述第二初始模型为尚未训练至收敛状态，用于对图像进行插值处理的卷积神经网络模型；

第二读取子模块，用于读取所述第二初始模型输出的训练升帧图像，并根据预设的损失函数计算所述训练升帧图像与所述样本帧图之间的特征差值；

第二执行子模块，用于当所述特征差值大于预设的损失阈值，基于所述特征差值对所述第一初始模型和所述第二初始模型中的权重值进行反复迭代更新，直至所述特征差值小于等于所述损失阈值为止。

可选地，所述视频插帧装置还包括：

第二处理子模块，用于通过若干所述样本图集对所述插帧模型进行反复迭代的监督训练，直至所述插帧模型符合预设的收敛条件为止；

第三执行子模块，用于确定训练至收敛状态的所述第一初始模型为所述运动向量网络模型，所述第二初始模型为所述帧合成网络模型。

为解决上述技术问题本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述芯片制程方法的步骤。

为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述芯片制程方法的步骤。

本发明实施例的有益效果是：当确定需要进行插帧处理的目标视频时，读取目标视频中两个相邻的帧图像作为参考帧图，通过两张参考帧图提取两张帧图之间的运动向量，由于，运动向量能够表征两张参考帧图之间的过渡运动状态，因此，通过运动向量以及两张参考帧图插帧模型就能够生成，介于两张参考图之间的升帧图像。运动向量的引入，能够使升帧图像的图像画面显示两张参考帧图之间的中间状态，使插帧结果更加自然，极大的提高了用户体验。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请一个具体实施例的视频插帧方法基本流程示意图；

图2为本申请一个具体实施例的筛选目标视频的流程示意图；

图3为本申请一具体实施例的提取运动向量的流程示意图；

图4为本申请一个具体实施例的生成升帧图像的第二种实施方式流程示意图；

图5为本申请一个具体实施例的训练插帧模型单一流程的流程示意图；

图6为本申请一个具体实施例的训练插帧模型整流程的流程示意图；

图7为本申请一个实施例的视频插帧装置基本结构示意图；

图8为本申请一个实施例的计算机设备的基本结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信***)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位***)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

请参阅图1，图1为本实施例视频插帧方法基本流程示意图。

如图1所示，视频插帧方法包括：

S1100、获取待处理的目标视频；

本实施方式中的目标视频是指被选定用于进行插帧处理，提升视频帧率的待处理视频。

目标视频能够为通过服务器端发送至终端中的网络视频，也能够是存储在终端本地的本地视频。根据具体实施方式的不同，在一些实施方式中，本实施方式中的视频插帧方法还能够被用于处理终端上传的视频数据，此时，目标视频即为终端上传的视频。

目标视频的取得需要进行筛选，筛选的方式主要包括：通过码率或者帧率进行筛选。具体地，当目标视频为网络传输视频时，终端接收到服务器端发送的视频数据后，读取网络端口该视频数据的码率，当码率低于预设的码率阈值时，确定该视频数据为目标视频。当视频为本地视频时，终端读取该视频的帧率参数，当帧率参数表征的数值小于帧率阈值时，确定该视频数据为目标视频。在一些实施方式中，视频插帧方法被用于处理终端上传的视频数据时，服务器端读取终端上传数据的码率，当码率低于预设的码率阈值时，确定该上传视频数据为目标视频。

S1200、提取所述目标视频中的第一参考帧图和第二参考帧图，其中，所述第一参考帧图与所述第二参考帧图在时间轴上相邻；

当确定目标视频后，提取目标视频中的相邻的两张帧图，定义这两张帧图为第一参考帧图和第二参考帧图，第一参考帧图和第二参考帧图在时间轴上相邻。

第一参考帧图和和第二参考帧图的获取能够采用随机抽取的方式进行采集，例如，将目标视频进行帧化处理，使目标视频转化为沿时间轴排布的多张帧图，然后，在多张帧图中通过随机算法抽取一张图片作为第一参考帧图，选取第一参考帧图之前或者之后相邻的一张帧图作为第二参考帧图。

在一些实施方式中，为了使插帧后的视频播放更加的流畅，第一参考帧图和第二参考帧图的选取需要考虑场景转换的需求。当视频中场景转场中如果没有位于中间态的过渡场景，转场的过程就回显得深硬不够自然。在选取第一参考帧图和第二参考帧图时，将采集到的相邻帧图输入至转场分类模型中，转场分类模型为通过监督训练，能够对两张图片是否属于转场图像的神经网络模型，此处，转场分类模型能够由卷积神经网络模型、深度卷积神经网络模型和循环神经网络模型或者上述模型的变种模型训练得到。将第一参考帧图和第二参考帧图限定为转场图像，然后，对转场图像进行插帧处理，能够更进一步的提升视频播放流畅度。

S1300、将所述第一参考帧图和第二参考帧图合并输入至预设的插帧模型中，其中，所述插帧模型为预先训练至收敛，用于根据所述第一参考帧图和第二参考帧图之间的运动向量对所述目标视频进行插帧处理的神经网络模型；

采集得到第一参考帧图和第二参考帧图，将第一参考帧图和第二参考帧图合并输入至插帧模型中。

本实施方式中，插帧模型用户根据输入的两张图像之间的运动向量对目标视频进行插帧处理，其中，插帧模型预选训练至收敛状态，因此，能够准确的对目标视频进行插帧。

具体地，将第一参考帧图和第二参考帧图进行像素叠加，像素叠加的时候，第一参考帧图和第二参考帧图的图像尺寸调整一致，将两张参考帧图按RGB颜色分别拆分成三个颜色通道，分别为红色、绿色和蓝色通道，然后，以通道颜色为类别，将同类别中的图像进行加权叠加，三个通道分别叠加后，将叠加后的三个通道图像进行合并生成叠加图像。

将合并后的叠加图像输入至插帧模型中，由于，插帧模型被训练用于提取第一参考帧图和第二参考帧图之间的运动向量，因此，叠加图像通过插帧模型卷积层进行特征提取后，得到第一参考帧图和第二参考帧图之间的运动向量，运动向量表征第一参考帧图和第二参考帧图之间的变化态，因此，插帧模型根据运动向量表征的数值，对运动向量进行像素话后，就能够生成升帧图像。

在一些实施方式中，插帧模型为联合模型，由运动向量网络模型和帧合成网络模型组成，其中，运动向量网络模型为预先训练至收敛，用于提取图像之间运动向量的卷积神经网络模型，帧合成网络模型为预先训练至收敛状态，用于对图像进行插值处理的卷积神经网络模型。运动向量网络模型提取运动向量后，将运动向量、第一参考帧图、第二参考帧图和由运动向量生成的较为粗糙的中间帧图作为入参，继续进行特征提取形成可见掩码图，最后，根据可见掩码图各运动向量生成更加精细的升帧图像。

S1400、读取所述插帧模型输出的升帧图像，并将所述升帧图像***至所述第一参考帧图和第二参考帧图之间。

通过插帧模型输出升帧图像后，读取已经生成的升帧图像，并将升帧图像***到第一参考帧图和第二参考帧图之间完成一个升帧步骤。然后，继续重复S1100-S1400的过程，直至目标视频的码率或者帧率达到设定的码率阈值或者帧率阈值后，结束对目标视频的插帧操作。

上述实施方式，当确定需要进行插帧处理的目标视频时，读取目标视频中两个相邻的帧图像作为参考帧图，通过两张参考帧图提取两张帧图之间的运动向量，由于，运动向量能够表征两张参考帧图之间的过渡运动状态，因此，通过运动向量以及两张参考帧图插帧模型就能够生成，介于两张参考图之间的升帧图像。运动向量的引入，能够使升帧图像的图像画面显示两张参考帧图之间的中间状态，使插帧结果更加自然，极大的提高了用户体验。

在一些实施方式中，目标视频的确定需要通过视频的帧率进行筛选。请参阅图2，图2为本实施例筛选目标视频的流程示意图。

如图2所示，S1100之前包括：

S1111、获取待播放视频的帧率数据；

用户终端通过指令对待播放的视频进行播放时，读取该待播放视频的帧率数据。

本实施方式中的待播放视频包括由服务器端发送的网络视频，以及存储在用户终端本地存储空间内的本地视频。

S1112、将所述帧率数据与所述帧率阈值进行比对；

将获取到的帧率数据与预设的帧率阈值进行比对，其中，帧率阈值的数值设定能够根据视频播放帧率的最低标准设定，也能够根据待播放视频的原视频帧率进行设定，例如，当服务器向用户终端发送视频数据时，将服务器端视频数据的帧率数据发送至用户终端，用户终端接收到服务器端发送的帧率数据后，将该帧率数据设定为帧率阈值。

S1113、当所述帧率数据表征的帧率值小于所述帧率阈值，确定所述待播放视频为所述目标视频。

当帧率数据表征的帧率值小于帧率阈时，则确定待播放视频为需要进行插帧操作的目标视频。当帧率数据表征的帧率值大于等于帧率阈时，则确定该待播放视频无需进行插值处理。

在一些实施方式中，当播放视频中出现卡顿时，截取卡顿视频所在的时间段的视频为目标视频并对目标视频进行插帧处理，进而消除视频卡顿现象。

在一些实施方式中，插帧模型包括运动向量网络模型，运动向量网络模型用于提取第一参考帧图和第二参考帧图的运动向量。请参阅图3，图3为本实施例提取运动向量的流程示意图。

如图3所示，S1300包括：

S1311、将所述第一参考帧图和第二参考帧图进行通道图像叠加后生成叠加图像，并将所述叠加图像输入至所述运动向量网络模型中，其中，所述运动向量网络模型为预先训练至收敛，用于提取图像之间运动向量的卷积神经网络模型；

将第一参考帧图和第二参考帧图进行像素叠加，像素叠加的时候，第一参考帧图和第二参考帧图的图像尺寸调整一致，将两张参考帧图按RGB颜色分别拆分成三个颜色通道，分别为红色、绿色和蓝色通道，然后，以通道颜色为类别，将同类别中的图像进行加权叠加，三个通道分别叠加后，将叠加后的三个通道图像进行合并生成叠加图像。

将叠加图像输入到运动向量网络模型中，运动向量网络模型为预先训练至收敛，用于提取图像之间运动向量的卷积神经网络模型。

在一些实施方式中，运动向量网络模型采用的模型为：U-net网络模型。U-net网络结构包括两个对称部分：前面一部分网络与普通卷积网络相同，使用了3x3的卷积和池化下采样，能够抓住图像中的上下文信息；后面部分网络则是与前面基本对称，使用的是3x3反卷积层和上采样，以达到输出图像分割的目的。此外，网络中还用到了特征融合，将前面部分下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息，达到更好的分割效果。在一些实施方式中，运动向量网络模型还能够为U2-net网络模型。

在一些实施方式中，运动向量网络模型采用的模型还能够为(不限于)：卷积神经网络模型、深度卷积神经网络模型、循环神经网络模型或者上述神经网络模型的变种模型。

S1312、所述运动向量网络模型通过卷积层对所述叠加图像进行卷积池化处理，生成下采样特征；

叠加图像被输入至运动向量网络模型中后，运动向量网络模型中的卷积层对叠加图像进行卷积和池化处理，提取叠加图像中的下采样特征，上述这个流程成为对叠加图像进行下采样，下采样的过程中，运动向量网络模型对折叠图像进行特征提取和图像缩放。

S1313、所述运动向量网络模型通过反卷积层对所述下采样特征进行插值处理，生成上采样特征；

通过卷积层对叠加图像进行特征提取和缩小后，运动向量网络模型通过与卷积层对对称的反卷积层对缩小后的图像进行插值处理，插值处理的过程中同时提取叠加图像的上采样特征，上述这个处理过程为上采样，上采样的过程中通过插值处理的方式提取图像特征并放大被缩小的叠加图像。

S1314、将所述下采样特征和所述上采样特征进行特征融合叠加生成所述运动向量。

运动向量网络模型在经过卷积和反卷积处理后，生成叠加图像的下采样特征和上采样特征，然后，对下采样特征和上采样特征进行融合叠加，融合叠加的过程就是对卷积和反卷积图像进行对应的特征进行加权得到一个融合后的运动向量。

具体地，运动向量网络模型包括：第一卷积层、第二卷积层、第三卷积层、第一反卷积层、第二反卷积层和第三反卷积层。其中，第一卷积层与第一反卷积层相互对称，第二卷积层与第二反卷积层相互对称，第三卷积层与第三反卷积层相互对称。第一卷积层对叠加图像进行特征提取后，将提取的特征同步至第二卷基层和第一反卷积层中，第二卷积层进行特征提取后，将提取的特征同步到第三卷积层和第二反卷积层，以此类推，叠加图像经过一个“U”形卷积层提取路径后，最终由第三反卷积层输出运动向量。在这个过程中，第一反卷积层、第二反卷积层和第三反卷积层进行特征提取的过程中，既能够接收由上一级卷积层同步的特征，又能够接收由与之对应的卷积层同步的特征，因此，下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息。

运动向量网络模型在得到第一参考帧图和第二参考帧图的运动向量后，将运动向量中的向量值进行像素化，生成了第一参考帧图和第二参考帧图的升帧图像。

在一些实施方式中，为了进一步的提高升帧图像的准确度，需要进一步的对运动向量进行处理。请参阅图4，图4为本实施例生成升帧图像的第二种实施方式流程示意图。

如图4所示，S1314之后，包括：

S1321、对所述运动向量进行插值处理生成中间帧图；

本实施方式中，插帧模型为联合模型，由运动向量网络模型和帧合成网络模型组成，其中，运动向量网络模型为预先训练至收敛，用于提取图像之间运动向量的卷积神经网络模型，帧合成网络模型为预先训练至收敛状态，用于对图像进行插值处理的卷积神经网络模型。运动向量网络模型的输出连接至帧合成网络模型的一个输入通道中。

运动向量网络模型在得到第一参考帧图和第二参考帧图的运动向量后，将运动向量中的向量值进行像素化，生成了较为粗糙的中间帧图，中间帧图也能够作为第一参考帧图和第二参考帧图的升帧图像使用。

S1322、将所述运动向量、中间帧图、第一参考帧图和第二参考帧图合并输入至所述帧合成网络模型中，其中，所述帧合成网络模型为预先训练至收敛状态，用于对图像进行插值处理的卷积神经网络模型；

将运动向量、中间帧图、第一参考帧图和第二参考帧图合并，合并的方式为：将相同大小的四张图片对应各点像素值进行加权，生成新的像素值，然后由新的像素值组成合并图像。但是，图像合并输入的方式不局限于此，在一些实施方式中，合并输入能够是将运动向量、中间帧图、第一参考帧图和第二参考帧图进行拼接后输入。

帧合成网络模型(不限于)：卷积神经网络模型、深度卷积神经网络模型、循环神经网络模型或者上述神经网络模型的变种模型。

S1323、所述帧合成网络模型对所述运动向量、中间帧图、第一参考帧图和第二参考帧图进行卷积处理，生成可见掩码图；

帧合成网络模型对运动向量、中间帧图、第一参考帧图和第二参考帧图进行卷积处理，生成可见掩码图。

可见掩码图是一个范围0-1的alpha(αChannel，阿尔法通道)值，0代表生成帧当前位置的点复用第一参考帧图的当前位置的值，1代表当生成当前位置复用第二参考帧图的当前位置的值，中间数值代表两帧内容的融合。

S1324、所述帧合成网络模型对所述可见掩码图和所述运动向量进行插值处理，生成所述升帧图像。

帧合成网络模型对可见掩码图和运动向量进行插值处理，插值处理是指给定一个像素点，根据它周围像素点的信息来对该像素点的值进行预测。通过可见掩码图和运动向量进行插值处理，能够合成介于第一参考帧图和第二参考帧图之间中间态的升帧图像。

插值处理采用的技术方案包括(不限于)：最近邻法、线性插值法、双线性插值法或双三次插值法等。

在一些实施方式中，需要将插帧模型训练至收敛状态。请参阅图5，图5为本实施例训练插帧模型单一流程的流程示意图。

如图5所示，插帧模型的训练方法如下：

S2111、对预先采集的样本视频进行帧化处理生成样本图集，其中，所述样本图集包括：第一训练帧图、第二训练帧图和样本帧图，所述样本帧图位于所述第一训练帧图和第二训练帧图表征的时间区间内；

在进行插帧模型训练时，首先应当准备用于模型训练的样本。本实施方式中，训练样本的准备过程如下：采集用于进行模型训练的样本视频，将样本视频进行帧化处理，帧化处理就是将样本视频拆分成按时间轴排布的若干帧图。将帧化处理后的序列帧图，按每5张为一个样本集进行打包，每一个打包数据我们称之为一个样本图集。但是，样本图集的组成不局限于此，根据具体应用场景的不同，在一些实施方式中，将序列帧图中连续3张、4张、6张或者更多张的帧图打包成样本图集。

样本图集中包括：第一训练帧图、第二训练帧图和样本帧图，其中，样本帧图位于第一训练帧图和第二训练帧图表征的时间区间内。具体地，将样本图集中位于第一序列和最后序列的帧图选为第一训练帧图和第二训练帧图，在剩余的帧图中随机选择一张帧图作为样本帧图。

例如，在一些实施方式中对样本视频的原始帧进行提取，然后按照视频播放的序列顺序存放，对提取出来图像进行缩放到分辨率为宽为256像素，高为256像素值，最后将这些序列图像按照5帧(Frame0,Frame1,Frame2,Frame3,Frame4)一组进行打包处理，在训练过程中，可以任意选取中间1帧(Frame1,Frame2,Frame3)作为样本帧图，Frame0和Frame4分别作为第一训练帧图和第二训练帧图。

在一些实施方式中，为了增强插帧模型的鲁棒性，需要对第一训练帧图和第二训练帧图进行图像增强处理，增强处理的方式包括对第一训练帧图和第二训练帧图进行(不限于)：随机裁剪、方向的随机旋转和添加随机噪声等操作。

S2112、将所述第一训练帧图和第二训练帧图输入至预设的第一初始模型中，其中，所述第一初始模型为尚未训练至收敛状态，用于提取图像之间运动向量的卷积神经网络模型；

使用样本图集进行模型训练时，将第一训练帧图和第二训练帧图叠加输入至第一初始模型中，图像叠加是指将第一训练帧图和第二训练帧图对应点的像素点进行加权运算。

将合并后的第一训练帧图和第二训练帧图输入至第一初始模型中。第一初始模型为运动向量网络模型的未收敛状态，同样是提取图像之间运动向量的卷积神经网络模型。

第一初始模型能够为(不限于)：U-net网络模型、U2-net网络模型、卷积神经网络模型、深度卷积神经网络模型、循环神经网络模型或者上述神经网络模型的变种模型。

S2113、读取所述第一初始模型输出的训练运动向量，并根据训练运动向量的插值生成训练中间帧图；

读取第一初始模型输出的训练运动向量，需要指出的是，由于，第一初始模型尚未训练至收敛状态，因此，其输出的训练运动向量随机性较强，准确性较差。但是随着训练的进行，第一初始模型慢慢趋向于收敛时，输出的训练运动向量准确性会越来越高。

将第一初始模型输出的训练运动向量表征的各向量值进行像素画，生成训练中间帧图。

S2114、将所述第一训练帧图、第二训练帧图、训练运动向量和训练中间帧图输入至预设的第二初始模型中，其中，所述第二初始模型为尚未训练至收敛状态，用于对图像进行插值处理的卷积神经网络模型；

通过第一初始模型得到训练运动向量和训练中间帧图后，将第一训练帧图、第二训练帧图、训练运动向量和训练中间帧图输入至第二初始模型中。

第二初始模型为帧合成网络模型的未收敛状态模型，同样属于用于对图像进行插值处理的卷积神经网络模型。

第二初始模型包括(不限于)：卷积神经网络模型、深度卷积神经网络模型、循环神经网络模型或者上述神经网络模型的变种模型。

第一训练帧图、第二训练帧图、训练运动向量和训练中间帧图进行合并的方式为：将相同大小的四张图片对应各点像素值进行加权，生成新的像素值，然后由新的像素值组成合并图像。

第二初始模型通过将合并图像进行卷积后，生成训练可见掩码图，然后，对训练可见掩码图和训练运动向量进行插值处理，插值处理采用的技术方案包括(不限于)：最近邻法、线性插值法、双线性插值法或双三次插值法等。插值处理后生成的图像就是训练升帧图像。

S2115、读取所述第二初始模型输出的训练升帧图像，并根据预设的损失函数计算所述训练升帧图像与所述样本帧图之间的特征差值；

读取由第二初始模型输出的训练升帧图像，需要指出的是，由于，第二初始模型尚未训练至收敛状态，因此，其输出的升帧图像的随机性较强，准确性较差。但是，随着训练的进行，第二初始模型慢慢趋向于收敛时，输出的训练升帧图像的准确性越来越高。

读取训练升帧图像后，使用损失函数将其与样本帧图进行比对，通过损失函数计算训练升帧图像和样本帧图之间的特征差值。

本实施方式中，将样本帧图直接作为标注图像使用，免去了监督训练过程中标注图像的流程，简化了插帧模型的训练流程，提高了训练的效率。

本实施方式中，损失函数为复合损失函数，具体地，损失函数由重构差异函数和运动向量估计还原差异函数加权组成。损失函数的特征具体描述为：

loss＝αl_r+βl_w

其中，

l_w＝||I₀-g(I₁，F_0→1)||₁+||I₁-g(I₀，F_1→0)||₁

l_r表示样本帧图与训练升帧图像之间的重构差异，l_w表示表示样本帧图与训练升帧图像之间的运动向量估计还原差异，α和β为参数值，N表示批大小，I_ti表示样本帧图，

表示训练升帧图像，I₀表示第一训练帧图，I₁表示第二训练帧图，F_0→1表示I₀到I₁之间的运动向量，F_1→0表示I₁到I₀之间的运动向量，g表示后向还原网络采样函数，可以通过运动向量和前面一帧，还原后面一帧的内容。

本实施方式中，损失函数不局限于上述例举的损失函数类型，根据具体应用场景的不同，损失函数包括(不限于)：绝对值损失函数、log对数损失函数、平方损失函数、指数损失函数、Hinge损失函数、感知损失函数、交叉熵损失函数中的一种或者两种以上函数的组成的复合函数。

S2116、当所述特征差值大于预设的损失阈值，基于所述特征差值对所述第一初始模型和所述第二初始模型中的权重值进行反复迭代更新，直至所述特征差值小于等于所述损失阈值为止。

通过损失函数计算出样本帧图与训练升帧图像之间的特征差值，大于预设的损失阈值后，需要通过回传函数基于特征差值对第一初始模型和第二初始模型中的权重值进行校正，以使校正后第一初始模型和第二初始模型联合输出的训练升帧图像与样本帧图之间的特征差值趋向于小于等于损失阈值。

通过多次的迭代更新，反复的执行S2112-S2116之间的流程，当损失函数计算出样本帧图与训练升帧图像之间的特征差值，小于等于损失阈值后，完成对样本图集的训练。

对于插帧模型的训练是需要大量的样本图集进行训练的，训练的过程就是采用同的样本图集反复迭代的执行S2111-S2116之间的流程，直至插帧模型达到设定的收敛条件后为止。请参阅图6，图6为本实施例训练插帧模型整流程的流程示意图。

如图6所示，S2116之后包括：

S2120、通过若干所述样本图集对所述插帧模型进行反复迭代的监督训练，直至所述插帧模型符合预设的收敛条件为止；

对于插帧模型的训练需要大量的样本图集进行训练，具体地，使用不同的样本图集反复迭代的执行S2111-S2116之间的流程，每一轮训练都用于校正插帧模型中的权重参数，使插帧模型输出的训练升帧图像越来越逼近样本帧图。

通过反复训练直至插帧模型符合预设的收敛条件为止，本实施方式中，收敛条件为：迭代训练2000000次左右，且通过测试样本测试，模型输出的准确率达到95％或者更高时，插帧模型就符合了收敛条件。但是，收敛条件的设定不局限于此，根据具体应用场景的不同，在一些实施方式中，迭代训练的次数，以及准确率的设定都能够根据实际需要进行设定。

S2130、确定训练至收敛状态的所述第一初始模型为所述运动向量网络模型，所述第二初始模型为所述帧合成网络模型。

当插帧模型确定训练至收敛状态后，此时，第一初始模型和第二初始模型也处于收敛状态，定义第一初始模型为运动向量网络模型，第二初始模型为帧合成网络模型。

本申请可以通过实现了前述的方法的各个实施例的应用程序在计算机中的运行来构造一个相应的装置，具体请参阅图7，图7为本实施例视频插帧装置基本结构示意图。

如图7所示，一种视频插帧装置，包括：获取模块2100、提取模块2200、处理模块2300和读取模块2400。其中，获取模块2100用于获取待处理的目标视频；提取模块2200用于提取所述目标视频中的第一参考帧图和第二参考帧图，其中，所述第一参考帧图与所述第二参考帧图在时间轴上相邻；处理模块2300用于将所述第一参考帧图和第二参考帧图合并输入至预设的插帧模型中，其中，所述插帧模型为预先训练至收敛，用于根据所述第一参考帧图和第二参考帧图之间的运动向量对所述目标帧图，进行插帧处理的神经网络模型；读取模块2400用于读取所述插帧模型输出的升帧图像，并将所述升帧图像***至所述第一参考帧图和第二参考帧图之间。

视频插帧装置当确定需要进行插帧处理的目标视频时，读取目标视频中两个相邻的帧图像作为参考帧图，通过两张参考帧图提取两张帧图之间的运动向量，由于，运动向量能够表征两张参考帧图之间的过渡运动状态，因此，通过运动向量以及两张参考帧图插帧模型就能够生成，介于两张参考图之间的升帧图像。运动向量的引入，能够使升帧图像的图像画面显示两张参考帧图之间的中间状态，使插帧结果更加自然，极大的提高了用户体验。

在一些实施方式中，所述图像标准为帧率阈值，视频插帧装置还包括：第一获取子模块、第一比对子模块和第一执行子模块。其中，第一获取子模块用于获取待播放视频的帧率数据；第一比对子模块用于将所述帧率数据与所述帧率阈值进行比对；第一执行子模块用于当所述帧率数据表征的帧率值小于所述帧率阈值，确定所述待播放视频为所述目标视频。

在一些实施方式中，所述插帧模型包括运动向量网络模型，视频插帧装置还包括：第一输入子模块、第一生成子模块、第二生成子模块和第一叠加子模块。其中，第一输入子模块用于将所述第一参考帧图和第二参考帧图进行通道图像叠加后生成叠加图像，并将所述叠加图像输入至所述运动向量网络模型中，其中，所述运动向量网络模型为预先训练至收敛，用于提取图像之间运动向量的卷积神经网络模型；第一生成子模块用于所述运动向量网络模型通过卷积层对所述叠加图像进行卷积池化处理，生成下采样特征；第二生成子模块用于所述运动向量网络模型通过反卷积层对所述下采样特征进行插值处理，生成上采样特征；第一叠加子模块用于将所述下采样特征和所述上采样特征进行特征融合叠加生成所述运动向量。

在一些实施方式中，所述插帧模型包括帧合成网络模型，视频插帧装置还包括：第三生成子模块、第二输入子模块、第四生成子模块和第五生成子模块。其中，第三生成子模块用于对所述运动向量进行插值处理生成中间帧图；第二输入子模块用于将所述运动向量、中间帧图、第一参考帧图和第二参考帧图合并输入至所述帧合成网络模型中，其中，所述帧合成网络模型为预先训练至收敛状态，用于对图像进行插值处理的卷积神经网络模型；第四生成子模块用于所述帧合成网络模型对所述运动向量、中间帧图、第一参考帧图和第二参考帧图进行卷积处理，生成可见掩码图；第五生成子模块用于所述帧合成网络模型对所述可见掩码图和所述运动向量进行插值处理，生成所述升帧图像。

在一些实施方式中，视频插帧装置还包括：第一处理子模块、第三输入子模块、第一读取子模块、第四输入子模块、第二读取子模块和第二执行子模块。其中，第一处理子模块用于对预先采集的样本视频进行帧化处理生成样本图集，其中，所述样本图集包括：第一训练帧图、第二训练帧图和样本帧图，所述样本帧图位于所述第一训练帧图和第二训练帧图表征的时间区间内；第三输入子模块用于将所述第一训练帧图和第二训练帧图输入至预设的第一初始模型中，其中，所述第一初始模型为尚未训练至收敛状态，用于提取图像之间运动向量的卷积神经网络模型；第一读取子模块用于读取所述第一初始模型输出的训练运动向量，并根据训练运动向量的插值生成训练中间帧图；第四输入子模块用于将所述第一训练帧图、第二训练帧图、训练运动向量和训练中间帧图输入至预设的第二初始模型中，其中，所述第二初始模型为尚未训练至收敛状态，用于对图像进行插值处理的卷积神经网络模型；第二读取子模块用于读取所述第二初始模型输出的训练升帧图像，并根据预设的损失函数计算所述训练升帧图像与所述样本帧图之间的特征差值；第二执行子模块用于当所述特征差值大于预设的损失阈值，基于所述特征差值对所述第一初始模型和所述第二初始模型中的权重值进行反复迭代更新，直至所述特征差值小于等于所述损失阈值为止。

在一些实施方式中，视频插帧装置还包括：第二处理子模块和第三执行子模块。其中，第二处理子模块用于通过若干所述样本图集对所述插帧模型进行反复迭代的监督训练，直至所述插帧模型符合预设的收敛条件为止；第三执行子模块用于确定训练至收敛状态的所述第一初始模型为所述运动向量网络模型，所述第二初始模型为所述帧合成网络模型。

在一些实施方式中，视频插帧装置还包括：所述插帧模型包括损失函数，所述损失函数由重构差异函数和运动向量估计还原差异函数加权组成。

为解决上述技术问题，本申请实施例还提供一种计算机设备，用于运行根据所述视频插帧方法所实现的计算机程序。具体请参阅图8，图8为本实施例计算机设备基本结构框图。

如图8所示，计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种视频插帧方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种视频插帧方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图7中获取模块2100、提取模块2200、处理模块2300和读取模块2400的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有视频插帧装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备当确定需要进行插帧处理的目标视频时，读取目标视频中两个相邻的帧图像作为参考帧图，通过两张参考帧图提取两张帧图之间的运动向量，由于，运动向量能够表征两张参考帧图之间的过渡运动状态，因此，通过运动向量以及两张参考帧图插帧模型就能够生成，介于两张参考图之间的升帧图像。运动向量的引入，能够使升帧图像的图像画面显示两张参考帧图之间的中间状态，使插帧结果更加自然，极大的提高了用户体验。

本申请还提供一种非易失性存储介质，所述的视频插帧方法被编写成计算机程序，以计算机可读指令的形式存储于该存储介质中，计算机可读指令被一个或多个处理器执行时，意味着该程序在计算机中的运行，由此使得一个或多个处理器执行上述任一实施例视频插帧方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频插帧方法，其特征在于，包括：

获取待处理的目标视频；

将所述第一参考帧图和第二参考帧图合并输入至预设的插帧模型中，其中，所述插帧模型为预先训练至收敛，用于根据所述第一参考帧图和第二参考帧图之间的运动向量对所述目标视频进行插帧处理的神经网络模型；

2.根据权利要求1所述的视频插帧方法，其特征在于，所述图像标准为帧率阈值，所述获取待处理的目标视频包括：

获取待播放视频的帧率数据；

将所述帧率数据与所述帧率阈值进行比对；

3.根据权利要求1所述的视频插帧方法，其特征在于，所述插帧模型包括运动向量网络模型，所述将所述第一参考帧图和第二参考帧图合并输入至预设的插帧模型中包括：

4.根据权利要求3所述的视频插帧方法，其特征在于，所述插帧模型包括帧合成网络模型，所述将所述第一参考帧图和第二参考帧图合并输入至预设的插帧模型中包括：

对所述运动向量进行插值处理生成中间帧图；

5.根据权利要求4所述的视频插帧方法，其特征在于，所述插帧模型的训练方法包括：

6.根据权利要求5所述的视频插帧方法，其特征在于，所述基于所述特征差值对所述第一初始模型和所述第二初始模型中的权重值进行反复迭代更新，直至所述特征差值小于等于所述损失阈值为止之后包括：

7.根据权利要求1-6任意一项所述的视频插帧方法，其特征在于，所述插帧模型包括损失函数，所述损失函数由重构差异函数和运动向量估计还原差异函数加权组成。

8.一种视频插帧装置，其特征在于，包括：

获取模块，用于获取待处理的目标视频；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述视频插帧方法的步骤。

10.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述视频插帧方法的步骤。