CN114007135B - 视频插帧方法及其装置、设备、介质、产品 - Google Patents

视频插帧方法及其装置、设备、介质、产品 Download PDF

Info

Publication number
CN114007135B
CN114007135B CN202111267436.3A CN202111267436A CN114007135B CN 114007135 B CN114007135 B CN 114007135B CN 202111267436 A CN202111267436 A CN 202111267436A CN 114007135 B CN114007135 B CN 114007135B
Authority
CN
China
Prior art keywords
frame
image
optical flow
frame images
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111267436.3A
Other languages
English (en)
Other versions
CN114007135A (zh
Inventor
叶艾彦
戴长军
丘文威
冯进亨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huanju Mark Network Information Co ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202111267436.3A priority Critical patent/CN114007135B/zh
Publication of CN114007135A publication Critical patent/CN114007135A/zh
Application granted granted Critical
Publication of CN114007135B publication Critical patent/CN114007135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开一种视频插帧方法及其装置、设备、介质、产品,所述方法包括:获取待插帧处理的目标视频,提取出所述目标视频中在时域上连续的两个参考帧图;由预训练的光流预测模型计算两个参考帧图之间的过渡帧图相对于两个参考帧图的光流预测向量;由预训练的插帧合成模型根据所述光流预测向量与所述两个参考帧图的图像特征向量生成所述过渡帧图的残差信息,所述残差信息包含残差值及图像映射权重;由预训练的插帧合成模型参考所述两个参考帧图,根据所述各个向量与所述残差信息生成所述过渡帧图,将过渡帧图***两个参考帧图之间用于播放。本申请实现了端对端对目标视频进行插帧以提升其视频显示质量的效果,应用前景广阔。

Description

视频插帧方法及其装置、设备、介质、产品
技术领域
本申请涉及视频图像处理技术,尤其涉及一种视频插帧方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
为了提升视频的图像质量,对于帧率较低的视频流,可采用视频插帧技术为其补充过渡帧,使视频流被播放时呈现丝滑流畅的显示效果。现有技术中,对视频进行插帧以提升其图像质量的方式有多种实现途径,不同的实现途径取得的显示效果大同小异,其中较为广泛使用的方式是借助卷积神经网络模型对视频图像进行特征提取和光流预测,在此基础上生成过渡帧。
经本申请人实测,现有技术中多种已知的网络架构,在其对视频图像进行插帧处理所获得的播放效果中,都不太理想,因此,本申请人希望通过探索来对现有技术做出相应的贡献,以便实现更佳的视频播放效果。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种视频插帧方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种视频插帧方法,包括如下步骤:
获取待插帧处理的目标视频,提取出所述目标视频中在时域上连续的两个参考帧图;
由预训练的光流预测模型计算两个参考帧图之间的过渡帧图相对于两个参考帧图的光流预测向量;
由预训练的插帧合成模型根据所述光流预测向量与所述两个参考帧图的图像特征向量生成所述过渡帧图的残差信息,所述残差信息包含残差值及图像映射权重;
由预训练的插帧合成模型参考所述两个参考帧图,根据所述各个向量与所述残差信息生成所述过渡帧图,将过渡帧图***两个参考帧图之间用于播放。
深化的实施例中,获取待插帧处理的目标视频,提取出所述目标视频中在时域上连续的两个参考帧图,包括如下步骤:
获取待播放视频的帧率数据;
将所述帧率数据与预定帧率阈值进行比对;
当所述帧率数据表征的帧率值小于所述帧率阈值,确定所述待播放视频为所述目标视频;
沿所述目标视频的时域提取出两两参考帧图以进行插帧处理。
深化的实施例中,由预训练的光流预测模型计算两个参考帧图之间的过渡帧图相对于两个参考帧图的光流预测向量,包括如下步骤:
将所述两个参考帧图进行通道图像叠加后生成叠加图像;
通过卷积层对所述叠加图像进行卷积池化处理,生成下采样特征;
通过反卷积层对所述下采样特征进行插值处理,生成上采样特征;
将所述下采样特征和所述上采样特征进行特征融合叠加生成过渡帧图相对于两个参考帧图的光流预测向量。
深化的实施例中,由预训练的插帧合成模型根据所述光流预测向量与所述两个参考帧图的图像特征向量生成所述过渡帧图的残差信息,包括如下步骤:
由预训练的图像特征提取模型提取所述两个参考帧图的图像特征向量;
由所述插帧合成模型根据两个图像特征向量与其相应的光流预测向量计算出过渡帧图相对应的所述残差值;
由所述插帧合成模型以两个参考帧图为参考,合成出用于表征所述图像映射权重的掩码图。
深化的实施例中,由预训练的插帧合成模型参考所述两个参考帧图,根据所述各个向量与所述残差信息生成所述过渡帧图,将过渡帧图***两个参考帧图之间用于播放,包括如下步骤:
根据所述光流预测向量分别对两个参考帧图进行相应的图像变换,获得两个映射帧图;
以所述图像映射权重为超参数对两个映射帧图进行平滑合成,获得融合帧图;
将所述融合帧图叠加所述残差值获得过渡帧图。
扩展的实施例中,所述光流计算模型与插帧合成模型被联合训练,其训练过程包括如下步骤:
对预先采集的样本视频进行帧化处理生成样本图集,其中,所述样本图集包括:两个训练帧图和样本帧图,所述样本帧图位于所述两个训练帧图相对应的时间区间内;
将所述两个训练帧图输入至预训练至收敛状态的光流计算模型中计算出其自身的光流真实向量;
将所述两个训练帧图输入至在训练的所述光流预测模型中计算出过渡帧图相对于该两个训练帧图的光流预测向量;
将所述两个训练帧图输入至预训练至收敛状态的图像特征提取模型中获得其相对应的两个图像特征向量;
将两个训练帧图及其图像特征向量、光流预测向量输入至在训练的所述插帧合成模型中计算残差信息,获得相应的过渡帧图;
根据预设的损失函数计算所述过渡帧图与所述样本帧图之间的损失值,当所述损失值大于预设的损失阈值时继续迭代训练,所述损失值为多个差值的加权和,所述多个差值包括:光流预测向量与光流真实向量之间的损失差值、所述样本帧图与所述过渡帧图之间语义特征的均方误差、所述样本图像与根据所述残差信息计算的映射帧图之间的绝对误差。
适应本申请的目的之一而提供的一种视频插帧装置,包括:参考引用模块、光流预测模块、残差生成模块,以及插帧合成模块,其中,所述参考引用模块,用于获取待插帧处理的目标视频,提取出所述目标视频中在时域上连续的两个参考帧图;所述光流预测模块,用于由预训练的光流预测模型计算两个参考帧图之间的过渡帧图相对于两个参考帧图的光流预测向量;所述残差生成模块,用于由预训练的插帧合成模型根据所述光流预测向量与所述两个参考帧图的图像特征向量生成所述过渡帧图的残差信息,所述残差信息包含残差值及图像映射权重;所述插帧合成模块,用于由预训练的插帧合成模型参考所述两个参考帧图,根据所述各个向量与所述残差信息生成所述过渡帧图,将过渡帧图***两个参考帧图之间用于播放。
深化的实施例中,所述参考引用模块包括:帧率获取子模块,用于获取待播放视频的帧率数据;帧率比对子模块,用于将所述帧率数据与预定帧率阈值进行比对;视频确定子模块,用于当所述帧率数据表征的帧率值小于所述帧率阈值,确定所述待播放视频为所述目标视频;插帧启动子模块,用于沿所述目标视频的时域提取出两两参考帧图以进行插帧处理。
深化的实施例中,所述光流预测模块包括:通道合并子模块,用于将所述两个参考帧图进行通道图像叠加后生成叠加图像;卷积池化子模块,用于通过卷积层对所述叠加图像进行卷积池化处理,生成下采样特征;反卷积池化子模块,用于通过反卷积层对所述下采样特征进行插值处理,生成上采样特征;预测生成子模块,用于将所述下采样特征和所述上采样特征进行特征融合叠加生成过渡帧图相对于两个参考帧图的光流预测向量。
深化的实施例中,所述残差生成模块包括:特征提取子模块,用于由预训练的图像特征提取模型提取所述两个参考帧图的图像特征向量;残差计算子模块,用于由所述插帧合成模型根据两个图像特征向量与其相应的光流预测向量计算出过渡帧图相对应的所述残差值;信息产出子模块,用于由所述插帧合成模型以两个参考帧图为参考,合成出用于表征所述图像映射权重的掩码图。
深化的实施例中,所述插帧合成模块包括:图像变换子模块,用于根据所述光流预测向量分别对两个参考帧图进行相应的图像变换,获得两个映射帧图;平滑合成子模块,用于以所述图像映射权重为超参数对两个映射帧图进行平滑合成,获得融合帧图;融合生成子模块,用于将所述融合帧图叠加所述残差值获得过渡帧图。
扩展的实施例中,所述光流计算模型与插帧合成模型被联合训练,其训练装置包括:图集生成模块,用于对预先采集的样本视频进行帧化处理生成样本图集,其中,所述样本图集包括:两个训练帧图和样本帧图,所述样本帧图位于所述两个训练帧图相对应的时间区间内;光流计算模块,用于将所述两个训练帧图输入至预训练至收敛状态的光流计算模型中计算出其自身的光流真实向量;光流预测模块,用于将所述两个训练帧图输入至在训练的所述光流预测模型中计算出过渡帧图相对于该两个训练帧图的光流预测向量;特征提取模块,用于将所述两个训练帧图输入至预训练至收敛状态的图像特征提取模型中获得其相对应的两个图像特征向量;综合生成模块,用于将两个训练帧图及其图像特征向量、光流预测向量输入至在训练的所述插帧合成模型中计算残差信息,获得相应的过渡帧图;梯度更新模块,用于根据预设的损失函数计算所述过渡帧图与所述样本帧图之间的损失值,当所述损失值大于预设的损失阈值时继续迭代训练,所述损失值为多个差值的加权和,所述多个差值包括:光流预测向量与光流真实向量之间的损失差值、所述样本帧图与所述过渡帧图之间语义特征的均方误差、所述样本图像与根据所述残差信息计算的映射帧图之间的绝对误差。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的视频插帧方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的视频插帧方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请的优势如下:
本申请利用目标视频中的每两个时域上连续的参考帧图进行过渡帧图相对对于该两个参考帧图的光流预测向量的预测,再将光流预测向量与该两个参考帧的图像特征向量确定过渡帧图相对应的残差信息,然后参考两个参考帧图根据残差信息生成两个参考帧图之间的过渡帧图,以该过渡帧图***该两个参考帧图之间进行播放,完成插帧过程。此一过程基于端到端机制,只需输入目标视频即可实现插帧,由于插帧的过程中根据残差信息生成过渡帧图,而残差信息的生成又可根据的性格这光流预测向量获得,残差信息的计算更为高效,因此,实现本申请的相关网络架构,不仅在生产阶段能够获得更优质的过渡帧图用于提升目标视频的播放质量,而且在其训练的阶段更易快速收敛,提升网络架构的训练效率,从而有效降低训练成本。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的视频插帧方法的典型实施例的流程示意图;
图2为本申请实施例中提取两个参考帧图的过程的流程示意图;
图3为本申请实施例中根据两个参考帧图获取光流预测向量的流程示意图;
图4为本申请实施例中获取残差信息的过程流程示意图;
图5为本申请实施例中进行图像变换以生成过渡帧图的过程的流程示意图;
图6为用于实施本申请的视频插帧方法的网络架构的训练过程的流程示意图;
图7为用于实施本申请的视频插帧方法的网络架构的原理框图,其中虚线部分仅在训练过程中启用,在该网络架构投入生产阶段时不启用;
图8为本申请的视频插帧装置的原理框图;
图9为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信***),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位***)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种视频插帧方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的网络视频直播应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的视频插帧方法在其典型实施例中,包括如下步骤:
步骤S1100、获取待插帧处理的目标视频,提取出所述目标视频中在时域上连续的两个参考帧图:
本实施方式中的目标视频是指被选定用于进行插帧处理,提升视频帧率的待处理视频。
目标视频能够为通过服务器端发送至终端中的网络视频,也能够是存储在终端本地的本地视频。根据具体实施方式的不同,在一些实施方式中,本实施方式中的视频插帧方法还能够被用于处理终端上传的视频数据,此时,目标视频即为终端上传的视频。
目标视频的取得可以事先进行筛选,筛选的方式主要包括:通过码率或者帧率进行筛选。具体地,当目标视频为网络传输视频时,终端接收到服务器端发送的视频数据后,读取网络端口该视频数据的码率,当码率低于预设的码率阈值时,确定该视频数据为目标视频。当视频为本地视频时,终端读取该视频的帧率参数,当帧率参数表征的数值小于帧率阈值时,确定该视频数据为目标视频。在一些实施方式中,视频插帧方法被用于处理终端上传的视频数据时,服务器端读取终端上传数据的码率,当码率低于预设的码率阈值时,确定该上传视频数据为目标视频。
当确定目标视频后,提取目标视频中的在时域上连续的两张帧图,定义这两张帧图为第一参考帧图和第二参考帧图,第一参考帧图和第二参考帧图在时间轴上连续,顺序相接,以便通过本申请的技术方案的实施在该两个参考帧图中***过渡帧图。
在一些实施方式中,第一参考帧图和第二参考帧图的选取需要考虑场景转换的需求。如果两个参考帧图是转场前后的两个场景的不同画面,此时可以不必对该两个参考帧图***所述过渡帧图。为此,可将该两个参考帧图输入预训练的转场分类模型中进行判断,如果判断为转场前后的两张图像,此时可不对其进行插帧,如果判断出两个参考帧图之间存在图像之间的过渡关系,则可在两者之间进行插帧。可以理解,所述的转场分类模型经预训练至收敛状态,适于根据两个参考帧图是否存在图像自然过渡关系进行判断,以便服务于本申请的需要。
步骤S1200、由预训练的光流预测模型计算两个参考帧图之间的过渡帧图相对于两个参考帧图的光流预测向量:
所述的光流预测模型,被预训练至收敛状态,用于根据两个参考帧图计算两者之间的过渡帧图相对于该两个参考帧图的光流预测向量。所述光流预测向量用于表征过渡帧图中的运动像素相对于两个参考帧图的相应运动像素之间的运动向量。因此,包含第一光流预测向量和第二光流预测向量,分别是所述过渡帧图相对于第一参考帧图和第二参考帧图相对应的光流预测向量。
所述光流预测模型采用基于卷积层的神经网络模型来实现,具体地,所述光流预测模型将第一参考帧图和第二参考帧图进行像素叠加,像素叠加的时候,第一参考帧图和第二参考帧图的图像尺寸调整一致,将两张参考帧图按RGB颜色分别拆分成三个颜色通道,分别为红色、绿色和蓝色通道,然后,以通道颜色为类别,将同类别中的图像进行加权叠加,三个通道分别叠加后,将叠加后的三个通道图像进行合并生成叠加图像。
对所述的叠加图像提取过渡帧相对于第一参考帧图和第二参考帧图之间的运动向量,因此,叠加图像通光流预测模型的卷积层进行特征提取后,得到第一参考帧图和第二参考帧图之间的光流预测向量,光流预测向量表征第一参考帧图和第二参考帧图之间的变化态。
步骤S1300、由预训练的插帧合成模型根据所述光流预测向量与所述两个参考帧图的图像特征向量生成所述过渡帧图的残差信息,所述残差信息包含残差值及图像映射权重:
利用一个预训练的插帧合成模型用于生成所述第一参考帧图与第二参考帧图之间的残差信息,以便进一步根据这些残差信息生成相应的过渡帧图。
所述的插帧合成模型预先被训练至收敛状态,使其习得依据所述光流预测向量与第一参考帧图、第二参考帧图的图像特征向量生成过渡帧图的残差信息的能力。
第一参考帧图与第二参考帧图的图像特征向量,可以采用预训练至收敛状态的卷积神经网络模型来提取,例如基于Resnet架构的相关卷积神经网络模型,或者基于EfficientNet架构的神经网络模型,只要能够实现对图像进行特征表示即可。
从两个参考帧图提取出的图像特征向量,以及所述的光流预测向量,连同所述的两个参考帧图的原图,被一同输入至所述的插帧合成模型中进行残差信息的计算。因此,可以理解,所述插帧合成模型也可以采用基于残差卷积的神经网络模型来实现,例如基于Resnet架构。
所述插帧合成模型可以根据两个图像特征向量及其相应的光流预测向量计算出过渡帧图的残差信息,所述残差信息包括残差值和图像映射权重。所述残差值也是一个向量,用于表征过渡帧图根据光流预测向量计算的相对于所述两个参考帧图的图像差值,所述图像映射权重对应到由所述插帧合成模型生成的二值化掩码图,也即,所述插帧合成模型根据所述两个参考帧图的图像特征向量及所述的光流预测向量计算获得过渡帧图中关于光流映射后的掩码图,该掩码图相对应的二值化像素值可以作用后续用于生成过渡帧图的图像映射权重。
所述插帧合成模型可以采用基于图像分割原理的网络架构来实现,例如Unet系列,在合成两个参考帧图的图像特征向量与相应的光流预测向量的基础上,通过逐级降采样和升采样,来获得多尺度相对应的掩码图,最终将这些掩码图全连接获得最终输出的构成所述图像映射权重的掩码图。应当理解,Unet架构也是应用了残差原理的。
步骤S1400、由预训练的插帧合成模型参考所述两个参考帧图,根据所述各个向量与所述残差信息生成所述过渡帧图,将过渡帧图***两个参考帧图之间用于播放:
最后,插帧合成模型以所述两个参考帧图为还原过渡帧图的图像内容的参考,根据所述的残差信息中的掩码图计算出过渡帧图相对于两个参考帧图的图像内容,然后叠加所述残差信息中的残差值,即可获得所述的过渡帧图。
通过以上计算获得的过渡帧图,被***到所述的第一参考帧图和第二参考帧图之间进行播放。以此为基本过程,沿目标视频的时域循环执行本方法的各个步骤,针对两两连续参考帧图进行插帧,便可提升目标视频的图像质量,使目标视频的播放效果更为流畅丝滑。
本申请利用目标视频中的每两个时域上连续的参考帧图进行过渡帧图相对对于该两个参考帧图的光流预测向量的预测,再将光流预测向量与该两个参考帧的图像特征向量确定过渡帧图相对应的残差信息,然后参考两个参考帧图根据残差信息生成两个参考帧图之间的过渡帧图,以该过渡帧图***该两个参考帧图之间进行播放,完成插帧过程。此一过程基于端到端机制,只需输入目标视频即可实现插帧,由于插帧的过程中根据残差信息生成过渡帧图,而残差信息的生成又可根据的性格这光流预测向量获得,残差信息的计算更为高效,因此,实现本申请的相关网络架构,不仅在生产阶段能够获得更优质的过渡帧图用于提升目标视频的播放质量,而且在其训练的阶段更易快速收敛,提升网络架构的训练效率,从而有效降低训练成本。
请参阅图2,深化的实施例中,所述步骤S1100、获取待插帧处理的目标视频,提取出所述目标视频中在时域上连续的两个参考帧图,包括如下步骤:
步骤S1110、获取待播放视频的帧率数据:
用户终端通过指令对待播放的视频进行播放时,读取该待播放视频的帧率数据。本实施方式中的待播放视频包括由服务器端发送的网络视频,以及存储在用户终端本地存储空间内的本地视频。
步骤S1120、将所述帧率数据与预定帧率阈值进行比对:
将获取到的帧率数据与预设的帧率阈值进行比对,其中,帧率阈值的数值设定能够根据视频播放帧率的最低标准设定,也能够根据待播放视频的原视频帧率进行设定,例如,当服务器向用户终端发送视频数据时,将服务器端视频数据的帧率数据发送至用户终端,用户终端接收到服务器端发送的帧率数据后,将该帧率数据设定为帧率阈值。
步骤S1130、当所述帧率数据表征的帧率值小于所述帧率阈值,确定所述待播放视频为所述目标视频:
当帧率数据表征的帧率值小于帧率阈时,则确定待播放视频为需要进行插帧操作的目标视频。当帧率数据表征的帧率值大于等于帧率阈时,则确定该待播放视频无需进行插值处理。
在一些实施方式中,当播放视频中出现卡顿时,截取卡顿视频所在的时间段的视频为目标视频并对目标视频进行插帧处理,进而消除视频卡顿现象。
在一些实施方式中,插帧模型包括运动向量网络模型,运动向量网络模型用于提取第一参考帧图和第二参考帧图的运动向量。
步骤S1140、沿所述目标视频的时域提取出两两参考帧图以进行插帧处理:
确定所述的目标视频之后,便可沿时域执行本申请的后续步骤,进行插帧处理。所述两两参考帧图,是指目标视频在时域上连续的两个视频帧,由此可以理解,每个视频帧既作为第二参考帧图与其时域上在先相邻的第一参考帧图进行关联插帧,也作为第一参考帧图与其时域上在后相邻的第二参考帧图进行关联插帧。
本实施例通过识别待播放视频的帧率数据来决定是否对待播放视频启动插帧操作,可以自适应根据网络传输情况和视频质量做出是否插帧的决策,自动地为视频流进行智能图像增强处理,有效消除图像卡顿、不流畅等低质播放现象,从而改善用户体验。
请参阅图3,深化的实施例中,所述步骤S1200、由预训练的光流预测模型计算两个参考帧图之间的过渡帧图相对于两个参考帧图的光流预测向量,包括如下步骤:
步骤S1210、将所述两个参考帧图进行通道图像叠加后生成叠加图像:
将第一参考帧图和第二参考帧图进行像素叠加,像素叠加的时候,第一参考帧图和第二参考帧图的图像尺寸调整一致,将两张参考帧图按RGB颜色分别拆分成三个颜色通道,分别为红色、绿色和蓝色通道,然后,以通道颜色为类别,将同类别中的图像进行加权叠加,三个通道分别叠加后,将叠加后的三个通道图像进行合并生成叠加图像。
将叠加图像输入到光流预测模型中,光流预测模型为预先训练至收敛,用于提取图像之间运动向量的卷积神经网络模型。
在一些实施方式中,光流预测模型采用的模型为:U-net网络模型。U-net网络结构包括两个对称部分:前面一部分网络与普通卷积网络相同,使用了3x3的卷积和池化下采样,能够抓住图像中的上下文信息;后面部分网络则是与前面基本对称,使用的是3x3反卷积层和上采样,以达到输出图像分割的目的。此外,网络中还用到了特征融合,将前面部分下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息,达到更好的分割效果。在一些实施方式中,光流预测模型还能够为U2-net网络模型。典型的,可采用Flownet来实现所述的光流预测模型,Flownet也应用了所述的U-net架构,更适用于插帧过程所需。
在一些实施方式中,光流预测模型采用的模型还能够为(不限于):卷积神经网络模型、深度卷积神经网络模型、循环神经网络模型或者上述神经网络模型的变种模型。
步骤S1220、通过卷积层对所述叠加图像进行卷积池化处理,生成下采样特征:
叠加图像被输入至光流预测模型中后,光流预测模型中的卷积层对叠加图像进行卷积和池化处理,提取叠加图像中的下采样特征,上述这个流程成为对叠加图像进行下采样,下采样的过程中,光流预测模型对折叠图像进行特征提取和图像缩放。
步骤S1230、通过反卷积层对所述下采样特征进行插值处理,生成上采样特征:
通过卷积层对叠加图像进行特征提取和缩小后,光流预测模型通过与卷积层对对称的反卷积层对缩小后的图像进行插值处理,插值处理的过程中同时提取叠加图像的上采样特征,上述这个处理过程为上采样,上采样的过程中通过插值处理的方式提取图像特征并放大被缩小的叠加图像。
步骤S1240、将所述下采样特征和所述上采样特征进行特征融合叠加生成过渡帧图相对于两个参考帧图的光流预测向量:
光流预测模型在经过卷积和反卷积处理后,生成叠加图像的下采样特征和上采样特征,然后,对下采样特征和上采样特征进行融合叠加,融合叠加的过程就是对卷积和反卷积图像进行对应的特征进行加权得到一个融合后的运动向量。
具体地,光流预测模型包括:第一卷积层、第二卷积层、第三卷积层、第一反卷积层、第二反卷积层和第三反卷积层。其中,第一卷积层与第一反卷积层相互对称,第二卷积层与第二反卷积层相互对称,第三卷积层与第三反卷积层相互对称。第一卷积层对叠加图像进行特征提取后,将提取的特征同步至第二卷基层和第一反卷积层中,第二卷积层进行特征提取后,将提取的特征同步到第三卷积层和第二反卷积层,以此类推,叠加图像经过一个“U”形卷积层提取路径后,最终由第三反卷积层输出光流预测向量。在这个过程中,第一反卷积层、第二反卷积层和第三反卷积层进行特征提取的过程中,既能够接收由上一级卷积层同步的特征,又能够接收由与之对应的卷积层同步的特征,因此,下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息。
光流预测模型在得到第一参考帧图和第二参考帧图的光流预测向量后,将其输入至插帧合成模型中做进一步的处理。
本实施例中,通过预训练的光流预测模型经过对两个参考帧图进行降采样和升采样的过程中提取出过渡帧相对于两个参考帧图的光流预测向量,为后续进行插帧奠定了基础。
请参阅图4,深化的实施例中,所述步骤S1300、由预训练的插帧合成模型根据所述光流预测向量与所述两个参考帧图的图像特征向量生成所述过渡帧图的残差信息,包括如下步骤:
步骤S1310、由预训练的图像特征提取模型提取所述两个参考帧图的图像特征向量:
本实施例中,可以先对所述两个参考帧图提取其相应的图像特征向量,借助预训练的图像特征提取模型实现即可。所述图像特征提取模型也是基于卷积神经网络实现的,推荐采用基于残差架构的模型来构造。本领域技术人员对此均能理解。
步骤S1320、由所述插帧合成模型根据两个图像特征向量与其相应的光流预测向量计算出过渡帧图相对应的所述残差值:
在先已经获得了第一参考帧图和第二参考帧图相对应的图像特征向量的基础上,还获得了过渡帧图相对于两个参考帧图的光流预测向量,因此,可以采用一个残差卷积神经网络模型来计算生成过渡帧图所需的残差信息。可以理解,这一网络模型已经通过训练适于计算过渡帧图与两个参考帧图之间的残差值。
步骤S1330、由所述插帧合成模型以两个参考帧图为参考,合成出用于表征所述图像映射权重的掩码图:
所述插帧合成模型也可同理采用所述的U-net架构来实现,据此,可以理解,其在对两个参考帧图的叠加图像融合所述光流预测向量进行多尺度的下采样和上采样后,获得多个尺度的掩码图,在此基础上,将这些不同尺度的掩码图进行全连接,获得最终对应于所述过渡帧图的掩码图,该掩码图后续将被利用,以便最终生成所述的过渡帧图进行插帧。
本实施例中,插帧合成模型对根据其他模型的产出进行残差计算,获得后续生成过渡帧图所需的残差信息,即所述的残差值及掩码图,所述掩码图实际上是相应的图像映射权重的像素化结果,所述图像映射权重后续可以作为超参数用于在两个参考帧图中进行平滑以生成相应的过渡帧图。本实施例基于残差卷积神经网络模型来实现对各项产出信息相对应的残差信息的计算,其对应的网络架构更易于被训练收敛,模型收敛速度更快,并且,所需出的残差信息能更精准地表达过渡帧图生成所需的关联信息。
请参阅图5深化的实施例中,所述步骤S1400、由预训练的插帧合成模型参考所述两个参考帧图,根据所述各个向量与所述残差信息生成所述过渡帧图,将过渡帧图***两个参考帧图之间用于播放,包括如下步骤:
步骤S1410、根据所述光流预测向量分别对两个参考帧图进行相应的图像变换,获得两个映射帧图:
首先,可以借助图像变换手段,生成两个映射帧图,请参考如下公式:
warp0=warp(I0,F0)
warp1=warp(I1,F1)
其中,I0和I1分别表示第一参考帧图和第二参考帧图,F0和F1分别表示过渡帧图相对于第一参考帧图和第二参考帧图的光流预测向量,warp0和warp1即为过渡帧图相对于第一参考帧图和第二参考帧图得到的两个映射帧图。
步骤S1420、以所述图像映射权重为超参数对两个映射帧图进行平滑合成,获得融合帧图:
在获得所述两个映射帧图的基础上,以所述的掩码图对应的权重数据,即所述的图像映射权重,将其作为超参数,对两个映射帧图进行平滑合成,由此而生成过渡帧图相对应的融合帧图。请参阅如下公式所示:
merge=mask×warp0+(1-mask)×warp1
由该公式可以看出,merge是以所述掩码图mask为超参数,对两个映射帧图warp0和warp1进行平滑加权求和的结果,可以理解,掩码图mask中的图像映射权重相对应的各个权重值均预先被归一化到0至1的区间,因此可将其作为超参数进行平滑合成。
步骤S1430、将所述融合帧图叠加所述残差值获得过渡帧图:
最后只要将所述融合帧图与插帧合成模型求得的残差值res进行向量加和,即可得到所述的过渡帧图,公式如下:
It=merge+res
至此,可以理解,本实施例利用依据两个参考帧图及其相对应光流预测向量获得的残差信息,包括其中的残差值及掩码图,以其中的掩码图的像素数值作为用于平滑两个参考帧图的权重参数,获得融合帧图叠加所述的残差值,最终生成所述的过渡帧图,给出了整个过渡帧图的构造过程,可以看出,利用残差原理进行过渡帧图的生成,区别于现有技术,由于是基于图像的残差计算,提高了插帧的准确度和精细度;同时由于直接输出插帧图像,减少了网络后处理的计算时间,概括而言,能够更快速更准确地生成插帧所需的过渡帧图,使插帧后的目标视频的播放效果更加流畅自然。
请参阅图6,扩展的实施例中,采用如图7所示的网络架构对本申请的各个相关模型实施训练,该网络架构中,包括用于计算两个参考帧图的光流真实向量的预训练的光流计算模型、用于预测所述两个参考帧图的光流预测向量的光流预测模型,用于提取所述两个参考帧图的图像特征向量的已预训练的图像特征提取模型,用于根据以上各个模型的产出进行插帧的插帧合成模型。其中,所述光流计算模型起到教师网络的作用,用于指导所述光流预测模型的训练。
根据此一网络架构,本申请通过创建训练任务实施对所述光流计算模型与插帧合成模型被联合训练,其训练过程包括如下步骤:
步骤S2100、对预先采集的样本视频进行帧化处理生成样本图集,其中,所述样本图集包括:两个训练帧图和样本帧图,所述样本帧图位于所述两个训练帧图相对应的时间区间内:
首先应当准备用于模型训练的样本。本实施方式中,训练样本的准备过程如下:采集用于进行模型训练的样本视频,将样本视频进行帧化处理,帧化处理就是将样本视频拆分成按时间轴排布的若干帧图。将帧化处理后的序列帧图,按每4张为一个样本集进行打包,每一个打包数据称之为一个样本图集。但是,样本图集的组成不局限于此,根据具体应用场景的不同,在一些实施方式中,将序列帧图中连续3张、5张、6张或者更多张的帧图打包成样本图集。
样本图集中包括:第一训练帧图、第二训练帧图和样本帧图,其中,样本帧图位于第一训练帧图和第二训练帧图表征的时间区间内随机选取而得。具体地,将样本图集中位于第一序列和最后序列的帧图选为第一训练帧图和第二训练帧图,在剩余的帧图中随机选择一张帧图作为样本帧图。故此可知,所述第一训练帧图即为第一参考帧图I0,所述第二训练帧图即为第二参考帧图I1
例如,在一些实施方式中对样本视频的原始帧进行提取,然后按照视频播放的序列顺序存放,对提取出来图像进行缩放到分辨率为宽为256像素,高为256像素值,最后将这些序列图像按照4帧(Frame0,Frame1,Frame2,Frame3)一组进行打包处理,在训练过程中,可以任意选取中间1帧(Frame1,Frame2)作为样本帧图It,Frame0和Frame3分别作为第一训练帧图和第二训练帧图,从而获得样本图集(I0,It,I1)。
在一些实施方式中,为了增强插帧模型的鲁棒性,需要对第一训练帧图和第二训练帧图进行图像增强处理,增强处理的方式包括对第一训练帧图和第二训练帧图进行(不限于):随机裁剪、方向的随机旋转和添加随机噪声、进行正则化处理等操作。
多个所述的样本图集可以构成样本库,在训练过程中可以应用K折交叉验证法,将所述样本库中的样本图集按照9:1的比例划分为训练集和测试集,其中测试集在样本图集中轮流替换,使得每个样本图集均被享受一次充当测试集成员的机会,K折交叉验证法有利于减少对样本图集的依赖,促成本申请的网络架构中的各个相关模型快速收敛。
步骤S2200、将所述两个训练帧图输入至预训练至收敛状态的光流计算模型中计算出其自身的光流真实向量:
使用样本图集进行模型训练时,将第一训练帧图和第二训练帧图叠加输入至光流计算模型中,图像叠加是指将第一训练帧图和第二训练帧图对应点的像素点进行加权运算。
将合并后的第一训练帧图和第二训练帧图输入至光流计算模型中。光流计算模型为一个已经被预训练的适于计算出两个训练帧图之间的光流真实向量的模型,是与本申请的光流预测模型同样用于提取图像之间运动向量的卷积神经网络模型。
所述光流计算模型可以基于U-net网络模型、U2-net网络模型、卷积神经网络模型、深度卷积神经网络模型、循环神经网络模型或者上述神经网络模型的变种模型来实现,推荐的已知模型可采用Flownet来实现。
步骤S2300、将所述两个训练帧图输入至在训练的所述光流预测模型中计算出过渡帧图相对于该两个训练帧图的光流预测向量:
与前一步骤,同理,将所述第一训练帧图与第二训练帧图进行图像叠加后输入在训练的光流预测模型中进行光流预测,获得相应的光流预测向量。所述光流预测模型可以采用与所述光流计算模型相同的网络架构。
可以理解,光流计算模型及光流预测模型均可获得损失函数的损失值,两个损失值之间的均方误差即为其彼此间的损失差值,后续在本申请的网络架构被反向传播进行梯度更新时,将促使这一损失差值最小化,使所述光流预测模型的对光流的预测能力不断逼近真实值,因此,光流计算模型在此一过程中起到指导光流预测模型进行训练的作用,帮助光流预测模型实现快速收敛。
步骤S2400、将所述两个训练帧图输入至预训练至收敛状态的图像特征提取模型中获得其相对应的两个图像特征向量:
所述图像特征提取模型可以采用预训练至收敛状态的多种公知模型,请参阅前文各实施例的揭示即知,此处恕不赘述。在此基础上,利用所述图像特征提取模型将分别将两个训练帧图的图像特征向量提取出来。
步骤S2500、将两个训练帧图及其图像特征向量、光流预测向量输入至在训练的所述插帧合成模型中计算残差信息,获得相应的过渡帧图:
关于所述插帧合成模型的工作原理,可参阅前文典型实施例中已经揭示的内容。在本实施例中,插帧合成模型是在训练的模型,其针对所述两个训练帧图相对应的图像特征向量及相应的光流预测向量,便可计算出相应残差信息。在获取残差信息的基础上,参考所述第一训练帧图和第二训练帧图及其相应的光流预测向量进行图像变换,获得融合帧图,再叠加所述的残差值,获得过渡帧图。
步骤S2600、根据预设的损失函数计算所述过渡帧图与所述样本帧图之间的损失值,当所述损失值大于预设的损失阈值时继续迭代训练,所述损失值为多个差值的加权和,所述多个差值包括:光流预测向量与光流真实向量之间的损失差值、所述样本帧图与所述过渡帧图之间语义特征的均方误差、所述样本图像与根据所述残差信息计算的映射帧图之间的绝对误差:
插帧合成模型获得所述的过渡帧图之后,便可关联于所述样本图集中的样本帧图计算两者的损失值,更为具体的,请参阅如下公式,该损失值由如下各部分的加权和求得:
loss_l1=MSE(It,gt)
loss_mask=sum|merge-gt|
loss=α×loss_flow+β×loss_l1+γ×loss_mask
其中,loss_flow为光流预测向量与光流真实向量之间的损失差值,loss_l1为所述样本帧图与所述过渡帧图之间语义特征的均方误差,loss_mask为所述样本图像与根据所述残差信息计算的映射帧图之间的绝对误差,It为样本帧图,It为过渡帧图,α、β和γ分别为各个损失差值相对应的权重,可由本领域技术人员结合先验知识或实测确定。
在迭代训练过程中,利用SGD优化器,设置初始学习率为1e-4,当损失值不再下降,大约迭代到200*15000步后停止训练。得到神经网络的参数,便可视为本申请的网络架构中各个相应的模型已经被训练至收敛状态,从而可以将之投入生产。
本实施例中,采用了预先设置的光流计算模型,计算出光流真实向量作为参考值,并在制作数据集时加入。在网络训练的过程中,作为对光流预测模型所计得的光流预测向量的监督而在整个网络架构的损失值的计算中加入这部分的光流损失,提高了本申请的网络架构预测光流的精确性;同时由于所述的光流计算模型在投入生产后进行推理的过程中并不使用,减少了实际插帧时的运行时间,确保了插帧的运行效率。
由此,实现对本申请的网络架构的全面训练,可以看出,本实施例,采用了全新的训练思想搭建网络架构,对相关模型实施训练,此一训练过程能够促使相关模型更为快速地收敛,且能够利用训练所得的模型进行高品质插帧图像,使目标视频在播放时更为平滑,改善用户体验。
本申请适用于诸如网络视频直播、网络影视播放等应用场景中,可以将本申请所实现的技术方案开发后插件集成在视频传输组件中,在实时音视频传输中,当网络情况不稳定,带宽减少时,用于补充帧率,提升画面的丝滑感;或者将该插件应用于视频后期制作中,用于视频慢动作增强等。经实测,当本申请应用于实时流传输,如直播场景时,在弱网环境下,能保证直播的流畅度;对于视频流原帧率较低的情况下,则可用于提升帧率。可以理解,本申请的应用,在包含大运动的场景下将有较好的应用价值。
请参阅图8,适应本申请的目的之一而提供的一种视频插帧装置,是对本申请的视频插帧方法的功能化体现,该装置包括:参考引用模块1100、光流预测模块1200、残差生成模块1300,以及插帧合成模块1400,其中,所述参考引用模块1100,用于获取待插帧处理的目标视频,提取出所述目标视频中在时域上连续的两个参考帧图;所述光流预测模块1200,用于由预训练的光流预测模型计算两个参考帧图之间的过渡帧图相对于两个参考帧图的光流预测向量;所述残差生成模块1300,用于由预训练的插帧合成模型根据所述光流预测向量与所述两个参考帧图的图像特征向量生成所述过渡帧图的残差信息,所述残差信息包含残差值及图像映射权重;所述插帧合成模块1400,用于由预训练的插帧合成模型参考所述两个参考帧图,根据所述各个向量与所述残差信息生成所述过渡帧图,将过渡帧图***两个参考帧图之间用于播放。
深化的实施例中,所述参考引用模块1100包括:帧率获取子模块,用于获取待播放视频的帧率数据;帧率比对子模块,用于将所述帧率数据与预定帧率阈值进行比对;视频确定子模块,用于当所述帧率数据表征的帧率值小于所述帧率阈值,确定所述待播放视频为所述目标视频;插帧启动子模块,用于沿所述目标视频的时域提取出两两参考帧图以进行插帧处理。
深化的实施例中,所述光流预测模块1200包括:通道合并子模块,用于将所述两个参考帧图进行通道图像叠加后生成叠加图像;卷积池化子模块,用于通过卷积层对所述叠加图像进行卷积池化处理,生成下采样特征;反卷积池化子模块,用于通过反卷积层对所述下采样特征进行插值处理,生成上采样特征;预测生成子模块,用于将所述下采样特征和所述上采样特征进行特征融合叠加生成过渡帧图相对于两个参考帧图的光流预测向量。
深化的实施例中,所述残差生成模块1300包括:特征提取子模块,用于由预训练的图像特征提取模型提取所述两个参考帧图的图像特征向量;残差计算子模块,用于由所述插帧合成模型根据两个图像特征向量与其相应的光流预测向量计算出过渡帧图相对应的所述残差值;信息产出子模块,用于由所述插帧合成模型以两个参考帧图为参考,合成出用于表征所述图像映射权重的掩码图。
深化的实施例中,所述插帧合成模块1400包括:图像变换子模块,用于根据所述光流预测向量分别对两个参考帧图进行相应的图像变换,获得两个映射帧图;平滑合成子模块,用于以所述图像映射权重为超参数对两个映射帧图进行平滑合成,获得融合帧图;融合生成子模块,用于将所述融合帧图叠加所述残差值获得过渡帧图。
扩展的实施例中,所述光流计算模型与插帧合成模型被联合训练,其训练装置包括:图集生成模块,用于对预先采集的样本视频进行帧化处理生成样本图集,其中,所述样本图集包括:两个训练帧图和样本帧图,所述样本帧图位于所述两个训练帧图相对应的时间区间内;光流计算模块,用于将所述两个训练帧图输入至预训练至收敛状态的光流计算模型中计算出其自身的光流真实向量;光流预测模块1200,用于将所述两个训练帧图输入至在训练的所述光流预测模型中计算出过渡帧图相对于该两个训练帧图的光流预测向量;特征提取模块,用于将所述两个训练帧图输入至预训练至收敛状态的图像特征提取模型中获得其相对应的两个图像特征向量;综合生成模块,用于将两个训练帧图及其图像特征向量、光流预测向量输入至在训练的所述插帧合成模型中计算残差信息,获得相应的过渡帧图;梯度更新模块,用于根据预设的损失函数计算所述过渡帧图与所述样本帧图之间的损失值,当所述损失值大于预设的损失阈值时继续迭代训练,所述损失值为多个差值的加权和,所述多个差值包括:光流预测向量与光流真实向量之间的损失差值、所述样本帧图与所述过渡帧图之间语义特征的均方误差、所述样本图像与根据所述残差信息计算的映射帧图之间的绝对误差。
为解决上述技术问题,本申请实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作***、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种视频插帧方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的视频插帧方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的视频插帧装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的视频插帧方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请实现了端对端对目标视频进行插帧以提升其视频显示质量的效果,相应的模型在训练阶段借助样本帧图的光流真实向量与根据两个参考帧图确定的光流预测向量之间的损失值,以及结合各个中间生成的图之间的差值对模型进行梯度更新,使模型更易被训练至收敛,并且能够提升模型对光流预测的准确程度,使被***过渡帧的目标视频的显示质量得以提升,应用前景广阔。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (9)

1.一种视频插帧方法,其特征在于,包括:
获取待插帧处理的目标视频,提取出所述目标视频中在时域上连续的两个参考帧图;
由预训练的光流预测模型计算两个参考帧图之间的过渡帧图相对于两个参考帧图的光流预测向量;
由预训练的插帧合成模型根据所述光流预测向量与所述两个参考帧图的图像特征向量生成所述过渡帧图的残差信息,所述残差信息包含残差值及图像映射权重;
由预训练的插帧合成模型参考所述两个参考帧图,根据所述光流预测向量与所述残差信息生成所述过渡帧图,将过渡帧图***两个参考帧图之间用于播放。
2.根据权利要求1所述的视频插帧方法,其特征在于,获取待插帧处理的目标视频,提取出所述目标视频中在时域上连续的两个参考帧图,包括如下步骤:
获取待播放视频的帧率数据;
将所述帧率数据与预定帧率阈值进行比对;
当所述帧率数据表征的帧率值小于所述帧率阈值,确定所述待播放视频为所述目标视频;
沿所述目标视频的时域提取出两个参考帧图以进行插帧处理。
3.根据权利要求1所述的视频插帧方法,其特征在于,由预训练的光流预测模型计算两个参考帧图之间的过渡帧图相对于两个参考帧图的光流预测向量,包括如下步骤:
将所述两个参考帧图进行通道图像叠加后生成叠加图像;
通过卷积层对所述叠加图像进行卷积池化处理,生成下采样特征;
通过反卷积层对所述下采样特征进行插值处理,生成上采样特征;
将所述下采样特征和所述上采样特征进行特征融合叠加生成过渡帧图相对于两个参考帧图的光流预测向量。
4.根据权利要求1所述的视频插帧方法,其特征在于,由预训练的插帧合成模型根据所述光流预测向量与所述两个参考帧图的图像特征向量生成所述过渡帧图的残差信息,包括如下步骤:
由预训练的图像特征提取模型提取所述两个参考帧图的图像特征向量;
由所述插帧合成模型根据两个图像特征向量与其相应的光流预测向量计算出过渡帧图相对应的所述残差值;
由所述插帧合成模型以两个参考帧图为参考,合成出用于表征所述图像映射权重的掩码图。
5.根据权利要求1所述的视频插帧方法,其特征在于,由预训练的插帧合成模型参考所述两个参考帧图,根据所述光流预测向量与所述残差信息生成所述过渡帧图,将过渡帧图***两个参考帧图之间用于播放,包括如下步骤:
根据所述光流预测向量分别对两个参考帧图进行相应的图像变换,获得两个映射帧图;
以所述图像映射权重为超参数对两个映射帧图进行平滑合成,获得融合帧图;
将所述融合帧图叠加所述残差值获得过渡帧图。
6.根据权利要求1至5中任意一项所述的视频插帧方法,其特征在于,所述光流预测模型与插帧合成模型被联合训练,其训练过程包括如下步骤:
对预先采集的样本视频进行帧化处理生成样本图集,其中,所述样本图集包括:两个训练帧图和样本帧图,所述样本帧图位于所述两个训练帧图相对应的时间区间内;
将所述两个训练帧图输入至预训练至收敛状态的光流计算模型中计算出其自身的光流真实向量;
将所述两个训练帧图输入至在训练的所述光流预测模型中计算出过渡帧图相对于该两个训练帧图的光流预测向量;
将所述两个训练帧图输入至预训练至收敛状态的图像特征提取模型中获得其相对应的两个图像特征向量;
将两个训练帧图及其图像特征向量、光流预测向量输入至在训练的所述插帧合成模型中计算残差信息,获得相应的过渡帧图;
根据预设的损失函数计算所述过渡帧图与所述样本帧图之间的损失值,当所述损失值大于预设的损失阈值时继续迭代训练,所述损失值为多个差值的加权和,所述多个差值包括:光流预测向量与光流真实向量之间的损失差值、所述样本帧图与所述过渡帧图之间语义特征的均方误差、所述样本帧图与根据所述残差信息计算的映射帧图之间的绝对误差。
7.一种视频插帧装置,其特征在于,包括:
参考引用模块,用于获取待插帧处理的目标视频,提取出所述目标视频中在时域上连续的两个参考帧图;
光流预测模块,用于由预训练的光流预测模型计算两个参考帧图之间的过渡帧图相对于两个参考帧图的光流预测向量;
残差生成模块,用于由预训练的插帧合成模型根据所述光流预测向量与所述两个参考帧图的图像特征向量生成所述过渡帧图的残差信息,所述残差信息包含残差值及图像映射权重;
插帧合成模块,用于由预训练的插帧合成模型参考所述两个参考帧图,根据所述光流预测向量与所述残差信息生成所述过渡帧图,将过渡帧图***两个参考帧图之间用于播放。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
CN202111267436.3A 2021-10-29 2021-10-29 视频插帧方法及其装置、设备、介质、产品 Active CN114007135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111267436.3A CN114007135B (zh) 2021-10-29 2021-10-29 视频插帧方法及其装置、设备、介质、产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111267436.3A CN114007135B (zh) 2021-10-29 2021-10-29 视频插帧方法及其装置、设备、介质、产品

Publications (2)

Publication Number Publication Date
CN114007135A CN114007135A (zh) 2022-02-01
CN114007135B true CN114007135B (zh) 2023-04-18

Family

ID=79924806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111267436.3A Active CN114007135B (zh) 2021-10-29 2021-10-29 视频插帧方法及其装置、设备、介质、产品

Country Status (1)

Country Link
CN (1) CN114007135B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114640885B (zh) * 2022-02-24 2023-12-22 影石创新科技股份有限公司 视频插帧方法、训练方法、装置和电子设备
CN115457449B (zh) * 2022-11-11 2023-03-24 深圳市马博士网络科技有限公司 一种基于ai视频分析和监控安防的预警***
CN116886996B (zh) * 2023-09-06 2023-12-01 浙江富控创联技术有限公司 一种数字乡村多媒体显示屏广播***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110324664A (zh) * 2019-07-11 2019-10-11 南开大学 一种基于神经网络的视频补帧方法及其模型的训练方法
CN112104830A (zh) * 2020-08-13 2020-12-18 北京迈格威科技有限公司 视频插帧方法、模型训练方法及对应装置
CN112565653A (zh) * 2020-12-01 2021-03-26 咪咕文化科技有限公司 一种视频插帧方法、***、电子设备及存储介质
CN112804561A (zh) * 2020-12-29 2021-05-14 广州华多网络科技有限公司 视频插帧方法、装置、计算机设备及存储介质
CN113365110A (zh) * 2021-07-14 2021-09-07 北京百度网讯科技有限公司 模型训练、视频插帧方法,装置,设备以及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776688B2 (en) * 2017-11-06 2020-09-15 Nvidia Corporation Multi-frame video interpolation using optical flow
EP3973498A1 (en) * 2019-06-18 2022-03-30 Huawei Technologies Co., Ltd. Real-time video ultra resolution

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110324664A (zh) * 2019-07-11 2019-10-11 南开大学 一种基于神经网络的视频补帧方法及其模型的训练方法
CN112104830A (zh) * 2020-08-13 2020-12-18 北京迈格威科技有限公司 视频插帧方法、模型训练方法及对应装置
CN112565653A (zh) * 2020-12-01 2021-03-26 咪咕文化科技有限公司 一种视频插帧方法、***、电子设备及存储介质
CN112804561A (zh) * 2020-12-29 2021-05-14 广州华多网络科技有限公司 视频插帧方法、装置、计算机设备及存储介质
CN113365110A (zh) * 2021-07-14 2021-09-07 北京百度网讯科技有限公司 模型训练、视频插帧方法,装置,设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张培健等.基于级联卷积神经网络的轻量级视频插帧算法.微电子学与计算机.2021,第38卷(第3期),第39-45页. *
訾玲玲 ; 丛鑫.一种图像序列的区域导向帧插值算法.小型微型计算机***.2015,(09),第2120-2124页. *

Also Published As

Publication number Publication date
CN114007135A (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN114007135B (zh) 视频插帧方法及其装置、设备、介质、产品
US10970600B2 (en) Method and apparatus for training neural network model used for image processing, and storage medium
CN111062872B (zh) 一种基于边缘检测的图像超分辨率重建方法及***
CN109003282B (zh) 一种图像处理的方法、装置及计算机存储介质
WO2022141819A1 (zh) 视频插帧方法、装置、计算机设备及存储介质
JP2022500734A (ja) 畳み込みニューラルネットワークを利用したコンピュータ実現方法、合成画像生成用の装置及びコンピュータプログラム製品
CN111798400A (zh) 基于生成对抗网络的无参考低光照图像增强方法及***
CN111179167A (zh) 一种基于多阶段注意力增强网络的图像超分辨方法
CN112652058B (zh) 人脸图像重演方法、装置、计算机设备及存储介质
CN109903315B (zh) 用于光流预测的方法、装置、设备以及可读存储介质
CN114092774B (zh) 基于信息流融合的rgb-t图像显著性检测***及检测方法
CN114339030B (zh) 一种基于自适应可分离卷积的网络直播视频稳像方法
CN115222581A (zh) 图像生成方法、模型训练方法、相关装置及电子设备
US20220124257A1 (en) Generating stylized images in real time on mobile devices
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及***
WO2023010981A1 (zh) 编解码方法及装置
CN115049559A (zh) 模型训练、人脸图像处理、人脸模型处理方法及装置、电子设备及可读存储介质
CN113012072A (zh) 一种基于注意力网络的图像运动去模糊方法
WO2022117067A1 (en) Content-aware bifurcated upscaling
CN117635478B (zh) 一种基于空间通道注意力的低光照图像增强方法
CN114119698B (zh) 基于注意力机制的无监督单目深度估计方法
CN116071478B (zh) 图像重建模型的训练方法和虚拟场景渲染方法
CN115641256B (zh) 风格迁移模型的训练方法、视频风格迁移的方法以及装置
US20230065392A1 (en) Re-Noising and Neural Network Based Image Enhancement
US20230342991A1 (en) Machine learning-based chroma keying process

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230801

Address after: No. 79 Wanbo Second Road, Nancun Town, Panyu District, Guangzhou City, Guangdong Province, 5114303802 (self declared)

Patentee after: Guangzhou Huanju Mark Network Information Co.,Ltd.

Address before: 511442 24 / F, building B1, Wanda Plaza, Nancun Town, Panyu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right