CN112995433B - 一种时序视频生成方法、装置、计算设备及存储介质 - Google Patents

一种时序视频生成方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN112995433B
CN112995433B CN202110169891.3A CN202110169891A CN112995433B CN 112995433 B CN112995433 B CN 112995433B CN 202110169891 A CN202110169891 A CN 202110169891A CN 112995433 B CN112995433 B CN 112995433B
Authority
CN
China
Prior art keywords
network
generator network
frame
level generator
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110169891.3A
Other languages
English (en)
Other versions
CN112995433A (zh
Inventor
孙腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moviebook Science And Technology Co ltd
Original Assignee
Beijing Moviebook Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moviebook Science And Technology Co ltd filed Critical Beijing Moviebook Science And Technology Co ltd
Priority to CN202110169891.3A priority Critical patent/CN112995433B/zh
Publication of CN112995433A publication Critical patent/CN112995433A/zh
Application granted granted Critical
Publication of CN112995433B publication Critical patent/CN112995433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • H04N5/06Generation of synchronising signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • H04N5/08Separation of synchronising signals from picture signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种时序视频生成方法、装置、计算设备及存储介质。所述方法包括:提取训练数据集中每个视频片段的每帧图像的语义分割图,计算前后帧之间的光流估计图;利用训练数据集中每个视频片段每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络,得到训练好的多层级生成器网络;将时序视频的每帧语义图像输入到训练好的多层级生成器网络中,得到时序视频。所述装置包括语义分割图提取模块、训练模块和时序视频生成模块。所述计算设备包括存储器、处理器和存储在存储器内并能由处理器运行的计算机程序,处理器执行计算机程序时实现上述方法。所述存储介质内存储有计算机程序,计算机程序在由处理器执行时实现上述方法。

Description

一种时序视频生成方法、装置、计算设备及存储介质
技术领域
本申请涉及时序视频生成领域,特别是涉及视频特征提取、时序分析、图像生成等技术。
背景技术
神经网络在人工智能(AI)领域快速发展,推动了图像、文本、语音等多领域的信息交叉融合,用户对图像以及视频处理技术的期望越来越高。虚拟现实的应用场景越来越复杂,需要通过计算机对指定条件的数据进行可视化操作和仿真模拟,对抗生成网络技术的出现推动了真实图像级别的虚拟场景渲染生成领域的发展。在此背景下,对抗生成网络技术实现按照条件输入生成指定内容的图像,已经达到肉眼很难辨别真伪的水平,但是对于连续多帧图像的视频序列的生成方案还较少。常用的pix2pix、pix2pixHD图像翻译生成算法只是针对静态图片的翻译进行设计,没有对时间序列维度建模,如果直接用于视频的翻译会导致帧间不连续的问题,所以不能用于视频生成。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种时序视频生成方法,包括:
提取训练数据集中每个视频片段的每帧图像的语义分割图,并计算前后帧之间的光流估计图;
利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络,得到训练好的多层级生成器网络,所述多层级生成器网络G'N+1的结构为:
G'N+1=GN+1下+G'N+GN+1上
其中,GN+1为生成器子网络,所述GN+1下为所述GN+1中的下采样部分,所述GN+1上为所述GN+1中的上采样部分,G1'为生成器网络,N≥1;
与所述多层级生成器网络相配合的多层级判别器网络D'N+1的结构为:
D’N+1=DN+1下+D’N+DN+1上
其中,DN+1为判别器子网络,所述DN+1下为所述DN+1中的下采样部分,所述DN+1上为所述DN+1中的上采样部分,D1'为判别器网络;
所述多层级生成器网络和所述多层级判别器网络的残差卷积层均为3D卷积结构;
将所述时序视频的每帧语义图像输入到训练好的多层级生成器网络中,得到时序视频。
可选地,所述多层级生成器网络的损失函数包括图像分布损失、时序损失、光流损失、特征匹配损失以及内容一致性损失。
可选地,所述的内容一致性损失的获得方法为:
利用所述多层级判别器网络分别从所述多层级生成器网络输出的图像和GrundTruth中提取特征,得到两个特征图,所述Grund Truth为所述训练数据集中每个视频片段的每帧图像;
计算所述两个特征图之间的误差,将所述误差作为内容一致性损失。
可选地,所述的特征匹配损失的获得方法为:
利用VGG16分别从所述多层级生成器网络输出的图像和Grund Truth中提取特征,得到两个特征图,所述Grund Truth为所述训练数据集中每个视频片段的每帧图像;
计算所述两个特征图之间的误差,将所述误差作为特征匹配损失。
可选地,训练多层级生成器网络的具体方法为:空间上对不同尺寸的生成器网络分别进行训练,在时间维度上逐渐增加参与训练的帧的维度。
根据本申请的另一个方面,提供了一种时序视频生成装置,包括:
语义分割图提取模块,其配置成提取训练数据集中每个视频片段的每帧图像的语义分割图,并计算前后帧之间的光流估计图;
训练模块,其配置成利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络,得到训练好的多层级生成器网络,所述多层级生成器网络G'N+1的结构为:
G'N+1=GN+1下+G'N+GN+1上
其中,GN+1为生成器子网络,所述GN+1下为所述GN+1中的下采样部分,所述GN+1上为所述GN+1中的上采样部分,G1'为生成器网络,N≥1;
与所述多层级生成器网络相配合的多层级判别器网络D'N+1的结构为:
D’N+1=DN+1下+D’N+DN+1上
其中,DN+1为判别器子网络,所述DN+1下为所述DN+1中的下采样部分,所述DN+1上为所述DN+1中的上采样部分,D1'为判别器网络;
所述多层级生成器网络和所述多层级判别器网络的残差卷积层均为3D卷积结构;和
时序视频生成模块,其配置成将所述时序视频的每帧语义图像输入到训练好的多层级生成器网络中,得到时序视频。
可选地,所述多层级生成器网络的损失函数包括图像分布损失、时序损失、光流损失、特征匹配损失以及内容一致性损失。
可选地:空间上对不同尺寸的生成器网络分别进行训练,在时间维度上逐渐增加参与训练的帧的维度。
根据本申请的第三个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本申请所述的方法。
根据本申请的第四个方面,提供了一种存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现本申请所述的方法。
本申请的时序视频生成方法、装置、计算设备及存储介质,根据指定的条件输入生成对应真实内容的视频序列,是一种通用的视频图像翻译生成框架,可以实现多种类型的视频生成,不仅保证每帧图像生成的真实感,而且能够满足连续帧间画面变化的连续性。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的一种时序视频生成方法的示意性流程图;
图2是根据本申请一个实施例的多层级生成器网络中第一级生成器子网络的结构示意图;
图3是根据本申请一个实施例的多层级生成器网络的训练方法示意图;
图4是根据本申请一个实施例的一种时序视频生成装置的结构示意图;
图5是根据本申请一个实施例的一种计算设备的结构示意图;
图6是根据本申请一个实施例的一种存储介质的结构示意图。
具体实施方式
常用的图像翻译生成算法为pix2pix和pix2pixHD,本实施例在此基础上进行改进,通过输入连续的语义图序列,建模图中的语义信息和时间动态变化信息,渲染生成视频内容。
图1是根据本申请一个实施例的一种时序视频生成方法的示意性流程图。所述时序视频生成方法一般性地可以包括如下步骤S1至S3。
步骤S1、提取训练数据集中每个视频片段的每帧图像的语义分割图,并计算前后帧的光流估计图:
对于训练数据集中的每个视频片段,需要分别提取其每帧图像的语义分割图,计算前后帧的光流估计图,以此作为模型训练输入,原视频每帧图像作为GroundTruth。
步骤S2、利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧的光流估计图训练多层级生成器网络G'N+1,得到训练好的多层级生成器网络G'N+1,所述多层级生成器网络G'N+1的结构为:
G'N+1=GN+1下+G'N+GN+1上
其中,GN+1为生成器子网络,所述GN+1下为所述GN+1中的下采样部分,所述GN+1上为所述GN+1中的上采样部分,G1'为生成器网络,N为整数,且N≥1。
所述的多层级生成器网络包含依次相互嵌套的多级生成器子网络G1至GN,G1'也即G1。例如,所述多层级生成器网络共包含N级生成器子网络,那么,如图2所示,一级生成器网络G1'也就是第一级生成器子网络G1,第一级生成器子网络G1嵌在第二级生成器子网络G2的中间,形成二级生成器网络G'2,二级生成器网络G'2嵌在第三级生成器子网络G3的中间,形成三级生成器网络G3',……,以此类推,N级生成器网络G'N嵌在第N+1级生成器子网络GN+1的中间,形成N+1级生成器网络G'N+1
N=2时,所述多层级生成器网络G'N+1为二级生成器网络G'2,其结构为:G'2=G2下+G1'+G2上,G1'(也即G1)为生成器网络,原理是将生成器子网络G2从中间分开,分成下采样G2下和上采样G2上两部分,G2下和G2上分别位于生成器网络G1'前和后,G2下的输出作为G1'的输入,G2下的输出与G1'的输出相叠加,叠加结果作为G2上的输入,G2上的输出作为二级生成器网络G'2的输出;
N=3时,所述多层级生成器网络G'N+1为三级生成器网络G3',其结构为:G3'=G3下+G'2+G3上,原理与二级生成器网络G'2相同;
……
以此类推,N+1级生成器网络G'N+1的结构为:G'N+1=GN+1下+G'N+GN+1上,原理同上。
本实施例中,生成器网络G1'也称全局感知网络,生成器网络G'2也称局部增强网络,将全局感知网络作为局部增强网络的中间层结构融入,全局感知网路G1'的分辨率为256px,局部增强网络G'2的分辨率是全局感知网络G1'的两倍,所述的多层级生成器网络中,每一级生成器子网络的输入图像的分辨率是上一级生成器子网络的两倍。
训练过程中,与所述多层级生成器网络G'N+1相配合使用的多层级判别器网络D'N+1的结构为:
D’N+1=DN+1下+D’N+DN+1上
多层级判别器网络与多层级生成器网络结构相似,DN+1为生成器子网络,所述DN+1下为所述DN+1中的下采样部分,所述DN+1上为所述DN+1中的上采样部分,D1'为判别器网络。
多层级生成器网络和多层级判别器网络的残差卷积层均为3D卷积结构。
多层级生成器网络的损失函数由多部分组成,目的是保证所述多层级生成器网络的约束能力。其中,第一部分为图像分布损失,用于保障生成图像的真实度;第二部分是时序损失,用于保障生成视频的连贯性;第三部分是光流损失,用于保障估算光流的正确性;第四部分是特征匹配损失,第五部分是内容一致性损失。
其中,所述的内容一致性损失是将多层级生成器网络输出的图像(即生成样本)和Grund Truth(即训练数据集中每个视频片段的每帧图像,也即真实数据样本)分别输入到多层级判别器网络中提取特征,得到生成样本的特征图和真实数据样本的特征图,然后计算两个特征图的Element-wise loss,得到内容一致性损失,从而保证图像内容一致,提升训练的稳固性;
所述的特征匹配损失是将多层级生成器网络输出的图像(即生成样本)和GrundTruth(即训练数据集中每个视频片段的每帧图像,也即真实数据样本)分别输入到VGG16中提取特征,得到生成样本的特征图和真实数据样本的特征图,然后计算两个特征图的Element-wise loss,得到特征匹配损失。
由于所述多层级生成器网络结构较为复杂,考虑到硬件能力和训练收敛速度,训练过程采用如图3所示的时域(如图中T和T’所示)和空域(如图中S和S’所示)交叉训练,即,空间上对不同尺寸的生成器子网络分别进行训练,在时间维度上不断增加参与训练的帧的维度。
步骤S3、将所述时序视频的每帧语义图像输入到训练好的多层级生成器网络中(用训练好的多层级生成器网络做预测时,只需根据需要提供对应的语义分割图,在逐帧生成的过程中,多层级生成器网络会计算先前帧的光流图作为当前帧预测的输入),得到时序视频。
下面详细说明采用训练好的多层级生成器网络根据输入条件生成时序视频的过程:
步骤S31、向所述训练好的多层级生成器网络输入第一帧语义图像;
步骤S32、向所述训练好的多层级生成器网络输入第二帧语义图像;
步骤S33、所述训练好的多层级生成器网络计算第一帧到第二帧的光流图,以此作为第二帧的预测,根据第二帧的预测和用户输入的第二帧语义图像计算得到第二帧图像;
步骤S34、向所述训练好的多层级生成器网络输入第三帧语义图像;
步骤S35、所述训练好的多层级生成器网络计算第二帧到第三帧的光流图,以此作为第三帧的预测,根据第三帧的预测和用户输入的第三帧语义图像计算得到第三帧图像;
以此类推,对于所述时序视频的第n帧图像,需要由用户输入该图像的语义图像,然后所述训练好的多层级生成器网络计算第n-1帧到第n帧的光流图,以此作为第n帧的预测,根据第n帧的预测和用户输入的第n帧语义图像计算得到第n帧图像。
综上,本实施例的时序视频生成方法在现有技术的基础上主要做出了如下改进:
1、多层级生成器网络的条件输入不只是当前帧的输入语义图片,还同时包括前几帧的输入语义图片和前几帧的生成输出图片,即回看前几帧的输入图像和生成图像;
2、帧间的连续变化信息估计,通过计算前几帧间的光流变化来预测前一帧到当前帧的光流,以此来估计图像每个像素的变化量,多层级生成器网络的输出会包含对下一帧光流变化的预估,这是通过训练学习到的。
3、所述时序视频生成方法是基于对抗生成网络的时序视频生成方法,对抗生成网络的基础结构是由生成器和判别器两个成对的子网络组成的,在生成器上加入光流约束,在判别器上加入光流信息,这样的生成器可以得到当前帧的预测图,前一帧的生成图经由当前帧的光流估计得到演变图,两者加权合成当前帧的最终生成图,这样的设计保留了前后连续帧间非常多的相似信息。
4、将连续几帧的输入图像看作是三维的数据结构(第三维即时间序列顺序排列),生成器和判别器网络的残差卷积层改进成3D卷积结构,同时对图像空间坐标方向和时间方向做卷积提取特征,同时学习局部空间特征和连续时序特征。
5、高清视频的生成采用多层级的生成器子网络结构,先构建低分辩生成的全局感知网络,以此为基础结构逐级叠加前后两端的卷积层数,构建局部增强子网络,提升图像分辨率。
图4是根据本申请一个实施例的一种时序视频生成装置的结构示意图。所述时序视频生成装置一般性地可以包括:
语义分割图提取模块1,其配置成提取训练数据集中每个视频片段的每帧图像的语义分割图,并计算前后帧之间的光流估计图;
训练模块2,其配置成利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络,得到训练好的多层级生成器网络,所述多层级生成器网络G'N+1的结构为:
G'N+1=GN+1下+G'N+GN+1上
其中,GN+1为生成器子网络,所述GN+1下为所述GN+1中的下采样部分,所述GN+1上为所述GN+1中的上采样部分,G1'为生成器网络,N≥1;
与所述多层级生成器网络相配合的多层级判别器网络D'N+1的结构为:
D’N+1=DN+1下+D’N+DN+1上
其中,DN+1为判别器子网络,所述DN+1下为所述DN+1中的下采样部分,所述DN+1上为所述DN+1中的上采样部分,D1'为判别器网络;
所述多层级生成器网络和所述多层级判别器网络的残差卷积层均为3D卷积结构;和
时序视频生成模块3,其配置成将所述时序视频的每帧语义图像输入到训练好的多层级生成器网络中,得到时序视频。
所述多层级生成器网络的损失函数包括图像分布损失、时序损失、光流损失、特征匹配损失以及内容一致性损失。
训练多层级生成器网络的具体方法为:空间上对不同尺寸的生成器网络分别进行训练,在时间维度上逐渐增加参与训练的帧的维度。
本申请实施例还提供了一种计算设备,参照图5,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读的存储介质。参照图6,该存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种时序视频生成方法,包括:
提取训练数据集中每个视频片段的每帧图像的语义分割图,并计算前后帧之间的光流估计图;
利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络,得到训练好的多层级生成器网络,所述多层级生成器网络G′N+1的结构为:
G′N+1=GN+1下+G′N+GN+1上
其中,GN+1为生成器子网络,所述GN+1下为所述GN+1中的下采样部分,所述GN+1上为所述GN+1中的上采样部分,G′N为生成器网络,N≥1;
与所述多层级生成器网络相配合的多层级判别器网络D′N+1的结构为:
D′N+1=DN+1下+D′N+DN+1上
其中,DN+1为判别器子网络,所述DN+1下为所述DN+1中的下采样部分,所述DN+1上为所述DN+1中的上采样部分,D′N为判别器网络;
所述多层级生成器网络和所述多层级判别器网络的残差卷积层均为3D卷积结构;
将所述时序视频的每帧语义图像输入到训练好的多层级生成器网络中,得到时序视频。
2.根据权利要求1所述的方法,其特征在于,所述多层级生成器网络的损失函数包括图像分布损失、时序损失、光流损失、特征匹配损失以及内容一致性损失。
3.根据权利要求2所述的方法,其特征在于,所述的内容一致性损失的获得方法为:
利用所述多层级判别器网络分别从所述多层级生成器网络输出的图像和Grund Truth中提取特征,得到两个特征图,所述Grund Truth为所述训练数据集中每个视频片段的每帧图像;
计算所述两个特征图之间的误差,将所述误差作为内容一致性损失。
4.根据权利要求2所述的方法,其特征在于,所述的特征匹配损失的获得方法为:
利用VGG16分别从所述多层级生成器网络输出的图像和Grund Truth中提取特征,得到两个特征图,所述Grund Truth为所述训练数据集中每个视频片段的每帧图像;
计算所述两个特征图之间的误差,将所述误差作为特征匹配损失。
5.根据权利要求2所述的方法,其特征在于,训练多层级生成器网络的具体方法为:空间上对不同尺寸的生成器网络分别进行训练,在时间维度上逐渐增加参与训练的帧的维度。
6.一种时序视频生成装置,包括:
语义分割图提取模块,其配置成提取训练数据集中每个视频片段的每帧图像的语义分割图,并计算前后帧之间的光流估计图;
训练模块,其配置成利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络,得到训练好的多层级生成器网络,所述多层级生成器网络G′N+1的结构为:
G′N+1=GN+1下+G′N+GN+1上
其中,GN+1为生成器子网络,所述GN+1下为所述GN+1中的下采样部分,所述GN+1上为所述GN+1中的上采样部分,G′N为生成器网络,N≥1;
与所述多层级生成器网络相配合的多层级判别器网络D′N+1的结构为:
D′N+1=DN1下+D′N+DN+1上
其中,DN+1为判别器子网络,所述DN+1下为所述DN+1中的下采样部分,所述DN+1上为所述DN+1中的上采样部分,D′N为判别器网络;
所述多层级生成器网络和所述多层级判别器网络的残差卷积层均为3D卷积结构;和
时序视频生成模块,其配置成将所述时序视频的每帧语义图像输入到训练好的多层级生成器网络中,得到时序视频。
7.根据权利要求6所述的装置,其特征在于,所述多层级生成器网络的损失函数包括图像分布损失、时序损失、光流损失、特征匹配损失以及内容一致性损失。
8.根据权利要求7所述的装置,其特征在于,训练多层级生成器网络的具体方法为:空间上对不同尺寸的生成器网络分别进行训练,在时间维度上逐渐增加参与训练的帧的维度。
9.一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。
10.一种非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如权利要求1-5中任一项所述的方法。
CN202110169891.3A 2021-02-08 2021-02-08 一种时序视频生成方法、装置、计算设备及存储介质 Active CN112995433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110169891.3A CN112995433B (zh) 2021-02-08 2021-02-08 一种时序视频生成方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110169891.3A CN112995433B (zh) 2021-02-08 2021-02-08 一种时序视频生成方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN112995433A CN112995433A (zh) 2021-06-18
CN112995433B true CN112995433B (zh) 2023-04-28

Family

ID=76348988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110169891.3A Active CN112995433B (zh) 2021-02-08 2021-02-08 一种时序视频生成方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN112995433B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115061770B (zh) * 2022-08-10 2023-01-13 荣耀终端有限公司 显示动态壁纸的方法和电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107968962B (zh) * 2017-12-12 2019-08-09 华中科技大学 一种基于深度学习的两帧不相邻图像的视频生成方法
CN109993820B (zh) * 2019-03-29 2022-09-13 合肥工业大学 一种动画视频自动生成方法及其装置
US11055828B2 (en) * 2019-05-09 2021-07-06 Adobe Inc. Video inpainting with deep internal learning
CN110381268B (zh) * 2019-06-25 2021-10-01 达闼机器人有限公司 生成视频的方法,装置,存储介质及电子设备
CN110868598B (zh) * 2019-10-17 2021-06-22 上海交通大学 基于对抗生成网络的视频内容替换方法及***
CN112149545B (zh) * 2020-09-16 2024-04-09 珠海格力电器股份有限公司 样本生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112995433A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
Zhang et al. Uncertainty inspired RGB-D saliency detection
US20200117906A1 (en) Space-time memory network for locating target object in video content
TWI739151B (zh) 圖像生成網路的訓練及影像處理方法和裝置、電子設備
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
CN113592913B (zh) 一种消除自监督三维重建不确定性的方法
CN112149545B (zh) 样本生成方法、装置、电子设备及存储介质
WO2022205755A1 (zh) 纹理生成方法、装置、设备及存储介质
KR20190125029A (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
JP2023545189A (ja) 画像処理方法、装置、及び電子機器
CN113689372A (zh) 图像处理方法、设备、存储介质及程序产品
CN112884758A (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及***
Gao et al. Sketchsampler: Sketch-based 3d reconstruction via view-dependent depth sampling
CN116797768A (zh) 全景图像减少现实的方法和装置
CN112995433B (zh) 一种时序视频生成方法、装置、计算设备及存储介质
Junayed et al. Consistent video inpainting using axial attention-based style transformer
CN104732508B (zh) 基于分布式压缩感知的图像融合方法
CN115018734B (zh) 视频修复方法和视频修复模型的训练方法、装置
CN116486009A (zh) 单目三维人体重建方法、装置以及电子设备
CN116156218A (zh) 视频插帧模型的确定方法及装置、视频插帧方法及装置
CN114841870A (zh) 图像处理方法、相关装置和***
CN113658231A (zh) 光流预测方法、装置、电子设备及存储介质
CN112052863A (zh) 一种图像检测方法及装置、计算机存储介质、电子设备
CN115861401B (zh) 一种双目与点云融合深度恢复方法、装置和介质
Lee et al. Extrapolative-interpolative cycle-consistency learning for video frame extrapolation
CN116704588B (zh) 面部图像的替换方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A temporal video generation method, device, computing device, and storage medium

Effective date of registration: 20230713

Granted publication date: 20230428

Pledgee: Bank of Jiangsu Limited by Share Ltd. Beijing branch

Pledgor: BEIJING MOVIEBOOK SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2023110000278