CN114694074A

CN114694074A - 一种使用图像生成视频的方法、装置以及存储介质

Info

Publication number: CN114694074A
Application number: CN202210359091.2A
Authority: CN
Inventors: 周璋鹏; 柴京; 宋强; 张凯程; 刘强; 袁业; 张翔; 谢石木林; 林平远; 张志宏; 刘旭杰; 汤泽毅; 粘为帆; 许倩
Original assignee: Super High Voltage Co Of State Grid Gansu Electric Power Co; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: Super High Voltage Co Of State Grid Gansu Electric Power Co; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-07-01

Abstract

本发明公开了一种使用图像生成视频的方法，所述方法包括：获取包含多个视频帧序列的训练数据集；基于生成式对抗网络GAN模型搭建VAE‑RGAN模型，VAE‑RGAN模型包含生成器G和鉴别器D，将变分自编码器VAE和基于U‑net卷积神经网络实现的精化网络R作为生成器G；使用训练数据集对VAE‑RGAN模型进行训练，得到训练好的VAE‑RGAN模型；将基础图像、与基础图像关联的特征序列和待生成视频的目标特征向量输入训练好的VAE‑RGAN模型，生成目标视频帧序列，将目标视频帧序列包含的所有视频帧连接起来，得到待生成视频。本发明提供的使用图像生成视频的方法和装置，能够通过输入首帧图像与包含运动特征的嵌入向量进行图像的定向内容生成，解决了生成的视频不连贯、丢帧和模糊等问题。

Description

一种使用图像生成视频的方法、装置以及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种使用图像生成视频的方法、装置以及存储介质。

背景技术

随着深度学习技术的发展，近年来，在计算机视觉领域，各类针对图像处理的技术层出不穷，并且在多种应用场景下具有优秀的表现。而图像到视频的生成一直是计算机视觉领域致力于解决的问题，对于多媒体的内容生成而言，一段完整视频的生成可以看成是由多帧的、连续的和具有关联内容的图像叠加而成，但是若仅仅通过对图像的卷积处理进行简单的多帧叠加，无法得到令人满意的结果。

关于图像到视频的预测生成的传统方法，主要是使用变分自动编码器(VAE，Variational Autoencoder)，首先将单帧图像输入到编码器中，使用多层次的卷积神经网络对图像的特征进行抽取编码，再通过解码器，即逆向的多层卷积进行还原，通过低维参数学***均化操作，这就会导致生成的预测视频里的各帧图像的清晰度不足。

后来，随着生成式对抗网络(GAN，Generative Adversarial Networks)技术的提出，人们开始尝试着使用GAN技术来进行视频的预测。GAN通过生成器、鉴别器组合的方式，生成器以对抗博弈为理论基础，经过大量的训练与学习之后，能够生成人们想要的高维图像内容。但是由于GAN具有梯度不稳定和模型易坍塌的局限性，在视频生成的任务上会导致生成未来帧容易含有过多的第一帧的信息，导致视频运动状态不明显，表现力差。

近期，有人将VAE与GAN进行结合，使用VAE-GAN技术来进行视频的预测生成，虽然改善了由GAN指导的视频生成的模型坍塌的局限性，成功地嵌入了行为内容信息，但是并没有完全解决由VAE单调的损失函数导致的视频模糊、丢帧、不连贯等问题。现有的VAE-GAN方法中的图像生成器很难生成高质量高清晰度的连贯视频，视频的生成本质上是一个非常困难的任务，并且在只有一个输入，无法提供有效的行为内容信息的情况下，视频生成的清晰度以及模型的稳定度很难得到保障。

发明内容

为了克服如上所述的技术问题，本发明提出一种使用图像生成视频的方法，所述方法的技术方案如下：

S1，获取多个样本视频，对所述样本视频进行采样，得到多个连续的视频帧序列，将多个所述视频帧序列构建为训练数据集；

S2，采用变分自编码器VAE生成图像，所述变分自编码器包含编码器模型和解码器模型，将所述训练数据集内的其中一个所述视频帧序列输入所述编码器模型，输出与所述输入视频帧序列对应的特征序列，将所述特征序列和预设的目标特征向量输入所述解码器模型，输出第一视频帧序列；

S3，选择基于U-net卷积神经网络实现的精化网络R，将步骤S2中所述视频帧序列包含的其中一个视频帧和所述第一视频帧序列输入所述精化网络R，输出第二视频帧序列；

S4，基于生成式对抗网络GAN模型搭建VAE-RGAN模型，所述VAE-RGAN模型包含生成器G和鉴别器D，将步骤S2的所述变分自编码器和步骤S3的所述精化网络R作为所述生成器G，将步骤S2中所述视频帧序列和所述第二视频帧序列输入所述鉴别器D，获取所述鉴别器D预测的所述第二视频帧序列的真假信息；

S5，使用所述训练数据集对所述VAE-RGAN模型进行训练，直到所述鉴别器D预测的结果为真，得到训练好的VAE-RGAN模型；

S6，获取基础图像、与所述基础图像关联的特征序列和待生成视频的目标特征向量；

S7，将所述基础图像、与所述基础图像关联的特征序列和所述待生成视频的目标特征向量输入所述训练好的VAE-RGAN模型，生成第三视频帧序列，将所述第三视频帧序列包含的所有视频帧连接起来，得到所述待生成视频。

进一步的，所述编码器模型包含第一编码器E_m和第二编码器E_c，所述第一编码器E_m用于提取视频帧的运动信息，所述第二编码器E_c用于提取视频帧的语义信息。

进一步的，所述第一编码器E_m采用5层3维的卷积层和1层2维的卷积层以及一个线性方程来提取所述视频帧的512维的隐层变量，所述隐层变量包含了所述视频帧的运动信息。

进一步的，所述第二编码器E_c使用4层2维的卷积层来提取所述视频帧的语义信息，每个提取特征的通道分别由256、128、64和32个单元组成。

进一步的，所述解码器模型基于长短期记忆网络LSTM实现。

进一步的，所述解码器模型包含主解码器通道和辅助解码器通道，所述主解码器通道由四个二维反卷积模块和两个三维卷积层组成，所述辅助解码器通道由四个二维反卷积模块组成，每个二维反卷积模块由两个二维卷积层和一个上采样算子组成。

进一步的，所述VAE-RGAN模型的损失函数L_Full的公式为：

L_Full＝L_DC+λ₁L_VAE+λ₂L_Perceptual+λ₃L_IFM+λ₄L_CFM；

其中，L_DC为所述VAE-RGAN模型中包含的GAN组件的鉴别器D的损失函数，L_VAE为所述VAE-RGAN模型中包含的VAE组件的损失函数，λ₁为L_VAE的权重值，L_Perceptual为所述VAE-RGAN模型中包含的感知机的损失函数，λ₂为L_Perceptual的权重值，L_IFM为所述VAE-RGAN模型的身份特征匹配损失函数，λ₃为L_IFM的权重值，L_CFM为所述VAE-RGAN模型的连接特征匹配损失函数，λ₄为L_CFM的权重值。

进一步的，λ₁＝30，λ₂＝λ₃＝λ₄＝5。

本发明还提出一种使用图像生成视频的装置，所述使用图像生成视频的装置存储计算机指令；所述计算机指令在使用图像生成视频的装置执行如上述任一项所述的使用图像生成视频的方法。

本发明还提出了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上述任一项所述的使用图像生成视频的方法。

本发明提供的技术方案带来的有益效果是：

本发明的一种使用图像生成视频的方法和装置，能够通过输入首帧图像与包含运动特征的嵌入向量进行图像的定向内容生成，解决了生成的视频不连贯、丢帧和模糊等问题。

附图说明

图1为本发明实施例的一种使用图像生成视频的流程图；

图2为本发明实施例的一种VAE-RGAN模型的结构示意图；

图3为本发明实施例的一种VAE-RGAN模型的详细示意图；

图4为本发明实施例的一种基于U-net卷积神经网络的精化网络的结构示意图；

图5为本发明实施例的使用的符号的说明图；

图6为本发明实施例的一种训练VAE-RGAN模型的伪代码；

图7为本发明实施例的不同视频生成模型基于Weizmann Action-I数据集生成的视频评价结果的对比图；

图8为本发明实施例的不同视频生成模型基于Weizmann Action-II数据集生成的视频评价结果的对比图；

图9为本发明实施例的不同视频生成模型基于Weizmann Action-I数据集生成的视频的效果图；

图10为本发明实施例的不同视频生成模型基于Weizmann Action-II数据集生成的视频的效果图；

图11为本发明实施例的一种VAE-RGAN模型不同模式生成的视频的效果图；

图12为本发明实施例所涉及的一种使用图像生成视频的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一：

如图1所示为本发明实施例的一种使用图像生成视频的流程图，示出了该方法的具体实施步骤，包括：

具体的，所述编码器模型包含第一编码器E_m和第二编码器E_c，所述第一编码器E_m用于提取视频帧的运动信息，所述第二编码器E_c用于提取视频帧的语义信息。

具体的，所述第一编码器E_m采用5层3维的卷积层和1层2维的卷积层以及一个线性方程来提取所述视频帧的512维的隐层变量，所述隐层变量包含了所述视频帧的运动信息。

具体的，所述第二编码器E_c使用4层2维的卷积层来提取所述视频帧的语义信息，每个提取特征的通道分别由256、128、64和32个单元组成。

具体的，所述解码器模型基于长短期记忆网络LSTM实现。

具体的，所述解码器模型包含主解码器通道和辅助解码器通道，所述主解码器通道由四个二维反卷积模块和两个三维卷积层组成，所述辅助解码器通道由四个二维反卷积模块组成，每个二维反卷积模块由两个二维卷积层和一个上采样算子组成。

具体的，所述VAE-RGAN模型的损失函数L_Full的公式为：

L_Full＝L_DC+λ₁L_VAE+λ₂L_Perceptual+λ₃L_IFM+λ₄L_CFM；

具体的，λ₁＝30，λ₂＝λ₃＝λ₄＝5。

实施例二：

如图2所示为本发明实施例的一种VAE-RGAN模型的结构示意图，示出了该模型的具体结构，包括：VAE编码器E_m即上述第一编码器E_m，VAE编码器E_c即上述第二编码器E_c，VAE解码器P即上述解码器模型，GAN的精化网络R即上述精化网络R，GAN的鉴别器D即上述鉴别器D。其中，V表示输入视频，I₀表示输入视频V的第一帧，c表示目标生成视频的属性，z表示训练VAE组件时，从VAE编码器E_m或训练GAN组件时从先验中采样的隐层变量，f_c表示VAE编码器E_c包含的各个卷积层的输出，视频

和

分别由VAE-RGAN模型中的VAE解码器P和GAN的精化网络R生成，y是二进制输出，表示视频的真伪。

如图3所示为本发明实施例的一种VAE-RGAN模型的详细示意图，示出了该模型的详细结构，包括：行为编码器、内容编码器、解码器、精化网络和判别器，其中，图3的行为编码器即VAE编码器E_m，图3的内容编码器即VAE编码器E_c，图3的解码器即VAE解码器P，图3的精化网络即GAN的精化网络R，图3的判别器即GAN的鉴别器D，图3的解码器基于长短期记忆网络(LSTM，Long Short-Term Memory)实现。本发明为VAE-RGAN模型提供一张静态的第一帧图片I₀以及对应的目标生成视频的属性c，通过预训练行为编码器生成一系列视频帧的图片深层特征以及对应目标标签特征向量z，之后将行为编码器所生成的一系列特征向量z，通过LSTM网络生成视频当中每一帧的隐层向量z₀～z_T，解码器将得到的所有特征向量进行视频重建，在重建的同时加入视频帧所对应的内容信息，从而保证所生成的视频能够更加清晰。在这之后，本发明为了增加视频帧之间的连贯性，采用精化网络来捕捉不同尺度下的视频帧信息，通过不同尺度间的特征融合来保证整体视频过渡的连贯性，在整个训练过程中将行为编码器、内容编码器、解码器和精化网络作为GAN的生成器来对视频进行生成，之后使用鉴别器D对所生成的视频进行鉴别，使用了博弈论相关知识对整体模型进行训练，提高了生成器生成的视频的真实性。

对于第一编码器E_m，即VAE编码器E_m或者图3的行为编码器，本发明采用了5层3维的卷积层和1层2维的卷积层以及一个线性方程来提取视频帧的512维的潜在的隐层变量，隐层变量包含了视频帧的运动信息。

对于第二编码器E_c，即VAE编码器E_c或者图3的内容编码器，本发明使用了4层2维的卷积层来提取输入视频帧的语义信息，每个提取特征的通道有256、128、64、32个单元。

对于解码器模型，即VAE解码器P或者图3的解码器，包含主解码器通道和辅助解码器通道，所述主解码器通道由四个二维反卷积模块和两个三维卷积层组成，所述辅助解码器通道由四个二维反卷积模块组成，每个二维反卷积模块由两个二维卷积层和一个上采样算子组成。

对于鉴别器D，即GAN的鉴别器D或者图3的判别器，包含两个组件，第一个是用于区分生成帧和真实帧之间的单个帧的2D卷积层集D_i，第二个是用于区分生成帧和真实帧之间的视频的3D卷积层集D_V。鉴别器D的输出是一个二进制变量y，代表视频是真还是假。

如图4所示为本发明实施例的一种基于U-net卷积神经网络的精化网络的结构示意图，示出了精化网络R的组成结构。精化网络R以U-net卷积神经网络为基础架构，由四层下采样和四层上采样组成，通过对图像的多层卷积以及对应上下采样层的内容叠加，进行图像细节增强，能够加强模型的鲁棒性，通过由低维度到高维度的对应嵌入，图像很好继承参考帧的背景信息，以此能够解决视频模糊的问题。精化网络R直接连接解码器，通过接收解码器生成的多层向量和各前帧的内容嵌入信息进行多层融合，以此改善视频的各帧图像内容不连贯的问题。在D_V中，本发明使用了5个Conv3D层，在D_i中，本发明使用了4个Conv2d层。U-net卷积神经网络是一个基于语义分割的网络，其在医学领域进行图像操作有着不错的效果。可以看出U-net卷积神经网络结构其实是类似于一个U型的结构。在此结构里面包含了两部分，其中一部分是一个收缩网络，而另一部分是一个扩张网络。这两种结构共同组成的U型结构能够对输入图像进行有效的特征提取，而最后的卷积操作则是为了将之前所获得的特征映射到所属分类上面。

如图5所示为本发明实施例的使用的符号的说明图，示出了本发明实施例出现的符号的类别和具体含义。

与通用VAE-GAN模型的损失函数相同，本发明的VAE-RGAN模型的损失函数定义为上述单个模块的损失函数的加权和，本发明的VAE-RGAN模型的损失函数L_Full公式如下：

L_Full＝L_DC+λ₁L_VAE+λ₂L_Perceptual+λ₃L_IFM+λ₄L_CFM；

其中，L_DC为VAE-RGAN模型中GAN组件的鉴别器D的损失函数，L_VAE为VAE-RGAN模型中VAE组件的损失函数，λ₁为L_VAE的权重值，L_Perceptual为感知机的损失函数，λ₂为L_Perceptual的权重值，L_IFM为身份特征匹配损失函数，λ₃为L_IFM的权重值，L_CFM为连接特征匹配损失函数，λ₄为L_CFM的权重值。

VAE-RGAN模型中GAN组件的鉴别器D的损失函数L_DC的公式如下：

其中，L_DC主要为了通过博弈论，去迫使VAE-RGAN模型的生成器G去生成尽可能逼真的视频，并且使用了计算交叉熵的方法来制定类别标签，以指定生成视频的目标域。

VAE-RGAN模型中VAE组件的损失函数L_VAE的公式如下：

其中，L_VAE旨在使用KL散度最小化经过Autoencoder前后的差异。

感知机的损失函数L_Perceptual的公式如下：

其中，L_Perceptual用于抑制解码器VAE的输出特征差异，V指的是真实视频，

指的是生成视频。

身份特征匹配损失函数L_IFM的公式如下：

其中，L_IFM用于提高生成视频和真实视频内容的一致性，n为视频属性，Vⁿ表示真实视频，t为所述真实视频Vⁿ的第t帧的索引，ψ_-1为预训练时深度卷积网络输出的张量，

为真实视频Vⁿ的第t帧图像，

为生成视频的第t帧图像，

为真实视频Vⁿ的首帧图像，z为运动向量，L_FM为生成器G的损失函数。

生成器G的损失函数L_FM的公式如下：

其中，V指的是输入的真实视频，I₀为输入的真实视频V的首帧图像，z为输入的运动向量，c为视频属性，V^c指的是真实视频，

为真实视频V^c的首帧图像，f_DV为所述鉴别器中三维卷积层输出的张量，t为所述真实视频V^c的第t帧的索引，f_DI为所述鉴别器中二维卷积层输出的张量，

为真实视频V^c的第t帧图像，

为生成视频的第t帧图像。

连接特征匹配损失函数L_CFM的公式如下：

其中，L_CFM用于提高生成视频的质量，V指的是真实视频，t为所述真实视频V的第t帧的索引，ψ_-1为预训练时深度卷积网络输出的张量，I_t为真实视频V的第t帧图像，

为生成视频的第t帧图像，f_DV为所述鉴别器中三维卷积层输出的张量，G为生成视频，E_m(V)为运动向量，I₀为真实视频V的首帧图像，c为视频属性，f_DI为所述鉴别器中二维卷积层输出的张量。

如图6所示为本发明实施例的一种训练VAE-RGAN模型的伪代码，示出了训练VAE-RGAN模型的过程。通用的VAE-GAN模型，即没有精化网络R的VAE-GAN模型，虽然实现了图像到视频的转换，但是VAE和GAN的缺点并没有随着模块的结合而优化。本发明提出了一个新的VAE-GAN模型，其中包括一个额外的refine网络，即VAE-RGAN模型。在进行了定量与定性的测试后发现，经过refine网络的细化之后，模型在很大程度上解决了VAE-GAN产生的视频模糊、失真和丢帧的问题。

本发明使用Weizmann Action数据集进行实验，数据集由90个视频序列组成，包括不同的9个人，每个人具有10种自然的行为。本发明建立了Weizmann Action-I数据集，并进行了预处理，对于每个视频，本发明将序列帧分为两部分。第一部分包含每个视频序列的前2/3帧，本发明从第一部分中采样10帧的几个连续序列，并将其作为训练数据；然后本发明对帧序列的剩余1/3进行处理，采样10帧的几个连续序列，并使用这些作为测试数据。通过这种方式，训练过的模型可以获得测试阶段出现的主题。

为了评估VAE-GAN架构的泛化能力，本发明还建立了Weizmann Action-II数据集，去判断模型是否在训练阶段就能学习到人体的特征。由于Weizmann Action数据集包含9个人的动作序列，本发明将这9个人的集合分成两部分，本发明使用其中6个人作为训练子集，使用其余3个人作为测试子集。与Weizmann Action-I数据类似，本发明分别从两个子集中抽取连续10帧的几个序列作为训练和测试数据。

Weizmann Action-I数据集和Weizmann Action-II数据集的训练样本总数分别为2833件和3385件，测试样本总数分别为810件和1371件。

本发明的比较实验，将本发明提出的技术方案与一些最先进的替代方案进行了定量和定性的比较，替代方案包括MoCoGAN和P2PVG，它们的结构和相应的实验设置如下所述：

MoCoGAN是一个基于GAN的视频生成模型。在本实验中，使用有条件的图像到视频模式，给定第一个视频帧作为输入。本发明使用Weizmann Action数据集和数据集推荐的参数对MoCoGAN进行训练，总共使用12000批，batch大小为16，训练的周期分别为：WeizmannAction-I数据集68次，Weizmann Action-II数据集57次，Weizmann Action数据集中的人类行为类别的数量是10。

P2PVG是一个基于VAE-GAN的视频生成模型，它使用开始帧和结尾帧来生成视频。在本实验中，训练周期数量设置为200，batch大小设置为32。

本发明将VAE-RGAN模型和VAE-RGAN-p2p模型分别表示为只输入起始帧的VAE-RGAN模型和输入起始帧和结束帧的VAE-RGAN模型，以对比MoCoGAN模型和P2PVG模型的数据。

本实验的主要目的是观察本发明的VAE-RGAN模型和P2PVG模型之间的视觉质量差距，

本例中，选择FID-ResNeXt、FID-I3D、PSNR和SSIM四个指标作为不同视频生成模型的比较标准，其中，FID-ResNeXt和FID-I3D分别关注图像和视频的视觉质量，因为ResNeXt是用于图像分类的训练，而I3D是用于视频分类的训练。此外，本发明还将预训练的OpenFace神经网络作为计算FID的初始网络，其中FID-OpenFace也主要侧重于判断图像的视觉质量。对于PSNR，因为计算它的步骤包括计算MSE距离，所以VAE的像素损失将直接改善这一项，这使得这个度量不是一个很好的视频生成质量的指标。平均标准指标如PSNR和SSIM不能正确反映生成能力。在本发明看来，FID更适合于本发明的图像到视频的生成任务。由于I3D inception network是预先训练的视频网络，而不是图像网络，它比ResNeXt或Openface inception network更能反映模型的视频生成能力。

如图7所示为本发明实施例的不同视频生成模型基于Weizmann Action-I数据集生成的视频评价结果的对比图，示出了MoCoGAN、P2PVG、VAE-RGAN-p2p和VAE-RGAN基于Weizmann Action-I数据集生成的视频的评价结果，如图8所示为本发明实施例的不同视频生成模型基于Weizmann Action-II数据集生成的视频评价结果的对比图，示出了MoCoGAN、P2PVG、VAE-RGAN-p2p和VAE-RGAN基于Weizmann Action-II数据集生成的视频的评价结果。

从图7和图8可以看出，VAE-RGAN在Weizmann Action-I数据集和WeizmannAction-II数据集上的表现优于MoCoGAN。与P2PVG相比，VAE-RGAN在WeizmannAction-I数据集和Weizmann Action-II数据集上的FID-ResNeXt的改进分别为0.11和0.39。这表明，与P2PVG相比，本发明提出的方法可以生成更高的图像质量和更接近真实视频帧的结构相似性。然而，本发明提出的VAE-RGAN在FID-I3D、PSNR和SSIM方面的表现不如P2PVG。这是因为P2PVG使用开始帧和结束帧作为输入改进了缺点，本发明提出的VAE-RGAN只使用开始帧作为输入。

如图9所示为本发明实施例的不同视频生成模型基于Weizmann Action-I数据集生成的视频的效果图，示出了P2PVG、MoCoGAN和VAE-RGAN生成的视频的定性结果，如图10所示为本发明实施例的不同视频生成模型基于Weizmann Action-II数据集生成的视频的效果图，示出了MoCoGAN、P2PVG、VAE-RGAN-p2p和VAE-RGAN生成的视频的定性结果，其中Ground Truth为原始视频。

从图9和图10可以看出，MoCoGAN出现了模式崩溃的问题，降低了生成视频的自然度。相比之下，VAE-GAN的损失函数与本发明提出的损失函数结合使用，稳定了共享的VAE解码器和精化网络。因此，VAE-RGAN避免了模型坍塌的问题。

从图9和图10还可以看出，与MoCoGAN模型和P2PVG模型相比，VAE-RGAN和VAE-RGAN-p2p生成的视频序列的视觉质量得到了提高。此外，与P2PVG模型相比，VAE-RGAN也改善了主观外观。这些结果表明，VAE-RGAN结构可以产生比P2PVG更高的分辨率帧，特别是在背景质量方面。

如图11所示为本发明实施例的一种VAE-RGAN模型不同模式生成的视频的效果图，示出了VAE-RGAN模型在VAE-OGAN、VAE-RGAN和2C不同模式生成的视频的清晰度效果。其中，VAE-OGAN和VAE-RGAN分别指没有精化网络和有精化网络的VAE-GAN结构，2C指的是只考虑VAE-RGAN的主解码器通道。从图11可以看出，VAE-OGAN比VAE-RGAN产生了更多的视频模糊帧，结果表明，精化网络R能够有效地消除模糊问题。

实施例三：

本发明还提供一种使用图像生成视频的装置，如图12所示，该装置包括处理器1201、存储器1202、总线1203、以及存储在存储器1202中并可在处理器1201上运行的计算机程序，处理器1201包括一个或一个以上处理核心，存储器1202通过总线1203与处理器1201相连，存储器1202用于存储程序指令，处理器执行计算机程序时实现本发明的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，使用图像生成视频的装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。***/电子设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述***/电子设备的组成结构仅仅是***/电子设备的示例，并不构成对***/电子设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件。例如***/电子设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是***/电子设备的控制中心，利用各种接口和线路连接整个***/电子设备的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现***/电子设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例四：

本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

***/电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种使用图像生成视频的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述编码器模型包含第一编码器E_m和第二编码器E_c，所述第一编码器E_m用于提取视频帧的运动信息，所述第二编码器E_c用于提取视频帧的语义信息。

3.根据权利要求2所述的方法，其特征在于，所述第一编码器E_m采用5层3维的卷积层和1层2维的卷积层以及一个线性方程来提取所述视频帧的512维的隐层变量，所述隐层变量包含了所述视频帧的运动信息。

4.根据权利要求2所述的方法，其特征在于，所述第二编码器E_c使用4层2维的卷积层来提取所述视频帧的语义信息，每个提取特征的通道分别由256、128、64和32个单元组成。

5.根据权利要求1所述的方法，其特征在于，所述解码器模型基于长短期记忆网络LSTM实现。

6.根据权利要求5所述的方法，其特征在于，所述解码器模型包含主解码器通道和辅助解码器通道，所述主解码器通道由四个二维反卷积模块和两个三维卷积层组成，所述辅助解码器通道由四个二维反卷积模块组成，每个二维反卷积模块由两个二维卷积层和一个上采样算子组成。

7.根据权利要求6所述的方法，其特征在于，所述VAE-RGAN模型的损失函数L_Full的公式为：

L_Full＝L_DC+λ₁L_VAE+λ₂L_Perceptual+λ₃L_IFM+λ₄L_CFM；

8.根据权利要求7所述的方法，其特征在于，λ₁＝30，λ₂＝λ₃＝λ₄＝5。

9.一种使用图像生成视频的装置，其特征在于，包括存储器和处理器，所述存储器存储有至少一段程序，所述至少一段程序由所述处理器执行以实现如权利要求1至8任一所述的使用图像生成视频的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由所述处理器执行以实现如权利要求1至8任一所述的使用图像生成视频的方法。