CN108900788B

CN108900788B - 视频生成方法、视频生成装置、电子装置及存储介质

Info

Publication number: CN108900788B
Application number: CN201810765554.9A
Authority: CN
Inventors: 杨策元; 王哲; 石建萍
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2020-09-15
Anticipated expiration: 2038-07-12
Also published as: CN108900788A

Abstract

本发明实施例涉及图像处理技术领域，公开了一种视频生成方法、视频生成装置、电子装置及存储介质。其中，该方法包括：获取输入图像与目标动作类型，根据输入图像与目标动作类型生成第一姿态序列，再根据输入图像与第一姿态序列生成动态视频；由此可见，实施本发明实施例，可以避免噪声和异常姿态使得生成的视频中包含突变的视频帧，从而提高视频生成的可控性。

Description

视频生成方法、视频生成装置、电子装置及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频生成方法、视频生成装置、电子装置及存储介质。

背景技术

随着图像处理领域的基础技术的发展，视频生成技术也方兴未艾。视频生成可以利用单张或多张图像生成连续的动态视频，其不仅可以应用于互动应用之中，还可以在数据量缺乏的情况下，用来生成更多数据以提高数据数量，减少人工标注的工作量。

随着生成对抗网络(Generative Adversarial Network，GAN)的出现，视频生成技术获得巨大突破。视频生成的常用思路为分别进行视频的运动建模和内容建模，通过两步处理最终获得动态视频。然而，在进行运动建模的过程中，会受噪声和异常姿态(pose)的影响，导致生成的动态视频不可控；而在实际的应用场景中，噪声和异常姿态普遍存在，因而这样的视频生成方法难以部署到实际的应用场景中。

发明内容

本发明实施例提供了一种视频生成方法、视频生成装置、电子装置及存储介质，可以提高视频生成的可控性。

第一方面，本发明实施例提供了一种视频生成方法，包括：

获取输入图像与目标动作类型；

根据所述输入图像与所述目标动作类型生成第一姿态序列；

根据所述输入图像与所述第一姿态序列生成动态视频。

作为一种可选的实施方式，所述根据所述输入图像与所述目标动作类型生成第一姿态序列，包括：

从所述输入图像提取第一初始姿态；

将所述第一初始姿态以及所述目标动作类型输入姿态序列生成网络，获得第一姿态序列。

作为一种可选的实施方式，所述根据所述输入图像与所述第一姿态序列生成动态视频，包括：

提取所述输入图像中的外观特征；

将所述外观特征与所述第一姿态序列输入语义一致生成网络，获得动态视频。

作为一种可选的实施方式，所述姿态序列生成网络包括长短期记忆LSTM网络。

作为一种可选的实施方式，在所述根据所述输入图像与所述目标动作类型生成第一姿态序列之前，所述方法还包括：

解析训练视频以获取真实姿态序列；

将第二初始姿态和所述训练视频对应的动作类型输入所述姿态序列生成网络，获得第二姿态序列，所述第二初始姿态为所述真实姿态序列中的任一姿态；

根据所述真实姿态序列和所述第二姿态序列计算第一损失函数；

优化所述第一损失函数以训练所述姿态序列生成网络。

作为一种可选的实施方式，在所述根据所述输入图像与所述第一姿态序列生成动态视频之前，所述方法还包括：

根据所述训练视频和所述语义一致生成网络，生成第一生成图像和第二生成图像，所述第一生成图像和所述第二生成图像为所述训练视频中两帧不同图像对应的生成图像；

根据所述第一生成图像和所述第二生成图像计算第二损失函数；

优化所述第二损失函数以训练所述语义一致生成网络。

作为一种可选的实施方式，所述根据所述训练视频和所述语义一致生成网络，生成第一生成图像和第二生成图像包括：

将所述训练视频中第一帧图像确定为真实图像，所述第一帧图像为所述第二初始姿态对应的图像；

提取所述训练视频中第二帧图像的姿态为真实姿态，所述第二帧图像与所述第一帧图像不同；

将所述真实图像和所述真实姿态输入所述语义一致生成网络，获得第一生成图像；

根据所述真实图像和所述真实姿态，确定生成姿态；

将所述真实图像和所述生成姿态输入所述语义一致生成网络，获得第二生成图像。

第二方面，本发明实施例提供了一种视频生成装置，包括：

获取单元，用于获取输入图像与目标动作类型；

第一生成单元，用于根据所述输入图像与所述目标动作类型生成第一姿态序列；

第二生成单元，用于根据所述输入图像与所述第一姿态序列生成动态视频。

作为一种可选的实施方式，所述第一生成单元，包括：

第一提取子单元，用于从所述输入图像提取第一初始姿态；

第一输入子单元，用于将所述第一初始姿态以及所述目标动作类型输入姿态序列生成网络，获得第一姿态序列。

作为一种可选的实施方式，所述第二生成单元，包括：

第二提取子单元，用于提取所述输入图像中的外观特征；

第二输入子单元，用于将所述外观特征与所述第一姿态序列输入语义一致生成网络，获得动态视频。

作为一种可选的实施方式，所述装置还包括：

解析单元，用于在所述第一生成单元根据所述输入图像与所述目标动作类型生成第一姿态序列之前，解析训练视频以获取真实姿态序列；

第一输入单元，用于将所述第二初始姿态和所述训练视频对应的动作类型输入所述姿态序列生成网络，获得第二姿态序列，所述第二初始姿态为所述真实姿态序列中的任一姿态；

第一计算单元，用于根据所述真实姿态序列和所述第二姿态序列计算第一损失函数；

第一优化单元，用于优化所述第一损失函数以训练所述姿态序列生成网络。

作为一种可选的实施方式，所述装置还包括：

第三生成单元，用于根据所述训练视频和所述语义一致生成网络，生成第一生成图像和第二生成图像，所述第一生成图像和所述第二生成图像为所述训练视频中两帧不同图像对应的生成图像；

第二计算单元，用于根据所述第一生成图像和所述第二生成图像计算第二损失函数；

第二优化单元，用于优化所述第二损失函数以训练所述语义一致生成网络。

作为一种可选的实施方式，所述第三生成单元包括：

第一确定子单元，用于将所述训练视频中第一帧图像确定为真实图像，所述第一帧图像为所述第二初始姿态对应的图像；

第三提取子单元，用于提取所述训练视频中第二帧图像的姿态作为真实姿态，所述第二帧图像与所述第一帧图像不同；

第三输入子单元，用于将所述真实图像和所述真实姿态输入所述语义一致生成网络，获得第一生成图像；

第二确定子单元，用于根据所述真实图像和所述真实姿态，确定生成姿态；

第四输入子单元，用于将所述真实图像和所述生成姿态输入所述语义一致生成网络，获得第二生成图像。

第三方面，本发明实施例提供了一种电子装置，所述电子装置包括存储器、处理器以及存储在所述存储器中的程序，所述程序被配置成由所述处理器执行，所述处理器执行所述程序时实现如上述第一方面所述的视频生成方法的步骤。

第四方面，本发明实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的视频生成方法的步骤。

本发明实施例中，获取输入图像与目标动作类型，根据输入图像与目标动作类型生成第一姿态序列，再根据输入图像与第一姿态序列生成动态视频，通过这种方式，可以避免噪声和异常姿态使得生成的视频中包含突变的视频帧，从而提高视频生成的可控性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种视频生成方法的流程示意图；

图2为本发明实施例公开的一种生成的第一姿态序列和动态视频的示意图；

图3A为本发明实施例公开的另一种视频生成方法的流程示意图；

图3B为本发明实施例公开的一种训练姿态序列生成网络方法的流程示意图；

图3C为本发明实施例公开的一种训练语义一致生成网络方法的流程示意图；

图3D为本发明实施例公开的一种生成第一生成图像和第二生成图像方法的流程示意图；

图4A为本发明实施例公开的一种视频生成装置的结构示意图；

图4B为本发明实施例公开的一种第一生成单元的结构示意图；

图4C为本发明实施例公开的一种第二生成单元的结构示意图；

图5为本发明实施例公开的另一种视频生成装置的结构示意图；

图5A为本发明实施例公开的一种第三生成单元的结构示意图；

图6为本发明实施例公开的一种电子装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例所涉及到的电子装置可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminaldevice)、计算机、个人电脑等等。为方便描述，上面提到的设备统称为电子装置。

本发明实施例提供了一种视频生成方法、视频生成装置、电子装置及存储介质，可以提高视频生成的可控性。以下分别进行详细说明。

请参阅图1，图1为本发明实施例公开的一种视频生成方法的流程示意图。如图1所示，该视频生成方法可以包括如下步骤：

101、获取输入图像与目标动作类型。

本发明实施例中，上述输入图像可为人体图像或人脸图像，当输入图像为人体图像时，输出的动态视频可为包含人体动作的动态视频；当输入图像为人脸图像时，输出的动态视频可为包含人脸表情变化的动态视频。

而上述目标动作类型可为从多种预设的动作类型中选择出的。其中，可选的动作类型可以包括：跳跃、打太极、大笑、眨眼等。

102、根据输入图像与目标动作类型生成第一姿态序列。

本发明实施例中，将视频生成过程分为运动建模和内容建模两个步骤。其中，在进行运动建模时，通过输入图像提取出用户的姿态，根据用户的姿态和已经确定好的目标动作类型生成预测姿态序列。

具体地，电子装置可以从输入图像中提取第一初始姿态(pose)，将第一初始姿态以及目标动作类型输入姿态序列(Pose Sequence)生成网络，获取姿态序列生成网络根据第一初始姿态以及目标动作类型输出的第一姿态序列。姿态序列生成网络可以为姿态序列生GAN。

具体地，可以采用OpenPose从输入图像中提取一定数量的关键点坐标。举例来说，我们可以设置所需的关键点的数量为18个，在提取关键点坐标的过程中，如果检测到的关键点的个数少于18个，则重复执行该提取过程直至关键点的个数满足条件。

进一步地，在获取到足够的关键点坐标之后，可以将关键点坐标转换为18个热图(heatmap)，热图在关键点的位置的值为1，其他位置的值为0。在此之后，将18个关键点所对应的18个热图合并为一个18通道(C＝18)的张量(tensor)。该张量即可表示上述第一初始姿态。

为了更好地阐述本技术方案，以下对姿态序列生成网络进行详细介绍。

本发明实施例中，姿态序列生成网络应用了一种编码器-解码器架构。其中，尺寸为C*W*H的第一初始姿态和目标动作类型被输入到多个卷积层之中，其中，目标动作类型为n维向量，n表示可选的动作类型的数量；由卷积层输出之后，信号被嵌入到多个特征地图之中，特征地图将由解码器完成时域扩展，从而获得一个尺寸为C*T*W*H的张量。

进一步地，为了强化时空连续性，我们可以在姿态序列生成网络中引入长短期记忆(Long-Short Term Memory，LSTM)网络。具体地，可以将姿态序列生成网络输出的尺寸为C*T*W*H的张量沿时间维度展开成T个C*W*H的特征图，然后嵌入LSTM网络，从而输出第一姿态序列。

103、根据输入图像与第一姿态序列生成动态视频。

本发明实施例中，在进行内容建模的过程中，可以根据输入图像和第一姿态序列生成动态视频。

具体地，电子装置提取输入图像中的外观(appearance)特征，将外观特征以及第一姿态序列输入语义一致(Sematic Consistent)生成网络，获取语义一致生成网络根据外观特征以及第一姿态序列输出的动态视频。语义一致生成网络可以为语义一致GAN。

本发明实施例中，通过保持生成图像的姿态与真实图像的姿态语义一致，可以提高视频生成方法对异常姿态的鲁棒性，从而提高生成的视频质量。

请参阅图2，图2为利用本发明实施例所提供的方法生成第一姿态序列和动态视频的示意图。如图2所示，从输入图像中提取出第一初始姿态之后，利用第一初始姿态和目标动作类型生成第一姿态序列；在此之后，利用第一姿态序列和输入图像生成动态视频的多个视频帧。

由此可见，实施上述方法，获取输入图像与目标动作类型，根据输入图像与目标动作类型生成第一姿态序列，再根据输入图像与第一姿态序列生成动态视频，可以生成流畅、高质量的动态视频。

请参阅图3A，图3A为本发明实施例公开的另一种视频生成方法的流程示意图，如图3A所示，该视频生成方法可以包括如下步骤：

301、利用训练视频训练姿态序列生成网络。

本发明实施例中，训练姿态序列生成网络的方法将在图3B所对应的内容中进行详细描述，在此不再赘述。需要说明的是，训练姿态序列生成网络和训练语义一致生成网络的步骤没有先后顺序之分，在此仅通过301以及302对两个步骤进行区分。

302、利用训练视频训练语义一致生成网络。

本发明实施例中，训练语义一致生成网络的方法将在图3C所对应的内容中进行详细描述，在此不再赘述。

303、获取输入图像与目标动作类型。

304、根据输入图像与目标动作类型生成动态视频。

本发明实施例中，生成动态视频的步骤可以参考步骤102以及103中的详细描述，在此不再赘述。

进一步地，请参阅图3B，图3B为本发明实施例公开的一种训练姿态序列生成网络方法的流程示意图。如图3B所示，该方法可以包括如下步骤：

311、解析训练视频以获取真实姿态序列；

本发明实施例中，可以采用多种运动类型的训练视频对姿态序列生成网络进行训练。具体地，可以解析训练视频，从训练视频中提取真实姿态序列P。

312、将第二初始姿态和训练视频对应的动作类型输入姿态序列生成网络，获得第二姿态序列。

本发明实施例中，将第二初始姿态p和训练视频对应的动作类型a输入需训练的姿态序列生成网络，从而获得姿态序列生成网络输出的第二姿态序列G(p,a)。其中，第二初始姿态为真实姿态序列中的任一姿态。

313、根据真实姿态序列和第二姿态序列计算第一损失函数。

本发明实施例中，可以根据真实姿态序列P以及第二姿态序列G(p,a)计算第一损失函数L₁，通过优化第一损失函数L₁来训练姿态序列生成网络。具体地，第一损失函数L₁的表达式为：

L₁＝E_P[logD(P)]+E_p,a[log(1-D(G(p,a)))]+E_p,a[log(D(G(p,a)))]，

其中，D为监督函数，用于分辨第二姿态序列G(p,a)与真实姿态序列P，E为数学期望。

314、优化第一损失函数以训练姿态序列生成网络。

由此可见，通过图3B所描述的训练方法，可以优化姿态序列生成网络模型，使得通过姿态序列生成网络输出的姿态序列更为接近于真实姿态序列。

进一步地，请参阅图3C，图3C为本发明实施例公开的一种训练语义一致生成网络方法的流程示意图。如图3C所示，该方法可以包括如下步骤：

321、根据训练视频和语义一致生成网络，生成第一生成图像和第二生成图像。

进一步地，请参阅图3D，图3D为本发明实施例公开的一种生成第一生成图像和第二生成图像方法的流程示意图。如图3D所示，该方法可以包括如下步骤：

3211、将训练视频中第一帧图像确定为真实图像。

本发明实施例中，可以采用多种运动类型的训练视频对语义一致生成网络进行训练，可以先将训练视频中第一帧图像确定为真实图像

3212、提取训练视频中第二帧图像的姿态为真实姿态。

本发明实施例中，提取训练视频中第二帧图像的姿态为真实姿态

步骤3211和步骤3212可以并行执行，也可以串行执行，本实施例不作限定。

3213、将真实图像和真实姿态输入语义一致生成网络，获得第一生成图像。

3214、根据真实图像和真实姿态确定生成姿态。

本发明实施例中，根据真实图像和真实姿态确定生成姿态

可以是先根据真实图像和训练视频对应的动作类型生成第三姿态序列，之后获取第三姿态序列中第二帧图像对应的姿态作为生成姿态。

3215、将真实图像和生成姿态输入语义一致生成网络，获得第二生成图像。

其中，第一生成图像和第二生成图像为训练视频中两帧不同图像对应的生成图像，第一帧图像为第二初始姿态对应的图像，第二帧图像与第一帧图像不同。第一生成图像的表达式可为：

第二生成图像的表达式可为：

322、根据第一生成图像和第二生成图像计算第二损失函数。

本发明实施例中，第二损失函数L₂的表达式可为：

其中，

为训练视频在第二帧图像；D₁和D₂为监督函数，用于判别生成的图像是否为真；D_which为用于判别生成的图像是根据真实姿态生成或根据生成姿态生成。

323、优化第二损失函数以训练语义一致生成网络。

由此可见，通过图3C所描述的训练方法，可以优化语义一致生成网络模型，使得通过语义一致生成网络输出的动态视频中的视频帧与输入图像的语义一致性更强。

请参阅图4A，图4A为本发明实施例公开的一种视频生成装置的结构示意图。如图4A所示，视频生成装置400可以包括获取单元401、第一生成单元402以及第二生成单元403，其中，

获取单元401，用于获取输入图像与目标动作类型。

第一生成单元402，用于根据输入图像与目标动作类型生成第一姿态序列。

第二生成单元403，用于根据输入图像与第一姿态序列生成动态视频。

具体地，请参阅图4B，图4B为本发明实施例公开的一种第一生成单元402的结构示意图。如图4B所示，第一生成单元402可以包括第一提取子单元4021和第一输入子单元4022，其中：

第一提取子单元4021，用于从输入图像提取第一初始姿态。

第一输入子单元4022，用于将第一初始姿态以及目标动作类型输入姿态序列生成网络，获得第一姿态序列。

具体地，请参阅图4C，图4C为本发明实施例公开的一种第二生成单元403的结构示意图。如图4C所示，第二生成单元403可以包括第二提取子单元4031和第二输入子单元4032，其中：

第二提取子单元4031，用于提取输入图像中的外观特征。

第二输入子单元4032，用于将外观特征与第一姿态序列输入语义一致生成网络，获得动态视频。

由此可见，利用图4A～图4C所描述的视频生成装置，可以避免噪声和异常姿态使得生成的视频中包含突变的视频帧，从而提高视频生成的可控性。

请参阅图5，图5为本发明实施例公开的另一种视频生成装置的结构示意图。如图5所示，视频生成装置500可以在视频生成装置400的基础上获得，与视频生成装置400相比，装置500还可以包括解析单元404、第一输入单元405、第一计算单元406、第一优化单元407、第三生成单元408、第二计算单元409以及第二优化单元410，其中：

解析单元404、第一输入单元405、第一计算单元406以及第一优化单元407可用于训练姿态序列生成网络模型，具体地：

解析单元404，用于在第一生成单元402根据输入图像与目标动作类型生成第一姿态序列之前，解析训练视频以获取真实姿态序列；

第一输入单元405，用于将第二初始姿态和训练视频对应的动作类型输入姿态序列生成网络，获得第二姿态序列，第二初始姿态为真实姿态序列中的任一姿态；

第一计算单元406，用于根据真实姿态序列和第二姿态序列计算第一损失函数。

第一优化单元407，用于优化第一损失函数以训练姿态序列生成网络。

由此可见，通过上述装置，可以优化姿态序列生成网络模型，使得通过姿态序列生成网络输出的姿态序列更为接近于真实姿态序列。

而第三生成单元408、第二计算单元409以及第二优化单元410可用于训练语义一致生成网络，具体地：

第三生成单元408，用于根据训练视频和语义一致生成网络，生成第一生成图像和第二生成图像，第一生成图像和第二生成图像为训练视频中两帧不同图像对应的生成图像；

第二计算单元409，用于根据第一生成图像和第二生成图像计算第二损失函数。

第二优化单元410，用于优化第二损失函数以训练语义一致生成网络。

具体地，请参阅图5A，图5A为本发明实施例公开的一种第三生成单元408的结构示意图。如图5A所示，第三生成单元408可以包括第第一确定子单元4081、第三提取子单元4082、第三输入子单元4083、第二确定子单元4084和第四输入子单元4085，其中：

第一确定子单元4081，用于将训练视频中第一帧图像确定为真实图像，第一帧图像为第二初始姿态对应的图像；

第三提取子单元4082，用于提取训练视频中第二帧图像的姿态作为真实姿态，第二帧图像与第一帧图像不同；

第三输入子单元4083，用于将真实图像和真实姿态输入语义一致生成网络，获得第一生成图像；

第二确定子单元4084，用于根据真实图像和真实姿态，确定生成姿态；

第四输入子单元4085，用于将真实图像和生成姿态输入语义一致生成网络，获得第二生成图像。

由此可见，通过上述装置，可以优化语义一致生成网络模型，使得通过语义一致生成网络输出的动态视频中的视频帧与输入图像的语义一致性更强。

请参阅图6，图6为本发明实施例公开的一种电子装置的结构示意图。其中，电子装置600包括处理器601以及存储器602，其中，存储器602中存储有程序，该程序被配置成由处理器601执行，处理器601执行该程序时实现上述图1、图3A～图3C所描述的视频生成方法。

由此可见，电子装置600可以获取输入图像与目标动作类型，根据输入图像与目标动作类型生成第一姿态序列，再根据输入图像与第一姿态序列生成动态视频，通过这种方式，可以避免噪声和异常姿态使得生成的视频中包含突变的视频帧，从而提高视频生成的可控性。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括手提电脑、以及移动终端等，上述计算机具有处理器。

本发明实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括移动终端。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频生成方法，其特征在于，包括：

获取输入图像与目标动作类型，所述输入图像包括第一初始姿态；

根据所述输入图像与所述目标动作类型生成第一姿态序列，所述第一姿态序列为与所述目标动作类型关联的多个不同动作对应的姿态的序列；

根据所述输入图像与所述第一姿态序列生成动态视频。

2.根据权利要求1所述的方法，其特征在于，所述根据所述输入图像与所述目标动作类型生成第一姿态序列，包括：

从所述输入图像提取所述第一初始姿态；

3.根据权利要求2所述的方法，其特征在于，所述根据所述输入图像与所述第一姿态序列生成动态视频，包括：

提取所述输入图像中的外观特征；

4.根据权利要求2或3所述的方法，其特征在于，所述姿态序列生成网络包括长短期记忆LSTM网络。

5.根据权利要求3所述的方法，其特征在于，在所述根据所述输入图像与所述目标动作类型生成第一姿态序列之前，所述方法还包括：

解析训练视频以获取真实姿态序列；

优化所述第一损失函数以训练所述姿态序列生成网络。

6.根据权利要求5所述的方法，其特征在于，在所述根据所述输入图像与所述第一姿态序列生成动态视频之前，所述方法还包括：

优化所述第二损失函数以训练所述语义一致生成网络。

7.根据权利要求6所述的方法，其特征在于，所述根据所述训练视频和所述语义一致生成网络，生成第一生成图像和第二生成图像包括：

根据所述真实图像和所述真实姿态，确定生成姿态；

8.一种视频生成装置，其特征在于，包括：

获取单元，用于获取输入图像与目标动作类型，所述输入图像包括第一初始姿态；

第一生成单元，用于根据所述输入图像与所述目标动作类型生成第一姿态序列，所述第一姿态序列为与所述目标动作类型关联的多个不同动作对应的姿态的序列；

9.根据权利要求8所述的装置，其特征在于，所述第一生成单元包括：

第一提取子单元，用于从所述输入图像提取所述第一初始姿态；

10.根据权利要求9所述的装置，其特征在于，所述第二生成单元包括：

第二提取子单元，用于提取所述输入图像中的外观特征；

11.根据权利要求9或10所述的装置，其特征在于，所述姿态序列生成网络包括LSTM网络。

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第一输入单元，用于将第二初始姿态和所述训练视频对应的动作类型输入所述姿态序列生成网络，获得第二姿态序列，所述第二初始姿态为所述真实姿态序列中的任一姿态；

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述第三生成单元包括：

15.一种电子装置，其特征在于，所述电子装置包括存储器、处理器以及存储在所述存储器中的程序，所述程序被配置成由所述处理器执行，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的视频生成方法的步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的视频生成方法的步骤。