CN112733616B

CN112733616B - 一种动态图像的生成方法、装置、电子设备和存储介质

Info

Publication number: CN112733616B
Application number: CN202011530036.2A
Authority: CN
Inventors: 石峰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2022-04-01
Anticipated expiration: 2040-12-22
Also published as: CN112733616A

Abstract

本公开关于一种动态图像的生成方法、装置、电子设备和存储介质，所述方法包括：获取静态图像和参考图像，参考图像为动态参考视频中的任意一帧图像，将静态图像和参考图像输入到动态特征提取模型中进行动态特征的提取，得到动态变换信息。将动态变换信息和静态图像输入到图像合成模型中进行图像合成，得到合成图像。根据参考图像的时间顺序，对合成图像进行视频编码，可以得到动态化视频。该方法可以提高由静态图像生成动态化视频的准确性和实用性，从而简化了视频制作的步骤，扩大了动态图像生成技术的应用范围。

Description

一种动态图像的生成方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种动态图像的生成方法、装置、电子设备和存储介质。

背景技术

视频作为内容的一种载体，天然比图文在信息表达和吸引受众上存在优势。近几年来，随着移动互联网的快速发展，短视频、直播等各种用户可以上传原创视频的平台大量出现，逐渐成为互联网内容的主流。但另外一方面，视频创作也存在着门槛较高的缺点，一个视频从想法到最终成型需要经历脚本设计、素材拍摄、视频剪辑、配音配乐等诸多环节，这在相当程度上阻碍了更多的用户参与到视频创作中去。在相关技术中，动态图像生成技术大都局限在特定的物体上，例如只能应用在人脸或人体上，极大的限制了动态图像生成技术的应用范围和实用性。

发明内容

本公开提供一种动态图像的生成方法、装置、电子设备和存储介质，以至少解决相关技术中动态图像生成技术的应用范围窄，实用性低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种动态图像的生成方法，所述方法包括：

获取静态图像和动态参考视频，所述静态图像包括静态对象，所述动态参考视频包括参考对象，所述静态对象和所述参考对象的类型相同；

从所述动态参考视频中提取任意一帧图像作为参考图像；

将所述参考图像和所述静态图像输入到动态特征提取模型中进行动态特征提取，得到所述参考图像和所述静态图像间的动态变换信息，所述动态变换信息表征所述静态对象的动作和所述参考对象的动作间的转换关系；

将所述动态变换信息和所述静态图像输入到图像合成模型中进行特征融合，得到合成图像；

根据所述动态参考视频中参考图像对应的时间顺序，对所述合成图像进行视频编码，得到动态化视频。

作为一个可选的实施例，所述动态特征提取模型包括运动关键点提取网络和帧间运动估计网络，所述将所述参考图像和所述静态图像输入到动态特征提取模型中进行动态特征提取，得到所述参考图像和所述静态图像间的动态变换信息包括：

将所述参考图像和所述静态图像输入到所述运动关键点提取网络中进行运动关键点提取，得到所述静态图像的第一运动关键点数据和所述参考图像的第二运动关键点数据；

将所述第一运动关键点数据、所述第二运动关键点数据、所述参考图像和所述静态图像输入到所述帧间运动估计网络中，基于所述参考图像和所述静态图像，对所述第一运动关键点数据和所述第二运动关键点数据组合的数据进行处理，得到动态变换信息。

作为一个可选的实施例，所述帧间运动估计网络包括数据组合层、降维卷积层、多个下采样层和与多个下采样层一一对应的上采样层，所述基于所述参考图像和所述静态图像，对所述第一运动关键点数据和所述第二运动关键点数据组合的数据进行处理，得到动态变换信息包括：

在所述数据组合层中，对所述第一运动关键点数据和所述第二运动关键点数据进行组合，得到运动关键点组合数据；

基于所述多个下采样层，对所述运动关键点组合数据进行下采样处理，得到多个初始动态特征信息；

根据每个下采样层输出的初始动态特征信息和所述每个下采样层对应的上采样层输出的目标动态特征信息，确定目标上采样层的输入信息，所述目标上采样层为每个下采样层对应的上采样层的下一上采样层；

在所述目标上采样层中，基于所述参考图像和所述静态图像，对所述目标上采样层的输入信息进行上采样处理，得到所述目标上采样层输出的目标动态特征信息；

当第一下采样层对应的上采样层为目标上采样层时，根据所述第一下采样层输出的初始动态特征信息和所述第一下采样层对应的上采样层输出的目标动态特征信息，确定所述降维卷积层的输入信息，所述第一下采样层为按序排列的多个下采样层中的第一个下采样层；

在所述降维卷积层中，对所述降维卷积层的输入信息进行降维处理，得到所述动态变换信息。

作为一个可选的实施例，所述图像合成模型包括编码层和解码层，所述将所述动态变换信息和所述静态图像输入到图像合成模型中进行特征融合，得到合成图像包括：

在所述编码层中，对所述静态图像进行特征提取，得到所述静态图像的外观特征信息；

在所述解码层中，根据所述动态特征信息，对所述外观特征信息进行动态变换，得到合成图像。

作为一个可选的实施例，所述方法还包括：

获取样本运动视频；

从所述样本运动视频中提取任意一帧图像作为静态训练图像；

将所述样本运动视频中除所述静态训练图像之外的其他图像中任两帧相邻的图像作为第一参考训练图像和第二参考训练图像；

将所述第一参考训练图像、所述第二参考训练图像和所述静态训练图像输入到初始动态特征提取模型中，对所述静态训练图像和所述第一参考训练图像进行动态特征提取，得到第一动态变换训练信息，并对所述静态训练图像和所述第二参考训练图像进行动态特征提取，得到第二动态变换训练信息；

将所述静态训练图像、所述第一动态特征训练信息和所述第二动态特征训练信息输入到初始图像合成模型中，对所述第一动态特征训练信息和所述静态训练图像进行融合，得到第一合成图像，并对所述第二动态特征训练信息和所述静态训练图像进行融合，得到第二合成图像；

基于所述第一合成图像、所述第二合成图像、所述第一参考训练图像和所述第二参考训练图像，对所述初始动态特征提取模型和所述初始图像合成模型进行训练，得到所述动态特征提取模型和所述图像合成模型。

作为一个可选的实施例，所述基于所述第一合成图像、所述第二合成图像、所述第一参考训练图像和所述第二参考训练图像，对所述初始动态特征提取模型和所述初始图像合成模型进行训练，得到所述动态特征提取模型和所述图像合成模型包括：

根据所述第一参考训练图像和所述第二参考训练图像间的时间顺序，对所述第一合成图像和所述第二合成图像进行组合，得到合成图像序列；

根据所述第一参考训练图像和所述第二参考训练图像间的时间顺序，对所述第一参考训练图像和所述第二参考训练图像进行组合，得到样本图像序列；

将所述样本图像序列和所述合成图像序列输入到分类模型中，输出图像序列的对比结果；

根据所述图像序列的对比结果，得到图像合成误差；

根据所述第一参考训练图像、所述第一合成图像、所述第二参考训练图像和所述第二合成图像，得到图像重构误差；

根据所述图像合成误差和所述图像重构误差，对所述初始动态特征提取模型、所述初始图像合成模型和所述分类模型进行训练，得到所述动态特征提取模型和所述图像合成模型。

根据本公开实施例的第二方面，提供一种动态图像的生成装置，所述装置包括：

数据获取模块，被配置为执行获取静态图像和动态参考视频，所述静态图像包括静态对象，所述动态参考视频包括参考对象，所述静态对象和所述参考对象的类型相同；

参考图像获取模块，被配置为执行从所述动态参考视频中提取任意一帧图像作为参考图像；

动态特征获取模块，被配置为执行将所述参考图像和所述静态图像输入到动态特征提取模型中进行动态特征提取，得到所述参考图像和所述静态图像间的动态变换信息，所述动态变换信息表征所述静态对象的动作和所述参考对象的动作间的转换关系；

合成图像获取模块，被配置为执行将所述动态变换信息和所述静态图像输入到图像合成模型中进行特征融合，得到合成图像；

动态化视频获取模块，被配置为执行根据所述动态参考视频中参考图像对应的时间顺序，对所述合成图像进行视频编码，得到动态化视频。

作为一个可选的实施例，所述动态特征提取模型包括运动关键点提取网络和帧间运动估计网络，所述动态特征获取模块包括：

运动关键点提取单元，被配置为执行将所述参考图像和所述静态图像输入到所述运动关键点提取网络中进行运动关键点提取，得到所述静态图像的第一运动关键点数据和所述参考图像的第二运动关键点数据；

动态变换信息获取单元，被配置为执行将所述第一运动关键点数据、所述第二运动关键点数据、所述参考图像和所述静态图像输入到所述帧间运动估计网络中，基于所述参考图像和所述静态图像，对所述第一运动关键点数据和所述第二运动关键点数据组合的数据进行处理，得到动态变换信息。

作为一个可选的实施例，所述帧间运动估计网络包括数据组合层、降维卷积层、多个下采样层和与多个下采样层一一对应的上采样层，所述动态变换信息获取单元包括：

数据组合单元，被配置为执行在所述数据组合层中，对所述第一运动关键点数据和所述第二运动关键点数据进行组合，得到运动关键点组合数据；

下采样单元，被配置为执行基于所述多个下采样层，对所述运动关键点组合数据进行下采样处理，得到多个初始动态特征信息；

第一输入信息确定单元，被配置为执行根据每个下采样层输出的初始动态特征信息和所述每个下采样层对应的上采样层输出的目标动态特征信息，确定目标上采样层的输入信息，所述目标上采样层为每个下采样层对应的上采样层的下一上采样层；

上采样单元，被配置为执行在所述目标上采样层中，基于所述参考图像和所述静态图像，对所述目标上采样层的输入信息进行上采样处理，得到所述目标上采样层输出的目标动态特征信息；

第二输入信息确定单元，被配置为执行当第一下采样层对应的上采样层为目标上采样层时，根据所述第一下采样层输出的初始动态特征信息和所述第一下采样层对应的上采样层输出的目标动态特征信息，确定所述降维卷积层的输入信息，所述第一下采样层为按序排列的多个下采样层中的第一个下采样层；

降维单元，被配置为执行在所述降维卷积层中，对所述降维卷积层的输入信息进行降维处理，得到所述动态变换信息。

作为一个可选的实施例，所述图像合成模型包括编码层和解码层，所述合成图像获取模块包括：

外观特征获取单元，被配置为执行在所述编码层中，对所述静态图像进行特征提取，得到所述静态图像的外观特征信息；

图像合成单元，被配置为执行在所述解码层中，根据所述动态特征信息，对所述外观特征信息进行动态变换，得到合成图像。

作为一个可选的实施例，所述装置还包括：

样本数据获取模块，被配置为执行获取样本运动视频；

训练数据获取模块，被配置为执行从所述样本运动视频中提取任意一帧图像作为静态训练图像，并将所述样本运动视频中除所述静态训练图像之外的其他图像中任两帧相邻的图像作为第一参考训练图像和第二参考训练图像；

动态变换训练信息获取模块，被配置为执行将所述第一参考训练图像、所述第二参考训练图像和所述静态训练图像输入到初始动态特征提取模型中，对所述静态训练图像和所述第一参考训练图像进行动态特征提取，得到第一动态变换训练信息，并对所述静态训练图像和所述第二参考训练图像进行动态特征提取，得到第二动态变换训练信息；

合成图像训练信息获取模块，被配置为执行将所述静态训练图像、所述第一动态特征训练信息和所述第二动态特征训练信息输入到初始图像合成模型中，对所述第一动态特征训练信息和所述静态训练图像进行融合，得到第一合成图像，并对所述第二动态特征训练信息和所述静态训练图像进行融合，得到第二合成图像；

模型训练模块，被配置为执行基于所述第一合成图像、所述第二合成图像、所述第一参考训练图像和所述第二参考训练图像，对所述初始动态特征提取模型和所述初始图像合成模型进行训练，得到所述动态特征提取模型和所述图像合成模型。

作为一个可选的实施例，所述模型训练模块包括：

合成图像序列获取单元，被配置为执行根据所述第一参考训练图像和所述第二参考训练图像间的时间顺序，对所述第一合成图像和所述第二合成图像进行组合，得到合成图像序列；

样本图像序列获取单元，被配置为执行根据所述第一参考训练图像和所述第二参考训练图像间的时间顺序，对所述第一参考训练图像和所述第二参考训练图像进行组合，得到样本图像序列；

对比单元，被配置为执行将所述样本图像序列和所述合成图像序列输入到分类模型中，输出图像序列的对比结果；

合成误差获取单元，被配置为执行根据所述图像序列的对比结果，得到图像合成误差；

重构误差获取单元，被配置为执行根据所述第一参考训练图像、所述第一合成图像、所述第二参考训练图像和所述第二合成图像，得到图像重构误差；

误差训练单元，被配置为执行根据所述图像合成误差和所述图像重构误差，对所述初始动态特征提取模型、所述初始图像合成模型和所述分类模型进行训练，得到所述动态特征提取模型和所述图像合成模型。

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述所述的一种动态图像的生成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述所述的一种动态图像的生成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品存储在计算机可读存储介质中，使得电子设备的处理器能够从计算机可读存储介质中读取该计算机程序产品，并执行如上述所述的一种动态图像的生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取静态图像和参考图像，参考图像为动态参考视频中的任意一帧图像，将静态图像和参考图像输入到动态特征提取模型中进行动态特征的提取，得到动态变换信息。将动态变换信息和静态图像输入到图像合成模型中进行图像合成，得到合成图像。根据参考图像的时间顺序，对合成图像进行视频编码，可以得到动态化视频。该方法可以单独提取动态变换信息，将动态变换信息和静态图像的外观特征信息进行融合，得到动态化视频，提高了由静态图像生成动态化视频的准确性和实用性，从而简化了视频制作的步骤，扩大了动态图像生成技术的应用范围。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种动态图像的生成方法的应用场景示意图。

图2是根据一示例性实施例示出的一种动态图像的生成方法的流程图。

图3是根据一示例性实施例示出的一种动态图像的生成方法中基于运动特征确定模型进行动态特征提取的流程图。

图4是根据一示例性实施例示出的一种动态图像的生成方法中帧间运动估计网络的结构示意图。

图5是根据一示例性实施例示出的一种动态图像的生成方法中基于图像合成模型进行图像合成的流程图。

图6是根据一示例性实施例示出的一种动态图像的生成方法中进行模型训练的流程图。

图7是根据一示例性实施例示出的一种动态图像的生成方法的利用样本视频进行模型训练的示意图。

图8是根据一示例性实施例示出的一种动态图像的生成方法的利用误差进行模型训练的流程图。

图9是根据一示例性实施例示出的一种动态图像的生成方法利用静态图像和动态参考视频生成动态化视频的示意图。

图10是根据一示例性实施例示出的一种动态图像的生成装置的框图。

图11是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种动态图像的生成方法的应用场景示意图，如图1所示，应用场景包括用户端110和服务器120，用户端110发送静态图像和动态参考视频到服务器120，动态参考视频中的参考对象和静态图像中的静态对象类型一致。服务器120先进行预处理，将动态参考视频中的任意一帧图像作为参考图像。服务器120将参考图像和静态图像输入到动态特征提取模型中进行动态特征提取，得到参考图像和静态图像间的动态变换信息。服务器120再将动态变换信息和静态图像输入到图像合成模型中进行特征融合，得到合成图像。服务器120根据参考图像对应的时间顺序，对合成图像进行视频编码，得到动态化视频。服务器120发送动态化视频到客户端110进行显示并播放。

在本公开实施例中，用户端110包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中实体设备上运行的操作***可以包括但不限于安卓***、IOS***、linux、Unix、windows等。用户端110包括UI(User Interface，用户界面)层，该用户端110通过UI层对外提供动态化视频的显示以及播放，另外，基于API(ApplicationProgramming Interface，应用程序接口)将静态图像和动态参考视频发送给服务器120。

在本公开实施例中，服务器120可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器120可以包括有网络通信单元、处理器和存储器等等。具体的，该服务器120可以基于动态特征提取模型，对静态图像和动态参考视频进行动态特征提取，得到动态变换信息，并基于图像合成模型，对动态变换信息和静态图像进行特征融合，得到合成图像。该服务器120还用于对合成图像进行视频编码，得到动态化视频。

图2是根据一示例性实施例示出的一种动态图像的生成方法的流程图，如图2所示，该方法用服务器中，包括以下步骤。

S210.获取静态图像和动态参考视频，静态图像包括静态对象，动态参考视频包括参考对象，静态对象和参考对象的类型相同；

作为一个可选的实施例，静态对象中的静态对象的类型与动态参考视频中参考对象的类型一致，例如静态图像中的静态对象是人类，那么动态参考视频中的参考对象同样也为人类。静态图像中的静态对象是猫，那么动态参考视频中的参考对象同样也是猫。

S220.从动态参考视频中提取任意一帧图像作为参考图像；

作为一个可选的实施例，服务器对获取的静态图像和动态参考视频进行预处理，服务器可以组合参考图像和静态图像，参考图像和静态图像的组合可以作为用于进行图像合成的最小推理单元。服务器将每个最小推理单元输入到动态特征提取模型和图像合成模型中，生成与每个最小推理单元中的参考图像的动态特征对应的合成图像。在进行视频编码时，可以将每个最小推理单元对应的合成图像按照动态参考视频中参考图像的时间顺序进行编码，得到动态化视频。

S230.将参考图像和静态图像输入到动态特征提取模型中进行动态特征提取，得到参考图像和静态图像间的动态变换信息，动态变换信息表征静态对象的动作和参考对象的动作间的转换关系；

作为一个可选的实施例，请参见图3，该动态特征提取模型包括运动关键点提取网络和帧间运动估计网络，将参考图像和静态图像输入到动态特征提取模型中进行动态特征提取，得到参考图像和静态图像间的动态变换信息包括：

S310.将参考图像和静态图像输入到运动关键点提取网络中进行运动关键点提取，得到静态图像的第一运动关键点数据和参考图像的第二运动关键点数据。

作为一个可选的实施例，在运动关键点提取网络中，分别确定静态图像的静态对象和参考图像中的参考对象，对静态对象和参考对象均进行特征提取，得到第一运动关键点数据和第二运动关键点数据。第一运动关键点数据可以为静态对象的运动关键点的概率分布图，第二运动关键点数据可以为参考对象的运动关键点的概率分布图。运动关键点为静态对象或参考对象的关键运动部位，例如人体的关节等。

运动关键点提取网络可以为用于进行图像分割的网络，以对静态对象的关键运动部位和参考对象的关键运动部位进行提取，作为一个可选的实施例，运动关键点提取网络可以为U-NET网络，基于U-NET网络，对静态图像的静态对象和参考图像中的参考对象进行图像分割，得到静态对象的关键运动部位和参考对象的关键运动部位，生成与静态对象的关键运动部位对应的第一运动关键点的概率分布图，生成与参考对象的关键运动部位对应的第二运动关键点的概率分布图。例如，当静态对象和参考对象均为人类时，生成人体关节部位在静态图像或参考图像中的概率分布图，作为第一运动关键点数据或第二运动关键点数据。

根据关键点运动数据，可以确定静态对象和参考对象的动作，能够对动态变换信息中变换的像素点进行定位，在后续步骤中可以根据关键点运动数据进行动态特征的补充。

S320.将第一运动关键点数据、第二运动关键点数据、参考图像和静态图像输入到帧间运动估计网络中，基于参考图像和静态图像，对第一运动关键点数据和第二运动关键点数据组合的数据进行处理，得到动态变换信息。

作为一个可选的实施例，动态特征提取模型包括运动关键点提取网络和帧间运动估计网络，运动关键点提取网络用于对静态图像和参考图像中的运动关键点进行提取，帧间运动估计网络用于对第一运动关键点数据和第二运动关键点数据进行帧间运动估计，得到动态变换信息。动态变换信息表征静态对象的动作和参考对象的动作间的转换关系。

作为一个可选的实施例，动态变换信息可以为光流场，光流场指静态图像中所有像素点构成的一种二维瞬时速度场，该二维瞬时速度用于指示像素变化的距离和方向，以根据像素变化的距离和方向，得到参考图像。光流场包括了将静态对象的动作特征变换为参考对象的动作特征的像素点运动信息。

对动态变换信息进行单独提取，可以利用单独提取出的动态变换信息在后续步骤中对静态图像的外观特征信息进行驱动，从而生成动态化视频，提高了由静态图像生成动态化视频的准确性。

作为一个可选的实施例，帧间运动估计网络包括数据组合层、降维卷积层、多个下采样层和与多个下采样层一一对应的上采样层，基于参考图像和静态图像，对第一运动关键点数据和第二运动关键点数据组合的数据进行处理，得到动态变换信息包括：

S410.在数据组合层中，对第一运动关键点数据和第二运动关键点数据进行组合，得到运动关键点组合数据；

S420.基于多个下采样层，对运动关键点组合数据进行下采样处理，得到多个初始动态特征信息；

S430.根据每个下采样层输出的初始动态特征信息和每个下采样层对应的上采样层输出的目标动态特征信息，确定目标上采样层的输入信息，目标上采样层为每个下采样层对应的上采样层的下一上采样层；

S440.在目标上采样层中，基于参考图像和静态图像，对目标上采样层的输入信息进行上采样处理，得到目标上采样层输出的目标动态特征信息；

S450.当多个下采样层中的第一下采样层对应的上采样层为目标上采样层时，根据第一下采样层输出的初始动态特征信息和第一下采样层对应的上采样层输出的目标动态特征信息，确定降维卷积层的输入信息，第一下采样层为按序排列的多个下采样层中的第一个下采样层；

S470.在降维卷积层中，对降维卷积层的输入信息进行降维处理，得到动态变换信息。

作为一个可选的实施例，以叠加的方式组合第一运动关键点数据和第二运动关键点数据，得到运动关键点组合数据。将运动关键点组合数据输入到帧间运动估计网络中进行帧间估计。运动关键点组合数据相当于稀疏的光流场，在帧间运动估计网络中，对运动关键点组合数据进行先缩小再放大的操作，在关键点数据间增加像素点数据，得到静态对象和参考对象间所有像素点的动态变换信息，从而将稀疏的光流场转换为稠密的光流场，即得到动态变换信息。

作为一个可选的实施例，可以基于U-NET模型对运动关键点组合数据进行先缩小再放大的操作。在输入到U-NET模型之前，在帧间运动估计网络的数据组合层中，对第一运动关键点数据和第二运动关键点数据进行组合，得到运动关键点组合数据。请参见图4，U-NET模型中包括降维卷积层、多个按序排列的下采样层和多个按序排列的上采样层。在进行下采样时，基于多个按序排列的下采样层，对运动关键点组合数据进行多维度的特征提取，每个下采样层都会输出与该层下采样层对应的初始动态特征信息，再将每层的初始动态特征信息输入到下一个下采样层中进行特征提取，得到下一个下采样层对应的初始动态特征信息，直到最后一个下采样层输出与最后一个下采样层对应的初始动态特征信息。

在进行上采样时，最后一个下采样层对应的上采样层的输入为最后一个下采样层对应的初始动态特征信息。参考静态图像和参考图像，对最后一个下采样层对应的初始动态特征信息进行动态特征扩展，增加运动关键点间的插值点对应的动态特征信息，得到第一上采样层对应的目标动态特征信息。将最后一个下采样层对应的上采样层的下一上采样层作为目标上采样层，目标上采样层的输入信息为最后一个下采样层对应的初始动态特征信息和最后一个下采样层对应的上采样层输出的目标动态特征信息。上采样层和对应的下采样层是具有相同的通道数的。在目标上采样层中，参考静态图像和参考图像，对目标上采样层的输入信息进行动态特征扩展，增加插值点的动态特征信息，得到目标上采样层输出的目标动态特征信息。以此类推，重复上述动态特征信息扩展，以及对初始动态特征信息和目标动态特征信息进行组合的步骤，直到多个下采样层中第一下采样层对应的上采样层为目标上采样层，第一下采样层为按序排列的多个下采样层中的第一个下采样层。当第一下采样层对应的上采样层为目标上采样层时，组合第一下采样层输出的初始动态特征信息和第一下采样层对应的上采样层输出的初始动态特征信息，得到降维卷积层的输入信息。在降维卷积层中，对降维卷积层的输入信息进行降维处理，得到动态变换信息。

基于帧间运动估计网络，对第一运动关键点数据和第二运动关键点数据组合的数据进行动态特征的补充，提高了动态变换信息的精确度，从而提高了动态化视频的准确性。

S240.将动态变换信息和静态图像输入到图像合成模型中进行特征融合，得到合成图像；

作为一个可选的实施例，请参见图5，该图像合成模型包括编码层和解码层，将动态变换信息和静态图像输入到图像合成模型中进行特征融合，得到合成图像包括：

S510.在编码层中，对静态图像进行特征提取，得到静态图像的外观特征信息；

S520.在解码层中，根据动态变换信息，对外观特征信息进行动态变换，得到合成图像。

作为一个可选的实施例，图像合成模型包括编码层和解码层，图像合成模型用于生成具有静态图像的外观特征和参考图像中参考对象的动作模式的图像。将静态图像输入到图像合成模型的编码层中进行特征提取，得到静态图像的外观特征信息。编码层可以为卷积神经网络(Convolutional Neural Networks,CNN)。在解码层中，根据动态变换信息，对静态图像的外观特征信息进行线性变换，得到合成图像，合成图像具有静态图像中的静态对象的外观和参考图像中参考对象的动作。如图10所示，静态图像的外观特征信息为站立的男人，动态变换信息则为女人在跳芭蕾，在输入到图像合成模型中，用动态参考视频中跳芭蕾的动作驱动静态图像中站立的男人，得到的合成图像将会是男人在跳芭蕾的样子。

作为一个可选的实施例，图像合成模型为生成对抗网络(GenerativeAdversarial Networks，GAN)中的生成模型，在训练过程中，可以将图像合成模型生成的合成图像输入到生成对抗网络中的判别模型中判断合成图像的真伪。

基于图像合成模型，对动态变换信息和静态图像进行融合，得到合成图像，可以提高图像合成的便利性，从而简化视频制作的步骤，并扩大动态图像生成技术的应用范围，提高了由静态图像生成动态化视频的实用性。

生成模型和判别模型可以通过相互博弈，输出效果更好的生成图像，提高了生成图像的准确性。

S250.根据动态参考视频中参考图像对应的时间顺序，对合成图像进行视频编码，得到动态化视频。

作为一个可选的实施例，参考图像为动态参考视频中的任意一帧图像，因此根据播放顺序，参考图像中具有对应的时间戳信息。根据各个参考图像中的时间戳信息，确定参考图像的时间顺序。对应每个参考图像，均存在一个合成图像。因此根据参考图像的时间顺序，以及参考图像与合成图像间的对应关系，可以得到合成图像的时间顺序。基于合成图像的时间顺序，对合成图像进行视频编码，得到动态化视频。该动态化视频为静态图像中的静态对象以动态参考视频中参考对象的动作模式运动的视频。

作为一个可选的实施例，在动态参考视频中存在参考图像A、参考图像B和参考图像C，时间顺序为A→B→C。参考图像A和静态图像融合得到合成图像a，参考图像B和静态图像融合得到合成图像b，参考图像C和静态图像融合得到合成图像c。则根据A→B→C的时间顺序，对合成图像a、合成图像b和合成图像c进行排列，得到排列顺序为a→b→c的合成图像的序列。对排列顺序为a→b→c的合成图像的序列进行视频编码，得到动态化视频。

基于参考图像的时间顺序，对合成图像进行视频编码，可以提高视频生成的合理性，避免发生视频中帧图像错误的问题。

作为一个可选的实施例，请参见图6，在对模型进行训练时，该方法还包括：

S610.获取样本运动视频；

S620.从样本运动视频中提取任意一帧图像作为静态训练图像；

S630.将样本运动视频中除静态训练图像之外的其他图像中任两帧相邻的图像作为第一参考训练图像和第二参考训练图像；

S640.将第一参考训练图像、第二参考训练图像和静态训练图像输入到初始动态特征提取模型中，对静态训练图像和第一参考训练图像进行动态特征提取，得到第一动态变换训练信息，并对静态训练图像和第二参考训练图像进行动态特征提取，得到第二动态变换训练信息；

S650.将静态训练图像、第一动态特征训练信息和第二动态特征训练信息输入到初始图像合成模型中，对第一动态特征训练信息和静态训练图像进行融合，得到第一合成图像，并对第二动态特征训练信息和静态训练图像进行融合，得到第二合成图像；

S660.基于第一合成图像、第二合成图像、第一参考训练图像和第二参考训练图像，对初始动态特征提取模型和初始图像合成模型进行训练，得到动态特征提取模型和图像合成模型。

作为一个可选的实施例，请参见图7，如图7所示为利用样本视频进行模型训练的示意图，从样本运动视频中选取一帧图像作为静态训练图像，再从除过静态训练图像之外的其他图像中选取两帧相邻的图像作为第一参考训练图像和第二参考训练图像。如图8所示，样本视频为一个人打太极的视频，从中选取一帧图像z作为静态训练图像，再选取相邻的两帧图像x和y分别作为第一参考训练图像和第二参考训练图像。

初始动态特征提取模型包括初始运动关键点提取网络和初始帧间运动估计网络，作为一个可选的实施例，初始运动关键点提取网络和初始帧间运动估计网络可以为U-net模型。将第一参考训练图像、第二参考训练图像和静态训练图像输入到初始运动关键点提取网络中，得到第一参考训练图像的第一运动关键点训练数据，第二参考训练图像的第二运动关键点训练数据和静态训练图像的第三动态关键点训练数据。第一运动关键点训练数据、第二运动关键点训练数据和第三运动关键点训练数据可以为运动关键点的概率分布图。如图8所示，在初始运动关键点提取网络中，得到第一参考训练图像x的运动关键点的概率分布图H_x、第二参考训练图像y的运动关键点的概率分布图H_y和静态训练图像z的运动关键点的概率分布图H_z。

在初始帧间运动估计网络中，参考第一参考训练图像和静态训练图像，对第一运动关键点训练数据和第三运动关键点训练数据组合的数据进行上采样处理和下采样处理，得到第一动态变换训练信息。在初始帧间运动估计网络中，参考第二参考训练图像和静态训练图像，对第二运动关键点训练数据和第三运动关键点训练数据组合的数据进行上采样处理和下采样处理，得到第二动态变换训练信息。第一动态变换训练信息和第二动态变换训练信息可以为光流场。第一运动关键点训练数据和第三运动关键点训练数据组合的数据，以及第二运动关键点训练数据和第三运动关键点训练数据组合的数据相当于稀疏的光流场，第一动态变换训练信息和第二动态变换训练信息为稠密的光流场。如图8所示，将{H_x，x，H_z，z}和{H_y，y，H_z，z}输入到初始帧间运动估计网络中进行帧间运动估计，将估计出的第一参考训练图像x和静态训练图像z之间的光流场记作F_xz，F_xz为第一动态变换训练信息。将估计出的第二参考训练图像y和静态训练图像z之间的光流场记作F_yz，F_yz为第二动态变换训练信息。

将静态训练图像和第一动态变换训练信息输入到初始图像合成模型中，基于初始图像合成模型中的编码器，对静态训练图像进行特征提取，得到静态训练图像的外观特征信息。基于初始图像合成模型中的解码器，根据第一动态变换训练信息，对外观特征信息进行变换，得到第一合成图像，第一合成图像具有第一参考训练图像中参考对象的动作和静态训练图像中静态对象的外观。

将静态训练图像和第二动态变换训练信息输入到初始图像合成模型中，作为一个可选的实施例，初始图像合成模型可以为生成对抗网络中的生成模型。基于初始图像合成模型中的编码器，对静态训练图像进行特征提取，得到静态训练图像的外观特征信息。基于初始图像合成模型中的解码器，根据第二动态变换训练信息，对外观特征信息进行变换，得到第二合成图像，第二合成图像具有第二参考训练图像中参考对象的动作和静态训练图像中静态对象的外观。

如图7所示，基于光流场F_xz，对静态训练图像的外观特征信息进行线性变换，对静态训练图像z中静态对象的外观和第一动态变换训练信息x中参考对象的动作进行融合，得到第一合成图像。基于光流场F_yz，对静态训练图像的外观特征信息进行线性变换，对静态训练图像z中静态对象的外观和第二动态变换训练信息y的动作进行融合，得到第二合成图像。

在对模型进行训练时，基于生成对抗模型和U-net模型可以进行端到端的训练，不需要对样本视频进行标注，简化了训练步骤，节省了人工成本。

基于第一合成图像、第二合成图像、第一参考训练图像和第二参考训练图像，可以对初始运动关键点提取网络、初始帧间运动估计网络和图像合成模型进行训练。作为一个可选的实施例，请参见图8，基于第一合成图像、第二合成图像、第一参考训练图像和第二参考训练图像，对初始动态特征提取模型和初始图像合成模型进行训练，得到动态特征提取模型和图像合成模型包括：

S810.根据第一参考训练图像和第二参考训练图像间的时间顺序，对第一合成图像和第二合成图像进行组合，得到合成图像序列；

S820.根据第一参考训练图像和第二参考训练图像间的时间顺序，对第一参考训练图像和第二参考训练图像进行组合，得到样本图像序列；

S830.将样本图像序列和合成图像序列输入到分类模型中，输出图像序列的对比结果；

S840.根据图像序列的对比结果，得到图像合成误差；

S850.根据第一参考训练图像、第一合成图像、第二参考训练图像和第二合成图像，得到图像重构误差；

S860.根据图像合成误差和图像重构误差，对初始动态特征提取模型、初始图像合成模型和分类模型进行训练，得到动态特征提取模型和图像合成模型。

作为一个可选的实施例，训练时可以采用端到端(end to end)的训练方式，从输入端到输出端得到的合成图像与样本图像相比较得到整体误差，整体误差在初始动态特征提取模型、初始图像合成模型和分类模型会在模型中的每一层中反向传播，每一层的表示都会根据整体误差来进行调整，直到初始动态特征提取模型、初始图像合成模型和分类模型达到预期的效果，得到动态特征提取模型和图像合成模型。

作为一个可选的实施例，分类模型为二分类模型，用于对第一合成图像和第二合成图像进行真值判断，确定第一合成图像是否与第一参考训练图像匹配，确定第二合成图像是否与第二参考训练图像匹配。根据第一参考训练图像和第二参考训练图像间的时间顺序，对第一参考训练图像对应的第一合成图像和第二参考训练图像对应第二合成图像进行叠加，得到合成图像序列。真值判断的依据为第一参考训练图像和第二参考训练图像，可以根据第一参考训练图像和第二参考训练图像间的时间顺序对第一参考训练图像和第二参考训练图像进行叠加，得到样本图像序列。将合成图像序列和样本图像序列输入到分类模型中进行真值判断。在分类模型中，将合成图像序列与样本图像序列进行对比，确定合成图像为真的概率，合成图像为真的概率可以用D(G(x,z),G(y,z)表示，其中x表示第一参考训练图像，y表示第二参考训练图像，z表示静态训练图像。基于合成图像为真的概率，得到生成误差L_GAN，具体表示为：L_GAN＝log(D(x,y))+[log(1-D(G(x,z),G(y,z)))]。

根据第一参考训练图像和第一合成图像间的差值，确定第一图像重构误差，即x-G(x,z)，根据第二参考训练图像和第二合成图像间的差值，确定第二图像重构误差，即y-G(y,z)，用L_reconstruct表示第一图像重构误差和第二图像重构误差的和值，具体表示为：L_reconstruct＝||x-G(x,z)||₁+||y-G(y,z)||₁，其中，||||₁代表L₁范数。

因此训练模型的整体误差可以表示为L＝L_GAN+L_reconstruct，基于整体误差L，对初始动态特征提取模型、初始图像合成模型和分类模型进行训练，得到动态特征提取模型和图像合成模型。

利用生成对抗网络中的生成模型和判别模型进行训练，可以基于全局的信息训练模型，提高模型训练的有效性，且将第一合成图像和第二合成图像根据时间顺序叠加，输入到分类模型中进行真值判断，考虑了生成图像序列在时间维度上的帧间连贯，可以提高动态化视频的真实性。

作为一个可选的实施例，请参见图9，如图9所示为利用静态图像和动态参考视频生成动态化视频的示意图。用户端将静态图像m和动态化视频n发送到服务器，服务器获取动态参考视频n中的任意一帧图像，将动态化视频n中的任意一帧图像作为参考图像，记作参考图像n1，参考图像n2，参考图像n3等。服务器将静态图像m和每个参考图像进行组合并输入到运动关键点提取网络、帧间运动估计网络和图像合成模型中进行处理，输出动态化视频p。服务器将动态化视频p传输到用户端。用户端可以显示动态化视频p，并在视频发布平台上发布动态化视频p。以静态图像m与参考图像n1的组合为例，服务器将静态图像m与参考图像n1输入到运动关键点提取网络进行运动关键点的提取，得到静态图像m中运动关键点的概率分布图H_m，以及参考图像n1中运动关键点的概率分布图H_n1。服务器将H_m、H_n1、静态图像m和参考图像n1输入到帧间运动估计网络中进行帧间运动估计，得到光流场F_n1m。服务器将光流场F_n1m和静态图像m输入到图像合成模型中进行图像合成，在图像合成模型中，基于光流场F_n1m，对静态图像m的外观特征信息进行变换，得到合成图像p1。服务器根据参考图像n1的时间顺序，确定与参考图像n1对应的合成图像p1的时间顺序，服务器因此可以对每个合成图像进行排序和视频编码，得到动态化视频p。

本公开实施例提出了一种动态图像的生成方法，该方法包括：获取静态图像和参考图像，参考图像为动态参考视频中的任意一帧图像，将静态图像和参考图像输入到动态特征提取模型中进行动态特征的提取，得到动态变换信息。将动态变换信息和静态图像输入到图像合成模型中进行图像合成，得到合成图像。根据参考图像的时间顺序，对合成图像进行视频编码，可以得到动态化视频。该方法可以单独提取动态变换信息，将动态变换信息和静态图像的外观特征信息进行融合，得到动态化视频，提高了由静态图像生成动态化视频的准确性和实用性，从而简化了视频制作的步骤，扩大了动态图像生成技术的应用范围。且该方法利用端到端训练的方式以及将图像序列进行训练的方式，提高了动态化视频的真实性。

图10是根据一示例性实施例示出的一种动态图像的生成装置，参照图10，该装置包括：

数据获取模块1010，被配置为执行获取静态图像和动态参考视频，静态图像包括静态对象，动态参考视频包括参考对象，静态对象和参考对象的类型相同；

参考图像获取模块1020，被配置为执行从动态参考视频中提取任意一帧图像作为参考图像；

动态特征获取模块1030，被配置为执行将参考图像和静态图像输入到动态特征提取模型中进行动态特征提取，得到参考图像和静态图像间的动态变换信息，动态变换信息表征静态对象的动作和参考对象的动作间的转换关系；

合成图像获取模块1040，被配置为执行将动态变换信息和静态图像输入到图像合成模型中进行特征融合，得到合成图像；

动态化视频获取模块1050，被配置为执行根据动态参考视频中参考图像对应的时间顺序，对合成图像进行视频编码，得到动态化视频。

作为一个可选的实施例，动态特征提取模型包括运动关键点提取网络和帧间运动估计网络，动态特征获取模块1030包括：

运动关键点提取单元，被配置为执行将参考图像和静态图像输入到运动关键点提取网络中进行运动关键点提取，得到静态图像的第一运动关键点数据和参考图像的第二运动关键点数据；

动态变换信息获取单元，被配置为执行将第一运动关键点数据、第二运动关键点数据、参考图像和静态图像输入到帧间运动估计网络中，基于参考图像和静态图像，对第一运动关键点数据和第二运动关键点数据组合的数据进行处理，得到动态变换信息。

作为一个可选的实施例，帧间运动估计网络包括数据组合层、降维卷积层、多个下采样层和与多个下采样层一一对应的上采样层，动态变换信息获取单元包括：

数据组合单元，被配置为执行在数据组合层中，对第一运动关键点数据和第二运动关键点数据进行组合，得到运动关键点组合数据；

下采样单元，被配置为执行基于多个下采样层，对运动关键点组合数据进行下采样处理，得到多个初始动态特征信息；

第一输入信息确定单元，被配置为执行根据每个下采样层输出的初始动态特征信息和每个下采样层对应的上采样层输出的目标动态特征信息，确定目标上采样层的输入信息，目标上采样层为每个下采样层对应的上采样层的下一上采样层；

上采样单元，被配置为执行在目标上采样层中，基于参考图像和静态图像，对目标上采样层的输入信息进行上采样处理，得到目标上采样层输出的目标动态特征信息；

第二输入信息确定单元，被配置为执行当第一下采样层对应的上采样层为目标上采样层时，根据第一下采样层输出的初始动态特征信息和第一下采样层对应的上采样层输出的目标动态特征信息，确定降维卷积层的输入信息，第一下采样层为按序排列的多个下采样层中的第一个下采样层；

降维单元，被配置为执行在降维卷积层中，对降维卷积层的输入信息进行降维处理，得到动态变换信息。

作为一个可选的实施例，图像合成模型包括编码层和解码层，合成图像获取模块1040包括：

外观特征获取单元，被配置为执行在编码层中，对静态图像进行特征提取，得到静态图像的外观特征信息；

图像合成单元，被配置为执行在解码层中，根据动态特征信息，对外观特征信息进行动态变换，得到合成图像。

作为一个可选的实施例，该装置还包括：

样本数据获取模块，被配置为执行获取样本运动视频；

训练数据获取模块，被配置为执行从样本运动视频中提取任意一帧图像作为静态训练图像，并将样本运动视频中除静态训练图像之外的其他图像中任两帧相邻的图像作为第一参考训练图像和第二参考训练图像；

动态变换训练信息获取模块，被配置为执行将第一参考训练图像、第二参考训练图像和静态训练图像输入到初始动态特征提取模型中，对静态训练图像和第一参考训练图像进行动态特征提取，得到第一动态变换训练信息，并对静态训练图像和第二参考训练图像进行动态特征提取，得到第二动态变换训练信息；

合成图像训练信息获取模块，被配置为执行将静态训练图像、第一动态特征训练信息和第二动态特征训练信息输入到初始图像合成模型中，对第一动态特征训练信息和静态训练图像进行融合，得到第一合成图像，并对第二动态特征训练信息和静态训练图像进行融合，得到第二合成图像；

模型训练模块，被配置为执行基于第一合成图像、第二合成图像、第一参考训练图像和第二参考训练图像，对初始动态特征提取模型和初始图像合成模型进行训练，得到动态特征提取模型和图像合成模型。

作为一个可选的实施例，模型训练模块包括：

合成图像序列获取单元，被配置为执行根据第一参考训练图像和第二参考训练图像间的时间顺序，对第一合成图像和第二合成图像进行组合，得到合成图像序列；

样本图像序列获取单元，被配置为执行根据第一参考训练图像和第二参考训练图像间的时间顺序，对第一参考训练图像和第二参考训练图像进行组合，得到样本图像序列；

对比单元，被配置为执行将样本图像序列和合成图像序列输入到分类模型中，输出图像序列的对比结果；

合成误差获取单元，被配置为执行根据图像序列的对比结果，得到图像合成误差；

重构误差获取单元，被配置为执行根据第一参考训练图像、第一合成图像、第二参考训练图像和第二合成图像，得到图像重构误差；

误差训练单元，被配置为执行根据图像合成误差和图像重构误差，对初始动态特征提取模型、初始图像合成模型和分类模型进行训练，得到动态特征提取模型和图像合成模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种用于进行动态图像的生成的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图11所示。该电子设备包括通过***总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种动态图像的生成方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中动态图像的生成方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中动态图像的生成方法。

在示例性实施例中，还提供一种计算机程序产品，该计算机程序产品存储在计算机可读存储介质中，使得电子设备的处理器能够从计算机可读存储介质中读取该计算机程序产品，并执行如上述所述的一种动态图像的生成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种动态图像的生成方法，其特征在于，所述方法包括：

从所述动态参考视频中提取任意一帧图像作为参考图像；

将所述动态变换信息和所述静态图像输入到图像合成模型中进行特征融合，得到具有帧间连贯信息的合成图像，所述动态特征提取模型和所述图像合成模型为基于图像合成误差和图像重构误差，对初始动态特征提取模型和初始图像合成模型进行训练得到的，所述图像合成误差为样本图像序列和合成图像序列间的对比结果，所述样本图像序列为样本运动视频中按照时间顺序组合的两帧相邻的参考训练图像，所述合成图像序列为按照时间顺序对所述两帧相邻的参考训练图像分别对应的合成图像进行组合得到的，所述对应的合成图像为将所述两帧相邻的参考训练图像和静态训练图像输入到所述初始动态特征提取模型和所述初始图像合成模型中进行处理得到的，所述静态训练图像为从所述样本运动视频中提取的任意一帧图像，所述图像重构误差为基于所述两帧相邻的参考训练图像和所述对应的合成图像得到的；

2.根据权利要求1所述的动态图像的生成方法，其特征在于，所述动态特征提取模型包括运动关键点提取网络和帧间运动估计网络，所述将所述参考图像和所述静态图像输入到动态特征提取模型中进行动态特征提取，得到所述参考图像和所述静态图像间的动态变换信息包括：

3.根据权利要求2所述的动态图像的生成方法，其特征在于，所述帧间运动估计网络包括数据组合层、降维卷积层、多个下采样层和与多个下采样层一一对应的上采样层，所述基于所述参考图像和所述静态图像，对所述第一运动关键点数据和所述第二运动关键点数据组合的数据进行处理，得到动态变换信息包括：

当第一下采样层对应的上采样层为所述目标上采样层时，根据所述第一下采样层输出的初始动态特征信息和所述第一下采样层对应的上采样层输出的目标动态特征信息，确定所述降维卷积层的输入信息，所述第一下采样层为按序排列的多个下采样层中的第一个下采样层；

4.根据权利要求1所述的动态图像的生成方法，其特征在于，所述图像合成模型包括编码层和解码层，所述将所述动态变换信息和所述静态图像输入到图像合成模型中进行特征融合，得到合成图像包括：

5.根据权利要求1所述的动态图像的生成方法，其特征在于，所述方法还包括：

获取样本运动视频；

将所述静态训练图像、所述第一动态变换训练信息和所述第二动态变换训练信息输入到初始图像合成模型中，对所述第一动态变换训练信息和所述静态训练图像进行融合，得到第一合成图像，并对所述第二动态变换训练信息和所述静态训练图像进行融合，得到第二合成图像；

6.根据权利要求5所述的动态图像的生成方法，其特征在于，所述基于所述第一合成图像、所述第二合成图像、所述第一参考训练图像和所述第二参考训练图像，对所述初始动态特征提取模型和所述初始图像合成模型进行训练，得到所述动态特征提取模型和所述图像合成模型包括：

根据所述图像序列的对比结果，得到图像合成误差；

7.一种动态图像的生成装置，其特征在于，所述装置包括：

合成图像获取模块，被配置为执行将所述动态变换信息和所述静态图像输入到图像合成模型中进行特征融合，得到具有帧间连贯信息的合成图像，所述动态特征提取模型和所述图像合成模型为基于图像合成误差和图像重构误差，对初始动态特征提取模型和初始图像合成模型进行训练得到的，所述图像合成误差为样本图像序列和合成图像序列间的对比结果，所述样本图像序列为样本运动视频中按照时间顺序组合的两帧相邻的参考训练图像，所述合成图像序列为按照时间顺序对所述两帧相邻的参考训练图像分别对应的合成图像进行组合得到的，所述对应的合成图像为将所述两帧相邻的参考训练图像和静态训练图像输入到初始动态特征提取模型和初始图像合成模型中进行图像处理得到的，所述静态训练图像为从样本运动视频中提取的任意一帧图像，所述图像重构误差为基于所述两帧相邻的参考训练图像和所述对应的合成图像得到的；

8.根据权利要求7所述的动态图像的生成装置，其特征在于，所述动态特征提取模型包括运动关键点提取网络和帧间运动估计网络，所述动态特征获取模块包括：

9.根据权利要求8所述的动态图像的生成装置，其特征在于，所述帧间运动估计网络包括数据组合层、降维卷积层、多个下采样层和与多个下采样层一一对应的上采样层，所述动态变换信息获取单元包括：

10.根据权利要求7所述的动态图像的生成装置，其特征在于，所述图像合成模型包括编码层和解码层，所述合成图像获取模块包括：

11.根据权利要求7所述的动态图像的生成装置，其特征在于，所述装置还包括：

样本数据获取模块，被配置为执行获取样本运动视频；

合成图像训练信息获取模块，被配置为执行将所述静态训练图像、所述第一动态变换训练信息和所述第二动态变换训练信息输入到初始图像合成模型中，对所述第一动态变换训练信息和所述静态训练图像进行融合，得到第一合成图像，并对所述第二动态变换训练信息和所述静态训练图像进行融合，得到第二合成图像；

12.根据权利要求11所述的动态图像的生成装置，其特征在于，所述模型训练模块包括：

13.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的一种动态图像的生成方法。

14.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的一种动态图像的生成方法。