CN110210386A

CN110210386A - 用于动作迁移的视频生成方法及神经网络训练方法和装置

Info

Publication number: CN110210386A
Application number: CN201910468450.6A
Authority: CN
Inventors: 刘睿; 刘宇; 李鸿升
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-09-06
Anticipated expiration: 2039-05-31
Also published as: CN110210386B

Abstract

本公开实施例提供一种用于动作迁移的视频生成方法及神经网络训练方法和装置，其中视频生成神经网络的训练方法包括：将源视频和目标图像输入所述视频生成神经网络进行处理，生成目标视频；将所述目标视频和所述源视频中的源图像输入所述视频生成神经网络进行处理，生成重建视频；基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对所述视频生成神经网络的网络参数进行调整。本公开实现了在目标域视频缺失的情况下，仍然能够基于源视频和目标图像将源域的动作迁移到目标域。

Description

用于动作迁移的视频生成方法及神经网络训练方法和装置

技术领域

本公开涉及机器学习技术，具体涉及用于动作迁移的视频生成方法及神经网络训练方法和装置。

背景技术

视频生成是计算机视觉领域的重要问题，要求机器从大量自然视频中进行学习，生成出逼真的，符合自然逻辑的视频。该技术有很多应用场景，比如视频合成、视频转换、视频的压缩与重构等。最近，提出了动作迁移的视频生成，即给定源视频和目标图像，要求将源视频中的动作迁移到目标图像上，从而生成目标图像中的对象执行源视频中的动作的目标视频，这类任务难度较大，其效果还有待进一步提升。

发明内容

本公开实施例至少提供一种用于动作迁移的视频生成方案。

第一方面，提供一种用于动作迁移的视频生成神经网络的训练方法，所述方法包括：将源视频和目标图像输入所述视频生成神经网络进行处理，生成目标视频；将所述目标视频和所述源视频中的源图像输入所述视频生成神经网络进行处理，生成重建视频；基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对所述视频生成神经网络的网络参数进行调整。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述将源视频和目标图像输入所述视频生成神经网络进行处理，生成目标视频，包括：利用所述视频生成神经网络对所述源视频进行特征提取，得到所述源视频的运动特征；通过所述视频生成网络对所述目标图像进行特征提取，得到所述目标图像的静态外形特征；利用所述视频生成神经网络基于所述源视频的运动特征和所述目标图像的静态外形特征，生成目标视频。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述利用所述视频生成神经网络对所述源视频进行特征提取，得到所述源视频的运动特征，包括：对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息；基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异，得到所述每帧图像的运动特征。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息，包括：利用所述视频生成神经网络中的长短期记忆网络LSTM，对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述基于所述源视频的运动特征和所述目标图像的静态外形特征，生成目标视频，包括：将所述源视频包含的多帧图像中每帧图像的所述运动特征与所述目标图像的静态外形特征进行特征连接，得到所述每帧图像的连接特征；根据所述源视频包含的多帧图像中每帧图像的连接特征，生成所述目标视频。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对所述视频生成神经网络的网络参数进行调整，包括：通过判别网络中的视频判别器对所述目标视频进行判别，获得视频对抗损失；通过所述判别网络中的图像判别器对所述目标视频包含的多帧图像中的每帧图像进行判别，获得图像对抗损失；基于所述视频对抗损失和所述图像对抗损失，调整所述视频生成神经网络的网络参数。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对所述视频生成神经网络的网络参数进行调整，包括：通过分类网络确定所述目标视频中的图像的预测类别；通过所述分类网络确定所述目标图像的预测类别；基于所述目标视频中的图像的预测类别与所述目标图像的预测类别之间的差异，得到第一损失；基于所述第一损失，调整所述视频生成神经网络的网络参数。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对所述视频生成神经网络的网络参数进行调整，包括：通过所述视频生成神经网络对所述目标视频进行特征提取，得到所述目标视频的运动特征；根据所述目标视频的运动特征和所述源视频的运动特征之间的差异，得到第二损失；基于所述第二损失，调整所述视频生成神经网络的网络参数。

第二方面，提供一种用于动作迁移的视频生成方法，所述方法包括：获取源视频和目标图像；对所述源视频进行特征提取，得到所述源视频的运动特征，并对所述目标图像进行特征提取，得到所述目标图像的静态外形特征；基于所述源视频的运动特征和所述目标图像的静态外形特征，生成目标视频。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述对所述源视频进行特征提取，得到所述源视频的运动特征，包括：对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息；基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异，得到所述每帧图像的运动特征。

第三方面，提供一种用于动作迁移的视频生成神经网络的训练装置，所述装置包括：视频生成模块，用于将源视频和目标图像输入所述视频生成神经网络进行处理，生成目标视频；视频重建模块，用于将所述目标视频和所述源视频中的源图像输入所述视频生成神经网络进行处理，生成重建视频；网络参数调整模块，用于基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对所述视频生成神经网络的网络参数进行调整。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述视频生成模块，包括：运动特征编码单元，用于对所述源视频进行特征提取，得到所述源视频的运动特征；静态外形特征编码单元，用于对所述目标图像进行特征提取，得到所述目标图像的静态外形特征；解码单元，用于基于所述源视频的运动特征和所述目标图像的静态外形特征，生成目标视频。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述运动特征编码单元用于：对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息；基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异，得到所述每帧图像的运动特征。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述运动特征编码单元用于对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息，包括：利用所述视频生成神经网络中的长短期记忆网络LSTM，对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述解码单元用于：将所述源视频包含的多帧图像中每帧图像的所述运动特征与所述目标图像的静态外形特征进行特征连接，得到所述每帧图像的连接特征；根据所述源视频包含的多帧图像中每帧图像的连接特征，生成所述目标视频。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述网络参数调整模块，包括：对抗损失确定单元，用于通过判别网络中的视频判别器对所述目标视频进行判别，获得视频对抗损失；通过所述判别网络中的图像判别器对所述目标视频包含的多帧图像中的每帧图像进行判别，获得图像对抗损失；第一参数调整单元，用于基于所述视频对抗损失和所述图像对抗损失，调整所述视频生成神经网络的网络参数。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述网络参数调整模块，包括：第一损失确定单元，用于通过分类网络确定所述目标视频中的图像的预测类别；通过所述分类网络确定所述目标图像的预测类别；基于所述目标视频中的图像的预测类别与所述目标图像的预测类别之间的差异，得到第一损失；第二参数调整单元，用于基于所述第一损失，调整所述视频生成神经网络的网络参数。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述网络参数调整模块，包括：第二损失确定单元，用于通过所述视频生成神经网络对所述目标视频进行特征提取，得到所述目标视频的运动特征；根据所述目标视频的运动特征和所述源视频的运动特征之间的差异，得到第二损失；第三参数调整单元，用于基于所述第二损失，调整所述视频生成神经网络的网络参数。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述网络参数调整模块，包括：循环损失确定单元，用于获取用于表示所述源视频与重建视频之间误差的循环一致性损失；第四参数调整单元，用于基于所述循环一致性损失，调整视频生成神经网络的网络参数。

第四方面，提供一种用于动作迁移的视频生成装置，所述装置包括：输入获取模块，用于获取源视频和目标图像；特征提取模块，用于对所述源视频进行特征提取，得到所述源视频的运动特征，并对所述目标图像进行特征提取，得到所述目标图像的静态外形特征；视频生成模块，用于基于所述源视频的运动特征和所述目标图像的静态外形特征，生成目标视频。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述特征提取模块用于对源视频进行特征提取得到所述源视频的运动特征，包括：对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息；基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异，得到所述每帧图像的运动特征。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述特征提取模块用于对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息，包括：利用所述视频生成神经网络中的长短期记忆网络LSTM，对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息。

结合本公开提供的任一实施方式，在一种可能的实现方式中，所述视频生成模块用于：将所述源视频包含的多帧图像中每帧图像的所述运动特征与所述目标图像的静态外形特征进行特征连接，得到所述每帧图像的连接特征；根据所述源视频包含的多帧图像中每帧图像的连接特征，生成所述目标视频。

第五方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储计算机可读指令，所述处理器用于调用所述计算机指令，实现本说明书任一实施例所述的用于动作迁移的视频生成神经网络的训练方法，或者实现本说明书任一实施例所述的用于动作迁移的视频生成方法。

第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本说明书任一实施例所述的用于动作迁移的视频生成神经网络的训练方法，或者实现本说明书任一实施例所述的用于动作迁移的视频生成方法。

本公开实施例提供的用于动作迁移的视频生成方法及神经网络训练方法和装置，通过在生成目标视频后，继续根据目标视频和源图像获得重建视频，使得根据该过程中的源视频、目标图像、目标视频和重建视频中的至少两个，就能够对视频生成神经网络的网络参数调整提供足够的监督信息，从而即使缺失目标域的关联视频，也能够实现根据源视频和目标图像将源域运动向目标域的迁移。

附图说明

为了更清楚地说明本公开一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开至少一个实施例提供的一种用于动作迁移的视频生成神经网络的训练方法；

图2示出了本公开至少一个实施例提供的一种用于动作迁移的视频生成神经网络的训练框架；

图3示出了本公开至少一个实施例提供的一种用于动作迁移的视频生成神经网络的网络结构；

图4示出了本公开至少一个实施例提供的一种用于动作迁移的视频生成神经网络的训练方法；

图5示出了本公开至少一个实施例提供的一种用于动作迁移的视频生成方法；

图6示出了本公开至少一个实施例提供的一种用于动作迁移的视频生成神经网络的训练装置；

图7示出了本公开至少一个实施例提供的另一种用于动作迁移的视频生成神经网络的训练装置；

图8示出了本公开至少一个实施例提供的一种用于动作迁移的视频生成装置。

具体实施方式

为了使本技术领域的人员更好地理解本公开一个或多个实施例中的技术方案，下面将结合本公开一个或多个实施例中的附图，对本公开一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

本公开实施例提供一种视频生成神经网络，用于执行“动作迁移的视频生成”，例如，将源视频中的运动迁移到目标图像上，使得目标图像中的对象也执行源视频中的运动。

此外，本公开实施例提供一种视频生成神经网络的训练方案，能够在缺乏目标图像的关联视频的条件下训练视频生成神经网络，实现对视频生成神经网络的无监督训练。

图1示出了本公开至少一个实施例提供的一种用于动作迁移的视频生成神经网络的训练方法。

在100中，将源视频和目标图像输入所述视频生成神经网络进行处理，生成目标视频。

本公开实施例中，可选地，源视频和目标图像可以属于不同域，可以将源视频的所在域称为源域，将目标图像的所在域称为目标域。这样，可以基于源域的源视频和目标域的目标图像，生成目标域的目标视频。

在一些实施例中，该源视频和目标图像可以作为视频生成神经网络的输入，该神经网络可以根据源视频和目标图像，生成一个将源视频运动迁移到目标域的目标视频。其中，可以将获取到的源视频和目标图像直接输入到神经网络进行处理，也可以在对源视频或目标图像进行一种或多种处理后输入到神经网络，本公开实施例对此不做限定。

在102中，将所述目标视频和所述源视频中的源图像输入所述视频生成神经网络进行处理，生成重建视频。

可以通过该视频生成神经网络，基于步骤100中得到的目标域的目标视频，再去反向重构源域的视频。

这样，将神经网络输出的目标视频反馈到神经网络中作为输入的一部分，该神经网络可以输出将目标视频的运动迁移到源域的视频，即重建视频。

源图像可以是从源视频中抽取的一帧或多帧图像，例如，可以由所述源视频中随机抽取一帧图像，称为源图像，并将该源图像和目标视频一起作为视频生成神经网络的输入，但本公开实施例对此不做限定。

在104中，基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对所述视频生成神经网络的网络参数进行调整。

可以基于上述源视频、目标图像、目标视频和重建视频中的全部或部分，例如，根据其中的至少两个，对视频生成神经网络的网络参数进行调整。其中，源视频、目标图像、目标视频和重建视频这些图像或者视频，可以为视频生成神经网络提供足够的监督调整依据。

例如，可以基于重建视频和源视频之间的差异，获得视频生成神经网络在运动特征生成方面的损失，并据此调整网络参数。又例如，可以基于目标视频中的图像和目标图像之间的差异，获得视频生成神经网络在静态外形特征生成方面的损失，并据此调整网络参数，以使得神经网络在静态外形特征的保留上达到更好的性能。本公开实施例不限制具体如何根据这些视频或图像进行网络调整，本领域技术人员可以选择其中的全部或部分信息作为网络调整的依据。

在一些实施例中，可以基于生成对抗网络(Generative Adversarial Networks，GAN)进行视频生成神经网络的训练，相应地，可以基于GAN中的判别网络对目标视频、重建视频、源视频和目标图像中的一项或多项的判别结果，来调整视频生成神经网络的损失，本公开实施例对此不做限定。

本实施例的视频生成神经网络的训练方法，通过在生成目标视频后，继续根据目标视频和源图像获得重建视频，使得根据该过程中的源视频、目标图像、目标视频和重建视频，能够对视频生成神经网络的网络参数调整提供足够的监督信息，从而即使缺失目标域的关联视频，也能够实现根据源视频和目标图像将源域运动向目标域的迁移。

如下以图2和图3为例，示例一种视频生成神经网络的训练，这里假设通过GAN进行视频生成神经网络的训练，其中，该视频生成神经网络作为GAN中用于进行视频生成的生成器。GAN通过生成器和判别器(也可以称为判别网络)的对抗训练，使得生成器可以生成让判别器无法分清真假的视频，从而使生成的视频“以假乱真”。

视频生成神经网络的训练框架示例

请参见图2所示，生成器G基于源视频V_X和目标图像I_Y生成目标视频其中，G的作用可以表示为例如，V_X是一个女性的表情逐渐震惊的视频，I_Y是一个男性的面部图像，通过生成器G，可以生成一个该男性面部逐渐震惊的视频

在一些可选实施例中，GAN可以包括两个判别器：视频判别器D_V以及图像判别器D_I。D_V用于判别视频是真实的视频还是生成的视频，D_I用于判别图像是真实的图像还是生成的图像。通过同时使用视频判别器和图像判别器这两个判别器进行判别，可以由视频质量和图像质量两个方面对视频生成神经网络生成的视频进行监督，从而提升视频生成神经网络生成的目标视频的质量。

在图2所示的例子中，将目标视频输入到D_V，得到目标视频是真实的视频还是生成的视频的判别结果，并将目标视频输入到D_I，得到目标视频包含的多帧图像中的每帧图像的判别结果。

在一些实施例中，基于上述D_V和D_I的判别结果，得到网络损失值。其中，基于D_V对目标视频的判别结果，获得视频对抗损失函数对应的损失值；此外，基于D_I对目标视频包含的多帧图像中的每帧图像的判别结果，获得图像对抗损失函数对应的损失值。

视频对抗损失函数(Video Adversarial Loss)：生成器G生成的目标视频通过视频判别器D_V，可以获得基于该视频对抗损失函数得到的视频对抗损失。

图像对抗损失函数(Image Adversarial Loss)：生成器G生成的目标视频包含的多帧图像中的每帧图像通过图像判别器D_I，可以获得基于该图像对抗损失函数得到的图像对抗损失。

根据上述两个对抗损失函数调整生成器G的网络参数，可以使得生成器G生成的目标视频更加逼真，得到“以假乱真”的视频。

请继续参见图2，在得到目标视频后，生成器还基于目标视频和从源视频V_X中进行图像抽取δ_k得到的源图像I_X，生成重建视频，即将目标域Y的目标视频和源图像I_X通过生成器G生成源域X的重建视频该重建视频与源视频V_X要尽可能的相似。

类似的，对于源视频和生成器生成的重建视频也可以使用视频判别器D_V和图像判别器D_I进行判别，为了简洁，这里不再赘述。

如下公式(1)示出了视频对抗损失函数的一个例子：

这样，可以基于视频判别器对于源视频Vx的判别结果、对于目标视频的判别结果和对重建视频的判别结果，得到视频对抗损失值。视频对抗损失值可以用于生成器的网络参数的调整，或者用于视频判别器的网络参数的调整，例如，在一个迭代中保持视频判别器的网络参数不变，调整生成器的网络参数，而在下一个迭代中保持调整后的生成器的网络参数不变，调整视频判别器的网络参数，但本公开实施例对此不做限定。

如下公式(2)示出了图像对抗损失函数的一个例子：

这样，可以基于图像判别器对于目标图像I_Y的判别结果、对于从目标视频中抽取的图像的判别结果和对从重建视频中抽取的图像的判别结果，得到图像对抗损失值。图像对抗损失值可以用于生成器的网络参数的调整，或者用于图像判别器的网络参数的调整，例如，在一个迭代中保持图像判别器的网络参数不变，调整生成器的网络参数，而在下一个迭代中保持调整后的生成器的网络参数不变，调整图像判别器的网络参数，但本公开实施例对此不做限定。

此外，本公开实施例中，还设计了基于源视频V_X和重建视频的循环一致性损失函数(Cycle Consistency Loss)，该损失函数可以用图2中的L_cyc表示。L_cyc基于源视频V_X和生成的源域X的重建视频之间的误差得到，通过在训练过程中基于该损失函数值调整生成器G的网络参数，使得该误差尽可能地小。

如下的公式(3)表示该循环一致性损失函数的一个例子：

请继续参见图2，在一些实施例中，为了在动作迁移过程中保留目标图像的静态特征，GAN还可以包括分类网络，用于对输入图像进行分类，例如确定输入图像中的人物身份，等等，相应地，本公开实施例还提供了基于目标视频和目标图像的静态特征保留损失函数(Appearance-preserving Loss)，即图2中的L_app，该损失函数的目的是使得目标视频中每一帧的静态外形特征都与目标域Y的目标图像I_Y的静态外形特征相近，即在将源域X的运动迁移到目标域时，保留该目标域Y的静态外形特征，例如保留目标图像中的人物身份。

可以通过分类网络确定从目标视频中抽取的图像的预测类别，通过分类网络确定目标图像的预测类别，并基于从目标视频中抽取的图像的预测类别与所述目标图像的预测类别之间的差异，得到静态特征保留损失函数的数值，这里称为第一损失。

静态特征保留损失函数L_app的一个例子可以参见公式(4)：

其中，CELoss表示交叉熵损失，y表示目标图像I_Y的真实类别，C表示分类网络(classifier)。该损失函数的第一部分是为了训练分类网络C使其能够正确地分辨目标图像属于哪个类别，第二部分是为了训练生成器G使生成的目标视频的每一帧都能被分类网络C正确地分辨，即使得目标视频的每一帧的静态特征与目标图像I_Y一致。

在一些实施例中，还设计了基于源视频和目标视频的运动特征相似性损失函数(Motion Similarity Loss)，在图2中该损失函数用L_msim表示。该损失函数使得生成器G从源视频V_X中提取的运动特征和目标视频中提取的运动特征相似度尽可能高，直观上来说就是使得这两个视频的动作尽可能一样。

如下的公式(5)示出了L_msim的一个例子：

其中，f(V_X)表示由源视频V_X中提取到的运动特征，表示由目标视频中提取到的运动特征，cos()表示两种运动特征向量之间的余弦相似度。可以基于源视频的运动特征和目标视频的运动特征之间的相似度，得到运动特征相似性损失函数的数值，这里称为第二损失。

在图2所示的框架示例中采用多种损失函数来辅助调整G的网络参数，本领域技术人员还可以基于以上示例设计其他类型的损失函数，本公开实施例对此不做限定。

图3示例的视频生成神经网络G可以包括三个子网络，该三个子网络包括：运动特征编码单元、静态外形特征编码单元和解码单元。

示例性的，生成器G可以分别提取运动特征和静态外形特征，例如，可以通过静态外形特征编码单元提取目标图像的静态外形特征，通过运动特征编码单元提取源视频的运动特征，并结合这两种特征来生成目标域的目标视频。

静态外形特征编码单元(Appearance Encoder)：该编码单元用于由目标图像中进行特征提取，提取到目标图像的静态外形特征(appearance feature)。例如，该编码器可以通过Convolution-InstanceNorm-ReLU(卷积-实例正则化-线性整流函数)的组合模块，对目标图像进行下采样，并继续通过三层残差网络的处理。

运动特征编码单元(Motion Encoder)：该编码单元用于由源视频中进行特征提取，提取到源视频的运动特征(motion feature)。例如，该编码单元与静态外形特征编码单元类似，也可以对源视频进行三层Convolution-InstanceNorm-ReLU的组合模块的处理，以及三层残差网络的处理。

示例性的，在对源视频进行特征提取时，可以按照如下方式：对源视频包含的多帧图像中每帧图像进行特征提取，得到每帧图像的特征信息；并基于源视频包含的每帧图像的特征信息与源视频的第一帧图像的特征信息之间的差异，得到每帧图像的运动特征。例如，该运动特征编码单元可以使用LSTM(Long Short-Term Memory，长短期记忆网络)去按照上述的方式获取源视频中各帧图像的运动特征。

如下示例一种通过LSTM提取运动特征的方式：请参见图3，例如，源视频中包括T₁至T_t帧，假设数量总共N帧，LSTM可以分别提取该源视频中的每一帧的特征信息，并且，可以从该每一帧的特征信息中去除所述源视频第一帧对应的特征信息，获得所述源视频中每一帧的运动特征。比如，以T_t是源视频中的第三帧T₃为例，LSTM可以输出该第三帧T₃的特征信息包括该T₃的特征信息，例如包含运动特征(即LSTM输出的时间temporal特征)和静态外形特征(即LSTM输出的空间spatial特征)，将该T₃的运动特征和静态外形特征减去T₁的静态外形特征和运动特征(由于T₁是源视频的初始帧，运动特征相当于是0)，就可以得到T₃的运动特征。

解码单元(Decoder)：该解码单元用于根据静态外形特征编码单元提取的静态外形特征以及运动特征编码单元提取的运动特征，生成目标视频。该解码单元的结构基本上与编码单元是相反的，该解码单元可以将运动特征编码单元提取的源视频每一帧的运动特征与静态外形特征编码单元提取的静态外形特征进行组合连接后，通过残差网络和Convolution-InstanceNorm-ReLU的组合模块的处理，得到目标视频。例如，在将运动特征与静态外形特征进行连接时，可以将静态外形特征编码单元提取的静态外形特征复制N份，并将每一份与源视频的每一帧组对，这样就相当于将源视频的每一帧的运动特征与所述静态外形特征连接(concat)，这一组就相当于对应源视频中一帧图像的连接特征，该连接特征通过上述解码单元的处理后，就可以输出对应该组对的目标视频的一帧。

视频生成神经网络的训练过程

图4示例了一种视频生成神经网络的训练方法的流程图，该示例性方法中，以根据上述提到的所有损失函数调整神经网络为例，并且，以图3示意的生成器网络结构为例，但是实际实施中不局限于此。如图4所示，该训练过程可以包括：

在400中，将源视频和目标图像输入视频生成神经网络。

例如，源视频中的对象在做某种运动，目标图像是一张静态的图像。

在402中，视频生成神经网络由所述源视频提取运动特征，由所述目标图像提取静态外形特征，并结合所述运动特征和静态外形特征获得目标视频。

可选的，视频生成神经网络G可以按照图3所示的结构，对输入的源视频和目标图像进行处理，最终生成目标视频。该目标视频已经是由目标图像中的对象去执行源视频中相同的运动，实现了运动的迁移。

示例性的，生成器G中的运动编码单元可以通过LSTM，将源视频中的每一帧的运动特征和静态外形特征分别提取出来，再减去静态外形特征编码单元提取的静态外形特征，就可以得到源视频中每一帧的运动特征。再将该源视频中每一帧的所述运动特征，与目标图像提取的静态外形特征进行特征连接后，通过解码单元的处理，就可以得到目标视频中的各个帧。

例如，生成器G生成的目标视频还可以通过视频判别器D_V获得视频对抗损失，以及通过图像判别器D_I获得目标视频中每一帧的图像对抗损失。

在404中，将所述目标视频和源图像输入所述视频生成神经网络，所述源图像是由所述源视频中抽取得到。

例如，所述源图像是由所述源视频中随机抽取的一帧图像。

在406中，视频生成神经网络由所述目标视频提取运动特征，由所述源图像提取静态外形特征，并结合运动特征和静态外形特征获得重建视频。

可选的，生成器G同样可以按照图3所示的处理结构，根据输入的目标视频和源图像，最终得到生成的重建视频，具体过程不再详述。

在408中，基于所述重建视频和源视频，得到用于表示所述重建视频和源视频之间的误差的循环一致性损失。

示例性的，可以根据公式(3)，得到循环一致性损失，该损失值表示了源视频和重建视频之间的误差。当然，实际实施中也可以采用其他类型的损失函数公式，不局限于公式(3)。

在410中，由所述目标视频中提取第一静态特征，并基于所述第一静态特征与所述目标图像提取得到的静态外形特征，得到用于表示所述第一静态特征与所述静态外形特征之间的误差的静态特征保留损失。

示例性的，可以根据公式(4)计算得到静态特征保留损失。

例如，获取目标视频中的每一帧图像的第一静态特征，并分别获取所述每一帧图像的第一静态特征与所述目标图像的静态外形特征之间的损失；即相当于要计算目标视频中的每一帧提取的静态外形特征与目标图像的静态外形特征之间的误差，再将这些损失加和。

在412中，根据所述循环一致性损失和静态特征保留损失，调整所述视频生成神经网络的网络参数。

例如，可以将循环一致性损失和静态特征保留损失进行加权求和，得到总损失；并基于所述总损失，调整所述视频生成神经网络的网络参数。

此外，可选的，该方法还可以根据公式(5)获取运动特征相似损失。例如，可以由目标视频中提取第一运动特征，并根据第一运动特征和由所述源视频提取的运动特征，获得用于表示所述第一运动特征和运动特征之间误差的运动特征相似性损失。

当获取了上述的循环一致性损失、静态特征保留损失、运动特征相似性损失、视频对抗损失和图像对抗损失，可以综合根据这些损失，调整生成器G的网络参数。如下公式(6)是综合上述的损失函数得到总损失的一个例子，可以根据上述这些损失加权求和，得到总损失，再基于该总损失调整G的网络参数。

其中，是上述的各种损失函数的计算值，λ_S是对应各个损失函数的权重。是总损失。

可以按照上述图4的流程进行多次迭代，当达到预设的迭代次数，或者达到其他的训练结束条件时，结束训练，得到训练好的视频生成神经网络G。

本实施例的训练方法，通过分别提取源视频的运动特征和目标图像的静态外形特征，结合该两种特征获得目标视频，并结合了循环一致性损失函数和静态特征保留损失函数等损失函数调整网络参数，使得目标域只需要目标图像，就可以在目标域的视频缺失的情况下，仍然能够进行运动的迁移，降低了对训练数据的要求，使得视频生成神经网络的适用性更广；并且，上述方法依据多种损失函数进行网络调整以及将运动特征和静态外形特征分离的方式，能够使得目标视频对静态外形特征保留的更好，且运动特征迁移的也更准确。

使用训练好的网络进行视频生成

图5提供了一种用于动作迁移的视频生成方法，该方法可以利用视频生成神经网络执行视频生成。例如，该视频生成神经网络采用本说明书任一实施例的视频生成神经网络的训练方法训练得到。如图5所示，该方法可以包括：

在500中，获取源视频和目标图像。

在502中，对所述源视频进行特征提取，得到所述源视频的运动特征，并对所述目标图像进行特征提取，得到所述目标图像的静态外形特征。

可选的，可以参见图3的生成器的结构，可以通过两个编码单元分别提取源视频的运动特征和目标图像的静态外形特征。具体实施时，在提取运动特征时，可以对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息；并基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异，得到所述每帧图像的运动特征。例如，可以通过LSTM提取源视频中每一帧的特征信息，并将所述每一帧的特征信息减去所述源视频第一帧对应的特征信息，获得所述源视频中每一帧的运动特征。

在503中，基于所述源视频的运动特征和所述目标图像的静态外形特征，生成目标视频。

例如，本步骤可以步骤502中提取到的运动特征和静态外形特征连接后，通过解码器生成目标视频。该目标视频中的对象是目标图像中的对象，且该对象执行了源视频中的对象的运动。示例性的，具体实施时，可以将源视频中每一帧的运动特征与目标图像提取的静态外形特征进行特征连接，得到每帧图像的连接特征；并根据源视频中每帧图像对应的该连接特征，生成目标视频。

本实施例的训练方法，通过分别提取源视频的运动特征和目标图像的静态外形特征，结合该两种特征获得目标视频，能够使得目标视频对静态外形特征保留的更好，且运动特征迁移的也更准确；并且，该方法的目标视频的生成，，使得目标域只需要目标图像，就可以在目标域的视频缺失的情况下，仍然能够进行运动的迁移，使得视频生成神经网络的适用性更广。

图6为本说明书至少一个实施例提供的一种用于动作迁移的视频生成神经网络的训练装置，该装置可以用于执行本说明书任一实施例的用于动作迁移的视频生成神经网络的训练方法。如图6所示，该装置可以包括：视频生成模块61、视频重建模块62和网络参数调整模块63。

视频生成模块61，用于将源视频和目标图像输入所述视频生成神经网络进行处理，生成目标视频；

视频重建模块62，用于将所述目标视频和所述源视频中的源图像输入所述视频生成神经网络进行处理，生成重建视频；

网络参数调整模块63，用于基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对视频生成神经网络的网络参数进行调整。

在一些实施例中，请参见图7所示，视频生成模块61，可以包括：运动特征编码单元611、静态外形特征编码单元612和解码单元613。视频重建模块62也可以包括这三个部分，不再示出。

运动特征编码单元611，用于对所述源视频进行特征提取，得到所述源视频的运动特征；

静态外形特征编码单元612，用于对所述目标图像进行特征提取，得到所述目标图像的静态外形特征；

解码单元613，用于基于所述源视频的运动特征和所述目标图像的静态外形特征，生成目标视频。

在一些实施例中，运动特征编码单元611，用于：对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息；基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异，得到所述每帧图像的运动特征。

在一些实施例中，运动特征编码单元611用于对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息，包括：利用所述视频生成神经网络中的长短期记忆网络LSTM，对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息。

在一些实施例中，解码单元613，用于：将所述源视频包含的多帧图像中每帧图像的所述运动特征与所述目标图像的静态外形特征进行特征连接，得到所述每帧图像的连接特征；根据所述源视频包含的多帧图像中每帧图像的连接特征，生成所述目标视频。

在一些实施例中，请继续参见图7，网络参数调整模块63，可以包括对抗损失确定单元631和第一参数调整单元632；

对抗损失确定单元631，用于通过判别网络中的视频判别器对所述目标视频进行判别，获得视频对抗损失；通过所述判别网络中的图像判别器对所述目标视频包含的多帧图像中的每帧图像进行判别，获得图像对抗损失；基于所述视频对抗损失和所述图像对抗损失，调整所述视频生成神经网络的网络参数。

第一参数调整单元632，用于基于所述视频对抗损失和所述图像对抗损失，调整所述视频生成神经网络的网络参数。

在一些实施例中，网络参数调整模块63，可以包括第一损失确定单元633和第二参数调整单元634。

第一损失确定单元633，用于通过分类网络确定所述目标视频中的图像的预测类别；通过所述分类网络确定所述目标图像的预测类别；基于所述目标视频中的图像的预测类别与所述目标图像的预测类别之间的差异，得到第一损失。

第二参数调整单元634，用于基于所述第一损失，调整所述视频生成神经网络的网络参数。

在一些实施例中，网络参数调整模块63，可以包括第二损失确定单元635和第三参数调整单元636。

第二损失确定单元635，用于通过所述视频生成神经网络对所述目标视频进行特征提取，得到所述目标视频的运动特征；根据所述目标视频的运动特征和所述源视频的运动特征之间的差异，得到第二损失。

第三参数调整单元636，用于基于所述第二损失，调整所述视频生成神经网络的网络参数。

在一些实施例中，网络参数调整模块63，可以包括循环损失确定单元637和第四参数调整单元638。

循环损失确定单元637，用于获取用于表示所述源视频与重建视频之间误差的循环一致性损失。

第四参数调整单元638，用于基于所述循环一致性损失，调整视频生成神经网络的网络参数。

图8是本说明书至少一个实施例提供的一种用于动作迁移的视频生成装置，该装置可以执行本说明书任一实施例所述的用于动作迁移的视频生成方法。如图8所示，该装置可以包括：输入获取模块81、特征提取模块82和视频生成模块83。

输入获取模块81，用于获取源视频和目标图像；

特征提取模块82，用于对所述源视频进行特征提取，得到所述源视频的运动特征，并对所述目标图像进行特征提取，得到所述目标图像的静态外形特征；

视频生成模块83，用于基于所述源视频的运动特征和所述目标图像的静态外形特征，生成目标视频。

在一些实施例中，特征提取模块82用于对源视频进行特征提取得到所述源视频的运动特征，包括：对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息；基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异，得到所述每帧图像的运动特征。

在一些实施例中，特征提取模块82用于对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息，包括：利用所述视频生成神经网络中的长短期记忆网络LSTM，对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息。

在一些实施例中，视频生成模块83用于将所述源视频包含的多帧图像中每帧图像的所述运动特征与所述目标图像的静态外形特征进行特征连接，得到所述每帧图像的连接特征；根据所述源视频包含的多帧图像中每帧图像的连接特征，生成所述目标视频。

在一些实施例中，上述装置可以用于执行上文所述的对应任意方法，为了简洁，这里不再赘述。

本公开实施例还提供了一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储计算机可读指令，所述处理器用于调用所述计算机指令，实现本说明书任一实施例的用于动作迁移的视频生成神经网络的训练方法，或者实现本说明书任一实施例的用于动作迁移的视频生成方法。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本说明书任一实施例的用于动作迁移的视频生成神经网络的训练方法，或者实现本说明书任一实施例的用于动作迁移的视频生成方法。

本领域技术人员应明白，本公开一个或多个实施例可提供为方法、***或计算机程序产品。因此，本公开一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本公开一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开实施例还提供一种计算机可读存储介质，该存储介质上可以存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例描述的用于文字识别的神经网络的训练方法的步骤，和/或，实现本公开任一实施例描述的文字识别方法的步骤。

其中，本公开实施例所述的“和/或”表示至少具有两者中的其中一个，例如，“多和/或B”包括三种方案：多、B、以及“多和B”。

本公开中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本公开中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本公开中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本公开中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本公开中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPG多(现场可编程门阵列)或多SIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PD多)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本公开包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本公开内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本公开一个或多个实施例的较佳实施例而已，并不用以限制本公开一个或多个实施例，凡在本公开一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开一个或多个实施例保护的范围之内。

Claims

1.一种用于动作迁移的视频生成神经网络的训练方法，其特征在于，所述方法包括：

将源视频和目标图像输入所述视频生成神经网络进行处理，生成目标视频；

将所述目标视频和所述源视频中的源图像输入所述视频生成神经网络进行处理，生成重建视频；

基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对所述视频生成神经网络的网络参数进行调整。

2.根据权利要求1所述的方法，其特征在于，所述将源视频和目标图像输入所述视频生成神经网络进行处理，生成目标视频，包括：

利用所述视频生成神经网络对所述源视频进行特征提取，得到所述源视频的运动特征；

通过所述视频生成网络对所述目标图像进行特征提取，得到所述目标图像的静态外形特征；

利用所述视频生成神经网络基于所述源视频的运动特征和所述目标图像的静态外形特征，生成目标视频。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对所述视频生成神经网络的网络参数进行调整，包括：

通过分类网络确定所述目标视频中的图像的预测类别；

通过所述分类网络确定所述目标图像的预测类别；

基于所述目标视频中的图像的预测类别与所述目标图像的预测类别之间的差异，得到第一损失；

基于所述第一损失，调整所述视频生成神经网络的网络参数。

4.根据权利要求1～3任一所述的方法，其特征在于，所述基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对所述视频生成神经网络的网络参数进行调整，包括：

获取用于表示所述源视频与重建视频之间误差的循环一致性损失；

基于所述循环一致性损失，调整所述视频生成神经网络的网络参数。

5.一种用于动作迁移的视频生成方法，其特征在于，所述方法包括：

获取源视频和目标图像；

对所述源视频进行特征提取，得到所述源视频的运动特征，并对所述目标图像进行特征提取，得到所述目标图像的静态外形特征；

基于所述源视频的运动特征和所述目标图像的静态外形特征，生成目标视频。

6.根据权利要求5所述的方法，其特征在于，所述对所述源视频进行特征提取，得到所述源视频的运动特征，包括：

对所述源视频包含的多帧图像中每帧图像进行特征提取，得到所述每帧图像的特征信息；

基于所述源视频包含的多帧图像中每帧图像的特征信息与所述源视频的第一帧图像的特征信息之间的差异，得到所述每帧图像的运动特征。

7.一种用于动作迁移的视频生成神经网络的训练装置，其特征在于，所述装置包括：

视频生成模块，用于将源视频和目标图像输入所述视频生成神经网络进行处理，生成目标视频；

视频重建模块，用于将所述目标视频和所述源视频中的源图像输入所述视频生成神经网络进行处理，生成重建视频；

网络参数调整模块，用于基于所述源视频、所述重建视频、所述目标图像和所述目标视频中的至少两个，对所述视频生成神经网络的网络参数进行调整。

8.一种用于动作迁移的视频生成装置，其特征在于，所述装置包括：

输入获取模块，用于获取源视频和目标图像；

特征提取模块，用于对所述源视频进行特征提取，得到所述源视频的运动特征，并对所述目标图像进行特征提取，得到所述目标图像的静态外形特征；

视频生成模块，用于基于所述源视频的运动特征和所述目标图像的静态外形特征，生成目标视频。

9.一种电子设备，其特征在于，包括：存储器、处理器，所述存储器用于存储计算机可读指令，所述处理器用于调用所述计算机指令，实现权利要求1至4任一所述的方法，或者实现权利要求5至6任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至4任一所述的方法，或者实现权利要求5至6任一所述的方法。