CN114998814A

CN114998814A - 目标视频生成方法、装置、计算机设备和存储介质

Info

Publication number: CN114998814A
Application number: CN202210930311.2A
Authority: CN
Inventors: 刘世超
Original assignee: Guangzhou This Voice Network Technology Co ltd
Current assignee: Guangzhou This Voice Network Technology Co ltd
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2022-09-02
Anticipated expiration: 2042-08-04
Also published as: CN114998814B

Abstract

本申请涉及一种目标视频生成方法、装置、计算机设备和存储介质。所述方法包括：接收初始视频以及目标图片；识别所述初始视频的每一图像帧以及所述目标图片中的关键点；确定当前帧，并获取与所述当前帧对应的关联帧；当所述关联帧存在遮挡时，获取所述关联帧对应的预测帧；根据所述当前帧、未存在遮挡的所述关联帧以及存在遮挡的所述关联帧对应的预测帧计算得到初始仿射变换矩阵；根据所述初始仿射变换矩阵以及所述目标图片中的关键点进行预测，得到与所述当前帧对应的预测帧；根据各所述当前帧对应的预测帧生成目标视频。采用本方法能够保证准确性，并保证了动作的连贯。

Description

目标视频生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种目标视频生成方法、装置、计算机设备和存储介质。

背景技术

图像动作生成为互联网中视觉交互的丰富性带来了更多可能性，图像动作生成旨在给定驱动视频和二维静态图片，通过动作生成算法，输出针对二维图片的对应视频。

传统技术中，通过识别驱动视频中的动作，并将所识别的动作应用在二维静态图片中，但是驱动视频中可能会存在遮挡，这样会导致所生成的视频中的动作不连贯。

发明内容

基于此，有必要针对上述技术问题，提供一种能够保证动作连贯性的目标视频生成方法、装置、计算机设备和可读存储介质。

第一方面，本申请提供一种目标视频生成方法，所述方法包括：

接收初始视频以及目标图片；

识别所述初始视频的每一图像帧以及所述目标图片中的关键点；

确定当前帧，并获取与所述当前帧对应的关联帧；

当所述关联帧存在遮挡时，获取所述关联帧对应的预测帧；

根据所述当前帧、未存在遮挡的所述关联帧以及存在遮挡的所述关联帧对应的预测帧计算得到初始仿射变换矩阵；

根据所述初始仿射变换矩阵以及所述目标图片中的关键点进行预测，得到与所述当前帧对应的预测帧；

根据各所述当前帧对应的预测帧生成目标视频。

在其中一个实施例中，所述方法还包括：

当所述关联帧不存在遮挡时，通过所述当前帧以及所述关联帧计算得到初始仿射变换矩阵。

在其中一个实施例中，所述根据所述初始仿射变换矩阵以及所述目标图片中的关键点进行预测，得到与所述当前帧对应的预测帧包括：

识别所述目标图片中的背景特征；

根据所述初始仿射变换矩阵以及所述目标图片中的关键点进行动作估计；

根据所述动作估计的结果确定待填充区域；

基于所述背景特征对所述待填充区域进行背景填充，得到所述当前帧对应的预测帧。

在其中一个实施例中，所述当所述关联帧存在遮挡时，获取所述关联帧对应的预测帧之前，还包括：

判断所述关联帧是否存在遮挡；

所述判断所述关联帧是否存在遮挡，包括以下至少一种：

通过所述当前帧和所述关联帧的关键点的数量判断所述关联帧是否存在遮挡；或

提取所述当前帧以及所述关联帧在不同尺度上的视觉特征；根据所述视觉特征判断所述关联帧是否存在遮挡。

在其中一个实施例中，所述获取与所述当前帧对应的关联帧，包括：

计算所述当前帧与预设数量的相邻帧之间的相似度；

当所述相似度大于或等于阈值时，确定所述相似度大于或等于所述阈值的相邻帧为关联帧。

在其中一个实施例中，所述确定当前帧之后，还包括：

若所述当前帧为第一帧，则根据所述第一帧中的关键点以及所述目标图片中的关键点构建初始仿射变换矩阵；

根据所述初始仿射变换矩阵调整所述目标图片中的关键点以得到所述第一帧对应的预测帧；

若所述当前帧不为第一帧，则继续获取与所述当前帧对应的关联帧。

在其中一个实施例中，所述预测帧是通过预先训练得到的预测模型进行预测得到的；所述预测模型的训练方法包括：

获取到样本视频以及对应的样本图片；

识别所述样本视频中的每一帧以及所述样本图片中的关键点；

将所述样本视频中的每一帧以及所述样本图片中的关键点输入至初始模型中得到样本预测视频；

计算所述样本视频和所述预测样本视频的相似度；

当所述样本视频和所述预测样本视频的相似度不满足要求时，调整所述初始模型，直至所述样本视频和所述预测样本视频的相似度满足要求时，得到预测模型。

第二方面，本申请还提供一种目标视频生成装置，所述装置包括：

接收模块，用于接收初始视频以及目标图片；

第一识别模块，用于识别所述初始视频的每一图像帧以及所述目标图片中的关键点；

关联帧确定模块，用于确定当前帧，并获取与所述当前帧对应的关联帧；

预测帧确定模块，用于当所述关联帧存在遮挡时，获取所述关联帧对应的预测帧；

初始仿射变换矩阵生成模块，用于根据所述当前帧、未存在遮挡的所述关联帧以及存在遮挡的所述关联帧对应的预测帧计算得到初始仿射变换矩阵；

预测模块，用于根据所述初始仿射变换矩阵以及所述目标图片中的关键点进行预测，得到与所述当前帧对应的预测帧；

生成模块，用于根据各所述当前帧对应的预测帧生成目标视频。

第三方面，本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的任意一个实施例中的方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。

上述目标视频生成方法、装置、计算机设备和存储介质，在接收到初始视频和目标图片后，先识别初始视频的每一图像帧以及目标图片中的关键点，进而确定当前帧对应的关联帧，并判断关联帧是否存在遮挡，若是存在遮挡，则通过关联帧对应的预测帧来进行当前帧对应的预测帧的预测，例如根据当前帧、未存在遮挡的所述关联帧以及存在遮挡的关联帧对应的预测帧计算得到初始仿射变换矩阵，这样根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与所述当前帧对应的预测帧，从而所有的预测帧的组合即为目标视频，这样通过关联帧以及当前帧来对预测帧进行预测，综合了多张图像帧，且预测的时候确定关联帧是没有遮挡的，从而保证了所预测得到的预测帧也是准确的，这样保证了动作的连贯。

附图说明

图1为一个实施例中目标视频生成方法的应用环境图；

图2为一个实施例中目标视频生成方法的流程示意图；

图3为一个实施例中图像帧和视频帧的对应关系的示意图；

图5为一个实施例中的动作估计网络的示意图；

图4为一个实施例中的视频生成方法的完整的流程图；

图6为一个实施例中目标视频生成装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的目标视频生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储***可以存储服务器104需要处理的数据。数据存储***可以集成在服务器104上，也可以放在云上或其他网络服务器上。

终端102发送初始视频以及目标图片至服务器104，其中服务器104识别初始视频的每一图像帧以及目标图片中的关键点；确定当前帧，并获取与当前帧对应的关联帧；当关联帧存在遮挡时，获取关联帧对应的预测帧；根据当前帧、未存在遮挡的关联帧以及存在遮挡的关联帧对应的预测帧计算得到初始仿射变换矩阵；根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧；根据各当前帧对应的预测帧生成目标视频。

这样在接收到初始视频和目标图片后，先识别初始视频的每一图像帧以及目标图片中的关键点，进而确定当前帧对应的关联帧，并判断关联帧是否存在遮挡，若是存在遮挡，则通过关联帧对应的预测帧来进行当前帧对应的预测帧的预测，例如根据当前帧、未存在遮挡的关联帧以及存在遮挡的关联帧对应的预测帧计算得到初始仿射变换矩阵，这样根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧，从而所有的预测帧的组合即为目标视频，这样通过关联帧以及当前帧来对预测帧进行预测，综合了多张图像帧，且预测的时候确定关联帧是没有遮挡的，从而保证了所预测得到的预测帧也是准确的，这样保证了动作的连贯。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种目标视频生成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：接收初始视频以及目标图片。

具体地，初始视频是对应的参考视频，其主要给出动作，目标图片是对应的静态图片，本实施例中的目的是根据初始视频生成目标图片对应的视频动作，从而得到目标图片中的对象的视频。

可选地，初始视频和目标图片可以是根据场景确定的，在此不做具体限制。

S204：识别初始视频的每一图像帧以及目标图片中的关键点。

具体地，关键点是指初始视频的每一图像帧以及目标图片中的对象的关键点，以人物为例，其中关键点可以是指初始视频的每一图像帧以及目标图片中的对象的骨骼的关键点。在其他的实施例中，若初始视频的每一图像帧以及目标图片中的对象为其他的类型，例如车辆等，则关键点可以是其他的类型的对象的关键点，在此不做具体限定。

其中关键点提取网络可以一次性提取初始视频的每一图像帧以及目标图片中的关键点，也可以先提取目标图片中的关键点以及初始视频的前预设数量的图像帧的关键点，然后随着计算过程，依次提取初始视频中的其他的图像帧的关键点，亦或者根据可以并行处理的线程来确定每次可以处理的图像帧的数量，以根据该数量来并行提取图像帧中的关键点，在本实施例中，并不对关键点的提取做具体限制。

S206：确定当前帧，并获取与当前帧对应的关联帧。

具体地，当前帧是指正要处理的帧，也即是正要根据初始视频中的当前帧确定对应的预测帧的帧，具体地，参见图3所示，其中当前帧为图像帧A，根据其生成的预测帧为预测帧A’。

关联帧是与当前帧在距离上相近的帧，例如当前帧上下相邻预设数量的帧，其中为了减少计算量，该预设数量可以为一或二，在此不做具体限制。

S208：当关联帧存在遮挡时，获取关联帧对应的预测帧。

具体地，遮挡是指关联帧中的对象被其他的目标遮挡，其中遮挡可以通过关键点的数量来进行判断或者是通过不同尺度的特征图像来进行判断。通过关键点的数量来判断时，可以通过计算初始视频中各个图像帧中的关键点的数量，当图像帧中大部分的关键点数量均为N时，则认为图像帧中关键点数量为N时，图像帧不存在遮挡，因此可以根据关联帧中的关键点的数量与N的关系来确定关联帧是否存在遮挡。在其他的实施例中，可以通过提取不同尺度的特征图像，低级尺度的特征图更关注整体抽象特征，高级尺度的特征图更关注纹理、饱和度、颜色等细节特征，这样根据不同尺度的特征图像进行对象识别，以确定对象是否存在遮挡。当存在遮挡时，则获取到关联帧对应的预测帧，这是因为预测帧中是不存在遮挡的，预测帧是根据之前的无遮挡的关联帧或预测帧进行预测得到的，这样保证了准确性。

S210：根据当前帧、未存在遮挡的关联帧以及存在遮挡的关联帧对应的预测帧计算得到初始仿射变换矩阵。

具体地，初始仿射变化矩阵是指根据初始视频生成的动作的变化矩阵，其中当前帧是目标动作，上一帧是历史动作，其均可能存在遮挡或不存在遮挡，若是仅通过上一帧以及当前帧的对应关键点进行初始仿射变化矩阵的估计，则会造成动作不连续等。为此采用当前帧和关联帧来进行初始仿射变换矩阵的计算。

在其中一个可选的实施例中，服务器可以首先确定当前帧，若是当前帧没有遮挡，则根据未存在遮挡的关联帧、存在遮挡的关联帧对应的预测帧以及当前帧来进行初始仿射变换矩阵的计算，例如根据当前帧确定关键点的目标位置，根据未存在遮挡的关联帧、存在遮挡的关联帧对应的预测帧确定初始位置，然后根据初始位置和目标位置确定初始仿射变换矩阵。若当前帧存在遮挡，则未遮挡的部分仍可以按照上述方式来进行计算，对于遮挡的部分，则通过未存在遮挡的关联帧、存在遮挡的关联帧对应的预测帧来进行预测，例如若是关联帧是上下相邻的，则可以根据关联帧的与当前帧的位置信息，通过计算加权平均位置的方式来计算得到遮挡部分的目标位置。在其他的实施例中，还可以根据未遮挡的部分的初始仿射变换矩阵来计算遮挡部分的初始仿射变换矩阵，在此不做具体限定。

S212：根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧。

具体地，目标图片中的关键点是第一帧图片中的关键点，其中后续帧中，可以是指预测帧中的关键点，这样初始仿射变换矩阵则用于表征相邻的预测帧的动作变化即可，从而服务器根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧。

S214：根据各当前帧对应的预测帧生成目标视频。

具体地，继续结合图3所示，所有的预测帧按照时间顺序排列即为目标视频，这样完成将静态图片按照初始视频的动作来进行变化，得到目标视频的目的。

上述实施例中，在接收到初始视频和目标图片后，先识别初始视频的每一图像帧以及目标图片中的关键点，进而确定当前帧对应的关联帧，并判断关联帧是否存在遮挡，若是存在遮挡，则通过关联帧对应的预测帧来进行当前帧对应的预测帧的预测，例如根据当前帧、未存在遮挡的关联帧以及存在遮挡的关联帧对应的预测帧计算得到初始仿射变换矩阵，这样根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧，从而所有的预测帧的组合即为目标视频，这样通过关联帧以及当前帧来对预测帧进行预测，综合了多张图像帧，且预测的时候确定关联帧是没有遮挡的，从而保证了所预测得到的预测帧也是准确的，这样保证了动作的连贯。

在其中一个实施例中，方法还包括：当关联帧不存在遮挡时，通过当前帧以及关联帧计算得到初始仿射变换矩阵。

具体地，当关联帧不存在遮挡时，则直接通过当前帧和关联帧来计算初始仿射变换矩阵即可，其中也是分为两种情况，一种是当前帧存在遮挡，此时通过关联帧来对不存在遮挡的部分进行正常的计算，而对于存在遮挡的部分，则先通过关联帧来对遮挡的部分进行预测，然后根据预测的遮挡的部分以及关联帧计算得到对应的初始仿射变换矩阵。

上述实施例中，先判断关联帧是否存在遮挡，若是不存在遮挡，则通过关联帧以及当前帧来进行预测得到初始仿射变换矩阵，存在遮挡，则获取到存在遮挡的关联帧对应的预测帧，这样保证参与初始仿射变换矩阵的计算的图像帧都是不存在遮挡的，保证了准确性，从而保证了动作的连贯性。

在其中一个实施例中，根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧，包括：识别目标图片中的背景特征；根据初始仿射变换矩阵以及目标图片中的关键点进行动作估计；根据动作估计的结果确定待填充区域；基于背景特征对待填充区域进行背景填充，得到当前帧对应的预测帧。

具体地，结合图4所示，图4为一个实施例中的视频生成方法的完整的流程图，其中图4中由于目标图片存在背景，当根据初始仿射变换矩阵以及目标图片中的关键点进行动作估计后，修改目标图片中的动作，也即对象的位置时，则会由于对象的移动，出现空白区域，因此需要根据目标图片的背景特征对空白区域进行填充。

因此，本实施例中，根据所检测的关键点得到级联张量作为输入，融合目标图片的背景特征，估计得到综合仿射变换矩阵。具体地，可以根据初始仿射变换矩阵以及目标图片中的关键点进行动作估计；根据动作估计的结果确定待填充区域，从而根据待填充区域对应的背景特征来生成对应待填充区域的仿射变换矩阵，这样加上初始仿射变换矩阵，即可以得到综合仿射变化矩阵。

其中需要说明的一点是，早期网络训练阶段，由于细节信息缺失较多，视频预测结果区域会产生大量无效预测值，诸如零值，这些结果对于整个网络训练是没有意义的，因而也不参与反向梯度传播，极易陷入局部最优状态，尤其是经过softmax层计算之后，导致生成的结果质量较差。为解决这一问题，本申请加入dropout正则化方法，从一定程度上避免该问题的发生，增加了网络鲁棒性。

在网络训练后期，随着所学特征与视频帧之间关联更加丰富，移除dropout操作，节约算力，加快收敛，同时可获得更好的动作估计结果。

上述实施例中，不仅考虑到前景对象的动作估计，还考虑到了背景特征，这样结合动作估计以及背景特征来生成预测帧，一方面保证了动作的连贯性，另外一方面保证了整体画面的相对完整性。

在其中一个实施例中，当关联帧存在遮挡时，获取关联帧对应的预测帧之前，还包括：判断关联帧是否存在遮挡；判断关联帧是否存在遮挡，包括以下至少一种：通过当前帧和关联帧的关键点的数量判断关联帧是否存在遮挡；或提取当前帧以及关联帧在不同尺度上的视觉特征；根据视觉特征判断关联帧是否存在遮挡。

具体地，遮挡是指关联帧中的对象被其他的目标遮挡，其中遮挡可以通过关键点的数量来进行判断或者是通过不同尺度的特征图像来进行判断。通过关键点的数量来判断时，可以通过计算初始视频中各个图像帧中的关键点的数量，当图像帧中大部分的关键点数量均为N时，则认为图像帧中关键点数量为N时，图像帧不存在遮挡，因此可以根据关联帧中的关键点的数量与N的关系来确定关联帧是否存在遮挡。在其他的实施例中，可以通过提取不同尺度的特征图像，低级尺度的特征图更关注整体抽象特征，高级尺度的特征图更关注纹理、饱和度、颜色等细节特征，这样根据不同尺度的特征图像进行对象识别，以确定对象是否存在遮挡。

具体地，结合图5所示，本申请中可以使用具有残差结构的二级hourglassnetwork在不同尺度上对提取得的视觉特征进行融合。该网络首先对视频动作过程中产生的遮挡区域进行估计，对于预测丢失的区域生成仿射变换矩阵。低级尺度的特征图更关注整体抽象特征，高级尺度的特征图更关注纹理、饱和度、颜色等细节特征，因此该模块对不同尺度特征图分别处理融合，融合后的特征兼具粗粒度的全局信息以及细粒度的细节信息。

上述实施例中，通过不同的方式进行遮挡判断，为后续预测帧的生成准确性奠定基础。

在其中一个实施例中，获取与当前帧对应的关联帧，包括：计算当前帧与预设数量的相邻帧之间的相似度；当相似度大于或等于阈值时，确定相似度大于或等于阈值的相邻帧为关联帧。

具体地，由于关联帧的数量越多，计算量越大，且在实际场景中，存在用户场景转移的情况，例如从一个舞蹈切换到另外一个舞蹈，从室内切换到室外，这个时候关联帧的参考意义不大，因此为了提高关联帧的参考意义，服务器先计算当前帧与预设数量的相邻帧之间的相似度；当相似度大于或等于阈值时，确定相似度大于或等于阈值的相邻帧为关联帧。这样不仅可以利用相邻视频帧，还可以跨帧联系，由于可依据的有效信息增加，有效解决了视频动作预测过程中的遮挡等问题。

例如存在图像帧ABCDE，当前帧为图像帧C，若不进行相似度计算则关联帧为图像帧A、图像帧B、图像帧D以及图像帧E，但是为了降低计算复杂度，服务器先分别计算图像帧C与图像帧A、图像帧B、图像帧D以及图像帧E的相似度，将相似度小于阈值的图像帧删除，例如删除了图像帧B以及图像帧E，这样就剩下图像帧A和图像帧D，从而根据图像帧A和图像帧D以及当前帧C来预测当前帧C对应的预测帧。一方面可以利用相邻视频帧，另一方面实现了跨帧联系，由于可依据的有效信息增加，有效解决了视频动作预测过程中的遮挡等问题。

在其中一个实施例中，确定当前帧之后，还包括：若当前帧为第一帧，则根据第一帧中的关键点以及目标图片中的关键点构建初始仿射变换矩阵；根据初始仿射变换矩阵调整目标图片中的关键点以得到第一帧对应的预测帧；若当前帧不为第一帧，则继续获取与当前帧对应的关联帧。

具体地，本实施例中初始化的步骤，也即建立目标图片中的关键点与第一帧中的关键点的关系，这样根据第一帧中的关键点以及目标图片中的关键点构建初始仿射变换矩阵；根据初始仿射变换矩阵调整目标图片中的关键点以得到第一帧对应的预测帧，从而调整目标图片的关键点以对目标图片进行初始化。

可选地，服务器在初始化的过程中，还可以结合背景特征来进行处理，以保证初始化的准确性，例如初始化的过程中，先建立第一帧中的关键点以及目标图片中的关键点的关系，以进行动作估计，然后根据动作估计确定空白区域，再根据背景特征对空白区域进行填充。

在其中一个实施例中，预测帧是通过预先训练得到的预测模型进行预测得到的；预测模型的训练方法包括：获取到样本视频以及对应的样本图片；识别样本视频中的每一帧以及样本图片中的关键点；将样本视频中的每一帧以及样本图片中的关键点输入至初始模型中得到样本预测视频；计算样本视频和预测样本视频的相似度；当样本视频和预测样本视频的相似度不满足要求时，调整初始模型，直至样本视频和预测样本视频的相似度满足要求时，得到预测模型。

具体地，本实施例中的预测帧可以是通过预先训练得到的预测模型进行预测得到的；该预测模型的训练方式是根据样本视频以及对应的样本图片进行的，对于关键点的预测任务，则可以采用等方差损失，对于动作生成的任务则可以计算输入的驱动视频和生成的结果视频之间的损失，目的约束该损失越小越好，损失越小，说明生成的结果视频和原始输入视频越接近，生成结果越准确，具体公式如下：

其中，

和

分别表示驱动视频特征矩阵和预测视频结果矩阵。

因此，本实施例中可以通过关键点预测任务的等方差损失以及视频的损失来得到完整的损失函数。

为了方便本领域技术人员对本申请的理解，给出一个完整的实施例，其中服务器先获取到初始视频以及目标图片，然后识别初始视频中的每一图像帧以及目标图片的关键点，这样根据初始视频的第一帧中的关键点以及目标图片的关键点对目标图片进行初始化，以使得目标图片与初始视频的第一帧对齐，其中可选地，在初始化的时候还结合目标图片的背景特征，以填充对齐后的空白位置。

后续视频的生成，则获取到初始视频中的当前帧，并获取当前帧对应的关联帧，其中可选地，先获取到当前帧对应的上下相邻预设数量的图像帧，然后计算相似度，将与当前帧的相似度满足阈值要求的图像帧作为关联帧。

其中一般处理是将当前帧与上一帧的关键点进行匹配生成仿射变换矩阵，但是由于其可能存在遮挡，因此引入了关联帧，其中先判断关联帧是否存在遮挡，若是存在遮挡，则获取关联帧对应的预测帧，然后根据预测帧以及不存在遮挡的关联帧以及当前帧生成初始仿射变换矩阵，这样根据初始仿射变换矩阵即可以进行动作估计，具体地，可以根据关联帧中的关键点的位置进行加权平均，并与当前帧中关键点的位置进行平均得到目标位置。

在进行动作估计后，还结合背景特征，以填充动作变化后的空白位置。

上述实施例中，在接收到初始视频和目标图片后，先识别初始视频的每一图像帧以及目标图片中的关键点，进而确定当前帧对应的关联帧，并判断关联帧是否存在遮挡，若是存在遮挡，则通过关联帧对应的预测帧来进行当前帧对应的预测帧的预测，例如根据当前帧、未存在遮挡的所述关联帧以及存在遮挡的关联帧对应的预测帧计算得到初始仿射变换矩阵，这样根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与所述当前帧对应的预测帧，从而所有的预测帧的组合即为目标视频，这样通过关联帧以及当前帧来对预测帧进行预测，综合了多张图像帧，且预测的时候确定关联帧是没有遮挡的，从而保证了所预测得到的预测帧也是准确的，这样保证了动作的连贯。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的目标视频生成方法的目标视频生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个目标视频生成装置实施例中的具体限定可以参见上文中对于目标视频生成方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种目标视频生成装置，包括：接收模块601、第一识别模块602、关联帧确定模块603、预测帧确定模块604、初始仿射变换矩阵生成模块607605、预测模块606和生成模块607，其中：

接收模块601，用于接收初始视频以及目标图片；

第一识别模块602，用于识别初始视频的每一图像帧以及目标图片中的关键点；

关联帧确定模块603，用于确定当前帧，并获取与当前帧对应的关联帧；

预测帧确定模块604，用于当关联帧存在遮挡时，获取关联帧对应的预测帧；

初始仿射变换矩阵生成模块607605，用于根据当前帧、未存在遮挡的关联帧以及存在遮挡的关联帧对应的预测帧计算得到初始仿射变换矩阵；

预测模块606，用于根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧；

生成模块607，用于根据各当前帧对应的预测帧生成目标视频。

在其中一个实施例中，上述的初始仿射变换矩阵生成模块607605，还用于当关联帧不存在遮挡时，通过当前帧以及关联帧计算得到初始仿射变换矩阵。

在其中一个实施例中，上述的预测模块606包括：

背景特征识别单元，用于识别目标图片中的背景特征；

动作估计单元，用于根据初始仿射变换矩阵以及目标图片中的关键点进行动作估计；

待填充区域确定单元，用于根据动作估计的结果确定待填充区域；

填充单元，用于基于背景特征对待填充区域进行背景填充，得到当前帧对应的预测帧。

在其中一个实施例中，上述视频生成装置还包括：

判断模块，用于判断关联帧是否存在遮挡；具体地，通过当前帧和关联帧的关键点的数量判断关联帧是否存在遮挡；或提取当前帧以及关联帧在不同尺度上的视觉特征；根据视觉特征判断关联帧是否存在遮挡。

在其中一个实施例中，上述关联帧确定模块603包括：

相似度计算单元，用于计算当前帧与预设数量的相邻帧之间的相似度；

关联帧计算单元，用于当相似度大于或等于阈值时，确定相似度大于或等于阈值的相邻帧为关联帧。

在其中一个实施例中，上述视频生成装置还包括：

构建模块，用于若当前帧为第一帧，则根据第一帧中的关键点以及目标图片中的关键点构建初始仿射变换矩阵；

预测帧生成模块607，用于根据初始仿射变换矩阵调整目标图片中的关键点以得到第一帧对应的预测帧；若当前帧不为第一帧，则继续获取与当前帧对应的关联帧。

在其中一个实施例中，预测帧是通过预先训练得到的预测模型进行预测得到的；上述视频生成装置还包括：

样本获取模块，用于获取到样本视频以及对应的样本图片；

第二识别模块，用于识别样本视频中的每一帧以及样本图片中的关键点；

预测模块606，用于将样本视频中的每一帧以及样本图片中的关键点输入至初始模型中得到样本预测视频；

训练模块，用于计算样本视频和预测样本视频的相似度；当样本视频和预测样本视频的相似度不满足要求时，调整初始模型，直至样本视频和预测样本视频的相似度满足要求时，得到预测模型。

上述目标视频生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储初始视频和目标图片。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标视频生成方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：接收初始视频以及目标图片；识别初始视频的每一图像帧以及目标图片中的关键点；确定当前帧，并获取与当前帧对应的关联帧；当关联帧存在遮挡时，获取关联帧对应的预测帧；根据当前帧、未存在遮挡的关联帧以及存在遮挡的关联帧对应的预测帧计算得到初始仿射变换矩阵；根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧；根据各当前帧对应的预测帧生成目标视频。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当关联帧不存在遮挡时，通过当前帧以及关联帧计算得到初始仿射变换矩阵。

在一个实施例中，处理器执行计算机程序时所实现的根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧包括：识别目标图片中的背景特征；根据初始仿射变换矩阵以及目标图片中的关键点进行动作估计；根据动作估计的结果确定待填充区域；基于背景特征对待填充区域进行背景填充，得到当前帧对应的预测帧。

在一个实施例中，处理器执行计算机程序时所实现的当关联帧存在遮挡时，获取关联帧对应的预测帧之前，还包括：判断关联帧是否存在遮挡；处理器执行计算机程序时所实现的判断关联帧是否存在遮挡，包括以下至少一种：通过当前帧和关联帧的关键点的数量判断关联帧是否存在遮挡；或提取当前帧以及关联帧在不同尺度上的视觉特征；根据视觉特征判断关联帧是否存在遮挡。

在一个实施例中，处理器执行计算机程序时所实现的获取与当前帧对应的关联帧，包括：计算当前帧与预设数量的相邻帧之间的相似度；当相似度大于或等于阈值时，确定相似度大于或等于阈值的相邻帧为关联帧。

在一个实施例中，处理器执行计算机程序时所实现的确定当前帧之后，还包括：若当前帧为第一帧，则根据第一帧中的关键点以及目标图片中的关键点构建初始仿射变换矩阵；根据初始仿射变换矩阵调整目标图片中的关键点以得到第一帧对应的预测帧；若当前帧不为第一帧，则继续获取与当前帧对应的关联帧。

在一个实施例中，处理器执行计算机程序时所涉及的预测帧是通过预先训练得到的预测模型进行预测得到的；处理器执行计算机程序时所实现的预测模型的训练方法包括：获取到样本视频以及对应的样本图片；识别样本视频中的每一帧以及样本图片中的关键点；将样本视频中的每一帧以及样本图片中的关键点输入至初始模型中得到样本预测视频；计算样本视频和预测样本视频的相似度；当样本视频和预测样本视频的相似度不满足要求时，调整初始模型，直至样本视频和预测样本视频的相似度满足要求时，得到预测模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：接收初始视频以及目标图片；识别初始视频的每一图像帧以及目标图片中的关键点；确定当前帧，并获取与当前帧对应的关联帧；当关联帧存在遮挡时，获取关联帧对应的预测帧；根据当前帧、未存在遮挡的关联帧以及存在遮挡的关联帧对应的预测帧计算得到初始仿射变换矩阵；根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧；根据各当前帧对应的预测帧生成目标视频。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当关联帧不存在遮挡时，通过当前帧以及关联帧计算得到初始仿射变换矩阵。

在一个实施例中，计算机程序被处理器执行时所实现的根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧包括：识别目标图片中的背景特征；根据初始仿射变换矩阵以及目标图片中的关键点进行动作估计；根据动作估计的结果确定待填充区域；基于背景特征对待填充区域进行背景填充，得到当前帧对应的预测帧。

在一个实施例中，计算机程序被处理器执行时所实现的当关联帧存在遮挡时，获取关联帧对应的预测帧之前，还包括：判断关联帧是否存在遮挡；处理器执行计算机程序时所实现的判断关联帧是否存在遮挡，包括以下至少一种：通过当前帧和关联帧的关键点的数量判断关联帧是否存在遮挡；或提取当前帧以及关联帧在不同尺度上的视觉特征；根据视觉特征判断关联帧是否存在遮挡。

在一个实施例中，计算机程序被处理器执行时所实现的获取与当前帧对应的关联帧，包括：计算当前帧与预设数量的相邻帧之间的相似度；当相似度大于或等于阈值时，确定相似度大于或等于阈值的相邻帧为关联帧。

在一个实施例中，计算机程序被处理器执行时所实现的确定当前帧之后，还包括：若当前帧为第一帧，则根据第一帧中的关键点以及目标图片中的关键点构建初始仿射变换矩阵；根据初始仿射变换矩阵调整目标图片中的关键点以得到第一帧对应的预测帧；若当前帧不为第一帧，则继续获取与当前帧对应的关联帧。

在一个实施例中，计算机程序被处理器执行时所涉及的预测帧是通过预先训练得到的预测模型进行预测得到的；计算机程序被处理器执行时所实现的预测模型的训练方法包括：获取到样本视频以及对应的样本图片；识别样本视频中的每一帧以及样本图片中的关键点；将样本视频中的每一帧以及样本图片中的关键点输入至初始模型中得到样本预测视频；计算样本视频和预测样本视频的相似度；当样本视频和预测样本视频的相似度不满足要求时，调整初始模型，直至样本视频和预测样本视频的相似度满足要求时，得到预测模型。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：接收初始视频以及目标图片；识别初始视频的每一图像帧以及目标图片中的关键点；确定当前帧，并获取与当前帧对应的关联帧；当关联帧存在遮挡时，获取关联帧对应的预测帧；根据当前帧、未存在遮挡的关联帧以及存在遮挡的关联帧对应的预测帧计算得到初始仿射变换矩阵；根据初始仿射变换矩阵以及目标图片中的关键点进行预测，得到与当前帧对应的预测帧；根据各当前帧对应的预测帧生成目标视频。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种目标视频生成方法，其特征在于，所述方法包括：

接收初始视频以及目标图片；

确定当前帧，并获取与所述当前帧对应的关联帧；

当所述关联帧存在遮挡时，获取所述关联帧对应的预测帧；

根据各所述当前帧对应的预测帧生成目标视频。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述初始仿射变换矩阵以及所述目标图片中的关键点进行预测，得到与所述当前帧对应的预测帧包括：

识别所述目标图片中的背景特征；

根据所述动作估计的结果确定待填充区域；

4.根据权利要求3所述的方法，其特征在于，所述当所述关联帧存在遮挡时，获取所述关联帧对应的预测帧之前，还包括：

判断所述关联帧是否存在遮挡；

所述判断所述关联帧是否存在遮挡，包括以下至少一种：

5.根据权利要求1所述的方法，其特征在于，所述获取与所述当前帧对应的关联帧，包括：

计算所述当前帧与预设数量的相邻帧之间的相似度；

6.根据权利要求1所述的方法，其特征在于，所述确定当前帧之后，还包括：

7.根据权利要求1所述的方法，其特征在于，所述预测帧是通过预先训练得到的预测模型进行预测得到的；所述预测模型的训练方法包括：

获取到样本视频以及对应的样本图片；

计算所述样本视频和所述预测样本视频的相似度；

8.一种目标视频生成装置，其特征在于，所述装置包括：

接收模块，用于接收初始视频以及目标图片；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。