CN110473266A

CN110473266A - 一种基于姿态指导的保留源场景人物动作视频生成方法

Info

Publication number: CN110473266A
Application number: CN201910609020.1A
Authority: CN
Inventors: 骆冰清; 成曦; 李腾; 李桂
Original assignee: Nupt Institute Of Big Data Research At Yancheng Co Ltd
Current assignee: Nupt Institute Of Big Data Research At Yancheng Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-11-19

Abstract

本发明公开了一种基于姿态指导的保留源场景人物动作视频生成方法，首先利用视频帧中人物前景图代替源人物图像进行位姿估计，再利用基于对抗生成网络的运动转换网络合成高分辨率的人物运动视频，最后使用泊松融合方法将提取的与源对象有相同姿势的目标对象与源背景进行融合。本发明输入源人物和目标人物视频数据集最终生成一段视频，生成视频不仅保留源背景，还拥有目标人物的外观和源人物的动作，可以减少画面遮挡，背景的影响。

Description

一种基于姿态指导的保留源场景人物动作视频生成方法

技术领域

本发明涉及视频生成方法领域，尤其涉及人物动作视频生成方法。

背景技术

人物动作视频生成(Human MotionVideo Generation)旨在学习人体结构和动作的特征表示，以及从特征表示到人物视频的空间生成映射，即将源人物的运动视频映射到目标人物视频上。基于姿态指导(Pose-guided)的人物动作视频生成技术是利用骨架加纹理特征合成视频帧，能够合成较为流畅的高分辨率人物动作视频。基于姿态引导的保留源场景人物动作视频生成则是给定源场景下的人物动作视频，能够替换其中一个人物对象的外观而不改变画面的背景环境和整体效果，涉及计算机视觉、计算机图形学、模式识别、多媒体等热门研究领域，可以应用到影视的特技合成、时尚的造型设计、媒体制作娱乐视频等，拥有广阔的应用场景。

现阶段，各种特征表示和视频生成策略方法可以概括成俩类。第一类：基于图像生成领域中分段式生成图像，生成粗略图之后，再基于GAN网络生成框架获得精确图像，给定原图像及对应人物姿态合成目标图像，或者跳层连接将人体不同的部位结构特征迁移到目标骨架上，较之前工作保留更多纹理特征等。第二类：直接学习从骨架图到真实视频帧的映射，即姿势检测器检测出视频帧中人物对应的骨架图，人物的外观特征由生成器根据训练的数据集去学习。

针对人物动作视频生成普遍存在的遮挡问题，生成的图像分辨率较低，姿态估计不够准确导致人物生成有残缺部位，且现有的研究思路仅考虑了人物的外观和动作的转移，忽略了背景环境等其他因素研究的重要性，不能满足目标人物在源背景下的动作变换。

发明内容

本发明所要解决的技术问题是：针对现有技术中的缺点，本发明提出一种基于姿态指导的保留源场景人物动作视频生成方法，输入源人物和目标人物视频数据集最终生成一段视频，生成视频不仅保留源背景，还拥有目标人物的外观和源人物的动作。

本发明为解决上述技术问题采用以下技术方案：

本发明提出一种基于姿态指导的保留源场景人物动作视频生成方法，包括：首先利用视频帧中人物前景图代替源人物图像进行位姿估计，再利用基于对抗生成网络的运动转换网络合成高分辨率的人物运动视频，最后使用泊松融合方法将提取的与源对象有相同姿势的目标对象与源背景进行融合。

进一步的，本发明所提出的一种基于姿态指导的保留源场景人物动作视频生成方法，所述利用视频帧中人物前景图代替源人物图像进行姿态估计，具体包括：

步骤101、数据收集和预处理：

获取任意动作的源视频，再输入一个想要学习源视频动作的人物视频；将选取的源、目标视频转换成视频帧后，分别统一成512*512大小；

步骤102：采用DeepLabv3+算法将前、背景分离：

将上一步中得到的源人物数据集和目标人物数据集分别用DeepLabv3+算法分割出人物前景图和背景；人物前景图用来作为训练数据，源背景图作为融合操作中的背景；

步骤103：位姿估计：使用位姿检测器OpenPose，将步骤102中人物前景图作为输入，提取骨架图，用于视频生成。

进一步的，本发明所提出的一种基于姿态指导的保留源场景人物动作视频生成方法，为了创建对身***置进行编码的图像，使用一个预先训练的位姿检测器，估计关节的x,y坐标；绘制关键点，并在连接的关节之间画线，从而绘制出最终的位姿简图。

进一步的，本发明所提出的一种基于姿态指导的保留源场景人物动作视频生成方法，所述利用基于对抗生成网络的运动转换网络合成高分辨率的人物运动视频，具体将步骤103输出的骨架图，加上目标人物视频帧数据集、源人物的前景图分别送入基于对抗生成网络的运动转换网络进行训练，得到运动转换后的结果。

进一步的，本发明所提出的一种基于姿态指导的保留源场景人物动作视频生成方法，具体实施方法是：

每个人物在地面上的图像坐标中的最小和最大脚踝位置分别代表到摄像机的最远和最近距离，最大脚踝位置是最接近图像底部的y脚坐标，通过聚集y脚坐标来找到最小脚位置，所述y脚坐标小于中间脚踝位置并且与最大脚踝位置到中间脚踝位置的距离大约相同的距离，即{t：||t-med|-α*|max-med||<ε}∩{t<med}

其中t是目标视频中踝关节位置，med是中间脚位，max是最大脚踝位置，ε是标量，α为摄像机存在偏差的调节参数；

在每个视频的最小和最大踝位置之间进行线性映射，根据方向的尺度和平移来描述转换，归一化后得到运动转换后视频帧。

进一步的，本发明所提出的一种基于姿态指导的保留源场景人物动作视频生成方法，从归一化的姿态简图到目标对象的映射：为了创建视频序列，基于pix2pixHD框架加入时间平滑设置，时间平滑设置具体步骤如下：

当先前合成帧G(x_t-1)与当前帧对应姿势图x_t经过生成器G合成当前帧G(x_t)时，获得时间上平滑的输出；鉴别器D然后尝试从“假”序列(x_t-1，x_t，G(x_t-1)，G(x_t))区分“真实的”时间相干序列(x_t-1，x_t，y_t-1，y_t)。

其中，x_t:合成当前帧的对应姿势图，x_t-1:前一帧对应姿势图，G(*)：经过生成器G的输出帧，y为目标视频帧。

进一步的，本发明所提出的一种基于姿态指导的保留源场景人物动作视频生成方法，所述使用泊松融合方法将提取的与源对象有相同姿势的目标对象与源背景进行融合，具体包括：

步骤301：将转换后的图片分割出前景，与源背景进行泊松图像编辑法融合，融合具体方法为：

先求解分割出的前景人物图像区域的梯度场，以及源背景图像不被改变像素区域的梯度场，再将俩者相加得到整幅待重建图像的梯度场，最后根据梯度场求解散度；

泊松融合的关键是求解方程组：Ax＝b；

算法的整个过程在于求解系数稀疏矩阵A、及散度b，x是融合结果的像素颜色值；其中通过差分方法求解梯度场，得到每个像素点的梯度值，即待重建图像的梯度场，对梯度求偏导获得散度b，通过图像像素值求解泊松方程可以得出稀疏矩阵A，最后求解每个点的像素R， G，B值，得到融合结果；

步骤302：将得到的融合结果进行图像转视频操作，最终得到视频结果。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明针对性的关注人物动作视频生成问题，使背景元素的结合使应用更加广泛、多元化和趣味化。为了同时进行视频中运动转移和背景的切换，我们提出的新方法将语义分割和图像融合加入到运动转移中去。相比于其他融合方法，本技术方案使目标人物与源背景环境相融，彼此协调融为一体，无明显边界的像素差，完全融合到背景环境中。

本方案还展示了分割算法，融合算法与姿态变换相结合的结果，这是一个很有价值的特性，发展成熟后很可能会有效提升游戏、动画动效的制作效率等，在更实用的数据集上评估我们的模型并研究更多应用程序。

附图说明

图1是本发明的整体流程图。

图2是本发明总体网络框架流程图。

图3是本发明的融合具体方法流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

1)提出了一种使用分割出的人物前景图代替原图，再用位姿检测器OpenPose提取骨架的位姿估计方法。可以减少画面遮挡，背景的影响，针对不同数据集适当提高检测效果，合成效果越完整越好，则重建的姿态接近于输出所依赖的输入姿态。

2)提出了一种基于生成对抗网络框架的运动转换方法，使图像映射到视频，且具有连贯性输出。

3)提出了一种运动转换视频帧与源场景背景环境氛围相融的处理方法，采用泊松图像融合方法，生成的人物对象平滑地融入背景环境中。

如图1所示，本发明包括以下步骤：

一：利用人物前景图像代替源图像进行姿态估计的方法

使用人物前景图提取骨架可以减少画面遮挡，背景的影响，针对不同数据集适当提高检测效果。因为精确的姿态估计对后面的目标人物生成有很大影响，所以在视频生成方面提取不同视频数据集人物估计的准确性有待提升。将得到的源人物和目标人物的视频帧输入到视频生成的网络架构中，输出的每一帧中身体部位的合成效果越完整越好，则重建的姿态接近于输出所依赖的输入姿态。其具体过程如下：

步骤一：数据收集和预处理：

先从网络上获取或自己录制的任意动作的源视频，可以是舞蹈，武术，瑜伽等，为了获取目标人物外观，再输入一个想要学习源视频动作的人物视频，各二十分钟左右。将选取的源、目标视频转换成视频帧后(源视频：3000帧，目标视频：4000帧)，分别统一成512*512 大小。

在目标视频的收集中，由于姿势的表达不能够编码衣服信息，所以尽量选取穿着偏深色较紧身的衣服的目标对象，录制约几分钟的实时镜头，视频中要展现目标对象完整的外观与足够的运动范围来保证目标视频的质量。而源视频的获取较为简单，可以从网络中下载高质量的表演视频，只要从视频中检测到清楚姿态，无明显的遮挡而影响肢体检测便可。

步骤二：DeepLabv3+算法将前、背景分离

将上一步中得到的源人物数据集和目标人物数据集分别用DeepLabv3+算法分割出人物前景和背景。人物前景图用来作为训练数据，源背景图作为融合操作中的背景。

DeepLabv3+网络架构中，以DeepLabv3作为编码器模块，并添加一个简单有效的解码器模块，通过扩张卷积直接控制提取编码特征的分辨率，用于平衡精度和运行时间。将Xception 模型结构(Inception结构扩展版)应用于分割任务中，在空洞空间金字塔池化(Atrous Spatial Pyramid Pooling，或ASPP)和解码器模块中加入深度分离卷积，提高编码器-解码器网络的运行速率和健壮性，获得到强大又快速的模型。

将以上操作得到的背景结果再进行逆操作，分别得到人物前景图。

步骤三：位姿估计

使用位姿检测器OpenPose，将步骤二中人物前景图作为输入，提取骨架图，用于视频生成。

为了创建对身***置进行编码的图像，使用一个预先训练的位姿检测器，估计关节的x,y 坐标。绘制关键点，并在连接的关节之间画线，从而绘制出最终的位姿简图。

二：基于对抗生成网络的运动转换方法

本步骤提出一种基于对抗生成网络的运动转换方法。在单人运动视频中只对人物外观进行转换，背景与姿势在转换过程中保持不变。在基于对抗生成网络框架下，自由地将人的外观与动作进行“切换”，本方法已经实验证明有效性。具体步骤如下：

将步骤三输出的骨架图，加上目标人物视频帧数据集、源人物的前景图分别送入基于对抗生成网络的运动转换网络进行训练，得到运动转换后的结果。

具体转化方法：

1.：两个主体之间传递运动时，需要对源人物的姿态关键点进行变换，使其按照目标人物的体型和比例出现。

具体实施方法是：

每个人物在地面上的图像坐标中的最小和最大脚踝位置分别代表到摄像机的最远和最近距离。最大脚踝位置是最接近图像底部的y脚坐标。通过聚集y脚坐标来找到最小脚位置，所述y脚坐标小于(或在空间上方)中间脚踝位置并且与最大脚踝位置到中间脚踝位置的距离大约相同的距离。{t：||t-med|-α*|max-med||<ε}∩{t<med}

其中t是目标视频中踝关节位置，med是中间脚位，max是最大脚踝位置，ε是标量，设置ε＝0.7，α为摄像机存在偏差的调节参数，正常情况下默认为1。在每个视频的最小和最大踝位置之间进行线性映射。根据方向的尺度和平移来描述转换，这是针对每个框架计算的。归一化后得到运动转换后视频帧。

2.从归一化的姿态简图到目标对象的映射：为了创建视频序列，基于pix2pixHD框架加入时间平滑设置，改进了单个图像生成设置，加强了相邻帧之间的时间一致性。时间平滑设置具体解释步骤如下：

当先前合成帧G(x t-1)与当前帧对应姿势图x t经过生成器G合成当前帧G(x t)时，获得时间上平滑的输出。鉴别器D然后尝试从“假”序列(xt-1，x t，G(xt-1)，G(x t)) 区分“真实的”时间相干序列(xt-1，x t，yt-1，y t)。

其中x t:合成当前帧的对应姿势图，xt-1:前一帧对应姿势图，G(*)：经过生成器G的输出帧，y为目标视频帧。具体可参考图2所示。

三：运动转换后保留源背景的视频生成方法

为了将源视频的背景环境替换至转换后的目标人物背景，提出基于姿态指导的源场景保留的人物视频生成方法，将得到的已经进行运动转换的视频帧用泊松图像编辑，与源视频帧分割好的背景图融合，以实现背景切换。

步骤一：完成内容二后的结果是目标人物外观、源背景和源人物动作的结合，将转换后的图片分割出前景，与源背景进行泊松图像编辑法融合。

融合具体方法：

先求解分割出的前景人物图像区域的梯度场，以及源背景图像不被改变像素区域的梯度场，再将俩者相加得到整幅待重建图像的梯度场，最后根据梯度场求解散度。泊松融合的关键是求解方程组：Ax＝b；

算法的整个过程在于求解系数稀疏矩阵A、及散度b，x是融合结果的像素颜色值。其中通过差分方法求解梯度场，得到每个像素点的梯度值，即待重建图像的梯度场，对梯度求偏导获得散度b。通过图像像素值求解泊松方程可以得出稀疏矩阵A。最后求解每个点的像素R， G，B值，得到融合结果。

步骤二：将得到的融合结果进行图像转视频操作，最终得到视频结果。具体可参考图3 所示。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于姿态指导的保留源场景人物动作视频生成方法，其特征在于，包括：首先利用视频帧中人物前景图代替源人物图像进行位姿估计，再利用基于对抗生成网络的运动转换网络合成高分辨率的人物运动视频，最后使用泊松融合方法将提取的与源对象有相同姿势的目标对象与源背景进行融合。

2.根据权利要求1所述的一种基于姿态指导的保留源场景人物动作视频生成方法，其特征在于，利用视频帧中人物前景图代替源人物图像进行姿态估计，具体包括：

步骤101、数据收集和预处理：

步骤102：采用DeepLabv3+算法将前、背景分离：

3.根据权利要求2所述的一种基于姿态指导的保留源场景人物动作视频生成方法，其特征在于，为了创建对身***置进行编码的图像，使用一个预先训练的位姿检测器，估计关节的x,y坐标；绘制关键点，并在连接的关节之间画线，从而绘制出最终的位姿简图。

4.根据权利要求2所述的一种基于姿态指导的保留源场景人物动作视频生成方法，其特征在于，所述利用基于对抗生成网络的运动转换网络合成高分辨率的人物运动视频，具体将步骤103输出的骨架图，加上目标人物视频帧数据集、源人物的前景图分别送入基于对抗生成网络的运动转换网络进行训练，得到运动转换后的结果。

5.根据权利要求4所述的一种基于姿态指导的保留源场景人物动作视频生成方法，其特征在于，具体实施方法是：

每个人物在地面上的图像坐标中的最小和最大脚踝位置分别代表到摄像机的最远和最近距离，最大脚踝位置是最接近图像底部的y脚坐标，通过聚集y脚坐标来找到最小脚位置，所述y脚坐标小于中间脚踝位置并且与最大脚踝位置到中间脚踝位置的距离大约相同的距离，即{t：||t-med|-α*|max-med||<ε}∩{t<med}；

6.根据权利要求5所述的一种基于姿态指导的保留源场景人物动作视频生成方法，其特征在于，从归一化的姿态简图到目标对象的映射：为了创建视频序列，基于pix2pixHD框架加入时间平滑设置，时间平滑设置具体步骤如下：

7.根据权利要求2所述的一种基于姿态指导的保留源场景人物动作视频生成方法，其特征在于，所述使用泊松融合方法将提取的与源对象有相同姿势的目标对象与源背景进行融合，具体包括：

泊松融合的关键是求解方程组：Ax＝b；

算法的整个过程在于求解系数稀疏矩阵A、及散度b，x是融合结果的像素颜色值；其中通过差分方法求解梯度场，得到每个像素点的梯度值，即待重建图像的梯度场，对梯度求偏导获得散度b，通过图像像素值求解泊松方程可以得出稀疏矩阵A，最后求解每个点的像素R，G，B值，得到融合结果；