CN112419455A

CN112419455A - 基于人体骨架序列信息的人物动作视频生成方法、***及存储介质

Info

Publication number: CN112419455A
Application number: CN202011448607.8A
Authority: CN
Inventors: 张乐; 胡建芳
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-02-26
Anticipated expiration: 2040-12-11
Also published as: CN112419455B

Abstract

本发明公开了一种基于人体骨架序列信息的人物动作视频生成方法、***及存储介质，所述方法包括以下步骤：利用生成器提取初始纹理特征和初始姿势特征；经转换模块转换成目标纹理特征和目标姿势特征；将目标纹理特征输入到时序模块进行修正并得到最终纹理特征表示；编码器对最终纹理特征表示进行解码得到目标图像；判别器判别生成图像的纹理和姿势并交替更新生成器和判别器。本发明利用时序模型来对人物动作视频的生成进行时序上的建模，通过学习一个视频前后不同帧之间的关联关系来提升图像质量，得到高仿真度的视频。

Description

基于人体骨架序列信息的人物动作视频生成方法、***及存储介质

技术领域

本发明属于人工智能、计算机视觉和图像生成技术领域，具体涉及一种基于人体骨架序列信息的人物动作视频生成方法、***及存储介质。

背景技术

图像生成是计算机视觉领域的一个分支，它旨在于生成接近真实的图像。当前图像生成领域的技术大都基于生成对抗网络GAN实现，生成对抗网络在图像生成任务上表现出其强大的生成图像能力，但普通的GAN却有生成图像难以控制的缺点，因此有研究提出了条件生成对抗网络CGAN，通过在输入和输出上提供更多的约束来解决这一问题。

所述生成对抗网络GAN具体含义为：一种深度学习模型，模型通过框架中的两个模块：生成模型G和判别模型D的互相博弈学习产生相当好的输出，训练过程中，生成模型G的目标是尽量生成真实的图像去欺骗判别网络D，判别模型D的目标是尽量把G生成的图片和真实的图片分别开来，G和D构成一个动态的博弈过程，最后最理想的状态是G生成的图片足以以假乱真，对于D来说它难以判定G生成的图片是不是真实的。

具体到人物图像的生成，完成人物图像从原姿势到目标姿势的转换，该技术在电影制作、数据增强等方面有十分重要的应用价值。但是由于人物姿势的转换涉及到人体的位移和肢体的旋转等，仅从图像层面去学习该转换难度很大，因此有研究提出引入人体姿势表示信息作为图像生成的补充输入。人体骨架序列是一种人体姿势的信息表示方式，具有获取成本低，使用灵活等优点。当前基于人体骨架序列的人物图像生成主要有几种方式：

1)将图像和人体骨架序列的信息表示串接起来作为GAN的输入；

2)将图像的特征表示和人体骨架序列信息的特征表示串接起来作为GAN的输入；

3)用人体骨架序列信息单向引导图像转换；

4)在图像生成过程中图像信息和人体骨架序列信息之间相互引导转换。

现有技术多是从一张图像到另一张图像的角度去实现人体姿势的转换，在人体视频任务的生成过程中，所有视频帧的生成过程是完全独立开的，没有考虑视频不同帧之间可能在时序上存在的关联关系。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于人体骨架序列信息的人物动作视频生成方法、***及存储介质，用于对给定一个人物动作视频的第一帧图片，以及视频后续帧对应的人体骨架序列信息，通过建立视频不同帧之间在时序上存在的关联关系，把第一帧的纹理信息迁移到后续帧对应的目标人体骨架上，即完成一个人物姿势的转换，最终生成一个完整的人物动作视频。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提出了一种基于人体骨架序列信息的人物动作视频生成方法，利用生成器和判别器进行训练，所述生成器用于生成尽可能逼真的图像，所述判别器用于判别图像的真伪；交替更新所述生成器和判别器达到动态平衡；

所述生成器的训练过程为：

将第一输入部分和第二输入部分分别经编码器编码为初始纹理特征

和初始姿势特征

所述第一输入部分为原始图像，所述第二输入部分为初始和目标人体骨架序列热图的级联；

将所述初始纹理特征

和初始姿势特征

输入生成器的纹理转换路径和姿势转换路径中并进行交互引导转换，得到目标纹理特征

所述纹理转换路径和姿势转换路径的中间包含了多个转换模块；

将多个所述目标纹理特征

输入到时序模块中，并经时序模块修正后得到多帧的最终纹理特征表示；

将多帧的最终纹理特征表示分别经过解码器进行解码，得到多帧的最终纹理特征对应的目标图像，最终生成动作视频；

将生成器生成的多帧图像分别与视频第一帧图像组成图像对，输入到纹理判别器中，计算纹理判别器此时的输出与纹理判别器将某个样本判别为真的输出之间的误差损失，后向传播更新生成器；

将生成器生成的多帧图像分别与目标人体骨架序列表示组合，输入到姿势判别器中，计算姿势判别器此时的输出与姿势判别器将某个样本判别为真的输出之间的误差损失，后向传播更新生成器；

用生成器生成的多帧图像相应计算出损失函数中除GAN损失外的其他损失项并后向传播更新生成器。

所述判别器的训练过程为：

将视频的第一帧图像和某一帧的真实图像组成的图像对作为正样本，视频的第一帧图像和生成器生成的某一帧的图像组成的图像对作为负样本，输入到纹理判别器中计算误差损失，后向传播更新纹理判别器；

将视频某一帧的真实图像与对应的人体骨架序列热图的串接作为正样本，生成器生成的视频某一帧图像与对应的人体骨架序列热图的串接作为负样本，输入到姿势判别器中计算误差损失，后向传播更新姿势判别器。

所述交替更新生成器和判别器达到动态平衡具体为：

在一次迭代中，生成器根据输入生成转换后的人物图像，将生成的图像分别和原图像和目标人体骨架序列表示进行组合，分别输入两个判别器计算得到对应的GAN损失项，利用生成的图像继续计算出生成器的所有损失项之后进行反向传播更新生成器参数；接着采用生成的图像分别和原图像和目标人体骨架序列表示组合作为负样本，结合以真实目标图像组合得到的正样本，分别输入到两个判别器中计算损失并反向传播更新判别器参数，提升判别器正确判别图像真伪的能力，在训练过程中交替进行上述步骤更新生成器和判别器，最终达到动态平衡。

优选的，所述第一输入部分为视频第一帧对应的图像I_s；所述第二输入部分为视频第一帧对应的人体骨架序列表示P_s和当前帧对应的人体骨架序列表示P_t在通道维度上的串接。

优选的，所述将得到目标纹理特征

具体步骤为：所述初始纹理特征

在纹理转换路径中经过多个转换模块；每一步生成一个中间纹理特征

...，最终转换为目标纹理特征

所述初始姿势特征

在姿势转换路径中经过多个转换模块，每一步生成一个中间姿势特征

...，最终转换为目标姿势特征

对于第t个转换模块，输入为前一个转换模块输出的中间纹理特征

和中间姿势特征

输出为纹理特征

和姿势特征

所述交互引导转换指在每个转换模块中，所述纹理特征和所述姿势特征会发生信息的交换，互相对对方的转换起到引导更新作用，具体为：

所述前一个转换模块输出的中间姿势特征

首先经过一个convs，再经过sigmoid函数映射到0到1之间得到注意力掩模矩阵M_t；所述convs结构由卷积层conv、归一化层BN、激活层ReLU、卷积层conv、归一化层BN顺序排列组成；所述注意力掩模矩阵M_t定义为

所述M_t用于指示在当前转换模块中纹理特征应当着重转换的位置；

所述前一个转换模块输出的中间纹理特征

首先经过一个convs，再与所述注意力掩模矩阵M_t点乘，得到的结果再加上纹理特征

得到转换后的纹理特征

将经过convs转换后的姿势特征与纹理特征

在通道维度上进行串接，即

至此，第t个转换模块完成从中间纹理特征

和中间姿势特征

到纹理特征

和姿势特征

的转换。

优选的，所述生成器的时序模块包含多个LSTM单元，所述LSTM具体含义为长短期记忆人工神经网络；

所述每个LSTM单元的输入包括：当前帧的目标纹理特征x_t；上一个LSTM单元输出的隐状态hidden state，h_t-1，且输入第一个LSTM单元的hiddenstate全为0；上一个LSTM单元输出的用于指示哪些信息应当保留或丢弃的细胞状态c_t-1。

优选的，所述每个LSTM单元的输出包括：用于指示下一个LSTM单元哪些信息应当保留或丢弃的细胞状态c_t和隐状态hiddenstateh_t。

优选的，所述将多帧的最终纹理特征表示分别经过生成器的解码器进行解码，得到多帧对应的目标图像具体为：

其中，I′_t为第t个目标图像；

为输入到第t个LSTM单元的目标纹理特征；h_t为第t个LSTM输出的隐状态hiddenstate，用于在时序模型中从前面的视频帧中学习信息作为目标纹理特征的修正。

优选的，所述生成器的训练过程中采用的损失函数主要由如下三部分组成：

L_full＝arg min_G max_Dα_GANL_GAN+α₁L_L1+α₂L_perL1，

其中，arg min_G max_DL_GAN为生成对抗网络GAN的通用损失函数，α_GAN为其对应的权重系数；L_L1是生成的图像和目标图像的L1范数损失，α₁为其对应的权重系数；α₂为损失项L_perL1对应的权重系数，L_perL1的计算公式如下：

其中，P_g为生成器生成的图像，P_t为目标真实人物图像，

为一个深度神经网络某一层的输出特征，在本发明中我们采用的是在ImageNet上预训练好的VGG-19模型，W_ρ、H_ρ、C_ρ分别是该输出特征的宽度、高度和通道数。

优选的，所述判别器训练过程中，

所述纹理判别器的输入为两张图像组成的图像对，其中正样本为视频的第一帧图像和某一帧的真实图像组成的图像对，负样本为视频的第一帧图像和生成器生成的某一帧的图像组成的图像对；所述纹理判别器的主要目的是用于判别生成器生成的图像中的人物身份信息是否与视频第一帧的人物身份信息一致；

所述姿势判别器的输入为图像与对应的人体骨架序列热图的串接，其中正样本为视频某一帧的真实图像与对应的人体骨架序列热图的串接，负样本为生成器生成的视频某一帧图像与对应的人体骨架序列热图的串接；所述姿势判别器的主要目的是用于判别生成器生成的图像中的人物姿势与目标姿势的吻合程度；

所述纹理判别器和姿势判别器均采用了均方误差MSELoss作为误差计算方法。

本发明的另一方面还提出了一种基于人体骨架序列信息的人物动作视频生成***，应用于所述的基于人体骨架序列信息的人物动作视频生成方法，包括生成器模块和判别器模块；

所述生成器模块包括特征提取模块、特征转换模块、时序修正模块和图像生成模块；

所述特征提取模块，用于将输入部分编码提取初始纹理特征和初始姿势特征；

所述特征转换模块，用于将初始纹理特征和初始姿势特征转换成目标纹理特征和目标姿势特征；

所述时序修正模块，包含多个LSTM单元，用于将多个所述目标纹理特征修正为多帧的最终纹理特征表示；

图像生成模块，用于将所述多帧的最终纹理特征表示解码为多帧对应目标图像；

所述判别器模块，包括纹理判别器和姿势判别器，所述纹理判别器用于判别生成器生成的图像中的人物身份信息是否与视频第一帧的人物身份信息一致；所述姿势判别器用于判别生成器生成的图像中的人物姿势与目标姿势的吻合程度，交替更新生成器模块和判别器模块，最终达到动态平衡。

本发明的又一方面提出了一种存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于人体骨架序列信息的人物动作视频生成方法。

本发明与现有技术相比，具有如下优点和有益效果：

不同于现有技术将一个人物动作视频的生成拆分成一帧一帧的图像单独生成，本发明考虑了视频不同帧之间可能存在的关联关系，将同一视频中多个帧的生成作为一个整体的过程，通过LSTM去学习多个视频帧目标纹理特征之间的关联关系，对于每一帧生成一个残差作为对原目标纹理特征的进一步修正，从而提升了整个生成视频的图像质量。

附图说明

图1是本发明实施例所述基于人体骨架序列信息的人物动作视频生成方法的流程图；

图2是本发明实施例所述生成器生成目标纹理特征的框架图；

图3是本发明实施例所述生成器转换路径上的转换模块框架图；

图4是本发明实施例所述生成器时序模块框架图；

图5是本发明实施例所述生成器时序模块的LSTM单元框架图；

图6是本发明实施例所述基于人体骨架序列信息的人物动作视频生成***的结构示意图；

图7是本发明实施例的存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1所示，本发明的技术框架整体上与CGAN(条件生成对抗网络)相同，主要分为生成器和判别器两个部分。所述生成器包括编码器、转换路径和转换模块、时序模块、解码器，在训练的过程中，所述生成器负责生成尽可能逼真的图像，输入为视频第一帧的图像以及第一帧和当前帧对应的人体骨架序列热图。所述判别器包括纹理判别器和姿势判别器，负责判别图像的真伪，即图像是来源于真实的图像还是生成器生成的假图像。交替更新生成器和判别器，最终达到动态平衡。

生成器生成图片的过程可以细分为：

S1、将第一输入部分和第二输入部分分别经编码器encoder编码为初始纹理特征

和初始姿势特征

如图2所示；本步骤目标是将视频的每一帧转换为其对应的目标纹理特征，所述第一输入部分是视频第一帧对应的图像I_s；所述第二输入部分是视频第一帧对应的人体骨架序列表示P_S和当前帧对应的人体骨架序列表示P_t在通道维度上的串接；在本实施例中，所述人体骨架序列表示是一个18个通道的热图，对应人体的18个关键点；

S2、利用两条转换路径将步骤S1所得的初始纹理特征

和初始姿势特征

转换为目标纹理特征

和目标姿势特征

如图2所示，(纹理)转换路径和姿势转换路径中间包含了多个转换模块transferblock，纹理特征在(纹理)转换路径中经过多个转换模块，每一步生成一个中间纹理特征

...，最终转换为目标纹理特征

姿势特征在姿势转换路径中经过多个转换模块，每一步生成一个中间姿势特征

...，最终转换为目标姿势特征

在每个转换模块中，纹理特征和姿势特征会发生信息的交换，互相对对方的转换起到引导作用；

更进一步的，还包括下述步骤：

用生成器生成的多帧图像相应计算出损失函数中除GAN损失外的其他损失项并后向传播更新生成器；

所述转换模块的结构如图3所示，其转换步骤具体为：

S2.1、所述前一个转换模块输出的中间姿势特征

首先经过一个convs，再经过sigmoid函数映射到0到1之间得到注意力掩模矩阵attention maskM_t；所述注意力掩模矩阵M_t定义为

所述Mt用于指示在当前转换模块中纹理特征应当着重转换的位置；

S2.2、所述前一个转换模块输出的中间纹理特征

得到转换后的纹理特征

所述convs结构由卷积层conv、归一化层BN、激活层ReLU、卷积层conv、归一化层BN顺序排列组成；

S2.3、将经过convs转换后的姿势特征与纹理特征

在通道维度上进行串接，即

至此，第t个转换模块完成从中间纹理特征

和中间姿势特征

到纹理特征

和姿势特征

的转换；

作为优选的技术方案，本发明中的生成器生成目标纹理框架采用9个转换模块进行级联的方式，即两部分输入分别经过编码器提取特征之后，分两条路径经过9个转换模块的转换，生成目标纹理特征；

S3、将步骤S2所得的多个目标纹理特征

如图4所示，所述生成器的时序模块包含多个LSTM单元，所述LSTM具体含义为长短期记忆人工神经网络；

如图4、图5所示，所述LSTM单元的输入包括：当前帧的目标纹理特征x_t；上一个LSTM单元输出的隐状态h_t-1；上一个LSTM单元的细胞状态c_t-1；

所述LSTM单元的输出包括：输入到下一个LSTM单元的细胞状态c_t和隐状态h_t；

所述LSTM单元工作过程为：

S3.1、ForgetGate决定细胞状态中要丢弃的信息，通过卷积和sigmoid层实现将h_t-1和x_t转化为指示细胞状态c_t-1保留或删除的掩模f_t；

S3.2、计算需在细胞状态中存储的信息：Input Gate中的sigmoid层生成i_t，所述i_t用于指示下一步需要更新的值，Input Modulation Gate用于通过一个tanh层创建候选向量g_t，更新细胞状态的方式是c_t＝f_t×c_t-1+i_t×g_t；

S3.3、基于细胞状态c_t计算隐状态h_t，h_t-1和x_t通过卷积和sigmoid层生成掩模o_t，细胞状态c_t经过一个tanh层规范化并点乘上o_t得到新的隐状态h_t。

S4、将步骤S3所得多帧的最终纹理特征表示分别经过解码器decoder进行解码，得到多帧对应的目标图像；具体为：

其中，I′_t为第t个目标图像；

为输入到第t个LSTM单元的目标纹理特征；h_t为第t个LSTM输出的隐状态hiddenstate，用于在时序模型中从前面的视频帧中学习信息作为目标纹理特征的修正；

S5、利用纹理判别器和姿势判别器分别衡量生成的人物图像的纹理和姿势；

所述的纹理判别器输入为两张图像组成的图像对，其中正样本为视频的第一帧图像和某一帧的真实图像组成的图像对，负样本为视频的第一帧图像和生成器生成的某一帧的图像组成的图像对；所述纹理判别器的主要目的是用于计算生成器生成的图像中的人物身份信息与视频第一帧的人物身份信息的差异；

所述姿势判别器的输入为图像与对应的人体骨架序列热图的串接，其中正样本为视频某一帧的真实图像与对应的人体骨架序列热图的串接，负样本为生成器生成的视频某一帧图像与对应的人体骨架序列热图的串接；所述姿势判别器的主要目的是用于计算生成器生成的图像中的人物姿势信息与先验目标姿势特征的差异；

S6、交替更新生成器和判别器，最终达到动态平衡，具体为：

在一次迭代中，生成器根据输入生成转换后的人物图像，将生成的图像分别和原图像和目标人体骨架序列表示进行组合，分别输入两个判别器计算得到对应的GAN损失项，利用生成的图像继续计算出生成器的所有损失项之后进行反向传播更新生成器参数，提高生成器生成逼真人物图像的能力。接着采用生成的图像分别和原图像和目标人体骨架序列表示组合作为负样本，结合以真实目标图像组合得到的正样本，分别输入到两个判别器中计算损失并反向传播更新判别器参数，提升判别器正确判别图像真伪的能力。在训练过程中交替进行上述步骤更新生成器和判别器，最终达到动态平衡。

本实施例中，步骤S1-S4过程中生成器采用的损失函数主要由如下三部分组成：

L_full＝arg min_G max_Dα_GANL_GAN+α₁L_L1+α₂L_perL1，

其中，arg min_G max_DL_GAN为生成对抗网络GAN的通用损失函数，在本发明中由纹理判别器和姿势判别器计算得到，α_GAN为其对应的权重系数；L_L1是生成的图像和目标图像的L1范数损失，α₁为其对应的权重系数；α₂为损失项L_perL1对应的权重系数，L_perL1的计算公式如下：

其中，P_g为生成器生成的图像，P_t为目标真实人物图像，

如图6所示，在本实施例中，还提供了一种基于人体骨架序列信息的人物动作视频生成***，包括生成器模块和判别器模块；

(1)所述特征提取模块，用于将输入部分编码提取初始纹理特征和初始姿势特征；

(2)所述特征转换模块，用于将初始纹理特征和初始姿势特征转换成目标纹理特征和目标姿势特征；

(3)所述时序修正模块，包含多个LSTM单元，用于将多个所述目标纹理特征修正为多帧的最终纹理特征表示；

(4)图像生成模块，用于将所述多帧的最终纹理特征表示解码为多帧对应目标图像；

所述判别器模块，包括纹理判别器和姿势判别器，所述纹理判别器用于判别生成器生成的图像中的人物身份信息是否与视频第一帧的人物身份信息一致；所述姿势判别器用于判别生成器生成的图像中的人物姿势与目标姿势的吻合程度。交替更新生成器和判别器，最终达到动态平衡。

更进一步的，交替更新生成器和判别器，最终达到动态平衡，具体为：

在一次迭代中，生成器根据输入生成转换后的人物图像，将生成的图像分别和原图像和目标人体骨架序列表示进行组合，分别输入两个判别器计算得到对应的GAN损失项，利用生成的图像继续计算出生成器的所有损失项之后进行反向传播更新生成器参数，提高生成器生成逼真人物图像的能力；接着采用生成的图像分别和原图像和目标人体骨架序列表示组合作为负样本，结合以真实目标图像组合得到的正样本，分别输入到两个判别器中计算损失并反向传播更新判别器参数，提升判别器正确判别图像真伪的能力。在训练过程中交替进行上述步骤更新生成器和判别器，最终达到动态平衡。

如图7所示，在本申请的另一个实施例中，还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现基于人体骨架序列信息的人物动作视频生成方法，具体为：

利用生成器和判别器进行训练，所述生成器用于生成尽可能逼真的图像，所述判别器用于判别图像的真伪；交替更新所述生成器和判别器达到动态平衡；

所述生成器的训练过程为：

和初始姿势特征

将所述初始纹理特征

和初始姿势特征

将多个所述目标纹理特征

所述判别器的训练过程为：

将视频某一帧的真实图像与对应的人体骨架序列热图的串接作为正样本，生成器生成的视频某一帧图像与对应的人体骨架序列热图的串接作为负样本，输入到姿势判别器中计算误差损失，后向传播更新姿势判别器；

所述交替更新生成器和判别器达到动态平衡具体为：

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。