CN112419455A - 基于人体骨架序列信息的人物动作视频生成方法、***及存储介质 - Google Patents

基于人体骨架序列信息的人物动作视频生成方法、***及存储介质 Download PDF

Info

Publication number
CN112419455A
CN112419455A CN202011448607.8A CN202011448607A CN112419455A CN 112419455 A CN112419455 A CN 112419455A CN 202011448607 A CN202011448607 A CN 202011448607A CN 112419455 A CN112419455 A CN 112419455A
Authority
CN
China
Prior art keywords
image
texture
generator
discriminator
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011448607.8A
Other languages
English (en)
Other versions
CN112419455B (zh
Inventor
张乐
胡建芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011448607.8A priority Critical patent/CN112419455B/zh
Publication of CN112419455A publication Critical patent/CN112419455A/zh
Application granted granted Critical
Publication of CN112419455B publication Critical patent/CN112419455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于人体骨架序列信息的人物动作视频生成方法、***及存储介质,所述方法包括以下步骤:利用生成器提取初始纹理特征和初始姿势特征;经转换模块转换成目标纹理特征和目标姿势特征;将目标纹理特征输入到时序模块进行修正并得到最终纹理特征表示;编码器对最终纹理特征表示进行解码得到目标图像;判别器判别生成图像的纹理和姿势并交替更新生成器和判别器。本发明利用时序模型来对人物动作视频的生成进行时序上的建模,通过学习一个视频前后不同帧之间的关联关系来提升图像质量,得到高仿真度的视频。

Description

基于人体骨架序列信息的人物动作视频生成方法、***及存 储介质
技术领域
本发明属于人工智能、计算机视觉和图像生成技术领域,具体涉及一种基于人体骨架序列信息的人物动作视频生成方法、***及存储介质。
背景技术
图像生成是计算机视觉领域的一个分支,它旨在于生成接近真实的图像。当前图像生成领域的技术大都基于生成对抗网络GAN实现,生成对抗网络在图像生成任务上表现出其强大的生成图像能力,但普通的GAN却有生成图像难以控制的缺点,因此有研究提出了条件生成对抗网络CGAN,通过在输入和输出上提供更多的约束来解决这一问题。
所述生成对抗网络GAN具体含义为:一种深度学习模型,模型通过框架中的两个模块:生成模型G和判别模型D的互相博弈学习产生相当好的输出,训练过程中,生成模型G的目标是尽量生成真实的图像去欺骗判别网络D,判别模型D的目标是尽量把G生成的图片和真实的图片分别开来,G和D构成一个动态的博弈过程,最后最理想的状态是G生成的图片足以以假乱真,对于D来说它难以判定G生成的图片是不是真实的。
具体到人物图像的生成,完成人物图像从原姿势到目标姿势的转换,该技术在电影制作、数据增强等方面有十分重要的应用价值。但是由于人物姿势的转换涉及到人体的位移和肢体的旋转等,仅从图像层面去学习该转换难度很大,因此有研究提出引入人体姿势表示信息作为图像生成的补充输入。人体骨架序列是一种人体姿势的信息表示方式,具有获取成本低,使用灵活等优点。当前基于人体骨架序列的人物图像生成主要有几种方式:
1)将图像和人体骨架序列的信息表示串接起来作为GAN的输入;
2)将图像的特征表示和人体骨架序列信息的特征表示串接起来作为GAN的输入;
3)用人体骨架序列信息单向引导图像转换;
4)在图像生成过程中图像信息和人体骨架序列信息之间相互引导转换。
现有技术多是从一张图像到另一张图像的角度去实现人体姿势的转换,在人体视频任务的生成过程中,所有视频帧的生成过程是完全独立开的,没有考虑视频不同帧之间可能在时序上存在的关联关系。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于人体骨架序列信息的人物动作视频生成方法、***及存储介质,用于对给定一个人物动作视频的第一帧图片,以及视频后续帧对应的人体骨架序列信息,通过建立视频不同帧之间在时序上存在的关联关系,把第一帧的纹理信息迁移到后续帧对应的目标人体骨架上,即完成一个人物姿势的转换,最终生成一个完整的人物动作视频。
为了达到上述目的,本发明采用以下技术方案:
本发明一方面提出了一种基于人体骨架序列信息的人物动作视频生成方法,利用生成器和判别器进行训练,所述生成器用于生成尽可能逼真的图像,所述判别器用于判别图像的真伪;交替更新所述生成器和判别器达到动态平衡;
所述生成器的训练过程为:
将第一输入部分和第二输入部分分别经编码器编码为初始纹理特征
Figure BDA0002831539000000021
和初始姿势特征
Figure BDA0002831539000000022
所述第一输入部分为原始图像,所述第二输入部分为初始和目标人体骨架序列热图的级联;
将所述初始纹理特征
Figure BDA0002831539000000031
和初始姿势特征
Figure BDA0002831539000000032
输入生成器的纹理转换路径和姿势转换路径中并进行交互引导转换,得到目标纹理特征
Figure BDA0002831539000000033
所述纹理转换路径和姿势转换路径的中间包含了多个转换模块;
将多个所述目标纹理特征
Figure BDA0002831539000000034
输入到时序模块中,并经时序模块修正后得到多帧的最终纹理特征表示;
将多帧的最终纹理特征表示分别经过解码器进行解码,得到多帧的最终纹理特征对应的目标图像,最终生成动作视频;
将生成器生成的多帧图像分别与视频第一帧图像组成图像对,输入到纹理判别器中,计算纹理判别器此时的输出与纹理判别器将某个样本判别为真的输出之间的误差损失,后向传播更新生成器;
将生成器生成的多帧图像分别与目标人体骨架序列表示组合,输入到姿势判别器中,计算姿势判别器此时的输出与姿势判别器将某个样本判别为真的输出之间的误差损失,后向传播更新生成器;
用生成器生成的多帧图像相应计算出损失函数中除GAN损失外的其他损失项并后向传播更新生成器。
所述判别器的训练过程为:
将视频的第一帧图像和某一帧的真实图像组成的图像对作为正样本,视频的第一帧图像和生成器生成的某一帧的图像组成的图像对作为负样本,输入到纹理判别器中计算误差损失,后向传播更新纹理判别器;
将视频某一帧的真实图像与对应的人体骨架序列热图的串接作为正样本,生成器生成的视频某一帧图像与对应的人体骨架序列热图的串接作为负样本,输入到姿势判别器中计算误差损失,后向传播更新姿势判别器。
所述交替更新生成器和判别器达到动态平衡具体为:
在一次迭代中,生成器根据输入生成转换后的人物图像,将生成的图像分别和原图像和目标人体骨架序列表示进行组合,分别输入两个判别器计算得到对应的GAN损失项,利用生成的图像继续计算出生成器的所有损失项之后进行反向传播更新生成器参数;接着采用生成的图像分别和原图像和目标人体骨架序列表示组合作为负样本,结合以真实目标图像组合得到的正样本,分别输入到两个判别器中计算损失并反向传播更新判别器参数,提升判别器正确判别图像真伪的能力,在训练过程中交替进行上述步骤更新生成器和判别器,最终达到动态平衡。
优选的,所述第一输入部分为视频第一帧对应的图像Is;所述第二输入部分为视频第一帧对应的人体骨架序列表示Ps和当前帧对应的人体骨架序列表示Pt在通道维度上的串接。
优选的,所述将得到目标纹理特征
Figure BDA0002831539000000041
具体步骤为:所述初始纹理特征
Figure BDA0002831539000000042
在纹理转换路径中经过多个转换模块;每一步生成一个中间纹理特征
Figure BDA0002831539000000043
...,最终转换为目标纹理特征
Figure BDA0002831539000000044
所述初始姿势特征
Figure BDA0002831539000000045
在姿势转换路径中经过多个转换模块,每一步生成一个中间姿势特征
Figure BDA0002831539000000046
...,最终转换为目标姿势特征
Figure BDA0002831539000000047
对于第t个转换模块,输入为前一个转换模块输出的中间纹理特征
Figure BDA0002831539000000048
和中间姿势特征
Figure BDA0002831539000000049
输出为纹理特征
Figure BDA00028315390000000410
和姿势特征
Figure BDA00028315390000000411
所述交互引导转换指在每个转换模块中,所述纹理特征和所述姿势特征会发生信息的交换,互相对对方的转换起到引导更新作用,具体为:
所述前一个转换模块输出的中间姿势特征
Figure BDA00028315390000000412
首先经过一个convs,再经过sigmoid函数映射到0到1之间得到注意力掩模矩阵Mt;所述convs结构由卷积层conv、归一化层BN、激活层ReLU、卷积层conv、归一化层BN顺序排列组成;所述注意力掩模矩阵Mt定义为
Figure BDA0002831539000000051
所述Mt用于指示在当前转换模块中纹理特征应当着重转换的位置;
所述前一个转换模块输出的中间纹理特征
Figure BDA0002831539000000052
首先经过一个convs,再与所述注意力掩模矩阵Mt点乘,得到的结果再加上纹理特征
Figure BDA0002831539000000053
得到转换后的纹理特征
Figure BDA0002831539000000054
将经过convs转换后的姿势特征与纹理特征
Figure BDA0002831539000000055
在通道维度上进行串接,即
Figure BDA0002831539000000056
至此,第t个转换模块完成从中间纹理特征
Figure BDA0002831539000000057
和中间姿势特征
Figure BDA0002831539000000058
到纹理特征
Figure BDA0002831539000000059
和姿势特征
Figure BDA00028315390000000510
的转换。
优选的,所述生成器的时序模块包含多个LSTM单元,所述LSTM具体含义为长短期记忆人工神经网络;
所述每个LSTM单元的输入包括:当前帧的目标纹理特征xt;上一个LSTM单元输出的隐状态hidden state,ht-1,且输入第一个LSTM单元的hiddenstate全为0;上一个LSTM单元输出的用于指示哪些信息应当保留或丢弃的细胞状态ct-1
优选的,所述每个LSTM单元的输出包括:用于指示下一个LSTM单元哪些信息应当保留或丢弃的细胞状态ct和隐状态hiddenstateht
优选的,所述将多帧的最终纹理特征表示分别经过生成器的解码器进行解码,得到多帧对应的目标图像具体为:
Figure BDA00028315390000000511
其中,I′t为第t个目标图像;
Figure BDA00028315390000000512
为输入到第t个LSTM单元的目标纹理特征;ht为第t个LSTM输出的隐状态hiddenstate,用于在时序模型中从前面的视频帧中学习信息作为目标纹理特征的修正。
优选的,所述生成器的训练过程中采用的损失函数主要由如下三部分组成:
Lfull=arg minG maxDαGANLGAN1LL12LperL1
其中,arg minG maxDLGAN为生成对抗网络GAN的通用损失函数,αGAN为其对应的权重系数;LL1是生成的图像和目标图像的L1范数损失,α1为其对应的权重系数;α2为损失项LperL1对应的权重系数,LperL1的计算公式如下:
Figure BDA0002831539000000061
其中,Pg为生成器生成的图像,Pt为目标真实人物图像,
Figure BDA0002831539000000062
为一个深度神经网络某一层的输出特征,在本发明中我们采用的是在ImageNet上预训练好的VGG-19模型,Wρ、Hρ、Cρ分别是该输出特征的宽度、高度和通道数。
优选的,所述判别器训练过程中,
所述纹理判别器的输入为两张图像组成的图像对,其中正样本为视频的第一帧图像和某一帧的真实图像组成的图像对,负样本为视频的第一帧图像和生成器生成的某一帧的图像组成的图像对;所述纹理判别器的主要目的是用于判别生成器生成的图像中的人物身份信息是否与视频第一帧的人物身份信息一致;
所述姿势判别器的输入为图像与对应的人体骨架序列热图的串接,其中正样本为视频某一帧的真实图像与对应的人体骨架序列热图的串接,负样本为生成器生成的视频某一帧图像与对应的人体骨架序列热图的串接;所述姿势判别器的主要目的是用于判别生成器生成的图像中的人物姿势与目标姿势的吻合程度;
所述纹理判别器和姿势判别器均采用了均方误差MSELoss作为误差计算方法。
本发明的另一方面还提出了一种基于人体骨架序列信息的人物动作视频生成***,应用于所述的基于人体骨架序列信息的人物动作视频生成方法,包括生成器模块和判别器模块;
所述生成器模块包括特征提取模块、特征转换模块、时序修正模块和图像生成模块;
所述特征提取模块,用于将输入部分编码提取初始纹理特征和初始姿势特征;
所述特征转换模块,用于将初始纹理特征和初始姿势特征转换成目标纹理特征和目标姿势特征;
所述时序修正模块,包含多个LSTM单元,用于将多个所述目标纹理特征修正为多帧的最终纹理特征表示;
图像生成模块,用于将所述多帧的最终纹理特征表示解码为多帧对应目标图像;
所述判别器模块,包括纹理判别器和姿势判别器,所述纹理判别器用于判别生成器生成的图像中的人物身份信息是否与视频第一帧的人物身份信息一致;所述姿势判别器用于判别生成器生成的图像中的人物姿势与目标姿势的吻合程度,交替更新生成器模块和判别器模块,最终达到动态平衡。
本发明的又一方面提出了一种存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于人体骨架序列信息的人物动作视频生成方法。
本发明与现有技术相比,具有如下优点和有益效果:
不同于现有技术将一个人物动作视频的生成拆分成一帧一帧的图像单独生成,本发明考虑了视频不同帧之间可能存在的关联关系,将同一视频中多个帧的生成作为一个整体的过程,通过LSTM去学习多个视频帧目标纹理特征之间的关联关系,对于每一帧生成一个残差作为对原目标纹理特征的进一步修正,从而提升了整个生成视频的图像质量。
附图说明
图1是本发明实施例所述基于人体骨架序列信息的人物动作视频生成方法的流程图;
图2是本发明实施例所述生成器生成目标纹理特征的框架图;
图3是本发明实施例所述生成器转换路径上的转换模块框架图;
图4是本发明实施例所述生成器时序模块框架图;
图5是本发明实施例所述生成器时序模块的LSTM单元框架图;
图6是本发明实施例所述基于人体骨架序列信息的人物动作视频生成***的结构示意图;
图7是本发明实施例的存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1所示,本发明的技术框架整体上与CGAN(条件生成对抗网络)相同,主要分为生成器和判别器两个部分。所述生成器包括编码器、转换路径和转换模块、时序模块、解码器,在训练的过程中,所述生成器负责生成尽可能逼真的图像,输入为视频第一帧的图像以及第一帧和当前帧对应的人体骨架序列热图。所述判别器包括纹理判别器和姿势判别器,负责判别图像的真伪,即图像是来源于真实的图像还是生成器生成的假图像。交替更新生成器和判别器,最终达到动态平衡。
生成器生成图片的过程可以细分为:
S1、将第一输入部分和第二输入部分分别经编码器encoder编码为初始纹理特征
Figure BDA0002831539000000091
和初始姿势特征
Figure BDA0002831539000000092
如图2所示;本步骤目标是将视频的每一帧转换为其对应的目标纹理特征,所述第一输入部分是视频第一帧对应的图像Is;所述第二输入部分是视频第一帧对应的人体骨架序列表示PS和当前帧对应的人体骨架序列表示Pt在通道维度上的串接;在本实施例中,所述人体骨架序列表示是一个18个通道的热图,对应人体的18个关键点;
S2、利用两条转换路径将步骤S1所得的初始纹理特征
Figure BDA0002831539000000093
和初始姿势特征
Figure BDA0002831539000000094
转换为目标纹理特征
Figure BDA0002831539000000095
和目标姿势特征
Figure BDA0002831539000000096
如图2所示,(纹理)转换路径和姿势转换路径中间包含了多个转换模块transferblock,纹理特征在(纹理)转换路径中经过多个转换模块,每一步生成一个中间纹理特征
Figure BDA0002831539000000097
...,最终转换为目标纹理特征
Figure BDA0002831539000000098
姿势特征在姿势转换路径中经过多个转换模块,每一步生成一个中间姿势特征
Figure BDA0002831539000000099
...,最终转换为目标姿势特征
Figure BDA00028315390000000910
在每个转换模块中,纹理特征和姿势特征会发生信息的交换,互相对对方的转换起到引导作用;
更进一步的,还包括下述步骤:
将生成器生成的多帧图像分别与视频第一帧图像组成图像对,输入到纹理判别器中,计算纹理判别器此时的输出与纹理判别器将某个样本判别为真的输出之间的误差损失,后向传播更新生成器;
将生成器生成的多帧图像分别与目标人体骨架序列表示组合,输入到姿势判别器中,计算姿势判别器此时的输出与姿势判别器将某个样本判别为真的输出之间的误差损失,后向传播更新生成器;
用生成器生成的多帧图像相应计算出损失函数中除GAN损失外的其他损失项并后向传播更新生成器;
所述转换模块的结构如图3所示,其转换步骤具体为:
S2.1、所述前一个转换模块输出的中间姿势特征
Figure BDA0002831539000000101
首先经过一个convs,再经过sigmoid函数映射到0到1之间得到注意力掩模矩阵attention maskMt;所述注意力掩模矩阵Mt定义为
Figure BDA0002831539000000102
所述Mt用于指示在当前转换模块中纹理特征应当着重转换的位置;
S2.2、所述前一个转换模块输出的中间纹理特征
Figure BDA0002831539000000103
首先经过一个convs,再与所述注意力掩模矩阵Mt点乘,得到的结果再加上纹理特征
Figure BDA0002831539000000104
得到转换后的纹理特征
Figure BDA0002831539000000105
所述convs结构由卷积层conv、归一化层BN、激活层ReLU、卷积层conv、归一化层BN顺序排列组成;
S2.3、将经过convs转换后的姿势特征与纹理特征
Figure BDA0002831539000000106
在通道维度上进行串接,即
Figure BDA0002831539000000107
至此,第t个转换模块完成从中间纹理特征
Figure BDA0002831539000000108
和中间姿势特征
Figure BDA0002831539000000109
到纹理特征
Figure BDA00028315390000001010
和姿势特征
Figure BDA00028315390000001011
的转换;
作为优选的技术方案,本发明中的生成器生成目标纹理框架采用9个转换模块进行级联的方式,即两部分输入分别经过编码器提取特征之后,分两条路径经过9个转换模块的转换,生成目标纹理特征;
S3、将步骤S2所得的多个目标纹理特征
Figure BDA00028315390000001012
输入到时序模块中,并经时序模块修正后得到多帧的最终纹理特征表示;
如图4所示,所述生成器的时序模块包含多个LSTM单元,所述LSTM具体含义为长短期记忆人工神经网络;
如图4、图5所示,所述LSTM单元的输入包括:当前帧的目标纹理特征xt;上一个LSTM单元输出的隐状态ht-1;上一个LSTM单元的细胞状态ct-1
所述LSTM单元的输出包括:输入到下一个LSTM单元的细胞状态ct和隐状态ht
所述LSTM单元工作过程为:
S3.1、ForgetGate决定细胞状态中要丢弃的信息,通过卷积和sigmoid层实现将ht-1和xt转化为指示细胞状态ct-1保留或删除的掩模ft
S3.2、计算需在细胞状态中存储的信息:Input Gate中的sigmoid层生成it,所述it用于指示下一步需要更新的值,Input Modulation Gate用于通过一个tanh层创建候选向量gt,更新细胞状态的方式是ct=ft×ct-1+it×gt
S3.3、基于细胞状态ct计算隐状态ht,ht-1和xt通过卷积和sigmoid层生成掩模ot,细胞状态ct经过一个tanh层规范化并点乘上ot得到新的隐状态ht
S4、将步骤S3所得多帧的最终纹理特征表示分别经过解码器decoder进行解码,得到多帧对应的目标图像;具体为:
Figure BDA0002831539000000111
其中,I′t为第t个目标图像;
Figure BDA0002831539000000112
为输入到第t个LSTM单元的目标纹理特征;ht为第t个LSTM输出的隐状态hiddenstate,用于在时序模型中从前面的视频帧中学习信息作为目标纹理特征的修正;
S5、利用纹理判别器和姿势判别器分别衡量生成的人物图像的纹理和姿势;
所述的纹理判别器输入为两张图像组成的图像对,其中正样本为视频的第一帧图像和某一帧的真实图像组成的图像对,负样本为视频的第一帧图像和生成器生成的某一帧的图像组成的图像对;所述纹理判别器的主要目的是用于计算生成器生成的图像中的人物身份信息与视频第一帧的人物身份信息的差异;
所述姿势判别器的输入为图像与对应的人体骨架序列热图的串接,其中正样本为视频某一帧的真实图像与对应的人体骨架序列热图的串接,负样本为生成器生成的视频某一帧图像与对应的人体骨架序列热图的串接;所述姿势判别器的主要目的是用于计算生成器生成的图像中的人物姿势信息与先验目标姿势特征的差异;
所述纹理判别器和姿势判别器均采用了均方误差MSELoss作为误差计算方法。
S6、交替更新生成器和判别器,最终达到动态平衡,具体为:
在一次迭代中,生成器根据输入生成转换后的人物图像,将生成的图像分别和原图像和目标人体骨架序列表示进行组合,分别输入两个判别器计算得到对应的GAN损失项,利用生成的图像继续计算出生成器的所有损失项之后进行反向传播更新生成器参数,提高生成器生成逼真人物图像的能力。接着采用生成的图像分别和原图像和目标人体骨架序列表示组合作为负样本,结合以真实目标图像组合得到的正样本,分别输入到两个判别器中计算损失并反向传播更新判别器参数,提升判别器正确判别图像真伪的能力。在训练过程中交替进行上述步骤更新生成器和判别器,最终达到动态平衡。
本实施例中,步骤S1-S4过程中生成器采用的损失函数主要由如下三部分组成:
Lfull=arg minG maxDαGANLGAN1LL12LperL1
其中,arg minG maxDLGAN为生成对抗网络GAN的通用损失函数,在本发明中由纹理判别器和姿势判别器计算得到,αGAN为其对应的权重系数;LL1是生成的图像和目标图像的L1范数损失,α1为其对应的权重系数;α2为损失项LperL1对应的权重系数,LperL1的计算公式如下:
Figure BDA0002831539000000131
其中,Pg为生成器生成的图像,Pt为目标真实人物图像,
Figure BDA0002831539000000132
为一个深度神经网络某一层的输出特征,在本发明中我们采用的是在ImageNet上预训练好的VGG-19模型,Wρ、Hρ、Cρ分别是该输出特征的宽度、高度和通道数。
如图6所示,在本实施例中,还提供了一种基于人体骨架序列信息的人物动作视频生成***,包括生成器模块和判别器模块;
所述生成器模块包括特征提取模块、特征转换模块、时序修正模块和图像生成模块;
(1)所述特征提取模块,用于将输入部分编码提取初始纹理特征和初始姿势特征;
(2)所述特征转换模块,用于将初始纹理特征和初始姿势特征转换成目标纹理特征和目标姿势特征;
(3)所述时序修正模块,包含多个LSTM单元,用于将多个所述目标纹理特征修正为多帧的最终纹理特征表示;
(4)图像生成模块,用于将所述多帧的最终纹理特征表示解码为多帧对应目标图像;
所述判别器模块,包括纹理判别器和姿势判别器,所述纹理判别器用于判别生成器生成的图像中的人物身份信息是否与视频第一帧的人物身份信息一致;所述姿势判别器用于判别生成器生成的图像中的人物姿势与目标姿势的吻合程度。交替更新生成器和判别器,最终达到动态平衡。
更进一步的,交替更新生成器和判别器,最终达到动态平衡,具体为:
在一次迭代中,生成器根据输入生成转换后的人物图像,将生成的图像分别和原图像和目标人体骨架序列表示进行组合,分别输入两个判别器计算得到对应的GAN损失项,利用生成的图像继续计算出生成器的所有损失项之后进行反向传播更新生成器参数,提高生成器生成逼真人物图像的能力;接着采用生成的图像分别和原图像和目标人体骨架序列表示组合作为负样本,结合以真实目标图像组合得到的正样本,分别输入到两个判别器中计算损失并反向传播更新判别器参数,提升判别器正确判别图像真伪的能力。在训练过程中交替进行上述步骤更新生成器和判别器,最终达到动态平衡。
如图7所示,在本申请的另一个实施例中,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现基于人体骨架序列信息的人物动作视频生成方法,具体为:
利用生成器和判别器进行训练,所述生成器用于生成尽可能逼真的图像,所述判别器用于判别图像的真伪;交替更新所述生成器和判别器达到动态平衡;
所述生成器的训练过程为:
将第一输入部分和第二输入部分分别经编码器编码为初始纹理特征
Figure BDA0002831539000000141
和初始姿势特征
Figure BDA0002831539000000142
所述第一输入部分为原始图像,所述第二输入部分为初始和目标人体骨架序列热图的级联;
将所述初始纹理特征
Figure BDA0002831539000000143
和初始姿势特征
Figure BDA0002831539000000144
输入生成器的纹理转换路径和姿势转换路径中并进行交互引导转换,得到目标纹理特征
Figure BDA0002831539000000145
所述纹理转换路径和姿势转换路径的中间包含了多个转换模块;
将多个所述目标纹理特征
Figure BDA0002831539000000146
输入到时序模块中,并经时序模块修正后得到多帧的最终纹理特征表示;
将多帧的最终纹理特征表示分别经过解码器进行解码,得到多帧的最终纹理特征对应的目标图像,最终生成动作视频;
将生成器生成的多帧图像分别与视频第一帧图像组成图像对,输入到纹理判别器中,计算纹理判别器此时的输出与纹理判别器将某个样本判别为真的输出之间的误差损失,后向传播更新生成器;
将生成器生成的多帧图像分别与目标人体骨架序列表示组合,输入到姿势判别器中,计算姿势判别器此时的输出与姿势判别器将某个样本判别为真的输出之间的误差损失,后向传播更新生成器;
用生成器生成的多帧图像相应计算出损失函数中除GAN损失外的其他损失项并后向传播更新生成器;
所述判别器的训练过程为:
将视频的第一帧图像和某一帧的真实图像组成的图像对作为正样本,视频的第一帧图像和生成器生成的某一帧的图像组成的图像对作为负样本,输入到纹理判别器中计算误差损失,后向传播更新纹理判别器;
将视频某一帧的真实图像与对应的人体骨架序列热图的串接作为正样本,生成器生成的视频某一帧图像与对应的人体骨架序列热图的串接作为负样本,输入到姿势判别器中计算误差损失,后向传播更新姿势判别器;
所述交替更新生成器和判别器达到动态平衡具体为:
在一次迭代中,生成器根据输入生成转换后的人物图像,将生成的图像分别和原图像和目标人体骨架序列表示进行组合,分别输入两个判别器计算得到对应的GAN损失项,利用生成的图像继续计算出生成器的所有损失项之后进行反向传播更新生成器参数;接着采用生成的图像分别和原图像和目标人体骨架序列表示组合作为负样本,结合以真实目标图像组合得到的正样本,分别输入到两个判别器中计算损失并反向传播更新判别器参数,提升判别器正确判别图像真伪的能力,在训练过程中交替进行上述步骤更新生成器和判别器,最终达到动态平衡。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于人体骨架序列信息的人物动作视频生成方法,其特征在于,利用生成器和判别器进行训练,所述生成器用于生成尽可能逼真的图像,所述判别器用于判别图像的真伪;交替更新所述生成器和判别器达到动态平衡;
所述生成器的训练过程为:
将第一输入部分和第二输入部分分别经编码器编码为初始纹理特征
Figure FDA0002831538990000011
和初始姿势特征
Figure FDA0002831538990000012
所述第一输入部分为原始图像,所述第二输入部分为初始和目标人体骨架序列热图的级联;
将所述初始纹理特征
Figure FDA0002831538990000013
印初始姿势特征
Figure FDA0002831538990000014
输入生成器的纹理转换路径和姿势转换路径中并进行交互引导转换,得到目标纹理特征
Figure FDA0002831538990000015
所述纹理转换路径和姿势转换路径的中间包含了多个转换模块;
将多个所述目标纹理特征
Figure FDA0002831538990000016
输入到时序模块中,并经时序模块修正后得到多帧的最终纹理特征表示;
将多帧的最终纹理特征表示分别经过解码器进行解码,得到多帧的最终纹理特征对应的目标图像,最终生成动作视频;
将生成器生成的多帧图像分别与视频第一帧图像组成图像对,输入到纹理判别器中,计算纹理判别器此时的输出与纹理判别器将某个样本判别为真的输出之间的误差损失,后向传播更新生成器;
将生成器生成的多帧图像分别与目标人体骨架序列表示组合,输入到姿势判别器中,计算姿势判别器此时的输出与姿势判别器将某个样本判别为真的输出之间的误差损失,后向传播更新生成器;
用生成器生成的多帧图像相应计算出损失函数中除GAN损失外的其他损失项并后向传播更新生成器;
所述判别器的训练过程为:
将视频的第一帧图像和某一帧的真实图像组成的图像对作为正样本,视频的第一帧图像和生成器生成的某一帧的图像组成的图像对作为负样本,输入到纹理判别器中计算误差损失,后向传播更新纹理判别器;
将视频某一帧的真实图像与对应的人体骨架序列热图的串接作为正样本,生成器生成的视频某一帧图像与对应的人体骨架序列热图的串接作为负样本,输入到姿势判别器中计算误差损失,后向传播更新姿势判别器;
所述交替更新生成器和判别器达到动态平衡具体为:
在一次迭代中,生成器根据输入生成转换后的人物图像,将生成的图像分别和原图像和目标人体骨架序列表示进行组合,分别输入两个判别器计算得到对应的GAN损失项,利用生成的图像继续计算出生成器的所有损失项之后进行反向传播更新生成器参数;接着采用生成的图像分别和原图像和目标人体骨架序列表示组合作为负样本,结合以真实目标图像组合得到的正样本,分别输入到两个判别器中计算损失并反向传播更新判别器参数,提升判别器正确判别图像真伪的能力,在训练过程中交替进行上述步骤更新生成器和判别器,最终达到动态平衡。
2.根据权利要求1所述基于人体骨架序列信息的人物动作视频生成方法,其特征在于,所述第一输入部分为视频第一帧对应的图像Is;所述第二输入部分为视频第一帧对应的人体骨架序列表示Ps和当前帧对应的人体骨架序列表示Pt在通道维度上的串接。
3.根据权利要求1所述基于人体骨架序列信息的人物动作视频生成方法,其特征在于,所述将得到目标纹理特征
Figure FDA0002831538990000021
具体步骤为:所述初始纹理特征
Figure FDA0002831538990000022
在纹理转换路径中经过多个转换模块;每一步生成一个中间纹理特征
Figure FDA0002831538990000023
最终转换为目标纹理特征
Figure FDA0002831538990000024
所述初始姿势特征
Figure FDA0002831538990000025
在姿势转换路径中经过多个转换模块,每一步生成一个中间姿势特征
Figure FDA0002831538990000026
最终转换为目标姿势特征
Figure FDA0002831538990000027
对于第t个转换模块,输入为前一个转换模块输出的中间纹理特征
Figure FDA0002831538990000028
和中间姿势特征
Figure FDA0002831538990000029
输出为纹理特征
Figure FDA00028315389900000210
和姿势特征
Figure FDA00028315389900000211
所述交互引导转换指在每个转换模块中,所述纹理特征和所述姿势特征会发生信息的交换,互相对对方的转换起到引导更新作用,具体为:
所述前一个转换模块输出的中间姿势特征
Figure FDA00028315389900000212
首先经过一个convs,再经过sigmoid函数映射到0到1之间得到注意力掩模矩阵Mt;所述convs结构由卷积层conv、归一化层BN、激活层ReLU、卷积层conv、归一化层BN顺序排列组成;所述注意力掩模矩阵Mt定义为
Figure FDA0002831538990000031
所述Mt用于指示在当前转换模块中纹理特征应当着重转换的位置;
所述前一个转换模块输出的中间纹理特征
Figure FDA0002831538990000032
首先经过一个convs,再与所述注意力掩模矩阵Mt点乘,得到的结果再加上纹理特征
Figure FDA0002831538990000033
得到转换后的纹理特征
Figure FDA0002831538990000034
将经过convs转换后的姿势特征与纹理特征
Figure FDA0002831538990000035
在通道维度上进行串接,即
Figure FDA0002831538990000036
至此,第t个转换模块完成从中间纹理特征
Figure FDA0002831538990000037
印中间姿势特征
Figure FDA0002831538990000038
到纹理特征
Figure FDA0002831538990000039
和姿势特征
Figure FDA00028315389900000310
的转换。
4.根据权利要求1所述基于人体骨架序列信息的人物动作视频生成方法,其特征在于,所述生成器的时序模块包含多个LSTM单元,所述LSTM具体含义为长短期记忆人工神经网络;
所述每个LSTM单元的输入包括:当前帧的目标纹理特征xt;上一个LSTM单元输出的隐状态hidden state,ht-1,且输入第一个LSTM单元的hiddenstate全为0;上一个LSTM单元输出的用于指示哪些信息应当保留或丢弃的细胞状态ct-1
5.根据权利要求4所述基于人体骨架序列信息的人物动作视频生成方法,其特征在于,所述每个LSTM单元的输出包括:用于指示下一个LSTM单元哪些信息应当保留或丢弃的细胞状态ct和隐状态hiddenstateht
6.根据权利要求1所述基于人体骨架序列信息的人物动作视频生成方法,其特征在于,所述将多帧的最终纹理特征表示分别经过生成器的解码器进行解码,得到多帧对应的目标图像具体为
Figure FDA00028315389900000311
其中,I′t为第t个目标图像;
Figure FDA00028315389900000312
为输入到第t个LSTM单元的目标纹理特征;ht为第t个LSTM输出的隐状态hiddenstate,用于在时序模型中从前面的视频帧中学习信息作为目标纹理特征的修正。
7.根据权利要求1所述基于人体骨架序列信息的人物动作视频生成方法,其特征在于,所述生成器的训练过程中采用的损失函数主要由如下三部分组成:
Lfull=argminGmaxDαGANLGAN1LL12LperL1
其中,argminGmaxDLGAN为生成对抗网络GAN的通用损失函数,αGAN为其对应的权重系数;LL1是生成的图像和目标图像的L1范数损失,α1为其对应的权重系数;α2为损失项LperL1对应的权重系数,LperL1的计算公式如下:
Figure FDA0002831538990000041
其中,Pg为生成器生成的图像,Pt为目标真实人物图像,
Figure FDA0002831538990000042
为一个深度神经网络某一层的输出特征,在本发明中我们采用的是在ImageNet上预训练好的VGG-19模型,Wρ、Hρ、Cρ分别是该输出特征的宽度、高度和通道数。
8.根据权利要求1所述基于人体骨架序列信息的人物动作视频生成方法,其特征在于,所述判别器训练过程中,
所述纹理判别器的输入为两张图像组成的图像对,其中正样本为视频的第一帧图像和某一帧的真实图像组成的图像对,负样本为视频的第一帧图像和生成器生成的某一帧的图像组成的图像对;所述纹理判别器的主要目的是用于判别生成器生成的图像中的人物身份信息是否与视频第一帧的人物身份信息一致;
所述姿势判别器的输入为图像与对应的人体骨架序列热图的串接,其中正样本为视频某一帧的真实图像与对应的人体骨架序列热图的串接,负样本为生成器生成的视频某一帧图像与对应的人体骨架序列热图的串接;所述姿势判别器的主要目的是用于判别生成器生成的图像中的人物姿势与目标姿势的吻合程度;
所述纹理判别器和姿势判别器均采用了均方误差MSELoss作为误差计算方法。
9.一种基于人体骨架序列信息的人物动作视频生成***,其特征在于,应用于权利要求1-8中任一项所述的基于人体骨架序列信息的人物动作视频生成方法,包括生成器模块和判别器模块;
所述生成器模块包括特征提取模块、特征转换模块、时序修正模块和图像生成模块;
所述特征提取模块,用于将输入部分编码提取初始纹理特征和初始姿势特征;
所述特征转换模块,用于将初始纹理特征和初始姿势特征转换成目标纹理特征和目标姿势特征;
所述时序修正模块,包含多个LSTM单元,用于将多个所述目标纹理特征修正为多帧的最终纹理特征表示;
图像生成模块,用于将所述多帧的最终纹理特征表示解码为多帧对应目标图像;
所述判别器模块,包括纹理判别器和姿势判别器,所述纹理判别器用于判别生成器生成的图像中的人物身份信息是否与视频第一帧的人物身份信息一致;所述姿势判别器用于判别生成器生成的图像中的人物姿势与目标姿势的吻合程度,交替更新生成器模块和判别器模块,最终达到动态平衡。
10.一种存储介质,存储有程序,其特征在于:所述程序被处理器执行时,实现权利要求1-8任一项所述的基于人体骨架序列信息的人物动作视频生成方法。
CN202011448607.8A 2020-12-11 2020-12-11 基于人体骨架序列信息的人物动作视频生成方法、***及存储介质 Active CN112419455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011448607.8A CN112419455B (zh) 2020-12-11 2020-12-11 基于人体骨架序列信息的人物动作视频生成方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011448607.8A CN112419455B (zh) 2020-12-11 2020-12-11 基于人体骨架序列信息的人物动作视频生成方法、***及存储介质

Publications (2)

Publication Number Publication Date
CN112419455A true CN112419455A (zh) 2021-02-26
CN112419455B CN112419455B (zh) 2022-07-22

Family

ID=74776446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011448607.8A Active CN112419455B (zh) 2020-12-11 2020-12-11 基于人体骨架序列信息的人物动作视频生成方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN112419455B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505845A (zh) * 2021-07-23 2021-10-15 黑龙江省博雅智睿科技发展有限责任公司 一种基于语言的深度学习训练集图像生成方法
CN114092610A (zh) * 2021-11-22 2022-02-25 哈尔滨工业大学(深圳) 一种基于生成对抗网络的人物视频生成方法
CN114333069A (zh) * 2022-03-03 2022-04-12 腾讯科技(深圳)有限公司 对象的姿态处理方法、装置、设备及存储介质
CN116074577A (zh) * 2022-12-23 2023-05-05 北京生数科技有限公司 视频处理方法、相关装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902729A (zh) * 2019-02-18 2019-06-18 清华大学 基于序列状态演进的行为预测方法及装置
CN109918493A (zh) * 2019-03-19 2019-06-21 重庆邮电大学 一种基于长短期记忆神经网络的对话生成方法
CN110148212A (zh) * 2019-05-17 2019-08-20 北京市商汤科技开发有限公司 一种动作序列生成方法及装置、电子设备和存储介质
CN111275518A (zh) * 2020-01-15 2020-06-12 中山大学 一种基于混合光流的视频虚拟试穿方法及装置
CN111523413A (zh) * 2020-04-10 2020-08-11 北京百度网讯科技有限公司 生成人脸图像的方法和装置
CN111539903A (zh) * 2020-04-16 2020-08-14 北京百度网讯科技有限公司 训练人脸图像合成模型的方法和装置
CN111539262A (zh) * 2020-04-02 2020-08-14 中山大学 一种基于单张图片的运动转移方法及***
CN111882643A (zh) * 2020-08-10 2020-11-03 网易(杭州)网络有限公司 三维人脸构建方法、装置和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902729A (zh) * 2019-02-18 2019-06-18 清华大学 基于序列状态演进的行为预测方法及装置
CN109918493A (zh) * 2019-03-19 2019-06-21 重庆邮电大学 一种基于长短期记忆神经网络的对话生成方法
CN110148212A (zh) * 2019-05-17 2019-08-20 北京市商汤科技开发有限公司 一种动作序列生成方法及装置、电子设备和存储介质
CN111275518A (zh) * 2020-01-15 2020-06-12 中山大学 一种基于混合光流的视频虚拟试穿方法及装置
CN111539262A (zh) * 2020-04-02 2020-08-14 中山大学 一种基于单张图片的运动转移方法及***
CN111523413A (zh) * 2020-04-10 2020-08-11 北京百度网讯科技有限公司 生成人脸图像的方法和装置
CN111539903A (zh) * 2020-04-16 2020-08-14 北京百度网讯科技有限公司 训练人脸图像合成模型的方法和装置
CN111882643A (zh) * 2020-08-10 2020-11-03 网易(杭州)网络有限公司 三维人脸构建方法、装置和电子设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505845A (zh) * 2021-07-23 2021-10-15 黑龙江省博雅智睿科技发展有限责任公司 一种基于语言的深度学习训练集图像生成方法
CN114092610A (zh) * 2021-11-22 2022-02-25 哈尔滨工业大学(深圳) 一种基于生成对抗网络的人物视频生成方法
CN114092610B (zh) * 2021-11-22 2023-04-07 哈尔滨工业大学(深圳) 一种基于生成对抗网络的人物视频生成方法
CN114333069A (zh) * 2022-03-03 2022-04-12 腾讯科技(深圳)有限公司 对象的姿态处理方法、装置、设备及存储介质
CN114333069B (zh) * 2022-03-03 2022-05-17 腾讯科技(深圳)有限公司 对象的姿态处理方法、装置、设备及存储介质
CN116074577A (zh) * 2022-12-23 2023-05-05 北京生数科技有限公司 视频处理方法、相关装置及存储介质
CN116074577B (zh) * 2022-12-23 2023-09-26 北京生数科技有限公司 视频处理方法、相关装置及存储介质

Also Published As

Publication number Publication date
CN112419455B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN112419455B (zh) 基于人体骨架序列信息的人物动作视频生成方法、***及存储介质
WO2022267641A1 (zh) 一种基于循环生成对抗网络的图像去雾方法及***
CN113673307B (zh) 一种轻量型的视频动作识别方法
Xu et al. Learning deep structured multi-scale features using attention-gated crfs for contour prediction
CN107492121B (zh) 一种单目深度视频的二维人体骨骼点定位方法
CN111798369B (zh) 一种基于循环条件生成对抗网络的人脸衰老图像合成方法
CN112215050A (zh) 非线性3dmm人脸重建和姿态归一化方法、装置、介质及设备
CN110188667B (zh) 一种基于三方对抗生成网络的人脸摆正方法
CN112200057B (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN111210382A (zh) 图像处理方法、装置、计算机设备和存储介质
CN113822790B (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及***
CN116030498A (zh) 面向虚拟服装走秀的三维人体姿态估计方法
CN114494003B (zh) 一种联合形状变换和纹理转换的古文字生成方法
CN112614070A (zh) 一种基于DefogNet的单幅图像去雾方法
CN115588237A (zh) 一种基于单目rgb图像的三维手部姿态估计方法
CN115984485A (zh) 一种基于自然文本描述的高保真三维人脸模型生成方法
CN115984949B (zh) 一种带有注意力机制的低质量人脸图像识别方法及设备
CN117315069A (zh) 基于图像特征对齐的人体姿态迁移方法
CN117291232A (zh) 一种基于扩散模型的图像生成方法与装置
CN114783039B (zh) 一种3d人体模型驱动的运动迁移方法
CN114241167B (zh) 一种从视频到视频的无模板虚拟换衣方法及装置
CN111508024A (zh) 一种基于深度学习估计机器人位姿的方法
CN113077383B (zh) 一种模型训练方法及模型训练装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant