CN114783039B - 一种3d人体模型驱动的运动迁移方法 - Google Patents

一种3d人体模型驱动的运动迁移方法 Download PDF

Info

Publication number
CN114783039B
CN114783039B CN202210708260.9A CN202210708260A CN114783039B CN 114783039 B CN114783039 B CN 114783039B CN 202210708260 A CN202210708260 A CN 202210708260A CN 114783039 B CN114783039 B CN 114783039B
Authority
CN
China
Prior art keywords
human body
motion
posture
image
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210708260.9A
Other languages
English (en)
Other versions
CN114783039A (zh
Inventor
罗冬
夏贵羽
张泽远
马芙蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210708260.9A priority Critical patent/CN114783039B/zh
Publication of CN114783039A publication Critical patent/CN114783039A/zh
Application granted granted Critical
Publication of CN114783039B publication Critical patent/CN114783039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种3D人体模型驱动的运动迁移方法,通过将训练数据转换到UV空间并以相邻视频帧之间的互补信息来构建并优化3D人体模型;然后将优化后的3D人体模型投影到2D平面以保留原始运动的3D信息,并实现了以目标姿态驱动优化后的3D人体模型;将2D投影和训练数据的姿态作为预训练模型的输入,并保存训练好的模型;然后将目标人的姿态归一化;最后以目标人姿态驱动的优化后3D人体模型的2D投影和归一化后的目标人姿态作为训练好的运动图像生成模型的输入进行最终的运动迁移,既克服了2D平面图像生成存在的模糊和形状失真等问题,又保证生成的运动图像具有可靠的深度信息、精确的形状和清晰的人脸。

Description

一种3D人体模型驱动的运动迁移方法
技术领域
本发明属于运动迁移技术领域,具体涉及一种3D人体模型驱动的运动迁移方法。
背景技术
人体运动迁移旨在用训练图像的人体纹理和目标姿态合成人体运动图像。目前已应用于电影制作、游戏设计以及医疗康复。基于人体运动迁移技术,可以自由地动画训练图像的人物来执行用户定义的模仿动作。传统的基于计算机图形学的运动迁移方法需要复杂的渲染操作来生成外观纹理,非常耗时且计算复杂,但普通用户或者是小型机构负担不起极高的计算量和时间成本。
人体运动是一种复杂的自然现象,所有的真实运动都发生在3D空间,真实运动图像看起来自然的原因是它们是原始运动在3D空间的2D投影,自然地继承了3D信息。现有的运动迁移研究大多是基于2D运动数据,如图像和视频,它们是真实运动的2D投影。从这类运动迁移研究中,发现生成的运动图像普遍存在模糊和形状失真等问题。
发明内容
为解决现有技术中的不足,本发明提供一种3D人体模型驱动的运动迁移方法,既克服了2D平面图像生成存在的模糊和形状失真等问题,又保证生成的运动图像具有可靠的深度信息、精确的形状和清晰的人脸。
为达到上述目的,本发明所采用的技术方案是:一种3D人体模型驱动的运动迁移方法,包括:以预先拍摄的视频帧为训练数据构建训练数据集,并提取训练数据的姿态;将训练数据转换到UV空间,生成UV图,并以相邻视频帧之间的互补信息来构建并优化3D人体模型;然后将优化后的3D人体模型投影到2D平面,得到保留了原始运动的3D信息的2D投影,并以目标人的姿态驱动优化后的3D人体模型;将保留了原始运动的3D信息的2D投影和训练数据的姿态作为运动图像生成模型的输入,并保存训练好的运动图像生成模型;将目标人的姿态归一化;最后将以目标人的姿态驱动的优化后的3D人体模型的2D投影和归一化后的目标人的姿态作为训练好的运动图像生成模型的输入进行最终的运动迁移。
进一步地,采用姿态估计算法OpenPose提取训练数据的姿态。
进一步地,利用DensePose将训练数据中的图像的像素转换到UV空间,生成对应的UV图,并以相邻视频帧之间的互补信息来构建并优化3D人体模型,包括:从训练数据中取一组相隔数帧的不同姿态的图像
Figure 908381DEST_PATH_IMAGE001
和对应DensePose生成的UV图,然后通过UV转换生成一组局部纹理图
Figure 558805DEST_PATH_IMAGE002
,将生成的局部纹理图
Figure 748478DEST_PATH_IMAGE002
输入到纹理填充网络中,生成一个具有多姿态纹理信息的纹理图
Figure 225464DEST_PATH_IMAGE003
,并通过损失函数对用纹理图
Figure 260417DEST_PATH_IMAGE003
还原的一组“原始图像”
Figure 421139DEST_PATH_IMAGE004
与一组真实图像
Figure 516134DEST_PATH_IMAGE001
进行损失计算,实现对3D人体模型的优化。
进一步地,所述损失函数表示为:
Figure 981882DEST_PATH_IMAGE005
其中,
Figure 820525DEST_PATH_IMAGE006
Figure 711121DEST_PATH_IMAGE004
由纹理图
Figure 101651DEST_PATH_IMAGE003
还原得到,n表示还原的“原始图像”的个数,纹理图
Figure 444907DEST_PATH_IMAGE003
由以下公式获得:
Figure 195563DEST_PATH_IMAGE007
Figure 940665DEST_PATH_IMAGE008
表示局部纹理图
Figure 377463DEST_PATH_IMAGE002
的总个数,
Figure 332650DEST_PATH_IMAGE009
表示由纹理填充网络生成的概率图,它预测了
Figure 513095DEST_PATH_IMAGE003
上的像素点来自对应位置的
Figure 722491DEST_PATH_IMAGE002
上像素点的概率;
Figure 595769DEST_PATH_IMAGE009
由以下公式获得:
Figure 913618DEST_PATH_IMAGE010
其中,
Figure 22388DEST_PATH_IMAGE011
表示
Figure 476503DEST_PATH_IMAGE012
的第j行和第k列的元素,
Figure 255103DEST_PATH_IMAGE013
表示
Figure 434150DEST_PATH_IMAGE014
的第j行第k列的元素值,
Figure 956398DEST_PATH_IMAGE015
Figure 530599DEST_PATH_IMAGE016
分别表示其中的一个元素值,
Figure 604734DEST_PATH_IMAGE014
表示解码器的输出,
Figure 897175DEST_PATH_IMAGE017
表示解码器输出的通道数,
Figure 832901DEST_PATH_IMAGE018
表示放大模块的放大系数;特别说明,还原的“原始图像”的个数n与局部纹理图的总个数
Figure 261608DEST_PATH_IMAGE008
和解码器输出的通道数
Figure 913170DEST_PATH_IMAGE017
在数量上是相等的。
进一步地,所述将优化后的3D人体模型投影到2D平面,得到保留了原始运动的3D信息的2D投影,并以目标人的姿态驱动优化后的3D人体模型,包括:通过HMR预测3D人体模型的姿态,并将预测的姿态传递给3D人体模型,从而实现对3D人体模型的驱动。
进一步地,所述运动图像生成模型定义为Face-Attention GAN模型;Face-Attention GAN模型以GAN模型为基础,使用高斯分布来匹配椭圆人脸区域,并配置人脸增强损失函数,同时引入注意力机制,其中:通过设计均值和协方差矩阵来实现使用高斯分布匹配椭圆人脸区域,包括:图像面部区域的位置由姿态估计算法OpenPose确定,
Figure 286382DEST_PATH_IMAGE019
是鼻子、眼睛和耳朵的位置;椭圆的中心被设置为鼻子
Figure 150433DEST_PATH_IMAGE020
的位置;椭圆的两个轴是协方差矩阵的特征向量,轴的长度是协方差矩阵的特征值;设定a和b是椭圆的两个轴,a和b都是单位向量,并且满足以下公式:
Figure 699226DEST_PATH_IMAGE021
其中,
Figure 364431DEST_PATH_IMAGE022
是b的两个元素,特征向量a和b与协方差矩阵∑之间的关系如下:
Figure 365885DEST_PATH_IMAGE023
其中,
Figure 299206DEST_PATH_IMAGE024
Figure 561560DEST_PATH_IMAGE025
是a对应的特征值,
Figure 23766DEST_PATH_IMAGE026
Figure 387882DEST_PATH_IMAGE028
是b对应的特征值,
Figure 859315DEST_PATH_IMAGE029
是椭圆的轴长,σ是缩放系数,a和b正交,
Figure 851541DEST_PATH_IMAGE030
必然可逆;在以
Figure 140440DEST_PATH_IMAGE020
为均值,∑为协方差的高斯分布中,在(1,1),(1,512),(512,1),(512,512)四个点构建的矩形区域内以距离间隔1均匀采样,获得面部增强高斯权重
Figure 116487DEST_PATH_IMAGE031
,并以生成的高斯权重
Figure 860452DEST_PATH_IMAGE031
来定义人脸增强损失函数;人脸增强损失函数如下:
Figure 370103DEST_PATH_IMAGE032
其中,
Figure 439690DEST_PATH_IMAGE033
表示姿态,
Figure 762087DEST_PATH_IMAGE034
表示3D人体模型的2D投影,y表示真实图像,
Figure 575322DEST_PATH_IMAGE035
表示
Figure 542141DEST_PATH_IMAGE033
Figure 923575DEST_PATH_IMAGE034
输入到生成器G生成的图像,
Figure 608635DEST_PATH_IMAGE031
表示由高斯分布匹配椭圆人脸生成的高斯权重;引入的注意力机制包括通道注意力和空间注意力;最终的目标函数为:
Figure 959981DEST_PATH_IMAGE036
其中,G表示生成器,D表示鉴别器,
Figure 171520DEST_PATH_IMAGE037
表示GAN模型的损失函数,
Figure 582910DEST_PATH_IMAGE038
表示通过minG和maxD使鉴别器可以准确的判断样本的真伪,以及生成器生成的样本可以通过鉴别器的判别,是个相互博弈的过程;
Figure 755265DEST_PATH_IMAGE039
表示人脸增强损失函数,用于增强图像的面部区域;
Figure 18625DEST_PATH_IMAGE040
表示特征匹配损失,用于保证图像内容的全局一致性;
Figure 225615DEST_PATH_IMAGE041
表示感知重建损失,用于保证图像内容的全局一致性;参数
Figure 73486DEST_PATH_IMAGE042
用于调整以平衡这些损失。
进一步地,在引入的注意力机制中,采用基于鉴别器D的特征匹配损失,特征匹配损失如下:
Figure 592192DEST_PATH_IMAGE043
其中,
Figure 550920DEST_PATH_IMAGE044
是鉴别器D的第i层特征提取器,
Figure 956625DEST_PATH_IMAGE045
代表第i层的元素个数,T是鉴别器D的总层数;然后将生成的图像和真实图像输入到预先训练好的VGG网络中,比较不同层的特征,感知重建损失如下:
Figure 975397DEST_PATH_IMAGE046
Figure 856765DEST_PATH_IMAGE047
表示VGG网络的第i层特征提取器,
Figure 478239DEST_PATH_IMAGE048
表示第i层中的元素数量,
Figure 394243DEST_PATH_IMAGE049
是VGG网络的总层数。
进一步地,将目标人的姿态归一化,具体为:使用训练集中的最大骨段长度来近似骨骼段的真实长度,新姿态的真实骨骼段长度也用同样的方式近似;然后,根据标准骨架和新骨架之间的比例调整图像中显示的骨段的长度;设
Figure 318336DEST_PATH_IMAGE050
表示新姿态的第i个关节坐标,
Figure 60902DEST_PATH_IMAGE051
表示其父关节坐标;
Figure 361434DEST_PATH_IMAGE050
Figure 256577DEST_PATH_IMAGE052
进行调整,其中,
Figure 351572DEST_PATH_IMAGE053
Figure 207533DEST_PATH_IMAGE054
分别表示目标人图像和训练图像中第i个关节与其父关节之间的最大骨段长度。
与现有技术相比,本发明所达到的有益效果:
(1)本发明通过将训练数据转换到UV空间,生成UV图,并以相邻视频帧之间的互补信息来构建并优化3D人体模型;然后将优化后的3D人体模型投影到2D平面,得到保留了原始运动的3D信息的2D投影,并以目标人的姿态驱动优化后的3D人体模型;将保留了原始运动的3D信息的2D投影和训练数据的姿态作为运动图像生成模型的输入,并保存训练好的运动图像生成模型;将目标人的姿态归一化;最后将以目标人的姿态驱动的优化后的3D人体模型的2D投影和归一化后的目标人的姿态作为训练好的运动图像生成模型的输入进行最终的运动迁移,既克服了2D平面图像生成存在的模糊和形状失真等问题,又保证生成的运动图像具有可靠的深度信息、精确的形状和清晰的人脸;
(2)本发明计算负担小、耗时短,主要可以在三个领域得以应用:1)在影视工业领域,该方法可用于模拟真实人物做出具有观赏性和高难度的动作;2)在游戏设计领域,该方法可用于虚拟角色的动作设计;3)在医疗康复领域,该方法可用于合成出有运动障碍的病人的正常运动姿态。
附图说明
图1是本发明实施例中优化3D人体模型的模型框架;
图2是本发明实施例中纹理填充网络结构图;
图3是本发明实施例中3D人体模型的姿态驱动示意图;
图4是本发明实施例中构建的Face-Attention GAN模型框架;
图5是本发明实施例中采用高斯分布匹配椭圆人脸的示意图;
图6是本发明实施例中CBAM注意力机制示意图;
图7是本发明实施例中运动迁移过程的示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
一种3D人体模型驱动的运动迁移方法,包括:以预先拍摄的视频帧为训练数据构建训练数据集,并提取训练数据的姿态;将训练数据转换到UV空间,生成UV图,并以相邻视频帧之间的互补信息来构建并优化3D人体模型;然后将优化后的3D人体模型投影到2D平面,得到保留了原始运动的3D信息的2D投影,并以目标人的姿态驱动优化后的3D人体模型;将保留了原始运动的3D信息的2D投影和训练数据的姿态作为运动图像生成模型的输入,并保存训练好的运动图像生成模型;将目标人的姿态归一化;最后将以目标人的姿态驱动的优化后的3D人体模型的2D投影和归一化后的目标人的姿态作为训练好的运动图像生成模型的输入进行最终的运动迁移。
步骤1、以预先拍摄的视频帧为训练数据构建训练数据集,并提取训练数据的姿态。
为每个人以每秒30帧的速度拍摄一个平均长度为3分钟的运动视频,训练数据为每个人的视频帧,每个视频帧的分辨率是512×512。这些视频是通过手机或固定位置拍摄的,拍摄距离约为5米。准备好训练数据集后,采用最先进的姿态估计算法OpenPose来提取训练数据集的姿态。
步骤2、利用DensePose将训练数据中的图像的像素转换到UV空间,生成对应的UV图。并以相邻视频帧之间的互补信息来构建并优化3D人体模型。
本实施例基于序列图像的人体模型优化方法,该方法的框架如图1所示。从训练数据中取一组相隔数帧的不同姿态的图像
Figure 187121DEST_PATH_IMAGE001
和对应DensePose生成的UV图,然后通过UV转换生成一组局部纹理图,将生成的局部纹理图
Figure 546558DEST_PATH_IMAGE002
输入到纹理填充网络中。
其中纹理填充网络如图2所示,最后生成一个比较完整的具有多姿态纹理信息的纹理图
Figure 937088DEST_PATH_IMAGE003
,用
Figure 280345DEST_PATH_IMAGE003
还原的一组“原始图像”
Figure 922679DEST_PATH_IMAGE004
与一组真实图像
Figure 41682DEST_PATH_IMAGE001
进行L1损失计算,以促使网络生成更详细的纹理图,最终用该纹理图生成3D人体模型,实现对3D人体模型的优化。对应的损失函数表示为:
Figure 478480DEST_PATH_IMAGE005
其中,
Figure 309033DEST_PATH_IMAGE006
Figure 614112DEST_PATH_IMAGE004
由纹理图
Figure 948142DEST_PATH_IMAGE003
还原得到,n表示还原的“原始图像”的个数,纹理图
Figure 696786DEST_PATH_IMAGE003
由以下公式获得:
Figure 749055DEST_PATH_IMAGE007
Figure 733192DEST_PATH_IMAGE008
表示局部纹理图
Figure 577520DEST_PATH_IMAGE002
的总个数,
Figure 356120DEST_PATH_IMAGE009
表示由纹理填充网络生成的概率图,它预测了
Figure 161265DEST_PATH_IMAGE003
上的像素点来自对应位置的
Figure 57415DEST_PATH_IMAGE002
上像素点的概率;
Figure 631616DEST_PATH_IMAGE009
由以下公式获得:
Figure 705751DEST_PATH_IMAGE010
其中,
Figure 732613DEST_PATH_IMAGE011
表示
Figure 58552DEST_PATH_IMAGE012
的第j行和第k列的元素,
Figure 362625DEST_PATH_IMAGE013
表示
Figure 483028DEST_PATH_IMAGE014
的第j行第k列的元素值,
Figure 262765DEST_PATH_IMAGE015
Figure 251450DEST_PATH_IMAGE016
分别表示其中的一个元素值,
Figure 534664DEST_PATH_IMAGE014
表示解码器的输出,
Figure 357126DEST_PATH_IMAGE017
表示解码器输出的通道数,
Figure 466902DEST_PATH_IMAGE018
表示放大模块的放大系数;特别说明,还原的“原始图像”的个数n与局部纹理图
Figure 400223DEST_PATH_IMAGE002
的总个数
Figure 396998DEST_PATH_IMAGE008
和解码器输出的通道数
Figure 390362DEST_PATH_IMAGE017
在数量上是相等的。
根据上述方法实现对3D人体模型的优化。
步骤3、将优化后的3D人体模型投影到2D平面以保留原始运动的3D信息,同时本实施例设计一种3D人体模型的姿态驱动方法。该方法如图3所示,通过HMR预测3D人体模型的姿态,并将预测的姿态传递3D人体模型,从而实现对3D人体模型的驱动。便于直观感受用可视化的骨架图表示3D人体模型的姿态。
步骤4、将2D投影和训练数据的姿态作为运动图像生成模型的输入,并保存训练好的模型。
本实施例提出了一个运动图像生成模型来进行最终的运动迁移,运动图像生成模型定义为Face-Attention GAN模型;Face-Attention GAN模型以GAN模型为基础,使用高斯分布来匹配椭圆人脸区域,并配置人脸增强损失函数,同时引入注意力机制,该模型以步骤3中得到的2D投影和步骤1中提取的姿态作为模型的输入,模型框架如图4所示,其中GAN的对抗损失如下:
Figure 613533DEST_PATH_IMAGE055
其中, G表示生成器,D表示鉴别器,
Figure 960332DEST_PATH_IMAGE033
表示姿态,
Figure 952558DEST_PATH_IMAGE034
表示3D人体模型的2D投影,y表示真实图像,
Figure 116824DEST_PATH_IMAGE035
表示
Figure 951924DEST_PATH_IMAGE033
Figure 961469DEST_PATH_IMAGE034
输入到生成器G生成的图像
Figure 339360DEST_PATH_IMAGE056
Figure 517270DEST_PATH_IMAGE057
的作用是保证鉴别器的基础判断能力,它越大,意味着
Figure 980612DEST_PATH_IMAGE058
越大,即鉴别器越能准确地将真实样本识别为真实样本,
Figure 652902DEST_PATH_IMAGE059
的作用是保证鉴别器能够区分出虚假样本,它越大,意味着
Figure 885300DEST_PATH_IMAGE060
越小,即鉴别器越能够正确区分虚假样本。
通过设计高斯分布的均值和协方差矩阵来实现使用高斯分布匹配椭圆人脸区域,包括:图像面部区域的位置由姿态估计算法OpenPose确定,
Figure 860209DEST_PATH_IMAGE019
是鼻子、眼睛和耳朵的位置;椭圆的中心被设置为鼻子
Figure 686214DEST_PATH_IMAGE020
的位置;椭圆的两个轴是协方差矩阵的特征向量,轴的长度是协方差矩阵的特征值;如图5所示,设定a和b是椭圆的两个轴,a和b都是单位向量,并且满足以下条件:
Figure 303140DEST_PATH_IMAGE021
其中,
Figure 124466DEST_PATH_IMAGE022
是b的两个元素,特征向量a和b与协方差矩阵∑之间的关系如下:
Figure 926068DEST_PATH_IMAGE023
其中,
Figure 832845DEST_PATH_IMAGE024
Figure 987882DEST_PATH_IMAGE026
Figure 303195DEST_PATH_IMAGE025
是a对应的特征值,
Figure 885486DEST_PATH_IMAGE028
是b对应的特征值,
Figure 404192DEST_PATH_IMAGE029
是椭圆的轴长,σ是缩放系数,a和b正交,
Figure 362921DEST_PATH_IMAGE030
必然可逆;在以
Figure 158838DEST_PATH_IMAGE020
为均值,
Figure 52976DEST_PATH_IMAGE061
为协方差的高斯分布中,在(1,1),(1,512),(512,1),(512,512)四个点构建的矩形区域内以距离间隔1均匀采样,获得面部增强高斯权重
Figure 934345DEST_PATH_IMAGE031
,并以生成的高斯权重
Figure 431185DEST_PATH_IMAGE031
来定义人脸增强损失函数;
设计的人脸增强损失函数如下:
Figure 206243DEST_PATH_IMAGE032
其中,
Figure 395916DEST_PATH_IMAGE033
表示姿态,
Figure 138482DEST_PATH_IMAGE034
表示3D人体模型的2D投影,y表示真实图像,
Figure 439013DEST_PATH_IMAGE035
表示
Figure 943944DEST_PATH_IMAGE033
Figure 429152DEST_PATH_IMAGE034
输入到生成器G生成的图像
Figure 550691DEST_PATH_IMAGE056
Figure 123755DEST_PATH_IMAGE031
表示由高斯分布匹配椭圆人脸生成的高斯权重。
并在模型中引入注意力机制,该注意力机制结构如图6所示,由通道注意力和空间注意力结合而成。
为了进一步细化细节,采用了基于鉴别器D的特征匹配损失,特征匹配损失如下:
Figure 889717DEST_PATH_IMAGE043
其中,
Figure 155613DEST_PATH_IMAGE044
是鉴别器D的第i层特征提取器,
Figure 498870DEST_PATH_IMAGE045
代表第i层的元素个数,T是鉴别器D的总层数。
然后将生成的图像和真实图像输入到预先训练好的VGG网络中,比较不同层的特征。感知重建损失如下所示:
Figure 265838DEST_PATH_IMAGE046
其中,
Figure 10940DEST_PATH_IMAGE047
表示VGG网络的第i层特征提取器,
Figure 821639DEST_PATH_IMAGE048
表示第i层中的元素数量,N是VGG网络的总层数。
最终的目标函数为:
Figure 652191DEST_PATH_IMAGE036
其中,参数
Figure 567058DEST_PATH_IMAGE042
用于调整以平衡这些损失,G表示生成器,D表示鉴别器,
Figure 556879DEST_PATH_IMAGE037
表示GAN的损失函数,
Figure 430158DEST_PATH_IMAGE038
表示通过minG和maxD使鉴别器可以准确的判断样本的真伪,以及生成器生成的样本可以通过鉴别器的判别,是个相互博弈的过程。
Figure 482427DEST_PATH_IMAGE039
表示人脸增强损失函数,用于增强图像的面部区域。
Figure 341930DEST_PATH_IMAGE040
表示特征匹配损失,用于保证图像内容的全局一致性。
Figure 796045DEST_PATH_IMAGE041
表示感知重建损失,用于保证图像内容的全局一致性。
步骤5、本实施例中,将目标人的姿态归一化。使用训练集中的最大骨段长度来近似骨骼段的真实长度,新姿态的真实骨骼段长度也用同样的方式近似;然后,根据标准骨架和新骨架之间的比例调整图像中显示的骨段的长度;设
Figure 840224DEST_PATH_IMAGE050
表示新姿态的第i个关节坐标,
Figure 504424DEST_PATH_IMAGE051
表示其父关节坐标;
Figure 292251DEST_PATH_IMAGE050
Figure 866452DEST_PATH_IMAGE052
进行调整,其中,
Figure 189855DEST_PATH_IMAGE053
Figure 216717DEST_PATH_IMAGE054
分别表示目标人图像和训练图像中第i个关节与其父关节之间的最大骨段长度。
步骤6、将以目标人姿态驱动的优化后3D人体模型的2D投影与归一化后的目标人姿态输入到训练好的运动图像生成模型来进行最终的运动迁移,运动迁移过程包括新骨架的姿态归一化和目标人物图像的生成,如图7所示。
本发明通过将训练数据转换到UV空间,生成UV图,并以相邻视频帧之间的互补信息来构建并优化3D人体模型;然后将优化后的3D人体模型投影到2D平面以保留原始运动的3D信息,并实现了以目标姿态驱动优化后的3D人体模型;将2D投影和训练数据的姿态作为预训练模型的输入,并保存训练好的模型;然后将目标人的姿态归一化;最后以目标人姿态驱动的优化后3D人体模型的2D投影和归一化后的目标人姿态作为训练好的运动图像生成模型的输入进行最终的运动迁移,既克服了2D平面图像生成存在的模糊和形状失真等问题,又保证生成的运动图像具有可靠的深度信息、精确的形状和清晰的人脸;本发明计算负担小、耗时短,主要可以在三个领域得以应用:(1)在影视工业领域,该方法可用于模拟真实人物做出具有观赏性和高难度的动作;(2)在游戏设计领域,该方法可用于虚拟角色的动作设计;(3)在医疗康复领域,该方法可用于合成出有运动障碍的病人的正常运动姿态。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种3D人体模型驱动的运动迁移方法,其特征在于,包括:
以预先拍摄的视频帧为训练数据构建训练数据集,并提取训练数据的姿态;
将训练数据转换到UV空间,生成UV图,并以相邻视频帧之间的互补信息来构建并优化3D人体模型;
然后将优化后的3D人体模型投影到2D平面,得到保留了原始运动的3D信息的2D投影,并以目标人的姿态驱动优化后的3D人体模型;
将保留了原始运动的3D信息的2D投影和训练数据的姿态作为运动图像生成模型的输入,并保存训练好的运动图像生成模型;
将目标人的姿态归一化;
最后将以目标人的姿态驱动的优化后的3D人体模型的2D投影和归一化后的目标人的姿态作为训练好的运动图像生成模型的输入进行最终的运动迁移;
其中,所述运动图像生成模型定义为Face-Attention GAN模型;Face-Attention GAN模型以GAN模型为基础,使用高斯分布来匹配椭圆人脸区域,并配置人脸增强损失函数,同时引入注意力机制,其中:
通过设计均值和协方差矩阵来实现使用高斯分布匹配椭圆人脸区域,包括:图像面部区域的位置由姿态估计算法OpenPose确定,
Figure 294515DEST_PATH_IMAGE001
是鼻子、眼睛和耳朵的位置;椭圆的中心被设置为鼻子
Figure 261334DEST_PATH_IMAGE002
的位置;椭圆的两个轴是协方差矩阵的特征向量,轴的长度是协方差矩阵的特征值;设定a和b是椭圆的两个轴,a和b都是单位向量,并且满足以下公式:
Figure DEST_PATH_IMAGE003
其中,
Figure 236243DEST_PATH_IMAGE004
是b的两个元素,特征向量a和b与协方差矩阵∑之间的关系如下:
Figure 921302DEST_PATH_IMAGE005
其中,
Figure DEST_PATH_IMAGE006
Figure 256338DEST_PATH_IMAGE007
是a对应的特征值,
Figure 343242DEST_PATH_IMAGE008
Figure 20211DEST_PATH_IMAGE010
是b对应的特征值,
Figure 926987DEST_PATH_IMAGE011
是椭圆的轴长,σ是缩放系数,a和b正交,
Figure 82025DEST_PATH_IMAGE012
必然可逆;在以
Figure 272704DEST_PATH_IMAGE002
为均值,∑为协方差的高斯分布中,在(1,1),(1,512),(512,1),(512,512)四个点构建的矩形区域内以距离间隔1均匀采样,获得面部增强高斯权重
Figure 120574DEST_PATH_IMAGE013
,并以生成的高斯权重
Figure 780226DEST_PATH_IMAGE013
来定义人脸增强损失函数;
人脸增强损失函数如下:
Figure 473375DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE015
表示姿态,
Figure 738135DEST_PATH_IMAGE016
表示3D人体模型的2D投影,y表示真实图像,
Figure 6174DEST_PATH_IMAGE017
表示
Figure 887542DEST_PATH_IMAGE015
Figure 649962DEST_PATH_IMAGE016
输入到生成器G生成的图像,
Figure 300386DEST_PATH_IMAGE013
表示由高斯分布匹配椭圆人脸生成的高斯权重;
引入的注意力机制包括通道注意力和空间注意力;最终的目标函数为:
Figure 224480DEST_PATH_IMAGE018
其中,G表示生成器,D表示鉴别器,
Figure 858723DEST_PATH_IMAGE019
表示GAN模型的损失函数,
Figure DEST_PATH_IMAGE020
表示通过minG和maxD使鉴别器可以准确的判断样本的真伪,以及生成器生成的样本可以通过鉴别器的判别,是个相互博弈的过程;
Figure 877364DEST_PATH_IMAGE021
表示人脸增强损失函数,用于增强图像的面部区域;
Figure 913453DEST_PATH_IMAGE022
表示特征匹配损失,用于保证图像内容的全局一致性;
Figure 742869DEST_PATH_IMAGE023
表示感知重建损失,用于保证图像内容的全局一致性;参数
Figure 864408DEST_PATH_IMAGE024
用于调整以平衡这些损失。
2.根据权利要求1所述的3D人体模型驱动的运动迁移方法,其特征在于,采用姿态估计算法OpenPose提取训练数据的姿态。
3.根据权利要求1所述的3D人体模型驱动的运动迁移方法,其特征在于,利用DensePose将训练数据中的图像的像素转换到UV空间,生成对应的UV图,并以相邻视频帧之间的互补信息来构建并优化3D人体模型,包括:
从训练数据中取一组相隔数帧的不同姿态的图像
Figure 968631DEST_PATH_IMAGE025
和对应DensePose生成的UV图,然后通过UV转换生成一组局部纹理图
Figure 577335DEST_PATH_IMAGE026
,将生成的局部纹理图
Figure 108811DEST_PATH_IMAGE026
输入到纹理填充网络中,生成一个具有多姿态纹理信息的纹理图
Figure 452067DEST_PATH_IMAGE027
,并通过损失函数对用纹理图
Figure 94401DEST_PATH_IMAGE027
还原的一组“原始图像”
Figure 839503DEST_PATH_IMAGE028
与一组真实图像
Figure 541880DEST_PATH_IMAGE025
进行损失计算,实现对3D人体模型的优化。
4.根据权利要求3所述的3D人体模型驱动的运动迁移方法,其特征在于,所述损失函数表示为:
Figure 356121DEST_PATH_IMAGE029
其中,
Figure 802146DEST_PATH_IMAGE030
Figure 136176DEST_PATH_IMAGE028
由纹理图
Figure 9454DEST_PATH_IMAGE027
还原得到,n表示还原的“原始图像”的个数,纹理图
Figure 327303DEST_PATH_IMAGE027
由以下公式获得:
Figure 295127DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
表示局部纹理图
Figure 483663DEST_PATH_IMAGE026
的总个数,
Figure 527843DEST_PATH_IMAGE033
表示由纹理填充网络生成的概率图,它预测了
Figure 332988DEST_PATH_IMAGE027
上的像素点来自对应位置的
Figure 120815DEST_PATH_IMAGE026
上像素点的概率;
Figure 678704DEST_PATH_IMAGE033
由以下公式获得:
Figure 893785DEST_PATH_IMAGE034
其中,
Figure DEST_PATH_IMAGE035
表示
Figure 389488DEST_PATH_IMAGE036
的第j行和第k列的元素,
Figure 981007DEST_PATH_IMAGE037
表示
Figure 144135DEST_PATH_IMAGE038
的第j行第k列的元素值,
Figure DEST_PATH_IMAGE039
Figure 513805DEST_PATH_IMAGE040
分别表示其中的一个元素值,
Figure 27963DEST_PATH_IMAGE038
表示解码器的输出,
Figure 157593DEST_PATH_IMAGE041
表示解码器输出的通道数,
Figure 175228DEST_PATH_IMAGE042
表示放大模块的放大系数;还原的“原始图像”的个数n与局部纹理图的总个数
Figure 997690DEST_PATH_IMAGE032
和解码器输出的通道数
Figure 982832DEST_PATH_IMAGE041
在数量上是相等的。
5.根据权利要求1所述的3D人体模型驱动的运动迁移方法,其特征在于,所述将优化后的3D人体模型投影到2D平面,得到保留了原始运动的3D信息的2D投影,并以目标人的姿态驱动优化后的3D人体模型,包括:通过HMR预测3D人体模型的姿态,并将预测的姿态传递给3D人体模型,从而实现对3D人体模型的驱动。
6.根据权利要求1所述的3D人体模型驱动的运动迁移方法,其特征在于,在引入的注意力机制中,采用基于鉴别器D的特征匹配损失,特征匹配损失如下:
Figure 916153DEST_PATH_IMAGE043
其中,
Figure 53874DEST_PATH_IMAGE044
是鉴别器D的第i层特征提取器,
Figure 47238DEST_PATH_IMAGE045
代表第i层的元素个数,T是鉴别器D的总层数;
然后将生成的图像和真实图像输入到预先训练好的VGG网络中,比较不同层的特征,感知重建损失如下:
Figure 270408DEST_PATH_IMAGE046
其中,
Figure 741841DEST_PATH_IMAGE047
表示VGG网络的第i层特征提取器,
Figure 6773DEST_PATH_IMAGE048
表示第i层中的元素数量,N是VGG网络的总层数。
7.根据权利要求1所述的3D人体模型驱动的运动迁移方法,其特征在于,将目标人的姿态归一化,具体为:使用训练集中的最大骨段长度来近似骨骼段的真实长度,新姿态的真实骨骼段长度也用同样的方式近似;然后,根据标准骨架和新骨架之间的比例调整图像中显示的骨段的长度;设
Figure DEST_PATH_IMAGE049
表示新姿态的第i个关节坐标,
Figure 905459DEST_PATH_IMAGE050
表示其父关节坐标;
Figure 350347DEST_PATH_IMAGE049
Figure 625470DEST_PATH_IMAGE051
进行调整,其中,
Figure 987050DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
分别表示目标人图像和训练图像中第i个关节与其父关节之间的最大骨段长度。
CN202210708260.9A 2022-06-22 2022-06-22 一种3d人体模型驱动的运动迁移方法 Active CN114783039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210708260.9A CN114783039B (zh) 2022-06-22 2022-06-22 一种3d人体模型驱动的运动迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210708260.9A CN114783039B (zh) 2022-06-22 2022-06-22 一种3d人体模型驱动的运动迁移方法

Publications (2)

Publication Number Publication Date
CN114783039A CN114783039A (zh) 2022-07-22
CN114783039B true CN114783039B (zh) 2022-09-16

Family

ID=82422416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210708260.9A Active CN114783039B (zh) 2022-06-22 2022-06-22 一种3d人体模型驱动的运动迁移方法

Country Status (1)

Country Link
CN (1) CN114783039B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071831B (zh) * 2023-03-20 2023-06-20 南京信息工程大学 一种基于uv空间变换的人体图像生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640172A (zh) * 2020-05-08 2020-09-08 大连理工大学 一种基于生成对抗网络的姿态迁移方法
CN111724414A (zh) * 2020-06-23 2020-09-29 宁夏大学 一种基于3d姿态估计的篮球运动分析方法
CN111797753A (zh) * 2020-06-29 2020-10-20 北京灵汐科技有限公司 图像驱动模型的训练、图像生成方法、装置、设备及介质
CN112215116A (zh) * 2020-09-30 2021-01-12 江苏大学 一种移动式面向2d图像的3d河蟹实时检测方法
CN112651316A (zh) * 2020-12-18 2021-04-13 上海交通大学 二维和三维多人姿态估计***及方法
CN114612614A (zh) * 2022-03-09 2022-06-10 北京大甜绵白糖科技有限公司 人体模型的重建方法、装置、计算机设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161200A (zh) * 2019-12-22 2020-05-15 天津大学 基于注意力机制的人体姿态迁移方法
CN114049652A (zh) * 2021-11-05 2022-02-15 成都艾特能电气科技有限责任公司 一种基于动作驱动的人体姿态迁移方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640172A (zh) * 2020-05-08 2020-09-08 大连理工大学 一种基于生成对抗网络的姿态迁移方法
CN111724414A (zh) * 2020-06-23 2020-09-29 宁夏大学 一种基于3d姿态估计的篮球运动分析方法
CN111797753A (zh) * 2020-06-29 2020-10-20 北京灵汐科技有限公司 图像驱动模型的训练、图像生成方法、装置、设备及介质
CN112215116A (zh) * 2020-09-30 2021-01-12 江苏大学 一种移动式面向2d图像的3d河蟹实时检测方法
CN112651316A (zh) * 2020-12-18 2021-04-13 上海交通大学 二维和三维多人姿态估计***及方法
CN114612614A (zh) * 2022-03-09 2022-06-10 北京大甜绵白糖科技有限公司 人体模型的重建方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
3DMM与GAN结合的实时人脸表情迁移方法;高翔等;《计算机应用与软件》;20200412(第04期);全文 *
VIBE: Video Inference for Human Body Pose and Shape Estimation;Muhammed Kocabas 等;《arXiv:1912.05656 [cs.CV]》;20200615;全文 *

Also Published As

Publication number Publication date
CN114783039A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN112887698B (zh) 基于神经辐射场的高质量人脸语音驱动方法
CN110827193B (zh) 基于多通道特征的全景视频显著性检测方法
CN109376582A (zh) 一种基于生成对抗网络的交互式人脸卡通方法
CN108830913B (zh) 基于用户颜色引导的语义级别线稿上色方法
CN108776983A (zh) 基于重建网络的人脸重建方法和装置、设备、介质、产品
CN110796593A (zh) 基于人工智能的图像处理方法、装置、介质及电子设备
CN110175986A (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110853119B (zh) 一种鲁棒的基于参考图片的妆容迁移方法
WO2020177214A1 (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN108363973A (zh) 一种无约束的3d表情迁移方法
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及***
CN115914505B (zh) 基于语音驱动数字人模型的视频生成方法及***
CN117496072B (zh) 一种三维数字人生成和交互方法及***
CN110363770A (zh) 一种边缘引导式红外语义分割模型的训练方法及装置
CN114783039B (zh) 一种3d人体模型驱动的运动迁移方法
CN115984485A (zh) 一种基于自然文本描述的高保真三维人脸模型生成方法
CN113076918B (zh) 基于视频的人脸表情克隆方法
CN114399829A (zh) 基于生成式对抗网络的姿态迁移方法、电子设备及介质
CN113947520A (zh) 一种基于生成对抗网络实现人脸妆容转换的方法
CN116704084B (zh) 人脸动画生成网络的训练方法、人脸动画生成方法及装置
CN117333604A (zh) 一种基于语义感知神经辐射场的人物面部重演方法
CN116825127A (zh) 基于神经场的语音驱动数字人生成方法
CN116863069A (zh) 三维光场人脸内容生成方法、电子设备及存储介质
Kang et al. Image-to-image translation method for game-character face generation
Cao et al. Guided cascaded super-resolution network for face image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant