CN118138833A - 数字人构建方法、装置及计算机设备 - Google Patents
数字人构建方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN118138833A CN118138833A CN202410552757.5A CN202410552757A CN118138833A CN 118138833 A CN118138833 A CN 118138833A CN 202410552757 A CN202410552757 A CN 202410552757A CN 118138833 A CN118138833 A CN 118138833A
- Authority
- CN
- China
- Prior art keywords
- person
- digital person
- scene
- digital
- video frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 40
- 230000033001 locomotion Effects 0.000 claims abstract description 97
- 238000013528 artificial neural network Methods 0.000 claims abstract description 58
- 230000006870 function Effects 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 17
- 238000013139 quantization Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000003708 edge detection Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 12
- 230000003044 adaptive effect Effects 0.000 abstract description 2
- 230000001105 regulatory effect Effects 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 description 24
- 230000003993 interaction Effects 0.000 description 3
- 238000005336 cracking Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及数字人技术领域,具体涉及数字人构建方法、装置及计算机设备,包括以下步骤:获取用于构建数字人的真人运动视频,以及用于承载数字人的场景视频;对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取,作为数字人的体型外观特征和运动姿态特征;利用孪生神经网络,在场景视频中,将所述数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人。本发明利用孪生神经网络,在场景视频中,将所述数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人,并利用自适应函数对融于场景的数字人进行自适应调控,提升数字人构建的效果。
Description
技术领域
本发明涉及数字人技术领域,具体涉及数字人构建方法、装置及计算机设备。
背景技术
数字人指存在于非物理世界中,由计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力 交互能力等)的综合产物。虚拟数字人可按人格象征和图形维度划分,亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块构成虚拟数字人通用***框架。其中,又以数字人的交互应用最广,能够应用至新媒体的各行各业,且简单高效。
目前数字人的构建,通常只是对人物体型、姿态的构建,缺乏场景融合考虑,导致生成的数字人特征独立,难以与场景呈现较好的融合效果,影响数字人的构建效果。
发明内容
本发明的目的在于提供数字人构建方法、装置及计算机设备,以解决现有技术中只是对人物体型、姿态的构建,缺乏场景融合考虑,导致生成的数字人特征独立,难以与场景呈现较好的融合效果,影响数字人的构建效果的技术问题。
为解决上述技术问题,本发明具体提供下述技术方案:
在本发明的第一方面,本发明提供了一种数字人构建方法,包括以下步骤:
获取用于构建数字人的真人运动视频,以及用于承载数字人的场景视频,其中,所述真人运动视频包含多个真人运动视频帧,所述场景视频包含多个场景视频帧;
对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取,作为数字人的体型外观特征和运动姿态特征;
利用孪生神经网络,在场景视频中,将所述数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人。
作为本发明的一种优选方案,所述数字人的体型外观特征的提取方法包括:
将各个真人运动视频帧进行灰度化处理,得到真人运动视频帧的灰度图像;
对所述灰度图像进行Hog特征检测,在灰度图像中形成真人体型包围盒;
通过Canny边缘检测和特征点搜索方法,在所述真人体型包围盒中,自动提取出真人体型外观特征;
将真人体型外观特征作为所述数字人的体型外观特征。
作为本发明的一种优选方案,所述数字人的运动姿态特征的提取方法包括:
利用时空图卷积网络ST-GCN,基于多个真人运动视频帧进行真人运动姿态估计,得到真人运动姿态特征;
将所述真人运动姿态特征作为所述数字人的运动姿态特征。
作为本发明的一种优选方案,所述数字人重建方法包括:
将数字人的体型外观特征和运动姿态特征,以及场景视频帧,作为孪生神经网络中第一神经网络的输入项,由孪生神经网络中第一神经网络输出包含第一数字人的重建场景视频帧;
将数字人的体型外观特征和运动姿态特征,作为孪生神经网络中第二神经网络的输入项,由孪生神经网络中第二神经网络输出第二数字人;
将第一数字人和第二数字人的均方误差,以及场景视频帧与重建场景视频帧的均方误差进行加权组合,构成孪生神经网络的损失函数;
基于所述损失函数,对所述孪生神经网络进行训练,得到用于重建融合于场景的数字人重建模型;
所述数字人重建模型为:;式中,H(G1)为包含第一数字人的重建场景视频帧,G1为第一数字人,G2为第二数字人,A为体型外观特征,B为运动姿态特征,C为场景视频帧,net1为第一神经网络,net2为第二神经网络。
作为本发明的一种优选方案,所述损失函数为:Loss=S1*MSE(G1,G2)+S2*MSE(C,H(G1));
式中,Loss为损失函数,S1为第一数字人和第二数字人的均方误差的权重,S2为场景视频帧与重建场景视频帧的均方误差的权重,MSE(G1,G2)为第一数字人和第二数字人的均方误差,MSE(C,H(G1))为场景视频帧与重建场景视频帧的均方误差,H(G1)为包含第一数字人的重建场景视频帧,G1为第一数字人,G2为第二数字人。
作为本发明的一种优选方案,所述权重的构建方法包括:
获取各个场景视频帧间的场景特征变化率;
根据场景特征变化率,利用自适应函数对所述S1和S2进行设置;
其中,;/>;式中,S1为第一数字人和第二数字人的均方误差的权重,S2为场景视频帧与重建场景视频帧的均方误差的权重,p为场景特征变化率,k为常系数。
作为本发明的一种优选方案,所述场景特征变化率的第一种量化方法为利用相关性系数进行量化,所述场景特征变化率为:;式中,p为场景特征变化率,F i 为第i个场景视频帧,F i+1为第i+1个场景视频帧,Pearson(F i , F i+1)为F i 和F i+1的相关性系数,n为场景视频帧的数量。
作为本发明的一种优选方案,所述场景特征变化率的第二种量化方法为利用数据方差进行量化,所述场景特征变化率为:;
式中,p为场景特征变化率,F i 为第i个场景视频帧,F i+1为第i+1个场景视频帧,n为场景视频帧的数量。在本发明的第二方面,本发明提供了一种数字人构建装置,应用于所述的一种数字人构建方法,装置包括:
数据获取单元,用于获取用于构建数字人的真人运动视频,以及用于承载数字人的场景视频,其中,所述真人运动视频包含多个真人运动视频帧,所述场景视频包含多个场景视频帧;
特征提取单元,用于对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取,作为数字人的体型外观特征和运动姿态特征;
深度学习单元,用于利用孪生神经网络,在场景视频中,将所述数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人。
在本发明的第三方面,本发明提供了一种计算机设备,包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使计算机设备执行数字人构建方法。
本发明与现有技术相比较具有如下有益效果:
本发明利用孪生神经网络,在场景视频中,将所述数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人,并利用自适应函数对融于场景的数字人进行自适应调控,提升数字人构建的效果。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的数字人构建方法流程图;
图2为本发明实施例提供的数字人构建装置框图;
图3为本发明实施例提供的计算机设备的内部结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在本发明的第一方面,本发明提供了一种数字人构建方法,包括以下步骤:
获取用于构建数字人的真人运动视频,以及用于承载数字人的场景视频,其中,真人运动视频包含多个真人运动视频帧,场景视频包含多个场景视频帧;
对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取,作为数字人的体型外观特征和运动姿态特征;
利用孪生神经网络,在场景视频中,将数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人。
本发明为了提升数字人的真实性,利用真人的体型外观特征和运动姿态特征进行数字人的构建,能够使得数字人更接近与真人,提升数字人构建效果。
本发明通过Canny边缘检测和时空图卷积网络ST-GCN,从真人运动视频中提取出真人的体型外观特征和运动姿态特征。
本发明为了能够使得构建的数字人能够融于场景中,而非单独割裂存在,数字人在场景中存在,更显数字人构建的真实性,孪生神经网络,在场景视频中,将数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人。
具体的,本发明将孪生神经网络中两个神经网络一个用于生成融于场景中的数字人,一个用于生成脱离场景存在的数字人,并将两个数字人的差异性(第一数字人和第二数字人的均方误差)和融合数字人前后的场景差异性(场景视频帧与重建场景视频帧的均方误差)用于构建孪生函数训练的损失函数,使得孪生神经网络构建出的数字人具备真人体型外观特征和运动姿态特征最高真实性同时,与场景视频帧具备最佳融合性。
孪生神经网络的训练目标是损失函数最小化,则一方面对应着两个数字人的差异性(第一数字人和第二数字人的均方误差)最小,因此,融合场景视频帧生成的数字人与脱离场景视频帧生成的数字人具有最高的相似性,脱离场景视频帧生成的数字人只来源于真人体型外观特征和运动姿态特征,因此融合场景视频帧生成的数字人与脱离场景视频帧生成的数字人具有最高的相似性,说明了融合场景视频帧生成的数字人最大程度的保留了真人体型外观特征和运动姿态特征,保证了孪生网络生成的数字人具备真人体型外观特征和运动姿态特征最高真实性。
另一方面对应着融合数字人前后的场景差异性(场景视频帧与重建场景视频帧的均方误差)最小,因此,融合有数字人的场景视频帧和未融合数字人的原始场景视频帧之间具有最高的相似性,因此融合有数字人的场景视频帧对数字人进行最佳图像融合,两者互相包容融为一体,说明了生成的数字人与场景视频帧融合性达到最佳,保证了孪生网络生成的数字人能够与场景视频帧达到最高程度的融合。
进一步的,本发明对两个数字人的差异性(第一数字人和第二数字人的均方误差)和融合数字人前后的场景差异性(场景视频帧与重建场景视频帧的均方误差)设置有自适应权重,能够根据重建场景的变化频繁程度进行自适应重建数字人,具体的:
在重建场景变化频繁程度高时,说明此时场景动态性强,数字人注重仿真人的真实感会造成与场景间割裂的缺陷,构建数字人可注重于保障场景的融合效果,因此,赋予损失函数中两个数字人的差异性(第一数字人和第二数字人的均方误差)部分为高权重,以在训练构建数字人的孪生神经网络时,以两个数字人的差异性(第一数字人和第二数字人的均方误差)最小化为重点,从而实现保障场景融合效果的目的。
在重建场景变化频繁程度低时,说明此时场景较为固定化,构建数字人可注重于保障仿真人的真实性,因此,赋予损失函数中融合数字人前后的场景差异性(场景视频帧与重建场景视频帧的均方误差)部分为高权重,以在训练构建数字人的孪生神经网络时,以融合数字人前后的场景差异性(场景视频帧与重建场景视频帧的均方误差)最小化为重点,从而实现保障孪生网络生成的数字人具备真人体型外观特征和运动姿态特征真实性。
本发明通过Canny边缘检测和时空图卷积网络ST-GCN,从真人运动视频中提取出真人的体型外观特征和运动姿态特征,具体如下:
数字人的体型外观特征的提取方法包括:
将各个真人运动视频帧进行灰度化处理,得到真人运动视频帧的灰度图像;
对灰度图像进行Hog特征检测,在灰度图像中形成真人体型包围盒;
通过Canny边缘检测和特征点搜索方法,在真人体型包围盒中,自动提取出真人体型外观特征;
将真人体型外观特征作为数字人的体型外观特征。
数字人的运动姿态特征的提取方法包括:
利用时空图卷积网络ST-GCN,基于多个真人运动视频帧进行真人运动姿态估计,得到真人运动姿态特征;
将真人运动姿态特征作为数字人的运动姿态特征。
数字人重建方法包括:
将数字人的体型外观特征和运动姿态特征,以及场景视频帧,作为孪生神经网络中第一神经网络的输入项,由孪生神经网络中第一神经网络输出包含第一数字人的重建场景视频帧;
将数字人的体型外观特征和运动姿态特征,作为孪生神经网络中第二神经网络的输入项,由孪生神经网络中第二神经网络输出第二数字人;
将第一数字人和第二数字人的均方误差,以及场景视频帧与重建场景视频帧的均方误差进行加权组合,构成孪生神经网络的损失函数;
基于损失函数,对孪生神经网络进行训练,得到用于重建融合于场景的数字人重建模型;
数字人重建模型为:;
式中,H(G1)为包含第一数字人的重建场景视频帧,G1为第一数字人,G2为第二数字人,A为体型外观特征,B为运动姿态特征,C为场景视频帧,net1为第一神经网络,net2为第二神经网络。损失函数为:
Loss=S1*MSE(G1,G2)+S2*MSE(C,H(G1));
式中,Loss为损失函数,S1为第一数字人和第二数字人的均方误差的权重,S2为场景视频帧与重建场景视频帧的均方误差的权重,MSE(G1,G2)为第一数字人和第二数字人的均方误差,MSE(C,H(G1))为场景视频帧与重建场景视频帧的均方误差,H(G1)为包含第一数字人的重建场景视频帧,G1为第一数字人,G2为第二数字人。
本发明为了能够使得构建的数字人能够融于场景中,而非单独割裂存在,数字人在场景中存在,更显数字人构建的真实性,孪生神经网络,在场景视频中,将数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人。
具体的,本发明将孪生神经网络中两个神经网络一个用于生成融于场景中的数字人,一个用于生成脱离场景存在的数字人,并将两个数字人的差异性(第一数字人和第二数字人的均方误差)和融合数字人前后的场景差异性(场景视频帧与重建场景视频帧的均方误差)用于构建孪生函数训练的损失函数,使得孪生神经网络构建出的数字人具备真人体型外观特征和运动姿态特征最高真实性同时,与场景视频帧具备最佳融合性。
孪生神经网络的训练目标是损失函数最小化,则一方面对应着两个数字人的差异性(第一数字人和第二数字人的均方误差)最小,因此,融合场景视频帧生成的数字人与脱离场景视频帧生成的数字人具有最高的相似性,脱离场景视频帧生成的数字人只来源于真人体型外观特征和运动姿态特征,因此融合场景视频帧生成的数字人与脱离场景视频帧生成的数字人具有最高的相似性,说明了融合场景视频帧生成的数字人最大程度的保留了真人体型外观特征和运动姿态特征,保证了孪生网络生成的数字人具备真人体型外观特征和运动姿态特征最高真实性。
另一方面对应着融合数字人前后的场景差异性(场景视频帧与重建场景视频帧的均方误差)最小,因此,融合有数字人的场景视频帧和未融合数字人的原始场景视频帧之间具有最高的相似性,因此融合有数字人的场景视频帧对数字人进行最佳图像融合,两者互相包容融为一体,说明了生成的数字人与场景视频帧融合性达到最佳,保证了孪生网络生成的数字人能够与场景视频帧达到最高程度的融合。
权重的构建方法包括:
获取各个场景视频帧间的场景特征变化率;
根据场景特征变化率,利用自适应函数对S1和S2进行设置;
其中,;/>;式中,S1为第一数字人和第二数字人的均方误差的权重,S2为场景视频帧与重建场景视频帧的均方误差的权重,p为场景特征变化率,k为常系数。
进一步的,本发明对两个数字人的差异性(第一数字人和第二数字人的均方误差)和融合数字人前后的场景差异性(场景视频帧与重建场景视频帧的均方误差)设置有自适应权重,能够根据重建场景的变化频繁程度进行自适应重建数字人,具体的:
在重建场景变化频繁程度高时,说明此时场景动态性强,数字人注重仿真人的真实感会造成与场景间割裂的缺陷,构建数字人可注重于保障场景的融合效果,因此,赋予损失函数中两个数字人的差异性(第一数字人和第二数字人的均方误差)部分为高权重,以在训练构建数字人的孪生神经网络时,以两个数字人的差异性(第一数字人和第二数字人的均方误差)最小化为重点,从而实现保障场景融合效果的目的。
在重建场景变化频繁程度低时,说明此时场景较为固定化,构建数字人可注重于保障仿真人的真实性,因此,赋予损失函数中融合数字人前后的场景差异性(场景视频帧与重建场景视频帧的均方误差)部分为高权重,以在训练构建数字人的孪生神经网络时,以融合数字人前后的场景差异性(场景视频帧与重建场景视频帧的均方误差)最小化为重点,从而实现保障孪生网络生成的数字人具备真人体型外观特征和运动姿态特征真实性。
第一种,场景特征变化率利用相关性系数进行量化,场景特征变化率为:;式中,p为场景特征变化率,F i 为第i个场景视频帧,F i+1为第i+1个场景视频帧,Pearson(F i , F i+1)为F i 和F i+1的相关性系数,n为场景视频帧的数量。
第二种,场景特征变化率利用数据方差进行量化,场景特征变化率为:;
式中,p为场景特征变化率,F i 为第i个场景视频帧,F i+1为第i+1个场景视频帧,n为场景视频帧的数量。
如图2所示,在本发明的第二方面,本发明提供了一种数字人构建装置,应用于的一种数字人构建方法,装置包括:
数据获取单元,用于获取用于构建数字人的真人运动视频,以及用于承载数字人的场景视频,其中,真人运动视频包含多个真人运动视频帧,场景视频包含多个场景视频帧;
特征提取单元,用于对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取,作为数字人的体型外观特征和运动姿态特征;
深度学习单元,用于利用孪生神经网络,在场景视频中,将数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人。
如图3所示,在本发明的第三方面,本发明提供了一种计算机设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使计算机设备执行数字人构建方法。
本发明利用孪生神经网络,在场景视频中,将数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人,并利用自适应函数对融于场景的数字人进行自适应调控,提升数字人构建的效果。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (10)
1.一种数字人构建方法,其特征在于,包括以下步骤:
获取用于构建数字人的真人运动视频,以及用于承载数字人的场景视频,其中,所述真人运动视频包含多个真人运动视频帧,所述场景视频包含多个场景视频帧;
对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取,作为数字人的体型外观特征和运动姿态特征;
利用孪生神经网络,在场景视频中,将所述数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人。
2.根据权利要求1所述的一种数字人构建方法,其特征在于:所述数字人的体型外观特征的提取方法包括:
将各个真人运动视频帧进行灰度化处理,得到真人运动视频帧的灰度图像;
对所述灰度图像进行Hog特征检测,在灰度图像中形成真人体型包围盒;
通过Canny边缘检测和特征点搜索方法,在所述真人体型包围盒中,自动提取出真人体型外观特征;
将真人体型外观特征作为所述数字人的体型外观特征。
3.根据权利要求1所述的一种数字人构建方法,其特征在于:所述数字人的运动姿态特征的提取方法包括:
利用时空图卷积网络ST-GCN,基于多个真人运动视频帧进行真人运动姿态估计,得到真人运动姿态特征;
将所述真人运动姿态特征作为所述数字人的运动姿态特征。
4.根据权利要求1所述的一种数字人构建方法,其特征在于:所述数字人重建方法包括:
将数字人的体型外观特征和运动姿态特征,以及场景视频帧,作为孪生神经网络中第一神经网络的输入项,由孪生神经网络中第一神经网络输出包含第一数字人的重建场景视频帧;
将数字人的体型外观特征和运动姿态特征,作为孪生神经网络中第二神经网络的输入项,由孪生神经网络中第二神经网络输出第二数字人;
将第一数字人和第二数字人的均方误差,以及场景视频帧与重建场景视频帧的均方误差进行加权组合,构成孪生神经网络的损失函数;
基于所述损失函数,对所述孪生神经网络进行训练,得到用于重建融合于场景的数字人重建模型;
所述数字人重建模型为:;式中,H(G1)为包含第一数字人的重建场景视频帧,G1为第一数字人,G2为第二数字人,A为体型外观特征,B为运动姿态特征,C为场景视频帧,net1为第一神经网络,net2为第二神经网络。
5.根据权利要求4所述的一种数字人构建方法,其特征在于:所述损失函数为:
Loss=S1*MSE(G1,G2)+S2*MSE(C,H(G1));
式中,Loss为损失函数,S1为第一数字人和第二数字人的均方误差的权重,S2为场景视频帧与重建场景视频帧的均方误差的权重,MSE(G1,G2)为第一数字人和第二数字人的均方误差,MSE(C,H(G1))为场景视频帧与重建场景视频帧的均方误差,H(G1)为包含第一数字人的重建场景视频帧,G1为第一数字人,G2为第二数字人。
6.根据权利要求5所述的一种数字人构建方法,其特征在于:所述权重的构建方法包括:
获取各个场景视频帧间的场景特征变化率;
根据场景特征变化率,利用自适应函数对所述S1和S2进行设置;
其中,;/>;式中,S1为第一数字人和第二数字人的均方误差的权重,S2为场景视频帧与重建场景视频帧的均方误差的权重,p为场景特征变化率,k为常系数。
7.根据权利要求6所述的一种数字人构建方法,其特征在于,所述场景特征变化率的第一种量化方法为利用相关性系数进行量化,所述场景特征变化率为:;式中,p为场景特征变化率,F i 为第i个场景视频帧,F i+1为第i+1个场景视频帧,Pearson(F i , F i+1)为F i 和F i+1的相关性系数,n为场景视频帧的数量。
8.根据权利要求6所述的一种数字人构建方法,其特征在于,所述场景特征变化率的第二种量化方法为利用数据方差进行量化,所述场景特征变化率为:;式中,p为场景特征变化率,F i 为第i个场景视频帧,F i+1为第i+1个场景视频帧,n为场景视频帧的数量。
9.一种数字人构建装置,其特征在于,应用于权利要求1-8任一项所述的一种数字人构建方法,装置包括:
数据获取单元,用于获取用于构建数字人的真人运动视频,以及用于承载数字人的场景视频,其中,所述真人运动视频包含多个真人运动视频帧,所述场景视频包含多个场景视频帧;
特征提取单元,用于对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取,作为数字人的体型外观特征和运动姿态特征;
深度学习单元,用于利用孪生神经网络,在场景视频中,将所述数字人的体型外观特征和运动姿态特征进行数字人重建,得到融合于场景的数字人。
10.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使计算机设备执行权利要求 1-8 任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410552757.5A CN118138833A (zh) | 2024-05-07 | 2024-05-07 | 数字人构建方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410552757.5A CN118138833A (zh) | 2024-05-07 | 2024-05-07 | 数字人构建方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118138833A true CN118138833A (zh) | 2024-06-04 |
Family
ID=91236102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410552757.5A Pending CN118138833A (zh) | 2024-05-07 | 2024-05-07 | 数字人构建方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118138833A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113473159A (zh) * | 2020-03-11 | 2021-10-01 | 广州虎牙科技有限公司 | 数字人直播方法、装置、直播管理设备及可读存储介质 |
CN114265543A (zh) * | 2021-12-29 | 2022-04-01 | 神思电子技术股份有限公司 | 一种虚拟数字人视线追随交互方法 |
CN116189034A (zh) * | 2022-12-19 | 2023-05-30 | 广州欢聚时代信息科技有限公司 | 头部姿态驱动方法及其装置、设备、介质、产品 |
CN117274501A (zh) * | 2023-11-16 | 2023-12-22 | 杭州新畅元科技有限公司 | 一种可驱动数字人建模方法、装置、设备及介质 |
-
2024
- 2024-05-07 CN CN202410552757.5A patent/CN118138833A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113473159A (zh) * | 2020-03-11 | 2021-10-01 | 广州虎牙科技有限公司 | 数字人直播方法、装置、直播管理设备及可读存储介质 |
CN114265543A (zh) * | 2021-12-29 | 2022-04-01 | 神思电子技术股份有限公司 | 一种虚拟数字人视线追随交互方法 |
CN116189034A (zh) * | 2022-12-19 | 2023-05-30 | 广州欢聚时代信息科技有限公司 | 头部姿态驱动方法及其装置、设备、介质、产品 |
CN117274501A (zh) * | 2023-11-16 | 2023-12-22 | 杭州新畅元科技有限公司 | 一种可驱动数字人建模方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378697B (zh) | 一种基于卷积神经网络的说话人脸视频生成方法及装置 | |
CN110457994B (zh) | 人脸图像生成方法及装置、存储介质、计算机设备 | |
CN111145322B (zh) | 用于驱动虚拟形象的方法、设备和计算机可读存储介质 | |
US11727717B2 (en) | Data-driven, photorealistic social face-trait encoding, prediction, and manipulation using deep neural networks | |
CN112995652B (zh) | 视频质量评估方法及装置 | |
CN110798690A (zh) | 视频解码方法、环路滤波模型的训练方法、装置和设备 | |
CN115914505B (zh) | 基于语音驱动数字人模型的视频生成方法及*** | |
CN114663539B (zh) | 一种基于音频驱动的口罩下2d人脸还原技术 | |
CN116721190A (zh) | 一种语音驱动三维人脸动画生成方法 | |
Zhang et al. | A survey on multimodal-guided visual content synthesis | |
CN117171392A (zh) | 一种基于神经辐射场和隐属性的虚拟主播生成方法与*** | |
CN111738957A (zh) | 图像智能美化方法、***、电子设备及存储介质 | |
CN116980697A (zh) | 一种说话人脸视频生成方法、装置、设备及存储介质 | |
CN116758189A (zh) | 基于语音驱动的数字人图像生成方法、装置及存储介质 | |
CN118138833A (zh) | 数字人构建方法、装置及计算机设备 | |
CN116403135A (zh) | 一种基于音视频特征的视频显著性预测方法和*** | |
CN115631285A (zh) | 基于统一驱动的人脸渲染方法、装置、设备及存储介质 | |
CN109657589B (zh) | 一种基于人体交互动作的体验者动作生成方法 | |
CN114694065A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
Chen et al. | LPIPS-AttnWav2Lip: Generic audio-driven lip synchronization for talking head generation in the wild | |
Maniyar et al. | Persons facial image synthesis from audio with Generative Adversarial Networks | |
Cakir et al. | Audio to video: Generating a talking fake agent | |
CN116843806B (zh) | 人脸动画合成方法、***和存储介质 | |
CN112439200B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN116958451B (zh) | 模型处理、图像生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |