CN118138833A

CN118138833A - 数字人构建方法、装置及计算机设备

Info

Publication number: CN118138833A
Application number: CN202410552757.5A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shenzhen Tonggan Technology Co ltd; Shenzhen Weier Vision Technology Co ltd
Current assignee: Shenzhen Tonggan Technology Co ltd; Shenzhen Weier Vision Technology Co ltd
Priority date: 2024-05-07
Filing date: 2024-05-07
Publication date: 2024-06-04

Abstract

本发明涉及数字人技术领域，具体涉及数字人构建方法、装置及计算机设备，包括以下步骤：获取用于构建数字人的真人运动视频，以及用于承载数字人的场景视频；对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取，作为数字人的体型外观特征和运动姿态特征；利用孪生神经网络，在场景视频中，将所述数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人。本发明利用孪生神经网络，在场景视频中，将所述数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人，并利用自适应函数对融于场景的数字人进行自适应调控，提升数字人构建的效果。

Description

数字人构建方法、装置及计算机设备

技术领域

本发明涉及数字人技术领域，具体涉及数字人构建方法、装置及计算机设备。

背景技术

数字人指存在于非物理世界中，由计算机手段创造及使用，并具有多重人类特征(外貌特征、人类表演能力交互能力等)的综合产物。虚拟数字人可按人格象征和图形维度划分，亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块构成虚拟数字人通用***框架。其中，又以数字人的交互应用最广，能够应用至新媒体的各行各业，且简单高效。

目前数字人的构建，通常只是对人物体型、姿态的构建，缺乏场景融合考虑，导致生成的数字人特征独立，难以与场景呈现较好的融合效果，影响数字人的构建效果。

发明内容

本发明的目的在于提供数字人构建方法、装置及计算机设备，以解决现有技术中只是对人物体型、姿态的构建，缺乏场景融合考虑，导致生成的数字人特征独立，难以与场景呈现较好的融合效果，影响数字人的构建效果的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

在本发明的第一方面，本发明提供了一种数字人构建方法，包括以下步骤：

获取用于构建数字人的真人运动视频，以及用于承载数字人的场景视频，其中，所述真人运动视频包含多个真人运动视频帧，所述场景视频包含多个场景视频帧；

对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取，作为数字人的体型外观特征和运动姿态特征；

利用孪生神经网络，在场景视频中，将所述数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人。

作为本发明的一种优选方案，所述数字人的体型外观特征的提取方法包括：

将各个真人运动视频帧进行灰度化处理，得到真人运动视频帧的灰度图像；

对所述灰度图像进行Hog特征检测，在灰度图像中形成真人体型包围盒；

通过Canny边缘检测和特征点搜索方法，在所述真人体型包围盒中，自动提取出真人体型外观特征；

将真人体型外观特征作为所述数字人的体型外观特征。

作为本发明的一种优选方案，所述数字人的运动姿态特征的提取方法包括：

利用时空图卷积网络ST-GCN，基于多个真人运动视频帧进行真人运动姿态估计，得到真人运动姿态特征；

将所述真人运动姿态特征作为所述数字人的运动姿态特征。

作为本发明的一种优选方案，所述数字人重建方法包括：

将数字人的体型外观特征和运动姿态特征，以及场景视频帧，作为孪生神经网络中第一神经网络的输入项，由孪生神经网络中第一神经网络输出包含第一数字人的重建场景视频帧；

将数字人的体型外观特征和运动姿态特征，作为孪生神经网络中第二神经网络的输入项，由孪生神经网络中第二神经网络输出第二数字人；

将第一数字人和第二数字人的均方误差，以及场景视频帧与重建场景视频帧的均方误差进行加权组合，构成孪生神经网络的损失函数；

基于所述损失函数，对所述孪生神经网络进行训练，得到用于重建融合于场景的数字人重建模型；

所述数字人重建模型为：；式中，H(G1)为包含第一数字人的重建场景视频帧，G1为第一数字人，G2为第二数字人，A为体型外观特征，B为运动姿态特征，C为场景视频帧，net1为第一神经网络，net2为第二神经网络。

作为本发明的一种优选方案，所述损失函数为：Loss=S1*MSE(G1,G2)+S2*MSE(C,H(G1))；

式中，Loss为损失函数，S1为第一数字人和第二数字人的均方误差的权重，S2为场景视频帧与重建场景视频帧的均方误差的权重，MSE(G1,G2)为第一数字人和第二数字人的均方误差，MSE(C,H(G1))为场景视频帧与重建场景视频帧的均方误差，H(G1)为包含第一数字人的重建场景视频帧，G1为第一数字人，G2为第二数字人。

作为本发明的一种优选方案，所述权重的构建方法包括：

获取各个场景视频帧间的场景特征变化率；

根据场景特征变化率，利用自适应函数对所述S1和S2进行设置；

其中，；/>；式中，S1为第一数字人和第二数字人的均方误差的权重，S2为场景视频帧与重建场景视频帧的均方误差的权重，p为场景特征变化率，k为常系数。

作为本发明的一种优选方案，所述场景特征变化率的第一种量化方法为利用相关性系数进行量化，所述场景特征变化率为：；式中，p为场景特征变化率，F_i为第i个场景视频帧，F_i+1为第i+1个场景视频帧，Pearson(F_i, F_i+1)为F_i和F_i+1的相关性系数，n为场景视频帧的数量。

作为本发明的一种优选方案，所述场景特征变化率的第二种量化方法为利用数据方差进行量化，所述场景特征变化率为：；

式中，p为场景特征变化率，F_i为第i个场景视频帧，F_i+1为第i+1个场景视频帧，n为场景视频帧的数量。在本发明的第二方面，本发明提供了一种数字人构建装置，应用于所述的一种数字人构建方法，装置包括：

数据获取单元，用于获取用于构建数字人的真人运动视频，以及用于承载数字人的场景视频，其中，所述真人运动视频包含多个真人运动视频帧，所述场景视频包含多个场景视频帧；

特征提取单元，用于对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取，作为数字人的体型外观特征和运动姿态特征；

深度学习单元，用于利用孪生神经网络，在场景视频中，将所述数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人。

在本发明的第三方面，本发明提供了一种计算机设备，包括：至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行数字人构建方法。

本发明与现有技术相比较具有如下有益效果：

本发明利用孪生神经网络，在场景视频中，将所述数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人，并利用自适应函数对融于场景的数字人进行自适应调控，提升数字人构建的效果。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的数字人构建方法流程图；

图2为本发明实施例提供的数字人构建装置框图；

图3为本发明实施例提供的计算机设备的内部结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在本发明的第一方面，本发明提供了一种数字人构建方法，包括以下步骤：

获取用于构建数字人的真人运动视频，以及用于承载数字人的场景视频，其中，真人运动视频包含多个真人运动视频帧，场景视频包含多个场景视频帧；

利用孪生神经网络，在场景视频中，将数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人。

本发明为了提升数字人的真实性，利用真人的体型外观特征和运动姿态特征进行数字人的构建，能够使得数字人更接近与真人，提升数字人构建效果。

本发明通过Canny边缘检测和时空图卷积网络ST-GCN，从真人运动视频中提取出真人的体型外观特征和运动姿态特征。

本发明为了能够使得构建的数字人能够融于场景中，而非单独割裂存在，数字人在场景中存在，更显数字人构建的真实性，孪生神经网络，在场景视频中，将数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人。

具体的，本发明将孪生神经网络中两个神经网络一个用于生成融于场景中的数字人，一个用于生成脱离场景存在的数字人，并将两个数字人的差异性（第一数字人和第二数字人的均方误差）和融合数字人前后的场景差异性（场景视频帧与重建场景视频帧的均方误差）用于构建孪生函数训练的损失函数，使得孪生神经网络构建出的数字人具备真人体型外观特征和运动姿态特征最高真实性同时，与场景视频帧具备最佳融合性。

孪生神经网络的训练目标是损失函数最小化，则一方面对应着两个数字人的差异性（第一数字人和第二数字人的均方误差）最小，因此，融合场景视频帧生成的数字人与脱离场景视频帧生成的数字人具有最高的相似性，脱离场景视频帧生成的数字人只来源于真人体型外观特征和运动姿态特征，因此融合场景视频帧生成的数字人与脱离场景视频帧生成的数字人具有最高的相似性，说明了融合场景视频帧生成的数字人最大程度的保留了真人体型外观特征和运动姿态特征，保证了孪生网络生成的数字人具备真人体型外观特征和运动姿态特征最高真实性。

另一方面对应着融合数字人前后的场景差异性（场景视频帧与重建场景视频帧的均方误差）最小，因此，融合有数字人的场景视频帧和未融合数字人的原始场景视频帧之间具有最高的相似性，因此融合有数字人的场景视频帧对数字人进行最佳图像融合，两者互相包容融为一体，说明了生成的数字人与场景视频帧融合性达到最佳，保证了孪生网络生成的数字人能够与场景视频帧达到最高程度的融合。

进一步的，本发明对两个数字人的差异性（第一数字人和第二数字人的均方误差）和融合数字人前后的场景差异性（场景视频帧与重建场景视频帧的均方误差）设置有自适应权重，能够根据重建场景的变化频繁程度进行自适应重建数字人，具体的：

在重建场景变化频繁程度高时，说明此时场景动态性强，数字人注重仿真人的真实感会造成与场景间割裂的缺陷，构建数字人可注重于保障场景的融合效果，因此，赋予损失函数中两个数字人的差异性（第一数字人和第二数字人的均方误差）部分为高权重，以在训练构建数字人的孪生神经网络时，以两个数字人的差异性（第一数字人和第二数字人的均方误差）最小化为重点，从而实现保障场景融合效果的目的。

在重建场景变化频繁程度低时，说明此时场景较为固定化，构建数字人可注重于保障仿真人的真实性，因此，赋予损失函数中融合数字人前后的场景差异性（场景视频帧与重建场景视频帧的均方误差）部分为高权重，以在训练构建数字人的孪生神经网络时，以融合数字人前后的场景差异性（场景视频帧与重建场景视频帧的均方误差）最小化为重点，从而实现保障孪生网络生成的数字人具备真人体型外观特征和运动姿态特征真实性。

本发明通过Canny边缘检测和时空图卷积网络ST-GCN，从真人运动视频中提取出真人的体型外观特征和运动姿态特征，具体如下：

数字人的体型外观特征的提取方法包括：

对灰度图像进行Hog特征检测，在灰度图像中形成真人体型包围盒；

通过Canny边缘检测和特征点搜索方法，在真人体型包围盒中，自动提取出真人体型外观特征；

将真人体型外观特征作为数字人的体型外观特征。

数字人的运动姿态特征的提取方法包括：

将真人运动姿态特征作为数字人的运动姿态特征。

数字人重建方法包括：

基于损失函数，对孪生神经网络进行训练，得到用于重建融合于场景的数字人重建模型；

数字人重建模型为：；

式中，H(G1)为包含第一数字人的重建场景视频帧，G1为第一数字人，G2为第二数字人，A为体型外观特征，B为运动姿态特征，C为场景视频帧，net1为第一神经网络，net2为第二神经网络。损失函数为：

Loss=S1*MSE(G1,G2)+S2*MSE(C,H(G1))；

权重的构建方法包括：

获取各个场景视频帧间的场景特征变化率；

根据场景特征变化率，利用自适应函数对S1和S2进行设置；

第一种，场景特征变化率利用相关性系数进行量化，场景特征变化率为：；式中，p为场景特征变化率，F_i为第i个场景视频帧，F_i+1为第i+1个场景视频帧，Pearson(F_i, F_i+1)为F_i和F_i+1的相关性系数，n为场景视频帧的数量。

第二种，场景特征变化率利用数据方差进行量化，场景特征变化率为：；

式中，p为场景特征变化率，F_i为第i个场景视频帧，F_i+1为第i+1个场景视频帧，n为场景视频帧的数量。

如图2所示，在本发明的第二方面，本发明提供了一种数字人构建装置，应用于的一种数字人构建方法，装置包括：

数据获取单元，用于获取用于构建数字人的真人运动视频，以及用于承载数字人的场景视频，其中，真人运动视频包含多个真人运动视频帧，场景视频包含多个场景视频帧；

深度学习单元，用于利用孪生神经网络，在场景视频中，将数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人。

如图3所示，在本发明的第三方面，本发明提供了一种计算机设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使计算机设备执行数字人构建方法。

本发明利用孪生神经网络，在场景视频中，将数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人，并利用自适应函数对融于场景的数字人进行自适应调控，提升数字人构建的效果。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种数字人构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数字人构建方法，其特征在于：所述数字人的体型外观特征的提取方法包括：

将真人体型外观特征作为所述数字人的体型外观特征。

3.根据权利要求1所述的一种数字人构建方法，其特征在于：所述数字人的运动姿态特征的提取方法包括：

将所述真人运动姿态特征作为所述数字人的运动姿态特征。

4.根据权利要求1所述的一种数字人构建方法，其特征在于：所述数字人重建方法包括：

5.根据权利要求4所述的一种数字人构建方法，其特征在于：所述损失函数为：

Loss=S1*MSE(G1,G2)+S2*MSE(C,H(G1))；

6.根据权利要求5所述的一种数字人构建方法，其特征在于：所述权重的构建方法包括：

获取各个场景视频帧间的场景特征变化率；

7.根据权利要求6所述的一种数字人构建方法，其特征在于，所述场景特征变化率的第一种量化方法为利用相关性系数进行量化，所述场景特征变化率为：；式中，p为场景特征变化率，F_i为第i个场景视频帧，F_i+1为第i+1个场景视频帧，Pearson(F_i, F_i+1)为F_i和F_i+1的相关性系数，n为场景视频帧的数量。

8.根据权利要求6所述的一种数字人构建方法，其特征在于，所述场景特征变化率的第二种量化方法为利用数据方差进行量化，所述场景特征变化率为：；式中，p为场景特征变化率，F_i为第i个场景视频帧，F_i+1为第i+1个场景视频帧，n为场景视频帧的数量。

9.一种数字人构建装置，其特征在于，应用于权利要求1-8任一项所述的一种数字人构建方法，装置包括：

10.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行权利要求 1-8 任一项所述的方法。