CN115018963A

CN115018963A - 一种基于物理仿真的人型智能体姿态生成方法

Info

Publication number: CN115018963A
Application number: CN202210951248.0A
Authority: CN
Inventors: 唐浩
Original assignee: Chengdu Tishi Infinite Technology Co ltd
Current assignee: Chengdu Tishi Infinite Technology Co ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-09-06
Anticipated expiration: 2042-08-09
Also published as: CN115018963B

Abstract

本发明公开了一种基于物理仿真的人型智能体姿态生成方法，包括：以物理仿真环境为框架构建人型智能体的数字化物理仿真模型；获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据；将所述骨骼结构数据的关节旋转参数转换为关节指数参数并生成模型训练样本数据；基于目标任务构建奖励函数并构建逆向强化学习网络的特征输入；基于所述模型训练样本数据，基于所述逆向强化学习网络训练所述数字化物理仿真模型，得到训练后的所述数字化物理仿真模型；将更新后的目标任务和初始状态参数输入训练后的所述数字化物理仿真模型，生成状态信息。

Description

一种基于物理仿真的人型智能体姿态生成方法

技术领域

本发明涉及虚拟数字人技术领域，具体涉及一种基于物理仿真的人型智能体姿态生成方法。

背景技术

随着CG虚拟人在动画，电影，沉浸交互，VR/AR等领域的广泛应用，如何用技术实现虚拟数字人和真人的实时智能姿态交互尤为重要。目前驱动虚拟数字人姿态变化的关键技术手段主要为动作捕捉技术，且被广泛应用于3D CG动画影视和3D游戏等行业。

具体的，动作捕捉技术目前市场有穿戴式、光学、图像三种方式：光学动捕精度较高常用于动画电影制作等工业级场景，缺点是硬件成本昂贵，占地面积较大，设备操作复杂且不易移动；惯性动捕精度次于光学动捕，不过具备可便携携带优势；图像动捕目前主要是基于AI图像检测估计人体姿态动作，无需穿戴，使用门槛低，多用于C端场景，不过精度较差。

综上所述，传统的虚拟数字人姿态构建方法存在需要人工参与、具有一定技术应用门槛和依赖动作捕捉外设的问题。

发明内容

有鉴于此，本发明提供一种基于物理仿真的人型智能体姿态生成方法，区别于目前行业内所有的姿态捕捉技术，不需要人工参与捕捉和制作，而是通过AI技术直接在虚拟物理引擎中通过控制智能体完成不同的姿态任务，得到可以用于驱动虚拟数字人的姿态动画序列数据，解决了传统的虚拟数字人姿态构建方法存在的需要人工参与、具有一定技术应用门槛和依赖动作捕捉外设的问题。

为解决以上问题，本发明的技术方案为采用一种基于物理仿真的人型智能体姿态生成方法，包括：以物理仿真环境为框架构建人型智能体的数字化物理仿真模型；获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据；将所述骨骼结构数据的关节旋转参数转换为关节指数参数并生成模型训练样本数据；基于目标任务构建奖励函数并构建逆向强化学习网络的特征输入；基于所述模型训练样本数据，基于所述逆向强化学习网络训练所述数字化物理仿真模型，得到训练后的所述数字化物理仿真模型；将更新后的目标任务和初始状态参数输入训练后的所述数字化物理仿真模型，生成状态信息。

可选地，以物理仿真环境为框架构建人型智能体的数字化物理仿真模型，包括：在物理仿真环境中构建人型智能体的骨骼结构及其质量；在物理仿真环境中构建所述骨骼的关节指数参数；在物理仿真环境中构建用于模拟碰撞体积的体积参数。

可选地，获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据，包括：基于动作捕捉方法获取多个不同目标任务的人体运动的姿态变化序列数据；使用动作捕捉编辑软件将所述多个姿态变化序列数据转换为与所述数字化物理仿真模型的所述骨骼结构适配的骨骼结构数据。

可选地，基于目标任务构建奖励函数，包括：基于人型智能体运动姿态动作与模型训练样本数据中运动姿态动作的相似度和人型智能体的目标任务完成度构建所述奖励函数。

可选地，基于目标任务构建奖励函数，包括：基于不同类别的目标任务构建对应的f（x）作为目标任务完成度；构建判别器网络用于计算姿态运动相似度，并利用公式log（Dφ（s_i-1，s_i））计算回报率，其中，s包含的参数有：根节点信息，关节点旋转信息和关节点速度信息；基于类注意力机制提取能够表征人型智能体运动方式的姿态s_i作为主姿态，其中，s_i∈s；构建奖励函数G（x_i） = f（x_i）+ log（Dφ（s_i-1，s_i））。

可选地，构建逆向强化学习网络的特征输入，包括：构建交互物体集合μ_θ；对人形智能体的运动进行规划使其满足函数g(ni,μ)；构建多个人形智能体的状态s(g(ni,μ),nl)作为逆向强化学习网络的特征输入，其中，在所述状态s(g(ni,μ), nl)异常时，通过异常状态重置模块将所述人形智能体的状态基于初始状态参数重置。

可选地，基于所述逆向强化学习网络训练所述数字化物理仿真模型，得到训练后的所述数字化物理仿真模型，包括：基于多个人型智能体π_θ同时在物理仿真环境中模拟运动T步，获取状态信息(s_(i-1)，s_i )；将所述状态信息(s_(i-1)，s_i )输入所述判别器网络输出奖励r_i，并结合目标任务奖励r_g，计算优势估算结果

；基于

训练所述数字化物理仿真模型的运动策略网络和价值网络，更新多个所述人型智能体π_θ的同时，基于所述模型训练样本数据构成的样本数据库和所述状态信息构成的智能体模拟数据库中采样，构建样本训练辨别器网络，以判断所述更新是否为正反馈；重复上述步骤，直至完成训练所述数字化物理仿真模型。

可选地，所述姿态生成方法还包括：在完成训练所述数字化物理仿真模型后，输入初始状态信息和目标任务至所述数字化物理仿真模型，人型智能体在所述物理仿真环境中逐帧与环境交互直至完成目标任务；在所述交互的过程中，同步记录所述人型智能体的状态信息，以用于驱动3D虚拟数字人。

本发明的首要改进之处为提供的基于物理仿真的人型智能体姿态生成方法，通过在物理仿真环境中构建能够完成不同类型目标任务的人型智能体，进而得到人型智能体在完成不同姿态的目标任务过程中的状态信息，以用于驱动3D虚拟数字人。本方法训练得到的人型智能体在物理仿真环境下生成的姿态动作，一方面符合物理规律，另一方面不会产生不合理的姿态动作，并且能避免脚滑步和身体穿插等在动作捕捉技术中常见的问题，解决了传统的虚拟数字人姿态构建方法存在的需要人工参与、具有一定技术应用门槛和依赖动作捕捉外设的问题。

附图说明

图1是本发明的基于物理仿真的人型智能体姿态生成方法的简化流程图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步的详细说明。

如图1所示，一种基于物理仿真的人型智能体姿态生成方法，包括：

S1：以物理仿真环境为框架构建人型智能体的数字化物理仿真模型。

进一步的，所述物理仿真环境可以基于Nvidia发布的Isaac gym构建的数字化物理模拟引擎。

进一步的，构建人型智能体的数字化物理仿真模型，包括：在物理仿真环境中构建人型智能体的骨骼结构及其质量；在物理仿真环境中构建所述骨骼的关节指数参数；在物理仿真环境中构建用于模拟碰撞体积的体积参数。

更进一步的，在物理仿真环境中构建人型智能体的骨骼结构及其质量，包括：在物理仿真环境中配置bvh骨骼点文件，并将其转换为mjcf带有绑定的格式文件。具体的，所述人型智能体由13个骨骼构成，骨骼的定义和质量如下(中文注释）：root 6.0kg根骨骼，作为整体的相对骨骼；chest 14.0kg前胸骨骼；neck 2.0kg颈部骨骼；right_shoulder 1.5kg右肩骨骼；right_elbow 1.0kg右臂骨骼；left_shoulder 1.5kg左肩骨骼；left_elbow 1.0kg左臂骨骼；right_hip 4.5kg右大腿骨骼；right_knee 3.0kg右膝盖及小腿骨骼；right_ankle 1.0kg右脚踝骨骼；left_hip 4.5kg左大腿骨骼；left_knee 3.0kg左膝盖及小腿骨骼；left_ankle 1.0kg左脚踝骨骼。

更进一步的，在物理仿真环境中构建所述骨骼的关节指数参数包括：由于所述骨骼结构由关节连接，因此需构建每个关节的关节指数参数，即，旋转自由度。其中，所述旋转自由度的构建方式为骨骼名称加上（x, y, z），分别代表绕x, y, z轴旋转；不含x, y, z则代表该关节仅能按照固定方向旋转，以符合人体的自然能动性。具体的，关节指数参数被定义为：chest_x、chest_y、chest_z、neck_x、neck_y、neck_z、right_shoulder_x、right_shoulder_y、right_shoulder_z、right_elbow、left_shoulder_x、left_shoulder_y、left_shoulder_z、left_elbow、right_hip_x、right_hip_y、right_hip_z、right_knee、right_ankle_x、right_ankle_y、right_ankle_z、left_hip_x、left_hip_y、left_hip_z、left_knee、left_ankle_x、left_ankle_y、left_ankle_z。

更进一步的，在物理仿真环境中构建用于模拟碰撞体积的体积参数，包括：在构建所述人形智能体时，预设身体部分的体积参数，从而人型智能体在所述物理仿真环境中运动时，能够进行身体碰撞和外部环境碰撞的体积计算。更进一步的，为便于配置所述体积参数，能够采用与目标人体体型大小相近的圆球体，圆柱体，立方体参数组成所述身体部分，例如：人型智能体的头部可以用圆球体构成，手臂和腿部可以用圆柱体构成，脚部可以用立方体构成。

S2：获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据，包括：基于动作捕捉方法获取多个不同目标任务的人体运动的姿态变化序列数据；使用动作捕捉编辑软件将所述多个姿态变化序列数据转换为与所述数字化物理仿真模型的所述骨骼结构适配的骨骼结构数据。其中，目标任务可以是行走、跑步、上楼梯等类型。

进一步的，动作捕捉编辑软件可以是motionbuilder工具软件等。

S3：将所述骨骼结构数据的关节旋转参数转换为关节指数参数并生成模型训练样本数据。其中，所述关节指数参数的表达式可以是：(chest_x, chest_y, chest_z)。

S4：基于目标任务构建奖励函数并构建逆向强化学习网络的特征输入。

进一步的，基于目标任务构建奖励函数，包括：基于人型智能体运动姿态动作与模型训练样本数据中运动姿态动作的相似度和人型智能体的目标任务完成度构建所述奖励函数。

更一步的，基于目标任务构建奖励函数，包括：基于不同类别的目标任务构建对应的f（x）作为目标任务完成度，其中，在所述目标任务完成度低于预设阈值时，基于异常状态重置模块重置人型智能体；构建判别器网络用于计算姿态运动相似度，并利用公式log（Dφ（s_i-1，s_i））计算回报率，其中，s包含的参数有：根节点信息，关节点旋转信息和关节点速度信息；基于类注意力机制提取能够表征人型智能体运动方式的姿态s_i作为主姿态，其中，s_i∈s；构建奖励函数G（x_i） = f（x_i）+ log（Dφ（s_i-1，s_i））。其中，所述根节点信息至少包括根节点的位移信息、旋转信息、速度信息；由于不同类别的目标任务构建的f（x）不同，应此无法进行一致化概述，但构建f（x）生成目标任务得分作为目标任务完成度属于本领域常规技术手段，因此不再对每个种类的f（x）一一说明，仅举例说明：在目标任务类型为上楼梯时，f（x）的输入包括动作信息、自由度信息、目标信息（高度信息：因为走楼梯包含高度的变换）、根节点信息，奖励函数G（x_i）中的f（x_i） = R（目标高度-模拟运动高度）+ R（线速度信息）-R（本任务类型的特定关节损失：knee、foot）。判别器网络运用的是GAN的思想，即博弈思想，利用GAN中的判别器模块，基于LSGAN网络中的损失函数构成，目的是为了学习到参考动作的风格特征。

进一步的，构建逆向强化学习网络的特征输入，包括：构建交互物体集合μ_θ；对人形智能体的运动进行规划使其满足函数g(ni,μ)；构建多个人形智能体的状态s(g(ni,μ),nl)作为逆向强化学习网络的特征输入，其中，在所述状态s(g(ni,μ), nl)异常时，通过异常状态重置模块将所述人形智能体的状态基于初始状态参数重置。其中，ni为交互物体当前的状态信息、μ为交互物体对于智能体的影响，nl为代表智能体当前状态的特征，可以包括根节点信息、关节点信息、关节点+根节点角速度、线速度信息、关键关节点信息等特征。

S5：基于所述模型训练样本数据，基于所述逆向强化学习网络训练所述数字化物理仿真模型，得到训练后的所述数字化物理仿真模型。

进一步的，基于所述逆向强化学习网络训练所述数字化物理仿真模型，得到训练后的所述数字化物理仿真模型，包括：基于多个人型智能体π_θ同时在物理仿真环境中模拟运动T步，获取状态信息(s_(i-1)，s_i )；将所述状态信息(s_(i-1)，s_i )输入所述判别器网络输出奖励r_i，并结合目标任务奖励r_g，计算优势估算结果

；基于

S6：将更新后的目标任务和初始状态参数输入训练后的所述数字化物理仿真模型，生成状态信息。

进一步的，所述姿态生成方法还包括：在完成训练所述数字化物理仿真模型后，输入初始状态信息和目标任务至所述数字化物理仿真模型，人型智能体在所述物理仿真环境中逐帧与环境交互直至完成目标任务；在所述交互的过程中，同步记录所述人型智能体的状态信息，以用于驱动3D虚拟数字人。

更进一步的，在同步记录所述人型智能体的状态信息时，使用motionbuilder软件进行骨骼重定向输出fbx格式的姿态数据，以用于驱动3D虚拟数字人。

更进一步的，所述姿态生成方法还包括：在完成训练所述数字化物理仿真模型后，还可以基于已训练完成的人型智能体运动策略，在输入目标任务时，加入可以自定义的可改变目标张量，使用该目标张量映射到智能体运动空间，完成智能体状态改变，这些状态例如：前进，后退，加速，减速等，以此实现半实时驱动智能体。

本发明通过在物理仿真环境中构建能够完成不同类型目标任务的人型智能体，进而得到人型智能体在完成不同姿态的目标任务过程中的状态信息，以用于驱动3D虚拟数字人。本方法训练得到的人型智能体在物理仿真环境下生成的姿态动作，一方面符合物理规律，另一方面不会产生不合理的姿态动作，并且能避免脚滑步和身体穿插等在动作捕捉技术中常见的问题，解决了传统的虚拟数字人姿态构建方法存在的需要人工参与、具有一定技术应用门槛和依赖动作捕捉外设的问题。

以上对本发明实施例所提供的基于物理仿真的人型智能体姿态生成方法进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种基于物理仿真的人型智能体姿态生成方法，其特征在于，包括：

以物理仿真环境为框架构建人型智能体的数字化物理仿真模型；

获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据；

将所述骨骼结构数据的关节旋转参数转换为关节指数参数并生成模型训练样本数据；

基于目标任务构建奖励函数并构建逆向强化学习网络的特征输入；

基于所述模型训练样本数据，基于所述逆向强化学习网络训练所述数字化物理仿真模型，得到训练后的所述数字化物理仿真模型；

将更新后的目标任务和初始状态参数输入训练后的所述数字化物理仿真模型，生成状态信息。

2.根据权利要求1所述的姿态生成方法，其特征在于，以物理仿真环境为框架构建人型智能体的数字化物理仿真模型，包括：

在物理仿真环境中构建人型智能体的骨骼结构及其质量；

在物理仿真环境中构建所述骨骼的关节指数参数；

在物理仿真环境中构建用于模拟碰撞体积的体积参数。

3.根据权利要求1所述的姿态生成方法，其特征在于，获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据，包括：

基于动作捕捉方法获取多个不同目标任务的人体运动的姿态变化序列数据；

使用动作捕捉编辑软件将所述多个姿态变化序列数据转换为与所述数字化物理仿真模型的所述骨骼结构适配的骨骼结构数据。

4.根据权利要求1所述的姿态生成方法，其特征在于，基于目标任务构建奖励函数，包括：基于人型智能体运动姿态动作与模型训练样本数据中运动姿态动作的相似度和人型智能体的目标任务完成度构建所述奖励函数。

5.根据权利要求4所述的姿态生成方法，其特征在于，基于目标任务构建奖励函数，包括：基于不同类别的目标任务构建对应的f（x）作为目标任务完成度；

构建判别器网络用于计算姿态运动相似度，并利用公式log（Dφ（s_i-1，s_i））计算回报率，其中，Dφ（s_i-1，s_i）为判别器网络的判别函数，在判别（s_i-1，s_i）为来自于模型训练样本数据的姿态数据时输出为1，反之，输出为-1，s为状态信息，包含的参数有：根节点信息，关节点旋转信息和关节点速度信息；

基于类注意力机制提取能够表征人型智能体运动方式的姿态s_i作为主姿态，其中，s_i∈s；

构建奖励函数G（x_i） = f（x_i）+ log（Dφ（s_i-1，s_i）），其中，x_i由s_i和任务类型对应的特征数据构成。

6.根据权利要求1所述的姿态生成方法，其特征在于，构建逆向强化学习网络的特征输入，包括：

构建交互物体集合μ_θ；

对人形智能体的运动进行规划使其满足函数g(ni,μ)，其中，ni为任务特征，μ为交互物体特征，g(ni,μ)为网络的尺寸变换函数，用于保证作为限制条件输入至所述逆向强化学习网络；

构建多个人形智能体的状态s(g(ni,μ), nl)作为逆向强化学习网络的特征输入，其中，在所述状态s(g(ni,μ), nl)异常时，通过异常状态重置模块将所述人形智能体的状态基于初始状态参数重置。

7.根据权利要求1所述的姿态生成方法，其特征在于，基于所述逆向强化学习网络训练所述数字化物理仿真模型，得到训练后的所述数字化物理仿真模型，包括：

基于多个人型智能体π_θ同时在物理仿真环境中模拟运动T步，获取状态信息(s_(i-1)，s_i )，其中，T为运动步数的数量；

将所述状态信息(s_(i-1)，s_i )输入所述判别器网络输出奖励r_i，并结合目标任务奖励r_g，计算优势估算结果