CN116385663B - 动作数据生成方法、装置、电子设备及存储介质 - Google Patents

动作数据生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116385663B
CN116385663B CN202310609078.2A CN202310609078A CN116385663B CN 116385663 B CN116385663 B CN 116385663B CN 202310609078 A CN202310609078 A CN 202310609078A CN 116385663 B CN116385663 B CN 116385663B
Authority
CN
China
Prior art keywords
target object
dimensional position
acquiring
dimensional
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310609078.2A
Other languages
English (en)
Other versions
CN116385663A (zh
Inventor
童冀
王浩
刘光辉
苏卓涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qiwei Visual Media Technology Co ltd
Original Assignee
Beijing Qiwei Visual Media Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qiwei Visual Media Technology Co ltd filed Critical Beijing Qiwei Visual Media Technology Co ltd
Priority to CN202310609078.2A priority Critical patent/CN116385663B/zh
Publication of CN116385663A publication Critical patent/CN116385663A/zh
Application granted granted Critical
Publication of CN116385663B publication Critical patent/CN116385663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本申请涉及一种动作数据生成方法、装置、电子设备及存储介质,包括:获取具有目标对象和背景信息的第一图像。获取目标对象的置信度,在置信度超过第一阈值时,通过开源算法将背景信息从第一图像中剔除并填充为标准绿色,保留目标对象,以获取第二图像。通过UA‑Pose对目标对象进行骨骼点标记,以获取骨骼标记点,骨骼标记点分为根节点和多个子节点。以根节点为坐标原点构建三维空间坐标系,并基于三维空间坐标系获取第一三维位置坐标,第一三维位置坐标为子节点的三维位置坐标。基于第一三维位置坐标获取相邻骨骼标记点之间的连线。当目标对象的动作发生后基于连线获取第二三维位置坐标,第二三维位置坐标为目标对象动作后骨骼标记点的三维位置坐标。

Description

动作数据生成方法、装置、电子设备及存储介质
技术领域
本申请涉及视觉动作捕捉技术领域,特别是涉及一种动作数据生成方法、装置、电子设备及存储介质。
背景技术
动作捕捉是指对人的身体动作、手势以及表情进行捕捉采集,完整呈现出演员的表演。动作捕捉可以采用光学动作捕捉、惯性动作捕捉和无标记视觉动作捕捉几种方式实现。单摄像头视觉动作捕捉技术是指基于计算机视觉原理,分析由一个摄像机捕捉到的二维视频画面中人物的肢体动作和手势,生成具有三维空间信息的动作数据,并且此数据可以传递给制作好的三维模型,从而让三维模型做出与二维视频中的真人相似的动作。
目前,单摄像头视觉动作捕捉技术与基于Marker(标记)点的光学动作捕捉***和惯性传感器的动作捕捉技术相比,优势在于成本更低,且被算法分析其动作的真人无需穿戴任何设备,约束性较小,且动作捕捉精度较高。根据使用的摄像头类型不同,可以分为单个光学摄像头视觉动作捕捉技术和弱透视RGB摄像头视觉动作捕捉技术,后者的硬件成本会更低。其中,弱透视RGB摄像头视觉动作捕捉技术比较有代表性的分别为Google(谷歌)开发的MediaPipe(一种基于图形的跨平台框架)和Facebook(脸书)研发的FrankMocap(3D人体姿态和形状估计算法)。MediaPipe的处理流程与FrankMocap的处理流程相似,区别在于二者使用了不同的算法进行位置点的标记,以及最后绘制得到的视频算法不同。
MediaPipe的单个RGB摄像头动捕技术所识别出来的肢***置数据点和UnityHumanoid(人形动画数字人模型)制作的骨骼需要的数据点的主要差别在于上半身数据点的位置,即MediaPipe标记的是两侧的肩膀和两侧的大腿根部,而Unity Humanoid需要的是两侧肩膀的数据点、腰部中心的数据点、胯部中心的数据点和两侧大腿根部的数据点。对于按照Unity Humanoid标准制作出的3D模型,MediaPipe生成的动作数据不能正确驱动模型,无法直接使用MediaPipe技术实现单个RGB摄像头肢体动作捕捉,仍需要进行大量的位置点识别和换算,在一定程度上增加了CPU(服务器)的计算负担。
FrankMocap的计算点位与Unity Humanoid要求的点位相似,但是FrankMocap经过显示输出后会生成一个通用的3D人物模型覆盖在视频画面上,使得视频帧率只有11左右,不到30,因此FrankMocap较难做到流畅地将动作捕捉数据结果传送至Unity Humanoid。
综上所述,传统的单个RGB摄像头视觉动作捕捉技术由于需要大量的位置点识别和换算以及数字人物模型的限制,导致传统的单个RGB摄像头视觉动作捕捉技术不仅增加了CPU的计算负担且实用性较差。
发明内容
基于此,有必要针对上述技术问题,提供一种实用性较好且降低CPU计算负担的动作数据生成方法、装置、电子设备及存储介质。
第一方面,本申请提供一种动作数据生成方法,所述方法包括:
获取第一图像,所述第一图像中具有目标对象和背景信息;
获取所述目标对象的置信度,在所述置信度超过第一阈值时,通过开源算法将所述背景信息从所述第一图像中剔除,保留所述目标对象,并将剔除后的背景信息填充为标准绿色,以获取第二图像;
通过UA-Pose对所述目标对象进行骨骼点标记,以获取骨骼标记点,所述骨骼标记点分为根节点和多个子节点;
以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,所述第一三维位置坐标为所述子节点的三维位置坐标;
基于所述第一三维位置坐标获取相邻骨骼标记点之间的连线;
当所述目标对象的动作发生改变时,基于所述连线获取第二三维位置坐标,所述第二三维位置坐标为目标对象动作后骨骼标记点在所述三维空间坐标系中的三维位置坐标。
在其中一个实施例中,所述以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,包括:
在所述第二图像中对所述目标对象进行骨骼点标记,以获取所述目标对象的二维骨骼标记点;
将所述二维骨骼标记点与人形动画数字人模型进行匹配,以生成所述二维骨骼标记点在三维空间中的空间信息;
基于所述空间信息,以所述根节点为原点构建三维空间坐标系。
在其中一个实施例中,所述以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,之后包括:
将所述第二图像转化为特征矩阵,以获取与所述特征矩阵相对应的特征向量;
通过卷积神经网络对所述特征向量进行中心化处理,以获取与所述特征向量相对应的协方差矩阵。
在其中一个实施例中,所述通过卷积神经网络对所述特征向量进行中心化处理,以获取与所述特征向量相对应的协方差矩阵,之后包括:
对所述协方差矩阵进行特征分解,以获取多个对应的特征根;
通过对抗神经网络对所述多个特征根进行区分,以获取与待识别特征相对应的特征根以及所述待识别特征与所述特征根之间的映射矩阵。
在其中一个实施例中,所述基于所述第一三维位置坐标获取相邻骨骼标记点之间的连线,之前还包括:
获取图像采集设备参数,所述图像采集设备参数为RGB摄像头的内外参数;
根据所述图像采集设备参数以及所述根节点获取所述骨骼标记点的欧拉坐标。
在其中一个实施例中,所述方法还包括:
将所述骨骼标记点发送至数字人物模型进行匹配,使得所述数字人物模型具有与所述目标对象相对应的骨骼标记点;
基于所述第一三维位置坐标和第二三维位置坐标,获取所述目标对象的动作数据。
在其中一个实施例中,所述基于所述第一三维位置坐标和第二三维位置坐标,获取所述目标对象的动作数据,之后包括:
发送所述动作数据至所述数字人物模型,以控制所述数字人物模型执行与所述目标对象相同的动作。
第二方面,本申请提供一种动作数据生成装置,所述装置包括:
图像获取模块,用于获取第一图像,所述第一图像中具有目标对象和背景信息;
图像处理模块,用于获取所述目标对象的置信度,在所述置信度超过第一阈值时,通过开源算法将所述背景信息从所述第一图像中剔除,保留所述目标对象,并将剔除后的背景信息填充为标准绿色,以获取第二图像;
骨骼点标记模块,用于通过UA-Pose对所述目标对象进行骨骼点标记,以获取骨骼标记点,所述骨骼标记点分为根节点和多个子节点;
坐标系模块,用于以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,所述第一三维位置坐标为所述子节点的三维位置坐标;
连线获取模块,用于基于所述第一三维位置坐标获取相邻骨骼标记点之间的连线;
位置分析模块,用于当所述目标对象的动作发生改变时,基于所述连线获取第二三维位置坐标,所述第二三维位置坐标为目标对象动作后骨骼标记点在所述三维空间坐标系中的三维位置坐标。
第三方面,本申请提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一图像,所述第一图像中具有目标对象和背景信息;
获取所述目标对象的置信度,在所述置信度超过第一阈值时,通过开源算法将所述背景信息从所述第一图像中剔除,保留所述目标对象,并将剔除后的背景信息填充为标准绿色,以获取第二图像;
通过UA-Pose对所述目标对象进行骨骼点标记,以获取骨骼标记点,所述骨骼标记点分为根节点和多个子节点;
以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,所述第一三维位置坐标为所述子节点的三维位置坐标;
基于所述第一三维位置坐标获取相邻骨骼标记点之间的连线;
当所述目标对象的动作发生改变时,基于所述连线获取第二三维位置坐标,所述第二三维位置坐标为目标对象动作后骨骼标记点在所述三维空间坐标系中的三维位置坐标。
第四方面,本申请提供一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取第一图像,所述第一图像中具有目标对象和背景信息;
获取所述目标对象的置信度,在所述置信度超过第一阈值时,通过开源算法将所述背景信息从所述第一图像中剔除,保留所述目标对象,并将剔除后的背景信息填充为标准绿色,以获取第二图像;
通过UA-Pose对所述目标对象进行骨骼点标记,以获取骨骼标记点,所述骨骼标记点分为根节点和多个子节点;
以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,所述第一三维位置坐标为所述子节点的三维位置坐标;
基于所述第一三维位置坐标获取相邻骨骼标记点之间的连线;
当所述目标对象的动作发生改变时,基于所述连线获取第二三维位置坐标,所述第二三维位置坐标为目标对象动作后骨骼标记点在所述三维空间坐标系中的三维位置坐标。
上述动作数据生成方法、装置、电子设备及存储介质,通过获取具有目标对象及其背景信息的图像数据,并基于目标对象的置信度,在置信度超过设定值时通过开源算法将图像中的背景信息剔除,保留目标对象并将所保留的目标对象的背景填充为标准绿色,防止图像中其他对象的干扰,进而防止出现目标对象转移的情况,保证动作捕捉的数据源能够较稳定的传输,避免掉帧抖动。随后通过UA-Pose对目标对象进行骨骼点标记来获取目标对象的根节点和多个子节点,并以根节点为原点构建三维空间坐标系。最后,根据该三维空间坐标系获取骨骼标记点的三维位置坐标,并根据骨骼标记点的三维位置坐标获取相邻骨骼标记点之间的连线,当目标对象的动作发生改变时,基于相邻骨骼标记点之间的连线即可在上述构建的三维空间坐标系中获取目标对象动作后对应骨骼标记点的三维位置坐标,即动作后对应骨骼标记点与坐标原点之间的相对位置。该方法根据目标对象的骨骼标记点之间的连线识别目标对象动作前后骨骼标记点的三维位置坐标,通过较简单的方式实现对目标对象的动作捕捉,减少了位置点的识别和换算,进而降低了CPU的计算负担,具有较好的实用性。
附图说明
图1为本申请提供的动作数据生成方法流程图之一;
图2为本申请提供的动作数据生成方法流程图之二;
图3为本申请提供的动作数据生成方法流程图之三;
图4为本申请提供的动作数据生成方法流程图之四;
图5为本申请提供的动作数据生成方法流程图之五;
图6为本申请提供的动作数据生成方法流程图之六;
图7为本申请提供的具体实施例中动作数据生成方法的UA-Pose识别点分布示意图;
图8为本申请提供的具体实施例中动作数据生成方法的流程示意图;
图9为本申请提供的具体实施例中动作数据生成方法的目标对象特征区域划分结果示意图;
图10为本申请提供的具体实施例中动作数据生成方法的特征区域根节点与子节点连线示意图;
图11为本申请提供的动作数据生成装置结构示意图;
图12为本申请提供的计算机设备的内部结构图。
实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在一个实施例中,一种动作数据生成方法,包括以下步骤:
步骤S110,获取第一图像,第一图像中具有目标对象和背景信息。
具体的,服务器获取具有目标对象和目标对象所在区域的背景信息的图像数据。
步骤S120,获取目标对象的置信度,在置信度超过第一阈值时,通过开源算法将背景信息从第一图像中剔除,保留目标对象,并将剔除后的背景信息填充为标准绿色,以获取第二图像。
具体的,服务器获取第一图像中目标对象的置信度,并在置信度超过第一阈值时通过开源算法将第一图像中的背景信息从图像中剔除,只保留目标对象,并将剔除后的背景信息填充为标准绿色,使得图像成为具有目标对象并以标准绿色为背景的第二图像。
步骤S130,通过UA-Pose对目标对象进行骨骼点标记,以获取骨骼标记点,骨骼标记点分为根节点和多个子节点。
具体的,服务器在步骤S120中得到的第二图像中通过UA-Pose对目标对象进行骨骼点标记,以获取目标对象的骨骼标记点,并根据骨骼标记点确定根节点和多个子节点。
步骤S140,以根节点为坐标原点构建三维空间坐标系,并基于三维空间坐标系获取第一三维位置坐标,第一三维位置坐标为子节点的三维位置坐标。
具体的,服务器以步骤S130中确定的根节点为坐标原点来构建三维空间坐标系,并基于该三维空间坐标系获取多个子节点的三维位置坐标,即第一三维位置坐标。
需要说明的是,根节点与多个子节点均为骨骼标记点,根节点作为三维空间坐标系的原点,子节点在该三维空间坐标系中的三维位置坐标即为除根节点以外的其他骨骼标记点在该三维空间坐标系中的三维位置坐标。
步骤S150,基于第一三维位置坐标获取相邻骨骼标记点之间的连线。
具体的,服务器基于步骤S140构建的三维空间坐标系中骨骼标记点的三维位置坐标,获取相邻骨骼标记点之间的连线。
需要说明的是,相邻骨骼标记点之间通过骨架相连,因此相邻骨骼标记点之间的连线用于替代骨骼点之间的骨架。
步骤S160,当目标对象的动作发生改变时,基于连线获取第二三维位置坐标,第二三维位置坐标为目标对象动作后骨骼标记点在三维空间坐标系中的三维位置坐标。
具体的,当目标对象动作发生改变时,对应的相邻骨骼标记点之间的连线也会发生改变,即其他骨骼标记点与根节点之间的相对位置发生改变,此时基于不变的根节点以及其他相邻骨骼标记点之间连线或者根节点和与其相邻的其他骨骼标记点之间的连线确定动作后其他骨骼标记点在先前构建好的三维空间坐标系中新的三维位置坐标。根据骨骼标记点在目标对象动作前后不同的三维位置坐标即可确定目标对象的动作数据,进而生成相应的动作数据以控制虚拟人物模型进行相应的动作。
上述动作数据生成方法,通过获取具有目标对象及其背景信息的图像数据,并基于目标对象的置信度,在置信度超过设定值时通过开源算法将图像中的背景信息剔除,保留目标对象并将所保留的目标对象的背景填充为标准绿色,防止图像中其他对象的干扰,进而防止出现目标对象转移的情况,保证动作捕捉的数据源能够较稳定的传输,避免掉帧抖动。随后通过UA-Pose对目标对象进行骨骼点标记来获取目标对象的根节点和多个子节点,并以根节点为原点构建三维空间坐标系。最后,根据该三维空间坐标系获取骨骼标记点的三维位置坐标,并根据骨骼标记点的三维位置坐标获取相邻骨骼标记点之间的连线,当目标对象的动作发生改变时,基于相邻骨骼标记点之间的连线即可在上述构建的三维空间坐标系中获取目标对象动作后对应骨骼标记点的三维位置坐标,即动作后对应骨骼标记点与坐标原点之间的相对位置。该方法根据目标对象的骨骼标记点之间的连线识别目标对象动作前后骨骼标记点的三维位置坐标,通过较简单的方式实现对目标对象的动作捕捉,减少了位置点的识别和换算,进而降低了CPU的计算负担,具有较好的实用性。
如图2所示,在一个实施例中,本申请提供的动作数据生成方法,以根节点为坐标原点构建三维空间坐标系,并基于三维空间坐标系获取第一三维位置坐标,包括:
步骤S142,在第二图像中对目标对象进行骨骼点标记,以获取目标对象的二维骨骼标记点。
具体的,服务器在第二图像中对目标对象进行骨骼点标记,以获取目标对象在二维图像中的二维骨骼标记点。
步骤S144,将二维骨骼标记点与人形动画数字人模型进行匹配,以生成二维骨骼标记点在三维空间中的空间信息。
具体的,服务器将步骤S142中得到的二维骨骼标记点与人形动画数字模型进行匹配,以生成二维骨骼标记点在三维空间中的空间信息。
其中,人形动画数字模型为Unity Humanoid数字人模型。
步骤S146,基于空间信息,以根节点为原点构建三维空间坐标系。
具体的,服务器基于步骤S144中得到的二维骨骼标记点在三维空间中的空间信息,以根节点为原点构建三维空间坐标系。
如图3所示,在一个实施例中,本申请提供的动作数据生成方法,以根节点为坐标原点构建三维空间坐标系,并基于三维空间坐标系获取第一三维位置坐标,之后包括以下步骤:
步骤S310,将第二图像转化为特征矩阵,以获取与特征矩阵相对应的特征向量。
具体的,服务器将具有待识别特征的待识别图像转化为特征矩阵,基于该特征矩阵获取对应的特征向量。
步骤S320,通过卷积神经网络对特征向量进行中心化处理,以获取与特征向量相对应的协方差矩阵。
具体的,服务器通过卷积神经网络对步骤S310中得到的特征向量进行中心化处理,以获取与该特征向量对应的协方差矩阵。
其中,中心化处理又称为零均值化处理,是指将变量减去它的均值,可得均值为0,标准差为1的服从正态分布的数据,即将数据平移至坐标中心原点处。
如图4所示,在一个实施例中,本申请提供的动作数据生成方法,通过卷积神经网络对特征向量进行中心化处理,之后包括以下步骤:
步骤S410,对协方差矩阵进行特征分解,以获取多个对应的特征根。
具体的,服务器对中心化处理后得到的协方差矩阵进行特征分解,分解后得到对应的多个特征根。
步骤S420,通过对抗神经网络对多个特征根进行区分,以获取与待识别特征相对应的特征根以及待识别特征与特征根之间的映射矩阵。
具体的,服务器通过对抗神经网络对步骤S410中得到的多个特征根进行区分,以获取与待识别特征对应的特征根以及待识别特征与相对应的特征根之间的映射矩阵。
如图5所示,在一个实施例中,本申请提供的动作数据生成方法,基于第一三维位置坐标获取相邻骨骼标记点之间的连线,之前包括以下步骤:
步骤S510,获取图像采集设备参数,图像采集设备参数为RGB摄像头的内外参数。
具体的,服务器获取RGB摄像头的内外参数。
其中,RGB摄像头的内外参数包括分辨率、像素数、信噪比等参数。
步骤S520,根据图像采集设备参数以及根节点获取所述骨骼标记点的欧拉坐标。
具体的,服务器根据RGB摄像头的内外参数以及先前确定的根节点获取骨骼标记点的欧拉坐标。
其中,欧拉坐标为骨骼标记点的三维空间旋转信息。
如图6所示,在一个实施例中,本申请提供的动作数据生成方法,还包括以下步骤:
步骤S610,将骨骼标记点发送至数字人物模型进行匹配,使得数字人物模型具有与目标对象相对应的骨骼标记点。
具体的,服务器将骨骼标记点发送至数字人物模型进行匹配,使得数字人物模型具有与所识别的目标对象相对应的骨骼标记点。
其中,数字人物模型即为虚拟人物模型。
步骤S620,基于第一三维位置坐标和第二三维位置坐标,获取目标对象的动作数据。
具体的,服务器基于目标对象动作前的三维位置坐标和动作后的三维位置坐标,即第一三维位置坐标和第二三维位置坐标,获取目标对象的动作数据。
需要说明的是,第一三维位置坐标与第二三维位置坐标之间由于目标对象动作的改变具有位置数据变化,该位置数据变化即为动作数据。
步骤S630,发送动作数据至数字人物模型,以控制数字人物模型执行与目标对象相同的动作。
具体的,服务器将步骤S620中得到的动作数据发送至数字人物模型,即可控制数字人物模型执行与目标对象相同的动作。
需要说明的是,该数字人物模型为匹配有目标对象骨骼标记点的数字人物模型。
在具体的实施例中,本申请提供一种动作数据生成方法,通过弱透视RGB单摄像头对画面中的人体进行2D骨骼点标记的算法,使得标记出的骨骼点与Unity Humanoid(人形动画)数字人模型的骨骼点匹配,并在Unity Humanoid数字人模型中生成与标记出的骨骼点的空间位置信息。将所有骨骼点的空间位置信息传输给Unity Humanoid数字人模型后,即可使Unity Humanoid数字人模型做出与RGB单摄像头拍摄的画面中的人物相对应的动作。参见图7所示,Unity Humanoid数字人模型具有53个骨骼点(不包含脸部表情),其中身体关键点15个,左手、右手关键点各19个,手腕处的关键点在身体和手部重叠,“0”为Hip点,是Unity Humanoid数字人模型的根节点。
参见图8所示,首先要从视频画面中分离人体与环境,弱透视RGB摄像头的使用环境通常是复杂的,颜色、光影是不均匀的,直接进行标记骨骼点时会造成误判,因此,通过修改开源算法Matting来将接收到的摄像机所拍画面的每一帧,进行背景剔除处理,对于真人图像置信度在0.9以上的单帧,将真人图像保留,其余的背景图像填充为标准绿色,并且进行真人图像跟踪,使得真人图像在摄像头拍摄到的区域内左右或上下移动时,不会丢失置信度,且当画面中有第二人进入时,由于周围背景已经做了标准绿色填充的处理,因此不会出现跟踪目标转移的情况,保证了动作捕捉的数据能够稳定传输,避免掉帧和抖动的情况发生。
随后,对人体进行区域划分,划分出左手掌、右手掌、左臂、右臂、左腿、右腿、头、左脚、右脚和躯干共11个特征区域。通过对每个特征区域进行主成分分析,用特征向量按照线性组合表示每一张原始图片中的对应区域。以左手掌区域的划分为例,从MSCOCO数据集中任意获取5000张不低于1000×1000像素大小的、含有人体左手掌的图像,并且经过剔除背景处理,使得画面中只有人体,其余背景处理为标准绿色。将每幅图像转化成1000×1000矩阵,得到初始的106个初始特征向量(与样本数据数量相同),经过卷积神经网络(CNN)对矩阵中每一个样本数据进行中心化处理,并计算原始样本数据的协方差矩阵,对协方差矩阵进行特征分解,得到多个特征根,之后引入对抗神经网络(GAN),区分出11个区域各自的特征根,最终得到2048个特征向量,形成映射矩阵,这样即从原来的106个初始特征向量压缩成了2048个,再根据各自特征区域的特征向量,从那个画面中框出对应的区域,即可得到如图9的结果。
然后,在不同的特征区域进行骨骼点标记,并获得基础的三维空间坐标,根据根节点和相机参数,获得其他节点的三维空间旋转信息(右手坐标系中的欧拉坐标)。由于已经获取了11个特征区域的位置,所以针对于每个特征区域做单独的骨骼关键点识别,最终将识别的关键点进行整合即可获得点与点之间相联系的骨架。结合图10所示,以右手掌和右臂为例,右臂的骨骼点识别逻辑是:先根据已获取的11特征区域确定右臂区域,并找到右臂区域两端的中点,随后沿着长边做延长线,交汇点即为转折点,右手区域同理。其中,右臂的11号关键点与右手的11号关键点略有偏差,采取两点之间的中点作为最终11号节点的位置。
在本实施例中,基于Unity Humanoid数字人模型,只需要从RGB图像中估计出Unity Humanoid数字人模型的参数即可,Unity Humanoid数字人模型的参数为根节点的三维位置和旋转信息(x,y,z,r x ,r y ,r z )、54个非根节点的三维位置和旋转信息(x,y,z,r x ,r y r z )、相机外参数(尺度缩放系数s和相对于香精的偏移),共6+52×6+3=321个参数。
由于弱透视摄像头不包含深度信息,难以确定骨骼点x的具体数值,因此需要让动捕演员摆出UA-Pose,双臂展开,双手手心朝外,双脚与肩同宽,脚尖朝外,以此时根节点的位置为坐标系原点,即x,y,z,r x ,r y ,r z 的数值均为0,得知Hip点的深度信息即可得知其他子节点的深度信息,在UP-Pose中,获取人体躯干特征区域的面积α,并且设定了当前后发生变化时,躯干面积也会发生变化。根据透视关系,根节点的x值与面积缩放比例成正相关,面积缩小则x值减小,面积放大则x值放大。经测试,躯干面积缩小或放大50%的前后距离大约是3米,因此可得到αx的公式关系为,UA-Pose下计算出的α设定为1。
在本实施例中,通过根节点与其子节点之间的连线关系变化,依次确定子节点的x,y,z,r x ,r y ,r z 的数值。假设根节点为笛卡尔右手坐标系中的原点,在UA-Pose时,子节点与根节点在同一平面上,通过标记出来的连线即可得到子节点与根节点之间的相对位置关系,且子节点与根节点之间的连线在三维空间坐标系的y-z平面上具有投影,当子节点相对于根节点的位置发生变化时,投影会相应的发生改变,根据投影的改变可反向推断出目标对象动作后子节点的新位置,其他子节点基于此方式以此类推即可得到多个子节点的新位置。
上述动作数据生成方法,与MediaPipe相比,该方法可以使用单个RGB摄像头,并直接生成符合Humanoid骨骼标记点的动捕数据,并将动捕数据传输给按照Humanoid骨骼制作的虚拟角色使用,另外,动捕数据打包成SDK格式后,可以接入视频信号,并直接输出相应的动作数据流,无需用户再次进行位置点换算,降低了繁复的换算步骤,具有较好的实用性。与FrankMocap相比,该方法不需要最后在视频上输出3D人物模型,只要输出根节点与子节点之间的连线即可,使得CPU不需要进行大量的位置点识别和换算,因此,该方法在一定程度上降低了CPU的计算负担。
如图11所示,在一个实施例中,一种动作数据生成装置,包括图像获取模块1110、图像处理模块1120、骨骼点标记模块1130、坐标系模块1140、连线获取模块1150以及位置分析模块1160。
图像获取模块1110用于获取第一图像,第一图像中具有目标对象和背景信息。
图像处理模块1120用于获取目标对象的置信度,在置信度超过第一阈值时,通过开源算法将背景信息从第一图像中剔除,保留目标对象,并将剔除后的背景信息填充为标准绿色,以获取第二图像。
骨骼点标记模块1130用于通过UA-Pose对目标对象进行骨骼点标记,以获取骨骼标记点,骨骼标记点分为根节点和多个子节点。
坐标系模块1140用于以根节点为坐标原点构建三维空间坐标系,并基于三维空间坐标系获取第一三维位置坐标,第一三维位置坐标为子节点的三维位置坐标。
连线获取模块1150用于基于第一三维位置坐标获取相邻骨骼标记点之间的连线。
位置分析模块1160用于当目标对象的动作发生改变时,基于连线获取第二三维位置坐标,第二三维位置坐标为目标对象动作后骨骼标记点在三维空间坐标系中的三维位置坐标。
在本实施例中,本申请提供的动作数据生成装置,坐标系模块具体用于:
在第二图像中对目标对象进行骨骼点标记,以获取目标对象的二维骨骼标记点。
将二维骨骼标记点与人形动画数字人模型进行匹配,以生成二维骨骼标记点在三维空间中的空间信息。
基于空间信息,以根节点为原点构建三维空间坐标系。
在本实施例中,本申请提供的动作数据生成装置,还包括第一处理模块,用于:
将第二图像转化为特征矩阵,以获取与特征矩阵相对应的特征向量。
通过卷积神经网络对特征向量进行中心化处理,以获取与特征向量相对应的协方差矩阵。
在本实施例中,本申请提供的动作数据生成装置,还包括第二处理模块,用于:
对协方差矩阵进行特征分解,以获取多个对应的特征根。
通过对抗神经网络对多个特征根进行区分,以获取与待识别特征相对应的特征根以及待识别特征与特征根之间的映射矩阵。
在本实施例中,本申请提供的动作数据生成装置,还包括参数分析模块,用于:
获取图像采集设备参数,图像采集设备参数为RGB摄像头的内外参数。
根据图像采集设备参数以及根节点获取骨骼标记点的欧拉坐标。
在本实施例中,本申请提供的动作数据生成装置,还包括动作数据生成模块,用于:
将骨骼标记点发送至数字人物模型进行匹配,使得数字人物模型具有与目标对象相对应的骨骼标记点。
基于第一三维位置坐标和第二三维位置坐标,获取目标对象的动作数据。
发送动作数据至数字人物模型,以控制数字人物模型执行与目标对象相同的动作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是智能终端,其内部结构图可以如图12所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种动作数据生成方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,一种计算机存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种动作数据生成方法,其特征在于,所述方法包括:
获取第一图像,所述第一图像中具有目标对象和背景信息;
获取由弱透视RGB摄像头捕捉的所述目标对象与所述目标对象的置信度,在所述置信度超过第一阈值时,通过开源算法将所述背景信息从所述第一图像中剔除,保留所述目标对象,并将剔除后的背景信息填充为标准绿色,以获取第二图像;
对所述目标对象进行人体区域划分,划分出左手掌、右手掌、左臂、右臂、左腿、右腿、头、左脚、右脚和躯干共11个特征区域,通过对每个特征区域进行主成分分析,用特征向量按照线性组合表示每一张第一图像中的对应区域;
通过UA-Pose对所述目标对象进行骨骼点标记,以获取骨骼标记点,所述骨骼标记点分为根节点和多个子节点;
以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,所述第一三维位置坐标为所述子节点的三维位置坐标;
基于所述第一三维位置坐标获取相邻骨骼标记点之间的连线;
当所述目标对象的动作发生改变时,基于所述连线获取第二三维位置坐标,所述第二三维位置坐标为目标对象动作后骨骼标记点在所述三维空间坐标系中的三维位置坐标;
其中,所述通过UA-Pose对所述目标对象进行骨骼点标记,以获取骨骼标记点,以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,所述第一三维位置坐标为所述子节点的三维位置坐标,包括:
在不同的特征区域进行骨骼点标记,并获得基础的三维空间坐标,根据根节点和相机参数,获得其他节点的三维空间旋转信息;
所述以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,之后包括:
将所述第二图像转化为特征矩阵,以获取与所述特征矩阵相对应的特征向量;
通过卷积神经网络对所述特征向量进行中心化处理,以获取与所述特征向量相对应的协方差矩阵;
所述通过卷积神经网络对所述特征向量进行中心化处理,以获取与所述特征向量相对应的协方差矩阵,之后包括:
对所述协方差矩阵进行特征分解,以获取多个对应的特征根;
通过对抗神经网络对所述多个特征根进行区分,以获取与待识别特征相对应的特征根以及所述待识别特征与所述特征根之间的映射矩阵。
2.根据权利要求1所述的动作数据生成方法,其特征在于,所述以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,包括:
在所述第二图像中对所述目标对象进行骨骼点标记,以获取所述目标对象的二维骨骼标记点;
将所述二维骨骼标记点与人形动画数字人模型进行匹配,以生成所述二维骨骼标记点在三维空间中的空间信息;
基于所述空间信息,以所述根节点为原点构建三维空间坐标系。
3.根据权利要求1所述的动作数据生成方法,其特征在于,所述基于所述第一三维位置坐标获取相邻骨骼标记点之间的连线,之前还包括:
获取图像采集设备参数,所述图像采集设备参数为RGB摄像头的内外参数;
根据所述图像采集设备参数以及所述根节点获取所述骨骼标记点的欧拉坐标。
4.根据权利要求1至3任一项所述的动作数据生成方法,其特征在于,所述方法还包括:
将所述骨骼标记点发送至数字人物模型进行匹配,使得所述数字人物模型具有与所述目标对象相对应的骨骼标记点;
基于所述第一三维位置坐标和第二三维位置坐标,获取所述目标对象的动作数据。
5.根据权利要求4所述的动作数据生成方法,其特征在于,所述基于所述第一三维位置坐标和第二三维位置坐标,获取所述目标对象的动作数据,之后包括:
发送所述动作数据至所述数字人物模型,以控制所述数字人物模型执行与所述目标对象相同的动作。
6.一种动作数据生成装置,其特征在于,所述装置包括:
图像获取模块,用于获取第一图像,所述第一图像中具有目标对象和背景信息;
图像处理模块,用于获取由弱透视RGB摄像头捕捉的所述目标对象与所述目标对象的置信度,在所述置信度超过第一阈值时,通过开源算法将所述背景信息从所述第一图像中剔除,保留所述目标对象,并将剔除后的背景信息填充为标准绿色,以获取第二图像;对所述目标对象进行人体区域划分,划分出左手掌、右手掌、左臂、右臂、左腿、右腿、头、左脚、右脚和躯干共11个特征区域,通过对每个特征区域进行主成分分析,用特征向量按照线性组合表示每一张第一图像中的对应区域;
骨骼点标记模块,用于通过UA-Pose对所述目标对象进行骨骼点标记,以获取骨骼标记点,所述骨骼标记点分为根节点和多个子节点;
坐标系模块,用于以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,所述第一三维位置坐标为所述子节点的三维位置坐标;
连线获取模块,用于基于所述第一三维位置坐标获取相邻骨骼标记点之间的连线;
位置分析模块,用于当所述目标对象的动作发生改变时,基于所述连线获取第二三维位置坐标,所述第二三维位置坐标为目标对象动作后骨骼标记点在所述三维空间坐标系中的三维位置坐标;
其中,所述通过UA-Pose对所述目标对象进行骨骼点标记,以获取骨骼标记点,以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,所述第一三维位置坐标为所述子节点的三维位置坐标,包括:
在不同的特征区域进行骨骼点标记,并获得基础的三维空间坐标,根据根节点和相机参数,获得其他节点的三维空间旋转信息;
所述以所述根节点为坐标原点构建三维空间坐标系,并基于所述三维空间坐标系获取第一三维位置坐标,之后包括:
将所述第二图像转化为特征矩阵,以获取与所述特征矩阵相对应的特征向量;
通过卷积神经网络对所述特征向量进行中心化处理,以获取与所述特征向量相对应的协方差矩阵;
所述通过卷积神经网络对所述特征向量进行中心化处理,以获取与所述特征向量相对应的协方差矩阵,之后包括:
对所述协方差矩阵进行特征分解,以获取多个对应的特征根;
通过对抗神经网络对所述多个特征根进行区分,以获取与待识别特征相对应的特征根以及所述待识别特征与所述特征根之间的映射矩阵。
7.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
8.一种计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202310609078.2A 2023-05-26 2023-05-26 动作数据生成方法、装置、电子设备及存储介质 Active CN116385663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310609078.2A CN116385663B (zh) 2023-05-26 2023-05-26 动作数据生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310609078.2A CN116385663B (zh) 2023-05-26 2023-05-26 动作数据生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116385663A CN116385663A (zh) 2023-07-04
CN116385663B true CN116385663B (zh) 2023-08-29

Family

ID=86980921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310609078.2A Active CN116385663B (zh) 2023-05-26 2023-05-26 动作数据生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116385663B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268138A (zh) * 2014-05-15 2015-01-07 西安工业大学 融合深度图和三维模型的人体运动捕捉方法
CN104680570A (zh) * 2015-03-24 2015-06-03 东北大学 一种基于视频的动作捕捉***及方法
CN110176062A (zh) * 2019-05-05 2019-08-27 北京当红齐天国际文化发展集团有限公司 一种基于运动捕捉数据的虚拟人体的控制方法
CN114613013A (zh) * 2022-03-18 2022-06-10 长沙理工大学 一种基于骨骼节点的端到端人类行为识别方法与模型
CN114821767A (zh) * 2022-03-18 2022-07-29 杭州自适应科技有限公司 基于动态时间扭曲的图卷积神经网络动作识别方法、电子设备及储存介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115799B (zh) * 2020-08-24 2023-12-26 青岛小鸟看看科技有限公司 基于标记点的三维手势的识别方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268138A (zh) * 2014-05-15 2015-01-07 西安工业大学 融合深度图和三维模型的人体运动捕捉方法
CN104680570A (zh) * 2015-03-24 2015-06-03 东北大学 一种基于视频的动作捕捉***及方法
CN110176062A (zh) * 2019-05-05 2019-08-27 北京当红齐天国际文化发展集团有限公司 一种基于运动捕捉数据的虚拟人体的控制方法
CN114613013A (zh) * 2022-03-18 2022-06-10 长沙理工大学 一种基于骨骼节点的端到端人类行为识别方法与模型
CN114821767A (zh) * 2022-03-18 2022-07-29 杭州自适应科技有限公司 基于动态时间扭曲的图卷积神经网络动作识别方法、电子设备及储存介质

Also Published As

Publication number Publication date
CN116385663A (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN109636831B (zh) 一种估计三维人体姿态及手部信息的方法
US8135209B2 (en) Articulated object position and posture estimation device, method and program
US20170330375A1 (en) Data Processing Method and Apparatus
JP7015152B2 (ja) キーポイントデータに関する加工装置、方法及びプログラム
CN111862299A (zh) 人体三维模型构建方法、装置、机器人和存储介质
US8086027B2 (en) Image processing apparatus and method
KR101711736B1 (ko) 영상에서 동작 인식을 위한 특징점 추출 방법 및 골격 정보를 이용한 사용자 동작 인식 방법
Wei et al. Modeling 3d human poses from uncalibrated monocular images
EP4307233A1 (en) Data processing method and apparatus, and electronic device and computer-readable storage medium
CN110874865A (zh) 三维骨架生成方法和计算机设备
KR101639161B1 (ko) 골격 정보를 이용한 사용자 인증 방법
CN113628327A (zh) 一种头部三维重建方法及设备
KR20230078777A (ko) 3차원 재구성 방법, 장치와 시스템, 매체 및 컴퓨터 기기
CN109655011B (zh) 一种人体建模维度测量的方法及***
CN111815768B (zh) 三维人脸重建方法和装置
CN111680573B (zh) 人脸识别方法、装置、电子设备和存储介质
CN112401369A (zh) 基于人体重建的身体参数测量方法、***、设备、芯片及介质
WO2022018811A1 (ja) 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
CN116385663B (zh) 动作数据生成方法、装置、电子设备及存储介质
CN115049764B (zh) Smpl参数预测模型的训练方法、装置、设备及介质
CN115880766A (zh) 姿态迁移、姿态迁移模型训练方法、装置和存储介质
Wang et al. Im2fit: Fast 3d model fitting and anthropometrics using single consumer depth camera and synthetic data
JP2022092528A (ja) 三次元人物姿勢推定装置、方法およびプログラム
US20230290101A1 (en) Data processing method and apparatus, electronic device, and computer-readable storage medium
Jian et al. Realistic face animation generation from videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant