CN115344113A - 多视角人体运动捕捉方法、装置、***、介质及终端 - Google Patents
多视角人体运动捕捉方法、装置、***、介质及终端 Download PDFInfo
- Publication number
- CN115344113A CN115344113A CN202110522428.2A CN202110522428A CN115344113A CN 115344113 A CN115344113 A CN 115344113A CN 202110522428 A CN202110522428 A CN 202110522428A CN 115344113 A CN115344113 A CN 115344113A
- Authority
- CN
- China
- Prior art keywords
- view
- human body
- human
- motion capture
- video signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000005236 sound signal Effects 0.000 claims abstract description 37
- 230000001360 synchronised effect Effects 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000005457 optimization Methods 0.000 claims abstract description 16
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/01—Indexing scheme relating to G06F3/01
- G06F2203/012—Walk-in-place systems for allowing a user to walk in a virtual environment while constraining him to a given position in the physical environment
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Image Processing (AREA)
Abstract
本发明提供多视角人体运动捕捉方法、装置、***、介质及终端,包括:获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号;基于所述音频信号消除所述多视角视频信号的时间差,以获取多视角同步视频信号;从所述多视角同步视频信号中提取对应的多视角2D人体关键点;获取所述2D人体关键点各个视角之间的关联信息;基于所述关联信息进行最优化计算,以获取3D人体姿态信息。本发明只需普通的RGB摄像头即可进行捕捉;缓解了自遮挡问题,具有更高的捕捉精准度;相较于使用惯性传感器进行运动捕捉具有较好的实时性、更低的使用门槛以及更大的识别范围且不限制人数;减少可穿戴设备,可以改善使用者的使用体验,并具有更高的活动自由度。
Description
技术领域
本发明涉及人体运动捕捉技术领域,特别是涉及一种多视角人体运动捕捉方法、装置、***、介质及终端。
背景技术
随着虚拟现实(VR)和增强现实(AR)的普及,产业界对于可靠的3D人体运动捕捉的需求越来越大。作为广泛使用的基于标记(Marker-Based)和传感器(Sensor-Based)的运动捕捉解决方案的低成本替代品,无标记光学运动捕捉减轻了对具有侵入性的穿戴式运动传感器和标记的需求。
现有的无标记光学运动捕捉技术多采用单视角运动捕捉方法,存在自遮挡问题,捕捉精准度较差,并且捕捉设备要求具有深度传感器,实施成本较高。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供多视角人体运动捕捉方法、装置、***、介质及终端,用于解决现有技术中的人体运动捕捉精度不足的技术问题。
为实现上述目的及其它相关目的,本发明的第一方面提供一种多视角人体运动捕捉方法,包括:获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号;基于所述音频信号消除所述多视角视频信号的时间差,以获取多视角同步视频信号;从所述多视角同步视频信号中提取对应的多视角2D人体关键点;获取所述多视角2D人体关键点之间的关联信息;基于所述关联信息进行最优化计算,以获取所述待捕捉对象的3D人体姿态信息。
于本发明的第一方面的一些实施例中,所述音频信号为高频音频信号;所述多视角视频信号的画面时间同步方式包括:基于所述视频信号的时间戳确定其粗差;将各视频信号对应的所述高频音频信号与理想高频特征声波进行卷积计算,以确定视频信号之间的精细误差;结合所述精细误差和所述粗差实现多视角视频信号的帧级别画面时间同步。
于本发明的第一方面的一些实施例中,所述3D人体姿态信息的获取方式包括:构建3D人体姿态估计模型,并在其上标记3D人体关键点;预定义一能量函数,其包括:2D关键点项、时序稳定项、姿态先验项和关节限制项;所述2D关键点项与所述3D人体关键点投影到各个视角下的2D像素坐标与其对应的2D人体关键点距离相关;所述时序稳定项与所述运动捕捉在时序上的连续性相关;所述姿态先验项与关节旋转真实度相关;所述关节限制项与关节旋转角度相关;对所述能量函数进行最优化计算以获取所述3D人体姿态信息。
于本发明的第一方面的一些实施例中,所述关联信息的获取方式包括:构建自底向上的基于RGB数据的2D人体姿态估计模型;利用所述2D人体姿态估计模型从所述多视角同步视频信号中提取对应的2D人体关键点和关键点之间的连接分数;整合多视角的所述2D人体关键点和关键点之间的连接分数,建立邻边权重为对应2D人体关键点对的连接分数的带权无向图模型;最大化所述带权无向图模型生成子树的权重,以获取所述关联信息。
于本发明的第一方面的一些实施例中,所述多视角视频信号及各视频信号对应的音频信号由多台移动设备从多个角度拍摄获取,并分别以推流的形式被独立地传递至服务器,以实时捕捉所述3D人体姿态信息。
于本发明的第一方面的一些实施例中,所述方法包括:基于所述3D人体姿态信息捕捉获取人体动作数据,包括面部动作数据和肢体动作数据。
为实现上述目的及其它相关目的,本发明的第二方面提供一种多视角人体运动捕捉装置,包括:信号获取模块,用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号;信号同步模块,用于基于所述音频信号消除所述多视角视频信号的时间差,以获取多视角同步视频信号;关键点提取模块,用于从所述多视角同步视频信号中提取对应的多视角2D人体关键点;关联信息获取模块,用于获取所述多视角2D人体关键点之间的关联信息;人体姿态信息获取模块,用于基于所述关联信息进行最优化计算,以获取所述待捕捉对象的3D人体姿态信息。
为实现上述目的及其它相关目的,本发明的第三方面提供一种多视角人体运动捕捉***,包括:多个视频信号采集装置,用于采集待捕捉对象的视频信号;音频信号发生装置,用于发出高频特征声波信号;前述的多视角人体运动捕捉装置,用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号;基于所述音频信号消除所述多视角视频信号的时间差,以获取多视角同步视频信号;从所述多视角同步视频信号中提取对应的多视角2D人体关键点;获取所述多视角2D人体关键点之间的关联信息;基于所述关联信息进行最优化计算,以获取所述待捕捉对象的3D人体姿态信息。
为实现上述目的及其它相关目的,本发明的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述多视角人体运动捕捉方法。
为实现上述目的及其它相关目的,本发明的第五方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述多视角人体运动捕捉方法。
如上所述,本发明提出的多视角人体运动捕捉方法、装置、***、介质及终端,只需普通的RGB摄像头即可进行捕捉,对于移动设备是否具有深度传感器不做要求。相比单视角运动捕捉技术,本发明缓解了自遮挡问题,具有更高的捕捉精准度。相比其他大部分多视角运动捕捉技术,本发明具有较好的实时性。相比使用惯性传感器(如陀螺仪),本发明具有更低的使用门槛,只需使用者具有几台移动设备;可以达到相似甚至更高的捕捉精度,以及更大的识别范围;减少可穿戴设备,可以改善使用者的使用体验,并具有更高的活动自由度;不限制人数,捕捉人数增加时不需要增加移动设备。
附图说明
图1显示为本发明一实施例中一种多视角人体运动捕捉方法流程示意图。
图2显示为本发明一实施例中另一种多视角人体运动捕捉方法流程示意图。
图3显示为本发明一实施例中一种多视角人体运动捕捉装置结构示意图。
图4显示为本发明一实施例中一种多视角人体运动捕捉***结构示意图。
图5显示为本发明一实施例中一种电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本发明的若干实施例。应当理解,还可使用其它实施例,并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本发明。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其它特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本发明提出一种以移动设备作为输入端的基于多视角的人体运动捕捉方法、装置、***、介质及终端,可以缓解现有技术中人体运动捕捉精度不足、对设备要求高、实时性差、受待捕捉人数影响较大等技术问题。
为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,本实施例提出一种多视角人体运动捕捉方法流程示意图,其包括步骤S11~S15,可具体表述如下:
步骤S11.获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号,具体可以是接收获取外界传输的多视角音视频信号,也可以是采用多台移动设备(如手机、平板电脑等)直接采集多视角音视频信号。其中,所述移动设备配置有摄像模组,所述摄像模组包括摄像装置、存储装置和处理装置,所述摄像装置包括但不限于:照相机、视频摄像机、集成有光学***或CCD芯片的摄像模块、集成有光学***和CMOS芯片的摄像模块等。
在一些示例中,可选定多台移动设备中的-台作为音频信号的发射源,也可单独另设一移动设备作为音频信号的发射源,如扬声器、语音播报设备、音乐播放器等。优选的,所述音频信号为高频音频信号,其具有指向性较强、传播距离较短的特点,设于待捕捉对象周围、由进行多角度视频拍摄的多个移动设备接收的同时,可避免产生不必要的环境干扰,尤其适用于本发明中的应用。
在本实施例较佳的实施方式中,各移动设备录制多视角的带RGB信息的画面,并且每台设备将所采集的信号独立推流至服务器,即采用RGB(红、绿、蓝)颜色空间,每种颜色都通过这三个变量其颜色和强度,从而记录及显示所采集的视频彩色图像。
步骤S12.基于所述音频信号消除所述多视角视频信号的时间差,以获取多视角同步视频信号。具体的,首先通过将多视角视频中的音频信号完成同步,进而借助同步的音频实现多视角视频的画面同步。
在本实施例较佳的实施方式中,所述多视角视频信号的画面时间同步方式包括:基于所述视频信号的时间戳确定其粗差;将各视频信号对应的所述高频音频信号与理想高频特征声波进行卷积计算,以确定视频信号之间的精细误差;结合所述精细误差和所述粗差实现多视角视频信号的帧级别画面时间同步,从而得到多视角同步视频信号。在泛函分析中,卷积是指通过两个函数f和g生成第三个函数的一种数学算子,表征函数f与g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。
步骤S13.从所述多视角同步视频信号中提取对应的多视角2D人体关键点。无标记光学运动捕捉的实现得益于近年来深度神经网络(Deep Neural Networks)的发展与普及,深度神经网络作为万能函数逼近器,使得基于人体RGB特征的2D人体关键点提取成为可能。通过大规模RGB数据采集收集和其对应的人工标注的2D人体关键点位置,训练深度神经网络自动学习出RGB数据到2D人体关键点的映射关系,从而能够直接从消费级彩色相机采集的RGB信息提取出2D人体关键点信息。
在本实施例较佳的实施方式中,构建自底向上的基于RGB数据的2D人体姿态估计模型;利用所述2D人体姿态估计模型从所述多视角同步视频信号中提取对应的2D人体关键点和关键点之间的连接分数。
步骤S14.获取所述多视角2D人体关键点之间的关联信息。基于多视角的2D人体关键点信息的解析是实现稳定与健壮的3D姿态估计的关键。通过神经网络获得的2D人体关键点信息由于维度受限,对于三维位姿的约束具有单一性和有限性;并且由于人体非刚体运动的复杂性、自遮挡以及多重解问题严重。针对以上两点,通过整合多个视角的2D人体关键点,获取不同视角2D人体关键点之间的关联信息,能够极大地减轻自遮挡问题,并且减少3D姿态非最优解的数量,实现稳定且健壮的实时3D姿态估计。
在本实施例较佳的实施方式中,整合多视角的所述2D人体关键点和关键点之间的连接分数,建立邻边权重为对应2D人体关键点对的连接分数的带权无向图模型;最大化所述带权无向图模型生成子树的权重,以获取所述关联信息。
在本实施例较佳的实施方式中,基于运动学(Kinematics)的参数化骨架模型是实现虚拟形象驱动的关键。优选的,利用大量基于学习的人体网格模型,回归出多个人体骨骼关节点(一般为16个或24个),然后通过运动学树型结构构建整个人体骨架模型。本优选的人体骨架模型与手工设计的骨架相比,保留了真实的人体先验信息,使得运动捕捉结果更加精确且具有可解释性。基于构建出的人体骨架模型,通过在对应的关节点上贴点作为3D标记,来建立骨架与姿态估计关键点的联系。
步骤S15.基于所述关联信息进行最优化计算,以获取所述待捕捉对象的3D人体姿态信息。可选的优化算法有梯度下降算法、牛顿法、模拟退火算法、蚁群算法、遗传算法等等。本实施例优选最小二乘法,通过最小化误差的平方和找到数据的最佳函数匹配,并通过高斯牛顿迭代法求解非线性最小二乘回归模型的回归参数,使用泰勒级数展开式去近似地代替非线性回归模型,然后通过多次迭代,多次修正回归系数,使回归系数不断逼近非线性回归模型的最佳回归系数,最后使原模型的残差平方和达到最小。
在本实施例较佳的实施方式中,所述3D人体姿态信息的获取方式:构建3D人体姿态估计模型,并在其上标记3D人体关键点;预定义一能量函数E(θ),其包括:2D关键点项E2D(θ)、时序稳定项Etemp(θ)、姿态先验项Eprior(θ)和关节限制项Elimit(θ);所述2D关键点项E2D(θ)与所述3D人体关键点投影到各个视角下的2D像素坐标与其对应的2D人体关键点距离相关;所述时序稳定项Etemp(θ)与所述运动捕捉在时序上的连续性相关;所述姿态先验项Eprior(θ)与关节旋转真实度相关;所述关节限制项Elimit(θ)与关节旋转角度相关;对所述能量函数进行最优化计算以获取所述3D人体姿态信息。
具体的,能量函数E(θ)表示如下:
E(θ)=λ2DE2D(θ)+tempEtemp(θ)+λpriorEprior(θ)+λlimitElimit(θ);
Eprior(θ)=(θ-μθ)T∑θ -1(θ-μθ);
其中,Jj(θ)表示参数化骨架模型根据参数θ通过前向动力学(ForwardKinematics)计算出的第j个3D标记的位置;πv(·)表示将3D标记投影到第v个视角像素平面的投影函数;pv,j表示神经网络模型从第v个视角RGB中提取的第j个2D关键点的像素平面坐标;Nv表示使用的视角总数;Nj表示绑定的3D标记的总数;μθ表示姿态均值;∑θ表示协方差矩阵;
θlower与θupper分别表示旋转自由度对应的欧拉角的下界和上界;λ2D,λtemnp,λprior和λlimit分别为能量函数E(θ)的权重超参数,用于平衡各项能量对优化结果的影响。
还需说明的是,2D关键点项E2D(θ)的作用是使得3D骨架上绑定的3D标记投影到各个视角下的2D像素坐标,与其对应的由2D人体姿态估计模型提取出的人体关键点尽可能相近;时序稳定项Etemp(θ)的作用是尽可能保持运动捕捉在时序上的连续性,减轻抖动;姿态先验项Eprior(θ)的作用是使骨架关节旋转尽可能自然,尽可能地模拟真实的人体姿态;
在本实施例较佳实施方式中,采用多元正态分布作为姿态先验项,其姿态均值μθ和协方差矩阵∑θ从大量扫描人体数据中回归而来。优选马氏距离(MahalanobisDistance)来衡量给定姿态θ的似然,其可以用于度量样本点与概率分布的距离。其中,关节限制项与姿态先验项作用相似,区别在于关节限制项显式地对关节旋转限制进行建模,当关节旋转越过限制时,可以产生一个反力对旋转进行矫正。
在本实施例较佳实施方式中,基于所获取的待捕捉对象的3D人体姿态信息,捕捉获取人体动作数据,如人体的面部动作数据和肢体动作数据等等。进一步地,可将所获得的运动捕捉数据通过网络流传输给多种引擎(如Unity、Unreal等),实时驱动并渲染人物模型。本实施方式中基于获取的3D人体姿态信息能够实时捕捉多人的面部表情以及肢体动作,进而推流至多种引擎(如Unity、Unreal等)实时驱动人物模型,具有较高的实时性。
为进一步说明本实施例提出的方法,如图2所示,本实施例还给出另一种多视角人体运动捕捉方法的流程示意图,从设备端和服务器端两端进行解释说明。其中,设备端选取多台具有摄像头的移动设备,其中一台作为高频音波发射源发出高频特征声波,其余设备对待捕捉对象进行多视角RGB/RGBD视频录制;多台移动设备分别将所获取的音视频信号推流发送至服务器端。服务器端利用其中的特征音频实现多设备画面帧同步;并使用神经网络提取其中的2D人体关键点信息,进而建立多视角多序列帧2D数据之间的关联;然后使用高斯牛顿迭代法优化出3D人体姿态信息,进而将运动捕捉数据通过网络流传输给其它虚拟引擎(驱动引擎、渲染引擎等),从而驱动并渲染人物模型。
在一些实施方式中,所述方法可应用于控制器,所述电控单元例如为ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(MicrocontrollerUnit)控制器等等。在一些实施方式中,所述方法也可应用于包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子***、显示屏、其它输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述方法还可应用于服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成。
实施例二
如图3所示,本实施例提出一种多视角人体运动捕捉装置结构示意图,其包括:信号获取模块31,用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号;信号同步模块32,用于基于所述音频信号消除所述多视角视频信号的时间差,以获取多视角同步视频信号;关键点提取模块33,用于从所述多视角同步视频信号中提取对应的多视角2D人体关键点;关联信息获取模块34,用于获取所述多视角2D人体关键点之间的关联信息;人体姿态信息获取模块35,用于基于所述关联信息进行最优化计算,以获取所述待捕捉对象的3D人体姿态信息。
需要说明的是,本实施例提供的模块与上文中提供的方法、实施方式类似,故不再赘述。另外需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,关键点提取模块33可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上关键点提取模块33的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
实施例三
如图4所示,本实施例提出一种多视角人体运动捕捉***的结构示意图,其包括:音频信号发生装置41,用于发出高频特征声波信号;多个视频信号采集装置42,用于采集待捕捉对象的视频信号;如前所述的多视角人体运动捕捉装置43,用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号;基于所述音频信号消除所述多视角视频信号的时间差,以获取多视角同步视频信号;从所述多视角同步视频信号中提取对应的多视角2D人体关键点;获取所述多视角2D人体关键点之间的关联信息;基于所述关联信息进行最优化计算,以获取所述待捕捉对象的3D人体姿态信息。
实施例四
本实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上多视角人体运动捕捉方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
实施例五
如图5所示,本发明实施例提供一种电子终端的结构示意图。本实施例提供的电子终端,包括:处理器51、存储器52、通信器53;存储器52通过***总线与处理器51和通信器53连接并完成相互间的通信,存储器52用于存储计算机程序,通信器53用于和其它设备进行通信,处理器51用于运行计算机程序,使电子终端执行如上多视角人体运动捕捉方法的各个步骤。
上述提到的***总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该***总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其它设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明提供多视角人体运动捕捉方法、装置、***、介质及终端,通过多台移动设备进行数据采集,并且对于移动设备是否具有深度传感器不做要求,使用移动设备采集RGB音视频数据,这些数据将以推流的形式被独立地传递至服务器,而后服务器通过音频确定精细误差、时间戳确定粗差的方式实现帧级别的多设备采集信息的时间轴对准,并根据同步之后的多视角RGB信息提取2D人体关键点信息,将多视角多序列帧数据关联,再使用非线性最小二乘优化算法得到3D人体姿态,进而实现面部、手部等肢体动作的实时捕捉。与现有运动捕捉方案相比,具有以下有益效果:1)只需普通的RGB摄像头即可进行捕捉,对于移动设备是否具有深度传感器不做要求;2)相比单视角运动捕捉技术,缓解了自遮挡问题,具有更高的捕捉精准度;3)具有较好的实时性;4)不限制人数,捕捉人数增加时不需要增加移动设备;5)可以推流至多种引擎(如Unity、Unreal等)实时驱动人物模型。因此,本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种多视角人体运动捕捉方法,其特征在于,包括:
获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号;
基于所述音频信号消除所述多视角视频信号的时间差,以获取多视角同步视频信号;
从所述多视角同步视频信号中提取对应的多视角2D人体关键点;
获取所述多视角2D人体关键点之间的关联信息;
基于所述关联信息进行最优化计算,以获取所述待捕捉对象的3D人体姿态信息。
2.根据权利要求1所述的多视角人体运动捕捉方法,其特征在于,所述音频信号为高频音频信号;所述多视角视频信号的画面时间同步方式包括:
基于所述视频信号的时间戳确定其粗差;
将各视频信号对应的所述高频音频信号与理想高频特征声波进行卷积计算,以确定视频信号之间的精细误差;
结合所述精细误差和所述粗差实现多视角视频信号的帧级别画面时间同步。
3.根据权利要求1所述的多视角人体运动捕捉方法,其特征在于,所述3D人体姿态信息的获取方式包括:
构建3D人体姿态估计模型,并在其上标记3D人体关键点;
预定义一能量函数,其包括:2D关键点项、时序稳定项、姿态先验项和关节限制项;所述2D关键点项与所述3D人体关键点投影到各个视角下的2D像素坐标与其对应的2D人体关键点距离相关;所述时序稳定项与所述运动捕捉在时序上的连续性相关;所述姿态先验项与关节旋转真实度相关;所述关节限制项与关节旋转角度相关;
对所述能量函数进行最优化计算以获取所述3D人体姿态信息。
4.根据权利要求1所述的多视角人体运动捕捉方法,其特征在于,所述关联信息的获取方式包括:
构建自底向上的基于RGB数据的2D人体姿态估计模型;
利用所述2D人体姿态估计模型从所述多视角同步视频信号中提取对应的2D人体关键点和关键点之间的连接分数;
整合多视角的所述2D人体关键点和关键点之间的连接分数,建立邻边权重为对应2D人体关键点对的连接分数的带权无向图模型;
最大化所述带权无向图模型生成子树的权重,以获取所述关联信息。
5.根据权利要求1所述的多视角人体运动捕捉方法,其特征在于,所述多视角视频信号及各视频信号对应的音频信号由多台移动设备从多个角度拍摄获取,并分别以推流的形式被独立地传递至服务器,以实时捕捉所述3D人体姿态信息。
6.根据权利要求1所述的多视角人体运动捕捉方法,其特征在于,包括:基于所述3D人体姿态信息捕捉获取人体动作数据,包括面部动作数据和肢体动作数据。
7.一种多视角人体运动捕捉装置,其特征在于,包括:
信号获取模块,用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号;
信号同步模块,用于基于所述音频信号消除所述多视角视频信号的时间差,以获取多视角同步视频信号;
关键点提取模块,用于从所述多视角同步视频信号中提取对应的多视角2D人体关键点;
关联信息获取模块,用于获取所述多视角2D人体关键点之间的关联信息;
人体姿态信息获取模块,用于基于所述关联信息进行最优化计算,以获取所述待捕捉对象的3D人体姿态信息。
8.一种多视角人体运动捕捉***,其特征在于,包括:
多个视频信号采集装置,用于采集待捕捉对象的视频信号;
音频信号发生装置,用于发出高频特征声波信号;
如权利要求7所述的捕捉装置,用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号;基于所述音频信号消除所述多视角视频信号的时间差,以获取多视角同步视频信号;从所述多视角同步视频信号中提取对应的多视角2D人体关键点;获取所述多视角2D人体关键点之间的关联信息;基于所述关联信息进行最优化计算,以获取所述待捕捉对象的3D人体姿态信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述多视角人体运动捕捉方法。
10.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至6中任一项所述多视角人体运动捕捉方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522428.2A CN115344113A (zh) | 2021-05-13 | 2021-05-13 | 多视角人体运动捕捉方法、装置、***、介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522428.2A CN115344113A (zh) | 2021-05-13 | 2021-05-13 | 多视角人体运动捕捉方法、装置、***、介质及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115344113A true CN115344113A (zh) | 2022-11-15 |
Family
ID=83946979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110522428.2A Pending CN115344113A (zh) | 2021-05-13 | 2021-05-13 | 多视角人体运动捕捉方法、装置、***、介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115344113A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117420917A (zh) * | 2023-12-19 | 2024-01-19 | 烟台大学 | 基于手部骨架的虚拟现实控制方法、***、设备及介质 |
-
2021
- 2021-05-13 CN CN202110522428.2A patent/CN115344113A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117420917A (zh) * | 2023-12-19 | 2024-01-19 | 烟台大学 | 基于手部骨架的虚拟现实控制方法、***、设备及介质 |
CN117420917B (zh) * | 2023-12-19 | 2024-03-08 | 烟台大学 | 基于手部骨架的虚拟现实控制方法、***、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11994377B2 (en) | Systems and methods of locating a control object appendage in three dimensional (3D) space | |
US10565784B2 (en) | Systems and methods for authenticating a user according to a hand of the user moving in a three-dimensional (3D) space | |
AU2018292610B2 (en) | Method and system for performing simultaneous localization and mapping using convolutional image transformation | |
US20200050965A1 (en) | System and method for capture and adaptive data generation for training for machine vision | |
CN109887003B (zh) | 一种用于进行三维跟踪初始化的方法与设备 | |
EP3113114B1 (en) | Image processing method and device | |
WO2022147976A1 (zh) | 三维重建及相关交互、测量方法和相关装置、设备 | |
US8442307B1 (en) | Appearance augmented 3-D point clouds for trajectory and camera localization | |
US8269722B2 (en) | Gesture recognition system and method thereof | |
Barandiaran et al. | Real-time optical markerless tracking for augmented reality applications | |
CN108229416B (zh) | 基于语义分割技术的机器人slam方法 | |
WO2023071964A1 (zh) | 数据处理方法, 装置, 电子设备及计算机可读存储介质 | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及*** | |
Ren et al. | Change their perception: RGB-D for 3-D modeling and recognition | |
US11403781B2 (en) | Methods and systems for intra-capture camera calibration | |
CN109785373A (zh) | 一种基于散斑的六自由度位姿估计***及方法 | |
US11403768B2 (en) | Method and system for motion prediction | |
Chang et al. | Salgaze: Personalizing gaze estimation using visual saliency | |
CN110188630A (zh) | 一种人脸识别方法和相机 | |
CN115344113A (zh) | 多视角人体运动捕捉方法、装置、***、介质及终端 | |
Wang et al. | Handling occlusion and large displacement through improved RGB-D scene flow estimation | |
CN112288817A (zh) | 基于图像的三维重建处理方法及装置 | |
CN113674395A (zh) | 一种基于单目rgb摄像头3d手部轻量级实时捕捉重建*** | |
WO2024087917A1 (zh) | 位姿确定方法及装置、计算机可读存储介质和电子设备 | |
Nobar | Precise Hand Finger Width Estimation via RGB-D Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |