CN115344113A

CN115344113A - 多视角人体运动捕捉方法、装置、***、介质及终端

Info

Publication number: CN115344113A
Application number: CN202110522428.2A
Authority: CN
Inventors: 梁瀚; 黄程宇; 张启煊; 吴迪; 许岚; 虞晶怡
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-11-15

Abstract

本发明提供多视角人体运动捕捉方法、装置、***、介质及终端，包括：获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号；基于所述音频信号消除所述多视角视频信号的时间差，以获取多视角同步视频信号；从所述多视角同步视频信号中提取对应的多视角2D人体关键点；获取所述2D人体关键点各个视角之间的关联信息；基于所述关联信息进行最优化计算，以获取3D人体姿态信息。本发明只需普通的RGB摄像头即可进行捕捉；缓解了自遮挡问题，具有更高的捕捉精准度；相较于使用惯性传感器进行运动捕捉具有较好的实时性、更低的使用门槛以及更大的识别范围且不限制人数；减少可穿戴设备，可以改善使用者的使用体验，并具有更高的活动自由度。

Description

多视角人体运动捕捉方法、装置、***、介质及终端

技术领域

本发明涉及人体运动捕捉技术领域，特别是涉及一种多视角人体运动捕捉方法、装置、***、介质及终端。

背景技术

随着虚拟现实(VR)和增强现实(AR)的普及，产业界对于可靠的3D人体运动捕捉的需求越来越大。作为广泛使用的基于标记(Marker-Based)和传感器(Sensor-Based)的运动捕捉解决方案的低成本替代品，无标记光学运动捕捉减轻了对具有侵入性的穿戴式运动传感器和标记的需求。

现有的无标记光学运动捕捉技术多采用单视角运动捕捉方法，存在自遮挡问题，捕捉精准度较差，并且捕捉设备要求具有深度传感器，实施成本较高。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供多视角人体运动捕捉方法、装置、***、介质及终端，用于解决现有技术中的人体运动捕捉精度不足的技术问题。

为实现上述目的及其它相关目的，本发明的第一方面提供一种多视角人体运动捕捉方法，包括：获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号；基于所述音频信号消除所述多视角视频信号的时间差，以获取多视角同步视频信号；从所述多视角同步视频信号中提取对应的多视角2D人体关键点；获取所述多视角2D人体关键点之间的关联信息；基于所述关联信息进行最优化计算，以获取所述待捕捉对象的3D人体姿态信息。

于本发明的第一方面的一些实施例中，所述音频信号为高频音频信号；所述多视角视频信号的画面时间同步方式包括：基于所述视频信号的时间戳确定其粗差；将各视频信号对应的所述高频音频信号与理想高频特征声波进行卷积计算，以确定视频信号之间的精细误差；结合所述精细误差和所述粗差实现多视角视频信号的帧级别画面时间同步。

于本发明的第一方面的一些实施例中，所述3D人体姿态信息的获取方式包括：构建3D人体姿态估计模型，并在其上标记3D人体关键点；预定义一能量函数，其包括：2D关键点项、时序稳定项、姿态先验项和关节限制项；所述2D关键点项与所述3D人体关键点投影到各个视角下的2D像素坐标与其对应的2D人体关键点距离相关；所述时序稳定项与所述运动捕捉在时序上的连续性相关；所述姿态先验项与关节旋转真实度相关；所述关节限制项与关节旋转角度相关；对所述能量函数进行最优化计算以获取所述3D人体姿态信息。

于本发明的第一方面的一些实施例中，所述关联信息的获取方式包括：构建自底向上的基于RGB数据的2D人体姿态估计模型；利用所述2D人体姿态估计模型从所述多视角同步视频信号中提取对应的2D人体关键点和关键点之间的连接分数；整合多视角的所述2D人体关键点和关键点之间的连接分数，建立邻边权重为对应2D人体关键点对的连接分数的带权无向图模型；最大化所述带权无向图模型生成子树的权重，以获取所述关联信息。

于本发明的第一方面的一些实施例中，所述多视角视频信号及各视频信号对应的音频信号由多台移动设备从多个角度拍摄获取，并分别以推流的形式被独立地传递至服务器，以实时捕捉所述3D人体姿态信息。

于本发明的第一方面的一些实施例中，所述方法包括：基于所述3D人体姿态信息捕捉获取人体动作数据，包括面部动作数据和肢体动作数据。

为实现上述目的及其它相关目的，本发明的第二方面提供一种多视角人体运动捕捉装置，包括：信号获取模块，用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号；信号同步模块，用于基于所述音频信号消除所述多视角视频信号的时间差，以获取多视角同步视频信号；关键点提取模块，用于从所述多视角同步视频信号中提取对应的多视角2D人体关键点；关联信息获取模块，用于获取所述多视角2D人体关键点之间的关联信息；人体姿态信息获取模块，用于基于所述关联信息进行最优化计算，以获取所述待捕捉对象的3D人体姿态信息。

为实现上述目的及其它相关目的，本发明的第三方面提供一种多视角人体运动捕捉***，包括：多个视频信号采集装置，用于采集待捕捉对象的视频信号；音频信号发生装置，用于发出高频特征声波信号；前述的多视角人体运动捕捉装置，用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号；基于所述音频信号消除所述多视角视频信号的时间差，以获取多视角同步视频信号；从所述多视角同步视频信号中提取对应的多视角2D人体关键点；获取所述多视角2D人体关键点之间的关联信息；基于所述关联信息进行最优化计算，以获取所述待捕捉对象的3D人体姿态信息。

为实现上述目的及其它相关目的，本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述多视角人体运动捕捉方法。

为实现上述目的及其它相关目的，本发明的第五方面提供一种电子终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述多视角人体运动捕捉方法。

如上所述，本发明提出的多视角人体运动捕捉方法、装置、***、介质及终端，只需普通的RGB摄像头即可进行捕捉，对于移动设备是否具有深度传感器不做要求。相比单视角运动捕捉技术，本发明缓解了自遮挡问题，具有更高的捕捉精准度。相比其他大部分多视角运动捕捉技术，本发明具有较好的实时性。相比使用惯性传感器(如陀螺仪)，本发明具有更低的使用门槛，只需使用者具有几台移动设备；可以达到相似甚至更高的捕捉精度，以及更大的识别范围；减少可穿戴设备，可以改善使用者的使用体验，并具有更高的活动自由度；不限制人数，捕捉人数增加时不需要增加移动设备。

附图说明

图1显示为本发明一实施例中一种多视角人体运动捕捉方法流程示意图。

图2显示为本发明一实施例中另一种多视角人体运动捕捉方法流程示意图。

图3显示为本发明一实施例中一种多视角人体运动捕捉装置结构示意图。

图4显示为本发明一实施例中一种多视角人体运动捕捉***结构示意图。

图5显示为本发明一实施例中一种电子终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本发明的若干实施例。应当理解，还可使用其它实施例，并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本发明。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其它特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

本发明提出一种以移动设备作为输入端的基于多视角的人体运动捕捉方法、装置、***、介质及终端，可以缓解现有技术中人体运动捕捉精度不足、对设备要求高、实时性差、受待捕捉人数影响较大等技术问题。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，本实施例提出一种多视角人体运动捕捉方法流程示意图，其包括步骤S11～S15，可具体表述如下：

步骤S11.获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号，具体可以是接收获取外界传输的多视角音视频信号，也可以是采用多台移动设备(如手机、平板电脑等)直接采集多视角音视频信号。其中，所述移动设备配置有摄像模组，所述摄像模组包括摄像装置、存储装置和处理装置，所述摄像装置包括但不限于：照相机、视频摄像机、集成有光学***或CCD芯片的摄像模块、集成有光学***和CMOS芯片的摄像模块等。

在一些示例中，可选定多台移动设备中的-台作为音频信号的发射源，也可单独另设一移动设备作为音频信号的发射源，如扬声器、语音播报设备、音乐播放器等。优选的，所述音频信号为高频音频信号，其具有指向性较强、传播距离较短的特点，设于待捕捉对象周围、由进行多角度视频拍摄的多个移动设备接收的同时，可避免产生不必要的环境干扰，尤其适用于本发明中的应用。

在本实施例较佳的实施方式中，各移动设备录制多视角的带RGB信息的画面，并且每台设备将所采集的信号独立推流至服务器，即采用RGB(红、绿、蓝)颜色空间，每种颜色都通过这三个变量其颜色和强度，从而记录及显示所采集的视频彩色图像。

步骤S12.基于所述音频信号消除所述多视角视频信号的时间差，以获取多视角同步视频信号。具体的，首先通过将多视角视频中的音频信号完成同步，进而借助同步的音频实现多视角视频的画面同步。

在本实施例较佳的实施方式中，所述多视角视频信号的画面时间同步方式包括：基于所述视频信号的时间戳确定其粗差；将各视频信号对应的所述高频音频信号与理想高频特征声波进行卷积计算，以确定视频信号之间的精细误差；结合所述精细误差和所述粗差实现多视角视频信号的帧级别画面时间同步，从而得到多视角同步视频信号。在泛函分析中，卷积是指通过两个函数f和g生成第三个函数的一种数学算子，表征函数f与g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。

步骤S13.从所述多视角同步视频信号中提取对应的多视角2D人体关键点。无标记光学运动捕捉的实现得益于近年来深度神经网络(Deep Neural Networks)的发展与普及，深度神经网络作为万能函数逼近器，使得基于人体RGB特征的2D人体关键点提取成为可能。通过大规模RGB数据采集收集和其对应的人工标注的2D人体关键点位置，训练深度神经网络自动学习出RGB数据到2D人体关键点的映射关系，从而能够直接从消费级彩色相机采集的RGB信息提取出2D人体关键点信息。

在本实施例较佳的实施方式中，构建自底向上的基于RGB数据的2D人体姿态估计模型；利用所述2D人体姿态估计模型从所述多视角同步视频信号中提取对应的2D人体关键点和关键点之间的连接分数。

步骤S14.获取所述多视角2D人体关键点之间的关联信息。基于多视角的2D人体关键点信息的解析是实现稳定与健壮的3D姿态估计的关键。通过神经网络获得的2D人体关键点信息由于维度受限，对于三维位姿的约束具有单一性和有限性；并且由于人体非刚体运动的复杂性、自遮挡以及多重解问题严重。针对以上两点，通过整合多个视角的2D人体关键点，获取不同视角2D人体关键点之间的关联信息，能够极大地减轻自遮挡问题，并且减少3D姿态非最优解的数量，实现稳定且健壮的实时3D姿态估计。

在本实施例较佳的实施方式中，整合多视角的所述2D人体关键点和关键点之间的连接分数，建立邻边权重为对应2D人体关键点对的连接分数的带权无向图模型；最大化所述带权无向图模型生成子树的权重，以获取所述关联信息。

在本实施例较佳的实施方式中，基于运动学(Kinematics)的参数化骨架模型是实现虚拟形象驱动的关键。优选的，利用大量基于学习的人体网格模型，回归出多个人体骨骼关节点(一般为16个或24个)，然后通过运动学树型结构构建整个人体骨架模型。本优选的人体骨架模型与手工设计的骨架相比，保留了真实的人体先验信息，使得运动捕捉结果更加精确且具有可解释性。基于构建出的人体骨架模型，通过在对应的关节点上贴点作为3D标记，来建立骨架与姿态估计关键点的联系。

步骤S15.基于所述关联信息进行最优化计算，以获取所述待捕捉对象的3D人体姿态信息。可选的优化算法有梯度下降算法、牛顿法、模拟退火算法、蚁群算法、遗传算法等等。本实施例优选最小二乘法，通过最小化误差的平方和找到数据的最佳函数匹配，并通过高斯牛顿迭代法求解非线性最小二乘回归模型的回归参数，使用泰勒级数展开式去近似地代替非线性回归模型，然后通过多次迭代，多次修正回归系数，使回归系数不断逼近非线性回归模型的最佳回归系数，最后使原模型的残差平方和达到最小。

在本实施例较佳的实施方式中，所述3D人体姿态信息的获取方式：构建3D人体姿态估计模型，并在其上标记3D人体关键点；预定义一能量函数E(θ)，其包括：2D关键点项E_2D(θ)、时序稳定项E_temp(θ)、姿态先验项E_prior(θ)和关节限制项E_limit(θ)；所述2D关键点项E_2D(θ)与所述3D人体关键点投影到各个视角下的2D像素坐标与其对应的2D人体关键点距离相关；所述时序稳定项E_temp(θ)与所述运动捕捉在时序上的连续性相关；所述姿态先验项E_prior(θ)与关节旋转真实度相关；所述关节限制项E_limit(θ)与关节旋转角度相关；对所述能量函数进行最优化计算以获取所述3D人体姿态信息。

具体的，能量函数E(θ)表示如下：

E(θ)＝λ_2DE_2D(θ)+_tempE_temp(θ)+λ_priorE_prior(θ)+λ_limitE_limit(θ)；

E_prior(θ)＝(θ-μ_θ)^T∑_θ ^-1(θ-μ_θ)；

其中，J_j(θ)表示参数化骨架模型根据参数θ通过前向动力学(ForwardKinematics)计算出的第j个3D标记的位置；π_v(·)表示将3D标记投影到第v个视角像素平面的投影函数；p_v，j表示神经网络模型从第v个视角RGB中提取的第j个2D关键点的像素平面坐标；N_v表示使用的视角总数；N_j表示绑定的3D标记的总数；μ_θ表示姿态均值；∑_θ表示协方差矩阵；

θ_lower与θ_upper分别表示旋转自由度对应的欧拉角的下界和上界；λ_2D，λ_temnp，λ_prior和λ_limit分别为能量函数E(θ)的权重超参数，用于平衡各项能量对优化结果的影响。

还需说明的是，2D关键点项E_2D(θ)的作用是使得3D骨架上绑定的3D标记投影到各个视角下的2D像素坐标，与其对应的由2D人体姿态估计模型提取出的人体关键点尽可能相近；时序稳定项E_temp(θ)的作用是尽可能保持运动捕捉在时序上的连续性，减轻抖动；姿态先验项E_prior(θ)的作用是使骨架关节旋转尽可能自然，尽可能地模拟真实的人体姿态；

在本实施例较佳实施方式中，采用多元正态分布作为姿态先验项，其姿态均值μ_θ和协方差矩阵∑_θ从大量扫描人体数据中回归而来。优选马氏距离(MahalanobisDistance)来衡量给定姿态θ的似然，其可以用于度量样本点与概率分布的距离。其中，关节限制项与姿态先验项作用相似，区别在于关节限制项显式地对关节旋转限制进行建模，当关节旋转越过限制时，可以产生一个反力对旋转进行矫正。

在本实施例较佳实施方式中，基于所获取的待捕捉对象的3D人体姿态信息，捕捉获取人体动作数据，如人体的面部动作数据和肢体动作数据等等。进一步地，可将所获得的运动捕捉数据通过网络流传输给多种引擎(如Unity、Unreal等)，实时驱动并渲染人物模型。本实施方式中基于获取的3D人体姿态信息能够实时捕捉多人的面部表情以及肢体动作，进而推流至多种引擎(如Unity、Unreal等)实时驱动人物模型，具有较高的实时性。

为进一步说明本实施例提出的方法，如图2所示，本实施例还给出另一种多视角人体运动捕捉方法的流程示意图，从设备端和服务器端两端进行解释说明。其中，设备端选取多台具有摄像头的移动设备，其中一台作为高频音波发射源发出高频特征声波，其余设备对待捕捉对象进行多视角RGB/RGBD视频录制；多台移动设备分别将所获取的音视频信号推流发送至服务器端。服务器端利用其中的特征音频实现多设备画面帧同步；并使用神经网络提取其中的2D人体关键点信息，进而建立多视角多序列帧2D数据之间的关联；然后使用高斯牛顿迭代法优化出3D人体姿态信息，进而将运动捕捉数据通过网络流传输给其它虚拟引擎(驱动引擎、渲染引擎等)，从而驱动并渲染人物模型。

在一些实施方式中，所述方法可应用于控制器，所述电控单元例如为ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(MicrocontrollerUnit)控制器等等。在一些实施方式中，所述方法也可应用于包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子***、显示屏、其它输出或控制设备，以及外部端口等组件的计算机；所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant，简称PDA)等个人电脑。在另一些实施方式中，所述方法还可应用于服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成。

实施例二

如图3所示，本实施例提出一种多视角人体运动捕捉装置结构示意图，其包括：信号获取模块31，用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号；信号同步模块32，用于基于所述音频信号消除所述多视角视频信号的时间差，以获取多视角同步视频信号；关键点提取模块33，用于从所述多视角同步视频信号中提取对应的多视角2D人体关键点；关联信息获取模块34，用于获取所述多视角2D人体关键点之间的关联信息；人体姿态信息获取模块35，用于基于所述关联信息进行最优化计算，以获取所述待捕捉对象的3D人体姿态信息。

需要说明的是，本实施例提供的模块与上文中提供的方法、实施方式类似，故不再赘述。另外需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，关键点提取模块33可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上关键点提取模块33的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上***(system-on-a-chip，简称SOC)的形式实现。

实施例三

如图4所示，本实施例提出一种多视角人体运动捕捉***的结构示意图，其包括：音频信号发生装置41，用于发出高频特征声波信号；多个视频信号采集装置42，用于采集待捕捉对象的视频信号；如前所述的多视角人体运动捕捉装置43，用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号；基于所述音频信号消除所述多视角视频信号的时间差，以获取多视角同步视频信号；从所述多视角同步视频信号中提取对应的多视角2D人体关键点；获取所述多视角2D人体关键点之间的关联信息；基于所述关联信息进行最优化计算，以获取所述待捕捉对象的3D人体姿态信息。

实施例四

本实施例提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上多视角人体运动捕捉方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

实施例五

如图5所示，本发明实施例提供一种电子终端的结构示意图。本实施例提供的电子终端，包括：处理器51、存储器52、通信器53；存储器52通过***总线与处理器51和通信器53连接并完成相互间的通信，存储器52用于存储计算机程序，通信器53用于和其它设备进行通信，处理器51用于运行计算机程序，使电子终端执行如上多视角人体运动捕捉方法的各个步骤。

上述提到的***总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该***总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其它设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明提供多视角人体运动捕捉方法、装置、***、介质及终端，通过多台移动设备进行数据采集，并且对于移动设备是否具有深度传感器不做要求，使用移动设备采集RGB音视频数据，这些数据将以推流的形式被独立地传递至服务器，而后服务器通过音频确定精细误差、时间戳确定粗差的方式实现帧级别的多设备采集信息的时间轴对准，并根据同步之后的多视角RGB信息提取2D人体关键点信息，将多视角多序列帧数据关联，再使用非线性最小二乘优化算法得到3D人体姿态，进而实现面部、手部等肢体动作的实时捕捉。与现有运动捕捉方案相比，具有以下有益效果：1)只需普通的RGB摄像头即可进行捕捉，对于移动设备是否具有深度传感器不做要求；2)相比单视角运动捕捉技术，缓解了自遮挡问题，具有更高的捕捉精准度；3)具有较好的实时性；4)不限制人数，捕捉人数增加时不需要增加移动设备；5)可以推流至多种引擎(如Unity、Unreal等)实时驱动人物模型。因此，本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种多视角人体运动捕捉方法，其特征在于，包括：

获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号；

基于所述音频信号消除所述多视角视频信号的时间差，以获取多视角同步视频信号；

从所述多视角同步视频信号中提取对应的多视角2D人体关键点；

获取所述多视角2D人体关键点之间的关联信息；

基于所述关联信息进行最优化计算，以获取所述待捕捉对象的3D人体姿态信息。

2.根据权利要求1所述的多视角人体运动捕捉方法，其特征在于，所述音频信号为高频音频信号；所述多视角视频信号的画面时间同步方式包括：

基于所述视频信号的时间戳确定其粗差；

将各视频信号对应的所述高频音频信号与理想高频特征声波进行卷积计算，以确定视频信号之间的精细误差；

结合所述精细误差和所述粗差实现多视角视频信号的帧级别画面时间同步。

3.根据权利要求1所述的多视角人体运动捕捉方法，其特征在于，所述3D人体姿态信息的获取方式包括：

构建3D人体姿态估计模型，并在其上标记3D人体关键点；

预定义一能量函数，其包括：2D关键点项、时序稳定项、姿态先验项和关节限制项；所述2D关键点项与所述3D人体关键点投影到各个视角下的2D像素坐标与其对应的2D人体关键点距离相关；所述时序稳定项与所述运动捕捉在时序上的连续性相关；所述姿态先验项与关节旋转真实度相关；所述关节限制项与关节旋转角度相关；

对所述能量函数进行最优化计算以获取所述3D人体姿态信息。

4.根据权利要求1所述的多视角人体运动捕捉方法，其特征在于，所述关联信息的获取方式包括：

构建自底向上的基于RGB数据的2D人体姿态估计模型；

利用所述2D人体姿态估计模型从所述多视角同步视频信号中提取对应的2D人体关键点和关键点之间的连接分数；

整合多视角的所述2D人体关键点和关键点之间的连接分数，建立邻边权重为对应2D人体关键点对的连接分数的带权无向图模型；

最大化所述带权无向图模型生成子树的权重，以获取所述关联信息。

5.根据权利要求1所述的多视角人体运动捕捉方法，其特征在于，所述多视角视频信号及各视频信号对应的音频信号由多台移动设备从多个角度拍摄获取，并分别以推流的形式被独立地传递至服务器，以实时捕捉所述3D人体姿态信息。

6.根据权利要求1所述的多视角人体运动捕捉方法，其特征在于，包括：基于所述3D人体姿态信息捕捉获取人体动作数据，包括面部动作数据和肢体动作数据。

7.一种多视角人体运动捕捉装置，其特征在于，包括：

信号获取模块，用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号；

信号同步模块，用于基于所述音频信号消除所述多视角视频信号的时间差，以获取多视角同步视频信号；

关键点提取模块，用于从所述多视角同步视频信号中提取对应的多视角2D人体关键点；

关联信息获取模块，用于获取所述多视角2D人体关键点之间的关联信息；

人体姿态信息获取模块，用于基于所述关联信息进行最优化计算，以获取所述待捕捉对象的3D人体姿态信息。

8.一种多视角人体运动捕捉***，其特征在于，包括：

多个视频信号采集装置，用于采集待捕捉对象的视频信号；

音频信号发生装置，用于发出高频特征声波信号；

如权利要求7所述的捕捉装置，用于获取待捕捉对象的多视角视频信号及各视频信号对应的音频信号；基于所述音频信号消除所述多视角视频信号的时间差，以获取多视角同步视频信号；从所述多视角同步视频信号中提取对应的多视角2D人体关键点；获取所述多视角2D人体关键点之间的关联信息；基于所述关联信息进行最优化计算，以获取所述待捕捉对象的3D人体姿态信息。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述多视角人体运动捕捉方法。

10.一种电子终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至6中任一项所述多视角人体运动捕捉方法。