CN103718175A

CN103718175A - 检测对象姿势的设备、方法和介质

Info

Publication number: CN103718175A
Application number: CN201280034991.4A
Authority: CN
Inventors: 俞炳仁; 崔昌圭; 韩在濬
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-07-27
Filing date: 2012-06-21
Publication date: 2014-04-09
Anticipated expiration: 2032-06-21
Also published as: EP2737418A4; KR101815975B1; JP2014522035A; US20130028517A1; KR20130013122A; US9098740B2; CN103718175B; WO2013015528A1; EP2737418A1; JP6025845B2

Abstract

提供了一种检测对象姿势的设备和方法。可提取对象的关键连结数据，可基于提取的关键连结数据产生候选姿势，并可基于产生的候选姿势使用数据库检索最有可能的姿势。

Description

检测对象姿势的设备、方法和介质

技术领域

以下的说明书的一个或更多个实施例至少涉及一种检测对象姿势的设备、方法和介质。

背景技术

由于人类在其日常生活中使用双眼，故人类可在短距离和长距离非常好地识别出人体姿势，例如，即使在具有低分辨率或有限信息的情况下。然而，在计算机视觉***中，很难识别出不同的人体姿势，尽管这样的识别在各个领域都受到期望。

为了解决这样的问题，传统的基于模型的方式已经普遍用于单独识别不同的姿势。传统的基于模型的方式通过测量人体模型和关联的图像区域的重叠之间的相似度来使人体模型与输入图像拟合。然而，很难将传统的基于模型的方式应用于在复杂姿势（诸如，不同的身体部位具有重叠的深度的坐姿或躺姿，因此重叠的身体部位分别产生大量遮蔽，诸如当练习瑜伽或伸展时在身体部位的运动中，当从特定视点进行观看时，不同的身体部位重叠是普遍的）之间进行区分。此外，由于传统的基于模型的方式一般需要高计算能力，很难将传统的基于模型的方式应用于嵌入式环境（例如，为特定控制功能设计的在通常包括硬件和潜在的机械零件的较大的***或一体式装置内的计算***）。当存在需要这样高的计算能力的快速运动时，对身体部位或姿势的追踪同样困难。此外，传统的基于模型的方式针对设置为被分割或与图像的剩余部分相比被单独识别的图像的一部分的分割误差（例如，仅作为示例的确定的范围、边缘或轮廓中的误差）不鲁棒。

发明内容

技术方案

通过提供一种设备，可克服上述问题或困难和/或实现其它方面，所述设备包括：关键连结检测器，分析图像以在图像中检测关于对象的各个多个关键连结的关键连结数据；数据库，存储代表一个或更多个对象的潜在姿势的多个对象姿势的各个信息；姿势检索器，基于检测到的关键连结数据从数据库检索并输出多个对象姿势的最可能的姿势，其中，所述最有可能的姿势与对象的实际姿势具有确定的最高的相似度。

通过提供一种方法，可克服上述问题或困难和/或实现其它方面，所述方法包括：分析图像以在图像中检测关于对象的各个多个关键连结点的关键连结数据，并且基于检测出的关键连结数据从存储代表一个或更多个对象的潜在姿势的多个对象姿势的各种信息的数据库检索并输出多个对象姿势的最有可能的姿势，其中，最有可能的姿势是与对象的实际姿势具有确定的最高的相似度的姿势。

一个或更多个实施例的其它方面、特征和/或优点部分将在以下的说明中被阐述，部分将从本说明中变得清楚，或者可通过一个或更多个实施例的实践而学习到。

附图说明

通过以下结合附图的对一个或更多个实施例的描述，这些和/或其它方面和优点将变得清楚和更加易于理解，其中：

图1示出根据一个或更多个实施例的对象姿势检测设备；

图2和图3分别示出根据一个或更多个实施例的仅作为示例的分别展示各自的关键连结的摆出姿势的对象；

图4-图6示出根据一个或更多个实施例的仅作为示例的例如可用于图1的对象姿势检测设备的各个关键连结检测器的操作；

图7和图8示出根据一个或更多个实施例的仅作为示例的例如可用于图1的对象姿势检测设备的预处理元件的操作；

图9示出根据一个或更多个实施例的仅作为示例的例如可用于图1的对象姿势检测设备的姿势检索器的操作；

图10和图11示出根据一个或更多个实施例的对象骨架；

图12示出根据一个或更多个实施例的仅作为示例的例如可用于图1的对象姿势检测设备的后处理元件的操作；

图13示出根据一个或更多个实施例的仅作为示例的例如可用于图1的对象姿势检测设备的基于模型的追踪器的操作；

图14示出根据一个或更多个实施例的仅作为示例的通过其将例如可用于图1的对象姿势检测设备的姿势检索器配置为使用加权因数来检索最可能的姿势的操作；

图15示出根据一个或更多个实施例的对象姿势检测方法；

图16a和图16b示出根据一个或更多个实施例的被配置为包括例如处理装置、潜在的可被配置为与各个其它处理装置进行通信的用户界面、以及潜在的其它用户界面的一个或更多个对象姿势检测设备。

具体实施方式

现在将详细参照在附图中示出的一个或更多个实施例，其中，相似的附图标号始终指示相似的元件。就此而言，本发明的实施例可按照许多不同形式实施，并且不应该被解释为限于在此阐述的实施例。因此，以下仅通过参照附图来描述实施例，以解释本发明的方面。

图1示出根据一个或更多个实施例的对象姿势检测设备。图1的对象姿势检测设备可从深度图像102检测对象101的关键连结数据。此外，图1的对象姿势检测设备可基于检测出的关键连结数据从数据库120检索与对象101具有确定的最高的相似度的最可能的姿势。因此，图1的对象姿势检测设备可检测确定的与例如对象101最相似的姿势。在下文中，将根据一个或更多个实施例来更加详细地描述图1的对象姿势检测设备的所述组件的一个或更多个操作。

图1的对象姿势检测设备可包括例如关键连结检测器110、数据库120和姿势检索器130。关键连结检测器110可从深度图像102检测对象101的关键连结数据。对象101可表示可包括在预记录图像或从相机实时输入的实时图像中的人、无生命对象等。关键连结可被认为是例如对象101的端部位和连接部位等。

数据库120可存储一个或更多个预定义的对象姿势的信息，其中，预定的对象姿势中的至少一个潜在地被确定为与对象101关联，例如，被确定为观察到的对象101的最可能姿势。例如，关联的对象姿势可被确定为已经可大体上被确定为与对象101关联的一个或更多个预定义的姿势。在实施例中，关联的对象姿势可表示其中一个或更多个预定义的姿势的默认（即，预先设置的）关键连结不重叠的姿势。默认关键连结可包括：仅作为示例，图2中所示的示出的对象的头211、手212和213以及脚214和215末端部位。在该实施例或另一实施例中，关联的对象姿势可表示从在现实世界中频繁地与对象101关联的姿势中选择的姿势，诸如根据由对象表示的用户的基本运动或伸展活动。在此，对象姿势检测装置的用户还可选择性地识别哪个预定义的对象姿势应该与观察到的对象101关联。

姿势检索器130可基于关键连结数据使用数据库120检索例如与对象101具有最高的确定的相似度的预定义的对象姿势的姿势。

姿势检索器130可根据各种方案来识别具有最高的确定的相似度的预定义的对象姿势。例如，姿势检索器130可从预定义的对象姿势识别至少一个候选姿势，并使用识别出的至少一个候选姿势来识别对象101的最可能的姿势。

为了产生（例如，识别）针对对象101的至少一个候选姿势，姿势检索器130可使用将约束逆运动学（IK）应用于关键连结数据的方案，以及基于关键连结数据从数据库120统计地提取针对对象101的至少一个候选姿势的方案。所述约束IK可包括定义例如针对一个或更多个身体部位的一个或更多个已知的各个姿势的一系列连结参数的预定义的运动学方程的逆运算，以识别引起针对对象的不同候选姿势的潜在的连结角度或身体部位之间的相关的位置关系。仅作为示例，运动学方程可定义例如在复杂的铰接***的各个独立参数的配置上具有非线性约束的环路方程。运动学方程中的不同参数还可被认为是相应的连结或***的自由度（DOF）。以下将更加详细地描述产生候选姿势的一个或更多个其它示例。

在实施例中，姿势检索器130可使用数据库120将产生的候选姿势中的被确定为与对象101具有最高的相似度的姿势识别为最可能的姿势。在该实施例或另一实施例中，姿势检索器130可使用权重因数从产生的候选姿势中识别最可能的姿势。以下将更加详细地描述检索最可能的姿势的一个或更多个示例。

图1的对象姿势检测设备还可包括例如预处理元件140。预处理元件140可从预记录的图像或实时图像中提取或分割对象101。

此外，图1的对象姿势检测设备还可包括例如后处理元件150。如以下将更加详细地描述的那样，后处理元件150可针对由姿势检索器130检索出的最可能的姿势执行姿势扭曲。此外，后处理元件150可针对执行了姿势扭曲的最可能的姿势执行高速采样。此外，后处理元件150可针对对象101计算动量。

除了以上的一个或更多个实施例之外，所述对象姿势检测设备还可包括基于模型的追踪器160。基于模型的追踪器160可基于与对象101关联的模型和存储在数据库120中的模型来追踪对象姿势，诸如根据确定的对象的当前和先前深度图像之间的差值来建模（诸如图13中针对对象1302示出的），以及根据确定的差值来使3D模型1321拟合。

图2和图3分别示出根据一个或更多个实施例的仅作为示例的分别展示各自的关键连结的摆出姿势的对象。参照图2和图3，当对象是人210时，观察到的作为末端的头211、手212和213以及脚214和215可被视为关键连结。仅作为示例，当头211、手212和213以及脚214和215之中的至少一个末端身体部位被人210的另一身体部位隐藏（即，遮蔽）时，观看到的身体部位之中的另一身体部位可同样被认为是关键连结。根据人的身体部位如何被看到，端部位可包括例如膝盖、手肘、肩膀、腰部等。

在实施例中，诸如图3中所示，在第一姿势320中，由于手212和213与头211重叠，故手肘321可被视为关键连结。在该实施例或另一实施例中，在第二姿势330中，由于头212与脚214重叠，故膝盖331可被视为关键连结。在这些实施例中的任何/全部或另一实施例中，在第三姿势340中，由于双手212和213彼此重叠并且双脚214和215彼此重叠，故臀部341可被视为关键连结。在这些实施例中的任何/全部或另一实施例中，在第四姿势350中，由于双手212和213彼此重叠并且脚214和215彼此重叠，故膝盖351可被视为关键连结。

因此，人210可做出没有默认关键连结重叠的图2的简单姿势以及一个或更多个默认关键连结被遮蔽（即，当从特定视点观看时，一个或更多个默认关键连结被另一身体部位或某些其它对象遮挡）的图3的复杂姿势两者。在复杂姿势的实施例（诸如第一姿势320至第四姿势350等）中，当左右手或左右脚末端部位被放在一起以至于被认为在物理上处于同样的位置时，各个末端部位中仅有一个从特定视点是可见的，并且仅该可见的末端部位将被设置为关键连结。然而，即使相应的末端部位不可见，仍可包括身体的重叠的末端部位（即，在与存在的可见的末端部位的关键连结相似的位置）作为另外的关键连结，或者可设置最接近于不可见的末端身体部位的可见的身体部位上的另一关键连结。

在下文中，将参照图4至图14和图16a-b进一步描述对象姿势检测设备（诸如，图1的对象姿势检测设备）的组件的一个或更多个操作。

以下，图4-图6示出根据一个或更多个实施例的例如可用于一个或更多个诸如图1的对象姿势检测设备的关键连结检测器101的关键连结检测器的用于关键连结检测方法的操作。在此，尽管可针对一个或更多个实施例的不同的潜在方法操作参照图1的对象姿势检测设备，该参照仅意在为了示出目的，而不意在将在此描述的任何方法操作限制于特定的装置、设备或***。

参照图4，在操作410中，可诸如由关键连结检测器110搜索示出的对象401的端点。根据实施例，可使用例如3D连接的组件来执行由关键连结检测器110对于对象410的端点的搜索。端点可表示对象401的身体的末端部位，例如头顶、左和/或右指尖、左和/或右脚尖等。此外，更加通常地，末端部位还可表示包括例如头、左和/或右手、左和/或右脚等的与端点相应的身体部位。

操作412可被实现为控制操作410的重复，用于提高端点的搜索率。例如，参照示出的图像411，作为实现操作410一次以搜索端点的结果，除了沿着头（即，头顶）、左和/或右指尖、左和/或右脚尖和胯部端点的轮廓之外，诸如身体的侧面上的点、肩膀、膝盖、手肘等的身体部位可能会已经被发现是对象401的端点。然而，在一个或更多个实施例中，在实现操作412后，并且例如图像413中所示，作为重复地搜索端点的结果，仅仅头端、左和/或右指尖、左和/或右脚尖和胯部端点可被发现是对象401的端点，并且因此可提高搜索率。

当完成操作410或412时，可随后执行操作420以从包括对象401的图像（例如，深度图像）分割分别示出与例如从对象401的图像确定的端点相应的各个末端部位的各个图像。例如，各个分割的图像421展示与例如由操作412确定的确定的端点相应的分割的末端部位（即，头、左和/或右手、左和/或右脚和胯部）的各个图像。

在操作430中，随后可使各个分割的图像421标准化。在此，对象401的末端位置中的任何一个的方向、角度、上和下位置等的原有方位可针对彼此不同，并且潜在地来自于预定义的位置。例如，当分割的图像421是对象401的头部的图像时，头部的分割的图像421中头部的方向将与对象401的头部指向的方向（例如，当图1的对象姿势检测设备的相机捕捉到对象401的图像时用户正看向的方向，该方向可能实际上是与在其它末端部位在其各自的分割的图像421中示出的方向或方位不同的方向或方位）相应地变化。因此，为了提高提取末端部位的特征的准确性，各个分割的图像421可被标准化以面向相同的方向或具有相同的方位。

在下文中，作为操作430中各个标准化的结果，可随后从各个标准化的分割的图像431中的每一个分别提取正呈现在各个标准化的分割的图像431中的末端部位的特征。在实施例中，关键连结检测器110可从各个标准化的分割的图像431提取每个末端部位的基于形状的特征，例如，Haarlets、曲率、梯度直方图（HoG）等。在该实施例或另一实施例中，关键连结检测器110可从各个标准化的分割的图像431中的每一个提取3D特征，例如，3DHaarlets、水平集特征等，应注意替代实施例同样是可用的。

在操作450中，随后可基于从各个标准化的分割的图像431提取的各个提取的特性对各个末端部位进行分类，以便例如增加检测关键连结数据的准确性。仅作为示例，关键连结检测器110可基于各个提取出的特征来确定（分类）标准化的分割图像431中的每一个代表哪个预定义的身体部位。例如，当确定已经从特定的分割的图像提取出与头关联的特征时，关键连结检测器110可将特定的分割的图像中的末端部位分类为头。仅作为示例，并且应注意替代实施例也是可用的，根据实施例，关键连结检测器110可通过使用自适应增强（Adaboost）学习算法、决策树学习算法、随机森林分类器等来执行这样的对末端部位的分类。图像451可示出经分类的末端部位。

可执行操作460以计算图像451中所示的经分类的末端部位的3D位置，例如以检测对象401的关键连结数据。仅作为示例，关键连结检测器110可执行操作460。根据实施例，关键连结检测器110可使用中心矩、空间矩、均值漂移估计器等来计算图像451中经分类的末端部位的二维（2D）位置或3D位置。此外，关键连结检测器110可使用过滤器（诸如，Kalman估计滤波器）来纠正计算出的3D位置。

如上面所提到的，并且仅作为示例，图5和图6还示出用于从捕捉到的对象提取特征并且检测关键连结数据的操作。

参照图5，可从对象501的深度图像提取对象501的3D轮廓特征。在图5中，示出的图像511展示对象501的2D图像的分块与每个分块的相应的深度图之间的潜在差别，即，仅作为示例，图像511展示对象501的3D轮廓特征。

在操作520中，可基于在图像511中展示的对象501的3D轮廓特征来执行姿势分类处理，即，例如通过识别匹配的姿势的姿势分类标识符（ID）将对象501的姿势分类为与对象501的3D轮廓特征具有相似的3D轮廓的一个或更多个潜在的匹配姿势。

在操作530中，可随后基于与经分类的姿势相应的姿势分类ID从存储器（例如，数据库120）读取对象501的关键连结数据。仅作为示例，图1的关键连结检测器110可搜索数据库120，从存储在数据库120中的多个姿势之中搜索姿势分类ID与经分类的姿势的姿势分类ID匹配的姿势，并且可从找到的姿势检测关键连结数据。根据实施例，例如，关键连结检测器110可通过搜索除了数据库120之外的另一数据库并且从在所述另一数据库中找到的匹配的姿势获得关键连结数据来检测关键连结数据，其中，可与数据库120独立地访问所述另一数据库。

在操作540中，还可计算分类的姿势的3D位置，以例如检测对象501的关键连结数据。因此，仅作为示例，图1的关键连结检测器110可通过执行上述操作510至540来检测对象501的关键连结数据。

参照图6，在操作610中，可从对象601的深度图像提取对象601的3D水平集特征。示出的图像611展示检测出的或确定的对象601的3D水平集特性。

因此，在操作620中，例如图像611中所示，基于3D水平集特征来对对象601的姿势进行分类。

在下文中，基于对具有与经分类的姿势相应的姿势分类ID的姿势的搜索从数据库120获取对象601的关键连结数据。仅作为示例，图1的关键连结检测器110可搜索数据库120，从存储在数据库120中的多个姿势之中搜索姿势分类ID与经分类的姿势的姿势分类ID匹配的姿势，并且可从发现的姿势检测关键连结数据。根据实施例，关键连结检测器110可通过搜索除了数据库120之外的另一数据库并且从在所述另一数据库中找到的匹配的姿势获得关键连结数据来检测关键连结数据，其中，可与数据库120独立地访问所述另一数据库。

在操作640中，随后可计算经分类的姿势的3D位置，以例如检测对象601的关键连结数据。因此，仅作为示例，关键连结检测器110可通过执行上述操作610至640来检测对象601的关键连结数据。

与关于图4的操作的上述符号相似，当或者如果关键连结检测器110正实现图5和图6中的一个或更多个操作时，除了例如以上针对在图5和图6中示出的操作而分别描述的3D轮廓或3D水平集特征之外，关键连结检测器110还可从对象的深度图像提取3D Haarlet特征。

此外，仅作为示例，关键连结检测器110可使用诸如模板匹配算法、决策树算法、神经网络算法、随机森林算法等的算法，以基于提取出的特征对对象的姿势进行分类，应注意替代实施例也是可用的。

参考图4至图6中的一个或更多个进行描述的关键连结检测器110可基于由预处理元件（诸如，图1的对象姿势检测设备中的预处理元件140）提取的对象来检测对象的关键连结数据。

例如，为了检测更准确的姿势，预处理元件140可首先处理已经被输入到关键连结检测器110的图像。在实施例中，预处理元件140可从包括前景和背景两者的图像分离仅前景（例如，作为对象），并且可将分离出的前景作为对象输出。在该实施例或另一实施例中，预处理元件140还可使针对每个图像的不同尺度标准化，并且可输出标准化的尺度。在下文中，将参考图7来进一步描述前者，并且将参照图8来进一步描述后者。

参照图7，在操作710中接收到输入图像702，例如，从相机实时接收到的预记录的图像或实时图像。如提到的，根据一个或更多个实施例，预处理元件（诸如图1的预处理元件140）可执行操作710。以下将更加详细地描述操作720和730，应注意预处理单元140还可执行操作720和730。

在操作720中，可从输入图像702学***均背景深度图。在下文中，预处理元件140可确定例如输入图像702中的每个像素的深度值是否在预定的范围内接近相机。当确定像素的深度值在预订的范围内接近相机时，预处理元件140可将像素识别为前景像素。此外，预处理元件140可将这样的学习到的背景存储在数据库731中。图7还示出如图像732的学习到的背景的示例。

在操作730中，可随后从输入图像702提取学习到的背景，从而可从输入图像702的背景区分出输入图像702的前景。仅作为示例，预处理元件140可从输入图像702提取学习到的背景，并且输出前景作为随后执行姿势估计的对象740。

如提到的，参照图8，根据一个或更多个实施例，预处理元件（诸如，图1的预处理元件140）可执行操作810，以从输入图像去除对象801的噪声。仅作为示例，预处理元件140可执行下述操作820和830。在实施例中，在操作810中，预处理元件140可执行诸如孔洞填充等的去噪操作，并且可去除对象801的噪声。在该实施例或另一实施例中，预处理元件140可由此恢复可能已经由相机的视野（FoV）、障碍物等切除的对象801的身体的部位，从而可获得示出的恢复的对象811。

在操作820中，可对恢复的对象811进行尺度标准化。根据实施例，仅作为示例，预处理元件140可基于例如参考比率sX和sY对恢复的对象811执行这样的尺度标准化。因此，用户可观察到感测性能和识别性能保持相同或大体上相同，不论捕捉的图像中的基本（underlying）人体比例如何，并且不论身体的一个或更多个部位各自与捕捉相机的距离如何。在此，示出的图像821可表示已经应用了尺度标准化的图像的示例。

在操作830中，还可对尺度标准化的图像821进行旋转标准化。根据实施例，预处理元件140可通过图像821的主轴的应用（例如，通过针对像素矢量空间应用主组成分析（PCA））来检测或计算主轴，并且可执行旋转标准化，以使能够围绕参考轴进行旋转。因此，在使用这样的旋转标准化的情况下，用户可观察到感测性能和识别性能保持相同或大体上相同，不论对象801的各自的位置和方位如何。示出的图像831可表示已经应用了旋转标准化的图像的示例。根据实施例，并且仅作为示例，可将图像831作为将执行姿势估计的对象输入到关键连结检测器110。

图9示出根据一个或更多个实施例的用于诸如由图1的姿势检索器130基于关键连结数据检索姿势的方法操作。仅作为示例，参照图9，在操作910中，姿势检索器130可基于对象901的识别出的关键连结数据产生针对对象901的一个或更多个候选姿势。根据实施例，姿势检索器130可产生至少两个候选姿势。

姿势检索器130可从产生的候选姿势检索最有可能的姿势。在实施例中，姿势检索器130可通过针对产生的候选姿势中的每一个计算姿势自然度测量值来检索最有可能的姿势。在该实施例或另一实施例中，姿势检索器130可通过针对产生的候选姿势中的每一个计算姿势似然值来检索最有可能的姿势。在所述实施例或另一实施例中，姿势检索器130可计算产生的候选姿势中的每一个的姿势自然度测量值和姿势自然度测量值，并且可基于计算出的值来检索最有可能的姿势。以下将参照操作920进一步描述仅作为示例的姿势检索器130计算姿势似然值并检索最有可能的姿势的操作。此外，将参照操作930进一步描述也仅作为示例的姿势检索器130计算姿势自然度测量值并检索最有可能的姿势的操作。

当产生多个候选姿势时，姿势检索器130可获得多个候选姿势的加权和，并且可基于所述加权和来检索最有可能的姿势。特别地，可使用下述方案来通过获得加权和检索最有可能的姿势：（1）基于哪个候选姿势具有等于或大于阈值的各自的计算出的加权因子，从多个候选姿势之中选择最有可能的候选姿势，并随后获得选择的候选姿势的加权和的方案；（2）计算参考值和多个候选姿势中的每一个之间的差值，并随后获得计算出的差值的加权和的方案。

在操作920中，可计算产生的候选姿势的姿势似然值。根据实施例，姿势检索器130可检索具有最高的姿势似然值的候选姿势或其似然值达到预定的似然阈值的候选姿势作为最有可能的姿势。例如，姿势检索器130可基于下面的等式1计算姿势似然值。

等式1：

L＝exp(-||C-D||²)

在等式1中，C指示产生的候选姿势的连结位置的集合，D指示输入图像中的候选姿势的连结位置的深度值的集合，并且L指示姿势似然值。

参照等式1，当集合C和集合D之间的差值减小时，姿势似然值L可变的接近于“1”。此外，当集合C和集合D之间的差值增大时，姿势似然值L可变得接近于“0”。

在操作940中，可基于例如数据库930针对产生的候选姿势计算姿势自然度测量值。根据实施例，数据库930与图1的数据库120可以是相同的，或者数据库930可以是单独且区别的数据库。针对姿势自然度测量值，姿势检索器130可使用数据库930针对每个候选姿势C计算概率值，从而计算出的概率值可被认为是姿势自然度测量值。用于计算候选姿势的概率值的数据库930可存储学习到的统计模型，并且可通过收集预定姿势组的统计模型来存储姿势组中的至少几十个到几百个的统计模型。

仅作为示例，存储在数据库930中的统计模型可包括例如因子分析器，而且可如例如下面的等式2所示进行建模。

等式2：

q=Ls+n

在等式2中，q指示具有姿势的实际连结值的D维的矢量。

此外，L指示在预定姿势组中存储代表性姿势的“D×d”维的矢量。例如，当十个代表性姿势存在于预定的姿势组中时，并且当所述十个代表性姿势中的每一个都包括60个实际连结值时，D可具有值“60”，并且d可具有值“10”。

此外，作为因子分析器的隐藏因子，s指示通过学习确定的d维的矢量，并且可被假定为零均值高斯分布N(0,1)。

此外，n指示作为高斯随机变量的噪声，并且可被假定为高斯分布N(μ,ψ)。

当将高斯分布模型应用于等式2时，可获得下面的示例等式3。

等式3：

p(q)=N(q|μ,LL^T+ψ)

在等式3中，p(q)指示姿势的概率值（即，姿势自然度测量值），并且q指示具有姿势的实际连结值的D维的矢量。此外，L指示在姿势组中存储代表性姿势的“D×d”维的矢量，μ指示建模的n的平均矢量，并且ψ指示建模的n的方差矩阵。

在另一示例中，当难以使用因子分析器以非线性分布表示对象的姿势时，可如例如下面等式4中所示地使用混合因子分析器（MFA）。在实施例中，MFA可以是以几个线性模型的加权和而配置的模型。

等式4：

p (q) = Σ_{k = 1}^{K} w_{k} N (q | μ_{k}, L_{k} L_{k}^{T} + ψ)

在等式4中，K指示因子分析器的数量，并且w_k指示预定的姿势组k的加权因子。此外，q指示具有姿势的实际连结值的D维的矢量，并且L_k指示在预定的姿势组k中存储代表性姿势的“D×d”维的矢量。此外，μ_k指示预定姿势组k的建模的n的平均矢量，并且ψ指示建模的n的方差矩阵。

如上所述，可学习到存储在数据库930中的统计模型。在MFA统计模型的示例中，可输入所有姿势信息，并且可通过最大期望算法学习到L_k、s、w_k、μ_k、ψ等，并且可将学习到的结果更新到数据库930中。

在示例中，当使用存储MFA统计模型的数据库时，可将每个候选姿势C作为例如等式4中的q输入，并且可获得与候选姿势C关联的概率值p(C)（即，姿势自然度测量值）。根据实施例，仅作为示例，姿势检索器130可检索具有最高概率值（即，最高姿势自然度测量值）的候选姿势C作为最有可能的姿势。

在该实施例或另一实施例中，姿势检索器130可计算候选姿势的姿势似然值，可基于数据库930计算候选姿势的姿势自然度测量值，并且可统一地确定计算出的姿势似然值和计算出的姿势自然度测量值，以检索最有可能性的姿势。为了统一地确定姿势似然值和姿势自然度测量值，姿势检索器130可使用检索具有两个值的最高的平均值的候选姿势作为最有可能的姿势的方案，以及通过将不同的加权因子分配给两个值来计算所述两个值并检索计算出的值之中的具有最高值的候选姿势作为最有可能性的姿势的方案。除了以上方案之外，姿势检索器130可执行各种方案，以统一地确定姿势似然值和姿势自然度测量值，并且以检索最有可能的姿势。

在操作950中，基于检索到的最有可能的姿势来形成对象骨架。例如，可通过以骨架的形式呈现对象901的形状来获得对象骨架。因此，有可能有效地控制对象的姿势和操作。

在下文中，将参照图10和图11更加详细地描述根据一个或更多个实施例的对象骨架。参照图10和图11，诸如图1的姿势检索器130的姿势检索器可计算包括多个连结1001至1020的对象骨架。

特别地，图10的对象骨架可包括多个连结1001至1020，例如，头部1001、颈部1002、左手感受器1003、左力臂1004、左上臂1005、左锁骨1006、右锁骨1007、右上臂1008、右力臂1009、右手感受器1010、脊椎31011、脊椎21012、脊椎11013、左大腿1014、左小腿1015、左脚感受器1015、根和盆骨1017、右大腿1018、右小腿1019和右脚感受器1020。在此，当多个连结1001已经被赋予与不同的身体部位相应的名称时，对示出的多个连结1001的另一种理解可以是为了区分多个识别出的身体组成。此外，所述识别出的多个连结应该被认为仅仅是示例，并且不需要所有或者限制可识别的连结的数量、身体组成或自由度（DOF）。此外，当多个连结时，连结1001-1020中的每一个可具有一个或更多个预定的DOF。

参照图11，根据一个或更多个实施例，姿势检索器130可由此将例如通过将对象骨架与对象形状组合而获得的图像输出到图1的对象姿势检测设备的显示器。

图12示出根据一个或更多个实施例的仅作为示例的诸如图1的后处理元件150的后处理元件的操作的示图。参照图12，例如，后处理元件150可执行操作1210，以使用检索器130已经检索到的最有可能的姿势针对对象骨架1201执行姿势排布。以下将更加详细地描述操作1220和1230，但也可由后处理元件150执行所述操作1220和1230。在操作1210中，可对对象骨架1201的当前姿势和先前姿势之间的根位置和方向进行排布。

在操作1220中，可执行姿势扭曲，以通过在经排布的当前姿势和先前姿势之间进行插值而产生中间姿势。在实施例中，后处理元件150可基于先前帧的姿势使用时间信息执行姿势扭曲，并且可基于当前帧中使用空间信息产生的各个姿势来执行姿势扭曲。在该实施例或另一实施例中，后处理元件150还可基于可从先前帧最终估计出的确定的对象骨架的置信度值和可从当前帧最终估计出的确定的对象骨架的置信度值来融合最终的对象骨架。作为融合结果，后处理元件150可插值与相应的对象的姿势更加相似的姿势，并且可快速地估计出对象的姿势。

在操作1230中，可通过扭曲的当前姿势和先前姿势之间的线性插值和非线性插值来提供光滑和自然的过渡，并且可随后针对感测和识别出的骨架之间的中间姿势执行高速采样。因此，图1的对象姿势检测设备可以以比原始图像捕捉速度更高的速度输出相应的对象的姿势。

在一个或更多个实施例中，后处理元件150可针对对象计算动量。仅作为示例，计算出的动量可用于计算例如用户的热量消耗和能量消耗等。后处理元件150可计算针对对象的深度图像的多帧检索出的多个最有可能的姿势之间的距离的和作为对象的动量。根据实施例，后处理元件150可计算当前帧的多个关键连结和先前帧的多个关键连结之中的处于相同位置的关键连结之间的每段距离，可对计算出的距离之中等于或大于阈值的距离进行求和，以计算动量。仅作为示例，后处理元件150可使用下面的等式5和等式6来针对对象计算动量。

等式5：

E = Σ_{frame = 1}^{m} Σ_{joint = 1}^{n} I (x)

等式6：

在等式5中，E指示可通过累积与所有连结n相应的所有输入帧m计算出的最终估计出的动量。在等式6中，D指示距离阈值。此外，I(x)指示用于确定对象是否运动的叫回函数（recall function），并且当对象至少运动了D时可返回1。P_x指示先前帧的骨架，并且C_x指示当前帧的骨架。

图13示出根据一个或更多个实施例的仅作为示例的诸如图1的基于模型的追踪器160的基于模型的追踪器的操作的示图。参照图13，基于模型的追踪器160可执行操作1310，以计算已经被存储的对象1301的当前深度图像和对象1302的先前深度图像之间的差值。仅作为示例，可由基于模型的追踪器160来执行以下描述的操作1320至1340。

在操作1320中，可使用计算出的差值来执行针对示出的3D模型1321的拟合。因此，在操作1330中，可将对象1301的当前深度图像作为例如先前图像存储在数据库中。在操作1340中，可由此计算与对象1301关联的对象姿势。因此，可基于计算出的对象姿势来估计对象骨架1350。图1的对象姿势检测装置还可执行上述操作1310至1340，并且因此有可能增加检索对象的最有可能的姿势的效率。

根据实施例，后处理元件150可将由基于模型的追踪器160估计出的对象骨架1350与由姿势检索器130检索出的最有可能的姿势进行比较，并且可将加权因子分配给具有高估计准确性的对象骨架。因此，后处理元件150可将对象骨架1350与姿势检索器130检索出的最有可能的姿势进行融合，以形成单个对象骨架。此外，后处理元件150可分配加权因子，并且可从对象骨架1350和由姿势检索器130检索出的最有可能的姿势之间选择已经应用了加权因子的姿势，从而可输出选择的姿势作为最终估计出的对象骨架。

图14示出根据一个或更多个实施例的仅作为示例的通过其诸如图1的姿势检测器130的姿势检索器使用加权因数来检索最有可能的姿势的操作的示图。参照图14，可执行操作1401来计算候选姿势1420和应用了关键连结数据的姿势1401之间的差值。仅作为示例，可由姿势检索器130执行操作1401。在实施例中，可产生至少两个候选姿势1420。

此外，姿势检索器130可基于计算出的差值来计算候选姿势1420的加权因子w i。根据实施例，姿势检索器130可使用例如下面的等式7来计算加权因子。

等式7：

w_i=exp(-||P_i-P||²)

在等式7中，P指示应用了关键连结数据的姿势1410，并且P_i指示候选姿势1420。

在操作1402中，可基于计算出的加权因子来获得候选姿势1420的加权和。相似地，在实施例中，可由姿势检索器130执行操作1402。根据实施例，姿势检索器130可随后计算通过使用例如下面的等式8对加权因子求和产生的姿势1430。

等式8：

P^{*} = Σ_{j = 1}^{n} (\frac{w_{j}}{Σ w_{j}}) \cdot P_{i}

在等式8中，P_i指示候选姿势1420，并且P^*指示通过对加权因子求和产生的姿势1430。

姿势检索器130可检索姿势1430作为最有可能的姿势。

图15示出根据一个或更多个实施例的对象姿势检测方法的流程图。

参照图15，在操作1510中，可从对象的深度图像检测对象的关键连结数据。对象可表示包括在预记录的图像或从相机实时输入的实时图像中的人、无生命对象等。关键连结可包括例如对象的多个末端部位和潜在的一个或更多个连接部位等。

在操作1520中，可使用数据库基于关键连结数据检索与对象具有最高相似度的最有可能的姿势。数据库可存储与对象关联的对象姿势，并且对象姿势可包括对象惯常使用的姿势信息。

可使用各种方案来检索最有可能的姿势。例如，可产生至少一个候选姿势，并且可使用产生的至少一个候选姿势来检索最有可能的姿势。

为了产生至少一个针对对象的候选姿势，可使用将约束IK应用于关键连结数据的方案，以及基于关键连结数据从数据库统计地提取至少一个针对对象的候选姿势的方案。此外，在实施例中，可从数据库检索与产生的候选姿势具有最高的相似性的姿势作为最有可能的姿势。在该实施例或另一实施例中，可使用加权因子从产生的候选姿势检索最有可能的姿势。

可相似地对图15的对象姿势检测方法应用对象姿势检测设备的上述实施例的操作方面，并且因此，将省略对象姿势检测方法的进一步描述。

图16a和图16b示出分别被配置为包括例如处理装置、能够通过一个或更多个网络与各个其它处理装置进行通信的潜在的各个用户界面、以及潜在的其它用户界面的一个或更多个对象姿势检测设备的一个或更多个实施例。

图16a示出对象姿势检测设备2100、一个或更多个网络2140和潜在的另一对象姿势检测设备2150。对象姿势检测设备2100可包括处理装置或***以及潜在的用户界面2130，并且对象姿势检测设备2150可相似地包括处理装置或***2160以及潜在的用户界面2170。

图16b示出根据一个或更多个实施例的终端2200，其代表图16a的对象姿势检测设备2100和对象姿势检测设备2150中的一个或两者。终端2200可包括例如与图像输入装置2260（例如，一个或更多个相机）连接的编码器2205、解码器2250、用户界面2130（例如，显示器2230和潜在的输入/输出界面2235）和一个或更多个处理装置（诸如，中央处理单元（CPU）2210）。CPU2210可与编码器2205和解码器2250连接，并且可控制编码器2205和解码器2250的操作以及终端2200的其它组件与编码器2205和解码器2250的交互。此外，附加或作为替代，图像输入装置2260可与CPU2210直接连接。此外，显示器2230可显示根据一个或更多个实施例估计出的估计出的对象的姿势。示出的元件2240代表一个或更多个无线和/或有线通信***。在实施例中，并且仅作为示例，终端2200可以是台式计算机、膝上计算机、机顶盒装置（例如，作为家庭娱乐或游戏终端）、移动装置（诸如，移动电话、智能电话、平板计算机、个人数字助理或膝上计算机），CPU2210可使用这样的嵌入式的估计姿势依赖环境，针对仅作为示例的移动电话、智能电话、平板计算机或个人数字助理中的惯常特征，基于在此描述的一个或更多个实施例来实现终端的其它特征和终端的能力。因此，一个或更多个实施例可包括具有不同方面和特征的终端2200的实体，所述终端2200的实体具有可用于区分应用和功能的嵌入的姿势估计，用于与其它嵌入的特征或者与远程装置或应用进行交互。

在一个或更多个实施例中，在此描述的任何设备、***、元件或可阐明的单元包括一个或更多个硬件装置或硬件处理元件。例如，在一个或更多个实施例中，任何描述的设备、***、元件、检索器、预处理或后处理元件、追踪器、检测器、编码器、解码器还可包括一个或更多个存储器和/或处理元件以及任何硬件输入/输出传输装置，或者代表一个或更多个各个处理元件或装置的操作部分/方面。此外，术语设备应该被认为与物理***的元件同义，不限于所有实施例中的单个装置或封装或在单个的各个封装中实施的所有描述的元件，而是根据实施例开放式地被一起实施或者通过不同的硬件元件在不同的封装和/或位置中单独实施。

除了上述实施例之外，还可通过非暂时性介质（诸如，计算机可读介质）中/上的计算机可读代码/指令来实现实施例，以控制至少一个处理装置（诸如，处理器或计算机），以实现任何上述实施例。介质可与允许计算机可读代码的存储和/或传输的任何经定义的、可测量的和有形的结构相应。

介质还可包括例如与计算机可读代码、数据结构等结合。计算机可读介质的一个或更多个实施例包括：磁介质，诸如硬盘、软盘和磁带；光介质，诸如CD ROM盘和DVD；磁光介质，诸如光盘；硬件装置，特别地配置为存储和执行程序指令，诸如只读存储器（ROM）、随机存取存储器（RAM）、闪存等。例如，计算机可读代码可包括诸如由编译器产生的机器代码和包含可由计算机使用编译器执行的更高级代码的文件两者。介质还可以是任何经定义的、可测量的和有形的分布式网络，以便以分布式方式存储和执行计算机可读代码。此外，仅作为示例，处理元件可包括处理器或计算机处理器，并且处理元件可被分布在和/或包括在单个装置中。

仅作为示例，还可在执行（例如，像处理器那样处理）程序指令的至少一个专用集成电路（ASIC）或现场可编程门阵列（FPGA）中实现计算机可读介质。

虽然已参照本发明的不同实施例具体地示出并描述了本发明的方面，应该理解的是，这些实施例应该被认为仅是描述性的意义，而不是为了限制的目的。每个实施例内特征或方面的描述通常应该被认为可用于其余实施例中的其它相似的特征或方面。如果以不同顺序执行描述的技术，和/或如果以不同的方式组合和/或以其它组件或其等同物替代或补充描述的***、架构、装置或电路中的组件，则同样可实现合适的结果。

因此，尽管已经示出并描述了一些实施例，但是在其它实施例同样可用的情况下，本领域的技术人员将理解的是，在不脱离发明的原理和精神的情况下，可在所述实施例中做出改变，其中，可由权利要求及其等同物来定义本发明的范围。

Claims

1.一种设备，所述设备包括：

关键连结检测器，分析图像以在图像中检测关于对象的各个多个关键连结的关键连结数据；

数据库，存储代表一个或更多个对象的潜在姿势的多个对象姿势的各个信息；

对象检索器，基于检测出的关键连结数据从数据库检索并输出多个对象姿势的最有可能的姿势，其中，所述最有可能的姿势与对象的实际姿势具有确定的最高的相似度。

2.如权利要求1所述的设备，其中，所述图像是对象的深度图像。

3.如权利要求1所述的设备，其中，关键连结检测器搜索对象的端点，从图像提取端点的特征，基于提取出的特征分类端点，并且计算经分类的端点的位置以检测各个关键连结数据。

4.如权利要求3所述的设备，其中，关键连结检测器从图像分割示出与端点相应的末端部位的图像，使分割出的图像标准化，从经标准化的图像提取末端部位的特征，基于提取出的特征对末端部位进行分类，并且计算经分类的末端部位的位置以检测各个关键连结数据。

5.如权利要求4所述的设备，其中，关键连结检测器还从图像提取对象的特征，基于提取出的特征将对象的姿势分类为作为特定姿势，并且基于经分类的姿势从数据库检测关键连结数据。

6.如权利要求5所述的设备，其中，关键连结检测器从图像提取对象的三维（3D）轮廓特征，基于提取出的3D轮廓特征将对象的姿势分类为与特定姿势分类标识（ID）相应，并且基于姿势分类ID从数据库检测关键连结数据。

7.如权利要求5所述的设备，其中，关键连结检测器从图像提取对象的3D水平集特征，基于提取出的3D水平集特征将对象的姿势分类为与特定姿势分类标识（ID）相应，并且基于姿势分类ID从数据库检测关键连结数据。

8.如权利要求5所述的设备，其中，姿势检索器通过将约束逆运动学（IK）应用于关键连结数据来产生针对对象的至少一个候选姿势。

9.如权利要求8所述的设备，其中，姿势检索器计算应用了关键连结数据的姿势和至少一个候选姿势之间的差值，基于计算出的差值来计算所述至少一个候选姿势的加权因子，基于计算出的加权因子获得所述至少一个候选姿势的加权和，并且检索由加权和产生的姿势作为最有可能的姿势。

10.如权利要求5所述的设备，还包括：后处理元件，用于计算对象的动量，其中，后处理元件计算针对图像的多个帧中的每一个分别检索出的多个确定的最有可能的姿势之间的距离的和作为动量。

11.如权利要求10所述的设备，其中，后处理元件计算当前帧的多个关键连结和先前帧的多个关键连结之中处于相同位置的关键连结之间的每段距离，并且对计算出的距离之中等于或大于阈值的距离进行求和以计算动量。

12.如权利要求5所述的设备，还包括：显示器，显示基于最有可能的姿势计算出的与对象关联的对象骨架。

13.如权利要求3所述的设备，还包括：显示器，显示基于最有可能的姿势计算出的与对象关联的对象骨架。

14.如权利要求3所述的设备，其中，姿势检索器通过将约束逆运动学（IK）应用于关键连结数据来针对对象产生至少一个候选姿势。

15.如权利要求14所述的设备，其中，姿势检索器计算应用了关键连结数据的姿势和至少一个候选姿势之间的差值，基于计算出的差值来计算所述至少一个候选姿势的加权因子，基于计算出的加权因子获得所述至少一个候选姿势的加权和，并且检索由加权和产生的姿势作为最有可能的姿势。

16.如权利要求3所述的设备，还包括：后处理元件，计算对象的动量，其中，后处理元件计算针对图像的多个帧中的每一个分别检索出的多个确定的最有可能的姿势之间的距离的和作为动量。

17.如权利要求16所述的设备，其中，后处理元件计算当前帧的多个关键连结和先前帧的多个关键连结之中处于相同位置的关键连结之间的每段距离，并且对计算出的距离之中等于或大于阈值的距离进行求和以计算动量。

18.如权利要求1所述的设备，其中，关键连结检测器还从图像提取对象的特征，基于提取出的特征将对象的姿势分类为具有特定姿势，基于分类的姿势从数据库检测关键连结数据。

19.如权利要求18所述的设备，其中，关键连结检测器从图像提取对象的三维（3D）轮廓特征，基于提取出的3D轮廓特征将对象的姿势分类为与特定姿势分类标识（ID）相应，并且基于姿势分类ID从数据库检测关键连结数据。

20.如权利要求18所述的设备，其中，关键连结检测器从图像提取对象的3D水平集特征，基于提取出的3D水平集特征将对象的姿势分类为与特定姿势分类标识（ID）相应，并且基于姿势分类ID从数据库检测关键连结数据。

21.如权利要求1所述的设备，其中，姿势检索器通过将约束逆运动学（IK）应用于关键连结数据来针对对象产生至少一个候选姿势。

22.如权利要求21所述的设备，其中，姿势检测器计算应用了关键连结数据的姿势和至少一个候选姿势之间的差值，基于计算出的差值来计算所述至少一个候选姿势的加权因子，基于计算出的加权因子来获得所述至少一个候选姿势的加权和，并且检索由加权和产生的姿势作为最有可能的姿势。

23.如权利要求1所述的设备，其中，姿势检索器基于检测出的关键连结数据针对对象产生至少一个候选姿势，基于数据库计算所述至少一个候选姿势的姿势自然度测量值，并且检索具有最高自然度测量值的候选姿势作为最有可能的姿势。

24.如权利要求1所述的设备，其中，姿势检索器基于最有可能的姿势计算与对象关联的对象骨架。

25.如权利要求1所述的设备，还包括：

后处理元件，针对对象计算动量，其中，后处理元件计算针对图像的多个帧中的每一个分别检索出的多个确定的最有可能的姿势之间的距离的和作为动量。

26.如权利要求25所述的设备，其中，后处理元件计算当前帧的多个关键连结和先前帧的多个关键连结之中处于相同位置的关键连结之间的每段距离，并且对计算出的距离之中等于或大于阈值的距离进行求和以计算动量。

27.如权利要求1所述的设备，还包括：相机，捕捉图像作为在相机前摆出姿势的用户的图像。

28.一种方法，所述方法包括：

分析图像以在图像中检测关于对象的各个多个关键连结的关键连结数据；

基于检测出的关键连结数据从存储代表一个或更多个对象的潜在姿势的多个对象姿势的各个信息的数据库检索并输出多个对象姿势的最有可能的姿势，

其中，最有可能的姿势是与对象的实际姿势具有确定的最高的相似度的姿势。

29.如权利要求28所述的方法，其中，图像是对象的深度图像。

30.如权利要求28所述的方法，其中，分析图像的步骤包括：搜索对象的端点，从图像提取端点的特征，基于提取出的特征分类端点，并且计算经分类的端点的位置以检测各个关键连结数据。

31.如权利要求30所述的方法，其中，分析图像的步骤包括：从图像分割示出与端点相应的末端部位的图像，使分割出的图像标准化，从经标准化的图像提取末端部位的特征，基于提取出的特征对末端部位进行分类，并且计算经分类的末端部位的位置以检测各个关键连结数据。

32.如权利要求31所述的方法，其中，分析图像的步骤包括：从图像提取对象的特征，基于提取出的特征将对象的姿势分类为作为特定姿势，并且基于经分类的姿势从数据库检测关键连结数据。

33.如权利要求32所述的方法，其中，分析图像的步骤包括：从图像提取对象的三维（3D）轮廓特征，基于提取出的3D轮廓特征将对象的姿势分类为与特定姿势分类标识（ID）相应，并且基于姿势分类ID从数据库检测关键连结数据。

34.如权利要求32所述的方法，其中，分析图像的步骤包括：从图像提取对象的3D水平集特征，基于提取出的3D水平集特征将对象的姿势分类为与特定姿势分类标识（ID）相应，并且基于姿势分类ID从数据库检测关键连结数据。

35.如权利要求32所述的方法，其中，检索步骤还包括：通过将约束逆运动学（IK）应用于关键连结数据来产生至少一个针对对象的候选姿势。

36.如权利要求35所述的方法，其中，检索步骤还包括：计算应用了关键连结数据的姿势和至少一个候选姿势之间的差值，基于计算出的差值来计算所述至少一个候选姿势的加权因子，基于计算出的加权因子获得所述至少一个候选姿势的加权和，并且检索由加权和产生的姿势作为最有可能的姿势。

37.如权利要求32所述的方法，还包括：

基于针对图像的多个帧中的每一个分别检索出的多个确定的最有可能的姿势之间的距离的和来计算对象的动量。

38.如权利要求37所述的方法，其中，计算动量的步骤还包括：计算当前帧的多个关键连结和先前帧的多个关键连结之中处于相同位置的关键连结之间的每段距离，并且对计算出的距离之中等于或大于阈值的距离进行求和以计算动量。

39.如权利要求32所述的方法，还包括：基于最有可能的姿势计算与对象关联的对象骨架，并且在显示器上显示对象骨架。

40.如权利要求30所述的方法，还包括：基于最有可能的姿势计算与对象关联的对象骨架，并且在显示器上显示对象骨架。

41.如权利要求30所述的方法，其中，检索步骤还包括：通过将约束逆运动学（IK）应用于关键连结数据来针对对象产生至少一个候选姿势。

42.如权利要求41所述的方法，其中，检索步骤还包括：计算应用了关键连结数据的姿势和至少一个候选姿势之间的差值，基于计算出的差值来计算所述至少一个候选姿势的加权因子，基于计算出的加权因子获得所述至少一个候选姿势的加权和，并且检索由加权和产生的姿势作为最有可能的姿势。

43.如权利要求30所述的方法，还包括：

44.如权利要求43所述的方法，其中，计算动量的步骤还包括：计算当前帧的多个关键连结和先前帧的多个关键连结之中处于相同位置的关键连结之间的每段距离，并且对计算出的距离之中等于或大于阈值的距离进行求和以计算动量。

45.如权利要求28所述的方法，其中，检索步骤还包括：基于检测出的关键连结数据针对对象产生至少一个候选姿势，基于数据库计算所述至少一个候选姿势的姿势自然度测量值，并且检索具有最高自然度测量值的候选姿势作为最有可能的姿势。

46.一种非暂时性计算机可读记录介质，所述非暂时性计算机可读记录介质包括用于控制至少一个处理装置实现权利要求28所述的方法的计算机可读代码。