CN104049754A

CN104049754A - 实时手跟踪、姿态分类和界面控制

Info

Publication number: CN104049754A
Application number: CN201410254196.7A
Authority: CN
Inventors: 苏拉吉特·阿德希卡瑞
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-11-06
Filing date: 2010-10-29
Publication date: 2014-09-17
Anticipated expiration: 2030-10-29
Also published as: CA2774974A1; US8755568B2; EP2478427A2; US20110110560A1; KR20120093226A; JP5455167B2; US8600166B2; CA2774974C; EP2478427A4; CN102576259B; WO2011056731A3; US20140022164A1; CN104049754B; JP2013508827A; KR101299300B1; EP2478427B1; US8774464B2; WO2011056731A2; CN102576259A; US20140028550A1

Abstract

利用消费电子设备的图像处理模块来检测来自相机输入的手姿势。从手姿势的词表中标识出所检测到的手姿势。响应于所标识出的手姿势来控制电子设备。本摘要不被认为是限制性的，因为其他实施例可以偏离本摘要描述的特征。

Description

实时手跟踪、姿态分类和界面控制

本申请是申请号为201080047670.9、PCT国际申请日为2010年10月29日、发明名称为“实时手跟踪、姿态分类和界面控制”的发明专利申请的分案申请。

相关文献的交叉引用

本申请要求2009年11月6日向美国专利局提交的题为“REAL TIMEHAND TRACKING AND POSE CLASSIFICATION USING SIFT ANDKLT”的美国临时专利申请No.61/258,975的优先权和权益，该申请通过引用被整体结合于此。

版权和商标声明

背景技术

手可以呈现二十七个(27)自由度(DOF)的运动。在这二十七个自由度中，二十一个(21)表示关节角度，六个(6)表示朝向和位置。传统上，手跟踪利用着色手套和颜色图案匹配、使用仪器化手套/传感器***或重叠相机(例如，立体相机***)的阵列的附接到手的回复反射(retro-reflective)标记。

附图说明

参考下面结合附图所作的详细描述可以最好地理解示出了组织和操作方法以及目的和优点的一些说明性实施例，在附图中：

图1是符合本发明的某些实施例的能够执行自动化的实时手跟踪、姿态分类和界面控制的电视机的实施方式的示例的示图。

图2是符合本发明的某些实施例的与图1的电视机相关联的提供自动化的实时手跟踪、姿态分类和界面控制的示例核心处理模块的框图。

图3是符合本发明的某些实施例的提供自动化的实时手跟踪、姿态分类和界面控制的处理的实施方式的示例的流程图。

图4是符合本发明的某些实施例的提供与自动化的实时手跟踪、姿态分类和界面控制相关联的训练处理的处理的实施方式的示例的流程图。

图5是符合本发明的某些实施例的提供与自动化的实时手跟踪、姿态分类和界面控制相关联的检测和姿态识别处理的处理的实施方式的示例的流程图。

图6是符合本发明的某些实施例的提供与自动化的实时手跟踪、姿态分类和界面控制相关联的电子设备用户界面处理的处理的实施方式的示例的流程图。

图7是符合本发明的某些实施例的提供与自动化的实时手跟踪、姿态分类和界面控制相关联的电子设备用户界面处理以及对于电子设备的控制功能的姿态指派的处理的实施方式的示例的流程图。

具体实施方式

虽然本发明容许实施例有许多不同形式，但是将在如下理解下在附图中示出并在这里的具体特定实施例中描述本发明：这样的实施例的公开被认为是原理的示例而不希望将本发明限制到所示出和描述的具体实施例。在下面的描述中，在附图中的若干视图中相似标号被用来描述相同、类似或对应部分。

如这里使用的术语“一”或“一个”被定义为一个或多于一个。如这里使用的术语“多个”被定义为两个或多于两个。如这里使用的术语“另一个”被定义为至少第二个或者更多。如这里使用的术语“包括”和/或“具有”被定义为包含(即，开放式语言)。如这里使用的术语“耦合”被定义为连接，尽管不一定是直接地并且不一定是机械上的。如这里使用的术语“程序”(program)或“计算机程序”或类似术语被定义为被设计用于在计算机***上执行的指令序列。“程序”或“计算机程序”可以包括可执行应用中的子例程、功能、过程、对象方法、对象实施方式、以及小应用程序、伺服小程序、源代码、对象代码、共享库/动态负载库和/或被设计用于在具有一个或多个处理器的计算机***上执行的其它指令序列。

如这里使用的术语“program”也可以用在第二种语境中(以上定义用于第一种语境)。在第二种语境中，该术语被用作“电视节目”的意义。在此语境中，该术语被用来指音视频内容的任何相关序列，音视频内容例如是被解释为并且在电子节目指南(EPG)中被报告为单个电视节目的内容，而不管该内容是否是电影、体育事件、多部分系列中的片段、新闻广播等。该术语也可以被解释为包括可能不被报告为电子节目指南中的节目的商业广告位置和其它像节目的内容。

贯穿本文档提及的“一个实施例”、“某些实施例”、“实施例”、“实施方式”、“示例”、或者类似术语指结合示例描述的特定特征、结构、或者特性被包括在本发明的至少一个实施例中。所以，这些短语的出现或者在贯穿本说明书的各个位置不一定全都是指同一实施例。另外，特定特征、结构、或者特性可以被以任何适当的方式结合在一个或多个实施例中，而不受任何限制。

如这里使用的术语“或”将被解释为包含性的或者指任一个或任何组合。因此，“A、B或C”是指“如下意思中的任一种意思：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元素、功能、步骤或动作以某种方式固有地相互排斥时才会发生此定义的例外。

本主题提供了自动化的实时手跟踪、姿态分类和界面控制。可以结合标识并对徒手的手姿态和手姿态的改变进行分类的***使用本主题。还可以结合用户界面控制***使用本主题，以允许手姿势控制诸如消费电子设备之类的设备。这里描述的实时手跟踪、姿态分类和界面控制还适于允许用户基于手姿势来形成输入控制。另外，用户界面***的每个个体用户的手特性，例如因受伤产生的特性或其它特性，可被处理并且被结合消费电子设备的基于手势的控制进行配置，以允许个性化地自动识别手姿势，从而控制共同的或不同的用户界面控件。实时手跟踪、姿态分类和界面控制还存在许多其它可能性，并且所有可能性均被认为落在本主题的范围内。

作为示例，可被标识出来并被用来控制诸如消费电子设备之类的设备的所检测到的手姿势包括对可被标识出来并被与打开消费电子设备的控制命令相关联的“竖拇指(thumbs-up)”手姿势或“向上指”手姿势的检测。类似地例如，对“倒拇指(thumbs-down)”手姿势或“向下指”手姿势的检测可以被标识出来并被与关闭消费电子设备的控制命令相关联。可基于本主题被检测并被标识出来的任何手姿势可被用来控制设备的界面(例如，用户界面)。另外，手姿势可由用户创建并且可被响应于手姿势输入而指派给控制功能。用户界面控制存在许多可能性并且所有可能性被认为落在本主题的范围内。

本主题可以利用诸如单目相机之类的单个相机以及如下数据驱动方法来操作，其中该数据驱动方法使用尺度不变特征变换(SIFT)描述符和像素强度/位移描述符作为所提取的特征来不仅跟踪三维的手的关节型姿态而且还对其进行分类。然而，应注意，这里描述的处理可被扩展为使用多个相机，这可以极大地提高准确度。实时方面允许其被集成到消费电子设备中。还可以应用在三维(3D)建模、新桌面用户界面和多触摸界面中。还可以通过为这些实施方式创建更直观的界面设备来改进实时嵌入***。

SIFT是一种用于处理图像的技术，其提取在旋转、平移(translation)和缩放时不变的突出特征描述符。因此，SIFT描述符可被认为对于匹配、识别和图像登记任务是稳健的。像素强度/位移是一种用于处理图像的技术，其使用像素相对于其相邻像素的位移位置和像素强度来跟踪图像内的像素。要在图像序列内跟踪的特征是这样的像素，这些像素是通过计算一个图像与被位移了已知值的同一图像之间的图像梯度并形成图像梯度矩阵而被确定的。如果图像梯度矩阵的本征(Eigen)值大于指定阈值(例如，最大值10.0)，则每个这样的特征可被认为是提供适合于跟踪目的的信息的特征。Kanade、Lucas和Tomasi(KLT)描述符表示可被使用的一种可能形式的像素强度/位移描述符。然而，将明白，任何形式的像素强度/位移描述符可被适当地用于给定实施方式。

跟踪方面可以包括跟踪平面外旋转以及动态手的其它特性。可以将三维的手的所分类的关节型姿态(articulated pose)与消费电子设备的用户界面控制相关联。配置和训练模式允许将定制的姿态朝向与电子***的具体控制相关联。由于徒手跟踪和姿态识别是利用单个相机执行的，因此不需要使用回复反射标记、相机阵列的传统技术或者其它传统技术。此外，可以在实时地执行手跟踪、姿态分类和界面控制的同时维持分辨率和范围。

与某些传统技术相比，这里描述的主题可被用来捕捉增加的自由度，从而使能直接操纵任务和对增强手势集的识别。这里描述的方法示出了数据驱动方法的示例，其中数据驱动方法允许单个帧被用来基于经减少的存储姿态信息集来正确地标识姿态。稳健的尺度不变特征被从手姿态的单个帧提取，并且多类支持向量机(SVM)被用来实时地对姿态进行分类。多假设推断被用来进行实时徒手跟踪和姿态识别。

本主题通过利用对图像特征的选择并且利用多类SVM推断最接近姿态图像来促进实时性能，其中最接近姿态图像允许快速检索出最接近匹配。关于图像特征的选择，可以快速地计算出SIFT和像素强度/位移特征两者，并且多类SVM可以使用类似滤波器来提取突出信息进而加快提取速度。由于多类SVM在先前图像集上被训练，因此可以进一步提高检索效率。将在下面的一些介绍性示例体系结构(基于其可以实现本主题)中描述结合本主题执行的处理的其它细节。

现在转向图1，图1是能够执行自动化的实时手跟踪、姿态分类和界面控制的电视机100的实施方式的示例的示图。应注意，在本示例中使用电视机100仅仅是出于说明的目的。因此，在不脱离本主题的范围的情况下，这里描述的实现自动化的实时手跟踪、姿态分类和界面控制的***可以形成手持消费电子设备或任何其它合适设备的一部分。

外壳102容纳显示器104，显示器104向电视机100的用户提供视觉和/或其它信息。显示器104可以包括任何类型的显示设备，例如，阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)、投射式或其它显示元件或面板。显示器104还可以包括触摸屏显示器，例如，与手持消费电子设备或包括触摸屏输入设备的其它设备相关联的触摸屏显示器。

红外(IR)(或射频(RF))响应输入设备106为电视机100的用户提供了经由诸如红外遥控设备(未示出)之类的设备进行输入的能力。音频输出设备108为电视机100提供音频输出能力，例如与所渲染的内容相关联的音频。对于给定的实施方式，音频输出设备108可以适当地包括一对扬声器、驱动器电路和接口电路。

发光二极管(LED)输出模块110提供一个或多个LED以及用于用信号向电视机100的用户通知某些事件或确认的相关联的驱动器电路。有许多用于经由LED信号向用户传输信息的可能性并且所有可能性被认为落在本主题的范围内。

相机112为电视机100提供图像捕捉能力。如下面将更详细描述的，由相机112捕捉的图像可被处理，以执行与本主题相关联的自动化的实时手跟踪、姿态分类和界面控制。

图2是提供与图1的电视机100相关联的自动化的实时手跟踪、姿态分类和界面控制的示例核心处理模块200的框图。对于给定的实施方式，核心处理模块200可以适当地被集成到电视机100中或者被实现为分离的互连模块的一部分。处理器202提供核心处理模块200内的计算机指令执行、计算和其它能力。红外输入设备106被示出并且同样为电视机100的用户提供经由诸如红外遥控设备(同样未示出)之类的设备进行输入的能力。

音频输出设备108被示出并且同样为核心处理模块200提供音频输出能力。对于给定的实施方式，音频输出设备108可以适当地包括一个或多个扬声器、驱动器电路和接口电路。

调谐器/解码器模块204接收电视(例如，音频/视频)内容并且对该内容进行解码以供经由显示器104进行显示。该内容可以包括经由运动图像专家组(MPEG)标准中的任一种标准被格式化的内容或者以任何其它合适格式被格式化的内容，以供调谐器/解码器模块204接收。调谐器/解码器模块204可以包括如下形式的其它控制器电路：专用集成电路(ASIC)、天线、处理器和/或离散集成电路以及用于执行与调谐器/解码器模块204(该模块用于调谐到并解码经由与核心处理模块200的无线或有线连接而接收的内容)相关联的电子控制活动的组件。显示器104被示出并且同样经由调谐器/解码器模块204为核心处理模块200提供视觉和/或其它信息。

对于给定的实施方式，通信模块206可以替代地为核心处理模块200提供通信能力，例如，经由卫星、线缆、存储介质、因特网或其它内容提供商检索静止图像内容、音频和视频内容或其它内容，以及其它活动。对于给定的实施方式，通信模块206可以适当地支持有线或无线标准。示例的有线标准包括家庭网络内的因特网视频链路(IVL)互连，例如，索尼公司的因特网视频链路(BIVL^TM)。示例的无线标准包括蜂窝无线通信和无线通信标准。许多其它有线和无线通信标准也是可以的并且所有标准被认为落在本主题的范围内。

存储器208包括手姿态存储区域210、手跟踪和姿态处理存储区域212以及控制相关性存储区域214。手姿态存储区域210可以存储信息(例如，被捕捉并被用于处理本主题的自动化的实时手跟踪、姿态分类和界面控制的手姿态的词表)。手跟踪和姿态处理存储区域212可以存储如下信息，例如，相机112捕捉的图像以及与手姿态标识相关联的所捕捉图像的处理的中间及最后阶段。控制相关性存储区域214可以存储这样的信息，例如，已经与电视机100的控制命令相关起来的手位置或手位置标识符。

应明白，存储器208可以包括适用于所期望的目的的易失性和非易失性存储器的任何组合(根据需要为分布式的或局部性的)，并且可以包括其它存储器片段(为了简化说明未在本示例中图示出)。例如，在不脱离本主题的范围的情况下，存储器208可以包括代码存储区域、代码执行区域和数据区域。

还示出了手跟踪和姿态处理模块216。手跟踪和姿态处理模块216为核心处理模块200提供执行如上所述并且下面将更详细描述的自动化的实时手跟踪、姿态分类和界面控制的处理能力。相机112被示出并且同样为核心处理模块200提供图像捕捉能力。

应注意，为了简化说明和描述，上面与核心处理模块200相关联地描述的模块被示出为组件级模块。还应明白，这些模块包括被用来执行如上所述并将在下面更详细描述的这些模块的各各功能的任何硬件、(一个或多个)经编程的处理器以及存储器。例如，各模块可以包括如下形式的其它控制器电路：专用集成电路(ASIC)、处理器和/或用于执行电子控制活动的离散集成电路以及组件。另外，这些模块可以适当地包括中断级、堆栈级和应用级模块。此外，这些模块可以包括由这些模块用来进行存储、执行和数据处理以便执行各自的处理活动的任何存储器组件。

还应注意，手跟踪和姿态处理模块216可以在不脱离本主题的范围的情况下形成其它电路的一部分。此外，手跟踪和姿态处理模块216替代地可以被实现为存储在存储器208中的应用。在这种实施方式中，手跟踪和姿态处理模块216可以包括由处理器202运行的用于执行这里描述的功能的指令。处理器202可以执行这些指令以为核心处理模块200提供如上所述并且将在下面更详细描述的处理能力。在不脱离本主题的范围的情况下，手跟踪和姿态处理模块216可以形成中断服务例程(ISR)的一部分、操作***的一部分、浏览器应用的一部分或者单独应用的一部分。

处理器202、红外输入设备106、音频输出设备108、调谐器/解码器模块204、通信模块206、存储器208、相机112和手跟踪和姿态处理模块216经由一个或多个互连被相互连接，为了简化图示说明，所述互连被示出为互连218。互连218可以包括***总线、网络或者能够出于各种目的而向各组件提供合适互连的任何其它互连。

这里描述的处理包括某些类别的活动。用于手检测和姿态推断的稳健特征集合被提取并被存储。经训练的多类SVM被用来推断姿态类型。关节型(articulated)姿态然后被利用反向运动学(IK)优化来近似。下面将更详细描述这些处理方面中的每个方面。

特征集合的提取和存储

关于用于手检测和姿态推断的稳健特征集合的提取和存储，临时准备的特征群跟踪算法可被用来跟踪后续视频帧之间的感兴趣区域(ROI)。特征群跟踪可被用于快速跟踪诸如手之类的非刚性且高度关节化的对象。特征群跟踪将像素强度/位移特征和所学习的前景颜色分布结合起来，以辅助二维(2D)跟踪。特征群跟踪还触发SIFT特征提取。所提取的SIFT特征可被用于姿态推断。特征群跟踪假设关节型对象内的突出特征以类似于鸟群的方式逐帧地移动。利用光流算法来计算路径。

在某些实现方式中可以利用其它条件或约束，例如，所有特征彼此维持最小距离，以及这些特征离特征中值从不超过所定义的距离。在这样的实施方式中，如果违反了该条件或约束，则可以基于对肤色滤波具有高响应的区域来重新计算并定位特征的位置。特征群行为改进了对跨越帧转变的感兴趣区域的跟踪，并且还可以改进对于区域的外观可能随着时间改变的情形的跟踪。关于肤色的另一线索允许当跨越帧序列的特征被丢失时，使用另外的信息。

可以通过在横跨图像的多个方向上测量亮度梯度(与在提取SIFT描述符时寻找定向梯度密切相关的一个步骤)来提取像素强度/位移特征。与所生成的图像金字塔相结合，特征的图像区域可以被高效地匹配到后面的视频帧中的搜索窗口内的“最”相似区域。图像金字塔可被认为是基于原始图像生成的一系列分辨率逐渐变小的内插，例如，从手的直方图数据开始，针对处理可能性的迭代，将图像内的灰度减小所配置的百分比(例如，百分之十(10％))，如下面将更详细描述的。特征大小确定了可用于匹配的上下文知识的数量。如果两个连续帧之间的特征匹配相关性低于可配置阈值，则该特征可被认为“丢失”。因此，可配置阈值允许出于跟踪和标识目的的分辨率调节。

所生成的图像金字塔可被用来提取像素强度/位移特征和SIFT特征两者。像素强度/位移特征可被考虑适当地用于跟踪目的。然而，由于认识到像素强度/位移特征对于尺度或旋转并非不变的，因此，由于准确性而不被用来推断手姿态。SIFT特征对于图像缩放和旋转是不变的，并且至少部分地对于照度和2D相机视角的改变是不变的。SIFT特征还被很好地定位在空间和频率域两者中，这可以降低被遮挡、喧闹、噪声或其它因素破坏的概率。

可以通过利用级联滤波方法来减少提取像素强度/位移特征和SIFT特征的时间影响，在级联滤波方法中，更费时的操作被应用于通过初始测试的位置。初始测试例如可以包括将图像划分为三十二乘三十二(32x32)的像素子窗口。对于每个子窗口，可利用高斯滤波器的差分来计算关键点(keypoint)。如果任何子窗口中都存在许多关键点，则完整的SIFT描述符可被计算出来。否则，该子窗口可被丢弃以去除图像中可能与手位置检测不相关的大部分。SIFT描述符已被选择用于该实施方式，因为SIFT描述符将图像数据变换为相对于局部特征的尺度不变坐标。

利用SIFT描述符将图像数据变换为相对于局部特征的尺度不变坐标的处理包括四个阶段。第一阶段包括尺度空间极值检测。第二阶段包括关键点定位。第三阶段包括朝向指派。第四阶段包括关键点描述符变换。

关于尺度空间极值检测，尺度空间极值检测包括遍历所有尺度和图像位置的计算搜索。尺度空间极值检测例如可以利用高斯差分滤波器(difference-of-Gaussian filter)来实现。

关于关键点定位，对于经由尺度空间极值检测被标识出的每个候选位置，详细模型被拟合以确定位置和尺度。关键点基于其在图像或图像序列内的稳定性的度量而被选择。在图像或图像序列内的稳定性可被定义为在其自身与其相邻像素之间具有高对比度的关键点。该稳定性可被用来减少或移除对低对比度的感兴趣点的灵敏度，低对比度的感兴趣点可能对噪声敏感或者可能被较差地沿着边缘定位。

关于朝向指派，一个或多个朝向基于局部图像梯度方向被指派给经由关键点定位标识出的每个关键点位置。可以针对每个特征对已经相对于所指派朝向、尺度和位置被变换的图像数据执行所有将来操作，从而为这些变换提供不变性。

关于关键点描述符变换，在每个关键点周围的区域中以所选尺度来测量从朝向指派得到的局部图像梯度。局部图像梯度然后可被变换为一种表示，该表示允许极大水平的局部形状失真和照度改变。

该方法的令人感兴趣的方面在于，其生成了在尺度和位置的全部范围中密集地覆盖图像的大量特征。例如，对于典型的五百乘五百(500x500)像素的图像大小，该处理可以产生大约两千(2000)个稳定特征，尽管该数目可能取决于图像内容和各种参数选择两者。较快的识别方法可包括将所生成的特征与利用欧几里得距离作为接近参考图像的度量从参考数据库提取的特征相比较。然而，该方法可能会产生较低的准确度。多类SVM因此可被用来增加匹配的准确度，通过匹配每个单独手姿态可被表示出来并被当作一类。

下面的伪文本处理表示Kanade,Lucas和Tomasi(KLT)群检测的示例。将明白，下面的伪文本处理可以用适合于给定的实施方式的任何语法来实现。还将明白，任何其它像素强度/位移技术可被适当地用于给定的实施方式。

初始化处理：

1.学习颜色直方图；

2.标识出具有最小距离的将要跟踪的n*k个特征；

3.基于颜色和固定手膜(hand mask)来对所标识出的特征进行排序；以及

4.选择n个排序最高特征进行跟踪。

群检测处理：

1.利用图像金字塔来更新KLT特征位置

2.计算中值特征

3.对于每个特征，进行：

如果：

a)离任何其它特征小于min_dist，或者

b)在以中值为中心的max范围之外，或者

c)低匹配相关性

则：

将特征重新定位到符合群集条件的优良颜色点上去

从以上的伪文本处理可以看出，初始化包括学习颜色直方图，利用所标识出的特征之间的最小距离标识出要跟踪的特征的集合，对所标识出的特征集合排序，并且选择最高排序特征的子集进行跟踪。在初始化处理完成之后，群检测处理可开始。群检测处理包括利用图像金字塔来更新KLT特征位置并且计算中值特征。对于每个中值特征，条件处理可被执行。例如，如果相应特征离任何其它特征小于所定义的最小距离(min_dist)、在以所计算出的中值为中心的最大(max)范围之外、或者具有低的匹配相关性，则该特征可被重新定位到符合群集条件的颜色直方图内的颜色点上。响应于该处理，图像内的群检测可被执行。

使用经训练的多类SVM来推断姿态类型

关于使用经训练的多类SVM来推断姿态类型，元素的实例与从元素的有限集合中得到的标签的一对一映射可被建立，以获得一种学习或推断姿态类型的形式。SVM可被认为是一种解决二进制分类问题(例如，可能标签集合的大小为二的问题)的方法。多类SVM将此理论扩展到多类域中。已认识到，利用支持向量机通过将单个多类问题简化为多个二进制问题来解决多类问题的传统方法对于数百种不同手姿态类型之间的辨别可能是不实际的。本主题通过在训练和输入图像中检测突出特征然后在每个所检测到的特征之间进行一一对应的映射来辨别手姿态。

该一对一映射允许匹配跨越多个2D图像的特征，并且还允许跨越用于生成训练集的3D训练模型进行映射。该信息然后可被用于在该处理的后一阶段优化姿态推断，如下面将更详细描述的。因此，SIFT特征不仅可以提供感兴趣区域(ROI)的定位描述，而且可以提供感兴趣区域的全局位置的观念(尤其是在映射到3D训练模型时)。因此，得到的感兴趣区域被高度结构化并被互连，以使得在多个图像中特征的位置及其与其它特征的关系也可以通过利用被设计用于相互依赖和结构化输出空间的多类SVM来提供另外的信息。

分类问题可被用如下公式表示。训练集在下式(1)中被示出。

具有[1...k]中的标签y_i的(x₁，y₁)…(x_n，y_n) 式(1)其中，x_i是m个SIFT特征的集合[t₁...t_m]，其中变量“y”代表描述符的垂直坐标位置，变量“m”代表SIFT特征的数目，并且k代表标签的数目，标签表示各种姿态类型。变量“n”代表要处理的SIFT描述符的大小，并且变量“t”代表完整特征向量(x₁,y₁)…(x_n,y_n)。

该方法的途径是要解决下式(2)中提到的优化问题。

\min 1 / 2 \underset{i = 1 . . k}{Σ} wi * wi + C / n \underset{i = 1 . . n}{Σ} δi

式(2)

条件：对于所有y[l..k]：[x₁·w_y1]＞＝[x₁·w_y]+100*Δ(y₁，y)-δ₁并且

对于所有y[l..k]：

常数“C”代表折衷余裕大小(margin size)和训练误差的规则化参数。元素Δ(y_n，y)代表损耗函数，如果y_n等于y则其返回零(0)，否则返回1。变量“w”代表初始权重参数，该初始权重参数取决于像素(x,y)到实际的3D mocap数据内的关节位置的距离，变量“n”代表描述符的大小，变量“k”代表定义各种手姿态的标签的数目，并且“y”代表描述在图像中的垂直坐标位置。

关于数据库采样，获得合适的训练数据集合会提高推断方法的准确度。对于给定的实施方式，均匀地采样所有的自然手配置并且排除冗余样本的小数据库是优选的。可利用迭代法来执行用于这里描述的多类SVM的训练。

例如，可以收集从如下视频帧提取的例如四千(4000)个手图像的合适训练集，所述视频帧是从任何可用的动态捕捉(mocap)数据库获得的。这样的数据还可以包括三维(3D)关节数据以及2D合成图像，其中它们被用来建立增加姿态推断准确度的对应性和/或相关性。每个集合可被划分为用于训练和测试目的的两个集合。如此一来，处理例如可以以一百(100)个图像的集合开始。对于每次迭代，集合计数可被增加一百个(100)图像。在每次迭代中，可以测量测试标签之间的均方根误差。在这样的实施方式中，对于给定的实施方式，少到一千四百(1400)个图像的集合可以适当地被用在样本数据库中来产生可接受结果。

关于训练参数，结果可被优化以供输入到IK求解器，并且可以针对每个合成地生成的训练图像来计算质心。这些合成地生成的训练图像和计算出的质心可被与来自如上所述的3D mocap数据库的关节数据相关联。可以使用诸如60个元素的特征向量之类的特征向量的训练和提取。这样的数量表示可被用来消除给定特征空间中的离群数据元素的影响的试探性估计。规则化参数可被用在给定的多类SVM实施方式中，以减少/最小化数据集中偏离率(bias)的影响。示例规则化参数例如可以包括百分之七十八(0.78)。该值可以通过如下操作来确定：利用递增的规则化值来迭代地训练多类SVM，直到误差的均方根(RMS)值小于所希望的误差水平(例如十分之一(0.1))为止。

利用反向运动学(IK)优化来近似关节型姿态

关于利用IK优化来近似关节型姿态，反向运动学可被用来改善关节型姿态。如上所述，本主题不依赖彩色手套。然而，注意，本主题可适于例如在冷天气期间用于带手套的手。在本示例中，徒手姿态标识被执行。SIFT描述符的质心被用来提高姿态估计的准确性。应注意，尽管没有IK优化的处理可能能够一贯地区分十个(10)以上不同姿态类型，但是IK优化允许去除纯SVM实施方式不能解决的、姿态中的某些模糊性。

就此而言，该处理的初始部分在3D姿态数据(例如，来自mocap数据库)与已检测到的2D SIFT特征之间建立一对一映射。图像被分解成三十二乘三十二(32X32)的图像区域，为了描述的目的，这些图像区域可被当作像素块(pixel patch)。针对每个区域分别提取特征。对于每个区域，该区域内的特征的质心被计算出来，然后该位置被映射到对应的3D姿态数据。结果，对于训练集内的任何质心特征，真实的手数据上的三维点可被标识出来。

在分析32X32像素块的特征期间，可以针对每个32X32像素块的特征来再次计算质心。从每个质心到训练数据库中的最接近匹配的偏差可以被比较，并且可以判断哪个关节约束(例如，手骨关节约束)可能影响IK处理。

每个特征质心然后可被映射到被存储在3D mocap数据库数据中的其最接近的关节。从该映射，IK处理可以确定关节型手的最终位置，从而使得关节离训练图像中的最终位置的距离被最小化。由于手中的关节的复杂特性，用于获得闭合形式解的直接分析计算可能较复杂并且在计算上可能较费时。因此，用于迭代地收敛到最优解的数值技术可被使用。实时性能限制可以限制针对任何给定的实施方式可能被执行的迭代次数。然而，注意，对于某些实施方式可以在五十(50)次迭代内以合理精确度(例如，被最小化)来解析该处理。

因此，从2D训练集提取出的质心可被映射到3D mocap数据库数据中的它们的最接近关节。响应于对输入图像的检测，质心可被提取。姿态类型的最接近匹配可以基于SVM结果被推断出来。对于数据库中的每种姿态类型，3D关节数据可被用作用于IK处理的约束。在输入图像与2D训练图像之间相匹配的特征之间存在一一对应性，这又允许确定与3D mocap数据库数据中的3D关节的关系。利用该信息，优化问题分解为下面的式(3)至式(5)中表示的公式，其后是用于这些式子的迭代处理的示例伪代码。

对于特征质心被当作要从2D训练姿态获得的目标自由度(DOF)的给定输入图像：

g={I₀..I_n} 式(3)

结果“g”代表包含从3D mocap数据获得的所有“n”个关节的集合，其可被当作手姿态的“地面实况”位置(例如，关节的已知真实朝向)，变量“I”代表描绘个体关节位置和朝向的向量，并且变量“n”代表3D mocap数据模型中的关节的数目。

用Φ代表针对所推断出的训练姿态的当前关节集合。

并且

e＝{C₀..C_n} 式(4)

结果“e”代表包含从检测阶段推断出的所有“n”个关节的集合，而变量“C”代表表示各关节的朝向和位置的向量，并且变量“n”代表手模型中的关节的数目，结果还表示作为当前的末端效应器(end effector)的所推断出的训练姿态特征。当前末端效应器可被当作所推断出的训练姿态的关节。末端效应器的朝向和位置被迭代地改变，直到其位置与地面实况关节位置中的关节之差被最小化为止。

对误差进行最小化被定义如下：

α = \sqrt{e - g}

式(5)

结果sigma代表被最小化的误差。

下面是用伪代码形式表示的、可用来解决该问题的示例迭代步骤。

当(α<阈值)

如可从此示例伪代码看出的，只要误差低于所定义/配置的阈值，处理就迭代。该迭代处理包括对于当前推断出的训练姿态，计算所推断出的训练姿态特征向量的雅克比矩阵。该雅克比矩阵然后被倒置。为当前的关节集合选择近似方法。所选择的近似方法被用来确定针对当前关节集合的目标自由度(DOF)的改变。针对当前关节集合的目标自由度(DOF)的改变被应用于已被初始化为所推断出的训练姿态的手模型中的当前关节。针对从动态捕捉数据获得的关节的地面实况位置，计算新的误差向量。如上所述，只要误差低于所定义/配置的阈值，处理就迭代。注意，IK实施方式可以作为与检测***同时运行的单独处理进行操作，尽管这些处理操作可被集成为单个处理。

下面的图3至图7描述了可由诸如电视机100之类的设备运行以执行与本主题相关联的自动化的实时手跟踪、姿态分类和界面控制的示例处理。示例处理的许多其它变形也是可能的，并且所有变形被认为落在本主题的范围内。示例处理可由诸如手跟踪和姿态处理模块216之类的模块来执行和/或由与这些设备相关联的处理器202来执行。应注意，为了简化说明，在下面描述的示例处理中未示出超时过程和其它误差控制过程。然而，将明白，所有这样的过程被认为落在本主题的范围内。

图3是提供自动化的实时手跟踪、姿态分类和界面控制的处理300的实现方式的示例的流程图。处理300开始于302。在块304，处理300经由电子设备的图像处理模块从至少一个输入图像提取与手姿势检测和手姿态推断相关联的特征集合。在块306，处理300利用经训练的多类支持向量机(SVM)来推断手姿态类型。在块308，处理300利用反向运动学(IK)优化来近似手姿态。

图4是提供与自动化的实时手跟踪、姿态分类和界面控制相关联的训练处理的处理400的实施方式的示例的流程图。处理400开始于402。在判决点404，处理400做出训练模式是否已例如，经由用户输入、第一次加电、或者进入消费电子设备的训练模式的其它形式的启动被启动的判定。响应于训练模式已被启动的判定，处理400在块406获取如上所述的3D动态捕捉(mocap)数据。获取mocap数据可以包括针对动画的每帧，检索包含关节的位置和朝向的文本文件。示例mocap文件可以包括描绘手的一个完整运动的数百帧的序列。

在块408，处理400渲染与mocap数据相关联的帧序列并对其进行动画模拟。渲染与mocap数据相关联的帧序列并对其进行动画模拟可以包括：逐帧地读取mocap数据文件并且创建看起来像手的3D网格，其中，对于每帧来说，手的位置和朝向是由mocap数据文件中存储的关节数据确定的。渲染与mocap数据相关联的帧序列并对其进行动画模拟可以包括：例如利用或其它图形库来渲染并动画模拟mocap数据。

在块410，处理400从动画的3D渲染输出中提取3D图像。例如，可以为mocap数据的每个3D渲染帧创建2D便携式网络图形(PNG)图像。2D PNG图像表示被保存到格式类似于相机图片的图像文件中的3D渲染输出的每帧的彩色图像。

在块412，处理400将所提取的2D图像转换为灰阶。每个2D图像可被转换为黑白格式的图像。这样，对于每个图像，仅强度信息被保存并且所有其它颜色信息可被丢弃。丢弃其它颜色信息可有助于减少mocap数据或所提取的2D图像数据中的噪声的影响。

在块414，处理400从2D灰阶图像提取尺度不变特征变换(SIFT)特征。如上所述，SIFT表示一种可被用来从图像获取如下特征的技术，所述特征在经历旋转、平移(translation)和缩放时不改变。特征可被描述为2D图像上的由图像内的诸如“x”和“y”位置之类的坐标表示的点。对于从mocap训练数据提取的每个图像，该处理可被应用来获取图像中的坐标(例如，x、y位置)阵列，这些坐标是对于手来说不随着帧改变的位置。这样的区域的示例包括指尖、当手指被卷曲时形成的线或者其它这样的区域。

在块416，处理400计算质心并且查对关节数据以创建特征向量。例如，质心可以从在图像内检测到的坐标(例如，x、y位置点)计算出来。这可以包括计算坐标阵列上的平均值(例如，x1+x2+...+xn/n，其中n是点的数目)。另外，质心离手的每个关节的距离可被计算出来。关节信息可从原始3D mocap数据获得。如果仅关节的坐标(例如，x、y位置)被使用，则距离可被计算为近似值。然而，该近似值表示可被用来标识当前姿态与3D mocap数据之差的唯一值。对于3D mocap数据，通常有十六(16)个关节，每个关节描绘手中的骨头的效果，例如，指骨、手中的中间骨或者其它骨头。因此，该处理产生了作为六十(60)个坐标(例如，(x,y)位置)的阵列的特征向量。该特征向量可从SIFT提取、质心位置(例如，(cx,cy))和关节质心距离(可被表示为距离的阵列(例如，{d1,d2,d3....d16})被获得。然而，应注意，该示例仅代表特征向量的一种可能格式。

在块418，处理400处理作为多类SVM的输入的特征向量。如上所述，SVM代表支持向量机并且表示训练阶段期间的监督学习方法。该处理通过提供特征向量和描绘特征向量的类型的标签来执行。例如，可以为手掌面向相机的手提供特征向量。这样的特征向量可以具有被指派给其的标签“手掌前面”。类似地，可以针对诸如二百(200)个特征向量之类的数量执行该处理，其中每个特征向量都被指派有这样的标签。当完成对所有可用特征向量的处理时，该处理可以利用各种参数被执行若干小时，例如以分析数字并且定义方程式，该方程式将特征向量作为其变量并且可被用来评估对于每个标签来说具有唯一性的数字值。这些类型的方程式表示多变量方程式。这样，多类SVM接受数字形式的数据，并且尝试在受以下规则约束的同时近似出生成这些数字的方程式，其中所述规则是每个数字必须落在所指派标签之一内。

在块420，处理400利用测试数据来测试经训练的多类SVM核。在训练处理完成之后，经训练的多类SVM可被称为“核”。测试数据可被输入该核用于评估。测试数据可以包括预先被贴标签的特征向量，其允许对正确标签是得自经训练的多类SVM核进行跟踪。例如，对于手特征向量，所有手指并拢的输入特征向量可被指派针对该姿态的预标签“并拢的手”。将该特征向量馈入经训练的多类SVM核中的操作可被执行，并且结果被检查以判断从经训练的多类SVM核返回的预测是否是标签“并拢的手”。如果标签“并拢的手”被返回，则经训练的多类SVM核正确地预测出了该姿态。如果标签“并拢的手”未被返回，则预测可被认为不正确，并且进一步的训练可被执行。另外应注意，对于任何给定数量，例如经训练的两百(200)个特征向量，该数量的特征向量可被测试以获得准确度的百分比值。训练可持续到预测的准确度达到目标准确度水平(例如，百分之八十五至九十(85-90％)的准确度)为止。

这样，在判决点422，处理400做出目标准确度水平是否已被达到的判定。响应于目标准确度水平尚未达到的判定，处理400返回块420以处理更多测试数据并如上所述地进行迭代。响应于目标准确度水平已达到的判定，处理400返回判决点404以等待新的进入训练模式的请求。

因此，处理400获取3D mocap数据，并且渲染并动画模拟该数据。处理400从所渲染并动画模拟的3D mocap数据提取2D图像。处理400从经灰阶转换的2D图像提取SIFT特征，计算质心，并且对关节数据进行相关以创建特征向量。处理400处理作为多类SVM的输入的(一个或多个)特征向量，并且利用测试数据来测试所得到的经训练的多类SVM。

图5是提供与自动化的实时手跟踪、姿态分类和界面控制相关联的检测和姿态识别处理的处理500的实施方式的示例的流程图。处理500开始于502。在判决点504，处理500做出是否开始包括姿态检测和识别的姿态分析的判定。姿态分析例如可以响应于经由相机(例如，相机112)检测到运动而开始或者响应于检测到与分析相关联的用户输入请求而开始。出于本示例的目的，假设相机112未被初始化并且在开始姿态分析的判断之后是初始化相机112的处理。

因此，响应于判断开始姿态分析，处理500初始化相机112并且在块506中捕捉单个帧。在块508，处理500为所捕捉帧内的图像生成颜色直方图。在块510，处理500基于该图像内的每个像素的已知手颜色直方图信息，指派每个像素形成手的一部分的可能性的概率值。该处理允许从背景图像内容中对手进行定位。在块512，处理500将跟踪点置于形成手的一部分的概率非常高的像素上。这些跟踪点表示将跨越后续帧被跟踪的特征。

在块514，处理500将图像从彩色转换为灰阶并且向图像应用不同尺度的高斯滤波。该处理可以在一个循环中针对像素强度/位移和SIFT特征提取二者被执行，以提高处理速度。在块516，处理500将图像的尺度缩小百分之十(10％)，并且重新计算如上所述的每个像素的概率。该处理创建出图像金字塔，并且减少了噪声的影响。该处理还允许在手移离相机或移近相机时跨越变化的深度和距离来跟踪特征。

在块518，处理500计算高斯函数的差，以利用来自不同尺度的高斯滤波的结果来定位感兴趣点，并且计算图像的质心。感兴趣点在灰阶图像中可以用坐标(例如，x、y点)来表示。从该感兴趣点信息，SIFT关键点可利用诸如朝向指派之类的机制被计算出来，其中朝向指派主要涉及例如通过计算像素及其相邻像素的反正切(tan)并且去除边缘响应，基于局部图像特性向每个关键点指派一致朝向。放置在图像中的跟踪点可以使用所标识的(一个或多个)兴趣点来计算图像的质心。出于示例的目的，图像的质心可被假设为所检测到的手的中心。

在块520，处理500利用所检测到的SIFT关键点来创建特征向量。特征向量例如可以包括从图像获得的最好的六十(60)个点。特征向量可以作为阵列被存储在例如存储器208的手跟踪和姿态处理存储区域212内。作为像素强度/位移处理的结果，质心可被计算出来并且可被添加到该阵列。根据前十六(16)个SIFT点位置，可以计算离质心的距离。该处理创建出了与在上述训练阶段期间所形成的特征向量类似的特征向量。用来计算关节距离的SIFT特征可能没有形成精确的匹配。然而，SIFT特征提供了对由于手指弯曲而形成的边缘的合理近似，因为关节表示通常示出了可辨别出的对比度改变的点。

在块522，处理500将特征向量输入经训练的多类SVM核(例如，上面结合图4描述的在训练阶段/模式期间训练出的支持向量机)。如上所述，多类SVM表示一种复杂的数学函数，其利用特征向量作为参数来近似地定义用于训练其的数据。由于该函数已经通过训练阶段/模式被定义，因此可以响应于将特征阵列发送给多类SVM而快速地计算出结果。

在块524，处理500从多类SVM核接收结果。该结果可被返回，作为用于训练多类SVM的多个(例如，八(8)个)标签之一。所选数量可被认为表示可能被检测的不同手位置的数目。因此，对于八(8)个标签的示例，处理500可以检测八(8)个不同手位置。增加的训练处理和标签数量可以增加可被检测的不同手位置的数目。

在块526，处理500还利用反向运动学(IK)求解器来处理结果。由于标签是已知的，因此若每个标签被与一个手姿态相关联，则处理500可以近似/估计出手姿态。这个所检测出的姿态中的每个关节的位置也是已知的。还注意，假设最终姿态是利用前十六(16)个SIFT描述符(其被假设为关节的最终位置)被检测到的，原始手姿态关节可被移到SIFT点被定位的相同位置。该处理是利用IK求解器执行的。

由于关节彼此相连并且具有彼此固定的受约束关系和变化的自由度(DOF)，因此利用IK求解器将原始手姿态移动到SIFT关键点位置可被实现，从而使得约束得到满足。应注意，通常，位置不会精确地匹配。因此，IK求解器接近地近似关节位置并且当其认为关节接近IK求解器处理可以确定的最终位置时停止。该阶段或处理可被当作手的最后姿态。IK求解器的输出可以包括描绘关节位置和朝向的多个(例如，十六(16))数字。应注意，尽管未在处理500内描绘出，但是关节位置和朝向可被用来动画模拟3D手并且可以得到在诸如显示器104之类的屏幕上示出的最后姿态。处理500返回判决点504并且等待开始姿态分析的另一指示。

因此，处理500初始化相机并捕捉单个帧。处理500利用该单个帧生成颜色直方图并且向每个像素指派该像素形成手的一部分的可能性的概率。跟踪点被置于每个像素上并且图像被转换为灰阶。灰阶图像被迭代地减小并且概率被重新计算。高斯函数的差被计算出来，以定位感兴趣点。SIFT关键点被计算出来，并且特征向量被利用SIFT关键点创建出来。特征向量被输入经训练的多类SVM，并且结果被利用IK求解器进行处理以将结果映射到经训练的手数据内的最后的手位置。

图6是提供与自动化的实时手跟踪、姿态分类和界面控制相关联的电子设备用户界面处理的处理600的实施方式的示例的流程图。处理600开始于602。在块604，处理600经由电子设备的图像处理模块通过相机输入来检测手姿势。在块606，处理600从手姿势的词表中标识出所检测到的手姿势。在块608，处理600响应于所标识出的手姿势来控制电子设备。

图7是提供与自动化的实时手跟踪、姿态分类和界面控制相关联的电子设备用户界面处理以及向电子设备的控制功能提供姿态指派的处理700的实施方式的示例的流程图。处理700开始于702。在判决点704，处理700做出手势是否被检测到的判定。将明白，如上面结合图5描述的处理一样，该处理可被用来确定手势是否被检测到。检测手姿势可以包括检测徒手位置，如上所述。此外，检测手姿势可以包括检测徒手位置的序列。

响应于判定手势被检测到，处理700在块706标识所检测到的手势。例如可从手姿势的词表中标识出所检测到的手姿势。

在判决点708，处理700做出所标识出的手势是否被与电子设备的控制功能相关联的判定。例如，可以将手姿势与打开电子设备、关闭电子设备、调节音频输出的音量或者电子设备的其它控制功能相关联。

响应于判定所标识出的手势与电子设备的控制功能相关联，处理700在判决点710做出手姿势是否被检测到达与电子设备的控制相关联的阈值持续时间的判定。控制阈值例如可被用来实现电子设备控制的迟滞，以消除错误控制信号。所配置的控制阈值可以包括对于给定实施方式的任何合适范围，例如，对于给定实施方式适当的两百毫秒(200ms)或者更高或更低的持续时间。

响应于判定手姿势是否被检测到达与电子设备的控制相关联的阈值持续时间，处理700在块712处响应于所标识出的手姿势来控制电子设备。例如，响应于所标识出的手姿势来控制电子设备可以包括打开电子设备、关闭电子设备、调节输出音量或者适合于给定实施方式的任何其他控制功能。

响应于在块712处响应于所标识出的手姿势完成对于电子设备的控制或者响应于在判决点710处判定手姿势未被检测到达阈值持续时间，处理700返回判决点704以等待对另一手姿势的检测并且如上所述地进行迭代。

返回对判决点708的描述，响应于判定所标识出的手势不与电子设备的控制功能相关联，处理700在判决点714处做出指示向电子设备的控制功能指派所标识出的手姿势的指示是否被检测到的判定。例如，如经由遥控设备(未示出)或触摸屏输入(未示出)的单独输入可被用来指示向电子设备的控制功能指派所标识出的手势。替代地，如上所述，该指示可被接收作为所标识出的手势。在这样的实施方式中，如上面结合判决点704和块706描述的附加处理可被执行，以检测和标识将被用作用于电子设备的控制功能的所指派的手姿势的第二手姿势。该附加处理可被当做判决点714的处理的一部分。在任一实施方式中，响应于判定控制指派已被指示，处理700在块716处将所检测到的手势(或者对于给定实施方式适当的第二所检测姿势)指派给电子设备的控制功能。当在块716处完成了向电子设备的控制功能指派所检测到的手势(或第二所检测手势)时，或者响应于在判决点714处判定用于指示向控制功能指派所标识出的手姿势的指示尚未被检测到，处理700返回判决点704以等待对另一手姿势的检测并且如上所述地进行迭代。

因此，处理700检测并标识手姿势，并且基于所标识出的手姿势来控制电子设备。处理700还处理所检测到的手姿势，以提供迟滞并避免与手姿势检测有关的正误识(false positives)。处理700还向电子设备的控制功能指派手势。对于手势电子设备控制处理还存在许多可能性，并且所有可能性均被认为落在本主题的范围内。

因此，根据某种实施方式，一种经由手姿势来控制电子设备的方法包括：经由电子设备的图像处理模块通过基于所检测到的徒手位置序列的相机输入来检测徒手位置；判断该徒手位置是否被检测到达阈值持续时间；从手姿势的词表中标识出所检测到的徒手位置，其中，所标识出的徒手位置包括与电子设备的加电相关联的手姿势；并且响应于判定徒手位置已被检测到达阈值持续时间，通过对电子设备加电来响应于所标识出的徒手位置控制电子设备。

在另一实施方式中，计算机可读存储介质可以存储指令，该指令在一个或多个经编程的处理器上被运行时执行经由手姿势控制电子设备的处理，该处理包括：通过基于所检测到的徒手位置序列的相机输入，检测徒手位置；判断该徒手位置是否被检测到达阈值持续时间；从手姿势的词表中标识出所检测到的徒手位置，其中，所标识出的徒手位置包括与电子设备的加电相关联的手姿势；以及响应于判定徒手位置已被检测到达阈值持续时间，通过对电子设备加电来响应于所标识出的徒手位置控制电子设备。

在某种实施方式中，经由手姿势来控制电子设备的方法包括：经由电子设备的图像处理模块来通过相机输入检测手姿势；从手姿势的词表中标识出所检测到的手姿势；并且响应于所标识出的手姿势来控制电子设备。

在某些实施方式中，包括经由电子设备的图像处理模块来通过相机输入检测手姿势的经由手姿势来控制电子设备的方法包括：检测徒手位置。在某些实施方式中，经由电子设备的图像处理模块来通过相机输入检测手姿势的方法包括：检测徒手位置的序列。在某些实施方式中，所标识出的手姿势包括与电子设备的加电相关联的手姿势，并且响应于所标识出的手姿势来控制电子设备的方法包括对电子设备加电。在某些实施方式中，所标识出的手姿势包括与电子设备的断电相关联的手姿势，并且响应于所标识出的手姿势来控制电子设备的方法包括对电子设备断电。在某些实施方式中，该方法还包括：判断与电子设备的控制相关联的手姿势是否被检测到达阈值持续时间；并且经由电子设备的图像处理模块来通过相机输入检测手姿势的方法包括：检测与电子设备的控制相关联的手姿势达阈值持续时间。在某些实施方式中，该方法还包括：判断与电子设备的控制相关联的手姿势是否被检测到达阈值持续时间；并且从手姿势的词表中标识出所检测的手姿势的方法包括：响应于判定与电子设备的控制相关联的手姿势已被检测到达阈值持续时间，从手姿势的词表中标识出所检测到的手姿势。在某些实施方式中，该方法还包括：检测指示向电子设备的控制功能指派手姿势的词表中的一个手姿势的用户输入；以及向电子设备的控制功能指派手姿势的词表中的一个手姿势。在某些实施方式中，检测指示向电子设备的控制功能指派手姿势的词表中的一个手姿势的用户输入的方法包括：检测与向电子设备的控制功能指派手姿势的词表中的一个手姿势相关联的手姿势。

在另一实施方式中，计算机可读存储介质可以存储指令，所述指令在一个或多个经编程的处理器上被运行时执行经由手姿势控制电子设备的处理，该处理包括：经由相机输入检测手姿势；从手姿势的词表标识出所检测到的手姿势；并且响应于所标识出的手姿势来控制电子设备。

在某些实施方式中，一种手位置检测方法包括：通过跟踪作为特征群的多个输入图像的后续视频帧之间的感兴趣区域(ROI)，经由电子设备的图像处理模块从所述多个输入图像提取与手姿势检测和手姿态推断相关联的特征集合；触发尺度不变特征变换(SIFT)特征提取；计算特征群的光流路径；横跨所述多个输入图像测量多个方向上的亮度梯度；从所测得的亮度梯度生成图像金字塔；利用所生成的图像金字塔来提取像素强度/位移特征和SIFT特征；以及与从所生成的图像金字塔提取像素强度/位移特征和SIFT特征相关联地应用级联滤波器；该方法包括：通过在训练图像和所述多个输入图像中检测至少一个特征，来利用经训练的多类支持向量机(SVM)推断手姿态类型；执行所述多个输入图像内的所述至少一个特征的实例与从元素的有限集合得到的至少一个标签的一对一映射，其中，所述至少一个标签包括在训练阶段基于动态捕捉三维(3D)数据集生成的至少一个标签；并且该方法包括：通过将所述多个输入图像分割成多个处理区域，来利用反向运动学(IK)优化近似所述手姿态；确定所述多个处理区域的每个处理区域中的特征的质心；将每个特征质心的位置映射到与动态捕捉数据集相关联的三维(3D)姿态数据上；比较从每个特征质心到所述3D姿态数据内的最接近匹配的偏差；确定多个关节约束中的哪个会影响所述IK优化；将每个特征质心映射到存储在所述3D姿态数据内的最接近关节；基于所述3D姿态数据最小化训练图像内的每个被映射的最接近关节的距离；以及基于所述训练图像内的每个被映射的最接近关节的最小化距离来确定最终的手位置。

在另一实施方式中，计算机可读存储介质可以存储指令，所述指令在一个或多个经编程的处理器上被运行时执行手位置检测处理，该处理包括：通过跟踪作为特征群的多个输入图像的后续视频帧之间的感兴趣区域(ROI)，经由电子设备的图像处理模块从所述多个输入图像提取与手姿势检测和手姿态推断相关联的特征集合；触发尺度不变特征变换(SIFT)特征提取；计算所述特征群的光流路径；横跨所述多个输入图像测量多个方向上的亮度梯度；从所测得的亮度梯度生成图像金字塔；利用所生成的图像金字塔来提取像素强度/位移特征和SIFT特征；以及与从所生成的图像金字塔提取像素强度/位移特征和SIFT特征相关联地应用级联滤波器；该方法包括：通过在训练图像和所述多个输入图像中检测至少一个特征，利用经训练的多类支持向量机(SVM)推断手姿态类型；执行所述多个输入图像内的所述至少一个特征的实例与从元素的有限集合得到的至少一个标签的一对一映射，其中，所述至少一个标签包括在训练阶段基于动态捕捉三维(3D)数据集生成的至少一个标签；并且该处理包括：通过将所述多个输入图像分割成多个处理区域，利用反向运动学(IK)优化近似所述手姿态；确定所述多个处理区域的每个处理区域中的特征的质心；将每个特征质心的位置映射到与动态捕捉数据集相关联的三维(3D)姿态数据上；比较从每个特征质心到所述3D姿态数据内的最接近匹配的偏差；确定多个关节约束中的哪个会影响所述IK优化；将每个特征质心映射到存储在所述3D姿态数据内的最接近关节；基于所述3D姿态数据最小化训练图像内的每个被映射的最接近关节的距离；以及基于所述训练图像内的每个被映射的最接近关节的最小化距离来确定最终的手位置。

在某些实施方式中，手位置检测方法包括：经由电子设备的图像处理模块从至少一个输入图像提取与手姿势检测和手姿态推断相关联的特征集合；利用经训练的多类支持向量机(SVM)来推断手姿态类型；以及利用反向运动学(IK)优化来近似所述手姿态。

在某些实施方式中，包括经由电子设备的图像处理模块从至少一个输入图像提取与手姿势检测和手姿态推断相关联的特征集合的手位置检测方法包括：横跨所述至少一个输入图像测量多个方向上的亮度梯度；以及从所测得的亮度梯度生成图像金字塔。在某些实施方式中，该方法还包括：利用所生成的图像金字塔来提取像素强度/位移特征和尺度不变特征变换(SIFT)特征。在某些实施方式中，该方法还包括：与从所生成的图像金字塔提取像素强度/位移特征和SIFT特征相关联地应用级联滤波器。在某些实施方式中，所述至少一个输入图像包括多个输入图像，并且经由电子设备的图像处理模块从至少一个输入图像提取与手姿势检测和手姿态推断相关联的特征集合的方法包括：跟踪作为特征群的多个输入图像的后续视频帧之间的感兴趣区域(ROI)；触发尺度不变特征变换(SIFT)特征提取；以及计算所述特征群的光流路径。在某些实施方式中，跟踪作为特征群的多个输入图像的后续视频帧之间的ROI的方法包括：跟踪像素强度/位移特征和所学习的前景颜色分布的二维(2D)组合。在某些实施方式中，计算特征群的光流路径的方法包括：对特征群中的每个特征应用至少一个约束，以使特征群彼此维持最小距离。在某些实施方式中，利用经训练的多类SVM来推断手姿态类型的方法包括：在训练图像和至少一个输入图像中检测至少一个特征；以及执行至少一个输入图像内的至少一个特征的实例与从元素的有限集合得到的至少一个标签的一对一映射。在某些实施方式中，所述至少一个标签包括在训练阶段基于动态捕捉三维(3D)数据集生成的至少一个标签。在某些实施方式中，利用IK优化来近似手姿态的方法包括：将至少一个输入图像分割成多个处理区域；确定所述多个处理区域的每个处理区域中的特征的质心；以及将每个特征质心的位置映射到与动态捕捉数据集相关联的三维(3D)姿态数据上。在某些实施方式中，确定多个处理区域的每个处理区域中的特征的质心的方法包括：比较从每个特征质心到3D姿态数据内的最接近匹配的偏差；以及确定多个关节约束中的哪个会影响所述IK优化。在某些实施方式中，该方法还包括：将每个特征质心映射到存储在3D姿态数据内的最接近关节。在某些实施方式中，该方法还包括：基于3D姿态数据最小化训练图像内的每个被映射的最接近关节的距离；以及基于训练图像内的每个被映射的最接近关节的最小化距离来确定最终的手位置。在某些实施方式中，该方法还包括：定义用于图像处理的可配置分辨率阈值；以及调节所述可配置分辨率阈值。在某些实施方式中，该方法还包括：存储与手姿势检测和手姿态推断相关联的所提取的特征集合。

在另一实施方式中，计算机可读存储介质可以存储指令，所述指令在一个或多个经编程的处理器上被运行时执行手位置检测处理，该处理包括：从至少一个输入图像提取与手姿势检测和手姿态推断相关联的特征集合；利用经训练的多类支持向量机(SVM)来推断手姿态类型；以及利用反向运动学(IK)优化来近似手姿态。

一种符合某些实施方式的用于经由手姿势来控制电子设备的装置具有相机以及处理器，该处理器被编程为：基于所检测到的徒手位置的序列来经由相机检测手姿势；判断徒手位置是否被检测到达阈值持续时间；从手姿势的词表中标识出所检测到的徒手位置，其中，所标识出的徒手位置包括与电子设备的加电相关联的手姿势；以及响应于判定徒手位置已被检测到达阈值持续时间，通过对电子设备加电来响应于所标识出的徒手位置控制电子设备。

一种符合某些实施方式的用于经由手姿势来控制电子设备的装置具有相机以及处理器，该处理器被编程为：经由相机检测手姿势；从手姿势的词表中标识出所检测到的手姿势；以及响应于所标识出的手姿势来控制电子设备。

在某些实施方式中，当被编程为经由相机检测手姿势时，处理器被编程为检测徒手位置。在某些实施方式中，当被编程为经由相机检测手姿势时，处理器被编程为检测徒手位置的序列。在某些实施方式中，所标识出的手姿势包括与电子设备的加电相关联的手姿势，并且其中，当被编程为响应于所标识出的手姿势来控制电子设备时，处理器被编程为对所述电子设备加电。在某些实施方式中，所标识出的手姿势包括与电子设备的断电相关联的手姿势，并且其中，当被编程为响应于所标识出的手姿势来控制电子设备时，处理器被编程为将电子设备断电。在某些实施方式中，处理器还被编程为：判断与电子设备的控制相关联的手姿势是否被检测到达阈值持续时间；以及当被编程为经由相机检测手姿势时，处理器被编程为检测与电子设备的控制相关联的手姿势达阈值持续时间。在某些实施方式中，处理器还被编程为：判断与电子设备的控制相关联的手姿势是否被检测到达阈值持续时间；以及当被编程来从手姿势的词表中标识出所检测到的手姿势时，处理器被编程为响应于判定与电子设备的控制相关联的手姿势已被检测到达阈值持续时间，从手姿势的词表中标识出所检测到的手姿势。在某些实施方式中，处理器还被编程为：检测指示向电子设备的控制功能指派手姿势的词表中的一个手姿势的用户输入；以及向电子设备的控制功能指派手姿势的词表中的一个手姿势。在某些实施方式中，当被编程为检测指示向电子设备的控制功能指派手姿势的词表中的一个手姿势的用户输入时，处理器被编程为检测与向电子设备的控制功能指派手姿势的词表中的一个手姿势相关联的手姿势。

一种符合某些实施方式的手位置检测装置具有相机和处理器，该处理器被编程为从经由相机接收的多个输入图像提取与手姿势检测和手姿态推断相关联的特征集合，该处理器还被编程为：跟踪作为特征群的多个输入图像的后续视频帧之间的感兴趣区域(ROI)；触发尺度不变特征变换(SIFT)特征提取；计算特征群的光流路径；横跨所述多个输入图像测量多个方向上的亮度梯度；从所测得的亮度梯度生成图像金字塔；利用所生成的图像金字塔来提取像素强度/位移特征和SIFT特征；以及与从所生成的图像金字塔提取像素强度/位移特征和SIFT特征相关联地应用级联滤波器；该处理器被编程为利用经训练的多类支持向量机(SVM)推断手姿态类型，该处理器还被编程为：在训练图像和多个输入图像中检测至少一个特征；并且执行多个输入图像内的至少一个特征的实例与从元素的有限集合得到的至少一个标签的一对一映射，其中，所述至少一个标签包括在训练阶段基于动态捕捉三维(3D)数据集生成的至少一个标签；并且该处理器被编程为利用反向运动学(IK)优化来近似手姿态，该处理器还被编程为：将多个输入图像分割成多个处理区域；确定多个处理区域的每个处理区域中的特征的质心；将每个特征质心的位置映射到与动态捕捉数据集相关联的三维(3D)姿态数据上；比较从每个特征质心到3D姿态数据内的最接近匹配的偏差；确定多个关节约束中的哪个会影响所述IK优化；将每个特征质心映射到存储在3D姿态数据内的最接近关节；基于3D姿态数据最小化训练图像内的每个被映射的最接近关节的距离；以及基于训练图像内的每个被映射的最接近关节的最小化距离来确定最终的手位置。

符合某些实施方式的手位置检测装置具有相机和处理器，该处理器被编程为从经由相机接收的至少一个输入图像提取与手姿势检测和手姿态推断相关联的特征集合；利用经训练的多类支持向量机(SVM)来推断手姿态类型；以及利用反向运动学(IK)优化来近似手姿态。

在某些实施方式中，当被编程为从经由相机接收的至少一个输入图像提取与手姿势检测和手姿态推断相关联的特征集合时，处理器被编程为：横跨所述至少一个输入图像测量多个方向上的亮度梯度；并且从所测得的亮度梯度生成图像金字塔。在某些实施方式中，处理器还被编程为利用所生成的图像金字塔来提取像素强度/位移特征和尺度不变特征变换(SIFT)特征。在某些实施方式中，处理器还被编程为与从所生成的图像金字塔提取像素强度/位移特征和SIFT特征相关联地应用级联滤波器。在某些实施方式中，所述至少一个输入图像包括多个输入图像，并且当被编程为从经由相机接收的至少一个输入图像提取与手姿势检测和手姿态推断相关联的特征集合时，处理器被编程为：跟踪作为特征群的多个输入图像的后续视频帧之间的感兴趣区域(ROI)；触发尺度不变特征变换(SIFT)特征提取；以及计算所述特征群的光流路径。在某些实施方式中，当被编程为跟踪作为特征群的所述多个输入图像的后续视频帧之间的ROI时，该处理器被编程为跟踪像素强度/位移特征和所学习的前景颜色分布的二维(2D)组合。在某些实施方式中，当被编程为计算所述特征群的光流路径时，该处理器被编程为对特征群中的每个特征应用至少一个约束以使特征群彼此维持最小距离。在某些实施方式中，当被编程为利用经训练的多类SVM来推断手姿态类型时，该处理器被编程为：在训练图像和所述至少一个输入图像中检测至少一个特征；以及执行所述至少一个输入图像内的所述至少一个特征的实例与从元素的有限集合得到的至少一个标签的一对一映射。在某些实施方式中，所述至少一个标签包括在训练阶段基于动态捕捉三维(3D)数据集生成的至少一个标签。在某些实施方式中，当被编程为利用IK优化来近似所述手姿态时，该处理器被编程为：将所述至少一个输入图像分割成多个处理区域；确定所述多个处理区域的每个处理区域中的特征的质心；以及将每个特征质心的位置映射到与动态捕捉数据集相关联的三维(3D)姿态数据上。在某些实施方式中，当被编程为确定所述多个处理区域的每个处理区域中的特征的质心时，该处理器被编程为：比较从每个特征质心到所述3D姿态数据内的最接近匹配的偏差；以及确定多个关节约束中的哪个会影响所述IK优化。在某些实施方式中，处理器还被编程为将每个特征质心映射到存储在所述3D姿态数据内的最接近关节。在某些实施方式中，处理器还被编程为：基于所述3D姿态数据最小化训练图像内的每个被映射的最接近关节的距离；以及基于所述训练图像内的每个被映射的最接近关节的最小化距离来确定最终的手位置。在某些实施方式中，处理器还被编程为定义用于图像处理的可配置分辨率阈值；以及调节所述可配置分辨率阈值。在某些实施方式中，手位置检测装置具有存储器；并且处理器还被编程为将与所述手姿势检测和所述手姿态推断相关联的所提取的特征集合存储在该存储器中。

虽然已结合执行所描述功能的具体电路描述了这里的某些实施例，但是还可构想出利用在一个或多个经编程的处理器上运行的等效元件来执行电路功能的其它实施例。通用计算机、基于微处理器的计算机、微控制器、光学计算机、模拟计算机、专用处理器、专用电路和/或专用硬连线逻辑和模拟电路可被用来构造替代的等效实施例。可以利用诸如专用硬件、专用处理器或其组合之类的硬件组件等效物来实现其它实施例。

某些实施例可以利用执行程序指令的一个或多个经编程的处理器来实现，在某些实例中这些程序指令在上面以流程图形式被宽泛地描述并且可以被存储在任何合适的电或计算机可读存储介质(例如，盘存储装置、只读存储器(ROM)设备、随机存取存储器(RAM)设备、网络存储器设备、光存储元件、磁存储元件、磁光存储元件、闪存、核心存储器和/或其它等效的易失性和非易失性存储技术)上。然而，本领域技术人员将理解，考虑到本教导，在不脱离本发明的实施例的情况下，上述处理可以以任意数目的变形并且以许多合适的编程语言来实现。例如，在不脱离本发明的某些实施例的情况下，所执行的某些操作的顺序通常可被改变，另外的操作可被添加或者操作可被删除。在不脱离本发明的某些实施例的情况下，可以添加和/或增强错误捕获并且可以对用户界面和信息呈现作出变更。这些变更被构想并被认为是等效的。

虽然已描述了某些说明性实施例，但是显然，本领域技术人员根据前面的描述将清楚许多替代、修改、置换和变更。

Claims

1.一种用于经由手姿势来控制电子设备的装置，包括：

相机；以及

处理器，该处理器被编程为：

经由所述相机检测手姿势；

从手姿势的词表中标识出所检测到的手姿势；以及

响应于所标识出的手姿势来控制所述电子设备。

2.根据权利要求1所述的装置，其中，当被编程为经由所述相机检测手姿势时，所述处理器被编程为检测徒手位置。

3.根据权利要求1所述的装置，其中，当被编程为经由所述相机检测手姿势时，所述处理器被编程为检测徒手位置的序列。

4.根据权利要求1所述的装置，其中，所标识出的手姿势包括与所述电子设备的加电相关联的手姿势，并且其中，当被编程为响应于所标识出的手姿势来控制所述电子设备时，所述处理器被编程为对所述电子设备加电。

5.根据权利要求1所述的装置，其中，所标识出的手姿势包括与所述电子设备的断电相关联的手姿势，并且其中，当被编程为响应于所标识出的手姿势来控制所述电子设备时，所述处理器被编程为将所述电子设备断电。

6.根据权利要求1所述的装置，其中，所述处理器还被编程为：

判定与所述电子设备的控制相关联的手姿势是否被检测到达阈值持续时间；以及

当被编程为经由所述相机检测手姿势时，所述处理器被编程为检测到与所述电子设备的控制相关联的手姿势达所述阈值持续时间。

7.根据权利要求1所述的装置，其中，所述处理器还被编程为：

当被编程为从手姿势的词表中标识出所检测到的手姿势时，所述处理器被编程为响应于判定与所述电子设备的控制相关联的手姿势已被检测到达阈值持续时间，而从所述手姿势的词表中标识出所检测到的手姿势。

8.根据权利要求1所述的装置，其中，所述处理器还被编程为：

检测指示向所述电子设备的控制功能指派所述手姿势的词表中的一个手姿势的用户输入；以及

向所述电子设备的所述控制功能指派所述手姿势的词表中的所述一个手姿势。

9.根据权利要求8所述的装置，其中，当被编程为检测指示向所述电子设备的控制功能指派所述手姿势的词表中的一个手姿势的用户输入时，所述处理器被编程为检测与向所述电子设备的所述控制功能指派所述手姿势的词表中的一个手姿势相关联的手姿势。