CN107466411A

CN107466411A - 二维红外深度感测

Info

Publication number: CN107466411A
Application number: CN201680021738.3A
Authority: CN
Inventors: B·巴特勒; V·坦科维奇; C·凯斯金; S·R·F·范那娄; S·伊扎迪; E·巴索姆; S·P·斯塔奇亚克; 危夷晨
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-04-14
Filing date: 2016-03-29
Publication date: 2017-12-12
Anticipated expiration: 2036-03-29
Also published as: WO2016167947A1; US9690984B2; CN107466411B; EP3284011B1; US20160307032A1; EP3284011A1

Abstract

从红外(IR)相机接收对包括多个IR像素的IR图像进行编码的信号。每一IR像素指定该IR像素的一个或多个IR参数。在IR图像中标识对人手成像的IR皮肤像素。对于每一IR皮肤像素，基于该IR皮肤像素的IR参数来估计由该IR皮肤像素成像的人手部分的深度。导出包括多个手关节的骨架手模型。每一手关节是用从每一人手位置的所估计的深度推导出的三个独立位置坐标来定义的。

Description

二维红外深度感测

背景技术

各种成像设备产生三维图像。深度相机例如可采用飞行数据、结构化光或立体相机配置来促进三维成像。

概述

公开了涉及基于红外成像来进行深度感测的各实施例。在一个示例中，从红外(IR)相机接收编码了包括多个IR像素的IR图像的信号。每一IR像素指定该IR像素的一个或多个IR参数。在IR图像中标识对人手进行成像的IR皮肤像素。对于每一IR皮肤像素，基于该IR皮肤像素的IR参数来估计该IR皮肤像素所成像的人手部分的深度。导出包括多个手关节的骨架手模型。每一手关节用从每一人手部分的所估计的深度推断出的三个独立位置坐标来限定。

提供本发明内容以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。此外，所要求保护的主题不限于解决在本公开的任一部分中所提及的任何或所有缺点的实现。

附图说明

图1示出其中用户经由手势与一个或多个计算设备进行交互的示例环境。

图2示出解说基于经由IR相机估计的深度来导出骨架手模型的方法的流程图。

图3示意性地示出了示例IR图像。

图4示意性地示出了示例深度图的视觉表示。

图5示意性地示出了示例骨架手模型的视觉表示。

图6示出可操作来捕捉场景的IR图像的示例IR相机。

图7示意性地示出了示例计算***。

详细描述

存在可操作来产生三维图像的各种成像设备。例如，深度相机可采用飞行时间(TOF)、结构化光、和/或立体相机方法来对场景进行三维成像。然而，这样的深度相机通常是昂贵的并且消耗相当大的计算资源和功率，这可致使它们的使用不适于某些上下文——例如，在诸如膝上型计算机、平板、以及智能电话等便携式设备中。如下所述，可以使用可操作来生成2D IR图像的二维(2D)红外(IR)相机，结合IR反射现象的预定知识，来估计深度，而无需真实3D相机(例如，飞行时间、结构化光、立体，等等)的花费和/或功率需求。在一个示例中，2D IR相机可被用来基于所估计的深度来导出骨架手模型。

图1示出其中用户102可经由手势与一个或多个计算设备进行交互的示例环境100。具体而言，用户102被示为与计算设备104(在图1中示为膝上型计算设备)进行交互。为便于检测到用户102执行的手势，计算设备104包括红外(IR)相机106。计算设备104和IR相机106一起构成可被用来解释用户102执行的手势的机器视觉***107。

尽管IR相机106不是常规3D相机，但IR相机106可被用来估计深度——定义为与IR相机的光轴平行的坐标(例如，笛卡尔z)——并且因此估计诸如用户102的手等对象的三维形状。如此，由用户102的一只手或两只手执行并由IR相机106感测的三维手势可被解释以影响计算设备104的各方面。如图1所示，用户102的手提供的手势输入被解释以影响在计算设备104上运行的操作***的各方面(例如，使得打开文件)，这经由显示器108被指示给用户(例如，使用字幕“文件已打开”)。然而，将理解，实际上操作***、应用或其他计算产品的任何可控制方面可由人类用户的移动来控制。

将理解，计算设备104可接收手势以外的其他类型的自然用户输入(NUI)。例如，计算设备104可以解释用户102所表达的语音和/或眼睛移动。此外，计算设备104可以解释用户102的手以外的身体部位所执行的姿势，并且在一些示例中，可被配置成经由所谓的常规输入设备(例如，键盘、触摸屏、鼠标、游戏***控制器、无线遥控器)接收输入。此外，IR相机106可被用来对非人类对象进行成像，包括无生命对象——例如，用户102手持的那些对象。

IR相机106可通过将IR或近IR(NIR)光投影到环境100中的表面并且测量该表面所反射的投影光的强度，对该表面进行三维成像。光到环境100的这种投影可允许生成包括多个IR像素的二维(2D)IR图像，每一像素指定该像素所成像的表面反射的IR光的强度。如此，IR相机106可被称为2D IR相机。像素的IR强度可与IR反射现象的预定知识相组合来推断该像素所成像的表面的深度。如在下文更详细地描述的，这样的预定知识可包括深度与IR强度之间的预定逆平方关系。

相机106因而可允许基于2D IR图像的深度感测，而无需如在飞行时间(TOF)深度相机中那样测量所投影的IR光的时间调制、如在结构化光深度相机中那样测量所投影的IR光的空间调制、或如在立体深度相机中那样测量视差。与TOF和结构化光深度相机形成对比，IR相机106可以用(时间和空间)基本上均匀的光来照亮场景。与立体深度相机不同，可以使用单个物镜***和图像感测阵列。如此，IR相机106可以用相对于三维深度相机而言降低的经济成本、计算成本、功耗、和/或打包空间来启用三维深度感测。因此，IR相机106可适于用在小形状因子和/或便携式计算设备中，如计算设备104。作为这样的计算设备的另一示例，图1示出了在移动计算设备110(在这一示例中被示为智能电话)中结合了第二IR相机106’。然而，将明白，计算设备104和110被提供作为非限制性示例，并且IR相机可按其他方式来使用——例如，IR相机可被用在***设备中，如通信耦合到计算设备且收纳在计算设备、可穿戴计算设备(如头戴式显示器)等等的外部的网络相机。

图2示出解说基于经由IR相机估计的深度来导出骨架手模型的方法200的流程图。参考图1，方法200可由诸如计算设备104和/或110等图像处理计算设备使用例如由IR相机106和/或106'获得的2D IR图像来执行。

在方法200的202处，从IR相机接收编码了IR图像的信号，该IR图像包括多个IR像素，每一IR像素指定一个或多个IR参数。在一些实现中，IR图像可经由硬件和/或软件IR相机接口(例如，通用串行总线)来接收。IR图像可经由有线或无线通信信道来传递。

现在转向图3，示出了示例IR图像300。IR图像300包括多个IR像素(例如，IR像素302)。每一IR像素指定该IR像素的一个或多个IR参数。在图3所示的示例中，IR像素302指定该像素的IR强度304，IR强度304可表示该像素所成像的表面撞击IR光的所谓“IR响应”。IR像素302可以指定附加IR参数，包括但不限于x坐标306和y坐标308(它们协作来标识IR像素在IR图像300中的空间位置)、和/或标识IR像素的时间位置的时间标识符310。时间标识符310可以例如提供IR像素的时间位置的绝对指示(例如，以时间戳的形式)或它在一系列IR图像中的时间位置的相对指示(例如，以帧号的形式)。

返回图2，在方法200的204处，标识IR图像中对人手进行成像的IR皮肤像素。如图3所示，IR图像300对(例如，图1的用户102的)人手进行成像，并且如此，包括至少一个IR皮肤像素——即，对人类皮肤进行成像的IR像素。IR皮肤像素312是对人类皮肤进行成像的IR像素的一个示例，并且可被如此标识——且基于IR强度范围与人类皮肤之间的预定对应关系而与非皮肤IR像素区分开。如此，在204处标识IR皮肤像素可包括在206处基于IR强度范围与人类皮肤之间的预定对应关系来标识IR皮肤像素。在此，IR皮肤像素312所指定的一个或多个IR参数——尤其是IR强度314——被用来将这一像素标识为IR皮肤像素。

IR强度范围与人类皮肤之间的对应关系可经由所训练的机器学习算法(MLA)来确定。对MLA的训练可包括捕捉人类目标的IR图像并且记录对处于已知距离和/或光照条件下的人类目标的皮肤进行成像的IR皮肤像素的IR强度。IR皮肤像素可被标识，并且例如经由手动注释和/或利用其他身体部位识别技术的自动处理与非皮肤IR像素进行区分。与人类皮肤相对应的IR强度的范围随后可被组装并用来评估IR强度以在运行时期间标识未知像素。

将明白，IR强度与人类皮肤之间的对应关系可按更细粒度的水平来获知，使得可以基于IR皮肤像素所指定的IR强度来标识各单独的肤色(skin tone)。在这样的配置中，各种人类目标的皮肤的IR响应被测量。人类目标的多样性可被选择以适当地表示人类肤色的全部范围。测得的IR响应随后可被存储到多个子范围，每一子范围对应于不同的肤色。该多个子范围可以是例如与人类皮肤相对应的IR强度的总体范围的子范围。

IR强度的范围可任选地实时地确定和/或调整——例如，配置成识别出人类目标的特定解剖特征(例如，脸部)的识别器可被用来标识与该解剖特征相对应的像素。这些像素的IR强度随后可被用来组装和/或影响与人类皮肤相对应的IR强度的范围。在任一情况下，人类皮肤的IR肤色可被用来标识IR图像中的IR皮肤像素。

与人类皮肤相对应的IR强度的范围可被用来标识非皮肤像素——即，没有对人类皮肤进行成像的IR像素。在图3中示出的示例中，IR像素302通过将其IR强度304与IR强度范围进行比较而被标识为非皮肤IR像素。在这一示例中，IR强度304落在IR强度范围之外，使得像素302要被标识为非皮肤IR像素。非皮肤IR像素302可以与由IR图像300所成像的人类目标的衣物、背景表面等相对应。

作为替换或补充，取阈值过程可被应用于IR图像300以标识其中的IR皮肤像素。取阈值过程可包括将IR图像300中的每一IR像素的IR强度与阈值强度进行比较以将该IR像素分类成背景像素或前景像素。后续分析随后可对于前景像素优先或被限于前景像素，因为前景像素更可能与感兴趣的表面相对应——例如，人类目标的手——因为在典型的使用场景中这些表面往往更靠近IR相机。阈值强度可以是预定的(例如，基于对典型的使用环境中的靠近IR相机的表面的IR强度与背景表面的IR强度之间的平均差的评估)，或者在其他示例中，可以基于IR图像300的多个IR像素所指定的IR强度来针对IR图像300进行确定(例如，经由统计分析)。类似地，指定IR图像300中的IR强度的最亮范围的IR像素可至少一开始被认为是最可能的IR皮肤像素候选，因为在典型的使用场景中皮肤往往是距IR相机最接近的表面。

作为替换或补充，其他技术可被采用来标识IR图像300中的IR皮肤像素。例如，IR图像300可被分析来寻找与人体形状相对应的几何特征。如此，在204处标识IR皮肤像素可包括在208处基于对IR图像300的几何分析来标识IR皮肤像素。在预期在IR图像300中捕捉到人手的情况下，IR图像可被具体分析以寻找与人手相对应的几何特征。几何分析可包括边缘检测，其中标识将各显著不同的IR强度的区域分开的边界。在IR图像300中，边缘检测标识将对应于人类皮肤(例如，手)的IR强度区域与不对应于人类皮肤的IR强度区域(例如，背景像素、对应于衣物的像素)分开的边界316。边缘检测因而可允许至少粗略检测人体形状，如手。

作为替换或补充，几何分析包括形状识别，其中标识类似IR强度的连续或接近连续的区域。各合适的IR强度范围可被认为是类似的；在一些示例中，范围可被选择，使得由于不同的深度而不同但又属于同一形状的各IR强度被认为是类似的。将明白，以上描述的用于标识IR图像300中的IR皮肤像素的方法中的一者或多者可以按各种合适的次序来彼此结合使用——例如，可在IR图像上首先执行几何分析，此后是IR强度与已知对应于人类皮肤的预定IR强度范围的比较，而在其他示例中，IR强度比较可被首先执行，此后是几何分析。在任何情况下，对IR图像300的分析可产生“经分割的手”——例如，被标识为与人手相对应且与没有对人手进行成像的IR皮肤像素区分开的多个IR皮肤像素。

返回图2，在方法200的210处，对于每一IR皮肤像素，基于该IR皮肤像素的IR参数来估计该IR皮肤像素所成像的人手部分的深度。对每一IR皮肤像素的深度的估计可以利用IR反射现象的知识——即，深度与IR强度呈逆平方根比例(例如，深度∝sqrt(1/强度))。因而，IR图像中指定的相对较高的IR强度可一般被解释为指示相对较浅的深度(例如，较靠近IR相机和/或IR光源)，而相对较低的IR强度可一般被解释为指示相对较大的深度。

可为每一IR皮肤像素估计相对和/或绝对深度。作为一个非限制性示例，经分割的手的平均深度可通过分析经分割的手的IR图像的整体而被估计，其中相对深度随后被指派给IR图像的每一IR皮肤像素。

对于每一IR皮肤像素，估计该IR皮肤像素所成像的人手部分的深度可包括在212处经由先前训练的机器学习算法(MLA)来估计深度。

MLA可被训练成按各种合适的方式将对应的深度映射到给定IR强度。在一个示例中，MLA可以用2D IR图像以及注释有地面真值的三维(3D)深度图来训练。地面真值提供可与IR图像中的对应像素相匹配的经验证的深度，使得MLA可被训练来将深度映射到特定肤色和/或光照条件的IR强度。

现在简要地转向图4，示出了示例深度图400。在所示示例中，深度图400对在IR图像300(图3)中捕捉的同一人手进行成像，并且包括IR图像中标识的每一IR皮肤像素的深度——例如，深度图的与IR图像的IR皮肤像素312在空间和时间上相对应的深度像素402指定该IR皮肤像素的深度404。深度图400可按各种合适的方式来组装——例如，深度图可从IR图像300中导出。在这一示例中，可基于IR皮肤像素312所指定的一个或多个IR参数——作为示例，该像素指定的IR强度314——来确定该IR皮肤像素的深度404。

在一个示例性训练过程中，用来训练MLA的2D IR图像和3D深度图分别是从IR相机和3D深度相机获得的。深度相机可操作来产生具有绝对深度的3D深度图，该绝对深度可以与2D IR图像的对应像素的IR强度相关联。绝对深度与IR强度的关联可以在人类监督的情况下手动地、自动地、或它们的组合来实现。在一些示例中，该关联可通过共同注册2D IR图像和3D深度图的对应对来基本上自动化。参考图3，IR图像300可通过将时间标识符310匹配到对应深度图的时间对应时间标识符来在时间上注册到对应深度图(例如，图4的深度图400)，和/或IR图像的像素可通过将x坐标306和y坐标308分别匹配到对应深度图的那些坐标来在空间上注册到对应深度图的对应像素。然而，将明白，2D IR图像与3D深度图的捕捉之间的差异可被计入在共同注册过程中，例如通过将空间变换应用于IR图像与深度图中的一者或两者、和/或标识在其中IR和深度数据中的只有一者被收集的区域(例如，由于遮挡或不同的视野)并将其从后续分析中排除。

每一对应的IR图像/深度图对可在基本上同一时间捕捉并基本上来自相同的有利位置。在一个示例中，3D深度相机使得能够在同一外壳内捕捉3D深度图和2D IR图像两者，其中对应的深度图/IR图像对在空间和时间上共同注册。在其他示例中，3D深度相机和2DIR相机被分开容纳。在任一情况下，各种合适的深度相机类型可被采用，包括但不限于飞行时间(TOF)、结构化光、以及立体深度相机。相应有利位置的差异可通过数学变换来校正和/或对应像素可被手动标识。

作为替换或补充，MLA的训练可包括对典型的使用环境中的环境光照条件进行仿真，这可包括光源的数量、光源布置、光源强度等的考虑。以此方式，MLA对不同光照条件的稳健性和不变性可被提高。可影响MLA的稳健性和不变性的其他因素可在训练过程期间纳入考虑，如专用于人手的解剖特征(例如，肤色、皮肤纹理)。将明白，本文描述的取阈值过程可在MLA训练过程期间被采用——例如，IR强度和/或深度可被取阈值，以降低计算负载且将学习集中于感兴趣的表面。

作为用物理相机捕捉2D IR图像和3D深度图的替换或补充，合成(例如，计算机呈现的)2D IR图像和/或3D深度图可被合成并被用来训练MLA。这样的合成训练数据可帮助提供大型训练集并且可通过向训练数据添加多样性而显著提高MLA的稳健性和不变性——例如，合成数据可对光照条件、表面等的多样性进行模拟。被用来训练MLA的2D IR图像因而可包括生成的用于对人类皮肤的IR光反射进行模拟的合成IR图像，并且作为替换或补充，用来训练MLA的3D深度图可包括生成的用于对启用合成深度图所指定的深度与对应的IR强度的关联的合成深度图(例如，真实和/或合成IR图像所指定的对应IR强度)。如此，合成深度图的合成可包括3D模型的合成——具体而言，旨在基于训练数据对其进行跟踪的对象的3D模型。人手的3D模型可针对其中例如需要手跟踪的场景来生成。一般而言，MLA训练过程可被限于需要用MLA对其进行跟踪的对象。如下文进一步详细描述的，MLA所使用的训练数据可在跟踪期间被动态地选择。

在一些示例中，MLA可以用随机决策森林来实现。一旦已经被训练，该森林可被应用于IR图像以估计其中的深度。随机决策森林可包括一个或多个随机决策树，该随机决策树提供用于储存训练数据的数据结构，使得IR像素可通过树来发送且它们的一个或多个IR参数和/或其他分类输入通过算法与所存储的训练数据进行比较以估计深度。每一棵树可包括至少一个根节点、分割节点、以及叶节点，其中可在根处和分割节点处作出决策(例如，将IR像素与所存储的训练数据进行比较)，且得自决策的数据可被存储在叶节点处。该树结构(例如，节点数、节点关系、分割节点功能/决策)可在MLA训练过程期间习得。

在随机决策树的一示例性训练过程中，分别由IR图像和深度图指定的至少一个IR像素和至少一个深度(例如，彼此共同注册)可被用作在每一根节点和分割节点处执行的相应二元测试的输入。基于二元测试的结果，输入被定向到左方或右方的子节点。作为一非限制性示例，二元测试可将输入与一个或多个阈值(例如，上阈值和/或下阈值)进行比较。在一些示例中，二元测试可以评估两个或更多个IR像素所指定的IR强度——例如，彼此随机放置的两个IR像素。图3示出评估各空间偏移的IR像素的IR强度的示例，如在本文中所示，IR皮肤像素312和从像素312随机偏移的IR皮肤像素312’被选择用于二元测试。像素312和312’的相应IR强度之间的差异可被计算并例如与一个或多个阈值进行比较。量级和/或方向偏移可被随机选择。在一些实现中，二元测试可基于在无需随机决策树的情况下组装的近似深度图来选择，其中IR图像的IR像素的深度是基于其指定的IR强度与深度之间的逆平方根关系来估计的。

在一些示例中，多层随机决策森林可被用于根据IR强度来估计深度。多层森林可包括具有被训练来对IR图像中捕捉的对象进行概括分类的分类器森林的第一层、以及具有被训练来以更细粒度的水平对所捕捉的对象的经概括分类的方面进行具体识别的回归森林的第二层。作为手跟踪的上下文中的非限制性示例，分类器森林可被用来对IR图像中捕捉的人手的姿态(例如，翘大拇指、指点、握拳、捏合、和平手势)进行初始识别；一旦这一姿态被初始识别，针对该特定姿态来训练的回归森林可被选择并被用来确定与所成像的手相关联的深度。这样的配置可拓宽其中一般适用跟踪的区域，同时提供特定对象、姿态等的准确深度估计。

深度可以是基于其来选择回归森林的另一准则。在这一示例中，分类器森林可以输出将IR像素分类成具有落入多个深度范围之一内的深度的统计信息。不同的回归森林可以与每一深度范围相关联，使得可针对所分类的IR像素的深度落入其中的特定范围选择深度回归森林。

在该多层随机决策森林示例中，对于馈送到分类器森林的给定输入(例如，IR像素、IR像素以及对应的深度值)，分类器森林的叶节点可以存储与输入有关的经由在根节点和分割节点处执行的测试来获得的统计信息——例如，指示所分类的深度落入多个深度范围中的每一个的概率的概率分布。如上所述，概率分布可被用来选择回归森林，针对给定输入，它可在其叶节点处存储该输入的所估计的深度。将明白，在一些示例中，同一输入的两个或更多个回归森林所估计的深度可被分析以确定该输入的最终所估计的深度——例如，经由各单独深度的加权平均。

继续图2，在214处，方法200包括组装包含每一IR皮肤像素的深度的深度图。深度图可包括IR图像中标识的每一IR皮肤像素的深度——例如，图4的深度图400包括图3的IR图像300的IR皮肤像素312的深度404。在一些示例中，组装深度图可包括根据IR图像来导出深度图。

组装深度图可包括在216处，使用先前用特定训练数据来训练的动态地选择的机器学习算法(MLA)。如上所述，手跟踪流水线的一些实现可采用多层方法，其中来自针对概括手跟踪来训练的第一层的输出被馈送到被训练来识别特定手姿态的第二层。第二层可相应地利用针对由第一层初始识别出的特定姿态获得的训练数据。这样的配置可以允许跟踪各种各样的手姿态以及对概括手跟踪可不适用于的特定姿态的准确识别。

手姿态的初始识别可发生在手跟踪流水线的各阶段处。例如，在先前帧深度图(例如，在经历分析的当下深度图之前组装的深度图)中识别出的手姿态可以形成该当下手姿态的初始识别的基础。初始识别可以利用替换或补充数据，包括但不限于经分割的手(例如，一个或多个IR皮肤像素)、深度图、手的一个或多个所标识的解剖特征(如下所述)、所估计的手关节位置，等等。因而，在一些场景中，对MLA的动态选择可能需要从第一层中的用于概括手跟踪的第一MLA切换到第二层中的用于具体手姿态识别的第二MLA。作为非限制性示例，手跟踪可以基于第一层识别出人手处于指点姿态，其中该手的手指之一正基本上直接指向IR相机——例如，该手指的纵向轴基本上与IR相机的光轴对齐。在识别出这一姿态后，专用于所识别出的姿态的MLA可被用在第二层中，以估计与该姿态相关联的深度并基于该姿态来导出骨架手模型。

继续图2，在方法200的218处，包括多个手关节的骨架手模型被导出，每一手关节由从每一人手部分的所估计的深度推断出的三个独立的位置坐标来限定。

图5示意性地示出了示例骨架手模型500的视觉表示。手模型500担当人类目标的手的机器可读表示——例如，在IR图像300(图3)中成像的手。在一些实现中，手模型可以采取3D矩阵的形式，其中该矩阵的每一行表示不同的关节，并且该矩阵的每一列表示不同的坐标(例如，笛卡尔坐标x、y、z)。

手模型500包括多个手关节，如手关节502。手模型500中的手关节可以与人类目标的实际关节、人类目标的身体部位的质心、人类目标的手足的末端、和/或没有到人类目标的直接解剖链接的点相对应。手模型500的手关节中的一个或多个可以用三个独立地位置坐标来限定——例如，手关节502用x坐标504、y坐标506、以及z坐标508来限定。x、y以及z坐标504、506以及508彼此独立(例如，它们形成正交基础)。如此，x、y以及z坐标504、506以及508可彼此独立地计算——例如，手关节502的位置可被估计，包括至少部分地基于与该手关节在空间上对应的一个或多个IR皮肤像素所指定的x坐标来估计x坐标504、至少部分地基于与该手关节在空间上对应的一个或多个IR皮肤像素所指定的y坐标来估计y坐标506、以及至少部分地基于针对与该手关节在空间上对应的一个或多个IR皮肤像素所估计的深度来估计z坐标508。

手模型500的各关节的位置可相对于任何合适的原点来限定。作为一个示例，相机(例如，图1的IR相机106)可以担当原点，其中所有关节位置相对于相机来被限定。可以按任何合适的方式用三维位置来限定关节，而不背离本公开的范围。

关节定向可被用来进一步限定手关节中的一者或多者。尽管关节位置可以描述关节以及横跨在关节之间的虚拟骨头(例如，虚拟骨头510)的位置，关节定向可以描述这些关节以及在它们相应位置处的虚拟骨头的定向。作为示例，手掌关节的定向可被用来描述位于给定位置处的手是面朝上还是朝下。

虚拟骨头可从一个手关节延伸到另一个手关节，并且可以与人类目标的实际骨头、肢体、或骨头和/或肢体的各部分相对应。本文讨论的关节定向可被应用于这些骨头。例如，肘定向可被用来限定前臂定向。

经由任何合适的优化方法，骨架分割的长度以及骨架手模型中的关节的位置和转角可被调整以就深度图的各轮廓达成一致(例如，图4的深度图400)。这一过程可以限定所成像的人手的位置和姿态。一些手拟合算法可以使用深度数据结合其他信息，如彩色图像数据、IR数据、和/或指示一个像素轨迹如何相对于另一个来移动的运动数据。

关节位置、定向和/或其他信息可被编码在任何合适的数据结构中。此外，可经由一个或多个API使得与任何特定关节相关联的位置、定向和/或其他参数可用。

手模型500可被用于各种目的。因为手模型500在它所表示的人手改变姿态时会改变姿态，所以手模型准确地模仿了人手的移动。因而，在一些实施例中，手模型可被拟合到深度视频(例如，连续深度图)的帧序列中的每一帧中。通过分析各手关节和/或分割的位置变化，所成像的人手的对应移动——例如，手势、动作、或行为模式——可被确定，这可例如便于解释自然用户输入(NUI)。然而，应当理解，手模型可被用于附加和/或替换目的，而不背离本公开的范围。例如，手模型500可被用于呈现它所表示的手的3D表示。

继续图2，导出骨架手模型可包括在220处，基于IR皮肤像素和深度图之一或两者来标识人手的一个或多个解剖特征。人手的各解剖特征可被标识，如各自至少部分地与手的不同部分相对应的连续或接近连续的区域——例如，手腕，手掌，以及手的每一手指的近节指骨、中节指骨、及远节指骨。图4示出了解剖特征标识的一个示例：如本文中所示，基于IR图像300(图3)中标识的IR皮肤像素和深度图400之一或两者，手的手掌被标识。在这一示例中，手掌的标识包括用身体部位分类器406对深度像素402进行分类，身体部位分类器406将深度像素402分类成标识手掌。尽管结合深度图400被示出，将明白，手掌及其身体部位分类器406连同其他所标识的解剖特征可以或可以不与深度图400相关联——例如，在一些示例中，专用数据结构可被提供给所标识的解剖特征，或所标识的解剖特征可以与IR图像、经分割的手、骨架手模型等中的一者或多者相关联。

返回图2，导出骨架手模型可包括在222处，基于解剖特征和深度图之一或两者来估计人手关节的位置。在此，手关节位置可以基于单个IR图像和/或从中导出的数据(例如，深度图、解剖特征)来估计，这可允许快速估计手关节位置。如下所述，所估计的手关节位置的准确度可以经由后续分析来提高。

在一些实现中，导出骨架手模型可包括将先前确认的深度图的对应手关节的位置指派给手关节位置。先前确认的深度图可以从先前确认的深度图的数据库中选择，每一先前确认的深度图具有包括多个手关节的骨架手模型。每一先前确认的深度图已被确认为准确地表示特定姿态的人手，使得通过将(例如，当下)深度图与先前确认的深度图进行匹配，针对所成像的手的准确的骨架手模型可经由先前确认的深度图被导出。当下深度图与先前确认的深度图的匹配可以按各种合适的方式来执行；在一个示例中，散列可针对当下深度图被计算且其散列最佳地对应于当下深度图的计算得到的散列的先前确认的深度图被选择。作为图5所示的非限制性示例，手关节502的位置可以通过选择其散列最佳地对应于针对图4的深度图400计算得到的散列的先前确认的深度图，并将与(关联于先前确认的深度图的骨架模型的)手关节502相对应的手关节的位置指派给手关节502的位置，来导出。手关节位置的指派可包括将先前确认的深度图骨架手模型的手关节的x、y以及z坐标中的一者或多者分别指派给x、y以及z坐标504、506以及508。然而，如在下文进一步详细描述的，在一些实现中，在来自先前确认的深度图的骨架手模型的手关节位置指派之后，附加分析可被执行。

作为替换或补充，导出骨架手模型可包括将先前训练的机器学习算法(MLA)应用于(例如，当下)深度图和所估计的手关节位置之一或两者。先前训练的MLA可能是使用包括2D IR图像的训练集以及2D IR图像的训练集的地面真值注释的训练数据来训练的。地面真值注释可以指示例如对各种人手姿态进行成像的2D IR图像中的经验证的手关节位置。经验证的手关节位置可以例如在受监督的训练过程中与2D IR图像相关联。在一些示例中，先前训练的MLA接收根据先前帧深度图估计的至少一个手关节位置作为输入。在这一示例中，迭代方法可被采用来导出手关节位置。

作为替换或补充，导出骨架手模型包括将通过先前训练的MLA确定的至少一个手关节位置指派给骨架手模型。简要转向图5，先前训练的MLA可以基于图4的深度图400和/或手关节502的所估计的位置之一或两者来确定手关节502的三维位置。由MLA确定的这一三维位置随后可被指派给手关节502。

在一些示例中，骨架手模型的导出可以基于所估计的手关节位置以及根据先前帧深度图估计的至少一个手关节位置，而不管MLA是否被用来导出骨架手模型。如上所述，使用来自先前帧深度图的手关节位置使得能够使用迭代方法来进行适应手移动的手跟踪。

作为替换或补充，导出骨架手模型可包括使用根据先前帧深度图估计的至少一个随机加扰的手关节位置。在一些示例中，优化算法可被应用于所估计的手关节位置(例如，根据当下深度图估计的)，以及根据先前帧深度图估计的至少一个随机加扰的手关节位置。在此，优化算法可被应用，以尝试将现有骨架手模型与观察到的数据进行匹配。各种合适的骨架手模型可被使用，诸如包括多个球(例如，24个)的骨架手模型。使用简单的几何形状(如，球、基元等)可以降低骨架手模型拟合的计算成本。然而，使用与典型人手的三维几何形状更准确地类似的网格是可能的。应用优化算法可包括采用合适的误差函数并对根据先前帧深度图估计的至少一个手关节位置进行随机加扰，使得手关节位置不会变得被陷入局部最小值。至少一个随机加扰的手关节位置可被用来使误差函数最小化，误差函数可被定义为骨架手模型与IR皮肤像素之间的空间对应关系的函数——例如，作为骨架手模型的手关节位置与从IR皮肤像素推断出的对应手关节位置之间的距离的函数。各种合适的优化算法可被使用，包括但不限于粒子群优化(PSO)和迭代最近点(ICP)。在一些示例中，优化过程中使用的骨架手模型可包括其位置不固定而是改为在优化过程中动态调整以执行手拟合的元素(例如，球、基元、关节)。然而，真实、物理人手的解剖约束可被施加到这样的骨架手模型。

继续图2，在方法200的224处，可任选地输出表示所导出的骨架手模型的至少一个参数。例如，可输出一个或多个所估计的手关节位置。在一些示例中，骨架手模型的所有手关节位置可被估计并输出，使得手模型的三维表示可被呈现并输出到显示设备。作为替换或补充，所识别的人手姿态和/或所识别的姿态的进展可被输出。相对或绝对位置、定向等可进一步被输出。一般而言，实际上在方法200的执行中导出的任何量可被输出，包括但不限于IR图像、深度图、经分割的手、解剖特征、所估计的手关节位置，等等。

将明白，在一些示例中，方法200的执行可产生骨架模型的手关节的子集的位置，使得该方法的至少部分迭代可被执行以获得所有手关节的位置。在一些场景中，例如在其中采用先前确认的深度图的骨架手模型的场景中，在方法200的一次迭代中，两个或更多个手关节位置可被获得。

图6示出可操作来捕捉场景的IR图像的示例红外(IR)相机600。相机600可被用来例如获得人类目标的IR图像，并且可允许基于IR成像使用本文描述的方法的至少一部分来导出骨架手模型。

在图6所示的示例中，相机600包括IR带通滤波器602，IR带通滤波器602被配置成将撞击IR光的至少一部分传送到在光学上位于该滤波器下游的图像传感器604。图像传感器604对IR波长的至少一个范围(这可包括近红外波长)是光电敏感的，从而允许转换在其上接收到的IR光。图像传感器604可合并各种合适的图像感测技术，包括例如电荷耦合器件(CCD)和/或互补金属氧化物半导体(CMOS)传感器。

相机600还包括被配置成将IR光投影到(例如，散射到)场景中以使得能够接收来自该场景的反射IR光的IR光源。在这一示例中，IR光源包括以环形安排绕滤波器602同心放置的八个IR LED(例如，IR LED 606)。然而，将明白，这一安排是非限制性的且各种合适的配置可被用于将IR光投影到场景中，包括其中IR光源在与相机600的外壳分开的外壳中提供的安排。在一些示例中，IR光源可只在图像传感器的捕捉时段期间被脉冲打开，以降低功耗。然而，一般而言，IR光源不是投影在空间上变化的光图案的结构化光光源。IR光源也不是在图像传感器的整合时段期间改变光照强度以使得光从光源回到传感器的行进时间可被测量的飞行时间光源。

在一些示例中，相机600可被构造成IR相机。在其他示例中，相机600可被制造成可见光相机(例如，彩色相机)并被转换成IR相机。在这一示例中，转换过程可包括移除IR切滤波器(如果包括的话)、添加IR带通滤波器602、以及添加IR光源。在一些场景中，转换过程可包括替换图像传感器(如果它的敏感性不适于感测IR光的话)。

相机600是配置成生成具有多个IR像素的IR图像的二维、单眼IR相机，每一IR像素指定诸如IR强度等一个或多个IR参数。相机600可被用来例如生成图3的IR图像300。在这种情况下，相机600所生成的IR图像可被馈送到配置成利用IR反射现象的知识基于每一IR像素所指定的IR强度来估计该IR像素的深度的合适的计算设备(例如，图7的计算设备700)。该计算设备可具有例如用于接收编码了IR图像的信号的合适的IR相机接口(例如，图7的接口712)。具体而言，计算设备可以利用光的逆平方衰退来基于IR强度计算深度；例如，将特定肤色的IR强度的逆平方映射到深度的函数可被使用。因而，相对较低的IR强度可被映射到相对较大的深度，而相对较大的IR强度可被映射到相对较小的深度。如上所述，深度与IR强度之间的关系可结合机器学习来使用以根据IR来估计深度。以此方式使用二维IR相机可便于以低成本和功耗来进行深度确定，尤其是相对于使用三维深度相机而言。

尽管在上文作为示例提供了IR相机，将明白，本文描述的办法可被适配用于配置成以电磁频谱的IR部分之外的光波长来对对象进行成像的相机。这样的相机可被用来估计被成像表面的深度并可任选地从所估计的深度导出骨架手模型。这样的相机可包括被配置用于以非IR波长进行图像感测的照明源、带通滤波器以及图像传感器中的一者或多者。与相机600一样，这样的相机可以基于投影到被成像表面上的波长的反射现象的知识来估计深度，而非基于3D深度相机所采用的TOF、结构化光或立体相机办法。作为非限制性示例，这样的非IR相机可被配置成在电磁频谱的紫外线(UV)、可见光、X射线、伽马射线以及射频部分中的一者或多者中执行图像感测。不管它们的电磁敏感性如何，这样的相机可以编码包括多个像素的图像，每一像素指定该像素的一个或多个参数。随后，可以在图像中标识对人手进行成像的皮肤像素(例如，基于光反射现象的知识)。对于每一皮肤像素，可基于该皮肤像素的参数来估计该皮肤像素所成像的人手部分的深度。包括多个手关节的骨架手模型可被导出，每一手关节是以从每一人手部分的所估计的深度推导出的三个独立位置坐标来定义的。一般而言，本文描述的办法可被适配用于非IR相机，包括上述训练过程。

因而，在一些示例中，相机可以从编码包括指定一个或多个红外(IR)参数的多个IR像素的IR图像的IR相机、编码包括指定一个或多个紫外(UV)参数的多个UV像素的UV图像的UV相机、以及编码包括指定一个或多个可见光(VL)参数的多个VL像素的VL图像的VL相机中选择。

图7示意性地示出了可以执行上述方法和过程之中的一个或多个的计算***700的非限制性实施例。以简化形式示出了计算***700。计算***700可采取以下形式：一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/或其他计算设备。图1的机器视觉***107是计算***700的一个实现的非限制性示例。

计算***700包括逻辑机702和存储机704。计算***700可任选地包括显示子***708、输入子***706、通信子***710和/或在图7中未示出的其他组件。

逻辑机702包括被配置成执行指令的一个或多个物理设备。例如，逻辑机可被配置为执行作为以下各项的一部分的指令：一个或多个应用、服务、程序、例程、库、对象、组件、数据结构、或其它逻辑构造。这些指令可被实现为执行任务、实现数据类型、变换一个或多个组件的状态、取得技术效果或以其他方式得到所期望的结果。

逻辑机可包括被配置成执行软件指令的一个或多个处理器。作为补充或替换，逻辑机可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑机的处理器可以是单核或多核，且在其上执行的指令可被配置为串行、并行和/或分布式处理。逻辑机的各个组件可任选地分布在两个或更多单独设备上，这些设备可以位于远程和/或被配置成进行协同处理。逻辑机的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。

存储机704包括被配置成保存可由逻辑机执行以实现此处所述的方法和过程的指令的一个或多个物理设备。在实现这些方法和过程时，可以变换存储机704的状态——例如，保存不同的数据。

存储机704可以包括可移动和/或内置设备。存储机704可包括光学存储器(例如，CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等等。存储机704可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

可以理解，存储机704包括一个或多个物理设备。然而，本文描述的指令的各方面可另选地通过不由物理设备在有限时长内持有的通信介质(例如，电磁信号、光信号等)来传播。

逻辑机702和存储机704的各方面可被一起集成到一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上***(SOC)以及复杂可编程逻辑器件(CPLD)。

在被包括时，显示子***708可用于呈现由存储机704保存的数据的视觉表示。该视觉表示可采取图形用户界面(GUI)的形式。由于此处所描述的方法和过程改变了由存储机保持的数据，并由此变换了存储机的状态，因此同样可以转变显示子***708的状态以视觉地表示底层数据的改变。显示子***708可以包括使用实际上任何类型的技术的一个或多个显示设备。可将此类显示设备与逻辑机702和/或存储器机704组合在共享封装中，或者此类显示设备可以是***显示设备。

当被包括时，输入子***706可包括诸如键盘、鼠标、触摸屏或游戏控制器等一个或多个用户输入设备或者与这些用户输入设备对接。在某些实施例中，输入子***可以包括所选的自然用户输入(NUI)部件或与其结合。这样的部件可以是集成式的或者是外设，并且输入动作的转换和/或处理可以在板上或板下处理。NUI部件的示例可包括用于语言和/或语音识别的微电话；用于机器版本和/或姿势识别的红外、颜色、超声波和/或深度相机；用于运动检测和/或意图识别的头部***、眼睛***、加速计和/或陀螺仪；以及用于评估脑部活动的电场感测部件。

在一些示例中，输入子***706可包括用于接收编码了来自一个或多个跟踪设备的图像的信号的一个或多个硬件接口。例如，输入子***706可包括配置成从IR相机接收包括多个IR像素的IR图像的IR相机接口712。IR相机接口712可被配置成从IR相机接收编码了IR图像的信号。该IR相机接口可合并各种合适的接口技术，包括但不限于有线和无线接口技术，如通用串行总线(USB)、IEEE 1394、蓝牙、Wi-Fi等等。

当包括通信子***710时，通信子***710可以被配置成将计算***700与一个或多个其他计算设备可通信地耦合。通信子***710可包括与一个或多个不同的通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子***可被配置成用于经由无线电话网络或者有线或无线局域网或广域网来进行通信。在一些实施例中，该通信子***可允许计算***700经由网络(比如因特网)向其他设备发送消息和/或从其他设备接收消息。

应该理解，此处所述的配置和/或方法在本质上示例性的，且这些具体实施例或示例不是局限性的，因为众多变体是可能。此处所述的具体例程或方法可表示任何数量的处理策略中的一个或多个。由此，所示出和/或描述的各个动作可以按所示出和/或描述的顺序、按其他顺序、并行执行或者被忽略。同样，可以改变上述过程的次序。

本公开的主题包括各种过程、***和配置、此处所公开的其他特征、功能、动作、和/或特性、以及其任何和全部等效方案的所有新颖和非显而易见的组合和子组合。

一示例提供了一种图像处理方法，包括：从红外(IR)相机接收对包括多个IR像素的IR图像进行编码的信号，每一IR像素指定该IR像素的一个或多个IR参数；对于每一IR皮肤像素，在所述IR图像中标识对人手成像的IR皮肤像素；基于该IR皮肤像素的IR参数来估计由该IR皮肤像素成像的人手部分的深度；以及导出包括多个手关节的骨架手模型，每一手关节是以从每一人手部分的所估计的深度推导出的三个独立位置坐标来定义的。在这样的示例中，导出骨架手模型另选地或附加地包括：组装包括每一IR皮肤像素的深度的深度图；以及基于所述IR皮肤像素和所述深度图中的一者或两者来标识所述人手的一个或多个解剖特征。在这样的示例中，导出所述骨架手模型另选地或附加地包括基于所述解剖特征和所述深度图中的一者或两者来估计所述人手的关节的位置。在这样的示例中，估计手关节位置另选地或附加地包括：计算所述深度图的散列；从先前确认的深度图的数据库中选择其散列与所述深度图的计算得到的散列最佳地相对应的先前确认的深度图，每一先前确认的深度图具有包括多个手关节的骨架手模型；以及将来自与所选择的先前确认的深度图相对应的手模型的手关节的位置指派给所述手关节位置。在这样的示例中，导出所述骨架手模型另选地或附加地包括使用从先前帧深度图估计的至少一个随机加扰的手关节位置来使误差函数最小化，所述误差函数被定义为所述骨架手模型与所述IR皮肤像素之间的空间对应关系的函数。在这样的示例中，导出骨架手模型另选地或附加地包括：将先前训练的机器学习算法应用于所述深度图和所估计的手关节位置中的一者或两者；以及将由所述先前训练的机器学习算法确定的至少一个手关节位置指派给所述骨架手模型，所述先前训练的机器学习算法是用包括训练二维IR图像集和该训练二维IR图像集的地面真值注释的训练数据来训练的。在这样的示例中，先前训练的机器学习算法另选地或附加地接收从先前帧深度图估计的至少一个手关节位置作为输入。在这样的示例中，对于每一IR皮肤像素，另选地或附加地经由使用二维(2D)IR图像和注释有地面真值的三维(3D)深度图来训练的先前训练的机器学习算法来估计由该IR皮肤像素成像的人手部分的深度。在这样的示例中，2D IR图像另选地或附加地包括被生成来模拟人类皮肤对IR光的反射的合成IR图像，和/或3D深度图包括合成深度图，所述合成深度图被生成来启用由所述合成深度图指定的深度与由所述合成IR图像指定的对应IR强度的关联。在这样的示例中，导出骨架手模型另选地或附加地包括使用先前使用专用于所述人手的所识别出的姿态的训练数据来训练的动态选择的机器学习算法来组装包括每一IR皮肤像素的深度的深度图。在这样的示例中，该一个或多个IR参数另选地或另外地包括IR强度。在这样的示例中，所述IR皮肤像素是另选地或另外地基于IR强度范围和人类皮肤之间的预定对应关系来标识的。在这样的示例中，IR皮肤像素另选地或另外地基于对IR图像的几何分析来标识。

另一示例提供了一种计算设备，包括：被配置成从红外(IR)相机接收包括多个IR像素的IR图像的IR相机接口，每一IR像素指定该IR像素的一个或多个IR参数；逻辑机；以及存储机，所述存储机保持能够由所述逻辑机执行以进行下述步骤的指令：在所述IR图像中标识对人手成像的IR皮肤像素；对于每一IR皮肤像素，基于该IR皮肤像素的IR参数来估计由该IR皮肤像素成像的人手部分的深度；以及导出包括多个手关节的骨架手模型，每一手关节是以从每一人手部分的所估计的深度推导出的三个独立位置坐标来定义的。在这样的示例中，用于导出骨架手模型的指令另选地或附加地包括用于以下操作的指令：组装包括每一IR皮肤像素的深度的深度图；以及基于所述IR皮肤像素和所述深度图中的一者或两者来标识所述人手的一个或多个解剖特征。在这样的示例中，用于组装所述深度图的指令另选地或另外地包括用于使用先前使用专用于所述人手的所识别出的姿态的训练数据来训练的动态选择的机器学习算法的指令。在这样的示例中，用于导出所述骨架手模型的指令另选地或附加地包括用于基于所述解剖特征和所述深度图中的一者或两者来估计所述人手的关节的位置的指令。在这样的示例中，用于导出骨架手模型的指令另选地或另外地包括用于使用从先前帧深度图估计的至少一个手关节位置的指令。在这样的示例中，该一个或多个IR参数另选地或另外地包括IR强度。在这样的示例中，用于标识IR皮肤像素的指令另选地或另外地包括用于基于IR强度范围与人类皮肤之间的预定对应关系来标识IR皮肤像素的指令。

另一示例提供了一种图像处理方法，包括：从相机接收编码包括多个像素的图像的信号，每一像素指定该像素的一个或多个参数；在所述图像中标识对人手成像的皮肤像素；对于每一皮肤像素，基于该皮肤像素的参数来估计由该皮肤像素成像的人手部分的深度；以及导出包括多个手关节的骨架手模型，每一手关节是以从每一人手部分的所估计的深度推导出的三个独立位置坐标来定义的。在这样的示例中，相机另选地或另外地从包括以下各项的组中选择：编码包括指定一个或多个红外(IR)参数的多个IR像素的IR图像的IR相机、编码包括指定一个或多个紫外(UV)参数的多个UV像素的UV图像的UV相机、以及编码包括指定一个或多个可见光(VL)参数的多个VL像素的VL图像的VL相机。

Claims

1.一种图像处理方法，包括：

从红外(IR)相机接收对包括多个IR像素的IR图像进行编码的信号，每一IR像素指定该IR像素的一个或多个IR参数；

在所述IR图像中标识对人手成像的IR皮肤像素；

对于每一IR皮肤像素，基于该IR皮肤像素的IR参数来估计由该IR皮肤像素成像的人手部分的深度；以及

导出包括多个手关节的骨架手模型，每一手关节是以从每一人手部分的所估计的深度推导出的三个独立位置坐标来定义的。

2.如权利要求1所述的图像处理方法，其特征在于，导出所述骨架手模型包括：

组装包括每一IR皮肤像素的深度的深度图；以及

基于所述IR皮肤像素和所述深度图中的一者或两者来标识所述人手的一个或多个解剖特征。

3.如权利要求2所述的图像处理方法，其特征在于，导出所述骨架手模型包括基于所述解剖特征和所述深度图中的一者或两者来估计所述人手的关节的位置。

4.如权利要求3所述的图像处理方法，其特征在于，估计手关节位置包括：

计算所述深度图的散列；

从先前确认的深度图的数据库中选择其散列与所述深度图的计算得到的散列最佳地相对应的先前确认的深度图，每一先前确认的深度图具有包括多个手关节的骨架手模型；以及

将来自与所选择的先前确认的深度图相对应的手模型的手关节的位置指派给所述手关节位置。

5.如权利要求3或4所述的图像处理方法，其特征在于，导出所述骨架手模型包括使用从先前帧深度图估计的至少一个随机加扰的手关节位置来使误差函数最小化，所述误差函数被定义为所述骨架手模型与所述IR皮肤像素之间的空间对应关系的函数。

6.如权利要求3或4所述的图像处理方法，其特征在于，导出所述骨架手模型包括：

将先前训练的机器学习算法应用于所述深度图和所估计的手关节位置中的一者或两者；以及

将由所述先前训练的机器学习算法确定的至少一个手关节位置指派给所述骨架手模型，所述先前训练的机器学习算法是用包括训练二维IR图像集和该训练二维IR图像集的地面真值注释的训练数据来训练的。

7.如权利要求6所述的图像处理方法，其特征在于，所述先前训练的机器学习算法接收从先前帧深度图估计的至少一个手关节位置作为输入。

8.如权利要求1-5中的任一项所述的图像处理方法，其特征在于，对于每一IR皮肤像素，经由使用二维(2D)IR图像和注释有地面真值的三维(3D)深度图来训练的先前训练的机器学习算法来估计由该IR皮肤像素成像的人手部分的深度。

9.如权利要求8所述的图像处理方法，其特征在于，所述2D IR图像包括被生成来模拟人类皮肤对IR光的反射的合成IR图像，和/或

所述3D深度图包括合成深度图，所述合成深度图被生成来启用由所述合成深度图指定的深度与由所述合成IR图像指定的对应IR强度的关联。

10.如权利要求1所述的图像处理方法，其特征在于，导出所述骨架手模型包括：

使用先前使用专用于所述人手的所识别出的姿态的训练数据来训练的动态选择的机器学习算法来组装包括每一IR皮肤像素的深度的深度图。

11.如前述权利要求中的任一项所述的图像处理方法，其特征在于，所述一个或多个IR参数包括IR强度，以及

其中所述IR皮肤像素是基于IR强度范围和人类皮肤之间的预定对应关系来标识的。

12.如前述权利要求中的任一项所述的图像处理方法，其特征在于，所述IR皮肤像素是基于对所述IR图像的几何分析来标识的。

13.一种计算设备，包括：

被配置成从红外(IR)相机接收包括多个IR像素的IR图像的IR相机接口，每一IR像素指定该IR像素的一个或多个IR参数；

逻辑机；以及

存储机，所述存储机保持能由所述逻辑机执行以进行以下操作的指令：

在所述IR图像中标识对人手成像的IR皮肤像素；

14.如权利要求13所述的计算设备，其特征在于，用于导出所述骨架手模型的指令包括用于以下操作的指令：

组装包括每一IR皮肤像素的深度的深度图；以及

15.如权利要求14所述的计算设备，其特征在于，用于组装所述深度图的指令包括用于使用先前使用专用于所述人手的所识别出的姿态的训练数据来训练的动态选择的机器学习算法的指令。