CN102812474A

CN102812474A - 头部识别方法

Info

Publication number: CN102812474A
Application number: CN2010800595962A
Authority: CN
Inventors: X·巴埃莱; J·托尔罗特; J·马丁内斯冈萨雷斯; K·西蒙斯
Original assignee: Softkinetic SA
Current assignee: Sony Depthsensing Solutions NV SA
Priority date: 2009-12-28
Filing date: 2010-12-28
Publication date: 2012-12-05
Anticipated expiration: 2030-12-28
Also published as: KR101362631B1; JP5514918B2; CA2784554A1; BR112012015986A2; US9081999B2; EP2339507B1; AU2010338283A1; AU2010338283B2; CA2784554C; AU2010338283A2; KR20120130090A; WO2011080280A1; TW201142719A; EP2339507A1; SG181597A1; US20130022262A1; ZA201204263B; MX2012007593A; CN102812474B; JP2013516013A

Abstract

在此描述一种用于识别源图像中的人的头部的方法。该方法包括：检测源图像中的人体的至少一部分的轮廓，以及计算源图像中该人体的深度。根据源图像，计算与处于该深度的人的头部相对应的椭圆的长半径尺寸及短半径尺寸，以及针对所检测的轮廓的一组像素中的至少数个像素，在累加器阵列中生成以该轮廓像素的位置为中心且具有该长半径及短半径尺寸的椭圆的至少一个线段。选择该累加器阵列中局部强度最大值的位置，作为对应于源图像中的人的头部候选者的位置。

Description

头部识别方法

技术领域

本发明涉及用于识别源图像中的人的头部的方法及计算机***。具体来说，本发明涉及使用深度信息(depth information)来预测人的头部的最可能感知尺寸以有助于其识别的方法。

背景技术

在各种成像***及图像处理应用中，自动识别源图像中的人的头部的位置和/或方位是有利的。例如，使用者可在成像装置的范围内移动他的头部来与在计算机***中运行的程序，例如，视频游戏程序，互动。可替代地，这样的头部识别方法也可用于成像装置中，以调整诸如光圈、曝光时间、聚焦深度等参数，从而针对人像摄影来优化这些参数。

与计算机***的互动以及特别是与数据及指令的输入的互动是普遍已知的问题。传统上，以诸如键盘、鼠标、滚轮、笔、触摸屏、操控杆、游戏手柄等响应于使用者的物理动作而产生信号的物理输入装置来进行这样的互动。然而，这样的物理输入装置具有许多缺点。例如，它们只能提供有限量的不同输入信号，而这些有限量的不同输入信号在诸如三维“虚拟现实”环境的某些应用中，会感觉不灵巧且欠缺真实性。此外，它们容易损坏且它们的持续使用甚至会对使用者的健康产生负面的后果，例如重复性劳损(RSI)。

另外已知替代的输入装置及方法。例如，可使用用于语音识别的实用***。然而，语音识别对于诸如需要使用者快速、精准及重复输入的动作游戏的某些应用而言，并不是实用的替代方式。此外，它们的效果受背景噪音的不利影响，且它们通常需要学习时段，以识别特定使用者的语音指令。

另一替代方法是图像识别。在其最简单的形式中，图像识别***识别对比色的诸如条形码的二进制图案，并将这些图案转换为二进制信号以进行处理。更先进的图像识别***可识别图像中更复杂的图案，并对应产生大量的信号。例如在美国专利6256033中已经提出这样的图像识别***，用于识别成像***范围中使用者的姿态。然而，传统成像***不能感知深度而仅能产生所述使用者的2D投影。因此，使用者姿态的识别本质上存在缺陷，受限于可能输入的范围，且充满多种可能的识别错误。特别是，这样的***存在将使用者与其背景分离的问题。

然而，3D成像***的发展提供了开发实现例如更好的使用者姿态识别的形状识别方法及装置的可能性。G. Yahav，G. J.Iddam及D.Mandelboum在“3D imaging Camera for Gaming Application”中公开了一个这样的3D成像***。在此论文中公开的3D成像***属于所谓的“飞行时间”或TOF型，其中根据从该3D成像***的范围内的对象所反射的光的波前形状获得深度感知。然而，也已经提出了其它类型的成像***，诸如，立体相机、LIDAR、雷达、声纳等。

例如在国际专利申请WO 2008/128568A1中已提出捕获场景的3D图像，以选择所述3D图像中的诸如人体的主体，并将该主体分割成包括头部的多个不连续区域。

在美国专利US 7,203,356中，提出在各种可替代方式中使用椭圆或椭球拟合，以确定在由3D成像***捕获的源图像中的人的头部的位置。然而，该现有技术文件并没有公开如何获得对该头部进行建模的椭圆或椭球的参数。

Zhengcheng Hu、Tetsuya Kawamura及Keiichi Uchimura于2008年11月在澳大利,Vienna,Stereo Vision,ISBN 978-953-7619-22-0,I-Tech,第91-102页的“Grayscale Correlation based 3D Model Fitting for OccupantHead Detection and Tracking”中已提出类似的3D模型拟合方法。

Ehsan Parvizi及Q.M.Jonathan Wu在IEEE International Conference onTools with Artificial Intelligence 19th的“Real-Time 3D Head TrackingBased on Time-of-Fight Depth Sensor”中提出另一种使用3D数据及椭圆拟合以便追踪人的头部的方法。然而，此论文也未公开将如何获得该优选的头部模型的优选参数。

在“Transformée de Hough elliptique floue rapide”中，C.Leignel、O.Bernier、D.Collobert及R.Seguier公开一种用于识别图像中的椭圆轮廓的特别有效的计算机实施方法及其对于头部识别的应用。在该方法中，使用特定类型的椭圆霍夫（Hough）变换，以识别从源图像中生成的轮廓图像中的椭圆形状。

霍夫变换是一种由表决程序(voting procedure)在图像中寻找在某一类别内的对象的不完善实例(imperfect instance)的方法。在所谓累加器阵列(accumulator array)中实施此表决程序，由此获得对象候选者作为局部强度最大值。通过在对应于该图像中的个别点的位置产生正在被寻找的对象的实例来填入该累加器阵列。在椭圆霍夫变换的特定情况中，该对象是椭圆。该累加器阵列中的局部强度最大值，即，多个椭圆相交的位置代表该图像中的相似椭圆的候选者位置。在Leignel等人公开的方法中，为了增加计算速度，只以这些椭圆的代表性线段填入该累加器阵列。为了增加检测速率，使用例如在理想椭圆形状周围具有递减强度分布的模糊椭圆。

然而，在事先不知道该图像中的头部的期望尺寸的情况下，必须在计算速度与误报(false positives)的可能性之间找到折衷。为了缓和该问题，在该现有技术的方法中，只考虑肤色区域的轮廓。然而，如果使用者穿着肤色的衣服，则会增加误报的风险。而且，该现有技术方法受限于在离该成像***的相对有限距离范围，即1至2.5米内检测人的头部。

在所公开的美国专利申请US 2005/031166、US 2005/058337及US2003/235341中描述了在源深度图像中找出人的头部的其它方法。

此外，Clabian M等人在因特网上已公开可从URL：http：//www.prip.tuwien.ac.at/~krw/papers/2002/DAGM/Clabian.pdf获得的关于头部检测的文章，其题目为“Head detection and localization from sparse 3Ddata”,INTERNET CITATION 2002，XP002389335。Krotosky SJ等人在INTELLIGENT VEHICLES SYMPOSIUM,2004IEEE Parma,意大利,2004年6月14-17日Piscatawy，NJ,美国,IEEE LNKD-DOI：10.1109/VS.2004.1336469,2004年6月14日,第698至703页,XP10727732ISPB：978-0-7803-8310-4，也发表题目为“Occupant postureanalysis using reflectance and stereo images for smart airbag deployment”的文章，其涉及检测车辆中的座位的乘客，以控制安全气囊的展开。

发明内容

本发明的目的在于提供一种用于识别源图像中的人的头部的快速且精确的方法。

为此，根据本发明的方法的实施例包括以下步骤：

-检测所述源图像中的人体的至少一部分的轮廓；

-计算所述源图像中的所述人体的所述部分的深度；

-计算所述源图像中与处于所述深度的人的头部相对应的椭圆的长半径尺寸及短半径尺寸；

-在累加器阵列中针对所述轮廓的一组像素中的至少数个像素，生成以所述轮廓像素的位置为中心且具有所述长半径及短半径尺寸的椭圆的至少一个线段；

-选择所述累加器阵列中局部强度最大值的位置，作为对应于所述源图像中的最佳的人的头部候选者的位置；以及

-选择所述累加器阵列中具有最高能量且以附加的检测方法进行正加权的头部候选者中的最佳头部候选者。

因为实际的人的头部尺寸与身体高度的比率尽管与年龄及性别有关，然而通常保持在与年龄或性别无关的相对窄的范围内，所以用于确定它在图像中的外观尺寸的最重要变量是至该人的头部的距离，即，该图像内的人的头部的深度测量值。构成该图像中的头部的椭圆的长半径及短半径尺寸将与该深度基本成比例。通过使用用于实施人体的至少一部分的轮廓的椭圆霍夫变换的信息，可增加计算速度，同时降低误报率。

可以以各种不同方式，诸如，飞行时间相机、立体相机、LIDAR、雷达、声纳等获得该深度数据。有利地，所述深度可以是在给定时刻源图像中的人体的平均深度。可替代地，可以针对每一轮廓像素单独计算所述深度和所述长半径与短半径尺寸。

为了进一步增加识别源图像中的人的头部的机会，可以在所述累加器阵列中生成椭圆的所述至少一个线段之前，有利地执行所述轮廓的形态扩张(morphological dilation)。通过加宽该轮廓，最大化被执行后续霍夫变换的表面，并且因此，最大化识别椭圆的功率。

有利地，椭圆的所述至少一个线段可以是模糊（fuzzy）的。应当理解，由“模糊”取代清楚的限定线，在该累加器阵列中投射椭圆的至少一个线段，作为在理想椭圆线周围具有强度分布，例如，高斯强度分布的模糊线。

有利地，该轮廓检测步骤也可以包括针对每一轮廓像素的局部轮廓方位的检测。例如，实施用于轮廓检测的Shen-Castan算法，也提供附加信息，该附加信息可用于进一步增加本发明的头部识别方法的速度及精度。例如，甚至更有利的，可以根据对应轮廓像素的局部轮廓方位定位椭圆的所述至少一个线段。

本发明的另一目的是最小化误报的数量。这样的误报尤其可能是起因于手和腿的轮廓。这样的轮廓通常形成数对平行线，在执行该椭圆霍夫变换时，该平行线易于在该累加器阵列中生成强度脊部(intensityridges)。为了将位于这样的强度脊部的局部强度最大值与对应于头部位置的分离的局部强度最大值区分开，在根据本发明的方法的特定实施例中，在所述选择步骤之前，可以对该累加器阵列中的多个局部强度最大值中的每一个执行以下步骤：

-在以该累加器阵列中的每一局部强度最大值为中心的圆周中找出第一位置，其中所述第一位置在所述圆周中具有最高强度；

-在所述圆周中找出第二位置，其中所述第二位置在所述圆周的与第一位置相对的弧中具有最高强度；

-以因子W＝m²/m_c1·m_c2对该局部强度最大值的强度m进行加权，其中m_c1是所述第一位置处的强度，以及m_c2是所述第二位置处的强度。

如果局部强度最大值是在强度脊部内，则m_c1及m_c2两者的值通常将接近m的值。因此，该加权因子W将不会远高于1。另一方面，如果该局部强度最大值是分离的，则该值m_c1及m_c2远小于m，并且该加权因子W将因而增加。该加权因子因而将突显最可能对应于人的头部的该局部强度最大值。

有利地，也为了最小化误报，特别是由于肩部及手肘造成的误报，在所述选择步骤之前，可以基于至少一个附加的头部识别方法的输出，来对该累加器阵列中的多个局部强度最大值中的每一个的强度附加地进行加权，所述至少一个附加的头部识别方法选自包括以下的组：皮肤色调识别、图案匹配、头发识别、下颌检测、孔检测、与所述人体的质心或末端（extremity）的连接的检测、至虚拟脊骨、上体轴线和/或视频序列中的先前头部位置的距离。因此，通过组合至少两个不同但快速的头部识别方法，可以增加根据本发明的方法的可靠性。

有利地，如果源图像是视频序列的当前帧，以及在先前帧中选择的位置在当前帧中被遮蔽，则忽视任一局部强度最大值，并且维持该先前帧中选择的位置，作为对应于当前帧中的头部位置。

本发明的另一目的在于提供一种用于源图像中的头部识别的计算机***。在本发明的特定实施例中，因此计算机***被编程为执行根据本发明的方法。有利地，所述计算机***可以包括用于捕获所述源图像以及可能的所述深度的成像装置，特别是3D成像装置。

在另一特定实施例中，提供一种计算机可读取数据存储介质，其包含用于执行根据本发明的计算机实施方法的计算机可执行指令。

所谓“计算机可读取数据存储介质”意味着任何包含数字数据的计算机可读取载体，其包括但不限于诸如随机存取存储器、闪存或只读存储器的固态存储器，而且包括但不限于诸如硬盘驱动器或磁带的磁性数据存储介质、诸如光盘的光学数据存储介质。

附图说明

在阅读以下详细描述以及参考附图时，本发明的这些及其它目的将变得更加明显。

图1示出人类使用者站在3D成像装置前的房间；

图2示出由3D成像***捕获的呈分布于三维空间中的点的形式的该同一房间的三维图像数据；

图3示出该使用者的位图掩码图像；

图4示出该使用者的轮廓图像；

图5示出该使用者的扩张轮廓图像；

图6示意性示出累加器阵列中的模糊椭圆的产生，其对应于轮廓图像中的点。

图6A示出根据该局部轮廓方位取向模糊椭圆的具体实施例；以及

图6B示出截断所取向的模糊椭圆的具体实施例；

图7示意性示出该累加器阵列中的图像；

图8示出强度脊部中的局部最大值，以及所述强度脊部与以所述局部最大值为中心的圆周的交点；

图9示出具有虚拟脊骨的图3的位图掩码图像；

图10示出具有该上体轴线的主方向的图3的位图掩码图像；

图11示出具有质心及连接该质心至两个候选头部位置的线的图3的位图掩码图像；

图12示出在图3的位图掩码图像的部分上叠置的矩形深度检查区域；

图13示出对应于图12的矩形深度检查区域的深度直方图；

图14示出以两只手抱住其头部的使用者的位图掩码图像；以及

图15示出被分割成互连区域的图3的位图掩码图像。

虽然本发明易于做出各种修改及替代形式，但是其具体实施例通过视图中的示例方式来示出，并且将在此做详细描述。然而，应该理解，并不旨在将本发明局限于所公开的特定形式，而是意欲覆盖落入所附权利要求所表述的本发明范围内的所有修改、等价物及替代物。

具体实施方式

图1中示出根据本发明的计算机实施头部识别方法及计算机***的实施例的可能使用之一。在该应用中，该***及方法用于感兴趣对象，在该情况中为人类使用者1，的姿态的识别，以便与产生被显示给该人类使用者1的虚拟环境的计算机***2互动。

该体积识别***包括3D成像***，在此特定实施例中，为飞行时间(TOF)3D相机3。该TOF 3D相机3连接至将与该人类使用者1互动的计算机***2。在该实施例中，该计算机***2本身编程为以与该TOF 3D相机3合作来实施本发明的体积识别方法。可替代地，编程为用于实施所述方法的单独的数据处理装置可连接在该TOF 3D相机与该计算机***2之间，以便使该人类使用者能与该计算机***2互动。

该TOF 3D相机3捕获该人类使用者1站立的房间4的3D图像数据，该3D图像数据包括该房间的具有多个像素的2D源图像及对于每一像素的深度值，该深度值对应于到由该像素成像的点的TOF 3D相机3的距离。因为该2D图像中的像素的X及Y位置本身对应于它们所表示的点相对于该TOF 3D相机3的天顶角及方位角，所以可以如图2中所示的，由与TOF 3D相机3范围内的对象的可视点相对应的三维点云5，来示出这些3D图像数据。

如果(I)是由3D相机3捕获的源图像的深度图，以及(I₀)是在没有该使用者1的情况下相同场景的初始深度图，则形态减法(morphologicalsubtraction)将在深度图(I_ndg)中分离人类使用者1的身体，如下：

(I)-(I₀)=(I_ndg)

接着使该深度图(I_ndg)二值化，以便获得位图图像(I_b)，在该位图图像(I_b)中由“1”像素标记该人类使用者1的身体，以及由“0”像素标记背景。图3中示出这样的位图图像(I_b)。

在采用这些步骤分离人类使用者1的身体的位图图像之后，随后可以使用边缘检测器来检测该使用者1的身体的轮廓，以产生如图4中所示的轮廓图像(I_c)，该边缘检测器诸如为“Transformée de Hough elliptiquefloue rapide”中所述形式的Shen-Castan边缘检测器，或J.Canny在IEEETrans.Pattern Analysis and Machine Intelligence,8：679-714,1986的“AComputational Approach To Edge Detection”中原始公开的Canny边缘检测器。

为了增加本发明的方法的检测速率，在下一步骤中，可以通过对该轮廓图像(I_c)实施形态扩张来加宽该轮廓线，以获得如图5所示的扩张轮廓图像(I_d)。

在第一实施例中，随后对与该使用者1的身体相对应的三维点云5的深度取平均。这可以以至少两个可替代的方式来实施：

在该第一实施例的第一替代方式中，如果例如使用在国际专利申请WO 2008/128568A1中公开的方法将点群5识别为对应于该使用者的身体，则将该点群5的质心的深度视为该图像中的使用者身体的平均深度。

在该第一实施例的第二替代方式中，可以对表示该深度图(I_ndg)中的使用者1的点5的深度取平均。例如，可以使用以下等式：

d_{av} = Σ_{i = 1}^{n} Σ_{j = 1}^{m} I_{ndg} (i, j) \cdot I_{b} (i, j)

其中d_av是算术平均深度，以及n与m是深度图图像的维度。技术人员可以根据情况考虑诸如中值的不同类型的平均来代替算数平均。

在下一步骤中，按照以下等式，基于期望的实际头部尺寸、焦距及所述深度，计算在该平均深度d_av构成该源图像中的使用者1的头部的虚拟椭圆的期望长半径a及短半径b：

a = \frac{F}{d_{av}} \cdot A

b = \frac{F}{d_{av}} \cdot B

其中F是焦距，以及A及B是所期望的实际头部高度及宽度。

可以将这些所期望的实际头部尺寸A及B存储在该计算机***2的存储器中，作为相对于该使用者1的实际尺寸(实际尺寸自身可以基于源图像中的使用者1的尺寸、焦距及深度来计算)的绝对尺寸或相对尺寸。

在以下步骤中，接着对该扩张轮廓图像(I_d)实施椭圆霍夫变换。在该运算中，对于该扩张轮廓图像(I_d)中的每一像素，产生以累加器阵列(I_e)中的对应位置为中心的具有所述长半径和短半径尺寸a及b的椭圆(或其至少线段)。这样的椭圆中的每一位置具有强度值，以及在椭圆在累加器阵列中的重叠处加入这些数值。在优选模式中，如图6所示，在该累加器阵列(I_h)中产生的椭圆是模糊椭圆，该模糊椭圆由来自该扩张轮廓图像(I_d)的像素6与具有该尺寸a及b的椭圆掩码7，以及与在其中心周围具有逐渐减小的强度分布的模糊掩码8的卷积(convolution)T造成。此强度分布可以例如是高斯分布。

因此，例如，对于位置x、y的像素：

T(I_d(x，y))+=3(即，使该累加器阵列在基本椭圆的位置处增加3个单元)；

T(I_d(x±1，y))+=2(即，使该累加器阵列在该基本椭圆的每一位置的正右边及左边的位置处增加2个单元)；

T(I_d(x，y±1))+=2(即，使该累加器阵列在该基本椭圆的每一位置的正上方及下方的位置处增加2个单元)；

T(I_d(x±1，y±1))+=1(即，使该累加器阵列在该基本椭圆的每一位置的正右上方、左上方、右下方及左下方的位置处增加1个单元)。

有利地，如果使用诸如Shen-Castan边缘检测器的边缘检测器来产生该轮廓图像(I_c)，该边缘检测器也提供有关该轮廓线的局部方位的信息，则也可以利用该信息修改椭圆掩码7。例如，如图6A中所示，该椭圆掩码7可以以沿着轴线M的该轮廓线的局部方位的长半径方向进行取向，或如图6B所示，可以在椭圆掩码7的底部截断该椭圆掩码7，以反映出在该扩张轮廓图像(I_d)中可能未出现下颌。

在第二实施例中，对于待应用于每一单独像素的该椭圆掩码7的尺寸，可以考虑该扩张轮廓图像(I_d)中的每一个像素的各自深度d(i，j)，以代替基于平均深度d_av来计算椭圆掩码7的尺寸a及b。这可以例如使用扩张轮廓深度图(I_e)=(I_d)·(I_ndg)及以下等式来实施：

a (i, j) = \frac{F}{d (i, j)} \cdot A

b (i, j) = \frac{F}{d (i, j)} \cdot B

在两个实施例中，最后结果是如图7所示的累加器阵列，其中强度峰值8处于该源图像中的人的头部出现的可能性最高的位置。

然而，由于在源图像中最终存在使用者1的末端，导致该轮廓图像(I_c)中几乎平行的线，图7除该强度峰值8之外，也会呈现对应于这些末端的强度脊部9(图8)。为了抑制因在该累加器阵列中存在这些强度脊部9所造成的误报，将对应于分离的强度峰值8的局部强度最大值与位于强度脊部9的局部强度最大值区分开是有利的。

因此，在图8中所示的下一步骤中，为了区分强度脊部9，可以引用加权因子W。为了针对每一局部强度最大值计算该加权因子，在累加器阵列中追踪以该局部强度最大值的位置11为中心且具有预定半径r≥b(通常是r=b)的圆周10。然后，找出该圆周中具有最高强度的第一位置12，并且将其强度值储存为m_c1。接着，该计算机***2找出第二位置13，该第二位置13在该圆周10的与该第一位置12相对的线段14(通常为半圆周)中具有最高强度，以及将其强度值存储为m_c2。如果将局部强度最大值的位置11处的强度值表示为m，则根据该等式W＝m²/m_c1·m_c2计算该加权因子W。因为在如图8所示的强度脊部9中，m_c1及m_c2两者将具有接近m的值，所以将采用仅略微大于1的加权因子W加权位于这样的强度脊部9的局部强度最大值的强度值，而将采用显著更高的加权因子加权分离的局部强度最大值，更可能包括对应于源图像中的人的头部的位置的局部强度最大值。

最后，还可以使用至少一个附加的头部检测方法的输出，来加权最高局部强度最大值中的剩余组候选者。可以采用适合于每一附加方法的加权因子来加权候选者。然后，可以使用表决程序，选择对应于源图像中的人的头部的一个或一组候选者。

如图9所示，这些附加方法之一包括以二次或三次函数的形式，计算经过如位图图像(I_b)中所表示的人类使用者1身体的最大长度的虚拟脊骨15。候选椭圆16表示该人类使用者1头部的概率将随着该虚拟脊骨与该候选椭圆16之间的距离而减小。

相似的补充方法是基于主上体轴线18的计算，该主上体轴线18以该位图图像(I_b)中所表示的人类使用者1的质心为中心。这在图10中示出。通常，人类使用者1的头部应该与此轴线紧密对齐，并且因此，候选椭圆16表示该使用者1的头部的概率也将随着该轴线与候选椭圆16之间的距离而减少。

如图11中所示，这些附加方法中的另一个是测试该人类使用者的质心17与候选椭圆16之间的该人类使用者身体的位图图像(I_b)的连续性。对于该测试，可以使用Brezenham算法。如果该测试输出为负，则该候选椭圆16表示该人类使用者1头部的概率将较低的。

这些附加方法中的另一个是皮肤色调识别。如果该3D相机是彩色相机，则可以估计候选者是否具有与已知皮肤色调相关联的颜色。如果不是这个情况，则该候选者表示该人类使用者的头部的概率将较低。有利地，可以使用颜色变换算法，变换由该3D相机捕获的颜色数据，例如，RGB数据，至更适合皮肤色调识别的颜色空间，诸如与装置无关的CIE1931XYZ颜色空间、或感知均匀CIE 1976L*a*b或CIECAM02颜色空间。

这些附加方法中的另一个是头发识别。特别地，如果该3D相机是具有红外遥测检测器的TOF相机，以及因为头发极大地吸收任何入射的红外辐射，所以如果在候选椭圆的边缘，特别是上边缘的预定距离内具有无法返回良好限定的深度信号的区域，则该候选椭圆表示人类使用者头部的概率将较高。

这些附加方法中的另一个是将对应于候选椭圆的该点云与表示人的头部的特定或一般图案进行匹配。如果该图案匹配测试返回肯定结果，则该候选椭圆表示人类使用者的头部的概率将较高。

这些附加方法中的另一个是下颌检测。当人类使用者正面对3D相机时，该3D相机将记录该人类使用者的下颌与颈部之间通常具有4至9cm之间的深度差。如果在该候选椭圆的下边缘检测到这样的步骤，则该候选椭圆表示人类使用者的头部的概率将较高。图12及图13示出如何检测这样的步骤。在该深度图(I_ndg)中选择根据该候选椭圆的主轴线取向并以其下边缘为中心的例如高度20cm及宽度10cm的矩形检查区域19。如图13的直方图所示，如果在该检查区域中测量的深度值集中在两个彼此分离约4至9cm的不同频率最大值20、21周围，则检测出下颌。

如图14中所示，当该使用者的至少一个手臂抱住头部时，手肘可能形成另一候选椭圆16。同时，孔22形成在由位图图像(I_b)形成的人类使用者1的剪影中的该头部与该手肘之间。在另一附加方法中，检测该剪影中的这样的孔22的形成，以及对相邻于该孔22的任何同时产生的新候选者16的椭圆给出较低的加权。

当如国际专利申请WO 2008/128528所公开的，将该3D相机捕获的对应于该人类使用者的点分组为互连区域的网状物时，可使用包含该网状物中的末端的检测的另一附加方法。在WO 2008/128528中，公开一种识别三维空间内的体积的方法，其中三维图像数据包括三维空间的多个点。使这些点成群，并且选择一个群作为感兴趣的点。将所选群内的点再分组成数个子群，每一子群具有质心以及与该质心相关联的体积。可以使质心连接，以形成表示对象的网状物，以及将末端识别为仅连接至另一质心的质心。

如图15所示，将仅直接连接至另一区域的那些区域视为末端23。也可将直接连接至一个以上的其它区域的那些区域视为末端23，但是只有在将其质心连接至相邻区域的质心的线24是在诸如45°的最大角度内的情况下。与这样的末端23相符的候选椭圆16将更可能表示该使用者1的头部。

在视频序列中，也可以考虑时间相干性及暂时遮蔽。例如，如果前述方法评级的候选者已从前一帧跳至当前帧多于预定距离，则在较低等级候选者在前一帧中位于离头部位置的所述预定距离内的情况下，可以考虑该较低等级候选者。如果在新的帧中遮蔽对应于前一帧中的最高等级候选者的区域，则可以忽视该新帧中的候选者，并且保持来自该前一帧的头部位置，最终直到该遮蔽结束。

虽然已参照特定示例性实施例来描述本发明，但是显然，在不脱离如权利要求中所阐述的本发明的较广范围的情况下，可以对这些实施例做出各种修改及变型。因此，说明书和附图应视为说明性的而并非限定性。

Claims

1.一种用于识别源图像中的人的头部的位置的方法，包括以下步骤：

-检测所述源图像中的人体的至少部分的轮廓；

-计算所述源图像中的所述人体的所述部分的深度；

-在累加器阵列中针对所述轮廓的至少一组轮廓像素，生成以所述轮廓像素的位置为中心且具有所述长半径及短半径尺寸的椭圆的至少一个线段；以及

-选择所述累加器阵列中局部强度最大值的位置，作为对应于所述源图像中的所述人的头部的位置；以及

-从所述累加器阵列中具有最高能量并且以附加检测方法进行正加权的头部候选者中选择最佳头部候选者。

2.根据权利要求1所述的方法，其中，所述深度是所述源图像中的所述人体的所述部分的平均深度。

3.根据权利要求1所述的方法，其中，针对每一轮廓像素单独计算所述深度和所述长半径及短半径尺寸。

4.根据前述权利要求中任一项所述的方法，其中，在所述累加器阵列中生成椭圆的所述至少一个线段之前，执行所述轮廓的形态扩张。

5.根据前述权利要求中任一项所述的方法，其中，椭圆的所述至少一个线段是模糊的。

6.根据前述权利要求中任一项所述的方法，其中，所述轮廓检测步骤还包括针对每一轮廓像素检测局部轮廓方位。

7.根据权利要求6所述的方法，其中，根据所述局部轮廓方位来定位椭圆的所述至少一个线段。

8.根据前述权利要求中任一项所述的方法，其中，在所述选择步骤之前，针对所述累加器阵列中多个局部强度最大值中的每一个执行以下步骤：

-在以所述累加器阵列中的每一局部强度最大值为中心的圆周中找出第一位置，其中所述第一位置在所述圆周中具有最高强度；

-在所述圆周中找出第二位置，其中所述第二位置在所述圆周的与所述第一位置相对的弧中具有最高强度；

-以因子W＝m²/m_c1·m_c2对所述局部强度最大值的强度m进行加权，其中m_c1是所述第一位置处的强度，以及m_c2是所述第二位置处的强度。

9.根据前述权利要求中任一项所述的方法，其中，在所述选择步骤之前，基于至少一个附加的头部识别方法的输出，对所述累加器阵列中多个局部强度最大值中的每一个的强度进行加权，所述至少一个附加的头部识别方法选自包括以下的组：皮肤色调识别、图案匹配、头发识别、下颌检测、孔检测、与所述人体的质心或末端的连接的检测、至虚拟脊骨、上体轴线和/或视频序列中的先前头部位置的距离。

10.根据前述权利要求中任一项所述的方法，其中，如果所述源图像是视频序列的当前帧，以及在先前帧中选择的位置在所述当前帧中被遮蔽，则忽视任一局部强度最大值，并保持所述先前帧中选择的所述位置，作为对应于所述当前帧中的头部位置。

11.根据前述权利要求中任一项所述的方法，还包括：在生成所述轮廓图像之前，分离所述源图像中的人体的所述至少一部分的步骤。

12.一种计算机可读取数据存储介质，包含用于执行根据前述权利要求中任一项所述的方法的计算机可执行指令。

13.一种计算机***，被编程为用于执行根据权利要求1至11中任一项所述的方法。

14.根据权利要求13所述的计算机***，包括用于捕获所述源图像的成像装置。

15.根据权利要求14所述的计算机***，其中，所述成像装置是还用于捕获所述深度的3D成像装置。