CN102609680A

CN102609680A - 一种基于三维深度图像信息的并行统计学习人体部位检测方法

Info

Publication number: CN102609680A
Application number: CN2011104357457A
Authority: CN
Inventors: 黄向生; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-12-22
Filing date: 2011-12-22
Publication date: 2012-07-25
Anticipated expiration: 2031-12-22
Also published as: CN102609680B; WO2013091370A1

Abstract

本发明公开了一种基于三维深度图像信息的并行统计学习人体部位检测方法。针对人体部位(头、手、脚)复杂形变、难以描述等问题，构造了体现人体部位多样性的新型特征-万向特征，利用并行统计学习方法，选择有效的、数量充分的新型特征，组成并行级联的分类器，从而对人体部位进行实时高效的检测。

Description

一种基于三维深度图像信息的并行统计学习人体部位检测方法

技术领域

本发明涉及图像处理、模式识别、人机交互及视觉监控等领域，尤其是一种基于三维深度图像信息的并行统计学习人体部位检测方法。

背景技术

随着计算机性能的逐步提高和各个领域对计算机使用的不断深入，人与计算机的交互技术日益成为计算机领域的研究热点。基于动态序列图像的目标识别已经成为近年来计算机视觉领域中备受关注的研究内容，它主要从图像序列中检测、识别、跟踪以及对生物特征理解和描述进行研究。

目标检测是目标识别中最为关键的一步，是研究如何让计算机以人的思维方式从图像或视频中找出目标对象所在区域的技术。其中人手检测技术是研究难度最大的一个问题。目前，赤手交互成为虚拟游戏中非常吸引人的一项应用，这将引起新一轮的对人体部位检测实时性研究的热潮。

在过去的20年中，大量的目标检测方法被提出。例如，基于神经网络的检测方法、基于支持向量机的检测算法、基于隐形马尔可夫模型的检测方法和基于概率的检测方法。然而，大多数的算法都只是应用图像的原始像素作为特征，他们大多对光照变化和噪声十分敏感。目前最主流的目标检测方法是基于AdaBoost学习的统计模型方法。

人体部位检测涉及图像处理、模式识别、人机交互及视觉监控等领域，在虚拟现实、人机交互、视觉监控等领域均有着广阔的应用。人体部位检测不仅需要完成目标特征的构造和进行相应的脱机训练，实现实时的动态监测，同时还要排除背景噪声和不特定的干扰等问题，这也是需要面临和克服的挑战性问题。

发明内容

由于人体部位(头、手、脚)具有多样性、方向性、多义性等因素，仅仅应用现有的简单特征训练并不能得到理想的检测效果。为了解决人体部位(头、手、脚)检测中特征多样性的问题，以及获得实时的检测效果，本发明提供了一种新型的特征——万向特征(Omni-direction Features)，结合并行级联的统计学习算法进行人体部位检测，保证实时检测的情况下实现了高检测率。从而在目标检测和模式识别等方面具有重要的作用。

本发明所处理的数据源是三维深度图像，这与常见的灰度图像和彩色图像有很大的不同。三维深度图像是将摄像头与拍摄目标的各个像素点的距离读取并储存而获得的图像数据，用不同的灰度来体现图像中像素点的距离信息。

本发明所提出的一种基于三维深度图像的人体部位检测方法，其特征在于，该方法包括以下步骤：

步骤1，采用深度摄像头采集多幅三维深度图像并对其进行处理，建立人体部位样本数据库；

步骤2，对于人体部位样本数据库中的每幅图像，构造描述各人体部位的万向特征；

步骤3，对于所述万向特征基于并行级联的统计学习算法训练分类器，得到贡献力最大的那些万向特征；

步骤4，基于步骤3得到的贡献力最大的万向特征，对从深度摄像头实时读入的图像进行人体部位的检测，并对检测出的人体部位区域进行标注显示。

本发明的有益效果是：

a.目标实时检测，保证了实时的检测速度，检测效果优越；

b.相比较其他特征如haar-like特征，运用万向特征(Omni-directionFeatures)大大提高了检测率；

c.运用并行级联的分类器进行训练，由于是分层训练的关系，每次分组到特征集的特征数目远小于未分组时的特征数目，在训练时间方面有很大的提高，训练速度是原来速度的N-1倍(N为特征的分组数)；

d.因为设定分类器的训练在达到600个特征的时候就会停止(分类器必须设定一个停止的参数，无限制的训练下去，到后期的训练已经没有意义)，原来未分组的分类器在特征的选择上会受到分类器特征数目的限制，选择到的特征不够精细和丰富。分组训练所能挑选的特征虽然也受到这一因素影响，但因为是分成了N组的原因，每组分配到的特征基本都可以完全参与训练选择，大大提高了可选择的特征数目；

e.在检测率上有很大提高。因为选择到的特征的贡献比未分组的特征贡献性总体要好，所以在误判率上有很好的改善，误检率降低了近3倍。

本发明运用前景广泛，在目标检测，模式识别，计算机图像处理等方面有着重要作用，也为计算机三维应用在实时检测跟踪方面提供了应用趋势。

附图说明

图1是本发明所提出的基于三维深度图像信息的并行统计学习人体部位检测方法流程图。

图2是本发明人体部位样本数据库的例图。

图3是本发明的万向特征(Omni-direction Features)的矩形块表示图。

图4是本发明的九种简单的万向特征(Omni-direction Features)的构造图。

图5是本发明的一种万向特征(Omni-direction Features)的特征值计算图解。

图6是利用图像积分图快速计算矩形特征值的示例图。

图7是样本特征计算流程图。

图8是本发明的三种扩展的万向特征(Omni-direction Features)构造图。

图9是本发明的多层万向特征(Omni-direction Features)的构造图。

图10是本发明的统计学习训练模块流程图。

图11是本发明的并行级联分类器的构造图。

图12是本发明对图像进行实时检测的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明是基于统计学习的目标检测原理，对所获取的三维深度图像进行目标检测跟踪。如图1所示，本发明所提出的基于三维深度图像的人体部位检测方法包含以下几个步骤：

步骤1，采用深度摄像头采集多幅三维深度图像并对其进行处理，建立人体部位样本数据库。

在基于统计学习的检测方法中，除了学习算法的性能以及特征形式对检测器性能有较大影响外，训练集也是一个关键的因素，如果训练集选取不当，会严重影响检测效果。本发明的样本采集设备为深度摄像头，采集地点为CASIA(中国科学院自动化研究所)高新技术创新中心。采集时从深度摄像头读入数据并对读入的视频抓取帧图片保存。所采集的三维深度图像所储存的数据是摄像头与拍摄视角内各个感兴趣的目标的距离的深度信息。样本数据库101的建立原则是尽可能的涵盖较多环境下和具有较多姿势的人体部位(头、手、脚)图像，使得选取的样本足够丰富。本发明的训练样本集通过采集86人，每个人预设21个规定动作，制作了一个由10000个人体三维深度图像组成的初始数据集，将所获取的所有图片统一归一化为分辨率为320×240像素的图片，图片均为BMP格式的深度信息图像。从归一化后的图片中分割出头部、手部和脚部，并重新设定人头部样本1010101为24×28像素、人手部样本1010102为28×24像素、人脚部样本1010103为24×24像素。排除遮挡和外界噪声等影响的样本，得到实验人头部、手、脚的正样本各8000个，从归一化图片数据中切割出7500幅非人体部位(头、手、脚)的负样本图片。将人体部位：头、手、脚的8000幅正样本分别和7500幅负样本组合成人体部位(头、手、脚)的三个样本数据库。图2是人体部位(头、手、脚)训练的资料，其中，1010101是人体头部正样本，1010102是人体手部正样本，1010103是人体脚部正样本，10102是非人体部位(头、手、脚)即负样本图片。

步骤2，基于人体部位样本数据库构造描述各人体部位的万向特征以克服人体部位变化的多义性和多样性。

人体部位(头、手、脚)存在多义性和多样性特征。例如人手在变化的时候，其姿态是万千变化的，这增加了人手检测的难度。由于人体部位(头、手、脚)具有多样性、方向性等因素，所以至今没有很好的描述这类特征的算法。本发明提出了一种能够很好的描述人体部位(头、手、脚)方向性和多样性特性的新型特征——万向特征(Omni-direction Features)。

分析采集到的正样本数据，在每张正样本图片中人体部位只能从一个方向伸进正样本图片，并且稳定的占据样本图片的中间位置，根据这一样本特性，样本中间位置的平均深度要比周围位置的深度大，通过中间矩形区域和***矩形区域的深度差值来建造新的特征，称做万向特征(Omni-direction Features)。万向特征(Omni-direction Features)为类矩形特征(类矩形特征为各种矩形框经过相互重叠、遮挡、错层等方式组合得到的形状特征)，是通过出现人体部位的矩形区域和周围矩形区域按照一定的权值关系进行组合得到的，分为任意位置的单层次单矩形特征；多层次多矩形特征；组合矩形特征；组合菱形特征；组合椭圆特征；组合对角对称特征等类型。图5中特征10201-特征10209为单层次单矩形特征，图7中10210为组合矩形特征，图7中10211为组合菱形特征，图7中10212为组合椭圆特征，图8中特征10213为多层次多矩形特征，特征10214-特征10217组合对角对称特征。

所有类型特征都可以通过图像积分进行快速计算和提取。通过万向特征(Omni-direction Features)可以很好的描述人体部位(头、手、脚)的多义性、多样性和复杂形变等本质结构特性。所有列出的特征均可以一定程度的表征人体部位(头、手、脚)的特性，所有列出的特征是为了阐述万向特征(Omni-direction Features)的概念和构造原理，万向特征(Omni-direction Features)包含但不限于所列特征。

现就万向特征(Omni-direction Features)进行简单的描述和说明：

a)矩形的表示：

如图3所示，假设图像中存在人体部位(头、手、脚)的子图像窗口区域由W*H个像素组成，用一个五元组来表示子图像中的任意矩形：r＝(x，y，w，h，α)，其中(x，y)为矩形左上顶点的坐标，w和h为矩形的长和宽，α为矩形的旋转角度，W，H分别表示子图像窗口的长和宽。并且它们满足：

0≤x，x+w≤W；0≤y，y+h≤H；w，h＞0；

b)矩形特征的表示：

如图4所示，以10201特征为例，黑色矩形区域可以代表人体部位(头、手、脚)区域，可以以任何方向和大小定位到整个矩形区域的任何位置。一个简单的万向特征(Omni-direction Features)是通过累加周围白色区域的像素的值，再减去中间黑色矩形区域的像素的累加和得到的，图4中10201特征代表白色区域面积是黑色区域面积6.25倍的特征。

矩形特征值用如下公式表示：

{feature}_{i} = \underset{i &Element; I = {1, \cdot \cdot \cdot, N}}{Σ} ω_{i} \cdot RecSum (r_{i}) - - - (1)

其中，ω_i为第i个矩形的权值，RecSum(r_i)代表第i个矩形内所有像素值的和，N为组成特征的矩形个数。

假设组成图5所示的矩形特征的两个矩形分别为r₁，r₂。其中r₁包含r₂，且r₁的面积等于6.25倍的r₂的面积。根据矩形权值异号且与其面积成反比，得到两个矩形的权值比为-1∶6.25。根据图3定义的五元组，r₁＝(0，0，20，20，0⁰)，r2＝(5，4，8，8，0⁰)，那么由公式(1)给出的计算矩形特征的一般方法，可得到该矩形特征为：

feature_i＝-1·RecSum(0，0，20，20，0⁰)+6.25·RecSum(5，4，8，8，0⁰) (2)

其中，ω₁∶ω₂的比值由特征原型确定，是一个固定值。即从同一特征原型中派生出来的所有矩形特征，都是该特征原型的缩放，其权值比不发生变化。

由于训练样本有上万个，并且万向特征(Omni-direction Features)的数量十分庞大，如果每次进行特征值的计算都需要统计矩形内所有像素之和，将会大大影响训练和检测的速度。Paul Viola等引入了一种新的图像的表示方法——积分图像，矩形特征的特征值计算，只与此特征矩形的端点的积分图有关，所以不管此特征矩形的尺度变换如何，特征值的计算所消耗的时间都是常量。这样只要遍历图像一次，就可以求得所有子窗口的特征值。利用它可以快速计算矩形特征。

积分图的定义为：

ii (x, y) = \underset{x^{'} \leq x}{Σ} \underset{y^{'} \leq y}{Σ} I (x^{'}, y^{'}) - - - (3)

其中，I(x′，y′)为图像在点(x′，y′)处的像素值。

为了节约时间，减少重复计算，则图像I的积分图可按如下递推公式计算：

\{\begin{matrix} s (x, y) = s (x, y - 1) + i (x, y) \\ ii (x, y) = ii (x - 1, y) + s (x, y) \end{matrix} - - - (4)

其中，i(x，y)为点(x，y)处的像素值，s(x，y)为点(x，y)的累计行像素总和，ii(x，y)为点(x，y)的积分图，s(x，-1)＝0，ii(-1，y)＝0。

这样就可以进行2种运算：

(i)任意矩形区域内像素积分。由图像的积分图可方便快速地计算图像中任意矩形内所有像素灰度积分图如图6a所示。如图6b所示，点1的积分图像ii1的值为(其中Sum为求和)：

ii1＝Sum(A) (5)

同理，点2、点3、点4的积分图像分别为：

ii2＝Sum(A)+Sum(B)； (6)

ii3＝Sum(A)+Sum(C)； (7)

ii4＝Sum(A)+Sum(B)+Sum(C)+Sum(D)；(8)

矩形区域D内的所有像素灰度积分可由矩形端点的积分图像值得到：

Sum(D)＝ii1+ii4-(ii2+ii3)； (9)

(ii)特征值计算

矩形特征的特征值是两个不同的矩形分区图元和之差，由(9)式可以计算任意矩形特征的特征值，下面以图6b中特征原型A为例说明特征值的计算。

如图6c所示，该特征原型的特征值定义为：

Sum(A)-Sum(B) (10)

根据(9)式则有：

Sum(A)＝ii4+ii1-(ii2+ii3)； (11)

Sum(B)＝ii6+ii3-(ii4+ii5)； (12)

所以此类特征原型的特征值为：

(ii4-ii3)-(ii2-ii1)+(ii4-ii3)-(ii6-ii5)； (13)

另示：运用积分图可以快速计算给定的矩形内部所有像素值之和Sum(r)。假设r＝(x，y，w，h)，那么通过积分图计算此矩形内部所有像素值之和等价于下面这个式子：

Sum(r)＝ii(x+w，y+h)+ii(x-1，y-1)-ii(x+w，y-1)-ii(x-1，y+h)；(14)

由此可见，矩形特征特征值计算只与此特征端点的积分图有关，而与图像坐标值无关。图7是整个样本特征计算流程图。对于同一类型的矩形特征，不管特征的尺度和位置如何，特征值的计算所耗费的时间都是常量，而且都只是简单的加减运算。其它类型的特征值计算方法类似。

c)编码型万向特征(Omni-direction Features)

由于人体部位(头、手、脚)方向性和多义性的特征，很难由统一的结构化刚体模型进行描述，所以特征的构造并不局限在正矩形或正方体的形状，而是变化万千的形状特征，图8给出了三种特征依次为：矩形编码、菱形编码和椭圆编码。以矩形编码为例，对于矩形特征，多个小矩形排列成矩形的形状，左图中各个小矩形中的数字为该位置的像素值；求取这个矩形特征所有位置的像素平均值，大于平均值的像素值为有效值，设为1，小于平均值的像素值设为0，为计算简便和有限性，选取特征的边缘位置进行计算比较即可，如此，形成由元素1、0组成的矩形特征，如中图所示；元素为0的矩形框，也就是像素值低于平均值的矩形框，认为是可以代表人体部位(头、手、脚)区域的矩形框，如右图中的黑色矩形框所示，由此，形成右图所示的特征模板。图8中所列特征均是以8位二进制数描述，对于各个特征的中图，从特征左上角开始，顺时针绕边缘进行编码排序，这种描述利于直观的得到特征的内部结构，如矩形特征以00011001(无中心位置值)来描述，也可以十进制数表示，转化为十进制为25；菱形特征为：00011001或25；椭圆特征为00110001或49，图8中的三种特征编码，均体现了左下部分和右上部分的对比关系。

编码型万向特征的定义：

MP = Σ_{i = 1}^{s} s (g_{i} - g_{c}) \cdot 2^{i} - - - (15)

s (x) = \{\begin{matrix} 1, ifx &GreaterEqual; 0 \\ 0, f x < 0 \end{matrix} - - - (16)

其中：MP为万向特征值，g_i为可以代表人体部位(头、手、脚)区域的黑色矩形框的面积，s(x)为判定阈值，s为矩形框的个数。

d)多层的万向特征(Omni-direction Features)

直接从黑色区域减去白色区域仅仅体现了两个矩形的特征，它不能具体化特征在图像中的位置。可以通过计算不同系数的多层像素来解决这个问题；然而这将带来巨大的计算量。为了保留位置特征并且获得较快的计算速度，本发明将简单的一个万向特征(Omni-direction Features)扩展到多层的一簇万向特征(Omni-direction Features)。

创建多层万向特征(Omni-direction Features)的目的是为了降低因为直接的黑白区域求差引起的位置信息损坏，而保持位置信息的完整性。多层的万向特征(Omni-direction Features)如图9所示。矩形区域是由黑到白逐级递进的。特征的计算是由黑色矩形区域的像素和减去最外层白色区域的像素和之后，加上围绕在黑色矩形区域的灰色区域的像素和。多层的万向特征(Omni-direction Features)使得图像的特征更加柔和。

同样利用公式(1)：

如图9中的第一个特征，设三个矩形的五元组分别为r₁＝(0，0，20，20，0⁰)，r₂＝(5，5，10，10，0⁰)，r₃＝(7，7，5，5，0⁰)对应的权值由面积以及比例关系得到：ω₁∶ω₂∶ω₃＝-1∶2∶8。则矩形特征值为：

feature_i＝-1·RecSum(0，0，20，20，0⁰)+2·RecSum(5，5，10，10，0⁰)+8·RecSum(7，7，5，5，0⁰)。

步骤3，对于所述万向特征基于并行级联的统计学习算法训练分类器，得到贡献力最大的那些万向特征。

可以通过万向特征(Omni-direction Features)提取到大量的人体部位(头、手、脚)特征，但是有些特征在检测阶段未必有实际意义。挑选和浓缩这些特征，对于在不影响检测率的情况下，减少冗余特征的证明和计算是十分必要的。为了克服这个问题，本发明采用基于统计学习的理论来选择贡献力最大的那些特征。所述贡献力是指所选特征对于检测***的有效性，也就是判断所选特征是否可以有效的判定待检测图像是否含有人体部位。但由于一般情况下，应用到统计学习的特征数量非常大，并且样本的数量需要满足一定的比例，因此将所有的特征应用到一个分类器训练是一件十分困难的事情。所以本发明提出图10所示的一种并行级联的统计学习算法，采用分类并行的分类训练103最终组合成强分类器104来解决这个问题。每种分类器的训练在达到600个特征的时候就会停止(分类器必须设定一个停止的参数，无限制的训练下去，后期的训练已经没有意义)。图10为整个***学习训练示意图。

(i)统计学习方法

训练目标是通过对判断得出的真假样本进行分析，选择分类错误率最低的T个弱分类器，最终优化组合成一个强分类器。训练方法具体为：

1、给定训练集：(x₁，y₁)，...，(x_N，y_N)，其中y_i∈{1，-1}，表示x_i的正确的类别标签，i＝1，...，N，令g_j(x_i)表示第i副图像的第j个特征值。

2、计算训练集上样本的初始分布：

3、对于所有样本的所有特征，寻找弱分类器h_t(t＝1，...，T)。对于每个样本中的第j个特征，可以得到一个弱分类器h_j，即可得到阈值θ_j和方向P_j，使得

达到最小，而弱分类器h_j为：

h_{j} (x) = \{\begin{matrix} 1 & P_{j} g_{j} (x) < P_{j} θ_{j} \\ - 1 & other \end{matrix} - - - (18)

其中，P_j决定不等式的方向，只有±1两种情况。

4、在所有样本的所有特征中挑选出一个具有最小误差ε_t的弱分类器h_t。

5、对所有的样本权重进行更新：

D_{t + 1} (i) = \frac{D_{t} (i) \exp (- α_{t} y_{i} h_{t} (x_{i}))}{Z_{t}} - - - (19)

其中，Z_t是使的归一化因子，α_t为弱分类器h_t在强分类器H中的权重，和h_t的分类错误成反比。

6、经过T轮训练得到T个最优的弱分类器，将T个最优的弱分类器组成一个强分类器；

H_{final} (x) = sign (Σ_{t = 1}^{T} α_{t} h_{t} (x)) - - - (20)

7、经过L次训练得到L个强分类器。

将每次训练得到的强分类器组合在一起形成分级分类器。分级分类器中每层的强分类器经过阈值调整，使得每一层都能让几乎全部的人体部位(头、手、脚)样本通过，而拒绝很大一部分非人体部位(头、手、脚)样本。将由更重要特征构成的结构较简单的强分类器放在前面，这样可以先排除大量的假样本。尽管随着级数的增多矩形特征在增多，但计算量却在减少，检测的速度在加快，使***具有很好的实时性。

(ii)并行级联的分类器

一般情况下，应用到学习训练的特征数量非常大，并且样本的数量需要满足一定的比例，因此将所有的特征应用到一个分类器训练是一件十分困难的事情。图11描绘了一个可以很好的解决这个问题的并行级联分类器。将大量的万向特征(Omni-direction Features)随机分为n组，{f1，f2...fn}。那些好的候选特征通过分类器从并行的组里被挑选出来。从各组选出来的贡献相对比较大的特征结合成一组新的特征集，然后便可以在新组成的特征集中应用强分类器训练出贡献最大的那些特征。比较未经过挑选的特征集(一个万向特征(Omni-direction Features)在28*24像素图的子检测窗口中的矩形特征数量总计为96600个)，经过挑选的特征集的特征数目远小于未经过挑选的特征集，在本发明的实验中，设定分类器的训练在达到600个特征的时候停止。

具体实施办法是：

1.将遍历样本得到的大量万向特征(Omni-direction Features)进行随机分组，默认分为n组，每组特征集用f1，f2...fn表示。

2.运用(i)中阐述的算法分别对这n组特征集进行分类训练，每组选择对检测贡献最大的那些特征。

3.将第2步中选择得到的具有较大贡献的特征进行整理组合，得到一组新的特征集，这个特征集中的特征数目远小于未经过筛选的原始特征数目，并且特征的总体有效性和贡献度均远优于原始特征。

4.再次运用强分类器，调整阈值进行分类，选择出最终的待用特征集，此时选到的特征数目是所有分组特征集选择得到的特征集数目的1/n，有效性是原来的n倍，可获得到较高的检测率。

步骤4，基于步骤3得到的贡献力最大的万向特征构造分类器，对从深度摄像头实时读入的图像进行人体部位的分类检测，并对检测出的人体部位区域进行标注显示。

如图12所示，步骤4进一步包括以下步骤：

步骤4.1，对从深度摄像头读入的视频抓取帧图片保存；

步骤4.2，对抓取的帧图片进行深度归一化处理；

深度图片的像素值是从0到9999，为加快后续计算，需要将图片的像素值归一化为常用的0到255。所述深度归一化处理的具体步骤为：

步骤4.2.1，设定一个大小为10000的深度直方图数组g_pDepthHist[10000]，用以统计像素分布；

步骤4.2.2，遍历从深度摄像头抓取的深度图片，寻找深度对应的索引值，索引值不为0的，该深度像素值的个数加1，g_pDepthHist[curDepth]++，并累计深度索引值不为0的总个数nNumberOfPoints；

步骤4.2.3，遍历深度直方图数组，计算累计深度直方图，g_pDepthHist[nIndex]+＝g_pDepthHist[nIndex-1]；

步骤4.2.4，遍历累计深度直方图，得到映射到[0～255]区间的深度查找表数组g_pDepthHist[nIndex]＝(float)(unsigned int)(255*(1.0f-(g_pDepthHist[nIndex]/nNumberOfPoints)))；

步骤4.2.5，遍历深度图片，根据深度值查深度查找表数组，得到[0～255]区间的深度值(unsigned int)g_pDepthHist[dep]；

步骤4.3，基于识别窗口多尺度机制对抓取的帧图片提取子图像，用基于贡献力最大的万向特征构造的分类器分别检测子图像是否是人体部位；

初始识别窗口一般设定为与人体部位训练样本大小相同，即初始人头部位识别窗口为24×28像素，初始人手部位识别窗口为28×24像素、初始人脚部位识别窗口为24×24像素。然后从帧图片的左上角开始遍历整个图像获取子图像，每当遍历完一遍后，识别窗口就进行一次放大，然后再遍历整个图像获取子图像，直到识别窗口的大小大于图片的大小停止。窗口等比放大系数越大，识别窗口的放大次数就越少，截取出的子图像数据就越少，识别率就越低，但识别速度将提高，反之亦然。识别窗口多尺度机制通过改变识别窗口的尺寸来提取子图像，避免了传统方法中的对图像的缩放变换，减少计算量。

对于提取出的子图像，用基于贡献力最大的万向特征构造的级联分类器检测子图像是否是人体部位，经过基于贡献力最大的万向特征构造的级联分类器的检测后，待识别帧图片中的很大一部分子图像区域被并行级联分类器的前几层强分类器快速识别为非人体部位(头、手、脚)区域，只有实际可能包含人体部位(头、手、脚)的子图像才能到达最后层的强分类器。

步骤4.4，对检测为人体部位的子图像进行合并，得到帧图片中各人体部位的最终检测结果，并对检测出的人体部位区域进行标注显示。

通过步骤4.3，实际可能包含人体部位的多个子图像被检测出来，对检测为人体部位的子图像进行合并处理，只有满足一定条件的合并子图像才最终被确定为实际包含人体部位(手、头、脚)，此处的一定条件是指某一通过人体部位判断的子图像附近有一定数目的通过人体部位判断的子图像，也就是说，多个通过人体部位判断的子图像出现重叠。相反，如果只是孤立零散的一个子图像，这种子图像认为是噪声，或者叫不确定的人体部分。检测结果的合并处理可以去除很多误识，进一步提高检测结果的准确性。最后对检测出来的人体部位(头、手、脚)区域进行标注显示。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于三维深度图像的人体部位检测方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所采集的三维深度图像储存有摄像头与拍摄目标各个像素点的距离的深度信息。

3.根据权利要求1所述的方法，其特征在于，所述步骤1中对三维深度图像进行处理，建立人体部位样本数据库进一步包括：

将采集到的多幅三维深度图像分别归一化为分辨率为320×240像素的BMP图片；

从归一化后的多幅BMP图片中分别分割出头部、手部和脚部，得到多幅人体部位，即头部、手部和脚部的正样本图片；

从归一化后的多幅BMP图片中分割出多幅非人体部位的负样本图片；

将所述多幅正样本图片分别与多幅负样本图片组合成头部、手部和脚部三个样本数据库。

4.根据权利要求1所述的方法，其特征在于，依据人体部位的三维深度图像样本的中间位置是出现待检测部位的稳定位置，通过比较三维深度图像样本的中间区域和***区域得到特征位置信息，将所述特征位置信息结合人体部位的形状特性构造得到所述万向特征。

5.根据权利要求4所述的方法，其特征在于，所述万向特征为类矩形特征，是通过出现人体部位的矩形区域和周围矩形区域按照一定的权值关系进行相互重叠、遮挡、错层等方式的组合得到的形状特征：

{feature}_{i} = \underset{i &Element; I = {1, \cdot \cdot \cdot, N}}{Σ} ω_{i} \cdot RecSum (r_{i}),

其中，feature_i为特征值，ω_i为第i个矩形的权值，RecSum(r_i)代表第i个矩形内所有像素值的和，N为组成所述形状特征的矩形个数；

所述矩形用一个五元组来表示：r＝(x，y，w，h，α)，其中(x，y)为矩形左上顶点的坐标，w和h为矩形的长和宽，α为矩形的旋转角度。

6.根据权利要求4所述的方法，其特征在于，所述万向特征分为任意位置的单层次单矩形特征、多层次多矩形特征、编码型万向特征及组合对角对称特征多种类型，所述编码型万向特征又分为组合矩形特征、组合菱形特征和组合椭圆特征，所有类型特征都能够通过图像积分进行快速计算和提取。

7.根据权利要求6所述的方法，其特征在于，所述编码型万向特征表示为：

MP = Σ_{i = 1}^{s} s (g_{i} - g_{c}) \cdot 2^{i},

s (x) = \{\begin{matrix} 1, ifx &GreaterEqual; 0 \\ 0, f x < 0 \end{matrix},

其中，MP为万向特征值，g_i为能够代表人体部位区域的矩形框的面积，

s(x)为判定阈值，s为矩形框的个数。

8.根据权利要求1所述的方法，其特征在于，并行级联的统计学习算法是将步骤2得到的万向特征随机分为n组，通过并行级联的统计学习算法进行同时训练，得到各组中贡献力较大的万向特征，合并这些贡献力较大的万向特征得到一个新的特征集，通过再一次的学习训练，得到贡献力最大的那些万向特征组成强分类器。

9.根据权利要求8所述的方法，其特征在于，所述贡献力是指所选特征对于检测***的有效性，也就是判断所选特征是否可以有效的判定待检测图像是否含有人体部位。

10.根据权利要求1所述的方法，其特征在于，步骤4进一步包括以下步骤：

步骤4.1，对从深度摄像头读入的视频抓取帧图片保存；

步骤4.2，对抓取的帧图片进行深度归一化处理；

11.根据权利要求10所述的方法，其特征在于，所述识别窗口多尺度机制为：

首先将初始识别窗口设定为与人体部位训练样本大小相同；

然后从帧图片的左上角开始遍历整个图像获取子图像；

每当遍历完一遍后，识别窗口就进行一次放大，然后再遍历整个图像获取子图像，直到识别窗口大小大于图片大小停止。