CN106296720A

CN106296720A - 基于双目相机的人体朝向识别方法和***

Info

Publication number: CN106296720A
Application number: CN201510237881.3A
Authority: CN
Inventors: 乔刚; 王千; 王鑫; 范圣印; 诸加丹
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2015-05-12
Filing date: 2015-05-12
Publication date: 2017-01-04
Anticipated expiration: 2035-05-12
Also published as: EP3096263B1; EP3096263A1; CN106296720B

Abstract

一种人体朝向识别方法和***，该方法包括：接收双目相机拍摄的灰度图或彩色图和深度图；进行前景识别以获得前景像素，以在世界坐标系中对前景像素的深度图进行XYZ三维重构以获得三维图，且将世界坐标系中的三维图进行XZ平面的顶视图投影，以获得顶视图；基于顶视图来进行人体运动轨迹跟踪；确定人体运动速度是否大于预定阈值；如果是，则将人体运动轨迹的方向作为人体朝向；如果否，则通过肩垂直方向分类器对顶视图进行分类，以获得在多对相对的方向中的一对方向；将三维图进行后向投影，以获得头部区域的二维信息；利用脸部二元分类器对其进行分类，以在所述一对方向中选择与头部区域的脸部朝向对应的一个方向，作为人体朝向。

Description

基于双目相机的人体朝向识别方法和***

技术领域

本申请涉及基于立体视觉的机器学习和机器识别领域，且更具体地，涉及基于双目相机的人体朝向识别方法和***。

背景技术

人体朝向识别是计算机视觉领域的重要课题之一，这是因为，首先，人体朝向的识别能够支持一些计算机视觉的应用和高层的计算机视觉任务。例如，人体朝向是人的交互因为或者关注方位的指示。在展览厅中，展品的吸引力程度在某种程度上可以通过人们的注意力来体现。其次，现有的关于人体朝向的研究主要集中于提取对仿射变换鲁棒的特征。但是，诸如仿射不变特征变换(Scale Invariant Feature Transformation，缩写为SIFT)和加速鲁棒特征(Speeded Up Robust Feature，缩写为SURF)只是对与有限的角度改变鲁棒。从具有大角度视角改变的图像中提取的特征仍然存在显著的差异。第三，一些与计算机视觉任务(例如人的行为识别)有关的核心算法，例如隐马尔可夫模型和动态贝叶斯网络，仅把特征表达作为抽象的观测模型而忽略其具体的实现。因此这些核心算法对于人或其他对象的视角改变造成的特征差异具有固有的敏感。因此，如果较低层的视角信息能够被计算出来，它将能够支持高层的算法以克服视角改变的问题，以及支持各种计算机视觉的应用。

为了计算人的朝向，通常利用基于双目相机的关于人在3D世界坐标系中运动的检测和跟踪技术，这是因为人的运动跟踪轨迹是人体朝向的自然表达。在人在一定速度下移动的情况下，一个简单的主成分分析(PrincipalComponent Analysis，PCA)方法就可以高效地计算出时间相邻的人体3D位置的主方向，以作为人体朝向的合理的估计。但是，如果人以非常低的速度移动，或者静止不动，这种方法就失效了：因为这种情况下，人体的3D位置就如同关于时间的随机游走。因此现有技术要解决的问题归结为如何在几乎没有运动轨迹的条件下进行的人体朝向识别。

仅有很少数量的专利旨在解决这一问题。这也许是由于问题的病态特性：从不完备的2D图像中推断对象的3D结构。

例如，题为“METHOD AND SYSTEM FOR DETECTING SPECIFIC OBJECT INIMAGE”的国际专利申请WO 2004/111867A2(2004年12月23日公开)提出了一种方法和***来检测图像中的特定目标。该方案的目标是检测图像中任意旋转的对象。对象的旋转被划分为若干个类别。每一个旋转类包含了特定的落入由那个旋转类预先定义的俯仰、偏航和滚转(pitch,yaw and roll)范围中的对象的图片。朝向分类器是一个能够输出对象若干个的朝向类标记的多类分类器。该标记被用来选择对应的多个二元分类器中的一个，以用于进行特定对象存在与否的判定。尽管该方案采纳了一种两阶段的分类过程，但它的目的在于检测一个旋转的对象。因此，在第一阶段它即产生了一个最终的旋转标记以便选择对应的二元检测用分类器。该方法的问题在于旋转分类器须从2D图像中决定对象的3D朝向(俯仰、偏航和滚转，即pitch,yawand roll)，而这本身仍然是一个病态的问题。为了克服该问题，旋转分类器需要大量标记精准的训练样本。除此之外，它对对象的外观是敏感的。由于外观的差异性，两个属于相同旋转类的对象可能会被旋转分类器错分到两个不同的旋转类中。这种错误源于在没有可靠的物理信息的基础上，分类器过于依赖对象的2D外观特征。

题为“REAL TIME HEAD POSE ESTIMATION”的美国专利US8687880B2(2014年4月1日公告)提出了一种实时的头态估计方法和***。类似地，它遵循特征提取和分类识别的范式。在这种情况下，特征是通过主成分分析(PCA)降维后的局部二进制图案特征(Local Binary Pattern，LBP)。更确切地说，对于每一帧，一个真实的关于旋转轴的头部旋转角度被记录下来，脸部区域被检测出来并提取为一个特征向量作为表征。利用主成份分析可以进一步产生PCA特征向量。围绕着旋转轴的与旋转角度的有关的头姿类别已经事先定义。PCA特征向量被聚类成一个头姿类别。最终，对头姿类别运用线性判别分析(linear discriminant analysis(LDA))来产生低维头姿空间。该专利基本可以归结为一个基于2D灰度/彩色图像的分类问题。它的训练样本具有精确标记的旋转角。LBP算子用于提取脸部区域的空域特征以馈送给基于线性判别的决策过程。与之前的方案一样，这种方法对目标外观敏感：在没有可靠的物理信息的基础上，分类器过于依赖对象的2D外观特征。

存在的问题在于，分类器需要通过不完备的2D图像确定对象的3D旋转(俯仰、偏航和滚转，即pitch,yaw and roll)。这个问题是本质性的因为分类收到了目标2D外观的制约。由于目标外观的差异性，两个属于相同旋转类的对象可能会被旋转分类器错分到两个不同的旋转类中。在没有可靠的物理信息的基础上，分类器过于依赖对象的2D外观特征。为了克服该问题，旋转分类器需要大量标记精准的训练样本。但在本质上这并没有解决真正的问题。

因此，需要一种更为准确的人体朝向识别技术。

发明内容

根据本发明的一个方面，提供一种基于双目相机的人体朝向识别方法，包括：接收双目相机拍摄的灰度图或彩色图以及深度图；进行前景识别以获得前景像素，以在世界坐标系中对前景像素的深度图进行XYZ三维重构以获得三维图，其中，X表示宽度，Y表示高度，Z表示深度，且将所述世界坐标系中的三维图进行XZ平面的顶视图投影，以获得顶视图；基于所述顶视图来进行人体运动轨迹跟踪；确定从人体运动轨迹跟踪的结果得到人体的运动速度是否大于预定阈值；如果从人体运动轨迹跟踪的结果得到人体的运动速度大于预定阈值，则将人体运动轨迹的方向作为人体朝向；如果从人体运动轨迹跟踪的结果得到人体的运动速度小于或等于预定阈值，则通过肩垂直方向分类器对所述顶视图进行分类，以获得在多对相对的方向中的一对方向作为肩垂直方向识别结果；将所述三维图进行后向投影，以获得头部区域的二维信息；利用脸部二元分类器对所述头部区域的二维信息进行分类，以在作为肩垂直方向识别结果的一对方向中选择与所述头部区域的脸部朝向对应的一个方向，作为人体朝向。

根据本发明的另一个方面，提供一种基于双目相机的人体朝向识别***，包括：接收单元，被配置为接收双目相机拍摄的灰度图或彩色图以及深度图；顶视图获得单元，被配置为进行前景识别以获得前景像素，以在世界坐标系中对前景像素的深度图进行XYZ三维重构以获得三维图，其中，X表示宽度，Y表示高度，Z表示深度，且将所述世界坐标系中的三维图进行XZ平面的顶视图投影，以获得顶视图；人体运动轨迹跟踪单元，被配置为基于所述顶视图来进行人体运动轨迹跟踪；确定单元，被配置为确定从人体运动轨迹跟踪的结果得到人体的运动速度是否大于预定阈值；人体朝向识别单元，被配置为：如果从人体运动轨迹跟踪的结果得到人体的运动速度大于预定阈值，则将人体运动轨迹的方向作为人体朝向；如果从人体运动轨迹跟踪的结果得到人体的运动速度小于或等于预定阈值，则通过肩垂直方向分类器对所述顶视图进行分类，以获得在多对相对的方向中的一对方向作为肩垂直方向识别结果；将所述三维图进行后向投影，以获得头部区域的二维信息；利用脸部二元分类器对所述头部区域的二维信息进行分类，以在作为肩垂直方向识别结果的一对方向中选择与所述头部区域的脸部朝向对应的一个方向，作为人体朝向。

本发明的目的包括利用双目相机，在世界坐标系中进行三维重构从而打破2D外观对分类器的制约。另一方面，它仍然利用了2D外观信息以获取关于对象朝向的细节线索。根据这个思路，本发明分为两个阶段(步骤)。在第一个阶段，它实施了3D点云的投影以产生基于高度模板的应用于N方向分类的保持了空域性质的特征。基于这个阶段的输出结果，在第二阶段中，本发明通过后向投影在2D灰度/彩色图像上确定人的头部区域，并进一步提取了保持空域性质的归一化特征用于二元分类。

附图说明

图1是示出了应用本发明的各个实施例的硬件结构示例图。

图2是示出根据本发明的一个实施例的基于双目相机的人体朝向识别方法的示例流程图。

图3是示出示意性地示出了根据本发明的一个实施例的基于双目相机的人体朝向识别方法的流程的示意图。

图4示出了顶视图投影与人体检测和跟踪的原理示意图。

图5示出了基于轨迹或者定位的方向估计的示意图。

图6示出了对顶视图的检测区域进行肩垂直方向(N方向)分类的示意图。

图7示出了利用向后投影原理获得二维图像上的人体矩形框的示意图。

图8示出了对该人体矩形框进行脸部二元分类的示意图。

图9是示出了根据本发明的另一个实施例的基于双目相机的人体朝向识别***的示例方框图。

具体实施方式

现在将详细参照本发明的具体实施例，在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明，但将理解，不是想要将本发明限于所述的实施例。相反，想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意，这里描述的方法步骤都可以由任何功能块或功能布置来实现，且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

注意，接下来要介绍的示例仅是一个具体的例子，而不作为限制本发明的实施例必须为如下具体的步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本发明的构思来构造本说明书中未提到的更多实施例。

图1是示出了应用本发明的各个实施例的硬件结构示例图。

该硬件结构包含：双目相机101，用于拍摄对象以获得灰度(或彩色)图以及对应的深度(或视差)图构成的图像对序列；数字信号处理器102，用于接收灰度(或彩色)图以及对应的深度(或视差)图构成的图像对序列，并进行处理以输出方向计算或方向识别结果；中央处理单元(centralprocessing unit，CPU)103，用于处理数字信号处理器输入或输出的数据；存储设备104，用于临时或永久地存储数字信号处理器所需的数据；显示器105，用于显示输出方向计算或方向识别结果。本发明的各个实施例可以在数字信号处理器102上执行。该硬件结构仅是示例，实际上，数字信号处理器102输入或输出数据的各个设备可以是其他设备，例如以声音形式输出方向识别结果的扬声器、接收指令输入的触摸屏等。

根据本发明的一个实施例的基于双目相机的人体朝向识别方法200包括：步骤201，接收双目相机拍摄的灰度图或彩色图以及深度图；步骤202，进行前景识别以获得前景像素，以在世界坐标系中对前景像素的深度图进行XYZ三维重构以获得三维图，其中，X表示宽度，Y表示高度，Z表示深度，且将所述世界坐标系中的三维图进行XZ平面的顶视图投影，以获得顶视图；步骤203，基于所述顶视图来进行人体运动轨迹跟踪；步骤204，确定从人体运动轨迹跟踪的结果得到人体的运动速度是否大于预定阈值；步骤205，如果从人体运动轨迹跟踪的结果得到人体的运动速度大于预定阈值，则将人体运动轨迹的方向作为人体朝向；步骤206，如果从人体运动轨迹跟踪的结果得到人体的运动速度小于或等于预定阈值，则通过肩垂直方向分类器对所述顶视图进行分类，以获得在多对相对的方向中的一对方向作为肩垂直方向识别结果；步骤207，将所述三维图进行后向投影，以获得头部区域的二维信息；步骤208，利用脸部二元分类器对所述头部区域的二维信息进行分类，以在作为肩垂直方向识别结果的一对方向中选择与所述头部区域的脸部朝向对应的一个方向，作为人体朝向。

如此，利用前景像素的从上向下投影的顶视图，能够跟踪该前景(例如人体)的运动轨迹，并且在运动速度较大时，采用运动轨迹的方向作为人体朝向，减少了计算量并加快人体朝向识别的效率，而在在运动速度较小时，解决了现有技术中对运动速度较小的人体朝向识别不准的问题，采用两个阶段的分类器，来在第一阶段中分类得到与肩垂直的一对方向，然后通过向后投影得到头部区域，来在第二阶段中分类以从与肩垂直的一对方向中选择与脸部朝向接近的一个方向，作为最终的人体朝向，如此，能够在运动速度较小的情况下准确地估计人体的朝向，获得较好的人体朝向识别效果。而且，先得到初步的一对运动方向，可以将人体的朝向的选择范围缩窄到这样的一对方向上，然后，利用人脸二元分类来找到脸部的位置，以进一步地精确人体的朝向是在该对方向中的哪一个上。这样，能够逐步精度地缩小人体的朝向的范围，并最终得到较为精确的结果，而且计算量也不会太大。

在一个实施例中，肩垂直方向分类器可以包括通过如下方式获得的肩垂直方向分类器：以每个顶视图的XZ平面上的每个离散的矩形格作为高度模板，对每个高度模板中的各个点的最高的高度Y分量提取保留空间信息的特征，采集已知肩垂直方向的多个训练样本以训练得到肩垂直方向分类器。

在此，利用每个高度模板中的各个点的最高的高度Y分量可以获得例如人体的肩部以上的部位在空间上的轮廓，从而作为之后的肩垂直方向分类的特征。预先划分相对的N对方向，例如在N等于4的情况下、0度的一对方向、45度的一对方向、90度的一对方向、135度的一对方向。预先采集已知肩垂直方向(即落入这些预先划分的N对方向中的与肩垂直的相对的一对方向)的多个训练样本，并利用这些训练样本的上述特征和已知的肩垂直方向的标签来训练分类器，以得到该肩垂直方向分类器。

在此，在一个实施例中，该肩垂直方向分类方法可以包括无监督学习；有监督学习(例如随机森林、支持向量机(Support Vector Machine，SVM)和Adaboost等)；和半监督学习(例如Generative model,Low-densityseparation,Graph-based method,Heuristic approach)等。在一个优选实施例中，使用随机森林作为该肩垂直方向分类器。

当然，上述以每个顶视图的XZ平面上的每个离散的矩形格作为高度模板，对每个高度模板中的各个点的最高的高度Y分量提取保留空间信息的特征仅是示例而非限制，也可以使用其他特征，例如统计落入各个高度模板中的各个点的数量的空间分布作为特征、各个高度模板中的各个点的平均高度的空间分布作为特征等等。

在一个实施例中，所述脸部二元分类器可以包括通过如下方式获得的脸部二元分类器：在二维颜色图上的所述头部区域内提取保留空间信息的特征，采集已知脸部位置的训练样本以训练得到脸部二元分类器。

如此，利用头部区域的颜色信息的空间分布作为特征，可以采集已知脸部位置的训练样本来训练得到脸部二元分类器。这种特征例如是原始图像数据或者描述人脸的Haar-like特征等。当然，上述特征仅是示例而非限制，也可以使用其他特征，例如其它的保留空域位置的特征。

在一个实施例中，可以使用K最邻近结点算法(k-Nearest Neighbor，KNN)作为脸部二元分类器。其它二元分类方法包含但不限于Hausdorff距离测度。Hausdorff距离测度是计算点的集合到另一个点的集合之间的距离。同样类别的样本群，由于其样本的相似性，会使得点集间的距离小于不同类别的点集间的距离。该脸部二元分类器的输出可以是在之前初步得到的一对方向中与脸部所提取特征最接近的一个方向。

在一个实施例中，基于所述顶视图来进行人体运动轨迹跟踪的步骤203可以包括：通过如下方式从双目相机连续拍摄的一系列深度图中获得噪声滤波后的一系列高度图：以每个顶视图的XZ平面上的每个离散的矩形格作为高度模板，保留每个高度模板中的各个点的最高的高度Y分量以获得高度图；在各高度模板中，统计落入每个栅格bin中的点的数量，以获得遮挡图；将所述遮挡图作为掩模施加到所述高度图以进行噪声滤波处理；检测和跟踪所述噪声滤波后的一系列高度图中的高度模板，以获得该高度模板的运动轨迹。

当然，在此，获得遮挡图以及用该遮挡图对高度图进行噪声滤波仅是示例而非限制，这样可以获得更少噪声的高度图，以便用该高度图获得更准确的人体朝向识别结果。

该方法200还可以包括：通过计算所述噪声滤波后的一系列高度图中的高度模板之间的欧式距离，基于双目相机连续拍摄的帧速率来计算人体的运动速度；其中，如果从人体运动轨迹跟踪的结果得到人体的运动速度大于预定阈值，则将人体运动轨迹的方向作为人体朝向的步骤包括：如果计算的人体的运动速度大于预定阈值，根据该高度模板的运动轨迹，利用主成分分析方法获得人体在空间运动的主方向，作为人体朝向。

在此，如果双目相机连续拍摄一系列灰度(彩色)图以及其深度图，则可以根据上述方式得到一系列高度图，如此，可以根据具有最高高度的点(例如，人体的头顶)在世界坐标系中的运动轨迹来推算人体的运动轨迹。并根据双目相机的拍摄的帧率，得知这样的运动轨迹是在多少时间内出现的，由此可以推算人体的运动速度。然后根据人体的运动速度的大小，来决定是进行主成分分析方法来获得人体的空间运动的主方向作为人体朝向(运动速度较快)，还是利用肩垂直分类器和脸部二元分类器来推算与肩垂直的脸部的朝向作为人体朝向(运动速度较慢)。

在一个实施例中，将所述世界坐标系中的三维图进行XZ平面的顶视图投影，以获得顶视图202的步骤可以包括：将所述深度图变换到摄像机坐标系，并进一步变换为相对于所述双目相机的局部世界坐标系，来获得顶视图。

在一个实施例中，所述将所述三维图进行后向投影，以获得头部区域的二维信息的步骤207可以包括：将所述三维图进行后向投影，以获得二维的人体矩形框；根据人体的头部的长度与身高的比例、以及所述三维图中的最高点的高度、人体的头部的宽度与肩宽的比例、以及顶视图的宽度中的最高点的高度，从所述二维的人体矩形框(boundingbox)中提取头部区域以获得头部区域的二维信息。

在此，头部的长度与身高的比例、人体的头部的宽度与肩宽的比例等数据可以通过大量的样本进行归一化后统计得出，也可以根据经验值设定一个固定值。

当然从二维的人体矩形框中提取头部区域也可以采用其他方法，例如，仅根据头部长度与身高的比例、以及所述三维图中的最高点的高度，并根据头部通常就位于最高点(头顶)的下方的原理，来估计头部的区域(而不考虑头的真实宽度)。

如此，利用前景像素的从上向下投影的顶视图，能够跟踪该前景(例如人体)的运动轨迹，并且在运动速度较大时，采用运动轨迹的方向作为人体朝向，减少了计算量并加快人体朝向识别的效率，而在在运动速度较小时，解决了现有技术中对运动速度较小的人体朝向识别不准的问题，采用两个阶段的分类器，来在第一阶段中分类得到与肩垂直的一对方向，然后通过向后投影得到头部区域，来在第二阶段中分类以从与肩垂直的一对方向中选择与脸部朝向接近的一个方向，作为最终的人体朝向，如此，能够在运动速度较小的情况下准确地估计人体的朝向，获得较好的人体朝向识别效果。

图3主要示出了步骤206到步骤208的示意图。在进行前景识别以获得如图3的左上部分所示的前景像素，以在世界坐标系中对前景像素的深度图进行XYZ三维重构以获得三维图，且将所述世界坐标系中的三维图进行XZ平面的顶视图投影，以获得如图3的右上部分所示的顶视图之后，在步骤206中，如果从人体运动轨迹跟踪的结果得到人体的运动速度小于或等于预定阈值，则通过肩垂直方向分类器对所述顶视图进行分类，以获得在多对相对的方向中的一对方向作为肩垂直方向识别结果。当然，在此，该一对方向可以与人体的肩的方向相垂直，因为人在行走或运动时，通常其运动方向是与人体的肩的方向垂直的。在此，假设事先划分了N对相对的方向，例如在N等于4的情况下，0度的一对方向、45度的一对方向、90度的一对方向、135度的一对方向。在此，N越大，划分的方向的精度越大。预先采集已知肩垂直方向(即落入这些预先划分的N对方向中的与肩垂直的相对的一对方向)的多个训练样本，并利用这些训练样本的上述特征(例如对每个高度模板中的各个点的最高的高度Y分量提取保留空间信息的特征)和已知的肩垂直方向的标签来训练分类器，以得到该肩垂直方向分类器。因此，在输入了新的一个投影的顶视图之后，肩垂直方向分类器进行的分类结果是获得该N对相对的方向中的一对方向(例如一对方向+n和-n)作为与肩垂直的方向的初步识别结果，其中，N、n是正整数，n取1、2、……N。另外，注意，示例但并非必需的，在此可以施加时域平滑或者滤波以获得更平滑的n方向识别结果。该时域关联的假设是如果双目相机对图像采集的帧率足够高，人体的朝向变化规律将逼近某个连续函数而不存在跳变。时域平滑方法可以包括但不限于隐马尔可夫模型中的前向算法和前向后向算法。在步骤207中，将所述三维图进行后向投影(即向XY平面投影)以获得头部区域的二维信息。在步骤208中，利用脸部二元分类器对所述头部区域的二维信息进行分类，以在作为肩垂直方向识别结果的一对方向(例如，+n和-n)中选择与所述头部区域的脸部朝向对应的一个方向(例如+n)，作为人体朝向。该头部区域的二维信息可以包括颜色信息、和/或矩形框信息等。

脸部二元分类器可以基于与脸部相关的颜色特征和/或矩形框特征等来检测在该头部区域的二维信息中的脸部所在的位置，例如，左侧还是右侧。因此，当利用脸部二元分类器确定了脸部位于左侧时，则说明人可能是朝左的，因此在该相对立的一对方向中朝左的方向更有可能是当前的人体的朝向。再例如，如果向后投影后对头部区域的二维信息的分类结果是脸部位于右侧时，则说明人可能是朝右的，因此在该相对立的一对方向中朝右的方向更有可能是当前的人体的朝向。

图4示出了顶视图投影与人体检测和跟踪的原理示意图。

该顶视图投影包含：(1)坐标变换：将2D(即二维)前景像素结合其对应的深度值变换到摄像机坐标系(Camera Coordinate System,CCS)，并进一步变换这些3D点从摄像机坐标系到相对于那个双目相机的局部世界坐标系(World Coordinate System,WCS)。注意，这里的局部WCS可以在CCS正下方并且平放在地面上。与标准CCS相比，WCS拥有相同的X方向，相反的Y方向。CCS的Z轴的地面投影与WCS的Z轴重合，因此也称地面为XZ平面；(2)投影：将局部WCS中的3D点投影到离散的XZ平面上(称该离散的XZ平面为顶视图)。在顶视图的每个离散的矩形栅格(称为bin，在一个例子中，取为4cm*4cm的方格)中，保存落入这个bin的具有最高Y分量的3D点坐标(在局部WCS下)，以此生成一幅“高度图”，代表真实3D场景的高度分布。除此之外，也可以另外统计落入每个bin中的点数(即被遮挡后剩余的那些相机可视的点的数量)以产生一幅“遮挡图”，其利用深度平方进行的归一化形式能够表达被检测和跟踪的人体的可视面积。该高度图和该遮挡图都可以从之前的顶视图投影中得到，且可以用于如下人体的检测和跟踪。人体的检测和跟踪包括：在该例子中，人的检测和跟踪是在顶视图上进行的。在利用高度图进行人的检测和跟踪时，在高度图上的被检测和跟踪的区域称为高度模板，其大小可以预先设置(在该例子中，可以取20bin*20bin)或者依据情况来另外设定。在该例子中，人体的检测可以基于欧式距离以测度两个高度模板的距离，而人体的跟踪可以基于粒子滤波，即“遮挡图”可以作为掩模施加于“高度图”上进行滤波去除噪声。粒子滤波和除噪的过程以及检测和跟踪的过程，详见Michael Harville和Dalong Li的CVPR 2004论文：Fast,Integrated Person Tracking and Activity Recognition withPlan-View Templates from a Single Stereo Camera。在此不详述。

图5示出了基于轨迹或者定位的方向估计的示意图。

在该例子中，一个人的最高点(语义上对应这个人的头部顶点)能够在他的高度模板中搜索获得。因此进一步利用跟踪技术，能够获得最高点的轨迹，这代表这个人的轨迹或者位置。在获得了最高点的轨迹之后，通过例如连续帧的已知帧速率等，可以确定该运动轨迹的运动速度。如果该运动轨迹的运动速度大于预定速度阈值，则说明该人在较快速地运动，则人的运动轨迹自然表征了人的运动朝向，因此，利用一个简单的主成分分析(PCA)方法即可获得这个人在3D空间的时间关联位置的主方向，以作为这个人在该位置处的合理的方向估计。该利用主成分分析方法获得人的运动方向的技术是已知的，在此不详述。

在一个高度模板中的高度分布隐含了那个人的相对于局部WCS的朝向信息。因此，采用经典的特征提取加分类的范式。在特征提取中，一些技术包含但不限于中心重计算(re-centering)，高度归一化(归一化到该当前高度模板的最高高度)，滤波以及降维能够被施加在高度模板上。例如，将高度模板视为感兴趣区域，计算该区域的重心；找到该区域中的最高点，并且用它归一化其它高度；滤波可以使用前述的遮挡图；降维可以使用PCA等等。在分类时，分类方法包含但不限于无监督学***面将特征空间划分为不同的子空间：每一次***(splitting)将当前的空间一分为二或一分为多。最后，通过这一步获得了N方向的识别结果。经过实验发现，如果采用随机森林作为分类器，可以直接将高度模板的浮点型像素值进行逐行级联作为特征，而不需要采用降维处理或高度归一化，就可以获得良好的识别率。在图6中，分别示意显示四对方向(即N等于4)。每一对方向其实包含了相对立的两个方向，例如，1、-1、2、-2、3、-3、4、-4。如图6所示，可见这些对方向本身是与人体的肩垂直的。此时，利用肩垂直方向(N方向)分类方法得到了初步的相对立的两个方向。为了进一步确定人体的朝向到底是该相对立的两个方向中的哪一个，可以通过下述参考图7-8所述的脸部二元分类方法。

为了得到人体的矩形框(例如矩形矩形框)，将包括前景像素的三维图向后投影以获得二维图像上的矩形矩形框。其中，由于每个bin中的最高点的3D坐标被保存下来，能够通过对模板中所有bin的最高点比较获得一个高度模板中的最高点(语义上代表人的头顶)，如此，最高点也被后向投影。获取到的高度模板中的最高点能够通过坐标系变换被后向投影到2D图像上，见图7右下所示的人体的头顶。需要注意的是，如果在3D重构时2D图像坐标被保存下来，这种情况下高度模板的最高点的后向投影的步骤就可以省略，也就是说，只需要能够得到类似于向后投影而获得的最高点投影即可。然后，确定人体的人体矩形框。具体地，由于高度模板的最高点的Y分量(语义上对应这个人的高度)被保存下来，2D图像上这个人的高度容易通过透视投影的原理计算出(相似三角形的计算)。同样，因为高度模板的宽度本身也已知，因此也能够计算出2D图像上矩形框的宽度。最终，利用高度模板的最高点2D坐标、矩形框的高度和宽度这三个要素能够在2D图像上唯一确定一个矩形框，作为人体矩形框。

图8示出了对该人体矩形框进行脸部二元分类的示意图。

图8包含了如下步骤：

(1)头部区域(或备选区域)的检测和估计：在2D图像的矩形框内，头部图像信息隐含地表征了上述对立的两个方向的其中一个(尽管这两个对立的方向属于同一个肩垂直方向识别结果，如图6所示)。因此，可以根据某些预先定义的方式在图7所示的人体矩形框中检测头部区域或者估计若干头部备选区域。例如，根据人体的头部的长度与身高的比例、以及所述三维图中的最高点的高度、人体的头部的宽度与肩宽的比例、以及顶视图的宽度中的最高点的高度，从所述二维的人体矩形框中提取头部区域以获得头部区域的二维信息。

(2)可选的尺度归一化和特征提取：由于2D图像上的不同头部区域具有尺度上的差异，因此可以可选地归一化这些不同的头部区域到相同的大小。特征提取应该保留头部图像的空域信息。比如在该例子中，采用原始图像数据(Raw feature)、或者Haar-like特征。这里，一个实验证实的可行方案是：将头部区域中的彩色(例如色调饱和度亮度(Hue,Saturation,Value，HSV)颜色空间中的色调(Hue)通道)图像的像素值逐行级联，作为头部区域的特征。如图8的右侧的每个小圆点即为一个特征。应该注意，可以将尺度归一化和特征提取合并为一步。

(3)脸部二元分类：一旦头部区域被检测或者估计，使用离线的学习方法能够判定脸部二元分类结果。即判定这样的头部区域是属于对立的两个方向的哪一个。在该例子中，可以使用K最邻近结点算法(k-Nearest Neighbor，KNN)作为脸部二元分类器。其它二元分类方法包含但不限于Hausdorff距离测度。Hausdorff距离测度是计算点的集合到另一个点的集合之间的距离。同样类别的样本群，由于其样本的相似性，会使得点集间的距离小于不同类别的点集间的距离。

如图8的右侧所示，带有“+”和“-”符号的大圆圈框起来的每个小圆点都是在训练脸部二元分类器阶段时、其肩垂直方向处于图8所示的“+”和“-”的一对方向中的大量训练样本的如上所述提取的特征所在的位置。而中间的小圆圈框起来的每个小圆点都是当前输入的要识别朝向的头部区域的如上所述提取的特征。利用例如KNN算法或Hausdorff距离测度来判断该小圆圈中的各个点与“+”的大圆圈中的各个点更近、还是与“-”的大圆圈中的各个点更近。如图8所示，可见小圆圈中的各个点与“+”的大圆圈中的各个点更近，因此，该头部区域的脸部二元分类结果是朝图中所示的“+”的方向。最终，输出了对立的两个方向的哪一个方向作为识别结果。

在此，注意，在训练脸部二元分类器时，可以将针对预先划分的肩垂直方向的各对方向，分别训练适用于每对方向的二元分类器，并在肩垂直分类器得出初步的一对方向的分类结果之后，选择适用于该对方向的二元分类器来进行最终的朝向识别。例如，针对如图6所示的“+1”和“-1”方向，采集已知脸部朝向为“+1”或“-1”方向的大量训练样本，通过原始图像数据(Raw feature)、或者Haar-like特征、或色调(Hue)像素级联的特征，来训练得到针对该对方向“+1”和“-1”的二元分类器。如此，在用肩垂直方向分类器得出“+1”和“-1”的一对方向作为初步朝向结果之后，利用针对该对方向“+1”和“-1”的二元分类器，在输入新的头部区域的保留空间信息的颜色信息之后，输出分类到该对方向“+1”和“-1”中的哪一个的最终分类结果，作为最终的人体朝向识别结果。

当然，上述针对每对方向分别训练二元分类器的方式仅是示例，而非限制。

根据本发明的各个实施例，能够识别人体朝向并获得由竞争力的净度。在第一阶段，输出N对方向中的一对方向作为初步识别结果，在第二阶段中，输出基于第一阶段的进一步的二元分类结果。总体上看，能识别2*N个朝向。

以下表1示出了示例的在没有时域平滑机制来提高性能的情况下，对顶视图的检测区域施加本发明的一个实施例的分别对于N＝4和N＝8的识别精度。

表1在没有时域平滑机制来提高性能的情况下，对顶视图的检测区域施加本发明的一个实施例的分别对于N＝4和N＝8的识别精度

注意，在上述例子中，对于随机森林，最大深度被设置为50，最小样本容量为3，随机数有150株。对于支持向量机(Support Vector Machine，SVM)，参数通过网格搜索进行优化。在此，网格搜索是SVM参数优化的通用方法，对此不详述。从上表可见，利用随机森林来作为多类别分类器用于肩垂直方向分类器，可以比仅使用SVM来作为该分类器能够实现更高的识别精度和准确度。

当然，上述随机森林和SVM的情况下的两种识别精度也已经远超过现有技术中不使用根据本发明的各个实施例的识别方法的识别精度了。上表仅是示例地示出利用随机森林作为分类器能够实现更高的识别精度，而并非限制本发明仅能够使用随机森林作为分类器。

以下表2示出了根据本发明的实施例的利用KNN算法进行的当N＝4时的二元分类净度。每个朝向数字(例如+1)代表了一个朝向，如图6所示。

表2当N＝4时利用KNN获得的二元分类净度。

朝向

K＝1

K＝7

K＝15

K＝30

K＝60

K90

K＝190

+1

100％

-1

97.8％

88.9％

82.2％

77.8％

75.6％

71.1％

53.3％

+2

100％

95.6％

-2

66.7％

55.5％

51.1％

22.2％

35.6％

48.9％

+3

80.0％

84.4％

93.3％

100％

-3

88.9％

75.6％

60％

55.6％

23.7％

2.2％

0.％

+4

100％

-4

100％

95.6％

97.8％

95.6％

由此可见，利用本发明的各个实施例的人体朝向识别的方法，在人体运动速度较小时的人体朝向识别精度得到显著提高。

图9是示出了根据本发明的另一个实施例的基于双目相机的人体朝向识别***900的示例方框图。

该***900包括：接收单元901，被配置为接收双目相机拍摄的灰度图或彩色图以及深度图；顶视图获得单元902，被配置为进行前景识别以获得前景像素，以在世界坐标系中对前景像素的深度图进行XYZ三维重构以获得三维图，其中，X表示宽度，Y表示高度，Z表示深度，且将所述世界坐标系中的三维图进行XZ平面的顶视图投影，以获得顶视图；人体运动轨迹跟踪单元903，被配置为基于所述顶视图来进行人体运动轨迹跟踪；确定单元904，被配置为确定从人体运动轨迹跟踪的结果得到人体的运动速度是否大于预定阈值；人体朝向识别单元905，被配置为：如果从人体运动轨迹跟踪的结果得到人体的运动速度大于预定阈值，则将人体运动轨迹的方向作为人体朝向；如果从人体运动轨迹跟踪的结果得到人体的运动速度小于或等于预定阈值，则通过肩垂直方向分类器对所述顶视图进行分类，以获得在多对相对的方向中的一对方向作为肩垂直方向识别结果；将所述三维图进行后向投影，以获得头部区域的二维信息；利用脸部二元分类器对所述头部区域的二维信息进行分类，以在作为肩垂直方向识别结果的一对方向中选择与所述头部区域的脸部朝向对应的一个方向，作为人体朝向。

上述单元901-905都可以与例如CPU、RAM通信以获得必要的数据和运算，并将最终的人体朝向的识别结果输出到例如显示器上以显示给用户。

在此，利用每个高度模板中的各个点的最高的高度Y分量可以获得例如人体的肩部以上的部位在空间上的矩形框，从而作为之后的肩垂直方向分类的特征。预先采集已知肩垂直方向(即与肩垂直的两个相对的方向)的多个训练样本，并利用这些训练样本的上述特征和已知的肩垂直方向的标签来训练分类器，以得到该肩垂直方向分类器。

在此，在一个实施例中，该肩垂直方向分类方法可以包括无监督学习；有监督学习(例如随机森林、支持向量机(Support Vector Machine，SVM)和Adaboost等)；和半监督学习等。在一个优选实施例中，使用随机森林作为该肩垂直方向分类器。

如此，利用头部区域的颜色信息的空间分布作为特征，可以采集已知脸部位置的训练样本来训练得到脸部二元分类器。这种特征例如是原始图像数据或者描述人脸的Haar-like特征、将头部区域中的彩色(例如色调饱和度亮度(Hue,Saturation,Value，HSV)颜色空间中的色调(Hue)通道)图像的像素值逐行级联、作为头部区域的特征等。当然，上述特征仅是示例而非限制，也可以使用其他特征，例如仅人脸的颜色等。

在一个实施例中，可以使用K最邻近结点算法(k-Nearest Neighbor，KNN)作为脸部二元分类器。其它二元分类方法包含但不限于Hausdorff距离测度。该脸部二元分类器的输出可以是在之前初步得到的一对方向中与脸部的位置最接近的一个方向。

在一个实施例中，人体运动轨迹跟踪单元903可以被配置为：通过如下方式从双目相机连续拍摄的一系列深度图中获得噪声滤波后的一系列高度图：以每个顶视图的XZ平面上的每个离散的矩形格作为高度模板，保留每个高度模板中的各个点的最高的高度Y分量以获得高度图；在各高度模板中，统计落入每个栅格bin中的点的数量，以获得遮挡图；将所述遮挡图作为掩模施加到所述高度图以进行噪声滤波处理；检测和跟踪所述噪声滤波后的一系列高度图中的高度模板，以获得该高度模板的运动轨迹。

该***900还可以包括被配置为进行如下的装置：通过计算所述噪声滤波后的一系列高度图中的高度模板之间的欧式距离，基于双目相机连续拍摄的帧速率来计算人体的运动速度；其中，如果从人体运动轨迹跟踪的结果得到人体的运动速度大于预定阈值，则将人体运动轨迹的方向作为人体朝向的步骤包括：如果计算的人体的运动速度大于预定阈值，根据该高度模板的运动轨迹，利用主成分分析方法获得人体在空间运动的主方向，作为人体朝向。

在一个实施例中，顶视图获得单元902可以被配置为：将所述深度图变换到摄像机坐标系，并进一步变换为相对于所述双目相机的局部世界坐标系，来获得顶视图。

在一个实施例中，人体朝向识别单元905可以被配置为：将所述三维图进行后向投影，以获得二维的人体矩形框；根据人体的头部的长度与身高的比例、以及所述三维图中的最高点的高度、人体的头部的宽度与肩宽的比例、以及顶视图的宽度中的最高点的高度，从所述二维的人体矩形框中提取头部区域以获得头部区域的二维信息。

当然，上述的具体实施例仅是例子而非限制，且本领域技术人员可以根据本发明的构思从上述分开描述的各个实施例中合并和组合一些步骤和装置来实现本发明的效果，这种合并和组合而成的实施例也被包括在本发明中，在此不一一描述这种合并和组合。

注意，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本公开中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤。如本领域技术人员将认识到的，可以按任意顺序进行以上实施例中的步骤的顺序。诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。此外，例如使用冠词“一个”、“一”或者“该”对于单数的要素的任何引用不被解释为将该要素限制为单数。

另外，本文中的各个实施例中的步骤和装置并非仅限定于某个实施例中实行，事实上，可以根据本发明的概念来结合本文中的各个实施例中相关的部分步骤和部分装置以构思新的实施例，而这些新的实施例也包括在本发明的范围内。

以上所述的方法的各个操作可以通过能够进行相应的功能的任何适当的手段而进行。该手段可以包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路(ASIC)或处理器。

可以利用被设计用于进行在此所述的功能的通用处理器、数字信号处理器(DSP)、ASIC、场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合而实现或进行所述的各个例示的逻辑块、模块和电路。通用处理器可以是微处理器，但是作为替换，该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合，例如DSP和微处理器的组合，多个微处理器、与DSP核协作的一个或多个微处理器或任何其他这样的配置。

结合本公开描述的方法或算法的步骤可以直接嵌入在硬件中、处理器执行的软件模块中或者这两种的组合中。软件模块可以存在于任何形式的有形存储介质中。可以使用的存储介质的一些例子包括随机存取存储器(RAM)、只读存储器(ROM)、快闪存储器、EPROM存储器、EEPROM存储器、寄存器、硬碟、可移动碟、CD-ROM等。存储介质可以耦接到处理器以便该处理器可以从该存储介质读取信息以及向该存储介质写信息。在替换方式中，存储介质可以与处理器是整体的。软件模块可以是单个指令或者许多指令，并且可以分布在几个不同的代码段上、不同的程序之间以及跨过多个存储介质。

在此公开的方法包括用于实现所述的方法的一个或多个动作。方法和/或动作可以彼此互换而不脱离权利要求的范围。换句话说，除非指定了动作的具体顺序，否则可以修改具体动作的顺序和/或使用而不脱离权利要求的范围。

所述的功能可以按硬件、软件、固件或其任意组合而实现。如果以软件实现，功能可以作为一个或多个指令存储在切实的计算机可读介质上。存储介质可以是可以由计算机访问的任何可用的切实介质。通过例子而不是限制，这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光碟存储、磁碟存储或其他磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其他切实介质。如在此使用的，碟(disk)和盘(disc)包括紧凑盘(CD)、激光盘、光盘、数字通用盘(DVD)、软碟和蓝光盘，其中碟通常磁地再现数据，而盘利用激光光学地再现数据。

因此，计算机程序产品可以进行在此给出的操作。例如，这样的计算机程序产品可以是具有有形存储(和/或编码)在其上的指令的计算机可读的有形介质，该指令可由一个或多个处理器执行以进行在此所述的操作。计算机程序产品可以包括包装的材料。

软件或指令也可以通过传输介质而传输。例如，可以使用诸如同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或诸如红外、无线电或微波的无线技术的传输介质从网站、服务器或者其他远程源传输软件。

此外，用于进行在此所述的方法和技术的模块和/或其他适当的手段可以在适当时由用户终端和/或基站下载和/或其他方式获得。例如，这样的设备可以耦接到服务器以促进用于进行在此所述的方法的手段的传送。或者，在此所述的各种方法可以经由存储部件(例如RAM、ROM、诸如CD或软碟等的物理存储介质)提供，以便用户终端和/或基站可以在耦接到该设备或者向该设备提供存储部件时获得各种方法。此外，可以利用用于将在此所述的方法和技术提供给设备的任何其他适当的技术。

其他例子和实现方式在本公开和所附权利要求的范围和精神内。例如，由于软件的本质，以上所述的功能可以使用由处理器、硬件、固件、硬连线或这些的任意的组合执行的软件实现。实现功能的特征也可以物理地位于各个位置，包括被分发以便功能的部分在不同的物理位置处实现。而且，如在此使用的，包括在权利要求中使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已讨论了多个示例方面和实施例，但本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于双目相机的人体朝向识别方法，包括：

接收双目相机拍摄的灰度图或彩色图以及深度图；

进行前景识别以获得前景像素，以在世界坐标系中对前景像素的深度图进行XYZ三维重构以获得三维图，其中，X表示宽度，Y表示高度，Z表示深度，且将所述世界坐标系中的三维图进行XZ平面的顶视图投影，以获得顶视图；

基于所述顶视图来进行人体运动轨迹跟踪；

确定从人体运动轨迹跟踪的结果得到人体的运动速度是否大于预定阈值；

如果从人体运动轨迹跟踪的结果得到人体的运动速度大于预定阈值，则将人体运动轨迹的方向作为人体朝向；

如果从人体运动轨迹跟踪的结果得到人体的运动速度小于或等于预定阈值，则通过肩垂直方向分类器对所述顶视图进行分类，以获得在多对相对的方向中的一对方向作为肩垂直方向识别结果；

将所述三维图进行后向投影，以获得头部区域的二维信息；

利用脸部二元分类器对所述头部区域的二维信息进行分类，以在作为肩垂直方向识别结果的一对方向中选择与所述头部区域的脸部朝向对应的一个方向，作为人体朝向。

2.根据权利要求1所述的方法，其中，所述肩垂直方向分类器包括通过如下方式获得的肩垂直方向分类器：

以每个顶视图的XZ平面上的每个离散的矩形格作为高度模板，对每个高度模板中的各个点的最高的高度Y分量提取保留空间信息的特征，

采集已知肩垂直方向的多个训练样本以训练得到肩垂直方向分类器。

3.根据权利要求1所述的方法，其中，所述脸部二元分类器包括通过如下方式获得的脸部二元分类器：

在二维颜色图上的所述头部区域内提取保留空间信息的特征，

采集已知脸部位置的训练样本以训练得到脸部二元分类器。

4.根据权利要求1所述的方法，其中，基于所述顶视图来进行人体运动轨迹跟踪的步骤包括：

通过如下方式从双目相机连续拍摄的一系列深度图中获得噪声滤波后的一系列高度图：

以每个顶视图的XZ平面上的每个离散的矩形格作为高度模板，保留每个高度模板中的各个点的最高的高度Y分量以获得高度图；

在各高度模板中，统计落入每个栅格bin中的点的数量，以获得遮挡图；

将所述遮挡图作为掩模施加到所述高度图以进行噪声滤波处理；

检测和跟踪所述噪声滤波后的一系列高度图中的高度模板，以获得该高度模板的运动轨迹。

5.根据权利要求4所述的方法，还包括：

通过计算所述噪声滤波后的一系列高度图中的高度模板之间的欧式距离，基于双目相机连续拍摄的帧速率来计算人体的运动速度；

其中，如果从人体运动轨迹跟踪的结果得到人体的运动速度大于预定阈值，则将人体运动轨迹的方向作为人体朝向的步骤包括：如果计算的人体的运动速度大于预定阈值，根据该高度模板的运动轨迹，利用主成分分析方法获得人体在空间运动的主方向，作为人体朝向。

6.根据权利要求1所述的方法，其中，所述将所述世界坐标系中的三维图进行XZ平面的顶视图投影，以获得顶视图的步骤包括：

将所述深度图变换到摄像机坐标系，并进一步变换为相对于所述双目相机的局部世界坐标系，来获得顶视图。

7.根据权利要求1所述的方法，其中，所述将所述三维图进行后向投影，以获得头部区域的二维信息的步骤包括：

将所述三维图进行后向投影，以获得二维的人体矩形框；

根据人体的头部的长度与身高的比例、以及所述三维图中的最高点的高度、人体的头部的宽度与肩宽的比例、以及顶视图的宽度中的最高点的高度，从所述二维的人体矩形框中提取头部区域以获得头部区域的二维信息。

8.根据权利要求2所述的方法，其中，该肩垂直方向分类方法包括如下中的一种：

无监督学习；

有监督学习；

半监督学习。

9.根据权利要求3所述的方法，该二元分类方法包括如下中的一种：

K最邻近结点算法；

Hausdorff距离测度。

10.一种基于双目相机的人体朝向识别***，包括：

接收单元，被配置为接收双目相机拍摄的灰度图或彩色图以及深度图；

顶视图获得单元，被配置为进行前景识别以获得前景像素，以在世界坐标系中对前景像素的深度图进行XYZ三维重构以获得三维图，其中，X表示宽度，Y表示高度，Z表示深度，且将所述世界坐标系中的三维图进行XZ平面的顶视图投影，以获得顶视图；

人体运动轨迹跟踪单元，被配置为基于所述顶视图来进行人体运动轨迹跟踪；

确定单元，被配置为确定从人体运动轨迹跟踪的结果得到人体的运动速度是否大于预定阈值；

人体朝向识别单元，被配置为：

将所述三维图进行后向投影，以获得头部区域的二维信息；