CN111144207A

CN111144207A - 一种基于多模态信息感知的人体检测和跟踪方法

Info

Publication number: CN111144207A
Application number: CN201911146615.4A
Authority: CN
Inventors: 周波; 黄文超; 甘亚辉; 房芳; 钱堃
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-05-12
Anticipated expiration: 2039-11-21
Also published as: CN111144207B

Abstract

本发明公开了一种基于多模态信息感知的人体检测和跟踪方法，包括：彩色相机和深度相机标定与数据滤波处理；基于多模态信息感知的人体检测，分别在彩色图像和深度图像中检测人的身体和头部，依据头部和身体的空间比例信息融合两个检测结果；基于多模态信息感知的人体跟踪，使用核化相关滤波跟踪算法分别在彩色图像和深度图像中跟踪身体和头部，并建立跟踪对象的模型；利用跟踪对象模型和头身比的空间约束完善跟踪机制。本发明方法基于多模态信息感知，克服了仅基于视觉的目标检测和跟踪方法的缺陷，在室内服务机器人领域具有广泛的应用，有益于人机交互作业和用户跟随等功能。

Description

一种基于多模态信息感知的人体检测和跟踪方法

技术领域

本发明属于室内服务机器人应用领域，具体来说，涉及一种基于多模态信息感知的人体检测和跟踪方法，特别是非结构化室内环境，光照变化场景下的长时间的鲁棒检测和跟踪方法。

背景技术

随着计算机视觉技术的发展成熟和人工智能的兴起，智能服务机器人的应用范围越来越广泛，尤其是室内的移动服务机器人。在室内环境下，机器人需要能够感知复杂的非结构化的场景，并且与人进行交互，仅仅使用视觉信息不足以应对动态的环境光照条件变化。RGB-D相机作为一种新型的视觉传感器，能够同时提供高分辨率的彩色和深度图像，是一种非常出色的人机交互工具。需要提出有效的方法来充分利用多模态的信息来进行检测与跟踪。

目标检测和跟踪的方法多采用相机和激光的解决方案。其中二维激光能够直接获取环境的几何信息，精度高，处理快。但是其能够利用的信息量较少，只能提取简单的形状特征，容易与环境中相似的物体混淆。利用相机进行检测和跟踪的方法又可分为基于手工特征的方法和基于深度学***台上无法实时运行。

总的来说，上述常用的目标检测与跟踪方法存在以下问题：1)算法的性能和实时性之间很难达到一个令人满意的平衡；2)仅仅只从颜色或者深度单个信息源进行检测与跟踪，无法实现复杂环境下的检测与跟踪；3)上述方法缺少对算法短时间失效情况下的分析和处理，容易丢失跟踪，鲁棒性较差。

发明内容

发明目的：为了克服现有技术的不足，提供了一种基于多模态信息感知的人体检测和跟踪方法，以解决复杂环境下的实时、鲁棒的人体检测与跟踪的问题。

技术方案：为实现上述发明目的，本发明采用以下技术方案：

一种基于多模态信息感知的人体检测和跟踪方法，：该方法包括以下步骤：

(1)彩色相机与深度相机标定与数据滤波处理，通过标定将彩色图像和深度图像对齐，然后分别进行滤波处理；

(2)基于多模态信息感知的人体检测：在彩色图像中检测身体，在深度图像中检测头部，再根据空间比例信息进行融合；

(3)基于多模态信息感知的人体跟踪：使用核化相关滤波目标跟踪算法分别在彩色图像和深度图像中进行身体和头部的跟踪，并且建立跟踪对象模型以检验跟踪结果；

(4)利用跟踪对象模型和头身比的空间约束完善跟踪机制，在跟踪过程中若单个***失效，根据头部和身体的空间位置约束来维持跟踪的稳定。

进一步的，步骤(1)包括以下步骤：

(11)分别使用彩色相机和深度相机拍摄多张不同角度、不同距离的棋盘格图片，确保图像的每个位置都能够被覆盖；

(12)检测并匹配不同图像中的角点，并根据匹配上的角点对计算彩色相机内外参矩阵，彩色相机内参矩阵为：

其中，fx，fy为焦距，x0，y0为相对于成像平面的主点坐标，s为坐标轴倾斜参数；

彩色相机外参矩阵为：

其中，R为3×3的旋转矩阵，t为3×1的平移向量，二者均相对于世界坐标系；

(13)将深度值映射到彩色图像上；

设P为一空间点的位置，p_rgb和p_ir为其在彩色图像和深度图像中的坐标，K_rgb和K_ir分别为彩色相机和深度相机的内参矩阵，R_ir和t_ir为深度相机以彩色相机为参考系的外参，则由下式将P点的深度值映射到其位于彩色图像的坐标中；

p_rgb＝K_rgbR_irK_ir ^-1p_ir+t_ir；

(14)将配准好的彩色图像和深度图像同时缩，在彩色图像中使用高斯滤波去除高频噪声，在深度图像中使用中值滤波去除深度缺失点。

进一步的，步骤(2)包括以下步骤：

(21)在彩色图像中以滑动窗口扫描图像，提取窗口内的HOG特征，再以训练好的SVM分类器判断该窗口内是否包含人的身体，得到彩色图像中所有可能包含人的身体的窗口；

(22)在深度图像中使用滑动窗口，提取窗口内的Haar特征，使用Adaboost分类器分类该窗口是否为人的头部，获得深度图像中所有可能包含人的头部的窗口；

(23)根据空间比例信息的融合检测，根据人的头身比融合步骤(21)和步骤(22)两种检测结果，得到融合多模态信息的检测结果。

更进一步的，步骤(21)包括以下步骤：

(211)多尺度滑动窗口扫描彩色图像，首先按照预设的比例放大、缩小原始彩色图像，得到多个尺度的彩色图像；随后以固定大小的滑动窗口在每张彩色图像上滑动，检查窗口内是否包含人体；

(212)提取窗口内的HOG特征，HOG特征的提取步骤如下：

(2121)灰度化和灰度归一化；

首先将整个彩色图像灰度化，然后进行归一化；

(2122)计算彩色图像中每个像素的梯度；

其中彩色图像在(x，y)处的x、y方向梯度G_x，G_y分别为：

G_x(x,y)＝I(x+1,y)-I(x-1,y)；

G_y(x,y)＝I(x,y+1)-I(x,y-1)；

则该处梯度的幅值为

方向为

(2123)以8×8大小划分像素的胞格，统计一个胞格内所有像素的梯度信息，结果用梯度方向的直方图表示；

(2124)以16×16大小划分区块，在区块内对梯度直方图进行对比度归一化；

(2125)设置64×128大小的检测窗口，在检测窗口内生成特征向量，把位于检测窗口内的每个区块的特征向量组合，就得到该检测窗口的特征向量，用于后续的分类；

将原始彩色图像缩放形成彩色图像金字塔，然后将检测窗口在当前尺度的彩色图像上滑动，在每个位置使用训练好的SVM分类器进行分类，判断该位置是否存在人的身体；最后得出的结果再进行非极大值抑制算法以消除同一目标的多重检测窗口。

更进一步的，步骤(22)包括以下步骤：

(221)多尺度滑动窗口扫描深度图像，首先按照预设的比例放大、缩小原始深度图像，得到多个尺度的深度图像；随后以固定大小的滑动窗口在每张深度图像上滑动，检查窗口内是否包含人头；

(222)提取窗口内的Haar特征；

Haar特征是简单的矩形块特征，分为边缘特征、线性特征、对角线特征三类，每个矩形区域的特征值为白色区域里的像素和减去黑色区域里的像素和；

(223)Adaboost分类，使用AdaBoost算法训练分类器；

AdaBoost算法是通过足够的数据来提升弱学习器的方式从而生成高精度的强学习器；一个弱分类器h_j(x)如式：

其中，f_j为特征，θ_j为阈值，p_j的作用是控制不等式的方向，x是24×24的图像子窗口；进行N次训练，共训练出N个弱分类器，对于第n次训练，对其加上归一化权重，权重为概率分布；对每一个特征j训练一个分类器h_j，h_j只使用单一特征，选择具有最低误差的那一个分类器h_n，再更新权重，最终得到一个强分类器；

对上述步骤(222)得到的检测窗口内的Haar特征向量使用Adaboost分类器进行分类，给出该检测窗口内存在人头部的可能性得分；

(224)深度图像中人头部检测结果，综合每个检测窗口的分类结果，根据每个窗口的可能性得分进行非极大值抑制，得到深度图像中人头部检测结果。

更进一步的，步骤(23)包括以下步骤：

(231)获取头身检测结果，从步骤(21)中获取彩色图像中的身体框，从步骤(22)中获取深度图像中的头部框，接着遍历身体框的集合，对每个身体框执行下述操作；

(232)判断该身体框中是否存在头部框，如果不存在，则删除该身体框，返回步骤(231)；如果存在，则执行步骤(233)；

(233)判断该身体框内的头部框个数是否为1，如果是，则关联该身体框和头部框，形成一个多模态联合的人体检测；如果该身体框内的头部框个数超过一个，则根据头部框的位置及各自的置信度选择出一个最优的头部框，然后把这个最优头部框与当前身体框关联。

进一步的，步骤(3)包括以下步骤：

(31)建立跟踪对象在彩色图像和深度图像中的模型；

在彩色图中，该模型为颜色直方图，在深度图中，该模型为深度模版图片；提取颜色直方图的步骤如下：首先将RGB颜色转化到HSV颜色空间，其中H为色调，S为饱和度，V为亮度，随后根据下式提取H通道，并统计窗口内H值的分布形成颜色直方图；提取深度模版图片的方法为截取跟踪开始前的头部包围框并缩放到标准尺寸，作为深度图像中头部跟踪的模版图片；

R′＝R/255，G′＝G/255，B′＝B/255

C_max＝max(R′,G′,B′)，C_min＝min(R′,G′,B′)

Δ＝C_max-C_min

(32)使用KCF核化相关滤波算法同时在彩色图中跟踪身体，在深度图中跟踪头部；其方法为：使用循环矩阵提取跟踪对象周围的像素值作为训练样本，以岭回归训练一个判别函数，再使用核变换将样本变换到核空间以解决样本线性不可分的问题；

(33)在跟踪过程中匹配和更新对象模型；匹配方法为计算跟踪对象和初始模型的归一化相关系数，该系数的计算式为：

其中，d为颜色直方图H₁和H₂的归一化相关系数，R为深度模版图片T和I的归一化相关系数；这两个数的取值范围在[0,1]之间，越大表示匹配程度越高，0表示最坏的匹配效果；如果匹配值大于0.9，也即算法对跟踪结果的置信度较高，则进行模型的加权更新；初始模型的权重为1-w，跟踪对象当前的模型权重为w，其中w＝0.5×d或w＝0.5×R。

进一步的，步骤(4)包括以下步骤：

(41)在跟踪的过程中根据步骤(3)中提出的归一化相关系数大小进行跟踪有效性的判断；首先判断头部跟踪是否有效，也即深度模版图片T和I的归一化相关系数R值是否大于0.5，如果是则转入步骤(42)，否则转入步骤(43)；

(42)判断身体跟踪是否有效，也即颜色直方图H₁和H₂的归一化相关系数d值是否大于0.5，如果是则说明当前彩色图像中的身体跟踪和深度图像中的头部跟踪结果都有效，继续正常的跟踪过程，否则转入步骤(44)；

(43)判断身体跟踪是否有效，也即颜色直方图H₁和H₂的归一化相关系数d值是否大于0.5，如果是则说明此时深度图像中的头部跟踪失效，而彩色图像中的身体跟踪仍然有效，根据头部和身体的空间位置约束推测由身体的位置推测头部的位置，并且持续进行头部模型的匹配，一旦匹配有效则恢复头部的跟踪；否则转入步骤(45)；

(44)这种情况为深度图像中的头部跟踪有效，而彩色图像中的身体跟踪失效，需要根据头部和身体的空间位置约束由头部的位置推测出大概的身***置，并且持续进行身体颜色直方图的匹配，一旦匹配有效则恢复身体的跟踪；

(45)此时头部的跟踪和身体的跟踪均以失效，说明跟踪对象已经由于遮挡或者快速运动不存在于彩色图像和深度图像中，这种情况下跟踪算法停止，需要向用户发出警告，以做出合适的响应。

有益效果：与现有技术相比，本发明基于RGB-D相机获取的多模态信息，有效解决了复杂环境中人体的实时、鲁棒检测与跟踪问题。采用多模态的信息进行人体的检测和跟踪，相比于单独使用颜色信息或深度信息提高了算法对不同环境光照条件的适应性；利用空间比例信息融合彩色和深度图像的检测结果，提高查全率的同时降低了误检率，提高了算法准确性；结合在彩色图像和深度图像上的跟踪结果，综合利用跟踪对象的模型特征信息，可以在跟踪过程中对结果进行验证和恢复，使得整体算法有较高的鲁棒性。此方法简单高效，可满足室内服务机器人的人机交互作业和用户跟随等功能，具有广泛的应用范围和良好的经济效益。

附图说明

图1为算法总体流程图；

图2为本发明步骤(2)中彩色图像人身检测的流程图；

图3为本发明步骤(2)中深度图像人头检测的流程图；

图4为本发明步骤(2)中根据头身比的融合检测的流程图；

图5为本发明步骤(3)的流程图；

图6为本发明步骤(4)的流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明做进一步说明。

图1为本发明所提出的基于多模态信息感知的人体检测和跟踪方法的总体流程图，具体的该实施步骤如下：

(1)彩色相机与深度相机标定与数据滤波处理；

首先采用RGB-D相机(包含彩色相机与深度相机，彩色相机用于获取彩色图像，彩色图像包含R、G、B三种颜色的值；深度相机用于获取深度图像，深度图像包含距离(D)值)来获取周围环境的颜色和深度数据；其次根据RGB-D相机中的彩色相机和深度相机之间存在一定的位置偏移，通过相机标定获得彩色相机与深度相机的内外参矩阵，使每个点的深度值与颜色值一一对应；最后对彩色图像和深度图像分别进行滤波处理，以去除亮点和噪声。

深度相机测量深度的原理为通过一个红外散斑发射器发射红外光束，光束碰到障碍物后反射回深度摄像头，然后通过返回散斑之间的几何关系计算距离。深度相机实际上就是一个装了滤波片的普通摄像头，只对红外光成像，因此要对其标定，只需用红外光源照射物体即可。彩色相机的标定采用的是棋盘格法，用待标定的相机拍摄多幅不同视角下的棋盘图片，利用角点检测匹配不同图片，即可通过方程求解相机内外参矩阵。彩色相机的标定具体步骤包括：

(11)使用三脚架固定住RGB-D相机，然后使用彩色相机在多个角度、距离拍摄棋盘格图片，确保图像的每个位置都能够被覆盖。

(12)检测并匹配不同图像中的角点，并根据匹配上的角点对计算相机内外参矩阵，内参矩阵如式(1)所示，其中fx，fy分别为x轴和y轴的焦距，(x0，y0)为相对于成像平面的主点坐标，s为坐标轴倾斜参数，理想情况下为0；外参矩阵如式(2)所示，其中R为3×3的旋转矩阵，t为3×1的平移向量，二者均相对于世界坐标系；

(13)将深度图像中的深度值映射到彩色图像上。设P为一空间点的位置，p_rgb和p_ir分别为其在彩色图像和深度图像中的坐标，K_rgb和K_ir分别为彩色相机和深度相机的内参矩阵，R_ir和t_ir为深度相机以彩色相机为参考系的外参，则可由式(3)将P点的深度值映射到其位于彩色图像的坐标中；

p_rgd＝K_rgdR_irK_ir ^-1p_ir+t_ir (3)；

(14)将配准好的彩色图像和深度图像同时缩放到480×270的大小，在彩色图像中使用高斯滤波去除高频噪声，在深度图像中使用中值滤波去除深度缺失点。

(2)基于多模态信息感知的人体检测：首先在彩色图像中以滑动窗口扫描图像，提取窗口内的HOG(Histogram of Oriented Gridients，梯度方向直方图)特征，再以训练好的SVM(Support Vector Machine，支持向量机)分类器判断该窗口内是否包含人的身体，可以得到彩色图像中所有可能包含人的身体的窗口；其次，同样在深度图像中使用滑动窗口，提取窗口内的Haar(哈尔)特征，使用Adaboost分类器分类该窗口是否为人的头部，于是获得了深度图像中所有可能包含人的头部的窗口；最后根据空间比例信息的融合检测，根据人的头身比(约为1：7)融合上述两种检测结果，得到融合多模态信息的检测结果；

(21)首先要在彩色图像里进行基于HOG特征和SVM分类器的人身体检测。这一操作的流程图如图2所示，其具体步骤如下：

(211)多尺度滑动窗口扫描彩色图像。首先按照1.05(通常在1.01-1.5这个区间)的比例放大、缩小原始彩色图像，得到多个尺度的彩色图像；随后以固定大小(64×128)的滑动窗口在每张彩色图像上滑动，检查窗口内是否包含人体。

(212)提取窗口内的HOG特征。HOG特征的提取步骤如下：

(2121)灰度化和灰度归一化。由于HOG特征主要描述的是边缘梯度特征，颜色信息作用不大，且为了减少光照亮暗的影响，首先需要将整个彩色图像灰度化后进行归一化。

(2122)计算彩色图像中每个像素的梯度。其中彩色图像在(x,y)处的x、y方向梯度G_x，G_y分别如式(4)和式(5)所示，则该处梯度的幅值为

方向为

G_x(x,y)＝I(x+1,y)-I(x-1,y) (4)；

G_y(x,y)＝I(x,y+1)-I(x,y-1) (5)；

(2123)以8×8大小划分像素的胞格，统计一个胞格内所有像素的梯度信息，结果用梯度方向的直方图表示。直方图的方向通道均匀地分布在0°-180°(无符号的梯度)或是0°-360°(有符号的梯度)。为了减小混叠效应，直方图中相邻通道的投票值还经过方向和位置的双线性差值。

(2124)以16×16大小划分区块，在区块内对梯度直方图进行对比度归一化。

(2125)设置64×128大小的检测窗口，在检测窗口内生成特征向量，把位于检测窗口内的每个区块的特征向量组合，就得到该检测窗口的特征向量，用于后续的分类。

(213)SVM分类。对上述步骤(212)得到的检测窗口内的特征向量使用SVM分类器进行分类，给出该检测窗口内存在人的身体的可能性得分(取值范围为0～1)。

(214)彩色图像中人身体检测结果。综合每个检测窗口的分类结果，根据每个窗口的可能性得分进行非极大值抑制，可以得到彩色图像中人身体检测结果。

(22)其次是在深度图像里采用基于Haar特征和Adaboost级联分类器的人头部检测。这一操作的流程图如图3所示。其具体步骤如下：

(221)多尺度滑动窗口扫描深度图像。首先按照1.05(通常在1.01-1.5这个区间)的比例放大、缩小原始深度图像，得到多个尺度的深度图像；随后以固定大小(30×30)的滑动窗口在每张深度图像上滑动，检查窗口内是否包含人头。

(222)提取窗口内的Haar特征。Haar特征是简单的矩形块特征，分为边缘特征、线性特征、对角线特征三类，每个矩形区域的特征值为白色区域里的像素和减去黑色区域里的像素和。特征的计算可以使用积分图来加速；

(223)Adaboost分类。使用AdaBoost算法训练分类器。AdaBoost算法是通过足够的数据来提升弱学习器的方式从而生成高精度的强学习器。一个弱分类器h_j(x)如式(6)所示，其中f_j为特征，θ_j为阈值，p_j的作用是控制不等式的方向，x是24×24的深度图像子窗口。进行N次训练，共训练出N个弱分类器，对于第n次训练，对其加上归一化权重，权重为概率分布。对每一个特征j训练一个分类器h_j，h_j只使用单一特征，选择具有最低误差的那一个分类器h_n，再更新权重，最终得到一个强分类器；

再使用级联的结构将分类器组合成更复杂的分类器。级联分类器是一系列强分类器的组合，其中每一层的分类器都经过阈值调整以最小化假反例，为的是使大部分的目标都能够通过，而非目标区域则被拒绝。位于前端的分类器使用的特征数较少，计算快、后端的分类器使用的特征多，计算慢，但最终能到后端的深度图像非常少，使得总体的计算速度非常快。对上述步骤(222)得到的检测窗口内的特征向量使用Adaboost分类器进行分类，给出该检测窗口内存在人头部的可能性得分(取值范围为0～1)。

(224)深度图像中人头部检测结果。综合每个检测窗口的分类结果，根据每个窗口的可能性得分进行非极大值抑制，可以得到深度图像中人头部检测结果。

(23)根据空间比例信息的融合检测，根据人的头身比融合上述两种检测结果，得到融合多模态信息的检测结果，其流程图如图4所示，具体步骤如下：

(231)获取头身检测结果。从步骤(21)中获取彩色图像中的身体框，从步骤(22)中获取深度图像中的头部框，接着遍历身体框的集合，对每个身体框执行下述操作；

(232)判断该身体框中是否存在头部框，如果不存在，则删除该身体框；如果存在，则执行下一步；

(233)判断该身体框内的头部框个数是否为1，如果是，则关联该身体框和头部框，形成一个多模态联合的人体检测；如果该身体框内的头部框个数超过一个，则根据头部框的位置及各自的置信度选择出一个最优的头部框，然后把这个最优头部框与当前身体框关联；

单独在彩色图像里检测出的身体、深度图像里检测出的头部都有可能会出现误检(将不是目标的区域检测为目标)或漏检(没有检测到目标)。为了使检测结果更加可靠，需要融合RGB-D信息，即彩色图像里的身体框和深度图像里的头部框。通过调整参数，使得在独立的检测阶段都尽可能能够多检出目标即降低漏检，在融合阶段，根据大部分正常人的头部和身体的比例(约为1：7)，对身体框和头部框进行筛选，最终结果是每一个身体框内必须有且只有一个头部框，由此可以排除掉大部分的误检测，大大减小了误检概率的同时提高了准确性。

(3)基于多模态信息感知的人体跟踪：首先分别在彩色图像和深度图像中初始化跟踪对象的模型；其次使用核化相关滤波算法分别在彩色图像和深度图像中进行身体和头部的跟踪；最后在跟踪过程中如果置信度较高，则对上述跟踪对象模型进行更新以适应跟踪对象的变化。上述过程的流程图如图5所示，其具体步骤如下：

(31)建立跟踪对象在彩色图像和深度图像中的模型。在彩色图像中，跟踪对象的模型为颜色直方图，在深度图像中，跟踪对象的模型为深度模版图片。提取颜色直方图的步骤如下：首先将RGB颜色转化到HSV颜色空间，其中H为色调，S为饱和度，V为亮度，随后根据公式(7)提取H通道，并统计窗口内H值的分布形成颜色直方图。提取深度模版图片的方法为截取跟踪开始前的头部包围框并缩放到标准尺寸，作为深度图像中头部跟踪的模版图片；

R′＝R/255，G′＝G/255，B′＝B/255

C_max＝max(R′,G′,B′)，C_min＝min(R′,G′,B′)

Δ＝C_max-C_min

(32)使用KCF(Kernelized Correlation Filters核化相关滤波)算法同时在彩色图像中跟踪身体，在深度图像中跟踪头部。其方法为：使用循环矩阵提取跟踪对象周围的像素值作为训练样本，以岭回归训练一个判别函数，再使用核变换将样本变换到核空间以解决样本线性不可分的问题。上述操作均可以使用离散傅里叶变换再傅里叶空间中对样本矩阵进行对角化，就可使用向量的点乘代替矩阵的计算，尤其是矩阵的求逆，大大的提高了计算速度。

(33)在跟踪过程中匹配和更新跟踪对象的模型。匹配方法为计算跟踪对象和初始跟踪对象模型的归一化相关系数，该相关系数的计算如式(8)、(9)所示，其中d为颜色直方图H₁和H₂的归一化相关系数，R为深度模版图片T和I的归一化相关系数。这两个数的取值范围在[0，1]之间，越大表示匹配程度越高，0表示最坏的匹配效果。如果匹配值大于0.9，也即算法对跟踪结果的置信度较高，则进行跟踪对象模型的加权更新。初始跟踪对象模型的权重为1-w，跟踪对象当前的模型权重为w，其中w＝0.5×d或w＝0.5×R。

(4)利用跟踪对象模型和头身比的空间约束完善跟踪机制：首先在跟踪过程中持续进行跟踪对象的模型特征提取，将该特征与初始跟踪对象模型进行匹配以判断跟踪是否有效；其次如果在跟踪过程中出现某一个***失效而另一个仍然有效的情况，则在短时间内使用仍然有效的跟踪结果，基于头身比的空间约束在指定范围内查找失效的跟踪对象的位置并适时恢复跟踪；最后如果出现两个***都失效的情况，则需要停止算法并且向用户发出警告。该步骤的流程图如图6所示，其具体步骤如下：

(41)在跟踪的过程中根据(33)中提出的归一化相关系数大小进行跟踪有效性的判断。首先判断头部跟踪是否有效，也即式(9)中R值是否大于0.5，如果是则转入(42)，否则转入(43)；

(42)判断身体跟踪是否有效，也即式(8)中d值是否大于0.5，如果是则说明当前彩色图像中的身体跟踪和深度图像中的头部跟踪结果都有效，可以继续正常的跟踪过程，否则转入(44)；

(43)判断身体跟踪是否有效，也即式(8)中d值是否大于0.5，如果是则说明此时深度图像中的头部跟踪失效，而彩色图像中的身体跟踪仍然有效，可以根据头部和身体的空间位置约束由身体的位置推测头部的位置，并且持续进行头部模型的匹配，一旦匹配有效则恢复头部的跟踪；否则转入(45)；

(45)此时头部的跟踪和身体的跟踪均已失效，说明跟踪对象已经由于遮挡或者快速运动不存在于彩色图像和深度图像中，这种情况下跟踪算法停止，需要向用户发出警告，以做出合适的响应。

Claims

1.一种基于多模态信息感知的人体检测和跟踪方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的一种基于多模态信息感知的人体检测和跟踪方法，其特征在于，步骤(1)包括以下步骤：

彩色相机外参矩阵为：

(13)将深度值映射到彩色图像上；

p_rgb＝K_rgbR_irK_ir ^-1p_ir+t_ir；

3.根据权利要求1所述的一种基于多模态信息感知的人体检测和跟踪方法，其特征在于，步骤(2)包括以下步骤：

4.根据权利要求3所述的一种基于多模态信息感知的人体检测和跟踪方法，其特征在于，步骤(21)包括以下步骤：

(212)提取窗口内的HOG特征，HOG特征的提取步骤如下：

(2121)灰度化和灰度归一化；

首先将整个彩色图像灰度化，然后进行归一化；

(2122)计算彩色图像中每个像素的梯度；

其中彩色图像在(x，y)处的x、y方向梯度G_x，G_y分别为：

G_x(x，y)＝I(x+1，y)-I(x-1，y)；

G_y(x，y)＝I(x，y+1)-I(x，y-1)；

则该处梯度的幅值为

方向为

5.根据权利要求3所述的一种基于多模态信息感知的人体检测和跟踪方法，其特征在于，步骤(22)包括以下步骤：

(222)提取窗口内的Haar特征；

(223)Adaboost分类，使用AdaBoost算法训练分类器；

6.根据权利要求3所述的一种基于多模态信息感知的人体检测和跟踪方法，其特征在于，步骤(23)包括以下步骤：

7.根据权利要求1所述的一种基于多模态信息感知的人体检测和跟踪方法，其特征在于，步骤(3)包括以下步骤：

(31)建立跟踪对象在彩色图像和深度图像中的模型；

R′＝R/255，G′＝G/255，B′＝B/255

C_max＝max(R′，G′，B′)，C_min＝min(R′，G′，B′)

Δ＝C_max-C_min

其中，d为颜色直方图H₁和H₂的归一化相关系数，R为深度模版图片T和I的归一化相关系数；这两个数的取值范围在[0，1]之间，越大表示匹配程度越高，0表示最坏的匹配效果；如果匹配值大于0.9，也即算法对跟踪结果的置信度较高，则进行模型的加权更新；初始模型的权重为1-w，跟踪对象当前的模型权重为w，其中w＝0.5×d或w＝0.5×R。

8.根据权利要求1所述的一种基于多模态信息感知的人体检测和跟踪方法，其特征在于，步骤(4)包括以下步骤：