CN102831439B

CN102831439B - 手势跟踪方法及***

Info

Publication number: CN102831439B
Application number: CN201210290337.1A
Authority: CN
Inventors: 宋展; 赵颜果; 聂磊; 杨卫; 郑锋
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-08-15
Filing date: 2012-08-15
Publication date: 2015-09-23
Anticipated expiration: 2032-08-15
Also published as: CN102831439A

Abstract

本发明提供一种手势跟踪方法，包括如下步骤：设计手势的表观模型，包括用于跟踪预测和预测验证的图像描述方式；手势检测获得目标的初始状态，获得目标的位置、大小信息；根据所述初始状态对目标的***进行初始化，包括初始化表观模型，即初始化用于跟踪预测和预测验证的图像描述模板，并初始初始化手势的类别、状态、以及可见性；根据所述***信息，通过跟踪处理对目标的状态和可见性做出最终估计；判断目标的可见性，其中，若永久丢失，则需要重新启动检测来获得一个跟踪目标，否则，继续跟踪。本发明还提供一种手势跟踪***。本发明中的手势跟踪方法及***，具有简单、快速而稳定的优势。

Description

手势跟踪方法及***

技术领域

本发明涉及基于视觉和图像的目标跟踪及人机交互领域，尤其涉及一种适用于电视嵌入平台的手势跟踪方法及***。

背景技术

基于手势的人机交互操作作为一种重要的人机交互方法，近年来广受关注。例如，通过普通摄像头采集用户的动作画面，通过模式识别算法，对图像中的手部特征进行检测和跟踪，将手部的运动信息转化为电视屏幕光标的运动信息，反馈给智能电视终端，并触发相应的操作命令，如电视节目的切换，电视光标的移动，以及简单的游戏互动等。手势识别技术基于智能终端所配备的摄像头，在终端安装相应的识别软件，即可完成以上操作，因而在硬件成本和操作方式上都具有极大的优势，因而该技术正在逐渐成为智能电视的标配模块。其中所涉及到的一个关键问题就是如何准确而流畅地进行手部特征的跟踪，从而使得显示器鼠标或者电视屏幕光标随着手的移动而准确地移动，这一过程也称为手势跟踪技术。

然而现有的基于视觉方法的手势跟踪方法，存在着以下普遍问题：1)稳定性差，受到环境光照和复杂背景等因素的影响，以及手部在运动过程中产生的角度改变导致的图像中的手形的改变，极其容易造成跟踪目标的丢失和操作中断；2)计算效率低，基于肤色、形状等手部特征信息，容易受到外界因素干扰，而基于高复杂度在线机器学***台，如智能电视平台上稳定流畅的运行。

因而如何开发简单快速而稳定的手势目标跟踪算法，使其可以在低运算能力的嵌入式平台上得以应用已成为目前急需解决的问题，而对于所有的手势交互***而言，跟踪的准确性和稳定性直接关系到用户操作的流畅性和体验程度，因而是手势人机交互***的关键问题之一。

发明内容

本发明针对以上问题，提出了一种可行的简单快速而稳定的手势跟踪方法，所述手势跟踪方法包括：设计手势的表观模型，包括用于跟踪预测和预测验证的图像描述方式；手势检测获得目标的初始状态，即目标的位置、大小信息；根据所述初始状态对目标的***进行初始化，包括初始化表观模型，即初始化用于跟踪预测和预测验证的图像描述模板，并初始化***所记录的被跟踪手势的类别、状态(位置&尺寸)、以及可见性；根据所述***信息，通过跟踪处理对目标的状态和可见性做出最终估计；判断目标的可见性，其中，若永久丢失，则需要重新启动检测来获得一个跟踪目标，否则，继续跟踪。

优选地，还包括如下步骤：根据上一帧的目标状态设定跟踪限制区域R，用于跟踪当前帧中的目标。

优选地，还包括如下步骤：所述跟踪处理中的操作，包括预测、验证和局部检验，仅局限于所述的跟踪限制区域R之中进行。

优选地，还包括如下步骤：在所述跟踪限制区域R内，对被跟踪手势之外的其他手势进行检测，用于当手势突变时对手势的表观模型进行更新。

优选地，当从局部检测结果中发现存在手势类别的变化时，则放弃原来的手势模型，用检测的结果重新初始化***信息和表观模型。

优选地，在目标状态做预测的步骤中，采用的是颜色直方图结合cam-shift的办法，根据前一帧或者前若干帧的目标状态，对当前帧中的目标状态做出预测。

优选地，对预测结果做验证的步骤中，采用的是分块LBP直方图和边缘梯度方向直方图这样两种描述方式。

优选地，还包括如下步骤：根据所述跟踪处理的结果，对所述***的信息进行更新，包括对表观模型的更新，和对***所记录的手势类型、状态以及可见性的更新。

优选地，当目标发生短暂丢失的时候，并不立即终止跟踪进程；而是依据先前帧的状态设置较大范围的跟踪限制区域，往后的若干帧继续在此限制区域内做跟踪处理。

本发明还提出了一种手势跟踪***，其中，用于跟踪处理的模块包括以下子模块：手势的表观模型、***初始化模块、跟踪预测模块、预测验证模块、局部检测模块以及模型更新模块。其中，手势的表观模型，包括用于跟踪预测和预测验证的图像描述方式；***初始化模块，用于使用所述手势检测模块对预定义手势进行检测，并当检测到某类手势时，对***进行初始化，包括初始化表观模型，以及初始化***中记录的的手势类别、状态、以及可见性；跟踪预测模块，用于结合手势的表观模型描述，根据前一帧或者前若干帧中的目标状态，对当前帧中的目标状态做出预测；预测验证模块，从当前帧预测状态所对应的目标图像中，提取用于预测验证的特征，与手势的表观模型中相应的用于预测验证的图像特征做比较，确定预测结果是否有效；模型更新模块，用于根据所述跟踪处理的结果，对所述***初始化模块中***所记录的手势类型、状态以及可见性的信息进行更新，以及对手势的表观模型进行更新。

优选地，还包括局部检测模块，用于根据前一帧的目标状态，确定跟踪限制区域，对被跟踪手势之外的其他手势进行检测。

基于以上问题，本发明提出了一种稳定而高效的手势目标跟踪方法，使其可以在智能电视等嵌入式平台上稳定流畅运行。从技术层面，1)首先通过设置跟踪限制区域来缩小跟踪范围，一方面减少图像处理量，另一方面可以有效减少全局跟踪带来的大场景背景干扰因素；2)通过使用多种特征融合的描述方法，对跟踪预测的结果做验证，有效抑制错误匹配；3)通过局部检测在手势突变时，及时对跟踪模型进行更新；4)目标丢失后，在最近状态的基础上继续跟踪，减少目标短暂丢失造成的跟踪终止，从而使得整个操作更加高效而流畅。

附图说明

图1是本发明手势跟踪***的一实施例的结构示意图。

图2是本发明中手势跟踪方法的总的流程图。

图3是本发明中跟踪模块内对单帧图像处理的操作流程图。

图4是本发明中跟踪过程中跟踪限制区域示意图。

图5是本发明的一个实现***中所用的四种手势的示例图。

具体实施方式

如图1所示，为本发明一种手势跟踪***10的结构示意图。手势跟踪***应用于智能电视平台***1等。

在本实施方式中，手势跟踪***10所在的平台***1至少还包括图像获取模块20以及手势检测模块30。图像获取模块20通常是摄像头，用于捕捉用户的手势。在其他实施方式中，图像获取模块20也可以设置在手势跟踪***10中。手势检测模块30，对用于对预定义手势进行检测，获取初始化的手势状态。

手势跟踪***10包括：手势的表观模型11、***初始化模块12、跟踪预测模块13、预测验证模块14、局部检测模块15以及模型更新模块16。

手势的表观模型11，包括用于跟踪预测和预测验证的图像描述方式。

在本实施方式中，通过使用多种特征联合的方式来表达目标的表观模型，即，分别选用两组特征描述方式Ωp和Ωv，基于Ωp建立的特征模板用于跟踪预测当中的相似性度量，基于Ωv建立的特征模板，用于对跟踪中预测结果做进一步检验，预防误检的情况。

***初始化模块12，使用预先训练的手势检测模块30在预设区域(或整幅图像中)进行预定义手势的检测，一旦稳定地检测到某类手势，则据此检测结果，对***的参数进行初始化。

在本实施方式中，***信息不仅记录被跟踪手势所属何种手形，被跟踪手势的状态(位置&大小)，被跟踪手势的可见性；还包含有被跟踪目标表观模型的参数信息。跟踪目标初始化的具体方式参照下文中实施例中的跟踪目标初始化。

跟踪预测模块13，采用颜色直方图结合cam-shift方法，结合被跟踪目标的模型描述，根据前一帧或者前若干帧中的目标状态，对当前帧中的目标状态做出预测，跟踪预测也仅仅局限在跟踪限制区域中进行。跟踪预测的具体方式参照下文实施例中跟踪预测。

预测验证模块14，从当前帧预测状态所对应的目标图像中，提取用于预测验证的特征，与手势的表观模型中相应的用于预测验证的图像特征做比较，若相似性在一定范围内，则代表跟踪成功，否则认为跟踪失败。预测验证模块的具体方式参照下文实施例中预测结果的验证。

局部检测模块15，根据前一帧的目标状态，确定一个跟踪限制区域(依据为手部运动的连续性，正常操作情况下不会出现突然的快速空间位置改变，这样可以缩小跟踪检测区域，提高计算效率)，对被跟踪手势之外的其他手势进行检测，这一方面用于判断手势形状是否发生切换，另一方面提高跟踪中手势分类的准确度。跟踪限制区域的设定与局部检测的具体方式参照下文实施例中相关描述。

在本实施方式中，通过局部检测模块15在跟踪过程中设置跟踪限制区域来缩小跟踪范围，一方面减少图像处理量，另一方面可以有效减少全局跟踪带来的大场景背景干扰因素。

模型更新模块16，用于根据跟踪处理的结果，对***初始化模块12中***所记录的手势类型、状态以及可见性的信息进行更新，以及对手势的表观模型11进行更新。其具体实施方式参照下文实施例中的目标模型的更新。

在本实施方式中，目标丢失后，在最近状态的基础上继续跟踪，减少目标短暂丢失造成的跟踪终止，从而使得整个操作更加高效而流畅。

如图2所示，为本发明提出的手势跟踪方法中针对视频流的操作流程图，用于展示跟踪和用于初始化的检测之间的交替进行的过程。

在步骤S201中，图像获取模块20获取视频图像。

在步骤S202中，手势检测模块30在检测限制区域内对特定手势进行检测。

在步骤S203中，手势检测模块30判断是否检测到特定手势。其中，若未检测到手势，则返回步骤S201继续获取视频图像，若检测到特定手势，则执行步骤S204，进入由手势跟踪***10执行的步骤。

在步骤S204中，***初始化模块12对***的信息与手势的表观模型进行初始化。

在本实施方式中，上述初始化包括提取目标图像的图像特征，对表观模型进行初始化：初始用于跟踪预测的模板，和初始化用于预测验证的图像特征；并同时初始化***中的手势类别、状态(尺寸&位置)以及可见性等信息。

在步骤S205中，图像获取模块20继续获取视频图像。

在步骤S206中，手势跟踪***10根据***当前信息以及被跟踪手势的表观模型来做跟踪。跟踪模块算法实施的流程在图3中得到了详细的表述。

在本实施方式中，手势的表观模型11包含有用于跟踪匹配的图像描述方式的集合Ωp，以及用于对预测结果做验证的特征描述方式的集合为Ωv。

在步骤S207中，手势跟踪***10判断目标是否永久消失。其中，若永久消失，则返回步骤S201；否则，则返回步骤S205。

本发明中，将目标的可见性分为三种状态，即“可见”、“短暂丢失”、“永久丢失”。具体参照下文的关于可见性的说明。在本实施方式中，永久消失是指，如果目标处于短暂丢失阶段达到一定时间或者在此后的多帧图像中都未见目标。

如图3所示，为本发明提出的手势跟踪方法中针对单帧图像处理的操作流程图。

在步骤S301中，手势的表观模型11首先根据检测结果初始化手势的表观模型以及***信息。

在步骤S302中，图像获取模块20获取视频图像。

在步骤S303中，根据***记录的信息判断上一帧是否跟踪成功。其中，若跟踪成功，则执行步骤S304，若未跟踪成功，则执行步骤S309。

在步骤S304中，根据上一帧状态设置跟踪限制区域。

在步骤S305中，跟踪预测模块15在跟踪限制局域内，对当前帧的手势状态做预测。

在步骤S306中，预测验证模块14对预测结果做验证，鉴定预测结果是否有效。其中，若有效，则对表观模型实施渐进式更新。

在步骤S307中，模型更新模块16根据跟踪和检测结果对***的信息、以及被跟踪目标的表观模型做更新，并识别当前帧的手势状态。

在步骤S308中，手势跟踪***10判断目标当前的可见性，用于为图2中的是否永久丢失提供依据。

在步骤S309中，手势跟踪***10根据最后一次跟踪成功的状态，设置一个较大的跟踪限制区域。

在步骤S310中，局部检测模块15在跟踪限制区域内对被跟踪手势之外的其他手势做检测。并将检测结果提供给步骤S307作为更新的依据。

综上，首先初始化被跟踪目标的模型，对接下来的视频图像，都会根据上一帧目标的位置确定一个跟踪限制区域，在该区域内一方面基于跟踪模型，对被跟踪目标的当前状态给出预测，一方面使用滑动窗口对其他可能发生的预定义手势进行检测；同时，又用跟踪和检测的结果对目标的模型做出修正和更新。每一帧的跟踪和检测完成之后会对目标的“可见”性做出判断，如果预测验证失败，且在局部区域内没有检测到新的手势，则目标进入“短暂丢失”状态；如果目标进入“短暂丢失”则会传递目标最后一次被成功跟踪到的状态作为当前状态，在此后的几帧中基于此状态继续跟踪；如果目标有连续多帧都处于“短暂丢失”状态，则目标进入“永久丢失”状态；若目标处于“永久丢失”状态则跳出跟踪模块，重新进入跟踪初始化阶段，使用线下训练的手势检测模块进行预定义手势的检测预。目标可见性的判断，其具体实施方式参照下文实施例中的关于目标的可见性。

关于手势跟踪***的模型设计、工作流程和功能模块，其详细技术方案描述如下：

(1)手势的表观模型的设计

手势的表观模型是目标跟踪的依据，它记录了对目标属性的刻画，属性特征数据一方面用于跟踪时相似度测量的标准，另一方面，用于对预测结果做验证时的基准。此处列举手势跟踪中常用的目标图像的描述方式：

(a)基于几何特征的描述，比如区域特征，轮廓，曲率，凹凸性等；

(b)基于直方图的描述，比如颜色直方图，纹理直方图，梯度方向直方图；

(c)基于肤色隶属度图像的描述；

(d)基于像素/超像素对比度的描述，如点对特征，Haar/Haar-like特征等；

一般情况下，用于预测验证的描述方式不同于用于预测的描述方式，设用于预测的描述方式的集合为Ωp，用于验证的描述方式的集合为Ωv。在本发明的一个***实现的实例中，Ωp包含了HSV空间中H和S通道的颜色直方图，Ωv包含了分块LBP直方图表示和分块梯度方向直方图表示。

(2)跟踪目标初始化

跟踪目标的初始化是通过手势检测来实现的，当在图像某个预定义区域或者整幅图像中检测到目标时，从目标图像中提取特征对目标属性进行描述，用于以后跟踪阶段预测匹配和预测验证的依据。

此阶段的手势检测可以是在整幅图像中进行也可以是在图像的某个局部区域中进行，为了减少检测范围，提高检测速度，另外也考虑到用户一般是站在摄像头正前方来操作的，本发明中采用了特定区域检测的方法，如特定区域可以设置在图像的正中间1/4部分，设置这个特定区域的好处在于：

(a)符合自然操作的习惯，如在操作智能电视时，用户一般会站在屏幕(摄像头)正前方，在用户操作时，一般都是先将手抬起到某个舒适的位置P，然后才开始某个手势，所以用户意识中的跟踪开始位置是P，而不是在人手抬起过程中的某个位置；因此设置在特定区域内做检测，有利于实现正确的初始化，也符合正常操作的习惯。

(b)降低误检率，由于设置了特定检测区域，因而可以大大减小搜索的区域，从而有效抑制复杂背景、动态背景的干扰；便利主体用户的操作，抑制非主体用户的干扰，抑制无意识手势的干扰；

(c)增强后续跟踪的质量，如果初始化发生在人手抬起的过程中，由于急速运动造成的运动模糊，可能导致被初始化目标模型准确性下降，影响后续的跟踪质量；在特定区域内检测，可以有效抑制这种情况。

(d)在小范围内进行检测，可以明显提高检测的效率和准确性；

本发明关注的是单个手势的跟踪问题，当***不在执行跟踪任务的时候(比如刚刚启动或者某个跟踪任务终止之后)，就会执行手势检测，直到发现一个新的跟踪目标为止。初始化阶段可以是对某几个预定义手势做检测，也可以是对某一个特定手势做检测，这取决于应用***的需要。比如，当动态手势的识别只依据运动轨迹的时候，可以只对某个单一手势做检测，这提高了检测效率，并且对应用***不会造成影响；如果动态手势的识别还依赖于跟踪中人手的形状，初始化手势的类别会对识别结果造成影响，此时可能需要对多个手势做检测。例如，本发明的一个实现***中只对如图5所示的闭合手掌做检测。

关于初始化检测所用的方法，可以结合运动信息，肤色信息或者手势的纹理信息等等。常用的方法有：

(a)通过分割法判断出候选的目标手势区域，通过分析候选区域的几何形状进行手形识别；

(b)通过表观特征例如LBP直方图、Haar特征、点对特征等表观属性，结合滑动窗口方法来做检测。

在本发明的一个实现***中，线下从样本数据中提取Haar特征，对每个手势训练Ada-Boost分类器做手势-非手势区分；目标初始化阶段，使用该分类器结合滑动窗口方法来检测该类手势。

(3)跟踪限制区域的设定

目标判别区域，是根据目标运动的连续性特点，根据目标前一时刻的状态，估计目标当前帧可能出现的区域，然后仅仅局限在该区域中寻找与模型的最佳匹配；而事实上，正常情况下，目标的位置都会在此跟踪限制区域之内。基于此种办法，不仅大大减小了搜索的区域，提高了跟踪的效率，而且由于避免了在不必要位置的匹配，因此有利于抑制目标跟踪中的漂移和错误匹配。

另外这种区域的设定也潜在地提醒用户手势运动不宜过快，以避免因运动过快造成摄像头拍摄画面模糊，导致跟踪失败。

在本发明的实现***中，我们分别测试了颜色直方图+camshift跟踪方案，LBP直方图+粒子滤波跟踪方案，证明加入跟踪限制区域的限制，可以抑制跟踪在人脸、脖子、胳膊等肤色区域的错误匹配。

如图4所示，内侧框所标记的为当前帧跟踪所得到的目标手势状态(包括手的位置和尺寸)，外侧框所标记的为根据目标状态所确定的跟踪限制区域，相邻的下一帧的目标状态预测将只在这个跟踪限制区域内进行。

(4)跟踪预测

跟踪预测，指的是依据被跟踪目标的模型和目标在前一帧或者前若干帧的状态，对目标的当前状态做出估计的过程。此处列举几项比较实用的快速预测方法：

(a)用颜色直方图表达目标像素值的分布，基于该颜色直方图计算源图像的反向传播图像P，根据P进行camshift跟踪；

(b)根据肤色模型计算肤色隶属度图P，P在某点的像素值代表该点是肤色点的概率，根据P进行camshift跟踪；

(c)以源图像/分块LBP直方图/分块梯度方向直方图/Haar特征等作为图像描述，结合粒子滤波的方法进行跟踪；

(d)在图像上选取随机点，或者均匀剖分形成的网格点，或者检测出如Harris角点、SIFT/SURF特征点；对这些点基于光流法做跟踪，对跟踪的结果做综合分析得到目标的状态。

本发明中使用的是颜色直方图结合cam-shift预测机制的跟踪方案；在跟踪中，针对每一幅新的视频图像，依据模型中的颜色直方图，计算跟踪限制区域所对应目标图像的反向传播图像，在此反向传播图像中基于cam-shift方案寻找最佳匹配。

(5)预测结果的验证

跟踪预测算法从根本上说，都是在某区域范围所包含的所有候选状态中寻找与模型匹配度最高者，或者说通过某种方法从该区域中产生一系列候选状态，并从中选取最佳匹配者S。但是这个最佳匹配者不一定就是真实的目标状态，因此需要对其进行验证，即本发明中所指的预测验证。

根据目标模型所述的用于验证的描述方式集合Ωv，从状态S所对应的目标图像中，提取特征表述，并与模型中相应的描述基准作对比，如果相似度在一定范围，则认为跟踪成功，否则认为跟踪失败。这一方案，主要是基于这样一种假设，即真实的目标状态，应该在多个属性上与基准图像吻合。经过预测验证阶段，可能发现跟踪预测无效，此时认为针对预测结果的验证失败，目标进入“短暂丢失”状态。

在本发明中采用的预测方案(颜色直方图+camshift)中，采用的用于预测验证的图像描述方式有分块LBP直方图以及轮廓HOG直方图这两种，当且仅当当前状态在这两种描述方式之下都与模型比较吻合的时候，才被认为跟踪成功，否则认为跟踪失败。

(6)局部检测

动态手部目标跟踪过程中，不仅需要通过跟踪获得运动手的位置，而且需要对该过程每一帧内手势形状做出识别。

许多***是通过对预测状态S所对应的图像区域做识别来实现跟踪中的静态手势的识别，但是这存在着如下两方面的问题，a)当跟踪逐渐发生漂移的时候，状态S所对应的图像区域并不完全与真正的手势区域吻合，比如可能是以手腕为中心线的人手和手臂的一部分，此时对该区域做识别，识别结果似是而非的居多；b)即便是在正确跟踪的情况，仅仅对S所对应的图像做一次性识别，识别错误的概率也是比较大的。

鉴于此，本发明提出在上述的跟踪限制区域内，使用多尺度滑动窗口检测的方案，对被跟踪手势之外的其他预定义手势类型进行检测。对每一类手势检测到的目标窗口进行聚类，得到若干个簇，在所有手势对应的窗口簇中选择出一个置信度最高者，计算其对应的手势位置和类型，作为检测输出；如果任何一类都没有检测到目标窗口，或者经过聚类没有符合要求的簇，则当前帧局部检测无输出。

如果局部检测无输出，则对当前帧手势的分类结果即为被跟踪模型中所记录的手势类型，否则，如果有输出，则认为跟踪中有手势类型的变化，此时分类结果为检测输出的手势类别，并且要将跟踪模型中所记录的手势姿态赋值为检测的结果，同时用该检测结果重新初始化跟踪模型。

使用滑动窗口检测结果做分类来提高分类准确度，是基于这样一种认识，因为这一过程中会产生大量包含有目标手势的窗口，采用多次分类的置信度比单一次的置信度要高。

该方法所带来的有益效果如下：

(a)提高跟踪当中对静态手势分类的精度；

(b)解决手势突变，而模型来不及学习所导致的跟踪失败；

(c)相比于在线学习的模型，用于检测的分类器是在有监督学习下训练得到的，置信度高，不容易发生误检。

(7)目标模型的更新

在跟踪验证成功的情况下，为了让目标模型能够适应运动中目标表观的缓慢变化，需要对目标模型做渐进式更新；更新算法需要依据模型中具体所用的特征、以及预测方法和验证方法来定。在本发明的一个实现***中以颜色直方图做跟踪预测，分块LBP直方图和边缘梯度方向直方图做验证，这些特征的更新方法如下：

H_{c} (i) = a H_{c} (i) + (1 - a) H_{c}^{t} (i),

i＝1，...，N_c；

H_{l} (j) = b H_{l} (j) + (1 - b) H_{l}^{t} (j),

j＝1，...，N_l；

H_{e} (k) = g H_{e} (k) + (1 - g) H_{e}^{t} (k),

k＝1，...，N_e；

其中H_c，H_l，H_e分别代表模型表示中的颜色直方图、分块LBP直方图、以及边缘梯度方向直方图；则分别代表当前帧目标图像相对应的描述直方图；N_c，N_l，N_e代表各个直方图的维度；H_c(i)代表直方图的第i个维度上的分量；a、b、g为各种描述方式对应的更新率。

在跟踪过程中，若手势类型不发生变化，可按照上述方案进行模型更新，如果手势类别发生变化，则依据当下的跟踪状态对目标重新进行初始化。

使用局部检测和跟踪结果，对目标模型的更新规则如下：

(a)若局部检测阶段，成功检测到其他手势类别目标，则表明存在手势突变，原模型已经彻底失效，此时依据检测结果重新初始化目标模型参数；

(b)若局部检测阶段，未检测到其他手势目标，且当前帧的跟踪未成功(目标处于短暂丢失状态或者预测验证表明预测失效)，则不对目标模型做更新；

(c)若当前帧跟踪成功，即当前帧的预测经验证表明合格，则需要对目标的模型进行渐进更新。

(8)关于目标的可见性

本发明***将目标的可见性分为三种状态，即“可见”、“短暂丢失”、“永久丢失”。可见状态即是指目标在当前帧被跟踪到并且通过预测验证。在跟踪阶段的某一帧，如果对预测结果的验证发生失败，则针对该帧的目标跟踪失败，目标进入“短暂丢失”阶段；在“短暂丢失”阶段，仍然会根据最后一次被跟踪到的状态确定一个跟踪限制区域，在此区域进行局部检测和跟踪，期间目标状态有可能再次转化为“可见”状态，条件有：(a)目标重新被跟踪到，(b)局部检测检测到某个预定义手势；否则如果目标处于短暂丢失阶段达到一定时间，则目标状态由“短暂丢失”转化为“永久丢失”状态，此时销毁目标模型，停止跟踪进程，重新进入初始化检测阶段。

关于本发明的验证结果及有益效果

本手势跟踪方法与***是在智能电视硬件支持下的android平台进行测试，硬件配置为：处理器主频为700MHz，***内存为200M，通过USB接口连接的普通WEB摄像头进行视频捕捉，视频图像在电视左上角显示。实验结果证明本发明的有益效果如下：

(1)处理速度快，实时性强。本发明基于手势识别***中手势运动的连续性特点，设置了跟踪限制区域，缩小了跟踪预测的范围；检测只在局部区域内进行减少滑动窗口的数量，提高了在嵌入式平台的运行效率。实验证明，跟踪初始化之后，执行包括跟踪预测、局部检测、模型更新等整个流程在内的所有操作，在如上所述的电视***上可达到30ms/frame的速度。

(2)跟踪***的稳定性好，鲁棒性强。由于跟踪中实时调整跟踪限制区域，从而减少在不必要背景区域的匹配，目标短暂丢失时继续实施跟踪预测，在局部区域内检测解决手势突变时候的目标模型更新问题，可以保证跟踪***的稳定性和鲁棒性，从而避免了现有方法中因手部形变、环境干扰等因素造成的跟踪中断等问题。

(3)跟踪中手势识别的精度高。由于在局部区域内实施滑动窗口检测，若某手势存在，则会产生许多包含该手势的窗口，因此会有大量的成功检测来验证相应手势的存在，这相比于其它仅仅只对跟踪状态所对应的目标图像来做一次分类的***，正确分类的机率得到大程度的提高。实验证明，跟踪中允许在如图5所示的四个手势间任意变换手势，识别正确率在99％以上。

(4)该方法是基于普通摄像头，通过图像识别及时实现，无需用户佩戴额外辅助装备，也无需昂贵的3D扫描设备，不增加硬件成本。

关于本发明的用途说明

本发明的实施例为智能电视***，同时也可以用于其他智能家电设备。例如：手机终端，通过手机摄像头扑捉手部运动画面，实现手部运动对手机屏幕光标的控制；空调设备，通过手势跟踪实现手部运动对空调风向的控制等；PC平台，通过对手部目标的跟踪，实现对屏幕鼠标的运动控制等。此外，也可以基于跟踪的运动轨迹，通过轨迹识别技术来进行其他各类交互操作。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种手势跟踪方法，其特征在于，包括如下步骤：

设计手势的表观模型，包括用于跟踪预测和预测验证的图像描述方式：用于预测的描述方式的集合表示为Ωp,用于验证的描述方式的集合表示为Ωv，Ωp包含了HSV空间中H和S通道的颜色直方图，Ωv包含了分块LBP直方图表示和分块梯度方向直方图表示；

手势检测获得目标的初始状态，即目标的位置、大小信息；

根据所述初始状态对目标的***进行初始化，包括初始化表观模型，即初始化用于跟踪预测和预测验证的图像描述模板，并初始化***所记录的被跟踪手势的类别、状态以及可见性，其中状态包括位置与尺寸信息；

根据所述***信息，通过跟踪处理对目标的状态和可见性做出最终估计；

根据跟踪和检测结果，对***的信息以及被跟踪目标的表观模型做更新：以颜色直方图做跟踪预测，分块LBP直方图和边缘梯度方向直方图做验证，

H_{c} (i) = {aH}_{c} (i) + (1 - a) H_{c}^{t} (i), i = 1, ..., N_{c};

H_{l} (j) = {bH}_{l} (j) + (1 - b) H_{l}^{t} (j), j = 1, ..., N_{l};

H_{e} (k) = {gH}_{e} (k) + (1 - g) H_{e}^{t} (k), k = 1, ..., N_{e};

其中，H_c,H_l,H_e分别代表模型表示中的颜色直方图、分块LBP直方图、以及边缘梯度方向直方图；则分别代表当前帧目标图像相对应的描述直方图；N_c,N_l,N_e代表各个直方图的维度；H_c(i)代表颜色直方图的第i个维度上的分量；a、b、g为各种描述方式对应的更新率；

判断目标的可见性，当目标发生短暂丢失的时候，并不立即终止跟踪进程，而是依据先前帧的状态设置较大范围的跟踪限制区域，往后的若干帧继续在此限制区域内做跟踪处理；其中，若永久丢失，则需要重新启动检测来获得一个跟踪目标，否则，继续跟踪。

2.如权利要求1所述的手势跟踪方法，其特征在于，还包括如下步骤：根据上一帧的目标状态设定跟踪限制区域R，用于跟踪当前帧中的目标。

3.如权利要求2所述的手势跟踪方法，其特征在于，还包括如下步骤：

所述跟踪处理中的操作，包括预测、验证和局部检验，仅局限于所述的跟踪限制区域R之中进行。

4.如权利要求3所述的手势跟踪方法，其特征在于，还包括如下步骤：

在所述跟踪限制区域R内，对被跟踪手势之外的其他手势进行检测，用于当手势突变时对手势的表观模型进行更新。

5.如权利要求3所述的手势跟踪方法，其特征在于，当从局部检测结果中发现存在手势类别的变化时，则放弃原来的手势模型，用检测的结果重新初始化***信息和表观模型。

6.如权利要求3所述的手势跟踪方法，其特征在于，在目标状态做预测的步骤中，采用的是颜色直方图结合cam-shift的办法，根据前一帧或者前若干帧的目标状态，对当前帧中的目标状态做出预测。

7.如权利要求3所述的手势跟踪方法，对预测结果做验证的步骤中，采用的是分块LBP直方图和边缘梯度方向直方图这样两种描述方式。

8.如权利要求1所述的手势跟踪方法，其特征在于，还包括如下步骤：

根据所述跟踪处理的结果，对所述***的信息进行更新，包括对表观模型的更新，和对***所记录的手势类型、状态以及可见性的更新。

9.一种手势跟踪***，应用于带图像获取模块与手势检测模块的***平台中，其特征在于，所述手势跟踪***包括：

手势的表观模型，包括用于跟踪预测和预测验证的图像描述方式：用于预测的描述方式的集合表示为Ωp,用于验证的描述方式的集合表示为Ωv，Ωp包含了HSV空间中H和S通道的颜色直方图，Ωv包含了分块LBP直方图表示和分块梯度方向直方图表示；

***初始化模块，用于使用所述手势检测模块对预定义手势进行检测，并当检测到某类手势时，对***进行初始化，包括初始化表观模型，以及初始化***中记录的的手势类别、状态、以及可见性；

跟踪预测模块，用于结合手势的表观模型描述，根据前一帧或者前若干帧中的目标状态，对当前帧中的目标状态做出预测；

预测验证模块，从当前帧预测状态所对应的目标图像中，提取用于预测验证的特征，与手势的表观模型中相应的用于预测验证的图像特征做比较，确定预测结果是否有效；

局部检测模块，用于根据前一帧的目标状态，确定跟踪限制区域，对被跟踪手势之外的其他手势进行检测；

模型更新模块，用于根据所述跟踪处理的结果，对所述***初始化模块中***所记录的手势类型、状态以及可见性的信息进行更新，以及对手势的表观模型进行更新：以颜色直方图做跟踪预测，分块LBP直方图和边缘梯度方向直方图做验证，

H_{c} (i) = {aH}_{c} (i) + (1 - a) H_{c}^{t} (i), i = 1, ..., N_{c};

H_{l} (j) = {bH}_{l} (j) + (1 - b) H_{l}^{t} (j), j = 1, ..., N_{l};

H_{e} (k) = {gH}_{e} (k) + (1 - g) H_{e}^{t} (k), k = 1, ..., N_{e};

其中，H_c,H_l,H_e分别代表模型表示中的颜色直方图、分块LBP直方图、以及边缘梯度方向直方图；则分别代表当前帧目标图像相对应的描述直方图；N_c,N_l,N_e代表各个直方图的维度；H_c(i)代表颜色直方图的第i个维度上的分量；a、b、g为各种描述方式对应的更新率。