CN103415825A

CN103415825A - 用于手势识别的***和方法

Info

Publication number: CN103415825A
Application number: CN2010800712608A
Authority: CN
Inventors: 周杰; 程璞
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2010-12-29
Filing date: 2010-12-29
Publication date: 2013-11-27
Anticipated expiration: 2030-12-29
Also published as: US20130294651A1; KR20130141657A; EP2659335A4; US9323337B2; CN103415825B; WO2012088626A1; EP2659335A1

Abstract

提供了一种用于手势发现和识别的***和方法。也提供了用于使用用户的手的轨迹的隐马尔可夫模型（HMM）和几何特征分布来实现自适应手势识别的***和方法。该***和方法：获取特定用户的输入图像的序列（202），并且基于从用户的手的轨迹提取的手势模型和几何特征来从输入图像的序列识别特定用户的手势（204）。检测手势模型的状态转换点，并且基于所检测的状态转换点和手势的起点的相对位置来提取用户的手的轨迹的几何特征。该***和方法进一步基于自适应数据来适配特定用户的手势模型和几何特征分布（206）。

Description

用于手势识别的***和方法

技术领域

本公开总体上涉及计算机图形处理和手势识别***，并且更具体地涉及用于手势发现和识别的***和方法。也提供了使用用户的手的轨迹的隐马尔可夫模型（HMM）和几何特征分布来实现自适应手势识别的***和方法。

背景技术

手势识别因为其在手语识别、多模人与计算机交互、虚拟现实和机器人控制上的可能使用而受到越来越多的关注。大多数手势识别方法将所观察到的输入图像的序列与培训样本或模型匹配。输入序列被分类为其样本或模型与其最佳地匹配的手势类别。动态时间归整（DTW）、连续动态编程（CDP）、隐马尔可夫模型（HMM）和条件随机场（CRF）是手势分类器的示例。

HMM匹配是最常使用的用于手势识别的技术。然而，这种方法不能利用已经证明对于手势识别有效的手的轨迹的几何信息。在使用手的轨迹的先前的方法中，整体获取手的轨迹，并且作为用于识别的贝叶斯分类器的输入提取反映轨迹的形状的一些几何特征，诸如在x和y轴上的平均手的位置和所观察到的手的x和y位置的偏度等。然而，该方法不能精确地描述手的手势。

对于在线手势识别，手势发现，即，确定手势的起点和终点，是很重要但是困难的任务。存在用于手势发现的两种类型的手段：直接手段和间接手段。在直接手段中，首先计算诸如速度、加速度和轨迹曲线的运动参数，并且找出这些参数的突变以识别候选的手势边界。然而，这些方法不够精确。间接手段组合手势发现和手势识别。对于输入序列，间接手段找出当与培训样本或模型匹配时给出高识别分数的间隔，因此同时实现手势的时间分段和识别。然而，这些方法通常是耗时的，并且手势的一些误检可能出现。一种传统的手段提出使用修剪策略来改善精度以及***的速度。然而，该方法仅基于在手的轨迹的单点和单个模型状态之间的兼容性而修剪。如果当前观察的似然率小于阈值，则将修剪匹配假设。基于该简单策略的修剪分类器可能容易过度拟合培训数据。

因此，存在对于用于更精确和鲁棒的手势发现和识别的技术的需要。

而且，不同的用户手势通常在速度、起点和终点与转折点的角度等上不同。因此，很有意义的是，研究如何调整分类器以使得识别***适应于特定用户。

先前，仅一些研究者已经研究了自适应手势识别。一种现有技术的技术通过保留具有新的样本的HMM模型而实现了手势***的自适应。然而，该方法丢失了先前样本的信息，并且对于噪声数据敏感。另一种技术使用Baum-Welch方法的在线版本来实现手势分类器的在线学习和更新，并且开发了一种可以在线学些简单手势的***。然而，该方法的更新速度很低。

虽然仅存在对于自适应手势识别的几个研究，但是已经公布了用于自适应速度识别的许多方法。一种这样的研究通过最大后验概率（MAP）参数估计来更新HMM模型。通过使用参数的先前分布，需要较少的新数据来获取鲁棒参数估计和更新。该方法的缺陷是新的样本仅能够更新其对应的类别的HMM模型，因此降低了更新速度。最大似然率线性回归（MLLR）被广泛用于自适应速度识别。它使用新的样本来估计模型参数的一组线性变换，使得模型可以更好地匹配在变换后的新的样本。所有模型参数可以共享全局线性变换，或成簇为不同的组，其中，每组参数共享相同的线性变换。MLLR可以克服MAP的缺点，并且改善模型更新速度。

因此，存在用于实现自适应手势识别的技术的需要，使得使用这样的技术的***可以适应于特定用户。

发明内容

提供了一种用于手势发现(spotting)和识别的***和方法。本公开的所述***和方法通过下述方式实现了更精确和鲁棒的手势发现和识别：组合在输入图像的序列中的运动参数的突变的检测、隐马尔可夫模型（HMM）匹配和轨迹几何特征的提取。

根据本公开的一个方面，提供了一种用于发现由用户执行的手势的方法，所述方法包括：获取用户的输入图像的序列；将在输入图像的所述序列中的运动参数的突变检测为候选起点；将输入图像的所述序列与手势模型匹配；检测所述匹配的手势模型的状态转换点；基于所述检测的状态转换点和候选起点来提取所述用户的手的轨迹的几何特征；基于匹配的手势模型和所述提取的几何特征来确定所述手势的终点和手势类别；并且，从所述确定的所述手势的终点起反向跟踪通过图像，以确定所述手势的实际起点。

在本公开的另一个方面中，一种用于发现由用户执行的手势的***包括：图像捕获装置，其获取用户的输入图像的序列；对象检测器和***，其将在输入图像的所述序列中的运动参数的突变检测为候选起点；模型匹配器，其将输入图像的所述序列与手势模型匹配；事务检测器，其检测所述匹配的手势模型的状态转换点；特征提取器，其基于所述检测的状态转换点和候选起点来提取所述用户的手的轨迹的几何特征；以及，手势识别器，其基于匹配的手势模型和所述提取的几何特征来确定所述手势的终点和手势类别，并且，从所述确定的所述手势的终点起反向跟踪通过图像，以确定所述手势的实际起点。

提供了一种用于使用隐马尔可夫模型（HMM）和几何特征分布来实现自适应手势识别的、用于手势识别的***和方法。不同的用户的手势通常在速度、起点和终点与转折点的角度等上不同。本公开提供了一种用于手势识别的自适应的方法，使得所述***可以适应于特定用户。

根据本公开的一个方面，提供了一种用于识别由用户执行的手势的方法，所述方法包括：获取特定用户的输入图像的序列；并且，基于手势模型和从所述用户的手的轨迹提取的几何特征来从输入图像的所述序列识别所述特定用户的手势。

根据本公开的另一个方面，一种用于识别由用户执行的手势的***包括：图像捕获装置，其获取特定用户的输入图像的序列；以及，手势识别器，其基于手势模型和从所述用户的手的轨迹提取的几何特征来从输入图像的所述序列识别所述特定用户的手势。

附图说明

从下面要结合附图阅读的优选实施例的详细描述中，本发明的这些和/或其他方面、特征和优点将被描述或变得清楚。

在附图中，其中，贯穿视图，相似的附图标号表示类似的元件：

图1是根据本公开的一个方面的用于手势发现和识别的***的示例性图示；

图2是根据本公开的一个方面的用于手势识别的示例性方法的流程图；

图3是根据本公开的一个方面的用于手势发现和识别的示例性方法的流程图；

图4图示从分段的由用户执行的轨迹“0”提取的状态转换点的示例；

图5是根据本公开的一个方面的、用于使用隐马尔可夫模型（HMM）和几何特征分布来培训手势识别***的示例性方法的流程图；以及

图6是根据本公开的一个方面的、用于将手势识别***适应于特定用户的示例性方法的流程图。

应当明白，附图用于例示本公开的概念的目的，并且不必然是用于例示本公开的唯一可能的配置。

具体实施方式

应当明白，可以以各种形式的硬件、软件或其组合来实现在附图中所示的元素。优选的是，在可以包括处理器、存储器和输入/输出接口的一个或多个适当编程的通用装置上以硬件和软件的组合来实现这些元素。

本说明书说明了本公开的原理。因此，可以明白，本领域内的技术人员能够设计各种布置，该各种布置虽然未在此明确地描述或示出，但是体现本公开的原理，并且被包括在本公开的范围内。

在此描述的所有示例和条件语言意欲用于教学目的，以帮助读者明白本公开的原理和由发明人对于进一步发展本领域贡献的思想，并且要被解释为不限于这样的具体描述的示例和条件。

而且，列举本公开的原理、方面和实施例的在此的所有陈述及其具体示例意欲涵盖其结构和功能等同物。另外，意欲这样的等同物包括当前已知的等同物以及在未来发展的等同物，即，执行相同功能开发的任何元素，而与结构无关。

因此，例如，本领域内的技术人员可以明白，在此呈现的框图表示体现本公开的原理的说明性电路的概念视图。类似地，可以明白，任何流程图、流图、状态转换图和伪码等表示可以以计算机可读介质实质上表示并且因此被计算机或处理器执行的各种处理，而不论这样的计算机或处理器是否被明确地示出。

通过使用专用硬件以及能够与适当的软件相关联地执行软件的硬件来提供在附图中所示的各个元素的功能。当被处理器提供时，该功能可以被单个专用处理器、被单个共享处理器或被多个单独处理器提供，该多个单独处理器的一些可以被共享。而且，术语“处理器”或“控制器”的明确的使用不应当被解释为唯一地指示能够执行软件的硬件，并且可以隐含地无限制地包括数字信号处理器（“DSP”）硬件、用于存储软件的只读存储器（“ROM”）、随机存取存储器（“RAM”）和非易失性存储器。

也可以包括其他传统和/或定制的硬件。类似地，在附图中所示的任何开关仅是概念性的。可以通过程序逻辑的操作、通过专用逻辑、通过程序控制和专用逻辑的交互或者甚至手动地执行它们的功能，实现者能够选择具体技术，从上下文更具体地明白这一点。

在其权利要求中，作为用于执行指定功能的手段表达的任何元素意欲涵盖执行那个功能的任何方式，包括例如：a）执行那个功能的电路元件的组合，或者，b）与适当电路组合的以任何形式的软件，该任何形式因此包括固件或微码等，该适当电路用于执行那个软件以执行该功能。由这样的权利要求限定的本公开在于下述事实：由各种描述的手段提供的功能以权利要求引用的方式被组合和置于一起。因此认为，可以提供那些功能的任何手段等同于在此所示的那些。

提供了用于实现手势发现和识别的***和方法，其组合在输入图像的序列中的运动参数的突变的检测、隐马尔可夫模型（HMM）匹配和轨迹几何特征的提取。在给出捕获的视频图像的输入序列的情况下，诸如异常速度和加速度的运动参数的突变或陡峭的轨迹曲线将被检测为由用户执行的手势的候选起点/终点。从这些候选起点，手的轨迹将匹配到每一个手势类别的HMM模型，即，手势模型。手的轨迹的几何特征以及单个观察分类器用于修剪匹配假设。

对于输入序列，所检测的兴趣点与HMM模型匹配，并且通过维特比算法或函数来找出其中HMM模型的状态改变的点。这些点被称为状态转换点。基于状态转换点和手势的起点的相对位置来从手势模型提取几何特征。这些几何特征比传统方法更精确地描述了手的手势。状态转换点通常对应于其中轨迹开始改变的点，并且，基于这些点和起点的相对位置来提取特征可以很好地反映手势的形状的特性，这与传统方法相反，传统方法整体获取手的轨迹，并且基于手的轨迹的统计属性来提取几何特征。

此外，当几何特征的提取被包含到HMM模型的匹配内时，容易利用所提取的几何特征来用于修剪，并且帮助识别手势的类型。例如，如果在状态转换点处提取的几何特征的似然率小于阈值，则将修剪该匹配假设。即，如果在某个帧处确定将该帧与HMM模型的任何状态匹配的成本太高，则本公开的***和方法推论给定的模型未良好地匹配输入序列，并且然后它停止将随后的帧匹配到状态。

用于修剪的几何特征的包含比仅使用单个观察更精确和鲁棒。当基于HMM模型和在手的轨迹和手势类别之间的几何特征分布的组合计算的模型匹配分数大于阈值时，将手势分段和识别。运动参数的突变的检测、HMM模型匹配和轨迹几何特征提取的该组合胜过现有的手势发现方法。

现在参见附图，在图1中示出根据本公开的一个实施例的示例性***部件。可以提供图像捕获装置102来捕获执行手势的用户的图像。应当明白，图像捕获装置可以是任何已知的图像捕获装置，并且可以包括数字照像机、数字摄像机、网络摄像头等。所捕获的图像被输入到处理装置104，诸如计算机。该计算机被实现在各种已知计算机平台的任何一种上，该各种已知计算机平台具有硬件，例如，一个或多个中央处理单元（CPU）、诸如随机存取存储器（RAM）和/或只读存储器（ROM）的存储器106与输入/输出（I/O）用户接口108，该输入/输出（I/O）用户接口108例如是键盘、光标控制装置（例如，鼠标或游戏棒）和显示装置。计算机平台也包括操作***和微指令代码。在此所述的各种处理和功能可以或者是微指令代码的一部分或经由操作***执行的软件应用程序的一部分（或其组合）。在一个实施例中，在可以被诸如处理装置104的任何适当机器上载和执行的程序存储装置上有形地包含软件应用程序。另外，各种其他***装置可以通过诸如并行端口、串行端口或通用串行总线（USB）的各种接口和总线结构，而连接到计算机平台。其他***装置可以包括另外的存储装置110和打印机（未示出）。

软件程序包括在存储器106中存储的手势识别模块112，其也被称为手势识别器，用于在所捕获的图像的序列中识别由用户执行的手势。手势识别模块112包括对象检测器和***114，对象检测器和***114检测感兴趣的对象，例如用户的手，并且通过捕获的图像的序列来跟踪感兴趣的对象。模型匹配器116被提供来将所检测和跟踪的对象匹配到在HMM模型118的数据库中存储的至少一个HMM模型。每一个手势类型具有与其相关联的HMM模型。输入序列与对应于不同手势类型的所有HMM模型匹配，以找到哪种手势类型最佳地匹配输入序列。例如，在给出作为来自捕获的视频的每一个帧的特征的序列的输入序列和作为状态的序列的手势模型的情况下，模型匹配器116找到在每一个帧和每一个状态之间的对应的关系。模型匹配器116可以使用维特比算法或函数、前向算法或函数、前向-反向算法或函数等来实现匹配。

手势识别模块112进一步包括转换检测器120，用于检测其中HMM模型的状态改变的点。这些点被称为状态转换点，并且通过转换检测器120除了别的之外使用的维特比算法或函数被找到或检测。特征提取器122基于状态转换点和手势的起点的相对位置而提取几何特征。

手势识别模块112进一步包括修剪算法或函数124，修剪算法或函数124也被称为修剪器，其用于减少被执行来找出匹配的HMM模型的计算的数量，由此加速手势发现和检测处理。例如，在给出作为来自捕获的视频的每一个帧的特征的序列的输入序列和作为状态的序列的手势模型的情况下，应当找到在每一个帧和每一个状态之间的对应关系。然而，如果在某个帧处修剪算法或函数124发现将该帧与任何状态匹配的成本太高，则修剪算法或函数124停止将随后的帧匹配到状态，并且推论给定的模型未良好地匹配输入序列。

另外，手势识别模块112包括最大似然率线性回归（MLLR）函数，该函数用于适配HMM模型，并且递增地学习每个手势类别的特定用户的几何特征分布。通过同时更新HMM模型和几何特征分布，手势识别***可以迅速地适应于用户。

图2是根据本公开的一个方面的用于手势识别的示例性方法的流程图。初始，处理装置104获取由图像捕获装置102捕获的输入图像的序列（步骤202）。手势识别模块112然后使用HMM模型和几何特征来执行手势识别（步骤204）。下面与图3-4相关联地进一步描述步骤204。在步骤206中，手势识别模块112适应特定用户的每个手势类别的HMM模型和几何特征分布。下面与图5-6相关地进一步描述步骤206。

图3是根据本公开的一个方面的、用于手势发现和识别的示例性方法的流程图。

1.1候选起点检测

初始，在步骤302中，图像捕获装置102捕获图像的输入序列。在步骤304中，对象检测器和***114检测在输入序列中的候选起点，并且贯穿该序列而跟踪候选起点。诸如手的位置和速度的特征用于表示在输入序列的每一个帧中检测的手。通过用户的面部的位置和宽度来规格化这些特征。

象直接手势发现手段那样，作为在输入序列中的移动参数的突变而检测候选起点。具有异常速度或陡峭轨迹曲线的点被检测为候选起点。通常存在使用该方法的许多误肯定检测。使用这些点来作为手势边界的直接手势发现方法不很精确和鲁棒。本公开的方法使用不同的策略。将手的轨迹从这些候选起点起匹配到每一个手势类别的HMM模型，因此，该方法可以组合直接和间接手势发现方法的优点。

1.2HMM模型匹配

在步骤306中，输入图像的序列经由模型匹配器116匹配到HMM模型118，如下所述。

设Q={Q₁,Q₂,...}是特征向量的连续序列，其中，Q_j是从输入图像的输入帧j提取的特征向量。诸如手的位置和速度的特征用于表示在每一个帧中检测的手。通过执行手势的用户的面部的位置和宽度来规格化这些特征。设是具有用于手势g的m+1个状态的左右HMM模型。每个状态与给出每一个观察向量Q_j的似然率的高斯观察密度相关联。Baum-Welch算法或函数将用于培训HMM模型。根据轨迹长度来指定每一个模型的状态的数量，通常对于Baum-Welch算法或函数如此进行。转换概率被固定以简化学习任务，即，在每一个转换处，模型等同可能地移动到下一个状态或保持在同一状态出。

将a_k,i表示为从状态k向状态i转换的转换概率，并且，将表示为当与模型状态

匹配时的特征向量Q_j的似然率。设C是使用在1.1部分中描述的方法检测的候选起点集。是特殊状态，其中

因此，HMM模型匹配仅在这些候选起点处开始。将V(i,j)表示为当将第一j输入特征向量（Q₁,...,Q_j）与第一i+1模型状态

匹配时的最大概率。然后，我们具有

V (i, j) = p (Q_{j} | M_{i}^{g}) \cdot \max_{k} (a_{k, i} V (k, j - 1)) - - - (2)

设在（Q₁,...,Q_j）和

之间的最大匹配分数S_H(i,j)是V(i,j)的对数：

S_H(i,j)=logV(i,j) (3)

基于在等式2中的属性，使用动态编程（DP）来有效地计算最大匹配分数。使用通过(i,j)来加索引的表格来实现DP。当从输入帧提取新的特征向量Q_n时，计算与帧n对应的表格的片断，并且在单元(i,n)处存储两个信息：1)S_H(i,n)的值，其中，i=0,…,m；以及，2）前导子k，用于最小化等式2，其中，S_H(i,n)是在模型和在帧i处结束的输入序列之间的最佳匹配的分数，并且k是前一个帧在最佳匹配中对应的状态。S_H(m,n)对应于在模型和在帧n处结束的输入序列之间的最佳对齐。可以使用反向跟踪来获得最佳动态编程（DP）路径，即，HMM模型的最佳状态序列。现有的间接方法通常使用S_H(m,n)以实现手势发现，即，如果S_H(m,n)大于阈值，则将手势终点检测为帧n，并且，可以通过反向跟踪最佳DP路径来找出手势起点。

为了改善***的速度和精度，传统***使用修剪策略，其中，它们基于当前观察的似然率来修剪：如果

并且其中τ(i)是模型状态i的阈值并且是从培训数据学习的，则将修剪单元(i,n)，并且，将拒绝所有通过它的路径。然而，该简单的修剪策略不够精确。

1.3几何特征提取

在本公开的方法中，几何特征的提取被包含到HMM模型匹配过程内。对于输入序列，经由转换检测器120在步骤308中确定HMM模型的状态序列。检测其中HMM的状态改变的点。图4给出了从分段的轨迹“0”提取的状态转换点的一些示例，该轨迹被用户执行，并且被图像捕获装置102捕获。黑点是状态转换点。可以看出，状态转换点的位置对于所有轨迹类似，因此，在步骤310经由特征提取器122基于状态转换点和手势的起点的相对位置来提取几何特征，如下所述。

将手势的起点表示为(x₀,y₀)，在转换点(x_t,y_t)处提取的几何特征包括x_t-x₀、y_t-y₀和

这些简单特征可以良好地描述手的轨迹的几何信息。

对于每一个手势类别，与其相关联的HMM模型用于提取其培训样本的几何特征。假定该几何特征符合高斯分布。从培训样本学习几何特征的分布。然后，每个手势类别与HMM模型及其几何特征分布相关联。将手势g的几何特征分布表示为

其中，m与的状态编号M^g相关，并且

是在其中HMM模型的状态从i-1向i改变的点处提取的几何特征的分布。当几何特征的提取被包含到HMM模型匹配过程中时，容易利用几何特征来进行修剪。例如，如果帧F是状态转换帧，则基于帧F来提取几何特征。如果提取的几何特征的概率低于阈值，则该匹配将被剪除，即，模型匹配器116将停止将随后的帧与模型的状态匹配，并且，将选择至少一个第二手势模型来匹配。现在在下面与等式（4）相关地描述修改过程。

在步骤312中，如果满足下面的条件，则修剪函数或修剪器124将剪除单元(i,j)：

其中，pre(i)是在HMM模型匹配期间状态i的前导子，G_j是在点i处提取的几何特征，t(i)是从培训样本学习的阈值，并且如在1.2部分中定义

和τ(i)。

在步骤314中，通过手势识别模块112来计算在（Q₁,...,Q_n）和

之间的总的匹配分数：

S (m, n) = α \times S_{H} (m . n) + (1 - α) \times (Σ_{i = 1}^{m} \log F_{i}^{g} (G_{j (i)})) - - - (5)

其中，α是系数，S_H(m,n)是HMM匹配分数，并且G_j(i)是在其中HMM状态从i-1改变为i的点处提取的几何特征。象间接方法那样实现手势的时间分段，即，如果S(m,n)大于阈值，则将手势终点检测为帧n（步骤216），并且，可以通过反向跟踪最佳DP路径来找出手势起点（步骤218）。通过使用表达式4和等式5，该方法可以组合手的轨迹的HMM和几何特征以用于手势发现和识别，因此改善***的精度。

在另一个实施例中，提供了使用隐马尔可夫模型（HMM）和几何特征分布来实现自适应手势识别的、用于手势识别的***和方法。本公开的该***和方法组合用户的手的轨迹的几何特征和HMM模型以用于手势识别。对于输入序列，跟踪诸如手的被检测的感兴趣的对象，并且将其与HMM模型匹配。通过维特比算法或函数、前向算法或函数、前向-反向算法或函数等来找出其中HMM模型的状态改变的点。这些点被称为状态转换点。基于状态转换点和手势的起点的相对位置来提取几何特征。在给出适配数据，即，特定用户执行的手势的情况下，使用最大似然率线性回归（MLLR）方法来适应HMM模型，并且递增地学习特定用户的每一个手势类别的几何特征分布。通过同时更新HMM模型和几何特征分布，手势识别***可以迅速地适应于特定用户。

2.1组合HMM和轨迹几何特征的手势识别

参见图5，图示了根据本公开的一个方面的、用于使用隐马尔可夫模型（HMM）和几何特征分布来培训手势识别***的示例性方法的流程图。

初始，在步骤502中，图像捕获装置102获取或捕获图像的输入序列。在步骤504中，对象检测器和***114在输入序列中检测感兴趣的对象，例如，用户的手，并且通过该序列来跟踪对象。诸如手的位置和速度的特征用于表示在输入序列的每一个帧中检测到的手。通过用户的面部的位置和宽度来规格化这些特征。在给出面部中心位置(xf,yf)、面部w的宽度和在图像的帧上的手位置（xh,yh）的情况下，规格化的手的位置是xhn=(xh-xf)/w、yhn=(yh-yf)/w，即，绝对坐标改变为相对于面部中心的相对坐标。

具有高斯观察密度的左右HMM模型用于在步骤506中将检测的手与手势模型匹配，并且确定手势类别。例如，在给出作为来自捕获的视频的每一个帧的特征的序列的输入序列和作为状态的序列的手势模型的情况下，模型匹配器116经由例如维特比算法或函数、前向算法或函数或者前向-反向算法或函数来找出在每一个帧和每一个状态之间的对应关系。

接下来，在步骤508中，对于输入序列，转换检测器120使用维特比算法或函数来检测匹配的HMM模型的状态序列。检测其中HMM模型的状态改变的点。在步骤510，经由特征提取器122基于状态转换点和手势的起点的相对位置来提取几何特征。将手势的起点表示为(x₀,y₀)，在转换点(x_t,y_t)处提取的几何特征包括x_t-x₀、y_t-y₀和

在给出输入序列的情况下，在所有状态转换点处提取的特征形成输入序列的几何特征。这些简单特征可以良好地描述手的轨迹的几何信息。

对于每一个手势类别，培训左右HMM模型，并且该HMM模型用于提取其培训样本的几何特征。假定几何特征符合高斯分布。从培训样本学习几何特征的分布。然后，在步骤512，将每一个手势类别与HMM模型及其几何特征分布相关联，并且在步骤514，存储相关联的HMM模型和几何特征分布。

将与第i手势类别相关联的HMM模型和几何特征分布分别表示为λ_i和q_i。为了将分段的手的轨迹O={O₁,O₂.-O_T}（即，检测和跟踪的对象）与第i手势类别匹配，使用λ_i来提取几何特征G={G₁,G₂,...G_N}。通过手势识别模块112计算匹配分数如下：

S=α×logp(O|λ_i)+(1-α)×logq_i(G) (6)

其中，α是系数，并且p(O|λ_i)是在给出HMM模型λ_i的情况下的手的轨迹O的概率。可以使用前向-反向算法或函数来计算p(O|λ_i)输入的手的轨迹将被分类为其匹配分数最高的手势类别。因此，使用等式6，本公开的***和方法可以组合用户的手的轨迹（即，检测和跟踪的对象）的几何特征和HMM模型以用于手势识别。

2.2手势识别的适配

图6是根据本公开的一个方面的用于将手势识别***适应于特定用户的示例性方法的流程图。在给出适配数据（即，特定用户执行的手势）的情况下，本公开的***和方法使用最大似然率线性回归（MLLR）函数来适应于HMM模型，并且递增地学习用于每一个手势类别的几何特征分布。

初始，在步骤602中，图像捕获装置102捕获图像的输入序列。在步骤604中，对象检测器和***114检测在输入序列中的感兴趣的对象，并且贯穿该序列跟踪该对象。在步骤606，使用具有高斯观察密度的左右HMM模型来将手势类别建模。在步骤608中，检索与所确定的手势类别相关联的几何特征分布。

接下来，在步骤610中，使用最大似然率线性回归（MLLR）函数将HMM模型适应于特定用户。最大似然率线性回归（MLLR）被广泛用于自适应语音识别。它使用新的样本来估计模型参数的一组线性变换，使得该模型可以更好地匹配在变换后的新的样本。在标准MLLR手段中，根据

\bar{μ} = Wξ - - - (7)

来更新高斯密度的平均向量，其中，W是n×(n+1)矩阵（并且，n是观察特征向量的维度），并且，ξ是扩展平均向量。ξ^T=[1,μ₁,...,μ_n]。假定适配数据O是一系列T观察：O=o₁-o_T。为了在等式7中计算W，要最大化的目标函数是产生适配数据的似然率：

F (O | λ) = \underset{θ}{Σ} F (O, θ | λ) - - - (8)

其中，θ是产生O的可能状态序列，λ是一组模型参数。通过最大化辅助函数

Q (λ, \bar{λ}) = \underset{θ}{Σ} F (O, θ | λ) \log F (O, θ | \bar{λ}) - - - (9)

其中，λ是当前的一组模型参数，并且

是重新估计的一组模型参数，也最大化了在等式8中的目标函数。可以使用最大期望（EM）算法或函数来解决相对于W最大化等式9。

然后，在步骤612中，***通过下述方式来递增地学***均和协方差矩阵。将手势g的当前几何特征分布表示为

其中，F_i ^g是在其中HMM模型的状态从i-1改变为i的点处提取的几何特征的分布。假定F_i ^g的平均和协方差矩阵分别是

和

在给出手势g的适配数据的情况下，从该数据提取几何特征，并且使得在其中状态从i-1改变为i的适配数据的点处提取的几何特征形成集X={x₁,...x_k}，其中，x_i是从手势g的第i个适配样本提取的特征，并且k是用于手势g的适配样本的数量。然后，更新几何特征分布如下：

其中，

和分别是F_i ^g的重新估计的平均和协方差矩阵。

通过同时更新HMM模型和几何特征分布，手势识别***可以快速地适应于用户。然后在存储装置110中对于特定用户存储适配的HMM模型和学习的几何特征分布（步骤614）。

已经描述了用于手势识别的***和方法。手势模型（例如，HMM模型）和几何特征分布用于执行手势识别。基于适配数据（即，特定用户执行的手势），更新HMM模型和几何特征分布两者。以这种方式，***可以适应于特定用户。

虽然已经在此详细示出和描述了包含本公开的教导的实施例，但是本领域内的技术人员可以容易设计包含这些教导的许多其他变化的实施例。在已经描述了用于手势识别的***和方法的优选实施例（它们意欲是说明性的而不是限定性的）的情况下，可以注意到，本领域内的技术人员可以根据上面的教导进行修改和变化。因此，应当明白，可以在由所附的权利要求概述的本公开的范围内公开的本公开的特定实施例中进行改变。

Claims

1.一种用于识别由用户执行的手势的方法，所述方法包括：

获取特定用户的输入图像的序列（202）；并且

基于从用户的手的轨迹提取的手势模型和几何特征来从输入图像的序列识别特定用户的手势（204）。

2.根据权利要求1所述的方法，其中，所述手势模型是隐马尔可夫模型（HMM）。

3.根据权利要求1所述的方法，其中，所述识别步骤进一步包括：

获取用户的输入图像的序列（302）；

将在输入图像的所述序列中的运动参数的突变检测为候选起点（304）；

将输入图像的所述序列与手势模型匹配（306）；

检测所述匹配的手势模型的状态转换点（308）；

基于所述检测的状态转换点和候选起点来提取所述用户手的轨迹的几何特征（310）；

基于匹配的手势模型和所述提取的几何特征来确定所述手势的终点和手势类别（316）；并且，

从所述确定的所述手势的终点起反向跟踪通过图像，以确定所述手势的实际起点（318）。

4.根据权利要求3所述的方法，其中，所述确定所述手势的所述终点进一步包括：

确定输入图像的所述序列的每一个帧的手势模型匹配分数（314）；并且

将具有比第一预定阈值大的所述手势模型匹配分数的所述帧选择为包含所述手势的所述终点的所述帧（316）。

5.根据权利要求4所述的方法，进一步包括：基于所述提取的几何特征和确定的手势类别来修剪输入图像的所述序列的至少一个帧的所述手势模型匹配分数（312）。

6.根据权利要求4所述的方法，进一步包括：如果所述提取的几何特征在帧中出现的可能性小于第二预定阈值，则选择第二手势模型来用于匹配。

7.根据权利要求6所述的方法，其中，所述第二预定阈值是基于所述确定的手势类别。

8.根据权利要求3所述的方法，其中，通过动态编程（DP）功能来执行反向跟踪通过所述图像。

9.根据权利要求1所述的方法，其中，所述识别步骤进一步包括：

在输入图像的所述序列的每一个帧中检测和跟踪至少一个对象（504）；并且

匹配所述检测和跟踪的至少一个对象的特征以确定所述手势模型（506）。

10.根据权利要求9所述的方法，其中，所述识别步骤进一步包括：

检测所述手势模型的状态转换点（508）；并且

基于所述检测的状态转换点和所述手势的起点的相对位置来提取所述用户的所述手的轨迹的所述几何特征（510）。

11.根据权利要求10所述的方法，其中，所述识别步骤进一步包括：

使用所述手势模型和提取的几何特征来计算用于每一个手势类别的所述检测和跟踪的至少一个对象的匹配分数；并且

将所述检测和跟踪的至少一个对象分类为具有最高匹配分数的所述手势类别。

12.根据权利要求1所述的方法，进一步包括：基于由所述特定用户执行的手势来适应所述特定用户的所述手势模型和几何特征分布（206）。

13.根据权利要求12所述的方法，其中，使用最大似然率线性回归（MLLR）函数来使用来自所述特定用户的手势样本更新所述手势模型（610）。

14.根据权利要求13所述的方法，进一步包括：通过重新估计在预定数量的自适应样本上的所述几何特征分布的平均和协方差矩阵来递增地学习用于所述特定用户的所述几何特征分布（612）。

15.根据权利要求14所述的方法，进一步包括：存储用于所述特定用户的所述更新的手势模型和学习的几何特征分布（614）。

16.一种用于识别由用户执行的手势的***（100），包括：

图像捕获装置（102），其获取特定用户的输入图像的序列；以及

手势识别器（112），其基于从所述用户的手的轨迹提取的手势模型和几何特征来从输入图像的序列识别特定用户的手势。

17.根据权利要求16所述的***（100），其中，所述手势模型是隐马尔可夫模型（HMM）。

18.根据权利要求16所述的***（100），进一步包括：

对象检测器和***（114），其将在输入图像的所述序列中的运动参数的突变检测为候选起点；

模型匹配器（116），其将输入图像的所述序列与手势模型匹配；

事务检测器（120），其检测所述匹配的手势模型的状态转换点；

特征提取器（122），其基于所述检测的状态转换点和候选起点来提取所述用户手的轨迹的几何特征；

所述手势识别器（112）基于匹配的手势模型和所述提取的几何特征来确定所述手势的终点和手势类别，并且，从所述确定的所述手势的终点起反向跟踪通过图像，以确定所述手势的实际起点。

19.根据权利要求18所述的***（100），其中，所述手势识别器（112）被进一步配置来确定输入图像的所述序列的每一个帧的手势模型匹配分数，并且将具有比第一预定阈值大的所述手势模型匹配分数的所述帧选择为包含所述手势的所述终点的所述帧。

20.根据权利要求19所述的***（100），进一步包括修剪器（124），其基于所述提取的几何特征和确定的手势类别来拒绝输入图像的所述序列的至少一个帧的所述手势模型匹配分数。

21.根据权利要求19所述的***（100），其中，所述模型匹配器（116）被进一步配置来如果所述提取的几何特征在帧中出现的可能性小于第二预定阈值，则选择第二手势模型来用于匹配。

22.根据权利要求21所述的***（100），其中，所述第二预定阈值是基于所述确定的手势类别。

23.根据权利要求18所述的***（100），其中，手势识别器（112）包括用于反向跟踪通过所述图像的动态编程（DP）函数。

24.根据权利要求16所述的***（100），进一步包括：

对象检测器和***（114），其在输入图像的所述序列的每一个帧中检测和跟踪至少一个对象；以及

模型匹配器（116），其匹配所述检测和跟踪的至少一个对象的特征以确定所述手势模型。

25.根据权利要求24所述的***（100），进一步包括：

转换检测器（120），其检测所述手势模型的状态转换点；以及

特征提取器（122），其基于所述检测的状态转换点和所述手势的起点的相对位置来提取所述用户的所述手的轨迹的所述几何特征。

26.根据权利要求25所述的***（100），其中，所述手势识别器（112）进一步被配置来使用所述手势模型和提取的几何特征来计算用于每一个手势类别的所述检测和跟踪的至少一个对象的匹配分数，并且将所述检测和跟踪的至少一个对象分类为具有最高匹配分数的所述手势类别。

27.根据权利要求16所述的***（100），其中，所述手势识别器（112）被进一步配置来基于由所述特定用户执行的手势来适应所述特定用户的所述手势模型和几何特征分布。

28.根据权利要求27所述的***（100），其中，所述手势识别器（112）包括最大似然率线性回归（MLLR）函数，用于使用来自所述特定用户的手势样本更新所述手势模型。

29.根据权利要求28所述的***（100），其中，所述手势识别器（112）被进一步配置来通过重新估计在预定数量的自适应样本上的所述几何特征分布的平均和协方差矩阵而递增地学习用于所述特定用户的所述几何特征分布。

30.根据权利要求29所述的***（100），其中，所述手势识别器（122）进一步被配置来在存储装置（110）中存储用于所述特定用户的所述更新的手势模型和学习的几何特征分布。