CN106408579A

CN106408579A - 一种基于视频的捏合指尖跟踪方法

Info

Publication number: CN106408579A
Application number: CN201610933351.7A
Authority: CN
Inventors: 康文雄; 吴桂乐
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-10-25
Filing date: 2016-10-25
Publication date: 2017-02-15
Anticipated expiration: 2036-10-25
Also published as: CN106408579B; WO2018076484A1; SG11201900381PA

Abstract

本发明提供了一种基于视频的捏合指尖跟踪方法，其特征在于：首先采用YCbCr肤色检测器、拳头检测器和捏合指尖级联分类器构成多成分相关检测器，定位捏合指尖的位置；然后提取肤色目标搜索区域，获取轮廓并采样轮廓点，通过前后帧匹配确定肤色目标搜索区域的运动距离；之后将捏合指尖区域映射到捏合指尖肤色映射表中，结合灰度值得到CbCr‑Gray颜色特征，并计算HOG特征，从而得到CbCr‑Gray‑HOG特征；最后，采用基于高斯核函数的滤波跟踪方法定位确定当前处理视频帧图的捏合指尖区域中心点。该方法应用于空中书写***中，可准确识别捏合指尖运动轨迹，从而使捏合指尖空中书写***得以实现。

Description

一种基于视频的捏合指尖跟踪方法

技术领域

本发明涉及图像处理与分析技术领域，更具体地说，涉及一种基于视频的捏合指尖跟踪方法。

背景技术

近年来，随着虚拟现实和增强现实的快速发展，人机交互技术得到极大的发展，吸引越来越多的研究人员关注。当前，作为人机交互的核心技术之一，手指检测与跟踪被广泛应用于各个领域，诸如手势识别、空中书写等。其中，基于视频的空中书写已经被广泛应用于空中书写***的字符识别、轨迹认证等领域。

在传统的空中书写***中，主要采用提取摄像头前单个指尖运动轨迹的方式模拟人手书写的情况。然而，这种空中书写方式并不能真正模拟人手书写的实际情况——因为人手拿笔书写时，采用的一般都是三个手指捏合笔的方式，而不是只有单个手指。因此，采用单个手指模拟人手书写的方式，不仅无法正确反映人手书写时的习惯，而且极大地限制了人手书写的灵活性，导致空中书写轨迹与实际笔迹存在较大差异。

与单个手指空中书写相比，捏合指尖空中书写显然更贴切地模拟了人手拿笔书写时的实际姿态，更真实地反映实际手写情况。但是目前捏合指尖的跟踪识别方法仍处于空白，且捏合指尖形态较为复杂，跟踪难度较大；因此需要设计出一种捏合指尖跟踪方法，使捏合指尖书写方式能应用到空中书写***中。

发明内容

本发明的目的在于克服现有技术中的缺点与不足，提供一种基于视频的捏合指尖跟踪方法，该捏合指尖跟踪方法可提取有效的肤色和纹理特征实现捏合指尖的有效跟踪识别。

为了达到上述目的，本发明通过下述技术方案予以实现：一种基于视频的捏合指尖跟踪方法，用于对空中书写中的捏合手指进行持续跟踪；其特征在于：包括以下五个步骤：

第一步，捕获视频帧图，将视频帧图从RGB图像转化为YCbCr图像，通过YCbCr肤色检测器分割出肤色区域，采用拳头检测器对肤色区域进行分割得出拳头区域，在拳头区域中采用捏合指尖级联分类器定位捏合指尖区域，确定捏合指尖初始位置；

第二步，捕获下一帧视频帧图作为当前处理视频帧图；以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域；采用YCbCr肤色检测器提取目标搜索区域的肤色区域，从而获得当前处理视频帧图的肤色目标搜索区域；采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓，并采用密集采样方法获取轮廓点；采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配，确定肤色目标搜索区域的运动距离；

第三步，构建捏合指尖肤色映射表；将上一帧视频帧图的捏合指尖区域划分为十六个区域单元，分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值，结合各个区域单元的灰度值得到CbCr-Gray颜色特征；计算上一帧视频帧图捏合指尖区域的HOG特征，从而得到捏合指尖区域的CbCr-Gray-HOG特征；

第四步，采用基于高斯核函数的滤波跟踪方法，结合所述捏合指尖区域的CbCr-Gray-HOG特征，确定当前处理视频帧图的捏合指尖区域中心点；

第五步，判断捏合指尖跟踪结束条件是否成立：若成立，则跟踪结束；否则跳至第二步。

在第一步中，所述捕获视频帧图，将视频帧图从RGB图像转化为YCbCr图像，通过YCbCr肤色检测器分割出肤色区域，采用拳头检测器对肤色区域进行分割得出拳头区域，在拳头区域中采用捏合指尖级联分类器定位捏合指尖区域，确定捏合指尖初始位置是指：包括以下步骤：

(1.1)捕获若干帧连续的视频帧图；

(1.2)将各帧视频帧图像分别从RGB图像转化为YCbCr图像；

(1.3)根据人体肤色聚类特性，构造YCbCr肤色滤波器；采用YCbCr肤色滤波器确定各个YCbCr图像中的肤色区域，将非肤色区域剔除从而消除光照和非肤色区域的干扰；

(1.4)离线训练基于Haar-like特征的拳头分类器，并用拳头分类器定位各个肤色区域中的拳头区域；

(1.5)离线训练基于HOG特征的捏合指尖级联分类器，并用捏合指尖级联分类器定位各个拳头区域中的捏合指尖区域；

(1.6)设定阈值T1和T2；判断各个捏合指尖区域中心点的横坐标变化最大值和纵坐标变化最大值：如果横坐标变化最大值≤T1，且纵坐标变化最大值≤T2，则设定所述若干帧连续的视频帧图中最后一帧视频帧图的捏合指尖区域中心点为捏合指尖初始位置，并跳至第二步；否则捕获后续若干帧连续的视频帧图，并跳至步骤(1.2)。

优选地，在步骤(1.3)中，所述根据人体肤色聚类特性，构造YCbCr肤色滤波器是指，将YCbCr图像进行Y通道、Cb通道和Cr通道分离，选定Cb通道数值在色带范围[77,127]内且Cr通道数值在色带范围[133,173]内的区域作为肤色区域。

在步骤(1.6)中，所述阈值T1设定为捏合指尖区域宽度的十分之一；所述阈值T2设定为捏合指尖区域高度的十分之一。

在第二步中，所述捕获下一帧视频帧图作为当前处理视频帧图；以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域；采用YCbCr肤色检测器提取目标搜索区域的肤色区域，从而获得当前处理视频帧图的肤色目标搜索区域；采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓，并采用密集采样方法获取轮廓点；采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配，确定肤色目标搜索区域的运动距离是指：包括以下步骤：

(2.1)捕获下一帧视频帧图作为当前处理视频帧图；以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域；采用YCbCr肤色检测器提取目标搜索区域的肤色区域，从而获得当前处理视频帧图的肤色目标搜索区域；

(2.2)采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓，并采用密集采样方法获取轮廓点；

(2.3)采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配，对上一帧视频帧图和当前处理视频帧图中各个对应轮廓点分别计算出运动距离，将运动距离的均值或中间值定义为肤色目标搜索区域的运动距离。

在第三步中，所述构建捏合指尖肤色映射表；将上一帧视频帧图的捏合指尖区域划分为十六个区域单元，分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值，结合各个区域单元的灰度值得到CbCr-Gray颜色特征；计算上一帧视频帧图捏合指尖区域的HOG特征，从而得到捏合指尖区域的CbCr-Gray-HOG特征是指：包括以下步骤：

(3.1)基于人体肤色的聚类特性，选择十六种不同色带的肤色构成捏合指尖肤色映射表；

(3.2)将上一帧视频帧图的捏合指尖区域划分为十六个区域单元并映射到肤色映射表中，以分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值，分别计算各个区域单元的灰度值，得到十六维捏合指尖区域的CbCr-Gray颜色特征；

(3.3)计算上一帧视频帧图捏合指尖区域在九个梯度方向上的HOG特征，每个方向分别包括三维，共得到二十七维HOG特征，结合五维基础HOG特征，并剔除梯度值为全零的一维冗余HOG特征，构成三十一维捏合指尖区域的HOG特征；

(3.4)十六维捏合指尖区域的CbCr-Gray颜色特征与三十一维捏合指尖区域的HOG特征结合得到四十七维捏合指尖区域的CbCr-Gray-HOG特征。

在第四步中，所述采用基于高斯核函数的滤波跟踪方法，结合所述捏合指尖区域的CbCr-Gray-HOG特征，确定当前处理视频帧图的捏合指尖区域中心点是指：包括以下步骤：

(4.1)将上一帧视频帧图的捏合指尖区域中心点偏移所述肤色目标搜索区域的运动距离后得到的点作为中心在当前处理视频帧图上划定采样区域；在采样区域中，以上一帧视频帧图的捏合指尖区域中心点为中心建立大小为M×N的捏合指尖搜索区域；用循环矩阵对捏合指尖搜索区域进行循环采样得到若干捏合指尖候选样本p_m,n，其中m、n分别是指捏合指尖候选样本p_m,n的横、纵坐标值，m∈{0,...,M-1}，n∈{0,...,N-1}；

(4.2)用高斯函数分别标记各个捏合指尖候选样本p_m,n；并采用公式(1)(2)、(3)和(4)计算各个捏合指尖候选样本p_m,n的优化损失函数：

w＝∑_m,nα(m,n)φ(p_m,n) (2)

其中，φ是希尔伯特空间映射函数，λ是正则化参数，w是闭合形式的解，α是系数，F和F^-1分别为离散傅里叶变换和离散傅里叶逆变换，y是回归函数标记图像块矩阵，*是共轭复数，p是用捏合指尖区域的CbCr-Gray-HOG特征表示的图像块矩阵，p'是特征图像块矩阵p的转置，p_c是特征图像块矩阵p中第c维的特征图像块，σ²是高斯函数中的方差，是傅里叶域的元素间相乘；

寻找公式(1)计算所得的最小值以获取损失最小值，得到损失最小值对应的系数α，将该系数α代入到公式(5)中：

其中，z是捏合指尖搜索区域图像块，为核相关卷积后的响应值；

将各个捏合指尖候选样本p_m,n分别代入到公式(5)中计算得到各个捏合指尖候选样本p_m,n对应的将最小值对应的捏合指尖候选样本p_m,n作为当前处理视频帧图的捏合指尖区域，捏合指尖候选样本p_m,n对应的点(m,n)为当前处理视频帧图的捏合指尖区域中心点。

在第五步中，所述判断捏合指尖跟踪结束条件是否成立是指，设定阈值T3和T4，判断在若干帧连续的视频帧图中，相邻两帧视频帧图的捏合指尖区域中心点的横坐标变化值和纵坐标变化值是否分别小于T3和T4：若是，则捏合指尖跟踪结束条件成立，否则不成立。

所述阈值T3设定为捏合指尖区域宽度的十分之一；所述阈值T4设定为捏合指尖区域高度的十分之一。

与现有技术相比，本发明具有如下优点与有益效果：

1、本发明捏合指尖跟踪方法应用于空中书写***中，可准确识别捏合指尖运动轨迹，从而使捏合指尖空中书写***得以实现；不同于单个指尖的空中书写方式，捏合指尖空中书写较为贴切地模拟了人手拿笔书写时的实际姿态，保留了手写轨迹的灵活性，使得基于视频的空中书写***真实地反映实际的手写情况；

2、本发明捏合指尖跟踪方法，在初始化阶段采用YCbCr肤色检测器、基于Haar-like特征的拳头检测器和基于HOG特征的捏合指尖级联分类器构成一个多成分相关检测器，从复杂的场景中准确定位捏合指尖的位置；然后，通过YCbCr肤色检测器提取肤色目标搜索区域，用Canny边缘检测器获取轮廓并采样轮廓点，再用LK光流法进行轮廓点的前后帧匹配，从而确定肤色目标搜索区域的运动距离；之后，构建捏合指尖肤色映射表，将捏合指尖区域映射到捏合指尖肤色映射表中，结合灰度值得到CbCr-Gray颜色特征，并计算捏合指尖区域的HOG特征，从而得到捏合指尖区域的CbCr-Gray-HOG特征；最后，基于捏合指尖区域的CbCr-Gray-HOG特征，采用基于高斯核函数的滤波跟踪方法定位确定当前处理视频帧图的捏合指尖区域中心点，可通过提取有效的肤色和纹理特征并实现有效的跟踪。

附图说明

图1是本发明捏合指尖跟踪方法对实际手写情况的模拟示意图；

图2是本发明捏合指尖跟踪方法及其在空中签名身份认证***中应用的流程框图；

图3是本发明捏合指尖跟踪方法中第一步初始化阶段检测捏合指尖初始位置的方法流程图；

图4是本发明捏合指尖跟踪方法中第三步构建肤色映射表并提取多维特征的过程示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例

如图1至图4所示，本发明一种基于视频的捏合指尖跟踪方法，用于对空中书写中的捏合手指进行持续跟踪；包括以下五个步骤：

(1.1)捕获若干帧连续的视频帧图；帧数由设计者设定；

(1.2)将各帧视频帧图像分别从RGB图像转化为YCbCr图像；

第一步为初始化阶段，本发明捏合指尖跟踪方法将捏合指尖是否在同一位置持续停留一定时间作为转入空中书写跟踪开始的判断条件；由于书写者手部可能存在轻微抖动以及图像识别可能存在误差，因此将捏合指尖区域中心点的横纵坐标变化值是否在一定范围内来判断捏合指尖是否在同一位置上。

在步骤(1.4)中，离线训练基于Haar-like特征的拳头分类器是指，采用包括拳头的图像作为正样本，不包括拳头的图像作为负样本，采用Haar-like特征对正样本和负样本进行学习，生成拳头分类器，拳头分类器的识别目标是拳头。

在步骤(1.5)中，离线训练基于HOG特征的捏合指尖级联分类器是指，采用包括捏合指尖的图像作为正样本，不包括捏合指尖的图像作为负样本，采用HOG特征对正样本和负样本进行学习，生成捏合指尖级联分类器，捏合指尖级联分类器的识别目标是捏合指尖。

在步骤(3.1)中，选择十六种不同色带的肤色构成捏合指尖肤色映射表是指，选择象牙白、亚麻色、柠檬黄、棕色为四种基本肤色值，并在每种肤色数值附近再选择三种肤色值，组成一共十六种不同色带的肤色来构成捏合指尖肤色映射表。

w＝∑_m,nα(m,n)φ(p_m,n) (2)

本发明捏合指尖跟踪方法将捏合指尖在同一位置的小范围区域内持续停留一定时间作为判断跟踪结束的判断标准。

本发明捏合指尖跟踪方法应用于空中书写***中，可准确识别捏合指尖运动轨迹，从而使捏合指尖空中书写***得以实现；不同于单个指尖的空中书写方式，捏合指尖空中书写较为贴切地模拟了人手拿笔书写时的实际姿态，保留了手写轨迹的灵活性，使得基于视频的空中书写***真实地反映实际的手写情况。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于视频的捏合指尖跟踪方法，用于对空中书写中的捏合手指进行持续跟踪；其特征在于：包括以下五个步骤：

2.根据权利要求1所述的基于视频的捏合指尖跟踪方法，其特征在于：在第一步中，所述捕获视频帧图，将视频帧图从RGB图像转化为YCbCr图像，通过YCbCr肤色检测器分割出肤色区域，采用拳头检测器对肤色区域进行分割得出拳头区域，在拳头区域中采用捏合指尖级联分类器定位捏合指尖区域，确定捏合指尖初始位置包括以下步骤：

(1.1)捕获若干帧连续的视频帧图；

(1.2)将各帧视频帧图像分别从RGB图像转化为YCbCr图像；

3.根据权利要求2所述的基于视频的捏合指尖跟踪方法，其特征在于：在步骤(1.3)中，所述根据人体肤色聚类特性，构造YCbCr肤色滤波器是指，将YCbCr图像进行Y通道、Cb通道和Cr通道分离，选定Cb通道数值在色带范围[77,127]内且Cr通道数值在色带范围[133,173]内的区域作为肤色区域。

4.根据权利要求2所述的基于视频的捏合指尖跟踪方法，其特征在于：在步骤(1.6)中，所述阈值T1设定为捏合指尖区域宽度的十分之一；所述阈值T2设定为捏合指尖区域高度的十分之一。

5.根据权利要求1所述的基于视频的捏合指尖跟踪方法，其特征在于：在第二步中，所述捕获下一帧视频帧图作为当前处理视频帧图；以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域；采用YCbCr肤色检测器提取目标搜索区域的肤色区域，从而获得当前处理视频帧图的肤色目标搜索区域；采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓，并采用密集采样方法获取轮廓点；采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配，确定肤色目标搜索区域的运动距离是指：包括以下步骤：

6.根据权利要求1所述的基于视频的捏合指尖跟踪方法，其特征在于：在第三步中，所述构建捏合指尖肤色映射表；将上一帧视频帧图的捏合指尖区域划分为十六个区域单元，分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值，结合各个区域单元的灰度值得到CbCr-Gray颜色特征；计算上一帧视频帧图捏合指尖区域的HOG特征，从而得到捏合指尖区域的CbCr-Gray-HOG特征是指：包括以下步骤：

7.根据权利要求6所述的基于视频的捏合指尖跟踪方法，其特征在于：在第四步中，所述采用基于高斯核函数的滤波跟踪方法，结合所述捏合指尖区域的CbCr-Gray-HOG特征，确定当前处理视频帧图的捏合指尖区域中心点是指：包括以下步骤：

\underset{w}{m i n} \underset{m, n}{Σ} | < φ (p_{m, n}), w > - G a u s s i a n (m, n) |^{2} + λ | | w | |^{2} - - - (1)

w＝∑_m,nα(m,n)φ(p_m,n) (2)

α = F^{- 1} (\frac{F (y)}{F (φ (p) \cdot φ (p)) + λ}) - - - (3)

其中，φ是希尔伯特空间映射函数，λ是正则化参数，w是闭合形式的解，α是系数，F和F^-1分别为离散傅里叶变换和离散傅里叶逆变换，y是回归函数标记图像块矩阵，*是共轭复数，p是用捏合指尖区域的CbCr-Gray-HOG特征表示的图像块矩阵，p'是特征图像块矩阵p的转置，p_c是特征图像块矩阵p中第c维的特征图像块，σ²是高斯函数中的方差，⊙是傅里叶域的元素间相乘；

8.根据权利要求1所述的基于视频的捏合指尖跟踪方法，其特征在于：在第五步中，所述判断捏合指尖跟踪结束条件是否成立是指，设定阈值T3和T4，判断在若干帧连续的视频帧图中，相邻两帧视频帧图的捏合指尖区域中心点的横坐标变化值和纵坐标变化值是否分别小于T3和T4：若是，则捏合指尖跟踪结束条件成立，否则不成立。

9.根据权利要求8所述的基于视频的捏合指尖跟踪方法，其特征在于：所述阈值T3设定为捏合指尖区域宽度的十分之一；所述阈值T4设定为捏合指尖区域高度的十分之一。