CN106408579A - 一种基于视频的捏合指尖跟踪方法 - Google Patents

一种基于视频的捏合指尖跟踪方法 Download PDF

Info

Publication number
CN106408579A
CN106408579A CN201610933351.7A CN201610933351A CN106408579A CN 106408579 A CN106408579 A CN 106408579A CN 201610933351 A CN201610933351 A CN 201610933351A CN 106408579 A CN106408579 A CN 106408579A
Authority
CN
China
Prior art keywords
video
frame
finger tip
kneading
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610933351.7A
Other languages
English (en)
Other versions
CN106408579B (zh
Inventor
康文雄
吴桂乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201610933351.7A priority Critical patent/CN106408579B/zh
Priority to SG11201900381PA priority patent/SG11201900381PA/en
Priority to PCT/CN2016/109614 priority patent/WO2018076484A1/zh
Publication of CN106408579A publication Critical patent/CN106408579A/zh
Application granted granted Critical
Publication of CN106408579B publication Critical patent/CN106408579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20056Discrete and fast Fourier transform, [DFT, FFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于视频的捏合指尖跟踪方法,其特征在于:首先采用YCbCr肤色检测器、拳头检测器和捏合指尖级联分类器构成多成分相关检测器,定位捏合指尖的位置;然后提取肤色目标搜索区域,获取轮廓并采样轮廓点,通过前后帧匹配确定肤色目标搜索区域的运动距离;之后将捏合指尖区域映射到捏合指尖肤色映射表中,结合灰度值得到CbCr‑Gray颜色特征,并计算HOG特征,从而得到CbCr‑Gray‑HOG特征;最后,采用基于高斯核函数的滤波跟踪方法定位确定当前处理视频帧图的捏合指尖区域中心点。该方法应用于空中书写***中,可准确识别捏合指尖运动轨迹,从而使捏合指尖空中书写***得以实现。

Description

一种基于视频的捏合指尖跟踪方法
技术领域
本发明涉及图像处理与分析技术领域,更具体地说,涉及一种基于视频的捏合指尖跟踪方法。
背景技术
近年来,随着虚拟现实和增强现实的快速发展,人机交互技术得到极大的发展,吸引越来越多的研究人员关注。当前,作为人机交互的核心技术之一,手指检测与跟踪被广泛应用于各个领域,诸如手势识别、空中书写等。其中,基于视频的空中书写已经被广泛应用于空中书写***的字符识别、轨迹认证等领域。
在传统的空中书写***中,主要采用提取摄像头前单个指尖运动轨迹的方式模拟人手书写的情况。然而,这种空中书写方式并不能真正模拟人手书写的实际情况——因为人手拿笔书写时,采用的一般都是三个手指捏合笔的方式,而不是只有单个手指。因此,采用单个手指模拟人手书写的方式,不仅无法正确反映人手书写时的习惯,而且极大地限制了人手书写的灵活性,导致空中书写轨迹与实际笔迹存在较大差异。
与单个手指空中书写相比,捏合指尖空中书写显然更贴切地模拟了人手拿笔书写时的实际姿态,更真实地反映实际手写情况。但是目前捏合指尖的跟踪识别方法仍处于空白,且捏合指尖形态较为复杂,跟踪难度较大;因此需要设计出一种捏合指尖跟踪方法,使捏合指尖书写方式能应用到空中书写***中。
发明内容
本发明的目的在于克服现有技术中的缺点与不足,提供一种基于视频的捏合指尖跟踪方法,该捏合指尖跟踪方法可提取有效的肤色和纹理特征实现捏合指尖的有效跟踪识别。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于视频的捏合指尖跟踪方法,用于对空中书写中的捏合手指进行持续跟踪;其特征在于:包括以下五个步骤:
第一步,捕获视频帧图,将视频帧图从RGB图像转化为YCbCr图像,通过YCbCr肤色检测器分割出肤色区域,采用拳头检测器对肤色区域进行分割得出拳头区域,在拳头区域中采用捏合指尖级联分类器定位捏合指尖区域,确定捏合指尖初始位置;
第二步,捕获下一帧视频帧图作为当前处理视频帧图;以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域;采用YCbCr肤色检测器提取目标搜索区域的肤色区域,从而获得当前处理视频帧图的肤色目标搜索区域;采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓,并采用密集采样方法获取轮廓点;采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配,确定肤色目标搜索区域的运动距离;
第三步,构建捏合指尖肤色映射表;将上一帧视频帧图的捏合指尖区域划分为十六个区域单元,分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值,结合各个区域单元的灰度值得到CbCr-Gray颜色特征;计算上一帧视频帧图捏合指尖区域的HOG特征,从而得到捏合指尖区域的CbCr-Gray-HOG特征;
第四步,采用基于高斯核函数的滤波跟踪方法,结合所述捏合指尖区域的CbCr-Gray-HOG特征,确定当前处理视频帧图的捏合指尖区域中心点;
第五步,判断捏合指尖跟踪结束条件是否成立:若成立,则跟踪结束;否则跳至第二步。
在第一步中,所述捕获视频帧图,将视频帧图从RGB图像转化为YCbCr图像,通过YCbCr肤色检测器分割出肤色区域,采用拳头检测器对肤色区域进行分割得出拳头区域,在拳头区域中采用捏合指尖级联分类器定位捏合指尖区域,确定捏合指尖初始位置是指:包括以下步骤:
(1.1)捕获若干帧连续的视频帧图;
(1.2)将各帧视频帧图像分别从RGB图像转化为YCbCr图像;
(1.3)根据人体肤色聚类特性,构造YCbCr肤色滤波器;采用YCbCr肤色滤波器确定各个YCbCr图像中的肤色区域,将非肤色区域剔除从而消除光照和非肤色区域的干扰;
(1.4)离线训练基于Haar-like特征的拳头分类器,并用拳头分类器定位各个肤色区域中的拳头区域;
(1.5)离线训练基于HOG特征的捏合指尖级联分类器,并用捏合指尖级联分类器定位各个拳头区域中的捏合指尖区域;
(1.6)设定阈值T1和T2;判断各个捏合指尖区域中心点的横坐标变化最大值和纵坐标变化最大值:如果横坐标变化最大值≤T1,且纵坐标变化最大值≤T2,则设定所述若干帧连续的视频帧图中最后一帧视频帧图的捏合指尖区域中心点为捏合指尖初始位置,并跳至第二步;否则捕获后续若干帧连续的视频帧图,并跳至步骤(1.2)。
优选地,在步骤(1.3)中,所述根据人体肤色聚类特性,构造YCbCr肤色滤波器是指,将YCbCr图像进行Y通道、Cb通道和Cr通道分离,选定Cb通道数值在色带范围[77,127]内且Cr通道数值在色带范围[133,173]内的区域作为肤色区域。
在步骤(1.6)中,所述阈值T1设定为捏合指尖区域宽度的十分之一;所述阈值T2设定为捏合指尖区域高度的十分之一。
在第二步中,所述捕获下一帧视频帧图作为当前处理视频帧图;以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域;采用YCbCr肤色检测器提取目标搜索区域的肤色区域,从而获得当前处理视频帧图的肤色目标搜索区域;采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓,并采用密集采样方法获取轮廓点;采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配,确定肤色目标搜索区域的运动距离是指:包括以下步骤:
(2.1)捕获下一帧视频帧图作为当前处理视频帧图;以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域;采用YCbCr肤色检测器提取目标搜索区域的肤色区域,从而获得当前处理视频帧图的肤色目标搜索区域;
(2.2)采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓,并采用密集采样方法获取轮廓点;
(2.3)采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配,对上一帧视频帧图和当前处理视频帧图中各个对应轮廓点分别计算出运动距离,将运动距离的均值或中间值定义为肤色目标搜索区域的运动距离。
在第三步中,所述构建捏合指尖肤色映射表;将上一帧视频帧图的捏合指尖区域划分为十六个区域单元,分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值,结合各个区域单元的灰度值得到CbCr-Gray颜色特征;计算上一帧视频帧图捏合指尖区域的HOG特征,从而得到捏合指尖区域的CbCr-Gray-HOG特征是指:包括以下步骤:
(3.1)基于人体肤色的聚类特性,选择十六种不同色带的肤色构成捏合指尖肤色映射表;
(3.2)将上一帧视频帧图的捏合指尖区域划分为十六个区域单元并映射到肤色映射表中,以分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值,分别计算各个区域单元的灰度值,得到十六维捏合指尖区域的CbCr-Gray颜色特征;
(3.3)计算上一帧视频帧图捏合指尖区域在九个梯度方向上的HOG特征,每个方向分别包括三维,共得到二十七维HOG特征,结合五维基础HOG特征,并剔除梯度值为全零的一维冗余HOG特征,构成三十一维捏合指尖区域的HOG特征;
(3.4)十六维捏合指尖区域的CbCr-Gray颜色特征与三十一维捏合指尖区域的HOG特征结合得到四十七维捏合指尖区域的CbCr-Gray-HOG特征。
在第四步中,所述采用基于高斯核函数的滤波跟踪方法,结合所述捏合指尖区域的CbCr-Gray-HOG特征,确定当前处理视频帧图的捏合指尖区域中心点是指:包括以下步骤:
(4.1)将上一帧视频帧图的捏合指尖区域中心点偏移所述肤色目标搜索区域的运动距离后得到的点作为中心在当前处理视频帧图上划定采样区域;在采样区域中,以上一帧视频帧图的捏合指尖区域中心点为中心建立大小为M×N的捏合指尖搜索区域;用循环矩阵对捏合指尖搜索区域进行循环采样得到若干捏合指尖候选样本pm,n,其中m、n分别是指捏合指尖候选样本pm,n的横、纵坐标值,m∈{0,...,M-1},n∈{0,...,N-1};
(4.2)用高斯函数分别标记各个捏合指尖候选样本pm,n;并采用公式(1)(2)、(3)和(4)计算各个捏合指尖候选样本pm,n的优化损失函数:
w=∑m,nα(m,n)φ(pm,n) (2)
其中,φ是希尔伯特空间映射函数,λ是正则化参数,w是闭合形式的解,α是系数,F和F-1分别为离散傅里叶变换和离散傅里叶逆变换,y是回归函数标记图像块矩阵,*是共轭复数,p是用捏合指尖区域的CbCr-Gray-HOG特征表示的图像块矩阵,p'是特征图像块矩阵p的转置,pc是特征图像块矩阵p中第c维的特征图像块,σ2是高斯函数中的方差,是傅里叶域的元素间相乘;
寻找公式(1)计算所得的最小值以获取损失最小值,得到损失最小值对应的系数α,将该系数α代入到公式(5)中:
其中,z是捏合指尖搜索区域图像块,为核相关卷积后的响应值;
将各个捏合指尖候选样本pm,n分别代入到公式(5)中计算得到各个捏合指尖候选样本pm,n对应的最小值对应的捏合指尖候选样本pm,n作为当前处理视频帧图的捏合指尖区域,捏合指尖候选样本pm,n对应的点(m,n)为当前处理视频帧图的捏合指尖区域中心点。
在第五步中,所述判断捏合指尖跟踪结束条件是否成立是指,设定阈值T3和T4,判断在若干帧连续的视频帧图中,相邻两帧视频帧图的捏合指尖区域中心点的横坐标变化值和纵坐标变化值是否分别小于T3和T4:若是,则捏合指尖跟踪结束条件成立,否则不成立。
所述阈值T3设定为捏合指尖区域宽度的十分之一;所述阈值T4设定为捏合指尖区域高度的十分之一。
与现有技术相比,本发明具有如下优点与有益效果:
1、本发明捏合指尖跟踪方法应用于空中书写***中,可准确识别捏合指尖运动轨迹,从而使捏合指尖空中书写***得以实现;不同于单个指尖的空中书写方式,捏合指尖空中书写较为贴切地模拟了人手拿笔书写时的实际姿态,保留了手写轨迹的灵活性,使得基于视频的空中书写***真实地反映实际的手写情况;
2、本发明捏合指尖跟踪方法,在初始化阶段采用YCbCr肤色检测器、基于Haar-like特征的拳头检测器和基于HOG特征的捏合指尖级联分类器构成一个多成分相关检测器,从复杂的场景中准确定位捏合指尖的位置;然后,通过YCbCr肤色检测器提取肤色目标搜索区域,用Canny边缘检测器获取轮廓并采样轮廓点,再用LK光流法进行轮廓点的前后帧匹配,从而确定肤色目标搜索区域的运动距离;之后,构建捏合指尖肤色映射表,将捏合指尖区域映射到捏合指尖肤色映射表中,结合灰度值得到CbCr-Gray颜色特征,并计算捏合指尖区域的HOG特征,从而得到捏合指尖区域的CbCr-Gray-HOG特征;最后,基于捏合指尖区域的CbCr-Gray-HOG特征,采用基于高斯核函数的滤波跟踪方法定位确定当前处理视频帧图的捏合指尖区域中心点,可通过提取有效的肤色和纹理特征并实现有效的跟踪。
附图说明
图1是本发明捏合指尖跟踪方法对实际手写情况的模拟示意图;
图2是本发明捏合指尖跟踪方法及其在空中签名身份认证***中应用的流程框图;
图3是本发明捏合指尖跟踪方法中第一步初始化阶段检测捏合指尖初始位置的方法流程图;
图4是本发明捏合指尖跟踪方法中第三步构建肤色映射表并提取多维特征的过程示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例
如图1至图4所示,本发明一种基于视频的捏合指尖跟踪方法,用于对空中书写中的捏合手指进行持续跟踪;包括以下五个步骤:
第一步,捕获视频帧图,将视频帧图从RGB图像转化为YCbCr图像,通过YCbCr肤色检测器分割出肤色区域,采用拳头检测器对肤色区域进行分割得出拳头区域,在拳头区域中采用捏合指尖级联分类器定位捏合指尖区域,确定捏合指尖初始位置;
第二步,捕获下一帧视频帧图作为当前处理视频帧图;以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域;采用YCbCr肤色检测器提取目标搜索区域的肤色区域,从而获得当前处理视频帧图的肤色目标搜索区域;采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓,并采用密集采样方法获取轮廓点;采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配,确定肤色目标搜索区域的运动距离;
第三步,构建捏合指尖肤色映射表;将上一帧视频帧图的捏合指尖区域划分为十六个区域单元,分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值,结合各个区域单元的灰度值得到CbCr-Gray颜色特征;计算上一帧视频帧图捏合指尖区域的HOG特征,从而得到捏合指尖区域的CbCr-Gray-HOG特征;
第四步,采用基于高斯核函数的滤波跟踪方法,结合所述捏合指尖区域的CbCr-Gray-HOG特征,确定当前处理视频帧图的捏合指尖区域中心点;
第五步,判断捏合指尖跟踪结束条件是否成立:若成立,则跟踪结束;否则跳至第二步。
在第一步中,所述捕获视频帧图,将视频帧图从RGB图像转化为YCbCr图像,通过YCbCr肤色检测器分割出肤色区域,采用拳头检测器对肤色区域进行分割得出拳头区域,在拳头区域中采用捏合指尖级联分类器定位捏合指尖区域,确定捏合指尖初始位置是指:包括以下步骤:
(1.1)捕获若干帧连续的视频帧图;帧数由设计者设定;
(1.2)将各帧视频帧图像分别从RGB图像转化为YCbCr图像;
(1.3)根据人体肤色聚类特性,构造YCbCr肤色滤波器;采用YCbCr肤色滤波器确定各个YCbCr图像中的肤色区域,将非肤色区域剔除从而消除光照和非肤色区域的干扰;
(1.4)离线训练基于Haar-like特征的拳头分类器,并用拳头分类器定位各个肤色区域中的拳头区域;
(1.5)离线训练基于HOG特征的捏合指尖级联分类器,并用捏合指尖级联分类器定位各个拳头区域中的捏合指尖区域;
(1.6)设定阈值T1和T2;判断各个捏合指尖区域中心点的横坐标变化最大值和纵坐标变化最大值:如果横坐标变化最大值≤T1,且纵坐标变化最大值≤T2,则设定所述若干帧连续的视频帧图中最后一帧视频帧图的捏合指尖区域中心点为捏合指尖初始位置,并跳至第二步;否则捕获后续若干帧连续的视频帧图,并跳至步骤(1.2)。
第一步为初始化阶段,本发明捏合指尖跟踪方法将捏合指尖是否在同一位置持续停留一定时间作为转入空中书写跟踪开始的判断条件;由于书写者手部可能存在轻微抖动以及图像识别可能存在误差,因此将捏合指尖区域中心点的横纵坐标变化值是否在一定范围内来判断捏合指尖是否在同一位置上。
优选地,在步骤(1.3)中,所述根据人体肤色聚类特性,构造YCbCr肤色滤波器是指,将YCbCr图像进行Y通道、Cb通道和Cr通道分离,选定Cb通道数值在色带范围[77,127]内且Cr通道数值在色带范围[133,173]内的区域作为肤色区域。
在步骤(1.4)中,离线训练基于Haar-like特征的拳头分类器是指,采用包括拳头的图像作为正样本,不包括拳头的图像作为负样本,采用Haar-like特征对正样本和负样本进行学习,生成拳头分类器,拳头分类器的识别目标是拳头。
在步骤(1.5)中,离线训练基于HOG特征的捏合指尖级联分类器是指,采用包括捏合指尖的图像作为正样本,不包括捏合指尖的图像作为负样本,采用HOG特征对正样本和负样本进行学习,生成捏合指尖级联分类器,捏合指尖级联分类器的识别目标是捏合指尖。
在步骤(1.6)中,所述阈值T1设定为捏合指尖区域宽度的十分之一;所述阈值T2设定为捏合指尖区域高度的十分之一。
在第二步中,所述捕获下一帧视频帧图作为当前处理视频帧图;以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域;采用YCbCr肤色检测器提取目标搜索区域的肤色区域,从而获得当前处理视频帧图的肤色目标搜索区域;采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓,并采用密集采样方法获取轮廓点;采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配,确定肤色目标搜索区域的运动距离是指:包括以下步骤:
(2.1)捕获下一帧视频帧图作为当前处理视频帧图;以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域;采用YCbCr肤色检测器提取目标搜索区域的肤色区域,从而获得当前处理视频帧图的肤色目标搜索区域;
(2.2)采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓,并采用密集采样方法获取轮廓点;
(2.3)采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配,对上一帧视频帧图和当前处理视频帧图中各个对应轮廓点分别计算出运动距离,将运动距离的均值或中间值定义为肤色目标搜索区域的运动距离。
在第三步中,所述构建捏合指尖肤色映射表;将上一帧视频帧图的捏合指尖区域划分为十六个区域单元,分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值,结合各个区域单元的灰度值得到CbCr-Gray颜色特征;计算上一帧视频帧图捏合指尖区域的HOG特征,从而得到捏合指尖区域的CbCr-Gray-HOG特征是指:包括以下步骤:
(3.1)基于人体肤色的聚类特性,选择十六种不同色带的肤色构成捏合指尖肤色映射表;
(3.2)将上一帧视频帧图的捏合指尖区域划分为十六个区域单元并映射到肤色映射表中,以分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值,分别计算各个区域单元的灰度值,得到十六维捏合指尖区域的CbCr-Gray颜色特征;
(3.3)计算上一帧视频帧图捏合指尖区域在九个梯度方向上的HOG特征,每个方向分别包括三维,共得到二十七维HOG特征,结合五维基础HOG特征,并剔除梯度值为全零的一维冗余HOG特征,构成三十一维捏合指尖区域的HOG特征;
(3.4)十六维捏合指尖区域的CbCr-Gray颜色特征与三十一维捏合指尖区域的HOG特征结合得到四十七维捏合指尖区域的CbCr-Gray-HOG特征。
在步骤(3.1)中,选择十六种不同色带的肤色构成捏合指尖肤色映射表是指,选择象牙白、亚麻色、柠檬黄、棕色为四种基本肤色值,并在每种肤色数值附近再选择三种肤色值,组成一共十六种不同色带的肤色来构成捏合指尖肤色映射表。
在第四步中,所述采用基于高斯核函数的滤波跟踪方法,结合所述捏合指尖区域的CbCr-Gray-HOG特征,确定当前处理视频帧图的捏合指尖区域中心点是指:包括以下步骤:
(4.1)将上一帧视频帧图的捏合指尖区域中心点偏移所述肤色目标搜索区域的运动距离后得到的点作为中心在当前处理视频帧图上划定采样区域;在采样区域中,以上一帧视频帧图的捏合指尖区域中心点为中心建立大小为M×N的捏合指尖搜索区域;用循环矩阵对捏合指尖搜索区域进行循环采样得到若干捏合指尖候选样本pm,n,其中m、n分别是指捏合指尖候选样本pm,n的横、纵坐标值,m∈{0,...,M-1},n∈{0,...,N-1};
(4.2)用高斯函数分别标记各个捏合指尖候选样本pm,n;并采用公式(1)(2)、(3)和(4)计算各个捏合指尖候选样本pm,n的优化损失函数:
w=∑m,nα(m,n)φ(pm,n) (2)
其中,φ是希尔伯特空间映射函数,λ是正则化参数,w是闭合形式的解,α是系数,F和F-1分别为离散傅里叶变换和离散傅里叶逆变换,y是回归函数标记图像块矩阵,*是共轭复数,p是用捏合指尖区域的CbCr-Gray-HOG特征表示的图像块矩阵,p'是特征图像块矩阵p的转置,pc是特征图像块矩阵p中第c维的特征图像块,σ2是高斯函数中的方差,是傅里叶域的元素间相乘;
寻找公式(1)计算所得的最小值以获取损失最小值,得到损失最小值对应的系数α,将该系数α代入到公式(5)中:
其中,z是捏合指尖搜索区域图像块,为核相关卷积后的响应值;
将各个捏合指尖候选样本pm,n分别代入到公式(5)中计算得到各个捏合指尖候选样本pm,n对应的最小值对应的捏合指尖候选样本pm,n作为当前处理视频帧图的捏合指尖区域,捏合指尖候选样本pm,n对应的点(m,n)为当前处理视频帧图的捏合指尖区域中心点。
在第五步中,所述判断捏合指尖跟踪结束条件是否成立是指,设定阈值T3和T4,判断在若干帧连续的视频帧图中,相邻两帧视频帧图的捏合指尖区域中心点的横坐标变化值和纵坐标变化值是否分别小于T3和T4:若是,则捏合指尖跟踪结束条件成立,否则不成立。
本发明捏合指尖跟踪方法将捏合指尖在同一位置的小范围区域内持续停留一定时间作为判断跟踪结束的判断标准。
所述阈值T3设定为捏合指尖区域宽度的十分之一;所述阈值T4设定为捏合指尖区域高度的十分之一。
本发明捏合指尖跟踪方法应用于空中书写***中,可准确识别捏合指尖运动轨迹,从而使捏合指尖空中书写***得以实现;不同于单个指尖的空中书写方式,捏合指尖空中书写较为贴切地模拟了人手拿笔书写时的实际姿态,保留了手写轨迹的灵活性,使得基于视频的空中书写***真实地反映实际的手写情况。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于视频的捏合指尖跟踪方法,用于对空中书写中的捏合手指进行持续跟踪;其特征在于:包括以下五个步骤:
第一步,捕获视频帧图,将视频帧图从RGB图像转化为YCbCr图像,通过YCbCr肤色检测器分割出肤色区域,采用拳头检测器对肤色区域进行分割得出拳头区域,在拳头区域中采用捏合指尖级联分类器定位捏合指尖区域,确定捏合指尖初始位置;
第二步,捕获下一帧视频帧图作为当前处理视频帧图;以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域;采用YCbCr肤色检测器提取目标搜索区域的肤色区域,从而获得当前处理视频帧图的肤色目标搜索区域;采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓,并采用密集采样方法获取轮廓点;采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配,确定肤色目标搜索区域的运动距离;
第三步,构建捏合指尖肤色映射表;将上一帧视频帧图的捏合指尖区域划分为十六个区域单元,分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值,结合各个区域单元的灰度值得到CbCr-Gray颜色特征;计算上一帧视频帧图捏合指尖区域的HOG特征,从而得到捏合指尖区域的CbCr-Gray-HOG特征;
第四步,采用基于高斯核函数的滤波跟踪方法,结合所述捏合指尖区域的CbCr-Gray-HOG特征,确定当前处理视频帧图的捏合指尖区域中心点;
第五步,判断捏合指尖跟踪结束条件是否成立:若成立,则跟踪结束;否则跳至第二步。
2.根据权利要求1所述的基于视频的捏合指尖跟踪方法,其特征在于:在第一步中,所述捕获视频帧图,将视频帧图从RGB图像转化为YCbCr图像,通过YCbCr肤色检测器分割出肤色区域,采用拳头检测器对肤色区域进行分割得出拳头区域,在拳头区域中采用捏合指尖级联分类器定位捏合指尖区域,确定捏合指尖初始位置包括以下步骤:
(1.1)捕获若干帧连续的视频帧图;
(1.2)将各帧视频帧图像分别从RGB图像转化为YCbCr图像;
(1.3)根据人体肤色聚类特性,构造YCbCr肤色滤波器;采用YCbCr肤色滤波器确定各个YCbCr图像中的肤色区域,将非肤色区域剔除从而消除光照和非肤色区域的干扰;
(1.4)离线训练基于Haar-like特征的拳头分类器,并用拳头分类器定位各个肤色区域中的拳头区域;
(1.5)离线训练基于HOG特征的捏合指尖级联分类器,并用捏合指尖级联分类器定位各个拳头区域中的捏合指尖区域;
(1.6)设定阈值T1和T2;判断各个捏合指尖区域中心点的横坐标变化最大值和纵坐标变化最大值:如果横坐标变化最大值≤T1,且纵坐标变化最大值≤T2,则设定所述若干帧连续的视频帧图中最后一帧视频帧图的捏合指尖区域中心点为捏合指尖初始位置,并跳至第二步;否则捕获后续若干帧连续的视频帧图,并跳至步骤(1.2)。
3.根据权利要求2所述的基于视频的捏合指尖跟踪方法,其特征在于:在步骤(1.3)中,所述根据人体肤色聚类特性,构造YCbCr肤色滤波器是指,将YCbCr图像进行Y通道、Cb通道和Cr通道分离,选定Cb通道数值在色带范围[77,127]内且Cr通道数值在色带范围[133,173]内的区域作为肤色区域。
4.根据权利要求2所述的基于视频的捏合指尖跟踪方法,其特征在于:在步骤(1.6)中,所述阈值T1设定为捏合指尖区域宽度的十分之一;所述阈值T2设定为捏合指尖区域高度的十分之一。
5.根据权利要求1所述的基于视频的捏合指尖跟踪方法,其特征在于:在第二步中,所述捕获下一帧视频帧图作为当前处理视频帧图;以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域;采用YCbCr肤色检测器提取目标搜索区域的肤色区域,从而获得当前处理视频帧图的肤色目标搜索区域;采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓,并采用密集采样方法获取轮廓点;采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配,确定肤色目标搜索区域的运动距离是指:包括以下步骤:
(2.1)捕获下一帧视频帧图作为当前处理视频帧图;以上一帧视频帧图获得的捏合指尖区域中心点为中心在当前处理视频帧图上建立目标搜索区域;采用YCbCr肤色检测器提取目标搜索区域的肤色区域,从而获得当前处理视频帧图的肤色目标搜索区域;
(2.2)采用Canny边缘检测器分别对上一帧视频帧图的肤色目标搜索区域和当前处理视频帧图的肤色目标搜索区域进行处理获取轮廓,并采用密集采样方法获取轮廓点;
(2.3)采用LK光流法对上一帧视频帧图和当前处理视频帧图的轮廓点进行匹配,对上一帧视频帧图和当前处理视频帧图中各个对应轮廓点分别计算出运动距离,将运动距离的均值或中间值定义为肤色目标搜索区域的运动距离。
6.根据权利要求1所述的基于视频的捏合指尖跟踪方法,其特征在于:在第三步中,所述构建捏合指尖肤色映射表;将上一帧视频帧图的捏合指尖区域划分为十六个区域单元,分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值,结合各个区域单元的灰度值得到CbCr-Gray颜色特征;计算上一帧视频帧图捏合指尖区域的HOG特征,从而得到捏合指尖区域的CbCr-Gray-HOG特征是指:包括以下步骤:
(3.1)基于人体肤色的聚类特性,选择十六种不同色带的肤色构成捏合指尖肤色映射表;
(3.2)将上一帧视频帧图的捏合指尖区域划分为十六个区域单元并映射到肤色映射表中,以分别寻找各个区域单元CbCr色带在捏合指尖肤色映射表中最接近的数值,分别计算各个区域单元的灰度值,得到十六维捏合指尖区域的CbCr-Gray颜色特征;
(3.3)计算上一帧视频帧图捏合指尖区域在九个梯度方向上的HOG特征,每个方向分别包括三维,共得到二十七维HOG特征,结合五维基础HOG特征,并剔除梯度值为全零的一维冗余HOG特征,构成三十一维捏合指尖区域的HOG特征;
(3.4)十六维捏合指尖区域的CbCr-Gray颜色特征与三十一维捏合指尖区域的HOG特征结合得到四十七维捏合指尖区域的CbCr-Gray-HOG特征。
7.根据权利要求6所述的基于视频的捏合指尖跟踪方法,其特征在于:在第四步中,所述采用基于高斯核函数的滤波跟踪方法,结合所述捏合指尖区域的CbCr-Gray-HOG特征,确定当前处理视频帧图的捏合指尖区域中心点是指:包括以下步骤:
(4.1)将上一帧视频帧图的捏合指尖区域中心点偏移所述肤色目标搜索区域的运动距离后得到的点作为中心在当前处理视频帧图上划定采样区域;在采样区域中,以上一帧视频帧图的捏合指尖区域中心点为中心建立大小为M×N的捏合指尖搜索区域;用循环矩阵对捏合指尖搜索区域进行循环采样得到若干捏合指尖候选样本pm,n,其中m、n分别是指捏合指尖候选样本pm,n的横、纵坐标值,m∈{0,...,M-1},n∈{0,...,N-1};
(4.2)用高斯函数分别标记各个捏合指尖候选样本pm,n;并采用公式(1)(2)、(3)和(4)计算各个捏合指尖候选样本pm,n的优化损失函数:
m i n w &Sigma; m , n | < &phi; ( p m , n ) , w > - G a u s s i a n ( m , n ) | 2 + &lambda; | | w | | 2 - - - ( 1 )
w=∑m,nα(m,n)φ(pm,n) (2)
&alpha; = F - 1 ( F ( y ) F ( &phi; ( p ) &CenterDot; &phi; ( p ) ) + &lambda; ) - - - ( 3 )
其中,φ是希尔伯特空间映射函数,λ是正则化参数,w是闭合形式的解,α是系数,F和F-1分别为离散傅里叶变换和离散傅里叶逆变换,y是回归函数标记图像块矩阵,*是共轭复数,p是用捏合指尖区域的CbCr-Gray-HOG特征表示的图像块矩阵,p'是特征图像块矩阵p的转置,pc是特征图像块矩阵p中第c维的特征图像块,σ2是高斯函数中的方差,⊙是傅里叶域的元素间相乘;
寻找公式(1)计算所得的最小值以获取损失最小值,得到损失最小值对应的系数α,将该系数α代入到公式(5)中:
其中,z是捏合指尖搜索区域图像块,为核相关卷积后的响应值;
将各个捏合指尖候选样本pm,n分别代入到公式(5)中计算得到各个捏合指尖候选样本pm,n对应的最小值对应的捏合指尖候选样本pm,n作为当前处理视频帧图的捏合指尖区域,捏合指尖候选样本pm,n对应的点(m,n)为当前处理视频帧图的捏合指尖区域中心点。
8.根据权利要求1所述的基于视频的捏合指尖跟踪方法,其特征在于:在第五步中,所述判断捏合指尖跟踪结束条件是否成立是指,设定阈值T3和T4,判断在若干帧连续的视频帧图中,相邻两帧视频帧图的捏合指尖区域中心点的横坐标变化值和纵坐标变化值是否分别小于T3和T4:若是,则捏合指尖跟踪结束条件成立,否则不成立。
9.根据权利要求8所述的基于视频的捏合指尖跟踪方法,其特征在于:所述阈值T3设定为捏合指尖区域宽度的十分之一;所述阈值T4设定为捏合指尖区域高度的十分之一。
CN201610933351.7A 2016-10-25 2016-10-25 一种基于视频的捏合指尖跟踪方法 Active CN106408579B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610933351.7A CN106408579B (zh) 2016-10-25 2016-10-25 一种基于视频的捏合指尖跟踪方法
SG11201900381PA SG11201900381PA (en) 2016-10-25 2016-12-13 Method for tracking pinched fingertips based on video
PCT/CN2016/109614 WO2018076484A1 (zh) 2016-10-25 2016-12-13 一种基于视频的捏合指尖跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610933351.7A CN106408579B (zh) 2016-10-25 2016-10-25 一种基于视频的捏合指尖跟踪方法

Publications (2)

Publication Number Publication Date
CN106408579A true CN106408579A (zh) 2017-02-15
CN106408579B CN106408579B (zh) 2019-01-29

Family

ID=58011921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610933351.7A Active CN106408579B (zh) 2016-10-25 2016-10-25 一种基于视频的捏合指尖跟踪方法

Country Status (3)

Country Link
CN (1) CN106408579B (zh)
SG (1) SG11201900381PA (zh)
WO (1) WO2018076484A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107240122A (zh) * 2017-06-15 2017-10-10 国家新闻出版广电总局广播科学研究院 基于时空连续相关滤波的视频目标跟踪方法
CN109448189A (zh) * 2018-10-29 2019-03-08 极鱼(北京)科技有限公司 无人银行管理办法、无人银行和无人银行***

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765814B (zh) * 2018-07-26 2023-07-14 杭州海康威视数字技术股份有限公司 一种黑板书写行为识别方法、装置及摄像机
CN111931722B (zh) * 2020-09-23 2021-02-12 杭州视语智能视觉***技术有限公司 一种结合颜色比率特征的相关滤波跟踪方法
CN112861641B (zh) * 2021-01-15 2022-05-20 复旦大学 一种面向人机交互领域的动态手势识别硬件加速器
CN113610888B (zh) * 2021-06-29 2023-11-24 南京信息工程大学 一种基于高斯平滑的孪生网络目标跟踪方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901350A (zh) * 2010-07-23 2010-12-01 北京航空航天大学 一种基于特征向量的静态手势识别方法
US20150110347A1 (en) * 2013-10-22 2015-04-23 Fujitsu Limited Image processing device and image processing method
CN104821010A (zh) * 2015-05-04 2015-08-05 清华大学深圳研究生院 基于双目视觉的人手三维信息实时提取方法及***
CN105261038A (zh) * 2015-09-30 2016-01-20 华南理工大学 基于双向光流和感知哈希的指尖跟踪方法
CN105739702A (zh) * 2016-01-29 2016-07-06 电子科技大学 用于自然人机交互的多姿态指尖跟踪方法
CN105975934A (zh) * 2016-05-05 2016-09-28 中国人民解放军63908部队 一种用于增强现实辅助维修的动态手势识别方法及***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819733B (zh) * 2012-08-09 2014-10-08 中国科学院自动化研究所 一种快速的街景图像中人脸的检测模糊方法
JP6221505B2 (ja) * 2013-08-22 2017-11-01 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
CN105335711B (zh) * 2015-10-22 2019-01-15 华南理工大学 一种复杂环境下指尖检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901350A (zh) * 2010-07-23 2010-12-01 北京航空航天大学 一种基于特征向量的静态手势识别方法
US20150110347A1 (en) * 2013-10-22 2015-04-23 Fujitsu Limited Image processing device and image processing method
CN104821010A (zh) * 2015-05-04 2015-08-05 清华大学深圳研究生院 基于双目视觉的人手三维信息实时提取方法及***
CN105261038A (zh) * 2015-09-30 2016-01-20 华南理工大学 基于双向光流和感知哈希的指尖跟踪方法
CN105739702A (zh) * 2016-01-29 2016-07-06 电子科技大学 用于自然人机交互的多姿态指尖跟踪方法
CN105975934A (zh) * 2016-05-05 2016-09-28 中国人民解放军63908部队 一种用于增强现实辅助维修的动态手势识别方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107240122A (zh) * 2017-06-15 2017-10-10 国家新闻出版广电总局广播科学研究院 基于时空连续相关滤波的视频目标跟踪方法
CN109448189A (zh) * 2018-10-29 2019-03-08 极鱼(北京)科技有限公司 无人银行管理办法、无人银行和无人银行***

Also Published As

Publication number Publication date
CN106408579B (zh) 2019-01-29
WO2018076484A1 (zh) 2018-05-03
SG11201900381PA (en) 2019-02-27

Similar Documents

Publication Publication Date Title
CN106408579B (zh) 一种基于视频的捏合指尖跟踪方法
CN107168527B (zh) 基于区域卷积神经网络的第一视角手势识别与交互方法
Abdat et al. Human-computer interaction using emotion recognition from facial expression
CN104123545B (zh) 一种实时表情特征提取及表情识别方法
Schindler et al. Action snippets: How many frames does human action recognition require?
CN103942577B (zh) 视频监控中基于自建立样本库及混合特征的身份识别方法
CN104063059B (zh) 一种基于手指分割的实时手势识别方法
CN108491077A (zh) 一种基于多流分治卷积神经网络的表面肌电信号手势识别方法
Ding et al. Modelling and recognition of the linguistic components in american sign language
CN107103326A (zh) 基于超像素聚类的协同显著性检测方法
CN106909220A (zh) 一种适用于触控的视线交互方法
CN103336967B (zh) 一种手部运动轨迹检测方法及装置
CN104850825A (zh) 一种基于卷积神经网络的人脸图像颜值计算方法
Khan et al. Facial expression recognition on real world face images using intelligent techniques: A survey
CN102521595A (zh) 一种基于眼动数据和底层特征的图像感兴趣区域提取方法
CN105139004A (zh) 基于视频序列的人脸表情识别方法
CN108647654A (zh) 基于视觉的手势视频图像识别***和方法
CN109034099A (zh) 一种表情识别方法及装置
CN104268514A (zh) 一种基于多特征融合的手势检测方法
CN110110602A (zh) 一种基于三维残差神经网络和视频序列的动态手语识别方法
CN102930270A (zh) 基于肤色检测与背景消除的手部识别方法及***
CN102163281A (zh) 基于AdaBoost框架和头部颜色的实时人体检测方法
CN109086659A (zh) 一种基于多模道特征融合的人体行为识别方法和装置
CN109325408A (zh) 一种手势判断方法及存储介质
Gorbova et al. Going deeper in hidden sadness recognition using spontaneous micro expressions database

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant