CN107169411B - 一种基于关键帧和边界约束dtw的实时动态手势识别方法 - Google Patents
一种基于关键帧和边界约束dtw的实时动态手势识别方法 Download PDFInfo
- Publication number
- CN107169411B CN107169411B CN201710224005.6A CN201710224005A CN107169411B CN 107169411 B CN107169411 B CN 107169411B CN 201710224005 A CN201710224005 A CN 201710224005A CN 107169411 B CN107169411 B CN 107169411B
- Authority
- CN
- China
- Prior art keywords
- gestures
- gesture
- frame images
- key frame
- dtw
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于关键帧和边界约束DTW的实时动态手势识别方法,在动态手势特征提取阶段,将动态手势的运动方向引入到关键帧手势图像选取中,并根据动态手势的变化趋势实现对关键帧手势图像选取阈值的动态调整,在此基础上利用局部极值的特性并结合凸包过滤实现对关键帧手势图像的指尖特征提取;在动态手势识别阶段,提出一种转换方法,用于计算不等长的二维手势序列之间的DTW下界距离,并且在DTW距离计算过程中给出设置手势数据的配对范围的方法。本发明综合考虑了动态手势的轨迹特征和结构特征,并通过关键帧图像选取、构造DTW下界距离、设置手势数据的配对范围,缩短了动态手势识别过程的计算时间。
Description
技术领域
本发明涉及一种基于关键帧和边界约束DTW的实时动态手势识别方法,属于人机交互技术领域。
背景技术
随着人机交互技术逐渐成熟,手势识别技术被广泛应用到手语识别、智能交通、游戏娱乐等诸多领域。根据手势采集设备的不同,目前的手势识别技术可以分为基于数据手套的手势识别技术和基于视觉的手势识别技术。其中,基于视觉的手势识别技术不需要穿戴笨重的手套设备,能够以一种更加灵活、自然的方式进行人机交互,已成为目前的研究热点。该技术主要分为手势分割、手势特征提取和手势识别三个阶段,其中,手势特征提取用于表达手势,是进行手势识别的依据,而手势识别用于区分手势,是实现手势交互的重要途径。因此,手势特征提取算法和手势识别算法是决定手势识别技术准确性和实时性的关键因素。
动态手势特征提取是指消除手势图像中的重复数据,得到能够描述手势本质属性的一系列用数值表示的特征,并通过这些特征来表达手势。Ganapathyraju等人提出一种基于凸包缺陷的动态手势特征提取算法,对于凸包中的每一个凸包缺陷,根据它的起始点、中心点、距离最远点以及最远点到凸包的距离四个特征之间的相互关系,判断是否存在指尖点。但该算法只能计算出指尖的个数,并不能获取指尖点的位置信息,并且易受到噪声数据的干扰,对于相似的手势识别正确率较差。李博男等人提出一种改进k曲率的手势特征提取算法,在筛选出曲率较大的指尖点集后,采用聚类算法将候选指尖点划分成多个子集,并选择每个子集的中位点表示指尖位置。但是该算法需要依赖人为设置的曲率阈值,并且对候选指尖特征点进行聚类过滤需要消耗较长的计算时间。Pathak等人提出一种基于关键帧的手势特征提取算法,通过计算和比较相邻帧手势图像的质心距离,将距离大于阈值的手势图像作为关键帧进行特征提取。但是该算法的关键帧选取阈值的设置依赖人为的先验知识,由于不同动态手势的运动速率存在差异,很难确定合适的阈值大小。丁洪丽等人提出一种关键帧选取算法,通过计算整个视频的相邻帧图像像素差的均值和方差确定关键帧选取阈值大小,但是在手势识别过程中,动态手势视频长度是未知的,因此该算法不能用于动态手势的关键帧手势图像选取。
动态手势识别是指通过某种方式计算出手势运动轨迹与预设模板的相关系数来判断手势的交互语义。基于DTW的动态手势识别算法作为一种非线性时间规整的模板匹配算法,通过弯曲输入手势序列的时间轴使之与手势模板之间达到最大程度的重叠,可以消除手势之间的时间差异,提高手势识别的准确性,但是该算法的计算复杂度较高,计算量较大,识别时间受到模板匹配次数和手势序列长度的影响,难以实现实时手势识别。郑旭为了减少DTW距离的计算次数,提出一种DTW下界距离的计算方法,利用基于小波熵的时间序列分段聚合近似表示方法,将长度不同的序列降维成等长的序列,再通过改进的DTW下界距离函数过滤相似可能性较低的序列之间的DTW距离计算,但是该算法不能用于计算手势序列之间的DTW下界距离。何超等人提出在DTW距离的计算过程中,为手势数据设置固定的边界宽度,从而减少DTW距离的计算量。但是边界宽度的设置依赖于人的先验知识,若边界宽度过小,则可能造成DTW距离偏差过大,导致错误的识别,反之则缩短的时间可以忽略不计。
综上所述,现有的动态手势识别技术中对动态手势进行特征提取需要从手势视频的每帧手势图像中提取出能够表达该手势运动轨迹和外形结构的信息,计算量较大,会增加手势特征提取的时间。同时,在手势识别阶段,采用基于DTW的动态手势识别算法计算复杂度较高,识别时间受到模板匹配的次数和手势序列长度的影响,降低了手势识别的实时性。
发明内容
本发明所要解决的技术问题是提供一种基于关键帧和边界约束DTW的实时动态手势识别方法,根据动态手势的运动特性以及手势指尖的局部极值性,提取出动态手势的轨迹特征和结构特征,并通过构造DTW下界距离和设置手势数据的边界宽度,计算出待识别手势与手势模板的DTW距离,在得到手势识别结果的同时,缩短手势识别的时间。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于关键帧和边界约束DTW的实时动态手势识别方法,包括如下步骤:
步骤1)根据动态手势运动特性,针对待识别动态手势图像序列,选取关键帧手势图像;
上述步骤1)中,根据如下步骤,针对待识别动态手势图像序列,选取关键帧手势图像;
步骤101)设动态手势图像序列为IInput={I1,I2,...,In},n为动态手势图像序列的长度,It,t∈[1,n],It表示第t帧手势图像;g′t表示第t帧手势图像的质心,表示第t帧手势图像的质心坐标;δt表示第t帧手势图像的关键帧手势图像选取阈值;表示第t1帧手势图像与第t2帧手势图像之间的质心距离;
步骤102)针对动态手势图像序列,计算相邻帧手势图像之间质心偏移角度θt的正弦值和余弦值:
步骤103)针对动态手势图像序列,计算相邻帧手势图像之间的相对运动方向dirt:
步骤104)针对手势图像It,判断dirt≠dirt-1是否成立,是则将该手势图像It作为关键帧手势图像;否则进一步针对该手势图像It,判断判断dist(t,t-1)>δt-1是否成立,是则将将该手势图像It作为关键帧手势图像;否则将该手势图像It不作为关键帧手势图像;
步骤105)根据
更新关键帧手势图像选取阈值δt;
步骤2)获得各个关键帧手势图像的指尖特征点,并结合关键帧手势图像的质心,构建该帧手势图像的手势特征向量,然后进一步构建待识别动态手势所对应的动态手势特征向量;
步骤3)针对动态手势特征向量,分别计算手势模板库中各个动态手势模板特征向量与待识别动态手势特征向量之间的DTW下界距离,获得满足预设要求的DTW下界距离所对应的各个动态手势模板特征向量;
上述步骤3)中,分别针对手势模板库中的各个动态手势模板特征向量,执行如下步骤,分别计算手势模板库中各个动态手势模板特征向量与所获待识别动态手势特征向量之间的DTW下界距离,并针对DTW下界距离进行判断,进而获得满足预设要求的DTW下界距离所对应的各个动态手势模板特征向量;
步骤301)设待识别的动态手势特征向量为其中μ∈[1,n],n为VI的长度;为VI中所有质心坐标的集合,为GI在水平方向上的投影,为GI在垂直方向上的投影;为VI中所有指尖特征的集合;手势模板库中动态手势模板特征向量为其中k∈[1,m],m为VT的长度;为VT中所有质心坐标的集合,为GT在水平方向上的投影,为GT在垂直方向上的投影;为VT中所有指尖特征的集合。max为n和m的最大值,min为n和m的最小值;
步骤302)重定位GI和GT,得到起始点相同的手势轨迹序列GI′和GT′;
步骤303)采用插值法在GI′和GT′的起始位置分别添加max+1-n和max+1-m个起始点坐标得到长度为max+1的手势序列GI+={GI*,GI′},和GT+={GT*,GT′},
步骤304)计算GI+在水平方向和垂直方向上的变化程度:
diff_x=max(XI+)-min(XI+),diff_y=max(YI+)-min(YI+)
其中max()表示序列中的最大值,min()表示序列中的最小值;
步骤305)若diff_x≥diff_y,则采用LB_Keogh算法计算XI+和XT+的DTW下界距离LB_D(XI+,XT+);否则计算YI+和YT+的DTW下界距离LB_D(YI+,YT+);
步骤306)判断LB_D(XI+,XT+)或LB_D(YI+,YT+)是否大于当前预设最小DTW距离,是则该动态手势模板特征向量不满足预设要求,否则该动态手势模板特征向量满足预设要求;
步骤4)针对满足预设要求的DTW下界距离所对应的各个动态手势模板特征向量,分别计算各个动态手势模板特征向量与待识别动态手势特征向量之间DTW距离,基于DTW距离,实现针对待识别动态手势的识别。
作为本发明的一种优选技术方案,所述步骤2)包括如下步骤:
步骤201)设csk表示第k个关键帧手势图像的手势轮廓点集,Nk表示第k个关键帧手势图像中手势轮廓点个数,ck,λ表示为第k个关键帧手势图像中第λ个手势轮廓点,ck,λ=(xk,λ,yk,λ)表示为第k个关键帧手势图像中第λ个手势轮廓点坐标,λ∈[1,Nk],gk为第k个关键帧手势图像的质心;
步骤202)分别针对各个关键帧手势图像,根据如下公式:
计算关键帧手势图像中各个手势轮廓点ck,λ分别与对应关键帧手势图像的质心gk之间的距离dist(ck,λ,gk);
步骤203)分别针对各个关键帧手势图像,进一步分别针对关键帧手势图像中的各个手势轮廓点ck,λ,首先获得该关键帧手势图像所有手势轮廓点中满足|ck,λ-ck,λ′|<ε的手势轮廓点ck,λ′,然后判断所获各个手势轮廓点ck,λ′,是否均满足dist(ck,λ’,gk)≤dist(ck,λ,gk),是则将该手势轮廓点ck,λ加入该关键帧手势图像所对应的类指尖特征点集中,否则不对该手势轮廓点ck,λ进行任何处理,如此完成针对该关键帧手势图像中各个手势轮廓点的上述操作,获得该关键帧手势图像所对应的类指尖特征点集,进而获得各个关键帧手势图像所对应的类指尖特征点集;其中,ε>0,ε表示预设范围阈值;
步骤204)分别针对各个关键帧手势图像,计算获得关键帧手势图像所对应的凸包曲线hullk,进而获得各个关键帧手势图像分别所对应的凸包曲线hullk;
步骤205)分别针对各个关键帧手势图像,进一步分别针对关键帧手势图像所对应类指尖特征点集中的各个类指尖特征点,若类指尖特征点属于该关键帧手势图像所对应的凸包曲线,则将该类指尖特征点添加到该关键帧手势图像所对应的指尖特征点集,如此完成针对该关键帧手势图像所对应类指尖特征点集中各个类指尖特征点的上述操作,获得该关键帧手势图像所对应的指尖特征点集,进而获得各个关键帧手势图像所对应的指尖特征点集;
步骤206)分别针对各个关键帧手势图像,获得关键帧手势图像所对应指尖特征点集中指尖特征点个数,结合该关键帧手势图像的质心,构建该关键帧手势图像的手势特征向量,然后进一步构建待识别动态手势所对应的动态手势特征向量。
作为本发明的一种优选技术方案,所述步骤4)中,针对满足预设要求的DTW下界距离所对应的各个动态手势模板特征向量,基于如下定义,执行如下步骤,并基于DTW距离,实现针对待识别动态手势的识别;
定义手势方向序列FG={subFG1,...,subFGα},subFG={dirω,lenω,bandω},ω∈{1,...,α},其中,α为子序列的个数,dirω为第ω个子序列的运动方向,lenω为具有相同运动方向的连续轨迹数据的个数,bandω为该子序列的边界宽度;
步骤401)计算GI′中相邻手势轨迹数据g′μ和g′μ-1之间的向量坐标,再利用Freeman-4链码计算该向量的方向码值c′μ:
最后将GI′中所***值相同的连续手势数据进行合并,得到若干手势方向子序列subFGI′,组合后得到GI′的手势方向序列FGI′,同理构造GT′的手势方向序列FGT′;
步骤402)比较FGI′和FGT′中具有相同下标的子序列,若子序列的方向码值相同,则选择这两个子序列中较大的长度作为候选边界宽度cband,再将cband与允许的边界宽度上界iband比较,设置选择二者最小值作为该子序列对应的所有手势数据的边界宽度;否则设置该子序列的对应的所有手势数据的边界宽度为iband;
步骤403)基于动态规划的思想在每个手势数据的边界宽度范围内寻找最优弯曲路径,得到GI′和GT′的DTW距离DTW(GI′,GT′);
步骤404)针对计算得到的所有DTW距离进行降序排序,若存在某个DTW距离与最小DTW距离的绝对差值小于阈值,跳到步骤405);否则将最小DTW距离对应的动态手势模板作为识别结果;
步骤405)计算CI和CT之间的结构距离,沿用相同的DTW最优弯曲路径,对路径节点上的与进行异或,并对异或结果进行累加,得到CI和CT的结构距离CD(CI,CT),最后选择结构距离最小的动态手势模板作为识别结果。
本发明所述一种基于关键帧和边界约束DTW的实时动态手势识别方法采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明设计的基于关键帧和边界约束DTW的实时动态手势识别方法,考虑了动态手势的运动方向和运动速率,本发明通过比较相邻帧手势图像之间的运动方向,将运动方向发生改变的手势图像也作为关键帧图像进行特征提取;同时通过计算当前帧手势图像之前所有质心距离的平均值,动态调整关键帧手势图像选取阈值的大小,从而减少动态手势的关键信息的丢失,提高手势特征提取的准确性和实时性;
(2)本发明设计的基于关键帧和边界约束DTW的实时动态手势识别方法,考虑到手势指尖点具有局部极值性,本发明通过构造距离函数并结合凸包过滤,寻找手势轮廓曲线上的局部极值点,确定手势中存在的指尖特征,可以降低指尖特征提取的时间复杂度,在保证较高准确性的同时,缩短指尖特征提取的时间;
(3)本发明设计的基于关键帧和边界约束DTW的实时动态手势识别方法,给出一种将不等长的二维手势序列转换成等长的一维手势序列的方法,可以通过计算DTW下界距离减少相似可能性较低的手势序列之间的DTW距离计算,缩短手势识别的时间;
(4)本发明设计的基于关键帧和边界约束DTW的实时动态手势识别方法,根据动态手势序列运动方向之间的关系,利用Freeman链码确定手势序列中每个手势数据的配对范围,从而减少DTW距离的计算量,缩短手势识别的时间。
附图说明
图1是本发明所设计基于关键帧和边界约束DTW的实时动态手势识别方法的流程示意图;
图2为本发明一实施例中进行指尖特征提取的示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
如图1所示,本发明设计了一种基于关键帧和边界约束DTW的实时动态手势识别方法,实际应用过程当中,具体包括如下步骤:
步骤1)根据动态手势运动特性,采用如下步骤,针对待识别动态手势图像序列,选取关键帧手势图像。
步骤101)设动态手势图像序列为IInput={I1,I2,...,In},n为动态手势图像序列的长度,It,t∈[1,n],It表示第t帧手势图像;g′t表示第t帧手势图像的质心,表示第t帧手势图像的质心坐标;δt表示第t帧手势图像的关键帧手势图像选取阈值;表示第t1帧手势图像与第t2帧手势图像之间的质心距离。
步骤102)针对动态手势图像序列,计算相邻帧手势图像之间质心偏移角度θt的正弦值和余弦值:
步骤103)针对动态手势图像序列,计算相邻帧手势图像之间的相对运动方向dirt;
步骤104)针对手势图像It,判断dirt≠dirt-1是否成立,是则将该手势图像It作为关键帧手势图像;否则进一步针对该手势图像It,判断判断dist(t,t-1)>δt-1是否成立,是则将将该手势图像It作为关键帧手势图像;否则将该手势图像It不作为关键帧手势图像。
步骤105)根据
更新关键帧手势图像选取阈值δt。
步骤2)获得各个关键帧手势图像的指尖特征点,并结合关键帧手势图像的质心,构建该帧手势图像的手势特征向量,然后进一步构建待识别动态手势所对应的动态手势特征向量。
上述步骤2)具体包括如下步骤:
步骤201)设csk表示第k个关键帧手势图像的手势轮廓点集,Nk表示第k个关键帧手势图像中手势轮廓点个数,ck,λ表示为第k个关键帧手势图像中第λ个手势轮廓点,ck,λ=(xk,λ,yk,λ)表示为第k个关键帧手势图像中第λ个手势轮廓点坐标,λ∈[1,Nk],gk为第k个关键帧手势图像的质心。
步骤202)分别针对各个关键帧手势图像,根据如下公式:
计算关键帧手势图像中各个手势轮廓点ck,λ分别与对应关键帧手势图像的质心gk之间的距离dist(ck,λ,gk)。
步骤203)分别针对各个关键帧手势图像,进一步分别针对关键帧手势图像中的各个手势轮廓点ck,λ,首先获得该关键帧手势图像所有手势轮廓点中满足|ck,λ-ck,λ′|<ε的手势轮廓点ck,λ′,然后判断所获各个手势轮廓点ck,λ′,是否均满足dist(ck,λ’,gk)≤dist(ck,λ,gk),是则将该手势轮廓点ck,λ加入该关键帧手势图像所对应的类指尖特征点集中,否则不对该手势轮廓点ck,λ进行任何处理,如此完成针对该关键帧手势图像中各个手势轮廓点的上述操作,获得该关键帧手势图像所对应的类指尖特征点集,进而获得各个关键帧手势图像所对应的类指尖特征点集;其中,ε>0,ε表示预设范围阈值。
步骤204)分别针对各个关键帧手势图像,计算获得关键帧手势图像所对应的凸包曲线hullk,进而获得各个关键帧手势图像分别所对应的凸包曲线hullk。
步骤205)分别针对各个关键帧手势图像,进一步分别针对关键帧手势图像所对应类指尖特征点集中的各个类指尖特征点,若类指尖特征点属于该关键帧手势图像所对应的凸包曲线,则将该类指尖特征点添加到该关键帧手势图像所对应的指尖特征点集,如此完成针对该关键帧手势图像所对应类指尖特征点集中各个类指尖特征点的上述操作,获得该关键帧手势图像所对应的指尖特征点集,进而获得各个关键帧手势图像所对应的指尖特征点集。
步骤206)分别针对各个关键帧手势图像,获得关键帧手势图像所对应指尖特征点集中指尖特征点个数,结合该关键帧手势图像的质心,构建该关键帧手势图像的手势特征向量,然后进一步构建待识别动态手势所对应的动态手势特征向量。
步骤3)分别针对手势模板库中的各个动态手势模板特征向量,执行如下步骤,分别计算手势模板库中各个动态手势模板特征向量与所获待识别动态手势特征向量之间的DTW下界距离,并针对DTW下界距离进行判断,进而获得满足预设要求的DTW下界距离所对应的各个动态手势模板特征向量。
步骤301)设待识别的动态手势特征向量为其中μ∈[1,n],n为VI的长度;为VI中所有质心坐标的集合,为GI在水平方向上的投影,为GI在垂直方向上的投影;为VI中所有指尖特征的集合;手势模板库中动态手势模板特征向量为其中k∈[1,m],m为VT的长度;为VT中所有质心坐标的集合,为GT在水平方向上的投影,为GT在垂直方向上的投影;为VT中所有指尖特征的集合。max为n和m的最大值,min为n和m的最小值。
步骤302)重定位GI和GT,得到起始点相同的手势轨迹序列GI′和GT′。
步骤303)采用插值法在GI′和GT′的起始位置分别添加max+1-n和max+1-m个起始点坐标得到长度为max+1的手势序列GI+={GI*,GI′},和GT+={GT*,GT′},
步骤304)计算GI+在水平方向和垂直方向上的变化程度:
diff_x=max(XI+)-min(XI+),diff_y=max(YI+)-min(YI+)
其中max()表示序列中的最大值,min()表示序列中的最小值。
步骤305)若diff_x≥diff_y,则采用LB_Keogh算法计算XI+和XT+的DTW下界距离LB_D(XI+,XT+);否则计算YI+和YT+的DTW下界距离LB_D(YI+,YT+)。
步骤306)判断LB_D(XI+,XT+)或LB_D(YI+,YT+)是否大于当前预设最小DTW距离,是则该动态手势模板特征向量不满足预设要求,否则该动态手势模板特征向量满足预设要求。
步骤4)针对满足预设要求的DTW下界距离所对应的各个动态手势模板特征向量,基于如下定义,执行如下步骤,并基于DTW距离,实现针对待识别动态手势的识别。
定义手势方向序列FG={subFG1,...,subFGα},subFG={dirω,lenω,bandω},ω∈{1,...,α},其中,α为子序列的个数,dirω为第ω个子序列的运动方向,lenω为具有相同运动方向的连续轨迹数据的个数,bandω为该子序列的边界宽度。
步骤401)计算GI′中相邻手势轨迹数据g′μ和g′μ-1之间的向量坐标,再利用Freeman-4链码计算该向量的方向码值c′μ:
最后将GI′中所***值相同的连续手势数据进行合并,得到若干手势方向子序列subFGI′,组合后得到GI′的手势方向序列FGI′,同理构造GT′的手势方向序列FGT′。
步骤402)比较FGI′和FGT′中具有相同下标的子序列,若子序列的方向码值相同,则选择这两个子序列中较大的长度作为候选边界宽度cband,再将cband与允许的边界宽度上界iband比较,设置选择二者最小值作为该子序列对应的所有手势数据的边界宽度;否则设置该子序列的对应的所有手势数据的边界宽度为iband。
步骤403)基于动态规划的思想在每个手势数据的边界宽度范围内寻找最优弯曲路径,得到GI′和GT′的DTW距离DTW(GI′,GT′)。
步骤404)针对计算得到的所有DTW距离进行降序排序,若存在某个DTW距离与最小DTW距离的绝对差值小于阈值,跳到步骤405);否则将最小DTW距离对应的动态手势模板作为识别结果。
步骤405)计算CI和CT之间的结构距离,沿用相同的DTW最优弯曲路径,对路径节点上的与进行异或,并对异或结果进行累加,得到CI和CT的结构距离CD(CI,CT),最后选择结构距离最小的动态手势模板作为识别结果。
本发明技术方案中涉及到的LB_Keogh算法以及Freeman链码均为现有技术,详细内容可参考文献[Keogh E,Ratanamahatana C A.Exact indexing of dynamic timewarping[J].Knowledge and information systems,2005,7(3):358-386],[FreemanH.Computer processing of line-drawing images[J].ACM Computing Surveys(CSUR),1974,6(1):57-97.]。
上述技术方案所设计基于关键帧和边界约束DTW的实时动态手势识别方法,考虑了动态手势的运动方向和运动速率,本发明通过比较相邻帧手势图像之间的运动方向,将运动方向发生改变的手势图像也作为关键帧图像进行特征提取;同时通过计算当前帧手势图像之前所有质心距离的平均值,动态调整关键帧手势图像选取阈值的大小,从而减少动态手势的关键信息的丢失,提高手势特征提取的准确性和实时性;而且考虑到手势指尖点具有局部极值性,本发明通过构造距离函数并结合凸包过滤,寻找手势轮廓曲线上的局部极值点,确定手势中存在的指尖特征,可以降低指尖特征提取的时间复杂度,在保证较高准确性的同时,缩短指尖特征提取的时间;并且给出一种将不等长的二维手势序列转换成等长的一维手势序列的方法,可以通过计算DTW下界距离减少相似可能性较低的手势序列之间的DTW距离计算,缩短手势识别的时间;不仅如此,根据动态手势序列运动方向之间的关系,利用Freeman链码确定手势序列中每个手势数据的配对范围,从而减少DTW距离的计算量,缩短手势识别的时间。
将本发明所设计基于关键帧和边界约束DTW的实时动态手势识别方法,应用到具体实施例中,首先对待识别的动态手势进行特征提取,然后对其进行手势识别。设待识别的动态手势是一个长度为10的手势视频,其每帧手势图像的质心坐标分别为(20,20),(20,22),(20,23),(20,27),(20,30),(20,32),(22,32),(24,32),(25,32),(28,32)。从第一帧手势图像开始,计算相邻帧手势图像之间的运动方向和质心距离,并不断调整关键帧手势图像选取阈值的大小,最终得到的关键帧手势图像为第1帧、第2帧、第4帧、第5帧、第7帧和第10帧。然后对每一个关键帧手势图像进行指尖特征提取,提取出的指尖特征如图2,其中A、B、C、D、E、F、H、I为手势轮廓上的轮廓点,G为手势质心。首先计算手势轮廓上每个轮廓点与质心的距离,由于轮廓点A、B、C、D、E、F、H与质心的距离大于与它们相邻的ε个轮廓点与质心的距离,因此,将这些轮廓点添加到类指尖特征点集中。然后计算该手势的凸包曲线,因为类指尖特征点A、B、C、D、E都处在凸包曲线上,因此,将它们作为该手势的指尖特征点。最后,构造待识别手势的特征向量为:
VI={{(20,20),5},{(20,22),5},{(20,27),5},{(20,30),5},{(22,32),5},{(28,32),5}}。
然后根据提取出的特征向量进行动态手势识别。设手势模板库中存在三种动态手势类型,分别为单指、先向下后向右;五指、先向下后向右;五指、向上。每种手势类型的特征向量如下:
V1={{(45,28),1},{(45,30),1},{(45,35),1},{(45,38),1},{(47,40),1},{(53,40),1}};
V2={{(45,28),5},{(45,30),5},{(45,35),5},{(45,38),5},{(47,40),5},{(53,40),5}};
V3={{(45,28),5},{(45,26),5},{(45,24),5},{(45,21),5},{(47,15),5},{(53,13),5}}。
则动态手势识别的过程为:
(1)首先对VI进行重定位,得到与V1起始坐标相同的手势序列VI={{(45,28),5},{(45,30),5},{(45,35),5},{(45,38),5},{(47,40),5},{(53,40),5}}
(2)计算VI和V1的DTW距离。利用Freeman-4链码,计算得到VI和V1的手势方向序列FGI={{1,4,0},{0,2,0}}和FG1={{1,4,0},{0,2,0}}。通过比较FGI和FG1中具有相同下标的子序列,得到FGI中两个子序列的候选边界宽度分别为cband1=4和cband2=2。由于允许的边界宽度上界cband1>iband,cband2<iband,因此,FGI中对应的所有手势数据的边界宽度为3,对应的所有手势数据的边界宽度为2。最后在边界宽度范围内进行DTW距离计算,得到VI和V1的DTW距离DTW(VI,V1)=0。因此,设置此时的最小DTW距离min_dtw为0,识别结果为V1。
(3)计算VI和V2的DTW下界距离。首先采用与步骤(1)相同的方法对VI重定位,得到与V2具有相同起始坐标的手势序列。由于VI在垂直方向上的变化程度大于在水平方向上的变化程度,因此计算出VI和V2在垂直方向上投影集合的DTW下界距离LB_D(YI,Y2)=0。
(4)计算VI和V2的DTW距离。因为LB_D(YI,Y2)=min_dtw,因此采用与步骤(2)相同的方法计算出VI和V2的DTW距离DTW(VI,V2)=0。由于|DTW(VI,V2)-min_dtw|=0,因此分别计算VI和V1、VI和V2的结构距离CD(CI,C1)=6,CD(CI,C2)=0。因为CD(CI,C1)>CD(CI,C2),因此更新最小DTW距离min_dtw=0,识别结果为V2。
(5)计算VI和V3的DTW下界距离。首先采用与步骤(1)相同的方法对VI重定位,得到与V3具有相同起始坐标的手势序列。然后计算VI和V3在垂直方向上投影集合的DTW下界距离LB_D(YI,Y3)=72。因为LB_D(YI,Y3)>min_dtw,因此跳过VI和V3的DTW距离计算。
(6)最终得到最小DTW距离min_dtw=0,识别结果为V2对应的动态手势类型,即五指、先向下后向右。
由于这个例子较为简单,实际情况中若进行DTW下界距离计算的动态手势序列长度不同,需要采用插值法将不同长度的手势序列转换成长度相同的手势序列,再进行DTW下界距离计算。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (3)
1.一种基于关键帧和边界约束DTW的实时动态手势识别方法,其特征在于,包括如下步骤:
步骤1)根据动态手势运动特性,针对待识别动态手势图像序列,选取关键帧手势图像;上述步骤1)中,根据如下步骤,针对待识别动态手势图像序列,选取关键帧手势图像;步骤101)设动态手势图像序列为IInput={I1,I2,...,In},n为动态手势图像序列的长度,It,t∈[1,n],It表示第t帧手势图像;gt'表示第t帧手势图像的质心,表示第t帧手势图像的质心坐标;δt表示第t帧手势图像的关键帧手势图像选取阈值;表示第t1帧手势图像与第t2帧手势图像之间的质心距离;
步骤102)针对动态手势图像序列,计算相邻帧手势图像之间质心偏移角度θt的正弦值和余弦值:
步骤103)针对动态手势图像序列,计算相邻帧手势图像之间的相对运动方向dirt:
步骤104)针对手势图像It,判断dirt≠dirt-1是否成立,是则将该手势图像It作为关键帧手势图像;否则进一步针对该手势图像It,判断判断dist(t,t-1)>δt-1是否成立,是则将该手势图像It作为关键帧手势图像;否则将该手势图像It不作为关键帧手势图像;
步骤105)根据
更新关键帧手势图像选取阈值δt;
步骤2)获得各个关键帧手势图像的指尖特征点,并结合关键帧手势图像的质心,构建该帧手势图像的手势特征向量,然后进一步构建待识别动态手势所对应的动态手势特征向量;步骤3)针对动态手势特征向量,分别计算手势模板库中各个动态手势模板特征向量与待识别动态手势特征向量之间的DTW下界距离,获得满足预设要求的DTW下界距离所对应的各个动态手势模板特征向量;
上述步骤3)中,分别针对手势模板库中的各个动态手势模板特征向量,执行如下步骤,分别计算手势模板库中各个动态手势模板特征向量与所获待识别动态手势特征向量之间的DTW下界距离,并针对DTW下界距离进行判断,进而获得满足预设要求的DTW下界距离所对应的各个动态手势模板特征向量;
步骤301)设待识别的动态手势特征向量为其中μ∈[1,n],n为VI的长度;为VI中所有质心坐标的集合,为GI在水平方向上的投影,为GI在垂直方向上的投影;为VI中所有指尖特征的集合;手势模板库中动态手势模板特征向量为其中k∈[1,m],m为VT的长度;为VT中所有质心坐标的集合,为GT在水平方向上的投影,为GT在垂直方向上的投影;为VT中所有指尖特征的集合; max为n和m的最大值,min为n和m的最小值;
步骤302)重定位GI和GT,得到起始点相同的手势轨迹序列GI'和GT';
步骤303)采用插值法在GI'和GT'的起始位置分别添加max+1-n和max+1-m个起始点坐标得到长度为max+1的手势序列GI+={GI*,GI'},和GT+={GT*,GT'},步骤304)计算GI+在水平方向和垂直方向上的变化程度:
diff_x=max(XI+)-min(XI+),diff_y=max(YI+)-min(YI+)
其中max()表示序列中的最大值,min()表示序列中的最小值;
步骤305)若diff_x≥diff_y,则采用LB_Keogh算法计算XI+和XT+的DTW下界距离LB_D(XI +,XT+);否则计算YI+和YT+的DTW下界距离LB_D(YI+,YT+);
步骤306)判断LB_D(XI+,XT+)或LB_D(YI+,YT+)是否大于当前预设最小DTW距离,是则该动态手势模板特征向量不满足预设要求,否则该动态手势模板特征向量满足预设要求;步骤4)针对满足预设要求的DTW下界距离所对应的各个动态手势模板特征向量,分别计算各个动态手势模板特征向量与待识别动态手势特征向量之间DTW距离,基于DTW距离,实现针对待识别动态手势的识别。
2.根据权利要求1所述一种基于关键帧和边界约束DTW的实时动态手势识别方法,其特征在于,所述步骤2)包括如下步骤:
步骤201)设csk表示第k个关键帧手势图像的手势轮廓点集,Nk表示第k个关键帧手势图像中手势轮廓点个数,ck,λ表示为第k个关键帧手势图像中第λ个手势轮廓点,ck,λ=(xk,λ,yk,λ)表示为第k个关键帧手势图像中第λ个手势轮廓点坐标,λ∈[1,Nk],gk为第k个关键帧手势图像的质心;
步骤202)分别针对各个关键帧手势图像,根据如下公式:
计算关键帧手势图像中各个手势轮廓点ck,λ分别与对应关键帧手势图像的质心gk之间的距离dist(ck,λ,gk);
步骤203)分别针对各个关键帧手势图像,进一步分别针对关键帧手势图像中的各个手势轮廓点ck,λ,首先获得该关键帧手势图像所有手势轮廓点中满足|ck,λ-ck,λ'|<ε的手势轮廓点ck,λ',然后判断所获各个手势轮廓点ck,λ',是否均满足dist(ck,λ’,gk)≤dist(ck,λ,gk),是则将该手势轮廓点ck,λ加入该关键帧手势图像所对应的类指尖特征点集中,否则不对该手势轮廓点ck,λ进行任何处理,如此完成针对该关键帧手势图像中各个手势轮廓点的上述操作,获得该关键帧手势图像所对应的类指尖特征点集,进而获得各个关键帧手势图像所对应的类指尖特征点集;其中,ε>0,ε表示预设范围阈值;
步骤204)分别针对各个关键帧手势图像,计算获得关键帧手势图像所对应的凸包曲线hullk,进而获得各个关键帧手势图像分别所对应的凸包曲线hullk;
步骤205)分别针对各个关键帧手势图像,进一步分别针对关键帧手势图像所对应类指尖特征点集中的各个类指尖特征点,若类指尖特征点属于该关键帧手势图像所对应的凸包曲线,则将该类指尖特征点添加到该关键帧手势图像所对应的指尖特征点集,如此完成针对该关键帧手势图像所对应类指尖特征点集中各个类指尖特征点的上述操作,获得该关键帧手势图像所对应的指尖特征点集,进而获得各个关键帧手势图像所对应的指尖特征点集;步骤206)分别针对各个关键帧手势图像,获得关键帧手势图像所对应指尖特征点集中指尖特征点个数,结合该关键帧手势图像的质心,构建该关键帧手势图像的手势特征向量,然后进一步构建待识别动态手势所对应的动态手势特征向量。
3.根据权利要求1所述一种基于关键帧和边界约束DTW的实时动态手势识别方法,其特征在于,所述步骤4)中,针对满足预设要求的DTW下界距离所对应的各个动态手势模板特征向量,基于如下定义,执行如下步骤,并基于DTW距离,实现针对待识别动态手势的识别;
定义手势方向序列FG={subFG1,...,subFGα},subFG={dirω,lenω,bandω},ω∈{1,...,α},其中,α为子序列的个数,dirω为第ω个子序列的运动方向,lenω为具有相同运动方向的连续轨迹数据的个数,bandω为该子序列的边界宽度;
步骤401)计算GI'中相邻手势轨迹数据g'μ和g'μ-1之间的向量坐标,再利用Freeman-4链码计算该向量的方向码值c'μ:
最后将GI'中所***值相同的连续手势数据进行合并,得到若干手势方向子序列subFGI',组合后得到GI'的手势方向序列FGI',同理构造GT'的手势方向序列FGT';
步骤402)比较FGI'和FGT'中具有相同下标的子序列,若子序列的方向码值相同,则选择这两个子序列中较大的长度作为候选边界宽度cband,再将cband与允许的边界宽度上界iband比较,设置选择二者最小值作为该子序列对应的所有手势数据的边界宽度;否则设置该子序列的对应的所有手势数据的边界宽度为iband;
步骤403)基于动态规划的思想在每个手势数据的边界宽度范围内寻找最优弯曲路径,得到GI'和GT'的DTW距离DTW(GI',GT');
步骤404)针对计算得到的所有DTW距离进行降序排序,若存在某个DTW距离与最小DTW距离的绝对差值小于阈值,跳到步骤405);否则将最小DTW距离对应的动态手势模板作为识别结果;
步骤405)计算CI和CT之间的结构距离,沿用相同的DTW最优弯曲路径,对路径节点上的与进行异或,并对异或结果进行累加,得到CI和CT的结构距离CD(CI,CT),最后选择结构距离最小的动态手势模板作为识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710224005.6A CN107169411B (zh) | 2017-04-07 | 2017-04-07 | 一种基于关键帧和边界约束dtw的实时动态手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710224005.6A CN107169411B (zh) | 2017-04-07 | 2017-04-07 | 一种基于关键帧和边界约束dtw的实时动态手势识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107169411A CN107169411A (zh) | 2017-09-15 |
CN107169411B true CN107169411B (zh) | 2019-10-29 |
Family
ID=59849679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710224005.6A Active CN107169411B (zh) | 2017-04-07 | 2017-04-07 | 一种基于关键帧和边界约束dtw的实时动态手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107169411B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019120290A1 (zh) | 2017-12-22 | 2019-06-27 | 北京市商汤科技开发有限公司 | 动态手势识别方法和装置、手势交互控制方法和装置 |
CN109144260B (zh) * | 2018-08-24 | 2020-08-18 | 上海商汤智能科技有限公司 | 动态动作检测方法、动态动作控制方法及装置 |
US11720814B2 (en) * | 2017-12-29 | 2023-08-08 | Samsung Electronics Co., Ltd. | Method and system for classifying time-series data |
CN108470077B (zh) * | 2018-05-28 | 2023-07-28 | 广东工业大学 | 一种视频关键帧提取方法、***及设备和存储介质 |
CN110059580B (zh) * | 2019-03-27 | 2023-01-31 | 长春理工大学 | 一种基于leap motion的动态手势识别增强方法 |
WO2020258106A1 (zh) * | 2019-06-26 | 2020-12-30 | Oppo广东移动通信有限公司 | 手势识别的方法和设备、定位追踪的方法和设备 |
CN110717385A (zh) * | 2019-08-30 | 2020-01-21 | 西安文理学院 | 一种动态手势识别方法 |
CN110895684B (zh) * | 2019-10-15 | 2023-06-27 | 西安理工大学 | 一种基于Kinect的手势动作识别方法 |
CN111311588B (zh) * | 2020-02-28 | 2024-01-05 | 浙江商汤科技开发有限公司 | 重定位方法及装置、电子设备和存储介质 |
CN111860274B (zh) * | 2020-07-14 | 2023-04-07 | 清华大学 | 基于头部朝向与上半身骨架特征的交警指挥手势识别方法 |
CN113642413A (zh) * | 2021-07-16 | 2021-11-12 | 新线科技有限公司 | 控制方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123007A (zh) * | 2014-07-29 | 2014-10-29 | 电子科技大学 | 一种多维加权的3d动态手势识别方法 |
CN104834894A (zh) * | 2015-04-01 | 2015-08-12 | 济南大学 | 一种结合二进制编码和类-Hausdorff距离的手势识别方法 |
CN106354252A (zh) * | 2016-08-18 | 2017-01-25 | 电子科技大学 | 一种基于stdw的连续字符手势轨迹识别方法 |
CN106528586A (zh) * | 2016-05-13 | 2017-03-22 | 上海理工大学 | 一种人体行为视频识别方法 |
-
2017
- 2017-04-07 CN CN201710224005.6A patent/CN107169411B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123007A (zh) * | 2014-07-29 | 2014-10-29 | 电子科技大学 | 一种多维加权的3d动态手势识别方法 |
CN104834894A (zh) * | 2015-04-01 | 2015-08-12 | 济南大学 | 一种结合二进制编码和类-Hausdorff距离的手势识别方法 |
CN106528586A (zh) * | 2016-05-13 | 2017-03-22 | 上海理工大学 | 一种人体行为视频识别方法 |
CN106354252A (zh) * | 2016-08-18 | 2017-01-25 | 电子科技大学 | 一种基于stdw的连续字符手势轨迹识别方法 |
Non-Patent Citations (5)
Title |
---|
A new approach for Dynamic gesture recognition using skeleton trajectory representation and histograms of cumulative magnitudes;Edwin Escobedo 等;《2016 29th SIBGRAPI Conference on Graphics,Patterns and Images》;20170116;第209-216页 * |
Dynamic hand gesture recognition using motion trajectories and key frames;Wenjun Tan 等;《2010 2nd International Conference on Advanced Computer Control》;20100617;第163-167页 * |
基于Kinect传感器的动态手势识别;余旭 等;《中国优秀硕士学位论文全文数据库信息科技辑》;20140915;第I138-831页 * |
基于Kinect的实时手语识别技术研究;叶平;《中国优秀硕士学位论文全文数据库信息科技辑》;20170315;第I138-5562页 * |
基于深度摄像的手势识别关键技术研究;胡丽华;《中国优秀硕士学位论文全文数据库信息科技辑》;20170215;第I138-2924页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107169411A (zh) | 2017-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107169411B (zh) | 一种基于关键帧和边界约束dtw的实时动态手势识别方法 | |
CN107563286B (zh) | 一种基于Kinect深度信息的动态手势识别方法 | |
Panwar | Hand gesture recognition based on shape parameters | |
Shokoohi-Yekta et al. | On the non-trivial generalization of dynamic time warping to the multi-dimensional case | |
CN103294996B (zh) | 一种3d手势识别方法 | |
CN104932804B (zh) | 一种智能虚拟装配动作识别方法 | |
CN104200240A (zh) | 一种基于内容自适应哈希编码的草图检索方法 | |
CN103971102A (zh) | 基于手指轮廓和决策树的静态手势识别方法 | |
CN104899607B (zh) | 一种传统云纹图案的自动分类方法 | |
Wu et al. | Vision-based fingertip tracking utilizing curvature points clustering and hash model representation | |
CN104966016A (zh) | 移动终端儿童用户协作式判断及限制操作权限的方法 | |
CN105426882A (zh) | 一种人脸图像中快速定位人眼的方法 | |
Caramiaux et al. | Beyond recognition: using gesture variation for continuous interaction | |
Panwar | Hand gesture based interface for aiding visually impaired | |
He et al. | Salient feature point selection for real time RGB-D hand gesture recognition | |
CN104732247B (zh) | 一种人脸特征定位方法 | |
CN111105443A (zh) | 一种基于特征关联的视频群体人物运动轨迹跟踪方法 | |
Xiao et al. | Sketch-based human motion retrieval via selected 2D geometric posture descriptor | |
CN104021372A (zh) | 一种人脸识别方法及装置 | |
CN103186241B (zh) | 一种交互桌面触点左右手识别方法 | |
CN104915009A (zh) | 手势预判的方法及*** | |
CN102194097A (zh) | 一种多用途手势识别方法 | |
Elakkiya et al. | Intelligent system for human computer interface using hand gesture recognition | |
CN106650554A (zh) | 静态手势识别方法 | |
Lekova et al. | Fingers and gesture recognition with kinect v2 sensor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20170915 Assignee: NUPT INSTITUTE OF BIG DATA RESEARCH AT YANCHENG Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS Contract record no.: X2020980007071 Denomination of invention: A real time dynamic gesture recognition method based on key frame and boundary constraint DTW Granted publication date: 20191029 License type: Common License Record date: 20201026 |