CN107368181A - 一种手势识别方法及装置 - Google Patents

一种手势识别方法及装置 Download PDF

Info

Publication number
CN107368181A
CN107368181A CN201610316842.7A CN201610316842A CN107368181A CN 107368181 A CN107368181 A CN 107368181A CN 201610316842 A CN201610316842 A CN 201610316842A CN 107368181 A CN107368181 A CN 107368181A
Authority
CN
China
Prior art keywords
gesture
sliding window
window size
video sequence
sequence frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610316842.7A
Other languages
English (en)
Other versions
CN107368181B (zh
Inventor
刘丽艳
赵颖
梁玲燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN201610316842.7A priority Critical patent/CN107368181B/zh
Publication of CN107368181A publication Critical patent/CN107368181A/zh
Application granted granted Critical
Publication of CN107368181B publication Critical patent/CN107368181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种手势识别方法及装置,涉及人机交互技术,能够提高手势识别的准确性。本发明的手势识别方法包括:获取第一滑动窗口尺寸,并根据第一滑动窗口尺寸获取至少一个手势视频序列帧;将至少一个手势视频序列帧分别与预设手势模板进行匹配,获取识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一相似性参数;获取参考滑动窗口尺寸,并根据参考滑动窗口尺寸从第一手势视频序列帧中获得参考手势视频序列帧;获取参考手势视频序列帧与预设手势模板之间的参考相似性参数;当参考相似性参数小于第一相似性参数时,将参考滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。本发明主要用于手势识别技术中。

Description

一种手势识别方法及装置
技术领域
本发明涉及人机交互技术,尤其涉及一种手势识别方法及装置。
背景技术
手势识别是自然人机交互的关键组成部分,它可以帮助在人与机器之间构建更加流畅的“人机对话”。其中,该机器可包括计算机,投影仪以及近几年推出的可穿戴式设备。
现有的手势识别技术中,通常需要人“学习”如何与机器进行交互。例如,机器向用户提示“请再靠近一点”,“请快速挥手”等等,用户再根据这些提示做出相应的手势。但是,这种“学习”并不是用户所期望的。在更加自然的人机交互中,用户希望计算机能够“适应”人。
基于模板的匹配方法或基于学习的方法是手势识别中应用较广的两种方法。由于手势是“需要一定时间来完成”的,因此在进行手势识别时,广泛使用滑动窗口以在连续的视频帧中定位到手势的开始及结束。但是,各摄像机的帧率不同,不同的人即使做相同的手势也可能快慢不同。因此,从时间长度上来讲,相同的手势在不同的情况下包含的视频帧数也不一样。因此,在进行手势识别时如果采用固定尺寸的滑动窗口将影响手势识别的准确性。
发明内容
有鉴于此,本发明提供一种手势识别方法及装置,能够提高手势识别的准确性。
为解决上述技术问题,本发明提供一种手势识别方法,包括:
获取第一滑动窗口尺寸,并根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧;
将所述至少一个手势视频序列帧分别与预设手势模板进行匹配,获取识别出用户手势的第一手势视频序列帧与所述预设手势模板之间的第一相似性参数;
获取参考滑动窗口尺寸,并根据所述参考滑动窗口尺寸从所述第一手势视频序列帧中获得参考手势视频序列帧,其中所述参考滑动窗口尺寸与所述第一滑动窗口尺寸不同;
获取所述参考手势视频序列帧与所述预设手势模板之间的参考相似性参数;
当所述参考相似性参数小于所述第一相似性参数时,将所述参考滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
其中,当所述用户所做的手势为初始手势时,所述获取第一滑动窗口尺寸包括:
对所述用户的初始手势进行识别,获得初始手势视频序列帧;
获取所述用户的手部所述初始手势视频序列帧中的初始运动速度;
根据预设运动速度、预设滑动窗口尺寸和所述初始运动速度计算所述第一滑动窗口尺寸。
其中,通过下述公式获取所述用户的手部所述初始手势视频序列帧中的初始运动速度:
其中,vuser表示所述初始运动速度,m表示所述初始手势视频序列帧的帧数且m>0,fcurrent表示帧率,Pi(i=0,…m-2)表示所述用户的手部中心在所述初始手势视频序列帧的每一帧中的位置。
其中,通过下述公式根据预设运动速度、预设滑动窗口尺寸和所述初始运动速度计算所述第一滑动窗口尺寸:
其中,sizeuser表示所述第一滑动窗口尺寸,vcommon表示所述预设运动速度,所述sizecommon表示所述预设滑动窗口尺寸,vuser表示所述初始运动速度。
其中,当所述用户所做的手势不是初始手势时,所述获取第一滑动窗口尺寸包括:获取存储单元中存储的所述第一滑动窗口尺寸。
其中,所述第一相似性参数为第一动态时间规整距离;所述获取识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一相似性参数包括:
利用动态时间规整方法获取识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一动态时间规整距离。
其中,所述参考滑动窗口尺寸包括第二滑动窗口尺寸和第三滑动窗口尺寸;其中所述第一滑动窗口尺寸大于所述第二滑动窗口尺寸且小于所述第三滑动窗口尺寸;
所述获取参考滑动窗口尺寸,并根据所述参考滑动窗口尺寸从所述第一手势视频序列帧中获得参考手势视频序列帧,包括:
根据所述第二滑动窗口尺寸从所述第一手势视频序列帧中获得第一子参考手势视频序列帧;
根据所述第三滑动窗口尺寸从所述第一手势视频序列帧中获得第二子参考手势视频序列帧。
其中,所述参考相似性参数包括所述第一子参考手势视频序列帧与所述预设手势模板之间的第二动态时间规整距离,以及所述第二子参考手势视频序列帧与所述预设手势模板之间的第三动态时间规整距离;
所述获取所述参考手势视频序列帧与所述预设手势模板之间的参考相似性参数:
利用动态时间规整方法获取所述第一子参考手势视频序列帧与所述预设手势模板之间的第二动态时间规整距离;
利用动态时间规整方法获取所述第二子参考手势视频序列帧与所述预设手势模板之间的第三动态时间规整距离。
其中,所述当所述参考相似性参数小于所述第一相似性参数时,将所述参考滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸,包括:
当所述第二动态时间规整距离小于所述第一动态时间规整距离时,将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸;
当所述第三动态时间规整距离小于所述第一动态时间规整距离时,将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
其中,所述当所述第二动态时间规整距离小于所述第一动态时间规整距离时,将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸,包括:
当所述第二动态时间规整距离小于所述第一动态时间规整距离时,将所述第二动态时间规整距离对应的计数值进行累加;
如果在预设时间段内所述第二动态时间规整距离对应的计数值超过第一阈值,则将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
其中,所述当所述第三动态时间规整距离小于所述第一动态时间规整距离时,将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸,包括:
当所述第三动态时间规整距离小于所述第一动态时间规整距离时,将所述第三动态时间规整距离对应的计数值进行累加;
如果在预设时间段内所述第三动态时间规整距离对应的计数值超过第二阈值,则将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
第二方面,本发明提供一种手势识别装置,包括:
第一视频序列帧获取模块,用于获取第一滑动窗口尺寸,并根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧;
第一参数获取模块,用于将所述至少一个手势视频序列帧分别与预设手势模板进行匹配,获取识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一相似性参数;
第二视频序列帧获取模块,用于获取参考滑动窗口尺寸,并根据所述参考滑动窗口尺寸从所述第一手势视频序列帧中获得参考手势视频序列帧,其中所述参考滑动窗口尺寸与所述第一滑动窗口尺寸不同;
第二参数获取模块,用于获取所述参考手势视频序列帧与所述预设手势模板之间的参考相似性参数;
参数处理模块,用于当所述参考相似性参数小于所述第一相似性参数时,将所述参考滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
其中,所述第一视频序列帧获取模块包括:
第一手势识别子模块,用于当所述用户所做的手势为初始手势时,对所述用户的初始手势进行识别,获得初始手势视频序列帧;
速度获取子模块,用于获取所述用户的手部所述初始手势视频序列帧中的初始运动速度;
第一滑动窗尺寸获取子模块,用于根据预设运动速度、预设滑动窗口尺寸和所述初始运动速度计算所述第一滑动窗口尺寸;
第一视频序列帧获取子模块,用于根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧。
其中,所述第一视频序列帧获取模块包括:
第二滑动窗尺寸获取子模块,用于当所述用户所做的手势不是初始手势时,获取存储单元中存储的所述第一滑动窗口尺寸;
第二视频序列帧获取子模块,用于根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧。
其中,所述第一相似性参数为第一动态时间规整距离;所述第一参数获取模块具体用于:利用动态时间规整方法获取识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一动态时间规整距离。
其中,所述参考滑动窗口尺寸包括第二滑动窗口尺寸和第三滑动窗口尺寸;其中所述第一滑动窗口尺寸大于所述第二滑动窗口尺寸且小于所述第三滑动窗口尺寸;
所述第二视频序列帧获取模块包括:
第三视频序列帧获取子模块,用于根据所述第二滑动窗口尺寸从所述第一手势视频序列帧中获得第一子参考手势视频序列帧;
第四视频序列帧获取子模块,用于根据所述第三滑动窗口尺寸从所述第一手势视频序列帧中获得第二子参考手势视频序列帧。
其中,所述参考相似性参数包括所述第一子参考手势视频序列帧与所述预设手势模板之间的第二动态时间规整距离,以及所述第二子参考手势视频序列帧与所述预设手势模板之间的第三动态时间规整距离;
所述第二参数获取模块包括:
第一参数获取子模块,用于利用动态时间规整方法获取所述第一子参考手势视频序列帧与所述预设手势模板之间的第二动态时间规整距离;
第二参数获取子模块,用于利用动态时间规整方法获取所述第二子参考手势视频序列帧与所述预设手势模板之间的第三动态时间规整距离。
其中,所述参数处理模块包括:
比较子模块,用于分别比较所述第二动态时间规整距离和所述第一动态时间规整距离,所述第三动态时间规整距离和所述第一动态时间规整距离;
第一参数选择子模块,用于当所述第二动态时间规整距离小于所述第一动态时间规整距离时,将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸;
第二参数选择子模块,用于当所述第三动态时间规整距离小于所述第一动态时间规整距离时,将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
其中,所述第一参数选择子模块包括:
第一计数单元,用于当所述第二动态时间规整距离小于所述第一动态时间规整距离时,将所述第二动态时间规整距离对应的计数值进行累加;
第一选择单元,用于如果在预设时间段内所述第二动态时间规整距离对应的计数值超过第一阈值,则将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
其中,所述第二参数选择子模块包括:
第二计数单元,用于当所述第三动态时间规整距离小于所述第一动态时间规整距离时,将所述第三动态时间规整距离对应的计数值进行累加;
第二选择单元,用于如果在预设时间段内所述第三动态时间规整距离对应的计数值超过第二阈值,则将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
本发明的上述技术方案的有益效果如下:
在本发明实施例中,获取利用所述第一滑动窗口尺寸识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一相似性参数,以及获取利用参考滑动窗口尺寸从所述第一手势视频序列帧中获得的参考手势视频序列帧与所述预设手势模板之间的参考相似性参数,并将参考相似性参数和第一相似性参数进行比较。当所述参考相似性参数小于所述第一相似性参数时,将所述参考滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。由上可以看出,在本发明实施例中,在对用户进行手势识别时,可通过不同手势视频序列帧与预设手势视频序列之间的相似性参数的比较来确定用于手势识别的滑动窗口尺寸。因此,与现有技术相比,利用本发明实施例的方案可灵活的根据用户手的运动速度的变化实时调整并获取滑动窗口尺寸以识别用户手势,提高了对用户手势识别的准确性。
附图说明
图1为本发明第一实施例的手势识别方法的流程图;
图2为本发明第二实施例的手势识别方法的流程图;
图3为本发明第三实施例的手势识别装置的示意图;
图4为本发明第四实施例的电子设备的示意图;
图5为本发明第五实施例的手势识别***的示意图。
具体实施方式
下面将结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明第一实施例的手势识别方法,包括:
步骤11、获取第一滑动窗口尺寸,并根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧。
在具体应用中,如果不是第一次执行本发明实施例的方法,也即用户所做的手势并不是初始手势,那么该第一滑动窗口尺寸可通过读取存储单元获取。也即,在这种情况下,该第一滑动窗口尺寸是利用本发明实施例的方法进行手势识别后确定的用于识别用户手势的滑动窗口尺寸。如果是第一次执行本发明实施例的方法,也即用户所做的手势并是初始手势,那么可通过计算获得第一滑动窗口尺寸。
由于用户的手势具有一定的持续性,因此,在具体应用中如果要对用户手势进行识别,那么可能需要获得一帧以上的包括用户手部的图像。在此,将这些图像称为手势视频序列帧。在获得了第一滑动窗口尺寸之后,那么可根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧。
步骤12、将所述至少一个手势视频序列帧分别与预设手势模板进行匹配,获取识别出用户手势的第一手势视频序列帧与所述预设手势模板之间的第一相似性参数。
在利用第一滑动窗口尺寸识别用户的手势时,主要是利用模板匹配的方法进行识别。模板匹配在手势识别领域是广泛使用的一个方法。在手势识别过程中,将某个预设手势模板与某个滑动窗口内的一系列视频帧进行匹配,以判断窗口内的视频帧序列是否是一个特定的手势。
通常,预设手势模板也是由一系列的视频帧组成,它的窗口尺寸是依据某个特定手势的平均速度得到的;而在具体的手势识别过程中所采用的滑动窗口的尺寸是与某个用户特定相关的,因此二者并不总是完全相同。因此,在此可利用动态时间规整方法(dynamic time warping,DTW)计算预设手势模板与某个滑动窗口内的一系列视频帧之间的相似度。当相似度满足某个条件时,即认为在某个滑动窗口内的一系列视频帧中识别出了预设手势模板中的手势。
在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等。DTW方法通过把时间序列进行延伸和缩短,来计算两个时间序列性之间的相似性。
假定Q与C分别表示手势模板视频帧序列与用户的手部运动视频帧序列,它们的长度分别是n和m,其中:Q=q1,q2,…qn;C=c1,c2,…cm
为了对齐这两个序列,需要构造一个n x m的矩阵网格,其中矩阵网格中的元素(i,j)表示qi和cj两个点的距离d(qi,cj)(也就是序列Q的每一个点和C的每一个点之间的相似度,距离越小则相似度越高)。一般情况下,采用欧式距离来表示两个点之间的距离,其中d(qi,cj)=(qi-cj)2。每一个矩阵元素(i,j)表示点qi和cj的对齐。动态规划算法可以归结为寻找一条通过此网格中若干格点的路径,路径通过的格点即为两个序列进行计算的对齐的点。Q与C之间的最优路径是指在二者之间规整代价最小的那条路径。通常我们也将计算得到的最小规整代价(warping cost)称为两个序列之间的相似度,也即DTW距离。
根据DTW算法,可通过下述公式(1)计算两个序列之间的相似度:
归整路径的形式为W=ω12,…ωk,其中Max(|Q|,|C|)<=K<=|Q|+|C|,两个时间序列Q和C的长度分别为|Q|和|C|。当DTW(Q,C)小于某个预设值时,则可认为用户的手部运动视频帧序列为一个手势。在此,将识别出用户手势的视频序列帧称为第一视频序列帧。
在本发明实施例中,第一相似性参数指的是第一动态时间规整距离。通过对手势进行识别,可同时按照上述公式(1)获得识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一动态时间规整距离。
步骤13、获取参考滑动窗口尺寸,并根据所述参考滑动窗口尺寸从所述第一手势视频序列帧中获得参考手势视频序列帧。
在本发明实施例中,该参考滑动窗口尺寸是预先任意设置的,且不同于第一滑动窗口尺寸。根据获取的参考滑动窗口尺寸,从所述第一手势视频序列帧中截取对应长度的视频序列帧,在此将其称为参考手势视频序列帧。
其中,该参考滑动窗口尺寸可以设置为1个,并且可大于或者小于第一滑动窗口尺寸。或者,为了进一步提高手势识别效率,所述参考滑动窗口尺寸可以设置为2个,其中一个参考滑动窗口尺寸大于第一滑动窗口尺寸,而另一个则设置为小于第一滑动窗口尺寸。
步骤14、获取所述参考手势视频序列帧与所述预设手势模板之间的参考相似性参数。
所述参考相似性参数指的是所述参考手势视频序列帧与所述预设手势模板之间的DTW距离。同样,在此步骤中,可利用DTW方法获取所述参考手势视频序列帧与所述预设手势模板之间的DTW距离。
步骤15、当所述参考相似性参数小于所述第一相似性参数时,将所述参考滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
在此步骤中,当所述第二动态时间规整距离小于所述第一动态时间规整距离时,将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸;当所述第三动态时间规整距离小于所述第一动态时间规整距离时,将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
由上可以看出,在本发明实施例中,在对用户进行手势识别时,可通过不同手势视频序列帧与预设手势视频序列之间的相似性参数的比较来确定用于手势识别的滑动窗口尺寸。因此,与现有技术相比,利用本发明实施例的方案可灵活的根据用户手的运动速度的变化实时调整并获取滑动窗口尺寸以识别用户手势,提高了对用户手势识别的准确性。
在实施例二中,以第一次利用本发明实施例的方法进行手势识别为例详细描述一下本发明实施例的实现过程。如图2所示,本发明第二实施例的手势识别方法包括:
步骤21、确定初始滑动窗口尺寸。此步骤包括:
步骤21a、对所述用户的初始手势进行识别,获得初始手势视频序列帧。
当所述用户所做的手势为初始手势时,用户可首先按照机器的提示完成初始手势。其中,该初始手势可以为挥手等动作。
在用户开始做初始手势时,利用摄像装置跟踪用户的手部,获得多个连续的包括用户的手的运动的视频帧。在此,并不需要真正的识别出用户做了手势或者是否完成了手势,而仅是要获得多个连续的包括用户的手的运动的视频帧即可。在此,将该多个连续的包括用户的手部的运动的视频帧称为初始手势视频序列帧。假设,用m表示所述初始手势视频序列帧中的帧数且m>0。
步骤21b、获取所述用户的手部所述初始手势视频序列帧中的初始运动速度。
在此实施例中,按照下述公式(2)计算初始运动速度。
其中,vuser表示所述初始运动速度,m表示所述初始手势视频序列帧的帧数且m>0,fcurrent表示帧率,Pi(i=0,…m-2)表示所述用户的手部中心在所述初始手势视频序列帧的每一帧中的位置。
步骤21c、根据预设运动速度、预设滑动窗口尺寸和所述初始运动速度计算初始滑动窗口尺寸。
具体的,通过下述公式(3)计算所述初始滑动窗口尺寸:
其中,sizeuser表示所述初始滑动窗口尺寸,vcommon表示所述预设运动速度,所述sizecommon表示所述预设滑动窗口尺寸,vuser表示所述初始运动速度。其中,预设运动速度、预设滑动窗口尺寸均可预先设置。
在确定了初始滑动窗口尺寸后,如果用户又有新的手势,在本发明实施例中,可利用初始滑动窗口尺寸进行识别。
步骤22、利用初始滑动窗口尺寸识别用户手势。
步骤23、获取识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一DTW距离。
具体的,在此步骤中仍可利用前述的DTW方法识别用户的新手势,同时获得第一DTW距离。
步骤24、获取参考滑动窗口尺寸,并根据所述参考滑动窗口尺寸从所述第一手势视频序列帧中获得参考手势视频序列帧。
在此,假设参考滑动窗口尺寸包括第二滑动窗口尺寸sizeuser-ε和第三滑动窗口尺寸sizeuser+ε,其中sizeuser>ε,ε可根据经验值设置。
在此,根据所述第二滑动窗口尺寸从所述第一手势视频序列帧中获得第一子参考手势视频序列帧,根据所述第三滑动窗口尺寸从所述第一手势视频序列帧中获得第二子参考手势视频序列帧。也即在此分别获得两个长度不同的视频帧序列。
在用户与计算机进行交互的过程中,用户的手部并不总是保持一成不变的运动速度。相比于初始手势时的运动速度,用户的手部有可能会动作更快,也有可能会变慢。在这种情况下,初始阶段设定的滑动窗口尺寸也应该被及时更新,以适应用户的这种变化。因此,本发明提出采用在线学习的方法,来使得计算机主动学习并适应用户的行为模式的变化。
在具体应用中,对于之后的用户所做的新的手势,可重复执行步骤22-24,以获得学习用户手势的样本。在该样本中,包括预定数量的第一子参考手势视频序列帧、预定数量的第二子参考手势视频序列帧以及对应的预定数量的第一DTW距离。其中,该预定数量可任意设定。在此,获得的样本可表示成:
D={d1,d2,…dn}
其中,gi'(i=1,…n)为各第一子参考手势视频序列帧,为各第二子参考手势视频序列帧,di(i=1,…n)表示各第一DTW距离。其中n值表示预定数量,可任意设置。
步骤25、对于上述的样本,利用动态时间规整方法分别获取各第一子参考手势视频序列帧与所述预设手势模板之间的第二DTW距离。那么在此可获得n个第二DTW距离。
步骤26、对于上述的样本,利用动态时间规整方法分别获取各第二子参考手势视频序列帧与所述预设手势模板之间的第三DTW距离。那么在此可获得n个第三DTW距离。
步骤27、对于上述的n个第一DTW距离和第二DTW距离,分别比较每个第一DTW距离和每个第二DTW距离的大小。
步骤28、如果第二DTW距离小于第一DTW距离,将第二DTW距离对应的计数值进行累加。如果第二DTW距离大于第一DTW距离,则执行步骤27。
重复执行步骤27和28,直到所有的第一DTW距离和第二DTW距离比较完成或者预设时间段到时。其中预设时间段可以预先设置。
步骤29、将预设时间段内所述第二动态时间规整距离对应的计数值和第一阈值进行比较。
步骤210、如果在预设时间段内所述第二动态时间规整距离对应的计数值超过第一阈值,则将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。否则执行步骤211。
步骤211、对于上述的n个第一DTW距离和第三DTW距离,分别比较每个第一DTW距离和每个第三DTW距离的大小。
步骤212、如果第三DTW距离小于第一DTW距离时,将第三DTW距离对应的计数值进行累加。如果第三DTW距离大于第一DTW距离,则执行步骤211。
重复执行步骤211和212,直到所有的第一DTW距离和第三DTW距离比较完成或者预设时间段到时。其中预设时间段可以预先设置。
步骤213、将预设时间段内所述第三动态时间规整距离对应的计数值和第二阈值进行比较。
步骤214、如果在预设时间段内所述第三动态时间规整距离对应的计数值超过第二阈值,则将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。否则执行步骤215。
步骤215、将所述第一滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
其中该预设时间段可任意设置,第一阈值和第二阈值也可任意设置,且第一阈值和第二阈值可以设置为相同或者不同。
在此,通过步骤27-215来通过判断某个时间段内用户手部运动速度的变化来确定用于识别用户手势的滑动窗口尺寸。因此,按照此种方式确定出的滑动窗口尺寸更符合用户手部运动的速度,从而也进一步提高了用户手势识别的准确性。
在上述过程中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
由上可以看出,在本发明实施例中,在对用户进行手势识别时,可通过不同手势视频序列帧与预设手势视频序列之间的相似性参数的比较来确定用于手势识别的滑动窗口尺寸。因此,与现有技术相比,利用本发明实施例的方案可灵活的根据用户手的运动速度的变化实时调整并获取滑动窗口尺寸以识别用户手势,提高了对用户手势识别的准确性。
如图3所示,本发明第三实施例的用户行为分析装置,包括:
第一视频序列帧获取模块31,用于获取第一滑动窗口尺寸,并根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧;
第一参数获取模块32,用于将所述至少一个手势视频序列帧分别与预设手势模板进行匹配,获取识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一相似性参数;
第二视频序列帧获取模块33,用于获取参考滑动窗口尺寸,并根据所述参考滑动窗口尺寸从所述第一手势视频序列帧中获得参考手势视频序列帧,其中所述参考滑动窗口尺寸与所述第一滑动窗口尺寸不同;
第二参数获取模块34,用于获取所述参考手势视频序列帧与所述预设手势模板之间的参考相似性参数;
参数处理模块35,用于当所述参考相似性参数小于所述第一相似性参数时,将所述参考滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
其中,所述第一视频序列帧获取模块31可包括:
第一手势识别子模块,用于当所述用户所做的手势为初始手势时,对所述用户的初始手势进行识别,获得初始手势视频序列帧;速度获取子模块,用于获取所述用户的手部所述初始手势视频序列帧中的初始运动速度;第一滑动窗尺寸获取子模块,用于根据预设运动速度、预设滑动窗口尺寸和所述初始运动速度计算所述第一滑动窗口尺寸;第一视频序列帧获取子模块,用于根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧。
或者,所述第一视频序列帧获取模块31还可包括:第二滑动窗尺寸获取子模块,用于当所述用户所做的手势不是初始手势时,获取存储单元中存储的所述第一滑动窗口尺寸;第二视频序列帧获取子模块,用于根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧。
在具体应用中,所述第一相似性参数为第一动态时间规整距离;所述第一参数获取模块32具体用于:利用动态时间规整方法获取识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一动态时间规整距离。
在具体应用中,为了进一步提高手势识别的准确性,所述参考滑动窗口尺寸包括第二滑动窗口尺寸和第三滑动窗口尺寸;其中所述第一滑动窗口尺寸大于所述第二滑动窗口尺寸且小于所述第三滑动窗口尺寸。相应的,所述视频序列帧获取模块33可包括:第一视频序列帧获取子模块,用于根据所述第二滑动窗口尺寸从所述第一手势视频序列帧中获得第一子参考手势视频序列帧;第二视频序列帧获取子模块,用于根据所述第三滑动窗口尺寸从所述第一手势视频序列帧中获得第二子参考手势视频序列帧。
此时,所述参考相似性参数包括所述第一子参考手势视频序列帧与所述预设手势模板之间的第二动态时间规整距离,以及所述第二子参考手势视频序列帧与所述预设手势模板之间的第三动态时间规整距离。
所述第二参数获取模块34可包括:第一参数获取子模块,用于利用动态时间规整方法获取所述第一子参考手势视频序列帧与所述预设手势模板之间的第二动态时间规整距离;第二参数获取子模块,用于利用动态时间规整方法获取所述第二子参考手势视频序列帧与所述预设手势模板之间的第三动态时间规整距离。
其中,所述参数处理模块35可包括:
比较子模块,用于分别比较所述第二动态时间规整距离和所述第一动态时间规整距离,所述第三动态时间规整距离和所述第一动态时间规整距离;第一参数选择子模块,用于当所述第二动态时间规整距离小于所述第一动态时间规整距离时,将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸;第二参数选择子模块,用于当所述第三动态时间规整距离小于所述第一动态时间规整距离时,将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
为了进一步提高手势识别的准确性,所述第一参数选择子模块包括:第一计数单元,用于当所述第二动态时间规整距离小于所述第一动态时间规整距离时,将所述第二动态时间规整距离对应的计数值进行累加;第一选择单元,用于如果在预设时间段内所述第二动态时间规整距离对应的计数值超过第一阈值,则将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
为了进一步提高手势识别的准确性,所述第二参数选择子模块包括:第二计数单元,用于当所述第三动态时间规整距离小于所述第一动态时间规整距离时,将所述第三动态时间规整距离对应的计数值进行累加;第二选择单元,用于如果在预设时间段内所述第三动态时间规整距离对应的计数值超过第二阈值,则将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
本发明所述装置的工作原理可参照前述方法实施例的描述。
由上可以看出,在本发明实施例中,在对用户进行手势识别时,可通过不同手势视频序列帧与预设手势视频序列之间的相似性参数的比较来确定用于手势识别的滑动窗口尺寸。因此,与现有技术相比,利用本发明实施例的方案可灵活的根据用户手的运动速度的变化实时调整并获取滑动窗口尺寸以识别用户手势,提高了对用户手势识别的准确性。
如图4所示,本发明第四实施例还提供了一种电子设备,可以实现本发明图1-2所示实施例的流程。所述电子设备可以是个人电脑(PC),平板电脑以及各种智能设备(包括智能手机)等。如图4所示,上述电子设备可以包括:壳体41、处理器42、存储器43、电路板44和电源电路45,其中,电路板44安置在壳体41围成的空间内部,处理器42和存储器43设置在电路板44上;电源电路45,用于为上述电子设备的各个电路或器件供电;存储器43用于存储可执行程序代码;处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行以下步骤:
获取第一滑动窗口尺寸,并根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧;
将所述至少一个手势视频序列帧分别与预设手势模板进行匹配,获取识别出用户手势的第一手势视频序列帧与所述预设手势模板之间的第一相似性参数;
获取参考滑动窗口尺寸,并根据所述参考滑动窗口尺寸从所述第一手势视频序列帧中获得参考手势视频序列帧,其中所述参考滑动窗口尺寸与所述第一滑动窗口尺寸不同;
获取所述参考手势视频序列帧与所述预设手势模板之间的参考相似性参数;
当所述参考相似性参数小于所述第一相似性参数时,将所述参考滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
由上可以看出,在本发明实施例中,在对用户进行手势识别时,可通过不同手势视频序列帧与预设手势视频序列之间的相似性参数的比较来确定用于手势识别的滑动窗口尺寸。因此,与现有技术相比,利用本发明实施例的方案可灵活的根据用户手的运动速度的变化实时调整并获取滑动窗口尺寸以识别用户手势,提高了对用户手势识别的准确性。
如图5所示,本发明第五实施例还提供了一种手势识别***,包括:摄像头51,图像处理单元52,显示设备56,CPU 57,RAM(Random-Access Memory,随机存取存储器)58。其中图像处理单元52包括初始单元53,手势识别单元54,在线学习及更新单元55。在具体应用中,显示设备56可以是电视,也可以是由投影仪及投影屏幕组成的显示设备,以及其他显示设备。其中图像处理单元52用于完成前述方法实施例的过程。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种手势识别方法,其特征在于,包括:
获取第一滑动窗口尺寸,并根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧;
将所述至少一个手势视频序列帧分别与预设手势模板进行匹配,获取识别出用户手势的第一手势视频序列帧与所述预设手势模板之间的第一相似性参数;
获取参考滑动窗口尺寸,并根据所述参考滑动窗口尺寸从所述第一手势视频序列帧中获得参考手势视频序列帧,其中所述参考滑动窗口尺寸与所述第一滑动窗口尺寸不同;
获取所述参考手势视频序列帧与所述预设手势模板之间的参考相似性参数;
当所述参考相似性参数小于所述第一相似性参数时,将所述参考滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
2.根据权利要求1所述的方法,其特征在于,当所述用户所做的手势为初始手势时,所述获取第一滑动窗口尺寸包括:
对所述用户的初始手势进行识别,获得初始手势视频序列帧;
获取所述用户的手部所述初始手势视频序列帧中的初始运动速度;
根据预设运动速度、预设滑动窗口尺寸和所述初始运动速度计算所述第一滑动窗口尺寸。
3.根据权利要求1所述的方法,其特征在于,当所述用户所做的手势不是初始手势时,所述获取第一滑动窗口尺寸包括:获取存储单元中存储的所述第一滑动窗口尺寸。
4.根据权利要求1所述的方法,其特征在于,所述第一相似性参数为第一动态时间规整距离;所述获取识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一相似性参数包括:
利用动态时间规整方法获取识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一动态时间规整距离。
5.根据权利要求1所述的方法,其特征在于,所述参考滑动窗口尺寸包括第二滑动窗口尺寸和第三滑动窗口尺寸;其中所述第一滑动窗口尺寸大于所述第二滑动窗口尺寸且小于所述第三滑动窗口尺寸;
所述获取参考滑动窗口尺寸,并根据所述参考滑动窗口尺寸从所述第一手势视频序列帧中获得参考手势视频序列帧,包括:
根据所述第二滑动窗口尺寸从所述第一手势视频序列帧中获得第一子参考手势视频序列帧;
根据所述第三滑动窗口尺寸从所述第一手势视频序列帧中获得第二子参考手势视频序列帧。
6.根据权利要求5所述的方法,其特征在于,所述参考相似性参数包括所述第一子参考手势视频序列帧与所述预设手势模板之间的第二动态时间规整距离,以及所述第二子参考手势视频序列帧与所述预设手势模板之间的第三动态时间规整距离;
所述获取所述参考手势视频序列帧与所述预设手势模板之间的参考相似性参数:
利用动态时间规整方法获取所述第一子参考手势视频序列帧与所述预设手势模板之间的第二动态时间规整距离;
利用动态时间规整方法获取所述第二子参考手势视频序列帧与所述预设手势模板之间的第三动态时间规整距离。
7.根据权利要求6所述的方法,其特征在于,所述当所述参考相似性参数小于所述第一相似性参数时,将所述参考滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸,包括:
当所述第二动态时间规整距离小于所述第一动态时间规整距离时,将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸;
当所述第三动态时间规整距离小于所述第一动态时间规整距离时,将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
8.根据权利要求7所述的方法,其特征在于,所述当所述第二动态时间规整距离小于所述第一动态时间规整距离时,将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸,包括:
当所述第二动态时间规整距离小于所述第一动态时间规整距离时,将所述第二动态时间规整距离对应的计数值进行累加;
如果在预设时间段内所述第二动态时间规整距离对应的计数值超过第一阈值,则将所述第二滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
9.根据权利要求7所述的方法,其特征在于,所述当所述第三动态时间规整距离小于所述第一动态时间规整距离时,将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸,包括:
当所述第三动态时间规整距离小于所述第一动态时间规整距离时,将所述第三动态时间规整距离对应的计数值进行累加;
如果在预设时间段内所述第三动态时间规整距离对应的计数值超过第二阈值,则将所述第三滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
10.一种手势识别装置,其特征在于,包括:
第一视频序列帧获取模块,用于获取第一滑动窗口尺寸,并根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧;
第一参数获取模块,用于将所述至少一个手势视频序列帧分别与预设手势模板进行匹配,获取识别出用户手势的第一手势视频序列帧与预设手势模板之间的第一相似性参数;
第二视频序列帧获取模块,用于获取参考滑动窗口尺寸,并根据所述参考滑动窗口尺寸从所述第一手势视频序列帧中获得参考手势视频序列帧,其中所述参考滑动窗口尺寸与所述第一滑动窗口尺寸不同;
第二参数获取模块,用于获取所述参考手势视频序列帧与所述预设手势模板之间的参考相似性参数;
参数处理模块,用于当所述参考相似性参数小于所述第一相似性参数时,将所述参考滑动窗口尺寸作为用于识别用户手势的滑动窗口尺寸。
11.根据权利要求10所述的装置,其特征在于,所述第一视频序列帧获取模块包括:
第一手势识别子模块,用于当所述用户所做的手势为初始手势时,对所述用户的初始手势进行识别,获得初始手势视频序列帧;
速度获取子模块,用于获取所述用户的手部所述初始手势视频序列帧中的初始运动速度;
第一滑动窗尺寸获取子模块,用于根据预设运动速度、预设滑动窗口尺寸和所述初始运动速度计算所述第一滑动窗口尺寸;
第一视频序列帧获取子模块,用于根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧。
12.根据权利要求10所述的装置,其特征在于,所述第一视频序列帧获取模块包括:
第二滑动窗尺寸获取子模块,用于当所述用户所做的手势不是初始手势时,获取存储单元中存储的所述第一滑动窗口尺寸;
第二视频序列帧获取子模块,用于根据所述第一滑动窗口尺寸获取至少一个手势视频序列帧。
CN201610316842.7A 2016-05-12 2016-05-12 一种手势识别方法及装置 Active CN107368181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610316842.7A CN107368181B (zh) 2016-05-12 2016-05-12 一种手势识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610316842.7A CN107368181B (zh) 2016-05-12 2016-05-12 一种手势识别方法及装置

Publications (2)

Publication Number Publication Date
CN107368181A true CN107368181A (zh) 2017-11-21
CN107368181B CN107368181B (zh) 2020-01-14

Family

ID=60304615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610316842.7A Active CN107368181B (zh) 2016-05-12 2016-05-12 一种手势识别方法及装置

Country Status (1)

Country Link
CN (1) CN107368181B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163130A (zh) * 2019-05-08 2019-08-23 清华大学 一种用于手势识别的特征预对齐的随机森林分类器及分类方法
CN110308786A (zh) * 2018-03-20 2019-10-08 厦门歌乐电子企业有限公司 一种车载设备及其手势识别方法
CN111178308A (zh) * 2019-12-31 2020-05-19 北京奇艺世纪科技有限公司 一种手势轨迹的识别方法和装置
CN112121280A (zh) * 2020-08-31 2020-12-25 浙江大学 一种心音盒的控制方法及控制***
JP7264547B1 (ja) 2022-03-02 2023-04-25 株式会社ベネモ 動作認識方法、および動作認識システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1860429A (zh) * 2003-09-30 2006-11-08 皇家飞利浦电子股份有限公司 定义内容窗口在显示器上的位置、尺寸和/或内容的姿势
CN103745228A (zh) * 2013-12-31 2014-04-23 清华大学 基于Fréchet距离的动态手势识别方法
KR20140076395A (ko) * 2012-12-12 2014-06-20 삼성전자주식회사 어플리케이션을 실행하는 디스플레이 장치 및 그 제어 방법
US20150131853A1 (en) * 2013-11-08 2015-05-14 Electronics And Telecommunications Research Institute Stereo matching system and method for generating disparity map using same
US9268457B2 (en) * 2012-07-13 2016-02-23 Google Inc. Touch-based fluid window management

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1860429A (zh) * 2003-09-30 2006-11-08 皇家飞利浦电子股份有限公司 定义内容窗口在显示器上的位置、尺寸和/或内容的姿势
US9268457B2 (en) * 2012-07-13 2016-02-23 Google Inc. Touch-based fluid window management
KR20140076395A (ko) * 2012-12-12 2014-06-20 삼성전자주식회사 어플리케이션을 실행하는 디스플레이 장치 및 그 제어 방법
US20150131853A1 (en) * 2013-11-08 2015-05-14 Electronics And Telecommunications Research Institute Stereo matching system and method for generating disparity map using same
CN103745228A (zh) * 2013-12-31 2014-04-23 清华大学 基于Fréchet距离的动态手势识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110308786A (zh) * 2018-03-20 2019-10-08 厦门歌乐电子企业有限公司 一种车载设备及其手势识别方法
CN110308786B (zh) * 2018-03-20 2023-12-26 厦门歌乐电子企业有限公司 一种车载设备及其手势识别方法
CN110163130A (zh) * 2019-05-08 2019-08-23 清华大学 一种用于手势识别的特征预对齐的随机森林分类器及分类方法
CN111178308A (zh) * 2019-12-31 2020-05-19 北京奇艺世纪科技有限公司 一种手势轨迹的识别方法和装置
CN112121280A (zh) * 2020-08-31 2020-12-25 浙江大学 一种心音盒的控制方法及控制***
JP7264547B1 (ja) 2022-03-02 2023-04-25 株式会社ベネモ 動作認識方法、および動作認識システム
JP2023127994A (ja) * 2022-03-02 2023-09-14 株式会社ベネモ 動作認識方法、および動作認識システム

Also Published As

Publication number Publication date
CN107368181B (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN107368181A (zh) 一种手势识别方法及装置
CN106407891B (zh) 基于卷积神经网络的目标匹配方法及装置
US10275672B2 (en) Method and apparatus for authenticating liveness face, and computer program product thereof
US20210158023A1 (en) System and Method for Generating Image Landmarks
CN112101437B (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN111832468B (zh) 基于生物识别的手势识别方法、装置、计算机设备及介质
WO2021151336A1 (zh) 基于注意力机制的道路图像目标检测方法及相关设备
CN108764046A (zh) 车辆损伤分类模型的生成装置、方法及计算机可读存储介质
CN110503074A (zh) 视频帧的信息标注方法、装置、设备及存储介质
CN109344806A (zh) 利用多任务目标检测模型执行目标检测的方法和***
CN109034063A (zh) 人脸特效的多人脸跟踪方法、装置和电子设备
Huang et al. RGB-D salient object detection by a CNN with multiple layers fusion
CN103677251A (zh) 姿势识别装置及其控制方法、显示器
CN112116008A (zh) 基于智能决策的目标检测模型的处理方法、及其相关设备
CN111126347B (zh) 人眼状态识别方法、装置、终端及可读存储介质
Ruan et al. Dynamic gesture recognition based on improved DTW algorithm
CN109635706B (zh) 基于神经网络的手势识别方法、设备、存储介质及装置
CN111611941B (zh) 特效处理方法及相关设备
CN109145987A (zh) 模型生成方法及装置
CN107272893B (zh) 基于手势控制非触摸屏的人机交互***及方法
CN108255995A (zh) 一种输出图像的方法及装置
CN111722717A (zh) 手势识别方法、装置及计算机可读存储介质
CN114928721B (zh) 足球拍摄镜头的切换方法、***、计算机设备及存储介质
CN116033259A (zh) 生成短视频方法、装置、计算机设备及存储介质
CN115661927A (zh) 手语识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant