CN109643165A - 手势判定装置、手势操作装置和手势判定方法 - Google Patents

手势判定装置、手势操作装置和手势判定方法 Download PDF

Info

Publication number
CN109643165A
CN109643165A CN201780051639.4A CN201780051639A CN109643165A CN 109643165 A CN109643165 A CN 109643165A CN 201780051639 A CN201780051639 A CN 201780051639A CN 109643165 A CN109643165 A CN 109643165A
Authority
CN
China
Prior art keywords
benchmark
gesture
moment
result
operator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201780051639.4A
Other languages
English (en)
Inventor
中村雄大
神谷雅志
内藤正博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN109643165A publication Critical patent/CN109643165A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

手势判定装置(100)具有:基准部位检测部(10),其输出表示基准部位区域的基准部位信息(Am(k));运动提取部(20),其输出表示运动区域的运动信息(Bm(k));基准部位消失判定部(30),其生成基准部位消失判定结果(Cm(k));时刻判定部(40),其判定基准部位消失信息所示的第1时刻与第2时刻是否同步,输出判定的结果即时刻判定结果(Dm(k)),在该第2时刻产生了运动区域与基准部位信息所示的基准部位区域重叠的帧;以及操作判定部(50),其根据时刻判定结果和运动信息判定操作者的手势操作的内容。

Description

手势判定装置、手势操作装置和手势判定方法
技术领域
本发明涉及判定操作者的手势操作的内容的手势判定装置、根据手势操作的内容生成用于操作设备的操作命令的手势操作装置和用于判定操作者的手势操作的内容的手势判定方法。
背景技术
在家电设备和车载设备等的设备操作中,不使用遥控器且不与操作面板接触就能够进行操作的基于手的运动实现的手势操作是有效的。此外,在公共施设或工厂的数字标牌等的设备操作中,很难假设全部操作者具有遥控器,并且,大型的显示设备较多,因此,很难活用触摸面板。因此,具有上述特征的手势操作是有效的。为了实现这种手势操作,例如,通过摄像机等摄像装置对操作者进行多帧摄像,检测帧间的运动,由此判定手势操作。但是,该手法存在如下课题:在车内环境等背景显著变化的环境下容易产生手势的误判定,并且很难鉴别手势操作和操作者的非意图运动。
为了解决该课题,存在如下技术:以操作者的面部位置为基准来限定手势操作判定的对象区域,针对限定的区域判定操作者的特定动作,通过判定在规定的期间内持续进行了该动作,鉴别手势操作和背景的变化或手势操作和操作者的非意图运动,提高手势判定的精度(例如参照专利文献1)。
现有技术文献
专利文献
专利文献1:日本特开2012-58928号公报
发明内容
发明要解决的课题
但是,在专利文献1记载的技术中,为了提高手势的判定精度,操作者需要在规定的期间内持续进行规定的动作,不适于挥手操作(以后还称作“挥击”)等能够在短时间内执行的手势操作的判定。
本发明正是为了解决上述现有技术的课题而完成的,其目的在于,在操作者进行了短时间的手势操作的情况下,也能够减少由于背景的变化和操作者的非意图动作而引起的手势的误判定,进行高精度的手势判定。
用于解决课题的手段
本发明的手势判定装置判定操作者的手势操作的内容,其特征在于,所述手势判定装置具有:基准部位检测部,其根据作为摄像图像而依次取得的多个帧图像检测基准部位,针对所述多个帧图像分别输出表示存在所述基准部位的基准部位区域的基准部位信息;运动提取部,其在所述多个帧图像中提取帧图像间的运动,输出表示产生了所述运动的运动区域的运动信息;基准部位消失判定部,其根据所述基准部位信息所示的所述检测的结果,生成表示产生了未被检测到所述基准部位的帧图像的第1时刻的基准部位消失信息;时刻判定部,其判定所述基准部位消失信息所示的所述第1时刻与第2时刻是否同步,输出所述判定的结果即时刻判定结果,在该第2时刻产生了所述运动信息所示的所述运动区域与所述基准部位信息所示的所述基准部位区域重叠的帧;以及操作判定部,其根据所述时刻判定结果和所述运动信息判定所述操作者的手势操作的内容。
本发明的手势操作装置的特征在于,所述手势操作装置具有:上述手势判定装置;以及命令生成部,其根据由所述操作判定部判定出的所述手势操作的内容,生成用于操作设备的操作命令。
本发明的手势判定方法的特征在于,所述手势判定方法具有以下步骤:基准部位检测步骤,根据作为摄像图像而依次取得的多个帧图像检测基准部位,针对所述多个帧图像分别输出表示存在所述基准部位的基准部位区域的基准部位信息;运动提取步骤,在所述多个帧图像中提取帧图像间的运动,输出表示产生了所述运动的运动区域的运动信息;基准部位消失判定步骤,根据所述基准部位信息所示的所述检测的结果,生成表示产生了未被检测到所述基准部位的帧图像的第1时刻的基准部位消失信息;时刻判定步骤,判定所述基准部位消失信息所示的所述第1时刻与第2时刻是否同步,输出所述判定的结果即时刻判定结果,在该第2时刻产生了所述运动信息所示的所述运动区域与所述基准部位信息所示的所述基准部位区域重叠的帧;以及操作判定步骤,根据所述时刻判定结果和所述运动信息判定操作者的手势操作的内容。
发明效果
根据本发明的手势判定装置、手势操作装置和手势判定方法,在操作者进行了短时间的手势操作的情况下,也能够减少由于背景的变化和操作者的非意图动作而引起的手势的误判定,进行高精度的手势判定。
附图说明
图1是示出本发明的实施方式1的手势判定装置的概略结构的框图。
图2是示出实施方式1的纹理特征的计算中的块的配置的图。
图3是示出实施方式1的CSLBP特征的计算中使用的像素的配置的图。
图4是示出实施方式1的纹理特征计算中的块内的单元的配置的图。
图5是示出表示实施方式1的手势操作的一连串动作的例子(从图像左上侧朝向右侧摆手的动作)的图。
图6是示出进行了表示实施方式1的手势操作的一连串动作(从图像左上侧朝向右侧摆手的动作)的情况下的运动区域及其重心的位置的图。
图7是示出实施方式1的时刻判定部的状态转变图的一例的图。
图8是根据实施方式1中的基准部位信息说明3个区域的定义的图。
图9是示出表示实施方式1的手势操作的一连串动作的例子(暂时使手从图像左上侧移动到面部的眼前,然后朝向左侧摆回手的动作)的图。
图10是示出实施方式1的手势判定装置的处理的流程图。
图11是示出本发明的实施方式2的手势判定装置的概略结构的框图。
图12的(a)~(c)是示出实施方式2中的手的形状的种类的图。
图13是示出本发明的实施方式3的手势判定装置的概略结构的框图。
图14是示出本发明的实施方式4的手势判定装置的概略结构的框图。
图15是示出本发明的实施方式5的手势操作装置的概略结构的框图。
图16是示出本发明的实施方式6的手势操作装置的概略结构的框图。
图17是示出变形例中的控制部的结构的图。
具体实施方式
《1》实施方式1
《1-1》结构
图1是示出本发明的实施方式1的手势判定装置100的概略结构的框图。手势判定装置100是能够执行实施方式1的手势判定方法的装置。如图1所示,手势判定装置100具有基准部位检测部10、运动提取部20、基准部位消失判定部30、时刻判定部40和操作判定部50。
首先,对手势判定装置100的概要进行说明。手势判定装置100接收以预定的帧率拍摄包含操作者的空间而得到的、表示该空间的动态图像的一连串帧的图像数据(摄像图像)Im(k)。这里,k表示分别分配给帧的帧编号(正整数)。例如,Im(k)的下一个时刻给出的帧记作Im(k+1)。
帧率例如优选为1秒30帧。图像数据例如是彩色图像、灰度图像或距离图像。下面,为了简化说明,对图像数据是宽度为640像素、高度为480像素的8比特灰度的灰度图像的情况进行说明。如图1所示,手势判定装置100进行用于根据一连串帧的图像数据Im(k)输出手势判定结果Om(k)的一连串动作。
基准部位检测部10根据作为来自摄像装置的输入信息而给出的图像数据Im(k),检测至少一个作为操作者的基准的部位(作为预定的身体部位的基准部位),生成表示基准部位的基准部位信息Am(k)。设实施方式1中的基准部位为操作者的面部来进行说明。但是,基准部位也可以是操作者的面部以外的部位。例如,也可以是属于面部的部位(面部、眼睛、眉毛、鼻子、嘴、额头、脸颊、下巴等),还可以是头、肩等这种面部以外的身体部位。
基准部位信息Am(k)能够包含有无检测基准部位、检测到的基准部位的中心坐标、检测到的基准部位的尺寸等信息。生成的基准部位信息Am(k)被供给到运动提取部20和基准部位消失判定部30。此外,基准部位检测部10将一连串帧的图像数据Im(k)输出到运动提取部20和基准部位消失判定部30。
运动提取部20接收基准部位信息Am(k)和最新的图像数据Im(k),根据最新的图像数据Im(k)和具有与Im(k)不同的帧编号的图像数据中的至少一个图像数据Im(k-α),在基准部位附近提取帧间产生了运动的区域,生成表示提取出的产生了运动的区域的运动信息Bm(k)。这里,α为1以上的整数。运动信息Bm(k)包含图像数据间运动较大的区域的重心数据。生成的运动信息Bm(k)被供给到时刻判定部40。
基准部位消失判定部30从基准部位检测部10接收图像数据Im(k)和基准部位信息Am(k),与未图示的存储部中存储的过去的基准部位信息Am(k-α)进行比较,判定图像数据Im(k)中的基准部位的消失,生成表示产生了未被检测到基准部位的帧图像的时刻(第1时刻)的基准部位消失判定结果(基准部位消失信息)Cm(k)。这里,α为1以上的整数。基准部位消失判定结果Cm(k)包含在图像数据Im(k)中基准部位是否消失的信息,例如,如果基准部位消失则输出1,如果未消失则输出0。由基准部位消失判定部30生成的基准部位消失判定结果Cm(k)被供给到时刻判定部40。
时刻判定部40接收基准部位信息Am(k)、运动信息Bm(k)和基准部位消失判定结果Cm(k),判定运动信息Bm(k)是基于操作者的手势,还是基于除此以外的现象(背景的变化和操作者的非意图运动),生成表示该判定的结果的时刻判定结果Dm(k)。即,时刻判定部40判定基准部位消失判定结果Cm(k)所示的产生了未被检测到基准部位的帧图像的第1时刻与第2时刻是否同步,输出判定的结果即时刻判定结果Dm(k),在该第2时刻产生了运动信息Bm(k)所示的运动区域与基准部位信息Am(k)所示的基准部位区域重叠的帧。时刻判定结果Dm(k)被供给到操作判定部50。
操作判定部50从时刻判定部40接收运动信息Bm(k)和时刻判定结果Dm(k),根据时刻判定结果Dm(k)和至少一个过去的时刻判定结果Dm(k-α)判定手势操作的内容,输出该判定的结果作为手势判定结果Om(k)。这里,α为1以上的整数。
接着,更加详细地说明手势判定装置100的动作。基准部位检测部10根据作为输入而给出的图像数据Im(k),检测至少一个预定的操作者的基准部位,生成基准部位信息Am(k)。下面,为了简化说明,对基准部位是操作者的面部的情况进行说明。
在基准部位是操作者的面部的情况下,基准部位信息Am(k)例如是有无检测这些基准部位、包围操作者的面部的矩形的中心坐标Fc(Fcx、Fcy)、该矩形的宽度Fcw和高度Fch。这里,关于有无检测基准部位,例如,在能够检测的情况下设为1,在无法检测的情况下设为0。此外,矩形的中心坐标利用图像数据上的坐标系来表现,以图像的左上方为原点,设朝向图像右侧为x轴的正方向,设朝向下侧为y轴的正方向。操作者的面部检测能够利用公知手段来实现。例如,能够利用使用Haar-like特征量的级联型面部检测器,提取包围操作者的面部的矩形区域。
运动提取部20接收最新的图像数据Im(k),根据最新的图像数据Im(k)和具有与Im(k)不同的帧编号的图像数据中的至少一个图像数据Im(k-α),在基准部位附近提取图像数据间产生了运动的区域,根据该提取结果生成运动信息Bm(k)。下面,为了简化说明,根据基准部位信息Am(k)、最新的图像数据Im(k)和未图示的存储部中存储的1帧过去的图像数据Im(k-1),生成运动信息Bm(k)。运动信息Bm(k)包含图像数据间运动较大的区域的重心数据。
为了对图像数据间的运动的大小进行评价,能够使用公知技术。例如,将图像分割成多个矩形区域(运动特征提取块,下面简单记作“块”),计算在各块中表现纹理(外观)的特征(纹理特征TF),在图像数据间对差异进行评价。于是,在运动较大的块中,在图像数据间外观的差异较大,纹理特征的差异较大,因此,能够按照每个单元对图像数据间的运动的大小进行评价。
下面,按照每个单元计算不容易受到环境光的变动影响的CSLBP(CenterSymmetric Local Binary Pattern:中心对称局部二值模式)特征的直方图,对图像数据间的运动较大的单元进行评价,提取存在运动的区域。CSLBP特征是如下特征:关于各像素,针对以该像素为中心的正方形的特征提取区域内的像素,对亮度梯度进行二进制码化。
首先,参照图2对图像数据上的块的配置进行说明。图2是示出实施方式1的纹理特征的计算中的块的配置的图。如图2所示,块的中心在图像数据上配置成格子状(x轴方向上M个、y轴方向上N个)。M为正整数,N为正整数。关于图2所示的块的尺寸,宽度Blw和高度Blh均为40像素。下面,设M=16、N=12,在x轴方向和y轴方向上都均等地进行配置。此外,设图像数据上的最左上方的块的中心坐标为(20,20)。此时,最右下方的块的中心坐标为(620,460)。
接着,参照图3对各块中的CSLBP特征的直方图的计算方法的一例进行说明。针对各块中包含的全部像素计算CSLBP特征。
图3是示出实施方式1的CSLBP特征的计算中使用的像素的配置的图。图3中示出对与各像素Pc(x,y)有关的CSLBP特征的计算中使用的、以该像素为中心的3×3像素(纵3像素、横3像素)的区域内的像素赋予编号。使用以该像素为中心的3×3个像素的亮度值,通过下式(1)计算与像素Pc(x,y)有关的CSLBP特征B(x,y),用0~15的值来表示。
【数学式1】
B(x,y)
=s(n0-n4)×20+s(n1-n5)×21+s(n2-n6)×22+s(n3-n7)×23…(1)
在式(1)中,n0~n7分别表示图5所示的像素n0~n7的亮度值。此外,s(a)是阈值函数,在a>T1时,s(a)=1,在a≦T1时,s(a)=0。此外,s(a)为0或1,因此,CSLBP特征B(x,y)为整数,CSLBP特征B(x,y)的可取值的范围为0≦B(x,y)<16y,即,针对全部x和y,B(x,y)为0以上且小于16。阈值T1例如优选为亮度值的可取值的1%左右,在亮度值取0~255的值的情况下,设定为T1=3。
接着,参照图4对使用针对块内的全部像素计算出的CSLBP特征计算各块的直方图的方法进行说明。图4是示出实施方式1的纹理特征计算中的块内的单元的配置的图。如图4所示,将宽度Blw、高度Blh的块进一步分割成宽度Cew、高度Ceh的单元。下面,设为Cew=5、Ceh=5,将块分割成4×4的合计16个单元。
在各单元中包含Cew×Ceh的像素,针对各个单元计算CSLBP特征。使用这些CSLBP特征生成各单元中的直方图。此时,CSLBP特征的可取值为0~15的整数,因此,各单元的直方图成为16维的向量。然后,利用块内的16个单元连结分别计算出的16维的向量,设16×16=256维的向量为各块中的纹理特征TF。
针对图像数据Im(k)和图像数据Im(k-1),在各块中计算纹理特征TF,在各块中计算纹理特征的变化量dTF。例如,使用向量间的欧几里德距离求出变化量dTF。这样,通过计算变化量dTF,能够对各块中的运动的大小进行评价。
针对各块中计算出的变化量dTF,使用阈值Tth进行二值化,将块分类成变化较大的区域和变化较大的区域以外的区域(即变化较小的区域)。例如,满足阈值Tth≤变化量dTF的块贴标签为1,设为变化较大的区域。另一方面,阈值Tth>变化量dTF的块贴标签为0,设为变化较小的区域。
对各块进行二值化后,连结贴标签为1的块,将运动较大的区域分成群组。然后,设尺寸最大的群组(连结的块数较多的区域)为运动区域,计算该群组的重心Mg(k),设为运动信息Bm(k)。
基准部位消失判定部30接收图像数据Im(k)和基准部位信息Am(k),与过去的基准部位信息Am(k-α)进行比较,判定图像数据Im(k)中的基准部位的消失,生成基准部位消失判定结果Cm(k)。
基准部位消失判定部30例如根据作为输入而给出的基准部位信息Am(k)中包含的基准部位检测的有无,进行基准部位消失判定。在Am(k)中基准部位检测为“有”的情况下,设为不存在基准部位的消失,设基准部位消失判定结果Cm(k)为“0”,将其供给到时刻判定部40。在Am(k)中基准部位检测为“无”的情况下,设为存在基准部位的消失,设基准部位消失判定结果Cm(k)为“1”,将其供给到时刻判定部40。
时刻判定部40接收基准部位信息Am(k)、运动信息Bm(k)和基准部位消失判定结果Cm(k),判定运动信息Bm(k)是基于操作者的手势,还是基于除此以外的现象(背景的变化和操作者的非意图运动),生成时刻判定结果Dm(k)。下面,为了对时刻判定的一例进行说明,设以手在面前横穿的方式移动手的动作为手势判定的对象。下面,参照图5~图8对时刻判定的一例的动作进行说明。
图5是示出表示实施方式1的手势操作的一连串动作的例子(从图像左上侧朝向右侧摆手的动作、即挥击)的图。在图5中,Im(k)~Im(k+4)示出操作者进行以手在面前横穿的方式移动手的动作时的图像数据的切出操作者附近而成的图像、以及针对各图像数据检测到的基准部位(面部)的检测状态。
图5所示的虚线矩形示出基准部位区域即基准部位的检测位置。如图5所示,在Im(k)、Im(k+1)、Im(k+4)中,在图像数据上清楚地映出基准部位即面部,因此,检测到基准部位,面部的位置用虚线矩形包围。另一方面,在Im(k+2)、Im(k+3)中,由于手势操作而使面部被手遮挡。因此,未检测到基准部位,不存在虚线矩形。
图6是示出进行了表示实施方式1的手势操作的一连串动作(从图像左上侧朝向右侧摆手的动作)的情况下的运动区域Mb及其重心Mg的位置的图。图6针对图5的各图像数据示出运动较大的运动区域Mb及其重心Mg的位置关系。在图6中,在与图5相同的位置,利用虚线矩形示出基准部位的位置。图6中的In(k+1)~In(k+4)分别对应于图5中的Im(k+1)~Im(k+4)。在图5的Im(k+2)、Im(k+3)中未检测到基准部位,但是,在与其对应的图6的In(k+2)、In(k+3)中描绘基准部位的理由在后面叙述。
根据图5和图6,手势判定成立的条件能够总结成以下4个条件(A1)~(A4)。
条件(A1):在初始状态下检测到基准部位,由于手势而使基准部位暂时消失。
条件(A2):在基准部位消失时(第1时刻),运动区域Mb包含在基准部位的矩形区域内。
条件(A3):在基准部位消失紧前(第3时刻),在基准部位附近(图6中的左侧、第1侧)存在运动区域Mb。
条件(A4):在基准部位消失紧后(第4时刻),在与条件(A3)时相反的一侧(图6中的右侧、第2侧)存在运动区域Mb。
根据上述4个条件(A1)~(A4),判定运动区域Mb存在于基准部位附近的时刻和基准部位消失的时刻的同步,检测运动区域Mb的存在位置的移动,由此能够进行手势判定。时刻判定部40判定前者的运动区域Mb存在于基准部位附近的时刻和基准部位消失的时刻的同步,将时刻判定结果Dm(k)供给到操作判定部50。另一方面,操作判定部50根据时刻判定结果Dm(k)和运动区域Mb的移动状况判定手势。
接着,使用图7对实现上述时刻判定的方法进行说明。图7是示出实施方式1的时刻判定部40的状态转变图的一例的图。如图7所示,时刻判定部40具有状态S(k),时刻判定结果Dm(k)中包含时刻判定部40具有的状态S(k)。状态S(k)采取图7所示的3个状态Sn、Sp、Sg中的任意状态,状态转变的条件是Qn、Qm、Qh这3个。
参照图8对3个状态Sn、Sp、Sg和3个条件Qn、Qm、Qh进行说明。图8是根据实施方式1中的基准部位信息Am说明3个区域RI、Rc、Rr的定义的图。区域Rl是位于基准部位的图像数据左上侧(x轴负方向)的区域,由中心Rlc(Rlcx、Rlcy)、宽度Rlw、高度Rlh来定义。区域Rc是位于基准部位的图像数据中心的区域,由中心Rcc(Rccx、Rccy)、宽度Rcw、高度Rch来定义。区域Rr是位于基准部位的图像数据右上侧(x轴正方向)的区域,由中心Rrc(Rrcx、Rrcy)、宽度Rrw、高度Rrh来定义。
条件Qm是重心Mg存在于区域Rl或区域Rr且基准部位消失判定结果Cm为“0”这样的条件。条件Qh是重心Mg存在于区域Rc且基准部位消失判定结果Cm为“1”这样的条件。条件Qn表示Qm、Qh以外的全部条件。
如图7所示,状态Sn是S(k)的初始状态。在状态Sn中,当满足条件Qm时转变成状态Sp。除此以外不从状态Sn进行转变。在状态Sp中,当满足条件Qh时转变成状态Sg。在状态Sp中,在满足条件Qm的情况下不从状态Sp进行转变。在状态Sg中,当满足条件Qn时转变成状态Sn。在状态Sg中,当满足条件Qm时转变成状态Sp。在状态Sg中,在满足条件Qh的情况下不从状态Sg进行转变。在状态Sg中,在满足条件Qn的情况下转变成状态Sn。
针对图5所示的一连串图像数据,说明状态S(k)如何转变。首先,在初始状态下,S(k)=Sn。接着,在被输入Im(k+1)的时点,重心Mg存在于区域Rl,并且基准部位消失判定结果为“0”,因此,满足条件Qm,转变成S(k+1)=Sp。
接着,在Im(k+2)中,重心Mg存在于区域Rc,并且基准部位消失判定结果为“1”,因此,满足条件Qh,转变成S(k+2)=Sg。在Im(k+3)中,与Im(k+2)同样满足条件Qh,因此,依然S(k+3)=Sg。在Im(k+4)中,Mg存在于Rr,并且基准部位消失判定结果为“0”,因此,转变成S(k+4)=Sp。
如上所述,针对图5所示的手势,时刻判定部40具有的状态按照Sp、Sg、Sp的顺序(即Sp→Sg→Sp)进行转变。通过判定该状态转变,能够检测满足条件(A1)~条件(A4)的手势。
在图9所示的运动中,也可能引起该状态的转变。图9是示出表示实施方式1的手势操作的一连串动作的例子(暂时使手从图像左上侧移动到面部的眼前,然后朝向左侧摆回手的动作)的图。图5和图9中的动作的差异在于,在基准部位消失紧后,运动区域Mb存在于与基准部位消失紧前相反的一侧(图5),还是存在于相同的一侧(图9)。在后级的操作判定部50中实施该差异的判定。
在进行图9的动作的情况下,手势判定成立的条件能够总结成以下4个条件(B1)~(B4)。
条件(B1):在初始状态下检测到基准部位,由于手势而使基准部位暂时消失。
条件(B2):在基准部位消失时(第1时刻),运动区域Mb包含在基准部位的矩形区域内。
条件(B3):在基准部位消失紧前(第3时刻),在基准部位附近存在运动区域Mb。
条件(B4):在基准部位消失紧后(第4时刻),在与条件(B3)相同的一侧的基准部位附近存在运动区域Mb。
操作判定部50接收运动信息Bm(k)和时刻判定结果Dm(k),使用运动信息Bm(k)包含的运动区域Mb的重心Mg的移动和时刻判定结果Dm(k),生成并输出手势判定结果Om(k)。
具体而言,检测时刻判定结果Dm(k)按照状态Sp、Sg、Sp的顺序(即Sp→Sg→Sp)进行转变,根据各转变时的重心Mg的位置关系判定手势。例如,在判定图5所示的一连串动作作为手势的情况下,在观测到在时刻判定结果Dm(k)从状态Sp向状态Sg转变时重心Mg从区域Rl向区域Rc移动,进而在从状态Sg向状态Sp转变时重心Mg从区域Rc向区域Rr移动的情况下,设为检测到该手势,输出判定结果。
同样,在判定图5所示的一连串动作作为手势的情况下,在观测到在时刻判定结果Dm(k)从状态Sp向状态Sg转变时重心Mg从区域Rl向区域Rc移动,进而在从状态Sg向状态Sp转变时重心Mg从区域Rc向区域Rl移动的情况下,设为检测到该手势,输出判定结果。
《1-2》动作
接着,使用图10对实施方式1的手势判定装置100的处理的步骤进行说明。图10是示出实施方式1的手势判定装置100的处理的流程图。按照被输入摄像图像的每1帧期间,即在1帧期间内一次性进行图10所示的处理。首先,在步骤S1中,基准部位检测部10根据作为输入而给出的图像数据Im(k),检测至少一个作为预定的操作者基准的部位(基准部位),生成基准部位信息Am(k)。
接着,在步骤S2中,运动提取部20接收基准部位信息Am(k)和最新的图像数据Im(k),根据最新的图像数据Im(k)和具有与Im(k)不同的帧编号的图像数据中的至少一个图像数据Im(k-α),在基准部位附近提取帧间产生了运动的区域,生成运动信息Bm(k)。
接着,在步骤S3中,基准部位消失判定部30接收图像数据Im(k)和基准部位信息Am(k),与过去的基准部位信息Am(k-α)进行比较,判定图像数据Im(k)中的基准部位的消失,生成基准部位消失判定结果Cm(k)。平行地进行步骤S2的处理和步骤S3的处理。
接着,在步骤S4中,时刻判定部40接收基准部位信息Am(k)、运动信息Bm(k)和基准部位消失判定结果Cm(k),判定运动信息Bm(k)是基于操作者的手势,还是基于除此以外的现象(背景的变化和操作者的非意图运动),生成时刻判定结果Dm(k)。
最后,在步骤S5中,操作判定部50接收时刻判定结果Dm(k),根据Dm(k)和至少一个过去的时刻判定结果Dm(k-α)进行手势判定,生成并输出手势判定结果Om(k)。
《1-3》效果
如上所述,根据实施方式1的手势判定装置100,根据由于手势操作而产生的图像上的运动区域的位置和出现时刻以及由于手势操作而使人物的基准部位从摄像图像中消失的时刻,判定手势。换言之,实施方式1的手势判定装置100判定表示产生了未被检测到基准部位的帧图像的第1时刻的基准部位消失信息所示的第1时刻与第2时刻是否同步,根据该判定的结果即时刻判定结果和所述运动信息,判定操作者的手势操作的内容,在该第2时刻产生了运动信息所示的运动区域和基准部位信息所示的基准部位区域重叠的帧。由此,不用操作者在预定的期间内持续进行预定的动作,在进行短时间的手势操作(例如挥手的操作)的情况下,也能够高精度地进行手势判定。
此外,根据实施方式1的手势判定装置100,通过设基准部位为操作者的面部,操作者能够通过以穿过摄像机前方(操作者的面部与摄像机之间)的方式移动手的动作,进行适当的手势操作。因此,操作者容易得知手势操作的基准(以穿过自己面前的方式移动手即可),容易进行操作者的手势操作。
《1-4》变形例
另外,在实施方式1中,使用操作者的面部作为基准部位,但是不限于此,也可以使用操作者的眼睛、鼻子、嘴、头、肩等这种其他身体部位。在面部以外的部位的检测中,可以与面部检测同样地使用级联检测器,也可以使用AAM(Active Appearance Model:主动外观模型)等公知技术进行检测。
另外,在实施方式1中,设基准部位为操作者的一部分(面部),但是不限于此,也可以不是属于操作者的部位。例如,在操作者坐在椅子上的情况下,也可以设扶手等椅子的一部分为基准部位,还可以设位于存在操作者的空间内的照明或墙壁的一部分为基准部位。但是,从高精度地检测手势的观点来看,设位于不会由于手势以外的动作而从图像中消失的位置的部位为基准部位较好,此外,优选设存在于操作者与摄像机之间的部位为基准部位。
另外,在实施方式1中,设基准部位为一个(操作者的面部),但是不限于此。例如,也可以检测多个基准部位,使用与检测到的多个基准部位的消失时刻有关的基准部位消失判定结果,判定提取出的运动信息是否基于手势操作。由此,能够进行更高精度的手势判定。此外,也可以根据多个基准部位的消失时刻的顺序,判定提取出的运动信息是否基于手势操作。该情况下,也能够进行高精度的手势判定。
另外,在实施方式1中,为了进行运动提取而使用纹理信息,但是不限于此,也可以在帧间计算亮度值的差分从而进行运动提取,还可以采用使用红绿蓝(RGB)像素值和亮度值的直方图的统计学背景差分法。此外,也可以与面部检测同样地,利用级联检测器等检测方法检测手,通过追踪检测到的手来提取运动。作为追踪检测到的手的方法,能够使用卡尔曼滤波器、粒子滤波器等公知技术。
另外,在实施方式1中,设手在面前横穿这种动作为手势判定的对象动作,但是不限于此,只要是伴随着手的运动而使预定的基准部位消失的动作即可。例如,也可以设以从上向下穿过面前的方式移动手的动为判定对象的手势,还可以是以在面前横穿的方式反复左右摆手的动作。
另外,在实施方式1中,设运动信息Bm(k)包含运动较大的区域的重心数据,但是不限于此,例如,也可以使用运动较大的区域的中心数据。
另外,在实施方式1中,将运动较大的区域分成群组,设连结的块数较多的区域为运动区域,但是不限于此。例如,也可以设连结的块包围的区域的面积最大的区域为运动区域,还可以设在连结的块中包含的各块中计算出的变化量dTF的合计值最大的区域为运动区域。
另外,在实施方式1中,针对图像数据Im(k)整体进行运动提取,但是,也可以设定检测到的基准部位周边的区域作为运动提取对象区域,在设定的运动提取对象区域的范围内实施运动提取。这样,通过设定运动提取对象区域,能够降低CSLBP特征的计算所需要的计算成本。
另外,在实施方式1中,运动提取部20从运动较大的区域的群组中选定一个群组,设为运动信息Bm(k),但是不限于此。例如,运动信息Bm(k)也可以包含多个所述群组的信息。该情况下,需要利用时刻判定部40决定选择使用群组中的哪个群组。在利用时刻判定部40选择群组时,例如,选择尺寸最大的群组或最接近基准部位或消失的基准部位的群组。
《2》实施方式2
《2-1》结构
图11是示出本发明的实施方式2的手势判定装置100a的概略结构的框图。图11所示的手势判定装置100a与图1所示的手势判定装置100大致相同,但是,不同之处在于具有形状提取部60和操作判定部50a。在图11中,对与图1所示的结构要素相同或对应的结构要素标注与图1所示的标号相同的标号。此外,省略与图1所示的结构相同或对应的结构的说明。
与实施方式1的不同之处在于,在实施方式2中,不仅判定基于摆手动作这种运动的手势,形状提取部60还进行提示签名那样特定的手形状的手势形状提取,操作判定部50a根据形状提取部60对手形状的提取结果Em(k)和时刻判定部40的时刻判定结果Dm(k),输出手势判定结果Om(k)。
首先,形状提取部60被输入图像数据Im(k),检测图像数据Im(k)内包含的手,输出手形状的提取结果Em(k)。图12的(a)~(c)是示出实施方式2中的手形状的种类的图。图12的(a)示出手形状为石头的情况,图12的(b)示出手形状为剪刀的情况,图12的(c)示出手形状为布的情况。形状提取部60提取的手形状是预定的预定的手形状,例如,存在图12所示的种类(石头、剪刀、布)。在以后的说明中,作为要提取的手形状的种类,设图12所示的手形状为对象。
手形状的提取结果Em(k)包含表示在图像数据Im(k)中是否检测到手的手检测的有无、提取出的手形状的种类、检测到的手的中心坐标和尺寸信息等。关于手检测的有无,例如,在检测到手的情况下输出1,在未检测到手的情况下输出0。关于手形状的种类,例如,如果是猜拳的手形状中的石头(岩石的形状)则输出1,如果是剪刀(剪子的形状)则输出2,如果是布(纸张的形状)则输出3,在不是预定的手形状的情况下输出0。关于检测到的手的区域,例如,用矩形区域来表现,手的中心坐标输出矩形区域的中心坐标Hc(Hcx、Hcy),尺寸输出矩形区域的宽度Hw、高度Hh。
操作判定部50a接收手形状的提取结果Em(k)、运动提取结果Bm(k)和时刻判定结果Dm(k),输出手势的判定结果Om(k)。
《2-2》动作
接着,对实施方式2的手势判定装置100a的动作进行说明。首先,对形状提取部60的动作进行说明。形状提取部60能够使用公知技术检测图像数据Im(k)中包含的手,提取预定的手形状。为了检测手,例如,利用在面部检测中使用的级联型手检测器。在手形状的提取中,例如,针对由手检测器检测到的手的矩形区域计算CSLBP特征量,通过SVM(SupportVector Machine:支持向量机)提取形状。形状提取部60将提取出的手形状的提取结果Em(k)输出到操作判定部50a。
接着,对操作判定部50a的动作进行说明。操作判定部50a输出基于手运动的手势判定结果或基于手形状的提示的手势判定结果中的任意一方作为手势判定结果Om(k)。根据时刻判定结果Dm(k)生成并输出基于手运动的手势判定结果。基于根据运动提取结果Bm(k)求出的图像上的运动区域的移动速度和在多帧范围内分析手形状的提取结果Em(k)而得到的结果,生成并输出基于手形状的提示的手势判定结果。
基于手运动的手势判定与实施方式1同样进行。在基于手形状的提示的手势判定中,操作判定部50a按照图12所示的手势的每个种类,保持对与在最近的帧中提取出的手形状有关的信息进行计数的计数器,基于根据运动提取结果Bm(k)求出的摄像图像上的运动区域的移动速度和手形状的提取结果Em(k),对计数器进行增加、减少或复位。然后,计数器达到一定以上的值,由此判定为基于手形状的提示的手势。
首先,根据当前帧的运动提取结果Bm(k)和过去帧的运动提取结果Bm(k-α),计算摄像图像上的运动区域的移动速度V(k)。这里,为了简化说明,设α=1。例如,使用运动提取结果Bm(k)中包含的重心Mg(k)与运动提取结果Bm(k-1)中包含的重心Mg(k-1)的欧几里德距离,计算移动速度V(k)。
接着,对计数器的增加、减少、复位的条件进行说明。关于增加,在运动区域的移动速度V(k)(运动评价值)小于预定的阈值Vh,并且手形状的提取结果Em(k)为提取出预定种类的手势的情况下,对相应种类的手势的计数器进行增加。此时,对非相应种类的手势的计数器进行减少。在所述条件或移动速度V(k)为预定的阈值Vh以上的情况下实施减少。
另外,设增加时的最大值为CMax,在高于最大值的情况下不实施增加。此外,减少时的最小值例如设定为0,在低于最小值的情况下不实施减少。在检测到基于手运动的手势的情况下,针对全部计数器实施计数器的复位,例如,设定为计数器的最小值0。
关于基于手形状的提示的手势判定时刻,设在与图12所示的任意手势对应的计数器高于阈值Cth的时刻检测到所述手势,输出判定结果。另外,阈值Cth设定为比最大值Cmax小的值。
《2-3》效果
根据实施方式2的手势判定装置100a,能够得到与上述实施方式1的手势判定装置100相同的效果。
根据实施方式2的手势判定装置100a,根据基于由形状提取部60提取出的手形状的提取结果Em(k)和由时刻判定部40判定出的时刻判定结果Dm(k)生成的基于手运动的手势的判定结果Om(k),实施基于手形状的提示的手势判定。由此,能够进行误判定较少的手势判定。
根据实施方式2的手势判定装置100a,计算根据运动特征计算出的运动评价值(在实施方式2中设为运动区域的移动速度V(k)进行说明),在运动评价值大于预定的阈值的情况下,不进行基于手形状的提示的手势判定(在运动评价值为预定的阈值以下的情况下,进行基于手形状的提示的手势判定)。由此,能够进行误判定较少的手势判定。
《2-4》变形例
另外,在实施方式2中,使用运动区域的移动速度作为运动评价值,但是不限于此,例如,也可以设运动区域的大小为运动评价值。
另外,在实施方式2中,针对图像数据Im(k)整体进行形状提取,但是不限于此。例如,也可以将基准部位信息Am输入到形状提取部60,形状提取部60设定基准部位周边的区域作为形状提取对象区域,在已设定的形状提取对象区域中进行形状提取。通过这样地限定形状提取的对象区域,能够降低处理成本。
另外,在实施方式2中,在运动评价值大于预定的阈值的情况下,不进行基于手形状的提示的手势判定,但是,也可以根据运动评价值决定是否执行形状提取。由此,不需要用于提取形状的处理,因此,能够降低处理成本。
另外,在实施方式2中,形状提取部60检测一个手并提取手形状,但是,也可以检测多个手,设给出按照检测到的每只手判定手形状的种类而得到的结果的结果为手形状的提取结果Em(k)。
另外,在实施方式2中,根据运动区域的移动速度V(k)进行基于手形状的提示的手势判定中的计数器的控制,但是不限于此。例如,也可以对由形状提取部160检测到的手区域进行追踪处理,计算移动速度,进行计数器的控制。
《3》实施方式3
《3-1》结构
图13是示出本发明的实施方式3的手势判定装置100b的概略结构的框图。如图13所示,实施方式3的手势判定装置100b与图11所示的实施方式2的手势判定装置100a大致相同,但是,不同之处在于具有时刻判定部40b、操作判定部50b和操作者判定部70。在图13中,对与图11所示的结构要素相同或对应的结构要素标注与图11所示的标号相同的标号。此外,省略与图11所示的结构相同或对应的结构的说明。
与实施方式2的不同之处在于,在实施方式3中,根据基准部位信息Am(k)和基准部位消失判定结果Cm(k)判定操作者是哪个人物,计算操作者判定结果Fm(k),根据运动提取结果Bm(k)、形状提取结果Em(k)、时刻判定结果Dm(k)和操作者判定结果Fm(k)输出手势判定结果。
操作者判定部70被提供基准部位信息Am(k)和基准部位消失判定结果Cm(k)作为输入,判定操作者是哪个人物,将操作者判定结果Fm(k)输出到操作判定部50b。操作者判定结果Fm(k)包含操作者的单个信息、基准部位的位置和每个基准部位的消失判定结果,该操作者的单个信息包含确定操作者的标签和操作者的位置信息。
例如,根据图像数据Im(k)中的操作者的位置决定标签。在以后的说明中,在操作者为2人的条件下进行说明,设摄像图像左上侧映出的操作者的标签为L,设右侧映出的操作者的标签为R。根据基准部位的位置计算操作者的位置信息,例如,在基准部位是面部区域的情况下,设为面部区域的中心坐标。
时刻判定部40b被提供运动提取结果Bm(k)和操作者判定结果Fm(k)作为输入,按照每个操作者判定运动信息Bm(k)是基于操作者的手势,还是基于除此以外的现象,输出时刻判定结果Dm(k)。
操作判定部50b根据运动提取结果Bm(k)、手的形状的提取结果Em(k)、时刻判定结果Dm(k)和操作者判定结果Fm(k),输出手势判定结果Om(k)。操作者判定部70根据操作者判定结果Fm(k),判定是由哪个操作者进行的手势,对手势的种类的判定结果标注操作者的标签,作为手势判定结果Om(k)进行输出。
《3-2》动作
接着,对各要素的动作进行说明。操作者判定部70根据由基准部位检测部10检测到的基准部位的坐标信息或由基准部位消失判定部30检测到的消失的基准部位的坐标信息,进行基准部位所属的操作者的贴标签。例如,在比摄像图像的中心更靠左侧检测到基准部位的情况下,贴标签为“L”。另一方面,在比摄像图像的中心更靠右侧检测到基准部位的情况下,贴标签为“R”。
时刻判定部40b按照每个操作者保持图7所示的状态转变,按照每个操作者判定运动信息Bm(k)是基于操作者的手势,还是基于除此以外的现象。关于运动信息Bm(k)包含的多个运动区域的信息,根据操作者判定结果Fm(k)中包含的操作者的位置信息判定属于哪个操作者,活用于该操作者的状态转变。时刻判定部40b将表示是哪个操作者的时刻信号的操作者的标签信息与状态变化的信号一起作为Dm(k)输出到操作判定部50b。
为了判定运动信息Bm(k)属于哪个操作者,例如,根据运动区域的重心与操作者位置的距离进行判定。计算某个运动区域的重心位置与全部操作者之间的距离,判定为属于距离最短的操作者。在存在多个属于一名操作者的运动区域的情况下,例如选择使用其中之一。
操作判定部50b根据按照每个操作者送来的时刻判定结果Dm(k)、手形状的提取结果Em(k)和操作者判定结果Fm(k),生成并输出手势判定结果Om(k)。操作判定部50b按照每个操作者保持与图12所示的手势的种类对应的计数器。根据手形状的提取结果Em(k)中包含的手的位置信息和操作者的位置,判定提取出的手属于哪个操作者,实施每个操作者的计数器的增加、减少和复位。然后,根据每个操作者的时刻判定结果和每个操作者的计数器的状态,按照每个操作者生成手势判定结果Om(k)。对生成的手势判定结果Om(k)标注操作者的标签并输出。
《3-3》效果
根据实施方式3的手势判定装置100b,能够得到与上述实施方式1的手势判定装置100和上述实施方式2的手势判定装置100a相同的效果。
根据实施方式3的手势判定装置100b,具有操作者判定部70,由此,将基准部位与操作者的单个信息(位置信息等)关联起来进行手势判定。由此,在摄像图像内存在多个操作者的情况下,也能够高精度地进行手势判定。
《3-4》变形例
另外,在实施方式3中,举出操作者为2人的情况作为一例进行了说明,但是不限于此。例如,在对公共施设或工厂中的数字标牌等设备装置进行手势操作时,操作者为不确定多数。该情况下,例如,按照图像数据上检测到的每个面部区域进行操作者的贴标签,判定每个操作者的手势操作。
《3-5》变形例
另外,在实施方式3中,在时刻判定部40b中,可以根据基准部位所属的操作者决定操作者的标签信息,也可以根据运动信息所属的操作者决定操作者的标签信息,还可以根据这双方决定操作者的标签信息。
例如,对根据基准部位所属的操作者决定操作者的标签信息的例子进行说明。在判定为摄像图像左上侧映出的操作者的基准部位通过摄像图像右上侧映出的操作者的动作成为基于手势操作的运动信息的情况下,视为基准部位所属的摄像图像左上侧映出的操作者进行了操作,决定操作者的标签信息。即,贴标签为“L”。
接着,对根据运动信息所属的操作者决定操作者的标签信息的例子进行说明。在判定为摄像图像左上侧映出的操作者的基准部位通过摄像图像右上侧映出的操作者的动作成为基于手势操作的运动信息的情况下,视为运动信息所属的摄像图像右上侧映出的操作者进行了操作,决定操作者的标签信息。即,贴标签为“R”。
《4》实施方式4
《4-1》结构
图14是示出本发明的实施方式4的手势判定装置100c的概略结构的框图。如图14所示,实施方式4的手势判定装置100c与图13所示的实施方式3的手势判定装置100b大致相同,但是,不同之处在于具有操作者判定部70a。在图14中,对与图13所示的结构要素相同或对应的结构要素标注与图13所示的标号相同的标号。此外,省略与图13所示的结构相同或对应的结构的说明。
与实施方式3的不同之处在于,向操作者判定部70a提供认证结果Id,操作者判定部70a输出在操作者判定结果Fm(k)中反映了认证结果的Id作为标签。认证结果Id是确定操作者是谁的操作者的单个信息,例如,包含操作者的面部认证信息、操作者的认证编号和摄像图像中的位置信息。
操作者判定部70a被提供基准部位信息Am(k)、基准部位消失判定结果Cm(k)和认证结果Id作为输入,输出操作者判定结果Fm(k)。操作者判定部70a根据认证结果Id的位置信息,判定检测到的基准部位和消失的基准部位属于哪个操作者,标注操作者的认证编号作为标签,作为操作者判定结果Fm(k)进行输出。
操作判定部50b根据按照每个操作者送来的时刻判定结果Dm(k)、形状提取结果Em(k)和操作者判定结果Fm(k),生成并输出操作判定结果Om(k)。
《4-2》效果
根据实施方式4的手势判定装置100c,能够得到与上述实施方式1~3的手势判定装置100、100a、100b相同的效果。
根据实施方式4的手势判定装置100c,具有操作者判定部70a,将基准部位与操作者的单个信息(面部认证信息等)关联起来进行手势判定。由此,在摄像图像内存在多个操作者的情况下,也能够高精度地进行手势判定。
《4-3》变形例
另外,在实施方式4中,与实施方式3同样地,在时刻判定部40b中,可以根据基准部位所属的操作者决定操作者的标签信息,也可以根据运动信息所属的操作者决定操作者的标签信息,还可以根据这双方决定操作者的标签信息。
《5》实施方式5
《5-1》结构
图15是示出本发明的实施方式5的手势操作装置300的概略结构的框图。如图15所示,实施方式5的手势操作装置300具有手势判定装置100和命令生成部200。
手势操作装置300从外部接收图像数据Im(k),对图像数据Im(k)进行分析,判定操作者的手势,输出手势判定结果Om(k)。命令生成部200根据手势判定结果Om(k),生成操作设备的操作命令Pm(k),将其输出到外部的HMI(Human Machine Interface:人机界面)控制部400。HMI控制部400根据操作命令Pm(k)进行显示装置500和声音输出装置600的控制。操作命令Pm(k)例如是菜单切换、音乐的快进、返回等的用于控制HMI的输入命令。
《5-2》效果
根据实施方式5的手势操作装置300,根据由于手势操作而产生的图像上的运动区域的位置/出现时刻以及由于手势操作而使人物的基准部位从摄像图像中消失的时刻,判定手势,根据手势判定进行设备的操作、控制。由此,操作者不用在预定的期间内持续进行预定的动作,能够高精度地判定短时间的手势操作,生成设备的操作命令,因此,能够提供在操作者进行短时间的手势操作的情况下也能够进行高精度的手势操作的手势操作装置300。
《6》实施方式6
《6-1》结构
图16是示出本发明的实施方式6的手势操作装置300a的概略结构的框图。实施方式6的手势操作装置300a与图15所示的手势操作装置300大致相同,但是,与图15所示的手势操作装置300的不同之处在于具有通信部700。在图16中,对与图15所示的结构要素相同或对应的结构要素标注与图15所示的标号相同的标号。此外,省略与图15所示的结构相同或对应的结构的说明。
从命令生成部200对通信部700输入操作命令Pm(k),该通信部700将操作命令Pm(k)转换成通信信号Qm(k),输出到外部设备。通信信号Qm(k)例如能够为红外线遥控器信号、无线通信信号、光通信信号、电信号、CAN(Controller Area Network:控制器局域网络)通信信号中的任意信号。
《6-2》效果
根据实施方式6的手势操作装置300a,能够得到与上述实施方式5的手势操作装置300相同的效果。
根据实施方式6的手势操作装置300a,具有通信部700,由此,能够将生成的操作命令Pm(k)转换成通信信号Qm(k)进行输出,因此,操作者能够利用一个手势操作装置300a对多个外部设备进行操作。
《7》变形例
图17是示出上述实施方式1~4的手势判定装置100、100a、100b、100c的变形例的结构的硬件结构图。图17所示的手势判定装置可以是具有存储作为软件的程序的作为存储装置的存储器91和执行存储器91中存储的程序的作为信息处理部的处理器92的程序执行部(例如计算机)。图17所示的手势判定装置还能够由半导体集成电路构成。此外,图17所示的手势判定装置还能够由程序执行部和半导体集成电路的组合构成。
标号说明
100、100a、100b、100c:手势判定装置;10:基准部位检测部;20:运动提取部;30:基准部位消失判定部;40:时刻判定部;50、50a、50b:操作判定部;60:形状提取部;70、70a:操作者判定部;200:命令生成部;300、300a:手势操作装置;400:HMI控制部;500:显示装置;600:声音输出装置;700:通信部;Am(k):基准部位信息;Bm(k):运动信息;Cm(k):基准部位消失判定结果(基准部位消失信息);Dm(k):时刻判定结果;Im(k):图像数据;Om(k):手势判定结果;Mg(k):运动区域的重心;Em(k):形状提取结果;Fm(k):操作者判定结果;Pm(k):操作命令;Qm(k):通信信号。

Claims (17)

1.一种手势判定装置,该手势判定装置判定操作者的手势操作的内容,其特征在于,所述手势判定装置具有:
基准部位检测部,其根据作为摄像图像而依次取得的多个帧图像检测基准部位,针对所述多个帧图像分别输出表示存在所述基准部位的基准部位区域的基准部位信息;
运动提取部,其在所述多个帧图像中提取帧图像间的运动,输出表示产生了所述运动的运动区域的运动信息;
基准部位消失判定部,其根据所述基准部位信息所示的所述检测的结果,生成表示产生了未被检测到所述基准部位的帧图像的第1时刻的基准部位消失信息;
时刻判定部,其判定所述基准部位消失信息所示的所述第1时刻与第2时刻是否同步,输出所述判定的结果即时刻判定结果,在该第2时刻产生了所述运动信息所示的所述运动区域与所述基准部位信息所示的所述基准部位区域重叠的帧;以及
操作判定部,其根据所述时刻判定结果和所述运动信息判定手势操作的内容。
2.一种手势判定装置,其特征在于,所述手势判定装置具有:
基准部位检测部,其根据作为摄像图像而依次取得的多个帧图像检测操作者的身体部位作为基准部位,针对所述多个帧图像分别输出表示存在所述基准部位的基准部位区域的基准部位信息;
运动提取部,其在所述多个帧图像中提取帧图像间的运动,输出表示产生了所述运动的运动区域的运动信息;
基准部位消失判定部,其根据所述基准部位信息所示的所述检测的结果,生成表示产生了未被检测到所述基准部位的帧图像的第1时刻的基准部位消失信息;
时刻判定部,其判定所述基准部位消失信息所示的所述第1时刻与第2时刻是否同步,输出所述判定的结果即时刻判定结果,在该第2时刻产生了所述运动信息所示的所述运动区域与所述基准部位信息所示的所述基准部位区域重叠的帧;以及
操作判定部,其根据所述时刻判定结果和所述运动信息判定所述操作者的手势操作的内容。
3.根据权利要求1或2所述的手势判定装置,其特征在于,
在所述第1时刻之前的第3时刻在所述基准部位区域的第1侧检测到所述运动区域,并且在所述第1时刻之后的第4时刻在所述基准部位区域的与所述第1侧相反的第2侧检测到所述运动区域时,所述操作判定部判定为所述运动信息基于所述操作者的手势操作。
4.根据权利要求1或2所述的手势判定装置,其特征在于,
在所述第1时刻之前的第3时刻在所述基准部位区域的第1侧检测到所述运动区域,并且在所述第1时刻之后的第4时刻在所述基准部位区域的所述第1侧检测到所述运动区域时,所述操作判定部判定为所述运动信息基于所述操作者的手势操作。
5.根据权利要求1~4中的任意一项所述的手势判定装置,其特征在于,
所述基准部位区域是矩形区域。
6.根据权利要求1~5中的任意一项所述的手势判定装置,其特征在于,
所述基准部位检测部检测所述基准部位以外的其他基准部位,输出与所述其他基准部位有关的其他基准部位信息,
所述基准部位消失判定部根据所述其他基准部位信息所示的所述检测的结果,生成其他基准部位消失信息,
所述时刻判定部根据与所述其他基准部位消失信息有关的所述判定的结果,输出其他时刻判定结果,
所述操作判定部根据所述其他时刻判定结果和所述运动信息判定所述操作者的手势操作的内容。
7.根据权利要求6所述的手势判定装置,其特征在于,
所述时刻判定部输出与所述多个基准部位信息消失的顺序有关的信息作为所述时刻判定结果。
8.根据权利要求1~7中的任意一项所述的手势判定装置,其特征在于,
所述基准部位是所述操作者的面部或属于面部的部位。
9.根据权利要求1~8中的任意一项所述的手势判定装置,其特征在于,
所述手势判定装置还具有形状提取部,该形状提取部提取所述摄像图像中的手区域的形状,输出所述提取的结果即手形状提取结果,
所述操作判定部根据所述手形状提取结果、所述时刻判定结果和所述运动信息,判定所述操作者的手势操作的内容。
10.根据权利要求9所述的手势判定装置,其特征在于,
所述操作判定部在根据所述运动信息计算出的运动评价值为预定的阈值以下的情况下,根据所述手形状提取结果、所述时刻判定结果和所述运动信息判定所述操作者的手势操作的内容。
11.根据权利要求9或10所述的手势判定装置,其特征在于,
所述形状提取部在以所述基准部位区域为基准设定的形状提取对象区域内提取所述手区域的形状。
12.根据权利要求1~11中的任意一项所述的手势判定装置,其特征在于,
所述手势判定装置还具有操作者判定部,该操作者判定部根据所述基准部位信息和所述基准部位消失信息,判定操作者是所述摄像图像中的哪个人物,输出所述判定的结果即操作者判定结果,
所述操作判定部根据所述操作者判定结果、所述时刻判定结果和所述运动信息判定所述操作者的手势操作的内容。
13.根据权利要求12所述的手势判定装置,其特征在于,
所述操作者判定结果包含确定操作者的位置的位置信息。
14.根据权利要求12所述的手势判定装置,其特征在于,
所述操作者判定结果包含操作者的面部认证信息。
15.一种手势操作装置,其特征在于,所述手势操作装置具有:
权利要求1~14中的任意一项所述的手势判定装置;以及
命令生成部,其根据由所述操作判定部判定出的所述手势操作的内容,生成用于操作设备的操作命令。
16.根据权利要求15所述的手势操作装置,其特征在于,
所述手势操作装置还具有通信部,该通信部用于向外部设备发送操作命令。
17.一种手势判定方法,其特征在于,所述手势判定方法具有以下步骤:
基准部位检测步骤,根据作为摄像图像而依次取得的多个帧图像检测基准部位,针对所述多个帧图像分别输出表示存在所述基准部位的基准部位区域的基准部位信息;
运动提取步骤,在所述多个帧图像中提取帧图像间的运动,输出表示产生了所述运动的运动区域的运动信息;
基准部位消失判定步骤,根据所述基准部位信息所示的所述检测的结果,生成表示产生了未被检测到所述基准部位的帧图像的第1时刻的基准部位消失信息;
时刻判定步骤,判定所述基准部位消失信息所示的所述第1时刻与第2时刻是否同步,输出所述判定的结果即时刻判定结果,在该第2时刻产生了所述运动信息所示的所述运动区域与所述基准部位信息所示的所述基准部位区域重叠的帧;以及
操作判定步骤,根据所述时刻判定结果和所述运动信息判定操作者的手势操作的内容。
CN201780051639.4A 2016-09-01 2017-04-21 手势判定装置、手势操作装置和手势判定方法 Withdrawn CN109643165A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016170502 2016-09-01
JP2016-170502 2016-09-01
PCT/JP2017/016038 WO2018042751A1 (ja) 2016-09-01 2017-04-21 ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法

Publications (1)

Publication Number Publication Date
CN109643165A true CN109643165A (zh) 2019-04-16

Family

ID=61300478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780051639.4A Withdrawn CN109643165A (zh) 2016-09-01 2017-04-21 手势判定装置、手势操作装置和手势判定方法

Country Status (5)

Country Link
US (1) US10719697B2 (zh)
JP (1) JP6559359B2 (zh)
CN (1) CN109643165A (zh)
DE (1) DE112017004394T5 (zh)
WO (1) WO2018042751A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190139605A (ko) * 2018-06-08 2019-12-18 전자부품연구원 제스처 인식 장치 및 방법
WO2021220398A1 (ja) * 2020-04-28 2021-11-04 楽天株式会社 オブジェクト領域特定装置、オブジェクト領域特定方法、及びオブジェクト領域特定プログラム
CN114158281A (zh) * 2020-07-07 2022-03-08 乐天集团股份有限公司 区域提取装置、区域提取方法和区域提取程序
CN112507918B (zh) * 2020-12-16 2024-05-21 康佳集团股份有限公司 一种手势识别方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3968477B2 (ja) * 1997-07-07 2007-08-29 ソニー株式会社 情報入力装置及び情報入力方法
JP4569613B2 (ja) * 2007-09-19 2010-10-27 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
JP2009194786A (ja) * 2008-02-18 2009-08-27 Sanyo Electric Co Ltd 対象物検出装置及び撮像装置
JP5161690B2 (ja) * 2008-07-31 2013-03-13 キヤノン株式会社 情報処理装置及びその制御方法
JP5569062B2 (ja) * 2010-03-15 2014-08-13 オムロン株式会社 ジェスチャ認識装置、ジェスチャ認識装置の制御方法、および、制御プログラム
JP5685837B2 (ja) * 2010-06-15 2015-03-18 ソニー株式会社 ジェスチャ認識装置、ジェスチャ認識方法およびプログラム
JP5587068B2 (ja) 2010-07-09 2014-09-10 沖電気工業株式会社 運転支援装置及び方法
JP5829390B2 (ja) 2010-09-07 2015-12-09 ソニー株式会社 情報処理装置、および情報処理方法
JP5653206B2 (ja) * 2010-12-27 2015-01-14 日立マクセル株式会社 映像処理装置
EP2703950A4 (en) * 2011-04-28 2015-01-14 Nec Solution Innovators Ltd INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND RECORDING MEDIUM
US9176608B1 (en) * 2011-06-27 2015-11-03 Amazon Technologies, Inc. Camera based sensor for motion detection
JP5865615B2 (ja) 2011-06-30 2016-02-17 株式会社東芝 電子機器および制御方法
JP2013065112A (ja) * 2011-09-15 2013-04-11 Omron Corp ジェスチャ認識装置、電子機器、ジェスチャ認識装置の制御方法、制御プログラムおよび記録媒体
JP2013164834A (ja) * 2012-01-13 2013-08-22 Sony Corp 画像処理装置および方法、並びにプログラム
JP2013246516A (ja) * 2012-05-23 2013-12-09 Toshiba Corp 情報処理装置、情報処理方法、およびプログラム
JP5912177B2 (ja) * 2012-05-24 2016-04-27 パイオニア株式会社 操作入力装置、操作入力方法及び操作入力プログラム
TWI475496B (zh) * 2012-10-16 2015-03-01 Wistron Corp 手勢控制裝置及於手勢控制裝置中設定及取消手勢操作區域之方法
JP2015022525A (ja) * 2013-07-19 2015-02-02 富士通株式会社 情報処理装置、被写体部位の検出方法、及びプログラム
CN106537290B (zh) * 2014-05-09 2019-08-27 谷歌有限责任公司 与真实和虚拟对象交互的基于生物力学的眼球信号的***和方法

Also Published As

Publication number Publication date
JP6559359B2 (ja) 2019-08-14
WO2018042751A1 (ja) 2018-03-08
JPWO2018042751A1 (ja) 2018-12-27
US20200143150A1 (en) 2020-05-07
DE112017004394T5 (de) 2019-05-16
US10719697B2 (en) 2020-07-21

Similar Documents

Publication Publication Date Title
CN103530613B (zh) 一种基于单目视频序列的目标人手势交互方法
Hsieh et al. A real time hand gesture recognition system using motion history image
CN105117695B (zh) 活体检测设备和活体检测方法
CN109643165A (zh) 手势判定装置、手势操作装置和手势判定方法
CN110310288A (zh) 用于混合现实环境中的对象分割的方法和***
CN106598227B (zh) 基于Leap Motion和Kinect的手势识别方法
CN106919906B (zh) 一种图像互动方法及互动装置
CN103279191B (zh) 一种基于手势识别技术的3d虚拟交互方法及***
Varona et al. Hands-free vision-based interface for computer accessibility
CN106201173B (zh) 一种基于投影的用户交互图标的交互控制方法及***
JP2010113335A (ja) 動的閾値を用いたマーカ認識方法及びこれを活用した増強現実に基づく学習システム
KR20120035604A (ko) 영상 기반의 손 검출 장치 및 그 방법
CN109145802A (zh) 基于Kinect的多人手势人机交互方法及装置
CN109240504A (zh) 控制方法、模型训练方法、装置及电子设备
WO2012142869A1 (zh) 自动调节终端界面显示的方法及装置
Rani et al. Hand gesture control of virtual object in augmented reality
CN106774938A (zh) 基于体感设备的人机交互集成装置
CN109839827A (zh) 一种基于全空间位置信息的手势识别智能家居控制***
CN109375766A (zh) 一种基于手势控制的新型学习方法
US20230236660A1 (en) User controlled three-dimensional scene
CN107240110A (zh) 基于机器视觉技术的投影映射区域自动识别方法
US11314981B2 (en) Information processing system, information processing method, and program for displaying assistance information for assisting in creation of a marker
CN106796649A (zh) 使用标记物的基于姿态的人机接口
CN103389793B (zh) 人机交互方法和***
KR102511495B1 (ko) 실감형 콘텐츠 생성 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190416