CN105022982A - 手部运动识别方法和装置 - Google Patents
手部运动识别方法和装置 Download PDFInfo
- Publication number
- CN105022982A CN105022982A CN201410163979.4A CN201410163979A CN105022982A CN 105022982 A CN105022982 A CN 105022982A CN 201410163979 A CN201410163979 A CN 201410163979A CN 105022982 A CN105022982 A CN 105022982A
- Authority
- CN
- China
- Prior art keywords
- video
- hand
- unique point
- descriptor
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种手部运动识别方法和装置。所述方法包括:获取待识别视频;对所述待识别视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对;对所述手部的RGB视频和深度信息视频对进行检测得到特征点;将所述特征点采用三维网格运动尺度不变特征变换特征描述子表示;将所述特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出所述待识别视频中手部运动类别。上述手部运动识别方法和装置,因采用特征点的提取包括了深度信息,极大的提高了手部识别的准确性,采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点,进一步提高手部运动识别准确性。
Description
技术领域
本发明涉及运动识别领域,特别是涉及一种手部运动识别方法和装置。
背景技术
随着计算机技术的发展,人的行为识别是一种在计算机视觉中不断发展的领域,尤其随着大数据时代而发展。近期,越来越多的研究聚焦在群组行为识别。例如基于特征的协方差矩阵的监督学习的行为识别,其具有强大的抗变异行为、视点切换和低分辨率。再如通过间隔时间贝叶斯网络模拟复杂时空互动行为,以及基于人行为、姿态和面部表情统一框架的无监督分组和一次学习的原始运动事件等。上述的行为分析均应用于分析个人或群组的大量行为。
对于手部运动因光线、姿态和遮挡的多变性,无法准确的识别。
发明内容
基于此,有必要针对手部运动无法准确识别的问题,提供一种手部运动识别方法和装置,能准确识别手部运动。
一种手部运动识别方法,包括以下步骤:
获取待识别视频;
对所述待识别视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对;
对所述手部的RGB视频和深度信息视频对进行检测得到特征点;
将所述特征点采用三维网格运动尺度不变特征变换特征描述子表示;
将所述特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出所述待识别视频中手部运动类别。
一种手部运动识别装置,包括:
待识别视频获取模块,用于获取待识别视频;
待识别视频对提取模块,用于对所述待识别视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对;
待识别特征点检测模块,用于对所述手部的RGB视频和深度信息视频对进行检测得到特征点;
待识别特征点表征模块,用于将所述特征点采用三维网格运动尺度不变特征变换特征描述子表示;
类别识别模块,用于将所述特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子比较得出所述待识别视频中手部运动类别。
上述手部运动识别方法和装置,从视频中提取手部的RGB视频和深度信息视频对,并对RGB视频和深度信息视频对进行检测得到特征点,采用三维网格运动尺度不变特征变换特征描述子描述该特征点,对该特征点进行判断得出手部运动分类,因采用特征点的提取包括了深度信息,极大的提高了手部识别的准确性,采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点,进一步提高手部运动识别准确性。
附图说明
图1为一个实施例中手部运动识别方法的流程图;
图2中示出了不同距离手部定位和跟踪的实例示意图;
图3为三维网格运动尺度不变特征变换特征点描述子计算示意图;
图4为一个实施例中预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本的流程图;
图5为一个实施例中手部运动识别装置;
图6为一个实施例中待识别视频对提取模块的结构框图;
图7为一个实施例中待识别特征点检测模块的内部结构框图;
图8为一个实施例中类别识别模块的内部结构框图;
图9为另一个实施例中手部运动识别装置的结构框图;
图10为一个实施例中构建模块的内部结构框图;
图11为一个实施例中训练视频对提取模块的内部结构框图;
图12为一个实施例中训练特征点检测模块的内部结构框图;
图13为ChaLearn数据库的一些示例。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中手部运动识别方法的流程图。如图1所示,该手部运动识别方法,包括以下步骤:
步骤102,获取待识别视频。
具体的,该待识别视频可为各种采集的包含人的手部运动数据的RGB(Red-Green-Blue,红-绿-蓝)视频和深度信息视频。深度信息是指场景中物点到相机焦点的法线距离即像素深度值。所有像素点的深度值构成的矩阵为该图像的深度图。深度信息受光照、姿势和遮挡因素影响。深度信息通过体感相机接收红外信号而捕捉到,其能有效的反映运动区域与相机之间距离的变化趋势。
步骤104,对该待识别视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对。
具体的,通过自动检测器定位跟踪待识别视频中每帧图像中的手部区域,然后提取出手部的RGB-D(Depth)视频对(即RGB视频和深度信息视频对)。该自动检测器有21关节角的21自由度以及取向和定位的6自由度。
步骤106,对该手部的RGB视频和深度信息视频对进行检测得到特征点。
具体的,特征点是指视频图像中灰度变化的局部极值点,含有视频所特有的结构性信息。本实施例中,特征点能代表该手部的RGB视频和深度信息视频对的结构性特征。
步骤108,将该特征点采用三维网格运动尺度不变特征变换特征描述子表示。
具体的,三维网格运动尺度不变特征变换特征描述子所对应的英文为3DMesh MoSIFT(Motion Scale-invariant Feature Transform)Feature Descriptor。三维网格运动尺度不变特征变换特征描述子是一种基于尺度空间的、对图像缩放、旋转变换保持不变性的图像局部特征描述算子。本实施例中,通过该三维网格运动尺度不变特征变换特征描述子表示手部的RGB-D视频对的特征点。
步骤110,将该特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出该待识别视频中手部运动类别。
具体的,预先根据已知手部运动类别的视频进行训练得到正负样本,正样本是指手部运动识别正确的样本,负样本是指手部运动识别错误的样本。正样本中包含三维网格运动尺度不变特征变换特征描述子及相应的手部运动类别。将待识别视频中手部的RGB-D视频对的特征点的三维网格运动尺度不变特征变换特征描述子与正样本中的三维网格运动尺度不变特征变换特征描述子进行匹配,即可得到待识别视频中手部运动类别。
上述手部运动识别方法,从视频中提取手部的RGB视频和深度信息视频对,并对RGB视频和深度信息视频对进行检测得到特征点,采用三维网格运动尺度不变特征变换特征描述子描述该特征点,将该特征点的三维网格运动尺度不变特征变换特征描述子与正样本中的三维网格运动尺度不变特征变换特征描述子进行匹配,即可得到该待识别视频中手部运动类别,因对特征点的提取包括了深度信息,极大的提高了手部识别的准确性,采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点,进一步提高手部运动识别准确性。
在一个实施例中,步骤104,对该待识别视频进行手部区域定位和跟踪,提取手部的RGB视频和深度视频对,包括:采用自适应窗口定位手部区域;采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域,提取手部的RGB视频和深度信息视频对。
具体的,首先选取一帧待识别视频数据,通过自适应窗口定位该所选一帧待识别视频数据的手部区域,然后通过最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域,提取手部的RGB视频和深度信息视频对。对手部区域定位和跟踪可有效预测状态随时间的变化。
该最小化能量函数为数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项之和。最小能量函数公式如下:
E(λ,i)=ED(λ,i)+ES(λ,i)+ET(λ,i)+EC(λ,i)+EM(λ,i)+ECh(λ,i)(1)
式(1)中,E(λ,i)为第i帧在参数λ下的能量函数,λ为标注函数,ED(λ,i)是数据项,ES(λ,i)是平滑项,ET(λ,i)是距离项,EC(λ,i)是空间约束项,EM(λ,i)是运动约束项,ECh(λ,i)是图割(Chamfer)距离项。
其中,该数据项ED(λ,i)用于估算手部在各点像素的似然值。假设手被固定在所选RGB-D视频对的第i帧视频上,表示第i帧上的第n只手,且表示该RGB-D视频对的背景,此处n=1,2,…,N表示共有N只手(在一个视频对的每帧中可包括多只手部运动,需对每只手分别估算其在各点像素的似然值),则可根据第i帧的预测在(i+1)帧中的表示第i帧的第n只手在第(i+1)帧上的手)。数据项ED(λ,i)由对数函数和二值函数计算得到。数据项ED(λ,i)被定义如下:
数据项ED估计目标n在像素x的似然值Pn(x);δ(λ,n)为二值函数,若λ=n,δ(λ,n)=1,否则δ(λ,n)=0,N是手的总数,x为像素点,I为第i帧上的像素集合。
该平滑项ES(λ,i)用于估算两个相邻像素点p,q的平滑度。平滑项ES(λ,i)由平滑度参数、相机噪声、两个相邻像素点的欧式距离及二值函数计算得到。该平滑项ES(λ,i)的计算公式如下:
式(3)中,p-q是标准的欧式距离,σ是被估算的相机噪声,ws>0表示平滑度参数,wt是标准的四邻域中的所有无序邻域像素对。δ(λp,λq)为二值函数,若p,q一致,则δ(λp,λq)=1,若p,q不一致时,则δ(λp,λq)=0,(x)表示在第i帧上的像素p点的灰阶值,(x)表示在第i帧上的像素q点的灰阶值。
该距离项ET(λ,i)用于约束新的状态估计在预测的空间领域。该距离项ET(λ,i)适用于在时间和空间上连续变形的目标。距离项ET(λ,i)由距离参数、尺度函数计算得到。该距离项ET(λ,i)被定义如下:
式(4)中,是预测重心,cn是实际重心,wT>0表示距离参数,是尺度函数,N是手的总数,x为像素点,I为第i帧上的像素集合,I(x)为像素点x的灰阶值,距离用于约束新的状态在预测的空间领域,其中,z为经验值;δ(λ(x),n)是二值函数,若λ(x)=n,则δ(λ(x),n)=1,否则,δ(λ(x),n)=0。
该空间约束项EC(λ,i)用于区分手部的颜色相近区域。因人体肤色相近,空间约束被引入到区分手部的颜色相近区域。空间约束项EC(λ,i)计算像素x到(第(i-1)帧的第n只手在第i帧上的手)的重心(第(i-1)帧的第n只手在第i帧上的手的重心)的距离。当像素x靠近该重心则EC(λ,i)的惩罚比较小。空间约束项EC(λ,i)由惩罚函数和二值函数计算得到。空间约束项EC(λ,i)定义如下:
式(5)中,表示预测集的重心,wc>0是一常量,I为第i帧上的像素集合,δ(λ(x),n)为二值函数,若λ(x)=n,则δ(λ(x),n)=1,否则,δ(λ(x),n)=0。惩罚函数如下:
式(6)中,是表示像素x到的之间的一个标准的欧式距离。
该运动约束项EM(λ,i)用于分割手部和除手部外的其余部分。为了克服手被类似颜色的其他物体(如人脸)遮挡,引入运动约束项EM(λ,i)得到较好的分割。运动约束项EM(λ,i)由权重参数、平均速率计算得到。运动约束项EM(λ,i)定义如下:
式(7)中,wM>0是权重参数,是第i帧的第n只手的平均速率。函数和定义如下:
式(8)中,ρ是运动参数。从的预测集中取像素x,分配n1只手部给β1,剩余n2只手部给β2。
该图割距离项ECh(λ,i)用于区分手部重叠区域。当双手重叠,需设置一个较大的图割值保证遮挡区域预测的准确性。图割距离项ECh(λ,i)由权重参数和距离变化函数计算得到。图割距离项ECh(λ,i)通过如下方程计算得到:
式(9)中,ξ(x)是Chamfer距离变化函数,其归一化在[0,1],wCh>0是权重参数,wt是时刻权值,若p,q一致,则δ(λp,λq)=1,若p,q不一致时,则δ(λp,λq)=0。在计算Chamfer距离之前,首先得到第i帧的二进制图像,然后再按照隔帧计算方式计算出Chamfer距离的值。
合并所有项,通过预测集和扩展项构造图表,根据该图表得到最后跟踪结果,如图2所示,图2中示出了不同距离手部定位和跟踪的实例示意图。
在一个实施例中,步骤106,该对手部的RGB视频和深度信息视频对进行检测得到特征点,包括:
(1)将该手部的RGB视频和深度信息视频对转换为灰度和深度数据,并将该灰度和深度数据转换为三维网格数据;
(2)计算该三维网格数据中预设邻域内各顶点的深度信息的局部密度;
具体的,将三维网格数据形成网格域M。高斯滤波器被定义在网格域M上,得到网格层MS=(VS,F),其中,VS是S层顶点,F是三角面片。
假设在网格层第S层(层即尺度)的每个顶点下一层即(S+1)的顶点为一阶邻域内所有顶点的均值。可被计算如式(10):
式(10)中,为的一阶邻域集,为中的一个元素。定义Di为在顶点的深度信息的局部密度,其计算公式如式(11):
初始方差σ0=Di。
DOG(Different Of Gradient,梯度微分)函数被定义为两个不同尺度的高斯核的差分,计算如式(12):
式(12)中,σ2为高斯滤波器在尺度S的方差。目标网格样本是非均匀的,网格层的整体滤波宽度满足密度不变性Dm为深度信息的局部密度。
局部尺度被设置为Sm为尺度参数,Dm为深度信息的局部密度,C为用于权衡局部性和鲁棒性的描述子的预定义参数。
(3)选取该预设邻域内的深度信息的局部密度最大值所对应的顶点作为该预设邻域的特征点。
本实施例中,预设邻域可包括本层的6点邻域,上层的6点邻域,下层的6点邻域,即以本层中某一顶点为中心,在本层选取6个点,在上层选6个点,下层选6个点,构成该顶点的邻域。该预设邻域范围可根据需要调整,不作限定。
在一个实施例中,步骤108,将特征点采用三维网格运动尺度不变特征变换特征描述子表示,包括:
将该特征点采用三维梯度空间描述子和三维运动空间描述子表示;该三维梯度空间包括图像梯度沿水平方向和垂直方向的描述子;该三维运动空间描述子为速率描述子。
具体的,为了减小冗余,提高计算效率,基于三个分离的平面的三维网格运动尺度不变特征变换特征描述子仅考虑共同出现的情况。特征点的三维网格运动尺度不变特征变换特征描述子包括两个部分:三维梯度空间描述子和三维运动空间描述子。三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子。
三维梯度空间的描述子通过图3的方式进行计算得到。三维梯度空间的描述子计算步骤如下:首先将坐标轴旋转为特征点的方向,然后以特征点投影到三维空间坐标的xy平面、xz平面和yz平面,以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口,在每个在r×r的块上计算8个方向的梯度直方图,并求出每个梯度方向的累加值,形成一个种子点,将特征点采用个种子点组成,每个种子点有8个方向向量信息,m和r均为2的整数倍的自然数。
本实施例中,以特征点投影到xy平面、xz平面和yz平面的点为中心分别取16×16的窗口(如图3中左部分),每个窗口代表特征点邻域所在尺度空间的一个像素,箭头方向代表该像素的梯度方向,箭头长度代表梯度模值。然后在每个4×4的小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点,如图3中右部分所示。图3中一个特征点由4×4共16个种子点组成,每个种子点有8个方向向量信息。采用16个种子点描述特征点可产生128个数据,最终形成128维的三维网格运动尺度不变特征变换的特征向量,其准确性更高。在其他实施例中,以特征点投影到xy平面、xz平面和yz平面的点为中心取窗口大小可为8×8,则一个特征点由2×2共4个种子点组成,每个种子点有8个方向向量信息。
图像梯度沿水平方向和垂直方向计算如式(13):
式(13)中,和分别为x方向(水平方向)和y方向(垂直方向)上的梯度。
三维运动空间描述子为速率描述子。速率描述子在三维空间xyz坐标轴上的分量包括:速率描述子在x轴上的分量为特征点在相邻两帧视频投影到x轴的坐标值之差;速率描述子在y轴上的分量为特征点在相邻两帧视频投影到y轴的坐标值之差;速率描述子在z轴上的分量为特征点在相邻两帧视频的深度信息投影到z轴的坐标值之差。
具体的,在时间点i时刻的特征点pi被检测,通过RGB数据可预测点pi+1,然后在深度信息视频中的深度图像D中确定相应的和不同方向的速率的计算公式如式(14):
Vx=Ix(pi+1)-Ix(pi),Vy=Iy(pi+1)-Iy(pi),Vz=D(pi+1)-D(pi)(14)
上述采用三维网络运动运动尺度不变特征变换特征描述子表示特征点,可更换的反映运动表面结果和保存更多的判别信息,且三维网络运动运动尺度不变特征变换特征描述子在xy平面、xz平面和yz平面三个正交平面形成网状表面,连接特征矢量更短,有效改善了手部精细运动的信息表现。
在一个实施例中,步骤110,将该特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出该待识别视频中手部运动类别,包括:
(1)将该特征点的三维网格运动尺度不变特征变换特征描述子降维至与所述预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度。
具体的,假设Y=[y1,y2,…,yn]∈RD×N是一组从训练视频中提取的D维度的描述子,构造视觉编码本B=[b1,b2,…,bM]∈RD×M。给Y提供一个稀疏表C=[c1,c2,…,cN],ci∈RM,每个ci包含k(k<<M)或者更少非零元素。定义优化函数如式(15):
式(15)中,||·||F是Forbenius范数,||·||0是l0范数用来计算非零元素数。通过式(15)将特征点的三维网格运动尺度不变特征变换特征描述子降维至与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度。此外,采用SOMP(Simulation orthogonal matching pursuit,模拟正交匹配)跟踪稀疏编码法采用线性组合表示稀疏系数。
与手部运动类别相关的描述子的向量的稀疏系数ci∈C,使用系数直方图表征每个稀疏系数,公式如式(16):
式(16)中,ci∈C是C∈M×N的第i帧的描述子,N是hj∈M描述子的总数。每个视觉编码可通过系数直方图描述,根据系数直方图可直观的确定识别视频中手部运动的视觉编码,从而得到手部运动的分类结果。
(2)求取降维处理后的特征点的三维网格运动尺度不变特征变换特征描述子与该正样本中的三维网格运动尺度不变特征变换特征描述子的欧式距离。
(3)选取与该特征点的三维网格运动尺度不变特征变换特征描述子的欧式距离最小的该正样本中的三维网格运动尺度不变特征变换特征描述子所对应的类别,作为该待识别视频中手部运动类别。
上述通过对特征点的三维网格运动尺度不变特征变换特征描述子进行降维处理,达到预先训练得到的三维网格运动尺度不变特征变换特征描述子的维度,再进行比较匹配,更加准确。
在一个实施例中,上述手运动识别方法还包括:预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本。
图4为一个实施例中预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本的示意图。图4中预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本的过程与手部运动识别方法大部分一致,仅在于训练是为了得到正负样本。如图4所示,预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本包括:
步骤402,获取训练视频集。
训练视频是指已知视频中手部运动类别的视频。
步骤404,对该训练视频集中的视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对。
对该训练视频集中的视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对,包括:采用自适应窗口定位手部区域;采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域,提取手部的RGB视频和深度信息视频对。
具体的,首先选取一帧训练视频数据,通过自适应窗口定位该所选一帧训练视频数据的手部区域。然后通过最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域,提取手部的RGB视频和深度视频对。
该最小化能量函数为数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项之和。最小能量函数公式如下:
E(λ,i)=ED(λ,i)+ES(λ,i)+ET(λ,i)+EC(λ,i)+EM(λ,i)+ECh(λ,i)(1)
式(1)中,E(λ,i)为第i帧在参数λ下的能量函数,λ为标注函数,ED(λ,i)是数据项,ES(λ,i)是平滑项,ET(λ,i)是距离项,EC(λ,i)是空间约束项,EM(λ,i)是运动约束项,ECh(λ,i)是图割(Chamfer)距离项。
数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项具体描述如手动运动识别方法中所描述,在此不再赘述。
步骤406,对该手部的RGB视频和深度信息视频对进行检测得到特征点。
具体的,特征点是指视频图像中灰度变化的局部极值点,含有视频所特有的结构性信息。本实施例中,特征点能代表该手部的RGB视频和深度信息视频对的结构性特征。
在一个实施例中,步骤406包括:
(1)将该手部的RGB视频和深度信息视频对转换为灰度和深度数据,并将该灰度和深度数据转换为三维网格数据;
(2)计算该三维网格数据中预设邻域内各顶点的深度信息的局部密度;
(3)选取该预设邻域内的深度信息的局部密度最大值所对应的顶点作为该预设邻域的特征点。
步骤408,将该特征点采用三维网格运动尺度不变特征变换特征描述子表示。
在一个实施例中,步骤408包括:将该特征点采用三维梯度空间描述子和三维运动空间描述子表示;该三维梯度空间包括图像梯度沿水平方向和垂直方向的描述子;该三维运动空间描述子为速率描述子。
三维梯度空间的描述子计算步骤如下:首先将坐标轴旋转为特征点的方向,然后以特征点投影到三维空间坐标的xy平面、xz平面和yz平面,以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口,在每个在r×r的块上计算8个方向的梯度直方图,并求出每个梯度方向的累加值,形成一个种子点,将特征点采用个种子点组成,每个种子点有8个方向向量信息,m和r均为2的整数倍的自然数。
三维运动空间描述子为速率描述子。速率描述子在三维空间xyz坐标轴上的分量包括:速率描述子在x轴上的分量为特征点在相邻两帧视频投影到x轴的坐标值之差;速率描述子在y轴上的分量为特征点在相邻两帧视频投影到y轴的坐标值之差;速率描述子在z轴上的分量为特征点在相邻两帧视频的深度信息投影到z轴的坐标值之差。
步骤410,对该特征点的三维网格运动尺度不变特征变换特征描述子进行判别该训练视频集中手部运动类别,形成正负样本。
具体的,根据三维网格运动尺度不变特征变换特征描述子判别该训练视频中手部运动类别,若与已知的类别相同,则将该训练视频存入正样本中,若与已知的类别不同,则将该训练视频存入负样本,且正负样本中均包含三维网格运动尺度不变特征变换特征描述子及相应的类别。
综上所述,从视频中提取手部的RGB视频和深度视频对,并对RGB视频和深度视频对进行检测得到特征点,采用三维网格运动尺度不变特征变换特征描述子描述该特征点,对该特征点进行训练得到判断手部运动分类的描述子的正负样本,因采用特征点的提取包括了深度信息,极大的提高了手部识别的准确性,采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点,进一步提高手部运动识别准确性。
图5为一个实施例中手部运动识别装置的结构框图。图5为一个实施例中手部运动识别装置的结构框图。如图5所示,该手部运动识别装置为对应于手部运动识别方法所构建的功能模块,该手部运动识别装置中所描述不详细的地方参照手部运动识别方法所描述。该手部运动识别装置,包括待识别视频获取模块510、待识别视频对提取模块520、待识别特征点检测模块530、待识别特征点表征模块540和类别识别模块550。其中:
待识别视频获取模块510用于获取待识别视频。具体的,该待识别视频可为各种采集的包含人的手部运动数据的RGB(Red-Green-Blue,红-绿-蓝)视频和深度信息视频。
待识别视频对提取模块520用于对该待识别视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对。具体的,通过自动检测器定位跟踪待识别视频中每帧图像中的手部区域,然后提取出手部的RGB-D(Depth)视频对(即RGB视频和深度信息视频对)。
待识别特征点检测模块530用于对该手部的RGB视频和深度信息视频对进行检测得到特征点。具体的,特征点是指视频图像中灰度变化的局部极值点,含有视频所特有的结构性信息。本实施例中,特征点能代表该手部的RGB视频和深度信息视频对的结构性特征。
待识别特征点表征模块540用于将该特征点采用三维网格运动尺度不变特征变换特征描述子表示。三维网格运动尺度不变特征变换特征描述子是一种基于尺度空间的、对图像缩放、旋转变换保持不变性的图像局部特征描述算子。本实施例中,通过该三维网格运动尺度不变特征变换特征描述子表示手部的RGB-D视频对的特征点。
类别识别模块550用于将该特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出该待识别视频中手部运动类别。
具体的,预先根据已知手部运动类别的视频进行训练得到正负样本,正样本是指手部运动识别正确的样本,负样本是指手部运动识别错误的样本。正样本中包含三维网格运动尺度不变特征变换特征描述子及相应的手部运动类别。将待识别视频中手部的RGB-D视频对的特征点的三维网格运动尺度不变特征变换特征描述子与正样本中的三维网格运动尺度不变特征变换特征描述子进行匹配,即可得到待识别视频中手部运动类别。
上述手部运动识别方法,从视频中提取手部的RGB视频和深度信息视频对,并对RGB视频和深度信息视频对进行检测得到特征点,采用三维网格运动尺度不变特征变换特征描述子描述该特征点,将该特征点的三维网格运动尺度不变特征变换特征描述子与正样本中的三维网格运动尺度不变特征变换特征描述子进行匹配,即可得到该待识别视频中手部运动类别,因对特征点的提取包括了深度信息,极大的提高了手部识别的准确性,采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点,进一步提高手部运动识别准确性。
图6为一个实施例中待识别视频对提取模块的内部结构框图。待识别视频对提取模块520包括待识别视频定位子模块522和待识别视频提取子模块524。其中:
待识别视频定位子模块522用于采用自适应窗口定位手部区域。
待识别视频提取子模块524用于采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域,提取手部的RGB视频和深度信息视频对。
具体的,首先选取一帧待识别视频数据,通过自适应窗口定位该所选一帧待识别视频数据的手部区域。然后通过最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域,提取手部的RGB视频和深度信息视频对。
该最小化能量函数为数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项之和;该数据项用于估算手部在各点像素的似然值;该平滑项用于估算两个相邻像素点为不同的标注;该距离项用于约束新的状态估计在预测的空间领域;该空间约束项用于区分手部的相邻区域;该运动约束项用于分割手部和除手部外的其余部分;该图割距离项用于区分手部重叠区域。
该数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项的计算公式如上述手部运动识别方法中所描述,在此不再赘述。
图7为一个实施例中待识别特征点检测模块的内部结构框图。如图7所示,待识别特征点检测模块530包括待识别数据转换子模块532、待识别密度获取子模块534和待识别特征点选取子模块536。其中:
待识别数据转换子模块532用于将该手部的RGB视频和深度信息视频对转换为灰度和深度数据,并将该灰度和深度数据转换为三维网格数据。
待识别密度获取子模块534用于计算该三维网格数据中预设邻域内各顶点的深度信息的局部密度。
具体的,将三维网格数据形成网格域M。高斯滤波器被定义在网格域M上,得到网格层MS=(VS,F),其中,VS是S层顶点,F是三角面片。
假设在网格层第S层(层即尺度)的每个顶点下一层即(S+1)的顶点为一阶邻域内所有顶点的均值。可被计算如式(10):
式(10)中,为的一阶邻域集,为中的一个元素。定义Di为在顶点的深度信息的局部密度,其计算公式如式(11):
初始方差σ0=Di。
DOG(Different Of Gradient,梯度微分)函数被定义为两个不同尺度的高斯核的差分,计算如式(12):
式(12)中,σ2为高斯滤波器在尺度S的方差。目标网格样本是非均匀的,网格层的整体滤波宽度满足密度不变性Dm为深度信息的局部密度。
局部尺度被设置为Sm为尺度参数,Dm为深度信息的局部密度,C为用于权衡局部性和鲁棒性的描述子的预定义参数。
待识别特征点选取子模块536用于选取该预设邻域内的深度信息的局部密度最大值所对应的顶点作为该预设邻域的特征点。
本实施例中,预设邻域可包括本层的6点邻域,上层的6点邻域,下层的6点邻域,即以本层中某一顶点为中心,在本层选取6个点,在上层选6个点,下层选6个点,构成该顶点的邻域。该预设邻域范围可根据需要调整,不作限定。
在一个实施例中,该待识别特征点表征模块540还用于将该特征点采用三维梯度空间描述子和三维运动空间描述子表示;该三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子;该三维运动空间描述子为速率描述子。
具体的,为了减小冗余,提高计算效率,基于三个分离的平面的三维网格运动尺度不变特征变换特征描述子仅考虑共同出现的情况。特征点的三维网格运动尺度不变特征变换特征描述子包括两个部分:三维梯度空间描述子和三维运动空间描述子。三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子。
三维梯度空间的描述子通过图3的方式进行计算得到。三维梯度空间的描述子计算如下:待识别特征点表征模块540还用于将坐标轴旋转为特征点的方向,然后以特征点投影到三维空间坐标的xy平面、xz平面和yz平面,以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口,在每个在r×r的块上计算8个方向的梯度直方图,并求出每个梯度方向的累加值,形成一个种子点,将特征点采用个种子点组成,每个种子点有8个方向向量信息,m和r均为2的整数倍的自然数。
本实施例中,以特征点投影到xy平面、xz平面和yz平面的点为中心分别取16×16的窗口(如图3中左部分),每个窗口代表特征点邻域所在尺度空间的一个像素,箭头方向代表该像素的梯度方向,箭头长度代表梯度模值。然后在每个4×4的小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点,如图3中右部分所示。图3中一个特征点由4×4共16个种子点组成,每个种子点有8个方向向量信息。采用16个种子点描述特征点可产生128个数据,最终形成128维的三维网格运动尺度不变特征变换的特征向量,其准确性更高。在其他实施例中,以特征点投影到xy平面、xz平面和yz平面的点为中心取窗口大小可为8×8,则一个特征点由2×2共4个种子点组成,每个种子点有8个方向向量信息。
图像梯度沿水平方向和垂直方向计算如式(13):
式(13)中,和分别为x方向(水平方向)和y方向(垂直方向)上的梯度。
三维运动空间描述子为速率描述子。速率描述子在三维空间xyz坐标轴上的分量包括:速率描述子在x轴上的分量为特征点在相邻两帧视频投影到x轴的坐标值之差;速率描述子在y轴上的分量为特征点在相邻两帧视频投影到y轴的坐标值之差;速率描述子在z轴上的分量为特征点在相邻两帧视频的深度信息投影到z轴的坐标值之差。
具体的,在时间点i时刻的特征点pi被检测,通过RGB数据可预测点pi+1,然后在深度信息视频中的深度图像D中确定相应的和不同方向的速率的计算公式如式(14):
Vx=Ix(pi+1)-Ix(pi),Vy=Iy(pi+1)-Iy(pi),Vz=D(pi+1)-D(pi)(14)
上述采用三维网络运动运动尺度不变特征变换特征描述子表示特征点,可更换的反映运动表面结果和保存更多的判别信息,且三维网络运动运动尺度不变特征变换特征描述子在xy平面、xz平面和yz平面三个正交平面形成网状表面,连接特征矢量更短,有效改善了手部精细运动的信息表现。
图8为一个实施例中类别识别模块的内部结构框图。如图8所示,类别识别模块550包括降维子模块552、距离获取子模块554和类别判定子模块556。其中:
降维子模块552用于将该特征点的三维网格运动尺度不变特征变换特征描述子降维至与所述预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度。
具体的,假设Y=[y1,y2,…,yn]∈RD×N是一组从训练视频中提取的D维度的描述子,构造视觉编码本B=[b1,b2,…,bM]∈RD×M。给Y提供一个稀疏表C=[c1,c2,…,cN],ci∈RM,每个ci包含k(k<<M)或者更少非零元素。定义优化函数如式(15):
式(15)中,||·||F是Forbenius范数,||·||0是l0范数用来计算非零元素数。通过式(15)将特征点的三维网格运动尺度不变特征变换特征描述子降维至与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度。
与手部运动类别相关的描述子的向量的稀疏系数ci∈C,使用系数直方图表征每个稀疏系数,公式如式(16):
式(16)中,ci∈C是C∈M×N的第i帧的描述子,N是hj∈M描述子的总数。每个视觉编码可通过系数直方图描述,根据系数直方图可直观的确定识别视频中手部运动的视觉编码,从而得到手部运动的分类结果。
距离获取子模块554用于求取降维处理后的特征点的三维网格运动尺度不变特征变换特征描述子与该正样本中的三维网格运动尺度不变特征变换特征描述子的欧式距离。
类别判定子模块556用于选取与该特征点的三维网格运动尺度不变特征变换特征描述子的欧式距离最小的该正样本中的三维网格运动尺度不变特征变换特征描述子所对应的类别,作为该待识别视频中手部运动类别。
上述通过对特征点的三维网格运动尺度不变特征变换特征描述子进行降维处理,达到预先训练得到的三维网格运动尺度不变特征变换特征描述子的维度,再进行比较匹配,更加准确。
图9为另一个实施例中手部运动识别装置的结构框图。如图9所示,该手部运动识别装置除了包括待识别视频获取模块510、待识别视频对提取模块520、待识别特征点检测模块530、待识别特征点表征模块540和类别识别模块550,还包括构建模块560。构建模块560用于预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本。
图10为一个实施例中构建模块的内部结构框图。如图10所示,该构建模块560包括训练视频获取模块1010、训练视频对提取模块1020、训练特征点检测模块1030、训练特征点表征模块1040和样本构建模块1050。其中:
训练视频获取模块1010用于获取训练视频集。
训练视频对提取模块1020用于对该训练视频集中的视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对。
训练特征点检测模块1030用于对该手部的RGB视频和深度信息视频对进行检测得到特征点。
训练特征点表征模块1040用于将该特征点采用三维网格运动尺度不变特征变换特征描述子表示。
样本构建模块1050用于对该特征点的三维网格运动尺度不变特征变换特征描述子进行判别该训练视频集中手部运动类别,形成正负样本。
上述手部运动识别装置,从视频中提取手部的RGB视频和深度视频对,并对RGB视频和深度视频对进行检测得到特征点,采用三维网格运动尺度不变特征变换特征描述子描述该特征点,对该特征点进行训练得到判断手部运动分类的描述子的正负样本,因采用特征点的提取包括了深度信息,极大的提高了手部识别的准确性,采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点,进一步提高手部运动识别准确性。
图11为一个实施例中训练视频对提取模块的内部结构框图。该训练视频对提取模块1020包括训练视频定位子模块1022和训练视频提取子模块1024。其中:
训练视频定位子模块1022用于采用自适应窗口定位手部区域。
训练视频提取子模块1024用于采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域,提取手部的RGB视频和深度信息视频对。
具体的,首先选取一帧训练视频数据,通过自适应窗口定位该所选一帧训练视频数据的手部区域。然后通过最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域,提取手部的RGB视频和深度信息视频对。
该最小化能量函数为数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项之和;该数据项用于估算手部在各点像素的似然值;该平滑项用于估算两个相邻像素点的平滑度;该距离项用于约束新的状态估计在预测的空间领域;该空间约束项用于区分手部的相邻区域;该运动约束项用于分割手部和除手部外的其余部分;该图割距离项用于区分手部重叠区域。其中,数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项具体定义如手部运动识别方法中所描述,在此不再赘述。
图12为一个实施例中训练特征点检测模块的内部结构框图。如图12所示,训练特征点检测模块1030包括训练数据转换子模块1032、训练密度获取子模块1034和训练特征点选取子模块1036。其中:
训练数据转换子模块1032用于将该手部的RGB视频和深度信息视频对转换为灰度和深度数据,并将该灰度和深度数据转换为三维网格数据。
训练密度获取子模块1034用于计算该三维网格数据中预设邻域内各顶点的深度信息的局部密度。
训练特征点选取子模块1036用于选取该预设邻域内的深度信息的局部密度最大值所对应的顶点作为该预设邻域的特征点。
在一个实施例中,该训练特征点表征模块1040还用于对该特征点采用三维梯度空间描述子和三维运动空间描述子表示;该三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子;该三维运动空间描述子为速率描述子。
具体的,特征点的三维网格运动尺度不变特征变换特征描述子包括两个部分:三维梯度空间描述子和三维运动空间描述子。三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子。三维梯度空间的描述子计算如下:待识别特征点表征模块540还用于将坐标轴旋转为特征点的方向,然后以特征点投影到三维空间坐标的xy平面、xz平面和yz平面,以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口,在每个在r×r的块上计算8个方向的梯度直方图,并求出每个梯度方向的累加值,形成一个种子点,将特征点采用个种子点组成,每个种子点有8个方向向量信息,m和r均为2的整数倍的自然数。
本实施例中,以特征点投影到xy平面、xz平面和yz平面的点为中心分别取16×16的窗口(如图3中左部分),每个窗口代表特征点邻域所在尺度空间的一个像素,箭头方向代表该像素的梯度方向,箭头长度代表梯度模值。然后在每个4×4的小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点,如图3中右部分所示。图3中一个特征点由4×4共16个种子点组成,每个种子点有8个方向向量信息。采用16个种子点描述特征点可产生128个数据,最终形成128维的三维网格运动尺度不变特征变换的特征向量,其准确性更高。在其他实施例中,以特征点投影到xy平面、xz平面和yz平面的点为中心取窗口大小可为8×8,则一个特征点由2×2共4个种子点组成,每个种子点有8个方向向量信息。
图像梯度沿水平方向和垂直方向计算如式(13):
式(13)中,和分别为x方向(水平方向)和y方向(垂直方向)上的梯度。
三维运动空间描述子为速率描述子。速率描述子在三维空间xyz坐标轴上的分量包括:速率描述子在x轴上的分量为特征点在相邻两帧视频投影到x轴的坐标值之差;速率描述子在y轴上的分量为特征点在相邻两帧视频投影到y轴的坐标值之差;速率描述子在z轴上的分量为特征点在相邻两帧视频的深度信息投影到z轴的坐标值之差。
具体的,在时间点i时刻的特征点pi被检测,通过RGB数据可预测点pi+1,然后在深度信息视频中的深度图像D中确定相应的和不同方向的速率的计算公式如式(14):
Vx=Ix(pi+1)-Ix(pi),Vy=Iy(pi+1)-Iy(pi),Vz=D(pi+1)-D(pi)(14)
上述采用三维网络运动运动尺度不变特征变换特征描述子表示特征点,可更换的反映运动表面结果和保存更多的判别信息,且三维网络运动运动尺度不变特征变换特征描述子在xy平面、xz平面和yz平面三个正交平面形成网状表20面,连接特征矢量更短,有效改善了手部精细运动的信息表现。
上述手部运动识别方法和装置应用于识别视频的实验如下:基于两个RGB-D(RGB-深度信息)视频数据库。第一个视频数据库中的数据是从ChaLearn姿势数据库中获取的数据,包括20个分支,每一个分支,表示相同的个体,由100个记录姿态组成,该100个姿态的分组序号为1至5。ChaLearn的通用性数据库被用于估算基于RGB和深度视频的不同特征描述子。图13为ChaLearn数据库的一些示例。第二个视频数据库中的数据是由9100个RGB-D视频对组成,通过Kinect的640*480图像尺寸的相机收集的。人行为包含8类手运动,包含来自于不同国家的5名男性和2名女性的不同方向点、鼓掌、挥舞、拳击,从一数到五,大拇指向上、胜利和捕捉手势等。
ChaLearn姿势数据集用于估算上述手部运动识别方法的性能。相似度算法被引入计算预测类别和真实类别之间的分数。相似度算法所考虑的特征包括RGB视频的Cuboid(R)特征,RGB和深度视频的Cuboid(R+D))的特征,RGB视频的stip hog(R))的特征,RGB和深度视频的stip hog(R+D))的特征,RGB视频的stip hof(R))的特征,RGB和深度视频的stip hof(R+D))的特征,RGB视频的stip hoghof(R))的特征,RGB和深度视频的stip hoghof(R+D))的特征[28],RGB视频的MoSIFT(R))运动尺度不变特征变换[30],RGB和深度视频的MoSIFT(R+D)运动尺度不变特征变换,RGB和深度视频的三维运动尺度不变特征变换和三维网格运动尺度不变特征变换。
上述三维网格运动尺度不变特征变换特征描述子比其他特征描述子具有较高的相似度均值得分,如表1所示。
表1
方法 | 0.1 | 0.2 | 0.3 | 0.4 | 0.5 |
Cuboid | 0.367 | 0.365 | 0.343 | 0.331 | 0.314 |
Cuboid(R+D) | 0.337 | 0.316 | 0.309 | 0.308 | 0.218 |
Stip hog | 0.301 | 0.260 | 0.250 | 0.236 | 0.235 |
Stip hog(R+D) | 0.249 | 0.228 | 0.224 | 0.228 | 0.227 |
Stip hof | 0.348 | 0.327 | 0.313 | 0.299 | 0.291 |
Stip hof(R+D) | 0.322 | 0.292 | 0.285 | 0.279 | 0.271 |
Stip hoghof | 0.242 | 0.219 | 0.200 | 0.195 | 0.185 |
Stip hoghof(R+D) | 0.210 | 0.188 | 0.183 | 0.187 | 0.182 |
MoSIFT | 0.417 | 0.396 | 0.359 | 0.366 | 0.335 |
MoSIFT(R+D) | 0.444 | 0.443 | 0.436 | 0.423 | 0.405 |
3D MoSIFT | 0.191 | 0.167 | 0.162 | 0.145 | 0.146 |
3D Mesh MoSIFT | 0.154 | 0.147 | 0.142 | 0.134 | 0.131 |
由表1可知,1)形状和几何变化在精细运动识别的准确性方面起到至关重要的作用,加入深度信息能显著减小距离误差。2)上述手部运动识别方法能准确的捕捉到运动的变化,以及手部运动的深度和纹理。3)所采用的三维网格运动尺度不变特征变换特征描述子比其他算法更能表征人的行为,且该三维网格运动尺度不变特征变换特征描述子展示了在空间和时间域内的不变性。
比较HMM模型(隐马尔科夫模型)训练方法、LDA(Linear DiscriminantAnalysis,线性判别式分析)模型训练方法与上述手部运动识别建模方法的训练方法,其比较结果如表2所示。
表2
距离 | HMM模型 | LDA模型 | SOMP |
1米 | 35.82% | 36.02% | 45.29% |
2米 | 41.9% | 37.92 | 51.03 |
3米 | 36.0% | 35.23% | 46.17% |
4米 | 33.73% | 34.19% | 40.02% |
上述比较中所选取的数据库是通过Kinect相机所捕捉的,包括距离相机1米到4米的单手和双手行为数据。比较不同距离下的三维网格运动尺度不变特征变换的性能,从而得出在2米到3米之间识别有一个明显的高准确性,主要是因为:第一Kinect有一个最佳拍摄范围(1.8米到3米)。在该范围内,能得到高质量的深度视频。第二,深度信息的敏感范围为2米到3米。
不同训练方法的性能比较,F1分数较高的有较准确的识别结果。HMM模型方法是对特征点的数量敏感的,当在视频中得到的特征点相对充足式,HMM模型优于LDA模型;当特征点相对稀缺时,HMM模型不能完全被训练,且将得到比LDA模型更差的结果。根据数据库的统计数据可知,在1米条件内,人太靠近Kinect相机将存在盲点,相机将不能捕捉到深度视频所有移动的部分,在4米的条件下,因光的影响,特征点很少。然而,在2米到3米条件下,能得到大量的特征点,因此识别准确度明显增加。
基于不同面部朝向和手的实验结果如表3所示。
表3
结果 | 左手 | 右手 | 双手 |
向前 | 52.15% | 51.97% | 56.83% |
侧边 | 43.91% | 43.10% | 47.89% |
向后 | 55.62% | 54.99% | 59.76% |
由表3可知,1)对于向前和向后的情况,三维网格运动尺度不变特征变换能有效融合深度和视觉信息促使F1-分数提高;2)大量噪声出现在深度视频的外侧边缘,导致识别性能较差;3)通过左手或右手获得的识别结果大致是相似的,通过双手获得的识别结果的准确度明显改善,因为通过双手比通过单手所采集的三维网格运动尺度不变特征变换提取的特征点数量多;4)训练集的大小也影响识别性能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述程序可存储于一计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机***的存储介质中,并被该计算机***中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (18)
1.一种手部运动识别方法,包括以下步骤:
获取待识别视频;
对所述待识别视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对;
对所述手部的RGB视频和深度信息视频对进行检测得到特征点;
将所述特征点采用三维网格运动尺度不变特征变换特征描述子表示;
将所述特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出所述待识别视频中手部运动类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对的步骤包括:
采用自适应窗口定位手部区域;
采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域,提取手部的RGB视频和深度信息视频对。
3.根据权利要求2所述的方法,其特征在于,所述最小化能量函数为数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项之和;所述数据项用于估算手部在各点像素的似然值;所述平滑项用于估算两个相邻像素点的平滑度;所述距离项用于约束新的状态估计所预测的空间领域;所述空间约束项用于区分手部的颜色相近区域;所述运动约束项用于分割手部和除手部外的其余部分;所述图割距离项用于区分手部重叠区域。
4.根据权利要求1所述的方法,其特征在于,所述对所述手部的RGB视频和深度信息视频对进行检测得到特征点的步骤包括:
将所述手部的RGB视频和深度信息视频对转换为灰度和深度数据,并将所述灰度和深度数据转换为三维网格数据;
计算所述三维网格数据中预设邻域内各顶点的深度信息的局部密度;
选取所述预设邻域内的深度信息的局部密度最大值所对应的顶点作为所述预设邻域的特征点。
5.根据权利要求1所述的方法,其特征在于,所述将所述特征点采用三维网格运动尺度不变特征变换特征描述子表示的步骤包括:
将所述特征点采用三维梯度空间描述子和三维运动空间描述子表示;所述三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子;所述三维运动空间描述子包括速率描述子。
6.根据权利要求5所述的方法,其特征在于,所述图像梯度沿水平方向和垂直方向的描述子的计算步骤包括:
将坐标轴旋转为特征点的方向,以特征点投影到三维空间坐标的xy平面、xz平面和yz平面,以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口,在每个在r×r的块上计算8个方向的梯度直方图,并求出每个梯度方向的累加值,形成一个种子点,将特征点采用个种子点组成,每个种子点有8个方向向量信息,m和r均为2的整数倍的自然数,且m大于r。
7.根据权利要求5所述的方法,其特征在于,所述速率描述子在三维空间xyz坐标轴上的分量包括:
速率描述子在x轴上的分量为特征点在相邻两帧视频投影到x轴的坐标值之差;
速率描述子在y轴上的分量为特征点在相邻两帧视频投影到y轴的坐标值之差;
速率描述子在z轴上的分量为特征点在相邻两帧视频的深度信息投影到z轴的坐标值之差。
8.根据权利要求1所述的方法,其特征在于,将所述特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出所述待识别视频中手部运动类别的步骤包括:
将所述特征点的三维网格运动尺度不变特征变换特征描述子降维至与所述预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度;
求取降维处理后的特征点的三维网格运动尺度不变特征变换特征描述子与所述正样本中的三维网格运动尺度不变特征变换特征描述子的欧式距离;
选取与所述特征点的三维网格运动尺度不变特征变换特征描述子的欧式距离最小的所述正样本中的三维网格运动尺度不变特征变换特征描述子所对应的类别,作为所述待识别视频中手部运动类别。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本。
10.一种手部运动识别装置,其特征在于,包括:
待识别视频获取模块,用于获取待识别视频;
待识别视频对提取模块,用于对所述待识别视频进行手部区域定位和跟踪,提取手部的RGB视频和深度信息视频对;
待识别特征点检测模块,用于对所述手部的RGB视频和深度信息视频对进行检测得到特征点;
待识别特征点表征模块,用于将所述特征点采用三维网格运动尺度不变特征变换特征描述子表示;
类别识别模块,用于将所述特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子比较得出所述待识别视频中手部运动类别。
11.根据权利要求10所述的装置,其特征在于,所述待识别视频对提取模块包括:
待识别视频定位子模块,用于采用自适应窗口定位手部区域;
待识别视频提取子模块,用于采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域,提取手部的RGB视频和深度信息视频对。
12.根据权利要求11所述的装置,其特征在于,所述最小化能量函数为数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项之和;所述数据项用于估算手部在各点像素的似然值;所述平滑项用于估算两个相邻像素点的平滑度;所述距离项用于约束新的状态估计所预测的空间领域;所述空间约束项用于区分手部的颜色相近区域;所述运动约束项用于分割手部和除手部外的其余部分;所述图割距离项用于区分手部重叠区域。
13.根据权利要求10所述的装置,其特征在于,所述待识别特征点检测模块包括:
待识别数据转换子模块,用于将所述手部的RGB视频和深度信息视频对转换为灰度数据,并将所述灰度数据转换为三维网格数据;
待识别密度获取子模块,用于计算所述三维网格数据中预设邻域内各顶点的深度信息的局部密度;
待识别特征点选取子模块,用于选取所述预设邻域内的深度信息的局部密度最大值所对应的顶点作为所述预设邻域的特征点。
14.根据权利要求10所述的装置,其特征在于,所述待识别特征点表征模块还用于将所述特征点采用三维梯度空间描述子和三维运动空间描述子表示;所述三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子;所述三维运动空间描述子包括速率描述子。
15.根据权利要求14所述的装置,其特征在于,所述待识别特征点表征模块还用于将坐标轴旋转为特征点的方向,以特征点投影到三维空间坐标的xy平面、xz平面和yz平面,以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口,在每个在r×r的块上计算8个方向的梯度直方图,并求出每个梯度方向的累加值,形成一个种子点,将特征点采用个种子点组成,每个种子点有8个方向向量信息,m和r均为2的整数倍的自然数。
16.根据权利要求14所述的装置,其特征在于,所述速率描述子在三维空间xyz坐标轴上的分量包括:
速率描述子在x轴上的分量为特征点在相邻两帧视频投影到x轴的坐标值之差;
速率描述子在y轴上的分量为特征点在相邻两帧视频投影到y轴的坐标值之差;
速率描述子在z轴上的分量为特征点在相邻两帧视频的深度信息投影到z轴的坐标值之差。
17.根据权利要求10所述的装置,其特征在于,所述类别识别模块包括:
降维子模块,用于将所述特征点的三维网格运动尺度不变特征变换特征描述子降维至与所述预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度;
距离获取子模块,用于求取降维处理后的特征点的三维网格运动尺度不变特征变换特征描述子与所述正样本中的三维网格运动尺度不变特征变换特征描述子的欧式距离;
类别判定子模块,用于选取与所述特征点的三维网格运动尺度不变特征变换特征描述子的欧式距离最小的所述正样本中的三维网格运动尺度不变特征变换特征描述子所对应的类别,作为所述待识别视频中手部运动类别。
18.根据权利要求10所述的装置,其特征在于,所述装置还包括:
构建模块,用于预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410163979.4A CN105022982B (zh) | 2014-04-22 | 2014-04-22 | 手部运动识别方法和装置 |
US15/111,419 US10248854B2 (en) | 2014-04-22 | 2015-04-21 | Hand motion identification method and apparatus |
PCT/CN2015/077052 WO2015161776A1 (en) | 2014-04-22 | 2015-04-21 | Hand motion identification method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410163979.4A CN105022982B (zh) | 2014-04-22 | 2014-04-22 | 手部运动识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105022982A true CN105022982A (zh) | 2015-11-04 |
CN105022982B CN105022982B (zh) | 2019-03-29 |
Family
ID=54331745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410163979.4A Active CN105022982B (zh) | 2014-04-22 | 2014-04-22 | 手部运动识别方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10248854B2 (zh) |
CN (1) | CN105022982B (zh) |
WO (1) | WO2015161776A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600640A (zh) * | 2016-12-12 | 2017-04-26 | 杭州视氪科技有限公司 | 一种基于rgb‑d相机的人脸识别辅助眼镜 |
CN106778489A (zh) * | 2016-11-14 | 2017-05-31 | 深圳奥比中光科技有限公司 | 人脸3d特征身份信息库的建立方法及设备 |
CN106778474A (zh) * | 2016-11-14 | 2017-05-31 | 深圳奥比中光科技有限公司 | 3d人体识别方法及设备 |
CN110163042A (zh) * | 2018-04-13 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 图像识别方法及装置 |
CN110782513A (zh) * | 2019-10-30 | 2020-02-11 | 北京中科深智科技有限公司 | 一种用于实时动作捕捉数据去抖动复合算法的方法 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005755B (zh) * | 2014-04-25 | 2019-03-29 | 北京邮电大学 | 三维人脸识别方法和*** |
CN106303498B (zh) * | 2015-05-30 | 2018-10-16 | 北京智谷睿拓技术服务有限公司 | 视频显示控制方法和装置、显示设备 |
CN106303315B (zh) | 2015-05-30 | 2019-08-16 | 北京智谷睿拓技术服务有限公司 | 视频显示控制方法和装置、显示设备 |
CN106303499B (zh) | 2015-05-30 | 2018-10-16 | 北京智谷睿拓技术服务有限公司 | 视频显示控制方法和装置、显示设备 |
TWI647595B (zh) * | 2016-11-21 | 2019-01-11 | 宏達國際電子股份有限公司 | 人體姿勢偵測系統、穿戴裝置以及方法 |
US10534964B2 (en) * | 2017-01-30 | 2020-01-14 | Blackberry Limited | Persistent feature descriptors for video |
WO2018184233A1 (zh) * | 2017-04-07 | 2018-10-11 | 深圳市柔宇科技有限公司 | 一种手势识别方法及相关装置 |
WO2020101892A1 (en) | 2018-11-12 | 2020-05-22 | Magic Leap, Inc. | Patch tracking image sensor |
US11985440B2 (en) | 2018-11-12 | 2024-05-14 | Magic Leap, Inc. | Depth based dynamic vision sensor |
US11809613B2 (en) | 2018-11-12 | 2023-11-07 | Magic Leap, Inc. | Event-based camera with high-resolution frame output |
JP2022514656A (ja) * | 2018-12-21 | 2022-02-14 | マジック リープ, インコーポレイテッド | マルチカメラクロスリアリティデバイス |
US12013979B2 (en) | 2019-02-07 | 2024-06-18 | Magic Leap, Inc. | Lightweight and low power cross reality device with high temporal resolution |
JP2022519310A (ja) | 2019-02-07 | 2022-03-22 | マジック リープ, インコーポレイテッド | 受動深度抽出を伴う軽量のクロスリアリティデバイス |
US11282257B2 (en) * | 2019-11-22 | 2022-03-22 | Adobe Inc. | Pose selection and animation of characters using video data and training techniques |
US11361467B2 (en) | 2019-11-22 | 2022-06-14 | Adobe Inc. | Pose selection and animation of characters using video data and training techniques |
CN111339888B (zh) * | 2020-02-20 | 2023-11-14 | 沈阳航空航天大学 | 基于关节点运动图的双人交互行为识别方法 |
CN113642360B (zh) * | 2020-04-27 | 2024-06-04 | 杭州海康威视数字技术股份有限公司 | 一种行为计时方法、装置、电子设备及存储介质 |
CN111652080B (zh) * | 2020-05-12 | 2023-10-17 | 合肥的卢深视科技有限公司 | 基于rgb-d图像的目标跟踪方法和装置 |
CN112312230B (zh) * | 2020-11-18 | 2023-01-31 | 秒影工场(北京)科技有限公司 | 一种对影片自动进行3d特效生成的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479388A (zh) * | 2010-11-22 | 2012-05-30 | 北京盛开互动科技有限公司 | 基于人脸跟踪和分析的表情互动方法 |
CN103295016A (zh) * | 2013-06-26 | 2013-09-11 | 天津理工大学 | 基于深度与rgb信息和多尺度多方向等级层次特征的行为识别方法 |
CN103473530A (zh) * | 2013-08-30 | 2013-12-25 | 天津理工大学 | 基于多视图和多模态特征的自适应动作识别方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005114575A1 (en) * | 2004-05-18 | 2005-12-01 | Koninklijke Philips Electronics N.V. | Image processing system for automatic segmentation of a 3-d tree-like tubular surface of an object, using 3-d deformable mesh models |
CN101882000B (zh) * | 2010-06-18 | 2012-08-22 | 华南理工大学 | 一种基于加速度传感器的手势识别方法 |
US10033979B2 (en) * | 2012-03-23 | 2018-07-24 | Avigilon Fortress Corporation | Video surveillance systems, devices and methods with improved 3D human pose and shape modeling |
US8848068B2 (en) * | 2012-05-08 | 2014-09-30 | Oulun Yliopisto | Automated recognition algorithm for detecting facial expressions |
US20130335318A1 (en) * | 2012-06-15 | 2013-12-19 | Cognimem Technologies, Inc. | Method and apparatus for doing hand and face gesture recognition using 3d sensors and hardware non-linear classifiers |
US9542600B2 (en) * | 2012-11-12 | 2017-01-10 | Bae Systems Plc | Cloud feature detection |
CN102968643B (zh) * | 2012-11-16 | 2016-02-24 | 华中科技大学 | 一种基于李群论的多模态情感识别方法 |
CN109598798B (zh) * | 2012-12-14 | 2023-11-28 | 韩国电子通信研究院 | 虚拟物拟合方法及虚拟物拟合服务*** |
KR20140090538A (ko) * | 2013-01-09 | 2014-07-17 | 삼성전자주식회사 | 디스플레이 장치 및 제어 방법 |
EP2953569B1 (en) * | 2013-02-11 | 2022-08-17 | Neomedz Sàrl | Tracking apparatus for tracking an object with respect to a body |
US20140267031A1 (en) * | 2013-03-12 | 2014-09-18 | Kenneth J. Huebner | Spatially aware pointer for mobile appliances |
CN103479367B (zh) | 2013-09-09 | 2016-07-20 | 广东工业大学 | 一种基于面部运动单元识别的驾驶员疲劳检测方法 |
US10022914B2 (en) * | 2013-11-12 | 2018-07-17 | Adobe Systems Incorporated | Method and apparatus for automatically adding utility holes to printable 3-dimensional models |
US20150138078A1 (en) * | 2013-11-18 | 2015-05-21 | Eyal Krupka | Hand pose recognition using boosted look up tables |
US9223955B2 (en) * | 2014-01-30 | 2015-12-29 | Microsoft Corporation | User-authentication gestures |
US9996109B2 (en) * | 2014-08-16 | 2018-06-12 | Google Llc | Identifying gestures using motion data |
-
2014
- 2014-04-22 CN CN201410163979.4A patent/CN105022982B/zh active Active
-
2015
- 2015-04-21 WO PCT/CN2015/077052 patent/WO2015161776A1/en active Application Filing
- 2015-04-21 US US15/111,419 patent/US10248854B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479388A (zh) * | 2010-11-22 | 2012-05-30 | 北京盛开互动科技有限公司 | 基于人脸跟踪和分析的表情互动方法 |
CN103295016A (zh) * | 2013-06-26 | 2013-09-11 | 天津理工大学 | 基于深度与rgb信息和多尺度多方向等级层次特征的行为识别方法 |
CN103473530A (zh) * | 2013-08-30 | 2013-12-25 | 天津理工大学 | 基于多视图和多模态特征的自适应动作识别方法 |
Non-Patent Citations (2)
Title |
---|
姚远等: "RGB-D图像中手部样本标记与手势识别", 《计算机辅助设计与图形学学报》 * |
王跃明等: "三维人脸识别研究综述", 《计算机辅助设计与图形学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778489A (zh) * | 2016-11-14 | 2017-05-31 | 深圳奥比中光科技有限公司 | 人脸3d特征身份信息库的建立方法及设备 |
CN106778474A (zh) * | 2016-11-14 | 2017-05-31 | 深圳奥比中光科技有限公司 | 3d人体识别方法及设备 |
CN106600640A (zh) * | 2016-12-12 | 2017-04-26 | 杭州视氪科技有限公司 | 一种基于rgb‑d相机的人脸识别辅助眼镜 |
CN106600640B (zh) * | 2016-12-12 | 2020-03-20 | 杭州视氪科技有限公司 | 一种基于rgb-d相机的人脸识别辅助眼镜 |
CN110163042A (zh) * | 2018-04-13 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 图像识别方法及装置 |
CN110163042B (zh) * | 2018-04-13 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 图像识别方法及装置 |
CN110782513A (zh) * | 2019-10-30 | 2020-02-11 | 北京中科深智科技有限公司 | 一种用于实时动作捕捉数据去抖动复合算法的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105022982B (zh) | 2019-03-29 |
WO2015161776A1 (en) | 2015-10-29 |
US10248854B2 (en) | 2019-04-02 |
US20160335487A1 (en) | 2016-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105022982A (zh) | 手部运动识别方法和装置 | |
CN111191667B (zh) | 基于多尺度生成对抗网络的人群计数方法 | |
US9098740B2 (en) | Apparatus, method, and medium detecting object pose | |
Wang et al. | Mining actionlet ensemble for action recognition with depth cameras | |
CN110399808A (zh) | 一种基于多目标跟踪的人体行为识别方法及*** | |
CN102803991B (zh) | 物体检测设备 | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
JP5604256B2 (ja) | 人物動作検出装置およびそのプログラム | |
CN107767416B (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN103942577A (zh) | 视频监控中基于自建立样本库及混合特征的身份识别方法 | |
CN106296720A (zh) | 基于双目相机的人体朝向识别方法和*** | |
CN106778474A (zh) | 3d人体识别方法及设备 | |
CN105512618B (zh) | 视频跟踪方法 | |
CN103514432A (zh) | 人脸特征提取方法、设备和计算机程序产品 | |
Yu et al. | One class boundary method classifiers for application in a video-based fall detection system | |
JP2012083855A (ja) | 物体認識装置及び物体認識方法 | |
Khan et al. | Multiple human detection in depth images | |
Liu et al. | Customer behavior recognition in retail store from surveillance camera | |
CN106445146B (zh) | 用于头盔显示器的手势交互方法与装置 | |
CN107230219A (zh) | 一种单目机器人上的目标人发现与跟随方法 | |
CN107609571A (zh) | 一种基于lark特征的自适应目标跟踪方法 | |
CN112116635A (zh) | 一种基于快速人体移动的视觉跟踪方法及装置 | |
CN106611158A (zh) | 人体3d特征信息的获取方法及设备 | |
Zhu et al. | Action recognition in broadcast tennis video using optical flow and support vector machine | |
Batool et al. | Telemonitoring of daily activities based on multi-sensors data fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |