CN106909895A - 一种基于随机投影多核学习的手势识别方法 - Google Patents
一种基于随机投影多核学习的手势识别方法 Download PDFInfo
- Publication number
- CN106909895A CN106909895A CN201710085235.9A CN201710085235A CN106909895A CN 106909895 A CN106909895 A CN 106909895A CN 201710085235 A CN201710085235 A CN 201710085235A CN 106909895 A CN106909895 A CN 106909895A
- Authority
- CN
- China
- Prior art keywords
- gesture
- dictionary
- gestures
- avg
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 claims abstract description 35
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 claims abstract description 35
- 210000000299 nuclear matrix Anatomy 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 17
- 230000009467 reduction Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 230000009977 dual effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005530 etching Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 241001269238 Data Species 0.000 claims 1
- 230000003993 interaction Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于随机投影多核学习的手势识别方法,步骤包括:采集手势图像,并对图像进行预处理,预处理包括手势定位和手势分割;对预处理分割后的手势提取sift特征;采用k‑means算法训练学习字典,然后使用迭代字典更新算法更新字典;对手势图像进行空间金字塔划分,并对在每层空间金字塔中对手势图像的sift特征,根据训练得到的字典进行编码,得到特征向量,并对特征向量进行级联,接着使用随机投影进行对特征向量降维;对每层金字塔降维后的特征向量学习核矩阵,采用多核模型学习算法进行分类学习,得到最优核矩阵组合系数。本发明解决了目前传统的手势识别方法中存在的背景干扰、复杂度较高、耗时长和识别率低等问题。
Description
技术领域
本发明涉及模式识别技术领域,尤其涉及一种基于随机投影多核学习的手势识别方法。
背景技术
目前,随着科学技术的不断进步,人机交互得到迅速发展,人机交互成为研究者研究的热点之一。人机交互的目标是实现用户与机器之间的自然交流,为用户提供实时、直观的交互体验。由于人与人之间是通过语言、肢体与表情来传递信息,而手势具有自然、直观等特征,因此基于手势识别的人机交互受到了人们越来越多的关注,并在人机交互领域中发挥着越来越重要的作用。手势识别涉及多个学科,例如计算科学、机器学习、模式识别、图像与视频处理等。
手势识别主要分为两种,一种是基于数据手套的手势识别,另外一种是基于视觉的手势识别。基于数据手套的识别最开始是由AT&T的Geimes使用数据手套来检测人手与其关节的空间信息,Virtual Technologie公司的Cyber Glove手套也得到广泛运用,检测手势运动速度、加速度等手势信息,识别率比较高,且实时性比较好。但是,这种交互方式需要佩戴手套等传感设备,识别的手势较少,同时缺乏手势的自然性。
基于视觉的手势识别,无需穿戴设备,操作方便,用户只需进行手势的自然表达,从而进行人与机器的交流,实现了人机交互的直观表示。基于视觉的手势识别主要利用摄像头采集手势的图像视频数据,传输给计算机,通过使用计算机视觉技术进行图像处理,对其中的手势进行识别。但是目前基于视觉的手势识别面临着诸多难点,例如复杂背景、光照等因素的影响,因此设计出简单、实时、有效、方便的手势识别***是研究者研究的热点问题,也是手势识别发展的必然趋势。
手势识别过程主要包括:手势数据采集、手势分割、特征提取和手势识别等步骤。比较常用的特征有sift(Scale-invariant feature transform)特征、傅里叶描述子、Hu矩和HOG(Histogram of Oriented Gradient)特征等。采用单一的特征,往往存在局限性(参见文献“张汗灵,李红英,周敏.融合多特征和压缩感知的手势识别[J].湖南大学学报(自科版),2013,40(3):87-92.”和“翁汉良,战荫伟.基于视觉的多特征手势识别[J].计算机工程与科学,2012,34(2):123-127.”)。
基于稀疏表示的手势识别算法(参见文献“张勤,赵健,孙道达,等.一种基于稀疏表示的手势识别算法[J].西北大学学报自然科学版,2013,43(6):881-884.”和“宁亚楠,李定主,韩燮,等.基于稀疏表示的手势识别方法[J].计算机工程与设计,2016(9):2548-2552.”)构建稀疏冗余字典,根据最小残差实现手势识别,相对速度慢,往往不能够达到实时性的效果,同时稀疏编码往往忽视局部信息。
采用传统的支持向量机的方法进行识别,由于每个特征对于最终的识别结果产生的影响不同;如果采用单一的核矩阵进行识别,往往忽视了特征之间的区分性。同时使用核函数往往采用经验法,缺乏统一的标准,得到的结果往往不一致。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于随机投影多核学习的手势识别方法,解决目前传统的手势识别方法中存在的背景干扰、复杂度较高、耗时长和识别率低等问题。
为解决上述技术问题,本发明提供如下技术方案:一种基于随机投影多核学习的手势识别方法,包括如下步骤:
S1、采集手势图像,并对图像进行预处理,预处理包括手势定位和手势分割;
S2、对预处理分割后的手势提取sift特征;
S3、采用k-means算法训练学习字典,然后使用迭代字典更新算法更新字典;
S4、对手势图像进行空间金字塔划分,并对在每层空间金字塔中对手势图像的sift特征,根据训练得到的字典进行编码,得到特征向量,并对特征向量进行级联,接着使用随机投影进行对特征向量降维;
S5、对每层金字塔降维后的特征向量学习核矩阵,学习核矩阵方法采用多核模型学习算法进行分类学习,得到最优核矩阵组合系数。
进一步地,所述步骤S1中预处理,具体为:
S11、采用Grayworld光线补偿算法,降低光照环境对于后续手势分割的影响;
S12、采用HSV和Ycbcr混合空间模型方法进行肤色检测,进一步定位手势区域,在手势区域内提取手势的最小外接矩形;
S13、在最小外接矩形中,采用形态学的膨胀与腐蚀操作,对手势进行分割处理以及平滑手势的边缘;最后在最小外接矩形内提取手势;
进一步地,所述步骤S11中Grayworld光线补偿算法具体为:
分别计算手势图像R、G、B颜色分量的平均值ravg、gavg、bavg,定义图像平均灰度值为grayavg=(ravg+gavg+bavg)/3,并定义R、G、B三个通道的增益系数ar、gr、br为:
ar=grayavg/ravg
gr=grayavg/gavg
br=grayavg/bavg
调整每个像素点c的R、G、B颜色分量为:
c(R)=c(R)*ar
c(G)=c(G)*ag
c(B)=c(B)*ab
最终将R、G、B颜色分量调整到可视范围内。
进一步地,所述步骤S2,具体为:
S21、对分割后的手势生成尺度空间,寻找空间尺度极值,并定位特征点;
S22、利用特征点周围像素梯度m(x,y)和方向θ(x,y),为每一个特征点赋值方向,然后计算其sift特征:
θ(x,y)=arctan((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))
最后,得到的特征为X=[x1,...,xM]T∈RM×D,xi∈R1×D,M为特征点的个数,D为sift特征的维数。
进一步地,所述步骤S3具体为:
S31、采用k-means算法,生成得到字典B=[b1,b2,...,bN]∈RD×N,字典大小为D,视觉词汇个数为N;
S32、使用迭代字典更新算法,使用局部约束线性编码准则,每次加载训练集中的部分特征描述符不断更新字典。
进一步地,所述步骤S4具体为:
S41、对手势图像进行空间金字塔划分,并在每层空间金字塔中对手势图像的特征,根据训练得到的字典进行编码,得到特征向量;
S42、将得到的特征向量进行级联,并采用随机投影,使得每层特征向量与字典大小保持一致。
进一步地,所述步骤S41具体为:
对分割后的手势图像进行空间金字塔划分,按照手势图像两个坐标方向的2指数倍进行划分,分为L层,其中l=0,...L,第l=0层是将手势图像水平方向分为2l=20=1块,竖直方向分为2l=20=1块,最终第l=0层手势图像被划分为2l*2l=1块,其他层数以此类推;
对每层的每块图像块进行局部约束线性编码,公式为:
其中,ci是sift特征描述符xi的编码;⊙为逐元素相乘;表示分配的自由度与sift特征描述符的每个基向量的相似性成正比的局部适配器,其中dist(xi,B)=[dist(xi,b1),...,dist(xi,bM)]T,dist(xi,bj)表示xi与bj之间的欧式距离;参数σ控制局部适配器权重衰减的速度,同时从dist(xi,B)减去max(dist(xi,B)),将di标准化到范围(0,1]间;约束项1Tci=1确保局部约束线性编码的平移不变性。
进一步地,所述步骤S5具体为:
S51、采用非线性径向基核函数Kl(xi,xj)=exp(-γlf(xi,xj)),其中γl取所有训练数据距离的平均值,是第l层空间金字塔的特征向量xi和xj映射到φ特征空间后向量的点积,即对每层金字塔学习一个核矩阵;
S52、根据核矩阵,采用多核模型学习算法得到最优核矩阵组合系数,并得到最终分类的核矩阵在支持向量机的基础上,利用训练集学习得到最优的核矩阵系数,目标函数定义为:
s.t.yi(wtφ(xi)+b)≥1-ξi,ξ≥0,d≥0,Ad≥p
其中,C为惩罚项,Ad≥p为限制项,此时将核矩阵改写为:
采用投影梯度法求解最小的T(d),即 的求解是这个优化问题的关键,因此将问题进行转化求解,得到其对偶式为:
s.t.0≤α≤C,1tYα=0
其中,Y是标记训练数据类别的对角矩阵,Kl为核矩阵K的第l列,α与支持向量有关;根据强对偶的原理,对于任意系数d,都有T(d)=W(d),记W取最大值时,α的值为α*,并且具有唯一性;由于核矩阵都是严格可微的,因此W取取最大值时也是可微的,因此有:
最终得到系数d,再根据训练的数据求解分类器参数a和b,得到多核模型分类器
采用上述技术方案后,本发明至少具有如下有益效果:
(1)本发明采用混合空间模型进行肤色检测以及形态学处理,降低了背景对于手势分割的影响;同时使用两阶段字典训练方法,先使用k-means算法训练字典,然后使用迭代字典更新算法,使用局部约束线性编码准则,进一步提高识别效率;
(2)本发明采用空间金字塔划分技术,加入空间信息,使用局部约束线性编码,避免了稀疏编码对于局部信息的忽视,同时对高层的金字塔特征进行随机投影,降低了计算的复杂度;使用多核学习,优化多核参数,得到分类能力最强的核矩阵,提高手势识别的效率。
附图说明
图1是本发明一种基于随机投影多核学习手势识别方法流程图;
图2是本发明一种基于随机投影多核学习手势识别方法的图像空间金字塔划分方法示意图;
图3是本发明一种基于随机投影多核学习手势识别方法的局部约束线性编码示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。
如图1所示,本实例给出了一种基于随机投影多核学习的手势识别方法,主要包括以下步骤:
S1采集手势图像,并对图像进行预处理,预处理包括手势定位和手势分割,具体过程如下所示,具体过程如下所示:
S1.1采用Grayworld光线补偿算法,降低光照环境对于后续手势分割的影响;分别计算手势图像三个颜色分量的平均值ravg,gavg,bavg,定义图像平均灰度值为grayavg=(ravg+gavg+bavg)/3,并定义R、G、B三个通道的增益系数ar、gr、br为调整每个像素点c的R、G、B分量分别为最终将三者调整到可视范围内。
S1.2采用HSV和Ycbcr混合空间模型来进行肤色检测,手势定位,由于肤色具有分布聚类性,范围紧密,首先将RGB图像分别转换到HSV空间和Ycbcr空间,通过实验对比,本发明设定的HSV空间和Ycbcr空间阈值范围是H∈[0.75,1),S∈[0.1,0.7],V∈[0.4,1),cb∈[90,140],cr∈[130,255]。肤色检测后对手势进行定位,由于存在背景噪声等因素的影响,采用形态化预处理,消除满足阈值条件的小面积对象,本发明设置删除在8邻域小于1000的面积对象,降低噪声的影响。同时提取手势的最小外接矩阵,扫描整个二值化图像,找到满足条件的横坐标与纵坐标的最大与最小值xmin,xmax,ymin,ymax,分别向四个方向扩展20个像素值,即xmin-20,xmax+20,ymin-20,ymax+20,可得到手势的最小外接矩阵。最小外接矩形为后续的特征提取,编码,识别等提供了依据。
S1.3由于粗分割,再利用形态学的膨胀与腐蚀操作,对手势进行进一步分割;平滑手势的边缘。最后在最小外接矩形内提取手势。
S2提取分割后手势的sift特征,具体过程如下所示:
S2.1提取sift特征。对分割后的手势生成尺度空间,建立图像高斯金字塔,比较每个像素点与其所有相邻点,是否比其图像域和尺度域相邻点的大或者小,寻找空间尺度极值,并定位特征点,去除其中不稳定边缘点与低对比度的关键点;
S2.2利用特征点周围像素梯度m(x,y)和方向θ(x,y),为每一个特征点赋值方向,然后计算其sift特征;
θ(x,y)=arctan((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))
最后,得到的特征为X=[x1,...,xM]T∈RM×D,xi∈R1×D,M为特征点的个数,D为sift特征的维数。
S3采用k-means算法训练学习字典,然后使用迭代字典更新算法更新字典,具体过程如下所示:
S3.1使用k-means算法,生成得到字典B=[b1,b2,...,bN]∈RD×N,字典大小为D,视觉词汇个数为N;
S3.2使用迭代字典更新算法,使用局部约束线性编码准则,每次加载训练集中的部分特征描述符不断更新字典。根据公式
由步骤S3.1得到的字典B,考虑到所有的训练描述符的数量比较多,因此每次迭代时,遍历所有的训练描述符,只取其中小部分描述符,求解上述公式,利用当前的字典B,进行特征选择,获取相应的局部约束线性编码ci。每次只保留字典的一组基B,并且其对应权重大于事先定义的常量,同时根据无局部性受限参数,重新拟合。最后将单位圆外的字典基投影到单位圆上,接着使用梯度下降方法更新字典中保留的基B。
S4对手势图像进行空间金字塔划分,并在每层空间金字塔中对手势图像的特征,根据训练得到的字典进行编码,得到特征向量,并对特征向量进行级联,接着使用随机投影进行降维,具体过程如下所示:
S4.1对分割后的手势图像进行金字塔划分,如图2所示,按照手势图像两个坐标方向的2指数倍进行划分,分为L层,其中l=0,...L,第l=0层是将手势图像水平方向分为2l=20=1块,竖直方向分为2l=20=1块,最终第l=0层手势图像被划分为2l*2l=1块,后面以此类推,第l=1层分为4块,第l=2层取16块。本发明共取L=3层。然后对每块图像块进行局部约束线性编码,如图3所示,其目标函数定义为:
其中ci是sift特征描述符xi的编码,⊙表示逐元素相乘,表示分配的自由度与sift特征描述符的每个基向量的相似性成正比的局部适配器,dist(xi,B)=[dist(xi,b1),...,dist(xi,bM)]T。dist(xi,bj)表示xi与bj之间的欧式距离,参数σ控制局部适配器权重衰减的速度。同时从dist(xi,B)减去max(dist(xi,B)),将di标准化到范围(0,1]间。约束项1Tci=1确保局部约束线性编码的平移不变性。上式中的局部约束线性编码在l0范数下不满足稀疏性,但是求得的解中只有少部分的显著值,因此可以通过设置阈值,使得编码满足稀疏性。
局部约束线性编码学习得到的系数,有着较好的区分度。系数的相似性与输入向量的相似性成正比,输入向量相似度越高,学习得到的系数就越相似,输入向量相似度越低,学习得到的系数相似度就越低。因此可以得到识别性能更好的编码效果。
S4.2将每层的图像块进行局部约束线性编码后得到的特征向量进行级联,那么每层的特征转化为一个向量表示,由于金字塔第l=1层和第l=2层,相对第l=0层的维度较高,为了降低后续计算的复杂度,在本发明中采用随机投影,使得金字塔第l=1层和第l=2层特征向量与训练字典大小保持一致,即与第l=0层特征向量的维度保持一致;随机矩阵独立于训练样本,将向量空间的点从高维映射到随机选择的低维空间中,则向量空间之间点的距离保持不变,有效的降低特征维度,也不会造成特征的曲解。若金字塔每层得到的特征向量为使用随机投影后,使用公式
将高维的特征映射到低维空间,可以得最终的特征随机矩阵R受限满足等距属性(restrictedisometry,RIP)。随机投影由Johnson-Lindenstrauss引理首次提出,认为将向量空间的点从高维映射到随机选择的低维空间中,则向量空间之间点的距离保持不变。本发明采用随机高斯矩阵,矩阵元素ri,j=N(0,1),并将各个行变量分别进行标准正交化以及归一化。
S5对每层金字塔最终的特征向量学习核矩阵,采用多核模型学习算法进行分类学习,得到最优核矩阵组合系数,具体过程如下所示:
S5.1使用多核学***均值,是第l层空间金字塔的特征向量xi和xj映射到φ特征空间后向量的点积,即对每层金字塔学习一个核矩阵。由于每个核矩阵的区分能力不同,因而需要在求解传统的支持向量机问题上,优化学习系数,得到最终分类器的核矩阵使得识别能力达到最优状态。
S5.2采用通用多核学习算法学习得到最优核矩阵组合系数,得到最终分类的核矩阵在支持向量机的基础上,利用训练集学习得到最优的核矩阵系数,目标函数定义为
s.t.yi(wtφ(xi)+b)≥1-ξi,ξ≥0,d≥0,Ad≥p
其中,C为惩罚项,Ad≥p为限制项,此时将核矩阵改写为
采用投影梯度法求解最小的T(d),即 的求解是这个优化问题的关键,因此将问题进行转化求解,得到其对偶式为
s.t.0≤α≤C,1tYα=0
其中Y是标记训练数据类别的对角矩阵,Kl为核矩阵K的第l列,α与支持向量有关。根据强对偶的原理,对于任意系数d,都有T(d)=W(d)。记W取最大值时,α的值为α*,并且具有唯一性。由于核矩阵都是严格可微的,因此W取最大值时也是可微的。因此有
最终可以得到系数d,再根据训练的数据求解分类器参数a和b,得到多核模型分类器
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。
Claims (8)
1.一种基于随机投影多核学习的手势识别方法,其特征在于,包括如下步骤:
S1、采集手势图像,并对图像进行预处理,预处理包括手势定位和手势分割;
S2、对预处理分割后的手势提取sift特征;
S3、采用k-means算法训练学习字典,然后使用迭代字典更新算法更新字典;
S4、对手势图像进行空间金字塔划分,并对在每层空间金字塔中对手势图像的sift特征,根据训练得到的字典进行编码,得到特征向量,并对特征向量进行级联,接着使用随机投影进行对特征向量降维;
S5、对每层金字塔降维后的特征向量学习核矩阵,学习核矩阵方法采用多核模型学习算法进行分类学习,得到最优核矩阵组合系数。
2.根据权利要求1所述的一种基于随机投影多核学习的手势识别方法,其特征在于,所述步骤S1中预处理,具体为:
S11、采用Grayworld光线补偿算法,降低光照环境对于后续手势分割的影响;
S12、采用HSV和Ycbcr混合空间模型方法进行肤色检测,进一步定位手势区域,在手势区域内提取手势的最小外接矩形;
S13、在最小外接矩形中,采用形态学的膨胀与腐蚀操作,对手势进行分割处理以及平滑手势的边缘;最后在最小外接矩形内提取手势。
3.根据权利要求2所述的一种基于随机投影多核学习的手势识别方法,其特征在于,所述步骤S11中Grayworld光线补偿算法具体为:
分别计算手势图像R、G、B颜色分量的平均值ravg、gavg、bavg,定义图像平均灰度值为grayavg=(ravg+gavg+bavg)/3,并定义R、G、B三个通道的增益系数ar、gr、br为:
ar=grayavg/ravg
gr=grayavg/gavg
br=grayavg/bavg
调整每个像素点c的R、G、B颜色分量为:
c(R)=c(R)*ar
c(G)=c(G)*ag
c(B)=c(B)*ab
最终将R、G、B颜色分量调整到可视范围内。
4.根据权利要求1所述的一种基于随机投影多核学习的手势识别方法,其特征在于,所述步骤S2,具体为:
S21、对分割后的手势生成尺度空间,寻找空间尺度极值,并定位特征点;
S22、利用特征点周围像素梯度m(x,y)和方向θ(x,y),为每一个特征点赋值方向,然后计算其sift特征:
θ(x,y)=arctan((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))
最后,得到的特征为X=[x1,...,xM]T∈RM×D,xi∈R1×D,M为特征点的个数,D为sift特征的维数。
5.根据权利要求1所述的一种基于随机投影多核学习的手势识别方法,其特征在于,所述步骤S3具体为:
S31、采用k-means算法,生成得到字典B=[b1,b2,...,bN]∈RD×N,字典大小为D,视觉词汇个数为N;
S32、使用迭代字典更新算法,使用局部约束线性编码准则,每次加载训练集中的部分特征描述符不断更新字典。
6.根据权利要求1所述的一种基于随机投影多核学习的手势识别方法,其特征在于,所述步骤S4具体为:
S41、对手势图像进行空间金字塔划分,并在每层空间金字塔中对手势图像的特征,根据训练得到的字典进行编码,得到特征向量;
S42、将得到的特征向量进行级联,并采用随机投影,使得每层特征向量与字典大小保持一致。
7.根据权利要求6所述的一种基于随机投影多核学习的手势识别方法,其特征在于,所述步骤S41具体为:
对分割后的手势图像进行空间金字塔划分,按照手势图像两个坐标方向的2指数倍进行划分,分为L层,其中l=0,...L,第l=0层是将手势图像水平方向分为2l=20=1块,竖直方向分为2l=20=1块,最终第l=0层手势图像被划分为2l*2l=1块,其他层数以此类推;
对每层的每块图像块进行局部约束线性编码,公式为:
其中,ci是sift特征描述符xi的编码;⊙为逐元素相乘;表示分配的自由度与sift特征描述符的每个基向量的相似性成正比的局部适配器,其中dist(xi,B)=[dist(xi,b1),...,dist(xi,bM)]T,dist(xi,bj)表示xi与bj之间的欧式距离;参数σ控制局部适配器权重衰减的速度,同时从dist(xi,B)减去max(dist(xi,B)),将di标准化到范围(0,1]间;约束项1Tci=1确保局部约束线性编码的平移不变性。
8.根据权利要求1所述的一种基于随机投影多核学习的手势识别方法,其特征在于,所述步骤S5具体为:
S51、采用非线性径向基核函数Kl(xi,xj)=exp(-γlf(xi,xj)),其中γl取所有训练数据距离的平均值,是第l层空间金字塔的特征向量xi和xj映射到φ特征空间后向量的点积,即对每层金字塔学习一个核矩阵;
S52、根据核矩阵,采用多核模型学习算法得到最优核矩阵组合系数,并得到最终分类的核矩阵在支持向量机的基础上,利用训练集学习得到最优的核矩阵系数,目标函数定义为:
s.t.yi(wtφ(xi)+b)≥1-ξi,ξ≥0,d≥0,Ad≥p
其中,C为惩罚项,Ad≥p为限制项,此时将核矩阵改写为:
采用投影梯度法求解最小的T(d),即dn+1=dn-εn▽T,▽T的求解是这个优化问题的关键,因此将问题进行转化求解,得到其对偶式为:
s.t.0≤α≤C,1tYα=0
其中Y是标记训练数据类别的对角矩阵,Kl为核矩阵K的第l列,α与支持向量有关;根据强对偶的原理,对于任意系数d,都有T(d)=W(d),记W取最大值时,α的值为α*,并且具有唯一性;由于核矩阵都是严格可微的,因此W取最大值时也是可微的,因此有:
最终得到系数d,再根据训练的数据求解分类器参数a和b,得到多核模型分类器
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710085235.9A CN106909895B (zh) | 2017-02-17 | 2017-02-17 | 一种基于随机投影多核学习的手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710085235.9A CN106909895B (zh) | 2017-02-17 | 2017-02-17 | 一种基于随机投影多核学习的手势识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106909895A true CN106909895A (zh) | 2017-06-30 |
CN106909895B CN106909895B (zh) | 2020-09-22 |
Family
ID=59207549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710085235.9A Expired - Fee Related CN106909895B (zh) | 2017-02-17 | 2017-02-17 | 一种基于随机投影多核学习的手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106909895B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154107A (zh) * | 2017-12-22 | 2018-06-12 | 北京航空航天大学 | 一种确定遥感图像归属的场景类别的方法 |
CN108227653A (zh) * | 2017-12-28 | 2018-06-29 | 湖州师范学院 | 一种基于随机化核主元分析的大规模非线性过程监控方法 |
CN109146887A (zh) * | 2018-06-28 | 2019-01-04 | 广东技术师范学院 | 一种基于肤色模型和统计特征的手势分割技术 |
CN109726646A (zh) * | 2018-12-14 | 2019-05-07 | 中国联合网络通信集团有限公司 | 一种手势识别方法和***、显示方法和*** |
CN110210443A (zh) * | 2019-06-11 | 2019-09-06 | 西北工业大学 | 一种优化投影对称性近似稀疏分类的手势识别方法 |
CN116206166A (zh) * | 2023-05-05 | 2023-06-02 | 西南科技大学 | 一种基于核投影学习的数据降维方法、设备和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110229045A1 (en) * | 2010-03-16 | 2011-09-22 | Nec Laboratories America, Inc. | Method and system for image classification |
US20130315457A1 (en) * | 2012-05-23 | 2013-11-28 | International Business Machines Corporation | Vessel Identification Using Shape and Motion Mapping for Coronary Angiogram Sequences |
CN103839084A (zh) * | 2014-03-12 | 2014-06-04 | 湖州师范学院 | 一种应用于行人再识别的多核支持向量机多示例学习算法 |
CN104361313A (zh) * | 2014-10-16 | 2015-02-18 | 辽宁石油化工大学 | 一种基于多核学习异构特征融合的手势识别方法 |
CN105139036A (zh) * | 2015-06-19 | 2015-12-09 | 四川大学 | 一种基于稀疏编码的手写体数字识别方法 |
JP2016042359A (ja) * | 2014-08-18 | 2016-03-31 | 株式会社デンソーアイティーラボラトリ | 認識装置、実数行列分解方法、認識方法 |
CN105654122A (zh) * | 2015-12-28 | 2016-06-08 | 江南大学 | 基于核函数匹配的空间金字塔物体识别方法 |
-
2017
- 2017-02-17 CN CN201710085235.9A patent/CN106909895B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110229045A1 (en) * | 2010-03-16 | 2011-09-22 | Nec Laboratories America, Inc. | Method and system for image classification |
US20130315457A1 (en) * | 2012-05-23 | 2013-11-28 | International Business Machines Corporation | Vessel Identification Using Shape and Motion Mapping for Coronary Angiogram Sequences |
CN103839084A (zh) * | 2014-03-12 | 2014-06-04 | 湖州师范学院 | 一种应用于行人再识别的多核支持向量机多示例学习算法 |
JP2016042359A (ja) * | 2014-08-18 | 2016-03-31 | 株式会社デンソーアイティーラボラトリ | 認識装置、実数行列分解方法、認識方法 |
CN104361313A (zh) * | 2014-10-16 | 2015-02-18 | 辽宁石油化工大学 | 一种基于多核学习异构特征融合的手势识别方法 |
CN105139036A (zh) * | 2015-06-19 | 2015-12-09 | 四川大学 | 一种基于稀疏编码的手写体数字识别方法 |
CN105654122A (zh) * | 2015-12-28 | 2016-06-08 | 江南大学 | 基于核函数匹配的空间金字塔物体识别方法 |
Non-Patent Citations (3)
Title |
---|
W. ZHENG, S. GONG, T. XIANG,: "Locality-constrained Linear Coding for image classification", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
李智勇: "Gray_World彩色均衡方法在肤色检测中的应用", 《现代电子技术》 * |
杨钊: "面向图像分类和识别的视觉特征表达与学习的研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154107A (zh) * | 2017-12-22 | 2018-06-12 | 北京航空航天大学 | 一种确定遥感图像归属的场景类别的方法 |
CN108154107B (zh) * | 2017-12-22 | 2021-09-14 | 北京航空航天大学 | 一种确定遥感图像归属的场景类别的方法 |
CN108227653A (zh) * | 2017-12-28 | 2018-06-29 | 湖州师范学院 | 一种基于随机化核主元分析的大规模非线性过程监控方法 |
CN109146887A (zh) * | 2018-06-28 | 2019-01-04 | 广东技术师范学院 | 一种基于肤色模型和统计特征的手势分割技术 |
CN109146887B (zh) * | 2018-06-28 | 2021-09-24 | 广东技术师范大学 | 一种基于肤色模型和统计特征的手势分割方法 |
CN109726646A (zh) * | 2018-12-14 | 2019-05-07 | 中国联合网络通信集团有限公司 | 一种手势识别方法和***、显示方法和*** |
CN110210443A (zh) * | 2019-06-11 | 2019-09-06 | 西北工业大学 | 一种优化投影对称性近似稀疏分类的手势识别方法 |
CN110210443B (zh) * | 2019-06-11 | 2022-03-15 | 西北工业大学 | 一种优化投影对称性近似稀疏分类的手势识别方法 |
CN116206166A (zh) * | 2023-05-05 | 2023-06-02 | 西南科技大学 | 一种基于核投影学习的数据降维方法、设备和介质 |
CN116206166B (zh) * | 2023-05-05 | 2023-08-11 | 西南科技大学 | 一种基于核投影学习的数据降维方法、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106909895B (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106909895A (zh) | 一种基于随机投影多核学习的手势识别方法 | |
CN109359538B (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
Iandola et al. | Densenet: Implementing efficient convnet descriptor pyramids | |
CN106682598B (zh) | 一种基于级联回归的多姿态的人脸特征点检测方法 | |
Liu et al. | Flower classification via convolutional neural network | |
Khan et al. | Painting-91: a large scale database for computational painting categorization | |
Wang et al. | Joint learning of visual attributes, object classes and visual saliency | |
CN104361313B (zh) | 一种基于多核学习异构特征融合的手势识别方法 | |
Feng et al. | Depth-projection-map-based bag of contour fragments for robust hand gesture recognition | |
CN113033398B (zh) | 一种手势识别方法、装置、计算机设备及存储介质 | |
Tatsuma et al. | Food image recognition using covariance of convolutional layer feature maps | |
Li et al. | Pooling map adaptation in convolutional neural network for facial expression recognition | |
CN104794693A (zh) | 一种人脸关键区域自动检测蒙版的人像优化方法 | |
Salunke et al. | Power point control using hand gesture recognition based on hog feature extraction and K-NN classification | |
Qi et al. | Exploring illumination robust descriptors for human epithelial type 2 cell classification | |
Mao et al. | Classroom micro-expression recognition algorithms based on multi-feature fusion | |
Cheng et al. | Multiscale principal contour direction for varying lighting face recognition | |
Nachamai | Alphabet recognition of american sign language: a hand gesture recognition approach using sift algorithm | |
Wang et al. | The study of gesture recognition based on SVM with LBP and PCA | |
Zhang et al. | Real world hand gesture interaction in virtual reality | |
Zou et al. | Deformable part model based hand detection against complex backgrounds | |
Guo et al. | Object discovery via cohesion measurement | |
Elsayed et al. | Hybrid method based on multi-feature descriptor for static sign language recognition | |
Ye et al. | Reading labels of cylinder objects for blind persons | |
CN107967492A (zh) | 一种结合似物性检测的贝叶斯显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200922 |
|
CF01 | Termination of patent right due to non-payment of annual fee |