CN110008844B - 一种融合slic算法的kcf长期手势跟踪方法 - Google Patents

一种融合slic算法的kcf长期手势跟踪方法 Download PDF

Info

Publication number
CN110008844B
CN110008844B CN201910184848.7A CN201910184848A CN110008844B CN 110008844 B CN110008844 B CN 110008844B CN 201910184848 A CN201910184848 A CN 201910184848A CN 110008844 B CN110008844 B CN 110008844B
Authority
CN
China
Prior art keywords
gesture
target
frame
foreground
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910184848.7A
Other languages
English (en)
Other versions
CN110008844A (zh
Inventor
郭锦辉
刘伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910184848.7A priority Critical patent/CN110008844B/zh
Publication of CN110008844A publication Critical patent/CN110008844A/zh
Application granted granted Critical
Publication of CN110008844B publication Critical patent/CN110008844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合SLIC算法的KCF长期手势跟踪方法,包括步骤:1)构建手势训练数据集,提取并离线训练超像素块的SVM模型,得到手势检测的粗分类模型;2)构建前景‑背景词典,通过结合FHOG特征和CN特征设计KNN算法的相似度函数,从而完成手势检测的细分类;3)通过手势检测的粗分类模型和手势检测的细分类得到手势检测模型,使用手势检测模型检测目标,得到目标手势的检测框;4)使用设计好的目标尺度估计器,估计最适的目标手势的矩形框;5)设计置信度函数,通过比较当前帧和上一帧跟踪的结果的相似度来确定当前跟踪结果是否可信实现手势跟踪。本发明算法复杂度低,跟踪精度高,鲁棒性强,适合实时的应用场合。

Description

一种融合SLIC算法的KCF长期手势跟踪方法
技术领域
本发明涉及手势识别技术,更具体的涉及一种融合SLIC算法的KCF长期手势跟踪方法。
背景技术
手势识别技术是一直是一个研究的热点,而手势跟踪是手势识别技术的一个重要部分。手势跟踪一般分类两类,一是短期跟踪,即是只考虑一段较短时间内目标的移动跟踪情况,如KCF、DSST、MOSSE等算法;二是长期跟踪,即是能够在很长的一段时间内都能较好的跟踪目标。
KCF目标跟踪算法是一种鉴别式的相关滤波算法,这类方法一般都是在追踪过程中训练一个目标检测器,使用目标检测器去检测下一帧预测位置是否是目标,然后再使用新检测结果去更新训练集进而更新目标检测器。KFC目标跟踪算法使用目标周围区域的循环矩阵采集正负样本,利用脊回归训练目标检测器,并成功的利用循环矩阵在傅里叶空间可对角化性质将矩阵的运算转化为向量的Hadamad积,即元素点乘,大大降低了运算量,提高了运算速度。KFC目标跟踪算法对于非线性的情况,他将线性空间的脊回归通过和函数映射到非线性空间,在非线性空间中求解一个对偶问题和某些常见的约束,同样利用了循环矩阵傅里叶空间对角化性质简化计算。
KCF算法在一定程度上是一种较优的实时算法,但是它依然存在以下几个问题:
1、KCF算法依赖循环矩阵和其初始化矩阵不能自适应改变,因而,KCF算法对于多尺度目标跟踪效果并不是很理想;
2、KCF算法对于高速运动目标和低帧率中的目标的跟踪能力有所欠缺,这个原因是由于相邻帧间目标位移过大,超出了KCF算法的搜索范围;
3、KCF算法在目标被遮挡若干帧后,难以继续跟踪目标。
发明内容
针对上述技术问题,本发明的目的在于提供一种融合SLIC算法的KCF长期手势跟踪方法。
为实现上述目的,本发明采用的技术方案包括:
一种融合SLIC算法的KCF长期手势跟踪方法,包括以下步骤:
1)构建手势训练数据集,通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型,得到手势检测的粗分类模型;
2)从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,通过结合FHOG特征和CN特征设计KNN算法的相似度函数,从而完成手势检测的细分类;
3)通过所述手势检测的粗分类模型和手势检测的细分类得到手势检测模型,使用手势检测模型检测目标,得到目标手势的检测框;使用目标手势的检测框初始化KCF滤波器,然后使用KCF滤波器估计下一帧的目标手势,所述KCF滤波器采用FHOG特征和CN特征作为输入;
4)使用设计好的目标尺度估计器,估计最适的目标手势的矩形框,目标尺度估计器采用FHOG特征和CN特征作为输入;
5)结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数,通过比较当前帧和上一帧跟踪的结果的相似度来确定当前跟踪结果是否可信,若置信度大于阈值,则采用当前跟踪结果,识别下一帧,重复步骤3)至步骤5);若置信度小于阈值,则放弃当前跟踪结果,使用手势检测模型检测当前帧,将检测结果作为当前跟踪结果,并重新初始化KCF***,重复步骤3)至步骤5),最后使用当前帧识别结果,更新所述前景-背景词典。
与现有技术相比,本发明具有以下优点:
1、结合SLIC算法,生成超像素块,并在超像素块的基础上提取特征并使用svm粗分,再通过前景-背景词典下的KNN进行细分,能够实现多尺度的检测;
2、通过结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度,设计出置信度函数,通过比对当前帧跟踪结果和上一帧跟踪结果的相似度,判断当前结果是否可信,从而避免跟踪目标的丢失;
3、超像素块提取HOG特征和颜色统计特征,前者对光照、尺度等具备不变性,后者对非刚性形变、旋转和快速运动时具备不变性,二者互补,特征具有更好的鲁棒性;
4、KCF位置估计器和尺度估计器采用FHOG+CN特征,对手势具有更好的鲁棒性,其次,采用多尺度估计器,能够很好地适应目标尺度的变化。
附图说明
图1示出了本发明实施例的流程示意图。
图2示出了本发明实施例的KNN-前景背景词典算法的流程示意图。
图3示出了本发明实施例的前景-背景词典更新算法流程图。
具体实施方式
下面结合附图对本发明做进一步说明:
如图1所示,一种融合SLIC算法的KCF长期手势跟踪方法,包括以下步骤:
步骤一:构建手势训练数据集,通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型,得到手势检测的粗分类模型。
具体而言,SLIC算法是一种超像素生成算法,它是一种基于聚类方式的学习算法,它的具体步骤如下:
1、初始化种子点(聚类中心):按照设定的超像素个数,在图像内均匀的分配种子点。假设图片总共有N个像素点,预分割为K个相同尺寸的超像素,那么每个超像素的大小为N/K,则相邻种子点的距离(步长)近似为S=sqrt(N/K),sqrt(.)表示求解平方根;
2、在种子点的n*n邻域内重新选择种子点(一般取n=3)。具体方法为:计算该邻域内所有像素点的梯度值,将种子点移到该邻域内梯度最小的地方;
3、在每个种子点周围的邻域内为每个像素点分配类标签(即属于哪个聚类中心)。和标准的k-means在整张图中搜索不同,SLIC的搜索范围限制为2S*2S,可以加速算法收敛,期望的超像素尺寸为S*S,但是搜索的范围是2S*2S;
4、距离度量。包括颜色距离和空间距离。对于每个搜索到的像素点,分别计算它和该种子点的距离。距离计算方法如下:
其中,dc代表颜色距离,ds代表空间距离,Ns是类内最大空间距离,定义为Ns=S=sqrt(N/K),适用于每个聚类。最大的颜色距离Nc既随图片不同而不同,也随聚类不同而不同,所以我们取一个固定常数m(取值范围[1,40],一般取10)代替。最终的距离度量D'如下:
由于每个像素点都会被多个种子点搜索到,所以每个像素点都会有一个与周围种子点的距离,取最小值对应的种子点作为该像素点的聚类中心;
5、迭代优化。理论上上述步骤不断迭代直到误差收敛(可以理解为每个像素点聚类中心不再发生变化为止),实践发现10次迭代对绝大部分图片都可以得到较理想效果,所以一般迭代次数取10;
6、增强连通性。新建一张标记表,表内元素均为-1,按照“Z”型走向(从左到右,从上到下顺序)将不连续的超像素、尺寸过小超像素重新分配给邻近的超像素,遍历过的像素点分配给相应的标签,直到所有点遍历完毕为止。
具体而言,通过SLIC算法得到待检测图片的超像素块,假设当前待测图片为第t帧,s(r,t)为第t帧的第r个超像素,Tt={Xt,Yt,Wt,Ht}为第t帧图像中的手势目标框,{Xt,Yt}为手势目标中心坐标,{Wt,Ht}为手势目标的长宽。将与目标框重合的超像素标记为前景,其余情况标记背景。第r个超像素的标签可以表示为:
在得到超像素后,并根据上式标注超像素块的标签,提取每个超像素块的HOG特征和颜色统计特征:
由于不同超像素块的像素点的数量不一定是一样的,假设第帧帧第r个超像素块s(r,t)的像素点数量为nums(r,t),取HOG特征的统计量bin为18,一个超像素块视为一个单元cell,计算cell内各个像素的梯度,统计cell内像素的梯度落在各个bin中的数量,那么一个超像素块得到的HOG特征为18维的向量VecHs(r,t),对HOG特征做如下归一化:
N_VecHs(r,t)=VecHs(r,t)/||VecHs(r,t)||/nums(r,t)
提取HOG特征前,是使用gamma算法将图像进行光校正,并将图像灰度化。
超像素cell内的图像梯度计算如下:
其中Gx为水平方向的梯度,而Gy为垂直方向的梯度,G(x,y)为cell的梯度,为其相角;
对于颜色统计特征,保持图像为RGB模式,RGB图像的r、g、b分量可以按规律划分为64份,在图像中r、g、b的取值均为(0,255),因而:
其中,为向下取整,而rdiv、gdiv和bdiv分别为r、g、b分量分块取值;
建立统计数组count[64],对r、g、b划分的64份的区间进行统计,对应索引为:
index=rdiv*4*4+gdiv*4+bdiv
=>count[index];
这样,通过统计颜色数量,可以得到一个64维的向量VecCs(r,t),对其进行如下归一化:
N_VecCs(r,t)=VecCs(r,t)/||VecCs(r,t)||/nums(r,t)
然后,将HOG特征和颜色统计特征串联得最后的特征:
Vecs(r,t)=[N_VecHs(r,t),N_VecCs(r,t)]
最后,将所述超像素最后的特征和标签组成svm分类器的训练样本集dataSet={Vecs(r,t),l(r,t)},将所述样本集送入svm分类器,训练得到svm分类器的参数模型,svm分类器采用高斯核。
其中,svm分类器具体如下:
对于超平面:
其中,为权重,b为偏置,φ(·)为非线性函数,x为特征输入;
求解下面约束问题:
其中,y为类别标签,N为样本个数;
采用拉格朗日乘子法求得:
其中,为拉格朗日乘子。
超平面可以变为:
其中K(xi,x)=<φ(xi)·φ(x)>为核函数;
其中通过以下对偶问题求解:
s.t.αi≥0,i=1,...,N
上述问题可以通过SMO算法求解。
步骤二:从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,通过结合FHOG特征和CN特征设计KNN算法的相似度函数,从而完成手势检测的细分类。
具体而言,对待测图片进行gamma校正和灰度化后,FHOG特征提取步骤如下:
1、提取9维度的HOG特征,以cell为单位,例如将cell定义为4*4个像素,采用9个bin的直方图来统计这4*4个像素;
2、归一化截断,对上面得到的cell向量做归一化截断。已知C(i,j)为第(i,j)个cell的9维特征向量,与其相邻的特征向量为:
定义Nβ,γ为:
Nβ,γ=(||C(i,j)||2+||C(i+β,j)||2+||C(i+β,j+γ)||2+||C(i,j+γ)||2)
则4*9维特征向量H(i,j)为:
3、PCA降维,对上述得到4*9维度特征向量H(i,j)按行求和,得到一个9维的特征向量,按列求和,得到一个4维的特征向量,拼接成一个13维的特征向量;
4、提取18维的HOG特征,以cell为单位,可以得到一个18维的HOG特征,然后对其进行归一化截断,得到4*18维度的特征向量,此时对4*18维度特征向量按行求和,得到一个18维特征向量;
5、串联拼接18维特征向量和13维特征向量,可以得到一个31维FHOG特征向量。
具体而言,对待测图片提取CN特征时,CN特征是将颜色映射到一个10维的特征向量空间中,其提取步骤如下:
1、设待测图像的大小为width×height×3,将RGB图像的r、g、b分别划分为32份,也就是:
2、在一个设计好的(32*32*32)*10维度的特征映射表中,根据下面索引,将图像中每个rgb像素映射为一个10维的特征向量,最终得到的向量维度为width×height×10;
index=rdiv*32*32+gdiv*32+bdiv
3、将width×height×10向量展开为(width×height×10)×1维的特征向量。
进一步的,串联组合FHOG特征和CN特征,在构建好的前景-背景词典中使用KNN算法。
具体而言,KNN算法步骤如下,流程图如图2所示:
1、构建的前景背景词典中前景数据量和背景数据量相等,在本方法中,只将类别分类前景和背景两类,待测样本与两类数据计算距离,KNN的距离函数采用欧式距离;
2、将待测样本与前景和背景两类距离按递增关系进行排序;
3、选取距离最小的K个点;
4、确定前K个点所在类别的出现频率;
5、返回前K个点中出现频率最高的类别作为待测样本的预测分类。
步骤三:通过所述手势检测的粗分类模型和手势检测的细分类可以得到手势检测模型,使用手势模型检测目标,得到目标手势的检测框。使用目标手势的检测框初始化KCF滤波器,然后使用KCF滤波器估计下一帧的目标手势,kCF滤波器采用FHOG特征和CN特征。
具体而言,KFC滤波器是一个求解脊回归函数的过程:
其中,其步骤如下:λ为惩罚因子,α为权重参数,y为回归值
1、训练过程求解参数α的傅里叶变换fft(α):
fft(α)=fft(y)./(fft(Kxx)+λ));
2、检测过程中求解检测响应response:
response=ifft(fft(α).*fft(Kxz));
3、求解核函数的Kxx'
Kxx'=φ(ifft(fft(x).*fft(x')))T
其中,fft(·)为傅里叶变换,ifft(·)为逆傅里叶变换,φ(·)为非线性函数,K为核函数;
步骤四:使用设计好的目标尺度估计器,估计最适的目标手势的矩形框,目标尺度估计器采用FHOG特征和CN特征作为输入。
具体而言,目标尺度估计器采用一维的KCF滤波器,是求解下面的最优滤波器的过程:
其中,l∈{1,2,...,d}为在前一帧图片的手势目标中心附近按照不同的尺度提取d种的图像块的标记,g为根据每个图像块距离目标中心位置的远近赋予的一个高斯响应函数,h为设计的尺度估计器,f为对应的图像特征。
设h和f的频率响应为H和G,则上面可以求解得到尺寸估计器为:
其中,F为图像特征f的频率响应,而为其共轭,H为尺度估计器h的频率响应,/>而为其共轭,λ为一惩罚因子,d为提取的图像块数量,而l∈{1,2,...,d}。
根据上式,可以得到以下两个过程:
1、尺度估计器的预测过程,以步骤三中得到的位置估计为中心,在第t帧图片中,按照不同的尺度提取33种的图像块,提取他们的FHOG特征和CN特征,作为尺度估计器的输入:
其中Zt为第t帧图片中提取的33中图像块的FHOG特征和CN特征,A和B为两个待定参数,可以由下面更新获得,而表示共轭。
2、尺度估计器的更新过程,在当前帧获得预测目标后,在当前第t帧的图片的手势目标中心附近按照不同的尺度提取33种的图像块,提取他们的FHOG特征和CN特征,作为尺度估计器的输入,以下面的过程更新尺度估计器参数;
其中,η为参数调节因子。
步骤五:结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数,通过比较当前帧和上一帧跟踪的结果的相似度来确定当前跟踪结果是否可信,若置信度大于阈值,则采用当前跟踪结果,识别下一帧,重复步骤三至步骤五;若置信度小于阈值,则放弃当前跟踪结果,使用手势检测器检测当前帧,检测结果作为当前跟踪结果,并重新初始化KCF***,重复步骤三至步骤五,最后按照一定随机函数,丢弃部分前景-背景词典的数据,提取当前帧的前景和背景数据作为补充。
具体而言,对于感知哈希算法,其步骤如下:
1、使用gamma校正算法,校正两张待比较图片;
2、将两张带比较图片插值或采样重置大小为16*16;
3、将两张重置大小后的图片进行灰度化处理;
4、将两张16*16的图片按行展开成256维的向量vecHash_src和vecHash_dst,并计算每个向量的平均像素vecHash_src_avg和vecHash_dst_avg:
5、比较向量vecHash_src的元素值与vecHash_src_avg的大小和比较向量vecHash_dst的元素值与vecHash_dst_avg的大小,对图像进行编码,得到vecHash_src_code和vecHash_dst_code:
vecHash_src_codei=vecHash_srci≥vecHash_src_avg?1:0
vecHash_dst_codei=vecHash_dsti≥vecHash_dst_avg?1:0;
6、计算编码的相似度,逐个比较vecHash_src_code和vecHash_dst_code中元素是否相同,相同的个数记为similarNum,则感知哈希算法的相似度由下式给出:
similarPercent=similarNum/256
具体而言,对于给定两张图片的FHOG特征和颜色统计特征向量featureVec1和featureVec2,两张图片余弦相似度,其计算如下:
cosSimilar=featureVec1*featureVec2/(||featureVec1||*||featureVec2||)
FHOG特征的提取和颜色统计特征的提取与步骤一中描述的颜色统计特征和步骤二中描述的FHOG特征提取过程相同。
具体而言,以下面的方式结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征来计算置信度:
设感知哈希算法得到的相似度为hashSimilar,FHOG特征得到的余弦相似度为fhogCosSimilar,颜色统计特征得到的相似度为colorCosSimilar;
按照一定加权计算两张图片的相似度:
similar=α1×hashSimilar+α2×fhogCosSimilar+α3×colorCosSimilar。
具体而言,对于前景-背景词典数据的更新,其步骤如下,具体流程如图3所示:
1、前景-背景词典存储的是手势目标和背景图片的FHOG和CN特征向量,两类的数量相等,假设前景-背景词典的数量为num_data,设定一定的数量阈值num_threshold,若num_data<num_threshold,则使用跟踪或者检测的结果从当前帧中的目标手势图片裁剪出来,重置大小为256*256,提取其FHOG和CN特征,并存入前景数据集中,相同的,使用识别结果般大小的提取框,截取目标手势外的背景图片,重置大小为256*256,并提取FHOG和CN特征,存入背景数据集中;若num_data≥num_threshold,则通过下面的2进行更新;
2、前景-背景词典中存储的数据是按一定序号排列的,使用随机函数,按照1/num_data的概率随机丢弃前景和背景各一条记录,然后再以num_data<num_threshold时的方式补充数据。
本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (1)

1.一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,包括步骤:
1)构建手势训练数据集,通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型,得到手势检测的粗分类模型;
2)从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,通过结合FHOG特征和CN特征设计KNN算法的相似度函数,从而完成手势检测的细分类;
3)通过所述手势检测的粗分类模型和手势检测的细分类得到手势检测模型,使用手势检测模型检测目标,得到目标手势的检测框;使用目标手势的检测框初始化KCF滤波器,然后使用KCF滤波器估计下一帧的目标手势,所述KCF滤波器采用FHOG特征和CN特征作为输入;
4)使用设计好的目标尺度估计器,估计最适的目标手势的矩形框,目标尺度估计器采用FHOG特征和CN特征作为输入;
5)结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数,通过比较当前帧和上一帧跟踪的结果的相似度来确定当前跟踪结果是否可信,若置信度大于阈值,则采用当前跟踪结果,识别下一帧,重复步骤3)至步骤5);若置信度小于阈值,则放弃当前跟踪结果,使用手势检测模型检测当前帧,将检测结果作为当前跟踪结果,并重新初始化KCF***,重复步骤3)至步骤5),最后使用当前帧识别结果,更新所述前景-背景词典;
在步骤1)中,所述通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型具体包括:
步骤1.1)通过SLIC算法得到待检测图片的超像素块,假设当前待测图片为第t帧,s(r,t)为第t帧的第r个超像素,Tt={Xt,Yt,Wt,Ht}为第t帧图像中的手势目标框,{Xt,Yt}为手势目标中心,{Wt,Ht}为手势目标的长宽;将与目标框重合的超像素标记为前景,其余情况标记背景;第r个超像素的标签可以表示为:
步骤1.2)在得到超像素后,并根据所述超像素的标签,提取每个超像素块的HOG特征N_VecHs(r,t)和颜色统计特征N_VecCs(r,t)
因不同超像素块的像素点的数量可能不同,假设第帧帧第r个超像素块s(r,t)的像素点数量为nums(r,t),取HOG特征的统计量bin为18,将一个超像素块视为一个单元cell,计算cell内各个像素的梯度:
其中,Gx为水平方向的梯度,而Gy为垂直方向的梯度,G(x,y)为cell的梯度,为其相角;
统计cell内像素的梯度落在各个bin中的数量,那么一个超像素块得到的HOG特征为18维的向量VecHs(r,t),对HOG特征做如下归一化处理:
N_VecHs(r,t)=VecHs(r,t)/||VecHs(r,t)||/nums(r,t)
提取HOG特征前,使用gamma算法将图像进行光校正,并将图像灰度化;
对于颜色统计特征,保持图像为RGB模式,RGB图像的r、g、b分量按规律划分为64份,在图像中r、g、b的取值均为(0,255),因而:
其中,为向下取整,而rdiv、gdiv和bdiv分别为r、g、b分量分块取值;
建立统计数组count[64],对r、g、b划分的64份的区间进行统计,对应索引为:
通过统计颜色数量,得到一个64维的向量VecCs(r,t),对其进行如下归一化处理:
N_VecCs(r,t)=VecCs(r,t)/||VecCs(r,t)||/nums(r,t)
步骤1.3)将HOG特征和颜色统计特征串联得到最后的特征:
Vecs(r,t)=[N_VecHs(r,t),N_VecCs(r,t)];
步骤1.4)将所述超像素最后的特征和标签组成svm分类器的训练样本集dataSet={Vecs(r,t),l(r,t)},将所述样本集送入svm分类器,训练得到svm分类器的参数模型;
所述步骤2)的具体过程如下:
步骤2.1)从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,构建的前景-背景词典中前景数据量和背景数据量相等,只将类别分成前景和背景两类,将待测样本与两类数据计算距离,KNN算法的距离函数采用欧式距离:
公式中:xt为当前x特征向量的第t维度特征,yt为y特征向量的第t维度特征,n为特征向量的总维度;
步骤2.2)将待测样本与前景和背景两类距离按递增关系进行排序;
步骤2.3)选取距离最小的K个点,即前景-背景词典中最接近待测样本的K个元素;
步骤2.4)确定前K个元素所在类别的出现频率;
步骤2.5)返回前K个点中出现频率最高的类别作为待测样本的预测分类;
所述步骤4)具体过程如下:
目标尺度估计器采用一维的KCF滤波器,是求解下面的最优滤波器的过程:
其中,l∈{1,2,...,d}为在前一帧图片的手势目标中心附近按照不同的尺度提取d种的图像块的标记,g为根据每个图像块距离目标中心位置的远近赋予的一个高斯响应函数,h为设计的尺度估计器,f为对应的图像特征,λ为一惩罚因子;设h和f的频率响应为H和G,则上面可以求解得到尺度估计器为:
其中,F为图像特征f的频率响应,而为其共轭,H为尺度估计器h的频率响应,/>而为其共轭,λ为一惩罚因子,d为提取的图像块数量,而l∈{1,2,...,d};
所述步骤5)具体过程如下:
结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数;
步骤4.1)输入两张图片,通过感知哈希算法得到的相似度为hashSimilar,计算FHOG特征得到的余弦相似度为fhogCosSimilar,计算颜色统计特征得到的相似度为colorCosSimilar;
步骤4.2)按照一定加权计算两张图片的相似度:
similar=α1×hashSimilar+α2×fhogCosSimilar+α3×colorCosSimilar;
在步骤5)中,所述使用当前帧识别结果,更新前景-背景词典的具体过程如下:
步骤5.1)前景-背景词典存储的是手势目标和背景图片的FHOG和CN特征向量,两类的数量相等,假设前景-背景词典的数量为num_data,设定一定的数量阈值num_threshold;
步骤5.2)若num_data<num_threshold,则使用跟踪或者检测的结果从当前帧中的目标手势图片裁剪出来,重置大小为256*256,提取其FHOG和CN特征,并存入前景数据集中,相同的,使用识别结果般大小的提取框,截取目标手势外的背景图片,重置大小为256*256,并提取FHOG和CN特征,存入背景-数据集中;
步骤5.3)若num_data≥num_threshold,前景-背景词典中存储的数据是按一定序号排列的,使用随机函数,按照1/num_data的概率随机丢弃前景和背景各一条记录,然后再以步骤5.2)中num_data<num_threshold时的方式补充数据。
CN201910184848.7A 2019-03-12 2019-03-12 一种融合slic算法的kcf长期手势跟踪方法 Active CN110008844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910184848.7A CN110008844B (zh) 2019-03-12 2019-03-12 一种融合slic算法的kcf长期手势跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910184848.7A CN110008844B (zh) 2019-03-12 2019-03-12 一种融合slic算法的kcf长期手势跟踪方法

Publications (2)

Publication Number Publication Date
CN110008844A CN110008844A (zh) 2019-07-12
CN110008844B true CN110008844B (zh) 2023-07-21

Family

ID=67166900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910184848.7A Active CN110008844B (zh) 2019-03-12 2019-03-12 一种融合slic算法的kcf长期手势跟踪方法

Country Status (1)

Country Link
CN (1) CN110008844B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807473B (zh) * 2019-10-12 2023-01-03 浙江大华技术股份有限公司 目标检测方法、装置及计算机存储介质
CN111292355B (zh) * 2020-02-12 2023-06-16 江南大学 一种融合运动信息的核相关滤波多目标跟踪方法
CN112926693B (zh) * 2021-04-12 2024-05-24 辽宁工程技术大学 针对快速运动和运动模糊的核化相关滤波方法
CN112991394B (zh) * 2021-04-16 2024-01-19 北京京航计算通讯研究所 基于三次样条插值和马尔科夫链的kcf目标跟踪方法
CN113608618B (zh) * 2021-08-11 2022-07-29 兰州交通大学 一种手部区域跟踪方法及***
CN114821764A (zh) * 2022-01-25 2022-07-29 哈尔滨工程大学 一种基于kcf追踪检测的手势图像识别方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9613273B2 (en) * 2015-05-19 2017-04-04 Toyota Motor Engineering & Manufacturing North America, Inc. Apparatus and method for object tracking
CN105825502B (zh) * 2016-03-12 2018-06-15 浙江大学 一种基于显著性指导的词典学习的弱监督图像解析方法
CN106469316B (zh) * 2016-09-07 2020-02-21 深圳大学 基于超像素级信息融合的高光谱图像的分类方法及***
CN107123130B (zh) * 2017-03-06 2019-12-10 华南理工大学 一种基于超像素和混合哈希的核相关滤波目标跟踪方法
CN107527054B (zh) * 2017-09-19 2019-12-24 西安电子科技大学 基于多视角融合的前景自动提取方法
CN108876818A (zh) * 2018-06-05 2018-11-23 国网辽宁省电力有限公司信息通信分公司 一种基于似物性和相关滤波的目标跟踪方法
CN109034193A (zh) * 2018-06-20 2018-12-18 上海理工大学 多特征融合与尺度自适应核相关滤波跟踪方法

Also Published As

Publication number Publication date
CN110008844A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110008844B (zh) 一种融合slic算法的kcf长期手势跟踪方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
Lempitsky et al. Learning to count objects in images
CN107368807B (zh) 一种基于视觉词袋模型的监控视频车型分类方法
JP5565190B2 (ja) 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置
Zhang et al. Road recognition from remote sensing imagery using incremental learning
US9105109B2 (en) Method for superpixel life cycle management
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
WO2012111426A1 (en) Method for representing a shape of an object represented by a set of points
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN110866896A (zh) 基于k-means与水平集超像素分割的图像显著性目标检测方法
CN113327272B (zh) 一种基于相关滤波的鲁棒性长时跟踪方法
CN109241816B (zh) 一种基于标签优化的图像再识别***及损失函数确定方法
WO2019007253A1 (zh) 图像识别方法、装置及设备、可读介质
CN105550641B (zh) 基于多尺度线性差分纹理特征的年龄估计方法和***
CN108734200B (zh) 基于bing特征的人体目标视觉检测方法和装置
CN108428220A (zh) 静止轨道卫星序列遥感影像海岛礁区域自动几何校正方法
CN111583279A (zh) 一种基于pcba的超像素图像分割方法
CN110619336B (zh) 基于图像处理的货品识别算法
CN106682679A (zh) 一种基于水平集超像素和贝叶斯框架的显著性检测方法
CN112085765A (zh) 结合粒子滤波及度量学习的视频目标跟踪方法
CN113888586A (zh) 一种基于相关滤波的目标跟踪方法及装置
CN110827327B (zh) 一种基于融合的长期目标跟踪方法
CN114139631B (zh) 一种面向多目标训练对象可选择的灰盒的对抗样本生成方法
CN108921872B (zh) 一种适用于长程跟踪的鲁棒性视觉目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant