CN102810161B - 一种用于拥挤场景下的多个行人检测方法 - Google Patents
一种用于拥挤场景下的多个行人检测方法 Download PDFInfo
- Publication number
- CN102810161B CN102810161B CN201210187843.8A CN201210187843A CN102810161B CN 102810161 B CN102810161 B CN 102810161B CN 201210187843 A CN201210187843 A CN 201210187843A CN 102810161 B CN102810161 B CN 102810161B
- Authority
- CN
- China
- Prior art keywords
- model
- msub
- pedestrian
- mrow
- subclass
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000012706 support-vector machine Methods 0.000 claims abstract description 11
- 230000008859 change Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 8
- 238000007418 data mining Methods 0.000 claims description 4
- 230000000903 blocking effect Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 241001125929 Trisopterus luscus Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种用于拥挤场景下的多个行人检测方法,其包括如下步骤:a、输入含有多个训练样本图像的训练集,将训练样本图像中行人分成若干子类,每个子类对应一种行人变化;b、建立训练集行人表象特征模型,c、建立训练集上的行人空间相互关系模型;d、建立概率模型来描述拥挤场景下的多个行人,并将所述概率模型转换为能量目标函数;e、利用基于隐变量排序SVM的参数学习方法寻找上述能量目标函数的最优参数,以得到确定的能量目标函数;f、输入待检测的拥挤场景行人图像,利用基于扩展移动的模型推断方法及上述确定的能量目标函数检测得到待检测拥挤场景行人图像的结果。本发明提高检测精度,适应范围广。
Description
技术领域
本发明涉及一种检测方法,尤其是一种用于拥挤场景下的多个行人检测方法,属于图像处理与模式识别的技术领域。
背景技术
真实场景中的行人检测问题在诸多计算机视觉应用中占有重要的地位,例如视频监控和辅助驾驶***等,同时鲁棒的行人检测也是提高其它智能视频分析技术的先决条件之一。
传统的行人检测方法大体可分为两类:第一类是基于模板匹配的方法,首先训练一个分类器,然后在待检测的图像中使用不同尺度的搜索窗口对整个图像进行滑框检测,判断滑框内是否包含了一个行人;第二类采用霍夫投票方法,使用隐形状模型(Implicit Shape Model,ISM),利用表象特征以及与目标中心的空间关系来训练一个视觉字典,将图像通过霍夫变换获取其在霍夫空间上的分布,并在霍夫空间上进行投票,从而对行人进行检测。以上两种传统方法在普通场景下表现良好,但是在拥挤场景下,由于人与人之间的严重遮挡和复杂的空间关系,不能达到令人满意的效果。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种用于拥挤场景下的多个行人检测方法,其提高检测精度,适应范围广。
按照本发明提供的技术方案,一种用于拥挤场景下的多个行人检测方法,所述多个行人检测方法包括如下步骤:
a、输入含有多个训练样本图像的训练集,自动将训练样本图像中行人分成若干子类,每个子类对应一种行人变化;
b、基于分块模型,每一个分块有相应的表象分数,并对每一子类设置对应的权重向量,以建立训练集上的行人表象特征模型,
c、利用二次核函数表征图像的行人之间的空间关系模型;
d、根据上述行人表象特征模型及行人空间相互关系模型,建立概率模型来描述拥挤场景下的多个行人,并将所述概率模型转换为能量目标函数;
e、利用基于隐变量排序SVM的参数学习方法在训练集上寻找上述能量目标函数的最优参数,以得到确定的能量目标函数;
f、输入待检测的行人图像,利用基于扩展移动的模型推断方法求解上述确定的能量目标函数,得到待检测拥挤场景中行人的检测结果。
所述步骤d中,转换得到的能量目标函数为
其中,N为检测框个数,L={l1,...,lN},bi指中心为(xi,yi),大小为si的第i个检测框;为位于检测框bi的图像区域,li为第i个检测框的子类标签;是的分块分数向量,为的转置,是表象特征模型中第li个子类标签的参数向量,为的转置,表示第i个子类标签li和第j个子类标签lj之间的相互关系模型参数,f(bi,bj)用来检测框bi和检测框bj之间的空间相互关系。
所述分块模型使用的特征包括HOG特征、SIFT特征或LBP特征。
本发明的优点:利用隐变量排序SVM从弱标记的行人数据训练集中训练出一个包含一些子类的混合模型,每一个行人都被假定存在于其中的一个特殊的子类中并由子模型描述;其中,行人表象特征模型基于分块模型,并且对于每一个分块都有相应的分数,同时每一个子类都有个权重向量来表明不同分块的重要性,用来作为第二级的特征描述;行人空间相互关系模型用于描述不同行人之间的空间关系,在本发明中,利用一个二次方程的内核来建立此模型;使用类似于图割当中的扩展移动方法的估计算法,来近似推断问题的最优解,提高检测精度,适应范围广。
附图说明
图1为本发明的检测流程图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
如图1所示:本发明用于拥挤场景下的多个行人检测方法包括如下步骤:
a、输入含有多个训练样本图像的训练集合,利用K均值聚类将训练样本图像中行人分成若干子类,每个子类对应一种行人变化;
b、利用分块模型表征行人的表象,使用可形变的部件模型讲行人自动的分块,每一个分块有相应的分数,并对每一子类设置对应的权重向量,以建立行人表象特征模型,
c、利用二次核函数建立训练样本集上的行人空间相互关系模型;
d、根据上述行人表象特征模型及行人空间相互关系模型,建立概率模型来描述拥挤场景下的多个行人,并将所述概率模型转换为能量目标函数;
e、利用基于隐变量排序支持向量机的参数学习方法寻找上述能量目标函数的最优参数,以得到确定的能量目标函数;
f、输入待检测的拥挤场景行人图像,利用基于扩展移动的模型推断方法及上述确定的能量目标函数检测得到待检测拥挤场景行人图像的结果。
下面介绍如何具体建立能量目标函数,确定能量目标函数以及对拥挤场景行人图像进行检测。具体为:
对于行人检测问题,传统方法为对于一个给定待检测图像I和一种搜索策略,在其中找到N个可能的检测框B={b1,b2,...,bN},其中bi指第i个检测框,且其中心为(xi,yi),大小为si。而检测框bi的标签写为ti,其中ti=1表示检测框bi对应一个行人否则ti=0。将模型设定为Fθ,其中参数θ=(θa,θs),其中θa和θs分别用于建立行人表象特征模型和行人空间相互关系模型。最后得到的行人检测结果就是对于B中的每一个bi都进行一个相应的预测T={t1,t2,...,tN}。则行人检测任务就等效为寻找一个预测T使得概率P(T|I,θ)最大。根据贝叶斯理论,可以得到:
其中P(I|T,θ)描述表象特征模型,并且当给定一个图片的估计T和模型Fθ之后,给出其似然;P(T|θ)是先验部分,这里使用先验部分在估计T中对不同行人之间的空间相互关系进行建模。
在本发明中实施例中提出用行人表象特征模型和行人空间相互关系模型来建立一个统一的概率模型。具体为:
在行人表象特征模型中,表象特征的似然被认为是独立同分布的,所以似然部分P(I|T,θ)可以被写为:
其中为位于bi的图像区域,方程的右边成立是因为仅与标签ti有关,与标签tj(j≠i)无关。
对于行人空间相互关系模型,出于简单考虑,我们将成对的相互关系作为基本的元素,其它复杂的关系网络都是直接由这种成对的简单关系组成建立的。这种成对的相互关系p(ti,tj|θs)指的是检测框bi的标签ti并且检测框bj的标签tj的联合概率,其中这个概率分布的参数为θs。对一个有N个框的检测预测T,其空间相互关系模型可以描述为:
将公式(2)和公式(3)代入公式(1)中并取对数,则最大后验估计等效于下面这个最大能量问题:
其中 且
很明显,传统的基于滑窗遍历检测的方法就是设置同时把作为表象特征的分数,定义成任意一个小于检测阈值的常数。由于基于滑窗遍历的检测方法经常会在同一个位置检测出许多互相交叠的检测结果框,所以经常使用非极大值抑制(non-maxima suppression,NMS)作为后处理方法,这种方法可以用是上面这个式子的一种特殊情况来说明,即当bi,bj互相交叠的框,交叠部分超过一个设定的阈值,并且ti=tj=1的时候设置 否则
下面将给出之前定义的和的具体表现形式,同时将两者结合为一个混合模型,从而简化其复杂度。
首先简单介绍一下混合模型以及其中的自动分成子类的动机。基于效率的考虑,本发明提出用一种简单的线性模型描述拥挤场景下的行人,但是在很多情况下线性模型本身不足以描述行人的复杂的表象特征和空间相互关系。为了更好地描述这些复杂场景,本发明提出一个由K个子类组成的混合模型,其中每一个行人都由其子类来表示。对于检测框bi的标签从ti∈{0,1}扩展为li∈{0,1,...,K},其中li=0表示背景,li=k表示第k个子类,Κ表示扩展后的第K个子类。由于实际应用中,只有标签ti是可以给定的,所以将子类标签li作为一个隐变量。至于在训练阶段如何估计li将在之后的部分讲到,这里假设训练集中的子类的标签已经被给定,这样我们就可以先使用它们去学习子类的模型。在使用混合模型之后,我们就可以将检测任务转换为找到一个最优估计L={l1,...,lN},使得下面这个能量函数E(L)获得最大值:
下面具体介绍行人表象特征模型和行人空间相互关系模型。
首先介绍行人表象特征模型:基于表象特征的行人检测经常是使用一些底层视觉的描述子,例如HOG(梯度直方图特征),SIFT(尺度无关特征),LBP(局部二元模式)等,然后将这些特征放入一个分类器中训练出一个模型。当行人之间有严重遮挡的时候,这种方法就不足够鲁棒。为了解决这种遮挡问题,本发明使用了两层的特征描述方法。第一部分是可形变的部件模型分块模型,它是用来一个可变形的模板去表示部分和整体的表象特征,每一部分的检测结果汇总为最终的分数,这种方法对一般的行人检测任务很合适,但是当一个行人只有部分可见的时候会存在很多问题,因为行人被遮挡的部分分数会很低并最终导致最终分数也会比较低,造成漏检。为了克服这种缺点,本发明又使用了第二层描述,即每个部件的分数作为表象的第二级描述,表象特征参数θa则用来表示每个组件的权重。例如当一个子类中行人只有上半身的时候,那么相应的上半身的权重也会很大,而其它部分权重很降低。利用混合模型和对每一个子类的分块权重,本发明可以在不同的存在遮挡的情况下对行人进行建模。这种对行人的描述方式的另外一个优势就是它的向量的维数要比那些底层的描述子低,从而参数的学习时候更有效率。
对于一个给定的子类标签li,我们可以将行人表象特征模型简化为下面这个线性的方程:
其中是的分块分数向量,是表象特征模型中第li个子类标签的参数向量,同时在本发明中它表示不同分块的权重。背景被看做特殊的一类,即被直接设置为0向量。
行人空间相互关系模型:相互关系模型是用来描述不同行人之间的空间共生关系的。给定一个子类标签li和子类标签lj,相互关系模型可以简化为如下的一个线性方程:
其中表示子类标签li和子类标签lj之间的相互关系模型参数,f(bi,bj)用来描述检测框bi和检测框bj之间的空间相互关系,f(bi,bj)应该足够灵活使得根据空间相互关系模型对那些错误的检测进行抑制,同时提高那些表象特征分数不高但却是正确的检测结果的分数。定义(xi,yi),(xj,yj)为检测框bi和检测框bj的中心,同时si和sj为bi和bj的范围大小,则定义:
f(bi,bj)=[1,dx,dy,ds,dx2,dy2,ds2]T (8)
其中1被用来作为一个偏差项,方程的左边为二次项核。dx,dy,ds分别表示xi-xj,yi-yj和si-sj。同表象特征模型一样,在模型的中涉及到背景的相互关系都设置为0。把公式(6)、公式(7)和公式(8)带入到公式(5)就可以得到能量目标函数的具体形式。
下面能量目标函数介绍优化过程。优化分为两个部分:对于模型的学习,需要利用弱标记数据对行人表象特征模型θa和行人空间相互关系模型θs进行最佳参数估计;对于模型的推断,需要最大化能量函数以找到最佳的估计。
对于一个实际图像检测***,首先需要根据训练样本来训练模型的参数;然后对于新输入的待检测图像,根据公式(5)中的目标函数及其训练出来的参数,最大化该目标函数,推断出最终的检测结果。但是由于训练参数的过程需要依赖推断算法,因此我们接下来,首先给出推断部分的扩展移动算法(Expansion Move algorithm),然后叙述本发明用于判别参数学习的隐变量排序支持向量机(Latent Rank-SVM)算法,以能够训练得到公式(5)中的模型参数。在训练得到公式(5)的模型参数后,再结合扩展移动算法对新输入的待检测图像进行多个行人检测,输出多个行人检测结果。
对于推断部分,给定一个图像I,则在图像中对行人的可能位置估计是指数级的。例如,我们可能会利用105个检测框对一个给定图像进行检测,最终得到的可能的估计位置是。由于不可能对每一个估计都去进行评估从而得到一个大概的结果,于是本发明改进图割算法中的扩展移动算法,我们给出了一种推断过程如算法1:
①、输入:图像I,模型Fθ,初始估计L={l1,l2,...,lN},初始能量值E(L)=0;
②、令其中L′是L的κ-扩展,κ∈[1,Ψ];
③、如果则并返回步骤②,否则输出L。
在上述算法中κ-扩展用于选择一个检测框bj(lj≠κ),设置其标签为κ且不改变其它检测框的标签;Ψ是扩展后的子类标签数量。在每一次循环中,都会有新的行人检测结果被加进来或者已经检测到的行人改变了它的子类标签。由于E(L)有上限且每一次循环当中都会增加,所以这个算法最终一定会结束,而不会陷入死循环。步骤②即为在每一次扩展运动中通过评估每一个可能的检测框从而得到最佳的估计。非极大值抑制算法(NMS)可以看作这个算法过程当中的一个特殊情况,因为非极大值抑制算法(NMS)也是在序列地选择新的行人,只不过一旦选定一个行人检测结果就不会对其再进行改变。但是在上述算法当中,对于每一个已经选定的检测框,其标签仍然可以被改变。
为了加速推断过程,设置表象纹理和相互关系中背景的类分数都为0。因为很多的bi都为背景,这样可以省下非常多的计算时间。另外一项加速办法是对于那些表象纹理分数很低的检测框一律不考虑在内,其分数的阈值的选定是根据probably approximately admissible(PAA)计算得到。
为了表示每一个检测框的可信度,给每一个检测框bi的定义一个分数为:
其中是和L除了设置其他都和L一样的检测结果,r(bi)用来衡量每个bi对于整体能量函数问题结果的贡献,模型中我们就把这个贡献大小当做检测框的置信度。
下面介绍参数学习过程。我们利用标定有行人框的正样本图像,和一部分不含有人的负样本组成的训练样本图像组成的训练集来得到优化模型的参数。模型中的参数包括三个部分:表象特征模型参数θa={θai|i=1,2,...,K},空间相互关系模型参数θs={θsij|i,j=1,2,...,K}和对于一个标定好的行人训练数据集{I1,I2,...,IM}的隐变量类型的子类标签Lm={li|i=1,...,Nm}。不同于其它的普通问题,在训练当中有两个需要注意的问题:(1)、需要训练的数据非常庞大;(2)、不能直接得到子类标签L,只能获取到二值化的标签TM。
为了将公式(5)代入线性方程,需要对特征描述中加入一些附加维度,分块分数向量被扩展为
其中为的第j个部分的分数,F是表象特征的长度,在本发明中也是分块的个数。原始的空间相互关系特征f(bi,bj)被扩展为:
这里使用D来表示原始空间相互关系特征的长度,则 将表象特征参数整合为一个向量同样空间特征参数整合为一个向量则公式(5)所示的能量目标函数改写为:
这里使用ω来表示Φ(I,L)表示特征分布假设已经知道子类标签L,至于根据二值化的标签TM对子类标签L的估计方法稍后就讲到。对于一个给定的训练集I以及其标定好的子类标签L,需要得到的目标就是寻找到ω使得E(L)=wTΦ(I,L)比任何其它估计的能量E(Hi)=wTΦ(I,Hi)更大。假设训练集中训练集合中训练图片的个数是M,则目标方程可以被定义为:
wTΦ(Im,Lm)-wTΦ(Im,Hmi)≥l(Lm,Hmi)-ξmi (15)
其中ωTω为正则化正则项,ξmi用来对错误的估计进行惩罚,C是惩罚因子,Im是训练集的第m个图像,Lm是训练集第m个图像的标签,Nm是第m个图像的所有可能的结果,Hmi是第m个图像的所有可能结果的第i个。l(Lm,Hmi)是衡量Lm和Hmi之间的损失函数。其中l(Lm,Hmi)=1表示有一个负样本而非正样本,否则l(Lm,Hmi)=0。
上述的这些优化问题是一个learning to rank(学习排列)问题,且可以转化成一个线性的SVM(支持向量机),因为我们可以将Δ(Im,Lm,Hmi)=Φ(Im,Lm)-Φ(Im,Hmi)作为正样本,而l(Lm,Hmi)=1将-Δ(Im,Lm,Hmi)作为负样本。这里真正面对的困难是由于Hmi是指数级的,所以有大量的数据需要处理。为了减小这些数据的规模,这里使用一种困难数据挖掘的方法来进行优化,细节如下所示:
①、输入:训练集合IM和标定好的子类标签LM。
②、对所有的图片,对LM使用随机标签操作获得新的负样本估计HM计算初始缓存集P={Δ(Im,Lm,Hm),m=1,...,M}
③、以ω为参数利用线性SVM训练模型Q,使用缓存集P为正样本,-P为负样本。
④、根据模型Q在缓存集P中找到一个简单的样本集A,然后将A从P中去除P:P=P\A
⑤、对于m∈[1,M],从m=1依次循环至m=M,依照算法1,根据模型Q计算新的估计H′m,然后当Δ(Im,Lm,H′m)为一个困难样本时,计算P=P∪Δ(Im,Lm,H′m)
⑥、如果不收敛,则重复步骤③
⑦、输出模型F以及其参数ω
在上述算法当中,只是用了数据集的一部分并保存在了缓存集P中。这里样本被分为困难样本和简单样本,如果Δ(Im,Lm,Hmi)>l(Lm,Hmi),则Δ(Im,Lm,Hm)为简单样本,否则为困难样本。如果所有的困难样本都被包含在了P当中,则运算结束。这个算法实际上就是在一个数量较少的困难样本上进行训练。
在实际应用当中,我们只能获取是否是行人的标签ti而非子类标签li,所以我们需要根据参数模型同时估计子类的隐变量。原始的优化问题扩展为以下问题:
wTΦ(Im,Lm)-wTΦ(Im,Hmi)≥l(Lm,Hmi)-ξmi (17)
对比公式(14),上面的方程多了隐变量li,为了能够根据参数模型同时学习隐变量,本发明是使用了一个类似于隐变量支持向量机的,叫做“坐标下降”的方法,其算法细节如下所示:
①、输入训练集IM和已经标定好的二值化标签TM,子类数量K(一般K定义为3)。
②、将训练集中的标定行人放入K个子类中,并产生初始的估计LM。
③、利用困难数据挖掘算法,图像数据集IM和估计LM训练一个Rank-SVM,得到一个模型F;
④、利用扩展移动算法,模型F在训练集中估计新的子类标签和标定好的行人,获得新的估计LM;
⑤、如果程序不收敛,则返回步骤③
⑥、输出模型F;和参数ω。
我们利用K均值的方法在初始的标定好的行人中产生一个初始的估计,然后通过困难数据挖掘,利用这个估计在Rank-SVM(排序支持向量机)中训练出一个模型F。模型训练好之后,在训练集中新的子类标签也会被估计出来从而更新这个模型。
Claims (2)
1.一种用于拥挤场景下的多个行人检测方法,其特征是,所述多个行人检测方法包括如下步骤:
(a)、输入含有多个训练样本图像的训练集,将训练集中的行人分成若干子类,每个子类对应一种行人变化;
对于检测框bi的标签从ti∈{0,1}扩展为li∈{0,1,…,K},其中li=0表示背景,li=k表示第k个子类,Κ表示扩展后的第K个子类,每一个行人都由其子类来表示;其中,只有标签ti是给定的,将子类标签li作为一个隐变量;
(b)、利用分块模型表征行人的表象,使用可形变的部件模型将行人自动的分块,每一个分块有相应的分数,并对每一子类设置对应的权重向量,以建立行人表象特征模型;
对于一个给定的子类标签li,将行人表象特征模型简化为下面这个线性的方程:
其中,是的分块分数向量,是表象特征模型中第li个子类标签的参数向量,同时表示不同分块的权重;背景被看做特殊的一类,即被直接设置为0向量;
(c)、利用二次核函数建立图像的行人空间相互关系模型;
给定一个子类标签li和子类标签lj,相互关系模型简化为如下的一个线性方程:
其中,表示子类标签li和子类标签lj之间的相互关系模型参数,f(bi,bj)用来描述检测框bi和检测框bj之间的空间相互关系,f(bi,bj)应该足够灵活使得根据空间相互关系模型对那些错误的检测进行抑制,同时提高那些表象特征分数不高但却是正确的检测结果的分数;定义(xi,yi),(xj,yj)为检测框bi和检测框bj的中心,同时si和sj为bi和bj的范围大小,则定义:
f(bi,bj)=[1,dx,dy,ds,dx2,dy2,ds2]T (8)
其中1被用来作为一个偏差项,方程的左边为二次项核;dx,dy,ds分别表示xi-xj,yi-yj和si-sj;同表象特征模型一样,涉及到背景的相互关系都设置为0;
(d)、根据上述行人表象特征模型及行人空间相互关系模型,建立概率模型来描述拥挤场景下的多个行人,并将所述概率模型转换为能量目标函数;
转换得到的能量目标函数为
其中,N为检测框个数,L={l1,…,lN},bi指中心为(xi,yi),大小为si的第i个检测框;为位于检测框bi的图像区域,li为第i个检测框的子类标签; 是的分块分数向量,为的转置,是表象特征模型中第li个子类标签的参数向量, 为的转置,表示第i个子类标签li和第j个子类标签lj之间的相互关系模型参数,f(bi,bj)用来检测框bi和检测框bj之间的空间相互关系;
(e)、利用基于隐变量排序支持向量机的参数学习方法寻找上述能量目标函数的最优参数,以得到确定的能量目标函数;
利用改进图割算法中的扩展移动算法,包括如下步骤:
①、输入:图像I,模型Fθ,初始估计L={l1,l2,…,lN},初始能量值E(L)=0;
②、令其中L′是L的κ-扩展,κ∈[1,Ψ];
③、如果则并返回步骤②,否则输出L;
在上述步骤中κ-扩展用于选择一个检测框bj(lj≠κ),设置其标签为κ且不改变其它检测框的标签;Ψ是扩展后的子类标签数量;在每一次循环中,都会有新的行人检测结果被加进来或者已经检测到的行人改变了它的子类标签;
为了表示每一个检测框的可信度,给每一个检测框bi的定义一个分数为:
其中是和L除了设置其他都和L一样的检测结果,r(bi)用来衡量每个bi对于整体能量函数问题结果的贡献,模型中我们就把这个贡献大小当做检测框的置信度;
利用标定有行人框的正样本图像,和一部分不含有人的负样本组成的训练样本图像组成的训练集来得到优化模型的参数,模型中的参数包括三个部分:表象特征模型参数θa={θai|i=1,2,…,K},空间相互关系模型参数θs={θsij|i,j=1,2,…,K}和对于一个标定好的行人训练数据集{I1,I2,…,IM}的隐变量类型的子类标签Lm={li|i=1,…,Nm};
为了将公式(5)代入线性方程,对特征描述中加入一些附加维度,分块分数向量被扩展为
其中为的第j个部分的分数,F是表象特征的长度,原始的空间相互关系特征f(bi,bj)被扩展为:
这里使用D来表示原始空间相互关系特征的长度,则 将表象特征参数整合为一个向量同样空间特征参数整合为一个向量则公式(5)所示的能量目标函数改写为:
这里使用ω来表示Φ(I,L)表示特征分布对于一个给定的训练集I以及其标定好的子类标签L,需要得到的目标就是寻找到ω使得E(L)=wTΦ(I,L)比任何其它估计的能量E(Hi)=wTΦ(I,Hi)更大,训练集中训练集合中训练图片的个数是M,则目标方程可以被定义为:
wTΦ(Im,Lm)-wTΦ(Im,Hmi)≥l(Lm,Hmi)-ξmi (15)
其中ωTω为正则化正则项,ξmi用来对错误的估计进行惩罚,C是惩罚因子,Im是训练集的第m个图像,Lm是训练集第m个图像的标签,Nm是第m个图像的所有可能的结果,Hmi是第m个图像的所有可能结果的第i个;l(Lm,Hmi)是衡量Lm和Hmi之间的损失函数,其中l(Lm,Hmi)=1表示有一个负样本而非正样本,否则l(Lm,Hmi)=0;
将Δ(Im,Lm,Hmi)=Φ(Im,Lm)-Φ(Im,Hmi)作为正样本,而l(Lm,Hmi)=1将-Δ(Im,Lm,Hmi)作为负样本,具有优化包括如下步骤:
①、输入:训练集合IM和标定好的子类标签LM;
②、对所有的图片,对LM使用随机标签操作获得新的负样本估计HM计算初始缓存集P={Δ(Im,Lm,Hm),m=1,…,M};
③、以ω为参数利用线性SVM训练模型Q,使用缓存集P为正样本,-P为负样本;
④、根据模型Q在缓存集P中找到一个简单的样本集A,然后将A从P中去除P:P=P\A;
⑤、对于m∈[1,M],从m=1依次循环至m=M,依照算法1,根据模型Q计算新的估计H′m,然后当Δ(Im,Lm,H′m)为一个困难样本时,计算P=PUΔ(Im,Lm,H′m);
⑥、如果不收敛,则重复步骤③;
⑦、输出模型F以及其参数ω;
由于只能获取是否是行人的标签ti而非子类标签li,原始的优化问题扩展为以下问题:
wTΦ(Im,Lm)-wTΦ(Im,Hmi)≥l(Lm,Hmi)-ξmi (17)
为了能够根据参数模型同时学习隐变量,其算法细节如下所示:
①、输入训练集IM和已经标定好的二值化标签TM,子类数量K(一般K定义为3);
②、将训练集中的标定行人放入K个子类中,并产生初始的估计LM;
③、利用困难数据挖掘算法,图像数据集IM和估计LM训练一个Rank-SVM,得到一个模型F;
④、利用扩展移动算法,模型F在训练集中估计新的子类标签和标定好的行人,获得新的估计LM;
⑤、如果程序不收敛,则返回步骤③;
⑥、输出模型F和参数ω;
(f)、输入待检测的拥挤场景行人图像,利用基于扩展移动的模型推断方法及上述确定的能量目标函数检测得到待检测拥挤场景行人图像的结果。
2.根据权利要求1所述的用于拥挤场景下的多个行人检测方法,其特征是:所述分块模型使用的特征包括HOG特征、SIFT特征或LBP特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210187843.8A CN102810161B (zh) | 2012-06-07 | 2012-06-07 | 一种用于拥挤场景下的多个行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210187843.8A CN102810161B (zh) | 2012-06-07 | 2012-06-07 | 一种用于拥挤场景下的多个行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102810161A CN102810161A (zh) | 2012-12-05 |
CN102810161B true CN102810161B (zh) | 2015-05-20 |
Family
ID=47233865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210187843.8A Active CN102810161B (zh) | 2012-06-07 | 2012-06-07 | 一种用于拥挤场景下的多个行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102810161B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942558A (zh) * | 2013-01-22 | 2014-07-23 | 日电(中国)有限公司 | 获取物体检测器的方法及装置 |
CN103345623B (zh) * | 2013-07-11 | 2016-09-21 | 中国科学院自动化研究所 | 一种基于鲁棒相对属性的行为识别方法 |
CN104091152A (zh) * | 2014-06-30 | 2014-10-08 | 南京理工大学 | 大数据环境下的行人检测的方法 |
CN104537356B (zh) * | 2015-01-12 | 2017-12-29 | 北京大学 | 利用瑞士轮排序进行步态识别的行人再标识方法和装置 |
CN105117694B (zh) * | 2015-08-16 | 2018-12-11 | 北京航空航天大学 | 一种结合旋转不变性特征的单张图片人体姿态估计方法 |
CN105138983B (zh) * | 2015-08-21 | 2019-06-28 | 燕山大学 | 基于加权部件模型和选择性搜索分割的行人检测方法 |
CN107730592B (zh) * | 2017-10-25 | 2021-06-15 | 西交利物浦大学 | 一种虚拟环境下视野外目标的可视化方法 |
CN108446625A (zh) * | 2018-03-16 | 2018-08-24 | 中山大学 | 基于图模型的图片重要行人检测方法 |
CN108596170B (zh) * | 2018-03-22 | 2021-08-24 | 杭州电子科技大学 | 一种自适应非极大抑制的目标检测方法 |
CN110753239B (zh) * | 2018-07-23 | 2022-03-08 | 深圳地平线机器人科技有限公司 | 视频预测方法、视频预测装置、电子设备和车辆 |
CN109034125B (zh) * | 2018-08-30 | 2021-12-03 | 北京工业大学 | 基于场景复杂度的行人检测方法与*** |
CN109409414B (zh) * | 2018-09-28 | 2019-10-15 | 北京达佳互联信息技术有限公司 | 样本图像确定方法和装置、电子设备及存储介质 |
CN110163810B (zh) * | 2019-04-08 | 2023-04-25 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置以及终端 |
CN110674787A (zh) * | 2019-10-09 | 2020-01-10 | 山东浪潮人工智能研究院有限公司 | 一种基于Hog特征和lgb分类器的视频解压缩方法及*** |
CN111125396B (zh) * | 2019-12-07 | 2023-06-30 | 复旦大学 | 一种单模型多分支结构的图像检索方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226597A (zh) * | 2007-01-18 | 2008-07-23 | 中国科学院自动化研究所 | 一种基于热红外步态的夜间行人识别方法及*** |
CN102073849A (zh) * | 2010-08-06 | 2011-05-25 | 中国科学院自动化研究所 | 目标图像识别***及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7188056B2 (en) * | 2002-09-09 | 2007-03-06 | Maia Institute | Method and apparatus of simulating movement of an autonomous entity through an environment |
-
2012
- 2012-06-07 CN CN201210187843.8A patent/CN102810161B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226597A (zh) * | 2007-01-18 | 2008-07-23 | 中国科学院自动化研究所 | 一种基于热红外步态的夜间行人识别方法及*** |
CN102073849A (zh) * | 2010-08-06 | 2011-05-25 | 中国科学院自动化研究所 | 目标图像识别***及方法 |
Non-Patent Citations (1)
Title |
---|
Leibe B et al.<Pedestrian detection in crowded scenes>.<Computer vision and patten recognition,2005.CVPR2005.IEEE Computer Society Conference on>.2005,878-885. * |
Also Published As
Publication number | Publication date |
---|---|
CN102810161A (zh) | 2012-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102810161B (zh) | 一种用于拥挤场景下的多个行人检测方法 | |
CN108154118B (zh) | 一种基于自适应组合滤波与多级检测的目标探测***及方法 | |
Najibi et al. | G-cnn: an iterative grid based object detector | |
US11182644B2 (en) | Method and apparatus for pose planar constraining on the basis of planar feature extraction | |
CN109977757B (zh) | 一种基于混合深度回归网络的多模态的头部姿态估计方法 | |
EP2811424B1 (en) | Method and apparatus for training an estimator for estimating a pose of an articulated object | |
CN111563915B (zh) | 一种融合运动信息检测和Radon变换的KCF目标跟踪方法 | |
CN110633632A (zh) | 一种基于循环指导的弱监督联合目标检测和语义分割方法 | |
WO2017079522A1 (en) | Subcategory-aware convolutional neural networks for object detection | |
US20230134967A1 (en) | Method for recognizing activities using separate spatial and temporal attention weights | |
CN105825502B (zh) | 一种基于显著性指导的词典学习的弱监督图像解析方法 | |
JP7263216B2 (ja) | ワッサースタイン距離を使用する物体形状回帰 | |
CN104424634A (zh) | 对象跟踪方法和装置 | |
CN113034545A (zh) | 一种基于CenterNet多目标跟踪算法的车辆跟踪方法 | |
CN111898432A (zh) | 一种基于改进YOLOv3算法的行人检测***及方法 | |
CN109840518B (zh) | 一种结合分类与域适应的视觉追踪方法 | |
Belagiannis et al. | Holistic human pose estimation with regression forests | |
US20210192345A1 (en) | Method for generating labeled data, in particular for training a neural network, by using unlabeled partitioned samples | |
CN117611932B (zh) | 基于双重伪标签细化和样本重加权的图像分类方法及*** | |
Douillard et al. | A spatio-temporal probabilistic model for multi-sensor multi-class object recognition | |
CN114596592B (zh) | 一种行人重识别方法、***、设备及计算机可读存储介质 | |
CN104408731A (zh) | 基于区域图和统计相似性编码的sar图像分割方法 | |
CN105631405A (zh) | 基于多级分块的交通视频智能识别背景建模方法 | |
CN113033356B (zh) | 一种尺度自适应的长期相关性目标跟踪方法 | |
CN110827327B (zh) | 一种基于融合的长期目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |