CN103186790A - 对象检测***和方法 - Google Patents

对象检测***和方法 Download PDF

Info

Publication number
CN103186790A
CN103186790A CN2011104567794A CN201110456779A CN103186790A CN 103186790 A CN103186790 A CN 103186790A CN 2011104567794 A CN2011104567794 A CN 2011104567794A CN 201110456779 A CN201110456779 A CN 201110456779A CN 103186790 A CN103186790 A CN 103186790A
Authority
CN
China
Prior art keywords
window area
window
confidence
degree
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104567794A
Other languages
English (en)
Inventor
王强
毛文涛
马赓宇
金智渊
金培亭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CN2011104567794A priority Critical patent/CN103186790A/zh
Publication of CN103186790A publication Critical patent/CN103186790A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种对象检测***和方法。所述对象检测***包括:图像接收单元,接收待检测图像;特征提取单元,利用根部模板对待检测图像进行扫描,以提取多个窗口区域的图像特征;可变形部件模型检测单元,通过将提取的多个窗口区域的图像特征输入可变形部件模型,以利用可变形部件模型获得所述多个窗口区域的置信度,其中,可变形部件模型调整每个窗口区域的大小使得每个窗口区域的置信度达到最大;对象确定单元,根据窗口区域的置信度确定存在对象的窗口区域。

Description

对象检测***和方法
技术邻域
本发明涉及视觉和模式识别领域。更具体地讲,涉及一种基于可变形部件模型(DPM,Deformable Part Model)的对象检测***和方法。
背景技术
对象检测是视觉技术中的一个重要技术,其在智能视频监视、基于内容的图像/视频检索、图像/视频注释、辅助的人机交互中有非常重要的应用。由于不同类别的对象在外形上有很大不同,因此对象检测非常困难。
迄今已经提出多种对象检测方案,例如,Boosting方法、DPM等。Boosting方法使用特征训练多个简单的弱分类器,然后将这些弱分类器构建为级联分类器,以在图像中对每个滑窗进行分类。然而,Boosting方法可以成功地检测人脸、人眼等较为简单的对象,但是仍不能满足普通对象(例如,汽车等)的检测。DPM通过图像中每个部件的外观以及用于获取部件之间的空间关系的几何模型来参数化DPM。DPM参数的学***,在关于对象检测的2009年的PASCALVOC中获得冠军。DPM相对于其他方法非常有效,对于一个类别几秒钟即可处理一幅图像。然而,对于实时性要求较高的场合,这样的速度仍不能满足要求。此外,DPM仍存在难以检测图像中的重叠的多个对象实例的问题。
DPM通常包括:图像的对象根部(root)/部件(part)的数据项;从每个部件的锚定位置测量该部件的变形代价的变形项。对象实例在DPM的得分可被表示如下:
f ( p 0 , . . . p n ) = Σ i = 0 n F i · φ ( H , p i ) - Σ i = 1 n d i · φ d ( dx i , dy i ) + b - - - ( 1 )
其中,
Figure BSA00000648239000012
是在对象的根部和对象的部件定义的数据项,
Figure BSA00000648239000013
是变形项。
这里,p0表示对象的根部,p1,p2,...pn表示对象的n个部件,n表示对象的部件的数量,其为正整数,Fi是与根部特征向量和部件特征向量对应的卷积滤波器(i等于0时表示与根部特征向量对应的卷积滤波器,i不等于0时表示与部件特征向量对应的卷积滤波器),H是输入图像的图像特征金字塔,φ(H,pi)表示通过图像特征金字塔得到的在pi的特征,φd(dxi,dyi)=(dxi,dyi,(dxi)2,(dyi)2),dxi、dyi表示第i个部件在水平方向和竖直方向上的偏移,di是变形项的参数,b是作为得分函数的等式(1)的偏移,其取决于使用的具体的DPM。
此外,基于DPM的分类器中的得分还可被表示为:
f(z)=β·Ψ(H,z),    (2)
其中,z=(p0,...pn),β表示DPM的模型参数;z是隐向量,包含了物体根部和部件的位置、放缩比例和/或具体使用的根部模板的编号。
当等式1与等式2一致时,
β=(F0,...Fn,d1,...dn,b);
Ψ(H,z)=(φ(H,p0),...φ(H,pn),-φd(dx1,dy1),...-φd(dxn,dyn),1)。
在上述模型中,与传统的SVM相似,可通过利用正负样本对该模型进行训练而得到β,也即,参数Fi,di和b。
在检测图像中的对象的过程中,使用根部模板(即,检测窗口)对图像进行扫描以提取多个窗口区域(即,根部),将窗口区域的图像特征作为DPM的输入。根据每个窗口区域的得分来确定存在对象的窗口。
然而,在传统的DPM中,针对每一个根部模板或者部件模板,使用的是固定的长宽比来匹配物体,因此与模板长宽比具有小范围差别的对象很容易在检测中被丢失。
发明内容
本发明的一个目的在于解决上面提到的技术问题。
本发明的一方面提供一种对象检测***,包括:图像接收单元,接收待检测图像;特征提取单元,利用根部模板对待检测图像进行扫描,以提取多个窗口区域的图像特征;可变形部件模型检测单元,通过将提取的多个窗口区域的图像特征输入可变形部件模型,以利用可变形部件模型获得所述多个窗口区域的置信度,其中,可变形部件模型调整每个窗口区域的大小使得每个窗口区域的置信度达到最大;对象确定单元,根据窗口区域的置信度确定存在对象的窗口区域。
可选地,调整提取的每个窗口区域的范围,使得调整后的每个窗口区域所对应的卷积滤波器与在调整后的每个窗口区域上的图像特征的点积达到最大,来使得每个窗口区域的置信度达到最大。
可选地,可变形部件模型是通过训练得到的,其中,在训练可变形部件模型时,调整作为样本的窗口区域的大小,使得作为样本的窗口区域的置信度达到最大。
可选地,在训练可变形部件模型时,调整作为样本的窗口区域的范围,使得调整后的作为样本的窗口区域所对应的卷积滤波器与在调整后的作为样本的窗口区域上的图像特征的点积达到最大,来使得作为样本的窗口区域的置信度达到最大。
可选地,所述可变形部件模型是混合可变形部件模型。
可选地,所述对象检测***还包括:冗余抑制单元,根据所述多个窗口区域之间的交互关系从获得了置信度的所述多个窗口区域中去除伪窗口区域,其中,冗余抑制单元包括:特征信息提取单元,从每个窗口区域提取特征信息;冗余去除单元,利用提取的特征信息确定所述交互关系,以从所述多个窗口区域中去除伪窗口区域。
可选地,所述特征信息包括窗口区域的置信度、根部的位置信息和/或尺度信息、部件的位置信息和/或尺度信息、根部的置信度、部件的置信度中的至少一个。
可选地,冗余去除单元通过最大化下面的等式来判定并去除伪窗口区域:
Figure BSA00000648239000031
其中,M表示所述多个窗口区域的数量;
φ(xi,yi)=yi·xi
Figure BSA00000648239000032
xi=(vi(s),Z),vi(s)表示第i个窗口区域的置信度,Z表示K维的向量,K表示所述混合可变形部件模型所包括的可变形部件模型的数量,Z的第vi(c)个元素为1,Z的其他元素为零,vi(c)表示检测出第i个窗口区域所使用的可变形部件模型的索引;yi表示第i个窗口区域的用于标识是否是伪窗口区域的二元得分;yi表示用于第j个窗口区域的用于标识是否是伪窗口区域的二元得分;
Figure BSA00000648239000033
表示模型参数,dij表示第i个窗口区域和第j个窗口区域之间的交互关系,
其中,当所述等式最大化时,具有标识伪窗口区域的二元得分的窗口区域被判定为伪窗口区域。
可选地,使用预知的φ(xi,yi)、
Figure BSA00000648239000041
SS通过预定结构化分类方法进行训练来获得
Figure BSA00000648239000042
可选地,窗口区域之间的交互关系包括根部-根部交互、根部-部件交互、部件-部件交互中的至少一个。
可选地,所述对象检测***还包括:上下文可变形部件模型检测单元,将获得了置信度的窗口区域的上下文特征输入上下文分类器,以获得窗口区域的新的置信度,其中,上下文分类器是利用作为样本的上下文特征训练得到的分类器。
可选地,上下文特征包括:形状位置特征、邻域特征、协同出现特征。
可选地,形状位置特征表示窗口区域在待检测图像中的大小和位置以及窗口区域中的各部件的大小和相对位置,邻域特征表示窗口区域与窗口区域的邻域的图像差异;协同出现特征表示窗口区域与具有最大置信度的窗口区域的关系。
可选地,窗口区域的上下文特征由向量f表示:
f=(σ(sc),r,p,q,σ(sm),rm)
其中,σ(sc)=1/(1+exp(-2sc)),
其中,sc是窗口区域的置信度,r表示窗口区域的位置和大小,p表示窗口区域中的每个部件相对于根部区域中心的位置,q表示窗口区域内的特定区域与窗口区域的相邻区域的图像灰度平均差,sm是所述多个窗口区域的置信度中的最大置信度,rm是具有最大置信度的窗口区域的位置和大小。
可选地,所述对象检测***还包括:上下文可变形部件模型检测单元,将从所述多个窗口区域中去除伪窗口区域之后剩余的窗口区域的上下文特征输入上下文分类器,以获得窗口区域的新的置信度,其中,上下文分类器是利用作为样本的上下文特征训练得到的分类器。
根据本发明的另一方面,提供一种对象检测方法,包括:接收待检测图像;利用根部模板对待检测图像进行扫描,以提取多个窗口区域的图像特征;
通过将提取的多个窗口区域的图像特征输入可变形部件模型,以利用可变形部件模型获得所述多个窗口区域的置信度,其中,调整每个窗口区域的大小使得该窗口区域的置信度最大;根据窗口区域的置信度确定存在对象的窗口区域。
可选地,调整提取的每个窗口区域的范围,使得调整后的每个窗口区域所对应的卷积滤波器与在调整后的每个窗口区域上的图像特征的点积达到最大,来使得每个窗口区域的置信度达到最大。
可选地,可变形部件模型是通过训练得到的,其中,在训练可变形部件模型时,调整作为样本的窗口区域的大小,使得作为样本的窗口区域的置信度达到最大。
可选地,在训练可变形部件模型时,调整作为样本的窗口区域的范围,使得调整后的作为样本的窗口区域所对应的卷积滤波器与在调整后的作为样本的窗口区域上的图像特征的点积达到最大,来使得作为样本的窗口区域的置信度达到最大。
可选地,所述可变形部件模型是混合可变形部件模型。
可选地,所述方法还包括:根据所述多个窗口区域之间的交互关系从获得了置信度的所述多个窗口区域中去除伪窗口区域。
可选地,去除伪窗口区域的步骤包括:特征信息提取单元,从每个窗口区域提取特征信息;冗余去除单元,利用提取的特征信息确定所述交互关系,以从所述多个窗口区域中去除伪窗口区域。
可选地,所述特征信息包括窗口区域的置信度、根部的位置信息和/或尺度信息、部件的位置信息和/或尺度信息、根部的置信度、部件的置信度中的至少一个。
可选地,通过最大化下面的等式来判定并去除伪窗口区域:
Figure BSA00000648239000051
其中,M表示所述多个窗口区域的数量;
φ(xi,yi)=yi·xi
Figure BSA00000648239000052
xi=(vi(s),Z),vi(s)表示第i个窗口区域的置信度,Z表示K维的向量,K表示所述混合可变形部件模型所包括的可变形部件模型的数量,Z的第vi(c)个元素为1,Z的其他元素为零,vi(c)表示检测出第i个窗口区域所使用的可变形部件模型的索引;yi表示第i个窗口区域的用于标识是否是伪窗口区域的二元得分;yj表示用于第j个窗口区域的用于标识是否是伪窗口区域的二元得分;
Figure BSA00000648239000053
表示模型参数,dij表示第i个窗口区域和第j个窗口区域之间的交互关系,其中,当所述等式最大化时,具有标识伪窗口区域的二元得分的窗口区域被判定为伪窗口区域。
可选地,使用预知的φ(xi,yi)、
Figure BSA00000648239000061
SS通过预定结构化分类方法进行训练来获得
Figure BSA00000648239000062
可选地,窗口区域之间的交互关系包括根部-根部交互、根部-部件交互、部件-部件交互中的至少一个。
可选地,所述方法还包括:将获得了置信度的窗口区域的上下文特征输入上下文分类器,以获得窗口区域的新的置信度,其中,上下文分类器是利用作为样本的上下文特征训练得到的分类器。
可选地,上下文特征包括:形状位置特征、邻域特征、协同出现特征。
可选地,形状位置特征表示窗口区域在待检测图像中的大小和位置以及窗口区域中的各部件的大小和相对位置,邻域特征表示窗口区域与窗口区域的邻域的图像差异;协同出现特征表示窗口区域与具有最大置信度的窗口区域的关系。
可选地,窗口区域的上下文特征由向量f表示:
f=(σ(sc),r,p,q,σ(sm),rm),
其中,σ(sc)=1/(1+exp(-2sc)),
其中,sc是窗口区域的置信度,r表示窗口区域的位置和大小,p表示窗口区域中的每个部件相对于根部区域中心的位置,q表示窗口区域内的特定区域与窗口区域的相邻区域的图像灰度平均差,sm是所述多个窗口区域的置信度中的最大置信度,rm是具有最大置信度的窗口区域的位置和大小。
可选地,所述方法还包括:将从所述多个窗口区域中去除伪窗口区域之后剩余的窗口区域的上下文特征输入上下文分类器,以获得窗口区域的新的置信度,其中,上下文分类器是利用作为样本的上下文特征训练得到的分类器。
本发明的另一方面提供一种对象检测***,包括:图像接收单元,接收待检测图像;特征提取单元,提取多个窗口区域的图像特征;可变形部件模型检测单元,通过将提取的多个窗口区域的图像特征输入可变形部件模型,以利用可变形部件模型获得所述多个窗口区域的置信度;对象确定单元,根据窗口区域的置信度确定存在对象的窗口区域。
可选地,所述对象检测***还包括:冗余抑制单元,根据所述多个窗口区域之间的交互关系从获得了置信度的所述多个窗口区域中去除伪窗口区域,其中,冗余抑制单元包括:特征信息提取单元,从每个窗口区域提取特征信息;冗余去除单元,利用提取的特征信息确定所述交互关系,以从所述多个窗口区域中去除伪窗口区域。
可选地,所述对象检测***还包括:上下文可变形部件模型检测单元,将从所述多个窗口区域中去除伪窗口区域之后剩余的窗口区域的上下文特征输入上下文分类器,以获得窗口区域的新的置信度,其中,上下文分类器是利用作为样本的上下文特征训练得到的分类器。
本发明的另一方面提供一种对象检测方法,包括:接收待检测图像;提取多个窗口区域的图像特征;通过将提取的多个窗口区域的图像特征输入可变形部件模型,以利用可变形部件模型获得所述多个窗口区域的置信度;根据窗口区域的置信度确定存在对象的窗口区域。
可选地,所述对象检测方法还包括:根据所述多个窗口区域之间的交互关系从获得了置信度的所述多个窗口区域中去除伪窗口区域,其中,去除伪窗口区域包括:从每个窗口区域提取特征信息;利用提取的特征信息确定所述交互关系,以从所述多个窗口区域中去除伪窗口区域。
可选地,所述对象检测方法还包括:将从所述多个窗口区域中去除伪窗口区域之后剩余的窗口区域的上下文特征输入上下文分类器,以获得窗口区域的新的置信度,其中,上下文分类器是利用作为样本的上下文特征训练得到的分类器。
根据本发明的技术方案,通过改进现有的DPM中的在根部定义的数据项,可以有效克服与模板长宽比具有小范围差别的对象很容易在检测中被丢失的问题。
此外,根据本发明的冗余抑制技术,解决了由于对象被遮挡、与其他对象结合在一起以及对象空间布局和重叠的复杂性导致的由DPM检测的窗口区域的得分可能不准确的问题,有效消除了伪窗口区域。
此外,根据本发明,利用上下文特征对窗口区域的分类得分进行校正,可以进一步提高检测精度,特别是提高了对医学图像中的对象的检测精度。
将在接下来的描述中部分阐述本发明另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明的实施而得知。
附图说明
通过下面结合附图进行的详细描述,本发明的上述和其它目的、特点和优点将会变得更加清楚,其中:
图1是示出根据本发明实施例的检测图像中的对象的对象检测***的框图;
图2是示出根据本发明实施例的冗余抑制单元的框图。
图3是示出根据本发明的实施例的检测图像中的对象的对象检测方法的流程图。
图4是示出根据本发明的另一实施例的检测图像中的对象的对象检测方法的流程图。
具体实施方式
以下,将参照附图更充分地描述本发明的示例性实施例,示例性实施例在附图中示出。贯穿对附图的描述,相同的标号表示相同的元件。
图1是示出根据本发明实施例的检测图像中的对象的对象检测***100的框图。
检测***100包括图像接收单元110、特征提取单元120、DPM检测单元130、对象确定单元140。
图像接收单元110用于接收待检测图像。
特征提取单元120用于从待检测图像提取图像特征。
提取的图像特征可以是例如梯度方向直方图(HOG)特征、局部二元模式(LBP)特征、网格深度特征(GDF)、尺度不变特征转换(SIFT)特征等各种图像特征。
特征提取单元120可以使用根部模板对待检测图像进行扫描,从而得到多个窗口区域(即,多个根部)及其图像特征。
DPM检测单元130可使用预先训练的DPM来检测对象。DPM检测单元130将特征提取单元120所提取的每个窗口区域的图像特征输入DPM,从而得到每个窗口区域的分类得分(即,置信度)。
根据本发明的DPM对现有的DPM进行了改进。
在现有的DPM中,根据等式(1)可知,在根部定义的数据项(即,与根部(也即提取的窗口区域)对应的卷积滤波器F0与在根部P0提取的特征的点积)可被表示如下:F0.φ(h,p0)。
在根据本发明的DPM中,在根部定义的数据项被表示如下:
max τ ( F 0 ( τ ) · φ ( H , p 0 , τ ) ) - - - ( 4 )
其中,
Figure BSA00000648239000092
P0表示根部的区域范围,F0(τ)表示根部对应的卷积滤波器F0在区域τ上的部分,φ(H,p0,τ)表示通过图像特征金字塔H得到的在P0的根部特征在区域τ上的部分。
等式(4)表示通过将原始根部区域的范围调整为τ使得应用于区域τ上的卷积滤波器F0(τ)和在区域τ上提取的特征向量的点积(即,在调整后的根部定义的数据项)最大。优选地,考虑到计算复杂性和区域代表性,变量τ的变化范围被限定为若干个等于或略小于区域P0的矩形区域。
此时,等式1可被改写为:
f ( p 0 , . . . p n ) = max τ ( F 0 ( τ ) · φ ( H , p 0 , τ ) ) + Σ i = 1 n F i · φ ( H , p i ) - Σ i = 1 n d i · φ d ( dx i , dy i ) + b - - - ( 5 )
具体地说,在训练DPM时,调整作为样本的根部P0所在区域的范围使得与调整后的根部P0对应的卷积滤波器F0与在调整后的根部提取的特征的点积最大。在使用DPM进行检测时,调整作为输入的根部P0所在区域的范围使得与调整后的根部P0对应的卷积滤波器F0与在调整后的根部提取的特征的点积最大。根据等式(5)可知,与根部P0对应的卷积滤波器F0与在根部提取的特征的点积最大,也即最终的分类得分最大。
对象确定单元140根据窗口区域的分类得分(即,置信度)来确定存在对象的窗口。应该理解,本邻域技术人员在得到窗口区域的分类得分的情况下,确定存在对象的窗口区域的技术是公知的。例如,可以将分类得分最大的窗口区域作为对象所在的区域;或者当窗口区域的分类得分小于预定阈值时,确定在该窗口区域中不存在对象;当窗口区域的分类得分大于等于预定阈值时,确定在该窗口区域中存在对象。
如上所示,通过在根部定义的数据项进行改进,可以有效地消除与模板长宽比具有小范围差别的对象很容易在检测中被丢失的问题。
在另外的实施例中,DPM检测单元130使用混合DPM。混合DPM由多个DPM构成,每个DPM的根模板彼此不同。此时,特征提取单元120分别使用每个DPM的根模板来对待检测图像进行扫描,从而得到多个窗口区域及其图像特征。
所述多个窗口区域中的每个的图像特征被输入混合DPM,从而得到每个窗口区域的分类得分。
在一些特定场合,由于对象被遮挡、与其他对象结合在一起以及对象空间布局和重叠的复杂性,因此DPM检测的窗口区域的得分可能不准确,一些伪窗口区域(即,不存在对象的窗口区域)有可能得分较高,这极大降低了检测精度。为了解决该问题,本发明提出一种冗余抑制技术,来排除这些伪窗口区域,从而可以根据从所述多个窗口区域中排除了伪窗口区域之后的窗口区域的分类得分来确定存在对象的窗口区域。
根据本发明的另一实施例,对象检测***100还包括冗余抑制单元(未示出)。冗余抑制单元可以从DPM检测单元130输出的窗口区域中去除伪窗口区域。换句话说,冗余抑制单元可以从DPM检测单元130输出的多个窗口区域的分类得分中去除伪窗口区域的分类得分。
图2是示出根据本发明实施例的冗余抑制单元的框图。
冗余抑制单元包括特征信息提取单元141、冗余去除单元142。
特征信息提取单元141从每个窗口区域(即,与输出的分类得分对应的窗口区域)提取特征信息。具体地说,所述特征信息可包括对象的部件的变形代价、窗口区域的总得分、使用的模型导致的偏移、窗口区域中的对象的根部和部件的位置信息、根部和部件的尺度信息、根部和部件的得分信息中的至少一个。
例如,从第i个窗口区域的特征信息可被表示为vi
vi=(b,s,s0,s1,...sD,dd1,..ddD,l0,l1...lD,c),   (6)
其中,l0是对象的根部的位置和尺度,l1...lD是对象的部件的位置和尺度,D表示对象的部件的数量,s0是根部的得分,s1,...sD是部件的得分,dd1,..ddD是部件的变形代价,b是使用的混合DPM中的DPM导致的偏移,s是窗口区域的总得分,c是对象的分量索引(即,表示第i个窗口区域由混合DPM中的第c个DPM检测得到),1≤c≤K,K表示混合DPM中的DPM的数量。
应该理解,尽管上面vi中包括了多种信息,但应该理解,可根据需要仅提取其中的部分信息。
冗余去除单元142利用提取的特征信息确定从DPM检测单元130输出的窗口区域之间的交互关系,以从DPM检测单元130输出的窗口区域中去除伪窗口区域。该交互关系体现了窗口区域之间的重叠特性。
具体地说,假设xi是从窗口区域i提取的特征信息,则整个图像可被表示为提取的特征信息X={xi:i=1...M},M表示窗口区域的数量。如果对每个窗口区域进行二元标注以确定其是否为正确的实例,则第i个窗口区域的标注:yi∈{0,1}(应该理解,本发明的二元值不限于0和1,也可以使用其他的值作为二元值),使得Y={yi:i=1...M},使用向量Y标注图像X的得分为:
Figure BSA00000648239000111
其中,φ(xi,yi)=yi·xi 表示模型参数,xi=(vi(s),Z),Z表示K维的向量,Z的第vi(c)个元素为1,其他元素为零,dij表示第i窗口区域和第j窗口区域之间的交互关系(即,重叠关系)。
可使用预知的φ(xi,yi)、SS通过现有的结构化分类方法(例如,结构化SVM算法、Boost算法等)进行训练来获得
Figure BSA00000648239000115
优选地,使用结构化SVM算法。由于使用结构化分类方法来获得
Figure BSA00000648239000116
是现有的技术,将不再详述。
根据本发明的实施例,不同窗口区域之间的交互关系包括根部-根部交互、根部-部件交互、部件-部件交互中的至少一个。
根部-根部交互体现了不同窗口区域的根部之间的重叠特性(例如,一个窗口区域的根部与另一窗口区域的根部之间的重叠特性)。
根部-部件交互体现了不同窗口区域的根部与部件之间的重叠特性(例如,一个窗口区域的根部与另一窗口区域的部件之间的重叠特性)。
部件-部件交互体现了不同窗口区域的部件之间的重叠特性(例如,一个窗口区域的部件与另一窗口区域的部件之间的重叠特性)。
根部-根部交互、根部-部件交互、部件-部件交互可分别被表示为
Figure BSA00000648239000117
Figure BSA00000648239000118
例如,当应用全部上述三种交互时,
Figure BSA00000648239000119
Figure BSA000006482390001110
表示第i窗口区域和第j窗口区域之间的根部之间的交互关系。可以理解,
Figure BSA000006482390001111
是K×K的矩阵。在一个示例中,该矩阵中的任意元素
Figure BSA000006482390001112
(m、n表示该矩阵中的元素的索引,例如,第m行第n列)可表示为下面的等式(8):
Figure BSA000006482390001113
这里,ol(vi(l0),vi(l0))表示第i窗口区域的根部与第j窗口区域的根部之间的重叠率。
表示第i窗口区域和第j窗口区域之间的根部与部件之间的交互关系(即,第i窗口区域的根部与第j窗口区域的部件之间的交互关系)。可以理解,
Figure BSA00000648239000122
是K×(K×D)的矩阵,该矩阵中的任意元素
Figure BSA00000648239000123
可表示为下面的等式(9):
这里,g∈[1,D],ol(vi(l0),vi(lg))表示第i窗口区域的根部与第j窗口区域的第g个部件之间的重叠率。
表示第i窗口区域和第j窗口区域之间的部件与部件之间的交互关系。可以理解,
Figure BSA00000648239000126
是(K×D)×(K×D)的矩阵。在一个示例中,该矩阵中的任意元素
Figure BSA00000648239000127
可表示为下面的等式(10):
                                                        ....(10)
这里,e∈[1,D],g∈[1,D],ol(vi(le),vj(lg))表示第i窗口区域的第e个部件与第j窗口区域的第g个部件之间的重叠率。
计算使得等式7为最大的Y,该计算可被表示为argmaxYS(X,Y)。此时,被标注为1的窗口区域被认为是最终检测的示例,被标注为0的窗口区域被认为是伪窗口区域。
可以使用各种方式来计算使得等式7为最大的Y,例如,可以使用枚举的方式。
在本发明的另一个实施例中,使用贪婪算法来计算使得等式7为最大的Y。
在根据本发明的另一实施例中,检测***100还包括上下文DPM检测单元(未示出)。上下文DPM检测单元根据窗口区域的上下文特征对DPM检测单元130或冗余抑制单元输出的每个窗口区域的分类得分进行校正。
具体地说,上下文DPM检测单元将与DPM检测单元130或冗余抑制单元输出的分类得分对应的窗口区域的上下文特征输入上下文分类器得到窗口区域的新的得分。此时,对象确定单元140根据窗口区域的新的分类得分来确定存在对象的窗口。
上下文分类器是利用作为样本的上下文特征训练得到的分类器。优选地,从用于训练DPM或混合DPM的样本中提取上下文特征作为样本的上下文特征,这样可以提高训练速度和精度。
上下文特征包括:形状位置特征;邻域特征;协同出现特征。形状位置特征表示窗口区域在待检测图像中的大小和位置以及窗口区域中的各部件的大小和相对位置。邻域特征表示窗口区域与窗口区域的邻域的图像差异。优选地,窗口区域的面积与窗口区域的邻域的面积相同。例如,图像差异可以是根部区域和部件区域与所述邻域的平均图像灰度差、或者灰度方差以及位置-灰度协方差等统计量。协同出现特征表示窗口区域与已检测出的所有窗口区域中具有最大得分的窗口区域的关系。例如,如果当前的窗口区域不是具有最大得分的窗口区域,则协同出现特征在上下文分类器中一般会对当前的窗口区域有抑制作用。
在一个示例中,一个窗口区域的上下文特征可由下面的向量f表示:
f=(σ(sc),r,p,q,σ(sm),rm)
其中,σ(sc)=1/(1+exp(-2sc)),
其中,sc是窗口区域的得分,r表示窗口区域的位置和大小,p表示窗口区域中的每个部件相对于根部区域中心的位置,q表示窗口区域内的特定区域与窗口区域的相邻区域的图像灰度平均差,sm窗口区域的得分中的最大得分,rm是具有所述最大得分的窗口区域的位置和大小。
在检测医学图像中的肿瘤病变等时,与其他的对象检测相比,医学图像中的肿瘤具有形状变化大,对比度差,噪声明显等特点,更特别的是一部分肿瘤区域的图像特征具有歧义,也就是说,几乎相同的一个图像块,在一幅图像中会被认为是肿瘤,在另一幅图像中就会被认为不是肿瘤,甚至是在同一个图像的一个位置出现会被认为是肿瘤,而在另一个位置出现就会被认为不是肿瘤。通过本发明的上下文特征对分类得分进行校正,可以有效地提高肿瘤病变对象的检测精度。
此外,在另外的实施例中,根据本发明的冗余抑制单元、上下文DPM检测单元可单独或一起应用于现有的基于DPM的对象检测***中(例如,利用等式1的DPM的对象检测***)中。
图3示出根据本发明的实施例的检测图像中的对象的对象检测方法的流程图。
在步骤301,接收待检测图像。
在步骤302,从待检测图像提取图像特征。具体地说,利用根部模板对待检测图像进行扫描,从而得到多个窗口区域及其图像特征。
在步骤303,将在步骤302所提取的图像特征输入预先训练的DPM,从而得到每个窗口区域的分类得分。
在步骤304,根据在步骤303得到的窗口区域的分类得分来确定存在对象的窗口区域。
图4示出根据本发明的另一实施例的检测图像中的对象的对象检测方法的流程图。
在步骤401,接收待检测图像。
在步骤402,从待检测图像提取图像特征。具体地说,利用根部模板对待检测图像进行扫描,从而得到多个窗口区域及其图像特征。
在步骤403,将在步骤402所提取的图像特征输入预先训练的DPM,从而得到每个窗口区域的分类得分。
在步骤404,根据在步骤403得到的窗口区域的分类得分来确定存在对象的窗口区域。
在步骤405,从每个窗口区域提取特征信息。所述特征信息可包括窗口区域的总得分、根部的位置信息和/或尺度信息、部件的位置信息和/或尺度信息、根部的得分、部件的得分中的至少一个。
在步骤406,利用提取的特征信息从所述多个窗口区域中去除伪窗口区域。具体地说,最大化公式(7)的结果,从而具有标识伪窗口区域的二元得分的窗口区域被判定为伪窗口区域。
在另外的实施例中,在步骤303、403或406之后,还可包括步骤:提取窗口区域的上下文特征,并将上下文特征输入上下文分类器得到窗口区域的新的得分。应该理解,被提取上下文特征的窗口区域不包括在步骤405确定的伪窗口区域。
根据本发明,通过改进现有的DPM中的在根部定义的数据项的计算方式,可以有效克服与模板长宽比具有小范围差别的对象很容易在检测中被丢失的问题。此外,根据本发明的冗余抑制技术,解决了由于对象被遮挡、与其他对象结合在一起以及对象空间布局和重叠的复杂性导致的由DPM检测的窗口区域的得分可能不准确的问题,有效消除了伪窗口区域。此外,根据本发明,利用上下文特征对窗口区域的分类得分进行校正,可以进一步提高检测精度,特别是提高了对医学图像中的对象的检测精度。
尽管已经参照其示例性实施例具体显示和描述了本发明,但是本邻域的技术人员应该理解,在不脱离权利要求所限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。

Claims (16)

1.一种对象检测***,包括:
图像接收单元,接收待检测图像;
特征提取单元,利用根部模板对待检测图像进行扫描,以提取多个窗口区域的图像特征;
可变形部件模型检测单元,通过将提取的多个窗口区域的图像特征输入可变形部件模型,以利用可变形部件模型获得所述多个窗口区域的置信度,其中,可变形部件模型调整每个窗口区域的大小使得每个窗口区域的置信度达到最大;
对象确定单元,根据窗口区域的置信度确定存在对象的窗口区域。
2.根据权利要求1所述的对象检测***,其中,调整提取的每个窗口区域的范围,使得调整后的每个窗口区域所对应的卷积滤波器与在调整后的每个窗口区域上的图像特征的点积达到最大,来使得每个窗口区域的置信度达到最大。
3.根据权利要求1所述的对象检测***,其中,可变形部件模型是通过训练得到的,其中,在训练可变形部件模型时,调整作为样本的窗口区域的大小,使得作为样本的窗口区域的置信度达到最大。
4.根据权利要求3所述的对象检测***,其中,在训练可变形部件模型时,调整作为样本的窗口区域的范围,使得调整后的作为样本的窗口区域所对应的卷积滤波器与在调整后的作为样本的窗口区域上的图像特征的点积达到最大,来使得作为样本的窗口区域的置信度达到最大。
5.根据权利要求1所述的对象检测***,其中,所述可变形部件模型是混合可变形部件模型。
6.根据权利要求5所述的对象检测***,还包括:冗余抑制单元,根据所述多个窗口区域之间的交互关系从获得了置信度的所述多个窗口区域中去除伪窗口区域,
其中,冗余抑制单元包括:
特征信息提取单元,从每个窗口区域提取特征信息;
冗余去除单元,利用提取的特征信息确定所述交互关系,以从所述多个窗口区域中去除伪窗口区域。
7.根据权利要求6所述的对象检测***,其中,所述特征信息包括窗口区域的置信度、根部的位置信息和/或尺度信息、部件的位置信息和/或尺度信息、根部的置信度、部件的置信度中的至少一个。
8.根据权利要求6所述的对象检测***,其中,冗余去除单元通过最大化下面的等式来判定并去除伪窗口区域:
Figure FSA00000648238900021
其中,M表示所述多个窗口区域的数量;
φ(xi,yi)=yi·xi
Figure FSA00000648238900022
xi=(vi(s),Z),vi(s)表示第i个窗口区域的置信度,Z表示K维的向量,K表示所述混合可变形部件模型所包括的可变形部件模型的数量,Z的第vi(c)个元素为1,Z的其他元素为零,vi(c)表示检测出第i个窗口区域所使用的可变形部件模型的索引;yi表示第i个窗口区域的用于标识是否是伪窗口区域的二元得分;yi表示用于第j个窗口区域的用于标识是否是伪窗口区域的二元得分;
Figure FSA00000648238900023
表示模型参数,dij表示第i个窗口区域和第j个窗口区域之间的交互关系,
其中,当所述等式最大化时,具有标识伪窗口区域的二元得分的窗口区域被判定为伪窗口区域。
9.根据权利要求8所述的对象检测***,其中,使用预知的φ(xi,yi)、
Figure FSA00000648238900024
SS通过预定结构化分类方法进行训练来获得
Figure FSA00000648238900025
10.根据权利要求6所述的对象检测***,其中,窗口区域之间的交互关系包括根部-根部交互、根部-部件交互、部件-部件交互中的至少一个。
11.根据权利要求1所述的对象检测***,还包括:上下文可变形部件模型检测单元,将获得了置信度的窗口区域的上下文特征输入上下文分类器,以获得窗口区域的新的置信度,其中,上下文分类器是利用作为样本的上下文特征训练得到的分类器。
12.根据权利要求11所述的对象检测***,其中,上下文特征包括:形状位置特征、邻域特征、协同出现特征。
13.根据权利要求11所述的对象检测***,其中,形状位置特征表示窗口区域在待检测图像中的大小和位置以及窗口区域中的各部件的大小和相对位置,邻域特征表示窗口区域与窗口区域的邻域的图像差异;协同出现特征表示窗口区域与具有最大置信度的窗口区域的关系。
14.根据权利要求12所述的对象检测***,其中,窗口区域的上下文特征由向量f表示:
f=(σ(sc),r,p,q,σ(sm),rm)
其中,σ(sc)=1/(1+exp(-2sc)),
其中,sc是窗口区域的置信度,r表示窗口区域的位置和大小,p表示窗口区域中的每个部件相对于根部区域中心的位置,q表示窗口区域内的特定区域与窗口区域的相邻区域的图像灰度平均差,sm是所述多个窗口区域的置信度中的最大置信度,rm是具有最大置信度的窗口区域的位置和大小。
15.根据权利要求4所述的对象检测***,还包括:上下文可变形部件模型检测单元,将从所述多个窗口区域中去除伪窗口区域之后剩余的窗口区域的上下文特征输入上下文分类器,以获得窗口区域的新的置信度,其中,上下文分类器是利用作为样本的上下文特征训练得到的分类器。
16.一种对象检测方法,包括:
接收待检测图像;
利用根部模板对待检测图像进行扫描,以提取多个窗口区域的图像特征;
通过将提取的多个窗口区域的图像特征输入可变形部件模型,以利用可变形部件模型获得所述多个窗口区域的置信度,其中,调整每个窗口区域的大小使得该窗口区域的置信度最大;
根据窗口区域的置信度确定存在对象的窗口区域。
CN2011104567794A 2011-12-27 2011-12-27 对象检测***和方法 Pending CN103186790A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104567794A CN103186790A (zh) 2011-12-27 2011-12-27 对象检测***和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104567794A CN103186790A (zh) 2011-12-27 2011-12-27 对象检测***和方法

Publications (1)

Publication Number Publication Date
CN103186790A true CN103186790A (zh) 2013-07-03

Family

ID=48677950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104567794A Pending CN103186790A (zh) 2011-12-27 2011-12-27 对象检测***和方法

Country Status (1)

Country Link
CN (1) CN103186790A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971134A (zh) * 2014-04-25 2014-08-06 华为技术有限公司 图像分类、检索和校正方法,以及相应装置
CN104200236A (zh) * 2014-08-22 2014-12-10 浙江生辉照明有限公司 基于dpm的快速目标检测方法
CN104484680A (zh) * 2014-09-26 2015-04-01 徐晓晖 一种多模型多阈值组合的行人检测方法
CN105900084A (zh) * 2013-12-20 2016-08-24 高通股份有限公司 用于图像检索的***、方法及设备
CN106326891A (zh) * 2015-06-30 2017-01-11 展讯通信(天津)有限公司 移动终端及其目标检测方法及装置
CN106778665A (zh) * 2016-12-29 2017-05-31 浙江大华技术股份有限公司 一种车窗检测方法及装置
CN107851192A (zh) * 2015-05-13 2018-03-27 北京市商汤科技开发有限公司 用于检测人脸部分及人脸的设备和方法
CN108229495A (zh) * 2017-06-23 2018-06-29 北京市商汤科技开发有限公司 目标对象检测方法、装置、电子设备和存储介质
CN108388874A (zh) * 2018-03-05 2018-08-10 厦门大学 基于图像识别与级联分类器的对虾形态参数自动测量方法
CN108830210A (zh) * 2018-06-11 2018-11-16 广东美的制冷设备有限公司 基于图像的人体检测方法和装置
CN109977965A (zh) * 2019-02-28 2019-07-05 北方工业大学 一种在遥感机场图像中确定检测目标的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872477A (zh) * 2009-04-24 2010-10-27 索尼株式会社 检测图像中的对象的方法、装置,及包括该装置的***
CN102129569A (zh) * 2010-01-20 2011-07-20 三星电子株式会社 基于多尺度对比特征的对象检测设备和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872477A (zh) * 2009-04-24 2010-10-27 索尼株式会社 检测图像中的对象的方法、装置,及包括该装置的***
CN102129569A (zh) * 2010-01-20 2011-07-20 三星电子株式会社 基于多尺度对比特征的对象检测设备和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PEDRO F. FELZENSZWALB ET AL.: ""Object Detection with Discriminatively Trained Part-Based Models"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
安国成 等: ""多窗口目标跟踪算法"", 《计算机研究与发展》 *
胡正平,杨建秀: ""HOG特征混合模型结合隐SVM的感兴趣目标检测定位算法"", 《信号处理》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105900084A (zh) * 2013-12-20 2016-08-24 高通股份有限公司 用于图像检索的***、方法及设备
CN105900084B (zh) * 2013-12-20 2019-12-31 高通股份有限公司 用于图像检索的***、方法及设备
US10346465B2 (en) 2013-12-20 2019-07-09 Qualcomm Incorporated Systems, methods, and apparatus for digital composition and/or retrieval
CN103971134A (zh) * 2014-04-25 2014-08-06 华为技术有限公司 图像分类、检索和校正方法,以及相应装置
CN103971134B (zh) * 2014-04-25 2017-07-07 华为技术有限公司 图像分类、检索和校正方法,以及相应装置
CN104200236B (zh) * 2014-08-22 2018-10-26 浙江生辉照明有限公司 基于dpm的快速目标检测方法
CN104200236A (zh) * 2014-08-22 2014-12-10 浙江生辉照明有限公司 基于dpm的快速目标检测方法
WO2016026371A1 (en) * 2014-08-22 2016-02-25 Zhejiang Shenghui Lighting Co., Ltd. Fast object detection method based on deformable part model (dpm)
EP3183691A4 (en) * 2014-08-22 2017-11-08 Zhejiang Shenghui Lighting Co., Ltd Fast object detection method based on deformable part model (dpm)
US9846821B2 (en) 2014-08-22 2017-12-19 Zhejiang Shenghui Lighting Co., Ltd Fast object detection method based on deformable part model (DPM)
CN104484680A (zh) * 2014-09-26 2015-04-01 徐晓晖 一种多模型多阈值组合的行人检测方法
CN107851192A (zh) * 2015-05-13 2018-03-27 北京市商汤科技开发有限公司 用于检测人脸部分及人脸的设备和方法
CN106326891A (zh) * 2015-06-30 2017-01-11 展讯通信(天津)有限公司 移动终端及其目标检测方法及装置
CN106778665B (zh) * 2016-12-29 2019-09-17 浙江大华技术股份有限公司 一种车窗检测方法及装置
CN106778665A (zh) * 2016-12-29 2017-05-31 浙江大华技术股份有限公司 一种车窗检测方法及装置
CN108229495A (zh) * 2017-06-23 2018-06-29 北京市商汤科技开发有限公司 目标对象检测方法、装置、电子设备和存储介质
CN108229495B (zh) * 2017-06-23 2020-07-17 北京市商汤科技开发有限公司 目标对象检测方法、装置、电子设备和存储介质
CN108388874A (zh) * 2018-03-05 2018-08-10 厦门大学 基于图像识别与级联分类器的对虾形态参数自动测量方法
CN108388874B (zh) * 2018-03-05 2020-03-31 厦门大学 基于图像识别与级联分类器的对虾形态参数自动测量方法
CN108830210A (zh) * 2018-06-11 2018-11-16 广东美的制冷设备有限公司 基于图像的人体检测方法和装置
CN108830210B (zh) * 2018-06-11 2021-04-20 广东美的制冷设备有限公司 基于图像的人体检测方法和装置
CN109977965A (zh) * 2019-02-28 2019-07-05 北方工业大学 一种在遥感机场图像中确定检测目标的方法及装置

Similar Documents

Publication Publication Date Title
CN103186790A (zh) 对象检测***和方法
CN101673338B (zh) 基于多角度投影的模糊车牌识别方法
CN101350069B (zh) 从训练数据构建分类器并使用分类器检测在测试数据中的移动对象的计算机实现方法
Gerónimo et al. 2D–3D-based on-board pedestrian detection system
Schwartz et al. Human detection using partial least squares analysis
CN102682287B (zh) 基于显著度信息的行人检测方法
Antonacopoulos et al. ICDAR2015 competition on recognition of documents with complex layouts-RDCL2015
CN104680127A (zh) 手势识别方法及***
Zhou et al. Histograms of categorized shapes for 3D ear detection
CN103413119A (zh) 基于人脸稀疏描述子的单样本人脸识别方法
CN104978550A (zh) 基于大规模人脸数据库的人脸识别方法及***
CN102509091A (zh) 一种飞机尾号识别方法
CN102722712A (zh) 基于连续度的多尺度高分辨图像目标检测方法
CN102147867B (zh) 一种基于主体的国画图像和书法图像的识别方法
CN103886589A (zh) 面向目标的自动化高精度边缘提取方法
CN103136504A (zh) 人脸识别方法及装置
CN103020614B (zh) 基于时空兴趣点检测的人体运动识别方法
CN101470802B (zh) 物体检测装置和方法
Redondo-Cabrera et al. All together now: Simultaneous object detection and continuous pose estimation using a hough forest with probabilistic locally enhanced voting
Yan et al. Chinese text location under complex background using Gabor filter and SVM
CN104299009A (zh) 基于多特征融合的车牌字符识别方法
CN104200228A (zh) 一种安全带识别方法与***
Cai et al. Traffic sign recognition algorithm based on shape signature and dual-tree complex wavelet transform
CN102542244A (zh) 人脸检测方法与***及计算机程序产品
CN104408728A (zh) 一种基于噪声估计的伪造图像检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20181204

AD01 Patent right deemed abandoned