CN1561503A - 通过模型集合体的对象分类 - Google Patents

通过模型集合体的对象分类 Download PDF

Info

Publication number
CN1561503A
CN1561503A CNA028004264A CN02800426A CN1561503A CN 1561503 A CN1561503 A CN 1561503A CN A028004264 A CNA028004264 A CN A028004264A CN 02800426 A CN02800426 A CN 02800426A CN 1561503 A CN1561503 A CN 1561503A
Authority
CN
China
Prior art keywords
moving object
classification
features
sorting technique
view data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA028004264A
Other languages
English (en)
Inventor
S·古塔
V·费洛明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1561503A publication Critical patent/CN1561503A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于分类在视频图像数据中的对象的方法。该方法包含以下步骤:检测在图像数据中的活动对象;从在图像数据中检测到的每个活动对象中提取两个或更多特征;依据一种分类方法为这两个或更多特征中的每一个分类每个活动对象;以及基于该分类方法为这两个或更多特征中的每一个导出对每个活动对象的一个分类。此外还提供了一个用于分类在视频图像数据中的对象的装置。

Description

通过模型集合体的对象分类
本发明通常涉及对象分类,尤其是涉及基于来自于许多分类器(模型)的各个意见分类在图像数据中的对象以导出一个一致性的意见。
在任何模式识别***设计中的最终目标是实现最好的可能分类(预言性的)性能。这个目标传统上会导致为将要解决的特定模式识别问题开发不同的分类方案。不同设计的一个试验性评定结果然后将是用于选择一个分类器(模型选择)作为该问题的一个最终解决方案的基础。已经观察到了,在这种设计研究中,尽管其中之一的设计将产生最好的性能,但是由不同分类器错误分类的模式设置不一定会重叠。
鉴于现有技术,需要有一种用于分类在图像数据中的对象的方法,其利用这个观察以实现最佳可能分类性能。
因此,本发明的一个目的是提供一种用于分类在图像数据中的对象的方法,其从来自于许多分类器(模型)的各个意见中导出和对象分类有关的一致性意见。
因此,提供了一种用于分类在视频图像数据中的对象的方法。该方法包含以下步骤:检测在图像数据中的活动对象;从在图像数据中检测到的每个活动对象中提取两个或更多特征;依据一种分类方法为这两个或更多特征中的每一个分类每个活动对象;以及基于该分类方法为这两个或更多特征中的每一个导出对每个活动对象的一个分类。
更可取地是,该方法进一步包含步骤:从所检测到的活动对象中过滤出非故意的活动对象,其中过滤步骤依据每个检测到的活动对象的检测速度和长宽比过滤出非故意的活动对象。
更可取地是,提取步骤包含:从每一个检测到的活动对象中提取x梯度、y梯度、和组合的xy梯度特征中的至少两个,并且进一步包含步骤:在提取步骤之前平滑图像数据以减少噪声效应,然后在图像数据上应用一个导数算子。
分类步骤包含:为这两个或更多特征中的每一个使用相同的分类方法,或者为这两个或更多特征中的至少两个使用至少两种不同的分类方法。
更可取地,该分类方法包含一个用于训练和分类至少一个所检测到的活动物体的径向基函数(Radial Basis Function)网络,而且分类步骤包含输出一个类别标记和一个概率值,其中类别标记标识了该所检测到的活动对象所对应的一个类别,概率值指示了对于这两个或更多特征中的每一个来说,未知模式属于该类别的概率。
此外还提供了一个用于分类在视频图像数据中的对象的装置。该装置包含:用于在图像数据中检测活动对象的装置;用于从在图像数据中检测到的每个活动对象中提取两个或更多特征的装置;用于依据一种分类方法为这两个或更多特征中的每一个分类每个活动对象的装置;以及用于基于该分类方法为这两个或更多特征中的每一个导出对每个活动对象的一个分类的装置。
还提供了:一个可由机器读取的程序存储设备,其有形地包含了一个指令程序,其中该指令程序可由机器执行以执行本发明中的方法步骤;以及一个包含在一个计算机可读介质中的计算机程序产品,用于分类在视频图像数据中的对象,其包含用于执行本发明中的方法步骤的计算机可读程序代码装置。
本发明中的装置和方法的这些及其它特征、方面和优点通过下列描述、附加权利要求和附图将会变得更容易理解,其中:
图1说明了一个流程图,其显示了本发明分类方法中的步骤。
图2说明了通过图1中的分类方法、在视频图像数据中检测到的一个活动对象以及它的分类。
图3说明了在图1的分类方法中使用的径向基函数网络。
图4说明了一个用于实现图1中的分类方法的装置的原理示意图。
尽管这个发明适用于很多以及各种类型的分类模型,但是已经发现它在径向基函数(RBF)分类器的环境中尤其有用。因此,没有把本发明的适用性限制到RBF分类器,但是将在这种环境中对本发明进行描述。本领域技术人员将会理解,在所公开的方法中能够使用任何用于分类的概率/随机方法,而没有背离本发明的范围或精神。此外,在在此描述的RBF模型中使用的特征是图像数据的梯度,它仅仅是用于举例说明而不是限制本发明的范围。本领域普通技术人员将会理解,除了其它类型的梯度之外也还可以使用其它特征。
本发明中的分类方法不依赖于单个判定方案。相反,所有的分类器(做为选择,它们被称为专家,这是因为分类器显示了它最适合用于一个特定任务的、类似专家的性能)、或它们的子集用于通过组合它们的各个意见导出一个一致性判定而做出判定。换句话说,已经发现了利用不同方法或不同特征的分类器是相互补充的;因此,不同分类器的组合将急剧减少错误并且实现一个较高性能。
下面将结合图1中的流程图对本发明中的分类方法进行描述,其中该分类方法用标记数字100表示。在步骤102,把视频图像数据输入到分类方法100中。在步骤104,对视频图像数据进行分析以检测其中的任何活动对象。在本发明的分类方法100中能够利用任何已知的、用于检测在视频图像数据中的活动对象的方法。更可取地是,通过利用一种减去背景方案,诸如由Elgammal等人在2000年6月于IrelandDublin(爱尔兰都柏林)召开的European Conference on ComputerVision(ECCV)2000(2000年欧洲计算机视觉会议)上的“Non-parametric Model for Background Subtraction”中公开的方案,在视频图像数据中检测活动对象。然而,减去背景仅仅是作为举例给出的,并不是限制本发明的范围或精神。本领域技术人员将会理解,在本发明的方法中也能够利用目前已知的或稍后发展的、用于检测在视频图像数据中的活动对象的其它任何方法,诸如使用颜色信息作为一种分割对象方式的方法。在由Raja等人于1998年1月中国香港召开的第三届亚洲计算机视觉会议论文集(Proceedings of the 3rdAsian Conference on Computer Vision)第I卷(Vol.I)607-614页上的“Segmentation and Tracking Using Colour Mixture Models”中公开了这样一种方法的一个例子。
更可取地是,在步骤106,把非故意的活动对象从所检测到的活动对象中过滤出来。例如,如果该分类方法的目的是把活动对象分类为人或者动物,则在视频图像数据中的其它活动对象、诸如椅子的分类是不必要的,而且甚至可能破坏分类分析。因此,更可取的是通过查看所检测到的活动对象的速度和长宽比过滤出这种非故意的活动对象。
在步骤110,从在视频图像数据中所检测到的每个活动对象中提取两个或更多特征。这种特征可以包含用于每一个所检测到的活动对象的x梯度、y梯度、和组合的xy梯度特征中的至少两个。更可取地是,所有这三个特征x梯度、y梯度、和组合的xy梯度特征都是从每一个所检测到的活动对象中提取的。图2说明了在视频图像数据中的一个所检测到的活动对象、一个步行女性的输入图像200。图202、204、206分别说明了用于该输入图像200的y梯度、x梯度、和组合的xy梯度。梯度是在一个函数中变化的度量,而且该图像能够被认为是图像亮度的某些连续函数的一个采样点队列。
由于一种分类方法应当能够在各种姿势和照明条件下面分类对象,所以,假定有同一类别的实例可能看起来彼此非常不同的的事实(例如,穿着不同衣服的人),如果可能对某一对象类别的实例所占据的全部空间进行建模,则将会是不寻常的。相反,更可取的是对这些在不同方案下面不会变化很多的特征进行标识和建模。梯度是一个这样的特征,是因为它仅仅通过获取形状信息就急剧减少了对象空间的尺寸。
本领域技术人员将会理解,尽管x梯度、y梯度、和组合的xy梯度特征是最佳的,但是在本发明的分类方法100中能够利用目前已知的或稍后发展的其它图像数据特征,诸如由对象展示的活动类型。例如,由动物(例如,狗或猫)展示的活动类型不同于由人展示的活动。仍然还有其它能够用于在人和动物之间进行分类的特征,包含基于外观的特征,诸如寻找类似面部的区域或皮肤检测。
回头参见图1,做为选择,在步骤108,首先将输入图像数据进行平滑以减少噪声效应,在此之后在整个图像上应用一个导数算子(横向/纵向/组合)。更可取地是,使用一个同时执行步骤108中的两个操作的Sobel算子。
在步骤112,为每个检测到的活动对象向每一个提取的特征应用一种特定的分类方法。正如以上论述的那样,能够为每一个从每个检测到的活动对象中所提取的特征使用相同或不同的分类方法。更可取地,分类方法包含一个用于训练和分类所检测到的活动对象中的至少一个的径向基函数(RBF)。更可取地是,由RBF分类器使用x梯度、y梯度、和xy梯度图像中的每一个用于分类。
下面将参考图3对RBF分类器进行描述。RBF网络的结构涉及三个不同的层:一个输入层300、一个第二层310、和一个输出层320。输入层310由源节点(传感单元)(k)组成。第二层310是一个其目的为将数据进行聚类并且减少它的维数的隐藏层。输出层320提供RBF网络的响应到应用于输入层300的特征模式。从输入空间300到隐藏单元空间310的变换是非线性的,然而从隐藏单元空间310到输出空间320的变换是线性的。
特别地,能够以两种方式看待一个RBF分类器。一种是把RBF分类器解释为一组核心函数,它把输入向量展开到一个高维空间中,试图利用这样一个数学事实的优点:投射在一个高维空间中的一个分类问题与在一个低维空间中的情况相比更可能是线性可分的。另一种观点是把RBF分类器解释为一个函数映射的插值方法,它试图通过使用基函数(Basis Functions,BF)的一个线性组合来构造超曲面,一个超曲面用于一个类别。这些超曲面能够被看作是判别式函数,其中该表面就它表示的类别来说具有一个较高值,而对其它所有类别来说具有一个较低值。一个未知的输入向量被分类为属于与在那个点处具有最大输出的超曲面有关的类别。在这种情况下,BF没有用作一个用于一个高维空间的基础,但是用作在其中分量系数(加权)必须被训练的所希望超曲面的有限扩充中的分量。
RBF分类器具有一个非常类似于如图3所示的、传统的三层向后传播网络的体系结构。在输入300和中间层310之间的连接具有单元加权,因此不必进行训练。在中间层310中的节点、即BF节点(i)具有一个用特定均值向量μi和方差向量σi 2指定的高斯(Gaussian)脉冲非线性特性,其中i=1,...,F,且F是BF节点(i)的数目。注意到,σi 2表示高斯脉冲(i)的协方差矩阵中的对角线项。给定一个D维的输入向量X,每个BF节点(i)输出一个反映了由那个输入所引起的BF激励的标量值yi
y i = φ i ( | | X - μ i | | ) = exp [ - Σ k = 1 D ( x k - μ ik ) 2 2 hσ 2 ik ] - - - - ( 1 )
其中h是一个用于方差的比例常数,xk是输入向量X=[x1,x2,...,xD]中的第k个分量,而μik和σik 2分别是基结点(i)的均值向量和方差向量中的第k个分量。接近于高斯BF中心的输入导致较高的激励,而那些远离的输入导致较低的激励。由于RBF网络中的每个输出节点(j)形成了BF节点激励的一个线性组合,所以连接中间和输出层的网络是线性的:
z j = Σ i w ij y i + w oj - - - - ( 2 )
其中zj是第j个输出节点的输出,yi是第i个BF节点的激励,wij是连接第i个BF节点到第j个输出节点的加权,而woj是第j个输出节点的偏差或阈值。这个偏差来自于与一个BF节点有关的加权,其中该BF节点具有一个不考虑输入的恒定单元输出。
一个未知的向量X被分类为属于与具有最大输出zj的输出节点j有关的类别。在线性网络中的加权wij是不能使用迭代的最小化方法、诸如梯度下降求解的。它们可使用一种矩阵伪逆技术被迅速地和精确地确定下来。
对所使用的更适宜的RBF分类器的一个详细算法描述显示在下面的表1和2中。最初,通过选择F、即BF的数目把RBF网络的大小确定下来。F的适当值是问题特有的,而且通常取决于问题的维数以及将要形成的判定域的复杂性。通常,能够通过尝试各种F有经验地确定F,或者它能够被设置为某个常数,一般大于问题的输入维数。
在F被设置之后,能够使用各种方法把BF的均值μi和方差σi 2向量确定下来。能够使用一种向后传播梯度下降技术把它们与输出加权一起进行训练,然而这通常要求一个长的训练时间,并且可能导致次优的局部最小值。做为选择,均值和方差能够在训练输出加权之前被确定下来。然后网络的训练将仅仅涉及确定加权。
BF中心和方差被正常地选择以便覆盖所感兴趣的空间。能够使用不同的技术:采样输入空间的等距BF网格;诸如K-means的聚类算法以确定BF中心组,或来自于训练组的随机向量作为BF中心,以便确保每个类别都被表示了。
一旦BF中心或均值被确定了,就能够设置BF方差或宽度σi 2。它们能够被固定为某个全局值,或是被设置为反映在BF中心附近的数据向量密度。此外,一个用于方差的全局比例因数H被包含在内以考虑BF宽度的重定比例。通过搜索用于导致良好性能值的H区间,它的特征值被确定下来。
在BF参数被设置之后,下一步是训练输出加权。将个别训练模式X(p)和它们的类别标记C(p)提供给分类器,并且计算产生的BF节点输出yi(p)。这些输出和期望的输出dj(p)然后被用来确定F×F相关矩阵R和F×M输出矩阵B。注意到,每个训练模式产生一个R和B矩阵。最后的R和B矩阵是N个R和B矩阵的求和,其中N是训练模式的总数。一旦所有的N个模式都已经提供给分类器了,输出加权wij就能够被确定下来。最后的相关矩阵R被倒置,而且被用来确定每个wij
表1:更适宜的RBF分类的详细算法描述:
Figure A0280042600131
通过提供一个未知的输入向量Xtest到训练过的分类器并且计算所产生的BF节点输出yi,来执行分类。然后使用这些值以及加权wij以计算输出值zj。然后Xtest被分类为属于与具有最大zj输出的输出节点j有关的类别。
表2:更适宜的RBF分类的详细算法描述:
在本发明的方法中,RBF输入300包含作为一维向量提供给网络的n个大小标准化的梯度图像(在视频图像数据中检测到的活动对象)。隐藏(无监控的)层310实现了一个增强的k-means聚类过程,其中Gaussian聚类节点数目和它们的方差被动态地设置。聚类的数目以5为步长从训练图像数目的1/5到n、即训练图像的总数进行变化。用于每个聚类的Gaussian宽度被设置为:最大值{在聚类中心和在类别直径内最远的成员之间的距离,在聚类中心和距其它所有聚类最近的模式之间的距离}乘以一个重叠系数o,在此重叠系数等于2。进一步使用不同的比例常数h动态地改进宽度。隐藏层310产生一个函数形状基础的等效值,其中每个聚类节点贯穿形状空间编码某些共用的特性。输出(监控的)层使用伪逆技术沿着这样一个空间映射形状编码(“扩展”)到它们的相应ID类别,并且查找相应扩展(“加权”)系数。注意到,为当在相同训练图像上测试时在ID分类上产生100%准确性的那个配置(聚类数目和特定比例常数h),冻结聚类的数目。
最后,在步骤114,基于该分类方法为每一特征为每个活动对象导出一个分类。为了使一个连接体系结构成功,必须处理可在图像获取处理中得到的变化性。更可取地是,对上述问题的解法是使用径向基函数集合体(ERBF)实现一致性查询的等效,其中每个RBF网络用作一个个别的评判成员然后共同地得出某个判定。网络集合体能够依据它们的特定拓扑结构(连接和RBF节点)、或在其上训练它们的数据来定义。作为一个例子,图2说明了一个集合体,它包含多个在不同梯度图像、即x梯度202、y梯度204、和组合的xy梯度206上训练的分类器RBF1、RBF2、和RBF3,并从这些梯度图像中形成一致性意见208。
当一个未知的图像200被传递到每个分类器RBF1、RBF2、和RBF3时,最好是输出两个值,一个值对应于类别标记(那个图像200对应的一个类别,例如人、动物、或物体),另一个值是指示了该未知图像200属于所指示类别的概率的概率值。
如图2所示,在本发明的分类方法100的一个最佳实现中,使用了三个分类器,其中每个都在x梯度、y梯度和xy梯度上进行训练。因此,三个分类器RBF1、RBF2和RBF3中的每一个将在当把一个未知的图像200传递给它们时给出三个类别标记和三个概率值。尽管有许多方式来从用于每一个所提取特征的类别标记和概率值中为该未知图像200确定一个最后的分类,但是为了它们的简单性起见,下列两种方式是最佳的:
(1)使用所有概率值的一个平均值。如果平均值大于某个阈值,则确定该图像200属于所指示的类别;或者
(2)利用一种投票方案,其中如果大多数的分类器同意用于考虑中的未知图像200的一个特定类别,则确定该未知图像200属于那个类别。例如,如果RBF1指示图像200属于类别1,RBF2指示图像200属于类别2,而当RBF3指示图像200属于类别1时,由于三个分类器中的两个同意了,所以类别1被分配给图像200。
现在参见图4,说明了一个用于实现本发明中的分类方法100的装置的示意显示。该装置通常由标记数字400表示。装置400包含至少一个摄像机402,用于捕获将要被分类的一个场景404中的视频图像数据。摄像机402最好是捕获场景404中的数字图像数据,或者做为选择,该装置进一步包含一个模-数转换器(未显示),以把该视频图像数据转换为一种数字格式。数字视频图像数据被输入到一个检测***406中用于检测其中的活动对象。由检测***406检测到的任何活动对象最好是被输入到一个处理器408、诸如一台个人计算机中,用于分析活动对象图像数据(即,从在图像数据中检测到的每个活动对象中提取两个或更多特征),并且为每一个所提取的特征执行分类分析,以及为每一个检测到的活动对象导出一致性意见。
本领域技术人员将会理解,本发明中的对象分类方法在安全***、更可取地是在内部安全***领域内具有特殊的实用性。现有技术中的安全***使用机电传感器以触发警报。利用这种***的问题是产生了许多假警报。每当产生一个警报时,典型地将一个信号发送给中央监控中心。中央监控中心然后呼叫住宅或联系号以确认该警报是否为一个假警报。如果这样一个确认不能进行,则中央监控中心通常联系警方以调查该警报。通常大量的警报是假警报。统计表明所产生警报的大约90%都是假警报。为了对抗这个问题,较新的***是在住宅中安装照相机以减少假警报。在这些***中,在中央监控中心处的一个算子获得一个可视图像,但是在对象时常不清楚的意义上来说仍然涉及到额外的工作。减轻算子上的负载的一种替换方式是分类对象、并且向该算子发送被分类对象的图像。因此,如果对象被分类为一个宠物,则该算子能够确认假警报而不必呼叫在该住宅中的某人或一个联系人。
本发明中的分类方法100尤其适于由一段计算机软件程序执行,这种计算机软件程序最好是包含对应于该方法中的各个步骤的模块。这种软件当然能够被包含在一种计算机可读介质、诸如一个集成芯片或一个***设备中。
虽然已经对被认为是该发明最佳实施例的内容进行了显示和描述,但是毫无疑问应当理解,能够很容易地在没有背离本发明精神的情况下在形式或细节上进行各种修改和变化。因此,意图使本发明不局限于所描述和说明的准确形式,但是应当使本发明被构造为涵盖所有可能属于附加权利要求范围之内的修改。

Claims (19)

1.一种用于分类在视频图像数据中的对象的方法,该方法包含以下步骤:
-检测(104)在图像数据中的活动对象;
-从在图像数据中检测到的每个活动对象中提取(110)两个或更多特征;
-依据一种分类方法为这两个或更多特征中的每一个分类(112)每个活动对象;以及
-基于该分类方法为这两个或更多特征中的每一个导出(114)对每个活动对象的一个分类。
2.如权利要求1所述的方法,其特征在于:检测步骤(104)包含从图像数据中减去背景。
3.如权利要求1所述的方法,进一步包含步骤:从所检测到的活动对象中过滤(106)出非故意的活动对象。
4.如权利要求3所述的方法,其特征在于:过滤步骤(106)包含:依据每个所检测到的活动对象的检测速度和长宽比过滤出非故意的活动对象。
5.如权利要求1所述的方法,其特征在于:提取步骤(110)包含:从每一个所检测到的活动对象中提取x梯度(204)、y梯度(202)、和组合的xy梯度(206)特征中的至少两个。
6.如权利要求5所述的方法,进一步包含步骤:在提取步骤之前平滑(108)图像数据以减少噪声效应,然后在该图像数据上应用一个导数算子。
7.如权利要求1所述的方法,其特征在于:分类步骤(112)包含为这两个或更多特征中的每一个使用相同的分类方法。
8.如权利要求1所述的方法,其特征在于:分类步骤(112)包含为这两个或更多特征中的至少两个使用至少两种不同的分类方法。
9.如权利要求1所述的方法,其特征在于:分类步骤(112)包含一个用于训练和分类所检测到的活动对象中至少一个的径向基函数网络。
10.如权利要求9所述的方法,其特征在于:训练步骤包含:
(a)初始化径向基函数网络,该初始化步骤包含以下步骤:
-通过选择多个基函数F固定网络结构,其中每个基函数I具有一个高斯非线性输出;
-使用一种K-means聚类算法确定基函数平均值μi,其中I=1,...,F;
-确定基函数方差σi 2;以及
-通过经验搜索为基函数方差确定一个全局比例系数H;
(b)提供训练,该提供步骤包含以下步骤:
-将训练模式X(p)和它们的类别标记C(p)输入给分类方法,其中模式索引为p=1,...,N;
-计算由模式X(p)产生的基函数节点F的输出yi(p);
-计算基函数输出的F×F相关矩阵R:以及
-计算F×M输出矩阵B,其中dj是期望的输出,M是输出种类的数目,而且j=1,...,M;以及
(c)确定加权,该确定步骤包含以下步骤:
-倒置F×F相关矩阵R以获得R-1:以及
-求解在该网络中的加权。
11.如权利要求10所述的方法,其特征在于:分类步骤(112)包含:
-把用于每个所检测的活动对象的这两个或更多特征Xtest中的每一个提供给该分类方法;以及
-通过以下步骤分类每个Xtest
-为所有的F基函数计算基函数输出;
-计算输出节点激励;以及
-选择具有最大值的输出zj,并且把Xtest分类为类别j。
12.如权利要求1所述的方法,其特征在于:分类步骤(112)包含输出一个类别标记和一个概率值,其中该类别标记标识了所检测到的活动对象对应的一个类别,概率值指示了就这两个或更多特征中的每一个来说未知模式属于该类别的概率。
13.如权利要求12所述的方法,其特征在于:导出步骤(114)包含:为每个检测到的活动对象平均用于这两个或更多特征的概率值,并且确定该平均值是否大于一个阈值。
14.如权利要求12所述的方法,其特征在于:导出步骤(114)包含:确定是否存在大多数标识了一个类似类别的类别标记。
15.一种用于分类在视频图像数据中的对象(404)的装置,该装置包含:
-用于检测(402,406)在图像数据中的活动对象的装置;
-用于从在图像数据中检测到的每个活动对象中提取(408)两个或更多特征的装置;
-用于依据一种分类方法为这两个或更多特征中的每一个分类(408)每个活动对象的装置;以及
-用于基于该分类方法为这两个或更多特征中的每一个导出(408)对每个活动对象的一个分类的装置。
16.如权利要求15所述的装置,进一步包含:用于从所检测到的活动对象中过滤出(408)非故意活动对象的装置。
17.如权利要求15所述的装置,其特征在于:用于提取(408)的装置从每一个所检测到的活动对象中提取x梯度(204)、y梯度(202)、和组合的xy梯度(206)特征中的至少两个,而且该装置进一步包含:用于在提取之前平滑图像数据(408)以减少噪声效应、并且在该图像数据上应用一个导数算子的装置。
18.一种可由机器读取的程序存储设备,有形地包含一段指令程序,该指令程序可由机器执行以执行用于分类在视频图像数据中的对象的方法步骤,该方法包含以下步骤:
-检测在图像数据中的活动对象;
-从在图像数据中检测到的每个活动对象中提取两个或更多特征;
-依据一种分类方法为这两个或更多特征中的每一个分类每个活动对象;以及
-基于该分类方法为这两个或更多特征中的每一个导出对每个活动对象的一个分类。
19.一种包含在一个计算机可读介质中的计算机程序产品,用于分类在视频图像数据中的对象,该计算机程序产品包含:
-用于检测在图像数据中的活动对象的计算机可读程序代码装置;
-用于从在图像数据中检测到的每个活动对象中提取两个或更多特征的计算机可读程序代码装置;
-用于依据一种分类方法为这两个或更多特征中的每一个分类每个活动对象的计算机可读程序代码装置;以及
-用于基于该分类方法为这两个或更多特征中的每一个导出对每个活动对象的一个分类的计算机可读程序代码装置。
CNA028004264A 2001-02-27 2002-02-13 通过模型集合体的对象分类 Pending CN1561503A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/794,443 US6778705B2 (en) 2001-02-27 2001-02-27 Classification of objects through model ensembles
US09/794,443 2001-02-27

Publications (1)

Publication Number Publication Date
CN1561503A true CN1561503A (zh) 2005-01-05

Family

ID=25162631

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA028004264A Pending CN1561503A (zh) 2001-02-27 2002-02-13 通过模型集合体的对象分类

Country Status (6)

Country Link
US (1) US6778705B2 (zh)
EP (1) EP1421557A2 (zh)
JP (1) JP2004523840A (zh)
KR (1) KR20020093092A (zh)
CN (1) CN1561503A (zh)
WO (1) WO2002069267A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079109B (zh) * 2007-06-26 2011-11-30 北京中星微电子有限公司 基于制服特征的身份识别方法和***
CN102521565A (zh) * 2011-11-23 2012-06-27 浙江晨鹰科技有限公司 低分辨率视频的服装识别方法及***
CN103108151A (zh) * 2011-11-09 2013-05-15 华为技术有限公司 视频监控的方法和***
WO2016033990A1 (zh) * 2014-09-01 2016-03-10 华为技术有限公司 生成检测模型的方法和设备、用于检测目标的方法和设备
CN108027899A (zh) * 2015-08-25 2018-05-11 高通股份有限公司 用于提高经训练的机器学习模型的性能的方法
CN111625672A (zh) * 2020-07-30 2020-09-04 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN111784709A (zh) * 2020-07-07 2020-10-16 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备和计算机可读介质

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043075B2 (en) * 2001-09-27 2006-05-09 Koninklijke Philips Electronics N.V. Computer vision system and method employing hierarchical object classification scheme
US7308133B2 (en) * 2001-09-28 2007-12-11 Koninklijke Philips Elecyronics N.V. System and method of face recognition using proportions of learned model
US20030063781A1 (en) * 2001-09-28 2003-04-03 Koninklijke Philips Electronics N.V. Face recognition from a temporal sequence of face images
US7020336B2 (en) * 2001-11-13 2006-03-28 Koninklijke Philips Electronics N.V. Identification and evaluation of audience exposure to logos in a broadcast event
JP2003228706A (ja) * 2002-02-05 2003-08-15 Fuji Xerox Co Ltd データ分類装置
JP2003256443A (ja) * 2002-03-05 2003-09-12 Fuji Xerox Co Ltd データ分類装置
US7181062B2 (en) * 2002-08-30 2007-02-20 Lockheed Martin Corporation Modular classification architecture for a pattern recognition application
US7873223B2 (en) * 2002-10-15 2011-01-18 Definiens Ag Cognition integrator and language
US8594410B2 (en) 2006-08-28 2013-11-26 Definiens Ag Context driven image mining to generate image-based biomarkers
US7801361B2 (en) * 2002-10-15 2010-09-21 Definiens Ag Analyzing pixel data using image, thematic and object layers of a computer-implemented network structure
CN1723467A (zh) * 2002-12-13 2006-01-18 皇家飞利浦电子股份有限公司 表情不变的面部识别
US7212651B2 (en) * 2003-06-17 2007-05-01 Mitsubishi Electric Research Laboratories, Inc. Detecting pedestrians using patterns of motion and appearance in videos
ITMI20031449A1 (it) * 2003-07-15 2005-01-16 St Microelectronics Srl Metodo per classificare una immagine digitale
US20050058350A1 (en) * 2003-09-15 2005-03-17 Lockheed Martin Corporation System and method for object identification
US7599530B2 (en) * 2003-10-01 2009-10-06 Authentec, Inc. Methods for matching ridge orientation characteristic maps and associated finger biometric sensor
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
US7710452B1 (en) 2005-03-16 2010-05-04 Eric Lindberg Remote video monitoring of non-urban outdoor sites
ITBG20050013A1 (it) * 2005-03-24 2006-09-25 Celin Technology Innovation Srl Metodo per il riconoscimento tra un primo oggetto ed un secondo oggetto rappresentati da immagini.
US20070058836A1 (en) * 2005-09-15 2007-03-15 Honeywell International Inc. Object classification in video data
WO2007051118A2 (en) 2005-10-25 2007-05-03 Nxstage Medical, Inc Safety features for medical devices requiring assistance and supervision
US7728839B2 (en) * 2005-10-28 2010-06-01 Honda Motor Co., Ltd. Discriminative motion modeling for human motion tracking
US20070160123A1 (en) * 2006-01-11 2007-07-12 Gillespie Richard P System for isolating an object in a broadcast signal
US20080123959A1 (en) * 2006-06-26 2008-05-29 Ratner Edward R Computer-implemented method for automated object recognition and classification in scenes using segment-based object extraction
US20080112593A1 (en) * 2006-11-03 2008-05-15 Ratner Edward R Automated method and apparatus for robust image object recognition and/or classification using multiple temporal views
US8195734B1 (en) 2006-11-27 2012-06-05 The Research Foundation Of State University Of New York Combining multiple clusterings by soft correspondence
US8989468B2 (en) * 2007-05-25 2015-03-24 Definiens Ag Generating an anatomical model using a rule-based segmentation and classification process
US8542872B2 (en) 2007-07-03 2013-09-24 Pivotal Vision, Llc Motion-validating remote monitoring system
US8718363B2 (en) * 2008-01-16 2014-05-06 The Charles Stark Draper Laboratory, Inc. Systems and methods for analyzing image data using adaptive neighborhooding
US8737703B2 (en) * 2008-01-16 2014-05-27 The Charles Stark Draper Laboratory, Inc. Systems and methods for detecting retinal abnormalities
US8150169B2 (en) * 2008-09-16 2012-04-03 Viewdle Inc. System and method for object clustering and identification in video
DE102008043954A1 (de) * 2008-11-21 2010-05-27 Robert Bosch Gmbh Sensornetzwerksystem, Übertragunsprotokoll, Verfahren zum Wiedererkennen eines Objekts sowie Computerprogramm
KR101268520B1 (ko) * 2009-12-14 2013-06-04 한국전자통신연구원 영상 인식 장치 및 방법
CN101908153B (zh) * 2010-08-21 2012-11-21 上海交通大学 低分辨率图像处理中的头部姿态估计的方法
KR101425170B1 (ko) * 2010-11-16 2014-08-04 한국전자통신연구원 영상 촬영 장치의 객체 추적 장치 및 방법과 보안 관리 시스템의 객체 추적 장치
US8917934B2 (en) * 2012-06-14 2014-12-23 International Business Machines Corporation Multi-cue object detection and analysis
KR20150031985A (ko) * 2013-09-17 2015-03-25 한국전자통신연구원 모바일 기기와 협력하여 위험 상황을 추적하기 위한 시스템 및 그 방법
CN104361363B (zh) * 2014-11-25 2018-01-16 中国科学院自动化研究所 深度反卷积特征学习网络、生成方法及图像分类方法
CN106650806B (zh) * 2016-12-16 2019-07-26 北京大学深圳研究生院 一种用于行人检测的协同式深度网络模型方法
CN107085704A (zh) * 2017-03-27 2017-08-22 杭州电子科技大学 基于elm自编码算法的快速人脸表情识别方法
CN108178037A (zh) * 2017-12-30 2018-06-19 武汉大学 一种基于卷积神经网络的电梯故障识别方法
CN110276411B (zh) * 2019-06-28 2022-11-18 腾讯科技(深圳)有限公司 图像分类方法、装置、设备、存储介质和医疗电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2953712B2 (ja) * 1989-09-27 1999-09-27 株式会社東芝 移動物体検知装置
GB2266638B (en) * 1992-04-01 1996-09-25 Kenneth Stanley Jones Multiple visual display from motion classifications for digital TV
KR100213015B1 (ko) * 1994-03-31 1999-08-02 윤종용 양자화 방법 및 회로
JP3569992B2 (ja) * 1995-02-17 2004-09-29 株式会社日立製作所 移動体検出・抽出装置、移動体検出・抽出方法及び移動体監視システム
US5854856A (en) * 1995-07-19 1998-12-29 Carnegie Mellon University Content based video compression system
US6263088B1 (en) * 1997-06-19 2001-07-17 Ncr Corporation System and method for tracking movement of objects in a scene
JP3141004B2 (ja) * 1998-08-31 2001-03-05 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 動画中のオブジェクトを分類する方法
US6678413B1 (en) * 2000-11-24 2004-01-13 Yiqing Liang System and method for object identification and behavior characterization using video analysis

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079109B (zh) * 2007-06-26 2011-11-30 北京中星微电子有限公司 基于制服特征的身份识别方法和***
CN103108151A (zh) * 2011-11-09 2013-05-15 华为技术有限公司 视频监控的方法和***
CN102521565A (zh) * 2011-11-23 2012-06-27 浙江晨鹰科技有限公司 低分辨率视频的服装识别方法及***
CN102521565B (zh) * 2011-11-23 2014-02-26 浙江晨鹰科技有限公司 低分辨率视频的服装识别方法及***
WO2016033990A1 (zh) * 2014-09-01 2016-03-10 华为技术有限公司 生成检测模型的方法和设备、用于检测目标的方法和设备
CN108027899A (zh) * 2015-08-25 2018-05-11 高通股份有限公司 用于提高经训练的机器学习模型的性能的方法
CN111784709A (zh) * 2020-07-07 2020-10-16 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备和计算机可读介质
CN111784709B (zh) * 2020-07-07 2023-02-17 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备和计算机可读介质
CN111625672A (zh) * 2020-07-30 2020-09-04 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN111625672B (zh) * 2020-07-30 2020-10-30 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
JP2004523840A (ja) 2004-08-05
KR20020093092A (ko) 2002-12-12
EP1421557A2 (en) 2004-05-26
US20020181785A1 (en) 2002-12-05
WO2002069267A3 (en) 2004-02-05
US6778705B2 (en) 2004-08-17
WO2002069267A2 (en) 2002-09-06

Similar Documents

Publication Publication Date Title
CN1561503A (zh) 通过模型集合体的对象分类
CN108319964B (zh) 一种基于混合特征和流形学习的火灾图像识别方法
Li et al. Automatic pavement crack detection by multi-scale image fusion
CN101271515B (zh) 能识别多角度目标的图像检测装置
Agarwal et al. Learning a sparse representation for object detection
WO2017190574A1 (zh) 一种基于聚合通道特征的快速行人检测方法
US8498448B2 (en) Multi-view object detection using appearance model transfer from similar scenes
CN104303193B (zh) 基于聚类的目标分类
CN110119726B (zh) 一种基于YOLOv3模型的车辆品牌多角度识别方法
CN105574550A (zh) 一种车辆识别方法及装置
CN109829467A (zh) 图像标注方法、电子装置及非暂态电脑可读取储存媒体
CN104063719A (zh) 基于深度卷积网络的行人检测方法及装置
CN109800802A (zh) 视觉传感器及应用于视觉传感器的物体检测方法和装置
CN109902590A (zh) 深度多视图特征距离学习的行人重识别方法
Li et al. Research on vehicle license plate location based on neural networks
CN114492768B (zh) 一种基于小样本学习的孪生胶囊网络入侵检测方法
CN103761531A (zh) 基于形状轮廓特征的稀疏编码车牌字符识别方法
CN104268528A (zh) 一种人群聚集区域检测方法和装置
CN108171119B (zh) 基于残差网络的sar图像变化检测方法
CN108681737A (zh) 一种复杂光照下图像特征提取方法
Han et al. Moving object detection revisited: Speed and robustness
CN109271932A (zh) 基于颜色匹配的行人再识别方法
CN102169631A (zh) 基于流形学习的交通拥堵事件协同检测方法
CN102693427A (zh) 形成和使用用于检测图像的检测器的方法和设备
CN106491322A (zh) 基于OpenCV图像识别的盲人拐杖控制***及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication