CN1561503A

CN1561503A - 通过模型集合体的对象分类

Info

Publication number: CN1561503A
Application number: CNA028004264A
Authority: CN
Inventors: S·古塔; V·费洛明
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-02-27
Filing date: 2002-02-13
Publication date: 2005-01-05
Also published as: JP2004523840A; KR20020093092A; EP1421557A2; US20020181785A1; WO2002069267A3; US6778705B2; WO2002069267A2

Abstract

一种用于分类在视频图像数据中的对象的方法。该方法包含以下步骤：检测在图像数据中的活动对象；从在图像数据中检测到的每个活动对象中提取两个或更多特征；依据一种分类方法为这两个或更多特征中的每一个分类每个活动对象；以及基于该分类方法为这两个或更多特征中的每一个导出对每个活动对象的一个分类。此外还提供了一个用于分类在视频图像数据中的对象的装置。

Description

通过模型集合体的对象分类

本发明通常涉及对象分类，尤其是涉及基于来自于许多分类器(模型)的各个意见分类在图像数据中的对象以导出一个一致性的意见。

在任何模式识别***设计中的最终目标是实现最好的可能分类(预言性的)性能。这个目标传统上会导致为将要解决的特定模式识别问题开发不同的分类方案。不同设计的一个试验性评定结果然后将是用于选择一个分类器(模型选择)作为该问题的一个最终解决方案的基础。已经观察到了，在这种设计研究中，尽管其中之一的设计将产生最好的性能，但是由不同分类器错误分类的模式设置不一定会重叠。

鉴于现有技术，需要有一种用于分类在图像数据中的对象的方法，其利用这个观察以实现最佳可能分类性能。

因此，本发明的一个目的是提供一种用于分类在图像数据中的对象的方法，其从来自于许多分类器(模型)的各个意见中导出和对象分类有关的一致性意见。

因此，提供了一种用于分类在视频图像数据中的对象的方法。该方法包含以下步骤：检测在图像数据中的活动对象；从在图像数据中检测到的每个活动对象中提取两个或更多特征；依据一种分类方法为这两个或更多特征中的每一个分类每个活动对象；以及基于该分类方法为这两个或更多特征中的每一个导出对每个活动对象的一个分类。

更可取地是，该方法进一步包含步骤：从所检测到的活动对象中过滤出非故意的活动对象，其中过滤步骤依据每个检测到的活动对象的检测速度和长宽比过滤出非故意的活动对象。

更可取地是，提取步骤包含：从每一个检测到的活动对象中提取x梯度、y梯度、和组合的xy梯度特征中的至少两个，并且进一步包含步骤：在提取步骤之前平滑图像数据以减少噪声效应，然后在图像数据上应用一个导数算子。

分类步骤包含：为这两个或更多特征中的每一个使用相同的分类方法，或者为这两个或更多特征中的至少两个使用至少两种不同的分类方法。

更可取地，该分类方法包含一个用于训练和分类至少一个所检测到的活动物体的径向基函数(Radial Basis Function)网络，而且分类步骤包含输出一个类别标记和一个概率值，其中类别标记标识了该所检测到的活动对象所对应的一个类别，概率值指示了对于这两个或更多特征中的每一个来说，未知模式属于该类别的概率。

此外还提供了一个用于分类在视频图像数据中的对象的装置。该装置包含：用于在图像数据中检测活动对象的装置；用于从在图像数据中检测到的每个活动对象中提取两个或更多特征的装置；用于依据一种分类方法为这两个或更多特征中的每一个分类每个活动对象的装置；以及用于基于该分类方法为这两个或更多特征中的每一个导出对每个活动对象的一个分类的装置。

还提供了：一个可由机器读取的程序存储设备，其有形地包含了一个指令程序，其中该指令程序可由机器执行以执行本发明中的方法步骤；以及一个包含在一个计算机可读介质中的计算机程序产品，用于分类在视频图像数据中的对象，其包含用于执行本发明中的方法步骤的计算机可读程序代码装置。

本发明中的装置和方法的这些及其它特征、方面和优点通过下列描述、附加权利要求和附图将会变得更容易理解，其中：

图1说明了一个流程图，其显示了本发明分类方法中的步骤。

图2说明了通过图1中的分类方法、在视频图像数据中检测到的一个活动对象以及它的分类。

图3说明了在图1的分类方法中使用的径向基函数网络。

图4说明了一个用于实现图1中的分类方法的装置的原理示意图。

尽管这个发明适用于很多以及各种类型的分类模型，但是已经发现它在径向基函数(RBF)分类器的环境中尤其有用。因此，没有把本发明的适用性限制到RBF分类器，但是将在这种环境中对本发明进行描述。本领域技术人员将会理解，在所公开的方法中能够使用任何用于分类的概率/随机方法，而没有背离本发明的范围或精神。此外，在在此描述的RBF模型中使用的特征是图像数据的梯度，它仅仅是用于举例说明而不是限制本发明的范围。本领域普通技术人员将会理解，除了其它类型的梯度之外也还可以使用其它特征。

本发明中的分类方法不依赖于单个判定方案。相反，所有的分类器(做为选择，它们被称为专家，这是因为分类器显示了它最适合用于一个特定任务的、类似专家的性能)、或它们的子集用于通过组合它们的各个意见导出一个一致性判定而做出判定。换句话说，已经发现了利用不同方法或不同特征的分类器是相互补充的；因此，不同分类器的组合将急剧减少错误并且实现一个较高性能。

下面将结合图1中的流程图对本发明中的分类方法进行描述，其中该分类方法用标记数字100表示。在步骤102，把视频图像数据输入到分类方法100中。在步骤104，对视频图像数据进行分析以检测其中的任何活动对象。在本发明的分类方法100中能够利用任何已知的、用于检测在视频图像数据中的活动对象的方法。更可取地是，通过利用一种减去背景方案，诸如由Elgammal等人在2000年6月于IrelandDublin(爱尔兰都柏林)召开的European Conference on ComputerVision(ECCV)2000(2000年欧洲计算机视觉会议)上的“Non-parametric Model for Background Subtraction”中公开的方案，在视频图像数据中检测活动对象。然而，减去背景仅仅是作为举例给出的，并不是限制本发明的范围或精神。本领域技术人员将会理解，在本发明的方法中也能够利用目前已知的或稍后发展的、用于检测在视频图像数据中的活动对象的其它任何方法，诸如使用颜色信息作为一种分割对象方式的方法。在由Raja等人于1998年1月中国香港召开的第三届亚洲计算机视觉会议论文集(Proceedings of the 3rdAsian Conference on Computer Vision)第I卷(Vol.I)607-614页上的“Segmentation and Tracking Using Colour Mixture Models”中公开了这样一种方法的一个例子。

更可取地是，在步骤106，把非故意的活动对象从所检测到的活动对象中过滤出来。例如，如果该分类方法的目的是把活动对象分类为人或者动物，则在视频图像数据中的其它活动对象、诸如椅子的分类是不必要的，而且甚至可能破坏分类分析。因此，更可取的是通过查看所检测到的活动对象的速度和长宽比过滤出这种非故意的活动对象。

在步骤110，从在视频图像数据中所检测到的每个活动对象中提取两个或更多特征。这种特征可以包含用于每一个所检测到的活动对象的x梯度、y梯度、和组合的xy梯度特征中的至少两个。更可取地是，所有这三个特征x梯度、y梯度、和组合的xy梯度特征都是从每一个所检测到的活动对象中提取的。图2说明了在视频图像数据中的一个所检测到的活动对象、一个步行女性的输入图像200。图202、204、206分别说明了用于该输入图像200的y梯度、x梯度、和组合的xy梯度。梯度是在一个函数中变化的度量，而且该图像能够被认为是图像亮度的某些连续函数的一个采样点队列。

由于一种分类方法应当能够在各种姿势和照明条件下面分类对象，所以，假定有同一类别的实例可能看起来彼此非常不同的的事实(例如，穿着不同衣服的人)，如果可能对某一对象类别的实例所占据的全部空间进行建模，则将会是不寻常的。相反，更可取的是对这些在不同方案下面不会变化很多的特征进行标识和建模。梯度是一个这样的特征，是因为它仅仅通过获取形状信息就急剧减少了对象空间的尺寸。

本领域技术人员将会理解，尽管x梯度、y梯度、和组合的xy梯度特征是最佳的，但是在本发明的分类方法100中能够利用目前已知的或稍后发展的其它图像数据特征，诸如由对象展示的活动类型。例如，由动物(例如，狗或猫)展示的活动类型不同于由人展示的活动。仍然还有其它能够用于在人和动物之间进行分类的特征，包含基于外观的特征，诸如寻找类似面部的区域或皮肤检测。

回头参见图1，做为选择，在步骤108，首先将输入图像数据进行平滑以减少噪声效应，在此之后在整个图像上应用一个导数算子(横向/纵向/组合)。更可取地是，使用一个同时执行步骤108中的两个操作的Sobel算子。

在步骤112，为每个检测到的活动对象向每一个提取的特征应用一种特定的分类方法。正如以上论述的那样，能够为每一个从每个检测到的活动对象中所提取的特征使用相同或不同的分类方法。更可取地，分类方法包含一个用于训练和分类所检测到的活动对象中的至少一个的径向基函数(RBF)。更可取地是，由RBF分类器使用x梯度、y梯度、和xy梯度图像中的每一个用于分类。

下面将参考图3对RBF分类器进行描述。RBF网络的结构涉及三个不同的层：一个输入层300、一个第二层310、和一个输出层320。输入层310由源节点(传感单元)(k)组成。第二层310是一个其目的为将数据进行聚类并且减少它的维数的隐藏层。输出层320提供RBF网络的响应到应用于输入层300的特征模式。从输入空间300到隐藏单元空间310的变换是非线性的，然而从隐藏单元空间310到输出空间320的变换是线性的。

特别地，能够以两种方式看待一个RBF分类器。一种是把RBF分类器解释为一组核心函数，它把输入向量展开到一个高维空间中，试图利用这样一个数学事实的优点：投射在一个高维空间中的一个分类问题与在一个低维空间中的情况相比更可能是线性可分的。另一种观点是把RBF分类器解释为一个函数映射的插值方法，它试图通过使用基函数(Basis Functions，BF)的一个线性组合来构造超曲面，一个超曲面用于一个类别。这些超曲面能够被看作是判别式函数，其中该表面就它表示的类别来说具有一个较高值，而对其它所有类别来说具有一个较低值。一个未知的输入向量被分类为属于与在那个点处具有最大输出的超曲面有关的类别。在这种情况下，BF没有用作一个用于一个高维空间的基础，但是用作在其中分量系数(加权)必须被训练的所希望超曲面的有限扩充中的分量。

RBF分类器具有一个非常类似于如图3所示的、传统的三层向后传播网络的体系结构。在输入300和中间层310之间的连接具有单元加权，因此不必进行训练。在中间层310中的节点、即BF节点(i)具有一个用特定均值向量μi和方差向量σ_i ²指定的高斯(Gaussian)脉冲非线性特性，其中i＝1，...，F，且F是BF节点(i)的数目。注意到，σ_i ²表示高斯脉冲(i)的协方差矩阵中的对角线项。给定一个D维的输入向量X，每个BF节点(i)输出一个反映了由那个输入所引起的BF激励的标量值y_i：

y_{i} = φ_{i} (| | X - μ_{i} | |) = \exp [- Σ_{k = 1}^{D} \frac{{(x_{k} - μ_{ik})}^{2}}{{2 hσ}^{2}_{ik}}] - - - - (1)

其中h是一个用于方差的比例常数，x_k是输入向量X＝[x₁，x₂，...，x_D]中的第k个分量，而μ_ik和σ_ik ²分别是基结点(i)的均值向量和方差向量中的第k个分量。接近于高斯BF中心的输入导致较高的激励，而那些远离的输入导致较低的激励。由于RBF网络中的每个输出节点(j)形成了BF节点激励的一个线性组合，所以连接中间和输出层的网络是线性的：

z_{j} = \underset{i}{Σ} w_{ij} y_{i} + w_{oj} - - - - (2)

其中z_j是第j个输出节点的输出，y_i是第i个BF节点的激励，w_ij是连接第i个BF节点到第j个输出节点的加权，而w_oj是第j个输出节点的偏差或阈值。这个偏差来自于与一个BF节点有关的加权，其中该BF节点具有一个不考虑输入的恒定单元输出。

一个未知的向量X被分类为属于与具有最大输出z_j的输出节点j有关的类别。在线性网络中的加权w_ij是不能使用迭代的最小化方法、诸如梯度下降求解的。它们可使用一种矩阵伪逆技术被迅速地和精确地确定下来。

对所使用的更适宜的RBF分类器的一个详细算法描述显示在下面的表1和2中。最初，通过选择F、即BF的数目把RBF网络的大小确定下来。F的适当值是问题特有的，而且通常取决于问题的维数以及将要形成的判定域的复杂性。通常，能够通过尝试各种F有经验地确定F，或者它能够被设置为某个常数，一般大于问题的输入维数。

在F被设置之后，能够使用各种方法把BF的均值μ_i和方差σ_i ²向量确定下来。能够使用一种向后传播梯度下降技术把它们与输出加权一起进行训练，然而这通常要求一个长的训练时间，并且可能导致次优的局部最小值。做为选择，均值和方差能够在训练输出加权之前被确定下来。然后网络的训练将仅仅涉及确定加权。

BF中心和方差被正常地选择以便覆盖所感兴趣的空间。能够使用不同的技术：采样输入空间的等距BF网格；诸如K-means的聚类算法以确定BF中心组，或来自于训练组的随机向量作为BF中心，以便确保每个类别都被表示了。

一旦BF中心或均值被确定了，就能够设置BF方差或宽度σ_i ²。它们能够被固定为某个全局值，或是被设置为反映在BF中心附近的数据向量密度。此外，一个用于方差的全局比例因数H被包含在内以考虑BF宽度的重定比例。通过搜索用于导致良好性能值的H区间，它的特征值被确定下来。

在BF参数被设置之后，下一步是训练输出加权。将个别训练模式X(p)和它们的类别标记C(p)提供给分类器，并且计算产生的BF节点输出y_i(p)。这些输出和期望的输出d_j(p)然后被用来确定F×F相关矩阵R和F×M输出矩阵B。注意到，每个训练模式产生一个R和B矩阵。最后的R和B矩阵是N个R和B矩阵的求和，其中N是训练模式的总数。一旦所有的N个模式都已经提供给分类器了，输出加权w_ij就能够被确定下来。最后的相关矩阵R被倒置，而且被用来确定每个w_ij。

表1：更适宜的RBF分类的详细算法描述：

通过提供一个未知的输入向量X_test到训练过的分类器并且计算所产生的BF节点输出y_i，来执行分类。然后使用这些值以及加权w_ij以计算输出值z_j。然后X_test被分类为属于与具有最大z_j输出的输出节点j有关的类别。

表2：更适宜的RBF分类的详细算法描述：

在本发明的方法中，RBF输入300包含作为一维向量提供给网络的n个大小标准化的梯度图像(在视频图像数据中检测到的活动对象)。隐藏(无监控的)层310实现了一个增强的k-means聚类过程，其中Gaussian聚类节点数目和它们的方差被动态地设置。聚类的数目以5为步长从训练图像数目的1/5到n、即训练图像的总数进行变化。用于每个聚类的Gaussian宽度被设置为：最大值{在聚类中心和在类别直径内最远的成员之间的距离，在聚类中心和距其它所有聚类最近的模式之间的距离}乘以一个重叠系数o，在此重叠系数等于2。进一步使用不同的比例常数h动态地改进宽度。隐藏层310产生一个函数形状基础的等效值，其中每个聚类节点贯穿形状空间编码某些共用的特性。输出(监控的)层使用伪逆技术沿着这样一个空间映射形状编码(“扩展”)到它们的相应ID类别，并且查找相应扩展(“加权”)系数。注意到，为当在相同训练图像上测试时在ID分类上产生100％准确性的那个配置(聚类数目和特定比例常数h)，冻结聚类的数目。

最后，在步骤114，基于该分类方法为每一特征为每个活动对象导出一个分类。为了使一个连接体系结构成功，必须处理可在图像获取处理中得到的变化性。更可取地是，对上述问题的解法是使用径向基函数集合体(ERBF)实现一致性查询的等效，其中每个RBF网络用作一个个别的评判成员然后共同地得出某个判定。网络集合体能够依据它们的特定拓扑结构(连接和RBF节点)、或在其上训练它们的数据来定义。作为一个例子，图2说明了一个集合体，它包含多个在不同梯度图像、即x梯度202、y梯度204、和组合的xy梯度206上训练的分类器RBF1、RBF2、和RBF3，并从这些梯度图像中形成一致性意见208。

当一个未知的图像200被传递到每个分类器RBF1、RBF2、和RBF3时，最好是输出两个值，一个值对应于类别标记(那个图像200对应的一个类别，例如人、动物、或物体)，另一个值是指示了该未知图像200属于所指示类别的概率的概率值。

如图2所示，在本发明的分类方法100的一个最佳实现中，使用了三个分类器，其中每个都在x梯度、y梯度和xy梯度上进行训练。因此，三个分类器RBF1、RBF2和RBF3中的每一个将在当把一个未知的图像200传递给它们时给出三个类别标记和三个概率值。尽管有许多方式来从用于每一个所提取特征的类别标记和概率值中为该未知图像200确定一个最后的分类，但是为了它们的简单性起见，下列两种方式是最佳的：

(1)使用所有概率值的一个平均值。如果平均值大于某个阈值，则确定该图像200属于所指示的类别；或者

(2)利用一种投票方案，其中如果大多数的分类器同意用于考虑中的未知图像200的一个特定类别，则确定该未知图像200属于那个类别。例如，如果RBF1指示图像200属于类别1，RBF2指示图像200属于类别2，而当RBF3指示图像200属于类别1时，由于三个分类器中的两个同意了，所以类别1被分配给图像200。

现在参见图4，说明了一个用于实现本发明中的分类方法100的装置的示意显示。该装置通常由标记数字400表示。装置400包含至少一个摄像机402，用于捕获将要被分类的一个场景404中的视频图像数据。摄像机402最好是捕获场景404中的数字图像数据，或者做为选择，该装置进一步包含一个模-数转换器(未显示)，以把该视频图像数据转换为一种数字格式。数字视频图像数据被输入到一个检测***406中用于检测其中的活动对象。由检测***406检测到的任何活动对象最好是被输入到一个处理器408、诸如一台个人计算机中，用于分析活动对象图像数据(即，从在图像数据中检测到的每个活动对象中提取两个或更多特征)，并且为每一个所提取的特征执行分类分析，以及为每一个检测到的活动对象导出一致性意见。

本领域技术人员将会理解，本发明中的对象分类方法在安全***、更可取地是在内部安全***领域内具有特殊的实用性。现有技术中的安全***使用机电传感器以触发警报。利用这种***的问题是产生了许多假警报。每当产生一个警报时，典型地将一个信号发送给中央监控中心。中央监控中心然后呼叫住宅或联系号以确认该警报是否为一个假警报。如果这样一个确认不能进行，则中央监控中心通常联系警方以调查该警报。通常大量的警报是假警报。统计表明所产生警报的大约90％都是假警报。为了对抗这个问题，较新的***是在住宅中安装照相机以减少假警报。在这些***中，在中央监控中心处的一个算子获得一个可视图像，但是在对象时常不清楚的意义上来说仍然涉及到额外的工作。减轻算子上的负载的一种替换方式是分类对象、并且向该算子发送被分类对象的图像。因此，如果对象被分类为一个宠物，则该算子能够确认假警报而不必呼叫在该住宅中的某人或一个联系人。

本发明中的分类方法100尤其适于由一段计算机软件程序执行，这种计算机软件程序最好是包含对应于该方法中的各个步骤的模块。这种软件当然能够被包含在一种计算机可读介质、诸如一个集成芯片或一个***设备中。

虽然已经对被认为是该发明最佳实施例的内容进行了显示和描述，但是毫无疑问应当理解，能够很容易地在没有背离本发明精神的情况下在形式或细节上进行各种修改和变化。因此，意图使本发明不局限于所描述和说明的准确形式，但是应当使本发明被构造为涵盖所有可能属于附加权利要求范围之内的修改。

Claims

1.一种用于分类在视频图像数据中的对象的方法，该方法包含以下步骤：

-检测(104)在图像数据中的活动对象；

-从在图像数据中检测到的每个活动对象中提取(110)两个或更多特征；

-依据一种分类方法为这两个或更多特征中的每一个分类(112)每个活动对象；以及

-基于该分类方法为这两个或更多特征中的每一个导出(114)对每个活动对象的一个分类。

2.如权利要求1所述的方法，其特征在于：检测步骤(104)包含从图像数据中减去背景。

3.如权利要求1所述的方法，进一步包含步骤：从所检测到的活动对象中过滤(106)出非故意的活动对象。

4.如权利要求3所述的方法，其特征在于：过滤步骤(106)包含：依据每个所检测到的活动对象的检测速度和长宽比过滤出非故意的活动对象。

5.如权利要求1所述的方法，其特征在于：提取步骤(110)包含：从每一个所检测到的活动对象中提取x梯度(204)、y梯度(202)、和组合的xy梯度(206)特征中的至少两个。

6.如权利要求5所述的方法，进一步包含步骤：在提取步骤之前平滑(108)图像数据以减少噪声效应，然后在该图像数据上应用一个导数算子。

7.如权利要求1所述的方法，其特征在于：分类步骤(112)包含为这两个或更多特征中的每一个使用相同的分类方法。

8.如权利要求1所述的方法，其特征在于：分类步骤(112)包含为这两个或更多特征中的至少两个使用至少两种不同的分类方法。

9.如权利要求1所述的方法，其特征在于：分类步骤(112)包含一个用于训练和分类所检测到的活动对象中至少一个的径向基函数网络。

10.如权利要求9所述的方法，其特征在于：训练步骤包含：

(a)初始化径向基函数网络，该初始化步骤包含以下步骤：

-通过选择多个基函数F固定网络结构，其中每个基函数I具有一个高斯非线性输出；

-使用一种K-means聚类算法确定基函数平均值μ_i，其中I＝1，...，F；

-确定基函数方差σ_i ²；以及

-通过经验搜索为基函数方差确定一个全局比例系数H；

(b)提供训练，该提供步骤包含以下步骤：

-将训练模式X(p)和它们的类别标记C(p)输入给分类方法，其中模式索引为p＝1，...，N；

-计算由模式X(p)产生的基函数节点F的输出y_i(p)；

-计算基函数输出的F×F相关矩阵R：以及

-计算F×M输出矩阵B，其中d_j是期望的输出，M是输出种类的数目，而且j＝1，...，M；以及

(c)确定加权，该确定步骤包含以下步骤：

-倒置F×F相关矩阵R以获得R^-1：以及

-求解在该网络中的加权。

11.如权利要求10所述的方法，其特征在于：分类步骤(112)包含：

-把用于每个所检测的活动对象的这两个或更多特征X_test中的每一个提供给该分类方法；以及

-通过以下步骤分类每个X_test：

-为所有的F基函数计算基函数输出；

-计算输出节点激励；以及

-选择具有最大值的输出z_j，并且把X_test分类为类别j。

12.如权利要求1所述的方法，其特征在于：分类步骤(112)包含输出一个类别标记和一个概率值，其中该类别标记标识了所检测到的活动对象对应的一个类别，概率值指示了就这两个或更多特征中的每一个来说未知模式属于该类别的概率。

13.如权利要求12所述的方法，其特征在于：导出步骤(114)包含：为每个检测到的活动对象平均用于这两个或更多特征的概率值，并且确定该平均值是否大于一个阈值。

14.如权利要求12所述的方法，其特征在于：导出步骤(114)包含：确定是否存在大多数标识了一个类似类别的类别标记。

15.一种用于分类在视频图像数据中的对象(404)的装置，该装置包含：

-用于检测(402，406)在图像数据中的活动对象的装置；

-用于从在图像数据中检测到的每个活动对象中提取(408)两个或更多特征的装置；

-用于依据一种分类方法为这两个或更多特征中的每一个分类(408)每个活动对象的装置；以及

-用于基于该分类方法为这两个或更多特征中的每一个导出(408)对每个活动对象的一个分类的装置。

16.如权利要求15所述的装置，进一步包含：用于从所检测到的活动对象中过滤出(408)非故意活动对象的装置。

17.如权利要求15所述的装置，其特征在于：用于提取(408)的装置从每一个所检测到的活动对象中提取x梯度(204)、y梯度(202)、和组合的xy梯度(206)特征中的至少两个，而且该装置进一步包含：用于在提取之前平滑图像数据(408)以减少噪声效应、并且在该图像数据上应用一个导数算子的装置。

18.一种可由机器读取的程序存储设备，有形地包含一段指令程序，该指令程序可由机器执行以执行用于分类在视频图像数据中的对象的方法步骤，该方法包含以下步骤：

-检测在图像数据中的活动对象；

-从在图像数据中检测到的每个活动对象中提取两个或更多特征；

-依据一种分类方法为这两个或更多特征中的每一个分类每个活动对象；以及

-基于该分类方法为这两个或更多特征中的每一个导出对每个活动对象的一个分类。

19.一种包含在一个计算机可读介质中的计算机程序产品，用于分类在视频图像数据中的对象，该计算机程序产品包含：

-用于检测在图像数据中的活动对象的计算机可读程序代码装置；

-用于从在图像数据中检测到的每个活动对象中提取两个或更多特征的计算机可读程序代码装置；

-用于依据一种分类方法为这两个或更多特征中的每一个分类每个活动对象的计算机可读程序代码装置；以及

-用于基于该分类方法为这两个或更多特征中的每一个导出对每个活动对象的一个分类的计算机可读程序代码装置。