CN101350069A

CN101350069A - 从训练数据构建分类器并使用分类器检测在测试数据中的移动对象的计算机实现方法

Info

Publication number: CN101350069A
Application number: CNA2008101277567A
Authority: CN
Inventors: 法提赫·M·波里克利; 恩杰尔·C·图泽尔
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-06-15
Filing date: 2008-06-10
Publication date: 2009-01-21
Anticipated expiration: 2028-06-10
Also published as: EP2003596A2; US20080063285A1; US7899253B2; EP2003596A3; CN101350069B; JP2008310796A

Abstract

本发明涉及用于从训练数据构建分类器并使用该分类器检测测试数据中的移动对象的计算机实现的方法。该方法从训练数据构建分类器，并使用经训练的分类器检测测试数据中的移动对象。根据从训练数据中提取的低级特征生成高级特征。该高级特征是在解析流形上的正定矩阵。选择该高级特征的子集，并确定本征均值矩阵。使用该本征均值矩阵，将每个高级特征映射到该解析流形的正切空间上的特征向量。使用该特征向量来训练未经训练的分类器，以获得经训练的分类器。类似地，从测试低级特征提取测试高级特征。使用经训练的分类器来对测试高级特征进行分类，以检测测试数据中的移动对象。

Description

从训练数据构建分类器并使用分类器检测在测试数据中的移动对象的计算机实现方法

技术领域

本发明总体上涉及对图像集内的对象进行分类，更具体地涉及使用分类器来检测视频中的人体和车辆。

背景技术

人体检测

检测图像中的人体被视为对象检测问题中最困难的示例之一。人的身体和衣着的有关节(articulated)结构和可变外表，以及照明和姿势变化，增加了该问题的复杂性。

基于检索方法可以将人体检测方法分为两组。第一组是基于在图像中的所有可能的检测子窗口或区域上依次应用分类器(sequentiallyapplying a classifier)。使用Haar小波可以训练多项式支持向量机(SVM)作为人体描述符，参见P.Papageorgiou and T.Poggio，“Atrainable systemfor object detection”，Intl.J.of Computer Vision，38(1)：15-33，2000。这项工作扩展到被训练用来检测人体各部分的多个分类器，而且结合在检测窗口中的响应以给出最后的决定，参见A.Mohan，C.Papageorgiou and T.Poggio，“Example-based object detection in images by components”，IEEETrans.Pattern Anal.Machine Intell.，23(4)：349-360，2001。

在图像序列中，实时移动人体检测方法使用从时空差(space-timedifferences)中提取的Haar小波描述符，参见P.Viola，M.Jones and D.Snow，“Detecting pedestrians using patterns of motion and appearance”，IEEE Conf.on Computer Vision and Pattern Recognition，New York，NY，volume 1，pages 734-741，2003。使用AdaBoost，可以选出最具区别性的特征，而且将多个分类器结合以形成拒识(rejection)级联，使得如果任何分类器拒识了假设(hypothesis)，则它被认为是一个否定的示例。

另一人体检测器使用定向梯度(oriented gradient)的密集采样直方图来训练SVM分类器，参见N.Dalal and B.Triggs，“Histograms of orientedgradients for human detection”，Proc.IEEE Conf.on Computer Vision andPattern Recognition，volume 1，pages 886-893，2005。

在类似的方法中，通过使用定向梯度特征的直方图来训练级联模型，以实现接近实时检测性能，参见Q.Zhu，S.Avidan，M.C.Yeh and K.T.Cheng，“Fast human detection using a cascade of histograms of orientedgradients”，Proc.IEEE Conf.on Computer Vision and Pattern Recogntion，New York，NY，volume 2，pages 1491-1498，2006。

第二组方法是基于检测公共部分(detecting common parts)以及根据几何约束来集合这些部分的局部特征，以形成最终的人体模型。可以由局部定向(orientation)特征的共同出现(co-occurrences)来表示这些部分，并且可以使用AdaBoost来对每个部分训练单独的检测器。可以通过使根据几何关系而组合的部分(part)共同出现的联合概率最大化来确定人***置。

B.Leibe，E.Seemann and B.Schiele，“Pedestrian detection in crowdedscenes”，Proc.IEEE Conf.on Computer Vision and Pattern Recognition，volume 1，pages 878-885，2005描述了一种用于拥挤场景的人体检测方法。该方法通过基于每个像素可能性的由上而下的分段(top-downsegmentation)，将局部外表特征及其几何关系与全局信息(cues)相结合。

在O.Tuzel，F.Porikli and P.Meer，“Region covariance：A fast descriptorfor detection and classification”，Proc.European Conf.on Computer Vision，volume 2，pages 589-600，2006，以及Porikli等人2005年12月14日提交的美国专利申请No.11/305,427，“Method for Constructing CovarianceMatrices from Data Features”描述了协方差特征，这些文献通过参引合并在此。这些特征可用于匹配和结构(texture)分类问题，而且扩展到对象追踪(tracking)，参见F.Porikli，O.Tuzel and P.Meer，“Covariance trackingusing model update based on Lie algebra”，In Proc.IEEE Conf.on ComputerVision and Pattern Recogntion，New York，NY，volume 1，pages 728-735，2006，以及Porikli等人2006年2月9日提交的美国专利申请No.11/352,145，“Method for Tracking Objects in Videos Using CovarianceMatrices”，这些文献通过参引合并在此。可通过图像特征(例如空间位置、照度(intensity)、高阶导数等)的协方差矩阵来表示区域。因为协方差矩阵不依赖于向量空间，所以使用传统的机器技术来训练这些分类器是不够的。

可以将对称正定矩阵(symmetric positive definite matrices)(非奇异协方差矩阵)用公式表示为连通黎曼流形(connected Riemannianmanifold)。在E.Begelfor and M.Werman，“Affine invariance revisited”，Proc.IEEE Conf.on Computer Vision and Pattern Recogntion，New York，NY，volume 2，pages 2087-2094，2006、R.Subbarao and P.Meer，“Nonlinear meanshift for clustering over analytic manifolds”，Proc.IEEE Conf.on ComputerVision and Pattern Recogntion，New York，NY，volume 1，pages 1168-1175，2006，以及O.Tuzel，R.Subbarao and P.Meer，“Simultaneous multiple 3Dmotion estimation via mode finding on Lie groups”，Proc.10th Intl.Conf.onComputer Vision，Beijing，China，colume 1，pages 18-25，2005中，描述了用于对依赖于微分流形的数据点进行聚类(clustering)的方法，这些文献通过参引合并在此。

分类器

数据分类器在科学、研究、工程、医药、经济学和社会学领域中有许多实际应用。分类器可以被用于医学诊断、投资组合(portfolio)分析、信号解码、OCR、语音和面部识别、数据挖掘、搜索引擎、消费者偏好选择、指纹识别等。

可以使用受监督的或无监督的学习技术来训练分类器。在后者的情况下，在没有数据的任何先验知识(a prior knowledge)的情况下，将模型适用于该数据，即，输入数据实质上是具有正态分布的随机变量集。本发明涉及受监督的学习，其中，从经标记的训练数据提取特征，以学习将观测映射到输出的函数。

通常，分类器是从离散的或连续的特征X到标记的离散集Y的映射。例如，在面部识别***中，从面部的图像中提取特征。分类器随后将每个图像例如标记为男性或女性。

线性分类器使用线性函数来区别这些特征。在形式上，如果针对分类器的输入是特征向量

则估计的标记y是：

y = f (\overset{&RightArrow;}{w} \cdot \overset{&RightArrow;}{x}) = f (\underset{j}{Σ} w_{j} x_{j}),

其中，

是权重的实数向量，f是将这两个向量的点积(dot product)转换为所希望的输出的函数。通常，f是将超过特定阈值的所有值映射到“是(yes)”而将其它所有值映射到“否(no)”的简单函数。

在这种两类(二元)分类中，线性分类器的操作通过超平面(hyperplane)来“分割”高维度输入空间。在该超平面的一侧的所有点被分类为“是”，而其它点被分类为“否”。

因为线性分类器通常是最快的分类器，尤其是当特征向量

稀疏(sparse)时，所以该线性分类器通常在其中分类的速度是关键的情况下使用。

黎曼几何(Riemannian Geometry)

黎曼几何关注的是对称正定矩阵的空间，参见W.M.Boothby，“AnIntroduction to Differentiable Manifolds and Riemannian Geometry”，Academic Press，2002，其通过参引合并在此。我们以小写黑体字母来表示位于向量空间上的点，而以大写黑体字母X∈M来表示位于流形上的点。

黎曼流形

流形是局部地与欧氏空间(Euclidean space)相类似的拓扑空间。在流形上的每个点具有存在将邻域映射到

的同胚(homeomorphism，即，在两个方向上一对一且连续映射)的邻域。对于可微分流形，可以在该流形上定义曲线的导数。

在黎曼几何中，黎曼流形(M，g)是可实微分的流形M，其中，每个正切空间以某种方式设置有内积g，内积g逐点光滑变化。这使得可以定义各种概念，例如曲线长度、角度、面积或体积、曲率、函数梯度和向量场的散度(divergence)。

黎曼流形可以被定义为度量空间，其针对该流形的光滑子流形是等距(isometric)。度量空间是其中定义该集的元素之间距离的集，例如，三维欧氏空间。度量空间针对具有诱导(induced)本征度量的光滑子流形等距，其中，这里的等距是就保留曲线长度而言的。黎曼流形是解析流形的一个示例，其是具有解析转换映射的拓扑流形。

以被称为黎曼度量的对称2-张量(2-tensor)的形式给出黎曼流形的内积结构。黎曼度量可以被用来对向量和余向量(covector)进行相互转换，并用来定义4阶(rank-4)黎曼曲率(curvature)张量。可以为任意微分流形给定黎曼结构。

将黎曼流形转到度量空间不是显而易见的(nontrivial)。即使黎曼流形通常是“弯曲的”，在流形上仍然存在“直线”的概念，即，沿着曲表面上的最短路径局部地联结各个点的测地线(geodesic)。

在固定点，光滑流形M的切丛(tangent bundle)，或者实际上流形上的任意向量丛，是向量空间，而且每个这种空间可以保持内积。如果随着遍历该流形，在流形的切丛上的这种内积的集合光滑地变化，则可以扩展仅在每个正切空间逐点(point-wise)定义的概念，以得到在该流形的有限区域上的类似概念。

例如，光滑曲线α(t)：[0，1]→M在任意点t₀∈(0，1)具有正切空间TM(t₀)中切向量α′(t₀)，而且每个这种向量具有长度‖α′(t₀)‖，其中‖·‖表示对TM(t₀)上的内积得到的范数(norm)。这些长度的积分给出了曲线α的长度：

L (α) = {&Integral;}_{0}^{1} | | α^{'} (t) | | dt .

在许多示例中，为了从线性代数概念转到微分几何概念，光滑性要求是很重要的。Rⁿ的每个光滑子流形具有诱导的黎曼度量g。每个正切空间上的内积是该子流形Rⁿ的内积的限制。实际上，它是从纳什嵌入定理(Nash embedding theorem)得到的，该定理说明每个黎曼流形可以被等距地嵌入到欧氏空间Rⁿ中，所有黎曼流形都可以通过这样来实现。

在该流形上的点X处的导数位于向量空间T_X中，向量空间T_X是在那个点的正切空间。黎曼流形M是其中每个正切空间具有内积<，>X的微分流形，其逐点光滑地变化。内积得到在该正切空间上的切向量的范数，使得‖y‖²x＝<y，y>X。

连接在该流形上的两点的最小长度曲线被称作测地线，而且在这些点之间的距离d(X，Y)由该曲线的长度给出。设y∈T_X且X∈M。从点X开始，存在从正切向量y开始的唯一测地线。指数映射exp_x：

将向量y映射到由该测地线达到的该点，而且测地线的距离由d(X，exp_x(y))＝‖y‖X给出。

通常，指数映射exp_x在X的邻域仅是一对一的。因此，逆映射log_x：

仅在点X的邻域周围唯一地定义。如果对于任意Y∈M，存在若干y∈T_X，使得Y＝exp_x(y)，则log_x(Y)由具有最小范数的正切向量给出。注意，两个运算符依赖于点，通过下标明确示出了依赖关系。

发明内容

本发明的实施方式提供了一种用于检测图像中的对象(特别是人体和行人)的方法。该方法使用协方差矩阵作为对象描述符。使用附加运动提示信息(motion cue)构建协方差矩阵的具体形式。因为这些描述符并不位于向量空间上，所以公知的机器学习技术对于训练分类器以检测对象而言是不够的。d维非奇异协方差矩阵的空间被表示为连通的黎曼流形。本发明通过合并入与搜索空间的几何学有关的先验信息，来对黎曼流形上的点进行分类。

具体地说，一种方法从训练数据构建分类器，并使用经训练的分类器检测测试数据中的移动对象。从由训练数据提取的低级特征生成高级特征。高级特征是在解析流形上的正定矩阵。选择高级特征的子集，并确定本征均值矩阵(intrinsic mean matrix)。使用本征均值矩阵，将每个高级特征映射到解析流形的正切空间上的特征向量。使用特征向量来训练未经训练的分类器，以获得经训练的分类器。类似地，从测试低级特征生成测试高级特征。使用经训练的分类器对测试高级特征进行分类，以检测测试数据中的移动对象。

附图说明

图1是示出了根据本发明实施方式的对用于分类测试数据的分类器进行训练的方法的流程图；

图2是示出了根据本发明实施方式的从测试数据提取低级特征的过程的流程图；

图3是示出了根据本发明实施方式的将低级特征转换为高级特征的过程的流程图；

图4A-4E是示出了根据本发明实施方式的训练分类器的过程的流程图；

图5是示出了根据本发明实施方式的确定本征均值协方差矩阵的过程的流程图；

图6是示出了根据本发明实施方式的从运动提示信息确定高级特征的过程的细节的流程图；

图7是示出了根据本发明实施方式的训练LogitBoost分类器的过程的细节的伪代码；以及

图8是示出了根据本发明实施方式的对象的级联分类器的框图。

具体实施方式

分类器构建和分类

图1示出了根据我们的发明的实施方式来构建训练分类器的方法100。使用训练数据来构建和训练该分类器。对于训练数据，我们是指，该数据已经被标记。该训练数据被用来提取(标记的)特征并检验或测量经训练的分类器的性能。该经训练的分类器可以随后被用来分类测试数据。

从训练数据102提取200低级特征101。该低级特征101被用来生成300高级特征301。该高级特征是解析流形上的正定矩阵的形式。

选择110高级特征301的子集111。所选择的高级特征的子集111被用来确定120本征均值协方差矩阵121。该本征均值协方差矩阵121定义了该高级特征的子集的解析流形的正切空间。正切空间是局部欧氏空间。本征均值矩阵被用来将每个高级特征301映射(投射)130到该流形的局部欧氏空间中的特征向量131。随后，特征向量131被用来训练400分类器模型410，以生成经训练的分类器601。

随后，经训练的分类器601可以被用来对测试数据104进行分类140。该分类将标记105赋予给测试数据。以与上述相同的方式为该测试数据生成特征向量。

提取低级特征

图2示出了提取200示例测试数据102(例如图像或视频)。应该注意的是，低级特征的提取也还可以用于其它数据，例如声学信号、医学图像、从物理过程采样的数据等。

低级特征101可以包括像素强度(pixel intensity)、像素颜色(pixelcolor)和衍生的低级特征，例如梯度201、纹理202、颜色直方图203和运动向量204。

生成高级特征

低级特征101被用来生成300解析流形上的高级特征301。在优选实施方式中，高级特征是使用本征均值矩阵而投射在正切空间上的黎曼流形上的正定矩阵。更具体地说，正定矩阵是低级特征的协方差矩阵。这是通过使用窗口320从低级特征确定310协方差矩阵311而完成的。

在Porikli等人在2005年12月14日提交的美国专利申请No.11/305,427，“Method for Constructing Covariance Matrices From DataFeatures”中总体地描述了协方差矩阵形式的高级特征，其通过参引合并在此。

对于沿着一个或更多个轴对称的对象，我们为作为沿着相应的轴的对称部分的图像窗口构建高级特征。例如，对于人体或面部，这些对象沿着通过图像中心的垂直线相对称，因此，在沿着这些轴的两个对称区域(而不是仅在一个区域)中计算高级特征。

协方差描述符

协方差矩阵提供了用于组合可能以其它方式关联的多个低级特征的自然方式。每个协方差矩阵的对角元素(entry)表示每个高级特征的方差，而每个非对角元素表示这些高级特征的相关性。因为协方差矩阵不位于欧氏空间中，所以该方法使用涉及一般化的特征值(其是从正定矩阵的李群(Lie group)结构得出)的距离度量。

可以如下来描述我们根据本发明实施方式为图像中的人体检测而采用的协方差描述符。一维强度或三维彩色图像是I，而从图像I中提取的W×H×d维低级特征图像是：

F(x，y)＝Φ(I，x，y)，(1)

其中，函数Φ可以是任意的映射，例如强度、颜色、梯度、滤波器响应特性等。对于在特征图像F中给定的矩形检测窗口或者区域R，在矩形区域R中的d维特征是{z_i}_i＝1...S。以这些特征的d×d协方差矩阵来表示区域R：

C_{R} = \frac{1}{S - 1} Σ_{i = 1}^{S} (z_{i} - μ) {(z_{i} - μ)}^{T}, - - - (2)

其中，μ是特征z的均值，而T是转置运算符。

对于人体检测问题，我们将映射Φ(I，x，y)定义为8个(d＝8)低级特征：

{[xy | I_{x} | | I_{y} | \sqrt{I_{x}^{2} + I_{y}^{2}} | I_{xx} | | I_{yy} | \arctan \frac{| I_{x} |}{| I_{y} |}]}^{T}, - - - (3)

其中，x和y是像素坐标，I_x，I_xx...是强度导数，arctan(|I_x|/|I_y|)是边缘定向，而T是转置运算符。

对于检测，我们可以使用不同类型和数量的低级特征。

使用所定义的映射，输入图像被映射到如公式(3)所定义的8维低级特征图像F。区域r的协方差描述符是8×8协方差矩阵C_R。由于对称，仅存储了其中只具有36个不同值的上三角部分。该描述符对在该区域中定义的特征的方差信息、它们的相互关联以及空间布局进行编码。

可以使用积分图像来确定协方差描述符，参见O.Tuzel，F.Porikli andP.Meer，“Region covariance：A fast descriptor for detection andclassification”，Proc.European Conf.on Computer Vision，Graz，Austria，volume 2，pages 589-600，2006，其通过参引合并在此。

在构建d(d+1)/2个积分图像后，可以独立于区域的尺寸来确定任何矩形区域的协方差描述符，见以上Tuzel et al。给定了任意尺寸的区域R，则存在来自子区域r_1，2...的大量的协方差描述符。

如图3中所示，积分图像102可以被划分(partition)为多个区域321。根据形状和尺寸限制322，从给定的训练区域321生成325窗口320的位置。对于每个窗口，在窗口320中的低级特征101被用来确定协方差矩阵。

我们从检测区域R的宽度和高度的1/10的最小尺寸开始，在所有的像素位置执行采样并考虑子区域r。子窗口r的大小沿着水平或垂直方向，或者沿着两个方向，以1/10为步长递增，直到子区域等于该区域(r＝R)为止。

尽管这种方法由于重叠而可能会被认为是冗余，但是，在检测性能中重叠区域是很重要的因素。以下描述的增强机制使得我们可以搜索最佳区域。协方差描述符对于照度变化是健壮的(robust)。我们增强这个属性，以便还包括图像中的局部照度变化。

可能的特征子区域r是在检测区域R中。我们使用以上描述的积分图像表示来确定检测区域C_R和子区域C_r的协方差。通过将协方差矩阵C_r的列和行除以矩阵C_R的各个对角元素，来确定归一化的协方差矩阵。这等同于：首先归一化区域R中的特征向量，以使其具有零均值和单位标准偏差；此后，确定子区域r的协方差描述符。

使用窗口320，可以在黎曼流形上构建330协方差矩阵311。随后，可以使用窗口320来归一化340矩阵311，以生成高级特征301。

投影到正切空间

可以将d×d维对称正定矩阵(非奇异协方差矩阵)Sym⁺ _d公式化为在Sym⁺ _d的正切空间上的连通黎曼流形和不变(invariant)黎曼度量，是：

< y, z > X = tr (X^{- \frac{1}{2}} y X^{- 1} z X^{- \frac{1}{2}}) . - - - (4)

与黎曼度量有关的指数映射：

\exp_{X} (y) = X^{\frac{1}{2}} \exp (X^{- \frac{1}{2}} y X^{- \frac{1}{2}}) X^{\frac{1}{2}} - - - (5)

是全局微分同胚(global diffeomorphism，一对一，在两个方向上连续地可微分的映射)。因此，其对数在该流形上的所有点是唯一定义的：

\log_{X} (Y) = X^{\frac{1}{2}} \log (X^{- \frac{1}{2}} Y X^{- \frac{1}{2}}) X^{\frac{1}{2}} . - - - (6)

运算符exp和log是传统的矩阵指数和对数运算符。不要混淆的是，运算符exp_x和log_x是流形特定运算符，也是点依赖的(point dependent)，X∈Sym⁺ _d。Sym⁺ _d的正切空间是d×d对称矩阵的空间，而该流形和正切空间都是m＝d(d+1)/2维。

对于对称矩阵，传统的矩阵指数和对数运算符可以如下确定。公知的是，对称矩阵的特征值分解(decomposition)是∑＝UDU^T。指数级数(series)是：

\exp (Σ) = Σ_{k = 0}^{\infty} \frac{Σ^{k}}{k!} = Uexp (D) U^{T}, - - - (7)

其中，exp(D)是特征值指数的对角矩阵。类似地，其对数是：

\log (Σ) = Σ_{k = 1}^{\infty} \frac{{(- 1)}^{k - 1}}{k} {(Σ - I)}^{k} = U \log (D) U^{T} . - - - (8)

指数运算符是始终定义的，而对数仅对于具有正特征值的对称矩阵Sym⁺ _d而存在。从以上给出的测地线(geodesic)的定义中，通过将公式(6)代入公式(4)而得到Sym⁺ _d上两点之间的距离：

d^{2} (X, Y) = < \log_{X} (Y), \log_{X} (Y) >_{X}

= tr (\log^{2} (X^{- \frac{1}{2}} Y X^{- \frac{1}{2}})) . - - - (9)

我们注意到，可以通过X和Y的联合特征值来给出仿射(affine)不变距离度量的等价形式。

我们使用向量运算来定义正切空间上的直角坐标系。在点X处的正切空间上的向量y的直角坐标通过以下映射向量给出：

{vec}_{X} (y) = upper (X^{- \frac{1}{2}} y X^{- \frac{1}{2}}), - - - (10)

其中，upper运算符是指该矩阵的上三角部分的向量形式。映射vec_X将正切空间上的公式(4)的黎曼度量关联到

中定义的正则(canonical)度量。

本征均值协方差矩阵

我们通过确定本征均值协方差矩阵121来提高分类准确度。协方差矩阵不遵从欧氏几何。因此，我们使用椭圆(elliptical)或黎曼几何。有几种已知的方法用于确定对称正定(厄米特，Hermitian)矩阵，例如我们的协方差矩阵(高级特征301)，参见Pennec et al.，“A Riemannianframework for tensor computing”，In Intl.J.of Computer Vision，volume 66，pages 41-66，January 2006，其通过参引合并在此。

在黎曼流形M上的点集是{X_i}_i＝1...N。与欧氏空间类似，黎曼流形上的点的Karcher均值是流形M上的使得距离的平方和最小化的点：

μ = \arg \min_{Y &Element; M} Σ_{i = 1}^{N} d^{2} (X_{i}, Y), - - - (11)

在我们的示例中这是公式(9)的距离度量d²。

针对Y来对该误差函数进行差分，并将它设置为零，得到：

μ^{t + 1} = ex p_{μ^{t}} [\frac{1}{N} Σ_{i = 1}^{N} \log_{μ^{t}} (X_{i})], - - - (12)

其可以使用梯度下降过程来定位该误差函数的最小值。该方法通过确定对正切空间上的均值的一阶近似(first order approximation)来进行迭代。我们使用以下加权均值来代替指数的内部，即，正切向量的均值：

\frac{1}{Σ_{i = 1}^{N} w_{i}} Σ_{i = 1}^{N} w_{i} \log_{μ^{t}} (X_{i}) .

图5更详细地示出了选择步骤110和确定步骤120。按照以下500获得本征均值协方差矩阵121。对于给定窗口320及其中的高级特征301，选择510协方差矩阵(高级特征301)的子集。从子集111选择520矩阵521。所选矩阵521被指定530为当前参考矩阵。

确定540针对当前参考矩阵的均值对数。确定550加权和。将加权和与参考矩阵进行比较560，而且确定570变化数值(change score)。如果该变化数值大于某个小阈值ε(Y)，则选择和指定下一矩阵。

否则，如果否(N)，则将该参考矩阵指定为590为本征均值协方差矩阵121。现在，本征均值协方差矩阵可以被用来将每个高级特征301映射到相应的特征向量131。这些特征向量被用来训练分类器模型410。

黎曼流形上的分类

类标记的训练集组是{(X_i，y_i)}_i＝1...N，其中，X∈M，且y_i∈{0，1}。我们需要找到函数F(X)：

其基于类标记的训练集将该流形划分为两个部分。

与欧氏空间中的类似划分相比，划分该流形的这种函数是复杂的概念(notion)。例如，考虑在

上的线性分类器的最简单形式。在

上的点和方向向量定义了将

划分为两个部分的线。等同地，在二维差分流形上，我们可以考虑该流形上的点和在该点的正切空间上的正切向量，这两者通过指数映射定义了该流形上的曲线。例如，如果我们考虑在2D环面(torus)上的线的图像，则该曲线不能将该流形划分为两个部分。

一种用于分类的方法将该流形映射到更高维度的欧氏空间，这可以被认为是平坦化(flatten)该流形。然而，在一般情况下，不存在这种全局地保留了该流形上的点之间的距离的映射。因此，在经平坦化的空间上受训练的分类器不能反映这些点的全局结构。

分类器

图4A到4E示出了用于训练分类器601的另选实施方式。图4A示出了单一分类器方法。图4B到4C示出了增强(boosted)分类器方法。图4D示出了裕量(margin)级联增强分类器方法。

单一分类器

如图4A中所示，如下训练单一分类器601。从高级特征301确定120本征均值协方差矩阵。使用本征均值协方差矩阵121来将高级特征301投射到412正切空间上，以映射该高级特征。在投射后，将该矩阵的唯一系数重新构建620为特征向量131。使用从可用分类器模型所选的分类器模型410，随后使用特征向量131来训练所选分类器。

增强分类器

图4B示出了用于训练增强分类器的步骤。选择110高级特征301的子集111。从高级特征的所选子集111来确定120本征均值协方差矩阵。这些特征被用来训练600所选择的单个分类器，以生成经训练的分类器601。

经训练的分类器被应用422到训练数据102的一部分，而且可以确定424该分类器的性能425。如果其性能是可接受的，则该分类器被加入426到分类器集401。

随后，可以通过步骤428来评估其它的分类器，直到在分类器集401中已经累积了希望数量的分类器为止。应该注意的是，可以为每个要被训练的分类器选择高级特征的不同子集。在这种情况下，为高级特征的每个所选子集确定本征均值协方差矩阵。

为了进行增强，可以进一步评估分类器集401，如图4C中所示。使用性能数据425来选择430最佳分类器431。最佳分类器431被应用432到训练数据102的一部分，而且确定434累积性能435。如果在步骤436中累积性能435小于预定的目标性能，则更新438训练数据的权重，而且可以训练另一分类器。否则，完成增强分类器的训练439。

我们描述了一种通过在正切空间上训练若干弱分类器并通过增强来组合弱分类器的递增方法。我们从定义流形上的邻域到欧氏空间(类似于坐标图)的映射开始。我们的映射是对数映射log_x，其将点X的邻域映射到正切空间T_X。因为这种映射在该点的邻域处是同胚的，所以该流形的结构被局部地部分保留。该正切空间是一个向量空间，我们在这个空间上训练分类器。可以在流形上的任意点的正切空间上训练该分类器。这些点的均值使在流形上的距离的平方和最小化。因此，该均值是至多一阶的良好近似。

在每次迭代中，我们确定这些点的加权均值，其中通过增强来调整这些权重。我们将这些点映射到在均值处的正切空间，并且在这个向量空间上训练弱分类器。因为在较早的增强阶段中被误分类的这些样本的权重增加，所以加权均值向这些点移动，从而为这些点生成更准确的分类器。这种方法通过在多个的弱分类器上进行平均而使近似误差最小化。

黎曼流形上的LogitBoost

我们从对在向量空间上的传统LogitBoost方法的简要描述开始，参见J.Friedman，T.Hastie and R.Tibshirani，“Additive logistic regression：Astatistical view of boosting”，Ann.Statist.，28(2)：337-407，2000，其通过参引合并在此。

我们考虑二元分类问题，y_i∈{0，1}。点x属于类1的概率被表示为：

p (x) = \frac{e^{F (x)}}{e^{F (x)} + e^{- F (x)}},

(x) = \frac{1}{2} Σ_{l = 1}^{L} f_{l} (x) . - - - (13)

LogitBoost方法通过牛顿迭代(Newton iteration)使数据l(y，p(x))的负二项对数似然性最小化，来训练回归函数集{f_l(x)}_l＝1...L(弱函数)：

- Σ_{i = 1}^{N} [y_{i} \log (p (x_{i})) + (1 - y_{i}) \log (1 - p (x_{i}))] . - - - (14)

LogitBoost方法使训练点(特征)

的加权最小平方回归f_l(x)，适于带权重w_i的响应值

我们的在黎曼流形上的LogitBoost方法在弱函数级别上不同于传统LogitBoost。在我们的方法中，弱函数的域是在M中，使得f_l(X)：

根据以上描述，我们在流形上的这些点的加权均值处的正切空间中训练回归函数。我们将弱函数定义为：

f_{l} (X) = g_{l} ({vec}_{μ_{l}} (\log_{μ_{l}} (X))) - - - (15),

并训练函数g_l(x)：

以及这些点的加权均值μ_l∈M。注意，公式(10)的映射向量给出了正切向量的直角坐标。

图7中示出了该方法的伪代码。标注有(*)的步骤与传统LogitBoost方法不同。对于函数{g_l}_l＝1...L，因为函数的域是在

中，所以可以使用任意形式的加权最小平方回归，例如线性函数、回归根部(regression stump)等。

输入是类标记的训练集，{(X_i，y_i)}_i＝1...N，其中X∈M，且y_i∈{0，1}，而且我们从权重w_i开始。随后，我们针对l＝1...L重复以下的步骤。我们计算响应值z_i和权重w_i。随后，我们计算这些点的加权均值μ_l。我们将数据点映射到μ_l处的正切空间。我们使用权重w_i，通过z_i的加权最小平方回归，使函数g(x)适用于x_i，并更新F(X)，其中f_l在公式(15)中定义，而且p(X)在公式(13)中定义。该方法输出分类器符号

[F (X)] = sign [Σ_{l = 1}^{L} f_{l} (X)] .

具有可调整裕量的增强分类器

对于图4D和图4E中所示的裕量级联分类器，概率分类器模型441被用来通过使用高级特征301来训练440强壮(strong)的增强分类器，如上所述。随后，强壮的训练增强分类器被应用442到训练数据102的一部分。

根据训练数据的正例样本和反例样本的概率来对它们进行排序443，以获得两个列表：正例样本的正例列表和反例样本的反例列表。

随后，获得正例列表中的特定正例样本的与正例检测率相对应的概率。将该正例样本指定为当前正例概率。类似地，使用反例列表和反例检测率来得到当前反例概率。

随后，从当前正例概率中减去444当前反例概率，以获得当前间隔(gap)。分类器判决阈值被设置453为当前正例概率和当前反例概率的总和的一半，参见以下更详细描述的图4E。定义了两个成本(cost)因素。没有缺失任何正例样本的成本(CP)451，和使假的正例样本最小化的成本(CFP)452。分类的裕量448由用户设置，或者根据在级联中的分类器的检测性能而被调整。

裕量被用来基于目标裕量448以及目标检测和拒识率(rejection rate)449，使用目标检测和拒识率的间隔或概率454，来确定分类器判决阈值。该结果可以被用来从训练数据102中去除446真(true)的反例样本，并且增加447假(false)的正例样本，作为反例训练数据。

调整裕量

裕量的大小确定分类器的速度和准确度。如果裕量较大，在步骤455，基于CP和CFP成本，则速度就较快，但是结果较不准确。降低裕量大小可以减慢分类，但是增加结果的准确度。如果希望不缺失任何正例样本，则使阈值向反例样本移动456，即，降低阈值。如果希望不检测任何假的正例样本，则使阈值远离反例训练样本向正例样本移动457，即，增大阈值。

我们重复向增强分类器增加426分类器的步骤，如上所述，直到在步骤445中当前间隔大于裕量为止。

拒识器的级联

我们采用拒识器的级联和增强框架(boosting framework)来增大分类处理的速度。每个拒识器是一个强壮的分类器，并且包括如上所述的加权线性弱分类器集。在每个拒识器处的弱分类器的数量由目标真、假正例率(positive rate)确定。每个弱分类器对应于高维度特征，而且它通过判决边界(超平面等)来分割高维度输入空间。每个弱分类器基于来自高维度特征的包(bag)的单一高维度特征，来作出其评估。增强通过依次地使弱分类器适用于训练数据的再加权版本而工作。使用GentleBoost，我们通过Bernoulli对数似然性的分阶段优化(stage-wiseoptimization)，拟合出加性逻辑回归模型。

使用拒识器的级联的人体检测

图8示出了我们的级联分类器的一个实施方式。对于人体检测，我们将例如K＝30个Sym⁺ ₈上的LogitBoost分类器801与拒识级联相结合。该弱分类器{g_l}_l＝1...L是在Sym⁺ ₈的正切空间上受训练的线性回归函数。该正切空间是m＝36维向量空间。设N_pi和N_ni为该训练集中的正例图像和反例图像的数量。因为从反例图像采样的任何检测区域或窗口都是反例样本，所以可能会生成比反例图像的数量更多的反例样本。

假设我们在训练第k级联等级。我们用前面的(k-1)个分类器的级联来对反例训练图像上的所有可能的检测区域进行分类。被误分类的样本m形成了可能反例集(被分类为正例的样本)。因为可能反例集的基数(cardinality)非常大，我们在级联等级k处从这个集采样Nⁿ＝10000个样本，作为反例的样本。在每个级联等级，我们将所有的正例训练图像作为正例训练集。因为在每个正例图像处存在单个人体，所以N_p＝N_pi。

可以从单个检测区域确定大量的协方差描述符。要测试所有的描述符在计算上是难以操作的。在第k个LogitBoost级的每个增强迭代，我们在所有可能的子区域中采样200个子区域，并且构造归一化的协方差描述符，如上所述。我们对代表了每个子区域的弱分类器进行训练，并且将使负二项对数似然性最小化的最佳分类器增加到级联等级k。

优化级联检测器的每一级，以正确地检测至少99.8％的正例样本，而拒识至少35％的反例样本。另外，我们增大正例样本和判决边界之间的裕量限制。使用公式(13)来进行评估，在级联等级k处样本为正例的概率是p_k(X)。

在所有正例样本中具有第(0.998 N_p)最大概率的正例样本是X_p。在所有反例样本中具有第(0.35 N_n)最小概率的反例样本是X_n。我们继续将弱分类器增加到级联等级k，直到p_k(X_p)-p_k(X_n)＞th_b为止。我们设置阈值th_b＝0.2。

当满足该限制时，如果p_k(X)＞p_k(X_p)-th_b＞p_k(X_n)，或者等同地F_k(X)＞F_k(X_n)，则通过级联等级k，将新的样本分类为正例。使用我们的方法，在前99.8％中的正例训练样本的任何一个具有比判决边界至少大th_b的概率。该处理继续第(k+1)级联等级的训练，直到k＝K为止。

该方法是上述我们的黎曼流形上的LogitBoost分类器的修改。因为反例集不能很好地表征检测任务，所以我们仅确定正例样本的加权均值。尽管很少发生，但是，如果一些特征是完全相关的，则在协方差描述符中会出现奇异点(singularity)。通过将非常小的单位矩阵增加到协方差描述符，我们忽略这些情况。

在协方差描述符中具有运动提示信息的对象检测

图6示出了根据本发明实施方式的从运动提示信息中确定高级特征的过程。这些特征可以被用于训练分类器，如这里所述，并且用于对象检测。

我们为根据本发明的实施方式在图像中对象检测而采用的协方差描述符还可以包括从视频数据中提取的运动提示信息。可以通过另一传感器来提供该运动提示信息，或者可以通过分析视频数据本身来确定该运动提示信息。包含像素级(pixel-wise)的对象运动信息，作为低级特征。

在***具有移动照相机的情况下，在视频中明显的运动可以是由于对象和/或照相机运动而造成的。因此，我们使用来自移动照相机的第一训练视频_1 601和来自静态照相机的第二训练视频_2 602。

对在第一训练视频601中的照相机运动进行补偿610，以获得仅由于对象而造成的运动。这是通过稳定或对准(align)连续视频图像而完成的。图像对准以参数(仿射、透视等)全局运动模型或者以非参数密集运动场来给出照相机运动。在这两种情况下，连续图像都被对准。这得到了稳定的图像611。使用稳定的图像611，场景中的移动对象被认为是在补偿步骤610后具有较高运动的区域。

对于静态照相机***，在第二视频602中没有照相机运动。因此，不需要补偿。任何存在的运动都是由于对象运动造成的。因此，我们生成并保持660统计背景模型662。

我们使用不同的运动提示信息。当我们确定高级特征300时，运动提示信息是附加的低级特征。

第一运动提示信息集是从前景661获得的。使用输入图像(在移动照相机的情况下是稳定的图像611)，背景模型662得以保持660。通过对背景模型662和当前图像666进行比较并从背景模型662减去665当前图像666，来确定被称为前景661的该场景的变化部分。前景像素值对应于当前图像像素和针对该像素的背景模型之间的距离。这个距离可以作为阈值。我们使用这些像素级距离作为第一运动提示信息集。

第二运动提示信息集是通过连续图像差620获得的。通过从一个或多个之前的图像(在移动照相机***的情况下是经运动补偿(稳定)的图像611)中减去当前图像来确定多个差图像621。该减法得出了在像素处的强度距离。不用强度距离，也可以使用其它的距离，例如梯度幅度(magnitude)距离、定向差。

第三运动特征集是通过确定650当前图像和之前(稳定的)图像611之间的光学流(optcial flow)651而计算的。该光学流的确定生成了每个像素处的运动向量。随后，包括了光学流向量的垂直和水平分量或者包括了光学流向量的幅度和定向角度的该运动向量，被指定为像素级运动提示信息。另选的是，每个像素的运动向量是通过块匹配或其它方法(而不是通过光学流)确定的。

对于移动对象检测，我们在前述映射函数Φ(I，x，y)中包括低级特征中的运动提示信息。如上所述，低级特征可以被用来生成300高级特征。随后，从训练数据获得的高级特征可以被用来训练分类器601，而以同样方式从测试数据获得的高级特征可以被用来通过使用经训练的分类器来检测移动对象。

测试

在测试数据104的分类140期间，提取并使用低级特征来生成高级特征，如上所述。高级特征最终被映射到用于分类140的特征向量，如上所述。该分类将标记105指定给测试数据104，例如人体等。

尽管已经采用优选实施例的方式描述了本发明，但是，可以理解的是，可以在本发明的精神和范围内作出各种其它的调整或修改。因此，所附权利要求的目的在于涵盖落入本发明的真实精神和范围内的这些变化和修改。

本发明的效果

本发明的实施方式提供了一种使用协方差矩阵作为对象描述符来检测图像中的人体的方法以及一种黎曼流形的训练方法。该方法不是专门针对Sym⁺ _d，而是可以被用来训练用于位于任意连通黎曼流形上的点的分类器。

Claims

1、一种用于从训练数据构建分类器并使用该分类器来检测测试数据中的移动对象的计算机实现的方法，该计算机实现的方法包括以下步骤：

根据从所述训练数据提取的低级特征生成高级特征，该高级特征是采用解析流形的形式的正定矩阵；

选择所述高级特征的子集；

根据所选择的高级特征的子集确定本征均值矩阵；

使用所述本征均值矩阵，将每个高级特征映射到所述解析流形的正切空间上的特征向量；

使用所述特征向量来训练未经训练的分类器，以获得经训练的分类器；

根据从测试数据提取的测试低级特征生成测试高级特征，该测试高级特征是采用解析流形的形式的正定矩阵；以及

使用所述经训练的分类器来对所述测试高级特征进行分类，以检测所述测试数据中的移动对象。

2、根据权利要求1所述的方法，其中，所述训练数据和所述测试数据是图像形式的。

3、根据权利要求1所述的方法，其中，所述训练数据和所述测试数据是视频形式的。

4、根据权利要求2所述的方法，其中，所述低级特征是根据所述图像中的像素强度和颜色导出的。

5、根据权利要求3所述的方法，其中，所述低级特征是根据所述视频中的像素强度和颜色、像素运动向量、光学流、以及强度和梯度距离导出的。

6、根据权利要求1所述的方法，其中，所述移动对象是人体。

7、根据权利要求1所述的方法，其中，根据运动提示信息来确定所述高级特征。

8、根据权利要求7所述的方法，其中，通过运动传感器来感测所述运动提示信息。

9、根据权利要求7所述的方法，其中，从所述训练数据获得所述运动提示信息。

10、根据权利要求7所述的方法，其中，从所述测试数据获得所述运动提示信息。

11、根据权利要求7所述的方法，其中，所述运动提示信息是使用照相机运动根据联合对象和所述照相机运动而补偿的对象运动。

12、根据权利要求7所述的方法，其中，所述运动提示信息使用背景模型。

13、根据权利要求7所述的方法，其中，所述运动提示信息考虑光学流。

14、根据权利要求7所述的方法，其中，从帧序列获得所述训练数据，而且所述运动提示信息考虑所述帧之间的差别。

15、根据权利要求7所述的方法，其中，所述高级特征包括流形。

16、根据权利要求1所述的方法，其中，所述分类器是增强分类器。

17、根据权利要求15所述的方法，其中，所述分类器是对所述流形应用的LogitBoost增强分类器。

18、根据权利要求17所述的方法，其中，训练所述LogitBoost增强分类器还包括以下步骤：

为所述高级特征赋予相同的权重；

为分类器判决函数赋零；

为属于所述分类器的给定类的概率赋予相同值；以及

重复以下步骤，直到实现预定目标为止：

确定所述高级特征的响应值和权重；

确定所述流形上的加权均值；

使用所述加权均值，将所述高级特征映射到正切空间上；

使用所述权重和所述经映射的特征，通过加权最小平方回归把边界函数拟合为弱分类器；

以所述弱分类器的分数，来更新所述分类器判决函数；

更新成为给定类的概率；以及

将所述LogitBoost增强分类器的结果确定为总计分数的符号。

19、根据权利要求18所述的方法，其中，所述预定目标是目标性能分数。

20、根据权利要求18所述的方法，其中，所述预定目标是包括在增强分类器中的所述弱分类器的预定数量。

21、根据权利要求17所述的方法，其中，所述LogitBoost增强分类器是包括了对所述流形应用的所述LogitBoost增强分类器的二叉树的级联分类器集。

22、根据权利要求1所述的方法，其中，从用于具有对称外表的移动对象的所述训练数据的图像中的对称区域，获得所述高级特征。