WO2010133161A1

WO2010133161A1 - 对图像进行分类的方法和设备

Info

Publication number: WO2010133161A1
Application number: PCT/CN2010/072867
Authority: WO
Inventors: 张伦; 吴伟国
Original assignee: 索尼公司
Priority date: 2009-05-20
Filing date: 2010-05-18
Publication date: 2010-11-25
Also published as: JP5545361B2; EP2434431A1; JP2012527664A; CN101894262A; CN101894262B; US20120093420A1

Description

对图像进行分类的方法和设备

技术领域

[01] 本发明涉^ JI†视频或图像的分类 (包含对象 /不包含对象)，即视频或图像中对象的检测或识别，尤其涉及生成用于区分视频或图像中是否包含所要检测的对象的分类器的方法和设备，以及用所生成的分类器对图像进行分类的方法和设备。

背景技术

[02] 随着视频监控、人工智能、计算机视觉等应用的不断普及，对检测视频和图像中出现的特定对象，例如人、动物、车辆等等的技术的需求日益增加。在用于检测视频或者图像中的对象的方法中，已知有一类方法是采用静态图像特征来建立用于区分视频或图像中是包含对象还是非对象的分类器，从而用该分类器来对图像进行分类，即在图像中检测对象，其中对于视频， ^一帧视为一幅图像来进行检测。

[03] Paul Viola和 Michael Jones在" Robust Real-time Object Detection", Second International Workshop On Statistical And Computational Theories Of Vision - Modeling, Learning, Computing, And Sampling, Vancouver, Canada, July 13, 2001中公开了一种这样的技术。在 Paul Viola 等人的技术中，从图像中提取矩形块的像素和之间的差作为特征，通过 AdaBoost方法从所提取的特征中选择更适合用来区分对象和非对象的特征来形成弱分类器，并且通过融合弱分类器来形成强分类器。这类方法比较适合在图像中检测例如人脸这样的对象，但是对于例如人这样的对象的检测的鲁棒性则不是很高。

发明内容

[04] 鉴于现有技术的上述不足，本发明旨在提供一种生成分类器的方法、设备和对图像进行分类的方法和设备，以提高图像中对测的鲁棒性。

[05] 本发明的一个实施例是一种生成用于区分对象图像和非对象图像的分类器的方法，包括：从多个输入图像的每个图像中提取一组特征作为特征向量，其中所述提取包括：对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和根据所述提取的特征向量训练出所述分类器。

[06] 本发明的另一个实施例是一种生成用于区分对象图像和非对象图像的分类器的设备，其中所述设备从多个输入图像的每个图像中提取一组特征作为特征向量，所述设备包括：确定单元，其对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；差计算单元，其计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和梯度计算单元，其根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和训练单元，其根据所述提取的特征向量训练出所述分类器。

[07] 根据本发明的上述实施例，由于根据沿两个方向布置的区域的像素来计算包含梯度方向和梯度大小的特征，所提取的特征能够更加真实地反映相应图像部分中对象边缘的分布。基于这样的特征产生的分类器，能够更加鲁棒地检测图像中例如人或动物的对象，尤其是具有各种姿态的对象。

[08] 进一步地，在上述方法和设备中，各区域可以是矩形区域，其中第一区域是相接的，并且第二区域也是相接的。

[09] 在上述方法和设备中，在第一区域的数目和第二区域的数目均为二，第一区域是相接的并且第二区域是相接的情况下，第一轴和第二轴的交点在第一区域的连接线上或连接点的预定范围内，并且在第二区域的连接线上或连接点的预定范围内。

[10] 在上述方法和设备中，在第一区域的数目和第二区域的数目均为二，第一区域是间隔开的并且第二区域是间隔开的情况下，第一轴和第二轴的交点在第一区域的位置中心之间的中点和第二区域的位置中心之间的中点的预定范围内。

[11] 在上述方法和设备中，在第一区域的数目和第二区域的数目均为三的情况下，第一轴和第二轴的交点分别在第一区域中居于中间的第一区域内和第二区域中居于中间的第二区域内。

[12] 在上述方法和设备中，至少两个特征所基于的区域布置之间的差别包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。这使得可供考察的特征更加丰富，从而更加利于选择适合区分对象和非对象的特征。

[13] 在上述方法和设备中，对多个特征向量的至少一个维的特征进行转换，其中被转换的特征包括梯度方向和梯度大小，所述转换包括将所述梯度方向转换为多个预定区间中所述梯度方向属于的区间。针对所述至少一个维的每个维，生成包含分别对应于所述预定区间的子分类器的分类器，其中，对于每个所述预定区间，根据所述特征向量中区间与所述预定区间相同的该维特征的梯度大小的分布，获得相应子分类器的阈值。

[14] 本发明的另一个实施例是一种对图像进行分类的方法，包括：从所述图像中提取一组特征作为特征向量，其中所述提取包括：对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和根据所述提取的特征向量，对所述图像进行分类。

[15] 本发明的另一个实施例是一种对图像进行分类的设备，包括：特征提取装置，其从所述图像中提取一组特征作为特征向量，包括：确定单元，其对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；差计算单元，其计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和梯度计算单元，其根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和分类单元，其根据所述提取的特征向量，对所述图像进行分类。

[16] 在上述方法和设备中，如前所述，由于能够根据多个区域的像素来计算图像部分的梯度，所提取的特征能够更加完备地反映相应图像部分中对象边缘的分布，而较少受对象姿态变化的影响。基于这样的特征产生的分类器，能够更加鲁棒地检测图像中例如人或动物的对象，尤其是具有各种姿态的对象。

[17] 在上述方法和设备中，各区域可以是矩形区域，其中第一区域是相接的，并且第二区域是相接的。

[18] 在上述方法和设备中，在第一区域的数目和第二区域的数目均为二，第一区域是相接的并且第二区域是相接的情况下，第一轴和第二轴的交点在第一区域的连接线上或连接点的预定范围内，并且在第二区域的连接线上或连接点的预定范围内。

[19] 在上述方法和设备中，在第一区域的数目和第二区域的数目均为二，第一区域是间隔开的并且第二 E域是间隔开的情况下，第一轴和第二轴的交点在第一区域的位置中心之间的中点和第二区域的位置中心之间的中点的预定范围内。

[20] 在上述方法和设备中，在第一区域的数目和第二区域的数目均为三的情况下，第一轴和第二轴的交点分别在第一区域中居于中间的第一区域内和第二区域中居于中间的第二区域内。

[21] 进一步地，在上述方法和设备中，至少两个特征所基于的区域布置之间的差别包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。这使得可供考察的特征更加丰富，从而更加利于选择适合区分对象和非对象的特征。

[22] 进一步地，在上述方法和设备中，对图像进行分类包括：对于每个特征的梯度方向和梯度大小，确定多个梯度方向区间中梯度方向所属的梯度方向区间，每个梯度方向区间具有相应的阈值；比较所述梯度大小和所确定的梯度方向区间的相应阔值；和根据比较结果产生分类结果。

附图说明

[23] 参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。在附图中不必依照比例绘制出单元的尺寸和相对位置。

[24] 图 1的框图示出了根据本发明一个实施例的、生成用于区分对象图像和非对象图像的分类器的设备的结构。

[25] 图 2a至图 2h是示出确定单元所确定的区域布置的例子的示意图。

[26] 图 3a示出了对象（人体）的边 ^^廓的分布的一个例子。

[27] 图 3b和 3c分别示出了基于图 2a和 2b示出的区域布置在图 3a示出替换页（细则第 26条) 的部分中确定第一区域和第二区域的示意图。

[28] 图 4a是示出图 3a所示的部分 302中所包含的对象边廓的示意图。

[29] 图 4b是示出梯度计算单元根据差计算单元基于图 3b和 3c所示的第一区域和第二区域计算的第一差和第二差所计算的梯度的示意图。

[30] 图 5 示出了根据本发明一个实施例的生成用于区分对象图像和非对象图像的分类器的方法的流程图。

[31] 图 6的框图示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练单元的结构。

[32] 图 7示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练方法的流程图。

[33] 图 8的框图示出了根据本发明一个实施例的、对图像进行分类的设备的结构。

[34] 图 9示出了示出了根据本发明一个实施例的、检测图像中的对象的方法的流程图。

[35] 图 10的框图示出了才艮据本发明一个优选实施例的分类单元的结构。

[36] 图 11示出了根据本发明一个优选实施例的分类方法的流程图。

[37] 图 12是示出其中实现本发明的计算机的示例性结构的框图。

具体实施方式

[38] 下面参照附图来说明本发明的实施例。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

[39] 图 1的框图示出了根据本发明一个实施例的、生成用于区分对象图像和非对象图像的分类器的设备 100的结构。

[40] 如图 1所示，设备 100包括确定单元 101、差计算单元 102、梯度计算单元 103和训练单元 104。

[41] 在采用静态图像特征来建立分类器的技术中，收集对象图像和非对象图像，从所收集的对象图像和非对象图像中提取特征，利用 AdaBoost方法对提取的特征进行选择和融合，得到区分对象图像和非对象图像的分类器。在 Ding等人的标题为 "A Robust Human Face Detecting Method In Complicated Background Image"的专利申请 WO 2008/151470中公开了收集和准备这样的对象图像和非对象图像的方法 (参见说明书第 2页至第 3 页)。所收集和准备的对象图像和非对象图像可作为设备 100的输入图像。设备 100从多个输入图像的每个图像中提取一组特征作为特征向量。

[42] 确定单元 101对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交 (例如，以直角或非直角相交) 的第二轴的方向布置的多个第二区域。

[43] 要提取的特征通常基于输入图像中的像素。确定单元 101用于确定每个要提取的特征所基于的输入图像中的像素。确定单元 101可根据预定区域布置确定所基于的输入图像中的像素。

[44] 第一区域和第二区域的布置可以有各种方式。在一个例子中，多个第一区域的像素的位置的加权平均位置以及多个第二区域的像素的位置的加权平均位置在所述第一轴和第二轴的交点的预定范围内。具体以第一区域为例，可以将第一区域的像素的位置表示为 (；^， _yij), 其中表示第 i 个第一区域中的第 j个像素在第一轴 (即 X轴)上的座标，表示第 i个第一区域中的第 j个像素在第二轴 (即 Y轴)上的座标。可将第一区域的像素的位置的加权平均位置 ( α, )定义如下：

Ν Μ_έ Ν Μ_έ

[45】 xa = _j x_ij w_i , ya = _j y_ij w_i

[46] 其中为第一区域的数目， M,为第个第一区域中像素的数目，为第个第一区域的权重，并且 |>, =1。

[47] 进一步地，或可选地，在上述例子中，所有第一区域的权重可以相同，也可以至少部分地不同。在不相同的情况下，可以为包含的像素较多的第一区域分配较小的权重，为包含的像素较少的第一区域分配较大的权重。

[48] 虽然前面以第一区域为例对加权平均位置进行了说明，然而上述说明也适用于第二区域。

[49] 在另一个例子中，区域可以是矩形区域，第一区域是相接的，并且第二区域是相接的。

[50] 图 2是示出确定单元 101所确定的区域布置的其它例子的示意图。在图 2中， X轴表示第一轴， Y轴表示第二轴，并且矩形块的白色和黑色只是用于区分的目的。虽然图 2中的第一轴和第二轴被示出为相互正交的，然而第一轴和第二轴也可以以非直角的角度相交。

[51] 根据一种区域布置，第一区域的数目和第二区域的数目均为二，第一区域是相接的并且第二区域是相接的。在这种布置中，第一轴和第二轴的交点在第一区域的连接线上或连接点 (例如当矩形区域的顶点相接时)的预定范围内 (例如基本重合)，并且在第二区域的连接线上或连接点的预定范围内。

[52] 图 2a和图 2b示出了这种区域布置的一个例子。具体地，图 2a示出了在第一轴上第一区域的布置，其中白色矩形块 201 和黑色矩形块 202 均表示第一区域并且在连接线上相接，而第一轴和第二轴的交点在连接线上。图 2b示出了在第二轴上第二区域的布置，其中白色矩形块 203和黑色矩形块 204均表示第二区域并且在连接线上相接，而第一轴和第二轴的交点在连接线上。虽然图 2a和图 2b中分别示出了第一轴和第二轴上区域的布置，但实际上反映的是将图 2a和图 2b合并，即图 2a的第一轴和第二轴分别与图 2b的第一轴和第二轴相同时的区域布置。可选地，矩形块 201与 202，以及矩形块 203与 204可以通过各自的顶点彼此相接。

[53] 才艮据另一种区域布置，第一区域的数目和第二区域的数目均为二，第一区域是间隔开的并且第二区域是间隔开的。在这种布置中，第一轴和第二轴的交点在第一区域的位置中心之间的中点和第二区域的位置中心之间的中点的预定范围内。

[54] 图 2c和图 2d示出了这种区域布置的一个例子。图 2c示出了在第一轴上第一区域的布置，其中白色矩形块 205和黑色矩形块 206均表示第一区域并且是间隔开的，而第一轴和第二轴的交点在白色矩形块 205和黑色矩形块 206的位置中心之间的中点的预定范围内。图 2d示出了在第二轴上第二区域的布置，其中白色矩形块 207和黑色矩形块 208均表示第二区域并且是间隔开的，而第一轴和第二轴的交点在白色矩形块 207和黑色矩形块 208的位置中心之间的中点的预定范围内。虽然图 2c和图 2d中分别示出了第一轴和第二轴上区域的布置，但实际上反映的是将图 2c和图 2d 合并，即图 2c的第一轴和第二轴分别与图 2d的第一轴和第二轴相同时的区域布置。

[55] 图 2_g和图 2h示出了这种区域布置的另一个例子，其中矩形块的顶点相对。图 28示出了在第一轴上第一区域的布置，其中白色矩形块 215和黑色矩形块 216均表示第一区域并且是间隔开的，而第一轴和第二轴的交点在白色矩形块 215和黑色矩形块 216的位置中心之间的中点的预定范围内。图 2h示出了在第二轴上第二区域的布置，其中白色矩形块 217和黑色矩形块 218均表示第二区域并且是间隔开的，而第一轴和第二轴的交点在白色矩形块 217和黑色矩形块 218的位置中心之间的中点的预定范围内。虽然图 2_g和图 2h中分别示出了第一轴和第二轴上区域的布置，但实际上反映的是将图 2_g和图 2h合并，即图 2_g的第一轴和第二轴分别与图 2h的第一轴和第二轴相同时的区域布置。

[56] 才艮据另一种区域布置，第一区域的数目和第二区域的数目均为三。在这种布置中，第一轴和第二轴的交点分别在第一区域中居于中间的第一区域内和第二区域中居于中间的第二区域内。

[57] 图 2e和图 2f示出了这种区域布置的一个例子。图 2e示出了在第一轴上第一区域的布置，其中白色矩形块 210和黑色矩形块 209、 211均表示第一区域，并且第一轴和第二轴的交点在居中的白色矩形块 210内。图 2f示出了在第二轴上第二区域的布置，其中白色矩形块 213和黑色矩形块 212、 214 均表示第二区域，并且第一轴和第二轴的交点在居中的白色矩形块 213内。虽然图 2e和图 2f中分别示出了第一轴和第二轴上区域的布置，但实际上反映的是将图 2e和图 2f合并，即图 2e的第一轴和第二轴分别与图 2f的第一轴和第二轴相同时的区域布置。可选地，矩形块 209、 210与 211，以及矩形块 212、 213与 214可以是分离的，而不是相接的。

[58] 需要注意，第一区域和第二区域的形状并不限于矩形，也可以是其它形状，例如多边形、三角形、圆形、环形、不规则形状。第一区域和第二区域的形状也可以是不同的，并且不同第一 /第二区域的形状也可以是不同的。

[59] 另外，在具有矩形形状的情况下，第一区域中的不同区域的边可以是彼此平行的，也可以是彼此相对旋转一个角度。同样地，在具有矩形形状的情况下，第二区域中的不同区域的边可以是彼此平行的，也可以是彼此相对旋转一个角度。在具有矩形形状的情况下，矩形区域的相接包括通过各自的边来相接 (即第一轴和第二轴的交点在这些边上)，和通过各自的角部的顶点相接 (即第一轴和第二轴的交点在这些顶点处)。

[60] 还应注意，第一轴上布置的第一区域和第二轴上布置的第二区域的数目不限于图 2所示的数目，并且第一区域的数目不必与第二区域的数目相同，只要第一区域的像素的位置的加权平均位置以及第二区域的像素的位置的加权平均位置在第一轴和第二轴的交点的预定范围内。优选地，第一区域的数目和第二区域的数目均不超过 3。

[61] 还应注意，第一区域的相对位置关系和第二区域的相对位置关系可以是任意的，例如第一轴上布置的第一区域可以是相接的、分离的、部分相接的、部分分离的，第二轴上布置的第二区域可以是相接的、分离的、部分相接的、部分分离的，只要第一区域的像素的位置的加权平均位置以及第二区域的像素的位置的加权平均位置在第一轴和第二轴的交点的预定范围内。

[62] 在收集的对象图像中，对象的边缘轮廓表现出区别于非对象的特征。对象的边缘轮廊在对象图像中可能具有各种分布。为了能够提取出足够的反映对象的边廓的特征，确定单元 101可以在输入图像的不同位置处的不同大小的部分内确定第一区域和第二区域，以获得该部分内的边廓特征。

[63] 图 3a 示出了对象（人体）的边缘轮廊的分布的一个例子。如图 3a 所示，在输入图像中，人体的边缘轮廓存在于例如部分 301、 302、 303的大小不同、位置不同的各个部分中。

[64] 图 3b和 3c示出了基于图 2a和 2b示出的区域布置在图 3a示出的部分 302中确定第一区域和第二区域的示意图。在图 3b中，附图标记 304 指示第一区域的布置。在图 3c中，附图标记 305指示第一区域的布置。

[65] 在一个实施例中，确定单元 101可以基于一种区域布置在输入图像的不同位置确定第一区域和第二区域。接着通过改变这种区域布置中区域大小和 /或区域纵横比来得到新的区域布置，并且基于新的区域布置在输入图像的不同位置确定第一区域和第二区域。重复此过程，直到这种区域布置的所有可能区域大小或区域纵横比均被尝试过。

[66] 另外，或可选地，在上述实施例中，确定单元 101可以通过改变区域布置中区域的相对位置关系来得到新的区域布置。

[67] 另外，或可选地，在上述实施例中，确定单元 101可以通过改变区域布置中区域的数目来得到新的区域布置。

[68] 另外，或可选地，在上述实施例中，确定单元 101可以通过改变区域布置中区域的形状来得到新的区域布置。

[69] 确定单元 101 基于一种区域布置在输入图像中的一个位置确定的第一区域和第二区域决定了一个要提取的特征。概括地讲，至少两个特征所基于的区域布置是不同的。例如，不同区域布置之间的差别可以包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。

[70] 回到图 1，对于确定单元 101基于每个区域布置在输入图像中的每个位置确定的第一区域和第二区域，差计算单元 102计算第一区域的像素和或均值（灰度）之间的第一差 dx，和第二区域的像素和或均值（灰度）之间的第二差 dy。

[71] 例如，对于图 2a和 2b示出的区域布置，可以通过下式计算第一差和第二差：

第一差 =矩形块 202的像素和或均值 -矩形块 201的像素和或均值，第二差 =矩形块 202的像素和或均值 -矩形块 201的像素和或均值。

[72] 再例如，对于图 2c和 2d示出的区域布置，可以通过下式计算第一差和第二差：

第一差 =矩形块 206的像素和或均值 -矩形块 205的像素和或均值，第二差 =矩形块 208的像素和或均值 -矩形块 207的像素和或均值。

[73] 再例如，对于图 2e和 2f示出的区域布置，可以通过下式计算第一差和第二差：

第一差 =矩形块 209的像素和或均值 +矩形块 211的像素和或均值 - 矩形块 210的像素和或均值 x2，

第二差 =矩形块 212的像素和或均值 +矩形块 214的像素和或均值 -矩形块 213的像素和或均值 x2。

[74] 再例如，对于图 28和211示出的区域布置，可以通过下式计算第一差和第二差：

第一差 =矩形块 216的像素和或均值 -矩形块 215的像素和或均值，第二差 =矩形块 218的像素和或均值 -矩形块 217的像素和或均值。

[75] 计算轴向上区域的像素和或均值（灰度）之间的差的目的是获得反映相应轴向上像素灰度的变化的信息。对于不同的区域布置，可以有相应的计算第一差和第二差的方法，只要其能够反映这种变化。

[76] 回到图 1，梯度计算单元 103根据差计算单元计算的第一差和第二差计算梯度大小和梯度方向，以形成所提取的特征。

[77] 可根据下式计算梯度的方向和大小：梯度方向= ( ）（1 )，

dy

梯度大小=^^² + ² ( 2 )。

[78] 才艮据上式 (1)，梯度方向的角度范围为 0到 180度。在一个可选实施例中，可以才艮据下式计算梯度方向：

梯度方向= "2("¾ = arg (―) - π ( 1' )。

dy dy

[79] 根据上式 (1')，梯度方向的角度范围为 0到 360度。

[80] 图 4a是示出图 3a所示的部分 302中所包含的对象边廊的示意图。如图 4a所示，边缘 401示意性地表示在部分 302中包含的边缘轮廊。

[81] 图 4b是示出梯度计算单元 103根据差计算单元 102基于图 3b和 3c 所示的第一区域和第二区域计算的第一差和第二差所计算的梯度方向的示意图。在图 4b中，斜线 402的法线 403表示所计算出的梯度方向。

[82] 由于根据沿两个方向布置的、协同定位的区域的像素来计算包含梯度方向和梯度大小的特征，所提取的特征能够更加真实地反映相应图像部分中对象边缘的分布。相应地，基于这样的特征产生的分类器，能够更加鲁棒地检测图像中例如人或动物的对象，尤其是具有各种姿态的对象。

[83] 针对每个输入图像提取的所有特征形成一个特征向量。

[84] 回到图 1，训练单元 104根据所提取的特征向量训练出分类器。

[85] 可采用方向性梯度直方图，通过例如 SVM (支持向量机）的机器学习方法来根据上述实施例中获得的特征向量来训练出分类器。在例如 Dalai等人的 "Histograms of Oriented Gradients for Human Detection", Proc.of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005:886 -893 和 Triggs等人的 "Human Detection Using Oriented Histograms of Flow and Appearance", Proc. European Conference on Computer Vision, 2006的文献中描述了这种根据梯度特征训练分类器的方法。

[86] 图 5 示出了根据本发明一个实施例的生成用于区分对象图像和非对象图像的分类器的方法 500的流程图。

[87] 如图 5所示，方法 500从步骤 501开始。步骤 503 505和 507用于从当前输入图像中提取一组特征作为特征向量。在步骤 503，对于特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交 (例如，以直角或非直角相交)的第二轴的方向布置的多个第二区域。

[88] 如参照图 1所描述的，可通过 Ding等人的标题为 "A Robust Human Face Detecting Method In Complicated Background Image"的专利申请 WO 2008/151470中公开的方法 (参见说明书第 2页至第 3页)来收集和准备包括对象图像和非对象图像的输入图像。

[89] 第一区域和第二区域的布置可以是前面结合图 1 的实施例说明的区域布置。

[90] 在步骤 503中，可以在输入图像的不同位置处的不同大小的部分内确定第一区域和第二区域，以获得该部分内的边缘轮廓特征。

[91] 在方法 500的一个修改实施例中，在步骤 503可以基于一种区域布置在输入图像的不同位置确定第一区域和第二区域。接着通过改变这种区域布置中区域大小和 /或区域纵横比来得到新的区域布置，并且基于新的区域布置在输入图像的不同位置确定第一区域和第二区域。重复此过程，直到这种区域布置的所有可能区域大小或区域纵横比均被尝试过。

[92] 另外，或可选地，在上述实施例中，在步骤 503可以通过改变区域布置中区域的相对位置关系来得到新的区域布置。

[93] 另外，或可选地，在上述实施例中，在步骤 503可以通过改变区域布置中区域的数目来得到新的区域布置。

[94] 另外，或可选地，在上述实施例中，在步骤 503可以通过改变区域布置中区域的形状来得到新的区域布置。

[95] 在步骤 503，基于一种区域布置在输入图像中的一个位置确定的第一区域和第二区域决定了一个要提取的特征。概括地讲，至少两个特征所基于的区域布置是不同的。例如，不同区域布置之间的差别可以包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。

[96] 在步骤 505，计算第一区域的像素和或均值之间的第一差，和第二区域的像素和或均值之间的第二差。可通过前面结合图 1的实施例描述的方法来计算第一差和第二差。

[97] 接着在步骤 507，根据计算的第一差和第二差计算梯度大小和梯度方向，以形成所提取的特征。可根据公式（1 ) (或（1，））和（2 )来计算梯度方向和梯度大小。

[98] 接着在步骤 509，确定对于当前输入图像，是否存在未提取的特征。如果存在，则返回步骤 503，以执行提取下一个特征的过程；否则，执行步骤 511。

[99] 在步骤 511，确定是否还有未提取特征向量的输入图像。如果有，则返回步骤 503，以执行提取下一个输入图像的特征向量的过程；否则，方法前进到步骤 513。

[100] 在方法 500中，由于根据沿两个方向布置的、协同定位的区域的像素来计算包含梯度方向和梯度大小的特征，所提取的特征能够更加真实地反映相应图像部分中对象边缘的分布。相应地，基于这样的特征产生的分类器，能够更加鲁棒地检测图像中例如人或动物的对象，尤其是具有各种姿态的对象。

[101] 针对每个输入图像提取的所有特征形成一个特征向量。

[102] 在步骤 513，根据所提取的特征向量训练出分类器。

[103] 可采用方向性梯度直方图，通过例如 SVM (支持向量机）的机器学习方法来根据上述实施例中获得的特征向量来训练出分类器。在例如 Dalai等人的 "Histograms of Oriented Gradients for Human Detection", Proc.of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005:886 -893 和 Triggs等人的 "Human Detection Using Oriented Histograms of Flow and Appearance"* Proc. European Conference on Computer Vision, 2006的文献中描述了这种根据梯度特征训练分类器的方法。

[104] 方法 500在步骤 515结束。

[105] 如下面将要描述的，也可以不采用方向性梯度直方图来根据上述实施例中获得的梯度特征来训练出分类器。

[106] 图 6的框图示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练单元 104的结构。

[107] 如图 6所示，训练单元 104包括转换单元 601和分类器生成单元 602。

[108] 转换单元 601对多个特征向量的至少一个维的特征进行转换，其中被转换的特征包括梯度方向和梯度大小。例如，特征向量可以是前面参照图 1和图 5描述的实施例中产生的特征向量。转换单元 601进行的转换包括将梯度方向转换为多个预定区间中该梯度方向属于的区间。

[109] 例如，梯度方向的角度范围（即多个预定区间的角度覆盖范围)为 180 度。可以将这个范围划分为若干个预定区间 (也称为梯度方向区间），例如划分为 0到 60度、 60度到 120度和 120度到 180度三个区间。当然，也可以进行其它的划分。梯度方向的角度范围也可以是 360度。预定区间的数目优选为 3至 15。预定区间的数目越大，则角度划分越细致，更加利于得到更强分类能力 (更低的错误率)，但在检测时更容易产生过学习现象，使分类效果变差。预定区间的数目越小，则角度划分越粗，分类能力越弱，但对角度变化越不敏感，有利于提高姿势变化的鲁棒性。可以根据具体实现的需要在分类能力和姿势鲁棒性之间取得折衷，以确定预定区间的数目。

[110] 转换单元 601根据特征的梯度方向所处于的区间，将梯度方向转换为相应的区间。

[111] 假定有 N个预定区间，并且特征向量表示为 < ，···， f_M>，其中 ft包括梯度大小 Ii和梯度方向 Oi。对于要转换的特征 ft，经过转换的特征表示为 fi, 其中 f，i包括梯度大小 Ii和区间。

[112] 可以根据各个特征向量的同一个维的特征 ft来生成与该维相应的分类器。该分类器可表示为 hi(I， 0)，其中 I表示梯度大小， O表示梯度方向。分类器包括分别与 N个预定区间 Kj对应的 N个子分类器 (1)， 0<j<N+l , 用于对梯度方向属于相应预定区间的特征进行分类。每个子分类器 (1)具有相应的阈值 θ_ί 和基于该阈值确定的分类 _aij和 · (对象、非对象)。 (1)的处理可表示为：如果 1<θ_ί 则 1^·(Ι)= _ί』·；否则 (1)= 。对于每个子分类器 (Ι)，可以根据各个转换的特征向量的特征 f'i中区间与区间 Kj相同的特征的梯度大小的分布，学习得到阈值 θ_ί 和分类 _aij 和

[113] 分类器生成单元 602针对上述至少一个维的每个维，生成包含分别对应于所述预定区间的子分类器的分类器，其中，对于每个所述预定区间，根据所述特征向量中区间与所述预定区间相同的该维特征的梯度大小的分布，获得相应子分类器的阈值和基于该阈值确定的分类。可选地，也可以进一步获得所确定的分类和的可靠性的度量。

[114] 在一个简单实现中，可以只针对一个维进行转换和分类器生成，所生成的分类器作为用于区分对象图像和非对象图像的分类器。 [115] 优选地，上述至少一个维可以包括特征向量的至少两个维或所有维。在这样的情况下，可以分别生成与每一个维相应的分类器，并且根据生成的各个分类器获得最终的分类器。

[116] 可通过已知的方法来将对应于各个维的分类器组合成最终的分类器。例如， Adaboost方法是一种用来分类的方法，可用来把针对各个维生成的分类器融合在一起，组合出新的很强的分类器。

[117] 在 Adaboost方法中，为每个样本设置权重，通过迭代的方法组合分类器。每次迭代时，当分类器对某些样本正确分类时，则减少这些样本的权值；当错误分类时，则增加这些样本的权重，让学习算法在后续的学习中集中对比较难的训练样本进行学习，最终得到一个识别准确率理想的分类器。

[118] 在 Paul Viola和 Michael Jones 的文章 "Robust Real-time Object Detection" ， Second International Workshop On Statistical And Computational Theories Of Vision - Modeling, Learning, Computing, And Sampling, Vancouver, Canada, July 13, 2001中描述这种选择和融合多个分类器以形成最终分类器的技术。

[119] 在一个优选实施例中，预定区间之一为代表弱梯度的区间。在这种情况下，转换单元 601在特征的梯度大小小于预定阈值的情况下，将梯度方向转换为代表弱梯度的区间。对于和代表弱梯度的区间相应的子弱分类器，无论梯度大小如何，均将特征分类为非对象。

[120] 图 7示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练方法 700的流程图。

[121] 如图 7所示，方法 700从步骤 701开始。在步骤 703，对多个特征向量的至少一个维的特征进行转换，其中被转换的特征包括梯度方向和梯度大小。例如，特征向量可以是前面参照图 1和图 5描述的实施例中产生的特征向量。所进行的转换包括将梯度方向转换为多个预定区间中该梯度方向属于的区间。

[122] 在步骤 705，针对所转换的特征向量的当前维，生成包含分别对应于所述预定区间的子分类器的分类器，其中，对于每个所述预定区间，根据所述特征向量中区间与所述预定区间相同的当前维特征的梯度大小的分布，获得相应子分类器的阈值和基于该阈值确定的分类。可选地，也可以进一步获得所确定的分类和的可靠性的度量。 [123] 在步骤 707，确定是否有未生成分类器的维。如果有，则返回步骤 705 生成下一个维的分类器；否则方法在步骤 709结束。

[124] 在一个简单实现中，可以只针对一个维进行转换和分类器生成，所生成的分类器作为用于区分对象图像和非对象图像的分类器。

[125] 优选地，上述至少一个维可以包括特征向量的至少两个维或所有维。在这样的情况下，可以分别生成与每一个维相应的分类器，并且根据生成的各个分类器获得最终的分类器。

[126] 可通过已知的方法来将对应于各个维的分类器组合成最终的分类器，例如 Paul Viola等人的 AdaBoost方法来根据所生成的分类器来形成最终的分类器。

[127] 在一个优选实施例中，预定区间之一为代表弱梯度的区间。在这种情况下，在步骤 703中，在特征的梯度大小小于预定阈值的情况下，将梯度方向转换为代表弱梯度的区间。对于和代表弱梯度的区间相应的子弱分类器，无论梯度大小如何，均将特征分类为非对象。

[128] 图 8的框图示出了根据本发明一个实施例的、对图像进行分类的设备 800的结构。

[129] 如图 8所示，设备 800包括确定单元 801、差计算单元 802、梯度计算单元 803和分类单元 804。

[130] 输入设备 800 的图像可以是通过扫描窗口从要处理的图像中获得预定尺寸的图像。可通过在 Ding 等人的标题为 "A Robust Human Face Detecting Method In Complicated Background Image"的专利申清 WO 2008/151470中描述的方法来获得图像 (参见说明书第 5页)。

[131] 在这个实施例中，所要提取的特征向量是分类单元 804所使用的分类器所基于的特征向量。

[132] 确定单元 801对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交 (例如，以直角或非直角相交) 的第二轴的方向布置的多个第二区域。

[133] 确定单元 801 所基于的第一区域和第二区域的区域布置可以是前面结合确定单元 101描述的区域布置。

[134] 对于确定单元 801 基于每个区域布置在输入图像中的每个位置确定的第一区域和第二区域，差计算单元 802 计算第一区域的像素和或均值 (灰度）之间的第一差 dx，和第二区域的像素和或均值（灰度）之间的第二差 dy。可根据公式（ 1 ) (或（ 1' ) )和（ 2 )来计算梯度方向和梯度大小。

[135] 梯度计算单元 803根据差计算单元 802计算的第一差和第二差计算梯度大小和梯度方向，以形成所提取的特征。可以采用前面结合梯度计算单元 103描述的方法来计算梯度大小和梯度方向。

[136] 针对输入图像提取的所有特征形成一个特征向量。分类单元 804根据所提取的特征向量，对输入图像进行分类。分类单元 804所采用的分类器可以是在前面的实施例中生成的分类器，例如采用方向性梯度直方图生成的分类器、基于梯度方向区间生成的分类器。

[137] 图 9示出了示出了根据本发明一个实施例的、对图像进行分类的方法 900的流程图。

[138] 如图 9所示，方法 900从步骤 901开始。步骤 903、 905和 907用于从当前输入图像中提取一组特征作为特征向量。所要提取的特征向量是所使用的分类器所基于的特征向量。输入图像可以是通过扫描窗口从要处理的图像中获得预定尺寸的图像。可通过在 Ding等人的标题为 "A Robust Human Face Detecting Method In Complicated Background Image"的专利申请 WO 2008/151470中描述的方法 ^获得图像 (参见说明书第 5页）。

[139] 在步骤 903，对于特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交 (例如，以直角或非直角相交)的第二轴的方向布置的多个第二区域。步骤 903所基于的第一区域和第二区域的区域布置可以是前面结合确定单元 101描述的区域布置。

[140] 接着在步骤 907，根据计算的第一差和第二差计算梯度大小和梯度方向，以形成所提取的特征。可根据公式（1 ) (或（1，））和（2 )来计算梯度方向和梯度大小。

[141] 接着在步骤 909，确定对于当前输入图像，是否存在未提取的特征。如果存在，则返回步骤 903，以执行提取下一个特征的过程；否则，执行步骤 911。

[142] 针对输入图像提取的所有特征形成一个特征向量。在步骤 911，根据所提取的特征向量，对输入图像进行分类。步骤 911所采用的分类器可以是在前面的实施例中生成的分类器，例如采用方向性梯度直方图生成的分类器、基于梯度方向区间生成的分类器。 [143] 方法 900在步骤 913结束。

[144] 图 10的框图示出了根据本发明一个优选实施例的分类单元 104的结构。

[145] 如图 12所示，分类单元 104包括分类器 1001至 100M， M为所提取的特征向量中特征的数目。每个分类器对应于一个特征。分类器 1001至 100M可以是前面参照图 6描述的分类器。以分类器 1001为例，分类器 1001包括多个子分类器 1001-1至 1001-N。如前面参照图 6所描述的，每个子分类器 1001-1至 1001-N对应于一个不同的梯度方向区间，并且每个梯度方向区间具有相应的阈值。

[146] 对于所提取的特征向量的每个特征，在相应分类器 (例如分类器 1001) 中，在该特征的梯度方向属于的一个子分类器 (例如子分类器 1001-1 至 1001-N之一)所对应的梯度方向区间的情况下，由该子分类器比较该特征的梯度大小和该梯度方向区间的相应阈值，并且根据比较结果产生分类结果。分类结果可以是图像的分类 (对象、非对象)。可选地，分类结果还可以包含图像分类的可靠性。

[147] 在未示出的单元中，可通过已知的方法，把各个分类器根据特征向量的相应特征产生的分类结果组合成最终的分类结果。例如可采用 Adaboost方法。

[148] 图 11示出了根据本发明一个优选实施例的分类方法的流程图。该方法可用来实现图 9的步骤 911。

[149] 如图 11所示，方法从步骤 1101开始。在步骤 1103，对于所提取的特征向量的一个特征，确定与该特征相关的多个梯度方向区间 (如参照图 6 所描述的)中该特征的梯度方向所属的梯度方向区间。如参照图 6所描述的，每个梯度方向区间具有相应的阈值。

[150] 在步骤 1105，比较该特征的梯度大小和所确定的梯度方向区间的相应阈值。

[151] 在步骤 1107，根据比较结果产生分类结果。分类结果可以是图像的分类 (对象、非对象)。可选地，分类结果还可以包含图像分类的可靠性。

[152] 在步骤 1109，确定特征向量中是否还有未处理的特征。如果有，则返回步骤 1103继续处理下一个特征。如果没有，则方法在步骤 1111结束。

[153] 图 12是示出其中实现本发明的计算机的示例性结构的框图。 [154] 本发明的设备和方法实现环境如图 12所示。

[155] 在图 12中，中央处理单元 (CPU)1201根据只读映射数据 (ROM)1202 中存储的程序或从存储部分 1208加载到随机存取映射数据 (RAM)1203的程序执行各种处理。在 RAM 1203中，也根据需要存储当 CPU 1201执行各种处理等等时所需的数据。

[156] CPU 1201、 ROM 1202和 RAM 1203经由总线 1204彼此连接。输入 /输出接口 1205也连接到总线 1204。

[157] 下述部件连接到输入 /输出接口 1205: 输入部分 1206，包括键盘、鼠标等等；输出部分 1207，包括显示器，比如阴极射线管 (CRT)、液晶显示器 (LCD)等等，和扬声器等等；存储部分 1208，包括硬盘等等；和通信部分 1209，包括网络接口卡比如 LAN卡、调制解调器等等。通信部分 1209 经由网络比如因特网执行通信处理。

[158] 根据需要，驱动器 1210也连接到输入 /输出接口 1205。可拆卸介质 1211 比如磁盘、光盘、磁光盘、半导体映射数据等等根据需要被安装在驱动器 1210上，使得从中读出的计算才 ^序根据需要被安装到存储部分 1208中。

[159] 在通过软件实现上述步骤和处理的情况下，从网络比如因特网或存储介质比如可拆卸介盾 1211安装构成软件的程序。

[160] 本领域的技术人员应当理解，这种存储介质不局限于图 12所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可拆卸介盾 1211。可拆卸介质 1211 的例子包含磁盘、光盘 (包含光盘只读映射数据 (CD-ROM)和数字通用盘 (DVD))、磁光盘（包含迷你盘 (MD)和半导体映射数据。或者，存储介盾可以是 ROM 1202、存储部分 1208中包含的硬盘等等，其中存有程序，并且与包含它们的方法一起被分发给用户。

[161] 在前面的说明书中参照特定实施例描述了本发明。然而本领域的普通技术人员理解，在不偏离如权利要求书限定的本发明的范围的前提下可以进行各种修改和改变。

Claims

权利要求书

1. 一种对图像进行分类的方法，包括：

从所述图像中提取一组特征作为特征向量，其中所述提取包括：

对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和

根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和

根据所述提取的特征向量，对所述图像进行分类。

2. 如权利要求 1所述的方法，其中所述区域为矩形区域，所述第一区域是相接的，并且所述第二区域是相接的。

3. 如权利要求 1所述的方法，其中，

在所述第一区域的数目和所述第二区域的数目均为二，所述第一区域是相接的并且所述第二区域是相接的情况下，所述第一轴和第二轴的交点在所述第一区域的连接线上或连接点的预定范围内，并且在所述第二区域的连接线上或连接点的预定范围内；

在所述第一区域的数目和所述第二区域的数目均为二，所述第一区域是间隔开的并且所述第二区域是间隔开的情况下，所述第一轴和第二轴的交点在所述第一区域的位置中心之间的中点和所述第二区域的位置中心之间的中点的预定范围内；

在所述第一区域的数目和所述第二区域的数目均为三的情况下，所述第一轴和第二轴的交点分别在所述第一区域中居于中间的第一区域内和所述第二区域中居于中间的第二区域内。

4. 如权利要求 1所述的方法，其中至少两个所述特征所基于的区域布置之间的差别包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。

5. 如权利要求 1所述的方法，其中对所述图像进行分类包括：对于每个所述特征，确定与所述特征相关的多个梯度方向区间中所述特征的梯度方向所属的梯度方向区间，每个梯度方向区间具有相应的阈值；

比较所述特征的梯度大小和所确定的梯度方向区间的相应阈值；和才艮据比较结果产生分类结果。

6. 如权利要求 5所述的方法，其中所述多个梯度方向区间的数目为 3至 15。

7. 如权利要求 5所述的方法，其中多个梯度方向区间所覆盖的范围为 180度或 360度。

8. 一种对图像进行分类的设备，所述设备从所述图像中提取一组特征作为特征向量，并且包括：

确定单元，其对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；

差计算单元，其计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和

梯度计算单元，其根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和

分类单元，其根据所述提取的特征向量，对所述图像进行分类。

9. 如权利要求 8所述的设备，其中所述区域为矩形区域，所述第一区域是相接的，并且所述第二区域是相接的。

10. 如权利要求 8所述的设备，其中，

在所述第一区域的数目和所述第二区域的数目均为二，所述第一区域是间隔开的并且所述第二区域是间隔开的情况下，所述第一轴和第二轴的交点在所述第一区域的位置中心之间的中点和所述第二区域的位置中心之间的中点的预定范围内；在所述第一区域的数目和所述第二区域的数目均为三的情况下，所述第一轴和第二轴的交点分别在所述第一区域中居于中间的第一区域内和所述第二区域中居于中间的第二区域内。

11. 如权利要求 8所述的设备，其中至少两个所述特征所基于的区域布置之间的差别包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。

12. 如权利要求 8所述的设备，其中对于每个所述特征，所述分类单元包括相应的分类器，所述分类器包括：

多个子分类器，每个子分类器对应于一个不同的梯度方向区间，每个梯度方向区间具有相应的阈值，

其中每个子分类器被配置为在所述特征的梯度方向属于所述子分类器所对应的梯度方向区间的情况下，比较所述特征的梯度大小和所述梯度方向区间的相应阈值，并且根据比较结果产生分类结果。

13. 如权利要求 12所述的设备，其中所有所述梯度方向区间的数目为 3至 15。

14. 如权利要求 12所述的设备，其中所有所述梯度方向区间所覆盖的范围为 180度或 360度。