CN102708384B

CN102708384B - 一种基于随机蕨的自举弱学习方法及其分类器

Info

Publication number: CN102708384B
Application number: CN201210180065.XA
Authority: CN
Inventors: 权伟; 陈锦雄; 余南阳; 刘彬
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2012-06-04
Filing date: 2012-06-04
Publication date: 2014-01-29
Anticipated expiration: 2032-06-04
Also published as: CN102708384A

Abstract

本发明提供了一种基于随机蕨的自举弱学习方法及其分类器，本发明属于计算机图形识别技术领域。图形识别通常采用弱分类器的加权、高斯概率分布的均值距离来判别正负样本。或采用分类树作为弱学习器，用误差测度减少最大化的划分准则划分节点，然后将这些弱分类器提升为强分类器。但是，这些弱学习方法要么收敛速度慢，要么准确率不够高，要么计算效率低。本发明选择图像特征和构造随机蕨、基于随机蕨的弱学习方法、基于随机蕨的弱学习方法、构建弱分类器、结果分类器等步骤可以很好地解决成像环境复杂且对运算量要求严格的图像模式识别，实现快速收敛和高效的自举弱学习方法，得到实时处理且准确率高的分类器。主要用于各种模式识别场合。

Description

一种基于随机蕨的自举弱学习方法及其分类器

技术领域

本发明属于计算机图形图像模式识别技术领域，特别涉及机器学习，计算机视觉技术。

背景技术

随着计算机技术的发展，研究复杂的信息处理过程成为可能。信息处理过程的一个重要形式就是模式识别，即主体对环境及客体的识别，而分类过程则是模式识别的基本任务。目前，Boosting自举分类方法(这里主要指AdaBoost自适应自举方法)因其在检测和识别中的实际应用能力，在模式识别和机器学习任务中得到越来越广泛的应用，如医学图像分析，光学文字识别，语音识别，手写识别，人脸识别，指纹识别，虹膜识别，文件分类，摄影测量与遥感，互联网搜索引擎，信用评分等。在Boosting自举分类器的训练过程中，不同的弱学习方法将决定Boosting自举分类器的训练速度，收敛性和准确率。弱学习方法主要基于特征的选择和阈值的确定。

Leshem将AdaBoost算法应用到交通管理信息***中，利用弱学习器来训练道路交通数据，并且预测道路交通流量情况，取得良好的效果。Lin将RealAdaBoost算法应用到基于内容的图像检索***中，通过对图像的类别短语进行训练，达到降低噪声的效果，实验表明比KNN(K-nearest Neighbor)分类算法准确性有所提高。Dai等人将AdaBoost算法应用到区域图像检索中，通过使用AdaBoost弱分类器对特征反复训练，得到具有较小错分率的强分类器，从而返回更加精确的查询结果。为了解决不同的特征融合分类问题，Yin等人提出了一种改进的boosting算法，使用一个弱分类器仅对某一个特征集进行训练，最终根据权重将这些弱分类器组合成一个强分类器，该方法在手写数字识别中取得了较好的效果。Viola等人提出了的样本权重更新方法，被正确分类样本权重减小，而错误分类样本权重不变。AdaBoost在学习训练的过程中要解决的是每一轮样本训练集的样本分布问题，其中正负样本的权重更新及错分率的处理至关重要。对样本进行两类划分，以便保证弱分类器分得的样本准确率大于随机猜测的准确率。李闯等人提出了针对目标检测问题的改进AdaBoost算法，采用了新的参数求解方法，弱分类器的加权参数不但与错分率有关，还与其对正样本的识别能力有关。Kim等人提出了特征值是基于高斯概率分布的AdaBoost算法，通过特征值的分布与高斯概率分布的均值距离来判别正负样本。谢红跃等人提出一种AdaBoost样本阈值和偏置计算方法，该方法依据样本权重的大小计算出对应的样本阈值，并用来区分正确分类和错误分类的样本，从而使得弱分类器划分准确性大于50％。钟向阳等人提出基于多阈值弱学习的Adaboost检测器，该方法采用分类树作为弱学习器，以贪婪的方法用误差测度减少最大化的划分准则划分节点，并由此生成弱分类器，然后采用RAB或GAB方法在给定数据和标签的训练集上将这些弱分类器提升为强分类器。但是，这些弱学习方法要么收敛速度慢，要么准确率不够高，要么计算效率低。

鉴于以上方法的不足，本发明提出基于随机蕨的自举弱学习方法，该方法收敛速度快，计算效率高，且最终得到的自举分类器准确率高。本发明方法采用的图像特征融合局部二元模式特征(LBP)和类哈尔特征(haar-like)，对对象局部区域进行测量并编码；然后，将样例对应的特征值作为随机蕨的样本输入，随机蕨对所有编码进行计数；接着，根据随机蕨记录的样本分布，选择最好的编码作为该特征对应的判别特征值(阈值)；最后，将得到的基于这种特征值编码的随机蕨弱分类器作为预测函数加入到自举算法框架中，其余处理过程与自适应自举算法一致，最终得到一个强分类器。因此，本发明方法可以很好地解决成像环境复杂且对运算量要求严格的图像模式识别问题。此外，本发明方法同时适合于离线和在线自举分类器训练。

发明内容

本发明的目的是提供一种基于随机蕨的自举弱学习方法及其分类器，它能实现快速收敛和高效的自举弱学习方法，得到实时处理且准确率高的分类器。

本发明实现是发明目的所采用的技术方案是：一种基于随机蕨的自举弱学习方法及其分类器，所述方法包括如下内容：

(1)选择图像特征和构造随机蕨

采用的图像特征融合局部二元模式特征(LBP)和类哈尔特征(haar-like)，这些特征对图像区域的梯度方向进行测量，并量化输出8种可能的编码，如图1、图2和图3所示，它们均为矩形特征。具体来说，先分别按照水平方向，垂直方向和对角方向将矩形区域平分为两部分，分别标记为白色和黑色，然后，计算白色矩形像素值的和减去黑色矩形像素值的和，该值如果大于0，则编码为1，否则为0。因此，对于一个特征，3个方向得到3位的二进制编码，即2³＝8种可能的值。

如图4所示，不同于一般随机蕨的构成，这里，随机蕨简化为仅包含一个特征，即蕨的值等于所包含的这个特征的值，而蕨中每个编码的概率分布将由后续该编码所接收到的样例的个数及其标记决定。

(2)基于随机蕨的弱学习方法

对于自举分类方法来说，其本质为二元分类，因此，样本集合由正样例和负样例两类样本组成。按照(1)的方法，在不同的位置，以不同的大小和宽高比，并根据自举方法所需的迭代次数，随机生成对应数量的特征及其对应的蕨。

基于随机蕨的弱学习方法分为以下两个方面：

(i)随机蕨训练

对随机蕨的训练过程也是选择判别特征值的过程。输入样本集合，对每一个蕨计算所有样例对应的特征值，该蕨记录每个特征值编码对应的正样例和负样例的个数。设

为编码j接收到的正样例的个数，

为编码j接收到的负样例的个数，P^j为编码j对应正样例的概率，则蕨中每个编码的概率计算为：

P^{j} = N_{p}^{j} / (N_{p}^{j} + N_{N}^{j}),

其中j＝0，1，...，M-1，这里M＝8。该蕨的判别特征值J为使P^j最大的j值，

即：

J = \underset{j}{\arg \max} (P^{j}),

这里J即为该随机蕨的阈值。

(ii)随机蕨评价

根据随机蕨训练所确定的阈值，随机蕨对样例的评价方法为：如果样例的特征值等于该随机蕨的阈值，那么预测该样例为正样例，输出+1，否则预测为负样例，输出-1。该方法的技术流程图如图5所示。

由于采用这样的特征值编码概率分布作为评价模型，因此这种随机蕨结构能够始终保持较高的辨别能力。如果在以上的学习框架中加入更多的矩形特征类型，即增加相应的随机蕨编码位数，其分辨能力会得到进一步的增强。同时，结合图像积分图的计算方法，可以快速地计算样例的特征值，从而实现快速的分类器训练和识别过程。

(3)构建弱分类器

对于离线自举方法，其弱分类器的构建过程如下。

对每一次迭代进行如下的步骤：

①按照(1)的方法构造一个由随机蕨组成的集合；

②输入样本集合，按照(2)的方法对每一个随机蕨计算所有的编码概率并确定其阈值；

③每个随机蕨根据其阈值分别对样本集合进行评价分类；

④选择其中分类错误率最小的随机蕨作为本次迭代产生并获得的弱分类器，即作为自举方法的预测函数输入；

⑤其余处理过程与自适应自举方法相同。

对于在线自举方法，样本集合每次只包含一个样例，因此其弱分类器的构建过程如下。

对每一次迭代进行如下的步骤：

①根据特征选择的方法，对每次迭代，即对每个特征选择器，按照(1)的方法为其生成一个特征池(包含多个随机特征)以及对应的随机蕨集合；

②对每次样本输入，按照(2)的方法，对每一个随机蕨重新计算所有的编码概率并更新其阈值，即更新了对应的弱分类器；

③每个随机蕨对该样本进行评价分类；

④在随机蕨集合中选择分类错误率最小的随机蕨作为本次选择器的弱分类器并保存；

⑤将分类错误率最大的随机蕨从随机蕨集合中删除，同时随机生成并加入一个新的蕨；

⑥其余处理过程与在线自举方法相同。

以上特征池的操作与随机蕨集合的操作须对应进行。需要说明的是，在线自举方法中所包含的这些弱分类器在每次迭代之后可能相同也可能不同，只有在输入的在线训练样例足够多之后，这些弱分器将逐步稳定下来，也就是说，每个选择器将逐步选择得到分类准确的随机蕨特征。

(4)结果分类器

有了(3)中构建得到的弱分类器，则可以生成最终的结果分类器，而该结果分类器即为所需的强分类器。

对于离线自举方法，设h_t(x)为第t轮学习得到的弱分类器，α_t为该弱分类器的权重。因此，经过T轮训练得到T个最优的弱分类器，最后组成一个强分类器H^strong(x)：

H^{strong} (x) = sign (Σ_{t = 1}^{T} α_{t} h_{t} (x))

对于在线自举方法，设为第n个选择器得到的弱分类器，α_n为该弱分类器的权重。因此，经过N次选择得到N个最优的弱分类器，最后组成一个强分类器H^strong(x)：

H^{strong} (x) = sign (Σ_{n = 1}^{N} α_{n} h_{n}^{sel} (x))

以上组成结果分类器的h_t(x)和

均是由基于随机蕨的弱学习方法得到，它们均对应(1)所述的一个特征。

因此，经过以上(1)-(4)的处理后，可以得到实时处理且分类准确率高的分类器。

本发明的有益效果是：

本发明方法可以很好地解决成像环境复杂且对运算量要求严格的图像模式识别问题，实现快速收敛和高效的自举弱学习方法，得到实时处理且准确率高的分类器。此外，本发明方法同时适合于离线和在线自举分类器训练。

附图说明

图1为本发明水平方向图像特征；

图2为本发明垂直方向图像特征；

图3为本发明对角方向图像特征；

图4为本发明随机蕨及其特征值编码；

图5为本发明基于随机蕨的弱学习方法流程图；

具体实施方式

本发明的方法同时适合于离线和在线自举分类器训练，可用于各种模式识别和计算机视觉领域问题，包括视频对象跟踪，医学图像分析，光学文字识别，手写识别，人脸识别，指纹识别，文件分类，摄影测量与遥感等。

以视频对象跟踪为例：在跟踪的初始帧时刻，通过在初始获得的目标位置及其周围位置提取相应的正负样例，并按照本发明提出的方法训练分类器。而在跟踪过程中，在以上次确定的目标位置为中心的搜索区域内，用此训练得到的分类器对该搜索区域的各个位置进行分类评价，用分类评价置信度值最高的位置作为当前目标的位置，从而实现视频对象的跟踪。

本发明方法可通过任何计算机程序设计语言(如C语言)编程实现，基于本方法的分类***软件可在任何PC或者嵌入式***中实现实时检测和识别应用。

Claims

1.一种基于随机蕨的自举弱学习方法，所述方法包括如下内容：

（1）选择图像特征和构造随机蕨

采用的图像特征融合局部二元模式特征和类哈尔特征，这些特征对图像区域的梯度方向进行测量，并量化输出8种可能的编码，它们均为矩形特征；具体来说，先分别按照水平方向，垂直方向和对角方向将矩形区域平分为两部分，分别标记为白色和黑色，然后，计算白色矩形像素值的和减去黑色矩形像素值的和，该值如果大于0，则编码为1，否则为0；

随机蕨简化为仅包含一个特征，即蕨的值等于所包含的这个特征的值，而蕨中每个编码的概率分布将由后续该编码所接收到的样例的个数及其标记决定；

（2）基于随机蕨的弱学习方法

基于随机蕨的弱学习方法分为以下两个方面：

(ⅰ)随机蕨训练

对随机蕨的训练过程也是选择判别特征值的过程；输入样本集合，对每一个蕨计算所有样例对应的特征值，该蕨记录每个特征值编码对应的正样例和负样例的个数，设