CN102708384B - 一种基于随机蕨的自举弱学习方法及其分类器 - Google Patents

一种基于随机蕨的自举弱学习方法及其分类器 Download PDF

Info

Publication number
CN102708384B
CN102708384B CN201210180065.XA CN201210180065A CN102708384B CN 102708384 B CN102708384 B CN 102708384B CN 201210180065 A CN201210180065 A CN 201210180065A CN 102708384 B CN102708384 B CN 102708384B
Authority
CN
China
Prior art keywords
fern
sample
random fern
random
weak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210180065.XA
Other languages
English (en)
Other versions
CN102708384A (zh
Inventor
权伟
陈锦雄
余南阳
刘彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN201210180065.XA priority Critical patent/CN102708384B/zh
Publication of CN102708384A publication Critical patent/CN102708384A/zh
Application granted granted Critical
Publication of CN102708384B publication Critical patent/CN102708384B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种基于随机蕨的自举弱学习方法及其分类器,本发明属于计算机图形识别技术领域。图形识别通常采用弱分类器的加权、高斯概率分布的均值距离来判别正负样本。或采用分类树作为弱学习器,用误差测度减少最大化的划分准则划分节点,然后将这些弱分类器提升为强分类器。但是,这些弱学习方法要么收敛速度慢,要么准确率不够高,要么计算效率低。本发明选择图像特征和构造随机蕨、基于随机蕨的弱学习方法、基于随机蕨的弱学习方法、构建弱分类器、结果分类器等步骤可以很好地解决成像环境复杂且对运算量要求严格的图像模式识别,实现快速收敛和高效的自举弱学习方法,得到实时处理且准确率高的分类器。主要用于各种模式识别场合。

Description

一种基于随机蕨的自举弱学习方法及其分类器
技术领域
本发明属于计算机图形图像模式识别技术领域,特别涉及机器学习,计算机视觉技术。
背景技术
随着计算机技术的发展,研究复杂的信息处理过程成为可能。信息处理过程的一个重要形式就是模式识别,即主体对环境及客体的识别,而分类过程则是模式识别的基本任务。目前,Boosting自举分类方法(这里主要指AdaBoost自适应自举方法)因其在检测和识别中的实际应用能力,在模式识别和机器学习任务中得到越来越广泛的应用,如医学图像分析,光学文字识别,语音识别,手写识别,人脸识别,指纹识别,虹膜识别,文件分类,摄影测量与遥感,互联网搜索引擎,信用评分等。在Boosting自举分类器的训练过程中,不同的弱学习方法将决定Boosting自举分类器的训练速度,收敛性和准确率。弱学习方法主要基于特征的选择和阈值的确定。
Leshem将AdaBoost算法应用到交通管理信息***中,利用弱学习器来训练道路交通数据,并且预测道路交通流量情况,取得良好的效果。Lin将RealAdaBoost算法应用到基于内容的图像检索***中,通过对图像的类别短语进行训练,达到降低噪声的效果,实验表明比KNN(K-nearest Neighbor)分类算法准确性有所提高。Dai等人将AdaBoost算法应用到区域图像检索中,通过使用AdaBoost弱分类器对特征反复训练,得到具有较小错分率的强分类器,从而返回更加精确的查询结果。为了解决不同的特征融合分类问题,Yin等人提出了一种改进的boosting算法,使用一个弱分类器仅对某一个特征集进行训练,最终根据权重将这些弱分类器组合成一个强分类器,该方法在手写数字识别中取得了较好的效果。Viola等人提出了的样本权重更新方法,被正确分类样本权重减小,而错误分类样本权重不变。AdaBoost在学习训练的过程中要解决的是每一轮样本训练集的样本分布问题,其中正负样本的权重更新及错分率的处理至关重要。对样本进行两类划分,以便保证弱分类器分得的样本准确率大于随机猜测的准确率。李闯等人提出了针对目标检测问题的改进AdaBoost算法,采用了新的参数求解方法,弱分类器的加权参数不但与错分率有关,还与其对正样本的识别能力有关。Kim等人提出了特征值是基于高斯概率分布的AdaBoost算法,通过特征值的分布与高斯概率分布的均值距离来判别正负样本。谢红跃等人提出一种AdaBoost样本阈值和偏置计算方法,该方法依据样本权重的大小计算出对应的样本阈值,并用来区分正确分类和错误分类的样本,从而使得弱分类器划分准确性大于50%。钟向阳等人提出基于多阈值弱学习的Adaboost检测器,该方法采用分类树作为弱学习器,以贪婪的方法用误差测度减少最大化的划分准则划分节点,并由此生成弱分类器,然后采用RAB或GAB方法在给定数据和标签的训练集上将这些弱分类器提升为强分类器。但是,这些弱学习方法要么收敛速度慢,要么准确率不够高,要么计算效率低。
鉴于以上方法的不足,本发明提出基于随机蕨的自举弱学习方法,该方法收敛速度快,计算效率高,且最终得到的自举分类器准确率高。本发明方法采用的图像特征融合局部二元模式特征(LBP)和类哈尔特征(haar-like),对对象局部区域进行测量并编码;然后,将样例对应的特征值作为随机蕨的样本输入,随机蕨对所有编码进行计数;接着,根据随机蕨记录的样本分布,选择最好的编码作为该特征对应的判别特征值(阈值);最后,将得到的基于这种特征值编码的随机蕨弱分类器作为预测函数加入到自举算法框架中,其余处理过程与自适应自举算法一致,最终得到一个强分类器。因此,本发明方法可以很好地解决成像环境复杂且对运算量要求严格的图像模式识别问题。此外,本发明方法同时适合于离线和在线自举分类器训练。
发明内容
本发明的目的是提供一种基于随机蕨的自举弱学习方法及其分类器,它能实现快速收敛和高效的自举弱学习方法,得到实时处理且准确率高的分类器。
本发明实现是发明目的所采用的技术方案是:一种基于随机蕨的自举弱学习方法及其分类器,所述方法包括如下内容:
(1)选择图像特征和构造随机蕨
采用的图像特征融合局部二元模式特征(LBP)和类哈尔特征(haar-like),这些特征对图像区域的梯度方向进行测量,并量化输出8种可能的编码,如图1、图2和图3所示,它们均为矩形特征。具体来说,先分别按照水平方向,垂直方向和对角方向将矩形区域平分为两部分,分别标记为白色和黑色,然后,计算白色矩形像素值的和减去黑色矩形像素值的和,该值如果大于0,则编码为1,否则为0。因此,对于一个特征,3个方向得到3位的二进制编码,即23=8种可能的值。
如图4所示,不同于一般随机蕨的构成,这里,随机蕨简化为仅包含一个特征,即蕨的值等于所包含的这个特征的值,而蕨中每个编码的概率分布将由后续该编码所接收到的样例的个数及其标记决定。
(2)基于随机蕨的弱学习方法
对于自举分类方法来说,其本质为二元分类,因此,样本集合由正样例和负样例两类样本组成。按照(1)的方法,在不同的位置,以不同的大小和宽高比,并根据自举方法所需的迭代次数,随机生成对应数量的特征及其对应的蕨。
基于随机蕨的弱学习方法分为以下两个方面:
(i)随机蕨训练
对随机蕨的训练过程也是选择判别特征值的过程。输入样本集合,对每一个蕨计算所有样例对应的特征值,该蕨记录每个特征值编码对应的正样例和负样例的个数。设
Figure BDA00001722557000041
为编码j接收到的正样例的个数,
Figure BDA00001722557000042
为编码j接收到的负样例的个数,Pj为编码j对应正样例的概率,则蕨中每个编码的概率计算为:
P j = N p j / ( N p j + N N j ) ,
其中j=0,1,...,M-1,这里M=8。该蕨的判别特征值J为使Pj最大的j值,
即:
J = arg max j ( P j ) ,
这里J即为该随机蕨的阈值。
(ii)随机蕨评价
根据随机蕨训练所确定的阈值,随机蕨对样例的评价方法为:如果样例的特征值等于该随机蕨的阈值,那么预测该样例为正样例,输出+1,否则预测为负样例,输出-1。该方法的技术流程图如图5所示。
由于采用这样的特征值编码概率分布作为评价模型,因此这种随机蕨结构能够始终保持较高的辨别能力。如果在以上的学习框架中加入更多的矩形特征类型,即增加相应的随机蕨编码位数,其分辨能力会得到进一步的增强。同时,结合图像积分图的计算方法,可以快速地计算样例的特征值,从而实现快速的分类器训练和识别过程。
(3)构建弱分类器
对于离线自举方法,其弱分类器的构建过程如下。
对每一次迭代进行如下的步骤:
①按照(1)的方法构造一个由随机蕨组成的集合;
②输入样本集合,按照(2)的方法对每一个随机蕨计算所有的编码概率并确定其阈值;
③每个随机蕨根据其阈值分别对样本集合进行评价分类;
④选择其中分类错误率最小的随机蕨作为本次迭代产生并获得的弱分类器,即作为自举方法的预测函数输入;
⑤其余处理过程与自适应自举方法相同。
对于在线自举方法,样本集合每次只包含一个样例,因此其弱分类器的构建过程如下。
对每一次迭代进行如下的步骤:
①根据特征选择的方法,对每次迭代,即对每个特征选择器,按照(1)的方法为其生成一个特征池(包含多个随机特征)以及对应的随机蕨集合;
②对每次样本输入,按照(2)的方法,对每一个随机蕨重新计算所有的编码概率并更新其阈值,即更新了对应的弱分类器;
③每个随机蕨对该样本进行评价分类;
④在随机蕨集合中选择分类错误率最小的随机蕨作为本次选择器的弱分类器并保存;
⑤将分类错误率最大的随机蕨从随机蕨集合中删除,同时随机生成并加入一个新的蕨;
⑥其余处理过程与在线自举方法相同。
以上特征池的操作与随机蕨集合的操作须对应进行。需要说明的是,在线自举方法中所包含的这些弱分类器在每次迭代之后可能相同也可能不同,只有在输入的在线训练样例足够多之后,这些弱分器将逐步稳定下来,也就是说,每个选择器将逐步选择得到分类准确的随机蕨特征。
(4)结果分类器
有了(3)中构建得到的弱分类器,则可以生成最终的结果分类器,而该结果分类器即为所需的强分类器。
对于离线自举方法,设ht(x)为第t轮学习得到的弱分类器,αt为该弱分类器的权重。因此,经过T轮训练得到T个最优的弱分类器,最后组成一个强分类器Hstrong(x):
H strong ( x ) = sign ( Σ t = 1 T α t h t ( x ) )
对于在线自举方法,设为第n个选择器得到的弱分类器,αn为该弱分类器的权重。因此,经过N次选择得到N个最优的弱分类器,最后组成一个强分类器Hstrong(x):
H strong ( x ) = sign ( Σ n = 1 N α n h n sel ( x ) )
以上组成结果分类器的ht(x)和
Figure BDA00001722557000064
均是由基于随机蕨的弱学习方法得到,它们均对应(1)所述的一个特征。
因此,经过以上(1)-(4)的处理后,可以得到实时处理且分类准确率高的分类器。
本发明的有益效果是:
本发明方法可以很好地解决成像环境复杂且对运算量要求严格的图像模式识别问题,实现快速收敛和高效的自举弱学习方法,得到实时处理且准确率高的分类器。此外,本发明方法同时适合于离线和在线自举分类器训练。
附图说明
图1为本发明水平方向图像特征;
图2为本发明垂直方向图像特征;
图3为本发明对角方向图像特征;
图4为本发明随机蕨及其特征值编码;
图5为本发明基于随机蕨的弱学习方法流程图;
具体实施方式
本发明的方法同时适合于离线和在线自举分类器训练,可用于各种模式识别和计算机视觉领域问题,包括视频对象跟踪,医学图像分析,光学文字识别,手写识别,人脸识别,指纹识别,文件分类,摄影测量与遥感等。
以视频对象跟踪为例:在跟踪的初始帧时刻,通过在初始获得的目标位置及其周围位置提取相应的正负样例,并按照本发明提出的方法训练分类器。而在跟踪过程中,在以上次确定的目标位置为中心的搜索区域内,用此训练得到的分类器对该搜索区域的各个位置进行分类评价,用分类评价置信度值最高的位置作为当前目标的位置,从而实现视频对象的跟踪。
本发明方法可通过任何计算机程序设计语言(如C语言)编程实现,基于本方法的分类***软件可在任何PC或者嵌入式***中实现实时检测和识别应用。

Claims (1)

1.一种基于随机蕨的自举弱学习方法,所述方法包括如下内容: 
(1)选择图像特征和构造随机蕨 
采用的图像特征融合局部二元模式特征和类哈尔特征,这些特征对图像区域的梯度方向进行测量,并量化输出8种可能的编码,它们均为矩形特征;具体来说,先分别按照水平方向,垂直方向和对角方向将矩形区域平分为两部分,分别标记为白色和黑色,然后,计算白色矩形像素值的和减去黑色矩形像素值的和,该值如果大于0,则编码为1,否则为0; 
随机蕨简化为仅包含一个特征,即蕨的值等于所包含的这个特征的值,而蕨中每个编码的概率分布将由后续该编码所接收到的样例的个数及其标记决定; 
(2)基于随机蕨的弱学习方法 
基于随机蕨的弱学习方法分为以下两个方面: 
(ⅰ)随机蕨训练 
对随机蕨的训练过程也是选择判别特征值的过程;输入样本集合,对每一个蕨计算所有样例对应的特征值,该蕨记录每个特征值编码对应的正样例和负样例的个数,设
Figure FDA00003467178300013
为编码j接收到的正样例的个数,为编码j接收到的负样例的个数,Pj为编码j对应正样例的概率,则蕨中每个编码的概率计算为: 
Figure FDA00003467178300011
其中j=0,1,…,M-1,这里M=8;该蕨的判别特征值J为使Pj最大的j值,即: 
这里J即为该随机蕨的阈值; 
(ii)随机蕨评价 
根据随机蕨训练所确定的阈值,随机蕨对样例的评价方法为:如果样例的特征值等于该随机蕨的阈值,那么预测该样例为正样例,输出+1,否则预测为负样例,输出–1; 
(3)构建弱分类器 
对于离线自举方法,其弱分类器的构建过程,对每一次迭代进行如下的步骤: 
①按照(1)的方法构造一个由随机蕨组成的集合; 
②输入样本集合,按照(2)的方法对每一个随机蕨计算所有的编码概率并确定其阈值; 
③每个随机蕨根据其阈值分别对样本集合进行评价分类; 
④选择其中分类错误率最小的随机蕨作为本次迭代产生并获得的弱分类器,即作为自举方法的预测函数输入; 
⑤其余处理过程与自适应自举方法相同; 
对于在线自举方法,样本集合每次只包含一个样例,因此其弱分类器的构建过程,对每一次迭代进行如下的步骤: 
①根据特征选择的方法,对每次迭代,即对每个特征选择器,按照(1)的方法为其生成一个包含多个随机特征的特征池以及对应的随机蕨集合; 
②对每次样本输入,按照(2)的方法,对每一个随机蕨重新计算所有的编码概率并更新其阈值,即更新了对应的弱分类器; 
③每个随机蕨对该样本进行评价分类; 
④在随机蕨集合中选择分类错误率最小的随机蕨作为本次选择器的弱分类器并保存; 
⑤将分类错误率最大的随机蕨从随机蕨集合中删除,同时随机生成并加 入一个新的蕨; 
⑥其余处理过程与在线自举方法相同; 
(4)结果分类器 
对于离线自举方法,设ht(x)为第t轮学习得到的弱分类器,αt为该弱分类器的权重;因此,经过T轮训练得到T个最优的弱分类器,最后组成一个强分类器Hstrong(x): 
Figure FDA00003467178300031
对于在线自举方法,设
Figure FDA00003467178300033
为第n个选择器得到的弱分类器,αn为该弱分类器的权重,因此,经过N次选择得到N个最优的弱分类器,最后组成一个强分类器Hstrong(x): 
以上组成结果分类器的ht(x)和
Figure FDA00003467178300034
均是由基于随机蕨的弱学习方法得到,它们均对应(1)所述的一个特征。 
CN201210180065.XA 2012-06-04 2012-06-04 一种基于随机蕨的自举弱学习方法及其分类器 Expired - Fee Related CN102708384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210180065.XA CN102708384B (zh) 2012-06-04 2012-06-04 一种基于随机蕨的自举弱学习方法及其分类器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210180065.XA CN102708384B (zh) 2012-06-04 2012-06-04 一种基于随机蕨的自举弱学习方法及其分类器

Publications (2)

Publication Number Publication Date
CN102708384A CN102708384A (zh) 2012-10-03
CN102708384B true CN102708384B (zh) 2014-01-29

Family

ID=46901127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210180065.XA Expired - Fee Related CN102708384B (zh) 2012-06-04 2012-06-04 一种基于随机蕨的自举弱学习方法及其分类器

Country Status (1)

Country Link
CN (1) CN102708384B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063713B (zh) * 2014-07-04 2017-11-17 中国地质大学(武汉) 一种基于随机蕨分类器的半自主在线学习方法
CN106067244B (zh) * 2016-06-29 2018-08-17 中国科学院上海微***与信息技术研究所 一种用于周界探测***的传感器阈值自适应调节方法及***
CN109034174B (zh) * 2017-06-08 2021-07-09 北京君正集成电路股份有限公司 一种级联分类器训练方法及装置
CN108038515A (zh) * 2017-12-27 2018-05-15 中国地质大学(武汉) 无监督多目标检测跟踪方法及其存储装置与摄像装置
CN108875572B (zh) * 2018-05-11 2021-01-26 电子科技大学 基于背景抑制的行人重识别方法
CN111160650B (zh) * 2019-12-31 2022-08-09 杭州电子科技大学 一种基于Adaboost算法的交通流特性分析与预测方法
CN115623214A (zh) * 2022-12-06 2023-01-17 宁波康达凯能医疗科技有限公司 一种基于集成学习的帧间图像编码方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1866738A4 (en) * 2005-03-18 2010-09-15 Search Engine Technologies Llc USER FEEDBACK RESEARCH ENGINE FOR IMPROVING RESEARCH RESULTS
WO2011072177A2 (en) * 2009-12-09 2011-06-16 Aviir, Inc. Biomarker assay for diagnosis and classification of cardiovascular disease
CN102073880A (zh) * 2011-01-13 2011-05-25 西安电子科技大学 利用稀疏表示进行人脸识别的集成方法
CN102436590A (zh) * 2011-11-04 2012-05-02 康佳集团股份有限公司 一种基于在线学习的实时跟踪方法及跟踪***

Also Published As

Publication number Publication date
CN102708384A (zh) 2012-10-03

Similar Documents

Publication Publication Date Title
CN102708384B (zh) 一种基于随机蕨的自举弱学习方法及其分类器
Busta et al. Deep textspotter: An end-to-end trainable scene text localization and recognition framework
He et al. Obstacle detection of rail transit based on deep learning
CN100565559C (zh) 基于连通分量和支持向量机的图像文本定位方法和装置
CN108898131A (zh) 一种复杂自然场景下的数字仪表识别方法
CN103793926B (zh) 基于样本重选择的目标跟踪方法
CN105512640A (zh) 一种基于视频序列的人流量统计方法
CN109815979B (zh) 一种弱标签语义分割标定数据生成方法及***
CN111401410A (zh) 一种基于改进级联神经网络的交通标志检测方法
CN102147869A (zh) 基于前景分析和模式识别的行人检测方法
CN102722712A (zh) 基于连续度的多尺度高分辨图像目标检测方法
CN103761531A (zh) 基于形状轮廓特征的稀疏编码车牌字符识别方法
CN104850865A (zh) 一种多特征迁移学习的实时压缩跟踪方法
CN105931253A (zh) 一种基于半监督学习相结合的图像分割方法
Jiao et al. A survey of road feature extraction methods from raster maps
CN112016605A (zh) 一种基于边界框角点对齐和边界匹配的目标检测方法
CN112232371A (zh) 一种基于YOLOv3与文本识别的美式车牌识别方法
CN115170611A (zh) 一种复杂交叉路口车辆行驶轨迹分析方法、***及应用
CN104200226A (zh) 基于机器学习的粒子滤波目标跟踪方法
CN104778699A (zh) 一种自适应对象特征的跟踪方法
Roy et al. Offline hand-drawn circuit component recognition using texture and shape-based features
Chen et al. A video-based method with strong-robustness for vehicle detection and classification based on static appearance features and motion features
Lin et al. Radical-based extract and recognition networks for Oracle character recognition
Zhang et al. A vertical text spotting model for trailer and container codes
CN106548195A (zh) 一种基于改进型hog‑ulbp特征算子的目标检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140129

Termination date: 20170604

CF01 Termination of patent right due to non-payment of annual fee