CN112308151A - 基于加权的旋转森林高光谱图像分类方法 - Google Patents

基于加权的旋转森林高光谱图像分类方法 Download PDF

Info

Publication number
CN112308151A
CN112308151A CN202011207564.4A CN202011207564A CN112308151A CN 112308151 A CN112308151 A CN 112308151A CN 202011207564 A CN202011207564 A CN 202011207564A CN 112308151 A CN112308151 A CN 112308151A
Authority
CN
China
Prior art keywords
training
decision tree
sample
diversity
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011207564.4A
Other languages
English (en)
Inventor
冯伟
董淑仙
全英汇
钟娴
童莹萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202011207564.4A priority Critical patent/CN112308151A/zh
Publication of CN112308151A publication Critical patent/CN112308151A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于加权的旋转森林高光谱图像分类方法,解决了对高光谱图像分类精度低和分类模型集成性能低的问题。方案是:高光谱图像样本分为训练和测试集;初始化训练集样本权值,与训练集对应样本相乘得到加权后训练集;训练决策树基分类器并获得加权后训练集分类结果;建立基于加权的旋转森林模型;将测试集放入基于加权的旋转森林模型,得到高光谱图像样本最终分类结果。本发明通过设计动态加权函数挖掘含有重要信息样本,并将已生成决策树基分类器对加权后训练集分类结果带入当前要训练决策树基分类器中,本发明提高了分类精度和模型集成性能,可用于高光谱图像的土地分类。

Description

基于加权的旋转森林高光谱图像分类方法
本发明属于图像处理技术领域,主要涉及遥感图像处理,具体是一种基于加权的旋转森林高光谱图像分类方法。尤其涉及挖掘重要样本的遥感分类方法,可用于高光谱图像土地分类。
背景技术
分类是遥感信息处理的主要任务之一。高光谱数据的分类通常比其他遥感图像更为困难,这是因为高光谱数据的特征与样本数目的比率很高,而且特征集中存在冗余信息。尽管大多数学习***都面临着被称为“维数灾难”的棘手问题,但研究已经证明了分类器集成技术在高光谱分类中的成功应用。集成学习是开发精确分类***的有效方法,能够提升弱分类器性能,做出准确的预测。提升方法(Boosting)和自主聚合法(Bootstrapaggregation,bagging)是主要的集成学习方法。多样性被认为是分类器组合的一个非常重要的特征,它可以有效地用于减少方差误差而不增加集成方法的偏差误差。为了鼓励bagging的多样性,1995年,贝尔实验室的Tin Kam Ho提出了随机森林(Random Forests,RFs)算法。2005年,Jisoo Ham首次将RFs应用到遥感图像分类,并取得了令人满意的效果。RFs是树预测器的组合,其中决策树使用有放回的采样训练样本技术构建;它们随机采样属性,并在这些变量中选择最佳分割,而不是在所有属性中选择最佳分割。RFs具有在大型数据库上高效运行、无需删除变量即可处理数千个输入变量、时间成本低等重要优点。
在图像处理中,Juan J Rodríguez借鉴RFs的思想,提出了旋转森林(RotationForest,RoF)方法,其目的是建立更加精确和多样化的基础分类器。它将特征空间随机分割成若干子空间,对每个子空间分别应用特征变换,并重复上述过程,为不同的特征子空间生成不同的训练数据集和基本分类器。邵良杉在论文《基于旋转森林的分类器集成算法研究》中验证了旋转森林算法优于bagging、自适应提升算法(Adaptive Boosting,AdaBoost)和RFs等算法。
综上,由于旋转森林使用特征提取算法生成稀疏旋转矩阵,将原始图像投影到不同的坐标系中,从而使构建的基分类器具有很强的差异性。因此,RoF在图像分类中提供了比bagging、AdaBoost和RFs等算法更好的性能。但是,由于RoF算法赋予所有训练样本相同的权值,忽略了提供重要信息样本的潜力。此外,这些算法各自独立地生成基分类器,其中一些基分类器不仅增加了算法的计算复杂度,而且降低了算法的集成性能。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种集成性能更好的基于加权的旋转森林高光谱图像分类方法。本发明通过挖掘重要样本,并对样本进行加权,自适应地指导加权的旋转森林中树木的生长,以提高对高光谱图像的分类精度。
本发明是一种基于加权的旋转森林高光谱图像分类方法,其特征在于,包括有如下步骤:
(1)获取样本并划分训练集和测试集:通过实地采集或者遥感数据库获得高光谱图像样本,大小为M×F,其中,M表示样本个数,F表示每个样本的特征数,用C表示样本的类别数目;然后从M个样本中随机抽取N个样本作为训练集S,剩余样本作为测试集E;S=(x1,y1),(x2,y2),…,(xN,yN),xi表示训练集S第i个样本,是一个1×F的向量,yi表示样本xi的标签,yi∈{1,2,…,C};
(2)初始化训练集S中样本权值:用W(xi)表示样本xi初始的权值,初始化训练集S中每个样本的权值:W(xi)=1/N,i=1,2,...,N;
(3)生成加权后的训练集S′:将N个初始化的训练样本权值W(xi)分别与训练集S中对应的样本xi相乘,得到加权后的训练集S′,S′=(W(x1)·x1,y1),(W(x2)·x2,y2),…,(W(xN)·xN,yN);
(4)建立基于加权的旋转森林模型:假设基于加权的旋转森林模型由T个决策树基分类器共同构成,设置决策树基分类器的序号为t,t=1,2,…,T,T个决策树基分类器顺序排列,并按排列顺序进行训练;采用有放回的抽样方式对加权后的训练集S′采样N次,得到多样性训练样本集St,多样性训练样本集St中的每个样本都是一个1×F的向量;随机将多样性训练样本集St中的F个特征分为K个子集,形成特征子集Ft,k,k=1,2,...,K;从多样性训练样本集St中选择特征子集Ft,k中包含特征所对应的列,组成K个多样性训练样本子集St,k;使用主成分分析(Principal component analysis,PCA)算法对多样性训练样本子集St,k进行特征提取得到旋转矩阵
Figure BDA0002757547450000021
将多样性训练样本集St与旋转矩阵
Figure BDA0002757547450000022
相乘得到旋转后的多样性训练样本集S′t;用旋转后的多样性训练样本集S′t对决策树基分类器进行训练,第t个训练后的决策树基分类器表示为ξt,仍存在t=1,2,…,T;T个训练后的决策树基分类器共同组成高光谱图像的基于加权的旋转森林模型;
(5)产生分类结果:将测试集E中的每个样本分别放入基于加权的旋转森林模型中的T个训练后的决策树基分类器,得到T个分类结果;T个分类结果中数量最多的类别即为高光谱图像的基于加权的旋转森林模型分类结果。
本发明解决了提供重要信息样本的潜力被忽略和各基分类器独立生成存在增加算法复杂度并降低集成性能的问题,提高了对高光谱图像样本的分类精度。
与现有技术相比,本发明具有如下优点:
提高了分类精度:针对RoF算法存在将所有训练样本看作是平等的,且忽略含有重要信息样本潜力的问题,本发明通过设计动态加权函数,挖掘含有重要信息样本的潜力,并对样本进行加权。样本权值越大,说明样本越重要,决策树基分类器会给予更多的关注,提高了对高光谱图像样本的分类精度。
提高算法的集成性能:针对RoF算法存在的各基分类器相互独立,导致一些基分类器不仅增加了算法的计算复杂度,而且降低了算法的集成性能的问题,本发明在训练每个决策树基分类器对样本进行加权,而权值根据已生成的决策树基分类器对训练样本的分类结果计算得到,因此决策树基分类器之间是相互联系的,提高了模型的集成性能。
附图说明
图1为本发明的流程框图;
图2为本发明建立基于加权的旋转森林模型流程框图。
具体实施方式
以下结合附图和实施例对本发明详细描述。
实施例1
高光谱图像含有丰富的光谱信息,能够有效地反映成像目标的信息,因此,广泛应用于精准农业、环境监测、军事侦察等领域。在这些应用中,高光谱图像分类是重要的环节之一,分类的最终目的是准确地给图像中的每个像素一个唯一的类别标识符。RoF算法是众多分类算法之一。RoF算法通过使用特征提取算法生成稀疏旋转矩阵,将原始图像投影到不同的坐标系中,使构建的基分类器具有很强的差异性。与bagging、AdaBoost和RFs等算法相比较,RoF算法能够提高对高光谱图像样本的分类精度。但RoF算法中赋予所有训练样本相同的权值,忽略了提供重要信息样本的潜力。此外,这些算法各自独立地生成基分类器,其中一些基分类器不仅增加了算法的计算复杂度,而且降低了算法的集成性能。因此,本发明针对上述现状,展开改进与思考,提出一种基于加权的旋转森林高光谱图像分类方法。
本发明是一种基于加权的旋转森林高光谱图像分类方法,参见图1,包括有如下步骤:
(1)获取样本并划分训练集和测试集:高光谱图像样本可以根据待分类图像通过实地采集或者遥感数据库获得,大小为M×F,其中,M表示样本个数,F表示每个样本的特征数,用C表示图像样本中的类别数目。然后从M个样本中随机抽取N个样本作为训练集S,剩余样本作为测试集E;S=(x1,y1),(x2,y2),…,(xN,yN),xi表示训练集S第i个样本,是一个1×F的向量,yi表示样本xi的标签,i=1,2,...,N,yi∈{1,2,…,C}。
假如所用的数据集为意大利北部Pavia University学校景观,待分类的高光谱图像样本可以通过在学校实地采集或者从遥感数据库获得。
(2)初始化训练集S中样本权值:用W(xi)表示训练集样本xi初始的权值,初始化训练集S中每个样本的权值:W(xi)=1/N,i=1,2,...,N,即本发明训练集S中每个样本的初始权值都为1/N。
(3)生成加权后的训练集S′:将N个初始化的训练样本权值W(xi)分别与训练集S中对应的样本xi相乘,i=1,2,…,N,得到加权后的训练集S′:
Figure BDA0002757547450000041
其中,(W(x1)·x1,y1)为第一个加权后的样本,以此类推。
(4)建立基于加权的旋转森林模型:假设基于加权的旋转森林模型由T个决策树基分类器共同构成,设置决策树基分类器的序号为t,t=1,2,…,T,T个决策树基分类器顺序排列,并按排列顺序进行训练。采用有放回的抽样方式对加权后的训练集S′采样N次,得到多样性训练样本集St,多样性训练样本集St中的每个样本都是一个1×F的向量。随机将多样性训练样本集St中的F个特征分为K个子集,形成特征子集Ft,k,k=1,2,...,K。从多样性训练样本集St中选择特征子集Ft,k中包含特征所对应的列,组成K个多样性训练样本子集St,k。使用主成分分析(Principal component analysis,PCA)算法对多样性训练样本子集St,k进行特征提取得到旋转矩阵
Figure BDA0002757547450000042
将多样性训练样本集St与旋转矩阵
Figure BDA0002757547450000043
相乘得到旋转后的多样性训练样本集S′t。用旋转后的多样性训练样本集S′t对决策树基分类器进行训练,第t个训练后的决策树基分类器表示为ξt,仍存在t=1,2,…,T。T个训练后的决策树基分类器共同组成高光谱图像的基于加权的旋转森林模型。相对于现有RoF算法中各基分类器之间是独立生成的,本发明根据已生成的决策树基分类器对训练样本的分类结果计算样本权值,并对样本进行加权,用加权后的训练样本对当前决策树基分类器进行训练,使得各训练后的基分类器之间是相互联系的,因此本发明的基于加权的旋转森林模型比现有的RoF模型具有更好的集成性能。
(5)产生分类结果:将测试集E中的每个样本分别放入基于加权的旋转森林模型中的T个训练后的决策树基分类器,得到T个分类结果。T个分类结果中数量最多的类别即为基于加权的旋转森林模型分类结果,即为待分类高光谱图像样本的分类结果。
RoF算法是一种目前典型的高光谱图像分类算法,通过使用特征提取算法提高基分类器之间的差异性和准确性,进而提高对高光谱图像样本的分类精度。但是,RoF也存在忽略提供重要信息样本潜力和没有合理利用RoF的多个基分类器导致旋转森林模型集成性能不高的问题。针对此问题,本发明经过研究,提出了一种基于加权的旋转森林高光谱图像分类的整体技术方案。本发明设计了动态加权函数,通过挖掘重要样本的潜力,并对样本赋予权值,样本权值越大,分类器会给予样本更多的关注,提高了对高光谱图像样本的分类精度。此外,由于本发明在训练每个决策树基分类器之前对样本进行加权,而权值根据已生成的决策树基分类器对训练样本的分类结果计算得到,本发明中决策树基分类器之间是相互联系的,把之前生成的决策树基分类器对训练样本的分类结果带入当前要训练的决策树基分类器中,提高了模型的集成性能。
实施例2
基于加权的旋转森林高光谱图像分类方法同实施例1,步骤(4)中的建立基于加权的旋转森林模型,参见图2,包括有如下步骤:
(4a)初始化决策树基分类器:引入旋转森林模型,引入旋转森林模型的基本结构是假设基于加权的旋转森林模型由T个决策树基分类器共同构成,设置决策树基分类器的序号为t,t=1,2,…,T,T个决策树基分类器顺序排列,并按排列顺序进行训练,初始化决策树基分类器的序号t=1,开始训练决策树基分类器的迭代。初始化决策树基分类器的序号之后还要依次生成多样性训练样本集、特征子集、多样性训练样本子集、旋转后的多样性训练样本集,并用旋转后的多样性训练样本集训练决策树基分类器,完成对决策树基分类器的训练。
(4b)生成多样性训练样本集St:采用随机有放回的抽样方式对加权后的训练集S′采样N次,用每次抽取的样本形成多样性训练样本集St=[Xt,Yt],其中,Xt表示N次抽取得到的样本集合,Xt中每个样本仍是一个1×F的向量,Yt表示对应Xt中所有样本的标签,Xt和Yt共同组成多样性训练样本集St
(4c)产生特征子集Ft,k:随机无放回地将多样性训练样本集St中的F个特征分为K个子集,1<K<F,形成多样性训练样本集St对应的特征子集Ft,k,k=1,2,…,K,用K表示特征子集的个数,假设每个特征子集Ft,k中有P个特征,那么每个特征子集Ft,k均为一个1×P的向量,P=F/K。
(4d)产生多样性训练样本子集St,k:从多样性训练样本集St中选择与特征子集Ft,k包含特征相对应的列,也就是特征子集Ft,k所对应多样性训练样本集St的列,组成K个多样性训练样本子集St,k,多样性训练样本子集St,k的维度为N×P。
(4e)计算旋转矩阵
Figure BDA0002757547450000061
使用PCA算法分别对K个多样性训练样本子集St,k计算系数矩阵ct,k,k=1,2,…,K,并用系数矩阵ct,k构成块对角矩阵Rt;最后根据原F个特征的排列顺序对块对角矩阵Rt的行进行重新排列,得到多样性训练样本集St的旋转矩阵
Figure BDA0002757547450000062
(4f)产生旋转后的多样性训练样本集S′t:将多样性训练样本集St与旋转矩阵
Figure BDA0002757547450000063
相乘,得到旋转后的多样性训练样本集S′t
Figure BDA0002757547450000064
(4g)用旋转后的多样性训练样本集S′t训练决策树基分类器:用ξt表示训练后的决策树基分类器,用步骤(4f)得到的旋转后的多样性训练样本集S′t训练步骤(4a)引入的决策树基分类器,得到训练后的决策树基分类器ξt,训练后的决策树基分类器ξt包含有对所有样本xi的分类结果。
(4h)更新样本权值W(xi):用ξq表示当前得到的步骤(4g)得到的决策树基分类器,q=1,2,…,t;根据当前得到的决策树基分类器ξq对所有样本xi的分类结果计算样本xi权值W(xi)。
(4i)更新加权后的训练集S′:用步骤(4h)计算得到的样本权值W(xi)对训练集S重新进行加权,具体为将样本权值W(xi)与训练集S中对应的样本xi相乘作为新的训练样本,样本xi对应的标签yi保持不变,得到更新的加权后训练集S′,S′=(W(x1)·x1,y1),(W(x2)·x2,y2),…,(W(xN)·xN,yN);
(4j)更新决策树基分类器的序号t:令t=t+1,返回执行步骤(4b),进入下一轮训练决策树基分类器的迭代。
(4k)产生基于加权的旋转森林模型:重复(4b)~(4j)T次,历遍所有决策树基分类器,得到T个训练后的决策树基分类器ξt(t=1,2,…,T),T个训练后的决策树基分类器共同组成基于加权的旋转森林模型。
基于RoF算法,本发明增设了动态加权函数对样本进行加权,样本权值越大,说明样本越重要,下一个决策树基分类器会给予更多的关注,因此,本发明可以有效提高对高光谱图像样本的分类精度。在训练当前决策树基分类器时,所用的训练样本为根据已生成的决策树基分类器对训练样本的分类结果计算得到的权值与样本相乘得到,因此,建立了基于加权的旋转森林模型中的多个决策树基分类器之间相互联系,最终生成决策树基分类器之间相互联系的基于加权的旋转森林模型,提高了模型的集成性能,也提高了对高光谱图像的分类精度。
实施例3
基于加权的旋转森林高光谱图像分类方法同实施例1-2,步骤(4h)中所述的更新样本权重W(xi):
Figure BDA0002757547450000071
Figure BDA0002757547450000072
其中,t表示当前训练后决策树基分类器序号,q表示已经训练后的决策树基分类器序号,q=1,2,…,t,ξq(xi)表示第q个训练后的决策树基分类器ξq对样本xi的分类结果,Yt(xi)表示多样性训练样本集St中对应于样本xi的标签。
RoF算法存在将所有训练样本看作是平等且忽略含有重要信息样本潜力的问题,本发明给出了改进的技术方案,通过设计动态加权函数,挖掘含有重要信息样本的潜力,并对样本进行加权。在本发明中,样本权值越大,说明样本越重要,通过决策树基分类器会给予更多的关注,提高了对高光谱图像样本的分类精度。
下面给出一个有实验、有数据的例子,对本发明进一步说明
实施例4
基于加权的旋转森林高光谱图像分类方法同实施例1-3,参照图1,本发明的实现步骤如下:
步骤1:获取高光谱图像样本以及待检测样本:通过实地采集或者遥感数据库获得高光谱图像作为待分类的高光谱图像样本。
本实施例的高光谱图像样本来自但不限于反射光学***成像光谱仪采集的PaviaUniversity高光谱数据。Pavia University数据集的大小为M×F=42776×103,即样本个数M=42776,每个样本的特征个数F=103,样本的类别数C=9。
步骤2:将高光谱图像样本划分训练集和测试集:从Pavia University数据集的每个类别中分别随机抽取10个样本,得到总的训练样本个数N=10×C=90。90个训练样本和训练样本对应的标签构成训练集S,剩余的42686个样本及对应的标签作为测试集E。S=(x1,y1),(x2,y2),…,(xN,yN),xi表示训练集S第i个样本,是一个1×103的向量,yi表示样本xi的标签,yi∈{1,2,…,C}。
步骤3:初始化训练集S中样本权值:用W(xi)表示样本xi初始的权值,初始化训练集S中每个样本的权值:W(xi)=1/N,i=1,2,...,N,N表示训练集S的样本个数。
本实施例中,步骤2从训练集中随机抽取了90个样本作为训练样本,因此,训练集S的样本个数N=90,那么,初始化训练集S中每个样本的权值W(xi)=1/90,i=1,2,...,90。
步骤4:生成加权后的训练集S′:将步骤3中得到的N个初始化的训练样本权值W(xi)分别与训练集S中对应的样本xi相乘,得到加权后的训练集S′,S′=(W(x1)·x1,y1),(W(x2)·x2,y2),…,(W(xN)·xN,yN)。
本实施例中,将步骤3中得到的N个初始化的训练样本权值W(xi)=1/90分别与训练集S中对应的样本xi相乘,得到加权后的训练集S′,S′=(W(x1)·x1,y1),(W(x2)·x2,y2),…,(W(x90)·x90,y90)=(x1/90,y1),(x2/90,y2),…,(x90/90,y90),加权后的训练集S′中的样本个数仍为N=90。
步骤5:建立基于加权的旋转森林模型:参见图2,假设基于加权的旋转森林模型由T个决策树基分类器共同构成,设置决策树基分类器的序号为t,t=1,2,…,T,T个决策树基分类器相互联系。
本实施例中,设置T=50,即基于加权的旋转森林模型由50个决策树基分类器共同构成。
5.1)初始化决策树基分类器的序号t=1。
5.2)生成多样性训练样本集St:采用有放回的抽样方式对加权后的训练集S′采样N次,用每次抽取的样本形成多样性训练样本集St=[Xt,Yt],其中,Xt表示N次抽取得到的样本,每个样本xi(xi∈Xt)仍是一个1×F的向量,Yt表示对应Xt中所有样本的标签,Xt和Yt共同组成多样性训练样本集St
本实施例中,因为加权后的训练集S′中样本个数为N=90,因此,采用有放回的抽样方式对加权后的训练集S′采样N=90次,用每次抽取的样本及样本对应的标签共同组成多样性训练样本集St
5.3)产生特征子集Ft,k:随机无放回地将多样性训练样本集St中的F个特征分为K个子集,1<K<F,形成多样性训练样本集St对应的特征子集Ft,k,k=1,2,...,K,用K表示特征子集的个数,假设每个特征子集Ft,k中有P个特征,那么每个特征子集Ft,k均为一个1×P的向量,P=F/K。
本实施例中,取K=30,那么通过随机无放回地将多样性训练样本集St中的103个特征分为30个子集,形成多样性训练样本集St对应的特征子集Ft,k,k=1,2,...,30。由于103个特征不能被30整除,因此,第1~13个特征子集中有4个特征,第14~30个特征子集中有3个特征。
5.4)产生多样性训练样本子集St,k:从多样性训练样本集St中选择对应特征子集Ft,k中包含特征所对应的列,组成K个多样性训练样本子集St,k;假设每个特征子集Ft,k中有P个特征,那么多样性训练样本子集St,k的维度为N×P;
本实施例中,特征子集Ft,k的个数为K=30,因此,从多样性训练样本集St中选择对应特征子集Ft,k中包含特征所对应的列,组成30个多样性训练样本子集St,k。其中,第1~13个多样性训练样本子集St,k中有N=90个样本,每个样本的维度为1×4,第14~30个多样性训练样本子集St,k中也是有N=90个样本,每个样本的维度为1×3。
5.5)计算旋转矩阵
Figure BDA0002757547450000091
使用PCA算法分别对K个多样性训练样本子集St,k计算系数矩阵ct,k,k=1,2,...,K,并用K个多样性训练样本子集St,k的系数矩阵ct,k构成块对角矩阵Rt;最后根据原F个特征的排列顺序对块对角矩阵Rt的行进行重新排列,得到多样性训练样本集St的旋转矩阵
Figure BDA0002757547450000092
本实施例中,使用PCA算法分别对K=30个多样性训练样本子集St,k计算系数矩阵ct,k,k=1,2,...,30,并用系数矩阵ct,k构成块对角矩阵Rt;最后根据原F=103个特征的排列顺序对块对角矩阵Rt的行进行重新排列,得到多样性训练样本集St的旋转矩阵
Figure BDA0002757547450000101
5.6)产生旋转后的多样性训练样本集S′t:将多样性训练样本集St与旋转矩阵
Figure BDA0002757547450000102
相乘,得到旋转后的多样性训练样本集S′t
Figure BDA0002757547450000103
5.7)训练决策树基分类器ξt:用旋转后的多样性训练样本集St′训练决策树基分类器,得到训练后的决策树基分类器ξt
5.8)更新样本权值W(xi):用ξq表示当前得到的决策树基分类器,q=1,2,...,t。根据当前得到的决策树基分类器ξq对样本xi的分类结果,计算样本xi权值W(xi):
Figure BDA0002757547450000104
Figure BDA0002757547450000105
其中,t表示当前训练后决策树基分类器序号,q表示已经训练后的决策树基分类器序号,q=1,2,...,t,ξq(xi)表示第q个训练后的决策树基分类器ξq对样本xi的分类结果,Yt(xi)表示多样性训练样本集St中对应于样本xi的标签。
5.9)更新加权后的训练集S′:用步骤5.8)计算得到的样本权值W(xi)对训练集S重新进行加权,得到更新的加权后训练集S′,S′=(W(x1)·x1,y1),(W(x2)·x2,y2),...,(W(xN)·xN,yN)。
5.10)更新决策树基分类器的序号t:令t=t+1,返回执行步骤5.2),再次生成多样性训练样本集、特征子集、多样性训练样本子集、旋转后的多样性训练样本集,并用旋转后的多样性训练样本集训练决策树基分类器,进入下一轮决策树基分类器的更新迭代。
5.11)产生基于加权的旋转森林模型:重复5.2)~5.10)T次,得到T个训练后的决策树基分类器ξt(t=1,2,…,T),T个训练后的决策树基分类器共同组成基于加权的旋转森林模型。
本实施例中,重复5.2)~5.10)T=50次,得到50个训练后的决策树基分类器ξt(t=1,2,…,50),T=50个训练后的决策树基分类器共同组成基于加权的旋转森林模型。
步骤6:产生分类结果:将测试集E中的每个样本分别放入基于加权的旋转森林模型中的T个训练后的决策树基分类器,得到T个分类结果;T个分类结果中数量最多的类别即为基于加权的旋转森林模型分类结果,即为待分类高光谱图像样本的分类结果。
本实施例中,将测试集E中的42686个样本分别放入基于加权的旋转森林模型中的T=50个训练后的决策树基分类器,得到T=50个分类结果;50个分类结果中数量最多的类别即为基于加权的旋转森林模型分类结果,即为待分类高光谱图像样本的分类结果。
本发明主要解决了现有技术忽略提供重要信息样本潜力和分类模型集成性能低的问题。其实现方案是:获取高光谱图像样本,并分为训练集和测试集;初始化训练集中每个样本的权值;将初始化的权值与训练集中的每个样本对应相乘,得到加权后的训练集;用加权后的训练集对决策树基分类器,得到训练后的决策树基分类器;根据当前得到的训练后的决策树基分类器对训练样本的分类结果和设计的动态加权函数,计算样本权值,对训练集重新进行加权并训练决策树基分类器;T个训练后的决策树共同组成基于加权的旋转森林模型;将测试集中的每个样本放入基于加权的旋转森林模型,得到高光谱图像样本的最终分类结果。本发明能通过基于加权的旋转森林模型,挖掘重要信息样本的潜力,提高训练后的决策树基分类器之间的集成性能,可用于高光谱图像土地分类。
本发明的效果可以通过以下测试进一步说明:
实施例5
基于加权的旋转森林高光谱图像分类方法同实施例1-4,
测试条件和内容:
本例中,一共进行5次测试,即分别从Pavia University数据集的每个类别中分别随机抽取10、20、30、40个样本,因为Pavia University数据集的类别数为C=9,5次实验对应的训练集的大小90、180、270和3 60。分别使用原始随机森林算法、旋转森林算法与本发明算法对Pavia University数据进行分类,统计其平均精度,结果如表1所示。
测试结果与分析:
表1原始随机森林算法与本发明算法的平均分类精度(%)
训练集S大小 原始随机森林算法 旋转森林算法 本发明
90 71.71 75.83 77.49
180 75.07 78.76 81.35
270 80.04 83.63 86.76
360 80.54 85.11 88.14
在训练集S大小分别为90、180、270、360的情况下,分别比较原始随机森林算法、旋转森林算法和本发明的平均分类精度,得到表1所示的结果。从表1可见,当训练集大小分别为90、180、270、360时,本发明的平均分类精度均大于原始随机森林算法和旋转森林算法的平均分类精度,且本发明的平均精度在训练集S大小为360时,平均精度最高。实验证明本发明在训练集S大小分别为90、180、270、360的情况下,均可以获得比现有的随机森林算法和旋转森林算法更高的平均分类精度,具有很好的应用效果。
简而言之,本发明的基于加权的旋转森林高光谱图像分类方法,解决了现有技术对高光谱图像分类精度低和分类模型集成性能低的问题。实现方案是:获取高光谱图像样本分为训练和测试集;初始化训练集样本权值,权值与训练集对应样本相乘得到加权后训练集;训练决策树基分类器获得加权后训练集分类结果;设计动态加权函数对加权后训练集分类结果计算并循环更新样本权值;重复对训练集进行加权并训练决策树基分类器过程T次,得到T个训练后的决策树基分类器共同组成基于加权的旋转森林模型,即建立了基于加权的旋转森林模型;将测试集放入基于加权的旋转森林模型,得到高光谱图像样本最终分类结果。本发明通过设计动态加权函数挖掘含有重要信息样本,并将已生成决策树基分类器对加权后训练集分类结果带入当前要训练决策树基分类器中,本发明提高了分类精度和模型集成性能,可用于高光谱图像的土地分类。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (3)

1.一种基于加权的旋转森林高光谱图像分类方法,其特征在于,包括有如下步骤:
(1)获取样本并划分训练集和测试集:通过实地采集或者遥感数据库获得高光谱图像样本,大小为M×F,其中,M表示样本个数,F表示每个样本的特征数,用C表示样本的类别数目;然后从M个样本中随机抽取N个样本作为训练集S,剩余样本作为测试集E;S=(x1,y1),(x2,y2),…,(xN,yN),xi表示训练集S第i个样本,是一个1×F的向量,yi表示样本xi的标签,yi∈{1,2,…,C};
(2)初始化训练集S中样本的权值:用W(xi)表示样本xi初始的权值,初始化训练集S中每个样本的权值:W(xi)=1/N,i=1,2,...,N;
(3)生成加权后的训练集S′:将N个初始化的训练样本权值W(xi)分别与训练集S中对应的样本xi相乘,得到加权后的训练集S′,S′=(W(x1)·x1,y1),(W(x2)·x2,y2),…,(W(xN)·xN,yN);
(4)建立基于加权的旋转森林模型:假设基于加权的旋转森林模型由T个决策树基分类器共同构成,设置决策树基分类器的序号为t,t=1,2,…,T,T个决策树基分类器顺序排列,并按排列顺序进行训练;采用有放回的抽样方式对加权后的训练集S′采样N次,得到多样性训练样本集St,多样性训练样本集St中的每个样本都是一个1×F的向量;随机将多样性训练样本集St中的F个特征分为K个子集,形成特征子集Ft,k,k=1,2,...,K;从多样性训练样本集St中选择特征子集Ft,k中包含特征所对应的列,组成K个多样性训练样本子集St,k;使用主成分分析PCA算法对多样性训练样本子集St,k进行特征提取得到旋转矩阵
Figure FDA0002757547440000011
将多样性训练样本集St与旋转矩阵
Figure FDA0002757547440000012
相乘得到旋转后的多样性训练样本集S′t;用旋转后的多样性训练样本集S′t对决策树基分类器进行训练,第t个训练后的决策树基分类器表示为ξt,仍存在t=1,2,…,T;T个训练后的决策树基分类器共同组成高光谱图像的基于加权的旋转森林模型;
(5)产生分类结果:将测试集E中的每个样本分别放入基于加权的旋转森林模型中的T个训练后的决策树基分类器,得到T个分类结果;T个分类结果中数量最多的类别即为高光谱图像的基于加权的旋转森林模型分类结果。
2.根据权利要求1所述的基于加权的旋转森林高光谱图像分类方法,其特征在于,步骤(4)中所述的建立基于加权的旋转森林模型,包括有如下步骤:
(4a)初始化决策树基分类器:引入旋转森林模型,引入旋转森林模型的基本结构是假设基于加权的旋转森林模型由T个决策树基分类器共同构成,设置决策树基分类器的序号为t,t=1,2,…,T,T个决策树基分类器顺序排列,并按排列顺序进行训练,初始化决策树基分类器的序号t=1,开始训练决策树基分类器的迭代;
(4b)生成多样性训练样本集St:采用随机有放回的抽样方式对加权后的训练集S′采样N次,用每次抽取的样本形成多样性训练样本集St=[Xt,Yt],其中,Xt表示N次抽取得到的样本集合,Xt中每个样本仍是一个1×F的向量,Yt表示对应Xt中所有样本的标签,Xt和Yt共同组成多样性训练样本集St
(4c)产生特征子集Ft,k:随机无放回地将多样性训练样本集St中的F个特征分为K个子集,1<K<F,形成多样性训练样本集St对应的特征子集Ft,k,k=1,2,...,K,用K表示特征子集的个数,假设每个特征子集Ft,k中有P个特征,那么每个特征子集Ft,k均为一个1×P的向量,P=F/K;
(4d)产生多样性训练样本子集St,k:从多样性训练样本集St中选择与特征子集Ft,k包含特征相对应的列,组成K个多样性训练样本子集St,k,多样性训练样本子集St,k的维度为N×P;
(4e)计算旋转矩阵
Figure FDA0002757547440000031
使用PCA算法分别对K个多样性训练样本子集St,k计算系数矩阵ct,k,k=1,2,...,K,并用系数矩阵ct,k构成块对角矩阵Rt;最后根据原F个特征的排列顺序对块对角矩阵Rt的行进行重新排列,得到多样性训练样本集St的旋转矩阵
Figure FDA0002757547440000032
(4f)产生旋转后的多样性训练样本集S′t:将多样性训练样本集St与旋转矩阵
Figure FDA0002757547440000033
相乘,得到旋转后的多样性训练样本集S′t
Figure FDA0002757547440000034
(4g)用旋转后的多样性训练样本集S′t训练决策树基分类器:用ξt表示训练后的决策树基分类器,用旋转后的多样性训练样本集S′t训练决策树基分类器,得到训练后的决策树基分类器ξt,训练后的决策树基分类器ξt包含有对所有样本xi的分类结果;
(4h)更新样本权值W(xi):用ξq表示当前得到的决策树基分类器,q=1,2,…,t;将当前得到的决策树基分类器ξq对所有样本xi的分类结果代入设计的动态加权函数计算样本xi权值W(xi);
(4i)更新加权后的训练集S′:用样本权值W(xi)对训练集S重新进行加权,得到更新的加权后训练集S′,S′=(W(x1)·x1,y1),(W(x2)·x2,y2),…,(W(xN)·xN,yN);
(4j)更新决策树基分类器的序号t:令t=t+1,返回执行步骤(4b),进入下一轮训练决策树基分类器的迭代;
(4k)产生基于加权的旋转森林模型:重复(4b)~(4j)T次,历遍所有决策树基分类器,得到T个训练后的决策树基分类器ξt(t=1,2,…,T),T个训练后的决策树基分类器共同组成基于加权的旋转森林模型。
3.根据权利要求2所述的基于加权的旋转森林高光谱图像分类方法,其特征在于,步骤(4h)中所述的根据动态加权函数更新样本权重W(xi):
Figure FDA0002757547440000035
Figure FDA0002757547440000041
其中,t表示当前训练后决策树基分类器序号,q表示已经训练后的决策树基分类器序号,q=1,2,...,t,ξq(xi)表示第q个训练后的决策树基分类器ξq对样本xi的分类结果,Yt(xi)表示多样性训练样本集St中对应于样本xi的标签。
CN202011207564.4A 2020-11-03 2020-11-03 基于加权的旋转森林高光谱图像分类方法 Pending CN112308151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011207564.4A CN112308151A (zh) 2020-11-03 2020-11-03 基于加权的旋转森林高光谱图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011207564.4A CN112308151A (zh) 2020-11-03 2020-11-03 基于加权的旋转森林高光谱图像分类方法

Publications (1)

Publication Number Publication Date
CN112308151A true CN112308151A (zh) 2021-02-02

Family

ID=74334055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011207564.4A Pending CN112308151A (zh) 2020-11-03 2020-11-03 基于加权的旋转森林高光谱图像分类方法

Country Status (1)

Country Link
CN (1) CN112308151A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884067A (zh) * 2021-03-15 2021-06-01 中山大学 一种基于决策树分类器的跳数矩阵恢复方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073880A (zh) * 2011-01-13 2011-05-25 西安电子科技大学 利用稀疏表示进行人脸识别的集成方法
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置
CN107358142A (zh) * 2017-05-15 2017-11-17 西安电子科技大学 基于随机森林构图的极化sar图像半监督分类方法
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及***
CN107943830A (zh) * 2017-10-20 2018-04-20 西安电子科技大学 一种适用于高维大数据集的数据分类方法
CN108038448A (zh) * 2017-12-13 2018-05-15 河南理工大学 基于加权熵的半监督随机森林高光谱遥感影像分类方法
CN111414863A (zh) * 2020-03-23 2020-07-14 国家海洋信息中心 一种增强型集成遥感影像分类方法
CN111680615A (zh) * 2020-06-04 2020-09-18 西安电子科技大学 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073880A (zh) * 2011-01-13 2011-05-25 西安电子科技大学 利用稀疏表示进行人脸识别的集成方法
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置
CN107358142A (zh) * 2017-05-15 2017-11-17 西安电子科技大学 基于随机森林构图的极化sar图像半监督分类方法
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及***
CN107943830A (zh) * 2017-10-20 2018-04-20 西安电子科技大学 一种适用于高维大数据集的数据分类方法
CN108038448A (zh) * 2017-12-13 2018-05-15 河南理工大学 基于加权熵的半监督随机森林高光谱遥感影像分类方法
CN111414863A (zh) * 2020-03-23 2020-07-14 国家海洋信息中心 一种增强型集成遥感影像分类方法
CN111680615A (zh) * 2020-06-04 2020-09-18 西安电子科技大学 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEI FENG 等: "Weight-Based Rotation Forest for Hyperspectral Image Classification", 《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884067A (zh) * 2021-03-15 2021-06-01 中山大学 一种基于决策树分类器的跳数矩阵恢复方法
CN112884067B (zh) * 2021-03-15 2023-08-01 中山大学 一种基于决策树分类器的跳数矩阵恢复方法

Similar Documents

Publication Publication Date Title
CN110321963B (zh) 基于融合多尺度多维空谱特征的高光谱图像分类方法
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
CN111695467B (zh) 基于超像素样本扩充的空谱全卷积高光谱图像分类方法
Feng et al. Convolutional neural network based on bandwise-independent convolution and hard thresholding for hyperspectral band selection
Narendra et al. A non-parametric clustering scheme for LANDSAT
CN110084159A (zh) 基于联合多级空谱信息cnn的高光谱图像分类方法
CN111914728B (zh) 高光谱遥感影像半监督分类方法、装置及存储介质
CN108846426A (zh) 基于深度双向lstm孪生网络的极化sar分类方法
CN105760900B (zh) 基于近邻传播聚类和稀疏多核学习的高光谱图像分类方法
CN109359525B (zh) 基于稀疏低秩的判别谱聚类的极化sar图像分类方法
CN109344698A (zh) 基于可分离卷积和硬阈值函数的高光谱波段选择方法
CN105913092B (zh) 基于子空间学习的图正则高光谱图像波段选择方法
CN103258210A (zh) 一种基于字典学习的高清图像分类方法
CN103914705A (zh) 一种基于多目标免疫克隆的高光谱图像分类和波段选择的方法
CN111680579A (zh) 一种自适应权重多视角度量学习的遥感图像分类方法
CN110334777A (zh) 一种加权多视角无监督属性选择方法
CN116824485A (zh) 一种基于深度学习的开放场景伪装人员小目标检测方法
CN107578063A (zh) 基于快速选取地标点的图像谱聚类方法
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
CN114663770A (zh) 一种基于集成聚类波段选择的高光谱图像分类方法及***
CN113298184B (zh) 用于小样本图像识别的样本抽取、扩充方法及存储介质
CN104732246B (zh) 一种半监督协同训练高光谱图像分类方法
CN107273919A (zh) 一种基于置信度构造类属字典的高光谱无监督分类方法
CN113392871B (zh) 一种基于散射机制多通道扩张卷积神经网络的极化sar地物分类方法
CN112308151A (zh) 基于加权的旋转森林高光谱图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210202