CN112949738B

CN112949738B - 基于eecnn算法的多类不平衡高光谱图像分类方法

Info

Publication number: CN112949738B
Application number: CN202110284437.2A
Authority: CN
Inventors: 冯伟; 吕勤哲; 全英汇; ***; 王勇; 董淑仙; 王硕
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2024-03-05
Anticipated expiration: 2041-03-17
Also published as: CN112949738A

Abstract

本发明属于高光谱遥感图像处理技术领域，具体公开了一种基于EECNN算法的多类不平衡高光谱图像分类方法，包括步骤：获取待训练高光谱图像和待分类高光谱图像；对每个高光谱图像进行光谱‑空间像素块划分；对每类样本分别进行随机过采样处理；将人工训练样本沿波段维进行随机特征选择和空间变换；获取平衡训练样本集，并对其进行随机特征选择；构建集成CNN模型并对其的每个子分类器进行训练，采用训练完的模型对待分类图像进行分类，获取最终预测类别。本发明不但具有集成学习的良好泛化性能，同时具有深度学习强大的特征提取能力，提高分类精度。

Description

基于EECNN算法的多类不平衡高光谱图像分类方法

技术领域

本发明涉及高光谱遥感图像处理技术领域，尤其涉及一种基于EECNN(EnhancedRandom Feature Subspace-based Ensemble Convolutional Neural Networks，基于增强随机特征子空间的集成卷积神经网络)算法的多类不平衡高光谱图像分类方法，可应用于多类别不平衡场景下高光谱遥感图像的准确分类。

背景技术

高光谱遥感图像包含了覆盖数百个连续光谱波段的丰富信息，已被广泛应用于土地覆盖制图、军事监测、环境建模和检测以及精准农业等领域。高光谱图像通常包含多个地物覆盖类别，因此如何设计一种监督分类算法，在经过适当的训练后为每个像素准确地分配一个类别标签是高光谱图像研究中最重要的任务之一。现有高光谱图像分类方法大多建立在平衡训练集的基础之上，而高光谱图像往往存在严重的类别不平衡问题，即每种地物类别所包含的样本数目差异巨大，从而导致少数类样本分类精度严重受损，但少数类样本往往也是人们所关心并需要被准确分类识别的，这使得许多现有分类方法失效；此外，高光谱图像的获取和地物类别标注需要花费大量的人力物力资源，因此研究类别不平衡情况下高光谱图像分类方法具有巨大的实际应用价值。

目前，针对高光谱图像分类的多类不平衡问题，通常采用的算法有Cost-sensitive算法、基于核函数(Kernel-based)算法和主动学***衡问题；比如，随机欠采样(Random undersampling，RUS)、随机过采样(Randomoversampling，ROS)、合成少数过采样技术(Synthetic Minority OversamplingTechnique，SMOTE)和正交补码子空间投影方法(Orthogonal Complement SubspaceProjection，OCSP)，但这些方法都有一定局限性，RUS方法会损失有效的样本信息；ROS方法产生的大量重复样本会增加模型过度拟合的风险；SMOTE方法仅通过真实样本的线性组合生成人工样本，因此所生成的新特征是有限的；OCSP方法使用非线性人工样本生成，可以产生更丰富的新特征，但基于梯度约束的算法计算量大且非常耗时。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种基于EECNN算法的多类不平衡高光谱图像分类方法，采用基于增强随机特征子空间的平衡训练集生成算法，使训练集更具多样性且不损失原有样本特征信息，能有效提高多种算法的分类精度；采用集成学习与深度学习相结合的集成CNN模型，不但具有集成学习的良好泛化性能，同时具有深度学习强大的特征提取能力，提高分类精度。

为了达到上述目的，本发明采用以下技术方案予以实现。

(一)基于EECNN算法的多类不平衡高光谱图像分类方法，包括以下步骤：

步骤1，获取待训练高光谱图像和待分类高光谱图像；分别对所述待训练高光谱图像和待分类高光谱图像进行光谱-空间像素块划分，对应得到原始数据集S和待分类样本集；从原始数据集中每类按比例随机抽取像素块形成原始训练集S_train；

其中，待训练高光谱图像包含L种地物类别，其像素数为M₁×M₂，波段数为N；待分类高光谱图像中的地物类别包含于待训练高光谱图像中；

步骤2，将原始训练集S_train中每类训练样本数目记作N_l，1≤N_l≤L，记最大类样本数目为N_max；对S_train中每类样本分别进行随机过采样处理，得到人工训练集S_c，使得每类对应的人工训练样本和原始训练样本的样本数之和分别等于最大类样本数N_max；

步骤3，将人工训练集S_c中每个样本沿波段维进行随机特征选择(random featureselection，RFS)，得到A个大小为m×m×n的随机特征子空间f_a，1≤a≤A，1≤n≤N；对每个随机特征子空间f_a分别进行相应的空间变换，得到具有增强随机特征子空间的增强样本集S_ca；

步骤4，混合S_ca和S_train得到平衡训练样本集S_balanced；对平衡训练样本集S_balanced中的每个训练样本在波段维进行随机特征选择，得到E个大小分别为m×m×n_f的特征子空间f_e，1≤e≤E；对待分类样本集中的每个样本在波段维进行相同的随机特征选择，得到E个大小分别为m×m×n_f的特征子空间f_e′；

其中，1≤n_f≤N，每个训练样本和待分类样本的第e个随机特征子空间所包含的波段及其顺序均相同；

步骤5，构建集成CNN模型，将每个特征子空间f_e作为集成CNN模型中每个子分类器的输入数据，对集成CNN模型的每个子分类器分别进行训练，得到训练完的集成CNN模型；将每个特征子空间f_e′输入所述训练完的集成CNN模型的每个子分类器，采用多数投票法获取最终预测类别。

进一步地，所述原始数据集S中每类未抽取到的像素块作为测试样本，形成测试集S_test；在训练完成后，采用测试集S_test对训练完的集成CNN模型进行测试。

进一步地，所述光谱-空间像素块划分具体为：将高光谱图像分割为M₁×M₂个大小为m×m×N的光谱-空间像素块；其中，m×m为空间特征大小；原始数据集S和待分类样本集中的每个样本对应一个大小为m×m×N的光谱-空间像素块。

进一步地，所述随机过采样处理具体为：对原始训练集S_train中的每类训练样本进行随机抽取并复制，生成每类训练样本对应的人工生成样本，从而生成人工训练集S_c。

进一步地，每个随机特征子空间f_a对应进行一种空间变换，且每个f_a对应的空间变换不同，所述空间变换包含水平翻转、垂直翻转和不同角度的旋转。

进一步地，所述集成CNN模型包括E个并列设置的CNN和多数投票层，每个CNN为一个子分类器；E个CNN的输出经过多数投票层进行投票选择，输出预测类别。

进一步地，所述对集成CNN模型的每个子分类器分别进行训练，具体为：

首先，设置集成CNN模型训练批次大小和最大训练轮次，初始化模型参数；

然后，将每个特征子空间f_e作为集成CNN模型中每个子分类器的输入数据，每轮次训练结束计算交叉熵损失函数，并采用Adam优化器对集成CNN模型的模型参数进行优化更新，直到达到最大训练轮次即完成集成CNN模型的训练。

进一步地，所述采用多数投票法获取最终预测类别，具体为：将每个子分类器的预测结果P_e看作一票，统计所有子分类器对样本x_i的分类票数，将票数最多的预测结果作为该样本的最终预测结果。

(二)基于增强随机特征子空间的平衡训练集生成算法，包括以下步骤：

步骤1，获取待训练高光谱图像，对所述待训练高光谱图像进行光谱-空间像素块划分，得到原始数据集S；从原始数据集中每类按比例随机抽取像素块形成原始训练集S_train；

其中，待训练高光谱图像的像素数为M₁×M₂，波段数为N；

步骤3，将人工训练集S_c中每个样本沿波段维进行随机特征选择，得到A个大小为m×m×n的随机特征子空间f_a，1≤a≤A，1≤n≤N；对每个随机特征子空间f_a分别进行相应的空间变换，得到具有增强随机特征子空间的增强样本集S_ca；混合S_ca和S_train得到平衡训练样本集S_balanced。

(三)一种集成CNN分类模型，包括多个并列设置的CNN和多数投票层，每个CNN为一个子分类器；多个CNN的输出经过多数投票层进行投票选择，输出预测类别。

与现有技术相比，本发明的有益效果为：

(1)相比传统ROS、RUS算法产生的平衡训练集，本发明方法采用基于增强随机特征子空间的平衡训练集生成算法，生成的训练集更具多样性且不损失原有样本特征信息，能有效提高多种算法的分类精度。

(2)本发明方法采用基于RFS的随机特征子空间构建算法，在生成的平衡训练集的基础上，通过随机特征选择在样本的波段维构建大量包含光谱-空间信息的随机特征子空间，实现了高光谱图像高维光谱特征的充分融合，且有效克服了高光谱图像分类中存在的高特征-实例比的问题。

(3)本发明采用集成学习与深度学习相结合的集成CNN模型，不但具有集成学习的良好泛化性能，同时具有深度学习强大的特征提取能力；集成CNN模型的各个子分类器CNN工作在不同的随机特征子空间上，通过对每个子分类器的预测结果进行多数投票得到最终分类结果，与现有方法相比分类精度提升明显。

附图说明

下面结合附图和具体实施例对本发明做进一步详细说明。

图1为本发明的一种基于EECNN算法的多类不平衡高光谱图像分类方法方法流程图；

图2为本发明实施例的基于光谱-空间像素块的训练集和测试集构建方法示意图；

图3为本发明实施例的基于随机特征子空间的平衡训练集生成算法示意图；

图4为本发明实施例的基于RFS的集成CNN模型算法流程图；

图5为采用不同方法对IndianPines(印第安纳松树地)高光谱数据集的分类结果，其中，(a)为IndianPines(印第安纳松树地)高光谱数据集的真实地物分布示意图，(b)为传统随机森林(Random forest，RF)算法的分类结果示意图，(c)为传统CNN算法的分类结果示意图；(d)为传统集成CNN(Ensemble CNN，ECNN)算法的分类结果示意图，(e)为采用本发明所提具有增强特征子空间的均衡训练样本集合S_balanced进行训练的RF算法(ERFS+RF)的分类结果示意图，(f)为采用本发明所提具有增强特征子空间的均衡训练样本集合S_balanced进行训练的CNN算法(ERFS+CNN)分类结果示意图，(g)为采用本发明所提基于增强随机特征子空间集成CNN方法分类结果示意图。

图6为采用不同方法对University of Pavia(帕维亚大学)高光谱数据集的分类结果；其中，(a)为University ofPavia(帕维亚大学)高光谱数据集的真实地物分布示意图，(b)为传统随机森林算法的分类结果示意图，(c)为传统CNN算法的分类结果示意图，(d)为传统集成CNN算法的分类结果示意图，(e)为采用本发明所提具有增强特征子空间的均衡训练样本集合S_balanced进行训练的RF算法(ERFS+RF)的分类结果示意图，(f)为采用本发明所提具有增强特征子空间的均衡训练样本集合S_balanced进行训练的CNN算法(ERFS+CNN)的分类结果示意图，(g)为采用本发明所提基于增强随机特征子空间集成CNN方法的分类结果示意图。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域的技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围。

实施例1

参考图1，本发明提供的一种基于EECNN算法的多类不平衡高光谱图像分类方法，包括以下步骤：

具体地，参照图2，为本发明的一种基于光谱-空间像素块的训练、测试样本集构建方法示意图；首先，将包含M×M个像素的N波段高光谱图像划分为M×M个大小为m×m×N的像素块作为原始数据集S，即取每个像素点周围m×m-1个相邻像素点作为空间邻域信息以构成光谱-空间像素块；对于图像边缘像素点，在一个或多个方向没有领域像素点，故其缺少的邻域信息用0元素填充，以保证每个像素块大小一致；其次，由于高光谱图像中包含多类别像素点，统计每个类别的像素点个数即每类样本数目，除背景类别外，随机抽取每类样本中a％作为训练样本集S_train，每类剩余的1-a％的样本作为测试集S_test，保证了训练集和测试集的独立性。

具体地，参照图3，基于随机过采样(ROS)的平衡训练集生成方法，统计原始训练集S_train中每类训练样本数目N_l，对每类训练样本进行ROS处理，即对S_train中每类训练样本进行随机抽取并复制，从而得到包含大量重复样本的人工补充训练集S_c，其中对每类训练样本进行ROS的比例为(N_max-N_l)/N_l×100％，以使得每类训练样本总数与最大类训练样本数相同，即有N′_i＝N_max。

具体地，参照图3，基于随机特征子空间的平衡训练集生成算法，首先，选取ROS所得含大量重复样本的人工训练集S_c中的样本对其沿波段维进行A次RFS以获得A个大小为m×m×n的随机特征子空间f_a(1≤a≤A)，其中n为所含波段个数，且1≤n≤N；然后，对每个f_a随机做一种空间变换如：水平翻转、垂直翻转、对角翻转和不同角度旋转等，每个f_a的空间变变换方式不同；最终，按照样本/>原有的波段顺序合成空间变换后的A个f_a得到增强人工样本/>对S_c中所有的样本逐一进行上述处理后，消除了大量的重复样本且增加了S_c中样本的多样性，得到增强人工训练集S_ca。

具体地，首先，直接混合人工增强训练集S_ca和原始训练集S_train得到类别分布均衡且多样化的增强均衡训练样本集S_balanced；然后，对S_balanced中每个训练样本沿波段维做相同的RFS以得到E个大小分别为m×m×n_f(1≤n_f≤N)的特征子空间f_e(1≤e≤E)，且每个样本的第e个随机特征子空间所包含的波段及其排列顺序均相同；最后，对测试集中每个样本做与处理训练样本中相同的RFS以分别得到E个随机特征子空间，从而使后续每个子分类器在处理各个训练样本时提取固定波段的特征，确保了算法的稳定性。

对测试样本做上述相同的RFS以使得其特征子空间的波段及其排列顺序与训练样本的f_e相一致。

具体地，参照图4，基于RFS的集成CNN模型算法流程图；首先设计独立的深层CNN模型作为集成算法的子分类器，每个子分类器的输入为步骤4中所得大小为m×m×n_f的随机特征子空间，每个子分类器独立学习并且输出一个预测类别标签P_e∈(1，2，...，L)，其中1≤e≤E。每个子分类器的训练过程，选取交叉熵损失函数(categorical_crossentropy)为模型损失函数，选择Adam作为模型优化器；设置模型训练批次大小(batch_size)为25，训练轮次(epochs)为35。

然后，将每个样本按照对应随机特征子空间输入到集成CNN模型的相应子分类器中进行自动特征提取并得到独立预测结果P_e；最终，采用多数投票方法得到集成模型的最终预测标签P，即统计E个子分类器的预测结果中每类预测标签的个数，取其中个数最多的预测类别标签为最终预测结果P。

实施例2

参考图3，本发明还提供一种基于增强随机特征子空间的平衡训练集生成算法，包括以下步骤：

其中，待训练高光谱图像的像素数为M₁×M₂，波段数为N；

实施例3

参考图4，本发明还提供了一种集成CNN分类模型，包括，多个并列设置的CNN和多数投票层，每个CNN为一个子分类器；多个CNN的输出经过多数投票层进行投票选择，输出预测类别。

仿真实验

通过在两种公共高光谱数据集上的实验对本发明方法作进一步验证说明。

(一)实验数据及模型参数设置

1.Indian Pines数据集的实验中，定义原始数据集的不平衡比例(Imbalanceratio，IR)为最大类样本数目与最小类样本数目之比，即IR＝N_max/N_min，可得其IR＝123，设置其空间信息大小m＝25，集成算法分类器个数为20个，每个随机特征子空间所包含波段数n_f＝20，从整个样本集S中随机抽取每类样本的5％作为原始训练集S_train，其余为测试集S_test，所采用CNN模型结构如下表1。

表1为Indian Pines数据集实验中CNN结构

2.University ofPavia数据集的实验中，其IR＝19.83，设置其空间信息大小m＝15，集成算法分类器个数为20个，每个随机特征子空间所包含波段数n_f＝40，从整个样本集S中随机抽取每类样本的5％作为原始训练集S_train，其余为测试集S_test，所采用CNN模型结构如下表2。

表2为University ofPavia数据集实验中CNN结构

(二)实验结果及其分析

在上述实验设置的基础上，对两个高光谱数据集分别使用本发明所提基于EECNN算法的多类不平衡高光谱图像分类方法进行实验验证，并采用传统RF算法、CNN算法、ECNN算法，以及采用本发明所提基于增强随机特征子空间的均衡训练样本进行模型训练的ERFS+RF算法和ERFS+CNN算法作为对比算法，从而更直观地评价本发明所提方法的优越性。采用整体分类精度(Overallaccuracy，OA)、平均分类精度(average accuracy，AA)以及Kappa系数作为分类效果的评价指标，其中，各项指标的取值越高，则分类效果越好；每种分类方法进行十次独立重复实验后取各项指标的均值作为该方法的最终实验结果以保证实验的可靠性。

在Indian Pines数据集的实验中，上述几种分类方法的实验结果如下表3所示；由表3及图5(a)～图5(g)中真实地物分布示意图与6种方法分类结果效果图可知，其中每种颜色代表一种地物类别，共计16种地物类别且各类别样本数目分布严重不平衡；其中M₁＝M₂＝145，N＝200，即图像大小为145*145像素，包含200个波段。本发明所提基于EECNN算法的多类不平衡高光谱图像分类方法在样本分布极度不均(IR＝123)的Indian Pines数据集的分类中取得了最佳的分类效果，其中OA和AA分别比其他五种算法高出1.41％～21.89％和0.89％～19.75％；此外，采用本发明所生成的增强平衡训练集进行训练的ERFS+RF算法和ERFS+CNN算法相比传统RF和CNN算法的分类效果有着明显的提升。

表3为Indian Pines数据集实验结果

在University of Pavia数据集的实验中，上述几种分类方法的实验结果如下表4所示；由表4及图6(a)～图6(g)中真实地物分布示意图与6种方法分类结果效果图，其中每种颜色代表一种地物类别，共计9种地物类别且各类别样本数目分布不平衡；其中M₁＝610，M₂＝340，N＝103，即图像大小为610*340像素，包含103个波段。由图6可知，本发明所提基于EECNN算法的多类不平衡高光谱图像分类方法在样本分布不均(IR＝19.83)的UniversityofPavia数据集的分类中取得了最佳的分类效果，其中OA和AA分别比其他五种算法高出2.04％～11.81％和0.25％～10.40％；此外，采用本发明所生成的增强平衡训练集进行训的ERFS+RF算法和ERFS+CNN算法相比传统RF和CNN算法的分类效果有着明显的提升。

表4为University of Pavia数据集实验结果

综上所述，仿真实验验证了本发明的正确性，有效性和可靠性，并相比现有方法的实验效果具有较大的优越性。

虽然，本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.基于EECNN算法的多类不平衡高光谱图像分类方法，其特征在于，包括以下步骤：

所述光谱-空间像素块划分具体为：将高光谱图像分割为M₁×M₂个大小为m×m×N的光谱-空间像素块；其中，m×m为空间特征大小；原始数据集S和待分类样本集中的每个样本对应一个大小为m×m×N的光谱-空间像素块；

由于高光谱图像中包含多类别像素点，统计每个类别的像素点个数即每类样本数目，除背景类别外，随机抽取每类样本中a％作为训练样本集S_train，每类剩余的1-a％的样本作为测试集S_test；

步骤2，将原始训练集S_train中每类训练样本数目记作N_l,1≤N_l≤L，记最大类样本数目为N_max；对S_train中每类样本分别进行随机过采样处理，得到人工训练集S_c，使得每类对应的人工训练样本和原始训练样本的样本数之和分别等于最大类样本数N_max；

步骤3，将人工训练集S_c中每个样本沿波段维进行随机特征选择，得到A个大小为m×m×n的随机特征子空间f_a,1≤a≤A，1≤n≤N；对每个随机特征子空间f_a分别进行相应的空间变换，得到具有增强随机特征子空间的增强样本集S_ca；

每个随机特征子空间f_a对应进行一种空间变换，且每个f_a对应的空间变换不同，所述空间变换包含水平翻转、垂直翻转和不同角度的旋转；

步骤4，混合S_ca和S_train得到平衡训练样本集S_balanced；对平衡训练样本集S_balanced中的每个训练样本在波段维进行随机特征选择，得到E个大小分别为m×m×n_f的特征子空间f_e,1≤e≤E；对待分类样本集中的每个样本在波段维进行相同的随机特征选择，得到E个大小分别为m×m×n_f的特征子空间f_e'；

步骤5，构建集成CNN模型，将每个特征子空间f_e作为集成CNN模型中每个子分类器的输入数据，对集成CNN模型的每个子分类器分别进行训练，得到训练完的集成CNN模型；将每个特征子空间f_e'输入所述训练完的集成CNN模型的每个子分类器，采用多数投票法获取最终预测类别；

所述对集成CNN模型的每个子分类器分别进行训练，具体为：

2.根据权利要求1所述的基于EECNN算法的多类不平衡高光谱图像分类方法，其特征在于，所述原始数据集S中每类未抽取到的像素块作为测试样本，形成测试集S_test；在训练完成后，采用测试集S_test对训练完的集成CNN模型进行测试。

3.根据权利要求1所述的基于EECNN算法的多类不平衡高光谱图像分类方法，其特征在于，所述随机过采样处理具体为：对原始训练集S_train中的每类训练样本进行随机抽取并复制，生成每类训练样本对应的人工生成样本，从而生成人工训练集S_c。

4.根据权利要求1所述的基于EECNN算法的多类不平衡高光谱图像分类方法，其特征在于，所述集成CNN模型包括E个并列设置的CNN和多数投票层，每个CNN为一个子分类器；E个CNN的输出经过多数投票层进行投票选择，输出预测类别。

5.根据权利要求1所述的基于EECNN算法的多类不平衡高光谱图像分类方法，其特征在于，所述采用多数投票法获取最终预测类别，具体为：将每个子分类器的预测结果P_e看作一票，统计所有子分类器对样本的分类票数，将票数最多的预测结果作为该样本的最终预测结果。

6.基于增强随机特征子空间的平衡训练集生成方法，其特征在于，包括以下步骤：

其中，待训练高光谱图像的像素数为M₁×M₂，波段数为N；所述光谱-空间像素块划分具体为：将高光谱图像分割为M₁×M₂个大小为m×m×N的光谱-空间像素块；其中，m×m为空间特征大小；原始数据集S和待分类样本集中的每个样本对应一个大小为m×m×N的光谱-空间像素块；

步骤3，将人工训练集S_c中每个样本沿波段维进行随机特征选择，得到A个大小为m×m×n的随机特征子空间f_a,1≤a≤A，1≤n≤N；对每个随机特征子空间f_a分别进行相应的空间变换，得到具有增强随机特征子空间的增强样本集S_ca；混合S_ca和S_train得到平衡训练样本集S_balanced；

每个随机特征子空间f_a对应进行一种空间变换，且每个f_a对应的空间变换不同，所述空间变换包含水平翻转、垂直翻转和不同角度的旋转。