CN110956187A

CN110956187A - 一种基于集成学习的无人机影像植物冠层信息提取方法

Info

Publication number: CN110956187A
Application number: CN201911186754.XA
Authority: CN
Inventors: 孙伟; 金忠明; 曹姗姗; 张晶; 邱琴; 沈辰; 张洪宇
Original assignee: Xinjiang Agricultural University; Agricultural Information Institute of CAAS
Current assignee: Xinjiang Agricultural University; Agricultural Information Institute of CAAS
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-03

Abstract

本发明提供了一种基于集成学习的无人机影像植物冠层信息提取方法，包括以下步骤：S1、获取无人机可见光遥感影像，进行数据预处理；S2、采用面向对象法进行影像分割完成对象特征提取；S3、采用Stacking集成学习模型实现对植物冠层信息的提取。本发明通过结合面向对象和Stacking集成机器学习的方法，一方面大大减少信息提取过程中的模型构建的参数消耗，极大地节省了人力物力和时间；另一方面打破了传统局限于使用单一分类器对于高分辨率遥感影像进行模式识别方式，够使充分发挥各个算法模型自身的优势，不仅具有更为优异的泛化性、稳定性和适用性，还极大提高了基于无人机影像对植物冠层信息提取的精准度和速度。

Description

一种基于集成学习的无人机影像植物冠层信息提取方法

技术领域

本发明属于遥感影像提取技术领域，具体涉及一种基于集成学习的无人机影像植物冠层信息提取方法。

背景技术

植物冠层是树木进行光合作用的主要场所，是反映树木信息最直接的部位，也是在遥感影像中最容易获取信息的部分。通过提取遥感影像中的植物冠层信息，可以估测乔木、农作物等植物的高度、生物量以及郁闭度和蓄积量等信息，还可以监测由病虫害、干旱、火灾等引起的冠层变化。因此，及时准确获取植物冠层参数信息对农业可持续发展、森林健康监测都具有重要意义。传统调查工作量大、周期长、效率低，卫星遥感受限于低空间分辨率、云影、低时效性，均无法满足植物冠层信息准确及时提取的需求。无人机遥感具有高空间分辨率，可在云下飞行、快速灵活、成本低等优点，为快速获取植物冠层信息提供了有效途径，从而获得广泛关注。

目前，大量学者针对基于无人机影像对植物冠层信息提取展开讨论和研究，当前面向对象分类方法多属于监督分类，在实际应用中需要较多人机交互操作，对人工经验的依赖性较强；监督分类所需训练样本大多由人工选取，相对耗时耗力，且大多局限于使用单一分类器对于高分辨率遥感影像进行模式识别，对于复杂地物往往难以准确辨别，导致耗时长、精度低，对于不同区域，不同数据下不同模型的通用性差；因此，亟需一种具备更强的泛化能力，预测准确度更高，通用性更广的集成学习分类模型。

发明内容

本发明所要解决的技术问题在于针对上述现有技术的不足，提供一种基于集成学习的无人机影像植物冠层信息提取方法，通过实现通过结合面向对象和Stacking集成机器学习的方法提高基于无人机影像提取植物冠层的精度和速度。

为解决上述技术问题，本发明采用的技术方案是：一种基于集成学习的无人机影像植物冠层信息提取方法，其特征在于，包括以下步骤：

S1、获取无人机可见光遥感影像，并进行数据预处理；

S2、采用面向对象法进行影像分割和对象特征提取；

S3、采用Stacking集成学习模型完成对植物冠层信息的提取。

优选地，在S1中使用Agisoft PhotoScan软件对获取的无人机可见光遥感影像数据进行处理，具体包括以下步骤：

S101、筛选数据：筛选掉航线拐角处重叠度大、姿态角大、成像效果差、模糊不清的不合格影像；

S102、图片拟合匹配：输入影像和姿态数据文件，对相邻影像数据进行空间拟合和特征点匹配；

S103、提取点云数据：采用软件多视图三维重建技术，进行空中三角测量计算，实现自动定向，提取和匹配影像特征点进而生成点云数据；

S104、网格生成：根据S103中提取出的点云数据，快速重构线、面、体、空间目标的三维密集点云模型数据；

S105、赋予纹理：采用“Mosaic”模式对多边形网格模型赋予纹理；

S106、输出结果：裁剪影像获取研究区的高分辨率正射影像。

优选地，S2中所述的影像分割采用eCognition软件中的多尺度分割算法实现；具体来讲即利用尺度参数工具ESP确定影像分割尺度，所述尺度参数工具ESP用于通过计算不同分割尺度参数下影像对象同质性的局部变化LV作为分割对象层的平均标准差，并用所述局部变化LV的变化率值ROC来指示对象分割最佳尺度参数，当所述变化率值ROC出现峰值即局部最大值时，该点对应的分割尺度值即为最佳分割尺度；

其中，ROC计算公式如下：

式中：LV_(L)为目标层次即L层对象层的平均标准差，LV_(L-1)则为目标层L层的下一层L-1层中对象层的平均标准差。

优选地，S2中所述的对象特征提取为对对象特征空间的提取，所述对象特征空间由光谱特征和纹理特征计算；

所述光谱特征为遥感影像中红、绿、蓝3个波段的分量均值、标准差、亮度、波段比和过绿减过红指数；

其中过绿减过红指数的计算公式为：

式中：ExG-ExR表示过绿减过红指数，

表示绿光波段的平均DN值，

表示红光波段的平均DN值，

表示蓝光波段的平均DN值，DN值是遥感影像像元亮度值，DN值用于记录的地物的灰度值且是一个整数值，DN值大小与传感器的辐射分辨率、地物发射率、大气透过率和散射率等有关；

所述纹理特征为红、绿、蓝3个波段的分量灰度共生矩阵平均值、标准差、同质性、对比度、非相似性、熵、角二阶矩、相关性以及灰度级差矢量平均值、对比度、角二阶矩、熵。

优选地，S3中所述的采用Stacking集成学习模型对植物冠层信息的提取包括以下步骤：

S301、获取特征样本对象并划分数据集；

S302、使用支持向量机、K-近邻、梯度提升树、决策树和随机森林五种学习算法模型作为基学习器建立初级分类器；

S303、利用五折交叉验证法对五个基学习器进行训练和验证；

S304、将初级分类器中输出的结果整合为新数据集输入次级学习器作为元特征进行训练；

S305、将待测试植物冠层的影像数据集输入训练好的Stacking集成学习模型中，得到提取结果。

优选地，S301中所述的划分数据集包含：训练集、验证集、和测试集，其中80％的数据集作为训练集，10％的数据集作为验证集，10％的数据集作为测试集。

优选地，所述支持向量机是寻找几何间隔最大的分割超平面使样实例最大程度的被分隔开，使模型具有很好的泛化性能，支持向量机定义为：

式中，α_i为拉格朗日乘子，y_i为输出，b为阈值；函数k(x,x_i)为核函数，模型中使用RBF高斯核函数；

所述K-近邻通过测量不同特征值之间的距离进行分类；其算法实现描述为：

S3021、确定K的值，并计算待分类样本X与训练样本样本T之间的距离，假定每个样本包含n个特征，则训练样本与待分类样本的特征向量可表示为T＝{t₁,t₂,…,t_n}和X＝{x₁,x₂,…,x_n}；

T和X之间的距离D(T,X)的计算公式如下：

S3022、按照距离由近及远排序；

S3023、选择距离最近的K个训练样本；

S3024、统计K个训练样本的类别出现的频率；

S3025、选择出现频率最高的样本类别，预测出输入数据的类别；

所述梯度提升树的基本思想是将弱分类算法提升为强分类算法，从而提高分类准确率；

梯度提升树是以决策树为基分类器的学习提升方法，梯度提升树采用基函数的线性组合和前向分布算法将多个决策树叠加起来，梯度提升树输出的结果是由包含若干决策树累加而得到，每一棵决策树都是实现对先前决策树预测残差的拟合，通过损失函数L(θ)来修正整体的模型，

梯度提升树用数学模型可表示为：

式中，T(x:θ_m)代表决策树，m为第m棵树，M为树的个数，θ_m表示为此棵树的参数；

采用前向分布算法，由f₀(x)＝0，则确定第m步的模型为:

f_m(x)＝f_m-1(x)+T(x：θ_m)

针对样本D＝{(x₁,y₁),(x₂,y₂)…(x_N,y_N2)}，用ΣL(y_i,f_m(x_i))最小化损失函数来确定决策树的参数θ＝{θ₁,θ₂,…θ_m},即

所述决策树的基本思想是从根节点开始进行测试，每个内部节点表示待测试属性，而其不同分支表示不同测试结果，最终的叶节点即表示预值。

决策树的学习过程主要分为三部分：特征选择、生成决策树和决策树剪枝，其算法描述如下：

S302a、将训练数据集所有样本放在根节点，选择一个最优的特征，通过最优的特征将训练数据集划分为两个子集，使得每个子集具有在当前条件下最好的分类；

S302b、如果多个所述子集能够被正确分类的子集，那么被正确分类的子集被认为为叶节点；

S302c、如果多个所述子集没有被正确分类，那么分别对每个子集选择最优的特征对子集继续分割，生成新的子集，直至所有的子集都被正确地分类或者没有合适的特征，停止递归选择特征；

S302d、每个被分类正确的子集对应为叶节点，生成了一个决策树，决策树模型使用基尼指数来选择最优特征；

所述随机森林的基本思想是将多个模型组合来决解单一的预测问题，多个同质模型各自独立的训练并预测出结果，之后将结果相结合考量，实现集体的力量，从而获得优于单一学习器的结果；

所述随机森林生成的步骤如下：

S302A、从N个训练样本中采用boostrap法有放回地随机抽取N次，形成一个训练集，并用未抽到的训练样本作预测集，评估其误差；

S302B、输入特征数目m，m代表每个基分类器所使用的特征总数，其中m小于特征总个数；

S302C、对于每一个基分类器，随机选择m个特征，使用训练集的这m个特征训练基分类器；

S302D、重复上述步骤，构建多棵决策树，直到决策树个数达到预定数目为止，以各棵树的预测值的平均作为最终的结果。

优选地，S303中所述的交叉验证法用于防止数据被双层学习器重复学习，避免“过拟合”效应的发生，所述交叉验证法采用五折交叉验证法，其步骤包括：

S3031、将初始数据随机均匀地分成m份，其中m-1份作为训练集剩下的一份作为保留集用于后续预测；

S3032、将选出的m-1份作为训练集进行k折交叉验证处理；

S3033、将k-1份数据用于基学习器的训练，将训练好的模型用于预测剩下的另外一份数据，将此步骤执行k次，产生概率结果为P_i(i＝1,2,…,k)，作为下一层模型训练集；

S3034、对保留集同样使用S3033步骤，概率结果为Q_i(i＝1,2,…,k)，将k次结果求平均得到Q作为测试集；

S3035、对每个基学习器重复步骤S3033和S3034；

S3036、将步骤S3035产生的训练集与测试集进行拼接整合作为次级学习器的元特征；

S3037、将测试集输入次级学习器中得到最终预测结果。

优选地，所述次级学习器选择选择初级学习器中最优的基学习器作为元分类器。

本发明与现有技术相比具有以下优点：

1、本发明通过结合面向对象和Stacking集成机器学习的方法提高基于无人机影像提取植物冠层的精度和速度，能有效提高提取效率。

2、本发明可以减少重复采集训练样本、建模等信息提取过程中的参数消耗，极大地节省了人力物力和时间。

3、本发明打破了传统局限于使用单一分类器对于高分辨率遥感影像进行模式识别方式，通过集成了多种预测模型的分类器，够使充分发挥各个算法模型自身的优势，不仅使模型具有更为优异的泛化性、稳定性和适用性，还极大提高了基于无人机影像植物冠层信息提取的精准度和速度。

下面结合附图和实施例对本发明作进一步详细说明。

附图说明

图1是本发明的整体流程图。

图2是本发明中基于无人机影像数据预处理的流程图。

图3是本发明中Stacking集成学习模型的流程图。

图4是本发明中最优分割尺度计算结果图。

图5是本发明中于Stacking集成学习交叉验证的示意图。

图6是本发明的整体框架图。

图7是本发明中对影像进行预处理的效果图。

图8是本发明中不同分割尺度效果图。

具体实施方式

本发明提供的基于集成学习的无人机影像植物冠层信息提取方法用于新疆天山北麓中段的乌鲁木齐南山区域(43°16′～44°07′N，86°46′～87°56′E)内的无人机拍摄的天山云杉植物冠层信息进行提取，提取时间为2018年2月26日。实际操作中使用搭载CCD相机的固定翼无人机进行影像拍摄，规划航线航向重叠率为80％，旁向重叠率为60％。所获影像包括红光、绿光和蓝光3个分量，数据格式为8bit无符号整形TIFF格式，空间分辨率为0.1177m，数据坐标***为WGS84，采用UTM投影。天山云杉主要分布在天山北坡中山阴坡地带；为验证树冠提取精度，综合考虑海拔、林龄、光照条件等因素选取16个小班，其中幼龄林1个、中龄林5个、近熟林4个、成熟林5个、过熟林1个。在小班内划定遥感样地16个，每个样地100m×100m，其中海拔1500-1999米5个、2000-2499米10个、2500-3000米1个；阴影区域8个、光照区域8个；同时目视解译出样地内天山云杉林树冠值作为参考数据。

本实施例中，如图1所示，对无人机影像植物冠层信息的提取包括以下步骤：

S1、获取无人机可见光遥感影像，并进行数据预处理；

S2、采用面向对象法进行影像分割和对象特征提取；

S3、采用Stacking集成学习模型完成对植物冠层信息的提取。

如图2所示，步骤S1中利用Agisoft PhotoScan无人机数据处理软件进行影像拼接，使整幅拼接影像的色彩均衡，过渡自然，边界平滑，进而对整幅影像做正射等预处理，具体包括以下步骤：

S101、筛选数据，筛选掉航线拐角处重叠度过大姿态角过大、成像效果差、模糊等不合格的影像；

S102、图片拟合匹配，输入影像、姿态数据等文件，对相邻影像数据进行空间拟合、特征点匹配等工作。

S103、提取点云数据，采用软件多视图三维重建技术，进行空中三角测量计算，实现自动定向，提取和匹配影像特征点，生成点云数据；

S104、网格生成，根据提取出带有坐标信息的点云数据，快速重构线、面、体、空间等目标的三维密集点云模型数据；

S105、赋予纹理，采用“Mosaic”模式对多边形网格模型赋予纹理；

S106、输出结果，裁剪影像获取研究区的高分辨率正射影像。

如图4所示，本实施例中，S2中的影像分割采用eCognition软件中的多尺度分割算法；其中，利用尺度参数工具ESP确定影像分割尺度；所述尺度参数工具ESP用于通过计算不同分割尺度参数下影像对象同质性的局部变化LV作为分割对象层的平均标准差，以此来判别分割效果是否最佳。并用所述局部变化LV的变化率值ROC来指示对象分割最佳尺度参数，当所述变化率值ROC出现峰值即局部最大值时，该点对应的分割尺度值即为最佳分割尺度。其中，ROC计算公式如下：

本实施例中，S2中所述的对象特征提取为对对象特征空间的提取，所述对象特征空间由光谱特征和纹理特征计算；

其中过绿减过红指数的计算公式为：

式中：ExG-ExR表示过绿减过红指数，

表示绿光波段的平均DN值，

表示红光波段的平均DN值，

表示蓝光波段的平均DN值；

本实施例中，排除其他因子的影响，将形状因子与紧致度因子分别设定为默认值0.1和0.5，输入图层所占权重为1，利用ESP工具计算最优分割尺度，确定分割尺度后，调整形状因子和紧致度因子进行分割实验对比，最终确定试验中分割尺度为29；形状因子为0.2；紧致度因子为0.5；各图层输入权重为1。

如图3所示，S3中所述的采用Stacking集成学习模型对植物冠层信息的提取包括以下步骤：

S301、获取特征样本对象并划分数据集；

S303、利用五折交叉验证法对五个基学习器进行训练和验证；

本实施例中，S301中所述的划分数据集包含：训练集、验证集、和测试集；80％的数据集作为训练集，10％的数据集作为验证集，10％的数据集作为测试集。

本实施例中，所述支持向量机基本思想是寻找几何间隔最大的分割超平面使样实例最大程度的被分隔开，使模型具有很好的泛化性能，支持向量机定义为：

如图5所示，所述K-近邻的基本思想是通过测量不同特征值之间的距离进行分类；其算法实现描述为：

T和X之间的距离D(T,X)的计算公式如下：

S3022、按照距离由近及远排序；

S3023、选择距离最近的K个训练样本；

S3024、统计K个训练样本的类别出现的频率；

所述梯度提升树的基本思想是将弱分类算法提升为强分类算法，从而提高分类准确率。梯度提升树是以决策树为基分类器的学习提升方法，梯度提升树采用基函数的线性组合和前向分布算法将多个决策树叠加起来，梯度提升树输出的结果是由包含若干决策树累加而得到，每一棵决策树都是实现对先前决策树预测残差的拟合，通过损失函数L(θ)来修正整体的模型，

梯度提升树用数学模型可表示为：

采用前向分布算法，由f₀(x)＝0，则确定第m步的模型为:

f_m(x)＝f_m-1(x)+T(x：θ_m)

所述随机森林生成的步骤如下：

本实施例中，S303中所述的交叉验证法用于防止数据被双层学习器重复学习，避免“过拟合”效应的发生，进而提高评分预测模型的性能，得到更好的预测效果，所述交叉验证法采用五折交叉验证法，交叉验证法的基本思想为：假设初始训练数据集D被随机划分为K个大小相等的集合D₁,D₂,...,D_k,(k＝1,2,...,5),D_k和D_k’分别表示第k折的测试集和训练集；给定T个基分类器，分类器ht^(k)(x_i)通过在D_k’上使用的第t(t＝1,2,3,4)个基分类器学习算法而得的分类模型；对D_k中每个样本实例x_i，令z_it＝h_t ^(k)(x_i)表示由x_i在第k个基分类器的分类模型h_t ^(k)上x_i所产生的次级训练样本数据示例或预测，那么，z_i＝(z_i1；z_i2；...；z_iT)表示样本实例x_i在T个基分类器的分类模型上产生的次级训练样本数据集；因此，在整个交叉验证结束后，从这T个基分类器产生的次级训练数据集D′＝{(z_i,y_i)}^k _i＝1，将用于训练Stacking学习模型，其中，y_i表示正确的分类标识。

交叉验证法的基本步骤包括：

S3032、将选出的m-1份作为训练集进行k折交叉验证处理；

S3035、对每个基学习器重复步骤S3033和S3034；

S3037、将测试集输入次级学习器中得到最终预测结果。

本实施例中，次级学习器选择选择初级学习器中最优的基学习器作为元分类器。

如图6所示，提取信息的基本流程为：首先采用无人机搭载可见光相机获取植物冠层的遥感影像，再进行数据预处理；采用面向对象法进行影像分割、对象特征提取；进而对数据集进行划分，Stacking框架是由两层的结构进行级联组成，第一层使用不同法学习器从原始训练集中学习生成若干个初级分类器，每种学习器输出的结果组合形成一个新的数据集，用于训练Stacking算法的第二层的次级分类器，将次级分类器的输出结果作为最终的预测结果。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制。凡是根据发明技术实质对以上实施例所作的任何简单修改、变更以及等效变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于集成学习的无人机影像植物冠层信息提取方法，其特征在于，包括以下步骤：

S1、获取无人机可见光遥感影像，并进行数据预处理；

S2、采用面向对象法进行影像分割和对象特征提取；

S3、采用Stacking集成学习模型完成对植物冠层信息的提取。

2.根据权利要求1所述的一种基于集成学习的无人机影像植物冠层信息提取方法，其特征在于，在S1中使用Agisoft PhotoScan软件对获取的无人机可见光遥感影像数据进行处理，具体包括以下步骤：

S106、输出结果：裁剪影像获取研究区的高分辨率正射影像。

3.根据权利要求1所述的一种基于集成学***均标准差，并用所述局部变化LV的变化率值ROC来指示对象分割最佳尺度参数，当所述变化率值ROC出现峰值即局部最大值时，该点对应的分割尺度值即为最佳分割尺度；

其中，ROC计算公式如下：

4.根据权利要求1所述的一种基于集成学习的无人机影像植物冠层信息提取方法，其特征在于，S2中所述的对象特征提取为对对象特征空间的提取，所述对象特征空间由光谱特征和纹理特征计算；

其中过绿减过红指数的计算公式为：

式中：ExG-ExR表示过绿减过红指数，

表示绿光波段的平均DN值，

表示红光波段的平均DN值，

表示蓝光波段的平均DN值，DN值是遥感影像像元亮度值，DN值用于记录的地物的灰度值且是一个整数值；

5.根据权利要求1所述的一种基于集成学习的无人机影像植物冠层信息提取方法，其特征在于，S3中所述的采用Stacking集成学习模型对植物冠层信息的提取包括以下步骤：

S301、获取特征样本对象并划分数据集；

S303、利用五折交叉验证法对五个基学习器进行训练和验证；

6.根据权利要求5所述的一种基于集成学习的无人机影像植物冠层信息提取方法，其特征在于，S301中所述的划分数据集包含：训练集、验证集和测试集，其中80％的数据集作为训练集，10％的数据集作为验证集，10％的数据集作为测试集。

7.根据权利要求5所述的一种基于集成学***面使样实例最大程度的被分隔开，使模型具有很好的泛化性能，支持向量机定义为：

所述K-近邻是通过测量不同特征值之间的距离进行分类；K-近邻算法描述为：

S3021、确定K的值，并计算待分类样本X与训练样本T之间的距离，假定每个样本包含n个特征，则训练样本与待分类样本的特征向量可表示为T＝{t₁,t₂,…,t_n}和X＝{x₁,x₂,…,x_n}；T和X之间的距离D(T,X)的计算公式如下：

S3022、按照距离由近及远排序；

S3023、选择距离最近的K个训练样本；

S3024、统计K个训练样本的类别出现的频率；

所述梯度提升树将弱分类算法提升为强分类算法，从而提高分类准确率；梯度提升树是以决策树为基分类器的学习提升方法，梯度提升树采用基函数的线性组合和前向分布算法将多个决策树叠加起来，梯度提升树输出的结果是由包含若干决策树累加而得到，每一棵决策树都是实现对先前决策树预测残差的拟合，通过损失函数L(θ)来修正整体的模型；

梯度提升树用数学模型可表示为：

采用前向分布算法，由f₀(x)＝0，则确定第m步的模型为:

f_m(x)＝f_m-1(x)+T(x：θ_m)

所述决策树的基本思想是从根节点开始进行测试，每个内部节点表示待测试属性，而其不同分支表示不同测试结果，最终的叶节点即表示预值；

所述随机森林生成的步骤如下：

8.根据权利要求5所述的一种基于集成学习的无人机影像植物冠层信息提取方法，其特征在于，S303中所述的交叉验证法用于防止数据被双层学习器重复学习，避免“过拟合”效应的发生，所述交叉验证法采用五折交叉验证法，其步骤包括：

S3032、将选出的m-1份作为训练集进行k折交叉验证处理；

S3035、对每个基学习器重复步骤S3033和S3034；

S3037、将测试集输入次级学习器中得到最终预测结果。

9.根据权利要求8所述的一种基于集成学习的无人机影像植物冠层信息提取方法，其特征在于，所述次级学习器选择初级学习器中最优的基学习器作为元分类器。