CN110309780A

CN110309780A - 基于bfd-iga-svm模型的高分辨率影像房屋信息快速监督识别

Info

Publication number: CN110309780A
Application number: CN201910585702.3A
Authority: CN
Inventors: 周艺; 王福涛; 张锐; 王世新
Original assignee: Institute of Remote Sensing and Digital Earth of CAS
Current assignee: Institute of Remote Sensing and Digital Earth of CAS
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-10-08

Abstract

本发明公开基于BFD‑IGA‑SVM模型的高分辨率影像房屋信息快速监督识别，在房屋建筑目标特征体系的基础上，通过多尺度分割，构建高分辨率遥感影像的对象，影像对象是特征和知识表达的载体，准确构建影像对象是后续目标识别的基础；提取特征变量，通过将ReliefF算法、遗传算法以及支持向量机模型相结合，对特征进行优化和优选，形成房屋最优特征子集；对房屋最优的特征子集进行房屋信息提取和识别，并将其灵敏度与相关方法进行了比较。本申请具有较高的精度和很好的鲁棒性，对于房屋提取效率大大提高，对于灾后现场房屋信息快速提取，具有很好的应用价值，对灾后重建和快速救援起到很重要的信息支撑。

Description

基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别

技术领域

本发明涉及遥感监测技术领域。具体地说是基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别。

背景技术

当前，随着空间技术和传感器技术的快速发展，高分辨率遥感数据海量增加，并被广泛应用于土地覆盖制图和监测，地物识别与信息提取等领域，单就影像解译方式来看，主要还是基于像素和对象的解译方法。

其中，基于像素方法不能满足随着图像空间分辨率的增加而进行信息提取的需要，而面向对象则考虑了图像对象的光谱，几何，纹理和拓扑关系，这使得可以利用上下文语义信息。但是，信息提取过程中对特征的选择是至关重要的。特征呈现海量和高维度的特点，从特征集中提取目标的有效特征(Moser et al.2013；Chang 2018)，这对于房屋信息提取的效率和精度有着关键影响。

前人的研究主要集中在单一的特征提取方法和基于像元的分析上面，并且需要输入的原始特征较多，并没有利用不同类别特征选择和面向对象方法的优点，也没有充分考虑到分类器参数的优化问题。导致效率慢，精度方面也不高。

发明内容

为此，本发明所要解决的技术问题在于提供一种运行效率高、精确度高的基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别方法。

为解决上述技术问题，本发明提供如下技术方案：

基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，包括如下步骤：

(1)在房屋建筑目标特征体系的基础上，通过多尺度分割，构建高分辨率遥感影像的对象，影像对象是特征和知识表达的载体，准确构建影像对象是后续目标识别的基础；

(2)提取特征变量，通过将ReliefF算法、遗传算法以及支持向量机模型相结合，对特征进行优化和优选，形成房屋最优特征子集；

(3)对步骤(2)的房屋最优的特征子集进行房屋信息提取和识别，并将其灵敏度与相关方法进行了比较。

上述基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，在步骤(1)中，包括如下：

(1-1)确定高分辨率遥感影像：包括高分辨率光学卫星影像和无人机航摄影像；所述高分辨率光学卫星影像为高分2号1米数据和北京2号0.8米数据，所述无人机航摄影像为0.2米的无人机航摄数据；

(1-2)对高分辨率遥感影像进行增强和去燥处理；

(1-3)基于分形网络演化模型的面向对象多尺度分割。

上述基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，在步骤(1-2)中：

对于高分辨率光学卫星影像：采用6S大气校正模型(Second simulation of thesatellite signal in the solar spectrum)对高分2号1米(GF-2)数据和北京2号0.8米(BJ-2)数据进行预处理，通过模拟机载观测、设置目标高程、解释反射辐射作用BRDF和临近效应，增加了新的吸收气体CO、N₂O、CH₄的计算，模型通过使用逐级散射(successive orderof scattering)方法去除瑞利和气溶胶散射，精度得到显著提升，并且光谱积分的步长从5nm改进到2.5nm，6S大气校正模型所能处理的光谱区间为0.25微米至4微米；

对于原始航摄的无人机影像：利用PixelGrid软件对原始相片的畸变差进行校正，并将影像按照实际的重叠方向做相应的旋转，然后进行无控制点条件下的位置姿态***(position orientation system，POS)辅助空中三角测量，经过空三***平差，最后由原始的单张相片镶嵌生成正射影像(digital orthophoto map，DOM)。

上述基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，在步骤(1-3)中，面向对象多尺度分割，像元合并遵循异质性最小原则，逐步将异质性最小的像元进行合并，受尺度、颜色、形状3个条件的制约；尺度参数表示对象合并的大小，地物对象的异质性函数包括光谱代价函数和形状代价函数2个部分，也就是对应颜色因子和形状因子，颜色因子和形状因子的权重之和为1；形状因子通过光滑度和紧致度进行描述，设置不同权重大小，调整地物边界的光滑和紧致程度；

尺度模型：采用分形网络演化方法FNEA分割算法，应用层次迭代优化的区域合并方法，构建了区域层次结构，并得到房屋影像的多尺度表达；

具体包括如下过程：

(a)高分辨率多光谱影像，计算影像中像素点与其8邻域或4邻域的不相似度；

(b)将边按照不相似度从小到大的排序得到e₁,e₂,e₃…e_N；其中e₁,e₂,e₃…e_N分别为各像素顶点所连城的边；

(c)选择相似度最小的边e₁；

(d)对选择的边e_N进行合并：设其所连接的顶点为(V_i)和(V_j)：如果满足合并条件：V_i,V_j不属于同一个区域Id(V_i)≠Id(V_j)，且不相似度不大于二者内部的不相似度Dif(C_i,C_j)≤MInt(C_i,C_j)；

其中：C为区域内存在差异；

当i和j两个区域存在差异，区域之间的权重最小，可以表示为：

影像中单个的像素点满足条件V∈E，相邻像素点之间的边满足条件(V_i,V_j)∈E；

当i和j两个区域存在差异，区域i和区域j存在最小生成树的最大权重：

Int(C)＝max_e∈MST(C,E)w(e)；

可以通过阈值函数来控制区域之间的差异性：Dif(C₁,C₂)>MInt(C₁,C₂)

其中：MInt(C₁,C₂)＝min(Int(C₁)+τ(C₁),Int(C₂)+τ(C₂))

函数τ控制着区域之间的类间差异性必须大于类内差异性，τ为|C|表示C的大小，k表示常量；

(e)确定阈值和类标记：更新类的标记，将Id(V_i)，Id(V_j)的类标记统一为Id(V_i)，确定类的不相似度阈值为

其中：权重w(i,j)为像素i和像素j之间的差异性或相似度；权重w_ij的计算过程如下：

其中，X(i)表示像素点i的坐标；表示高斯函数的标准方差；r表示两个像素之间的距离，当像素点之间的距离大于r时，权重则为0；F(i)表示像素点i基于亮度，颜色或纹理信息的特征向量，分割图像为灰度图时，F(i)＝I(i)，当影像为多光谱彩色图像时，F(i)＝[v,v·s·sin(h),v·s·cos(h)](i)，h,s,v表示影像由RGB彩色空间转为HSV彩色空间的值。

对于高分辨率多光谱影像，两个像素点i,j之间RGB颜色空间的距离可以衡量像素点之间的相似性：

当影像为全色影像时，像素点i,j之间的距离可以用像素亮度值之间的差异来衡量；

(f)进行区域合并；得到多尺度的地物对象块；

通过尺度集模型可以反算影像多种尺度的分割结果，以便根据地物尺度大小，及时调整尺度参数。

上述基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，

(2-1)从高分辨率遥感图像中收集特征变量；从高分辨率遥感图像中收集113个特征，其中包括高分2号GF-2，北京2号BJ-2卫星图像和无人机图像：

高分2号GF-2，北京2号BJ-2卫星图像的特征：其中，R表示影像的红波段，G表示影像的绿波段，B表示影像的蓝波段，NIR表示影像的近红外波段，MIR表示影像的中红外波段；

光谱特征：波段平均值Mean(R、G、B、NIR)；亮度Brightness；标准差StdDev(R、G、B、NIR)；波段贡献率(Ratio R、G、B)L层的平均值/所有光谱层平均值的总和；最大差值(max.diff)；建筑物指数MBI；建筑物指数BAI：(B-MIR)/(B+MIR)；归一化建筑指数NDBI：(MIR-NIR)/(MIR+NIR)；归一化植被指数NDVI：(NIR-R)/(NIR+R)；差值植被指数DVI：NIR-R；比值植被指数RVI：NIR/R；土壤调整植被指数SAVI：1.5*(NIR-R)/(NIR+R+0.5)；优化的土壤调整植被指数OSAVI：(NIR-R)/(NIR+R+0.16)；土壤亮度指数SBI：(R²+NIR²)^0.5；

几何特征：面积；长；宽；长宽比；边界长度；形状指数；密度Density；主要方向MainDirection；不对称性Asymmetry；紧致度Compactness；矩形度Rectangular Fit；椭圆度Elliptic Fit；形态剖面导数DMP；

文理特征：熵GLCM Entropy；角二阶矩GLCM Angular Second Moment；相关性GLCMCorrelation；同质度GLCM Homogeneity；对比度GLCM Contrast；均值GLCM Mean；标准差GLCM StdDev；非相似性GLCM Dissimilarity；角二阶矩GLDV；熵GLDV；对比度GLDV；均值GLDV；

阴影特征：阴影指数：SI：(R+G+B+NIR)/4；阴影相关Chen1：0.5*(G+NIR)/R-1，分离水体和阴影；阴影相关Chen2：(G-R)/(R+NIR)，分离水体和阴影；阴影相关Chen3：(G+NIR-2R)/(G+NIR+2R)，分离水体和阴影；阴影相关Chen4：(R+B)/(G-2)，分离水体和阴影；阴影相关Chen5：|R+G-2B|备注：分离水体和阴影；

上下文语义特征：分割的对象个数；对象的层数；影像的分辨率；影像层的均值；

地学辅助特征：数字高程模型DEM；坡度信息；房屋建筑物矢量数据；

无人机图像的特征：

光谱特征：波段平均值Mean(R、G、B)；亮度值Brightness；标准差StdDev(R、G、B)；波段贡献率(Ratio R、G、B)备注：L层的平均值/所有光谱层平均值的总和；最大差值(max.diff)；绿度GR＝G/(R+G+B)；红绿植被指数GRVI＝(G-R)/(G+R)；

几何特征：面积；长；宽；长宽比；边界长度；边界指数；像元数；形状指数；密度Density；主要方向Main Direction；不对称性Asymmetry；紧致度Compactness；矩形度Rectangular Fit；椭圆度Elliptic Fit；形态剖面导数DMP；nDSM高度信息；高度标准差：由于建筑物的高度较一致，标准差较小，植被树木等标准差较大；

(2-2)先根据ReliefF(RF)算法筛选出候选特征，然后利用改进的遗传算法以及对支持向量机(SVM)模型中关键参数惩罚系数C和控制高斯径向基核函数RBF内核的宽度参数γ的优化。

上述基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，在步骤(2-2)中包括如下循环过程：

(2-2-1)使用ReliefF对样本原始特征集S进行排序，特征的权重被更新m次以获得均值；

ReliefF(RF)算法包括如下：对于原始特征集S中的样本R,从样本R的同类样本中选择出k个最近邻样本Near Hits和Near Misses，近邻样本Near Hits表示从和R同类的样本中寻找最近邻样本，近邻样本Near Misses表示从和R不同类的样本中寻找最近邻样本。然后对特征权重进行更新，并计算样本集中两两类别之间特征距离权重，公式如下：

其中，ω表示样本类别之间的特征距离权重，i表示样本抽样次数，t表示特征权重的阈值，

diff()表示样本在某个具体特征上的距离，H(x)、M(x)是x的同类与非同类中的最近邻样本，p()表示类的概率，m为迭代次数，k为最近邻样本个数；

(2-2-2)利用改进遗传算法对种群进行初始化：

改进遗传算法包括如下：

将待优化的特征集和支持向量机模型SVM分类器中的核心参数惩罚系数C和控制高斯径向基核函数RBF内核的宽度参数γ一起编码到染色体中，具体方法如下：在染色体设计中，染色体包括三个部分：候选特征子集，惩罚系数C和控制高斯径向基核函数内核的宽度参数γ；

到是候选特征子集(f)的编码，n(f)表示编码的位数，其中n代表数字序列，1代表选择特征，0代表排除特征；

到表示SVM中惩罚系数参数C的编码，到表示SVM中控制高斯径向基核函数RBF内核的宽度参数γ的编码，n(C)和n(γ)表示编码的位数；

(2-2-3)设置种群个体的适应度函数，并计算特征成本C_i表示特征成本f_i＝1,0；

个体的适应度函数主要由三个评估标准确定，即分类准确度，所选特征子集的大小以及特征成本；最终所选的特征子集包括较低的特征成本和较高的分类精度，在遗传算法演化过程中被选择出的单个个体特征表现出良好的适应性，个体的适应度函数如下：

W_a表示测试样本分类精度的权重，accuracy表示分类精度，W_f表示具有特征成本的特征权重，C_i表示特征成本，当f_i＝1时，特征被选择，当f_i＝0,时，特征被忽略；

基于上述循环，最终输出特征优选结果：较少的特征子集，当特征子集为30％以下，总特征成本最低，分类精度较高。

上述基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，在步骤(3)中，包括如下步骤：

(3-1)房屋信息提取和识别：在房屋样本选择时房屋样本要均匀分布且包含房屋的每一种类型，为后续训练分类器打下基础，这也可以提高分类器的提取精度；由于使用SVM多类模型，还需要选取道路、植被、阴影、水体和裸地几种地类；样本选择时，尽量避开存在混合像元的地类，以便降低混合像元对分类精度造成的影响，训练样本的数量尽量保证在测试样本数量的三分之二最为适宜，有利于提高分类器的训练效率和精度；

(3-2)以高分2号卫星影像、北京2号卫星影像和无人机影像分别对城市和农村地区地物进行识别；然后使用混淆矩阵对房屋识别的分类结果进行准确度评估，并且基于识别率，通过精确度、召回率和F1-Score来评估SVM分类器的性能。

从分类角度评估准确度：使用总体精度(OA)，生产者精度(PA)，用户精度(UA)和Kappa系数(Kappa)4个指标评估精度；

其中，∑＝(TP+FP)×(TP+FN)+(FN+TN)×(FP+TN)，TP表示正确提取的像素，FP是错误提取的像素，TN是正确检测到的非建筑物像素，FN是未检测到的房屋建筑物像素；

从识别率的角度评估准确度：精度Pre是由SVM分类器正确分类的房屋建筑物的百分比，召回率Rec是所有实际建筑物中正确分类为建筑物的百分比，F1-Score是精确度和召回率的平均值，用于综合权衡准确率和召回率，计算公式如下所示：

其中，Ntp表示被检测到的房屋同时在地表真实图中被标记的房屋，Nfp表示在地表真实图中被标记的房屋但是没有被检测到，Nfn表示被模型检测到的房屋但是在地表真实图中没有被标记。

本发明的技术方案取得了如下有益的技术效果：

1、本申请具有较高的精度和很好的鲁棒性，Kappa系数达到0.8以上，总体精度(OA)达到80％以上，无人机图像达到91.3％。无论房屋密集分布以及较为复杂的背景，通过本文方法进行优选的特征都具有很好的鲁棒性，对复杂场景较为适用。

2、本发明提出的改进方法实现了较高的信息提取精度和少量的特征个数，该方法更适用于房屋信息提取。

3、本发明使用的改进方法所花费的时间远远少于SVM(所有特征)和没有经过遗传算法优化的RFSVM方法的时间，相对于使用原始特征集提取时间相比，时间节省接近一半。对于房屋提取效率大大提高，从时间效率上说明方法的有效性，特别是对于灾后现场房屋信息快速提取，具有很好的应用价值，对灾后重建和快速救援起到很重要的信息支撑。

附图说明

图1本发明的特征优选框架下的房屋提取总体流程结构示意图；

图2a：2015年玉树城市区域高分2号影像(1米)；

图2b：2017年***城镇部分区域北京2号影像(0.5米)；

图2c：农村区域无人机航摄影像原图(0.2米)及其局部；

图3：分形网络演化模型参数构成；

图4a：不同尺度下的遥感影像分割效果比较(原始图像)；

图4b：不同尺度下的遥感影像分割效果比较(分割尺度为200)；

图4c：不同尺度下的遥感影像分割效果比较(分割尺度为100)；

图4d：不同尺度下的遥感影像分割效果比较(分割尺度为80)；

图4e：不同尺度下的遥感影像分割效果比较(分割尺度为50)；

图4f：不同尺度下的遥感影像分割效果比较(分割尺度为30)；

图5a：高分-2号卫星影像分割结果；

图5b：北京-2号卫星影像分割结果；

图5c：无人机UAV影响分割结果；

图6：支持向量机模型(SVM)的染色体序列设计；

图7：最佳超平面矢量图；

图8：地物特征空间映射关系示意图；

图9a：GF-2卫星影像，房屋训练和测试样本示意图；

图9b：BJ-2卫星影像，房屋训练和测试样本示意图；

图9c：无人机UAV影像房屋训练和测试样本示意图；

图10a：GF-2图像的房屋提取结果；

图10b：BJ-2图像的房屋提取结果；

图10c：无人机UAV图像的房屋提取结果；

图11a：基于高分辨率影像(BJ-2影像)提取的不同地物特征概率密度分布：左图为最大差值特征，中图为红色波段平均值特征，右图为形状指数特征；

图11b：基于高分辨率影像(UAV影像)提取的不同地物特征概率密度分布：左图为绿色波段贡献率特征，中图为绿度指数特征，右图为亮度值特征；

图11c：基于高分辨率影像(GF-2影像)提取的不同地物特征概率密度分布：左图为黑色波段平均值特征，中图为土壤亮度指数特征，右图为均值特征；

图12：不同迭代次数下相关方法的效率比较图。

具体实施方式

如图1所示，表示本发明的特征优选框架下的房屋提取总体流程，主要分为3个大的方面：

第一，是通过多尺度分割，构建高分辨率遥感影像的对象，影像对象是特征和知识表达的载体，准确构建影像对象是后续目标识别的基础；

第二，特征选择，通过将ReliefF算法、遗传算法以及支持向量机模型相结合，对特征进行优化和优选，形成房屋最优特征子集；

第三，利用支持向量机模型，对上述优选的特征子集进行房屋信息提取和识别，并将其灵敏度与相关方法进行了比较。

基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别方法，包括如下步骤。

(1-1).确定高分辨率遥感影像，实验数据：

采用的数据集3个，包括高分辨率光学卫星影像(高分2号1米数据、北京2号0.8米数据)和0.2米的无人机航摄影像。

(1-2)、对高分辨率遥感影像进行增强和去燥处理；

通常对于光学遥感图像，分别采用辐射定标，Gram-Schmidt Pan Sharpening算法融合以及大气校正等预处理，获得高空间分辨率的多光谱影像。

本申请采用6S大气校正模型(Second simulation of the satellite signal inthe solar spectrum)对高分2号和北京2号数据进行预处理，通过模拟机载观测、设置目标高程、解释反射辐射BRDF作用和临近效应，增加了新的吸收气体的计算(CO、N₂O、CH₄)，该模型通过使用逐级散射(successive order of scattering)方法去除瑞利和气溶胶散射，精度得到显著提升，并且光谱积分的步长从5nm改进到2.5nm，6S校正模型所能处理的光谱区间为0.25微米至4微米。

对于原始航摄的无人机影像，利用PixelGrid软件对原始相片的畸变差进行校正，并将影像按照实际的重叠方向做相应的旋转，然后进行无控制点条件下的位置姿态***(position orientation system，POS)辅助空中三角测量，经过空三***平差，最后由原始的单张相片镶嵌生成正射影像(digital orthophoto map，DOM)。文中采用的研究区数据如图2所示，图2a中为青海玉树2015年1米分辨率高分2号城市区域影像，图2b中为2017年***城镇部分区域0.5米分辨率北京2号影像，图2c中为农村区域0.2米分辨率无人机航拍影像原图及局部。

(1-3)基于分形网络演化模型的面向对象多尺度分割：

Baatz M和Schape A针对高分辨率遥感影像提出多尺度分割概念，又称为分形网络演化方法(FNEA，Fractal Net Evolution Approach)(Nussbaum,2008；Hofmann,2006；Vu,2004)，是从底部到顶部的区域增长算法。基于最小异质性原理，将具有相似光谱信息的相邻像素合并为均匀图像对象，分割后属于同一对象的所有像素表示相同的特征，不同尺度的地物使用不同的尺度，多尺度分割的尺度具有差异性。该算法是从最底层的像元层开始，以初始的像素点为中心种子点进行生长，邻域的像素与中心种子点进行比较，如果性质相似则进行合并，自下而上，设定不同的尺度参数，以一级的对象块为基础，进行区域合并，如此循环往复，形成网络层次结构，直到合并终止。本发明中像元合并遵循异质性最小原则，逐步将异质性最小的像元进行合并，主要受尺度、颜色、形状3个条件的制约(图3)，尺度参数表示对象合并的大小，地物对象的异质性函数包括光谱代价函数和形状代价函数2个部分，也就是对应颜色和形状因子，权重之和为1。形状因子通过光滑度和紧致度进行描述，设置不同权重大小，调整地物边界的光滑和紧致程度。

FNEA分割算法的尺度参数是区域合并成本，是合并对象时“异质性变化”的阈值，在一定程度上实现了图像的多尺度表达。但其仅能记录在分割之前预先设定的尺度参数的尺度表达结果，这种方式往往只能获得有限个数的多尺度表达形式。针对层次关系不明晰，尺度转换等问题，Felzenszwalb在2004年提出了一种有效的基于图形的图像分割模型(EGSM)(Felzenszwalb,2004)。本文在此基础上采用尺度寻优方法，由Hu(Hu,2016)基于EGSM提出，是一种新的双层尺度集模型(BSM)。结合FNEA算法，应用层次迭代优化的区域合并方法，构建了区域层次结构，并得到房屋影像的多尺度表达，即尺度集模型。

该模型核心是由基于图的多尺度分割算法演进得来，具体原理见第二章方法理论部分。该模型记录区域合并过程中的区域层次结构关系，并进行对象尺度索引，在区域合并过程中进行全局演化分析，依据最小风险贝叶斯决策框架进行非监督尺度集约简，逐步得到最佳分割尺度，这里所说的最佳尺度是相对的，不是绝对的。通过尺度集模型可以反算影像多种尺度的分割结果(图4a-图4f)，以便根据地物尺度大小，及时调整尺度参数。影像的多尺度分割寻优结果如图5a-图5c所示，从图中可以看出，多传感器平台数据下的房屋从复杂场景中被较好分割出来，边界轮廓清晰，为后续信息提取和识别打下基础。

基于图的多尺度分割的算法为：

(b)将边按照不相似度从小到大的排序得到e₁，e₂，e₃...e_N；其中e₁，e₂，e₃...e_N分别为各像素顶点所连城的边；

(c)选择相似度最小的边e₁；

(d)对选择的边e_N进行合并：设其所连接的顶点为(V_i)和(V_j)：如果满足合并条件：V_i，V_j不属于同一个区域Id(V_i)≠Id(V_j)，且不相似度不大于二者内部的不相似度Dif(C_i，C_j)≤MInt(C_i，C_j)；

其中：C为区域内存在差异；

影像中单个的像素点满足条件V∈E，相邻像素点之间的边满足条件(V_i，V_j)∈E；

Int(C)＝max_{e∈MST(C，E)}w(e)；

可以通过阈值函数来控制区域之间的差异性：Dif(C₁，C₂)＞MInt(C₁，C₂)

其中：MInt(C₁，C₂)＝min(Int(C₁)+τ(C₁)，Int(C₂)+τ(C₂))

其中：权重w(i，j)为像素i和像素j之间的差异性或相似度；权重W_ij的计算过程如下：

其中，X(i)表示像素点i的坐标；表示高斯函数的标准方差；r表示两个像素之间的距离，当像素点之间的距离大于r时，权重则为0；F(i)表示像素点i基于亮度，颜色或纹理信息的特征向量，分割图像为灰度图时，F(i)＝I(i)，当影像为多光谱彩色图像时，F(i)＝[v，v·s·sin(h)，v·s·cos(h)](i)，h，s，v表示影像由RGB彩色空间转为HSV彩色空间的值。

对于高分辨率多光谱影像，两个像素点i，j之间RGB颜色空间的距离可以衡量像素点之间的相似性：

当影像为全色影像时，像素点i，j之间的距离可以用像素亮度值之间的差异来衡量；

(f)进行区域合并；得到多尺度的地物对象块；

第二，特征体系的构建以及特征集优化：特征选择，通过将ReliefF算法、遗传算法以及支持向量机模型相结合，对特征进行优化和优选，形成房屋最优特征子集；

(2-1)从高分辨率遥感图像中收集特征变量；从高分辨率遥感图像中收集113个特征，其中包括高分2号GF-2，北京2号BJ-2卫星图像和无人机图像：其中，R表示影像的红波段，G表示影像的绿波段，B表示影像的蓝波段，NIR表示影像的近红外波段，MIR表示影像的中红外波段；

从卫星和无人机影像中，提取特征变量，构建面向房屋对象的特征体系。特征主要包括图像对象的光谱，几何，纹理，阴影，上下文和地学辅助特征。为了测试特征优化和选择的性能，从高分辨率遥感图像中收集了113个特征，其中包括GF-2，BJ-2卫星图像和无人机图像的67个特征，如表1所示。由于无人机影像仅包含R，G和B 3个可见光波段，如表2所示，因此，光谱和阴影特征与卫星影像的光谱和阴影特征明显不同。

表1高分辨率遥感影像提取的房屋特征值

可见光低空亚米级无人机影像由于受到波段的限制，只有RGB 3个波段，根据无人机航拍影像的特点，选择与房屋特征相关的67个特征值，包括光谱特征，纹理特征和几何特征，详细的特征名称和含义见表2。

表2亚米级无人机影像提取的房屋特征值

(2-2)先根据ReliefF(RF)算法筛选出候选特征，然后利用改进的遗传算法以及对支持向量机(SVM)模型中关键参数惩罚系数C和控制RBF内核的宽度参数γ的优化。特征集优化过程的伪代码如下表3。

表3特征集优化过程

具体优化过程如下所示：

ReliefF算法是根据Relief算法扩展(Huang,2009)改进而来，Relief算法是由Kira和Rendell于1992年提出，是用来解决二分类的问题。是根据特之间的相关性大小赋予不同的权重，然后依次将权重大小的类别进行排序，然后通过阈值设定，将权重排序靠后的特征剔除，靠前的特征保留下来，形成初始特征集，该算法通过全局搜索类别邻域内的相邻样本，一个是同类样本集中的最近邻，一个是不同类样本集中的最近邻，然后依次计算特征到邻域样本的相关性，来表征类别的区分度。

假设从某一影像中均匀随机选取训练集D，将训练集D的样本中按照权重进行排序，确定某一类样本R与周围邻域的样本M之间的权重关系。近邻样本(Near Hits)表示从和R同类的样本中寻找最近邻样本，近邻样本(Near Misses)表示从和R不同类的样本中寻找最近邻样本。当R到Near Hits的特征距离小于到Near Misses的特征距离时，说明在该特征空间内，样本与邻域样本的区分度较大，这表明该特征的重要性较大，应该适当增加特征权重。反之，特征对类别的区分度较小，权重较小。依次类推，对类别样本的权重设置进行反复迭代，直到求得所有特征的权重为止。然后对所有特征的权重进行排序，权重大的，表明对样本的区分度较大，反之，特征的区分能力较弱。Relief算法(Spolaor,2013)的运行效率较高，与样本的抽样次数和特征个数有关。由于Relief算法无法解决多分类以及回归问题，后来Konoenko等针对多分类问题，对原始算法加以改进，提出ReliefF算法。

ReliefF与Relief算法的不同之处在于样本的选择，ReliefF是从每个不同类别中选择出最近邻样本，而不是从所有不同类样本中进行选择。

其中，

(2-2-2)利用改进遗传算法对种群进行初始化：

遗传算法(Genecit Algorihtnis,GA)是由Hollnad(1975)提出，主要借鉴生物界自然选择和遗传变异机制思想，对目标进行搜索寻优的算法。通过计算机进行模拟，进行选择、交叉、变异等操作，进而产生新的群体，使群体进化到最优化过程。在原始的遗传算法中，主要是针对原始特征数据集进行编码和优化，以训练样本目标识别精度构建适应度函数，作为初始种群，并通过选择、交叉、变异等操作(Devroye,1996)，对特征集中的个体进行优化，最后利用优化后的特征数据对房屋信息进行提取。

在遗传编码阶段和适应度函数的设置上面加以改进，形成改进遗传算法(Improved Genetic Algorithm,IGA)。首先通过二进制编码，为后续交叉、变异等操作形成统一的数据格式，在特征选择中，首先将待优化的特征集和SVM分类器中的核心参数C，γ一起编码到染色体中，这降低了遗传算法的计算复杂度，提高了优化算法的效率。同时设计合理的适应度函数，适应度函数对于遗传算法的优化具有重要的作用，优化后的多个目标与适应度函数成为一一对应的关系(刘英，2006)。以房屋提取的精度构建适应度函数，然后产生初始种群，并通过选择、交叉变异操作对种群中的个体进行优化，最后产生最优的特征子集和最优C，γ。其中，在遗传算法中的适应度函数设置时，考虑到分类精度，特征个数和特征成本3个因素，这便是典型的多目标优化问题(Ye,2018)。多目标优化是在特定的约束条件下，使多个目标同时达到最理想状态的优化问题。和单目标优化问题不同的是，在多目标优化问题中，约束要求是各自独立的，所以无法直接比较任意两个解求是各自独立的，所以无法直接比较任意两个解的优劣。

改进遗传算法包括如下：

将待优化的特征集和支持向量机模型SVM分类器中的核心参数C，γ一起编码到染色体中，具体方法如下：在染色体设计中，染色体包括三个部分：候选特征子集，惩罚系数C和控制RBF内核的宽度参数γ；

到表示SVM中惩罚系数参数C的编码，到表示SVM中控制RBF内核的宽度参数γ的编码，n(C)和n(γ)表示编码的位数；

W_a表示测试样本分类精度的权重，accuracy表示分类精度，W_f表示具有特征成本的特征权重，C_i表示特征成本，当f_i＝1时，特征被选择，当f_i＝0，时，特征被忽略；

支持向量机模型是一种基于最大间隔的小样本分类算法；

在一定的假设前提下，SVM模型得以实现；在d维特征空间中，存在N个元素的特征向量，且满足X_i∈R^d(i＝1，2，3，...N)，每个向量X_i的类别数满足Y_i∈R，当这些向量为两类线性可分时，可以将两类问题转化为分类超平面：

f(X)＝W·X+b

其中，X为向量，X_i为像素i的向量，Y_i为像素i的类别数，W＝(w₁，w₂，...w_N)向量垂直于超平面，W∈R^d为权向量，b∈R^d为偏移量向量；当函数f(X)应用于二分类时，两侧待分类元素要满足以下条件：

W·X_i+b≥1 Y_i＝1，i＝1，2，3，...N

W·X_i+b≤-1 Y_i＝-1

对上式进行合并，可得：

Y_i·(W·X_i+b)≥1 i＝1，2，3，...N

由于SVM模型的分类原则是使得两侧元素距离超平面的距离最大化，即寻找最优的超平面；待分类元素距离超平面的间隔为||W||，两侧元素距离超平面的间隔为2/||W||，间隔越大，模型的泛化能力越好；通过运用拉格朗日乘子法，二次规划问题的对偶可以转换为：

其中，a_i≥0为拉格朗日乘子，L(W，b，a)表示为拉格朗日函数。

如图7所，H表示分割线，H1和H2表示来自H的两个最接近样本的直线，它们之间的距离是分类间隔；寻找最优超平面，使类别之间的间隔最大化，是提高信息提取精度的关键；

由于高分辨率遥感数据的非线性本质，遥感数据的分类绝大多数都属于非线性分类问题；为了解决线性不可分问题的分类，通常引入松弛变量δ_i和惩罚系数C来优化计算过程，将目标函数转为最小惩罚函数，达到距离超平面间隔最大化的目的；遥感应用中常用的高斯径向基核函数(Radial Basis Function，RBF)具有很好的泛化能力，核函数的目的是将低维特征空间映射到高维特征空间，来解决数据可分性问题，如图8所示，进而将非线性问题转化为线性可分问题；使用高斯径向基核函数RBF将非线性可分离类从低维度映射到高维度特征空间：

这一映射可以表示为直接计算计算量很大，并且很容易造成特征的冗余，SVM模型中的核函数为半正定Gram矩阵，简化了计算过程，可以得到：对于非线性问题，对偶优化问题表示为：

最终的分类判别函数可以表达为：

较少的RBF核函数参数对于模型计算更方便有效，RBF内核需要两个参数C和γ，C是惩罚系数，γ控制RBF内核的宽度；获得C和γ的最佳组合，目前是通过网格搜索和交叉验证：网格搜索是在特定间隔的预定义范围内选择C和γ的各种组合的过程，交叉验证用于根据C和γ的不同组合测试分类的准确性；

(3-1)房屋信息提取和识别：

针对不同传感器影像的成像特点，并根据高分辨率遥感影像人眼可以识别的原则，确定房屋遥感分类体系，将房屋分为高层建筑、多层建筑、厂房、一般民房等4种类型，分别在GF-2影像，BJ-2影像和UAV影像对象分割的基础上，选择各种典型的房屋样本。在样本选择时尽可能均匀分布且包含了房屋的每一种类型，为后续训练分类器打下基础，这也可以提高分类器的提取精度。由于使用SVM多类模型，还需要选取道路、植被、阴影、水体和裸地几种地类，样本选择时，尽量避开存在混合像元的地类，以便降低混合像元对分类精度造成的影响。房屋训练样本和测试样本的选取样例如图9a-图9c所示，选取的地类和数量如表4所示，训练样本的数量尽量保证在测试样本数量的三分之二最为适宜，有利于提高分类器的训练效率和精度。

表4不同传感器影像的样本统计结果

(3-2)房屋识别与精度评价

以GF-2卫星影像，BJ-2卫星影像和无人机影像对本申请的方法进行验证，并分别对城市和农村地区地物进行描述。在研究区范围内，选择了三个典型的图像进行试验，而且影像中深色屋顶的光谱特征与道路比较接近，对典型影像信息的提取可以验证本申请的提取效果。研究表明，本申请所用的特征优化算法可以在背景较为复杂的情况下获得较高的精度。

对不同分辨率影像进行15次实验获得平均值(图10a：GF-2；图10b：BJ-2；图10c：UAV)，平均值表示最高的识别精度。图10a显示了GF-2图像的房屋提取结果，图中建筑物与其他土地类型不同，特别是城市地区的高层建筑和多层建筑。因为所有建筑物和道路都具有相似的光谱特征，导致图10b是三种场景中最难检测到的，当建筑物没有阴影时，很难将建筑物与背景区分开来。通过无人机遥感影像获得的农村房屋的提取结果与目视解译结果进行了比较，实验结果如图10c所示，左图是原始遥感影像，右侧的黑色区域表示本申请提取结果，红色多边形表示目视解译结果外部轮廓线。

精度评价：

使用混淆矩阵对分类结果进行准确度评估，并且基于识别率，通过精确度、召回率和F1-Score来评估SVM分类器的性能。

从这两个角度评估了所提方法的准确性。

从分类的角度来看，使用总体精度(OA)，生产者精度(PA)，用户精度(UA)和Kappa系数(Kappa)4个指标评估精度。Kappa系数是最重要的系数，因为它标志着算法的稳健性。如果系数超过0.6，则认为算法具有良好的性能。总体精度是一项总体评估，表明该技术的一般性能。

其中，∑＝(TP+FP)×(TP+FN)+(FN+TN)×(FP+TN)，TP表示正确提取的像素，FP是错误提取的像素，TN是正确检测到的非建筑物像素，FN是未检测到的房屋建筑物像素。

从识别率的角度来看，精度是由SVM分类器正确分类的房屋建筑物的百分比，召回率是所有实际建筑物中正确分类为建筑物的百分比，F1-Score是精确度和召回率的平均值，用于综合权衡准确率和召回率，计算公式如下所示：

房屋提取结果的精度统计见下表5，本申请方法具有较高的精度和很好的鲁棒性，Kappa系数达到0.8以上，总体精度(OA)达到80％以上。无论房屋密集分布以及较为复杂的背景，通过本申请方法进行优选的特征都具有很好的鲁棒性，对复杂场景较为适用。由于无人机影像只有R，G和B波段3个可见光波段，因此，用于提取分类特征的优化时间较长，相对于卫星影像而言，用于信息识别的特征数量也更多。

表5高分辨率影像房屋提取结果精度评价

高分辨率影像	GF-2影像	BJ-2影像	UAV影像
				总体精度(OA)	88.52	89.75	91.3
Kappa系数	0.8	0.83	0.85
				生产者精度(PA)	91	93.12	96.21
用户精度(UA)	89.65	89	90.38
				使用特征个数(个)	8	6	10
优化时间(秒)	7.85	13.79	18

(3-3)优选特征验证与相关方法的精度比较

由于核密度估计方法不利用有关数据分布的先验知识，对数据分布不附加任何假定，是一种从数据样本本身出发研究数据分布特征的方法，因而，在统计学理论和应用领域均受到高度的重视。核密度估计Kernel Density Estimation(KDE)是在概率论中用来估计未知的密度函数，属于非参数检验方法之一，利用核密度概率曲线图对优选的特征样本进行验证。下图11a-图11c表示来自三种典型研究场景的不同对象特征的概率密度分布，可以根据这些特征很好地区分地物类型，并且可以将房屋用地与其他相邻地物类型区分开，从而便于房屋信息的提取。

本申请方法与SVM(所有特征)方法与RFSVM(简化特征)方法进行对比研究：

3种不同方法的房屋提取结果如表6所示，本文方法的总体提取精度均超过80％，无人机图像达到91.3％。这表明本文方法比其他两种方法选择的特征更具代表性，对房屋信息提取的精度提高起到很大作用。

表6 BFD-IGA-SVM与相关方法的结果精度比较

对于没有经过特征筛选和优化的SVM提取方法，总体精度(OA)也达到了80％，然而，特征的冗余带来了巨大的计算成本。RFSVM的准确度低于其他两种方法。

本发明提出的改进方法实现了较高的信息提取精度和少量的特征个数，该方法更适用于房屋信息提取。表7显示我们的特征降维和优化策略提取方法明显优于其他2种提取方法。每幅图像的精度均超过85％，精度和召回率(Yang 2015；Yang 2017)明显高于其他两种方法。

表7基于卫星和无人机影像的不同方法精确率、召回率和平衡F1分数结果比较

特征冗余会增加搜索空间的大小并影响算法的运行速度。以BJ-2影像的不同方法迭代时间，将本申请的改进方法与SVM(所有特征)，以及没有经过遗传算法优化的RFSVM方法进行比较，以测量计算效率(Xu 2015)。如图12所示，利用所有原始特征子集的SVM方法，由于众多的特征冗余耗费更多的时间，计算运行效率很低。这主要是因为全局优化需要花费大量时间来增加迭代次数，才能达到收敛。使用的改进方法所花费的时间远远少于其他两种方法的时间，相对于使用原始特征集提取时间相比，时间节省接近一半。结果表明，本方法处理对于房屋提取效率大大提高，从时间效率上说明方法的有效性，特别是对于灾后现场房屋信息快速提取，具有很好的应用价值，对灾后重建和快速救援起到很重要的信息支撑。

总结：我们提出了一种新的特征降维和优化策略，优选特征子集，并且使用面向对象的图像分析方法提取房屋建筑物。特征选择方法基于ReliefF特征权重排序方法，改进遗传算法(GA)和支持向量机(SVM)方法的部分关键技术参数，使得从房屋特征体系中选择特征子集的效率和精度更高。本章节通过三种多传感器高分辨率遥感影像(GF-2，BJ-2和UAV图像)，收集不同特点房屋建筑物样本，对遥感影像进行多尺度分割，构建多层次房屋对象，然后通过特征优选来提取建筑物以评估所提出方法的性能和效率。该方法主要包括四个核心步骤：首先，使用改进的多分辨率多尺度分割算法对影像进行分割形成对象，形成完整的房屋轮廓；然后通过基于对象的图像分析来计算特征，并且从对象的固有特征中导出稳定特征，以便达到在高分辨率影像上实现房屋信息提取的可能性，基于ReliefF方法对原始特征集进行权重排序以减少冗余。通过从初步筛选的特征子集中选择最优特征集，基于遗传算法(GA)同时优化初选特征子集和SVM关键参数，使结果到达最优，同时，也节约了特征子集的迭代时间，从时间效率上进行了优化。最后，利用分类器提取房屋信息，从实验结果证明该方法在效率和分类精度方面的有效性，鲁棒性较好。本文所提出的特征选择方法有效减少了面向对象影像分析的特征冗余，适合于高分辨率遥感影像信息提取。另外，也可以应用于特征选择，具有很高的压缩率。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本专利申请权利要求的保护范围之中。

Claims

1.基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，其特征在于，在步骤(1)中，包括如下：

(1-2)对高分辨率遥感影像进行增强和去燥处理；

(1-3)基于分形网络演化模型的面向对象多尺度分割。

3.根据权利要求2所述的基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，其特征在于，在步骤(1-2)中：

对于高分辨率光学卫星影像：采用6S大气校正模型Second simulation of thesatellite signal in the solar spectrum对高分2号1米GF-2数据和北京2号0.8米BJ-2数据进行预处理，通过模拟机载观测、设置目标高程、解释反射辐射作用BRDF和临近效应，增加了新的吸收气体CO、N₂O、CH₄的计算，模型通过使用逐级散射successive order ofscattering方法去除瑞利和气溶胶散射，精度得到显著提升，并且光谱积分的步长从5nm改进到2.5nm，6S大气校正模型所能处理的光谱区间为0.25微米至4微米；

对于原始航摄的无人机影像：利用PixelGrid软件对原始相片的畸变差进行校正，并将影像按照实际的重叠方向做相应的旋转，然后进行无控制点条件下的位置姿态***position orientation system，POS辅助空中三角测量，经过空三***平差，最后由原始的单张相片镶嵌生成正射影像digital orthophoto map，DOM。

4.根据权利要求2所述的基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，其特征在于，在步骤(1-3)中，面向对象多尺度分割，像元合并遵循异质性最小原则，逐步将异质性最小的像元进行合并，受尺度、颜色、形状3个条件的制约；尺度参数表示对象合并的大小，地物对象的异质性函数包括光谱代价函数和形状代价函数2个部分，也就是对应颜色因子和形状因子，颜色因子和形状因子的权重之和为1；形状因子通过光滑度和紧致度进行描述，设置不同权重大小，调整地物边界的光滑和紧致程度；

具体包括如下过程：

(c)选择相似度最小的边e₁；

其中：C为区域内存在差异；

Int(C)＝max_e∈MST(C,E)w(e)；

其中：MInt(C₁,C₂)＝min(Int(C₁)+τ(C₁),Int(C₂)+τ(C₂))

其中，X(i)表示像素点i的坐标；表示高斯函数的标准方差；r表示两个像素之间的距离，当像素点之间的距离大于r时，权重则为0；F(i)表示像素点i基于亮度，颜色或纹理信息的特征向量，分割图像为灰度图时，F(i)＝I(i)，当影像为多光谱彩色图像时，F(i)＝[v,v·s·sin(h),v·s·cos(h)](i)，h,s,v表示影像由RGB彩色空间转为HSV彩色空间的值；

(f)进行区域合并；得到多尺度的地物对象块；

5.根据权利要求2所述的基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，其特征在于，

无人机图像的特征：

光谱特征：波段平均值Mean(R、G、B)；亮度值Brightness；标准差StdDev(R、G、B)；波段贡献率(Ratio R、G、B)备注：L层的平均值/所有光谱层平均值的总和；最大差值max.diff；绿度GR＝G/(R+G+B)；红绿植被指数GRVI＝(G-R)/(G+R)；

几何特征：面积；长；宽；长宽比；边界长度；边界指数；像元数；形状指数；密度Density；主要方向Main Direction；不对称性Asymmetry；紧致度Compactness；矩形度RectangularFit；椭圆度Elliptic Fit；形态剖面导数DMP；nDSM高度信息；高度标准差：由于建筑物的高度较一致，标准差较小，植被树木等标准差较大；

6.根据权利要求5所述的基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，其特征在于，在步骤(2-2)中包括如下循环过程：

(2-2-1)使用ReliefF对样本原始特征集S进行排序，特征的权重t被更新m次以获得均值；

ReliefF(RF)算法包括如下：对于原始特征集S中的样本R,从样本R的同类样本中选择出k个最近邻样本Near Hits和Near Misses，近邻样本Near Hits表示从和R同类的样本中寻找最近邻样本，近邻样本Near Misses表示从和R不同类的样本中寻找最近邻样本；然后对特征权重进行更新，并计算样本集中两两类别之间特征距离权重，公式如下：

(2-2-2)利用改进遗传算法对种群进行初始化：

改进遗传算法包括如下：

7.根据权利要求6所述的基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，其特征在于，在步骤(3)中，包括如下步骤：

8.根据权利要求7所述的基于BFD-IGA-SVM模型的高分辨率影像房屋信息快速监督识别，其特征在于，