CN106991382A

CN106991382A - 一种遥感场景分类方法

Info

Publication number: CN106991382A
Application number: CN201710147637.7A
Authority: CN
Inventors: 刘青山; 杭仁龙; 葛玲玲; 宋慧慧; 孙玉宝
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2017-03-13
Filing date: 2017-03-13
Publication date: 2017-07-28

Abstract

本发明公开了一种遥感场景分类方法，包括以下步骤：生成多尺度图像；提取多尺度深度特征；融合卷积特征；集结多尺度分类结果。本发明提出了一种自适应深度金字塔匹配(ADPM)模型，将多尺度图像送入到带有空间金字塔池化的卷积神经网络来提取深度特征，将所有卷积层中提取的深度特征融合后送入到SVM分类器得到分类结果，集结多尺度结果提供更多信息，以便于遥感场景分类。和空间关系金字塔(PSR)、局部探测器(Partlets)方法、半监督投影(SSEP)方法相比，在相同的实验条件下，本发明方法的遥感场景分类性能提高，分类结果更加准确。

Description

一种遥感场景分类方法

技术领域

本发明属于图像信息处理技术领域，涉及一种遥感场景分类方法。

背景技术

随着遥感技术的发展，从卫星和飞机上获取大量的高分辨率地球观测图像。与其他图像不同的是，遥感场景表现出一些特殊的特征。例如，在一个场景中有各种不同大小、颜色和方向。在土地资源管理和城市规划等各种应用中，遥感场景分类是一项基础性工作，更是一个重要的研究课题。自动准确地解释如此庞大的图像库的已成为一个迫切的需求。

在过去的几年中，大量的特征表示模型已经提出了运用于场景分类。最常用的模型之一是视觉词袋，一般包括以下三个步骤：1)提取图像的底层视觉特征，如尺度不变特征变换(SIFT)和方向梯度直方图(HOG)的描述；2)通过使用k-均值或其他方法聚类特征形成视觉词汇；3)视觉特征映射到最接近的单词，通过单词直方图产生一个中级的特征表示。该模型及其变种在遥感领域已被广泛研究。

尽管视觉词袋在遥感场景分类是有一定的有效性，但是它提供了一个无序的局部描述符集合且没有考虑空间信息。为了克服这一缺点，空间金字塔匹配模型应运而生。该模型首先将原始图像分割成不同级别的分辨率。其次，对于每个级别的分辨率，从每个空间中提取局部特征的直方图。最后，空间直方图由加权金字塔匹配内核表示。由于遥感影像通常不存在绝对参照系，所以图像要素的相对空间排列变得十分重要。因此，提出了用空间金字塔共生模型表征图像的光度和几何信息。不同于将图像分割成统一的细胞，空间金字塔共生模型是用随机空间分割来描述各种图像布局的。

所有上述方法都是基于手工提取特征的，这很大程度上依赖于专家的经验和领域知识。此外，这些特征很难在鉴别力和鲁棒性之间取得最佳平衡。这主要是由于没有考虑真实数据的细节。深度学习算法，尤其是卷积神经网络，在解决这个问题上已经显示出巨大的潜力，因为可以从原始图像层次化的方式中自动学习高层次的语义特征，这在遥感社区已引起越来越多的关注。

然而，很难直接在遥感场景图像分类上运用卷积神经网络，因为往往要训练数以百万计的参数，而可用的训练集数量却很少。许多相关研究表明，从卷积神经网络中提取的特征是可以作为通用描述符。因此，从大规模的标注数据如ImageNet，运用神经网络学习出的图像表示，可以有效地被转移到一个带有限数量训练数据的广泛视觉识别任务中。出于这种想法，相关研究验证了使用ImageNet预训练的卷积神经网络进行遥感场景分类的可行性。采用预训练的卷积神经网络并微调遥感场景数据，分类性能令人印象深刻。目前，已有对于从卷积神经网络全连接层提取特征的泛化能力在遥感场景分类上的评估，并显示在公共遥感场景数据集上的最新结果。

虽然迁移学习能够缓解过度拟合的问题，但在基于卷积神经网络的遥感场景分类上还存在一些问题。第一，大部分的卷积神经网络只利用最后的全连接层作为后续的分类特征。直接丢弃前面卷积层的特征这是不合理的，因为这些可能是对分类目标有益的。事实上，从卷积层提取的特征比那些从连接层提取的特征更通用，因此这些特征可能更适合于迁移学习。此外，和激活全连接层相比，从卷积层提取的特征包含更多的空间信息，有利于图像分类。最近已有人认识到卷积层的特征的重要性，但他们只使用最后一个卷积层，忽略其他卷积层。

还有一个值得注意的问题，感兴趣的对象通常在不同的遥感场景有不同的尺度，甚至一个场景可能包含不同大小的对象。然而，最流行的卷积神经网络需要一个固定大小的输入图像(例如，227×227像素)。常见的解决方案是将原始遥感图像变形或固定成预先定义的大小，这不可避免地会导致有效的判别信息的丢失。

受空间金字塔模型启发，我们考虑所有卷积层的特征作为输入图像的多分辨率表示。然后，金字塔匹配内核被用来集成一个统一的表示。不同于空间金字塔模型，我们用低级别的描述符作为深度特征，从数据本身去学习出不同的卷积层之间最优融合权重，而不是预先定义。减少了固定的输入图像尺寸造成的信息损失，而且多尺度图像送入卷积神经网络可以从不同尺度学习出更多补充信息。考虑到学习多尺度深度特征的计算成本，我们选择带有空间金字塔池化的卷积神经网络作为我们的基本的深度网络。在全连接网络之前增加一个空间金字塔池化层，允许输入图像是任意大小的。因此，一个训练好的空间金字塔池化网络可以从多尺度输入图像中提取多尺度特征，从而有利于遥感场景的分类。

发明内容

本发明所要解决的技术问题在于克服现有技术不足，提供一种遥感场景分类方法，充分利用了多尺度深度特征提取和自适应深度金字塔匹配模型的优点，能够更好地对遥感场景进行分类，具有较好的分类性能和分类准确率。

本发明的遥感图像分类方法，包括以下步骤：

步骤1)、将一张待分类的遥感图像通过变形的方法生成不同尺度N×N的图像，其中N根据图片大小可取多个值；

步骤2)、将多尺度图像送入到带有空间金字塔池化的卷积神经网络进行训练，以此来提取多尺度深度特征；

步骤3)、对每个尺度的输入图像，运用自适应深度金字塔匹配模型去融合从所有卷积层中提取的特征表示；

步骤4)、将每个尺度图像学习出的特征表示送入分类器得到最终分类结果，然后利用多数投票策略集成所有尺度的多个结果，即为该遥感图像场景的正确分类。

为了避免有效判别信息的丢失，本发明进一步采用以下改进方案：将步骤1)中待分类的遥感场景图像通过变形的方法生成不同尺度，如128×128，192×192，227×227，256×256，384×384。

有益效果

⑴在同样的实验条件下，本发明方法的分类准确率比空间关系金字塔(PSR)、局部探测器(Partlets)方法、半监督投影(SSEP)方法的准确率高；

⑵运用多数投票策略集成所有尺度的多个结果，能够提供更多可鉴别信息，提高分类精确度。

附图说明

图1为本发明遥感场景分类方法的基本流程图；

图2为本发明遥感图像分类方法中多尺度深度特征提取过程的体系结构；

图3为本发明方法自适应深度金字塔匹配流程图；

图4为本发明方法与空间关系金字塔(PSR)、局部探测器(Partlets)方法的每一类准确率的直方图。

图5为本发明方法与半监督投影(SSEP)方法的每一类准确率的直方图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

本发明的思路是充分利用多尺度深度特征提取和自适应深度金字塔匹配模型的优点，充分挖掘卷积神经网络所有卷积层特征信息，采用多数投票策略集成所有尺度的多个结果，从而能够更好地对遥感场景进行分类，具有较好的分类性能，提高了分类准确率。

本发明方法的基本流程如图1所示，具体包括以下步骤：

步骤1)、生成多尺度图像：对待分类的遥感场景图像，通过变形的方式将该图像划分为多个不同尺度N×N的图像，得到一组该图像的多尺度图像集合。

N的取值可根据传感器空间分辨率以及遥感图像中目标物体的大小等因素来决定。具体实施时，为了避免判别信息丢失，除了保留原始图像，还需要将该图像变形为多个多尺度图像块，实现一组多尺度图像块集合构造。以原始图像为256×256为例，相应地，N可取128，192，227，256。

步骤2)、提取多尺度深度特征：将多尺度图像送入到带有空间金字塔池化的卷积神经网络进行训练，以此来提取多尺度深度特征。

提取多尺度深度特征的体系结构，如图2所示，包含五个卷积层，一个空间金字塔池化层，两个全连接层和一个softmax层。类似于空间金字塔匹配，我们将分区的特征映射到越来越细的子区域，通过最大池化来池化每个子区域内的特征。假设最后一个卷积层后的每个特征映射的大小为a×a，并且每个特征映射被划分成大小为n×n的子区域。空间金字塔池化可以视为滑动窗口模式下窗口大小为a/n，步幅为a/n的卷积算子。在这里，我们选择了三个级别的空间金字塔池化配置，n×n分别是1×1、2×2和4×4。空间金字塔池化的最终输出是将这三个级别的池化结果连接成一个向量，产生一个固定长度表示，无需考虑输入图像的尺寸。这些不同尺度的输入图像共享一个空间金字塔池化网络。

多尺度深度特征提取的关键在于网络的训练。为确保训练网络的有效性，使用ImageNet 2012数据集对网络进行预训练，将前五个卷积层的权重参数迁移并固定，然后利用遥感场景训练样本微调空间金字塔池化网络。

步骤3)、融合卷积特征：对每个尺度的输入图像，运用自适应深度金字塔匹配模型融合从所有卷积层中提取的特征表示。

运用自适应深度金字塔匹配模型融合从所有卷积层中提取的特征表示。自适应深度金字塔匹配流程图，如图3所示，通过视觉词袋将从所有卷积层中提取的特征表示形成直方图表示，从数据本身学习出所有卷积层之间的最优融合权重，而不是预先定义融合权重，对最优融合权重加权可得从所有卷积层中提取的融合特征的直方图。

融合卷积特征使用的是本发明方法中的自适应深度金字塔匹配模型。假设一个三维矩阵该矩阵表示图像I₁的第l层特征映射；然后，在每个坐标为(i,j)，1≤i≤n_l,1≤j≤n_l的地方，用f_1.l ^(i,j)定义图像I₁一个局部块的一个p维的特征表示。这样，我们得到了图像I₁第l层的n_l×n_l局部特征向量。我们使用k-均值方法聚集所有特征形成含有D个中心的词汇，每个特征表示f_1.l ^(i,j)被分配给最近的视觉单词的然后，F_1,l可表示为如下直方图表示：

其中，表示特征表示f_1.l ^(i,j)的最近视觉单词是反之表示特征表示f_1.l ^(i,j)的最近视觉单词不是最后，图像I₁和I₂的深度金字塔匹配核如下所示：

其中，L表示卷积层的总数量，ω_l为第l层的融合权重，

对于遥感场景分类，还需要考虑训练图像的标签信息。因此，不使用预定义的值，而是自适应地从训练数据本身来学习最优权重ω_l。训练数据的核矩阵K应接近于理想矩阵Y。核矩阵K中的元素K_i,j定义为图像I₁和I₂深金字塔匹配核。元素Y_i,j＝1表示图像标签y_i＝y_j，反之，元素Y_i,j＝0表示图像标签y_i≠y_j。

本发明中的自适应深度金字塔匹配模型的目标函数如下：

其中，表示矩阵K和Y之间的距离和，且有正则项由所有的权重ω_l组成，可以防止过拟合。

用代替K，可以推导出其中，矩阵A的元素A_i,j＝tr(K_i ^TK_j)，向量b的元素b_j＝tr(Y^TK_j)，c＝tr(Y^TY)。那么，目标函数可以转化为一个典型的二次规划问题：

在求得上述二次规划最优解ω之后，即可计算出训练数据的深度金字塔匹配核矩阵K。

步骤4、集结多尺度分类结果：将每个尺度图像学习出的融合特征送入分类器得到最终分类结果，然后利用多数投票策略集成所有尺度的多个结果，即可得到该遥感场景图像的正确分类。

本发明采用以下具体的方法实现：每个尺度图像学习出的融合特征用深度金字塔匹配核矩阵K表示，将矩阵K送入支持向量机分类器进行分类，通过多数表决的方法集成来自所有尺度的分类结果来实现最终的分类结果。

本发明方法中的分类器为支持向量机，下面对支持向量机分类模型进行简要说明。

首先简单说明二类SVM分类器的基本原理及训练过程。给定一个标注集其中x_i∈R^d，y_i∈{-1,1}。x_i为反馈样本的底层视觉特征矢量，y_i为类别标注，正反馈样本的类别标注为1，负反馈样本的类别标注为-1，R^d为实数域上R上的d维向量空间。利用一个非线性映射将样本映射到高维空间中，如下所示：

Φ:R^d→F x→Φ(x) (5)

其中，F是映射到的高维空间，Φ是对应的映射函数。决策函数表示为以下形式：

g(x)＝w·Φ(x)+b (6)

相应地，支持向量机分类面可以写成：

w·Φ(x)+b＝0 (7)

其中，w为权值向量，b为偏移常量。

落在w·Φ(x)+b＝±1这两个超平面上的点称为支持向量，支持向量到分类面的距离称为分类间隔，大小为分类间隔的大小表示了分类器的泛化能力，因此我们要使分类器的间隔最大化：

s.t.y_i(w·Φ(x_i)+b)≥1,i＝1,…,N

根据上式的求解即可得到支持向量机分类面。通过拉格朗日乘子法对上式中的二次规划问题进行求解，可以得到：

其中，x_i为支持向量，y_i和α_i分别为该支持向量对应的类别标注和拉格朗日系数。样本x通过二类SVM分类器得到的输出为：

利用核函数避开非线性映射的显示表达，图像样本通过二类SVM分类器得到的输出可以改写为：

其中，K(·)为核函数，且K(x_i,x)＝Φ(x_i)^T·Φ(x)，上标T表示转置矩阵。根据上式，对于任意一个为标准的样本，如果f(x)的值大于0，则该样本的类标为1，f(x)的值小于0则类标为-1。

每个二类分类器产生一个分类超平面，计算每个尺度图像学***面的距离，每个尺度图像属于距离最大的那一类。然后利用多数投票策略集成所有尺度的多个结果，即为该遥感图像场景的正确分类。

为了便于公众理解本发明技术方案，下面给出两个具体实施例。

实施例一将本发明所提供的技术方案应用在21-Class-Land-Use遥感数据集分类中。该数据集是手动从美国地质调查局(USGS)全国地图的航空正射影像下载提取的。它包括21个不同的土地利用和土地覆盖类型，包括农产品、飞机、棒球场、沙滩、建筑物、丛林，密集住宅、森林、高速公路、高尔夫球场、港口、路口、中密度住宅，移动家庭公园、立交桥、停车场、河流、跑道、稀疏住宅，储油罐和网球场。每一类包含100张RGB图像，空间分辨率为一英尺(约0.3米)，图像大小为256×256像素。利用本发明所提出的基于自适应深度空间金字塔匹配的遥感场景分类方法，将从卷积神经网络提取的多尺度图像的深度特征进行融合送入分类器，以此来得到一个遥感场景图像的分类。

本实施例中，分类模型选用支持向量机(SVM)，为了验证本发明的有效性，分类结果分别与空间关系金字塔(PSR)、局部探测器(Partlets)方法进行对比。将一张待分类的遥感场景图像通过变形的方法生成不同尺度N×N的图像，将多尺度图像送入到带有空间金字塔池化的卷积神经网络进行训练，以此来提取多尺度深度特征，对每个尺度的输入图像，运用自适应深度金字塔匹配模型融合从所有卷积层中提取的特征表示，将每个尺度图像学习出的特征表示送入分类器得到最终分类结果，然后利用多数投票策略集成所有尺度的多个结果，即为该遥感场景图像的正确分类。

本实施例的分类过程具体如下：

1、生成多尺度图像：

保留大小为256×256的原始图像，将该张待分类的遥感场景图像通过变形的方法分别生成尺度大小为128×128、192×192、227×227的图像，形成一组该图像的多尺度图像集合。

2、提取多尺度深度特征：

为确保训练网络的有效性，使用227×227遥感场景作为输入对网络进行预训练。将数据集随机划分为训练集和测试集两个部分，训练集用于微调空间金字塔池化网络的全连接层，测试集用于评估分类器的性能。为了减少随机选择的影响，我们在十个不同的训练/测试分割的数据集上重复执行每个算法。空间金字塔池化网络类似于空间金字塔匹配，将分区的特征映射到越来越细的子区域，通过最大池化来池化每个子区域内的特征。假设最后一个卷积层后的每个特征映射的大小为a×a，并且每个特征映射被划分成大小为n×n的子区域。空间金字塔池化可以视为滑动窗口模式下窗口大小为a/n，步幅为a/n的卷积算子。在这里，我们选择了三个级别的空间金字塔池化配置，n×n分别是1×1、2×2和4×4。空间金字塔池化的最终输出是将这三个级别的池化结果连接成一个向量，产生一个固定长度表示，无需考虑输入图像的尺寸。这些不同尺度的输入图像共享一个空间金字塔池化网络。然后将多尺度图像送入到带有空间金字塔池化的卷积神经网络进行训练，以此来提取多尺度深度特征。

3、融合卷积特征：

对每个尺度的输入图像，从所有卷积层中提取的特征表示，对于卷积层特征图的每个像素，使用K-均值形成视觉编码。f_1.l ^(i,j)表示图像第l层一个局部块的一个p维的特征，表示距离f_1.l ^(i,j)最近的视觉单词，图像I₁的第l层特征映射为然后通过视觉词袋将从所有卷积层中提取的特征表示形成直方图表示。

运用自适应深度金字塔匹配模型融合从所有卷积层中提取的特征表示。图像I₁和I₂的深度金字塔匹配核L表示卷积层的总数量，ω_l为第l层的融合权重，自适应深度金字塔匹配模型目标函数中(3)防止过拟合的正则项参数λ按照经验取0.5。从数据本身学习出所有卷积层之间的最优融合权重，然后对最优融合权重加权可得从所有卷积层中提取的融合特征的直方图。

4、集结多尺度分类结果：

将带有交叉核直方图的多个尺度图像的深层特征送入分类器，得到分类结果，这可以使用LIBSVM软件包实现。然后利用多数投票策略集成所有尺度的多个结果，从而最终完成遥感场景图像的分类。

为了验证本发明方法的效果，分别将本发明提出的基于自适应深度空间金字塔匹配的遥感场景分类方法与空间关系金字塔(PSR)、局部探测器(Partlets)方法进行比较。

图4为本发明方法与空间关系金字塔(PSR)、局部探测器(Partlets)方法下的每一分类准确率的直方图。从图中可以看出，和其他两种方法相比，本发明的分类方法的准确率在15类上取得最高准确率。这说明，本发明方法可以获得更高的分类准确率。

表1给出了3种分类方法的分类准确率的比较。

表1 分类准确率对比

方法	分类准确率
		PSR	89.10
Partlets	91.33
		ADPM-192	92.67
ADPM-227	92.04
		ADPM-256	93.52
Multi-scale ADPM	94.86

从表1可以看出，本发明方法的分类准确率明显高于其他两种分类方法，尤其是融合分类结果的多尺度方法，和其他方法相比准确率提高了将近4％。此外，不同尺度的结果不同，通过融合分类结果的多尺度方法分类准确率明显高于单尺度方法。

综上可知，和空间关系金字塔(PSR)、局部探测器(Partlets)方法相比，本发明方法无论是从分类性能还是从分类精确度上来看，都具有明显的优势。

实施例二将本发明所提供的技术方案应用在19-Class Satellite Scene遥感数据集分类中。该数据集由19个场景组成，包括机场，海滩，桥梁，商业区，沙漠，农田，足球场，森林，工业区，草地，山，公园，停车场，池塘，港口，火车站，住宅区，河流和高架桥。每个类有50张图像，大小为600×600像素。这些图像是用谷歌地球软件从较大卫星图像上提取的。利用本发明所提出的基于自适应深度空间金字塔匹配的遥感场景分类方法，将从卷积神经网络提取的多尺度图像的深度特征进行融合送入分类器，以此来得到一个遥感场景图像的分类。

本实施例中，分类模型选用支持向量机(SVM)，为了验证本发明的有效性，将分类结果与半监督投影(SSEP)方法进行对比。将一张待分类的遥感场景图像通过变形的方法生成不同尺度N×N的图像，将多尺度图像送入到带有空间金字塔池化的卷积神经网络进行训练，以此来提取多尺度深度特征，对每个尺度的输入图像，运用自适应深度金字塔匹配模型融合从所有卷积层中提取的特征表示，将每个尺度图像学习出的特征表示送入分类器得到最终分类结果，然后利用多数投票策略集成所有尺度的多个结果，即为该遥感场景图像的正确分类。

本实施例的分类过程具体如下：

1、生成多尺度图像：

保留大小为600×600的原始图像，将该张待分类的遥感场景图像通过变形的方法分别生成尺度大小为128×128、192×192、227×227、256×256、384×384的图像，形成一组该图像的多尺度图像集合。

2、提取多尺度深度特征：

为确保训练网络的有效性，使用遥感场景作为输入对网络进行预训练。将数据集随机划分为训练集和测试集两个部分，训练集用于微调空间金字塔池化网络的全连接层，测试集用于评估分类器的性能。为了减少随机选择的影响，我们在十个不同的训练/测试分割的数据集上重复执行每个算法。空间金字塔池化网络类似于空间金字塔匹配，将分区的特征映射到越来越细的子区域，通过最大池化来池化每个子区域内的特征。假设最后一个卷积层后的每个特征映射的大小为a×a，并且每个特征映射被划分成大小为n×n的子区域。空间金字塔池化可以视为滑动窗口模式下窗口大小为a/n，步幅为a/n的卷积算子。在这里，我们选择了三个级别的空间金字塔池化配置，n×n分别是1×1、2×2和4×4。空间金字塔池化的最终输出是将这三个级别的池化结果连接成一个向量，产生一个固定长度表示，无需考虑输入图像的尺寸。这些不同尺度的输入图像共享一个空间金字塔池化网络。然后将多尺度图像送入到带有空间金字塔池化的卷积神经网络进行训练，以此来提取多尺度深度特征。

3、融合卷积特征：

4、集结多尺度分类结果：

为了验证本发明方法的效果，分别将本发明提出的基于自适应深度空间金字塔匹配的遥感场景分类方法与半监督投影(SSEP)方法进行比较。

图5为本发明方法与半监督投影(SSEP)方法下的每一分类准确率的直方图。从图中可以看出，和与半监督投影(SSEP)方法相比，本发明的分类方法的准确率在14类上取得最高准确率。这说明，本发明方法可以获得更高的分类准确率。

表1给出了3种分类方法的分类准确率的比较。

表1 分类准确率对比

方法	分类准确率
		SSEP	73.82
ADPM-227	82.14
		ADPM-256	83.71
ADPM-384	81.91
		Multi-scale ADPM	84.67

从表1可以看出，本发明方法的分类准确率明显高于半监督投影(SSEP)方法，尤其是融合分类结果的多尺度方法，和其他方法相比准确率提高了将近8％。此外，不同尺度的结果不同，通过融合分类结果的多尺度方法分类准确率明显高于单尺度方法。

综上可知，和半监督集合投影(SSEP)方法相比，本发明方法无论是从分类性能还是从分类精确度上来看，都具有明显的优势。

Claims

1.一种遥感场景分类方法，其特征在于，包括以下步骤：

步骤1)、将一张待分类的遥感场景图像通过变形的方法生成不同尺度N×N的图像，其中N根据图片大小可取多个值；

步骤3)、对每个尺度的输入图像，运用自适应深度金字塔匹配模型融合从所有卷积层中提取的特征表示；

步骤4)、将每个尺度图像学习出的特征表示送入分类器得到最终分类结果，然后利用多数投票策略集成所有尺度的多个结果，即为该遥感场景图像的正确分类。

2.如权利要求1所述遥感图像分类方法，其特征在于，将步骤1)中待分类的遥感场景图像通过变形的方法生成不同尺度，如128×128，192×192，227×227，256×256，384×384。