CN110689086B

CN110689086B - 基于生成式对抗网络的半监督高分遥感图像场景分类方法

Info

Publication number: CN110689086B
Application number: CN201910948951.4A
Authority: CN
Inventors: 钱晓亮; 李佳; 刘玉翠; 张建伟; 程塨; 姚西文; 王慰; 任航丽; 李祖贺; 王芳; 史坤峰; 曾黎
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2020-09-25
Anticipated expiration: 2039-10-08
Also published as: CN110689086A

Abstract

本发明提出了一种基于生成式对抗网络的半监督高分遥感图像场景分类方法，构建EMGAN模型：将生成式对抗网络的判别器由二分类变为多分类获得EMGAN判别器，在生成式对抗网络的生成器中添加一个信息熵最大化网络获得EMGAN生成器；训练EMGAN模型：根据训练图像有无标签，将EMGAN判别器的损失函数分为监督部分和无监督部分；将EMGAN生成器的损失函数分成特征匹配损失函数和生成图像信息熵损失函数；EMGAN判别器和EMGAN生成器双方交替训练；微调VGGNet‑16模型；训练SVM模型；融合EMGAN模型和VGGNet‑16模型的特征并进行场景分类，得到分类结果。本发明在训练样本较少的情况下，能够有效提升遥感图像场景分类的精度。

Description

基于生成式对抗网络的半监督高分遥感图像场景分类方法

技术领域

本发明涉及基于机器学习的高分辨率遥感图像场景分类的技术领域，尤其涉及一种基于生成式对抗网络的半监督高分遥感图像场景分类方法。

背景技术

土地覆盖是人地相互作用过程的最终体现，也是地球表层***最明显的景观标志，土地覆盖变化又会引发一系列环境的改变。遥感技术因能提供动态、丰富和廉价的数据源已成为获取土地覆盖信息最为行之有效的手段。近年来，随着遥感成像技术的不断发展，已经能够得到多种分辨率(空间分辨率、光谱分辨率、辐射分辨率和时间分辨率)且质量更高的航拍或者卫星拍摄的遥感图像，因而对从遥感图像中辨别土地利用或覆盖的情况提出了更高的要求。高分辨率遥感图像场景分类能够有效地辨别土地利用情况，其结果也可以为目标识别和检索任务提供重要的参考信息，有效提高图像解译的性能，在自然灾害监测、交通监管、武器制导和城市规划等应用方面具有重要的意义。

高分辨率遥感图像场景分类的大致流程为：对输入图像进行特征提取，然后分类器利用图像特征进行分类得到最终结果。其中，分类器的研究已经相对成熟，当前工作的重点之一就是特征提取策略的研究。现有高分辨率遥感图像场景分类方法的特征提取策略可大致分为两类：(1)手工特征的提取，主要依靠专业人员设计特征提取算法；(2)数据驱动特征的提取，基于大量样本自动学习出图像特征。其中以深度学习为代表的数据驱动特征分类表现优于手工特征，然后缺乏大规模的高分遥感图像场景分类数据集，限制了深度学习特征在高分遥感图像场景分类中的应用效果。

发明内容

针对现有高分辨率遥感图像场景分类方法特征提取的精度低，需要大量样本的技术问题，本发明提出一种基于生成式对抗网络的半监督高分遥感图像场景分类方法，能够使用较少的训练样本为最后的分类任务提供具有较强判别力的图像特征，分类精度较高。

为了达到上述目的，本发明的技术方案是这样实现的：一种基于生成式对抗网络的半监督高分遥感图像场景分类方法，其步骤如下：

步骤一：构建EMGAN模型：将生成式对抗网络的判别器由二分类变为多分类获得EMGAN判别器，在生成式对抗网络的生成器中添加一个信息熵最大化网络获得EMGAN生成器，利用EMGAN判别器和EMGAN生成器构建EMGAN模型；

步骤二：训练EMGAN模型：根据训练图像有无标签，将EMGAN判别器的损失函数分为监督部分和无监督部分；将EMGAN生成器的损失函数分为特征匹配损失函数和生成图像信息熵损失函数；EMGAN判别器和EMGAN生成器双方交替训练；

步骤三：微调VGGNet-16模型：采用在自然图像数据集上预训练过的VGGNet-16模型，即引入了大量的自然图像知识，再将VGGNet-16模型增加一个全连接层，然后使用有标签的遥感图像对其进行微调；

步骤四：训练SVM模型：将有标签的真实图像分别输入训练后的EMGAN模型和VGGNet-16模型，提取EMGAN模型和VGGNet-16模型的全连接层特征并进行融合成为训练图像的最终表示，将训练图像的最终表示传送至SVM进行训练；

步骤五：融合EMGAN模型和VGGNet-16模型的特征并进行场景分类：将测试图像分别输入训练后的EMGAN模型和VGGNet-16模型，提取EMGAN模型和VGGNet-16模型的全连接层特征并进行融合成为测试图像的最终表示，将测试图像的最终表示传送至SVM进行分类，得到分类结果。

所述EMGAN判别器的构建方法为：设计多层卷积，不同的卷积层设置不同的卷积核，前几个卷积层的卷积核步长较大，中间几个卷积层的一些卷积核不改变中间特征图的大小，在一些卷积层之前增加dropout操作，即将上一层的激活输出进行随机置零。

所述EMGAN判别器适用于多分类的判别且输出有K+1类，其中，K是图像类别的数目；在EMGAN判别器训练时，EMGAN判别器的输入包括有标签真实图像、无标签真实图像和生成图像这三类图像，在EMGAN判别器预测过程中，有标签真实图像按照标签类别预测至前K类中的对应类别，生成图像被预测为第K+1类，无标签真实图像被预测至前K类且以较大概率被预测于前K类中确定的某一类。

所述EMGAN生成器的构建方法为：EMGAN生成器包括伪图像生成网络和信息熵最大化网络，伪图像生成网络负责生成遥感图像，伪图像生成网络将输入噪声向量经映射及变形成为张量，经过多层转置卷积后生成与训练图像相似的遥感图像即生成图像；信息熵最大化网络负责估算生成图像的信息熵，信息熵最大化网络的结构与伪图像生成网络的结构相对称，信息熵最大化网络的输入为伪图像生成网络输出的生成图像，生成图像经多层卷积后成为一个张量，经过变形成为向量，然后经过全连接层，得到一个向量，将向量分割为两个大小相等的子向量作为输出；所述伪图像生成网络和信息熵最大化网络中的每个卷积层后都跟有批量正则化和激活操作，激活操作的激活函数为激活函数ReLU。

所述EMGAN判别器的损失函数的设计方法为：

根据训练图像的有无标签，EMGAN判别器的损失函数L_D可分为监督部分L_supervised和无监督部分L_unsupervised，即L_D＝L_supervised+L_unsupervised；

监督部分L_supervised的训练样本为有标签样本，使用交叉熵作为损失函数：

其中，L代表有标签样本集合，x_l和y分别代表集合L中的任意一幅训练图像和对应的标签，p_D(y|x_l,y≤K)代表训练图像x_l在EMGAN判别器的前K类中标签对应的类别上的预测输出，E(·)代表数学期望运算；

无监督部分L_unsupervised的训练样本包括无标签真实图像和生成图像，要求EMGAN判别器尽可能将无标签真实图像预测至前K类，并且是前K类中确定的某一类，要求将生成图像尽可能预测至第K+1类：

其中，U和G分别代表无标签真实图像集合和生成图像集合，x_u代表无标签真实图像集合U中的任意一幅训练图像，x_g代表生成图像集G中的任意一幅训练图像，y_u代表x_u的类别，p_D(y_u≤K|x_u)代表训练图像x_u在EMGAN判别器的前K类中的任意类别上的预测输出，p_D(k|x_u)代表训练图像x_u在EMGAN判别器的第k类上的预测输出，k∈[1,K]，

为条件熵，通过使其最大化让EMGAN判别器尽可能将无标签真实图像预测至前K类中确定的某一类，p_D(K+1|x_g)代表训练图像x_g在EMGAN判别器的第K+1类上的预测输出；

综上，EMGAN判别器的损失函数为：

所述EMGAN生成器的损失函数的设计方法为：

EMGAN生成器的损失函数L_G表示为：L_G＝L_FM+L_EM；

特征匹配损失函数L_FM采用特征匹配技术，即分别取真实图像和生成图像在EMGAN判别器的某一层的特征，训练中使二者的差值不断变小，特征匹配损失函数为：

其中，x代表真实图像、包含x_l和x_u两类，z代表生成器的输入噪声，x～P(x)和z～P(z)分别表示真实图像分布和噪声分布的采样，显然，G(z,θ^G)表示由输入噪声z生成的“伪”图像，f(x)与f(G(z,θ^G))分别表示真实图像和生成图像在EMGAN判别器某一层的输出特征；

生成图像信息熵损失函数L_EM用来计算生成图像的信息熵，即：

L_EM＝-plog(p)，

其中，p是生成图像特征的概率密度分布，概率密度分布为高斯分布，即：

其中，σ和μ分别是高斯分布的标准差和均值，由信息熵最大化网络输出两个大小相等的子向量分别作为标准差σ和均值μ；

综上，EMGAN生成器的损失函数为：

所述EMGAN判别器和EMGAN生成器双方交替训练的方法为：在训练时，EMGAN生成器与EMGAN判别器双方交替训练；在EMGAN判别器训练时，EMGAN生成器参数被固定不变，最大化EMGAN判别器的损失函数值进行参数更新，EMGAN生成器训练时，EMGAN判别器参数被固定不变，最小化EMGAN生成器的损失函数值进行参数更新；直至EMGAN模型训练完成。

所述步骤三中采用增加全连接层的方式对VGGNet-16网络进行微调，即在1000类的输出之后增加一层从1000到微调数据集的类别数目的全连接层，实现微调数据集类别数目的输出，训练样本使用训练过EMGAN模型的有标签图像。

所述步骤五实现的方法为：

步骤5.1：图像预处理：将高分辨率遥感图像重置为适合于EMGAN判别器和VGGNet-16模型输入的尺寸；

步骤5.2：特征提取：将测试图像输入完成训练的EMGAN判别器和VGGNet-16模型，得到各自的一维全连接层特征；

步骤5.3：全连接层特征融合及分类：提取的EMGAN判别器特征为f_dis，提取的VGGNet-16特征为f_vgg16，融合得到图像特征F，即：

其中，

表示将两个特征拼接在一起；

最后将图像特征F输送给SVM进行分类，得到分类结果。

与现有技术相比，本发明的有益效果：从三个方面提升了分类精度，分别是：(1)充分使用了大量的无标签样本，能够使生成图像质量更好，从而促进了判别器的能力；(2)在EMGAN生成器设计了EMN，增大了生成图像的多样性，从而促进了判别器的能力；(3)使用了微调过的VGGNet-16网络，辅助基于判别器提取的特征进行分类。通过实验可知，本发明在训练样本较少的情况下，能够有效提升高分辨率遥感图像场景分类的精度，对识别土地利用与覆盖有重要意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图。

图2为本发明的EMGAN架构的结构示意图，其中，上半部分为生成器，包含有FGN和EMN，下半部分为判别器。

图3为本发明的EMGAN判别器架构的结构示意图。

图4为本发明的EMGAN生成器架构的结构示意图，其中，(a)是FGN，(b)是EMN。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于生成式对抗网络的半监督高分遥感图像场景分类方法，其步骤如下：

步骤一：构建EMGAN模型：将生成式对抗网络的判别器由二分类变为多分类获得EMGAN判别器，在生成式对抗网络的生成器中添加一个信息熵最大化网络获得EMGAN生成器，利用EMGAN判别器和EMGAN生成器构建EMGAN模型。

本发明构建了一种基于生成式对抗网络的半监督高分遥感图像场景分类模型。将传统生成式对抗网络(Generative Adversarial Nets，GAN)的判别器由二分类变为多分类。在传统GAN的生成器中添加了一个信息熵最大化网络(Entropy Maximized Nets，EMN)来增加生成图像的多样性，通过增强生成器的生成能力达到提升判别器判别能力的目的(GAN的对抗博弈思想)，使判别器为后续的分类任务提供具有判别力的特征。EMGAN模型包含有EMGAN判别器和EMGAN生成器，如图2所示。

EMGAN判别器的构建：为了能够提升判别器的判别能力，设计多层卷积以增加网络的深度。不同的卷积层设置不同的卷积核，前几层步长较大的卷积核快速将较大的输入图像卷至较小的特征图状态，中间层的一些卷积核并未改变中间特征图的大小，能够对较深层的图像特征进行多次提取，使其具有较强判别能力。同时，在一些卷积层之前增加dropout操作，即将上一层的激活输出进行随机置零，有效地防止由于网络过深而产生的过拟合问题。此外，设计适用于多分类任务的输出层。相比于传统判别器的“真假”二输出，适用于多分类的判别器的输出有K+1类，其中，K是图像类别的数目。在EMGAN判别器训练时，判别器的输入有三类图像，分别是：有标签真实图像、无标签真实图像和生成图像，生成图像是生成器生成的“伪”图像。在判别器预测过程中，真实图像应该被预测至前K类，生成图像被预测为第K+1类，其中，有标签图像应该按照标签类别预测至前K类中的对应类别，无标签真实图像被预测至且均匀分布在前K类且以较大概率被预测于前K类中确定的某一类。实际分类时不可能输入有标签图像和生成图像。

本发明构建的EMGAN判别器如图3所示，输入大小为256*256*3的遥感图像，包含三类图像：真实有标签图像、真实无标签图像和生成图像，经十层卷积及激活函数后得到大小为6*6*384的张量，其中每个卷积层后都跟有批量正则化和激活函数ReLU，此张量经过平均池化(average pooling)变成一个384维的向量，经全连接层变为K+1类的输出。卷积神经网络中任意一层都有输入和输出，384维的向量输入给全连接层，输出K+1类，也是K+1维的向量。网络中每层的卷积核如表1所示，前几层步长较大的卷积核能够快速将较大的输入图像卷至较小的特征图状态，而为了增加网络深度，其中的一些卷积层并未改变中间特征图的大小，如4、5、7、9和10层，但是这些卷积层能够对较深层的图像特征进行多次提取，使其具有较强判别能力。但是较深的网络容易出现过拟合问题(网络模型学习能力过于强大，以至于将训练样本某个特殊的特征当做所有训练样本的一般特征，具有较低的泛化能力)，因此，分别在第4、7、9层卷积之前增加了值为0.5的Dropout操作，即将上一层的激活输出进行随机50％的置零，能够有效地防止过拟合。

表1判别器的卷积核大小

EMGAN生成器的构建：EMGAN生成器包括两个网络，分别是伪图像生成网络(fakeimage generating net,FGN)和信息熵最大化网络(entropy maximizing net,EMN)，FGN负责生成遥感图像，EMN负责估算生成图像的信息熵，以增强生成图像的多样性。FGN输入噪声向量，经映射及变形成为张量，此张量经过多层转置卷积后生成遥感图像即生成图像，其中每个卷积层后都跟有批量正则化和激活操作。EMN的结构被设计成与FGN的结构相对称，输入由FGN输出的生成图像，经多层卷积后成为一个张量，此张量经过变形成为向量，然后经过全连接层，得到一个向量，将其分割为两个大小相等的子向量作为EMN的输出，其中每个卷积层后均跟有批量正则化和激活操作。

生成器负责生成与训练图像相似的伪图像，由于训练图像是遥感图像，因此生成的也是遥感图像。生成的遥感图像就是生成图像，也是假图像和伪图像。变形的具体操作是重新调整矩阵的行数、列数、维数。

本发明构建的EMGAN生成器如图4所示，包含有FGN和EMN。其中FGN，如图4(a)所示，输入100维的噪声向量，经映射及变形成为大小为4*4*256的张量，此张量经过六层转置卷积后生成一个大小为256*256*3的遥感图像，转置卷积操作为(5,2,2,1)，其中每个卷积层后都跟有批量正则化和激活函数Relu。受编码器—解码器模型结构思想的启发，EMN的结构被设计与FGN的结构相对称，如图4(b)所示，EMN的输入由FGN生成大小为256*256*3的遥感图像，经六层卷积后成为一个大小为4*4*256的张量，卷积操作为(5,2,2)，此张量经过变形成为8192维向量，然后经过全连接层，得到一个200维的向量，将其分割为两个100维向量作为EMN的输出，其中每个卷积层后均跟有批量正则化和激活函数ReLU，全连接层后也跟有激活函数ReLU。

步骤二：训练EMGAN模型：根据训练图像有无标签，将EMGAN判别器的损失函数分为监督部分和无监督部分；将EMGAN生成器的损失函数分成特征匹配损失函数和生成图像信息熵损失函数；EMGAN判别器和EMGAN生成器双方交替训练。

模型包含训练阶段和测试阶段，训练阶段的输入图像为训练图像，训练图像包含有两部分，一部分有标签图像进行监督训练，一部分无标签图像进行无监督训练。测试阶段的输入图像为测试图像，测试图像均为无标签图像。算法所需的训练图像包含有有标签和无标签，即所准备的训练图像就包含有这两部分。

特征匹配损失函数用于使生成的“伪”图像更接近真实图像。生成图像信息熵损失函数用于增加生成图像的多样性。EMGAN模型在训练时，EMGAN生成器与EMGAN判别器双方交替训练。在EMGAN判别器训练时，EMGAN生成器参数被固定不变，采用EMGAN判别器的损失函数进行参数更新，即最大化EMGAN判别器的损失函数值进行参数更新，EMGAN生成器训练时，EMGAN判别器参数被固定不变，采用EMGAN生成器的损失函数进行参数更新，即最小化EMGAN生成器的损失函数值进行参数更新；直至训练完成。在EMGAN生成器与EMGAN判别器的迭代训练过程中，二者可设置不同的训练次数。参数的更新包括模型的所有参数，每一层的权重和偏置。没有预训练的模型在训练最开始的时候，参数都是随机初始化的，然后训练一次是根据损失值，使用优化算法进行所有的参数更新。现在有的研究表明生成器训练的次数比判别器训练的次数多一些会好，比如生成器2次，判别器1次。

EMGAN判别器的损失函数的设计方法为：

根据训练图像的有无标签，EMGAN判别器的损失函数L_D可分为两部分，分别是监督部分L_supervised和无监督部分L_unsupervised，即

L_D＝L_supervised+L_unsupervised。

监督部分L_supervised与普通监督训练的情况一样，训练样本为有标签样本，使用交叉熵作为损失函数，即：

其中，L代表有标签样本集合，x_l和y分别代表有标签样本集合L中的任意一幅训练图像和对应的标签，p_D(y|x_l,y≤K)代表训练图像x_l在EMGAN判别器的前K类中标签对应的类别上的预测输出，E(·)代表数学期望运算。利用优化算法Adam对模型参数不断优化使损失值增大，EMGAN判别器能以较大概率将输入有标签图像预测至标签对应类别。

其中，U和G分别代表无标签真实图像集合和生成图像集合，x_u代表无标签真实图像集合U中的任意一幅训练图像，x_g代表生成图像集合G中的任意一幅训练图像，y_u代表训练图像x_u的类别，p_D(y_u≤K|x_u)代表训练图像x_u在EMGAN判别器的前K类中的任意类别上的预测输出，p_D(k|x_u)代表训练图像x_u在EMGAN判别器的第k类上的预测输出，k∈[1,K]，

为条件熵，通过使其最大化让EMGAN判别器尽可能将无标签真实图像预测至前K类中确定的某一类，p_D(K+1|x_g)代表训练图像x_g在EMGAN判别器的第K+1类上的预测输出。

此外，针对无标签真实图像，无标签真实图像可以使用本领域其他的数据集，对无监督部分L_unsupervised设计增加了一种条件熵(conditional entropy)，保证判别器对于“真伪”图像具有较强的判别能力，使无标签真实图像以较大概率被预测于前K类中确定的某一类。在本发明中，样本和图像是等价的。真实图像是与生成图像相对的，真实图像是所准备的图像，包括训练图像和测试图像，训练图像包含有标签和无标签图像；生成图像是由生成器生成的，也称为假图像或者伪图像。

综上，判别器的损失函数为：

模型训练时，训练图像通常以batch为单位逐个输入，然后累计损失值，并求均值。

EMGAN生成器的损失函数的设计方法为：

EMGAN生成器的损失函数中包含有两部分，一部分是L_FM设计用于使生成的“伪”图像更接近真实图像，此部分采用特征匹配损失；另一部分是L_EM用于增加生成图像的多样性。因此，EMGAN生成器的损失函数L_G可表示为：

L_G＝L_FM+L_EM。

特征匹配损失函数L_FM采用特征匹配技术，即分别取真实图像和生成图像在判别器的某一层的特征，训练中使二者的差值不断变小，直至理想状态下二者的特征毫无差别。因此，特征匹配损失函数：

其中，x代表真实图像，包含有标签样本集合中的训练图像x_l和无标签真实图像集合中的训练图像x_u两类，z代表生成器的输入噪声，x～P(x)和z～P(z)分别表示真实图像分布和噪声分布的采样，显然，G(z,θ^G)表示由噪声z生成的“伪”图像，f(x)与f(G(z,θ^G))分别表示真实图像和生成图像在EMGAN判别器某一层的输出特征。训练过程中，最小化特征匹配损失函数L_FM能够使生成图像与真实图像在特征层面相似，同时特征匹配技术使模型在训练过程中也更加稳定。

生成图像信息熵损失函数L_EM用来计算生成图像的信息熵，因此，

L_EM＝-plog(p)，

其中，σ和μ分别是高斯分布的标准差和均值，由EMN的输出计算出两个大小相等的子向量标准差σ和均值μ。模型输出两个100维的向量，即分别是标准差σ和均值μ。训练过程中，最大化信息熵损失，增加生成图像的多样性。

综上，EMGAN生成器的损失函数为：

步骤三：微调VGGNet-16模型：采用在自然图像数据集ImageNet上预训练过的VGGNet-16模型，即引入了大量的自然图像知识。再将VGGNet-16模型增加一个全连接层，然后使用有标签的遥感图像对其进行微调。

微调后可以提取特征用于最终分类。将图像输入给模型，将某一层的输出提取出来，即是提取特征。采用增加全连接层的方式对VGGNet-16网络进行微调，即在1000类的输出之后增加一层从1000到微调数据集的类别数目的全连接层，实现微调数据集类别数目的输出，训练样本使用训练过EMGAN模型的有标签图像。

VGGNet-16网络是深度学***台上均可下载。微调数据集就是训练数据集，是遥感领域内公开的数据集，不同数据集的类别数目不一样。

步骤四：训练SVM模型：将有标签的真实图像分别输入训练后的EMGAN模型和VGGNet-16模型，提取EMGAN模型和VGGNet-16模型的全连接层特征并进行融合成为训练图像的最终表示，将图像的最终表示传送至SVM进行训练。

使用有标签图像对SVM进行训练，使SVM学习得到合适的参数，当输入测试图像特征时，SVM可以输出测试图像的类别。

在EMGAN模型和VGGNet-16模型完成训练后，分别提取两个模型的全连接层特征，然后进行融合成为测试图像的最终表示，最后送给SVM进行分类。

步骤5.1：图像预处理

高分辨率遥感图像需要被重置为适合于EMGAN判别器和VGGNet-16模型输入的尺寸。本发明将遥感图像图像分别重置为256*256*3和224*224*3适合于EMGAN判别器和VGGNet-16模型。

步骤5.2：特征提取

将测试图像输入完成训练的判别器和VGGNet-16模型，分别进行特征提取，可选择提取一维全连接层特征，或者二维卷积特征。二维卷积特征需要编码成一维特征。本发明提取EMGAN判别器的全连接层特征，得到384维的特征向量，提取VGGNet-16模型的第一个全连接层特征，得到4096维的特征向量。

步骤5.3：全连接层特征融合及分类：

提取的EMGAN判别器特征为f_dis，提取的VGGNet-16特征为f_vgg16，将二者融合得到图像特征F，即：

其中，

表示将特征拼接在一起。最后将图像特征F输送给SVM进行分类，得到分类结果。

将EMGAN判别器的384维特征和VGGNet-16模型的4096维特征拼接在一起，得到4480维特征，最后将4480维图像特征输送给SVM进行训练并分类，得到分类结果。

截止目前，已有许多公开的数据集用于评估高分辨率遥感图像场景分类的性能。本发明采用UC Merced[Yang,Y.and S.Newsam.Bag-of-visual-words and spatialextensions for land-use classification.in Sigspatial International Conferenceon Advances in Geographic Information Systems.2010.New York,NY,USA:ACM.]、AID[Xia,G.S.,et al.,AID:A Benchmark Data Set for Performance Evaluation ofAerial Scene Classification.IEEE Transactions on Geoscience&Remote Sensing,2017.55(7):p.3965-3981.]和NWPU-RESISC45[Cheng,G.,J.Han,and X.Lu,RemoteSensing Image Scene Classification:Benchmark and State of the Art.IEEEGeoscience and Remote Sensing,2017.105(10):p.1865-1883.]数据集进行实验对比。在每次实验开始时，数据集中的每一类图像都是随机排序的，然后在一个完整的实验过程中按照这个顺序固定下来。在基于半监督的DEGAN的训练中，当使用NWPU-RESISC45数据集进行训练时，数据集的前10％和20％带有标签的图像被用于有监督的训练，在UC Merced、AID数据集中选取与NWPU-RESISC45数据集公共类别的数据，与NWPU-RESISC45数据集的前80％图像作为无标签图像训练集，NWPU-RESISC45数据集最后20％的图像作为测试图像集。在接下来的过程中，VGGNet-16模型和SVM的训练与EMGAN半监督训练过程中使用的标签图像是一致的，这就保证了整个算法中使用较少的标记样本。每个数据集的每种训练率下的实验重复10次。

对于EMGAN的训练，batch大小设置为60，判别器和生成器的学习率分别是0.0006和0.0003。对于VGGNet-16的训练，实验设置与文献[Cheng,G.,J.Han,and X.Lu,RemoteSensing Image Scene Classification:Benchmark and State of the Art.Proceedingsof the IEEE,2017.105(10):p.1865-1883.

]相同。运行试验的工作站配置为Intel(R)XeonE5-2650 [email protected]×20CPU，GPU为NVIDIA GTX TITAN-XP，内存128G。选取Pytorch为深度学习平台，Adam为优化器。实验结果如表2所示，由表2可知：

1)本发明可以获得较高的高分遥感图像场景分类精度，在训练率为20％的情况下，可以得到92.51％的分类精度。

2)本发明通过十次实验得到的标准差较小，表明该模型具有更强的鲁棒性。由于训练集的无标记数据不局限于其自身的数据集，而是加上其他数据集的训练样本，这使得模型更加稳定。

表2 NWPU-RESISC45数据集上不同方法间的总体精度与标准差(％)的对比

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成式对抗网络的半监督高分遥感图像场景分类方法，其特征在于，其步骤如下：

步骤四：训练SVM模型：将有标签的训练图像分别输入训练后的EMGAN模型和VGGNet-16模型，提取EMGAN模型和VGGNet-16模型的全连接层特征并进行融合成为训练图像的最终表示，将训练图像的最终表示传送至SVM进行训练；

步骤五：融合EMGAN模型和VGGNet-16模型的特征并进行场景分类：将测试图像分别输入训练后的EMGAN模型和VGGNet-16模型，提取EMGAN模型和VGGNet-16模型的全连接层特征并进行融合成为测试图像的最终表示，将测试图像的最终表示传送至SVM进行分类，得到分类结果；

2.根据权利要求1所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法，其特征在于，所述EMGAN判别器的构建方法为：设计多层卷积，不同的卷积层设置不同的卷积核，前几个卷积层的卷积核步长较大，中间几个卷积层的部分卷积核不改变中间特征图的大小，在部分卷积层之前增加dropout操作，即将上一层的激活输出进行随机置零。

3.根据权利要求2所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法，其特征在于，所述EMGAN判别器适用于多分类的判别且输出有K+1类，其中，K是图像类别的数目；在EMGAN判别器训练时，EMGAN判别器的输入包括有标签真实图像、无标签真实图像和生成图像这三类图像，在EMGAN判别器预测过程中，有标签真实图像按照标签类别预测至前K类中的对应类别，生成图像被预测为第K+1类，无标签真实图像被预测至前K类且以较大概率被预测于前K类中确定的某一类。

4.根据权利要求3所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法，其特征在于，所述EMGAN判别器的损失函数的设计方法为：

其中，L代表有标签样本集合，x_l和y分别代表有标签样本集合L中的任意一幅训练图像和对应的标签，p_D(y|x_l,y≤K)代表训练图像x_l在EMGAN判别器的前K类中标签对应的类别上的预测输出，E(·)代表数学期望运算；

无监督部分L_unsupervised的训练样本包括无标签真实图像和生成图像，要求EMGAN判别器尽可能将无标签真实图像预测至前K类，并且是前K类中确定的某一类；将生成图像尽可能预测至第K+1类：

其中，U和G分别代表无标签真实图像集合和生成图像集合，x_u代表无标签真实图像集合U中的任意一幅训练图像，x_g代表生成图像集G中的任意一幅训练图像，y_u代表训练图像x_u的类别，p_D(y_u≤K|x_u)代表训练图像x_u在EMGAN判别器的前K类中的任意类别上的预测输出，p_D(k|x_u)代表训练图像x_u在EMGAN判别器的第k类上的预测输出，k∈[1,K]，

为条件熵，p_D(K+1|x_g)代表训练图像x_g在EMGAN判别器的第K+1类上的预测输出；

综上，EMGAN判别器的损失函数为：

5.根据权利要求4所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法，其特征在于，所述EMGAN生成器的损失函数的设计方法为：

EMGAN生成器的损失函数L_G表示为：L_G＝L_FM+L_EM；

其中，x代表真实图像、包含有标签真实图像集合中的训练图像x_l和无标签真实图像集合中的训练图像x_u两类，z代表生成器的输入噪声，x～P(x)和z～P(z)分别表示真实图像分布和噪声分布的采样，显然，G(z,θ^G)表示由输入噪声z生成的“伪”图像，f(x)与f(G(z,θ^G))分别表示真实图像和生成图像在EMGAN判别器某一层的输出特征；

L_EM＝-p log(p)，

综上，EMGAN生成器的损失函数为：

6.根据权利要求4或5所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法，其特征在于，所述EMGAN判别器和EMGAN生成器双方交替训练的方法为：在训练时，EMGAN生成器与EMGAN判别器双方交替训练；在EMGAN判别器训练时，EMGAN生成器参数被固定不变，最大化EMGAN判别器的损失函数值进行参数更新，EMGAN生成器训练时，EMGAN判别器参数被固定不变，最小化EMGAN生成器的损失函数值进行参数更新；直至EMGAN模型训练完成。

7.根据权利要求6所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法，其特征在于，所述步骤三中采用增加全连接层的方式对VGGNet-16网络进行微调，即在1000类的输出之后增加一层从1000到微调数据集的类别数目的全连接层，实现微调数据集类别数目的输出，训练样本使用训练过EMGAN模型的有标签图像。

8.根据权利要求1或7所述的基于生成式对抗网络的半监督高分遥感图像场景分类方法，其特征在于，所述步骤五实现的方法为：

其中，

表示将两个特征拼接在一起；

最后将图像特征F输送给SVM进行分类，得到分类结果。