CN110490081B

CN110490081B - 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法

Info

Publication number: CN110490081B
Application number: CN201910660740.0A
Authority: CN
Inventors: 崔巍; 何新; 姚勐; 王梓溦; 郝元洁; 穆力玮; 马力; 陈先锋; 史燕娟; 胡颖; 申雪皎
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2022-04-01
Anticipated expiration: 2039-07-22
Also published as: CN110490081A

Abstract

本发明公开了一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法，包括如下步骤：数据获取和数据预处理；专题图制作；样本切割；多空间尺度遥感影像标注策略设计；制作样本集的标注；构建多尺度遥感影像语义解译模型；选取训练集与验证集；设定训练参数；模型训练；基于聚焦权重矩阵的遥感对象识别算法设计以及变尺度遥感影像语义解译模型的效果验证分析。本发明通过构建LSTM，得到的语义描述中名词和语义分割得到的对象掩模图之间的联系，将语义描述中的空间关系转移到对象掩模图之间，从而实现遥感对象的变尺度语义分割以及空间关系的端到端识别，引导遥感应用领域的影像分类和识别工作向更高的台阶迈步。

Description

一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法。

背景技术

遥感影像分类与遥感对象识别是目前遥感技术的研究热点，伴随着人工智能技术的发展，深度神经网络在高分遥感影像分析中得到广泛应用，日益成为一种有效的处理方法。

目前传统基于Attention机制的LSTM模型主要应用于普通数字影像的语义描述，本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

空间位置不确定性：在不同的时刻，关注区机制产生一个14*14大小的图像特征矩阵，对应于遥感影像中196个空间位置，这往往存在一些偏差，限制了其在遥感对象识别中的应用。

边界不确定性：语义描述中的名词(对象的标签)不能准确地分割图像中遥感对象的边界，因此不能识别对象之间的空间关系。

空间尺度不确定性：对象周边信息复杂多变，很难通过单一尺度的模型识别遥感对象，有时需要更大尺度的语义信息来更准确识别遥感对象。

由此可知，现有技术中的方法存在识别不准确的技术问题。

发明内容

有鉴于此，本发明提供了一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法，用以解决或者至少部分解决现有技术中的方法存在识别不准确的技术问题。

本发明提供了一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法，包括：

步骤S1：获取预设研究区域的高分辨率遥感影像，并对获取的高分辨率遥感影像进行预处理；

步骤S2：利用专业GIS软件进行矢量化工作，得到研究区域专题图层，并对矢量专题图栅格化，得到对应的栅格灰度图；

步骤S3：对预处理后的遥感影像以及栅格灰度图进行切割，提取出两套空间尺度的数据样本集，其中，两套空间尺度的数据样本集分别包含原始影像和大尺度GT图，原始影像和小尺度GT图；

步骤S4：对两套空间尺度的数据样本集中的每个遥感影像按照多空间尺度遥感影像标注策略进行内容标注，得到样本集标注；

步骤S5：构建变尺度遥感影像语义解译模型，通过解译模型得到多尺度语义分割图，并通过掩膜提取算法提取出两个尺度对象的掩膜，再通过一个变尺度对象识别将U-Net网络分割出的小尺度掩膜对象与语义描述中的名词进行关联，其中，变尺度遥感影像语义解译模型包括：FCN全卷积网络、U-Net语义分割网络以及基于Attention机制的LSTM网络，其中，FCN网络用于大尺度对象分割，U-Net网络用于小尺度对象分割，LSTM用以生成包含两个空间尺度对象及其空间关系的语义描述；

步骤S6：对构建的变尺度遥感影像语义解译模型中的FCN网络、U-Net语义分割网络以及LSTM网络进行训练，得到训练后的模型；

步骤S7：利用训练后的模型进行遥感对象的识别，具体包括：通过LSTM网络当前时刻生成名词的聚焦权重矩阵定位到U-Net语义分割得到的掩模图中相应的小尺度对象，如果对象类标签与名词相同，则完成对象的识别。

在一种实施方式中，当对象类标签与名词不相同时，所述方法还包括启动多尺度的遥感对象矫正算法，具体为：先通过升尺度方法，将当前关注区定位到的FCN语义分割得到的大尺度掩模对象，再通过降尺度方法，在候选大尺度对象中定位到类标签与名词相同的小尺度对象，从而完成对对象的识别。

在一种实施方式中，所述方法还包括：对多尺度遥感影像语义解译模型进行效果验证分析。

在一种实施方式中，步骤S4中的空间尺度遥感影像标注策略为：每个描述语句由小尺度遥感对象及其空间关系构成，同时隐含着一个大尺度的对象。

在一种实施方式中，步骤S6具体包括：

步骤S6.1：根据预设比例从数据样本集中划分训练集与验证集；

步骤S6.2：分别设定FCN网络、U-Net网络以及LSTM网络的训练参数；

步骤S6.3：将原始影像和大尺度GT图作为输入数据加入FCN网络，对FCN网络进行迭代训练，保存对应的结果以及训练完成后得到的最优模型权重；

步骤S6.4：将原始影像和小尺度GT图作为输入数据加入U-Net网络，对U-Net网络进行迭代训练，保存对应的结果以及训练完成后得到的最优模型权重；

步骤S6.5：LSTM网络训练：将原始影像经过VGG-19提取的特征和多尺度语义标注作为输入数据加入LSTM网络，对LSTM网络进行迭代训练，保存对应的结果以及训练完成后得到的最优模型权重。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法，首先，获取预设研究区域的高分辨率遥感影像，并进行预处理；然后，制作研究区域专题图层，并对矢量专题图栅格化，得到对应的栅格灰度图；接着，对预处理后的遥感影像以及栅格灰度图进行切割，提取出两套空间尺度的数据样本集；接下来，对两套空间尺度的数据样本集中的每个遥感影像按照多空间尺度遥感影像标注策略进行内容标注，得到样本集标注；然后构建变尺度遥感影像语义解译模型，通过解译模型得到多尺度语义分割图，并通过掩膜提取算法提取出两个尺度对象的掩膜，再通过一个变尺度对象识别将U-Net网络分割出的小尺度掩膜对象与语义描述中的名词进行关联；再对构建的变尺度遥感影像语义解译模型中的FCN网络、U-Net语义分割网络以及LSTM网络进行训练，得到训练后的模型；最后，利用训练后的模型通过采用基于聚焦权重矩阵的遥感对象识别算法进行遥感对象的识别。

与现有技术相比较，本发明构建了一种基于FCN,U-Net以及LSTM网络的遥感影像变尺度语义解译模型，可以生成多空间尺度的遥感影像描述，同时对图像中的对象进行分割，并端到端识别其空间关系。该方法首先将遥感影像分别输入到FCN与U-Net网络进行两个空间尺度的语义分割，使原始影像的每个像素都有两个尺度的语义标签，因此可以形成多尺度遥感对象的层次关系；其次将同一幅影像经过预训练的VGG-19后提取到的特征输入到LSTM网络中，输出两个尺度的遥感对象及其空间关系的语义描述；最后通过聚焦权重矩阵建立语义描述中名词与对象掩模图之间的关系，从而可以提高对象识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法的流程示意图；

图2本发明中变尺度对象分割和图像语义标注示意图；

图3本发明基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法的网络模型结构图。

具体实施方式

本发明的目的在于针对现有技术中的方法由于无法准确识别遥感对象的空间关系从而导致识别不准确的技术问题，提供一种方法，构建LSTM得到的语义描述中名词和语义分割得到的对象掩模图之间的联系，将语义描述中的空间关系转移到对象掩模图之间，从而实现遥感对象的语义分割以及空间关系的端到端识别。

为达到上述目的，本发明的主要构思如下：

通过设计一种基于FCN,U-Net以及LSTM网络的遥感影像变尺度语义解译模型，可以生成多空间尺度的遥感影像描述，同时对图像中的对象进行分割，并端到端识别其空间关系。该方法首先将遥感影像分别输入到FCN与U-Net网络进行两个空间尺度的语义分割，使原始影像的每个像素都有两个尺度的语义标签，因此可以形成多尺度遥感对象的层次关系；其次将同一幅影像经过预训练的VGG-19后提取到的特征输入到LSTM网络中，输出两个尺度的遥感对象及其空间关系的语义描述；最后通过聚焦权重矩阵建立语义描述中名词与对象掩模图之间的关系。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象识别方法，请参见图1，该方法包括：

步骤S1：获取预设研究区域的高分辨率遥感影像，并对获取的高分辨率遥感影像进行预处理。

具体来说，对获取的遥感影像数据进行预处理，包括几何校正、大气校正、裁剪处理等。预设研究区域可以根据需要和实际情况进行选取。本实例获取的是某市某区域60cm分辨率的QuickBird遥感影像。

步骤S2：利用专业GIS软件进行矢量化工作，得到研究区域专题图层，并对矢量专题图栅格化，得到对应的栅格灰度图。

具体来说，专业GIS软件可以是ArcGIS软件或者其他处理软件。

步骤S3：对预处理后的遥感影像以及栅格灰度图进行切割，提取出两套空间尺度的数据样本集，其中，两套空间尺度的数据样本集分别包含原始影像和大尺度GT图，原始影像和小尺度GT图。

在具体的实施过程中，可以选取合适的切割尺度，利用ArcGIS脚本对研究区域的遥感影像以及栅格灰度图进行切割，切割后的样本以ID加影像格式后缀名来命名。通过步骤S3的方法可以提取出两套空间尺度的数据集，一套包括原始影像和大尺度GT图，另一套包括原始影像和小尺度GT图。

步骤S4：对两套空间尺度的数据样本集中的每个遥感影像按照多空间尺度遥感影像标注策略进行内容标注，得到样本集标注。

具体来说，步骤S4是制作样本集的标注GT，依照语义标注策略，为样本集中的每幅影像制作多尺度语义标注，将标注结果写入Excel表中，表中每一行第一列是单独每一张的图像名称，后面是相应的多尺度标注语句。

具体来说，本发明的多空间尺度遥感影像标注策略如下：

(1)每个描述由小尺度遥感对象及其空间关系构成，这些小尺度遥感对象隐含着一个大尺度的对象。即影像中包含许多大尺度对象，表示每个大尺度对象包含许多小尺度对象，相同尺度的对象之间存在空间关系。我们的标注策略是尽可能完整地描述影像中包含的尺度和空间关系信息，具体如图2所示，其中O_i，O_j表示大尺度对象，0_i1，O_i2，O_j1，O_j2，O_jn表示小尺度对象。

(2)在小尺度标注中，通常选择一个对象作为主要对象，其他对象通过空间关系隶属于该对象。这样，同类的小尺度对象就不会在一个大对象中重复出现。

(3)如果有两个或两个以上的大尺度对象，相应子描述(小尺度对象及其空间关系，如O_i1R_i12O_i2...)用with连接。

步骤S5：构建变尺度遥感影像语义解译模型，通过解译模型得到多尺度语义分割图，并通过掩膜提取算法提取出两个尺度对象的掩膜，再通过一个变尺度对象识别将U-Net网络分割出的小尺度掩膜对象与语义描述中的名词进行关联，其中，变尺度遥感影像语义解译模型包括：FCN全卷积网络、U-Net语义分割网络以及基于Attention机制的LSTM网络，其中，FCN网络用于大尺度对象分割，U-Net网络用于小尺度对象分割，LSTM用以生成包含两个空间尺度对象及其空间关系的语义描述。

具体来说，可以在Tensorflow中分别构建FCN、U-Net语义分割网络基于Attention机制的LSTM网络。其中，FCN网络在训练时输入为原始影像以及大尺度GT图，U-Net网络在训练时输入为原始影像以及小尺度GT图，LSTM网络训练时输入为原始影像以及多尺度语义标注GT，即S4中制作的图像语义标注，包含每张图像的人工标注语句。这样模型在验证阶段可以得到大尺度的语义分割图，小尺度的语义分割图以及多尺度的语义描述，其中语义分割图可以通过一个掩膜算法提取出图中对象的掩膜，最后再通过一个变尺度的遥感对象识别算法将U-Net网络分割出的小尺度掩膜对象与语义描述中的名词关联到一起，通过这种方式从语义描述中获取遥感对象间的空间关系，也就是说，通过构建的变尺度遥感影像语义解译模型获取遥感对象间的空间关系，是为了识别遥感对象间的空间关系，其中，具体模型结构如图3所示。

步骤S6：对构建的变尺度遥感影像语义解译模型中的FCN网络、U-Net语义分割网络以及LSTM网络进行训练，得到训练后的模型。

其中，步骤S6具体包括：

在具体的实施过程中，步骤S6.1将1835个研究样本集按照一定比例随机划分为训练集和验证集，例如，得到1167个训练样本和668个验证样本。

步骤S6.2设定训练参数：对于FCN网络，设置学习率为1*e-5，batch_size为1，迭代次数为60000，U-Net网络，设置学习率为1*e-4、batch_size为20，迭代次数为120，同时为了防止网络出现过拟合现象，设置Dropout参数为0.7；对于LSTM网络，需要使用VGG-19预训练模型提取影像特征，特征图的大小为14*14*512，设置隐含层神经元数量为1024，词嵌入向量维度为512，设置学习率为0.001、batch_size为20，迭代次数为120。

步骤S6.3中，经过分析，FCN的分割精度达到0.89，步骤S6.4中，U-Net的分割精度达到0.93。

步骤S6.5中，经过分析，其各评价指标值如表1所示：

表1 LSTM各评价指标

	Bleu_1	Bleu_2	Bleu_3	Bleu_4	METEOR	ROUGE_L	CIDEr
								本方法	0.893	0.744	0.655	0.587	0.455	0.779	5.044

表1中，BLEU是常用的机器翻译评测标准，n常取1到4，基于准确率(precision)的评测。ROUGE_L是根据召回率来计算，是自动摘要任务的评价标准。METEOR是来评测机器翻译的，对模型给出的译文与参考译文进行词对齐，计算词汇完全匹配、词干匹配和同义词匹配等各种情况的准确率、召回率和F值。CIDEr指标将每个句子都看作“文档”，将其表示成tf-idf向量的形式，然后计算参考caption与模型生成的caption的余弦相似度进行打分。

步骤S7：利用训练后的模型进行遥感对象的识别，具体包括：通过LSTM网络当前时刻生成名词的聚焦权重矩阵定位到U-Net语义分割得到的掩模图中相应的小尺度对象，如果对象类标签与名词相同，则完成对象的识别。其中，聚焦权重矩阵是LSTM网络在生成每个时刻单词时生成的，其代表当前生成单词在图像中的关注区(聚焦位置)。

具体来说，通过设计基于聚焦权重矩阵的遥感对象识别算法，从而可以利用训练后的模型进行遥感对象的识别。

遥感对象的识别基于LSTM网络生成的聚焦权重矩阵以及U-Net网络得到的语义分割图经过掩膜算法提取的掩膜对象。首先，本实施方式将14*14大小的权重矩阵(即聚焦权重矩阵)重采样为210*210大小，定义

为t时刻的关注区权重矩阵(即聚焦权重矩阵)在(i，j)位置的权重值，m_ij为U-Net分割后得到的掩膜对象图在(i，j)位置的像元值，在每个掩膜对象中，对象所在的位置像元值为该对象的类别索引值C，其余位置为0。

关注区权重矩阵与对象掩模图相交区域可以利用如下公式计算：

其中C为归一化因子，相交区域的平均权重值可以通过如下公式计算：

其中，n为遥感对象所在位置像元总数，通过如上方法，平均权重值最大的遥感对象将会被选中，如果其类别标签与t时刻生成的名词相同，则遥感对象的位置和边界可以通过对象掩膜图识别出。

总体来说，本发明设计了一种基于FCN，U-Net以及LSTM网络的遥感影像变尺度语义解译模型，可以生成多空间尺度的遥感影像描述，同时对图像中的对象进行分割，并端到端识别其空间关系。该方法首先将遥感影像分别输入到FCN与U-Net网络进行两个空间尺度的语义分割，使原始影像的每个像素都有两个尺度的语义标签，因此可以形成多尺度遥感对象的层次关系；其次将同一幅影像经过预训练的VGG-19后提取到的特征输入到LSTM网络中，输出两个尺度的遥感对象及其空间关系的语义描述；最后通过聚焦权重矩阵建立语义描述中名词与对象掩模图之间的关系。

为了进一步提高识别的准确性，在一种实施方式中，当对象类标签与名词不相同时，所述方法还包括启动多尺度的遥感对象矫正算法，具体为：先通过升尺度方法，将当前关注区定位到的FCN语义分割得到的大尺度掩模对象，再通过降尺度方法，在候选大尺度对象中定位到类标签与名词相同的小尺度对象，从而完成对对象的识别。

具体来说，直接通过步骤S7中对象识别方法得到遥感对象的类别标签往往与t时刻生成的名词不同，为了解决这一问题，本发明还提出了一个多尺度的遥感对象矫正算法。

在具体的实施过程中，多尺度遥感影像语义解译模型的效果验证分析包括：用验证集样本对上述的模型的遥感对象识别与矫正结果进行分析验证，以测试其对象识别与矫正的效果。经过分析，在668个验证样本中，有300个GT语句带有“with”，而生成的描述语句中，有256个带有“with”，占到85％，说明多尺度语义标注策略是可行的。

本实施例针对668个验证样本生成的描述语句，分析了其可靠性，得到如表2和表3所示的结果：

表2生成的描述语句可靠性分析

表3矫正前后匹配的名词数量

通过本发明提供的矫正算法，名词的匹配率由41.87％提高到83.64％，提高了42个百分点，实验结果证明矫正算法是科学可行的。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法，其特征在于，包括：

步骤S7：利用训练后的模型进行遥感对象的识别，具体包括：通过LSTM网络当前时刻生成名词的聚焦权重矩阵定位到U-Net语义分割得到的掩模图中相应的小尺度对象，如果对象类标签与名词相同，则完成对象的识别，其中，聚焦权重矩阵由LSTM网络在生成每个时刻单词时生成，代表当前生成单词在图像中的关注区，通过LSTM网络当前时刻生成名词的聚焦权重矩阵定位到U-Net语义分割得到的掩模图中相应的小尺度对象，包括：

获得U-Net分割后得到的掩膜对象图在(i,j)位置的像元值，在每个掩膜对象中，对象所在的位置像元值为该对象的类别索引值C,其余位置为0；

获得聚焦权重矩阵与对象掩模图相交区域；

计算相交区域的平均权重值，平均权重值最大的遥感对象将会被选中，即定位到U-Net语义分割得到的掩模图中相应的小尺度对象。

2.如权利要求1所述的方法，其特征在于，当对象类标签与名词不相同时，所述方法还包括启动多尺度的遥感对象矫正算法，具体为：先通过升尺度方法，将当前关注区定位到的FCN语义分割得到的大尺度掩模对象，再通过降尺度方法，在候选大尺度对象中定位到类标签与名词相同的小尺度对象，从而完成对对象的识别。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：对多尺度遥感影像语义解译模型进行效果验证分析。

4.如权利要求1所述的方法，其特征在于，步骤S4中的空间尺度遥感影像标注策略为：每个描述语句由小尺度遥感对象及其空间关系构成，同时隐含着一个大尺度的对象。

5.如权利要求1所述的方法，其特征在于，步骤S6具体包括：