CN112084923B

CN112084923B - 一种遥感图像语义分割方法、存储介质及计算设备

Info

Publication number: CN112084923B
Application number: CN202010905024.7A
Authority: CN
Inventors: 古晶; 卞月林; 尚荣华; 巨小杰; 孙新凯; 刘芳; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2023-12-22
Anticipated expiration: 2040-09-01
Also published as: CN112084923A

Abstract

本发明公开了一种遥感图像语义分割方法、存储介质及计算设备，对大规模遥感图像和其对应的标签图像进行等比例裁剪，得到用于训练的小块遥感图像；随机对小块遥感图像和对应的标签图像进行处理，然后对生成的所有训练图片和其对应的标签图像按顺序进行编号，得到扩充后的训练用遥感图像数据集；构建损失函数并将训练图片依次放入语义分割网络中，得到训练好的遥感图像语义分割网络；遍历整张特征图的全部像素并进行优化操作，然后随机裁剪的小块遥感图像进行合并操作，对于重合部分进行多数投票表决，得到大规模遥感图像的分割结果，完成特征图合并操作。本发明处理速度快，效果好。

Description

一种遥感图像语义分割方法、存储介质及计算设备

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于空间信息和多尺度融合的大规模遥感图像语义分割方法、存储介质及计算设备，用于识别遥感图像上每个像素的土地覆盖类型，并用于城市规划和道路监测等问题。

背景技术

大规模遥感图像以其具有的全球性、耗费低、准确度高等优点已经被广泛应用于传统地理学、环境科学、地球科学等各个领域的研究。相比于普通图像，遥感图像首先具有监测范围大，获取资料的速度快、周期短的特点。其次，对于自然条件恶劣、地面工作难以展开的地区，其比较容易获取资料。最后，选用不同的波段和遥感仪器，可以获取不一样的遥感信息。遥感***的迅猛发展获得了大量的遥感图像，从而对遥感图像的理解和解译就变得尤为重要。在遥感图像处理领域，遥感图像分割是一个重要的问题，因此一直以来受到很多学者的广泛关注。

语义分割是计算机视觉领域一个重要的研究课题，它的实现是重要的各种应用，如监测地区的森林砍伐和城市化等的关键，语义分割的结果将直接影响到后续工作的进展。遥感图像语义分割任务在过去几年的时间取得了巨大的进展，分割性能得到了明显提升。特别是由于深度神经网络的发展，很多有效而准确的语义分割模型被提出。但是，要大多数现有语义分割技术针对的是城市或室内场景问题，直接将其用到遥感图像语义分割中的效果不佳。这其中的原因在于：首先，城市或室内场景问题包含的语义信息较少，而遥感图像包含大量不同尺度目标，而且往往是交织在一起的，这大大增加了遥感图像语义分割的难度；其次，并且阴影遮挡的问题较轻，而遥感图像中不同高度的地物会产生大量阴影遮挡附近的目标，给分割带来困难；最后，遥感图像包含大量的噪声，会使检测准确率降低。

为了提高遥感图像语义分割准确率，较早的方法大都使用了合并操作方法，如对同一张图像进行多次预测，然后融合获取最终分割结果。但是，这种合并操作方法无疑增加了大大增加了所需的计算，降低了检测速度，无法满足实时性的需求。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于空间信息和多尺度融合的大规模遥感图像语义分割方法、存储介质及计算设备，以提高遥感图像语义分割精度，满足实际工程的需求，解决现有技术对高分辨率大规模遥感图像分割准确率较低和对不同尺度目标识别困难的问题。

本发明采用以下技术方案：

一种遥感图像语义分割方法，包括以下步骤：

S1、对大规模遥感图像和其对应的标签图像进行等比例裁剪，得到用于训练的小块遥感图像；随机对小块遥感图像和对应的标签图像进行处理，然后对生成的所有训练图片和其对应的标签图像按顺序进行编号，得到扩充后的训练用的遥感图像数据集；

S2、搭建基于SegNet的遥感图像语义分割网络，构建损失函数L，并将训练图片依次放入语义分割网络中，利用梯度下降法对网络参数进行迭代更新，得到训练好的遥感图像语义分割网络；

S3、从步骤S2构建的遥感图像语义分割网络输出结果图的第一个像素pi₁₁开始，遍历整张特征图的全部像素，对每一个像素进行优化操作，然后将步骤S1中随机裁剪的小块遥感图像进行合并操作，对于重合部分进行多数投票表决，得到大规模遥感图像的分割结果，完成特征图合并操作。

具体的，步骤S1中，随机对生成的小块遥感图像和对应的标签图像进行90°、180°或270°旋转、镜像、模糊和光照调整操作。

具体的，步骤S2中，基于SegNet的语义分割网络结构依次为：

输入图像→2个卷积层→1个带位置池化层pool_1→2个卷积层→1个带位置池化层pool_2→3个卷积层→1个带位置池化层pool_3→3个卷积层→1个带位置池化层pool_4→3个卷积层→3个卷积层→1个利用位置信息的上采样层unpool_1→3个卷积层→1个利用位置信息的上采样层unpool_2→3个卷积层→1个利用位置信息的上采样层unpool_3→2个卷积层→1个利用位置信息的上采样层unpool_4→2个卷积层→输出层；

每个卷积层包括：卷积核为3x3的卷积操作→批归一化操作BN→修正线性单元ReLU；所有卷积操作的步长均为1，池化层均为2x2的最大池化；每个上采样层都和对应的池化层之间使用跳跃连接。

进一步的，将2个空洞空间金字塔池化模块加入语义分割网络的pool_3和编码部分的最后三个卷积层后，每个空洞空间金字塔池化模块模块的具体结构包括：1个卷积核为1x1的卷积；3个卷积核为3x3的采样率为(6,12,18)的空洞卷积，滤波器数量为256；1个获取特征图全局特征的全局平均池化，最后，将5条通路获得的特征通过1x1卷积级联到一起。

具体的，步骤S2中，损失函数L具体为：

其中，N代表每个图像块中的像素数量，k代表类别的数量，l代表像素的标签，p代表网络的预测。

具体的，步骤S3具体为：

S301、从步骤S2构建的语义分割网络输出结果图的第一个像素pi₁₁开始，遍历整张特征图的全部像素；

S302、对于每一个像素pi_ij，获取以像素pi_ij为中心的八邻域，考察周围8个像素的标签中表示为同一类的像素个数t，t≤8；

S303、进行优化操作，若t≥6且像素对应的标签与中心像素pi_ij的标签不一致，则将中心像素pi_ij对应的标签改为对应的标签；否则，执行对下一个像素的考察；

S304、将步骤S1中随机位置裁剪的小块遥感图像进行合并操作，对于重合部分进行多数投票表决，得到大规模遥感图像的分割结果。

进一步的，步骤S303中，优化操作公式如下：

其中，w_c和p_c分别表示在图中c位置的像素；Ω_c表示以c位置像素为中心的八邻域；H(·)表示直方图操作。

本发明的另一技术方案是，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据所述的方法中的任一方法。

本发明的另一技术方案是，一种计算设备，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种遥感图像语义分割方法，在已有的语义分割框架的基础上，针对遥感图像里存在的规模大、语义信息丰富、不同地物尺度不同、阴影噪声较多等问题，通过改进已有的针对城市或室内场景问题的语义分割框架，充分挖掘遥感图像中的深层次特征，成功将语义分割方法应用于遥感图像的语义分割任务中。

进一步的，训练语义分割网络需要大量的训练图像，而遥感图像无法获得大量已标记的训练图像，因此对随机生成的小块遥感图像和对应的标签图像进行旋转、镜像、模糊和光照调整操作可以扩充训练数据，防止语义分割网络出现过拟合现象。

进一步的，本发明通过构建基本语义分割网络来完成对遥感图像的训练，其中利用位置信息的上采样操作可以将下采样过程中得到的特征图进行更精确的复原，使得最终得到的遥感图像中不同地物的识别位置和边界更加准确。

进一步的，本发明通过引入2个空洞空间金字塔池化模块来对遥感图像中多尺度信息进行融合，不同区域的上下文通过该模块进行聚合，提升了网络利用全局上下文信息的能力。结合多尺度特征解决了遥感图像中不同尺度地物识别准确率较低的问题，提高了网络的整体性能。

进一步的，本发明选择交叉熵函数作为模型的损失函数对于网络最后一层权重的梯度不再跟激活函数的导数相关，只跟输出值和真实值的差值成正比，收敛速度较快。另外，多分类交叉熵损失求导更简单，损失仅与正确类别的概率有关，而且损失函数对于softmax激活层的输入更便于进行求导运算。

进一步的，本发明提出的合并方法，主要针对语义分割网络输出的预测图像中的块效应进行改进。在拼接阶段，对网络预测的裁剪后小块图像分割结果，先通过优化操作矫正明显分类错误的像素标签，然后通过多数表决将小块图像的重叠部分融合。所提出的合并方法可以有效地改善遥感图像语义分割中的块效应，提高语义分割网络最终预测结果的整体精度。

进一步的，本发明中优化操作的目的是为了矫正网络输出图像中明显分类错误像素标签，同时改善预测图像中明显的边界锯齿效应，使最终的预测图像更为平滑，增强最终预测结果的准确性和视觉效应。

综上所述，本发明针对遥感图像中存在的大量阴影遮挡和噪声干扰，利用合并操作对网络输出的特征图进行改进，使得本发明对遥感图像噪声的鲁棒性有所提高。与现有的合并操作方法相比，处理速度更快，效果更好。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的实现流程图；

图2为本发明语义分割网络的结构图；

图3为采用本发明进行农村遥感图像语义分割的效果；

图4为采用本发明进行城市遥感图像语义分割的效果图。

具体实施方式

本发明提供了一种基于空间信息和多尺度融合的大规模遥感图像语义分割方法、存储介质及计算设备，对遥感图像进行等比例裁剪，以获取深度网络可以处理的小块遥感图像；用深度网络提取小块遥感图像的特征图；在编码阶段，使用带位置的池化操作对每一层网络得到的特征图进行池化；用多尺度信息融合模块对网络提取到的不同尺度的特征图进行融合，得到包含多尺度信息的特征图；在解码阶段，用跳跃连接方式串联编码阶段对应位置的特征图；用编码阶段得到的位置信息对特征图进行上采样，得到语义分割网络的输出图；最后对输出图进行合并操作，得到大规模遥感图像的语义分割结果。本发明提高了大规模遥感图像语义分割的准确率。

请参阅图1，本发明一种基于空间信息和多尺度融合的大规模遥感图像语义分割方法，包括以下步骤：

S1、对训练用的遥感图像数据集进行扩充；

S101、对大规模的遥感图像和其对应的标签图像进行等比例裁剪，得到可以用于训练的尺寸为256x256的小块遥感图像；

S102、随机对生成的小块遥感图像和对应的标签图像进行90°、180°或270°旋转、镜像、模糊和光照调整操作；

S103、将生成的所有训练图片和其对应的标签图像按顺序编号；

S2、搭建并训练遥感图像语义分割框架；

S201、搭建一个基于SegNet的语义分割网络，其具体的结构依次为：输入图像→2个卷积层→1个带位置池化层pool_1→2个卷积层→1个带位置池化层pool_2→3个卷积层→1个带位置池化层pool_3→3个卷积层→1个带位置池化层pool_4→3个卷积层→3个卷积层→1个利用位置信息的上采样层unpool_1→3个卷积层→1个利用位置信息的上采样层unpool_2→3个卷积层→1个利用位置信息的上采样层unpool_3→2个卷积层→1个利用位置信息的上采样层unpool_4→2个卷积层→输出层。

其中，每个卷积层都包括：卷积核为3x3的卷积操作→批归一化操作BN→修正线性单元ReLU。所有卷积操作的步长均为1，池化层均为2x2的最大池化。每个上采样层都和对应的池化层之间都使用跳跃连接。

S202、将2个空洞空间金字塔池化模块(Atrous spatial pyramid pooling，ASPP)加入网络的pool_3和编码部分最后三个卷积层后，用来融合多尺度信息。每个ASPP模块的具体结构包括：1个卷积核为1x1的卷积；3个卷积核为3x3的采样率为(6,12,18)的空洞卷积，滤波器数量为256；1个获取特征图全局特征的全局平均池化。最后，上述5条通路获得的特征通过1x1卷积级联到一起；

请参阅图2，对所搭建的遥感图像语义分割网络结构图进行详细描述。遥感图像语义分割网络的输入图像是经过数据增强的小块遥感图像，然后是用于提取深层次特征的连续卷积层和带位置池化层，它们连同两个空洞空间金字塔池化模块构成语义分割网络的编码部分。

其中，每个卷积层都包括：卷积核为3x3的卷积操作→批归一化操作BN→修正线性单元ReLU。

批归一化操作BN的作用是加速网络收敛速度，同时解决反向传播中梯度消失问题。

修正线性单元ReLU的作用是通过函数Φ(x)增加模型的非线性表达能力。

Φ(x)＝max(0,x)

带位置的池化是对特征图中2x2的矩阵区域V取其中最大的值max_num，同时记录下最大值max_num在该矩阵区域V中的位置Loc。

遥感图像语义分割网络输入层的维度是3，第一组卷积和池化操作输出的数据维度是64，第二组卷积和池化操作输出的数据维度是128，第三组卷积和池化操作输出的数据维度是256，第一个ASPP模块输出的数据维度仍然是256，第四组卷积和池化操作输出的数据维度是512，第五组卷积操作输出的数据维度是512，第二个ASPP模块输出的数据维度仍然是512。至此语义分割网络的编码部分结束。

解码部分是用于恢复特征图到原有尺寸的连续上采样层和卷积层。其输出数据维度和编码部分相对应。

具体来说，第一组卷积输出数据的维度是512，第二组上采样和卷积输出数据的维度是512，第三组上采样和卷积输出数据的维度是256，第四组上采样和卷积输出数据的维度是128，第五组上采样和卷积输出数据的维度是64，输出层的数据的维度是3。

其中，上采样层是将编码部分带位置池化层得到的最大值max_num填入到其对应的位置Loc，其余位置则用0填充。

S203、构建损失函数L，并将训练图片依次放入语义分割网络中，这里设置批次BS为8。利用梯度下降法，对网络参数进行迭代更新，迭代次数Ep为30。最终得到训练好的遥感图像语义分割网络。

损失函数L具体为：

训练过程中设置批次BS为8，利用梯度下降法，对网络参数进行迭代更新，迭代次数Ep为30，最终得到训练好的遥感图像语义分割网络。

S3、对网络得到的特征图进行合并操作；

S302、对于其中每一个像素pi_ij，获取以它为中心的八邻域，考察周围8个像素的标签中表示为同一类的像素个数t，t≤8；

S303、进行优化操作，若t≥6且像素对应的标签与中心像素pi_ij的标签不一致，则将中心像素pi_ij对应的标签改为这些像素对应的标签；否则，执行对下一个像素的考察；

优化操作公式如下：

其中，w_c和p_c表示在图中c位置的像素；Ω_c表示以c位置像素为中心的八邻域；H(·)表示直方图操作，目的是为了获得中心像素周围8个像素的标签中表示为同一类的像素个数t。

S304、将步骤S1中随机位置裁剪的小块遥感图像进行合并操作，对于重合部分进行多数投票表决，从而得到大规模遥感图像的分割结果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

1.仿真条件

使用带有RTX 2080TI显卡的工作站，使用Tensorflow软件框架。

选用包含大量农田和不规则水域的农村遥感图像作为第一张语义分割的图像，如图3(a)；

选用包含大量规则排列的建筑和道路的城市遥感图像作为第二张语义分割的图像，如图4(a)。

2.仿真内容

仿真1，用本发明的方法对第一张语义分割的图像进行语义分割，得到的语义分割结果，如图3(b)。

仿真2，用本发明的方法对第二张语义分割的图像进行语义分割，得到的语义分割结果，如图4(b)。

3.仿真结果分析

从图3(b)可以看出对于包含大量农田和不规则水域的农村遥感图像，本发明能准确分割出图像中不同目标的类别和位置，从图4(b)可以看出对于包含大量规则排列的建筑和道路的城市遥感图像，本发明能准确分割出图像中密集的建筑和大多数主干道路。

综上所述，本发明一种基于空间信息和多尺度融合的大规模遥感图像语义分割方法、存储介质及计算设备，基于SegNet语义分割框架，将跳跃连接结构和空洞空间金字塔池化模块引入基础网络，解决了遥感影像中目标尺度不同的问题。其中，跳跃连接结构将从下采样层提取的特征直接链接到上采样层，将网络的浅层特征与深层特征相结合，使网络的像素定位更加准确，分割精度更高。同时，空洞空间金字塔池化模块用于提取和融合多尺度特征，可以使网络获得重要的全局先验知识，从而提高网络对不同尺度目标的检测精度。最后，对裁剪后的小块图像进行合并操作，使得最终大规模遥感图像的语义分割结果得以改善。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种遥感图像语义分割方法，其特征在于，包括以下步骤：

S2、搭建基于SegNet的遥感图像语义分割网络，构建损失函数L，并将训练图片依次放入语义分割网络中，利用梯度下降法对网络参数进行迭代更新，得到训练好的遥感图像语义分割网络，基于SegNet的语义分割网络结构依次为：

每个卷积层包括：卷积核为3x3的卷积操作→批归一化操作BN→修正线性单元ReLU；所有卷积操作的步长均为1，池化层均为2x2的最大池化；每个上采样层都和对应的池化层之间使用跳跃连接；

将2个空洞空间金字塔池化模块加入语义分割网络的pool_3和编码部分的最后三个卷积层后，每个空洞空间金字塔池化模块模块的具体结构包括：1个卷积核为1x1的卷积；3个卷积核为3x3的采样率为(6,12,18)的空洞卷积，滤波器数量为256；1个获取特征图全局特征的全局平均池化，最后，将5条通路获得的特征通过1x1卷积级联到一起；

S3、从步骤S2构建的遥感图像语义分割网络输出结果图的第一个像素pi₁₁开始，遍历整张特征图的全部像素，对每一个像素进行优化操作，然后将步骤S1中随机裁剪的小块遥感图像进行合并操作，对于重合部分进行多数投票表决，得到大规模遥感图像的分割结果，完成特征图合并操作，具体为：

2.根据权利要求1所述的方法，其特征在于，步骤S1中，随机对生成的小块遥感图像和对应的标签图像进行90°、180°或270°旋转、镜像、模糊和光照调整操作。

3.根据权利要求1所述的方法，其特征在于，步骤S2中，损失函数L具体为：

4.根据权利要求1所述的方法，其特征在于，步骤S303中，优化操作公式如下：

5.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至4所述的方法中的任一方法。

6.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至4所述的方法中的任一方法的指令。