CN116030347B

CN116030347B - 一种基于注意力网络的高分辨率遥感影像建筑物提取方法

Info

Publication number: CN116030347B
Application number: CN202310017792.2A
Authority: CN
Inventors: 刘耀辉; 郑国强; 苏飞; 付萍杰; 王晋; 毕京学; 于明洋; 周洁; 靳奉祥
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2024-01-26
Anticipated expiration: 2043-01-06
Also published as: CN116030347A

Abstract

本发明提供了一种基于注意力网络的高分辨率遥感影像建筑物提取方法，包括：获取研究区内的航空影像数据；对航空影像数据进行图像预处理和数据增强，并将其划分为训练集、测试集和验证集；分别构建SE权重模块、挤压和连接模块以及Softmax激活函数；根据SE权重模块、挤压和连接模块和Softmax激活函数确定金字塔时序组块，并将其嵌入到U型网络的连接层中，得到U型的金字塔时序注意力网络，并根据训练集对金字塔时序注意力网络进行训练；分别利用测试集和验证集对金字塔时序注意力网络进行测试和验证，得到最优的遥感影像建筑物提取模型；将待检测数据输入至遥感影像建筑物提取模型中，得到检测结果。本发明能够实现高分辨率遥感影像中建筑物有效提取。

Description

一种基于注意力网络的高分辨率遥感影像建筑物提取方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于注意力网络的高分辨率遥感影像建筑物提取方法。

背景技术

随着城市化进程的加快和城市规划的需要，建筑物的数量大幅增加，构筑建筑物的地区分布范围也更加广泛。与此同时，建筑物作为人类活动的载体，无论是城市动态监测还是郊区建筑物检测都必不可少。因此，高效、准确的从高分辨率遥感影像自动提取建筑物对于城市规划、防灾、变化检测等应用具有重要意义。

随着计算机算力的飞速发展，通过深度学习技术可以实现图像中目标地物的自动提取，并展现出极好的运算性能。然而，由于建筑物本身特征的多样性，仅利用深度学习中基础卷积神经网络进行高分辨率遥感影像的建筑物提取存在困难。如面对复杂地物场景时存在一定范围内建筑物精确率不高，面对植被遮挡时存在边界不完整或边界模糊，使用单个感受野很难识别不同规模的建筑物等问题。

因此，现有技术需要一种提高遥感影像建筑物提取准确率的方法，以解决以上所提的问题。

发明内容

为了克服现有技术的不足，本发明的目的是提供一种在高分辨率航空影像的复杂场景中，以含噪声、适当尺寸的遥感影像为输入数据，基于深度学习中的金字塔结构和时序注意力机制构建的U型的金字塔时序注意力网络，实现高分辨率遥感影像中建筑物有效提取的方法。

为实现上述目的，本发明提供了如下方案：

一种基于注意力网络的高分辨率遥感影像建筑物提取方法，包括：

获取研究区内的航空影像数据；

对所述航空影像数据进行图像预处理和数据增强，并将处理后的数据划分为训练集、测试集和验证集；

分别构建SE权重模块、挤压和连接模块以及Softmax激活函数；

根据所述SE权重模块、所述挤压和连接模块和所述Softmax激活函数确定金字塔时序组块，并将金字塔时序组块嵌入到U型网络的连接层中，得到U型的金字塔时序注意力网络，并根据所述训练集对所述U型的金字塔时序注意力网络进行训练；

分别利用所述测试集和所述验证集对所述U型的金字塔时序注意力网络进行测试和验证，得到最优的遥感影像建筑物提取模型；

将待检测数据输入至所述遥感影像建筑物提取模型中，得到检测结果。

优选地，所述获取研究区内的航空影像数据，包括：

利用无人机在所述研究区内按照设定飞行路线进行航飞，以采集所述研究区中的遥感数据集；

根据所述无人机拍摄的带有地理坐标的所述遥感数据集生成所述研究区域的遥感影像；

将所述遥感影像进行空间分辨率的调整，并根据空间分辨率达到预设分辨率阈值的遥感影像制作成所述航空影像数据。

优选地，对所述航空影像数据进行图像预处理和数据增强，并将处理后的数据划分为训练集、测试集和验证集，包括：

确定所述航空影像数据中的建筑样本；

根据所述建筑样本确定建筑标签；

对所述航空影像数据和对应的所述建筑标签进行影响裁剪，得到裁剪后的影像；

将所述裁剪后的影像进行数据增强，得到扩充处理后的图像；

按照预设比例将所述扩充后的图像进行随机划分，得到所述训练集、所述测试集和所述验证集。

优选地，所述SE权重模块由挤压部分和提取部分组成；所述SE权重模块用于编码全局信息和自适应重新校准通道关系；所述挤压和连接模块用于以多分支的方式提取输入特征图的空间信息；所述Softmax激活函数用于获得多尺度通道的重新校准的权重。

优选地，所述根据所述SE权重模块、所述挤压和连接模块和所述Softmax激活函数确定金字塔时序组块，并将金字塔时序组块嵌入到U型网络的连接层中，得到U型的金字塔时序注意力网络，并根据所述训练集对所述U型的金字塔时序注意力网络进行训练，包括：

构建基础U型框架；

根据所述SE权重模块、所述挤压和连接模块和所述Softmax激活函数构建的金字塔时序组块；

根据所述基础U型框架、所述金字塔时序组块和预设的特征融合器构建所述U型的金字塔时序注意力网络；

将所述训练集输入到所述U型的金字塔时序注意力网络中，并调整超参数后进行训练，得到训练好的U型的金字塔时序注意力网络。

优选地，根据所述基础U型框架、所述金字塔时序组块和预设的特征融合器构建所述U型的金字塔时序注意力网络，包括：

在所述基础U型框架的多分支连接“跳转连接”中的第一层、第三层和第五层添加所述金字塔时序组块，并在所述金字塔时序组块的输出端后加入所述特征融合器。

优选地，分别利用所述测试集和所述验证集对所述U型的金字塔时序注意力网络进行测试和验证，得到最优的遥感影像建筑物提取模型，包括：

对所述U型的金字塔时序注意力网络的训练参数进行初始化；

根据所述测试集对所述U型的金字塔时序注意力网络进行测试，并根据预设的评估指标对测试的U型的金字塔时序注意力网络进行评估，以得到测试好的U型的金字塔时序注意力网络；

根据所述验证集对测试好的U型的金字塔时序注意力网络进行验证，得到所述最优的遥感影像建筑物提取模型。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于注意力网络的高分辨率遥感影像建筑物提取方法，包括：获取研究区内的航空影像数据；对所述航空影像数据进行图像预处理和数据增强，并将处理后的数据划分为训练集、测试集和验证集；分别构建SE权重模块、挤压和连接模块以及Softmax激活函数；根据所述SE权重模块、所述挤压和连接模块和所述Softmax激活函数确定金字塔时序组块，并将金字塔时序组块嵌入到U型网络的连接层中，得到U型的金字塔时序注意力网络，并根据所述训练集对所述U型的金字塔时序注意力网络进行训练；分别利用所述测试集和所述验证集对所述U型的金字塔时序注意力网络进行测试和验证，得到最优的遥感影像建筑物提取模型；将待检测数据输入至所述遥感影像建筑物提取模型中，得到检测结果。本发明能够实现高分辨率遥感影像中建筑物有效提取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的方法流程图；

图2为本发明实施例提供的建筑物提取流程示意图；

图3为本发明实施例提供的数据集展示图；

图4为本发明实施例提供的SE权重模块示意图；

图5为本发明实施例提供的U型的金字塔时序注意力模型的框架图；

图6为本发明实施例提供的实验结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤、过程、方法等没有限定于已列出的步骤，而是可选地还包括没有列出的步骤，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤元。

本发明的目的是提供一种基于注意力网络的高分辨率遥感影像建筑物提取方法，能够实现高分辨率遥感影像中建筑物有效提取。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例提供的方法流程图，如图1所示，本发明提供了一种基于注意力网络的高分辨率遥感影像建筑物提取方法，包括：

步骤100：获取研究区内的航空影像数据；

步骤200：对所述航空影像数据进行图像预处理和数据增强，并将处理后的数据划分为训练集、测试集和验证集；

步骤300：分别构建SE权重模块、挤压和连接模块以及Softmax激活函数；

步骤400：根据所述SE权重模块、所述挤压和连接模块和所述Softmax激活函数确定金字塔时序组块，并将金字塔时序组块嵌入到U型网络的连接层中，得到U型的金字塔时序注意力网络，并根据所述训练集对所述U型的金字塔时序注意力网络进行训练；

步骤500：分别利用所述测试集和所述验证集对所述U型的金字塔时序注意力网络进行测试和验证，得到最优的遥感影像建筑物提取模型；

步骤600：将待检测数据输入至所述遥感影像建筑物提取模型中，得到检测结果。

优选地，所述获取研究区内的航空影像数据，包括：

图2为本发明实施例提供的建筑物提取流程示意图，如图2所示，本实施例的U型的金字塔时序注意力网络的高分辨率遥感影像建筑物提取方法包括以下步骤：

步骤1，通过无人机采集的高分辨率航空影像，制作Weinan航空影像数据，包括以下子步骤：

步骤1.1，在实地调查的基础上，选取陕西省渭南市富平县贺兰村作为研究区域，通过无人机对研究区航飞，采集研究区中的高分辨率遥感影像后制作数据集。

步骤1.2，本实施例中使用的实验数据来自小型四旋翼无人机(UAV)，可用于自主规划研究区域内的飞行路径。其中，飞行路线是从研究区域的东南角到西北角，沿“S路线”拍摄照片。

步骤1.3，将无人机拍摄的带有地理坐标的遥感影像整体导入相关软件后，可生成整片研究区域的遥感影像，再将影像进行空间分辨率的调整，使用空间分辨率达到2.3厘米的无人机数据制作成Weinan航空影像数据。

确定所述航空影像数据中的建筑样本；

根据所述建筑样本确定建筑标签；

进一步地，本实施例中步骤2为：基于步骤1制作的Weinan航空影像数据，先进行图像预处理和数据增强后再将其按比例划分成训练集、测试集和验证集，包括以下子步骤：

步骤2.1，在ArcGIS 10.2的软件中，通过手动方式建筑样本的选取，其中包含研究区域内的各种类型的建筑，将标注的矢量文件通过“矢量转栅格”工具转化为“.GIF”格式的影像标签label，进而完成影像标注的建筑标签，如图3所示。

步骤2.2，为了便于深度学习计算，对原始图像及对应的标签label进行影像裁剪，在ArcGIS 10.2的软件中将研究区的整幅遥感影像及对应的标签label进行均匀裁剪，裁剪成尺寸为512×512像素的小尺寸影像。

步骤2.3，将小尺寸影像再进行数据增强以扩充数据量，对每幅影像及对应的标签label进行旋转90°、180°和270°，再进行概率为0.5的随机水平和垂直翻转的操作，共生成了830幅512×512像素的图像。

步骤2.4，将830幅512×512像素的图像按照6:2:2的比例随机划分到训练集、测试集和验证集中。

具体的，本实施例中步骤3为：构建U型金字塔时序注意力网络所需的组件，包括以下子步骤：

步骤3.1，构建SE权重模块，如图4所示，由挤压和提取两部分组成，分别设计用于编码全局信息和自适应重新校准通道关系。“全局平均池化”用于生成通道统计，将全局空间信息嵌入到通道提取器中，全局平均池化算子可以通过以下等式(1)计算。

此处，H、W和C分别代表长、宽和通道数，x_c(i，j)代表(i，j)坐标下的像素值，g_c代表全局平均池化的计算值。

在SE权重模块中第c个通道的注意力权重可以通过等式(2)表达。

W_c＝σ(W₁(W₀(g_c))) (2)

此处，W_c和W₀代表全连接层，σ代表ReLU激活函数。

通过两个全连接层，可以更有效地组合通道之间的线性信息，这进一步有助于高低通道维度信息的交互。符号σ表示激励函数，实际中通常使用Sigmoid函数。通过使用激发函数，可以在通道交互之后为通道分配权重，进而可以更有效地提取信息。

步骤3.2，构建挤压和连接(挤连)模块，挤压和连接模块可实现多尺度特征提取，以多分支的方式提取输入特征图的空间信息，每个分支的输入通道维度为C，可以进一步获得输入张量更丰富的位置信息，这些位置信息可以在多个尺度上以并行方式进行处理，进而获得包含单一类型内核的特征图。

通过在金字塔结构中使用多尺度卷积核来生成不同的空间分辨率和深度。通过压缩输入张量的通道维度，可以有效地提取每个通道特征图上不同尺度的空间信息。因此，每个具有不同尺度F_i的特征图都有共同的通道维度C＝C/Sand i＝0，1，…，S-1。注意C应该能被S整除。

对于每个分支，都可以独立学习多尺度空间信息，建立局部的跨通道交互。然而，内核大小的增加将导致参数数量的巨大改进。为了在不增加计算成本的情况下处理不同核尺度的输入张量，引入了组卷积方法并将其应用于卷积核。

在不增加参数数量的情况下选择组的大小，多尺度内核大小与组大小之间的关系可以写为G＝2(K-1)/2，其中数量K是内核大小，G是组大小。当k×k等于3×3且G的默认值为1。最后，多尺度特征图生成函数为等式(3)。

F_i＝Conv(k_i×k_i,G_i)(X)i＝0,1,···,S-1 (3)

此处，第i个卷积核的大小为k_i＝2×(i+1)+1，第i组的尺度为G_i＝2^(ki-1)/2，F_i表示不同范围的特征图。

通过从多尺度预处理特征图中提取信道注意权重信息，获得不同尺度的注意权重向量，在数学中可以用等式(4)表示。

Z_i＝SE Weight(F_i),i＝0,1,···,S-1 (4)

此处，Z_i表示注意力权重。

SE权重模块用于从不同尺度的输入特征图中获取注意力权重。整个多尺度通道注意向量以如等式(5)的连接方式获得。

Z＝Z₀⊕Z₁⊕···⊕Z_S-1 (5)

步骤3.3，构建Softmax激活函数，用于获得多尺度通道的重新校准的权重，包含空间上的所有位置信息和通道中的注意力权重。跨通道使用软注意力来自适应地选择不同的空间尺度，等式(6)给出了软注意力的分配权重。其中Softmax用于获得多尺度通道的重新校准的权重att_i，其中包含空间上的所有位置信息和通道中的注意力权重。

以上步骤可以实现局部和全局通道注意力的交互。然后，将特征重新校准的通道注意力以连接的方式融合和拼接。整个通道注意向量可以通过公式(8)获得。

att_i＝att₀⊕att₁⊕···⊕att_S-1 (6)

此处，att表示注意力交互后的多维特征。

构建基础U型框架；

具体的，本实施例中步骤4为：步骤4，通过步骤3中构建各个组块组成的金字塔时序模块，进一步构建出金字塔时序组块，将金字塔时序组块嵌入到U型网络的连接层中的网络为本发明的遥感影像建筑物提取算法——U型的金字塔时序注意力网络，再对建筑物提取的训练集进行训练，包括以下子步骤：

步骤4.1，如图5所示的U型金字塔时序注意力网络架构的概述，在U型网络的多分支连接“跳转连接”中的第一层、第三层和第五层添加金字塔时序注意力模块，本发明提出了一种新型高效的U型金字塔时序注意力网络，具有强大的多尺度表示能力，可以自适应地重新校准跨维度的通道权重。

其中步骤3.2中构建的挤压和连接模块可以融合不同尺度的上下文信息，为高层特征图产生更好的像素级注意力，实现注意力信息的交互，在不破坏原始通道注意力向量的情况下融合跨维度向量。

步骤4.2，在编码块部分，模型将输入图像输入到基础框架中的第一层和第二层提取底层特征图F₁和F₂。继续在U型结构网络的第三层和第四层里提取中维度特征图F₃和F₄。最后在高维第五层中提取高维抽象特征图F₅。再通过金字塔时序注意力模块处理第一层、第三层和第五层的特征图，传入对应的解码块中。最后，将特征图的有效特征进行整合汇总，将特征图的尺寸恢复到原图大小，完成模型构建。

步骤4.3，将训练集中的images和labels两个文件夹里的影像和对应的标签输入到构建的深度空间注意力网络模型中，调整超参数后进行训练，可得到一个有效的训练参数模型。

对所述U型的金字塔时序注意力网络的训练参数进行初始化；

可选地，本实施例中的步骤5为：利用深度学习语义分割模型对测试集数据进行随机测试，直至随机测试达到满意效果，包括以下子步骤：

步骤5.1，实验使用PyTorch深度学习框架进行，实验环境通过PyCharm软件搭建，在Python语言中进行构建。

步骤5.2，按照深度学习语义分割的常用评价标准，采用了五个最常见的评估指标进行质量评估，包括“总体准确性(OA)”、“精度(Precision)”、“召回率(Recall)”、“F1分数(F1)”和“交并集(IoU)”，具体的评价指标的公式如下：

其中，P表示阳性样本数，N表示阴性样本数，TP表示真阳性数，TN表示真阴性数，FP表示假阳性数，FN表示假阴性数。

步骤5.3，所有实验均在配备CPU E5-2630v4(2.20GHz)和两台NVIDIAGeForce GTX 1080Ti(11GB)的服务器上进行。

步骤5.4，深度空间注意力网络模型训练时输入数据的参数设置epoch为200，batches为16，优化器选择Adam，初始学习率为0.0001，权重衰减为0.0001，损失函数为交叉熵损失函数，求解最小化损失函数的网络参数是基于随机梯度下降算法。

进一步地，本实施例中的步骤6为：保存测试精度最好的深度空间注意力网络模型，通过不输入标签label的验证集的影像数据进行验证工作，进而得到高分辨率遥感影像建筑物提取产品，包括以下子步骤：

步骤6.1，按照步骤5设定的深度空间注意力网络模型训练时输入数据的参数，将训练集中的images和对应的labels输入到由Python软件构建的模型中进行训练，得到的参数模型命名为“epoch200_batches16_learning0.0001.pth”。

步骤6.2，使用这个参数模型对验证集中不输入标签label的高分辨率遥感影像直接进行建筑物提取的预测，再根据五个评估指标进行模型的精度评估。

步骤6.3，如果此参数模型的精度未达到预期的效果(IoU达到85％及以上)，则需要修改模型的超参数内容，重新输入训练集的数据，使用测试集的数据进行测试并保存精度最好的参数模型，再对验证集的影像进行精度评估，最后保存下评价指标达到最好的参数模型即是所需的深度空间注意力网络模型，如图6所示是提取出的高分辨率遥感影像建筑物的高精度结果。

本发明的有益效果如下：

本发明是基于U型金字塔时序注意力的高分辨率遥感影像语义分割方法，基于自制的Weinan航空影像数据集，对高分辨率遥感影像中的建筑物进行提取，用于解决高分辨率遥感影像中复杂表面场景的问题，提高了建筑物提取的效率和准确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于注意力网络的高分辨率遥感影像建筑物提取方法，其特征在于，包括：

获取研究区内的航空影像数据；

分别构建SE权重模块、挤压和连接模块以及Softmax激活函数；

将待检测数据输入至所述遥感影像建筑物提取模型中，得到检测结果；

所述SE权重模块由挤压部分和提取部分组成；所述SE权重模块用于编码全局信息和自适应重新校准通道关系；所述挤压和连接模块用于以多分支的方式提取输入特征图的空间信息；所述Softmax激活函数用于获得多尺度通道的重新校准的权重；

所述根据所述SE权重模块、所述挤压和连接模块和所述Softmax激活函数确定金字塔时序组块，并将金字塔时序组块嵌入到U型网络的连接层中，得到U型的金字塔时序注意力网络，并根据所述训练集对所述U型的金字塔时序注意力网络进行训练，包括：

构建基础U型框架；

将所述训练集输入到所述U型的金字塔时序注意力网络中，并调整超参数后进行训练，得到训练好的U型的金字塔时序注意力网络；

根据所述基础U型框架、所述金字塔时序组块和预设的特征融合器构建所述U型的金字塔时序注意力网络，包括：

2.根据权利要求1所述的基于注意力网络的高分辨率遥感影像建筑物提取方法，其特征在于，所述获取研究区内的航空影像数据，包括：

3.根据权利要求1所述的基于注意力网络的高分辨率遥感影像建筑物提取方法，其特征在于，对所述航空影像数据进行图像预处理和数据增强，并将处理后的数据划分为训练集、测试集和验证集，包括：

确定所述航空影像数据中的建筑样本；

根据所述建筑样本确定建筑标签；

4.根据权利要求1所述的高分辨率遥感影像建筑物提取方法，其特征在于，分别利用所述测试集和所述验证集对所述U型的金字塔时序注意力网络进行测试和验证，得到最优的遥感影像建筑物提取模型，包括：

对所述U型的金字塔时序注意力网络的训练参数进行初始化；