CN115661676A

CN115661676A - 一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法

Info

Publication number: CN115661676A
Application number: CN202211181372.XA
Authority: CN
Inventors: 叶焕然; 周润; 柯红红
Original assignee: Yiwu Industrial and Commercial College
Current assignee: Yiwu Industrial and Commercial College
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-01-31

Abstract

本发明公开了一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法，涉及图像处理技术领域，包括图像获取模块、样本构建模块与图像分割模型；所述图像分割模型包括编码器、跳过连接单元与解码器；该基于串联注意力模块和并联注意力模块的建筑物分割***及方法，通过图像分割模型包括编码器、跳过连接单元、解码器，利用深度卷积网络进行分割，实现了输入待分割图像即可获得分割结果，避免了额外的计算，使得整个流程更加的趋于自动化，通过编码部分加入了迁移学习的知识，用预训练的ResNet网络替换掉编码器的从头训练，降低了整个网络对数据集的需求，避免了因数据集不足时而引起的分割精度降低。

Description

一种基于串联注意力模块和并联注意力模块的建筑物分割系统及方法

技术领域

本发明涉及图像处理技术领域，具体为一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法。

背景技术

进入二十一世纪以来，随着无人机技术的日渐成熟，航拍图像已经成为研究的重点。航拍图像可以为人们难以进入或非侵入式进入的区域提供有价值的信息。而在航拍图像分析中，建筑物分割具有重要的地位。建筑物作为人类生存和活动的主要聚集地，在社会发展和人类进步的过程中占据着重要的地位。而且因近年来我国正处于城市化的高速发展过程中，建筑物数量与日俱增。建筑物分割在各方面都有较大的应用。例如，建筑废料体积估计，需要通过无人机航拍的图像，精准的分割出建筑物，根据分割结果预估该建筑物的废料体积；旧城改造，需要把整块区域的建筑物分割出来形成整体布局；城市规划，不仅需要建筑物分割准确，还需要能够在三维上直观的总览全局。因此，需要设计一种能够自动根据输入二维图像精准分割建筑物的算法。

图像分割是图像处理中的一项重要技术，并且在工业、医学、军事等诸多领域都得到了广泛的应用。图像分割就是把图像中具有特殊意义或者属于相同类别的不同区域分割开来，每一个区域都有自己的意义。因此我们提出了基于串联注意力模块和并联注意力模块的建筑物分割***及方法。

发明内容

针对现有技术的不足，本发明提供了一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法，解决了上述背景技术中提出的问题。

为实现以上目的，本发明通过以下技术方案予以实现：一种基于串联注意力模块和并联注意力模块的建筑物分割***，包括图像获取模块、样本构建模块与图像分割模型；所述图像分割模型包括编码器、跳过连接单元与解码器；所述跳过连接单元包括串联注意力模块；所述串联注意力模块包括通道注意模块与空间注意模块；所述解码器包括并联注意力模块，所述并联注意力模块包括空间注意力模块与通道注意力模块；

所述串联注意力模块接收卷积层输出的特征，先经过通道注意块根据各个通道的重要性来重新分配权重，首先输入特征通过最大池化层和平均池化层生成两个空间尺寸为1×1的向量，因为只关注通道中的要素，所以这两种池化层均将输入特征压缩到通道统计信息中，两个向量都被输送到卷积块以进一步生成通道注意力图，卷积块由两个卷积层和一个ReLU函数组成，为了减少参数降低运算消耗，第一个卷积层的输出通道降为输入通道的1/16，第二个卷积层的输出通道数恢复原大小，为了汇总特征执行求和操作合并两个通道注意力图，再经过Sigmoid激活函数来输出通道的得分图；通过空间注意块保留完整的特征图的同时压缩通道从而实现关注空间信息的效果，在通道维度上执行最大池化和平均池化，生成两个通道数为1的特征图，拼接两个特征图并应用卷积层在减小通道数的同时生成空间注意图，通过Sigmoid 激活函数将每个像素的分类概率归一化为[0,1]，根据特征的概率分数图，重新缩放输入特征以选择性地增强感兴趣的特征，达到解决建筑物边界模糊的效果；

所述并联注意力模块接收串联注意力模块和输出的特征，引入低级特征和高级特征，利用高级特征指导低级特征选择，并从空间和通道双维度选择了更多具有辨别力的特征，所述通道注意力模块旨在改变每个通道中特征的权重来增强特征的一致性，在通道维度上合并高级特征与低级特征形成新的特征图，这有利于对特征进行有效利用，为了达到只关注通道中特征的效果，采用全局平均池化将输入特征压缩，为了恢复特征图通道数，利用第一个1 ×1的卷积把合并后的通道数恢复为原大小，接着ReLU函数进行激活，利用第二个1×1的卷积生成特征图，再经过sigmoid函数生成特征得分图，再将分数图重新缩放回低级特征，利用高级特征的得分图指导低阶特征选择通道上权重更大的有效特征，最终将选择出的低级特征和高级特征进行求和操作输出，接着经过空间注意机制，高级特征首先通过1×1的卷积层，目的是对通道数降维将注意力集中在空间特征上，并通过使用sigmoid函数生成分数图将其归一化为[0,1]，对分数图逐元素的计算熵得分图，并与低级特征相乘，对低级特征分配熵得分图的权重，将高级特征与加权的低级特征进行求和以进一步处理。

可选的，所述通道注意块的设计原理是根据各个通道的重要性来重新分配权重，输入特征通过最大池化层和平均池化层生成两个空间尺寸为1×1的向量，因为只关注通道中的要素，所以这两种池化层均将输入特征压缩到通道统计信息中，两个向量都被输送到卷积块以进一步生成通道注意力图，卷积块由两个卷积层和一个ReLU函数组成，为了减少参数降低运算消耗，第一个卷积层的输出通道降为输入通道的1/16，第二个卷积层的输出通道数恢复原大小，为了汇总特征执行求和操作合并两个通道注意力图，再经过Sigmoid 激活函数来输出通道的得分图，在输入特征和通道得分图之间执行逐元素乘法，公式可以表示；

y_p＝e_p*x_p

式中，e_p表示得分图，x_p表示输入特征，y_p是重新缩放的输入特征。

可选的，所述空间注意块的原理是在保留完整的特征图的同时压缩通道从而实现关注空间信息的效果，详细结构如图2的下半部所示，首先在通道维度上执行最大池化和平均池化，生成两个通道数为1的特征图，然后拼接两个特征图并应用卷积层在减小通道数的同时生成空间注意图，通过Sigmoid 激活函数将每个像素的分类概率归一化为[0,1]，根据特征的概率分数图，重新缩放输入特征以选择性地增强感兴趣的特征，达到解决建筑物边界模糊的效果。

可选的，所述通道注意力模块旨在改变每个通道中特征的权重来增强特征的一致性，首先在通道维度上合并高级特征与低级特征形成新的特征图，这有利于对特征进行有效利用，为了达到只关注通道中特征的效果，采用全局平均池化将输入特征压缩到通道统计中，的第个通道可以通过以下公式计算：

其中x_c是输入特征xx的第c个通道，M×N表示x_c的空间维度，为了恢复特征图通道数，利用第一个1×1的卷积把合并后的通道数恢复为原大小，接着 ReLU函数进行激活，利用第二个1×1的卷积生成特征图，再经过sigmoid 函数生成特征得分图，再将分数图重新缩放回低级特征，利用高级特征的得分图指导低阶特征选择通道上权重更大的有效特征，最终将选择出的低级特征和高级特征进行求和操作输出。

可选的，所述空间注意机制的高级特征首先通过1×1的卷积层，目的是对通道数降维将注意力集中在空间特征上，并通过使用sigmoid函数生成分数图将其归一化为[0,1]，然后，对分数图逐元素的计算熵得分图，并与低级特征相乘，对低级特征分配熵得分图的权重，之后，将高级特征与加权的低级特征进行求和以进一步处理，值得注意的是，熵得分图在建筑物提取任务中与建筑物边界有很强的关系，因此空间注意力机制可以为建筑物边界分割带来好处，特别是结合整体二进制交叉熵损失来训练分割网络。

可选的，所述并联注意力模块接收串联注意力模块输出的特征以及前一并联注意力模块输出的特征，以串联注意力模块输出的特征为低级特征，以前一并联注意力模块的特征为高级特征。

可选的，N个所述并联注意力模块中，按照数据传递方向，每个并联注意力模型前还连接有一个反卷积层。

可选的，种基于串联注意力模块和并联注意力模块的建筑物分割方法，其特征在于：包括以下步骤：

步骤S1、获取带标签的遥感图像，经过切分成合适的尺寸来适配机器的性能，同时将图像分为训练集和测试集；

步骤S2、构建损失函数，并对原始损失函数做出改进，利用所述训练集优化图像分割模型；

步骤S3、利用优化后的图像分割模型处理待分割的遥感图像，输出分割后得到的建筑物图。

可选的，所述步骤S2利用训练集优化图像分割模型，基于所述训练集，采用随机梯度下降法优化图像分割模型。

可选的，所述构建损失函数，包括：

L＝(1-W)×H-W×logIOU

式中，L为所构建的损失函数，W为权重系数，H为二进制交叉损失函数， IOU为平均IOU，指两个区域的重叠区域在两个区域中所占比例；

其中，二进制交叉损失函数H的公式如下：

其中，n为遥感图像的数量，y_i是基本事实，

是实际预测结果；

平均IOU的计算公式如下：

其中，mean IOU为平均IOU，TP表示正确的正样本的数量，FP表示正确的负样本的数量，FN表示错误的负样本的数量。

本发明提供了一种基于串联注意力模块和并联注意力模块的建筑物分割 ***及方法，具备以下有益效果：

1、该基于串联注意力模块和并联注意力模块的建筑物分割***及方法，通过图像分割模型包括编码器、跳过连接单元、解码器，利用深度卷积网络进行分割，实现了输入待分割图像即可获得分割结果，避免了额外的计算，使得整个流程更加的趋于自动化，通过编码部分加入了迁移学习的知识，用预训练的ResNet网络替换掉编码器的从头训练，降低了整个网络对数据集的需求，避免了因数据集不足时而引起的分割精度降低。

2、该基于串联注意力模块和并联注意力模块的建筑物分割***及方法，通过在跳过连接单元中提出了串联注意力模块。其中的空间注意块根据各个通道的重要性来重新分配权重；而通道注意块中在保留完整的特征图的同时压缩通道从而实现关注空间信息的效果，使分割的边界更加清晰，通过在解码器中添加了根据建筑物特点设计的并联注意力模块。利用高级特征的语义优势来指导低级特征进行选择，让网络获得更多感兴趣的特征，增强了网络对建筑物的识别能力，提高了分割的精度和准确率。

附图说明

图1为本发明的基于串联注意力模块和并联注意力模块的建筑物分割方法流程图；

图2为本发明图像分割模型的结构示意图；

图3为本发明串联注意力模块的结构示意图；

图4为本发明并联注意力模块的结构示意图；

图5为本发明基于串联注意力模块和并联注意力模块的建筑物分割*** 模块图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1至图5所示，本实施例中的基于串联注意力模块和并联注意力模块的建筑物分割***，包括图像获取模块、样本构建模块与图像分割模型；所述图像分割模型包括编码器、跳过连接单元与解码器；所述跳过连接单元包括串联注意力模块；所述串联注意力模块包括通道注意模块与空间注意模块；所述解码器包括并联注意力模块，所述并联注意力模块包括空间注意力模块与通道注意力模块。

如图1至图5所示，本实施例中的基于串联注意力模块和注意力机制的建筑物分割方法，包括以下步骤：

步骤S1、获取带标签的遥感图像生成训练集；

为了得到具有针对性的图像分割模型，通常需要获取相关图像对模型进行训练，直至模型达到预想的输出效果，在模型训练中需要准备足够量的样本图像，通常样本图片可以是直接使用现有的数据集，也可以是自行获取并标注图片后生成样本图片，为了保证训练数据的有效性，本实施例提供一种训练集和测试集生成方法如下。

a.数据样本准备：

获取现有的Inria航空影像标签数据集，Inria航拍图像标记数据集的发行是为了解决航拍图像中建筑物的分割问题，它由360张RGB正交校正的航拍图像组成，其空间分辨率为30cm，这些影像遍布不同的城市，包括奥斯丁，芝加哥，基萨普，西/东蒂罗尔州，维也纳，贝灵汉，布卢明顿和旧金山，每张图像的尺寸为5000×5000px，每个图像的实际表面覆盖面积是1500× 1500m，数据集图像分为两类：建筑物和非建筑物，数据集中的目标区域是屋顶的占地面积，之所以选择该数据集，是因为它涵盖了异类的城市形态和不同的城市密度，从人口稠密的地区(奥斯汀，芝加哥)到绿色面积较大的高山城镇(基蒂萨普县，西蒂罗尔)再到具有独特建筑风格的维也纳，建筑物形态的这种差异确保将模型最佳地推广到世界各地的其他不同城市地区，数据集仅提供了180张具有基本事实的图像，为了保持与其他方法的处理方式一致，从180张图像中选择每个区域的前五张图像创建一个验证集，其余的图像用于训练。

b.训练集、测试集准备：

上述的数据集中所有的图像大小为5000*5000，分辨率为0.3m，而深度学习的输入由显卡的显存限制，现有的GPU无法容纳5000*5000尺寸的图像训练，因此将5000*5000拆分为1024*1024尺寸的图像，使用来自五个城市 (即a中的五个区域)的前5张图像作为一个测试集，而其余的则作为训练集用于训练。

c.数据增强：

一般而言，比较成功的神经网络需要大量的参数，许许多多的神经网路的参数都是数以百万计，而使得这些参数可以正确工作则需要大量的数据进行训练，而实际情况中数据并没有想象中的那么多，所以为了在较少数据的情况下获得更多的数据，同时为了减少过度拟合，本实施例使用了数据增强。

数据增强主要包括翻转、旋转、缩放、裁剪、平移与增加噪声，通过调用Albumentations图像增强工具，经过多次使用，确定了在数据进行训练之前进行了填充、随机裁剪、垂直翻转、水平翻转和归一化操作，在训练时又应用了正则化技术，不仅增强了训练的数据量，提高了模型的泛化能力，而且增加了噪声数据，提升模型的鲁棒性。

需要说明的是，数据增强中的各项操作均为较为成熟的技术，这里就不对个项操作的具体步骤进行限制说明。

步骤S2、构建损失函数，利用所述训练集优化图像分割模型；

如图2所示，本实施例使用的图像分割模型主要基于U-Net框架，因此本实施例的图像分割模型包括依次连接的编码器、跳过连接单元、解码器。

通常U-Net框架中的编码器主要由多个卷积层构成，用于特征提取，跳过连接是把编码器的特征传递到解码器上，通过这些特征来弥补语义之间的鸿沟，解码器是用多个反卷积或者上采样来还原到原尺寸，其中还会使用编码器传过来的低级特征，用高级特征指导低级特征的融合，还原后的图像依然保持原尺寸大小；

编码器的特征提取能力决定着整个网络的分割效果，所以本节在编码器中引入预训练的ResNet提升分割性能，U-Net模型的编码器是由简单的3×3 卷积层构成，每层的参数均是随机初始化得到，在训练过程中存在较大的随机性，非常影响后续的分割效果，所以提出用ResNet替换掉随机初始化的卷积层作为编码器，与其他的特征提取网络相比，ResNet具有更好的特征提取功能，这是因为ResNet利用了残差学习的方法，通过一个简单的加叠，既不会给网络增加额外的参数与计算量，还在特征弥补上起到了一定的作用；

通过复杂度和精确度来展示了不同模型的多个阶段，包括从AlexNet到 ResNet，可以看出ResNet在所有模型中具有较高的准确率，而且参数量也相对小很多，而在ResNet的变体中，ResNet-34在准确性和性能之间提供了很好的折衷方案，既不会造成网络层数过多，网络臃肿不方便训练，在特征提取的性能上也很有优势，所以本章选择它作为特征提取模块网络；

本实施例中的ResNet-34根据特征图的大小分为五个阶段，在第一个卷积层阶段，可以很好地保留空间信息，从而提供准确的位置预测，在最后一个卷积层阶段，语义信息更加完整，从而提供了更准确的语义预测；

本实施例不仅使用了ResNet-34作为编码器的骨干，还加载了ResNet-34 在ImageNet上训练过的预训练权重，这样就有效避免了模型从头开始训练，不管是在模型的精度上，还是对数据的需求量上都有很大的帮助，此外，为了获取更多的全局信息，我们还在ResNet-34的最后加入了一个全局平均池化层，替换掉原有的全连接层，因为全连接层的参数众多，而全局平均池化层将N个特征图降维成1*N大小的特征图，再用class个1*1卷积核将1*N的特征图卷成1*class的向量；

因此本实施例中编码器的具体结构为：编码器采用ResNet网络提取遥感图像的特征，所述ResNet网络包括N个卷积层和一个Global Pool层，N个卷积层命名为Res-0至Res-(N-1)，在卷积层Res-0至Res-(N-1)中，前一个卷积层的输出作为后一个卷积层的输入，Res-(N-1)的输出作为Global Pool 层(全局平均池化层)的输入；

为了解决建筑物边界的模糊和不规则轮廓，特别是当建筑物与背景的外观相似时，很容易混淆这两种类别，本实施例设计了串联注意力模块(TAM) 以增强识别能力并扩展类之间的区别，在U-Net基础版中，跳过连接时并未对特征做任何处理，而本实施例为了使分割结果更准确，在跳过连接中加入了串联注意力模块；

本实施例的跳过连接单元包括N个串联注意力模块，N个串联注意力模块命名为TAM-0至TAM-(N-1)，N个串联注意力模块与N个卷积层依据命名编号一对一连接，命名编号相同的卷积层的输出作为串联注意力模块的输入，并且在串联注意力模块TAM-0至TAM-(N-1)中，前一个串联注意力模块的输出同时作为后一个串联注意力模块的输入；

如图3所示，串联注意力模块目的是让特征关注感兴趣的东西和位置；

具体的，本实施例中的串联注意力模块包括空间注意块和通道注意块；

所述通道注意块的设计原理是根据各个通道的重要性来重新分配权重，首先输入特征通过最大池化层和平均池化层生成两个空间尺寸为1×1的向量，因为只关注通道中的要素，所以这两种池化层均将输入特征压缩到通道统计信息中，随后，两个向量都被输送到卷积块以进一步生成通道注意力图，卷积块由两个卷积层和一个ReLU函数组成，为了减少参数降低运算消耗，第一个卷积层的输出通道降为输入通道的1/16，第二个卷积层的输出通道数恢复原大小，为了汇总特征执行求和操作合并两个通道注意力图，再经过Sigmoid激活函数来输出通道的得分图，在输入特征和通道得分图之间执行逐元素乘法。

所述空间注意块的原理是在保留完整的特征图的同时压缩通道从而实现关注空间信息的效果，详细结构如图2的下半部所示，首先在通道维度上执行最大池化和平均池化，生成两个通道数为1的特征图，然后拼接两个特征图并应用卷积层在减小通道数的同时生成空间注意图，通过Sigmoid激活函数将每个像素的分类概率归一化为[0,1]，根据特征的概率分数图，重新缩放输入特征以选择性地增强感兴趣的特征，达到解决建筑物边界模糊的效果。

由于串联注意力模块TAM-0无低级特征的输入，因此串联注意力模块 TAM-0中的通道注意块未使用，以空间注意块的输出作为串联注意力模块 TAM-0，因此串联注意力模块TAM-0也可以称为空间注意块DB-0。

U-Net的解码器一般是使用简单地上采样操作或者是反卷积层，把下采样的特征图还原回原有尺寸，但是仅仅简单地上采样是不足以在高分辨率的建筑物图像上获得精确分割，所以我们在解码器中加入了并联注意力模块 (PAM)，以获得感兴趣的特征。

本实施例的解码器包括N个并联注意力模块，N个并联注意力模块命名为PAM-0至PAM-(N-1)，N个并联注意力模块与N个串联注意力模块依据命名编号一对一连接，命名编号相同的串联注意力模块的输出作为并联注意力模块的输入，并且在并联注意力模块PAM-(N-1)至PAM-0中，前一个并联注意力模块的输出同时作为后一个并联注意力模块的输入，其中所述Global Pool层的输出作为并联注意力模块PAM-(N-1)的输入，并联注意力模块 PAM-0的输出即为分割后得到的建筑物图。

如图4所示，并联注意力模块接收串联注意力模块输出的特征以及前一并联注意力模块输出的特征，以串联注意力模块输出的特征为低级特征，以前一并联注意力模块输出的特征为高级特征，并从空间和通道双维度选择了更多具有辨别力的特征。

具体的，本实施例中的并联注意力模块包括空间注意模块和通道注意模块。

所述通道注意力模块旨在改变每个通道中特征的权重来增强特征的一致性，如图3的上半部所示，首先在通道维度上合并高级特征与低级特征形成新的特征图，这有利于对特征进行有效利用，为了达到只关注通道中特征的效果，采用全局平均池化将输入特征x压缩到通道统计s中。

为了恢复特征图通道数，利用第一个1×1的卷积把合并后的通道数恢复为原大小，接着ReLU函数进行激活，利用第二个1×1的卷积生成特征图，再经过sigmoid函数生成特征得分图，再将分数图重新缩放回低级特征，利用高级特征的得分图指导低阶特征选择通道上权重更大的有效特征，最终将选择出的低级特征和高级特征进行求和操作输出；

所述空间注意机制的高级特征首先通过1×1的卷积层，目的是对通道数降维将注意力集中在空间特征上，并通过使用sigmoid函数生成分数图将其归一化为[0,1]，然后，对分数图逐元素的计算熵得分图，并与低级特征相乘，对低级特征分配熵得分图的权重，之后，将高级特征与加权的低级特征进行求和以进一步处理，值得注意的是，熵得分图在建筑物提取任务中与建筑物边界有很强的关系，因此空间注意力机制可以为建筑物边界分割带来好处，特别是结合整体二进制交叉熵损失来训练分割网络；

当然为了保持改进后的解码器能够保留原有解码器还原特征图的性质，在解码器的N个并联注意力模块中，按照数据传递方向(即如图2中箭头所示方向)，每个并联注意力模块前还连接有一个反卷积层；

在模型训练过程中，利用训练集对图像分割模型进行训练时，本实施例采用随机梯度下降法优化图像分割模型，其中随机梯度下降法为现有的训练方法，在此不再进行赘述，并且本实施例中仅优选使用随机梯度下降法，在实际应用过程中，还利用采用其他训练方法进行替换，例如逆误差传播算法、梯度下降法等；

本实施例选定两种评价指标对图像分割模型的输出结果进行评价，即总体(度(Overall Accura)y)与平均IOU(mean IOU)，总体精度表示被分类到正确地真实分类中的像素比例，而平均IOU是指两个区域的重叠区域在两个区域中所占比例，它们的计算公式分别如下：

其中，TP表示正确的正样本(真阳性)的数量，TN表示正确的负样本(真阴性)的数量，FP表示错误的正样本(假阳性)的数量，FN表示错误的负样本(假阴性)的数量。

损失函数是用来表现预测结果与实际结果的差距程度，作为优化的目标会直接关系模型训练的好坏，所以本节在二进制交叉熵损失函数基础上进行改进，在实验中，数据的标签只有两种：建筑物和非建筑物，实验可以将建筑物的语义分割视为像素的二进制分类问题，因此，选择二进制交叉熵损失作为损失函数的主体，这种损失集中在确认给定标签是否适用上，如果标签的对应类别超过某个概率阈值，则以这种方式应用标签，这些阈值以及将这些阈值作为模型参数包含在内的好处已进行了大量研究[43]，二进制交叉熵损失的公式如下：

其中，n为遥感图像的数量，y_i是基本事实，

是实际预测结果；

但是，认为梯度的方向仅由交叉熵确定是不准确的，交叉熵只能限制预测值和真实值之间的相似性，无法对指标的整体效果有所提升，于是便添加了评估指标，以使损失函数的培训方向更加明确，因此，可以构造出如下所示的损失函数：

L＝(1-W)×H-W×logIOU

式中，L为最终使用的损失函数，W为常数，一般设置为0.3，H为二进制交叉损失函数，IoU为平均IoU，指两个区域的重叠区域在两个区域中所占比例；其中H是上述的二进制交叉损失函数；

对图像分割模型训练后，保存达到收敛的权重文件，作为后续测试或者分类使用的输入权重，本实施例中，收敛条件是看损失函数的值和最终的评价指标，如果损失函数和评价指标基本不会有太大提升，就表明已经拟合了，继续训练就会过拟合。

步骤S3、利用优化后的图像分割模型处理待分割的遥感图像，输出分割后得到的建筑物图；

训练优化后的图像分割模型具有较优的分割效果，针对待分割的遥感图像，输出的分割后的建筑物图可以是以不同颜色区分图像中内容，例如白色表示建筑物，黑色表示非建筑物，当然也可以采用划线等形式表示分割后的建筑物和非建筑物；

为了更好地证明本申请的分割结果，以下通过一具体实例进一步说明：

a.参数设置

实验运行环境为Ubuntu***16.04，采用开源框架Pytorch，搭配12GB 的NVIDIAGeForce RTX 3060 GPU；

训练时，最大迭代次数为100次，每次训练4个批次，每个批次训练2480 张图片，编码器的初始学***均IOU(mean IOU)，采用损失函数L作为实验中的损失函数。

c.实验结果

使用Inria数据集中的五个城市(A城市，B城市，C城市，D城市和E 城市)的前5张图像作为一个测试集，其余图片作为训练集，同时对比了多个目前主流的算法，结果如表1所示：

表1：测试集中各城市的评价结果，“-”表示该指标在其论文中未给出

将FMAM-Net与Inria航拍影像标签数据集上的最新方法进行比较，包括 SegNet(Multi-Task Loss)[11]，U-Net&Attention[12]和U-Net ResNet-34，且 U-Net&Attention也运用了注意力机制等方法，很有比较性；

根据表1中的数据可以看出，从垂直比较上来看，提出的方法在五个城市中均比其他方法获得了更高的IoU，无论是在住宅区还是山区，FMAM-Net 都具有更好的泛化能力，从五个城市的平均指标来看，提出的方法比U-Net &Attention高出6.64％，而对比基准U-Net ResNet-34，指标提高了3.47％，此外，在Acc.得分上，提出的方法也比SegNet(Multi-Task Loss)高0.95％，从定量分析的角度可以看出FMAM-Net确实优于对比的方法；

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行，除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行，而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于串联注意力模块和并联注意力模块的建筑物分割***，其特征在于：包括图像获取模块、样本构建模块与图像分割模型；所述图像分割模型包括编码器、跳过连接单元与解码器；所述跳过连接单元包括串联注意力模块；所述串联注意力模块包括通道注意模块与空间注意模块；所述解码器包括并联注意力模块，所述并联注意力模块包括空间注意力模块与通道注意力模块；

所述串联注意力模块接收卷积层输出的特征，先经过通道注意块根据各个通道的重要性来重新分配权重，首先输入特征通过最大池化层和平均池化层生成两个空间尺寸为1×1的向量，因为只关注通道中的要素，所以这两种池化层均将输入特征压缩到通道统计信息中，两个向量都被输送到卷积块以进一步生成通道注意力图，卷积块由两个卷积层和一个ReLU函数组成，为了减少参数降低运算消耗，第一个卷积层的输出通道降为输入通道的1/16，第二个卷积层的输出通道数恢复原大小，为了汇总特征执行求和操作合并两个通道注意力图，再经过Sigmoid激活函数来输出通道的得分图；通过空间注意块保留完整的特征图的同时压缩通道从而实现关注空间信息的效果，在通道维度上执行最大池化和平均池化，生成两个通道数为1的特征图，拼接两个特征图并应用卷积层在减小通道数的同时生成空间注意图，通过Sigmoid激活函数将每个像素的分类概率归一化为[0,1]，根据特征的概率分数图，重新缩放输入特征以选择性地增强感兴趣的特征，达到解决建筑物边界模糊的效果；

所述并联注意力模块接收串联注意力模块和输出的特征，引入低级特征和高级特征，利用高级特征指导低级特征选择，并从空间和通道双维度选择了更多具有辨别力的特征，所述通道注意力模块旨在改变每个通道中特征的权重来增强特征的一致性，在通道维度上合并高级特征与低级特征形成新的特征图，这有利于对特征进行有效利用，为了达到只关注通道中特征的效果，采用全局平均池化将输入特征压缩，为了恢复特征图通道数，利用第一个1×1的卷积把合并后的通道数恢复为原大小，接着ReLU函数进行激活，利用第二个1×1的卷积生成特征图，再经过sigmoid函数生成特征得分图，再将分数图重新缩放回低级特征，利用高级特征的得分图指导低阶特征选择通道上权重更大的有效特征，最终将选择出的低级特征和高级特征进行求和操作输出，接着经过空间注意机制，高级特征首先通过1×1的卷积层，目的是对通道数降维将注意力集中在空间特征上，并通过使用sigmoid函数生成分数图将其归一化为[0,1]，对分数图逐元素的计算熵得分图，并与低级特征相乘，对低级特征分配熵得分图的权重，将高级特征与加权的低级特征进行求和以进一步处理。

2.根据权利要求1所述的一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法，其特征在于：所述通道注意块的设计原理是根据各个通道的重要性来重新分配权重，输入特征通过最大池化层和平均池化层生成两个空间尺寸为1×1的向量，因为只关注通道中的要素，所以这两种池化层均将输入特征压缩到通道统计信息中，两个向量都被输送到卷积块以进一步生成通道注意力图，卷积块由两个卷积层和一个ReLU函数组成，为了减少参数降低运算消耗，第一个卷积层的输出通道降为输入通道的1/16，第二个卷积层的输出通道数恢复原大小，为了汇总特征执行求和操作合并两个通道注意力图，再经过Sigmoid激活函数来输出通道的得分图，在输入特征和通道得分图之间执行逐元素乘法，公式可以表示；

y_p＝e_p*x_p

3.根据权利要求1所述的一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法，其特征在于：所述空间注意块的原理是在保留完整的特征图的同时压缩通道从而实现关注空间信息的效果，首先在通道维度上执行最大池化和平均池化，生成两个通道数为1的特征图，然后拼接两个特征图并应用卷积层在减小通道数的同时生成空间注意图，通过Sigmoid激活函数将每个像素的分类概率归一化为[0,1]，根据特征的概率分数图，重新缩放输入特征以选择性地增强感兴趣的特征，达到解决建筑物边界模糊的效果。

4.根据权利要求1所述的一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法，其特征在于：所述通道注意力模块旨在改变每个通道中特征的权重来增强特征的一致性，首先在通道维度上合并高级特征与低级特征形成新的特征图，这有利于对特征进行有效利用，为了达到只关注通道中特征的效果，采用全局平均池化将输入特征x压缩到通道统计s中，x的第c个通道可以通过以下公式计算：

其中x_c是输入特征xx的第c个通道，M×N表示x_c的空间维度，为了恢复特征图通道数，利用第一个1×1的卷积把合并后的通道数恢复为原大小，接着ReLU函数进行激活，利用第二个1×1的卷积生成特征图，再经过sigmoid函数生成特征得分图，再将分数图重新缩放回低级特征，利用高级特征的得分图指导低阶特征选择通道上权重更大的有效特征，最终将选择出的低级特征和高级特征进行求和操作输出。

5.根据权利要求1所述的一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法，其特征在于：所述空间注意机制的高级特征首先通过1×1的卷积层，目的是对通道数降维将注意力集中在空间特征上，并通过使用sigmoid函数生成分数图将其归一化为[0,1]，然后，对分数图逐元素的计算熵得分图，并与低级特征相乘，对低级特征分配熵得分图的权重，之后，将高级特征与加权的低级特征进行求和以进一步处理。

6.根据权利要求1所述的一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法，其特征在于：所述并联注意力模块接收串联注意力模块输出的特征以及前一并联注意力模块输出的特征，以串联注意力模块输出的特征为低级特征，以前一并联注意力模块的特征为高级特征。

7.根据权利要求1所述的一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法，其特征在于：N个所述并联注意力模块中，按照数据传递方向，每个并联注意力模型前还连接有一个反卷积层。

8.根据权利要求1所述的一种基于串联注意力模块和并联注意力模块的建筑物分割方法，其特征在于：包括以下步骤：

9.根据权利要求1所述的一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法，其特征在于：所述步骤S2利用训练集优化图像分割模型，基于所述训练集，采用随机梯度下降法优化图像分割模型。

10.根据权利要求1至9所述的一种基于串联注意力模块和并联注意力模块的建筑物分割***及方法，其特征在于：所述构建损失函数，包括：

L＝(1-W)×H-W×logIOU

式中，L为所构建的损失函数，W为权重系数，H为二进制交叉损失函数，IOU为平均IOU，指两个区域的重叠区域在两个区域中所占比例；

其中，二进制交叉损失函数H的公式如下：

其中，n为遥感图像的数量，y_i是基本事实，

是实际预测结果；

平均IOU的计算公式如下：