CN114581762A

CN114581762A - 一种基于多尺度条形池化和金字塔池化的道路提取方法

Info

Publication number: CN114581762A
Application number: CN202111557826.4A
Authority: CN
Inventors: 渠慎明; 周华飞; 冯天伟; 李贺; 席广正; 吕慧娟; 万敏
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-06-03

Abstract

本发明的目的是提供一种基于多尺度条形池化和金字塔池化的道路提取方法，通过替换到传统的池化方式，采用条形池化聚合远程上下文，以一种高效的方式编码道路特征，解决了在遥感图像中道路提取的连通性问题。

Description

一种基于多尺度条形池化和金字塔池化的道路提取方法

技术领域

本发明属于遥感图像信息的自动解译领域技术领域，具体涉及一种基于多尺度条形池化和金字塔池化的道路提取方法。

背景技术

在深度学习领域道路提取可视为二分类语义分割任务，目前广泛使用的语义分割方法建立在FCN的基础上，通过使用卷积层替换掉全连接层，在保留输入图像空间特征的同时，实现像素级别的端到端的预测；在FCN架构的基础上研究人员使用FCN-4s模型进行道路目标提取，并通过使用跳跃连接结构复用浅层的特征信息，准确度有了较大的提高；研究人员在SegNet网络上引入池化索引,编码器部分使用池化层进行下采样时记录最大池化的索引(位置)，在解码器中调用相应的索引信息进行上采样，减小最大池化造成的位置信息丢失的影响；研究人员采用DenseNet结构构建多条回路连接，该模型可以适应不同大小的目标，并且有效的在高分辨率影像中提取道路，但是显著增加了网络的参数量，导致训练耗时很长。研究人员结合注意力机制和空间金字塔模块，提出了金字塔注意力网络实现目标特征信息的增强。上述方法聚焦于更深的特征提取网络或者使用优秀的语义解析模块，没有考虑遥感图像道路本身的结构特点，由于遥感图像具有高分辨且通常覆盖范围大，感受野的大小至关重要，通常采用多次下采样扩大网络的感受野，会导致较小的物体信息无法通过上采样重建。研究人员通过并联多个不同空洞率的空洞卷积，减少下采样操作的同时将感受野的大小扩大至整个输入图像，提高了道路提取能力。

发明内容

本发明的目的是提供一种基于多尺度条形池化和金字塔池化的道路提取方法，用于解决道路提取碎片化的问题。

本发明解决其技术问题的技术方案为：一种基于多尺度条形池化和金字塔池化的道路提取方法，其特征在于，所述方法包括以下步骤：

S1：对输入的原始图像进行数据增强；

S2：模型总体架构搭建；采用Pytorch深度学习框架对模型进行搭建；

S3：搭建多尺度条形池化模块；

S4：搭建混合池化模块；

S5：模型训练，把遥感图像数据输入模型当中进行训练。

所述步骤S1中数据增强方法包括随机水平和垂直翻转，随机平移和随机裁剪。

所述模型总体架构的搭建方法包括：采用编码器解码器架构作为整体的网络架构，首先通过7×7卷积将输入图像下采样到512×512，使用两个3 x 3的卷积构成一个残差块，每3，6，4，3个残差块构成一个构建块，在每个构建块之后分别下采样一次，每次下采样的特征图大小为上个构建块的一半，将编码器通过多尺度条形池化模块跳跃连接解码器的对应部分，最终输入图像在编码器部分下采样到32×32，此时通过两个混合池化模块连接到解码器，之后在解码器部分上采样四次到原图大小，最后输出经过sigmoid函数处理的大小为1024×1024的单通道预测图像。

多尺度条形池化模块的实现方式如下：

设输入张量x∈R^H×W，其中H，W分别为输入张量的长和宽，池化核的大小为 h×w，考虑一种简单的情况，h，w分别可以被H，W整除，输出张量y的长和宽可以分别表示为

则平均池化如公式(1)所示

i_o，j_o表示池化结果的第i_o行第j_o列的值，在给出平均池化公式之后，在水平和垂直方向部署两个狭长的池化核捕获远程依赖关系，在垂直方向，池化核的大小为：

水平方向池化核大小为：

分别将公式2、3所述的池化核带入到公式1所述的池化操作当中，则水平方向输出池化结果为

垂直方向输出池化结果为

其中r是人工设定的缩放因子，用于控制池化核的大小。之后，将

逐像素相加得：

函数Scale(.，.)指逐元素相加，分别令r取1、3、7带入到公式4中，得到 y₁、y₂、y₃，然后将y₁、y₂、y₃进行通道合并得

y＝Concat(y_r＝1，y_r＝3，y_r＝7) (5)

其中函数Concat(.，.，.)表示通道合并，最后多尺度条形池化模块的输出可以表示为

Z＝Scale(x，σ(f(y)) (6)

其中σ为sigmoid函数，f表示1×1卷积。

混合池化模块的实现方式如下：所述混合池化模块包括一个多尺度条形池化子模块和一个金字塔池化子模块，多尺度条形池化模块在上小节2已详细描述，本节描述金字塔池化子模块的实现，具体实现如下：对输入特征图进行两次池化操作，池化后的特征图分别为A和B，大小分别为20×20、12×12。然后将池化后的两个特征图A和B上采样到输入特征图大小，最后分别将特征图A、B、输入特征图三者逐像素相加得到输出特征图。

本发明的有益效果为：通过替换到传统的池化方式，采用条形池化聚合远程上下文，以一种高效的方式编码道路特征。解决了在遥感图像中道路提取的连通性问题。

附图说明

图1是本发明的流程图。

图2是本发明的总体架构图。

图3是本发明的多尺度条形池化模块架构图。

图4是本发明的混合池化模块架构图。

图5是本发明金字塔池化架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明包括以下步骤：

步骤1，数据增强：对输入的原始图像进行数据增强，以防止出现过拟合的情况。数据增强方法包括以0.5的概率对输入图像进行随机水平和垂直翻转，随机平移和随机裁剪。

步骤2，模型总体架构搭建：模型架构图如附图2所示，输入图像尺寸为 1024×1024，首先通过7×7卷积将输入图像下采样到512×512，之后在ResNet34 每个构建块分别下采样一次，每次下采样的特征图大小为上个构建块的一半，将编码器通过多尺度条形池化模块跳跃连接解码器的对应部分，最终输入图像在编码器部分下采样到32×32，此时通过两个MP模块连接到解码器，之后在解码器部分上采样四次，每一次上采样都会融合经过多尺度条形池化编码的语义信息，最后输出经过sigmoid函数处理的大小为1024×1024的单通道图像。

步骤3，多尺度条形池化模块搭建。多尺度条形池化模块如附图3所示，设输入张量x∈R^H×W，其中H，W分别为输入张量的长和宽，池化核的大小为h×w，考虑一种简单的情况，h，w分别可以被H，W整除，输出张量y的长和宽可以分别表示为

则平均池化如公式(1)所示

i_o，j_o表示池化结果的第i_o行第j_o列的值，通常池化核的长宽相等，如常用的 3×3、7×7大小的池化核，在处理不规则的物体比如狭长的道路时，会引入不相关的区域语义信息的干扰。本文使用多个不同大小的狭长池化核收集远程上下文信息，具体来说，首先输入一个H×W大小的张量，在垂直方向，池化核的大小为：

水平方向池化核大小为：

分别将其带入公式(1)，水平方向输出池化结果为

垂直方向输出池化结果为

逐像素相加得：

函数Scale(.，.)指逐元素相加，分别令r取1、3、5，则上式分别输出y₁、y₂、 y₃，然后将三者通道合并得

y＝Concat(y_r＝1，y_r＝3，y_r＝5) (5)

其中函数Concat(.，.，.)表示通道合并，最后MSP模块的输出可以表示为

Z＝Scale(x，σ(f(y)) (6)

其中σ为sigmoid函数，f表示1×1卷积。

步骤4，混合池化模块搭建：如图4、5所示，本方法采用了一个轻量级的空间金字塔池化来收集本地上下文信息。具体来说，包括两个用于多尺度特征提收的卷积层，每次池化后的特征图的大小分别为20×20和12×12，然后将其上采样到输入特征图大小，以及用于保留原始空间信息的二维卷积层，最后通过求和组合所有三个子路径。基于MP和MSP两个子模块，构成混合池化模块，在每个模块之前，首先使用1×1卷积进行通道缩减，将通道缩减为原来的四分之一，然后将两个模块的输入相加在一起，最后通过一个1×1卷积将通道扩展为四倍。输出和输入特征图大小保持一致，以便可以方便的嵌入网络当中。

步骤5，模型训练，实验基于pytorch深度学习框架，CPU为6×Xeon E5-2678 v3，GPU为2×NVIDIA GeForce RTX 2080 Ti在实验过程中BatchSize设置为11，初始学习率设置为0.005，每隔4个epoch损失不下降将学习率调整为原来的五分之一，Epoch设置为200，最终我们的网络收敛于130个epoch。

本发明通过一种新颖的条形池化方式，聚合远程上下文，这种远程上下文先验知识可以为被树木，建筑遮挡的道路提供先验。从而恢复道路的连通性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于多尺度条形池化和金字塔池化的道路提取方法，其特征在于，所述方法包括以下步骤：

S1：对输入的原始图像进行数据增强；

S3：搭建多尺度条形池化模块；

S4：搭建混合池化模块；

S5：模型训练，把遥感图像数据输入模型当中进行训练。

2.根据权利要求1所述的一种基于多尺度条形池化和金字塔池化的道路提取方法，其特征在于，所述步骤S1中数据增强方法包括随机水平和垂直翻转，随机平移和随机裁剪。

3.根据权利要求1所述的一种基于多尺度条形池化和金字塔池化的道路提取方法，其特征在于，所述模型总体架构的搭建方法包括：采用编码器解码器架构作为整体的网络架构，首先通过7×7卷积将输入图像下采样到512×512，使用两个3x3的卷积构成一个残差块，每3，6，4，3个残差块构成一个构建块，在每个构建块之后分别下采样一次，每次下采样的特征图大小为上个构建块的一半，将编码器通过多尺度条形池化模块跳跃连接解码器的对应部分，最终输入图像在编码器部分下采样到32×32，此时通过两个混合池化模块连接到解码器，之后在解码器部分上采样四次到原图大小，最后输出经过sigmoid函数处理的大小为1024×1024的单通道预测图像。

4.根据权利要求1所述的一种基于多尺度条形池化和金字塔池化的道路提取方法，其特征在于，多尺度条形池化模块的实现方式如下：

设输入张量x∈R^H×W，其中H，W分别为输入张量的长和宽，池化核的大小为h×w，考虑一种简单的情况，h，w分别可以被H，W整除，输出张量y的长和宽可以分别表示为

则平均池化如公式(1)所示

水平方向池化核大小为：

垂直方向输出池化结果为

逐像素相加得：

函数Scale(.，.)指逐元素相加，分别令r取1、3、7带入到公式4中，得到y₁、y₂、y₃，然后将y₁、y₂、y₃进行通道合并得

y＝Concat(y_r＝1，y_r＝3，y_r＝7) (5)

Z＝Scale(x，σ(f(y)) (6)

其中σ为sigmoid函数，f表示1×1卷积。

5.根据权利要求1所述的一种基于多尺度条形池化和金字塔池化的道路提取方法，其特征在于，混合池化模块的实现方式如下：所述混合池化模块包括一个多尺度条形池化子模块和一个金字塔池化子模块，多尺度条形池化模块在上小节2已详细描述，本节描述金字塔池化子模块的实现，具体实现如下：对输入特征图进行两次池化操作，池化后的特征图分别为A和B，大小分别为20×20、12×12。然后将池化后的两个特征图A和B上采样到输入特征图大小，最后分别将特征图A、B、输入特征图三者逐像素相加得到输出特征图。