CN112084859B - 一种基于稠密边界块和注意力机制的建筑物分割方法 - Google Patents

一种基于稠密边界块和注意力机制的建筑物分割方法 Download PDF

Info

Publication number
CN112084859B
CN112084859B CN202010782544.3A CN202010782544A CN112084859B CN 112084859 B CN112084859 B CN 112084859B CN 202010782544 A CN202010782544 A CN 202010782544A CN 112084859 B CN112084859 B CN 112084859B
Authority
CN
China
Prior art keywords
block
dense
layer
output
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010782544.3A
Other languages
English (en)
Other versions
CN112084859A (zh
Inventor
刘盛
叶焕然
徐婧婷
陈冠州
高飞
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010782544.3A priority Critical patent/CN112084859B/zh
Publication of CN112084859A publication Critical patent/CN112084859A/zh
Application granted granted Critical
Publication of CN112084859B publication Critical patent/CN112084859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于稠密边界块和注意力机制的建筑物分割方法,包括:获取已标记建筑物的遥感图像生成训练集;构建损失函数,利用所述训练集优化图像分割模型;利用优化后的图像分割模型处理待分割的遥感图像,输出标记建筑物后的建筑物图,完成建筑物分割。本发明的图像分割模型包括编码器、跳过连接单元、解码器,利用深度卷积网络进行分割,实现了输入待分割图像即可获得分割结果,避免了额外的计算,使得整个流程更加的趋于自动化。

Description

一种基于稠密边界块和注意力机制的建筑物分割方法
技术领域
本申请属于图像处理技术领域,具体涉及一种基于稠密边界块和注意力机制的建筑物分割方法。
背景技术
随着无人机和卫星技术的快速发展,遥感图像数量正在数以万计的增长。而建筑物作为与人类生活密切相关的一种地物,在遥感图像中占据着大量的比重。因此,高分辨率下的遥感图像中建筑物分割技术一直是研究的重点,对于城市规划,土地保护,城乡改造等都有着重大意义。但是遥感图像自身的特点使得这种分割显得格外困难。首先,遥感图像中有很多遮挡和阴影问题,这些不利因素都影响着建筑物分割算法的判断。其次遥感图像中建筑物区域都有较接近的视觉特征,给相似的感兴趣目标进行分割时有较大的难度。然后,越高的分辨率越能够为图像分割提供更精确的细节,但是这同样会带来分割时的模糊边界。最后,不同地理位置的建筑物形状外观各不相同,这需要网络具有强大的泛化能力。
迄今为止,建筑物的分割可以大致分为基于传统的机器学习提取特征方法和基于深度学习的端到端训练方法。早期人们精心设计一些特征描述符来确定逐像素的分类器。例如从光谱,纹理和形状特征等不同角度,正确组合不同特征获得更好的分类性能;利用多种类别的支持向量机方法,减少了手动获取训练样本的时间。但是这种泛化性差的机器学习方法很难在复杂场景下分割出建筑物,而且一旦面临遥感影像上的不利因素,例如树木遮挡和阴影,就会导致效果不理想。另外,这种手工提取特征的方式无法及时处理好有用数据,成本较高且耗时较长。
随着现代技术的不断进步,GPU的计算速度已经能够满足深度学习的运行消耗,这使得深度学习成为处理遥感图像和建筑物分割的主流方法。卷积神经网络的提出使得深度学习架构不仅用于目标识别,还可以用于语义分割。这种端到端的学习方式可以预测复杂的模型,尤其是与RGB图像有关的模型,例如建筑物的自动分割。通过深度学习对特征的自动适应与选择,解决了传统机器学习手动提取特征中工作量大、分割不准确和鲁棒性较差的缺陷。
对于当前基于深度学习建筑物分割方法的研究,绝大多数的方法都需要大量的标记好的训练样本,一旦数据量不足时,就会对网络的分割结果精度造成影响。其次,在遥感图像中建筑物的外貌特征和外界的道路特征非常相似,大量的分割网络无法分清这两种不同类别的像素;最后,在遥感图像中建筑物会出现模糊和不规则的边界,对分割算法的要求较大。
发明内容
本申请的目的在于提供一种基于稠密边界块和注意力机制的建筑物分割方法,对图像分割的精度高,准确率高,并且分割的边界清晰。
为实现上述目的,本申请所采取的技术方案为:
一种基于稠密边界块和注意力机制的建筑物分割方法,用于针对遥感图像进行建筑物分割,所述基于稠密边界块和注意力机制的建筑物分割方法,包括:
步骤S1、获取已标记建筑物的遥感图像生成训练集;
步骤S2、构建损失函数,利用所述训练集优化图像分割模型;
步骤S3、利用优化后的图像分割模型处理待分割的遥感图像,输出标记建筑物后的建筑物图,完成建筑物分割;
其中,所述图像分割模型包括依次连接的编码器、跳过连接单元、解码器,所述编码器采用ResNet网络提取遥感图像的特征,所述ResNet网络包括N个卷积层和一个GlobalPool层,N个卷积层命名为Res-0至Res-(N-1),在卷积层Res-0至Res-(N-1)中,前一个卷积层的输出作为后一个卷积层的输入,Res-(N-1)的输出作为Global Pool层的输入;
所述跳过连接单元包括N个稠密边界块,N个稠密边界块命名为DBB-0至DBB-(N-1),N个稠密边界块与N个卷积层依据命名编号一对一连接,命名编号相同的卷积层的输出作为稠密边界块的输入,并且在稠密边界块DBB-0至DBB-(N-1)中,前一个稠密边界块的输出同时作为后一个稠密边界块的输入;
所述解码器包括N个通道注意力块,N个通道注意力块命名为CAB-0至CAB-(N-1),N个通道注意力块与N个稠密边界块依据命名编号一对一连接,命名编号相同的稠密边界块的输出作为通道注意力块的输入,并且在通道注意力块CAB-(N-1)至CAB-0中,前一个通道注意力块的输出同时作为后一个通道注意力块的输入,其中所述Global Pool层的输出作为通道注意力块CAB-(N-1)的输入,通道注意力块CAB-0的输出即为标记建筑物后的建筑物图。
以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
作为优选,所述稠密边界块包括稠密块和边界块;
所述稠密块接收卷积层输出的特征,先经过第一卷积处理层和第二卷积处理层,第二卷积处理层的输出与原始卷积层输出的特征进行一次拼接,一次拼接后的特征经过第三卷积处理层和第四卷积处理层,第四卷积处理层的输出、第二卷积处理层的输出、以及原始卷积层输出的特征进行二次拼接,二次拼接后的特征作为所述稠密块的输出;
所述边界块接收稠密块输出的特征,经过1*1的卷积层、ReLu激活函数,随后经过Deconv2d反卷积层、ReLu激活函数、BatchNorm层,输出的特征与前一个稠密边界块的输出进行叠加融合,将叠加融合后的特征再次经过1*1的卷积层后作为该稠密边界块的输出。
作为优选,所述第一卷积处理层和第三卷积处理层为归一化、ReLu激活函数和1x1的卷积,第二卷积处理层和第四卷积处理层为归一化、ReLu激活函数和3x3的卷积。
作为优选,所述通道注意力块接收稠密边界块输出的特征以及前一通道注意力块输出的特征,以稠密边界块输出的特征为低级特征,以前一通道注意力块输出的特征为高级特征;
将高级特征和低级特征混合,利用全局池化层将混合后的特征的尺寸降为1,后经过1*1的卷积层、ReLu激活函数、Batch Norm、*1的卷积层后得到特征图,将特征图经过一个Sigmoid激活函数后产生一个对应各个通道的得分图,将得分图与所述低级特征进行乘法操作后与原有输入的高级特征融合,融合后的特征作为该通道注意力块的输出。
作为优选,所述N个通道注意力块中,按照数据传递方向,每个通道注意力块前还连接有一个反卷积层。
作为优选,所述步骤S2利用所述训练集优化图像分割模型,包括:
基于所述训练集,采用随机梯度下降法优化图像分割模型。
作为优选,所述构建损失函数,包括:
L=(1-W)×H-W×logIOU
式中,L为所构建的损失函数,W为权重系数,H为二进制交叉损失函数,IOU为平均IOU,指两个区域的重叠区域在两个区域中所占比例;
其中,二进制交叉损失函数H的公式如下:
其中,n为遥感图像的数量,yi是基本事实,是实际预测结果;
平均IOU的计算公式如下:
其中,mean IOU为平均IOU,TP表示正确的正样本的数量,FP表示正确的负样本的数量,FN表示错误的负样本的数量。
本申请提供的基于稠密边界块和注意力机制的建筑物分割方法,与现有技术相比,具有以下有益效果:
(1)本申请的图像分割模型包括编码器、跳过连接单元、解码器,利用深度卷积网络进行分割,实现了输入待分割图像即可获得分割结果,避免了额外的计算,使得整个流程更加的趋于自动化。
(2)本申请编码部分加入了迁移学习的知识,用预训练的ResNet网络替换掉编码器的从头训练,降低了整个网络对数据集的需求,避免了因数据集不足时而引起的分割精度降低。
(3)本申请在跳过连接单元中提出了边界监督模块即稠密边界块。其中的稠密块引入了复用的想法,将特征进行了多次使用,增强了网络的识别能力;而边界块中利用低级特征的空间性来指导生成位置信息更明确地特征,使分割的边界更加清晰。
(4)本申请在解码器中添加了根据建筑物特点设计的通道注意力模块。利用高级特征的语义优势来指导低级特征进行选择,让网络获得更多感兴趣的特征,增强了网络对建筑物的识别能力,提高了分割的精度和准确率。
附图说明
图1为本申请的基于稠密边界块和注意力机制的建筑物分割方法的流程图;
图2为本申请图像分割模型的结构示意图;
图3为本申请稠密边界块的结构示意图;
图4为本申请通道注意力块的结构示意图;
图5为本申请提供的一种待分割的遥感图像;
图6为本申请针对图5中的待分割的遥感图像处理后输出的一种建筑物图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
其中一个实施例中,提供一种基于稠密边界块和注意力机制的建筑物分割方法,针对遥感图像可实现准确、清晰的建筑物分割。凡是只纪录各种地物电磁波大小的胶片(或相片),都称为遥感影像(Remote Sensing Image),在遥感中主要是指航空像片和卫星相片。
用于计算机处理的遥感图像必须是数字图像。以摄影方式获取的模拟图像必须用图像扫描仪等进行模/数(A/D)转换;以扫描方式获取的数字数据必须转存到一般数字计算机都可以读出的CCT等通用载体上。即本申请用于处理的遥感图像为计算机可识别的遥感图像,关于如何转化为计算机可识别的遥感图像的过程不进一步限制。
如图1所示,本实施例中的基于稠密边界块和注意力机制的建筑物分割方法,包括以下步骤:
步骤S1、获取已标记建筑物的遥感图像生成训练集。
为了得到具有针对性的图像分割模型,通常需要获取相关图像对模型进行训练,直至模型达到预想的输出效果。在模型训练中需要准备足够量的样本图像,通常样本图片可以是直接使用现有的数据集,也可以是自行获取并标注图片后生成样本图片。为了保证训练数据的有效性,本实施例提供一种训练集和测试集生成方法如下。
a、数据样本准备
获取现有的Inria航空影像标签数据集(Inria Aerial Image Labeling Dataset遥感图像数据集)。Inria数据集主要包含来自五种开放式土地覆盖类型。每个区域有36张经过正交校正的图像。此外,这五个区域覆盖了丰富的地貌,从高密度的都会金融区到高山度假胜地。Inria数据集中的遥感图像均带有标签,标签标示了遥感图像中的建筑物。
b、训练集、测试集准备
上述的数据集中所有的图像大小为5000*5000,分辨率为0.3m。而深度学习的输入由显卡的显存限制,现有的GPU无法容纳5000*5000尺寸的图像训练,因此将5000*5000拆分为1024*1024尺寸的图像。使用来自五个城市(即a中的五个区域)的前5张图像作为一个测试集,而其余的则作为训练集用于训练。
c、数据增强
一般而言,比较成功的神经网络需要大量的参数,许许多多的神经网路的参数都是数以百万计,而使得这些参数可以正确工作则需要大量的数据进行训练,而实际情况中数据并没有想象中的那么多。所以为了在较少数据的情况下获得更多的数据,同时为了减少过度拟合,本实施例使用了数据增强。
数据增强主要包括翻转、旋转、缩放、裁剪、平移与增加噪声。通过调用Albumentations图像增强工具,经过多次使用,确定了在数据进行训练之前进行了填充、随机裁剪、垂直翻转、水平翻转和归一化操作,在训练时又应用了正则化技术。不仅增强了训练的数据量,提高了模型的泛化能力,而且增加了噪声数据,提升模型的鲁棒性。
需要说明的是,数据增强中的各项操作均为较为成熟的技术,这里就不对各项操作的具体步骤进行限制说明。
步骤S2、构建损失函数,利用所述训练集优化图像分割模型。
如图2所示,本实施例使用的图像分割模型主要基于U-Net框架,因此本实施例的图像分割模型包括依次连接的编码器、跳过连接单元、解码器。
通常U-Net框架中的编码器主要由多个卷积层构成,用于特征提取。跳过连接是把编码器的特征传递到解码器上,通过这些特征来弥补语义之间的鸿沟。解码器是用多个反卷积或者上采样来还原到原尺寸,其中还会使用编码器传过来的低级特征,用高级特征指导低级特征的融合,还原后的图像依然保持原尺寸大小。接下来分别介绍本实施例图像分割模型中的各个模块。
a、编码器
编码器作为特征提取模块,在整个算法中有重要的作用。目前使用最多的特征提取方法是ResNet。ResNet最初是为了解决网络过深而出现的梯度消失的问题,于是提出允许原始的输入信息可以直接传到后面的层中,来达到梯度传递的效果。
ResNet网络中加入了残差模块细化特征,所以在提取特征方面有巨大的优势,被经常作为特征提取模块的网络框架。但是ResNet的变种有很多,包括ResNet-34,ResNet-50,ResNet-101,ResNet-152,为了在精度和性能之间取得良好的效果,本实施例使用经过预训练的ResNet-34作为编码器的骨干。因为ResNet-34既可以在精度上保持优势,网络的复杂度也不高。
本实施例中的ResNet-34根据特征图的大小分为五个阶段。在第一个卷积层阶段,可以很好地保留空间信息,从而提供准确的位置预测。在最后一个卷积层阶段,语义信息更加完整,从而提供了更准确的语义预测。
本实施例不仅使用了ResNet-34作为编码器的骨干,还加载了ResNet-34在ImageNet上训练过的预训练权重,这样就有效避免了模型从头开始训练,不管是在模型的精度上,还是对数据的需求量上都有很大的帮助。此外,为了获取更多的全局信息,我们还在ResNet-34的最后加入了一个全局平均池化层,替换掉原有的全连接层,因为全连接层的参数众多,而全局平均池化层将N个特征图降维成1*N大小的特征图,再用class个1*1卷积核将1*N的特征图卷成1*class的向量。
因此本实施例中编码器的具体结构为:编码器采用ResNet网络提取遥感图像的特征,所述ResNet网络包括N个卷积层和一个Global Pool层,N个卷积层命名为Res-0至Res-(N-1),在卷积层Res-0至Res-(N-1)中,前一个卷积层的输出作为后一个卷积层的输入,Res-(N-1)的输出作为Global Pool层(全局平均池化层)的输入。
b、跳过连接
为了解决建筑物边界的模糊和不规则轮廓,特别是当建筑物与背景的外观相似时,很容易混淆这两种类别,本实施例设计了稠密边界块(Dense Boundary Block)以增强识别能力并扩展类之间的区别。在U-Net基础版中,跳过连接时并未对特征做任何处理,而本实施例为了使分割结果更准确,在跳过连接中加入了稠密边界块。
本实施例的跳过连接单元包括N个稠密边界块,N个稠密边界块命名为DBB-0至DBB-(N-1),N个稠密边界块与N个卷积层依据命名编号一对一连接,命名编号相同的卷积层的输出作为稠密边界块的输入,并且在稠密边界块DBB-0至DBB-(N-1)中,前一个稠密边界块的输出同时作为后一个稠密边界块的输入。
如图3所示。稠密边界块利用各种稠密的连接,使得特征得到更多次数和细致的学习。而且特征在从低层向高层的传递过程中,不断指导高层学习低层的空间信息,这对于整体的边界分割是有帮助的。
具体的,本实施例中的稠密边界块包括稠密块和边界块。
稠密块接收卷积层输出的特征,先经过第一卷积处理层和第二卷积处理层,第二卷积处理层的输出与原始卷积层输出的特征进行一次拼接,一次拼接后的特征经过第三卷积处理层和第四卷积处理层,第四卷积处理层的输出、第二卷积处理层的输出、以及原始卷积层输出的特征进行二次拼接,二次拼接后的特征作为所述稠密块的输出。
边界块接收稠密块输出的特征,经过1*1的卷积层、ReLu激活函数,随后经过Deconv2d反卷积层、ReLu激活函数、BatchNorm层,输出的特征与前一个稠密边界块的输出进行叠加融合,将叠加融合后的特征再次经过1*1的卷积层后作为该稠密边界块的输出。
其中,第一卷积处理层和第三卷积处理层为归一化(Batch)、ReLu激活函数和1x1的卷积,第二卷积处理层和第四卷积处理层为归一化(Batch)、ReLu激活函数和3x3的卷积。
稠密边界块输入(Input1,即卷积层输出的特征)首先对特征进行进一步的规整,随后与输入进行拼接操作,把不同的特征融合在一起,后序的操作大致相同,都是为了使特征能够进一步被充分利用。并且通过引入低级特征(Input2,即前一个稠密边界块的输出的特征)指导高级特征学习更准确的边界信息,这有助于帮助图像中模糊和不规则的边界进行分割。
由于稠密边界块DBB-0无低级特征的输入,因此稠密边界块DBB-0中的边界块未使用,以稠密块的输出作为稠密边界块DBB-0。因此稠密边界块DBB-0也可以称为稠密块DB-0。
c、解码器
众所周知,U-Net的解码器一般是使用简单地上采样操作或者是反卷积层,把下采样的特征图还原回原有尺寸。但是仅仅简单地上采样是不足以在高分辨率的建筑物图像上获得精确分割,所以我们在解码器中加入了通道注意力块(CAB),以获得感兴趣的特征。
本实施例的解码器包括N个通道注意力块,N个通道注意力块命名为CAB-0至CAB-(N-1),N个通道注意力块与N个稠密边界块依据命名编号一对一连接,命名编号相同的稠密边界块的输出作为通道注意力块的输入,并且在通道注意力块CAB-(N-1)至CAB-0中,前一个通道注意力块的输出同时作为后一个通道注意力块的输入,其中所述Global Pool层的输出作为通道注意力块CAB-(N-1)的输入,通道注意力块CAB-0的输出即为标记建筑物后的建筑物图。
如图4所示,通道注意力块接收稠密边界块输出的特征以及前一通道注意力块输出的特征,以稠密边界块输出的特征为低级特征,以前一通道注意力块输出的特征为高级特征。
将高级特征和低级特征混合,利用全局池化层将混合后的特征的尺寸降为1,后经过1*1的卷积层、ReLu激活函数、Batch Norm、*1的卷积层后得到特征图,将特征图经过一个Sigmoid激活函数后产生一个对应各个通道的得分图,将得分图与所述低级特征进行乘法操作后与原有输入的高级特征融合,融合后的特征作为该通道注意力块的输出。
本实施例中的通道注意力块有高级特征和低级特征两个输入,首先混合低级特征和高级特征,这样的结果更有利于筛选。然后利用全局池化把尺寸降为1,把注意力全部集中在通道上,经过两个卷积和池化层生成特征图。最后经过一个sigmoid激活函数后,会产生一个对应各个通道的得分图,把这个得分图和低级特征进行乘法操作,也就是利用高级特征来选择更感兴趣的低级特征。最后把选出来的低级特征和原有的高级特征进行融合,传递给解码器的下一层等待处理。
当然为了保持改进后的解码器能够保留原有解码器还原特征图的性质,在解码器的N个通道注意力块中,按照数据传递方向(即如图2中箭头所示方向),每个通道注意力块前还连接有一个反卷积层。
在模型训练过程中,利用训练集对图像分割模型进行训练时,本实施例采用采用随机梯度下降法优化图像分割模型。其中随机梯度下降法为现有的训练方法,在此不再进行赘述,并且本实施例中优选使用随机梯度下降法,在实际应用过程中,还利用采用其他训练方法进行替换,例如逆误差传播算法、梯度下降法等。
本实施例选定两种评价指标对图像分割模型的输出结果进行评价,即总体精度(Overall Accuracy)与平均IOU(mean IOU)。总体精度表示被分类到正确地真实分类中的像素比例,而平均IOU是指两个区域的重叠区域在两个区域中所占比例。它们的计算公式分别如下:
其中,TP表示正确的正样本(真阳性)的数量,TN表示正确的负样本(真阴性)的数量,FP表示错误的正样本(假阳性)的数量,FN表示错误的负样本(假阴性)的数量。
由于建筑物分割中,标签只有建筑物与非建筑物(这里的标签例如可以是以不同颜色作为标签,针对一张图像,样本图像中的白色表示建筑物,黑色表示非建筑物),因此可以采用使用二进制交叉损失函数,其中公式如下所示:
其中,n为遥感图像的数量,yi是基本事实,是实际预测结果。
本实施例为了避免损失函数的单一控制因素,我们还加入了评价指标(mean IOU)作为损失函数的一项,因此本实施例中损失函数的公式定义如下:
L=(1-W)×H-W×logIOU
式中,L为最终使用的损失函数,W为常数,一般设置为0.3,H为二进制交叉损失函数,IOU为平均IOU,指两个区域的重叠区域在两个区域中所占比例;其中H是上述的二进制交叉损失函数。
对图像分割模型训练后,保存达到收敛的权重文件,作为后续测试或者分类使用的输入权重。本实施例中,收敛条件是看损失函数的值和最终的评价指标,如果损失函数和评价指标基本不会有太大提升,就表明已经拟合了,继续训练就会过拟合。
步骤S3、利用优化后的图像分割模型处理待分割的遥感图像,输出标记建筑物后的建筑物图,完成建筑物分割。
训练优化后的图像分割模型具有较优的分割效果,针对待分割的遥感图像,输出的分割后(即标记建筑物后)的建筑物图可以是以不同颜色区分图像中内容,例如白色表示建筑物,黑色表示非建筑物,例如如图5和图6所示。当然也可以采用划线等形式表示分割后的建筑物和非建筑物。
为了更好地证明本申请的分割结果,以下通过一具体实例进一步说明。
a、参数设置
本实验是基于ubuntu16.04版本的Linux***下进行的,使用了pytorch的深度学习框架,显卡是一张12G的TITAN V。模型的优化方法采用随机梯度下降(StochasticGradient Descent,SGD),动量设置为0.9,权值衰减设置为0.0005。训练数据和测试数据的批大小为4(即一次输入的图像数量)。其中学习率分为了两部分,已经预训练的ResNet-34的学习率设置为0.000001,因为预训练过的学习率不会发生太大的变化,而从头开始训练的其他层学习率设为0.001,在前100次迭代中,学习率均不变,在后100次迭代中,把0.001的学习率降低为0.0001,防止后期学习率过大错过最佳值。
b、评价指标为总体精度(Overall Accuracy,简称Acc.)与平均IOU(mean IOU,简称IoU),采用损失函数L作为实验中的损失函数。
c、实验结果
使用Inria数据集中的五个城市(A城市,B城市,C城市,D城市和E城市)的前5张图像作为一个测试集,其余图片作为训练集。同时对比了多个目前主流的算法,结果如表1所示:
表1:测试集中各城市的评价结果
现有的图像分割方法SegNet和Unet++都是基于编码解码结构的算法,与本申请的建筑物分割方法框架大致相同,具有很好的对比性,且Unet++也使用了预训练的ResNet网络作为编码器的特征提取网络,具有较相似性。
根据表1中的数据可以看出,本申请提出的建筑物分割方法虽然在某些地形中的分割总体精度稍低于现有的分割技术,但是从整个数据上来看,本申请提出的建筑物分割方法针对不同的地形均具有较优的总体精度以及平均IOU,并且在总体评价指标上有了很大的提升,IoU提升了4%,准确率提升了2%,大大提升了图像分割的有效性,利于基于遥感图像的建筑物分割技术的推广。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于稠密边界块和注意力机制的建筑物分割方法,用于针对遥感图像进行建筑物分割,其特征在于,所述基于稠密边界块和注意力机制的建筑物分割方法,包括:
步骤S1、获取已标记建筑物的遥感图像生成训练集;
步骤S2、构建损失函数,利用所述训练集优化图像分割模型;
步骤S3、利用优化后的图像分割模型处理待分割的遥感图像,输出标记建筑物后的建筑物图,完成建筑物分割;
其中,所述图像分割模型包括依次连接的编码器、跳过连接单元、解码器,所述编码器采用ResNet网络提取遥感图像的特征,所述ResNet网络包括N个卷积层和一个Global Pool层, N个卷积层命名为Res-0至Res-(N-1),在卷积层Res-0至Res-(N-1)中,前一个卷积层的输出作为后一个卷积层的输入,Res-(N-1)的输出作为Global Pool层的输入;
所述跳过连接单元包括N个稠密边界块, N个稠密边界块命名为DBB-0至DBB-(N-1),N个稠密边界块与N个卷积层依据命名编号一对一连接,命名编号相同的卷积层的输出作为稠密边界块的输入,并且在稠密边界块DBB-0至DBB-(N-1)中,前一个稠密边界块的输出同时作为后一个稠密边界块的输入;
所述解码器包括N个通道注意力块,N个通道注意力块命名为CAB-0至CAB-(N-1),N个通道注意力块与N个稠密边界块依据命名编号一对一连接,命名编号相同的稠密边界块的输出作为通道注意力块的输入,并且在通道注意力块CAB-(N-1)至 CAB-0中,前一个通道注意力块的输出同时作为后一个通道注意力块的输入,其中所述Global Pool层的输出作为通道注意力块CAB-(N-1)的输入,通道注意力块CAB-0的输出即为标记建筑物后的建筑物图;
其中,所述稠密边界块包括稠密块和边界块;
所述稠密块接收卷积层输出的特征,先经过第一卷积处理层和第二卷积处理层,第二卷积处理层的输出与原始卷积层输出的特征进行一次拼接,一次拼接后的特征经过第三卷积处理层和第四卷积处理层,第四卷积处理层的输出、第二卷积处理层的输出、以及原始卷积层输出的特征进行二次拼接,二次拼接后的特征作为所述稠密块的输出;
所述边界块接收稠密块输出的特征,经过1×1的卷积层、ReLu激活函数,随后经过Deconv2d反卷积层、ReLu激活函数、BatchNorm层,输出的特征与前一个稠密边界块的输出进行叠加融合,将叠加融合后的特征再次经过1×1的卷积层后作为该稠密边界块的输出。
2.如权利要求1所述的基于稠密边界块和注意力机制的建筑物分割方法,其特征在于,所述第一卷积处理层和第三卷积处理层为归一化、ReLu激活函数和1×1的卷积,第二卷积处理层和第四卷积处理层为归一化、ReLu激活函数和3×3的卷积。
3.如权利要求1所述的基于稠密边界块和注意力机制的建筑物分割方法,其特征在于,所述通道注意力块接收稠密边界块输出的特征以及前一通道注意力块输出的特征,以稠密边界块输出的特征为低级特征,以前一通道注意力块输出的特征为高级特征;
将高级特征和低级特征混合,利用全局池化层将混合后的特征的尺寸降为1,后经过1×1的卷积层、ReLu激活函数、Batch Norm、1×1的卷积层后得到特征图,将特征图经过一个Sigmoid激活函数后产生一个对应各个通道的得分图,将得分图与所述低级特征进行乘法操作后与原有输入的高级特征融合,融合后的特征作为该通道注意力块的输出。
4.如权利要求1所述的基于稠密边界块和注意力机制的建筑物分割方法,其特征在于,所述N个通道注意力块中,按照数据传递方向,每个通道注意力块前还连接有一个反卷积层。
5.如权利要求1所述的基于稠密边界块和注意力机制的建筑物分割方法,其特征在于,所述步骤S2利用所述训练集优化图像分割模型,包括:
基于所述训练集,采用随机梯度下降法优化图像分割模型。
6.如权利要求1所述的基于稠密边界块和注意力机制的建筑物分割方法,其特征在于,所述构建损失函数,包括:
式中,为所构建的损失函数,/>为权重系数,/>为二进制交叉损失函数,/>为平均,指两个区域的重叠区域在两个区域中所占比例;
其中,二进制交叉损失函数的公式如下:
其中,为遥感图像的数量,/>是基本事实,/>是实际预测结果;
平均的计算公式如下:
其中,为平均/>,/>表示正确的正样本的数量,/>表示正确的负样本的数量,/>表示错误的负样本的数量。
CN202010782544.3A 2020-08-06 2020-08-06 一种基于稠密边界块和注意力机制的建筑物分割方法 Active CN112084859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010782544.3A CN112084859B (zh) 2020-08-06 2020-08-06 一种基于稠密边界块和注意力机制的建筑物分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010782544.3A CN112084859B (zh) 2020-08-06 2020-08-06 一种基于稠密边界块和注意力机制的建筑物分割方法

Publications (2)

Publication Number Publication Date
CN112084859A CN112084859A (zh) 2020-12-15
CN112084859B true CN112084859B (zh) 2024-02-09

Family

ID=73736093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010782544.3A Active CN112084859B (zh) 2020-08-06 2020-08-06 一种基于稠密边界块和注意力机制的建筑物分割方法

Country Status (1)

Country Link
CN (1) CN112084859B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129310B (zh) * 2021-03-04 2023-03-31 同济大学 一种基于注意力路由的医学图像分割***
CN113689435B (zh) * 2021-09-28 2023-06-20 平安科技(深圳)有限公司 图像分割方法、装置、电子设备及存储介质
CN114187520B (zh) * 2021-12-15 2022-09-27 中国科学院地理科学与资源研究所 一种建筑物提取模型的构建及应用方法
CN115082778B (zh) * 2022-04-28 2023-04-07 中国农业科学院农业信息研究所 一种基于多分支学习的宅基地识别方法及***
CN115661820B (zh) * 2022-11-15 2023-08-04 广东工业大学 一种基于密集特征反向融合的图像语义分割方法及***
CN117612025A (zh) * 2023-11-23 2024-02-27 国网江苏省电力有限公司扬州供电分公司 基于扩散模型的遥感图像屋顶识别方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389051A (zh) * 2018-09-20 2019-02-26 华南农业大学 一种基于卷积神经网络的建筑物遥感图像识别方法
CN109584248A (zh) * 2018-11-20 2019-04-05 西安电子科技大学 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110532914A (zh) * 2019-08-20 2019-12-03 西安电子科技大学 基于精细特征学习的建筑物检测方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389051A (zh) * 2018-09-20 2019-02-26 华南农业大学 一种基于卷积神经网络的建筑物遥感图像识别方法
CN109584248A (zh) * 2018-11-20 2019-04-05 西安电子科技大学 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110532914A (zh) * 2019-08-20 2019-12-03 西安电子科技大学 基于精细特征学习的建筑物检测方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法

Also Published As

Publication number Publication date
CN112084859A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN112084859B (zh) 一种基于稠密边界块和注意力机制的建筑物分割方法
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
CN113408471B (zh) 一种基于多任务深度学习的无绿幕人像实时抠图算法
US11393100B2 (en) Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network
US11651477B2 (en) Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
CN110782490A (zh) 一种具有时空一致性的视频深度图估计方法及装置
CN111369581A (zh) 图像处理方法、装置、设备及存储介质
CN110796009A (zh) 基于多尺度卷积神经网络模型的海上船只检测方法及***
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN114038006A (zh) 一种抠图网络训练方法及抠图方法
CN112906614A (zh) 基于注意力指导的行人重识别方法、装置及存储介质
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及***
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN115398475A (zh) 抠图实现方法、装置、设备及存储介质
CN116012232A (zh) 图像处理方法、装置及存储介质、电子设备
CN115272437A (zh) 一种基于全局与局部特征的图像深度估计方法及装置
CN113689434A (zh) 一种基于条带池化的图像语义分割方法
CN114862707A (zh) 一种多尺度特征恢复图像增强方法、装置及存储介质
CN112164078B (zh) 基于编码器-解码器的rgb-d多尺度语义分割方法
CN115761223A (zh) 一种利用数据合成的遥感影像实例分割方法
CN115035429A (zh) 一种基于复合主干网络和多预测头的航拍目标检测方法
CN115205624A (zh) 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant