CN114037922B - 一种基于层级上下文网络的航拍图像分割方法 - Google Patents

一种基于层级上下文网络的航拍图像分割方法 Download PDF

Info

Publication number
CN114037922B
CN114037922B CN202111432260.2A CN202111432260A CN114037922B CN 114037922 B CN114037922 B CN 114037922B CN 202111432260 A CN202111432260 A CN 202111432260A CN 114037922 B CN114037922 B CN 114037922B
Authority
CN
China
Prior art keywords
pixel
network
pixel point
context information
hierarchical context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111432260.2A
Other languages
English (en)
Other versions
CN114037922A (zh
Inventor
周峰
杭仁龙
刘青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING AUDIT UNIVERSITY
Original Assignee
NANJING AUDIT UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING AUDIT UNIVERSITY filed Critical NANJING AUDIT UNIVERSITY
Priority to CN202111432260.2A priority Critical patent/CN114037922B/zh
Publication of CN114037922A publication Critical patent/CN114037922A/zh
Application granted granted Critical
Publication of CN114037922B publication Critical patent/CN114037922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于层级上下文网络的航拍图像分割方法,首先设计并构建像素点‑像素点子网络,接着设计并构建像素点‑物体子网络,随后根据构建的像素点‑像素点子网络和像素点‑物体子网络组成层级上下文网络,并获得层级上下文信息,然后利用获得的层级上下文信息完成对航拍图像的分割作业;本发明通过构建语义和细节两种粒度的层级上下文信息,从而更好地帮助判断目标物体的类别以及刻画其空间细节信息,且使用无监督聚类方法直接从图像中学习类别特征表示,并利用特征表示隐含的类别相关性,进一步帮助卷积特征构建层级上下文信息,最终提出的层级上下文网络在两个公开竞赛数据集以及高分二号卫星数据上取得了最佳的分割性能。

Description

一种基于层级上下文网络的航拍图像分割方法
技术领域
本发明涉及图像分割技术领域,具体涉及一种基于层级上下文网络的航拍图像分割方法。
背景技术
高分辨率航拍图像分割对许多应用来说是至关重要的,比如城市变化检测,救灾和精细化农业,这个任务的目的是判断图像中每一个像素点的所属类别;在高分辨率场景中,类似建筑物,街道,树和车的物体具有的异质性外观容易导致大类内差和小类间差;探索上下文信息已经被广泛认为是解决这个任务问题的有效方法,在过去的几年中,卷积神经网络是捕获上下文信息的一个最优选择;早期基于卷积神经网络的方法(例如FCN-8s)尝试通过一个编码-解码结构学习上下文信息,虽然这些方法能够成功地使用卷积核捕获上下文信息,但是它们的性能仍然受限于它们卷积核感受野的尺寸。
目前几乎所有的分割方法都尝试通过像素点-像素点关系来区分不同的物体;然而,不同类别物体区域中有概率存在相似外观的像素点,例如,航拍图像中灰色的车辆和灰色的楼顶从空中俯视非常相像,将进一步导致像素点-像素点关系容易推导出错误的分割结果,难以区分易混淆物体;因此,需要设计一种基于层级上下文网络的航拍图像分割方法。
发明内容
本发明的目的是克服现有技术的不足,为更好的解决目前的航拍图像分割方法主要关注基于图像中像素点及剩余像素点关系(特征相似度)的上下文信息,但是这些方法难以处理外观部分相似易混淆物体的问题,提供了一种基于层级上下文网络的航拍图像分割方法,其具有足够的判别能力来区分易混淆物体的优点。
为了达到上述目的,本发明所采用的技术方案是:
一种基于层级上下文网络的航拍图像分割方法,包括以下步骤,1、一种基于层级上下文网络的航拍图像分割方法,包括以下步骤,
步骤(A),设计并构建像素点-像素点子网络;
步骤(B),设计并构建像素点-物体子网络;
步骤(C),根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络,并获得层级上下文信息;
步骤(D),利用获得的层级上下文信息完成对航拍图像的分割作业。
前述的一种基于层级上下文网络的航拍图像分割方法,步骤(A),设计并构建像素点-像素点子网络,其中像素点-像素点子网络能够建模像素点-像素点关系,且像素点-像素点子网络构建的具体步骤如下,
步骤(A1),设定一个类别注意力图Ak,再将它乘上卷积特征F的每一个通道从而突出了卷积特征F中第k类物体的特征,接着使用卷积层、批量归一化层和非线性激活函数将所有类别相关的特征都集成到一起构成一个全局的类别级表征F′;
步骤(A2),设定特征F′,且像素点-像素点子网络使用自注意力机制提取像素点-像素点关系;接着将F′输入到两个函数η和θ中分别得到两个新的特征
Figure GDA0004073311830000021
Figure GDA0004073311830000022
其中η和θ代表非线性变换函数,且该函数是由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成,而这两个特征转置成
Figure GDA0004073311830000031
Figure GDA0004073311830000032
其中S=H×W;随后将M的转置和N使用矩阵乘法结合,并使用softmax函数获得像素点-像素点关系
Figure GDA0004073311830000033
如公式(1)所示,
Figure GDA0004073311830000034
其中,相似度函数“sim(·,·)”使用点积相似度衡量M中第i个像素点和N中第j个像素点的相似度;
步骤(A3),将特征F′输入到另一个函数λ得到一个新的特征
Figure GDA0004073311830000035
再使用矩阵乘法将L和W′结合得到每一个像素点细节粒度的上下文信息
Figure GDA0004073311830000036
如公式(2)所示,
Figure GDA0004073311830000037
其中,λ和μ代表非线性变换函数,且该函数由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成。
前述的一种基于层级上下文网络的航拍图像分割方法,步骤(B),设计并构建像素点-物体子网络,其中像素点-物体子网络引入了整体特征的概念,且整体特征是某一类物体包含的所有像素点的特征总和,而构建像素点-物体子网络的具体步骤如下,
步骤(B1),对航拍图像进行聚类学习,其具体步骤如下,
步骤(B11),提出聚类学习方法用于获得每一类物体的全局描述子,且由于原始的航拍图像包含多个类别的物体,聚类学习方法首先从原始大图上裁剪出小尺寸图像块,并构成聚类学习方法的训练集;
步骤(B12),将每个图像块输入到在ImageNet数据集上预训练好的ResNet18中得到对应的特征,再将子网络使用主成分分析对特征进行降维并得到一个D维的特征向量;
步骤(B13),使用基于几何距离的聚类方法k-means将主成分分析降维后的特征向量聚类成K个不同的簇,其中K-means是根据每个输入特征向量和聚类中心的欧氏距离将伪标签分配给对应的输入图像块;
步骤(B14),ResNet18的参数通过预测分配对每个输入图像块的伪标签进行更新迭代,且ResNet18使用随机梯度下降对预测标签和分配的伪标签之间的交叉熵损失进行优化,从而使得聚类学习方法是在伪标签分配和伪标签预测两个步骤交替进行的过程;
步骤(B2),在聚类学习完成之后,每个类别的全局描述子要调整以适应具体的场景,场景即每一个样本,首先设第k类物体的全局描述子记作
Figure GDA0004073311830000041
全局描述子即聚类中心,且像素点-物体子网络是使用多模态融合模型将每一类物体的全局描述子和卷积特征融合从而得到类别注意力图,其具体步骤如下,
步骤(B21),设定一个卷积特征
Figure GDA0004073311830000042
该子网络首先将卷积特征和第k个类别物体的全局描述子投影到一个有B个通道的隐特征
Figure GDA0004073311830000043
如公式(3)所示,
Figure GDA0004073311830000044
其中,
Figure GDA0004073311830000045
Figure GDA0004073311830000046
是权重矩阵,
Figure GDA0004073311830000047
是一个权重向量,E是中间特征的通道个数,“σ(·)”和
Figure GDA0004073311830000048
分别表示sigmoid函数和矩阵元素乘法操作,1是一个元素全为1的矩阵,用来将dk扩展成一个D×H×W张量;上标T表示矩阵的转置操作;
步骤(B22),求得注意力图,且注意力图的求得公式如公式(4)所示,
Ak=Softmax(Tk+b2)   (4)
其中,
Figure GDA0004073311830000049
Figure GDA00040733118300000410
代表的是可学习参数,Ak表示每个像素点和第k类物体的相似度;
步骤(B23),第k类物体的整体特征
Figure GDA0004073311830000051
是通过使用像素点和该类物体的相似度并进一步集成所有像素点的特征得到,如公式(5)所示,
Figure GDA0004073311830000052
其中,F(i,j)是特征图F中位置为(i,j)的像素点对应的特征,ak(i,j)表示的是位置为(i,j)的像素点和第k类物体的相似度;
步骤(B24),
Figure GDA0004073311830000053
被转置成
Figure GDA0004073311830000054
其中S=H×W是像素点的个数,由于要捕获每个像素点的语义粒度上下文信息,从而计算每个像素点和K类物体的关系
Figure GDA0004073311830000055
如公式(6)所示,
Figure GDA0004073311830000056
其中,sim(Fi,ck)是第i个像素点和第k类物体的相似度,且相似度函数“sim(·,·)”的是使用点积相似度sim(Fi,ck)=ρ(Fi)Tδ(ck),其中ρ和δ是两个非线性变换函数,且该函数是由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;
步骤(B25),每个像素点的语义粒度上下文信息
Figure GDA0004073311830000057
能根据它的像素点-物体关系集成K个类别的整体特征,如公式(7)所示,
Figure GDA0004073311830000058
其中,φ和ψ是非线性变换函数,且由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;
前述的一种基于层级上下文网络的航拍图像分割方法,步骤(C),根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络,并获得层级上下文信息,其中层级上下文网络是采用五个卷积模块构成的ResNet18作为骨干网络提取卷积特征,且获得层级上下文信息是通过将Gi和Hi转置成
Figure GDA0004073311830000061
Figure GDA0004073311830000062
并使用矩阵元素求和的方式进行特征集成获得的。
前述的一种基于层级上下文网络的航拍图像分割方法,步骤(D),利用获得的层级上下文信息完成对航拍图像的分割作业,其是将层级上下文信息输入到1×1的卷积层得到最终的分割结果,且要捕获多尺度上下文信息,这样ResNet18最后三层的输出分别用来得到对应的分割结果,而这些分割结果以加权求和的方式融合在一起,最终完成分割作业。
本发明的有益效果是:
(1)本发明通过构建语义和细节两种粒度的层级上下文信息,从而更好地帮助判断目标物体的类别以及刻画其空间细节信息;
(2)本发明使用了无监督聚类方法直接从图像中学习类别特征表示,并利用特征表示隐含的类别相关性,进一步的帮助了卷积特征构建层级上下文信息;
(3)本发明提出的层级上下文网络在两个公开竞赛数据集以及高分二号卫星数据上取得了最佳的分割性能。
附图说明
图1是本发明的一种基于层级上下文网络的航拍图像分割方法的层级上下文网络的整体流程图;
图2是本发明的像素点-像素点子网络流程图;
图3是本发明的像素点-物体子网络流程图;
图4是本发明的卷积特征经过类别注意力图增强后得到的类别特征示意图;
图5是本发明的ISPRS Potsdam数据集示意图;
图6是本发明的ISPRS Vaihingen数据集示意图;
图7是本发明的GID数据集图像地理位置分布情况和高分二号卫星采集图像例子和对应的真实地表示意图;
图8是本发明的Potsdam数据集上测试图片的深度学习模型分割结果对比示意图;
图9是本发明的Vaihingen数据集上测试图片的深度学习模型分割结果对比示意图;
图10是本发明的GID数据集上一张测试图片深度方法的分割结果对比示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1-10所示,本发明的一种基于层级上下文网络的航拍图像分割方法,包括以下步骤,
步骤(A),设计并构建像素点-像素点子网络,其中像素点-像素点子网络能够建模像素点-像素点关系,且像素点-像素点子网络构建的具体步骤如下,
步骤(A1),设定一个类别注意力图Ak,再将它乘上卷积特征F的每一个通道从而突出了卷积特征F中第k类物体的特征,接着使用卷积层、批量归一化层和非线性激活函数将所有类别相关的特征都集成到一起构成一个全局的类别级表征F′;
其中,如图2所示,通过将类别级信息引入到像素点特征中,F′一定程度上能够消除视觉相似性带来的副作用。
步骤(A2),设定特征F′,且像素点-像素点子网络使用自注意力机制提取像素点-像素点关系;接着将F′输入到两个函数η和θ中分别得到两个新的特征
Figure GDA0004073311830000081
Figure GDA0004073311830000082
其中η和θ代表非线性变换函数,且该函数是由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成,而这两个特征转置成
Figure GDA0004073311830000083
Figure GDA0004073311830000084
其中S=H×W;随后将M的转置和N使用矩阵乘法结合,并使用softmax函数获得像素点-像素点关系
Figure GDA0004073311830000085
如公式(1)所示,
Figure GDA0004073311830000086
其中,相似度函数“sim(·,·)”使用点积相似度衡量M中第i个像素点和N中第j个像素点的相似度;
步骤(A3),将特征F′输入到另一个函数λ得到一个新的特征
Figure GDA0004073311830000087
再使用矩阵乘法将L和W′结合得到每一个像素点细节粒度的上下文信息
Figure GDA0004073311830000088
如公式(2)所示,
Figure GDA0004073311830000089
其中,λ和μ代表非线性变换函数,且该函数由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成。
步骤(B),设计并构建像素点-物体子网络,其中像素点-物体子网络引入了整体特征的概念,且整体特征是某一类物体包含的所有像素点的特征总和,而构建像素点-物体子网络的具体步骤如下,
其中,如图3所示目标像素点的标签是由该像素点和每一类物体的相似度决定;因此,分类的精度很大程度依赖于每一类物体特征的表征能力,而基于像素点-像素点关系的模型尝试使用单个像素点的特征来表征一种类别的物体,但由于场景中同一类物体的像素点通常拥有不同的外观,这些基于像素点-像素点关系的模型很难为目标像素点提供具有判别性的每一类物体特征,为了能够得到每一类物体更具代表性的特征,设计了一个像素点-物体子网络。与像素级特征相比,整体特征能够从全局的角度更好地描述图像中某一类物体的分布情况。
步骤(B1),对航拍图像进行聚类学习,其具体步骤如下,
步骤(B11),提出聚类学习方法用于获得每一类物体的全局描述子,且由于原始的航拍图像包含多个类别的物体,聚类学习方法首先从原始大图上裁剪出小尺寸图像块,并构成聚类学习方法的训练集;
其中,小尺寸图像块例如32×32图像块。
步骤(B12),将每个图像块输入到在ImageNet数据集上预训练好的ResNet18中得到对应的特征,再将子网络使用主成分分析对特征进行降维并得到一个D维的特征向量;
其中,为了进一步的聚类。
步骤(B13),使用基于几何距离的聚类方法k-means将主成分分析降维后的特征向量聚类成K个不同的簇,其中K-means是根据每个输入特征向量和聚类中心的欧氏距离将伪标签分配给对应的输入图像块;
其中,到这一步为止,聚类学习方法完成了伪标签的分配过程。
步骤(B14),ResNet18的参数通过预测分配对每个输入图像块的伪标签进行更新迭代,且ResNet18使用随机梯度下降对预测标签和分配的伪标签之间的交叉熵损失进行优化,从而使得聚类学习方法是在伪标签分配和伪标签预测两个步骤交替进行的过程;
步骤(B2),在聚类学习完成之后,每个类别的全局描述子要调整以适应具体的场景,场景即每一个样本,首先设第k类物体的全局描述子记作
Figure GDA0004073311830000091
全局描述子即聚类中心,且像素点-物体子网络是使用多模态融合模型将每一类物体的全局描述子和卷积特征融合从而得到类别注意力图,其具体步骤如下,
步骤(B21),设定一个卷积特征
Figure GDA0004073311830000101
该子网络首先将卷积特征和第k个类别物体的全局描述子投影到一个有B个通道的隐特征
Figure GDA0004073311830000102
如公式(3)所示,
Figure GDA0004073311830000103
其中,
Figure GDA0004073311830000104
Figure GDA0004073311830000105
是权重矩阵,
Figure GDA0004073311830000106
是一个权重向量,E是中间特征的通道个数,“σ(·)”和
Figure GDA0004073311830000107
分别表示sigmoid函数和矩阵元素乘法操作,1是一个元素全为1的矩阵,用来将dk扩展成一个D×H×W张量;上标T表示矩阵的转置操作;
步骤(B22),求得注意力图,且注意力图的求得公式如公式(4)所示,
Ak=Softmax(Tk+b2)   (4)
其中,
Figure GDA0004073311830000108
Figure GDA0004073311830000109
代表的是可学习参数,Ak表示每个像素点和第k类物体的相似度;卷积特征经过类别注意力图的增强后,得到的类别特征如图4所示;可以从图中观察到,类别特征可以精确地定位需要的指定类别的区域;
步骤(B23),第k类物体的整体特征
Figure GDA00040733118300001010
是通过使用像素点和该类物体的相似度并进一步集成所有像素点的特征得到,如公式(5)所示,
Figure GDA00040733118300001011
其中,F(i,j)是特征图F中位置为(i,j)的像素点对应的特征,ak(i,j)表示的是位置为(i,j)的像素点和第k类物体的相似度;
步骤(B24),
Figure GDA00040733118300001012
被转置成
Figure GDA00040733118300001013
其中S=H×W是像素点的个数,由于要捕获每个像素点的语义粒度上下文信息,从而计算每个像素点和K类物体的关系
Figure GDA00040733118300001014
如公式(6)所示,
Figure GDA0004073311830000111
其中,sim(Fi,ck)是第i个像素点和第k类物体的相似度,且相似度函数“sim(·,·)”的是使用点积相似度sim(Fi,ck)=ρ(Fi)Tδ(ck),其中ρ和δ是两个非线性变换函数,且该函数是由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;这一步的目的是为了捕获每个像素点的语义粒度上下文信息。
步骤(B25),每个像素点的语义粒度上下文信息
Figure GDA0004073311830000112
能根据它的像素点-物体关系集成K个类别的整体特征,如公式(7)所示,
Figure GDA0004073311830000113
其中,φ和ψ是非线性变换函数,且由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;该过程是基于自注意力机制得到的。
步骤(C),根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络,并获得层级上下文信息,其中层级上下文网络是采用五个卷积模块构成的ResNet18作为骨干网络提取卷积特征,且获得层级上下文信息是通过将Gi和Hi转置成
Figure GDA0004073311830000114
Figure GDA0004073311830000115
并使用矩阵元素求和的方式进行特征集成获得的。
其中,如图1所示,首先通过使用像素点-像素点关系能提取细节粒度的上下文信息,且为了增强像素点之间的区分度,在建模像素点-像素点关系之前,通过将卷积特征乘上类别注意力图来增强卷积特征;同时基于卷积特征中每个像素点和每一类物体的整体表征的关系捕获对应像素点的语义粒度上下文信息,且每一类物体的整体特征是通过该类物体区域内所有像素点特征求和得到的;这两种上下文信息是通过集成得到层级上下文信息。
步骤(D),利用获得的层级上下文信息完成对航拍图像的分割作业,其是将层级上下文信息输入到1×1的卷积层得到最终的分割结果,且要捕获多尺度上下文信息,这样ResNet18最后三层的输出分别用来得到对应的分割结果,而这些分割结果以加权求和的方式融合在一起,最终完成分割作业;
其中,这个层级上下文能够提供精确的类别信息和物体清晰的空间细节,最终的分割结果图能够通过一个卷积层生成,具体的参数设置如表1所示。
表1子网络的参数设置(V=64)
Figure GDA0004073311830000121
为了更好的描述本发明的使用效果,下面是本发明的一个具体实施例。
(1)本实施例使用的数据集:
本发明在国际摄影测量与遥感学会(International Society forPhotogrammetry and Remote Sensing,ISPRS)发布的Potsdam数据集和Vaihingen数据集进行了大量的实施例来验证本发明提出的方法的有效性。这两个数据集都覆盖了城市场景;其中,Potsdam展示了一个大型街区、狭窄的街道和密集的聚落结构的历史城市,而Vaihingen则是一个有许多独立建筑和小型多层建筑的小村庄。每个数据集都被手工地划分为六种最常见的地表覆盖物类别,分别是不透水表面(Impervious Surfaces),建筑物(Building),低植被(Low Vegetation),树木(Tree),汽车(Car)和背景(Background)。
ISPRS Potsdam是在德国Potsdam地区采集得到,总共划分了38个图像块(如图5(a)所示);图5(b)和(c)展示了其中序号为2_14的图像及其对应的地标覆盖物真实分布图。Potsdam数据集是由38张6000×6000的高分辨率多光谱图像构成,其空间分辨率为5cm。每张图像由四个通道,分别为近红外(near-infrared),红(red),绿(green)和蓝(blue)。在本发明的实施例中,选择near-infrared,red和green构成的IRRG三通道图像作为模型输入,图像中出现的地表覆盖物类别就是上述的六类。根据ISPRS官网的要求,本发明使用24张图像作为训练,剩下的14张图像作为测试,具体的划分情况如表2所示。
表2ISPRS Potsdam训练和测试集划分
Figure GDA0004073311830000131
ISPRS Vaihingen是在德国的Vaihingen地区采集,并且分成了33块图像块,如图6所示;每张图像的平均尺寸是2494×2064,空间分辨率为9cm。每个图像由三个通道(near-infrared,red和green)构成。在本发明的实施例中,我们采用IRRG作为输入图像;不同于Potsdam数据集,Vaihingen数据集只有对应的DSM能在公开网站上获取。该数据集出现的物体类别和Potsdam一样。值得注意的是,Vaihingen数据集中背景这一类物体不做考虑。同样,按照ISPRS官网的要求,本发明使用16张作为训练图像,剩下的17张作为测试,具体的划分情况如表3所示。
表3ISPRS Vaihingen训练和测试集划分
Figure GDA0004073311830000132
由于Potsdam和Vaihingen分别都是在一个城区拍摄得到的,每个数据集对应的训练集和测试集的地表覆盖物分布情况差异性不大。为了能好地验证本发明提出方法的泛化性能,本发明选择了Gaofen Image Dataset(GID)进行更进一步的实施例对比;GID数据集包含了150张高质量的高分二号卫星图像,这个数据集覆盖的地理区域超过50000km2(如图7所示);数据集中120张图像用来训练,剩下的30张图像用于测试。GID中的多光谱图像包含蓝色,绿色,红色和近红外四个波段,并且空间维度为6800×7200。数据集中主要包含了五个类别的物体:建筑物(built-up),农田(farmland),森林(forest),草地(meadow)和水域(water)。
(2)本实施例的实施过程:
本发明使用近红外,红色和绿色通道构成三个数据集的输入图像;为了充分利用计算资源,训练模型的时候本发明使用一个256×256的滑动窗口从原始图像上裁剪出输入图像。在测试阶段,使用同样的方式从测试图像上裁剪出输入图像,并且依次处理它们;本发明使用整体准确率(Overall Accuracy,OA),F1分数和均值交并比(Mean of Class-wiseIntersection over Union,mean IoU)三种指标;OA代表了准确分类的样本占总样本的比率,F1分数是通过计算精确率和召回率的调和平均数得到,IoU是预测分割图和真实图之间的重叠区域。
针对聚类学习方法,本发明使用随机梯度下降进行优化;具体来说,基础学习率,动量和权重衰减设置为0.01,0.9和0.00001,且聚类学习迭代周期为100;此外,聚类学习输入图像块的大小设置为32×32,度量距离为欧氏距离。针对本发明提出的层级上下文网络,记作HCNet(Hierarchical Context Network),采用“Poly”学习率调整策略,其中初始的学习率每次迭代之后都会乘上
Figure GDA0004073311830000141
基础的学习率设置为0.01,动量和权重衰减分别设置为0.9和0.0001;另外,本发明将HCNet的训练周期设置为200个周期,损失函数设置为交叉熵。整个分割网络是由PyTorch工具在Ubuntu操作***上实现,并在一块NVIDIATIAN X显卡上运行。
(3)本实施例的ISPRS数据集实施结果:
为了证明HCNet的有效性,本发明将其和几个基于空间上下文信息最先进的深度学习方法进行了对比;对比方法包括FCN-8s,UNet,SegNet,PSPNet,DeepLabv3+,EncNet,S-RA-FCN,DANet和CGFDN。对于这些方法,本发明使用原作者提供的参数设置,表4给出了Potsdam数据上的数值指标;从表中可以看出,相比较于传统的基于CNN的模型,PSPNet和DeepLabv3+能够取得一个相对比较高的性能,验证了多尺度上下文集成策略的有效性。但是,它们的性能比大部分基于像素点-像素点关系的模型差,这主要是因为后者能够捕获任意距离的像素点之间的关系。总的来说,本发明提出的HCNet能在OA,F1分数和IoU三个指标上取得比其他对比方法更高的结果。具体来说,与次好的模型CGFDN相比,HCNet能够在OA,Mean F1分数和Mean IoU上提升0.5%,0.4%和0.8%。引入语义粒度上下文信息之后,HCNet提升了类内物体的语义一致性。同时,HCNet为了更好地保留空间细节信息,提出捕获细节粒度上下文信息;其中的一些分割结果如图8所示。所有的对比方法无法精确地分类左下角的车,而本发明提出的方法能够获得相对精确的预测结果,推测可能是因为在这个场景中,车的外观和建筑物非常相似。这才进一步地导致对比方法的错分现象;得益于层级上下文,HCNet能够将车和建筑物的区分度进一步提升。另外,HCNet能够很好地保留树的轮廓,而对比方法没有做到。
表4不同的深度学习方法在Potsdam测试集的分割性能对比
Figure GDA0004073311830000151
Figure GDA0004073311830000161
从表5可以得出类似的结论;本发明提出的HCNet能够在OA,Mean F1分数和MeanIoU上取得对比方法中最好的性能。更具体地来说,HCNet能够获得91.0%的OA,88.9%的Mean F1分数和80.7%的Mean IoU。除此之外,图9给出了Vaihingen数据测试集上测试样本的示例。作为对比,本发明提出的HCNet获得了小目标上更精确的分割结果,并且小目标的边缘更加精细化。
表5不同的深度学习方法在Vaihingen测试集的分割性能对比
Figure GDA0004073311830000162
(4)本实施例的GID实施结果:
为了进一步验证HCNet的泛化能力,本发明还将HCNet应用到了采样范围广、时间跨度大的GID数据集上。对比方法包括FCN-8s,UNet,SegNet,PSPNet,DeepLabv3+,EncNet,S-RA-FCN,DANet,CGFDN和PT-GID;表6给出了GID数据集的定量结果。基础模型FCN-8s在GID数据上能够取得95.6%的OA;HCNet将性能提升至98.2%。在对比方法中,DANet学习了空间和通道维度的语义内部相关性,而CGFDN使用共生关系来增强像素点-像素点关系,能够取得更好的结果。不同于对比方法,本发明引入了像素点-物体和像素点-像素点子网络来分别捕获细节粒度和语义粒度的上下文信息;通过这两种子网络,HCNet获得了最高的分割精度。可视化对比示例如图10所示;从图中可以看出,农田是最难分类的类别物体。对比方法很难区分水域和农田,这主要是因为这两类物体的视觉外观非常相似。与其他方法对比,本发明提出的HCNet成功地区分了这两类物体。这归功于HCNet能够探索层级上下文信息(包括物体的语义和细节信息)。
表6不同的深度学习方法在GID数据集的分割性能对比
Figure GDA0004073311830000171
Figure GDA0004073311830000181
综上所述,本发明的一种基于层级上下文网络的航拍图像分割方法,首先设计了两个子网络,即像素点-像素点子网络和像素点-类别子网络,再将这两个子网络直接连接在ResNet18上,并构成了层级上下文网络;接着层级上下文网络使用无监督学习技术直接从原始图像中学习到类别之间的相关性,并以此为基础输入到两个子网络中构建不同粒度的上下文信息,且像素点-像素点子网络的目的是捕获细节粒度的上下文信息,即物体的空间细节;同时像素点-类别子网络旨在提出语义粒度的上下文信息,且该信息为分类物体提供语义信息,而细节粒度和语义粒度的上下文信息融合在一起,形成最终用于分类的上下文信息;最终的上下文信息有足够的判别能力来区分易混淆物体,且大量的消融实施例和深度模型以及基准模型的对比实施例验证了本发明提出的层级上下文网络的有效性。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (3)

1.一种基于层级上下文网络的航拍图像分割方法,其特征在于:包括以下步骤,
步骤(A),设计并构建像素点-像素点子网络,其中像素点-像素点子网络能够建模像素点-像素点关系,且像素点-像素点子网络构建的具体步骤如下,
步骤(A1),设定一个类别注意力图Ak,再将它乘上卷积特征F的每一个通道从而突出了卷积特征F中第k类物体的特征,接着使用卷积层、批量归一化层和非线性激活函数将所有类别相关的特征都集成到一起构成一个全局的类别级表征F′;
步骤(A2),设定特征F′,且像素点-像素点子网络使用自注意力机制提取像素点-像素点关系;接着将F′输入到两个函数η和θ中分别得到两个新的特征
Figure FDA0004073311820000011
Figure FDA0004073311820000012
其中η和θ代表非线性变换函数,且该函数是由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成,而这两个特征转置成
Figure FDA0004073311820000013
Figure FDA0004073311820000014
其中S=H×W;随后将M的转置和N使用矩阵乘法结合,并使用softmax函数获得像素点-像素点关系
Figure FDA0004073311820000015
如公式(1)所示,
Figure FDA0004073311820000016
其中,相似度函数“sim(·,·)”使用点积相似度衡量M中第i个像素点和N中第j个像素点的相似度;
步骤(A3),将特征F′输入到另一个函数λ得到一个新的特征
Figure FDA0004073311820000017
再使用矩阵乘法将L和W′结合得到每一个像素点细节粒度的上下文信息
Figure FDA0004073311820000018
如公式(2)所示,
Figure FDA0004073311820000019
其中,λ和μ代表非线性变换函数,且该函数由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成;
步骤(B),设计并构建像素点-物体子网络,其中像素点-物体子网络引入了整体特征的概念,且整体特征是某一类物体包含的所有像素点的特征总和,而构建像素点-物体子网络的具体步骤如下,
步骤(B1),对航拍图像进行聚类学习,其具体步骤如下,
步骤(B11),提出聚类学习方法用于获得每一类物体的全局描述子,且由于原始的航拍图像包含多个类别的物体,聚类学习方法首先从原始大图上裁剪出小尺寸图像块,并构成聚类学习方法的训练集;
步骤(B12),将每个图像块输入到在ImageNet数据集上预训练好的ResNet18中得到对应的特征,再将子网络使用主成分分析对特征进行降维并得到一个D维的特征向量;
步骤(B13),使用基于几何距离的聚类方法k-means将主成分分析降维后的特征向量聚类成K个不同的簇,其中K-means是根据每个输入特征向量和聚类中心的欧氏距离将伪标签分配给对应的输入图像块;
步骤(B14),ResNet18的参数通过预测分配对每个输入图像块的伪标签进行更新迭代,且ResNet18使用随机梯度下降对预测标签和分配的伪标签之间的交叉熵损失进行优化,从而使得聚类学习方法是在伪标签分配和伪标签预测两个步骤交替进行的过程;
步骤(B2),在聚类学习完成之后,每个类别的全局描述子要调整以适应具体的场景,场景即每一个样本,首先设第k类物体的全局描述子记作
Figure FDA0004073311820000021
全局描述子即聚类中心,且像素点-物体子网络是使用多模态融合模型将每一类物体的全局描述子和卷积特征融合从而得到类别注意力图,其具体步骤如下,
步骤(B21),设定一个卷积特征
Figure FDA0004073311820000031
该子网络首先将卷积特征和第k个类别物体的全局描述子投影到一个有B个通道的隐特征
Figure FDA0004073311820000032
如公式(3)所示,
Figure FDA0004073311820000033
其中,
Figure FDA0004073311820000034
Figure FDA0004073311820000035
是权重矩阵;
Figure FDA0004073311820000036
是一个权重向量;E是中间特征的通道个数;“σ(·)”和
Figure FDA00040733118200000315
分别表示sigmoid函数和矩阵元素乘法操作;1是一个元素全为1的矩阵,用来将dk扩展成一个D×H×W张量;上标T表示矩阵的转置操作;
步骤(B22),求得注意力图,且注意力图的求得公式如公式(4)所示,
Ak=Softmax(Tk+b2)    (4)
其中,
Figure FDA0004073311820000037
Figure FDA0004073311820000038
代表的是可学习参数,Ak表示每个像素点和第k类物体的相似度;
步骤(B23),第k类物体的整体特征
Figure FDA0004073311820000039
是通过使用像素点和该类物体的相似度并进一步集成所有像素点的特征得到,如公式(5)所示,
Figure FDA00040733118200000310
其中,F(i,j)是特征图F中位置为(i,j)的像素点对应的特征,ak(i,j)表示的是位置为(i,j)的像素点和第k类物体的相似度;
步骤(B24),
Figure FDA00040733118200000311
被转置成
Figure FDA00040733118200000312
其中S=H×W是像素点的个数,由于要捕获每个像素点的语义粒度上下文信息,从而计算每个像素点和K类物体的关系
Figure FDA00040733118200000313
如公式(6)所示,
Figure FDA00040733118200000314
其中,sim(Fi,ck)是第i个像素点和第k类物体的相似度,且相似度函数“sim(·,·)”的是使用点积相似度sim(Fi,ck)=ρ(Fi)Tδ(ck),其中ρ和δ是两个非线性变换函数,且该函数是由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;
步骤(B25),每个像素点的语义粒度上下文信息
Figure FDA0004073311820000041
能根据它的像素点-物体关系集成K个类别的整体特征,如公式(7)所示,
Figure FDA0004073311820000042
其中,φ和ψ是非线性变换函数,且由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;
步骤(C),根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络,并获得层级上下文信息;
步骤(D),利用获得的层级上下文信息完成对航拍图像的分割作业。
2.根据权利要求1所述的一种基于层级上下文网络的航拍图像分割方法,其特征在于:步骤(C),根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络,并获得层级上下文信息,其中层级上下文网络是采用五个卷积模块构成的ResNet18作为骨干网络提取卷积特征,且获得层级上下文信息是通过将Gi和Hi转置成
Figure FDA0004073311820000043
Figure FDA0004073311820000044
并使用矩阵元素求和的方式进行特征集成获得的。
3.根据权利要求2所述的一种基于层级上下文网络的航拍图像分割方法,其特征在于:步骤(D),利用获得的层级上下文信息完成对航拍图像的分割作业,其是将层级上下文信息输入到1×1的卷积层得到最终的分割结果,且要捕获多尺度上下文信息,这样ResNet18最后三层的输出分别用来得到对应的分割结果,而这些分割结果以加权求和的方式融合在一起,最终完成分割作业。
CN202111432260.2A 2021-11-29 2021-11-29 一种基于层级上下文网络的航拍图像分割方法 Active CN114037922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111432260.2A CN114037922B (zh) 2021-11-29 2021-11-29 一种基于层级上下文网络的航拍图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111432260.2A CN114037922B (zh) 2021-11-29 2021-11-29 一种基于层级上下文网络的航拍图像分割方法

Publications (2)

Publication Number Publication Date
CN114037922A CN114037922A (zh) 2022-02-11
CN114037922B true CN114037922B (zh) 2023-04-07

Family

ID=80139125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111432260.2A Active CN114037922B (zh) 2021-11-29 2021-11-29 一种基于层级上下文网络的航拍图像分割方法

Country Status (1)

Country Link
CN (1) CN114037922B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778294B (zh) * 2023-04-14 2024-03-26 南京审计大学 一种联合图像内和图像间上下文的遥感变化检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361373A (zh) * 2021-06-02 2021-09-07 武汉理工大学 一种农业场景下的航拍图像实时语义分割方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020215236A1 (zh) * 2019-04-24 2020-10-29 哈尔滨工业大学(深圳) 图像语义分割方法和***
CN113298818B (zh) * 2021-07-09 2023-08-18 大连大学 基于注意力机制与多尺度特征的遥感图像建筑物分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361373A (zh) * 2021-06-02 2021-09-07 武汉理工大学 一种农业场景下的航拍图像实时语义分割方法

Also Published As

Publication number Publication date
CN114037922A (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN108596108B (zh) 基于三元组语义关系学习的航拍遥感图像变化检测方法
EP3345129A1 (en) Systems and methods for analyzing remote sensing imagery
Dibs et al. Multi-fusion algorithms for detecting land surface pattern changes using multi-high spatial resolution images and remote sensing analysis
CN106844739B (zh) 一种基于神经网络协同训练的遥感图像变化信息检索方法
CN108197650A (zh) 局部相似性保持的高光谱图像极限学习机聚类方法
CN111507296A (zh) 基于无人机遥感与深度学习的违章建筑智能化提取方法
CN113705580A (zh) 基于深度迁移学习的高光谱图像分类方法
CN112560624B (zh) 基于模型深度集成的高分遥感影像语义分割方法
CN113673556B (zh) 一种基于多尺度密集卷积网络的高光谱图像分类方法
Zang et al. Traffic lane detection using fully convolutional neural network
Chen et al. Object-based multi-modal convolution neural networks for building extraction using panchromatic and multispectral imagery
CN112115795B (zh) 一种基于Triple GAN的高光谱图像分类方法
CN115170961A (zh) 一种基于深度跨域少样本学习的高光谱图像分类方法及***
CN114037922B (zh) 一种基于层级上下文网络的航拍图像分割方法
CN116363526A (zh) MROCNet模型构建与多源遥感影像变化检测方法及***
Sathyanarayanan et al. A multiclass deep learning approach for LULC classification of multispectral satellite images
Al-Ghrairi et al. Classification of satellite images based on color features using remote sensing
Guo et al. A shape and size free-CNN for urban functional zone mapping with high-resolution satellite images and POI data
CN106971402B (zh) 一种基于光学辅助的sar图像变化检测方法
CN111368776A (zh) 一种基于深度集成学习的高分辨率遥感图像分类方法
Rhinane et al. Palm trees crown detection and delineation from very high spatial resolution images using deep neural network (U-Net)
CN116343058A (zh) 基于全局协同融合的多光谱和全色卫星影像地表分类方法
CN113361355B (zh) 联合多时相特征的遥感影像地表要素识别方法及存储介质
CN108399413A (zh) 一种图片拍摄区域识别及地理定位方法及装置
CN113963270A (zh) 一种高分遥感影像建筑物检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant