CN115035418A - 一种基于改进DeepLabV3+网络的遥感图像语义分割方法及*** - Google Patents

一种基于改进DeepLabV3+网络的遥感图像语义分割方法及*** Download PDF

Info

Publication number
CN115035418A
CN115035418A CN202210677113.XA CN202210677113A CN115035418A CN 115035418 A CN115035418 A CN 115035418A CN 202210677113 A CN202210677113 A CN 202210677113A CN 115035418 A CN115035418 A CN 115035418A
Authority
CN
China
Prior art keywords
data
model
training
semantic segmentation
remote sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210677113.XA
Other languages
English (en)
Inventor
白根宝
徐欣
姚英彪
杨阿锋
刘晴
姜显扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210677113.XA priority Critical patent/CN115035418A/zh
Publication of CN115035418A publication Critical patent/CN115035418A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/182Network patterns, e.g. roads or rivers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Astronomy & Astrophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进DeepLabV3+网络的遥感图像语义分割方法及***,方法包括以下步骤:S1.获取遥感道路数据集并进行预处理,数据集中的数据分为训练数据、验证数据和测试数据;S2.搭建基于Pytorch环境的改进DeepLabV3+语义分割网络模型;S3.利用步骤S1得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练;S4.将步骤S1得到的测试数据输入到步骤S3的改进DeepLabV3+语义分割网络模型,得到遥感道路图像语义分割结果。相较于基于传统的DeepLabV3+网络模型的方法,本发明采用了R‑Drop正则化方法,可以对训练中每个数据样本从dropout中随机抽取的两个子模型的输出进行正则化,本发明不仅可以降低网络模型参数的自由度,还可以缓解训练和推理阶段之间的不一致性,增强了泛化能力。

Description

一种基于改进DeepLabV3+网络的遥感图像语义分割方法及 ***
技术领域
本发明属于遥感图像分割技术领域,涉及一种遥感图像分割方法,具体涉及一种基于改进DeepLabV3+网络的遥感图像语义分割方法及***。
背景技术
遥感图像分割算法指的是对遥感图像中的每个像素进行预测,是一种像素级别的分类算法,可被广泛应用于土地规划、环境监测和灾害评估等诸多应用场景,具有重大的应用价值。传统的图像分割方法主要是基于颜色、纹理等图像底层特征手工设计分类器对图像进行分割,然后对分割后的图像标注语义。如基于像素级的聚类分割法、利用像素级的阈值分割法、基于像素级的决策树分类法等,这些算法在一定程度上较好地实现了图像分割的需求,但是对手工设计的特征提取器要求较高,且对于数据集的泛化性能较差,难以大规模应用到背景复杂的通用场景中。
近年来随着计算机硬件的飞速发展,尤其是GPU计算能力的提升,大大推动了人工智能的进步,同时也为计算机视觉的发展提供了很大的动力。语义分割是计算机视觉中的基本任务,借助于GPU强大的计算能力,基于深度学习的图像分割方法可以对遥感图像进行快速的分割处理,准确提取出有用的信息,目前该方法已经成为遥感图像分割领域中主流的方法。语义分割架构通常有不同的形式,总体可以理解为一个编码器-解码器网络。其中编码器通常是一个预先训练的诸如ResNet等类型的分类网络来进行图像的特征提取,对于解码器来说,其作用主要体现在对可判别特征的映射方面,能够实现从语义到像素空间的映射,由此可以得到密集分类,而这也是语义分割需要实现的功能。
DeepLabV3+是一个在语义分割中具有较好性能的网络模型,其主要通过任意控制编码器来实现对特征分辨率的提取,同时还能够在效率和精度方面达到均衡,将MobileNetV2网络模型应用到语义分割中,在解码模块则使用了深度可分离卷积网络,采用这种方式增强了encode-decode的执行效率。DeepLabV3+网络中采用了Dropout的方法,以此来避免在训练过程中的过拟合问题,Dropout是在训练过程中,随机地忽略部分神经元,在正向传播的过程中,这些被忽略的神经元对下游神经元的贡献暂时消失,在反向传播时,这些神经元也不会有任何权重的更新,然而这一操作会导致每次忽略部分神经元后产生的子模型都不一样,在一定程度上使得训练后的模型具有一定的随机性,是一种多个子模型的组合约束,这影响了网络模型的性能。
发明内容
针对现有技术存在的上述问题,本发明提供了一种基于改进DeepLabV3+网络的遥感图像语义分割方法及***,本发明使用R-Drop正则化方法代替原始DeepLabV3+网络中使用的Dropout方法,R-Drop进一步正则化了模型空间,超越了Dropout,可进一步提高模型的泛化能力,由此能够完成对遥感城市道路图像的有效分割。
本发明采取的技术方案如下:
一种基于改进DeepLabV3+网络的遥感图像语义分割方法,包括以下步骤:
步骤S1.获取遥感道路数据集并进行预处理;
步骤S2.搭建基于Pytorch环境的改进DeepLabV3+语义分割网络;
步骤S3.利用步骤S1得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练;
步骤S4.将步骤S1得到的测试数据输入到步骤S3改进DeepLabV3+语义分割网络模型,得到遥感道路图像语义分割结果。
进一步地,所述步骤S1具体包括以下步骤:
S11.从开源数据集网站下载或自制遥感数据集;
S12.将原始放在一个文件夹中的图像文件和标签文件分别放在不同的文件夹中;
S13.按照2:1:1的比例随机将数据集中的数据分为训练数据、验证数据和测试数据,划分后的文件名列表文件存放在工程所在的路径下,分别为train.txt,val.txt,test.txt。
进一步地,所述步骤S2具体包括以下步骤:
S21.改进DeepLabV3+语义分割网络模型可分为编码器模块和解码器模块;
S22.编码器模块中,采用MobileNetV2作为主干网络对遥感图像进行浅层特征和深层特征的提取;
S23.采用空间金字塔池化模块(又称ASPP模块,ASPP为Atrous Spatial PyramidPooling的英文简称)对S21得到的深层特征进行进一步的特征提取操作。空间金字塔池化模块由一个1×1的卷积,三个膨胀率分别为6、12、18的膨胀卷积以及一个ImagePooling(全局平均池化)模块组成,三个膨胀卷积用来捕获不同尺度的感受野信息并捕获不同尺度的特征信息,全局平均池化和1×1卷积层被用于提取特征;
S24.采用concatenate特征融合方法对步骤S23得到的具有不同感受野的特征层进行堆叠处理,此时输入通道数是原始输入通道数的5倍,通过1×1卷积层将通道数降低至原始值即可得到深层特征;
S25.解码器模块中采用1×1卷积对步骤S22得到的浅层特征进行通道数的调整后,再与步骤S24得到的深层特征层经过4倍上采样之后的结果进行concatenate特征融合;
S26.采用两个3×3的卷积层对步骤S25得到的特征融合结果进行细化,然后进行四倍的上采样即可得到分割预测图。
进一步地,所述步骤S3具体包括以下步骤:
S31.设定训练模型的初始参数如下:
初始学习率,即learning rate:0.014;
权值衰减,即weight decay:0.0005;
动量,即momentum:0.9;
批大小根据实际训练的服务器显存大小而定;
S32.在训练过程中,采用R-Drop正则化方法,即:在每个小批量训练中,每个数据样本经过两次前向传递,每次传递由不同的子模型通过随机删除一些隐藏单元来实现。
具体过程如下:训练数据为
Figure BDA0003695201620000021
训练的目标是学习一个模型Pw(yi|xi),其中n是训练样本的数量,(xi,yi)是标记数据对,xi是输入数据,yi是标签,每个样本的loss为交叉熵:
Li=-logPw(yi|xi)
在使用R-Drop正则化方法的情况下,可以认为样本通过了两个略有不同的模型,分别记为
Figure BDA0003695201620000031
Figure BDA0003695201620000032
模型最终的loss分为两部分,一部分是常规的交叉熵:
Figure BDA0003695201620000033
另一部分则是两个模型之间的对称KL散度,其作用是让两次经过不同Dropout的模型输出尽可能一致:
Figure BDA0003695201620000034
网络模型最终的loss即为上述两个loss的加权和:
Figure BDA0003695201620000035
其中α为辅助损失的权重,设置为1,损失函数采用交叉信息熵;
S33.根据步骤S32得到的损失函数计算出梯度,采用随机梯度下降方法作为优化器更新神经网络的权重值、偏置值;
S34.引入像素准确率(Pixel accuracy,PA)以及平均交并比(Mean Intersectionover Union,MIoU)对模型的性能进行评估,PA表示预测类别正确的像素数占总像素数的比例,MIoU表示网络模型分割图像的精度,MIoU值越高则表示图像分割效果越好。计算方法分别为:
Figure BDA0003695201620000036
Figure BDA0003695201620000037
上式中,TP(True Positive)代表模型预测正确,即模型预测与实际均为正例;FP(False Positive)代表模型预测错误,即模型预测该类别为正例,但实际该类别为反例;FN(False Negative)代表模型预测错误,即模型预测该类别为反例,实际该类别为正例;TN(True Negative)代表模型预测正确,意为模型预测与实际均为反例;N代表类别数,下标i代表第i类;
S35.重复步骤S32—S24的训练过程,每轮训练完后使用验证数据集对网络模型进行评估,按照MIoU最优结果进行模型的保存,直至迭代次数达到设定值后停止训练,保存训练好的模型。
进一步地,所述步骤S4具体包括以下步骤:
S41.载入步骤S3训练好的模型,读入步骤S1得到的测试数据的测试图片和标签;
S42.算出指标分数,保存测试结果。
本发明还公开了一种基于改进DeepLabV3+网络的遥感图像语义分割***,包括以下模块:
数据分类模块:获取遥感道路数据集并进行预处理,数据集中的数据分为训练数据、验证数据和测试数据;
模型搭建模块:搭建基于Pytorch环境的改进DeepLabV3+语义分割网络模型;
训练模块:利用数据分类模块得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练;
获得分割结果模块:将数据分类模块得到的测试数据输入到训练模块的改进DeepLabV3+语义分割网络模型,得到遥感道路图像语义分割结果。
与现有技术相比,本发明具有以下有益效果:
本发明一种基于改进DeepLabV3+网络的遥感图像语义分割方法,相较于基于传统的DeepLabV3+网络模型的方法,本发明由于采用了R-Drop正则化方法,可以对训练中每个数据样本从dropout中随机抽取的两个子模型的输出进行正则化,本发明不仅可以降低网络模型参数的自由度,还可以缓解训练和推理阶段之间的不一致性,增强了泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的一种基于改进DeeplabV3+模型的遥感图像语义分割方法流程示意图。
图2是本发明实施例1提供的R-Drop正则化方法的示意图。
图3是本发明实施例1提供的遥感道路图像语义分割结果图。
图4是本发明实施例2提供的一种基于改进DeepLabV3+网络的遥感图像语义分割***框图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
如图1所示,本实施例提供了基于改进DeepLabV3+模型的遥感图像语义分割方法,具体包括以下步骤:
步骤S1.获取遥感道路数据集并进行预处理。在本实施例中,使用从开源数据集网站kaggle.com下载到的DeepGlobe Road Extraction Dataset数据集,并且从中随机选择了2000张大小为1024×1024的遥感道路RGB卫星图像按照2:1:1的比例随机将其分为训练数据、验证数据和测试数据。
步骤S2.搭建基于Pytorch环境的改进DeepLabV3+语义分割网络。在本实施例中,选用MobileNetV2作为DeepLabV3+语义分割网络的主干网络来提取浅层特征和深层特征;深层特征会被输入到ASPP模块中通过卷积、空洞卷积、全局平均池化等5种不同的操作得到具有不同感受野的多尺度特征层,进行concatenate堆叠处理后,通过1×1卷积将通道数降低至原始值得到深层特征并将其输入到解码器模块。在网络模型的解码器模块中,对从编码器模块中输入进来的浅层特征进行通道数调整、深层特征进行4倍上采样,然后将两者的结果进行concatenate堆叠,在完成堆叠后,对堆叠结果进行两次3×3的深度可分离卷积以及4倍的上采样即可恢复成原始图像大小,即得到了遥感图像的预测分割图。
步骤S3.利用步骤S1得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练。为了验证本发明设计网络的可行性与复杂环境下路径的识别效果,对网络进行编程与训练测试,具体实验环境与配置如表1所示:
表1实验环境与配置
Figure BDA0003695201620000041
Figure BDA0003695201620000051
并设定训练模型的初始参数如表2所示:
表2初始参数设置
Figure BDA0003695201620000052
设置好以上参数之后即可进行训练,训练过程中,采用R-Drop正则化方法代替原始DeepLabV3+网络中所使用的Dropout方法,具体而言,就是在每个小批量训练中,每个数据样本经过两次前向传递,每次传递由不同的子模型通过随机删除一些隐藏单元来实现,R-Drop正则化方法的示意图如图2所示。
具体过程如下:
训练数据为
Figure BDA0003695201620000053
训练的目标是学习一个模型Pw(yi|xi),其中n是训练样本的数量,(xi,yi)是标记数据对,xi是输入数据,yi是标签,每个样本的loss为交叉熵:
Li=-logPw(yi|xi)
在使用R-Drop正则化方法的情况下,可以认为样本通过了两个略有不同的模型,分别记为
Figure BDA0003695201620000054
Figure BDA0003695201620000055
模型最终的loss分为两部分,一部分是常规的交叉熵:
Figure BDA0003695201620000056
另一部分则是两个模型之间的对称KL散度,其作用是让两次经过不同Dropout的模型输出尽可能一致:
Figure BDA0003695201620000057
网络模型最终的loss即为上述两个loss的加权和:
Figure BDA0003695201620000058
其中α为辅助损失的权重,设置为1,损失函数采用交叉信息熵;
引入像素准确率(Pixel accuracy,PA)以及平均交并比(Mean Intersectionover Union,MIoU)对模型的性能进行评估,PA表示预测类别正确的像素数占总像素数的比例,MIoU表示网络模型分割图像的精度,MIoU值越高则表示图像分割效果越好。计算方法分别为:
Figure BDA0003695201620000059
Figure BDA0003695201620000061
式中,TP(True Positive)代表模型预测正确,即模型预测与实际均为正例;FP(False Positive)代表模型预测错误,即模型预测该类别为正例,但实际该类别为反例;FN(False Negative)代表模型预测错误,即模型预测该类别为反例,实际该类别为正例;TN(True Negative)代表模型预测正确,意为模型预测与实际均为反例;N代表类别数,下标i代表第i类。
训练阶段采用随机梯度下降方法作为优化器,计算卷积神经网络更新后的权重值、偏置值;每个轮次训练完后使用验证数据集对网络模型进行评估,按照MIoU最优结果进行模型的保存,迭代300轮之后停止训练,保存训练好的模型。
步骤S4.将步骤S1中得到的测试数据输入到改进DeepLabV3+语义分割网络模型,得到遥感道路图像语义分割结果,结果图如图3所示。
除了进行改进DeepLabV3+语义分割网络模型的实验之外,本发明也将DeepLabV3+算法在所选遥感道路数据集上训练出相应模型,并与本发明算法性能进行比较,两种算法在遥感道路数据集上的性能如表3所示:
表3两种模型在遥感道路数据集上的性能比较
模型方法 PA(%) MIoU(%)
DeepLabV3+ 97.3721 73.8854
本发明 97.6744 76.8213
本发明所提改进DeepLabV3+网络的遥感语义分割方法在像素准确率上得到了提升,且在平均交并比上提供了将近3个点,本发明所提方法对图像的分割效果明显优于原始DeepLabV3+算法的分割效果。
实施例2
如图4所示,本实施例公开了一种基于改进DeepLabV3+网络的遥感图像语义分割***,包括以下模块:
数据分类模块:获取遥感道路数据集并进行预处理,数据集中的数据分为训练数据、验证数据和测试数据;
模型搭建模块:搭建基于Pytorch环境的改进DeepLabV3+语义分割网络模型;
训练模块:利用数据分类模块得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练;
获得分割结果模块:将数据分类模块得到的测试数据输入到训练模块的改进DeepLabV3+语义分割网络模型,得到遥感道路图像语义分割结果。
本实施例其他内容可参考实施例1。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,本领域技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (6)

1.一种基于改进DeepLabV3+网络的遥感图像语义分割方法,其特征在于,包括以下步骤:
S1.获取遥感道路数据集并进行预处理,数据集中的数据分为训练数据、验证数据和测试数据;
S2.搭建基于Pytorch环境的改进DeepLabV3+语义分割网络模型;
S3.利用步骤S1得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练;
S4.将步骤S1得到的测试数据输入到步骤S3的改进DeepLabV3+语义分割网络模型,得到遥感道路图像语义分割结果。
2.根据权利要求1所述的基于改进DeepLabV3+网络的遥感图像语义分割方法,其特征在于,步骤S1具体包括以下步骤:
S11.从开源数据集网站下载或自制遥感图像数据集;
S12.将原始放在一个文件夹中的图像文件和标签文件分别放在不同的文件夹中;
S13.按照2:1:1的比例随机将数据集中的数据划分为训练数据、验证数据和测试数据,划分后的文件名列表文件存放在工程所在的路径下,分别为train.txt,val.txt,test.txt。
3.根据权利要求2所述的基于改进DeepLabV3+网络的遥感图像语义分割方法,其特征在于,步骤S2具体包括以下步骤:
S21.改进DeepLabV3+语义分割网络模型分为编码器模块和解码器模块;
S22.编码器模块中,采用MobileNetV2作为主干网络对遥感图像进行浅层特征和深层特征的提取;
S23.采用空间金字塔池化模块对S21得到的深层特征进行进一步的特征提取操作;空间金字塔池化模块由一个1×1的卷积,三个膨胀率分别为6、12、18的膨胀卷积以及一个ImagePooling模块组成,三个膨胀卷积用来捕获不同尺度的感受野信息并捕获不同尺度的特征信息,全局平均池化和1×1卷积层被用于提取特征;
S24.采用concatenate特征融合方法对步骤S23得到的具有不同感受野的特征层进行堆叠处理,此时输入通道数是原始输入通道数的5倍,通过1×1卷积层将通道数降低至原始值即可得到深层特征;
S25.解码器模块中采用1×1卷积对步骤S22得到的浅层特征进行通道数的调整后,再与步骤S24得到的深层特征层经过4倍上采样之后的结果进行concatenate特征融合;
S26.采用两个3×3的卷积层对步骤S25得到的特征融合结果进行细化,然后进行四倍的上采样即可得到分割预测图。
4.根据权利要求3所述的基于改进DeepLabV3+网络的遥感图像语义分割方法,其特征在于,步骤S3具体包括以下步骤:
S31.设定训练模型的初始参数如下:
初始学习率,即learning rate:0.014;
权值衰减,即weight decay:0.0005;
动量,即momentum:0.9;
S32.在训练过程中,采用R-Drop正则化方法,即:在每个小批量训练中,每个数据样本经过两次前向传递,每次传递由不同的子模型通过随机删除一些隐藏单元来处理;具体如下:训练数据为
Figure FDA0003695201610000011
训练的目标是学习一个模型Pw(yi|xi),其中n是训练样本的数量,(xi,yi)是标记数据对,xi是输入数据,yi是标签,每个样本的loss为交叉熵:
Li=-logPw(yi|xi)
在使用R-Drop正则化方法的情况下,认为样本通过了两个略有不同的模型,分别记为
Figure FDA0003695201610000021
Figure FDA0003695201610000022
模型最终的loss分为两部分,一部分是常规的交叉熵:
Figure FDA0003695201610000023
另一部分则是两个模型之间的对称KL散度:
Figure FDA0003695201610000024
网络模型最终的loss即为上述两个loss的加权和:
Figure FDA0003695201610000025
其中α为辅助损失的权重,设置为1,损失函数采用交叉信息熵;
S33.根据步骤S32得到的损失函数计算出梯度,采用随机梯度下降方法作为优化器更新神经网络的权重值、偏置值;
S34.引入像素准确率PA以及平均交并比MIoU对模型的性能进行评估,PA表示预测类别正确的像素数占总像素数的比例,MIoU表示网络模型分割图像的精度,MIoU值越高则表示图像分割效果越好;计算方法分别为:
Figure FDA0003695201610000026
Figure FDA0003695201610000027
式中,TP代表模型预测正确,即模型预测与实际均为正例;FP代表模型预测错误,即模型预测该类别为正例,但实际该类别为反例;FN代表模型预测错误,即模型预测该类别为反例,实际该类别为正例;TN代表模型预测正确,意为模型预测与实际均为反例;N代表类别数,下标i代表第i类;
S35.重复步骤S32—S34的训练过程,每轮训练完后使用验证数据对网络模型进行评估,按照MIoU最优结果进行模型的保存,直至迭代次数达到设定值后停止训练,保存训练好的模型。
5.根据权利要求4所述的基于改进DeepLabV3+网络的遥感图像语义分割方法,其特征在于,步骤S4具体包括以下步骤:
S41.载入步骤S3训练好的模型,读入步骤S1得到的测试数据的测试图片和标签;
S42.算出指标分数,保存测试结果。
6.一种基于改进DeepLabV3+网络的遥感图像语义分割***,其特征在于,包括以下模块:
数据分类模块:获取遥感道路数据集并进行预处理,数据集中的数据分为训练数据、验证数据和测试数据;
模型搭建模块:搭建基于Pytorch环境的改进DeepLabV3+语义分割网络模型;
训练模块:利用数据分类模块得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练;
获得分割结果模块:将数据分类模块得到的测试数据输入到训练模块的改进DeepLabV3+语义分割网络模型,得到遥感道路图像语义分割结果。
CN202210677113.XA 2022-06-15 2022-06-15 一种基于改进DeepLabV3+网络的遥感图像语义分割方法及*** Pending CN115035418A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210677113.XA CN115035418A (zh) 2022-06-15 2022-06-15 一种基于改进DeepLabV3+网络的遥感图像语义分割方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210677113.XA CN115035418A (zh) 2022-06-15 2022-06-15 一种基于改进DeepLabV3+网络的遥感图像语义分割方法及***

Publications (1)

Publication Number Publication Date
CN115035418A true CN115035418A (zh) 2022-09-09

Family

ID=83124046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210677113.XA Pending CN115035418A (zh) 2022-06-15 2022-06-15 一种基于改进DeepLabV3+网络的遥感图像语义分割方法及***

Country Status (1)

Country Link
CN (1) CN115035418A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408498A (zh) * 2022-11-02 2022-11-29 中孚安全技术有限公司 一种基于自然语言的数据动态识别方法
CN115546647A (zh) * 2022-10-21 2022-12-30 河北省科学院地理科学研究所 一种基于遥感影像的语义分割模型
CN116167991A (zh) * 2023-02-15 2023-05-26 中科微至科技股份有限公司 一种基于DeepLabv3+的皮带边缘线检测方法
CN116703834A (zh) * 2023-05-22 2023-09-05 浙江大学 基于机器视觉的烧结点火强度过高判断、分级方法及装置
CN117036982A (zh) * 2023-10-07 2023-11-10 山东省国土空间数据和遥感技术研究院(山东省海域动态监视监测中心) 海上养殖区的光学卫星图像处理方法和装置、设备和介质
CN117911804A (zh) * 2023-05-09 2024-04-19 宁波大学 基于自纠正伪双模型的半监督分割模型、训练方法与应用

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546647A (zh) * 2022-10-21 2022-12-30 河北省科学院地理科学研究所 一种基于遥感影像的语义分割模型
CN115408498A (zh) * 2022-11-02 2022-11-29 中孚安全技术有限公司 一种基于自然语言的数据动态识别方法
CN116167991A (zh) * 2023-02-15 2023-05-26 中科微至科技股份有限公司 一种基于DeepLabv3+的皮带边缘线检测方法
CN116167991B (zh) * 2023-02-15 2023-09-08 中科微至科技股份有限公司 一种基于DeepLabv3+的皮带边缘线检测方法
CN117911804A (zh) * 2023-05-09 2024-04-19 宁波大学 基于自纠正伪双模型的半监督分割模型、训练方法与应用
CN116703834A (zh) * 2023-05-22 2023-09-05 浙江大学 基于机器视觉的烧结点火强度过高判断、分级方法及装置
CN116703834B (zh) * 2023-05-22 2024-01-23 浙江大学 基于机器视觉的烧结点火强度过高判断、分级方法及装置
CN117036982A (zh) * 2023-10-07 2023-11-10 山东省国土空间数据和遥感技术研究院(山东省海域动态监视监测中心) 海上养殖区的光学卫星图像处理方法和装置、设备和介质
CN117036982B (zh) * 2023-10-07 2024-01-09 山东省国土空间数据和遥感技术研究院(山东省海域动态监视监测中心) 海上养殖区的光学卫星图像处理方法和装置、设备和介质

Similar Documents

Publication Publication Date Title
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN115035418A (zh) 一种基于改进DeepLabV3+网络的遥感图像语义分割方法及***
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
CN111582397B (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
CN109740679B (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
CN110222718B (zh) 图像处理的方法及装置
CN113269224B (zh) 一种场景图像分类方法、***及存储介质
CN112308825B (zh) 一种基于SqueezeNet的农作物叶片病害识别方法
CN111723915A (zh) 深度卷积神经网络的剪枝方法、计算机设备及应用方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
Yue et al. Face recognition based on histogram equalization and convolution neural network
CN113642400A (zh) 基于2s-agcn的图卷积动作识别方法、装置及设备
CN111694977A (zh) 一种基于数据增强的车辆图像检索方法
CN114283350A (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN112150497A (zh) 基于二值神经网络的局部激活方法与***
CN112101364A (zh) 基于参数重要性增量学习的语义分割方法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
Nalini et al. Comparative analysis of deep network models through transfer learning
CN115131558A (zh) 一种少样本环境下的语义分割方法
CN114882278A (zh) 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN116416212B (zh) 路面破损检测神经网络训练方法及路面破损检测神经网络
CN116740362A (zh) 一种基于注意力的轻量化非对称场景语义分割方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination