CN112329808A - 一种Deeplab语义分割算法的优化方法及*** - Google Patents

一种Deeplab语义分割算法的优化方法及*** Download PDF

Info

Publication number
CN112329808A
CN112329808A CN202011027787.2A CN202011027787A CN112329808A CN 112329808 A CN112329808 A CN 112329808A CN 202011027787 A CN202011027787 A CN 202011027787A CN 112329808 A CN112329808 A CN 112329808A
Authority
CN
China
Prior art keywords
image
layer
semantic segmentation
data
segmentation algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011027787.2A
Other languages
English (en)
Inventor
姜益民
罗冷坤
洪勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Optics Valley Information Technology Co ltd
Original Assignee
Wuhan Optics Valley Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Optics Valley Information Technology Co ltd filed Critical Wuhan Optics Valley Information Technology Co ltd
Priority to CN202011027787.2A priority Critical patent/CN112329808A/zh
Publication of CN112329808A publication Critical patent/CN112329808A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种Deeplab语义分割算法的优化方法及***,方法包括:在Deeplab语义分割算法基础上搭建流行学习层,以在所述流行学习层中将数据维度降低,得到降维后数据;将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征;基于空洞金字塔池化法,提取所述图像的多尺度特征信息;对所述图像的多尺度特征信息进行双线性插值得到预测结果。本发明引用了流行学习层来对数据进行预处理,能有效保留数据有用信息并进行初步聚合。利用空间金字塔结构分别从多维度对高层特征进行加工处理,使得用于计算loss的全连接层预测信息更接近真实标签信息,防止了部分有效信息的流失。

Description

一种Deeplab语义分割算法的优化方法及***
技术领域
本发明涉及语义分割技术领域,更具体地,涉及一种Deeplab语义分割算法的优化方法及***。
背景技术
目前,语义分割算法可以分为传统语义分割算法以及基于深度学习的语义分割两大类。传统的语义分割算法通过提取人工特征作为视觉信息来进行图像分割,例如基于阈值、边缘的分割方法。传统语义分割算法利用人为选取特征对图像进行分割,其优点是不存在训练过程,计算复杂度较低。但是人工特征的选取往往较为困难,此外传统语义分割方法在多重语义场景下的分割结果并不能让人满意。近年来,借助于计算能力的进步以及视觉数据量的指数级增长,计算机视觉步入深度学习时代,卷积神经网络在图像分类任务中取得了优良的成绩,但是卷积神经网络中连续的下采样核池化操作导致特征图的分辨率不断减小,丢失大量图像细节信息,不利于语义分割任务。全卷积神经网络(FullyConvolutional Networks,FCN)首次利用卷积神经网络实现像素级别的分类任务,奠定了深度学习语义分割技术的基础框架。U-net网络结构将卷积池化层与反卷积层相连,进一步提高了像素点的分类准确率,但是FCN与U-net在下采样过程中会出现特征图分辨率降低,图像细节信息丢失的问题。针对上述问题,Deeplabv1、PSPNet(pyramid scene parsingnetwork)网络模型使用空洞卷积代替池化层,在保持参数不变的前提下,有效的增加了滤波器的感受野大小,减少了下采样过程中细节信息的丢失。SegNet模型利用编码器-解码器结构在网络浅层捕捉充分的空间信息,恢复图像细节信息。编码器结构减少了训练的参数,保证分割精度的前提下降低了时间复杂度,但是其上采样方式会导致特征图稀疏、分割精度低的问题,此外在面对多尺度物体往往会出现分割结果不准确的现象。为了捕获多尺度上下文信息,Deeplabv2、PSPNet、Deeplabv3网络模型提出空间金字塔空洞池化模块,使用不同孔洞大小的卷积核对特征图进行卷积,获取多尺度的特征信息。
纵观上述语义分割算法,可以通过扩大卷积核感受野范围、提取多尺度特征信息以及编解码结构来补充图像细节信息,但是下采样的过程中仍是丢失了许多的细节信息,并且缺乏利用全局上下文信息的能力,从而限制了语义分割的效果。此外,高层特征有助于类别识别,低层特征有助于划分精准的边界,如何利用所有网络层的特征信息提升语义分割效果是一个值得解决的问题。
因此,现在亟需一种新的Deeplab语义分割算法的优化方法及***来解决上述问题。
发明内容
本发明提供一种Deeplab语义分割算法的优化方法及***,用以解决现有语义分割方法下采样的过程中丢失了许多的细节信息,并且缺乏利用全局上下文信息的能力,限制了语义分割的效果的问题。
第一方面,本发明实施例提供一种Deeplab语义分割算法的优化方法,包括:
在Deeplab语义分割算法基础上搭建流行学习层,以在所述流行学习层中将数据维度降低,得到降维后数据;
将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征;
基于空洞金字塔池化法,提取所述图像的多尺度特征信息;
对所述图像的多尺度特征信息进行双线性插值得到预测结果。
进一步,所述将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征,还包括:
将所述图像的底层特征和高层特征进行图像特征级别的图像融合。
进一步,所述将所述图像的底层特征和高层特征进行图像特征级别的图像融合公式为:
Figure BDA0002702611650000031
其中,神经网络的输出位F1(x),f1、f2代表残差单元的卷积、池化以及激活操作,w1、w2为卷积核。
进一步,所述基于空洞金字塔池化法,提取所述图像的多尺度特征信息,包括:
所述空洞金字塔池化的计算公式为:
Figure BDA0002702611650000032
其中,F(s)为被卷积向量,k(t)为卷积核,s为步长,t为偏移量;(F*lk)(p)表示p个维度的金字塔池化结果,
Figure BDA0002702611650000033
表示对p个维度求和。
进一步,所述在所述流行学习层中将数据维度降低,得到降维后数据,包括:
构造近邻图,并连接样本点,使得每个点连接其最近的k个点;
利用热核函数来确定相邻点之间权重;
基于所述相邻点之间权重,构建优化目标函数进行预测分类。
进一步,所述优化目标函数为:
Figure BDA0002702611650000041
其中,ya,yb是特征点在m维空间中的列向量,W为相邻点之间权重。
第二方面,本发明实施例提供一种Deeplab语义分割算法的优化***,包括:
降维模块,用于在Deeplab语义分割算法基础上搭建流行学习层,以在所述流行学习层中将数据维度降低,得到降维后数据;
特征提取模块,用于将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征;
池化模块,用于基于空洞金字塔池化法,提取所述图像的多尺度特征信息;
分类模块,用于对所述图像的多尺度特征信息进行双线性插值得到预测结果。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所提供的一种Deeplab语义分割算法的优化方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所提供的一种Deeplab语义分割算法的优化方法的步骤。
本发明实施例提供的一种Deeplab语义分割算法的优化方法及***,引用了流行学习层来对数据进行预处理,相比其他传统降维方式,流行学习降维能有效保留数据有用信息并进行初步聚合。本发明构建并行的卷积网络层提取纹理、轮廓等细节特征信息,并且进行特征像素级融合,补充原始图像的语义信息,其次使用融合得到特征图继续进行下采样操作,进一步的补充细节信息。本发明还利用空间金字塔结构分别从多维度对高层特征进行加工处理,使得用于计算loss的全连接层预测信息更接近真实标签信息,防止了部分有效信息的流失。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种Deeplab语义分割算法的优化方法流程示意图;
图2是本发明实施例提供的Deeplab语义分割算法的优化后结构示意图;
图3是本发明实施例提供的流行学习层效果图;
图4是本发明实施例提供的block输出示意图;
图5是本发明实施例提供的卷积示意图;
图6是本发明实施例提供的空洞卷积结果;
图7是本发明实施例提供的一种Deeplab语义分割算法的优化***结构示意图;
图8是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
目前,传统的语义分割算法,可以通过扩大卷积核感受野范围、提取多尺度特征信息以及编解码结构来补充图像细节信息,但是下采样的过程中仍是丢失了许多的细节信息,并且缺乏利用全局上下文信息的能力,从而限制了语义分割的效果。
因此,本发明实施例提供的一种Deeplab语义分割算法的优化方法及***,引用了流行学习层来对数据进行预处理,相比其他传统降维方式,流行学习降维能有效保留数据有用信息并进行初步聚合。本发明构建并行的卷积网络层提取纹理、轮廓等细节特征信息,并且进行特征像素级融合,补充原始图像的语义信息,其次使用融合得到特征图继续进行下采样操作,进一步的补充细节信息。以下将结合附图通过多个实施例进行展开说明和介绍。
图1是本发明实施例提供的一种Deeplab语义分割算法的优化方法流程示意图,如图1所示,该方法包括:
101、在Deeplab语义分割算法基础上搭建流行学习层,以在所述流行学习层中将数据维度降低,得到降维后数据;
102、将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征;
103、基于空洞金字塔池化法,提取所述图像的多尺度特征信息;
104、对所述图像的多尺度特征信息进行双线性插值得到预测结果。
具体的,图2是本发明实施例提供的Deeplab语义分割算法的优化后结构示意图,结合图2可以看出,本发明实施例提供的方法构建了四个部分内容,分别是流行学习层,改进型ResNet-101层,空间金字塔结构层,双线性插值分类层,分别对应本发明实施例中的步骤101-104。图3是本发明实施例提供的流行学习层效果图,如图3所示,本发明实施例搭建流行学习层,实现数据降维处理。
进一步的,在步骤102中,本发明实施例构建改进型ResNet-101结构,提取图像的底层特征和高层特征,然后进行图像特征级别的融合,设卷积核ConV2、ConV3为w1、w2,经过Block3、Block4以及卷积核采样处理之后得到改进型ResNet-101网络的输出F1(x)。
在步骤103中,使用空洞金字塔池化模块获取图像的多尺度特征信息。空洞金字塔池化结构包括对池化后的特征图分别采用rate为6、12、18的空洞卷积、对特征图进行1*1的卷积和特征图的3*3最大池化过程,然后通过全连接层还原为特征图大小后矢量叠加。
最后,在步骤104中,对特征图进行双线性插值得到预测结果。
本发明实施例提供的一种Deeplab语义分割算法的优化方法及***,引用了流行学习层来对数据进行预处理,相比其他传统降维方式,流行学习降维能有效保留数据有用信息并进行初步聚合。本发明构建并行的卷积网络层提取纹理、轮廓等细节特征信息,并且进行特征像素级融合,补充原始图像的语义信息,其次使用融合得到特征图继续进行下采样操作,进一步的补充细节信息。本发明还利用空间金字塔结构分别从多维度对高层特征进行加工处理,使得用于计算loss的全连接层预测信息更接近真实标签信息,防止了部分有效信息的流失。
在一个实施例中,步骤102中,所述将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征,还包括:
将所述图像的底层特征和高层特征进行图像特征级别的图像融合。
在一个实施例中,所述将所述图像的底层特征和高层特征进行图像特征级别的图像融合公式为:
Figure BDA0002702611650000081
其中,神经网络的输出位F1(x),f1、f2代表残差单元的卷积、池化以及激活操作,w1、w2为卷积核。
具体的,本发明实施例实质上构建了改进型ResNet-101结构,提取图像的底层特征和高层特征,然后进行图像特征级别的融合,如图3所示,Deeplab框架中使用ResNet-101作为编码器网络,输入图像首先经过卷积核尺寸为7,步长为2的卷积层以及尺寸为3,步长为2的池化层,其作用是降低了训练的参数量,扩大了感知野范围,保留了更多的图像全局信息。其次,将池化层输出的特征图输入4个由残差单元堆叠组成的Blocks进行进一步的下采样处理,4个Blocks中的残差单元的数量依次为3、4、23、3,这期间特征图的尺寸不断减小至原始图像的1/16,特征图尺寸不断变小的同时意味着其包含的特征信息也更为复杂。
图4是本发明实施例提供的block输出示意图,设图4中Block2的输出Featuremap3为x,经过Block3、Block4下采样处理后即可得到传统ResNet-101网络的输出F(x),其表达式如下所示。
F(x)=f2(f1(x))
图5是本发明实施例提供的卷积示意图,设图5中卷积核ConV2、ConV3为w1、w2,经过Block3、Block4以及卷积核采样处理之后得到改进型ResNet-101网络的输出F1(x),其表达式如下所示。
Figure BDA0002702611650000091
其中f1、f2代表Block3、Block4中残差单元的卷积、池化以及激活等操作。
在一个实施例中,步骤103中,所述基于空洞金字塔池化法,提取所述图像的多尺度特征信息,包括:
所述空洞金字塔池化的计算公式为:
Figure BDA0002702611650000092
其中,F(s)为被卷积向量,k(t)为卷积核,s为步长,t为偏移量;(F*lk)(p)表示p个维度的金字塔池化结果,
Figure BDA0002702611650000093
表示对p个维度求和。
具体的,使用空洞金字塔池化模块获取图像的多尺度特征信息。空洞金字塔池化结构包括对池化后的特征图分别采用rate为6、12、18的空洞卷积、对特征图进行1*1的卷积和特征图的3*3最大池化过程,然后通过全连接层还原为特征图大小后矢量叠加。图6是本发明实施例提供的空洞卷积结果,如图6所示,空洞卷积是对原图进行采样的过程,采样的频率根据参数空洞大小(rate)来设定。如果rate设置为1时,原图采样时不丢失任何信息即标准卷积操作;如果rate>1时,采样时在原始数据上每隔(rate-1)个像素采样,此时即增大了感受野的范围。定义空洞因子为l,则空洞卷积的计算公式为:
Figure BDA0002702611650000101
其中F(s)为被卷积向量,k(t)为卷积核,s为步长,t为偏移量;(F*lk)(p)表示p个维度的金字塔池化结果,
Figure BDA0002702611650000102
表示对p个维度求和。
基于上述各实施例的内容,步骤101中,在所述流行学习层中将数据维度降低,得到降维后数据,具体包括:
构造近邻图,并连接样本点,使得每个点连接其最近的k个点;
利用热核函数来确定相邻点之间权重;
基于所述相邻点之间权重,构建优化目标函数进行预测分类。
在一个实施例中,所述优化目标函数f(x)为:
Figure BDA0002702611650000103
其中,ya,yb是特征点在m维空间中的列向量,W为相邻点之间权重。
步骤1中搭建流行学习层的具体实现方式如下,
步骤1a,构造近邻图,首先连接样本点,连接每个点最近的k个点,k值为事先设定。
步骤1b,利用热核函数来确定相邻点之间权重,其表达式如下:
Figure BDA0002702611650000111
其中x1与x2为相邻点,t为热核宽度。此外可以采用默认设定权重值,x1与x2两点不连接时权重值设为1,x1与x2两点相连时权重值设为0。
步骤1c,相似的样本点在降维后空间中距离较近,构建优化目标函数f(x)如式下:
Figure BDA0002702611650000112
其中ya,yb是特征点在m维空间中的列向量,权重值W可由步骤1b得到。
为了验证本发明方法的性能,本发明采用SAR图像采用中国海南陵水县果园数据,原始数据采用高分三号卫星获取图像,通过步长为200分割为200*200的9669张图像构成数据集,取85%数据作为训练数据,剩下15%作为校验数据,
实验环境在WIN10***下,为了快速搭建改进型Deeplab网络,采用目前较为流行的深度学习框架Tensorflow,在实验中,为了提高实验网络的训练速度,采用单个8G容量GPU的计算模式,硬件上采用NVIDIA1080卡,利用GUP加速模式运行。
为了评估更好地算法的有效性,本实验用Kappa系数(Kappa)、总体精度(OA)和特定类别的精度(Accuracy)对实验结果进行了评估。Pab表示预测类别a被分类到类别b的像素点数,ta=∑bPab表示属于a类别的像素点总数,评级指标定义如下所示:
Kappa系数:Kappa是一个统计量,用来衡量预测和地面真相之间的一致性。
Figure BDA0002702611650000121
Figure BDA0002702611650000122
Figure BDA0002702611650000123
其中k∈[1,K],K是类别数
总体精度:OA是指在整个图像中正确分类像素和所有像素的百分比。
Figure BDA0002702611650000124
类特定精度:Accuracy是每个类的正确分类像素的百分比:
Figure BDA0002702611650000125
Kappa、OA和类特定精度值在0~1之间,越高,分类性能越好。
为了验证改进型Deeplab网络在高光谱果园图像上的分类有效性,本文在海南地区的果园数据上进行了6组实验,b-e为5组对比实验,分别为:GLCM+SVM、Decompositon+SPM、SDU-CNN和Deeplab,每组实验的各类水果分类准确率和评价指标如下表所示。可以看出Decompositon+SPM方法的分类总体精度最低,只有64.16%,对于三种时期的芒果误分类比较严重,并且槟榔和龙眼两种水果的分类精度也比较差。GLCM+SVM方法在槟榔和龙眼的分类精度上提高了10%左右,但是对于同种水果的不同时期状态分类效果依然很差。SDU-CNN方法相比前两种分类方法在芒果、槟榔和龙眼三种水果的分类精度都提高了10%左右。原始的Deeplab方法将I期芒果、II期芒果、槟榔的分类精度分别提高到了95.62%、91.56%和94.33%,但是对于III期芒果和龙眼的分类依然存在比较大的误差。本算法在I期芒果、II期芒果、III期芒果、槟榔、龙眼5类果园上的分类准确率到了最高,分别为:98.56%、98.33%、95.62%、99.23%、98.32%。
表1改进型Deepalb类分割混淆矩阵
Figure BDA0002702611650000131
表2评价指标
Figure BDA0002702611650000132
Figure BDA0002702611650000141
在一个实施例中,图7是本发明实施例提供的一种Deeplab语义分割算法的优化***结构示意图,如图7所示,该装置包括降维模块701、特征提取模块702、池化模块703以及分类模块704,其中:
降维模块701用于在Deeplab语义分割算法基础上搭建流行学习层,以在所述流行学习层中将数据维度降低,得到降维后数据。特征提取模块702用于将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征。池化模块703用于基于空洞金字塔池化法,提取所述图像的多尺度特征信息。分类模块704用于对所述图像的多尺度特征信息进行双线性插值得到预测结果。
具体的如何利用降维模块701、特征提取模块702、池化模块703以及分类模块704对Deeplab语义分割算法的优化可参见上述方法实施例,本发明实施例在此不再赘述。
在一个实施例中,基于相同的构思,本发明实施例还提供了一种电子设备,图8为本发明实施例提供的电子设备的结构示意图,如图8所示,电子设备可以包括:处理器(processor)801、通信接口(Communications Interface)802、存储器(memory)803和总线804,其中,处理器801,通信接口802,存储器803通过总线804完成相互间的通信。处理器801可以调用存储器803中的逻辑指令,以执行如下方法:在Deeplab语义分割算法基础上搭建流行学习层,以在所述流行学习层中将数据维度降低,得到降维后数据;将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征;基于空洞金字塔池化法,提取所述图像的多尺度特征信息;对所述图像的多尺度特征信息进行双线性插值得到预测结果。
在一个实施例中,基于相同的构思,本实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:在Deeplab语义分割算法基础上搭建流行学习层,以在所述流行学习层中将数据维度降低,得到降维后数据;将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征;基于空洞金字塔池化法,提取所述图像的多尺度特征信息;对所述图像的多尺度特征信息进行双线性插值得到预测结果。
在一个实施例中,基于相同的构思,本实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:在Deeplab语义分割算法基础上搭建流行学习层,以在所述流行学习层中将数据维度降低,得到降维后数据;将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征;基于空洞金字塔池化法,提取所述图像的多尺度特征信息;对所述图像的多尺度特征信息进行双线性插值得到预测结果。
本发明的各实施方式可以任意进行组合,以实现不同的技术效果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种Deeplab语义分割算法的优化方法,其特征在于,包括:
在Deeplab语义分割算法基础上搭建流行学习层,以在所述流行学习层中将数据维度降低,得到降维后数据;
将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征;
基于空洞金字塔池化法,提取所述图像的多尺度特征信息;
对所述图像的多尺度特征信息进行双线性插值得到预测结果。
2.根据权利要求1所述的Deeplab语义分割算法的优化方法,其特征在于,所述将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征,还包括:
将所述图像的底层特征和高层特征进行图像特征级别的图像融合。
3.根据权利要求1所述的Deeplab语义分割算法的优化方法,其特征在于,所述将所述图像的底层特征和高层特征进行图像特征级别的图像融合公式为:
Figure FDA0002702611640000011
其中,神经网络的输出位F1(x),f1、f2代表残差单元的卷积、池化以及激活操作,w1、w2为卷积核。
4.根据权利要求3所述的Deeplab语义分割算法的优化方法,其特征在于,所述基于空洞金字塔池化法,提取所述图像的多尺度特征信息,包括:
所述空洞金字塔池化的计算公式为:
Figure FDA0002702611640000021
其中,F(s)为被卷积向量,k(t)为卷积核,s为步长,t为偏移量;(F*lk)(p)表示p个维度的金字塔池化结果,
Figure FDA0002702611640000022
表示对p个维度求和。
5.根据权利要求1所述的Deeplab语义分割算法的优化方法,其特征在于,所述在所述流行学习层中将数据维度降低,得到降维后数据,包括:
构造近邻图,并连接样本点,使得每个点连接其最近的k个点;
利用热核函数来确定相邻点之间权重;
基于所述相邻点之间权重,构建优化目标函数进行预测分类。
6.根据权利要求5所述的Deeplab语义分割算法的优化方法,其特征在于,所述优化目标函数为:
Figure FDA0002702611640000023
其中,ya,yb是特征点在m维空间中的列向量,W为相邻点之间权重。
7.一种Deeplab语义分割算法的优化***,其特征在于,包括:
降维模块,用于在Deeplab语义分割算法基础上搭建流行学习层,以在所述流行学习层中将数据维度降低,得到降维后数据;
特征提取模块,用于将所述降维后数据输入改进后的编码器网络中,提取图像的底层特征和高层特征;
池化模块,用于基于空洞金字塔池化法,提取所述图像的多尺度特征信息;
分类模块,用于对所述图像的多尺度特征信息进行双线性插值得到预测结果。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述Deeplab语义分割算法的优化方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述Deeplab语义分割算法的优化方法的步骤。
CN202011027787.2A 2020-09-25 2020-09-25 一种Deeplab语义分割算法的优化方法及*** Pending CN112329808A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011027787.2A CN112329808A (zh) 2020-09-25 2020-09-25 一种Deeplab语义分割算法的优化方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011027787.2A CN112329808A (zh) 2020-09-25 2020-09-25 一种Deeplab语义分割算法的优化方法及***

Publications (1)

Publication Number Publication Date
CN112329808A true CN112329808A (zh) 2021-02-05

Family

ID=74304261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011027787.2A Pending CN112329808A (zh) 2020-09-25 2020-09-25 一种Deeplab语义分割算法的优化方法及***

Country Status (1)

Country Link
CN (1) CN112329808A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111711A (zh) * 2021-03-11 2021-07-13 浙江理工大学 一种基于双线性和空间金字塔的池化方法
CN114549958A (zh) * 2022-02-24 2022-05-27 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN117197651A (zh) * 2023-07-24 2023-12-08 移动广播与信息服务产业创新研究院(武汉)有限公司 一种结合边缘检测与语义分割的田块提取方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法
WO2020093630A1 (zh) * 2018-11-09 2020-05-14 五邑大学 一种基于多尺度深度语义分割网络的天线下倾角测量方法
CN111292330A (zh) * 2020-02-07 2020-06-16 北京工业大学 基于编解码器的图像语义分割方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
WO2020093630A1 (zh) * 2018-11-09 2020-05-14 五邑大学 一种基于多尺度深度语义分割网络的天线下倾角测量方法
CN111292330A (zh) * 2020-02-07 2020-06-16 北京工业大学 基于编解码器的图像语义分割方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王云艳 等: "Deeplab网络的极化合成孔径雷达图像分类", 《测绘科学》, vol. 45, no. 6, pages 110 - 117 *
王云艳 等: "改进型DeepLab 的极化SAR 果园分类", 《中国图像图像学报》, vol. 24, no. 11, pages 2035 - 2044 *
韩松臣 等: "基于改进Faster‑RCNN 的机场场面小目标物体 检测算法", 《南京航空航天大学学报》, vol. 51, no. 6, pages 735 - 741 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111711A (zh) * 2021-03-11 2021-07-13 浙江理工大学 一种基于双线性和空间金字塔的池化方法
CN114549958A (zh) * 2022-02-24 2022-05-27 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN114549958B (zh) * 2022-02-24 2023-08-04 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN117197651A (zh) * 2023-07-24 2023-12-08 移动广播与信息服务产业创新研究院(武汉)有限公司 一种结合边缘检测与语义分割的田块提取方法及***
CN117197651B (zh) * 2023-07-24 2024-03-29 移动广播与信息服务产业创新研究院(武汉)有限公司 一种结合边缘检测与语义分割的田块提取方法及***

Similar Documents

Publication Publication Date Title
CN110232394B (zh) 一种多尺度图像语义分割方法
CN109949255B (zh) 图像重建方法及设备
CN111369440B (zh) 模型训练、图像超分辨处理方法、装置、终端及存储介质
CN112651438A (zh) 多类别图像的分类方法、装置、终端设备和存储介质
WO2020119527A1 (zh) 人体动作识别方法、装置、终端设备及存储介质
CN111488985B (zh) 深度神经网络模型压缩训练方法、装置、设备、介质
CN108510504B (zh) 图像分割方法和装置
CN112329808A (zh) 一种Deeplab语义分割算法的优化方法及***
CN112699937B (zh) 基于特征引导网络的图像分类与分割的装置、方法、设备及介质
CN110570353A (zh) 密集连接生成对抗网络单幅图像超分辨率重建方法
CN111325271B (zh) 图像分类方法及装置
CN111612017A (zh) 一种基于信息增强的目标检测方法
CN111860398A (zh) 遥感图像目标检测方法、***及终端设备
CN113313180B (zh) 一种基于深度对抗学习的遥感图像语义分割方法
CN111178312B (zh) 基于多任务特征学习网络的人脸表情识别方法
CN112270332A (zh) 一种基于子流稀疏卷积的三维目标检测方法及***
CN112329801A (zh) 一种卷积神经网络非局部信息构建方法
CN110633640A (zh) 优化PointNet对于复杂场景的识别方法
CN113011253A (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN117576402B (zh) 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法
CN115660955A (zh) 高效多注意力特征融合的超分辨率重建模型、方法、设备及存储介质
CN111126185A (zh) 一种针对道路卡口场景的深度学习车辆目标识别方法
CN113033448B (zh) 一种基于多尺度卷积和注意力的遥感影像去云残差神经网络***、方法、设备及存储介质
CN114373110A (zh) 对输入图像进行目标检测的检测方法、设备及其相关产品
CN113963272A (zh) 一种基于改进yolov3的无人机图像目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination