CN116563538B - 图像分割方法及*** - Google Patents

图像分割方法及*** Download PDF

Info

Publication number
CN116563538B
CN116563538B CN202310474603.4A CN202310474603A CN116563538B CN 116563538 B CN116563538 B CN 116563538B CN 202310474603 A CN202310474603 A CN 202310474603A CN 116563538 B CN116563538 B CN 116563538B
Authority
CN
China
Prior art keywords
image
feature
module
segmentation
multiple scales
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310474603.4A
Other languages
English (en)
Other versions
CN116563538A (zh
Inventor
刘晓暄
牛璐璐
王洪
张伊丹
贾婕
刘世雄
齐析屿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202310474603.4A priority Critical patent/CN116563538B/zh
Publication of CN116563538A publication Critical patent/CN116563538A/zh
Application granted granted Critical
Publication of CN116563538B publication Critical patent/CN116563538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种图像分割方法及***,涉及图像处理技术领域,方法包括:获取待分割图像;将待分割图像输入到目标分割网络,获取分割结果;其中,所述目标分割网络是基于样本数据集训练得到的,所述目标分割网络包括编码器模块、超像素池化模块、注意力机制模块以及解码器模块。所述***执行所述方法。本发明基于超像素分割模块,对待分割图像进行下采样,得到多个尺度的第一图像,并基于多个尺度的第一图像对编码器模块提取到的待分割图像的第一特征图进行池化,结合注意力机制和特征融合操作得到最终的待分割图像的分割结果,提高了对待分割图像进行分割的准确度。

Description

图像分割方法及***
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像分割方法及***。
背景技术
图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤,没有正确的分割就无法正确对图像进行分析。
现有的图像分割方法多是依据图像中像素的亮度及颜色,难以提取图像特征中的全局语义信息,使得图像分割的准确度低。
发明内容
本发明提供的图像分割方法及***,用于解决现有技术中存在的图像分割的准确度低的问题。
本发明提供的一种图像分割方法,包括:
获取待分割图像;
将待分割图像输入到目标分割网络,获取分割结果;
其中,所述目标分割网络是基于样本数据集训练得到的,所述目标分割网络包括编码器模块、超像素池化模块、注意力机制模块以及解码器模块;
并且,所述获取分割结果包括:
基于所述编码器模块提取所述待分割图像的第一特征图;
基于所述超像素池化模块对所述待分割图像进行下采样,得到多个尺度的第一图像,并基于所述多个尺度的第一图像对所述第一特征图进行池化,得到多个尺度的第二特征图;
将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图;
基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果。
根据本发明提供的一种图像分割方法,所述将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图,包括:
基于多个注意力机制模块,分别对每个尺度的第二特征图进行转置,得到第四特征图;
将所述第四特征图与所述第二特征图相乘,得到第五特征图;
对所述第二特征图进行卷积,得到第六特征图;
将所述第六特征图与所述第五特征图相乘,得到所述多个尺度的第三特征图。
根据本发明提供的一种图像分割方法,所述基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果,包括:
基于所述解码器模块,分别对所述多个尺度的第三特征图进行反池化,得到多个第七特征图;
将所述多个第七特征图进行叠加后与所述第一特征图进行融合,得到融合后的特征图;
对所述融合后的特征图进行反卷积,得到所述分割结果。
根据本发明提供的一种图像分割方法,所述编码器模块是根据训练好的预设分割网络中的编码器模块确定的,所述预设分割网络中的编码器模块是使用ImageNet数据集对卷积神经网络进行训练后得到的。
根据本发明提供的一种图像分割方法,所述目标分割网络的获取方式,包括:
获取多张样本图像;
对每张样本图像进行裁剪,得到每张样本图像对应的第二图像;
对所述第二图像进行标注,得到第三图像;
对所述第二图像进行增强,得到第四图像;
根据所述第三图像和所述第四图像,得到所述样本数据集;
将所述样本数据集输入到预设分割网络进行训练,得到所述目标分割网络。
根据本发明提供的一种图像分割方法,所述将所述样本数据集输入到预设分割网络进行训练,得到所述目标分割网络,包括:
将所述样本数据集输入到预设分割网络进行训练,直至所述预设分割网络的目标损失函数的取值趋于稳定,停止训练,得到所述目标分割网络,所述目标损失函数是根据交叉熵函数和边界相似函数确定的。
根据本发明提供的一种图像分割方法,所述对所述第二图像进行增强,得到第四图像,包括:
对所述第二图像进行数据增强,得到所述第四图像;
其中,所述数据增强包括如下任一种:
随机角度的旋转、水平翻转、垂直翻转、色彩调节、光度失真以及类别均衡采样。
本发明还提供一种图像分割***,包括:获取模块以及分割模块;
所述获取模块,用于获取待分割图像;
所述分割模块,用于将待分割图像输入到目标分割网络,获取分割结果;
其中,所述目标分割网络是基于样本数据集训练得到的,所述目标分割网络包括编码器模块、超像素池化模块、注意力机制模块以及解码器模块;
并且,所述获取分割结果包括:
基于所述编码器模块提取所述待分割图像的第一特征图;
基于所述超像素池化模块对所述待分割图像进行下采样,得到多个尺度的第一图像,并基于所述多个尺度的第一图像对所述第一特征图进行池化,得到多个尺度的第二特征图;
将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图;
基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果。
本发明还提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现如上述任一种所述图像分割方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像分割方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像分割方法。
本发明提供的图像分割方法及***,基于超像素分割模块,对待分割图像进行下采样,得到多个尺度的第一图像,并基于多个尺度的第一图像对编码器模块提取到的待分割图像的第一特征图进行池化,结合注意力机制和特征融合操作得到最终的待分割图像的分割结果,提高了对待分割图像进行分割的准确度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的图像分割方法的流程示意图;
图2是本发明提供的超像素池化模块的结构示意图;
图3是本发明提供的注意力机制模块的结构示意图;
图4是本发明提供的解码器模块的结构示意图;
图5是本发明提供的目标分割网络的结构示意图;
图6是本发明提供的图像分割***的结构示意图;
图7是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的图像分割方法的流程示意图,如图1所示,方法包括:
步骤110,获取待分割图像;
步骤120,将待分割图像输入到目标分割网络,获取分割结果;
其中,所述目标分割网络是基于样本数据集训练得到的,所述目标分割网络包括编码器模块、超像素池化模块、注意力机制模块以及解码器模块;
并且,所述获取分割结果包括:
基于所述编码器模块提取所述待分割图像的第一特征图;
基于所述超像素池化模块对所述待分割图像进行下采样,得到多个尺度的第一图像,并基于所述多个尺度的第一图像对所述第一特征图进行池化,得到多个尺度的第二特征图;
将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图;
基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果。
需要说明的是,上述方法的执行主体可以是计算机设备。
可选地,该待分割图像可以具体为包括待提取目标的图像,其可以具体是根据样本数据集中的测试集得到,也可以是实时获取的,该图像可以具体为RGB图像,例如,遥感图像,该待提取目标可以具体包括道路交叉口、飞机、车辆、船只等。
该目标分割网络可以具体是基于样本数据集训练得到的,其可以具体包括编码器模块、超像素池化模块、注意力机制模块以及解码器模块。
通过将该待分割图像输入到编码器模块,基于编码器模块提取待分割图像的特征图,即第一特征图,该编码器模块可以具体采用训练好的基于完全卷积掩码的特征提取网络,例如卷积神经网络。
该超像素池化模块可以具体包括超像素分割分支和池化层,将待分割图像输入到该超像素池化模块,利用超像素池化模块中的超像素分割分支对待分割图像进行下采样,得到多个尺度的第一图像,并将多个尺度的第一图像的输入到池化层,利用多个尺度的第一图像对第一特征图进行池化,得到多个尺度的特征图,即第二特征图。其中,该下采样可以具体包括2倍、4倍、8倍下采样等。该超像素分割分支可以具体采用简单线性迭代聚类(Simple Linear Iterative Cluster,SLIC)算法搭建的。
使用如SLIC算法获取超像素分割图,将超像素块的划分作为一种特征池化的划分。
超像素是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域大多保留了进一步进行图像分割的有效信息,且一般不会破坏图像中物体的边界信息。超像素算法利用像素之间特征的相似性将像素分组,用少量的超像素代替大量的像素来表达图像特征,很大程度上降低了图像处理的复杂度,常用于图像分割领域。
将得到的多个尺度的第二特征图分别输入到注意力机制模块,得到多个尺度的第三特征图,其中,每个尺度的第二特征图对应输入到一个注意力机制模块中,输出一个对应尺度的第三特征图。
例如,图2是本发明提供的超像素池化模块的结构示意图,如图2所示,待分割图像的尺度大小为H*W*C,其中,H代表待分割图像的高度,W代表待分割图像的宽度,C代表待分割图像的通道数。
将该待分割图像输入到由卷积神经网络训练得到的编码器模块,输出第一特征图,第一特征图的尺度大小为H*W*C′。
将该待分割图像输入到超像素池化模块,利用超像素分割分支对该待分割图像进行下采样,得到超像素分割图,即第一图像,并将该第一图像和输入第一特征图到池化层,利用该第一图像对该第一特征图进行超像素池化,代替一次普通池化的操作,得到第二特征图,第二特征图的尺度大小为K*C,其中,K代表超像素池化模块中的超像素块的个数。
将该第二特征图输入到对应的注意力机制模块,输出第三特征图,该第三特征图的尺度大小为K*C″。
基于解码器模块,对注意力机制模块输出的多个尺度的第三特征图和编码器模块输出的第一特征图进行特征融合,输出对待分割图像进行分割后的图像,即分割结果,该分割后的图像可以具体为表示待提取目标的二值掩码。
例如,待分割图像为道路交叉口的遥感图像,将道路交叉口的遥感图像输入到目标分割网络,得到分割结果。
对遥感图像的道路交叉口的提取对于自动驾驶、地图构建等应用具有重要意义。而现有道路交叉口的提取方法多关注于道路像素级别的分割,虽然基于端到端的卷积神经网络的道路提取方法在区别道路和其他地物方面具有突出的优势,但在以往的道路提取工作中依然存在以下问题:现有道路提取方法多关注于道路像素级别的分割,而对于道路交叉口的识别关注较少;简单的卷积算子无法敏锐地关注每个特征点之间的空间关系,也难以完全地感知道路特征的全局语义信息,使得道路提取效果不佳,本发明提供的图像分割方法,通过对道路交叉口的识别定位对于更精细的道路拓扑构建和连通性信息判别具有重要意义,基于超像素分割模块,对包括道路交叉口的遥感图像进行下采样,得到多个尺度的第一图像,并基于多个尺度的第一图像对编码器模块提取到的包括道路交叉口的遥感图像的第一特征图进行池化,结合注意力机制和特征融合操作得到最终的包括道路交叉口的遥感图像的分割结果,能够更准确的提取道路交叉口。通过多分支网络同时获取多尺度的道路交叉口信息,弥补了道路交叉口提取领域超像素池化方法的欠缺;经本发明提供的图像分割方法对包含道路交叉口的待分割图像进行分割后,得到的分割结果具有精确性的特点。
本发明提供的图像分割方法,基于超像素分割模块,对待分割图像进行下采样,得到多个尺度的第一图像,并基于多个尺度的第一图像对编码器模块提取到的待分割图像的第一特征图进行池化,结合注意力机制和特征融合操作得到最终的待分割图像的分割结果,提高了对待分割图像进行分割的准确度。
进一步地,在一个实施例中,所述将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图,可以具体包括:
基于多个注意力机制模块,分别对每个尺度的第二特征图进行转置,得到第四特征图;
将所述第四特征图与所述第二特征图相乘,得到第五特征图;
对所述第二特征图进行卷积,得到第六特征图;
将所述第六特征图与所述第五特征图相乘,得到所述多个尺度的第三特征图。
可选地,将每个尺度的第二特征图分别输入到一个注意力机制模块中,每个注意力机制模块输出一个尺度的特征图,即第三特征图,具体地:
基于每个注意力机制模块对输入的每个尺度的第二特征图进行转置,得到对应的第四特征图。
利用该注意力机制模块将第四特征图与输入的第二特征图相乘,得到第五特征图,并对输入的第二特征图进行卷积,得到第六特征图。
利用该注意力机制模块,将第六特征图与第五特征图相乘,得到一个尺度的第三特征图。
根据每个注意力机制模块输出的第三特征图,得到多个尺度的第三特征图。
例如,图3是本发明提供的注意力机制模块的结构示意图,如图3所示,经超像素池化模块输出的多个尺度大小的第二特征图中的其中一个尺度大小为K*C′的第二特征图,将该第二特征图转置后与自身相乘,经过softmax后得到K*K尺度大小的特征图(即第五特征图)。对K*C′尺度大小的第二特征图进行1×1卷积得到尺度大小为K*C″的特征图(即第六特征图),再与K*K尺度大小的第五特征图相乘得到尺度大小为K*C″的输出特征图,即第三特征图。
进一步地,在一个实施例中,所述基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果,可以具体包括:
基于所述解码器模块,分别对所述多个尺度的第三特征图进行反池化,得到多个第七特征图;
将所述多个第七特征图进行叠加后与所述第一特征图进行融合,得到融合后的特征图;
对所述融合后的特征图进行反卷积,得到所述分割结果。
可选地,将得到的多个尺度的第三特征图输入到解码器模块,对每个尺度的第三特征图进行反池化,得到多个尺度大小相同的第七特征图。
将得到的多个尺度大小相同的第七特征图进行叠加后,与编码器模块输出的第一特征图进行拼接/融合,得到融合后的特征图,并对该融合后的特征图进行反卷积,得到最终的分割结果。
对于得到的多个尺度大小的第三特征图,进行反平均池化操作还原至输入图像大小,后将多个尺度大小的第三特征图叠加为一张,与编码器模块产生的第一特征图进行拼接/融合,对于拼接后的特征图,经过反卷积产生预测图,即分割结果。
例如,图4是本发明提供的解码器模块的结构示意图,如图4所示,利用解码器模块对得到的尺度大小分别为K′*C″、K*C″以及K″*C″的第三特征图进行反池化,得到尺度大小为H*W*C″的第七特征图。
将该多个第七特征图进行叠加后和编码器模块输出的第一特征图进行拼接/融合得到融合后的特征图,并对该融合后的特征图进行反卷积后,得到预测输出,即分割结果。
本发明提供的图像分割方法,基于注意力机制模块对超像素分割模块输出的多个尺度的第二特征图进行处理后输出多个尺度的第三特征图,并结合解码器模块对该多个尺度的第三特征图和编码器模块输出的第一特征图进行特征融合,提取待分割图像的特征信息,最终得到待分割图像的分割结果,改善了对待分割图像的分割效果。
进一步地,在一个实施例中,所述编码器模块是根据训练好的预设分割网络中的编码器模块确定的,所述预设分割网络中的编码器模块是使用ImageNet数据集对卷积神经网络进行训练后得到的。
可选地,近年来,随着深度学习(Deep Learning,DL)的不断发展,卷积神经网络(Convolutional Neural Network,CNN)在图像信息解译方面的研究取得了巨大的进步,具有十分广阔的应用前景。CNN能根据所输入的图像,自主地学习其中地物要素的几何、形状等特征,克服了传统方法手工构造特征的缺点,被广泛应用在目标提取任务中。CNN被广泛使用的编码器模块及解码器模块架构中,不同层级结构的编码器模块对输入数据进行编码,学习并提取目标(例如道路交叉口)的语义特征;使用解码器模块对获取的语义特征逐级解码,恢复深层特征的空间分辨率。同时,为了解决解码器模块阶段存在的深层特征空间细节信息不易恢复的问题,引入跳跃连接来进行不同层级之间的特征融合操作,这不仅充分利用了空间细节信息较为丰富的浅层特征,且生成了语义信息更为细致的深层特征,在道路交叉口提取过程中获得了较好的提取效果。
基于此,本发明使用在ImageNet数据集上预训练的基于完全卷积掩码的特征提取网络(例如卷积神经网络)得到预设分割网络的编码器模块,并将预设分割网络中的编码器模块的参数作为目标分割网络中的编码器模块的初始参数。
其中,预训练采用基于完全卷积掩码的特征提取网络得到的编码器模块,其结构如下:基于完全卷积掩码的特征提取网络由多个残差块组成,块内卷积核大小为3×3实现特征提取,步长为2的卷积实现下采样,并设置跳跃连接,加快网络的收敛速度,其中,目标分割网络中的编码器模块的结构与该预设分割网络中的编码器模块的结构相同。
将样本数据集输入到预设分割网络进行训练,对预设分割网络中编码器模块的初始参数、超像素池化模块的参数、注意力机制模块的参数以及解码器模块的参数进行调整,利用训练好的编码器模块对待分割图像先进行卷积核大小为7的卷积,对得到的特征图进行步长为2的最大池化,之后经过多个残差块,残差块使用步长为2的卷积实现下采样,使用许多卷积核大小为3×3卷积实现特征提取,得到第一特征图。
进一步地,在一个实施例中,所述目标分割网络的获取方式,可以具体包括:
获取多张样本图像;
对每张样本图像进行裁剪,得到每张样本图像对应的第二图像;
对所述第二图像进行标注,得到第三图像;
对所述第二图像进行增强,得到第四图像;
根据所述第三图像和所述第四图像,得到所述样本数据集;
将所述样本数据集输入到预设分割网络进行训练,得到所述目标分割网络。
可选地,收集待解译(即原始)的多张遥感图像,将其作为样本图像,并对该样本图像进行像素级标注,形成包含道路交叉口掩码的数据集,具体地:
收集多张遥感图像作为样本图像,对样本图像进行随机裁剪,得到第二图像,例如,将样本图像规则裁剪为小尺寸,如512×512、1024×1024等。
将得到的第二图像进行像素级标注,得到每张遥感图像的语义标签图像,即第三图像,对第二图像进行增强后得到第四图像,各个第三图像和第四图像组成包含道路交叉口掩码的样本数据集,例如,将第二图像中的道路交叉口用同一像素值标注,将第二图像中的非道路交叉口用另一像素值标注。
其中,该样本数据集中包括按预设比例对第三图像和第四图像形成的图像集进行划分后,得到的包括训练集、验证集以及测试集的数据集。
进一步地,在一个实施例中,所述对所述第二图像进行增强,得到第四图像,可以具体包括:
对所述第二图像进行数据增强,得到所述第四图像;
其中,所述数据增强包括如下任一种:
随机角度的旋转、水平翻转、垂直翻转、色彩调节、光度失真以及类别均衡采样。
可选地,通过对第二图像进行数据增强得到第四图像,该数据增强具体操作指将第三图像进行随机角度的旋转、水平翻转、垂直翻转、色彩调节、光度失真、类别均衡采样等变换。
进一步地,在一个实施例中,所述将所述样本数据集输入到预设分割网络进行训练,得到所述目标分割网络,可以具体包括:
将所述样本数据集输入到预设分割网络进行训练,直至所述预设分割网络的目标损失函数的取值趋于稳定,停止训练,得到所述目标分割网络,所述目标损失函数是根据交叉熵函数和边界相似函数确定的。
可选地,搭建预设分割网络,利用训练集进行训练,该预设分割网络包括采用基于完全卷积掩码的特征提取网络的编码器模块、超像素池化模块(包括超像素分割分支和池化层)、注意力机制模块以及融合多尺度信息的解码器模块,搭建步骤如下:
采用SLIC算法,搭建超像素分割分支;
对训练集中的图像进行2倍、4倍下采样,分别进行超像素分割,得到三种尺度大小(包括H*W*C、H/2*W/2*C和H/4*W/4*C)的超像素分割图;
搭建编码器模块,将训练集中的图像送入编码器模块,获取特征图;
利用三种尺度大小的超像素分割图分别对编码器模块输出的特征图进行池化,得到超像素池化模块输出的特征图,并将超像素池化模块输出的特征图经过一个注意力机制模块得到输出三种尺度大小的特征图;
搭建解码器模块,以融合经过注意力机制模块和编码器模块输出的特征图,通过设置多尺度信息融合模块,提高各层次特征的融合能力,实现对待分割图像(例如包括道路交叉口的遥感图像中的道路交叉口口)的有效提取。
将样本数据集中的训练集中的图像输入到预设分割网络中进行训练,待训练结束网络收敛后(此时预设分割网络的目标损失函数的取值趋于稳定),保存训练好的编码器模块的参数、超像素池化模块的参数、注意力机制模块的参数以及解码器模块的参数,根据训练好的编码器模块的初始参数、超像素池化模块的参数、注意力机制模块的参数、解码器模块的参数和预设分割网络得到目标分割网络,将验证集送入到训练完成的目标分割网络,验证目标分割网络分割的准确性。
需要说明的是,可以通过获取每一次训练过程中目标损失函数的取值,判断连续多次获得的目标损失函数的取值的变化值是否小于等于预设阈值,若是,则确定预设分割网络的目标损失函数的取值趋于稳定。
将测试集中的待分割图像输入到训练完成后的目标分割网络,得到分割结果。
该目标损失函数可以具体是由交叉熵函数和边界相似函数相加后得到的。
交叉熵函数LCE的定义为:
其中,yi为图像i真实标签值(即对第二图像进行像素级标注后得到的),yi′是图像i的预测值(即预设分割网络输出的包含标签值的图像),N为样本数,i代表第i个图像。
边界相似函数的定义为:
其中,Xi和Yi分别代表图像i的预测值与图像i的真实标签值,Xi∩Y表示图像i的预测值与图像i的真实标签值的重叠部分,|Xi|,|Yi|分别表示图像i的预测值与真实标签值的个数。
例如,图5是本发明提供的目标分割网络的结构示意图,如图5所示,对待分割图像(该分割图像的大小为H*W*C)分别进行2倍下采样和4倍下采样,得到三个大小的第一图像,该第一图像的大小分别为H/2*W/2*C,H/4*W/4*C和H*W*C,将该分割图像输入到编码器模块,输出第一特征图,该第一特征图的大小为H*W*C′。
将编码器模块输出的第一特征图和三个大小的第一图像输入到超像素池化模块中的池化层,对编码器模块输出的第一特征图进行池化,得到三个尺度大小(包括K′*C″、K*C″和K″*C″)的第三特征图,并分别对K′*C″、K*C″和K″*C″的第三特征图进行反池化后,得到三个H*W*C″尺度大小的第七特征图。
将三个H*W*C″尺度大小的第七特征图进行叠加后得到的H*W*C″尺度大小的特征图和编码器模块输出的第一特征图进行拼接/融合,得到融合后的特征图,并对融合后的特征图进行反卷积后,输出分割结果。
本发明提供的图像分割方法,基于超像素分割模块,对待分割图像进行下采样,得到多个尺度的第一图像,并基于多个尺度的第一图像对编码器模块提取到的待分割图像的第一特征图进行池化,结合注意力机制和特征融合操作得到最终的待分割图像的分割结果,提高了对待分割图像进行分割的准确度和效率。
下面对本发明提供的图像分割***进行描述,下文描述的图像分割***与上文描述的图像分割方法可相互对应参照。
图6是本发明提供的图像分割***的结构示意图,如图6所示,包括:
获取模块610以及分割模块611;
所述获取模块610,用于获取待分割图像;
所述分割模块611,用于将待分割图像输入到目标分割网络,获取分割结果;
其中,所述目标分割网络是基于样本数据集训练得到的,所述目标分割网络包括编码器模块、超像素池化模块、注意力机制模块以及解码器模块;
并且,所述获取分割结果包括:
基于所述编码器模块提取所述待分割图像的第一特征图;
基于所述超像素池化模块对所述待分割图像进行下采样,得到多个尺度的第一图像,并基于所述多个尺度的第一图像对所述第一特征图进行池化,得到多个尺度的第二特征图;
将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图;
基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果。
本发明提供的图像分割***,基于超像素分割模块,对待分割图像进行下采样,得到多个尺度的第一图像,并基于多个尺度的第一图像对编码器模块提取到的待分割图像的第一特征图进行池化,结合注意力机制和特征融合操作得到最终的待分割图像的分割结果,提高了对待分割图像进行分割的准确度。
图7是本发明提供的电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(communication interface)711、存储器(memory)712和总线(bus)713,其中,处理器710,通信接口711,存储器712通过总线713完成相互间的通信。处理器710可以调用存储器712中的逻辑指令,以执行如下方法:
获取待分割图像;
将待分割图像输入到目标分割网络,获取分割结果;
其中,所述目标分割网络是基于样本数据集训练得到的,所述目标分割网络包括编码器模块、超像素池化模块、注意力机制模块以及解码器模块;
并且,所述获取分割结果包括:
基于所述编码器模块提取所述待分割图像的第一特征图;
基于所述超像素池化模块对所述待分割图像进行下采样,得到多个尺度的第一图像,并基于所述多个尺度的第一图像对所述第一特征图进行池化,得到多个尺度的第二特征图;
将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图;
基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的图像分割方法,例如包括:
获取待分割图像;
将待分割图像输入到目标分割网络,获取分割结果;
其中,所述目标分割网络是基于样本数据集训练得到的,所述目标分割网络包括编码器模块、超像素池化模块、注意力机制模块以及解码器模块;
并且,所述获取分割结果包括:
基于所述编码器模块提取所述待分割图像的第一特征图;
基于所述超像素池化模块对所述待分割图像进行下采样,得到多个尺度的第一图像,并基于所述多个尺度的第一图像对所述第一特征图进行池化,得到多个尺度的第二特征图;
将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图;
基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的图像分割方法,例如包括:
获取待分割图像;
将待分割图像输入到目标分割网络,获取分割结果;
其中,所述目标分割网络是基于样本数据集训练得到的,所述目标分割网络包括编码器模块、超像素池化模块、注意力机制模块以及解码器模块;
并且,所述获取分割结果包括:
基于所述编码器模块提取所述待分割图像的第一特征图;
基于所述超像素池化模块对所述待分割图像进行下采样,得到多个尺度的第一图像,并基于所述多个尺度的第一图像对所述第一特征图进行池化,得到多个尺度的第二特征图;
将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图;
基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果。
以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种图像分割方法,其特征在于,包括:
获取待分割图像;
将待分割图像输入到目标分割网络,获取分割结果;
其中,所述目标分割网络是基于样本数据集训练得到的,所述目标分割网络包括编码器模块、超像素池化模块、注意力机制模块以及解码器模块;
并且,所述获取分割结果包括:
基于所述编码器模块提取所述待分割图像的第一特征图;
基于所述超像素池化模块对所述待分割图像进行下采样,得到多个尺度的第一图像,并基于所述多个尺度的第一图像对所述第一特征图进行池化,得到多个尺度的第二特征图;
将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图;
基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果。
2.根据权利要求1所述的图像分割方法,其特征在于,所述将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图,包括:
基于多个注意力机制模块,分别对每个尺度的第二特征图进行转置,得到第四特征图;
将所述第四特征图与所述第二特征图相乘,得到第五特征图;
对所述第二特征图进行卷积,得到第六特征图;
将所述第六特征图与所述第五特征图相乘,得到所述多个尺度的第三特征图。
3.根据权利要求1所述的图像分割方法,其特征在于,所述基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果,包括:
基于所述解码器模块,分别对所述多个尺度的第三特征图进行反池化,得到多个第七特征图;
将所述多个第七特征图进行叠加后与所述第一特征图进行融合,得到融合后的特征图;
对所述融合后的特征图进行反卷积,得到所述分割结果。
4.根据权利要求1所述的图像分割方法,其特征在于,所述编码器模块是根据训练好的预设分割网络中的编码器模块确定的,所述预设分割网络中的编码器模块是使用ImageNet数据集对卷积神经网络进行训练后得到的。
5.根据权利要求1-4任一项所述的图像分割方法,其特征在于,所述目标分割网络的获取方式,包括:
获取多张样本图像;
对每张样本图像进行裁剪,得到每张样本图像对应的第二图像;
对所述第二图像进行标注,得到第三图像;
对所述第二图像进行增强,得到第四图像;
根据所述第三图像和所述第四图像,得到所述样本数据集;
将所述样本数据集输入到预设分割网络进行训练,得到所述目标分割网络。
6.根据权利要求5所述的图像分割方法,其特征在于,所述将所述样本数据集输入到预设分割网络进行训练,得到所述目标分割网络,包括:
将所述样本数据集输入到预设分割网络进行训练,直至所述预设分割网络的目标损失函数的取值趋于稳定,停止训练,得到所述目标分割网络,所述目标损失函数是根据交叉熵函数和边界相似函数确定的。
7.根据权利要求5所述的图像分割方法,其特征在于,所述对所述第二图像进行增强,得到第四图像,包括:
对所述第二图像进行数据增强,得到所述第四图像;
其中,所述数据增强包括如下任一种:
随机角度的旋转、水平翻转、垂直翻转、色彩调节、光度失真以及类别均衡采样。
8.一种图像分割***,其特征在于,包括:获取模块以及分割模块;
所述获取模块,用于获取待分割图像;
所述分割模块,用于将待分割图像输入到目标分割网络,获取分割结果;
其中,所述目标分割网络是基于样本数据集训练得到的,所述目标分割网络包括编码器模块、超像素池化模块、注意力机制模块以及解码器模块;
并且,所述获取分割结果包括:
基于所述编码器模块提取所述待分割图像的第一特征图;
基于所述超像素池化模块对所述待分割图像进行下采样,得到多个尺度的第一图像,并基于所述多个尺度的第一图像对所述第一特征图进行池化,得到多个尺度的第二特征图;
将所述多个尺度的第二特征图分别输入所述注意力机制模块,得到多个尺度的第三特征图;
基于所述解码器模块,对所述多个尺度的第三特征图和所述第一特征图进行融合,得到所述分割结果。
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述图像分割方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述图像分割方法。
CN202310474603.4A 2023-04-27 2023-04-27 图像分割方法及*** Active CN116563538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310474603.4A CN116563538B (zh) 2023-04-27 2023-04-27 图像分割方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310474603.4A CN116563538B (zh) 2023-04-27 2023-04-27 图像分割方法及***

Publications (2)

Publication Number Publication Date
CN116563538A CN116563538A (zh) 2023-08-08
CN116563538B true CN116563538B (zh) 2023-09-22

Family

ID=87501069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310474603.4A Active CN116563538B (zh) 2023-04-27 2023-04-27 图像分割方法及***

Country Status (1)

Country Link
CN (1) CN116563538B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN113850825A (zh) * 2021-09-27 2021-12-28 太原理工大学 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
CN113888550A (zh) * 2021-09-27 2022-01-04 太原理工大学 一种结合超分辨率和注意力机制的遥感图像道路分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN113850825A (zh) * 2021-09-27 2021-12-28 太原理工大学 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
CN113888550A (zh) * 2021-09-27 2022-01-04 太原理工大学 一种结合超分辨率和注意力机制的遥感图像道路分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Efficient semantic image segmentation with superpixel pooling;Mathijs Schuurmans等;《arXiv》;第1-11页 *
SPMF-Net: Weakly Supervised Building Segmentation by Combining Superpixel Pooling and Multi-Scale Feature Fusion;Jie Chen 等;《remote sensing》;第1-13页 *
Weakly Supervised Semantic Segmentation Using Superpixel Pooling Network;Suha Kwak 等;《Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence》;第4111-4117页 *
基于超像素池化的快速语义分割;李亚军;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;全文 *

Also Published As

Publication number Publication date
CN116563538A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN111047551B (zh) 一种基于U-net改进算法的遥感影像变化检测方法及***
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN112308860B (zh) 基于自监督学习的对地观测图像语义分割方法
CN110322495B (zh) 一种基于弱监督深度学习的场景文本分割方法
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及***
CN114120102A (zh) 边界优化的遥感图像语义分割方法、装置、设备及介质
CN111612008B (zh) 基于卷积网络的图像分割方法
CN111696110B (zh) 场景分割方法及***
CN113780296A (zh) 基于多尺度信息融合的遥感图像语义分割方法及***
CN113807355A (zh) 一种基于编解码结构的图像语义分割方法
CN111046768A (zh) 一种同时提取遥感影像道路路面和中心线的深度学习方法
CN113486956B (zh) 目标分割***及其训练方法、目标分割方法及设备
CN113065551A (zh) 利用深度神经网络模型执行图像分割的方法
CN114283285A (zh) 交叉一致性自训练遥感图像语义分割网络训练方法及装置
CN116453121A (zh) 一种车道线识别模型的训练方法及装置
CN116883650A (zh) 一种基于注意力和局部拼接的图像级弱监督语义分割方法
CN113177956B (zh) 一种面向无人机遥感影像的语义分割方法
CN112634289B (zh) 一种基于非对称空洞卷积的快速可行域分割方法
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及***
CN117274355A (zh) 一种基于加速引导区域卷积神经网络和并行多尺度统一网络的排水管道流量智能测量方法
CN116563538B (zh) 图像分割方法及***
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN113591614B (zh) 一种基于紧邻空间特征学习的遥感影像道路提取方法
CN115512325A (zh) 一种端到端的基于实例分割的车道检测方法
CN113255646A (zh) 一种实时场景文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant