CN115131558B - 一种少样本环境下的语义分割方法 - Google Patents

一种少样本环境下的语义分割方法 Download PDF

Info

Publication number
CN115131558B
CN115131558B CN202210652631.6A CN202210652631A CN115131558B CN 115131558 B CN115131558 B CN 115131558B CN 202210652631 A CN202210652631 A CN 202210652631A CN 115131558 B CN115131558 B CN 115131558B
Authority
CN
China
Prior art keywords
query
image
convolution
mask
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210652631.6A
Other languages
English (en)
Other versions
CN115131558A (zh
Inventor
刘屿
江镔
兰炜圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Guangzhou Institute of Modern Industrial Technology
Original Assignee
South China University of Technology SCUT
Guangzhou Institute of Modern Industrial Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Guangzhou Institute of Modern Industrial Technology filed Critical South China University of Technology SCUT
Priority to CN202210652631.6A priority Critical patent/CN115131558B/zh
Publication of CN115131558A publication Critical patent/CN115131558A/zh
Application granted granted Critical
Publication of CN115131558B publication Critical patent/CN115131558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种少样本环境下的语义分割方法,该方法首先使用预训练的深度残差网络提取图像的特征,根据同目标类的图像特征的余弦相似度获取图像特征各个位置匹配得分。在此基础上,根据统计学原理修改匹配各个位置得分的统计分布。最后,利用4维卷积核对多层特征构成的关联张量进行自适应学习,输出查询图像的细粒度分割预测。该方法基于目标类的多层网络特征自适应融合的过程能够建立同目标类图像之间的语义联系,在缺少足够训练样本的情况下进行知识迁移,进而准确地分割出查询图像的语义对象,可用于密集标注样本缺乏的工业场景。

Description

一种少样本环境下的语义分割方法
技术领域
本发明涉及深度学习和语义分割技术领域,具体涉及一种基于少样本环境下的图像语义分割方法。
背景技术
密集标注样本需要消耗大量的人力物力,少样本语义分割旨在训练一个能够通过少量的支持样本来分割同类查询样本的的模型。
因为同类的不同的样本之间存在颜色,形态,姿态等方面的变化,这仍然是一项具有挑战性的任务。经典的深度学习算法虽然在语义分割领域取得了很好的性能,但是需要大量的密集标注样本,不适用于本发明所面临的复杂场景;基于原型网络的少样本语义分割方法虽然降低了对于密集标注样本的需求,但是破坏了卷积特征的空间结构,难以保证较高的分割精度;利用4维卷积来挖掘支持图像核查询图像之间的语义关联性则通常存在计算量大,关联性稀疏和内存占用量大等问题。因此,在少样本环境下设计一种更通用的语义分割算法面临着速度快、精度高、内存占用小的挑战。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种少样本环境下的语义分割方法。
本发明的目的可以通过采取如下技术方案达到:
一种少样本环境下的语义分割方法,所述语义分割方法包括以下步骤:
S1、利用语义分割公开数据集构建同类的支持查询样本对;
S2、通过预训练网络分别提取支持图像和查询图像的特征,将支持图像的特征和掩膜通过哈达玛积滤除无关的背景区域,其中,所述预训练网络采用预训练的深度残差网络;
S3、特征关联模块首先利用余弦相似性建立支持特征与查询特征的中间层关联,然后通过去模糊函数抑制模糊的关联性;
S4、通过预测网络输出查询图像的预测分割结果,其中,所述预测网络采用编码器解码器结构,所述编码器由4维卷积核构成,用于将4维的特征关联压缩至2维,所述解码器由2维卷积核构成。
进一步地,所述步骤S1中构建支持查询样本对的过程如下:
将语义分割公开数据集按类别平均分成4组,其中3组作为训练集,另外1组作为测试集;其中,训练集的训练样本对以及测试集的测试样本对都包含支持集分支和查询集分支,所述支持集分支由支持图像以及相应的密集标注掩膜,所述查询集分支由同类的单张图像及其掩膜组成,支持集图像的密集标注掩膜作为先验知识,在训练的过程中以查询集图像的密集标注掩膜作为监督信息训练预测网络的参数,在测试过程中查询图像的密集标注掩膜作为标准来评估模型的性能。
进一步地,所述步骤S2中预训练网络提取支持图像和查询图像的特征的过程如下:
S2.1、从单个支持查询样本对中取出大小均为H×W×3的支持图像Is以及查询图像Iq,利用预训练的深度残差网络作为特征提取器提取图像的特征,其中H为图像的高,W为图像的宽,3为图像的通道数:
(Fs,Fq)=backbone(Is,Iq)∈Rh×w×c
其中,backbone()表示预训练的深度残差网络,预训练的深度残差网络采用ResNet50,Fs,Fq分别表示支持特征以及查询特征,h表示特征的高,w表示特征的宽,c表示特征的通道数,预训练是指先在较大规模的数据上对模型进行训练,然后再在具体的下游任务数据中微调。本发明选用预训练深度残差网络是ResNet50,在图像的分类和分割均有广泛的应用。具体的细节可参考论文K.M.He,X.Y.Zhang,S.Q.Ren,SQ,and J.Sun,DeepResidual Learning for Image Recognition[C],in Proc.IEEEConf.Comput.Vis.Pattern Recognit.,Jun.2016,pp.770-778,而深度残差网络是一种利用跨层链接获取残差的深度学习算法,具体来说,残差是卷积层输出和输入的差值,因此深度残差网络的训练目标是要将残差结果逼近于0;
S2.2、利用双线性内插的方法将已知的支持图像的二进制掩膜的尺寸调整为,根据全卷积神经网络的位置不变性原理,利用哈达玛积提取支持特征的前景区域:
Fs=Fs⊙Ms,Fs∈Rh×w×c
其中M为支持图像的二进制掩膜,“⊙”表示哈达玛积。双线性内插法是使用邻近4个点的像元值,按照其距内插点的距离赋予不同的权重,进行线性内插的一种数学方法。
进一步地,所述步骤S3中特征关联模块提取支持特征与查询特征的关联张量的过程如下:
S3.1、利用余弦相似度计算支持特征Fs和查询特征Fq的关联张量C:
其中“·”表示特征所有位置上的3维向量内积运算,||·||代表l2范数;
S3.2、去除关联张量中无关的匹配分值,同时计算出该关联张量中匹配分值中的最大项:
Δ=maxi(max(0,Ci))
其中i∈{1×1×1×1,...,h×w×h×w)表示关联张量的位置,Ci是关联张量C在i位置上的匹配分值,余弦相似度为负值被认为是无关的匹配分值,去除之后通过maxi()获取所有位置中的最大的匹配分值;
S3.3、一个批量中存在多个于训练集中采样得到的支持查询样本对,因此可以获取多个不同的张量Cs,利用它们各自的匹配分值最大项计算变异系数,按照统计学知识,设定阈值进行修正:
其中j代表一个批量中第j个支持查询样本对,Δj是关联张量中匹配分值最大项Δ在第j个支持查询样本对上的取值,cv()计算了该批量的Δj的变异系数,所述变异系数是概率分布离散程度的一个归一化量度,定义为一组数据的标准差与平均值之比。若变异系数大于0.15说明数据存在异常,即同一批量的不同样本对的关联张量不应该被归一化到同一区间[0,1)中。批量是指单次训练过程输入到本发明中的支持查询样本对个数;
S3.4、对于一个批量中的多个不同的张量,进行归一化处理:
其中ε是为了防止分母为0而设置的参数,Cij是关联张量在位置i以及在第j个支持查询样本对上的匹配分值;
S3.5、对于已经批量归一化的关联张量,使用sigmoid函数修改匹配分值的统计分布,计算公式如下:
Ci=sigmoid(α(Ci-β))
其中 为输入变量,α是控制去模糊化的程度的第一超参数,β是定位语义模糊阈值的第二超参数。
进一步地,所述步骤S4中通过预测网络输出查询图像的预测分割结果的过程如下:
S4.1、利用编码器对关联张量进行自适应编码,其中,编码器通过轴向装配4维卷积核构建,轴向装配4维卷积定义如下:
K(x,y)*C(x,y)=K1(xh)*[K2(xw,y)*C(x,y)]
其中x,y∈R2分别表示关联张量查询子空间以及支持子空间的二维坐标,xh,xw则分别代表查询子空间h轴坐标和w轴坐标;
S4.2、不同特征层构建的关联张量经过轴向装配4维卷积序列、Groupnormalization以及ReLU激活单元的处理,其中Group normalization是层归一化方法,具体细节可参考论文Y.Wu,and K.He,Group normalization[J],Int.J.Comput.Vis.,vol.128,no.3,pp.742-755,Mar.2020,ReLU激活单元的定义为ReLU(z)=max(0,z),z是输入变量,通过自上而下的形式,将不同层的关联张量输入到编码器中,得到压缩后的关联张量,其中编码器由3组轴向装配卷积序列构成,第1组轴向装配卷积序列包含3层轴向装配卷积层,在第1组轴向装配卷积序列中,第1层,第2层和第3层的轴向装配卷积的卷积核大小均为3×3×3×3,步长均为(1,1,2,2),输入通道数分别为3,16,64,输出通道数分别为16,64,128,在第2组轴向装配卷积序列中,第1层,第2层和第3层的轴向装配卷积的卷积核大小分别为5×5×5×5,3×3×3×3,3×3×3×3,步长分别为(1,1,4,4),(1,1,2,2),(1,1,2,2),输入通道数分别为3,16,64,输出通道数分别为16,64,128,在第3组轴向装配卷积序列中,第1层,第2层和第3层的轴向装配卷积的卷积核大小分别为5×5×5×5,5×5×5×5,3×3×3×3,步长分别为(1,1,4,4),(1,1,4,4),(1,1,2,2),输入通道数分别为3,16,64,输出通道数分别为16,64,128,层归一化方法Group normalization的分组数为4,不同层的关联张量通过混合模块融合,其中混合模块包含3层轴向装配卷积层,第1层,第2层和第3层的轴向装配卷积的卷积核大小分别为1×1×1×1,3×3×3×3,3×3×3×3,步长均为(1,1,1,1),输入通道数分别为256,128,128,输出通道数均为128;
S4.3、通过二维卷积构成的解码器,将压缩后的关联张量解码,输出查询图像的预测语义分割掩膜在训练过程中,预测语义分割掩膜/>与查询图像的真实语义分割掩膜Mq={0,1}H×W计算交叉熵损失loss,通过Adam算法更新梯度完成模型的训练:
其中u,v都是1维坐标,分别代表掩膜在h轴以及w轴的位置,Mq(u,v)取值为0或1,1代表属于目标类的前景区域,0代表目标类的背景区域,取值为0或1,1代表解码器预测坐标(u,v)属于目标类的前景区域,0代表解码器预测坐标(u,v)属于目标类的背景区域,解码器由1组2维卷积序列构成,共包含4层2维卷积,卷积核的大小均为3×3,步长均为(1,1),输入通道数分别为128,128,64,64,输出通道数分别为128,64,64,2;
S4.4、将在训练集已知类中学到的知识迁移到测试集未知类上,输出查询图像的预测分割掩膜,与真实分割掩膜计算交并比IoU用以评估算法性能,交并比IoU定义为IOU=TP/(TP+FP+FN)。
进一步地,所述交并比IoU包括平均交并比mIoU和前景背景交并比FB-IoU,其中平均交并比mIOU计算所有不同前景类的平均交并比,前景背景交并比FB-IoU则将所有的前景类视为相同的类,不属于前景类的则被视为背景类,然后计算前景类背景类的交并比均值,交并比IOU=TP/(TP+FP+FN),TP表示目标像素点预测正确的数量,FP表示非目标像素点被预测为目标像素点的数量,FN表示目标像素点被预测为非目标像素点的数量。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明基于公开数据集PASCAL和COCO,通过在公开数据集上的训练能够将训练集中学到的参数迁移到训练集中未出现的测试集中,完成少样本环境下的知识迁移过程,能够有效地处理深度学习泛化性能退化的问题。
(2)本发明提出了一种语义关联张量批量归一化的方法,该方法根据统计学知识修改了语义张量中每个位置的匹配分值,抑制语义关联张量中语义模糊的匹配分值,从而有效地减少了细粒度分类错误的情况。
(3)本发明提出一种新的4维卷积核,该卷积通过3个3维卷积核组合而成,降低4维计算复杂度的同时,保持了一定的紧密结构,解决了现有的4维卷积网络的高计算量,高内存占用,以及语义关联稀疏的问题。
(4)本发明提出一种不同层语义关联张量自适应融合的混合模块,能够自适应地混合不同尺度下的语义关联张量,从而有效地挖掘出语义关联信息。同时该模块将4维的关联张量压缩至2维,从而降低了4维关联张量学习的复杂性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明公开的一种少样本环境下的语义分割方法的流程图;
图2是本发明实施例中轴向装配4维卷积的结构图;
图3是本发明实施例中预测网络的结构图;
图4是本发明实施例中单样本语义分割的结果示意图;
图5是本发明实施例中支持样本数目为5时的语义分割结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种少样本环境下的图像语义分割方法,所述方法包括以下步骤:
S1、利用语义分割公开数据集构建同类的支持查询样本对,其中支持集分支由支持图像以及相应的密集标注掩膜,查询集分支由同类的单张图像及其掩膜组成;
S2、预训练网络使用预训练的深度残差网络将分别提取支持图像和查询图像的特征,支持图像的特征和其掩膜通过哈达玛积滤除无关的背景区域;
S3、特征关联模块首先利用余弦相似性建立支持特征与查询特征的中间层关联,然后通过提出的去模糊函数抑制模糊的关联性;
S4、预测网络采用了编码器解码器结构,其中编码器由轴向装配4维卷积核构成,负责将4维的特征关联压缩至2维,解码器由2维卷积核构成,输出查询图像的预测分割结果。
本实施例步骤S1中将语义分割公开数据集按类别平均分成4组,其中3组作为训练集,剩下1组作为测试集,一共可建立4种不同的训练集与测试集组合。对于PASCAL数据集,训练集包含15个类,测试集包含5个类。对于更加复杂的COCO数据集,训练集包含60个类,测试集包含20个类。在PASCAL中,测试集包含1000个支持查询样本对,而在COCO数据集中,测试集的支持查询样本对的数量为20,000个,进一步考验了本发明处理复杂场景的能力。
本实施例步骤S2中从单个支持查询样本对中取出大小均为H×W×3的支持图像Is以及查询图像Iq,利用预训练的基础网络作为特征提取器提取图像的特征。本发明中使用公开的ResNet50网络作为图像的特征提取器,根据全卷积神经网络的位置不变性原理,本发明去除了ResNet50网络的所有全连接层。
本实施例步骤S3中特征关联模块利用余弦相似度计算支持特征Fs和查询特征Fq的关联张量然后去除关联张量中无关的匹配分值减少背景区域带来的干扰。对于关联张量中的所有位置i来说,计算匹配分值中的最大项Δ=maxi(max(0,Ci))。一个批量中存在多个从训练集中采样得到的支持查询样本对,因此可以获取多个不同的张量Cs。利用它们各自的匹配分值最大项计算变异系数后,按照统计学知识,设定阈值进行修正:
其中j代表一个批量中第j个支持查询样本对,cv代表一个批量中第j个关联张量的匹配分值最大项的变异系数。其中变异系数是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比,若大于0.15便说明数据存在异常,即同一批量的不同样本对的关联张量不应该被归一化到同一区间[0,1)中。批量是指单次训练过程输入到算法中的样本对个数。通过变异系数的设置,可以有效地处理最大最小归一化将差距很大的匹配分值映射到相同的区间的问题。
对于一个批量中的多个不同的张量进行归一化处理 此时差距过大匹配分值不会被归一化到同一区间[0,1)中。为了防止分母为0的情况,ε被设置为1.0×10-7
对于已经批量归一化的关联张量,使用sigmoid函数修改匹配分值的统计分布Ci=sigmoid(α(Ci-β))来有效地减少语义模糊的匹配分值,其中α,β是模型的超参数,分别控制去模糊化的程度以及导致语义模糊的匹配分值。
如图2所示,为了解决现有的4维卷积网络的高计算量,高内存占用,以及语义关联稀疏的问题,本发明提出了轴向装配4维卷积核。
如图3所示,所述步骤S4中预测网络利用轴向装配4维卷积核构建的编码器对于关联张量进行自适应编码。不同特征层构建的关联张量经过轴向装配4维卷积序列,Groupnormalization以及ReLU激活单元的处理,依次输出通道数为16,64,128的压缩关联张量。通过自上而下的形式,通过自上而下的形式,将不同层的关联张量输入到编码器中,得到压缩后的关联张量。压缩后的关联张量通过解码器解码,得到查询图像的预测语义分割掩膜
其中编码器由3组轴向装配卷积序列构成,第1组轴向装配卷积序列包含3层轴向装配卷积层,在第1组轴向装配卷积序列中,第1层,第2层和第3层的轴向装配卷积的卷积核大小均为3×3×3×3,步长均为(1,1,2,2),输入通道数分别为3,16,64,输出通道数分别为16,64,128,在第2组轴向装配卷积序列中,第1层,第2层和第3层的轴向装配卷积的卷积核大小分别为5×5×5×5,3×3×3×3,3×3×3×3,步长分别为(1,1,4,4),(1,1,2,2),(1,1,2,2),输入通道数分别为3,16,64,输出通道数分别为16,64,128,在第3组轴向装配卷积序列中,第1层,第2层和第3层的轴向装配卷积的卷积核大小分别为5×5×5×5,5×5×5×5,3×3×3×3,步长分别为(1,1,4,4),(1,1,4,4),(1,1,2,2),输入通道数分别为3,16,64,输出通道数分别为16,64,128,层归一化方法Group normalization的分组数为4。不同层的关联张量通过混合模块融合,其中混合模块包含3层轴向装配卷积层,第1层,第2层和第3层的轴向装配卷积的卷积核大小分别为1×1×1×1,3×3×3×3,3×3×3×3,步长均为(1,1,1,1),输入通道数分别为256,128,128,输出通道数均为128。
解码器由1组2维卷积序列构成,共包含4层2维卷积,卷积核的大小均为3×3,步长均为(1,1),输入通道数分别为128,128,64,64,输出通道数分别为128,64,64,2。
在训练过程中,与查询图像的真实掩膜Mq计算交叉熵损失loss,通过Adam算法更新梯度完成模型的训练,其中学***均交并比mIoU以及前景背景交并比FB-IoU来评估模型的性能。相比当前最好的方法,本发明的分割性能在mIoU评价指标上提高了3.6%,在FB-IoU评价指标上提高了3.4%。
图1是本实施例公开的一种小样本环境的语义分割方法的框架图,在本实施例中,数据集为公开数据集PASCAL,总共20个类的图像被平均分成4份,其中3份作为训练集,剩下的1份作为测试集。本实施例将提出的方法与多种少样本语义分割的方法进行了比较。用来对比的方法分别是PGNet,PFENet以及ASGNet,本发明提出的方法记为AACNet。所有的方法都使用了ResNet50网络作为特征提取器,分割结果如下表1所示:
表1.基于PASCAL数据集的单样本语义分割结果表
其中mIOU是所有测试样本的前景类的平均交并比,FB-IoU不区分PASCAL数据集中的20种前景类,将前景区域视为单独的一个类,不属于前景区域的背景区域视为另外一个类。其中IOU=TP/(TP+FP+FN),TP表示目标像素点预测正确的数量,FP表示非目标像素点被预测为目标像素点的数量,FN表示目标像素点被预测为非目标像素点的数量。mIOU和FB-IoU表示预测掩膜和真实掩膜之间的交集和并集之间的比值关系,反应了模型的预测精度。从表1的结果可以看出,本发明提出的方法AACNet取得了最高的mIOU和FB-IoU,即取得了最优的分割性能,能够完成单样本语义分割任务。
图4是本发明实施例中基于PASCAL数据集完成单样本语义分割的效果展示图,其中第1列是样本对中的支持图像,第2列是样本对中查询图像,第3列表示AACNet预测掩膜,第4列表示查询图像真实的掩膜;图5是本发明实施例中基于PASCAL数据集完成5个支持样本数时的语义分割效果展示图,第1至5列代表支持图像,第6列是查询图像,第7列是AACNet的预测结果,第8列表示查询图像的真实掩膜。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种少样本环境下的语义分割方法,其特征在于,所述语义分割方法包括以下步骤:
S1、利用语义分割公开数据集构建同类的支持查询样本对;
S2、通过预训练网络分别提取支持图像和查询图像的特征,将支持图像的特征和掩膜通过哈达玛积滤除无关的背景区域,其中,所述预训练网络采用预训练的深度残差网络;
S3、特征关联模块首先利用余弦相似性建立支持特征与查询特征的中间层关联,然后通过去模糊函数抑制模糊的关联性;
其中,所述步骤S3中特征关联模块提取支持特征与查询特征的关联张量的过程如下:
S3.1、利用余弦相似度计算支持特征Fs和查询特征Fq的关联张量C:
其中“·”表示特征所有位置上的3维向量内积运算,‖·‖代表l2范数;
S3.2、去除关联张量中无关的匹配分值,同时计算出该关联张量中匹配分值中的最大项:
Δ=maxi(max(0,Ci))
其中i∈{1×1×1×1,…,h×w×h×w}表示关联张量的位置,Ci是关联张量C在位置i上的匹配分值,余弦相似度为负值被认为是无关的匹配分值,去除之后通过maxi()获取所有位置中的最大的匹配分值;
S3.3、按照统计学知识,设定阈值进行修正:
其中j代表一个批量中第j个支持查询样本对,Δj是关联张量中匹配分值最大项Δ在第j个支持查询样本对上的值,cv()计算一个批量的Δj的变异系数,所述变异系数是概率分布离散程度的一个归一化量度,定义为一组数据的标准差与平均值之比;
S3.4、对于一个批量中的多个不同的张量,进行归一化处理:
其中ε是为了防止分母为0而设置的参数,Cij是关联张量在位置i以及在第j个支持查询样本对上的匹配分值;
S3.5、对于已经批量归一化的关联张量,使用sigmoid函数修改匹配分值的统计分布,计算公式如下:
Ci=sigmoid(α(Ci-β))
其中 为输入变量,α是控制去模糊化的程度的第一超参数,β是定位语义模糊阈值的第二超参数;
S4、通过预测网络输出查询图像的预测分割结果,其中,所述预测网络采用编码器解码器结构,所述编码器由4维卷积核构成,用于将4维的特征关联压缩至2维,所述解码器由2维卷积核构成;
其中,所述步骤S4中通过预测网络输出查询图像的预测分割结果的过程如下:
S4.1、利用编码器对关联张量进行自适应编码,其中,编码器通过轴向装配4维卷积核构建,轴向装配4维卷积定义如下:
K(x,y)*C(x,y)=K1(xh)*[K2(xw,y)*C(x,y)]
其中x,y∈R2分别表示关联张量查询子空间以及支持子空间的二维坐标,xh,xw则分别代表查询子空间h轴坐标和w轴坐标;
S4.2、不同特征层构建的关联张量经过轴向装配4维卷积序列、Group normalization以及ReLU激活单元的处理,其中Group normalization是层归一化方法,ReLU激活单元的定义为ReLU(z)=max(0,z),z是输入变量,通过自上而下的形式,将不同层的关联张量输入到编码器中,得到压缩后的关联张量,其中编码器由3组轴向装配卷积序列构成,第1组轴向装配卷积序列包含3层轴向装配卷积层,在第1组轴向装配卷积序列中,第1层,第2层和第3层的轴向装配卷积的卷积核大小均为3×3×3×3,步长均为(1,1,2,2),输入通道数分别为3,16,64,输出通道数分别为16,64,128,在第2组轴向装配卷积序列中,第1层,第2层和第3层的轴向装配卷积的卷积核大小分别为5×5×5×5,3×3×3×3,3×3×3×3,步长分别为(1,1,4,4),(1,1,2,2),(1,1,2,2),输入通道数分别为3,16,64,输出通道数分别为16,64,128,在第3组轴向装配卷积序列中,第1层,第2层和第3层的轴向装配卷积的卷积核大小分别为5×5×5×5,5×5×5×5,3×3×3×3,步长分别为(1,1,4,4),(1,1,4,4),(1,1,2,2),输入通道数分别为3,16,64,输出通道数分别为16,64,128,层归一化方法Groupnormalization的分组数为4,不同层的关联张量通过混合模块融合,其中混合模块包含3层轴向装配卷积层,第1层,第2层和第3层的轴向装配卷积的卷积核大小分别为1×1×1×1,3×3×3×3,3×3×3×3,步长均为(1,1,1,1),输入通道数分别为256,128,128,输出通道数均为128;
S4.3、通过二维卷积构成的解码器,将压缩后的关联张量解码,输出查询图像的预测语义分割掩膜在训练过程中,预测语义分割掩膜/>与查询图像的真实语义分割掩膜Mq={0,1}H×W计算交叉熵损失loss,通过Adam算法更新梯度完成模型的训练:
其中u,v都是1维坐标,分别代表掩膜在h轴以及w轴的位置,Mq(u,v)取值为0或1,1代表属于目标类的前景区域,0代表目标类的背景区域,取值为0或1,1代表解码器预测坐标(u,v)属于目标类的前景区域,0代表解码器预测坐标(u,v)属于目标类的背景区域,解码器由1组2维卷积序列构成,共包含4层2维卷积,卷积核的大小均为3×3,步长均为(1,1),输入通道数分别为128,128,64,64,输出通道数分别为128,64,64,2;
S4.4、将在训练集已知类中学到的知识迁移到测试集未知类上,输出查询图像的预测分割掩膜,与真实分割掩膜计算交并比IoU用以评估算法性能,交并比IoU定义为IOU=TP/(TP+FP+FN)。
2.根据权利要求1所述的一种少样本环境下的语义分割方法,其特征在于,所述步骤S1中构建支持查询样本对的过程如下:
将语义分割公开数据集按类别平均分成4组,其中3组作为训练集,另外1组作为测试集,其中,训练集的训练样本对以及测试集的测试样本对都包含支持集分支和查询集分支,所述支持集分支由支持图像以及相应的密集标注掩膜组成,所述查询集分支由同类的单张图像及其掩膜组成,支持集图像的密集标注掩膜作为先验知识,在训练的过程中以查询集图像的密集标注掩膜作为监督信息训练预测网络的参数,在测试过程中查询图像的密集标注掩膜作为标准来评估模型的性能。
3.根据权利要求1所述的一种少样本环境下的语义分割方法,其特征在于,所述步骤S2中预训练网络提取支持图像和查询图像的特征的过程如下:
S2.1、从单个支持查询样本对中取出大小均为H×W×3的支持图像Is以及查询图像Iq,利用预训练的深度残差网络作为特征提取器提取图像的特征,其中H为图像的高,W为图像的宽,3为图像的通道数:
(Fs,Fq)=backbone(Is,Iq),Fs,Fq∈Rh×w×c
其中,backbone()表示预训练的深度残差网络,预训练的深度残差网络采用ResNet50,Fs,Fq分别表示支持特征以及查询特征,h表示特征的高,w表示特征的宽,c表示特征的通道数;
S2.2、利用双线性内插的方法将已知的支持图像的二进制掩膜的尺寸调整为h×w,根据全卷积神经网络的位置不变性原理,利用哈达玛积提取支持特征Fs的前景区域:
Fs=Fs⊙Ms,Fs∈Rh×w×c
其中M为支持图像的二进制掩膜,“⊙”表示哈达玛积。
4.根据权利要求1所述的一种少样本环境下的语义分割方法,其特征在于,所述交并比IoU包括平均交并比mIoU和前景背景交并比FB-IoU,其中平均交并比mIOU计算所有不同前景类的平均交并比,前景背景交并比FB-IoU则将所有的前景类视为相同的类,不属于前景类的则被视为背景类,然后计算前景类背景类的交并比均值,交并比IOU=TP/(TP+FP+FN),TP表示目标像素点预测正确的数量,FP表示非目标像素点被预测为目标像素点的数量,FN表示目标像素点被预测为非目标像素点的数量。
CN202210652631.6A 2022-06-10 2022-06-10 一种少样本环境下的语义分割方法 Active CN115131558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210652631.6A CN115131558B (zh) 2022-06-10 2022-06-10 一种少样本环境下的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210652631.6A CN115131558B (zh) 2022-06-10 2022-06-10 一种少样本环境下的语义分割方法

Publications (2)

Publication Number Publication Date
CN115131558A CN115131558A (zh) 2022-09-30
CN115131558B true CN115131558B (zh) 2024-05-14

Family

ID=83378860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210652631.6A Active CN115131558B (zh) 2022-06-10 2022-06-10 一种少样本环境下的语义分割方法

Country Status (1)

Country Link
CN (1) CN115131558B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227573B (zh) * 2023-04-25 2023-08-08 智慧眼科技股份有限公司 分割模型训练方法、图像分割方法、装置及相关介质
CN116758907B (zh) * 2023-08-17 2024-01-02 国网信息通信产业集团有限公司 一种小样本语义理解训练方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN114529517A (zh) * 2022-01-17 2022-05-24 华南理工大学 基于单样本学习的工业产品缺陷检测方法
CN114529728A (zh) * 2022-04-25 2022-05-24 武汉工程大学 一种小样本语义分割方法及装置
CN114549833A (zh) * 2022-01-25 2022-05-27 北京交通大学 一种实例分割方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220172036A1 (en) * 2020-11-29 2022-06-02 International Business Machines Corporation Task-adaptive architecture for few-shot learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN114529517A (zh) * 2022-01-17 2022-05-24 华南理工大学 基于单样本学习的工业产品缺陷检测方法
CN114549833A (zh) * 2022-01-25 2022-05-27 北京交通大学 一种实例分割方法、装置、电子设备及存储介质
CN114529728A (zh) * 2022-04-25 2022-05-24 武汉工程大学 一种小样本语义分割方法及装置

Also Published As

Publication number Publication date
CN115131558A (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN115131558B (zh) 一种少样本环境下的语义分割方法
CN108960141B (zh) 基于增强型深度卷积神经网络的行人再识别方法
CN111626245B (zh) 一种基于视频关键帧的人体行为识别方法
CN109741341B (zh) 一种基于超像素和长短时记忆网络的图像分割方法
CN113095370B (zh) 图像识别方法、装置、电子设备及存储介质
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN110930378B (zh) 基于低数据需求的肺气肿影像处理方法及***
CN115937655B (zh) 多阶特征交互的目标检测模型及其构建方法、装置及应用
CN110211127B (zh) 基于双相关性网络的图像分割方法
CN113920516B (zh) 一种基于孪生神经网络的书法字骨架匹配方法及***
CN111371611B (zh) 一种基于深度学习的加权网络社区发现方法及装置
CN114219824A (zh) 基于深度网络的可见光-红外目标跟踪方法及***
CN111027570B (zh) 一种基于细胞神经网络的图像多尺度特征提取方法
CN117593520A (zh) 一种少样本环境下的半导体芯片缺陷分割方法
Nawaz et al. Clustering based one-to-one hypergraph matching with a large number of feature points
CN116977859A (zh) 基于多尺度图像切割和实例困难度的弱监督目标检测方法
CN115100509B (zh) 基于多分支块级注意力增强网络的图像识别方法及***
CN115049054B (zh) 基于特征图响应的通道自适应分段动态网络剪枝方法
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
CN113344825B (zh) 一种图像去雨方法及***
CN115410000A (zh) 对象分类方法以及装置
CN115375966A (zh) 一种基于联合损失函数的图像对抗样本生成方法及***
CN116823627A (zh) 一种基于图像复杂度评价的超大尺寸图像快速去噪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant