CN116824140A - 面向测试场景无掩码监督的小样本分割方法 - Google Patents
面向测试场景无掩码监督的小样本分割方法 Download PDFInfo
- Publication number
- CN116824140A CN116824140A CN202310719486.3A CN202310719486A CN116824140A CN 116824140 A CN116824140 A CN 116824140A CN 202310719486 A CN202310719486 A CN 202310719486A CN 116824140 A CN116824140 A CN 116824140A
- Authority
- CN
- China
- Prior art keywords
- mask
- image
- query
- support
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012360 testing method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 23
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 2
- 239000000523 sample Substances 0.000 description 27
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 239000003550 marker Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013074 reference sample Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种面向测试场景无掩码监督的小样本分割方法,所述方法具体包括如下步骤:获取用于训练深度神经网络模型的图像数据集;利用图像数据集构建的图像对及其掩码作为监督信号,通过交叉熵损失训练预先设计好的无需掩码的迭代优化深度神经网络模型;利用训练好的深度神经网络模型无需掩码监督输出待分割图像的预测掩码。本发明的方法适用于训练时能够提供大规模有标记数据,但测试时除了存在与待分割图像属于同一类别的其他图像外,没有任何密集标记信息的小样本分割任务,解决目前小样本分割任务中在推理时仍需要对新类图像进行密集标记的需求,在仅利用图像对的情况下获得不错的分割性能,尤其是对于单目标分割。
Description
技术领域
本发明属于计算机视觉领域,特别地涉及一种面向测试场景无掩码监督的小样本分割方法、计算机设备和存储介质。
背景技术
语义分割是计算机视觉中重要的基础任务之一,可以广泛应用于自动驾驶、医疗图像分割等任务。随着人们对网络结构和模型的不断改进,语义分割任务已经获得了出色的性能。但语义分割模型都是依靠数据驱动的,需要大规模有像素级别密集标记的图像数据进行训练,并且模型并不具备泛化到新类别数据的能力。目前语义分割模型只能分割出训练过程中出现的目标类别,当新类别图像出现时,需要收集大规模的大量新类别密集标记样本来重新训练模型,这在现实应用中是不实际的,因此限制了它们的进一步推广应用。
与现有依靠大数据训练的机器学习模型不同,人类可以利用过去积累的知识,仅通过一个或几个新类样本就能够快速地识别出这个新概念。受到人类学习新知识的启发,缩小人工智能与人类学习之间的差距,人们提出了小样本学习。小样本学习降低了对大规模标记数据集的需求,近些年来引起了很多关注。受到小样本学习的启发,人们提出了小样本语义分割任务,将小样本学习的思想扩展到了分割任务中。小样本分割在仅需要一个或几个密集标记样本的情况下实现新类目标的分割,减少了语义分割任务中对大规模密集标记数据的需求。
在小样本分割任务中,测试时仍需要提供一个或几个新类密集标记的参考样本来分割新类图像,虽然相较于传统语义分割任务已经大大减少了对大规模数据的依赖,但对标记数据还是有一定的需求。
发明内容
为解决上述问题,本发明的目的在于提供一种面向测试场景无掩码监督的小样本分割方法,在推理时不需要提供任何密集标记的样本信息,仅利用与待分割图像包含相同类别目标的另一张图像提供指导信息,进一步减少对标记数据的需求。相较于密集标记的掩码信息,图像是十分廉价且容易获取的。可以通过以图搜图的方式获得大量相似的图像用于构成模型的输入图像对,依靠现有的大规模密集标记数据集训练模型,使模型学习到挖掘图像中共同存在的类别特征的能力。模型仅利用包含相同类别的图像对就能分割出想分割的目标,大大减少了耗时耗力的标记过程,减少了人为的交互,同时表现出了较强的泛化能力。
为实现上述目的,本发明采用的技术方案为:
面向测试场景无掩码监督的小样本分割方法,包括以下步骤:
S1、获取用于训练深度神经网络模型的图像数据集;
S2、利用图像数据集构建的图像对及其掩码作为监督信号,通过交叉熵损失训练预先设计好的无需掩码的迭代优化深度神经网络模型;
S3、利用训练好的深度神经网络模型无需掩码监督输出待分割图像的预测掩码。
进一步的,在步骤S1中,所述的训练图像数据集为其中N为训练集中的构建的任务(episode)数量,/>和/>分别表示第i张提供类别指导信息的支持图像及其对应的掩码,/>和/>分别表示第i张待分割的查询图像及其对应的掩码,Mi∈{1,…,C},C表示类别总数,每一类都包含多张图像。对于采样获得的掩码预先进行处理,将同时出现在支持和查询图像中的所有类别目标物体均设置为前景,其余部分均设置为背景。
进一步的,所述深度神经网络模型包括三个构成部分:特征提取器,掩码生成模块和解码器,其中特征提取器是利用ImageNet数据集预训练好的ResNet-50,掩码生成模块和解码器是需要训练的部分。
进一步的,步骤S2具体包括:
S21、在训练深度神经网络模型时采用批量处理的方式,首先从图像数据集中随机采样一个批量的图像对样本集 其中批量大小Nbs预先给定;
S22、将图像对样本集B中的图像输入特征提取器中得到支持图像和查询图像的特征图其中L是特征提取器中各个模块层数总和;
S23、将来自特征提取器最后一个模块的支持图像和查询图像的高层特征图通过掩码生成模块,利用相似度计算和跨注意力机制获得初始的支持预测掩码用于后续分割任务,并计算与真实支持掩码值间的交叉熵损失;
S24、将来自特征提取器最后两个模块的支持和查询特征的特征图输入到解码器中的特征增强模块,利用自注意力机制捕捉全局信息并对支持和查询特征进行增强;
S25、将初始支持预测掩码和特征增强模块输出的支持和查询特征输入到解码器中的Transformer结构中,其中查询特征作为Query,支持特征作为Key,/>作为Value,计算查询特征和支持特征间的相似度并对/>加权获得查询图像的初始预测掩码,将其与来自特征提取器前两个模块查询和支持图像的底层特征融合后通过解码器获得查询预测掩码/>
S26、重复步骤S24,然后将S25步骤获得的查询掩码作为解码器中Transformer模块的Value,支持特征作为Query,查询特征作为Key,计算得到支持图像的初始预测掩码,将其与来自特征提取器前两个模块查询和支持图像的底层特征融合后通过解码器获得支持预测掩码
S27、重复迭代T次步骤S24至S26,迭代结束后计算最后一次迭代得到的查询和支持预测掩码与真实掩码值间的交叉熵损失;
S28、基于各个预测掩码与真实掩码间交叉熵损失得到总的损失函数为:
其中α,β,γ是预先设置的权重参数,用来表示这三个预测掩码的贡献;
S29、根据得到的总的损失函数,使用Adam优化器或带动量的随机梯度下降优化器,以及反向传播算法训练深度神经网络模型;
进一步的,步骤S28中,所述交叉熵损失函数L为:
其中为图像i在位置j的真实标签,/>为模型为图像i在位置j上的输出预测结果,HW是整张图像的像素数目。
进一步的,在步骤S3中,推理时无需掩码监督的操作为:在推理时,对于待分割的图像,任选一张与待分割目标属于同一类别得图像构成图像对,将该图像对输入到训练好的深度神经网络模型当中进行预测,输出最后一次迭代产生的待分割查询图像预测掩码作为最后的分割预测结果。
本发明的面向测试场景无掩码监督的小样本分割方法,相比于现有的方法,具有以下贡献:
首先,本发明提出了一种新的场景设置,推理时仅利用图像对执行小样本分割任务,并提出了一种面向测试场景无掩码监督的小样本分割方法。
其次,本发明设计了一个掩码生成模块,利用支持图像和查询图像的高层语义特征生成初始支持预测掩码,为分割任务提供待分割目标的类别信息;提出了一个特征增强模块,利用自注意力机制学习特征的全局特征,并且该模块对支持和查询特征是参数共享的,可以更好的挖掘两张图像中共同存在目标的类别信息;提出了一个交替迭代优化模块,通过交替查询特征和支持特征在Transformer模块输入的位置来交替优化查询和支持预测掩码,然后利用上次迭代输出的预测掩码优化本次迭代。
最后,本发明在推理时不需要提供任何密集标注的参考样本进行分割,仅利用容易获得的图像对输入网络中进行推理预测,大大减少了分割任务中对密集标注样本的需求,在单目标分割任务中获得了具有竞争力的性能,并且具有一定的泛化能力。
本发明的面向测试场景无掩码监督的小样本分割方法有很好的应用价值,整个过程实现端到端的全自动化处理,除训练数据外不需要任何额外标注数据。例如,在一些标记样本较少的领域,可以首先利用本文提出方法对其进行粗略的标注,然后在利用人工进行修正标注,对于一些没有语义标签的类别图像,只要可以检索到相同类别图片也可以进行分割。
附图说明
图1为本发明的面向测试场景无掩码监督的小样本分割方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,面向测试场景无掩码监督的小样本分割方法,包括以下步骤:
首先,获取用于训练深度神经网络模型的图像数据集。所述的图像数据集为其中N为图像数据集中构建的任务(episode)数量,/>和/>分别表示第i张提供类别指导信息(support)的支持图像及其对应的掩码,/>和/>分别表示第i张待分割(query)的查询图像及其对应的掩码,Mi∈{1,…,C},C表示类别总数,每一类都包含多张图像。对于采样获得的掩码进行处理,将同时出现在支持图像和查询图像中的所有类别目标物体均设置为前景,其余部分设置为背景。
其次,利用图像数据集构建的图像对及其掩码作为监督信号,通过交叉熵损失训练预先设计好的无需掩码的迭代优化深度神经网络模型。其中,所述深度神经网络模型包括三个构成部分:特征提取器,掩码生成模块和解码器,其中特征提取器主要是使用ImageNet预训练好的ResNet-50,在训练过程中网络参数是冻结住的,掩码生成模块和解码器是需要训练的部分。具体包括如下步骤:
第一步,在训练深度神经网络模型时采用批量处理的方式,首先从图像数据集中随机采样一个批量的图像对样本集 其中批量大小Nbs预先给定。
第二步,首先将图像对样本集B中的图像输入特征提取器中得到支持图像和查询图像的特征图其中L是特征提取器中各个模块层数总和。
第三步,将来自特征提取器最后一个模块的支持图像和查询图像的高层特征图通过掩码生成模块,利用相似度计算和跨注意力机制获得初始的支持预测掩码用于后续分割任务,并计算与真实支持掩码值间的交叉熵损失:
第四步,将来自特征提取器最后两个模块的支持和查询特征的特征图输入到解码器中的特征增强模块,利用自注意力机制捕捉全局信息并对支持和查询特征进行增强。
第五步,将初始支持预测掩码和特征增强模块输出的支持和查询特征输入Transformer模块,其中查询特征作为Query,支持特征作为Key,/>作为Value,计算查询特征和支持特征间的相似度并对/>加权获得查询图像的初始预测掩码,将其与来自特征提取器前两个模块的查询和支持图像的底层特征融合后通过解码器获得查询预测掩码/>
第六步,重复第四步,然后将第五步获得的查询掩码作为Transformer模块的Value,支持特征作为Query,查询特征作为Key,计算得到支持图像的初始预测掩码,将其与来自特征提取器前两个模块的查询和支持图像的底层特征融合后通过解码器获得支持预测掩码
第七步,将第四步、第五步和第六步重复迭代T次,迭代结束后计算最后一次迭代得到的查询和支持预测掩码与真实掩码值间的交叉熵损失;
第八步,基于各个预测掩码与真实掩码间交叉熵损失得到总的损失函数为:
其中α,β,γ是预先设置的权重参数,用来表示这三个预测掩码的贡献。
第九步,根据得到的总的损失函数,使用Adam优化器或带动量的随机梯度下降优化器,以及反向传播算法训练深度神经网络模型。
最后,利用训练好的深度神经网络模型无需掩码监督输出待图像分割的预测掩码。在推理时,对于待分割的图像,任选一张与待分割目标属于同一类别得图像构成图像对,将该图像对输入到训练好的深度神经网络模型当中进行预测,输出最后一次迭代产生的待分割查询图像预测掩码作为最后的分割预测结果。
通过以上技术方案,本发明实施例面向测试场景无掩码监督的小样本分割方法。本发明在推理时不需要提供任何密集标注的参考样本进行分割,仅利用容易获得的图像对输入网络中进行推理预测,大大减少了分割任务中对密集标注样本的需求,并且具有一定的泛化能力。
本发明的实施例还提供一种计算机,包括存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述实施例中所示面向测试场景无掩码监督的小样本分割方法的步骤。
本发明的实施例还提供了一种计算机可读存储介质,该存储介质包括存储的程序,其中,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机运行时执行上述实施例中所示面向测试场景无掩码监督的小样本分割方法的步骤。
显然,本领域的技术人员应该明白,本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种面向测试场景无掩码监督的小样本分割方法,其特征在于,包括以下步骤:
S1、获取用于训练深度神经网络模型的图像数据集;
S2、利用图像数据集构建的图像对及其掩码作为监督信号,通过交叉熵损失训练预先设计好的无需掩码的迭代优化深度神经网络模型;
S3、利用训练好的深度神经网络模型无需掩码监督输出待分割图像的预测掩码。
2.如权利要求1所述的面向测试场景无掩码监督的小样本分割方法,其特征在于,步骤S1中,所述的图像数据集为其中N为图像数据集中构建的任务数量,/>和/>分别表示第i张提供类别指导信息的支持图像及其对应的掩码,/>和/>分别表示第i张待分割的查询图像及其对应的掩码,Mi∈{1,…,C},C表示类别总数,每一类都包含多张图像。
3.如权利要求2所述的面向测试场景无掩码监督的小样本分割方法,其特征在于,步骤S1中,还包括对获得的掩码进行处理,将同时出现在支持图像和查询图像中的所有类别目标物体均设置为前景,其余部分设置为背景。
4.如权利要求3所述的面向测试场景无掩码监督的小样本分割方法,其特征在于,所述深度神经网络模型包括三个构成部分:特征提取器,掩码生成模块和解码器,其中特征提取器是利用ImageNet数据集预训练好的ResNet-50,掩码生成模块和解码器是需要训练的部分。
5.如权利要求4所述的面向测试场景无掩码监督的小样本分割方法,其特征在于,步骤S2具体包括:
S21、在训练深度神经网络模型时采用批量处理的方式,首先从图像数据集中随机采样一个批量的图像对样本集 其中批量大小Nbs预先给定;
S22、将图像对样本集B中的图像对输入特征提取器中得到支持图像和查询图像的特征图其中L是特征提取器中各个模块层数总和;
S23、将来自特征提取器最后一个模块的支持图像和查询图像的高层语义特征图通过掩码生成模块,利用相似度计算和跨注意力机制获得初始的支持预测掩码用于后续分割任务,并计算支持预测掩码与真实支持掩码值间的交叉熵损失;
S24、将来自特征提取器最后两个模块的支持和查询特征的特征图输入到解码器中的特征增强模块,利用自注意力机制捕捉全局信息并对支持和查询特征进行增强;
S25、将初始支持预测掩码和特征增强模块输出的支持和查询特征输入到解码器中的Transformer模块,其中查询特征作为Query,支持特征作为Key,/>作为Value,计算查询特征和支持特征间的相似度并对/>加权获得查询图像的初始预测掩码,将其与来自特征提取器前两个模块的查询和支持图像的底层特征融合后通过解码器获得查询预测掩码/>
S26、重复步骤S24,然后将S25步骤获得的查询预测掩码作为解码器中的Transformer模块的Value,支持特征作为Query,查询特征作为Key,计算得到支持图像的初始预测掩码,将其与来自特征提取器前两个模块的查询和支持图像的底层特征融合后通过解码器获得支持预测掩码/>
S27、重复迭代T次步骤S24至S26,迭代结束后计算最后一次迭代得到的查询和支持预测掩码与真实掩码值间的交叉熵损失;
S28、基于各个预测掩码与真实掩码间交叉熵损失得到总的损失函数为:
其中α,β,γ是预先设置的权重参数,用来表示这三个预测掩码的贡献;
S29、根据得到的总的损失函数,使用Adam优化器或带动量的随机梯度下降优化器,以及反向传播算法训练深度神经网络模型。
6.如权利要求5所述的面向测试场景无掩码监督的小样本分割方法,其特征在于,步骤S28中,所述交叉熵损失函数L为:
其中为图像i在位置j的真实标签,/>为模型为图像i在位置j上的输出预测结果。
7.如权利要求1-6任一项所述的面向测试场景无掩码监督的小样本分割方法,其特征在于,步骤S3中,推理时无需掩码监督的操作为:在推理时,对于待分割的图像,任选一张与待分割目标属于同一类别的图像构成图像对,将其输入到训练好的深度神经网络模型当中进行预测,输出最后一次迭代产生的待分割查询图像预测掩码作为最后的分割预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310719486.3A CN116824140A (zh) | 2023-06-16 | 2023-06-16 | 面向测试场景无掩码监督的小样本分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310719486.3A CN116824140A (zh) | 2023-06-16 | 2023-06-16 | 面向测试场景无掩码监督的小样本分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116824140A true CN116824140A (zh) | 2023-09-29 |
Family
ID=88119675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310719486.3A Pending CN116824140A (zh) | 2023-06-16 | 2023-06-16 | 面向测试场景无掩码监督的小样本分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824140A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593530A (zh) * | 2024-01-19 | 2024-02-23 | 杭州灵西机器人智能科技有限公司 | 一种密集纸箱分割方法和*** |
-
2023
- 2023-06-16 CN CN202310719486.3A patent/CN116824140A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593530A (zh) * | 2024-01-19 | 2024-02-23 | 杭州灵西机器人智能科技有限公司 | 一种密集纸箱分割方法和*** |
CN117593530B (zh) * | 2024-01-19 | 2024-06-04 | 杭州灵西机器人智能科技有限公司 | 一种密集纸箱分割方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN112132149B (zh) | 一种遥感影像语义分割方法及装置 | |
CN109993100B (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及*** | |
Chen et al. | Learning linear regression via single-convolutional layer for visual object tracking | |
CN111639755B (zh) | 一种网络模型训练方法、装置、电子设备及存储介质 | |
CN112016682B (zh) | 视频表征学习、预训练方法及装置、电子设备、存储介质 | |
Chen et al. | Corse-to-fine road extraction based on local Dirichlet mixture models and multiscale-high-order deep learning | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN115131627B (zh) | 一种轻量化植物病虫害目标检测模型的构建和训练方法 | |
CN116152591B (zh) | 模型训练方法、红外小目标检测方法、装置及电子设备 | |
CN113920170A (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、***及存储介质 | |
CN116824140A (zh) | 面向测试场景无掩码监督的小样本分割方法 | |
CN116977844A (zh) | 一种轻量级水下目标实时检测方法 | |
CN113590971B (zh) | 一种基于类脑时空感知表征的兴趣点推荐方法及*** | |
CN116740362B (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及*** | |
CN117197632A (zh) | 一种基于Transformer的电镜花粉图像目标检测方法 | |
CN117011640A (zh) | 基于伪标签滤波的模型蒸馏实时目标检测方法及装置 | |
CN116452812A (zh) | 一种伪装物体识别及语义分割方法 | |
CN116824330A (zh) | 一种基于深度学习的小样本跨域目标检测方法 | |
CN114821337B (zh) | 基于时相一致性伪标签的半监督sar图像建筑区提取方法 | |
CN103473562B (zh) | 特定人体动作的自动训练和识别*** | |
CN115019342A (zh) | 一种基于类关系推理的濒危动物目标检测方法 | |
CN113033263B (zh) | 一种人脸图像年龄特征识别方法 | |
Wong et al. | An assistive learning workflow on annotating images for object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |