CN114332466B - 图像语义分割网络持续学习方法、***、设备及存储介质 - Google Patents

图像语义分割网络持续学习方法、***、设备及存储介质 Download PDF

Info

Publication number
CN114332466B
CN114332466B CN202210237914.4A CN202210237914A CN114332466B CN 114332466 B CN114332466 B CN 114332466B CN 202210237914 A CN202210237914 A CN 202210237914A CN 114332466 B CN114332466 B CN 114332466B
Authority
CN
China
Prior art keywords
network
class
old
new
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210237914.4A
Other languages
English (en)
Other versions
CN114332466A (zh
Inventor
王子磊
林子涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210237914.4A priority Critical patent/CN114332466B/zh
Publication of CN114332466A publication Critical patent/CN114332466A/zh
Application granted granted Critical
Publication of CN114332466B publication Critical patent/CN114332466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种图像语义分割网络持续学习方法、***、设备及存储介质,一方面,通过特征空间中的非线性变换提取旧知识表征进行对齐的手段,有效保持旧知识不变性的同时提高对新知识学习的能力。另一方面,在嵌入空间中对新类别优化其拓扑结构,对旧类别维护其拓扑结构的不变性,达到降低遗忘,防止类间混淆的效果;此外,联合伪标签及伪标签降噪技术,使得在语义分割持续学习中无需提供旧类别的标签,降低标注成本。总体来说,本发明作为一种通用性的语义分割持续学习方法,对应用场景均无限制,具有很强的泛化能力与实用价值。

Description

图像语义分割网络持续学习方法、***、设备及存储介质
技术领域
本发明涉及图像语义分割技术领域,尤其涉及一种图像语义分割网络持续学习方法、***、设备及存储介质。
背景技术
近年来,深度神经网络在语义分割任务上取得了巨大的成功。然而传统语义分割网络训练方法需要一次性获取全部的训练数据,且训练完成后难以更新。在实际应用中,常要求网络能从数据流中逐渐的学习、更新已学会的知识,从而有效降低数据存储代价与训练代价。但是令深度神经网络直接在新数据上学习会导致已学习知识的严重遗忘。而持续学习技术通过对学习过程中施加额外的约束,以达到学习新知识的同时不会遗忘已学会的知识的目的。
持续学习的一般手段为使用知识蒸馏来保持新旧网络间知识的一致性。这一操作常在输出空间或者特征空间进行。具体到语义分割领域,除了使用上述手段防止旧知识的遗忘以外,还有两个新的挑战:首先,随着学习的进行,可能需要学习过去曾经忽略的类别,从而导致对于某一特定输入,其包含的语义信息并不是一成不变的,这要求网络有更强的新知识学习能力。其次,由于获取标注数据需要大量人力物力,因此希望在新增数据上只对需要学习的类别进行标注,这将导致被标注为背景类的区域可能包含已学习类别,引入的语义不一致性会给网络训练带来较大的挑战。因此,图像分类领域的持续学习方法无法胜任语义分割持续学习任务。
具体的:公布号为CN111191709A的中国专利申请《深度神经网络的持续学习框架及持续学习方法》中,使用一生成网络生成旧类别的数据,并与新数据混合用以训练网络,但是其仅解决图像分类任务。此外,这种方式严重依赖生成器的生成质量,难以胜任大规模、复杂的数据,特别是图像语义分割任务。公布号为CN111368874A的中国专利申请《一种基于单分类技术的图像类别增量学习方法》中,采用输出空间的知识蒸馏和偏好纠正两个手段以实现图像分类任务的持续学习。但是,其仍无法解决前述语义分割持续学习任务中特有的挑战,因而无法在图像语义分割中直接应用。公布号为CN103366163A的中国专利申请《基于增量学习的人脸检测***和方法》、公布号为CN106897705A的中国专利申请《一种基于增量学习的海洋观测大数据分布方法》、以及公布号为CN103593680A的中国专利申请《一种基于隐马尔科夫模型自增量学习的动态手势识别方法》均为在某一特定领域专用的方法,无法证明其具有泛化性与普适性。
因此,针对语义分割持续学习任务设计一种泛用的,尽可能降低旧知识遗忘的同时解决语义分割持续学习任务中的前后语义不一致性的方法具有重要的实用价值和现实意义。
发明内容
本发明的目的是提供一种图像语义分割网络持续学习方法、***、设备及存储介质,对应用场景均无限制,具有很强的泛化能力与实用价值,填补语义分割持续学习任务上的空白。
本发明的目的是通过以下技术方案实现的:
一种图像语义分割网络持续学习方法,包括:
获取新增语义分割数据集及对应新增类别的标签,利用原始图像语义分割网络提取所述新增语义分割数据集中图像数据的原始特征图,通过特征变换模块对所述原始特征图进行变换,并利用变换结果重构的特征图与所述原始特征图的差异初步训练所述特征变换模块;
使用所述原始图像语义分割网络与初步训练的特征变换模块初始化一个相同的图像语义分割网络与特征变换模块,将所述原始图像语义分割网络称为旧网络,初步训练的特征变换模块称为旧特征变换模块,初始化产生的图像语义分割网络称为新网络,初始化产生的特征变换模块称为新特征变换模块;固定所述旧网络与旧特征变换模块,训练所述新网络与新特征变换模块;
训练时,将新增语义分割数据集的图像数据同时输入至所述旧网络与新网络,所述旧网络与新网络中各自进行特征图提取、解码与语义分割,获得分割结果;其中,所述旧网络提取的特征图通过所述旧特征变换模块进行变换,所述新网络提取的特征图通过所述新特征变换模块进行变换,并计算两种变换结果的对齐损失;利用所述旧网络与新网络的分割结果及解码获得的特征向量对于旧类别分别独自构建相应的类间关系矩阵与类内关系集合,并利用所述旧网络与新网络的类间关系矩阵计算类间结构保持损失,利用所述旧网络与新网络的类内关系集合计算类内结构保持损失,所述类间结构保持损失与类内结构保持损失用于保持旧类别中类间结构与类内结构的一致性;同时,对于新增类别,利用所述新网络解码获得的特征向量计算初始结构优化损失,所述初始结构优化损失用于拉近相同新增类别的特征向量的分布,疏远不同新增类别的特征向量的分布,并且,利用逐类别动态阈值对旧网络的分割结果进行优化去噪,获得相应的伪标签,利用所述伪标签计算所述新网络的分类损失;结合所述对齐损失、类间结构保持损失、类内结构保持损失、初始结构优化损失及分类损失训练所述新网络与新特征变换模块。
一种图像语义分割网络持续学习***,该***包括:
数据收集与初步训练单元,用于获取新增语义分割数据集及对应新增类别的标签,利用原始图像语义分割网络提取所述新增语义分割数据集中图像数据的原始特征图,通过特征变换模块对所述原始特征图进行变换,并利用变换结果重构的特征图与所述原始特征图的差异初步训练所述特征变换模块;
学习单元,用于使用所述原始图像语义分割网络与初步训练的特征变换模块初始化一个相同的图像语义分割网络与特征变换模块,将所述原始图像语义分割网络称为旧网络,初步训练的特征变换模块称为旧特征变换模块,初始化产生的图像语义分割网络称为新网络,初始化产生的特征变换模块称为新特征变换模块;固定所述旧网络与旧特征变换模块,训练所述新网络与新特征变换模块;训练时,将新增语义分割数据集的图像数据同时输入至所述旧网络与新网络,所述旧网络与新网络中各自进行特征图提取、解码与语义分割,获得分割结果;其中,所述旧网络提取的特征图通过所述旧特征变换模块进行变换,所述新网络提取的特征图通过所述新特征变换模块进行变换,并计算两种变换结果的对齐损失;利用所述旧网络与新网络的分割结果及解码获得的特征向量对于旧类别分别独自构建相应的类间关系矩阵与类内关系集合,并利用所述旧网络与新网络的类间关系矩阵计算类间结构保持损失,利用所述旧网络与新网络的类内关系集合计算类内结构保持损失,所述类间结构保持损失与类内结构保持损失用于保持旧类别中类间结构与类内结构的一致性;同时,对于新增类别,利用所述新网络解码获得的特征向量计算初始结构优化损失,所述初始结构优化损失用于拉近相同新增类别的特征向量的分布,疏远不同新增类别的特征向量的分布,并且,利用逐类别动态阈值对旧网络的分割结果进行优化去噪,获得相应的伪标签,利用所述伪标签计算所述新网络的分类损失;结合所述对齐损失、类间结构保持损失、类内结构保持损失、初始结构优化损失及分类损失训练所述新网络与新特征变换模块。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,一方面,通过特征空间中的非线性变换提取旧知识表征进行对齐的手段,有效保持旧知识不变性的同时提高对新知识学习的能力。另一方面,在嵌入空间中对新类别优化其拓扑结构,对旧类别维护其拓扑结构的不变性,达到降低遗忘,防止类间混淆的效果;此外,联合伪标签及伪标签降噪技术,使得在语义分割持续学习中无需提供旧类别的标签,降低标注成本。总体来说,本发明作为一种通用性的语义分割持续学习方法,对应用场景均无限制,具有很强的泛化能力与实用价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种图像语义分割网络持续学习方法的模型示意图;
图2为本发明实施例提供的初始结构优化部分原理示意图;
图3为本发明实施例提供的类间与类内结构保持部分原理示意图;
图4为本发明实施例提供的不同图像语义分割网络分割结果的对比示意图;
图5为本发明实施例提供的一种图像语义分割网络持续学习***的示意图;
图6为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种图像语义分割网络持续学习方法、***、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种图像语义分割网络持续学习方法,它是一种基于类别结构保持与特征对齐的语义分割持续学习方法。目前主流的图像语义分割网络由特征提取器、解码器与分类器组成,主要过程流程为:通过特征提取器提取输入的待分割图像的特征图,经解码器获得相应的特征向量,最后由分类器进行语义分割,获得每一像素的分类结果(即分割结果)。本发明针对图像语义分割网络设计对应的模块以防止旧知识遗忘。具体地,该方法核心内容包含特征变换模块、类别结构信息保持模块、伪标签生成模块和联合损失函数训练语义分割网络四个部分。特征变换模块通过对特征提取器输出特征图实施非线性变换,进而提取出旧知识的表征以对齐,达到为新知识的学习提供高自由度的同时仍有效保持旧知识完整性。类别结构信息保持模块使用解码器输出建立类内拓扑结构与类间拓扑结构,通过在学习过程中维持上述结构一致性,有效降低持续学习过程中类别拓扑结构破坏的现象,从而降低遗忘与类间混淆。进一步地,针对前后语义不一致问题,伪标签生成模块利用逐类别动态阈值对旧网络输出的分割结果进行优化去噪,从而生成高质量的伪标签以弥补缺失的旧类别标注。最后,联合上述模块的损失函数对语义分割网络进行训练,以达到持续学习的效果。
每一次持续学习的过程可以描述为:
获取新增语义分割数据集及对应新增类别的标签,利用原始图像语义分割网络提取所述新增语义分割数据集中图像数据的原始特征图,通过特征变换模块对所述原始特征图进行变换,并利用变换结果重构的特征图与所述原始特征图的差异初步训练所述特征变换模块;
使用所述原始图像语义分割网络与初步训练的特征变换模块初始化一个相同的图像语义分割网络与特征变换模块,将所述原始图像语义分割网络称为旧网络,初步训练的特征变换模块称为旧特征变换模块,初始化产生的图像语义分割网络称为新网络,初始化产生的特征变换模块称为新特征变换模块;固定所述旧网络与旧特征变换模块,训练所述新网络与新特征变换模块;
训练时,将新增语义分割数据集的图像数据同时输入至所述旧网络与新网络,所述旧网络与新网络中各自进行特征图提取、解码与语义分割,获得分割结果;其中,所述旧网络提取的特征图通过所述旧特征变换模块进行变换,所述新网络提取的特征图通过所述新特征变换模块进行变换,并计算两种变换结果的对齐损失;利用所述旧网络与新网络各自的分割结果及解码获得的特征向量,对于旧类别分别独自构建相应的类间关系矩阵与类内关系集合,并利用所述旧网络与新网络的类间关系矩阵计算类间结构保持损失,利用所述旧网络与新网络的类内关系集合计算类内结构保持损失,所述类间结构保持损失与类内结构保持损失用于保持旧类别中类间结构与类内结构的一致性;同时,对于新增类别,利用所述新网络解码获得的特征向量计算初始结构优化损失,所述初始结构优化损失用于拉近相同新增类别的特征向量的分布,疏远不同新增类别的特征向量的分布,并且,利用逐类别动态阈值为旧网络的分割结果进行优化去噪,获得相应的伪标签,利用所述伪标签计算所述新网络的分类损失;结合所述对齐损失、类间结构保持损失、类内结构保持损失、初始结构优化损失及分类损失训练所述新网络与新特征变换模块。
为了便于理解,下面针对上述学习过程做进一步的介绍。
如图1所示,为本发明提供的一种图像语义分割网络持续学习方法的模型示意图,其展示了持续学习过程中所涉及的相关流程与损失函数,主要说明如下:
一、特征变换模块及相关损失函数。
本发明实施例中,利用新增语义分割数据集对图像语义分割网络进行学习之前,需要对特征变换模块部分进行初步训练。
如之前所述图像语义分割网络包含了特征提取器,使用特征提取器提取新增语义分割数据集中每一图像数据的原始特征图,记为
Figure 816177DEST_PATH_IMAGE001
。然后,利用特征变换模块(FeatureProjector)进行非线性变换,生成关于旧知识的表征,通过训练特征变换模块引导其输出的表征中包含丰富、有效的信息。
本发明实施例中,使用自编码器结构初步训练特征变换模块,将特征变换模块记为P * ;通过特征变换模块P * 对原始特征图
Figure 776043DEST_PATH_IMAGE001
进行变换包括:先通过卷积操作(例如,1*1卷积)进行通道降维,再通过若干空洞卷积操作(例如,两个3*3空洞卷积)进行局部空间信息混合,生成关于原始特征图
Figure 224342DEST_PATH_IMAGE001
的表征。初步训练时,使用重构网络R * (例如,可采用两个3*3卷积构成)对变换结果
Figure 269658DEST_PATH_IMAGE002
进行重构,通过尝试从特征变换模块的输出变换结果中重构原始特征图,并使用原始特征图与重构特征图的差异构造重构损失函数,利用重构损失初步训练所述特征变换模块P * ,从而引导特征变换模块P * 输出的表征中包含丰富的信息。
本领域技术人员可以理解,所述卷积操作与空洞卷积操作均为常规的两类卷积操作,相较而言,所述卷积操作为标准卷积操作,空洞卷积操作则能以较少的层数混合较大范围内的空间信息。
具体的,重构损失函数可以为重构的特征图
Figure 946759DEST_PATH_IMAGE003
与所述原始特征图
Figure 26710DEST_PATH_IMAGE001
的欧氏距离,表示为:
Figure 380331DEST_PATH_IMAGE004
当特征变换模块P * 能有效生成旧知识的表征时,完成初步训练,此时的特征变换模块记为
Figure 912943DEST_PATH_IMAGE005
之后,可以使用原始图像分割网络及特征变换模块
Figure 643002DEST_PATH_IMAGE005
的参数初始化用于学习新知识的新网络与相应的特征变换模块
Figure 328192DEST_PATH_IMAGE006
,学习新知识的过程中保持原始图像分割网络(即旧网络,Old Model)及其特征变换模块(即特征变换模块
Figure 852715DEST_PATH_IMAGE005
)不变,只更新初始化产生的图像分割网络(即新网络,New Model)及其特征变换模块
Figure 872623DEST_PATH_IMAGE006
(即初始化产生的特征变换模块)。学习阶段是增量学习的关键概念,初始阶段记为1,每新增一次类别集合,即为一个新的持续学习阶段。图1中,下标t-1、t代表不同学习阶段,相对而言,t-1学习阶段的网络为旧网络,t学习阶段的网络为新网络,E代表编码器(特征提取器),D代表解码器,G代表分类器。
本发明实施例中,通过对两个网络特征变换模块的输出施加一致性约束,以保证旧知识在持续学习的过程中保持不变,同时又给与特征图较高的变化自由度以良好的学习新知识。
本发明实施例中,前述阶段原始图像分割网络并未更新,因此,其提取的特征图即为所述原始特征图,因此依旧记为
Figure 875214DEST_PATH_IMAGE007
,旧特征变换模块
Figure 929758DEST_PATH_IMAGE005
的变换结果表示为
Figure 625182DEST_PATH_IMAGE008
;将所述新网络提取的特征图记为
Figure 148698DEST_PATH_IMAGE009
,将所述新特征变换模块记为
Figure 689401DEST_PATH_IMAGE006
,变换结果表示为
Figure 864030DEST_PATH_IMAGE010
,对齐损失(Alignment Loss)为两种变换结果的L1距离,表示为:
Figure 464776DEST_PATH_IMAGE011
二、类别结构信息保持模块及相关损失函数。
本发明实施例中,类别结构信息保持模块基于图像分割网络的解码器输出在嵌入空间中分别构建类内结构关系与类间结构关系。通过在持续学习的过程中保持上述两种关系,从而有效的保持网络对于旧类别的判别力。类别结构信息保持模块主要包括三个部分:初始结构优化部分、类间结构保持部分、类内结构保持部分三部分。其中,初始结构优化部分主要针对新增类别,计算初始结构优化损失,它属于对比损失(Contrastive Loss);后两个部分主要针对旧类别,计算结构保持损失(Structure Preserving Loss),包含类间结构保持损失与类内结构保持损失;所述旧类别与新增类别是相对概念,即持续学习之前图像分割网络能够识别的类别。以上三个部分的原理及相关损失函数主要如下:
1、初始结构优化部分。
如图2所示,为初始结构优化部分的原理示意图。仅使用交叉熵训练时,不同类别(例如图中左侧的A,B类)在嵌入空间中的分布常常较为分散,且容易发生部分重叠,而这一分布较容易在后续学习的过程中引发类别混淆,进而产生遗忘。通过引导特征向量(图中三角形)尽量靠近其对应的特征原型(图中X字形),同时令不同类别原型间的距离不小于给定阈值(右侧图灰色圆形),达到优化类别分布,减少混淆的作用。
所述的初始结构优化模块为,在学习新类别的时候,对于其在嵌入空间中的分布进行引导,使相同类别的特征向量分布尽量紧凑,使相异类别的特征向量分布尽量离散。此部分能使模型的分类边界更加清晰,减少混淆,同时对于遗忘现象也有更强的鲁棒性。初由于始结构优化模块仅针对新增类别,因此,仅利用所述新网络的输出计算初始结构优化损失。
为了达到上述目的,初始结构优化部分的损失函数(初始结构优化损失)中使用两个损失函数分别引导类内结构与类间结构的学习,表示为:
Figure 459276DEST_PATH_IMAGE012
其中,
Figure 803670DEST_PATH_IMAGE013
表示引导类内结构的损失,
Figure 592328DEST_PATH_IMAGE014
表示引导类间结构的损失,
Figure 629554DEST_PATH_IMAGE015
Figure 845771DEST_PATH_IMAGE014
的权重(具体大小可根据实际情况或者经验设定)。
引导类内结构的损失
Figure 259435DEST_PATH_IMAGE013
用于拉近相同新增类别的特征向量的分布,表示为:
Figure 877498DEST_PATH_IMAGE016
其中,
Figure 85626DEST_PATH_IMAGE017
表示当前学习阶段t新增类别的集合,
Figure 805451DEST_PATH_IMAGE018
表示当前学习阶段t新增类别的数量,所述当前学习阶段t表示训练所述新网络与新特征变换模块的阶段;
Figure 491647DEST_PATH_IMAGE019
表示新增类别c对应的类别原型,
Figure 229796DEST_PATH_IMAGE020
表示属于新增类别c的特征向量。
引导类间结构的损失
Figure 874404DEST_PATH_IMAGE014
用于疏远不同新增类别的分布,表示为:
Figure 65214DEST_PATH_IMAGE021
其中,
Figure 555101DEST_PATH_IMAGE022
Figure 898489DEST_PATH_IMAGE023
分别表示新增类别m与新增类别n对应的类别原型,
Figure 448419DEST_PATH_IMAGE024
表示类别原型
Figure 126525DEST_PATH_IMAGE022
Figure 685683DEST_PATH_IMAGE023
的余弦相似度,
Figure 132844DEST_PATH_IMAGE025
为预定义的距离(具体大小可根据实际情况或者经验设定)。
本发明实施例中,类别原型为相应类别下所有特征向量的平均,对于新增类别c,类别原型
Figure 588096DEST_PATH_IMAGE019
表示为:
Figure 769810DEST_PATH_IMAGE026
其中,y为当前阶段中新增类别的标签,|y=c|表示标签中属于新增类别c的像素的数量,
Figure 601500DEST_PATH_IMAGE027
为指示函数,当y=c时,输出为1,其他情况输出为0。
本领域技术人员可以理解,类别原型(Class Prototypes)是计算机视觉领域中的专有名词,表示对属于某个类别的一系列特征进行均值计算,用其均值表征整个类别的信息,后文所涉及的各个类别原型也是采用前述
Figure 168748DEST_PATH_IMAGE019
类似方式计算。
2、类间结构保持部分。
训练良好的深度神经网络可将输入样本映射到一嵌入空间中,并依类别分布于嵌入空间中的不同区域。这是深度神经网络得以正确划分各个类别的重要特性。基于此特性,通过构建嵌入空间中的类间拓扑结构,并在持续学习的过程中维护此结构,以保持类别间线性可分。
本发明实施例中,利用所述旧网络的分割结果以及解码获得的特征向量对于旧类别构建的类间关系矩阵
Figure 60480DEST_PATH_IMAGE028
,利用所述新网络的分割结果以及解码获得的特征向量对于旧类别构建的类间关系矩阵
Figure 713178DEST_PATH_IMAGE029
;其中,类间关系矩阵中的单个元素表示两个旧类别对应的类别原型之间的余弦距离;对于旧类别i与旧类别j,旧网络中对应的类别原型分别表示为
Figure 348559DEST_PATH_IMAGE030
Figure 518116DEST_PATH_IMAGE031
,新网络中对应的类别原型分别表示为
Figure 580750DEST_PATH_IMAGE032
Figure 455165DEST_PATH_IMAGE033
,则类间关系矩阵
Figure 159816DEST_PATH_IMAGE028
Figure 436076DEST_PATH_IMAGE029
中相应元素
Figure 669612DEST_PATH_IMAGE034
Figure 47634DEST_PATH_IMAGE035
的计算方式表示为:
Figure 24818DEST_PATH_IMAGE036
其中,
Figure 421164DEST_PATH_IMAGE037
Figure 825601DEST_PATH_IMAGE038
分别表示类别原型
Figure 674608DEST_PATH_IMAGE032
Figure 189903DEST_PATH_IMAGE033
余弦相似度、类别原型
Figure 457067DEST_PATH_IMAGE030
Figure 32405DEST_PATH_IMAGE031
的余弦相似度。
在持续学习的过程中,使用类间结构保持损失函数维护二者的一致性,表示为:
Figure 368708DEST_PATH_IMAGE039
其中,||.|| F 表示矩阵的F范数。
3、类内结构保持部分。
类内关系定义为每个特征向量与其类别原型相对关系的集合,利用所述旧网络的分割结果以及解码获得的特征向量对于旧类别构建的类内关系集合表示为
Figure 953274DEST_PATH_IMAGE040
,利用所述新网络的分割结果以及解码获得的特征向量对于旧类别构建的类内关系集合表示为
Figure 58633DEST_PATH_IMAGE041
,此处的D表示某一种距离度量函数,例如,欧式距离。类内关系集合反映了嵌入空间中细粒度的拓扑结构信息。在持续学习的过程中保持类内特征向量在嵌入空间中的拓扑结构保持不变,能有效维护单类别知识的完整性。建模类内结构时所选取的距离函数为欧式距离,以利用其敏感性反应反映类内结构的微小变化。
在持续学习的过程中,使用类内结构保持损失用于保持旧类别中类内结构(即类内关系集合
Figure 804872DEST_PATH_IMAGE041
Figure 379204DEST_PATH_IMAGE040
在位置信息与距离信息)的一致性,表示为:
Figure 501881DEST_PATH_IMAGE042
其中,
Figure 461746DEST_PATH_IMAGE043
Figure 644466DEST_PATH_IMAGE030
分别表示旧网络获得的属于旧类别i的特征向量与相应的类别原型;
Figure 955362DEST_PATH_IMAGE044
Figure 616150DEST_PATH_IMAGE032
表示新网络获得的属于旧类别i的特征向量与相应的类别原型;
Figure 443904DEST_PATH_IMAGE045
表示旧类别集合(即已学习过的所有旧类别),
Figure 797525DEST_PATH_IMAGE046
表示旧类别的数量。
类间结构保持部分与类内结构保持部分中所涉及的类别原型利用相应网络输出的分割结果与特征向量进行计算,计算公式可参见前文
Figure 330138DEST_PATH_IMAGE019
的公式,区别主要在于,由于此部分是针对旧类别,因此,需要将分割结果带入
Figure 794617DEST_PATH_IMAGE019
公式。
以类别原型
Figure 729075DEST_PATH_IMAGE032
为例,其计算公式为:
Figure 253597DEST_PATH_IMAGE047
其中,
Figure 24238DEST_PATH_IMAGE048
表示新网络输出的分割结果,
Figure 292409DEST_PATH_IMAGE049
表示新网络输出的分割结果中预测类别为旧类别i的像素的数量。
对于旧网络而言也是类似的,结合其分割结果带入上述式子计算相应的类别原型。
如图3所示,为类间与类内结构保持部分的原理示意图。当需要学***移等变化,因此在有效保持旧类别知识的同时,更有利于新类别的学习。当不对类内结构进行约束时,网络的更新常导致相同输入对于特征原型的相对关系发生较大变化(图3左下侧)。而类内结构保持损失则可以减少这种变化,进而在更细粒度上维护旧知识的完整性。
三、伪标签生成模块及相关损失函数。
本发明实施例中,利用逐类别动态阈值为旧网络的分割结果进行优化去噪,从而生成高质量的伪标签以弥补缺失的旧类别标注,该过程称为伪标签细化(Pseudo LabelRefinement)。原理如下:
在持续学习过程中,旧类别的标签在当前学习阶段并不会给出,即已学习类别在给定的标签中被标记为背景类。因此当使用给定标签作为监督信号直接训练网络时,将会加剧已学习类别的遗忘效应。为此,使用旧网络的语义分割结果标记给定标签的背景类,从而为已学习类别提供伪标签。进一步地,在旧网络输出的分割结果中,难以避免的包含有错误的结果。针对这一问题,采用输出类别概率的熵作为置信度评价指标,并仅使用置信度较高的结果作为伪标签使用。由于网络对于不同类别学习的情况不一,本发明针对每个类别分别计算其输出的熵的分布情况,并依此选取阈值
Figure 81373DEST_PATH_IMAGE050
使得相应旧类别i保留固定比例的伪标签,融合新增类别的真实标签(在前述阶段获取得到)后生成最终的监督标签,监督标签(伪标签)生成的方法表示为:
Figure 42376DEST_PATH_IMAGE051
其中,
Figure 284001DEST_PATH_IMAGE052
表示当前学习阶段t输入图像
Figure 90283DEST_PATH_IMAGE053
中像素k对应的新增类别的真实标签,
Figure 15645DEST_PATH_IMAGE054
表示旧网络对像素k的分类置信度,
Figure 616391DEST_PATH_IMAGE050
表示旧类别i对应的动态阈值,
Figure 610892DEST_PATH_IMAGE045
表示旧类别集合,
Figure 220865DEST_PATH_IMAGE055
表示旧网络
Figure 984421DEST_PATH_IMAGE056
对输入图像
Figure 756068DEST_PATH_IMAGE053
输出的分割结果,即每一像素的分类结果,
Figure 254177DEST_PATH_IMAGE057
为最终生成的像素k的伪标签。
之后,利用所述最终生成的伪标签计算所述新网络的分类损失,具体为交叉熵损失(Cross Entropy Loss),表示为:
Figure 402261DEST_PATH_IMAGE058
其中,
Figure 285904DEST_PATH_IMAGE059
表示所述新网络对于输入图像
Figure 494031DEST_PATH_IMAGE060
输出的分割结果。
四、联合损失函数训练语义分割网络。
本发明实施例中,联合前述一~三中的对齐损失、类间结构保持损失、类内结构保持损失、初始结构优化损失及分类损失训练所述新网络与新特征变换模块,最终达到在语义分割任务上实现持续学习的目的。训练的目标损失函数为以上损失函数的加权和:
Figure 463124DEST_PATH_IMAGE061
其中,
Figure 897123DEST_PATH_IMAGE062
Figure 635272DEST_PATH_IMAGE063
分别为相应损失的权重。
本发明实施例提供一种图像语义分割网络持续学习方法,主要获得如下有益效果:
1)通过特征空间中的非线性变换提取旧知识表征进行对齐的手段,有效保持旧知识不变性的同时提高对新知识学习的能力。
2)在嵌入空间中对新类别优化其拓扑结构,对旧类别维护其拓扑结构的不变性,达到降低遗忘,防止类间混淆的效果。
3)联合伪标签及伪标签降噪技术,使得在语义分割持续学习中无需提供旧类别的标签,降低标注成本。
总体来说,本发明作为一种通用性的语义分割持续学习方法,对应用场景均无限制,具有很强的泛化能力与实用价值。
基于上述介绍,下面提供一个完整的实施流程,包括图像语义分割网络初始阶段学习、图像语义分割网络持续学习、以及图像语义分割网络测试。
一、图像语义分割网络初始阶段学习。
1、准备初始语义分割数据集及对应的类别标签构成训练数据,通过随机裁剪的方式改变图像的空间分辨率,使得图像的宽与高均为512,并进行归一化处理。
2、使用深度学习框架建立基于类别结构保持与特征对齐的图像语义分割模型,包含全卷积语义分割网络、特征变换模块、类别结构信息保持模块和伪标签生成模块等。其中全卷积语义分割网络为DeeplabV3,其特征提取器可选择ResNet,MobileNet等。此处使用ResNet-101作为特征提取器。其解码器部分为ASPP模块。在特征提取器的输出部分设置特征变换模块对特征进行非线性变换及对齐操作。在语义分割网络的解码器部分设置类别结构信息保持模块。在语义分割网络的输出部分设置伪标签生成模块。
3、在初始阶段学习过程中,每次随机从训练数据中选择一组数据输入网络,经由模型给出语义分割结果,使用交叉熵损失及初始结构优化损失训练网络。
此部分所涉及的训练流程均为常规技术,故不再赘述;此外,上述流程所涉及的具体图像尺寸以及网络结构与类型均为举例,并非构成限制。
二、图像语义分割网络持续学习。
1、初始阶段训练完成后,准备新增语义分割数据集及对应新增类别的标签。通过随机裁剪的方式改变图像的空间分辨率,使得图像的宽与高均为512,并进行归一化处理。
同样的,此处所涉及的具体图像尺寸仅为举例,并非构成限制。
本领域技术人员可以理解,新增语义分割数据集中包含了新增类别以及旧类别,当然,有可能少数图像中不包含旧类别,但对学习效果的影响较小。此外,对于新增类别会进行标注,旧类别无需进行标注。
2、初步训练特征变换模块。每次迭代随机从训练数据中选择一组数据输入图像语义分割网络,得到特征提取器输出的特征图,使用损失函数
Figure 14301DEST_PATH_IMAGE064
训练特征变换模块,使其在新增的数据上能完成特征变换操作。
3、使用图像语义分割网络及特征变换模块的权重初始化一相同的网络与特征变换模块(即新网络与新特征变换模块)用以学习新增类别,同时旧网络及其特征变换模块不再更新。每次迭代随机从训练数据中选择一组数据同时输入新、旧网络。二者特征提取器输出特征图分别经由新旧特征变换模块得到旧知识表征,计算对齐损失
Figure 205111DEST_PATH_IMAGE065
。使用新、旧网络解码器输出对旧类别构建类间关系矩阵
Figure 960577DEST_PATH_IMAGE066
Figure 553232DEST_PATH_IMAGE067
及类内关系集合
Figure 853895DEST_PATH_IMAGE068
Figure 532001DEST_PATH_IMAGE069
。并计算类间结构保持损失
Figure 825579DEST_PATH_IMAGE070
与类内结构保持损失
Figure 272741DEST_PATH_IMAGE071
。同时对新类别计算初始结构优化损失
Figure 993572DEST_PATH_IMAGE072
。最后,使用旧网络的输出经由伪标签生成模块生成完整的语义标签,在新网络的分割结果上计算交叉熵损失。
4、根据上述步骤的损失函数,计算总损失函数L,通过反向传播算法以及梯度下降策略,使得损失函数最小化,更新语义分割网络及特征变换模块的参数权重。
此阶段所涉及的反向传播算法以及梯度下降策略均可参照常规技术,故不做赘述。
当需要继续学习新增类别时,重复执行图像语义分割网络持续学习部分的步骤1~步骤4,直至所有感兴趣的类别全部学习完毕。
三、图像语义分割网络测试。
将测试数据集中的图像输入至经持续学习后的图像语义分割网络,依次通过其内部的特征提取器与解码器获得分割结果。通过设定指标可以对分割结果进行评估,以判断持续学习后的图像语义分割网络的语义分割性能。
如图4所示,展示了不同图像语义分割网络分割结果的对比示意图;从左至右四列图像分别表示:输入的图像、现有方案的分割结果、本发明的分割结果、真实分割结果,从图4可以发现本发明的分割结果与真实分割结果接近,并远远优于现有方案的分割结果。
实施例二
本发明还提供一种图像语义分割网络持续学习***,其主要基于前述实施例一提供的方法实现,如图5所示,该***主要包括:
数据收集与初步训练单元,用于获取新增语义分割数据集及对应新增类别的标签,利用原始图像语义分割网络提取所述新增语义分割数据集中图像数据的原始特征图,通过特征变换模块对所述原始特征图进行变换,并利用变换结果重构的特征图与所述原始特征图的差异初步训练所述特征变换模块;
学习单元,用于使用所述原始图像语义分割网络与初步训练的特征变换模块初始化一个相同的图像语义分割网络与特征变换模块,将所述原始图像语义分割网络称为旧网络,初步训练的特征变换模块称为旧特征变换模块,初始化产生的图像语义分割网络称为新网络,初始化产生的特征变换模块称为新特征变换模块;固定所述旧网络与旧特征变换模块,训练所述新网络与新特征变换模块;训练时,将新增语义分割数据集的图像数据同时输入至所述旧网络与新网络,所述旧网络与新网络中各自进行特征图提取、解码与语义分割,获得分割结果;其中,所述旧网络提取的特征图通过所述旧特征变换模块进行变换,所述新网络提取的特征图通过所述新特征变换模块进行变换,并计算两种变换结果的对齐损失;利用所述旧网络与新网络各自的分割结果及解码获得的特征向量,对于旧类别分别独自构建相应的类间关系矩阵与类内关系集合,并利用所述旧网络与新网络的类间关系矩阵计算类间结构保持损失,利用所述旧网络与新网络的类内关系集合计算类内结构保持损失,所述类间结构保持损失与类内结构保持损失用于保持旧类别中类间结构与类内结构的一致性;同时,对于新增类别,利用所述新网络解码获得的特征向量计算初始结构优化损失,所述初始结构优化损失用于拉近相同新增类别的特征向量的分布,疏远不同新增类别的特征向量的分布,并且,利用逐类别动态阈值对旧网络的分割结果进行优化去噪,获得相应的伪标签,利用所述伪标签计算所述新网络的分类损失;结合所述对齐损失、类间结构保持损失、类内结构保持损失、初始结构优化损失及分类损失训练所述新网络与新特征变换模块。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将***的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
需要说明的是,上述各单元所涉及的主要原理在之前的实施例一中已经做了详细的说明,故不再赘述。
实施例三
本发明还提供一种处理设备,如图6所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种图像语义分割网络持续学习方法,其特征在于,包括:
获取新增语义分割数据集及对应新增类别的标签,利用原始图像语义分割网络提取所述新增语义分割数据集中图像数据的原始特征图,通过特征变换模块对所述原始特征图进行变换,并利用变换结果重构的特征图与所述原始特征图的差异初步训练所述特征变换模块;
使用所述原始图像语义分割网络与初步训练的特征变换模块初始化一个相同的图像语义分割网络与特征变换模块,将所述原始图像语义分割网络称为旧网络,初步训练的特征变换模块称为旧特征变换模块,初始化产生的图像语义分割网络称为新网络,初始化产生的特征变换模块称为新特征变换模块;固定所述旧网络与旧特征变换模块,训练所述新网络与新特征变换模块;
训练时,将新增语义分割数据集的图像数据同时输入至所述旧网络与新网络,所述旧网络与新网络中各自进行特征图提取、解码与语义分割,获得分割结果;其中,所述旧网络提取的特征图通过所述旧特征变换模块进行变换,所述新网络提取的特征图通过所述新特征变换模块进行变换,并计算两种变换结果的对齐损失;利用所述旧网络与新网络的分割结果及解码获得的特征向量对于旧类别分别独自构建相应的类间关系矩阵与类内关系集合,并利用所述旧网络与新网络的类间关系矩阵计算类间结构保持损失,利用所述旧网络与新网络的类内关系集合计算类内结构保持损失,所述类间结构保持损失与类内结构保持损失用于保持旧类别中类间结构与类内结构的一致性;同时,对于新增类别,利用所述新网络解码获得的特征向量计算初始结构优化损失,所述初始结构优化损失用于拉近相同新增类别的特征向量的分布,疏远不同新增类别的特征向量的分布,并且,利用逐类别动态阈值对旧网络的分割结果进行优化,获得相应的伪标签,利用所述伪标签计算所述新网络的分类损失;结合所述对齐损失、类间结构保持损失、类内结构保持损失、初始结构优化损失及分类损失训练所述新网络与新特征变换模块。
2.根据权利要求1所述的一种图像语义分割网络持续学习方法,其特征在于,所述利用原始图像语义分割网络提取所述新增语义分割数据集中图像数据的原始特征图,通过特征变换模块对所述原始特征图进行变换,并利用变换结果重构的特征图与所述原始特征图的差异初步训练所述特征变换模块包括:
使用自编码器结构初步训练特征变换模块,将所述原始特征图记为
Figure 442730DEST_PATH_IMAGE001
,将特征变换模块记为P*;通过特征变换模块P*对原始特征图
Figure 891029DEST_PATH_IMAGE001
进行变换包括:先通过卷积操作进行通道降维,再通过若干空洞卷积操作进行局部空间信息混合,生成关于原始特征图
Figure 828023DEST_PATH_IMAGE001
的表征;
使用重构网络R*对变换结果
Figure 488812DEST_PATH_IMAGE002
进行重构,重构的特征图
Figure 834342DEST_PATH_IMAGE003
与所述原始特征图
Figure 797750DEST_PATH_IMAGE001
的差异为二者的欧氏距离,表示为:
Figure 595942DEST_PATH_IMAGE004
利用重构损失初步训练所述特征变换模块P*
3.根据权利要求1所述的一种图像语义分割网络持续学习方法,其特征在于,所述旧网络提取的特征图通过所述旧特征变换模块进行变换,所述新网络提取的特征图通过所述新特征变换模块进行变换,并计算两种变换结果的对齐损失包括:
所述旧网络提取的特征图即为所述原始特征图,记为
Figure 450634DEST_PATH_IMAGE005
,将所述旧特征变换模块记为
Figure 650672DEST_PATH_IMAGE006
,变换结果表示为
Figure 909615DEST_PATH_IMAGE007
;将所述新网络提取的特征图记为
Figure 70469DEST_PATH_IMAGE008
,将所述新特征变换模块记为
Figure 338639DEST_PATH_IMAGE009
,变换结果表示为
Figure 7563DEST_PATH_IMAGE010
,对齐损失为两种变换结果的L1距离,表示为:
Figure 968565DEST_PATH_IMAGE011
4.根据权利要求1所述的一种图像语义分割网络持续学习方法,其特征在于,所述利用所述旧网络与新网络的类间关系矩阵计算类间结构保持损失表示为:
Figure 616715DEST_PATH_IMAGE012
其中,
Figure 157418DEST_PATH_IMAGE013
表示利用所述旧网络的分割结果以及解码获得的特征向量对于旧类别构建的类间关系矩阵;
Figure 456681DEST_PATH_IMAGE014
表示利用所述新网络的分割结果以及解码获得的特征向量对于旧类别构建的类间关系矩阵; ||.||F表示矩阵的F范数;
类间关系矩阵中的单个元素表示两个旧类别对应的类别原型之间的余弦距离;对于旧类别i与旧类别j,旧网络中对应的类别原型分别表示为
Figure 57427DEST_PATH_IMAGE015
Figure 317507DEST_PATH_IMAGE016
,新网络中对应的类别原型分别表示为
Figure 802846DEST_PATH_IMAGE017
Figure 566403DEST_PATH_IMAGE018
,则类间关系矩阵
Figure 495307DEST_PATH_IMAGE013
Figure 977104DEST_PATH_IMAGE014
中相应元素
Figure 266134DEST_PATH_IMAGE019
Figure 149776DEST_PATH_IMAGE020
的计算方式表示为:
Figure 357904DEST_PATH_IMAGE021
其中,类别原型为相应类别下所有特征向量的平均,
Figure 451630DEST_PATH_IMAGE022
Figure 403406DEST_PATH_IMAGE023
分别表示类别原型
Figure 282500DEST_PATH_IMAGE017
Figure 661529DEST_PATH_IMAGE018
余弦相似度、类别原型
Figure 744017DEST_PATH_IMAGE015
Figure 499483DEST_PATH_IMAGE016
的余弦相似度。
5.根据权利要求1所述的一种图像语义分割网络持续学习方法,其特征在于,所述利用所述旧网络与新网络的类内关系集合计算类内结构保持损失表示为:
Figure 967505DEST_PATH_IMAGE024
其中,利用所述旧网络的分割结果以及解码获得的特征向量对于旧类别构建的类内关系集合表示为
Figure 517435DEST_PATH_IMAGE025
Figure 461120DEST_PATH_IMAGE026
Figure 144911DEST_PATH_IMAGE015
分别表示旧网络解码获得的属于旧类别i的特征向量与相应的类别原型;利用所述新网络的分割结果以及解码获得的特征向量对于旧类别构建的类内关系集合表示
Figure 592073DEST_PATH_IMAGE027
Figure 188270DEST_PATH_IMAGE028
Figure 619252DEST_PATH_IMAGE017
分别表示新网络解码获得的属于旧类别i的特征向量与相应的类别原型;类别原型为相应类别下所有特征向量的平均,D表示距离度量函数,
Figure 342619DEST_PATH_IMAGE029
表示旧类别集合,
Figure 909867DEST_PATH_IMAGE030
表示旧类别的数量。
6.根据权利要求1所述的一种图像语义分割网络持续学习方法,其特征在于,所述对于新增类别,利用所述新网络解码获得的特征向量计算初始结构优化损失表示为:
Figure 801600DEST_PATH_IMAGE031
其中,
Figure 595243DEST_PATH_IMAGE032
表示引导类内结构的损失,
Figure 496203DEST_PATH_IMAGE033
表示引导类间结构的损失,
Figure 777012DEST_PATH_IMAGE034
Figure 105225DEST_PATH_IMAGE033
的权重;
引导类内结构的损失
Figure 120586DEST_PATH_IMAGE032
用于拉近相同新增类别的特征向量的分布,表示为:
Figure 559657DEST_PATH_IMAGE035
其中,
Figure 101497DEST_PATH_IMAGE036
表示当前学习阶段t新增类别的集合,
Figure 226710DEST_PATH_IMAGE037
表示当前学习阶段t新增类别的数量,所述当前学习阶段t表示训练所述新网络与新特征变换模块的阶段;
Figure 588421DEST_PATH_IMAGE038
表示新增类别c对应的类别原型,
Figure 706550DEST_PATH_IMAGE039
表示属于新增类别c的特征向量;
引导类间结构的损失
Figure 102896DEST_PATH_IMAGE033
用于疏远不同新增类别的特征向量的分布,表示为:
Figure 897546DEST_PATH_IMAGE040
其中,
Figure 746553DEST_PATH_IMAGE041
Figure 527427DEST_PATH_IMAGE042
分别表示新增类别m与新增类别n对应的类别原型,
Figure 919225DEST_PATH_IMAGE043
表示类别原型
Figure 760142DEST_PATH_IMAGE041
Figure 722544DEST_PATH_IMAGE042
的余弦相似度,
Figure 307110DEST_PATH_IMAGE044
为预定义的距离;
类别原型为相应类别下所有特征向量的平均,对于新增类别c,类别原型
Figure 553414DEST_PATH_IMAGE038
表示为:
Figure 565233DEST_PATH_IMAGE045
其中,y为当前阶段中新增类别的标签,|y=c|表示标签中属于新增类别c的像素的数量,
Figure 513466DEST_PATH_IMAGE046
为指示函数,当y=c时,输出为1,其他情况输出为0。
7.根据权利要求1所述的一种图像语义分割网络持续学习方法,其特征在于,所述利用逐类别动态阈值对旧网络的分割结果进行优化,获得相应的伪标签,利用所述伪标签计算所述新网络的分类损失包括:
利用逐类别动态阈值对旧网络的分割结果进行优化,并融合获取到的新增类别的标签,获得相应的伪标签,表示为:
Figure 636143DEST_PATH_IMAGE047
其中,
Figure 861588DEST_PATH_IMAGE048
表示当前学习阶段t获取到的输入图像
Figure 654094DEST_PATH_IMAGE049
中像素k对应的新增类别的标签,所述当前学习阶段t表示训练所述新网络与新特征变换模块的阶段;
Figure 230569DEST_PATH_IMAGE050
表示旧网络对像素k的分类置信度,
Figure 783036DEST_PATH_IMAGE051
表示旧类别i对应的动态阈值,
Figure 269512DEST_PATH_IMAGE029
表示旧类别集合,
Figure 623133DEST_PATH_IMAGE052
表示旧网络
Figure 421324DEST_PATH_IMAGE053
对输入图像
Figure 10437DEST_PATH_IMAGE049
输出的分割结果,即每一像素的分类结果,
Figure 944895DEST_PATH_IMAGE054
为生成的像素k的伪标签;
利用伪标签计算所述新网络的分类损失,表示为:
Figure 610363DEST_PATH_IMAGE055
其中,
Figure 895851DEST_PATH_IMAGE056
表示所述新网络对于输入图像
Figure 790120DEST_PATH_IMAGE057
输出的分割结果。
8.一种图像语义分割网络持续学习***,其特征在于,基于权利要求1~7任一项所述的方法实现,该***包括:
数据收集与初步训练单元,用于获取新增语义分割数据集及对应新增类别的标签,利用原始图像语义分割网络提取所述新增语义分割数据集中图像数据的原始特征图,通过特征变换模块对所述原始特征图进行变换,并利用变换结果重构的特征图与所述原始特征图的差异初步训练所述特征变换模块;
学习单元,用于使用所述原始图像语义分割网络与初步训练的特征变换模块初始化一个相同的图像语义分割网络与特征变换模块,将所述原始图像语义分割网络称为旧网络,初步训练的特征变换模块称为旧特征变换模块,初始化产生的图像语义分割网络称为新网络,初始化产生的特征变换模块称为新特征变换模块;固定所述旧网络与旧特征变换模块,训练所述新网络与新特征变换模块;训练时,将新增语义分割数据集的图像数据同时输入至所述旧网络与新网络,所述旧网络与新网络中各自进行特征图提取、解码与语义分割,获得分割结果;其中,所述旧网络提取的特征图通过所述旧特征变换模块进行变换,所述新网络提取的特征图通过所述新特征变换模块进行变换,并计算两种变换结果的对齐损失;利用所述旧网络与新网络的分割结果及解码获得的特征向量对于旧类别分别独自构建相应的类间关系矩阵与类内关系集合,并利用所述旧网络与新网络的类间关系矩阵计算类间结构保持损失,利用所述旧网络与新网络的类内关系集合计算类内结构保持损失,所述类间结构保持损失与类内结构保持损失用于保持旧类别中类间结构与类内结构的一致性;同时,对于新增类别,利用所述新网络解码获得的特征向量计算初始结构优化损失,所述初始结构优化损失用于拉近相同新增类别的特征向量的分布,疏远不同新增类别的特征向量的分布,并且,利用逐类别动态阈值对旧网络的分割结果进行优化,获得相应的伪标签,利用所述伪标签计算所述新网络的分类损失;结合所述对齐损失、类间结构保持损失、类内结构保持损失、初始结构优化损失及分类损失训练所述新网络与新特征变换模块。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202210237914.4A 2022-03-11 2022-03-11 图像语义分割网络持续学习方法、***、设备及存储介质 Active CN114332466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210237914.4A CN114332466B (zh) 2022-03-11 2022-03-11 图像语义分割网络持续学习方法、***、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210237914.4A CN114332466B (zh) 2022-03-11 2022-03-11 图像语义分割网络持续学习方法、***、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114332466A CN114332466A (zh) 2022-04-12
CN114332466B true CN114332466B (zh) 2022-07-15

Family

ID=81034081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210237914.4A Active CN114332466B (zh) 2022-03-11 2022-03-11 图像语义分割网络持续学习方法、***、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114332466B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898098B (zh) * 2022-06-27 2024-04-19 北京航空航天大学 脑组织图像分割方法
CN116977635B (zh) * 2023-07-19 2024-04-16 中国科学院自动化研究所 类别增量语义分割学习方法及语义分割方法
CN117036790B (zh) * 2023-07-25 2024-03-22 中国科学院空天信息创新研究院 一种小样本条件下的实例分割多分类方法
CN117875407B (zh) * 2024-03-11 2024-06-04 中国兵器装备集团自动化研究所有限公司 一种多模态持续学习方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2954540B1 (fr) * 2009-12-23 2018-11-16 Thales Procede de classification d'objets dans un systeme de veille par imagerie.
US9704257B1 (en) * 2016-03-25 2017-07-11 Mitsubishi Electric Research Laboratories, Inc. System and method for semantic segmentation using Gaussian random field network
CN113287149A (zh) * 2019-12-19 2021-08-20 博医来股份公司 使用机器学习和解剖向量的医学图像分析
CN111047548B (zh) * 2020-03-12 2020-07-03 腾讯科技(深圳)有限公司 姿态变换数据处理方法、装置、计算机设备和存储介质
CN112559784B (zh) * 2020-11-02 2023-07-04 浙江智慧视频安防创新中心有限公司 基于增量学习的图像分类方法及***

Also Published As

Publication number Publication date
CN114332466A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN114332466B (zh) 图像语义分割网络持续学习方法、***、设备及存储介质
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
Jiang et al. Scfont: Structure-guided chinese font generation via deep stacked networks
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN113627482B (zh) 一种基于音频—触觉信号融合的跨模态图像生成方法及装置
CN114359526B (zh) 基于语义gan的跨域图像风格迁移方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN110879974B (zh) 一种视频分类方法和装置
CN112347995B (zh) 基于像素和特征转移相融合的无监督行人再识别方法
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
CN111967533B (zh) 一种基于场景识别的草图图像翻译方法
CN110378911B (zh) 基于候选区域和邻域分类器的弱监督图像语义分割方法
WO2023151529A1 (zh) 人脸图像的处理方法及相关设备
Tang et al. Attribute-guided sketch generation
CN113361646A (zh) 基于语义信息保留的广义零样本图像识别方法及模型
CN106355210A (zh) 基于深度神经元响应模式的绝缘子红外图像特征表达方法
CN117152459A (zh) 图像检测方法、装置、计算机可读介质及电子设备
Ghorai et al. An image inpainting method using pLSA-based search space estimation
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN112802048B (zh) 具有不对称结构的图层生成对抗网络生成方法及装置
CN115984949B (zh) 一种带有注意力机制的低质量人脸图像识别方法及设备
CN117315090A (zh) 基于跨模态风格学习的图像生成方法及装置
CN111242114A (zh) 文字识别方法及装置
CN114663802B (zh) 基于特征时空约束的监控视频跨模态视频迁移方法
CN117011539A (zh) 目标检测方法、目标检测模型的训练方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant