CN114463335A - 弱监督语义分割方法、装置、电子设备及存储介质 - Google Patents

弱监督语义分割方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114463335A
CN114463335A CN202111602397.8A CN202111602397A CN114463335A CN 114463335 A CN114463335 A CN 114463335A CN 202111602397 A CN202111602397 A CN 202111602397A CN 114463335 A CN114463335 A CN 114463335A
Authority
CN
China
Prior art keywords
training
label
semantic segmentation
branch
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111602397.8A
Other languages
English (en)
Inventor
张兆翔
李靖
樊峻菘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111602397.8A priority Critical patent/CN114463335A/zh
Publication of CN114463335A publication Critical patent/CN114463335A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种弱监督语义分割方法、装置、电子设备及存储介质,方法包括:获取待识别图片,将待识别图片输入至语义分割模型中,得到语义分割结果;语义分割模型是基于训练伪标签,对基础语义分割模型进行训练后得到的;训练伪标签是由双分支模型对图片进行识别后得到的;双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的;第一训练标签是由CAM生成的初始标签;第二训练标签是双分支模型输出的在线标签。本申请通过迭代优化的方式训练一个双分支模型,使它可以预测更高质量的物体边界和分割结果,最后根据物体边界和分割结果生成用于训练基础语义分割模型的高质量伪标签,从而训练高精度的语义分割模型。

Description

弱监督语义分割方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种弱监督语义分割方法、装置、电子设备及存储介质。
背景技术
语义分割是一个重要且经典的计算机视觉任务,在图像编辑、场景解析等方面有着广泛的应用。虽然目前基于深度神经网络的语义分割取得了重大进展,但这些方法非常依赖耗时耗力的像素级图片分割标签。
为了减少图片标注的成本,基于图片类别标签的弱监督语义分割方法得到了广泛研究。目前大多数方法是通过利用类别标签训练一个分类网络,进而利用分类网络最后一个卷积层的激活图(CAM)获取前景物***置和形状信息,生成初始标签(seed label),并利用这些初始标签训练标准的语义分割模型,最终利用训练好的语义分割模型预测待识别图像的语义分割结果。激活图的前景区域通常只有局部是高亮的,因此初始标签一般只标记了前景物体的部分区域,前景类别recall较低,这会影响分割模型的性能。
目前,一些工作利用初始标签(seed label)训练边界检测模型提取前景物体边界(contour),在contour约束下进行前景类别分数传播,使激活图中高亮的前景区域更加完整。然而,这些边界检测模型预测的物体边界图(contour map)中存在较多假正例(物体内部边),它们阻碍了前景类别分数传播,导致修正后的激活图仍存在高亮前景区域不完整的情况,初始标签recall仍较低。
发明内容
由于现有方法存在上述问题,本申请实施例提供一种弱监督语义分割方法、装置、电子设备及存储介质,着重解决初始标签recall较低的问题。
具体的,本申请实施例提供了以下技术方案:
第一方面,本申请实施例提供了一种弱监督语义分割方法,包括:
获取待识别图片,并将所述待识别图片输入至语义分割模型中,得到所述待识别图片的语义分割结果;
其中,所述语义分割模型是基于训练伪标签,对基础语义分割模型进行训练后得到的;所述训练伪标签是由双分支模型对图片进行识别后得到的;所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的;其中,所述第一训练标签是由分类网络激活图CAM生成的初始标签;所述初始标签包括图片的前景物***置和形状信息;所述第二训练标签是所述双分支模型输出的在线标签;所述在线标签基于语义分割分支预测结果和物体边界检测分支预测结果生成;所述双分支模型由所述语义分割分支和所述物体边界检测分支构成,所述语义分割分支和所述物体边界检测分支共享一个主干分支用于提取图片特征。
可选的,所述CAM是由分类网络模型对图片进行特征识别后得到的;所述分类网络模型是基于图片类别标签进行训练后得到的。
可选的,所述训练伪标签是由双分支模型对图片进行识别后得到的,包括:
根据所述语义分割分支对图片进行识别后得到的语义分割预测结果,以及根据所述物体边界检测分支对图片进行识别后得到的物体边界结果,得到所述训练伪标签。
可选的,所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的,包括:
对所述CAM进行处理离线生成第一训练标签;在所述物体边界检测分支生成的物体边界图约束下,采用前景类别分数传播的方式,传播所述语义分割分支生成的初始分割概率图中的前景类别分数,得到修正后分割概率图,基于修正后分割概率图生成第二训练标签;
根据所述第一训练标签和所述第二训练标签,监督训练所述双分支模型中的所述物体边界检测分支和语义分割分支;
基于密集条件随机场dense CRF,对所述初始分割概率图进行处理,得到背景参考标签,并根据背景参考标签修正所述第二训练标签,得到修正后第二训练标签;根据所述第一训练标签和修正后的第二训练标签,监督训练所述双分支模型中的物体边界子模型。
可选的,根据所述语义分割分支对图片进行识别后得到的语义分割预测结果,以及根据所述物体边界子模型对图片进行识别后得到的物体边界结果,得到所述训练伪标签,包括:
在将所述图片进行多尺度缩放和水平翻转后,输入训练后的所述语义分割分支,得到语义分割预测结果,以及,输入训练后的所述物体边界检测分支,得到物体边界结果;
根据所述语义分割预测结果和所述物体边界结果,生成所述训练伪标签。
第二方面,本申请实施例提供了一种弱监督语义分割装置,包括:
处理模块,用于获取待识别图片,并将所述待识别图片输入至语义分割模型中,得到所述待识别图片的语义分割结果;
其中,所述语义分割模型是基于训练伪标签,对基础语义分割模型进行训练后得到的;所述训练伪标签是由双分支模型对图片进行识别后得到的;所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的;其中,所述第一训练标签是由分类网络激活图CAM生成的初始标签;所述初始标签包括图片的前景物***置和形状信息;所述第二训练标签是所述双分支模型输出的在线标签;所述在线标签基于语义分割分支预测结果和物体边界检测分支预测结果生成;所述双分支模型由所述语义分割分支和所述物体边界检测分支构成,所述语义分割分支和所述物体边界检测分支共享一个主干分支用于提取图片特征。
可选的,所述CAM是由分类网络模型对图片进行特征识别后得到的;所述分类网络模型是基于图片类别标签进行训练后得到的。
可选的,所述处理模块,具体用于:
根据所述语义分割分支对图片进行识别后得到的语义分割预测结果,以及根据所述物体边界检测分支对图片进行识别后得到的物体边界结果,得到所述训练伪标签。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的弱监督语义分割方法。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的弱监督语义分割方法。
由上面技术方案可知,本申请实施例将所述待识别图片输入至语义分割模型中的,得到所述待识别图片的语义分割结果;其中,所述语义分割模型是基于训练伪标签,对基础语义分割模型进行训练后得到的;所述训练伪标签是由双分支模型对图片进行识别后得到的;所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的;其中,所述第一训练标签是由分类网络激活图CAM生成的初始标签;所述初始标签包括图片的前景物***置和形状信息;所述第二训练标签是所述双分支模型输出的在线标签;所述在线标签基于语义分割分支预测结果和物体边界检测分支预测结果生成;所述双分支模型由所述语义分割分支和所述物体边界检测分支构成,所述语义分割分支和所述物体边界检测分支共享一个主干分支用于提取图片特征。由此可知,本申请实施例通过在线标签对双分支模型的两个分支进行迭代优化,前向传播时在物体边界的约束下,将分割结果中的前景类别分数向周围传播,生成第二训练标签,该标签预测了更完整更精确的前景区域,在反向传播时很好地优化了双分支模型的两个分支。本申请实施例与现有的只使用初始标签(第一训练标签)监督物体边界分支方案相比,能够有效地抑制物体边界中的假正例(物体内部边界),有助于前景类别分数从显著区域传播到非显著区域。本申请实施例利用分数传播优化分割子模型的分割结果并生成训练伪标签,与基于CAM的传统方法相比,生成的训练伪标签更加精确,从而可以训练性能更高的基础语义分割模型,提高了语义分割结果的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本申请实施例提供的弱监督语义分割方法的步骤流程图之一;
图2是本申请实施例提供的弱监督语义分割方法的步骤流程图之二;
图3是本申请实施例提供的迭代训练双分支模型的框架图;
图4是本申请实施例提供的双分支模型的网络结构示意图之一;
图5是本申请实施例提供的双分支模型的网络结构示意图之二;
图6是本申请实施例提供的双分支模型的网络结构示意图之三;
图7是本申请实施例提供的弱监督语义分割装置的结构示意图;
图8是本申请实施例的电子设备的结构示意图。
具体实施方式
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1示出了本申请实施例提供的弱监督语义分割方法的步骤流程图之一,图2是本申请实施例提供的弱监督语义分割方法的步骤流程图之二,图3是本申请实施例提供的迭代训练双分支模型的框架图,图4是本申请实施例提供的双分支模型的网络结构示意图之一,图5是本申请实施例提供的双分支模型的网络结构示意图之二,图6是本申请实施例提供的双分支模型的网络结构示意图之三。下面结合图1至图6对本申请实施例提供的弱监督语义分割方法进行详细解释和说明,如图1所示,本申请实施例提供的一种弱监督语义分割方法,包括:
步骤101:获取待识别图片,并将所述待识别图片输入至语义分割模型中,得到所述待识别图片的语义分割结果;
其中,所述语义分割模型是基于训练伪标签,对基础语义分割模型进行训练后得到的;所述训练伪标签是由双分支模型对图片进行识别后得到的;所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的;其中,所述第一训练标签是由分类网络激活图CAM生成的初始标签;所述初始标签包括图片的前景物***置和形状信息;所述第二训练标签是所述双分支模型输出的在线标签;所述在线标签基于语义分割分支预测结果和物体边界检测分支预测结果生成;所述双分支模型由所述语义分割分支和所述物体边界检测分支构成,所述语义分割分支和所述物体边界检测分支共享一个主干分支用于提取图片特征。
在本步骤中,需要说明的是,首先需要利用图片类别标签训练一个分类网络模型,如图3,分类网络模型backbone权重用ImageNet预训练模型的backbone初始化,用于分类的全连接层无bias,权重随机初始化。在训练时对输入图片进行随机增强后,输入网络训练,并使用SGD优化。
在本步骤中,在分类网络模型训练完成后,将训练图片输入分类网络模型,最后一个卷积层输出的特征图为F,不对其进行池化,将全连接层权重转化为1×1卷积核对F进行卷积并将结果输入Relu激活函数,从而得到激活图CAM(Class Activation Map)。
在本步骤中,在得到激活图CAM后,将CAM上采样到输入图像大小,并对输入图像未出现类别对应的channel置0,在CAM上添加背景channel,背景channel置为τ1得到CAM1,背景channel置为τ22<τ1)得到CAM2。将CAM1和CAM2分别输入argmax函数,得到两个初始标签,利用pydensecrf包修正这两个标签,得到Yfg,Ybg。对Yfg中的背景像素标签进行修改,若它们在Ybg中属于前景,则重新标记为不确定像素(取255),如下所示(Yinit[i]表示Yinit中第i个像素,Yfg[i],Ybg[i]类似),对Yfg修改后得到第一训练标签Yinit
Figure BDA0003433395010000071
在本步骤中,如图4所示,双分支模型选择resnet50或resnet101作为backbone,将resnet网络stage4和stage5的stride从2改为1,stage5最后输出stride为8的特征图Fs8,调整网络stage4和stage5的卷积层的dilation使Fs8每个位置的感受野和原始resnet网络对应位置的感受野一样大。需要说明的是,双分支模型由语义分割分支(分割子模型)和物体边界检测分支(物体边界子模型)构成,如图5所示,分割子模型的构建方式为:在stage5后面添加seg head,seg head采用Aspp模型,由4个dilation不同的3×3卷积核组成,Fs8输入这4个卷积得到的结果相加后在空间维度进行2倍上采样,最后输入softmax得到语义分割概率图M。如图6所示,物体边界子模块的构建方式为:分别将stage1到stage5的输出特征通过5个edge_layer将channel降为32,将得到的5个特征图concat到一起输入edge_layer6(1×1卷积),输出channel为1的物体边界图contour map,contour map经过sigmoid函数映射到[0,1],记为B。
在本步骤中,除了初始标签Yinit(第一训练标签),在双分支模型训练阶段还利用分割结果M和物体边界B生成在线标签Yonline(第二训练标签)。训练图片在输入双分支模型前进行了随机缩放、裁剪增强,输入图片I中只有某个矩形区域R包含原图片内容,其他区域为图片增强时的补0区域。本发明本发明将Yonline中的补0区域置为255(不确定标签),Yonline中矩形区域R的标签则利用M、B中的有效区域R’通过分数传播得到(R’对应R)。。Yonline融合了M和B的信息,结果更为精确。另一方面,M中少量的高亮背景区域经过分数传播会迅速扩大,导致生成的Yonline在这些区域预测为前景,存在大量false positive标签,因此需要对Yonline进行修正,将这些错误标签纠正为背景标签,得到修正后第二标签Yrefine
在本步骤中,在得到第一训练标签Yinit、第二训练标签Yonline和修正后第二训练标签Yrefine后,利用Yinit和Yonline通过CrossEntropy loss监督训练双分支模型的分割预测结果M,同时可以利用Yinit和Yrefine得到B中不同pixel之间的语义相关性矩阵,利用该矩阵监督基于B生成的语义相关性矩阵,间接地监督双分支模型的物体边界预测结果B。
在本步骤中,在对双分支模型训练完成后,将训练集中的图片进行多尺度缩放和水平翻转后,输入训练后的双分支模型,由分割子模型得到语义分割预测结果,以及,由物体边界子模型得到物体边界结果,进而根据语义分割预测结果和所述物体边界结果,通过分数传播生成训练伪标签。
在本步骤中,利用生成的伪标签训练基础语义分割模型(比如deeplab),训练完成后将被识别图片输入语义分割模型,得到图片的语义分割结果。
由上面技术方案可知,本申请实施例将所述待识别图片输入至语义分割模型中,得到所述待识别图片的语义分割结果;其中,所述语义分割模型是基于训练伪标签,对基础语义分割模型进行训练后得到的;所述训练伪标签是由双分支模型对图片进行识别后得到的;所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的;其中,所述第一训练标签包括由分类网络激活图CAM生成的初始标签Yinit;所述Yinit包括图片的前景物***置和形状信息;所述第二训练标签Yonlime是所述双分支模型输出的在线标签;所述Yonline基于语义分割分支预测结果和物体边界检测分支预测结果生成;所述双分支模型由分割分支和物体边界检测分支构成,这两个分支共享一个主干分支用于从输入图片提取特征。由此可知,本申请实施例通过在线标签Yonline对双分支模型的两个分支子模型进行迭代优化,前向传播时在物体边界的约束下,将分割结果中的前景类别分数向周围传播,生成的Yonline标记了更完整更精确的前景区域,在反向传播时可以优化双分支模型的两个子模型分支。本申请实施例与现有的只使用初始标签Yinit(第一训练标签)监督物体边界分支方案相比,能够有效地抑制物体边界中的假正例(物体内部边界),有助于前景类别分数从显著区域传播到非显著区域。本申请实施例基于分割子模型的分割预测结果进行分数传播优化并生成训练伪标签,与基于CAM的传统方法相比,生成的训练伪标签更加精确,从而可以训练性能更高的基础语义分割模型,提高了语义分割结果的准确度。
基于上述实施例的内容,在本实施例中,所述CAM是由分类网络模型对图片进行特征识别后得到的;所述分类网络模型是基于图片类别标签进行训练后得到的;所述图片类别标签由训练数据集提供。
基于上述实施例的内容,在本实施例中,所述训练伪标签是由双分支模型对图片进行识别后得到的,包括:
根据所述语义分割分支对图片进行识别后得到的语义分割预测结果,以及根据所述物体边界检测分支对图片进行识别后得到的物体边界结果,利用这两个结果得到所述训练伪标签。
在本实施例中,需要说明的是,将训练集中的每个图片进行多尺度缩放、水平翻转,生成多张图片输入训练好的双分支模型,得到多个语义分割预测结果和物体边界结果,取多个语义分割预测结果和物体边界结果的平均值,采用类似于生成第二训练标签的方式,基于这些平均值生成训练伪标签。
基于上述实施例的内容,在本实施例中,所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的,包括:
对所述CAM进行处理离线生成第一训练标签;在所述物体边界检测分支生成的物体边界图约束下,采用前景类别分数传播的方式,传播所述语义分割分支生成的初始分割概率图中的前景类别分数,得到修正后分割概率图,基于修正后分割概率图生成第二训练标签;
根据所述第一训练标签和所述第二训练标签,监督训练所述双分支模型中的所述物体边界检测分支;
使用第二训练标签监督物体边界检测分支时,可以对对第二训练标签进行一定的修正,用修正后的第二训练标签作为监督信号。首先基于密集条件随机场dense CRF,对所述初始分割概率图进行处理,得到背景参考标签,然后根据背景参考标签修正所述第二训练标签,得到修正后第二训练标签;
最后根据所述第一训练标签和修正后第二训练标签,监督训练所述双分支模型中的物体边界子模型。
在本实施例中,需要说明的是,在使用激活图CAM生成的第一训练标签后,还利用网络前景类别分数传播的方式得到第二训练标签,根据第一训练标签和第二训练标签,监督训练所述双分支模型中的分割子模型。此外,为了更好地监督物体边界分支,可以对第二训练标签进行修正。这是因为分割概率图中少量的高亮背景区域经过分数传播会迅速扩大,导致生成的第二训练标签在这些区域预测为前景,存在大量false positive标签,因此需要对第二训练标签进行修正,将这些错误标签纠正为背景标签所以对分割结果进行dense CR处理,得到参考标签,根据参考标签对第二训练标签进行修正得到修正后第二训练标签,进而根据第一训练标签和所述修正后第二训练标签,监督训练双分支模型中的物体边界子模型。由此可见,本申请实施例在双分支模型反向传播时使用初始标签(第一训练标签)和在线标签(第二训练标签)监督训练语义分割子模型,用初始标签和修正后第二训练标签监督物体边界子模型。其中,初始标签起到初始化和稳定训练过程的作用,在线标签和修正后第二训练标签则融合了两个分支子模型的信息,在训练时对两个分支子模型进行迭代优化,修正后第二训练标签在一定程度上避免了低质量物体分割结果图的不良影响。双分支网络训练完成后,利用物体边界信息对分割子模型的分割预测结果进行优化并生成训练伪标签,与对CAM进行优化的传统方法相比,生成的训练伪标签更加精确。
下面通过具体实施例对本申请进行具体说明。
第一实施例:
在本实施例中,以某语义分割数据库为例,包括背景共21个语义类别,具有10582张训练图像及对应的语义分割标签,本实施例只使用图像类别标签,可以通过语义分割标签转化得到。
图2为本发明的流程图,如图所示,本申请实施例提供的弱监督语义分割方法具体包括如下步骤:
步骤S0,利用图片类别标签训练一个分类网络,如图3,可以采用resnet50等经典模型,网络backbone权重用ImageNet预训练模型的backbone初始化,用于分类的全连接层无bias,权重随机初始化。训练时对输入图片随机缩放(长边在320-640范围内)、随机进行水平翻转、像素值归一化(先除以255将像素值变为[0,1],再基于均值:0.485,0.456,0.406,方差:0.229,0.224,0.225,对图片RGB通道分别进行归一化),再随机裁剪至512×512,裁剪时不足部分用0补齐。将裁剪后的图片输入网络训练,使用SGD优化,backbone学习率0.1,最后用于分类的全连接层学习率1.0,batch_size为16,训练5个epoch。
步骤S1,分类网络训练完成后,将训练图片输入网络,最后一个卷积层输出特征图F,将全连接层权重当成1×1卷积核的权重对F进行卷积并将结果输入Relu激活函数。得到了和F大小相同,channel数为20(前景物体有20类)的激活图(CAM),如图3。
步骤S2,输入图像尺寸为512×512,,将激活图(CAM)上采样512×512,,输入图像未出现类别对应的channel置0,其余channel取值归一化到[0,1](每个channel除以它所有位置的最大值),在第一个channel前添加取值为0.3的背景channel,得到新的激活图CAM1。CAM1输入argmax函数,在channel维度取最大值,得到一个分割标签,利用pydensecrf包对其进行密集条件随机场处理后得到标签Yfg(addPairwiseGaussian参数sxy=3,compat=3;addPairwiseBilateral参数sxy=50,srgb=5,compat=10,unary_from_labels参数gt_prob=0.7,zero_unsure=False,inference 10次)。类似地,在第一个channel前添加取值为0.05的背景channel,进行相同的后续操作,可以得到标签Ybg。对Yfg中的背景标签进行修改,如果其在Ybg中为前景,则重新标记为不确定像素,得到Yinit(512×512),如下所示(Yinit[i]表示Yinit中第i个像素,Yfg[i],Ybg[i]类似,0表示背景类别,255表示不确定像素)。
Figure BDA0003433395010000131
步骤S3,构建双分支网络backbone,如图4。双分支网络输入图片尺寸为512×512,选择resnet50或resnet101作为backbone,将resnet网络stage4和stage5的stride从2改为1,同时将stage4第2到最后一层3×3卷积的dilation设置为2,第一个3×3卷积dilation设置为1,将stage5第2到最后一层3×3卷积的dilation设置为4,第一个3×3卷积dilation设置为2,这样,stage5最后会输出stride为8的特征图Fs8(大小为64×64),Fs8每个位置的感受野和原始resnet网络对应位置的感受野一样大。
步骤S4,构建双分支网络分割分支子模型,在stage5后面添加seg head,采用Aspp模型,如图5,由4个带bias的、输出channel为21、dilation分别为6,12,18,24的3×3卷积组成,Fs8输入这4个卷积得到的结果相加后进行2倍上采样,在channel维度进行softmax运算得到语义分割结果M,M有21个channel(前景+背景),大小为128×128。
步骤S5,构建双分支网络物体边界分支子模型。如图6,分别将stage1到stage5的输出特征通过5个edge_layer将channel降为32,称这5个edge_layer为edge_layer1,edge_layer2,……,edge_layer5。每个edge_layer依次由1×1卷积、GroupNorm层(group数为4)、Relu层组成,edge_layer3,edge_layer4,edge_layer5在Relu层前会进行2倍上采样。将得到的5个特征图concat到一起输入edge_layer6(1×1卷积),输出channel为1的物体边界图,物体边界图取值经过sigmoid函数映射到[0,1],记为B大小为128×128。
步骤S6,利用分割结果M和物体边界B生成在线标签Yonline(第二训练标签,512×512)。训练图片在输入模型前进行了随机缩放、裁剪增强,输入图片I中只有某个矩形区域R(h×w)包含原始图片内容,,其他区域为补0区域。R区域对应M、B中的有效区域R’(h/4×w/4),双分支模型前向传播时选择M、B中R’区域
Figure BDA0003433395010000141
Figure BDA0003433395010000142
通过分数传播生成Yonline中R区域的标签
Figure BDA0003433395010000143
Yonline中的补0区域置为255(不确定标签)。
下面介绍分数传播过程,为了减少计算量,方便批处理,将
Figure BDA0003433395010000144
Figure BDA0003433395010000145
调整为64×64的
Figure BDA0003433395010000146
Figure BDA0003433395010000147
首先基于
Figure BDA0003433395010000148
计算4096×4096大小的像素相关性稀疏矩阵A。考虑
Figure BDA0003433395010000149
上距离不超过3的两个像素i,j及它们连线附近像素(与i,j连线垂直距离最近的几个像素)边界置信度的最大值β,取(1-β)10作为i,j的相关度,Ai,j=Aj,i=(1-β)10,若像素m,n的距离超过了3,Am,n=An,m=0。通过矩阵相乘实现像素相关性的传播,计算
Figure BDA00034333950100001410
Figure BDA00034333950100001411
的每一列进行normalize,使其和为1。
Figure BDA00034333950100001412
是稠密的,描述了远距离像素间的语义相关性,两个像素距离较远时,根据它们连线上的边界置信度计算相关性是不准确的,本发明通过矩阵连续相乘得到远距离像素相关性。
得到
Figure BDA00034333950100001413
后,将
Figure BDA00034333950100001414
中输入图片不包含类别对应的channel置0,背景channel置为0.25,对于输入图片包含的每个类别i,调整
Figure BDA00034333950100001415
中第i个channel为1×4096的向量,数值归一化到[0,1],与
Figure BDA00034333950100001416
进行矩阵相乘,得到新的向量Vi,Vi调整大小为64×64的Vi 64×64,即为修正后的第i个channel。最后得到修正后的分割结果
Figure BDA00034333950100001417
输入argmax函数,在channel维度进行最大值计算,得到
Figure BDA00034333950100001418
对应的online label
Figure BDA00034333950100001419
将其调整到R大小(h×w),得到
Figure BDA00034333950100001420
对补0区域用255补齐,得到完整的Yonline。Vi
Figure BDA00034333950100001421
计算方式如下所示:(Vec()表示向量化,
Figure BDA00034333950100001422
表示
Figure BDA00034333950100001423
第i个channel,labelI表示输入图片的类别标签):
Figure BDA0003433395010000151
利用上述得到的Yonline监督分割分支,为了更好地监督物体边界分支,对上述Yonline进行一些修正。将
Figure BDA0003433395010000152
中输入图片不包含类别对应的channel全部置0,背景channel置为0.05,接着进行dense CRF处理,调整到R大小(h×w),得到
Figure BDA0003433395010000153
(DenseCRF参数为:iter_max=10,pos_xy_std=1,pos_w=3,bi_xy_std=67,bi_rgb_std=3,bi_w=4),生成
Figure BDA0003433395010000154
的背景阈值(0.05)远小于生成的
Figure BDA0003433395010000155
背景阈值(0.25),前者的背景区域具有更高置信度,用前者的背景区域标签修正后者,得到
Figure BDA0003433395010000156
如下所示(
Figure BDA0003433395010000157
表示
Figure BDA0003433395010000158
中第i个像素):
Figure BDA0003433395010000159
将补0区域用255补齐,得到完整的Yrefine,用Yrefine和Yinit监督物体边界分支。
步骤S7,训练双分支网络,如图3,利用Yinit和Yonline通过CrossEntropy loss监督M,同时可以利用Yinit和Yrefine得到B中不同pixel之间的语义相关性矩阵,利用语义相关性矩阵间接监督B。
将Yinit或Yrefine下采样到B的尺寸(128×128),只考虑具有确定类别标签的像素间的语义相关性并对于B中相关位置的边界置信度进行监督,对于像素p,考虑与其距离不超过10的所有其他像素的类别标签,如果与p相同,则与p组成positive pair,如果不同,就与p组成negative pair,如果拥有不确定标签,不予考虑。对B上两个像素以及它们连线附近像素的边界置信度最大值进行监督,对于positive pair,设定该最大值label为0,对于negative pair,设定该最大值label为1,通过Binary CrossEntropy loss监督这些最大值。总的损失函数为(LCE为CrossEntropy loss,LA为像素间相关性损失):
L=LA(B,Yrefine)+LA(B,Yinit)+LCE(M,Yonline)+LCE(M,Yinit)
具体训练双分支网络时,对输入图片进行[0.5,1.5]scale的随机缩放,随机水平翻转,像素值归一化到[-1,1],再随机裁剪至512×512,裁剪时不足部分用0补齐。将裁剪后的图片输入网络训练,backbone学习率0.0025,所有edge_layer、seg head学习率0.025,batch_size为10,训练19个epoch。
步骤S8,模型训练完成后,对10582幅训练图片,进行水平翻转,放大1.5、2倍,得到6幅图片,输入双分支网络,分割结果和物体边界采用6个结果的平均值Mave、Bave。这时Mave、Bave所有区域都是有效的,类似步骤S6中生成Yonline的方法,基于Bave生成相关性矩阵
Figure BDA0003433395010000161
(生成稀疏相关性矩阵A时考虑距离不超过5的像素对),对Mave进行分数传播,得到训练伪标签。
步骤S9,利用生成的伪标签训练基础语义分割模型(比如deeplab),训练完成后将被识别图片输入语义分割模型,得到图片的语义分割结果。
由上面得技术方案可知,本申请实施例利用图像类别标签训练一个分类模型,利用激活图(CAM)得到训练图片的第一训练标签(初始标签),将其作为监督信号训练一个双分支模型预测物体边界和语义分割结果。在训练双分支模型的过程中,利用物体边界和语义分割预测结果生成第二训练标签(在线标签),监督物体边界和语义分割分支,进行迭代优化。模型训练完成后,利用物体边界和语义分割预测结果生成高质量训练伪标签,训练一个标准的语义分割模型,使用该模型对图片进行语义分割。一方面,网络预测的分割结果比激活图(CAM)更加准确,另一方面,通过迭代优化减少了物体边界中的假正例,有助于前景类别分数传播,因此,最后生成的训练伪标签标记了更加完整的前景区域,使得基于训练伪标签训练的基础语义分割模型分割结果更加精确。
基于相同的发明构思,本发明另一实施例提供了一种弱监督语义分割装置,如图7所示,所述装置包括:
处理模块1,用于获取待识别图片,并将所述待识别图片输入至语义分割模型中,得到所述待识别图片的语义分割结果;
其中,所述语义分割模型是基于训练伪标签,对基础语义分割模型进行训练后得到的;所述训练伪标签是由双分支模型对图片进行识别后得到的;所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的;其中,所述第一训练标签是由分类网络激活图CAM生成的初始标签;所述初始标签包括图片的前景物***置和形状信息;所述第二训练标签是所述双分支模型输出的在线标签;所述在线标签基于语义分割分支预测结果和物体边界检测分支预测结果生成;所述双分支模型由所述语义分割分支和所述物体边界检测分支构成,所述语义分割分支和所述物体边界检测分支共享一个主干分支用于提取图片特征。
本实施例所述的弱监督语义分割装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
基于相同的发明构思,本发明又一实施例提供了一种电子设备,参见图8所述电子设备的结构示意图,具体包括如下内容:处理器801、存储器802、通信接口803和通信总线804;
其中,所述处理器801、存储器802、通信接口803通过所述通信总线804完成相互间的通信;所述通信接口803用于实现各设备之间的信息传输;
所述处理器801用于调用所述存储器802中的计算机程序,所述处理器执行所述计算机程序时实现上述一种弱监督语义分割方法的全部步骤,例如:获取待识别图片,并将所述待识别图片输入至语义分割模型中,得到所述待识别图片的语义分割结果;其中,所述语义分割模型是基于训练伪标签,对基础语义分割模型进行训练后得到的;所述训练伪标签是由双分支模型对图片进行识别后得到的;所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的;其中,所述第一训练标签是由分类网络激活图CAM生成的初始标签;所述初始标签包括图片的前景物***置和形状信息;所述第二训练标签是所述双分支模型输出的在线标签;所述在线标签基于语义分割分支预测结果和物体边界检测分支预测结果生成;所述双分支模型由所述语义分割分支和所述物体边界检测分支构成,所述语义分割分支和所述物体边界检测分支共享一个主干分支用于提取图片特征。
基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述一种弱监督语义分割方法的全部步骤,例如:获取待识别图片,并将所述待识别图片输入至语义分割模型中,得到所述待识别图片的语义分割结果;其中,所述语义分割模型是基于训练伪标签,对基础语义分割模型进行训练后得到的;所述训练伪标签是由双分支模型对图片进行识别后得到的;所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的;其中,所述第一训练标签是由分类网络激活图CAM生成的初始标签;所述初始标签包括图片的前景物***置和形状信息;所述第二训练标签是所述双分支模型输出的在线标签;所述在线标签基于语义分割分支预测结果和物体边界检测分支预测结果生成;所述双分支模型由所述语义分割分支和所述物体边界检测分支构成,所述语义分割分支和所述物体边界检测分支共享一个主干分支用于提取图片特征。此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的弱监督语义分割方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种弱监督语义分割方法,其特征在于,包括:
获取待识别图片,并将所述待识别图片输入至语义分割模型中,得到所述待识别图片的语义分割结果;
其中,所述语义分割模型是基于训练伪标签,对基础语义分割模型进行训练后得到的;所述训练伪标签是由双分支模型对图片进行识别后得到的;所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的;其中,所述第一训练标签是由分类网络激活图CAM生成的初始标签;所述初始标签包括图片的前景物***置和形状信息;所述第二训练标签是所述双分支模型输出的在线标签;所述在线标签基于语义分割分支预测结果和物体边界检测分支预测结果生成;所述双分支模型由所述语义分割分支和所述物体边界检测分支构成,所述语义分割分支和所述物体边界检测分支共享一个主干分支用于提取图片特征。
2.根据权利要求1所述的弱监督语义分割方法,其特征在于,所述CAM是由分类网络模型对图片进行特征识别后得到的;所述分类网络模型是基于图片类别标签进行训练后得到的。
3.根据权利要求1所述的弱监督语义分割方法,其特征在于,所述训练伪标签是由双分支模型对图片进行识别后得到的,包括:
根据所述语义分割分支对图片进行识别后得到的语义分割预测结果,以及根据所述物体边界检测分支对图片进行识别后得到的物体边界结果,得到所述训练伪标签。
4.根据权利要求1所述的弱监督语义分割方法,其特征在于,所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的,包括:
对所述CAM进行处理离线生成第一训练标签;在所述物体边界检测分支生成的物体边界图约束下,采用前景类别分数传播的方式,传播所述语义分割分支生成的初始分割概率图中的前景类别分数,得到修正后分割概率图,基于修正后分割概率图生成第二训练标签;
根据所述第一训练标签和所述第二训练标签,监督训练所述双分支模型中的所述物体边界检测分支和语义分割分支;
基于密集条件随机场dense CRF,对所述初始分割概率图进行处理,得到背景参考标签,并根据背景参考标签修正所述第二训练标签,得到修正后第二训练标签;根据所述第一训练标签和修正后的第二训练标签,监督训练所述双分支模型中的物体边界子模型。
5.根据权利要求3或4所述的弱监督语义分割方法,其特征在于,根据所述语义分割分支对图片进行识别后得到的语义分割预测结果,以及根据所述物体边界子模型对图片进行识别后得到的物体边界结果,得到所述训练伪标签,包括:
在将所述图片进行多尺度缩放和水平翻转后,输入训练后的所述语义分割分支,得到语义分割预测结果,以及,输入训练后的所述物体边界检测分支,得到物体边界结果;
根据所述语义分割预测结果和所述物体边界结果,生成所述训练伪标签。
6.一种弱监督语义分割装置,其特征在于,包括:
处理模块,用于获取待识别图片,并将所述待识别图片输入至语义分割模型中,得到所述待识别图片的语义分割结果;
其中,所述语义分割模型是基于训练伪标签,对基础语义分割模型进行训练后得到的;所述训练伪标签是由双分支模型对图片进行识别后得到的;所述双分支模型是基于第一训练标签和第二训练标签,进行迭代训练后得到的;其中,所述第一训练标签是由分类网络激活图CAM生成的初始标签;所述初始标签包括图片的前景物***置和形状信息;所述第二训练标签是所述双分支模型输出的在线标签;所述在线标签基于语义分割分支预测结果和物体边界检测分支预测结果生成;所述双分支模型由所述语义分割分支和所述物体边界检测分支构成,所述语义分割分支和所述物体边界检测分支共享一个主干分支用于提取图片特征。
7.根据权利要求6所述的弱监督语义分割装置,其特征在于,所述CAM是由分类网络模型对图片进行特征识别后得到的;所述分类网络模型是基于图片类别标签进行训练后得到的。
8.根据权利要求6所述的弱监督语义分割装置,其特征在于,所述处理模块,具体用于:
根据所述语义分割分支对图片进行识别后得到的语义分割预测结果,以及根据所述物体边界检测分支对图片进行识别后得到的物体边界结果,得到所述训练伪标签。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述弱监督语义分割方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述弱监督语义分割方法的步骤。
CN202111602397.8A 2021-12-24 2021-12-24 弱监督语义分割方法、装置、电子设备及存储介质 Pending CN114463335A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111602397.8A CN114463335A (zh) 2021-12-24 2021-12-24 弱监督语义分割方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111602397.8A CN114463335A (zh) 2021-12-24 2021-12-24 弱监督语义分割方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114463335A true CN114463335A (zh) 2022-05-10

Family

ID=81408245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111602397.8A Pending CN114463335A (zh) 2021-12-24 2021-12-24 弱监督语义分割方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114463335A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998595A (zh) * 2022-07-18 2022-09-02 赛维森(广州)医疗科技服务有限公司 弱监督语义分割方法、语义分割方法及可读存储介质
CN115471662A (zh) * 2022-11-03 2022-12-13 深圳比特微电子科技有限公司 语义分割模型的训练方法、识别方法、装置和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998595A (zh) * 2022-07-18 2022-09-02 赛维森(广州)医疗科技服务有限公司 弱监督语义分割方法、语义分割方法及可读存储介质
CN114998595B (zh) * 2022-07-18 2022-11-08 赛维森(广州)医疗科技服务有限公司 弱监督语义分割方法、语义分割方法及可读存储介质
CN115471662A (zh) * 2022-11-03 2022-12-13 深圳比特微电子科技有限公司 语义分割模型的训练方法、识别方法、装置和存储介质

Similar Documents

Publication Publication Date Title
CN108470320B (zh) 一种基于cnn的图像风格化方法及***
WO2020238560A1 (zh) 视频目标跟踪方法、装置、计算机设备及存储介质
US20220165045A1 (en) Object recognition method and apparatus
US11823443B2 (en) Segmenting objects by refining shape priors
CN109726627B (zh) 一种神经网络模型训练及通用接地线的检测方法
EP4099220A1 (en) Processing apparatus, method and storage medium
CN109960742B (zh) 局部信息的搜索方法及装置
CN111902825A (zh) 多边形对象标注***和方法以及训练对象标注***的方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN112308866B (zh) 图像处理方法、装置、电子设备及存储介质
CN113657560B (zh) 基于节点分类的弱监督图像语义分割方法及***
CN114463335A (zh) 弱监督语义分割方法、装置、电子设备及存储介质
US11163989B2 (en) Action localization in images and videos using relational features
CN112927209B (zh) 一种基于cnn的显著性检测***和方法
CN107506792B (zh) 一种半监督的显著对象检测方法
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
CN112861718A (zh) 一种轻量级特征融合人群计数方法及***
CN111028923A (zh) 数字病理图像染色归一化方法、电子装置及存储介质
US20230153965A1 (en) Image processing method and related device
CN114861842B (zh) 少样本目标检测方法、装置和电子设备
CN113569852A (zh) 语义分割模型的训练方法、装置、电子设备及存储介质
WO2024140642A1 (zh) 一种图像处理方法、装置及计算设备
CN115049945A (zh) 一种基于无人机图像的小麦倒伏面积提取方法和装置
CN115471718A (zh) 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法
CN114219757A (zh) 一种基于改进Mask R-CNN的车辆智能定损方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination