CN117079103B - 一种用于神经网络训练的伪标签生成方法及*** - Google Patents

一种用于神经网络训练的伪标签生成方法及*** Download PDF

Info

Publication number
CN117079103B
CN117079103B CN202311331979.6A CN202311331979A CN117079103B CN 117079103 B CN117079103 B CN 117079103B CN 202311331979 A CN202311331979 A CN 202311331979A CN 117079103 B CN117079103 B CN 117079103B
Authority
CN
China
Prior art keywords
boundary
pseudo
input image
pixels
class activation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311331979.6A
Other languages
English (en)
Other versions
CN117079103A (zh
Inventor
石敏
邓伟钊
骆爱文
易清明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202311331979.6A priority Critical patent/CN117079103B/zh
Publication of CN117079103A publication Critical patent/CN117079103A/zh
Application granted granted Critical
Publication of CN117079103B publication Critical patent/CN117079103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及深度学习技术领域,提出一种用于神经网络训练的伪标签生成方法及***,包括以下步骤:将输入图像及其对应的图像级别标签传输至基于残差结构的分类骨干网络进行注意力池化,得到类激活图,以及,将输入图像传输至显著对象检测网络进行区域检测,得到显著性图;融合类激活图与显著性图的各区域特征,合成输入图像的边界伪标签;利用边界伪标签监督边界检测网络的训练,并将输入图像传输至已训练完成的边界检测网络进行边界检测,提取输入图像的边界;利用边界引导类激活图进行细化传播,生成与输入图像相对应的语义分割伪标签。本发明能够大幅降低人工标注像素级标签的成本和时间,提高语义分割伪标签的精度和生成效率。

Description

一种用于神经网络训练的伪标签生成方法及***
技术领域
本发明涉及深度学习技术领域,更具体地,涉及一种用于神经网络训练的伪标签生成方法及***。
背景技术
图像语义分割是将图像中每个像素分配到预定义类别的计算机视觉技术,用于像素级别的图像理解和分析。传统的语义分割方法使用各种特征提取算法捕捉图像的视觉特征,如颜色、纹理、边缘等,然后用机器学习算法如SVM、Random Forest和CRF进行图像分割。近年来,基于深度卷积神经网络的语义分割方法在大规模数据集和高性能计算机的支持下,取得了突破性的进展,成为当前主流的语义分割技术。
全监督语义分割方法能实现像素级别的分类,但人工标注像素级别的标签很耗时耗力,对大规模数据集或实时更新的应用不适合,而且模型泛化能力差,需要不断重新训练。为了节省人力和时间,减少对像素级别标签的依赖,研究人员提出了用弱标签作为监督的语义分割方法,常用的弱标签有图像级别标签,边界框标签,涂鸦标签和点标签等。其中,图像级别标签只给出图像中存在的目标类别,没有位置信息,是最容易标注且成本最低的弱标签,但图像级别标签难以应用于像素级语义分割。
另外,论文《Weakly supervised semantic segmentation with boundaryexploration》提出了用边界检测技术生成边界伪标签,训练边界检测网络探索对象边界,细化类激活图的方法。但由于边界先验信息不足,边界检测网络难以检测完整的对象边界,给类激活图的细化带来了不确定性,生成的语义分割伪标签的效率低且精度低。
发明内容
本发明为克服上述现有技术存在的语义分割伪标签的效率低且精度低的缺陷,提出以下技术方案:
第一个方面,本发明提供一种用于神经网络训练的伪标签生成方法,包括以下步骤:
S1:将输入图像及其对应的图像级别标签传输至基于残差结构的分类骨干网络进行注意力池化,得到类激活图,以及,将所述输入图像传输至显著对象检测网络进行区域检测,得到显著性图。
S2:融合所述类激活图与所述显著性图的各区域特征,合成所述输入图像的边界伪标签。
S3:利用所述边界伪标签监督边界检测网络的训练,并将所述输入图像传输至已训练完成的边界检测网络进行边界检测,提取所述输入图像的边界。
S4:利用所述边界引导所述类激活图进行细化传播,生成与所述输入图像相对应的语义分割伪标签。
第二个方面,本发明还提出一种用于神经网络训练的伪标签生成***,应用于如第一个方面所述的用于神经网络训练的伪标签生成方法,包括:
类激活图获取模块,用于将输入图像及其对应的图像级别标签传输至基于残差结构的分类骨干网络进行注意力池化,得到类激活图。
显著性图获取模块,用于将所述输入图像传输至显著对象检测网络进行区域检测,得到显著性图。
边界伪标签生成模块,用于融合所述类激活图与所述显著性图的各区域特征,合成所述输入图像的边界伪标签。
边界检测模块,用于利用所述边界伪标签监督边界检测网络的训练,并将所述输入图像传输至已训练完成的边界检测网络进行边界检测,提取所述输入图像的边界。
语义分割伪标签生成模块,用于利用所述边界引导所述类激活图进行细化传播,生成与所述输入图像相对应的语义分割伪标签。
与现有技术相比,本发明技术方案的有益效果包括:
(1)利用类激活图和显著性图结合的方式生成边界伪标签,类激活图提供了高置信度且与类别相关的前景区域,同时利用类激活图可以合成少量的边界标签,显著性图提供了高置信度的背景区域,同时可以提供大量前景与背景间的边界,提高边界伪标签的质量和覆盖率。
(2)利用边界伪标签监督训练边界检测网络,能够增强边界检测网络的泛化能力和鲁棒性,使其能够适应不同场景和环境的图像,检测出更加完整的对象边界,提高边界检测的准确性和完整性。最后,利用输入图像的边界和对类激活图进行细化传播处理,能够根据边界信息对类激活图进行修正和优化,大幅降低人工标注像素级标签的成本和时间,提高语义分割伪标签的精度和生成效率。
(3)利用显著性图指导类激活图的生成,使得类激活图能更好的指示对象区域,为边界伪标签的合成和传播提供更可靠的信息,进一步提高语义分割伪标签的精度和生成效率。
附图说明
图1为实施例1中的伪标签生成网络的结构示意图Ⅰ。
图2为实施例1中的伪标签生成网络的结构示意图Ⅱ。
图3为实施例1中的伪标签生成网络的结构示意图Ⅲ。
图4为实施例1中对图1、图2和图3的伪标签生成网络进行优化结合后的伪标签生成网络的结构示意图。
图5为图2的伪标签生成网络结构中在显著性指导下的生成边界伪标签的流程架构图。
图6为实施例1中利用图4的伪标签生成网络生成语义分割伪标签的流程架构图。
图7为本申请实施例所提出的用于神经网络训练的伪标签生成方法的流程图。
图8中的(a)部分表示实施例2中的输入图像Ⅰ,(b)部分表示实施例2中的输入图像Ⅰ对应的真实标签值图,(c)部分表示实施例2中利用A-CAMs合成的边界伪标签图,(d)部分表示实施例2中利用显著性指导合成的边界伪标签图,(e)部分表示实施例2中利用A-CAMs和显著性指导结合合成的边界伪标签图,(f)部分表示实施例2中边界检测网络输出的边界图,(g)部分表示实施例2中输入图像Ⅰ对应生成的语义分割伪标签图。
图9中的(a)部分表示实施例2中输入图像Ⅱ,(b)部分表示实施例2中输入图像Ⅱ对应的真实语义分割标签图,(c)部分表示实施例2中输入图像Ⅱ对应生成的语义分割伪标签图。
图10为实施例3中用于神经网络训练的伪标签生成***的硬件架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本申请的限制;为了更好说明本实施例,附图某些说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种用于神经网络训练的伪标签生成方法。
如图1-5所示,图1、图2和图3分别为三种不同结构的伪标签生成网络的结构示意图,图4为在本申请实施例中对图1、图2和图3的伪标签生成网络进行优化结合后的伪标签生成网络的结构示意图。
在图1中,利用图像级别标签训练分类网络,生成以图像级别标签作为监督信号的第一类激活图(以下称为A-CAMs)以合成边界伪标签,利用合成的边界伪标签作为监督训练边界检测网络,以边界检测网络的输出边界作为约束,传播A-CAMs获得语义分割伪标签。
在图2中,利用图像级别标签训练分类网络,生成A-CAMs。A-CAMs和显著性图结合生成以合成边界伪标签,利用合成的边界伪标签作为监督训练边界检测网络,以边界检测网络的输出边界作为约束,传播A-CAMs获得语义分割伪标签。利用显著性提供的可靠的背景区域信息和前景与背景的边界融合到边界伪标签中,为边界检测网络提供更可靠的监督。如图5所示,图5为图2的伪标签生成网络结构中在显著性指导下的生成边界伪标签的流程架构图,图5生成的边界伪标签内有四部分信息,包括前景信息、背景信息、边界信息和不确定部分。边界伪标签的合成分为两部分,由于类激活图中的背景信息不如显著性图可靠,并且显著性图无法指示前景的中可能存在的类别信息,因此,在边界伪标签中,通过保留类激活图中的前景信息以及显著性图中的背景信息,同时保留二者皆有的边界信息,从视觉效果上看,当结合显著性图之后,合成的边界伪标签更加准确。
在图3中,利用图像级别标签和显著性图共同训练分类网络,生成以图像级别标签和显著性图作为监督信号的第二类激活图(以下称为S-CAMs)以合成边界伪标签,利用合成的边界伪标签作为监督训练边界检测网络,以边界检测网络的输出边界作为约束,传播S-CAMs获得语义分割伪标签。
如图6和图7所示,图6为本申请实施例中利用图4的伪标签生成网络生成语义分割伪标签的流程架构图,图7为本申请实施例所提出的用于神经网络训练的伪标签生成方法的流程图。
本实施例中,用于神经网络训练的伪标签生成方法包括以下步骤:
S1:将输入图像及其对应的图像级别标签传输至基于残差结构的分类骨干网络进行注意力池化,得到类激活图,以及,将所述输入图像传输至显著对象检测网络进行区域检测,得到显著性图。
可选地,在本申请的一个实施例中,将输入图像传输以残差结构堆叠的分类骨干网络进行分类处理,输出定位图。
使用所述图像级别标签对所述定位图的全监督式训练,生成第一类激活图,所采用的损失函数的表达式如下所示:
其中,c为数据集中的类别数,表示sigmoid函数,/>表示分类网络输出的类激活图中像素i属于类别c的概率值。
所采用的损失函数的表达式如下所示:
本实施例中,所采取的基于残差结构的分类骨干网络为基于Resnet50的分类骨干网络。
在具体实施过程中,通过输入一组彩色图像,先进行预处理,通过补充或裁剪完成512×512×3统一尺寸的修改。图6中的第一层输入图像的输入通道数是3,将基于Resnet50的分类骨干网络的最后一层替换为注意力池化层(注意力池化层的下限是全局平均池化层),将彩色图像输入进分类网络之后,输出尺寸为512×512×c的类激活图(c代表了数据集中有c个类别),当只用图像级别标签作为监督信号时,生成的第一类激活图称为A-CAMs;当结合图像级别标签和显著性图作为监督信号时,生成的第二类激活图称为S-CAMs。
S2:融合所述类激活图与所述显著性图的各区域特征,合成所述输入图像的边界伪标签。
可选地,在本申请的一个实施例中,根据下式,利用所述基于类激活图的边界伪标签和所述基于显著性图的边界伪标签/>,生成输入图像的边界伪标签/>
其中,表示像素i属于边界,/>表示像素i属于对象区域,/>表示像素i属于背景区域。
本实施例中,生成所述基于类激活图的边界伪标签的具体步骤包括:
利用指定大小的滑动窗口遍历所述类激活图中的所有像素,并根据下式判断所述类激活图中的每个像素i的所属区域,生成基于类激活图的边界伪标签
其中,表示像素i在类激活图中处于边界,/>和/>分别表示滑动窗口中对象区域像素和背景区域像素的数量,W表示滑动窗口的像素集合,/>表示像素i在类激活图中处于对象区域,/>表示类激活图属于类别c的概率,/>为对象区域的像素阈值,/>表示像素i在类激活图中处于不确定区域。
可以理解的是,由于类激活图指示了少量图像级别标签所代表的对象区域和背景区域,而对象边界存在对象区域和背景区域之间,因此类激活图中的对象区域和背景区域可用于指示边界伪标签的合成。为了实现这一目的,本发明采用滑动窗口的方法,当且仅当窗口内包含相似数量的对象区域像素和背景区域像素时,即认为窗口中心的像素为边界。
本实施例中,生成所述基于显著性图的边界伪标签的具体步骤包括:
使用Sobel算子对所述显著性图进行边缘检测,生成Sobel梯度幅值;
根据所述显著性图中每个像素i所对应的Sobel梯度幅值和显著性幅值/>,利用下式对所述显著性图中的每个像素i分配基于显著性图的边界伪标签/>
其中,表示显著性图中的像素i的Sobel梯度幅值,/>为梯度幅值的预设阈值;表示显著性图中的像素i的显著性幅值;/>表示像素i在显著性图中属于边界;/>表示像素i在显著性图中属于对象区域;/>表示像素i在显著性图中属于背景区域。
本实施例中,根据下式,利用Sobel算子分别计算显著性图的水平方向的梯度和竖直方向的梯度/>
其中,和/>分别为水平方向和竖直方向的Sobel梯度算子,/>为显著性图;
根据下式,利用水平方向梯度和竖直方向梯度/>计算显著性图的Sobel梯度幅值/>
可以理解的是,正确的边界标签应包含完整的对象边界,然而,通过类激活图只能合成少量的边界伪标签,和对应类别的可靠对象区域。通过观察可知,显著性图中的显著性区域通常代表了对象区域,非显著性区域通常代表背景,但由于没有明确的类别信息,因而显著性区域不可用;除此以外,从显著性图中还可以推出显著性区域和非显著性区域的边界,这与对象的边界高度重合。本实施例使用Sobel算子来提取显著性区域和非显著性区域的边界。
S3:利用所述边界伪标签监督边界检测网络的训练,并将所述输入图像传输至已训练完成的边界检测网络进行边界检测,提取所述输入图像的边界。
可选地,在本申请的一个实施例中,所述利用所述边界伪标签监督边界检测网络的训练,具体包括:利用损失函数对所述边界检测网络进行训练,所述损失函数/>通过下式进行计算获得:
其中,表示前景像素和背景像素的损失函数,/>表示边界像素的损失函数,/>和/>分别表示边界伪标签中的前景像素和背景像素的集合,/>表示所述边界检测网络输出的像素i属于边界的概率值;/>分别表示边界伪标签中属于显著性区域的边界像素和属于非显著区域的边界像素。
可以理解的是,由于合成的边界像素并不代表准确的对象边界,因此在计算边界项的损失函数时,为其添加了参数/>,/>的非线性特性使得边界检测网络对边界像素的预测的变化更加敏感。因此,当像素i在边界伪标签中被认为是边界像素,而其在边界网络输出中边界概率预测值/>较低,降低该像素在损失函数中的贡献权重。由于从显著性图中提取的边界并不一定准确,本实施例采用两种方法解决边界像素不准确的问题,一是边界项乘以/>,使得边界检测网络对边界像素的预测的变化更加敏感,对于预测为非边界的像素,若其在边界伪标签被定义为边界,则降低该像素对于损失函数的贡献权重,以减少不准确的边界伪标签带来的负面影响,二是将边界伪标签中显著性区域内的边界像素和非显著性区域的边界像素分别激活,由于提取的对象边界的不确定性,正确的对象边界可能存在于显著性区域内,也可能存在于非显著性区域内,对于这两种可能性,本实施例提出的策略对二者分别进行激活,以避免不准确的边界像素对网络训练的负面影响。
本实施例中,边界检测网络选用以Resnet50为骨干网络的分类网络,输入一组彩色图片(数量自定),先进行预处理,通过补充或裁剪完成512×512×3统一尺寸的修改。第一层输入的图像的输入通道数是3,将彩色图像输入进分类网络之后,输出尺寸为128×128×1的边界预测图,然后利用边界预测图和合成的边界伪标签计算损失函数。
S4:利用所述边界引导所述类激活图进行细化传播,生成与所述输入图像相对应的语义分割伪标签。
本实施例中,S4的具体步骤包括:
S4.1:将所述边界转化为语义亲和力矩阵。
S4.2:根据所述语义亲和力矩阵,使用Random Walk算法对类激活图进行细化传播处理,生成语义分割伪标签。
在具体实施过程中,以边界检测网络输出的边界为约束,将其转化为语义亲和力矩阵,使用Random Walk算法对类激活图进行传播细化。另外,在将dCRF(密集条件随机场)应用于传播细化过程时,可进一步提高语义分割伪标签的质量。
可以理解的是,利用类激活图和显著性图结合的方式生成边界伪标签,类激活图提供了高置信度且与类别相关的前景区域,同时利用类激活图可以合成少量的边界标签,显著性图提供了高置信度的背景区域,同时可以提供大量前景与背景间的边界,提高边界伪标签的质量和覆盖率。另外,利用边界伪标签监督训练边界检测网络,能够增强边界检测网络的泛化能力和鲁棒性,使其能够适应不同场景和环境的图像,检测出更加完整的对象边界,提高边界检测的准确性和完整性。最后,利用输入图像的边界和对类激活图进行细化传播处理,能够根据边界信息对类激活图进行修正和优化,大幅降低人工标注像素级标签的成本和时间,提高语义分割伪标签的精度和生成效率。最后,利用显著性图指导类激活图的生成,使得类激活图能更好的指示对象区域,为边界伪标签的合成和传播提供更可靠的信息,进一步提高语义分割伪标签的精度和生成效率。
本实施例中,通过在 PASCAL VOC 2012和 MS COCO 2014两个数据集上进行了大量实验,对比基础网络,其生成的伪标签的mIoU仅有66.4%,即使在经过dCRF的处理后,也仅取得67.2%,而单独结合本发明提出的显著性指导的边界伪标签合成策略时,生成的伪标签mIoU达到66.9%和67.9%(+dCRF);当单独结合本发明提出的边界检测网络训练策略时,生成的伪标签mIoU达到67.2%和67.6%(+dCRF);当同时结合两种策略时,生成的伪标签mIoU达到69.8%和70.4%(+dCRF),相对于基础网络有极大地提升;当在类激活图的生成过程也加入显著性信息的指导时,生成的伪标签mIoU达到73.8%和74.1%(+dCRF),远远超过了基础网络。
实施例2
本实施例应用实施例1提出的用于神经网络训练的伪标签生成方法进行具体的实施验证。
本实施例采用PASCAL VOC 2012数据集和 MS COCO 2014数据集进行实验验证,其中PASCAL VOC 2012数据集包含包括背景在内的21类图像,在MS COCO 2014数据集包含包括背景在内的81类图像。具体来说,对于PASCAL VOC 2012数据集,本实施例使用10582张图像作为训练集,1464张图像作为验证集,1456张图像作为测试集。对于MS COCO 2014数据集,本实施例排除了没有类别的图像,使用82081张图像用于训练,40137 张图像用于验证。在实验中的伪标签生成阶段,来自上述两个数据集的输入图像大小均设置为 512×512×3。
作为示例性说明,在类激活图生成过程中,对于A-CAMs,批量单位Batch Size=16,5轮迭代之后结果趋向基本平稳/收敛,对于S-CAMs,批量单位Batch Size=16,10轮迭代之后结果趋向基本平稳/收敛。在边界检测网络的训练过程中,批量单位Batch Size=16,3轮迭代之后结果趋向基本平稳/收敛。在语义分割伪标签生成过程中,完成边界检测网络训练后,对每一张训练集的图片输入进网络生成其边界图,以网络输出的边界为约束,对类激活图以Random Walk算法进行标签的传播,从而生成语义分割伪标签。监督训练网络模型采用以ResNet-101或VGG-16为骨干网络的DeepLab-v1和DeepLab-v2。
表1 在PASCAL VOC 2012训练集上生成的伪标签实验结果
表2 不同类激活图在PASCAL VOC 2012训练集上生成的伪标签实验结果
表3 基于A-CAMs策略的伪标签生成方法在PASCAL VOC 2012关于取值的伪标签消融实验结果(mIoU值)
表4 基于 S-CAMs策略的伪标签生成方法在PASCAL VOC 2012关于取值的伪标签消融实验结果(mIoU值)
如表1所示,相对于基准模型而言,在使用本发明的方法合成边界伪标签时,在PASCAL VOC 2012训练集上生成的语义分割伪标签的精度提高了0.7%。采用本发明提出的显著性指导的边界检测训练策略时,生成的语义分割伪标签的精度提高了0.4%。当两种方法同时结合使用时,生成的语义分割伪标签的精度达到了70.4%,比基准模型高3.2%。如表2所示,当同样采用显著性信息指导类激活图的生成时,在PASCAL VOC 2012训练集上生成的语义分割伪标签精度达到了74.1%,远远超过了基准模型的67.2%。
表3和表4展示了的不同取值下对模型性能的影响,可以看出,当/>取0,即不对通过显著性合成的边界进行筛选时,边界可能包含了不相关的信息或噪声,从而引入错误的边界标签,影响了模型对图像中边界的准确识别,导致模型性能表现较差。当对边界进行筛选后,即/>取值0.25到1.5时,模型的性能表现非常稳定。
表5 在PASCAL VOC 2012验证集和测试集上的全监督语义分割实验结果(mIoU值)
表6 在PASCAL VOC 2012验证集上的全监督学***均准确率以及像素准确率结果
表7 在MS COCO 2014验证集上的全监督语义分割mIoU实验结果
为了进一步研究了生成的语义分割伪标签的性能,本实施例对PASCAL VOC 2012数据集和MS COCO 2014数据集生成了语义分割伪标签,并将其代替真实标签对DeepLab-v1和DeepLab-v2进行全监督学***均交并比),平均准确率以及像素准确率结果。
如图8所示,图8中的(a)部分表示输入图像Ⅰ,(b)部分表示输入图像Ⅰ对应的真实标签值图,(c)部分表示利用A-CAMs合成的边界伪标签图,(d)部分表示利用显著性指导合成的边界伪标签图,(e)部分表示利用A-CAMs和显著性指导结合合成的边界伪标签图,(f)部分表示边界检测网络输出的边界图,(g)部分表示输入图像Ⅰ对应生成的语义分割伪标签图。
从图8中可以观察到,仅使用类激活图合成的边界伪标签包含的边界像素较少,难以为边界检测网络提供可靠的监督。而显著性图提供了丰富的边界信息。当这两者结合时,能为边界检测网络的训练提供十分可靠的监督,如图8的(f)部分所示。经过训练后,网络能够正确识别大量完整的边界信息,为下一步的语义分割伪标签生成提供可靠的约束。
如图9所示,其为本实施例在PASCAL VOC 2012数据集上生成的语义分割伪标签的结果对比图,其中图9的(a)部分表示输入图像Ⅱ,(b)部分表示输入图像Ⅱ对应的真实语义分割标签图,(c)部分表示输入图像Ⅱ对应生成的语义分割伪标签图,通过实验证明,本发明提出的方法在减少人工标注工作量的同时,能够有效地生成准确的语义分割伪标签。综上,本发明可以使用更少的人力资源和时间来完成大规模的语义分割任务。实验结果还表明,通过使用伪标签进行训练,最终得到的语义分割模型取得了较高的准确度。
实施例3
本实施例提出一种用于神经网络训练的伪标签生成***,应用实施例1提出的用于神经网络训练的伪标签生成方法。
图10是本申请实施例的用于神经网络训练的伪标签生成***的硬件架构图。
如图10所示,该伪标签生成***包括:类激活图获取模块100、显著性图获取模块200、边界伪标签生成模块300、边界检测模块400和语义分割伪标签生成模块500。
其中,类激活图获取模块100用于将输入图像及其对应的图像级别标签传输至基于残差结构的分类骨干网络进行注意力池化,得到类激活图;显著性图获取模块200用于将所述输入图像传输至显著对象检测网络进行区域检测,得到显著性图;边界伪标签生成模块300用于融合所述类激活图与所述显著性图的各区域特征,合成所述输入图像的边界伪标签;边界检测模块400用于利用所述边界伪标签监督边界检测网络的训练,并将所述输入图像传输至已训练完成的边界检测网络进行边界检测,提取所述输入图像的边界;语义分割伪标签生成模块500用于利用所述边界引导所述类激活图进行细化传播,生成与所述输入图像相对应的语义分割伪标签。
需要说明的是,前述对用于神经网络训练的伪标签生成方法实施例的解释说明也适用于该实施例的用于神经网络训练的伪标签生成***,此处不再赘述。
可以理解的是,本申请实施例所提出的用于神经网络训练的伪标签生成***,利用类激活图和显著性图结合的方式生成边界伪标签,类激活图提供了高置信度且与类别相关的前景区域,同时利用类激活图可以合成少量的边界标签,显著性图提供了高置信度的背景区域,同时可以提供大量前景与背景间的边界,提高边界伪标签的质量和覆盖率。另外,利用边界伪标签监督训练边界检测网络,能够增强边界检测网络的泛化能力和鲁棒性,使其能够适应不同场景和环境的图像,检测出更加完整的对象边界,提高边界检测的准确性和完整性。最后,利用输入图像的边界和对类激活图进行细化传播处理,能够根据边界信息对类激活图进行修正和优化,大幅降低人工标注像素级标签的成本和时间,提高语义分割伪标签的精度和生成效率。最后,利用显著性图指导类激活图的生成,使得类激活图能更好的指示对象区域,为边界伪标签的合成和传播提供更可靠的信息,进一步提高语义分割伪标签的精度和生成效率。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种用于神经网络训练的伪标签生成方法,其特征在于,包括以下步骤:
S1:将输入图像及其对应的图像级别标签传输至基于残差结构的分类骨干网络进行注意力池化,得到类激活图,以及,将所述输入图像传输至显著对象检测网络进行区域检测,得到显著性图;
S2:融合所述类激活图与所述显著性图的各区域特征,合成所述输入图像的边界伪标签;
其中,根据下式,利用基于类激活图的边界伪标签和基于显著性图的边界伪标签/>,生成输入图像的边界伪标签/>
其中,表示像素i属于边界,/>表示像素i属于对象区域,/>表示像素i属于背景区域;
生成所述基于类激活图的边界伪标签的具体步骤包括:
利用指定大小的滑动窗口遍历所述类激活图中的所有像素,并根据下式判断所述类激活图中的每个像素i的所属区域,生成基于类激活图的边界伪标签
其中,表示像素i在类激活图中处于边界,/>和/>分别表示滑动窗口中对象区域像素和背景区域像素的数量,W表示滑动窗口的像素集合,/>表示像素i在类激活图中处于对象区域,/>表示类激活图中像素i属于类别c的概率,/>为对象区域的像素阈值,/>表示像素i在类激活图中处于不确定区域;
生成所述基于显著性图的边界伪标签的具体步骤包括:
使用Sobel算子对所述显著性图进行边缘检测,生成Sobel梯度幅值;
根据所述显著性图中每个像素i所对应的Sobel梯度幅值和显著性幅值/>,利用下式对所述显著性图中的每个像素i分配基于显著性图的边界伪标签/>
其中,表示显著性图中的像素i的Sobel梯度幅值,/>为梯度幅值的预设阈值;/>表示显著性图中的像素i的显著性幅值;/>表示像素i在显著性图中属于边界;/>表示像素i在显著性图中属于对象区域;/>表示像素i在显著性图中属于背景区域;
S3:利用所述边界伪标签监督边界检测网络的训练,并将所述输入图像传输至已训练完成的边界检测网络进行边界检测,提取所述输入图像的边界;
S4:利用所述边界引导所述类激活图进行细化传播,生成与所述输入图像相对应的语义分割伪标签。
2.根据权利要求1所述的用于神经网络训练的伪标签生成方法,其特征在于,
所述使用Sobel算子对所述显著性图进行边缘检测,生成Sobel梯度幅值,具体包括:
根据下式,利用Sobel算子分别计算显著性图的水平方向的梯度和竖直方向的梯度
其中,和/>分别为水平方向和竖直方向的Sobel梯度算子,/>为显著性图;
根据下式,利用水平方向梯度和竖直方向梯度/>计算显著性图的Sobel梯度幅值
3.根据权利要求1所述的用于神经网络训练的伪标签生成方法,其特征在于,
S3中,所述利用所述边界伪标签监督边界检测网络的训练,具体包括:利用损失函数对所述边界检测网络进行训练,所述损失函数/>通过下式进行计算获得:
其中,表示前景像素和背景像素的损失函数,/>表示边界像素的损失函数,/>和/>分别表示边界伪标签中的前景像素和背景像素的集合,/>表示所述边界检测网络输出的像素i属于边界的概率值;/>和/>分别表示边界伪标签中属于显著性区域的边界像素和属于非显著区域的边界像素。
4.根据权利要求1所述的用于神经网络训练的伪标签生成方法,其特征在于,S1中,将输入图像及其对应的图像级别标签传输至基于残差结构的分类骨干网络进行注意力池化,得到类激活图的具体步骤包括:
将输入图像传输以残差结构堆叠的分类骨干网络进行分类处理,输出定位图;
使用所述图像级别标签对所述定位图的全监督式训练,生成第一类激活图;
使用所述图像级别标签和所述显著性图对定位图的全监督式训练,生成第二类激活图。
5.根据权利要求4所述的用于神经网络训练的伪标签生成方法,其特征在于,
使用所述图像级别标签对所述定位图的全监督式训练时,所采用的损失函数的表达式如下所示:
其中,c为数据集中的类别数,表示sigmoid函数,/>表示分类网络输出的类激活图中像素i属于类别c的概率值;
使用所述图像级别标签和所述显著性图对定位图的全监督式训练时,所采用的损失函数的表达式如下所示:
6.根据权利要求1~5任一项所述的用于神经网络训练的伪标签生成方法,其特征在于,S4中,利用所述边界引导所述类激活图进行细化传播,生成与所述输入图像相对应的语义分割伪标签,具体的步骤包括:
S4.1:将所述边界转化为语义亲和力矩阵;
S4.2:根据所述语义亲和力矩阵,使用Random Walk算法对所述类激活图进行细化传播处理,生成语义分割伪标签。
7.一种用于神经网络训练的伪标签生成***,应用于权利要求1~6任一项所述的用于神经网络训练的伪标签生成方法,其特征在于,包括:
类激活图获取模块,用于将输入图像及其对应的图像级别标签传输至基于残差结构的分类骨干网络进行注意力池化,得到类激活图;
显著性图获取模块,用于将所述输入图像传输至显著对象检测网络进行区域检测,得到显著性图;
边界伪标签生成模块,用于融合所述类激活图与所述显著性图的各区域特征,合成所述输入图像的边界伪标签;
边界检测模块,用于利用所述边界伪标签监督边界检测网络的训练,并将所述输入图像传输至已训练完成的边界检测网络进行边界检测,提取所述输入图像的边界;
语义分割伪标签生成模块,用于利用所述边界引导所述类激活图进行细化传播,生成与所述输入图像相对应的语义分割伪标签。
CN202311331979.6A 2023-10-16 2023-10-16 一种用于神经网络训练的伪标签生成方法及*** Active CN117079103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311331979.6A CN117079103B (zh) 2023-10-16 2023-10-16 一种用于神经网络训练的伪标签生成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311331979.6A CN117079103B (zh) 2023-10-16 2023-10-16 一种用于神经网络训练的伪标签生成方法及***

Publications (2)

Publication Number Publication Date
CN117079103A CN117079103A (zh) 2023-11-17
CN117079103B true CN117079103B (zh) 2024-01-02

Family

ID=88713751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311331979.6A Active CN117079103B (zh) 2023-10-16 2023-10-16 一种用于神经网络训练的伪标签生成方法及***

Country Status (1)

Country Link
CN (1) CN117079103B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3171297A1 (en) * 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及***
CN111832573A (zh) * 2020-06-12 2020-10-27 桂林电子科技大学 一种基于类激活映射和视觉显著性的图像情感分类方法
CN113436204A (zh) * 2021-06-10 2021-09-24 中国地质大学(武汉) 一种高分辨率遥感影像弱监督建筑物提取方法
CN115393598A (zh) * 2022-10-31 2022-11-25 南京理工大学 一种基于非显著区域对象挖掘的弱监督语义分割方法
CN115512169A (zh) * 2022-11-09 2022-12-23 之江实验室 基于梯度和区域亲和力优化的弱监督语义分割方法及装置
CN115546490A (zh) * 2022-11-23 2022-12-30 南京理工大学 一种基于显著性引导的弱监督语义分割方法
CN115546466A (zh) * 2022-09-28 2022-12-30 北京工业大学 一种基于多尺度显著特征融合的弱监督图像目标定位方法
WO2023077816A1 (zh) * 2021-11-03 2023-05-11 中国华能集团清洁能源技术研究院有限公司 边界优化的遥感图像语义分割方法、装置、设备及介质
CN116681903A (zh) * 2023-06-06 2023-09-01 大连民族大学 基于互补融合伪标签的弱监督显著性目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410353B2 (en) * 2017-05-18 2019-09-10 Mitsubishi Electric Research Laboratories, Inc. Multi-label semantic boundary detection system

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3171297A1 (en) * 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及***
CN111832573A (zh) * 2020-06-12 2020-10-27 桂林电子科技大学 一种基于类激活映射和视觉显著性的图像情感分类方法
CN113436204A (zh) * 2021-06-10 2021-09-24 中国地质大学(武汉) 一种高分辨率遥感影像弱监督建筑物提取方法
WO2023077816A1 (zh) * 2021-11-03 2023-05-11 中国华能集团清洁能源技术研究院有限公司 边界优化的遥感图像语义分割方法、装置、设备及介质
CN115546466A (zh) * 2022-09-28 2022-12-30 北京工业大学 一种基于多尺度显著特征融合的弱监督图像目标定位方法
CN115393598A (zh) * 2022-10-31 2022-11-25 南京理工大学 一种基于非显著区域对象挖掘的弱监督语义分割方法
CN115512169A (zh) * 2022-11-09 2022-12-23 之江实验室 基于梯度和区域亲和力优化的弱监督语义分割方法及装置
CN115546490A (zh) * 2022-11-23 2022-12-30 南京理工大学 一种基于显著性引导的弱监督语义分割方法
CN116681903A (zh) * 2023-06-06 2023-09-01 大连民族大学 基于互补融合伪标签的弱监督显著性目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于显著性背景引导的弱监督语义分割网络;白雪飞等;模式识别与人工智能;第第34卷卷(第第9期期);第824-834页 *

Also Published As

Publication number Publication date
CN117079103A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
US10354392B2 (en) Image guided video semantic object segmentation method and apparatus
CN110276264B (zh) 一种基于前景分割图的人群密度估计方法
CN111985376A (zh) 一种基于深度学习的遥感影像舰船轮廓提取方法
CN113989604B (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN111553414A (zh) 一种基于改进Faster R-CNN的车内遗失物体检测方法
CN112488229A (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
CN111461121A (zh) 一种基于yolov3网络的电表示数识别方法
CN113705579A (zh) 一种视觉显著性驱动的图像自动标注方法
CN112287906A (zh) 一种基于深度特征融合的模板匹配跟踪方法及***
CN117011381A (zh) 基于深度学习和立体视觉的实时手术器械位姿估计方法与***
CN117437647B (zh) 基于深度学习和计算机视觉的甲骨文字检测方法
CN117437423A (zh) 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置
CN116310293B (zh) 一种基于弱监督学习的生成高质量候选框目标检测方法
CN117079103B (zh) 一种用于神经网络训练的伪标签生成方法及***
CN110889418A (zh) 一种气体轮廓识别方法
CN116681961A (zh) 基于半监督方法和噪声处理的弱监督目标检测方法
CN117292217A (zh) 一种基于对抗生成网络的皮肤分型数据增广方法与***
CN114943869B (zh) 风格迁移增强的机场目标检测方法
CN113920254B (zh) 一种基于单目rgb的室内三维重建方法及其***
CN114067359B (zh) 融合人体关键点与可见部位注意力特征的行人检测方法
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
Huang et al. A Stepwise Refining Image-Level Weakly Supervised Semantic Segmentation Method for Detecting Exposed Surface for Buildings (ESB) From Very High-Resolution Remote Sensing Images
CN114639013A (zh) 基于改进Orient RCNN模型的遥感图像飞机目标检测识别方法
CN114445649A (zh) 用多尺度超像素融合检测rgb-d单幅图像阴影的方法
CN113569835A (zh) 一种基于目标检测和分割识别的水表数值读取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant