CN114187308A - 基于多尺度池化金字塔的HRNet自蒸馏目标分割方法 - Google Patents

基于多尺度池化金字塔的HRNet自蒸馏目标分割方法 Download PDF

Info

Publication number
CN114187308A
CN114187308A CN202111540428.1A CN202111540428A CN114187308A CN 114187308 A CN114187308 A CN 114187308A CN 202111540428 A CN202111540428 A CN 202111540428A CN 114187308 A CN114187308 A CN 114187308A
Authority
CN
China
Prior art keywords
distillation
self
hrnet
loss
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111540428.1A
Other languages
English (en)
Inventor
郑云飞
曹铁勇
杨吉斌
张雄伟
王晓兵
方正
孙蒙
赵斐
李莉
邓小桐
王杨
邢立新
李臣明
陶海军
陈卫国
于远鹏
高波
章乐贵
王勇
邢浩
赖远明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
PLA Army Academy of Artillery and Air Defense
Original Assignee
Army Engineering University of PLA
PLA Army Academy of Artillery and Air Defense
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA, PLA Army Academy of Artillery and Air Defense filed Critical Army Engineering University of PLA
Priority to CN202111540428.1A priority Critical patent/CN114187308A/zh
Publication of CN114187308A publication Critical patent/CN114187308A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法,该方法包括:将多尺度池化金字塔模块分别与HRNet的分支特征、输出特征级联,获得4组分支蒸馏特征和1组输出端蒸馏特征,提升HRNet的特征表示能力;构建自蒸馏学习结构,包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构,保证分支结构优化方向的一致性和正确性;将HRNet的原始分割网络作为基准模型,在基准模型上构建自蒸馏学习结构,融合KL散度、交叉墒损失、结构化相似性损失构成自蒸馏学习损失函数进行模型训练,实现更准确的自蒸馏学习,采用训练好的模型获得图像目标分割结果。本发明有效提升了HRNet基准模型的目标分割性能。

Description

基于多尺度池化金字塔的HRNet自蒸馏目标分割方法
技术领域
本发明属于计算机视觉及机器学习技术领域,特别是一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法。
背景技术
知识蒸馏能将大规模网络的表征能力迁移到小规模网络,提升轻量型网络的分类、回归性能,主要用于深度神经网络的轻量化处理。
目前,已有许多科研机构从事知识蒸馏方法研究,如Zhang等人(Zhang L.,etal.Be Your Own Teacher:Improve the Performance of Convolutional NeuralNetworks via Self Distillation[C].IEEE International Conference on ComputerVision,2019)提取残差网络不同层特征,将深层特征作为蒸馏教师端、将浅层特征作为学生端,构建自蒸馏学习结构,结合Softmax和交叉墒损失进行蒸馏学习,提升残差网络的图像分类性能。Yang等人(Yang C.,et al.,Snapshot Distillation:Teacher-StudentOptimization in One Generation[C].IEEE Conference on Computer Vision andPattern Recognition,2019)在网络训练过程中,将上一轮生成的网络作为教师网络,将当前轮学习过程中的网络作为学生端,构建蒸馏结构,利用KL散度进行蒸馏学习,提升网络的图像分类性能。Li等人(Duo L.et al.,Dynamic Hierarchical Mimicking TowardsConsistent Optimization Objectives[C].IEEE Conference on Computer Vision andPattern Recognition,2020)提取残差网络不同层特征,将不同层特征互相视为蒸馏教师端与学生端,构建一致性蒸馏结构,利用KL散度进行自蒸馏学习提升网络的图像分类性能。上述自蒸馏学习方法主要面向图像分类任务,抽取深度神经网络不同层的特征,利用KL散度、交叉墒等损失函数实现蒸馏学习,提升网络的性能,但是针对目标分割任务的自蒸馏学习方法研究较少。
发明内容
本发明的目的在于提供一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法,在不增加HRNet网络参数的条件下提升目标分割性能。
实现本发明目的的技术解决方案为:一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法,包括:
步骤1、将多尺度池化金字塔模块分别与HRNet的分支特征、输出特征级联,获得4组分支蒸馏特征和1组输出端蒸馏特征;
步骤2、构建自蒸馏学习结构,所述自蒸馏学习结构包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构;
步骤3、将HRNet的原始分割网络作为基准模型,在基准模型上构建自蒸馏学习结构,融合KL散度、交叉墒损失、结构化相似性损失构成自蒸馏学习损失函数进行模型训练,采用训练好的模型获得图像目标分割结果。
本发明与现有技术相比,其显著优点为:(1)将多尺度池化金字塔结构与HRNet四组子分支特征分别级联,提升了HRNet的特征表示能力;(2)采用自蒸馏学习结构,融合一致性蒸馏与自下而上蒸馏两种模式,保证了分支结构优化方向的一致性和正确性;(3)在KL散度、交叉墒损失基础上融入结构化相似性损失,实现更准确地自蒸馏学习;(4)通过在4个公开数据集上的实验,验证了本发明能在不增加参数规模的前提下提升HRNet的目标分割性能。
附图说明
图1是本发明的自蒸馏学习总体结构图。
图2是本发明中分支一致性蒸馏结构图。
图3是本发明中自下而上蒸馏结构图。
图4是本发明中多尺度池化金字塔特征表示结构图。
具体实施方式
本发明实现了一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法,包括:
步骤1、将多尺度池化金字塔模块分别与HRNet的分支特征、输出特征级联,获得4组分支蒸馏特征和1组输出端蒸馏特征;
步骤2、构建自蒸馏学习结构,所述自蒸馏学习结构包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构;
步骤3、将HRNet的原始分割网络作为基准模型,在基准模型上构建自蒸馏学习结构,融合KL散度、交叉墒损失、结构化相似性损失构成自蒸馏学习损失函数进行模型训练。
步骤4:训练完成后,移除用于训练的自蒸馏表示结构,仅采用训练好的HRNet基础网络进行目标分割,获得图像目标分割结果。
进一步地,步骤1所述将多尺度池化金字塔模块分别与HRNet的分支特征、输出特征级联,获得4组分支蒸馏特征和1组输出端蒸馏特征,具体如下:
(1)对于一个分支蒸馏特征,网络结构包括顺次设置的卷积层Subconv、多尺度池化金字塔模块PSPModule、卷积层Score、Sub softmax层,所述卷积层Subconv的四个参数分别为卷积核宽、卷积核高、输入通道数、输出通道数,多尺度池化金字塔模块PSPModule1的两个参数分别为输入通道数、输出通道数;
(2)对于输出端蒸馏特征,网络结构包括顺次设置的级联层Concat、多尺度池化金字塔模块PSPModule、卷积层Score、Sub softmax层。
进一步地,所述多尺度池化金字塔模块PSPModule,具体如下:
设定输入特征InFeat大小为h×w×n,h表示高、w表示宽、n表示通道数,多尺度池化金字塔模块PSPModule的具体结构为:输入特征InFeat→并行四路池化特征提取层→级联层→卷积层→输出特征OutFeat;其中,输出特征OutFeat大小为h×w×n;
四路池化特征提取层结构中的第一路结构为:池化层1×1→卷积层1×1×n×n→归一化层→双线性插值层h×w×n→池化特征;四路池化特征提取层区别在于池化层的参数不同,其他三路的池化层参数分别为2×2、3×3、6×6。
进一步地,步骤2中自蒸馏学习结构包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构,其中:
分支一致性蒸馏学习结构:将HRNet的4组分支蒸馏特征分别作为教师端和学生端,共生成12组蒸馏对;
自下而上蒸馏学习结构:将HRNet的输出端蒸馏特征作为教师端,将4组分支蒸馏特征分别作为学生端,生成4组蒸馏对;
融合以上16组蒸馏对构成自蒸馏学习结构。
进一步地,步骤3所述融合KL散度、交叉墒损失、结构化相似性损失构成自蒸馏学习损失函数进行模型训练,具体如下:
给定训练数据集D={(xi,yi)|i=1,2,...,N},其中xi表示数据集中第i个图像数据,N为数据集包含的图像数量,yi∈(1,...,K)表示对应的像素级标注图,K为预测类别数量;Wm为网络主体的权重矩阵,
Figure BDA0003414095850000031
为自蒸馏结构中的辅助分类网络权重矩阵,M为辅助分类网络个数,且将辅助分类网络在总体网络中连接的具***置记为A={ai|i=1,2,...,M};
自蒸馏学习的总体损失函数表示为:
Figure BDA0003414095850000032
式(1)中Lm为网络主体的交叉墒损失函数:
Figure BDA0003414095850000041
Figure BDA0003414095850000042
式(1)中Ls为自蒸馏网络的预测结果相对于标注图产生的预测损失,即交叉墒损失与结构化相似性损失的融合,具体如下:
Figure BDA0003414095850000043
其中第一项为KL散度损失,具体如式(5)所示,第二项为结构化相似性损失具体如公式(6)所示:
Figure BDA0003414095850000044
Figure BDA0003414095850000045
式(6)中SSIM(*,*)为结构化相似相度量,用图像区域的亮度、对比度、结构差异度量两幅图像的结构化差异;
Figure BDA0003414095850000046
简写为fk(xi),式(6)中结构化相似性具体为:
Figure BDA0003414095850000047
其中
Figure BDA0003414095850000048
分别为
Figure BDA0003414095850000049
和fk(xi)的均值,
Figure BDA00034140958500000410
分别为
Figure BDA00034140958500000411
和fk(xi)的标准差,
Figure BDA00034140958500000412
Figure BDA00034140958500000413
和fk(xi)之间的协方差;C1=0.012、C2=0.032为两个常数;
式(1)中Lk为自蒸馏结构的蒸馏损失,具体如式(8)所示,第一项为两个蒸馏辅助分类器输出的KL散度损失,其中KL(*)为KL距离;第二项为两者的结构化相似性损失,λ1、λ2为两个权重参数,分别设置为0.8、0.2,
Figure BDA00034140958500000414
本发明上述各步骤具有以下特点:
(1)特征提取。将多尺度池化金字塔结构与HRNet四组子分支特征分别级联,提升HRNet的特征表示能力。
(2)自蒸馏学习结构:融合一致性蒸馏与自下而上蒸馏两种模式。一致性蒸馏将4个子分支分别作为蒸馏教师端和学生端共生成12组蒸馏对,保证分支结构优化方向的一致性。自下而上蒸馏将HRNet的合成输出端作为教师端,将4个分支输出端分别作为学生端组成4组蒸馏对,保证分支结构优化方向的正确性。
(3)自蒸馏学习损失。在KL散度、交叉墒损失基础上融入结构化相似性损失,实现更准确地自蒸馏学习。自蒸馏训练的目标函数包含4组分支的蒸馏损失和分割损失、主分支的蒸馏损失和分割损失。蒸馏损失包括了每组蒸馏对生成的目标类别概率间的KL散度和结构化相似性损失组成。分割损失包括了蒸馏特征生成的目标类别概率与标注图间的交叉墒损失和结构化相似性损失。
下面结合附图及具体实施例对本发明做进一步详细描述。
实施例
结合图1对本发明的实现步骤做进一步的描述。
步骤1,特征提取。如图1所示,Subconv1、Subconv2、Subconv3、Subconv4为HRNet四个子分支,四个子分支通过级联层合并生成最终输出特征。本发明在四个分支和输出端基础上构建多尺度池化金字塔获取蒸馏特征。具体结构如下:
(1)对于一个分支端(如Subconv1),获取其蒸馏特征的网络结构为:卷积层Subconv1(3×3×48×48,四个参数分别为卷积核宽、卷积核高、输入通道数、输出通道数)→多尺度池化金字塔模块PSPModule1(48×48,两个参数分别为输入通道数、输出通道数)→卷积层Score1(1×1×48×2)→Sub1 softmax层→分支1蒸馏特征。其他三个分支的蒸馏特征与以上结构类似,具体如图1所示。
(2)对于输出端特征,获取其蒸馏特征的网络结构为:级联层Concat→多尺度池化金字塔模块PSPModule0(720×48)→卷积层Score0(1×1×48×2)→Sub0 softmax层→输出端蒸馏特征。
蒸馏结构中的多尺度池化金字塔模块的结构如图2所示。如输入特征InFeat大小为h(高)×w(宽)×n(通道数),多尺度池化金字塔模块的具体结构为:输入特征InFeat(h×w×n)→并行四路池化特征提取层→级联层→卷积层(3×3×4n×n)→输出特征OutFeat(h×w×n)。四路池化特征提取层结构相似,以第一路为例,其结构为:池化层(1×1)→卷积层(1×1×n×n)→归一化层→双线性插值层(h×w×n,参数为插值后得到的特征尺寸:高×宽×通道数)→池化特征。四路池化特征提取层区别在于池化层的参数不同,其他三路的池化格参数分别为2×2、3×3、6×6。
步骤2:构建自蒸馏学习结构。
步骤1中获得了四组分支蒸馏特征和一组输出端蒸馏特征,在这五组蒸馏特征基础上构建自蒸馏学习结构。
本发明的自蒸馏学习包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构。
分支一致性蒸馏学习结构如图3所示。将四组分支蒸馏特征Sub1 softmax、Sub2softmax、Sub3 softmax、Sub4 softmax互相作为蒸馏对的学生端与教师端,生成12组蒸馏对。本发明中蒸馏对表示为(A→B),其中箭头起点为教师端、终点为学生端。12组蒸馏对可表示为:(Sub1 softmax→Sub2 softmax)、(Sub1 softmax←Sub2 softmax)、(Sub1softmax→Sub3 softmax)、(Sub1 softmax←Sub3 softmax)、(Sub1 softmax→Sub4softmax)、(Sub1 softmax←Sub4 softmax)、(Sub2 softmax→Sub3 softmax)、(Sub2softmax←Sub3 softmax)、(Sub2 softmax→Sub4 softmax)、(Sub2 softmax←Sub4softmax)、(Sub3softmax→Sub4 softmax)、(Sub3 softmax←Sub4 softmax)。
自下而上蒸馏学习结构如图4所示。将输出蒸馏特征Sub0 softmax作为教师端,将四组分支蒸馏特征分别作为学生端进行蒸馏学习,生成4组蒸馏对。具体为:(Sub0softmax→Sub1 softmax)、(Sub0 softmax←Sub2 softmax)、(Sub0 softmax→Sub3softmax)、(Sub0 softmax←Sub4 softmax)。
步骤3:自蒸馏训练。
1、模型训练时,将原始图像和其分割标注图尺寸调整为288×288×3。设置批处理大小为8,训练迭代次数为20轮,初始学习率设置为0.01,衰减系数设置为0.0005。
2、定义Loss函数,给定训练数据集D={(xi,yi)|i=1,2,...,N},其中xi表示数据集中第i个图像数据,N为数据集包含的图像数量,yi∈(1,...,K)表示其对应的像素级标注图,K为预测类别数量,本发明中K=2。Wm为网络主体(不涉及自蒸馏网络)的权重矩阵,
Figure BDA0003414095850000061
为自蒸馏结构中的辅助分类网络权重矩阵,M为辅助分类网络个数,本发明中M=5,且将辅助分类网络在总体网络中连接的具***置记为A={ai|i=1,2,...,M}。本发明自蒸馏学习的总体损失函数表示为:
Figure BDA0003414095850000062
式(1)中Lm为网络主体的学习损失函数,在发明中为交叉墒损失函数:
Figure BDA0003414095850000071
Figure BDA0003414095850000072
式(1)中Ls为自蒸馏网络的预测结果相对于标注图产生的预测损失。在本发明中为KL散度损失与结构化相似性损失的融合,具体如下:
Figure BDA0003414095850000073
其中第一项为交叉墒损失,具体如公式(5)所示。第二项为结构化相似性损失具体如公式(6)所示。
Figure BDA0003414095850000074
Figure BDA0003414095850000075
公式(6)中SSIM(*,*)为结构化相似相度量,其用图像区域的亮度、对比度、结构差异度量两幅图像的结构化差异。将
Figure BDA0003414095850000076
简写为fk(xi),公式6中结构化相似性具体为:
Figure BDA0003414095850000077
其中
Figure BDA0003414095850000078
分别为
Figure BDA0003414095850000079
和fk(xi)的均值与标准差,
Figure BDA00034140958500000710
Figure BDA00034140958500000711
和fk(xi)之间的协方差。C1=0.012、C2=0.032为两个常数。
公式(1)中Lk本发明自蒸馏结构的蒸馏损失,具体如公式(8)所示。第一项为两个蒸馏辅助分类器输出的KL散度损失,其中KL(*)为KL距离。第二项为两者的结构化相似性损失。λ1、λ2为两个权重参数,本发明中分别设置为0.8、0.2。
Figure BDA00034140958500000712
3、模型实验。将HRNet的原始分割网络作为基准模型进行训练、测试。在基准模型上构建本文自蒸馏结构进行训练,移除自蒸馏结构后网络进行前向推断,获得目标分割结果。通过比较基准模型与经自蒸馏学习后的模型预测结果,验证本发明对HRNet分割任务的性能提升效果。
实验数据集为4个公开的目标分割数据集,分别为:(1)COD(Deng-Ping F.,etal.Camouflaged Object Detection[C].CVPR,2020)是一个自然伪装目标数据集,包含了10000幅自然伪装图像。(2)CPD(Fang Z.,et al.Camouflage people detection viastrong semantic dilation network[C].The ACM Turing Celebration Conference-China,2019)是一个迷彩伪装单兵数据集,包含了2600副迷彩伪装单兵图像。(3)DUT-OMRON(Yang C.,et al.Saliency Detection via Graph-Based Manifold Ranking[C].CVPR,2013)是一个包含5168副图像的显著性目标数据集。(4)PASCAL-S(Radhakrishna A.,etal.,Frequency-tuned salient region detection[C].CVPR,2009)是一个包含850副图像的显著性目标数据集。模型训练与测试按照0.6、0.4的比例分割数据集获得训练数据与测试数据。
本发明使用目标分割任务中常用的F值(F-measure)(Radhakrishna A.,et al.,Frequency-tuned salient region detection[C].CVPR,2009)评价并比较基准模型和自蒸馏模型的性能。正确检出的目标区域面积占标准图中目标区域面积的比例为准确率(precision),准确率侧重于衡量算法检测目标区域的准确程度。正确检出的目标区域面积占算法检出所有目标区域的比例为召回率(recall),召回率侧重于衡量算法检测目标区域的完整程度。F值是融合检测准确率和召回率的综合评价指标,F值的计算公式如式(9)所示,公式中β设置为0.3。
Figure BDA0003414095850000081
表1(单位为%)
Figure BDA0003414095850000082
实验结果如表1所示,在四个典型目标分割数据集上,本发明将HRNet模型的性能平均提升了1.417个百分点,有效提升了HRNet基准模型的目标分割性能。

Claims (5)

1.一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法,其特征在于,包括:
步骤1、将多尺度池化金字塔模块分别与HRNet的分支特征、输出特征级联,获得4组分支蒸馏特征和1组输出端蒸馏特征;
步骤2、构建自蒸馏学习结构,所述自蒸馏学习结构包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构;
步骤3、将HRNet的原始分割网络作为基准模型,在基准模型上构建自蒸馏学习结构,融合KL散度、交叉墒损失、结构化相似性损失构成自蒸馏学习损失函数进行模型训练,采用训练好的模型获得图像目标分割结果。
2.根据权利要求1所述的基于多尺度池化金字塔的HRNet自蒸馏目标分割方法,其特征在于,步骤1所述将多尺度池化金字塔模块分别与HRNet的分支特征、输出特征级联,获得4组分支蒸馏特征和1组输出端蒸馏特征,具体如下:
(1)对于一个分支蒸馏特征,网络结构包括顺次设置的卷积层Subconv、多尺度池化金字塔模块PSPModule、卷积层Score、Sub softmax层,所述卷积层Subconv的四个参数分别为卷积核宽、卷积核高、输入通道数、输出通道数,多尺度池化金字塔模块PSPModule1的两个参数分别为输入通道数、输出通道数;
(2)对于输出端蒸馏特征,网络结构包括顺次设置的级联层Concat、多尺度池化金字塔模块PSPModule、卷积层Score、Sub softmax层。
3.根据权利要求2所述的基于多尺度池化金字塔的HRNet自蒸馏目标分割方法,其特征在于,所述多尺度池化金字塔模块PSPModule,具体如下:
设定输入特征InFeat大小为h×w×n,h表示高、w表示宽、n表示通道数,多尺度池化金字塔模块PSPModule的具体结构为:输入特征InFeat→并行四路池化特征提取层→级联层→卷积层→输出特征OutFeat;其中,输出特征OutFeat大小为h×w×n;
四路池化特征提取层结构中的第一路结构为:池化层1×1→卷积层1×1×n×n→归一化层→双线性插值层h×w×n→池化特征;四路池化特征提取层区别在于池化层的参数不同,其他三路的池化层参数分别为2×2、3×3、6×6。
4.根据权利要求1所述的基于多尺度池化金字塔的HRNet自蒸馏目标分割方法,其特征在于,步骤2中自蒸馏学习结构包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构,其中:
分支一致性蒸馏学习结构:将HRNet的4组分支蒸馏特征分别作为教师端和学生端,共生成12组蒸馏对;
自下而上蒸馏学习结构:将HRNet的输出端蒸馏特征作为教师端,将4组分支蒸馏特征分别作为学生端,生成4组蒸馏对;
融合以上16组蒸馏对构成自蒸馏学习结构。
5.根据权利要求1所述的基于多尺度池化金字塔的HRNet自蒸馏目标分割方法,其特征在于,步骤3所述融合KL散度、交叉墒损失、结构化相似性损失构成自蒸馏学习损失函数进行模型训练,具体如下:
给定训练数据集D={(xi,yi)|i=1,2,...,N},其中xi表示数据集中第i个图像数据,N为数据集包含的图像数量,yi∈(1,...,K)表示对应的像素级标注图,K为预测类别数量;Wm为网络主体的权重矩阵,Ws={Ws l|l=1,2,...,M}为自蒸馏结构中的辅助分类网络权重矩阵,M为辅助分类网络个数,且将辅助分类网络在总体网络中连接的具***置记为A={ai|i=1,2,...,M};
自蒸馏学习的总体损失函数表示为:
Figure FDA0003414095840000021
式(1)中Lm为网络主体的交叉墒损失函数:
Figure FDA0003414095840000022
Figure FDA0003414095840000023
式(1)中Ls为自蒸馏网络的预测结果相对于标注图产生的预测损失,即交叉墒损失与结构化相似性损失的融合,具体如下:
Figure FDA0003414095840000024
其中第一项为KL散度损失,具体如式(5)所示,第二项为结构化相似性损失具体如公式(6)所示:
Figure FDA0003414095840000025
Figure FDA0003414095840000026
式(6)中SSIM(*,*)为结构化相似相度量,用图像区域的亮度、对比度、结构差异度量两幅图像的结构化差异;
Figure FDA0003414095840000031
简写为fk(xi),式(6)中结构化相似性具体为:
Figure FDA0003414095840000032
其中
Figure FDA0003414095840000033
分别为
Figure FDA0003414095840000034
和fk(xi)的均值,
Figure FDA0003414095840000035
分别为
Figure FDA0003414095840000036
和fk(xi)的标准差,
Figure FDA0003414095840000037
Figure FDA0003414095840000038
和fk(xi)之间的协方差;C1=0.012、C2=0.032为两个常数;
式(1)中Lk为自蒸馏结构的蒸馏损失,具体如式(8)所示,第一项为两个蒸馏辅助分类器输出的KL散度损失,其中KL(*)为KL距离;第二项为两者的结构化相似性损失,λ1、λ2为两个权重参数,分别设置为0.8、0.2,
Figure FDA0003414095840000039
CN202111540428.1A 2021-12-16 2021-12-16 基于多尺度池化金字塔的HRNet自蒸馏目标分割方法 Pending CN114187308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111540428.1A CN114187308A (zh) 2021-12-16 2021-12-16 基于多尺度池化金字塔的HRNet自蒸馏目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111540428.1A CN114187308A (zh) 2021-12-16 2021-12-16 基于多尺度池化金字塔的HRNet自蒸馏目标分割方法

Publications (1)

Publication Number Publication Date
CN114187308A true CN114187308A (zh) 2022-03-15

Family

ID=80544099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111540428.1A Pending CN114187308A (zh) 2021-12-16 2021-12-16 基于多尺度池化金字塔的HRNet自蒸馏目标分割方法

Country Status (1)

Country Link
CN (1) CN114187308A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294337A (zh) * 2022-09-28 2022-11-04 珠海大横琴科技发展有限公司 训练语义分割模型的方法、图像语义分割方法及相关装置
CN115908464A (zh) * 2023-01-09 2023-04-04 智慧眼科技股份有限公司 一种舌体图像分割方法及***
CN116258730A (zh) * 2023-05-16 2023-06-13 先进计算与关键软件(信创)海河实验室 一种基于一致性损失函数的半监督医学图像分割方法
CN116310293A (zh) * 2023-02-13 2023-06-23 中国矿业大学(北京) 一种基于弱监督学习的生成高质量候选框目标检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294337A (zh) * 2022-09-28 2022-11-04 珠海大横琴科技发展有限公司 训练语义分割模型的方法、图像语义分割方法及相关装置
CN115908464A (zh) * 2023-01-09 2023-04-04 智慧眼科技股份有限公司 一种舌体图像分割方法及***
CN116310293A (zh) * 2023-02-13 2023-06-23 中国矿业大学(北京) 一种基于弱监督学习的生成高质量候选框目标检测方法
CN116310293B (zh) * 2023-02-13 2023-09-12 中国矿业大学(北京) 一种基于弱监督学习的生成高质量候选框目标检测方法
CN116258730A (zh) * 2023-05-16 2023-06-13 先进计算与关键软件(信创)海河实验室 一种基于一致性损失函数的半监督医学图像分割方法
CN116258730B (zh) * 2023-05-16 2023-08-11 先进计算与关键软件(信创)海河实验室 一种基于一致性损失函数的半监督医学图像分割方法

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN114187308A (zh) 基于多尺度池化金字塔的HRNet自蒸馏目标分割方法
CN107766850B (zh) 基于结合人脸属性信息的人脸识别方法
Shao et al. Feature learning for image classification via multiobjective genetic programming
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN107729993A (zh) 利用训练样本及折中度量的3d卷积神经网络构建方法
CN111914728B (zh) 高光谱遥感影像半监督分类方法、装置及存储介质
CN110070116B (zh) 基于深度树状训练策略的分段式选择集成图像分类方法
US20240046700A1 (en) Action recognition method
CN112862015A (zh) 一种基于超图神经网络的论文分类方法及***
CN110866134A (zh) 一种面向图像检索的分布一致性保持度量学习方法
CN112364747A (zh) 一种有限样本下的目标检测方法
CN112633154A (zh) 一种异源人脸特征向量之间的转换方法及***
CN115965864A (zh) 一种用于农作物病害识别的轻量级注意力机制网络
CN115050022A (zh) 一种基于多层级自适应注意力的农作物病虫害识别方法
CN114898167A (zh) 基于视图间差异性检测的多视图子空间聚类方法及***
Hou et al. A face detection algorithm based on two information flow block and retinal receptive field block
CN114065831A (zh) 基于多尺度随机深度残差网络的高光谱图像分类方法
CN116416478B (zh) 一种基于图结构数据特征的生物信息学分类模型
CN113378620A (zh) 监控视频噪声环境下跨摄像头行人重识别方法
CN109858543B (zh) 基于低秩稀疏表征和关系推断的图像可记忆度预测方法
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法
CN116580279A (zh) 基于混合自注意力机制的番茄病害检测方法及***
CN115601745A (zh) 一种面向应用端的多视图三维物体识别方法
Alzawali et al. Facial Emotion Images Recognition Based On Binarized Genetic Algorithm-Random Forest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination