CN111062951B - 一种基于语义分割类内特征差异性的知识蒸馏方法 - Google Patents

一种基于语义分割类内特征差异性的知识蒸馏方法 Download PDF

Info

Publication number
CN111062951B
CN111062951B CN201911277549.4A CN201911277549A CN111062951B CN 111062951 B CN111062951 B CN 111062951B CN 201911277549 A CN201911277549 A CN 201911277549A CN 111062951 B CN111062951 B CN 111062951B
Authority
CN
China
Prior art keywords
model
feature
network
teacher
student
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911277549.4A
Other languages
English (en)
Other versions
CN111062951A (zh
Inventor
许永超
王裕康
周维
白翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201911277549.4A priority Critical patent/CN111062951B/zh
Publication of CN111062951A publication Critical patent/CN111062951A/zh
Application granted granted Critical
Publication of CN111062951B publication Critical patent/CN111062951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义分割类内特征差异性的知识蒸馏方法,目的是将复杂模型(教师模型)学到的暗知识迁移到精简模型(学生模型),从而在提升语义分割模型的准确度的同时保持其速度。首先,分别通过教师模型和学生模型得到卷积特征;然后,通过掩膜指导的平均池化操作得到各个类别中心的特征图并由此计算各个像素点与其对应的类别中心的特征相似性,得到类内特征差异图;最后,使学生模型的类内特征差异图与教师模型对齐,以达到提升学生模型准确度的目的。本发明提出的蒸馏方法相对于现有技术思路新颖,得到的语义分割模型在准确度和速度方面都取得了良好的效果,同时该方法可以方便地和其他相关技术结合,有很强的实际应用价值。

Description

一种基于语义分割类内特征差异性的知识蒸馏方法
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于语义分割类内特征差异性的知识蒸馏方法。
背景技术
语义分割是指通过计算机对图像的场景进行像素级别的理解,是计算机视觉领域的一个基础研究方向。近年来随着全卷积神经网络的迅速发展,语义分割模型的准确率不断提升,但是这些模型大都需要占用大量的计算资源,也限制了它们在现实生活中的应用,例如自动驾驶、虚拟现实、机器人等等。
为了解决这一问题,模型压缩是一种比较常用的思路,通常可以分为以下三类方法:量化、剪枝和知识蒸馏。其中,知识蒸馏的思想是利用已训练好的复杂模型(教师模型)的输出来指导精简模型(学生模型)的训练,目的是将教师模型学到的暗知识迁移到学生模型,从而在提升语义分割模型的准确度的同时保持其效率。通常,用于语义分割的知识蒸馏方法会从迁移独立像素点或像素点对中包含的暗知识方面考虑,例如去对齐教师模型和学生模型的各像素点中间特征或输出分布,或是对齐像素点对的中间特征或输出关系。然而,这些已有方法得到的学生模型往往在类内特征差异性上难以和教师模型对齐,这也限制了学生模型准确度的提升。
发明内容
而本发明中提出的方法是从同类像素点的整体性角度出发,考虑去对齐像素点与其同类像素点集合之间的差异性,从而提高学生模型的准确度。本发明的目的在于提供一种基于语义分割类内特征差异性的知识蒸馏方法,该方法将复杂模型(教师模型)中像素点与其同类像素点集合之间的差异性迁移到精简模型(学生模型)中,能够提高学生模型的准确率,同时可以直接和其他知识蒸馏的方法结合,进一步提升模型性能。
为实现上述目的,本发明从一个全新的视角来解决语义分割模型的准确性和效率的平衡的问题,提供了一种基于语义分割类内特征差异性的知识蒸馏方法,包括下述步骤:
(1)构建用于语义分割任务的复杂网络(教师网络)和精简网络(学生网络),并训练得到教师模型,包括如下子步骤:
(1.1)对原始数据集中所有图片进行像素级别的标注,标签为预先定义的语义类别,得到带标注的标准训练数据集;
(1.2)定义用于语义分割的教师网络和学生网络,根据(1.1)带标注的标准训练数据集,设计损失函数,利用反向传导方法训练教师网络,得到对应的教师模型,具体包括如下子步骤:
(1.2.1)构建教师网络和学生网络,所述网络由特征提取模块和分类模块组成:教师网络和学生网络理论上可以是任意不同的语义分割网络,这里以PSPNet101和PSPNet18为例,其特征提取模块均由骨干网络和金字塔池化模块组成。具体地,教师网络使用的骨干网络是残差网络ResNet101,层数多、特征表达能力强,但同时参数多、计算量大、速度慢;学生网络使用的骨干网络是残差网络ResNet18,层数少、特征表达能力稍弱,但同时参数少、计算量小、速度快。金字塔池化模块的作用是得到包含丰富的上下文信息的语义特征,具体地,首先通过对输入特征进行不同尺度的池化操作,得到1×1、2×2、3×3和6×6的特征,然后使用上采样操作分别恢复到输入特征的尺度并和原始输入特征进行融合。分类模块接收上述得到的语义特征,最终预测出各个像素点属于每个预先定义类别的概率;
(1.2.2)训练教师网络,得到对应的教师模型:训练教师网络只需要用各个像素点的类别标注作为监督信息,对于输入的每幅训练图像,网络预测出各个像素点属于每个预先定义类别的概率,然后通过交叉熵损失函数,利用反向传导方法训练该网络;
(2)冻结教师模型,基于语义分割类内特征差异性进行知识蒸馏,将教师模型中像素点与其同类像素点集合之间的差异性作为额外的监督信息,去指导学生网络的训练过程,最终得到学生模型,包括如下子步骤:
(2.1)计算教师模型和学生模型的类内特征差异图,以表示两个模型的类内特征差异性,具体包括如下子步骤:
(2.1.1)定义类内特征差异图:模型的类内特征差异性即各个像素点与其同类像素点集合之间的差异性,由各个像素点的特征与其对应的类别特征中心的相似性构成的图所表示,称为类内特征差异图;具体地,需要先通过平均操作得到每个类别的特征中心,再计算各个像素点的特征与其对应的类别特征中心的相似性,表达式如下:
Figure BDA0002312929160000031
其中,f(p)表示像素点p的特征,Ωp表示具有与像素点p同样类别标签的像素点集合,Np表示集合Ωp中像素点的数量,f(q)表示像素点q的特征,sim是相似性度量函数,具体地,使用的是余弦相似性;
(2.1.2)使用掩膜指导的平均池化操作,在深度卷积神经网络中得到类内特征差异图:首先,通过最近邻插值将标签图(h×w)下采样到特征图的空间维度大小
Figure BDA0002312929160000041
然后分别以各个类别的标签作为掩膜,选择出具有相同类别标签的区域,对区域内部像素点特征沿着空间维度作平均池化操作,得到每个类别的特征中心;接着,通过反池化操作将这些特征中心扩展赋值回对应区域,得到特征中心图,该特征中心图和特征图具有相同的尺度且图中每个位置存放着该像素点对应的特征中心;最后,通过上述的特征中心图能够方便地计算出各个像素点的特征与其对应的类别特征中心的相似性,具体地,沿着通道维度计算特征图和特征中心图的余弦相似性,最终得到类内特征差异图;
(2.2)基于语义分割类内特征差异性进行知识蒸馏,即通过已训练好的教师模型指导学生模型的训练过程,具体包括如下子步骤:
(2.2.1)独立像素点级别的对齐:以教师模型独立像素点的输出分布作为学生模型去学习的目标,驱使学生模型的输出分布尽可能模仿教师模型的输出分布,这是一种知识蒸馏中常规的并被普遍采用的方法,度量指标用的是Kullback-Leibler divergence(KL散度),对应的损失函数表达式如下:
Figure BDA0002312929160000042
其中,Ω表示图像域,N是图像域中像素点的数量,C表示类别的总数,
Figure BDA0002312929160000043
Figure BDA0002312929160000044
分别表示学生模型和教师模型中像素点p对应第i类的概率输出;
(2.2.2)类内特征差异性的对齐:将教师模型中像素点与其同类像素点集合之间的差异性作为学生模型训练的目标,驱使学生模型在类内特征差异性上和教师模型保持一致,具体地,基于(2.1)中教师模型和学生模型的类内特征差异图的计算方法,设计的损失函数表达式如下:
Figure BDA0002312929160000051
其中,Ω表示图像域,N是图像域中像素点的数量,Ms(p)和Mt(p)分别表示学生模型和教师模型对应的类内特征差异图。
(2.2.3)优化整体损失函数:学生模型训练过程中共包含三个损失函数项,即一项常规的交叉熵损失函数Lce以及两项知识蒸馏的损失函数Lpi和Lifv,整体损失函数表达式如下:
L=Lce+Lkd,
Lkd=λ1Lpi2Lifv,
其中,λ1和λ2分别为损失函数Lpi和Lifv的权重系数。
(3)利用上述训练好的学生模型对待处理图像进行语义分割:首先,输入的图像经过学生网络的特征提取模块得到包含丰富的上下文信息的语义特征;然后,分类模块接收上述得到的语义特征,预测各个像素点属于每个预先定义类别的概率;最后,借助argmax()函数选取其概率最大值的下标索引作为预测类别,得到最终的图像的语义分割图。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)速度快:本发明提出的基于语义分割类内特征差异性的知识蒸馏方法,复杂模型(教师模型)仅在训练时需要用到,而在对待处理图像进行处理时只需要用到精简模型(学生模型),保证了语义分割任务的速度;
(2)准确度高:本发明提出的基于语义分割类内特征差异性的知识蒸馏方法,利用已训练好的教师模型来指导学生模型的训练,从而将教师模型学到的暗知识迁移到学生模型,提高了学生模型的准确度;
(3)通用性强:本发明可以方便地和其他相关技术结合,进一步提升学生模型的性能,适用范围广。
附图说明
图1是本发明实施例中基于语义分割类内特征差异性的知识蒸馏方法的流程图,其中,实线箭头表示包含梯度回传的训练过程,虚线箭头表示待处理图像的语义分割过程;
图2是本发明实施例中教师模型和学生模型的基础网络结构图;
图3是本发明实施例中使用掩膜指导的平均池化操作,在深度卷积神经网络中得到类内特征差异图的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
ResNet:即残差网络(Residual Network),是一种经典的深度卷积神经网络结构,在ILSVRC和COCO 2015竞赛中取得了5项第一的成绩,并且性能大幅超过第二名。该网络主要由卷积层、池化层和shortcut连接组成。卷积层用于提取图片特征;池化层用于降低卷积层输出的特征向量的空间维度;shortcut连接则是基于残差学习的思想,用于解决梯度消失和梯度***问题。根据卷积层数量,可以分为ResNet18、ResNet50、ResNet101等五种结构。
PSPNet:即金字塔场景解析网络(Pyramid Scene Parsing Network),是一种目前应用比较广泛的语义分割算法,在ILSVRC 2016竞赛中取得了场景解析任务的冠军。该网络使用金字塔池化模块为像素级场景解析提供了有效的上下文先验信息,提高了场景解析的性能。
Kullback-Leibler divergence(KL散度):KL散度又称为相对熵,通常用于衡量两个概率分布之间的差异。对于概率分布P和Q,其KL散度为:
Figure BDA0002312929160000071
KL散度越小,表示两个分布越接近;KL散度不具有对称性,即DKL(P||Q)≠DKL(P||Q)。
如图1所示,本发明基于语义分割类内特征差异性的知识蒸馏方法包括以下步骤:
(1)构建用于语义分割任务的复杂网络(教师网络)和精简网络(学生网络),并训练得到教师模型,包括如下子步骤:
(1.1)对原始数据集中所有图片进行像素级别的标注,标签为预先定义的语义类别,得到带标注的标准训练数据集;
(1.2)定义用于语义分割的教师网络和学生网络,根据(1.1)带标注的标准训练数据集,设计损失函数,利用反向传导方法训练教师网络,得到对应的教师模型,具体包括如下子步骤:
(1.2.1)构建教师网络和学生网络,所述网络如图2所示,由特征提取模块和分类模块组成:教师网络和学生网络理论上可以是任意不同的语义分割网络,这里以PSPNet101和PSPNet18为例,其特征提取模块均由骨干网络和金字塔池化模块组成。具体地,教师网络使用的骨干网络是残差网络ResNet101,层数多、特征表达能力强,但同时参数多、计算量大、速度慢;学生网络使用的骨干网络是残差网络ResNet18,层数少、特征表达能力稍弱,但同时参数少、计算量小、速度快。金字塔池化模块的作用是得到包含丰富的上下文信息的语义特征,具体地,首先通过对输入特征进行不同尺度的池化操作,得到1×1、2×2、3×3和6×6的特征,然后使用上采样操作分别恢复到输入特征的尺度并和原始输入特征进行融合。分类模块接收上述得到的语义特征,最终预测出各个像素点属于每个预先定义类别的概率;
(1.2.2)训练教师网络,得到对应的教师模型:训练教师网络只需要用各个像素点的类别标注作为监督信息,对于输入的每幅训练图像,网络预测出各个像素点属于每个预先定义类别的概率,然后通过交叉熵损失函数,利用反向传导方法训练该网络;
(2)冻结教师模型,基于语义分割类内特征差异性进行知识蒸馏,将教师模型中像素点与其同类像素点集合之间的差异性作为额外的监督信息,去指导学生网络的训练过程,最终得到学生模型,包括如下子步骤:
(2.1)计算教师模型和学生模型的类内特征差异图,以表示两个模型的类内特征差异性,具体包括如下子步骤:
(2.1.1)定义类内特征差异图:模型的类内特征差异性即各个像素点与其同类像素点集合之间的差异性,由各个像素点的特征与其对应的类别特征中心的相似性构成的图所表示,称为类内特征差异图;具体地,需要先通过平均操作得到每个类别的特征中心,再计算各个像素点的特征与其对应的类别特征中心的相似性,表达式如下:
Figure BDA0002312929160000091
其中,f(p)表示像素点p的特征,Ωp表示具有与像素点p同样类别标签的像素点集合,Np表示集合Ωp中像素点的数量,f(q)表示像素点q的特征,sim是相似性度量函数,具体地,使用的是余弦相似性;
(2.1.2)使用掩膜指导的平均池化操作,在深度卷积神经网络中得到类内特征差异图:所述操作如图3所示,首先,通过最近邻插值将标签图(h×w)下采样到特征图的空间维度大小
Figure BDA0002312929160000092
然后分别以各个类别的标签作为掩膜,选择出具有相同类别标签的区域,对区域内部像素点特征沿着空间维度作平均池化操作,得到每个类别的特征中心;接着,通过反池化操作将这些特征中心扩展赋值回对应区域,得到特征中心图,该特征中心图和特征图具有相同的尺度且图中每个位置存放着该像素点对应的特征中心;最后,通过上述的特征中心图能够方便地计算出各个像素点的特征与其对应的类别特征中心的相似性,具体地,沿着通道维度计算特征图和特征中心图的余弦相似性,最终得到类内特征差异图;
(2.2)基于语义分割类内特征差异性进行知识蒸馏,即通过已训练好的教师模型指导学生模型的训练过程,具体包括如下子步骤:
(2.2.1)独立像素点级别的对齐:以教师模型独立像素点的输出分布作为学生模型去学习的目标,驱使学生模型的输出分布尽可能模仿教师模型的输出分布,这是一种知识蒸馏中常规的并被普遍采用的方法,度量指标用的是Kullback-Leibler divergence(KL散度),对应的损失函数表达式如下:
Figure BDA0002312929160000101
其中,Ω表示图像域,N是图像域中像素点的数量,C表示类别的总数,
Figure BDA0002312929160000102
Figure BDA0002312929160000103
分别表示学生模型和教师模型中像素点p对应第i类的概率输出;
(2.2.2)类内特征差异性的对齐:将教师模型中像素点与其同类像素点集合之间的差异性作为学生模型训练的目标,驱使学生模型在类内特征差异性上和教师模型保持一致,具体地,基于(2.1)中教师模型和学生模型的类内特征差异图的计算方法,设计的损失函数表达式如下:
Figure BDA0002312929160000104
其中,Ω表示图像域,N是图像域中像素点的数量,Ms(p)和Mt(p)分别表示学生模型和教师模型对应的类内特征差异图。
(2.2.3)优化整体损失函数:学生模型训练过程中共包含三个损失函数项,即一项常规的交叉熵损失函数Lce以及两项知识蒸馏的损失函数Lpi和Lifv,整体损失函数表达式如下:
L=Lce+Lkd,
Lkd=λ1Lpi2Lifv,
其中,λ1和λ2分别为损失函数Lpi和Lifv的权重系数,本发明实施例中被设置为10和100;
交叉熵损失函数Lce表达式如下:
Figure BDA0002312929160000111
其中,Ω表示图像域,N是图像域中像素点的数量,C表示类别的总数,
Figure BDA0002312929160000112
表示学生模型中像素点p对应第i类的概率输出,Ti(p)是根据像素点p的标签得到的,当像素点p的标签等于当前类别i时,Ti(p)=1;否则,Ti(p)=0;
(3)利用上述训练好的学生模型对待处理图像进行语义分割:首先,输入的图像经过学生网络的特征提取模块得到包含丰富的上下文信息的语义特征;然后,分类模块接收上述得到的语义特征,预测各个像素点属于每个预先定义类别的概率;最后,借助ar gmax()函数选取其概率最大值的下标索引作为预测类别,得到最终的图像的语义分割图。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于语义分割类内特征差异性的知识蒸馏方法,其特征在于,所述方法包括下述步骤:
(1)构建用于语义分割任务的复杂网络即教师网络和精简网络即学生网络,并训练得到教师模型,包括如下子步骤:
(1.1)对原始数据集中所有图片进行像素级别的标注,标签为预先定义的语义类别,得到带标注的标准训练数据集;
(1.2)定义用于语义分割的教师网络和学生网络,根据(1.1)中带标注的标准训练数据集,设计损失函数,利用反向传导方法训练教师网络,得到对应的教师模型,具体包括如下子步骤:
(1.2.1)构建教师网络和学生网络,所述网络由特征提取模块和分类模块组成;
(1.2.2)训练教师网络,得到对应的教师模型;
(2)冻结教师模型,基于语义分割类内特征差异性进行知识蒸馏,将教师模型中像素点与其同类像素点集合之间的差异性作为额外的监督信息,去指导学生网络的训练过程,最终得到学生模型,包括如下子步骤:
(2.1)计算教师模型和学生模型的类内特征差异图,以表示两个模型的类内特征差异性,具体包括如下子步骤:
(2.1.1)定义类内特征差异图;具体为:
模型的类内特征差异性即各个像素点与其同类像素点集合之间的差异性,可由各个像素点的特征与其对应的类别特征中心的相似性构成的图所表示,称为类内特征差异图;具体地,先通过平均操作得到每个类别的特征中心,再计算各个像素点的特征与其对应的类别特征中心的相似性,表达式如下:
Figure FDA0003393059890000021
其中,f(p)表示像素点p的特征,Ωp表示具有与像素点p同样类别标签的像素点集合,Np表示集合Ωp中像素点的数量,f(q)表示像素点q的特征,sim是相似性度量函数;
(2.1.2)使用掩膜指导的平均池化操作,在深度卷积神经网络中得到类内特征差异图;具体为:
首先,通过最近邻插值将标签图(h×w)下采样到特征图的空间维度大小
Figure FDA0003393059890000022
然后分别以各个类别的标签作为掩膜,选择出具有相同类别标签的区域,对区域内部像素点特征沿着空间维度作平均池化操作,得到每个类别的特征中心;接着,通过反池化操作将这些特征中心扩展赋值回对应区域,得到特征中心图,该特征中心图和特征图具有相同的尺度且图中每个位置存放着该像素点对应的特征中心;最后,通过上述的特征中心图计算出各个像素点的特征与其对应的类别特征中心的相似性;
(2.2)基于语义分割类内特征差异性进行知识蒸馏,即通过已训练好的教师模型指导学生模型的训练过程,具体包括如下子步骤:
(2.2.1)独立像素点级别的对齐;
(2.2.2)类内特征差异性的对齐;
(2.2.3)优化整体损失函数;具体为:
学生模型训练过程中共包含三个损失函数项:一项常规的交叉熵损失函数Lce以及两项知识蒸馏的损失函数Lpi和Lifv,整体损失函数表达式如下:
L=Lce+Lkd
Lkd=λ1Lpi2Lifv
其中,λ1和λ2分别为损失函数Lpi和Lifv的权重系数;
(3)利用上述训练好的学生模型对待处理图像进行语义分割。
2.根据权利要求1所述的基于语义分割类内特征差异性的知识蒸馏方法,其特征在于,所述步骤(1.2.1)具体为:
教师网络和学生网络的特征提取模块均由骨干网络和金字塔池化模块组成;教师网络使用的骨干网络是残差网络ResNet101,学生网络使用的骨干网络是残差网络ResNet18;金字塔池化模块的作用是得到包含丰富的上下文信息的语义特征;首先通过对输入特征进行不同尺度的池化操作,得到1×1、2×2、3×3和6×6的特征,然后使用上采样操作分别恢复到输入特征的尺度并和原始输入特征进行融合;分类模块接收上述得到的语义特征,最终预测出各个像素点属于每个预先定义类别的概率。
3.根据权利要求1或2所述的基于语义分割类内特征差异性的知识蒸馏方法,其特征在于,所述步骤(1.2.2)具体为:
用各个像素点的类别标注作为监督信息,对于输入的每幅图像,网络预测出各个像素点属于每个预先定义类别的概率,然后通过交叉熵损失函数,利用反向传导方法训练该教师网络,得到教师模型。
4.根据权利要求1或2所述的基于语义分割类内特征差异性的知识蒸馏方法,其特征在于,所述步骤(2.2.1)具体为:
以教师模型独立像素点的输出分布作为学生模型去学习的目标,驱使学生模型的输出分布尽可能模仿教师模型的输出分布,度量指标用的是KL散度,对应的损失函数表达式如下:
Figure FDA0003393059890000041
其中,Ω表示图像域,N是图像域中像素点的数量,C表示类别的总数,
Figure FDA0003393059890000042
Figure FDA0003393059890000043
分别表示学生模型和教师模型中像素点p对应第i类的概率输出。
5.根据权利要求1或2所述的基于语义分割类内特征差异性的知识蒸馏方法,其特征在于,所述步骤(2.2.2)具体为:
将教师模型中像素点与其同类像素点集合之间的差异性作为学生模型训练的目标,驱使学生模型在类内特征差异性上和教师模型保持一致,具体地,基于(2.1)中教师模型和学生模型的类内特征差异图的计算方法,设计的损失函数表达式如下:
Figure FDA0003393059890000044
其中,Ω表示图像域,N是图像域中像素点的数量,Ms(p)和Mt(p)分别表示学生模型和教师模型对应的类内特征差异图。
6.根据权利要求1或2所述的基于语义分割类内特征差异性的知识蒸馏方法,其特征在于,所述步骤(3)具体为:
首先,输入的图像经过学生网络的特征提取模块得到包含上下文信息的语义特征;然后,分类模块接收上述得到的语义特征,预测各个像素点属于每个预先定义类别的概率;最后,借助argmax()函数选取其概率最大值的下标索引作为预测类别,得到最终的图像的语义分割图。
7.根据权利要求1所述的基于语义分割类内特征差异性的知识蒸馏方法,其特征在于,所述相似性度量函数sim采用余弦相似性。
CN201911277549.4A 2019-12-11 2019-12-11 一种基于语义分割类内特征差异性的知识蒸馏方法 Active CN111062951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911277549.4A CN111062951B (zh) 2019-12-11 2019-12-11 一种基于语义分割类内特征差异性的知识蒸馏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911277549.4A CN111062951B (zh) 2019-12-11 2019-12-11 一种基于语义分割类内特征差异性的知识蒸馏方法

Publications (2)

Publication Number Publication Date
CN111062951A CN111062951A (zh) 2020-04-24
CN111062951B true CN111062951B (zh) 2022-03-25

Family

ID=70300940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911277549.4A Active CN111062951B (zh) 2019-12-11 2019-12-11 一种基于语义分割类内特征差异性的知识蒸馏方法

Country Status (1)

Country Link
CN (1) CN111062951B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598160B (zh) * 2020-05-14 2023-04-07 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备及存储介质
CN111640425B (zh) * 2020-05-22 2023-08-15 北京百度网讯科技有限公司 一种模型训练和意图识别方法、装置、设备及存储介质
CN111723812B (zh) * 2020-06-05 2023-07-07 南强智视(厦门)科技有限公司 一种基于序列知识蒸馏的实时语义分割方法
CN111695698B (zh) * 2020-06-12 2023-09-12 北京百度网讯科技有限公司 用于模型蒸馏的方法、装置、电子设备及可读存储介质
CN111709497B (zh) * 2020-08-20 2020-11-20 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112150478B (zh) * 2020-08-31 2021-06-22 温州医科大学 一种构建半监督图像分割框架的方法及***
CN112200318B (zh) * 2020-10-10 2021-11-09 广州云从人工智能技术有限公司 一种目标检测方法、装置、机器可读介质及设备
CN112634296B (zh) * 2020-10-12 2023-12-22 深圳大学 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN112464989B (zh) * 2020-11-02 2024-02-20 北京科技大学 一种基于目标检测网络的闭环检测方法
CN112508169A (zh) * 2020-11-13 2021-03-16 华为技术有限公司 知识蒸馏方法和***
CN112613515A (zh) * 2020-11-23 2021-04-06 上海眼控科技股份有限公司 语义分割方法、装置、计算机设备和存储介质
CN112561059B (zh) * 2020-12-15 2023-08-01 北京百度网讯科技有限公司 用于模型蒸馏的方法和装置
CN113538480A (zh) * 2020-12-15 2021-10-22 腾讯科技(深圳)有限公司 图像分割处理方法、装置、计算机设备和存储介质
CN112633285A (zh) * 2020-12-23 2021-04-09 平安科技(深圳)有限公司 领域适应方法、装置、电子设备及存储介质
CN113743180B (zh) * 2021-05-06 2024-05-07 西安电子科技大学 一种基于cnnkd的雷达hrrp小样本目标识别方法
CN113283386A (zh) * 2021-05-25 2021-08-20 中国矿业大学(北京) 一种基于知识蒸馏的煤矿井下采煤机的设备故障诊断方法
CN113470057B (zh) * 2021-06-29 2024-04-16 上海商汤智能科技有限公司 语义分割方法、装置、电子设备和计算机可读存储介质
CN113469977B (zh) * 2021-07-06 2024-01-12 浙江霖研精密科技有限公司 一种基于蒸馏学习机制的瑕疵检测装置、方法、存储介质
CN113470099B (zh) * 2021-07-09 2022-03-25 北京的卢深视科技有限公司 深度成像的方法、电子设备及存储介质
CN113486990B (zh) * 2021-09-06 2021-12-21 北京字节跳动网络技术有限公司 内窥镜图像分类模型的训练方法、图像分类方法和装置
CN114648638A (zh) * 2022-04-02 2022-06-21 北京百度网讯科技有限公司 语义分割模型的训练方法、语义分割方法与装置
CN114742799B (zh) * 2022-04-18 2024-04-26 华中科技大学 基于自监督异构网络的工业场景未知类型缺陷分割方法
CN114757659A (zh) * 2022-05-19 2022-07-15 浙江大学 研发项目智能管理***及其管理方法
CN115294407B (zh) * 2022-09-30 2023-01-03 山东大学 基于预习机制知识蒸馏的模型压缩方法及***
CN116630286B (zh) * 2023-05-31 2024-02-13 博衍科技(珠海)有限公司 一种图像异常检测与定位的方法、装置、设备及存储介质
CN117079276B (zh) * 2023-06-21 2024-02-09 江苏大学 一种基于知识蒸馏的语义分割方法、***、设备及介质
CN117036790B (zh) * 2023-07-25 2024-03-22 中国科学院空天信息创新研究院 一种小样本条件下的实例分割多分类方法
CN117036698B (zh) * 2023-07-27 2024-06-18 中国矿业大学 一种基于双重特征知识蒸馏的语义分割方法
CN116704196B (zh) * 2023-08-03 2023-11-10 珠海数字动力科技股份有限公司 一种训练图像语义分割模型的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596240A (zh) * 2018-04-20 2018-09-28 华中科技大学 一种基于判别特征网络的图像语义分割方法
CN108764462A (zh) * 2018-05-29 2018-11-06 成都视观天下科技有限公司 一种基于知识蒸馏的卷积神经网络优化方法
CN110322446A (zh) * 2019-07-01 2019-10-11 华中科技大学 一种基于相似性空间对齐的域自适应语义分割方法
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法
US10496884B1 (en) * 2017-09-19 2019-12-03 Deepradiology Inc. Transformation of textbook information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10496884B1 (en) * 2017-09-19 2019-12-03 Deepradiology Inc. Transformation of textbook information
CN108596240A (zh) * 2018-04-20 2018-09-28 华中科技大学 一种基于判别特征网络的图像语义分割方法
CN108764462A (zh) * 2018-05-29 2018-11-06 成都视观天下科技有限公司 一种基于知识蒸馏的卷积神经网络优化方法
CN110322446A (zh) * 2019-07-01 2019-10-11 华中科技大学 一种基于相似性空间对齐的域自适应语义分割方法
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Distilling the Knowledge in a Neural Network";Geoffrey Hinton et al.;《arXiv》;20151231;第1-9页 *
"面向视频监控场景的目标空间结构语义感知";张亚庆;《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》;20190615;第I136-24页 *

Also Published As

Publication number Publication date
CN111062951A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111062951B (zh) 一种基于语义分割类内特征差异性的知识蒸馏方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
CN111461212B (zh) 一种用于点云目标检测模型的压缩方法
WO2021129145A1 (zh) 一种图像特征点过滤方法以及终端
CN111062395B (zh) 一种实时的视频语义分割方法
CN113313703B (zh) 基于深度学习图像识别的无人机输电线巡检方法
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN111832453B (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN113936275A (zh) 一种基于区域特征对齐的无监督域适应语义分割方法
CN110826411B (zh) 一种基于无人机图像的车辆目标快速识别方法
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN115205633A (zh) 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法
CN116229056A (zh) 基于双分支特征融合的语义分割方法、装置、设备
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN115861635B (zh) 抗透射畸变的无人机倾斜影像语义信息提取方法及设备
CN115294282A (zh) 三维场景重建中增强特征融合的单目深度估计***及其方法
CN114897160A (zh) 模型训练方法、***及计算机存储介质
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN111179272A (zh) 一种面向道路场景的快速语义分割方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN116977712B (zh) 基于知识蒸馏的道路场景分割方法、***、设备及介质
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant