CN114187308A

CN114187308A - 基于多尺度池化金字塔的HRNet自蒸馏目标分割方法

Info

Publication number: CN114187308A
Application number: CN202111540428.1A
Authority: CN
Inventors: 郑云飞; 曹铁勇; 杨吉斌; 张雄伟; 王晓兵; 方正; 孙蒙; 赵斐; 李莉; 邓小桐; 王杨; 邢立新; 李臣明; 陶海军; 陈卫国; 于远鹏; 高波; 章乐贵; 王勇; 邢浩
Original assignee: Army Engineering University of PLA; PLA Army Academy of Artillery and Air Defense
Current assignee: Army Engineering University of PLA; PLA Army Academy of Artillery and Air Defense
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-15

Abstract

本发明公开了一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法，该方法包括：将多尺度池化金字塔模块分别与HRNet的分支特征、输出特征级联，获得4组分支蒸馏特征和1组输出端蒸馏特征，提升HRNet的特征表示能力；构建自蒸馏学习结构，包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构，保证分支结构优化方向的一致性和正确性；将HRNet的原始分割网络作为基准模型，在基准模型上构建自蒸馏学习结构，融合KL散度、交叉墒损失、结构化相似性损失构成自蒸馏学习损失函数进行模型训练，实现更准确的自蒸馏学习，采用训练好的模型获得图像目标分割结果。本发明有效提升了HRNet基准模型的目标分割性能。

Description

基于多尺度池化金字塔的HRNet自蒸馏目标分割方法

技术领域

本发明属于计算机视觉及机器学习技术领域，特别是一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法。

背景技术

知识蒸馏能将大规模网络的表征能力迁移到小规模网络，提升轻量型网络的分类、回归性能，主要用于深度神经网络的轻量化处理。

目前，已有许多科研机构从事知识蒸馏方法研究，如Zhang等人(Zhang L.,etal.Be Your Own Teacher:Improve the Performance of Convolutional NeuralNetworks via Self Distillation[C].IEEE International Conference on ComputerVision,2019)提取残差网络不同层特征，将深层特征作为蒸馏教师端、将浅层特征作为学生端，构建自蒸馏学习结构，结合Softmax和交叉墒损失进行蒸馏学习，提升残差网络的图像分类性能。Yang等人(Yang C.,et al.,Snapshot Distillation:Teacher-StudentOptimization in One Generation[C].IEEE Conference on Computer Vision andPattern Recognition,2019)在网络训练过程中，将上一轮生成的网络作为教师网络，将当前轮学习过程中的网络作为学生端，构建蒸馏结构，利用KL散度进行蒸馏学习，提升网络的图像分类性能。Li等人(Duo L.et al.,Dynamic Hierarchical Mimicking TowardsConsistent Optimization Objectives[C].IEEE Conference on Computer Vision andPattern Recognition,2020)提取残差网络不同层特征，将不同层特征互相视为蒸馏教师端与学生端，构建一致性蒸馏结构，利用KL散度进行自蒸馏学习提升网络的图像分类性能。上述自蒸馏学习方法主要面向图像分类任务，抽取深度神经网络不同层的特征，利用KL散度、交叉墒等损失函数实现蒸馏学习，提升网络的性能，但是针对目标分割任务的自蒸馏学习方法研究较少。

发明内容

本发明的目的在于提供一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法，在不增加HRNet网络参数的条件下提升目标分割性能。

实现本发明目的的技术解决方案为：一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法，包括：

步骤1、将多尺度池化金字塔模块分别与HRNet的分支特征、输出特征级联，获得4组分支蒸馏特征和1组输出端蒸馏特征；

步骤2、构建自蒸馏学习结构，所述自蒸馏学习结构包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构；

步骤3、将HRNet的原始分割网络作为基准模型，在基准模型上构建自蒸馏学习结构，融合KL散度、交叉墒损失、结构化相似性损失构成自蒸馏学习损失函数进行模型训练，采用训练好的模型获得图像目标分割结果。

本发明与现有技术相比，其显著优点为：(1)将多尺度池化金字塔结构与HRNet四组子分支特征分别级联，提升了HRNet的特征表示能力；(2)采用自蒸馏学习结构，融合一致性蒸馏与自下而上蒸馏两种模式，保证了分支结构优化方向的一致性和正确性；(3)在KL散度、交叉墒损失基础上融入结构化相似性损失，实现更准确地自蒸馏学习；(4)通过在4个公开数据集上的实验，验证了本发明能在不增加参数规模的前提下提升HRNet的目标分割性能。

附图说明

图1是本发明的自蒸馏学习总体结构图。

图2是本发明中分支一致性蒸馏结构图。

图3是本发明中自下而上蒸馏结构图。

图4是本发明中多尺度池化金字塔特征表示结构图。

具体实施方式

本发明实现了一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法，包括：

步骤3、将HRNet的原始分割网络作为基准模型，在基准模型上构建自蒸馏学习结构，融合KL散度、交叉墒损失、结构化相似性损失构成自蒸馏学习损失函数进行模型训练。

步骤4：训练完成后，移除用于训练的自蒸馏表示结构，仅采用训练好的HRNet基础网络进行目标分割，获得图像目标分割结果。

进一步地，步骤1所述将多尺度池化金字塔模块分别与HRNet的分支特征、输出特征级联，获得4组分支蒸馏特征和1组输出端蒸馏特征，具体如下：

(1)对于一个分支蒸馏特征，网络结构包括顺次设置的卷积层Subconv、多尺度池化金字塔模块PSPModule、卷积层Score、Sub softmax层，所述卷积层Subconv的四个参数分别为卷积核宽、卷积核高、输入通道数、输出通道数，多尺度池化金字塔模块PSPModule1的两个参数分别为输入通道数、输出通道数；

(2)对于输出端蒸馏特征，网络结构包括顺次设置的级联层Concat、多尺度池化金字塔模块PSPModule、卷积层Score、Sub softmax层。

进一步地，所述多尺度池化金字塔模块PSPModule，具体如下：

设定输入特征InFeat大小为h×w×n，h表示高、w表示宽、n表示通道数，多尺度池化金字塔模块PSPModule的具体结构为：输入特征InFeat→并行四路池化特征提取层→级联层→卷积层→输出特征OutFeat；其中，输出特征OutFeat大小为h×w×n；

四路池化特征提取层结构中的第一路结构为：池化层1×1→卷积层1×1×n×n→归一化层→双线性插值层h×w×n→池化特征；四路池化特征提取层区别在于池化层的参数不同，其他三路的池化层参数分别为2×2、3×3、6×6。

进一步地，步骤2中自蒸馏学习结构包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构，其中：

分支一致性蒸馏学习结构：将HRNet的4组分支蒸馏特征分别作为教师端和学生端，共生成12组蒸馏对；

自下而上蒸馏学习结构：将HRNet的输出端蒸馏特征作为教师端，将4组分支蒸馏特征分别作为学生端，生成4组蒸馏对；

融合以上16组蒸馏对构成自蒸馏学习结构。

进一步地，步骤3所述融合KL散度、交叉墒损失、结构化相似性损失构成自蒸馏学习损失函数进行模型训练，具体如下：

给定训练数据集D＝{(x_i,y_i)|i＝1,2,...,N}，其中x_i表示数据集中第i个图像数据，N为数据集包含的图像数量，y_i∈(1,...,K)表示对应的像素级标注图，K为预测类别数量；W_m为网络主体的权重矩阵,

为自蒸馏结构中的辅助分类网络权重矩阵，M为辅助分类网络个数，且将辅助分类网络在总体网络中连接的具***置记为A＝{a_i|i＝1,2,...,M}；

自蒸馏学习的总体损失函数表示为：

式(1)中L_m为网络主体的交叉墒损失函数：

式(1)中L_s为自蒸馏网络的预测结果相对于标注图产生的预测损失，即交叉墒损失与结构化相似性损失的融合，具体如下：

其中第一项为KL散度损失，具体如式(5)所示，第二项为结构化相似性损失具体如公式(6)所示：

式(6)中SSIM(*,*)为结构化相似相度量，用图像区域的亮度、对比度、结构差异度量两幅图像的结构化差异；

将

简写为f^k(x_i)，式(6)中结构化相似性具体为：

其中

分别为

和f^k(x_i)的均值，

分别为

和f^k(x_i)的标准差，

为

和f^k(x_i)之间的协方差；C₁＝0.01²、C₂＝0.03²为两个常数；

式(1)中L_k为自蒸馏结构的蒸馏损失，具体如式(8)所示，第一项为两个蒸馏辅助分类器输出的KL散度损失，其中KL(*)为KL距离；第二项为两者的结构化相似性损失，λ₁、λ₂为两个权重参数，分别设置为0.8、0.2，

本发明上述各步骤具有以下特点：

(1)特征提取。将多尺度池化金字塔结构与HRNet四组子分支特征分别级联，提升HRNet的特征表示能力。

(2)自蒸馏学习结构：融合一致性蒸馏与自下而上蒸馏两种模式。一致性蒸馏将4个子分支分别作为蒸馏教师端和学生端共生成12组蒸馏对，保证分支结构优化方向的一致性。自下而上蒸馏将HRNet的合成输出端作为教师端，将4个分支输出端分别作为学生端组成4组蒸馏对，保证分支结构优化方向的正确性。

(3)自蒸馏学习损失。在KL散度、交叉墒损失基础上融入结构化相似性损失，实现更准确地自蒸馏学习。自蒸馏训练的目标函数包含4组分支的蒸馏损失和分割损失、主分支的蒸馏损失和分割损失。蒸馏损失包括了每组蒸馏对生成的目标类别概率间的KL散度和结构化相似性损失组成。分割损失包括了蒸馏特征生成的目标类别概率与标注图间的交叉墒损失和结构化相似性损失。

下面结合附图及具体实施例对本发明做进一步详细描述。

实施例

结合图1对本发明的实现步骤做进一步的描述。

步骤1，特征提取。如图1所示，Subconv1、Subconv2、Subconv3、Subconv4为HRNet四个子分支，四个子分支通过级联层合并生成最终输出特征。本发明在四个分支和输出端基础上构建多尺度池化金字塔获取蒸馏特征。具体结构如下：

(1)对于一个分支端(如Subconv1)，获取其蒸馏特征的网络结构为：卷积层Subconv1(3×3×48×48，四个参数分别为卷积核宽、卷积核高、输入通道数、输出通道数)→多尺度池化金字塔模块PSPModule1(48×48，两个参数分别为输入通道数、输出通道数)→卷积层Score1(1×1×48×2)→Sub1 softmax层→分支1蒸馏特征。其他三个分支的蒸馏特征与以上结构类似，具体如图1所示。

(2)对于输出端特征，获取其蒸馏特征的网络结构为：级联层Concat→多尺度池化金字塔模块PSPModule0(720×48)→卷积层Score0(1×1×48×2)→Sub0 softmax层→输出端蒸馏特征。

蒸馏结构中的多尺度池化金字塔模块的结构如图2所示。如输入特征InFeat大小为h(高)×w(宽)×n(通道数)，多尺度池化金字塔模块的具体结构为：输入特征InFeat(h×w×n)→并行四路池化特征提取层→级联层→卷积层(3×3×4n×n)→输出特征OutFeat(h×w×n)。四路池化特征提取层结构相似，以第一路为例，其结构为：池化层(1×1)→卷积层(1×1×n×n)→归一化层→双线性插值层(h×w×n，参数为插值后得到的特征尺寸：高×宽×通道数)→池化特征。四路池化特征提取层区别在于池化层的参数不同，其他三路的池化格参数分别为2×2、3×3、6×6。

步骤2：构建自蒸馏学习结构。

步骤1中获得了四组分支蒸馏特征和一组输出端蒸馏特征，在这五组蒸馏特征基础上构建自蒸馏学习结构。

本发明的自蒸馏学习包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构。

分支一致性蒸馏学习结构如图3所示。将四组分支蒸馏特征Sub1 softmax、Sub2softmax、Sub3 softmax、Sub4 softmax互相作为蒸馏对的学生端与教师端，生成12组蒸馏对。本发明中蒸馏对表示为(A→B)，其中箭头起点为教师端、终点为学生端。12组蒸馏对可表示为：(Sub1 softmax→Sub2 softmax)、(Sub1 softmax←Sub2 softmax)、(Sub1softmax→Sub3 softmax)、(Sub1 softmax←Sub3 softmax)、(Sub1 softmax→Sub4softmax)、(Sub1 softmax←Sub4 softmax)、(Sub2 softmax→Sub3 softmax)、(Sub2softmax←Sub3 softmax)、(Sub2 softmax→Sub4 softmax)、(Sub2 softmax←Sub4softmax)、(Sub3softmax→Sub4 softmax)、(Sub3 softmax←Sub4 softmax)。

自下而上蒸馏学习结构如图4所示。将输出蒸馏特征Sub0 softmax作为教师端，将四组分支蒸馏特征分别作为学生端进行蒸馏学习，生成4组蒸馏对。具体为：(Sub0softmax→Sub1 softmax)、(Sub0 softmax←Sub2 softmax)、(Sub0 softmax→Sub3softmax)、(Sub0 softmax←Sub4 softmax)。

步骤3：自蒸馏训练。

1、模型训练时，将原始图像和其分割标注图尺寸调整为288×288×3。设置批处理大小为8，训练迭代次数为20轮，初始学习率设置为0.01，衰减系数设置为0.0005。

2、定义Loss函数，给定训练数据集D＝{(x_i,y_i)|i＝1,2,...,N}，其中x_i表示数据集中第i个图像数据，N为数据集包含的图像数量，y_i∈(1,...,K)表示其对应的像素级标注图，K为预测类别数量，本发明中K＝2。W_m为网络主体(不涉及自蒸馏网络)的权重矩阵,

为自蒸馏结构中的辅助分类网络权重矩阵，M为辅助分类网络个数，本发明中M＝5，且将辅助分类网络在总体网络中连接的具***置记为A＝{a_i|i＝1,2,...,M}。本发明自蒸馏学习的总体损失函数表示为：

式(1)中L_m为网络主体的学习损失函数，在发明中为交叉墒损失函数：

式(1)中L_s为自蒸馏网络的预测结果相对于标注图产生的预测损失。在本发明中为KL散度损失与结构化相似性损失的融合，具体如下：

其中第一项为交叉墒损失，具体如公式(5)所示。第二项为结构化相似性损失具体如公式(6)所示。

公式(6)中SSIM(*,*)为结构化相似相度量，其用图像区域的亮度、对比度、结构差异度量两幅图像的结构化差异。将

简写为f^k(x_i)，公式6中结构化相似性具体为：

其中

分别为

和f^k(x_i)的均值与标准差，

为

和f^k(x_i)之间的协方差。C₁＝0.01²、C₂＝0.03²为两个常数。

公式(1)中L_k本发明自蒸馏结构的蒸馏损失，具体如公式(8)所示。第一项为两个蒸馏辅助分类器输出的KL散度损失，其中KL(*)为KL距离。第二项为两者的结构化相似性损失。λ₁、λ₂为两个权重参数，本发明中分别设置为0.8、0.2。

3、模型实验。将HRNet的原始分割网络作为基准模型进行训练、测试。在基准模型上构建本文自蒸馏结构进行训练，移除自蒸馏结构后网络进行前向推断，获得目标分割结果。通过比较基准模型与经自蒸馏学习后的模型预测结果，验证本发明对HRNet分割任务的性能提升效果。

实验数据集为4个公开的目标分割数据集，分别为：(1)COD(Deng-Ping F.,etal.Camouflaged Object Detection[C].CVPR,2020)是一个自然伪装目标数据集，包含了10000幅自然伪装图像。(2)CPD(Fang Z.,et al.Camouflage people detection viastrong semantic dilation network[C].The ACM Turing Celebration Conference-China,2019)是一个迷彩伪装单兵数据集，包含了2600副迷彩伪装单兵图像。(3)DUT-OMRON(Yang C.,et al.Saliency Detection via Graph-Based Manifold Ranking[C].CVPR,2013)是一个包含5168副图像的显著性目标数据集。(4)PASCAL-S(Radhakrishna A.,etal.,Frequency-tuned salient region detection[C].CVPR,2009)是一个包含850副图像的显著性目标数据集。模型训练与测试按照0.6、0.4的比例分割数据集获得训练数据与测试数据。

本发明使用目标分割任务中常用的F值(F-measure)(Radhakrishna A.,et al.,Frequency-tuned salient region detection[C].CVPR,2009)评价并比较基准模型和自蒸馏模型的性能。正确检出的目标区域面积占标准图中目标区域面积的比例为准确率(precision)，准确率侧重于衡量算法检测目标区域的准确程度。正确检出的目标区域面积占算法检出所有目标区域的比例为召回率(recall)，召回率侧重于衡量算法检测目标区域的完整程度。F值是融合检测准确率和召回率的综合评价指标，F值的计算公式如式(9)所示，公式中β设置为0.3。

表1(单位为％)

实验结果如表1所示，在四个典型目标分割数据集上，本发明将HRNet模型的性能平均提升了1.417个百分点，有效提升了HRNet基准模型的目标分割性能。

Claims

1.一种基于多尺度池化金字塔的HRNet自蒸馏目标分割方法，其特征在于，包括：

2.根据权利要求1所述的基于多尺度池化金字塔的HRNet自蒸馏目标分割方法，其特征在于，步骤1所述将多尺度池化金字塔模块分别与HRNet的分支特征、输出特征级联，获得4组分支蒸馏特征和1组输出端蒸馏特征，具体如下：

3.根据权利要求2所述的基于多尺度池化金字塔的HRNet自蒸馏目标分割方法，其特征在于，所述多尺度池化金字塔模块PSPModule，具体如下：

4.根据权利要求1所述的基于多尺度池化金字塔的HRNet自蒸馏目标分割方法，其特征在于，步骤2中自蒸馏学习结构包含分支一致性蒸馏学习结构和自下而上蒸馏学习结构，其中：

融合以上16组蒸馏对构成自蒸馏学习结构。

5.根据权利要求1所述的基于多尺度池化金字塔的HRNet自蒸馏目标分割方法，其特征在于，步骤3所述融合KL散度、交叉墒损失、结构化相似性损失构成自蒸馏学习损失函数进行模型训练，具体如下：

给定训练数据集D＝{(x_i,y_i)|i＝1,2,...,N}，其中x_i表示数据集中第i个图像数据，N为数据集包含的图像数量，y_i∈(1,...,K)表示对应的像素级标注图，K为预测类别数量；W_m为网络主体的权重矩阵,W_s＝{W_s ^l|l＝1,2,...,M}为自蒸馏结构中的辅助分类网络权重矩阵，M为辅助分类网络个数，且将辅助分类网络在总体网络中连接的具***置记为A＝{a_i|i＝1,2,...,M}；

自蒸馏学习的总体损失函数表示为：