CN114897155A

CN114897155A - 一种用于卫星的集成模型无数据压缩方法

Info

Publication number: CN114897155A
Application number: CN202210328123.2A
Authority: CN
Inventors: 胡晗; 郝志伟; 徐冠宇; 安建平
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-08-12

Abstract

本发明公开的一种用于卫星的集成模型无数据压缩方法，属于卫星通信深度学习领域。针对在卫星上部署神经网络模型需要消耗大量存储及计算资源，且原始训练数据无法获取的问题，本发明通过建立极小‑极大优化目标训练一个生成器模型合成替代数据，并使用生成数据将卫星端的多个历史版本模型压缩为一个具有多分支结构的轻量模型；然后使用卫星端更新模型时的少量标注数据，训练注意力模型动态聚合各分支预测结果。本发明以无需数据的形式将卫星端模型更新过程中产生的多个历史版本模型压缩，以较小的精度损失为代价，大幅度减少模型所需的存储空间及浮点运算次数，节约卫星上宝贵的存储及计算资源。

Description

一种用于卫星的集成模型无数据压缩方法

技术领域

本发明涉及一种神经网络模型压缩方法，尤其涉及一种用于卫星的集成模型无数据压缩方法，属于卫星通信深度学习领域。

背景技术

近年来，深度神经网络(Deep Neural Network，DNN)逐渐成为最常见的机器学习模型之一，并且在多个计算机视觉或自然语言处理领域的任务上取得了接近或超过人类专家的表现。随着航天技术的发展和国防需求的提升，将DNN模型部署在卫星上，在卫星端完成智能推理任务逐渐成为迫切需求。在这一场景中，DNN模型通常在地面端完成训练，随后远程部署于卫星端。由于输入数据的分布通常随时间缓慢变化，卫星端需要定期根据新获取的观测数据更新模型以保证模型性能。对于DNN，不同更新阶段的模型都可以视为不同的个体，将这些不同的模型预测结果进行评价通常可以实现明显的精度提升。由于该预测方式与集成方法相似，我们将这些模型的整体称为集成模型。然而，由于卫星端通常存在有限存储及计算资源的约束，难以承受对每个输入数据都使用所有模型执行推理的开销，因此首先需要压缩集成模型，才能实现接下来的推理过程。

常见的模型压缩技术包括量化(Quantization)、剪枝(Pruning)及知识蒸馏(Knowledge Distillation，KD)，这些技术的共同点是均需要原始训练数据的参与。其中量化及剪枝需要使用训练数据对压缩后的模型进行微调(Fine-tune)，KD需要使用训练数据从头训练一个小尺寸模型。然而在卫星端，存在于地面的原始训练数据往往由于传输开销或跨域传输的安全性问题不可获取，因此上述方法难以奏效。

近期有部分论文提出了基于KD的无数据模型压缩方法，然而这些方法都是针对仅存在单个待压缩模型的场景设计，无法适用于无数据场景下集成模型的压缩。此外，卫星端更新模型时使用的少量真实转测数据是可以获取的，如何利用这些数据辅助以进一步提升压缩后模型的性能同样需要设计合理的方法。

发明内容

针对卫星端的计算及存储资源有限，难以对每个输入数据都使用所有模型执行推理的情况，本发明的主要目的是提出一种用于卫星的集成模型无数据压缩方法，以一种在仅少量数据可获取场景下的预测结果聚合机制，实现无需数据的集成模型压缩，提高模型的利用率及推理能力，节省卫星上存储及计算资源。

本发明的目的是通过如下技术实现的：

本发明公开的一种用于卫星的集成模型无数据压缩方法，通过建立极小-极大优化目标训练一个生成器模型合成替代数据，并使用生成数据将卫星端的多个历史版本模型压缩为一个具有多分支结构的轻量模型；然后使用卫星端更新模型时的少量标注数据，训练注意力模型动态聚合各分支预测结果。以无需数据的形式将卫星端模型更新过程中产生的多个历史版本模型压缩，以较小的精度损失为代价，大幅度减少模型所需的存储空间及浮点运算次数，节约卫星上宝贵的存储及计算资源。

本发明公开的一种用于卫星的集成模型无数据压缩方法，具体包含以下步骤：

步骤一：准备当前阶段可用的集成模型及标注数据；

卫星端经历数次本地模型更新后，存在多个版本的DNN模型及模型更新过程中收集到的少量标注数据。这些模型全体将作为集成模型，在后续步骤中被压缩，标注数据将用于进一步提升压缩后模型的性能。

步骤二：根据集成模型数量确定压缩后模型的结构，保留集成模型带来的性能增益；

压缩后的模型由两部分组成，分别是主干网络部分和多个分支网络部分，其中各分支网络直接与主干网络相连接。在卫星端统计完毕待压缩模型的数量后，将分支网络数量设置为此数量，并按顺序给各分支网络与待压缩模型一一配对，每个分支网络将用来学***均就作为压缩后模型的最终输出。由于压缩后的模型具有相互隔离的多个分支网络结构，每个分支在训练后可以学习到其对应待压缩模型的特征表示，因此最终压缩后的模型内具有所有待压缩模型的特征表示，保留了集成模型带来的性能增益。

步骤三：使用无数据集成模型压缩方法训练目标模型，保证压缩后模型具备集成模型的性能增益；

给定压缩后模型的后，在卫星端使用生成器模型合成数据作为原始训练数据的替代，并使用这些替代数据完成压缩后模型的训练。生成器模型由DNN构成，其输入为服从高斯分布的随机向量，输出为合成后的替代数据。压缩后的模型需要在替代数据上保持与待压缩模型相近的输出结果，具体而言，压缩后模型的每个分支需要与其对应的待压缩模型具有相似的输出，表述为：

其中G为生成器模型，S₀为压缩后模型的主干网络，S_n为压缩后模型的第n个分支网络，T_n为与S_n对应的待压缩模型，

为度量T_n与S_n输出之间差异的函数，可以为L-P范数或KL散度，z为服从多元高斯分布的随机向量。

在每轮迭代中，生成器模型需要合成尽可能困难的样本，以促进压缩后模型困难样本上对待压缩模型特征表示的学习。具体的，困难样本定义为使压缩后模型的分支与对应的待压缩模型具有不同的输出的样本，因此生成器模型的目标函数定义如下：

在整个训练过程中，生成器模型与压缩后模型的训练使同步进行的，整体构成了一个极小-极大优化问题，表述如下：

此外，为了使替代样本与原始训练数据尽可能相似，还应使用待压缩模型中的归一化层约束生成器模型的输出。具体的，生成器模型还应该保证输出在待压缩模型的归一化层处具有与原始训练数据具有相近的均值与方差表述为：

其中μ_n，l(x)和σ_n，l(x)分别表示第n个待压缩模型以x为输入时在第l个归一化层处激活值的均值和方差，

和

分别表示第n个待压缩模型以原始训练数据为输入时在第l个归一化层处激活值的均值和方差，这些值是待压缩模型的固有参数。使用随机梯度下降求解上述优化问题后，即完成了集成模型的压缩，同时保证了压缩后模型具备集成模型的性能增益。

步骤四：使用标注数据训练预测结果聚合模型，进一步提升精度；

卫星端在历次模型更新的过程中收集了少量标注数据，使用这些数据训练注意力模型以动态聚合压缩后模型各分支预测结果，相比于取平均作为预测结果进一步提升精度。基于注意力机制的分支预测结果的动态聚合过程表述为：

其中attn(S(x)，q)为聚合后的预测结果，S(x)为压缩后模型以x为输入时，其所有分支输出组成的矩阵，q为可训练的查询向量，s(·)为注意力打分函数，通常使用点积模型计算，即s(S_n(x)，q)＝S_n(x)^Tq。查询向量q的目标函数表述如下：

其中

表示可获取原始数据中的训练样本集合，

表示对应的监督信号集合，

为评估聚合结果与标签间差异的损失函数。查询向量的求解同样由随机梯度下降算法完成。

步骤五：将获得得压缩模型部署到卫星端，用于执行其预设的智能推理任务，提高模型的利用率及推理能力，节省卫星上存储及计算资源。

有益效果

1、本发明公开的一种用于卫星的集成模型无数据压缩方法，使用生成器模型合成的替代数据，将多个集成模型压缩为单独的轻量模型，与直接在卫星上部署原始DNN模型的方法相比，本方法在原始训练数据难以获取的卫星上压缩需要运行的模型，极大的节省卫星上有限的存储及计算资源；

2、本发明公开的一种用于卫星的集成模型无数据压缩方法，具有多分支的压缩后集成模型结构，与将待压缩模型分别压缩为独立小模型的方法相比，本方法可以实现更高的模型压缩率；与将待压缩模型压缩为单一模型的方法相比，本方法可以在压缩集成模型尺寸的同时尽可能保留下集成模型内由多样特征表示带来的性能增益，实现更高模型压缩比并具有更小的精度损失；

3、本发明公开的一种用于卫星的集成模型无数据压缩方法，基于注意力机制的分支预测结果动态聚合模型，与使用平均法、投票法等传统集成模型预测结果聚合方法相比，本方法中的分支结果聚合权重是随输入样本自适应的，聚合后的结果具有更高的预测精度。

附图说明

图1为本发明公开的一种用于卫星的集成模型无数据压缩方法的流程示意图。

图2为本发明实施例中具有多分支的压缩后模型结构的示例。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明，同时论述本发明的技术方案解决的技术问题及有益效果。需要指出的是，所描述的实施例旨在便于对本发明的理解，对本发明不起任何限定作用。

实施例1

本实施例论述的是本发明公开的一种用于卫星的集成模型无数据压缩方法在卫星端存在多个历史更新模型，且原始训练数据不可获取的场景中的应用。具体实施步骤如下：

步骤一、准备可用的集成模型和标注数据；

卫星端经过历次模型更新已经存储下多个历史版本的模型，本实施例中使用在CIFAR100数据集上以不同的随机初始化训练的3个ResNet34模型作为多个历史版本模型。在训练时，每个ResNet34模型在CIFAR100数据集上训练200轮，批量大小设置为256，模型参数由带有动量的批量随机梯度下降方法优化。初始学习率设置为0.1，并分别在第80和120轮迭代后将学习率衰减10倍，动量系数设置为0.9，权值衰减系数设置为5×10^-4。将训练完成的模型分别标记为T_n，其中n∈{1，2，3}。

可用的标注数据由在CIFAR100数据集中随机抽取的1％样本模拟，记其中数据的集合为

监督信号集合为

步骤二、确定压缩后的模型结构；

此实施例中各分支网络由一系列可分离卷积模块组成。压缩后的模型结构包含1个主干网络和多个分支网络，分支网络数量与卫星端可用的集成模型的数量相等。主干网络使用ResNet18模型，在特征图尺寸发生变化的点位将其分成4个模块；每个分支网络也对应的被划分为4个模块，其中每个模块由两组可分离卷积层-二维批标准化层-ReLU激活函数组成。主干网络的第m个模块的输出端与各分支网络的第m个模块的输入端相连接，其中其中m∈{1，2，3，4}。对于输入数据，主干网络首先从中提取出不同层级的4组特征，随后这些特征被送入到各分支网络中。对于第n个分支网络的第m个模块，当n＝1时，其仅以主干网络模块1的输出作为输入；当n≠1时，其同时以第n个分支网络的第m-1个模块的输出和主干网络模块m的输出作为输入，这些两组输入数据首先在通道维度被拼接在一起，并随后被送入第n个分支网络的第m个模块。图2给出了本实施例中使用的具有多分支的压缩后模型的结构。

步骤三、使用无数据集成模型压缩方法训练目标模型；

该步骤需要首先使用生成器模型合成替代数据，随后在这些替代数据的基础上以对抗的方式同时训练压缩后模型，其中生成器模型和压缩后模型的训练以相互对抗的方式交替进行。训练算法如下：

参照上述算法，生成器模型及压缩后模型的参数使用带有动量的批量随机梯度下降方法优化，其中总迭代次数设置为15000，批量大小设置为256，初始学习率设置为0.1，并分别在第5000和10000次迭代后将学习率衰减10倍，动量系数设置为0.9，权值衰减系数设置为5×10^-4。

步骤四、使用标注数据训练预测结果聚合模型；

该步骤使用可用标注数据训练一个查询向量，使用该查询向量及注意力机制聚合预测结果。训练算法如下：

参照上述算法。查询向量由Adam优化器在可用的标注数据上训练30轮次，其中批量大小设置为128，学习率设置为0.001，一阶和二阶动量系数分别设置为0.9和0.999。

步骤五、将压缩后的模型部署在卫星端，用于执行预测任务。

在本实施例中，当可用集成模型数量为3时，有如下结果：

可以看出，在原始训练数据不可用的情况下，压缩后的模型相较于原始集成模型参数量减少了72％，所需浮点运算次数减少了82％，而仅仅需要小于3％的精度损失为代价；相比于需要原始训练数据压缩模型的知识蒸馏方法，本发明提出的集成模型无数据压缩方法也可以在仅增加少量模型参数和浮点运算量的代价下实现与之相近的精度。

因此，本发明公开的一种用于卫星的集成模型无数据压缩方法，可以在原始训练数据难以获取的卫星上以较小的精度损失为代价大幅度压缩需要运行的模型，实现与需要数据的传统模型压缩方法相近的性能。相较于直接在卫星上部署原始DNN模型，由本发明方法压缩后的模型需要更少的存储空间及浮点运算次数，能够极大的节省卫星上有限的存储及计算资源。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于卫星的集成模型无数据压缩方法，其特征在于：包括如下步骤，

步骤一：准备当前阶段可用的集成模型及标注数据；

2.如权利要求1所述的一种用于卫星的集成模型无数据压缩方法，其特征在于：步骤一的实现方法为：

卫星端经历数次本地模型更新后，存在多个版本的DNN模型及模型更新过程中收集到的少量标注数据；这些模型全体将作为集成模型，在后续步骤中被压缩，标注数据将用于进一步提升压缩后模型的性能。

3.如权利要求1所述的一种用于卫星的集成模型无数据压缩方法，其特征在于：步骤二的实现方法为：

压缩后的模型由两部分组成，分别是主干网络部分和多个分支网络部分，其中各分支网络直接与主干网络相连接；在卫星端统计完毕待压缩模型的数量后，将分支网络数量设置为此数量，并按顺序给各分支网络与待压缩模型一一配对，每个分支网络将用来学***均就作为压缩后模型的最终输出；由于压缩后的模型具有相互隔离的多个分支网络结构，每个分支在训练后可以学习到其对应待压缩模型的特征表示，因此最终压缩后的模型内具有所有待压缩模型的特征表示，保留了集成模型带来的的性能增益。

4.如权利要求1所述的一种用于卫星的集成模型无数据压缩方法，其特征在于：步骤三的实现方法为：

给定压缩后模型的后，在卫星端使用生成器模型合成数据作为原始训练数据的替代，并使用这些替代数据完成压缩后模型的训练；生成器模型由DNN构成，其输入为服从高斯分布的随机向量，输出为合成后的替代数据；压缩后的模型需要在替代数据上保持与待压缩模型相近的输出结果，具体而言，压缩后模型的每个分支需要与其对应的待压缩模型具有相似的输出，表述为：

为度量T_n与S_n输出之间差异的函数，可以为L-P范数或KL散度，z为服从多元高斯分布的随机向量；

在每轮迭代中，生成器模型需要合成尽可能困难的样本，以促进压缩后模型困难样本上对待压缩模型特征表示的学习；具体的，困难样本定义为使压缩后模型的分支与对应的待压缩模型具有不同的输出的样本，因此生成器模型的目标函数可以用数学语言定义如下：

此外，为了使替代样本与原始训练数据尽可能相似，还应使用待压缩模型中的归一化层约束生成器模型的输出；具体的，生成器模型还应该保证输出在待压缩模型的归一化层处具有与原始训练数据具有相近的均值与方差，表述为：

其中μ_n,l(x)和σ_n,l(x)分别表示第n个待压缩模型以x为输入时在第l个归一化层处激活值的均值和方差，

和

分别表示第n个待压缩模型以原始训练数据为输入时在第l个归一化层处激活值的均值和方差，这些值是待压缩模型的固有参数；使用随机梯度下降求解上述优化问题后，即完成了集成模型的压缩，同时保证了压缩后模型具备集成模型的性能增益。

5.如权利要求1所述的一种用于卫星的集成模型无数据压缩方法，其特征在于：步骤四的实现方法为：

卫星端在历次模型更新的过程中收集了少量标注数据，使用这些数据训练注意力模型以动态聚合压缩后模型各分支预测结果，相比于取平均作为预测结果进一步提升精度；基于注意力机制的分支预测结果的动态聚合过程表述为：

其中attn(S(x)，q)为聚合后的预测结果，S(x)为压缩后模型以x为输入时，其所有分支输出组成的矩阵，q为可训练的查询向量，s(·)为注意力打分函数，通常使用点积模型计算，即s(S_n(x)，q)＝S_n(x)^Tq；查询向量q的目标函数表述如下：

其中

表示可获取原始数据中的训练样本集合，

表示对应的监督信号集合，

为评估聚合结果与标签间差异的损失函数；查询向量的求解同样由随机梯度下降算法完成。