CN117113274A

CN117113274A - 基于联邦蒸馏的异构网络无数据融合方法、***

Info

Publication number: CN117113274A
Application number: CN202311092271.XA
Authority: CN
Inventors: 段昕汝; 陈桂茸; 陈爱网; 陈晨; 姬伟峰; 闫家栋
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-11-24

Abstract

本发明公开了一种基于联邦蒸馏的异构网络无数据融合方法、***，属于信息处理技术领域，对不同作战***间的信息，通过联邦学习方法训练CGAN模型并用于优化本地数据，生成具有独立同分布特性的训练集，提高模型训练效率和精度；利用CGAN网络生成用于蒸馏的转移集而不是从源数据中迁移出少量的样本，满足数据的保密性要求，以无数据的方式迁移局部模型知识；利用联邦蒸馏的方法对局部模型进行聚合，弱化了传统联邦学习算法中局部模型和全局模型的同构要求，使持有数据的边缘服务器可以根据本地数据结构针对性的设计局部模型，缓解了标准化数据预处理可能造成的信息丢失。

Description

基于联邦蒸馏的异构网络无数据融合方法、***

技术领域

本发明涉及信息处理技术领域，尤其涉及基于联邦蒸馏的异构网络无数据融合方法、***。

背景技术

随着云计算、大数据、物联网、无人技术等为代表的现代信息技术在军事领域的广泛应用，装备体系快速发展，作战装备持续更新换代，进一步推动了战争形态和作战技术的加速变革，未来战争呈出信息化、智能化、协同化发展趋势。联合作战是打赢现代和未来战争的必然要求，在联合作战体系中，数据作为支撑高效指挥决策的战略资源，发挥着重要的底层支撑作用，数据妥善管理和高效利用成为推动作战能力整体跃迁和作战样式深度变革的重要动力。实现不同作战***间的数据安全互联对进一步发挥数据资源在指挥决策中的支撑作用，实现高速计算、存储、检索的智能数据融合体系，构建大数据驱动的智能化模型，对加快推进智能化复杂网络信息***建设，助力军事智能化发展具有重要意义。

由于前期***建设的阶段性和独立性，以及战略目的的针对性，不同***间隔离程度较高，数据孤岛成为军事数据建设的关键掣肘。同时军事数据的特殊战略性地位，使得大数据在军事领域的应用如同双刃剑，在加快国防军队现代化的同时也要充分考虑信息化过程中隐藏的信息泄露的风险

在智能化技术快速发展的背景下，为了更好利用现有的各类数据资源，打破数据壁垒，需要一种安全可靠的方法对现有的信息资源进行全面整合，规避因信息泄露而带来的各类风险。传统的机器学习技术具有中心化的特性，可能带来严重的数据安全问题。联邦学习在保证数据不出本地的情况下，由边缘服务器利用其本地数据训练生成局部模型，并用于全局共享，避免了大量数据传输带来的通信开销和隐私风险，为整合数据资源提供了新方法。

然而现有技术中由于聚合算法的限制，要求所有参与联邦训练的设备模型完全同构，且尚未充分考虑数据异构性问题，而在实际情况下异构性往往是普遍存在的，特别是针对局部设备的数据来说，各方采集的数据存在较大的差异性，往往存在两种异构性，即分布异构性和结构异构性可能导致收敛缓慢或全局模型飘移问题。其次，在传统联邦学习算法中，如FedAvg等，通常使用相同的模型结构和训练策略，然而针对不同类型的样本数据，提取结构往往具有较大差异，使用统一模型训练不利于提高精度。同时传统的联邦学习技术在每轮训练中交换模型梯度，产生了大量的通信开销，由于本地数据分布训练可能存在较大偏差，影响模型收敛速率和精度。

发明内容

针对上述存在的问题，本发明旨在提供一种基于联邦蒸馏的异构网络无数据融合方法、***，通过智能化技术融合多个分散节点的本地私有数据信息，针对性设计网络模型，同时在不迁移源数据的条件下联合训练神经网络模型，有效地提高联邦学习***的数据资源利用率，为建设智能化信息***提供技术支撑。

为了实现上述目的，本发明所采用的技术方案如下：

基于联邦蒸馏的异构网络无数据融合方法，其特征在于，包括以下步骤，

S1：建立中心化联邦架构，在联合作战***内相应的服务器节点上部署联邦学习方案，并通过中央服务器节点协调各边缘服务器节点；

S2：中央服务器初始化全局神经网络模型和CGAN模型；

S3：使用联邦学习的方法训练CGAN网络模型；

S4：边缘服务器利用CGAN优化数据分布使其具有满足独立同分布特性，构建局部神经网络模型并独立训练得到局部参数化模型，发送局部参数化模型至中央服务器；

S5：中央服务器利用样本标签和CGAN网络生成转移集，以多个边缘服务器训练的局部参数化模型作为教师模型，通过生成转移集训练全局神经网络模型。

进一步的，步骤S1的具体操作包括以下步骤，

S101：由中央服务器确定训练任务并进行广播；

S102：边缘服务器基于本地数据对训练任务进行评估，确定是否参与本次训练任务并向中央服务器发送响应；

S103：中央服务器从响应集选取参与训练任务的边缘服务器并部署联邦学习方案。

进一步的，步骤S3的具体操作包括以下步骤，

S301：中央服务器发送CGAN参数化模型至参与模型训练的边缘服务器；

S302：边缘服务器基于本地私有数据训练CGAN网络；

S303：边缘服务器计算模型梯度，并将梯度加密传输至中央服务器；

S304：中央服务器接收梯度参数，并通过加权平均的方法对模型更新进行计算全局损失进而更新CGAN网络；

S305：中央服务器将更新后的全局CGAN模型发送至所有边缘服务器进行下一轮迭代，直至模型收敛；

S306：中央服务器将训练好的CGAN参数化模型和全局模型发送至边缘服务器。

进一步的，步骤S302中训练CGAN网络的具体操作包括

其中，为边缘服务器的CGAN参数化模型，θ^G为生成器，θ^D为判别器，α为学习率。

进一步的，步骤S304中通过加权平均的方法对模型更新进行计算全局损失的具体操作为：

其中，为生成模型在边缘服务器k上的损失。

进一步的，步骤S4的具体操作包括以下步骤，

S401：各边缘服务器通过CGAN纠正本地数据分布，生成训练集，使其与其他边缘服务器节点训练集满足IID特性；

S402：各边缘服务器根据训练集样本结构针对性设计神经网络模型，完成初始化；

S403：各边缘服务器独立训练局部参数化模型直至模型收敛；

S404：各边缘服务器发送局部参数化模型至中央服务器。

进一步的，步骤S5的具体操作包括以下步骤，

S501：中央服务器利用样本标签和CGAN生成转移集；

S502：中央服务器以多个边缘服务器训练的局部模型作为教师模型，通过生成转移集训练全局神经网络模型；

其中，为全局模型的知识蒸馏损失；/>为学生模型预测与真实标签的损失，/>为教师模型和学生模型的最小化对数输出之间的差异，p_global为教师和学生模型的软判决向量。

进一步的，一种实施前述所述的基于联邦蒸馏的异构网络无数据融合方法的信息无数据融合***，其特征在于，包括中央服务器和多个边缘服务器，服务器节点上部署有联邦学习方案，并通过中央服务器节点协调各边缘服务器节点。

本发明的有益效果是：

1、本发明提出了一种基于联邦蒸馏的异构网络无数据融合方法，为实现不同作战***间信息的互联互通，针对传统联邦学习算法中存在的***安全性、数据异构性、目标差异性问题加以改进，在传统的联邦优化算法的基础上加以改进，引入知识蒸馏用于解决各单位普遍存在的数据异构性问题，同时使用聚合知识细化服务器模型代替直接聚合的模型参数，强化了联邦学习***的安全性，通过保持聚合服务器对局部模型结构的不可知性，减少安全风险保护代理数据；利用CGAN网络集成局部信息和数据成分布知识调节全局模型训练，实现不依赖于任何外部数据模型知识蒸馏。通过4组实验数据集验证了方法的有效性，实验结果表明，对比于其他三种联邦学习算法，本方法可以使用更少聚合轮数达到更好的效果，在收敛速度和模型精度上优于现有的联邦学习算法，可以有效减少边缘服务器和中央服务器之间的通信。

2、本发明中的联邦无数据融合方法将局部模型的训练从全局中解耦出来，以便根据局部目标调整训练算法与网络模型结构，允许多个数据源针对性训练局部模型；利用教师-全局模型架构提取知识而不是直接对局部模型参数进项加权平均，允许对局部训练算法和模型结构保持一定的不可知性；利用CGAN实现数据增强，提高模型训练效率和收敛速度，减小通信开销，使用无数据融合的方法，用生成数据代替本地小批量样本作为转移集，保证了本地数据源的安全性。

附图说明

图1为本发明中融合方法流程框图；

图2为本发明中总体框架示意图；

图3为本发明中CGAN的架构示意图；

图4为本发明中CGAN数据增强示意图；

图5为本发明中联邦无数据蒸馏聚合示意图；

图6为本发明仿真实验中不同数据集上各算法模型准确率对比结果；

图7为本发明仿真实验中不同数据集上各算法模型损失对比结果。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

实施例一：

如附图1和附图2所示，基于联邦蒸馏的异构网络无数据融合方法，包括以下步骤，

S1：建立中心化联邦架构，在联合作战***内相应的服务器节点上部署联邦学习方案，并通过中央服务器节点协调各持有数据的服务器节点，即边缘服务器节点，共同训练CGAN模型；

条件生成对抗网络(CGAN)的架构图如附图3所示，包括生成器G和鉴别器D，在训练过程中受到类标签y的制约，生成器通过学习训练数据集生成对应标签的样本(x^*|y)，鉴别器则学习区分真实样本(x，y)与生成样本(x^*|y，y)。

步骤S1的具体操作包括以下步骤，

S101：由中央服务器确定训练任务并进行广播；

S103：中央服务器从响应集选取参与训练任务的边缘服务器并部署联邦学习方案；

进一步的，步骤S2：中央服务器初始化全局神经网络模型和CGAN模型；

本发明中神经网络模型采用卷积神经网络(CNN)：CNN是一种带有卷积结构的深度神经网络，采用了局部连接和权值共享的方式减少权值数量，降低了模型复杂度，同时缓解了模型过拟合问题。卷积神经网络常被用于图像处理，以图像直接作为网络输入，通过隐含层中的卷积层和池化层实现特征提取，并通过梯度下降法最小化损失函数，进而对网络中的权重逐层反向调节，通过多轮迭代训练提高网络的精度。

卷积神经网络的隐藏层一般包括低隐层和高隐层，其中低隐层有卷积层和池化层交替组成，高隐层为全连接层，对应传统多层感知机的隐藏层和逻辑回归分类器，第一个全连接层的输入是由卷积层和池化层进行特征提取后得到的特征图像。输出层是一个分类器，通常采用逻辑回归或Softmax回归等，用于对输入图像进行分类。其中，卷积层利用一个可训练滤波器f(x)与输入图像进行卷积运算，并叠加偏置b_x，可以对原始信号中的某些特征加以增强同时降低噪声，得到卷积层C_x。池化层通常采用降采样形式，通过多种形式的池化函数，如最大池化(Maxpooling)，减小数据空间，在保证特征不变性的同时防止过拟合。全连接层采用softmax全连接，将低隐层提取到的图片特征作为激活值进行后续运算。

进一步的，步骤S3：使用联邦学习的方法训练CGAN网络模型；

具体的，S301：中央服务器发送CGAN参数化模型至参与模型训练的边缘服务器；

S302：边缘服务器基于本地私有数据训练CGAN网络；

全局损失的计算方法为：

其中，为生成模型在边缘服务器k上的损失。

进一步的，步骤S4：边缘服务器利用CGAN优化数据分布使其具有满足独立同分布特性，构建局部神经网络模型并独立训练得到局部参数化模型，发送局部参数化模型至中央服务器；

具体的，S401：各边缘服务器通过CGAN纠正本地数据分布，生成训练集，使其与其他边缘服务器节点训练集满足IID特性；

S403：各边缘服务器独立训练局部参数化模型直至模型收敛；

S404：各边缘服务器发送局部参数化模型至中央服务器。

进一步的，步骤S5：中央服务器利用样本标签和CGAN网络生成转移集，以多个边缘服务器训练的局部参数化模型作为教师模型，通过生成转移集训练全局神经网络模型。

具体的，S501：中央服务器利用样本标签和CGAN生成转移集，实现数据增强；

局部设备利用生成器聚合知识识别出本地数据样本中缺少的目标标签，基于目标标签生成与全局数据分布相似的高质量样本以实现样本增强直至满足IID特性，使全局数据分布P_joint与局部数据分布P_k满足P_k＝P_joint，如附图4所示。

S502：中央服务器以多个边缘服务器训练的局部模型作为教师模型，通过生成转移集训练全局神经网络模型，如附图5所示；

其中，为全局模型的知识蒸馏损失；/>为学生模型预测与真实标签的损失，/>为教师模型和学生模型的最小化对数输出之间的差异，p_global为教师和学生模型的软判决向量；/>和p_global使用Kullback-Leibler散度来衡量，

仿真实验：

在该仿真实验中，认为边缘服务器中的源数据具有较高的保密性，因此针对CGAN网络训练采取联邦学习的方法，以保护数据安全。其次持有数据的边缘服务器具有一定的计算能力，可以利用本地私有数据训练CGAN参数化模型并对模型参数进行加密计算。在每轮训练中，边缘服务器基于上一轮性训练生成的全局模型进行训练，并计更新。

本仿真实验中，选取了不同数据集用以验证方法的有效性，包含广泛用于机器学习任务研究和评估的MNIST、EMNIST、CELEBA数据集和真实FOQA数据集。其中，MNIST数据集包含了70000个灰度图像样本，每个样本的维度为28x28像素，对应10类样本标签；EMNIST数据集是基于MNIST数据集扩展而来的一个数据集，包含大写字母、小写字母、数字和符号等6类样本；CELEBA数据集包含10177个名人身份的202599张图片样本，并且都做好了特征标记，每个图像都附带了40个不同的属性标签。FOQA数据集是NASA研究团队开源的真实数据集，包括99837个不同航线的样本数据对应4类标签，数据集中每个数据样本为160×20维。

实验将MNIST数据集划分为20个非独立同分布子集作为边缘服务器的本地私有数据，每个子集中包括本地训练集、本地验证集、本地测试集。此外，所有子集之间无相同样本。

实验基于中心化的***架构开展，包括1个聚合服务器和20个边缘训练节点，将训练集和测试集分成20组分发至不同的模拟边缘训练节点以还原实际应用场景中不同节点间数据相互隔离的设定。实验设置了200轮迭代，并对所有边缘节点使用相同的超参进行设置，批处理大小epochs为32，学习率为0.01，优化器为Adam，蒸馏温度参数为10。

为了反应本发明中的有效性及可用性，实验结合卷积神经网络将本发明所提出的FedND算法与FedAvg算法、FedProx算法、FedDistill算法性能进行对比，并采用如下指标对实验结果进行评估：

(1)准确率Accuracy：分类正确的样本占全部测试样本的比例；

(2)模型损失Loss：衡量全局模型的预测结果与真实标签之间的差异程度，记录全局模型的损失函数变化趋势。

为了验证本算法对于异构样本的有效性，本发明利用多种数据数据集进行对比实验。对于MNIST和EMNIST数据集我们使用dirichlet函数将数据集划分为20组，通过调整Dirichlet分布参数来控制生成的每组分配的样本数，使得每个数据子集的样本分布不同，满足数据异构性设定，并用于训练本地模型；对于CELEBA随机将属于不同名人的图片聚集成不相交的组来增加了数据的异构性；对于FOQA数据集随机划分不同样本数据来表现数据子集的异构性。

在4个数据集上不同算法的仿真结果对比附图6所示，图中展示了不同算法下模型训练收敛过程的对比，图示中横坐标表示训练轮数，纵坐标表示模型精确度。实验结果中显示，在迭代轮数小于200轮时通过本算法能够更快的进行学习使全局模型收敛，且从模型精度上来看本方法略优于其他3个对照组。图6的结果表明了在相同的条件下，本方法可以以更小的通信轮数达到更优的训练效果，减小了模型收敛所需的交互次数，从而减少实际应用中的通信开销和信息暴露面。

此外，附图7给出了不同算法下模型训练过程的损失对比，横坐标表示训练轮数，纵坐标反映了全局模型损失函数的变化情况。图中可以看出，随着迭代轮数的增加，FedND在实验数据集上取得了更低的损失。

为进一步探讨本方法下数据异构性对模型精度的影响，我们利用MNIST和EMNIST数据集开展进一步验证。利用numpy库中的Dirichlet分布函数对数据子集的异构性程度进行量化，通过设置超参数α的值控制分布的形状，进而验证本方法下数据分布的异构程度与模型精度之间的关系。实验结果如下表1所示，其中α值越大表示在样本概率分布更集中，数据子集间的分布异构性越弱，α值越小则概率分布更分散，数据子集间的分布异构性越强。首先实验结果表明，在同样的超参数条件下本文所提出的方法在模型精度上略高于其他对照组。其次，实验结果反映了数据异构性对模型性能的影响：FedND对不同量级的异构性具有鲁棒性，特别是当数据分布高度异构时，本方法对全局模型的增益效果更为显著。

表1MNIST和EMNIST数据集上的模型精度

实施例二：

实施例二提供一种实施实施例一中所述的基于联邦蒸馏的异构网络无数据融合方法的信息无数据融合***，其特征在于，包括中央服务器和多个边缘服务器，服务器节点上部署有联邦学习方案，并通过中央服务器节点协调各边缘服务器节点。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于联邦蒸馏的异构网络无数据融合方法，其特征在于，包括以下步骤，

S2：中央服务器初始化全局神经网络模型和CGAN模型；

S3：使用联邦学习的方法训练CGAN网络模型；

2.根据权利要求1所述的基于联邦蒸馏的异构网络无数据融合方法，其特征在于，步骤S1的具体操作包括以下步骤，

S101：由中央服务器确定训练任务并进行广播；

3.根据权利要求2所述的基于联邦蒸馏的异构网络无数据融合方法，其特征在于，步骤S3的具体操作包括以下步骤，

S302：边缘服务器基于本地私有数据训练CGAN网络；

4.根据权利要求3所述的基于联邦蒸馏的异构网络无数据融合方法，其特征在于，步骤S302中训练CGAN网络的具体操作包括

5.根据权利要求4所述的基于联邦蒸馏的异构网络无数据融合方法，其特征在于，步骤S304中通过加权平均的方法对模型更新进行计算全局损失的具体操作为：

其中，为生成模型在边缘服务器k上的损失。

6.根据权利要求3所述的基于联邦蒸馏的异构网络无数据融合方法，其特征在于，步骤S4的具体操作包括以下步骤，

S403：各边缘服务器独立训练局部参数化模型直至模型收敛；

S404：各边缘服务器发送局部参数化模型至中央服务器。

7.根据权利要求6所述的基于联邦蒸馏的异构网络无数据融合方法，其特征在于，步骤S5的具体操作包括以下步骤，

S501：中央服务器利用样本标签和CGAN生成转移集；

其中，为全局模型的知识蒸馏损失；/>为学生模型预测与真实标签的损失，为教师模型和学生模型的最小化对数输出之间的差异，p_global为教师和学生模型的软判决向量。

8.一种实施权利要求1-7任一项所述的基于联邦蒸馏的异构网络无数据融合方法的信息无数据融合***，其特征在于，包括中央服务器和多个边缘服务器，服务器节点上部署有联邦学习方案，并通过中央服务器节点协调各边缘服务器节点。