CN117010484B

CN117010484B - 基于注意力机制的个性化联邦学习泛化方法、设备、应用

Info

Publication number: CN117010484B
Application number: CN202311277193.0A
Authority: CN
Inventors: 张璐; 杨耀
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2024-01-26
Anticipated expiration: 2043-10-07
Also published as: CN117010484A

Abstract

本发明涉及一种基于注意力机制的个性化联邦学习泛化方法、设备、应用，包括：初始化全局模型的共享参数并发送给预先建立连接的一个客户端，接收各个客户端经过本地训练后的共享参数以及个性化参数，基于各个客户端的共享参数更新服务端的共享参数；将已有客户端的个性化参数以及服务端的共享参数发送到未经训练的新客户端，在新客户端利用基于注意力机制的超网络生成个性化参数。新客户端采用本地数据进行训练以更新超网络参数，而非本地模型参数。即共享参数部分不变，通过超网络学习生成新客户端的个性化参数。本发明在构造新客户端的超网络时，超网络同时参考各个模型的个性化参数，以引入客户端个性化参数的相关性信息，提升最终效果。

Description

基于注意力机制的个性化联邦学习泛化方法、设备、应用

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种基于注意力机制的个性化联邦学习泛化方法、设备、应用。

背景技术

联邦学习通过共享各客户端数据训练出来的参数或梯度，在“数据孤岛”（即各个客户端之间数据不互通，也不上传至服务器）的前提下训练通用模型，保护客户端的数据隐私。个性化联邦学习是常用的联邦学习方法，目的是针对各个客户端数据分布不同，保留个性化的模型参数，适应本客户端的数据分布，以提升本地模型的效果。

个性化联邦学习涉及到一个重要问题，即如何保证模型的泛化性。具体来说，当新增客户端，尤其是可训练数据较少的客户端时，新客户端的效果往往难以保证。原因是，当数据较少时，本地模型直接进行整体参数的训练，容易出现过拟合现象，降低模型效果。

中国专利公开号CN115600686A公开了一种基于个性化Transformer的联邦学习***，该申请通过在服务端设置一个超网络并为新加入的客户端分配随机初始化的嵌入向量再利用本地数据训练新客户端的个性化模型。然而，随机初始化的可训练嵌入向量不容易收敛，另外各客户端的模型结构缺乏灵活性，仅适用于transformer一类带有注意力层的本地模型。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于注意力机制的个性化联邦学习泛化方法、设备、应用，通过缓和过拟合提高新客户端的收敛性，提高训练效果。

本发明的目的可以通过以下技术方案来实现：

本发明的一个方面，提供了一种基于注意力机制的个性化联邦学习泛化方法，应用于服务端，包括如下步骤：

初始化全局模型的共享参数并发送给预先建立连接的至少一个客户端，接收并储存各个客户端经过本地训练后的共享参数以及个性化参数，基于各个客户端的共享参数更新服务端的共享参数，多次执行本步骤直至达到终止条件；

将各个已有客户端的个性化参数以及服务端的共享参数发送到未经训练的新客户端，在新客户端利用基于注意力机制的超网络生成个性化参数，并基于新客户端的本地数据训练超网络，完成新客户端超网络个性化参数的本地更新。

作为优选的技术方案，所述的终止条件为通信轮次达到预设值。

作为优选的技术方案，所述的超网络的输入为各个已有客户端的个性化参数，输出为新客户端的个性化参数。

作为优选的技术方案，所述的基于注意力机制的超网络包括：

全连接层，用于生成隐向量；

多个标准化层以及多个设置在标准化层之间的自注意力层，用于根据隐向量生成新客户端的个性化参数。

作为优选的技术方案，所述的新客户端的共享参数采用服务端的共享参数。

作为优选的技术方案，还包括如下步骤：

接收包括经过参数初始化后新客户端在内的多个客户端的共享参数以及个性化参数，基于各个客户端的共享参数加权更新服务端的共享参数。

作为优选的技术方案，基于各个客户端的共享参数，通过加权聚合更新服务端的共享参数。

本发明的另一个方面，提供了一种基于注意力机制的个性化联邦学习泛化方法，应用于未经训练的新客户端，包括如下步骤：

接收多个已进行过本地训练的客户端的个性化参数，以及服务端经过加全局和的共享参数；

利用本地数据训练更新基于注意力机制的超网络的参数，基于多个已进行过本地训练的客户端的个性化参数，利用训练后的超网络生成新客户端的个性化参数，将服务端经过加全局和的共享参数作为新客户端的共享参数；

将更新后的个性化参数和共享参数上传至服务端。

本发明的另一个方面，提供了一种电子设备，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行上述基于注意力机制的个性化联邦学习泛化方法的指令。

本发明的另一个方面，提供了上述基于注意力机制的个性化联邦学习泛化方法的应用，针对包括服务端以及至少一个车载端的车联网，所述的个性化联邦学习泛化方法应用于所述服务端，所述服务端部署有全局模型，所述车载端部署有本地模型，所述本地模型包括共享参数以及个性化参数，所述车载端还包括用于在加入车联网时生成所述个性化参数的超网络。

与现有技术相比，本发明具有以下优点：

（1）改善新客户端训练的收敛性，提高训练效果：相比使用普通的全局平均模型做新客户端的初始化模型而后直接进行本地训练的方案，本发明使用基于注意力机制的超网络生成新客户端的个性化参数，既能保证新客户端模型的快速收敛，又避免了本地训练当中由于数据缺乏造成的过拟合，保留全局模型由于涵盖数据广泛而产生的泛化能力。不同于已有的为各个客户端分配嵌入向量以进行训练的方案，本发明的超网络训练输入即为各个已训练客户端的个性化参数，易于收敛。

（2）适用于存在多种客户端模型结构的场景，适用性强：不同于已有的部分方案会限制客户端采用某一种网络结构，本发明的每个客户端的本地模型结构不受限，举例说明，既可以为CNN，也可以为transformer，也可以为其他结构，网络结构中的个性化层作为超网络的输出，因此客户端本地的训练可以更加灵活，不受算力条件等限制，另外，本申请的超网络位于客户端而非服务器，可以根据客户端本地的情况，灵活选择是否使用超网络。

附图说明

图1为实施例中应用于服务端的联邦学习泛化方法的流程图；

图2为实施例中超网络的结构示意图；

图3为实施例中应用于新的客户端的联邦学习泛化方法的流程图；

图4为实施例中已有客户端的参数更新过程的流程图；

图5为实施例中电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

需要说明的是，在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

实施例1

为解决或部分解决现有技术中在联邦学习中加入新客户端时，新客户端的模型效果难以保证的问题，本实施例提供了一种基于注意力机制的个性化联邦学习泛化方法，以应用在服务端。本方法基于模型权重相似度的注意力机制，在新客户端使用基于模型参数相关性的注意力机制的超网络，对原各客户端的多个模型聚合训练，获得新客户端的模型参数。

本实施例中，共有N个客户端，1个服务器，通信轮次K。

参见图1，本方法包括如下步骤：

S1，随机初始化服务器的全局模型的共享参数和客户端的个性化参数{/>,…/>}；

S2，服务器发送初始化参数至每个客户端；

S3，客户端接收并更新共享参数，根据本地数据进行本地参数（包括/>和/>）的训练和更新，得到{/>,/>…/>}和{/>,/>…/>}；

S4，客户端将更新后的本地参数{,/>…/>}和{/>,/>…/>}上传至服务器；

S5，服务器接收各个客户端上传的参数，根据各客户端训练数据量对{,/>…}进行加权聚合，获得新的/>。跳转步骤S2，直至循环次数达到预设的通信轮次K；

S6，加入新客户端参与训练，将服务器中存储的共享参数/>及个性化参数{,/>…/>}传输至新客户端；

S7，在新客户端构建基于注意力机制的超网络生成本地模型参数，使用本地数据对超网络进行训练，得到本地模型的参数；

S8，将本地模型的参数传输至服务器，服务器接收各个客户端的模型参数，根据各客户端训练数据量进行加权聚合。

参见图2为基于注意力机制的超网络的结构示意图。模型的输入为已有客户端的个性化参数{,/>…/>}，输出为新客户端/>的个性化参数/>。模型包括顺次连接的全连接层、标准化层1、自注意力层1、标准化层2、自注意力层2、标准化层3。全连接层用于根据已有客户端的个性化参数生成多个与已有客户端数量匹配的隐向量。需要强调的是，本实施例中层的种类和数量可以进行改变，例如，可以使用多组标准化层、自注意力层的结构。

参见图4为已有客户端的参数更新过程，包括如下步骤：

S1，接收并更新共享参数；

S2，根据本地数据进行本地参数（包括和/>）的训练和更新，得到{/>,/>…}和{/>,/>…/>}；

S3，客户端将更新后的本地参数{,/>…/>}和{/>,/>…/>}上传至服务器。

本方法考虑客户端之间的关系，具体为引入了注意力机制，同一个超网络的输入为多个原始客户端的个性化参数，以生成新客户端的个性化参数。

为了说明本方法的优点，以下提供一种联邦学习的服务端更新算法作为对比例，其具体包括如下步骤：

Step1，随机初始化全局模型的参数；

Step2，发送全局模型参数至每个客户端；

Step3，客户端接收全局参数，进行本地参数更新；

Step4，服务器接收各个客户端参数，根据各客户端训练数据量进行加权聚合，跳转步骤2，直至循环次数达到预设的通信轮次K；

由此可见，相比使用普通的全局平均模型做新客户端的初始化模型而后直接进行本地训练，本发明使用基于注意力机制的超网络即能保证新客户端模型的快速收敛，又避免了本地训练当中由于数据缺乏造成的过拟合，保留全局模型由于涵盖数据广泛而产生的泛化能力。原因是，如果直接对初始化的客户端模型进行完整参数的训练，而该客户端整体的模型会往偏向本地数据分布的局部最优处移动，当本地数据少的时候，该最优解会距离全局的最优解非常远，从而影响本地模型的效果。然而，超网络的输入为其他客户端的模型，这样输出模型受到全局训练结果的约束，可以极大改善过拟合现象，并仍然保证新客户端的收敛效果。

在一个具体的应用场景中，针对包括服务端以及至少一个车载端的车联网，签署的个性化联邦学习泛化方法应用于服务端，服务端部署有全局模型，车载端部署有本地模型，本地模型包括共享参数以及个性化参数，车载端还包括用于在加入车联网时生成个性化参数的超网络。

本发明构造新客户端的超网络时，超网络同时参考各个模型的个性化参数，这样可以引入客户端个性化参数的相关性信息，提升最终效果。而非像以往的方案，训练过程中不考虑模型间的相关性。

实施例2

在实施例1的基础上，参见图3，本实施例本提供了一种基于注意力机制的个性化联邦学习泛化方法，以应用在新的（即未经过训练的）客户端，方法包括如下步骤：

S1，接收已有多个客户端模型的个性化参数以及服务端经过加权聚合的共享参数

S2，根据本地数据训练更新超网络参数，获得本地模型个性化层参数，其他层使用全局平均共享参数；

S3，构建基于注意力机制的超网络，该网络输入为客户端模型中的个性化参数{,/>…/>}，输出为本地模型个性化层参数/>；

S4，将新的参数上传至服务端。

为了说明本方法的优点，以下提供一种联邦学习的客户端更新算法作为对比例，其具体包括如下步骤：

Step31，接收全局模型参数作为本地模型参数，个性化层保留原参数；

Step32，根据本地数据训练更新本地模型，得到更新后的本地模型参数；

Step33，将除个性化层之外的更新后本地参数传输至服务器端。

本发明使用基于注意力机制的超网络即能保证新客户端模型的快速收敛，又避免了本地训练当中由于数据缺乏造成的过拟合，保留全局模型由于涵盖数据广泛而产生的泛化能力。

实施例3

本实施例提供了一种电子设备，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行如实施例1或实施例2所述基于注意力机制的个性化联邦学习泛化方法的计算机程序指令。

上述实施例阐明的方法或设备，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

参见图5为一种电子设备的结构示意图，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。非易失性存储器中储存有用于执行实施例1或实施例2中个性化联邦学习泛化方法的指令，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的数据采集的方法。当然，除了软件实现方式之外，本发明并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

实施例4

本实施例提供了一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如实施例1或实施例2所述基于注意力机制的个性化联邦学习泛化方法的计算机程序指令。

当为实施例1的个性化联邦学习泛化方法时，计算机程序指令为：

S2，服务器发送初始化参数至每个客户端；

S3，接收客户端更新后的本地参数{,/>…/>}和{/>,/>…/>}；

S4，服务器接收各个客户端上传的参数，根据各客户端训练数据量对{,/>…}进行加权聚合，获得新的/>。跳转步骤S2，直至循环次数达到预设的通信轮次K；

S5，当加入新客户端参与训练时，将服务器中存储的共享参数/>及个性化参数{/>,/>…/>}传输至新客户端；

S6，在新客户端构建基于注意力机制的超网络生成本地模型参数，使用本地数据对超网络进行训练，得到本地模型的参数，接收本地模型的参数，基于各个客户端的模型参数，根据各客户端训练数据量进行加权聚合。

当为实施例2的个性化联邦学习泛化方法时，计算机程序指令为：

S4，将新的参数上传至服务端。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

实施例5

本实施例提供了一种基于注意力机制的个性化联邦学习泛化***，包括N个客户端和1个服务器。

其中，服务器用于执行以下过程：

S2，服务器发送初始化参数至每个客户端；

S3，接收客户端更新后的本地参数{,/>…/>}和{/>,/>…/>}；

当***有新加入的客户端时，服务器还用于执行：

客户端用于执行以下过程：

S4，将新的参数上传至服务端。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，应用于服务端，包括如下步骤：

将各个已有客户端的个性化参数以及服务端的共享参数发送到未经训练的新客户端，在新客户端，利用部署在新客户端的基于注意力机制的超网络生成个性化参数，并基于新客户端的本地数据训练超网络，完成新客户端超网络个性化参数的本地更新，

其中，所述的超网络的输入为各个已有客户端的个性化参数，输出为新客户端的个性化参数。

2.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，所述的终止条件为通信轮次达到预设值。

3.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，所述的基于注意力机制的超网络包括：

全连接层，用于生成隐向量；

4.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，所述的新客户端的共享参数采用服务端的共享参数。

5.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，还包括如下步骤：

6.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，基于各个客户端的共享参数，通过加权聚合更新服务端的共享参数。

7.一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，应用于未经训练的新客户端，包括如下步骤：

接收多个已进行过本地训练的客户端的个性化参数，以及服务端经过加权聚合的共享参数；

将更新后的个性化参数和共享参数上传至服务端；

其中，所述基于注意力机制的超网络部署在所述新客户端，所述的超网络的输入为各个已有客户端的个性化参数，输出为新客户端的个性化参数。

8.一种如权利要求1-7任一所述基于注意力机制的个性化联邦学习泛化方法的应用，其特征在于，针对包括服务端以及至少一个车载端的车联网，所述的个性化联邦学习泛化方法应用于所述服务端，所述服务端部署有全局模型，所述车载端部署有本地模型，所述本地模型包括共享参数以及个性化参数，所述车载端还包括用于在加入车联网时生成所述个性化参数的超网络。

9.一种电子设备，其特征在于，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-7任一所述基于注意力机制的个性化联邦学习泛化方法的指令。