CN114298326A - 模型训练方法、装置及模型训练*** - Google Patents

模型训练方法、装置及模型训练*** Download PDF

Info

Publication number
CN114298326A
CN114298326A CN202111641151.1A CN202111641151A CN114298326A CN 114298326 A CN114298326 A CN 114298326A CN 202111641151 A CN202111641151 A CN 202111641151A CN 114298326 A CN114298326 A CN 114298326A
Authority
CN
China
Prior art keywords
node
model
model parameters
machine learning
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111641151.1A
Other languages
English (en)
Inventor
王鹏
沈海珍
王讯
浦世亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN202111641151.1A priority Critical patent/CN114298326A/zh
Publication of CN114298326A publication Critical patent/CN114298326A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明实施例提供了模型训练方法、装置及模型训练***,应用于机器学习技术领域。该方法应用于模型训练***中的第一节点,该方法包括:接收至少一第二节点发送的模型参数,并利用所接收的模型参数,与第一节点内部署的机器学习模型的模型参数进行融合,得到包含融合后模型参数的机器学习模型,进而基于第一节点的本地数据集,对所得到的机器学习模型进行训练,并返回执行接收至少一第二节点发送的训练信息的步骤。通过本方案,可以提高联邦学习***中每一节点内机器学习模型的训练效果。

Description

模型训练方法、装置及模型训练***
技术领域
本发明涉及机器学习技术领域,特别是涉及模型训练方法、装置及模型训练***。
背景技术
联邦学习(Federated Learning)是指在数据分布于多个节点(例如边缘设备、移动终端和服务器等)且不共享的情况下,跨越多个分散的节点进行联合,建立机器学习模型的一种分布式机器学习范式。
相关技术中,联邦学习***一般由服务器和多个节点组成,每一节点上均部署有机器学习模型,每一节点具有各自的数据集。在模型训练过程中,每一次节点基于自身的数据集,对机器学习模型进行训练之后,将训练之后的模型参数上传至服务器;服务器在接收到各节点发送的模型参数之后,对所接收的模型参数进行参数融合,并将融合后的模型参数发送至各节点。相应的,每一节点在接收到融合后的模型参数之后,对该节点的机器学习模型的模型参数进行更新,并进行下一次的机器学习模型的训练。
相关技术中,各节点在每一次模型训练结束之后的模型参数是相同的,导致不同应用场景中的节点内的机器学习模型的效果不同,这也就意味着,在联邦学习***中,部分节点内机器学习模型的训练效果较低。
发明内容
本发明实施例的目的在于提供模型训练方法、装置及模型训练***,以提高联邦学习***中每一节点内机器学习模型的训练效果。具体技术方案如下:
第一方面,本发明实施例提供一种模型训练方法,应用于第一节点,所述第一节点为联邦学习***中的任一节点,所述方法包括:
接收至少一第二节点发送的训练信息;其中,每一第二节点的训练信息包括:该第二节点最新的模型参数,所述至少一第二节点为:所述联邦学习***中除所述第一节点外的其他节点;
利用所接收的模型参数,与所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数;
利用所述融合后的模型参数,更新所述机器学习模型的模型参数,得到包含融合后模型参数的机器学习模型;
基于所述第一节点的数据集,对所得到的机器学习模型进行训练,并返回执行所述接收至少一第二节点发送的训练信息的步骤。
可选的,所述利用所接收的模型参数,与所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数,包括:
确定待利用的参数融合模式;
按照待利用的参数融合模式,对所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数。
可选的,所述按照待利用的参数融合模式,对所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数,包括:
若待利用的参数融合模式为全等同融合模式,则计算所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数的均值,作为融合后的模型参数。
可选的,所述按照待利用的参数融合模式,对所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数,包括:
若待利用的参数融合模式为节点控制模式,则确定所述联邦学习***中每一节点针对所述第一节点的融合权重;
基于各节点的融合权重,计算所接收的模型参数,与所述第一节点内部署的机器学***均值,作为融合后的模型参数。
可选的,所述确定所述联邦学习***中每一节点针对所述第一节点的融合权重,包括:
获取所述第一节点的最近历史权重;每一节点的最近历史权重包括:在该节点进行参数融合时,所述联邦学习***中各节点针对该节点的融合权重;
针对每一第二节点,确定该第二节点的模型参数,对所述第一节点内机器学习模型的训练贡献度,作为该第二节点的训练贡献度;
基于各第二节点的训练贡献度,对所述第一节点的最近历史权重中,每一节点针对所述第一节点的融合权重进行更新。
可选的,每一第二节点的训练信息还包括:在该第二节点进行参数融合时,所述第一节点针对该第二节点的融合权重;
所述基于各第二节点的训练贡献度,对所述第一节点的最近历史权重中,每一节点针对所述第一节点的融合权重进行更新,包括:
基于各第二节点的模型参数的训练贡献度、所述第一节点针对各第二节点的融合权重,对所述第一节点的最近历史权重中,各节点针对所述第一节点的融合权重进行更新。
可选的,所述针对每一第二节点,确定该第二节点的模型参数,对所述第一节点内机器学习模型的训练贡献度,包括:
计算所述机器学习模型的模型参数与各第二节点的模型参数的均值,得到第一参数;并测试在模型参数为所述第一参数时,所述机器学习模型的准确率,作为第一准确率;
针对每一第二节点,计算所述机器学习模型的模型参数与各第三节点的模型参数的均值,得到第二参数;并测试在模型参数为所述第二参数时,所述机器学习模型的准确率,作为该第二节点对应的第二准确率;其中,所述第三节点为:各第二节点中,除该第二节点之外的节点;
针对每一第二节点,计算所述第一准确率与该第二节点对应的第二准确率的差值,作为该第二节点的模型参数,对所述机器学习模型的训练贡献度。
可选的,所述确定待利用的参数融合模式,包括:
随机从多种参数融合模式,选择一种参数融合模式,作为待利用的参数融合模式;
或者,
将最近N次被选择的参数融合模式中,被选择次数最多的参数融合模式,作为待利用的参数融合模式。
可选的,所述按照待利用的参数融合模式,对所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数,包括:
若待利用的参数融合模式为数据权重模式,则基于各节点的数据量,确定每一节点的数据权重;
基于各节点的数据权重,计算所接收的模型参数,与所述第一节点内部署的机器学***均值,作为融合后的模型参数。
第二方面,本发明实施例提供了一种模型训练***,所述模型训练***中包含多个节点;其中,
第一节点,用于接收至少一第二节点发送的训练信息,其中,每一第二节点的训练信息包括:该第二节点最新的模型参数;利用所接收的模型参数,与所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数;利用所述融合后的模型参数,更新所述机器学习模型的模型参数,得到包含融合后模型参数的机器学习模型;基于所述第一节点的数据集,对所得到的机器学习模型进行训练,并向所述至少一第二节点发送所述第一节的训练信息,以及返回执行所述接收至少一第二节点发送的训练信息的步骤;所述第一节点为所述联邦学习***中的任一节点,所述至少一第二节点为:所述联邦学习***中除所述第一节点外的其他节点;
每一第二节点,用于向所述第一节点发送所述训练信息。
第三方面,本发明实施例提供了一种模型训练装置,应用于第一节点,所述第一节点为联邦学习***中的任一节点,所述方法包括:
信息接收模块,用于接收至少一第二节点发送的训练信息;其中,每一第二节点的训练信息包括:该第二节点最新的模型参数,所述至少一第二节点为:所述联邦学习***中除所述第一节点外的其他节点;
参数融合模块,用于利用所接收的模型参数,与所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数;
参数更新模块,用于利用所述融合后的模型参数,更新所述机器学习模型的模型参数,得到包含融合后模型参数的机器学习模型;
模型训练模块,用于基于所述第一节点的数据集,对所得到的机器学习模型进行训练,并返回执行所述信息接收模块。
可选的,所述参数融合模块,包括:
模式确定子模块,用于确定待利用的参数融合模式;
参数融合子模块,用于按照待利用的参数融合模式,对所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数。
可选的,所述参数融合子模块,具体用于若待利用的参数融合模式为全等同融合模式,则计算所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数的均值,作为融合后的模型参数。
可选的,所述参数融合子模块,具体用于若待利用的参数融合模式为节点控制模式,则确定所述联邦学***均值,作为融合后的模型参数。
可选的,所述参数融合子模块,具体用于获取所述第一节点的最近历史权重;每一节点的最近历史权重包括:在该节点进行参数融合时,所述联邦学习***中各节点针对该节点的融合权重;针对每一第二节点,确定该第二节点的模型参数,对所述第一节点内机器学习模型的训练贡献度,作为该第二节点的训练贡献度;基于各第二节点的训练贡献度,对所述第一节点的最近历史权重中,每一节点针对所述第一节点的融合权重进行更新。
可选的,每一第二节点的训练信息还包括:在该第二节点进行参数融合时,所述第一节点针对该第二节点的融合权重;
所述参数融合子模块,具体用于基于各第二节点的模型参数的训练贡献度、所述第一节点针对各第二节点的融合权重,对所述第一节点的最近历史权重中,各节点针对所述第一节点的融合权重进行更新。
可选的,所述参数融合子模块,具体用于计算所述机器学习模型的模型参数与各第二节点的模型参数的均值,得到第一参数;并测试在模型参数为所述第一参数时,所述机器学习模型的准确率,作为第一准确率;针对每一第二节点,计算所述机器学习模型的模型参数与各第三节点的模型参数的均值,得到第二参数;并测试在模型参数为所述第二参数时,所述机器学习模型的准确率,作为该第二节点对应的第二准确率;其中,所述第三节点为:各第二节点中,除该第二节点之外的节点;针对每一第二节点,计算所述第一准确率与该第二节点对应的第二准确率的差值,作为该第二节点的模型参数,对所述机器学习模型的训练贡献度。
可选的,所述模式确定子模块,具体用于随机从多种参数融合模式,选择一种参数融合模式,作为待利用的参数融合模式;或者,将最近N次被选择的参数融合模式中,被选择次数最多的参数融合模式,作为待利用的参数融合模式。
可选的,所述参数融合子模块,具体用于若待利用的参数融合模式为数据权重模式,则基于各节点的数据量,确定每一节点的数据权重;基于各节点的数据权重,计算所接收的模型参数,与所述第一节点内部署的机器学***均值,作为融合后的模型参数。
第四方面,本发明实施例提供了一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第五方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的方法步骤。
本发明实施例有益效果:
本发明实施例所提供的一种模型训练方法,联邦学习***中的第一节点可以接收至少一第二节点发送的模型参数,并利用所接收的模型参数,与第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数,进而利用融合后的模型参数,更新机器学习模型的模型参数,得到包含融合后模型参数的机器学习模型,进而基于第一节点的本地数据集,对所得到的机器学习模型进行训练,并返回执行接收至少一第二节点发送的训练信息的步骤。由于对于联邦学习***中的每一节点而言,其内部署的机器学习模型,在每次利用第二节点的模型参数进行融合之后,将再基于第一节点的数据集,对所得到的机器学习模型进行训练,使得训练后的机器学习模型中模型参数更适用于该节点。可见,采用本发明方案的联邦学习***中,每一节点在每次训练过程中,均可得到模型参数更适用于其自身的模型参数,从而提高联邦学习***中每一节点内机器学习模型的训练效果。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为相关技术中的模型训练***的结构示意图;
图2为本发明实施例所提供的模型训练***的结构示意图;
图3为本发明实施例所提供的模型训练方法的流程图;
图4为本发明实施例所提供的模型训练方法的另一流程图;
图5为本发明实施例所提供的模型训练方法的另一流程图;
图6为本发明实施例所提供的模型训练***的另一结构示意图;
图7为本发明实施例所提供的模型训练装置的结构示意图;
图8为本发明实施例所提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
联邦学习是指在数据分布于多个节点(例如边缘设备、移动终端和服务器等)且不共享的情况下,跨越多个分散的节点进行联合,建立机器学习模型的一种分布式机器学习范式。
如图1所示,为相关技术中,联邦学习***一种结构示意图,包括一个服务器和多个节点,每一节点上均部署有机器学习模型,每一节点具有各自的数据集。在模型训练过程中,每一次节点基于自身的数据集,对机器学习模型进行训练之后,将训练之后的模型参数上传至服务器;服务器在接收到各节点发送的模型参数之后,对所接收的模型参数进行参数融合,并将融合后的模型参数发送至各节点。相应的,每一节点在接收到融合后的模型参数之后,对该节点的机器学习模型的模型参数进行更新,并进行下一次的机器学习模型的训练。
相关技术中,各节点在每一次模型训练结束之后的模型参数是相同的,而服务器在进行参数融合时,往往容易倾向于部分节点的模型参数,如有的节点的模型参数的权重高,有的节点的模型参数的权重较低,使得融合后的模型参数仅适用于部分节点,而在其他部分的节点上,机器学习模型的应用融合后的模型参数之后,机器学习模型的准确率较低。可见,相关技术中,联邦学习***存在模型偏差的问题,导致不同应用场景中的节点内的机器学习模型的效果不同,这也就意味着,在联邦学习***中,部分节点内机器学习模型的训练效果较低。
进一步的,由于需要单独部署一台服务器,导致整个联邦学习***的部署成本较高,不利于大规模使用。
为了解决相关技术中存在的技术问题,本发明实施例提供了模型训练方法、装置及模型训练***。
如图2所示,为本发明实施例提供的一种联邦学习***的结构示意图,包括多个节点,各节点之间可以通过广播等方式相互通信。与相关技术中的联邦学习***所不同的是,本发明实施例中的联邦学习***中去除了服务器。
本发明实施例中,联邦学习***的节点可以是各类电子设备,例如,个人电脑、服务器、手机以及其他具有数据处理能力的设备。并且,本发明实施例提供的模型训练方法可以通过软件、硬件或软硬件结合的方式实现。
其中,本发明实施例所提供的一种模型训练方法,可以包括步骤:
接收至少一第二节点发送的训练信息;其中,每一第二节点的训练信息包括:该第二节点最新的模型参数,至少一第二节点为:联邦学习***中除第一节点外的其他节点;
利用所接收的模型参数,与第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数;
利用融合后的模型参数,更新机器学习模型的模型参数,得到包含融合后模型参数的机器学习模型;
基于第一节点的数据集,对所得到的机器学习模型进行训练,并返回执行接收至少一第二节点发送的训练信息的步骤。
本发明实施例所提供的模型训练方法,由于对于联邦学习***中的每一节点而言,其内部署的机器学习模型,在每次利用第二节点的模型参数进行融合之后,将再基于第一节点的数据集,对所得到的机器学习模型进行训练,使得训练后的机器学习模型中模型参数更适用于该节点。可见,采用本发明方案的联邦学习***中,每一节点在每次训练过程中,均可得到模型参数更适用于其自身的模型参数,从而提高联邦学习***中每一节点内机器学习模型的训练效果。进一步的,由于联邦学习***中不需要部署服务器,从而可以减少联邦学习***的部署成本。
下面结合说明书附图,对本发明实施例提供的模型训练方法、装置及模型训练***进行详细说明。
如图3所示,本发明实施例提供的一种模型训练方法,应用于第一节点,第一节点为联邦学习***中的任一节点,可以包括如下步骤:
S301,接收至少一第二节点发送的训练信息;
其中,每一第二节点的训练信息包括:该第二节点最新的模型参数,至少一第二节点为:联邦学习***中除第一节点外的其他节点。
示例性的,联邦学习***中包含节点1、节点2和节点3三个节点,若节点1作为第一节点,则节点2和节点3作为第二节点;若节点2作为第一节点,则节点1和节点3作为第二节点;若节点3作为第一节点,则节点1和节点2作为第二节点。
对于本发明实施例中,联邦学习***而言,其内每一节点,在每次训练结束之后,将对外广播其训练信息,该训练信息中包括该节点最新的模型参数。因此,每一第一节点(联邦***中的任一节点)可以接收到至少一第二节点发射的训练。
S302,利用所接收的模型参数,与第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数;
其中,在接收到至少一第二节点的训练信息之后,可以将所接收到的模型参数与第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数。
一般而言,一个机器学习模型内包含多个不同类型的模型参数,则对于本发明实施例而言,针对每一类型的模型参数,将所接收的该类型的模型参数与第一节点内部署的机器学习模型中该类型的模型参数进行融合,得到该类型的融合后的模型参数。
例如,联邦学习***中包含节点1、节点2和节点3,三个节点。其中,节点1为第一节点,节点2和节点3为第二节点。节点1内部署的机器学习模型中包含类型1的第一模型参数1和类型2的第二模型参数1,节点2的训练信息中包含类型1的第一模型参数2和类型2的第二模型参数2,节点3的训练信息中包含类型1的第一模型参数3和类型2的第二模型参数3。
则当进行模型参数融合时,可以将第一模型参数1、第一模型参数2以及第一模型参数3进行融合,得到融合后的第一模型参数;将第二模型参数1、第二模型参数2以及第二模型参数3进行融合,到融合后的第二模型参数;将第三模型参数1、第三模型参数2以及第三模型参数3进行融合,到融合后的第三模型参数。
S303,利用融合后的模型参数,更新机器学习模型的模型参数,得到包含融合后模型参数的机器学习模型;
本步骤中,在得到融合后的模型参数之后,即可将机器学习模型的模型参数更新为融合后的模型参数,机器学习模型的模型参数,得到模型参数为融合后模型参数的机器学习模型。
S304,基于第一节点的数据集,对所得到的机器学习模型进行训练,并返回执行接收至少一第二节点发送的训练信息的步骤。
本步骤中,在得到模型参数为融合后模型参数的机器学习模型,可以进一步的利益第一节点的数据集,对模型参数为融合后模型参数的机器学习模型进行训练。
通过对第一节点的数据集进行训练,可以在融合后模型参数的基础上,进一步更新机器学习模型中的模型参数,从而训练后的机器学习模型中模型参数更适用于该节点。
可选的,在一种实现方式中,在得到模型参数为融合后模型参数的机器学习模型之后,可以对机器学习模型进行微调(Fine-Tuning)训练。其中,微调训练是一种利用已有模型训练其他数据集的模型训练方法。本发明实施例中,模型参数为融合后模型参数的机器学习模型为已有模型,训练该第一节点内的数据集的机器学习模型。
其中机器学习模型可以用于人脸识别、动作识别、车辆识别、语音识别、目标分类等功能。
本发明实施例所提供的模型训练方法,由于对于联邦学习***中的每一节点而言,其内部署的机器学习模型,在每次利用第二节点的模型参数进行融合之后,将再基于第一节点的数据集,对所得到的机器学习模型进行训练,使得训练后的机器学习模型中模型参数更适用于该节点。可见,采用本发明方案的联邦学习***中,每一节点在每次训练过程中,均可得到模型参数更适用于其自身的模型参数,从而提高联邦学习***中每一节点内机器学习模型的训练效果。进一步的,由于联邦学习***中不需要部署服务器,从而可以减少联邦学习***的部署成本。
基于上述实施例,如图4所示,本发明实施例还提供另一种模型训练方法中,利用所接收的模型参数,与第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数的过程,可以包括S401-S402:
S401,确定待利用的参数融合模式;
其中,参数融合模式包括全等同融合模式、数据权重模式以及节点控制模式中的至少一种。其中,全等同融合模式即所有节点的融合权重相同的模式;数据权重模式为根据各节点用于生成模型梯度的数据量来确定融合权重的模式,其中,每一节点的用于生成模型梯度的数据量为该节点的数据集内包含的样本数量,例如节点A的数据集中包含10万张样本图像,那么节点A用于生成模型梯度的数据量为10万。节点控制模式为根据各节点针对第一节点的训练贡献度,来确定各节点融合权重的模式。上述任一种参数融合模式将在后续实施例详细描述,再次不再赘述。
上述确定待利用的参数融合模式的方式可以有很多,例如包括以下两种方式中至少一种:
第一种模式确定方式,随机从多种参数融合模式,选择一种参数融合模式,作为待利用的参数融合模式;
本方式中,可以等概率的从多帧参数融合模式中选择一种参数融合模式,从而将所选择的参数融合模式,作为待利用的参数融合模式。例如,随机选择的参数融合模式为节点控制模,则节点控制模式为待利用的参数融合模式。
第二种模式确定方式,将最近N次被选择的参数融合模式中,被选择次数最多的参数融合模式,作为待利用的参数融合模式。
其中,N为整数,例如为1、2、3等。
当N为1时,即表明将上一次被选择的参数融合模式作为待利用的参数融合模式。例如,上一次被选择的参数融合模式为全等同融合模式,则本次也选择全等同融合模式。
当N为大于1的整数时,则可以计算前N次被选择的参数融合模式中,被选择次数最多的参数融合模式,作为待利用的参数融合模式。例如,N为3,前3次中,全等同融合模式被选择的了1次,节点控制模式被选择的2次,则节点控制模式的被选择次数最大,则将节点控制模式作为待利用的参数融合模式。
当然,若最近N次被选择的参数融合模式中,各被选择的参数融合模式被选择的次数一致,则可以随机从各被选择的参数融合模式,选择一种参数融合模式。
S402,按照待利用的参数融合模式,对所接收的模型参数和第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数。
在一种实现方式中,若待利用的参数融合模式为全等同融合模式,则计算所接收的模型参数和第一节点内部署的机器学习模型的模型参数的均值,作为融合后的模型参数。
其中,全等同融合模式意味着各节点的权重均相同,即第一节点和每一第二节点的权重均相同,从而在接收到至少一第二节点发送的模型参数之后,可以计算该第一节点内部署的机器学***均值,作为融合后的模型参数。
在一种实现方式中,若待利用的参数融合模式为节点控制模式,则确定联邦学***均值,作为融合后的模型参数。
其中,全等同融合模式意味着每一节点(包括第一节点自身)针对第一节点的融合权重随着训练的过程不断更新,从而需要在进行参数融合之前,确定联邦学***均值,作为融合后的模型参数。融合权重的具体更新过程将在后续详细描述,在此不再赘述。
在一种实现方式中,若待利用的参数融合模式为数据权重模式,则基于各节点的数据量,确定每一节点的数据权重;基于各节点的数据权重,计算所接收的模型参数,与所述第一节点内部署的机器学***均值,作为融合后的模型参数。
其中,数据权重模式,则每一节点的数据权重依据该节点的数据集内样本数量所确定的。例如节点1用于训练的样本数量为10万,节点2用于训练的样本数量为5万,节点3用于训练的样本数量为15万,则节点1的数据权重为1/3、节点2的数据权重为1/6、节点3的数据权重为1/2。在计算出每一节点的数据权重之和,即可基于各节点的数据权重,计算所接收的模型参数,与所述第一节点内部署的机器学***均值,作为融合后的模型参数。
本发明实施例所提供的模型训练方法,由于对于联邦学习***中的每一节点而言,其内部署的机器学习模型,在每次利用第二节点的模型参数进行融合之后,将再基于第一节点的数据集,对所得到的机器学习模型进行训练,使得训练后的机器学习模型中模型参数更适用于该节点。可见,采用本发明方案的联邦学习***中,每一节点在每次训练过程中,均可得到模型参数更适用于其自身的模型参数,从而提高联邦学习***中每一节点内机器学习模型的训练效果。进一步的,由于联邦学习***中不需要部署服务器,从而可以减少联邦学习***的部署成本。
基于上述实施例,如图5所示,本发明实施例还提供另一种模型训练方法中,上述确定联邦学习***中每一节点针对第一节点的融合权重的过程,可以包括S501-S503:
S501,获取第一节点的最近历史权重;每一节点的最近历史权重包括:在该节点进行参数融合时,联邦学习***中各节点针对该节点的融合权重;
其中,第一节点的最近历史权重为第一节点最近一次进行参数融合时,各节点针对第一节的融合权重。
S502,针对每一第二节点,确定该第二节点的模型参数,对第一节点内机器学习模型的训练贡献度,作为该第二节点的训练贡献度;
可选的,在一种实现方式中,可以计算机器学习模型的模型参数与各第二节点的模型参数的均值,得到第一参数,并测试在模型参数为第一参数时,机器学习模型的准确率,作为第一准确率。
进而针对每一第二节点,计算机器学习模型的模型参数与各第三节点的模型参数的均值,得到第二参数,并测试在模型参数为第二参数时,机器学习模型的准确率,作为该第二节点对应的第二准确率。
其中,第三节点为各第二节点中,除该第二节点之外的节点。这样,针对每一第二节点,都可以计算出,在缺少该第二节点的情况下,机器学习模型的第二准确率,进而可以利用第一准确率,计算出在缺少该第二节点的模型参数的情况下,机器学习模型的准确率的变化情况,该变化情况反映了该第二节点的模型参数对第一节点内机器学习模型训练贡献度。
可选的,可以针对每一第二节点,计算第一准确率与该第二节点对应的第二准确率的差值,作为该第二节点的模型参数,对机器学习模型的训练贡献度。
S503,基于各第二节点的训练贡献度,对第一节点的最近历史权重中,每一节点针对第一节点的融合权重进行更新。
可选的,每一第二节点的训练信息还包括:在该第二节点进行参数融合时,第一节点针对该第二节点的融合权重,则可以基于各第二节点的模型参数的训练贡献度、第一节点针对各第二节点的融合权重,对第一节点的最近历史权重中,各节点针对第一节点的融合权重进行更新。
示例性的,,以节点A、节点B和节点C为例,节点A的原先为X,A+B+C在同权重下的第一准确度为Y,节点C的第二准确度为Z,节点B的第二准确度为W。若Z或W大于Y,则节点C或节点B的训练贡献度为0,即融合权重为零;若Y>Z>X,则节点B的训练贡献度为Z-X,节点C的训练贡献度Y-Z,进而可以根据训练贡献度调整融合权重。
本发明实施例所提供的模型训练方法,由于对于联邦学习***中的每一节点而言,其内部署的机器学习模型,在每次利用第二节点的模型参数进行融合之后,将再基于第一节点的数据集,对所得到的机器学习模型进行训练,使得训练后的机器学习模型中模型参数更适用于该节点。可见,采用本发明方案的联邦学习***中,每一节点在每次训练过程中,均可得到模型参数更适用于其自身的模型参数,从而提高联邦学习***中每一节点内机器学习模型的训练效果。进一步的,由于联邦学习***中不需要部署服务器,从而可以减少联邦学习***的部署成本。
基于上述的方法,本发明实施例还提供了一种模型训练***。如图6所示,本发明实施例所提供的一种模型训练***,该模型训练***中包含多个节点;其中,
第一节点601,用于接收至少一第二节点发送的训练信息,其中,每一第二节点的训练信息包括:该第二节点最新的模型参数;利用所接收的模型参数,与第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数;利用融合后的模型参数,更新机器学习模型的模型参数,得到包含融合后模型参数的机器学习模型;基于第一节点的数据集,对所得到的机器学习模型进行训练,并向至少一第二节点发送第一节的训练信息,以及返回执行接收至少一第二节点发送的训练信息的步骤;第一节点为联邦学习***中的任一节点,至少一第二节点为:联邦学习***中除第一节点外的其他节点;
每一第二节点602,用于向第一节点发送训练信息。
本发明实施例所提供的模型训练***,由于对于联邦学习***中的每一节点而言,其内部署的机器学习模型,在每次利用第二节点的模型参数进行融合之后,将再基于第一节点的数据集,对所得到的机器学习模型进行训练,使得训练后的机器学习模型中模型参数更适用于该节点。可见,采用本发明方案的联邦学习***中,每一节点在每次训练过程中,均可得到模型参数更适用于其自身的模型参数,从而提高联邦学习***中每一节点内机器学习模型的训练效果。进一步的,由于联邦学习***中不需要部署服务器,从而可以减少联邦学习***的部署成本。
相应于上述从第一节点角度所提供的方法,如图7所示,本发明实施例还提供了一种模型训练装置,应用于第一节点,所述第一节点为联邦学习***中的任一节点,所述装置包括:
信息接收模块701,用于接收至少一第二节点发送的训练信息;其中,每一第二节点的训练信息包括:该第二节点最新的模型参数,所述至少一第二节点为:所述联邦学习***中除所述第一节点外的其他节点;
参数融合模块702,用于利用所接收的模型参数,与所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数;
参数更新模块703,用于利用所述融合后的模型参数,更新所述机器学习模型的模型参数,得到包含融合后模型参数的机器学习模型;
模型训练模块704,用于基于所述第一节点的数据集,对所得到的机器学习模型进行训练,并返回执行所述信息接收模块。
可选的,所述参数融合模块,包括:
模式确定子模块,用于确定待利用的参数融合模式;
参数融合子模块,用于按照待利用的参数融合模式,对所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数。
可选的,所述参数融合子模块,具体用于若待利用的参数融合模式为全等同融合模式,则计算所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数的均值,作为融合后的模型参数。
可选的,所述参数融合子模块,具体用于若待利用的参数融合模式为节点控制模式,则确定所述联邦学***均值,作为融合后的模型参数。
可选的,所述参数融合子模块,具体用于获取所述第一节点的最近历史权重;每一节点的最近历史权重包括:在该节点进行参数融合时,所述联邦学习***中各节点针对该节点的融合权重;针对每一第二节点,确定该第二节点的模型参数,对所述第一节点内机器学习模型的训练贡献度,作为该第二节点的训练贡献度;基于各第二节点的训练贡献度,对所述第一节点的最近历史权重中,每一节点针对所述第一节点的融合权重进行更新。
可选的,每一第二节点的训练信息还包括:在该第二节点进行参数融合时,所述第一节点针对该第二节点的融合权重;
所述参数融合子模块,具体用于基于各第二节点的模型参数的训练贡献度、所述第一节点针对各第二节点的融合权重,对所述第一节点的最近历史权重中,各节点针对所述第一节点的融合权重进行更新。
可选的,所述参数融合子模块,具体用于计算所述机器学习模型的模型参数与各第二节点的模型参数的均值,得到第一参数;并测试在模型参数为所述第一参数时,所述机器学习模型的准确率,作为第一准确率;针对每一第二节点,计算所述机器学习模型的模型参数与各第三节点的模型参数的均值,得到第二参数;并测试在模型参数为所述第二参数时,所述机器学习模型的准确率,作为该第二节点对应的第二准确率;其中,所述第三节点为:各第二节点中,除该第二节点之外的节点;针对每一第二节点,计算所述第一准确率与该第二节点对应的第二准确率的差值,作为该第二节点的模型参数,对所述机器学习模型的训练贡献度。
可选的,所述模式确定子模块,具体用于随机从多种参数融合模式,选择一种参数融合模式,作为待利用的参数融合模式;或者,将最近N次被选择的参数融合模式中,被选择次数最多的参数融合模式,作为待利用的参数融合模式。
可选的,所述参数融合子模块,具体用于若待利用的参数融合模式为数据权重模式,则基于各节点的数据量,确定每一节点的数据权重;基于各节点的数据权重,计算所接收的模型参数,与所述第一节点内部署的机器学***均值,作为融合后的模型参数。
本发明实施例所提供的模型训练装置,由于对于联邦学习***中的每一节点而言,其内部署的机器学习模型,在每次利用第二节点的模型参数进行融合之后,将再基于第一节点的数据集,对所得到的机器学习模型进行训练,使得训练后的机器学习模型中模型参数更适用于该节点。可见,采用本发明方案的联邦学习***中,每一节点在每次训练过程中,均可得到模型参数更适用于其自身的模型参数,从而提高联邦学习***中每一节点内机器学习模型的训练效果。进一步的,由于联邦学习***中不需要部署服务器,从而可以减少联邦学习***的部署成本。
本发明实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现上述从第一节点角度所提供的方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一模型训练方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一模型训练方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种模型训练方法,其特征在于,应用于第一节点,所述第一节点为联邦学习***中的任一节点,所述方法包括:
接收至少一第二节点发送的训练信息;其中,每一第二节点的训练信息包括:该第二节点最新的模型参数,所述至少一第二节点为:所述联邦学习***中除所述第一节点外的其他节点;
利用所接收的模型参数,与所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数;
利用所述融合后的模型参数,更新所述机器学习模型的模型参数,得到包含融合后模型参数的机器学习模型;
基于所述第一节点的数据集,对所得到的机器学习模型进行训练,并返回执行所述接收至少一第二节点发送的训练信息的步骤。
2.根据权利要求1所述的方法,其特征在于,所述利用所接收的模型参数,与所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数,包括:
确定待利用的参数融合模式;
按照待利用的参数融合模式,对所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数。
3.根据权利要求2所述的方法,其特征在于,所述按照待利用的参数融合模式,对所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数,包括:
若待利用的参数融合模式为全等同融合模式,则计算所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数的均值,作为融合后的模型参数。
4.根据权利要求2所述的方法,其特征在于,所述按照待利用的参数融合模式,对所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数,包括:
若待利用的参数融合模式为节点控制模式,则确定所述联邦学习***中每一节点针对所述第一节点的融合权重;
基于各节点的融合权重,计算所接收的模型参数,与所述第一节点内部署的机器学***均值,作为融合后的模型参数。
5.根据权利要求4所述的方法,其特征在于,所述确定所述联邦学习***中每一节点针对所述第一节点的融合权重,包括:
获取所述第一节点的最近历史权重;每一节点的最近历史权重包括:在该节点进行参数融合时,所述联邦学习***中各节点针对该节点的融合权重;
针对每一第二节点,确定该第二节点的模型参数,对所述第一节点内机器学习模型的训练贡献度,作为该第二节点的训练贡献度;
基于各第二节点的训练贡献度,对所述第一节点的最近历史权重中,每一节点针对所述第一节点的融合权重进行更新。
6.根据权利要求5所述的方法,其特征在于,每一第二节点的训练信息还包括:在该第二节点进行参数融合时,所述第一节点针对该第二节点的融合权重;
所述基于各第二节点的训练贡献度,对所述第一节点的最近历史权重中,每一节点针对所述第一节点的融合权重进行更新,包括:
基于各第二节点的模型参数的训练贡献度、所述第一节点针对各第二节点的融合权重,对所述第一节点的最近历史权重中,各节点针对所述第一节点的融合权重进行更新。
7.根据权利要求5所述的方法,其特征在于,所述针对每一第二节点,确定该第二节点的模型参数,对所述第一节点内机器学习模型的训练贡献度,包括:
计算所述机器学习模型的模型参数与各第二节点的模型参数的均值,得到第一参数;并测试在模型参数为所述第一参数时,所述机器学习模型的准确率,作为第一准确率;
针对每一第二节点,计算所述机器学习模型的模型参数与各第三节点的模型参数的均值,得到第二参数;并测试在模型参数为所述第二参数时,所述机器学习模型的准确率,作为该第二节点对应的第二准确率;其中,所述第三节点为:各第二节点中,除该第二节点之外的节点;
针对每一第二节点,计算所述第一准确率与该第二节点对应的第二准确率的差值,作为该第二节点的模型参数,对所述机器学习模型的训练贡献度。
8.根据权利要求2所述的方法,其特征在于,所述确定待利用的参数融合模式,包括:
随机从多种参数融合模式,选择一种参数融合模式,作为待利用的参数融合模式;
或者,
将最近N次被选择的参数融合模式中,被选择次数最多的参数融合模式,作为待利用的参数融合模式。
9.根据权利要求5所述的方法,其特征在于,所述按照待利用的参数融合模式,对所接收的模型参数和所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数,包括:
若待利用的参数融合模式为数据权重模式,则基于各节点的数据量,确定每一节点的数据权重;
基于各节点的数据权重,计算所接收的模型参数,与所述第一节点内部署的机器学***均值,作为融合后的模型参数。
10.一种模型训练***,其特征在于,所述模型训练***中包含多个节点;其中,
第一节点,用于接收至少一第二节点发送的训练信息,其中,每一第二节点的训练信息包括:该第二节点最新的模型参数;利用所接收的模型参数,与所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数;利用所述融合后的模型参数,更新所述机器学习模型的模型参数,得到包含融合后模型参数的机器学习模型;基于所述第一节点的数据集,对所得到的机器学习模型进行训练,并向所述至少一第二节点发送所述第一节的训练信息,以及返回执行所述接收至少一第二节点发送的训练信息的步骤;所述第一节点为所述联邦学习***中的任一节点,所述至少一第二节点为:所述联邦学习***中除所述第一节点外的其他节点;
每一第二节点,用于向所述第一节点发送所述训练信息。
11.一种模型训练装置,其特征在于,应用于第一节点,所述第一节点为联邦学习***中的任一节点,所述方法包括:
信息接收模块,用于接收至少一第二节点发送的训练信息;其中,每一第二节点的训练信息包括:该第二节点最新的模型参数,所述至少一第二节点为:所述联邦学习***中除所述第一节点外的其他节点;
参数融合模块,用于利用所接收的模型参数,与所述第一节点内部署的机器学习模型的模型参数进行融合,得到融合后的模型参数;
参数更新模块,用于利用所述融合后的模型参数,更新所述机器学习模型的模型参数,得到包含融合后模型参数的机器学习模型;
模型训练模块,用于基于所述第一节点的数据集,对所得到的机器学习模型进行训练,并返回执行所述信息接收模块。
CN202111641151.1A 2021-12-29 2021-12-29 模型训练方法、装置及模型训练*** Pending CN114298326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111641151.1A CN114298326A (zh) 2021-12-29 2021-12-29 模型训练方法、装置及模型训练***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111641151.1A CN114298326A (zh) 2021-12-29 2021-12-29 模型训练方法、装置及模型训练***

Publications (1)

Publication Number Publication Date
CN114298326A true CN114298326A (zh) 2022-04-08

Family

ID=80971212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111641151.1A Pending CN114298326A (zh) 2021-12-29 2021-12-29 模型训练方法、装置及模型训练***

Country Status (1)

Country Link
CN (1) CN114298326A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115297008A (zh) * 2022-07-07 2022-11-04 鹏城实验室 基于智算网络的协同训练方法、装置、终端及存储介质
WO2024036526A1 (zh) * 2022-08-17 2024-02-22 华为技术有限公司 一种模型调度方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115297008A (zh) * 2022-07-07 2022-11-04 鹏城实验室 基于智算网络的协同训练方法、装置、终端及存储介质
CN115297008B (zh) * 2022-07-07 2023-08-22 鹏城实验室 基于智算网络的协同训练方法、装置、终端及存储介质
WO2024036526A1 (zh) * 2022-08-17 2024-02-22 华为技术有限公司 一种模型调度方法和装置

Similar Documents

Publication Publication Date Title
CN113282960B (zh) 一种基于联邦学习的隐私计算方法、装置、***及设备
CN109872242B (zh) 信息推送方法和装置
CN114298326A (zh) 模型训练方法、装置及模型训练***
CN109065054A (zh) 语音识别纠错方法、装置、电子设备及可读存储介质
CN109598414B (zh) 风险评估模型训练、风险评估方法、装置及电子设备
CN108965951B (zh) 广告的播放方法及装置
CN108366012B (zh) 一种社交关系建立方法、装置及电子设备
CN112183627A (zh) 生成预测密度图网络的方法和车辆年检标数量检测方法
CN110069997B (zh) 场景分类方法、装置及电子设备
CN111125240B (zh) 一种分布式事务实现方法、装置、电子设备及存储介质
CN108805332B (zh) 一种特征评估方法和装置
CN111565065B (zh) 一种无人机基站部署方法、装置及电子设备
CN111078773B (zh) 一种数据处理方法及装置
CN112836128A (zh) 信息推荐方法、装置、设备和存储介质
CN111080349B (zh) 识别同一用户的多个设备的方法、装置、服务器及介质
CN111582456B (zh) 用于生成网络模型信息的方法、装置、设备和介质
CN112235723B (zh) 定位方法、装置、电子设备及计算机可读存储介质
CN111754984B (zh) 文本选取的方法、装置、设备和计算机可读介质
CN113076451B (zh) 异常行为识别和风险模型库的建立方法、装置及电子设备
CN114679680A (zh) 基于ip地址的定位方法、装置、可读介质和电子设备
CN110399803B (zh) 一种车辆检测方法及装置
CN112926608A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN111741526A (zh) 定位方法、装置、电子设备以及计算机存储介质
CN117237788B (zh) 图像处理方法、设备和存储介质
CN111582482B (zh) 用于生成网络模型信息的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination