CN111126609A - 基于联邦学习的知识迁移方法、装置、设备及介质 - Google Patents

基于联邦学习的知识迁移方法、装置、设备及介质 Download PDF

Info

Publication number
CN111126609A
CN111126609A CN201911344082.0A CN201911344082A CN111126609A CN 111126609 A CN111126609 A CN 111126609A CN 201911344082 A CN201911344082 A CN 201911344082A CN 111126609 A CN111126609 A CN 111126609A
Authority
CN
China
Prior art keywords
model
federal
reinforcement learning
training
adaptation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911344082.0A
Other languages
English (en)
Other versions
CN111126609B (zh
Inventor
梁新乐
刘洋
陈天健
董苗波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201911344082.0A priority Critical patent/CN111126609B/zh
Publication of CN111126609A publication Critical patent/CN111126609A/zh
Priority to PCT/CN2020/129250 priority patent/WO2021120951A1/zh
Application granted granted Critical
Publication of CN111126609B publication Critical patent/CN111126609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请公开了一种基于联邦学习的知识迁移方法、装置、设备和介质,所述基于联邦学习的知识迁移方法包括:接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,对各所述强化学习适配模型进行联邦处理,获得联邦模型,对所述联邦模型进行适配,获得联邦适配模型,将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。本申请解决了知识迁移效率低的技术问题。

Description

基于联邦学习的知识迁移方法、装置、设备及介质
技术领域
本申请涉及金融科技(Fintech)的机器学习技术领域,尤其涉及一种基于联邦学习的知识迁移方法、装置、设备及介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,机器学习建模的应用也越来越广泛,在现有技术中,强化学习训练模型通常利用自身收集的数据进行学习、优化和控制,强化学习训练模型的知识也是可迁移的,例如,将无人车的控制知识迁移到扫地机器人的控制上,目前,通常是通过离线的迁移模型进行强化学习训练模型的知识的迁移,但是,这种离线迁移的方法在训练过程中需要花费大量的训练时间,进而导致强化学习训练模型的知识迁移效率极低,且导致训练过程中消耗的计算资源和传输资源过高,所以,现有技术中存在知识迁移效率低的技术问题。
发明内容
本申请的主要目的在于提供一种基于联邦学习的知识迁移方法、装置、设备和介质,旨在解决现有技术中知识迁移效率低的技术问题。
为实现上述目的,本申请提供一种基于联邦学习的知识迁移方法,所述基于联邦学习的知识迁移方法应用于基于联邦学习的知识迁移设备,所述基于联邦学习的知识迁移方法包括:
接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
对各所述强化学习适配模型进行联邦处理,获得联邦模型;
对所述联邦模型进行适配,获得联邦适配模型;
将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
可选地,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:
获取各所述强化学习训练模型的模型输入和模型输出;
对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
可选地,所述模型输入包括环境参数,所述模型输出包括模型控制变量,
所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型的步骤包括:
对各所述环境参数进行量纲校正,获得模型输入校正结果;
对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
可选地,所述对各所述环境参数进行量纲校正,获得模型输入校正结果的步骤包括:
获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
可选地,所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果的步骤包括:
对各所述控制变量进行对齐处理,获得对齐处理结果;
获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。
可选地,所述对所述联邦模型进行适配,获得联邦适配模型的步骤包括:
获取各所述强化学习训练模型的训练任务;
基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。
可选地,所述对各所述强化学习适配模型进行联邦处理,获得联邦模型的步骤包括:
获取各所述强化学***均,获得联邦模型参数;
基于所述联邦模型参数,获取所述联邦模型。
本申请还提供一种基于联邦学习的知识迁移装置,所述基于联邦学习的知识迁移装置为虚拟装置,且所述基于联邦学习的知识迁移装置应用于基于联邦学习的知识迁移设备,所述基于联邦学习的知识迁移装置包括:
第一适配模块,用于所述接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
联邦模块,用于所述对各所述强化学习适配模型进行联邦处理,获得联邦模型;
第二适配模块,用于所述对所述联邦模型进行适配,获得联邦适配模型;
发送模块,用于所述将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
可选地,所述第一适配模块包括:
第一获取子模块,用于所述获取各所述强化学习训练模型的模型输入和模型输出;
校正子模块,用于所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
可选地,所述校正子模块包括:
第一校正单元,用于所述对各所述环境参数进行量纲校正,获得模型输入校正结果;
第二校正单元,用于所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
获取单元,用于所述基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
可选地,所述第一校正单元包括:
比对子单元,用于所述获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
第一校正子单元,用于所述基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
可选地,所述第二校正单元包括:
对齐子单元,用于所述对各所述控制变量进行对齐处理,获得对齐处理结果;
第二校正子单元,用于所述获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。
可选地,所述第二适配模块包括:
第二获取子模块,用于所述获取各所述强化学习训练模型的训练任务;
适配子模块,用于所述基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。
可选地,所述联邦模块包括:
加权平均子模块,用于所述获取各所述强化学***均,获得联邦模型参数;
第三获取子模块,用于所述基于所述联邦模型参数,获取所述联邦模型。
本申请还提供一种基于联邦学习的知识迁移设备,所述基于联邦学习的知识迁移设备为实体设备,所述基于联邦学习的知识迁移设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述基于联邦学习的知识迁移方法的程序,所述基于联邦学习的知识迁移方法的程序被处理器执行时可实现如上述的基于联邦学习的知识迁移方法的步骤。
本申请还提供一种介质,所述介质为可读存储介质,所述介质上存储有实现基于联邦学习的知识迁移方法的程序,所述基于联邦学习的知识迁移方法的程序被处理器执行时实现如上述的基于联邦学习的知识迁移方法的步骤。
本申请首先接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,进而对各所述强化学习适配模型进行联邦处理,获得联邦模型,进而对所述联邦模型进行适配,获得联邦适配模型,进而将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。也即,本申请首先进行各不同训练任务的各强化学习训练模型的接收,进而进行对各所述预设强化学习训练模型的适配,获得强化学习适配模型,进而进行对各所述强化学习适配模型的联邦处理,获得联邦模型,进而进行对所述联邦模型的适配,获得联邦适配模型,进而将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。也即,本申请通过首先进行对各所述强化学习训练模型的适配,实现了对不同训练任务的各强化学习训练模型的联邦处理,获得联邦模型,进而对所述联邦模型进行适配,获得联邦适配模型,进而实现了对不同训练任务的各强化学习训练模型的迭代训练,也即,实现了基于联邦学习的不同训练任务的各强化学习训练模型的知识的在线实时迁移,避免了进行知识迁移时花费训练时间过长的情况发生,进而提高了知识迁移的迁移效率,所以,解决了现有技术中知识迁移效率低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请基于联邦学习的知识迁移方法第一实施例的流程示意图;
图2为本申请基于联邦学习的知识迁移方法中实时环境下的基于横向联邦的多任务强化学习的实时知识迁移架构的示意图;
图3为本申请基于联邦学习的知识迁移方法第二实施例的流程示意图;
图4为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种基于联邦学习的知识迁移方法,所述基于联邦学习的知识迁移方法应用于基于联邦学习的知识迁移设备,在本申请基于联邦学习的知识迁移方法的第一实施例中,参照图1,所述基于联邦学习的知识迁移方法包括:
步骤S10,接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
在本实施例中,需要说明的是,各所述强化学习训练模型是由不同的训练设备基于不同的训练任务进行模型训练而获取的,例如,假设所述强化学习训练模型的数量为4个,所述训练任务包括无人车避障任务和扫地机器人避障任务,则可设置其中2个强化学习训练模型由所述无人车避障任务对应的训练设备进行模型训练获取,另外2个强化学习训练模型由所述扫地机器人避障任务对应的训练设备进行模型训练获取,所述强化学习训练模型包括模型输入参数、模型网络参数和模型输出参数等,所述联邦学习包括横向联邦学习和纵向联邦学习,所述基于联邦学习的知识迁移设备包括模型适配中心和联邦服务器。
接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,具体地,接收不同训练任务的各强化学习训练模型,并通过与模型适配中心对各所述强化学习训练模型的模型输入参数和模型输出参数进行适配,获得第一迁移学习模型,也即,获得所述强化学习适配模型,其中,所述模型输入参数包括环境参数,所述模型输出参数包括控制变量。
步骤S20,对各所述强化学习适配模型进行联邦处理,获得联邦模型;
在本实施例中,对各所述强化学习适配模型进行联邦处理,获得联邦模型,具体地,获取所述联邦服务器中的联邦规则,并基于所述联邦规则对各所述强化学习适配模型进行联邦处理,获得所述联邦模型,其中,所述联邦规则包括横向联邦规则和纵向联邦规则。
其中,所述对各所述强化学习适配模型进行联邦处理,获得联邦模型的步骤包括:
步骤S21,获取各所述强化学***均,获得联邦模型参数;
在本实施例中,需要说明的是,所述模型参数包括网络权重。
获取各所述强化学***均,获得联邦模型参数,具体地,提取各所述强化学***均数,也即,计算所有模型参数和模型参数权重的乘积之和,获得联邦模型参数,例如,假设2个所述强化学习适配模型的模型参数分别为W1和W2,对应的模型参数权重分别为X1和X2,则所述联邦模型参数为(W1X1+W2X2)。
步骤S22,基于所述联邦模型参数,获取所述联邦模型。
在本实施例中,需要说明的是,各强化学习适配模型的模型输入和模型输出是一致的。
基于所述联邦模型参数,获取所述联邦模型,具体地,基于所述联邦模型参数,其中,所述联邦模型参数包括网络权重、模型输出和模型输入,进而基于所述联邦模型参数可通过直接建立或者训练更新获得所述联邦模型,其中,对各所述强化学习适配模型进行更新的方式包括使用所述联邦模型参数直接替换所述强化学习适配模型的模型参数或者基于所述联邦模型参数,对所述强化学习适配模型进行训练更新等。
步骤S30,对所述联邦模型进行适配,获得联邦适配模型;
在本实施例中,对所述联邦模型进行适配,获得联邦适配模型,具体地,通过所述模型适配中心获取各所述强化学习训练模型对应的训练任务,基于所述训练任务,对所述联邦模型进行适配,以将所述联邦模型调整为所述训练任务对应的联邦适配模型,其中,所述训练任务的数量大于或者等于2。
其中,所述对所述联邦模型进行适配,获得联邦适配模型的步骤包括:
步骤S31,获取各所述强化学习训练模型的训练任务;
在本实施例中,需要说明的是,各所述训练任务为相似的训练任务,例如,无人车避障任务和扫地机器人避障任务等,其中,所述训练任务是存储于本地数据库中,在所有所述强化学习训练模型对应的强化学习任务中应至少存在两种不同且相似的训练任务。
步骤S32,基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。
在本实施例中,基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型,具体地,基于所述训练任务,获取各所述训练任务对应的模型输入和模型输出,将所述联邦模型的输入和输出进行校正,也即,将所述联邦模型的模型输入和模型输出校正为各所述训练任务对应的模型输入和输出,获得多个联邦适配模型,其中,每一种训练任务对应一类联邦适配模型。
步骤S40,将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
在本实施例,将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练,具体地,将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,也即,将各所述联邦适配模型发送至与其训练任务一致的所述训练设备,以对各所述训练设备中的强化学习训练模型进行更新,例如,基于所述联邦适配模型对所述强化学习训练模型进行训练更新或者直接将所述强化学习训练模型作为当前强化学习训练模型,以完成本次迭代训练,并判断迭代训练后的各所述强化学习训练模型是否达到收敛条件,若未达到,则可对各所述强化学习训练模型进行单独训练或者进行下一次所述迭代训练,如图2所示为在实时环境下的基于横向联邦的多任务强化学习的实时知识迁移架构,其中,所述迁移学习模型适配即为所述模型适配中心,所述强化学习Agent1、Agent2、Agent3和Agent4均为各所述强化学习训练模型对应的训练设备,所述联邦学习服务器即为所述联邦服务器。
另外地,也可设置各所述训练设备定期将各所述强化学习训练模型发送至所述模型适配中心,以进行迭代训练,例如,假设可设置每过10分钟将各所述强化学习训练模型向所述模型适配中心发送一次,则表示每10分钟进行一轮迭代训练。
本实施例首先接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,进而对各所述强化学习适配模型进行联邦处理,获得联邦模型,进而对所述联邦模型进行适配,获得联邦适配模型,进而将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。也即,本实施例首先进行各不同训练任务的各强化学习训练模型的接收,进而进行对各所述预设强化学习训练模型的适配,获得强化学习适配模型,进而进行对各所述强化学习适配模型的联邦处理,获得联邦模型,进而进行对所述联邦模型的适配,获得联邦适配模型,进而将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。也即,本实施例通过首先进行对各所述强化学习训练模型的适配,实现了对不同训练任务的各强化学习训练模型的联邦处理,获得联邦模型,进而对所述联邦模型进行适配,获得联邦适配模型,进而实现了对不同训练任务的各强化学习训练模型的迭代训练,也即,实现了基于联邦学习的不同训练任务的各强化学习训练模型的知识的在线实时迁移,避免了进行知识迁移时花费训练时间过长的情况发生,进而提高了知识迁移的迁移效率,所以,解决了现有技术中知识迁移效率低的技术问题。
进一步地,参照图3,基于本申请中第一实施例,在基于联邦学习的知识迁移方法的另一实施例中,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:
步骤S11,获取各所述强化学习训练模型的模型输入和模型输出;
在本实施例中,需要说明的是,所述模型输入包括环境参数,所述模型输出包括控制变量,例如,假设所述训练任务为无人车避障任务和扫地机器人避障任务,则所述环境参数为与路况和车况相关的参数,所述控制变量包括转向、停止、刹车等。
步骤S12,对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
在本实施例中,对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型,具体地,从所有训练任务中选定目标训练任务对应的强化学习训练模型为标准强化学习训练模型,获得标准模型输出和标准模型输入,将各所述模型输入和各所述模型输出对应地校正为所述标准模型输出和标准模型输入,并相应地对各所述强化学习训练模型的模型网络参数进行调整,获得强化学习适配模型,例如,假设所述训练任务为无人车避障任务和扫地机器人避障任务,无人车避障任务对应的强化学习训练模型的模型输入中的环境参数为障碍物的高度为30厘米,模型输出为转向或者停止,也即,无人车避障任务为当障碍物的高度超过30厘米时,进行90度左转向,并行驶1米后,进行90度右转向后继续行驶或者停止,扫地机器人避障任务为当障碍物的高度超过15厘米时,进行90度左转向,并行驶0.5米后,进行90度右转向后继续行驶,则假设所述扫地机器人对应的强化学习训练模型为所述标准强化学习训练模型,则将无人车避障任务对应的强化学习训练模型的模型输入中的环境参数校正为障碍物的高度为15厘米,模型输出校正为进行90度左转向,并行驶0.5米后,进行90度右转向后继续行驶。
其中,所述模型输入包括环境参数,所述模型输出包括模型控制变量,
所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型的步骤包括:
步骤S121,对各所述环境参数进行量纲校正,获得模型输入校正结果;
在本实施例中,需要说明的是,由于各所述强化学习训练模型的训练任务是相似的,所以各所述环境参数也应该是相似的。
对各所述环境参数进行量纲校正,获得模型输入校正结果,具体地,在各所述强化学习训练模型中选定标准环境参数,并基于所述标准环境参数,对各所述环境参数进行量纲校正,获得模型输入校正结果。
其中,所述对各所述环境参数进行量纲校正,获得模型输入校正结果的步骤包括:
步骤A10,获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
在本实施例中,获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度,具体地,在各所述强化学习训练模型中选定标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度,例如,假设所述训练任务为无人车避障任务和扫地机器人避障任务,所述无人车避障任务的环境参数为障碍物高度为30厘米,所述扫地机器人避障任务的避障任务为15厘米,则所述环境参数差异度为2倍。
步骤A20,基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
在本实施例中,基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果,具体地,基于各所述环境参数差异度,对各所述环境参数的大小进行调整,以将各所述环境参数调整为标准环境参数,获得所述模型输入校正结果。
步骤S122,对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
在本实施例中,对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果,具体地,对各所述控制变量进行对齐处理,获得共同控制变量,并对所述共同控制变量进行量纲校正,获得模型输出校正结果,例如,假设,所述所述训练任务为无人车避障任务和扫地机器人避障任务,所述无人车避障任务对应的控制变量为转向、加速、刹车,所述扫地机器人避障任务对应的控制变量为转向和特征,则所述共同控制变量为转向,进一步地,假设所述无人车避障任务对应的转向的角度为60度,所述扫地机器人避障任务对应的转向的角度为90度,则可进行量纲校正将所述转向的角度校正为统一的60度或者90度。
其中,所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果的步骤包括:
步骤B10,对各所述控制变量进行对齐处理,获得对齐处理结果;
在本实施例中,对各所述控制变量进行对齐处理,获得对齐处理结果,具体地,将各所述强化学习训练模型的控制变量进行逐一比对,获得公共控制变量,也即,获得所述对齐处理结果,例如,假设所述训练任务为无人车避障任务和扫地机器人避障任务,所述无人车避障任务的控制变量为转向、加速和刹车,且相对应的字符串代码为0001、0002和0003,所述扫地机器人避障任务的控制变量为转向和停止,相对应的字符串代码为0001和0004,所述将各训练任务的控制变量对应的字符串代码进行逐一比对,获得公共字符串代码为0001,则公共控制变量为转向。
步骤B20,获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。
在本实施例中,需要说明的是,所述预设标准控制变量可从各公共控制变量中选取。
获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果,具体地,获取预设标准控制变量的标准参数,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量中的公共控制变量进行量纲校正,以将各公共控制变量的参数调整为标准参数,获得模型输出校正结果。
步骤S123,基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
在本实施例中,基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型,具体地,基于所述模型输入校正结果和所述模型输出校正结果,对各所述强化学习训练模型的网络权重参数进行调整,以使得各所述强化学习训练模型的权重网络可通用,也即,向各所述强化学习训练模型输入所述模型输入校正结果,即可输出所述模型输出校正结果,获得各所述强化学习训练模型对应的各所述强化学习适配模型。
本实施例获取各所述强化学习训练模型的模型输入和模型输出,进而对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。也即,本实施例首先通过所述模型适配中心进行各所述强化学习训练模型的模型输入和模型输出的获取,进而进行对各所述模型输入和各所述模型输出的校正,获得强化学习适配模型。也即,本实施例提供了一种迁移学习的方法,可将不同训练任务的强化学习训练模型适配为可进行联邦处理的模型,进而可对不同的训练任务的强化学习训练模型进行迭代训练,进一步地,可实现基于联邦学习的不同训练任务的各强化学习训练模型的知识的在线实时迁移,可避免进行知识迁移时花费训练时间过长的情况发生,进而提高知识迁移的迁移效率,所以,为解决了现有技术中知识迁移效率低的技术问题奠定了基础。
参照图4,图4是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图4所示,该基于联邦学习的知识迁移设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该基于联邦学习的知识迁移设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图4中示出的基于联邦学习的知识迁移设备结构并不构成对基于联邦学习的知识迁移设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块以及基于联邦学习的知识迁移程序。操作***是管理和控制基于联邦学习的知识迁移设备硬件和软件资源的程序,支持基于联邦学习的知识迁移程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与基于联邦学习的知识迁移***中其它硬件和软件之间通信。
在图4所示的基于联邦学习的知识迁移设备中,处理器1001用于执行存储器1005中存储的基于联邦学习的知识迁移程序,实现上述任一项所述的基于联邦学习的知识迁移方法的步骤。
本申请基于联邦学习的知识迁移设备具体实施方式与上述基于联邦学习的知识迁移方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种基于联邦学习的知识迁移装置,所述基于联邦学习的知识迁移装置包括:
第一适配模块,用于所述接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
联邦模块,用于所述对各所述强化学习适配模型进行联邦处理,获得联邦模型;
第二适配模块,用于所述对所述联邦模型进行适配,获得联邦适配模型;
发送模块,用于所述将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
可选地,所述第一适配模块包括:
第一获取子模块,用于所述获取各所述强化学习训练模型的模型输入和模型输出;
校正子模块,用于所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
可选地,所述校正子模块包括:
第一校正单元,用于所述对各所述环境参数进行量纲校正,获得模型输入校正结果;
第二校正单元,用于所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
获取单元,用于所述基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
可选地,所述第一校正单元包括:
比对子单元,用于所述获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
第一校正子单元,用于所述基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
可选地,所述第二校正单元包括:
对齐子单元,用于所述对各所述控制变量进行对齐处理,获得对齐处理结果;
第二校正子单元,用于所述获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。
可选地,所述第二适配模块包括:
第二获取子模块,用于所述获取各所述强化学习训练模型的训练任务;
适配子模块,用于所述基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。
可选地,所述联邦模块包括:
加权平均子模块,用于所述获取各所述强化学***均,获得联邦模型参数;
第三获取子模块,用于所述基于所述联邦模型参数,获取所述联邦模型。
本申请基于联邦学习的知识迁移装置的具体实施方式与上述基于联邦学习的知识迁移方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种介质,所述介质为可读存储介质,且所述介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的基于联邦学习的知识迁移方法的步骤。
本申请介质具体实施方式与上述基于联邦学习的知识迁移方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种基于联邦学习的知识迁移方法,其特征在于,所述基于联邦学习的知识迁移方法包括:
接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
对各所述强化学习适配模型进行联邦处理,获得联邦模型;
对所述联邦模型进行适配,获得联邦适配模型;
将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
2.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:
获取各所述强化学习训练模型的模型输入和模型输出;
对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
3.如权利要求2所述基于联邦学习的知识迁移方法,其特征在于,所述模型输入包括环境参数,所述模型输出包括模型控制变量,
所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型的步骤包括:
对各所述环境参数进行量纲校正,获得模型输入校正结果;
对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
4.如权利要求3所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述环境参数进行量纲校正,获得模型输入校正结果的步骤包括:
获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
5.如权利要求3所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果的步骤包括:
对各所述控制变量进行对齐处理,获得对齐处理结果;
获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。
6.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对所述联邦模型进行适配,获得联邦适配模型的步骤包括:
获取各所述强化学习训练模型的训练任务;
基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。
7.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述强化学习适配模型进行联邦处理,获得联邦模型的步骤包括:
获取各所述强化学***均,获得联邦模型参数;
基于所述联邦模型参数,获取所述联邦模型。
8.一种基于联邦学习的知识迁移装置,其特征在于,所述基于联邦学习的知识迁移装置包括:
第一适配模块,用于所述接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
联邦模块,用于所述对各所述强化学习适配模型进行联邦处理,获得联邦模型;
第二适配模块,用于所述对所述联邦模型进行适配,获得联邦适配模型;
发送模块,用于所述将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
9.一种基于联邦学习的知识迁移设备,其特征在于,所述基于联邦学习的知识迁移设备包括:存储器、处理器以及存储在存储器上的用于实现所述基于联邦学习的知识迁移方法的程序,
所述存储器用于存储实现基于联邦学习的知识迁移方法的程序;
所述处理器用于执行实现所述基于联邦学习的知识迁移方法的程序,以实现如权利要求1至7中任一项所述基于联邦学习的知识迁移方法的步骤。
10.一种介质,其特征在于,所述介质上存储有实现基于联邦学习的知识迁移方法的程序,所述实现基于联邦学习的知识迁移方法的程序被处理器执行以实现如权利要求1至7中任一项所述基于联邦学习的知识迁移方法的步骤。
CN201911344082.0A 2019-12-20 2019-12-20 基于联邦学习的知识迁移方法、装置、设备及介质 Active CN111126609B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911344082.0A CN111126609B (zh) 2019-12-20 2019-12-20 基于联邦学习的知识迁移方法、装置、设备及介质
PCT/CN2020/129250 WO2021120951A1 (zh) 2019-12-20 2020-11-17 基于联邦学习的知识迁移方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911344082.0A CN111126609B (zh) 2019-12-20 2019-12-20 基于联邦学习的知识迁移方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111126609A true CN111126609A (zh) 2020-05-08
CN111126609B CN111126609B (zh) 2021-04-23

Family

ID=70501510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911344082.0A Active CN111126609B (zh) 2019-12-20 2019-12-20 基于联邦学习的知识迁移方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN111126609B (zh)
WO (1) WO2021120951A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164224A (zh) * 2020-09-29 2021-01-01 杭州锘崴信息科技有限公司 信息安全的交通信息处理***、方法、设备及存储介质
CN112801731A (zh) * 2021-01-06 2021-05-14 广东工业大学 一种接单辅助决策的联邦强化学习方法
CN112884165A (zh) * 2021-03-18 2021-06-01 中国地质大学(北京) 面向联邦机器学习的全流程服务迁移方法与***
WO2021120951A1 (zh) * 2019-12-20 2021-06-24 深圳前海微众银行股份有限公司 基于联邦学习的知识迁移方法、装置、设备及介质
CN113159782A (zh) * 2021-03-26 2021-07-23 支付宝(杭州)信息技术有限公司 基于联邦学习的未成年人防沉迷处理方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165725A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于迁移学习的神经网络联邦建模方法、设备及存储介质
CN109492420A (zh) * 2018-12-28 2019-03-19 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、***及介质
CN109711529A (zh) * 2018-11-13 2019-05-03 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3506000B1 (en) * 2017-12-29 2020-10-07 IMEC vzw Iii-v semiconductor waveguide nanoridge structure
CN109993308B (zh) * 2019-03-29 2024-05-24 深圳先进技术研究院 基于云平台共享学***台及方法、介质
CN110377587B (zh) * 2019-07-15 2023-02-10 腾讯科技(深圳)有限公司 基于机器学习的迁移数据确定方法、装置、设备及介质
CN110490738A (zh) * 2019-08-06 2019-11-22 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构
CN110443375B (zh) * 2019-08-16 2021-06-11 深圳前海微众银行股份有限公司 一种联邦学习方法及装置
CN111126609B (zh) * 2019-12-20 2021-04-23 深圳前海微众银行股份有限公司 基于联邦学习的知识迁移方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165725A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于迁移学习的神经网络联邦建模方法、设备及存储介质
CN109711529A (zh) * 2018-11-13 2019-05-03 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
CN109492420A (zh) * 2018-12-28 2019-03-19 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、***及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021120951A1 (zh) * 2019-12-20 2021-06-24 深圳前海微众银行股份有限公司 基于联邦学习的知识迁移方法、装置、设备及介质
CN112164224A (zh) * 2020-09-29 2021-01-01 杭州锘崴信息科技有限公司 信息安全的交通信息处理***、方法、设备及存储介质
CN112801731A (zh) * 2021-01-06 2021-05-14 广东工业大学 一种接单辅助决策的联邦强化学习方法
CN112884165A (zh) * 2021-03-18 2021-06-01 中国地质大学(北京) 面向联邦机器学习的全流程服务迁移方法与***
CN113159782A (zh) * 2021-03-26 2021-07-23 支付宝(杭州)信息技术有限公司 基于联邦学习的未成年人防沉迷处理方法、装置及设备
CN113159782B (zh) * 2021-03-26 2022-04-15 支付宝(杭州)信息技术有限公司 基于联邦学习的未成年人防沉迷处理方法、装置及设备

Also Published As

Publication number Publication date
CN111126609B (zh) 2021-04-23
WO2021120951A1 (zh) 2021-06-24

Similar Documents

Publication Publication Date Title
CN111126609B (zh) 基于联邦学习的知识迁移方法、装置、设备及介质
CN110782042B (zh) 横向联邦和纵向联邦联合方法、装置、设备及介质
He et al. Adaptive consensus control of linear multiagent systems with dynamic event-triggered strategies
CN111538598A (zh) 联邦学习建模方法、装置、设备及可读存储介质
CN107662211A (zh) 一种基于量子粒子群算法的空间机器人预测控制方法
US11366697B2 (en) Adaptive controller for online adaptation of resource allocation policies for iterative workloads using reinforcement learning
US8825207B2 (en) Trajectory planning method, trajectory planning system and trajectory planning and control system
CN111091200A (zh) 训练模型的更新方法、***、智能体、服务器及存储介质
CN109690576A (zh) 在多个机器学习任务上训练机器学习模型
Shen et al. Adaptive PID formation control of nonholonomic robots without leader's velocity information
CN113157422A (zh) 基于深度强化学习的云数据中心集群资源调度方法及装置
CN104360903A (zh) Spark作业调度***中实现任务数据解耦的方法
WO2017027171A1 (en) System and method for balancing computation with communication in parallel learning
CN113095512A (zh) 联邦学习建模优化方法、设备、介质及计算机程序产品
Priolo et al. A distributed algorithm for average consensus on strongly connected weighted digraphs
US10762616B2 (en) Method and system of analytics system balancing lead time and accuracy of edge analytics modules
CN114641375A (zh) 动态规划控制器
CN107457780B (zh) 控制机械臂运动的方法及装置、存储介质和终端设备
CN109709985B (zh) 一种无人机任务优化方法、装置及***
CN109447276B (zh) 一种机器学习***、设备及应用方法
CN111830825B (zh) 机械的自动驾驶控制方法以及***
CN115648232A (zh) 机械臂控制方法、装置、电子设备及可读存储介质
WO2021181913A1 (ja) 制御システム及び制御方法
CN111652382B (zh) 基于区块链的数据处理方法、装置、设备及存储介质
You et al. Federated and asynchronized learning for autonomous and intelligent things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant