CN110766169A

CN110766169A - 强化学习的迁移训练优化方法、装置、终端及存储介质

Info

Publication number: CN110766169A
Application number: CN201911057308.9A
Authority: CN
Inventors: 梁新乐; 刘洋; 陈天健; 董苗波
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-07

Abstract

本发明公开了一种强化学习的迁移训练优化方法、装置、终端设备及计算机可读存储介质，通过获取各预设环境的训练设备基于强化学习训练所得到的各训练模型；对各所述训练模型进行联邦处理以生成联邦模型；将所述联邦模型迁移适配至各所述预设环境，以供各所述预设环境的所述训练设备根据所述联邦模型优化强化学习训练。本发明充分利用预设环境中训练设备进行强化训练得到的训练模型，不仅能够很好的保护用户数据隐私，还避免了传统的强化学习训练方式进行强化学习时传输数据的高成本、长时延的问题，优化提升了工业强化学习模型的稳定性和模型训练的整体效率。

Description

强化学习的迁移训练优化方法、装置、终端及存储介质

技术领域

本发明涉及Fintech(金融科技)技术领域，尤其涉及一种强化学习的迁移训练优化方法、装置、终端设备及计算机可读存储介质。

背景技术

时下工业界应用强化学习的训练方式通常为，先从仿真环境和现实环境收集大量训练数据，然后将训练数据集中汇总以训练强化学习(或其他机器学习)模型，最后将训练好的模型部署至仿真环境和现实环境中，并由仿真环境和现实环境继续收集训练数据进行训练。

由于仿真环境和现实环境均为数据收集的过程，而强化学习模型的训练和下发过程均在完成数据收集之后进行，而基于强化学习实时训练的要求，致使传统的强化学习训练方式需要保留和迁移仿真环境和现实环境所收集到的数据，而基于数据传输带宽、传输时延以及涉及用户隐私等因素的限制，导致传统的强化学习训练方式进行强化学习的稳定性差、整体训练效率低。

发明内容

本发明的主要目的在于提供一种强化学习的迁移训练优化方法、装置、终端设备及计算机可读存储介质，旨在解决现有的强化学习训练方式进行强化学习的稳定性差、整体训练效率低的技术问题。

为实现上述目的，本发明提供一种强化学习的迁移训练优化方法，所述强化学习的迁移训练优化方法包括：

获取各预设环境的训练设备基于强化学习训练所得到的各训练模型；

对各所述训练模型进行联邦处理以生成联邦模型；

将所述联邦模型迁移适配至各所述预设环境，以供各所述预设环境的所述训练设备根据所述联邦模型优化强化学习训练。

进一步地，所述将所述联邦模型迁移适配至各所述预设环境的步骤，包括：

读取各所述预设环境的环境参数；

按照所述环境参数对所述联邦模型进行调整以将所述联邦模型迁移适配至各所述预设环境。

进一步地，各所述预设环境包括：各仿真环境和各现实环境，

所述获取各预设环境的训练设备基于强化学习训练所得到的各训练模型的步骤，包括：

检测各所述仿真环境的训练设备基于实时强化学习训练完成的各训练模型的存储队列，并按照预设周期从所述存储队列中随机提取各训练模型；

按照所述预设周期获取各所述现实环境的训练设备基于实时强化学习训练完成的各训练模型。

进一步地，在所述检测各所述仿真环境的训练设备基于实时强化学习训练完成的各训练模型的存储队列的步骤之前，还包括：

构建与各所述现实环境相对应的各所述仿真环境，并在各所述仿真环境中基于所述训练设备实时进行强化学习训练以得到所述训练模型。

进一步地，所述构建与各所述现实环境相对应的各所述仿真环境的步骤，包括：

检测各所述现实环境所属的工业领域；

调用所述工业领域的模拟软件构建各所述仿真环境，其中构建出的所述仿真环境的个数大于等于所述现实环境的个数。

进一步地，所述对各所述训练模型进行联邦处理以生成联邦模型的步骤，包括：

提取对各所述训练模型进行联邦处理的预设联邦学习规则，其中，所述联邦学习规则属于横向联邦学习技术；

按照所述预设联邦学习规则，将各所述训练模型融合为联邦模型。

进一步地，所述将各所述训练模型融合为联邦模型的步骤，包括：

读取当前时刻获取到的各所述训练模型；

将获取到的各所述训练模型融合为各所述预设环境的训练设备进行强化学习训练的联邦模型。

此外，为实现上述目的，本发明还提供一种强化学习的迁移训练优化装置，所述强化学习的迁移训练优化装置包括：

获取模块，用于获取各预设环境的训练设备基于强化学习训练所得到的各训练模型；

联邦模块，用于对各所述训练模型进行联邦处理以生成联邦模型；

迁移训练模块，用于将所述联邦模型迁移适配至各所述预设环境，以供各所述预设环境的所述训练设备根据所述联邦模型优化强化学习训练。

本发明还提供一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的强化学习的迁移训练优化程序，所述强化学习的迁移训练优化程序被所述处理器执行时实现如上述中的强化学习的迁移训练优化方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的强化学习的迁移训练优化方法的步骤。

本发明提出的强化学习的迁移训练优化方法、装置、终端设备以及计算机可读存储介质，通过获取各预设环境的训练设备基于强化学习训练所得到的各训练模型；对各所述训练模型进行联邦处理以生成联邦模型；将所述联邦模型迁移适配至各所述预设环境，以供各所述预设环境的所述训练设备根据所述联邦模型优化强化学习训练。本发明不针对预设环境中训练设备进行强化学习所需收集的样本数据进行迁移传输，而是充分利用预设环境中训练设备进行强化训练得到的训练模型，不仅能够很好的保护用户数据隐私，还避免了传统的强化学习训练方式进行强化学习时传输数据的高成本、长时延的问题，优化了强化学习训练的稳定性和训练的整体效率。

附图说明

图1是本发明实施例方案涉及的硬件运行的结构示意图；

图2是本发明一种强化学习的迁移训练优化方法第一实施例的流程示意图；

图3是本发明一种强化学习的迁移训练优化方法一实施例中步骤S100的细化流程示意图；

图4是本发明一种强化学习的迁移训练优化方法一实施例的应用场景示意图；

图5是本发明一种强化学习的迁移训练优化装置的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为终端设备的硬件运行环境的结构示意图。本发明实施例终端设备可以是PC，便携计算机等终端设备。

如图1所示，该终端设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及分布式任务的处理程序。其中，操作***是管理和控制样本终端设备硬件和软件资源的程序，支持分布式任务的处理程序以及其它软件或程序的运行。

在图1所示的终端设备中，用户接口1003主要用于与各个终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中存储的强化学习的迁移训练优化程序，并执行以下操作：

对各所述训练模型进行联邦处理以生成联邦模型；

将所述联邦模型迁移下发至各所述预设环境的训练设备，以供各所述训练设备根据所述联邦模型优化强化学习训练。

进一步地，处理器1001可以调用存储器1005中存储的强化学习的迁移训练优化程序，还执行以下操作：

读取各所述预设环境的环境参数；

进一步地，处理器1001可以调用存储器1005中存储的强化学习的迁移训练优化程序，在执行检测各所述仿真环境的训练设备基于实时强化学习训练完成的各训练模型的存储队列之前，还执行以下操作：

检测各所述现实环境所属的工业领域；

读取当前时刻获取到的各所述训练模型；

基于上述的结构，提出本发明强化学习的迁移训练优化方法的各个实施例。

请参照图2，图2为本发明强化学习的迁移训练优化方法第一实施例的流程示意图。

本发明实施例提供了强化学习的迁移训练优化方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例强化学习的迁移训练优化方法应用于上述终端设备，本发明实施例终端设备可以是PC，便携计算机等终端设备，在此不做具体限制。

本实施例强化学习的迁移训练优化方法包括：

步骤S100，获取各预设环境的训练设备基于强化学习训练所得到的各训练模型。

在由联邦学习服务器、各仿真环境训练设备以及各现实环境训练设备所组建形成的横向联邦学习***中，联邦学习服务器实时的获取各仿真环境的训练设备和各现实环境的训练设备基于实时的强化学习训练所得到的各个训练模型。

需要说明的是，本实施例中，预设环境包括仿真环境和现实环境。

进一步地，请参照图3，图3为本发明强化学习的迁移训练优化方法步骤S100的细化流程示意图，步骤S100，包括：

步骤S101，按照预设周期获取各所述仿真环境的训练设备基于实时强化学习训练完成的各训练模型。

步骤S102，按照所述预设周期获取各所述现实环境的训练设备基于实时强化学习训练完成的各训练模型。

需要说明的是，本实施例中，预设周期为工作人员预先基于联邦学习服务器自身性能而自主设置，用以接收各仿真环境和各现实环境的训练设备上传的训练模型的时间周期(例如，10分钟)，应当理解的是，本发明强化学习的迁移训练优化方法，并不对预设周期的具体数值进行限定。

具体地，例如，在图4所示强化学习迁移训练的一个应用场景中，联邦学习服务器每隔10分钟，就获取一次对仿真环境A进行强化学习训练的训练设备、对仿真环境B进行强化学习训练的训练设备、对现实环境RL(real：实际的、真实的)进行强化学习训练的Agent(代理人，强化学习模型的学习者)1以及对现实环境RL进行强化学习训练的Agent2，各自在独立进行强化学习训练后所实时生成的多个对于当前工业领域(例如无人车自动驾驶)进行强化学习的训练模型。

需要说明的是，本实施例中，对现实环境RL进行强化学习训练的Agent-强化学习模型，包括但不限于深度强化学习模型(例如，DQN模型、DDPG模型、A3C模型和PPO模型等)，应当理解的是，本发明强化学习的迁移训练优化方法，并不对现实环境的强化学习模型的种类进行限定。

进一步地，在本实施例中，在步骤S101，按照预设周期获取各所述仿真环境的训练设备基于实时强化学习训练完成的各训练模型之前，本发明强化学习的迁移训练优化方法，还包括：

步骤A，构建与各所述现实环境相对应的各所述仿真环境，并在各所述仿真环境中基于所述训练设备实时进行强化学习训练以得到所述训练模型。

基于调用模拟软件对现实环境进行强化学习的训练设备进行仿真，以建立与当前现实环境所相对应的多个仿真环境，并在建立的多个仿真环境中，基于进行强化学习训练的训练设备实时独立的进行单机训练，从而生成得到对建立的各仿真环境进行强化学习训练的训练模型。

需要说明的是，在本实施例中，进行强化学习训练的训练设备(即仿真环境的强化学习Agent)在仿真环境中进行强化学习训练时，随机的在存储现实环境所收集数据块的固定长度经验记忆队列内，抽取一定数量的样本数据进行强化学习训练，从而避免了现实环境所收集数据相互之间数据时序对模型训练结果准确性的影响，提高了强化学习模型的健壮性。

本实施例中，基于构建多个与现实环境相关联对应的仿真环境进行强化学习训练，不仅提高了强化学习模型的健壮性，还加快了对强化学习的模型进行训练的速度。

需要说明的是，本实施例中，由于仿真环境的构建所需成本较低，因此，在构建仿真环境进行仿真环境的强化学习训练时，可以将同时构建多个仿真环境，以增加对仿真环境进行强化学习训练的训练设备并发数，从而获得更为健壮的训练模型，在节约训练时间和训练成本的同时，提高强化学习模型对不同环境的适应能力。

进一步地，在本实施例中，步骤A中，构建与各所述现实环境相对应的各所述仿真环境的步骤，包括：

步骤A1，检测各所述现实环境所属的工业领域。

在开始构建与现实环境相关联对应的仿真环境时，检测识别当前现实环境所属的工业领域。

需要说明的是，本实施例中，工业领域包括但不限于工业机器人的控制，无人车的控制、AGV小车的控制、无人机的控制、扫地机器人的控制、流程工业生产设备(包括但不仅限于发电锅炉燃烧优化、精馏塔最优化控制和钢铁高炉的控制等)的最优化控制等领域。

步骤A2，调用所述工业领域的模拟软件构建各所述仿真环境。

在检测到现实环境所属的工业领域之后，调用该工业领域下成熟的模拟软件来构建该现实环境所对应的仿真环境。

需要说明的是，本实施例中，为了增大对仿真环境进行强化学习训练的训练设备并发数，从而获得更为健壮的训练模型，可以在构建该仿真环境时及构建出数量与现实环境数量相同或者比现实环境数量更多的仿真环境以进行强化学习的模型训练。

具体地，例如，在检测识别到现实环境所属的工业领域为无人车自动驾驶领域时，调用自动驾驶软件Airsim，CARLA，DeepDrive等来构建当前现实环境的仿真模型。

步骤S200，对各所述训练模型进行联邦处理以生成联邦模型。

在由联邦学习服务器、各仿真环境训练设备以及各现实环境训练设备所组建形成的横向联邦学习***中，联邦学习服务器按照预设的联邦学习规则将获取到的各仿真环境的训练设备和各现实环境的训练设备基于实时的强化学习训练所得到的各个训练模型进行联邦处理，从而将多个训练模型融合生成为一个联邦模型。

具体地，例如，在图4所示强化学习迁移训练的一个应用场景中，联邦学习服务器定期的将获取到的对各仿真环境进行强化学习训练得到的训练模型和对各现实环境进行强化学习训练得到的训练模型汇集，并分局相应的联邦学习规则将汇集的各训练模型融合生成一个新的用于各仿真环境和各现实环境中的训练设备(即强化学习的Agent)进行强化学习训练的联邦模型。

步骤S300，将所述联邦模型迁移适配至各所述预设环境，以供各所述预设环境的所述训练设备根据所述联邦模型优化强化学习训练。

在由联邦学习服务器、各仿真环境训练设备以及各现实环境训练设备所组建形成的横向联邦学习***中，联邦学习服务器将按照联邦学习规则进行联邦处理得到的联邦模型迁移适配至各仿真环境和各现实环境，从而由该不同仿真环境和现实环境的训练设备基于该迁移适配的联邦模型对各自的仿真环境或者现实环境的强化学习模型进行模型训练，从而实现对当前现实环境的整体强化学习模型进行模型更新的效果。

需要说明的是，本实施例中，联邦学习服务器对不同环境(仿真环境和现实环境)的训练模型进行联邦处理，以及将经过联邦处理得到的联邦模型迁移下发至各环境下的强化学习Agent进行强化学习模型的更新，都可以基于“异步”的方式进行，即，联邦学习服务器以固定的周期对当前时刻已经获取到的训练模型进行聚合，而不用等待所有环境(包括全部仿真环境和全部现实环境)的强化学习Agent都完成模型的上传，而不同环境的强化学习Agent同样以各自固定的周期对其强化学习模型独立进行训练更新，如此，避免了同步的进行训练模型聚合或者进行强化学习模型的训练更新所带来的额外的通信和计算负担，节省了强化学习模型的训练时间，优化提升了整体训练效率。

进一步地，步骤S300中，将所述联邦模型迁移下发至各所述预设环境的步骤，包括：

步骤S301，读取各所述预设环境的环境参数。

读取出全部仿真环境和全部现实环境的各环境参数，其中，读取到的环境参数包括但不限于：环境特征、环境训练奖励函数以及环境训练输出控制。

步骤S302，按照所述环境参数对所述联邦模型进行调整以将所述联邦模型迁移适配至各所述预设环境。

以全部仿真环境和全部现实环境中的任意一个训练环境作为标准环境，将其他各训练环境的本地迁移训练模型调整至与当前标准环境相适配，并以该标准环境所对应的环境特征、环境训练奖励函数以及环境训练输出控制等环境参数，将联邦学习服务器按照预设的联邦学习规则对各个训练模型进行联邦处理得到的联邦模型进行迁移调整，从而使该联邦模型的运行参数适配该全部仿真环境和全部现实环境中的任意一个训练环境。

在本实施例中，通过在由联邦学习服务器、各仿真环境训练设备以及各现实环境训练设备所组建形成的横向联邦学习***中，联邦学习服务器实时的获取各仿真环境的训练设备和各现实环境的训练设备基于实时的强化学习训练所得到的各个训练模型，联邦学习服务器按照预设的联邦学习规则将获取到的各仿真环境的训练设备和各现实环境的训练设备基于实时的强化学习训练所得到的各个训练模型进行联邦处理，从而将多个训练模型融合生成为一个联邦模型，联邦学习服务器将按照联邦学习规则进行联邦处理得到的联邦模型迁移适配至各仿真环境和各现实环境，从而由该不同仿真环境和现实环境的训练设备基于该迁移适配的联邦模型对各自的仿真环境或者现实环境的强化学习模型进行模型训练，从而实现对当前现实环境的整体强化学习模型进行模型更新的效果。

实现了，将仿真环境和现实环境结合进行知识的实时迁移训练，不针对预设环境中训练设备进行强化学习所需收集的样本数据进行迁移传输，而是充分利用预设环境中训练设备进行强化训练得到的训练模型，不仅能够很好的保护用户数据隐私，还节省了大量的数据传输成本(网络带宽成本和时间成本)，优化提升了强化学习的健壮性和模型训练的整体效率。

进一步地，基于上述强化学习的迁移训练优化方法第一实施例，提出本发明强化学习的迁移训练优化方法的第二实施例。

在本发明强化学习的迁移训练优化方法的第二实施例中，上述步骤S200，对各所述训练模型进行联邦处理以生成联邦模型，包括：

步骤S201，提取对各所述训练模型进行联邦处理的预设联邦学习规则。

步骤S202，按照所述预设联邦学习规则，将各所述训练模型融合为联邦模型。

在联邦学习服务器开始对获取到的各个训练模型进行联邦处理之前，联邦学习服务器先从当前构建的横向联邦学习***中提取出联邦学习规则，然后按照提取出的该联邦学习规则将各个训练模型联邦融合处理为一个用于供各仿真环境和各现实环境进行强化学习训练的联邦模型。

进一步地，步骤S202中，将各所述训练模型融合为联邦模型的步骤包括：

步骤S2021，读取当前时刻获取到的各所述训练模型。

步骤S2022，将获取到的各所述训练模型融合为各所述预设环境的训练设备进行强化学习训练的联邦模型。

具体地，例如，联邦学***均的联邦处理，从而将各训练模型融合处理为一个适用于对各仿真环境和各现实环境的强化学习模型进行模型训练的联邦模型。

需要说明的是，本实施例中，预设联邦学习规则属于横向联邦学习技术，由于联邦学习服务器、各仿真环境训练设备以及各现实环境训练设备所组建形成的为横向联邦学习***，因此，联邦学习服务器对获取的各训练模型进行联邦处理时所依据的联邦学习规则属于横向联邦学习技术，例如，该预设联邦学习规则具体可以为将不同环境强化学习的训练模型融合成一个联邦模型的过程，联邦学习规则包括但不局限于Fed-AVG算法以及Trimmed-mean SGD等。

应当理解的是，在联邦学习服务器、各仿真环境训练设备以及各现实环境训练设备组建成其他联邦学习***时，该预设联邦学习规则将对应的进行调整，本发明强化学习的迁移训练优化方法并不对强化学习的迁移训练优化所依据的联邦学习方式和联邦学习规则进行限定。

本实施例中，基于调取联邦学习服务器、各仿真环境以及各现实环境的训练设备(强化学习Agent)所构建横向联邦学习***下的横向联邦学习规则，对联邦学习服务器获取到的多个训练模型进行联邦，从而生成用于对各仿真环境和各现实环境的强化学习模型进行模型训练的联邦模型，实现了对各仿真环境和各现实环境进行强化学习训练得到的训练模型进行迁移融合，提高了强化学习模型整体的模型健壮性和模型训练速度。

进一步地，基于上述强化学习的迁移训练优化方法第一实施例，提出本发明强化学习的迁移训练优化方法的第三实施例。

本发明强化学习的迁移训练优化方法的第三实施例，上述步骤S300，将所述联邦模型迁移适配至各所述预设环境，以供各所述预设环境的所述训练设备根据所述联邦模型进行强化学习训练，还包括：

步骤B，将所述联邦模型封装为运行指令并迁移下发至各所述训练设备，以供各所述训练设备根据所述运行指令启动进行强化学习训练。

在由联邦学习服务器、各仿真环境以及各现实环境的训练设备(强化学习Agent)所构建横向联邦学习***中，联邦学习服务器将经过联邦处理得到的联邦模型实时封装至控制各训练设备启动运行的运行指令中，从而在各仿真环境以及各现实环境的训练设备中的某一个训练设备于当前时刻之前并未进行强化学习模型的本地训练的情况下，该训练设备得以依据该运行指令将以联邦学习服务器所迁移下发的联邦模型作为初始样本模型，并依据该联邦模型开始对所处的仿真环境或者现实环境开始启动运行以进行强化学习训练。

步骤C，将所述联邦模型迁移下发至各所述训练设备，以供各所述训练设备根据接收到的所述联邦模型继续进行新一轮的强化学习训练。

在由联邦学习服务器、各仿真环境以及各现实环境的训练设备(强化学习Agent)所构建横向联邦学习***中，联邦学习服务器对经过联邦处理得到的联邦模型进行实时的迁移下发，从而在各仿真环境以及各现实环境的训练设备中的某一个训练设备于当前时刻之前已经循环进行了强化学习模型的本地训练的情况下，该训练设备将以联邦学习服务器所迁移下发的联邦模型作为新的样本模型，并依据该联邦模型继续对所处的仿真环境或者现实环境进行强化学习训练。

本实施例中，通过检测不同环境下进行强化学习的训练设备(强化学习Agent)在接收到联邦学习服务器所迁移下发的联邦模型之前，是否有对强化学习模型进行本地训练，而对应的基于接收到的联邦模型开始或者继续对各自环境进行强化学习训练，提高了强化学习模型训练的灵活性和模型训练效率。

此外，请参照图5，本发明实施例还提出一种强化学习的迁移训练优化装置，本发明强化学习的迁移训练优化装置，包括：

优选地，迁移训练模块，包括：

读取单元，用于读取各所述预设环境的环境参数；

适配单元，用于按照所述环境参数对所述联邦模型进行调整以将所述联邦模型迁移适配至各所述预设环境。

优选地，获取模块，包括：

第一获取单元，用于按照预设周期获取各所述仿真环境的训练设备基于实时强化学习训练完成的各训练模型；

第二获取单元，用于按照所述预设周期获取各所述现实环境的训练设备基于实时强化学习训练完成的各训练模型。

优选地，获取模块，还包括：

构建单元，用于构建与各所述现实环境相对应的各所述仿真环境，并在各所述仿真环境中基于所述训练设备实时进行强化学习训练以得到所述训练模型。

优选地，构建单元，包括：

检测子单元，用于检测各所述现实环境所属的工业领域；

调用子单元，用于调用所述工业领域的模拟软件构建各所述仿真环境，其中构建出的所述仿真环境的个数大于等于所述现实环境的个数。

优选地，联邦模块，包括：

提取单元，用于提取对各所述训练模型进行联邦处理的预设联邦学习规则，其中，所述联邦学习规则属于横向联邦学习技术；

处理单元，用于按照所述预设联邦学习规则，将各所述训练模型融合为联邦模型。

优选地，处理单元，还包括：

读取子单元，用于读取当前时刻获取到的各所述训练模型；

处理子单元，用于将获取到的各所述训练模型融合为各所述预设环境的训练设备进行强化学习训练的联邦模型。

此外，本发明实施例还提出一种强化学习的迁移训练优化装置，应用于各预设环境进行强化学习训练的训练设备，该强化学习的迁移训练优化装置，包括：

模型训练模块，用于在当前训练设备接收到强化学习训练的联邦模型时，开始启动运行以进行强化学习训练；或者，

模型训练模块，还用于在当前所述训练设备上，根据接收到的所述联邦模型继续进行强化学习训练。

此外，本发明实施例还提出一种计算机可读存储介质，应用于计算机，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质上存储有强化学习的迁移训练优化程序，所述强化学习的迁移训练优化程序被处理器执行时实现如上所述的强化学习的迁移训练优化方法的步骤。

其中，在所述处理器上运行的强化学习的迁移训练优化程序被执行时所实现的步骤可参照本发明强化学习的迁移训练优化方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种强化学习的迁移训练优化方法，其特征在于，所述强化学习的迁移训练优化方法，包括：

对各所述训练模型进行联邦处理以生成联邦模型；

将所述联邦模型迁移适配至各所述预设环境，以供各所述预设环境的训练设备根据所述联邦模型优化强化学习训练。

2.如权利要求1所述的强化学习的迁移训练优化方法，其特征在于，所述将所述联邦模型迁移适配至各所述预设环境的步骤，包括：

读取各所述预设环境的环境参数；

3.如权利要求1所述的强化学习的迁移训练优化方法，其特征在于，各所述预设环境包括：各仿真环境和各现实环境，

按照预设周期获取各所述仿真环境的训练设备基于实时强化学习训练完成的各训练模型；

4.如权利要求3所述的强化学习的迁移训练优化方法，其特征在于，在所述按照预设周期获取各所述仿真环境的训练设备基于实时强化学习训练完成的各训练模型的步骤之前，还包括：

5.如权利要求4所述的强化学习的迁移训练优化方法，其特征在于，所述构建与各所述现实环境相对应的各所述仿真环境的步骤，包括：

检测各所述现实环境所属的工业领域；

6.如权利要求1所述的强化学习的迁移训练优化方法，其特征在于，所述对各所述训练模型进行联邦处理以生成联邦模型的步骤，包括：

7.如权利要求6所述的强化学习的迁移训练优化方法，其特征在于，所述将各所述训练模型融合为联邦模型的步骤，包括：

读取当前时刻获取到的各所述训练模型；

8.一种强化学习的迁移训练优化装置，其特征在于，所述强化学习的迁移训练优化装置，包括：

迁移训练模块，用于将所述联邦模型迁移适配至各所述预设环境，以供各所述预设环境所述训练设备根据所述联邦模型优化强化学习训练。

9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的强化学习的迁移训练优化程序，所述强化学习的迁移训练优化程序被所述处理器执行时实现如权利要求1至7中任一项所述的强化学习的迁移训练优化方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的强化学习的迁移训练优化方法的步骤。