CN111178545B

CN111178545B - 一种动态强化学习决策训练***

Info

Publication number: CN111178545B
Application number: CN201911412353.1A
Authority: CN
Inventors: 高放; 李明强; 陈思; 唐思琦; 黄彬城
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-02-24
Anticipated expiration: 2039-12-31
Also published as: CN111178545A

Abstract

一种动态强化学习决策训练***，包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口；训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成；环境执行引擎模块，用于维护一个底层状态数据结构，输出包含所有状态信息的底层状态数据；观测构建模块，用于负责将底层状态数据转换为适应不同算法需求的状态信息形式，在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息；回报计算模块，用于针对多种回报生成条件设置回报检查点，训练环境模块执行步长中计算检查点回报值并输出；强化学习模型与训练环境模块之间的数据接口包括：状态信息发送接口、动作接收接口、回报发送接口；极大增强算法普适性，降低接口设计难度，同时减小环境对算法形态的限制。

Description

一种动态强化学习决策训练***

技术领域

本发明属于计算机人工智能领域，具体涉及一种强化机器学习的训练***。

背景技术

强化学***，体现其在处理复杂、多方面和决策问题方面的巨大潜力，因此，其不仅对工业***和游戏有用武之地，而且在营销、广告、金融、教育，甚至数据科学本身等领域都有很大的应用前景，是最有希望实现通用人工智能的机器学习技术。

任何强化学***台，可以支撑拥有激光雷达、摄像头等传感器的机器人在仿真环境中进行强化学习自主动作训练。GoogleDeepMind联合暴雪游戏公司推出面向星际争霸2的强化学习研究环境SC2LE，提供基于一组用于与星际争霸2游戏交互信息及控制指令的API，以支撑星际争霸2人工智能研究。

上述环境可以快速验证强化学***台均提供一套固定的强化学***台的接口规范，阻碍该算法在此平台进行应用或增加研发人员的平台适配工作量；另一方面，平台开发人员不得不设计尽量普适性的接口规范，以适合不同形式的模型训练，增加平台设计难度，但很多时候由于算法的***，接口普适性效果并不好。

发明内容

本发明要解决的是传统强化学习训练环境算法接口固化,导致接口普适性设计难度大、算法适配难度大等技术问题。

为实现上述目的，本发明提供如下技术方案：

一种动态强化学习决策训练***，包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口；

其特征在于：

训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成；

环境执行引擎模块，用于维护一个底层状态数据结构，输出包含所有状态信息的底层状态数据；

观测构建模块，用于负责将底层状态数据转换为适应不同算法需求的状态信息形式，在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息；

回报计算模块，用于针对多种回报生成条件设置回报检查点，训练环境模块执行步长中计算检查点回报值并输出；

强化学习模型与训练环境模块之间的数据接口包括：状态信息发送接口、动作接收接口、回报发送接口。

本发明动态强化学习决策训练***的优点：

本发明的强化学习训练***及接口架构可以极大增强算法普适性，降低接口设计难度，同时减小环境对算法形态的限制，降低用户将强化学习算法针对环境进行不必要的接口适配的工作量。

附图说明

图1为本发明动态强化学习决策训练***构成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明具体方案如下：

一种动态强化学习决策训练***，包括强化学习模型、训练环境模块。训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个关键功能模块构成。还包括与用户进行人机交互的观测生成算法定义模块、回报生成定义模块，通过观测生成算法定义模块、回报生成定义模块，用户可指定与特定的强化学习模型相对应的观测构建算法及回报生成定义。

环境执行引擎模块维护一个底层状态数据结构，同时构建观测构建模块，在训练/执行过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息；回报计算模块针对多种回报生成条件设置回报检查点，通过回报生成定义模块，用户定义每个检查点的赋值规则，训练环境模块执行步长中计算检查点回报值并输出。

强化学习模型与训练环境模块之间的数据接口主要包括状态信息发送接口、动作接收接口、回报发送接口。

状态信息发送接口，由于不同强化学习算法需要不同的状态数据格式和信息组织形式，如基于离散数据的状态信息、基于图像的状态信息、基于多图层数据的状态信息和多种类型混合的状态信息，对于环境来说，需要设计一套满足任意算法训练、执行所需要的接口；

其中，由环境执行引擎模块输出包含所有状态信息的底层数据(基础状态数据)。通过观测构建模块针对不同算法需求开发多种状态信息构建算法。观测构建模块负责将底层状态数据转换为适应不同算法需求的状态信息形式，形成状态构建算法集合提供给用户选用。用户可直接选用预置状态构建算法进行算法训练，也可直接使用底层状态接口共用算法使用。利用观测生成算法定义模块，用户也可自主定制符合算法需求的观测构建模块；在训练/执行过程中，训练环境模块通过回调或动态加载机制调用对应观测构建模块生成状态信息。

动作接收接口，动作的划分主要取决于环境本身，由于动作与环境本身密切相关，因此不再进行适应性匹配。强化学习模型的动作信息输出可直接输出至训练环境模块中的环境执行引擎模块。

当强化学习模型输出不能直接匹配环境可接收动作，如进行了抽象、扩展、简化等，则可设计由强化学习模型负责相应动作信息转换。

回报发送接口，用户(算法研究人员)经常需要不断修改回报生成规则和回报形式，寻找最有效的回报激励方案，传统环境采用固定的回报生成策略的形式会阻碍强化学习算法研究。

训练环境模块中的回报计算模块在环境中针对多种回报生成条件设置回报检查点；利用回报生成定义模块，由用户编写回报定义脚本，指定每个检查点所生成的回报值，每个检查点赋值可正可负，若不使用则直接设置为0即可；每一步长执行完成后环境计算每个检查点生成的回报总和，作为最终回报值输出。

实施例：

具体实际应用时，可面向人工智能决策训练、执行的软件***、无人机、无人车、机器人等无人***。

人工智能决策训练、执行***设计有可变状态信息接口。

其中，强化学习算法使用python编写，形成Agent类，类中包含关键成员变量“self.obs_ind”，该变量存储对应的状态信息构建算法名称，环境在实例化Agent类时，按照该变量所赋值名称从状态构建库中使用***库“importlib.import_module”动态加载对应状态信息构建类。

使用json定义环境中各回报检查点赋值，环境启动时读取该Json文件，生成赋值规则。

最后应说明的是：以上所述仅为本发明的解释，并不用于限制本发明，尽管对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动态强化学习决策训练***，包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口；

其特征在于：

2.根据权利要求1所述的一种动态强化学习决策训练***，其特征在于，对于状态信息发送接口，其中，由环境执行引擎模块输出包含所有状态信息的底层数据；通过观测构建模块针对不同算法需求开发多种状态信息构建算法；观测构建模块负责将底层状态数据转换为适应不同算法需求的状态信息形式，形成状态构建算法集合提供给用户选用。

3.根据权利要求2所述的一种动态强化学习决策训练***，其特征在于，用户可直接选用预置状态构建算法进行算法训练，也可直接使用底层状态接口共用算法使用。

4.根据权利要求3所述的一种动态强化学习决策训练***，其特征在于，还包括：与用户进行人机交互的观测生成算法定义模块，通过观测生成算法定义模块，用户可指定与特定的强化学习模型相对应的观测构建算法；利用观测生成算法定义模块，用户可自主定制符合算法需求的观测构建模块。

5.根据权利要求1所述的一种动态强化学习决策训练***，其特征在于，对于动作接收接口，其中，来自强化学习模型的动作信息输出可直接输出至训练环境模块中的环境执行引擎模块。

6.根据权利要求5所述的一种动态强化学习决策训练***，其特征在于，当强化学习模型输出不能直接匹配环境可接收动作，则由强化学习模型负责进行相应动作信息转换并输出至环境执行引擎模块。

7.根据权利要求1所述的一种动态强化学习决策训练***，其特征在于，对于回报发送接口，其中，由训练环境模块中的回报计算模块针对多种回报生成条件设置回报检查点；每一步长执行完成后训练环境模块计算每个检查点生成的回报总和，作为最终回报值输出。

8.根据权利要求7所述的一种动态强化学习决策训练***，其特征在于，还包括：与用户进行人机交互的回报生成定义模块，通过回报生成定义模块，用户可指定与特定的强化学习模型相对应的回报生成定义。

9.根据权利要求8所述的一种动态强化学习决策训练***，其特征在于，利用回报生成定义模块，由用户编写回报定义脚本，指定每个检查点所生成的回报值，每个检查点赋值可正可负，若不使用则直接设置为0即可。

10.根据权利要求1所述的一种动态强化学习决策训练***，其特征在于,应用于面向人工智能决策训练、执行的软件***、无人自主机器***。