CN111178545B - 一种动态强化学习决策训练*** - Google Patents

一种动态强化学习决策训练*** Download PDF

Info

Publication number
CN111178545B
CN111178545B CN201911412353.1A CN201911412353A CN111178545B CN 111178545 B CN111178545 B CN 111178545B CN 201911412353 A CN201911412353 A CN 201911412353A CN 111178545 B CN111178545 B CN 111178545B
Authority
CN
China
Prior art keywords
module
training
environment
reinforcement learning
return
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911412353.1A
Other languages
English (en)
Other versions
CN111178545A (zh
Inventor
高放
李明强
陈思
唐思琦
黄彬城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN201911412353.1A priority Critical patent/CN111178545B/zh
Publication of CN111178545A publication Critical patent/CN111178545A/zh
Application granted granted Critical
Publication of CN111178545B publication Critical patent/CN111178545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种动态强化学习决策训练***,包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口;训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成;环境执行引擎模块,用于维护一个底层状态数据结构,输出包含所有状态信息的底层状态数据;观测构建模块,用于负责将底层状态数据转换为适应不同算法需求的状态信息形式,在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息;回报计算模块,用于针对多种回报生成条件设置回报检查点,训练环境模块执行步长中计算检查点回报值并输出;强化学习模型与训练环境模块之间的数据接口包括:状态信息发送接口、动作接收接口、回报发送接口;极大增强算法普适性,降低接口设计难度,同时减小环境对算法形态的限制。

Description

一种动态强化学习决策训练***
技术领域
本发明属于计算机人工智能领域,具体涉及一种强化机器学习的训练***。
背景技术
强化学***,体现其在处理复杂、多方面和决策问题方面的巨大潜力,因此,其不仅对工业***和游戏有用武之地,而且在营销、广告、金融、教育,甚至数据科学本身等领域都有很大的应用前景,是最有希望实现通用人工智能的机器学习技术。
任何强化学***台,可以支撑拥有激光雷达、摄像头等传感器的机器人在仿真环境中进行强化学习自主动作训练。GoogleDeepMind联合暴雪游戏公司推出面向星际争霸2的强化学习研究环境SC2LE,提供基于一组用于与星际争霸2游戏交互信息及控制指令的API,以支撑星际争霸2人工智能研究。
上述环境可以快速验证强化学***台均提供一套固定的强化学***台的接口规范,阻碍该算法在此平台进行应用或增加研发人员的平台适配工作量;另一方面,平台开发人员不得不设计尽量普适性的接口规范,以适合不同形式的模型训练,增加平台设计难度,但很多时候由于算法的***,接口普适性效果并不好。
发明内容
本发明要解决的是传统强化学习训练环境算法接口固化,导致接口普适性设计难度大、算法适配难度大等技术问题。
为实现上述目的,本发明提供如下技术方案:
一种动态强化学习决策训练***,包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口;
其特征在于:
训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成;
环境执行引擎模块,用于维护一个底层状态数据结构,输出包含所有状态信息的底层状态数据;
观测构建模块,用于负责将底层状态数据转换为适应不同算法需求的状态信息形式,在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息;
回报计算模块,用于针对多种回报生成条件设置回报检查点,训练环境模块执行步长中计算检查点回报值并输出;
强化学习模型与训练环境模块之间的数据接口包括:状态信息发送接口、动作接收接口、回报发送接口。
本发明动态强化学习决策训练***的优点:
本发明的强化学习训练***及接口架构可以极大增强算法普适性,降低接口设计难度,同时减小环境对算法形态的限制,降低用户将强化学习算法针对环境进行不必要的接口适配的工作量。
附图说明
图1为本发明动态强化学习决策训练***构成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明具体方案如下:
一种动态强化学习决策训练***,包括强化学习模型、训练环境模块。训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个关键功能模块构成。还包括与用户进行人机交互的观测生成算法定义模块、回报生成定义模块,通过观测生成算法定义模块、回报生成定义模块,用户可指定与特定的强化学习模型相对应的观测构建算法及回报生成定义。
环境执行引擎模块维护一个底层状态数据结构,同时构建观测构建模块,在训练/执行过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息;回报计算模块针对多种回报生成条件设置回报检查点,通过回报生成定义模块,用户定义每个检查点的赋值规则,训练环境模块执行步长中计算检查点回报值并输出。
强化学习模型与训练环境模块之间的数据接口主要包括状态信息发送接口、动作接收接口、回报发送接口。
状态信息发送接口,由于不同强化学习算法需要不同的状态数据格式和信息组织形式,如基于离散数据的状态信息、基于图像的状态信息、基于多图层数据的状态信息和多种类型混合的状态信息,对于环境来说,需要设计一套满足任意算法训练、执行所需要的接口;
其中,由环境执行引擎模块输出包含所有状态信息的底层数据(基础状态数据)。通过观测构建模块针对不同算法需求开发多种状态信息构建算法。观测构建模块负责将底层状态数据转换为适应不同算法需求的状态信息形式,形成状态构建算法集合提供给用户选用。用户可直接选用预置状态构建算法进行算法训练,也可直接使用底层状态接口共用算法使用。利用观测生成算法定义模块,用户也可自主定制符合算法需求的观测构建模块;在训练/执行过程中,训练环境模块通过回调或动态加载机制调用对应观测构建模块生成状态信息。
动作接收接口,动作的划分主要取决于环境本身,由于动作与环境本身密切相关,因此不再进行适应性匹配。强化学习模型的动作信息输出可直接输出至训练环境模块中的环境执行引擎模块。
当强化学习模型输出不能直接匹配环境可接收动作,如进行了抽象、扩展、简化等,则可设计由强化学习模型负责相应动作信息转换。
回报发送接口,用户(算法研究人员)经常需要不断修改回报生成规则和回报形式,寻找最有效的回报激励方案,传统环境采用固定的回报生成策略的形式会阻碍强化学习算法研究。
训练环境模块中的回报计算模块在环境中针对多种回报生成条件设置回报检查点;利用回报生成定义模块,由用户编写回报定义脚本,指定每个检查点所生成的回报值,每个检查点赋值可正可负,若不使用则直接设置为0即可;每一步长执行完成后环境计算每个检查点生成的回报总和,作为最终回报值输出。
实施例:
具体实际应用时,可面向人工智能决策训练、执行的软件***、无人机、无人车、机器人等无人***。
人工智能决策训练、执行***设计有可变状态信息接口。
其中,强化学习算法使用python编写,形成Agent类,类中包含关键成员变量“self.obs_ind”,该变量存储对应的状态信息构建算法名称,环境在实例化Agent类时,按照该变量所赋值名称从状态构建库中使用***库“importlib.import_module”动态加载对应状态信息构建类。
使用json定义环境中各回报检查点赋值,环境启动时读取该Json文件,生成赋值规则。
最后应说明的是:以上所述仅为本发明的解释,并不用于限制本发明,尽管对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种动态强化学习决策训练***,包括强化学习模型、训练环境模块、强化学习模型与训练环境模块之间的数据接口;
其特征在于:
训练环境模块由环境执行引擎模块、观测构建模块、回报计算模块三个功能模块构成;
环境执行引擎模块,用于维护一个底层状态数据结构,输出包含所有状态信息的底层状态数据;
观测构建模块,用于负责将底层状态数据转换为适应不同算法需求的状态信息形式,在训练过程中训练环境模块通过回调或动态加载机制调用对应观测构建模块将底层状态数据重构生成状态信息;
回报计算模块,用于针对多种回报生成条件设置回报检查点,训练环境模块执行步长中计算检查点回报值并输出;
强化学习模型与训练环境模块之间的数据接口包括:状态信息发送接口、动作接收接口、回报发送接口。
2.根据权利要求1所述的一种动态强化学习决策训练***,其特征在于,对于状态信息发送接口,其中,由环境执行引擎模块输出包含所有状态信息的底层数据;通过观测构建模块针对不同算法需求开发多种状态信息构建算法;观测构建模块负责将底层状态数据转换为适应不同算法需求的状态信息形式,形成状态构建算法集合提供给用户选用。
3.根据权利要求2所述的一种动态强化学习决策训练***,其特征在于,用户可直接选用预置状态构建算法进行算法训练,也可直接使用底层状态接口共用算法使用。
4.根据权利要求3所述的一种动态强化学习决策训练***,其特征在于,还包括:与用户进行人机交互的观测生成算法定义模块,通过观测生成算法定义模块,用户可指定与特定的强化学习模型相对应的观测构建算法;利用观测生成算法定义模块,用户可自主定制符合算法需求的观测构建模块。
5.根据权利要求1所述的一种动态强化学习决策训练***,其特征在于,对于动作接收接口,其中,来自强化学习模型的动作信息输出可直接输出至训练环境模块中的环境执行引擎模块。
6.根据权利要求5所述的一种动态强化学习决策训练***,其特征在于,当强化学习模型输出不能直接匹配环境可接收动作,则由强化学习模型负责进行相应动作信息转换并输出至环境执行引擎模块。
7.根据权利要求1所述的一种动态强化学习决策训练***,其特征在于,对于回报发送接口,其中,由训练环境模块中的回报计算模块针对多种回报生成条件设置回报检查点;每一步长执行完成后训练环境模块计算每个检查点生成的回报总和,作为最终回报值输出。
8.根据权利要求7所述的一种动态强化学习决策训练***,其特征在于,还包括:与用户进行人机交互的回报生成定义模块,通过回报生成定义模块,用户可指定与特定的强化学习模型相对应的回报生成定义。
9.根据权利要求8所述的一种动态强化学习决策训练***,其特征在于,利用回报生成定义模块,由用户编写回报定义脚本,指定每个检查点所生成的回报值,每个检查点赋值可正可负,若不使用则直接设置为0即可。
10.根据权利要求1所述的一种动态强化学习决策训练***,其特征在于,应用于面向人工智能决策训练、执行的软件***、无人自主机器***。
CN201911412353.1A 2019-12-31 2019-12-31 一种动态强化学习决策训练*** Active CN111178545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911412353.1A CN111178545B (zh) 2019-12-31 2019-12-31 一种动态强化学习决策训练***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911412353.1A CN111178545B (zh) 2019-12-31 2019-12-31 一种动态强化学习决策训练***

Publications (2)

Publication Number Publication Date
CN111178545A CN111178545A (zh) 2020-05-19
CN111178545B true CN111178545B (zh) 2023-02-24

Family

ID=70654185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911412353.1A Active CN111178545B (zh) 2019-12-31 2019-12-31 一种动态强化学习决策训练***

Country Status (1)

Country Link
CN (1) CN111178545B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111882027A (zh) * 2020-06-02 2020-11-03 东南大学 用于RoboMaster人工智能挑战赛的机器人强化学习训练环境***
CN112138396B (zh) * 2020-09-23 2024-04-12 中国电子科技集团公司第十五研究所 一种面向无人***模拟对抗的智能体训练方法及***
CN112766508B (zh) * 2021-04-12 2022-04-08 北京一流科技有限公司 分布式数据处理***及其方法
CN114189517B (zh) * 2021-12-03 2024-01-09 中国电子科技集团公司信息科学研究院 一种异构自主无人集群统一接入管控***
CN117114088B (zh) * 2023-10-17 2024-01-19 安徽大学 一种基于统一ai框架的深度强化学***台
CN117725985B (zh) * 2024-02-06 2024-05-24 之江实验室 一种强化学习模型训练和业务执行方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、***及电子设备
CN110000785A (zh) * 2019-04-11 2019-07-12 上海交通大学 农业场景无标定机器人运动视觉协同伺服控制方法与设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7707131B2 (en) * 2005-03-08 2010-04-27 Microsoft Corporation Thompson strategy based online reinforcement learning system for action selection
US11775850B2 (en) * 2016-01-27 2023-10-03 Microsoft Technology Licensing, Llc Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、***及电子设备
CN110000785A (zh) * 2019-04-11 2019-07-12 上海交通大学 农业场景无标定机器人运动视觉协同伺服控制方法与设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
在线更新的信息强度引导启发式Q学习;吴昊霖等;《计算机应用研究》;20170721(第08期);全文 *

Also Published As

Publication number Publication date
CN111178545A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111178545B (zh) 一种动态强化学习决策训练***
Li et al. Neural-network-based path planning for a multirobot system with moving obstacles
WO2021190597A1 (zh) 一种神经网络模型的处理方法以及相关设备
CN111602144A (zh) 生成指令序列以控制执行任务的代理的生成神经网络***
US20210406774A1 (en) Artificial intelligence engine for mixing and enhancing features from one or more trained pre-existing machine-learning models
CN112272831A (zh) 包括用于生成环境中的实体之间的数据编码关系的关系网络的强化学习***
CN111966361B (zh) 用于确定待部署模型的方法、装置、设备及其存储介质
US20180314963A1 (en) Domain-independent and scalable automated planning system using deep neural networks
WO2020092437A1 (en) Determining control policies by minimizing the impact of delusion
Yu et al. Hybrid attention-oriented experience replay for deep reinforcement learning and its application to a multi-robot cooperative hunting problem
WO2023114661A1 (en) A concept for placing an execution of a computer program
CN115293227A (zh) 一种模型训练方法及相关设备
CN115533905A (zh) 机器人操作技能的虚实迁移学习方法、装置及存储介质
JP2022165395A (ja) ニューラルネットワークモデルの最適化方法及びニューラルネットワークモデルに関するグラフィックユーザインターフェースを提供する方法
CN114648103A (zh) 用于处理深度学习网络的自动多目标硬件优化
CN109635706A (zh) 基于神经网络的手势识别方法、设备、存储介质及装置
CN117518907A (zh) 智能体的控制方法、装置、设备及存储介质
Shintani et al. A set based design method using Bayesian active learning
CN117011118A (zh) 模型参数更新方法、装置、计算机设备以及存储介质
WO2022127603A1 (zh) 一种模型处理方法及相关装置
CN116710974A (zh) 在合成数据***和应用程序中使用域对抗学习的域适应
CN114707070A (zh) 一种用户行为预测方法及其相关设备
CN112036546B (zh) 序列处理方法及相关设备
Li [Retracted] Optimization and Simulation of Virtual Experiment System of Human Sports Science Based on VR
Noureddine et al. Towards an Agent-Based Architecture using Deep Reinforcement Learning for Intelligent Internet of Things Applications. pdf

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant