CN113269297A - 一种面向时间约束的多智能体的调度方法 - Google Patents
一种面向时间约束的多智能体的调度方法 Download PDFInfo
- Publication number
- CN113269297A CN113269297A CN202110810946.4A CN202110810946A CN113269297A CN 113269297 A CN113269297 A CN 113269297A CN 202110810946 A CN202110810946 A CN 202110810946A CN 113269297 A CN113269297 A CN 113269297A
- Authority
- CN
- China
- Prior art keywords
- agent
- random
- representing
- state
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种面向时间约束的多智能体的调度方法,步骤如下:建立调度中心;调度中心采集多智能体和随机环境的状态和动作的实时数据;调度中心对采集的数据进行处理,将动作指令发送给多智能体;本发明通过在随机博弈模型中引入时间约束,可以描述多智能体之间或者多智能体与随机环境交互过程中表现出的实时性、非确定性和概率行为,还可以量化与时间相关的奖励函数,通过奖励函数确定多目标优化策略;根据设计的算法提高计算模型最大奖励期望的效率以及基于权重组合的帕累托曲线拟合效率,从而提高了多智能体的反应速度;通过对多个目标赋予不同的权重,区分目标的优先级,从而提高了多智能体运行的可靠性。
Description
技术领域
本发明涉及多智能体交互技术领域,特别涉及一种面向时间约束的多智能体的调度方法。
背景技术
随着多智能体(机器人、机器狗或无人机等)之间的交互日益密切,交互时产生的错误也随着多智能体***的规模和复杂度的增加而不断增加。如何设计多智能体的调度***,使其在不确定环境以及相应的时间约束下满足多目标设计需求成为了眼下迫切需要解决的关键科学问题。
目前对多智能体的调度***的研究主要通过模型检验的方法验证模型的量化属性以及奖励函数相关的属性,并通过值迭代的方法逼近模型的帕累托最优。然而对于面向时间约束的多智能体调度的多目标优化仍存在以下问题尚未解决:
(1)采用模型检验需要对多智能体和随机环境的状态空间进行穷举搜索,而随着并发分量的增加,模型的状态数目会呈指数增长,从而导致状态空间***的问题;
(2)在面向时间约束的随机博弈模型中奖励函数可能是对时间的积分,而在运行时间不确定的情况下,奖励函数也是可变的,所以基于模型的值迭代和策略迭代算法不适用于此种场景;
(3)在组合多智能体的多个目标策略时缺少对目标优先级差异性的描述,缺少权衡基于权重组合的多目标优化策略的研究。
发明内容
本发明的目的是克服现有技术存在的缺陷和不足,提供一种理念先进,可靠性高以及速度快的面向时间约束的多智能体的调度方法。
实现本发明目的的技术方案是:一种面向时间约束的多智能体的调度方法,步骤如下:
S1.建立调度中心,具体为:
S11.基于面向时间约束的多目标随机博弈模板建立面向时间约束的多智能体与随机环境之间或多智能体之间的随机博弈模型;
S12.根据统计模型检验模拟随机博弈模型的运行轨迹,设计不基于模型的值函数学习方法计算多智能体在各种状态下采取不同动作的最大奖励期望;
S13.根据多智能体与随机环境之间的零和随机博弈以及多智能体之间的一般和随机博弈的收敛条件对算法进行迭代;
S14.根据凸优化的超平面分离定理对基于权重组合的多目标帕累托曲线进行拟合;
S2.调度中心采集多智能体和随机环境的状态和动作的实时数据;
S3.调度中心对采集的数据进行处理,将动作指令发送给多智能体。
进一步地,步骤S11具体为:
进一步地,步骤S12具体为:
S121.采集多智能体在随机环境里面所有的状态和动作的初始数据;
S122.基于采集的数据建立面向时间约束的随机博弈模型,通过UPPAAL-SMC模拟随机博弈模型的运行轨迹,探索多智能体在随机环境里面所有的状态和动作并训练目标策略;
S123.通过离线学习模拟运行轨迹建立多智能体的状态-动作价值函数表,所述价值函数表定义为在状态下采取动作的价值函数,其中:表示状态元组,表示动作元组,表示状态的不同分类集合,表示目前状态所属的博弈参与方。
进一步地,步骤S13具体为:
进一步地,步骤S14具体为:
S141.将多目标奖励的加权和作为优化目标,计算多目标优化的加权和,公式如下:
S142.根据凸优化的超平面分离定理对不同权重组合的多目标帕累托曲线进行拟合。
采用上述技术方案后,本发明具有以下积极的效果:
(1)本发明在随机博弈模型中引入时间约束,一方面可以描述多智能体之间或者多智能体与随机环境交互过程中表现出的实时性、非确定性和概率行为,另一方面可以量化与时间相关的奖励函数,并通过奖励函数确定多目标优化策略。
(2)本发明通过设计离线算法根据蒙特卡洛模拟轨迹计算预期奖励期望,避免在计算最大奖励期望时产生的状态空间***问题,并根据零和随机博弈以及一般和随机博弈收敛条件降低算法的迭代次数,从而降低了***的能耗,提高了多智能体的反应速度。
(3)本发明对多个目标赋予不同的权重,区分目标的优先级,从而提高了多智能体运行的可靠性。
附图说明
为了使本发明的内容更容易和清楚地被理解,下面根据具体实施例并结合附图,对本发明作进一步的详细说明,其中:
图1为本发明调度中心的框架图;
图2为本发明流程图;
图3为本发明中双人零和随机博弈价值函数表生成方法;
图4为本发明中多人一般和随机博弈价值函数表生成方法;
图5为本发明中帕累托曲线生成方法;
图6为本发明中基于权重组合的帕累托曲线拟合图;
图7为本实施例1中多机器人与随机环境动态博弈模型示意图;
图8为本实施例2中多机器人之间动态博弈模型示意图。
具体实施方式
如图1-5所示,一种面向时间约束的多智能体的调度方法,步骤如下:
S1.建立调度中心,具体为:
S11.基于面向时间约束的多目标随机博弈模板建立面向时间约束的多智能体与随机环境之间或多智能体之间的随机博弈模型,具体如下:
表示时钟约束条件的集合,时钟约束条件由公式定义,式中:是中的一个时钟,是一个常数,,,;比如某个状态需要延迟,则状态所对应的则会有时间约束,而某个状态受到截止时间约束,则对应的存在约束。同时,也可以是不同时间约束的组合,比如。同时,也接受逻辑反操作。
S121.采集多智能体在随机环境里面所有的状态和动作的初始数据;
S123.通过离线学习模拟运行轨迹建立多智能体的状态-动作价值函数表,价值函数表定义为在状态下采取动作的价值函数,其中:表示状态元组,表示动作元组,表示状态的不同分类集合,表示目前状态所属的博弈参与方。
S13.根据多智能体与随机环境之间的零和随机博弈以及多智能体之间的一般和随机博弈的收敛条件对算法进行迭代,具体如下:
S131.针对双人零和随机博弈,首先初始化状态-动作价值函数表,在选取每个状态对应的动作时,多智能体或随机环境根据贪婪法来选择对应的动作,即若对应的动作集合,则会有的概率选择最大化价值函数表的动作,而也有的概率随机选择动作;状态在执行选择的动作后会得到新的状态以及对应的奖励;假设博弈参与方分别为与,其状态集合分别为与,且模型目标为最大化参与方的收益。若下一步状态属于,则需要最大化奖励,如公式(1)所示;若当下一步的状态属于,则需要最小化奖励,如公式(2)所示;
最后采用累计更新平均值的方法更新价值函数,公式如下:
S132.针对多人一般和随机博弈,首先初始化状态-动作价值函数表,即对一个状态,不同的智能体都会有不同的动作,每个智能体通过观测其他智能体的动作与相应的奖励值从而生成最优策略;在选取每个状态对应的动作时,不同的智能体根据贪婪法来选择对应的动作;状态在执行选择的动作后会得到新的状态以及对应的奖励;最后采用纳什均衡函数更新价值函数,公式如下:
S14.根据凸优化的超平面分离定理对不同权重组合的多目标帕累托曲线进行拟合,具体如下:
S141.将多目标奖励的加权和作为优化目标,计算多目标优化的加权和,公式如下:
S142.若目标为计算最大奖励期望,计算奖励期望的可行域,其中:表示奖励期望,表示奖励期望集合,,表示可行域的集合,,即存在,可行域中的所有值都小于;若目标为计算最大奖励期望(比如最小化能耗情景),计算奖励期望的可行域;
S143.若目标为计算最大奖励期望,计算奖励期望的不可行域,其中表示权重向量,表示权重向量集合,,表示奖励期望向量,表示奖励期望向量集合,,和均表示向量内积,表示不可行域的集合,,即对任意权重组合的奖励期望,使得;若目标为计算最小奖励期望,计算奖励期望的不可行域;
S145.若此距离大于设定的,则计算使得由构建的最大分隔超平面可以最大分离两个集合所在的区域,即扩大权重所对应可达集的覆盖面;根据距离函数的收敛性,可以将新生成的奖励期望加入奖励期望集合中,并不断迭代直至小于。
S2.调度中心采集多智能体和随机环境的状态和动作的实时数据;
S3.调度中心对采集的数据进行处理,将动作指令发送给多智能体。
拟合基于不同权重向量组合的多目标奖励加权值的帕累托曲线需要遍历权重向量组合并多次计算相应奖励期望。若有个目标的奖励,采用穷举搜索权重以及对应的最优奖励期望则需要在的时间复杂度下计算每组权重向量组合的奖励期望。由于不同权重组合所产生的可达点集会有交叉,本发明采用期望奖励的不可达点集与可达点集逼近的方法选取权重组合,尽可能扩大权重所对应的可达点集覆盖面,从而减少奖励期望计算数量,提高整个算法的效率。如图6所示,拟合基于权重组合的最小化双目标的帕累托曲线,首先计算以及两种极端情况下的奖励期望与,分别表示只考虑目标2与只考虑目标1的情况。首先根据生成对应的直线,表示奖励期望向量,这两根直线的交点与坐标轴所围成的区域是不可达集合,而两个可达点与奖励期望上限所围成的区域即是可达集合,不同权重会对应不同的可达点集以及最大分离超平面。所以可以取离原点最远的不可达点到可达区域的最大分离超平面的斜率作为权重,由奖励期望生成可达点,并形成可达点集合。如图6所示,取不可达集合离原点最远的点,由凸集合超平面分离定理可知,一定存在超平面可以分离点与可达集。由此通过计算最大分离超平面,求得对应的权重取值。通过计算最大奖励期望,并加入集合生成对应的可达集合与不可达集合。由图6可以看出可达集与不可达集的最大值在不断接近,当两者距离小于时,则输出对应的可达点集合,其边界点即为帕累托曲线。
实施例1
如图7所示,多机器人(机器人M、机器人N)在随机环境下完成多个作业(作业T、作业T+1、作业T+2),调度这些机器人完成作业的过程会产生相应的能耗以及时延。由于机器人在完成作业的中途可能会发生故障,且不同机器人完成不同作业的时间不同。因此,首先基于面向时间约束的多目标随机博弈模板对多机器人在随机环境下完成多个作业这个***采用面向时间约束的零和随机博弈方法进行建模,博弈方分别为多机器人和随机环境。***主要由作业模型以及多机器的调度器模型两部分组成。作业模型有三个状态,分别为空闲状态、等待状态以及执行状态,每个作业由随机环境触发从空闲状态进入等待状态,若调度器确定了执行该作业的机器人并将该作业分配给对应的机器人执行,作业即进入执行状态;若中途机器人故障不能完成作业,作业则从执行状态进入等待状态等待下一个可用的机器人,在作业执行完成之后,作业从执行状态进入空闲状态。每个机器人有三个状态,分别为空闲状态、运行状态以及故障状态。机器人在空闲状态和运行状态时,分别有概率(1-p)以及(1-q)发生故障。在空闲状态时,若调度器分配了正在等待执行的作业,则机器人进入运行状态。每个机器人只能分配在其执行范围内的作业,在运行结束后返回空闲状态。若机器人在故障状态恢复正常工作后,则返回空闲状态。其次,通过UPPAAL-SMC模拟模型的运行轨迹,探索在随机环境里面所有的状态和动作,然后通过采集到的数据训练目标策略,通过离线学***均值的方法更新价值函数。最后,将完成作业的数量、所消耗的能耗以及完成作业的时间的加权和作为优化目标,根据凸优化的超平面分离定理拟合多目标帕累托曲线,从而生成多机器人在随机环境下完成多个作业的调度策略。
实施例2
本实施例与实施例1的方法相同,针对的是多机器人协同完成标本采集以及运输任务。如图8所示,多机器人(机器人M、机器人M+1、机器人M+2、…)需要在不同的任务点(任务点1-6)采集标本或进行标本处理,然后运输到目标点(目标点1、目标点2)。当一个机器人在某一个任务点进行任务时,任务点不对其他机器人开放,且任务点之间存在先后顺序,如任务点4只对完成任务点1任务的机器人开放,任务点5只对完成任务点1或者任务点2或者任务点3的机器人开放,任务点6只对完成任务点3的机器人开放。整个***存在不确定性,包括不同机器人在不同任务点执行任务时间的不确定性以及机器人在不同任务点之间移动时间的不确定性。在执行任务和移动过程中,机器人需要避开静态障碍物以及动态障碍物,并在每台机器人用电功率不同的条件下保证总体用电量最少,最终达到目标地点。机器人在任务点执行任务有三个状态,当机器人到达任务点时首先触发等待,若任务点已经有机器人在执行任务,则该机器人等待任务点任务完成,若其他机器人完成任务后,该机器人开始执行任务。若中途任务报错,则返回等待状态继续等待执行。当机器人在该任务点完成任务后,则寻找下一任务点完成任务。为建立多目标优化的任务调度策略,即在较短的时间以及较少的能耗下完成所有标本采集、处理、传输任务的策略,首先,基于面向时间约束的多目标随机博弈模板建立面向时间约束的一般和随机博弈模型,博弈的参与方为多机器人。其次,通过UPPAAL-SMC模拟模型的运行轨迹,探索多机器人在随机环境里面所有的状态和动作,然后采集模拟数据训练多目标优化策略,通过离线学***面分离定理拟合多目标帕累托曲线,从而生成随机环境下多机器人协同采集样本并运输的多目标优化策略。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种面向时间约束的多智能体的调度方法,其特征在于,步骤如下:
S1.建立调度中心,具体为:
S11.基于面向时间约束的多目标随机博弈模板建立面向时间约束的多智能体与随机环境之间或多智能体之间的随机博弈模型;
S12.根据统计模型检验模拟随机博弈模型的运行轨迹,设计不基于模型的值函数学习方法计算多智能体在各种状态下采取不同动作的最大奖励期望;
S13.根据多智能体与随机环境之间的零和随机博弈以及多智能体之间的一般和随机博弈的收敛条件对算法进行迭代;
S14.根据凸优化的超平面分离定理对基于权重组合的多目标帕累托曲线进行拟合;
S2.调度中心采集多智能体和随机环境的状态和动作的实时数据;
S3.调度中心对采集的数据进行处理,将动作指令发送给多智能体。
2.根据权利要求1所述的一种面向时间约束的多智能体的调度方法,其特征在于,步骤S11具体为:
5.根据权利要求4所述的一种面向时间约束的多智能体的调度方法,其特征在于,步骤S13具体为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110810946.4A CN113269297B (zh) | 2021-07-19 | 2021-07-19 | 一种面向时间约束的多智能体的调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110810946.4A CN113269297B (zh) | 2021-07-19 | 2021-07-19 | 一种面向时间约束的多智能体的调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113269297A true CN113269297A (zh) | 2021-08-17 |
CN113269297B CN113269297B (zh) | 2021-11-05 |
Family
ID=77236924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110810946.4A Active CN113269297B (zh) | 2021-07-19 | 2021-07-19 | 一种面向时间约束的多智能体的调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269297B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115473633A (zh) * | 2022-08-24 | 2022-12-13 | 武汉大学 | 一种多方协同产生sm2数字签名的方法及装置 |
CN115563527A (zh) * | 2022-09-27 | 2023-01-03 | 西南交通大学 | 一种基于状态分类与指派的多Agent深度强化学习框架及方法 |
CN115576278A (zh) * | 2022-09-30 | 2023-01-06 | 常州大学 | 基于时态均衡分析的多智能体多任务分层连续控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106899026A (zh) * | 2017-03-24 | 2017-06-27 | 三峡大学 | 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法 |
CN107045655A (zh) * | 2016-12-07 | 2017-08-15 | 三峡大学 | 基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法 |
CN110471297A (zh) * | 2019-07-30 | 2019-11-19 | 清华大学 | 多智能体协同控制方法、***及设备 |
CN110728406A (zh) * | 2019-10-15 | 2020-01-24 | 南京邮电大学 | 基于强化学习的多智能体发电优化调度方法 |
CN111860649A (zh) * | 2020-07-21 | 2020-10-30 | 赵佳 | 基于多智能体强化学习的动作集合输出方法及*** |
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
-
2021
- 2021-07-19 CN CN202110810946.4A patent/CN113269297B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107045655A (zh) * | 2016-12-07 | 2017-08-15 | 三峡大学 | 基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法 |
CN106899026A (zh) * | 2017-03-24 | 2017-06-27 | 三峡大学 | 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法 |
CN110471297A (zh) * | 2019-07-30 | 2019-11-19 | 清华大学 | 多智能体协同控制方法、***及设备 |
CN110728406A (zh) * | 2019-10-15 | 2020-01-24 | 南京邮电大学 | 基于强化学习的多智能体发电优化调度方法 |
CN111860649A (zh) * | 2020-07-21 | 2020-10-30 | 赵佳 | 基于多智能体强化学习的动作集合输出方法及*** |
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
Non-Patent Citations (2)
Title |
---|
LIFU DING 等: "Multi-agent Deep Reinforcement Learning Algorithm for Distributed Economic Dispatch in Smart Grid", 《IECON 2020 THE 46TH ANNUAL CONFERENCE OF THE IEEE INDUSTRIAL ELECTRONICS SOCIETY》 * |
李方圆: "基于多智能体协同算法的智能电网分布式调度与优化", 《中国优秀博硕士学位论文全文数据库(博士)工程科技Ⅱ辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115473633A (zh) * | 2022-08-24 | 2022-12-13 | 武汉大学 | 一种多方协同产生sm2数字签名的方法及装置 |
CN115473633B (zh) * | 2022-08-24 | 2024-05-31 | 武汉大学 | 一种多方协同产生sm2数字签名的方法及装置 |
CN115563527A (zh) * | 2022-09-27 | 2023-01-03 | 西南交通大学 | 一种基于状态分类与指派的多Agent深度强化学习框架及方法 |
CN115563527B (zh) * | 2022-09-27 | 2023-06-16 | 西南交通大学 | 一种基于状态分类与指派的多Agent深度强化学习***及方法 |
CN115576278A (zh) * | 2022-09-30 | 2023-01-06 | 常州大学 | 基于时态均衡分析的多智能体多任务分层连续控制方法 |
CN115576278B (zh) * | 2022-09-30 | 2023-08-04 | 常州大学 | 基于时态均衡分析的多智能体多任务分层连续控制方法 |
WO2024066675A1 (zh) * | 2022-09-30 | 2024-04-04 | 常州大学 | 基于时态均衡分析的多智能体多任务分层连续控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113269297B (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113269297B (zh) | 一种面向时间约束的多智能体的调度方法 | |
Cao et al. | Scheduling semiconductor testing facility by using cuckoo search algorithm with reinforcement learning and surrogate modeling | |
Choong et al. | Automatic design of hyper-heuristic based on reinforcement learning | |
Zhao et al. | A heuristic distributed task allocation method for multivehicle multitask problems and its application to search and rescue scenario | |
Manathara et al. | Multiple UAV coalitions for a search and prosecute mission | |
Sichkar | Reinforcement learning algorithms in global path planning for mobile robot | |
CN107562066B (zh) | 一种航天器多目标启发式排序任务规划方法 | |
Yu et al. | Asynchronous multi-agent reinforcement learning for efficient real-time multi-robot cooperative exploration | |
Schillinger et al. | Auctioning over probabilistic options for temporal logic-based multi-robot cooperation under uncertainty | |
Könighofer et al. | Online shielding for stochastic systems | |
Chen et al. | A bi-criteria nonlinear fluctuation smoothing rule incorporating the SOM–FBPN remaining cycle time estimator for scheduling a wafer fab—a simulation study | |
Zaidi et al. | Task allocation based on shared resource constraint for multi-robot systems in manufacturing industry | |
Bøgh et al. | Distributed fleet management in noisy environments via model-predictive control | |
Gaggero et al. | When time matters: Predictive mission planning in cyber-physical scenarios | |
Shriyam et al. | Task assignment and scheduling for mobile robot teams | |
Yang et al. | Learning graph-enhanced commander-executor for multi-agent navigation | |
Herrmann | Metareasoning for Robots | |
Bahgat et al. | A multi-level architecture for solving the multi-robot task allocation problem using a market-based approach | |
Shi et al. | Efficient hierarchical policy network with fuzzy rules | |
Jungbluth et al. | Reinforcement Learning-based Scheduling of a Job-Shop Process with Distributedly Controlled Robotic Manipulators for Transport Operations | |
Zhang et al. | Multi-task actor-critic with knowledge transfer via a shared critic | |
Oliver et al. | Auction and swarm multi-robot task allocation algorithms in real time scenarios | |
Hong et al. | Deterministic policy gradient based formation control for multi-agent systems | |
Chandana et al. | RANFIS: Rough adaptive neuro-fuzzy inference system | |
Kim et al. | Safety-aware unsupervised skill discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |