CN116755397B - 一种基于图卷积策略梯度的多机协同任务调度方法 - Google Patents

一种基于图卷积策略梯度的多机协同任务调度方法 Download PDF

Info

Publication number
CN116755397B
CN116755397B CN202310607252.XA CN202310607252A CN116755397B CN 116755397 B CN116755397 B CN 116755397B CN 202310607252 A CN202310607252 A CN 202310607252A CN 116755397 B CN116755397 B CN 116755397B
Authority
CN
China
Prior art keywords
task
robot
graph
actuator
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310607252.XA
Other languages
English (en)
Other versions
CN116755397A (zh
Inventor
樊伟
周健
郑联语
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202310607252.XA priority Critical patent/CN116755397B/zh
Publication of CN116755397A publication Critical patent/CN116755397A/zh
Application granted granted Critical
Publication of CN116755397B publication Critical patent/CN116755397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41865Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32252Scheduling production, machining, job shop

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • General Factory Administration (AREA)

Abstract

本发明公开了一种基于图卷积策略梯度的多机协同任务调度方法,包括以下步骤:基于图结构表征任务和机器人属性及其相互之间的约束关系,获得任务和机器人的节点特征矩阵和节点邻接矩阵;搭建并联图卷积网络模型作为执行器,输出对机器人的任务分配结果,并为任务分配结果设置任务分配奖励;构建深度置信网络模型作为评判器,基于任务分配奖励的时序差分残差作为目标损失训练优化所述评判器,基于优化后的评判器对执行器进行优化;给定待加工任务集合、待分配机器人集合,基于优化后的执行器逐个分配任务,直至生成完整的任务规划序列。本发明基于深度确定性策略梯度算法训练优化任务调度模型中的执行器和评判器,具有较高的可靠性和效率。

Description

一种基于图卷积策略梯度的多机协同任务调度方法
技术领域
本发明属于加工任务调度领域,特别是涉及一种基于图卷积策略梯度的多机协同任务调度方法。
背景技术
多机器人***的任务调度是最具有挑战性的问题。给定一组任务,一组机器人,将这些任务分配至各个有能力的机器人,给每个机器人确定工作时间表,机器人群按照设定的时间表在满足多种约束下有条不紊地完成所有的任务,那么如何分配才能最大化任务完成和资源利用的效率呢,这便是研究比较热的多机器人任务分配(MRTA)问题。多任务、多机器人各自特性及其相互之间的约束纷杂耦合,要想针对MRTA问题找到一个通用的方法是非常困难的。为此,MRTA又细分为单任务(ST)机器人和多任务(MT)机器人,这取决于机器人在同一时间只执行一个任务还是同时执行多个任务;单机器人(SR)任务和多机器人(MR)任务,这取决于任务是只需要一个机器人执行还是也考虑协同任务;瞬时分配(IA)问题和时间扩展分配(TA)问题,这取决于是静态分配还是考虑后续任务和机器人状态的动态调度。
在动态的经济环境和充满个性化的市场需求下,制造企业逐步转向多品种小批量的生产模式,企业试图依靠柔性的生产方式对日益变换的市场环境做出快速合理的响应。由于多机器人***在提质增效、降本减耗上的突出效果,多机器人协同加工生产方式开始在现代工业生产中扮演非常重要的角色。通常,一个加工制造任务会被拆分为多个可以由单个机器人独立完成的子任务,多个异构机器人如测量、铣削、磨削、搬运机器人等待分配,当然存在一些加工任务需要由多个机器人同时完成,这可以通过配合施加并发约束来拆分。那么,在制造场景下MRTA是一个典型的ST-MR-TA问题。因此,亟需提出一种应用简单,可靠性高、可扩展性强,高效准确的任务调度方法。
发明内容
本发明的目的是提供一种基于图卷积策略梯度的多机协同任务调度方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种基于图卷积策略梯度的多机协同任务调度方法,包括以下步骤:
基于图结构表征任务和机器人属性及其相互之间的约束关系,获得任务和机器人的节点特征矩阵和节点邻接矩阵;
基于所述节点特征矩阵和节点邻接矩阵搭建并联图卷积网络模型作为执行器,输出对机器人的任务分配结果,并从激励、惩罚和目标奖励的维度为所述任务分配结果设置任务分配奖励;
构建深度置信网络模型作为评判器,基于所述任务分配奖励的时序差分残差作为目标损失训练优化所述评判器,基于优化后的评判器对所述执行器进行优化;
给定待加工任务集合、待分配机器人集合,基于优化后的执行器逐个分配任务,直至生成完整的任务规划序列。
可选地,基于图结构表征任务和机器人属性及其相互之间的约束关系的过程包括:基于节点特征向量表示任务节点和机器人节点的属性,基于节点邻接矩阵表示任务节点和机器人节点之间的约束关系;其中,任务节点属性包括任务量、质量要求和完成状态,机器人节点属性包括加工速度、服役状态和占用状态。
可选地,任务节点和机器人节点之间的约束关系包括:任务节点间的干涉约束、优先约束和并发约束,任务节点与机器人节点间的任务资源约束,以及机器人节点间的资源并发约束。
可选地,搭建并联图卷积网络模型的过程包括:将表征图结构数据的节点特征矩阵和节点邻接矩阵并行地输入到若干个图卷积网络层,经过聚合和非线性映射操作获得新的节点特征矩阵,并对获得的若干个新的节点特征矩阵进行合并,获得并联的图卷积网络模型。
可选地,所述任务分配结果包括:任务选择、指派机器人以及确定任务开始时间的分支;其中,所述任务选择分支的输出节点数等于任务总数,所述机器人指派分支的输出节点数等于机器人总数,所述开始加工时间确定分支的输出节点数等于整个调度过程离散化后的时间步数。
可选地,为所述任务分配结果设置任务分配奖励的过程包括:基于任务质量要求和机器人服役状态的匹配程度确定所述任务分配奖励的激励;基于所述任务分配结果对任务和机器人之间约束关系的符合程度确定所述任务分配奖励的惩罚;基于最小化任务完成时间和最大化资源利用率的完成程度确定所述任务分配奖励的目标奖励。
可选地,所述任务分配奖励的时序差分残差表示如下:
yt=rt+γQω-(xt+1θ-(xt))-Qω(xt,at)
其中,xt表示t时刻下的任务和机器人图结构,xt+1表示t+1时刻下的任务和机器人图结构,at表示执行器确定的策略,rt表示at对应的决策奖励,ω为评判器网络参数,θ为执行器网络参数,Qω表示评判器,Qω-表示目标评判器,μθ表示执行器,μθ-表示目标执行器,γ为当前奖励比重系数,yt则表示t时刻下任务分配奖励的时序差分残差。
可选地,基于优化后的评判器对所述执行器进行优化的过程包括:基于链式法则计算优化后的评判器输出决策回报评估值对执行器网络参数的梯度,沿着增大梯度的方向优化执行器网络参数;其中,计算优化后的评判器输出决策回报评估值对执行器网络参数的梯度表示如下:
其中,式中N为样本数,表示对θ求偏微分,J是执行器损失,/>是对执行器策略求偏微分,Qω(xi,a)表示评判器根据i时刻下的图结构xi和策略a评估任务分配效果。
本发明的技术效果为:
1)本发明公开的一种基于图卷积策略梯度的多机协同任务调度方法,利用图结构对任务、机器人资源及其相互之间的约束进行表征,能有效兼顾多机协同任务调度问题所涉及的复杂条件和规则,为任务调度提供支持;
2)本发明提供的多机协同任务调度方法通过嵌入图卷积操作搭建图卷积网络模型,充分考虑了任务调度的相关约束和条件,能够准确生成满足条件的加工任务规划序列;
3)本发明基于深度确定性策略梯度算法训练优化任务调度模型中的执行器和评判器,具有较高的可靠性和效率。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的基于图卷积策略梯度的多机协同任务调度方法实现流程图;
图2为本发明实施例中的图结构示意图;
图3为本发明实施例中的图卷积执行器和评判器网络结构示意图;
图4为本发明实施例中的方法示意图;
图5为本发明实施例中的任务规划序列示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1所示,本发明的一种基于图卷积策略梯度的多机协同任务调度方法,针对待加工任务集合、待分配机器人集合进行多机协同任务分配。利用图结构数据表征任务和机器人属性及其相互之间的约束关系,创建图卷积模型从图结构数据中提取、聚合相关特征以支持任务调度,基于深度确定性策略梯度算法训练优化图卷积模型以高效生成符合约束条件和调度规则的任务规划序列;具体步骤包括:
S1、利用图结构表征任务和机器人属性及其相互之间的约束关系,具体包括:利用节点表示任务和机器人,设定相关规则,利用节点特征向量表示任务和机器人的属性,并利用邻接矩阵表示任务和机器人之间的约束关系;
S2、应用图卷积操作搭建并联图卷积网络模型作为执行器,聚合图结构邻接节点的特征信息,输出三个分支分别选择任务、指派机器人以及确定任务开始时间;
S3、从激励、惩罚和目标奖励三个维度设置执行器的任务分配奖励;
S4、创建深度置信网络模型作为评判器,评估执行器的任务分配效果,利用任务分配奖励的时序差分残差作为目标损失训练优化评判器,根据链式法则计算评判器输出决策回报评估值对执行器网络参数的梯度,沿着增大梯度的方向优化执行器网络参数;
S5、训练完毕,给定待加工任务集合、待分配机器人集合,利用执行器逐个分配任务,直至生成完整的任务规划序列。
上述步骤S1中的图结构实例化如图2所示,节点特征向量为[标识符,类型,属性,状态信息],其中标识符具有唯一性,类型则是用于区分任务节点和机器人节点,0表示任务节点,1表示机器人节点;对应于任务节点,属性包括任务量、质量要求;而对应于机器人节点,属性则包括加工速度、机器人服役状态,通过任务量和加工速度的匹配,配合上任务与机器人之间的约束关系,有效的任务规划可以创造出新的效率高度。实例化节点特征向量如表1所示。
表1
上述步骤S1中的邻接矩阵是反映边的状态,任意两节点之间的边由一个二元组表示,(0,0)表示无边、(1,1)表示无向边、(1,2)或(2,1)表示单向边、(2,2)表示双向边;对于两个任务节点,无边表示无约束、无向边表示干涉约束、单向边表示优先约束、双向边表示并发约束;对于任务和机器人节点之间的边,无向边表示任务资源约束;而对于机器人节点之间的边,双向边表示资源并发约束。根据图2所示的图结构,可得到如表2所示的邻接矩阵。
表2
所述任务节点之间的优先约束表示如下:
式中<tp→tq>表示任务tp和tq之间存在优先约束且tp优先,表示任务tp分配至机器人ri后对应于其任务序列中的si,h,/>表示si,h的加工结束时间要早于sj,l的加工开始时间。
所述任务节点之间的并发约束表示如下:
式中<tp,tq>表示任务tp和tq之间存在并发约束,两个任务的加工开始时间相同。
所述任务节点之间的干涉约束表示如下:
式中则表示任务tp和tq之间存在干涉约束,则要求两个任务的加工过程完全错开。
所述任务和机器人节点之间的任务资源约束表示如下:
式中<tp,rq>表示任务tp和机器人rq之间存在任务资源约束,即任务tp一定属于机器人rq的任务序列Sq
所述机器人节点之间的资源并发约束表示如下:
式中<rp,rq>则表示机器人rp和rq之间存在并发约束,要求在任何时刻不能给两机器人同时安排任务,t(Sp,c)表示根据任务序列Sp在时刻c给机器人rp安排的任务。
上述步骤S2中的图卷积执行器和评判器网络结构及其数据流如图3所示。执行器的输入是表征图结构数据的节点特征矩阵和邻接矩阵,输入数据首先会并行地进入多个图卷积网络层,经过聚合和非线性映射操作得到新的节点特征矩阵,然后将这些特征矩阵进行合并;采用这样并、串行相结合的网络结构,可以更加充分地从原始输入中挖掘多维度的信息,使得执行器能够更加全面地考虑节点状态和约束条件,进而做出准确的任务分配和调度。合并后的特征进入由多个全连接层搭建而成的分类模块,经过多次非线性映射,从特征中过滤提取到与任务分配相关的信息;执行器的输出为包括任务、资源、开始时间的三维元组,也即相关信息最终流向任务选择、机器人指派和开始加工时间确定三个分支。
上述任务选择分支的输出节点数等于任务总数,即任务选择网络层包含的神经元数同任务总数,激活函数选择tanh,直接输出确定性的策略。
上述机器人指派分支的输出节点数等于机器人总数,所述开始加工时间确定分支的输出节点数等于整个调度过程离散化后的时间步数,激活函数均选择tanh,值最高的节点即对应输出的策略。
上述聚合图结构邻接节点特征信息,设节点vi的邻接节点集合为V(i),邻接节点特征向量为xj(j in N(i)),边权重为ωi,j,对聚合后的信息进行线性变换,以得到新的特征向量yi,如下表示:
式中σ为映射函数。
上述步骤S3中任务分配奖励的激励由任务质量要求和机器人服役状态的匹配程度确定,当两者匹配时/>取1,当机器人服役状态无法满足任务质量要求时取0,而当机器人服役状态超过了质量要求时取中间值,因为这种情况也不是最准确、经济的。
上述步骤S3中任务分配奖励的惩罚由任务分配结果对任务和机器人约束条件的符合程度确定,若任务选择、机器人指派和开始时间确定均满足当前的约束条件,/>取0;若均与约束条件冲突,则/>取-1;而若是只存在任务选择或机器人指派与约束条件的冲突,/>取中间值。
上述步骤S3中任务分配奖励的目标奖励则是根据行动目标即最小化任务完成时间和最大化资源利用率的完成程度来确定。
上述步骤S3中的任务分配奖励表示如下:
式中μ∈(0,1),通过调整μ来平衡短期奖励即激励与惩罚和长期奖励对训练的影响。
上述步骤S4中任务分配奖励的时序差分残差表示如下:
yt=rt+γQω-(xt+1θ-(xt))-Qω(xt,at)
其中,xt表示t时刻下的任务和机器人图结构,xt+1表示t+1时刻下的任务和机器人图结构,at表示执行器确定的策略,rt表示at对应的决策奖励,ω为评判器网络参数,θ为执行器网络参数,Qω表示评判器,Qω-表示目标评判器,μθ表示执行器,μθ-表示目标执行器,γ为当前奖励比重系数,yt则表示t时刻下任务分配奖励的时序差分残差。
上述步骤S4中计算评判器输出决策回报评估值对执行器网络参数的梯度表示如下:
其中,式中N为样本数,表示对θ求偏微分,J则是执行器损失,/>则是对执行器策略求偏微分,Qω(xi,a)表示评判器根据i时刻下的图结构xi和策略a评估任务分配效果。
上述步骤S5中所述的图卷积执行器生成任务规划序列的流程如图4所示。输入表征任务、机器人属性的特征矩阵和表示任务机器人约束关系的邻接矩阵,执行器可以给出任务规划序列。根据表1、表2所示的实例化输入,执行器输出了如图5所示的任务规划序列。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种基于图卷积策略梯度的多机协同任务调度方法,其特征在于,包括以下步骤:
基于图结构表征任务和机器人属性及其相互之间的约束关系,获得任务和机器人的节点特征矩阵和节点邻接矩阵;
基于所述节点特征矩阵和节点邻接矩阵搭建并联图卷积网络模型作为执行器,输出对机器人的任务分配结果,并从激励、惩罚和目标奖励的维度为所述任务分配结果设置任务分配奖励;
构建深度置信网络模型作为评判器,将所述任务分配奖励的时序差分残差作为目标损失训练优化所述评判器,基于优化后的评判器对所述执行器进行优化;
给定待加工任务集合、待分配机器人集合,基于优化后的执行器逐个分配任务,直至生成完整的任务规划序列。
2.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法,其特征在于,
任务节点属性包括任务量、质量要求和完成状态,机器人节点属性包括加工速度、服役状态和占用状态。
3.根据权利要求2所述的基于图卷积策略梯度的多机协同任务调度方法,其特征在于,
任务节点和机器人节点之间的约束关系包括:任务节点间的干涉约束、优先约束和并发约束,任务节点与机器人节点间的任务资源约束,以及机器人节点间的资源并发约束。
4.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法,其特征在于,
搭建并联图卷积网络模型的过程包括:将表征图结构数据的节点特征矩阵和节点邻接矩阵并行地输入到若干个图卷积网络层,经过聚合和非线性映射操作获得新的节点特征矩阵,并对获得的若干个新的节点特征矩阵进行合并,获得并联的图卷积网络模型。
5.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法,其特征在于,
所述任务分配结果包括:任务选择分支、机器人指派分支以及任务开始加工时间确定分支;其中,所述任务选择分支的输出节点数等于任务总数,所述机器人指派分支的输出节点数等于机器人总数,所述任务开始加工时间确定分支的输出节点数等于整个调度过程离散化后的时间步数。
6.根据权利要求2所述的基于图卷积策略梯度的多机协同任务调度方法,其特征在于,
为所述任务分配结果设置任务分配奖励的过程包括:基于任务质量要求和机器人服役状态的匹配程度确定所述任务分配奖励的激励;基于所述任务分配结果对任务和机器人之间约束关系的符合程度确定所述任务分配奖励的惩罚;基于最小化任务完成时间和最大化资源利用率的完成程度确定所述任务分配奖励的目标奖励。
7.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法,其特征在于,
所述任务分配奖励的时序差分残差表示如下:
其中,xt表示t时刻下的任务和机器人图结构,xt+1表示t+1时刻下的任务和机器人图结构,at表示执行器确定的策略,rt表示at对应的决策奖励,ω为评判器网络参数,θ为执行器网络参数,Qω表示评判器,表示目标评判器,μθ表示执行器,/>表示目标执行器,γ为当前奖励比重系数,yt则表示t时刻下任务分配奖励的时序差分残差。
8.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法,其特征在于,
基于优化后的评判器对所述执行器进行优化的过程包括:基于链式法则计算优化后的评判器输出决策回报评估值对执行器网络参数的梯度,沿着增大梯度的方向优化执行器网络参数;其中,计算优化后的评判器输出决策回报评估值对执行器网络参数的梯度表示如下:
其中,式中N为样本数,表示对θ求偏微分,J是执行器损失,/>是对执行器策略求偏微分,Qω(xi,a)表示评判器根据i时刻下的图结构xi和策略a评估任务分配效果。
CN202310607252.XA 2023-05-26 2023-05-26 一种基于图卷积策略梯度的多机协同任务调度方法 Active CN116755397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310607252.XA CN116755397B (zh) 2023-05-26 2023-05-26 一种基于图卷积策略梯度的多机协同任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310607252.XA CN116755397B (zh) 2023-05-26 2023-05-26 一种基于图卷积策略梯度的多机协同任务调度方法

Publications (2)

Publication Number Publication Date
CN116755397A CN116755397A (zh) 2023-09-15
CN116755397B true CN116755397B (zh) 2024-01-23

Family

ID=87952416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310607252.XA Active CN116755397B (zh) 2023-05-26 2023-05-26 一种基于图卷积策略梯度的多机协同任务调度方法

Country Status (1)

Country Link
CN (1) CN116755397B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117973820B (zh) * 2024-04-01 2024-07-05 浙江数达智远科技有限公司 基于人工智能的任务动态分配***及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018236674A1 (en) * 2017-06-23 2018-12-27 Bonsai Al, Inc. HIERARCHICAL DECOMPOSITION DEEPENING REINFORCEMENT LEARNING FOR A MODEL OF ARTIFICIAL INTELLIGENCE
CN109636061A (zh) * 2018-12-25 2019-04-16 深圳市南山区人民医院 医保欺诈预测网络的训练方法、装置、设备及存储介质
WO2021003951A1 (zh) * 2019-07-08 2021-01-14 南京信息工程大学 一种基于标签约束弹性网图模型的高光谱图像分类方法
CN112486641A (zh) * 2020-11-18 2021-03-12 鹏城实验室 一种基于图神经网络的任务调度方法
WO2021048434A1 (en) * 2019-09-13 2021-03-18 Deepmind Technologies Limited Data-driven robot control
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储***多机器人路径规划方法
EP3992856A1 (en) * 2020-10-29 2022-05-04 Siemens Aktiengesellschaft Method and system for operating a device by using hierarchical reinforcement learning
CN114756358A (zh) * 2022-06-15 2022-07-15 苏州浪潮智能科技有限公司 一种dag任务调度方法、装置、设备及存储介质
CN115759199A (zh) * 2022-11-21 2023-03-07 山东大学 基于层次化图神经网络的多机器人环境探索方法及***
WO2023057185A1 (en) * 2021-10-06 2023-04-13 Deepmind Technologies Limited Coordination of multiple robots using graph neural networks

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230144995A1 (en) * 2020-06-05 2023-05-11 Deepmind Technologies Limited Learning options for action selection with meta-gradients in multi-task reinforcement learning

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018236674A1 (en) * 2017-06-23 2018-12-27 Bonsai Al, Inc. HIERARCHICAL DECOMPOSITION DEEPENING REINFORCEMENT LEARNING FOR A MODEL OF ARTIFICIAL INTELLIGENCE
CN109636061A (zh) * 2018-12-25 2019-04-16 深圳市南山区人民医院 医保欺诈预测网络的训练方法、装置、设备及存储介质
WO2021003951A1 (zh) * 2019-07-08 2021-01-14 南京信息工程大学 一种基于标签约束弹性网图模型的高光谱图像分类方法
WO2021048434A1 (en) * 2019-09-13 2021-03-18 Deepmind Technologies Limited Data-driven robot control
EP3992856A1 (en) * 2020-10-29 2022-05-04 Siemens Aktiengesellschaft Method and system for operating a device by using hierarchical reinforcement learning
CN112486641A (zh) * 2020-11-18 2021-03-12 鹏城实验室 一种基于图神经网络的任务调度方法
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储***多机器人路径规划方法
WO2023057185A1 (en) * 2021-10-06 2023-04-13 Deepmind Technologies Limited Coordination of multiple robots using graph neural networks
CN114756358A (zh) * 2022-06-15 2022-07-15 苏州浪潮智能科技有限公司 一种dag任务调度方法、装置、设备及存储介质
CN115759199A (zh) * 2022-11-21 2023-03-07 山东大学 基于层次化图神经网络的多机器人环境探索方法及***

Also Published As

Publication number Publication date
CN116755397A (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
Guo et al. Modular based flexible digital twin for factory design
Weckenborg et al. Balancing of assembly lines with collaborative robots
Wang et al. An improved particle swarm optimization algorithm for dynamic job shop scheduling problems with random job arrivals
Hall et al. Capacity allocation and scheduling in supply chains
Georgiadis et al. Real-time production planning and control system for job-shop manufacturing: A system dynamics analysis
CN101216710A (zh) 一种由计算机实现的自适应选择动态生产调度控制***
Joseph et al. Effects of routing flexibility, sequencing flexibility and scheduling decision rules on the performance of a flexible manufacturing system
CN116755397B (zh) 一种基于图卷积策略梯度的多机协同任务调度方法
CN114565247B (zh) 一种基于深度强化学习的车间调度方法、装置和***
Heger et al. Reducing mean tardiness in a flexible job shop containing AGVs with optimized combinations of sequencing and routing rules
Da Silva et al. Simulation study of dispatching rules in stochastic job shop dynamic scheduling
Sindičić et al. Resource allocation in free-choice multiple reentrant manufacturing systems based on machine-job incidence matrix
CN109409746A (zh) 一种生产调度方法及装置
Hussain et al. A multi-agent based dynamic scheduling of flexible manufacturing systems
Shah et al. Colored Petri net model for significant reduction of invariants in flexible manufacturing systems
CN108769105A (zh) 一种云环境下的知识服务多任务调度优化方法及其构建的调度***
Hong et al. A dynamic demand-driven smart manufacturing for mass individualization production
CN113568747B (zh) 基于任务分类与时序预测的云机器人资源调度方法及***
CN115098278A (zh) 一种基于微服务的数字孪生车间多场景交互方法
Shih et al. Fuzzy inference-based multiple criteria FMS scheduling
Zhang et al. Deep reinforcement learning for dynamic scheduling of energy-efficient automated guided vehicles
Zhang et al. A macro-level scheduling method using Lagrangian relaxation
Shah et al. New modeling and performance evaluation of tool sharing control in FMS using colored Petri nets
Bezkorovainyi et al. Mathematical models of the cyclic work package distribution task
Vinod et al. Development and analysis of scheduling decision rules for a dynamic flexible job shop production system: a simulation study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant