CN116500986A - 一种分布式作业车间的优先调度规则生成方法及*** - Google Patents

一种分布式作业车间的优先调度规则生成方法及*** Download PDF

Info

Publication number
CN116500986A
CN116500986A CN202310439782.8A CN202310439782A CN116500986A CN 116500986 A CN116500986 A CN 116500986A CN 202310439782 A CN202310439782 A CN 202310439782A CN 116500986 A CN116500986 A CN 116500986A
Authority
CN
China
Prior art keywords
time
scheduling rule
graph
factory
distributed job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310439782.8A
Other languages
English (en)
Inventor
李新宇
黄江平
高亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202310439782.8A priority Critical patent/CN116500986A/zh
Publication of CN116500986A publication Critical patent/CN116500986A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41865Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32252Scheduling production, machining, job shop
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于车间调度领域,并具体公开了一种分布式作业车间的优先调度规则生成方法及***,包括:构建调度规则生成模型用于决策分布式作业车间调度问题,其中将分布式作业车间调度问题表示为析取图:每个工厂对应一个子析取图,将所有工厂的子析取图进行拼接,得到能表示工厂分配以及工厂内工序排序的析取图,其每个节点包括被分配的工厂信息;通过马尔可夫决策模型对析取图进行求解,决策过程中,通过图神经网络提取析取图的特征,通过演员网络进行动作决策;根据预获取的数据集训练调度规则生成模型,更新图神经网络和演员网络参数,得到训练好的调度规则生成模型。本发明可实现分布式作业车间的优先调度规则生成,具有较好的性能和泛化性。

Description

一种分布式作业车间的优先调度规则生成方法及***
技术领域
本发明属于车间调度领域,更具体地,涉及一种分布式作业车间的优先调度规则生成方法及***。
背景技术
生产调度是制造***的重要环节,直接影响企业的效益和竞争力。分布式制造已成为制造业的重要发展方向之一,其具有柔性大、响应迅速和可靠性高等优点,能够应对紧急的生产需求,促进定制化、低成本和小批量生产,并减少生产对环境的依赖。分布式作业车间调度问题(Distributed Job Shop Scheduling Problem,DJSP)是装备制造的典型代表,其将每个工厂均视为一个作业车间,不同工件的工艺可能不同;其主要包含2个子问题,工件的车间分配以及各车间内各机器上工序的调度排产,以满足不同的生产需求,如图1所示。
优先调度规则(Priority Dispatch Rule,PDR)是一种经典的启发式方法,已经被广泛用于实际生产中。较精确算法以及元启发式算法,PDR直观、快速、易于理解,被广泛应用于各种调度问题。对于缺少先验知识的复杂生产场景,PDR的优势更加明显。一个好的PDR是基于丰富的领域知识,并且是在试错的过程中不断完善的。另外,PDR的性能受问题规模的影响较大。所以,设计一个具有自学习、自进化能力的通用优先调度规则生成方法对解决复杂多变的生产调度问题十分重要。
深度强化学习(Deep Reinforcement Learning,DRL)技术结合了深度学习的感知能力和强化学习的决策能力,是一种更接近人类思维方式的人工智能方法。DRL具有自主性,可以学习最佳的行动选择,并对环境做出实时反应。此外,它的泛化能力强,求解速度快,因此,探索其在车间调度领域的应用十分有价值。
图论在车间调度领域的应用非常广泛,调度问题的解的析取图表达方式能够清晰的阐述同一个工件的工序之间的约束关系。在深度学习领域,图神经网络(Graph NeuralNetwork,GNN)是一种直接操作图数据的网络结构,在去中心化无线资源分配、工业设备剩余使用寿命预测以及电力***中电压稳定性控制等问题中都得到了成功的应用。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种分布式作业车间的优先调度规则生成方法及***,其目的在于,提供一种具有自学习、自进化能力且通用性强的优先调度规则生成方法,实现分布式作业车间的优先调度规则生成。
为实现上述目的,按照本发明的第一方面,提出了一种分布式作业车间的优先调度规则生成方法,包括如下步骤:
构建调度规则生成模型用于决策分布式作业车间调度问题,其中:
将分布式作业车间调度问题表示为析取图:每个工厂对应一个子析取图,将所有工厂的子析取图进行拼接,得到能表示工厂分配以及所有工厂内工序排序的析取图,析取图的每个节点包括被分配的工厂信息;
通过马尔可夫决策模型对析取图进行求解:马尔可夫决策模型通过多次决策更新析取图,逐步完善析取图中所有节点,从而得到最终解;决策过程中,通过图神经网络提取析取图的特征,通过演员网络进行动作决策;
根据预获取的数据集,对构建的调度规则生成模型进行训练,迭代更新图神经网络和演员网络参数,得到训练好的调度规则生成模型;
通过训练好的调度规则生成模型实现分布式作业车间的调度规则生成。
作为进一步优选的,调度规则生成模型中,先确定各工件的工厂分配,再通过马尔可夫决策模型对析取图进行求解;工件的工厂分配方法为:
分别计算各工件完成所有工序的总加工时间,按总加工时间升序对各工件进行排序;然后将前f个工件依次放入f个工厂,f为工厂总数;
对于剩下的工件,计算当前各工厂中所有工件的总加工时间,将当前排序最前的工件分配到总加工时间最小的工厂;重复此过程,直至完成所有工件的工厂分配。
作为进一步优选的,马尔可夫决策模型包括决策过程中各时刻的状态特征;
对任意决策点t时刻的析取图,其中的节点包括5个特征,5个特征组成状态特征;5个特征具体为:
1)节点v对应工序Oji的加工时间pji
2)二进制变量b(v,st);当节点v对应工序Oji在t时刻已经完成调度时,b(v,st)=1,否则b(v,st)=0;
3)节点v对应工序Oji所在的工厂fac(v,st);若工件被分配到工厂k中,则该工件所有工序在t时刻的工厂特征均表示为fac(v,st)=k;
4)节点v对应工序Oji的完成时间的估计下界cLB(Oji,st);
当工序Oji是工件Jj的第一道工序时,其估计下界等于工件Jj的释放时间加上工序Oji的加工时间;
当工序Oji不是工件Jj的第一道工序,则判断:如果t时刻工序Oji完成加工,则其完成时间的估计下界就等于它的实际完成时间;否则,估计下界通过cLB(Oji,st)=cLB(Oj,i-1,st)+pji计算得到,其中cLB(Oj,i-1,st)为工序Oji的前一道工序完成时间的估计下界,pji是工序Oji的处理时间;
5)节点v对应工序Oji的的最早释放时间est(Oji,st);
初始状态s0时:当工序Oji是工件Jj的第一道工序时,其最早释放时间为0;当工序Oji不是工件Jj的第一道工序时,其最早释放时间为est(Oji,s0)=est(Oj,i-1,s0)+pj,i-1,其中est(Oj,i-1,s0)为工序Oji的前一道工序Oj,i-1的最早释放时间,pj,i-1是工序Oj,i-1的处理时间;
状态st时,t≠0:当工序Oji完成加工,则其最早释放时间为0;当工序Oji没有被加工且其前道工序Oj,i-1完成加工,则工序Oji的最早释放时间等于其前道工序Oj,i-1的完成时间;当工序Oji没有被加工且其前道工序Oj,i-1没有完成加工,则其最早释放时间为工序Oj,i-1的最早释放时间加上工序Oj,i-1的处理时间pj,i-1
作为进一步优选的,马尔可夫决策模型还包括决策过程中各时刻的动作、状态转移以及奖励;具体为:
动作:决策点t的动作空间At为所有未完成工件的下一道工序组成的集合;
状态转移:将选择的动作***一个可行的位置,使得该工序的最早开始加工时间最小;
奖励:在决策点t,如果动作at对应的工序在工厂k中,则当前奖励为R(st,at)=Ck(st)-Ck(st+1),其中R(st,at)是状态st下选取动作at获得的奖励值,Ck(st)是t时刻工厂k的最大完成时间,Ck(st+1)是采取动作at后t+1时刻的工厂k的最大完成时间。
作为进一步优选的,5个特征组合为状态特征的方式为:
每个特征矩阵大小为[n,m],将其改写为大小为[n×m,1]的一维矩阵,n为工件总数,m为每个工件的工序总数;将5个特征对应的一维矩阵拼接成一个[n×m,5]的矩阵,然后对该矩阵进行归一化处理,得到状态特征。
作为进一步优选的,决策过程中,通过图神经网络提取析取图的特征,并输入演员网络,进而演员网络给每个动作打分,并基于该打分,通过softmax函数计算每个动作被选择的概率,并输出被选择概率最大的动作。
作为进一步优选的,通过Adam优化器对调度规则生成模型进行训练。
作为进一步优选的,对调度规则生成模型进行训练时,通过异步优势演员-评论家网络计算网络损失函数,采用Adam优化器动态调整学习率,更新图神经网络和演员网络参数。
按照本发明的第二方面,提供了一种分布式作业车间的优先调度规则生成***,其包括处理器,所述处理器用于执行上述分布式作业车间的优先调度规则生成方法。
按照本发明的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述分布式作业车间的优先调度规则生成方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,主要具备以下的技术优点:
1、本发明根据分布式作业车间特点,设计了析取图的表示方法,进而建立分布式作业车间调度问题的析取图表示和图神经网络的联系,从而构建调度规则生成模型,其能够通过观测当前的调度环境做出实时的调度决策,为解决调度问题提供了一个新的视角;同时,缩短了求解问题的时间,提高了解的质量,从而可显著提高了企业生产效率。
2、较现有的优先调度规则方法,本发明具有很强的自学习和自进化能力,且求解效率更高,寻优更强;较现有的元启发式算法,本发明简单、易于理解,泛化性和稳定性强,能够适用于不同的调度环境。
3、本发明设计了工厂分配规则,预先进行工件的工厂分配,进而根据分布式问题特点,配合设计了马尔可夫决策模型中的状态特征和奖励机制等,实现分布式作业车间的优先调度规则的高效、准确生成。
附图说明
图1为本发明实施例分布式作业车间中工厂分配示意图;
图2中(a)、(b)为本发明实施例分布式作业车间解的析取图;
图3中(a)-(c)为本发明实施例马尔可夫决策模型中动作空间示意图;
图4中(a)、(b)为本发明实施例马尔可夫决策模型中状态转移示意图;
图5中(a)-(c)分别为本发明实施例在工厂数为2的TA数据集上与经典调度规则、元启发式算法、强化学习算法的对比结果图;
图6中(a)-(c)分别为本发明实施例在工厂数为3的TA数据集上与经典调度规则、元启发式算法、强化学习算法的对比结果图;
图7中(a)-(c)分别为本发明实施例在工厂数为4的TA数据集上与经典调度规则、元启发式算法、强化学习算法的对比结果图;
图8为本发明实施例分布式作业车间的优先调度规则生成方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提供的一种分布式作业车间的优先调度规则生成方法,如图8所示,包括如下步骤:
S1、构建调度规则生成模型用于决策分布式作业车间调度问题;调度规则生成模型中,将分布式作业车间调度问题表示为析取图,通过马尔可夫决策模型对析取图进行求解;具体包括:
(1)解的表示方法
车间调度问题中,析取图是一种经典的解的表示方法。析取图是一种有向图G=(V,C∪D),其中V是节点集合,集合V包含工件的工序节点以及2个空节点{S,T},空节点的加工时间为0,所有加工任务从节点S开始,以节点T结束。C是连接弧集合,表示同一个工件工序之间优先约束关系。D是析取弧集合,表示同一台机器上加工工序的先后顺序。
针对DJSP,本发明提出一种拼接析取图表示方法,其中,每个节点除了包含基本的节点信息外,如节点对应工序的加工时间、最早开始加工时间等,还包含一个附加信息,每道工序所处的加工工厂。析取图中的工厂分配信息可以反映出DJSP的工厂分配方案。
例如,对于一个2个工厂6个工件的实例,工件加工信息如表1所示,初始信息的析取图表示如图2中(a),图2中(b)表示一个可行解,工件1、2和3在工厂1中加工(前三行),工件4、5和6在工厂2中加工(后三行)。同一台机器上工序的加工顺序采用相同颜色的虚线箭头标出,如工序O11,O22和O31在机器M2上按顺序加工,同一个工件的工序优先级采用黑色箭头标出。
表1工序的加工时间及加工机器信息
(2)工厂分配规则
工厂分配规则用于解决DJSP的第一个子问题——工件的车间分配。首先将所有工件按照工件的总处理时间的升序进行排序,接着将前f个工件(f为工厂总数)依次放入f个工厂中;对于剩下的工件,计算当前各工厂中所有工件的总加工时间,将当前排序最前的工件分配到总加工时间最小的工厂,重复这一过程,直至完成所有工件的工厂分配。
(3)马尔可夫决策模型
DJSP是一个序列决策问题,可以构造成马尔可夫决策过程。马尔可夫决策过程可用一个五元组表示(S,A,P,γ,R),S是状态集合,A是动作集合,P是一个动态模型,γ是一个取值为0到1之间的折扣因子,R是奖励函数。
任意决策点t,智能体观测当前环境状态st∈S,通过给定的策略π(S→A)选择一个动作at∈A,智能体以概率p(st+1|st,at)进入新的状态st+1,并获得一个实时的奖励rt∈R。
本发明采用析取图的方式表示DJSP的解,其马尔可夫模型建立如下:
状态:任意决策点t时刻的析取图G(t)=(V,C∪Dc(t),Du(t))反映了当前解的状态。Dc(t)包含具有方向的析取弧,Du(t)则包含没有方向的析取弧,Dc(t)∪Du(t)=D。当DJSP处于初始状态时,Dc(t)=φ;当DJSP已经完成调度时,Du(t)=φ;集合V中包含所有的加工工序。
集合V中的任意节点均包含如下5个特征:
1)节点v对应工序Oji的加工时间pji
2)二进制变量b(v,st);当节点v对应工序Oji在t时刻已经完成调度时,b(v,st)=1,否则b(v,st)=0;
3)节点v对应工序Oji所在的工厂fac(v,st);若工件Jj被分配到工厂k中,则该工件所有工序在t时刻的工厂特征均表示为fac(v,st)=k,k∈[1,f];
4)节点v对应工序Oji的完成时间的估计下界cLB(v,st);
当i=1时,即工序Oji是工件Jj的第一道工序时,其估计下界等于工件Jj的释放时间加上工序Oji的加工时间;
当i≠1时,即工序Oji不是工件Jj的第一道工序时,则判断:如果t时刻工序Oji完成加工,则其完成时间的估计下界就等于它的实际完成时间;否则,该下界通过公式cLB(Oji,st)=cLB(Oj,i-1,st)+pji计算得到,其中为Oj,i-1为工序Oji的前一道工序,pji是工序Oji的处理时间;
5)节点v对应工序Oji的最早释放时间est(Oji,st);
初始状态s0时,当i=1时,即工序Oji是工件Jj的第一道工序时,其最早释放时间为0,即est(Oj1,s0)=0;当i≠1时,即工序Oji不是工件Jj的第一道工序时,其初始释放时间为est(Oji,s0)=est(Oj,i-1,s0)+pj,i-1,其中工序Oj,i-1是工序Oji的前一道工序,pj,i-1是工序Oj,i-1的处理时间;
状态st时(t≠0),若工序Oji完成加工,则其最早释放时间设置为0,即est(Oji,st)=0;当工序Oji没有被加工且其前道工序Oj,i-1完成加工,则工序Oji的最早释放时间就等于其前道工序Oj,i-1的完成时间,即est(Oji,st)=cLB(Oj,i-1,st),否则若工序Oji的前一道工序Oj,i-1没有完成加工,则其最早释放时间为工序Oj,i-1的最早释放时间加上工序Oj,i-1处理时间pj,i-1,即est(Oji,st)=est(Oj,i-1,st)+pj,i-1
采用上述5个特征表示DJSP任意时刻的状态,即可得5个大小为[n,m]的矩阵,将它们分别写成大小为[n×m,1]的一维矩阵,并拼接组成大小为[n×m,5]的特征矩阵,同时通过归一化公式 进行归一化处理,得到状态特征。
动作:一个工件数为n,每个工件工序数为m的DJSP问题包含n×m个工序,每个决策点智能体选择一道工序。根据DJSP问题的定义,任意时刻,每个工件只能完成一道工序的加工。因此,时刻t的动作空间At是所有未完成工件的下一道工序组成的集合,随着工件逐渐加工完成,动作空间逐渐变小。如图3中(a)所示,工序O11,O21和O31已经被调度,因此动作空间为{O12,O22,O32,O41,O51,O61};如图3中(b)所示,当工序O22被选择并完成调度,则动作空间变为{O12,O23,O32,O41,O51,O61};如图3中(c)所示,如果工序O23被调度,则动作空间变为{O12,O32,O41,O51,O61},且动作空间的大小减一。
状态转移:当智能体选择了一个动作,则需要确定其最早开始加工时间,使得当前工序的完成时间最小。如图4所示,用实线圈出的工序O11,O21和O31已经完成调度,剩下的未完成调度的工序用虚线圈出。如图4中(a)所示,在状态s3,动作a3=O22被从状态空间{O12,O22,O32,O41,O51,O61}中选出。工序O22的最早开始加工时间是3,即工序O21的完成时间,在机器M2上,当工序O22早于工序O31加工时,其开始加工时间最小,则析取图的状态由图4中(a)所示变成图4中(b),工序O31的开始加时间由原来的2变成了6。
奖励:奖励是环境的反馈信号,表明智能体在当前决策点做出的决策的质量。强化学习的目的是使得智能体获得的当前奖励尽可能的大,期望的累计奖励最大。其中,时刻t的奖励函数定义为R(st,at)=H(st)-H(st+1),H(·)是不同状态的质量评估。本发明中,DJSP的最大完成时间的大小直接反映了车间生产的效率。结合DJSP的分布式特点,设计了一个基于每个工厂最大完成时间的奖励函数。每个工厂的最大完成时间等于该工厂中所有工序的最大完成时间,即Ck=max(CLB(Oji)|fac(Oji)=k),k∈[1,f]。当所有工序完成调度时,最大完成时间为Cmax=max(Ck)。在决策点t,如果动作at对应的工序在工厂k中,则H(st)=Ck(st)。本发明的奖励函数为R(st,at)=Ck(st)-Ck(st+1)。由奖励函数可知,最大化累计奖励等价于最小化最大完成时间。
(4)基于GNN的策略
传统的PDR是每一个步骤均以概率1选择一个工序进行调度。本发明设计了一个基于GNN的策略π(at|st),其输出一个基于动作空间的概率分布。为了优化该策略,需要通过训练确定策略参数θ,以获得一个最优参数的策略πθ(at|st)。
图嵌入:嵌入是一种信息的压缩表示,本发明采用一种图神经网络GraphIsomorphism Network(GIN)提取析取图的特征。给定一个图G=(V,C∪D),经过K次迭代,GIN为集合V中所有节点计算出一个p维的嵌入信息向量,GIN的节点信息的更新公式为 其中,/>是节点v经过k次迭代的压缩信息,/>是节点v的原始特征,/>是第k次迭代所得的网络参数为θk的多层感知机网络,∈(k)是一个可学习的参数,N(v)是节点v的邻域。
信息聚合:采用一个平均池化函数对经过K次迭代的节点信息进行聚合,表达式为当状态为st时,任意工序Oji(Oji∈V)的初始特征是一个5维的向量/>其中,/> 和/>分别是依据归一化公式所得的工序Oji的5个特征的归一化值。K次迭代后,工序Oji的特征表达为/>由平均池化函数可得全局图嵌入信息hg(st)。
动作选择:动作空间是由所有未完成加工工件的当前工序组成的集合。本发明采用一个由两层多层感知机组成的演员网络(Actor Network)计算动作空间的概率分布。整合节点嵌入信息和全局嵌入信息得到将其输入到Actor Network中,Actor Network对每个动作打分,并通过softmax函数计算每个动作被选择的概率,选择概率最大的动作输出。
强化学习方法:演员-评论家网络(Actor-Critic Network)是一个非常有效的强化学习方法,其结合了策略梯度与时间差异学习。Actor Network是一个策略函数,其学习一个策略使得智能体从环境中尽可能获得高的奖励。评论家网络(Critic Network)是一个价值函数,用于评价当前的策略的优略。基于价值函数,Actor-Critic Network每一个步更新一次网络参数。本发明采用异步优势演员-评论家网络(Asynchronous AdvantageActor-Critic,A3C)实现策略的自学习,从而更新网络参数。
S2、根据预获取的数据集,对构建的调度规则生成模型进行训练,得到训练好的调度规则生成模型;具体包括:
(5)模型训练
采用Adam优化器对调度规则生成模型进行训练。
针对不同规模的DJSP,分别训练模型,每个规模的问题迭代1000次,每次迭代都对模型做一次参数更新。每10次迭代,模型就在50个固定的事先设计好的测试用例上进行验证,若当前模型优化了50个测试用例结果的平均值,则保存当前模型。
(6)模型效果验证
保存下来的模型可以直接用于DJSP问题的求解,达到实时调度的要求。
为了验证本发明的实际应用效果,选择TA标准测试集进行仿真测试,并与8种经典的PDR、5种元启发式算法以及3种RL算法进行对比。
图5至图7是本发明与其他算法在求解工厂个数为2、3和4的TA数据集时的对比结果。从图中结果可以看出,本发明提出的基于GNN和RL的PDR生成方法,能够解决不同规模的DJSP问题,并且相较于传统PDR,元启发式算法以及相关的RL算法,均具有很大的优势。
除了设计实验对本发明的有效性进行了验证,还通过不同规模问题训练出的模型求解大规模问题,验证了本发明的泛化性。实验结果如表2所示,从表中的数据可以看出,相同问题,不同模型求出的目标函数值相差不大,说明本发明具有很强的泛化性。
表2模型泛化性验证数据
图5至图7中反应变量为相对增长率(relative percentage increase,RPI),其计算公式为Methodsol是算法Method求出的当前算例的最大完成时间,Bestsol是所有对比算法计算出的当前算例的最大完成时间的最优值。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分布式作业车间的优先调度规则生成方法,其特征在于,包括如下步骤:
构建调度规则生成模型用于决策分布式作业车间调度问题,其中:
将分布式作业车间调度问题表示为析取图:每个工厂对应一个子析取图,将所有工厂的子析取图进行拼接,得到能表示工厂分配以及所有工厂内工序排序的析取图,析取图的每个节点包括被分配的工厂信息;
通过马尔可夫决策模型对析取图进行求解:马尔可夫决策模型通过多次决策更新析取图,逐步完善析取图中所有节点,从而得到最终解;决策过程中,通过图神经网络提取析取图的特征,通过演员网络进行动作决策;
根据预获取的数据集,对构建的调度规则生成模型进行训练,迭代更新图神经网络和演员网络参数,得到训练好的调度规则生成模型;
通过训练好的调度规则生成模型实现分布式作业车间的调度规则生成。
2.如权利要求1所述的分布式作业车间的优先调度规则生成方法,其特征在于,调度规则生成模型中,先确定各工件的工厂分配,再通过马尔可夫决策模型对析取图进行求解;工件的工厂分配方法为:
分别计算各工件完成所有工序的总加工时间,按总加工时间升序对各工件进行排序;然后将前f个工件依次放入f个工厂,f为工厂总数;
对于剩下的工件,计算当前各工厂中所有工件的总加工时间,将当前排序最前的工件分配到总加工时间最小的工厂;重复此过程,直至完成所有工件的工厂分配。
3.如权利要求1所述的分布式作业车间的优先调度规则生成方法,其特征在于,马尔可夫决策模型包括决策过程中各时刻的状态特征;
对任意决策点t时刻的析取图,其中的节点包括5个特征,5个特征组成状态特征;5个特征具体为:
1)节点v对应工序Oji的加工时间pji
2)二进制变量b(v,st);当节点v对应工序Oji在t时刻已经完成调度时,b(v,st)=1,否则b(v,st)=0;
3)节点v对应工序Oji所在的工厂fac(v,st);若工件被分配到工厂k中,则该工件所有工序在t时刻的工厂特征均表示为fac(v,st)=k;
4)节点v对应工序Oji的完成时间的估计下界cLB(Oji,st);
当工序Oji是工件Jj的第一道工序时,其估计下界等于工件Jj的释放时间加上工序Oji的加工时间;
当工序Oji不是工件Jj的第一道工序,则判断:如果t时刻工序Oji完成加工,则其完成时间的估计下界就等于它的实际完成时间;否则,估计下界通过cLB(Oji,st)=cLB(Oj,i-1,st)+pji计算得到,其中cLB(Oj,i-1,st)为工序Oji的前一道工序完成时间的估计下界,pji是工序Oji的处理时间;
5)节点v对应工序Oji的最早释放时间est(Oji,st);
初始状态s0时:当工序Oji是工件Jj的第一道工序时,其最早释放时间为0;当工序Oji不是工件Jj的第一道工序时,其最早释放时间为est(Oji,s0)=est(Oj,i-1,s0)+pj,i-1,其中est(Oj,i-1,s0)为工序Oji的前一道工序Oj,i-1的最早释放时间,pj,i-1是工序Oj,i-1的处理时间;
状态st时,t≠0:当工序Oji完成加工,则其最早释放时间为0;当工序Oji没有被加工且其前道工序Oj,i-1完成加工,则工序Oji的最早释放时间等于其前道工序Oj,i-1的完成时间;当工序Oji没有被加工且其前道工序Oj,i-1没有完成加工,则其最早释放时间为工序Oj,i-1的最早释放时间加上工序Oj,i-1的处理时间pj,i-1
4.如权利要求3所述的分布式作业车间的优先调度规则生成方法,其特征在于,马尔可夫决策模型还包括决策过程中各时刻的动作、状态转移以及奖励;具体为:
动作:决策点t的动作空间At为所有未完成工件的下一道工序组成的集合;
状态转移:将选择的动作***一个可行的位置,使得该工序的最早开始加工时间最小;
奖励:在决策点t,如果动作at对应的工序在工厂k中,则当前奖励为R(st,at)=Ck(st)-Ck(st+1),其中R(st,at)是状态st下选取动作at获得的奖励值,Ck(st)是t时刻工厂k的最大完成时间,Ck(st+1)是采取动作at后t+1时刻的工厂k的最大完成时间。
5.如权利要求3所述的分布式作业车间的优先调度规则生成方法,其特征在于,5个特征组合为状态特征的方式为:
每个特征矩阵大小为[n,m],将其改写为大小为[n×m,1]的一维矩阵,n为工件总数,m为每个工件的工序总数;将5个特征对应的一维矩阵拼接成一个[n×m,5]的矩阵,然后对该矩阵进行归一化处理,得到状态特征。
6.如权利要求1所述的分布式作业车间的优先调度规则生成方法,其特征在于,决策过程中,通过图神经网络提取析取图的特征,并输入演员网络,进而演员网络给每个动作打分,并基于该打分,通过softmax函数计算每个动作被选择的概率,并输出被选择概率最大的动作。
7.如权利要求1-6任一项所述的分布式作业车间的优先调度规则生成方法,其特征在于,通过Adam优化器对调度规则生成模型进行训练。
8.如权利要求7所述的分布式作业车间的优先调度规则生成方法,其特征在于,对调度规则生成模型进行训练时,通过异步优势演员-评论家网络计算网络损失函数,采用Adam优化器动态调整学习率,更新图神经网络和演员网络参数。
9.一种分布式作业车间的优先调度规则生成***,其特征在于,包括处理器,所述处理器用于执行如权利要求1-8任一项所述的分布式作业车间的优先调度规则生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的分布式作业车间的优先调度规则生成方法。
CN202310439782.8A 2023-04-20 2023-04-20 一种分布式作业车间的优先调度规则生成方法及*** Pending CN116500986A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310439782.8A CN116500986A (zh) 2023-04-20 2023-04-20 一种分布式作业车间的优先调度规则生成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310439782.8A CN116500986A (zh) 2023-04-20 2023-04-20 一种分布式作业车间的优先调度规则生成方法及***

Publications (1)

Publication Number Publication Date
CN116500986A true CN116500986A (zh) 2023-07-28

Family

ID=87316053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310439782.8A Pending CN116500986A (zh) 2023-04-20 2023-04-20 一种分布式作业车间的优先调度规则生成方法及***

Country Status (1)

Country Link
CN (1) CN116500986A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116957172A (zh) * 2023-09-21 2023-10-27 山东大学 基于深度强化学习的动态作业车间调度优化方法及***
CN116993028A (zh) * 2023-09-27 2023-11-03 美云智数科技有限公司 车间排产方法、装置、存储介质及电子设备
CN117057569A (zh) * 2023-08-21 2023-11-14 重庆大学 基于神经网络的非置换流水车间调度方法以及装置
CN117555306A (zh) * 2024-01-11 2024-02-13 天津斯巴克斯机电有限公司 一种基于数字孪生的多生产线任务自适应调度方法及***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057569A (zh) * 2023-08-21 2023-11-14 重庆大学 基于神经网络的非置换流水车间调度方法以及装置
CN116957172A (zh) * 2023-09-21 2023-10-27 山东大学 基于深度强化学习的动态作业车间调度优化方法及***
CN116957172B (zh) * 2023-09-21 2024-01-16 山东大学 基于深度强化学习的动态作业车间调度优化方法及***
CN116993028A (zh) * 2023-09-27 2023-11-03 美云智数科技有限公司 车间排产方法、装置、存储介质及电子设备
CN116993028B (zh) * 2023-09-27 2024-01-23 美云智数科技有限公司 车间排产方法、装置、存储介质及电子设备
CN117555306A (zh) * 2024-01-11 2024-02-13 天津斯巴克斯机电有限公司 一种基于数字孪生的多生产线任务自适应调度方法及***
CN117555306B (zh) * 2024-01-11 2024-04-05 天津斯巴克斯机电有限公司 一种基于数字孪生的多生产线任务自适应调度方法及***

Similar Documents

Publication Publication Date Title
CN116500986A (zh) 一种分布式作业车间的优先调度规则生成方法及***
CN112734172B (zh) 一种基于时序差分的混合流水车间调度方法
Luo et al. Energy-efficient scheduling for multi-objective flexible job shops with variable processing speeds by grey wolf optimization
CN108053119B (zh) 一种求解零等待流水车间调度问题的改进粒子群优化方法
CN111756653B (zh) 基于图神经网络深度强化学习的多coflow调度方法
CN109961098B (zh) 一种机器学习的训练数据选择方法
CN114565247B (zh) 一种基于深度强化学习的车间调度方法、装置和***
CN114912826B (zh) 一种基于多层深度强化学习的柔性作业车间调度方法
CN111353646B (zh) 带切换时间的炼钢柔性调度优化方法、***、介质及设备
CN112348314A (zh) 一种带起重机的分布式柔性车间调度方法及***
Du et al. Collaborative optimization of service scheduling for industrial cloud robotics based on knowledge sharing
CN115293623A (zh) 一种生产调度模型的训练方法、装置、电子设备及介质
CN115454005A (zh) 一种面向有限运输资源场景的制造车间动态智能调度方法及装置
CN114611897A (zh) 一种智能产线自适应动态调度策略选择方法
CN115933568A (zh) 一种多目标分布式混合流水车间调度方法
CN117057528A (zh) 一种基于端到端深度强化学习的分布式作业车间调度方法
Pol et al. Global Reward Design for Cooperative Agents to Achieve Flexible Production Control under Real-time Constraints.
CN117331700B (zh) 一种算力网络资源调度***及方法
CN117647960A (zh) 一种基于深度强化学习的车间调度方法、装置和***
Iklassov et al. On the Study of Curriculum Learning for Inferring Dispatching Policies on the Job Shop Scheduling.
CN116562584A (zh) 一种基于Conv-Dueling与泛化表征的动态车间调度方法
CN116796964A (zh) 一种基于生成对抗模仿学习解决作业车间调度问题的方法
CN116300756A (zh) 带运输机器人柔性制造车间的双目标优化调度方法及***
CN116151581A (zh) 一种柔性车间调度方法、***及电子设备
CN116128334A (zh) 质检任务调度方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination