CN116151581A - 一种柔性车间调度方法、***及电子设备 - Google Patents

一种柔性车间调度方法、***及电子设备 Download PDF

Info

Publication number
CN116151581A
CN116151581A CN202310199225.3A CN202310199225A CN116151581A CN 116151581 A CN116151581 A CN 116151581A CN 202310199225 A CN202310199225 A CN 202310199225A CN 116151581 A CN116151581 A CN 116151581A
Authority
CN
China
Prior art keywords
network
training
flexible
scheduling
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310199225.3A
Other languages
English (en)
Inventor
孙健
王润清
王钢
甘明刚
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202310199225.3A priority Critical patent/CN116151581A/zh
Publication of CN116151581A publication Critical patent/CN116151581A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Manufacturing & Machinery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的一种柔性车间调度方法、***及电子设备,涉及离散制造智能调度技术领域。本发明包括:根据预设生产目标随机在生产车间内生成多个柔性车间环境;基于马尔科夫决策过程构建生产车间的调度策略模型;利用调度策略模型和多个数据集,同时对特征提取网络、Actor网络和Critic网络进行优化,优化完成后确定最大完工时间对应的调度计划为最优调度计划;基于最优调度计划完成预设生产目标。本发明通过对多个车间环境分别进行特征提取用于生成调度方案,进而提高柔性车间调度的效率和合理性。

Description

一种柔性车间调度方法、***及电子设备
技术领域
本发明涉及离散制造智能调度技术领域,特别是涉及一种柔性车间调度方法、***及电子设备。
背景技术
制造智能化是中国制造业创新驱动和转型升级的主攻方向,其中生产调度智能化是实现制造智能化的关键路径。在制造业,企业的生产能力与所采取的资源调度策略息息相关。当今市场竞争日趋激烈,客户需求复杂多变,需要一个兼具实时性、泛用性、灵活性和扩展性的调度***来编排生产任务,以实现生产资源的高效利用和生产效益的最大化。因此,研究离散制造智能优化调度与自主决策方法具有重要的理论意义和经济价值。柔性车间调度问题(Flexible Job Scheduling Problem,FJSP)作为作业车间调度问题(JSP)的推广,是一类具有一般性的调度问题,因其十分符合实际生产场景中对生产灵活性和多样性的要求而倍受业界关注。
解决生产调度问题的传统方法主要包括精确法、元启发式法和启发式法。这些方法都有一定的应用瓶颈,如分支定界法和数学规划法等精确法能够求出原问题的最优解,但通常具有指数级的计算复杂度,无法满足实际生产场景对调度实时性的要求;遗传算法和粒子群算法等元启发式法应用广泛,但其性能对参数较敏感且泛化性较差;启发式法指一类基于先验知识对原问题预先设置规则去求解的方法,编程实现简单,具有很好的实时性和泛化性,但该类方法生成解的质量往往不够好且只能适应部分特定的场景。
近年来,深度强化学习方法在众多领域都显现出优势,其中也包括调度问题在内的组合优化领域。强化学习方法将调度任务建模成一个马尔科夫决策过程(MarkovDecision Process,MDP),支持智能体在仿真车间环境中进行大量的探索和学习,是一种可以在离线环境下实施的数据驱动方法。同时,当智能体在实际环境中应用所学策略时,能够以很小的时间代价快速地给出评判量。因此,该方法兼具数据学习和实时决策的优点,有效克服传统方法的不足。同时,为了使决策模型具有对求解不同规模调度问题的泛化能力,学者们将不同的状态表示方法应用在模型的设计中,已成功应用在优化最小完工时间的柔性车间调度问题。Han等人采用改进的指针网络对待调度工序信息进行编解码,设计了一种基于指针网络和策略梯度算法的调度决策方法。Lei等人设计了一种基于同构图的特征提取方法,学习基于析取图表示的柔性车间环境,将决策分为工序选择和机器选择两步进行,并设置了两个智能体分别处理这两步决策。Song等人提出了一种异构析取图方法描述柔性车间环境,并设计了一种基于异构图神经网络和近端策略优化算法的端到端的调度策略模型,该模型在解的质量上优于简单的调度规则和元启发式算法。但是,上述列举的调度方法虽可用于柔性车间调度问题的求解,但仍存在一些问题,主要表现在对生产单元特征学习不充分、以及对柔性车间环境探索不充分等方面,在解的质量、计算效率和泛化能力等方面都有提升空间。
发明内容
本发明的目的是提供一种柔性车间调度方法、***及电子设备,能够对多个车间环境分别进行特征提取用于生成调度方案,进而提高柔性车间调度的效率和合理性。
为实现上述目的,本发明提供了如下方案:
一种柔性车间调度方法,包括:
根据预设生产目标随机在生产车间内生成多个柔性车间环境;根据多个柔性车间环境的参数构建多个数据集;所述数据集与所述柔性车间环境一一对应;所述数据集为训练集或验证集;
基于马尔科夫决策过程构建生产车间的调度策略模型;
对特征提取网络、Actor网络和Critic网络均进行参数初始化处理;
利用所述调度策略模型和多个所述数据集,同时对所述特征提取网络、所述Actor网络和所述Critic网络进行优化,优化完成后确定最大完工时间对应的调度计划为最优调度计划;
基于所述最优调度计划完成所述预设生产目标。
可选的,利用所述调度策略模型和多个所述数据集,同时对所述特征提取网络、所述Actor网络和所述Critic网络进行优化,优化完成后确定最大完工时间对应的调度计划为最优调度计划,包括:
确定初始化后的特征提取网络参数、Actor网络参数和Critic网络参数为第0次训练回合的网络参数;
初始化第0个训练回合的评判量;
令训练回合数Episode=1;
初始化调度策略模型的缓存池和容量;
令第一迭代次数i=1;
确定训练柔性车间环境集中的任一训练柔性车间环境为当前训练柔性车间环境;所述训练柔性车间环境为训练集对应的柔性车间环境;
确定当前训练柔性车间环境的工序加工图和机器竞争图;
根据所述工序加工图和所述机器竞争图,利用所述特征提取网络、所述Actor网络和所述Critic网络,更新所述缓存池;
根据所述缓存池,利用梯度下降法对特征提取网络、Actor网络和Critic网络均进行参数更新;并判断训练回合数Episode是否达到回合迭代次数阈值,得到第一判断结果;
若所述第一判断结果为否,判断第一迭代次数i是否为训练柔性车间环境的整数倍,得到第二判断结果;
若第二判断结果为否,则更新所述当前训练柔性车间环境,令第一迭代次数i的数值增加1,并返回步骤“确定当前训练柔性车间环境的工序加工图和机器竞争图”;
若第二判断结果为是,则确定更新后特征提取网络的参数、更新后Actor网络的参数和更新后Critic网络的参数为第Episode个训练回合的待定网络参数;
根据缓存池确定当前策略,并利用多个所述验证集验证当前策略,确定第Episode个训练回合的评判量;
根据第Episode个训练回合的评判量、第Episode-1个训练回合的评判量、第Episode个训练回合的待定网络参数和第Episode-1个训练回合的网络参数,确定第Episode个训练回合的网络参数;更新训练柔性车间环境集;令训练回合数Episode的数值增加1,令第一迭代次数i的数值增加1,并返回步骤“确定训练柔性车间环境集中的任一训练柔性车间环境为当前训练柔性车间环境”;
若所述第一判断结果为是,则确定特征提取网络、Actor网络和Critic网络均优化完成,并确定最大完工时间对应的调度计划为最优调度计划。
可选的,所述工序加工图用于描述所述柔性车间环境中可完成的工序、所述柔性车间环境中可完成的工序特征、同一工件的工序加工顺序,以及生产同一工件时在同一机器上完成的多个工序的顺序;
其中,工序特征包括工序在当前状态的调度标记、完成时间的预估下界、加工时间跨度、平均加工时间、排队时间、工件剩余工序数、工件剩余工作量和可加工机器数。
可选的,所述机器竞争图包括柔性车间环境中的多台机器、柔性车间环境中的多台机器的机器特征、以及多台机器的竞争关系;
所述机器特征包括机器在当前状态可加工候选人数、可加工工序总数、平均加工时间、排队时间、空闲时刻和当前队列长度。
可选的,所述根据所述工序加工图和所述机器竞争图,利用所述特征提取网络、所述Actor网络和所述Critic网络,更新所述缓存池包括:
初始化第0次迭代的状态信息;
初始化工序特征图和机器特征图;
令第二迭代次数t=1;
获取第t-1次迭代时的状态信息;
将第t-1次迭代时的状态信息输入到特征提取网络,得到工序特征和机器特征;
利用所述工序特征更新所述工序特征图;
利用所述机器特征更新所述机器特征图;
将所述工序特征图和所述机器特征图输入Actor网络,得到第t-1次迭代时的调度策略;
对第t-1次迭代时的调度策略进行采样,得到生成第t-1次迭代时的动作;
采用第t-1次迭代时的动作与当前训练柔性车间环境互动,得到迭代奖励和第t次迭代时的状态信息;
将所述工序特征图和所述机器特征图输入Critic网络,得到优势函数值;
将所述第t-1次迭代时的状态信息、第t-1次迭代时的动作、迭代奖励、第t次迭代时的状态信息和优势函数值添加到所述缓存池中;
判断所述第二迭代次数t是否达到当前训练柔性车间的工序总数,得到第三判断结果;
若所述第三判断结果为是,则将当前训练柔性车间的工序总数作为终止标记添加到所述缓存池中;
若所述第三判断结果为否,则令第二迭代次数t的数值增加1,并返回步骤“获取第t-1次迭代时的状态信息”。
可选的,根据缓存池确定当前策略,并利用多个所述验证集验证当前策略,确定第Episode个训练回合的评判量,包括:
将当前策略分别与验证柔性车间环境集中的多个验证柔性车间环境交互,得到每个验证柔性车间环境对应的最大完工时间;所述验证柔性车间环境为验证集对应的柔性车间环境;
确定验证柔性车间环境集对应的多个最大完工时间的均值为第Episode个训练回合的评判量。
可选的,所述根据第Episode个训练回合的评判量、第Episode-1个训练回合的评判量、第Episode个训练回合的待定网络参数和第Episode-1个训练回合的网络参数,确定第Episode个训练回合的网络参数,包括:
判断第Episode个训练回合的评判量是否大于第Episode-1个训练回合的评判量,得到第四判断结果;
若所述第四判断结果为是,则确定第Episode个训练回合的待定网络参数为第Episode个训练回合的网络参数;
若所述第四判断结果为否,则确定第Episode-1个训练回合的网络参数为第Episode个训练回合的网络参数。
一种柔性车间调度***,包括:
柔性车间环境生成模块,用于根据预设生产目标随机在生产车间内生成多个柔性车间环境;根据多个柔性车间环境的参数构建多个数据集;所述数据集与所述柔性车间环境一一对应;所述数据集为训练集或验证集;
调度策略模型确定模块,用于基于马尔科夫决策过程构建生产车间的调度策略模型;
网络参数初始化模块,用于对特征提取网络、Actor网络和Critic网络均进行参数初始化处理;
最优调度计划确定模块,用于利用所述调度策略模型和多个所述数据集,同时对所述特征提取网络、所述Actor网络和所述Critic网络进行优化,优化完成后确定最大完工时间对应的调度计划为最优调度计划;
调度模块,用于基于所述最优调度计划完成所述预设生产目标。
一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行所述的一种柔性车间调度方法。
可选的,所述存储器为可读存储介质。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的一种柔性车间调度方法、***及电子设备,包括:根据预设生产目标随机在生产车间内生成多个柔性车间环境;根据多个柔性车间环境的参数构建多个数据集;数据集与柔性车间环境一一对应;数据集为训练集或验证集;基于马尔科夫决策过程构建生产车间的调度策略模型;对特征提取网络、Actor网络和Critic网络均进行参数初始化处理;利用调度策略模型和多个数据集,同时对特征提取网络、Actor网络和Critic网络进行优化,优化完成后确定最大完工时间对应的调度计划为最优调度计划;基于最优调度计划完成预设生产目标。本发明通过对多个车间环境分别进行特征提取用于生成调度方案,进而提高柔性车间调度的效率和合理性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种柔性车间调度方法流程图;
图2为本发明提供的工序加工图示意图;
图3为本发明提供的机器竞争示意图;
图4为本发明提供的基于图神经网络的特征提取模型示意图;
图5为本发明提供的马尔科夫决策模型状态转移过程示意图;
图6为本发明提供的柔性车间调度方法原理图;
图7为本发明提供的生产甘特图;
图8为本发明提供的3×3×9规模的柔性车间环境上的运行效果图;
图9为本发明提供的6×6x36规模的柔性车间环境上的运行效果图;
图10为本发明提供的10×5×50规模的柔性车间环境上的运行效果图;
图11为本发明提供的、20×5×100规模的柔性车间环境上的运行效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种柔性车间调度方法、***及电子设备,能够对多个车间环境分别进行特征提取用于生成调度方案,进而提高柔性车间调度的效率和合理性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本实施例提供了一种柔性车间调度方法,包括:
步骤101:根据预设生产目标随机在生产车间内生成多个柔性车间环境;根据多个柔性车间环境的参数构建多个数据集;数据集与柔性车间环境一一对应;数据集为训练集或验证集;
步骤102:基于马尔科夫决策过程构建生产车间的调度策略模型;
步骤103:对特征提取网络、Actor网络和Critic网络均进行参数初始化处理;
步骤104:利用调度策略模型和多个数据集,同时对特征提取网络、Actor网络和Critic网络进行优化,优化完成后确定最大完工时间对应的调度计划为最优调度计划;
步骤104,包括:
步骤1041:确定初始化后的特征提取网络参数、Actor网络参数和Critic网络参数为第0次训练回合的网络参数。
步骤1042:初始化第0个训练回合的评判量。
步骤1043:令训练回合数Episode=1。
步骤1044:初始化调度策略模型的缓存池和容量。
步骤1045:令第一迭代次数i=1。
步骤1046:确定训练柔性车间环境集中的任一训练柔性车间环境为当前训练柔性车间环境;训练柔性车间环境为训练集对应的柔性车间环境。
步骤1047:确定当前训练柔性车间环境的工序加工图和机器竞争图。工序加工图用于描述柔性车间环境中可完成的工序、柔性车间环境中可完成的工序特征、同一工件的工序加工顺序,以及生产同一工件时在同一机器上完成的多个工序的顺序;其中,工序特征包括工序在当前状态的调度标记、完成时间的预估下界、加工时间跨度、平均加工时间、排队时间、工件剩余工序数、工件剩余工作量和可加工机器数。机器竞争图包括柔性车间环境中的多台机器、柔性车间环境中的多台机器的机器特征、以及多台机器的竞争关系;机器特征包括机器在当前状态可加工候选人数、可加工工序总数、平均加工时间、排队时间、空闲时刻和当前队列长度。
步骤1048:根据工序加工图和机器竞争图,利用特征提取网络、Actor网络和Critic网络,更新缓存池。
步骤1048:包括:
步骤10481:初始化第0次迭代的状态信息。
步骤10482:初始化工序特征图和机器特征图。
步骤10483:令第二迭代次数t=1。
步骤10484:获取第t-1次迭代时的状态信息。
步骤10485:将第t-1次迭代时的状态信息输入到特征提取网络,得到工序特征和机器特征。
步骤10486:利用工序特征更新工序特征图。
步骤10487:利用机器特征更新机器特征图。
步骤10488:将工序特征图和机器特征图输入Actor网络,得到第t-1次迭代时的调度策略。
步骤10489:对第t-1次迭代时的调度策略进行采样,得到生成第t-1次迭代时的动作。
步骤104810:采用第t-1次迭代时的动作与当前训练柔性车间环境互动,得到迭代奖励和第t次迭代时的状态信息。
步骤104811:将工序特征图和机器特征图输入Critic网络,得到优势函数值。
步骤104812:将第t-1次迭代时的状态信息、第t-1次迭代时的动作、迭代奖励、第t次迭代时的状态信息和优势函数值添加到缓存池中。
步骤104813:判断第二迭代次数t是否达到当前训练柔性车间的工序总数,得到第三判断结果。
步骤104814:若第三判断结果为是,则将当前训练柔性车间的工序总数作为终止标记添加到缓存池中。
步骤104815:若第三判断结果为否,则令第二迭代次数t的数值增加1,并返回步骤“获取第t-1次迭代时的状态信息”。
步骤1049:根据缓存池,利用梯度下降法对特征提取网络、Actor网络和Critic网络均进行参数更新;并判断训练回合数Episode是否达到回合迭代次数阈值,得到第一判断结果。
步骤10410:若第一判断结果为否,判断第一迭代次数i是否为训练柔性车间环境的整数倍,得到第二判断结果。
步骤10411:若第二判断结果为否,则更新当前训练柔性车间环境,令第一迭代次数i的数值增加1,并返回步骤“确定当前训练柔性车间环境的工序加工图和机器竞争图”。
步骤10412:若第二判断结果为是,则确定更新后特征提取网络的参数、更新后Actor网络的参数和更新后Critic网络的参数为第Episode个训练回合的待定网络参数。
步骤10413:根据缓存池确定当前策略,并利用多个验证集验证当前策略,确定第Episode个训练回合的评判量。
步骤10413,包括:
步骤104131:将当前策略分别与验证柔性车间环境集中的多个验证柔性车间环境交互,得到每个验证柔性车间环境对应的最大完工时间;验证柔性车间环境为验证集对应的柔性车间环境。
步骤104132:确定验证柔性车间环境集对应的多个最大完工时间的均值为第Episode个训练回合的评判量。
步骤10414:根据第Episode个训练回合的评判量、第Episode-1个训练回合的评判量、第Episode个训练回合的待定网络参数和第Episode-1个训练回合的网络参数,确定第Episode个训练回合的网络参数;更新训练柔性车间环境集;令训练回合数Episode的数值增加1,令第一迭代次数i的数值增加1,并返回步骤“确定训练柔性车间环境集中的任一训练柔性车间环境为当前训练柔性车间环境”。
步骤10414,包括:
步骤104141:判断第Episode个训练回合的评判量是否大于第Episode-1个训练回合的评判量,得到第四判断结果;
步骤104142:若第四判断结果为是,则确定第Episode个训练回合的待定网络参数为第Episode个训练回合的网络参数;
步骤104143:若第四判断结果为否,则确定第Episode-1个训练回合的网络参数为第Episode个训练回合的网络参数。
步骤10415:若第一判断结果为是,则确定特征提取网络、Actor网络和Critic网络均优化完成,并确定最大完工时间对应的调度计划为最优调度计划。
步骤105:基于最优调度计划完成预设生产目标。
实施例2
本发明中提供的柔性车间环境图建模方法如图2-图3所示,通过工序加工图与机器竞争图分别描述工序与机器。工序加工图定义为GJ=<VJ,EJ,FJ>,其中VJ是GJ的节点集,与车间中的工序相对应;EJ是GJ的边集,边集由两类边构成,一类用于表示属于同一工件的工序的加工顺序,另一类用于表示同一机器上加工工序的加工顺序;FJ是GJ中节点的特征集,每个工序的特征用一个8维向量表示,分别为该工序在当前状态的调度标记、完成时间的预估下界、加工时间跨度、平均加工时间、排队时间、所属工件剩余工序数、所属工件剩余工作量和可加工机器数。机器竞争图定义为GM
Figure BDA0004110038800000111
其中VM是GM的节点集,与车间中的机器相对应;EM是GM的边集,将具有加工竞争关系的机器使用无向边连接;FM是GM中节点的特征集,每个机器的特征用一个6维向量表示,分别为该机器在当前状态可加工候选人数、可加工工序总数、平均加工时间、排队时间、空闲时刻、当前队列长度;/>
Figure BDA0004110038800000112
为GM的边特征集,边的特征定义为该边两端节点所竞争的工序的特征之和。基于上述定义的柔性车间图建模方法能够全面描述生产单元信息及车间结构信息。
本发明所提供的基于图神经网络的特征提取模型如图4所示,该模型分别采用图注意力网络和边缘特征图注意力网络学习工序特征和机器特征,并且在网络迭代的过程中,将工序与机器节点的特征根据生产关系进行交互:在网络第l层,将该层的工序节点特征集
Figure BDA0004110038800000113
与GJ的邻接矩阵AJ输入给该层的GAT模块GAT(l),以得到下一层的工序节点特征集
Figure BDA0004110038800000114
同时根据GM的边集EM和当前状态的待调度工序计算出GM第l层的边特征映射张量
Figure BDA0004110038800000115
并通过/>
Figure BDA0004110038800000116
和/>
Figure BDA0004110038800000117
计算出/>
Figure BDA0004110038800000118
然后将该层的机器节点特征集/>
Figure BDA0004110038800000119
GM的邻接矩阵AM
Figure BDA00041100388000001110
输入给该层的EGAT模块EGAT(l),以得到下一层的机器节点特征集/>
Figure BDA00041100388000001111
通过这种方式定义的特征提取模型能够学习到更丰富的节点特征。
本发明所提供的调度任务马尔科夫决策模型中的状态转移过程如图5所示,在每步的调度动作执行完毕后,根据已有调度信息可计算出下一个调度时刻,并将环境的信息更新到该时刻。具体地,对于工序加工图,工序特征集FJ会根据环境信息重新计算,并且对当前步所选机器,将其上一道加工工序连接到当前步所选工序上,即工序加工图新产生一条连边;对于机器竞争图,机器特征集FM会根据环境信息重新计算,同时,由于状态更新后机器间的竞争关系发生了变化,边集EM也会重新生成。通过这种方式定义的状态转移过程充分利用了生产过程中动态变化的节点间关系,有利于智能体感知环境。
如图6所示,本发明实施例提供了一种基于双视角图强化学习的柔性车间调度方法,包括以下步骤:
S1,随机初始化特征提取网络参数ω、Actor网络参数θ和Critic网络参数
Figure BDA00041100388000001228
。随机生成指定规模的柔性车间环境,包括含有Ntrain个环境的训练集Dtrain和含有Nvali个环境的验证集Dvali。设置算法有关超参数:特征提取网络迭代次数Lfea,输出节点特征维数dout、Actor网络与Critic网络层数Lagent和维数daqent等。
S2,若训练次数达到预设值Tep,则结束训练。否则,将每个柔性车间环境转化为基于工序加工图与机器竞争图的形式:收集对第i个环境的数据,根据工序个数和其所属工件生成节点集
Figure BDA0004110038800000121
和边集/>
Figure BDA0004110038800000122
根据生产时间和加工关系生成特征集/>
Figure BDA0004110038800000123
和/>
Figure BDA0004110038800000124
再根据机器个数和初始竞争关系生成节点集/>
Figure BDA0004110038800000125
边集/>
Figure BDA0004110038800000126
和边特征集/>
Figure BDA0004110038800000127
由此获得调度模型的初始输入状态/>
Figure BDA0004110038800000128
S3,让智能体探索每个环境,对第i个环境,重复以下操作Ti次(Ti为第i个环境所具有的工序数):首先,将前一个时刻的状态信息
Figure BDA0004110038800000129
Figure BDA00041100388000001210
输入给特征提取网络,获得提取后的工序特征/>
Figure BDA00041100388000001211
和机器特征/>
Figure BDA00041100388000001212
其次,将每个动作所对应的节点特征从/>
Figure BDA00041100388000001213
和/>
Figure BDA00041100388000001214
中取出,并连接图特征/>
Figure BDA00041100388000001215
和/>
Figure BDA00041100388000001216
(各节点特征的均值)输入给全连接的Actor网络生成当前步智能体的行动策略/>
Figure BDA00041100388000001217
并根据
Figure BDA00041100388000001218
采样生成动作/>
Figure BDA00041100388000001219
然后,智能体采取动作/>
Figure BDA00041100388000001220
与环境互动,获得当前时刻的状态/>
Figure BDA00041100388000001221
此步的奖励/>
Figure BDA00041100388000001222
此步的终止标记/>
Figure BDA00041100388000001223
(若t=Ti);最后,将图特征/>
Figure BDA00041100388000001224
Figure BDA00041100388000001225
输入给全连接的Critic网络计算状态价值,进一步计算对应步的优势函数值
Figure BDA00041100388000001226
保存/>
Figure BDA00041100388000001227
到缓存池中,令t←t-1。
S4,根据缓存池中的数据计算PPO算法的损失函数,该函数定义为:
Figure BDA0004110038800000131
式中/>
Figure BDA0004110038800000132
Figure BDA0004110038800000133
πθ与/>
Figure BDA0004110038800000134
分别为实际更新的策略与探索策略,∈为截断系数;/>
Figure BDA0004110038800000135
为状态价值估计值与累积奖励的均方误差;S[πθ](st)为状态st下策略的熵;c1、c2为正的系数。基于梯度下降法更新特征提取网络参数ω、Actor网络参数θ和Critic网络参数/>
Figure BDA0004110038800000136
S5,对当前训练次数进行判断:如果当前训练次数为Tvali的整数倍,将当前策略在S1给出的验证集上验证,即让当前策略πθ与验证集中的Nvali个环境交互,生成调度解(最大完工时间),将调度器在这些环境的调度解的均值作为评判标准,若当前解的质量比过去提升了,则保存当前网络的参数;如果当前训练次数为Tsp的整数倍,则重新生成用于训练的环境集。
S6,反复执行S2到S5操作,直至训练次数已达到预设值Tep。最终得到在当前规模问题上得到优化的模型参数ω、θ、
Figure BDA0004110038800000137
如图7所示,图7为本实施例提供的一种基于双视角图强化学习的柔性车间调度方法在一个10×5×50(表示10工件、5机器、50工序,下同)环境中调度解对应的生产甘特图;
本发明基于双视角图强化学习的柔性车间调度方法在四个不同规模的柔性车间环境上的一个实例的运行效果图如图8-图11所示,这四个不同的规模分别是:3×3×9、6×6×36、10×5×50、20×5×100。运行效果图展示了本发明所提供的基于双视角图强化学习的柔性车间调度方法与四种经典启发式规则的结果对比,这四种启发式规则分别是:先来先服务(First In First Out,FIFO)、最大剩余工序数优先(Most Operation Remaining,MOR)、最短加工时间优先(Shortest Processing Time,SPT)和最大剩余工作量优先(MostWork Remaining,MWKR)。在运行效果图中,本发明所提供的基于双视角图强化学习的柔性车间调度方法在解的质量上优于这些启发式规则,充分体现出该方法的有效性。
实施例3
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供了一种柔性车间调度***,包括:
柔性车间环境生成模块,用于根据预设生产目标随机在生产车间内生成多个柔性车间环境;根据多个柔性车间环境的参数构建多个数据集;数据集与柔性车间环境一一对应;数据集为训练集或验证集。
调度策略模型确定模块,用于基于马尔科夫决策过程构建生产车间的调度策略模型。
网络参数初始化模块,用于对特征提取网络、Actor网络和Critic网络均进行参数初始化处理。
最优调度计划确定模块,用于利用调度策略模型和多个数据集,同时对特征提取网络、Actor网络和Critic网络进行优化,优化完成后确定最大完工时间对应的调度计划为最优调度计划。
调度模块,用于基于最优调度计划完成预设生产目标。
实施例4
本实施例提供了一种电子设备,包括存储器及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行实施例1或2所述的一种柔性车间调度方法。其中,存储器为可读存储介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种柔性车间调度方法,其特征在于,包括:
根据预设生产目标随机在生产车间内生成多个柔性车间环境;根据多个柔性车间环境的参数构建多个数据集;所述数据集与所述柔性车间环境一一对应;所述数据集为训练集或验证集;
基于马尔科夫决策过程构建生产车间的调度策略模型;
对特征提取网络、Actor网络和Critic网络均进行参数初始化处理;
利用所述调度策略模型和多个所述数据集,同时对所述特征提取网络、所述Actor网络和所述Critic网络进行优化,优化完成后确定最大完工时间对应的调度计划为最优调度计划;
基于所述最优调度计划完成所述预设生产目标。
2.根据权利要求1所述的一种柔性车间调度方法,其特征在于,利用所述调度策略模型和多个所述数据集,同时对所述特征提取网络、所述Actor网络和所述Critic网络进行优化,优化完成后确定最大完工时间对应的调度计划为最优调度计划,包括:
确定初始化后的特征提取网络参数、Actor网络参数和Critic网络参数为第0次训练回合的网络参数;
初始化第0个训练回合的评判量;
令训练回合数Episode=1;
初始化调度策略模型的缓存池和容量;
令第一迭代次数i=1;
确定训练柔性车间环境集中的任一训练柔性车间环境为当前训练柔性车间环境;所述训练柔性车间环境为训练集对应的柔性车间环境;
确定当前训练柔性车间环境的工序加工图和机器竞争图;
根据所述工序加工图和所述机器竞争图,利用所述特征提取网络、所述Actor网络和所述Critic网络,更新所述缓存池;
根据所述缓存池,利用梯度下降法对特征提取网络、Actor网络和Critic网络均进行参数更新;并判断训练回合数Episode是否达到回合迭代次数阈值,得到第一判断结果;
若所述第一判断结果为否,判断第一迭代次数i是否为训练柔性车间环境的整数倍,得到第二判断结果;
若第二判断结果为否,则更新所述当前训练柔性车间环境,令第一迭代次数i的数值增加1,并返回步骤“确定当前训练柔性车间环境的工序加工图和机器竞争图”;
若第二判断结果为是,则确定更新后特征提取网络的参数、更新后Actor网络的参数和更新后Critic网络的参数为第Episode个训练回合的待定网络参数;
根据缓存池确定当前策略,并利用多个所述验证集验证当前策略,确定第Episode个训练回合的评判量;
根据第Episode个训练回合的评判量、第Episode-1个训练回合的评判量、第Episode个训练回合的待定网络参数和第Episode-1个训练回合的网络参数,确定第Episode个训练回合的网络参数;更新训练柔性车间环境集;令训练回合数Episode的数值增加1,令第一迭代次数i的数值增加1,并返回步骤“确定训练柔性车间环境集中的任一训练柔性车间环境为当前训练柔性车间环境”;
若所述第一判断结果为是,则确定特征提取网络、Actor网络和Critic网络均优化完成,并确定最大完工时间对应的调度计划为最优调度计划。
3.根据权利要求2所述的一种柔性车间调度方法,其特征在于,所述工序加工图用于描述所述柔性车间环境中可完成的工序、所述柔性车间环境中可完成的工序特征、同一工件的工序加工顺序,以及生产同一工件时在同一机器上完成的多个工序的顺序;
其中,工序特征包括工序在当前状态的调度标记、完成时间的预估下界、加工时间跨度、平均加工时间、排队时间、工件剩余工序数、工件剩余工作量和可加工机器数。
4.根据权利要求2所述的一种柔性车间调度方法,其特征在于,所述机器竞争图包括柔性车间环境中的多台机器、柔性车间环境中的多台机器的机器特征、以及多台机器的竞争关系;
所述机器特征包括机器在当前状态可加工候选人数、可加工工序总数、平均加工时间、排队时间、空闲时刻和当前队列长度。
5.根据权利要求2所述的一种柔性车间调度方法,其特征在于,所述根据所述工序加工图和所述机器竞争图,利用所述特征提取网络、所述Actor网络和所述Critic网络,更新所述缓存池包括:
初始化第0次迭代的状态信息;
初始化工序特征图和机器特征图;
令第二迭代次数t=1;
获取第t-1次迭代时的状态信息;
将第t-1次迭代时的状态信息输入到特征提取网络,得到工序特征和机器特征;
利用所述工序特征更新所述工序特征图;
利用所述机器特征更新所述机器特征图;
将所述工序特征图和所述机器特征图输入Actor网络,得到第t-1次迭代时的调度策略;
对第t-1次迭代时的调度策略进行采样,得到生成第t-1次迭代时的动作;
采用第t-1次迭代时的动作与当前训练柔性车间环境互动,得到迭代奖励和第t次迭代时的状态信息;
将所述工序特征图和所述机器特征图输入Critic网络,得到优势函数值;
将所述第t-1次迭代时的状态信息、第t-1次迭代时的动作、迭代奖励、第t次迭代时的状态信息和优势函数值添加到所述缓存池中;
判断所述第二迭代次数t是否达到当前训练柔性车间的工序总数,得到第三判断结果;
若所述第三判断结果为是,则将当前训练柔性车间的工序总数作为终止标记添加到所述缓存池中;
若所述第三判断结果为否,则令第二迭代次数t的数值增加1,并返回步骤“获取第t-1次迭代时的状态信息”。
6.根据权利要求2所述的一种柔性车间调度方法,其特征在于,根据缓存池确定当前策略,并利用多个所述验证集验证当前策略,确定第Episode个训练回合的评判量,包括:
将当前策略分别与验证柔性车间环境集中的多个验证柔性车间环境交互,得到每个验证柔性车间环境对应的最大完工时间;所述验证柔性车间环境为验证集对应的柔性车间环境;
确定验证柔性车间环境集对应的多个最大完工时间的均值为第Episode个训练回合的评判量。
7.根据权利要求2所述的一种柔性车间调度方法,其特征在于,所述根据第Episode个训练回合的评判量、第Episode-1个训练回合的评判量、第Episode个训练回合的待定网络参数和第Episode-1个训练回合的网络参数,确定第Episode个训练回合的网络参数,包括:
判断第Episode个训练回合的评判量是否大于第Episode-1个训练回合的评判量,得到第四判断结果;
若所述第四判断结果为是,则确定第Episode个训练回合的待定网络参数为第Episode个训练回合的网络参数;
若所述第四判断结果为否,则确定第Episode-1个训练回合的网络参数为第Episode个训练回合的网络参数。
8.一种柔性车间调度***,其特征在于,包括:
柔性车间环境生成模块,用于根据预设生产目标随机在生产车间内生成多个柔性车间环境;根据多个柔性车间环境的参数构建多个数据集;所述数据集与所述柔性车间环境一一对应;所述数据集为训练集或验证集;
调度策略模型确定模块,用于基于马尔科夫决策过程构建生产车间的调度策略模型;
网络参数初始化模块,用于对特征提取网络、Actor网络和Critic网络均进行参数初始化处理;
最优调度计划确定模块,用于利用所述调度策略模型和多个所述数据集,同时对所述特征提取网络、所述Actor网络和所述Critic网络进行优化,优化完成后确定最大完工时间对应的调度计划为最优调度计划;
调度模块,用于基于所述最优调度计划完成所述预设生产目标。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至7中任一项所述的一种柔性车间调度方法。
10.根据权利要求9所述的一种电子设备,其特征在于,所述存储器为可读存储介质。
CN202310199225.3A 2023-02-28 2023-02-28 一种柔性车间调度方法、***及电子设备 Pending CN116151581A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310199225.3A CN116151581A (zh) 2023-02-28 2023-02-28 一种柔性车间调度方法、***及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310199225.3A CN116151581A (zh) 2023-02-28 2023-02-28 一种柔性车间调度方法、***及电子设备

Publications (1)

Publication Number Publication Date
CN116151581A true CN116151581A (zh) 2023-05-23

Family

ID=86361781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310199225.3A Pending CN116151581A (zh) 2023-02-28 2023-02-28 一种柔性车间调度方法、***及电子设备

Country Status (1)

Country Link
CN (1) CN116151581A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634749A (zh) * 2024-01-25 2024-03-01 深圳市大数据研究院 柔性加工***的工件加工方法及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634749A (zh) * 2024-01-25 2024-03-01 深圳市大数据研究院 柔性加工***的工件加工方法及相关设备
CN117634749B (zh) * 2024-01-25 2024-05-17 深圳市大数据研究院 柔性加工***的工件加工方法及相关设备

Similar Documents

Publication Publication Date Title
CN112734172B (zh) 一种基于时序差分的混合流水车间调度方法
CN109388484B (zh) 一种基于Deep Q-network算法的多资源云作业调度方法
CN107767022B (zh) 一种生产数据驱动的动态作业车间调度规则智能选择方法
CN113792924A (zh) 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
CN111104522A (zh) 一种基于知识图谱的区域产业关联效应趋势预测方法
CN116542445A (zh) 基于深度强化学习的装备制造车间智能调度方法和***
CN112418482A (zh) 一种基于时间序列聚类的云计算能耗预测方法
CN112836974B (zh) 一种基于dqn和mcts的箱区间多场桥动态调度方法
CN112947300A (zh) 一种加工质量虚拟量测方法、***、介质及设备
CN114565247A (zh) 一种基于深度强化学习的车间调度方法、装置和***
CN117474295B (zh) 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法
CN116151581A (zh) 一种柔性车间调度方法、***及电子设备
CN115168027A (zh) 一种基于深度强化学习的算力资源度量方法
CN115454005A (zh) 一种面向有限运输资源场景的制造车间动态智能调度方法及装置
CN114580678A (zh) 一种产品维修资源调度方法和***
CN114970351A (zh) 基于注意力机制和深度强化学习的电网潮流调整方法
CN113886080A (zh) 高性能集群任务调度方法、装置、电子设备及存储介质
CN115293623A (zh) 一种生产调度模型的训练方法、装置、电子设备及介质
CN104698838B (zh) 基于论域动态划分和学习的模糊调度规则挖掘方法
CN117666495A (zh) 一种拣货路径规划方法、***及电子设备
May et al. Multi-variate time-series for time constraint adherence prediction in complex job shops
CN117361013A (zh) 一种基于深度强化学习的多机货架仓储调度方法
CN116562584A (zh) 一种基于Conv-Dueling与泛化表征的动态车间调度方法
CN114384931B (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
Elsayed et al. Deep reinforcement learning based actor-critic framework for decision-making actions in production scheduling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination