CN111507523B - 一种基于强化学习的线缆生产调度优化方法 - Google Patents

一种基于强化学习的线缆生产调度优化方法 Download PDF

Info

Publication number
CN111507523B
CN111507523B CN202010299221.9A CN202010299221A CN111507523B CN 111507523 B CN111507523 B CN 111507523B CN 202010299221 A CN202010299221 A CN 202010299221A CN 111507523 B CN111507523 B CN 111507523B
Authority
CN
China
Prior art keywords
cable
time
production
order
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010299221.9A
Other languages
English (en)
Other versions
CN111507523A (zh
Inventor
林剑
宋洪波
王周敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Finance and Economics
Original Assignee
Zhejiang University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Finance and Economics filed Critical Zhejiang University of Finance and Economics
Priority to CN202010299221.9A priority Critical patent/CN111507523B/zh
Publication of CN111507523A publication Critical patent/CN111507523A/zh
Application granted granted Critical
Publication of CN111507523B publication Critical patent/CN111507523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Manufacturing & Machinery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习的线缆生产调度优化方法,首先建立多流水线和复杂资源约束条件下的线缆生产调度优化模型,优化模型以截止期延期惩罚费用最小化为目标,在此基础上,结合超启发式算法框架,将强化学习机制作为超启发式算法的HLH策略,并针对线缆生产调度问题特点,设计简易启发式规则,用以构建LLH方法集合,从而实现对于线缆生产调度问题的优化求解;优化方法复杂度低,可有效提升传统电缆行业生产与管理效率;对于传统产业全面推进提质增效、转型升级具有重要意义。

Description

一种基于强化学习的线缆生产调度优化方法
技术领域
本发明涉及一种优化方法,特别涉及一种基于强化学习的线缆生产调度优化方法。
背景技术
随着工业规模的不断提升和社会经济的不断发展,线缆产品已越来越广泛地被应用于建筑、交通、汽车、通信、能源等重要工业领域。据统计,早在2012年,我国电线电缆行业总产值就已超过万亿规模,成为世界上第一大电线电缆生产国。与此同时,电线电缆行业市场竞争形势也日趋激烈,企业需要通过降低库存、提高设备利用率、合理配置人力资源等方式来降低企业生产成本,提升企业生产、管理和服务效率。调度优化是实现企业生产、管理和服务效率提升的关键环节,对企业来讲,合理的生产调度方案不仅可以缩短产品制造周期,而且可以有效提高人员工作效率、设备利用率、减少能源和物质损耗,从而达到节能减排、降低成本和提高经济效益的目的。特别是伴随着敏捷制造思想的形成以及企业敏捷化工程的不断开展,重视准时生产,实现资源的灵活和高效配置以满足企业生产和客户服务需求,已成为生产调度的核心思想。
由于线缆产品种类型号繁多、生产工艺复杂,因此针对电缆生产调度问题的建模和求解均具有很大挑战性。目前线缆生产企业主要还停留在依赖人工经验进行生产调度的阶段,有关线缆生产调度的文献少之又少。申请号为201810526733.7发明专利名称为《一种多类电缆加工的优化调度方法》,公开了一种多类电缆加工的优化调度方法,用于实现电缆生产加工排程。但是该发明只考虑了所有订单工艺流程均相同的情况,与线缆企业的生产实际存在明显差异。
此外,超启发式算法作为一种跨领域的问题求解模式,通过一种高层次启发式(High Level Heuristic,HLH)策略管理和操纵一系列低层次启发式(Low LevelHeuristics,LLH)方法,动态地生成最优启发式方法用以求解不同问题,这为解决复杂多样性问题提供了新的途径。但是,超启发式算法存在计算复杂度较高的问题,其中主要一方面原因在于HLH策略本身就需耗费大量时间以寻找最优启发式方法,降低HLH策略的算法复杂度对于提升算法整体性能同样具有重要影响。
发明内容
本发明所要解决的技术问题是提供一种简单实用,优化方法复杂度低,可有效提升传统电缆行业生产与管理效率的基于强化学习的线缆生产调度优化方法。
本发明首先建立多流水线和复杂资源约束条件下的线缆生产调度优化模型,优化模型以截止期延期惩罚费用最小化为目标,在此基础上,结合超启发式算法框架,将强化学习机制作为超启发式算法的HLH策略,并针对线缆生产调度问题特点,设计简易启发式规则,用以构建LLH方法集合,从而实现对于线缆生产调度问题的优化求解。
本发明是通过以下技术方案来实现的:
1、一种基于强化学习的线缆生产调度优化方法,该方法包括如下步骤:
步骤1、建立线缆生产调度问题的约束优化数学模型;
线缆生产原材料铜棒或铝棒通过拉丝退火、束丝/绞线、挤塑、成缆、挤护套、铠装等工艺环节实现电线电缆生产,其中退火环节主要针对铜棒材质,以增加拉丝后导线的柔韧性。不同工序的设备均需要相应配套模具以实现某种特定型号的线缆生产,在某一工序的某一台机器上,生产不同型号产品需要切换相应模具,且切换模具需花费一定时间,在拉丝退火、束丝/绞线、挤塑、成缆、挤护套等工艺环节结束后都会生成线缆产品。设定线缆生产线中共有m台机器,有N个待生产订单{J1,J2,…,JN},每个订单Ji(i=1,2,…,N)根据线缆产品型号的生产工艺要求对应n个工序集合Oi={Oi1,Oi2,…,Oin};一个订单只包含一种线缆产品规格,设定用于工艺环节g(g=1,2,…,6)生产的机器集合为Mg,Ggh表示工艺环节g上第h个生产规格,Gig为订单Ji在工艺环节g上对应的生产规格,G′gh为生产线缆规格Ggh时相应的可用模具套数;在机器Mk(k=1,2,…,m)上生产,若需要从订单Ji切换到另一订单Ji′,且Ji和Ji′两个订单对应的线缆规格不同,则所需更换模具的时间为Sii′k;设定工序Oij(i=1,2,…,N;j=1,2,…,n)的开始时间和完工时间分别为Bij和Cij;设定机器k上生产订单Ji的开始时间和完工时间分别为Bik和Cik;以截止期延期惩罚费用最小化为优化目标,合理安排不同作业相应工序的加工设备和时序;线缆生产调度问题目标函数为:
Figure BDA0002453344550000031
其中,Di为订单Ji对应的交货截止期,Ci为订单Ji的完工时间,wi为截止期各订单紧急权重因子;
约束条件如下:
Figure BDA0002453344550000032
Figure BDA0002453344550000033
Figure BDA0002453344550000034
Figure BDA0002453344550000041
Figure BDA0002453344550000042
其中,约束(2)给定了同一个订单Ji中后一个工序的开始时间必须要在前一个工序结束后才能开始加工;约束(3)给定了机器k上紧后工序必须要在前一工序结束后才能开始加工,其中考虑了更换模具的时间;约束(5)给定了线缆生产中某一工序上的模具数量限制;本步骤所建立的线缆生产调度模型同时考虑了多型号线缆生产、不同型号模具切换、模具资源约束等情况,更加符合企业线缆生产实际情况。
步骤2、初始化优化算法和强化学习参数;
2.1、初始化算法参数:当前迭代次数t,最大迭代次数maxT,周期迭代次数T;
2.2、初始化强化学习动作集:构建全局搜索算子集Λ={a1,a2,…,aλ}和领域搜索算子集Γ={a′1,a′2,…,a′γ},并将A=Λ∪Γ作为动作集,其中Λ中算子基于交叉操作,Γ中算子则基于交换操作;
2.3、生成初始解:随机生成一个由N个订单对应工序所组成的初始解,即Xt=Ruffled{O1,O2,…,ON},Ruffled(·)为随机打乱顺序操作;
步骤3、随机选取初始状态st以及st对应的某一个动作χtt∈A);
步骤4、将χt作为搜索算子应用到Xt,并连续运行T次,每次运行时,采用最小完工时间优先作为标准,生成调度方案,具体步骤如下:
4.1、遍历所有机器,判断工序Oij是否可以在机器上加工,若可以,则在满足公式(2)-(6)给定的约束条件基础上,计算每一台机器上工序Oij的完工时间;
4.2、选取完工时间最小的机器作为Oij的加工指派机器;
4.3、生成订单在机器上的生产调度方案,并采用公式(1)计算得到目标函数值F(·);
若得到的新解更优,则替换原有解,T次运行结束后按照公式(7)计算得到λ值;
Figure BDA0002453344550000051
步骤5、根据λ值选择相应状态st,即λ∈{s|s=θ123},其中θ1=[0.9,1],θ2=[0.5,0.9),θ3=[0,0.5)为状态空间的区间阈值;
步骤6、生成随机数r(r∈[0,1]),基于公式(8)所计算的强化概率ε得到下一步执行动作χt;当r<ε时,选择状态st对应Q值最高的动作;否则,随机选择状态st对应某一动作进行操作;
Figure BDA0002453344550000052
公式(8)中,maxT为设定的最大迭代次数;
步骤7、针对当前动作χt执行结果对其效用进行评价以引导超启发式算法的搜索方向,定义执行动作χt的效用值函数rt为:
Figure BDA0002453344550000053
根据公式(10)所示学习函数更新χt所属动作集中所有动作χ′t的Q值,并依据状态表达机制确定下一状态;
Figure BDA0002453344550000054
公式(10)中Qt(stt)表示第t次迭代时状态st对应动作χt的Q值,α为学习率,γ为折扣因子,其中γ=0.8,α采用公式(11)所示方式进行自适应调整;
Figure BDA0002453344550000055
步骤8、判断t≤maxT是否成立,若成立转到步骤4继续执行,否则输出最优调度方案及其对应的甘特图。
本发明的有益效果是:可根据线缆企业生产的实际情况,以截止期延期惩罚费用最小化为优化目标,建立了多流水线和复杂资源约束条件下的线缆生产调度模型。在此基础上提出了基于强化学习的超启发式调度优化方法,在超启发式算法框架下,设计了包含具备全局和局部搜索能力的LLH方法集合;在强化学习机制下,将LLH方法集合作为动作集合,动态地选择相应LLH方法进行单解迭代寻优。该方法采用单列编码和单解迭代方案,简单实用,算法复杂度低,可有效提升传统电缆行业生产与管理效率,对于传统产业全面推进提质增效、转型升级具有重要意义。
附图说明
为了易于说明,本发明由下述的具体实施例及附图作以详细描述。
图1是线缆生产流程示意图。
图2是基于强化学习的超启发式调度优化算法流程图。
图3是调度解甘特图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定;
线缆企业生产流程示意图如图1所示,线缆生产原材料铜棒或铝棒通过拉丝退火、束丝/绞线、挤塑、成缆、挤护套、铠装等工艺环节实现电线电缆生产,其中退火环节主要针对铜棒材质,以增加拉丝后导线的柔韧性。不同工序的设备均需要相应配套模具以实现某种特定型号的线缆生产,在某一工序的某一台机器上,生产不同型号产品需要切换相应模具,且切换模具需花费一定时间,在拉丝退火、束丝/绞线、挤塑、成缆、挤护套等工艺环节结束后都会生成线缆产品。在线缆行业,客户订单通常约定产品交货截止期,延期交付会导致违约成本增加。基于上述考虑,实施例以截止期延期惩罚费用最小化为例进行说明。
步骤1、设定线缆生产线中共有m台机器可用于上述工艺环节生产,有N个待生产订单{J1,J2,…,JN},每个订单Ji(i=1,2,…,N)根据其产品型号的生产工艺要求对应n个工序集合Oi={Oi1,Oi2,…,Oin}。一个订单只包含一种线缆产品规格,设定用于工艺环节g(g=1,2,…,6)生产的机器集合为Mg,Ggh表示工艺环节g上第h个生产规格,
Figure BDA0002453344550000075
为订单Ji在工艺环节g上对应的生产规格,G′gh为生产线缆规格Ggh时相应的可用模具套数;在机器Mk(k=1,2,…,m)上生产,若需要从订单Ji切换到另一订单Ji′,且Ji和Ji′两个订单对应的线缆规格不同,则所需更换模具的时间为Sii′k。此外,设定工序Oij(i=1,2,…,N;j=1,2,…,n)的开始时间和完工时间分别为Bij和Cij;设定机器k上生产订单Ji的开始时间和完工时间分别为B′ik和C″ik;以截止期延期惩罚费用最小化为优化目标,合理安排不同作业相应工序的加工设备和时序。
其目标函数为:
Figure BDA0002453344550000071
其中,Di为订单Ji对应的交货截止期,Ci为订单Ji的完工时间,wi为截止期各订单紧急权重因子。
约束条件如下:
Figure BDA0002453344550000072
Figure BDA0002453344550000073
Figure BDA0002453344550000074
Figure BDA0002453344550000081
Figure BDA0002453344550000082
其中,约束(2)给定了同一个订单Ji中后一个工序的开始时间必须要在前一个工序结束后才能开始加工;约束(3)给定了机器k上紧后工序必须要在前一工序结束后才能开始加工,其中考虑了更换模具的时间;约束(5)给定了线缆生产中某一工序上的模具数量限制。
基于强化学习的超启发式调度优化算法求解线缆生产调度问题的具体应用实例如下:
给定某线缆生产调度问题实例如表2所示,该实例包含7个订单、34个工序和10台机器,每个订单有对应交货截止期,每个工序有对应生产规格、模具数量限制、生产时间、可用机器设备,不同规格之间切换模具时间如表3所示。
表1线缆生产调度问题实例
Figure BDA0002453344550000083
Figure BDA0002453344550000091
表2不同规格之间模具更换时间表
<![CDATA[G<sub>11</sub>]]> <![CDATA[G<sub>12</sub>]]> <![CDATA[G<sub>21</sub>]]> <![CDATA[G<sub>22</sub>]]> <![CDATA[G<sub>31</sub>]]> <![CDATA[G<sub>32</sub>]]> <![CDATA[G<sub>41</sub>]]> <![CDATA[G<sub>42</sub>]]> <![CDATA[G<sub>51</sub>]]> <![CDATA[G<sub>52</sub>]]> <![CDATA[G<sub>61</sub>]]> <![CDATA[G<sub>62</sub>]]>
<![CDATA[G<sub>11</sub>]]> 0 3 - - - - - - - - - -
<![CDATA[G<sub>12</sub>]]> 1 0 - - - - - - - - - -
<![CDATA[G<sub>21</sub>]]> - - 0 4 - - - - - - - -
<![CDATA[G<sub>22</sub>]]> - - 2 0 - - - - - - - -
<![CDATA[G<sub>31</sub>]]> - - - - 0 1 - - - - - -
<![CDATA[G<sub>32</sub>]]> - - - - 2 0 - - - - - -
<![CDATA[G<sub>41</sub>]]> - - - - - - 0 3 - - - -
<![CDATA[G<sub>42</sub>]]> - - - - - - 3 0 - - - -
<![CDATA[G<sub>51</sub>]]> - - - - - - - - 0 1 - -
<![CDATA[G<sub>52</sub>]]> - - - - - - - - 3 0 - -
<![CDATA[G<sub>61</sub>]]> - - - - - - - - - - 0 3
<![CDATA[G<sub>62</sub>]]> - - - - - - - - - - 6 0
因此,N=7,m=10。基于强化学习的超启发式调度优化算法求解线缆生产调度问题的具体步骤如下:
步骤2、初始化优化算法和强化学习参数。
2.1、初始化算法参数:当前迭代次数t=1,最大迭代次数maxT=300,周期迭代次数T=3,Q值表中所有数据初始化为0;
2.2、初始化强化学习动作集:构建全局搜索算子集Λ={a1,a2,…,aλ}和领域搜索算子集Γ={a′1,a′2,…,a′γ},并将A=Λ∪Γ作为动作集,其中Λ中算子主要基于交叉操作,Γ中算子则主要基于交换操作;
2.3、生成初始解:随机生成一个由7个订单对应工序所组成的初始解,即Xt=Ruffled{O1,O2,…,O7},Ruffled(·)为随机打乱顺序操作。
步骤3、随机选取初始状态st以及st对应的某一个动作χtt∈A);
步骤4、将χt作为搜索算子应用到Xt,并连续运行T次,每次运行时,若得到的新解更优,则替换原有解,T次运行结束后按照公式(7)计算得到λ值;
Figure BDA0002453344550000101
步骤5、根据λ值选择相应状态st,即λ∈{s|s=θ123},其中θ1=[0.9,1],θ2=[0.5,0.9),θ3=[0,0.5)为状态空间的区间阈值。
步骤6、生成随机数r(r∈[0,1]),基于公式(8)所计算的强化概率ε得到下一步执行动作χt。当r<ε时,选择状态st对应Q值最高的动作;否则,随机选择状态st对应某一动作进行操作。
Figure BDA0002453344550000102
公式(8)中,maxT为设定的最大迭代次数。
步骤7、针对当前动作χt执行结果对其效用进行评价以引导超启发式算法的搜索方向,本发明定义执行动作χt的效用值函数rt为:
Figure BDA0002453344550000103
在此基础上根据公式(10)所示学习函数更新χt所属动作集中所有动作χ′t的Q值,并依据状态表达机制确定下一状态。
Figure BDA0002453344550000104
公式(10)中Qt(stt)表示第t次迭代时状态st对应动作χt的Q值,α为学习率,γ为折扣因子,其中γ=0.8,α采用公式(11)所示方式进行自适应调整。
Figure BDA0002453344550000111
步骤8、判断t≤maxT是否成立,如成立转到步骤4继续执行,否则输出最优调度解Xbest。本实施例得到的目标函数值为39,对应的甘特图,结果如图3所示,其中A所示区间为模具更换时间。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内;因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (5)

1.一种基于强化学习的线缆生产调度优化方法,其特征在于,该方法包括如下步骤:
步骤1、建立线缆生产调度问题的约束优化数学模型;
设定线缆生产线中共有m台机器,有N个待生产订单{J1,J2,…,JN},每个订单Ji(i=1,2,…,N)根据线缆产品型号的生产工艺要求对应n个工序集合Oi={Oi1,Oi2,…,Oin};一个订单只包含一种线缆产品规格,设定用于工艺环节g(g=1,2,…,6)生产的机器集合为Mg,Ggh表示工艺环节g上第h个生产规格,
Figure FDA0002453344540000011
为订单Ji在工艺环节g上对应的生产规格,G′gh为生产线缆规格Ggh时相应的可用模具套数;在机器Mk(k=1,2,…,m)上生产,若需要从订单Ji切换到另一订单Ji′,且Ji和Ji′两个订单对应的线缆规格不同,则所需更换模具的时间为Sii′k;设定工序Oij(i=1,2,…,N;j=1,2,…,n)的开始时间和完工时间分别为Bij和Cij;设定机器k上生产订单Ji的开始时间和完工时间分别为B′ik和C′i′k;以截止期延期惩罚费用最小化为优化目标,合理安排不同作业相应工序的加工设备和时序;线缆生产调度问题目标函数为:
Figure FDA0002453344540000012
其中,Di为订单Ji对应的交货截止期,Ci为订单Ji的完工时间,wi为截止期各订单紧急权重因子;
约束条件如下:
Figure FDA0002453344540000013
Figure FDA0002453344540000014
Figure FDA0002453344540000015
Figure FDA0002453344540000016
Figure FDA0002453344540000017
其中,约束(2)给定了同一个订单Ji中后一个工序的开始时间必须要在前一个工序结束后才能开始加工;约束(3)给定了机器k上紧后工序必须要在前一工序结束后才能开始加工;
步骤2、初始化优化算法和强化学习参数;
2.1、初始化算法参数:当前迭代次数t,最大迭代次数maxT,周期迭代次数T;
2.2、生成初始解:随机生成一个由N个订单对应工序所组成的初始解,即Xt=Ruffled{O1,O2,…,ON},Ruffled(·)为随机打乱顺序操作;
步骤3、随机选取初始状态st以及st对应的某一个动作χtt∈A);
步骤4、将χt作为搜索算子应用到Xt,并连续运行T次,每次运行时,采用最小完工时间优先作为标准,生成调度方案,
若得到的新解更优,则替换原有解,T次运行结束后按照公式(7)计算得到λ值;
Figure FDA0002453344540000021
步骤5、根据λ值选择相应状态st,即λ∈{s|s=θ123},其中θ1=[0.9,1],θ2=[0.5,0.9),θ3=[0,0.5)为状态空间的区间阈值;
步骤6、生成随机数r(r∈[0,1]),基于公式(8)所计算的强化概率ε得到下一步执行动作χt;当r<ε时,选择状态st对应Q值最高的动作;否则,随机选择状态st对应某一动作进行操作;
Figure FDA0002453344540000022
公式(8)中,maxT为设定的最大迭代次数;
步骤7、针对当前动作χt执行结果对其效用进行评价以引导超启发式算法的搜索方向,定义执行动作χt的效用值函数rt为:
Figure FDA0002453344540000023
根据公式(10)所示学习函数更新χt所属动作集中所有动作χ′t的Q值,并依据状态表达机制确定下一状态;
Figure FDA0002453344540000024
公式(10)中Qt(stt)表示第t次迭代时状态st对应动作χt的Q值,α为学习率,γ为折扣因子,其中γ=0.8,α采用公式(11)所示方式进行自适应调整;
Figure FDA0002453344540000025
步骤8、判断t≤maxT是否成立,若成立转到步骤4继续执行,否则输出最优调度方案及其对应的甘特图。
2.根据权利要求1所述的线缆生产调度优化方法,其特征在于:在步骤2.1之后以及步骤2.2之前增加一个步骤,该步骤为初始化强化学习动作集:构建全局搜索算子集Λ={a1,a2,…,aλ}和领域搜索算子集Γ={a′1,a′2,…,a′γ},并将A=Λ∪Γ作为动作集,其中Λ中算子基于交叉操作,Γ中算子则基于交换操作。
3.根据权利要求1所述的线缆生产调度优化方法,其特征在于:步骤4中所述生成调度方案的具体步骤如下:
4.1、遍历所有机器,判断工序Oij是否可以在机器上加工,若可以,则在满足公式(2)-(6)给定的约束条件基础上,计算每一台机器上工序Oij的完工时间;
4.2、选取完工时间最小的机器作为Oij的加工指派机器;
4.3、生成订单在机器上的生产调度方案,并采用公式(1)计算得到目标函数值F(·)。
4.根据权利要求3所述的线缆生产调度优化方法,其特征在于:步骤4.2中,若存在不同机器的最小完工时间相同,则在其中随机选取加工指派机器。
5.根据权利要求1所述的线缆生产调度优化方法,其特征在于:步骤1中约束(3)考虑了更换模具的时间;约束(5)给定了线缆生产中某一工序上的模具数量限制。
CN202010299221.9A 2020-04-16 2020-04-16 一种基于强化学习的线缆生产调度优化方法 Active CN111507523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010299221.9A CN111507523B (zh) 2020-04-16 2020-04-16 一种基于强化学习的线缆生产调度优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010299221.9A CN111507523B (zh) 2020-04-16 2020-04-16 一种基于强化学习的线缆生产调度优化方法

Publications (2)

Publication Number Publication Date
CN111507523A CN111507523A (zh) 2020-08-07
CN111507523B true CN111507523B (zh) 2023-04-18

Family

ID=71864129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010299221.9A Active CN111507523B (zh) 2020-04-16 2020-04-16 一种基于强化学习的线缆生产调度优化方法

Country Status (1)

Country Link
CN (1) CN111507523B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150088A (zh) * 2020-11-26 2020-12-29 深圳市万邑通信息科技有限公司 一种吞吐柔性智能装配物流路径规划方法及***
CN112418549A (zh) * 2020-12-03 2021-02-26 华能秦煤瑞金发电有限责任公司 一种电缆的出入库管理方法
CN112598255A (zh) * 2020-12-17 2021-04-02 上海交通大学 基于超启发式算法的自动化码头出口箱箱位分配优化方法
CN113378343B (zh) * 2021-07-09 2022-06-10 浙江盘盘科技有限公司 一种基于离散Jaya算法的电缆生产调度方法
CN117391423B (zh) * 2023-12-11 2024-03-22 东北大学 一种芯片高多层陶瓷封装基板产线多约束自动化排程方法
CN117575581B (zh) * 2024-01-16 2024-04-26 江苏中凯金属科技有限公司 一种用于废旧铝材回收的铝棒生产方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390195A (zh) * 2013-05-28 2013-11-13 重庆大学 一种基于强化学习的机械车间任务调度节能优化***
CN105809344A (zh) * 2016-03-07 2016-07-27 浙江财经大学 一种基于超启发式算法的零空闲流水车间作业调度方法
CN107168267A (zh) * 2017-06-29 2017-09-15 山东万腾电子科技有限公司 基于改进粒子群与启发式策略的生产排产方法及***
CN108694502A (zh) * 2018-05-10 2018-10-23 清华大学 一种基于XGBoost算法的机器人制造单元自适应调度方法
CN109270904A (zh) * 2018-10-22 2019-01-25 中车青岛四方机车车辆股份有限公司 一种柔性作业车间批量动态调度优化方法
CN110517002A (zh) * 2019-08-29 2019-11-29 烟台大学 基于强化学习的生产控制方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121766A1 (en) * 2016-09-18 2018-05-03 Newvoicemedia, Ltd. Enhanced human/machine workforce management using reinforcement learning
EP3299794A1 (en) * 2016-09-21 2018-03-28 F. Hoffmann-La Roche AG Automated scheduler for laboratory equipment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390195A (zh) * 2013-05-28 2013-11-13 重庆大学 一种基于强化学习的机械车间任务调度节能优化***
CN105809344A (zh) * 2016-03-07 2016-07-27 浙江财经大学 一种基于超启发式算法的零空闲流水车间作业调度方法
CN107168267A (zh) * 2017-06-29 2017-09-15 山东万腾电子科技有限公司 基于改进粒子群与启发式策略的生产排产方法及***
CN108694502A (zh) * 2018-05-10 2018-10-23 清华大学 一种基于XGBoost算法的机器人制造单元自适应调度方法
CN109270904A (zh) * 2018-10-22 2019-01-25 中车青岛四方机车车辆股份有限公司 一种柔性作业车间批量动态调度优化方法
CN110517002A (zh) * 2019-08-29 2019-11-29 烟台大学 基于强化学习的生产控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
伊雅丽 ; .研发型企业多项目人力资源调度研究――基于蚁群优化的超启发式算法.工业工程.2018,(第04期),全文. *

Also Published As

Publication number Publication date
CN111507523A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111507523B (zh) 一种基于强化学习的线缆生产调度优化方法
CN107301504B (zh) 基于混合蛙跳—路径重连的生产运输协同调度方法和***
Xu et al. Solving dual flexible job-shop scheduling problem using a Bat Algorithm.
CN101901425A (zh) 一种基于多种群协同进化的柔性作业车间调度方法
CN115310794A (zh) 人机协同装配线平衡方法及装置
Zhang et al. A novel heuristic method for the energy-efficient flexible job-shop scheduling problem with sequence-dependent set-up and transportation time
CN105094970B (zh) 一种求解分布式***下可分任务多趟调度模型的方法
CN113378343B (zh) 一种基于离散Jaya算法的电缆生产调度方法
Cui et al. Discrete whale optimization algorithm for disassembly line balancing with carbon emission constraint
Liu et al. A graph neural networks-based deep Q-learning approach for job shop scheduling problems in traffic management
CN110531716A (zh) 基于离散鲸鱼算法求解低碳车间调度问题的方法
CN115952896A (zh) 一种基于物料过程齐套的柔性作业车间调度方法
CN116985146B (zh) 退役电子产品的机器人并行拆解规划方法
Liu et al. Multi-objective flexible job shop scheduling problem considering machine switching off-on operation
Ming et al. An improved genetic algorithm using opposition-based learning for flexible job-shop scheduling problem
CN107437138A (zh) 基于改进引力搜索算法的生产运输协同调度方法及***
Guo et al. Integrated scheduling for remanufacturing system considering component commonality using improved multi-objective genetic algorithm
Lee et al. Scheduling with multi-attribute setup times on two identical parallel machines
CN114675647A (zh) 一种agv小车调度及路径规划办法
CN109746918B (zh) 一种联合优化的云机器人***延时的优化方法
CN103246923A (zh) 基于自适应遗传算法的弹性车间调度技术
CN113723695A (zh) 一种基于场景的再制造调度优化方法
CN106611278A (zh) 一种新的模拟退火算法解决作业车间调度问题
CN116976228B (zh) 退役机电产品双边拆解线任务规划方法
CN111242803A (zh) 基于多种群遗传算法的风机排布方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant