CN111507523B

CN111507523B - 一种基于强化学习的线缆生产调度优化方法

Info

Publication number: CN111507523B
Application number: CN202010299221.9A
Authority: CN
Inventors: 林剑; 宋洪波; 王周敬
Original assignee: Zhejiang University of Finance and Economics
Current assignee: Zhejiang University of Finance and Economics
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2023-04-18
Anticipated expiration: 2040-04-16
Also published as: CN111507523A

Abstract

本发明公开了一种基于强化学习的线缆生产调度优化方法，首先建立多流水线和复杂资源约束条件下的线缆生产调度优化模型，优化模型以截止期延期惩罚费用最小化为目标，在此基础上，结合超启发式算法框架，将强化学习机制作为超启发式算法的HLH策略，并针对线缆生产调度问题特点，设计简易启发式规则，用以构建LLH方法集合，从而实现对于线缆生产调度问题的优化求解；优化方法复杂度低，可有效提升传统电缆行业生产与管理效率；对于传统产业全面推进提质增效、转型升级具有重要意义。

Description

一种基于强化学习的线缆生产调度优化方法

技术领域

本发明涉及一种优化方法，特别涉及一种基于强化学习的线缆生产调度优化方法。

背景技术

随着工业规模的不断提升和社会经济的不断发展，线缆产品已越来越广泛地被应用于建筑、交通、汽车、通信、能源等重要工业领域。据统计，早在2012年，我国电线电缆行业总产值就已超过万亿规模，成为世界上第一大电线电缆生产国。与此同时，电线电缆行业市场竞争形势也日趋激烈，企业需要通过降低库存、提高设备利用率、合理配置人力资源等方式来降低企业生产成本，提升企业生产、管理和服务效率。调度优化是实现企业生产、管理和服务效率提升的关键环节，对企业来讲，合理的生产调度方案不仅可以缩短产品制造周期，而且可以有效提高人员工作效率、设备利用率、减少能源和物质损耗，从而达到节能减排、降低成本和提高经济效益的目的。特别是伴随着敏捷制造思想的形成以及企业敏捷化工程的不断开展，重视准时生产，实现资源的灵活和高效配置以满足企业生产和客户服务需求，已成为生产调度的核心思想。

由于线缆产品种类型号繁多、生产工艺复杂，因此针对电缆生产调度问题的建模和求解均具有很大挑战性。目前线缆生产企业主要还停留在依赖人工经验进行生产调度的阶段，有关线缆生产调度的文献少之又少。申请号为201810526733.7发明专利名称为《一种多类电缆加工的优化调度方法》，公开了一种多类电缆加工的优化调度方法，用于实现电缆生产加工排程。但是该发明只考虑了所有订单工艺流程均相同的情况，与线缆企业的生产实际存在明显差异。

此外，超启发式算法作为一种跨领域的问题求解模式，通过一种高层次启发式(High Level Heuristic，HLH)策略管理和操纵一系列低层次启发式(Low LevelHeuristics，LLH)方法，动态地生成最优启发式方法用以求解不同问题，这为解决复杂多样性问题提供了新的途径。但是，超启发式算法存在计算复杂度较高的问题，其中主要一方面原因在于HLH策略本身就需耗费大量时间以寻找最优启发式方法，降低HLH策略的算法复杂度对于提升算法整体性能同样具有重要影响。

发明内容

本发明所要解决的技术问题是提供一种简单实用，优化方法复杂度低，可有效提升传统电缆行业生产与管理效率的基于强化学习的线缆生产调度优化方法。

本发明首先建立多流水线和复杂资源约束条件下的线缆生产调度优化模型，优化模型以截止期延期惩罚费用最小化为目标，在此基础上，结合超启发式算法框架，将强化学习机制作为超启发式算法的HLH策略，并针对线缆生产调度问题特点，设计简易启发式规则，用以构建LLH方法集合，从而实现对于线缆生产调度问题的优化求解。

本发明是通过以下技术方案来实现的：

1、一种基于强化学习的线缆生产调度优化方法，该方法包括如下步骤：

步骤1、建立线缆生产调度问题的约束优化数学模型；

线缆生产原材料铜棒或铝棒通过拉丝退火、束丝/绞线、挤塑、成缆、挤护套、铠装等工艺环节实现电线电缆生产，其中退火环节主要针对铜棒材质，以增加拉丝后导线的柔韧性。不同工序的设备均需要相应配套模具以实现某种特定型号的线缆生产，在某一工序的某一台机器上，生产不同型号产品需要切换相应模具，且切换模具需花费一定时间，在拉丝退火、束丝/绞线、挤塑、成缆、挤护套等工艺环节结束后都会生成线缆产品。设定线缆生产线中共有m台机器，有N个待生产订单{J₁,J₂,…,J_N}，每个订单J_i(i＝1,2，…,N)根据线缆产品型号的生产工艺要求对应n个工序集合O_i＝{O_i1,O_i2,…,O_in}；一个订单只包含一种线缆产品规格，设定用于工艺环节g(g＝1,2,…,6)生产的机器集合为M_g，G_gh表示工艺环节g上第h个生产规格，Gi_g为订单J_i在工艺环节g上对应的生产规格，G′_gh为生产线缆规格G_gh时相应的可用模具套数；在机器M_k(k＝1,2,…,m)上生产，若需要从订单J_i切换到另一订单J_i′，且J_i和J_i′两个订单对应的线缆规格不同，则所需更换模具的时间为S_ii′k；设定工序O_ij(i＝1,2,…,N；j＝1,2,…,n)的开始时间和完工时间分别为B_ij和C_ij；设定机器k上生产订单J_i的开始时间和完工时间分别为B_i′_k和C_i″_k；以截止期延期惩罚费用最小化为优化目标，合理安排不同作业相应工序的加工设备和时序；线缆生产调度问题目标函数为：

其中，D_i为订单J_i对应的交货截止期，C_i为订单J_i的完工时间，w_i为截止期各订单紧急权重因子；

约束条件如下：

其中，约束(2)给定了同一个订单J_i中后一个工序的开始时间必须要在前一个工序结束后才能开始加工；约束(3)给定了机器k上紧后工序必须要在前一工序结束后才能开始加工，其中考虑了更换模具的时间；约束(5)给定了线缆生产中某一工序上的模具数量限制；本步骤所建立的线缆生产调度模型同时考虑了多型号线缆生产、不同型号模具切换、模具资源约束等情况，更加符合企业线缆生产实际情况。

步骤2、初始化优化算法和强化学习参数；

2.1、初始化算法参数：当前迭代次数t，最大迭代次数maxT，周期迭代次数T；

2.2、初始化强化学习动作集：构建全局搜索算子集Λ＝{a₁,a₂,…,a_λ}和领域搜索算子集Γ＝{a′₁,a′₂,…,a′_γ}，并将A＝Λ∪Γ作为动作集，其中Λ中算子基于交叉操作，Γ中算子则基于交换操作；

2.3、生成初始解：随机生成一个由N个订单对应工序所组成的初始解，即X_t＝Ruffled{O₁,O₂,…,O_N}，Ruffled(·)为随机打乱顺序操作；

步骤3、随机选取初始状态s_t以及s_t对应的某一个动作χ_t(χ_t∈A)；

步骤4、将χ_t作为搜索算子应用到X_t，并连续运行T次，每次运行时，采用最小完工时间优先作为标准，生成调度方案，具体步骤如下：

4.1、遍历所有机器，判断工序O_ij是否可以在机器上加工，若可以，则在满足公式(2)-(6)给定的约束条件基础上，计算每一台机器上工序O_ij的完工时间；

4.2、选取完工时间最小的机器作为O_ij的加工指派机器；

4.3、生成订单在机器上的生产调度方案，并采用公式(1)计算得到目标函数值F(·)；

若得到的新解更优，则替换原有解，T次运行结束后按照公式(7)计算得到λ值；

步骤5、根据λ值选择相应状态s_t，即λ∈{s|s＝θ₁,θ₂,θ₃}，其中θ₁＝[0.9,1]，θ₂＝[0.5,0.9)，θ₃＝[0,0.5)为状态空间的区间阈值；

步骤6、生成随机数r(r∈[0,1])，基于公式(8)所计算的强化概率ε得到下一步执行动作χ_t；当r＜ε时，选择状态s_t对应Q值最高的动作；否则，随机选择状态s_t对应某一动作进行操作；

公式(8)中，maxT为设定的最大迭代次数；

步骤7、针对当前动作χ_t执行结果对其效用进行评价以引导超启发式算法的搜索方向，定义执行动作χ_t的效用值函数r_t为：

根据公式(10)所示学习函数更新χ_t所属动作集中所有动作χ′_t的Q值，并依据状态表达机制确定下一状态；

公式(10)中Q_t(s_t,χ_t)表示第t次迭代时状态s_t对应动作χ_t的Q值，α为学习率，γ为折扣因子，其中γ＝0.8，α采用公式(11)所示方式进行自适应调整；

步骤8、判断t≤maxT是否成立，若成立转到步骤4继续执行，否则输出最优调度方案及其对应的甘特图。

本发明的有益效果是：可根据线缆企业生产的实际情况，以截止期延期惩罚费用最小化为优化目标，建立了多流水线和复杂资源约束条件下的线缆生产调度模型。在此基础上提出了基于强化学习的超启发式调度优化方法，在超启发式算法框架下，设计了包含具备全局和局部搜索能力的LLH方法集合；在强化学习机制下，将LLH方法集合作为动作集合，动态地选择相应LLH方法进行单解迭代寻优。该方法采用单列编码和单解迭代方案，简单实用，算法复杂度低，可有效提升传统电缆行业生产与管理效率，对于传统产业全面推进提质增效、转型升级具有重要意义。

附图说明

为了易于说明，本发明由下述的具体实施例及附图作以详细描述。

图1是线缆生产流程示意图。

图2是基于强化学习的超启发式调度优化算法流程图。

图3是调度解甘特图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定；

线缆企业生产流程示意图如图1所示，线缆生产原材料铜棒或铝棒通过拉丝退火、束丝/绞线、挤塑、成缆、挤护套、铠装等工艺环节实现电线电缆生产，其中退火环节主要针对铜棒材质，以增加拉丝后导线的柔韧性。不同工序的设备均需要相应配套模具以实现某种特定型号的线缆生产，在某一工序的某一台机器上，生产不同型号产品需要切换相应模具，且切换模具需花费一定时间，在拉丝退火、束丝/绞线、挤塑、成缆、挤护套等工艺环节结束后都会生成线缆产品。在线缆行业，客户订单通常约定产品交货截止期，延期交付会导致违约成本增加。基于上述考虑，实施例以截止期延期惩罚费用最小化为例进行说明。

步骤1、设定线缆生产线中共有m台机器可用于上述工艺环节生产，有N个待生产订单{J₁,J₂,…,J_N}，每个订单J_i(i＝1,2，…,N)根据其产品型号的生产工艺要求对应n个工序集合O_i＝{O_i1,O_i2,…,O_in}。一个订单只包含一种线缆产品规格，设定用于工艺环节g(g＝1,2,…,6)生产的机器集合为M_g，G_gh表示工艺环节g上第h个生产规格，

为订单J_i在工艺环节g上对应的生产规格，G′_gh为生产线缆规格G_gh时相应的可用模具套数；在机器M_k(k＝1,2,…,m)上生产，若需要从订单J_i切换到另一订单J_i′，且J_i和J_i′两个订单对应的线缆规格不同，则所需更换模具的时间为S_ii′k。此外，设定工序O_ij(i＝1,2,…,N；j＝1,2,…,n)的开始时间和完工时间分别为B_ij和C_ij；设定机器k上生产订单J_i的开始时间和完工时间分别为B′_ik和C″_ik；以截止期延期惩罚费用最小化为优化目标，合理安排不同作业相应工序的加工设备和时序。

其目标函数为：

其中，D_i为订单J_i对应的交货截止期，C_i为订单J_i的完工时间，w_i为截止期各订单紧急权重因子。

约束条件如下：

其中，约束(2)给定了同一个订单J_i中后一个工序的开始时间必须要在前一个工序结束后才能开始加工；约束(3)给定了机器k上紧后工序必须要在前一工序结束后才能开始加工，其中考虑了更换模具的时间；约束(5)给定了线缆生产中某一工序上的模具数量限制。

基于强化学习的超启发式调度优化算法求解线缆生产调度问题的具体应用实例如下：

给定某线缆生产调度问题实例如表2所示，该实例包含7个订单、34个工序和10台机器，每个订单有对应交货截止期，每个工序有对应生产规格、模具数量限制、生产时间、可用机器设备，不同规格之间切换模具时间如表3所示。

表1线缆生产调度问题实例

表2不同规格之间模具更换时间表

	<![CDATA[G<sub>11</sub>]]>	<![CDATA[G<sub>12</sub>]]>	<![CDATA[G<sub>21</sub>]]>	<![CDATA[G<sub>22</sub>]]>	<![CDATA[G<sub>31</sub>]]>	<![CDATA[G<sub>32</sub>]]>	<![CDATA[G<sub>41</sub>]]>	<![CDATA[G<sub>42</sub>]]>	<![CDATA[G<sub>51</sub>]]>	<![CDATA[G<sub>52</sub>]]>	<![CDATA[G<sub>61</sub>]]>	<![CDATA[G<sub>62</sub>]]>
													<![CDATA[G<sub>11</sub>]]>	0	3	-	-	-	-	-	-	-	-	-	-
<![CDATA[G<sub>12</sub>]]>	1	0	-	-	-	-	-	-	-	-	-	-
													<![CDATA[G<sub>21</sub>]]>	-	-	0	4	-	-	-	-	-	-	-	-
<![CDATA[G<sub>22</sub>]]>	-	-	2	0	-	-	-	-	-	-	-	-
													<![CDATA[G<sub>31</sub>]]>	-	-	-	-	0	1	-	-	-	-	-	-
<![CDATA[G<sub>32</sub>]]>	-	-	-	-	2	0	-	-	-	-	-	-
													<![CDATA[G<sub>41</sub>]]>	-	-	-	-	-	-	0	3	-	-	-	-
<![CDATA[G<sub>42</sub>]]>	-	-	-	-	-	-	3	0	-	-	-	-
													<![CDATA[G<sub>51</sub>]]>	-	-	-	-	-	-	-	-	0	1	-	-
<![CDATA[G<sub>52</sub>]]>	-	-	-	-	-	-	-	-	3	0	-	-
													<![CDATA[G<sub>61</sub>]]>	-	-	-	-	-	-	-	-	-	-	0	3
<![CDATA[G<sub>62</sub>]]>	-	-	-	-	-	-	-	-	-	-	6	0

因此，N＝7，m＝10。基于强化学习的超启发式调度优化算法求解线缆生产调度问题的具体步骤如下：

步骤2、初始化优化算法和强化学习参数。

2.1、初始化算法参数：当前迭代次数t＝1，最大迭代次数maxT＝300，周期迭代次数T＝3，Q值表中所有数据初始化为0；

2.2、初始化强化学习动作集：构建全局搜索算子集Λ＝{a₁,a₂,…,a_λ}和领域搜索算子集Γ＝{a′₁,a′₂,…,a′_γ}，并将A＝Λ∪Γ作为动作集，其中Λ中算子主要基于交叉操作，Γ中算子则主要基于交换操作；

2.3、生成初始解：随机生成一个由7个订单对应工序所组成的初始解，即X_t＝Ruffled{O₁,O₂,…,O₇}，Ruffled(·)为随机打乱顺序操作。

步骤4、将χ_t作为搜索算子应用到X_t，并连续运行T次，每次运行时，若得到的新解更优，则替换原有解，T次运行结束后按照公式(7)计算得到λ值；

步骤5、根据λ值选择相应状态s_t，即λ∈{s|s＝θ₁,θ₂,θ₃}，其中θ₁＝[0.9,1]，θ₂＝[0.5,0.9)，θ₃＝[0,0.5)为状态空间的区间阈值。

步骤6、生成随机数r(r∈[0,1])，基于公式(8)所计算的强化概率ε得到下一步执行动作χ_t。当r＜ε时，选择状态s_t对应Q值最高的动作；否则，随机选择状态s_t对应某一动作进行操作。

公式(8)中，maxT为设定的最大迭代次数。

步骤7、针对当前动作χ_t执行结果对其效用进行评价以引导超启发式算法的搜索方向，本发明定义执行动作χ_t的效用值函数r_t为：

在此基础上根据公式(10)所示学习函数更新χ_t所属动作集中所有动作χ′_t的Q值，并依据状态表达机制确定下一状态。

公式(10)中Q_t(s_t,χ_t)表示第t次迭代时状态s_t对应动作χ_t的Q值，α为学习率，γ为折扣因子，其中γ＝0.8，α采用公式(11)所示方式进行自适应调整。

步骤8、判断t≤maxT是否成立，如成立转到步骤4继续执行，否则输出最优调度解X_best。本实施例得到的目标函数值为39，对应的甘特图，结果如图3所示，其中A所示区间为模具更换时间。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内；因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.一种基于强化学习的线缆生产调度优化方法，其特征在于，该方法包括如下步骤：

步骤1、建立线缆生产调度问题的约束优化数学模型；

设定线缆生产线中共有m台机器，有N个待生产订单{J₁,J₂,…,J_N}，每个订单J_i(i＝1,2，…,N)根据线缆产品型号的生产工艺要求对应n个工序集合O_i＝{O_i1,O_i2,…,O_in}；一个订单只包含一种线缆产品规格，设定用于工艺环节g(g＝1,2,…,6)生产的机器集合为M_g，G_gh表示工艺环节g上第h个生产规格，

为订单J_i在工艺环节g上对应的生产规格，G′_gh为生产线缆规格G_gh时相应的可用模具套数；在机器M_k(k＝1,2,…,m)上生产，若需要从订单J_i切换到另一订单J_i′，且J_i和J_i′两个订单对应的线缆规格不同，则所需更换模具的时间为S_ii′k；设定工序O_ij(i＝1,2,…,N；j＝1,2,…,n)的开始时间和完工时间分别为B_ij和C_ij；设定机器k上生产订单J_i的开始时间和完工时间分别为B′_ik和C′_i′k；以截止期延期惩罚费用最小化为优化目标，合理安排不同作业相应工序的加工设备和时序；线缆生产调度问题目标函数为：

约束条件如下：

其中，约束(2)给定了同一个订单J_i中后一个工序的开始时间必须要在前一个工序结束后才能开始加工；约束(3)给定了机器k上紧后工序必须要在前一工序结束后才能开始加工；

步骤2、初始化优化算法和强化学习参数；

2.2、生成初始解：随机生成一个由N个订单对应工序所组成的初始解，即X_t＝Ruffled{O₁,O₂,…,O_N}，Ruffled(·)为随机打乱顺序操作；

步骤4、将χ_t作为搜索算子应用到X_t，并连续运行T次，每次运行时，采用最小完工时间优先作为标准，生成调度方案，

公式(8)中，maxT为设定的最大迭代次数；

2.根据权利要求1所述的线缆生产调度优化方法，其特征在于：在步骤2.1之后以及步骤2.2之前增加一个步骤，该步骤为初始化强化学习动作集：构建全局搜索算子集Λ＝{a₁,a₂,…,a_λ}和领域搜索算子集Γ＝{a′₁,a′₂,…,a′_γ}，并将A＝Λ∪Γ作为动作集，其中Λ中算子基于交叉操作，Γ中算子则基于交换操作。

3.根据权利要求1所述的线缆生产调度优化方法，其特征在于：步骤4中所述生成调度方案的具体步骤如下：

4.2、选取完工时间最小的机器作为O_ij的加工指派机器；

4.3、生成订单在机器上的生产调度方案，并采用公式(1)计算得到目标函数值F(·)。

4.根据权利要求3所述的线缆生产调度优化方法，其特征在于：步骤4.2中，若存在不同机器的最小完工时间相同，则在其中随机选取加工指派机器。

5.根据权利要求1所述的线缆生产调度优化方法，其特征在于：步骤1中约束(3)考虑了更换模具的时间；约束(5)给定了线缆生产中某一工序上的模具数量限制。