CN115793583B

CN115793583B - 基于深度强化学习的流水车间新订单***优化方法

Info

Publication number: CN115793583B
Application number: CN202211546673.8A
Authority: CN
Inventors: 李德彪; 汪文霞
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2024-06-25
Anticipated expiration: 2042-12-02
Also published as: CN115793583A

Abstract

本发明涉及一种基于深度强化学习的流水车间新订单***优化方法。在制造实践中常有新工单紧急插单生产，扰乱事先制定好的生产计划，有可能造成工单延误、产线闲置、设备利用率降低等问题。本发明基于事先制定的生产计划方案，重调度采用基于深度强化学习的方法，提取状态特征，以最小化新订单***对调度目标（延误、闲置等）和***稳定性的影响为目标，建立以机器为对象的状态特征，利用现有最优调度规则和调度理论形成动作空间，然后依据状态特征变化情况进行行为策略选取，快速调整生成满足生产需求的生产方案。

Description

基于深度强化学习的流水车间新订单***优化方法

技术领域

本发明属于智能制造的生产调度领域，具体涉及一种基于深度强化学习的流水车间新订单***优化方法。

背景技术

电子产品的普及造就了巨大的市场，目前电子产品制造业的全球化竞争不断加剧，消费者需求表现出的差异性和波动性，随着相关生产技术的不断进步，在激烈的市场竞争下，电子制造业面临着订单更新和物料情况动态变化的情况，企业需要不断提高车间的生产能力和作业柔性，提高机器利用率，适应复杂多变的市场环境更好的满足顾客的需求。

发明内容

本发明的目的在于提供一种基于深度强化学习的流水车间新订单***优化方法，解决传统排程很难适应复杂的问题模型的生产排程重调度问题。

为实现上述目的，本发明的技术方案是：一种基于深度强化学习的流水车间新订单***优化方法，本发明基于事先制定的生产计划方案，重调度采用基于深度强化学习的方法，提取状态特征，以最小化新订单***对调度目标(延误、闲置等)和***稳定性的影响为目标，建立以机器为对象的状态特征，利用现有最优调度规则和调度理论形成动作空间，然后依据状态特征变化情况进行行为策略选取，快速调整生成满足生产需求的生产方案。

相较于现有技术，本发明具有以下有益效果：本发明方法考虑了如何在新工件到达的流水车间调度环境中重新安排工作的问题，以最小化延期成本和最小化***不稳定性为目标，设计兼顾效率和稳定性的多目标模型,通过深度强化学习算法进行优化求解，以便在给定新工件到达情形下经济、高效、快速地得到最优重调度方案。

附图说明

图1为本发明方法流程图。

图2为流水车间重调度问题。

图3为强化学习过程。

图4为DQN网络。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

如图1所示，本发明一种基于深度强化学习的流水车间新订单***优化方法，在制造实践中经常会有新作业到达导致当前的生产计划方案不可行，通常这些新到达的工件为急单，需要更早生产，因此需要重新安排生产计划。在当前的生产计划方案下，采用基于深度强化学习的方法，依据输入状态进行行为策略选取，生成更贴近实际制造***加工状态响应式的生产调度方案。具体包括以下步骤：步骤S1、构造流水车间问题和流水车间重调度问题，原始工件中所有未开始生产的工序和新到达的所有工件构成了重调度的对象。步骤S2、将工件的加工信息和每台机器的加工情况输入数据管理模块，根据步骤S1所述的约束和假设构造以最小化工件总延迟和***不稳定性为目标的重调度模型；步骤S3、将步骤S2描述的调度问题转化为一个半马尔科夫决策过程问题；步骤S4、根据目标提取多个状态特征作为重新调度点的生产状态作为目标的映射；步骤S5、将多种调度规则构成动作空间，给每台机器定义候选动作集合，与状态相关或无关的行为都应该被采纳，以充分利用现有调度规则、理论和智能体从经验中学习的能力；步骤S6、根据目标特性设置状态转移和报酬函数。步骤S7、构造智能体感知加工状态特征的深度神经网络结构，包括输入层，隐藏层，输出层。考虑到连续的生产状态，设计一个深度Q网络(adeep Q-network，DQN)，将连续状态特征作为DQN的输入，可以获得每个调度规则的状态-动作值(Q值)，并通过设置另外一个网络，通过梯度下降和反向传播更新目标网络的参数，减少过拟合现象，最后通过迭代积累奖励选择最优动作获得最优的重调度方案。本发明结合了实际生产过程中的突发情况对生产计划进行重新调度，解决了由于受到冲击导致原始生产计划不可行的问题。

本发明方法具体实现如下：

步骤S1、如图2所示，流水车间问题(Flow-shop scheduling problem,FSP)描述如下：现有的工件需要在M＝{M₁,M₂,…M_m}台机器上进行加工，每个工件经由相同的工艺路线，即在机器M₁上开始加工，经过机器M₂，…，直到最后一台机器M_m。调度决策就是安排工件通过每台机器的加工顺序。一般假设如下：

1)每台机器每个时刻只允许加工一道工序且不存在其他工序抢占情况；

2)每个工件都有对应机器上的加工时间，加工路径不变；

3)每台机器前的等待队列容量足够大以满足重新排列工件加工顺序的需要；

4)一个工件不能同时在不同机器上加工；

5)工件准备时间包含在加工时间内或可以忽略不计。

根据以上约束，流水车间重调度问题描述为：在已有原始生产计划s₀的基础上，J表示原始生产计划中的所有工件，T时刻到达的新工件为N(时间T已经包含了新工件的备料时间)，此时一部分工件的某些工序可能已经加工完成(以下称为完工工件)或者正在加工(以下称为在制工件)，对于正在加工的情况，如上述约束1)所述，需要将该工件的当前工序加工完成后才能生产别的工件。因此，原始工件中所有未开始生产的工序和新到达的所有工件构成了重调度的对象。

步骤S2、将工件的加工信息和每台机器的加工情况输入数据管理模块，根据步骤S1所述的约束和假设构造以最小化工件总延迟和***不稳定性为目标的重调度模型。约束和符号定义如下：

原始调度中工件j在机器m上的开始加工时间

原始调度中工件j在机器m上的完工时间

原始调度中工件j在机器m上的加工次序

S_m：如果m_wip(T)为空，S_m＝T，否则

s_mj：工件j在机器m上的开始加工时间

p_mj：工件j在机器m上的加工时间

c_mj：工件j在机器m上的完工时间

o_mj：工件j在机器m上的加工次序

y_mjj'：在机器m上,如果工件j排在工件j'之前，则y_mjj'＝1，否则y_mjj'＝0

z_mj：如果则z_mj＝0，否则z_mj＝1

c_j：工件j的完工时间，c_j＝max_1≤m≤M{c_mj}

d_j：工件j的交期

U：一个特别大的正数

T：新作业到达的时间

J：还未加工完成的原始工件的集合

N：所有的新作业的集合

n：所有工件的集合，包括原始工件和新工件

n_m：机器m上参与重调度的工件的集合，包括新工件和未加工的原始工件

P_m：机器m上参与重调度的工件的加工时间总和，

m_fp(T)：T时刻机器m上的完工工件集合，若没有则为空

m_wip(t)：t时刻机器m上在制工件，若没有则为空

Q_m(t)：t时刻还未在机器m上开始加工的工件的集合

F_m(t)：t时刻机器m上已经分配过的工件

t时刻机器m上的在制品工件已经加工的时间

根据上述约束和符号定义，建立模型如下

目标函数：

约束条件：

如上所述：目标函数(1)是工件总延迟***不稳定性的加权和；约束(2)表示***不稳定性采用原始工件在重调度前后每台机器上开始加工时间的总偏差进行衡量；约束(3)(4)(5)(6)(7)(8)表示在重调度中T时刻机器m上的在制工件和完工工件的生产时间与原始调度保持一致；约束(9)表示对于一个工件的两道连续工序，只有在前一道工序完成后才能开始下一道工序；约束(10)表示工件在该台机器上的完工时间为开始加工时间加上加工时长；约束(11)(12)(13)描述了机器容量限制，对于同一台机器连续处理的两个工件，只有在前一个工件完成后才能开始下一个工件；约束(14)表示参与重调度的工件需要在该机器将当前加工的工件加工完成才可以加工，(15)表示所有工件的延迟总和，延迟等于该工件的完工时间减去该工件的交期。

步骤S3、强化学习(reinforcement learning，RL)在处理马尔科夫决策(Markovdecision process,MDP)问题时，智能代理与其周围环境交互，试图最大化长期奖励的预期总和。训练过程可以用5元组表示(S,A,P,γ,R)来描述。在每个决策点t，智能代理观察当前状态s_t∈S,并根据策略π采取可行的动作a_t∈A，之后它进入一个新的状态s_t+1，转移概率为p(s_t+1|s_t,a_t)∈P。同时，作为状态转换(s_t,a_t,s_t+1)的结果，获得即时奖励r_t∈R.RL智能体的目标是找到最优策略π^*，最大化从状态s开始的预期折扣未来奖励，然后遵循特定策略π(称为状态值函数)，如公式中所定义：

V_π(s)＝E[r_t+γr_t+1+γ²r_t+2+…|s_t＝s,π]

其中γ∈[0,1]是折扣因子,用于区分短期奖励和长期奖励的相对重要性。类似地，我们可以将动作价值函数定义为在状态s中遵循特定的策略π采取行动a时的预期折扣未来奖励，如公式中所定义：

Q_π(s)＝E[r_t+γr_t+1+γ²r_t+2+…|s_t＝s,a_t＝a,π]

RL智能体的目标是找到最优策略π^*，当在状态s中采取行动a并随后遵循特定策略π时，该策略最大化长期奖励的预期总和，如方程式中所定义：

贝尔曼已经证明，最优策略π^*下的最优动作价值函数必须满足方程中的贝尔曼最优方程：

深度Q网络和深度Q学习。为了解决标准Q-learning中存在的维数灾难，研究学者提出了深度Q网络(DQN)的概念。DQN可以看作是权重为θ的神经网络Q函数逼近器。通过直接将原始数据(状态特征)作为输入，将每个状态-动作对的Q函数值作为输出，DQN可以处理具有大而连续状态空间的复杂决策过程。深度Q学习(DQL)是训练DQN的有效方法。深度强化学习(DQL)的进步主要体现在两个方面。首先，为了消除可能导致参数更新的高方差和训练过程不稳定的连续转换之间的相关性，建立容量为N的经验回放池D，其中代理在每个时间步t的经验，即(s_t,a_t，r_t,s_t+1)被存储，参数的更新基于从D中随机抽取的小批量样本，一旦超过容量N，旧的经验就会被新的经验替代，由于可以多次使用每个转换来更新参数，因此也可以实现更好的数据效率；第二个改进是使用单独的目标网络每C步更新一次，目标网络/>的权重θ^-被在线网络Q替换，并在接下来的C个步骤中保持固定。在每个时间步t，在线网络的参数θ根据计算为/>的目标值进行更新。这个过程在Q的更新时间和更新影响训练目标的时间之间增加了一个延迟，从而使训练过程更加稳定。

双DQN(DDQN)：标准DQL遇到一个不可避免的问题，即max运算符使用相同的值来选择和评估一个动作，这很容易导致过度乐观的值估计。为了缓解这个问题，研究学者提出了一种称为双DQN(DDQN)的技术。DDQN与DQN相同，只是训练目标y_t的计算方式如方程式中所定义：

在DDQN中，贪心策略是根据在线网络Q评估的，但它的值是使用目标网络估计的。通过采用DDQN，选择与评估解耦，减少了过度乐观，使学习更加稳定可靠。DDQN的伪代码如下：

初始化容量为N的经验回放池D

初始化权重为θ的在线网络Q

初始化目标网络为θ^-(θ^-＝θ)的目标网络

for episode＝1:L do

观察初始状态s₁，提取状态s₁的特征向量φ₁

for t＝1:T do

以概率ε随机选择一个动作a_t

否则选择a_t＝argmax_aQ(φ_t,a,θ)

执行动作a_t，观察奖励r_t和下一个状态s_t+1

提取状态s_t+1的特征向量φ_t+1

将转换(φ_t，a_t，r_t，φ_t+1)存储在D中

从D中随机抽取小批量转换样本(φ_j，a_j，r_j，φ_j+1)

如果episode在j+1处终止，则y_j＝r_j，否则，

对于网络参数θ，在(y_j-Q(φ_j，a_j；θ))²上执行梯度下降

每步更新

end for

步骤S4、将步骤S2描述的调度问题转化为一个半马尔科夫决策过程(Semi-MarkovDecision Processes，SMDP)问题。首要工作是根据目标提取多个状态特征作为重新调度点的生产状态，同时作为目标的映射，然后将多种调度规则构成动作空间，状态特征和动作空间的定义与调度问题的目标和特征紧密相关，同时考虑到连续的生产状态，设计一个深度Q网络(a deep Q-network，DQN)，将连续状态特征作为DQN的输入，可以获得每个调度规则的状态-动作值(Q值)，并通过设置另外一个网络，通过梯度下降和反向传播更新目标网络的参数，减少过拟合现象，最后通过迭代积累奖励选择最优动作获得最优的重调度方案。

以机器为对象定义状态特征如下：

1、f_m，1(t)＝Q_m(t)|/|n_m|，队列Q_m中的工件数与总的工件数的比值

2、队列Q_m中所有工件的平均加工时间与P_m的比值

3、队列Q_m中所有工件在机器m上的加工时间最大值与P_m的比值

4、队列Q_m中所有工件在机器m上的加工时间最小值与P_m的比值

5、机器m上的在制品工件的剩余加工时间与P_m的比值

6、队列Q_m中所有工件在当前工序之前(包括当前工序)的总加工时间与需要在该机器上加工的所有工件的最大值的比值

7、队列Q_m中所有工件在当前工序之前(包括当前工序)的总加工时间与需要在该机器上加工的所有工件的最小值的比值

8、机器m上加工的原始工件在原始调度和重调度中的开始加工时间偏差最大值

9、机器m上加工的原始工件在原始调度和重调度中的开始加工时间偏差总和

10、机器m上加工的原始工件在原始调度和重调度中的加工次序偏差最大值

11、机器m上加工的原始工件在原始调度和重调度中的加工次序偏差总和

状态特征作为目标的映射，与调度问题的目标和紧密相关，这里状态特征1描述了不同机器上的工件数量的分布；状态特征2描述了当前分配在各机器上的工作负荷；状态特征3,4描述了当前在各个队列中的加工时间最值；如步骤S1的假设1)所述，每台机器每个时刻只允许加工一道工序且不存在其他工序抢占情况，所以状态特征5表示当前机器正在加工的工件的剩余加工时间比重，从而表征机器的忙碌状态；状态特征6，7表示机器上等待加工的工件的最长或最短剩余加工时间；以上状态主要代表了该调度问题的调度成本目标，而状态特征8，9，10,11表示原始调度和重调度的偏差，用来衡量步骤S2所述的重调度的稳定性目标。

步骤S5、给每台机器定义候选动作集合，与状态相关或无关的行为都应该被采纳，以充分利用现有调度规则、理论和智能体从经验中学习的能力。动作空间构成如下：

(1)FCFS：选择队列中最先到达的工件

(2)SPT：选择队列中工序加工时间最短的工件

(3)LPT：选择队列中工序加工时间最长的工件

(4)LWKR：选择队列中剩余加工时间最短的工件

(5)MWKR：选择队列中剩余加工时间最长的工件

(6)SPT/TWK：选择队列中工序加工时间与总加工时间比值最小的工件

(7)LPT/TWK：选择队列中工序加工时间与总加工时间比值最大的工件

(8)SPT/TWKR：选择队列中工序加工时间与剩余加工时间比值最小的工件

(9)LPT/TWKR：选择队列中工序加工时间与剩余加工时间比值最大的工件

(10)SRM：选择队列中除当前考虑工序外剩余加工时间最短的工件

(11)LRM：选择队列中除当前考虑工序外剩余加工时间最长的工件

(12)SSO：选择队列中后继工序加工时间最短的工件

(13)LSO：选择队列中后继工序加工时间最长的工件

(14)SPT+SSO：选择队列中当前工序加工时间与后继工序加工时间最短的工件

(15)LPT+LSO：选择队列中当前工序加工时间与后继工序加工时间最长的工件

(16)SPT/LSO：选择队列中当前工序加工时间与后继工序加工时间比值最小的工件。

(17)LPT/SSO：选择当前工序加工时间与后继工序加工时间比值最大的工件

(18)等待：不选择任何工件进行加工

步骤S6、根据目标特性设置状态转移和报酬函数。开始加工时刻，调度***处于初始状态s₀，此时所有工件位于第一个机器的等候队列Q₁，并且所有机器处于空闲状态，然后第一台机器选择一个动作a，其他机器由于等候加工队列为空选择行为a₍₁₈₎。之后每当某一台机器完成了一道工序的加工，***转移到一个新的状态，记作s_t，此状态下每台机器同时选择一个可行的行为，当接下来又有某一道工序被完成时，***转移到下一个状态，记作s_t+1，并且智能体获得一次回报rt₊₁，该回报可以通过两个状态之间的时间间隔计算。当***到达终止状态时，意味着所有队列全为空且所有工件全部加工完成，即获得完整一个调度方案。由于在每一个决策时刻，所有机器同时选择行为，实际上***实施了一次由m个子行为组合而成的多维行为(a₁，a₂，…，a_m)。智能体根据实施合成行为后***状态变化结果和报酬函数获得相应报酬，报酬反馈行为的即时影响，与行为的即时报酬联系密切。如图3。

步骤S7、构造智能体感知加工状态特征的深度神经网络结构，包括输入层，隐藏层，输出层。如图4所示，输入层个数对应于状态特征个数，输出层个数对应于动作数，隐藏层采用RELU激活函数，节点个数为30个。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于深度强化学习的流水车间新订单***优化方法，其特征在于，在现有的生产计划方案下，根据新订单的到达情况，采用基于深度强化学习的方法，依据输入状态选取行为策略，生成更贴近实际制造***加工状态响应式的生产调度方案，这个过程需要满足两个相互冲突的目标，分别为效率度量和稳定性度量，前者用于评估期望目标函数值的满意度，后者则用来评估中断前后时间表之间的变化量；具体包括以下步骤：

步骤S1、流水车间问题FSP描述为：现有的工件需要在M＝{M₁，M₂，...M_m}台机器上进行加工，每个工件经由相同的工艺路线，即在机器M₁上开始加工，经过机器M₂，...，直到最后一台机器M_m；调度决策就是安排工件通过每台机器的加工顺序；假设如下：

2)每个工件都有对应机器上的加工时间，加工路径不变；

4)一个工件不能同时在不同机器上加工；

5)工件准备时间包含在加工时间内或可忽略不计；

根据以上约束，流水车间重调度问题描述为：在已有原始生产计划s₀的基础上，J表示原始生产计划中的所有工件，T时刻到达的新工件集合为N，T已经包含新工件的备料时间，此时一部分工件的某些工序可能已经加工完成即称为完工工件或者正在加工即称为在制工件，对于正在加工的情况，如约束1)所述，需要将该工件的当前工序加工完成后才能生产别的工件；因此，原始工件中所有未开始生产的工序和新到达的所有工件构成重调度的对象；

步骤S2、将工件的加工信息和每台机器的加工情况输入数据管理模块，根据步骤S1中的约束和假设构造以最小化工件总延迟和***不稳定性为目标的重调度模型：

目标函数：

约束条件：

式中，表示原始调度中工件j在机器m上的开始加工时间；/>表示原始调度中工件j在机器m上的完工时间；/>表示原始调度中工件j在机器m上的加工次序；S_m表示如果m_wip(T)为空，S_m＝T，否则/>s_mj表示工件j在机器m上的开始加工时间；p_mj表示工件j在机器m上的加工时间；c_mj表示工件j在机器m上的完工时间；o_mj表示工件j在机器m上的加工次序；y_mjj′表示在机器m上，如果工件j排在工件j′之前，则y_mjj′＝1，否则y_mjj′＝0；z_mj表示如果/>则z_mj＝0，否则z_mj＝1；c_j表示工件j的完工时间，c_j＝max_1≤m≤M{c_mj}；d_j表示工件j的交期；U表示一个特别大的正数；T表示新作业到达的时间；J表示还未加工完成的原始工件的集合；N表示所有的新工件的集合；n表示所有工件的集合，包括原始工件和新工件；n_m表示机器m上参与重调度的工件的集合，包括新工件和未加工的原始工件；P_m表示机器m上参与重调度的工件的加工时间总和，/>m_fp(T)表示T时刻机器m上的完工工件集合，/>若没有则为空；m_wip(t)表示t时刻机器m上在制工件，若没有则为空；Q_m(t)表示t时刻还未在机器m上开始加工的工件的集合；F_m(t)表示t时刻机器m上已经分配过的工件；/>表示t时刻机器m上的在制品工件已经加工的时间；

其中，目标函数(1)是工件总延迟***不稳定性的加权和；约束(2)表示***不稳定性采用原始工件在重调度前后每台机器上开始加工时间的总偏差进行衡量；约束(3)(4)(5)(6)(7)(8)表示在重调度中T时刻机器m上的在制工件和完工工件的生产时间与原始调度保持一致；约束(9)表示对于一个工件的两道连续工序，只有在前一道工序完成后才能开始下一道工序；约束(10)表示工件在该台机器上的完工时间为开始加工时间加上加工时长；约束(11)(12)(13)描述了机器容量限制，对于同一台机器连续处理的两个工件，只有在前一个工件完成后才能开始下一个工件；约束(14)表示参与重调度的工件需要在该机器将当前加工的工件加工完成才可以加工，(15)表示所有工件的延迟总和，延迟等于该工件的完工时间减去该工件的交期；

步骤S3、将步骤S2描述的流水车间重调度问题转化为一个半马尔科夫决策过程SMDP问题；首先根据目标提取多个状态特征作为重新调度点的生产状态，同时作为目标的映射，然后将多种调度规则构成动作空间，状态特征和动作空间的定义与调度问题的目标和特征紧密相关，同时考虑到连续的生产状态，设计一个深度Q网络DQN，将连续状态特征作为DQN的输入，获得每个调度规则的状态-动作值即Q值，并通过设置另外一个网络，通过梯度下降和反向传播更新目标网络的参数，减少过拟合现象，最后通过迭代积累奖励选择最优动作获得最优的重调度方案；考虑两种目标即调度成本和重调度的中断成本，前者以最小化工件总延迟表示，后者代表***不稳定性，以机器为对象定义状态特征如下：

(1)f_m，1(t)＝|Q_m(t)|/|n_m|，队列Q_m中的工件数与总的工件数的比值；

(2)队列Q_m中所有工件的平均加工时间与P_m的比值；

(3)队列Q_m中所有工件在机器m上的加工时间最大值与P_m的比值；

(4)队列Q_m中所有工件在机器m上的加工时间最小值与P_m的比值；

(5)机器m上的在制品工件的剩余加工时间与P_m的比值；

(6)队列Q_m中所有工件在当前工序之前的总加工时间与需要在该机器上加工的所有工件的最大值的比值；

(7)队列Q_m中所有工件在当前工序之前包括当前工序的总加工时间与需要在该机器上加工的所有工件的最小值的比值；

(8)机器m上加工的原始工件在原始调度和重调度中的开始加工时间偏差最大值；

(9)机器m上加工的原始工件在原始调度和重调度中的开始加工时间偏差总和；

(10)机器m上加工的原始工件在原始调度和重调度中的加工次序偏差最大值；

(11)机器m上加工的原始工件在原始调度和重调度中的加工次序偏差总和；

状态特征作为目标的映射，与调度问题的目标和紧密相关，这里状态特征(1)描述不同机器上的工件数量的分布；状态特征(2)描述当前分配在各机器上的工作负荷；状态特征(3)、(4)描述了当前在各个队列中的加工时间最值；如步骤S1的假设1)所述，每台机器每个时刻只允许加工一道工序且不存在其他工序抢占情况，所以状态特征(5)表示当前机器正在加工的工件的剩余加工时间比重，从而表征机器的忙碌状态；状态特征(6)、(7)表示机器上等待加工的工件的最长或最短剩余加工时间；以上状态代表调度问题的调度成本目标，而状态特征(8)-(11)表示原始调度和重调度的偏差，用来衡量步骤S2重调度的稳定性目标；

步骤S4、给每台机器定义候选动作集合，动作空间构成如下：

(1)FCFS：选择队列中最先到达的工件；

(2)SPT：选择队列中工序加工时间最短的工件；

(3)LPT：选择队列中工序加工时间最长的工件；

(4)LWKR：选择队列中剩余加工时间最短的工件；

(5)MWKR：选择队列中剩余加工时间最长的工件；

(6)SPT/TWK：选择队列中工序加工时间与总加工时间比值最小的工件；

(7)LPT/TWK：选择队列中工序加工时间与总加工时间比值最大的工件；

(8)SPT/TWKR：选择队列中工序加工时间与剩余加工时间比值最小的工件；

(9)LPT/TWKR：选择队列中工序加工时间与剩余加工时间比值最大的工件；

(10)SRM：选择队列中除当前考虑工序外剩余加工时间最短的工件；

(11)LRM：选择队列中除当前考虑工序外剩余加工时间最长的工件；

(12)SSO：选择队列中后继工序加工时间最短的工件；

(13)LSO：选择队列中后继工序加工时间最长的工件；

(14)SPT+SSO：选择队列中当前工序加工时间与后继工序加工时间最短的工件；

(15)LPT+LSO：选择队列中当前工序加工时间与后继工序加工时间最长的工件；

(16)SPT/LSO：选择队列中当前工序加工时间与后继工序加工时间比值最小的工件；

(17)LPT/SSO：选择当前工序加工时间与后继工序加工时间比值最大的工件；

(18)等待：不选择任何工件进行加工；

步骤S5、根据目标特性设置状态转移和报酬函数；开始加工时刻，调度***处于初始状态s₀，此时所有工件位于第一个机器的等候队列Q₁，并且所有机器处于空闲状态，然后第一台机器选择一个动作a，其他机器由于等候加工队列为空选择行为a₍₁₈₎；之后每当某一台机器完成了一道工序的加工，***转移到一个新的状态，记作s_t，此状态下每台机器同时选择一个可行的行为，当接下来又有某一道工序被完成时，***转移到下一个状态，记作s_t+1，并且智能体获得一次回报r_t+1，该回报可以通过两个状态之间的时间间隔计算；当***到达终止状态时，意味着所有队列全为空且所有工件全部加工完成，即获得完整一个调度方案；由于在每一个决策时刻，所有机器同时选择行为，实际上***实施了一次由m个子行为组合而成的多维行为(a₁，a₂，...，a_m)；智能体根据实施合成行为后***状态变化结果和报酬函数获得相应报酬，报酬反馈行为的即时影响，与行为的即时报酬联系密切；

步骤S6、构造智能体感知加工状态特征的深度神经网络结构，包括输入层，隐藏层，输出层；输入层个数对应于状态特征个数，输出层个数对应于动作数，隐藏层采用RELU激活函数，节点个数为30个。

2.根据权利要求1所述的基于深度强化学习的流水车间新订单***优化方法，其特征在于，基于订单特性构造混合整数模型，考虑目标为：是总延迟和***不稳定性的加权和，其中***不稳定性根据原始作业在两次调度结果中的开始加工时间是否有偏差衡量；提取状态特征和设置动作空间，根据目标特性设置状态转移和报酬函数，构造智能体感知加工状态特征的深度神经网络结构。

3.根据权利要求1所述的基于深度强化学习的流水车间新订单***优化方法，其特征在于，选取订单进行***锁定，即是在现有生产计划的基础上，根据当前订单情况和调度目标，对生产计划进行重调度，减少新到达工件的逾期情况，同时保持生产的稳定性。