CN113657742B

CN113657742B - 车间调度方法、装置、电子设备及存储介质

Info

Publication number: CN113657742B
Application number: CN202110909606.7A
Authority: CN
Inventors: 张利平; 胡一凡; 张子凯; 唐秋华
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2024-04-19
Anticipated expiration: 2041-08-09
Also published as: CN113657742A

Abstract

本发明提供一种车间调度方法、装置、电子设备及存储介质，车间调度方法包括：获取车间的生产状态参数，并基于所述生产状态参数，得到状态特征矩阵；将所述状态特征矩阵输入至在线策略网络，得到当前时刻的状态动作价值；基于所述当前时刻的状态动作价值，以及目标调度规则库，得到当前时刻的最优调度规则；基于所述当前时刻的最优调度规则，执行车间调度指令。本发明提供的车间调度方法可以解决现有技术中单一调度规则的缺陷，实现利用多个调度规则执行车间调度，以适应调度场景的变化，满足多调度场景的优化。

Description

车间调度方法、装置、电子设备及存储介质

技术领域

本发明涉及车间作业技术领域，尤其涉及一种车间调度方法、装置、电子设备及存储介质。

背景技术

当前，智能机加工车间实时调度方法大多是基于调度规则和元启发式算法。元启发式算法包括遗传算法，模拟退火算法等，将实时调度问题划分为多个静态子问题进行求解，算法性能较好，但存在求解时间较长、结果可解释性和稳定性较差、难以满足实时响应等缺点。调度规则包括最短加工时间优先、最大剩余时间优先等，具有计算速度快，稳定性好，快速响应等优点。根据无免费午餐理论，调度规则往往适应特定的环境，若环境发生改变，调度规则不能适应调度环境的变化，其响应速度、稳定性和优良性能会降低。因此，需要提供一种车间调度方法，使其调度规则能够适应调度场景的变化，满足多调度场景的性能优化。

发明内容

本发明提供一种车间调度方法、装置、电子设备及存储介质，用以解决现有技术中单一调度规则的缺陷，实现利用多个调度规则执行车间调度指令，以适应调度场景的变化，满足多调度场景的性能优化。

本发明提供一种车间调度方法，包括：

获取车间的生产状态参数，并基于所述生产状态参数，得到状态特征矩阵；

将当前时刻的状态特征矩阵输入至在线策略网络，得到当前时刻的状态动作价值；

基于所述当前时刻的状态动作价值，以及目标调度规则库，得到当前时刻的最优调度规则；

基于所述当前时刻的最优调度规则，执行车间调度指令。

根据本发明提供的车间调度方法，还包括：

基于上一时刻的总拖期，以及当前时刻的总拖期，得到当前时刻的即时回报值；

将所述当前时刻的状态特征矩阵、所述当前时刻的最优调度规则、所述当前时刻的即时回报值，以及下一时刻的状态特征矩阵，作为当前时刻的经验样本，存入经验池；

从所述经验池中选取经验样本，并基于选取的经验样本训练在线策略网络。

根据本发明提供的车间调度方法，所述将所述当前时刻的状态特征矩阵、所述当前时刻的最优调度规则、所述当前时刻的即时回报值，以及下一时刻的状态特征矩阵，作为当前时刻的经验样本，存入经验池，包括：

将所述当前时刻的状态特征矩阵、所述当前时刻的最优调度规则、所述当前时刻的即时回报值，以及下一时刻的状态特征矩阵，作为当前时刻的经验样本，存入第一经验池；

在所述当前时刻的经验样本的即时回报值高于目标回报值的情况下，还将所述当前时刻的经验样本存入第二经验池；

所述从所述经验池中选取经验样本，并基于选取的经验样本训练在线策略网络，包括：

基于第一目标比例从所述第一经验池中选取第一部分样本，以及基于第二目标比例从所述第二经验池中选取第二部分样本；

基于所述第一部分样本和所述第二部分样本，训练所述在线策略网络。

根据本发明提供的车间调度方法，所述在所述当前时刻的经验样本的即时回报值高于目标回报值的情况下，还将所述当前时刻的经验样本存入第二经验池，包括：

将所述第二经验池中经验样本的最低即时回报值作为所述目标回报值；

在所述当前时刻的经验样本的即时回报值高于所述目标回报值的情况下，将所述当前时刻的经验样本替换所述第二经验池中最低即时回报值对应的经验样本。

根据本发明提供的车间调度方法，所述第一目标比例和所述第二目标比例相等。

根据本发明提供的车间调度方法，还包括：

在将所述状态特征矩阵输入至在线策略网络之前，初始化在线策略网络和目标策略网络，使所述在线策略网络和所述目标策略网络的初始参数同步；

在所述在线策略网络的训练次数达到目标次数后，将所述在线策略网络的参数同步至所述目标策略网络；

基于所述目标策略网络，得到所述目标策略网络的长期回报值；

所述基于所述第一部分样本和所述第二部分样本，训练所述在线策略网络，包括：

基于所述第一部分样本、所述第二部分样本以及所述长期回报值，训练所述在线策略网络。

根据本发明提供的车间调度方法，还包括：

在单个调度场景下，统计每个调度方案对应的总即时回报值；其中，所述单个调度场景包含有多个调度方案，且每个调度方案包含有多个调度指令；

基于所述调度方案的总即时回报值，将所述多个调度方案，分为第一部分调度方案和第二部分调度方案；其中，所述第一部分调度方案中每一调度方案对应的总即时回报值，均大于所述第二部分调度方案中每一调度方案对应的总即时回报值；

在完成所述多个调度方案前后，若所述第一部分调度方案在所述多个调度方案的比例增加，则计算所述目标调度规则库中的每一调度规则在所述第一部分调度规则中出现的次数，与在所述第二部分调度规则中出现的次数的比例值；

将最小比例值对应的调度规则，从所述目标调度规则库中删除，得到新的目标调度规则库。

本发明还提供一种车间调度装置，包括：

数据转换模块，用于获取车间的生产状态参数，并基于所述生产状态参数，得到状态特征矩阵；

第一处理模块，用于将所述状态特征矩阵输入至在线策略网络，得到当前时刻的状态动作价值；

第二处理模块，用于基于所述当前时刻的状态动作价值，以及目标调度规则库，得到当前时刻的最优调度规则；

调度执行模块，用于基于所述当前时刻的最优调度规则，执行车间调度指令。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述车间调度方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述车间调度方法的步骤。

本发明提供的车间调度方法、装置、电子设备及存储介质，获取车间的生产状态参数，并基于生产状态参数，得到状态特征矩阵。将当前时刻的状态特征矩阵输入至在线策略网络，得到当前时刻的状态动作价值。基于当前时刻的状态动作价值，以及目标调度规则库，得到当前时刻的最优调度规则。基于当前时刻的最优调度规则，执行车间调度指令。

其中，目标调度规则库中包含有多个调度规则，也即是多个调度规则，基于状态特征矩阵可以选择符合当前车间调度场景的调度规则，进而实现利用多个调度规则执行车间调度，以适应调度场景的变化，满足多调度场景的性能优化，保证车间调度的响应速度、稳定性和优良性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的车间调度方法的流程示意图之一；

图2是本发明提供的车间调度方法中更新在线策略网络的流程图；

图3是本发明提供的车间调度方法的流程示意图之二；

图4是本发明提供的车间调度方法的框架示意图；

图5是本发明提供的车间调度方法的总拖期曲线图；

图6是本发明提供的车间调度方法的回报值曲线图；

图7是本发明提供的车间调度装置的原理框图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图8描述本发明的车间调度方法、装置、电子设备及存储介质。

如图1所示，本发明提供的车间调度方法包括：

步骤110、获取车间的生产状态参数，并基于生产状态参数，得到状态特征矩阵。

需要说明的是，车间的生产状态参数，可以包括车间可选的机器数量，机器加工时间等。

步骤120、将当前时刻的状态特征矩阵输入至在线策略网络，得到当前时刻的状态动作价值。

步骤130、基于当前时刻的状态动作价值，以及目标调度规则库，得到当前时刻的最优调度规则。

可以理解的是，调度规则包括机器调度规则和工序调度规则；机器调度规则，也即是车间调度工作中需要参与的机器设备的调度规则；工序调度规则，也即是车间调度工作中，调度工作执行顺序的规则。

步骤140、基于当前时刻的最优调度规则，执行车间调度指令。

这里，车间的生产状态参数，也即是DRL(即：深度强化学习)的状态信息。DRL的状态信息代表了agent(即：智能体)所感知到的环境信息，以及agent的在当前状态采取的action(即：行为)环境的反馈。状态信息是agent制定决策和评估其长期收益的依据，而状态设计的好坏直接决定了DRL算法能否收敛、收敛速度以及最终性能，在状态特征设计的过程中必须遵守以下原则：

状态信息对应特征不仅要包含全局特征，也要包含局部特征。

设计的状态信息对应特征必须与问题或者问题目标直接相关。

不同环境下得所有状态必须形式统一和逻辑统一。

深度卷积神经网络可以从简单的具有形式统一的输入开始，通过特征提取和特征映射，不断地抽取数据中更为复杂的特征作为下一个层的输入，最终提取到能够代表数据最本质的特征的高维抽象特征。因此，提出了一种新型的基于矩阵的状态表达方式，设计了六个高度为工件数，宽度为工件最大工序数的矩阵，每个矩阵表达不同的信息。

六个矩阵分别为可选机器数矩阵(CPT1)，加工时长矩阵(CPT2)，开始加工时间矩阵(CBT_t)，结束加工时间矩阵(CET_t)，工件是否加工矩阵(CBE_t)，机器利用率矩阵(CPMU_t)。第t步的状态St为：

S_t＝{CPT1,CPT2,CBT_t,CET_t,CBE_t,CPMU_t}

由于工件是动态到达的，只有工件到达后才能获得工件的加工信息，当工件完毕后，将会脱离加工***，即，在加工***内的工件有两种，未加工完毕工件和到达***，但是未加工工件，统称这些工件为待加工工件，在每个调度时刻时，调度对象为此时可以加工的待加工工件，因此，本文将在每个调度时刻的可以加工的待加工工件加入到状态特征矩阵中，来表示当前的***状态。

CPT1和CPT2表示问题的特征，在初始化后不发生变化。

CPT1表示每个工序的可选机器数量，CPT1_ij表示第i个工件第j道工序的可选机器数量。

CPT2表示每个工序的平均加工时间，CPT2_ij表示第i个工件第j道工序的平均加工时间。

CPT1和CPT2是在计算完成后不再发生变化。

CBT_t,CET_t,CBE_t,CPMU_t表示问题的过程特征，在调度的过程中不断发生变化。

CBT_t表示第t步时，工序的开始加工时间。CBT_tij表示第t步时，第i个工件的第j道工序的开始加工时间，若工序没有开始加工，CBT_tij＝0。

CET_t表示第t步时，工序的开始加工时间。CET_tij表示第t步时，第i个工件的第j道工序的结束加工时间，若工序没有加工，CET_tij＝0。

CBE_t表示第t步时，工序的是否加工。CET_tij表示第t步时，表示第i个工件的第j道工序是否加工，若加工了，CET_tij＝1，若没有加工，CET_tij＝0。

CPMU_t表示第t步，每个工件所对应的机器利用率。CPMU_tij表示第t步时，表示第i个工件的第j道工序加工后对应的机器利用率，若工序没有加工，CPMU_tij＝0。

其中CPT1,CPT2不随着状态的转移发生变化，而CBT_t，CET_t，CBE_t和CPMU_t随着状态的转移发生变化。

在一些实施例中，车间调度方法还包括：

基于上一时刻的总拖期，以及当前时刻的总拖期，得到当前时刻的即时回报值；具体地，当前时刻的总拖期，减去上一时刻的总拖期，得到当前时刻的即时回报值；

将当前时刻的状态特征矩阵、当前时刻的最优调度规则、当前时刻的即时回报值，以及下一时刻的状态特征矩阵，作为当前时刻的经验样本，存入经验池；

从经验池中选取经验样本，并基于选取的经验样本训练在线策略网络。

可以理解的是，在agent执行一个操作或者一系列操作后，环境将会反馈一个相应的回报，agent可以根据回报值，调整自己的策略，达到更好。因此，回报函数设计是极其重要的一环，在设计回报函数的时候，必须杜绝使得agent贪婪、胆怯和鲁莽的回报函数。

基于如下公式计算回报值：

R_t＝TT_t-TT_t-1

R_t表示第t时刻的回报，TT_t表示第t时刻的总拖期，TT_t-1表示第t-1时刻的总拖期。

在一些实施例中，将当前时刻的状态特征矩阵、当前时刻的最优调度规则、当前时刻的即时回报值，以及下一时刻的状态特征矩阵，作为当前时刻的经验样本，存入经验池，包括：

将当前时刻的状态特征矩阵、当前时刻的最优调度规则、当前时刻的即时回报值，以及下一时刻的状态特征矩阵，作为当前时刻的经验样本，存入第一经验池；

在当前时刻的经验样本的即时回报值高于目标回报值的情况下，还将当前时刻的经验样本存入第二经验池；

从经验池中选取经验样本，并基于选取的经验样本训练在线策略网络，包括：

基于第一目标比例从第一经验池中选取第一部分样本，以及基于第二目标比例从第二经验池中选取第二部分样本；

基于第一部分样本和第二部分样本，训练在线策略网络。

需要说明的是，第一目标比例和第二目标比例是设定的比例值，第一目标比例和第二目标比例加起来为1。

在一些实施例中，在当前时刻的经验样本的即时回报值高于目标回报值的情况下，还将当前时刻的经验样本存入第二经验池，包括：

将第二经验池中经验样本的最低即时回报值作为目标回报值；

在当前时刻的经验样本的即时回报值高于目标回报值的情况下，将当前时刻的经验样本替换第二经验池中最低即时回报值对应的经验样本。

在一些实施例中，第一目标比例和第二目标比例相等。

在一些实施例中，车间调度方法还包括：

在将当前时刻的状态特征矩阵输入至在线策略网络之前，初始化在线策略网络和目标策略网络，使在线策略网络和目标策略网络的初始参数同步；

在在线策略网络的训练次数达到目标次数后，将在线策略网络的参数同步至目标策略网络；

基于目标策略网络，得到目标策略网络的长期回报值；

基于第一部分样本和第二部分样本，训练在线策略网络，包括：

基于第一部分样本、第二部分样本以及长期回报值，训练在线策略网络。

在一些实施例中，车间调度方法还包括：

需要说明的是，在完成所述多个调度方案前后，若所述第一部分调度方案在所述多个调度方案的比例增加，也即是，在完成所述多个调度方案后的所述第一部分调度方案在所述多个调度方案的比例，大于在完成所述多个调度方案前的所述第一部分调度方案在所述多个调度方案的比例。

在完成所述多个调度方案前后，若所述第一部分调度方案在所述多个调度方案的比例没有增加，则停止在所述目标调度规则库中删除调度规则。

每执行一个调度指令，都会有一个对应的即时回报值，一个调度方案包含有多条调度指令，完成一个调度方案后，将这个调度方案中所有调度指令对应的即时回报值累加，得到该调度方案的总即时回报值。

在一些实施例中，更新训练在线策略网络的流程如图2所示：

Step1：初始化待训练的智能体的目标策略网络和在线策略网络的参数，以及经验池D(即：第一经验池)和精英经验池ED(即：第二经验池)，转Step1。

Step2：根据于问题本身，初始化状态特征S0转Step3；

Step3：智能体通过在线策略网络，根据状态St计算出状态-价值Q(St,At)，接着采用∈-贪婪准则得到当前状态下选择的动作At；车间根据动作At所对应的复合调度规则，选择指定的工件到指定的机器上加工。转Step4；

Step4：计算回报值，此时，调度时间刻由t转到t+1,状态特征也随即转化到S(t+1)，将经验都依次存储到经验池D中，若经验的回报值比精英经验池中最低的回报值高，则把最低回报值所对应的经验样本用当前时刻的经验样本替代。转Step5；

Step5：若所有的工件都完成加工，转Step5，否则转Step3；

Step6：每隔固定的代数，从经验池和精英经验池中等比例取出经验样本,采用DQN策略网络更新方式，采用Adam优化器训练在线策略网络，每隔固定的代数，将目标策略网络的参数和在线策略网络的参数同步，转Step7；

Step7：若当前所有的场次都结束，则转Step8，否则，转Step2；

Step8：结束。

在一些其他实施例中，本发明提供的智能机加工车间实时调度问题重点考虑工件随机达到的柔性作业车间调度问题。具体的描述为：某智能车间有M台机器M＝{M₁,M₂,…M_n}，N个随机到达的工件J＝{J₁,J₂,…,J_n}，每个工件J_i包含有n_i个工序，每道工序至少有一台可选机器，该问题是在规划期内，实时地寻找一组最优的机器选择和工序排序序列决策，使得工件的总拖期最小。

为了简化问题，便于求解，该问题的约束条件如下：

1)同一时刻在同一机器上只允许加工一个工件；

2)同一工件在同一时刻只能被一台机器加工，且工件一旦开始加工就不能中断；

工序加工时间取决于所选机器，加工时间已知。

其中，各参数对应含义如下所示：

n：总工件数

m：总机器数

J_i：第i个工件

n_i：工件J_i的总工序数

M_k：第k台机器

O_ij：第i个工件的第j道工序

t_ijk：工序O_ij在机器M_k上的加工时间

C_ij：工序O_ij的结束加工时间

A_i：工件J_i的的到达时间

D_i：工件J_i的交货期

B_kt：机器M_k上的第t个事件点的开始时间

TT：总拖期

X_ijkt： 0-1决策变量，当工序O_ij在机器M_k上第t个事件点加工时为1，否则为0

M：足够大的正数

决策变量有：

目标是总拖期最小，如下：

公式(3)，(4)和(5)表示的是分配约束。公式(3)表示每个工序必须要被分到一个事件点上。公式(4)表示每个事件点至多有一个分配一个工序。公式(5)表示同一个机器上前面的事件点比后面的事件点具有更高的优先权。公式(6)和(7)表示机器的约束。公式(8)和(9)表示工序的约束。公式(10)表示所有工件的开始加工时间均大于其到达时间。

在实际的生产过程中，工件随着时间的推进不断到达，车间的状态随着时间的推进不断发生变化，在每个调度时刻，需要同时进行机器选择和工序排序两个序列决策问题。本发明首先，设计机加工车间的动态响应机制。接着，针对于机加工车间问题特征，设计了基于DQN(即：Deep Q-Network)的深度强化学习算法求解，以实现总拖期最小。

在实际的生产过程中，工件随着时间的推进不断到达，决策时刻为新工件到达或者工件结束加工，决策对象为当前时间刻待加工的工件，决策内容是选择待加工的工件到可选机器上加工，直至所有的工件加工完成。图3所示为本发明提出的智能机加工车间的实时调度流程。

基于强化学习的方法通过与调度数据交互，根据生产***的反馈逐步调整自己的策略，以实现调度策略的优化。首先，设计智能体与环境交互的过程。然后，通过定义状态，动作和回报函数，将柔性作业车间调度问题转化为马尔科夫决策过程。最后，采用基于DQN优化方法，更新策略参数，从而实现最优在线调度。

智能体与环境交互过程的框架图如图1所示，主要是分为三个部分组成，第一部分为在线应用部分，通过调度规则库，回报函数模块，及状态表达模块，智能体与智能机加工车间进行交互，实时控制车间的生产流程。第二部分为缩小当前的动作空间，即从总的调度规则库选择出适合当前的环境的调度规则。第三部分为离线学习阶段，通过在线应用得到的大量的样本，优化策略网络的参数，从而得到最优策略。其中，第一部分直接为在线阶段，直接控制车间的生产过程，第二部分和第三部分离线部分，第二部分提供符合场景的调度规则库，第三部分提供适合当前生产环境的策略。具体的框架图如图4所示。

在定义目标调度规则库，也即是动作空间的时候，要保证两点，第一：动作的合法性，第二：动作的有效性。

在调度领域中，动作是指从待加工工件中选择合适的工件加工。为了保证动作的合法性，可以将调度规则作为动作。由于柔性作业车间调度问题具有两个子问题，机器选择子问题和工序排序子问题，在每个调度时刻，需要同时选择一个机器部分调度规则和工序排序调度规则才可以完成此时的调度任务。

因此，本发明构造动作的乘积空间，即每一个机器部分的调度规则都与所有工序排序的调度规则组合，而每个工序排序的调度规则也与所有工序部分的调度规则进行组合。

由于不确定那个机器部分调度规则与工序部分调度规则组合在当前场景下效果较好。采用动作空间缩减方式，更新目标调度规则库，选择出适合当前环境的组合调度规则。

如表1所示，选择机器部分调度规则SPT,LU与三个工序部分调度规则EDD，LPT，LRT形成六个符合调度规则。

表1

其中，SPT：最短加工时间优先；LU：利用率低优先；EDD：交货期越早越优先；LPT：加工时间越长有优先；LRT：剩余加工时间越长越优先。

由于在不同的场景下，优良解需要的调度规则是不同的，若把所有的调度规则直接当作动作空间，会使得算法的性能较差，出现收敛速度慢，甚至是无法收敛的情况。

为了解决上述问题，本发明提出了一种动作空间缩小技术。即，针对于不同的场景，把调度规则总库中的调度规则不断缩减，使得剩余的调度规则适合当前的环境，从而提升算法的性能。

判断一个调度规则是否符合当前的场景，可以通过在寻优过程中大量累计的经验样本中，在优良场数出现的次数与非优良解中出现的次数，若其在优良场数中出现的次数比例大于在非优良解中出现的比例，说明此调度规则适合当前的场景，应该保留下来，若其在优良场数中出现的次数比例小于在非优良解中出现的比例，说明这个调度规则不适合当前的场景，应该被删除。基于这个准则，提出了一种动作空间缩小技术，用来找到适合当前场景的目标调度规则库。对应算法伪代码如表2所示：

表2

图5和图6分别为某车间在智能体训练过程中的总拖期及总回报的曲线。从上述可以看出，该方法能够实现实时调度车间的生产过程，从而实现车间生产的智能化。

综上所述，本发明提供的车间调度方式，是深度强化学习求解实际问题的关键是把问题转化为马尔可夫决策过程，也就是如何定义车间调度场景对应的状态，动作及回报函数。

基于问题特征，构建六个状态特征矩阵表达当前的状态，接着，为了处理在不同的场景下，调度规则库的优良差异性很大这一问题，提出了一种动作空间缩减技术，从调度规则总库中选择出适合当前的调度规则形成适合当前环境的目标调度规则库。随后，通过问题的数据特征，计算出目标值的基准值，采用基准值的方式定义回报函数。最后，采用DQN(即：Deep Q-Network)系列算法，学习在此马尔科夫过程中的最优的控制策略。

深度学习作为机器学习一个重要研究热点，通过多层网络结构和非线性转化，组合低层特征，形成易于区分高层表达，从而发现数据底层逻辑。强化学习是机器学习中另外一个研究热点，已经在具有序列决策特征的问题上取得了不错的效果，智能体通过与环境交互，通过不断的探索和利用，学习到累计回报值最大的策略。深度学习侧重于对事物的感知和表达，强化学习侧重学习问题的策略。

因此，结合深度学习的底层逻辑发现能力和强化学习的在线感知能力，有效保证智能体清晰感知环境，选择适合当前时刻的最优调度规则，快速响应实时调度，保证调度的性能，实现智能机加工车间实时调度。将深度学习与强化学习进行结合用在车间在线调度领域中，使得智能体更加清楚感知到环境的前提下，可以选择出适合当前时刻的最优调度规则，在快速响应实时调度的同时，又保证调度的性能。

下面对本发明提供的车间调度装置进行描述，下文描述的车间调度装置与上文描述的车间调度方法可相互对应参照。

如图7所示，本发明提供的车间调度装置700包括：数据转换模块710、第一处理模块720、第二处理模块730和调度执行模块740。

数据转换模块710用于获取车间的生产状态参数，并基于生产状态参数，得到状态特征矩阵。

第一处理模块720用于将当前时刻的状态特征矩阵输入至在线策略网络，得到当前时刻的状态动作价值。

第二处理模块730用于基于当前时刻的状态动作价值，以及目标调度规则库，得到当前时刻的最优调度规则。

调度执行模块740用于基于当前时刻的最优调度规则，执行车间调度指令。

在一些实施例中，车间调度装置700还包括：回报计算模块、经验存储模块和网络训练模块。

回报计算模块用于基于上一时刻的总拖期，以及当前时刻的总拖期，得到当前时刻的即时回报值。

经验存储模块用于将当前时刻的状态特征矩阵、当前时刻的最优调度规则、当前时刻的即时回报值，以及下一时刻的状态特征矩阵，作为当前时刻的经验样本，存入经验池。

网络训练模块用于从经验池中选取经验样本，并基于选取的经验样本训练在线策略网络。

在一些实施例中，经验存储模块包括：第一存入单元和第二存入单元。

第一存入单元用于将当前时刻的状态特征矩阵、当前时刻的最优调度规则、当前时刻的即时回报值，以及下一时刻的状态特征矩阵，作为当前时刻的经验样本，存入第一经验池。

第二存入单元用于在当前时刻的经验样本的即时回报值高于目标回报值的情况下，还将当前时刻的经验样本存入第二经验池。

网络训练模块包括：样本选取单元和网络训练单元。

样本选取单元用于基于第一目标比例从第一经验池中选取第一部分样本，以及基于第二目标比例从第二经验池中选取第二部分样本。

网络训练单元用于基于第一部分样本和第二部分样本，训练在线策略网络。

在一些实施例中，第二存入单元包括：目标确定单元和样本替换单元。

目标确定单元用于将第二经验池中经验样本的最低即时回报值作为目标回报值。

样本替换单元用于在当前时刻的经验样本的即时回报值高于目标回报值的情况下，将当前时刻的经验样本替换第二经验池中最低即时回报值对应的经验样本。

在一些实施例中，第一目标比例和第二目标比例相等，例如，在第一经验池和第二经验池中等比例选取样本，训练在线策略网络。

在一些实施例中，车间调度装置700还包括：初始化模块、参数同步模块和长期回报获取模块。

初始化模块用于在将当前时刻的状态特征矩阵输入至在线策略网络之前，初始化在线策略网络和目标策略网络，使在线策略网络和目标策略网络的初始参数同步。

参数同步模块用于在在线策略网络的训练次数达到目标次数后，将在线策略网络的参数同步至目标策略网络。

长期回报获取模块用于基于目标策略网络，得到目标策略网络的长期回报值。

网络训练单元进一步用于基于第一部分样本、第二部分样本以及长期回报值，训练在线策略网络。

在一些实施例中，车间调度装置700还包括：统计模块、调度划分模块、比例计算模块和规则库更新模块。

统计模块用于在单个调度场景下，统计每个调度方案对应的总即时回报值；其中，所述单个调度场景包含有多个调度方案，且每个调度方案包含有多个调度指令。

调度划分模块用于基于所述调度方案的总即时回报值，将所述多个调度方案，分为第一部分调度方案和第二部分调度方案；其中，所述第一部分调度方案中每一调度方案对应的总即时回报值，均大于所述第二部分调度方案中每一调度方案对应的总即时回报值；

比例计算模块用于在完成所述多个调度方案前后，若所述第一部分调度方案在所述多个调度方案的比例增加，则计算所述目标调度规则库中的每一调度规则在所述第一部分调度规则中出现的次数，与在所述第二部分调度规则中出现的次数的比例值；

规则库更新模块用于将最小比例值对应的调度规则，从所述目标调度规则库中删除，得到新的目标调度规则库。

车间调度装置700还包括：停止更新模块。停止更新模块用于在完成所述多个调度方案前后，若所述第一部分调度方案在所述多个调度方案的比例没有增加，则停止在所述目标调度规则库中删除调度规则。

下面对本发明提供的电子设备及存储介质进行描述，下文描述的电子设备及存储介质与上文描述的车间调度方法可相互对应参照。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行车间调度方法，该方法包括：

此外，上述的存储器80中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的车间调度方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的车间调度方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种车间调度方法，其特征在于，包括：

基于所述当前时刻的最优调度规则，执行车间调度指令；

所述方法还包括：

从所述经验池中选取经验样本，并基于选取的经验样本训练在线策略网络；

所述将所述当前时刻的状态特征矩阵、所述当前时刻的最优调度规则、所述当前时刻的即时回报值，以及下一时刻的状态特征矩阵，作为当前时刻的经验样本，存入经验池，包括：

基于所述第一部分样本和所述第二部分样本，训练所述在线策略网络；

所述方法还包括：

基于所述第一部分样本、所述第二部分样本以及所述长期回报值，训练所述在线策略网络；

所述方法还包括：

在完成所述多个调度方案前后，若所述第一部分调度方案在所述多个调度方案的比例增加，则计算所述目标调度规则库中的每一调度规则在第一部分调度规则中出现的次数，与在第二部分调度规则中出现的次数的比例值；

2.根据权利要求1所述的车间调度方法，其特征在于，所述在所述当前时刻的经验样本的即时回报值高于目标回报值的情况下，还将所述当前时刻的经验样本存入第二经验池，包括：

3.根据权利要求1所述的车间调度方法，其特征在于，所述第一目标比例和所述第二目标比例相等。

4.一种车间调度装置，其特征在于，包括：数据转换模块，用于获取车间的生产状态参数，并基于所述生产状态参数，得到状态特征矩阵；

调度执行模块，用于基于所述当前时刻的最优调度规则，执行车间调度指令；

所述车间调度装置还包括：回报计算模块、经验存储模块和网络训练模块；

所述回报计算模块用于基于上一时刻的总拖期，以及当前时刻的总拖期，得到当前时刻的即时回报值；

所述经验存储模块用于将所述当前时刻的状态特征矩阵、所述当前时刻的最优调度规则、所述当前时刻的即时回报值，以及下一时刻的状态特征矩阵，作为当前时刻的经验样本，存入经验池；

所述网络训练模块用于从所述经验池中选取经验样本，并基于选取的经验样本训练在线策略网络；

所述经验存储模块包括：第一存入单元和第二存入单元；

所述第一存入单元用于将所述当前时刻的状态特征矩阵、所述当前时刻的最优调度规则、所述当前时刻的即时回报值，以及下一时刻的状态特征矩阵，作为当前时刻的经验样本，存入第一经验池；

所述第二存入单元用于在所述当前时刻的经验样本的即时回报值高于目标回报值的情况下，还将所述当前时刻的经验样本存入第二经验池；

所述网络训练模块包括：样本选取单元和网络训练单元；

所述样本选取单元用于基于第一目标比例从所述第一经验池中选取第一部分样本，以及基于第二目标比例从所述第二经验池中选取第二部分样本；

所述网络训练单元用于基于所述第一部分样本和所述第二部分样本，训练所述在线策略网络；

所述车间调度装置还包括：初始化模块、参数同步模块和长期回报获取模块；

所述初始化模块用于在将所述状态特征矩阵输入至在线策略网络之前，初始化在线策略网络和目标策略网络，使所述在线策略网络和所述目标策略网络的初始参数同步；

所述参数同步模块用于在所述在线策略网络的训练次数达到目标次数后，将所述在线策略网络的参数同步至所述目标策略网络；

所述长期回报获取模块用于基于所述目标策略网络，得到所述目标策略网络的长期回报值；

所述网络训练单元进一步用于基于所述第一部分样本、所述第二部分样本以及所述长期回报值，训练所述在线策略网络；

所述车间调度装置还包括：统计模块、调度划分模块、比例计算模块和规则库更新模块；

所述统计模块用于在单个调度场景下，统计每个调度方案对应的总即时回报值；其中，所述单个调度场景包含有多个调度方案，且每个调度方案包含有多个调度指令；

所述调度划分模块用于基于所述调度方案的总即时回报值，将所述多个调度方案，分为第一部分调度方案和第二部分调度方案；其中，所述第一部分调度方案中每一调度方案对应的总即时回报值，均大于所述第二部分调度方案中每一调度方案对应的总即时回报值；

所述比例计算模块用于在完成所述多个调度方案前后，若所述第一部分调度方案在所述多个调度方案的比例增加，则计算所述目标调度规则库中的每一调度规则在第一部分调度规则中出现的次数，与在第二部分调度规则中出现的次数的比例值；

所述规则库更新模块用于将最小比例值对应的调度规则，从所述目标调度规则库中删除，得到新的目标调度规则库。

5.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述车间调度方法的步骤。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述车间调度方法的步骤。