CN114757512B

CN114757512B - 一种基于图神经网络的作业车间调度方法

Info

Publication number: CN114757512B
Application number: CN202210346683.0A
Authority: CN
Inventors: 吕雅琼; 杨格格
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2024-06-18
Anticipated expiration: 2042-04-02
Also published as: CN114757512A

Abstract

本发明属于生产计划技术领域，公开了一种基于图神经网络的作业车间调度方法，基于图神经网络的作业车间调度方法包括：可视化工件内部生产工序的前后顺序以及各工件之间的机器指派情况；设计奖励函数对调度决策进行评估；对析取图节点特征信息进行嵌入提取；进行调度策略网络学习及图神经网络参数调整。本发明提高了制造***作业车间调度方法的泛化能力，可以应用于同一***内不同网络规模的作业车间调度问题。本发明将作业调度问题网络拓扑化，提高调度算法的泛化能力，可以有效处理作业车间调度问题，具有通用性强和自适应性高的特点。

Description

一种基于图神经网络的作业车间调度方法

技术领域

本发明属于生产计划技术领域，尤其涉及一种基于图神经网络的作业车间调度方法。

背景技术

目前，生产计划与调度是智能工厂的管理核心。大规模、不确定、强耦合的复杂生产制造***给作业车间生产调度带来了较大的挑战。

现有的调度算法主要分为两类：精确求解与近似求解。精确求解如分支定界法，数学规划法等会因问题规模的扩大而导致维度灾难，使得调度结果不能很好地应用于规模较大的调度问题。近似求解，主要由启发式算法与监督学习组成，典型方法有分派规则法，领域搜索法以及神经网络。现有近似求解法的运行效果主要取决于人为设定的规则以及历史调度数据。当制造***环境改变时，需要耗费大量精力重新决定调度规则，难以较好地适用于不确定性较强，动态变化的作业车间调度场景。

通过上述分析，现有技术存在的问题及缺陷为：现有的调度方法可扩展性不强，适用场景具备一定限制，通用性不强、自适应性不高，无法应用于同一 ***内不同网络规模的作业车间调度。

发明内容

针对现有技术存在的问题，本发明提供了一种基于图神经网络的作业车间调度方法。

本发明是这样实现的，一种基于图神经网络的作业车间调度方法，所述基于图神经网络的作业车间调度方法包括：

可视化工件内部生产工序的前后顺序以及各工件之间的机器指派情况；设置奖励函数对调度决策进行评估；对析取图节点特征信息进行嵌入提取；进行调度策略网络学习及图神经网络参数调整。

进一步，所述基于图神经网络的作业车间调度方法包括以下步骤：

步骤一，构建作业车间调度的析取图模型，并获取作业车间工件加工数据；基于构建的作业车间调度的析取图模型，建立马尔可夫决策模型；

步骤二，利用图神经网络提取不同节点之间的特征信息，并通过聚合函数组合消息；

步骤三，利用Actor网络进行调度决策，利用Critic网络评价Actor决策效果，利用图神经网络更新节点状态；

步骤四，判断调度结果是否满足预设标准，若满足，则输出调度方案；否则利用近端策略优化算法训练图神经网络、Actor以及Critic的参数，并返回步骤二。

进一步，所述构建作业车间调度的析取图模型，并获取作业车间工件加工数据包括：

(1)构建作业车间调度的析取图模型如下：

g＝((V，C)∪D)；

其中，V表示工序集，所述工序集包含作业车间的工序，所述工序在V中表示为节点；C表示合取边集；所述合取边集包含合取边，每个合取边表示同一工件上两个连续工序之间的优先约束；D表示析取边集，所述析取边集包含析取边，每个析取边表示两个节点之间的机器共享约束，当两个工序可由同一台机器处理时，相应的工序节点与析取边连接；

(2)获取作业车间工件加工数据，利用作业车间工件加工数据表示作业车间动态调度实时状态，同时利用作业车间工件加工数据作为节点V的特征信息；

所述节点V的特征信息包括：节点状态、处理时间、后续工序数、工序开始时间；

所述节点状态包含[1,0,0]、[0,1,0]和[0,0,1]；所述[1,0,0]、[0,1,0]和[0,0,1]分别表示工序尚未开始、工序正在处理和工序已完成；

所述处理时间为工序的处理时间；所述后续工序数为同一工件工序V的后续工序数；所述工序开始时间为工序V的开始处理时间。

进一步，所述马尔可夫决策模型如下：

马尔可夫元组(G，A，P，R，γ)；

其中，G表示作业车间调度状态，A表示调度动作，γ表示折扣因子，P表示状态转移概率，R表示每次动作获得的回报，以最小化完工时间为调度目标；所以动作回报公式为：R＝1/(makespan(g’)-makespan(g))；其中，makespan表示工件序列加工时间总和，g表示当前状态，g’表示下一状态。

进一步，所述利用图神经网络提取不同节点之间的特征信息，并通过聚合函数组合消息包括：

(1)通过节点嵌入，提取不同节点之间的特征信息：

其中，f_p(.；θ₁)表示前序节点更新函数；f_s(.；θ₂)表示后序节点更新函数； f_d(.；θ₃)表示析取节点更新函数，f_n(.；θ₄)表示目标节点更新函数f_n(.；θ₄)；ReLU(x) ＝max(0,x)，||表示向量串联，和/>分别表示前序和后序节点集，/>表示析取邻居节点，/>表示第k代节点嵌入；

(2)当相应的工序节点完成或不存在时，将所述节点嵌入设置为零向量，其维数与H相同，不再参与图状态更新；

(3)通过多层感知机训练图神经网络的输入层、隐藏层、输出层的参数。

进一步，所述利用Actor网络进行调度决策，利用Critic网络评价Actor决策效果，利用图神经网络更新节点状态包括：

(1)采用softmax函数基于下式生成目标机器选择可操作工序的概率分布：

其中，f_l(.；θ₅)是一个可微函数，将节点嵌入信息映射到每个节点的logit值，表示在τ时刻可供选择的工序集；

(2)采用随机策略选择执行工序；并利用critic基于下式近似析取图状态值；

其中，表示图嵌入，f_v(.；θ₆)为一个可微函数；

(3)随机生成包括加工机器数，加工工件，加工工序及对应加工时间的初始图；对样本数据进行调度，收集状态转换样本。

进一步，所述利用近端策略优化算法训练图神经网络、Actor以及Critic的参数包括：

1)采用近端策略优化算法，对图神经网络和Actor-critic中的参数 Θ＝{θ₁,θ₂,θ₃,θ₄,θ₅,θ₆}进行更新，当且仅当图节点嵌入信息以及调度动作可提高调度效果时更新参数，目标函数公式如下：

其中Θ＝{θ₁,θ₂,θ₃,θ₄,θ₅,θ₆}；/>表示总体优势函数，公式如下：/>δ_τ＝r_τ+γV(g_τ+1；Θ)-V(g_τ；Θ)，/>函数中的T表示训练集的最后一步；

2)在目标函数中加入值函数误差和熵加成项：

其中，表示当前τ时刻π_Θ策略下的熵，/>表示实现的总回报，α和β表示相应系数；

3)不断朝梯度下降的方向更新Θ，直至收敛。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述基于图神经网络的作业车间调度方法如下步骤：

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述基于图神经网络的作业车间调度方法如下步骤：

步骤二，利用图神经网络提取提取不同节点之间的特征信息，并通过聚合函数组合消息；

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于执行所述基于图神经网络的作业车间调度方法。

结合上述的技术方案和解决的技术问题，请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明采用析取图对作业车间调度问题进行特征描述，将调度问题转换为序贯决策问题，基于马尔可夫决策过程进行建模，可以适用于不同网络规模的作业车间调度问题，无需重复训练，泛化性能强。本发明引入了近端策略优化算法对神经网络进行训练，可以稳定提高参数效果。本发明适用于动态调度场景，若某道工序出现问题，可直接将该节点及其后续节点设置为0向量节点，不影响其他工件调度。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明提高了制造***作业车间调度问题算法的泛化能力，可以应用于同一***内不同网络规模的作业车间调度问题。本发明将作业调度问题网络拓扑化，提高调度算法的泛化能力，可以有效处理作业车间调度问题，具有通用性强和自适应性高的特点。

附图说明

图1是本发明实施例提供的基于图神经网络的作业车间调度方法原理图；

图2是本发明实施例提供的基于图神经网络的作业车间调度方法流程图；

图3是本发明实施例提供的析取图特征表示示意图；

图4是本发明实施例提供的节点特征信息一阶聚合更新示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例提供的基于图神经网络的作业车间调度方法包括：

可视化工件内部生产工序的前后顺序以及各工件之间的机器指派情况；设计奖励函数对调度决策进行评估；对析取图节点特征信息进行嵌入提取；进行调度策略网络学习及图神经网络参数调整。

如图2所示，本发明实施例提供的基于图神经网络的作业车间调度方法包括以下步骤：

S101，构建作业车间调度的析取图模型，并获取作业车间工件加工数据；基于构建的作业车间调度的析取图模型，建立马尔可夫决策模型；

S102，利用图神经网络提取不同节点之间的特征信息，并通过聚合函数组合消息；

S103，利用Actor网络进行调度决策，利用Critic网络评价Actor决策效果，利用图神经网络更新节点状态；

S104，判断调度结果是否满足预设标准，若满足，则输出调度方案；否则利用近端策略优化算法训练图神经网络、Actor以及Critic的参数，并返回步骤 S102。

本发明实施例提供的构建作业车间调度的析取图模型，并获取作业车间工件加工数据包括：

(1)构建作业车间调度的析取图模型如下：

g＝((V，C)∪D)；

(2)获取作业车间工件加工数据，利用作业车间工件加工数据表示作业车间动态调度实时状态，同时利用作业车间工件加工数据作为节点V的特征信息。

本发明实施例提供的节点V的特征信息包括：节点状态、处理时间、后续工序数、工序开始时间；

节点状态包含[1,0,0]、[0,1,0]和[0,0,1]；[1,0,0]、[0,1,0]和[0,0,1]分别表示工序尚未开始、工序正在处理和工序已完成；

处理时间为工序的处理时间；后续工序数为同一工件工序V的后续工序数；工序开始时间为工序V的开始处理时间。

本发明实施例提供的马尔可夫决策模型如下：

马尔科夫元组(G，A，P，R，γ)；

本发明实施例提供的利用图神经网络提取不同节点之间的特征信息，并通过聚合函数组合消息包括：

(1)通过节点嵌入，提取不同节点之间的特征信息：

本发明实施例提供的利用Actor网络进行调度决策，利用Critic网络评价 Actor决策效果，利用图神经网络更新节点状态包括：

其中，表示图嵌入，f_v(.；θ₆)为一个可微函数；

本发明实施例提供的利用近端策略优化算法训练图神经网络、Actor以及 Critic的参数包括：

2)在目标函数中加入值函数误差和熵加成项：

3)不断朝梯度下降的方向更新Θ，直至收敛。

下面结合具体实施例对本发明的技术方案作进一步说明。

实施例1：

结合图1，本发明实施例提供的基于图神经网络的作业车间调度方法包括：

首先根据作业车间调度问题进行析取图建模。析取图g＝((V，C)∪D)，图神经网络训练过程，可随机生成初始图g0，指定加工机器数服从均匀分布(5， 9)，处理工件数量及对应工序数量服从均匀分布(1，9)，工序加工时间服从均匀分布(1，99)；

基于作业车间工件加工数据，表示作业车间动态调度实时状况，同时作为节点V的特征信息，其中包括：

节点状态：[1,0,0]、[0,1,0]和[0,0,1]分别表示工序尚未开始、工序正在处理和工序已完成，结合图2可知，节点1工序已完成，节点2正在处理，节点3尚未开始；

处理时间：工序的处理时间；

后续工序数：同一工件工序V的后续工序数；

工序开始时间：工序V的开始处理时间。

基于析取图建模信息，建立马尔可夫决策过程，将作业调度问题转换为序贯决策问题。马尔科夫元组(G，A，P，R，γ)，其中G表示作业车间调度状态，A表示调度动作，γ表示折扣因子，即当前动作对未来回报的影响程度，P 表示状态转移概率，R表示每次动作获得的回报，以最小化完工时间为调度目标，所以动作回报公式如下所示：

R＝1/(makespan(g’)-makespan(g))

其中，makespan表示工件序列加工时间总和，g表示当前状态，g’表示下一状态。

通过节点嵌入，提取不同节点之间的特征信息，通过聚合函数组合消息，结合图3，聚合邻居结点信息后，再加上本身结点信息进行嵌入更新。嵌入层主要考虑4个可微函数：前序节点更新函数f_p(.；θ₁)，后序节点更新函数f_s(.；θ₂)，析取节点更新函数f_d(.；θ₃)以及目标节点更新函数f_n(.；θ₄),公式如下所示：

其中ReLU(x)＝max(0,x)，||表示向量串联，和/>分别代表前序和后序节点集，/>代表析取邻居节点，/>表示第k代节点嵌入；

GNN可以计算节点之间的高阶交互，设置嵌入层K＝3；

当相应的工序节点完成或不存在时，将该节点嵌入设置为零向量，其维数与H相同，不再参与图状态更新；

采用多层感知机训练图神经网络参数，包括输入层，2层隐藏层，输出层；

输入层由前序节点、后序节点、析取节点以及本身节点的6维特征信息串联而成，共24维；

激活函数采用“ReLU”函数；

输出层生成6维的节点嵌入。

引入actor使用softmax函数生成目标机器选择可操作工序的概率分布，公式如下：

其中，f_l(.；θ₅)是一个可微函数，将节点嵌入信息映射到每个节点的logit值，为可供选择的工序集；

采用随机策略选择执行工序；

引入critic近似析取图状态值，公式如下：

其中代表图嵌入，f_v(.；θ₆)是一个可微函数。

actor和critic网络均通过多层感知机进行更新，actor输入层为6维节点嵌入信息，输出返回各调度动作的logit值。

从随机生成的作业车间调度实例每20个训练集中，收集状态转换样本；

采用近端策略优化算法，对图神经网络和Actor-critic中的参数 Θ＝{θ₁,θ₂,θ₃,θ₄,θ₅,}θ进行更新；

参数优化器类型：“Adam”；

学习率(η)：2.5*10-4；

折扣率(γ)：1；

GAE参数(λ)：0.95；

修剪参数(∈)：0.2；

值函数系数(α)：0.5；

熵加成系数(β)：0.01；

每次更新所训练集数(n)：20；

当且仅当图节点嵌入信息以及调度动作可以提高调度效果时更新参数，目标函数公式如下：

其中Θ＝{θ₁,θ₂,θ₃,θ₄,θ₅,θ₆}；

为总体优势函数，公式如下：

其中，δ_τ＝r_τ+γV(g_τ+1；Θ)-V(g_τ；Θ)，T为训练集的最后一步；

在目标函数中加入值函数误差和熵加成项，公式如下：

其中代表当前τ时刻π_Θ策略下的熵，/>代表实现的总回报，α和β为相应系数；

不断朝梯度下降的方向更新Θ，直至收敛。

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用的应用实施例。

本发明的应用实施例提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述基于图神经网络的作业车间调度方法。

本发明的应用实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述基于图神经网络的作业车间调度方法。

本发明的应用实施例提供了一种信息数据处理终端，所述信息数据处理终端用于执行基于图神经网络的作业车间调度方法。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

实验设计：

一、基于公共数据集(DMU Benchmark)进行算法性能测试

(1)将本方法与分派规则进行效果比对

选取对比的分派规则有：处理时间最短；交付期最早；随机选择等

(1)将本方法与邻域搜索算法进行效果比对

领域搜索算法包括：遗传算法；粒子群算法等

二、基于作业车间历史调度数据情况进行效果分析

实验预期效果：在大规模作业车间调度问题上，运行良好；遇到机器故障，订单临时取消等动态变化情况时，本方法鲁棒性较好，可顺利求解。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行***，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图神经网络的作业车间调度方法，其特征在于，所述基于图神经网络的作业车间调度方法包括：

可视化工件内部生产工序的前后顺序以及各工件之间的机器指派情况；设计奖励函数对调度决策进行评估；对析取图节点特征信息进行嵌入提取；进行调度策略网络学习及图神经网络参数调整；

所述基于图神经网络的作业车间调度方法包括以下步骤：

步骤四，判断调度结果是否满足预设标准，若满足，则输出调度方案；否则利用近端策略优化算法训练图神经网络、Actor以及Critic的参数，并返回步骤二；

所述构建作业车间调度的析取图模型，并获取作业车间工件加工数据包括：

(1)构建作业车间调度的析取图模型如下：

g＝((V，C)∪D)；

2.如权利要求1所述基于图神经网络的作业车间调度方法，其特征在于，所述马尔可夫决策模型如下：

马尔科夫元组(G，A，P，R，γ)；

其中，G表示作业车间调度状态，A表示调度动作，γ表示折扣因子，为当前动作对未来回报的影响程度，P表示状态转移概率，R表示每次动作获得的回报，以最小化完工时间为调度目标；所以动作回报公式为：R＝1/(makespan(g’)-makespan(g))；其中，makespan表示工件序列加工时间总和，g表示当前状态，g’表示下一状态。

3.如权利要求1所述基于图神经网络的作业车间调度方法，其特征在于，所述利用图神经网络提取不同节点之间的特征信息，并通过聚合函数组合消息包括：

(1)通过节点嵌入，提取不同节点之间的特征信息：

其中，f_p(.；θ₁)表示前序节点更新函数；f_s(.；θ₂)表示后序节点更新函数；f_d(.；θ₃)表示析取节点更新函数，f_n(.；θ₄)表示目标节点更新函数f_n(.；θ₄)；ReLU(x)＝max(0,x)，||表示向量串联，和/>分别表示前序和后序节点集，/>表示析取邻居节点，/>表示第k代节点嵌入；

4.如权利要求1所述基于图神经网络的作业车间调度方法，其特征在于，所述利用Actor网络进行调度决策，利用Critic网络评价Actor决策效果，利用图神经网络更新节点状态包括：

其中，表示图嵌入，f_v(.；θ₆)为一个可微函数；

5.如权利要求1所述基于图神经网络的作业车间调度方法，其特征在于，所述利用近端策略优化算法训练图神经网络、Actor以及Critic的参数包括：

1)采用近端策略优化算法，对图神经网络和Actor-critic中的参数Θ＝{θ₁,θ₂,θ₃,θ₄,θ₅,θ₆}进行更新，当且仅当图节点嵌入信息以及调度动作可提高调度效果时更新参数，目标函数公式如下：

其中Θ＝{θ₁,θ₂,θ₃,θ₄,θ₅,θ₆}；/>表示总体优势函数，公式如下：δ_τ＝r_τ+γV(g_τ+1；Θ)-V(g_τ；Θ)，T表示训练集的最后一步；

2)在目标函数中加入值函数误差和熵加成项：

3)不断朝梯度下降的方向更新Θ，直至收敛。

6.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-5任意一项所述基于图神经网络的作业车间调度方法如下步骤：

7.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-5任意一项所述基于图神经网络的作业车间调度方法如下步骤：

8.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于执行如权利要求1-5任意一项所述基于图神经网络的作业车间调度方法。