CN116011757B

CN116011757B - 订单接收和调度方法、装置以及电子设备

Info

Publication number: CN116011757B
Application number: CN202211701330.4A
Authority: CN
Inventors: 张虎; 黄焯豪; 何俊达; 王奔; 张梦杰; 何华
Original assignee: Guangzhou Automobile Group Co Ltd
Current assignee: Guangzhou Automobile Group Co Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2024-03-29
Anticipated expiration: 2042-12-28
Also published as: CN116011757A

Abstract

本申请实施例公开了一种订单接收和调度方法、装置以及电子设备。所述方法包括：响应于目标订单的到达，获取当前的调度状态信息；基于训练好的调度智能体和调度状态信息对目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量；基于目标订单的信息、生产信息和总体预估收益，得到接单状态信息；基于训练好的接单智能体和接单状态信息，得到决策结果；若决策结果表征接收目标订单，基于虚拟调度方案进行订单调度。通过上述方式使得，可以基于训练好的调度智能体、接单智能体结合调度状态信息、接单状态信息得到决策结果，从而可以提高决策的合理性，进而在考虑订单信息、生产信息的情况下，实现整体收益最大化。

Description

订单接收和调度方法、装置以及电子设备

技术领域

本申请涉及生产调度技术领域，更具体地，涉及一种订单接收和调度方法、装置以及电子设备。

背景技术

面向订单的生产企业通常需要对市场上大量订单进行快响应、低成本、高效率和个性化的极限生产挑战。为了追求最大化整体收益，订单接收和调度问题开始成为研究热点。在相关方式中，可以将订单接收和调度问题简化为单机或并行机的场景，并使用动态规划算法、邻域搜索算法等方法来求解。但在面对复杂生产状况、市场环境的情况下，柔性作业车间下的调度问题为N-P难问题，按照相关方式进行订单接收和调度无法使得整体收益最大化。

发明内容

鉴于上述问题，本申请实施例提出了一种订单接收和调度方法、装置以及电子设备，以实现改善上述问题。

第一方面，本申请实施例提供了一种订单接收和调度方法，所述方法包括：响应于目标订单的到达，获取当前的调度状态信息，所述目标订单为在订单生产过程中新到达的订单，所述调度状态信息表征当前的生产信息和目标订单的信息；基于训练好的调度智能体和所述调度状态信息对所述目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，所述总体预估收益表征接收所述目标订单后的总体收益；基于所述目标订单的信息、所述生产信息、所述总体预估收益和所述预估产能消耗量，得到接单状态信息；基于训练好的接单智能体和所述接单状态信息，得到决策结果，所述决策结果表征是否接收所述目标订单；若所述决策结果表征接收所述目标订单，基于所述虚拟调度方案进行订单调度。

第二方面，本申请实施例提供了一种订单接收和调度装置，所述装置包括：调度状态信息获取单元，用于响应于目标订单的到达，获取当前的调度状态信息，所述目标订单为在订单生产过程中新到达的订单，所述调度状态信息表征当前的生产信息和所述目标订单的信息；总体预估收益获取单元，用于基于训练好的调度智能体和所述调度状态信息对所述目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，所述总体预估收益表征接收所述目标订单后的总体收益；接单状态信息获取单元，基于所述目标订单的信息、所述生产信息、所述总体预估收益和所述预估产能消耗量，得到接单状态信息；决策结果获取单元，用于基于训练好的接单智能体和所述接单状态信息，得到决策结果，所述决策结果表征是否接收所述目标订单；订单调度单元，用于若所述决策结果表征接收所述目标订单，基于所述虚拟调度方案进行订单调度。

第三方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供的一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请实施例提供的一种订单接收和调度方法、装置、电子设备以及存储介质，在响应于表征在订单生产过程中新到达的订单的目标订单的到达后，获取表征当前的生产信息和目标订单的信息的调度状态信息，基于训练好的调度智能体和调度状态信息对目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、表征接收目标订单后的总体收益的总体预估收益，基于目标订单的信息、生产信息和总体预估收益，得到接单状态信息；基于训练好的接单智能体和接单状态信息，得到表征是否接收目标订单的决策结果，若决策结果表征接收目标订单，基于虚拟调度方案进行订单调度。通过上述方式使得，可以在目标订单到达时，基于训练好的调度智能体和调度状态信息对目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，并通过目标订单的信息、生产信息和总体预估收益，得到接单状态信息，以基于训练好的接单智能体和接单状态信息，得到决策结果，从而可以提高决策的合理性，进而在考虑订单信息、生产信息的情况下，实现生产过程的整体收益最大化。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的一种订单接收和调度方法的流程图；

图2示出了本申请提出的一种生产过程中订单接收和调度的示意图；

图3示出了本申请另一实施例提出的一种订单接收和调度方法的流程图；

图4示出了本申请图3中S2040的一种实施例方式的流程图；

图5示出了本申请提出的一种初始调度智能体进行决策的示意图；

图6示出了本申请提出的一种基于梯度上升算法更新初始决策策略的示意图；

图7示出了本申请图3中S2070的一种实施例方式的流程图；；

图8示出了本申请提出的一种基于DDQN算法对初始接单智能体进行训练的过程的示意图；

图9示出了本申请实施例提出的一种订单接收和调度装置的结构框图；

图10示出了本申请提出的一种电子设备的结构框图；

图11是本申请实施例的用于保存或者携带实现根据本申请实施例的订单接收和调度方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，发明人提出了一种订单接收和调度方法、装置以及电子设备，在响应于表征在订单生产过程中新到达的订单的目标订单的到达后，获取表征当前的生产信息和目标订单的信息的调度状态信息，基于训练好的调度智能体和调度状态信息对目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、表征接收目标订单后的总体收益的总体预估收益，基于目标订单的信息、生产信息和总体预估收益，得到接单状态信息；基于训练好的接单智能体和接单状态信息，得到表征是否接收目标订单的决策结果，若决策结果表征接收目标订单，基于虚拟调度方案进行订单调度。通过上述方式使得，可以在目标订单到达时，基于训练好的调度智能体和调度状态信息对目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，并通过目标订单的信息、生产信息和总体预估收益，得到接单状态信息，以基于训练好的接单智能体和接单状态信息，得到决策结果，从而可以提高决策的合理性，进而在考虑订单信息、生产信息的情况下，实现生产过程的整体收益最大化。

下面将结合附图对本申请的实施例进行介绍。

请参阅图1，本申请提供的一种订单接收和调度方法，所述方法包括：

S110：响应于目标订单的到达，获取当前的调度状态信息，所述目标订单为在订单生产过程中新到达的订单，所述调度状态信息表征当前的生产信息和目标订单的信息。

其中，目标订单的到达可以理解为在订单生产过程中有新订单生成或者产生。

作为一种方式，可以响应于目标订单的到达，获取目标订单的信息；获取当前的生产信息，生产信息可以表征当前机器的占用状况和已接收订单的加工状态；基于目标订单的信息和所述生产信息，可以得到调度状态信息。

其中，如表1所示，目标订单的信息可以包括预期单位收益、单位延期惩罚系数、约定交货期限，每个工序的加工时长、完成时间等。当前机器的占用状况可以表示当前生产环境下有几台机器，每台机器是否空闲，若不空闲则是在完成哪个订单下的哪一道工序等；已接收订单的加工状态可以表征已接收的每个订单的加工进度，例如，订单A有5道工序，现在完成了1个道工序，有1道工序正在加工，还剩3道工序。

表1

其中，调度状态信息可以用于刻画当前时刻下生产环境的车间状态。当前的调度状态信息可以包括当前时刻下所有订单的平均收益率、机器的平均利用率、机器利用率的标准差、所有订单对应的工序的平均完成率、所有订单的平均完成率、所有订单完成率的标准差、所有订单对应的工序的估计延期率、所有订单对应的工序的实际延期率。

作为一种方式，可以将生产信息以表格的形式(如表1)预先存储在电子设备的指定位置，在目标订单到达后，当前生产环境下的工作人员可以将目标订单的信息输入电子设备，以使电子设备可以获取目标订单的信息并将目标订单的信息与生产信息进行关联存储，进而可以基于存储的目标订单的信息和生产信息按照调度状态信息对应的计算公式得到调度状态信息。

其中，由于调度的目标是最大化整体收益，而单个订单的实际收益等于预期收益减去延期损失，所以应该尽可能减少订单的延期时间，特别是具有高收益的紧急订单的延期时间，因此计算订单工序的估计延期率有利于使训练好的调度智能体得到可以产生最大利益的调度方案。订单工序的估计延期率的计算公式可以为：

L＝A/B

其中，A可以表示当前时刻下剩余未加工订单的工序之和，B可以表示当前时刻下估计延期订单未加工的的工序之和。

可选的，可以将订单的松弛时间和该订单剩余工序的加工时长之和进行比较，基于比较结果确定该订单是否延期，订单的松弛时间可以理解为订单的约定交货期与当前时刻的差值，若松弛时间大于或者等于剩余工序的加工时长之和，则该订单可以被估计为不会延期；若松弛时间小于剩余工序的加工时长之和，则该订单可以被估计为延期。

可选的，生产信息可以是当前生产环境下的工作人员通过观察机器的运行状况手动输入电子设备的，也可以是当前生产环境下的每个机器主动上报至电子设备的。

S120：基于训练好的调度智能体和所述调度状态信息对所述目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，所述总体预估收益表征接收所述目标订单后的总体收益。

其中，训练好的调度智能体可以指训练完成的可以输出虚拟调度方案、总体预估收益和预估产能消耗量的神经网络。

作为一种方式，可以将调度状态信息输入训练好的调度智能体，以对目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量。

其中，虚拟重调度可以指训练好的调度智能体基于调度状态信息重新模拟目标订单和已接收订单的所有剩余未加工工序的加工顺序。虚拟调度方案可以指训练好的调度智能体模完成的目标订单和已接收订单的所有剩余未加工工序的加工顺序。

S130：基于所述目标订单的信息、所述生产信息、所述总体预估收益和所述预估产能消耗量，得到接单状态信息。

其中，接单状态信息可以用于刻画当前时刻下生产环境的车间状态和接收目标订单后产生的总体收益。接单状态信息可以包括目标订单的到达时间、约定交货期、工序数量、工序加工顺序、工序加工时长、预期收益、交货期紧迫度系数、总体预估收益、预估产能消耗量。

作为一种方式，可以基于步骤S110得到的目标订单的信息、生产信息、和步骤S120得到的总体预估收益、预估产能消耗量，得到接单状态信息。

S140：基于训练好的接单智能体和所述接单状态信息，得到决策结果，所述决策结果表征是否接收所述目标订单。

其中，训练好的接单智能体可以指训练完成的可以输出决策结果的神经网络。

作为一种方式，可以将接单状态信息输入训练好的接单智能体，以得到决策结果。

S150：若所述决策结果表征接收所述目标订单，基于所述虚拟调度方案进行订单调度。

作为一种方式，若基于步骤S140得到的决策结果表征接收目标订单，可以基于虚拟调度方案进行订单调度。

示例性的，如图2所示，在PCB(Printed Circuit Board，印刷电路板)的生产过程中，目标订单可以有多个，在基于训练好的调度智能体和接单智能体进行订单调度时，电子设备可以在每个目标订单到来时，获取调度状态信息，以基于训练好的调度智能体和调度状态信息对当前的目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量；再基于训练好的调度智能体和接单状态信息得到表征是否接受当前的目标订单的决策结果，若决策结果为接收当前的目标订单，则可以按照虚拟调度方案进行订单调度并基于订单调度结果更改生产信息，然后等待下一个目标订单的到来；若决策结果为拒绝当前的目标订单，则按照原有的调度方案进行订单调度，基于订单调度结果更改生产信息，然后等待下一个目标订单的到来。

作为另一种方式，若基于步骤S140得到的决策结果表征接收目标订单，可以将调度状态信息重新输入训练好的调度智能体，以得到新的虚拟调度方案，并基于新的虚拟调度方案进行订单调度。

本实施例提供的一种订单接收和调度方法，在响应于表征在订单生产过程中新到达的订单的目标订单的到达后，获取表征当前的生产信息和目标订单的信息的调度状态信息，基于训练好的调度智能体和调度状态信息对目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、表征接收目标订单后的总体收益的总体预估收益，基于目标订单的信息、生产信息和总体预估收益，得到接单状态信息；基于训练好的接单智能体和接单状态信息，得到表征是否接收目标订单的决策结果，若决策结果表征接收目标订单，基于虚拟调度方案进行订单调度。通过上述方式使得，可以在目标订单到达时，基于训练好的调度智能体和调度状态信息对目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，并通过目标订单的信息、生产信息和总体预估收益，得到接单状态信息，以基于训练好的接单智能体和接单状态信息，得到决策结果，从而可以提高决策的合理性，进而在考虑订单信息、生产信息的情况下，实现生产过程的整体收益最大化。

请参阅图3，本申请提供的一种订单接收和调度方法，所述方法包括：

S2010：获取训练数据，所述训练数据包括多个订单的信息和生产信息，所述多个订单的信息包括每个订单对应的工序，所述多个订单包括新到达的订单和已接收的订单。

其中，多个订单的信息还可以包括每个订单的预期单位收益、单位延期惩罚系数、约定交货期限，每个工序的加工时长、完成时间

作为一种方式，可以基于历史订单信息和历史生产信息得到训练数据。

作为另一种方式，可以先基于历史订单信息和历史生产信息生成与历史订单信息、历史生产信息相似的新订单信息、新生产信息，再基于新订单信息、新生产信息得到训练数据。

S2020：获取预先设计的调度动作空间，所述调度动作空间包括多个调度规则，所述多个调度规则表征初始调度智能体可以执行的动作。

其中，多个调度规则可以包括第一基础规则、第二基础规则、第三基础规则、第四基础规则和复合规则，第一基础规则表征优先加工到达时间早的订单，第二基础规则表征优先加工交货期早的订单，第三基础规则表征优先加工松弛时间短的订单，第四基础规则表征优先加工剩余工序平均可用时间少的订单，复合规则表征可以最小化订单延期时间且最大化总利润的规则。剩余工序平均可用时间可以通过订单的松弛时间除以该订单剩余工序的数量得到。

可选的，第一基础规则可以为FIFO规则，第二基础规则可以为EDD规则，第三基础规则可以为SL规则，第四基础规则可以为OPN规则。复合规则可以为当没有估计延期订单时，选择单位加工时间利润最高的订单；当有估计延期订单时，选择单位时间延期损失最高的订单；分配的机器为满足该订单工序加工条件下最早可用的机器。

作为一种方式，电子设备可以接收开发人员输入的包含多个调度规则的文件，并对文件进行解析，以得到预先设计的调度动作空间。

由于单一的调度规则通常只适用于单一的场景，当场景发生变化时，可能导致决策出现严重错误。因此，在本申请实施例中，可以通过设置多个调度规则，可以使训练好的调度智能体在面对复杂多变的生产场景时，可以动态选取不同的调度规则，以实现在对应的生产场景下的整体收益最大化。

S2030：获取预先设计的单步奖励函数，所述单步奖励函数表征所述初始调度智能体执行一个工序可产生的收益。

作为一种方式，电子设备可以接收开发人员输入的包含单步奖励函数的文件，并对文件进行解析，以得到预先设计的单步奖励函数。单步奖励函数的表达式可以为：

其中，t_i,j,k可以表示工序O_i,j在第k台机器上的加工时长，R_{i_ave}可以表示订单J_i的预期单位收益，C_i,j可以表示工序O_i,j的完成时间，D_i可以表示订单J_i的约定交货期，DT_i可以表示订单J_i的上道工序的完工时间。

单步奖励函数可以理解为若工序完成时间大于工序对应的订单的约定交货期限，基于工序对应的订单的预期单位收益、单位延期惩罚系数、约定交货期限以及目标工序的加工时长、完成时间，得到单步奖励；若工序完成时间小于或等于工序对应的订单的约定交货期限，基于工序对应的订单的预期单位收益、工序的加工时长，得到单步奖励。

S2040：基于所述训练数据、所述多个规则和所述单步奖励函数对初始调度智能体进行训练，得到所述训练好的调度智能体。

作为一种方式，在基于步骤S2010～步骤2030得到训练数据、多个规则和单步奖励函数后，可以通过REINFORCE算法对训练初始调度智能体进行训练，得到所述训练好的调度智能体。

具体地，如图4所示，所述基于所述训练数据、所述多个调度规则和所述单步奖励函数对初始调度智能体进行训练，得到所述训练好的调度智能体，包括：

S2041：基于所述训练数据，获取当次训练过程中的初始调度状态信息，所述初始调度状态信息表征初始生产信息和目标订单的信息。

其中，初始调度状态信息可以用于刻画初始生产环境的车间状态。初始调度状态信息可以包括初始所有订单的平均收益率、机器的平均利用率、机器利用率的标准差、所有订单对应的工序的平均完成率、所有订单的平均完成率、所有订单完成率的标准差、所有订单对应的工序的估计延期率、所有订单对应的工序的实际延期率。示例性的，初始调度状态信息可以表示为S1。

S2042：获取当次训练过程中的初始决策策略，所述初始决策策略为所述初始调度智能体的网络参数。

其中，初始调度智能体的网络参数可以为表征初始调度智能体的神经网络的权重。

作为一种方式，通过随机初始化的方式生成初始决策策略。

S2043：在当次训练过程中，基于所述初始决策策略对所述调度动作空间进行循环采样，以得到当次训练过程对应的多条决策轨迹，每条决策轨迹表征所述训练数据中多个订单的所有工序被安排完毕所形成的轨迹。

其中，对调度动作空间进行循环采样可以理解为在生成每一步决策的过程中，都需要执行从调度动作空间中选择出一个调度规则作为当前步决策的目标调度规则。每条决策轨迹可以包括多步决策，每一步决策可以对应有调度状态信息、目标调度规则、单步奖励。

作为一种方式，所述在当次训练过程中，基于所述初始决策策略对所述调度动作空间进行循环采样，以得到当次训练过程对应的多条决策轨迹，包括：

S1：在当次训练过程中，基于所述初始决策策略从所述调度动作空间中确定当次训练过程中当前回合的每一步决策对应的目标调度规则。

其中，初始调度智能体可以包括特征提取网络和分类网络，特征提取网络可以用于提取有利于调度规则选取的特征，分类网络可以基于提取出的特征确定目标调度规则。特征提取网络可以是全连接网络，分类网络可以是softmax函数。

作为一种方式，在当前回合的每一步决策中，可以将每一步决策对应的调度状态信息输入到初始调度智能体的特征提取网络中，基于初始调度智能体的初始决策策略得到特征，再将特征输入初始调度智能体的分类网络中，分类网络可以输出每个调度规则对应的概率值，将概率值最大的调度规则作为当前回合中每一步决策对应的目标调度规则。

示例性的，可以将初始调度状态信息输入到初始调度智能体的特征提取网络中，基于初始调度智能体的初始决策策略得到特征，再将特征输入初始调度智能体的分类网络中，分类网络可以输出每个调度规则对应的概率值，将概率值最大的调度规则作为当前回合中第一步决策的目标调度规则。

S2：基于所述当前回合的每一步决策对应的目标调度规则，得到所述当前回合的每一步决策对应的单步收益和每一步决策对应的下一步决策的调度状态信息。

作为一种方式，基于当前回合的每一步决策对应的目标调度规则，确定每一步决策对应的目标工序，目标工序可以表征在每一步决策需要被执行的工序；基于所述目标工序，得到所述当前回合的每一步决策对应的单步收益。

可选的，可以基于S2030中预先设计的单步奖励函数得到当前回合的每一步决策对应的单步收益。具体地，可以基于训练数据获取目标工序对应的订单的预期单位收益、单位延期惩罚系数、约定交货期限以及所述目标工序的加工时长、完成时间；若目标工序完成时间大于目标工序对应的订单的约定交货期限，基于目标工序对应的订单的预期单位收益、单位延期惩罚系数、约定交货期限以及目标工序的加工时长、完成时间，得到当前回合的每一步决策对应的单步收益；若目标工序完成时间小于或等于目标工序对应的订单的约定交货期限，基于目标工序对应的订单的预期单位收益、目标工序的加工时长，得到当前回合的每一步决策对应的单步收益。

作为一种方式，基于所述当前回合的每一步决策对应的目标调度规则，确定每一步决策对应的目标工序以及目标工序对应的加工机器，进而可以对每一步决策对应的调度状态信息更新，以得到每一步决策对应的下一步决策的调度状态信息。

S3：基于所述每一步决策对应的目标调度规则、单步收益和所述每一步决策对应的下一步决策的调度状态信息，得到当前回合的决策轨迹。

作为一种方式，可以在当前回合训练开始前创建状态列表、动作列表和奖励列表，分别用于记录当前回合内的调度状态信息、目标调度规则和单步收益，以在训练过程中记录每一步决策对应的目标调度规则、单步收益和调度状态信息，从而在当前回合训练结束后，可以基于状态列表、动作列表和奖励列表得到当前回合的决策轨迹。

示例性的，决策轨迹可以表示为：τ＝s₁,a₁,r₁,s₂,a₂,r₂,...,s_T,a_T,r_T，其中，s_T可以表示第T步决策的调度状态信息，a_T可以表示第T步决策的目标调度规则，r_T可以表示第T步决策的单步收益。

示例性的，如图5所示，在当次回合中，初始调度智能体可以基于表示当前已安排的工序、剩余待安排工序和现阶段可安排工序的调度状态信息，选取目标调度规则，并基于目标调度规则进行当前步决策的工序和机器的调度，并在完成调度后更新调度状态信息，以继续进行下一步决策。

S4：若当前回合对应的回合数等于预设回合数，将当前回合以及当前回合之前的所有回合对应的决策轨迹作为所述当次训练过程对应的多条决策轨迹；若所述当前回合对应的回合数小于所述预设回合数，继续获取下一回合的决策轨迹。

作为一种方式，可以在训练开始前设置确定一次训练过程中需要生成决策轨迹的数量，也就是预设回合数，若当前回合对应的回合数等于预设回合数，可以将当前回合以及当前回合之前的所有回合对应的决策轨迹作为当次训练过程对应的多条决策轨迹；若当前回合对应的回合数小于预设回合数，继续获取下一回合的决策轨迹，且下一回合第一步决策对应的调度状态信息为初始调度状态信息。

S2044：基于所述当次训练过程对应的多条决策轨迹，得到所述当次训练过程中每条所述决策轨迹的累积收益。

其中，累积收益可以表示一条决策轨迹中多步决策的收益的总和。

作为一种方式，可以基于当次训练过程中每个回合对应的决策轨迹的单步收益，得到当次训练过程中每个回合对应的累积收益，以得到当次训练过程对应的累积收益。每个回合对应的总收益的计算公式如下：

其中，i可以表示回合数，γ^k-t可以表示第K步决策的折扣系数，该系数可以为预先设置好的，r_k可以表示第K步决策的单步收益。

S2045：基于所述当次训练过程中每条所述决策轨迹的累积收益和随机梯度上升算法，更新所述初始决策策略。

作为一种方式，可以将当次训练过程对应的累积收益输入随机梯度上升算法对应的公式得到更新参数，基于更新参数对初始决策策略进行更新。计算公式如下：

更新公式如下：

其中，θ_now可以表示初始决策策略，θ_new可以表示更新后的决策策略。

示例性的，如图6所示，在得到初始调度状态信息后，初始调度智能体可以对调度动作空间进行循环采样，以得到多余轨迹数据，进而基于梯度上升算法更新初始决策策略。

S2046：若当次训练过程满足目标条件，将更新决策策略的调度智能体作为所述训练好的调度智能体；若当次训练过程未满足目标条件，进入下一次训练过程，将所述更新决策策略的调度智能体作为下一次训练过程的初始调度智能体，将当次训练过程中的初始调度状态信息作为下一次训练过程的初始调度状态信息。

其中，目标条件可以为当次训练过程对应的训练次数达到预设训练次数，或者当次训练过程的调度智能体的网络收敛。

作为一种方式，若当次训练过程满足目标条件，表明训练结束，可以将更新决策策略的调度智能体作为训练好的调度智能体；若当次训练过程未满足目标条件，可以进入下一次训练过程，将更新决策策略的调度智能体作为下一次训练过程的调度智能体，将当次训练过程中的初始调度状态信息继续作为下一次训练过程的初始调度状态信息。

S2050：获取预先设计的接单动作空间，所述接单动作空间包括接收或者拒绝所述新到达的订单。

作为一种方式，电子设备可以接收开发人员输入的包含接单动作空间的文件，并对文件进行解析，以得到预先设计的接单动作空间。接单动作空间可以表示为：A＝{a1，a2}，其中，a1＝0可以表示接收订单，a2＝0可以表示拒绝订单。

S2060：获取预先设计的奖励函数，所述奖励函数表征接收或者拒绝所述新到达的订单可产生的收益。

作为一种方式，电子设备可以接收开发人员输入的包含奖励函数的文件，并对文件进行解析，以得到预先设计的奖励函数。奖励函数可以表示为：

其中，R_add可以表示订单接收前后总收益的差值，A＝a1可以表示接受订单，A＝a2可以表示拒绝订单。

S2070：基于所述训练数据、所述接单动作空间、所述奖励函数和所述训练好的调度智能体对初始接单智能体进行训练，得到所述训练好的接单智能体。

作为一种方式，如图7所示，所述基于所述训练数据、所述接单动作空间、所述奖励函数和所述训练好的调度智能体对初始接单智能体进行训练，得到所述训练好的接单智能体，包括：

S2071：基于所述训练数据，获取接单智能体训练的初始调度状态信息，所述初始调度状态信息表征初始生产信息和目标订单的信息。

其中，初始调度状态信息可以为基于步骤S2041得到的初始调度状态信息。

S2072：基于训练好的调度智能体和所述初始调度状态信息对所述多个订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，所述总体预估收益表征接收所述新到达的订单后的总体收益。

作为一种方式，可以将初始调度状态信息输入训练好的调度智能体，以对训练数据中新到达的订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量。

S2073：基于所述新到达的订单的信息、所述生产信息、所述总体预估收益和所述预估产能消耗量，得到初始接单状态信息。

其中，初始接单状态信息可以用于刻画当前训练过程中初始环境的车间状态和接收新到达的订单后产生的总体收益。示例性的，初始接单状态信息可以表示为：s＝(A_i,D_i,N_i,O_i,j,t_i,j,k,R_{i_p},DDT,R_add,C_add)，其中，新到达的订单的信息可以表示为:ordertype＝(A_i,D_i,N_i,O_i,j,t_i,j,k,R_{i_p},DDT)，依次可以表示新订单的到达时间、约定交货期、工序数量、工序加工顺序、工序加工时长，预期收益、交货期紧迫度系数。,R_add可以表示总体预估收益、C_add可以表示预估产能消耗量。

S2074：基于所述初始接单状态信息、所述奖励函数通过DDQN算法对所述初始接单智能体进行训练，得到所述训练好的接单智能体。

作为一种方式，可以先获取预先设置好的初始化接单智能体的训练参数和常量，再基于初始接单状态信息、奖励函数通过DDQN(Double DQN)算法对初始接单智能体进行训练，得到训练好的接单智能体。

可选的，初始化接单智能体的训练参数和常量可以包括：经验回放池大小，越大占用的内存越多，当容量满时，添加新经验时需要删除旧经验。经验预存大小：设置大小为RD，每次训练之前往经验回放池放入RD条经验数据，再从里面采样一个BATCH_SIZE的经验让接单智能体更新接单策略。BATCH_SIZE：每次给接单智能体学习的数据量，从经验回放池中随机采样。MAX_EPISODE：训练的最大循环次数。LEARNING_RATE：学习率。SYNC_FREQ：参数复制频率，设置为SF，即训练SF次后将预测网络的参数复制给目标网络。初始化预测网络Q的参数θ、目标网络Q’的参数θ′，设置奖励的衰减因子γ。

可选的，如图8所示，通过DDQN算法对初始接单智能体进行训练的过程为：先初始化训练参数、常量RD、MAX_EPISODE等，再将当前训练次数episode设置为0并初始化生产环境到原始状态，在接单状态特征初始化完成后，可以使用e-greedy策略随机选取接单决策动作a(也就是确定目标调度规则)，然后当前生产环境可以根据初始接单智能体的动作来更新状态并反馈奖励。其中，当a＝0时表示接收订单，则可以将接收到的订单工序加入待安排集合中，并由训练好的调度智能体进行订单调度，在调度完成后更新生产环境状态，奖励r为***增加的收益量；当a＝1时表示拒绝订单，生产环境状态不变，奖励r＝0。同时，在当前调度完成后，可以在经验回放池D中保存经验记录<s_t,a_t,r_t,s_t+1>，当收集到RD条数据并放入经验回放池中后，随机取样BATCH_SIZE条经验<s_t,a_t,r_t,s_t+1>，使用目标网络Q’计算目标值使用预测网络Q计算预测值y_i＝Q(s_j,a_j；θ)，从而可以基于损失函数/>更新Q网络参数θ，并且每隔C步将Q网络的参数θ复制给Q’，当次训练完成后，可以判断当前回合训练是否可以结束，评判标准可以为所接受订单的最大完工时间是否到达的生产周期，同时判断是否到达MAX_EPISODE，若到达则表明训练完成；若没有，则继续训练。其中，/>计算公式如下：

在本申请实施例中，以订单接收角度为出发点，为了在大量订单动态到达且生产状况复杂的情况下，得到可以实现整体收益最大化的订单接收决策，可以基于表征当前训练过程中初始环境的车间状态、接收新到达的订单后产生的预估总体收益和预估产能消耗量的初始接单状态信息、奖励函数、训练数据对初始接单智能体进行训练，以得到训练好的接单智能体。由于在对初始接单智能体进行训练时，需要得到接收新到达的订单后产生的预估总体收益和预估产能消耗量，而接收新到达的订单后产生的总体收益和产能消耗量可以是基于虚拟调度得到的，因此，在训练初始接单智能体之前，需要基于训练数据、多个规则和单步奖励函数对初始调度智能体进行训练，得到训练好的调度智能体，从而可以基于得到训练好的接单智能体，进而可以根据训练好的调度智能体和接单智能体进行联合决策，实现整体收益最大化。

S2080：响应于目标订单的到达，获取当前的调度状态信息，所述目标订单为在订单生产过程中新到达的订单，所述调度状态信息表征当前的生产信息和目标订单的信息。

S2090：基于训练好的调度智能体和所述调度状态信息对所述目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，所述总体预估收益表征接收所述目标订单后的总体收益。

S2100：基于所述目标订单的信息、所述生产信息、所述总体预估收益和所述预估产能消耗量，得到接单状态信息。

S2110：基于训练好的接单智能体和所述接单状态信息，得到决策结果，所述决策结果表征是否接收所述目标订单。

S2120：若所述决策结果表征接收所述目标订单，基于所述虚拟调度方案进行订单调度。

本实施例提供的一种订单接收和调度方法，通过上述方式使得，可以在目标订单到达时，基于训练好的调度智能体和调度状态信息对目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，并通过目标订单的信息、生产信息和总体预估收益，得到接单状态信息，以基于训练好的接单智能体和接单状态信息，得到决策结果，从而可以提高决策的合理性，进而在考虑订单信息、生产信息的情况下，实现生产过程的整体收益最大化。并且，在本实施例中，先通过包含订单信息、生产信息的训练数据对初始调度智能体进行训练，得到训练好的调度智能体，再通过训练数据和训练好的调度智能体对初始接单智能体进行训练可以得到训练好的接单智能体，从而使得训练好的调度智能体和接单智能体对于动态到达的目标订单可以快速响应，实时确认是否接受目标订单，并在接受的情况下，可以给出相应的调度方案，以辅助生产车间的工作人员进行订单调度。

请参阅图9，本申请提供的一种订单接收和调度装置600，所述装置包括：

调度状态信息获取单元610，用于响应于目标订单的到达，获取当前的调度状态信息，所述目标订单为在订单生产过程中新到达的订单，所述调度状态信息表征当前的生产信息和所述目标订单的信息。

总体预估收益获取单元620，用于基于训练好的调度智能体和所述调度状态信息对所述目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，所述总体预估收益表征接收所述目标订单后的总体收益。

接单状态信息获取单元630，基于所述目标订单的信息、所述生产信息、所述总体预估收益和所述预估产能消耗量，得到接单状态信息。

决策结果获取单元640，用于基于训练好的接单智能体和所述接单状态信息，得到决策结果，所述决策结果表征是否接收所述目标订单。

订单调度单元650，用于若所述决策结果表征接收所述目标订单，基于所述虚拟调度方案进行订单调度。

作为一种方式，调度状态信息获取单元610具体用于响应于目标订单的到达，获取目标订单的信息；获取当前的生产信息，所述生产信息表征当前机器的占用状况和已接收订单的加工状态；基于所述目标订单的信息和所述生产信息，得到所述调度状态信息。

其中，所述装置600还包括：

智能体训练单元660，用于获取训练数据，所述训练数据包括多个订单的信息和生产信息，所述多个订单的信息包括每个订单对应的工序，所述多个订单包括新到达的订单和已接收的订单；获取预先设计的调度动作空间，所述调度动作空间包括多个调度规则，所述多个调度规则表征初始调度智能体可以执行的动作；获取预先设计的单步奖励函数，所述单步奖励函数表征所述初始调度智能体执行一个工序可产生的收益；基于所述训练数据、所述多个调度规则和所述单步奖励函数对初始调度智能体进行训练，得到所述训练好的调度智能体。

作为一种方式，智能体训练单元660具体用于基于所述训练数据，获取当次训练过程中的初始调度状态信息，所述初始调度状态信息表征初始生产信息和目标订单的信息；获取当次训练过程中的初始决策策略，所述初始决策策略为所述初始调度智能体的网络参数；在当次训练过程中，基于所述初始决策策略对所述调度动作空间进行循环采样，以得到当次训练过程对应的多条决策轨迹，每条决策轨迹表征所述训练数据中多个订单的所有工序被安排完毕所形成的轨迹；基于所述当次训练过程对应的多条决策轨迹，得到所述当次训练过程中每条所述决策轨迹的累积收益；基于所述当次训练过程中每条所述决策轨迹的累积收益和随机梯度上升算法，更新所述初始决策策略；若当次训练过程满足目标条件，将更新决策策略的调度智能体作为所述训练好的调度智能体；若当次训练过程未满足目标条件，进入下一次训练过程，将所述更新决策策略的调度智能体作为下一次训练过程的初始调度智能体，将当次训练过程中的初始调度状态信息作为下一次训练过程的初始调度状态信息。

其中，可选的，所述决策轨迹包括每一步决策对应的调度状态信息、目标调度规则、单步奖励，智能体训练单元660具体用于在当次训练过程中，基于所述初始决策策略从所述调度动作空间中确定当次训练过程中当前回合的每一步决策对应的目标调度规则；基于所述当前回合的每一步决策对应的目标调度规则，得到所述当前回合的每一步决策对应的单步收益和每一步决策对应的下一步决策的调度状态信息；基于所述每一步决策对应的目标调度规则、单步收益和所述每一步决策对应的下一步决策的调度状态信息，得到当前回合的决策轨迹；若当前回合对应的回合数等于预设回合数，将当前回合以及当前回合之前的所有回合对应的决策轨迹作为所述当次训练过程对应的多条决策轨迹；若所述当前回合对应的回合数小于所述预设回合数，继续获取下一回合的决策轨迹。

可选的，智能体训练单元660具体用于基于所述当前回合的每一步决策对应的目标调度规则，确定每一步决策对应的目标工序，所述目标工序表征在每一步决策需要被执行的工序；基于所述目标工序，得到所述当前回合的每一步决策对应的单步收益。

可选的，所述训练数据还包括每个订单的预期单位收益、单位延期惩罚系数、约定交货期限，每个工序的加工时长、完成时间，智能体训练单元660具体用于基于所述训练数据获取所述目标工序对应的订单的预期单位收益、单位延期惩罚系数、约定交货期限以及所述目标工序的加工时长、完成时间；若所述目标工序完成时间大于所述目标工序对应的订单的约定交货期限，基于所述目标工序对应的订单的预期单位收益、单位延期惩罚系数、约定交货期限以及所述目标工序的加工时长、完成时间，得到所述当前回合的每一步决策对应的单步收益；若所述目标工序完成时间小于或等于所述目标工序对应的订单的约定交货期限，基于所述目标工序对应的订单的预期单位收益、所述目标工序的加工时长，得到所述当前回合的每一步决策对应的单步收益。

作为一种方式，智能体训练单元660具体用于获取预先设计的接单动作空间，所述接单动作空间包括接收或者拒绝所述新到达的订单；获取预先设计的奖励函数，所述奖励函数表征接收或者拒绝所述新到达的订单可产生的收益；基于所述训练数据、所述接单动作空间、所述奖励函数和所述训练好的调度智能体对初始接单智能体进行训练，得到所述训练好的接单智能体。

可选的，智能体训练单元660具体用于基于所述训练数据，获取接单智能体训练的初始调度状态信息，所述初始调度状态信息表征初始生产信息和目标订单的信息；基于训练好的调度智能体和所述初始调度状态信息对所述多个订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，所述总体预估收益表征接收所述新到达的订单后的总体收益；基于所述新到达的订单的信息、所述生产信息、所述总体预估收益和所述预估产能消耗量，得到初始接单状态信息；基于所述初始接单状态信息、所述奖励函数通过DDQN算法对所述初始接单智能体进行训练，得到所述训练好的接单智能体。

可选的，所述多个调度规则包括第一基础规则、第二基础规则、第三基础规则、第四基础规则和复合规则，所述第一基础规则表征优先加工到达时间早的订单，所述第二基础规则表征优先加工交货期早的订单，所述第三基础规则表征优先加工松弛时间短的订单，所述第四基础规则表征优先加工剩余工序平均可用时间少的订单，所述复合规则表征可以最小化订单延期时间且最大化总利润的规则。

下面将结合图10对本申请提供的一种电子设备进行说明。

请参阅图10，基于上述的订单接收和调度方法、装置，本申请实施例还提供的另一种可以执行前述订单接收和调度方法的电子设备100。电子设备100包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端200在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图11，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

综上所述，本申请提供的一种订单接收和调度方法、装置以及电子设备，在响应于表征在订单生产过程中新到达的订单的目标订单的到达后，获取表征当前的生产信息和目标订单的信息的调度状态信息，基于训练好的调度智能体和调度状态信息对目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、表征接收目标订单后的总体收益的总体预估收益，基于目标订单的信息、生产信息和总体预估收益，得到接单状态信息；基于训练好的接单智能体和接单状态信息，得到表征是否接收目标订单的决策结果，若决策结果表征接收目标订单，基于虚拟调度方案进行订单调度。通过上述方式使得，可以在目标订单到达时，基于训练好的调度智能体和调度状态信息对目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，并通过目标订单的信息、生产信息和总体预估收益，得到接单状态信息，以基于训练好的接单智能体和接单状态信息，得到决策结果，从而可以提高决策的合理性，进而在考虑订单信息、生产信息的情况下，实现生产过程的整体收益最大化。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种订单接收和调度方法，其特征在于，所述方法包括：

响应于目标订单的到达，获取当前的调度状态信息，所述目标订单为在订单生产过程中新到达的订单，所述调度状态信息表征当前的生产信息和目标订单的信息；

基于训练好的调度智能体和所述调度状态信息对所述目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，所述总体预估收益表征接收所述目标订单后的总体收益；

基于所述目标订单的信息、所述生产信息、所述总体预估收益和所述预估产能消耗量，得到接单状态信息，所述接单状态信息包括目标订单的到达时间、约定交货期、工序数量、工序加工顺序、工序加工时长、预期收益、交货期紧迫度系数、总体预估收益、预估产能消耗量；

基于训练好的接单智能体和所述接单状态信息，得到决策结果，所述决策结果表征是否接收所述目标订单；

若所述决策结果表征接收所述目标订单，基于所述虚拟调度方案进行订单调度。

2.根据权利要求1所述的方法，其特征在于，所述响应于目标订单的到达，获取当前的调度状态信息，包括：

响应于目标订单的到达，获取目标订单的信息；

获取当前的生产信息，所述生产信息表征当前机器的占用状况和已接收订单的加工状态；

基于所述目标订单的信息和所述生产信息，得到所述调度状态信息。

3.根据权利要求1所述的方法，其特征在于，获取目标订单的信息之前，还包括：

获取训练数据，所述训练数据包括多个订单的信息和生产信息，所述多个订单的信息包括每个订单对应的工序，所述多个订单包括新到达的订单和已接收的订单；

获取预先设计的调度动作空间，所述调度动作空间包括多个调度规则，所述多个调度规则表征初始调度智能体可以执行的动作；

获取预先设计的单步奖励函数，所述单步奖励函数表征所述初始调度智能体执行一个工序可产生的收益；

基于所述训练数据、所述多个调度规则和所述单步奖励函数对所述初始调度智能体进行训练，得到所述训练好的调度智能体。

4.根据权利要求3所述的方法，其特征在于，所述多个调度规则包括第一基础规则、第二基础规则、第三基础规则、第四基础规则和复合规则，所述第一基础规则表征优先加工到达时间早的订单，所述第二基础规则表征优先加工交货期早的订单，所述第三基础规则表征优先加工松弛时间短的订单，所述第四基础规则表征优先加工剩余工序平均可用时间少的订单，所述复合规则表征可以最小化订单延期时间且最大化总利润的规则。

5.根据权利要求3所述的方法，其特征在于，所述基于所述训练数据、所述多个调度规则和所述单步奖励函数对所述初始调度智能体进行训练，得到所述训练好的调度智能体，包括：

基于所述训练数据，获取当次训练过程中的初始调度状态信息，所述初始调度状态信息表征初始生产信息和目标订单的信息；

获取当次训练过程中的初始决策策略，所述初始决策策略为所述初始调度智能体的网络参数；

在当次训练过程中，基于所述初始决策策略对所述调度动作空间进行循环采样，以得到当次训练过程对应的多条决策轨迹，每条决策轨迹表征所述训练数据中多个订单的所有工序被安排完毕所形成的轨迹；

基于所述当次训练过程对应的多条决策轨迹和所述单步奖励函数，得到所述当次训练过程中每条所述决策轨迹的累积收益；

基于所述当次训练过程中每条所述决策轨迹的累积收益和随机梯度上升算法，更新所述初始决策策略；

若当次训练过程满足目标条件，将更新决策策略的调度智能体作为所述训练好的调度智能体；若当次训练过程未满足目标条件，进入下一次训练过程，将所述更新决策策略的调度智能体作为下一次训练过程的初始调度智能体，将当次训练过程中的初始调度状态信息作为下一次训练过程的初始调度状态信息。

6.根据权利要求5所述的方法，其特征在于，所述决策轨迹包括每一步决策对应的调度状态信息、目标调度规则、单步奖励，所述在当次训练过程中，基于所述初始决策策略对所述调度动作空间进行循环采样，以得到当次训练过程对应的多条决策轨迹，包括：

在当次训练过程中，基于所述初始决策策略从所述调度动作空间中确定当次训练过程中当前回合的每一步决策对应的目标调度规则；

基于所述当前回合的每一步决策对应的目标调度规则，得到所述当前回合的每一步决策对应的单步收益和每一步决策对应的下一步决策的调度状态信息；

基于所述每一步决策对应的目标调度规则、单步收益和所述每一步决策对应的下一步决策的调度状态信息，得到当前回合的决策轨迹；

若当前回合对应的回合数等于预设回合数，将当前回合以及当前回合之前的所有回合对应的决策轨迹作为所述当次训练过程对应的多条决策轨迹；若所述当前回合对应的回合数小于所述预设回合数，继续获取下一回合的决策轨迹。

7.根据权利要求6所述的方法，其特征在于，所述基于所述当前回合的每一步决策对应的目标调度规则，得到所述当前回合的每一步决策对应的单步收益，包括：

基于所述当前回合的每一步决策对应的目标调度规则，确定每一步决策对应的目标工序，所述目标工序表征在每一步决策需要被执行的工序；

基于所述目标工序，得到所述当前回合的每一步决策对应的单步收益。

8.根据权利要求7所述的方法，其特征在于，所述训练数据还包括每个订单的预期单位收益、单位延期惩罚系数、约定交货期限，每个工序的加工时长、完成时间，所述基于所述目标工序，得到所述当前回合的每一步决策对应的单步收益，包括：

基于所述训练数据获取所述目标工序对应的订单的预期单位收益、单位延期惩罚系数、约定交货期限以及所述目标工序的加工时长、完成时间；

若所述目标工序完成时间大于所述目标工序对应的订单的约定交货期限，基于所述目标工序对应的订单的预期单位收益、单位延期惩罚系数、约定交货期限以及所述目标工序的加工时长、完成时间，得到所述当前回合的每一步决策对应的单步收益；

若所述目标工序完成时间小于或等于所述目标工序对应的订单的约定交货期限，基于所述目标工序对应的订单的预期单位收益、所述目标工序的加工时长，得到所述当前回合的每一步决策对应的单步收益。

9.根据权利要求3所述的方法，其特征在于，所述基于所述训练数据、所述调度规则和所述单步奖励函数对初始调度智能体进行训练，得到所述训练好的调度智能体之后，还包括：

获取预先设计的接单动作空间，所述接单动作空间包括接收或者拒绝所述新到达的订单；

获取预先设计的奖励函数，所述奖励函数表征接收或者拒绝所述新到达的订单可产生的收益；

基于所述训练数据、所述接单动作空间、所述奖励函数和所述训练好的调度智能体对初始接单智能体进行训练，得到所述训练好的接单智能体。

10.根据权利要求9所述的方法，其特征在于，所述基于所述训练数据、所述接单动作空间、所述奖励函数和所述训练好的调度智能体对初始接单智能体进行训练，得到所述训练好的接单智能体，包括：

基于所述训练数据，获取接单智能体训练的初始调度状态信息，所述初始调度状态信息表征初始生产信息和目标订单的信息；

基于训练好的调度智能体和所述初始调度状态信息对所述多个订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，所述总体预估收益表征接收所述新到达的订单后的总体收益；

基于所述新到达的订单的信息、所述生产信息、所述总体预估收益和所述预估产能消耗量，得到初始接单状态信息；

基于所述初始接单状态信息、所述奖励函数通过DDQN算法对所述初始接单智能体进行训练，得到所述训练好的接单智能体。

11.一种订单接收和调度装置，其特征在于，所述装置包括：

调度状态信息获取单元，用于响应于目标订单的到达，获取当前的调度状态信息，所述目标订单为在订单生产过程中新到达的订单，所述调度状态信息表征当前的生产信息和所述目标订单的信息；

总体预估收益获取单元，用于基于训练好的调度智能体和所述调度状态信息对所述目标订单和已接收订单进行虚拟重调度，得到虚拟调度方案、总体预估收益和预估产能消耗量，所述总体预估收益表征接收所述目标订单后的总体收益，接单状态信息包括目标订单的到达时间、约定交货期、工序数量、工序加工顺序、工序加工时长、预期收益、交货期紧迫度系数、总体预估收益、预估产能消耗量；

接单状态信息获取单元，基于所述目标订单的信息、所述生产信息、所述总体预估收益和所述预估产能消耗量，得到接单状态信息；

决策结果获取单元，用于基于训练好的接单智能体和所述接单状态信息，得到决策结果，所述决策结果表征是否接收所述目标订单；

订单调度单元，用于若所述决策结果表征接收所述目标订单，基于所述虚拟调度方案进行订单调度。

12.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-10任一所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行权利要求1-10任一所述的方法。