WO2020062047A1

WO2020062047A1 - 更新调度规则的方法、设备、***、存储介质和终端

Info

Publication number: WO2020062047A1
Application number: PCT/CN2018/108384
Authority: WO
Inventors: 李婧; 陈雪
Original assignee: 西门子股份公司; 李婧; 陈雪
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2020-04-02
Also published as: CN112514352A

Abstract

本申请涉及更新调度规则的方法、设备、***、存储介质和终端。该方法包括：获取要执行的工作；获取调度规则集，调度规则集包括将工作包括的操作分发给要执行工作的***中能执行操作的设备的多个调度规则；根据调度规则将操作分发给能执行操作的设备；获取***在设备执行操作时的***状态；根据***状态生成质量指数，质量指数表示对***执行工作的质量的评估；根据调度规则、***状态和质量指数生成训练数据；根据训练数据进行机器学习，生成元规则，元规则表示不同***状态下应采用的调度规则；以及根据元规则更新调度规则集中的调度规则。本申请通过学习框架训练调度程序，识别优化的调度规则，减化了开发优化调度程序的复杂性。

Description

更新调度规则的方法、设备、***、存储介质和终端

技术领域

本申请涉及调度控制领域。具体地，本申请涉及更新调度规则的方法、设备、***、存储介质和终端。

背景技术

调度软件广泛应用于制造环境中。如图1所示，调度器2(dispatcher，也称为scheduler或production manager)负责分析工作与处理1包括的订单11、(制造)工艺信息13和仓库信息15等工作，将工作J分为操作和调度信息O&S，然后计算执行这些操作的可用的资源3的适当调度。例如，资源3包括机器31、生产线33、机器人35，自动引导运输车(AGV)37等。

为了实现用于制造应用的优化的调度程序，已经开发了许多算法。例如，开发了优化算法(启发式)，如通用算法、模拟退火和禁忌搜索。然而，这些优化算法很难实现或调整，而且计算太复杂，无法在实时***中使用。此外，这些算法更适合解决在静态环境中的调度问题，在静态环境中，已知的工作数量和相应的准备时间在实际调度执行之前都是固定的。然而，在实际应用中，制造常常面临动态变化的环境问题，工作在执行过程中连续显现出来。

发明内容

本申请实施例提供了更新调度规则的方法、设备、***、存储介质和终端，以至少解决现有技术中难以在动态变化的环境中优化调度规则的问题。

根据本申请实施例的一个方面，提供了更新调度规则的方法，包括：获取要执行的工作；获取调度规则集，调度规则集包括将工作包括的操作分发给要执行工作的***中能执行操作的设备的多个调度规则；根据调度规则将操作分发给能执行操作的设备；获取***在设备执行操作时的***状态；根据***状态生成质量指数，质量指数表示对***执行工作的质量的评估；根据调度规则、***状态和质量指数生成训练数据；根据训练数据进行机器学习，生成元规则，元规则表示不同***状态下应采用的调度规则；以及根据元规则更新调度规则集中的调度规则。

以这样的方式，根据已有的调度规则分发工作，***中的设备执行工作的操作，获取***状态用于评估根据已有的调度规则执行工作的质量，生成训练数据，从而获得各种已有的调度规则与对应***状态对执行工作的质量的影响，更新已有的调度规则，使基于调度规则的调度能够根据环境动态调整。

根据本申请的示例性实施例，该方法还包括在获取要执行的工作前：获取工作类型，工作类型至少表示工作包括的操作、***中能执行操作的设备以及设备执行操作的时间；以及根据工作类型生成要执行的工作类型的至少一个工作。

以这样的方式，能够生成大量工作用于获取基于调度规则的训练数据。

根据本申请的示例性实施例，生成训练数据包括：通过将质量指数与预设的阈值进行比较，确定质量指数是否小于阈值；如果质量指数小于阈值，则根据质量指数对应的调度规则和***状态生成数据表作为训练数据，其中，数据表包括***状态、随时间记录的***状态的变量以及对应的调度规则。

以这样的方式，选择全部数据中能够有效用于提升调度性能的训练数据。

根据本申请的示例性实施例，根据训练数据进行机器学习包括：根据机器学习算法和训练数据确定***执行工作的质量与***状态之间的隐式关系，隐式关系用于生成元规则。

以这样的方式，学习何种***状态将对应于何种工作质量或调度性能，作为优化调度规则的基础。

根据本申请的示例性实施例，更新调度规则集中的调度规则包括：根据元规则生成更新规则，更新规则表示在具体***状态下要采用的调度规则；以及将更新规则与调度规则共同应用于操作的分发。

以这样的方式，根据机器学习结果生成优化的调度规则，使调度规则中包括能够根据环境动态调度的更新规则。

根据本申请的示例性实施例，将操作分发给能执行操作的设备包括：根据调度规则生成分发操作的分发序列；以及根据分发序列分发操作。

以这样的方式，将操作分发到能执行操作的设备以在***中执行工作。

根据本申请的示例性实施例，质量指数是与执行工作的质量相关的多个属性的加权值。

以这样的方式，以多个影响质量的参数为基础分析调度性能。

根据本申请的示例性实施例，该方法还包括：在生成训练数据后，将训练数据存储在数据库中。

以这样的方式，将训练数据用于后续的机器学习或者其他使用中。

根据本申请实施例的另一方面，还提供了更新调度规则的设备，包括：调度单元，被配置为：获取要执行的工作；获取调度规则集，调度规则集包括将工作包括的操作分发给要执行工作的***中能执行操作的设备的多个调度规则；根据调度规则将操作分发给能执行操作的设备；训练单元，训练单元包括：预测器属性模块，被配置为获取***在设备执行操作时的***状态；质量评估模块，被配置为根据***状态生成质量指数，质量指数表示对***执行工作的质量的评估；以及数据转换模块，被配置为根据调度规则、***状态和质量指数生成训练数据；以及学习单元，被配置为：根据训练数据进行机器学习，生成元规则，元规则表示不同***状态下应采用的调度规则；以及根据元规则更新调度规则集中的调度规则。

以这样的方式，根据已有的调度规则分发工作，***中的设备执行工作的操作，获取***状态用于评估根据已有的调度规则执行工作的质量，生成训练数据，从而获得各种已有的调度规则与对应***状态对执行工作的质量的影响，更新已有的调度规则，使调度单元基于调度规则的调度能够根据环境动态调整。

根据本申请的示例性实施例，该设备还包括：工作生成单元，被配置为：获取工作类型，工作类型至少表示工作包括的操作、***中能执行操作的设备以及设备执行操作的时间，以及根据工作类型生成要执行的工作类型的至少一个工作。

以这样的方式，能够为调度单元生成大量工作用于获取基于调度规则的训练数据。

根据本申请的示例性实施例，该设备还包括：数据库，被配置为存储训练数据。

根据本申请实施例的另一方面，还提供了更新调度规则的***，包括：要执行工作的工作***，工作***包括用于执行工作的操作的设备；以及更新调度规则的设备，设备包括：调度单元，被配置为：获取要执行的工作；获取调度规则集，调度规则集包括将工作包括的操作分发给工作***中能执行操作的设备的多个调度规则；根据调度规则将操作分发给能执行操作的设备；训练单元，训练单元包括：预测器属性模块，被配置为获取工作***在设备执行操作时的***状态；质量评估模块，被配置为根据***状态生成质量指数，质量指数表示对工作***执行工作的质量的评估；以及数据转换模块，被配置为根据调度规则、***状态和质量指数生成训练数据；以及学习单元，被配置为：根据训练数据进行机器学习，生成元规则，元规则表示不同***状态下应采用的调度规则；以及根据元规则更新调度规则集中的调度规则。

根据本申请实施例的另一方面，还提供了存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一项的方法。

根据本申请实施例的另一方面，还提供了处理器，处理器用于运行程序，其中，程序运行时执行上述任意一项的方法。

根据本申请实施例的另一方面，还提供了终端，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，一个或多个程序被存储在存储器中，并且被配置为由一个或多个处理器执行，一个或多个程序包括用于执行上述任意一项的方法。

根据本申请实施例的另一方面，还提供了计算机程序产品，计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令，计算机可执行指令在被执行时使至少一个处理器执行上述任一项的方法。

以这样的方式，根据本申请的技术方案能够以软件和程序的方式在计算机上实现，优化调度规则。

基于规则的调度算法旨在从队列中等待服务的工作中选择要处理的下一个工作。它们可以处理动态环境，并且相对容易实现。仿真已被证明是一种重要的战略工具，用于评估应用于调度程序的不同规则，以便为模拟场景找到优化的规则。本申请能够在仿真工具中建立***性的自学习调度规则的方法。此外，本申请的技术方案也能够在真实场景中应用，以根据真实***和设备的运行来更新和优化调度规则。而且，本申请还能够产生大量有关基于规则的调度决策的性能及其相应***状态的训练数据。在本申请中，采用机器学习的方法，探索调度性能与***状态(用预测器属性表示)之间的隐式关系。所发现的隐性关系成为调度的“元规则”，使用该规则可以根据***状态动态调整调度决策，例如，根据***状态选择合适的调度规则。因此，调度程序被训练成能够根据***状态动态调整调度规则。

在本申请实施例中，提供了根据基于调度规则的训练数据学习***状态与调度性能的关系以更新调度规则的技术方案，以至少解决难以在动态环境中找到优化的调度规则的技术问题，实现了在动态环境中高效实现工作分发的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是调度器将工作分发给资源的示意图；

图2是根据本申请实施例的更新调度规则的方法的流程图；

图3是根据本申请示例性实施例的生成工作的方法的流程图；

图4是根据本申请示例性实施例的生成训练数据的方法的流程图；

图5是根据本申请实施例的更新调度规则的方法的示例性决策树的示意图；

图6是根据本申请实施例的更新调度规则的设备的框图；

图7是根据本申请示例性实施例的更新调度规则的设备的框图；

图8是根据本申请实施例的更新调度规则的***的框图；

图9是根据本申请实施例的分配操作的示意图。

附图标号说明：

1，工作与处理；

11，订单；

13，工艺信息；

15，仓库信息；

J，工作，

O&S，操作和调度信息，

2，调度器；

3，资源；

31，机器；

33，生产线；

35，机器人；

37，自动引导运输车；

S201～S215：步骤；

S301～S303：步骤；

S401～S403：步骤；

X1～X7：状态；

R1～Rm：规则；

6，更新调度规则的设备；

61，调度单元；

63，训练单元；

631，预测器属性模块；

633，质量评估模块；

635，数据转换模块；

65，学习单元；

67，工作生成单元；

69，数据库；

8，更新调度规则的***；

10，工作***；

101，用于执行工作的操作的设备；

M1～M7，作为资源的设备

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块或单元。

一些仿真工具包括优化算法，如线性/整数规划或元启发式算法，如遗传算法和禁忌搜索，以解决调度问题。然而，这些算法所处理的静态环境中的工作是已知数量的，这很难满足实际情况下的动态需求。在实际情况下，工作可能在执行过程中不断显现出来。此外，优化解决方案通常很难实现和优化，而且计算上过于复杂，无法在实时***中使用。相比之下，基于规则的调度使用预定义的调度规则，例如优先级级别，对等待处理的工作进行优先排序。它们易于实现，并且大大减少了计算需求，但是它们的调度性能普遍偏低。

应用机器学习方法可以从优化或元启发式算法中发现隐式调度规则。学习的过程包括：a)运行优化算法来计算最优调度决策；b)使用仿真寻找优选调度决策；c)应用机器学习算法来检索隐式知识。这些方法存在的问题在于；1)只关注工作车间调度问题(job-shop scheduling problem，JSSP)，与根据本申请的技术框架相比，它仅是一个特定的调度问题(sub-problem)；2)依赖优化算法生成调度，对每个训练实例进行优化算法的实现和配置复杂度高，3)需要人工构建预测器属性；4)缺乏***的仿真工具学习处理自动化方法。本申请提出学习元规则的方法，探索了各种调度规则的调度性能与其***状态之间的关系。

此外，仿真中还没有***的方法从仿真案例中提取隐含的知识规则来持续改进调度程序。通常，调度器依赖于工程师的专业知识来手工编写仿真工厂案例的代码。现有的仿真工具中没有嵌入的能够自动积累和利用仿真结果数据进行知识学习的框架来提高调度性能。

根据本申请实施例，提供了更新调度规则的方法。图2是根据本申请实施例的更新调度规则的方法的流程图。如图2所示，结合如下内容描述根据本申请实施例的更新调度规则的方法。

在步骤S201，获取要执行的工作。工作是由***执行的工作，例如是由生产***接收的订单生成的工作，也可以是仿真***中生成的工作。在根据本申请的实施例中，分析真实的***或者仿真***执行工作时对分发工作的调度性能。获取的工作将被分配给现场的生产设备或者被映射到仿真***中的仿真设备，这取决于在该方法的使用中是从现场获得有关调度的数据还是利用仿真技术从仿真设备获取数据。

接下来，在步骤S203，获取调度规则集，调度规则集包括将工作包括的操作分发给要执行工作的***中能执行操作的设备的多个调度规则。调度规则集是预先存储的，也可以是基于输入获取或者确定的。例如，调度规则集中包括多个调度规则，例如包括优先级规则和随机规则等，也可以包括其他用于调度的规则。调度规则表示对于某一个工作包括的多个操作中的具体各个操作，应当在一些具体条件下由能够执行操作的对应设备执行。

接下来，在步骤S205，根据调度规则将操作分发给能执行操作的设备。如果由现场设备执行工作的操作，则将操作分发给现场设备，进行真实的操作。如果采用仿真***，则将工作分发给仿真设备，例如现场设备在仿真***中映射的仿真设备，以执行仿真过程。

接下来，在步骤S207，获取***在设备执行操作时的***状态。真实***在其设备执行操作时，会产生对应的***状态，或者仿真***在执行仿真操作时，产生预测器属性以表示***状态。获取设备执行操作时的***状态，为后续的算法提供训练数据。例如，记录在操作的执行过程中，以一定的时间间隔记录***状态，或者记录特定时间的***状态。对于仿真过程，记录操作被分发给仿真设备后，仿真设备执行操作时仿真***中的***状态。***状态例如且不限于是***中未完成的工作的数量、所关心的设备的当前负载、完成日相对临近的工作所占的百分比、到到期日的平均剩余时间、需要相对长的时间处理的工作所占的百分比、最大处理时间和平均处理时间的差、两个操作的处理时间的差异等之中的一个或多个。这些***状态反映了所关注的***属性或调度性能，可以根据实际需要进行选择和设置。

例如，示例性***状态可以由如下的属性表示：

X1：所关心的设备上的当前负载；

X2：***中未完成工作的数量；

X3：应完成日期相对较近的工作所占的百分比；

X4：到到期日的平均剩余时间；

X5：处理时间相对较长的工作所占的百分比；

X6：最大剩余处理时间和平均剩余处理时间之间的差异；

X7：待比较的两种操作的处理时间差异。

……

随时间记录这些属性的数据以持续表示***状态。出于不同的分析目的，可以选择不同的***状态的属性，以更好地用于更新调度规则。

接下来，在步骤S209，根据***状态生成质量指数，质量指数表示对***执行工作的质量的评估。工作的质量反映了***执行工作的质量，能够表示根据对应调度规则分发操作做出的调度决策的质量，例如且不限于根据具体调度规则将工作的操作分发给具体设备来执行后效率的高低、***资源占用率的高低、工作的准备时间或平均持续时间的长短等。工作的质量根据调度目标确定，例如若关心***执行工作的速度，则考虑的工作的质量为工作的准备时间和持续时间，对该质量进行评估，生成质量指数。

接下来，在步骤S211，根据调度规则、***状态和质量指数生成训练数据。对于调度规则，获取对应的***状态和质量指数后建立训练数据，表示根据具体的调度规则分发操作给设备后，随时间记录的***状态以及对根据该调度规则执行工作的质量的评估(调度性能的评估)。

接下来，在步骤S213，根据训练数据进行机器学习，生成元规则，元规则表示不同***状态下应采用的调度规则。采用步骤S211中生成的训练数据进行机器学习以探索调度规则与***状态之间的关系，进一步分析以根据该关系生成元规则，其表示在何种***状态应当采用何种调度规则以实现特定调度目标。例如，可以***现有的数据挖掘和机器学习算法的集合，如决策树C5.0、人工神经网络(ANN)，从累积的模拟数据中学习模式和隐含知识。要学习的目标是确定在特定***状态下哪个调度规则更合适。从训练数据中提取该知识将允许生成元规则，在任何给定的时间为任何一组工作选择不同的调度规则。图5是根据本申请实施例的更新调度规则的方法的示例性决策树的示意图。如图5所示，使用决策树C5.0作为学习机制，从仿真结果中获取隐含的知识。通过将C5.0算法应用到训练数据，最终可以得到如图5所示的元规则知识，例如，X1～X7表示***中的状态，根据***的状态，元规则能够引导调度器根据状态应用调度规则R1～Rm。例如，如果状态X1的相关值小于等于阈值A，***进入状态X2；若X1的相关值大于阈值A，***维持状态X1。接着，如果状态X2的相关值小于等于阈值B1，***进入状态X3，调度器应用调度规则R1。若X1的相关值在阈值B1和B2的区间内，***进入状态X5，调度器应用规则R2。若X1的相关值大于阈值B2，则通过调度器做出调度决策，***在调度决策做出后进入状态X6，调度器将应用对应的规则。如上仅示例性示出引导调度器应用规则的方法，不同的状态顺序对应于不同的规则R1～Rm，从而可以不断改进调度程序的规则集。

接下来，在步骤S215，根据元规则更新调度规则集中的调度规则。经过如上步骤，对预定的调度规则进行更新，获得新的调度规则，或者修改原有调度规则，用于后续的工作分发的调度过程，或者用于进一步更新调度规则，以获得更优化的调度规则。在根据本申请的更新调度规则的方法中，用于更新调度规则的数据采用了每次记录时获取的预测值、质量指数值和规则。以这样的方式，根据已有的调度规则分发工作，***中的设备执行工作的操作，获取***状态用于评估根据已有的调度规则执行工作的质量，生成训练数据，从而获得各种已有的调度规则与对应***状态对执行工作的质量的影响，更新已有的调度规则，使基于调度规则的调度能够根据环境动态调整。

根据本申请示例性实施例提供了生成工作的方法。图3是根据本申请示例性实施例的生成工作的方法的流程图。如图3所示，根据本申请示例性实施例的生成工作的方法包括在获取要执行的工作前执行步骤S301，获取工作类型，工作类型至少表示工作包括的操作、***中能执行操作的设备以及设备执行操作的时间。然后进行步骤S303，根据工作类型生成要执行的工作类型的至少一个工作。根据本申请示例性实施例的生成工作的方法在根据图2所示的更新调度规则的方法之前进行，当更新调度规则的方法基于仿真***进行时，可以为仿真***生成大量工作的数据以用于生成训练数据。对于动态工作到达过程，到达事件可遵循概率分布，如均匀分布或泊松分布。工作的一个实例如表1所示：

工作1	工作2
工作类型：生产X	工作类型：组装Y
数量：10	数量：5
到达时间：T1	到达时间：T2
到期时间：T3	到期时间：T4
优先级：0	优先级：1
……	……

表1

工作1根据“工作类型：生产X”来生成，工作2根据“工作类型：组装Y”来生成。工作1和工作2被发送给设备执行对应的操作。工作类型：生产X的实例如下：

根据本申请实施例示出分配操作的过程。图9是根据本申请实施例的分配操作的示意图。如图9所示，在该示例中，操作序列包括操作1、操作2、操作3和操作5，例如，工作类型：生产X＝{操作1，操作2，操作3，操作5}。此处示出的操作序列仅仅是示意性的，操作系列可以包括更多操作或者更少操作，取决于工作所包括的操作的多少。

本示例中示出的用于执行操作的资源包括M1、M2、M3、M4、M5、M6和M7。根据不同的设备情况，资源可以包括更多或者更少设备。本示例中，操作1能够由设备M1、M3和M6执行，执行过程分别为P11、P13和P16，完成后执行操作2和操作3；操作2能够由设备M2和M4执行，执行过程分别为P22和P24，完成后执行操作3和操作5；操作3能够由设备M1、M3和M6执行，执行过程分别为P31、P33和P36，完成后执行操作5；操作5能够由设备M3和M7执行，执行过程分别为P53和P57，操作与设备的映射如上示例所示。

根据如上工作类型能够生成一系列如上所述的工作，分发给仿真设备。仿真设备可以执行仿真过程，得到仿真的处理结果。

根据本申请示例性实施例提供了生成训练数据的方法。图4是根据本申请示例性实施例的生成训练数据的方法的流程图。如图4所示，根据本申请示例性实施例生成训练数据包括：步骤S401，通过将质量指数与预设的阈值进行比较，确定质量指数是否小于阈值。预先确定阈值，该阈值用于区分想要用于生成训练数据的数据和不考虑用于生成训练数据的数据。接下来进行步骤S403，如果质量指数小于阈值，则根据质量指数对应的调度规则和***状态生成数据表作为训练数据，其中，数据表包括***状态、随时间记录的***状态的变量以及对应的调度规则。可以进行这样的设置，选择质量指数小于阈值的数据生成训练数据。例如，对于“完成任务的最短时间”这一工作的质量，质量指数表示“完成时间”，该质量指数小于预定的阈值，说明根据该规则较高效地执行了工作，因此将对应的数据用于生成训练数据，以获取优化的调度规则。应理解，预定的阈值是根据评估所关心的调度性能决定的，若关心***资源利用率，则可以采用“资源空闲时间的平均持续时间”作为质量指数，当该质量指数小于阈值时，说明***资源利用率高，调度决策的质量好，根据对应规则能够更高效执行工作，将对应的数据用于生成训练数据。根据具体选择的质量指数所表示的不同内容，质量指数也可以大于阈值，目的在于通过质量指数与阈值的比较确定调度决策的质量高，例如调度决策的质量高于预设的阈值或期望。训练数据包括调度规则、采用该调度规则的***状态，将这些数据以数据表的形式记录下来，以清晰表示***状态、随时间记录的***状态的变量以及对应的调度规则，便于机器学习过程的处理。

表2是示例性的数据表，属性X是表示***状态的仿真***的预测器属性：

训练数据

时间0时的

时间1时的

…

时间x时的

集	值	值		值
属性X ₁	0.5	0.8	…	0.2
属性X ₂	3	2	…	1
属性X ₃	0.1	0.3	…	0.1
属性X ₄	30.	10	…	3
…	…	…	…	…
属性X ₇	4	0	…	10
规则#	r ₁	r ₂	…	r ₁

表2

根据本申请的示例性实施例，在获得有效的训练数据后，根据训练数据进行机器学习包括根据机器学习算法和训练数据确定***执行工作的质量与***状态之间的隐式关系，隐式关系用于生成元规则。例如在步骤S213中，采用机器学习算法对训练数据进行处理，获取隐含的知识，如在具体***状态，采用具体调度规则。以这样的方式，学习何种***状态将对应于何种工作质量或调度性能，作为优化调度规则的基础。

根据本申请的示例性实施例，在获得元规则后，更新调度规则集中的调度规则包括根据元规则生成更新规则，更新规则表示在具体***状态下要采用的调度规则，以及将更新规则与调度规则共同应用于操作的分发。以这样的方式，根据机器学习结果生成优化的调度规则，使调度规则中包括能够根据环境动态调度的更新规则。

根据本申请的示例性实施例，将操作分发给能执行操作的设备包括：根据调度规则生成分发操作的分发序列；以及根据分发序列分发操作。根据调度规则，确定要执行操作的设备以及要执行的操作的顺序，以这样的方式，将操作分发到能执行操作的设备以在***中执行工作。

根据本申请的示例性实施例，质量指数是与执行工作的质量相关的多个属性的加权值。若对于调度目标需要考虑多个属性，则采用加权的方式量化预先选定的属性重要性。如质量指数可以是多个目标函数的加权函数。例如，示例性目标函数f ₁和f ₂是：

f ₁：工作交付时间的平均持续时间

f ₂：资源空闲时间的平均持续时间

加权质量指数函数可以是：f＝w ₁f ₁+w ₂f ₂，w ₁和w ₂是根据要考虑的属性的重要性预先确定的。下游决策可能会显著影响计算出的质量指数，因此，在评价质量指数时应考虑这一因素。最终的质量指数表示了考虑多个调度目标的调度性能。以这样的方式，以多个影响质量的属性为基础分析调度性能。

根据本申请的示例性实施例，该方法还包括：在生成训练数据后，将训练数据存储在数据库中。例如，将训练数据以{预测器属性，规则}的形式记录在数据库中，执行机器学习的模块可以调用其中的数据。以这样的方式，将训练数据用于后续的机器学习或者其他使用中。

根据本申请实施例，还提供了更新调度规则的设备。图6是根据本申请实施例的更新调度规则的设备的框图。如图6所示，根据本申请实施例的更新调度规则的设备6包括：调度单元61，被配置为：获取要执行的工作；获取调度规则集，调度规则集包括将工作包括的操作分发给要执行工作的***中能执行操作的设备的多个调度规则；根据调度规则将操作分发给能执行操作的设备；训练单元63，训练单元包括：预测器属性模块631，被配置为获取***在设备执行操作时的***状态；质量评估模块633，被配置为根据***状态生成质量指数，质量指数表示对***执行工作的质量的评估；以及数据转换模块635，被配置为根据调度规则、***状态和质量指数生成训练数据；以及学习单元65，被配置为：根据训练数据进行机器学习，生成元规则，元规则表示不同***状态下应采用的调度规则；以及根据元规则更新调度规则集中的调度规则。根据本申请实施例的更新调度规则的设备6可以嵌入到仿真工具中，用于在仿真***中运行。训练单元63负责记录仿真中的相关的***状态，为后续的学习算法构建训练数据，预测器属性模块631计算代表每个***状态的一组变量。质量评估模块633在每次调度决策后对得到的***状态进行评价。最后，数据转换模块635将采集的仿真数据进一步转换为合适的训练数据，作为后续学习单元65的输入。学习单元65采用现有机器学习算法的集合，从累积的训练数据中挖掘隐式知识，即，调度性能与***状态之间的隐式关系(用预测器属性变量表示)。发现的“元规则”将被提供给调度单元61，使用该规则，调度单元61将根据***状态动态定制调度决策，并且优于常规调度规则。根据本申请实施例的更新调度规则的设备6执行如上根据本申请实施例的更新调度规则的方法，其具体内容不再赘述。

图7是根据本申请示例性实施例的更新调度规则的设备的框图。如图7所示，根据本申请的示例性实施例，该设备(6)还包括：工作生成单元67，被配置为：获取工作类型，工作类型至少表示工作包括的操作、***中能执行操作的设备以及设备执行操作的时间，以及根据工作类型生成要执行的工作类型的至少一个工作，能够为调度单元61生成大量工作用于获取基于调度规则的训练数据。

如图7所示，根据本申请的示例性实施例，该设备(6)还包括：数据库(69)，被配置为存储训练数据，将训练数据用于后续的机器学习或者其他使用中。

根据本申请实施例的另一方面，还提供了更新调度规则的***。图8是根据本申请实施例的更新调度规则的***的框图。如图8所示，根据本申请实施例的更新调度规则的***8包括：要执行工作的工作***10，工作***10包括用于执行工作的操作的设备101；以及更新调度规则的设备6，设备6包括：调度单元61，被配置为：获取要执行的工作；获取调度规则集，调度规则集包括将工作包括的操作分发给工作***中能执行操作的设备的多个调度规则；根据调度规则将操作分发给能执行操作的设备；训练单元63，训练单元63包括：预测器属性模块631，被配置为获取工作***在设备执行操作时的***状态；质量评估模块633，被配置为根据***状态生成质量指数，质量指数表示对工作***执行工作的质量的评估；以及数据转换模块635，被配置为根据调度规则、***状态和质量指数生成训练数据；以及学习单元65，被配置为：根据训练数据进行机器学习，生成元规则，元规则表示不同***状态下应采用的调度规则；以及根据元规则更新调度规则集中的调度规则。以这样的方式，根据已有的调度规则分发工作，***中的设备执行工作的操作，获取***状态用于评估根据已有的调度规则执行工作的质量，生成训练数据，从而获得各种已有的调度规则与对应***状态对执行工作的质量的影响，更新已有的调度规则，使基于调度规则的调度能够根据环境动态调整。本申请实施例的更新调度规则的***执行的操作参考如上内容，在此不再赘述。

应理解，本申请的技术方案能够在真实***和仿真***中实施。当在真实***中实施时，可以从现场或者数据库中获取执行操作和***状态的历史数据，而在仿真***中，则可以通过仿真过程获得训练所需的数据。

本申请还可以以程序的形式实施，根据本申请实施例，还提供了存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述方法。根据本申请实施例，还提供了处理器，处理器用于运行程序，其中，程序运行时执行上述方法。根据本申请实施例，还提供了终端，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，一个或多个程序被存储在存储器中，并且被配置为由一个或多个处理器执行，一个或多个程序包括用于执行上述方法。根据本申请实施例，还提供了计算机程序产品，计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令，计算机可执行指令在被执行时使至少一个处理器执行上述的方法。以这样的方式，根据本申请的技术方案能够以软件和程序的方式在计算机上实现，优化调度规则。

通过从大量仿真数据中学习到的知识，调度单元可以更有效地做出调度决策。元规则将指导调度单元根据***状态应用最合适的调度规则。经训练的仿真***中的调度单元通过预测器计算***状态，根据***状态动态选择最适合的调度规则。训练过程可以在具有更多数据的框架中持续进行，以确定优化的调度规则。

本申请在仿真工具中使用学习结构，以便能够使用发现的知识持续改进调度程序的性能。该嵌入式学习框架可以训练调度程序，通过仿真数据识别优化的调度规则。该***为现有的仿真工具创造了新的价值主张，减少开发高级调度程序的障碍以及人力。

本申请在仿真工具中构建了较少的新模块，实现了知识学习过程中训练数据的自动收集、构建和存储***。该***还可以在未来实现新的业务模式，例如共享仿真结果，以训练不同的调度程序。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元或模块可以是或者也可以不是物理上分开的，作为单元或模块显示的部件可以是或者也可以不是物理单元或模块，即可以位于一个地方，或者也可以分布到多个网络单元或模块上。可以根据实际的需要选择其中的部分或者全部单元或模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元或模块可以集成在一个处理单元或模块中，也可以是各个单元或模块单独物理存在，也可以两个或两个以上单元或模块集成在一个单元或模块中。上述集成的单元或模块既可以采用硬件的形式实现，也可以采用软件功能单元或模块的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

更新调度规则的方法，其特征在于，包括：

获取要执行的工作；

获取调度规则集，所述调度规则集包括将所述工作包括的操作分发给要执行所述工作的***中能执行所述操作的设备的多个调度规则；

根据所述调度规则将所述操作分发给能执行所述操作的设备；

获取所述***在所述设备执行所述操作时的***状态；

根据所述***状态生成质量指数，所述质量指数表示对所述***执行所述工作的质量的评估；

根据所述调度规则、所述***状态和所述质量指数生成训练数据；

根据所述训练数据进行机器学习，生成元规则，所述元规则表示不同***状态下应采用的调度规则；以及

根据所述元规则更新所述调度规则集中的调度规则。
根据权利要求1所述的方法，其特征在于，在获取要执行的工作前：

获取工作类型，所述工作类型至少表示所述工作包括的操作、所述***中能执行所述操作的设备以及所述设备执行所述操作的时间；以及

根据所述工作类型生成要执行的所述工作类型的至少一个工作。
根据权利要求1或2所述的方法，其特征在于，生成训练数据包括：

通过将所述质量指数与预设的阈值进行比较，确定所述质量指数是否小于所述阈值；

如果所述质量指数小于所述阈值，则根据所述质量指数对应的所述调度规则和所述***状态生成数据表作为所述训练数据，其中，所述数据表包括所述***状态、随时间记录的所述***状态的变量以及对应的所述调度规则。
根据权利要求1或2所述的方法，其特征在于，根据所述训练数据进行机器学习包括：

根据机器学习算法和所述训练数据确定所述***执行所述工作的质量与所述 ***状态之间的隐式关系，所述隐式关系用于生成所述元规则。
根据权利要求1或2所述的方法，其特征在于，更新所述调度规则集中的调度规则包括：

根据所述元规则生成更新规则，所述更新规则表示在具体***状态下要采用的所述调度规则；以及

将所述更新规则与所述调度规则共同应用于所述操作的分发。
根据权利要求1或2所述的方法，其特征在于，将所述操作分发给能执行所述操作的设备包括：

根据所述调度规则生成分发所述操作的分发序列；以及

根据所述分发序列分发所述操作。
根据权利要求1或2所述的方法，其特征在于，所述质量指数是与执行所述工作的质量相关的多个属性的加权值。
根据权利要求1或2所述的方法，其特征在于，还包括：

在生成所述训练数据后，将所述训练数据存储在数据库中。
更新调度规则的设备，其特征在于，包括：

调度单元(61)，被配置为：

获取要执行的工作；

获取调度规则集，所述调度规则集包括将所述工作包括的操作分发给要执行所述工作的***中能执行所述操作的设备的多个调度规则；

根据所述调度规则将所述操作分发给能执行所述操作的设备；

训练单元(63)，所述训练单元包括：

预测器属性模块(631)，被配置为获取所述***在所述设备执行所述操作时的***状态；

质量评估模块(633)，被配置为根据所述***状态生成质量指数，所述质量指数表示对所述***执行所述工作的质量的评估；以及

数据转换模块(635)，被配置为根据所述调度规则、所述***状态和所述质量指数生成训练数据；以及

学习单元(65)，被配置为：

根据所述训练数据进行机器学习，生成元规则，所述元规则表示不同***状态下应采用的调度规则；以及

根据所述元规则更新所述调度规则集中的调度规则。
根据权利要求9所述的设备，其特征在于，还包括：

工作生成单元(67)，被配置为：

获取工作类型，所述工作类型至少表示所述工作包括的操作、所述***中能执行所述操作的设备以及所述设备执行所述操作的时间，以及

根据所述工作类型生成要执行的所述工作类型的至少一个工作。
根据权利要求9所述的设备，其特征在于，还包括：

数据库(69)，被配置为存储所述训练数据。
更新调度规则的***，其特征在于，包括：

要执行工作的工作***(10)，所述工作***(10)包括用于执行工作的操作的设备(101)；以及

更新调度规则的设备(6)，所述设备(6)包括：

调度单元(61)，被配置为：

获取要执行的工作；

获取调度规则集，所述调度规则集包括将所述工作包括的操作分发给所述工作***中能执行所述操作的设备的多个调度规则；

根据所述调度规则将所述操作分发给能执行所述操作的设备；

训练单元(63)，所述训练单元包括：

预测器属性模块(631)，被配置为获取所述工作***在所述设备执行所述操作时的***状态；

质量评估模块(633)，被配置为根据所述***状态生成质量指数，所述质量指数表示对所述工作***执行所述工作的质量的评估；以及

数据转换模块(635)，被配置为根据所述调度规则、所述***状态和所述质量指数生成训练数据；以及

学习单元(65)，被配置为：

根据所述训练数据进行机器学习，生成元规则，所述元规则表示不同***状态下应采用的调度规则；以及

根据所述元规则更新所述调度规则集中的调度规则。
存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的方法。
处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的方法。
终端，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至8中任意一项所述的方法。
计算机程序产品，所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令，所述计算机可执行指令在被执行时使至少一个处理器执行根据权利要求1至8中任一项所述的方法。