CN117973635B

CN117973635B - 决策预测方法、电子设备以及计算机可读存储介质

Info

Publication number: CN117973635B
Application number: CN202410361850.8A
Authority: CN
Inventors: 胡军军; 饶建波; 李雨洋; 王尧
Original assignee: Zhongke Advanced Shenzhen Integrated Technology Co ltd
Current assignee: Zhongke Advanced Shenzhen Integrated Technology Co ltd
Priority date: 2024-03-28
Filing date: 2024-03-28
Publication date: 2024-06-07
Anticipated expiration: 2044-03-28
Also published as: CN117973635A

Abstract

本申请公开了决策预测方法、电子设备以及计算机可读存储介质，该决策预测方法通过实时获取多个柔性产线的生产数据，将每个柔性产线的生产数据输入至第一预测模型，以使第一预测模型输出柔性产线在生产数据的环境下采取的策略数据；将每个柔性产线的生产数据输入至第二预测模型，以使第二预测模型输出柔性产线在生产数据的环境下采取策略后的价值数据，基于多个策略数据和价值数据，确定柔性产线的调度决策方案。本申请的决策预测方法能够对多线程的柔性产线并行处理，以根据生产数据对该柔性产线进行决策预测，提高数据处理能力的同时使得柔性产线能够基于最优的调度决策方案进行生产管理，提高柔性产线的灵活性和生产效率。

Description

决策预测方法、电子设备以及计算机可读存储介质

技术领域

本申请涉及生产管理技术领域，特别是涉及决策预测方法、电子设备以及计算机可读存储介质。

背景技术

分布式柔性产线是现代制造业中一种高度自动化和可调节的生产***，它能够快速响应市场变化，支持多样化的产品制造，以实现生产过程中的快速调整和配置变更，适应不同的生产需求和变化的操作条件。

现有技术中，分布式柔性产线通常通过固定的算法或规则来进行决策预测，缺乏足够的灵活性和适应性，使得现有的决策预测方法在处理复杂和不断变化的生产需求时存在局限。例如，基于静态规划和预测模型进行决策预测，使得分布式柔性产线很难动态地去适应变化的生产条件，且数据处理能力较低，难以做出快速且精准的调度决策。

为了提高分布式柔性产线的生产管理能力和效率，亟需一种更为灵活和高效的决策预测方法。

发明内容

为解决上述技术问题，本申请提供了决策预测方法、电子设备以及计算机可读存储介质。

为解决上述问题，本申请提供了第一种技术方案：提供一种分布式柔性产线的决策预测方法，包括：实时获取多个柔性产线的生产数据；将每个上述柔性产线的生产数据输入至第一预测模型，以使上述第一预测模型输出上述柔性产线在上述生产数据的环境下采取的策略数据；将每个上述柔性产线的生产数据输入至第二预测模型，以使上述第二预测模型输出上述柔性产线在上述生产数据的环境下采取策略后的价值数据；基于上述策略数据和上述价值数据，确定上述柔性产线的调度决策方案。

可选地，上述生产数据包括上述柔性产线的多个第一状态数据；上述实时获取多个上述柔性产线的生产数据的步骤之后，上述决策预测方法还包括：获取与多个上述第一状态数据对应的动作数据和奖励数据；将上述第一状态数据和上述动作数据输入至上述第一预测模型，以获取上述第一预测模型输出的上述动作数据的概率预测数据；基于上述概率预测数据和上述奖励数据计算第一梯度函数，并基于上述第一梯度函数对上述第一预测模型进行训练。

可选地，上述获取与多个上述第一状态数据对应的动作数据和奖励数据的步骤之后，上述决策预测方法还包括：将上述第一状态数据和上述动作数据输入至上述第二预测模型，以获取上述第二预测模型输出的执行上述动作数据的效益预测数据；基于上述效益预测数据和上述奖励数据计算第二梯度函数，并基于上述第二梯度函数对上述第二预测模型进行训练。

可选地，上述第一预测模型用于从上述动作数据中选择调整动作并输出执行上述调整动作后上述柔性产线的第二状态数据；上述基于上述概率预测数据和上述奖励数据计算第一梯度函数，并基于上述第一梯度函数对上述第一预测模型进行训练，包括：基于上述第二状态数据和上述奖励数据，计算优势函数；基于上述优势函数、上述第二状态数据以及上述概率预测数据，计算上述第一梯度函数；通过上述第一梯度函数对上述第一预测模型的模型参数进行更新。

可选地，上述基于上述第二状态数据和上述奖励数据，计算优势函数的步骤之前，上述决策预测方法还包括：响应于上述第二状态数据满足预设条件，确定上述调整动作的效益预测为第一预设数值，或者，响应于上述第二状态数据不满足预设条件，通过上述第二预测模型获得执行上述调整动作的效益预测数据；基于上述第二状态数据、上述奖励数据以及上述效益预测数据，计算上述优势函数。

可选地，上述第一预测模型和上述第二预测模型用于基于上述第一状态数据获取对应的环境数据，以在上述环境数据下进行预测。

可选地，上述动作数据包括上述柔性产线在当前的上述环境数据下可能采取的调整动作，上述奖励数据包括上述柔性产线在当前的上述环境数据下执行上述调整动作的结果数据。

可选地，上述生产数据包括上述柔性产线的多个第一状态数据；上述基于上述策略数据和上述价值数据，确定上述柔性产线的调度决策方案的步骤之后，上述决策预测方法还包括：根据上述调度决策方案对至少一个上述柔性产线进行调度控制；获取调度后的上述柔性产线的第三状态数据；基于上述第三状态数据和上述第一状态数据的比对结果，对上述第一预测模型和上述第二预测模型的模型参数进行优化。

为解决上述问题，本申请提供了第二种技术方案：提供一种电子设备，上述电子设备包括处理器、与上述处理器连接的存储器，其中，上述存储器存储有程序指令；上述处理器用于执行上述存储器存储的程序指令以实现上述的决策预测方法。

为解决上述问题，本申请提供了第三种技术方案：提供一种计算机可读存储介质，上述计算机可读存储介质存储有程序指令，上述程序指令能够被处理器执行以实现如上的决策预测方法。

本申请提出了决策预测方法、电子设备以及计算机可读存储介质，该决策预测方法通过实时获取多个柔性产线的生产数据，将每个柔性产线的生产数据输入至第一预测模型，以使第一预测模型输出柔性产线在生产数据的环境下采取的策略数据；将每个柔性产线的生产数据输入至第二预测模型，以使第二预测模型输出柔性产线在生产数据的环境下采取策略后的价值数据，基于策略数据和价值数据，确定柔性产线的调度决策方案。通过上述方式，本申请的决策预测方法能够对多线程的柔性产线进行并行处理，以根据实时的生产数据对该柔性产线进行决策预测，提高数据处理能力的同时使得柔性产线能够基于最优的调度决策方案进行生产管理，提高柔性产线的灵活性和生产效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的决策预测方法的第一实施例的流程示意图；

图2是本申请提供的决策预测方法的第二实施例的流程示意图；

图3是本申请提供的决策预测方法的第三实施例的流程示意图；

图4是本申请提供的电子设备的一实施例的结构示意图；

图5是本申请提供的计算机可读存储介质的一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动情况下所获得的所有其他实施例，均属于本申请保护的范围。

需要说明，若本申请实施例中有涉及方向性指示（诸如上、下、左、右、前、后……），则该方向性指示仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本申请实施例首先提出了一种决策预测方法，该决策预测方法应用于生产管理领域，并用于对分布式柔性产线的生产流程进行决策，使得柔性产线能够适用于不同类型的生产线和多变的生产任务，以为柔性产线提供智能化的决策制定，提高生产效率。

请参见图1，图1是本申请提供的决策预测方法的第一实施例的流程示意图。如图1所示，本实施例的决策预测方法包括以下步骤：

步骤S11：实时获取多个柔性产线的生产数据。

具体地，柔性产线为将多台可以调整的机床联结起来，配以自动运送装置组成的自动化生产线，实现产品的自动加工、物流运输、信息收集反馈等自动化生产***。柔性产线的生产数据通常为柔性产线的实时状态，包括但不局限于设备运行状况、生产速度、物料库存水平、当前进行的任务以及任务进度等。通过获取柔性产线的生产数据，可以获取柔性产线在某一时间段或时间点的运行状态。

步骤S12：将每个柔性产线的生产数据输入至第一预测模型，以使第一预测模型输出柔性产线在生产数据的环境下采取的策略数据。

在获取多个柔性产线的生产数据后，将每个柔性产线的生产数据输入至第一预测模型中，第一预测模型用于对该柔性产线在生产数据的环境下采取的策略数据。其中，将柔性产线的生产数据输入至第一预测模型，该生产数据可以作为第一预测模型进行策略预测时的依据，使得第一预测模型能够根据柔性产线的当前状态进行分析并预测出最优策略。其中，策略数据可以表示该柔性产线可能采取的动作以及该动作对应的概率。

步骤S13：将每个柔性产线的生产数据输入至第二预测模型，以使第二预测模型输出柔性产线在生产数据的环境下采取策略后的价值数据。

将每个柔性产线的生产数据输入至第二预测模型，第二预测模型用于对该柔性产线在当前环境下采取策略后所产生的价值进行预测。其中，将柔性产线的生产数据输入至第二预测模型，该生产数据可以作为第二预测模型进行价值预测时的依据，使得第二预测模型能够根据柔性产线的当前状态进行分析并预测出对应策略的价值数据。其中，价值数据可以表示柔性产线在当前状态下采取某一动作或策略时所能获得的效益或回报。

可以理解地，本实施例的决策预测方法设置有多个预测线程，每个预测线程与一个柔性产线对应并用于对该柔性产线的生产数据进行数据处理和预测，并且多个预测线程并行，使得本实施例的决策预测方法能够用于对多个柔性产线进行数据处理和预测，提高数据处理能力。示例性地，分布式柔性产线可以包括第一产线、第二产线、……、第n产线，第一线程用于通过第一预测模型获取第一产线的策略数据，第一线程还用于通过第二预测模型获取第一产线的价值数据；第二线程用于通过第一预测模型获取第二产线的策略数据，第二线程还用于通过第二预测模型获取第二产线的价值数据；其他线程的步骤上述类似，在此不再赘述。

步骤S14：基于策略数据和价值数据，确定柔性产线的调度决策方案。

获取柔性产线的策略数据和价值数据后，基于策略数据和价值数据可以评估出某一动作或策略是否能够产生足够的价值，以选取并制定出对应的调度决策方案，使得该调度决策方案能够适用于当前的生产环境。

通过上述方式，本申请的决策预测方法能够对多线程的柔性产线进行并行处理，以根据实时的生产数据对该柔性产线进行决策预测，实现智能化的决策制定以及柔性产线的资源优化，在提高数据处理能力的同时使得柔性产线能够基于最优的调度决策方案进行生产管理，提高柔性产线的灵活性和生产效率。

在一实施例中，请参见图2，图2是本申请提供的决策预测方法的第二实施例的流程示意图。如图2所示，生产数据包括柔性产线的多个第一状态数据。在步骤S11之后，本实施例的决策预测方法还包括以下步骤：

步骤S21：获取与第一状态数据对应的动作数据和奖励数据。

生产数据包括多个第一状态数据，多个第一状态数据可以用于表示或描述该柔性产线的当前运行状态，动作数据为柔性产线在多个第一状态数据下执行的动作，奖励数据为柔性产线在多个第一状态数据下执行动作数据时的奖励。本实施例的决策预测方法在实时获取生产数据后，还可以将生产数据存储于某一预设的数据库中，将与生产数据对应的动作数据和奖励数据存储于数据库中，使得数据库中存储有不同时间段或时间点所对应的第一状态数据、动作数据以及奖励数据，每个时间段或时间点的第一状态数据、动作数据以及奖励数据可以作为第一预测模型和第二预测模型的训练数据进行训练。

在可能地实施方式中，在生产数据包括柔性产线在过去的某一时间段的第一状态数据时，动作数据可以是柔性产线的在过去时间内实际执行的动作，奖励数据则是柔性产线实际执行该动作后所获得的结果或奖励。在其他实施方式中，在生产数据包括柔性产线的实时状态数据时，决策预测方法还可以通过使用其他的预测模型；或者，通过内置其他的算法结构，预测在该状态下柔性产线可能采取的动作并获得动作数据，以及预测在该状态下柔性产线执行某一动作时所获得的结果并获得结果数据。

步骤S22：将第一状态数据和动作数据输入至第一预测模型，以获取第一预测模型输出的动作数据的概率预测数据。

具体地，获取第一状态数据和动作数据后，将第一状态数据和动作数据输入至第一预测模型。由于动作数据指示了柔性产线可能采取的动作，第一预测模型可以在第一状态数据的环境下对柔性产线采取不同的概率进行预测，以输出与动作数据对应的概率预测数据。在可能地实施方式中，动作数据可以包括至少一个动作，概率预测数据用于指示柔性产线的每个动作的概率分布，所有动作的概率之和可以为1。

步骤S23：基于概率预测数据和奖励数据计算第一梯度函数，并基于第一梯度函数对第一预测模型进行训练。

基于第一预测模型输出的概率预测数据和奖励数据，计算第一梯度函数并进行梯度累积，以获取第一预测模型的策略累积梯度。在策略累积梯度达到一定程度或完成一定数量的训练次数后，对第一预测模型进行参数更新。

在本申请实施例中，该决策预测方法通过获取与第一状态数据对应的动作数据和奖励数据，将第一状态数据和动作数据输入至第一预测模型，以获取第一预测模型输出的动作数据的概率预测数据，基于概率预测数据和奖励数据计算第一梯度函数，并基于第一梯度函数对第一预测模型进行训练，使得训练后的第一预测模型在进行策略预测时能够考虑不同生产环境下的第一状态数据的变化，训练后的第一预测模型能够根据实时的生产数据对该柔性产线进行决策预测，提高预测的准确率，进而提高柔性产线的灵活性和生产效率。

可选地，将生产数据存储于数据库中，并将与生产数据对应的动作数据和奖励数据存储于数据库中的步骤之后，决策预测方法还包括：将第一状态数据和动作数据输入至第二预测模型，以获取第二预测模型输出的执行动作数据的效益预测数据；基于效益预测数据和奖励数据计算第二梯度函数，并基于第二梯度函数对第二预测模型进行训练。

具体地，还通过第一状态数据、动作数据以及奖励数据对第二预测模型进行训练，以获取第二预测模型输出的柔性产线在执行动作数据时所产生效益的预测数据。基于效益预测数据和奖励数据计算第二梯度函数并进行梯度累积，以在累积梯度达到一定程度或完成一定数量的训练次数后，对第二预测模型进行参数更新。

在本申请实施例中，该决策预测方法通过第一状态数据、动作数据和奖励数据对第一预测模型和第二预测模型进行训练，使得训练后的第一预测模型和第二预测模型在进行预测时能够考虑不同生产环境下的第一状态数据的变化，使得本实施例的决策预测方法所输出的调度决策方案能够适应变化的生产环境，提高预测的准确率，进而提高柔性产线的灵活性和生产效率。

可选地，请参见图3，图3是本申请提供的决策预测方法的第三实施例的流程示意图。如图3所示，第一预测模型用于从动作数据中选择调整动作并输出执行调整动作数据后柔性产线的第二状态数据；步骤S23进一步包括：

步骤S31：基于第二状态数据和奖励数据，计算优势函数。

具体地，第一预测模型在进行预测时，还用于从动作数据中选择某一调整动作执行，以获得柔性产线执行该调整动作后的第二状态数据。在获取第二状态数据后，基于第二状态数据和奖励数据可以计算出该调整动作的优势函数。其中，由于柔性产线执行某一动作后设备状态、生产效率、库存水平等可能发生变化，第二状态数据为第一状态数据所对应的更新后的状态数据；第一预测模型执行一个动作的周期为一个训练周期，优势函数用于指示该动作在柔性产线上的优势。

其中，优势函数还与折扣因子有关，折扣因子用于计算未来奖励的当前价值。在实际生产场景上，折扣因子还可以用于表示对于即时效益和长期效益的重视程度；在更重视即时效益时，接近于0；在更重视长期效益时，/>接近于1。在可能地实施方式中，折扣因子可以作为第一预测模型和第二预测模型的超参数并在整个训练过程中保持不变，也可以根据不同应用场景对即时效益与长期效益的重视程度进行调整，在此不做具体限定。

步骤S32：基于优势函数、第二状态数据以及概率预测数据，计算第一梯度函数。

获得优势函数后，基于执行调整动作后的优势函数、第二状态数据以及概率预测数据，计算第一预测模型在该训练周期下的第一梯度函数并进行梯度累积。

步骤S33：通过第一梯度函数对第一预测模型的模型参数进行更新。

计算第一梯度函数并进行梯度累积后，获得第二预测模型的效益累积梯度。在效益累积梯度达到一定程度或完成一定数量的训练次数后，对第二预测模型进行参数更新。

在本实施例中，该决策预测方法基于第二状态数据和奖励数据，计算优势函数，基于优势函数、第二状态数据以及概率预测数据，计算第一梯度函数，通过第一梯度函数对第一预测模型的模型参数进行更新，使得训练后的第一预测模型能够考虑不同生产环境下的第一状态数据的变化进行预测，提高预测的准确率，进而提高柔性产线的灵活性和生产效率。

进一步地，步骤S31之前，本实施例的决策预测方法还包括：响应于第二状态数据满足预设条件，确定调整动作的效益预测为第一预设数值，或者，响应于第二状态数据不满足预设条件，通过第二预测模型获得执行调整动作的效益预测数据；基于第二状态数据、奖励数据以及效益预测数据，计算优势函数。

具体地，第二状态数据的预设条件为柔性产线的某一特定目标或重点，该预设条件通常与柔性产线的生产需求、产品策略等有关。例如，在柔性产线的产品数量达到预设数值或者柔性产线达到预定的运行时间时，判定柔性产线的第二状态数据满足预设条件。在一种实施方式中，在柔性产线的状态满足预设条件时，调整动作的效益无需通过第二预测模型进行计算，可以直接将第一预设数值作为该动作的效益，以减少算力，提高数据处理效率。示例性地，第一预设数值可以是0，也可以基于实际生产状态增大或减小第一预设数值，在此不做具体限定。

在另一实施方式中，在柔性产线的状态不满足预设条件时，通过第二预测模型计算执行该调整动作的效益预测数据，以使得效益预测数据能够用于表示该调整动作执行后能获得的预期回报或预期价值。

进一步地，在进行训练之前，决策预测方法可以基于第一状态数据作为第一预测模型和第二预测模型的初始化的环境数据，并定义初始化的模型参数和线程状态，以建立第一预测模型和第二预测模型，使得第一预测模型能够将奖励数据作为学习目标并基于第一状态数据和动作数据进行策略预测，第二预测模型能够将奖励数据作为学习目标并基于第一状态数据和动作数据进行价值预测。具体地，本实施例可以通过以下步骤对第一预测模型和第二预测模型进行训练：

初始化第一预测模型和第二预测模型的模型参数，初始化环境数据S₀；

初始化策略累积梯度：，以及初始化效益累积梯度/>；

对于每个训练周期t；

获取第一状态数据St、动作数据以及奖励数据Rt：

使用第一预测模型计算策略π，并选择和执行调整动作，以获得第二状态数据St+1；

使用第二预测模型计算执行调整动作At所带来的价值；

计算优势函数，优势函数为，γ为介于0和1之间的折扣因子；

对于到0：/>；

计算策略累积梯度：；

计算效益累积梯度：；

通过对第一预测模型进行训练以及同步更新，通过/>对第二预测模型进行训练以及同步更新，直至满足训练条件。

可选地，第一预测模型和第二预测模型用于基于第一状态数据获取对应的环境数据，以在环境数据下进行预测。

具体地，柔性产线的状态数据用于表示第一预测模型和第二预测模型所处的环境。第一预测模型和第二预测模型在基于生产数据进行预测之前，第一预测模型和第二预测模型需要先与生产数据进行环境交互，以确定当前的环境数据，使得第一预测模型和第二预测模型后续能够基于当前的环境数据进行决策预测。

通过上述方式，第一预测模型和第二预测模型能够基于柔性产线的环境变化进行环境数据的调整，使得第一预测模型和第二预测模型所输出的预测数据能够反映柔性产线的最新状态，保证调度决策方案的高效性和实时性。

进一步地，动作数据包括柔性产线在当前的环境数据下可能采取的调整动作，奖励数据包括柔性产线在当前的环境数据下执行调整动作的结果数据，进而提高柔性产线的灵活性和生产效率。

具体地，动作数据用于表示柔性产线在环境数据下可能采取的调整动作的相关数据，例如调整动作可以包括调整生产速度、更改生产任务的优先级、启动或停止特定设备等；奖励数据为该柔性产线在执行上述动作数据的调整动作后的环境数据的变化结果，例如结果可以包括生产效率提升、成本降低等。可以理解地，奖励数据为柔性产线在实际生产过程中执行某一动作可能带来的回报，本实施例的决策预测方法可以通过比较奖励数据与预期回报，对第一预测模型和第二预测模型的模型参数进行调整，以最大化调度决策方案所带来的回报，提高生产资源的利用率。

在一实施例中，步骤S11所获取的生产数据包括柔性产线的多个第一状态数据。步骤S14之后，本实施例的决策预测方法还包括：根据调度决策方案对至少一个柔性产线进行调度控制；获取调度后的柔性产线的第三状态数据；基于第三状态数据和第一状态数据的比对结果，对第一预测模型和第二预测模型的模型参数进行优化。

具体地，获取调度决策方案后，可以通过调用任务调度算法执行调度决策方案，以对至少一个柔性产线进行生产流程调整、生产速度优化、生产设备关停、生产任务变更、人工调整等调度操作，并持续监测柔性产线的第三状态数据，第三状态数据用于体现柔性产线在执行调度决策方案后的状态变化。将第三状态数据和第一状态数据进行比对，以根据比对结果对第一预测模型和第二预测模型的模型参数进行优化，进一步提高柔性产线的灵活性和适应性，使得柔性产线的资源配置能够快速地适应市场变化，提高生产效率。

其中，用于进行比对的状态数据可以包括调度前后的产线运行指标，包括但不局限于生产效率、资源利用率、生产成本等。此外，也可以通过实时监控和分析减少的停机时间、提高的产品质量等数据，进一步调整和优化第一预测模型和第二预测模型，以持续改进生产性能。

综上所述，区别于现有技术，本申请实施例的决策预测方法通过自适应学习和多线程处理提高对于复杂的生产数据的处理能力，并实现柔性产线的实时决策和调度控制，能够应对高度动态和多变的生产环境，提高了柔性产线的操作效率和灵活性，也降低了因调度不当而引起的成本浪费等事故发生的可能性，为现代工业生产提供了一种更高效、更智能的解决方案。

请参见图4，图4是本申请提供的电子设备的一实施例的结构示意图。如图4所示，本实施例的电子设备包括相互连接的存储器52和处理器51。存储器52用于存储实现上述任意一实施例所述的方法的程序指令。处理器51用于执行存储器52存储的程序指令。

其中，处理器51还可以称为CPU（Central Processing Unit，中央处理单元）。处理器51可能是一种集成电路芯片，具有信令的处理能力。处理器51还可以是通用处理器、数字信令处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以为内存条、TF卡等，可以存储电子设备中全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器，串匹配预测装置才有记忆功能，才能保证正常工作。串匹配预测装置的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存)，也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，***服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。

请参阅图5，图5是本申请提供的计算机可读存储介质的一实施例的结构示意图。如图5所示，本申请的计算机可读存储介质存储有能够实现上述所有方法的程序指令61，其中，该程序指令61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等电子设备。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种分布式柔性产线的决策预测方法，其特征在于，包括：

实时获取多个柔性产线的生产数据；

将每个所述柔性产线的生产数据输入至第一预测模型，以使所述第一预测模型输出所述柔性产线在所述生产数据的环境下采取的策略数据；

将每个所述柔性产线的生产数据输入至第二预测模型，以使所述第二预测模型输出所述柔性产线在所述生产数据的环境下采取策略后的价值数据；

基于所述策略数据和所述价值数据，确定所述柔性产线的调度决策方案；

其中，所述生产数据包括所述柔性产线的多个第一状态数据；所述实时获取多个所述柔性产线的生产数据的步骤之后，所述决策预测方法还包括：

获取与多个所述第一状态数据对应的动作数据和奖励数据；

将所述第一状态数据和所述动作数据输入至所述第一预测模型，以获取所述第一预测模型输出的所述动作数据的概率预测数据；

基于所述概率预测数据和所述奖励数据计算第一梯度函数，并基于所述第一梯度函数对所述第一预测模型进行训练；

所述获取与多个所述第一状态数据对应的动作数据和奖励数据的步骤之后，所述决策预测方法还包括：

将所述第一状态数据和所述动作数据输入至所述第二预测模型，以获取所述第二预测模型输出的执行所述动作数据的效益预测数据；

基于所述效益预测数据和所述奖励数据计算第二梯度函数，并基于所述第二梯度函数对所述第二预测模型进行训练；所述第一预测模型用于从所述动作数据中选择调整动作并输出执行所述调整动作后所述柔性产线的第二状态数据；

所述基于所述概率预测数据和所述奖励数据计算第一梯度函数，并基于所述第一梯度函数对所述第一预测模型进行训练，包括：

基于所述第二状态数据和所述奖励数据，计算优势函数；

基于所述优势函数、所述第二状态数据以及所述概率预测数据，计算所述第一梯度函数；

通过所述第一梯度函数对所述第一预测模型的模型参数进行更新；

所述基于所述第二状态数据和所述奖励数据，计算优势函数的步骤之前，所述决策预测方法还包括：

若所述第二状态数据满足预设条件，则确定所述调整动作的效益预测为第一预设数值，或者，若所述第二状态数据不满足预设条件，则通过所述第二预测模型获得执行所述调整动作的效益预测数据；

基于所述第二状态数据、所述奖励数据以及所述效益预测数据，计算所述优势函数；

所述动作数据包括所述柔性产线在当前的环境数据下采取的调整动作，所述奖励数据包括所述柔性产线在当前的所述环境数据下执行所述调整动作的结果数据。

2.根据权利要求1所述的决策预测方法，其特征在于，所述第一预测模型和所述第二预测模型用于基于所述第一状态数据获取对应的环境数据，以在所述环境数据下进行预测。

3.根据权利要求1所述的决策预测方法，其特征在于，所述生产数据包括所述柔性产线的多个第一状态数据；所述基于多个所述策略数据和所述价值数据，确定所述柔性产线的调度决策方案的步骤之后，所述决策预测方法还包括：

根据所述调度决策方案对至少一个所述柔性产线进行调度控制；

获取调度后的所述柔性产线的第三状态数据；

基于所述第三状态数据和所述第一状态数据的比对结果，对所述第一预测模型和所述第二预测模型的模型参数进行优化。

4.一种电子设备，其特征在于，所述电子设备包括处理器、与所述处理器连接的存储器，其中，

所述存储器存储有程序指令；

所述处理器用于执行所述存储器存储的程序指令以实现如权利要求1~3任一项所述的决策预测方法。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序指令，所述程序指令能够被处理器执行以实现如权利要求1~3任一项所述的决策预测方法。