CN114721345A

CN114721345A - 基于强化学习的工业控制方法、装置、***和电子设备

Info

Publication number: CN114721345A
Application number: CN202210649819.5A
Authority: CN
Inventors: 薛飞; 邹晓川
Original assignee: Nanqi Xiance Nanjing Technology Co ltd
Current assignee: Nanqi Xiance Nanjing Technology Co ltd
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-07-08

Abstract

本发明实施例公开了一种基于强化学习的工业控制方法、装置、***和电子设备，该方法包括：获取工业设备的当前运行数据；基于工业设备对应的目标控制决策模型和当前运行数据，确定目标控制信息，其中，目标控制决策模型是预先基于工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习获得的，工业设备对应的目标虚拟环境模型是基于工业设备的历史运行数据进行环境建模获得的；将目标控制信息发送至工业设备，以使工业设备基于目标控制信息进行运行。通过本发明实施例的技术方案，可以有效保证工业控制的准确性和效率。

Description

基于强化学习的工业控制方法、装置、***和电子设备

技术领域

本发明实施例涉及计算机技术，尤其涉及一种基于强化学习的工业控制方法、装置、***和电子设备。

背景技术

工业控制器可以用于控制工业生产流程中的工业设备，以保证工业设备的正常运行。通常，工业控制器可以基于模型预测控制MPC（Model Predictive Control）方式进行工业控制。MPC方式包括两部分，一部分是用于预测未来状态的预测模型，另一部分是基于未来状态求解最优控制的优化器。

目前，现有MPC方式中的预测模型是基于人工经验手动建模获得的，其模型精度严重依赖于人工经验，并且建模时间长以及成本高。而且，现有的优化器求解过程耗时较长，并且对于非线性的包含复杂约束的情况难以求解。可见，现有的工业控制方式无法有效保证工业控制的准确性和效率。

发明内容

本发明实施例提供了一种基于强化学习的工业控制方法、装置、***和电子设备，以有效保证工业控制的准确性和效率。

根据本发明的一方面，提供了一种基于强化学习的工业控制方法，包括：

获取工业设备的当前运行数据；

基于所述工业设备对应的目标控制决策模型和所述当前运行数据，确定目标控制信息，其中，所述目标控制决策模型是预先基于所述工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习获得的，所述工业设备对应的目标虚拟环境模型是基于所述工业设备的历史运行数据进行环境建模获得的；

将所述目标控制信息发送至所述工业设备，以使所述工业设备基于所述目标控制信息进行运行。

根据本发明的另一方面，提供了一种基于强化学习的工业控制装置，包括：

当前运行数据获取模块，用于获取工业设备的当前运行数据；

目标控制信息确定模块，用于基于所述工业设备对应的目标控制决策模型和所述当前运行数据，确定目标控制信息，其中，所述目标控制决策模型是预先基于所述工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习获得的，所述工业设备对应的目标虚拟环境模型是基于所述工业设备的历史运行数据进行环境建模获得的；

目标控制信息发送模块，用于将所述目标控制信息发送至所述工业设备，以使所述工业设备基于所述目标控制信息进行运行。

根据本发明的另一方面，提供了一种基于强化学习的工业控制***，所述***包括：工业设备和工业控制器；

其中，所述工业控制器用于实现如本发明任一实施例所述的基于强化学习的工业控制方法。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的基于强化学习的工业控制方法。

本发明实施例的技术方案，通过预先基于工业设备的历史运行数据进行环境建模，获得工业设备对应的目标虚拟环境模型，从而基于历史运行数据进行环境建模，无需依赖人工经验，建模时间短，成本低，进而有效保证工业控制的准确性。基于工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习，获得工业设备对应的目标控制决策模型，从而利用强化学习获得的目标控制决策模型，对工业设备的当前运行数据进行控制决策，可以更加快速地获得目标控制信息，进而有效提高工业控制的效率。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种基于强化学习的工业控制方法的流程图；

图2是本发明实施例二提供的一种基于强化学习的工业控制方法的流程图；

图3是本发明实施例三提供的一种基于强化学习的工业控制装置的结构示意图；

图4是本发明实施例四提供的一种基于强化学习的工业控制***的结构示意图；

图5是实现本发明实施例的基于强化学习的工业控制方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“目标”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的一种基于强化学习的工业控制方法的流程图，本实施例可适用于对工业设备进行工业控制的情况。该方法可以是基于强化学习的工业控制装置来执行，该装置可以采用硬件和/或软件的形式实现，该装置可配置于电子设备中，比如工业控制器。如图1所示，该方法具体包括以下步骤：

S110、获取工业设备的当前运行数据。

其中，工业设备可以是任意一种需要工业控制的设备。当前运行数据可以是指工业设备在当前时刻下的运行数据，其可以用于表征工业设备的当前环境状态。当前运行数据可以包括但不限于工业设备的至少一种运行参数的当前参数值。

具体地，工业控制器可以预先与工业设备进行有线连接或者无线连接，以便进行数据传输。工业设备可以实时采集运行数据，并将当前采集到的当前运行数据发送至工业控制器，使得工业控制器可以获得工业设备的当前运行数据。

S120、基于工业设备对应的目标控制决策模型和当前运行数据，确定目标控制信息，其中，目标控制决策模型是预先基于工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习获得的，工业设备对应的目标虚拟环境模型是基于工业设备的历史运行数据进行环境建模获得的。

其中，目标控制信息可以是用于控制工业设备运行的信息，其可以包括至少一种控制参数对应的目标参数值。目标参数值可以是指控制参数所需要调节到的参数值。目标控制决策模型可以是基于学习到的工业控制策略，决策出工业控制操作的网络模型。预设控制决策模型可以是预先基于工业需求设置的，待学习的初始控制决策模型。目标虚拟环境模型可以是一种深度学习网络模型，其可以模仿工业设备所处于的真实环境的运行。历史运行数据可以是在历史时间段内采集到的工业设备的运行数据。

具体地，工业控制器可以预先基于工业设备的历史运行数据进行环境建模，自动构建出目标虚拟环境模型，无需依赖人工经验，建模时间短，成本低，并且可以保证建模的准确性，从而有效保证工业控制的准确性。需要说明的是，通过数据驱动的方式，可以针对任意一种工业设备所处于的工业环境进行建模，比如，可以对复杂的工业环境进行建模，从而具有更加广泛的实用性及更精确的环境建模。工业控制器可以基于构建出的目标虚拟环境模型和目标奖励函数，对预设控制决策模型进行强化学习，获得学习到的目标控制决策模型。在对预设控制决策模型进行强化学习时，可以基于实际业务需求设置不同的目标奖励函数，从而学习出不同的目标控制决策模型，以便满足不同的业务需求，提高工业控制的灵活性。在实际控制过程中，工业控制器可以将工业设备的当前运行数据输入至目标控制决策模型中进行控制决策，并基于目标控制决策模型的输出，获得当前需要控制的目标控制信息，从而利用强化学习获得的目标控制决策模型，可以更加快速地获得目标控制信息，进而有效提高了工业控制效率。

示例性地，基于工业设备的历史运行数据进行环境建模，获得工业设备对应的目标虚拟环境模型，可以包括：对历史运行数据进行预处理，确定历史运行轨迹时序信息；对历史运行轨迹时序信息进行信息分析，创建初始虚拟环境模型；基于生成对抗训练方式和历史运行轨迹时序信息，对初始虚拟环境模型进行训练，获得训练结束后的工业设备对应的目标虚拟环境模型。

具体地，可以对工业设备的历史运行数据进行数据清洗，比如消除异常值等，并基于运行数据产生时刻，对清洗后的历史运行数据进行分割处理，时间序列形式的历史运行轨迹时序信息（S₁、S₂…S_n）。例如，历史运行轨迹时序信息为：{轨迹S₁：时刻1的运行状态，决策动作1，决策结果1，时刻2的运行状态，决策动作2…，终止时刻N的运行状态}、{轨迹S₂：时刻1的运行状态，决策动作1，决策结果1，时刻2的运行状态，决策动作2…，终止时刻N的运行状态}等。对历史运行轨迹时序信息中的参数信息进行信息分析，确定环境建模所需要的环境状态变量和智能体决策动作变量，并基于环境状态变量和智能体决策动作变量，创建出具有深度学习网络框架的初始虚拟环境模型。利用生成对抗训练方式，将初始虚拟环境模型作为生成器进行环境概率转移分布的训练学习，获得训练结束后的目标虚拟环境模型。

例如，基于生成对抗训练方式和历史运行轨迹时序信息，对初始虚拟环境模型进行训练，获得训练结束后的工业设备对应的目标虚拟环境模型，可以包括：基于历史运行轨迹时序信息，确定样本输入数据和样本输入数据对应的状态标签数据；将初始虚拟环境模型作为生成对抗网络中的生成器，并将样本输入数据输入至初始虚拟环境模型中，获得初始虚拟环境模型输出的预测状态数据；将预测状态数据输入至生成对抗网络中的判别器中，获得判别器输出的判别结果；基于判别结果与状态标签数据，对初始虚拟环境模型和判别器进行交替训练，直至达到预设收敛条件时训练结束，获得工业设备对应的目标虚拟环境模型。

其中，样本输入数据可以包括每个时刻对应的运行数据（用于表征当前环境状态）以及采取的决策动作数据。状态标签数据可以是指下一时刻的运行数据，用于表征下一环境状态。利用训练函数，对生成对抗网络中的初始虚拟环境模型（即生成器）和判别器进行交替训练。在训练过程中，初始虚拟环境模型不断学习使得其生成的分布与判别器尽可能的接近，判别器则将它与生成器生成分布的距离作为优化目标，以便分辨出哪些数据是生成器生成的，哪些是真实数据。在达到预设收敛条件，比如交替迭代次数达到预设次数或者训练误差最小时，表明初始虚拟环境模型训练结束，此时可以将训练后的初始虚拟环境模型作为目标虚拟环境模型。本实施例还可以利用测试集对训练出的目标虚拟环境模型进行测试，并选择出测试结果最优的目标虚拟环境模型作为最终的目标虚拟环境模型，以保证环境建模的准确性。

示例性地，基于工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习，获得目标控制决策模型，可以包括：确定预设控制决策模型对应的控制参数搜索空间；确定预设控制决策模型对应的目标奖励函数；基于目标奖励函数、控制参数搜索空间和工业设备对应的目标虚拟环境模型，对预设控制决策模型进行强化学习，获得目标控制决策模型。

具体地，可以基于数据量规模大小，确定每个控制参数的合适的搜索空间，也就是每个控制参数的取值范围。过大的搜索空间则会导致模型很难达到收敛状态，过小的搜索空间则会导致模型的表达能力不够强大。本实施例可以采用自动搜索的方式，在给定控制参数的参数形式后，可以基于模型训练效果，动态地调整控制参数的搜索空间，使得搜索空间不断向好的方向发展。可以根据想要达到的控制效果，确定预设控制决策模型对应的目标奖励函数，比如确定出以节能为控制目标的目标奖励函数。目标奖励函数在强化学习过程中起到了指引控制策略学习方向的作用，能够很好的反应控制策略的效果，比如通过该策略获得的经济效益等。通过强化学习算法，比如PPO（Proximal Policy Optimization）算法等，在工业设备对应的目标虚拟环境模型中，预设控制决策模型与该虚拟环境在一段连续时间内不断进行交互可以产生一个交互轨迹，并通过对交互轨迹上的累计奖励进行最大化的方式，对预设控制决策模型进行强化学习，训练出最优的控制决策方式，获得最终的目标控制决策模型，从而可以在目标虚拟环境模型中更加便捷地对预设控制决策模型进行强化学习，无需干扰真实用户，并且保证了目标控制决策模型的学习效果。本实施例还可以利用测试集对训练出的目标控制决策模型进行测试，并选择出测试结果最优的目标控制决策模型作为最终的目标控制决策模型，以保证控制策略的准确性。

S130、将目标控制信息发送至工业设备，以使工业设备基于目标控制信息进行运行。

具体地，工业控制器可以将目标控制决策模型输出的目标控制信息发送至工业设备中，使得工业设备基于该目标控制信息继续运行，从而实现了对工业设备的有效控制，保证了工业设备的正常运行。

需要说明的是，本实施例中的工业控制器可以包括插口，从而通过该插口与工业设备进行连接，并且即插即用，无需繁杂的手工调试，提高了使用的便捷性和易用性。

在上述技术方案的基础上，基于工业设备的历史运行数据进行环境建模，获得工业设备对应的目标虚拟环境模型，基于工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习，获得目标控制决策模型，可以包括：

获取工业设备的历史运行数据；将历史运行数据发送至服务器，以使服务器基于工业设备的历史运行数据进行环境建模，获得工业设备对应的目标虚拟环境模型，并基于历史运行数据目标虚拟环境模型对预设控制决策模型进行强化学习，获得目标控制决策模型并进行返回；接收服务器返回的目标控制决策模型。

具体地，工业控制器与服务器进行通信连接，使得工业控制器可以将获得的历史运行数据发送至服务器，并在服务器中基于工业设备的历史运行数据进行环境建模，获得工业设备对应的目标虚拟环境模型，并基于历史运行数据目标虚拟环境模型对预设控制决策模型进行强化学习，获得目标控制决策模型。工业控制器通过从服务器中下载目标控制决策模型的方式，获得目标控制决策模型，从而通过利用服务器的强化算力，在服务器中可以更加快速准确地生成目标控制决策模型，进一步提高了工业控制的准确性和效率。

实施例二

图2为本发明实施例二提供的一种基于强化学习的工业控制方法的流程图，本实施例在上述实施例的基础上，对运行数据异常检测的过程进行了详细描述，并在基础上，对检测到数据异常后的处理过程也进行了详细描述。其中与上述实施例相同或相应的术语的解释在此不再赘述。参见图2，本实施例提供基于强化学习的工业控制方法具体包括以下步骤：

S210、获取工业设备的当前运行数据。

S220、基于工业设备对应的目标控制决策模型和当前运行数据，确定目标控制信息。

S230、将目标控制信息发送至工业设备，以使工业设备基于目标控制信息进行运行。

S240、获取工业设备基于目标控制信息进行运行后下一时刻的下一实际运行数据。

具体地，工业设备基于目标控制信息进行运行后，可以进入下一时刻的运行状态，并将下一时刻的下一实际运行数据发送至工业控制器中，使得工业控制器可以获得下一实际运行数据。

S250、对下一实际运行数据进行数据异常检测，并在检测到数据异常时，发出异常警报信息。

具体地，工业设备随着使用时间的增长会出现磨损、老化等情况，导致工业设备的性能发生变化，使得其所处于的工业环境也会发生变化，从而需要进行运行数据的异常检测，以便保证工业控制的准确性。工业控制器在基于下一实际运行数据进行下次控制之前，可以对获得的下一实际运行数据进行数据异常检测，也就是对下一实际运行数据进行合理性判断，检测是否出现数据异常，从而确定工业设备所处于的工业环境是否发生变化。例如，可以预先设置运行参数对应的参数值上下界，并在检测到下一实际运行数据超过参数值上界或者参数值下界时，确定运行数据出现异常。在检测到数据异常时，可以发出异常警报信息，从而及时提醒相关人员出现数据异常，并进行相应的异常处理。

示例性地，S250中的“对下一实际运行数据进行数据异常检测”，可以包括：基于工业设备对应的目标虚拟环境模型和当前运行数据，确定下一时刻的下一预测运行数据；将下一实际运行数据和下一预测运行数据进行数据对比，并基于对比结果确定是否出现数据异常。

具体地，工业控制器可以将当前运行数据作为当前环境状态，输入至目标虚拟环境模型中，并基于目标虚拟环境模型的输出，可以获得下一环境状态，即下一时刻的下一预测运行数据。其中，目标虚拟环境模型可以是工业控制器本地构建出的，也可以是从服务器中下载获得的。通过将获得的下一实际运行数据和下一预测运行数据进行数据对比，若两者数据之间的差距大于预设差距，则可以确定数据出现异常，也就是，工业设备所处于的工业生产环境发生了变化。

S260、基于工业设备在数据异常之后产生的目标运行数据，对工业设备对应的目标虚拟环境模型进行模型更新，获得更新后的目标虚拟环境模型。

具体地，在检测到数据异常之后，工业设备可以获取数据异常之后产生的目标运行数据，并基于最新的目标运行数据对目标虚拟环境模型进行模型更新，从而获得工业环境改变后的目标虚拟环境模型。

S270、基于更新后的目标虚拟环境模型，重新对预设控制决策模型进行强化学习，获得更新后的目标控制决策模型。

具体地，通过强化学习算法，在更新后的目标虚拟环境模型中，预设控制决策模型重新与该虚拟环境不断进行交互产生交互轨迹，并通过对交互轨迹上的累计奖励进行最大化的方式，重新对预设控制决策模型进行强化学习，获得在工业环境改变后一个新的目标控制决策模型，从而后续可以利用更新后的目标控制决策模型对工业设备进行工业控制，进一步保证了工业控制的准确性。

需要说明的是，若在服务器中进行环境建模和决策控制，则工业控制器需要将目标运行数据发送至服务器中，以便在服务器中基于目标运行数据，对目标虚拟环境模型进行模型更新，获得更新后的目标虚拟环境模型，并基于更新后的目标虚拟环境模型，重新对预设控制决策模型进行强化学习，获得更新后的目标控制决策模型，并将更新后的目标控制决策模型发送至工业控制中。

本实施例的技术方案，通过对下一实际运行数据进行数据异常检测，并在检测到数据异常时，发出异常警报信息，从而可以及时提醒相关人员出现数据异常，并进行相应的异常处理。在检测到数据异常之后，可以基于工业设备在数据异常之后产生的目标运行数据，对工业设备对应的目标虚拟环境模型进行模型更新，获得更新后的目标虚拟环境模型，并基于更新后的目标虚拟环境模型，重新对预设控制决策模型进行强化学习，获得更新后的目标控制决策模型，从而在工业生产环境发生变化时，可以自动调整对环境的建模，并获得新的控制决策模型，时效性较强，进而可以保证工业控制的准确性，使得工业控制器可以具有适应工业生产环境变化的能力。

以下是本发明实施例提供的基于强化学习的工业控制装置的实施例，该装置与上述各实施例的基于强化学习的工业控制方法属于同一个发明构思，在基于强化学习的工业控制装置的实施例中未详尽描述的细节内容，可以参考上述基于强化学习的工业控制方法的实施例。

实施例三

图3为本发明实施例三提供的一种基于强化学习的工业控制装置的结构示意图。如图3所示，该装置具体包括：当前运行数据获取模块310、目标控制信息确定模块320和目标控制信息发送模块330。

其中，当前运行数据获取模块310，用于获取工业设备的当前运行数据；目标控制信息确定模块320，用于基于所述工业设备对应的目标控制决策模型和所述当前运行数据，确定目标控制信息，其中，所述目标控制决策模型是预先基于所述工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习获得的，所述工业设备对应的目标虚拟环境模型是基于所述工业设备的历史运行数据进行环境建模获得的；目标控制信息发送模块330，用于将所述目标控制信息发送至所述工业设备，以使所述工业设备基于所述目标控制信息进行运行。

可选地，该装置还包括：环境建模模块，包括：

历史运行轨迹时序信息确定单元，用于对所述历史运行数据进行预处理，确定历史运行轨迹时序信息；

初始虚拟环境模型创建单元，用于对所述历史运行轨迹时序信息进行信息分析，创建初始虚拟环境模型；

目标虚拟环境模型确定单元，用于基于生成对抗训练方式和所述历史运行轨迹时序信息，对初始虚拟环境模型进行训练，获得训练结束后的所述工业设备对应的目标虚拟环境模型。

可选地，目标虚拟环境模型确定单元，具体用于：

基于所述历史运行轨迹时序信息，确定样本输入数据和所述样本输入数据对应的状态标签数据；将初始虚拟环境模型作为生成对抗网络中的生成器，并将所述样本输入数据输入至所述初始虚拟环境模型中，获得所述初始虚拟环境模型输出的预测状态数据；将所述预测状态数据输入至生成对抗网络中的判别器中，获得所述判别器输出的判别结果；基于所述判别结果与所述状态标签数据，对所述初始虚拟环境模型和所述判别器进行交替训练，直至达到预设收敛条件时训练结束，获得所述工业设备对应的目标虚拟环境模型。

可选地，该装置还包括：

目标控制决策模型确定模块，具体用于：确定预设控制决策模型对应的控制参数搜索空间；确定所述预设控制决策模型对应的目标奖励函数；基于所述目标奖励函数、所述控制参数搜索空间和所述工业设备对应的目标虚拟环境模型，对所述预设控制决策模型进行强化学习，获得所述目标控制决策模型。

可选地，该装置还包括：

历史运行数据获取模块，用于获取所述工业设备的历史运行数据；

历史运行数据发送模块，用于将所述历史运行数据发送至服务器，以使所述服务器基于所述工业设备的历史运行数据进行环境建模，获得所述工业设备对应的目标虚拟环境模型，并基于所述历史运行数据目标虚拟环境模型对预设控制决策模型进行强化学习，获得所述目标控制决策模型并进行返回；

目标控制决策模型接收模块，用于接收所述服务器返回的所述目标控制决策模型。

可选地，该装置还包括：

下一实际运行数据获取模块，用于获取所述工业设备基于所述目标控制信息进行运行后下一时刻的下一实际运行数据；

异常警报信息发出模块，用于对所述下一实际运行数据进行数据异常检测，并在检测到数据异常时，发出异常警报信息。

可选地，异常警报信息发出模块包括：数据异常检测单元；

数据异常检测单元，具体用于：基于所述工业设备对应的目标虚拟环境模型和所述当前运行数据，确定下一时刻的下一预测运行数据；将所述下一实际运行数据和所述下一预测运行数据进行数据对比，并基于对比结果确定是否出现数据异常。

可选地，该装置还包括：

模型更新模块，用于在检测到数据异常之后，基于所述工业设备在数据异常之后产生的目标运行数据，对所述工业设备对应的目标虚拟环境模型进行模型更新，获得更新后的目标虚拟环境模型；基于所述更新后的目标虚拟环境模型，重新对预设控制决策模型进行强化学习，获得更新后的目标控制决策模型。

本发明实施例所提供的基于强化学习的工业控制装置可执行本发明任意实施例所提供的基于强化学习的工业控制方法，具备执行基于强化学习的工业控制方法相应的功能模块和有益效果。

值得注意的是，上述基于强化学习的工业控制装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例四

图4为本公开实施例四提供的一种基于强化学习的工业控制***的结构示意图。如图4所示，该***具体包括：工业设备410和工业控制器420。

其中，工业控制器420用于实现如本发明任意实施例所提供的基于强化学习的工业控制方法。

本公开实施例中的基于强化学习的工业控制***，通过预先基于工业设备的历史运行数据进行环境建模，获得工业设备对应的目标虚拟环境模型，从而基于历史运行数据进行环境建模，无需依赖人工经验，建模时间短，成本低，进而有效保证工业控制的准确性。基于工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习，获得工业设备对应的目标控制决策模型，从而利用强化学习获得的目标控制决策模型，对工业设备的当前运行数据进行控制决策，可以更加快速地获得目标控制信息，进而有效提高工业控制的效率。

实施例五

图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如基于强化学习的工业控制方法。

在一些实施例中，基于强化学习的工业控制方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的基于强化学习的工业控制方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行基于强化学习的工业控制方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上***的***（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

为了提供与用户的交互，可以在电子设备上实施此处描述的***和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于强化学习的工业控制方法，其特征在于，包括：

获取工业设备的当前运行数据；

2.根据权利要求1所述的方法，其特征在于，基于所述工业设备的历史运行数据进行环境建模，获得所述工业设备对应的目标虚拟环境模型，包括：

对所述历史运行数据进行预处理，确定历史运行轨迹时序信息；

对所述历史运行轨迹时序信息进行信息分析，创建初始虚拟环境模型；

基于生成对抗训练方式和所述历史运行轨迹时序信息，对初始虚拟环境模型进行训练，获得训练结束后的所述工业设备对应的目标虚拟环境模型。

3.根据权利要求2所述的方法，其特征在于，基于生成对抗训练方式和所述历史运行轨迹时序信息，对初始虚拟环境模型进行训练，获得训练结束后的所述工业设备对应的目标虚拟环境模型，包括：

基于所述历史运行轨迹时序信息，确定样本输入数据和所述样本输入数据对应的状态标签数据；

将初始虚拟环境模型作为生成对抗网络中的生成器，并将所述样本输入数据输入至所述初始虚拟环境模型中，获得所述初始虚拟环境模型输出的预测状态数据；

将所述预测状态数据输入至生成对抗网络中的判别器中，获得所述判别器输出的判别结果；

基于所述判别结果与所述状态标签数据，对所述初始虚拟环境模型和所述判别器进行交替训练，直至达到预设收敛条件时训练结束，获得所述工业设备对应的目标虚拟环境模型。

4.根据权利要求1所述的方法，其特征在于，基于所述工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习，获得所述目标控制决策模型，包括：

确定预设控制决策模型对应的控制参数搜索空间；

确定所述预设控制决策模型对应的目标奖励函数；

基于所述目标奖励函数、所述控制参数搜索空间和所述工业设备对应的目标虚拟环境模型，对所述预设控制决策模型进行强化学习，获得所述目标控制决策模型。

5.根据权利要求1-4任一项所述的方法，其特征在于，基于所述工业设备的历史运行数据进行环境建模，获得所述工业设备对应的目标虚拟环境模型，基于所述工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习，获得所述目标控制决策模型，包括：

获取所述工业设备的历史运行数据；

将所述历史运行数据发送至服务器，以使所述服务器基于所述工业设备的历史运行数据进行环境建模，获得所述工业设备对应的目标虚拟环境模型，并基于所述历史运行数据目标虚拟环境模型对预设控制决策模型进行强化学习，获得所述目标控制决策模型并进行返回；

接收所述服务器返回的所述目标控制决策模型。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述工业设备基于所述目标控制信息进行运行后下一时刻的下一实际运行数据；

对所述下一实际运行数据进行数据异常检测，并在检测到数据异常时，发出异常警报信息。

7.根据权利要求6所述的方法，其特征在于，对所述下一实际运行数据进行数据异常检测，包括：

基于所述工业设备对应的目标虚拟环境模型和所述当前运行数据，确定下一时刻的下一预测运行数据；

将所述下一实际运行数据和所述下一预测运行数据进行数据对比，并基于对比结果确定是否出现数据异常。

8.根据权利要求6所述的方法，其特征在于，在检测到数据异常之后，还包括：

基于所述工业设备在数据异常之后产生的目标运行数据，对所述工业设备对应的目标虚拟环境模型进行模型更新，获得更新后的目标虚拟环境模型；

基于所述更新后的目标虚拟环境模型，重新对预设控制决策模型进行强化学习，获得更新后的目标控制决策模型。

9.一种基于强化学习的工业控制装置，其特征在于，包括：

10.一种基于强化学习的工业控制***，其特征在于，所述***包括：工业设备和工业控制器；

其中，所述工业控制器用于实现如权利要求1-8中任一项所述的基于强化学习的工业控制方法。

11.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的基于强化学习的工业控制方法。