CN110134165A

CN110134165A - 一种用于环境监测与控制的强化学习方法及***

Info

Publication number: CN110134165A
Application number: CN201910393176.0A
Authority: CN
Inventors: 张修勇; 徐方圆; 郄文博
Original assignee: BEIJING PENGTONG GAOKE SCIENCE & TECHNOLOGY Co Ltd
Current assignee: BEIJING PENGTONG GAOKE SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-08-16
Anticipated expiration: 2039-05-13
Also published as: CN110134165B

Abstract

本发明实施例提供了一种用于环境监测与控制的强化学习方法及***，方法包括：将现场实际环境映射为学习模型，所述学习模型是根据所述现场实际环境中智能体的状态、动作以及学习目标建立的；基于强化学习后的所述学习模型，对所述实际环境进行监测与控制，其中，所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。本发明实施例提供的一种用于环境监测与控制的强化学习方法及***，通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制，满足不同环境下的不同需求，降低运行成本具有自适应和预测能力，可应对各种复杂的展厅环境。

Description

一种用于环境监测与控制的强化学习方法及***

技术领域

本发明涉及环境监测技术领域，尤其涉及一种用于环境监测与控制的强化学习方法及***。

背景技术

在各行业的生产、仓储等过程中，存在着大量对环境参数监测与调控的需求，其中最常见也是最重要的需求就是对环境中温度和湿度的监测与调控。例如在药品生产与储存、博物馆馆藏文物展示、运输与储藏、茶叶生产与储存、图书馆与美术馆作品展示与储藏，以及银行金库钱币储藏等应用场景，都涉及到对环境中温湿度的监测和调控需求。

当前，环境中温湿度的监测与调控模型大概分为两种。第一种模型是单机调控，例如在调控空间内部署独立的除湿机、加湿机、恒湿机、电暖器或空调等。这种调控模型中，温湿度的感知由设备自带的温湿度传感器实现，设备通过比较设置的温湿度调节目标和传感器感知的环境参数，进行温湿度调节动作，达到预期目标。第二种模型是温湿度监测调控***，这种模型下，通常采用监测与调控单元分布式部署的方式，***由调控主机***和各个目标空间的控制***等组成，通过各个单独空间的调控目标值和传感器感知的环境参数，进行分布式环境调控。

但上述现有技术的方案一方面由于监测单元的位置和数量限制，使得调控单元接收到的环境实时状况不精确、不全面，另一方面，环境调控单元的决策***由PLC或者单片机构成，增加或者减低温湿度的决策采用简单的比较操作，无法实现精准、均匀和绿色节能等指标，因此现在亟需一种用于环境监测与控制的强化学习方法来解决上述问题。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的一种用于环境监测与控制的强化学习方法及***。

第一方面本发明实施例提供一种用于环境监测与控制的强化学习方法，包括：

将现场实际环境映射为学习模型，所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的；

基于强化学习后的所述学习模型，对所述实际环境进行监测与控制，其中，所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。

第二方面本发明实施例还提供一种用于环境监测与控制的强化学习***，包括：

模型映射模块，用于将现场实际环境映射为学习模型，所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的；

监测与控制模块，用于基于强化学习后的所述学习模型，对所述实际环境进行监测与控制，其中，所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。

第三方面本发明实施例提供了一种电子设备，包括：

处理器、存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述用于环境监测与控制的强化学习方法。

第四方面本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述用于环境监测与控制的强化学习方法。

本发明实施例提供的一种用于环境监测与控制的强化学习方法及***，通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制，满足不同环境下的不同需求，降低运行成本具有自适应和预测能力，可应对各种复杂的展厅环境。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种用于环境监测与控制的强化学习方法流程示意图；

图2是本发明实施例提供的一种用于环境监测与控制的强化学习***结构示意图；

图3是本发明实施例提供的一种电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种用于环境监测与控制的强化学习方法流程示意图，如图1所示，包括：

101、将现场实际环境映射为学习模型，所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的；

102、基于强化学习后的所述学习模型，对所述实际环境进行监测与控制，其中，所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的

需要说明的是，强化学习是人工智能的一个分支，也叫增强学习，是指一类从交互中不断学习一类问题以及解决这类问题的方法。强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标，例如取得最大奖励值。针对于强化学习的特点，本发明实施例将强化学习应用在环境的监测和控制中，可以理解的是，环境的监测和控制主要是对空间温湿度的监测和控制。

具体的，在步骤101中，可以理解的是，环境可能存在有多种场景，例如：博物馆环境、储藏室环境、美术馆环境等，本发明实施例针对不同的现场实际环境会将其映射为不同的学习模型。该学习模型在本发明实施例中也可以称为一般强化学习模型，以博物馆环境为例，本发明实施例会将博物馆环境中有监测控制权限的计算机看成一个智能体，将该智能体对应到学习模型中，从而对智能体的状态、动作、奖励定义，以完成对学习模型的映射。具体操作中本发明实施例会将有监测控制权限的计算机看成一个智能体，对应到Q学习中，智能体表示为agent：n，1≤n≤N,其中N表示智能体的总个数。状态表示为state:T_t，H_t，其中T表示监测到的温度，H表示检测到的湿度。动作表示为action:T_n,t,H_n,t，其中T_n,t表示t时刻温度的调节值，H_n,t表示t时刻湿度的调节值。学习奖励reward：

其中，T_a为最适宜的温度，H_a为最适宜的湿度，K₁为温度调节所占比例，K₂为湿度调节所占比例；

进一步的，在步骤102中，当学习模型映射成功后，本发明实施例优选的采用了在线的全连接深度网络进行强化学习。具体的，本发明实施例在深度Q学习(DQN)中，值函数的更新是神经网络的参数θ，而不是Q值表，更新方法采用梯度下降算法，其值函数的更新为：

θ_t+1＝θ_t+α[r+γma'x Q(s_t+1,a_t+1；θ^-)-Q(s_t,a_t；θ)]▽Q(s_t,a_t；θ)；

其中，表示的是时间差分目标，而Q(s_t,a_t；θ)表示的是指函数逼近的网络目标，▽Q(s_t,a_t；θ)则表示梯度。本发明实施例所提供的深度神经网络采用了dropout技术，增加网络泛化能力的同时，也降低了网络的方差，防止了过拟合的发生。为了加快网络的训练，在网络的反向传播过程中，采用AdamOptimizers优化器。其中，深度神经网络的损失函数如下式所示：

其中，q_z表示Q学习的调节策略，o_z表示神经网络的输出，c是惩罚因子，θ表示值函数的网络参数。

最后，通过强化学习后的学习模型，能够智能化与环境的不断交互自动调整网络参数，使智能体的获得大的reward值，从而获取最佳的控制策略，实现环境的监测与控制。

本发明实施例提供的一种用于环境监测与控制的强化学习方法，通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制，满足不同环境下的不同需求，降低运行成本具有自适应和预测能力，可应对各种复杂的展厅环境。

在上述实施例的基础上，所述学习模型为Q学习模型。由上述实施例的内容可知，本发明实施例将现场环境映射为学习模型，那么具体操作中可采用的学习模型类型有基于值函数的策略学习方法有动态规划方法、蒙特卡罗方法、时序差分学习方法、Q学习(Q-learning)方法等多种，优选的，本发明实施例中采用了Q学习方法。其中，所述Q学习模型的reward为：

回报函数为：

其中，T_a为储存该文物最适宜的温度，H_a为储存该文物最适宜的湿度，ΔT_max为一次温度最大调节值，ΔH_max为一次湿度最大调节值，以博物馆环境为例，则T_a相应的为储存该文物最适宜的温度，H_a相应的为储存该文物最适宜的湿度。

在上述实施例的基础上，所述基于强化学习后的所述学习模型，对所述实际环境进行监测与控制，包括：

基于预设的动作选择策略，根据所述智能体的状态，选择所述智能体状态对应的动作。

具体的，根据展厅的环境不同分为不同智能体，假设有三类展厅，分别包含有展厅a、展厅b和展厅c，那么展厅a、展厅b和展厅c可以表示为n_a1,n_a2...,n_amax，n_b1,n_b2...,n_bmax，n_c1,n_c2...,n_cmax。

由于同一类展厅环境相似度较高，为了提高智能体训练效率和降低复杂度，本发明实施例为每一类展厅设置一个核心智能体，其余智能体可以在核心智能体参数基础上进行训练微调来更新其DQN权重，实时情况下，每个智能体使用训练好的DQN在在线和分布式方式下自主决策。

本发明实施例将观测时间间隔设为t，输入x_n(t)，得到的观测值为y_n(t)，所述动作选择策略为：

其中，α表示动作探索概率且α＞0，β表示折扣因子，Q(a)为选择动作a的Q值。

在上述实施例的基础上，所述方法还包括：

按照预设频率更新所述学习模型的模型参数，直至达到预设的更新次数。

可以理解的是，在实际强化学习过程中，本发明实施例是一个不断更新的过程。具体实施时，本发明实施例首先初始化变量，包括智能体的个数，初始动作，初始温度、湿度，最大温湿度调控范围，时间间隔。初始化状态空间、动作空间、折扣率和学习率。然后初始化起始状态，根据状态的变化采用上述实施例中的动作策略选择相应的动作。执行动作后对环境进行观测得到奖励和新的状态。然后按照预设频率更新模型的参数，在本发明实施例中优选的可以设为每隔1步更新一次Q网络参数，每隔5步更新一次目标Q网络参数，反复进行上述更新过程直至强化学习达到预设的终止条件。

图2是本发明实施例提供的一种用于环境监测与控制的强化学习***结构示意图，如图2所示，包括：模型映射模块201和监测与控制模块202，其中：

模型映射模块201用于将现场实际环境映射为学习模型，所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的；

监测与控制模块202用于基于强化学习后的所述学习模型，对所述实际环境进行监测与控制，其中，所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。

具体的如何通过模型映射模块201和监测与控制模块202可用于执行图1所示的用于环境监测与控制的强化学习方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例提供的一种用于环境监测与控制的强化学习***，通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制，满足不同环境下的不同需求，降低运行成本具有自适应和预测能力，可应对各种复杂的展厅环境。

在上述实施例的基础上，所述学习模型为Q学习模型在上述实施例的基础上，所述监测与控制模块用于：

在上述实施例的基础上，所述动作选择策略为：

在上述实施例的基础上，所述Q学习模型的奖励为：

回报函数为：

其中，T_a为最适宜的温度，H_a为最适宜的湿度，ΔT_max为一次温度最大调节值，ΔH_max为一次湿度最大调节值。

在上述实施例的基础上，所述***还包括：

更新模块，用于按照预设频率更新所述学习模型的模型参数，直至达到预设的更新次数。

本发明实施例提供一种电子设备，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：

图3是本发明实施例提供的电子设备的结构框图，参照图3，所述电子设备，包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和总线304，其中，处理器301，通信接口302，存储器303通过总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行如下方法：将现场实际环境映射为学习模型，所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的；基于强化学习后的所述学习模型，对所述实际环境进行监测与控制，其中，所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：将现场实际环境映射为学习模型，所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的；基于强化学习后的所述学习模型，对所述实际环境进行监测与控制，其中，所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：将现场实际环境映射为学习模型，所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的；基于强化学习后的所述学习模型，对所述实际环境进行监测与控制，其中，所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行每个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于环境监测与控制的强化学习方法，其特征在于，包括：

2.根据权利要求1所述的用于环境监测与控制的强化学习方法，所述学习模型为Q学习模型。

3.根据权利要求2所述的用于环境监测与控制的强化学习方法，其特征在于，所述基于强化学习后的所述学习模型，对所述实际环境进行监测与控制，包括：

4.根据权利要求3所述的用于环境监测与控制的强化学习方法，其特征在于，所述动作选择策略为：

5.根据权利要求2所述的用于环境监测与控制的强化学习方法，其特征在于，所述Q学习模型的奖励为：

回报函数为：

6.根据权利要求1所述的用于环境监测与控制的强化学习方法，其特征在于，所述方法还包括：

7.一种用于环境监测与控制的强化学习***，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述用于环境监测与控制的强化学习方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述用于环境监测与控制的强化学习方法的步骤。