CN110134165A - 一种用于环境监测与控制的强化学习方法及*** - Google Patents

一种用于环境监测与控制的强化学习方法及*** Download PDF

Info

Publication number
CN110134165A
CN110134165A CN201910393176.0A CN201910393176A CN110134165A CN 110134165 A CN110134165 A CN 110134165A CN 201910393176 A CN201910393176 A CN 201910393176A CN 110134165 A CN110134165 A CN 110134165A
Authority
CN
China
Prior art keywords
learning
control
intensified learning
learning model
intensified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910393176.0A
Other languages
English (en)
Other versions
CN110134165B (zh
Inventor
张修勇
徐方圆
郄文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING PENGTONG GAOKE SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
BEIJING PENGTONG GAOKE SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING PENGTONG GAOKE SCIENCE & TECHNOLOGY Co Ltd filed Critical BEIJING PENGTONG GAOKE SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201910393176.0A priority Critical patent/CN110134165B/zh
Publication of CN110134165A publication Critical patent/CN110134165A/zh
Application granted granted Critical
Publication of CN110134165B publication Critical patent/CN110134165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D27/00Simultaneous control of variables covered by two or more of main groups G05D1/00 - G05D25/00
    • G05D27/02Simultaneous control of variables covered by two or more of main groups G05D1/00 - G05D25/00 characterised by the use of electric means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Air Conditioning Control Device (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明实施例提供了一种用于环境监测与控制的强化学习方法及***,方法包括:将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及学习目标建立的;基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。本发明实施例提供的一种用于环境监测与控制的强化学习方法及***,通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制,满足不同环境下的不同需求,降低运行成本具有自适应和预测能力,可应对各种复杂的展厅环境。

Description

一种用于环境监测与控制的强化学习方法及***
技术领域
本发明涉及环境监测技术领域,尤其涉及一种用于环境监测与控制的强化学习方法及***。
背景技术
在各行业的生产、仓储等过程中,存在着大量对环境参数监测与调控的需求,其中最常见也是最重要的需求就是对环境中温度和湿度的监测与调控。例如在药品生产与储存、博物馆馆藏文物展示、运输与储藏、茶叶生产与储存、图书馆与美术馆作品展示与储藏,以及银行金库钱币储藏等应用场景,都涉及到对环境中温湿度的监测和调控需求。
当前,环境中温湿度的监测与调控模型大概分为两种。第一种模型是单机调控,例如在调控空间内部署独立的除湿机、加湿机、恒湿机、电暖器或空调等。这种调控模型中,温湿度的感知由设备自带的温湿度传感器实现,设备通过比较设置的温湿度调节目标和传感器感知的环境参数,进行温湿度调节动作,达到预期目标。第二种模型是温湿度监测调控***,这种模型下,通常采用监测与调控单元分布式部署的方式,***由调控主机***和各个目标空间的控制***等组成,通过各个单独空间的调控目标值和传感器感知的环境参数,进行分布式环境调控。
但上述现有技术的方案一方面由于监测单元的位置和数量限制,使得调控单元接收到的环境实时状况不精确、不全面,另一方面,环境调控单元的决策***由PLC或者单片机构成,增加或者减低温湿度的决策采用简单的比较操作,无法实现精准、均匀和绿色节能等指标,因此现在亟需一种用于环境监测与控制的强化学习方法来解决上述问题。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的一种用于环境监测与控制的强化学习方法及***。
第一方面本发明实施例提供一种用于环境监测与控制的强化学习方法,包括:
将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
第二方面本发明实施例还提供一种用于环境监测与控制的强化学习***,包括:
模型映射模块,用于将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
监测与控制模块,用于基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
第三方面本发明实施例提供了一种电子设备,包括:
处理器、存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述用于环境监测与控制的强化学习方法。
第四方面本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述用于环境监测与控制的强化学习方法。
本发明实施例提供的一种用于环境监测与控制的强化学习方法及***,通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制,满足不同环境下的不同需求,降低运行成本具有自适应和预测能力,可应对各种复杂的展厅环境。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种用于环境监测与控制的强化学习方法流程示意图;
图2是本发明实施例提供的一种用于环境监测与控制的强化学习***结构示意图;
图3是本发明实施例提供的一种电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种用于环境监测与控制的强化学习方法流程示意图,如图1所示,包括:
101、将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
102、基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的
需要说明的是,强化学习是人工智能的一个分支,也叫增强学习,是指一类从交互中不断学习一类问题以及解决这类问题的方法。强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标,例如取得最大奖励值。针对于强化学习的特点,本发明实施例将强化学习应用在环境的监测和控制中,可以理解的是,环境的监测和控制主要是对空间温湿度的监测和控制。
具体的,在步骤101中,可以理解的是,环境可能存在有多种场景,例如:博物馆环境、储藏室环境、美术馆环境等,本发明实施例针对不同的现场实际环境会将其映射为不同的学习模型。该学习模型在本发明实施例中也可以称为一般强化学习模型,以博物馆环境为例,本发明实施例会将博物馆环境中有监测控制权限的计算机看成一个智能体,将该智能体对应到学习模型中,从而对智能体的状态、动作、奖励定义,以完成对学习模型的映射。具体操作中本发明实施例会将有监测控制权限的计算机看成一个智能体,对应到Q学习中,智能体表示为agent:n,1≤n≤N,其中N表示智能体的总个数。状态表示为state:Tt,Ht,其中T表示监测到的温度,H表示检测到的湿度。动作表示为action:Tn,t,Hn,t,其中Tn,t表示t时刻温度的调节值,Hn,t表示t时刻湿度的调节值。学习奖励reward:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,K1为温度调节所占比例,K2为湿度调节所占比例;
进一步的,在步骤102中,当学习模型映射成功后,本发明实施例优选的采用了在线的全连接深度网络进行强化学习。具体的,本发明实施例在深度Q学习(DQN)中,值函数的更新是神经网络的参数θ,而不是Q值表,更新方法采用梯度下降算法,其值函数的更新为:
θt+1=θt+α[r+γma'x Q(st+1,at+1;θ-)-Q(st,at;θ)]▽Q(st,at;θ);
其中,表示的是时间差分目标,而Q(st,at;θ)表示的是指函数逼近的网络目标,▽Q(st,at;θ)则表示梯度。本发明实施例所提供的深度神经网络采用了dropout技术,增加网络泛化能力的同时,也降低了网络的方差,防止了过拟合的发生。为了加快网络的训练,在网络的反向传播过程中,采用AdamOptimizers优化器。其中,深度神经网络的损失函数如下式所示:
其中,qz表示Q学习的调节策略,oz表示神经网络的输出,c是惩罚因子,θ表示值函数的网络参数。
最后,通过强化学习后的学习模型,能够智能化与环境的不断交互自动调整网络参数,使智能体的获得大的reward值,从而获取最佳的控制策略,实现环境的监测与控制。
本发明实施例提供的一种用于环境监测与控制的强化学习方法,通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制,满足不同环境下的不同需求,降低运行成本具有自适应和预测能力,可应对各种复杂的展厅环境。
在上述实施例的基础上,所述学习模型为Q学习模型。由上述实施例的内容可知,本发明实施例将现场环境映射为学习模型,那么具体操作中可采用的学习模型类型有基于值函数的策略学习方法有动态规划方法、蒙特卡罗方法、时序差分学习方法、Q学习(Q-learning)方法等多种,优选的,本发明实施例中采用了Q学习方法。其中,所述Q学习模型的reward为:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,K1为温度调节所占比例,K2为湿度调节所占比例;
回报函数为:
其中,Ta为储存该文物最适宜的温度,Ha为储存该文物最适宜的湿度,ΔTmax为一次温度最大调节值,ΔHmax为一次湿度最大调节值,以博物馆环境为例,则Ta相应的为储存该文物最适宜的温度,Ha相应的为储存该文物最适宜的湿度。
在上述实施例的基础上,所述基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,包括:
基于预设的动作选择策略,根据所述智能体的状态,选择所述智能体状态对应的动作。
具体的,根据展厅的环境不同分为不同智能体,假设有三类展厅,分别包含有展厅a、展厅b和展厅c,那么展厅a、展厅b和展厅c可以表示为na1,na2...,namax,nb1,nb2...,nbmax,nc1,nc2...,ncmax
由于同一类展厅环境相似度较高,为了提高智能体训练效率和降低复杂度,本发明实施例为每一类展厅设置一个核心智能体,其余智能体可以在核心智能体参数基础上进行训练微调来更新其DQN权重,实时情况下,每个智能体使用训练好的DQN在在线和分布式方式下自主决策。
本发明实施例将观测时间间隔设为t,输入xn(t),得到的观测值为yn(t),所述动作选择策略为:
其中,α表示动作探索概率且α>0,β表示折扣因子,Q(a)为选择动作a的Q值。
在上述实施例的基础上,所述方法还包括:
按照预设频率更新所述学习模型的模型参数,直至达到预设的更新次数。
可以理解的是,在实际强化学习过程中,本发明实施例是一个不断更新的过程。具体实施时,本发明实施例首先初始化变量,包括智能体的个数,初始动作,初始温度、湿度,最大温湿度调控范围,时间间隔。初始化状态空间、动作空间、折扣率和学习率。然后初始化起始状态,根据状态的变化采用上述实施例中的动作策略选择相应的动作。执行动作后对环境进行观测得到奖励和新的状态。然后按照预设频率更新模型的参数,在本发明实施例中优选的可以设为每隔1步更新一次Q网络参数,每隔5步更新一次目标Q网络参数,反复进行上述更新过程直至强化学习达到预设的终止条件。
图2是本发明实施例提供的一种用于环境监测与控制的强化学习***结构示意图,如图2所示,包括:模型映射模块201和监测与控制模块202,其中:
模型映射模块201用于将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
监测与控制模块202用于基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
具体的如何通过模型映射模块201和监测与控制模块202可用于执行图1所示的用于环境监测与控制的强化学习方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例提供的一种用于环境监测与控制的强化学习***,通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制,满足不同环境下的不同需求,降低运行成本具有自适应和预测能力,可应对各种复杂的展厅环境。
在上述实施例的基础上,所述学习模型为Q学习模型在上述实施例的基础上,所述监测与控制模块用于:
基于预设的动作选择策略,根据所述智能体的状态,选择所述智能体状态对应的动作。
在上述实施例的基础上,所述动作选择策略为:
其中,α表示动作探索概率且α>0,β表示折扣因子,Q(a)为选择动作a的Q值。
在上述实施例的基础上,所述Q学习模型的奖励为:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,K1为温度调节所占比例,K2为湿度调节所占比例;
回报函数为:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,ΔTmax为一次温度最大调节值,ΔHmax为一次湿度最大调节值。
在上述实施例的基础上,所述***还包括:
更新模块,用于按照预设频率更新所述学习模型的模型参数,直至达到预设的更新次数。
本发明实施例提供一种电子设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
图3是本发明实施例提供的电子设备的结构框图,参照图3,所述电子设备,包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和总线304,其中,处理器301,通信接口302,存储器303通过总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行如下方法:将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行每个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种用于环境监测与控制的强化学习方法,其特征在于,包括:
将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
2.根据权利要求1所述的用于环境监测与控制的强化学习方法,所述学习模型为Q学习模型。
3.根据权利要求2所述的用于环境监测与控制的强化学习方法,其特征在于,所述基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,包括:
基于预设的动作选择策略,根据所述智能体的状态,选择所述智能体状态对应的动作。
4.根据权利要求3所述的用于环境监测与控制的强化学习方法,其特征在于,所述动作选择策略为:
其中,α表示动作探索概率且α>0,β表示折扣因子,Q(a)为选择动作a的Q值。
5.根据权利要求2所述的用于环境监测与控制的强化学习方法,其特征在于,所述Q学习模型的奖励为:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,K1为温度调节所占比例,K2为湿度调节所占比例;
回报函数为:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,ΔTmax为一次温度最大调节值,ΔHmax为一次湿度最大调节值。
6.根据权利要求1所述的用于环境监测与控制的强化学习方法,其特征在于,所述方法还包括:
按照预设频率更新所述学习模型的模型参数,直至达到预设的更新次数。
7.一种用于环境监测与控制的强化学习***,其特征在于,包括:
模型映射模块,用于将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
监测与控制模块,用于基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述用于环境监测与控制的强化学习方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述用于环境监测与控制的强化学习方法的步骤。
CN201910393176.0A 2019-05-13 2019-05-13 一种用于环境监测与控制的强化学习方法及*** Active CN110134165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910393176.0A CN110134165B (zh) 2019-05-13 2019-05-13 一种用于环境监测与控制的强化学习方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910393176.0A CN110134165B (zh) 2019-05-13 2019-05-13 一种用于环境监测与控制的强化学习方法及***

Publications (2)

Publication Number Publication Date
CN110134165A true CN110134165A (zh) 2019-08-16
CN110134165B CN110134165B (zh) 2020-12-25

Family

ID=67573470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910393176.0A Active CN110134165B (zh) 2019-05-13 2019-05-13 一种用于环境监测与控制的强化学习方法及***

Country Status (1)

Country Link
CN (1) CN110134165B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110531681A (zh) * 2019-09-17 2019-12-03 山东建筑大学 基于深度强化学习的室内照明数据采集控制***及方法
CN110989735A (zh) * 2019-11-12 2020-04-10 珠海格力电器股份有限公司 睡眠环境自适应调节方法、装置和电子设备
CN111126605A (zh) * 2020-02-13 2020-05-08 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111474965A (zh) * 2020-04-02 2020-07-31 中国水利水电科学研究院 基于模糊神经网络的串联输水渠道水位预测与控制方法
CN112966431A (zh) * 2021-02-04 2021-06-15 西安交通大学 一种数据中心能耗联合优化方法、***、介质及设备
CN113126679A (zh) * 2021-04-19 2021-07-16 广东电网有限责任公司计量中心 一种基于强化学习的电能计量检定环境控制方法和***
CN114020079A (zh) * 2021-11-03 2022-02-08 北京邮电大学 一种室内空间温度和湿度调控方法及装置
CN114110824A (zh) * 2021-11-03 2022-03-01 北京邮电大学 一种恒湿机智能控制方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160223218A1 (en) * 2015-01-30 2016-08-04 Schneider Electric It Corporation Automated control and parallel learning hvac apparatuses, methods and systems
CN107065582A (zh) * 2017-03-31 2017-08-18 苏州科技大学 一种基于环境的参数的室内空气智能调节***和调节方法
CN108386971A (zh) * 2018-01-28 2018-08-10 浙江博超节能科技有限公司 中央空调节能自控***
CN109193075A (zh) * 2018-09-28 2019-01-11 合肥工业大学 基于强化学习的纯电动汽车动力电池冷却***控制方法
CN109255443A (zh) * 2018-08-07 2019-01-22 阿里巴巴集团控股有限公司 训练深度强化学习模型的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160223218A1 (en) * 2015-01-30 2016-08-04 Schneider Electric It Corporation Automated control and parallel learning hvac apparatuses, methods and systems
CN107065582A (zh) * 2017-03-31 2017-08-18 苏州科技大学 一种基于环境的参数的室内空气智能调节***和调节方法
CN108386971A (zh) * 2018-01-28 2018-08-10 浙江博超节能科技有限公司 中央空调节能自控***
CN109255443A (zh) * 2018-08-07 2019-01-22 阿里巴巴集团控股有限公司 训练深度强化学习模型的方法及装置
CN109193075A (zh) * 2018-09-28 2019-01-11 合肥工业大学 基于强化学习的纯电动汽车动力电池冷却***控制方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110531681A (zh) * 2019-09-17 2019-12-03 山东建筑大学 基于深度强化学习的室内照明数据采集控制***及方法
CN110989735A (zh) * 2019-11-12 2020-04-10 珠海格力电器股份有限公司 睡眠环境自适应调节方法、装置和电子设备
CN111126605A (zh) * 2020-02-13 2020-05-08 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111126605B (zh) * 2020-02-13 2023-06-20 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111474965A (zh) * 2020-04-02 2020-07-31 中国水利水电科学研究院 基于模糊神经网络的串联输水渠道水位预测与控制方法
CN112966431A (zh) * 2021-02-04 2021-06-15 西安交通大学 一种数据中心能耗联合优化方法、***、介质及设备
CN112966431B (zh) * 2021-02-04 2023-04-28 西安交通大学 一种数据中心能耗联合优化方法、***、介质及设备
CN113126679A (zh) * 2021-04-19 2021-07-16 广东电网有限责任公司计量中心 一种基于强化学习的电能计量检定环境控制方法和***
CN114020079A (zh) * 2021-11-03 2022-02-08 北京邮电大学 一种室内空间温度和湿度调控方法及装置
CN114110824A (zh) * 2021-11-03 2022-03-01 北京邮电大学 一种恒湿机智能控制方法及装置
CN114020079B (zh) * 2021-11-03 2022-09-16 北京邮电大学 一种室内空间温度和湿度调控方法及装置

Also Published As

Publication number Publication date
CN110134165B (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN110134165A (zh) 一种用于环境监测与控制的强化学习方法及***
CN105068515B (zh) 一种基于自学习算法的智能家居设备语音控制方法
CN111695690B (zh) 基于合作式强化学习与迁移学习的多智能体对抗决策方法
Chiou et al. A PSO-based adaptive fuzzy PID-controllers
CN112329948B (zh) 一种多智能体策略预测方法及装置
CN110259592A (zh) 一种pid柴油发动机自适应电子调速方法
CN108008627A (zh) 一种并行优化的强化学习自适应pid控制方法
CN103235620A (zh) 基于全局变量预测模型的温室环境智能控制方法
CN110826723A (zh) 一种结合tamer框架和面部表情反馈的交互强化学习方法
CN110347155A (zh) 一种智能车辆自动驾驶控制方法及***
CN104037761B (zh) 一种agc功率多目标随机优化分配方法
WO2015193032A1 (en) Controlling a target system
CN110033081A (zh) 一种确定学习率的方法和装置
CN114020079B (zh) 一种室内空间温度和湿度调控方法及装置
CN116451737A (zh) 一种基于强化学习的策略梯度改进粒子群的pg-w-pso方法
CN116520909A (zh) 哈里斯鹰算法优化模糊pid参数的高值耗材柜温度控制方法
CN106681149B (zh) 一种基于虚拟现实和强化学习的熊蜂机器人摆腹控制方法
CN109932909A (zh) 火电机组脱硫***的大***耦合多变量优化匹配控制方法
CN108351622A (zh) 生成用于可编程模糊控制器的模糊知识库的方法
CN107168066A (zh) 一种温室环境自适应控制方法
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
CN115526504A (zh) 泵站供水***节能调度方法、***、电子设备及存储介质
CN113393667B (zh) 一种基于Categorical-DQN乐观探索的交通控制方法
Sun et al. A hybrid agent architecture for reactive sequential decision making
CN113852080A (zh) 一种智能电网的潮流优化方法、***、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant