CN110398029B - 控制方法和计算机可读存储介质 - Google Patents

控制方法和计算机可读存储介质 Download PDF

Info

Publication number
CN110398029B
CN110398029B CN201910677520.9A CN201910677520A CN110398029B CN 110398029 B CN110398029 B CN 110398029B CN 201910677520 A CN201910677520 A CN 201910677520A CN 110398029 B CN110398029 B CN 110398029B
Authority
CN
China
Prior art keywords
period
system control
model
control model
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910677520.9A
Other languages
English (en)
Other versions
CN110398029A (zh
Inventor
孙一凫
陈毅兴
吴若飒
沈启
孟芦
陈海阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Saga Cloud Technology Co ltd
Original Assignee
Beijing Saga Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Saga Cloud Technology Co ltd filed Critical Beijing Saga Cloud Technology Co ltd
Priority to CN201910677520.9A priority Critical patent/CN110398029B/zh
Publication of CN110398029A publication Critical patent/CN110398029A/zh
Application granted granted Critical
Publication of CN110398029B publication Critical patent/CN110398029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

公开了一种控制方法和计算机可读存储介质。通过根据预先获取的初始***控制模型控制目标建筑中的暖通空调***,并在控制过程中根据控制暖通空调***的历史记录在每个周期组更新一次所述***控制模型。由此,可以实现在对暖通空调***的过程中不断更新***控制模型,以适应环境的变化,可以较为精确地对暖通空调***进行控制。

Description

控制方法和计算机可读存储介质
技术领域
本发明涉及空调控制技术领域,尤其涉及一种控制方法和计算机可读存储介质。
背景技术
现有技术中一般是基于固定逻辑的控制方式实现对建筑中的暖通空调***的控制,例如:按时间表控制冷机的开启和关闭、按照室外温度的阈值设定供水温度和按照室内温度的温度区间设定风机盘管的挡位。而区间、阈值、时间表等经常是人为根据一定的先验知识主观设定的,因此,对于暖通空调***的控制很大程度上取决于设定者的经验。然而,由于各种原因(例如外界气候、工作日与休息日等)使得建筑中的需求也是不断变化的,如果设计者的经验不足,很容易造成控制效果不能达到预期效果。
发明内容
有鉴于此,本发明的目的在于提供一种控制方法和计算机可读存储介质,可以在对暖通空调***的过程中不断更新***控制模型,实现对暖通空调***的精确控制。
第一方面,本发明实施例提供了一种控制方法,用于控制建筑暖通空调***,所述暖通空调***包括冷热源***和末端风盘***,所述方法包括:
获取初始***控制模型;
在第一周期组的第一个周期内,根据所述初始***控制模型控制所述暖通空调***;以及
根据控制所述暖通空调***的历史记录确定每个周期组的***控制模型,所述历史记录包括控制数据和控制指标,所述控制指标用于表征控制效果;
其中,每个周期组包括两个周期,周期组内的第一个周期的***控制模型根据上一个周期组的历史记录确定,周期组内的第二个周期的***控制模型根据第一个周期的***控制模型更新获得。
优选地,获取初始***控制模型包括:
确定目标建筑的仿真模型,所述仿真模型包括目标建筑的物理组成以及目标建筑中的暖通空调***;以及
根据所述仿真模型基于输入状态和动作获取所述初始***控制模型。
优选地,所述初始***控制模型包括第一初始***控制模型和第二初始***控制模型,所述第一初始***控制模型用于控制所述末端风盘***,所述第二初始***控制模型用于控制所述冷热源***;
其中,根据所述仿真模型基于输入状态和动作获取所述初始***控制模型包括:
根据所述仿真模型基于第一输入状态和第一动作获取第一初始***控制模型,所述第一输入状态包括室内温度与目标温度的差值、室外温度与目标温度的差值、冷站供水温度、风盘档位、时间点和日期类型,所述第一动作为选择风盘档位;以及
根据所述仿真模型基于第二输入状态和第二动作获取第二初始***控制模型,所述第二输入状态包括室外温度、瞬时冷流量、供水温度、时间点和日期类型,所述第二动作为选择供水温度和供回水温差。
优选地,根据所述仿真模型基于第一输入状态和第一动作获取第一初始***控制模型包括:
确定初始深度强化网络模型;
基于深度强化学习算法更新所述初始深度强化网络模型的权重值;以及
将控制所述仿真模型中的末端风盘***的控制指标优于预定阈值时的深度强化网络模型作为第一初始***控制模型。
优选地,基于深度强化学习算法更新所述初始深度强化网络模型的权重值包括:
获取第一动作、第一奖励函数和当前时刻第一输入状态;
根据所述第一动作和第一奖励函数获取第一奖励值和下一时刻第一输入状态;以及
根据当前时刻第一输入状态、第一动作、第一奖励值和下一时刻的输入状态更新所述初始深度强化网络模型的权重值。
优选地,所述第一奖励函数为:
Figure BDA0002143767440000031
其中,r1为第一奖励值,d实际温度与目标温度的差值。
优选地,根据所述仿真模型基于第二输入状态和第二动作获取第二初始***控制模型包括:
确定初始深度确定性策略梯度网络模型;
基于深度确定性策略梯度算法更新所述初始深度确定性策略梯度网络模型的权重值;以及
将控制所述仿真模型中的冷热源***的控制指标优于预定阈值时的深度确定性策略梯度网络模型作为第二初始***控制模型;
其中,所述控制指标用于表征控制效果。
优选地,基于深度确定性策略梯度算法更新所述初始深度确定性策略梯度网络模型的权重值包括:
获取第二动作、第二奖励函数和当前时刻第二输入状态;
根据所述第二动作和第二奖励函数获取第二奖励值和下一时刻第二输入状态;以及
根据所述当前时刻第二输入状态、第二动作、第二奖励值和下一时刻第二输入状态更新所述初始深度确定性策略梯度网络模型的权重值。
优选地,所述第二奖励函数为:
Figure BDA0002143767440000032
其中,r2为第二奖励值,e为能耗,c为制冷效果,s为制冷效果预定阈值。
优选地,所述控制指标包括建筑内的温度在目标温度范围内的时间占比和周期内的平均投诉率中的至少一种。
优选地,根据控制所述暖通空调***的历史记录确定每个周期组的***控制模型包括:
确定当前周期组的第一周期的***控制模型;
在所述第一周期内根据所述第一周期的***控制模型控制所述暖通空调***以获取第一周期的控制数据和控制指标;
在所述第一周期结束后,根据所述第一周期的控制数据对所述第一周期的***控制模型进行更新以确定第二周期的***控制模型;
在所述第二周期内,根据所述第二周期的***控制模型控制所述暖通空调***以获取第二周期的控制指标;以及
根据所述第一周期的控制指标和所述第二周期的控制指标确定下一周期组中第一周期的***控制模型。
优选地,根据所述第一周期的控制指标和所述第二周期的控制指标确定下一周期组中第一周期的***控制模型包括:
响应于所述第一周期的控制指标优于所述第二周期的控制指标,选择所述第一周期的***控制模型作为下一周期组中第一周期的***控制模型;以及
响应于所述第一周期的控制指标劣于所述第二周期的控制指标,选择所述第二周期的***控制模型作为下一周期组中第一周期的***控制模型。
第二方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
本发明实施例的技术方案通过根据预先获取的初始***控制模型控制目标建筑中的暖通空调***,并在控制过程中根据控制暖通空调***的历史记录在每个周期组更新一次所述***控制模型。由此,可以实现在对暖通空调***的过程中不断更新***控制模型,以适应环境的变化,可以较为精确地对暖通空调***进行控制。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的控制方法的流程图;
图2是本发明实施例的获取初始***控制模型的流程图;
图3是本发明实施例的获取初始***控制模型的流程图;
图4是本发明实施例的获取第一初始***控制模型的流程图;
图5是本发明实施例的更新初始深度强化网络模型的权重值的流程图;
图6是本发明实施例的深度强化学习算法***的示意图;
图7是本发明实施例的获取第二初始***控制模型的流程图;
图8是本发明实施例的更新初始深度确定性策略梯度网络模型的权重值的流程图;
图9是本发明实施例的深度确定性策略梯度算法***的结构示意图;
图10是本发明实施例的更新***控制模型的流程图;
图11是本发明实施例的周期组的示意图;
图12是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1是本发明实施例的控制方法的流程图。如图1所示,本发明实施例的控制方法包括如下步骤:
步骤S110、获取初始***控制模型。
在本实施例中,根据仿真模型获取所述初始***控制模型。
图2是本发明实施例的获取初始***控制模型的流程图。如图2所示,获取***控制模型包括如下步骤:
步骤S210、确定目标建筑的仿真模型。
在本实施例中,应用EnergyPlus(建筑能耗模拟软件)根据目标建筑的静态信息(建筑信息、***设备信息和各种类型的时间表等信息)和动态数据(能耗数据和暖通空调***的运行数据等),建立仿真模型。
进一步地,EnergyPlus是一款建筑能耗模拟引擎,可以用来对建筑的采暖、制冷、照明、通风以及其他能源消耗进行全面能耗模拟分析和经济分析。具体地,EnergyPlus能够根据建筑的物理组成和机械***(暖通空调***)计算建筑的冷热负荷,通过暖通空调***维持室内设定温度。
在本实施例中,基于FMI(Functional Mockup Interface,功能模拟接口)协议将所述仿真模型封装为FMU(Functional Mockup Unit,功能模拟单元)文件。
进一步地,FMI用于将不同设备供应商提供的各种不同的行为模型设备与标准控制器的软件/硬件/模型进行半实物实时仿真测试。FMI的目标是定义一个开放的接口,用来实现可执行的并且可被调用的FMU文件及相关内容,主要是定义了模型交换和联合仿真的开放接口。
由此,即可获取可被调用的目标建筑的仿真模型。
步骤S220、根据所述仿真模型基于输入状态和动作获取所述初始***控制模型。
由此,通过仿真模型获取初始***控制模型,将获取的初始***控制模型应用到目标建筑中,可以实现从零开始的试错学习,在不需要大量历史数据的情况下即可获取比较成熟的***控制模型。
在本实施例中,所述初始***控制模型包括第一初始***控制模型和第二初始***控制模型,暖通空调***分为末端风盘***和冷热源***两个***。所述第一初始***控制模型用于控制所述末端风盘***,所述第二初始***控制模型用于控制所述冷热源***。
图3是本发明实施例的获取初始***控制模型的流程图。如图3所示,根据所述仿真模型基于输入状态和动作获取初始***控制模型包括如下步骤:
步骤S310、根据所述仿真模型基于第一输入状态和第一动作获取第一初始***控制模型。
在本实施例中,所述第一输入状态包括室内温度与目标温度的差值、室外温度与目标温度的差值、冷站供水温度、风盘档位、时间点和日期类型。
在本实施例中,设置目标温度范围,所述室内温度与目标温度的差值可以是室内温度与目标温度的平均值的差值,所述平均值为目标温度范围内最高温度和最低温度的平均值;或者,室内温度与目标温度范围内的最高值的差值;或者,室内温度与目标温度范围内的最低值的差值。
在本实施例中,所述室外温度与目标温度的差值也可根据上述方法获取。
在本实施例中,冷站供水温度为6-14℃。
在本实施例中,以15分钟为一个时间点,即全天24小时包括96个时间点。应理解,所述时间点也可以根据实际情况设置为其它时间,例如,以10分钟、20分钟或其它时间段为一个时间点。
在本实施例中,所述日期类型为周一至周日。应理解,所述日期类型也可以是国家节假日安排的时间表。
在本实施例中,所述第一动作为选择风盘档位。
在本实施例中,通过DQN(Deep Q-Learning,深度强化学习)算法基于第一输入状态和第一动作获取第一初始***控制模型。
具体地,图4是本发明实施例的获取第一初始***控制模型的流程图。如图4所示,根据所述仿真模型基于第一输入状态和第一动作获取第一初始***控制模型包括如下步骤:
步骤S410、确定初始深度强化网络模型。
在本实施例中,将第一输入状态转化为向量形式作为神经网络的输入信号,将第一动作转化为向量形式作为神经网络的输出信号。
步骤S420、基于深度强化学习算法更新所述初始深度强化网络模型的权重值。
在本实施例中,通过仿真模型基于深度强化学习算法不断更新所述初始深度强化网络模型的权重值。
图5是本发明实施例的更新初始深度强化网络模型的权重值的流程图。如图5所示,基于深度强化学习算法更新所述深度强化网络模型的权重值包括如下步骤:
步骤S510、获取第一动作、第一奖励函数和当前时刻第一输入状态。
在本实施例中,所述当前时刻的第一输入状态包括当前室内温度与目标温度的差值、当前室外温度与目标温度的差值、当前冷站供水温度、当前风盘档位、当前时间点和当前日期类型。
在本实施例中,所述第一奖励函数为:
Figure BDA0002143767440000081
其中,r1为第一奖励值,d实际温度与目标温度的差值。
步骤S520、根据所述第一动作和第一奖励函数获取第一奖励值和下一时刻第一输入状态。
步骤S530、根据当前时刻第一输入状态、第一动作、第一奖励值和下一时刻的输入状态更新所述初始深度强化网络模型的权重值。
图6是本发明实施例的深度强化学习算法***的示意图。如图6所示,深度强化学习算法***包括初始深度强化网络模型61、仿真模型62和训练集63。
在本实施例中,所述初始深度强化网络模型61为深度Q网络,包括估计网络611、现实网络612和误差函数613。所述估计网络611和所述现实网络612为两个结构相同的网络。
进一步地,深度强化学习算法***的工作过程可包括如下步骤:
步骤S601、初始化估计网络611的权重值,并通过软更新的方法将所述估计网络611的权重值复制到现实网络612。
步骤S602、获取第一动作at,并使得所述仿真模型62执行所述第一动作at。其中,所述第一动作at可以是随机获取,也可以是由所述估计网络611生成。
步骤S603、仿真模型61执行第一动作at后获取第一奖励值rt和下一时刻的第一输入状态st+1
步骤S604、将上述步骤的数据分组记录在训练集63中,每组数据为(st,at,rt,st+1),其中,st为当前时刻第一输入状态,at为第一动作,rt第一奖励值,st+1为下一时刻的第一输入状态。重复上述步骤可获取多组数据。
步骤S606、估计网络611根据(st,at)获取Q值,。
步骤S606、现实网络612根据st+1获取Q′值。
步骤S607、误差函数613根据rt、Q值和Q′值生成梯度G。
步骤S608、估计网络611根据G更新权重值。
步骤S609、估计网络611通过软更新的方法将所述估计网络611的权重值W1复制到现实网络612。
由此,可以实现对深度强化网络模型的权重值的更新。
步骤S430、将控制所述仿真模型中的末端风盘***的控制指标优于预定阈值时的初始深度强化网络模型作为第一初始***控制模型。
在本实施例中,所述控制指标包括建筑内的温度在目标温度范围内的时间占比和周期内的平均投诉率中的至少一种。
进一步地,直到室内温度达到目标温度范围内的时间占比超过第一预定阈值,和/或,平均投诉率低于预定阈值时,将此刻的初始深度强化网络模型作为第一初始***控制模型。
进一步地,建筑内的温度在目标温度范围内的时间占比为周期内达到目标温度范围内的时间与周期的比值。例如,设置目标温度范围为T1-T2,周期为t,预定阈值为95%。在该周期结束后,根据历史记录获取该周期内实际温度在目标温度范围内的时间为t0,则建筑内的温度在目标温度范围内的时间占比为:t0/t。响应于建筑内的温度在目标温度范围内的时间占比高于预定阈值,将此刻的初始深度强化网络模型作为第一初始***控制模型。
进一步地,由于在仿真模型中并不能获取真实的住户的投诉情况,因此,平均投诉率可以为周期内控制效果未达到预期效果的时间占比,响应于平均投诉率低于预定阈值,将此刻的初始深度强化网络模型作为第一初始***控制模型。
本发明实施例通过深度强化学习算法基于目标建筑的仿真模型不断对深度强化网络模型进行优化更新,以获取的比较成熟的第一初始***控制模型。可以实现从零开始的试错学习,在不需要大量历史数据的情况下即可获取比较成熟的第一初始***控制模型,可直接应用在目标建筑中。
步骤S320、根据所述仿真模型基于第二输入状态和第二动作获取第二初始***控制模型。
在本实施例中,所述第二输入状态包括室外温度、瞬时冷流量、供水温度、时间点和日期类型。
在本实施例中,所述第二动作为选择供水温度和供水回温差。其中,供水温度为6-14℃,供回水温差为0-5℃。
进一步地,图7是本发明实施例的获取第二初始***控制模型的流程图。如图7所示,根据所述仿真模型基于第二输入状态和第二动作获取第二初始***控制模型包括如下步骤:
步骤S710、确定初始深度确定性策略梯度网络模型。
在本实施例中,通过DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度算法)获取第二初始***控制模型。
在本实施例中,所述深度确定性策略梯度网络模型包括动作网络和状态网络。
步骤S720、基于深度确定性策略梯度算法更新所述初始深度确定性策略梯度网络模型的权重值。
图8是本发明实施例的更新初始深度确定性策略梯度网络模型的权重值的流程图。如图8所示,基于深度确定性策略梯度算法更新所述初始深度确定性策略梯度网络模型的权重值包括如下步骤:
步骤S810、获取第二动作、第二奖励函数和当前时刻第二输入状态。
在本实施例中,所述当前时刻第二输入状态包括当前时刻室外温度、当前时刻瞬时冷流量、当前时刻供水温度、当前时刻时间点和当前日期类型。
在本实施例中,所述第二奖励函数为:
Figure BDA0002143767440000111
其中,r2为第二奖励值,e为能耗,c为制冷效果,s为制冷效果预定阈值。
如上述第二奖励函数,s为制冷效果预定阈值,第二奖励值由能耗和制冷效果同时决定。能耗e越小,第二奖励值r2越大;同时,制冷效果c越大,第二奖励值r2越大。
步骤S820、根据所述第二动作和第二奖励函数获取第二奖励值和下一时刻第二输入状态。
步骤S830、根据所述当前时刻第二输入状态、第二动作、第二奖励值和下一时刻第二输入状态更新所述初始深度确定性策略梯度网络模型的权重值。
进一步地,图9是本发明实施例的深度确定性策略梯度算法***的结构示意图。如图9所示,深度确定性策略梯度算法***包括仿真模型91、深度确定性策略梯度网络模型92和第二训练集93。
在本实施例中,深度确定性策略梯度网络模型92包括动作网络921和状态网络922。其中,动作网络921包括动作现实网络921a、动作估计网络921b和第一优化程序921c。状态网络922包括状态现实网络922a、状态估计网络922b和第二优化程序922c。具体地,深度确定性策略梯度算法***的工作过程可分为以下几个步骤:
步骤S901、初始化动作现实网络921a和状态现实网络922a的权重值,并通过软更新的方法将所述动作现实网络921a的权重值复制给动作估计网络921b,将状态现实网络922a的权重值复制给状态估计网络922b。
步骤S902、根据动作网络921的策略选择一个第二动作at,并使得仿真模型91执行该第二动作at
进一步地,动作网络921是根据当前动作现实网络921a和随机噪声生成随机过程,进而从所述随机过程中采样获取at
步骤S903、仿真模型91执行第二动作at后获取第二奖励值rt和下一时刻的第二输入状态st+1
步骤S904、动作网络921将上述步骤的数据分组记录在训练集93中,每组数据为(st,at,rt,st+1)。其中,st为当前时刻第二输入状态,at为第二动作,rt第二奖励值,st+1为下一时刻的第二输入状态。重复上述步骤S901-S903可获取多组数据,将获取的多组数据存入训练集93中。
步骤S905、在所述训练集93中随机采样N组数据作为动作估计网络921b和状态估计网络922b的训练样本。
步骤S906、根据所述动作估计网络921b和状态估计网络922b基于采样的N组数据N*(st,at,rt,st+1)获取标签yi,并根据所述标签yi基于反向传播的方法计算状态网络922的梯度值Gq
进一步地,动作估计网络921b根据训练样本获取状态s′t+1,状态估计网络根据选取的训练样本和状态s′t+1获取标签yi
由此,动作估计网络921b和状态估计网络922b计算yi,使得状态网络922参数的学习过程更加稳定,易于收敛。
步骤S907、第二优化程序922c根据状态网络922的梯度值Gq获取状态现实网络922a的权重值Wq
步骤S908、状态现实网络922a根据第二优化程序922c获取的权重值Wq更新权重。
步骤S909、计算动作网络921的梯度值Ga
进一步地,动作现实网络921a基于第二状态st获取动作a=u(st)。
进一步地,根据所述动作a=u(st)和状态现实网络922a获取所述梯度值Ga
步骤S910、第一优化程序921c根据动作网络921的梯度值Ga获取动作现实网络921a的权重值Wa
步骤S911、动作现实网络921a根据第一优化程序921c获取的权重值Wa更新权重。
步骤S912、动作现实网络921a将更新后的权重软更新给动作估计网络921b。
步骤S913、状态现实网络922a将更新后的权重软更新给状态估计网络922b。
应理解,步骤S912和S913并不限定执行顺序,可以是同时执行,也可以是先后执行。
由此,重复上述步骤S901-S913即可对深度确定性策略梯度网络模型进行不断的优化更新。
步骤S730、将控制所述仿真模型中的冷热源***的控制指标优于预定阈值时的深度确定性策略梯度网络模型作为第二初始***控制模型。
在本实施例中,所述控制指标包括建筑内的温度在目标温度范围内的时间占比和周期内的平均投诉率中的至少一种。
进一步地,直到室内温度达到目标温度范围内的时间占比超过第一预定阈值,和/或,平均投诉率低于预定阈值时,将此刻的深度确定性策略梯度网络模型作为第二初始***控制模型。
本发明实施例通过深度确定性策略梯度算法基于目标建筑的仿真模型不断对深度确定性策略梯度网络模型进行优化更新,以获取的比较成熟的第二初始***控制模型。可以实现从零开始的试错学习,在不需要大量历史数据的情况下即可获取比较成熟的第二初始***控制模型,可直接应用在目标建筑中。
步骤S120、根据所述初始***控制模型控制所述暖通空调***。
在本实施例中,将通过上述步骤S110获取的第一初始***控制模型和第二初始***控制模型应用到实际建筑中,通过所述第一初始***控制模型控制所述末端风盘***,通过所述第二初始***控制模型控制所述冷热源***。
由此,可以实现从零开始的试错学习,在不需要大量历史数据的情况下即可获取比较成熟的***控制模型,直接应用在目标建筑中。
同时,为了进一步提高控制效果,并使得***控制模型能够适应外界环境的变化,本发明实施例的控制方法还包括:
步骤S130、根据控制所述暖通空调***的历史记录确定每个周期组的***控制模型。
需要说明的是,此步骤是在将***控制模型应用在实际的建筑中后,在使用所述***控制模型进行控制的同时,对***控制模型进行不断更新。同时,为了便于说明,以下将第一***控制模型和第二***控制模型作为整体(***控制模型)来进行说明。应理解,下文所述的***控制模型包括第一***控制模型和第二***控制模型。同时,下文中的“更新”包括对第一***控制模型和第二***控制模型进行更新,且基于深度强化学习算法对第一***控制模型进行更新,基于深度确定性策略梯度算法对第二***控制模型进行更新。
具体地,图10是本发明实施例的更新***控制模型的流程图。如图10所示,本发明实施例更新***控制模型包括如下步骤:
步骤S1010、确定当前周期组的第一周期的***控制模型。
进一步地,响应于当前周期组为将从仿真模型中获取的***控制模型应用到实际建筑中的第一个周期组,所述第一周期组内第一周期的***控制模型为从仿真模型中获取的初始***控制模型。
响应于所述当前周期组不是将从仿真模型中获取的***控制模型应用到实际建筑中的第一个周期组,所述第一周期组内第一周期的***控制模型为从上一个周期组确定的***控制模型。
步骤S1020、在所述第一周期内根据所述第一周期的***控制模型控制所述暖通空调***以获取第一周期的控制数据和控制指标。
图11是本发明实施例的周期组的示意图。如图11所示,本发明实施例的周期组包括第一周期和第二周期,即第一周期组包括第一周期和第二周期,第二周期组包括第一周期和第二周期。
进一步地,所述第一周期和第二周期都为7天,使得每个周期组内都包括完整的工作日和非工作日,进而使得控制效果更佳。
在第一周期组内,获取第一周期的***控制模型M1,在第一周期内根据所述第一周期的***控制模型M1控制所述暖通空调***,同时获取第一周期的控制数据和控制指标P1。
进一步地,所述控制指标P1用于表征控制效果。
进一步地,在本实施例中,所述控制指标包括建筑内的温度在目标温度范围内的时间占比和周期内的平均投诉率中的至少一种。
步骤S1030、在所述第一周期结束后,根据所述第一周期的控制数据对所述第一周期的***控制模型进行更新以确定第二周期的***控制模型。
进一步地,在所述第一周期内,通过***控制模型M1进行控制,以获取第一周期内的控制指标P1和第二周期内的***控制模型M2。
步骤S1040、在第二周期内根据所述第二周期的***控制模型控制所述暖通空调***以获取第二周期的控制指标。
在本实施例中,在第二周期内根据所述第二周期的***控制模型控制M2控制所述暖通空调***以获取第二周期的控制指标P2。
步骤S1050、根据所述第一周期的控制指标和所述第二周期的控制指标确定下一周期组中第一周期的***控制模型。
进一步地,根据所述第一周期的控制指标和所述第二周期的控制指标确定下一周期组的***控制模型包括:
响应于所述第一周期的控制指标P1优于所述第二周期的控制指标P2,选择所述第一周期的***控制模型M1作为下一周期组中第一周期的(第二周期组)的***控制模型。
响应于所述第一周期的控制指标P1劣于所述第二周期的控制指标P2,选择所述第二周期的***控制模型M2作为下一周期组中第一周期(第二周期组)的***控制模型。
进一步地,在下一个周期组(图11中的第二周期组)内,第一周期内根据第一周期组内确定的***控制模型进行控制,同时对***控制模型进行更新以获取新的***控制模型M3和对应的控制指标。在第二周期内根据***控制模型M3进行控制,并获取对应的控制指标。根据第一周期和第二周期的控制指标以确定下一个周期组内的***控制模型。如此循环,可以在每两个周期对***控制模型更新一次,使得***能够不断适应环境的变化。
进一步地,响应于所述第一周期组为将从仿真模型中获取的***控制模型应用到实际建筑中的第一个周期组,所述第一周期组内第一周期的***控制模型为从仿真模型中获取的***控制模型。
响应于所述第一周期组不是将从仿真模型中获取的***控制模型应用到实际建筑中的第一个周期组,所述第一周期组内第一周期的***控制模型为从上一个周期组确定的***控制模型。
本发明实施例通过在每个周期组的第一周期内获取第一周期的控制指标和第二周期的***控制模型,在第二周期内获取第二周期的控制指标,进而根据第一周期的控制指标和第二周期的控制指标确定下一个周期组的***控制模型。由此,在对暖通空调***的过程中不断更新***控制模型,可以适应环境的变化,实现对暖通空调***的精确控制。
图12是本发明实施例的电子设备的示意图。图12所示的电子设备为自动问答装置,其包括通用的计算机硬件结构,其至少包括处理器121和存储器122。处理器121和存储器122通过总线。连接。存储器122适于存储处理器121可执行的指令或程序。处理器121可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器121通过执行存储器122所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线123将上述多个组件连接在一起,同时将上述组件连接到显示控制器124和显示装置以及输入/输出(I/O)装置115。输入/输出(I/O)装置125可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置125通过输入/输出(I/O)控制器126与***相连。
如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为***、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“***”的将软件方面与硬件方面相结合的实施方式。此外,本发明实施例的各个方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体***、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行***、设备或装置使用的程序或结合指令执行***、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质;不是计算机可读存储介质,并且可以对由指令执行***、设备或装置使用的或结合指令执行***、设备或装置使用的程序进行通信、传播或传输。
可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。
用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk,C++等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行:部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
上述根据本发明实施例的方法、设备(***)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是,流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中,使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。
计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上,以便在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种暖通空调***的控制方法,所述暖通空调***包括冷热源***和末端风盘***,其特征在于,所述方法包括:
获取初始***控制模型,所述初始***控制模型包括第一初始***控制模型和第二初始***控制模型,所述第一初始***控制模型用于控制所述末端风盘***,所述第二初始***控制模型用于控制所述冷热源***;
在第一周期组的第一个周期内,根据所述初始***控制模型控制所述暖通空调***;以及
根据控制所述暖通空调***的历史记录确定每个周期组的***控制模型,所述历史记录包括控制数据和控制指标,所述控制指标用于表征控制效果;
其中,每个周期组包括两个周期,周期组内的第一个周期的***控制模型根据上一个周期组的历史记录确定,周期组内的第二个周期的***控制模型根据第一个周期的***控制模型更新获得。
2.根据权利要求1所述的方法,其特征在于,获取初始***控制模型包括:
确定目标建筑的仿真模型,所述仿真模型包括目标建筑的物理组成以及目标建筑中的暖通空调***;以及
根据所述仿真模型基于输入状态和动作获取所述初始***控制模型。
3.根据权利要求2所述的方法,其特征在于,根据所述仿真模型基于输入状态和动作获取所述初始***控制模型包括:
根据所述仿真模型基于第一输入状态和第一动作获取第一初始***控制模型,所述第一输入状态包括室内温度与目标温度的差值、室外温度与目标温度的差值、冷站供水温度、风盘档位、时间点和日期类型,所述第一动作为选择风盘档位;以及
根据所述仿真模型基于第二输入状态和第二动作获取第二初始***控制模型,所述第二输入状态包括室外温度、瞬时冷流量、供水温度、时间点和日期类型,所述第二动作为选择供水温度和供回水温差。
4.根据权利要求3所述的方法,其特征在于,根据所述仿真模型基于第一输入状态和第一动作获取第一初始***控制模型包括:
确定初始深度强化网络模型;
基于深度强化学习算法更新所述初始深度强化网络模型的权重值;以及
将控制所述仿真模型中的末端风盘***的控制指标优于预定阈值时的深度强化网络模型作为第一初始***控制模型。
5.根据权利要求4所述的方法,其特征在于,基于深度强化学习算法更新所述初始深度强化网络模型的权重值包括:
获取第一动作、第一奖励函数和当前时刻第一输入状态;
根据所述第一动作和第一奖励函数获取第一奖励值和下一时刻第一输入状态;以及
根据当前时刻第一输入状态、第一动作、第一奖励值和下一时刻的输入状态更新所述初始深度强化网络模型的权重值。
6.根据权利要求5所述的方法,其特征在于,所述第一奖励函数为:
Figure FDA0002921774060000021
其中,r1为第一奖励值,d实际温度与目标温度的差值。
7.根据权利要求3所述的方法,其特征在于,根据所述仿真模型基于第二输入状态和第二动作获取第二初始***控制模型包括:
确定初始深度确定性策略梯度网络模型;
基于深度确定性策略梯度算法更新所述初始深度确定性策略梯度网络模型的权重值;以及
将控制所述仿真模型中的冷热源***的控制指标优于预定阈值时的深度确定性策略梯度网络模型作为第二初始***控制模型;
其中,所述控制指标用于表征控制效果。
8.根据权利要求7所述的方法,其特征在于,基于深度确定性策略梯度算法更新所述初始深度确定性策略梯度网络模型的权重值包括:
获取第二动作、第二奖励函数和当前时刻第二输入状态;
根据所述第二动作和第二奖励函数获取第二奖励值和下一时刻第二输入状态;以及
根据所述当前时刻第二输入状态、第二动作、第二奖励值和下一时刻第二输入状态更新所述初始深度确定性策略梯度网络模型的权重值。
9.根据权利要求8所述的控制方法,其特征在于,所述第二奖励函数为:
Figure FDA0002921774060000031
其中,r2为第二奖励值,e为能耗,c为制冷效果,s为制冷效果预定阈值。
10.根据权利要求1所述的方法,其特征在于,所述控制指标包括建筑内的温度在目标温度范围内的时间占比和周期内的平均投诉率中的至少一种。
11.根据权利要求1所述的方法,其特征在于,根据控制所述暖通空调***的历史记录确定每个周期组的***控制模型包括:
确定当前周期组的第一周期的***控制模型;
在所述第一周期内根据所述第一周期的***控制模型控制所述暖通空调***以获取第一周期的控制数据和控制指标;
在所述第一周期结束后,根据所述第一周期的控制数据对所述第一周期的***控制模型进行更新以确定第二周期的***控制模型;
在所述第二周期内,根据所述第二周期的***控制模型控制所述暖通空调***以获取第二周期的控制指标;以及
根据所述第一周期的控制指标和所述第二周期的控制指标确定下一周期组中第一周期的***控制模型。
12.根据权利要求11所述的方法,其特征在于,根据所述第一周期的控制指标和所述第二周期的控制指标确定下一周期组中第一周期的***控制模型包括:
响应于所述第一周期的控制指标优于所述第二周期的控制指标,选择所述第一周期的***控制模型作为下一周期组中第一周期的***控制模型;以及
响应于所述第一周期的控制指标劣于所述第二周期的控制指标,选择所述第二周期的***控制模型作为下一周期组中第一周期的***控制模型。
13.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-12中任一项所述的方法。
CN201910677520.9A 2019-07-25 2019-07-25 控制方法和计算机可读存储介质 Active CN110398029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910677520.9A CN110398029B (zh) 2019-07-25 2019-07-25 控制方法和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910677520.9A CN110398029B (zh) 2019-07-25 2019-07-25 控制方法和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110398029A CN110398029A (zh) 2019-11-01
CN110398029B true CN110398029B (zh) 2021-07-09

Family

ID=68325238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910677520.9A Active CN110398029B (zh) 2019-07-25 2019-07-25 控制方法和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110398029B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111594995B (zh) * 2020-05-22 2021-07-27 广东启源建筑工程设计院有限公司 一种室内温度控制方法及其***
CN112963946B (zh) * 2021-02-26 2022-06-17 南京邮电大学 一种面向共享办公区域的暖通空调***控制方法及装置
CN114017904B (zh) * 2021-11-04 2023-01-20 广东电网有限责任公司 一种建筑物hvac***的运行控制方法及装置
CN114234381A (zh) * 2021-11-26 2022-03-25 国网上海市电力公司 基于强化学习的中央空调控制方法和控制***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393570A (zh) * 2007-09-19 2009-03-25 深圳达实智能股份有限公司 中央空调运行仿真***
JP2010203766A (ja) * 2010-03-29 2010-09-16 Asahi Kasei Homes Co 建物の換気量及び温度予測システム
CN102997374A (zh) * 2012-12-31 2013-03-27 深圳市奥宇控制***有限公司 一种空调负荷预测方法,装置及空调
CN103486693A (zh) * 2013-09-25 2014-01-01 广州大学 一种中央空调冷冻水***的节能控制方法
CN106482280A (zh) * 2015-08-27 2017-03-08 青岛海尔空调电子有限公司 一种用于空调的智能控制方法及空调
CN106969413A (zh) * 2017-03-27 2017-07-21 广东美的制冷设备有限公司 家用空调及其用电量控制方法和控制装置
CN107272785A (zh) * 2017-07-19 2017-10-20 北京上格云技术有限公司 一种机电设备及其控制方法、计算机可读介质
CN109323425A (zh) * 2018-11-15 2019-02-12 广东美的制冷设备有限公司 空调的控制方法、装置及可读存储介质
CN109882996A (zh) * 2019-01-25 2019-06-14 珠海格力电器股份有限公司 一种控制的方法及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901284B (zh) * 2010-07-09 2012-12-12 上海理工大学 一种对既有建筑进行节能改造的数值化分析方法
CN102705957B (zh) * 2012-06-07 2014-06-11 华南理工大学 办公建筑中央空调逐时冷负荷在线预测方法及***
CN104633829A (zh) * 2013-11-06 2015-05-20 上海思控电气设备有限公司 楼宇冷冻站节能控制装置及方法
CN105868487B (zh) * 2016-04-11 2019-04-16 中国建筑科学研究院 一种基于能耗设备模型的节能专家***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393570A (zh) * 2007-09-19 2009-03-25 深圳达实智能股份有限公司 中央空调运行仿真***
JP2010203766A (ja) * 2010-03-29 2010-09-16 Asahi Kasei Homes Co 建物の換気量及び温度予測システム
CN102997374A (zh) * 2012-12-31 2013-03-27 深圳市奥宇控制***有限公司 一种空调负荷预测方法,装置及空调
CN103486693A (zh) * 2013-09-25 2014-01-01 广州大学 一种中央空调冷冻水***的节能控制方法
CN106482280A (zh) * 2015-08-27 2017-03-08 青岛海尔空调电子有限公司 一种用于空调的智能控制方法及空调
CN106969413A (zh) * 2017-03-27 2017-07-21 广东美的制冷设备有限公司 家用空调及其用电量控制方法和控制装置
CN107272785A (zh) * 2017-07-19 2017-10-20 北京上格云技术有限公司 一种机电设备及其控制方法、计算机可读介质
CN109323425A (zh) * 2018-11-15 2019-02-12 广东美的制冷设备有限公司 空调的控制方法、装置及可读存储介质
CN109882996A (zh) * 2019-01-25 2019-06-14 珠海格力电器股份有限公司 一种控制的方法及设备

Also Published As

Publication number Publication date
CN110398029A (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
CN110398029B (zh) 控制方法和计算机可读存储介质
US10495337B2 (en) Smart thermostat with model predictive control
US9429921B2 (en) Method and system for energy control management
US9740183B2 (en) Building energy management system learning
US20190163215A1 (en) Building energy modeling tool systems and methods
US9753477B2 (en) Load forecasting for residential sector demand response
Liu et al. Automated control of transactive hvacs in energy distribution systems
US11574102B2 (en) Parameter estimation apparatus, air-conditioning system evaluation apparatus, parameter estimation method, and non-transitory computer readable medium
US10731890B2 (en) Air conditioning operation analysis device and non-transitory computer-readable recording medium storing program
CN110440413B (zh) 空调智能控制方法及空调器
WO2020190460A1 (en) Reinforcement learning through a double actor critic algorithm
Fu et al. ED-DQN: An event-driven deep reinforcement learning control method for multi-zone residential buildings
EP3200038A1 (en) Model evaluation device, model evaluation method, and program recording medium
US10544951B2 (en) Optimized precooling of structures
CN110781969A (zh) 基于深度强化学习的空调风量控制方法、装置以及介质
KR20120080406A (ko) 빌딩 운영 방안 도출 장치 및 방법
Schepers et al. Autonomous building control using offline reinforcement learning
CN112379766A (zh) 数据处理方法、装置、非易失性存储介质和处理器
Žáčeková et al. Identification and energy efficient control for a building: Getting inspired by MPC
JP6589227B1 (ja) 制御装置、空調制御システム、制御情報の算出方法及びプログラム
CN114117778A (zh) 控制参数确定方法、装置、电子设备和存储介质
CN113375311B (zh) 一种fcu末端的控制方法、装置、介质及电子设备
Burger et al. ARX model of a residential heating system with backpropagation parameter estimation algorithm
Jiang et al. Deep Reinforcement Learning for Energy Cost Optimization in Building HVAC Systems.
US20150268650A1 (en) Power modeling based building demand management system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant