CN117151928A - 结合强化学习的节电计算方法及装置 - Google Patents
结合强化学习的节电计算方法及装置 Download PDFInfo
- Publication number
- CN117151928A CN117151928A CN202311143879.0A CN202311143879A CN117151928A CN 117151928 A CN117151928 A CN 117151928A CN 202311143879 A CN202311143879 A CN 202311143879A CN 117151928 A CN117151928 A CN 117151928A
- Authority
- CN
- China
- Prior art keywords
- action
- state
- rewards
- reinforcement learning
- system performance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 45
- 238000004364 calculation method Methods 0.000 title claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000011217 control strategy Methods 0.000 claims abstract description 20
- 230000005611 electricity Effects 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 28
- 238000005265 energy consumption Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000004378 air conditioning Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Supply And Distribution Of Alternating Current (AREA)
- Feedback Control In General (AREA)
Abstract
本说明书实施例提供了一种结合强化学习的节电计算方法及装置,其中,方法包括:对强化学习算法的定义、状态、行动、奖励以及策略进行定义;通过强化学习算法对电器控制策略进行优化;通过优化的所述电器控制策略控制电器的开启或关闭进行节电。
Description
技术领域
本文件涉及电学技术领域,尤其涉及一种结合强化学习的节电计算方法及装置。
背景技术
实际学校节电的应用场景中,学生和老师的活动时间不完全是规律的,如果我们仅基于课程表和摄像头信息设置电器的开关状态,可能无法满足实际需求。例如,等人来了才打开电器就已经来不及了。因此,如何让电器在保证使用需求的前提下,尽可能地减少用电量是亟需解决的技术问题。
发明内容
本发明的目的在于提供一种结合强化学习的节电计算方法及装置,旨在解决现有技术中的上述问题。
本发明提供一种结合强化学习的节电计算方法,包括:
对强化学习算法的定义、状态、行动、奖励以及策略进行定义;
通过强化学习算法对电器控制策略进行优化;
通过优化的所述电器控制策略控制电器的开启或关闭进行节电。
本发明提供一种结合强化学习的节电计算装置,包括:
定义模块,用于对强化学习算法的定义、状态、行动、奖励以及策略进行定义;
优化模块,用于通过强化学习算法对电器控制策略进行优化;
控制模块,用于通过优化的所述电器控制策略控制电器的开启或关闭进行节电。
采用本发明实施例,采用强化学习方法来优化电器的控制策略,让电器在保证使用需求的前提下,尽可能地减少用电量。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的结合强化学习的节电计算方法的流程图;
图2是本发明实施例的结合强化学习的节电计算装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
方法实施例
根据本发明实施例,提供了一种结合强化学习的节电计算方法,图1是本发明实施例的结合强化学习的节电计算方法的流程图,如图1所示,根据本发明实施例的结合强化学习的节电计算方法具体包括:
步骤S101,对强化学习算法的定义、状态、行动、奖励以及策略进行定义;具体地,将***功率、节电空间中的人数、以及节电空间中的活动定义为状态,其中,
1、通过监测***的电流和电压获得***功率;
2、将调整***性能参数定义为行动,其中,所述***性能参数具体包括:空调温度,CPU频率、内存大小;
3、将能耗降低定义为正奖励,将***性能下降定义为负奖励;具体包括:
将奖励函数表示为R(s,a),其中,s表示状态,a表示***性能参数,则根据公式1对奖励进行定义:
其中,α和β分别是正常数,用来控制正奖励和负奖励的权重,Pt表示在时刻t的***功率,γ是一个控制用电者感受影响的权重,Ft是在时刻t的师生感受,如果感受良好,则Ft=0,否则Ft=-1,at表示t时刻的***性能参数。
4、将根据当前状态选择行动的方法定义为策略。具体包括:
将策略表示为π(a|s),其中,a表示***性能参数,s表示状态,则根据公
式2定义策略:
其中,n表示行动数,A表示行动集合。
步骤S102,通过强化学习算法对电器控制策略进行优化;具体包括:
设置强化学习算法为Q-learning算法,并初始化Q-learning算法的价值函数Q(s,a),其中,Q(s,a)表示当前状态下选择行动a的价值;
根据∈-贪心策略π选择行动a,执行行动a,得到奖励r和新状态s′,根据公式3更新价值函数Q(s,a):
Q(s,a)←Q(s,a)+α·[r+γmaxa′Q(s′,a′)—Q(s,a)] 公式3;
其中,∈-贪心策略指的是以一定概率∈随机选择行动,以1—ε的概率选择当前最优行动,α是学习率,用来控制每次更新的步长,γ是折扣因子,用来衡量未来奖励的重要性,r表示奖励;
更新状态s为s′。
步骤S103,通过优化的所述电器控制策略控制电器的开启或关闭进行节电。具体包括:
初始化***功率P、初始化用电者感受F、初始化***性能参数a、初始化正奖励和负奖励权重α和β、初始化行动集合A=a1,a2,...,an,其中n为行动数、初始化价值函数Q(s,a)为任意值、初始化状态s=P;
根据当前状态选择行动a,使用策略π(a|s),执行行动a,得到奖励r和新状态s′,更新***功率P,更新用电者感受F,计算奖励函数R(s,a),更新价值函数Q(s,a),更新状态s←P。
以下对本发明实施例的上述技术方案进行详细说明。
假设教室内有个电器需要控制,设在时刻第个电器的用电量为。我们的目标是让一天内各电器的用电量最小。
可以将一天划分为T个时刻段,每个时刻段的长度为Δt,则一天的总时长为TΔt。我们可以将一天的时间分成T个时刻,第j个时刻为tj=jΔt。则第i个电器在一天内的用电总量为:
我们的目标是最小化一天内所有电器的用电量总和:
显然,这是一个线性规划的问题,因此,我们可以将这个问题建模为如下的最优化问题:
即通过尽可能的节约单个电器的用电量,让一天内各电器的用电量最小。为了实现上述功能,我们可以将学校课程表和摄像头的信息嵌入到我们的模型中。最简单地说,我们可以将电器的用电状态xi,j分为两种情况:开启和关闭,即1和0。如果当前时间没有课程或者教室内没有人,则我们将对应的用电器状态设置为关闭;反之,则设置为开启。
然而,需要考虑到实际应用场景中,学生和老师的活动时间不完全是规律的,如果仅基于课程表和摄像头信息设置电器的开关状态,可能无法满足实际需求。例如,等人来了才打开电器就已经来不及了。因此,采用强化学习方法来优化电器的控制策略,让电器在保证使用需求的前提下,尽可能地减少用电量。
1.1强化学习算法
强化学习是一种通过试错来学习最佳策略的机器学习方法。在这个问题中,我们可以将电器的控制策略视为一个智能体,每个时刻根据当前环境(例如是否有人,时间等)选择开启或关闭电器,从而获得一个即时奖励(例如减少用电量)。通过不断地与环境交互,智能体可以学习到最佳的电器控制策略,从而在保证使用需求的前提下尽可能地减少用电量。而在强化学习框架下,我们需要定义状态、行动、奖励以及策略等概念。
1.1.1状态定义
在节电算法中,我们将***的功率与教室人数/课本作为状态。功率可以通过监测***的电流和电压获得。假设***的功率为P,教室有N人,10分钟内有课,则状态s可以表示为s=(P,N,1)。
1.1.2行为定义
在节电算法中,可以将调整***性能参数作为行动,例如调整空调温度,CPU频率、内存大小等。假设我们将***性能参数表示为a,则行动集合A可以表示为A=a1,a2,...,an,其中n为行动数。
1.1.3奖励定义
在节电算法中,我们可以将能耗降低作为正奖励,将***性能下降作为负奖励。假设我们将奖励函数表示为R(s,a),则可以定义如下:
其中,α和β分别是正常数,用来控制正奖励和负奖励的权重。Pt表示在时刻t的***功率。γ是一个控制师生感受影响的权重,Ft是在时刻t的师生感受,如果感受良好,则Ft=0,否则Ft=-1。这样,在智能体控制***功率的同时,也会考虑到师生的使用感受。
1.1.4策略定义
在节电算法中,我们可以将根据当前状态选择行动的方法称为策略。假设我们将策略表示为π(a|s),则可以定义如下:
即,在每个状态下,采用均匀分布来选择行动。
1.2算法
1.2.1 Q-learning算法
learning算法是一种强化学习算法,可以用来优化策略,从而达到最优化的目的。算法的基本思想是通过迭代更新价值函数,来不断优化策略。算法流程如表1所示:
表1
其中,∈-贪心策略指的是以一定概率∈随机选择行动,以1—∈的概率选择当前最优行动。α是学习率,用来控制每次更新的步长。γ是折扣因子,用来衡量未来奖励的重要性。
在节电算法中,Q-learning算法的价值函数可以表示为Q(s,a)=Q(l,e,a),即当前状态下选择行动a的价值。
通过Q-learning算法不断迭代,可以不断优化策略,从而达到最小化能耗的目的。
1.2.2结合强化学习的节电算法
针对强化学习算法,其学习周期较长,在现实环境下,反馈周期长且成功高。为了解决这一问题,本发明实施例采用仿真方法,在计算机上训练模型,并将其应用于实际生产中。具体算法如表2所示:
表2
装置实施例
根据本发明的实施例,提供了一种结合强化学习的节电计算装置,图2是本发明实施例的结合强化学习的节电计算装置的示意图,如图2所示,根据本发明实施例的结合强化学习的节电计算装置具体包括:
定义模块20,用于对强化学习算法的定义、状态、行动、奖励以及策略进行定义;所述定义模块20具体用于:
将***功率、节电空间中的人数、以及节电空间中的活动定义为状态,其中,通过监测***的电流和电压获得***功率;
将调整***性能参数定义为行动,其中,所述***性能参数具体包括:空调温度,CPU频率、内存大小;
将能耗降低定义为正奖励,将***性能下降定义为负奖励,具体地:
将奖励函数表示为R(s,a),其中,s表示状态,a表示***性能参数,则根据公式1对奖励进行定义:
其中,α和β分别是正常数,用来控制正奖励和负奖励的权重,Pt表示在时刻t的***功率,γ是一个控制用电者感受影响的权重,Ft是在时刻t的师生感受,如果感受良好,则Ft=0,否则Ft=-1,at表示t时刻的***性能参数;
将根据当前状态选择行动的方法定义为策略,具体地:
将策略表示为π(a|s),其中,a表示***性能参数,s表示状态,则根据公式2定义策略:
其中,n表示行动数,A表示行动集合。
优化模块22,用于通过强化学习算法对电器控制策略进行优化;所述优化模块22具体用于:
设置强化学习算法为Q-learning算法,并初始化Q-learning算法的价值函数Q(s,a),其中,Q(s,a)表示当前状态下选择行动a的价值;
根据∈-贪心策略π选择行动a,执行行动a,得到奖励r和新状态s′,根据公式3更新价值函数Q(s,a):
Q(s,a)←Q(s,a)+α·[r+γmaxa′Q(s′,a′)—Q(s,a)] 公式3;
其中,ε-贪心策略指的是以一定概率∈随机选择行动,以1—∈的概率选择当前最优行动,α是学习率,用来控制每次更新的步长,γ是折扣因子,用来衡量未来奖励的重要性,r表示奖励;
更新状态s为s′。
控制模块24,用于通过优化的所述电器控制策略控制电器的开启或关闭进行节电。所述控制模块24具体用于:
初始化***功率P、初始化用电者感受F、初始化***性能参数a、初始化正奖励和负奖励权重α和β、初始化行动集合A=a1,a2,...,an,其中n为行动数、初始化价值函数Q(s,a)为任意值、初始化状态s=P;
根据当前状态选择行动a,使用策略π(a|s),执行行动a,得到奖励r和新状态s′,更新***功率P,更新用电者感受F,计算奖励函数R(s,a),更新价值函数Q(s,a),更新状态s←P。
本发明实施例是与上述方法实施例对应的装置实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种结合强化学习的节电计算方法,其特征在于,包括:
对强化学习算法的定义、状态、行动、奖励以及策略进行定义;
通过强化学习算法对电器控制策略进行优化;
通过优化的所述电器控制策略控制电器的开启或关闭进行节电。
2.根据权利要求1所述的方法,其特征在于,对强化学习算法的定义、状态、行动、奖励以及策略进行定义具体包括:
将***功率、节电空间中的人数、以及节电空间中的活动定义为状态,其中,通过监测***的电流和电压获得***功率;
将调整***性能参数定义为行动,其中,所述***性能参数具体包括:空调温度,CPU频率、内存大小;
将能耗降低定义为正奖励,将***性能下降定义为负奖励;
将根据当前状态选择行动的方法定义为策略。
3.根据权利要求2所述的方法,其特征在于,将能耗降低定义为正奖励,将***性能下降定义为负奖励具体包括:
将奖励函数表示为R(s,a),其中,s表示状态,a表示***性能参数,则根据公式1对奖励进行定义:
其中,α和β分别是正常数,用来控制正奖励和负奖励的权重,Pt表示在时刻t的***功率,γ是一个控制用电者感受影响的权重,Ft是在时刻t的师生感受,如果感受良好,则Ft=0,否则Ft=-1,at表示t时刻的***性能参数。
4.根据权利要求2所述的方法,其特征在于,将根据当前状态选择行动的方法定义为策略具体包括:
将策略表示为π(a|s),其中,a表示***性能参数,s表示状态,则根据公式2定义策略:
其中,n表示行动数,A表示行动集合。
5.根据权利要求4所述的方法,其特征在于,通过强化学习算法对电器控制策略进行优化具体包括:
设置强化学习算法为Q-learning算法,并初始化Q-learning算法的价值函数Q(s,a),其中,Q(s,a)表示当前状态下选择行动a的价值;
根据∈-贪心策略π选择行动a,执行行动a,得到奖励r和新状态s′,根据公式3更新价值函数Q(s,a):
Q(s,a)←Q(s,a)+α·[r+γmaxa′Q(s′,a′)—Q(s,a)] 公式3;
其中,∈-贪心策略指的是以一定概率∈随机选择行动,以1—∈的概率选择当前最优行动,α是学习率,用来控制每次更新的步长,γ是折扣因子,用来衡量未来奖励的重要性,r表示奖励;
更新状态s为s′。
6.根据权利要求5所述的方法,其特征在于,通过优化的所述电器控制策略控制电器的开启或关闭进行节电具体包括:
初始化***功率P、初始化用电者感受F、初始化***性能参数a、初始化正奖励和负奖励权重α和β、初始化行动集合A=a1,a2,...,an,其中n为行动数、初始化价值函数Q(s,a)为任意值、初始化状态s=P;
根据当前状态选择行动a,使用策略π(a|s),执行行动a,得到奖励r和新状态s′,更新***功率P,更新用电者感受F,计算奖励函数R(s,a),更新价值函数Q(s,a),更新状态s←P。
7.一种结合强化学习的节电计算装置,其特征在于,包括:
定义模块,用于对强化学习算法的定义、状态、行动、奖励以及策略进行定义;
优化模块,用于通过强化学习算法对电器控制策略进行优化;
控制模块,用于通过优化的所述电器控制策略控制电器的开启或关闭进行节电。
8.根据权利要求1所述的方法,其特征在于,所述定义模块具体用于:
将***功率、节电空间中的人数、以及节电空间中的活动定义为状态,其中,通过监测***的电流和电压获得***功率;
将调整***性能参数定义为行动,其中,所述***性能参数具体包括:空调温度,CPU频率、内存大小;
将能耗降低定义为正奖励,将***性能下降定义为负奖励,具体地:
将奖励函数表示为R(s,a),其中,s表示状态,a表示***性能参数,则根据公式1对奖励进行定义:
其中,α和β分别是正常数,用来控制正奖励和负奖励的权重,Pt表示在时刻t的***功率,γ是一个控制用电者感受影响的权重,Ft是在时刻t的师生感受,如果感受良好,则Ft=0,否则FT=-1,aT表示t时刻的***性能参数;
将根据当前状态选择行动的方法定义为策略,具体地:
将策略表示为π(a|s),其中,a表示***性能参数,s表示状态,则根据公式2定义策略:
其中,n表示行动数,A表示行动集合。
9.根据权利要求8所述的装置,其特征在于,所述优化模块具体用于:
设置强化学习算法为Q-learning算法,并初始化Q-learning算法的价值函数Q(s,a),其中,Q(s,a)表示当前状态下选择行动a的价值;
根据∈-贪心策略π选择行动a,执行行动a,得到奖励r和新状态s′,根据公式3更新价值函数Q(s,a):
Q(s,a)←Q(s,a)+α·[r+γmaxa′Q(s′,a′)—Q(s,a)] 公式3;
其中,∈-贪心策略指的是以一定概率∈随机选择行动,以1—∈的概率选择当前最优行动,α是学习率,用来控制每次更新的步长,γ是折扣因子,用来衡量未来奖励的重要性,r表示奖励;
更新状态s为s′。
10.根据权利要求9所述的装置,其特征在于,所述控制模块具体用于:
初始化***功率P、初始化用电者感受F、初始化***性能参数a、初始化正奖励和负奖励权重α和β、初始化行动集合A=a1,a2,...,an,其中n为行动数、初始化价值函数Q(s,a)为任意值、初始化状态s=P;
根据当前状态选择行动a,使用策略π(a|s),执行行动a,得到奖励r和新状态s′,更新***功率P,更新用电者感受F,计算奖励函数R(s,a),更新价值函数Q(s,a),更新状态s←P。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311143879.0A CN117151928A (zh) | 2023-09-05 | 2023-09-05 | 结合强化学习的节电计算方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311143879.0A CN117151928A (zh) | 2023-09-05 | 2023-09-05 | 结合强化学习的节电计算方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117151928A true CN117151928A (zh) | 2023-12-01 |
Family
ID=88911628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311143879.0A Pending CN117151928A (zh) | 2023-09-05 | 2023-09-05 | 结合强化学习的节电计算方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117151928A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200010982A (ko) * | 2018-06-25 | 2020-01-31 | 군산대학교산학협력단 | 심층 강화 학습을 이용한 자율 이동체의 충돌 회피 및 자율 탐사 기법 및 장치 |
CN113392935A (zh) * | 2021-07-09 | 2021-09-14 | 浙江工业大学 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
CN114139778A (zh) * | 2021-11-15 | 2022-03-04 | 北京华能新锐控制技术有限公司 | 风电机组功率预测建模方法及装置 |
CN114218867A (zh) * | 2021-12-20 | 2022-03-22 | 暨南大学 | 基于熵优化安全强化学习的特种设备流程控制方法及*** |
CN114370698A (zh) * | 2022-03-22 | 2022-04-19 | 青岛理工大学 | 基于强化学习的室内热环境学习效率提升的优化控制方法 |
CN116523327A (zh) * | 2023-02-28 | 2023-08-01 | 福建亿榕信息技术有限公司 | 一种基于强化学习的配电网运行策略智能生成方法及设备 |
-
2023
- 2023-09-05 CN CN202311143879.0A patent/CN117151928A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200010982A (ko) * | 2018-06-25 | 2020-01-31 | 군산대학교산학협력단 | 심층 강화 학습을 이용한 자율 이동체의 충돌 회피 및 자율 탐사 기법 및 장치 |
CN113392935A (zh) * | 2021-07-09 | 2021-09-14 | 浙江工业大学 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
CN114139778A (zh) * | 2021-11-15 | 2022-03-04 | 北京华能新锐控制技术有限公司 | 风电机组功率预测建模方法及装置 |
CN114218867A (zh) * | 2021-12-20 | 2022-03-22 | 暨南大学 | 基于熵优化安全强化学习的特种设备流程控制方法及*** |
CN114370698A (zh) * | 2022-03-22 | 2022-04-19 | 青岛理工大学 | 基于强化学习的室内热环境学习效率提升的优化控制方法 |
CN116523327A (zh) * | 2023-02-28 | 2023-08-01 | 福建亿榕信息技术有限公司 | 一种基于强化学习的配电网运行策略智能生成方法及设备 |
Non-Patent Citations (1)
Title |
---|
刘犇: "加强学习的实现及其在多主体***中的应用", 北京印刷学院学报, no. 01, 30 March 2000 (2000-03-30), pages 22 - 30 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Reinforcement learning for optimal control of low exergy buildings | |
Barrett et al. | Autonomous hvac control, a reinforcement learning approach | |
Leslie et al. | Best-response dynamics in zero-sum stochastic games | |
Al-Jabery et al. | Demand-side management of domestic electric water heaters using approximate dynamic programming | |
Lymperopoulos et al. | Building temperature regulation in a multi-zone HVAC system using distributed adaptive control | |
CN110826723A (zh) | 一种结合tamer框架和面部表情反馈的交互强化学习方法 | |
Dounis et al. | Intelligent control system for reconciliation of the energy savings with comfort in buildings using soft computing techniques | |
Qiao et al. | An incremental neuronal-activity-based RBF neural network for nonlinear system modeling | |
Haghnevis et al. | A modeling framework for engineered complex adaptive systems | |
Klein et al. | Towards optimization of building energy and occupant comfort using multi-agent simulation | |
Karjalainen et al. | Integrated control and user interfaces for a space | |
Nedungadi et al. | Incorporating forgetting in the personalized, clustered, bayesian knowledge tracing (pc-bkt) model | |
CN111442476A (zh) | 一种使用深度迁移学习实现数据中心节能温控的方法 | |
Grubaugh et al. | Harnessing AI to power constructivist learning: An evolution in educational methodologies | |
CN117151928A (zh) | 结合强化学习的节电计算方法及装置 | |
Kadamala et al. | Enhancing HVAC control systems through transfer learning with deep reinforcement learning agents | |
CN118246344A (zh) | 基于数据驱动的暖通空调***在线优化方法 | |
CN110323758A (zh) | 一种基于串行q学习算法的电力***离散无功优化方法 | |
Wang et al. | Energy optimization for HVAC systems in multi-VAV open offices: A deep reinforcement learning approach | |
Yu et al. | A systematic review of reinforcement learning application in building energy-related occupant behavior simulation | |
CN117726133A (zh) | 一种基于强化学习的分布式能源实时调度方法及*** | |
Westera | On the cybernetic arrangement of feedback in serious games: A systems-theoretical perspective | |
Marantos et al. | Towards Plug&Play smart thermostats for building’s heating/cooling control | |
Cui et al. | A hierarchical HVAC optimal control method for reducing energy consumption and improving indoor air quality incorporating soft Actor-Critic and hybrid search optimization | |
Kamsa et al. | Learning time planning in a distance learning system using intelligent agents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |