CN117151928A

CN117151928A - 结合强化学习的节电计算方法及装置

Info

Publication number: CN117151928A
Application number: CN202311143879.0A
Authority: CN
Inventors: 刘姚; 陈嘉诺; 孙启文
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-12-01

Abstract

本说明书实施例提供了一种结合强化学习的节电计算方法及装置，其中，方法包括：对强化学习算法的定义、状态、行动、奖励以及策略进行定义；通过强化学习算法对电器控制策略进行优化；通过优化的所述电器控制策略控制电器的开启或关闭进行节电。

Description

结合强化学习的节电计算方法及装置

技术领域

本文件涉及电学技术领域，尤其涉及一种结合强化学习的节电计算方法及装置。

背景技术

实际学校节电的应用场景中，学生和老师的活动时间不完全是规律的，如果我们仅基于课程表和摄像头信息设置电器的开关状态，可能无法满足实际需求。例如，等人来了才打开电器就已经来不及了。因此，如何让电器在保证使用需求的前提下，尽可能地减少用电量是亟需解决的技术问题。

发明内容

本发明的目的在于提供一种结合强化学习的节电计算方法及装置，旨在解决现有技术中的上述问题。

本发明提供一种结合强化学习的节电计算方法，包括：

对强化学习算法的定义、状态、行动、奖励以及策略进行定义；

通过强化学习算法对电器控制策略进行优化；

通过优化的所述电器控制策略控制电器的开启或关闭进行节电。

本发明提供一种结合强化学习的节电计算装置，包括：

定义模块，用于对强化学习算法的定义、状态、行动、奖励以及策略进行定义；

优化模块，用于通过强化学习算法对电器控制策略进行优化；

控制模块，用于通过优化的所述电器控制策略控制电器的开启或关闭进行节电。

采用本发明实施例，采用强化学习方法来优化电器的控制策略，让电器在保证使用需求的前提下，尽可能地减少用电量。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的结合强化学习的节电计算方法的流程图；

图2是本发明实施例的结合强化学习的节电计算装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

方法实施例

根据本发明实施例，提供了一种结合强化学习的节电计算方法，图1是本发明实施例的结合强化学习的节电计算方法的流程图，如图1所示，根据本发明实施例的结合强化学习的节电计算方法具体包括：

步骤S101，对强化学习算法的定义、状态、行动、奖励以及策略进行定义；具体地，将***功率、节电空间中的人数、以及节电空间中的活动定义为状态，其中，

1、通过监测***的电流和电压获得***功率；

2、将调整***性能参数定义为行动，其中，所述***性能参数具体包括：空调温度，CPU频率、内存大小；

3、将能耗降低定义为正奖励，将***性能下降定义为负奖励；具体包括：

将奖励函数表示为R(s,a)，其中，s表示状态，a表示***性能参数，则根据公式1对奖励进行定义：

其中，α和β分别是正常数，用来控制正奖励和负奖励的权重，P_t表示在时刻t的***功率，γ是一个控制用电者感受影响的权重，F_t是在时刻t的师生感受，如果感受良好，则F_t＝0，否则F_t＝-1，a_t表示t时刻的***性能参数。

4、将根据当前状态选择行动的方法定义为策略。具体包括：

将策略表示为π(a|s)，其中，a表示***性能参数，s表示状态，则根据公

式2定义策略：

其中，n表示行动数，A表示行动集合。

步骤S102，通过强化学习算法对电器控制策略进行优化；具体包括：

设置强化学习算法为Q-learning算法，并初始化Q-learning算法的价值函数Q(s,a)，其中，Q(s,a)表示当前状态下选择行动a的价值；

根据∈-贪心策略π选择行动a，执行行动a，得到奖励r和新状态s′，根据公式3更新价值函数Q(s,a)：

Q(s,a)←Q(s,a)+α·[r+γmax_a′Q(s′,a′)—Q(s,a)] 公式3；

其中，∈-贪心策略指的是以一定概率∈随机选择行动，以1—ε的概率选择当前最优行动，α是学习率，用来控制每次更新的步长，γ是折扣因子，用来衡量未来奖励的重要性，r表示奖励；

更新状态s为s′。

步骤S103，通过优化的所述电器控制策略控制电器的开启或关闭进行节电。具体包括：

初始化***功率P、初始化用电者感受F、初始化***性能参数a、初始化正奖励和负奖励权重α和β、初始化行动集合A＝a₁,a₂,...,a_n，其中n为行动数、初始化价值函数Q(s,a)为任意值、初始化状态s＝P；

根据当前状态选择行动a，使用策略π(a|s)，执行行动a，得到奖励r和新状态s′，更新***功率P，更新用电者感受F，计算奖励函数R(s,a)，更新价值函数Q(s,a)，更新状态s←P。

以下对本发明实施例的上述技术方案进行详细说明。

假设教室内有个电器需要控制，设在时刻第个电器的用电量为。我们的目标是让一天内各电器的用电量最小。

可以将一天划分为T个时刻段，每个时刻段的长度为Δt，则一天的总时长为TΔt。我们可以将一天的时间分成T个时刻，第j个时刻为tj＝jΔt。则第i个电器在一天内的用电总量为：

我们的目标是最小化一天内所有电器的用电量总和：

显然，这是一个线性规划的问题，因此，我们可以将这个问题建模为如下的最优化问题：

即通过尽可能的节约单个电器的用电量，让一天内各电器的用电量最小。为了实现上述功能，我们可以将学校课程表和摄像头的信息嵌入到我们的模型中。最简单地说，我们可以将电器的用电状态x_i,j分为两种情况：开启和关闭，即1和0。如果当前时间没有课程或者教室内没有人，则我们将对应的用电器状态设置为关闭；反之，则设置为开启。

然而，需要考虑到实际应用场景中，学生和老师的活动时间不完全是规律的，如果仅基于课程表和摄像头信息设置电器的开关状态，可能无法满足实际需求。例如，等人来了才打开电器就已经来不及了。因此，采用强化学习方法来优化电器的控制策略，让电器在保证使用需求的前提下，尽可能地减少用电量。

1.1强化学习算法

强化学习是一种通过试错来学习最佳策略的机器学习方法。在这个问题中，我们可以将电器的控制策略视为一个智能体，每个时刻根据当前环境(例如是否有人，时间等)选择开启或关闭电器，从而获得一个即时奖励(例如减少用电量)。通过不断地与环境交互，智能体可以学习到最佳的电器控制策略，从而在保证使用需求的前提下尽可能地减少用电量。而在强化学习框架下，我们需要定义状态、行动、奖励以及策略等概念。

1.1.1状态定义

在节电算法中，我们将***的功率与教室人数/课本作为状态。功率可以通过监测***的电流和电压获得。假设***的功率为P，教室有N人，10分钟内有课，则状态s可以表示为s＝(P,N,1)。

1.1.2行为定义

在节电算法中，可以将调整***性能参数作为行动，例如调整空调温度，CPU频率、内存大小等。假设我们将***性能参数表示为a，则行动集合A可以表示为A＝a1,a2,...,an，其中n为行动数。

1.1.3奖励定义

在节电算法中，我们可以将能耗降低作为正奖励，将***性能下降作为负奖励。假设我们将奖励函数表示为R(s,a)，则可以定义如下：

其中，α和β分别是正常数，用来控制正奖励和负奖励的权重。P_t表示在时刻t的***功率。γ是一个控制师生感受影响的权重，F_t是在时刻t的师生感受，如果感受良好，则F_t＝0，否则F_t＝-1。这样，在智能体控制***功率的同时，也会考虑到师生的使用感受。

1.1.4策略定义

在节电算法中，我们可以将根据当前状态选择行动的方法称为策略。假设我们将策略表示为π(a|s)，则可以定义如下：

即，在每个状态下，采用均匀分布来选择行动。

1.2算法

1.2.1 Q-learning算法

learning算法是一种强化学习算法，可以用来优化策略，从而达到最优化的目的。算法的基本思想是通过迭代更新价值函数，来不断优化策略。算法流程如表1所示：

表1

其中，∈-贪心策略指的是以一定概率∈随机选择行动，以1—∈的概率选择当前最优行动。α是学习率，用来控制每次更新的步长。γ是折扣因子，用来衡量未来奖励的重要性。

在节电算法中，Q-learning算法的价值函数可以表示为Q(s,a)＝Q(l,e,a)，即当前状态下选择行动a的价值。

通过Q-learning算法不断迭代，可以不断优化策略，从而达到最小化能耗的目的。

1.2.2结合强化学习的节电算法

针对强化学习算法，其学习周期较长，在现实环境下，反馈周期长且成功高。为了解决这一问题，本发明实施例采用仿真方法，在计算机上训练模型，并将其应用于实际生产中。具体算法如表2所示：

表2

装置实施例

根据本发明的实施例，提供了一种结合强化学习的节电计算装置，图2是本发明实施例的结合强化学习的节电计算装置的示意图，如图2所示，根据本发明实施例的结合强化学习的节电计算装置具体包括：

定义模块20，用于对强化学习算法的定义、状态、行动、奖励以及策略进行定义；所述定义模块20具体用于：

将***功率、节电空间中的人数、以及节电空间中的活动定义为状态，其中，通过监测***的电流和电压获得***功率；

将调整***性能参数定义为行动，其中，所述***性能参数具体包括：空调温度，CPU频率、内存大小；

将能耗降低定义为正奖励，将***性能下降定义为负奖励，具体地：

其中，α和β分别是正常数，用来控制正奖励和负奖励的权重，P_t表示在时刻t的***功率，γ是一个控制用电者感受影响的权重，F_t是在时刻t的师生感受，如果感受良好，则F_t＝0，否则F_t＝-1，a_t表示t时刻的***性能参数；

将根据当前状态选择行动的方法定义为策略，具体地：

将策略表示为π(a|s)，其中，a表示***性能参数，s表示状态，则根据公式2定义策略：

其中，n表示行动数，A表示行动集合。

优化模块22，用于通过强化学习算法对电器控制策略进行优化；所述优化模块22具体用于：

Q(s,a)←Q(s,a)+α·[r+γmax_a′Q(s′,a′)—Q(s,a)] 公式3；

其中，ε-贪心策略指的是以一定概率∈随机选择行动，以1—∈的概率选择当前最优行动，α是学习率，用来控制每次更新的步长，γ是折扣因子，用来衡量未来奖励的重要性，r表示奖励；

更新状态s为s′。

控制模块24，用于通过优化的所述电器控制策略控制电器的开启或关闭进行节电。所述控制模块24具体用于：

本发明实施例是与上述方法实施例对应的装置实施例，各个模块的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种结合强化学习的节电计算方法，其特征在于，包括：

通过强化学习算法对电器控制策略进行优化；

2.根据权利要求1所述的方法，其特征在于，对强化学习算法的定义、状态、行动、奖励以及策略进行定义具体包括：

将能耗降低定义为正奖励，将***性能下降定义为负奖励；

将根据当前状态选择行动的方法定义为策略。

3.根据权利要求2所述的方法，其特征在于，将能耗降低定义为正奖励，将***性能下降定义为负奖励具体包括：

4.根据权利要求2所述的方法，其特征在于，将根据当前状态选择行动的方法定义为策略具体包括：

其中，n表示行动数，A表示行动集合。

5.根据权利要求4所述的方法，其特征在于，通过强化学习算法对电器控制策略进行优化具体包括：

Q(s,a)←Q(s,a)+α·[r+γmax_a′Q(s′,a′)—Q(s,a)] 公式3；

其中，∈-贪心策略指的是以一定概率∈随机选择行动，以1—∈的概率选择当前最优行动，α是学习率，用来控制每次更新的步长，γ是折扣因子，用来衡量未来奖励的重要性，r表示奖励；

更新状态s为s′。

6.根据权利要求5所述的方法，其特征在于，通过优化的所述电器控制策略控制电器的开启或关闭进行节电具体包括：

7.一种结合强化学习的节电计算装置，其特征在于，包括：

8.根据权利要求1所述的方法，其特征在于，所述定义模块具体用于：

将根据当前状态选择行动的方法定义为策略，具体地：

其中，n表示行动数，A表示行动集合。

9.根据权利要求8所述的装置，其特征在于，所述优化模块具体用于：

Q(s,a)←Q(s,a)+α·[r+γmax_a′Q(s′,a′)—Q(s,a)] 公式3；

更新状态s为s′。

10.根据权利要求9所述的装置，其特征在于，所述控制模块具体用于：