WO2020000399A1

WO2020000399A1 - 一种基于智能电网的多智能体深度强化学习代理方法

Info

Publication number: WO2020000399A1
Application number: PCT/CN2018/093753
Authority: WO
Inventors: 侯韩旭; 郝建业; 杨耀东
Original assignee: 东莞理工学院
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-01-02
Also published as: CN110945542A; CN110945542B

Abstract

本发明适用于电力自动化控制技术领域，提供了一种基于智能电网的多智能体深度强化学习代理方法，包括：S1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新；S2、根据消费者和生产者的种类建立"外部竞争，内部合作"的多智能体代理；S3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数。神经网络的输入层可以接受刻画状态的特征的值的直接输入，而 Q-table 需要将特征值离散化来减小状态空间。

Description

一种基于智能电网的多智能体深度强化学习代理方法

技术领域

本发明属于电力自动化控制技术领域，尤其涉及一种基于智能电网的多智能体深度强化学习代理方法。

背景技术

智能电网是指使用一系列数字化通讯技术实现电网现代化 ^[1][2]。一个国家的经济、国防安全甚至居民的安全都依赖于电网的可靠性，在实际运行中，智能电网不仅能够方便用户实时选择相应的电力套餐，还能够积极调配电力资源，实现电力的平衡供应。电网能够对市场波动做出实时调整与反馈，实现双向的信息沟通服务和全面的电网状况感知，是21世纪现代化的重要组成部分。

以前电网技术主要设计为单向地从大型集中式发电厂向家庭和工业设施等分布式的消费者供电。最近，智能电网一个比较热门的研究主题便是预测用户的电力需求，从而预先调整电价和竞购策略实现代理收益的最大化 ^[3]。同时，代理机制也是智能电网设计的另一个核心，通过代理机制，智能电网在本地生产者、本地消费者、大型发电厂和其他代理之间统筹安排，运用市场的调节机制，实现多方共赢。而其中的一个关键性问题就是实现电网在消费者和本地的风力发电和太阳能发电的小型生产者之间的双向交流，Reddy等人 ^[4]最早提出了使用强化学习框架来为本地电网设计代理作为这个问题的解决方案。强化学习框架的一个关键性的要素是状态空间，从手工构造的特征中学习策略 ^[4]，但是这样限制了代理能够容纳的经济信号的数量，也限制了环境改变时代理吸收新的信号的能力。强化学习已经被运用到电子商务领域来解决很多实际问题，主要做法是通过智能体与环境交互学习最优的策略，例如帕尔多等人 ^[5]就基于强化学习的提出了一种数据驱动的方法来设计电子竞拍。在电力领域，强化学习被用来研究批发市场交易策略 ^[6]或者帮助建立物理控制***。电力批发应用的例子包括 ^[7]，主要研究了电力批发拍卖的竞价策略，而Ramavajjala等人 ^[8]研究Next State Policy Iteration(NSPI)作为对Least Squares Policy Iteration(LSPI) ^[9]的扩展，并展示了他们拓展对风力发电预先交付承诺问题的好处。强化学习的物理控制应用包括电网的负载和频率控制以及自主监控应用，例如 ^[10]。但是，之前关于电网代理的工作大多对电网环境的设定较为理想化，一方面是使用了大量的简单设定来模拟复杂的电网运行机制，另一方面在设计算法时对环境提供的信息高度抽象，损失了许多重要的细节，造成决策的不精确。

另一方面，智能电网中的客户表现出各种电力消耗或生产模式。这表明我们需要为不同类型的客户制定不同的定价策略。遵循这个想法，零售代理可以被视为多智能体***，因为每个代理负责为特定类别的电力消费者或生产者定价。例如，Wang等人在其代理框架为每种客户分配一个独立的定价代理 ^[23]。然而，作者为不同的客户使用独立的强化学习过程，并将整个智能体的利润视为每个代理的即时回报。它并不区分每个智能体对代理利润的单独贡献，因此不会激励代理去学习最佳策略。

强化学习，和传统的机器学习不同，是在一种通过不断的与环境交互来逐渐学习到某种让累积奖励最大化的策略的过程 ^[14]。强化学习模拟人的认知过程，具有广泛性，在许多学科中被研究，比如博弈论和控制论。强化学习让智能体从环境中学习策略，而环境一般被设定为一个马尔科夫决策过程(MDP) ^[15]，同时许多算法在这个设定中运用了动态规划的技术 ^[16][17][18]。

基本的强化学习模型包括：

一系列的环境和智能体状态S＝{s ₁；s ₂；…；s _n}；

一系列的智能体动作A＝{a ₁；a ₂；…；a _n}；

描述状态之间转移函数δ(s,a)→s′；

奖励函数r(s,a)。

在许多工作中，如果智能体被假定能够观察到现在时刻的环境状态，称之为全部可观察，反之即为部分可观察。一个基于强化学习的智能体在离散的时间步中和环境交流。如图2-1，在每次时刻t，智能体获得一个通常包括这个时刻奖励r _t的观察，然后从可选的动作中选择一个动作a，接下来这个动作作用于环境，环境在作用下到达一个新的状态s _t+1，智能体获得新的时刻的奖励t _t+1，周而复始。基于强化学习的多智体在与环境交互中逐渐学习到使得累积奖励最大化的策略π：S→A。为了学习到接近最优，智能体必须长时间地学习调整策略。强化学习的基本设定和学习过程非常适用于电网领域。

关于如何找到最优策略，我们在这里介绍值函数方法。值函数方法试图通过维持对一些策略的一系列期望回报的估计找到一种策略最大化回报。为了正式定义最优，我们定义一种策略的值为：

V ^π(s)＝E[R|s，π] (2-1)

R代表从初始状态s开始遵循策略π获得的随机回报。定义V ^*(s)作为V ^π(s)的最大的可能值：

V ^*(s)＝max _πV ^π(s) (2-2)

能够在每一个状态实现这些最优值的策略称之为最优策略。虽然状态值足够定义最优，定义动作值也是有用的。给定一个状态s，一个动作a和一个策略π，在策略π下的(s,a)对的动作值被定义为：

Q ^π(s,a)＝E[R|s,a,π] (2-3)

R代表的是在状态s下先采取动作a再遵循策略π获得的累积奖励。从MDP的理论中可知，如果给定最优策略的Q值，那我们总是可以通过简单的选择每次状态中值最高的动作来确定最优动作。这样的最优策略的动作值函数被表示为Q ^*。知道最优动作值就足够知道如何实现最优。

当环境的转移函数和奖励函数都是未知的时候，我们可以使用Q-learning来升级动作值函数：

Q _t(s,a)←(1-α _t)Q _t-1(s,a)+α _t[r _t+γmax _a′Q _t-1(s′,a′) (2-4)

其中，α _t是学习率，r _t是当前时刻的奖励，γ是折扣因子。每一次与环境交互，升级一次当前的动作值Q _t(s,a)，保留一部分上一时刻的该状态和动作下的Q值，根据获得的当前时刻的奖励和到达的新的状态重新计算Q(s,a)，和之前的部分经验一起组合作为该时刻新的动作值。

人工神经网络，是一种是用在机器学习、计算机科学和其他研究领域中的计算模型 ^[19][20]。人工神经网络基于大量相互连接的基本单元—人工神经元。

一般地，每一层的人工神经元相互连接，信号从第一层输入层输入，到最后一层输出层输出。现在的深度学习项目一般有上千到上百万个神经节点和数以百万计的连接。人工神经网络的目标是以像人类一样的方式解决问题，虽然有些种类的神经网络更加抽象。神经网络中的网络表示每个***中不同层之间人工神经元的连接。一个典型的人工神经网络由三种类型的参数定义：

不同层神经元的连接方式；

这些连接中的权重，权重可在后面的学习过程中升级；

将一个神经元的加权输入转换为它的输出激活的激活函数。

数学上，一个神经网络代表的函数f(x)被定义为其他函数g _i(x)的组合。可以方便地表示为用箭头描述变量间的依赖的网络结构。一种广泛使用的形式是非线性权重加和：

f(x)＝K(∑ _iw _ig _i(x)) (2-5)

其中，K表示激活函数。激活函数的最重要的性质是当输入值改变时它能提供平滑的变换，比如输入的小改变引起输出的小改变。这样，根据连接中的权重，输入会不断调整直到最后形成输出。但是这样的输出通常不是我们想要的结果，所以我们还需要神经网络进行学习。而神经网络最吸引人的便是学习的可能性。给定一个需要学习的特定任务，和学习的目标函数集F，学习就是意味着通过一系列的观察来找到一个F中的函数f ^*来作为任务的解决方案。这样，我们定义一个损失函数C：

对于最优的函数f ^*，没有其他的解决方案的有比f ^*还小的损失函数值：

损失函数是学习的重要概念，它是对一个特定的解决方案离最优的解决方案距离的度量方式。而学习的过程就是搜索问题的解决空间来找到拥有最小损失函数值的函数。对于解决方案需要在数据中寻找的应用问题，损失必须是这些实际观察到的样本的函数。损失函数通常被定义为统计量，因为一般只能统计观察到的样本进行评估。所以，对于要找到模型函数f的问题，就是最小化损失函数C＝E[(f(x)-y) ²]，其中，数据对(x,y)来自于某些分布D。在实际的应用中，我们通常只有N个有限的样本，所以我们只能最小化

因此，损失函数是在数据的一些样本上最小化的，而不是在整个数据集的理论分布上最小。当把基于样本的损失函数值最小化，我们就求出了神经网络在这些样本上的最优参数。

Q-网络,既然神经网络可以作为函数的拟合，那么强化学习中Q值函数也可以用神经网络拟合 ^[21][22]，这样做有一个很大的好处就是，传统的Q-table的状态空间必须是有限而且不能过大的，这样，我们才能使用Q-table来存储状态动作对的值，而使用Q-network，我们不必考虑状态空间的离散化，只需要将代表状态的特征值直接输入到神经网络即可，让网络中的参数来拟合Q值函数，这样，状态空间无限大的问题就自然解决了。但是，和传统的神经网络应用不同，强化学习不是一开始就有那么多的样本，而是通过不断与环境交互获得新的奖励和观察，同时，强化学习也没有样本的标注作为判断模型是否输出准确的判定依据。但是，如果我们抛开神经网络的传统应用，单从神经网络本身的函数拟合功能来看，把神经网络当作类似Q-table一样储存Q(s,a)的工具，智能体每与环境交互一次，我们就可以像更新Q-table一样更新神经网络中的参数使其输出的Q(s,a)靠近当前认为的值。

现在我们考虑如何设计Q-网络的输入输出和损失函数，使其在功能上和Q-table相同。首先，输入仍然是状态S，但是，不用像传统的强化学习一样将状态空间从无限大离散到有限个，代表状态空间的每个特征的都可以直接作为神经网络的一个输入。同时，类似于Q-table对每个状态都存储一行值代表该状态下每种动作的估计累积奖励，神经网络输出层的每一个节点都代表一个动作，每个节点的输出值就是在输入状态S下该动作的估计累积值Q(s,a _i)。通过这样设计神经网络的输入层和输出层，我们让神经网络实现了存储Q(s,a)的功能。同时我们还需要考虑如何对人工神经网络的参数进行更新，根据损失函数的定义，我们并没有现成的对用输入状态的标记y _i，但是，根据对Q-learning对动作值的升级公式，我们可以根据已经在人工神经网络中存储的Q(s,a)和现在时刻的奖励r _t来升级神经网络中的参数。比如现在时刻t，智能体处在状态s _t下，当它根据策略选定动作a _t之后，进入下一个状态s _t+1并获得奖励r _t。现在，当我们升级神经网络中的参数时，我们希望Q(s _t,a _t)应该升级为Q-learning中的更新部分r _t+max _a′Q(s′,a′)：

C＝[Q _t(s _t,a _t)-(r _t+max _a′Q _t-1(s _t+1,a′))] ² (2-8)

即使让当前时刻的动作值趋近于更新部分。同样，更新的时候会设定学习速率。这样，使用Q-网络存储更新动作值的过程和直接使用Q-table一样，唯一的不同是神经网络的输入层可以接受刻画状态的特征的值的直接输入，而Q-table需要将特征值离散化来减小状态空间。

参考文献

[1]M.Amin and B.Wollenberg.Toward a smart grid:Power delivery for the 21 st century.IEEE Power and Energy Magazine,3(5):3441,2005.

[2]C.Gellings,M.Samotyj,and B.Howe.The future’s power delivery system.IEEE Power Energy Magazine,2(5):4048,2004.

[3]Wang X,Zhang M,Ren F.Load Forecasting in a Smart Grid through Customer Behaviour Learning Using L1-Regularized Continuous Conditional Random Fields[C].Proceedings of the 2016 International Conference on Autonomous Agents & Multiagent Systems.International Foundation for Autonomous Agents and Multiagent Systems,2016:817-826.

[4]Reddy P P,Veloso M M.Strategy learning for autonomous agents in smart grid markets[J].2011.

[5]Pardoe D,Stone P,Saar-Tsechansky M,et al.Adaptive Auction Mechanism Design and the Incorporation of Prior Knowledge[J].INFORMS Journal on Computing,2010,22(3):353-370.

[6]Babic J,Podobnik V.An analysis of power trading agent competition 2014[M].Agent-Mediated Electronic Commerce.Designing Trading Strategies and Mechanisms for Electronic Markets.Springer International Publishing,2014:1-15.

[7]Petrik M,Taylor G,Parr R,et al.Feature Selection Using Regularization in Approximate Linear Programs for Markov Decision Processes[J].Computer Science,2010.

[8]Ramavajjala V,Elkan C.Policy iteration based on a learned transition model[C].European Conference on Machine Learning and Knowledge Discovery in Databases.Springer-Verlag,2012:211-226.

[9]Lagoudakis M G,Parr R.Least-squares policy iteration[M].JMLR.org,2003.

[10]Venayagamoorthy G K.Potentials and promises of computational intelligence for smart grids[C].Power & Energy Society General Meeting,2009.PES'09.IEEE.IEEE,2009:1-6.

[11]***[EB/OL]. https:.en.wikipedia.org/wiki/Smart_grid

[12]EPRI[EB/OL]. https:.www.epri.com/#/about/epri

[13]Kintner-Meyer M C,Chassin D P,Kannberg L D,et al.GridWise:The benefits of a transformed energy system[J].Pacific Northwest National Laboratory under contract with the United States Department of Energy,2008:25.

[14]Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge:MIT press,1998.

[15]Littman M L.Markov games as a framework for multi-agent reinforcement learning[C].Proceedings of the eleventh international conference on machine learning.1994,157:157-163.

[16]Lewis F L,Vrabie D.Reinforcement learning and adaptive dynamic programming for feedback control[J].IEEE circuits and systems magazine,2009,9(3).

[17]Busoniu L,Babuska R,De Schutter B,et al.Reinforcement learning and dynamic programming using function approximators[M].CRC press,2010.

[18]Szepesvári C,Kioloa M.Reinforcement learning:dynamic programming[J].University of Alberta,MLSS,2008,8.

[19]***[EB/OL]. https:en.wikipedia.org/wiki/Artificial_neural_network

[20]Wang S C.Artificial neural network[M].Interdisciplinary computing in java programming.Springer US,2003:81-100.

[21]Mnih V,Kavukcuoglu K,Silver D,et al.Playing Atari with Deep Reinforcement Learning[J].Computer Science,2013.

[22]Huang B Q,Cao G Y,Guo M.Reinforcement learning neural network to the problem of autonomous mobile robot obstacle avoidance[C].Machine Learning and Cybernetics,2005.Proceedings of 2005 International Conference on.IEEE,2005,1:85-89.

[23]DoE[EB/OL].http:.www.eia.doe.gov,2010.

[24]Olfati-Saber R,Fax J A,Murray R M.Consensus and cooperation in networked multi-agent systems[J].Proceedings of the IEEE,2007,95(1):215-233.

[25]Ferber J.Multi-agent systems:an introduction to distributed artificial intelligence[M].Reading:Addison-Wesley,1999.

[26]Littman M L.Markov games as a framework for multi-agent reinforcement learning[C].Proceedings of the eleventh international conference on machine learning.1994,157:157-163.

[27]Tan M.Multi-agent reinforcement learning:Independent vs.cooperative agents[C].Proceedings of the tenth international conference on machine learning.1993:330-337.

[28]Wiering M.Multi-agent reinforcement learning for traffic light control[C].ICML.2000:1151-1158.

[29]Hernández L,Baladron C,Aguiar J M,et al.A multi-agent system architecture for smart grid management and forecasting of energy demand in virtual power plants[J].IEEE Communications Magazine,2013,51(1):106-113.

[30]Niu D,Wang Y,Wu D D.Power load forecasting using support vector machine and ant colony optimization[J].Expert Systems with Applications,2010,37(3):2531-2539.

[31]Li H Z,Guo S,Li C J,et al.A hybrid annual power load forecasting model based on generalized regression neural network with fruit fly optimization algorithm[J].Knowledge-Based Systems,2013,37:378-387.

[32]Gong S,Li H.Dynamic spectrum allocation for power load prediction via wireless metering in smart grid[C].Information Sciences and Systems(CISS),2011 45th Annual Conference on.IEEE,2011:1-6

[33]Xishun Wang,Minjie Zhang,and Fenghui Ren.A hybrid-learning based broker model for strategic power trading in smart grid markets.Knowledge-Based Systems,119,2016.

[34]Electricity consumption in a sample of london households,2015. https://data.london.gov.uk/dataset/smartmeter-energyuse-data-in-london-households.

[35]S Hochreiter and J Schmidhuber.Long short-term memory.Neural Computation,9(8):1735–1780, 1997.

发明内容

本发明的目的在于提供一种基于智能电网的多智能体深度强化学习代理方法，旨在解决代理的状态空间无限大的问题。

本发明是这样实现的，一种基于智能电网的多智能体深度强化学习代理方法，所述多智能体深度强化学习代理方法包括以下步骤：

S1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新；

S2、根据消费者和生产者的种类建立“外部竞争，内部合作”的多智能体代理；

S3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数，其函数式：

其中，C表示消费者所在的类别，P表示生产者所在的类别，

表示代理B _k内部的智能体，i∈{C ₁,C _2,P ₁,P ₂}，κ _t,C表示某类消费者在时刻t消耗的电量，κ _t,P表示某类生产者在时刻t生产的电量，

是计算单体利润时不平衡部分费用。

本发明的进一步技术方案是：所述步骤S1中还包括以下步骤：

S11、对神经网络的参数进行初始化处理；

S12、在运行周期中对每个周期开始时对状态值进行初始化；

S13、利用概率对状态值进行选择或选择当前状态下动作最大动作值；

S14、执行选择的动作值并获得奖励后进入下一个状态；

S15、计算本次状态对应的标准值对神经网络参数进行更新使得存储的Q(s _t,a _t)接近于y _t。

本发明的进一步技术方案是：所述步骤S15中将动作值存储在参数中，每次进入新的状态仅需将特征值按顺序输入神经网络，能够从神经网络的输出层选择Q(s,a)值最大动作作为接下来的执行动作。

本发明的进一步技术方案是：所述步骤S2中包括以下步骤：

S21、根据消耗电力差异对消费者进行分类；

S22、根据现实中发电情况对生产者进行分类。

本发明的进一步技术方案是：所述步骤S3中通过奖励函数每个智能体在选择动作时在考虑自身利益时同时考虑整体的利益。

本发明的进一步技术方案是：所述消费者根据消耗电力的情况分为白天消耗用户和全天消耗用户。

本发明的进一步技术方案是：所述生产者根据现实中发电情况分为全天发电者和白天发电者。

本发明的有益效果是：神经网络的输入层可以接受刻画状态的特征的值的直接输入，而Q-table需要将特征值离散化来减小状态空间。

附图说明

图1是强化学习的一个经典情景示意图。

图2是本发明实施例提供的含有一个隐藏层的神经网络，第一层有通过突触向第二层神经元传递数据的神经元，第二层神经元又通过突触向第三层神经元传递数据。突触存储叫做权重的在计算中操纵数据的参数的示意图。

图3是代理框架示意图。

图4是循环DQN示意图。

图5是20轮实验中每轮实验的收益分布示意图。

图6是多种类用户环境下20轮实验中每轮实验的收益分布示意图。

[根据细则91更正 03.01.2019]　
图7是不同种类用户用电曲线图一。

图8是评估时期的代理收益示意图。

[根据细则91更正 03.01.2019]　
图9是不同种类用户用电曲线图二。

[根据细则91更正 03.01.2019]　
图10是不同种类用户用电曲线图三。

[根据细则91更正 03.01.2019]　
图11是不同种类用户用电曲线图四。

[根据细则91更正 03.01.2019]　
图12是不同种类用户用电曲线图五。

[根据细则91更正 03.01.2019]　
图13是不同种类用户用电曲线图六。

具体实施方式

工作上对代理的谈判算法进行两个方面的改进，一是解决代理的状态空间无限大的问题；二是通过稍微更改本地环境，让情景更加真实，同时相应地提出外部竞争、内部合作的多智体代理设计方式，使其更具竞争力。最后，我们引入了真实的用电数据，同时借助一些先进的时序技术帮助我们的代理框架在更加复杂的环境中学习到有效的定价策略。

所设定的本地市场的智能电网和 ^[4]中的基本一致，只会在第二种改进中对消费者和生产者的种类和生产/使用电力方式进行针对设计。在本地市场中，有消耗电力的消费者和生产电力的小型生产者，同时存在若干代理，在消费者和小型生产者之间买卖电力。之所要要设置代理，是因为小型生产者和消费者之间不方便直接协调，通过代理这一中间环节，不仅可以方便电力用户买卖电力，而且可以更好的协调资源，保障电力资源的供需平衡。代理具体的形式为每小时向所有生产者和消费者各发布一个合同，所有用户对来自不同代理的合同进行选择，每个代理都能得知其他代理在这个时刻的合同价格和有多少生产者和消费者选择自己的合同。这样，代理根据合同订阅和其他代理的合同价格调整自己下一时刻的合同价格来实现自身利润的最大化。这样，每个小时作为基本的时间单位，代理和环境进行一次交互，用户进行合同的订阅。

当订阅代理合同的生产者和消费者所需的电力不同时，会出现电力供求的不平衡。此时，我们不通过批发市场来处理电力的差额部分，而设置一个惩罚费用，作为代理出现电力供应不平衡的惩罚。接来下，我们通过定义来更加清晰的刻画这个本地市场。首先，对于电价，我们设定为价格范围为0.01到0.20 ^[23]，最小的价格变化为0.01。每个代理B _k(k＝1,2,…,K)的在时刻t的出价有两个，一个是对消费者的出价

另一个是对生产者的出价

另外，每个时刻t，代理B _k都掌握着向自己订阅的生产者和消费者数量：

和

为了方便起见，我们假定每个消费者每个时刻t消耗的电量为κ _t,C，而每个生产者每个时刻产生的电量为κ _t,P。最后，我们设定时刻t每单位电力的不平衡费用为φ _t。此时，计算代理B _k在时刻t的奖励就很清楚了：

这样，我们就大致定义了本地市场的基本运行方式。下面，我们先对两个状态指标的定义进行说明。第一个是判断市场是否合理的指标PriceRangeStatus(PRS)，在一个代理看来如果市场是合理的，那么必须满足：

其中，μ _L是一个主观值表示代理对市场边际利益的期望。同时，

其中，B _L代表这个代理本身。第二个指标PortfolioStatus(PS)表示代理自身是否实现供需平衡。接下来，我们设定几种对价格操作的动作作为所有代理可选取的动作集合。

A＝{Maintain,Lower,Raise,Revert,Inline,MinMax}

每个代理在在时刻t通过这些动作设置下一时刻的价格

和

●Maintain表示维持上一时刻的价格；

●Lower在时刻t生产者和消费者的价格的基础上都降低0.01；

●Raise在时刻t生产者和消费者的价格的基础上都增加0.01；

●Revert向中点价格移动0.01，

●Inline设置新的生产者和消费者价格分别为

MinMax设置新的生产者和消费者的价格分别为

几种固定策略竞争代理的设定，为了对比和验证，我们设计几种固定策略的代理。平衡策略试图通过调整生产者和消费者合同价格来减少供应不平衡，当它看到需求过剩时，则提高生产者和消费者合同价格，当它看到供给过剩时，则降低生产者和消费者合同价格。贪婪策略试图通过增加利润边际来实现利润最大化，即最大化市场是理性的时候消费者和生产者合同价格之间的差异。这两种策略都可以被表征为适应性的，因为它们会对市场和投资组合条件做出反应，但他们不会从过去学习。同时，我们也设计两种非适应性的代理，一种固定策略的代理一直维持一定的价格；一种随机的代理，每次对价格的调整在六个动作中随机选择一个。

表3-1 平衡算法

表3-2 贪婪算法

我们的第一项改动就是将原有的Q-learning的存储结构由Q-table更改为Q-network，我们目前的做法和Q-learning的做法完全一致，即每次与环境交互完成之后升级存储结构内部的参数。以后的工作还会考虑经验重放的机制。

表3-3 使用Q-network的Q-learning算法

算法第一行初始化神经网络的参数。第二行表明实验将运行M个周期，第三行说明在每个周期开始时都会初始化状态值，第五行和第六行表示用一定的概率进行随机选择，否则的话选择当前状态下动作值最大的那一个动作。第七行表示执行所选择的动作，然后得到奖励并进入下一个状态。第八行计算本次状态下对应的动作的标准值，第九行表示会根据第八行计算出的值对神经网络的参数进行更新，使得存储的Q(s _t,a _a)接近于y _t。这样做使得动作值存储在参数中，每次进入一个新的状态，只需要将状态的特征值按顺序输入到神经网络中，我们就能够从神经网络的输出层选择 Q(s,a)值最大的动作作为接下来的执行动作。

基于多agent(代理)的智能谈判算法，除了尝试使用神经网络来存储强化学习的动作值，我们还考虑到更加现实的情况，即消费者存在多种类型，同时小型生产者也分为风力发电和太阳能发电两种情况。为了研究这一普遍现象，我们对环境进行相应的更改。首先，我们把消费者分为两类，一类是晚上不需要消耗电力的普通用户，一类是全天需要消耗电力的用户；然后，我们根据现实中的情况，把生产者也分为两类，一类是全天都能发电的风力发电者，另一类是白天才能发电的太阳能发电者。所以，我们现在的电网环境中有四类用户，原来的一个智能体代理统一调整价格的方式就有点不适用了，所以我们提出了一个“外部竞争，内部合作”的新的多智能体代理，即在外部竞争中该代理表现为一个智能体，但是在内部实际上是对每一种类型的用户都设置一个智能体的多智体代理。多智体内部能够相互协调，相互合作 ^{[24][25][26][27][28]}，这样的多智体框架更能适应外部环境特别复杂的电网。能够在原来的电网规则前提下更加有针对性的对用户的合同价格进行调整以获得自身利润的最大化。

但是，虽然这个多智体在外部表现为一个代理，但是内部是有四个不同的智能体，如何让这些智能体保证在内部实现互相的合作，是一个需要思考的问题。为了尽量让代理内部的智能体互相合作，形成真正的团体去和其他的代理竞争，我们需要重新设计每个内部智能体的奖励函数，让每个智能体的动作不仅考虑到自己的利润最大化，还需要考虑到其他的内部智能体的利益。所以我们重新设计每个内部智能体的奖励函数：

其中，C表示消费者所在的类别，P表示生产者所在的类别，

表示代理B _k内部的智能体，i∈{C ₁,C _2,P ₁,P ₂}。κ _t,C表示某类消费者在时刻t消耗的电量，κ _t,P表示某类生产者在时刻t生产的电量。而

是计算单体利润时不平衡部分费用。

此外：

因为对于单个的智能体，它只能进行从生产者手里收购电力或者向消费者卖出电力，所以不好直接对其自身的利润进行衡量，但是，我们可以反过来考虑它对总利润的贡献，即没有这个代理买入或者卖出电力时对总利润所造成的损失即为该代理自身的利润。通过从整体的关系进行考虑，我们获得了单个智能体的自身利润。这样，我们就可以通过新设计的奖励函数让每个智能体在选择动作的时候在考虑自身利益的同时考虑到整体的利益。

真实数据模拟的多智能体代理框架，为了验证我们的代理框架在复杂环境下的有效性，我们引入了伦敦市2013年家庭用户的真实用电数据 ^[34]，我们从中选取了约1000户用户。首先，仅向所有消费者发布一个价格是不够的。即是我们只考虑零售市场中的家庭用户，但由于不同的生活***衡。在这里，我们根据用电曲线对消费者进行分组。考虑到电力消费是时间序列数据，我们的代理使用基于动态时间规整(DTW)距离标准的K-Means进行聚类。聚类后，我们可以获得相近用电行为的用户群体。在真实数据模拟环境中的代理结构如图3所示。

其次，由于用户的用电行为时刻变化，我们使用了在时间序列上有着优良表现的Long Short-Term Memory(LSTM) ^[35]的神经网络单元结构来增强我们的网络架构，以帮助代理从过去的市场信息中更好的提取时序信息来做出有效地决策。最终，我们的代理使用的神经网络结构如图4所示。

实验参数的设置，除了方法定义中的参数，还有许多实验运行中的参数，在此我们一一说明，我们的实验一共有五个代理，分别为智能体代理、平衡策略代理、贪婪策略代理、固定价格的代理和随机动作的代理。本地的电网市场的消费者人数设定为1000，生产者人数设定为100，消费者每小时消耗的电力为10个基本电力单位，生产者每小时生产的电力为100个基本电力单位。每单位电力的不平衡费用为0.1，注意不平衡费用不能设置的过小，防止代理以尽可能低的价格骗取消费者的订阅而不从生产者那里购买电力。此外，考虑到现实中的用户对订阅有一定的惯性，我们设置用户的选择偏好为{35,30,20,10,5}表示35％的可能性消费者选择合同价格最低的订阅，30％的可能性消费者选择合同价格第二低的订阅，以此类推。同时，生产者会按照选择偏好从价格高的开始选择。在实验中，我们也设定了初始的每单位电力的价格，卖出的电价为0.13，收购的电价为0.1。而市场的主观边际利益μ _L设置为0.02。对于运行的时期，我们设置为300，前200个时期为学习阶段，让智能体在此阶段进行学习，后一百个时期为统计阶段，此阶段每个代理的总利润作为最终判断代理算法是否具有竞争力的标准。每个时期有10天，每天24个小时，即每个时期有240个基本时间单元。对于Q-learning，我们采用ε-greedy策略。

Q-网络的实验，对于神经网络的设计，我们设置了包含两个隐藏层的网络。输入层接收状态，为了充分利用环境给予的信息，我们将状态特征设计为上一时刻所有代理的用户合同价格以及智能体代理的用户订阅人数；再加上该时刻所有代理的用户合同价格以及智能体代理的用户订阅人数的信息，一共24个输入单元。输出层有六个输出单元，分别代表六个对价格进行操作的动作，输出的值代表在输入状态下选择该动作然后按照策略继续进行的期望累积奖励。另外，我们使用了XAVIER初始化参数，使用了RMSPROP算法和梯度下降来训练神经网络的参数。此外，我们对整个实验反复运行20轮的每轮总奖励取平均值来确定使用基于Q-network的Q-learning算法的代理在实验中的最终表现，同时与之前的使用基于Q-table的Q-learning算法的代理对比，说明使用Q-network来存储动作值的优缺点。需要说明的是使用Q-table的代理的状态沿用了之前的工作的设置，被设计为上一时刻和这一时刻PRS和PS指标的组合。

表4-1 所有代理20轮实验中每轮实验的平均奖励

表4-2 各自20轮实验中每轮实验的平均奖励

从上面两个表格中我们可以看到，使用Q-learning的代理的竞争力明显强于其他策略的代理，而贪婪策略是除了强化学***衡策略和贪婪策略的代理总收益位居二三位，说明了适应性策略的优越性，而使强化学习算法的代理大幅领先其他代理，说明了从过去学习的优越性。使用Q-network存储过去经验的代理效果又比使用Q-table存储经验的代理效果要好，说明了拥有更加精确的状态表示的重要性。从下图中也可以看到，使用Q-network的代理收益表现更加稳定，基本处在1500000左右，而使用Q-table的代理收益波动比较大，相对来说不是很稳定，如图5所示。

多智体代理的实验，我们也进行了多智体代理的实验，但是首先我们需要修改一些电网环境的配置。首先，因为我们分别设置了两组生产者和两组消费者，所以，为了尽可能的向原有的实验参数靠拢，我们设置了只在白天用电的消费者数量为500，全天用电的消费者数量为500，只在白天用电的消费者一天的用电情况为{0,0,0,0,0,0,10,10,10,10,10,10,10,10,10,10,10,10,0,0,0,0,0,0}，即一天的前六个小时和一天的最后六个小时不用电，全天用电的消费者每小时耗电量为10个电力基本单位。此外，我们设置风力发电的生产者数量为50，设置太阳能发电的生产者数量为50，风力发电为全天发电，每小时的发电量为100个电力基本单位，太阳能发电的全天的发电情况为{0,0,0,0,0,0,100,100,100,100,100,100,100,100,100,100,100,100,0,0,0,0,0,0}。同时，我们轻微调整了不同种类的生产者和消费者的选择偏好。在实验中，为了更好的对比之前的工作，我们使用了Q-table作为存储动作值的结构，同时输入状态相比于之前的工作增加了当前时刻是白天还是黑夜的特征指标。

表4-3 不同种类用户的选择偏好

在实验中，因为改变了实验的外部条件，为了说明“外部竞争，内部合作”的多智体代理效果优于原来的单个智能体代理，我们将多智体代理和单个智能体代理一起放入实验中竞争。反复运行试验取平均值，得到以下结果。

表4-4 多种类用户环境下20轮实验的平均收益

从上述的表格和图6中折线可以看到，多智能体和单智能体代理在竞争中拥有绝对的优势地位，而多智能体又能够在每一轮击败单智能体，说明了相比于单智能体的代理，多智能体的代理更加适应市场，拥有更强的竞争力。同时我们看到各代理的总收益相比于4.2节的实验有很大幅度的提升，我们猜想是因为我们将原有实验中的固定价格策略的代理移除，而增加了一个能够适应环境，调整价格来平衡供需的多智体代理，使得整个市场由能够平衡供需的代理主导，相比于上一节中的实验，整个智能电网市场的电量供需平衡得到保障，代理的不平衡费用大大减少，从而整体的总收益水平得到提升。

为了验证“内部合作”的设计思想起到了作用，我们通过将每个代理的奖励函数分别设为本代理的整体奖励函数

和我们设计的奖励函数

进行实验，在分别进行10轮实验后，我们发现使用我们设计的单体奖励函数获得的平均总收益比直接使用整体奖励函数获得的平均总收益要高出23.37％，说明了单体奖励函数比整体奖励函数效果更好，使得每个智能体同时考虑到了自身的利益和整体的利益，最大化基于整体利益的自身利益，比只考虑整体的利益的方式更加灵活，更加有针对性。

[根据细则91更正 03.01.2019]　
真实数据模拟情况下的多智体代理的实验，首先，我们对数据清洗之后的用户进行聚类，根据其他经验数据将用户分成5类，人数分布为{215；97；317；274；79}。得到的用电曲线如图7、9-13所示。

从图中可以看出每一类用户用电曲线差异很大，这对我们的代理造成了巨大挑战。此外，为了更加真实的建模用户，我们还对电网中用户的选择模型进行了建模，根据电网中用户的依赖性这一普遍特征，我们为每位用户分配了一定范围内随机的心理价格，当用户上次签约的代理本次出价优于用户的心理预期时，用户会选择续约；否则用户会根据价格优劣重新排序按一定概率选择电力合同。

表4-1 用户电价选择模型

我们选择了伦敦家庭用户电力数据中2013年度2月份的数据作为消费者的用电数据，为了保证整体的用电供需平衡，我们还指定了两类生产者分别承担一半的发电任务。尽管***总体的电力供需是平衡的，由于每一个消费者的用电行为不尽相同，同时每个用户的选择行为也不尽相同，时刻平衡代理自身内部的供需平衡是非常困难的。用户心理价格随机范围为[0.10,0.15]，训练周期为50，评估周期为10，时序状态的长度为3。最终评估时期的收益如图8所示。

探讨了智能电网零售市场中零售代理的定价问题。我们首先将DRL应用于零售代理设计中以解决离散状态空间问题，并使用LSTM和基于DTW的聚类机制来加强我们的代理是它更好的应用与实际环境。通过集群客户，我们设计了一个具有独特激励函数的合作式多智能体深度强化学习的代理框架。最后，我们通过引入伦敦市家庭用电量数据，验证了我们的代理框架在复杂环境下的适应能力和强大竞争力。作为未来的工作，我们将探索将更先进的DRL技术(例如actor-critic算法)应用到我们的零售代理设计中以产生更有效的定价策略。

此外，通过考虑实际的小规模发电数据和家用电力存储设备，可以进一步推广代理机制以获得更真实的智能电网。电网的负载预测也是一个热门研究主题 ^{[29][30][31][32]}，对于未来的工作，我们将会从这方面入手，对用户进行精确的分类和建模分析，让代理自动识别用户的类别，然后让内部的对应的智能体对该用户进行管理。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种基于智能电网的多智能体深度强化学习代理方法，其特征在于，所述多智能体深度强化学习代理方法包括以下步骤：

S1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新；

S2、根据消费者和生产者的种类建立“外部竞争，内部合作”的多智能体代理；

S3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数，其函数式：

其中，C表示消费者所在的类别，P表示生产者所在的类别，
表示代理B _k内部的智能体，i∈{C ₁,C ₂,P ₁,P ₂}，κ _t,C表示某类消费者在时刻t消耗的电量，κ _t,P表示某类生产者在时刻t生产的电量，
是计算单体利润时不平衡部分费用。
根据权利要求1所述的多智能体深度强化学习代理方法，其特征在于，所述步骤S1中还包括以下步骤：

S11、对神经网络的参数进行初始化处理；

S12、在运行周期中对每个周期开始时对状态值进行初始化；

S13、利用概率对状态值进行选择或选择当前状态下动作最大动作值；

S14、执行选择的动作值并获得奖励后进入下一个状态；

S15、计算本次状态对应的标准值对神经网络参数进行更新使得存储的Q(s _t,a _t)接近于y _t。
根据权利要求2所述的多智能体深度强化学习代理方法，其特征在于，所述步骤S15中将动作值存储在参数中，每次进入新的状态仅需将特征值按顺序输入神经网络，能够从神经网络的输出层选择Q(s,a)值最大动作作为接下来的执行动作。
根据权利要求3所述的多智能体深度强化学习代理方法，其特征在于，所述步骤S2中包括以下步骤：

S21、根据消耗电力差异对消费者进行分类；

S22、根据现实中发电情况对生产者进行分类。
根据权利要求4所述的多智能体深度强化学习代理方法，其特征在于，所述步骤S3中通过奖励函数每个智能体在选择动作时在考虑自身利益时同时考虑整体的利益。
根据权利要求5所述的多智能体深度强化学习代理方法，其特征在于，所述消费者根据消耗电力的情况分为白天消耗用户和全天消耗用户。
根据权利要求6所述的多智能体深度强化学习代理方法，其特征在于，所述生产者根据现实中发电情况分为全天发电者和白天发电者。