WO2020000399A1 - 一种基于智能电网的多智能体深度强化学习代理方法 - Google Patents

一种基于智能电网的多智能体深度强化学习代理方法 Download PDF

Info

Publication number
WO2020000399A1
WO2020000399A1 PCT/CN2018/093753 CN2018093753W WO2020000399A1 WO 2020000399 A1 WO2020000399 A1 WO 2020000399A1 CN 2018093753 W CN2018093753 W CN 2018093753W WO 2020000399 A1 WO2020000399 A1 WO 2020000399A1
Authority
WO
WIPO (PCT)
Prior art keywords
agent
action
reinforcement learning
value
neural network
Prior art date
Application number
PCT/CN2018/093753
Other languages
English (en)
French (fr)
Inventor
侯韩旭
郝建业
杨耀东
Original Assignee
东莞理工学院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东莞理工学院 filed Critical 东莞理工学院
Priority to CN201880000858.4A priority Critical patent/CN110945542B/zh
Priority to PCT/CN2018/093753 priority patent/WO2020000399A1/zh
Publication of WO2020000399A1 publication Critical patent/WO2020000399A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Definitions

  • the invention belongs to the technical field of electric power automation control, and particularly relates to a multi-agent deep reinforcement learning agent method based on smart grid.
  • Smart grid refers to the use of a series of digital communication technologies to modernize the grid [1] [2] .
  • a country's economy, national defense security, and even the safety of its residents depend on the reliability of the power grid.
  • the smart grid can not only facilitate users to select the corresponding power package in real time, but also actively allocate power resources to achieve a balanced power supply.
  • the power grid can make real-time adjustments and feedbacks to market fluctuations, realize two-way information communication services and comprehensive power grid status perception, which are important components of 21st century modernization.
  • grid technology was mainly designed to power unidirectionally from large centralized power plants to distributed consumers such as homes and industrial facilities.
  • one of the more popular research topics of smart grids is to predict the power demand of users, so as to adjust the electricity price and bidding strategy in advance to maximize the agency revenue [3] .
  • the agency mechanism is another core of smart grid design.
  • the smart grid makes overall arrangements among local producers, local consumers, large power plants, and other agents, and uses the market's adjustment mechanism to achieve multilateral win-win results.
  • One of the key issues is to realize the two-way communication between the grid and consumers and local small-scale producers of wind and solar power. Reddy et al.
  • a key element of the reinforcement learning framework is the state space, which learns strategies from manually constructed features [4] , but this limits the number of economic signals that the agent can accommodate and also limits the ability of the agent to absorb new signals when the environment changes. ability.
  • Reinforcement learning has been applied to the field of e-commerce to solve many practical problems. The main method is to learn the optimal strategy through interaction between the agent and the environment. For example, Paldo et al. [5] proposed a data-driven approach based on reinforcement learning Method to design e-bidding. In the power sector, reinforcement learning is used to study wholesale market trading strategies [6] or to help establish physical control systems.
  • Examples of power wholesale applications include [7] , which mainly studies bidding strategies for wholesale power auctions, and Ramavajjala et al. [8] studies Next State Policy Iteration (NSPI) as an extension of Least Squares Policy Iteration (LSPI) [9] They also demonstrated the benefits of expanding their commitment to advance delivery of wind power.
  • the physical control applications of reinforcement learning include load and frequency control of the power grid and autonomous monitoring applications, such as [10] .
  • most of the previous work on power grid agents idealized the setting of the power grid environment. On the one hand, a large number of simple settings were used to simulate the complex power grid operation mechanism, and on the other hand, the information provided by the environment was high when designing the algorithm. Abstraction loses many important details and causes inaccurate decisions.
  • retail agents can be viewed as multi-agent systems, as each agent is responsible for pricing a specific category of electricity consumer or producer.
  • each agent is responsible for pricing a specific category of electricity consumer or producer.
  • Wang et al. Assign an independent pricing agent to each customer in their agency framework [23] .
  • the author uses independent reinforcement learning processes for different clients, and treats the profit of the entire agent as an instant return for each agent. It does not distinguish the individual contribution of each agent to the profit of the agent, so it does not motivate the agent to learn the best strategy.
  • Reinforcement learning unlike traditional machine learning, is a process of gradually learning a strategy that maximizes cumulative rewards through continuous interaction with the environment [14] .
  • Reinforcement learning simulates a person's cognitive process. It has a wide range and has been studied in many disciplines, such as game theory and cybernetics.
  • Reinforcement learning allows agents to learn strategies from the environment, which is generally set as a Markov Decision Process (MDP) [15] , and many algorithms use dynamic programming techniques in this setting [16] [17 ] [18] .
  • MDP Markov Decision Process
  • Basic reinforcement learning models include:
  • a series of agent actions A ⁇ a 1 ; a 2 ; ...; an n ⁇ ;
  • An agent based on reinforcement learning communicates with the environment in discrete time steps. As shown in Figure 2-1, at each time t, the agent obtains an observation that usually includes the reward r t at this time, and then selects an action a from the optional actions. The next action acts on the environment, and the environment is under action. Reaching a new state s t + 1 , the agent gets a reward t t + 1 at a new moment, and iterates. Multi-agents based on reinforcement learning gradually learn a strategy ⁇ that maximizes cumulative rewards in interaction with the environment: S ⁇ A. In order to learn near-optimal, the agent must learn the adjustment strategy for a long time. The basic setting and learning process of reinforcement learning is very suitable for the field of power grids.
  • V ⁇ (s) E [R
  • R represents the random reward obtained by following the strategy ⁇ from the initial state s.
  • V * (s) as the largest possible value of V ⁇ (s):
  • V * (s) max ⁇ V ⁇ (s) (2-2)
  • the optimal strategy The strategy that can achieve these optimal values in each state is called the optimal strategy.
  • the state value is sufficient to define the optimal, it is also useful to define the action value.
  • the action value of the (s, a) pair under the strategy ⁇ is defined as:
  • R represents the cumulative reward obtained by taking action a and then following strategy ⁇ in state s. From the theory of MDP, if the Q value of the optimal strategy is given, then we can always determine the optimal action by simply selecting the action with the highest value in each state. The action value function of such an optimal strategy is expressed as Q * . Knowing the optimal action value is enough to know how to achieve the optimal.
  • ⁇ t is the learning rate
  • r t is the reward at the current moment
  • is the discount factor.
  • Artificial neural networks are computational models used in machine learning, computer science, and other research areas [19] [20] . Artificial neural networks are based on a large number of interconnected basic units-artificial neurons.
  • a network in a neural network represents the connection of artificial neurons between different layers in each system.
  • a typical artificial neural network is defined by three types of parameters:
  • Weights in these connections weights can be upgraded later in the learning process
  • An activation function that converts a neuron's weighted input to its output activation.
  • a function f (x) represented by a neural network is defined as a combination of other functions g i (x). It can be conveniently expressed as a network structure with arrows describing dependencies between variables.
  • One widely used form is the sum of nonlinear weights:
  • K represents the activation function.
  • the most important property of the activation function is that it can provide a smooth transformation when the input value changes, such as a small change in the input causes a small change in the output. This way, based on the weights in the connection, the input is continuously adjusted until the output is finally formed. But such output is usually not what we want, so we also need neural networks to learn.
  • the most attractive thing about neural networks is the possibility of learning. Given a specific task to be learned and the objective function set F to learn, learning means to find a function f * in F as a solution to the task through a series of observations. In this way, we define a loss function C: For the optimal function f * , no other solution has a loss function value smaller than f * :
  • the loss function is minimized on some samples of the data, rather than on the theoretical distribution of the entire data set.
  • the value of the sample-based loss function is minimized, we find the optimal parameters of the neural network on these samples.
  • each feature representing the state space can be directly used as an input to the neural network.
  • each state stores a row of values representing the estimated cumulative reward of each action in that state.
  • Each node in the output layer of the neural network represents an action, and the output value of each node is in the input state.
  • the estimated cumulative value Q (s, a i ) of this action under S.
  • the parameters in the neural network can be upgraded according to Q (s, a) already stored in the artificial neural network and the reward r t at the present moment.
  • Q (s, a) already stored in the artificial neural network and the reward r t at the present moment.
  • the agent is in the state s t .
  • action a t After it selects action a t according to the strategy, it enters the next state s t + 1 and gets a reward r t .
  • Q (s t , a t ) should be upgraded to the updated part r t + max a ′ Q (s ′, a ′) in Q-learning:
  • Li, H, Z, Li, C, J, et al. A hybrid, power, loading, forecasting, model based, generalized, regression, neural network, with fruit, fly optimization, algorithm [J]. Knowledge-Based, Systems, 2013, 37: 378- 387.
  • the purpose of the present invention is to provide a multi-agent deep reinforcement learning agent method based on smart grid, which aims to solve the problem of infinite state space of agents.
  • the present invention is implemented as such, a multi-agent deep reinforcement learning agent method based on smart grid, the multi-agent deep reinforcement learning agent method includes the following steps:
  • C represents the category of consumers
  • P represents the category of producers.
  • C represents the power consumed by a certain type of consumer at time t
  • ⁇ t P represents a certain type of producer
  • the amount of electricity produced at time t It is the unbalanced cost when calculating the single profit.
  • step S1 further includes the following steps:
  • a further technical solution of the present invention is that the action value is stored in the parameter in the step S15, and each time a new state is entered, only the characteristic values need to be input into the neural network in order, and Q (s, a) The maximum value action is taken as the next execution action.
  • step S2 includes the following steps:
  • S21 classify consumers according to the difference in power consumption
  • a further technical solution of the present invention is: in the step S3, each agent considers its own interests while considering its own interests when selecting an action through a reward function.
  • the consumer is divided into a day-consuming user and a full-day consumer according to the power consumption situation.
  • the producer is divided into an all-day power generator and a day-time power generator according to the actual power generation situation.
  • the beneficial effect of the present invention is that the input layer of the neural network can accept direct input of the values that characterize the state, and Q-table needs to discretize the feature values to reduce the state space.
  • Figure 1 is a schematic diagram of a classic scenario of reinforcement learning.
  • FIG. 2 is a neural network including a hidden layer provided in an embodiment of the present invention.
  • the first layer has neurons that transmit data to synapses to the second layer neurons, and the second layer neurons pass to the third layer neurons through the synapses.
  • Synapses store schematics of parameters called weights that manipulate data in calculations.
  • Figure 3 is a schematic diagram of a proxy framework.
  • Figure 4 is a schematic diagram of cyclic DQN.
  • Figure 5 is a schematic diagram of the distribution of benefits in each of the 20 experiments.
  • FIG. 6 is a schematic diagram of the distribution of the benefits of each round of experiments in 20 rounds of experiments under a variety of user environments.
  • FIG. 7 is a graph 1 of electricity consumption of different types of users.
  • Figure 8 is a schematic diagram of the agency benefits during the evaluation period.
  • FIG. 9 is a second graph of power consumption of different types of users.
  • FIG. 10 is a third graph of electricity consumption of different types of users.
  • FIG. 11 is a graph 4 of electricity consumption of different types of users.
  • FIG. 12 is a graph 5 of electricity consumption of different types of users.
  • FIG. 13 is a sixth diagram of power consumption curves of different types of users.
  • the smart grid set in the local market is basically the same as in [4] , and only the second improvement will be targeted at the types of consumers and producers and the way of producing / using electricity.
  • In the local market there are consumers who consume electricity and small producers who produce electricity, and there are several agents that buy and sell electricity between consumers and small producers.
  • the need to set up an agency is because direct coordination between small producers and consumers is inconvenient. Through the intermediate link of the agency, not only can power users buy and sell electricity, but it can also better coordinate resources and ensure the supply and demand balance of power resources. .
  • the specific form of the agent is to issue a contract to all producers and consumers each hour. All users choose contracts from different agents. Each agent can know the contract prices of other agents at this moment and the number of producers. And consumers choose their own contract.
  • the agent adjusts its contract price at the next moment according to the contract price of the contract subscription and other agents to maximize its own profit.
  • every hour is used as the basic time unit, the agent and the environment interact once, and the user subscribes to the contract.
  • the agent B k holds the number of producers and consumers who subscribe to himself: with For convenience, we assume that the electricity consumed by each consumer at each time t is ⁇ t, C , and the electricity produced by each producer at each time is ⁇ t, P. Finally, we set the unbalanced cost per unit of electricity at time t as ⁇ t . At this time, the calculation of the reward of the agent B k at time t is clear:
  • PRS PriceRangeStatus
  • ⁇ L is a subjective value representing the agent's expectation of the market's marginal benefits.
  • B L represents the agent itself.
  • the second indicator, PortfolioStatus (PS) indicates whether the agent itself has achieved a balance between supply and demand.
  • PS PortfolioStatus
  • A ⁇ Maintain, Lower, Raise, Revert, Inline, MinMax ⁇
  • ⁇ Maintain means maintaining the price of the previous moment
  • ⁇ Lower is reduced by 0.01 on the basis of the price of producer and consumer at time t;
  • MinMax sets new producer and consumer prices as
  • the setting of several fixed strategy competition agents For comparison and verification, we design several fixed strategy agents.
  • the balancing strategy attempts to reduce the supply imbalance by adjusting the contract prices of producers and consumers. When it sees excess demand, it raises the contract prices of producers and consumers, and when it sees excess supply, it reduces producers and consumers. Contract price.
  • the greedy strategy attempts to maximize profit by increasing the profit margin, that is, maximizing the difference between the contract price of the consumer and the producer when the market is rational. Both strategies can be characterized as adaptive because they respond to market and portfolio conditions, but they do not learn from the past.
  • we also design two non-adaptive agents a fixed strategy agent has always maintained a certain price; a random agent, each time the price adjustment is randomly selected one of six actions.
  • the first line of the algorithm initializes the parameters of the neural network.
  • the second line indicates that the experiment will run for M cycles.
  • the third line indicates that the state value will be initialized at the beginning of each cycle.
  • the fifth and sixth lines indicate that random selection is performed with a certain probability. Otherwise, the maximum action value in the current state is selected. That action.
  • the seventh line indicates that the selected action is performed, then the reward is obtained and the next state is entered.
  • the eighth line calculates the standard value of the corresponding action in this state, and the ninth line indicates that the parameters of the neural network will be updated according to the value calculated in the eighth line, so that the stored Q (s t , a a ) is close to y t .
  • the original method of unified price adjustment by one agent is a bit inapplicable. Therefore, we propose a new multi-agent agent of “external competition and internal cooperation”. That is, the agent behaves as an agent in external competition, but internally it is actually a multi-agent agent that sets up an agent for each type of user. Multi-agents can coordinate with each other and cooperate with each other [24] [25] [26] [27] [28] . Such a multi-agent framework can be more suitable for power grids with particularly complicated external environments. Under the premise of the original grid rules, users can more specifically adjust the contract price of the user to maximize their own profits.
  • this multi-agent is represented as an agent on the outside, there are four different agents inside, and how to ensure that these agents achieve mutual cooperation internally is a question that needs to be considered.
  • the interests of other internal agents also need to be considered. So we redesigned the reward function of each internal agent:
  • C represents the category of consumers
  • P represents the category of producers.
  • C represents the electricity consumed by a certain type of consumer at time t
  • ⁇ t P represents the electricity produced by a certain type of producer at time t. and It is the unbalanced cost when calculating the single profit.
  • Multi-agent agent framework simulated by real data.
  • DTW dynamic time warping
  • LSTM long-term memory
  • the setting of experimental parameters in addition to the parameters in the method definition, also has many parameters in the experimental run.
  • Our experiment has a total of five agents, which are agent agent, balance policy agent, and greedy policy agent. , Fixed-price agents and randomly acting agents.
  • the number of consumers in the local power grid market is set to 1,000, the number of producers is set to 100, consumers consume 10 basic power units per hour, and producers produce 100 basic power units per hour.
  • the unbalanced cost per unit of electricity is 0.1. Note that the unbalanced cost cannot be set too small to prevent agents from tricking consumers into subscribing for the lowest possible price without purchasing electricity from the producer.
  • the total profit of each agent at this stage is the final judgment of the agent algorithm.
  • Competitive standards Each period has 10 days and 24 hours a day, which means that there are 240 basic time units in each period.
  • Q-learning we adopt the ⁇ -greedy strategy.
  • the input layer receives the status.
  • the status feature as the user contract price of all agents and the number of user subscriptions of the agent at the previous moment; plus the user contract price and intelligence of all agents at the moment Information on the number of users subscribed to the agent, a total of 24 input units.
  • the output layer has six output units, each representing six actions that operate on the price, and the output value represents the expected cumulative reward for selecting the action in the input state and then proceeding according to the strategy.
  • we used XAVIER initialization parameters and used the RMSPROP algorithm and gradient descent to train the parameters of the neural network.
  • Table 4-1 The average reward of each round of experiments for all agents in 20 rounds of experiments
  • the agent using Q-learning is significantly more competitive than the agents with other strategies, and the greedy strategy is the only agent with a positive total return except the reinforcement learning agent, with the least total return. It is an agent with a fixed strategy, because its price will never change, so it can be easily defeated, and the total revenue of the agent using the balanced strategy and the greedy strategy ranks two or three, which shows the superiority of the adaptive strategy and makes The agents of reinforcement learning algorithms are significantly ahead of other agents, illustrating the superiority of learning from the past.
  • the proxy effect of using Q-network to store past experience is better than the proxy effect of using Q-table to store experience, which illustrates the importance of having a more accurate state representation. It can also be seen from the figure below that the performance of the agent income using Q-network is more stable, which is basically around 1.5 million, while the agent income using Q-table has relatively large fluctuations, which is relatively unstable, as shown in Figure 5. .
  • Multi-agent agent experiments we also conducted multi-agent agent experiments, but first we need to modify the configuration of some grid environments.
  • the number of consumers is 500, and the electricity consumption of consumers who only use electricity during the day is ⁇ 0,0,0,0,0,0,10,10,10,10,10,10,10,10 ,10 , 10,10,10,0,0,0,0,0 ⁇ , that is, the first six hours of the day and the last six hours of the day do not use electricity. Consumers who use electricity throughout the day consume electricity per hour.
  • multi-agent and single-agent agents have an absolute advantage in the competition, and multi-agents can beat single-agents in each round, indicating that compared to Agents with single agent and agents with multiple agents are more adaptable to the market and have stronger competitiveness.
  • the total revenue of each agent has been greatly improved compared to the experiment in Section 4.2.
  • Multi-agent agents that adjust prices to balance supply and demand, so that the entire market is dominated by agents that can balance supply and demand. Compared to the experiments in the previous section, the electricity supply and demand balance in the entire smart grid market is guaranteed, and the unbalanced cost of agents is greatly reduced. , Thereby improving the overall level of total revenue.
  • the agency mechanism can be further promoted to obtain a more realistic smart grid.
  • Load forecasting of the power grid is also a hot research topic [29] [30] [31] [32] .

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明适用于电力自动化控制技术领域,提供了一种基于智能电网的多智能体深度强化学习代理方法,包括:S1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新;S2、根据消费者和生产者的种类建立"外部竞争,内部合作"的多智能体代理;S3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数。神经网络的输入层可以接受刻画状态的特征的值的直接输入,而 Q-table 需要将特征值离散化来减小状态空间。

Description

一种基于智能电网的多智能体深度强化学习代理方法 技术领域
本发明属于电力自动化控制技术领域,尤其涉及一种基于智能电网的多智能体深度强化学习代理方法。
背景技术
智能电网是指使用一系列数字化通讯技术实现电网现代化 [1][2]。一个国家的经济、国防安全甚至居民的安全都依赖于电网的可靠性,在实际运行中,智能电网不仅能够方便用户实时选择相应的电力套餐,还能够积极调配电力资源,实现电力的平衡供应。电网能够对市场波动做出实时调整与反馈,实现双向的信息沟通服务和全面的电网状况感知,是21世纪现代化的重要组成部分。
以前电网技术主要设计为单向地从大型集中式发电厂向家庭和工业设施等分布式的消费者供电。最近,智能电网一个比较热门的研究主题便是预测用户的电力需求,从而预先调整电价和竞购策略实现代理收益的最大化 [3]。同时,代理机制也是智能电网设计的另一个核心,通过代理机制,智能电网在本地生产者、本地消费者、大型发电厂和其他代理之间统筹安排,运用市场的调节机制,实现多方共赢。而其中的一个关键性问题就是实现电网在消费者和本地的风力发电和太阳能发电的小型生产者之间的双向交流,Reddy等人 [4]最早提出了使用强化学习框架来为本地电网设计代理作为这个问题的解决方案。强化学习框架的一个关键性的要素是状态空间,从手工构造的特征中学习策略 [4],但是这样限制了代理能够容纳的经济信号的数量,也限制了环境改变时代理吸收新的信号的能力。强化学习已经被运用到电子商务领域来解决很多实际问题,主要做法是通过智能体与环境交互学习最优的策略,例如帕尔多等人 [5]就基于强化学习的提出了一种数据驱动的方法来设计电子竞拍。在电力领域,强化学习被用来研究批发市场交易策略 [6]或者帮助建立物理控制***。电力批发应用的例子包括 [7],主要研究了电力批发拍卖的竞价策略,而Ramavajjala等人 [8]研究Next State Policy Iteration(NSPI)作为对Least Squares Policy Iteration(LSPI) [9]的扩展,并展示了他们拓展对风力发电预先交付承诺问题的好处。强化学习的物理控制应用包括电网的负载和频率控制以及自主监控应用,例如 [10]。但是,之前关于电网代理的工作大多对电网环境的设定较为理想化,一方面是使用 了大量的简单设定来模拟复杂的电网运行机制,另一方面在设计算法时对环境提供的信息高度抽象,损失了许多重要的细节,造成决策的不精确。
另一方面,智能电网中的客户表现出各种电力消耗或生产模式。这表明我们需要为不同类型的客户制定不同的定价策略。遵循这个想法,零售代理可以被视为多智能体***,因为每个代理负责为特定类别的电力消费者或生产者定价。例如,Wang等人在其代理框架为每种客户分配一个独立的定价代理 [23]。然而,作者为不同的客户使用独立的强化学习过程,并将整个智能体的利润视为每个代理的即时回报。它并不区分每个智能体对代理利润的单独贡献,因此不会激励代理去学习最佳策略。
强化学习,和传统的机器学习不同,是在一种通过不断的与环境交互来逐渐学习到某种让累积奖励最大化的策略的过程 [14]。强化学习模拟人的认知过程,具有广泛性,在许多学科中被研究,比如博弈论和控制论。强化学习让智能体从环境中学习策略,而环境一般被设定为一个马尔科夫决策过程(MDP) [15],同时许多算法在这个设定中运用了动态规划的技术 [16][17][18]
基本的强化学习模型包括:
一系列的环境和智能体状态S={s 1;s 2;…;s n};
一系列的智能体动作A={a 1;a 2;…;a n};
描述状态之间转移函数δ(s,a)→s′;
奖励函数r(s,a)。
在许多工作中,如果智能体被假定能够观察到现在时刻的环境状态,称之为全部可观察,反之即为部分可观察。一个基于强化学习的智能体在离散的时间步中和环境交流。如图2-1,在每次时刻t,智能体获得一个通常包括这个时刻奖励r t的观察,然后从可选的动作中选择一个动作a,接下来这个动作作用于环境,环境在作用下到达一个新的状态s t+1,智能体获得新的时刻的奖励t t+1,周而复始。基于强化学习的多智体在与环境交互中逐渐学习到使得累积奖励最大化的策略π:S→A。为了学习到接近最优,智能体必须长时间地学习调整策略。强化学习的基本设定和学习过程非常适用于电网领域。
关于如何找到最优策略,我们在这里介绍值函数方法。值函数方法试图通过维持对一些策略的一系列期望回报的估计找到一种策略最大化回报。为了正式定义最优,我们定义一种策略的值为:
V π(s)=E[R|s,π]     (2-1)
R代表从初始状态s开始遵循策略π获得的随机回报。定义V *(s)作为V π(s)的最大的可能值:
V *(s)=max πV π(s)     (2-2)
能够在每一个状态实现这些最优值的策略称之为最优策略。虽然状态值足够定义最优,定义动作值也是有用的。给定一个状态s,一个动作a和一个策略π,在策略π下的(s,a)对的动作值被定义为:
Q π(s,a)=E[R|s,a,π]  (2-3)
R代表的是在状态s下先采取动作a再遵循策略π获得的累积奖励。从MDP的理论中可知,如果给定最优策略的Q值,那我们总是可以通过简单的选择每次状态中值最高的动作来确定最优动作。这样的最优策略的动作值函数被表示为Q *。知道最优动作值就足够知道如何实现最优。
当环境的转移函数和奖励函数都是未知的时候,我们可以使用Q-learning来升级动作值函数:
Q t(s,a)←(1-α t)Q t-1(s,a)+α t[r t+γmax a′Q t-1(s′,a′)  (2-4)
其中,α t是学习率,r t是当前时刻的奖励,γ是折扣因子。每一次与环境交互,升级一次当前的动作值Q t(s,a),保留一部分上一时刻的该状态和动作下的Q值,根据获得的当前时刻的奖励和到达的新的状态重新计算Q(s,a),和之前的部分经验一起组合作为该时刻新的动作值。
人工神经网络,是一种是用在机器学习、计算机科学和其他研究领域中的计算模型 [19][20]。人工神经网络基于大量相互连接的基本单元—人工神经元。
一般地,每一层的人工神经元相互连接,信号从第一层输入层输入,到最后一层输出层输出。现在的深度学习项目一般有上千到上百万个神经节点和数以百万计的连接。人工神经网络的目标是以像人类一样的方式解决问题,虽然有些种类的神经网络更加抽象。神经网络中的网络表示每个***中不同层之间人工神经元的连接。一个典型的人工神经网络由三种类型的参数定义:
不同层神经元的连接方式;
这些连接中的权重,权重可在后面的学习过程中升级;
将一个神经元的加权输入转换为它的输出激活的激活函数。
数学上,一个神经网络代表的函数f(x)被定义为其他函数g i(x)的组合。可以方便地表示为用箭头描述变量间的依赖的网络结构。一种广泛使用的 形式是非线性权重加和:
f(x)=K(∑ iw ig i(x))  (2-5)
其中,K表示激活函数。激活函数的最重要的性质是当输入值改变时它能提供平滑的变换,比如输入的小改变引起输出的小改变。这样,根据连接中的权重,输入会不断调整直到最后形成输出。但是这样的输出通常不是我们想要的结果,所以我们还需要神经网络进行学习。而神经网络最吸引人的便是学习的可能性。给定一个需要学习的特定任务,和学习的目标函数集F,学习就是意味着通过一系列的观察来找到一个F中的函数f *来作为任务的解决方案。这样,我们定义一个损失函数C:
Figure PCTCN2018093753-appb-000001
对于最优的函数f *,没有其他的解决方案的有比f *还小的损失函数值:
Figure PCTCN2018093753-appb-000002
损失函数是学习的重要概念,它是对一个特定的解决方案离最优的解决方案距离的度量方式。而学习的过程就是搜索问题的解决空间来找到拥有最小损失函数值的函数。对于解决方案需要在数据中寻找的应用问题,损失必须是这些实际观察到的样本的函数。损失函数通常被定义为统计量,因为一般只能统计观察到的样本进行评估。所以,对于要找到模型函数f的问题,就是最小化损失函数C=E[(f(x)-y) 2],其中,数据对(x,y)来自于某些分布D。在实际的应用中,我们通常只有N个有限的样本,所以我们只能最小化
Figure PCTCN2018093753-appb-000003
Figure PCTCN2018093753-appb-000004
因此,损失函数是在数据的一些样本上最小化的,而不是在整个数据集的理论分布上最小。当把基于样本的损失函数值最小化,我们就求出了神经网络在这些样本上的最优参数。
Q-网络,既然神经网络可以作为函数的拟合,那么强化学习中Q值函数也可以用神经网络拟合 [21][22],这样做有一个很大的好处就是,传统的Q-table的状态空间必须是有限而且不能过大的,这样,我们才能使用Q-table来存储状态动作对的值,而使用Q-network,我们不必考虑状态空间的离散化,只需要将代表状态的特征值直接输入到神经网络即可,让网络中的参数来拟合Q值函数,这样,状态空间无限大的问题就自然解决了。但是,和传统的神经网络应用不同,强化学习不是一开始就有那么多的样本,而是通过不断与环境交互获得新的奖励和观察,同时,强化学习也没有样本的标 注作为判断模型是否输出准确的判定依据。但是,如果我们抛开神经网络的传统应用,单从神经网络本身的函数拟合功能来看,把神经网络当作类似Q-table一样储存Q(s,a)的工具,智能体每与环境交互一次,我们就可以像更新Q-table一样更新神经网络中的参数使其输出的Q(s,a)靠近当前认为的值。
现在我们考虑如何设计Q-网络的输入输出和损失函数,使其在功能上和Q-table相同。首先,输入仍然是状态S,但是,不用像传统的强化学习一样将状态空间从无限大离散到有限个,代表状态空间的每个特征的都可以直接作为神经网络的一个输入。同时,类似于Q-table对每个状态都存储一行值代表该状态下每种动作的估计累积奖励,神经网络输出层的每一个节点都代表一个动作,每个节点的输出值就是在输入状态S下该动作的估计累积值Q(s,a i)。通过这样设计神经网络的输入层和输出层,我们让神经网络实现了存储Q(s,a)的功能。同时我们还需要考虑如何对人工神经网络的参数进行更新,根据损失函数的定义,我们并没有现成的对用输入状态的标记y i,但是,根据对Q-learning对动作值的升级公式,我们可以根据已经在人工神经网络中存储的Q(s,a)和现在时刻的奖励r t来升级神经网络中的参数。比如现在时刻t,智能体处在状态s t下,当它根据策略选定动作a t之后,进入下一个状态s t+1并获得奖励r t。现在,当我们升级神经网络中的参数时,我们希望Q(s t,a t)应该升级为Q-learning中的更新部分r t+max a′Q(s′,a′):
C=[Q t(s t,a t)-(r t+max a′Q t-1(s t+1,a′))] 2  (2-8)
即使让当前时刻的动作值趋近于更新部分。同样,更新的时候会设定学习速率。这样,使用Q-网络存储更新动作值的过程和直接使用Q-table一样,唯一的不同是神经网络的输入层可以接受刻画状态的特征的值的直接输入,而Q-table需要将特征值离散化来减小状态空间。
参考文献
[1]M.Amin and B.Wollenberg.Toward a smart grid:Power delivery for the 21 st century.IEEE Power and Energy Magazine,3(5):3441,2005.
[2]C.Gellings,M.Samotyj,and B.Howe.The future’s power delivery system.IEEE Power Energy Magazine,2(5):4048,2004.
[3]Wang X,Zhang M,Ren F.Load Forecasting in a Smart Grid through Customer Behaviour Learning Using L1-Regularized Continuous Conditional Random Fields[C].Proceedings of the 2016  International Conference on Autonomous Agents & Multiagent Systems.International Foundation for Autonomous Agents and Multiagent Systems,2016:817-826.
[4]Reddy P P,Veloso M M.Strategy learning for autonomous agents in smart grid markets[J].2011.
[5]Pardoe D,Stone P,Saar-Tsechansky M,et al.Adaptive Auction Mechanism Design and the Incorporation of Prior Knowledge[J].INFORMS Journal on Computing,2010,22(3):353-370.
[6]Babic J,Podobnik V.An analysis of power trading agent competition 2014[M].Agent-Mediated Electronic Commerce.Designing Trading Strategies and Mechanisms for Electronic Markets.Springer International Publishing,2014:1-15.
[7]Petrik M,Taylor G,Parr R,et al.Feature Selection Using Regularization in Approximate Linear Programs for Markov Decision Processes[J].Computer Science,2010.
[8]Ramavajjala V,Elkan C.Policy iteration based on a learned transition model[C].European Conference on Machine Learning and Knowledge Discovery in Databases.Springer-Verlag,2012:211-226.
[9]Lagoudakis M G,Parr R.Least-squares policy iteration[M].JMLR.org,2003.
[10]Venayagamoorthy G K.Potentials and promises of computational intelligence for smart grids[C].Power & Energy Society General Meeting,2009.PES'09.IEEE.IEEE,2009:1-6.
[11]***[EB/OL]. https:.en.wikipedia.org/wiki/Smart_grid
[12]EPRI[EB/OL]. https:.www.epri.com/#/about/epri
[13]Kintner-Meyer M C,Chassin D P,Kannberg L D,et al.GridWise:The benefits of a transformed energy system[J].Pacific Northwest National Laboratory under contract with the United States Department of Energy,2008:25.
[14]Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge:MIT press,1998.
[15]Littman M L.Markov games as a framework for multi-agent reinforcement learning[C].Proceedings of the eleventh international conference on machine learning.1994,157:157-163.
[16]Lewis F L,Vrabie D.Reinforcement learning and adaptive dynamic programming for feedback control[J].IEEE circuits and systems magazine,2009,9(3).
[17]Busoniu L,Babuska R,De Schutter B,et al.Reinforcement learning and dynamic programming using function approximators[M].CRC press,2010.
[18]Szepesvári C,Kioloa M.Reinforcement learning:dynamic programming[J].University of Alberta,MLSS,2008,8.
[19]***[EB/OL]. https:en.wikipedia.org/wiki/Artificial_neural_network
[20]Wang S C.Artificial neural network[M].Interdisciplinary computing in java programming.Springer  US,2003:81-100.
[21]Mnih V,Kavukcuoglu K,Silver D,et al.Playing Atari with Deep Reinforcement Learning[J].Computer Science,2013.
[22]Huang B Q,Cao G Y,Guo M.Reinforcement learning neural network to the problem of autonomous mobile robot obstacle avoidance[C].Machine Learning and Cybernetics,2005.Proceedings of 2005 International Conference on.IEEE,2005,1:85-89.
[23]DoE[EB/OL].http:.www.eia.doe.gov,2010.
[24]Olfati-Saber R,Fax J A,Murray R M.Consensus and cooperation in networked multi-agent systems[J].Proceedings of the IEEE,2007,95(1):215-233.
[25]Ferber J.Multi-agent systems:an introduction to distributed artificial intelligence[M].Reading:Addison-Wesley,1999.
[26]Littman M L.Markov games as a framework for multi-agent reinforcement learning[C].Proceedings of the eleventh international conference on machine learning.1994,157:157-163.
[27]Tan M.Multi-agent reinforcement learning:Independent vs.cooperative agents[C].Proceedings of the tenth international conference on machine learning.1993:330-337.
[28]Wiering M.Multi-agent reinforcement learning for traffic light control[C].ICML.2000:1151-1158.
[29]Hernández L,Baladron C,Aguiar J M,et al.A multi-agent system architecture for smart grid management and forecasting of energy demand in virtual power plants[J].IEEE Communications Magazine,2013,51(1):106-113.
[30]Niu D,Wang Y,Wu D D.Power load forecasting using support vector machine and ant colony optimization[J].Expert Systems with Applications,2010,37(3):2531-2539.
[31]Li H Z,Guo S,Li C J,et al.A hybrid annual power load forecasting model based on generalized regression neural network with fruit fly optimization algorithm[J].Knowledge-Based Systems,2013,37:378-387.
[32]Gong S,Li H.Dynamic spectrum allocation for power load prediction via wireless metering in smart grid[C].Information Sciences and Systems(CISS),2011 45th Annual Conference on.IEEE,2011:1-6
[33]Xishun Wang,Minjie Zhang,and Fenghui Ren.A hybrid-learning based broker model for strategic power trading in smart grid markets.Knowledge-Based Systems,119,2016.
[34]Electricity consumption in a sample of london households,2015. https://data.london.gov.uk/dataset/smartmeter-energyuse-data-in-london-households.
[35]S Hochreiter and J Schmidhuber.Long short-term memory.Neural Computation,9(8):1735–1780, 1997.
发明内容
本发明的目的在于提供一种基于智能电网的多智能体深度强化学习代理方法,旨在解决代理的状态空间无限大的问题。
本发明是这样实现的,一种基于智能电网的多智能体深度强化学习代理方法,所述多智能体深度强化学习代理方法包括以下步骤:
S1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新;
S2、根据消费者和生产者的种类建立“外部竞争,内部合作”的多智能体代理;
S3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数,其函数式:
Figure PCTCN2018093753-appb-000005
Figure PCTCN2018093753-appb-000006
其中,C表示消费者所在的类别,P表示生产者所在的类别,
Figure PCTCN2018093753-appb-000007
表示代理B k内部的智能体,i∈{C 1,C 2,P 1,P 2},κ t,C表示某类消费者在时刻t消耗的电量,κ t,P表示某类生产者在时刻t生产的电量,
Figure PCTCN2018093753-appb-000008
是计算单体利润时不平衡部分费用。
本发明的进一步技术方案是:所述步骤S1中还包括以下步骤:
S11、对神经网络的参数进行初始化处理;
S12、在运行周期中对每个周期开始时对状态值进行初始化;
S13、利用概率对状态值进行选择或选择当前状态下动作最大动作值;
S14、执行选择的动作值并获得奖励后进入下一个状态;
S15、计算本次状态对应的标准值对神经网络参数进行更新使得存储的Q(s t,a t)接近于y t
本发明的进一步技术方案是:所述步骤S15中将动作值存储在参数中,每次进入新的状态仅需将特征值按顺序输入神经网络,能够从神经网络的输出层选择Q(s,a)值最大动作作为接下来的执行动作。
本发明的进一步技术方案是:所述步骤S2中包括以下步骤:
S21、根据消耗电力差异对消费者进行分类;
S22、根据现实中发电情况对生产者进行分类。
本发明的进一步技术方案是:所述步骤S3中通过奖励函数每个智能体在选择动作时在考虑自身利益时同时考虑整体的利益。
本发明的进一步技术方案是:所述消费者根据消耗电力的情况分为白天消耗用户和全天消耗用户。
本发明的进一步技术方案是:所述生产者根据现实中发电情况分为全天发电者和白天发电者。
本发明的有益效果是:神经网络的输入层可以接受刻画状态的特征的值的直接输入,而Q-table需要将特征值离散化来减小状态空间。
附图说明
图1是强化学习的一个经典情景示意图。
图2是本发明实施例提供的含有一个隐藏层的神经网络,第一层有通过突触向第二层神经元传递数据的神经元,第二层神经元又通过突触向第三层神经元传递数据。突触存储叫做权重的在计算中操纵数据的参数的示意图。
图3是代理框架示意图。
图4是循环DQN示意图。
图5是20轮实验中每轮实验的收益分布示意图。
图6是多种类用户环境下20轮实验中每轮实验的收益分布示意图。
[根据细则91更正 03.01.2019] 
图7是不同种类用户用电曲线图一。
图8是评估时期的代理收益示意图。
[根据细则91更正 03.01.2019] 
图9是不同种类用户用电曲线图二。
[根据细则91更正 03.01.2019] 
图10是不同种类用户用电曲线图三。
[根据细则91更正 03.01.2019] 
图11是不同种类用户用电曲线图四。
[根据细则91更正 03.01.2019] 
图12是不同种类用户用电曲线图五。
[根据细则91更正 03.01.2019] 
图13是不同种类用户用电曲线图六。
具体实施方式
工作上对代理的谈判算法进行两个方面的改进,一是解决代理的状态空间无限大的问题;二是通过稍微更改本地环境,让情景更加真实,同时相应地提出外部竞争、内部合作的多智体代理设计方式,使其更具竞争力。最后,我们引入了真实的用电数据,同时借助一些先进的时序技术帮助我们的代理框架在更加复杂的环境中学习到有效的定价策略。
所设定的本地市场的智能电网和 [4]中的基本一致,只会在第二种改进中对消费者和生产者的种类和生产/使用电力方式进行针对设计。在本地市场中,有消耗电力的消费者和生产电力的小型生产者,同时存在若干代 理,在消费者和小型生产者之间买卖电力。之所要要设置代理,是因为小型生产者和消费者之间不方便直接协调,通过代理这一中间环节,不仅可以方便电力用户买卖电力,而且可以更好的协调资源,保障电力资源的供需平衡。代理具体的形式为每小时向所有生产者和消费者各发布一个合同,所有用户对来自不同代理的合同进行选择,每个代理都能得知其他代理在这个时刻的合同价格和有多少生产者和消费者选择自己的合同。这样,代理根据合同订阅和其他代理的合同价格调整自己下一时刻的合同价格来实现自身利润的最大化。这样,每个小时作为基本的时间单位,代理和环境进行一次交互,用户进行合同的订阅。
当订阅代理合同的生产者和消费者所需的电力不同时,会出现电力供求的不平衡。此时,我们不通过批发市场来处理电力的差额部分,而设置一个惩罚费用,作为代理出现电力供应不平衡的惩罚。接来下,我们通过定义来更加清晰的刻画这个本地市场。首先,对于电价,我们设定为价格范围为0.01到0.20 [23],最小的价格变化为0.01。每个代理B k(k=1,2,…,K)的在时刻t的出价有两个,一个是对消费者的出价
Figure PCTCN2018093753-appb-000009
另一个是对生产者的出价
Figure PCTCN2018093753-appb-000010
另外,每个时刻t,代理B k都掌握着向自己订阅的生产者和消费者数量:
Figure PCTCN2018093753-appb-000011
Figure PCTCN2018093753-appb-000012
为了方便起见,我们假定每个消费者每个时刻t消耗的电量为κ t,C,而每个生产者每个时刻产生的电量为κ t,P。最后,我们设定时刻t每单位电力的不平衡费用为φ t。此时,计算代理B k在时刻t的奖励就很清楚了:
Figure PCTCN2018093753-appb-000013
这样,我们就大致定义了本地市场的基本运行方式。下面,我们先对两个状态指标的定义进行说明。第一个是判断市场是否合理的指标PriceRangeStatus(PRS),在一个代理看来如果市场是合理的,那么必须满足:
Figure PCTCN2018093753-appb-000014
其中,μ L是一个主观值表示代理对市场边际利益的期望。同时,
Figure PCTCN2018093753-appb-000015
Figure PCTCN2018093753-appb-000016
其中,B L代表这个代理本身。第二个指标PortfolioStatus(PS)表示代理自身是否实现供需平衡。接下来,我们设定几种对价格操作的动作作为所有代理可选取的动作集合。
A={Maintain,Lower,Raise,Revert,Inline,MinMax}
每个代理在在时刻t通过这些动作设置下一时刻的价格
Figure PCTCN2018093753-appb-000017
Figure PCTCN2018093753-appb-000018
●Maintain表示维持上一时刻的价格;
●Lower在时刻t生产者和消费者的价格的基础上都降低0.01;
●Raise在时刻t生产者和消费者的价格的基础上都增加0.01;
●Revert向中点价格移动0.01,
Figure PCTCN2018093753-appb-000019
●Inline设置新的生产者和消费者价格分别为
Figure PCTCN2018093753-appb-000020
Figure PCTCN2018093753-appb-000021
MinMax设置新的生产者和消费者的价格分别为
Figure PCTCN2018093753-appb-000022
Figure PCTCN2018093753-appb-000023
几种固定策略竞争代理的设定,为了对比和验证,我们设计几种固定策略的代理。平衡策略试图通过调整生产者和消费者合同价格来减少供应不平衡,当它看到需求过剩时,则提高生产者和消费者合同价格,当它看到供给过剩时,则降低生产者和消费者合同价格。贪婪策略试图通过增加利润边际来实现利润最大化,即最大化市场是理性的时候消费者和生产者合同价格之间的差异。这两种策略都可以被表征为适应性的,因为它们会对市场和投资组合条件做出反应,但他们不会从过去学习。同时,我们也设计两种非适应性的代理,一种固定策略的代理一直维持一定的价格;一种随机的代理,每次对价格的调整在六个动作中随机选择一个。
表3-1 平衡算法
Figure PCTCN2018093753-appb-000024
表3-2 贪婪算法
Figure PCTCN2018093753-appb-000025
我们的第一项改动就是将原有的Q-learning的存储结构由Q-table更改为Q-network,我们目前的做法和Q-learning的做法完全一致,即每次与环境交互完成之后升级存储结构内部的参数。以后的工作还会考虑经验重放的机制。
表3-3 使用Q-network的Q-learning算法
Figure PCTCN2018093753-appb-000026
算法第一行初始化神经网络的参数。第二行表明实验将运行M个周期,第三行说明在每个周期开始时都会初始化状态值,第五行和第六行表示用一定的概率进行随机选择,否则的话选择当前状态下动作值最大的那一个动作。第七行表示执行所选择的动作,然后得到奖励并进入下一个状态。第八行计算本次状态下对应的动作的标准值,第九行表示会根据第八行计算出的值对神经网络的参数进行更新,使得存储的Q(s t,a a)接近于y t。这样做使得动作值存储在参数中,每次进入一个新的状态,只需要将状态的特征值按顺序输入到神经网络中,我们就能够从神经网络的输出层选择 Q(s,a)值最大的动作作为接下来的执行动作。
基于多agent(代理)的智能谈判算法,除了尝试使用神经网络来存储强化学习的动作值,我们还考虑到更加现实的情况,即消费者存在多种类型,同时小型生产者也分为风力发电和太阳能发电两种情况。为了研究这一普遍现象,我们对环境进行相应的更改。首先,我们把消费者分为两类,一类是晚上不需要消耗电力的普通用户,一类是全天需要消耗电力的用户;然后,我们根据现实中的情况,把生产者也分为两类,一类是全天都能发电的风力发电者,另一类是白天才能发电的太阳能发电者。所以,我们现在的电网环境中有四类用户,原来的一个智能体代理统一调整价格的方式就有点不适用了,所以我们提出了一个“外部竞争,内部合作”的新的多智能体代理,即在外部竞争中该代理表现为一个智能体,但是在内部实际上是对每一种类型的用户都设置一个智能体的多智体代理。多智体内部能够相互协调,相互合作 [24][25][26][27][28],这样的多智体框架更能适应外部环境特别复杂的电网。能够在原来的电网规则前提下更加有针对性的对用户的合同价格进行调整以获得自身利润的最大化。
但是,虽然这个多智体在外部表现为一个代理,但是内部是有四个不同的智能体,如何让这些智能体保证在内部实现互相的合作,是一个需要思考的问题。为了尽量让代理内部的智能体互相合作,形成真正的团体去和其他的代理竞争,我们需要重新设计每个内部智能体的奖励函数,让每个智能体的动作不仅考虑到自己的利润最大化,还需要考虑到其他的内部智能体的利益。所以我们重新设计每个内部智能体的奖励函数:
Figure PCTCN2018093753-appb-000027
其中,C表示消费者所在的类别,P表示生产者所在的类别,
Figure PCTCN2018093753-appb-000028
表示代理B k内部的智能体,i∈{C 1,C 2,P 1,P 2}。κ t,C表示某类消费者在时刻t消耗的电量,κ t,P表示某类生产者在时刻t生产的电量。而
Figure PCTCN2018093753-appb-000029
是计算单体利润时不平衡部分费用。
Figure PCTCN2018093753-appb-000030
此外:
Figure PCTCN2018093753-appb-000031
因为对于单个的智能体,它只能进行从生产者手里收购电力或者向消费者卖出电力,所以不好直接对其自身的利润进行衡量,但是,我们可以反过来考虑它对总利润的贡献,即没有这个代理买入或者卖出电力时对总利润所造成的损失即为该代理自身的利润。通过从整体的关系进行考虑,我们获得了单个智能体的自身利润。这样,我们就可以通过新设计的奖励函数让每个智能体在选择动作的时候在考虑自身利益的同时考虑到整体的利益。
真实数据模拟的多智能体代理框架,为了验证我们的代理框架在复杂环境下的有效性,我们引入了伦敦市2013年家庭用户的真实用电数据 [34],我们从中选取了约1000户用户。首先,仅向所有消费者发布一个价格是不够的。即是我们只考虑零售市场中的家庭用户,但由于不同的生活***衡。在这里,我们根据用电曲线对消费者进行分组。考虑到电力消费是时间序列数据,我们的代理使用基于动态时间规整(DTW)距离标准的K-Means进行聚类。聚类后,我们可以获得相近用电行为的用户群体。在真实数据模拟环境中的代理结构如图3所示。
其次,由于用户的用电行为时刻变化,我们使用了在时间序列上有着优良表现的Long Short-Term Memory(LSTM) [35]的神经网络单元结构来增强我们的网络架构,以帮助代理从过去的市场信息中更好的提取时序信息来做出有效地决策。最终,我们的代理使用的神经网络结构如图4所示。
实验参数的设置,除了方法定义中的参数,还有许多实验运行中的参数,在此我们一一说明,我们的实验一共有五个代理,分别为智能体代理、平衡策略代理、贪婪策略代理、固定价格的代理和随机动作的代理。本地 的电网市场的消费者人数设定为1000,生产者人数设定为100,消费者每小时消耗的电力为10个基本电力单位,生产者每小时生产的电力为100个基本电力单位。每单位电力的不平衡费用为0.1,注意不平衡费用不能设置的过小,防止代理以尽可能低的价格骗取消费者的订阅而不从生产者那里购买电力。此外,考虑到现实中的用户对订阅有一定的惯性,我们设置用户的选择偏好为{35,30,20,10,5}表示35%的可能性消费者选择合同价格最低的订阅,30%的可能性消费者选择合同价格第二低的订阅,以此类推。同时,生产者会按照选择偏好从价格高的开始选择。在实验中,我们也设定了初始的每单位电力的价格,卖出的电价为0.13,收购的电价为0.1。而市场的主观边际利益μ L设置为0.02。对于运行的时期,我们设置为300,前200个时期为学习阶段,让智能体在此阶段进行学习,后一百个时期为统计阶段,此阶段每个代理的总利润作为最终判断代理算法是否具有竞争力的标准。每个时期有10天,每天24个小时,即每个时期有240个基本时间单元。对于Q-learning,我们采用ε-greedy策略。
Q-网络的实验,对于神经网络的设计,我们设置了包含两个隐藏层的网络。输入层接收状态,为了充分利用环境给予的信息,我们将状态特征设计为上一时刻所有代理的用户合同价格以及智能体代理的用户订阅人数;再加上该时刻所有代理的用户合同价格以及智能体代理的用户订阅人数的信息,一共24个输入单元。输出层有六个输出单元,分别代表六个对价格进行操作的动作,输出的值代表在输入状态下选择该动作然后按照策略继续进行的期望累积奖励。另外,我们使用了XAVIER初始化参数,使用了RMSPROP算法和梯度下降来训练神经网络的参数。此外,我们对整个实验反复运行20轮的每轮总奖励取平均值来确定使用基于Q-network的Q-learning算法的代理在实验中的最终表现,同时与之前的使用基于Q-table的Q-learning算法的代理对比,说明使用Q-network来存储动作值的优缺点。需要说明的是使用Q-table的代理的状态沿用了之前的工作的设置,被设计为上一时刻和这一时刻PRS和PS指标的组合。
表4-1 所有代理20轮实验中每轮实验的平均奖励
Figure PCTCN2018093753-appb-000032
表4-2 各自20轮实验中每轮实验的平均奖励
Figure PCTCN2018093753-appb-000033
从上面两个表格中我们可以看到,使用Q-learning的代理的竞争力明显强于其他策略的代理,而贪婪策略是除了强化学***衡策略和贪婪策略的代理总收益位居二三位,说明了适应性策略的优越性,而使强化学习算法的代理大幅领先其他代理,说明了从过去学习的优越性。使用Q-network存储过去经验的代理效果又比使用Q-table存储经验的代理效果要好,说明了拥有更加精确的状态表示的重要性。从下图中也可以看到,使用Q-network的代理收益表现更加稳定,基本处在1500000左右,而使用Q-table的代理收益波动比较大,相对来说不是很稳定,如图5所示。
多智体代理的实验,我们也进行了多智体代理的实验,但是首先我们需要修改一些电网环境的配置。首先,因为我们分别设置了两组生产者和两组消费者,所以,为了尽可能的向原有的实验参数靠拢,我们设置了只在白天用电的消费者数量为500,全天用电的消费者数量为500,只在白天用电的消费者一天的用电情况为{0,0,0,0,0,0,10,10,10,10,10,10,10,10,10,10,10,10,0,0,0,0,0,0},即一天的前六个小时和一天的最后六个小时不用电,全天用电的消费者每小时耗电量为10个电力基本单位。此外,我们设置风力发电的生产者数量为50,设置太阳能发电的生产者数量为50,风力发电为全天发电,每小时的发电量为100个电力基本单位,太阳能发电的全天的发电情况为{0,0,0,0,0,0,100,100,100,100,100,100,100,100,100,100,100,100,0,0,0,0,0,0}。同时,我们轻微调整了不同种类的生产者和消费者的选择偏好。在实验中,为了更好的对比之前的工作,我们使用了Q-table作为存储动作值的结构,同时输入状态相比于之前的工作增加了当前时刻是白天还是黑夜的特征指标。
表4-3 不同种类用户的选择偏好
Figure PCTCN2018093753-appb-000034
Figure PCTCN2018093753-appb-000035
在实验中,因为改变了实验的外部条件,为了说明“外部竞争,内部合作”的多智体代理效果优于原来的单个智能体代理,我们将多智体代理和单个智能体代理一起放入实验中竞争。反复运行试验取平均值,得到以下结果。
表4-4 多种类用户环境下20轮实验的平均收益
Figure PCTCN2018093753-appb-000036
从上述的表格和图6中折线可以看到,多智能体和单智能体代理在竞争中拥有绝对的优势地位,而多智能体又能够在每一轮击败单智能体,说明了相比于单智能体的代理,多智能体的代理更加适应市场,拥有更强的竞争力。同时我们看到各代理的总收益相比于4.2节的实验有很大幅度的提升,我们猜想是因为我们将原有实验中的固定价格策略的代理移除,而增加了一个能够适应环境,调整价格来平衡供需的多智体代理,使得整个市场由能够平衡供需的代理主导,相比于上一节中的实验,整个智能电网市场的电量供需平衡得到保障,代理的不平衡费用大大减少,从而整体的总收益水平得到提升。
为了验证“内部合作”的设计思想起到了作用,我们通过将每个代理的奖励函数分别设为本代理的整体奖励函数
Figure PCTCN2018093753-appb-000037
和我们设计的奖励函数
Figure PCTCN2018093753-appb-000038
进行实验,在分别进行10轮实验后,我们发现使用我们设计的单体奖励函数获得的平均总收益比直接使用整体奖励函数获得的平均总收益要高出23.37%,说明了单体奖励函数比整体奖励函数效果更好,使得每个智能体同时考虑到了自身的利益和整体的利益,最大化基于整体利益的自身利益,比只考虑整体的利益的方式更加灵活,更加有针对性。
[根据细则91更正 03.01.2019] 
真实数据模拟情况下的多智体代理的实验,首先,我们对数据清洗之后的用户进行聚类,根据其他经验数据将用户分成5类,人数分布为{215;97;317;274;79}。得到的用电曲线如图7、9-13所示。
从图中可以看出每一类用户用电曲线差异很大,这对我们的代理造成了巨大挑战。此外,为了更加真实的建模用户,我们还对电网中用户的选择模型进行了建模,根据电网中用户的依赖性这一普遍特征,我们为每位用户分配了一定范围内随机的心理价格,当用户上次签约的代理本次出价优于用户的心理预期时,用户会选择续约;否则用户会根据价格优劣重新排序按一定概率选择电力合同。
表4-1 用户电价选择模型
Figure PCTCN2018093753-appb-000039
我们选择了伦敦家庭用户电力数据中2013年度2月份的数据作为消费者的用电数据,为了保证整体的用电供需平衡,我们还指定了两类生产者分别承担一半的发电任务。尽管***总体的电力供需是平衡的,由于每一 个消费者的用电行为不尽相同,同时每个用户的选择行为也不尽相同,时刻平衡代理自身内部的供需平衡是非常困难的。用户心理价格随机范围为[0.10,0.15],训练周期为50,评估周期为10,时序状态的长度为3。最终评估时期的收益如图8所示。
探讨了智能电网零售市场中零售代理的定价问题。我们首先将DRL应用于零售代理设计中以解决离散状态空间问题,并使用LSTM和基于DTW的聚类机制来加强我们的代理是它更好的应用与实际环境。通过集群客户,我们设计了一个具有独特激励函数的合作式多智能体深度强化学习的代理框架。最后,我们通过引入伦敦市家庭用电量数据,验证了我们的代理框架在复杂环境下的适应能力和强大竞争力。作为未来的工作,我们将探索将更先进的DRL技术(例如actor-critic算法)应用到我们的零售代理设计中以产生更有效的定价策略。
此外,通过考虑实际的小规模发电数据和家用电力存储设备,可以进一步推广代理机制以获得更真实的智能电网。电网的负载预测也是一个热门研究主题 [29][30][31][32],对于未来的工作,我们将会从这方面入手,对用户进行精确的分类和建模分析,让代理自动识别用户的类别,然后让内部的对应的智能体对该用户进行管理。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

  1. 一种基于智能电网的多智能体深度强化学习代理方法,其特征在于,所述多智能体深度强化学习代理方法包括以下步骤:
    S1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新;
    S2、根据消费者和生产者的种类建立“外部竞争,内部合作”的多智能体代理;
    S3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数,其函数式:
    Figure PCTCN2018093753-appb-100001
    其中,C表示消费者所在的类别,P表示生产者所在的类别,
    Figure PCTCN2018093753-appb-100002
    表示代理B k内部的智能体,i∈{C 1,C 2,P 1,P 2},κ t,C表示某类消费者在时刻t消耗的电量,κ t,P表示某类生产者在时刻t生产的电量,
    Figure PCTCN2018093753-appb-100003
    是计算单体利润时不平衡部分费用。
  2. 根据权利要求1所述的多智能体深度强化学习代理方法,其特征在于,所述步骤S1中还包括以下步骤:
    S11、对神经网络的参数进行初始化处理;
    S12、在运行周期中对每个周期开始时对状态值进行初始化;
    S13、利用概率对状态值进行选择或选择当前状态下动作最大动作值;
    S14、执行选择的动作值并获得奖励后进入下一个状态;
    S15、计算本次状态对应的标准值对神经网络参数进行更新使得存储的Q(s t,a t)接近于y t
  3. 根据权利要求2所述的多智能体深度强化学习代理方法,其特征在于,所述步骤S15中将动作值存储在参数中,每次进入新的状态仅需将特征值按顺序输入神经网络,能够从神经网络的输出层选择Q(s,a)值最大动作作为接下来的执行动作。
  4. 根据权利要求3所述的多智能体深度强化学习代理方法,其特征在于,所述步骤S2中包括以下步骤:
    S21、根据消耗电力差异对消费者进行分类;
    S22、根据现实中发电情况对生产者进行分类。
  5. 根据权利要求4所述的多智能体深度强化学习代理方法,其特征在于,所述步骤S3中通过奖励函数每个智能体在选择动作时在考虑自身利益时同时考虑整体的利益。
  6. 根据权利要求5所述的多智能体深度强化学习代理方法,其特征在于,所述消费者根据消耗电力的情况分为白天消耗用户和全天消耗用户。
  7. 根据权利要求6所述的多智能体深度强化学习代理方法,其特征在于,所述生产者根据现实中发电情况分为全天发电者和白天发电者。
PCT/CN2018/093753 2018-06-29 2018-06-29 一种基于智能电网的多智能体深度强化学习代理方法 WO2020000399A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201880000858.4A CN110945542B (zh) 2018-06-29 2018-06-29 一种基于智能电网的多智能体深度强化学习代理方法
PCT/CN2018/093753 WO2020000399A1 (zh) 2018-06-29 2018-06-29 一种基于智能电网的多智能体深度强化学习代理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/093753 WO2020000399A1 (zh) 2018-06-29 2018-06-29 一种基于智能电网的多智能体深度强化学习代理方法

Publications (1)

Publication Number Publication Date
WO2020000399A1 true WO2020000399A1 (zh) 2020-01-02

Family

ID=68984589

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/093753 WO2020000399A1 (zh) 2018-06-29 2018-06-29 一种基于智能电网的多智能体深度强化学习代理方法

Country Status (2)

Country Link
CN (1) CN110945542B (zh)
WO (1) WO2020000399A1 (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369108A (zh) * 2020-02-20 2020-07-03 华中科技大学鄂州工业技术研究院 一种电网实时定价方法和装置
CN111709706A (zh) * 2020-06-09 2020-09-25 国网安徽省电力有限公司安庆供电公司 基于自适应模式识别的新设备启动方案自动生成方法
CN111817349A (zh) * 2020-07-31 2020-10-23 三峡大学 基于深度q学习的多微网被动并离网切换控制方法
CN112446470A (zh) * 2020-11-12 2021-03-05 北京工业大学 一种用于相干合成的强化学习方法
CN112819144A (zh) * 2021-02-20 2021-05-18 厦门吉比特网络技术股份有限公司 一种具有多智能体的神经网络提升收敛和训练速度的方法
CN112884129A (zh) * 2021-03-10 2021-06-01 中国人民解放军军事科学院国防科技创新研究院 一种基于示教数据的多步规则提取方法、设备及存储介质
CN113469839A (zh) * 2021-06-30 2021-10-01 国网上海市电力公司 一种基于深度强化学习的智慧园区优化策略
CN113555870A (zh) * 2021-07-26 2021-10-26 国网江苏省电力有限公司南通供电分公司 一种基于Q-learning光伏预测的配电网多时间尺度优化调度方法
CN113570039A (zh) * 2021-07-22 2021-10-29 同济大学 一种基于强化学习的优化共识的区块链***
CN113687960A (zh) * 2021-08-12 2021-11-23 华东师范大学 一种基于深度强化学习的边缘计算智能缓存方法
CN113791634A (zh) * 2021-08-22 2021-12-14 西北工业大学 一种基于多智能体强化学习的多机空战决策方法
CN114169216A (zh) * 2021-10-22 2022-03-11 北京理工大学 一种基于自适应分区的多智能体异构目标协同覆盖方法
CN114329936A (zh) * 2021-12-22 2022-04-12 太原理工大学 基于多智能体深度强化学习的虚拟综采生产***推演方法
CN114362221A (zh) * 2022-01-17 2022-04-15 河海大学 一种基于深度强化学习的区域智能电网分区评价方法
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及***
CN114666840A (zh) * 2022-03-28 2022-06-24 东南大学 基于多智能体强化学习的负载均衡方法
CN114881688A (zh) * 2022-04-25 2022-08-09 四川大学 一种考虑分散式资源互动响应的配电网智能化定价方法
US20220271533A1 (en) * 2021-02-23 2022-08-25 Distro Energy B.V. Transparent Customizable and Transferrable Intelligent Trading Agent
CN115065728A (zh) * 2022-06-13 2022-09-16 福州大学 一种基于多策略强化学习的多目标内容存储方法
CN115310999A (zh) * 2022-06-27 2022-11-08 国网江苏省电力有限公司苏州供电分公司 基于多层感知机和排序网络的企业用电行为分析方法及***
CN116488154A (zh) * 2023-04-17 2023-07-25 海南大学 基于微电网的能源调度方法、***、计算机设备及介质
CN116912356A (zh) * 2023-09-13 2023-10-20 深圳大学 一种六边形集合可视化方法及相关装置
CN117648123A (zh) * 2024-01-30 2024-03-05 中国人民解放军国防科技大学 一种微服务快速集成方法、***、设备及存储介质
CN117808174A (zh) * 2024-03-01 2024-04-02 山东大学 网络攻击下基于强化学习的微电网运行优化方法及***
US11956138B1 (en) 2023-04-26 2024-04-09 International Business Machines Corporation Automated detection of network anomalies and generation of optimized anomaly-alleviating incentives

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639756B (zh) * 2020-06-12 2023-05-12 南京大学 一种基于博弈约简的多智能体强化学习方法
CN112215350B (zh) * 2020-09-17 2023-11-03 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的智能体控制方法及装置
CN111967199B (zh) * 2020-09-23 2022-08-05 浙江大学 一种强化学习多代理合作任务下的代理贡献分配的方法
CN112286203B (zh) * 2020-11-11 2021-10-15 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN114619907B (zh) * 2020-12-14 2023-10-20 中国科学技术大学 基于分布式深度强化学习的协调充电方法及协调充电***
CN114123178B (zh) * 2021-11-17 2023-12-19 哈尔滨工程大学 一种基于多智能体强化学习的智能电网分区网络重构方法
US12039062B2 (en) * 2021-12-09 2024-07-16 Huawei Technologies Co., Ltd. Methods, systems and computer program products for protecting a deep reinforcement learning agent
CN116599061B (zh) * 2023-07-18 2023-10-24 国网浙江省电力有限公司宁波供电公司 一种基于强化学习的电网运行控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332373A1 (en) * 2009-02-26 2010-12-30 Jason Crabtree System and method for participation in energy-related markets
CN102622269A (zh) * 2012-03-15 2012-08-01 广西大学 基于JADE的智能电网发电调度多Agent***
CN105022021A (zh) * 2015-07-08 2015-11-04 国家电网公司 一种基于多智能体的关口电能计量装置的状态识别方法
CN105550946A (zh) * 2016-01-28 2016-05-04 东北电力大学 基于多智能体的居民用户参与自动需求响应的用电策略
CN107623337A (zh) * 2017-09-26 2018-01-23 武汉大学 一种微电网能量管理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179077B (zh) * 2017-05-15 2020-06-09 北京航空航天大学 一种基于elm-lrf的自适应视觉导航方法
CN107067190A (zh) * 2017-05-18 2017-08-18 厦门大学 基于深度强化学习的微电网电能交易方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332373A1 (en) * 2009-02-26 2010-12-30 Jason Crabtree System and method for participation in energy-related markets
CN102622269A (zh) * 2012-03-15 2012-08-01 广西大学 基于JADE的智能电网发电调度多Agent***
CN105022021A (zh) * 2015-07-08 2015-11-04 国家电网公司 一种基于多智能体的关口电能计量装置的状态识别方法
CN105550946A (zh) * 2016-01-28 2016-05-04 东北电力大学 基于多智能体的居民用户参与自动需求响应的用电策略
CN107623337A (zh) * 2017-09-26 2018-01-23 武汉大学 一种微电网能量管理方法

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369108A (zh) * 2020-02-20 2020-07-03 华中科技大学鄂州工业技术研究院 一种电网实时定价方法和装置
CN111709706A (zh) * 2020-06-09 2020-09-25 国网安徽省电力有限公司安庆供电公司 基于自适应模式识别的新设备启动方案自动生成方法
CN111709706B (zh) * 2020-06-09 2023-08-04 国网安徽省电力有限公司安庆供电公司 基于自适应模式识别的新设备启动方案自动生成方法
CN111817349A (zh) * 2020-07-31 2020-10-23 三峡大学 基于深度q学习的多微网被动并离网切换控制方法
CN111817349B (zh) * 2020-07-31 2023-08-25 三峡大学 基于深度q学习的多微网被动并离网切换控制方法
CN112446470B (zh) * 2020-11-12 2024-05-28 北京工业大学 一种用于相干合成的强化学习方法
CN112446470A (zh) * 2020-11-12 2021-03-05 北京工业大学 一种用于相干合成的强化学习方法
CN112819144A (zh) * 2021-02-20 2021-05-18 厦门吉比特网络技术股份有限公司 一种具有多智能体的神经网络提升收敛和训练速度的方法
CN112819144B (zh) * 2021-02-20 2024-02-13 厦门吉比特网络技术股份有限公司 一种具有多智能体的神经网络提升收敛和训练速度的方法
US20220271533A1 (en) * 2021-02-23 2022-08-25 Distro Energy B.V. Transparent Customizable and Transferrable Intelligent Trading Agent
US11817704B2 (en) * 2021-02-23 2023-11-14 Distro Energy B.V. Transparent customizable and transferrable intelligent trading agent
CN112884129A (zh) * 2021-03-10 2021-06-01 中国人民解放军军事科学院国防科技创新研究院 一种基于示教数据的多步规则提取方法、设备及存储介质
CN112884129B (zh) * 2021-03-10 2023-07-18 中国人民解放军军事科学院国防科技创新研究院 一种基于示教数据的多步规则提取方法、设备及存储介质
CN113469839A (zh) * 2021-06-30 2021-10-01 国网上海市电力公司 一种基于深度强化学习的智慧园区优化策略
CN113570039B (zh) * 2021-07-22 2024-02-06 同济大学 一种基于强化学习的优化共识的区块链***
CN113570039A (zh) * 2021-07-22 2021-10-29 同济大学 一种基于强化学习的优化共识的区块链***
CN113555870B (zh) * 2021-07-26 2023-10-13 国网江苏省电力有限公司南通供电分公司 一种基于Q-learning光伏预测的配电网多时间尺度优化调度方法
CN113555870A (zh) * 2021-07-26 2021-10-26 国网江苏省电力有限公司南通供电分公司 一种基于Q-learning光伏预测的配电网多时间尺度优化调度方法
CN113687960A (zh) * 2021-08-12 2021-11-23 华东师范大学 一种基于深度强化学习的边缘计算智能缓存方法
CN113687960B (zh) * 2021-08-12 2023-09-29 华东师范大学 一种基于深度强化学习的边缘计算智能缓存方法
CN113791634A (zh) * 2021-08-22 2021-12-14 西北工业大学 一种基于多智能体强化学习的多机空战决策方法
CN113791634B (zh) * 2021-08-22 2024-02-02 西北工业大学 一种基于多智能体强化学习的多机空战决策方法
CN114169216A (zh) * 2021-10-22 2022-03-11 北京理工大学 一种基于自适应分区的多智能体异构目标协同覆盖方法
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及***
CN114329936A (zh) * 2021-12-22 2022-04-12 太原理工大学 基于多智能体深度强化学习的虚拟综采生产***推演方法
CN114329936B (zh) * 2021-12-22 2024-03-29 太原理工大学 基于多智能体深度强化学习的虚拟综采生产***推演方法
CN114362221A (zh) * 2022-01-17 2022-04-15 河海大学 一种基于深度强化学习的区域智能电网分区评价方法
CN114362221B (zh) * 2022-01-17 2023-10-13 河海大学 一种基于深度强化学习的区域智能电网分区评价方法
CN114666840A (zh) * 2022-03-28 2022-06-24 东南大学 基于多智能体强化学习的负载均衡方法
CN114881688A (zh) * 2022-04-25 2022-08-09 四川大学 一种考虑分散式资源互动响应的配电网智能化定价方法
CN114881688B (zh) * 2022-04-25 2023-09-22 四川大学 一种考虑分散式资源互动响应的配电网智能化定价方法
CN115065728B (zh) * 2022-06-13 2023-12-08 福州大学 一种基于多策略强化学习的多目标内容存储方法
CN115065728A (zh) * 2022-06-13 2022-09-16 福州大学 一种基于多策略强化学习的多目标内容存储方法
CN115310999B (zh) * 2022-06-27 2024-02-02 国网江苏省电力有限公司苏州供电分公司 基于多层感知机和排序网络的企业用电行为分析方法及***
CN115310999A (zh) * 2022-06-27 2022-11-08 国网江苏省电力有限公司苏州供电分公司 基于多层感知机和排序网络的企业用电行为分析方法及***
CN116488154A (zh) * 2023-04-17 2023-07-25 海南大学 基于微电网的能源调度方法、***、计算机设备及介质
US11956138B1 (en) 2023-04-26 2024-04-09 International Business Machines Corporation Automated detection of network anomalies and generation of optimized anomaly-alleviating incentives
CN116912356B (zh) * 2023-09-13 2024-01-09 深圳大学 一种六边形集合可视化方法及相关装置
CN116912356A (zh) * 2023-09-13 2023-10-20 深圳大学 一种六边形集合可视化方法及相关装置
CN117648123A (zh) * 2024-01-30 2024-03-05 中国人民解放军国防科技大学 一种微服务快速集成方法、***、设备及存储介质
CN117648123B (zh) * 2024-01-30 2024-06-11 中国人民解放军国防科技大学 一种微服务快速集成方法、***、设备及存储介质
CN117808174A (zh) * 2024-03-01 2024-04-02 山东大学 网络攻击下基于强化学习的微电网运行优化方法及***
CN117808174B (zh) * 2024-03-01 2024-05-28 山东大学 网络攻击下基于强化学习的微电网运行优化方法及***

Also Published As

Publication number Publication date
CN110945542A (zh) 2020-03-31
CN110945542B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
WO2020000399A1 (zh) 一种基于智能电网的多智能体深度强化学习代理方法
Antonopoulos et al. Artificial intelligence and machine learning approaches to energy demand-side response: A systematic review
Al Mamun et al. A comprehensive review of the load forecasting techniques using single and hybrid predictive models
Chen et al. Trading strategy optimization for a prosumer in continuous double auction-based peer-to-peer market: A prediction-integration model
Pinto et al. Multi-agent-based CBR recommender system for intelligent energy management in buildings
Peirelinck et al. Transfer learning in demand response: A review of algorithms for data-efficient modelling and control
Yang et al. Recurrent deep multiagent q-learning for autonomous brokers in smart grid.
Rodriguez-Fernandez et al. Context aware q-learning-based model for decision support in the negotiation of energy contracts
Rettieva Equilibria in dynamic multicriteria games
Han et al. Evolutionary game based demand response bidding strategy for end-users using Q-learning and compound differential evolution
Gao et al. Bounded rationality based multi-VPP trading in local energy markets: a dynamic game approach with different trading targets
Chuang et al. Deep reinforcement learning based pricing strategy of aggregators considering renewable energy
Ribeiro et al. Customized normalization clustering meth-odology for consumers with heterogeneous characteristics
Lincoln et al. Comparing policy gradient and value function based reinforcement learning methods in simulated electrical power trade
Wang et al. A survey on distributed optimisation approaches and applications in smart grids
Ehsanfar et al. An incentive-compatible scheme for electricity cooperatives: An axiomatic approach
Wang et al. Multi-agent simulation for strategic bidding in electricity markets using reinforcement learning
Xu et al. Energy Procurement and Retail Pricing for Electricity Retailers via Deep Reinforcement Learning with Long Short-term Memory
Kell et al. Machine learning applications for electricity market agent-based models: A systematic literature review
Okwuibe et al. Advanced clustering approach for peer-to-peer local energy markets considering prosumers’ preference vectors
Jia et al. An online learning approach to dynamic pricing for demand response
Xu et al. Deep reinforcement learning for competitive DER pricing problem of virtual power plants
Ji et al. Game-theoretic applications for decision-making behavior on the energy demand side: a systematic review
Wu et al. Intelligent strategic bidding in competitive electricity markets using multi-agent simulation and deep reinforcement learning
Bajpai et al. Strategic bidding in network constrained electricity markets using FAPSO

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18924747

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18924747

Country of ref document: EP

Kind code of ref document: A1