JP7113968B2 - 電気デバイスの動作を制御するシステムおよび方法 - Google Patents

電気デバイスの動作を制御するシステムおよび方法 Download PDF

Info

Publication number
JP7113968B2
JP7113968B2 JP2021515233A JP2021515233A JP7113968B2 JP 7113968 B2 JP7113968 B2 JP 7113968B2 JP 2021515233 A JP2021515233 A JP 2021515233A JP 2021515233 A JP2021515233 A JP 2021515233A JP 7113968 B2 JP7113968 B2 JP 7113968B2
Authority
JP
Japan
Prior art keywords
electricity
price
user
lram
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021515233A
Other languages
English (en)
Other versions
JP2022501716A (ja
Inventor
サン、ホンボ
シュー、ハンチェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2022501716A publication Critical patent/JP2022501716A/ja
Application granted granted Critical
Publication of JP7113968B2 publication Critical patent/JP7113968B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2310/00The network for supplying or distributing electric power characterised by its spatial reach or by the load
    • H02J2310/50The network for supplying or distributing electric power characterised by its spatial reach or by the load for selectively controlling the operation of the loads
    • H02J2310/56The network for supplying or distributing electric power characterised by its spatial reach or by the load for selectively controlling the operation of the loads characterised by the condition upon which the selective controlling is based
    • H02J2310/62The condition being non-electrical, e.g. temperature
    • H02J2310/64The condition being economic, e.g. tariff based load management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • H02J3/14Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by switching loads on to, or off from, network, e.g. progressively balanced loading

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Mathematical Optimization (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)

Description

本開示は、包括的には、電力システム(power electric system:電力系統)に関し、より詳細には、負荷供給事業体の最適な同時入札/価格決定に関する。
従来の電力システムの再構築は、電力システム計画および運用活動を改善するために、何年もの間続けられてきた。送電レベルにおいて、市場ベースの体制の下で、短期および長期の電力生産活動および電力消費活動を計画するために、供給サイドから需要サイドに至る種々の関係者が、独立系統運用者(ISO:independent system operator)によって運用される卸売電力市場(WEM:wholesale electricity market)に参加し、電気/エネルギーの提供又は入札を行っている。
従来、販売者(又は発電事業者)は、封印されたオファー(sealed offer)をISOに提出し、購入者(又は電力消費者)は、封印された入札(sealed bid)をISOに提出する。ISOは、その後、市場を需給均衡させ、全ての参加者によって需給均衡されたエネルギー価格およびエネルギー量を決定していた。しかしながら、スマートグリッド技術の進歩によって、ISOによって運用されるWEMにおいて、5分~15分間隔のリアルタイム入札および販売が可能になった。WEMの買い手である負荷供給事業体(LSE:load serving entity)には、需給均衡されたエネルギー価格およびエネルギー量に、政府の関税という追加コストを加えたものを最終使用顧客(EUC:end-user consumer)に手渡すようなこれまでの役割は、もはやなくなっている。現在では、リアルタイム入札および販売によって、LSEは、小売電力市場(REM:retail electricity market)において様々な需要応答プログラムを通じて柔軟な価格シグナルを使用してEUCと対話し、LSEに利益を与えるようにEUCの行動を変化させることができる。結果として、そのような環境下では、利潤を追求するLSEは、2つの問題、すなわち、LSEがWEMに提出する最適な電気入札を決定する入札問題と、LSEがEUCに請求する最適な電気価格を決定する価格決定問題とに直面している。
特許文献1には、エネルギーの大口の産業消費者又は企業消費者が、規制緩和されたエネルギー市場において自己の利益になる小売電気提供者になることを援助する方法が開示されている。エネルギーアドバイザーおよび取引管理サービス提供者が実行する1つの方法は、大口の企業エネルギー消費者を州の公益事業委員会に登録し、その企業が、独立サービス運用機関(independent service operator)のスケジューリング団体としての資格を得ることを援助し、その企業をエネルギー卸売業者の二者間取引パートナーとして確立することである。
特許文献2は、電気供給者のエネルギー顧客のエネルギー関連収益の生成を容易にする手法を開示している。この手法は、エネルギー資産のコントローラの動作スケジュールを生成するのに使用される。実施されると、生成された動作スケジュールは、その生成された動作スケジュールに従ってエネルギー資産の動きに関連した、期間Tにわたるエネルギー関連収益の誘導を容易にする。期間Tにわたるエネルギー顧客が利用できるエネルギー関連収益は、少なくとも部分的には、卸売電力市場に基づいている。
しかしながら、これらの従来の手法の全ては、入札問題および価格決定問題に別々に対処している。これらの2つの問題、すなわち入札問題および価格決定問題の間には強い結び付き又は関係があるが、残念ながら、これらの従来の手法は、この強い結び付き又は関係を無視している。なぜなら、WEMにおいて購入されるエネルギーと、REMにおいて販売されるエネルギーとはバランスしなければならない。さもなければ、LSEには経済的損失又は信頼性の問題さえも発生するからである。エネルギーを購入するときに、LSEが他のLSEに対して競争的な入札をISOに行うことができない場合には、EUCに販売するエネルギーがないといった信頼性の問題が発生する。したがって、数ある理由の中でも、少なくともLSEの総利潤を最大にすることを目的として、WEMに提出されるエネルギー入札と、REMにおいてLSEに請求されるエネルギー価格とを同時に決定する新たな手法が必要とされている。
米国特許出願公開第2005/0004858号 米国特許出願公開第2014/0316973号
本開示は、電力システムに関し、より詳細には、負荷供給事業体の最適な同時入札/価格決定に関する。
再構築された従来の電力産業では、負荷供給事業体(LSE)が、その最終使用顧客(EUC:end use customer)からの需要を満たすように、電気/エネルギーの入札を、独立系統運用機関(ISO)によって運用される卸売電力市場(WEM)に提出する必要がある。LSEは、その後、政府によって規制される従来は固定された関税である電気/エネルギーの代金をEUCに請求する。したがって、LSEの従来の意思決定プロセスは、相対的に柔軟性がないEUC需要の予想に依存する入札問題、すなわち、エネルギー入札の決定のみを含んでいる。
しかしながら、スマートグリッド技術の急速な発展によって、リアルタイム価格決定等の需要応答プログラムを通じた需要側の管理が実現可能になっている。LSEは、LSEが運用する小売電力市場(REM)におけるリアルタイムエネルギー価格を決定し、LSEの利益となるようにエネルギー消費行動を変化させるEUCにインセンティブを与えるができる。この場合、LSEは、入札問題に加えて、価格決定問題、すなわち、EUCに請求するエネルギー価格の決定の問題にも直面する。
LSEの従来の意思決定プロセスは、上述したように、相対的に柔軟性がないEUC需要の予想に依存する入札問題、すなわち、エネルギー入札の決定に対処することのみを含んでいる。したがって、これらの従来の手法は、1つの問題にしか関係していないが、本質的に互いに結合される2つの問題がある。なぜならば、WEMにおいて購入されるエネルギー(エネルギー入札)と、REMにおいて販売されるエネルギー(エネルギー販売価格)とはバランスしなければならず、LSEによって得られる利潤は双方の市場における結果に依存するからである。したがって、本開示の実施の形態は、入札問題および価格決定問題を同時に解く。
実験の間、1つの手法は、同時入札/価格決定問題を、混合整数線形計画技法を使用して解かれたバイレベル計画問題としてモデル化することを含んでいた。しかしながら、これらの実験された特定の手法は、全ての市場参加者が近視眼的又は短見的であるものと仮定しており、WEMにおける全ての市場参加者およびREMにおける全てのEUCを含む全ての実験されたモデルのパラメータは、LSEに完全に知られており、より重要なことに、全てのモデルは線形であった。しかしながら、これらの学習された仮定は、本開示の態様に照らすと非常に制約的かつ非実用的である。
本開示の幾つかの実施の形態では、同時入札/価格決定問題を、エネルギー入札およびエネルギー価格が共通の目的として共有される2つの行動(actions)であるマルコフ決定過程(MDP:Markov decision process)として定式化する。WEMモデルおよびEUCモデルを知る必要なくこのMDPを解くために、入札方策および価格決定方策を学習する、深層決定論的方策勾配ベースの強化学習アルゴリズムを考案することができる。提案された強化学習アルゴリズムは、第1段階行動、例えば、エネルギー入札が行われた後に明らかにされる情報を使用して第2段階行動、例えば、小売エネルギー価格を決定することによって、意思決定プロセスを利用し、これによって、特に負荷供給事業体によって得られる全体の利潤が改善される。
WEMにおける他の市場参加者のモデルおよびREMにおける全てのEUCのモデルは、前もって知られていないものと仮定する。このために、ニューラルネットワークを適用して、履歴データから入札応答関数および価格応答関数を学習し、LSEの観点から、WEM、およびEUCの集合行動をそれぞれモデル化することができる。これらの応答関数は、本開示の実施の形態による、WEM需給均衡結果およびEUC需要の時刻間相関を明確に捕捉することができる。
全体的に、本開示の態様は、同時入札/価格決定問題の新規のモデルフリーで柔軟な解決策を提供する。多くの新規性の中でも特に本開示の幾つかの新規性は、長期におけるLSEの累積利潤の考慮を可能にする、同時入札/価格決定問題のMDPとしての定式化を行うこと;MDPの構造的特性を考慮しながらMDPを解く強化学習アルゴリズムの開発を行うこと;時刻間相関を捕捉する履歴データを使用してWEMおよびREMをモデル化するために、多層フィードフォワードニューラルネットワーク(FNN:feedforward neural networks)、リカレントニューラルネットワーク(RNN:recurrent neural networks)又は長短期記憶(LSTM:long short-term memory)ユニットネットワークの適用を使用することを特に含む。
本開示の一実施の形態によれば、市場ベースのリソース割り当てシステムにおいて電気デバイスの動作を制御するシステムが提供される。このシステムは、次期時間区間のユーザによる電気デバイスのユーザ選択所望動作レベルを、送受信機を介してほぼリアルタイム(as close to real-time)で受信するように構成されたプロセッサを有する。プロセッサは、実行可能プログラムおよび記憶されたデータを有するメモリに接続される。このシステムは、プロセッサを使用して、次期時間区間についてユーザ選択所望動作レベルで電気デバイスを動作させるために供給される電気が利用可能である値を表すオファー額(offer amount)を計算することを含む。オファー額を計算することは、オファー額を得るために、ユーザ選択所望動作レベルと、現在の環境データと、ローカルリソース割り当て市場(LRAM:local resource allocation market)への過去のオファー額およびLRAMによる電気の過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用される記憶された履歴エネルギー先物市場データとを含む、次の時間区間の複数のファクタに基づいている。システムは、プロセッサを使用して、オファー額を、送受信機を介してLRAMに送信することを含む。システムは、プロセッサを使用して、電気デバイスが電気を受け取るLRAMから電気の需給均衡された価格を、送受信機を介して受信することを含む。システムは、プロセッサを使用して、ユーザ選択所望動作レベルと、現在の環境データと、LRAMからの電気の需給均衡された価格と、ユーザによる過去のユーザ選択所望動作レベル、小売電力市場(REM)における電気の過去の価格決定およびLRAMによる電気の過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用されるエネルギー先物市場からの記憶された履歴データとに少なくとも部分的に基づいて、電気デバイスを動作させる電気の小売価格を計算して小売価格を得ることを含む。オファー額および小売価格の計算は同時に行われる。システムは、プロセッサを使用して、送信したオファー額を小売価格と比較することを含む。システムは、プロセッサを使用して、比較に基づいて電気デバイスを起動又は起動停止することを含む。
本開示の別の実施の形態によれば、市場ベースのリソース割り当てシステムにおいて電気デバイスの動作を制御するシステムが提供される。システムは、次期時間区間のユーザによる電気デバイスのユーザ選択所望動作レベルを、入力インターフェースを介してほぼリアルタイムで受信するように構成されたプロセッサを有し、プロセッサは、実行可能プログラムおよび記憶されたデータを有するメモリに接続される。システムは、プロセッサを使用して、次期時間区間についてユーザ選択所望動作レベルで電気デバイスを動作させるために供給される電気が利用可能である値を表すオファー額を計算することを含む。システムは、プロセッサを使用して、オファー額を、出力インターフェースを介してローカルリソース割り当て市場(LRAM)に送信することを含む。システムは、プロセッサを使用して、電気デバイスが電気を受け取るLRAMから電気の需給均衡された価格を、入力インターフェースを介して受信することを含む。システムは、プロセッサを使用して、ユーザ選択所望動作レベルと、現在の環境データと、LRAMからの電気の需給均衡された価格と、ユーザによる過去のユーザ選択所望動作レベル、小売電力市場(REM)における電気の過去の価格決定およびLRAMによる電気の過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用されるエネルギー先物市場からの記憶された履歴データとに少なくとも部分的に基づいて、電気デバイスを動作させる電気の小売価格を計算して小売価格を得ることを含む。オファー額および小売価格の計算は同時に行われる。システムは、プロセッサを使用して、提出されたオファー額を小売価格と比較することを含む。システムは、プロセッサを使用して、比較に基づいて電気デバイスを起動又は起動停止することを含む。
本開示の別の実施の形態によれば、市場ベースのリソース割り当てシステムにおいて電気デバイスの動作を制御する方法が提供される。プロセッサは、次期時間区間のユーザによる電気デバイスのユーザ選択所望動作レベルを、入力インターフェースを介してほぼリアルタイムで受信するように構成される。プロセッサは、実行可能プログラムおよび記憶されたデータを有するメモリに接続される。方法は、プロセッサを使用して、次期時間区間についてユーザ選択所望動作レベルで電気デバイスを動作させるために供給される電気が利用可能である値を表すオファー額を計算することを含む。方法は、プロセッサを使用して、オファー額を、出力インターフェースを介してローカルリソース割り当て市場(LRAM)に送信することを含む。方法は、プロセッサを使用して、電気デバイスが電気を受け取るLRAMから電気の需給均衡された価格を、入力インターフェースを介して受信することを含む。方法は、プロセッサを使用して、ユーザ選択所望動作レベルと、現在の環境データと、LRAMからの電気の需給均衡された価格と、ユーザによる過去のユーザ選択所望動作レベル、小売電力市場(REM)における電気の過去の価格決定およびLRAMによる電気の過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用されるエネルギー先物市場からの記憶された履歴データとに少なくとも部分的に基づいて、電気デバイスを動作させる電気の小売価格を計算して小売価格を得ることを含む。オファー額および小売価格の計算は同時に行われる。方法は、プロセッサを使用して、提出されたオファー額を小売価格と比較することを含む。方法は、プロセッサを使用して、比較に基づいて電気デバイスを起動又は起動停止することを含む。
ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、一般的に、ここに開示されている実施形態の原理を示すことに強調が置かれている。
本開示の実施形態による、市場ベースのリソース割り当てシステムにおける電気デバイスの動作を制御する方法を示すブロック図である。 本開示の実施形態による、市場ベースのリソース割り当てシステムにおける電気デバイスの動作を制御する構成要素およびステップを示す概略図である。 本開示の幾つかの実施形態による、負荷供給事業体(LSE)、独立系統運用機関(ISO)、および最終使用顧客(EUC)の間の関係を示すブロック図である。 本開示の幾つかの実施形態による、負荷供給事業体の同時入札/価格決定計画を決定する幾つかの方法ステップを示すブロック図である。 本開示の幾つかの実施形態による、ISO、LSE、およびEUCの間のインタラクションを示す概略図である。 本開示の幾つかの実施形態による、WEMとREMとの間の同期された行動メカニズムの下での区間tの間のリアルタイム市場における行動のタイムラインを示す概略図である。 本開示の幾つかの実施形態による、WEMとREMとの間の同期されていない行動メカニズムの下での区間tのリアルタイム市場における行動のタイムラインを示す概略図である。 本開示の幾つかの実施形態による、入札/価格応答関数をモデル化するために使用されるFNNおよびRNNの構成を示す概略図である。 本開示の幾つかの実施形態による、LSTMユニットの構造を示す概略図である。 本開示の幾つかの実施形態による、同期された行動メカニズムの下での同時入札/価格決定アルゴリズムにおいて使用される構成要素のアクタークリティック構造およびインタラクションを示す図である。 本開示の幾つかの実施形態による、同期された行動メカニズムの下での同時入札/価格決定アルゴリズムにおいて使用される構成要素の代替のアクタークリティック構造およびインタラクションを示す図である。 本開示の幾つかの実施形態による、同期されていない行動メカニズムの下での同時入札/価格決定アルゴリズムにおいて使用される構成要素のアクタークリティック構造およびインタラクションを示す図である。 本開示の幾つかの実施形態による、同期されていない行動メカニズムの下での同時入札/価格決定アルゴリズムにおいて使用される構成要素の代替のアクタークリティック構造およびインタラクションを示す図である。 本開示の幾つかの実施形態による、ベースライン方策および強化学習(RL:Reinforcement Learning)方策の下での累積報酬を示す図である。 本開示の幾つかの実施形態による、通常の1日の間のRL方策の下での卸売エネルギー価格および小売エネルギー価格を示す図である。 本開示の幾つかの実施形態による、通常の1日の間の入札量および総エネルギー消費を示す図である。 本開示の幾つかの実施形態による、累積報酬に対する割引係数の影響を示す図である。 本開示の実施形態による、方法およびシステムの幾つかの技法を実施するために使用することができるコンピューティング装置を示す概略図である。 本開示の実施形態による、システムおよび方法を実施するために使用することができる幾つかの構成要素を示すブロック図である。
上記で明らかにされた図面は、ここに開示されている実施形態を記載しているが、この論述において言及されるように、他の実施形態も意図されている。この開示は、限定ではなく代表例として例示の実施形態を提示している。ここに開示されている実施形態の原理の範囲および趣旨に含まれる非常に多くの他の変更および実施形態を当業者は考案することができる。
本開示は、電力システムに関し、より詳細には、負荷供給事業体の最適な同時入札/価格決定に関する。
本開示の一実施形態によれば、市場ベースのリソース割り当てシステムにおいて電気デバイスの動作を制御するシステムが提供される。システムは、次期時間区間のユーザによる電気デバイスのユーザ選択所望動作レベルを、送受信機を介してほぼリアルタイムで受信するように構成されたプロセッサを有する。プロセッサは、実行可能プログラムおよび記憶されたデータを有するメモリに接続される。システムは、プロセッサを使用して、次期時間区間についてユーザ選択所望動作レベルで電気デバイスを動作させるために供給される電気が利用可能である値を表すオファー額を計算することを含む。オファー額を計算することは、オファー額を得るために、ユーザ選択所望動作レベルと、現在の環境データと、ローカルリソース割り当て市場(LRAM)への過去のオファー額およびLRAMによる電気の過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用される記憶された履歴エネルギー先物市場データとを含む、次期時間区間の複数のファクタに基づいている。システムは、プロセッサを使用して、オファー額を、送受信機を介してLRAMに送信することを含む。システムは、プロセッサを使用して、電気デバイスが電気を受け取るLRAMから電気の需給均衡された価格を、送受信機を介して受信することを含む。システムは、プロセッサを使用して、ユーザ選択所望動作レベルと、現在の環境データと、LRAMからの電気の需給均衡された価格と、ユーザによる過去のユーザ選択所望動作レベル、小売電力市場(REM)における電気の過去の価格決定およびLRAMによる電気の過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用されるエネルギー先物市場からの記憶された履歴データとに少なくとも部分的に基づいて、電気デバイスを動作させる電気の小売価格を計算して小売価格を得ることを含む。オファー額および小売価格の計算は同時に行われる。システムは、プロセッサを使用して、提出されたオファー額を小売価格と比較することを含む。システムは、プロセッサを使用して、比較に基づいて電気デバイスを起動又は起動停止することを含む。
図1Aは、本開示の実施形態による、市場ベースのリソース割り当てシステムにおける電気デバイスの動作を制御する方法を示すブロック図である。
図1Aのステップ116は、受信機153を介して、ISOから履歴市場需給均衡価格および量を、LSEから卸売入札および小売エネルギー価格を、および、EUCから総エネルギー消費を受信することを含む。
図1Aのステップ126では、受信機153と通信するプロセッサ155が、動的な需要応答モデルを可能なLSE小売エネルギー価格とともに使用して、次期時間区間のEUCの総エネルギー消費を予測することを含む。
図1Aのステップ136では、プロセッサ155を使用して処理され、動的な入札応答(bid response:ビッドレスポンス)モデルを可能なLSE卸売入札とともに使用して次期時間区間のISOの市場需給均衡価格およびエネルギー量を予測する。
図1Aのステップ146では、プロセッサ155を使用して処理され、深層強化学習アルゴリズムを使用して、次期時間区間の卸売入札価格およびエネルギー量、並びに小売エネルギー価格を決定する。
図1Aのステップ156では、コントローラ157を使用して、ISOからの需給均衡された入札結果に従ってEUCデバイス135又はDER137の動作を制御する。
本開示の実施形態は、特有の態様を非限定的な例によって提供し、特定の学習期間は、解を経験的に求めるために履歴データが過去に遡る時間、例えば、1ヶ月、2ヶ月、6ヶ月を含むことができる。ただし、上記特定の学習期間は、言及されるどの学習期間にも限定されるものではなく、特定の学習期間を決定するときの幾つかの態様は、非限定的な例として、一組の以前のタイムフレームにおける精度のレベルを含むことができる。さらに、所望の動作レベルに関するユーザ入力を考慮すると、本開示の幾つかの方法は、可能なオファー額および可能な小売価格を決定することができ、これに続いて、オファー額および小売価格を比較し、最終的に、デバイスの起動又は起動停止の決定を行うことができる。本開示の方法およびシステムの幾つかのうち少なくとも1つの態様は、需要応答(demand response:デマンドレスポンス)アグリゲーターに適用することができる。
図1Bは、本開示の幾つかの実施形態による、LSEの最終使用顧客の制御の構成要素およびステップを示す概略図である。LSE110は、独立系統運用機関(ISO)140が運用することができる電力システム115から電気を受け取る。EUC130の制御システムは、コンピュータ151若しくは同様のデバイス、又は複数のコンピュータを含むことができる。このコンピュータは、異なるロケーションに配置することができ、互いに通信することができるものと考えられる。さらに、コンピュータの他の構成要素は、他のロケーションに配置することができるが、ネットワーク又は幾つかの同様の装置を介して接続される。
図1Bを更に参照すると、EUC制御システムの受信機153は、ISOから履歴市場需給均衡価格およびエネルギー量を、LSEから卸売入札および小売エネルギー価格を、および、EUCから総エネルギー消費を受信する(ステップ116)。
受信機153と通信するプロセッサ155は、その後、動的な需要応答モデルを可能なLSE小売エネルギー価格とともに使用して次期時間区間のEUCの総エネルギー消費を予測し(ステップ126)、動的な入札応答モデルを可能なLSE卸売入札とともに使用して次期時間区間のISOの市場需給均衡価格およびエネルギー量を予測する(ステップ136)。
可能な需要応答および入札応答が得られた後、プロセッサ155は、深層強化学習アルゴリズムを使用して、次期時間区間の卸売入札価格およびエネルギー量、並びに小売エネルギー価格を決定する(ステップ146)。
図1Bを更に参照すると、LSE110のEUC130の制御システム100は、次期時間区間の決定された卸売入札および小売価格をISO140およびEUCに送信し、コントローラ157は、ISO140から受信機153を介して受信されたISOからの需給均衡された入札結果に従ってEUCデバイス又はDERの動作を制御する(ステップ156)。
任意選択で、EUCデバイス100の動作の制御システムは、システムエネルギーデータおよび価格データをコンピュータ可読メモリ144に記憶することができる。このコンピュータ可読メモリは、プロセッサ155およびコントローラ157と通信する。さらに、入力インターフェース145が、メモリ144並びにプロセッサ155およびコントローラ157と通信することができることも可能である。例えば、ユーザは、入力インターフェース145のユーザインターフェースを介して、予測された所定の条件、例えば、EUCの総エネルギー消費を入力することができる。受信機、プロセッサおよびコントローラは、特定の用途に応じて、単一のコンピュータシステムとすることもできるし、異なるロケーションに配置された複数のコンピュータシステムとすることもできるものと考えられる。
図1Cは、本開示の実施形態による、図1Aのシステムを示すブロック図である。詳細には、図1Cは、電力市場環境下における電力システム115を示している。電力システムは、このシステムから電力を受け取る、電力購入者と呼ばれる一組の負荷供給事業体(LSE)110Aおよび110Bを含むことができる。各LSE110Aおよび110Bは、複数の最終使用顧客(EUC)130Aおよび130B、130Cおよび130Dを有することができる。各最終使用顧客は、電力を消費する電気デバイス135を有することができるとともに、電力を生産する分散型エネルギーリソース(DER:distributed energy resource)136も有することができる。電力を消費するEUCは、消費型EUCと呼ぶことができ、電力を生産するEUCは、生産型EUCと呼ぶことができる。生産型EUCからのDER136によって生産される電力は、負の需要として扱うことができる。電力生産者120、負荷供給事業体110、および最終使用顧客130は、1つ以上のバス又は1つ以上のタイプの変電所を通して電力システム115と接続される。
電力システム115は、システムへの電力を生産する一組の発電所120Aおよび120Bも含むことができる。各電力生産者120Aおよび120Bは、発電機と呼ばれる複数の発電ユニット150を有することができる。EUC130Aおよび130B、130Cおよび130Dは、送電線160によって接続されたネットワークを通して発電所120Aおよび120Bによって提供される電力を消費する。独立系統運用機関(ISO)140は、生産者とLSEとの間の協調を担当し、電力システム115の安定した動作を維持する。通信ネットワークは、通信リンク170を通じたISO140と生産者120又はLSE110との間の情報の交換に使用することができる。LSE110は、ISO140から電力を購入し、EUC130に転売する。EUC130は、配電線160を通してLSE110と接続することができ、通信リンク170を通してLSEと通信することもできる。図1Cには、一例として、2つのLSE110Aおよび110B、4つのEUC130A、130B、130Cおよび130Dがある。LSEは、ISOから購入する電力の量、すなわち入札方策と、EUCに請求する電力の価格、すなわち価格決定方策とを決定する。本開示の一態様は、LSEの最適な同時入札/価格決定戦略を求めることに焦点を当てる。
図2は、本開示の幾つかの実施形態による、負荷供給事業体の同時入札/価格決定計画を決定する幾つかの方法ステップを示すブロック図である。
この図は、準備のオフラインステップと、時間区間にわたって反復する一組のオンラインステップとを含む。リアルタイムアプリケーションをトリガーする前に、入札方策関数および価格決定方策関数と、動的な需要応答関数および入札応答関数とが、ステップ210において履歴データを使用してオフラインでトレーニングされる。このステップが完了した後、トレーニングされた方策関数および応答関数が、次期時間区間のLSEのリアルタイム入札および価格の意思決定を反復して行うのに使用される。ステップ220が、次期時間区間のトレーニングされた入札方策関数および価格決定方策関数を使用して卸売入札および小売価格を決定する。その後、ステップ230において、次期時間区間の決定された卸売入札がWEMに送信され、次期時間区間の小売エネルギー価格がREMに掲示される。ステップ240が、動的な需要応答関数および入札応答関数を使用して入札および価格に基づいて、EUCの総エネルギー消費およびWEMの需給均衡結果を推定し、それに応じて、ステップ250において、入札方策関数および価格決定方策関数が、性能改善のために応答結果を用いて更新される。
本開示の幾つかの実施形態は、効果的なRLアルゴリズムである深層決定論的方策勾配(DDPG:deep deterministic policy gradient)アルゴリズムによって解かれるLSEの同時入札/価格決定問題用に開発されたMDP定式化を含む。ニューラルネットワークによって表される動的な入札応答関数および価格応答関数が、WEMおよびEUCをそれぞれモデル化するために履歴データから学習される。これらの応答関数は、WEM需給均衡結果およびEUCの時刻間相関を明確に又は暗黙的に捕捉し、DDPGアルゴリズムによって必要とされる状態遷移サンプルを、コストを伴なうことなく生成するのに利用される。
(卸売エネルギー市場モデルおよび小売エネルギー市場モデル)
電力産業では、負荷供給事業体(LSE)が、その最終使用顧客(EUC)からの需要を満たすように、電気/エネルギーの入札を、独立系統運用機関(ISO)によって運用される卸売電力市場(WEM)に提出する必要がある。LSEは、EUCがLSEに利益を与えるようにそれらのエネルギー消費行動を変化させることを奨励するようにLSEが運用する小売電力市場(REM)におけるリアルタイムエネルギー価格を決定することができる。この状況において、入札問題に加えて、LSEは、価格決定問題、すなわち、EUCに請求されるエネルギー価格の決定にも直面する。
本開示の幾つかの実施形態は、エネルギー入札およびエネルギー価格が共通の目的を共有する2つの行動であるマルコフ決定過程(MDP)として定式化される同時入札/価格決定問題を含む。そうすることによって、長期におけるLSEの累積利潤の考慮が可能になる。WEMモデルおよびEUCモデルを知る必要なくこのMDPを解くために、深層決定論的方策勾配(DDPG)アルゴリズムである方策ベースの強化学習(RL)アルゴリズムが、状態から最適な行動を決定する入札方策および価格決定方策を学習するために適用される。WEMにおける他の市場参加者のモデルおよびREMにおける全てのEUCのモデルは事前に知られていない。このために、ニューラルネットワークが適用され、LSEの観点から、WEMとEUCの集合行動とをそれぞれモデル化するように履歴データから入札応答関数および価格応答関数が学習される。これらの応答関数は、WEM需給均衡結果およびEUC応答の時刻間相関を明確に捕捉することができ、コストを伴うことなく状態遷移サンプルを生成するのに利用することができる。より重要なことに、それらは、MDP定式化における状態の選択も特徴付ける。
図3は、本開示の幾つかの実施形態による、ISO、LSE、およびEUCの間のインタラクションを示す概略図である。例えば、本開示の幾つかの実施形態は、ISOによって運用されるWEMと、LSEによって管理されるREMと、一組のEUCとからなる階層的市場モデルを含む。図3は、LSE310、ISO320、およびEUC330の間のインタラクションを示している。この図3で使用される表記については、後に紹介する。この開示の全体を通して、全てのベクトルおよび行列はボールド体またはイタリック体で記載される。下付き文字tは、時間区間tにおける変数の値を示す。
1日は、集合
Figure 0007113968000001
内の要素によってインデックス付けされるT個の時間区間に分解されると仮定する。tを時間区間のインデックスとすると、
Figure 0007113968000002
となる。ここで、modはモジュロ演算を表す。通常、1つの区間の継続時間は、特定の市場に応じて、5分、15分、30分、又は60分とすることができる。本開示は、リアルタイムエネルギー市場において行われる活動にのみ焦点を当てる。
図4Aは、本開示の幾つかの実施形態による、WEMとREMとの間の同期された行動メカニズムの下での区間tのリアルタイム市場における行動のタイムラインを示す概略図である。図4Bは、本開示の幾つかの実施形態による、WEMとREMとの間の同期されていない行動メカニズムの下での区間tのリアルタイム市場における行動のタイムラインを示す概略図である。図4Aおよび図4Bは、リアルタイム市場において異なる関係者によって取られる行動系列を示している。すなわち、図4Aは、WEMとREMとの間の同期された行動メカニズムであり、図4Bは、対照的に、WEMとREMとの間の同期されていない行動メカニズムである。
時間区間tの前に、販売者および購入者を含む各市場参加者は、時間区間tのエネルギーオファー/入札を提出する(410)必要がある。次に、WEM460が需給均衡され(420)、卸売エネルギー価格と、販売者および購入者ごとにそれぞれ需給均衡に成功したエネルギーの販売および購入とが得られる。その一方で、WEM460における購入者であるLSE450も、エネルギーをREM450におけるその顧客、すなわち、EUC470に転売する時間区間tの小売エネルギー価格(価格と略称される)を決定する(425)。時間区間tの間に、EUC470は、それらのエネルギー消費を調整することによって価格信号に応答する(430)。LSE450は、EUC470によって消費されたエネルギーについてISO460に支払いを行う必要がある。一方で、LSE450は、EUC470から代金の回収も行う。時間区間tの後に、これらの2つの市場におけるエネルギー取引からもたらされる利潤の総額を評価することができる(440)。このプロセスは、全ての時間区間について繰り返される。
図4Aおよび図4Bを更に参照すると、同期された行動メカニズムを使用すると、LSEは、WEMおよびREMに関するその行動を同時に決定し(444)、電力を購入/転売するエネルギー量および価格を、卸売市場と小売市場との間で互いに整合させることもできる。同期されていない行動メカニズムを使用すると、WEM行動410およびREM行動425の決定を異なる時刻に行うことができる。一方で、電力を購入/転売するエネルギー量および価格は、卸売市場と小売市場との間で異なる可能性がある。その上、2つの行動集合間の不整合をバランスさせるために、DER435を制御するステップ等の追加のステップが必要とされる場合がある。
卸売市場は、販売者の集合および購入者の集合からなる。販売者の集合を
Figure 0007113968000003
で表し、購入者の集合を
Figure 0007113968000004
で表すことにする。各販売者
Figure 0007113968000005
は、時間区間tの間にエネルギーを販売する用意がある最低価格を指定するf (・)によって表されるオファー(すなわち、逆供給関数)を提出する。具体的には、f (q )は、販売者gが時間区間tの間にエネルギーをq の量で販売する用意がある最低価格である。同様に、各購入者
Figure 0007113968000006
は、時間区間tの間にエネルギーを購入する最高価格を指定するf (・)によって表される入札(すなわち、逆需要関数)を提出する。具体的には、f (q )は、購入者が時間区間tの間にq の量でエネルギーを購入する最高価格である。
図4Aおよび図4Bを更に参照すると、次に、基幹電力システムが無損失および無輻輳であると仮定すると、ISOは、以下の社会的余剰最大化問題を解くことによってWEMを需給均衡させる。
Figure 0007113968000007
ただし、
Figure 0007113968000008
を条件とする。ここで、(1b)は電力バランス方程式であり、λは制約(1b)に関連付けられた双対変数であり、Qは、以前の時間区間における市場の需給均衡結果に依存し得る決定変数の実現可能集合である。制約(1c)は、容量制限、エネルギー制限、出力変化率(ramp rate)制限等の全ての物理的制約、並びに、現金準備(reserve requirement)、および線路潮流(line flow)制限等のセキュリティ制約を捕捉することができる。便宜上、需給均衡された総エネルギー販売/購入をqによって表すことにする。すなわち、
Figure 0007113968000009
である。
(1)の解は、需給均衡されたエネルギー販売および購入と、各市場参加者の卸売エネルギー価格とを与える。均一価格市場では、全ての市場参加者は、λに等しい均一価格を受信する。WEMが競争的であるとき、単一の市場参加者は、通常、需給均衡価格に影響を与える能力を有せず、それが限界単位である見込みは低い。そのような状況では、λが与えられると、非限界的であるときの購入者bの需給均衡されたエネルギー購入は、以下のように計算することができる。
Figure 0007113968000010
図4Aおよび図4Bを更に参照すると、WEM需給均衡問題(1)は、逆供給関数および逆需要関数が与えられると、需給均衡量および需給均衡価格が決定論的に確定されるという意味で決定論的問題である。しかしながら、これらの関数は、市場参加者が、確認された市場の需給均衡結果に基づいて自身の戦略を調整する場合があるので、異なる時間区間において変化する場合がある。
開示された方法論は、損失および送電線輻輳が考えられる事例を取り扱うように容易に拡張することができることに留意されたい。一例として、単純ではあるが代表的な事例を、より多くの見識を提供することを目的としてここに提示する。
WEMでは、LSEは、入札を通じてエネルギーを購入する購入者として参加する。一般性を失うことなく、考慮対象のLSEはWEMにおける購入者bであると仮定する。LSEは、購入したエネルギーを小売エネルギー市場(REM)において一組のEUCに転売し、LSEが決定する必要がある通常の規制価格でそれらのEUCに料金請求する。時間区間tにおける価格をν によって表し、WEMから購入したエネルギーをq によって表すことにする。
このLSEによって対応されるREMにおけるEUCの集合を
Figure 0007113968000011
によって表すことにする。EUC
Figure 0007113968000012
について、このEUCは、d によって表されるそのエネルギー消費を調整することによって価格ν に応答する。時間区間tの間に変電所において測定される全てのEUCの総エネルギー消費をdによって表す。すなわち、
Figure 0007113968000013
である。次に、LSEの目的は、エネルギーバランス制約を条件として、時間区間t以後に得られるその利潤を最大にすることであり、これは、以下のように数学的に表すことができる。
Figure 0007113968000014
ここで、
Figure 0007113968000015
は期待値演算を表し、γ∈[0,1]は、将来の利潤(すなわち、式3に関する将来の利潤の期待値)を割り引く割引係数であり、φτ(・)は、総エネルギー消費がエネルギー購入から逸脱するときに被るコストを計算する非負のスカラー関数であり、
Figure 0007113968000016
および
Figure 0007113968000017
は、それぞれ最低価格および最高価格である。λτおよびqτ は(1)を通じてWEMによって求められる一方、dτは(4)を通じてEUCによって求められることに留意されたい。ISOへの支払いが、例えば、1日前市場における需給均衡されたエネルギー購入qτ に基づいて計算される場合には、転売から得られる利潤は、(ν ττ-λττ )として求めることもできる。
REMの購入者は最終使用顧客である。各時間区間tの開始時に、EUC c、
Figure 0007113968000018
は、価格ν をLSEから受信し、次に、その全体の利潤を最大にするようにそのエネルギー消費を最適化する。一般的なEUCモデルは、基礎をなす構成要素に対して不可知論的である。時間区間tにおけるEUC cのエネルギーニーズをe によって表すことにする。近視眼的なEUCは、以下の効用最大化問題を解くことを介してその最適な行動を見つける。
Figure 0007113968000019
ただし、
Figure 0007113968000020
を条件とする。ここで、β(・)は、或る特定のエネルギーニーズおよびエネルギー消費におけるEUCの利益を与える利益関数であり、η ∈[0,1]は、次の時間区間に繰り越される、満たされていないエネルギーニーズのパーセンテージを表す受注残率(backlog rate)であり、ξ は、新たに生成された増分エネルギーニーズをモデル化する確率変数であり、D は、エネルギー消費の実現可能集合である。
(同期された行動メカニズムの下での同時入札/価格決定問題定式化)
本開示の幾つかの実施形態は、卸売電力市場(WEM)に提出されるエネルギー入札と、その総利潤を最大にしようとする負荷供給事業体(LSE)のために小売電力市場(REM)において請求されるエネルギー価格とを同時に決定する問題に対処することを含む。この同時入札/価格決定問題は、エネルギー入札およびエネルギー価格が共通の目的、すなわち利潤最大化を共有する2つの行動である、連続した状態空間および行動空間を有するマルコフ決定過程(MDP)として定式化される。
まず、動的な入札応答関数および価格応答関数を紹介し、その後に、入札方策および価格決定方策を紹介する。次に、LSEによって取り組まれる同時入札/価格決定問題をMDPとして定式化する。
LSEの観点から、LSEは、入札問題として、時間区間tの入札f を決定しなければならず、価格決定問題として、時間区間tの価格ν を決定しなければならない。f は、パラメータベクトル
Figure 0007113968000021
によって特徴付けられるものと仮定する。時間区間t-n~t-1のWEM需給均衡結果の集合を
Figure 0007113968000022
によって表すことにする。次に、以下のようにψ(・)によって表される、n次入札応答関数を使用して(1)を通じて定義されるLSEとWEMとの間のインタラクションをモデル化する。
Figure 0007113968000023
ここで、(t mod T)は、時間依存性をモデル化するために含まれる。需給均衡されたエネルギー購入は、(2)を用いて計算することができる。完全競争WEMの場合に、需給均衡結果に対する
Figure 0007113968000024
の影響は無視することができ、(5)は、需給均衡結果の動態を本質的にモデル化する。入札応答関数の背後にある核となるアイデアは次のとおりである。全ての市場参加者は、以前の時間区間のWEM需給均衡結果に基づいて時間区間tの決定を行うものと仮定する。LSEの観点から、WEM需給均衡結果は、その入札
Figure 0007113968000025
が与えられると、以前のWEM需給均衡結果からλ、q、q に進展する。他の市場参加者の行動からの影響は、この入札応答関数に暗黙的に含まれる。したがって、nが十分に大きいとき、n次入札応答関数は、WEMにおける動態を十分に捕捉することができる。
その一方で、LSEは、(4)における完全なパラメータではなく、リアルタイムの総エネルギー消費dに関する情報しか有しない場合がある。
したがって、(4)における完全なEUCモデルを採用するのではなく、以下のように、φ(・)によって表されるn次価格応答関数を使用して、(4)における一組の問題を通じて定義される全てのEUCの集合行動を特徴付けることにする。
Figure 0007113968000026
=0である特殊なケースでは、EUCの総エネルギー消費は、現在の時間区間における価格にのみ依存する。価格応答関数の背後にある核となるアイデアは、入札応答関数のものと同様である。完全なWEMモデルおよびEUCモデルと比較すると、応答関数は、LSEに利用可能なデータから学習するのがより容易である。
LSEによって解かれる同時入札/価格決定問題の少なくとも1つの目的は、利用可能な情報に基づいて入札および価格を決定することである。前述したように、時間区間tの前に、LSEに利用可能なWEMに関係した情報は、∀τ≦t-1の
Figure 0007113968000027
、λτ、qτ、qτ を含む。一方で、LSEに利用可能なREMに関係した情報は、∀τ≦t-1のν τ、dτを含む。時間区間tのWEMが需給均衡される前にLSEに利用可能な情報の集合を
Figure 0007113968000028
によって表すことにする。
入札問題および価格決定問題は、本来的に結合され、したがって、同時に検討する必要がある。均一価格市場では、LSEの入札は、その入札価格がλ以上である限り需給均衡される。一方で、エネルギー購入および総エネルギー消費の不整合に起因して被るコストを最小にするには、総エネルギー消費に等しいエネルギーの量に入札を行うことが確かに望ましい。実際のところ、λが、いずれのν についても、
Figure 0007113968000029
による影響を受けないとき、(3)において定義される利潤を最大にする最適な入札
Figure 0007113968000030
は、qτ =dτを与える入札である。本質的に、REMの最適な価格ν を見つけ、次に、このν から入札を作成することのみが必要である。
π(・)によって表される決定的価格決定方策を、
Figure 0007113968000031
を価格ν にマッピングする以下の関数として定義する。
Figure 0007113968000032
また、
Figure 0007113968000033
によって表される決定的入札方策を、
Figure 0007113968000034
およびν を入札
Figure 0007113968000035
にマッピングする以下の関数として定義する。
Figure 0007113968000036
一例として、入札
Figure 0007113968000037
は、$/MWhによる入札価格ω と、MWhによる入札量ω との2つの構成要素からなるものと仮定する。その場合、最適な入札方策
Figure 0007113968000038
は、ω ν に設定されるとともに、ω が、価格応答関数φを使用して得られる推定された総エネルギー消費に設定されるようになっているものである。したがって、φにおけるパラメータ以外に学習する必要がある追加のパラメータは、
Figure 0007113968000039
にはない。
同時入札/価格決定問題は、マルコフ決定過程(MDP)として定式化される。MDPは、状態空間と、行動空間と、報酬関数と、マルコフ性、すなわち、現在の状態および行動が与えられると、次の状態が過去における全ての状態および行動から独立していることを満たす遷移確率関数とからなる。具体的には、同時入札/価格決定問題では、時間区間tにおける状態は、
Figure 0007113968000040
であると定義される。時間区間tの行動は、aν であると定義される。前セクションにおいて論述したように、
Figure 0007113968000041
は、一組の決定的手順を通じてν から作成することができる。状態空間および行動空間の双方は連続的である。
Figure 0007113968000042
およびaが与えられると、
Figure 0007113968000043
が、(5)および(6)を通じて求められる。したがって、マルコフ性は満たされている。一方、遷移確率関数は、WEMにおける全ての市場参加者およびREMにおける全てのEUCによって求められ、LSEには知られていない。
次に、価格決定方策は、等価的に、
Figure 0007113968000044
となることができ、入札方策は、等価的に、
Figure 0007113968000045
として記述することができる。
同時入札/価格決定問題の目的は、LSEの利潤を最大にすることである。したがって、時間区間tの報酬は、以下のように、LSEによって得られる利潤であると定義される。
Figure 0007113968000046
ここで、φ(・)は、(3)のように、総エネルギー消費が需給均衡されたエネルギー購入から逸脱したときに被るコストを計算する。Rによって表され、リターンと呼ばれる時間区間t以後の累積割引報酬は、
Figure 0007113968000047
である。ここで、γ∈[0,1]は割引係数である。
Figure 0007113968000048
によって表される、行動aおよび状態
Figure 0007113968000049
における価格決定方策πおよび入札方策
Figure 0007113968000050
の下でのQ関数とも呼ばれる行動値関数が、以下の式として定義される予想リターンである。
Figure 0007113968000051
(・,・)によって表される最適な価格決定方策πおよび最適な入札方策
Figure 0007113968000052
の下でのQ関数は、ベルマン最適化方程式を満たす。
Figure 0007113968000053
ここで、
Figure 0007113968000054
は、状態が、
Figure 0007113968000055
を条件として、
Figure 0007113968000056
に遷移する確率であり、Sは状態空間である。
φが得られると、
Figure 0007113968000057
を学習する必要はないので、同時入札/価格決定問題は、本質的に、以下の性能関数を最大にするπを見つけることになる。
Figure 0007113968000058
この性能関数は、所与の入札方策および価格決定方策の下での予想リターンを与える。MDP問題は、後に詳述する強化学習(RL)アルゴリズムを利用して解くことができる。
(入札/価格応答の学習アルゴリズム)
RLアルゴリズムにおいて、遷移
Figure 0007113968000059
は、良好な方策の学習に極めて重要である。通常、良好な方策を学習するには、多数の遷移サンプルが必要とされる。遷移を得る1つの手法は、十分なサンプルが取得されるまで、実際の環境からオンラインでサンプリングを行うこと、すなわち、ISOおよびEUCと直接インタラクトすることからサンプルを得ることである。しかしながら、この手法は、効率的な方法でサンプルを利用しない。加えて、これは、行動精査(action exploration)中にLSEの大幅なコストを招くおそれがある。
代わりに、履歴データから入札応答関数ψおよび価格応答関数φを学習することができ、これらの学習された応答関数を実際の環境の代わりとして使用することができる。学習された応答関数は、これらの遷移サンプルを新たな遷移に一般化することができ、十分に正確である場合には、コスト増加を招くことなく、良好な入札方策および価格決定方策の学習を可能にする。応答関数学習問題は、教師あり学習問題として割り当てることができる。この学習アルゴリズムの目的は、出力の予測された値と実際の値との間の平均二乗誤差を最小にすることである。
WEMおよびEUCの時間的挙動を明確に捕捉するために、時間とともに進展する状態を有する(5)および(6)に示すような動的な入札応答モデルおよび需要応答モデルが使用される。動的モデルにおける状態は、以前の時間区間からの必要な情報を保持し、WEM応答およびEUC応答のより正確な予測を可能にする。これらの状態は、(5)および(6)に基づいて明確に選ぶことができる。この場合には、このモデルは、線形関数又は多層フィードフォワードニューラルネットワーク(FNN)によって表すことができる。或いは、これらの状態は、暗黙的に選ぶことができ、この場合には、このモデルは、リカレントニューラルネットワーク(RNN)又は長短期記憶(LSTM)ユニットネットワークによって表すことができる。
入札応答モデルは、卸売市場需給均衡結果とLSE入札との間の関係を表すのに使用される。このモデルは、次期時間区間における市場需給均衡された結果を出力として取り、次期区間のLSE入札および次期時間区間の前の時間区間における卸売市場需給均衡結果の双方を入力として取る。卸売需給均衡結果は、需給均衡された価格および電気/エネルギーの量を含む。次期時間区間の需給均衡された結果に対する以前の卸売市場需給均衡結果の影響、すなわち、卸売市場挙動の固有の時間相関、を考慮することによって、実際の入札応答と入札応答モデルを使用して計算された応答との間の不整合が削減される。
一方、価格応答モデルは、最終使用顧客の総エネルギー消費と小売価格との間の関係を表すのに使用される。このモデルは、総エネルギー消費を出力として取る。電気価格をその入力のうちの1つとして取ることに加えて、この関数は、EUC挙動の固有の時間相関をシミュレーションするために、以前の時間区間における総エネルギー消費および価格も入力として取る。
図5は、本開示の幾つかの実施形態による、入札/価格応答関数のモデル化に使用されるFNNおよびRNNの構成を示す概略図である。例えば、FNNおよびRNNの構成は、入札/価格応答関数のモデル化に使用される。入力ユニット510、出力ユニット520、全結合ユニット530、およびRNNユニット540を含む4つの異なるユニットを、FNN又はRNNを構成するのに使用することができる。図6は、全結合層610および要素単位演算620が使用されるLSTMユニット630の構造を示している。
線形関数又は多層フィードフォワードニューラルネットワーク(FNN)を使用するとき、入力および出力は明確に選ばれる。入札応答関数を学習するとき、入力は、
Figure 0007113968000060
および
Figure 0007113968000061
であり、出力は{λ,q,qτ }である。価格応答関数を学習するとき、入力は、
Figure 0007113968000062
およびν であり、出力はdである。
図5を更に参照し、EUCの価格ベースの需要応答のモデル化を例に取ると、(4)に表された動的な需要応答関数φは、例えば、以下のように線形関数を使用して表すことができる。
Figure 0007113968000063
ここで、
Figure 0007113968000064
は重みベクトルであり、
Figure 0007113968000065
であり、bはバイアスであり、上付き文字
Figure 0007113968000066
はベクトル又は行列の転置を表す。
図5を更に参照すると、φは、図5の左部に示すように1つの入力層、L個の隠れ層、および1つの出力層からなる多層FNN等の非線形関数を用いて表すこともできる。隠れ層lは、入力ベクトル
Figure 0007113968000067
510を取り込み、(隠れ)出力ベクトル
Figure 0007113968000068
を以下の式に従って計算する。
Figure 0007113968000069
ここで、relu(・)は、要素ごとに適用される正規化線形ユニット関数を表し、
Figure 0007113968000070
は重み行列であり、
Figure 0007113968000071
はバイアスベクトルである。最後の隠れ層を除いて、1つの隠れ層の出力ベクトルは次の隠れ層の入力ベクトルである。すなわち、
Figure 0007113968000072
であることに留意されたい。最後の隠れ層の出力は、以下のように全結合ユニットを通じて出力にマッピングされる。
Figure 0007113968000073
ここで、
Figure 0007113968000074
は重み行列である。
Figure 0007113968000075
はバイアスベクトルである。多層FNNは、予測された出力yと真の値dとの間の平均二乗誤差が最小になるようにバックプロパゲーションアルゴリズムを使用して、すなわち、以下の損失関数
Figure 0007113968000076
を最小にすることによって、トレーニングすることができる。
Figure 0007113968000077
ここで、mtrは、FNNトレーニングのサンプルの総数である。
或いは、動的需要応答は、ニューラルネットワーク内で暗黙的にモデル化することができる。このニューラルネットワークは、結果として、RNN、すなわち、リカレントニューラルネットワークになる。図5の右部は、1つの入力層、L個の隠れ層、および1つの出力層を有する多層RNNを示している。
Figure 0007113968000078
によって表される層lにおけるRNNユニットの隠れ状態は、図5における矢印によって示すように、次の層におけるRNNユニットの入力および次の時間ステップにおけるそれ自体の入力である。このRNNは、系列
Figure 0007113968000079
を入力として取り、系列{y,...,yT-1}を出力する。一方で、隠れ状態のL個の系列
Figure 0007113968000080
が、以下の式に基づいて軌線に沿って生成される。
Figure 0007113968000081
ここで、tanh(・)は要素ごとに適用される。
Figure 0007113968000082
および
Figure 0007113968000083
は重み行列である。
Figure 0007113968000084
はバイアスベクトルである。
Figure 0007113968000085
は0に初期化され、l=2,...,Lの場合に
Figure 0007113968000086
であり、
Figure 0007113968000087
であることに留意されたい。RNNにおける隠れ状態は、それらの値がそれらの以前の値にも依存するので動的である一方、FNNにおける隠れ状態は、それらの値が単に入力にしか依存しないので静的である。最後の隠れ状態ベクトルの出力は、多層FNNの場合と同様に、全結合ユニットを通じて出力にマッピングされる。RNNは、バックプロパゲーションスルータイム技法を使用して、(18)と同じ損失関数を最小にすることによってトレーニングすることができる。入力ベクトルは、直近の情報のみ、すなわち、RNNが使用されるときは、n=1および
Figure 0007113968000088
のみを含まなければならない。
図5を更に参照すると、動的需要応答モデルを表す際のRNNとFNNとの間の少なくとも1つの重要な相違は、FNNが、一組の履歴データを入力として明確に指定することによって時間的影響を捕捉する一方、RNNは動的な隠れ状態を暗黙的に計算することによって時間的影響を保持することである。基本的なRNNユニットの不備の1つは、長期の依存関係をモデル化することができないということである。基本的なRNNユニットを大幅に改良したものとして、LSTMが使用される。
図6は、本開示の幾つかの実施形態による、LSTMユニットの構造を示す概略図である。例えば、多層LSTMネットワークは、図5におけるRNNと同様であり、RNNユニットがLSTMユニットに置き換えられている。LSTMユニットの構造は図6に示され、図6において、σ(・)はシグモイド関数を表す。簡略化するために、層を示す上付き文字を削除し、1つのLSTMユニットの内部構造に焦点を当てることにする。LSTMユニットは、長期記憶を維持するのに使用される新たな隠れ状態ベクトル
Figure 0007113968000089
を導入する。LSTMユニットは次のように動作する。まず、忘却ゲートベクトル
Figure 0007113968000090
、情報ゲートベクトル
Figure 0007113968000091
、および出力ゲートベクトル
Figure 0007113968000092
が、以前の隠れ状態
Figure 0007113968000093
および新たな入力ベクトル
Figure 0007113968000094
から以下のように計算される。
Figure 0007113968000095
次に、2つの隠れ状態ベクトルが以下のように更新される。
Figure 0007113968000096
ここで、
Figure 0007113968000097
は要素ごとの乗算を表す。この構造は、長期の時間的依存関係を捕捉する際に非常に効果的であることが分かっており、したがって、動的なDRモデルを表すときに基本RNNユニットよりも性能が優れていると予想される。
同様に、入札応答関数も、需要応答関数と同様に直接的又は間接的な手法を使用してモデル化することができる。
図5および図6を更に参照すると、動的なモデルを使用して、本質的に時間相関するISO又はEUCの入札応答特性又は価格応答特性を、LSE入札および価格決定のプロセスにおいて正確に考慮することができる。上述した手法の中で、FNN、RNN、およびLSTMは、モデルの複雑度がより高くなることを代償にして、線形関数よりも性能が優れている。特に、RNN又はLSTMが使用されるとき、状態の手動の選択は必要とされない。
(同期された行動メカニズムの下での入札/価格決定方策の学習アルゴリズム)
入札応答関数および価格応答関数を取得した後、次に、価格決定方策πの学習アルゴリズムを論述することができる。最適な入札方策は、入札応答関数から直接導出することができるので、その結果、φにおけるパラメータ以外に、入札方策
Figure 0007113968000098
において追加のパラメータを学習する必要はない。πは、ベクトル
Figure 0007113968000099
によってパラメータ化されるものと仮定する。その場合、最適な価格決定方策を見つけることは、本質的に、
Figure 0007113968000100
の最適な値を見つけることである。
Figure 0007113968000101
の(準最適な)値を見つけることができるRLアルゴリズムの1つのタイプは、性能関数J(π)を最大にする方向にパラメータベクトルを更新する方策勾配法である。Jの勾配は、決定論的方策勾配定理に従って計算することができる。具体的には、行動勾配と呼ばれる
Figure 0007113968000102
に関するJの勾配は、以下のとおりである。
Figure 0007113968000103
性能関数Jの勾配は、知られておらず推定する必要がある行動値関数Qに依存することに留意されたい。深層決定論的方策勾配(DDPG)ベースのRLアルゴリズムが、同時入札/価格決定最適化問題を解くのに使用される。
図7Aは、本開示の幾つかの実施形態による、同期された行動メカニズムの下での同時入札/価格決定アルゴリズムにおいて使用される構成要素のアクタークリティック構造およびインタラクションを示す図である。例えば、図7Aは、DDPGアルゴリズムの構造と、このアルゴリズムにおける各構成要素のインタラクションとを示している。DDPGアルゴリズムでは、クリティック730がQ関数を推定するのに使用されるとともにアクター720が方策を推定するのに使用されるアクタークリティックアーキテクチャが採用される。ニューラルネットワークが、これらの関数を近似するために採用される。同時入札/価格決定問題に特有のものとして、パラメータベクトル
Figure 0007113968000104
を有するクリティックネットワーク736と呼ばれるニューラルネットワークによってQ関数を表すことにする。クリティックネットワークのパラメータは、時間的差分学習等の方法を使用して推定することができる。一方、価格決定方策は、パラメータベクトル
Figure 0007113968000105
を有する価格決定方策ネットワーク726と呼ばれるニューラルネットワークによって表される。入札方策も、学習された入札応答関数からなるニューラルネットワーク727によって表される。入札方策ネットワークおよび価格決定方策ネットワークは、アクターネットワークと総称される。価格決定方策ネットワークのパラメータは、方策勾配法を使用して推定することができる。
ニューラルネットワークを使用することに加えて、DDPGアルゴリズムには、2つのより重要なアイデアがある。第1に、そのパラメータがアクターネットワークおよびクリティックネットワークのパラメータにゆっくりと追従するターゲットネットワークが、このアルゴリズムを安定させるために使用される。クリティックのターゲットネットワーク735のパラメータベクトルは、
Figure 0007113968000106
によって表され、価格決定ネットワークのターゲットネットワーク725のパラメータベクトルは、
Figure 0007113968000107
によって表される。第2に、リプレイバッファ
Figure 0007113968000108
がMDPの遷移を記憶するために使用され、各時点において、サイズmのミニバッチが、
Figure 0007113968000109
からサンプリングされ、勾配を推定するために使用される。トレーニングステージでは、WEM715およびEUC716の代わりをするために応答関数が使用されることに留意されたい。WEM715およびEUC716は環境710を構成する。WEMおよびEUCの挙動は、リアルタイムの適用中に実際のデータ/測定値を使用して表すことができ、トレーニング又は予測を目的として入札応答関数および価格応答関数を使用してシミュレーションすることもできる。
図7Aを更に参照すると、同時入札/価格決定問題を解くための詳細なDDPGベースのRLアルゴリズムが、アルゴリズム1に提示される。各ステップにおいて、
Figure 0007113968000110
が、以下の損失関数
Figure 0007113968000111
を最小にする方向に更新される。
Figure 0007113968000112
これは、(13)のベルマン最適化方程式を満たすクリティックネットワークを実際に見つけるためのものである。ターゲットネットワークは、行動値および次の行動、すなわち、
Figure 0007113968000113
を計算するのに使用されることに留意されたい。一方、
Figure 0007113968000114
は、性能関数Jを最大にする方向、具体的には、以下のようにサンプルを使用して近似される行動勾配の方向に更新される。
Figure 0007113968000115
アルゴリズム1:DDPGベースの方策学習アルゴリズム
入力:ψ,φ,α,α,M,m
出力:π
1.クリティックネットワーク
Figure 0007113968000116
およびアクターネットワーク
Figure 0007113968000117
を、それぞれ重み
Figure 0007113968000118
および
Figure 0007113968000119
を用いてランダムに初期化する。
2.ターゲットネットワークQ’およびπ’を、それぞれ重み
Figure 0007113968000120
および
Figure 0007113968000121
を用いて初期化する。
3.リプレイバッファ
Figure 0007113968000122
を初期化する
4.for episode=1,...,M do
5.価格精査のためのランダム過程ζを初期化する
6.初期状態
Figure 0007113968000123
を受信する。
7.for τ=0,...,T-1 do
8.小売エネルギー価格を
Figure 0007113968000124
に従って選択する
9.卸売入札を
Figure 0007113968000125
に従って選択する
10.λτ,qτ,qτ
Figure 0007113968000126
から取得し、dτ
Figure 0007113968000127
から取得する
11.報酬rτをrτ=(ν τ-λτ)dτ-φτ(dτ-qτ )に従って計算する
12.遷移
Figure 0007113968000128

Figure 0007113968000129
に記憶する
13.
Figure 0007113968000130
である場合には、m個の遷移
Figure 0007113968000131
のミニバッチを
Figure 0007113968000132
からサンプリングし、そうでない場合には、継続する
14.
Figure 0007113968000133
を最小にすることによってクリティックネットワークを更新する。すなわち、
Figure 0007113968000134
15.サンプリングされた勾配
Figure 0007113968000135
を使用して、
Figure 0007113968000136
を最大にすることによってアクターネットワークを更新する
16.ターゲットネットワークを更新する。すなわち、
Figure 0007113968000137
17.τについて終了
18.episodeについて終了
図7Aを更に参照すると、アルゴリズム1は、図7Aに従って方策ごとに1つのニューラルネットワークを個別に使用することによって、価格決定方策および入札方策を求めるように設計される。αおよびαは、価格決定方策ネットワークおよびクリティックネットワークの学習レートである。ρは、ターゲットネットワークの更新レートである。mは、ミニバッチのサイズであり、Mは、方策トレーニングに使用されるepisodeの総数である。γは割引率である。
小売エネルギー価格を計算することは、環境から収集される状態が利用可能であり、入力として取られるときに、ステップ8において価格決定方策関数の出力として達成される。価格決定方策関数は、価格決定方策ネットワークによって表され、価格決定方策ネットワークは、ニューラルネットワークとして実施される。
卸売入札を計算することは、小売エネルギー価格および環境から収集される状態が入力として取られるときに、ステップ9において入札方策関数の出力として達成される。入札方策関数は、同様にニューラルネットワークとして実施される入札方策ネットワークによって表される。卸売入札は、入札価格および入札量の1つ以上の対、又は入札価格および入札量の関係を表す関数を含むことができる。卸売入札価格は、本開示では「LSEオファー額」とも呼ばれる。
クリティックネットワークおよびアクターネットワーク並びにクリティックターゲットネットワークおよびアクターターゲットネットワークの構成又はパラメータは、ステップ10~16において、最新の情報を用いて適応的に更新される。
それがリアルタイムアプリケーションに使用されるとき、次期時間区間τの卸売入札および小売エネルギー価格を計算するには、ステップ8~16しか必要とされないことに留意されたい。一方、ステップ10において使用される卸売需給均衡結果およびEUC総エネルギー消費は、実際の測定値又は情報を適時収集することができる場合には、実際のデータに置き換えることができる。
必要とされるニューラルネットワークを構築するために、限られた数の以前の時間区間が使用されるときは、FNNが使用され、全ての利用可能な以前の時間区間が使用されるときは、RNN又はLSTMネットワークが使用されることに触れておくことにも価値がある。
図7Aに与えられたDDPG構造に基づくDDPGアルゴリズムの詳細のみが与えられるが、このアルゴリズムは、DDPG構造の任意の変形態様に容易に拡張することができる。図7Bは、本開示の幾つかの実施形態による、同期された行動メカニズムの下での同時入札/価格決定アルゴリズムにおいて使用される構成要素の代替のアクタークリティック構造およびインタラクションを示す図である。例えば、入札/価格決定方策は、1つのニューラルネットワークのみを使用して2つの方策を一括して推定することによって求めることもでき、複合入札/価格決定方策ネットワーク724、および関連した複合入札/価格決定ターゲット方策ネットワーク723を使用して、入札行動および価格決定行動を同時に生成することができる。
(同期されていない行動メカニズムの下でのLSEの同時入札/価格決定)
上記アルゴリズムは、WEM行動およびREM行動を同時に決定するときに、同期された行動メカニズムが使用されると仮定することによって考案されている。図4Bに示すような同期されていない行動メカニズムが使用される場合には、それに応じて上記アルゴリズムを変更する必要がある。
図4Bは、図4Aと比較されるWEMおよびREMの代替の市場設定を示している。この設定と図4Aに示す設定との間の主な相違は次のとおりである。LSEは、WEMが需給均衡された後にREM価格を掲示し、その結果、LSEは、REM価格を決定する前にWEMに関するより最近の更新された情報を有することができる。加えて、LSEは、エネルギー蓄積システム等の分散型エネルギーリソースを制御する(435)能力を有し、したがって、REMからの予期された総エネルギー消費と異なるエネルギー量をWEMに入札することが可能になる。
そのような設定の場合に、LSEの小売市場モデルは、エネルギーバランス制約を条件として、時間区間t以後に得られるその利潤を最大にするように定式化することができる。この定式化は、数学的に以下のように表すことができる。
Figure 0007113968000138
ISOへの支払いが、例えば、リアルタイム市場においてqτ ではなく実際の総エネルギー消費dτに基づいて計算される場合には、転売から稼得された利潤は、(ν ττ-λττ )の代わりに(ν ττ-λττ)として求めることもできる。
(29)によれば、時間区間τにおけるλ、q、およびd
Figure 0007113968000139
の値は、将来の時間区間におけるそれらの値に影響を与える。一方で、近視眼的なLSE、すなわち、現在の時間区間の利潤にのみ関係したLSEの場合には、γは0に設定され、その結果、時間区間tにのみ関係した静的な最適化が得られる。LSEが遠視眼的である場合には、γ>0である。一方、全ての将来の時間区間をここで考慮することができるが、νt+1等のt以外の任意の時間区間に関係する決定は、直ちに実現されない。新たな情報が明らかにされると、将来の区間に関する決定を更に改善することができる。
図4Bを更に参照すると、LSEは、パラメータベクトル
Figure 0007113968000140
によって特徴付けられる入札f をWEMに提出し(410)、次に、卸売エネルギー価格λおよび需給均衡されたエネルギー購入q 、並びに総需給均衡エネルギー販売/購入qを取得する。全ての市場参加者は、以前の時間区間における市場需給均衡結果に基づいて自身の入札/オファーを決定し、時間依存入札応答関数ψ(・)は、式(5)に定義された有限次数関数(finite-order functions)を使用して定義される。その一方で、LSEは、式(6)に定義された全てのEUCの集合行動を特徴付けるためにφ(・)によって表される有限次数価格応答関数とすることができる。
LSEによって解かれる同時入札/価格決定問題の目的は、全ての利用可能な情報に基づいて卸売入札および小売エネルギー価格を決定することである。時間区間tの前に、LSEに利用可能なWEMに関係した情報は、∀τ≦t-1の
Figure 0007113968000141
、λτ、qτ、qτ を含む。一方で、LSEに利用可能なREMに関係した情報は、∀τ≦t-1のν τ、dτを含む。時間区間tのWEMが需給均衡される前にLSEに利用可能な情報の集合を
Figure 0007113968000142
によって表すことにする。
Figure 0007113968000143
は、事前WEM需給均衡情報セット(prior-WEM-clearing information set)と呼ばれる。一般に、小売エネルギー価格は、WEM420の需給均衡後にEUC425に掲示される。これは、時間区間tの小売エネルギー価格を求めるときに、
Figure 0007113968000144
に加えて、より多くの情報、具体的には、
Figure 0007113968000145
、λ、q、q をLSEに与える。事後WEM需給均衡情報セット(post-WEM-clearing information set)と呼ばれる
Figure 0007113968000146
を定義することにする。
入札方策は、
Figure 0007113968000147

Figure 0007113968000148
にマッピングし、
Figure 0007113968000149
によって表されるベクトル関数として以下のように定義され、
Figure 0007113968000150
加えて、価格決定方策は、
Figure 0007113968000151
ν にマッピングし、μ(・)によって表されるスカラー関数として以下のように定義される。
Figure 0007113968000152
ここで、μは
Figure 0007113968000153
内のリターン値である。
次に、同時入札/価格決定問題は、マルコフ決定過程(MDP)として定式化される。MDPは、状態空間と、行動空間と、報酬関数と、マルコフ性、すなわち、現在の状態および行動が与えられると、次の状態が過去における全ての状態および行動から独立していることを満たす遷移確率関数とからなる。
具体的には、時間区間tにおける状態を
Figure 0007113968000154
であると定義し、対応する状態空間を
Figure 0007113968000155
であると定義する。ここで、Rは実数の集合である。時間区間tの行動を
Figure 0007113968000156
であると定義し、対応する行動空間を
Figure 0007113968000157
であると定義する。ここで、Ωは、ISOによって指定される入札の実現可能パラメータの集合である。
Figure 0007113968000158
およびaが与えられると、
Figure 0007113968000159
が(5)および(6)を通じて求められる。したがって、マルコフ性は満たされる。しかしながら、ψおよびφの明確な形は知られていないし、確率変数の遷移確率も関与していないので、遷移確率関数は未知である。
LSEの行動は、2つの構成要素
Figure 0007113968000160
およびν からなる。ここで、ν は、
Figure 0007113968000161
の後に決定される。前述したように、ν を決定する時に、状態に関する新たな情報が利用可能であり、より多くの情報に基づく決定を行うのに使用することができる。時間区間tの中間状態を
Figure 0007113968000162
と定義する。その結果、入札方策および価格決定方策は、等価的に以下のものとすることができる。
Figure 0007113968000163
同時入札/価格決定問題の少なくとも1つの目的は、LSEの利潤を最大にすることであり、したがって、時間区間tの報酬を
Figure 0007113968000164
であると定義する。これは、時間区間tのLSEによって得られる利潤である。Rによって表され、リターンと呼ばれる時間区間t以後の累積割引報酬は、
Figure 0007113968000165
である。
Figure 0007113968000166
又は等価的に
Figure 0007113968000167
によって表される、行動
Figure 0007113968000168
および状態
Figure 0007113968000169
における入札方策
Figure 0007113968000170
および価格決定方策μの下での行動値関数は、以下のように定義される予想リターンである。
Figure 0007113968000171
次に、同時入札/価格決定問題は、本質的に、以下の性能関数を最大にする
Figure 0007113968000172
およびμを見つけることになる。
Figure 0007113968000173
最適な同時の入札行動および価格決定行動を決定するのに使用される動的な入札応答モデルおよび需要応答モデルは、線形関数若しくは多層フィードフォワードニューラルネットワーク(FNN)によって明確に表されるか、又は、リカレントニューラルネットワーク(RNN)若しくは長短期記憶(LSTM)ユニットネットワークによって暗黙的に表される。入札応答関数を学習するときは、入力は
Figure 0007113968000174
であり、出力は(λ,q,q )である。価格応答関数を学習するときは、入力は
Figure 0007113968000175
およびν であり、出力はdである。
次に、深層決定論的方策勾配(DDPG)ベースのRLアルゴリズムが、入札方策
Figure 0007113968000176
および価格決定方策μの学習を通じて同時入札/価格決定問題を解くために使用される。
Figure 0007113968000177
およびμは、ベクトル
Figure 0007113968000178
および
Figure 0007113968000179
によってパラメータ化されるものと仮定する。その場合、最適な入札方策および価格決定方策を見つけることは、本質的には、
Figure 0007113968000180
および
Figure 0007113968000181
の最適な値を見つけることである。方策勾配法は、
Figure 0007113968000182
および
Figure 0007113968000183
の(準最適な)値を見つけるために使用される。これらのパラメータを、
Figure 0007113968000184
を最大にする方向に更新する。決定論的方策の場合、Jの勾配は、決定論的方策勾配定理を使用して計算することができる。決定論的方策は、通常、サンプル効率に関して確率的方策よりも性能が優れており、タスクの制御にはより望ましい。決定論的方策勾配定理によれば、行動勾配と呼ばれる、
Figure 0007113968000185
および
Figure 0007113968000186
に関するJの勾配は、以下のように求められる。
Figure 0007113968000187
ここで、
Figure 0007113968000188
は、方策
Figure 0007113968000189
に従った
Figure 0007113968000190
の後の中間状態である。性能関数Jの勾配は、知られておらず推定する必要がある行動値関数Qに依存することに留意されたい。同時入札/価格決定問題は、アクタークリティックアーキテクチャを有するDDPGアルゴリズムを使用して解かれる。
図8Aは、本開示の幾つかの実施形態による、同期されていない行動メカニズムの下で同時入札/価格決定アルゴリズムにおいて使用される構成要素のアクタークリティック構造およびインタラクションを示す図である。例えば、クリティック830が行動値関数を推定するために使用され、アクター820が方策を推定するために使用され、ニューラルネットワークがこれらの関数を近似するために採用される。同時入札/価格決定問題に特有のものとして、行動値関数は、クリティックネットワーク835と呼ばれる、パラメータベクトル
Figure 0007113968000191
を有するニューラルネットワークによって表される。クリティックネットワークにおけるパラメータは、時間的差分学習等の方法を使用して推定することができる。一方で、入札方策および価格決定方策は、重みがそれぞれ
Figure 0007113968000192
および
Figure 0007113968000193
である入札方策ネットワーク827および価格決定方策ネットワーク825とそれぞれ呼ばれる1つのニューラルネットワークによってそれぞれ表される。アクターネットワークと総称される入札方策ネットワークおよび価格決定方策ネットワークにおけるパラメータは、方策勾配法を使用して推定することができる。DDPGアルゴリズムでは、そのパラメータがアクターネットワークおよびクリティックネットワークのパラメータにゆっくりと追従するターゲットネットワークが、このアルゴリズムを安定させるために使用される。クリティックのターゲットネットワーク836のパラメータベクトルは、
Figure 0007113968000194
によって表され、入札方策ネットワークのターゲットネットワーク828および価格決定方策ネットワークのターゲットネットワーク826のパラメータは、それぞれ
Figure 0007113968000195
および
Figure 0007113968000196
によって表される。リプレイバッファ
Figure 0007113968000197
も、MDPの遷移を記憶するために使用され、各時点において、サイズmのミニバッチが、
Figure 0007113968000198
からサンプリングされ、勾配を推定するために使用される。
同期されていない行動メカニズムの下で同時入札/価格決定問題を解く詳細なDDPGベースのRLアルゴリズムが、アルゴリズム2に提示される。各ステップにおいて、
Figure 0007113968000199
が、以下の損失関数
Figure 0007113968000200
を最小にする方向に更新される。
Figure 0007113968000201
ターゲットネットワークが次の時間ステップの行動値を計算するために使用されることに留意されたい。また、
Figure 0007113968000202
によって表される
Figure 0007113968000203
の推定された値が使用される。なぜならば、入札方策
Figure 0007113968000204
に従った
Figure 0007113968000205
の後の真の中間状態は知られていないからである。
Figure 0007113968000206
は、トレーニング/適合された入札応答関数を使用して推定される。中間状態の推定された値は、同じ理由で行動勾配を評価するときにも使用される。
アルゴリズム2:代替のDDPGベースの方策学習アルゴリズム
入力:ψ,φ,α,α,M,m
出力:π,μ
1.クリティックネットワーク
Figure 0007113968000207
、入札方策ネットワーク
Figure 0007113968000208
、および価格決定方策ネットワーク
Figure 0007113968000209
を、それぞれ重み
Figure 0007113968000210

Figure 0007113968000211
および
Figure 0007113968000212
を用いてランダムに初期化する。
2.ターゲットネットワークQ’、π’およびμ’を、それぞれ重み
Figure 0007113968000213

Figure 0007113968000214
、および
Figure 0007113968000215
を用いて初期化する。
3.リプレイバッファ
Figure 0007113968000216
を初期化する
4.for episode=1,...,M do
5.行動精査のための2つのランダム過程ζおよび
Figure 0007113968000217
を初期化する
6.初期状態
Figure 0007113968000218
を受信する。
7.for τ=0,...,T-1 do
8.パラメータ
Figure 0007113968000219
を有する卸売入札を選択する
9.卸売入札
Figure 0007113968000220
をWEMに提出し、WEM需給均衡結果λτ、qτおよびqτ
Figure 0007113968000221
を観察する
10.小売エネルギー価格ν τ
Figure 0007113968000222
を選択する
11.ν τをREMに掲示し、EUCの総エネルギー消費dτ
Figure 0007113968000223
を観察する
12.報酬rτ、rτν ττ-λττ -φτ(dτ-qτ )を計算する
13.遷移
Figure 0007113968000224

Figure 0007113968000225
に記憶する
14.
Figure 0007113968000226
である場合には、m個の遷移
Figure 0007113968000227
のミニバッチを
Figure 0007113968000228
からサンプリングし、そうでない場合には、継続する
15.推定された中間状態
Figure 0007113968000229
を計算する
16.損失
Figure 0007113968000230
を最小にすることによってクリティックネットワークを更新する。すなわち、
Figure 0007113968000231
17.サンプリングされた勾配
Figure 0007113968000232
を使用してJ、
Figure 0007113968000233
を最大にすることによって入札方策ネットワークおよび価格決定方策ネットワークを更新する。すなわち、
Figure 0007113968000234
18.ターゲットネットワークを更新する。すなわち、
Figure 0007113968000235
19.τについて終了
20.episodeについて終了
アルゴリズム2は、図8Aに従って別々のニューラルネットワークを使用して価格決定方策および入札方策を求めるように設計される。
卸売入札を計算することは、環境から収集される状態が入力として取られるときに、ステップ8において入札方策関数の出力として達成される。入札方策関数は、ニューラルネットワークとして実施される入札方策ネットワークによって表される。卸売入札は、入札価格および入札量の1つ以上の対、又は入札価格および入札量の関係を表す関数を含むことができる。卸売入札価格は、本開示では「LSEオファー額」とも呼ばれる。
小売エネルギー価格を計算することは、環境から収集される状態および計算された卸売入札が利用可能であり、入力として取られるときに、ステップ10において価格決定方策関数の出力として達成される。価格決定方策関数は、価格決定方策ネットワークによって表され、価格決定方策ネットワークは、同様にニューラルネットワークとして実施される。
クリティックネットワークおよびアクターネットワーク並びにクリティックターゲットネットワークおよびアクターターゲットネットワークの構成又はパラメータは、ステップ11~18において、最新の情報を用いて適応的に更新される。
それがリアルタイムアプリケーションに使用されるとき、次期時間区間τの卸売入札および小売エネルギー価格を計算し、次の時間区間の準備をするには、ステップ8~18しか必要とされないことに留意されたい。一方、ステップ9およびステップ11において使用される卸売需給均衡結果およびEUCの総エネルギー消費は、実際の測定値又は情報を適時収集することができる場合には、実際のデータに置き換えることができる。
加えて、ニューラルネットワークは、限られた数の以前の時間区間が使用されるときは、FNNを使用することによって表され、全ての利用可能な以前の時間区間が使用されるときは、RNN又はLSTMネットワークを使用することによって表される。
同様に、アルゴリズム2は、DDPG構造の任意の変形態様に容易に拡張することができる。図8Bは、本開示の幾つかの実施形態による、同期されていない行動メカニズムの下での同時入札/価格決定アルゴリズムにおいて使用される構成要素の代替のアクタークリティック構造およびインタラクションを示す図である。例えば、入札/価格決定方策を、一括して求めることもでき、複合入札/価格決定方策ネットワーク824、および関連した複合入札/価格決定ターゲット方策ネットワーク823を使用して、入札行動および価格決定行動を同時に生成する。
(例示のシミュレーション)
開示された同時入札/価格決定アルゴリズムの適用は、多層フィードフォワードニューラルネットワークが入札応答関数および価格応答関数、並びに入札方策ネットワークおよび価格決定方策ネットワークを表すのに使用される、同期されたWEMおよびREM行動メカニズムの下での数値シミュレーションを通じて示すことができる。
WEMモデルは、それぞれが1人の販売者に対応する69個の発電機と、それぞれが1人の購入者に対応する195個の負荷とを有する300バス試験システムに基づいて構築される。例示を目的として、各オファー/入札は、オファー/入札価格(単位$/MWh)およびエネルギー量(単位MW)の対であると仮定する。その場合、卸売入札
Figure 0007113968000236
は、入札価格および入札量からなる2次元ベクトルである。販売者のオファー量は、試験システムにおける発電機容量から取得され、オファー価格は、[10,30]$/MWhから均一にサンプリングされる。購入者の入札量は、実用システムの履歴負荷から取得され、それらのピーク値は試験の場合の定格負荷にスケーリングされ、入札価格は、[20,40]$/MWhから均一にサンプリングされる。加えて、そのピーク値が総発電機容量の50%に等しい非弾性負荷も加えられる。システム損失および線路輻輳は、WEM需給均衡問題では無視され、発電容量限界のみが考慮される。検討中のLSEは100のEUCに応対するものと仮定する。受注残率η は、[0,0.5]から均一にサンプリングされる。新たに発電される増分したエネルギーニーズξ は、[0.1,2]MWから均一にサンプリングされた値によってスケーリングされるとともに0.1のスケーリングされた標準偏差を有するゼロ平均ガウス雑音とともに付加される、実用システムからの履歴増分した負荷を使用してシミュレーションされる。利益関数は、以下の2次形式を取る。
Figure 0007113968000237
ここで、κ (単位$/MWh)は、10の平均および1の標準偏差を有するガウス分布からサンプリングされ、
Figure 0007113968000238
は、[20,30]$/MWhから均一にサンプリングされる。エネルギー消費の実現可能集合は、
Figure 0007113968000239
である。
他のパラメータは次のように設定される。T=24であり、すなわち、1日は24個のセグメントに分解され、φ(x)=5|x|であり、すなわち、REMにおける総エネルギー消費が、WEMにおいて購入されたエネルギー量から1MW逸脱した場合に、LSEは$5の損失を受ける。冬季における3ヶ月間の実用システムからの履歴負荷データが使用される冬季シナリオと、夏季における3ヶ月間の実用システムからの履歴負荷データが使用される夏季シナリオとの2つのシナリオが作成される。双方のシナリオにおいて、最初の2ヶ月からのデータはトレーニング用に使用される一方、最後の月からのデータは試験用に使用される。
応答関数は、入札方策および価格決定方策の学習プロセス中に実際の環境に取って代わり、また、MDP定式化において状態を求めるのにも使用されるので、極めて重要である。応答関数は、ニューラルネットワークを使用して表され、パラメータは、バックプロパゲーションアルゴリズムを使用して学習される。応答関数の適用を示すために、まず、(1)におけるWEMモデルを使用してWEMの履歴データの集合、すなわち、
Figure 0007113968000240
が生成され、(4)におけるEUCモデルを使用してREMの履歴データの集合、すなわち、{ν τ、dτ}が生成される。WEMのデータを生成するとき、検討中のLSEからの入札量が、[0,80]MWから均一にサンプリングされ、入札価格が[20,40]$/MWhから均一にサンプリングされる。
それぞれが128個のニューロンからなる2つの隠れ層を有するニューラルネットワークが、入札応答関数として使用される。0.01のスケールを有するL2正則化項が使用される。正規化線形ユニット(ReLU:Rectified linear unit)が、2つの隠れ層および出力層の活性化関数として使用される。0.001の学習レートを有するアダム最適化器が、10000ステップについてニューラルネットワークをトレーニングするために採用される。応答関数の性能が、実際の応答と予測された応答との間の絶対誤差の平均および標準偏差によって測定される。表Iは、入札応答関数の異なる次数(order)の下での卸売エネルギー価格における絶対誤差の平均および標準偏差を示している。冬季シナリオおよび夏季シナリオにおけるトレーニングデータの平均卸売エネルギー価格は、それぞれ22.98$/MWhおよび23.72$/MWhであり、冬季シナリオおよび夏季シナリオにおける試験データの平均卸売エネルギー価格は、それぞれ22.63$/MWhおよび23.40$/MWhである。ゼロ次入札応答関数は、WEM需給均衡結果を予測するときは時間および入札に関する情報のみを利用することに留意されたい。応答関数の次数が増加するにつれて、絶対誤差の平均および標準偏差の双方が減少する。しかし、次数が双方のシナリオにおいて1よりも大きいとき、減少は大きくない。したがって、この場合の入札応答関数の適切な次数はn=1である。
価格ベースの需要応答関数に採用されるニューラルネットワークは、各隠れ層におけるニューロンの数が256個であり、L2正則化項のスケールが0.001であることを除いて、入札応答関数のものと同様である。このニューラルネットワークは、20000ステップについて0.0002の学習レートを用いてトレーニングされる。表IIは、価格応答関数の異なる次数の下での総エネルギー消費における絶対誤差の平均および標準偏差を示している。冬季シナリオおよび夏季シナリオにおけるトレーニングデータの平均総エネルギー消費は、それぞれ40.75MWおよび50.45MWであり、冬季シナリオおよび夏季シナリオにおける試験データの平均総エネルギー消費は、それぞれ38.16MWおよび47.08MWである。ゼロ次価格応答関数は、総エネルギー消費を予測するときは時間および価格に関する情報のみを利用する。入札応答関数について行った議論と同様に、価格応答関数の適切な次数はn=1である。
Figure 0007113968000241
Figure 0007113968000242
応答関数の適切な次数は、ケースごとに変化する場合があり、ここに提示する手順に従って履歴データから求める必要があることを強調しておく。学習された応答関数に基づくと、状態は
Figure 0007113968000243
である。
価格決定方策ネットワークおよびクリティックネットワークは、それぞれ2つの隠れ層を有し、各隠れ層は128個のニューロンを有する。ReLUは、全ての隠れ層の活性化関数として使用される。価格決定方策ネットワークの出力層は、活性化関数としてtanh関数を採用する一方、クリティックネットワークの出力層は、いずれの活性化関数も使用しない。0.01のスケールを有するL2正則化項が、クリティックネットワークに使用される。価格決定方策ネットワークおよびクリティックネットワークの学習レートは、それぞれ0.0001および0.001である。入札方策ネットワークは、本質的に、入札価格を小売エネルギー価格にマッピングし、入札量を、価格応答関数を使用して得られる推定された総エネルギー消費にマッピングすることに留意されたい。したがって、入札部分のパラメータをトレーニングする必要はない。最低価格は20$/MWhであり、最高価格は40$/MWhである。ターゲットネットワークの更新レートは0.001である。ミニバッチのサイズは64に選ばれる。割引率は0.9である。この方策は200個のepisodeにわたってトレーニングされる。
試験結果を図9A、図9B、図9Cおよび図9Dに示す。試験の間、小売エネルギー価格を定数に設定し、小売エネルギー価格に等しい入札価格と、価格応答関数を使用して得られる推定された総エネルギー消費に等しい入札量とを提出するベースラインの入札/価格決定方策を用いて、開示された方法論のベンチマークテストが行われる。
図9Aは、本開示の幾つかの実施形態による、ベースライン方策およびRL方策の下での累積報酬を示す図である。図9Aの横軸911はエネルギー価格を表し、図9Aの縦軸913は累積報酬を表す。プロット912および918、910および916は、それぞれ冬季シーズンおよび夏季シーズンにおけるベースライン方策およびRL方策の報酬を表す。図9Aは、RL方策と呼ばれるDDPGアルゴリズムによって学習される方策と、様々な不変価格を有するベースライン方策との下での1日の間の中間報酬の合計である累積報酬のボックスプロットを提示している。RL方策の下での平均累積報酬は、2つのシナリオの双方におけるベースライン方策の下での平均累積報酬よりも高い。具体的には、冬季シナリオおよび夏季シナリオにおけるRL方策の下での平均累積報酬は、それぞれ7.111k$および8.485k$である一方、ベースライン方策の下での最高平均累積報酬は、それぞれ6.914k$および8.041k$である。
通常の1日の間のRL方策の下での卸売エネルギー価格および小売エネルギー価格が図9Bに示される一方、同じ日の間の入札量および総エネルギー消費が図9Cに示される。35$/MWhの不変価格を有するベースライン方策の下での総エネルギー消費も、図9Cにプロットされている。
図9Bは、本開示の幾つかの実施形態による、通常の1日の間のRL方策の下での卸売エネルギー価格および小売エネルギー価格を示す図である。例えば、図9Bの横軸921は、その1日の時刻を表し、図9Bの縦軸923は、WEM又はREMのエネルギー価格を表す。曲線920および926、922および928は、それぞれ冬季シナリオおよび夏季シナリオの下でのWEMおよびREMの価格を表す。
図9Cは、本開示の幾つかの実施形態による、通常の1日の間の入札量および総エネルギー消費を示す図である。例えば、図9Cの横軸931は、その1日の時刻を表し、図9Cの縦軸933は、エネルギー量を表す。曲線930および935、932および937、934および939は、それぞれ冬季シナリオおよび夏季シナリオの下での入札量、RL方策を使用したエネルギー消費および固定価格方策を使用したエネルギー消費を表す。
ここで、図9Bおよび図9Cを参照して、2つの所見を述べる。第1に、最適な小売エネルギー価格は、卸売エネルギー価格と同様の傾向を有する。これは、累積報酬がこれらの2つの価格の差に依存することから当然である。第2に、RL方策の下での総エネルギー消費は、ベースライン方策の下での総エネルギー消費よりも低い変動を有し、その結果、負荷曲線はより滑らかになっている。これらの現象は、他の日のほとんどにおいても観察される。
前述したように、長期挙動を考慮することは、将来の報酬が考慮されない近視眼的意思決定と比較して有益である。これを示すために、γ=0.9を有するRL方策の下での累積報酬と、近視眼的方策、すなわち、等価的にγ=0を有するRL方策の下での累積報酬とが比較される。
図9Dは、本開示の幾つかの実施形態による、累積報酬に対する割引係数の影響を示す図である。例えば、図9Dは、累積報酬に対する割引係数の影響を示し、図9Dの横軸941はその月の日付を表し、図9Dの縦軸943は累積報酬を表す。曲線940および946、942および948は、それぞれ冬季シナリオおよび夏季シナリオの下での近視眼的戦略および長期戦略の累積報酬を表す。
図9Dに示すように、γ=0.9を有するRL方策は、2つのシナリオの双方において近視眼的方策よりも性能が優れている。これは、同時入札/価格決定問題をMDPとしてモデル化するという動機を確かに正当化するものである。
図10Aは、本開示の実施形態による方法およびシステムの幾つかの技法を実施するのに用いることができるコンピューティング装置1000Aを非限定例として示す概略図である。コンピューティング装置又はデバイス1000Aは、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。
コンピューティングデバイス1000Aは、電力源1008、プロセッサ1009、メモリ1010、記憶デバイス1011を備えることができる。これらは全てバス1050に接続されている。さらに、高速インターフェース1012、低速インターフェース1013、高速拡張ポート1014および低速接続ポート1015をバス1050に接続することができる。また、低速拡張ポート1016がバス1050と接続されている。特定の用途に応じて、非限定例として共通のマザーボード1030に実装することができる様々な構成要素の構成が考えられる。またさらに、入力インターフェース1017を、バス1050を介して外部受信機1006および出力インターフェース1018に接続することができる。受信機1019を、バス1050を介して外部送信機1007および送信機1020に接続することができる。外部メモリ1004、外部センサ1003、機械1002および環境1001もバス1050に接続することができる。さらに、1つ以上の外部入力/出力デバイス1005をバス1050に接続することができる。ネットワークインターフェースコントローラ(NIC)1021は、バス1050を通じてネットワーク1022に接続するように適合することができ、特にデータ又は他のデータは、コンピュータデバイス1000Aの外部のサードパーティーディスプレイデバイス、サードパーティー撮像デバイス、および/又はサードパーティー印刷デバイス上にレンダリングすることができる。
メモリ1010は、コンピュータデバイス1000Aによって実行可能な命令、履歴データ、並びに本開示の方法およびシステムによって利用することができる任意のデータを記憶することができると考えられる。メモリ1010は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。メモリ1010は、単数若しくは複数の揮発性メモリユニットおよび/又は単数若しくは複数の不揮発性メモリユニットとすることができる。メモリ1010は、磁気ディスク又は光ディスク等の別の形態のコンピュータ可読媒体とすることもできる。
図10Aを更に参照すると、記憶デバイス1011は、コンピュータデバイス1000Aによって用いられる補助データおよび/又はソフトウェアモジュールを記憶するように適合することができる。例えば、記憶デバイス1011は、本開示に関して上述したような履歴データおよび他の関連データを記憶することができる。加えて又は代替的に、記憶デバイス1011は、本開示に関して上述したようなデータと同様の履歴データを記憶することができる。記憶デバイス1011は、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。さらに、記憶デバイス1011は、ストレージエリアネットワーク又は他の構成におけるデバイスを含めて、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、若しくはテープデバイス、フラッシュメモリ若しくは他の同様の固体メモリデバイス、又はデバイスのアレイ等のコンピュータ可読媒体を含むことができる。命令は情報担体に記憶することができる。命令は、1つ以上の処理デバイス(例えば、プロセッサ1009)によって実行されると、上記で説明した方法等の1つ以上の方法を実行する。
システムは、任意選択で、このシステムをディスプレイデバイス1025およびキーボード1024に接続するように適合されたディスプレイインターフェース又はユーザインターフェース(HMI)1023にバス1050を通じてリンクすることができる。ディスプレイデバイス1025は、特に、コンピュータモニタ、カメラ、テレビ、プロジェクタ、又はモバイルデバイスを含むことができる。
図10Aを更に参照すると、コンピュータデバイス1000Aは、バス1050を通じてプリンタインターフェース(図示せず)に接続するとともに、印刷デバイス(図示せず)に接続するように適合されたユーザ入力インターフェース1017を備えることができる。印刷デバイスは、特に、液体インクジェットプリンタ、固体インクプリンタ、大型商用プリンタ、サーマルプリンタ、UVプリンタ、又は昇華型プリンタを含むことができる。
高速インターフェース1012は、コンピューティングデバイス1000Aの帯域幅消費型動作を管理する一方、低速インターフェース1013は、より低い帯域幅消費型動作を管理する。そのような機能の割り当ては一例にすぎない。幾つかの実施態様では、高速インターフェース1012は、メモリ1010、ユーザインターフェース(HMI)1023に結合することができ、(例えば、グラフィックスプロセッサ又はアクセラレータを通じて)キーボード1024およびディスプレイ1025に結合することができ、高速拡張ポート1014に結合することができる。この高速拡張ポートは、バス1050を介して様々な拡張カード(図示せず)を受容することができる。この実施態様では、低速インターフェース1013は、バス1050を介して記憶デバイス1011および低速拡張ポート1016に結合されている。様々な通信ポート(例えば、USB、Bluetooth、イーサネット、無線イーサネット)を含むことができる低速拡張ポート1015は、1つ以上の入力/出力デバイス1005、および他のデバイス、キーボード1024、ポインティングデバイス(図示せず)、スキャナ(図示せず)に結合することもできるし、スイッチ又はルーター等のネットワーク接続デバイスに、例えば、ネットワークアダプタを通じて結合することもできる。
図10Aを更に参照すると、コンピューティングデバイス1000Aは、この図に示すように、複数の異なる形態で実施することができる。例えば、このコンピューティングデバイスは、標準的なサーバ1026として実施することもできるし、そのようなサーバが複数個ある一群のサーバとして実施することもできる。加えて、このコンピューティングデバイスは、ラップトップコンピュータ1027等のパーソナルコンピュータにおいて実施することができる。このコンピューティングデバイスは、ラックサーバシステム1028の一部として実施することもできる。或いは、コンピューティングデバイス1000Aからの構成要素は、モバイルコンピューティングデバイス等のモバイルデバイスにおける他の構成要素と組み合わせることができる。そのようなデバイスのそれぞれは、コンピューティングデバイス1000Aおよびモバイルコンピューティングデバイスのうちの1つ以上を含むことができ、システム全体は、互いに通信する複数のコンピューティングデバイスから構成することができる。
図10Bは、本開示の実施形態による、ネットワーク概観を含むシステムおよび方法を実施するのに使用することができる幾つかのコンピューティングデバイスを示すブロック図である。ローカルリソース割り当て市場(LRAM)1051を実施するネットワークの一例は、中央コンピュータ1042を含むことができ、すなわち、2つ以上の中央コンピュータ、並びに、ネットワーク化コンピュータ1044、1046、1048、1050および1052に通信接続されたネットワーク1049とすることができる。中央コンピュータ1042は、LRAM1051を管理および運用することができ、非限定的な例として、ネットワーク化コンピュータ1044、1046、1048、1050および1052に関連した電気負荷若しくはリソースを提供するか又はそれらの電気負荷若しくはリソースが設けられる電力システムを管理する運用機関(operator:オペレーター)と関連付けることができる。中央コンピュータ1042は、電力システム内の1つ以上のバス、1つ以上のタイプの変電所に関連付けることができる。また、ネットワーク1049は、非限定的な例として、電気デバイス、発電機等と接続されたコンピューティングハードウェアを含むことができ、このコンピューティングハードウェアは、本開示のシステムおよび方法を実行するように構造化された集積回路を含むことができる。中央コンピュータ1042は、コンピューティングデバイス1046、1048とすることができる最終使用消費者(EUC)に関連付けられたコンピューティングデバイスから入札又は要求を受信することができ、コンピューティングデバイス1044、1050および1052とすることができる電力生産者/供給者に関連付けられたコンピューティングデバイスからオファーを受信することができる。運用機関又は中央コンピュータ1042は、次に、電力が送電される値を計算することができ、この送電される値をコンピューティングデバイス1044、1046、1048、1050および1052に送信することができる。送電される値は、現在の時間区間又は次の次期時間区間の電力の実際の価格、すなわち「需給均衡価格」を指す。時間区間は変動する可能性があり、例えば、30分、15分、10分周期又は5分周期とすることができることに留意されたい。中央コンピュータ1042は、コンピューティングデバイス1044、1046、1048、1050および1052が、需要入札又は供給オファーを計算するのに使用することができる。中央コンピュータ1042は、ネットワーク化コンピュータに送信することができる将来の市場データ等の他のデータも有することができる。さらに、中央コンピュータ1042に、有線ネットワーク接続(例えば、イーサネットIEEE規格802.3又は他の適切な規格)又は無線ネットワーク接続を使用するローカルエリアネットワーク(「LAN:Local Area Network」)として使用することができるネットワーク1049を介してアクセスすることができる。
例えば、上述したように、最終使用消費者(EUC)は、コンピューティングデバイス1046、1048を使用して、それらの現在の電気ニーズに基づいてそれらの負荷供給事業体(LSE)に電気、すなわち、電気デバイスに電力を供給する電気を要求することができる。コンピューティングデバイス1046、1048は、LSEに電気を要求するのに使用することができるトランザクティブ(transactive)コントローラ又はアクティブコントローラとすることができる。すなわち、トランザクティブコントローラは、LSEに入札を送信することが可能であるのに対して、アクティブコントローラは、入札の計算又はLSEへの送信が可能でない機器を制御するのに使用されるが、適応的制御戦略から援助することができる。EUCは、それらが必要とする電気の量を、例えば、ウェブサイトを通じて入力し、ウェブサイトは、EUCの要求を、インターネットを介して、負荷供給事業体(LSE)が電気を割り当てるのに使用する中央コンピュータ1042に送信する。そのような場合に、要求は、非一時的コンピュータ可読媒体(例えば、メモリ又は記憶装置)に記憶されたコンピュータ実行可能命令を実行することによって計算および送信することができる。電気要求は、必要とされる電気の量および要求される価格を含む。中央コンピュータ1042は、EUCに関連付けられたコンピューティングデバイス1046、1048から電気入札を受信することができ、電気/電力に関連付けられたコンピューティングデバイスからコンピューティングデバイス1044、1050および1052を介して電気オファーを受信することができることが可能である。
図10Bを更に参照すると、1000Bは、送受信機1056Aと通信するハードウェアプロセッサ1054Aを含むコンピューティングデバイス1052A(トランザクティブコントローラ又はアクティブコントローラ等のコントローラとすることができるコンピューティングデバイス1052)を含む。送受信機1056Aは、電気デバイスが動作するエリアに関係した環境1001からデータを収集するセンサ1002又は複数のセンサと通信することができる。センサ1002は、入力を信号に変換し、この信号は、メモリ1058Aに記憶することができる。メモリ1058Aが、アルゴリズム、命令および他のデータを含む記憶されたデータを含むように、ハードウェアプロセッサ1054Aは、ハードウェアプロセッサ1054Aによって実装することができるコンピュータ記憶メモリ、すなわちメモリ1058Aと通信する。コンピューティングデバイス1052Aは、コントローラ1060A、外部メモリデバイス1062A、ネットワーク対応サーバ1064Aおよびクライアントデバイス1068Aを更に含むことができる。
ハードウェアプロセッサ1054Aは、特定のアプリケーションの要件に応じて2つ以上のハードウェアプロセッサを含むことができることが考えられ、これらのプロセッサは、内部のものとすることもできるし、外部のものとすることもできる。他のデバイスの中でも特に出力インターフェースおよび送受信機を含む他の構成要素をシステム1000Bに組み込むことができることは確かである。
ネットワーク1049は、非限定例として、1つ以上のローカルエリアネットワーク(LAN)および/又はワイドエリアネットワーク(WAN:wide area networks)を含むことができることが可能である。ネットワーク接続環境は、企業全体のコンピュータネットワーク、イントラネットおよびインターネットと同様のものとすることができる。言及した全ての構成要素について、任意の数のクライアントデバイス、記憶構成要素、およびデータ源をシステム1000B内で用いることができることが考えられる。それぞれは、単一のデバイスを含むこともできるし、分散環境において協働する複数のデバイスを含むこともできる。さらに、システム1000Bは、1つ以上のデータ源(図示せず)を備えることができる。データ源は、入札応答関数および価格応答関数を表すようにニューラルネットワークをトレーニングするためのデータリソースを備えることができる。データ源によって提供されるデータは、履歴卸売入札および需給均衡された価格およびエネルギー量、並びに履歴小売エネルギー価格および総エネルギー消費を含むことができる。
本開示は、既存の技術および技術分野、例えば、トランザクティブコントローラを使用する電力グリッド管理および電気デバイス制御の分野を改良する。例えば、コンピューティングハードウェアは、提出されたオファー額と小売価格との比較に基づいて電気デバイスを起動および起動停止する。具体的には、本開示のシステムおよび方法の構成要素は、電気デバイスに関連したトランザクティブコンピューティングデバイスを使用して最終使用電気デバイスの制御を改良するために有効に適用され、これによって、ひいては、電力グリッド管理が改良される。さらに、本開示のシステムおよび方法のステップは、電気デバイスに関連したコンピューティングハードウェアによって実行される。
(特徴)
本開示の態様によれば、ユーザ選択所望動作レベルは、第1のユーザ所望動作レベルおよび第2のユーザ所望動作レベルから選択することができ、第2のユーザ所望動作レベルは、ユーザが、第1の所望の動作レベルと比較して、電気デバイスの所望動作レベルを達成するためにより多くの対価を支払うことを選択したレベルを表す。
本開示の別の態様は、LRAMは、独立系統運用機関(ISO)によって運用される卸売電力市場(WEM)であり、ユーザのユーザ選択所望動作レベルは、REMにおける電気の最終使用顧客(EUC)消費者であることを含みことができ、オファー額および小売価格は、負荷供給事業体(LSE)によって利用される。さらに、一態様は、LRAMは、リアルタイム電力市場又は1日前電力市場であるものとすることができる。
本開示の別の態様は、電気デバイスは、空調ユニット、暖房ユニット、温水ヒーター、冷蔵庫、自動皿洗い機、洗濯機、ドライヤー、オーブン、電子レンジ、ポンプ、家庭用照明システム、電気自動車充電器、1つ以上の市販電気システム又は家庭用電気システムのうちの1つであることを含むことができる。さらに、一態様は、現在の環境データは、ユーザロケーションの環境データと、次期時間区間のユーザロケーションの予想環境データとを含むことができる。
一態様は、記憶された履歴エネルギー先物市場データは、過去のエネルギー先物市場情報および過去のLRAM情報を含むものとすることができ、オファー額を計算することは、過去のエネルギー先物市場情報からのオファー額情報に少なくとも部分的に基づくとともに過去のLRAMからのオファー額情報に少なくとも部分的に基づいて行われることが可能である。エネルギー先物市場情報からのオファー額情報は、リアルタイム電力市場からの固定時間枠からのオファー情報を含み、LRAM情報からのオファー額情報は、ローリング時間枠のオファー額情報を含む。
別の態様は、オファー額および小売価格は、負荷供給事業体(LSE)によって利用され、少なくとも1つのエネルギーバランス制約を条件とする、次期時間区間から開始する将来の利潤のLSE期待値と、小売価格と需給均衡されたLRAM価格との間の差、並びに次期時間区間についてユーザによって消費される電気の量およびLRAMからの電気の需給均衡された価格に対応する需給均衡された電気の量に基づいて求められる次期時間区間の将来の利潤とを最大にすることによって同時に計算されることを含むことができる。一態様は、ユーザによって消費される電気の量は、前記次期時間区間よりも前の時間区間における小売価格と、次期時間区間よりも前の時間区間においてユーザによって消費された電気の量と、次期時間区間の計算された小売価格との動的需要応答関数であることを含むことができることが可能である。さらに、一態様は、動的な需要応答関数は、限られた数の以前の時間区間が使用されるときは多層フィードフォワードニューラルネットワークによって、又は、全ての利用可能な以前の時間区間が使用されるときはリカレントニューラルネットワーク(RNN)若しくは長短期記憶(LSTM)ユニットネットワークによって、教師あり学習手法を使用して学習されるものとすることができる。
一態様は、LRAMからの電気の需給均衡された価格および電気の量は、次期時間区間の前の時間区間におけるLRAMによる電気の需給均衡された価格および量と、次期時間区間のLRAMへのオファー額との動的な入札応答関数であることを含むことができることが可能である。動的な入札応答関数は、限られた数の以前の時間区間が使用されるときは多層フィードフォワードニューラルネットワークによって、又は、全ての利用可能な以前の時間区間が使用されるときはリカレントニューラルネットワーク(RNN)若しくは長短期記憶(LSTM)ユニットネットワークによって、教師あり学習手法を使用して学習される。
さらに、別の態様は、負荷供給事業体(LSE)のオファー額および小売価格は、同時に求められ、小売価格は、以前の状態情報に基づいて価格決定方策を使用して最初に計算され、オファー額は、その後に、以前の状態情報および計算された小売価格に基づいて入札方策を使用して計算されるものとすることができ、以前の状態情報は、次期時間区間の前の全ての時間区間のLSEオファー額、LRAM需給均衡された価格および量、ユーザによって消費された電気の量、並びに小売価格を含む。
別の態様は、負荷供給事業体(LSE)のオファー額および小売価格は、同時に求められ、オファー額は、以前の状態情報に基づいて入札方策を使用して計算され、小売価格は、以前の状態情報、オファー額、並びに需給均衡された価格および量に基づいて価格決定方策を使用して計算されることを含むことができ、以前の状態情報は、次期時間区間の前の全ての時間区間のLSEオファー額、LRAM需給均衡された価格および量、ユーザによって消費された電気の量、並びに小売価格を含む。
別の態様は、負荷供給事業体(LSE)の小売価格は、現在の状態情報に基づいて価格決定方策によって計算されることを含むことができ、状態情報は、次期時間区間に対する過去の対応する時間区間におけるユーザによる過去の個別のユーザ選択所望動作レベルと、次期時間区間に対する過去の対応する時間区間における小売電力市場(REM)での電気の過去の個別のLSE小売価格決定データと、次期時間区間に対する過去の対応する時間区間におけるLRAMからの電気の過去の需給均衡された価格決定データとを含む。
一態様は、オファー額および小売価格の計算は、マルコフ決定過程を定式化することによって同時に行われ、アクタークリティック構造を有する深層決定論的方策勾配手法を使用して解かれることを含むことができることが可能であり、アクターは、オファー額および小売価格の候補を決定するニューラルネットワークによって実施され、クリティックは、性能を改善するようにニューラルネットワークのパラメータを調整するために、候補オファー額および候補小売価格のパフォーマンスを評価するニューラルネットワークによって実施される。アクターは、価格決定方策ネットワーク、入札方策ネットワーク、および価格決定方策ターゲットネットワークを含み、クリティックは、クリティックネットワークおよびクリティックターゲットネットワークを含み、LSEによって得られる全体の利潤を改善するように、価格決定方策ネットワークが、小売価格を計算するために最初に使用され、その後、入札方策ネットワークが、計算された小売価格を用いてオファー額を計算するために使用される。
またさらに、アクターは、価格決定方策ネットワーク、入札方策ネットワーク、価格決定方策ターゲットネットワーク、および入札方策ターゲットネットワークを含み、クリティックは、クリティックネットワークおよびクリティックターゲットネットワークを含み、LSEによって得られる全体の利潤を改善するように、入札方策ネットワークが、オファー額を計算するために最初に使用され、その後、価格決定方策ネットワークが、計算されたオファー額に対応するLRAMからの需給均衡された価格および量を用いて小売価格を計算するために使用される。
一態様は、オファー額を計算することは、オファー額を得るために、ユーザ選択所望動作レベルと、現在の環境データと、ローカルリソース割り当て市場(LRAM)への過去のオファー額およびLRAMによる電気の過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用される記憶された履歴エネルギー先物市場データとを含む、次期時間区間の複数のファクタに基づいていることを含むことができる。
(定義)
請求項1に記載のプロセッサは、非限定的な例として、本開示において説明されたアルゴリズムを実施するようにコンピュータを駆動する基本命令に応答して基本命令を処理するコンピュータハードウェア、すなわち、論理回路機構とすることができる。
電気デバイスのユーザ選択所望動作レベルは、非限定的な例として、ユーザが決定する動作レベル、すなわち、冷感又は温感等のユーザ所望の感知感覚に従った電気の量を含む。ユーザは、温度、湿度等に従ったユーザ固有の要望に従って、ヒーターデバイス若しくは同様のデバイス、冷却デバイス若しくは同様のデバイス、又はそれらの双方等のデバイスの動作をユーザ所望の動作レベルに変更する。小売エネルギー価格の変化に従って、ユーザは、それに応じて利益を最大にするように動作レベルを変更することができる。次期時間区間の動作レベルは、次期時間区間の所与の小売エネルギー価格とともに価格応答関数を使用して求めることができる。
次期時間区間は、現在時点における現在の時間区間又は現在の時間区間の前の時刻である過去の時間区間に相対する将来における時間区間である。
オファー額を計算することは、ユーザ選択所望動作レベルで次期時間区間について電気デバイスを動作させるために供給される電気、すなわち電気の量が利用可能である値、すなわち価格を表すものを求めることを指す。オファー額は、入札量、すなわち、本明細書におけるユーザ選択所望動作レベルとともに、入札価格として卸売入札に含まれる。非限定的な例として、オファー額を計算することは、「卸売入札を計算すること」とラベル付けされた本明細書のセクションタイトルにおいて見ることができる。ただし、幾つかのセクションは、ラベル付けされていない場合がある。オファー額を計算することは、アルゴリズム1に記載したような深層強化学習プロセス内で小売価格を計算することと同時に実施されるか、又は、異なる同期メカニズムによるアルゴリズム2では、卸売市場行動と小売市場行動との間で使用される。
リアルタイムアプリケーションの間、同期された行動メカニズムが卸売市場と小売市場との間で使用されるとき、次期時間区間のオファー額を計算することおよび小売価格を計算することは、以下の連続したステップを通じて達成される。
1.DDPGアルゴリズム、および次期時間区間よりも前の履歴データを使用して、価格決定方策ネットワーク、入札方策ネットワークおよびクリティックネットワーク、並びに価格決定方策ターゲットネットワークおよびクリティックターゲットネットワークをトレーニング又は更新する。
2.次期時間区間よりも前のオファー額、需給均衡された卸売価格および卸売量、小売エネルギー価格、並びに小売エネルギー価格に対応するユーザ選択所望動作レベルを含む状態を環境から受信する。
3.環境から収集された状態が入力として取得されると、価格決定方策関数の出力を使用して価格を設定することによって小売エネルギー価格を計算する。価格決定方策関数は価格決定方策ネットワークによって表され、価格決定方策ネットワークはニューラルネットワークとして実施される。
4.計算された小売エネルギー価格、および環境から収集された状態が入力として取得されると、入札方策関数の出力を使用してオファー額を設定することによってオファー額を計算する。入札方策関数は、ニューラルネットワークとして実施される入札方策ネットワークによって表される。
同様に、同期されていない行動メカニズムが卸売市場と小売市場との間で使用されるとき、次期時間区間のオファー額を計算することおよび小売価格を計算することは、以下の連続したステップを使用して達成される。
1.DDPGアルゴリズム、および次期時間区間よりも前の履歴データを使用して、価格決定方策ネットワーク、入札方策ネットワークおよびクリティックネットワーク、並びに価格決定方策ターゲットネットワーク、入札方策ターゲットネットワークおよびクリティックターゲットネットワークをトレーニング又は更新する。
2.次期時間区間よりも前のオファー額、需給均衡された卸売価格および卸売量、小売エネルギー価格、並びに小売エネルギー価格に対応するユーザ選択所望動作レベルを含む状態を環境から受信する。
3.環境から収集された状態が入力として取得されると、入札方策関数の出力を使用してオファー額を設定することによってオファー額を計算する。入札方策関数は、ニューラルネットワークとして実施される入札方策ネットワークによって表される。
4.環境から収集された状態および計算されたオファー額が入力として取得されると、価格決定方策関数の出力を使用して価格を設定することによって小売エネルギー価格を計算する。価格決定方策関数は価格決定方策ネットワークによって表され、価格決定方策ネットワークはニューラルネットワークとして実施される。
小売価格を計算することは、電気デバイスを動作させる電気の小売価格を求めることを指す。非限定的な例として、小売価格を計算することは、「小売価格を計算すること」とラベル付けされた本明細書のセクションタイトルにおいて見ることができる。ただし、幾つかのセクションは、ラベル付けされていない場合がある。小売価格を計算することは、アルゴリズム1に記載した深層強化学習プロセス内でオファー額を計算することと同時に実施されるか、又は、異なる行動同期メカニズムによるアルゴリズム2が、卸売市場と小売市場との間で使用される。詳細なステップは、オファー額を計算することに関する上記段落において見ることができる。
ローカルリソース割り当て市場(LRAM)による電気の需給均衡価格は、運用機関によって需給均衡された価格であり、小売価格の計算を援助するために使用される価格である。電気の需給均衡価格は、卸売電力市場から購入され、その後、小売電力市場において転売される電気の需給均衡されたエネルギー量とともに求められる。例えば、電気(電力およびエネルギーの双方)は、購入、販売、および取引可能な商品である。電力市場は、一般に金銭交換又は債券交換の形態による購入入札を通じた購入、販売オファーを通じた販売、および短期取引を可能にするシステムである。入札およびオファーは、需要と供給の原理を使用して価格を設定する。電気の卸売取引(入札およびオファー)は、通常、市場運用機関又はその機能を独占的に担当する専用の独立した団体によって需給均衡および決済される。市場運用機関は、取引を需給均衡させないが、多くの場合に、発電および負荷のバランスを維持するために取引の知識を必要とする。例えば、市場の需給均衡は、購入構成要素および販売構成要素の双方の編成から開始することができる。購入者は、最も高い価格から最も低い価格に編成することができる。販売者は、最も低い価格から最も高い価格に編成することができる。その場合、1つの手法は、これらの編成された価格に関連した量を累算した合計によって購入者曲線および販売者曲線を作成するものとすることができる。これらの曲線は、必要な入力データが受信されると計算および記憶される曲線のコンピュータ使用可能表現として実施することができる。これらの曲線の表現は、値の群又は他のデータ要素若しくはデータ構造を含むことができる。2つのソートされた曲線は、その後、重ね合わせるか又は別の方法で解析して、曲線間の交点を求めることができる。一般に、市場は、市場の購入曲線および販売曲線の交点で需給均衡を行う。電力市場内の商品は、一般に電力およびエネルギーの2つのタイプからなる。電力は、任意の所与の瞬間におけるメーター計測された正味電気伝達レートであり、メガワット(MW)で測定される。エネルギーは、所与の時間区間の間にメーター計測点を通って流れる電気であり、メガワット時(MWh)で測定される。エネルギー関連商品の市場は、通常、5分、15分および60分刻みの複数の区間の正味発電出力を取引する。
LRAMによる電気の過去の需給均衡価格決定は、過去時からの電気の需給均衡価格決定、すなわち、その時間における電気の履歴需給均衡価格決定である。
REMにおける電気の需給均衡価格は、REMにおいて需給均衡された小売価格であり、ユーザは、所望の動作レベルにおいて電気デバイスを動作させる実際のエネルギー消費の代金をこの価格で請求される。
REMにおける電気の過去の需給均衡価格決定は、過去時からのREMにおける電気の需給均衡価格決定、すなわち、その時間におけるREMにおける電気の履歴需給均衡価格決定である。
ローカルリソース割り当て市場(LRAM)へのオファー額と、LRAMによる電気の需給均衡された価格および量との時刻間相関挙動は、オファー額と電気の需給均衡された価格および量との間に時間依存関係があることを指す。例えば、所与の時間区間の電気の需給均衡された価格および量は、その所与の時間区間のオファー額だけでなく、所与の時間区間よりも前の時間区間におけるオファー額並びに電気の需給均衡された価格および量にも依存する。
ユーザによるユーザ選択所望動作レベルと、REMにおける電気の価格決定と、LRAMによる電気の需給均衡価格決定との時刻間相関挙動は、ユーザによるユーザ選択所望動作レベルと、REMにおける電気の価格決定と、LRAMによる電気の需給均衡価格決定との間に時間依存関係があることを指す。例えば、所与の時間区間のREMにおける電気の価格決定は、その所与の時間区間におけるLRAMによる電気の需給均衡価格決定と、以前の時間区間におけるユーザ選択所望動作レベル、LRAMによる電気の需給均衡価格決定、およびREMにおける電気の価格決定とに関係する。
エネルギーバランス制約は、非限定的な例として、卸売電力市場から購入された電気/エネルギーの量が小売電力市場に販売される電気/エネルギーの量に等しくなければならず、何らかの不整合が、EUCの総電力消費を調整することによって低減されなければならないか又は追加のコストとともに請求されなければならないことを指す。総電力消費を調整することは、電気デバイスのユーザ動作レベルを調整すること、時間区間ごとにエネルギー使用量をシフトすること、LSEによって所有される蓄電装置の充放電ステータスを調整すること、又はLSEによって所有される分散型エネルギーリソースの動作レベルを調整することのいずれかを通じて達成することができる。
提出されたオファー額を小売価格と比較することは、非限定的な例として、提出されたオファー額と小売価格との間に相違があるか否かを判断することを含むことができる。相違がある場合には、小売価格に基づいてユーザの利益を最大にするように、ユーザ動作レベルに対する調整が必要とされる。
電気デバイスを起動又は起動停止することは、実際のユーザ動作レベルを調整するために、提出されたオファー額と小売価格とに関する比較結果に基づいて行うことができる。電気デバイスの起動又は起動停止は、電気を供給することによる電気デバイスの起動、若しくは、電気を供給しないことによる電気デバイスの起動停止、又は、電気デバイスの幾つかの構成要素の起動/起動停止を含むことができる。ユーザ所望動作レベルは、動的な需要応答関数を所与の小売価格とともに使用することによって求めることができる。例えば、ユーザは、複数の電気ヒーターからなる電気デバイスを有する。このユーザは、小売価格に対応する需要応答関数によって求められた電気の量と一致するように、幾つかのヒーターをオン又はオフに切り替えることによって、ユーザ動作レベルを調整することができる。
(実施形態)
以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は1つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨および範囲から逸脱することなく要素の機能および配置に行うことができる様々な変更が意図されている。
以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、および他の要素は、実施形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、既知のプロセス、構造、および技法は、実施形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号および名称は、同様の要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。
さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、機械、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、機械可読媒体に記憶することができる。プロセッサが、それらの必要なタスクを実行することができる。
さらに、本開示の実施形態および本明細書において説明された機能動作は、本明細書に開示された構造およびそれらの構造的均等物を含むデジタル電子回路機構、有形に具現化されたコンピュータソフトウェア若しくはファームウェア、コンピュータハードウェア、又はそれらのうちの1つ以上のものの組み合わせにおいて実施することができる。さらに、本開示の幾つかの実施形態は、データ処理装置によって実行されるか又はデータ処理装置の動作を制御する1つ以上のコンピュータプログラム、すなわち、有形の非一時的プログラム担体上に符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実施することができる。またさらに、プログラム命令は、データ処理装置による実行のために、適した受信機装置への送信用の情報を符号化するように生成される人工的に生成された伝播信号、例えば、機械によって生成された電気信号、光信号、又は電磁信号において符号化することができる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶デバイス基板、ランダムアクセスメモリデバイス若しくはシリアルアクセスメモリデバイス、又はそれらのうちの1つ以上のものの組み合わせとすることができる。
本開示の実施形態によれば、用語「データ処理装置」は、データを処理する全ての種類の装置、デバイス、および機械を包含することができ、例として、プログラマブルプロセッサ、コンピュータ、又は複数のプロセッサ若しくはコンピュータを含む。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、又はコードと呼称又は記載される場合もある)は、コンパイラー型言語若しくはインタープリター型言語、又は宣言型言語若しくは手続型言語を含む任意の形態のプログラミング言語で記述することができ、スタンドアローンプログラムとしての形態、又は、モジュール、構成要素、サブルーチン、若しくはコンピューティング環境における使用に適した他のユニットとしての形態を含む任意の形態で配備することができる。コンピュータプログラムは、ファイルシステムにおけるファイルに対応する場合があるが、必ずしも対応する必要はない。プログラムは、他のプログラム又はデータ、例えば、マークアップ言語ドキュメントに記憶された1つ以上のスクリプトを保持するファイルの一部分に記憶することもできるし、問題となっているプログラムに専用化された単一のファイルに記憶することもできるし、複数のコーディネートファイル、例えば、1つ以上のモジュール、サブプログラム、又はコード部分を記憶するファイルに記憶することもできる。コンピュータプログラムは、1つのコンピュータ上で実行されるように配備することもできるし、1つのサイトに配置された複数のコンピュータ上で、又は、複数のサイトにわたって分散されて通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように配備することもできる。コンピュータプログラムの実行に適したコンピュータは、例として、汎用マイクロプロセッサ若しくは専用マイクロプロセッサ若しくはそれらの双方、又は他の任意の種類の中央処理装置を含む。一般に、中央処理装置は、リードオンリーメモリ若しくはランダムアクセスメモリ又はそれらの双方から命令およびデータを受け取る。コンピュータの必須素子は、命令を遂行又は実行する中央処理装置と、命令およびデータを記憶する1つ以上のメモリデバイスとである。一般に、コンピュータは、データを含むか、又は、データを記憶する1つ以上のマスストレージデバイス、例えば、磁気ディスク、光磁気ディスク、若しくは光ディスクからのデータの受信若しくはそれらへのデータの転送若しくはそれらの双方を行うように作動結合される。ただし、コンピュータは、必ずしもそのようなデバイスを有するとは限らない。その上、コンピュータは、別のデバイスに組み込むことができ、例えば、数例を挙げると、モバイル電話機、パーソナルデジタルアシスタント(PDA)、モバイルオーディオプレーヤ若しくはモバイルビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、又はポータブル記憶デバイス、例えば、ユニバーサルシリアルバス(USB)フラッシュドライブに組み込むことができる。

Claims (23)

  1. 市場ベースのリソース割り当てシステムにおいて電気デバイスの動作を制御するシステムであって、前記システムは、次期時間区間のユーザによる電気デバイスのユーザ選択所望動作レベルを、送受信機を介してほぼリアルタイムで受信するように構成されたプロセッサを有し、前記プロセッサは、実行可能プログラムおよび記憶されたデータを有するメモリに接続され、前記システムは、
    前記プロセッサを使用して、
    前記次期時間区間について前記ユーザ選択所望動作レベルで前記電気デバイスを動作させるために供給される電気が利用可能である値を表すオファー額を計算することであって、前記オファー額を計算することは、前記オファー額を得るために、前記ユーザ選択所望動作レベルと、現在の環境データと、ローカルリソース割り当て市場(LRAM)への過去のオファー額および前記LRAMによる電気の過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用される記憶された履歴エネルギー先物市場データとを含む、前記次期時間区間の複数のファクタに基づいていることと、
    前記オファー額を、前記送受信機を介して前記LRAMに送信することと、
    前記電気デバイスが電気を受け取る前記LRAMから電気の需給均衡された価格を、前記送受信機を介して受信することと、
    前記ユーザ選択所望動作レベルと、前記現在の環境データと、前記LRAMからの電気の前記需給均衡された価格と、前記ユーザによる過去のユーザ選択所望動作レベル、小売電力市場(REM)における電気の過去の価格決定および前記LRAMによる電気の前記過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用される前記記憶された履歴エネルギー先物市場データとに少なくとも部分的に基づいて、前記電気デバイスを動作させる電気の小売価格を計算して前記小売価格を得ることであって、前記オファー額および前記小売価格の前記計算は同時に行われることと、
    送信した前記オファー額を前記小売価格と比較することと、
    比較に基づいて前記電気デバイスを起動又は起動停止することと、
    を含む、システム。
  2. 前記ユーザ選択所望動作レベルは、第1のユーザ所望動作レベルおよび第2のユーザ所望動作レベルから選択され、前記第2のユーザ所望動作レベルは、前記ユーザが、前記第1のユーザ所望動作レベルと比較して、前記電気デバイスの所望動作レベルを達成するためにより多くの対価を支払うことを選択したレベルを表す、請求項1に記載のシステム。
  3. 前記LRAMは、独立系統運用機関(ISO)によって運用される卸売電力市場(WEM)であり、前記ユーザ選択所望動作レベルを選択したユーザは、前記小売電力市場(REM)における前記電気の最終使用顧客(EUC)であり、前記オファー額および前記小売価格は、負荷供給事業体(LSE)によって利用される、請求項1に記載のシステム。
  4. 前記LRAMは、リアルタイム電力市場又は1日前電力市場である、請求項1に記載のシステム。
  5. 前記電気デバイスは、空調ユニット、暖房ユニット、温水ヒータ、冷蔵庫、自動皿洗い機、洗濯機、ドライヤ、オーブン、電子レンジ、ポンプ、家庭用照明システム、電気自動車充電器、1つ以上の市販電気システム又は家庭用電気システムのうちの1つである、請求項1に記載のシステム。
  6. 前記現在の環境データは、ユーザロケーションの環境データと、前記次期時間区間の前記ユーザロケーションの予想環境データとを含む、請求項1に記載のシステム。
  7. 前記記憶された履歴エネルギー先物市場データは、過去のエネルギー先物市場情報および過去のLRAM情報を含み、前記オファー額を計算することは、前記過去のエネルギー先物市場情報からのオファー額情報に少なくとも部分的に基づくとともに前記過去のLRAMからのオファー額情報に少なくとも部分的に基づいて行われる、請求項1に記載のシステム。
  8. 前記エネルギー先物市場情報からのオファー額情報は、リアルタイム電力市場からの固定時間枠からのオファー情報を含み、前記LRAM情報からのオファー額情報は、ローリング時間枠のオファー額情報を含む、請求項7に記載のシステム。
  9. 前記オファー額および前記小売価格は、負荷供給事業体(LSE)によって利用され、少なくとも1つのエネルギーバランス制約を条件とする、前記次期時間区間から開始する将来の利潤のLSE期待値と、前記小売価格と前記需給均衡されたLRAM価格との間の差、並びに前記次期時間区間について前記ユーザによって消費される電気の量および前記LRAMからの電気の前記需給均衡された価格に対応する電気の需給均衡された量に基づいて求められる前記次期時間区間の将来の利潤とを最大にすることによって同時に計算される、請求項1に記載のシステム。
  10. 前記ユーザによって消費される前記電気の量は、前記次期時間区間よりも前の時間区間における小売価格と、前記次期時間区間よりも前の時間区間において前記ユーザによって消費された前記電気の量と、前記次期時間区間の前記計算された小売価格との動的需要応答関数である、請求項9に記載のシステム。
  11. 前記動的需要応答関数は、限られた数の以前の時間区間が使用されるときは多層フィードフォワードニューラルネットワークによって、又は、全ての利用可能な以前の時間区間が使用されるときはリカレントニューラルネットワーク(RNN)若しくは長短期記憶(LSTM)ユニットネットワークによって、教師あり学習手法を使用して学習される、請求項10に記載のシステム。
  12. 前記LRAMからの電気の前記需給均衡された価格および前記需給均衡された量は、前記次期時間区間の前の時間区間における前記LRAMによる電気の前記需給均衡された価格および量と、前記次期時間区間の前記LRAMへの前記オファー額との動的な入札応答関数である、請求項9に記載のシステム。
  13. 前記動的な入札応答関数は、限られた数の以前の時間区間が使用されるときは多層フィードフォワードニューラルネットワークによって、又は、全ての利用可能な以前の時間区間が使用されるときはリカレントニューラルネットワーク(RNN)若しくは長短期記憶(LSTM)ユニットネットワークによって、教師あり学習手法を使用して学習される、請求項12に記載のシステム。
  14. 負荷供給事業体(LSE)の前記オファー額および前記小売価格は、同時に求められ、前記小売価格は、以前の状態情報に基づいて価格決定方策を使用して最初に計算され、前記オファー額は、その後に、以前の状態情報および計算された小売価格に基づいて入札方策を使用して計算され、前記以前の状態情報は、前記次期時間区間の前の全ての時間区間のLSEオファー額、LRAM需給均衡された価格および量、前記ユーザによって消費された電気の量、並びに小売価格を含む、請求項1に記載のシステム。
  15. 負荷供給事業体(LSE)の前記オファー額および前記小売価格は、同時に求められ、前記オファー額は、以前の状態情報に基づいて入札方策を使用して計算され、前記小売価格は、以前の状態情報、前記オファー額、並びに前記需給均衡された価格および量に基づいて価格決定方策を使用して計算され、前記以前の状態情報は、前記次期時間区間の前の全ての時間区間のLSEオファー額、LRAM需給均衡された価格および量、前記ユーザによって消費された電気の量、並びに小売価格を含む、請求項1に記載のシステム。
  16. 負荷供給事業体(LSE)の前記小売価格は、現在の状態情報に基づいて価格決定方策によって計算され、前記状態情報は、前記次期時間区間に対する過去の対応する時間区間における前記ユーザによる過去の個別のユーザ選択所望動作レベルと、前記次期時間区間に対する過去の対応する時間区間における小売電力市場(REM)での電気の過去の個別のLSE小売価格決定データと、前記次期時間区間に対する過去の対応する時間区間における前記LRAMからの電気の過去の需給均衡された価格決定データとを含む、請求項1に記載のシステム。
  17. 前記オファー額および前記小売価格の前記計算は、マルコフ決定過程を定式化することによって同時に行われ、アクタークリティック構造を有する深層決定論的方策勾配手法を使用して解かれ、アクターは、オファー額および小売価格の候補を決定するニューラルネットワークによって実施され、クリティックは、性能を改善するようにニューラルネットワークのパラメータを調整するために、候補オファー額および候補小売価格のパフォーマンスを評価するニューラルネットワークによって実施される、請求項1に記載のシステム。
  18. 前記アクターは、価格決定方策ネットワーク、入札方策ネットワーク、および価格決定方策ターゲットネットワークを含み、前記クリティックは、クリティックネットワークおよびクリティックターゲットネットワークを含み、LSEによって得られる全体の利潤を改善するように、前記価格決定方策ネットワークが、小売価格を計算するために最初に使用され、その後、前記入札方策ネットワークが、計算された小売価格を用いてオファー額を計算するために使用される、請求項17に記載のシステム。
  19. 前記アクターは、価格決定方策ネットワーク、入札方策ネットワーク、価格決定方策ターゲットネットワーク、および入札方策ターゲットネットワークを含み、前記クリティックは、クリティックネットワークおよびクリティックターゲットネットワークを含み、LSEによって得られる全体の利潤を改善するように、前記入札方策ネットワークが、オファー額を計算するために最初に使用され、その後、前記価格決定方策ネットワークが、計算されたオファー額に対応する前記LRAMからの前記需給均衡された価格および量を用いて小売価格を計算するために使用される、請求項17に記載のシステム。
  20. 市場ベースのリソース割り当てシステムにおいて電気デバイスの動作を制御するシステムであって、前記システムは、次期時間区間のユーザによる電気デバイスのユーザ選択所望動作レベルを、入力インターフェースを介してほぼリアルタイムで受信するように構成されたプロセッサを有し、前記プロセッサは、実行可能プログラムおよび記憶されたデータを有するメモリに接続され、前記システムは、
    前記プロセッサを使用して、
    前記次期時間区間について前記ユーザ選択所望動作レベルで前記電気デバイスを動作させるために供給される電気が利用可能である値を表すオファー額を計算することと、
    前記オファー額を、出力インターフェースを介してローカルリソース割り当て市場(LRAM)に送信することと、
    前記電気デバイスが電気を受け取る前記LRAMから電気の需給均衡された価格を、前記入力インターフェースを介して受信することと、
    前記ユーザ選択所望動作レベルと、現在の環境データと、前記LRAMからの電気の前記需給均衡された価格と、前記ユーザによる過去のユーザ選択所望動作レベル、小売電力市場(REM)における電気の過去の価格決定および前記LRAMによる電気の過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用される記憶された履歴エネルギー先物市場データとに少なくとも部分的に基づいて、前記電気デバイスを動作させる電気の小売価格を計算して前記小売価格を得ることであって、前記オファー額および前記小売価格の前記計算は同時に行われることと、
    ユーザの利益の最大化によって送信されたオファー額を前記小売価格と比較することと、
    前記ユーザの利益の最大化に基づいて前記電気デバイスを起動又は起動停止することと、
    を含む、システム。
  21. 前記オファー額を計算することは、前記オファー額を得るために、前記ユーザ選択所望動作レベルと、前記現在の環境データと、ローカルリソース割り当て市場(LRAM)への過去のオファー額および前記LRAMによる電気の過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用される前記記憶された履歴エネルギー先物市場データとを含む、前記次期時間区間の複数のファクタに基づいている、請求項20に記載のシステム。
  22. 市場ベースのリソース割り当てシステムにおいて電気デバイスの動作を制御する方法であって、プロセッサは、次期時間区間のユーザによる電気デバイスのユーザ選択所望動作レベルを、入力インターフェースを介してほぼリアルタイムで受信するように構成され、前記プロセッサは、実行可能プログラムおよび記憶されたデータを有するメモリに接続され、前記方法は、
    前記プロセッサを使用して、
    前記次期時間区間について前記ユーザ選択所望動作レベルで前記電気デバイスを動作させるために供給される電気が利用可能である値を表すオファー額を計算することと、
    前記オファー額を、出力インターフェースを介してローカルリソース割り当て市場(LRAM)に送信することと、
    前記電気デバイスが電気を受け取る前記LRAMから電気の需給均衡された価格を、前記入力インターフェースを介して受信することと、
    前記ユーザ選択所望動作レベルと、現在の環境データと、前記LRAMからの電気の前記需給均衡された価格と、前記ユーザによる過去のユーザ選択所望動作レベル、小売電力市場(REM)における電気の過去の価格決定および前記LRAMによる電気の過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用される記憶された履歴エネルギー先物市場データとに少なくとも部分的に基づいて、前記電気デバイスを動作させる電気の小売価格を計算して前記小売価格を得ることであって、前記オファー額および前記小売価格の前記計算は同時に行われることと、
    送信されたオファー額を前記小売価格と比較することと、
    比較に基づいて前記電気デバイスを起動又は起動停止することと、
    を含む、方法。
  23. 前記オファー額を計算することは、前記オファー額を得るために、前記ユーザ選択所望動作レベルと、前記現在の環境データと、ローカルリソース割り当て市場(LRAM)への過去のオファー額および前記LRAMによる電気の前記過去の需給均衡価格決定の時刻間相関挙動を求めるのに使用される前記記憶された履歴エネルギー先物市場データとを含む、前記次期時間区間の複数のファクタに基づいている、請求項22に記載の方法。
JP2021515233A 2018-11-16 2019-07-01 電気デバイスの動作を制御するシステムおよび方法 Active JP7113968B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/193,058 2018-11-16
US16/193,058 US20200160411A1 (en) 2018-11-16 2018-11-16 Methods and Systems for Optimal Joint Bidding and Pricing of Load Serving Entity
PCT/JP2019/026918 WO2020100343A1 (en) 2018-11-16 2019-07-01 System and method to control operation of electrical device

Publications (2)

Publication Number Publication Date
JP2022501716A JP2022501716A (ja) 2022-01-06
JP7113968B2 true JP7113968B2 (ja) 2022-08-05

Family

ID=67515039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021515233A Active JP7113968B2 (ja) 2018-11-16 2019-07-01 電気デバイスの動作を制御するシステムおよび方法

Country Status (3)

Country Link
US (1) US20200160411A1 (ja)
JP (1) JP7113968B2 (ja)
WO (1) WO2020100343A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494854B2 (en) * 2019-02-07 2022-11-08 Midcontinent Independent System Operator, Inc. Systems and methods for managing watchlist constraints on an electric power grid
TWI687890B (zh) * 2019-05-13 2020-03-11 國立清華大學 基於強化學習的能源競價方法及裝置
JP7279698B2 (ja) 2020-10-16 2023-05-23 トヨタ自動車株式会社 移動体による電力取引のための入札条件決定装置
JP7298581B2 (ja) * 2020-10-16 2023-06-27 トヨタ自動車株式会社 移動体による電力取引のための入札条件決定装置及び電力取引システム
CN112651770B (zh) * 2020-12-07 2022-05-17 山东大学 电力现货市场售电商负荷申报优化方法及***
CN112419064B (zh) * 2020-12-07 2022-02-08 中山大学 基于深度强化学习和联盟链的能量交易方法、装置及设备
US20220188852A1 (en) * 2020-12-10 2022-06-16 International Business Machines Corporation Optimal pricing iteration via sub-component analysis
CN112859591B (zh) * 2020-12-23 2022-10-21 华电电力科学研究院有限公司 一种面向能源***运行优化的强化学习控制***
CN113269461A (zh) * 2021-06-09 2021-08-17 北京理工大学 一种基于博弈的边缘计算资源管理方法
TWI779732B (zh) * 2021-07-21 2022-10-01 國立清華大學 使用多智能體遷移式強化學習的再生能源競價方法
CN113706197A (zh) * 2021-08-26 2021-11-26 西安交通大学 基于强化和模仿学习的多微网电能交易的定价策略及***
CN114022069A (zh) * 2021-10-29 2022-02-08 中山大学 一种面向农村电商物流的配送中心选址方法
CN114241778B (zh) * 2022-02-23 2022-05-17 东南大学 高速公路网联车协同匝道汇入多目标优化控制方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120278220A1 (en) 2011-04-28 2012-11-01 Battelle Memorial Institute Forward-looking transactive pricing schemes for use in a market-based resource allocation system
US20160209858A1 (en) 2013-08-29 2016-07-21 Applied Hybrid Energy Pty Ltd Energy Control and Generation Method and System
WO2018084301A1 (ja) 2016-11-07 2018-05-11 株式会社オプティマイザー 電力需要調達支援システム、情報処理装置、情報処理方法および情報処理プログラム
JP2018077817A (ja) 2016-10-31 2018-05-17 富士通株式会社 推定方法、推定装置および推定プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050004858A1 (en) 2004-08-16 2005-01-06 Foster Andre E. Energy advisory and transaction management services for self-serving retail electricity providers
US8706650B2 (en) * 2009-01-14 2014-04-22 Integral Analytics, Inc. Optimization of microgrid energy use and distribution
US8892264B2 (en) 2009-10-23 2014-11-18 Viridity Energy, Inc. Methods, apparatus and systems for managing energy assets

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120278220A1 (en) 2011-04-28 2012-11-01 Battelle Memorial Institute Forward-looking transactive pricing schemes for use in a market-based resource allocation system
US20160209858A1 (en) 2013-08-29 2016-07-21 Applied Hybrid Energy Pty Ltd Energy Control and Generation Method and System
JP2018077817A (ja) 2016-10-31 2018-05-17 富士通株式会社 推定方法、推定装置および推定プログラム
WO2018084301A1 (ja) 2016-11-07 2018-05-11 株式会社オプティマイザー 電力需要調達支援システム、情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
WO2020100343A1 (en) 2020-05-22
JP2022501716A (ja) 2022-01-06
US20200160411A1 (en) 2020-05-21

Similar Documents

Publication Publication Date Title
JP7113968B2 (ja) 電気デバイスの動作を制御するシステムおよび方法
Xu et al. Deep reinforcement learning for joint bidding and pricing of load serving entity
Esmat et al. A novel decentralized platform for peer-to-peer energy trading market with blockchain technology
Le Cadre et al. Peer-to-peer electricity market analysis: From variational to generalized Nash equilibrium
Chen et al. An energy sharing game with generalized demand bidding: Model and properties
Rogers et al. A financial brokerage model for cloud computing
Nojavan et al. Optimal bidding strategy of electricity retailers using robust optimisation approach considering time‐of‐use rate demand response programs under market price uncertainties
Chapman et al. Algorithmic and strategic aspects to integrating demand-side aggregation and energy management methods
US20160072287A1 (en) Comfort-driven optimization of electric grid utilization
Amini et al. Demand response in future power networks: panorama and state-of-the-art
Motalleb et al. Networked stackelberg competition in a demand response market
Liu et al. Incremental incentive mechanism design for diversified consumers in demand response
Ketter et al. The 2015 power trading agent competition
Xu et al. Joint bidding and pricing for electricity retailers based on multi-task deep reinforcement learning
Mamounakis et al. A pricing scheme for electric utility's participation in day-ahead and real-time flexibility energy markets
Guerrero et al. Peer-to-peer energy trading: A case study considering network constraints
Al‐Gabalawy Reinforcement learning for the optimization of electric vehicle virtual power plants
Agwan et al. Pricing in prosumer aggregations using reinforcement learning
Sahay et al. Multienterprise supply chain: Simulation and optimization
Soares et al. A population‐based approach to the bi‐level multifollower problem: an application to the electricity retail market
Singh et al. Design of an optimal P2P energy trading market model using bilevel stochastic optimization
Zahraoui et al. A Competitive Framework for The Participation Of Multi-Microgrids in The Community Energy Trading Market: A Case Study.
Aguilar et al. Intent profile strategy for virtual power plant participation in simultaneous energy markets with dynamic storage management
Tsoumalis et al. A novel system for providing explicit demand response from domestic natural gas boilers
Uchida et al. Incentivizing market and control for ancillary services in dynamic power grids

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220726

R150 Certificate of patent or registration of utility model

Ref document number: 7113968

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150