TWI767868B - 基於強化學習的充電站能源使用規劃方法及裝置 - Google Patents

基於強化學習的充電站能源使用規劃方法及裝置 Download PDF

Info

Publication number
TWI767868B
TWI767868B TW110141537A TW110141537A TWI767868B TW I767868 B TWI767868 B TW I767868B TW 110141537 A TW110141537 A TW 110141537A TW 110141537 A TW110141537 A TW 110141537A TW I767868 B TWI767868 B TW I767868B
Authority
TW
Taiwan
Prior art keywords
reinforcement learning
charging station
energy
reward
learning table
Prior art date
Application number
TW110141537A
Other languages
English (en)
Other versions
TW202320002A (zh
Inventor
江坤諺
邱偉育
Original Assignee
國立清華大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立清華大學 filed Critical 國立清華大學
Priority to TW110141537A priority Critical patent/TWI767868B/zh
Application granted granted Critical
Publication of TWI767868B publication Critical patent/TWI767868B/zh
Publication of TW202320002A publication Critical patent/TW202320002A/zh

Links

Images

Landscapes

  • Charge And Discharge Circuits For Batteries Or The Like (AREA)

Abstract

一種基於強化學習的充電站能源使用規劃方法。此方法使用充電站自身的電力需求、電池剩餘電量及能源共享區域的全局電力需求與內部電價定義多個系統狀態,並預估在各系統狀態下安排能源使用動作的期望報酬以建構強化學習表;依據強化學習表選擇適於在當前系統狀態下安排的能源使用動作並上傳合作者裝置,根據合作者裝置所安排的交易電量及所計算的採用此能源使用動作的獎勵,以更新強化學習表;以及記錄當前系統狀態、能源使用動作、獎勵及系統狀態的歷經次數以產生模擬環境,計算在各系統狀態下安排電源使用動作的獎勵,據以更新強化學習表。

Description

基於強化學習的充電站能源使用規劃方法及裝置
本發明是有關於一種強化學習方法及裝置,且特別是有關於一種基於強化學習的充電站能源使用規劃方法及裝置。
近年來,由於環保意識的提高,許多人開始使用電動車輛,而隨著電動車輛用戶的大幅增加,電動車輛充電站的需求也同步提升。然而,由於電動車輛用戶的習慣不同,其對於充電站的需求有所差異,在大量電動車輛充電的情況下,將造成充電站充電的不協調,並且對整體電網有負面影響。
先前用於多個電動車輛充電站之間的能源使用規劃係採用非線性規劃(nonlinear programming)演算法,其需要實時預測價格、電動車輛需求和可再生能源數據,從而導致性能難以提升。為了解決此問題,目前已有部分文獻提出無模型的強化學習演算法,但此種演算法的收斂速度低,結果將產生較高的花費並造成能源浪費,無法達到充電站整體利益的最大化。
本發明提供一種基於強化學習的充電站能源使用規劃方法及裝置,可妥善安排各充電站之電池充放電與能源提供,達到充電站整體利益最大化。
本發明提供一種基於強化學習的充電站能源使用規劃方法,適於由能源共享區域內多個充電站中的指定充電站規劃能源使用。所述方法包括使用自身的電力需求、電池剩餘電量以及能源共享區域的全局電力需求與內部電價定義多個系統狀態,並預估各個系統狀態下安排能源使用動作的期望報酬以建構一個強化學習表,其中全局電力需求是由合作者裝置整合各個充電站上傳的電力需求而得;依據強化學習表選擇適於在當前系統狀態下安排的能源使用動作並上傳至合作者裝置,根據合作者裝置所安排的交易電量及所計算的採用此能源使用動作的獎勵,以更新強化學習表;以及記錄當前系統狀態、能源使用動作、獎勵及當前系統狀態的歷經次數以產生一模擬環境,並在此模擬環境下,計算在各個系統狀態下安排電源使用動作所獲得的獎勵,據以更新強化學習表。
本發明提供一種基於強化學習的充電站能源使用規劃裝置,其係配置於指定充電站。此充電站能源使用規劃裝置包括連接裝置、儲存裝置及處理器。連接裝置是用以連接合作者裝置,此合作者裝置是用以管理能源共享區域內包括指定充電站在內的多個充電站。儲存裝置用以儲存電腦程式。處理器耦接連接裝置及儲存裝置,且經配置以載入並執行電腦程式以使用指定充電站的電力需求、電池剩餘電量以及能源共享區域的全局電力需求與內部電價定義多個系統狀態,並預估在各個系統狀態下安排能源使用動作的期望報酬以建構一個強化學習表,其中全局電力需求是由合作者裝置整合各個充電站上傳的電力需求而得;依據強化學習表選擇適於在當前系統狀態下安排的能源使用動作並上傳至合作者裝置,根據合作者裝置所安排的交易電量及所計算的採用能源使用動作的獎勵,以更新強化學習表;以及記錄當前系統狀態、能源使用動作、獎勵及當前系統狀態的歷經次數以產生一模擬環境,並在此模擬環境下,計算在各個系統狀態下安排電源使用動作所獲得的獎勵,據以更新強化學習表。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明實施例運用強化學習方法於充電站,根據來自外界的電力需求資訊,使用基於模型的多智能體(multi-agent)強化學習演算法,透過更新迭代並在固定時間段作電動車輛充電站的能源使用規劃,安排各充電站的電池充放電與所提供的電動汽車能源之策略,以達到充電站整體利益最大化。
圖1是根據本發明一實施例所繪示的能源共享系統的示意圖。請參考圖1,本實施例的能源共享系統10適用於一電動車輛充電站的合作區域,其中包括多個電動車輛的充電站EVCS 1~EVCS I(其中I為正整數)及負責傳遞資訊的至少一個合作者裝置12。該區域下每個充電站EVCS 1~EVCS I皆備有儲能裝置(energy storage system,ESS),其能向其他電動車輛充電站售出多餘的電量或是購買不足的電量。充電站EVCS 1~EVCS I會依照電廠14所提供的實時電價(real-time-price)、自身電動車輛用戶的充電需求、儲能裝置的剩餘電量與所有電動車用戶的充電需求,決定電動車輛之電量供給並適當調整充放電策略。
圖2是根據本發明一實施例所繪示的基於強化學習的充電站能源使用規劃裝置的方塊圖。請同時參考圖1及圖2,本發明實施例的充電站能源使用規劃裝置20例如是配置在圖1的充電站EVCS 1中,但在其他實施例中,充電站能源使用規劃裝置20也可以配置在圖1的其他充電站中。充電站能源使用規劃裝置20例如是具有運算能力的檔案伺服器、資料庫伺服器、應用程式伺服器、工作站或個人電腦等計算機裝置,其中包括連接裝置22、儲存裝置24及處理器26等元件,這些元件的功能分述如下:
連接裝置22例如是可與合作者裝置12連接的任意的有線或無線的介面裝置,其可用以將充電站EVCS1自身的電力需求上傳至合作者裝置12,並接收由合作者裝置12回傳的全局電力需求。對於有線方式而言,連接裝置22可以是通用序列匯流排(universal serial bus,USB)、RS232、通用非同步接收器/傳送器(universal asynchronous receiver/transmitter,UART)、內部整合電路(I2C)、序列周邊介面(serial peripheral interface,SPI)、顯示埠(display port)或雷電埠(thunderbolt)等介面,但不限於此。對於無線方式而言,連接裝置22可以是支援無線保真(wireless fidelity,Wi-Fi)、RFID、藍芽、紅外線、近場通訊(near-field communication,NFC)或裝置對裝置(device-to-device,D2D)等通訊協定的裝置,亦不限於此。在一些實施例中,連接裝置22亦可包括支援乙太網路(Ethernet)或是支援802.11g、802.11n、802.11ac等無線網路標準的網路卡,使得充電站能源使用規劃裝置20可經由網路連接合作者裝置12,以上傳或接收電力需求、全局電力需求、交易電量等資料。
儲存裝置24例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、硬碟或類似元件或上述元件的組合,而用以儲存可由處理器26執行的電腦程式。在一些實施例中,儲存裝置24例如還可儲存由處理器26所建立的強化學習表以及由連接裝置22從合作者裝置12接收的全局電力需求。
處理器26例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、微控制器(Microcontroller)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置或這些裝置的組合,本發明不在此限制。在本實施例中,處理器26可從儲存裝置24載入電腦程式,以執行本發明實施例的基於強化學習的充電站能源使用規劃方法。
本發明實施例的基於強化學習的充電站能源使用規劃方法例如是將多個電動車輛充電站的運作過程形塑成馬可夫決策過程(Markov decision process,MDP),並將各個電動車輛充電站視為智能體(agent)進行學習,使運作時間離散化(time slot),為了提升規劃(planning)效率,例如是採用回合式設定(episode)。
詳細而言,圖3是依照本發明一實施例所繪示的基於強化學習的充電站能源使用規劃方法的流程圖。請同時參照圖1、圖2及圖3,本實施例的方法適用於上述充電站能源使用規劃裝置20,以下即搭配充電站能源使用規劃裝置20的各項元件說明本實施例的充電站能源使用規劃方法的詳細步驟。
在步驟S302中,由充電站能源使用規劃裝置20的處理器26以充電站EVCS 1的電力資訊、電池剩餘電量以及能源共享區域的全局電力需求與內部電價定義多個電力狀態,並預估在各個系統狀態下安排能源使用動作的期望報酬以建構一強化學習表。其中,處理器26例如是利用連接裝置22將自身的電力需求上傳至能源共享區域的合作者裝置12,並接收由合作者裝置12整合各個充電站EVCS 1~EVCS I上傳的電力需求所得的全局電力需求(即,充電站總體的電力需求),並根據充電站所在區域通知各個充電站當前的全局電力需求。
詳言之,處理器26例如會給定一狀態空間S及一動作空間A,並將在時間段t的狀態標記為
Figure 02_image001
,其中
Figure 02_image003
,以及將在狀態
Figure 02_image001
下於時間段t選擇的動作標記為
Figure 02_image005
,其中
Figure 02_image007
。在狀態
Figure 02_image001
下選擇動作
Figure 02_image005
之後,此環境將轉變為下一狀態
Figure 02_image009
,並產生整體利益P(t)。其中,在狀態
Figure 02_image001
下選擇動作
Figure 02_image005
的機率函數可標記為策略
Figure 02_image011
,而用以評估在時間段t使用策略
Figure 02_image013
的累計利益的期望值的動作值函數(即,Q函數)
Figure 02_image015
可定義為:
Figure 02_image017
,
Figure 02_image019
其中,
Figure 02_image021
為折扣率(discount factor)。
在本實施例中,處理器26例如是將第i個充電站在時間段t的狀態
Figure 02_image023
定義為:
Figure 02_image025
其中,
Figure 02_image027
為在時間段t的能源共享區域的全局電力需求,
Figure 02_image029
為第i個充電站的電池電量,
Figure 02_image031
為第i個充電站的電力需求,
Figure 02_image033
則為能源共享區域的內部電價,例如電廠所提供的實時電價。其中,
Figure 02_image027
係作為觀察用指標,其可幫助充電站學習其他充電站動作的效果,並改善學習效率。
在其他實施例中,處理器26例如是將第i個充電站在時間段t的狀態
Figure 02_image023
定義為:
Figure 02_image035
其中,
Figure 02_image027
為在時間段t的能源共享區域的全局電力需求,
Figure 02_image029
為第i個充電站的電池電量,
Figure 02_image037
為第i個充電站的緊急需求,
Figure 02_image039
為第i個充電站的常規需求,
Figure 02_image041
為第i個充電站的再生能源電量,
Figure 02_image033
則為能源共享區域的內部電價。其中,上述的緊急需求例如是滿足至少一個緊急條件的電力需求,而所述的緊急條件例如是充電時間限制(例如為1小時)、充電量限制等充電相關的限制條件,在此不設限。
每個充電站的動作可定義為:
Figure 02_image043
其中,
Figure 02_image045
為充放電需求量,
Figure 02_image047
為電池充放電電量。其中,當
Figure 02_image045
為正值時,代表充電站需購電,而當
Figure 02_image045
為負值,代表充電站可售電。
在步驟S304中,處理器26依據強化學習表選擇適於在當前系統狀態下安排的能源使用動作並上傳至合作者裝置12,根據合作者裝置12所安排的交易電量及所計算的採用此能源使用動作的獎勵,以更新強化學習表。
在一些實施例中,處理器26例如是選擇強化學習表中所記錄的當前系統狀態下的多個能源使用動作中的最優動作,並利用連接裝置22將當前系統狀態以及所選擇的能源使用動作一併傳送給合作者裝置12,而由合作者裝置12計算出安排給充電站的交易電量,其中包括與其他充電站的能源分享量以及向電廠14購買/賣出的電量。處理器26例如還將充電站獲得的利益資訊傳送給合作者裝置12,並由合作者裝置12計算出全部充電站的整體利益,而可作為處理器26採用此能源使用動作的獎勵。
詳細而言,每個充電站的最佳化問題是根據當前的系統狀態去找出能夠最大化整體利益的期望值的最佳策略
Figure 02_image049
,而最佳化動作值函數可標記為
Figure 02_image051
。所述最佳策略
Figure 02_image049
的選擇基於下式:
Figure 02_image053
,
Figure 02_image019
其中,
Figure 02_image055
為充電站的狀態範圍,
Figure 02_image057
則為充電站的動作範圍,其例如為在時刻t需滿足電動車輛之電量供給與充放電量的範圍,而與充電站自身的電力需求和儲存裝置的剩餘電量有關。
根據合作者裝置12所計算的交易電量及全部充電站的整體利益,處理器26可依據下式更新強化學習表中的學習值
Figure 02_image059
Figure 02_image061
其中,
Figure 02_image063
為學習率(learning rate)、
Figure 02_image065
為折扣率(discount factor),
Figure 02_image067
為在系統狀態
Figure 02_image069
下安排交易電量
Figure 02_image071
所得的學習值。上述的學習率
Figure 02_image063
例如為數值介於0.1至0.5之間的任意數,其可決定新系統狀態
Figure 02_image069
對於原系統狀態
Figure 02_image023
的學習值的影響比例。上述的折扣率
Figure 02_image065
例如為數值介於0.9至0.99之間的任意數,其可決定新系統狀態
Figure 02_image069
的學習值相對於所回饋的獎勵
Figure 02_image073
的比率。
在步驟S306中,處理器26記錄當前系統狀態、能源使用動作、獎勵及當前系統狀態的歷經次數以產生一模擬環境,並在模擬環境下,計算在各個系統狀態下安排電源使用動作所獲得的獎勵,據以更新強化學習表。
詳細而言,當充電站實際運作時,充電站在每個時刻都會記錄其系統狀態、所執行的動作、執行動作所獲得的獎勵和每個系統狀態的歷經次數,並可利用所記錄的資料產生模擬環境以進行學習。其中,若系統狀態的歷經次數愈高,即表示該系統狀態在未來發生機率愈高,因此,歷經次數可決定系統狀態在規劃過程中的優先程度。
在強化學習表建立之後,即可利用所產生的模擬環境在本地端進行學習。在一些實施例中,為了有足夠的資料能在本地端進行學習,規劃的執行例如是以回合為單位(即,固定每隔一定的時刻執行規劃)。而為了避免不必要的規劃而浪費系統資源,可進一步根據整體利益的變化來判斷是否需要進入規劃。
詳細而言,圖4是依照本發明一實施例所繪示的基於強化學習的充電站能源使用規劃方法的流程圖。請同時參照圖1、圖2、圖3及圖4,本實施例說明圖3實施例的步驟S306的詳細步驟。
在步驟S402中,處理器26記錄當前系統狀態、能源使用動作、獎勵及當前系統狀態的歷經次數以產生一模擬環境,並在模擬環境下,計算在各個系統狀態下安排電源使用動作所獲得的獎勵。其中,處理器26例如是其在當前系統狀態選擇能源使用動作的情況下充電站可獲得的利益資訊傳送給合作者裝置12,而將合作者裝置12所計算的全部充電站的整體利益作為採用此能源使用動作的獎勵。
在步驟S404中,處理器26會計算整體利益的變化率,並判斷此變化率是否超過預設閾值。所述變化率
Figure 02_image075
的公式如下:
Figure 02_image077
Figure 02_image079
其中,
Figure 02_image081
表示在時刻t由合作者裝置12根據各充電站的利益資訊所計算的整體利益(平均利益),而則
Figure 02_image075
表示時刻t-1至時刻t的整體利益變化率。在步驟S404中,處理器26即根據此變化率
Figure 02_image075
,判斷是否需要進入規劃。
若變化率
Figure 02_image075
大於預設閾值
Figure 02_image083
,則在步驟S406中,處理器26即規劃強化學習表中的電源使用動作。反之,若變化率
Figure 02_image075
不大於預設閾值
Figure 02_image083
,或是強化學習表的規劃完成後,則在步驟S408中,處理器26將等待充電站進入下一個系統狀態時,再依據更新後的強化學習表,選擇適於在下一個系統狀態下安排的能源使用動作並執行強化學習表的更新。
圖5是依照本發明一實施例所繪示的基於強化學習的充電站能源使用規劃方法的流程圖。請同時參照圖1、圖2、圖4及圖5,本實施例說明圖4實施例的步驟S406的詳細步驟。
在步驟S502中,處理器26依據強化學習表中所記錄的各個系統狀態的歷經次數,依序選擇一個系統狀態。其中,處理器26例如會依據所記錄的各個系統狀態的歷經次數,將這些系統狀態排序,而選擇歷經次數最高的系統狀態進行本地端學習。
在步驟S504,處理器26隨機選擇強化學習表中所記錄的該系統狀態下的其中一個能源使用動作,並用以計算在所選擇系統狀態下採用所選擇能源使用動作所獲得的獎勵。在此模擬過程中,處理器26例如是採用如前述實施例所述的方法,將當前選擇的系統狀態及能源使用動作上傳至合作者裝置12,而由合作者裝置12計算所有充電站的整體利益,並提供給所述處理器26作為獎勵,用以判斷是否更新強化學習表。
在步驟S506中,處理器26判斷在當前所選擇系統狀態下採用所選擇能源使用動作所獲得的獎勵是否大於先前記錄的獎勵。若當前獎勵未大於先前獎勵,則回到步驟S504,重新選擇能源使用動作,並重新計算獎勵。
若當前獎勵大於先前獎勵,則在步驟S508,處理器26即使用當前選擇的能源使用動作更新強化學習表。例如,更新強化學習表中在所選擇系統狀態下選擇此能源使用動作的學習值。
在步驟S510中,處理器26會判斷規劃過程中已選擇用來計算獎勵以更新強化學習表的系統狀態的個數是否超過預定比例。所述比例例如為四分之一或其他數值,在此不設限。
若已選擇的系統狀態的個數未超過預定比例,則回到步驟S502,由處理器26重新選擇下一個系統狀態,以進行強化學習表的更新。反之,若已選擇的系統狀態的個數超過預定比例,則在步驟S512中,處理器26將會結束規劃過程。藉由限定規劃過程中選取的系統狀態個數,可大幅加快學習速度。在規劃過程結束後,更新的強化學習表已具備一定的經驗,因此能夠在實際運作中,為充電站提供適於當前系統狀態的充放電策略,達到充電站整體利益的最大化。
綜上所述,在本發明實施例的基於強化學習的充電站能源使用規劃方法及裝置中,依據充電站能源共享區域內的資訊以及當時環境資料來決定供給電動車輛的電量,透過更新迭代以及在固定時間段進行充電站的能源使用規劃的方式,對強化學習表進行更新,藉此可加速多智能體學習模型的學習速度以利快速適應環境,並可達到充電站整體利益的最大化。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
10:能源共享系統 12:合作者裝置 14:電廠 20:充電站能源使用規劃裝置 22:連接裝置 24:儲存裝置 26:處理器 EVCS 1~EVCS I:充電站 S302~S306、S402~S408、S502~S512:步驟
圖1是根據本發明一實施例所繪示的能源共享系統的示意圖。 圖2是根據本發明一實施例所繪示的基於強化學習的充電站能源使用規劃裝置的方塊圖。 圖3是依照本發明一實施例所繪示的基於強化學習的充電站能源使用規劃方法的流程圖。 圖4是依照本發明一實施例所繪示的基於強化學習的充電站能源使用規劃方法的流程圖。 圖5是依照本發明一實施例所繪示的基於強化學習的充電站能源使用規劃方法的流程圖。
S302~S306:步驟

Claims (20)

  1. 一種基於強化學習的充電站能源使用規劃方法,適於由能源共享區域內多個充電站中的指定充電站規劃能源使用,所述方法包括下列步驟: 使用自身的電力需求、電池剩餘電量以及所述能源共享區域的全局電力需求與內部電價定義多個系統狀態,並預估在各所述系統狀態下安排能源使用動作的期望報酬以建構一強化學習表,其中所述全局電力需求是由所述合作者裝置整合各所述充電站上傳的電力需求而得; 依據所述強化學習表選擇適於在當前系統狀態下安排的能源使用動作並上傳至所述合作者裝置,根據所述合作者裝置所安排的交易電量及所計算的採用所述能源使用動作的獎勵,更新所述強化學習表;以及 記錄所述當前系統狀態、所述能源使用動作、所述獎勵及所述當前系統狀態的歷經次數以產生一模擬環境,並在所述模擬環境下,計算在各所述系統狀態下安排所述電源使用動作所獲得的獎勵,據以更新所述強化學習表。
  2. 如請求項1所述的方法,其中計算在各所述系統狀態下安排所述電源使用動作所獲得的獎勵的步驟包括: 在所述模擬環境下,依據所述歷經次數依序選擇所述強化學習表中的所述系統狀態其中之一,並隨機選擇所述系統狀態下的所述能源使用動作其中之一,用以計算在所選擇的所述系統狀態下採用所選擇的所述能源使用動作所獲得的所述獎勵。
  3. 如請求項2所述的方法,其中計算在各所述系統狀態下安排所述電源使用動作所獲得的獎勵,據以更新所述強化學習表的步驟包括: 將當前計算的所述獎勵與先前記錄的獎勵比較,並在當前計算的所述獎勵大於所述先前記錄的獎勵時,使用當前選擇的所述能源使用動作更新所述強化學習表。
  4. 如請求項2所述的方法,其中計算在各所述系統狀態下安排所述電源使用動作所獲得的獎勵,據以更新所述強化學習表的步驟更包括: 判斷依序選擇用來計算所述獎勵以更新所述強化學習表的所述系統狀態的個數是否超過預定比例,並在所述個數超過所述預定比例時,結束所述強化學習表的更新。
  5. 如請求項1所述的方法,更包括: 判斷所計算的所述獎勵的變化率是否超過預設閾值,並在所述變化率超過所述預設閾值時,產生所述模擬環境,以進行所述強化學習表的更新。
  6. 如請求項1所述的方法,其中依據所述強化學習表選擇適於在當前系統狀態下安排的能源使用動作的步驟包括: 選擇所述強化學習表中所記錄的所述當前系統狀態下的多個能源使用動作中的最優動作。
  7. 如請求項1所述的方法,其中所述系統狀態中的所述電力需求包括常規需求及緊急需求,其中所述緊急需求為滿足至少一緊急條件的電力需求。
  8. 如請求項1所述的方法,其中所述系統狀態更包括所述充電站的再生能源電量。
  9. 如請求項1所述的方法,其中所述能源使用動作包括所述充電站的充放電需求量及電池充放電電量。
  10. 如請求項1所述的方法,其中所述合作者裝置安排的交易電量包括向其他所述充電站交易的電量、向電廠購買的電量以及賣回所述電廠的電量。
  11. 一種基於強化學習的充電站能源使用規劃裝置,配置於指定充電站,包括: 連接裝置,連接合作者裝置,所述合作者裝置用以管理能源共享區域內包括所述指定充電站在內的多個充電站; 儲存裝置,儲存電腦程式;以及 處理器,耦接所述連接裝置及所述儲存裝置,經配置以載入並執行所述電腦程式以: 使用所述指定充電站的電力需求、電池剩餘電量以及所述能源共享區域的全局電力需求與內部電價定義多個系統狀態,並預估在各所述系統狀態下安排能源使用動作的期望報酬以建構一強化學習表,其中所述全局電力需求是由所述合作者裝置整合各所述充電站上傳的電力需求而得; 依據所述強化學習表選擇適於在當前系統狀態下安排的能源使用動作並上傳至所述合作者裝置,根據所述合作者裝置所安排的交易電量及所計算的採用所述能源使用動作的獎勵,以更新所述強化學習表;以及 記錄所述當前系統狀態、所述能源使用動作、所述獎勵及所述當前系統狀態的歷經次數以產生一模擬環境,並在所述模擬環境下,計算在各所述系統狀態下安排所述電源使用動作所獲得的獎勵,據以更新所述強化學習表。
  12. 如請求項11所述的充電站能源使用規劃裝置,其中所述處理器包括在所述模擬環境下,依據所述歷經次數依序選擇所述強化學習表中的所述系統狀態其中之一,並隨機選擇所述系統狀態下的所述能源使用動作其中之一,用以計算在所選擇的所述系統狀態下採用所選擇的所述能源使用動作所獲得的獎勵。
  13. 如請求項12所述的充電站能源使用規劃裝置,其中所述處理器包括將當前計算的所述獎勵與先前記錄的獎勵比較,並在當前計算的所述獎勵大於所述先前記錄的獎勵時,使用當前選擇的所述能源使用動作更新所述強化學習表。
  14. 如請求項12所述的充電站能源使用規劃裝置,其中所述處理器更判斷依序選擇用來計算所述獎勵以更新所述強化學習表的所述系統狀態的個數是否超過預定比例,並在所述個數超過所述預定比例時,結束所述強化學習表的更新。
  15. 如請求項11所述的充電站能源使用規劃裝置,其中所述處理器更判斷所計算的所述獎勵的變化率是否超過預設閾值,並在所述變化率超過所述預設閾值時,產生所述模擬環境,以進行所述強化學習表的更新。
  16. 如請求項11所述的充電站能源使用規劃裝置,其中所述系統狀態中的所述電力需求包括常規需求及緊急需求,其中所述緊急需求為滿足至少一緊急條件的電力需求。
  17. 如請求項11所述的充電站能源使用規劃裝置,其中所述處理器包括選擇所述強化學習表中所記錄的所述當前系統狀態下的多個能源使用動作中的最優動作。
  18. 如請求項11所述的充電站能源使用規劃裝置,其中所述系統狀態更包括所述充電站的再生能源電量。
  19. 如請求項11所述的充電站能源使用規劃裝置,其中所述能源使用動作包括所述充電站的充放電需求量及電池充放電電量。
  20. 如請求項11所述的充電站能源使用規劃裝置,其中所述合作者裝置安排的交易電量包括向其他所述充電站交易的電量、向電廠購買的電量以及賣回所述電廠的電量。
TW110141537A 2021-11-08 2021-11-08 基於強化學習的充電站能源使用規劃方法及裝置 TWI767868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW110141537A TWI767868B (zh) 2021-11-08 2021-11-08 基於強化學習的充電站能源使用規劃方法及裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110141537A TWI767868B (zh) 2021-11-08 2021-11-08 基於強化學習的充電站能源使用規劃方法及裝置

Publications (2)

Publication Number Publication Date
TWI767868B true TWI767868B (zh) 2022-06-11
TW202320002A TW202320002A (zh) 2023-05-16

Family

ID=83103861

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110141537A TWI767868B (zh) 2021-11-08 2021-11-08 基於強化學習的充電站能源使用規劃方法及裝置

Country Status (1)

Country Link
TW (1) TWI767868B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200108732A1 (en) * 2018-10-09 2020-04-09 Regents Of The University Of Minnesota Physical model-guided machine learning framework for energy management of vehicles
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN112396223A (zh) * 2020-11-10 2021-02-23 华北电力大学 一种交互能源机制下的电动汽车充电站能量管理方法
CN113159578A (zh) * 2021-04-22 2021-07-23 杭州电子科技大学 基于强化学习的大型电动汽车充电站的充电优化调度方法
EP3863882A1 (de) * 2018-10-11 2021-08-18 Vitesco Technologies GmbH Verfahren und backendvorrichtung zur prädiktiven ladesteuerung für einen elektrischen energiespeicher eines kraftfahrzeugs

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200108732A1 (en) * 2018-10-09 2020-04-09 Regents Of The University Of Minnesota Physical model-guided machine learning framework for energy management of vehicles
EP3863882A1 (de) * 2018-10-11 2021-08-18 Vitesco Technologies GmbH Verfahren und backendvorrichtung zur prädiktiven ladesteuerung für einen elektrischen energiespeicher eines kraftfahrzeugs
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN112396223A (zh) * 2020-11-10 2021-02-23 华北电力大学 一种交互能源机制下的电动汽车充电站能量管理方法
CN113159578A (zh) * 2021-04-22 2021-07-23 杭州电子科技大学 基于强化学习的大型电动汽车充电站的充电优化调度方法

Also Published As

Publication number Publication date
TW202320002A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
Akhavan-Rezai et al. Online intelligent demand management of plug-in electric vehicles in future smart parking lots
Nazari et al. Electric vehicles for smart buildings: A survey on applications, energy management methods, and battery degradation
JP2024001341A (ja) バッテリーサービス提供システム及び方法
JP7243425B2 (ja) 電池情報管理システムおよび電池情報管理方法
Shalaby et al. A dynamic optimal battery swapping mechanism for electric vehicles using an LSTM-based rolling horizon approach
US20230127845A1 (en) Method for aggregating group of electric vehicles based on electric vehicle flexibility, electronic device, and storage medium
Liu et al. A blockchain-based trustworthy collaborative power trading scheme for 5G-enabled social internet of vehicles
TWI767525B (zh) 基於強化學習的再生能源配置方法及裝置
JP2021149788A (ja) 情報提示システム、サーバ、情報提示方法、及び情報提示装置
TWI763087B (zh) 基於強化學習的點對點能源共享方法及裝置
Sultanuddin et al. Development of improved reinforcement learning smart charging strategy for electric vehicle fleet
Fu et al. Electric vehicle charging scheduling control strategy for the large-scale scenario with non-cooperative game-based multi-agent reinforcement learning
TWI767868B (zh) 基於強化學習的充電站能源使用規劃方法及裝置
US20230196090A1 (en) Intelligent charging of multiple vehicles through learned experience
US20220305947A1 (en) Management methods and systems for energy and charging requests of an electric vehicle charging field
JPWO2019171728A1 (ja) 電力管理システム、電力管理方法、およびプログラム
CN112329215B (zh) 含电动汽车换电站的配电网的可靠性评估方法及计算设备
Chen et al. Reinforcement learning for smart charging of electric buses in smart grid
JP2021077508A (ja) 二次電池の保管方法、二次電池の保管システムおよびプログラム
CN117863969B (zh) 一种考虑电池损耗的电动汽车充放电控制方法及***
CN116128543B (zh) 一种售电公司负荷申报与出清的综合模拟运行方法及***
Zhu et al. A Budget-aware Incentive Mechanism for Vehicle-to-Grid via Reinforcement Learning
CN116307606B (zh) 一种基于区块链的共享储能灵活性运行调度方法
TWI779732B (zh) 使用多智能體遷移式強化學習的再生能源競價方法
TWI699729B (zh) 充電設備之充電管理系統及方法