TWI714496B

TWI714496B - 無線電力驅動通訊網路的強化學習通訊時間分配方法及基地台

Info

Publication number: TWI714496B
Application number: TW109112410A
Authority: TW
Inventors: 邱偉育; 蔡松佑
Original assignee: 國立清華大學
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-12-21
Also published as: TW202139076A; US20210320706A1; US11323167B2

Abstract

本發明提供一種無線電力驅動通訊網路的強化學習通訊時間分配方法及基地台。所述方法包括：依據關聯於通訊節點的總估計吞吐量的目標函數決定對應於第t個時間區塊的通訊時間分配；要求各通訊節點在第t個時間區塊中依據對應的通訊時間區間執行特定通訊行為；取得各通訊節點在第t個時間區塊中的實際吞吐量；依據各通訊節點在第t個時間區塊中的實際吞吐量、權重向量及估計吞吐量產生各通訊節點在第t+1個時間區塊中的權重向量。

Description

無線電力驅動通訊網路的強化學習通訊時間分配方法及基地台

本發明是有關於一種通訊時間分配方法，且特別是有關於一種無線電力驅動通訊網路（Wireless Powered Communication Network，WPCN）的強化學習通訊時間分配方法及基地台。

先前WPCN的傳輸吞吐量最佳化多將問題轉化為凸函數問題（convex problems），並利用Lagrange乘數（multiplier）或凸函數最佳化演算法（convex optimization algorithms）求解。然而，這些方法須假設所有通道參數（例如通道增益、衰減等）為已知。

然而，實際上的通道參數會隨時間、基地台位置或通訊節點位置而改變，因此若基地台及各通訊節點的通訊時間無法得到動態調整，將可能使得WPCN的總吞吐量大幅下降。

有鑑於此，本發明提供一種無線電力驅動通訊網路的強化學習通訊時間分配方法及基地台，其可用於解決上述技術問題。

本發明提供一種無線電力驅動通訊網路的強化學習通訊時間分配方法，適於一無線電力驅動通訊網路中的一基地台，其中基地台管理無線電力驅動通訊網路中的多個通訊節點，所述方法包括：取得各通訊節點在第t個時間區塊中的一權重向量，並模型化各通訊節點在所述第t個時間區塊中的一特徵向量，其中各通訊節點在所述第t個時間區塊的特徵向量關聯於各通訊節點在所述第t個時間區塊中的一通訊時間區間；基於各通訊節點在所述第t個時間區塊中的權重向量及特徵向量模型化各通訊節點在所述第t個時間區塊中的一估計吞吐量，並據以模型化前述通訊節點在所述第t個時間區塊中的一總估計吞吐量；依據關聯於總估計吞吐量的一目標函數決定對應於所述第t個時間區塊的一通訊時間分配，其中通訊時間分配包括基地台及前述通訊節點個別在所述第t個時間區塊中的通訊時間區間，且通訊時間分配滿足至少一限制條件；將所述第t個時間區塊的通訊時間分配通知前述通訊節點，並要求各通訊節點在所述第t個時間區塊中依據對應的通訊時間區間執行一特定通訊行為；取得各通訊節點在所述第t個時間區塊中的一實際吞吐量；依據各通訊節點在所述第t個時間區塊中的實際吞吐量、權重向量及估計吞吐量產生各通訊節點在第t+1個時間區塊中的權重向量。

本發明提供一種基地台，其屬於一無線電力驅動通訊網路，並管理無線電力驅動通訊網路中的多個通訊節點，基地台經配置以：取得各通訊節點在第t個時間區塊中的一權重向量，並模型化各通訊節點在所述第t個時間區塊中的一特徵向量，其中各通訊節點在所述第t個時間區塊的特徵向量關聯於各通訊節點在所述第t個時間區塊中的一通訊時間區間；基於各通訊節點在所述第t個時間區塊中的權重向量及特徵向量模型化各通訊節點在所述第t個時間區塊中的一估計吞吐量，並據以模型化前述通訊節點在所述第t個時間區塊中的一總估計吞吐量；依據關聯於總估計吞吐量的一目標函數決定對應於所述第t個時間區塊的一通訊時間分配，其中通訊時間分配包括基地台及前述通訊節點個別在所述第t個時間區塊中的通訊時間區間，且通訊時間分配滿足至少一限制條件；將所述第t個時間區塊的通訊時間分配通知前述通訊節點，並要求各通訊節點在所述第t個時間區塊中依據對應的通訊時間區間執行一特定通訊行為；取得各通訊節點在所述第t個時間區塊中的一實際吞吐量；依據各通訊節點在所述第t個時間區塊中的實際吞吐量、權重向量及估計吞吐量產生各通訊節點在第t+1個時間區塊中的權重向量。

請參照圖1，其是依據本發明之一實施例繪示的WPCN系統示意圖。如圖1所示，WPCN系統100包括基地台110及多個通訊節點121~12N（N為通訊節點的總數），其中基地台110可用於管理通訊節點121~12N。在一些實施例中，基地台110可用於（同時）傳遞能量

至通訊節點121~12N，以對通訊節點121~12N進行充電。另一方面，通訊節點121~12N可在所分配的通訊時間區間分別發送資料

~

至基地台110，但可不限於此。

在本發明的實施例中，WPCN系統100係假設為基於先獲取能量再傳送資料協定（harvest-then-transmit protocol）運作。亦即，在一時間區塊（time block）中，基地台110將先對各通訊裝置121~12N進行充電（即，能量獲取（energy harvest）），之後再由各通訊裝置121~12N在對應的通訊時間區間內傳送資料至基地台110。為便於說明，基地台110在第t個時間區塊中對各通訊裝置121~12N進行充電的通訊時間區間表示為

（其大於等於0），而通訊節點121~12N在第t個時間區間內所佔用的總傳輸時間表示為

，其中

與

的總和假設為一個時間區塊的長度。在一實施例中，為便於說明，假設一個時間區塊的長度為1（即

+

=1），但可不限於此。

另外，通訊節點121~12N中的第n個通訊節點（以下以通訊節點12n代稱）在第t個時間區間中從基地台110獲取能量（即，被基地台110充電）的時間以

表示，而通訊節點12n在第t個時間區間中的通訊時間區間以

表示。

在不同的實施例中，

、

及

的態樣會依WPCN系統100的組態而有所不同，以下將另輔以圖2A至圖2D作進一步說明。

請參照圖2A，其是依據本發明第一實施例繪示的WPCN系統示意圖。在第一實施例中，假設基地台110僅具有1根天線，因此基地台110同一時間僅能傳遞能量或從通訊裝置121~12N的其中之一接收資料。另外，假設第t個時間區塊被均勻分配予基地台110及通訊裝置121~12N，因此通訊裝置121~12N的

~

及基地台110的

可皆相等，且

可以是

~

的總和，如圖2A所示。

請參照圖2B，其是依據本發明第二實施例繪示的WPCN系統示意圖。在第二實施例中，假設基地台110具有2根天線，亦即基地台110可同時以此二天線分別進行向通訊節點121~12N傳送能量及從通訊節點121~12N之一接收資料。

另，假設各通訊節點121~12N具有睡眠模式，亦即通訊節點12n在對應的

之後即不會再從基地台110獲取能量。因此，對於通訊節點121而言，其對應的

即為

，而對於其他的通訊節點12n而言，其對應的

可表示為

。此外，

仍可以是

~

的總和，如圖2B所示。

請參照圖2C，其是依據本發明第三實施例繪示的WPCN系統示意圖。在第三實施例中，與第二實施例之間的差別僅在於第三實施例中的通訊節點121~12N皆不具有睡眠模式，亦即通訊節點12n在對應的

之後仍會從基地台110繼續獲取能量。因此，對於通訊節點12n而言，其對應的

可表示為

。此外，

仍可以是

~

的總和，如圖2C所示。

請參照圖2D，其是依據本發明第四實施例繪示的WPCN系統示意圖。在第四實施例中，假設基地台110具有N根天線，因此基地台110可同時接收通訊節點121~12N所發送的資料。在此情況下，通訊裝置121~12N的

~

及基地台110的

可皆相等，且

~

與

亦可皆相等，如圖2D所示。

在習知技術中，若欲取得基地台110及通訊節點121~12N在第t個時間區塊內的最佳通訊時間分配（基地台110及通訊節點121~12N在第t個時間區塊內的通訊時間區間，其可表徵為

），一般須對以上第一至第四實施例所示的WPCN系統架構個別採用不同的演算法方能順利取得（且還需已知相關的通道參數），並無法以單一套演算法即適用於第一至第四實施例所示的WPCN系統架構。

然而，本發明提出的方法除了可在通道參數未知的情況下找出基地台110及通訊節點121~12N在第t個時間區塊內的最佳通訊時間分配（即

）之外，還可廣泛地適用於上述第一至第四實施例的WPCN系統架構。以下將對本發明的方法作進一步說明。

請參照圖3，其是依據本發明之一實施例繪示的WPCN的通訊時間分配方法流程圖。本實施例的方法可由圖1的基地台110執行，以下即搭配圖1所示的元件說明圖3各步驟的細節。

首先，在步驟S210中，基地台110可取得各通訊節點121~12N在第t個時間區塊中的權重向量，並模型化各通訊節點121~12n在所述第t個時間區塊中的特徵向量。

在本發明的實施例中，對於通訊節點12n而言，其在第t個時間區塊中的權重向量及特徵向量分別可表示為

及

，其中

可關聯於通訊節點12n在第t個時間區塊中的通訊時間區間。

在一實施例中，

，且

，其中D為

及

的維度。在本發明的實施例中，步驟S210的細節可參照相關的現有技術文獻（例如「 R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction,2nd ed. Cambridge, Massachusetts, London, England: MIT Press, 2018」），於此不另贅述。

概略而言，在本發明的實施例中，

可藉由更新

而得，而相關的更新機制將在之後詳述。另外，對於第1個時間區塊而言，其對應的

可由設計者依考量而產生（例如隨機產生等），但可不限於此。

接著，在步驟S220中，基地台110可基於各通訊節點121~12N在第t個時間區塊中的權重向量及特徵向量模型化各通訊節點121~12N在第t個時間區塊中的估計吞吐量，並據以模型化通訊節點121~12N在第t個時間區塊中的總估計吞吐量。

在一實施例中，各通訊節點121~12N在第t個時間區塊中的估計吞吐量可表示為

，且其可模型化為

。另外，通訊節點121~12N在第t個時間區塊中的總估計吞吐量可表示為

，而其可相應地模型化為

，但可不限於此。

在其他實施例中，上述總估計吞吐量（即，

）還可依設計者的考量而以不同的方式進行模型化。例如，習知的WPCN相關文獻並無考量各通訊節點121~12N的電池壽命，然而當電池壽命終了，整個WPCN將無法繼續使用。因此，假設設計者欲令所決定的

能夠進一步考量並延長各通訊節點121~12N的電池壽命，則

例如可相應地調整為

，其中，

為一權重係數，而

為通訊節點12n在第t個時間區塊中所獲得的電量。在本發明的實施例中，

及

的相關說明可參考相關的現有技術文獻（例如「 P. Shen, M. Ouyang, L. Lu, J. Li, and X. Feng, “The co-estimation of state of charge, state of health, and state of function for lithium-ion batteries in electric vehicles,” IEEE Trans. Veh. Technol., vol. 67, no. 1,pp. 92–103, Jan. 2018」），故其細節於此不另贅述。

之後，在步驟S330中，基地台110可依據關聯於總估計吞吐量（即，

）的目標函數決定對應於第t個時間區塊的通訊時間分配（即，

）。

在一實施例中，上述目標函數例如包括

（即，最大化

），且上述限制條件例如包括：「

」、「

」及「

」，但可不限於此。

在其他實施例中，上述目標函數及限制條件可依設計者的考量而進行調整。舉例而言，習知WPCN文獻較少探討各通訊節點121~12N的傳輸公平性的問題，然而在WPCN中，若無考量到傳輸公平性，則在多個通訊節點的情況下，距離基地台110較遠的通訊節點僅能獲得少量傳輸時間，進而可能導致距離較遠的通訊節點的吞吐量遠少於其他距離較近的通訊節點。

因此，在一些實施例中，上述限制條件還可進一步包括「

」，其中

為通訊節點12n的吞吐量下限值。如此一來，基地台110所取得的

即可進一步考量並保證通訊節點121~12N之間的傳輸公平性，但可不限於此。

在本發明的實施例中，透過步驟S330所取得的

可理解為滿足上述限制條件且可最大化

的最佳通訊時間分配。為便於說明，以下將以

代稱步驟S330中所取得的

，但可不限於此。

此外，在一些實施例中，為避免所取得的

出現過度擬合或落入局部最優解等情形，在步驟S330之前，基地台110還可依據一

-貪婪策略（

-greedy policy）判斷是否依據關聯於總估計吞吐量（即，

）。若是，則基地台110可依據關聯於總估計吞吐量的目標函數決定對應於第t個時間區塊的通訊時間分配；若否，則基地台110可隨機產生基地台110及通訊節點121~12N個別在第t個時間區塊中的通訊時間區間，以決定對應於第t個時間區塊的通訊時間分配，其中上述通訊時間分配滿足上述限制條件。

簡言之，基地台110可依據上述

-貪婪策略決定是否執行步驟S330。具體而言，若採用上述

-貪婪策略，則基地台110有

（其例如是一極小值）的機率會選擇不執行步驟S330而以隨機方式決定

（但所決定的

仍須滿足所設定的限制條件），而有1-

的機率會選擇執行步驟S330來決定

（即，先前提及的

）。藉此，可避免所取得的

出現過度擬合或落入局部最優解等情形，但可不限於此。

此外，在一實施例中，當t等於1時，基地台110亦可基於上述隨機方式來決定

，而當t大於1時，基地台110可依上述教示決定

，但本發明可不限於此。

之後，在步驟S340中，基地台110可將第t個時間區塊的通訊時間分配（即，

）通知通訊節點121~12N，並要求各通訊節點121~12n在第t個時間區塊中依據對應的通訊時間區間執行特定通訊行為（例如從基地台110獲取能量及/或發送資料至基地台）。

接著，在步驟S350中，基地台110可取得各通訊節點121~12N在第t個時間區塊中的實際吞吐量。亦即，基地台110可實際測量各通訊節點121~12N在所分配的通訊時間區間（即

~

）內傳送的資料量。為便於說明，通訊節點12n在第t個時間區塊中的實際吞吐量可表示為

。

之後，在步驟S360中，基地台110可依據各通訊節點121~12N在第t個時間區塊中的實際吞吐量、權重向量及估計吞吐量產生各通訊節點121~12N在第t+1個時間區塊中的權重向量。

在一實施例中，基地台110可依據各通訊節點121~12N在第t個時間區塊中的實際吞吐量、權重向量及估計吞吐量執行一隨機梯度下降（stochastic gradient decent，SGD）法，以產生各通訊節點121~12n在第t+1個時間區塊中的權重向量。

舉例而言，通訊節點12n在第t+1個時間區塊中的權重向量例如可表徵為

。在一實施例中，

可表徵為：

，其中

為一步階尺寸值，

為一梯度運算子。

在一實施例中，在取得

之後，基地台110還可再次依據先前實施例的教示決定第t+1個時間區塊中的通訊時間分配（即，

），並據以要求各通訊節點121~12N在第t+1個時間區塊中依據對應的通訊時間區間執行特定通訊行為。之後，基地台110同樣可取得各通訊節點121~12N在第t+1個時間區塊中的實際吞吐量，並相應地產生各通訊節點在第t+2個時間區塊中的權重向量，而相關細節可參照先前實施例中的說明，於此不另贅述。

經驗證，隨著t的增加，

（即

與

與的均方誤差（mean square error，MSE））的值將逐漸下降。亦即，隨著時間的推移，經由本發明方法所決定的

可讓通訊節點12n的實際吞吐量（即，

）逐漸接近通訊節點12n的估計吞吐量（即，

）。

綜上所述，除了不需將問題轉化為凸函數問題之外，本發明提出的方法及基地台還可在通道參數為未知的情況下找出各時間區塊中的最佳時間分配，且可廣泛地適用於各式WPCN系統架構。並且，透過適當地在限制條件中引入各通訊節點的吞吐量下限值，經本發明方法所決定的

可保證各通訊節點之間的傳輸公平性，從而避免資料傳輸量過度集中於離基地台較近的通訊節點上。此外，透過在通訊節點的總估計吞吐量中引入與電量相關的參數（即，

），經本發明方法所決定的

可進一步考量各通訊節點的電池壽命。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:WPCN系統 110:基地台 121~12N:通訊裝置 S310~S360:步驟

~

:資料

:能量

圖1是依據本發明之一實施例繪示的WPCN系統示意圖。圖2A是依據本發明第一實施例繪示的WPCN系統示意圖。圖2B是依據本發明第二實施例繪示的WPCN系統示意圖。圖2C是依據本發明第三實施例繪示的WPCN系統示意圖。圖2D是依據本發明第四實施例繪示的WPCN系統示意圖。圖3是依據本發明之一實施例繪示的WPCN的強化學習通訊時間分配方法流程圖。

S310~S360:步驟

Claims

一種無線電力驅動通訊網路的強化學習通訊時間分配方法，適於一無線電力驅動通訊網路中的一基地台，其中該基地台管理該無線電力驅動通訊網路中的多個通訊節點，所述方法包括：取得各該通訊節點在第t個時間區塊中的一權重向量，並模型化各該通訊節點在所述第t個時間區塊中的一特徵向量，其中各該通訊節點在所述第t個時間區塊的該特徵向量關聯於各該通訊節點在所述第t個時間區塊中的一通訊時間區間；基於各該通訊節點在所述第t個時間區塊中的該權重向量及該特徵向量模型化各該通訊節點在所述第t個時間區塊中的一估計吞吐量，並據以模型化該些通訊節點在所述第t個時間區塊中的一總估計吞吐量；依據關聯於該總估計吞吐量的一目標函數決定對應於所述第t個時間區塊的一通訊時間分配，其中該通訊時間分配包括該基地台及該些通訊節點個別在所述第t個時間區塊中的該通訊時間區間，且該通訊時間分配滿足至少一限制條件；將所述第t個時間區塊的該通訊時間分配通知該些通訊節點，並要求各該通訊節點在所述第t個時間區塊中依據對應的該通訊時間區間執行一特定通訊行為；取得各該通訊節點在所述第t個時間區塊中的一實際吞吐量；依據各該通訊節點在所述第t個時間區塊中的該實際吞吐量、該權重向量及該估計吞吐量產生各該通訊節點在第t+1個時間區塊中的該權重向量。
如請求項1所述的方法，其中該通訊時間分配表徵為
，
為該基地台在所述第t個時間區塊中的該通訊時間區間，
為該些通訊節點中的第n個通訊節點在所述第t個時間區塊中的該通訊時間區間，該總估計吞吐量表徵為
，該目標函數包括
，且該至少一限制條件包括：

，其中
為該些通訊節點在所述第t個時間區間內所佔用的一總傳輸時間。
如請求項2所述的方法，其中該至少一限制條件更包括
，其中
為所述第n個通訊節點在所述第t個時間區塊中的該估計吞吐量，
為所述第n個通訊節點的一吞吐量下限值。
如請求項2所述的方法，其中該些通訊節點中的第n個通訊節點在所述第t個時間區塊中的該權重向量、該特徵向量及該估計吞吐量分別表徵為
、
及
，且
。
如請求項4所述的方法，其中該些通訊節點在所述第t個時間區塊中的該總估計吞吐量表徵為
，且
，其中N為該些通訊節點的總數。
如請求項5所述的方法，其中：
；
；
，其中D為
及
的維度。
如請求項4所述的方法，其中該些通訊節點在所述第t個時間區塊中的該總估計吞吐量表徵為
，且
，其中N為該些通訊節點的總數，
為一權重係數，而
為該些通訊節點中的第n個通訊節點在所述第t個時間區塊中所獲得的一電量。
如請求項1所述的方法，其中該基地台在所述第t個時間區塊中的對應的該通訊時間區間中傳遞能量至該些通訊節點的至少其中之一。
如請求項1所述的方法，其中該特定通訊行為包括發送資料至該基地台。
如請求項1所述的方法，其中依據各該通訊節點在所述第t個時間區塊中的該實際吞吐量、該權重向量及該估計吞吐量產生各該通訊節點在第t+1個時間區塊中的該權重向量的步驟包括：依據各該通訊節點在所述第t個時間區塊中的該實際吞吐量、該權重向量及該估計吞吐量執行一隨機梯度下降法，以產生各該通訊節點在第t+1個時間區塊中的該權重向量。
如請求項10所述的方法，其中該些通訊節點中的第n個通訊節點在所述第t個時間區塊中的該實際吞吐量、該權重向量及該估計吞吐量分別表徵為
、
及
，所述第n個通訊節點在所述第t+1個時間區塊中的該權重向量表徵為
，其中
，
為一步階尺寸值，
為一梯度運算子。
如請求項1所述的方法，其中在依據關聯於該總估計吞吐量的該目標函數決定對應於所述第t個時間區塊的該通訊時間分配的步驟之前，所述方法更包括：依據一
-貪婪策略判斷是否依據關聯於該總估計吞吐量的該目標函數決定對應於所述第t個時間區塊的該通訊時間分配；若是，依據關聯於該總估計吞吐量的該目標函數決定對應於所述第t個時間區塊的該通訊時間分配；若否，隨機產生該基地台及該些通訊節點個別在所述第t個時間區塊中的該通訊時間區間，以決定對應於所述第t個時間區塊的該通訊時間分配，其中該通訊時間分配滿足該至少一限制條件。
如請求項1所述的方法，其中t大於1。
如請求項1所述的方法，其中若t等於1，所述方法更包括隨機產生該基地台及該些通訊節點個別在所述第t個時間區塊中的該通訊時間區間，其中該通訊時間分配滿足該至少一限制條件。
一種基地台，其屬於一無線電力驅動通訊網路，並管理該無線電力驅動通訊網路中的多個通訊節點，該基地台經配置以：取得各該通訊節點在第t個時間區塊中的一權重向量，並模型化各該通訊節點在所述第t個時間區塊中的一特徵向量，其中各該通訊節點在所述第t個時間區塊的該特徵向量關聯於各該通訊節點在所述第t個時間區塊中的一通訊時間區間；基於各該通訊節點在所述第t個時間區塊中的該權重向量及該特徵向量模型化各該通訊節點在所述第t個時間區塊中的一估計吞吐量，並據以模型化該些通訊節點在所述第t個時間區塊中的一總估計吞吐量；依據關聯於該總估計吞吐量的一目標函數決定對應於所述第t個時間區塊的一通訊時間分配，其中該通訊時間分配包括該基地台及該些通訊節點個別在所述第t個時間區塊中的該通訊時間區間，且該通訊時間分配滿足至少一限制條件；將所述第t個時間區塊的該通訊時間分配通知該些通訊節點，並要求各該通訊節點在所述第t個時間區塊中依據對應的該通訊時間區間執行一特定通訊行為；取得各該通訊節點在所述第t個時間區塊中的一實際吞吐量；依據各該通訊節點在所述第t個時間區塊中的該實際吞吐量、該權重向量及該估計吞吐量產生各該通訊節點在第t+1個時間區塊中的該權重向量。