TWI807941B

TWI807941B - 基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法

Info

Publication number: TWI807941B
Application number: TW111128419A
Authority: TW
Inventors: 陳曉華; 周廣誌
Original assignee: 國立成功大學
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2023-07-01
Also published as: TW202406391A

Abstract

一種資源分配方法，一基站向 K個用戶端分配 N個子載波以獲得 N × K個當前子載波分配結果，再獲得 N × K個當前分配功率，並以一動作強化學習網路獲得多個動作值，且判定該等動作值是否皆小於等於0。當判定結果為否時，選擇一目標分配動作，獲得多個更新分配功率，以產生並儲存一訓練資料，再根據所儲存的多筆目標訓練資料訓練至少一包括該動作強化學習網路的強化學習網路，重複上述動作直到該等動作值皆小於等於0。當判定結果為是時，根據該等當前分配功率計算出一候選頻譜效率。重複上述動作以獲得 P個候選頻譜效率，以選出一目標頻譜效率。

Description

基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法

本發明是有關於一種資源分配方法，特別是指一種基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法。

在現有的正交多重存取(Orthogonal multiple access,OMA)中，每一個用戶只能使用一個特定的資源塊，如頻帶、時隙、正交擴頻碼，但隨著行動通訊蓬的發展，對頻譜效率的需求也與日俱增，正交多重存取顯然已經無法滿足現今用戶的需求。

為因應頻譜效率提升的需求，非正交多重存取(Non-orthogonal multiple access,NOMA)技術，例如模式區分多址接入(Pattern Division Multiple Access,PDMA)及稀疏碼多址接入(Sparse Code Multiple Access,SCMA)技術。

MUST技術是屬於單載波NOMA，在MUST技術中，通過功率域、碼域或星座域的疊加，允許多個用戶複用同一個資源塊，以提高頻譜效率和接入用戶數，且在MUST系統傳輸訊息時，重疊編碼將多用戶的訊號用不同的功率分配疊加在一起，傳送到接收端時再利用連續性干擾消除(successive interference cancellation，SIC)技術將多用戶的疊加訊號分離開來，這時如果用戶訊號間的能量差異越大，就越容易分辨出訊號，從而有較佳的錯誤率，故合理分配訊號的功率對MUST系統來說尤為重要。

PDMA技術是屬於混合域NOMA技術，在PDMA系統傳輸訊息時，除了重疊編碼將多用戶的訊號用不同的功率分配疊加在一起外，還通過模式矩陣設計將用戶的相同編碼位元映射到不同的子載波上，從而實現分集(Diversity)及多路複用(multiplexing)，同時在接收端利用連續性干擾消除(successive interference cancellation，SIC)技術將多用戶的疊加訊號分離開來。

不同於PDMA技術，SCMA技術是碼域NOMA技術，將資源映射到不同碼本，不同用戶被分配各自的碼本。SCMA接收機是利用消息傳遞演算法(Message Passing Algorithm,MPA)進行多用戶檢測(Multi-user Detection,MUD)，即使在系統嚴重超載的情況下也能獲得很好的性能。MPA演算法是一種基於因數圖求邊緣概率分佈的反覆運算的演算法，資訊在資源節點(Resource Node,RN)和變數節點(Variable Node,VN)之間不斷的傳遞，再由對應變數節點的通道解碼器進行解碼。

詳細而言，SCMA編碼器的公式可以表示為：x _k=V _k g _k(b _k)，其中x _k是第k個用戶的SCMA碼本，b _k是第k個用戶的位元流，g _k表示高階調製過程，將用戶的位元流映射為多維星座c _k，V _k是第k個用戶的二進位映射矩陣，與因數圖矩陣F _N×K存在如下關係：F _N×K=[f ₁,f ₂,...f _k,...f _K]，

其中K表示用戶數，N表示資源塊數量(或子載波數量)，diag表示對角陣，因數圖矩陣F _N×K=[f ₁,f ₂,...f _k,...f _K]中不同的f _k相當於使用了該f _k對應的碼本V _k g _k(b _k)。由於因數圖矩陣F _N×K中的資源塊即為子載波，因此用戶被分配了不同的子載波就相當於被分配了不同的f _k(V _k)，即被分配了不同的碼本，故合理分配訊號的功率及子載波對SCMA系統來說尤為重要。

然而，現有的SCMA系統無法根據系統的動態場景進行最優功率及子載波分配。

因此，本發明的目的，即在提供一種根據系統的動態場景進行最優功率及子載波分配的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法。

於是，本發明基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，由一基站來實施，該基站經由一無線通道與K個用戶端通訊連接，該基站儲存多個子載波分配動作及多個功率分配動作，其中K>1，N>1，該方法包含一步驟(A)、一步驟(B)、一步驟(C)、一步驟(D)、一步驟(E)、一步驟(F)、一步驟(G)、一步驟(H)、一步驟(I)、一步驟(J)、一步驟(K)、一步驟(L)，及一步驟(M)。

在該步驟(A)中，該基站向該等用戶端分配該等子載波，以獲得N×K個指示出該等用戶端是否分配到該等子載波的當前子載波分配結果，該等當前子載波分配結果j _n,k,t滿足下列條件：1

L，及

d _f，其中，j _n,k,t為第k個用戶端在當前時刻t是否分配到第n個子載波的當前子載波分配結果，j _n,k,t

{0,1}，n

{1,2,...,N}，k

{1,2,...,K}，j _n,k,t=1為第k個用戶端在當前時刻t分配到第n個子載波，j _n,k,t=0為第k個用戶端在當前時刻t未分配到第n個子載波，L為每一用戶端分配到的最大子載波數，d _f為每一子載波上的最大用戶端數。

在該步驟(B)中，該基站根據該等當前子載波分配結果獲得N×K個分別對應該等當前子載波分配結果的當前分配功率。

在該步驟(C)中，該基站將該等子載波分配動作、該等功率分配動作、該等當前子載波分配結果，及該等當前分配功率輸入至一動作強化學習網路，以致該動作強化學習網路輸出多個分別對應該等功率分配動作及該等子載波分配動作的動作值。

在該步驟(D)中，該基站判定該等動作值是否皆小於等於0。

在該步驟(E)中，當判定出該等動作值之其中一者大於0時，該基站從該等子載波分配動作及該等功率分配動作中選擇一目標分配動作。

在該步驟(F)中，該基站根據該等當前子載波分配結果、該等當前分配功率及該目標分配動作，獲得多個分別對應該等當前子載波分配結果的更新子載波分配結果及多個分別對應該等當前分配功率的更新分配功率。

在該步驟(G)中，該基站根據該等當前分配功率及該等更新分配功率計算出一獎勵值。

在該步驟(H)中，該基站產生並儲存一包括該等當前子載波分配結果、該等當前分配功率、該目標分配動作、該獎勵值、該等更新子載波分配結果，及該等更新分配功率的訓練資料。

在該步驟(I)中，該基站從儲存的訓練資料中選取多筆目標訓練資料，並根據該等目標訓練資料訓練至少一強化學習網路，該至少一強化學習網路包括該動作強化學習網路。

在該步驟(J)中，該基站將該等更新子載波分配結果及該等更新分配功率分別作為該等當前子載波分配結果及該等當前分配功率重複步驟(C)~(I)直到該等動作值皆小於等於0。

在該步驟(K)中，當判定出該等動作值皆小於等於0時，該基站根據該等當前分配功率計算出一候選頻譜效率，並儲存該等當前子載波分配結果、該等當前分配功率，及該候選頻譜效率。

在該步驟(L)中，重複進行步驟(A)~(K)P次，以獲得P個候選頻譜效率，其中P>1。

在該步驟(M)中，該基站從該等候選頻譜效率中獲得一最高的目標頻譜效率。

本發明之功效在於：該基站利用該動作強化學習網路在不同場景記錄學習，以獲取具有最大的獎勵值之最佳分配動作，並進一步獲得該等候選頻譜效率，再從該等候選頻譜效率中獲得最高的該目標頻譜效率，其中，該目標頻譜效率對應的子載波分配及功率分配即為最優。

11:基站

12:用戶端

100:無線通道

21~34:步驟

281~289:子步驟

301~303:子步驟

321~323:子步驟

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一方塊圖，說明用以實施本發明基於人工智慧算法之下行稀疏碼多址接入資源分配方法的一實施例的一基站；圖2是一流程圖，說明本發明基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法的該實施例；圖3是一流程圖，輔助說明圖2步驟28的子步驟；圖4是一流程圖，輔助說明圖2步驟30的子步驟；及圖5是一流程圖，輔助說明圖2步驟32的子步驟。

在本發明被詳細描述之前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1，本發明基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法的一實施例是由一基站11執行，該基站11支援下行功率域的稀疏碼多址接入技術，該基站11經由一無線通道100與K個用戶端12通訊連接，該基站11通過為每一用戶端12使用不同等級的功率將該等用戶端12的信號疊加在N個子載波上，其中K>1，N>1。值的注意的是，在本實施例中，該基站11例如為單天線基站(base station,BS)，該等用戶端12例如為智慧型手機，但不以此為限。

該基站11儲存有多個子載波分配動作及多個功率分配動作。

參閱圖1、2展示了本發明基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法的該實施例，以下詳述圖2所示的該實施例的各個步驟。

在步驟21中，該基站11初始化多個強化學習網路。

值得注意的是，在本實施例中，該等強化學習網路的類型例如為Q學習網路，且數量為二，該等強化學習網路分別為一更新網路和一目標網路，該等強化學習網路例如包括一具有五十個節點的全連階層，啟動函數例如為整流線性單位函數(Rectified Linear Unit,ReLU)，設定一學習演算法例如為自適應時刻估計方法(Adaptive Moment Estimation,Adam)，設定一損失函數例如為均方誤差(mean-square error,MSE)，在其他實施方式中，該等強化學習網路例如包括一對照表(Q表格)，該學習演算法可為隨機梯度下降法(Stochastic gradient descent,SGD)、動量梯度下降法(Momentum)、或Adagrad算法，損失函數可為平方損失函數或絕對值損失函數，此外，強化學習網路的類型不限於Q學習網路，同時該基站11亦可僅初始化一強化學習網路，但不以此為限。

在步驟22中，該基站11判定是否已循環P次。當該基站 11判定出未循環P次時，流程進行步驟23；而當該基站11判定出已循環P次時，流程進行步驟34。值得注意的是，在本實施例中，該基站是以一循環計數器(圖未示)計數循環次數，其中P=20000，但不以此為限。

在步驟23中，該基站11向該等用戶端12分配該等子載波，以獲得N×K個指示出該等用戶端12是否分配到該等子載波的當前子載波分配結果。

值得注意的是，該基站11是按照一因數圖矩陣(factor graph matrix)J _SCMA=(j _n,k,t)_N×K向該等用戶端12分配該等子載波，1

L，及

{0,1}，n

{1,2,...,N}，k

{1,2,...,K}，j _n,k,t=1為第k個用戶端在當前時刻t分配到第n個子載波，j _n,k,t=0為第k個用戶端在當前時刻t未分配到第n個子載波，L為每一用戶端分配到的最大子載波數，d _f為每一子載波上的最大用戶端數，每一用戶端12所分配到的最大子載波數L不能超過子載波總數的一半，同時每一子載波上的最大用戶端數d _f可由該因數圖矩陣J _SCM得知，該因數圖矩陣J _SCM可表示為：

要再注意的是，每一用戶端12分配的子載波數量和每一子載波上的用戶端數量由各用戶端12使用的碼本決定，假設K=6，N=4，每一用戶端12使用的碼本長度與子載波個數等同，每一碼本中非0元素數量N _c應不超過碼本長度的1/2即N _c={1,2}，每一用戶端12分配的最大子載波數量L為1

L

2，每一子載波上的用戶端數量U為U

3，當N _c=2時，可用的碼本數量為，

，可以保證每一用戶端分到一個碼本，此時每一用戶端的碼本中有2個非0元素和2個0元素，即每一用戶允許佔用2個子載波，且每一子載波上有3個非0元素發生碰撞，即

在步驟24中，該基站11根據該等當前子載波分配結果獲得N×K個分別對應該等當前子載波分配結果的當前分配功率。

其中，該等當前分配功率v _n,k,t滿足下列條件：

1，0

v _n,k,t

1，及

n

{1,2,...,N}，k

{1,2,...,K}，j _n,k,t為第k個用戶端12在當前時刻t是否分配到第n個子載波的子載波分配結果，j _n,k,t

{0,1}，v _n,k,t為在第n個子載波上的第k個順序的用戶端12在當前時刻t分配到的當前分配功率之係數。

在步驟25中，該基站11將該等子載波分配動作、該等功率分配動作、該等當前子載波分配結果，及該等當前分配功率輸入至該等強化學習網路中之一動作強化學習網路，以致該動作強化學習網路輸出多個分別對應該等功率分配動作及該等子載波分配動作的動作值。

值得注意的是，在本實施例中，該動作強化學習網路為該更新網路，該等動作值為Q值，每一子載波分配動作一次只調整一個用戶端12的一個子載波，該等子載波分配動作可以下式表示：

其中n _n,k,t=1表示在當前時刻t第n個子載波被分配給第k個用戶端12，如第n個子載波在上一時刻已經被分配給第k個用戶端12，則保持子載波分配情況不變。n _n,k,t=0表示在當前時刻t第n個子載波未被分配給第k個用戶端12，如第n個子載波在上一時刻已經未被分配給第k個用戶端12，則保持子載波分配情況不變，該等子載波分配動作的數量為2×N×K個。此外，每一功率分配動作一次只調整一個功率係數，該等功率分配動作可以下式表示：

其中δ _n,k,t

{δ,0,-δ}，0<δ<1，δ _n,k,t=δ表示對功率係數v _n,k,t增加δ，δ _n,k,t=0表示功率係數v _n,k,t不變，δ _n,k,t=-δ表示對功率係數v _n,k,t減少δ，該等功率分配動作的數量為3×N×K個，但不以此為限。

在步驟26中，該基站11判定該等動作值是否皆小於等於0。當該基站11判定出該等動作值之其中一者大於0時，流程進行步驟27；而當該基站11判定出該等動作值皆小於等於0時，則流程進行步驟33。

要特別注意的是，在本實施例的步驟26中，判定該等動作值是否皆小於等於0，只觀察適用於當前超載率的該更新網路輸出的動作值，並不借鑒當前超載率下的該目標網路的輸出值，因此，在步驟25中，該基站11只將該等子載波分配動作、該等功率分配動作，及該等當前分配功率輸入至該更新網路。

要再特別注意的是，若該等動作值皆小於等於0，則認為在當前的狀態下採取任何功率分配動作都會使得長期預期獎勵變低，然而，獎勵需要越高越好，因此判定此時的功率分配動作為最優結果，不再進行功率分配動作，而進行步驟33。

在步驟27中，該基站11從該等子載波分配動作及該等功率分配動作中選擇一目標分配動作。其中，該目標分配動作為隨機選取的機率為P ₁，該目標分配動作對應的動作值為該等動作值中最高的機率為P ₂，P ₁+P ₂=1且P ₁<P ₂。值得注意的是，在本實施例中，P ₁為10%，P ₂為90%，但不以此為限，在其他實施方式中，該目標分配動作亦可僅為根據當前狀態選取，或是選擇該等動作值中最高者所對應的動作。

在步驟28中，該基站11根據該等當前子載波分配結果、該等當前分配功率及該目標分配動作，獲得多個分別對應該等當前子載波分配結果的更新子載波分配結果及多個分別對應該等當前分配功率的更新分配功率。

搭配參閱圖3，步驟28包括子步驟281~289，以下說明步驟28所包括的子步驟。

在子步驟281中，該基站11判定該目標分配動作是否為子載波分配動作。當該基站11判定出該目標分配動作為子載波分配動作，流程進行子步驟282；而當該基站11判定出該目標分配動作不為子載波分配動作，表示目標分配動作為功率分配動作，則流程進行子步驟286。

在子步驟282中，該基站11根據該目標分配動作獲得N×K個分別對應該等當前子載波分配結果的替換子載波分配結果。

在子步驟283中，該基站11判定該等替換子載波分配結果是否滿足多個子載波分配條件。當該基站11判定出該等替換子載波分配結果不滿足該等子載波分配條件之其中一者時，流程進行子步驟284；而當該基站11判定出該等替換子載波分配結果滿足該等子載波分配條件時，則流程進行子步驟285。

值得注意的是，該等子載波分配條件包括：1

L，及

d _f，其中，j _n,k,t+1為在第n個子載波上的第k個順序的用戶端12在下一時刻t+1的替換子載波分配結果，j _n,k,t+1

{0,1}，j _n,k,t+1=1為第k個用戶端12在下一時刻t+1分配到第n個子載波，j _n,k,t+1=0為第k個用戶端12在下一時刻t+1未分配到第n個子載波，L為每一用戶端分配到的最大子載波數，d _f為每一子載波上的最大用戶端數，但不以此為限。

在子步驟284中，該基站11將該等當前子載波分配結果及該等當前分配功率分別作為該等更新子載波分配結果及該等更新分配功率，即子載波分配結果及分配功率保持不變。

在子步驟285中，該基站11將該等替換子載波分配結果作為該等更新子載波分配結果，並根據該等更新子載波分配結果獲得該等更新分配功率。

在子步驟286中，該基站11對該等當前分配功率進行該目標分配動作，以獲得多個分別對應該等當前分配功率的替換分配功率。

要特別注意的是，若該目標分配動作為功率分配，不論是根據當前狀態選取的動作或是該等動作值中最高者所對應的動作δ _n,k,t，對應的當前子載波分配結果j _n,k,t=1，且要增加δ的v _n,k",t或減少δ的v _n,k',t對應的當前子載波分配結果j _n,k",t,j _n,k',t=1。

在子步驟287中，該基站11判定該等替換分配功率是否滿足多個功率分配條件。當該基站11判定出該等替換分配功率不滿足該等功率分配條件之其中一者時，流程進行子步驟288；而當該基站11判定出該等替換分配功率滿足該等功率分配條件時，則流程進行子步驟289。

值得注意的是，該等功率分配條件包括：

1，0

v _n,k,t+1

1，及

其中，k

{1,2,...,K}，v _n,k,t+1為在第n個子載波上的第k個順序的用戶端12在下一時刻t+1分配到的替換分配功率之係數。

在子步驟288中，該基站11將該等當前子載波分配結果及該等當前分配功率分別作為該等更新子載波分配結果及該等更新分配功率，即子載波分配結果及分配功率保持不變。

在子步驟289中，該基站11將該等當前子載波分配結果及該等替換分配功率分別作為該等更新子載波分配結果及該等更新分配功率。

在步驟29中，該基站11判定一相關於當前該基站11通訊連接的用戶端12之數量與用戶端12的信號疊加到的子載波之數量的超載率是否為K/N。當該基站11判定出該超載率為K/N時，流程進行步驟30；而當該基站11判定出該超載率不為K/N時，則流程重複步驟21。

要特別注意的是，該超載率為當前該基站11通訊連接的用戶端12之數量除以用戶端12的信號疊加到的子載波之數量，在本實施例中，該基站11通訊的用戶端數量和位置都是不固定的，該基站11會根據用戶端12的數量調整資源配置方案，故在通過上行導頻估計發現該超載率不為K/N時，即該超載率改變時(設改變後的超載率為K’/N，K’>1且K’≠K)，該基站11會儲存一包括該等强化學習網路且對應超載率為K/N的歷史強化學習網路資訊，並判定是否儲存有一對應超載率為K’/N的目標歷史強化學習網路資訊，若儲存有該目標歷史強化學習網路資訊，則載入該歷史強化學習網路資訊，並進行步驟22，否則流程回到步驟21，該基站11初始化該等强化學習網路，以作為適用於超載率為K’/N的强化學習網路。

在步驟30中，該基站11根據該等當前子載波分配結果、該等當前分配功率、該等更新子載波分配結果，及該等更新分配功率計算出一獎勵值。

搭配參閱圖4，步驟30包括子步驟301~303，以下說明步驟30所包括的子步驟。

在子步驟301中，該基站11根據該等當前子載波分配結果及該等當前分配功率計算出一第一頻譜效率f _t。其中該第一頻譜效率f _t以下式表示：

，R _n,k,t=B _n log₂(1+ρ _n,k,t)，

其中，s _t={J _t,V _t}該等當前子載波分配結果及該等當前分配功率的集合，J _t={j _1,1,t,...,j _n,k,t,...,j _N,K,t}為該等當前子載波分配結果，V _t={v _1,1,t,...,v _n,k,t,...,v _N,K,t}為該等當前分配功率，R _n,k,t為第k個用戶端12在第n個子載波及在當前時刻t的通道容量(Channel capacity)，B _n為第n個子載波頻寬，ρ _n,k,t為第k個用戶端12在第n個子載波及在當前時刻t的信幹噪比，v _n,j,t為在第n個子載波上的第j個順序的用戶端12在當前時刻t分配到的當前分配功率之係數，j _n,j,t為第j個用戶端12在當前時刻t是否分配到第n個子載波的當前子載波分配結果，P _T為該基站11的分配的總功率，σ ²為加性高斯白色雜訊(AWGN)。

要再特別注意的是，由於未分配到該子載波的用戶端12則不分配功率，因此在步驟30中，該基站11實際可僅根據該等當前分配功率及該等更新分配功率計算出該獎勵值，第k個用戶端12在第n個子載波及在當前時刻t的信幹噪比ρ _n,k,t亦可表示為：

在子步驟302中，該基站11根據該等更新子載波分配結果及該等更新分配功率計算出一第二頻譜效率f _t+1。該第二頻譜效率f _t+1算式與該第一頻譜效率f _t相同故在此不加以贅述。

在子步驟303中，該基站11根據該第一頻譜效率f _t及該第二頻譜效率f _t+1計算出一獎勵值r(s _t,a _t)，a _t為在當前時刻t所選取的該目標分配動作。

值得注意的是，在本實施例中，該獎勵值為該第二頻譜效率減去該第一頻譜效率，即該獎勵值r(s _t,a _t)=f _t+1-f _t，但不以此為限。

在步驟31中，該基站11產生並儲存一包括該等當前子載波分配結果、該等當前分配功率、該目標分配動作、該獎勵值、該等更新子載波分配結果，及該等更新分配功率的訓練資料。

在步驟32中，該基站11從儲存的訓練資料中選取多筆目標訓練資料，並根據該等目標訓練資料訓練該等強化學習網路，並重複進行步驟25。

值得一提的是，在重複步驟25前，該基站11會先將在步驟28所獲得該等更新子載波分配結果及該等更新分配功率分別作為該等當前子載波分配結果及該等當前分配功率，再重複進行步驟25。

搭配參閱圖5，步驟32包括子步驟321~323，以下說明步驟32所包括的子步驟。

在子步驟321中，該基站11從儲存的訓練資料中選取該等目標訓練資料。

值得注意的是，在本實施例中，該基站11例如隨機選取32筆目標訓練資料，而在循環開始初期，因為沒有儲存足夠的訓練資料，故32筆目標訓練資料中會有幾筆目標訓練資料為空，但不以此為限。

在子步驟322中，該基站11將該等目標訓練資料的當前子載波分配結果、當前分配功率，及目標分配動作輸入至該動作強化學習網路，以致該動作強化學習網路輸出多個分別對應該等目標訓練資料的訓練動作值。

在子步驟323中，該基站11根據該等目標訓練資料及該等訓練動作值調整該等強化學習網路。

值得注意的是，在本實施例中，該基站11根據該等目標訓練資料的獎勵值及該等訓練動作值利用該損失函數獲得一損失值，並根據該損失值利用該學習演算法將該等強化學習網路進行更新，以調整該等強化學習網路，亦即對於每一目標訓練資料，該基站11將該目標訓練資料中的當前子載波分配結果、當前分配功率，及目標分配動作輸入至該更新網路，使得該更新網路輸出Q(s _t,a _t)，再將該目標訓練資料中的獎勵值、更新子載波分配結果，及更新分配功率輸入至該目標網路，使得該目標網路輸出r(s _t,a _t)+γ max Q(s _t+1,a _t+1)，並求得r(s _t,a _t)+γ max Q(s _t+1,a _t+1)與Q(s _t,a _t)的均方誤差作為該損失值，其中γ

[0,1]為權衡即時獎勵和後續獎勵重要性的折現因數，Q(s _t,a _t)為該目標訓練資料對應的訓練動作值，max Q(s _t+1,a _t+1)為該目標訓練資料的更新子載波分配結果及更新分配功率集合搭配所有子載波分配動作及功率分配動作能獲得的最大動作值，再根據該等目標訓練資料的損失值利用自適應時刻估計方法對該更新網路的參數進行更新，在多次更新之後，例如32次，再將該更新網路的參數複製到該目標網路，以更新該目標網路的參數，但不以此為限，在其他只有該更新網路的實施方式中，則不需要將該更新網路的參數複製到該目標網路。

要特別注意的是，在其他該等強化學習網路例如包括該對照表的實施方式中，該對照表具有多個表格動作值，每一表格動作值對應一子載波分配結果、一分配功率結果，及一分配動作，在步驟32中，該基站11根據該等目標訓練資料更新該對照表，以訓練該等強化學習網路。詳細而言，該基站11根據以下公式更新該對照表：

其中，s _i表示第i筆目標訓練資料的子載波分配集合及分配功率集合，a _i表示第i筆目標訓練資料的目標分配動作，r(s _i,a _i)表示第i筆目標訓練資料的獎勵值，s _i'表示第i筆目標訓練資料的更新子載波分配結果及更新分配功率集合，m表示Q(s _i,a _i)更新的次數，Q _m(s _i,a _i)為該對照表中對應該第i筆目標訓練資料的子載波分配結果、分配功率，及目標分配動作的一目標表格動作值，Q _m+1(s _i,a _i)表示該目標表格動作值更新後的值，α表示更新的學習率，

表示該對照表中對應該第i筆目標訓練資料的更新子載波分配結果及更新分配功率集合搭配所有子載波分配動作及功率分配動作能獲得的一最大表格動作值，

是由該等強化學習網路中的目標網路計算出來，Q _m(s _i,a _i)是由該等強化學習網路中的更新網路計算出來，因為SCMA技術子載波分配動作及功率分配動作較多，Q表格需要較多的儲存空間，故本實施例是採用含有一隱藏層的Q網路對Q表格進行擬合，即Q網路的輸入對應Q表格中的狀態矩陣，Q網路的輸出對應Q表格中該狀態的Q值，因為Q網路中參數的個數遠小於Q表格中Q值的個數，所以節省了該基站的儲存空間。

在步驟33中，該基站11根據該等當前子載波分配結果及該等當前分配功率計算出一候選頻譜效率，並儲存該等當前子載波分配結果、該等當前分配功率，及該候選頻譜效率，並重複進行步驟22。值得注意的是，在本實施例中，每當進行步驟33該循環計數器加1，但不以此為限，在其他實施方式中，該循環計數器亦可在步驟23或步驟24加1。

在步驟34中，該基站11從該等候選頻譜效率中獲得一最高的目標頻譜效率，該循環計數器清零並重複步驟22，其中，該目標頻譜效率對應的子載波分配結果及分配功率即為最佳的子載波分配結果及最佳的分配功率。

綜上所述，本發明為基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，藉由該基站11利用該等強化學習網路在不同場景記錄學習，以獲取具有最大的獎勵值之最佳分配動作，並進一步獲得該等候選頻譜效率，再從該等候選頻譜效率中獲得最高的該目標頻譜效率，其中，該目標頻譜效率對應的子載波分配及功率分配即為最優，故確實能達成本發明的目的。

惟以上所述者，僅為本發明的實施例而已，當不能以此限定本發明實施的範圍，凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾，皆仍屬本發明專利涵蓋的範圍內。

21~34:步驟

Claims

一種基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，由一基站來實施，該基站經由一無線通道與K個用戶端通訊連接，該基站儲存多個子載波分配動作及多個功率分配動作，其中K>1，N>1，該方法包含以下步驟：(A)向該等用戶端分配該等子載波，以獲得N×K個指示出該等用戶端是否分配到該等子載波的當前子載波分配結果，該等當前子載波分配結果j _n,k,t滿足下列條件：1
L，及
d _f，其中，j _n,k,t為第k個用戶端在當前時刻t是否分配到第n個子載波的當前子載波分配結果，j _n,k,t
{0,1}，n
{1,2,...,N}，k
{1,2,...,K}，j _n,k,t=1為第k個用戶端在當前時刻t分配到第n個子載波，j _n,k,t=0為第k個用戶端在當前時刻t未分配到第n個子載波，L為每一用戶端分配到的最大子載波數，d _f為每一子載波上的最大用戶端數；(B)根據該等當前子載波分配結果獲得N×K個分別對應該等當前子載波分配結果的當前分配功率；(C)將該等子載波分配動作、該等功率分配動作、該等當前子載波分配結果，及該等當前分配功率輸入至一動作強化學習網路，以致該動作強化學習網路輸出多個分別對應該等功率分配動作及該等子載波分配動作的動作值；(D)判定該等動作值是否皆小於等於0； (E)當判定出該等動作值之其中一者大於0時，從該等子載波分配動作及該等功率分配動作中選擇一目標分配動作；(F)根據該等當前子載波分配結果、該等當前分配功率及該目標分配動作，獲得多個分別對應該等當前子載波分配結果的更新子載波分配結果及多個分別對應該等當前分配功率的更新分配功率；(G)根據該等當前分配功率及該等更新分配功率計算出一獎勵值(reward value)；(H)產生並儲存一包括該等當前子載波分配結果、該等當前分配功率、該目標分配動作、該獎勵值、該等更新子載波分配結果，及該等更新分配功率的訓練資料；(I)從儲存的訓練資料中選取多筆目標訓練資料，並根據該等目標訓練資料訓練至少一強化學習網路，該至少一強化學習網路包括該動作強化學習網路；(J)將該等更新子載波分配結果及該等更新分配功率分別作為該等當前子載波分配結果及該等當前分配功率重複步驟(C)~(I)直到該等動作值皆小於等於0；(K)當判定出該等動作值皆小於等於0時，根據該等當前子載波分配結果及該等當前分配功率計算出一候選頻譜效率，並儲存該等當前子載波分配結果、該等當前分配功率，及該候選頻譜效率；(L)重複進行步驟(A)~(K)P次，以獲得P個候選頻譜效率，其中P>1；及 (M)從該等候選頻譜效率中獲得一最高的目標頻譜效率。
如請求項1所述的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，其中，在步驟(B)中，該等當前分配功率v _n,k,t滿足下列條件
1，0
v _n,k,t
1，及
其中，n
{1,2,...,N}，k
{1,2,...,K}，j _n,k,t為第k個用戶端在當前時刻t是否分配到第n個子載波的當前子載波分配結果，j _n,k,t
{0,1}，j _n,k,t=1為第k個用戶端在當前時刻t分配到第n個子載波，j _n,k,t=0為第k個用戶端在當前時刻t未分配到第n個子載波，v _n,k,t為第n個子載波上的第k個順序的用戶端在當前時刻t分配到的當前分配功率之係數。
如請求項1所述的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，其中，步驟(F)包括以下子步驟：(F-1)判定該目標分配動作是否為子載波分配動作；(F-2)當判定出該目標分配動作為子載波分配動作時，根據該目標分配動作獲得N×K個分別對應該等當前子載波分配結果的替換子載波分配結果；(F-3)判定該等替換子載波分配結果是否滿足多個子載波分配條件；(F-4)當判定出不滿足該等子載波分配條件之其中一者時，將該等當前子載波分配結果及該等當前分配功率分別作為該等更新子載波分配結果及該等更新分配功率；及(F-5)當判定出滿足該等子載波分配條件時，將該等替換子載波分配結果作為該等更新子載波分配結果，並根據該等更新子載波分配結果獲得該等更新分配功率。
如請求項3所述的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，其中，在步驟(F-3)中，該等子載波分配條件包括：1
L，及
d _f，其中，j _n,k,t+1為第k個用戶端在下一時刻t+1是否分配到第n個子載波的替換子載波分配結果，j _n,k,t+1
{0,1}，n
{1,2,...,N}，k
{1,2,...,K}，j _n,k,t+1=1為第k個用戶端在下一時刻t+1分配到第n個子載波，j _n,k,t+1=0為第k個用戶端在下一時刻t+1未分配到第n個子載波。
如請求項3所述的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，其中，在子步驟(F-1)之後包括以下子步驟：(F-6)當判定出該目標分配動作不為子載波分配動作時，對該等當前分配功率進行該目標分配動作，以獲得多個分別對應該等當前分配功率的替換分配功率；(F-7)判定該等替換分配功率是否滿足多個功率分配條件； (F-8)當判定出不滿足該等功率分配條件之其中一者時，將該等當前子載波分配結果及該等當前分配功率分別作為該等更新子載波分配結果及該等更新分配功率；及(F-9)當判定出滿足該等功率分配條件時，將該等當前子載波分配結果及該等替換分配功率分別作為該等更新子載波分配結果及該等更新分配功率。
如請求項5所述的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，其中，在子步驟(F-7)中，該等功率分配條件包括：
1，0
v _n,k,t+1
1，及
其中，n
{1,2,...,N}，k
{1,2,...,K}，j _n,k,t+1為第k個用戶端在下一時刻t+1是否分配到第n個子載波的當前子載波分配結果，j _n,k,t+1
{0,1}，j _n,k,t+1=1為第k個用戶端在下一時刻t+1分配到第n個子載波，j _n,k,t+1=0為第k個用戶端在下一時刻t+1未分配到第n個子載波，v _n,k,t+1為在第n個子載波上的第k個順序的用戶端在下一時刻t+1分配到的替換分配功率之係數。
如請求項1所述的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，在步驟(F)及步驟(G)之間還包含以下步驟：(M)判定一相關於當前該基站通訊連接的用戶端之數量與用戶端的信號疊加到的子載波之數量的一超載率是否為K/N；當判定出該超載率為K/N時，進行步驟(G)。
如請求項7所述的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，在步驟(A)之前還包含以下步驟：(N)初始化多個强化學習網路；在步驟(M)之後還包含以下步驟：(O)當判定出該超載率不為K/N時，儲存一包括該等强化學習網路且對應超載率為K/N的歷史強化學習網路資訊，並判定是否儲存有一對應超載率為K’/N的目標歷史強化學習網路資訊，K’>1且K’≠K；及(P)當判定出儲存有該目標歷史強化學習網路資訊時，載入該目標歷史強化學習網路資訊，並重複步驟(A)~(F)、(M)；當判定出不儲存有該目標歷史強化學習網路資訊時，重複步驟(N)、(A)~(F)、(M)。
如請求項1所述的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，其中，在步驟(E)中，該目標分配動作為隨機選取的機率為P ₁，該目標分配動作對應的動作值為該等動作值中最高的機率為P ₂，P ₁+P ₂=1且P ₁<P ₂。
如請求項1所述的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，其中，步驟(G)包括以下子步驟：(G-1)根據該等當前分配功率計算出一第一頻譜效率； (G-2)根據該等更新分配功率計算出一第二頻譜效率；及(G-3)根據該第一頻譜效率及該第二頻譜效率計算出該獎勵值。
如請求項1所述的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，其中，步驟(I)包括以下子步驟：(I-1)從儲存的訓練資料中選取該等目標訓練資料；(I-2)將該等目標訓練資料的子載波分配結果、分配功率，及目標分配動作輸入至該動作強化學習網路，以致該動作強化學習網路輸出多個分別對應該等目標訓練資料的訓練動作值；及(I-3)根據該等目標訓練資料及該等訓練動作值調整該至少一強化學習網路。
如請求項11所述的基於人工智慧算法之下行稀疏碼多址接入系統資源分配方法，其中，在步驟(I-3)中，根據該等目標訓練資料的獎勵值及該等訓練動作值利用一損失函數獲得一損失值，並根據該損失值利用一學習演算法將該至少一強化學習網路進行更新，以調整該至少一強化學習網路。