TWI835638B

TWI835638B - 於非對稱策略架構下以階層式強化學習訓練主策略的方法

Info

Publication number: TWI835638B
Application number: TW112115246A
Authority: TW
Inventors: 李濬屹
Original assignee: 國立清華大學
Priority date: 2022-05-04
Filing date: 2023-04-25
Publication date: 2024-03-11
Also published as: US20230362196A1; TW202345036A

Abstract

本發明包括以下步驟：讀取一主策略、複數次策略和一環境狀態；其中各該次策略具有不同的推理成本(inference cost)；使用該主策略以選擇該些次策略的其中一者為一選定次策略；根據該選定次策略產生至少一動作訊號；施行該至少一動作訊號於一動作執行單元；從環境偵測得知至少一回饋訊號，此回饋訊號對應該動作執行單元執行該至少一動作訊號後的至少一回饋反應；根據該至少一回饋訊號和該選定次策略的一推理成本計算該主策略的一主回饋訊號，根據該主回饋訊號訓練該主策略是否應該選擇該選定次策略，以降低深度神經網路的推理成本且輸出令人滿意的結果。

Description

於非對稱策略架構下以階層式強化學習訓練主策略的方法

一種以階層式強化學習(Hierarchical Reinforcement Learning；HRL)訓練主策略(master policy)的方法，尤指一種於非對稱策略架構下以階層式強化學習訓練主策略的方法。

在現今社會中，機器和機器人時常被應用於執行複雜的動作，例如執行平衡之動作、模仿複雜的人體動作、或是執行自動駕駛和操控汽車等。這些動作需要受到細膩且複雜的控制，而這些細膩複雜的控制乃需要於軟體端受到機器學習方法的協助而實現。

在機器學習的領域中，強化學習(Reinforcement Learning；RL)是一個基於最大化累積獎勵(maximizing cumulative reward)來訓練智能體(agent)做出較佳決定的方法。當智能體做出一決定後，智能體即根據該決定和環境互動而產生一個對應的動作，並且收集該對應的動作所產生的一結果為一獎勵。並且，當執行數個動作後，軟體將收集和累積對應該些動作的複數結果為一累積獎勵，而該累積獎勵即可作為進一步訓練軟體做出正確決定的依據。

深度神經網路(Deep Neural Network；DNN)是一種機器學習的方法，其可以使應用之軟體做出正確的決定。當軟體結合使用RL和DNN時，軟體即使用一深度強化學習(Deep Reinforcement Learning；DRL)的方法進一步用於控制機器人執行複雜動作。

然而，DRL雖可產生令人滿意的控制細節，使機器人成功執行複雜動作，但DRL需要龐大的運算量、運算資源、運算所需的時間或是運算消耗的功耗才得以執行和實現。詳細來說，當一個DNN的模型受到使用時，根據該DNN模型所執行的一個推理階段(inference phase)是一個非常耗費運算資源的階段。因此，一個運算資源有限的機器人，例如一個移動式機器人，可能因運算資源不足、電池續航力不足或是電力限制等因素而無法如期的執行該推理階段。

為了補償運算資源有限的問題，一種剪枝法(pruning)常被使用，用以刪減DNN模型的大小以降低推理階段所需使用之運算資源。然而，當既有的模型架構受到刪減後，最終經由模型架構所得到輸出答案的正確性會出現下降，也就是軟體所得到的輸出答案更有可能出現錯誤。換句話說，剪枝法雖可降低運算量、運算資源、運算所需的時間或是運算消耗的功耗等需求，卻會犧牲推理後做出決定的正確性。並且，使用剪枝法也有可能使DNN模型的模型架構受到刪減後變得不穩定。如此將需投入更多的資源和力氣修改DNN模型，使DNN模型受到剪枝後維持穩定。

知識蒸餾(Knowledge Distillation)，是另一種可以降低推理階段所需使用之運算資源的方法，也就是降低推理成本(inference cost)的方法。知識蒸餾可以使一執教DNN教導一受教DNN如何以較少的推理成本完成一任務(task)。舉例來說，該執教DNN可能擁有較大的模型結構，而該受教DNN可能擁有較小的模型結構，並且該受教DNN也可縮短一程式的整體實施時間(overall deployment time of a program)。當該程式的整體執行時間減少時，推理階段所需的時間也會減少，而因此推理階段所需的推理成本也會減少。然而，知識蒸餾需要該受教DNN受到該執教DNN的教導。換句話說，該受教DNN完全倚賴從該執教DNN得知如何完成該任務，而該受教DNN無法從其他資源學習如何完成該任務。

階層式強化學習(Hierarchical Reinforcement Learning；HRL)是一種強化學習下的概念。在HRL中，較高層次的一策略(policy)凌駕於較低層次的複數次策略(sub-policies)之上。該些次策略適應於執行長時間的複數動作(temporally extended actions)以完成多項次任務(sub-tasks)。這裡所指的次任務對應前述執行複雜動作時所需的細膩控制，以利執行例如平衡之動作、或是決定要將機器手舉多高以模仿複雜的人體動作、或是決定要給予自駕車輛多少的加速度以抵達目的地等。就目前來說，HRL僅被使用於以較高的推理成本來解決複雜的問題，且HRL還未被創作於降低DNN的推理成本。

綜上所述，目前HRL和DRL僅聚焦於使用多種的DNN並且以較高的推理成本來解決複雜的問題和完成任務。為了降低推理階段所需使用之運算資源，目前以剪枝法或是知識蒸餾等方法來降低推理成本。

剪枝法以刪減DNN模型的大小來簡化做出決定的過程，然而這麼做會犧牲掉部分的模型結構。如此，剪枝法為了降低完成任務所需的整體推理成本(overall inference cost)，將會犧牲推理後做出決定的正確性和DNN模型的結構穩定性。

知識蒸餾的必要條件須要該受教DNN受到該執教DNN的訓練，這樣迫使該受教DNN完全倚賴從該執教DNN得知如何完成該任務。如此，該受教DNN無法便捷的受到其他資源的開導，即該受教DNN無法方便的從其他資源學習如何完成該任務。

有鑑於上述的問題，本發明提供一種於非對稱策略架構下以階層式強化學習(Hierarchical Reinforcement Learning；HRL)訓練主策略的方法。該於非對稱策略架構下以階層式強化學習訓練主策略的方法受到一處理模組的執行。

該於非對稱策略架構下以階層式強化學習訓練主策略的方法，包括以下步驟：讀取一主策略、複數次策略和一環境狀態；其中，各該次策略具有不同的推理成本(inference cost)；使用該主策略以選擇該些次策略的其中一者為一選定次策略；根據該選定次策略產生至少一動作訊號；施行該至少一動作訊號於一動作執行單元；從一偵測模組偵測至少一回饋訊號；其中，該至少一回饋訊號對應該動作執行單元執行該至少一動作訊號後的至少一回饋反應(reaction)；根據該至少一回饋訊號和該選定次策略的一推理成本計算該主策略的一主回饋訊號；根據該主回饋訊號選擇該選定次策略以訓練該主策略。

本發明透過一個HRL的結構使該主策略做出選項之上策略的選擇(policy over options decision)，而選項即該些次策略。不同於先前技術的是，在本發明中該主策略受到了獨立地訓練，也就是該主策略不需和該些次策略一起訓練。該主策略獨立地受到訓練，訓練如何做出正確地選擇該些次策略中的其中一者以產生該至少一動作訊號。並且，該些次策略同樣的也不需和該主策略一起訓練。本發明可使該些次策略獨立地受到訓練，而如此開發該些次策略較先前技術更為方便、更為彈性。

一整體推理成本(overall inference cost)意旨由該處理模組執行本方法來完成一任務所需的整體運算成本。舉例來說，在本發明的一實施例中，該處理模組受到了本發明的訓練，訓練如何控制該動作執行單元，例如一機械手臂，抓取一物件並將該物件位移至一目標地點以完成該任務。在這個執行該任務的過程中，複數動作會被施行且該些次策略的中的至少其中一者會被採用，以控制該機械手臂抓取該物件並將該物件位移至該目標地點。在這實施例中，該整體推理成本即意旨施行複數動作且使用該些次策略的中的至少其中一者控制該機械手臂抓取該物件並將該物件位移至該目標地點所需要的整體運算成本。

另外，因本發明之各該些次策略具有互相不同的推理成本，所以本發明使用了非對稱的運算結構。詳細來說，只有當該主策略判斷必要時，本發明才選擇使用該些次策略中較高成本的一者為該選定次策略，而如此該主策略能在不明顯影響結果品質的前提下盡量降低整體運算成本。經模擬實驗結果的驗證，當該動作執行單元接收該處理模組所輸出本發明的該至少一動作訊號後，可通過該偵測模組發現該動作執行單元產出了令人滿意的結果。

本發明可以在未剪枝刪減該些次策略的情況下減少整體運算成本，因此本發明的模型架構完整，可以在完整的模型架構下產生該至少一動作訊號。如此，本發明無需犧牲推理後做出決定的正確性和模型結構穩定性就得以降低整體運算成本。

請參閱圖1所示，本發明為一種於非對稱策略架構下以階層式強化學習(Hierarchical Reinforcement Learning；HRL)訓練主策略的方法。該於非對稱策略架構下以階層式強化學習訓練主策略的方法受到一處理模組10的執行。該處理模組10電連接一動作執行單元20和一偵測模組30。

在本發明的一實施例中，該處理模組10進一步電連接一記憶模組40。該記憶模組40存有一主策略和複數次策略。

請參閱圖2所示，該於非對稱策略架構下以階層式強化學習訓練主策略的方法，包括以下步驟：

步驟S1：從該記憶模組40讀取該主策略和該些次策略，並從該偵測模組30讀取一環境狀態。

該些次策略包括一第一策略和一第二策略，而該第一策略和該第二策略分別為該主策略之下的次策略。進一步，該第一策略和該第二策略具有不同的推理成本(inference cost)，且該第一策略的推理成本低於該第二策略的推理成本。

步驟S2：使用該主策略以選擇該些次策略的其中一者為一選定次策略。

步驟S3：根據該選定次策略產生至少一動作訊號。

步驟S4：施行該至少一動作訊號於該動作執行單元20。

步驟S5：透過該偵測模組30偵測至少一回饋訊號。該至少一回饋訊號對應該動作執行單元20執行該至少一動作訊號後的至少一回饋反應(reaction)。

該動作執行單元20接收該處理模組10輸出的該至少一動作訊號，以執行命令，嘗試完成一任務(task)。該任務是否趨近完成會反應於該偵測模組30所偵測的該至少一回饋訊號。

步驟S6：根據該至少一回饋訊號和該選定次策略的一推理成本計算該主策略的一主回饋訊號。

步驟S7：根據該主回饋訊號選擇該選定次策略以訓練該主策略。

該選定次策略的推理成本為預先定義且存於該記憶模組40中的一個數值。該主回饋訊號是根據透過該主策略經由該偵測模組30所觀察到的結果所產生。詳細來說，根據該主回饋訊號的評分，該主策略可決定該選定次策略所產生的至少一動作是否適用於嘗試完成該任務。如果判定適用即判定當下選擇的該選定次策略為較佳之選擇，反之以此類推。當產生該主回饋訊號後，該主回饋訊號即可用於指導該主策略選擇更適合、更適用的其中一次策略來嘗試完成該任務。

本發明透過一個HRL的結構使該主策略做出選項之上策略的選擇(policy over options decision)，而選項即該些次策略。該主策略受到了獨立地訓練，也就是該主策略和該些次策略分開來個別受到訓練。

該主策略獨立地受到訓練，訓練如何單一功能的做出正確地選擇，選擇該些次策略中的其中一者以產生該至少一動作訊號。如此，本發明可以動態地調整(dynamically adjust)適合的其中一次策略為該選定次策略，以在不明顯響結果品質的前提下完成該任務，而降低完成該任務之過程的一整體推理成本(overall inference cost)。這麼做的好處是，本發明可以避免使用單一的一個高成本策略來完成該任務。雖然使用單一的一個高成本策略來完成該任務可以保障高品質的結果，但通常這麼做該整體推理成本會過於高昂。因此，當本發明可以選擇不同成本的該些次策略其中一者為該選定次策略時，本發明可以更靈活的選擇其中一次策略來完成該任務。此一靈活性使本發明可以在降低該整體推理成本的同時顧及結果的品質不會明顯的受到影響，以維持還是令人滿意的結果品質。換句話說，藉由該主策略做出策略高於選項的選擇，本發明可以找到維持該任務的好結果品質和選擇適合之次策略以盡量壓低推理成本之間取捨的平衡點，藉以降低完成該任務之過程的該整體推理成本。

請參閱圖3所示，在本實施例中，步驟S1進一步包括以下子步驟：

步驟S11：從該記憶模組40讀取該主策略、該些次策略和一總次數，並從該偵測模組30讀取該環境狀態。其中，該總次數為一正整數。

步驟S12：從該環境狀態感測一第一狀態資訊。

進一步，步驟S2包括以下子步驟：

步驟S21：傳送該第一狀態資訊給該主策略。

步驟S22：根據該第一狀態資訊，使用該主策略以選擇該些次策略其中一者為該選定次策略。

進一步，步驟S3包括以下子步驟：

步驟S31：從該環境狀態感測該第一狀態資訊，並傳送該第一狀態資訊給該選定次策略。

步驟S32：根據該第一狀態資訊，使用該選定次策略產生該至少一動作訊號。

在本實施例中，雖然該主策略接收了該第一狀態資訊，但是該主策略的功能僅為選擇該些次策略其中一者為該選定次策略。換句話說，該主策略未將該第一狀態資訊穿送給該選定次策略，而因此步驟S31中需要再次感測該第一狀態資訊，並傳送該第一狀態資訊給該選定次策略。該環境狀態為時間相依的數據，因此自該環境狀態感測的狀態資訊也會隨著不同的感測時間而改變。

該環境狀態是一環境受到該偵測模組30從該環境中偵測或觀察到的一狀態，也就是說，該環境狀態是從該環境中萃取的數據。在本實施例中，該環境為一實體的物理環境，且該偵測模組30為一物理性的感測器，例如一攝影機或是一麥克風。在其他實施例中，該環境為一虛擬環境，且該偵測模組30為負責模擬該虛擬環境的一處理器。受到模擬的該虛擬環境也可以是一互動式環境，意旨該環境會因各種互動而隨著時間動態的變化。因為該環境的狀態隨著時間而改變，於不同的時間點，該動作執行單元20會需要根據不同的狀態產生對應不同的動作。因此，該環境在不同的狀態下可能較會需要以不同推理成本的該些次策略作為不同時間點適合該動作執行單元20產生動作的根據。

請參閱圖4所示，在本發明的一示意圖中，該第一狀態資訊100先送至該主策略200，以利該主策略200根據該第一狀態資訊100決定選擇該些次策略300的其中哪一者會受到選取。換句話說，步驟S3中產生的該至少一動作訊號係根據傳送給該選定次策略350的該第一狀態資訊而制定。決定後，只有受到選取的次策略會在一事先訂好的時間長度(set duration of time)內受到執行，而受到執行的該次策略即於該事先給定好的時間長度內產生該至少一動作訊號。該第一策略310為成本較低的其中一次策略300，而該第二策略320為成本較高的其中一次策略300。這裡所指的成本為根據該第一狀態資訊100而決定如何產生動作的推理成本。本發明之非對稱策略架構意旨該第一策略310具有較該第二策略320較低的推理成本。本發明只有在該主策略200認為需要時才選擇使用該第二策略320，如此盡量降低該整體推理成本但是維持結果品質不明顯受到影響。換句話說，該主策略200在本實施例中預設優先選擇使用該第一策略310來產生該至少一動作訊號，而當面對複雜的狀況時，也就是必須使用較高推理成本以維持結果品質時，該主策略200才改變選擇使用該第二策略320來產生該至少一動作訊號。何謂該主策略200面對之複雜的狀況，此部分會在說明書後段實施例中作詳細說明。

請參閱圖5所示，在本實施例中，步驟S6包括以下子步驟：

步驟S61：在該選定次策略的一使用時段內計算一總回饋減去該選定次策略的一總推理成本為該主回饋訊號。

該總回饋為該選定次策略的該使用時段內所有該至少一回饋訊號的總和。該選定次策略的該總推理成本對應該選定次策略的推理成本和該選定次策略的該使用時段。該選定次策略的該使用時段為該選定次策略受到選取使用的時間長短。

另外，步驟S7進一步包括以下子步驟：

步驟S71：訓練該主策略200根據該環境狀態、該主回饋訊號和該選定次策略在時域中的對應改變以選擇該些次策略300其中一者為該選定次策略。

換言之，本發明觀察根據該選定次策略所產生的該主回饋訊號的分數高低增減如何。當該主回饋訊號的分數越高時，即代表在此一狀態下該選定次策略越是適合被該主策略200選定使用。相反的，該主回饋訊號的分數越低時，即代表在此一狀態下該選定次策略越是不適合被該主策略200選定使用。這樣的啟示能夠用以訓練該主策略200動態地調整怎麼樣的輸入訊號能產生何種合乎期待的輸出訊號。輸入訊號意旨對應此一狀態的該選定次策略，而輸出訊號意旨該主回饋訊號。這裡所指的狀態對應該環境狀態，因為任一狀態為偵測該環境狀態而取得。

請參閱圖6所示，驟S61進一步包括以下子步驟：

步驟S611：計算該總回饋為該選定次策略之該使用時段內的該至少一回饋訊號的總和。

步驟S612：計算該主回饋訊號為該總回饋減去該選定次策略之該使用時段內的該總推理成本。

該選定次策略的該總推理成本等於該選定次策略的該推理成本乘以一個縮放係數(scaling factor)和一段給定的時間。該一段給定的時間在此簡稱一時段(time period)。該時段預先定義且存於該記憶模組40中，以定義該選定次策略受到選定使用後會經過多久的時間直到該主策略200再次判斷和決定選取該些次策略300中的其中一者為該選定次策略。進一步來說，該時段等於該選定次策略產生了多少次的動作乘以一個動作所需成本的時間。該選定次策略的推理成本可以受到彈性的定義。在本實施例中，該選定次策略的推理成本定義為能耗速率(power consumption rate)，並且以瓦數(Watt；W)為單位來計算。在另一實施例中，該選定次策略的推理成本定義為運算時間，並且以時間單位來計算。在又一實施例中，該選定次策略的推理成本定義為運算表現，例如以每秒浮點運算次數(Floating-point operations per second；FLOPs)來計算，或是以其他之單位來計算每秒之運算表現如何。

該記憶模組40存有了該時段、一個動作所需成本的時間、還有各該些次策略300的推理成本。舉例來說，該第一策略310的一第一推理成本和該第二策略320的一第二推理成本會存於該記憶模組40之中。當該第一策略310受到選取為該選定次策略時，該第一推理成本會自該記憶模組40載入該處理模組10中。

請注意，該第一推理成本和該總推理成本並不相同。該總推理成本受到了該縮放係數和該時段的影響。也就是說，如果該選定次策略經過越長的時間被選定產生該至少一動作訊號，則該總推理成本就越高。

在本實施例中，該主回饋訊號越大就代表該主策略200越理想的選擇和平衡該選定次策略來嘗試完成該任務。越理想的選擇和平衡意旨在完成該任務的整個過程中最大化該總回饋並且同時最小化該總推理成本。而最理想的選擇和平衡意旨使用該些次策略300的其中至少一者來完成該任務，產出最高的該主回饋訊號分數。

請參閱圖7所示，在本發明的另一實施例中，在步驟S5和步驟S6之間進一步包括了以下的步驟：

步驟S55：使用該至少一回饋訊號訓練該選定次策略。該選定次策略受到訓練，訓練產生最大化的分數以根據該至少一回饋訊號完成該任務。也就是說，步驟S55訓練該選定次策略完成該任務的表件更為理想。

進一步，該處理模組10重複執行步驟S3至步驟S5共N次，且N等於該總次數。

詳細來說，在執行步驟S3之前，本發明進一步包括：

步驟S201：設定一現在步數為一。

請參閱圖8所示，在本實施例中，步驟S3至步驟S5等於了下述之子步驟：

步驟S300：從該環境狀態感測一第N狀態資訊，並傳送該第N狀態資訊給該選定次策略。

步驟S301：根據該選定次策略產生一第N動作訊號。

步驟S302：施行該第N動作訊號於該動作執行單元20。

步驟S303：從該偵測模組30偵測一第N回饋訊號。

這裡所述的N對應了該現在步數的順序，而該第N回饋訊號對應了該動作執行單元20對於該第N動作訊號的一回饋反應。

步驟S304：判斷該現在步數是否小於該總步數。當判斷該現在步數大於或是等於該總步數時，執行步驟S6。

步驟S305：當判斷該現在步數小於該總步數時，於該現在步數多加上一，並且執行步驟S300。

請參閱圖9所示，圖9以視覺的方式示意了本發明之方法。該環境50受到了該偵測模組30的偵測並產生該環境狀態，且將產生該環境狀態載入至該處理模組10中。該動作執行單元20的狀態反映於從該環境50萃取的該環境狀態之中。該處理模組10從該環境50中萃取該第一狀態資訊100。在本實施例中，該處理模組10先是使用該主策略200選定該第二策略320為該選定次策略350，接著該處理模組10使用該第二策略320產生一第一動作400給該動作執行單元20，並且從該環境50偵測一第一回饋訊號500。經過該時段之時間長短後，該處理模組10進一步從該環境50中萃取一第二狀態資訊110，並將該第二狀態資訊110傳送至該選定次策略350以產生另一動作，也就是將該第二狀態資訊110傳送至該第二策略320以產生一第二動作410，給該動作執行單元20。接著，該處理模組10從該環境50偵測另一回饋訊號，也就是一第二回饋訊號510，並且該處理模組10判斷該現在步數是否小於該總步數。當該處理模組10判斷該現在步數小於該總步數時，重新執行步驟以自該環境50偵測並產生下一個連續的回饋訊號。當該處理模組10判斷該現在步數等於該總步數時，自該環境50偵測一最終狀態資訊150並且將該最終狀態資訊150傳送至該選定次策略350。該選定次策略350產生一最終動作450給該動作執行單元20，並且該處理模組10自該環境50偵測一最終回饋訊號550後，將該最終回饋訊號550存入該記憶模組40中。

所有的回饋訊號500、510、…、550都被該處理模組10使用作為訓練該選定次策略350的依據。並且，所有的回饋訊號500、510、…、550都被該處理模組10總合為該總回饋減去該選定次策略350於該使用時段內的該總推理成本以計算該主回饋訊號600。如此，該處理模組10再以計算的該主回饋訊號600作為訓練該主策略200的依據。

接著，該處理模組10再重新執行步驟S2，以開始另一次的步驟迴圈，而不同的是這一次該主策略200選擇了該第一策略310為該選定次策略350。

以下公式形容該主回饋訊號600的計算方式：

其中，代表了該主回饋訊號600、代表了該第一回饋訊號500、代表了該第二回饋訊號510、代表了該最終回饋訊號550。進一步，代表了該縮放係數、代表了該時段、代表了該選定次策略350的推理成本。在本實施例中，該選定次策略350的推理成本為獨立於時間的平均定數。在其他實施例中，該選定次策略350的推理成本為根據時間而改變的數值，也就是說當該動作執行單元20執行不同動作時，該選定次策略350的推理成本也會跟著改變。

在本發明另一實施例中，步驟S55可被忽略，因為所有的該些次策略都已事先受到訓練如何執行該任務。換句話說，該些次策略在被存入該記憶模組40之間就已預先受到訓練如何執行該任務。當該些次任務根據步驟S1自該記憶模組40載入本發明時，本發明即已具備成熟訓練過，可以執行該任務的該些次策略。跟先前技術相比，本發明可以使該些次策略和該主策略各自獨立地受到訓練，而這使本發明可以有更大的自由(degree of freedom)和便利性以彈性的開發和訓練該些次策略和該主策略。並且，藉由分別獨立訓練該些次策略和該主策略，本發明可以更有效率的訓練如何完成該任務。

請參閱圖10所示，在本實施例中，一電腦程式受到本發明的訓練。該電腦程式在此一訓練階段受到訓練如何以該主策略200和不同推理成本的該些次策略300控制該動作執行單元20執行任務。訓練完成後，該電腦程式即跳出該訓練階段而進入一使用階段，以於以下的實驗中執行訓練完成之內容，展現訓練的成果。經本發明訓練的該電腦程式能夠根據該環境的狀態來決定選擇該些次策略300的其中何者來試圖完成實驗中制訂的該任務。在該使用階段中，該電腦程式不再如該訓練階段中收集任何回饋訊號或是計算該主回饋訊號600。

該電腦程式執行以下之步驟：

步驟CS1：設定該現在步數為一，從對應該環境的該環境狀態得到一現在狀態，並且使用該主策略200以選擇該次策略300其中一者為該選定次策略350。

步驟CS2：從對應該環境的該環境狀態得到另一現在狀態，根據該選定次策略350產生一現在動作訊號，並且施行該現在動作訊號於該動作執行單元20。

步驟CS3：判斷該現在步數是否小於該總步數。當判斷該現在步數大於或是等於該總步數時，執行步驟CS1。

步驟CS4：當判斷該現在步數小於該總步數時，於該現在步數多加上一，並且執行步驟CS2。

請參閱圖11所示，在模擬一游泳者的一支臂如何划水的實驗中，該電腦程式受到了本發明的訓練，訓練如何改善該支臂作出划水動作的姿勢更趨近於人類游泳划水的姿勢。在圖11中，橫軸表示時間單位，例如秒數，而縱軸表示任意單位的回饋值，例如划水姿勢的分數。這一個模擬實驗的例子具有代表性，因為模擬該支臂如何划水給了一個DNN模型一個具有挑戰性的選擇情境(scenario)，而也因此給予了本發明一個展現訓練成果功效的機會，展現本發明如何降低推理成本並且維持模擬划水姿勢的動作品質。在本實施例中，該游泳者的該支臂受到了該處理模組10的控制，該游泳者的該支臂為該動作執行單元20，且該游泳者之該支臂的姿勢動作受到了該偵測模組30的偵測。

圖11呈現了該主策略200於何時決定根據存入該記憶模組40的回饋訊號選擇使用該第一策略310或是該第二策略320來產生動作的時序。就結果來看，當模擬該游泳者的該支臂划水時，大部分的時候使用了該第一策略310來產生動作。仔細來說，當該游泳者的該支臂於圖11所示的時間T1開始划水時，本發明使用了該第二策略320來產生動作，以應付划水所需的複雜動作。當划水的動作結束於圖11所示的時間T2時，該主策略200改選該第一策略310為該選定次策略350，以產生划水完成後之動作。因為划水完成後之動作僅為維持姿勢的滑翔動作，且該支臂幾乎無需移動，所以使用該第一策略310即可完好呈現該動作，並且簡化推理時之複雜程度。圖11所示的時間T4時，該游泳者的該支臂再次開始新一划水動作，而這使得該處理模組10再次選擇該第二策略320產生動作。在圖11所示的時間T2和時間T4之間，圖11時間T3代表了該游泳者的該支臂正在維持划水結束後滑翔的動作。

請參閱圖12A至12C所示。在更多不同的模擬實驗中，圖12A為模擬一車輛加速上坡的一實驗。在這模擬實驗中，該車輛加速上坡之加速度量也給了該DNN模型另一個具有挑戰性的選擇情境。該車輛加速上坡之加速度量受到了該處理模組10的控制，該車輛為該動作執行單元20，而該車輛的移動受到了該偵測模組30的偵測。

圖12B為模擬一機械手臂抓取一物件並將該物件位移至一目標地點。在這模擬實驗中，該機械手臂如何抓取該物件和移動也給了該DNN模型另一個具有挑戰性的選擇情境。該機械手臂的移動受到了該處理模組10的控制，該機械手臂為該動作執行單元20，且該機械手臂的移動受到了該偵測模組30的偵測。

圖12C為模擬一行人試圖於行走時保持身體平衡的站立姿勢。在這模擬實驗中，該行人如何完美的保持身體平衡以維持不跌倒也給了該DNN模型另一個具有挑戰性的選擇情境。該行人的移動受到了該處理模組10的控制，該行人為該動作執行單元20，且該行人的移動受到了該偵測模組30的偵測。以上三個模擬實驗中所作出的動作皆受到紀錄，並且時序呈現於圖12A至12C中。

在圖12A中，橫軸表示時間單位，例如秒數，而縱軸表示動作量，即動作的數量。當該車輛於圖12A中的時間T1開始加速時，該主策略200選擇了該第二策略320產生動作，因為決定加速度的多寡需要較多的推理成本。當該車輛於圖12A中的時間T2停止加速時，該主策略200改選擇了該第一策略310為該選定次策略350產生動作，因為維持加速度的只需較少的推理成本。該車輛於圖12A中的時間T3到達目的地而停止移動，而在圖12A的時間T2至時間T3之間，該車輛維持固定的加速度移動。

在圖12B中，橫軸表示時間單位，而縱軸表示任意單位的回饋值，例如分數。在該機械手臂於圖12B中的時間T1碰觸該物件之前，該機械手臂僅需大動作的作出移動，因此僅需要使用該第一策略310即可產生動作。當該機械手臂於圖12B中的時間T2碰觸該物件時，該機械手臂開始需要作出細微動作以握住該物件，因此需要使用該第二策略320產生動作。這裡所指的大動作意旨以較粗糙(coarse)的方式調節該機械手臂的動作，而這裡所指的細微動作意旨以較精細(fine)的方式調節該機械手臂的動作。粗糙和精細的該機械手臂調節方式視不同實驗的設置而具有不同的定義標準。當該機械手臂碰觸該物件前，該主策略200選擇了該第一策略310為該選定次策略350產生動作，而當該機械手臂碰觸該物件後，該主策略200選擇了推理成本較高的該第二策略320為該選定次策略350產生動作。該機械手臂於圖12B中的時間T4完成將該物件移動至目的地的任務，而在圖12B的時間T2至時間T4之間，圖12B的時間T3為該機械手臂使用該第二策略320所產生的動作移動該物件的時段。

在圖12C中，橫軸表示時間單位，而縱軸表示任意單位的回饋值，例如分數。當該行人於圖12C的時間T1嘗試平衡時，該主策略200在選擇該第一策略310和該第二策略320為該選定次策略350產生動作之間遊走。當該行人於圖12C的時間T2達到平衡而站立時，以及於圖12C的時間T4保持平衡時，該主策略200主要選擇該第一策略310為該選定次策略350產生動作。在圖12C的時間T2至時間T4之間，於圖12C的時間T3，該行人些微的調整姿勢以精細的維持站姿和保有平衡，因而使用該第二策略320為該選定次策略350產生動作。

關於上述的模擬實驗，所有模擬實驗都有使用該第一策略310和該第二策略320來產生動作。該主策略200能在推理成本和令人滿意的動作結果之間找出最佳的平衡點以完成任務。所有的模擬實驗都分別個自成功地完成該任務。請參考下表一以表示上述模擬實驗的細節數據：

環境	只使用第一策略所得的分數	只使用第二策略所得的分數	使用本發明所得的分數	使用第二策略的百分比	減少總 FLOPs 的百分比
游泳者的支臂作出划水動作	35.5	84.1	108.8	54.9%	44.6%
車輛加速上坡	-11.6	93.6	93.5	44.5%	49.0%
機械手臂移動物件	0.351	0.980	0.935	46.5%	46.4%
行人維持站姿	330.0	977.7	967.2	5.7%	82.3%

表一

在同樣的分數評斷標準之下，表一呈現了上述各模擬實驗只使用該第一策略310所得的分數、只使用該第二策略320所得的分數、和使用本發明混合使用該第一策略310和該第二策略320訓練該電腦程式後所得的分數。就結果上來看，不意外地只使用該第一策略310所得的分數最低，而使用本發明所得的分數和只使用該第二策略320所得的分數非常接近。事實上，在模擬該游泳者該支臂作出划水動作的實驗中，使用本發明所得的分數更高於只使用該第二策略320所得的分數。由此可以證明，使用本發明的確可以有效率的產生令人滿意的結果。

表一進一步列出了上述各模擬實驗中使用該第二策略320的百分比和減少總FLOPs的百分比。就結果上來看，所有實驗的全部時間中，只有小於60%的時間是使用該第二策略320，也就是說其餘40%的時間係使用該第一策略310以減少嘗試完成任務的推理成本。減少的總FLOPs代表了減輕該處理模組10運算負荷的質量，並且也代表了本發明減少推理成本的質量。因此，本發明在所有模擬實驗中都有效率的減少了40%的總FLOPs的百分比。表一證明了本發明不但可以產生令人滿意的推理結果，也可以有效地降低控制該動作執行單元20所需的推理成本。

上述之所有實施例和所有模擬實驗僅為示意本發明的功效和能力，而非用以限制本發明之實施態樣。在申請之保護範圍內，本發明可以於其他實施例中作出相等的技術變更，並且還是受到本專利之保護。本發明可以被使用和應用於訓練其他控制軟體，以有效控制其他之控制環境、互動環境、或是虛擬環境的運作，並且在控制完成任務的同時兼顧產出結果的品質和降低推理運算之成本。

10:處理模組 20:動作執行單元 30:偵測模組 40:記憶模組 100:第一狀態資訊 110:第二狀態資訊 150:最終狀態資訊 200:主策略 300:次策略 310:第一策略 320:第二策略 350:選定次策略 400:第一動作 410:第二動作 450:最終動作 500:第一回饋訊號 510:第二回饋訊號 550:最終回饋訊號 S1~S7、S11~S12、S21~S22、S31~S32、S55、S61、S71:步驟 S201、S300~S305、S611~S612:步驟 CS1~CS4:步驟 T1~T4:時間

圖1為執行本發明一於非對稱策略架構下以階層式強化學習訓練主策略的方法之硬體的方塊圖。圖2為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的流程圖。圖3為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的另一流程圖。圖4為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的示意圖。圖5為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的又一流程圖。圖6為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的再一流程圖。圖7為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的還一流程圖。圖8為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的又另一流程圖。圖9為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的另一示意圖。圖10為一電腦程式受到本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法訓練的示意圖。圖11為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的一模擬實驗之示意圖。圖12A為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的另一模擬實驗之示意圖。圖12B為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的再一模擬實驗之示意圖。圖12C為本發明該於非對稱策略架構下以階層式強化學習訓練主策略的方法的又一模擬實驗之示意圖。

S1~S7:步驟

Claims

一種於非對稱策略架構下以階層式強化學習(HRL)訓練主策略的方法，受到一處理模組的執行，且包括以下步驟：步驟A：讀取一主策略、複數次策略和一環境狀態；其中，各該次策略具有不同的推理成本(inference cost)；步驟B：使用該主策略以選擇該些次策略的其中一者為一選定次策略；步驟C1：根據該選定次策略產生至少一動作訊號；步驟C2：施行該至少一動作訊號於一動作執行單元；步驟C3：從一偵測模組偵測至少一回饋訊號；其中，該至少一回饋訊號對應該動作執行單元執行該至少一動作訊號後的至少一回饋反應(reaction)；步驟D：根據該至少一回饋訊號和該選定次策略的一推理成本計算該主策略的一主回饋訊號；步驟E：根據該主回饋訊號選擇該選定次策略以訓練該主策略。
如請求項1所述之於非對稱策略架構下以階層式強化學習訓練主策略的方法，其中該步驟D進一步包括以下子步驟：步驟D1：在該選定次策略的一使用時段內計算一總回饋減去該選定次策略的一總推理成本為該主回饋訊號；其中，該總回饋為該選定次策略的該使用時段內所有該至少一回饋訊號的總和；其中，該選定次策略的該總推理成本對應該選定次策略的推理成本和該選定次策略的該使用時段。
如請求項2所述之於非對稱策略架構下以階層式強化學習訓練主策略的方法，其中該步驟D1進一步包括以下子步驟：步驟D11：計算該總回饋為該選定次策略之該使用時段內的該至少一回饋訊號的總和；步驟D12：計算該主回饋訊號為該總回饋減去該選定次策略之該使用時段內的該總推理成本；其中，該選定次策略的該總推理成本等於該選定次策略的該推理成本乘以一個縮放係數(scaling factor)和一個時段(time period)。
如請求項3所述之於非對稱策略架構下以階層式強化學習訓練主策略的方法，其中於該步驟C3和該步驟D之間進一步包括以下步驟：步驟C4：使用該至少一回饋訊號訓練該選定次策略。
如請求項1至4中任一所述之於非對稱策略架構下以階層式強化學習訓練主策略的方法，其中在執行該步驟C1之前進一步包括以下步驟：步驟C0：從該環境狀態感測一第一狀態資訊，並傳送該第一狀態資訊給該選定次策略；其中，該步驟C1中產生的該至少一動作訊號係根據傳送給該選定次策略的該第一狀態資訊而制定。
如請求項5所述之於非對稱策略架構下以階層式強化學習訓練主策略的方法，其中：在執行該步驟B之前，該方法進一步包括以下步驟：步驟A01：讀取一總次數；該總次數為一正整數；重複執行該步驟C0至該步驟C3共N次，且N等於該總次數。
如請求項1所述之於非對稱策略架構下以階層式強化學習訓練主策略的方法，其中該步驟E進一步包括以下子步驟：步驟E1：訓練該主策略根據該環境狀態、該主回饋訊號和該選定次策略在時域中的對應改變以選擇該些次策略其中一者為該選定次策略。
如請求項1所述之於非對稱策略架構下以階層式強化學習訓練主策略的方法，其中：該步驟A進一步包括以下子步驟：步驟A1：讀取該主策略、該些次策略和該環境狀態；步驟A2：從該環境狀態感測一第一狀態資訊；該步驟B進一步包括以下子步驟：步驟B1：傳送該第一狀態資訊給該主策略；步驟S22：根據該第一狀態資訊，使用該主策略以選擇該些次策略其中一者為該選定次策略。