WO2023188437A1

WO2023188437A1 - 制御装置、制御方法、及びプログラム

Info

Publication number: WO2023188437A1
Application number: PCT/JP2022/017008
Authority: WO
Inventors: 晃人鈴木; 正裕小林
Original assignee: 日本電信電話株式会社
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2023-10-05

Abstract

本開示は、ネットワークトポロジー及び帯域幅等のネットワークの使用状況を考慮して、タスクオフロードの効率を向上させることを目的とする。　そのため、本開示は、各エッジノード及び各クラウドノードを有する各ノードによって構築され、モデル化された物理ネットワークに対して、タスクの割り当てを制御する制御装置であって、端末装置から依頼された前記タスクに関するタスク情報、及び前記物理ネットワークの使用状況を示すネットワーク使用情報を観測する観測部と、前記観測部の観測結果に基づいて、前記タスクをオフロードするための最適な特定のノードを算出する計算部と、　前記特定のノードに対して前記タスクを転送する転送部と、を有する制御装置である。

Description

制御装置、制御方法、及びプログラム

　本開示は、ネットワークおよびクラウド制御技術に関し、特にタスクを割り当てる制御に関する。

　通信技術の発展に伴い、ヘルスケア、スマートシティ、製造業などの様々な領域で多様なアプリケーションが登場している。これらのアプリケーションは、パソコン、スマートフォン、IoT機器、自動車などの端末装置(End Device; ED)の計算資源に限界があるため、クラウドサーバにオフロードして処理される。

　この仕組みはクラウドコンピューティング（Cloud Computing; CC）と呼ばれている。オフロードされたアプリケーションのタスクは、例えば、トラヒックヘビー、コンピューティングヘビー、レイテンシー（遅延時間）センシティブなど、さまざまな特性を持つコンピューティングリソースの要求と通信の要求で構成されている。

　ここで、「トラヒックヘビーなタスク」とは、要求するトラヒック量の多いタスクを示す。「レイテンシーセンシティブなタスク」とは、通信遅延に対する要求が厳しいタスクを示す。クラウドサーバは一般的に端末装置から離れた場所に設置されているため、端末装置がタスクをクラウドにオフロードすると、追加の通信遅延が必ず発生する。そのため、クラウドコンピューティングは遅延の影響を受けやすいタスクの性能を低下させるという問題が生じる。

　上記の問題に対応するため、端末装置に近いエッジサーバにコンピューティングリソースを配置するエッジコンピューティング(Edge Computing; EC)が提案されている。クラウドコンピューティングとエッジコンピューティングを組み合わせることで、複数のオフロードの選択肢が生まれ、タスクオフロードの効率が向上する。例えば、クラウドは一般的に十分なコンピューティングリソースを持っているため、コンピューティングヘビーなタスクをクラウドにオフロードすることで、タスクオフロードの効率を上げることができる。

　また、従来から、いくつかの研究では、クラウドコンピューティングとエッジコンピューティングのタスクオフロード問題に取り組んでいる。具体的には、強化学習（Reinforcement Learning; RL）を用いた手法が注目されている（非特許文献１乃至４）。

　強化学習は、入力となるネットワークパターンと出力となるタスクのオフロードの関係を事前に学習することで、効率的なタスクのオフロードを即座に出力することができる。

Y. Zhan, S. Guo, P. Li, and J. Zhang, "A deep reinforcement learning based offloading game in edge computing," IEEE Trans. Comput., vol. 69, no. 6, pp. 883-893, 2020. D. C. Nguyen, P. N. Pathirana, M. Ding, and A. Seneviratne, "Deep reinforcement learning for collaborative offloading in heterogeneous edge networks," in Proc. IEEE/ACM CCGrid. IEEE, 2021, pp. 297-303. W. Hou, H. Wen, H. Song, W. Lei, and W. Zhang, "Multi-agent deep reinforcement learning for task offloading and resource allocation in cybertwin based networks," IEEE Internet Things J., 2021. Y. Zhang, B. Di, Z. Zheng, J. Lin, and L. Song, "Distributed multi-cloud multi-access edge computing by multi-agent reinforcement learning," IEEE Trans. Wireless Commun., vol. 20, no. 4, pp. 2565-2578, 2020.

　しかしながら、従来の手法では以下に示す２つの課題が生じている。

　１つ目の課題は、既存の研究ではクラウドコンピューティングを考慮していなかったり、単一のクラウドサーバを持つネットワークのみを対象としていたりすることである。前述のとおり、クラウドコンピューティングとエッジコンピューティングを組み合わせることは、タスクのオフロード効率を向上させるためには必要不可欠である。また、一般的なネットワークでは、複数のクラウドサーバが存在している。

　２つ目の課題は、既存の研究では、帯域幅や、事業者間などを結ぶ基幹通信網であるバックボーンネットワークのトポロジーを考慮していないことある。多くの従来の研究では、オフロードされたタスクが通過する経路を短くすることで、タスクの遅延を最小化しようとしている。しかし、帯域幅を考慮しない制御では、タスクの負荷があるリンクに集中することで、輻輳する可能性がある。

　また、マルチエージェント強化学習は、１つの問題を複数のエージェントで解くことで、より複雑な問題に対応するのに有効な手段である。各エージェントは、他のエージェントと協力して、報酬の最大化を目指す。各エージェントにそれぞれのタスクに割り当てることで、各エージェントの学習コストを削減することができる。しかし、各エージェントを独立に学習させる場合、各エージェントは利己的な行動を取ってしまうという課題がある。この課題の具体例として、各エージェントが独立して同時に学習し、独立に行動する場合、すべてのタスクが負荷の一番負荷の軽い所定のクラウドサーバに集中してしまい、結果として、所定のクラウドサーバが過負荷になることが挙げられる。

　本発明は、上述の課題を鑑みてなされたもので、ネットワークトポロジー及び帯域幅等のネットワークの使用状況を考慮して、タスクオフロードの効率を向上させることを目的とする。

　上記課題を解決するため、請求項１に係る発明は、各エッジノード及び各クラウドノードを有する各ノードによって構築され、モデル化された物理ネットワークに対して、タスクの割り当てを制御する制御装置であって、端末装置から依頼された前記タスクに関するタスク情報、及び前記物理ネットワークの使用状況を示すネットワーク使用情報を観測する観測部と、前記観測部の観測結果に基づいて、前記タスクをオフロードするための最適な特定のノードを算出する計算部と、前記特定のノードに対して前記タスクを転送する転送部と、を有する制御装置である。

　本発明により、ネットワークトポロジー及び帯域幅等のネットワークの使用状況を考慮して、タスクオフロードの効率を向上させることができるという効果を奏する。

本発明の実施形態における通信システムの全体構成の一例を示す図である。本実施形態の物理ネットワークを示す概念図である。本実施形態の制御装置のハードウェア構成図である。タスクオフロードシステムの制御を示すフローチャートである。タスクオフロードシステムの制御を示すフローチャートである。各式を示す図である。各式を示す図である。各式を示す図である。各式を示す図である。各式を示す図である。各式を示す図である。アルゴリズム１を示す図である。アルゴリズム２を示す図である。アルゴリズム３を示す図である。アルゴリズム４を示す図である。各式を示す図である。

　〔実施形態の概要〕
　以下、図１及び図２を用いて、タスクオフロードを行う通信システムの概要を説明する。図１は、本発明の実施形態における通信システムの全体構成の一例を示す図である。

　図１に示すように、本実施形態の通信システムは、制御装置５０及びモデル化された物理ネットワーク１４０によって構築されている。

　制御装置５０は、モデル化された物理ネットワーク１４０から、タスク情報、及びネットワーク使用情報を取得し、モデル化された物理ネットワーク１４０に対してタスク割当制御を行う。具体的には、制御装置５０は、ネットワークトポロジー及び（又は）帯域幅等の物理ネットワークの使用状況の制約を考慮して、マルチクラウドとマルチエッジネットワークのための最適タスクオフロード問題を定式化する。ここで、最適オフロードとは、サーバ容量とリンク容量、タスクの遅延の制約を満たしつつ、サーバとリンクのリソース利用効率を最大化し、タスクの遅延を最小化する解と定義する。ここでの決定変数は、タスクのコンピューティングリソースの割り当てと、端末装置と割り当てられたサーバ間の経路である。また、制御装置５０は、協調型マルチエージェント深層強化学習（CooperativeMulti-agent Deep RL; Coop-MADRL）に基づくタスクオフロードアルゴリズムを提案する。

　モデル化された物理ネットワーク１４０は、タスクを依頼する複数の端末装置、複数のエッジノード１２１，１２２，１２３、及び複数のクラウドノード１３１，１３２によって構築されている。なお、図１では、紙面の都合上、限られた端末装置、エッジノード、及びクラウドノードしか示されていないが、それぞれ図１に示す数以上存在してもよい。

　図２は、本実施形態の物理ネットワークを示す概念図である。物理ネットワーク４０は、タスクを依頼する複数の端末装置１１，１２、複数のエッジサーバ２１，２２、及び複数のクラウドサーバ３１，３２によって構築されている。

　また、端末装置１１は、アクセスネットワークａｎ１を介して、複数のエッジサーバ２１，２２、及び複数のクラウドサーバ３１，３２に接続可能である。同様に、端末装置１２は、アクセスネットワークａｎ２を介して、複数のエッジサーバ２１，２２、及び複数のクラウドサーバ３１，３２に接続可能である。また、エッジサーバ２１とエッジサーバ２２の間にはコア網ｃｎが構築されている。図１に示すモデル化された物理ネットワーク１４０は、図２に示す物理ネットワーク４０に対応する。なお、図２では、紙面の都合上、限られた端末装置、エッジノード、及びクラウドノード、アクセスネットワーク、コアネットワークしか示されていないが、それぞれ図２に示す数以上存在してもよい。

　なお、以降、端末装置１１，１２の総称を「端末装置１０」と示す。エッジサーバ２１，２２の総称を「エッジサーバ２０」と示す。クラウドサーバ３１、３２の総称を「クラウドサーバ３０」と示す。エッジノード１２１，１２２，１２３の総称を「エッジノード」と示す。クラウドノード１３１，１３２の総称を「クラウドノード」と示す。エッジノードとクラウドノードの総称を「ノード」と示す。また、アクセスネットワークａｎ１，ａｎ２の総称を「アクセスネットワークａｎ」と示す。

　また、端末装置１０は、パソコン、スマートフォン、スマートウォッチ、IoT機器、家電製品、移動体に搭載又は設置された通信機器等である。移動体には、車両、航空機、船舶、ロボット等が含まれる。

　図２に示すように、すべてのノードは、エッジサーバ２０またはクラウドサーバ３０として、端末装置１０の代わりにタスクを実行するコンピューティングリソースを有している。また、すべてのノードは、それぞれ他のノードにトラヒックを転送するルータｒ１，ｒ２，ｒ３，ｒ４に接続されている。各エッジサーバ２０は、各タスクをオフロードするための最適なノードを決定するための制御装置５０（図１参照）を有している。

　端末装置１０は、コンピュータにより構成され、多様なアプリケーションを持つ様々なタスクを生成する。各タスクは、必要なコンピューティングリソース需要、トラフィック需要、および許容される最大遅延の情報のうちの少なくとも１つで構成される。

　各端末装置１０は、自身のタスクを端末装置１０内で計算することも、隣接するエッジやクラウドにタスクをオフロードすることもできる。

　〔実施形態のハードウェア構成〕
　図３は、本実施形態の制御装置のハードウェア構成図である。

　図３に示されているように、制御装置５０は、プロセッサ１０１、メモリ１０２、補助記憶装置１０３、接続装置１０４、通信装置１０５、ドライブ装置１０６を有する。なお、制御装置５０を構成する各ハードウェアは、バス１０７を介して相互に接続される。

　プロセッサ１０１は、制御装置５０全体の制御を行う制御部の役割を果たし、ＣＰＵ（Central Processing Unit）等の各種演算デバイスを有する。プロセッサ１０１は、各種プログラムをメモリ１０２上に読み出して実行する。なお、プロセッサ１０１には、ＧＰＧＰＵ(General-purpose computing on graphics processing units)が含まれていてもよい。

　メモリ１０２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の主記憶デバイスを有する。プロセッサ１０１とメモリ１０２とは、いわゆるコンピュータを形成し、プロセッサ１０１が、メモリ１０２上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。

　補助記憶装置１０３は、各種プログラムや、各種プログラムがプロセッサ１０１によって実行される際に用いられる各種情報を格納する。

　接続装置１０４は、外部装置（例えば、表示装置１０８、操作装置１０９）と制御装置５０とを接続する接続デバイスである。

　通信装置１０５は、他の装置との間で各種情報を送受信するための通信デバイスである。

　ドライブ装置１０６は記録媒体１０６ｍをセットするためのデバイスである。ここでいう記録媒体１０６ｍには、ＣＤ－ＲＯＭ(Compact Disc Read-Only Memory)、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体１０６ｍには、ＲＯＭ(Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

　なお、補助記憶装置１０３にインストールされる各種プログラムは、例えば、配布された記録媒体１０６ｍがドライブ装置１０６にセットされ、該記録媒体１０６ｍに記録された各種プログラムがドライブ装置１０６により読み出されることでインストールされる。あるいは、補助記憶装置１０３にインストールされる各種プログラムは、通信装置１０５を介してネットワークからダウンロードされることで、インストールされてもよい。

　なお、端末装置１０、エッジサーバ２０、及びクラウドサーバ３０は、制御装置と同様のハードウェア構成を有するため、説明を省略する。

　〔実施形態の処理〕
　＜タスクオフロードシステムの制御手順＞
　続いて、図４及び図５を用いて、タスクオフロードシステムの制御について説明する。図４及び図５は、タスクオフロードシステムの制御を示すフローチャートである。

　ここで、離散的なタイムステップtを考える。各端末装置１０は１つ以上のタスクを持っていると仮定し、タイムステップ[0,T]の間にK個のタスクを考える。この状態で、以下の処理が実行される。

　ステップＳ１１：各タイムステップtの開始時には、各タスクは各端末装置１０に最も近いエッジサーバ２０に到着する。

　ステップＳ１２：各エッジサーバ２０（制御装置５０）の観測部５１は、タスク情報とネットワーク使用情報を取得することで、タスクの情報とネットワークの使用状況を観測する。タスク情報には、必要なコンピューティングリソース需要、トラフィック需要、および許容される最大遅延時間の情報のうち少なくとも１つが含まれる。ネットワーク情報は、ネットワークの使用状況として、例えば、ネットワークトポロジー及び（又は）帯域幅に関する情報である。

　ステップＳ１３：各エッジサーバ２０（制御装置５０）の計算部５５は、ステップＳ１２による観測結果に基づいて、各エッジサーバ２０に配置された提案手法により、タスクをオフロードするための最適な特定のノードを算出する（詳細は後述の〔提案手法〕を参照）。

　ステップＳ１４：各エッジサーバ２０に複数のタスクが同時に到着した場合（ＹＥＳ）、本手法はfirst-in first-out (FIFO)の方法でオフロードノードの決定を繰り返す。同時に到着しない場合（ＮＯ）、次のステップに進む。

　ステップＳ１５：各エッジサーバ２０（制御装置５０）の計算部５５は、ノード間のトラヒック需要情報を集約し、ノード間の最適ルートを計算し更新する。

　ステップＳ１６：各エッジサーバ２０（制御装置５０）の転送部５９は、最適ルートを経由して最適な各ノードにタスクを転送する。

　ステップＳ１７：タスクを転送された各ノードはタスクを実行し、結果を依頼元の端末装置１０に返す。

　ステップＳ１８：所定の終了条件を満たした場合には（ＹＥＳ）、タスクオフロードシステムの制御は終了する。所定の終了条件は、各端末装置１０からのタスクの依頼が終了した場合等である。

　ステップＳ１９：上記ステップＳ１８で所定の終了条件を満たしていない場合には（ＮＯ）、一定の時間が経過すると（ＹＥＳ）、ステップＳ１１に戻り、次のタイムステップt+1で処理が繰り返される。

　なお、実行中のタスクは、端末装置１０に結果を返すまでオフロードされたノードとタスクが通過するリンクのリソースを消費し続けると仮定する。そのため、本実施形態では、タイムステップtで依頼を受け付けたタスクは、タイムステップt+1までに完了する必要はない。

　＜ネットワークモデル＞
　続いて、表１にネットワークモデルの変数の定義を示す。

　物理ノード集合Nと物理リンク集合Lから構成される物理ネットワークグラフG(N,L)を考える。各ノードはエッジやクラウドとしての役割を持つと仮定する。ここでは、各エッジノードEをe∈E⊂N、各クラウドノードCをc∈C⊂Nとする。また、ノード、エッジノード、クラウドノードの数をそれぞれ、|N|、|E|、|C|と表す。端末装置１０はアクセスネットワークａｎを経由して最寄りのエッジサーバ２０に接続するが、本実施形態ではアクセスネットワークａｎはG(N,L)に含まれないとする。

　また、i番目のノードのノード処理能力を

とする。
これは、例えば、i番目のノードの１秒あたりのＣＰＵ能力（[G cycles/s]）など、コンピューティングリソースの処理能力の上限を示すものである。

　また、i番目のノードのノード容量を

とする。これは、例えば、各タスクに１つのＣＰＵコアを割り当てる場合、

はi番目のノードのＣＰＵコアの数と等しくなる。

　リンク(i,j)の帯域幅容量を

とし、リンクの帯域容量を

とする。

　また、すべてのリンクには、各ノード間の距離に応じた伝送遅延が存在する。
ここでは、リンク(i,j)の距離係数

により、各リンクの遅延時間を決定する。

　＜タスクモデル＞
　続いて、表２にタスクモデルの変数の定義を示す。

　端末装置１０のさまざまなタスクを統一的に表現するためのタスクモデルについて示す。
タスクの集合を

とし、k番目のタスクを

と定義する。

　ここで、t_k∈Tはタスクkの受付時間（時刻）、β_kは各アプリケーションで一意に与えられるタスクkの種類、C_kは必要なコンピューティングリソース需要（[G cycles]）を示す。

　また、

はアップロードとダウンロードのトラヒック需要を示す。

はダウンロードのトラヒック需要を示す。

は最大許容遅延時間（[ms]）を示す。

　タスクは、G(N,L)上のコンピューティングリソースとネットワークリソースをk番目のタスクD_kに応じて消費する。

　端末装置１０に最も近いエッジノードにタスクが割り当てられた場合、G(N，L)で消費されるネットワークリソース量は0とみなす。

　＜最適化問題の定式化＞
　続いて、図６乃至図１０に示す制約条件の（式２）乃至（式１７）を満たしながら、（式１）を最小化するタスクオフロード問題を定式化する。なお、図６乃至図１０は、各式を示す図である。

　まず、表３にタスクオフロード問題の変数の定義を示す。

　この問題の決定変数は、タスク割当変数Yと経路割当変数X_tである。

　ここで、

は、タスクkのコンピューティング需要がノードnに割り当てられている場合は1、そうでない場合は0を表す変数である。

　また、

は、始点ノードpから終点ノードqへのトラヒック需要

のうち、タイムステップtでリンク(i,j)を通過する割合を示す。

　ここで、

は、タイムステップtにおけるノードpとノードqの間のトラヒック需要行列を示す。

　また、端末装置１０の位置をz_keと定義する。ここで、z_keは、端末装置１０から要求されたタスクkの最寄りのエッジノードがeであれば1、そうでなければ0を表す変数である。

　次に、（式１）に示す目的関数を導入する。

　ここで、

と

は、タイムステップtにおけるノードとリンクの最大利用率を示し、それぞれ

および

と定義される。

　ここで、i番目のノード利用率を

とし、i番目のリンク利用率を

とする。

　また、

と

は、タスクkのノード遅延時間とリンク遅延時間を表す。

　また、λは、目的関数の各項の重要度の比率を決める重み付けパラメータを示す。

　次に、ノード容量、リンク容量、タスク遅延の３種類の制約条件を設定する。

　まず、バイナリ変数

を（式２）のように定義する。

　ここで、

はタイムステップtの時点でタスクkが実行中であれば1、そうでなければ0を返す変数である。
ここで、t_kはタスクkの受付時間（時刻）を示す。

　タスク割当変数y_knは、（式３）乃至（式６）に示すようなノード容量制約を満足しつつ、最大ノード利用率

を最小化するように定式化される。

　（式３）は、各タスクのコンピューティング需要をいずれかのノードに割り当てる必要があることを示す。（式４）は、ノードの容量の制約を表す。（式４）の

は、tにおける実行中のタスクの割り当てを示す。

　経路割当変数

は、（式７）乃至（式１１）に示すようなリンク容量制約を満足しつつ、最大リンク使用率

を最小化するように定式化される。

　ここで、（式９）の

は（式１２）及び（式１３）のように定式化できる。

　（式１２）は、送信元ノードpから送信先ノードqへのアップロードトラヒックの要求を示す。ここで、z_kpとy_kqは、ノードpとノードqを決定する。また、

は実行中のタスクを抽出する。（式１３）は、ノードqからノードpへのダウンロードのトラヒック需要を示しており、アップロードの式とは逆になる。

　タスクのノードの遅延時間

と、リンクの遅延時間

を（式１４）乃至（式１６）のように定式化する。

　最後に、レイテンシー制約は（式１７）のように定式化される。

　＜提案手法＞
　（モデルリング）
　まず、タスクの部分集合を表す変数を図１１に示す（式１８）乃至（式２１）のように定義する。図１１は、各式を示す図である。

　ここで、K_tは、タイムステップtで実行されるタスクの部分集合を示す。また、K_eは、エッジノードeで受け付けたタスクの部分集合を示す。また、D_tは、タイムステップtで受け付けたタスクの部分集合を示す。また、D_e,tは、タイムステップtにエッジノードeで受け付けたタスクの部分集合を示す。

　ここで、表４に提案手法の変数の定義を示す。

　エッジノードの数に等しい|E|個のエージェントを導入し、各エージェントを各エッジノードのタスクオフロード制御に割り当てる。

　エージェントg_e∈Gは、エッジノードeのタスクオフロードを最適化する方法を学習する。状態は、

で定義される。

　エージェントg_eの観測は

で定義される。

　行動の候補集合A^eは、タスクをオフロードするノードの集合として定義される。

　エッジノードeがタイムステップtでタスクを受け付けない場合、エージェントg_eは「何もしない」という行動を選択する。報酬は、制約条件が満たされていない場合は負の値を返し、そうでない場合は目的関数の値に応じて正の値を返すように設計する。

　（定式化）
　提案手法（Coop-MADRL）は、集中的な学習と分散的な実行を行う。

　●アルゴリズム１
　図１２は、アルゴリズム１を示す図である。アルゴリズム(Algorithm）１は、Coop-MADRLを用いた集中学習の様子を示す。

　１行目はエージェントのパラメータの初期化を示す。一連の手続き(２－１８行目)を学習が完了するまで繰り返し実行する。３－４行目は、タスクの生成と環境パラメータの初期化を示す。
一連の動作をエピソードと呼び、各エピソード（５－１６行目）が繰り返し実行される。

　各エピソードでは、エージェントは<o_t,a_t,r_t>の組み合わせである学習サンプルを収集する。ネットワークシミュレータのタイムステップをt^simとし、各エピソードの最初にリセットされる。

　７行目では、エッジeがt^simで複数のタスクを受け入れると、エージェントg_eはFIFO方式で１つのタスクを選択する。

　９行目では、確率εでランダムな行動が選択され、そうでない場合は、確率1-εで、

を最大化する行動が選択される。

　各エージェントは、７－９行を並列で実行する。

　１０行目では、アルゴリズム3によりa_tに応じてタスクオフロードが更新される。

　１１行目は、報酬を計算している。

　１２－１３行目は、エージェント学習の終了条件を意味する。

　１４－１５行目では、t^simで受け付けたタスクがすべて割り当てられていれば、次のt^sim+1に進む。

　１７行目は、Replay memory Mへの格納を示す。

　１８行目では、すべてのエージェントGは、Mからランダムに取得したエピソードの履歴によって学習される。

　●アルゴリズム２
　図１３は、アルゴリズム２を示す図である。図１３に示すアルゴリズム(Algorithm)２は、Coop-MADRLを用いたタスクオフローディング手法を提案している。

　１行目は、アルゴリズム1を用いてGを事前に学習している。

　次に、このアルゴリズム2は、システムが新しいタスクを受け付ける受け入れる限り、２－９行目を継続的に繰り返す。

　６行目では、各エージェントがQ_e(o^e ,a^e)を最大化する

を選択している。

　（環境の更新）
　●アルゴリズム３
　図１４は、アルゴリズム３を示す図である。図１４に示すアルゴリズム(Algorithm)３は、環境の更新手順を示す。アルゴリズム３では、タスク割当変数Y と経路割当変数X_tを更新する。

　１行目はY の計算を示す。

　２行目は

の計算を示す。

　３行目はM_tの計算を示す。

　４行目は

の計算を示す。

　５行目は遅延の計算を示す。

　最後に、アルゴリズム３では、報酬計算のための変数を返す。

　（報酬計算）
　目的関数の（式１）に基づいて報酬関数を設計する。

　●アルゴリズム４
　図１５は、アルゴリズム４を示す図である。アルゴリズム(Algorithm)４は、Gの報酬計算の手順を示す。Eff(x)は効率関数を表し、図１６に示す（式２２）のように定義する。図１６は、各式を示す図である。

　（式２２）の関数は、xが大きくなると効率が悪くなるように設計されている。

　また、xに応じて、x<0.8の場合は正の値を、それ以外の場合は負の値を返す。

　なお、

は、レイテンシーの平均的な満足度を示しており、（式２３）のように定義する。

　以上により、提案手法の説明を終了する。

　〔実施形態の主な効果〕
　本実施形態によれば、協調型マルチエージェント手法を導入することで、タスクオフロードの効率を向上させることができる。即ち、各エッジに最適なタスクオフロードを学習したエージェントを配置する。さらに、各エージェントが協調して学習する仕組みを導入することで、各エージェントの利己的な行動を防ぐ。これにより、ネットワークトポロジー及び（又は）帯域幅等のネットワーク使用状況の制約を考慮して、タスクオフロードの効率を向上させることができる。

　また、深層強化学習を用いてネットワークの需要パターンと最適なタスクオフロードの関係を事前に学習することで、効率的なタスクオフロードを迅速に得ることができる。

　〔補足〕
　本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理（動作）であってもよい。

　例えば、制御装置５０はコンピュータとプログラムによっても実現できるが、このプログラムを（非一時的な）記録媒体に記録することも、インターネット等の通信ネットワークを介して提供することも可能である。

１１　端末装置
１２　端末装置
２１　エッジサーバ
２２　エッジサーバ
３１　クラウドサーバ
３２　クラウドサーバ
４０　物理ネットワーク
５０　制御装置
５１　観測部
５５　計算部
５９　転送部
１２１　エッジノード
１２２　エッジノード
１３１　クラウドノード
１３２　クラウドノード
１３３　クラウドノード
１４０　モデル化された物理ネットワーク

Claims

　各エッジノード及び各クラウドノードを有する各ノードによって構築され、モデル化された物理ネットワークに対して、タスクの割り当てを制御する制御装置であって、
　端末装置から依頼された前記タスクに関するタスク情報、及び前記物理ネットワークの使用状況を示すネットワーク使用情報を観測する観測部と、
　前記観測部の観測結果に基づいて、前記タスクをオフロードするための最適な特定のノードを算出する計算部と、
　前記特定のノードに対して前記タスクを転送する転送部と、
　を有する制御装置。
　前記計算部は、前記観測部の観測結果に基づいて、前記各ノードの間のトラヒック需要情報を集約して前記各ノードの間の最適ルートを計算し、
　前記転送部は、前記最適ルートを経由して前記特定のノードに対して前記タスクを転送する、
　請求項１に記載の制御装置。
　前記計算部は、前記観測部の観測結果に基づき、協調型マルチエージェント深層強化学習に基づくタスクオフロードアルゴリズムを利用して、前記特定のノードを算出する、請求項１に記載の制御装置。
　前記タスク情報には、必要なコンピューティングリソース需要、トラフィック需要、および許容される最大遅延時間の情報のうち少なくとも１つが含まれる、請求項１に記載の制御装置。
　前記ネットワーク使用情報は、ネットワークトポロジー又は帯域幅に関する情報である、請求項１に記載の制御装置。
　各エッジノード及び各クラウドノードを有する各ノードによって構築され、モデル化された物理ネットワークに対して、タスクの割り当てを制御する制御装置が実行する制御方法であって、
　前記制御装置が、
　端末装置から依頼された前記タスクに関するタスク情報、及び前記物理ネットワークの使用状況を示すネットワーク使用情報を観測し、
　前記観測による観測結果に基づいて、前記タスクをオフロードするための最適な特定のノードを算出し、
　前記特定のノードに対して前記タスクを転送する、
　ことを実行する制御方法。
　コンピュータに、請求項６に記載の方法を実行させるプログラム。