JP7347531B2

JP7347531B2 - 制御装置、制御方法及びプログラム

Info

Publication number: JP7347531B2
Application number: JP2021553924A
Authority: JP
Inventors: 晃人鈴木; 薫明原田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2023-09-20
Anticipated expiration: 2039-10-29
Also published as: WO2021084608A1; JPWO2021084608A1; US11765036B2; US20220385536A1

Description

特許法第３０条第２項適用２０１９年８月２９日に電子情報通信学会信学技報情報ネットワーク研究会（ＩＮ）ｖｏｌ．１１９Ｎｏ．１９５ＩＮ２０１９－２９ｐｐ．３５－４０にて発表

本発明は、制御装置、制御方法及びプログラムに関する。

仮想ネットワーク機能（ＶＮＦ：Virtual Network Function）を柔軟に組み合わせることで、様々なネットワークサービスの提供を可能にするＮＦＶ（Network Function Virtualization）と呼ばれる技術が知られている。これらのネットワークサービスは、サービス提供者が構築した仮想ネットワーク（ＶＮ：Virtual Network）を、電気通信事業者が持つ物理リソースに割り当てることで提供される。

ところで、近年、高画質の動画配信やＯＳ（Operating System）のアップデート等により、トラヒックやサーバ等の物理リソースの需要変動が激化している。このため、サービス提供者が構築した仮想ネットワークの物理リソースの需要も時間的に変動することが多い。これに対して、物理リソースの需要変動に応じて、ネットワークサービスの提供中に仮想ネットワークの割り当てを動的に制御する技術が知られている。例えば、ネットワーク状態と最適な制御方法との関係を深層強化学習により事前に学習しておき、実際の制御時における計算時間を不要とすることで、需要変動に追従可能な仮想ネットワークの動的割当方法が知られている（非特許文献１）。

鈴木晃人，安孫子悠，原田薫明，"深層強化学習による動的仮想ネットワーク割当手法の検討"，信学会総合大会，p.1，B-7-48，2018.

しかしながら、非特許文献１に記載されている動的割当方法では、サーバ数の増加や仮想ネットワーク数の増加等に対して事前学習に要する計算時間が増大する場合がある。また、ネットワーク機器の再設定や仮想マシン（ＶＭ：Virtual Machine）の移動等が多くなる場合があり、その結果、実制御における制御周期が増加し、仮想ネットワークの割当精度が低下することがある。

本発明の実施形態は、上記の点に鑑みてなされたもので、仮想ネットワークの動的割当を効率的かつ高精度に実現することを目的とする。

上記目的を達成するため、本実施形態に係る制御装置は、ネットワークサービスを提供するための仮想ネットワークをマルチエージェント深層強化学習により物理ネットワーク上に動的に割り当てる制御装置であって、時刻ｔにおいて、前記物理ネットワーク上への前記仮想ネットワークの割り当てを表す行動を実行するエージェントｇ_ｋを複数のエージェントの中から選択する選択手段と、前記物理ネットワークのネットワーク構成情報と、前記物理ネットワークの物理リソース量を示すネットワーク観測情報と、前記ネットワークサービスのユーザ端末の通信行動によって発生した物理リソースの需要量を示すユーザ需要情報とを入力として、時刻ｔにおける状態ｓ_ｔを観測する観測手段と、将来にわたって受け取る報酬の総和の期待値を表す行動価値関数Ｑに基づいて、前記選択手段により選択されたエージェントｇ_ｋが取り得る前記行動の中から行動ａ_ｔ ^ｋを選択及び実行する割当手段と、前記割当手段により選択及び実行された行動ａ_ｔ ^ｋと、前記状態ｓ_ｔと、前記観測手段により観測された時刻ｔ＋１における状態ｓ_ｔ＋１とを用いて、時刻ｔにおける報酬ｒ_ｔを計算する報酬計算手段と、１≦ｊ≦ｔとして、前記行動ａ_ｊ ^ｋと前記状態ｓ_ｊと前記状態ｓ_ｊ＋１とを用いて、前記行動価値関数Ｑを更新する学習手段と、を有することを特徴とする。

仮想ネットワークの動的割当を効率的かつ高精度に実現することができる。

本実施形態に係るネットワーク制御装置を含むシステムの全体構成の一例を示す図である。本実施形態に係るネットワーク制御装置のハードウェア構成の一例を示す図である。本実施形態に係る制御部の機能構成の一例を示す図である。本実施形態に係る事前学習処理の一例を示すフローチャートである。本実施形態に係る動的ＶＮ割当処理の一例を示すフローチャートである。

以下、本発明の実施形態について図面を参照しながら詳細に説明する。本実施形態では、仮想ネットワークの動的割当を効率的かつ高精度に実現することができるネットワーク制御装置１００について説明する。

＜全体構成＞
まず、本実施形態に係るネットワーク制御装置１００を含むシステムの全体構成について、図１を参照しながら説明する。図１は、本実施形態に係るネットワーク制御装置１００を含むシステムの全体構成の一例を示す図である。

図１に示すように、本実施形態に係るネットワーク制御装置１００は物理ネットワーク４００と接続される。物理ネットワーク４００は電気通信事業者のネットワーク環境であり、例えば、サーバ装置１０と、転送装置２０と、ユーザ端末３０とが含まれる。

ネットワーク制御装置１００は、サービス提供者が構築した仮想ネットワーク（以降、単に「ＶＮ」とも表す。）を物理ネットワーク４００上に動的に割り当てるコンピュータ又はコンピュータシステムである（すなわち、ネットワーク制御装置１００は、ＮＦＶオーケストレータとして機能するコンピュータ又はコンピュータシステムである。）。ここで、ネットワーク制御装置１００は、制御部２００と、記憶部３００とを有する。

制御部２００は、物理ネットワーク４００のネットワーク状態（以降、単に「ＮＷ状態」とも表す。）と最適なＶＮ割当方法との関係をマルチエージェント深層強化学習により事前に学習しておくことで、仮想ネットワークの物理リソース需要（以降、「ＶＮ需要」とも表す。）に追従可能（つまり、ＶＮ需要の変動に追従可能）な動的ＶＮ割当を実現する。

ここで、ＮＷ状態とは、物理ネットワーク４００に含まれる各物理リソースの量（例えば、各サーバ装置１０のサーバ容量や各転送装置２０の容量、物理ネットワーク４００に含まれるリンクの容量）等のことである。また、仮想ネットワークの物理リソース需要とは、この仮想ネットワークによるネットワークサービスの実現に必要な物理リソースの需要量のことであり、例えば、トラヒック需要や仮想マシン需要（以降、単に「ＶＭ需要」とも表す。）等のことである。トラヒック需要とは、物理ネットワーク４００に含まれる或るリンクで必要なトラヒック量（つまり、データ量）のことである。ＶＭ需要とは、サーバ装置１０上に構築（配置）する必要があるＶＭ数のことである。

また、ＶＮ割当とは、例えば、サーバ装置１０上にＶＭを配置したり、ユーザ端末３０からＶＭまでの最適な経路を決定したりすること等である。ＶＮ割当は、このＶＮ割当を実現するための設定命令が制御部２００から各サーバ装置１０及び各転送装置２０に送信されることで行われる。

上述したＮＷ状態やＶＮ需要（つまり、トラヒック需要及びＶＭ需要）は、ネットワーク制御装置１００に入力されるネットワーク構成情報やネットワーク観測情報、ユーザ需要情報等から得られる。

ネットワーク構成情報とは、例えば、物理ネットワーク４００のネットワークトポロジー情報や物理リソースの制約条件（例えば、上述した物理リソースの量）等のことである。また、ネットワーク観測情報とは、例えば、物理ネットワーク４００を構成する各リンクのトラヒックを示すトラヒック情報と各サーバ装置１０のサーバ容量やＶＭ数を示すサーバ利用情報のことである。また、ユーザ需要情報とは、例えば、ユーザ端末３０のＶＮ需要（つまり、トラヒック需要及びＶＭ需要）を示す情報のことである。

記憶部３００は、制御部２００による事前学習や動的ＶＮ割当に必要な各種情報（例えば、ネットワーク構成情報やネットワーク観測情報、ユーザ需要情報等）を記憶する。

ここで、マルチエージェント深層強化学習とは、複数のエージェントを用いた深層強化学習のことである。本実施形態では、物理ネットワーク４００全体のＶＮ割当問題を複数のサブ問題に分割した上で、各サブ問題に対してエージェントを用意し、深層強化学習により事前学習を行う。より具体的には、物理ネットワーク４００全体に対するＶＮ需要を複数のグループに分割した上で、各グループに対してエージェントを用意し、これらのエージェントの各々を深層強化学習により事前学習を行う。これにより、ＶＮ数の増加やサーバ装置１０の台数の増加等に対して、事前学習に要する計算時間の増大を防止することが可能となる。言い換えれば、ＶＮ数やサーバ装置１０台数に対するスケール性を向上させることが可能となる。なお、ＶＮ割当問題は、最適化問題の一種であり、ＶＮＥ（Virtual Network Embedding）問題とも呼ばれる。

また、本実施形態では、各制御周期で行動可能なエージェントを１つに限定する。これにより、各制御周期におけるＶＮ割当量（例えば、ネットワーク機器の再設定やＶＭの移動等に関する変更回数や頻度等）を抑制することができ、制御周期の増加によるＶＮ割当精度の低下を防止することが可能となる。更に、エージェント間でＶＮ割当の競合が発生することによるＶＮ割当精度の低下を防止することも可能となる。

サーバ装置１０は、ネットワーク制御装置１００によって配置されるＶＭを実現するコンピュータ又はコンピュータシステムである。サーバ装置１０は、サーバ利用情報を収集して、収集したサーバ利用情報をネットワーク制御装置１００に送信する。また、サーバ装置１０は、ネットワーク制御装置１００によって配置されたＶＭが実現する機能に従ってトラヒックを処理し、トラヒックを発生させる。なお、以降では、複数のサーバ装置１０の各々を区別する場合は、サーバ装置１０のインデックスを右下に付与して、「サーバ装置１０_１」、「サーバ装置１０_２」等と表す。

転送装置２０は、トラヒックを転送するノードとして機能するネットワーク機器である。転送装置２０は、トラヒック情報を収集して、収集したトラヒック情報をネットワーク制御装置１００に送信する。また、転送装置２０は、経路情報に従ってトラヒックを処理する。経路情報とは、例えば、ユーザ端末３０とＶＭとの間の経路等を示す情報のことである。

ユーザ端末３０は、ユーザの通信行動（例えば、ネットワークサービスの利用開始操作等）により発生したトラヒックをサーバ装置１０等に送信するコンピュータである。また、ユーザ端末３０は、ユーザ需要情報をネットワーク制御装置１００に送信する。

＜マルチエージェント深層強化学習の構成＞
上述したように、本実施形態では、物理ネットワーク４００のＮＷ状態と最適なＶＮ割当方法との関係をマルチエージェント深層強化学習により事前に学習しておくことで動的ＶＮ割当を実現する。そこで、以降では、マルチエージェント深層強化学習の構成例について説明する。なお、本実施形態では、一例として、深層強化学習の１つである深層Ｑ学習又は深層Ｑネットワーク（ＤＱＮ：Deep Q-Network）と呼ばれる手法を用いるものとする。

本実施形態では、制御周期毎の各時刻をタイムステップとしてｔで表し、タイムステップｔ毎に事前学習及び動的ＶＮ割当を実行するものとする。ただし、事前学習では、次のタイムステップに遷移するにあたり、制御周期分の時間が実際に経過している必要はない。

このとき、本実施形態で用いる各記号を以下の表１及び表２に示すように定義する。

以降では、Ｍは２以上の整数、ＮはＭの倍数であるものとする。なお、ＮがＭの倍数でない場合は、ＮがＭの倍数となるようにＮ若しくはＭ又はその両方の値を適宜調整すればよい。

また、ＶＮ割当問題の制約条件及び目的関数として、最大リンク利用率Ｕ_ｔ ^Ｌと最大サーバ利用率Ｕ_ｔ ^Ｓとがそれぞれ０以上１以下であることを制約条件とし、ネットワーク利用効率Ｅ_ｔ ^ＮＷとＶＮ再割当回数とを目的関数とした。また、ネットワーク利用効率Ｅ_ｔ ^ＮＷを以下の式（１）で定義した。

すなわち、最大リンク利用率Ｕ_ｔ ^Ｌ及び最大サーバ利用率Ｕ_ｔ ^Ｓが減少する程、ネットワーク利用効率Ｅ_ｔ ^ＮＷが増加するようにした。

本実施形態では、深層強化学習の状態及び報酬はエージェント間で共通であるものとし、行動のみエージェント毎に異なるものとする。まず、タイムステップｔにおける状態ｓ_ｔを

と定義する。なお、トラヒック需要Ｄ_ｔ及びＶＭ需要Ｖ_ｔは、ユーザ需要情報から取得可能である。また、残余リンク容量Ｒ_ｔ ^ｌ及び残余サーバ容量Ｒ_ｔ ^ｓは、ネットワーク構成情報及びネットワーク観測情報から計算又は取得可能である。

次に、エージェントｇ_ｋの行動ａ_ｔ ^ｋはＶＮ割当であるものとする。ここで、或る１つのＶＮ需要に対するＶＮ割当は、１台のＶＭと、このＶＭの配置先のサーバ装置１０との組み合わせで決まり、当該ＶＮ需要に対応するユーザ端末３０から当該サーバ装置１０までの経路は一意に定まるものとする。また、エージェント数Ｍと同数のグループにＶＮ需要を分割し、ｋ番目のグループに属するＶＮ需要に対するＶＮ割当をエージェントｇ_ｋが行うものとする。したがって、エージェントｇ_ｋが行動ａ_ｔ ^ｋとして取り得るＶＮ割当（つまり、行動ａ_ｔ ^ｋの候補数）は、Ｎ／Ｍ個の各ＶＮ需要に対してＳ個のサーバ装置１０のうちのいずれかのサーバ装置１０にＶＭを配置する組み合わせの数Ｓ^Ｎ／Ｍとなる。

ここで、例えば、上記の非特許文献１に記載されている動的割当方法では、エージェントが行動ａ_ｔとして取り得る行動数はＳ^Ｎとなる。このため、本実施形態では、上記の非特許文献１に記載されている動的割当方法と比較して、各エージェントの学習に要する計算時間（つまり、計算コスト）を削減することが可能となる。また、本実施形態では、各タイムステップｔで行動可能なエージェント数を１つに限定することで、再割当されるＶＮ数を最大Ｎ／Ｍ個に限定することが可能となる。これにより、動的ＶＮ割当時（つまり、実制御時）における制御周期の増加によるＶＮ割当精度の低下を防止することが可能となる。なお、ＶＮ再割当とは、同一のＶＮに関してＶＮ割当の前後で物理リソースの位置が変わることを意味する（すなわち、本実施形態では、同一のＶＮに関してＶＮ割当の前後でＶＭが配置されるサーバ装置１０が異なる場合のことを意味する。）。

次に、タイムステップｔにおける報酬ｒ_ｔの設計指針として、本実施形態では、制約条件を満たさない場合は、大きな負の値を報酬ｒ_ｔとして与えるものとする。また、ＶＮ再割当が発生した場合は、ネットワーク利用効率Ｅ_ｔ ^ＮＷの改善度又は改悪度に応じた値を報酬ｒ_ｔとして与えるものとする。更に、不必要なＶＮ再割当の抑制を目的として、ネットワーク利用効率Ｅ_ｔ ^ＮＷが高い場合には、一律で負の値を報酬ｒ_ｔとして与えるものとする。これらの設計指針に基づいて、例えば、報酬ｒ_ｔを－１≦ｒ_ｔ≦１の範囲で以下のように定義する。

（１）Ｕ_ｔ ^Ｌ＞１又はＵ_ｔ ^Ｓ＞１である場合、ｒ_ｔ＝－１
（２）Ｕ_ｔ ^Ｌ＞０．９又はＵ_ｔ ^Ｓ＞０．９である場合、ｒ_ｔ←ｒ_ｔ－０．２
（３）ＶＮ再割当あり、かつ、「Ｕ_ｔ ^Ｌ＜０．６又はＵ_ｔ ^Ｓ＜０．６」である場合、ｒ_ｔ←ｒ_ｔ－０．２
（４）ＶＮ再割当ありである場合、ｒ_ｔ←ｒ_ｔ＋２（Ｅ_ｔ＋１ ^ＮＷ－Ｅ_ｔ ^ＮＷ）
（５）上記の（１）～（４）以外の場合、ｒ_ｔ＝０
なお、「ａ←ｂ」は、ａをｂで更新することを表す。

＜ネットワーク制御装置１００のハードウェア構成＞
次に、本実施形態に係るネットワーク制御装置１００のハードウェア構成について、図２を参照しながら説明する。図２は、本実施形態に係るネットワーク制御装置１００のハードウェア構成の一例を示す図である。

図２に示すように、本実施形態に係るネットワーク制御装置１００は、ハードウェアとして、外部Ｉ／Ｆ１０１と、ＲＡＭ（Random Access Memory）１０２と、ＲＯＭ（Read Only Memory）１０３と、プロセッサ１０４と、通信Ｉ／Ｆ１０５と、補助記憶装置１０６とを有する。これら各ハードウェアは、それぞれがバスＢを介して通信可能に接続されている。

外部Ｉ／Ｆ１０１は、外部装置とのインタフェースである。外部装置には、記録媒体１０１ａ等がある。ネットワーク制御装置１００は、外部Ｉ／Ｆ１０１を介して、記録媒体１０１ａの読み取りや書き込み等を行うことができる。

記録媒体１０１ａとしては、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

ＲＡＭ１０２は、プログラムやデータを一時保持する揮発性の半導体メモリである。ＲＯＭ１０３は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ＲＯＭ１０３には、例えば、ＯＳに関する設定情報や通信ネットワークに関する設定情報等が格納されている。

プロセッサ１０４は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等であり、ＲＯＭ１０３や補助記憶装置１０６等からプログラムやデータをＲＡＭ１０２上に読み出して処理を実行する演算装置である。

通信Ｉ／Ｆ１０５は、ネットワーク制御装置１００を物理ネットワーク４００に接続するためのインタフェースである。

補助記憶装置１０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等であり、各種プログラムやデータを格納する。補助記憶装置１０６に格納されているプログラムやデータには、例えば、ＯＳ、当該ＯＳ上で各種機能を実現するアプリケーションソフトウェア、制御部２００を実現する１以上のプログラム等がある。

なお、記憶部３００は、例えば、補助記憶装置１０６を用いて実現可能である。ただし、記憶部３００は、例えば、ネットワーク制御装置１００と通信ネットワークを介して接続された記憶装置やデータベースサーバ等により実現されていてもよい。

本実施形態に係るネットワーク制御装置１００は、図２に示すハードウェア構成を有することにより、後述する事前学習処理及び動的ＶＮ割当処理を実現することができる。なお、図２に示すハードウェア構成は一例であって、本実施形態に係るネットワーク制御装置１００は、他のハードウェア構成を有していてもよい。例えば、本実施形態に係るネットワーク制御装置１００は、複数のプロセッサ１０４を有していてもよいし、複数のメモリ装置（ＲＡＭ１０２やＲＯＭ１０３、補助記憶装置１０６等）を有していてもよい。また、例えば、本実施形態に係るネットワーク制御装置１００は、上記のハードウェアに加えて、ディスプレイ等の表示装置と、キーボードやマウス等の入力装置とを有していてもよい。

＜制御部２００の機能構成＞
次に、本実施形態に係る制御部２００の機能構成について、図３を参照しながら説明する。図３は、本実施形態に係る制御部２００の機能構成の一例を示す図である。

図３に示すように、本実施形態に係る制御部２００には、初期化部２０１と、選択部２０２と、観測部２０３と、割当部２０４と、報酬計算部２０５と、学習部２０６と、設定命令部２０７とが含まれる。なお、制御部２００は、例えば、補助記憶装置１０６に格納されている１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。

初期化部２０１は、事前学習において、各種パラメータの初期設定等を行う。初期設定対象のパラメータとしては、例えば、エージェント数ＭやＶＮ数Ｎ、リンクの総数Ｌ、サーバ装置１０の総数Ｓ、総タイムステップＴ等が挙げられる。

選択部２０２は、事前学習において、エージェント集合Ｇの中から、学習対象のエージェントｇ_ｋを選択する。また、選択部２０２は、動的ＶＮ割当において、エージェント集合Ｇの中から、行動するエージェントｇ_ｋを選択する。

観測部２０３は、事前学習及び動的ＶＮ割当において、タイムステップｔ毎に状態ｓ_ｔを観測する。なお、上記で定義したように、状態ｓ_ｔには、タイムステップｔにおけるトラヒック需要とＶＭ需要と残余リンク容量と残余サーバ容量とが含まれる。このため、観測部２０３は、ネットワーク構成情報やネットワーク観測情報、ユーザ需要情報を入力することで、状態ｓ_ｔを観測することができる。

割当部２０４は、事前学習及び動的ＶＮ割当において、選択部２０２により選択されたエージェントｇ_ｋの行動ａ_ｔ ^ｋを選択及び実行することで、ＶＮ割当を行う。

報酬計算部２０５は、事前学習において、報酬ｒ_ｔを計算する。なお、最大リンク利用率Ｕ_ｔ ^Ｌを得るために必要なリンク利用率ｕ_ｔ ^ｌは、ネットワーク構成情報及びネットワーク観測情報から計算又は取得可能である。同様に最大サーバ利用率Ｕ_ｔ ^Ｓを得るために必要なサーバ利用率ｕ_ｔ ^ｓは、ネットワーク構成情報及びネットワーク観測情報から計算又は取得可能である。

また、報酬計算部２０５は、ｓ_ｔとａ_ｔ ^ｋとｒ_ｔとｓ_ｔ＋１と対応付けてリプレイ記憶（Replay Memory）に格納する。リプレイ記憶は、例えば、ＲＡＭ１０２や補助記憶装置１０６を用いて実現可能である。なお、ｓ_ｔとａ_ｔ ^ｋとｒ_ｔとｓ_ｔ＋１と対応付けた組（ｓ_ｔ，ａ_ｔ ^ｋ，ｒ_ｔ，ｓ_ｔ＋１）は学習サンプルとも呼ばれる。

学習部２０６は、事前学習において、リプレイ記憶からランダムに選択した学習サンプル（ｓ_ｊ，ａ_ｊ ^ｋ，ｒ_ｊ，ｓ_ｊ＋１）を用いて、将来にわたって受け取る報酬ｒ_ｔが最大となるように行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ ^ｋ）を更新する。これにより、エージェントｇ_ｋが学習される。なお、行動価値関数は、将来にわたって受け取る報酬の総和（この総和は利得とも称される。）の期待値を表す。

設定命令部２０７は、動的ＶＮ割当において、割当部２０４が実行した行動ａ_ｔ ^ｋが表すＶＮ割当を実現するための設定命令をサーバ装置１０や転送装置２０等に送信する。これにより、当該ＶＮ割当を実現するように、各サーバ装置１０にＶＭが配置されたり、各転送装置２０の設定が変更されたりする。

＜事前学習処理＞
次に、動的ＶＮ割当を行う前に実行される事前学習処理について、図４を参照しながら説明する。図４は、本実施形態に係る事前学習処理の一例を示すフローチャートである。なお、図４のステップＳ１０１～ステップＳ１０６は、エピソードｅ＝０からｅ＝Ｅまで繰り返し実行される。ただし、所定の終了条件（例えば、ｒ_ｔ＝－１）となった場合には事前学習処理を終了する。

ステップＳ１０１：まず、初期化部２０１は、各種パラメータの初期設定を行う。なお、このとき、初期化部２０１は、事前学習に用いるネットワーク観測情報及びユーザ需要情報を生成し、記憶部３００に格納してもよい。

以降のステップＳ１０２～ステップＳ１０７は、タイムステップｔ＝１からｔ＝Ｔまで繰り返し実行される（すなわち、エピソード毎に、ステップＳ１０２～ステップＳ１０７がＴ回繰り返し実行される。）。以降では、或るタイムステップｔにおけるステップＳ１０２～ステップＳ１０７について説明する。

ステップＳ１０２：選択部２０２は、エージェント集合Ｇの中から、学習対象のエージェントｇ_ｋを選択する。例えば、選択部２０２は、ｔをＭで割った余りをｋとする（つまり、ｋ＝ｔｍｏｄＭ）ことで、学習対象のエージェントｇ_ｋを選択すればよい。

ステップＳ１０３：観測部２０３は、タイムステップｔにおけるネットワーク構成情報やネットワーク観測情報、ユーザ需要情報を入力することで、状態ｓ_ｔを観測する。なお、各タイムステップｔでネットワーク構成情報が不変である場合、ネットワーク構成情報は初回のみ（つまり、ｔ＝１のときのみ）入力されればよい。

ステップＳ１０４：次に、割当部２０４は、上記のステップＳ１０２で選択されたエージェントｇ_ｋの行動ａ_ｔ ^ｋを選択及び実行する。このとき、割当部２０４は、１－εの確率でランダムに行動ａ_ｔ ^ｋを選択し、１－εの確率で行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ ^ｋ）が最大となる行動ａ_ｔ ^ｋを選択する。これにより、選択及び実行された行動ａ_ｔ ^ｋが表すＶＮ割当が行われ、ＶＭ配置Ａ_ｔ＋１が更新される。なお、Ａ_ｔ＋１＝｛Ａ_ｔ＋１ ^ｉ｝は、例えば、各ＶＮに対してＶＭが配置されているサーバ装置１０のインデックスを表す。

ステップＳ１０５：次に、観測部２０３は、タイムステップｔ＋１におけるネットワーク構成情報やネットワーク観測情報、ユーザ需要情報を入力することで、状態ｓ_ｔ＋１を観測する。

ステップＳ１０６：次に、報酬計算部２０５は、状態ｓ_ｔと行動ａ_ｔ ^ｋと状態ｓ_ｔ＋１とを用いて、報酬ｒ_ｔを計算する。また、報酬計算部２０５は、学習サンプル（ｓ_ｔ，ａ_ｔ ^ｋ，ｒ_ｔ，ｓ_ｔ＋１）をリプレイ記憶に格納する。

ステップＳ１０７：そして、学習部２０６は、リプレイ記憶からランダムに選択した学習サンプル（ｓ_ｊ，ａ_ｊ ^ｋ，ｒ_ｊ，ｓ_ｊ＋１）を用いて、将来にわたって受け取る報酬ｒ_ｔが最大となるように行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ ^ｋ）を更新する。これにより、エージェントｇ_ｋが学習される。なお、学習部２０６は、深層Ｑ学習又は深層Ｑネットワーク等に用いられる既知の更新式により行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ ^ｋ）を更新すればよい。

以上により、本実施形態に係るネットワーク制御装置１００では、将来にわたって受け取る報酬ｒ_ｔが最大となるように（すなわち、ネットワーク利用効率を高くしつつ、かつ、ＶＮ再割当の回数が少なくなるように）、エージェントｇ_ｋを学習することができる。しかも、本実施形態に係るネットワーク制御装置１００では、複数のＶＮ需要をＭ個のグループに分割し、ｋ番目のグループに属するＶＮ需要に対するＶＮ割当をエージェントｇ_ｋにより学習する。これにより、ＶＮ数の増加やサーバ装置１０の台数の増加等に対する計算時間の増大を防止することが可能となる。

＜動的ＶＮ割当処理＞
次に、ネットワークサービス提供中に実行される動的ＶＮ割当処理について、図５を参照しながら説明する。図５は、本実施形態に係る動的ＶＮ割当処理の一例を示すフローチャートである。以降のステップＳ２０１～ステップＳ２０４は、制御周期毎（つまり、タイムステップｔ毎）に繰り返し実行される。

ステップＳ２０１：まず、選択部２０２は、エージェント集合Ｇの中から、行動するエージェントｇ_ｋを選択する。例えば、選択部２０２は、ｔをＭで割った余りをｋとする（つまり、ｋ＝ｔｍｏｄＭ）ことで、行動するエージェントｇ_ｋを選択すればよい。

ステップＳ２０２：次に、観測部２０３は、タイムステップｔにおけるネットワーク構成情報やネットワーク観測情報、ユーザ需要情報を入力することで、状態ｓ_ｔを観測する。なお、各タイムステップｔでネットワーク構成情報が不変である場合、ネットワーク構成情報は初回のみ（つまり、ｔ＝１のときのみ）入力されればよい。

ステップＳ２０３：次に、割当部２０４は、上記のステップＳ２０１で選択されたエージェントｇ_ｋの行動ａ_ｔ ^ｋを選択及び実行する。このとき、割当部２０４は、行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ ^ｋ）が最大となる行動ａ_ｔ ^ｋを選択する。

ステップＳ２０４：そして、設定命令部２０７は、上記のステップＳ２０３で実行された行動ａ_ｔ ^ｋが表すＶＮ割当を実現するための設定命令をサーバ装置１０や転送装置２０等に送信する。これにより、各サーバ装置１０にＶＭが配置されたり、各転送装置２０の設定が変更されたりして、上記のステップＳ２０３で実行された行動ａ_ｔ ^ｋが表すＶＮ割当が実現される。

以上により、本実施形態に係るネットワーク制御装置１００では、事前に学習されたエージェント集合Ｇにより、各制御周期で効率的なＶＮ割当（すなわち、ネットワーク利用効率を高くしつつ、かつ、ＶＮ再割当の回数が少なくなるようなＶＮ割当）を実現することができる。しかも、本実施形態に係るネットワーク制御装置１００では、各制御周期で行動可能なエージェントを１つに限定することで、各制御周期で再割当可能なＶＮ数が限定され、制御周期の増加によるＶＮ割当精度の低下を防止することが可能となる。また、エージェント間でＶＮ割当の競合が発生することによるＶＮ割当精度の低下を防止することも可能となる。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、他の技術との組み合わせ等が可能である。

１０サーバ装置
２０転送装置
３０ユーザ端末
１００ネットワーク制御装置
１０１外部Ｉ／Ｆ
１０１ａ記録媒体
１０２ＲＡＭ
１０３ＲＯＭ
１０４プロセッサ
１０５通信Ｉ／Ｆ
１０６補助記憶装置
２００制御部
２０１初期化部
２０２選択部
２０３観測部
２０４割当部
２０５報酬計算部
２０６学習部
２０７設定命令部
３００記憶部
４００物理ネットワーク

Claims

複数のネットワークサービスをそれぞれ提供するための複数の仮想ネットワークをマルチエージェント深層強化学習により物理ネットワーク上に動的に割り当てる制御装置であって、
時刻ｔにおいて、前記複数の仮想ネットワークのうち所定のグループに属する前記仮想ネットワークを前記物理ネットワーク上へ割り当てることを表す行動を実行するエージェントｇ_ｋとして、複数のエージェントの中から前記所定のグループに対応するエージェントを選択する選択手段と、
前記物理ネットワークのネットワーク構成情報と、前記物理ネットワークの物理リソース量を示すネットワーク観測情報と、前記ネットワークサービスのユーザ端末の通信行動によって発生した物理リソースの需要量を示すユーザ需要情報とを入力として、時刻ｔにおける状態ｓ_ｔを観測する観測手段と、
将来にわたって受け取る報酬の総和の期待値を表す行動価値関数Ｑに基づいて、前記選択手段により選択されたエージェントｇ_ｋが取り得る前記行動の中から行動ａ_ｔ ^ｋを選択及び実行する割当手段と、
前記割当手段により選択及び実行された行動ａ_ｔ ^ｋと、前記状態ｓ_ｔと、前記観測手段により観測された時刻ｔ＋１における状態ｓ_ｔ＋１とを用いて、時刻ｔにおける報酬ｒ_ｔを計算する報酬計算手段と、
１≦ｊ≦ｔとして、前記行動ａ_ｊ ^ｋと前記状態ｓ_ｊと前記状態ｓ_ｊ＋１とを用いて、前記行動価値関数Ｑを更新する学習手段と、
を有することを特徴とする制御装置。
前記仮想ネットワークの総数をＮ個、前記エージェントの総数をＭ個として、
前記選択手段は、
Ｎ個の前記仮想ネットワークがＮ／Ｍ個ずつ分割されたグループのうちのｋ番目のグループに属する前記仮想ネットワークを割り当てることを表す行動を実行するエージェントｇ_ｋを選択する、ことを特徴とする請求項１に記載の制御装置。
前記選択手段は、
ｋ＝ｔｍｏｄＭとして、前記エージェントｇ_ｋを選択する、ことを特徴とする請求項２に記載の制御装置。
前記報酬計算手段は、
更に、前記行動ａ_ｊ ^ｋと前記状態ｓ_ｊと前記状態ｓ_ｊ＋１との組をリプレイ記憶に格納し、
前記学習手段は、
前記ｊをランダムに選択し、前記リプレイ記憶に格納されている前記組のうち、前記ｊに対応する組に含まれる前記行動ａ_ｊ ^ｋと前記状態ｓ_ｊと前記状態ｓ_ｊ＋１とを用いて、前記行動価値関数Ｑを更新する、ことを特徴とする請求項１乃至３の何れか一項に記載の制御装置。
前記報酬ｒ_ｔは、
前記物理ネットワークに含まれるサーバの利用率と前記物理ネットワークに含まれるリンクの利用率とで定義されるネットワーク利用効率が高いほど高い値となり、かつ、前記仮想ネットワークに対して割り当てられる前記物理リソースの変更回数が多いほど高い値となる、ことを特徴とする請求項１乃至４の何れか一項に記載の制御装置。
複数のネットワークサービスをそれぞれ提供するための複数の仮想ネットワークをマルチエージェント深層強化学習により物理ネットワーク上に動的に割り当てるコンピュータが、
時刻ｔにおいて、前記複数の仮想ネットワークのうち所定のグループに属する前記仮想ネットワークを前記物理ネットワーク上へ割り当てることを表す行動を実行するエージェントｇ_ｋとして、複数のエージェントの中から前記所定のグループに対応するエージェントを選択する選択手順と、
前記物理ネットワークのネットワーク構成情報と、前記物理ネットワークの物理リソース量を示すネットワーク観測情報と、前記ネットワークサービスのユーザ端末の通信行動によって発生した物理リソースの需要量を示すユーザ需要情報とを入力として、時刻ｔにおける状態ｓ_ｔを観測する観測手順と、
将来にわたって受け取る報酬の総和の期待値を表す行動価値関数Ｑに基づいて、前記選択手順で選択されたエージェントｇ_ｋが取り得る前記行動の中から行動ａ_ｔ ^ｋを選択及び実行する割当手順と、
前記割当手順で選択及び実行された行動ａ_ｔ ^ｋと、前記状態ｓ_ｔと、観測された時刻ｔ＋１における状態ｓ_ｔ＋１とを用いて、時刻ｔにおける報酬ｒ_ｔを計算する報酬計算手順と、
１≦ｊ≦ｔとして、前記行動ａ_ｊ ^ｋと前記状態ｓ_ｊと前記状態ｓ_ｊ＋１とを用いて、前記行動価値関数Ｑを更新する学習手順と、
を実行することを特徴とする制御方法。
コンピュータを、請求項１乃至５の何れか一項に記載の制御装置における各手段として機能させるためのプログラム。