JP7388634B2

JP7388634B2 - 無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム

Info

Publication number: JP7388634B2
Application number: JP2020122301A
Authority: JP
Inventors: 笑子篠原; 保彦井上; 裕介淺井; 泰司鷹取; 啓史大関; 義哲成末; 博之森川
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2023-11-29
Anticipated expiration: 2040-07-16
Also published as: JP2022018880A

Description

この発明は、無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラムに係り、特に、多段階評価の学習を用いて通信状態の最適化を図る無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラムに関する。

より具体的には、本発明は、異なる無線通信システムが混在いして干渉し合う環境において、通信の最適化を図るものである。ここでは、各々の無線通信システムに異なる要求条件が課される場合に、要求条件の夫々を考慮した最適化が実施される。この最適化は、１つないし複数の無線通信システムに対して、機械学習や強化学習など、計算機を用いた学習により実行される。

無線LANは、免許不要帯において廉価に利用できる無線通信システムである。このため、その普及は急激に進み、多数の無線LAN端末が同じエリア内に混在する事態が生じている。その結果、無線LAN端末同士が互いに干渉し合うことが課題となっている。このような課題を受けて、無線LAN端末同士の干渉の影響を最小限にして、個々の、または全体のシステム容量を拡大するための技術が多数提案されている。

例えば図１は、無線通信端末１～Ｎが、互いに干渉しあう無線LAN基地局（AP：Access Point）である例を示している。尚、図１の下段に示す無線通信端末Ｎ＋１～Ｎ＋Ｍは、上記のAPと通信を確立するスマートフォン等のユーザ端末である。この例では、APとして機能する無線通信端末１～Ｎの夫々が、それらの周辺における干渉情報や、無線通信端末Ｎ＋１～Ｎ＋Ｍとの接続成否の情報を取得し、無線環境情報として制御サーバ１０へ送信する。

制御サーバ１０は、無線通信端末１～Ｎを含むAP群のスループットが最大となるように周波数チャネルや送信電力値の割り当てを算出し、その結果を制御情報として各APへ返送する。

ところで、無線LANを使用するアプリケーションやデバイスでは、利用シーンに応じて、重要視するべき項目が異なることがある。例えば、IoTセンサを含む無線通信システム等では、通信速度は重要ではない。一方で、エリア内に多数のIoTセンサを取り付ける場合は、当該エリア内で確立可能な通信の数を増やすことは重要である。

そのため、システム容量の拡大を目指すのではなく、狭帯域であっても干渉が少ない周波数チャネルを選択することが必要になる。また、広範囲に通信したい場合には、他の無線通信システムからの干渉を重視するのではなく、他の無線通信システムに影響を及ぼさない範囲で送信電力を最大化する制御が必要になる。このように、使用する無線通信システムのアプリケーションによって、要求される制御方針は異なる。

特に、現在日本国内でRFIDやIoT向けに開放されている９２０MHｚ帯には複数の無線通信システムが混在している。具体的には、この帯域は、例えば下記のようなシステムで利用されている。
１．位置情報や温度などのセンサ情報を定期的に伝送する無線通信システム
２．監視カメラを使用して動画を伝送する無線通信システム
３．山間部や海洋などの広域な範囲でネットワーク構築が必要な無線通信システム

これらの無線通信システムは、夫々異なる要求条件を持っていると同時に、同じ周波数チャネル上で混在することが想定されている。従って、これらに対する制御情報は、同じ周波数リソース上で混在することを前提として算出する必要がある。

図１に示す無線通信システムの構成例では、複数の無線通信端末１～Ｎが、互いに干渉しあう環境で制御サーバ１０に接続されている。また、無線通信端末１～Ｎは、無線通信を用いて他の無線通信端末Ｎ＋１～Ｎ＋Ｍとデータ通信することができる。

当該システム構成では、無線通信端末１～Ｎの夫々が、無線環境情報を制御サーバ１０に送信する。無線環境情報とは、例えば無線LAN通信の場合は、SSIDや、チャネル使用率などの周波数チャネルの利用情報のほか、無線通信端末で設定されているパラメータを意味する。このパラメータには、使用中の周波数チャネル、チャネル帯域幅、送信電力値などが含まれる。無線環境情報は、無線通信端末１～Ｎが、夫々の周辺に対してキャリアセンスを実施して取得する。

従来の方式では、制御サーバ１０は、無線環境情報を収集した後、全ての無線通信端末１～Ｎが、同じ仕様であり、かつ同様に通信容量を必要としていると仮定したうえで、最適化計算を実施する。最適化計算は、例えば、周波数チャネルの位置や幅、送信電力について行われる。計算の結果は、制御情報として制御サーバ１０から無線通信端末１～Ｎに送信される。制御情報を受け取った無線通信端末１～Ｎは、その制御情報に従って該当設定値を変更する。

制御が定期的に、または何らかのトリガに起因して実行される場合は、初期値算出の手法に加え、周波数チャネルの利用情報などの更新された情報をもとに、再度最適パラメータが算出される。そして、その算出により制御情報が決定されて無線通信端末１～Ｎの夫々に送信され。

図２は、従来の制御例についてのフローチャートである。Ｓ１００では、ＡＰとして機能する無線通信端末１～Ｎ夫々の無線環境情報が収集される。

Ｓ１０２では、収集された情報をもとに最適パラメータが算出される。従来の制御では、無線通信端末１～Ｎの全てについて同様の通信容量が必要だと判断される。このため、全ての無線通信端末１～Ｎに対して同じ評価関数が使用され、繰り返し計算や遺伝的アルゴリズムなどのヒューリスティックな手法により最適と考えられる無線通信パラメータが算出される。

算出されたパラメータ情報は、制御情報として無線通信端末１～Ｎに送信される（Ｓ１０４）。

以後、制御トリガの発生が認められるまで（Ｓ１０６）、制御終了が判定されない限り（Ｓ１０８）、待機の処理が採られる（Ｓ１１０）。そして、制御トリガが発生すれば、Ｓ１００以降の処理が再び実行される。ただし、ヒューリスティックな手法だけでは複数の無線通信システムの環境や制御情報を十分に考慮することが難しいため、機械学習や強化学習を使用した最適化も提案されている。

Liang, Le et al., "Multi-Agent Reinforcement Learning for Spectrum Sharing in Vehicular Networks", 2019 IEEE 20th International Workshop on Signal ProcessingAdvances in Wireless Communications (SPAWC), 1-5, 2019. Cheng Wu, Kaushik Chowdhury, Marco Di Felice, and Waleed Meleis, "Spectrum management of cognitive radio using multi-agent reinforcement learning", In Proceedings of the 9th International Conference on Autonomous Agents and Multiagent Systems: Industry track (AAMAS ’10), 1705-1712, 2010.

多様な通信デバイスや無線通信を利用するサービス・アプリケーションに関して、無線通信リソースを最適化するために、繰返し計算や機械学習を取り入れた手法が提案されている。これらの手法は、全ての無線通信システムが、通信容量の拡大など、統一された目的を持つことを前提としている。

しかしながら、実際には、複数の異なる無線通信システムが混在する環境下で、各々のシステムに同じ要求条件が課されるとは限らない。つまり、現実には、最適化の目的或いは目標がシステム毎に異なる事態が生じ得る。単一的な最適化を目指す従来の手法は、そのような事態に対して不十分である。この場合、無線デバイスの夫々に対する要求条件、或いは利用シーンの夫々に応じた要求条件が反映された最適化を実現することが必要になる。

本発明は、複数の異なる制約条件、或いは複数の異なる要求条件が課された複数の無線通信システムが、同じ環境の中に干渉しながら混在する状況において、無線通信システムの設定パラメータや利用条件を、計算機を使用した学習を用いて算出する無線通信システムの最適化方法等を提供することを目的とする。

第１の発明は、上記の目的を達成するため、異なる複数の無線通信システムが混在する無線通信環境において実行される無線通信システムの最適化方法であって、前記複数の無線通信システムに属する無線通信端末から、無線通信に関する状態を含む無線環境情報を検出するステップと、前記複数の無線通信システムの夫々に課される条件に対応して準備されたエージェントの夫々に、前記無線環境情報を提供するステップと、前記エージェントの夫々に、前記条件および前記無線環境情報を適用させた強化学習を計算機に実施させるステップと、前記複数の無線通信システムの夫々について、前記無線通信環境の下での最適な制御パラメータを、前記強化学習の結果に基づいて計算機に算出させるステップと、前記制御パラメータを、対応する無線通信システムに属する前記無線通信端末に提供するステップと、を含むことが望ましい。

また、第２の発明は、異なる複数の無線通信システムが混在する無線通信環境において動作する無線通信システムであって、前記複数の無線通信システムから無線環境情報を受け取ると共に、当該複数の無線通信システムに制御情報を提供する制御サーバを備え、当該制御サーバは、前記複数の無線通信システムに属する無線通信端末から、無線通信に関する状態を含む無線環境情報を検出する処理と、前記複数の無線通信システムの夫々に課される条件に対応して準備されたエージェントの夫々に、前記無線環境情報を提供する処理と、前記エージェントの夫々に前記条件および前記無線環境情報を適用させた強化学習を実施する処理と、前記複数の無線通信システムの夫々について、前記無線通信環境の下での最適な制御パラメータを、前記強化学習の結果に基づいて算出する処理と、前記制御パラメータを、対応する無線通信システムに属する前記無線通信端末に提供する処理と、を実行することが望ましい。

また、第３の発明は、複数の無線通信システムから無線環境情報を受け取ると共に当該複数の無線通信システムに制御情報を提供する制御サーバに実装される無線通信システム用プログラムであって、当該制御サーバに、前記複数の無線通信システムに属する無線通信端末から、無線通信に関する状態を含む無線環境情報を検出する処理と、前記複数の無線通信システムの夫々に課される条件に対応して準備されたエージェントの夫々に、前記無線環境情報を提供する処理と、前記エージェントの夫々に前記条件および前記無線環境情報を適用させた強化学習を実施する処理と、前記複数の無線通信システムの夫々について、前記複数の無線通信システムが動作している無線通信環境の下での最適な制御パラメータを、前記強化学習の結果に基づいて算出する処理と、前記制御パラメータを、対応する無線通信システムに属する前記無線通信端末に提供する処理と、を実行させるものであることが望ましい。

本発明によれば、無線通信環境の中に、異なる複数の無線通信システムが混在する場合に、無線通信システムに課される条件毎に強化学習のためのエージェントが準備される。そして、エージェントの夫々に対応する条件を適用させて強化学習を進めることができる。このため、本発明によれば、複数の無線通信システムが同じ環境の中に干渉しながら混在する状況において、無線通信システムの設定パラメータや利用条件を、夫々の条件毎に最適化することができる。

無線通信システムの構成例を示す図である。無線通信システムの制御例のフローチャートである。従来の強化学習のモデル例を説明するための図である。本発明の実施の形態１で実施される強化学習のモデルの例を説明するための図である。図４に示すモデルを適用する環境の一例を説明するための図である。図５に示す環境で許容されるアグリゲーションの態様を説明するための図である。従来の方式により決定されたチャネル割り当ての例を示す図である。本発明の実施の形態１の方式により決定されたチャネル割り当ての例を示す図である。本発明の実施の形態２で実施される強化学習のモデルの例を説明するための図である。

実施の形態１．
［実施の形態１の構成］
本発明の実施形態１の無線通信システムは、図１に示す構成例により実現することができる。図１において、中段に示す無線通信端末１～Ｎは、夫々Access Point（AP）として機能する。これらは、図１の下段に示す無線通信端末Ｎ＋１～Ｎ＋Ｍと通信することができる。無線通信端末Ｎ＋１～Ｎ＋Ｍは、スマートフォン、IoT用のセンサ、スマートメータ等で構成されている。このように、図１に示す構成には、同じ周波数リソースを共用するが、規格や仕様が異なる複数の無線通信システムが含まれている。

本実施形態の無線通信システムは、制御サーバ１０を備えている。制御サーバ１０は、通信インターフェース、プロセッサユニット、メモリ等のハードウェアを備えている。制御サーバ１０は、これらのハードウェアが、メモリ内に格納されているプログラムに従って処理を進めることにより、後述する機能を実現する。

制御サーバ１０は、APとして機能する無線通信端末１～Ｎに対して、制御情報を提供することができる。制御情報には、例えば、利用可能な周波数リソースや送信電力等の情報が含まれている。一方、無線通信端末１～Ｎは、制御サーバ１０に対して無線環境情報を送信することができる。無線環境情報には、無線通信端末１～Ｎ夫々の周辺における干渉情報や、無線通信端末Ｎ＋１～Ｎ＋Ｍとの接続成否の情報が含まれている。

また、制御サーバ１０には、無線環境情報等に基づいて、制御情報に含める各種パラメータを最適化するための学習機能と、それら各種パラメータを、その学習の結果に基づいて決定する機能とが備わっている。

［強化学習の概要］

本実施形態において、制御情報に含める各種パラメータの最適化には、強化学習が用いられる。図３は、一般的な強化学習のモデル図を示す。図３に示すモデルには、学習を行う対象としてエージェント１２が存在する。エージェント１２は、事象の観測タイミングをｔとして、一意な環境１４の中で、現在の状態Ｓ(ｔ)および報酬Ｒ(ｔ)から行動Ａ(ｔ＋１)を算出して実行する。その結果、状態Ｓ(ｔ＋１)が実現される。この状態Ｓ(ｔ＋１)から、行動を評価する報酬Ｒ(ｔ＋１)を得て、次の行動が算出される。

以下の説明では、ｓおよびＳが状態、ａおよびＡが行動、ｒおよびＲが報酬を夫々表すものとする。ここで、小文字は個々のエージェント（最適化対象）に対するパラメータ、大文字はその集合（複数のエージェント）に対するパラメータであることを意味する。また、各パラメータの添え字ｔは、そのパラメータが、観測タイミングｔにおける値であることを示し、Ｓｔ，Ａｔ，ＲｔはそれぞれＳ(ｔ)，Ａ(ｔ)，Ｒ(ｔ)と同じであるものとする。

図３に示す強化学習は、以下のステップの繰り返しにより進められる。
１．エージェント１２は、環境１４から状態Ｓ(ｔ)と報酬Ｒ(ｔ)を受け取り、方策πに基づいて決定した行動Ａ(ｔ)を環境１４に返す。
２．環境１４は、エージェント１２から受け取った行動Ａ(ｔ)と現在の状態Ｓ(ｔ)とに基づいて次の状態Ｓ(ｔ＋１)に変化し、遷移後の状態Ｓ(ｔ＋１)と報酬Ｒ(ｔ＋１)をエージェント１２に提供する。尚、報酬Ｒは、その直前の行動Ａの良し悪しを示すスカラー量である。

ある状態Ｓに対するエージェントの行動がＡであるとした場合、現時点から無限の未来までに得ることのできる報酬Ｒの総和、つまり収益Ｇは、次式のようになる。

但し、γは０≦γ≦１であり、未来の報酬の影響をどの程度収益として評価するかを調整するパラメータである。

強化学習によるＱ学習では、行動ａの価値が以下の関数で評価される。

但し、Ｅは期待値を示す関数である。また、Ｑ^πは、状態ｓから行動ａをとるエージェントが方策πに従って行動をとっていった場合の期待値を表す価値関数（以下、「Ｑ関数」とする）である。

図３に示す強化学習は、このＱ関数を最大化するように進められる。この学習は、例えば、状態ｓで行動ａを行ったときの収益Ｇを推定するＱ関数を、次式のアルゴリズムで求めることにより進めることができる。

ここで、ｐは学習率と呼ばれるパラメータで、機械学習の設計者が決める代数である。通常は１未満の小さな値に設定される。また、maxQは、理想的に取得すると考えられるＱ関数の最大値を示す。Q関数の学習は、各時間ｔごとに、次の時間ｔ＋１に取る行動によって得られるＱ値を全て見積もり、その中で最大のものを用いてQ 値を更新するというものである。

［実施の形態１の特徴］
図４は、本実施形態の無線通信システムにおいて実施される強化学習のモデルを示す。本実施形態では、条件の異なる複数の無線通信システムを対象とした最適化が図られる。複数の無線通信システムは、夫々の条件に基づいてグループ化することができる。図４に示すモデルでは、３つのグループが存在し、グループ毎にエージェントが存在している。

図４に示すエージェント１２－１，１２－３，１２－３は、夫々のグループに属するユーザｉの行動を評価する。例えば、エージェント１２－１は、グループ１に含まれるユーザｉの状態Ｓから、報酬Ｒを計算し、行動Ａを計算することができる。また、エージェント１２－２，１２－３は、夫々に属するユーザｉの状態Ｓから、報酬Ｒを計算して行動Ａを決定する。

図４に示す３つのエージェント１２－１，１２－２，１２－３は、夫々に提供される報酬Ｒおよび状態Ｓに基づいて、夫々異なる行動Ａを出力することがある。そして、図４に示すモデルでは、同一の環境１４から、エージェント１２－１，１２－２，１２－３の夫々に対して、異なる報酬Ｒ並びに異なる状態Ｓが提供されることがある。

以下、図５および図６を参照して、同じ無線通信規格を満たす４つの異なる無線通信端末が存在する場合を例にして説明を続ける。図５は、本例で制御対象となる４つの端末についての要求条件等を整理して表した図である。また、図６は、本例で許容されるアグリゲーションの例を示す。

本例では、全ての端末への周波数リソースの割り当て方（周波数チャネル位置および周波数チャネル幅）が制御される。周波数リソースとしては、チャネル１～４の４つの単位チャネルが存在する。これらのチャネルは、２つまたは４つをアグリゲーションして使用することができる。

また、４つの無線通信端末に対する要求条件は、各々以下の通りである。
１．無線通信端末１については、センサネットワークで親機として利用するため、「多数の端末（センサ）からの上り送信成功率の最大化」が要求条件となる。
２．無線通信端末２については、広域センサネットワークで利用するため、「伝送到達距離の最大化」が要求条件となる。
３．無線通信端末３および４については、データ配信で親機として使用するため、「配下の端末への下りスループットの最大化」が要求条件となる。

尚、夫々の無線通信端末には、上記の要求条件の他にも、当然ながら幾つかの要求条件が課される。上記の要求条件は、夫々の無線通信端末に要求される幾つかの条件の中で、夫々の性質に応じて最も優先されるべき条件である。

無線通信端末１をエージェント１、無線通信端末２をエージェント２、無線通信端末３および４をエージェント３とした場合、各々の報酬の計算は、下記のように設定することができる。

エージェント１の要求条件は、上記の通り「多数端末からの上り送信成功率の最大化」である。従って、エージェント１は、無線通信端末１の配下で上り通信を実施する送信端末の送信成功率が最大化されるように行動Ａを決定する。本例では、全ての端末が無LANでキャリアセンスを実施できるものとする。この場合、送信成功率は次式により表すことができる。

但し、上記の式中に示すＮは、同じチャネル内に存在する送信端末の総数である。ここで、上りトラヒックについては、同じチャネル内の全ての親機の配下にある端末が送信端末となる。また、下りトラヒックの場合は、同じチャネル内の全ての親機が送信端末となる。そして、上記のＮは、上りトラヒックの送信端末の数と、下りトラヒックの送信端末の数との和である。また、上記式中のτは、各送信端末が送信を行う確率である。この確率は、上記の総数Ｎに基づいて計算することができる。更に、上記式中のｎ’は制御対象となっている親機に接続される送信端末の数である。

エージェント２の要求条件は、「伝送到達距離の最大化」である。このため、エージェント２は、伝搬特性、電力密度、フレームエラー率などを考慮する。複数の周波数チャネルから選択可能である場合、伝搬特性を考慮した報酬、即ち伝送到達距離Ｄは下記の数式で表現できる。

但し、上記式中のＬは、伝搬による減衰を求める関数であり、Ｌ^－１はその逆関数である。また、ｆｃは伝送信号の中心周波数であり、Ｂは帯域幅である。

エージェント３については、「配下の端末への下りスループットの最大化」が要求条件である。このため、エージェント３は、例えば、エージェント１の場合と同様に、全ての端末が無線LANでキャリアセンスを実施できるとした場合のスループットを評価する。この場合、そのスループットは次式により算出することができる。

但し、上記式中のＥ[Ｌ]は、送信成功時のビット数平均であり、Ｅ[Ｉ]は平均待ち時間である。また、式中のＴｓは平均送信フレーム時間であり、Ｔｃは衝突で浪費する平均時間である。

従来の方式による最適化の制御は、全ての端末について等しくスループットが最大化されることを目指して実施される。この場合、端末間の干渉が生じないようにチャネルの割り当てが決定される。より具体的には、図７に示すように、無線通信端末１～４に対して、夫々一つずつチャネルが割り当てられる。つまり、下りの送信が主となる無線通信端末３および４については、送信端末間の衝突が殆どないにも関わらず、狭い帯域幅で周波数リソースが割り当てられる。その結果、無線通信端末３および４のスループットは、本来実現できるスループットより低いものとなってしまう。

これに対して、本実施形態では、チャネルの割り当てが、例えば図８に示すように決定される。ここでは、無線通信端末１に対してチャネル２が、無線通信端末２に対してチャネル１が割り当てられている。無線通信端末１，２は、センサネットワークの構成要素であるため、外部からの干渉の影響を受けやすい。このため、これらの端末１，２には、狭い帯域幅の単位チャネルが割り当てられる。更に、無線通信端末２には、広域での通信が求められる。信号の伝搬ロスは、通信の中心周波数が低いほど小さくなる。無線通信端末２に割り当てられたチャネル１は、最も周波数が低く、信号の伝搬ロスが最小となると考えられるチャネルである。

一方、スループットの最大化が重要である無線通信端末３および４に対しては、単位チャネルを２つアグリゲーションしたチャネル３＋４が割り当てられる。この割り当てによれば、無線通信端末３と４は互いに干渉することになる。しかし、それらは何れも下りトラヒックが主たるトラヒックであるため、送信端末は主に親機の２台となる。この場合、同じ周波数チャネル内で共存による衝突が生ずる確率は低い。このため、２台の端末が同じチャネル内で共存していても、互いが常にチャネルを取り合うようなシナリオでなければ、アグリゲーションにより帯域幅を大きくすることで、瞬時スループットが増大する効果が見込める。

以上説明した通り、本実施形態の無線通信システムによれば、要求条件等の異なる複数の無線通信端末に対して、それぞれ異なるエージェントを設定して最適化のための強化学習を進めることができる。そして、夫々の端末の行動を、夫々に対する要求条件等に応じて、個別独立に最適化することができる。このため、本実施形態の無線通信システムによれば、要求条件等の異なる異種の端末が混在するエリアにおいて、夫々の端末に、夫々に求められている要求に関して、最大限のパフォーマンスを発揮させることができる。

なお、本例は簡易な例であるため、例えばマルコフ過程でのモデル化も可能であるが、現実の環境は、隠れ端末などの影響でモデル化が難しい複雑なものとなる。このため、現実の環境を想定した場合、強化学習が必要となる。また、環境が複雑である場合は、数式モデルではなく、シミュレーションや実空間での測定結果を利用する方法、或いはデータベースを使用して状態や報酬を測る方法などを用いてもよい。

また、本例では、周波数リソースを割り当てる制御の例を示したが、本発明はこれに限定されるものではない。上記の例の他にも、送信電力、送信頻度（もしくはランダムアクセスに要する平均待ち時間）、無線LANのRTS/CTS設定などの無線通信システムに関するパラメータ、接続可能とする端末数、消費電力値など、無線通信に使用するリソースや設定値は、制御の対象とすることができる。

実施の形態２．
次に、図１と共に図９を参照して、本発明の実施の形態２について説明する。本実施形態の無線通信システムは、実施の形態１の場合と同様に、図１に示す構成により実現することができる。

図９は、本実施形態の無線通信システムにおいて実施される強化学習のモデルを示す。図９に示すモデルには、実施の形態１の場合と同様に、複数のエージェント１２－１，１２－２，１２－３が含まれている。そして、このモデルでは、異なる複数の環境が評価の対象となることが想定されている。より具体的には、図９に示すモデルでは、エージェント１２－１，１２－２，１２－３の夫々が選択した行動を返す環境として、複数の環境が存在している。この場合、選択された行動を評価するために環境を選択する必要が生ずる。

エージェント１２－１，１２－２，１２－３の夫々が、要求条件の違いで定義付けられている場合、環境は、規格の違いや通信システムの違いにより定義付けることができる。例えば、IoT向けの無線通信システムとしては、IEEE 802.11ah、Wi-SUN、或いはLoRaが存在する。これらのシステムでは、規定されている周波数帯域幅や変復調方式が異なっている。このため、受信電力値と干渉電力値が同じであったとしても、送信フレームがエラーとなる確率はシステム毎に異なった値となる。

このため、異なる無線通信システムが混在し、それらに干渉が生ずるエリアでは、一方のシステムに対する干渉の影響を、他方のシステムに対する影響より大きく見積もる必要が生ずる。同様の事情は、例えば消費電力の評価に関しても発生する。即ち、実機について比較すれば、無線通信端末のハード構成は必ずしも均一ではなく、バッテリ容量の大きいものと、その容量が小さいものとが同じエリアに混在することがある。そして、消費電力の影響は、バッテリ容量の小さい端末では、バッテリ容量の大きい端末より、大きく見積もる必要がある。

更に、マルチRFの機能を具備する無線通信端末が制御対象である場合は、周波数帯域毎に環境を評価する必要が生ずる。例えば、９２０MHz、２．４GHz、５GHzのトライバンドで動作する無線通信端末については、それらの何れの周波数帯域で動作しているかに応じて、環境評価の手法を切り替える必要が生ずる。

図９に示すモデルには、３つの環境１４－１、１４－２、１４－３が準備されている。これらの環境１４－１、１４－２、１４－３は、制御の対象となる複数の無線通信端末について成立する可能性のある環境を網羅するように整理されている。このため、本実施形態では、制御サーバ１０の管理下にある全ての無線通信端末は、環境１４－１、１４－２、１４－３の何れかの下で動作していることになる。

図９に示すモデルは、環境選択部１６を備えている。環境選択部１６は、エージェント１２－１が置かれている環境を、３つの環境１４－１、１４－２、１４－３の中から選択し、選択した環境に行動Ａ_１を提供する。これにより、異なる複数の環境が併存する状況下であっても、エージェント１２－１の行動Ａ_１は正しい環境に戻されることになる。環境選択部１６は、エージェント１２－２，１２－３についても、同様の環境選択を行う。これにより、エージェント１２－２，１２－３によって選択される行動Ａ_２，Ａ_３についても、夫々適切な環境に戻されることになる。環境選択部１６の機能は、制御サーバ１０が、無線環境情報に基づいて無線通信端末１～Ｎの置かれた環境を判断することにより実現される。

図９に示すモデルは、更に、エージェント選択部１８を備えている。エージェント選択部１８は、環境１４－１、１４－２、１４－３の夫々から提供される状態Ｓ_１、Ｓ_２、Ｓ_３並びに報酬Ｒ_１、Ｒ_２，Ｒ_３を、適切なエージェントに提供する。エージェント選択部１８の機能は、制御サーバ１０が、無線通信端末１～Ｎのうち適切なものに対して制御情報を提供することにより実現される。

以上説明した通り、図９に示すモデルによれば、同じ周波数リソース内で共存する複数の無線通信システムを対象として最適化の制御を行う場合に、複数の環境を適宜切り替えて、選択された行動Ａを評価することができる。同様に、図９に示すモデルは、複数の周波数帯域を適宜切り替えて動作するような無線通信端末が制御対象に含まれる場合にも、複数の環境を切り替えることで、選択された行動Ａの有用性を適切に評価することができる。

１０制御サーバ
１２，１２－１，１２－２，１２－３エージェント
１４，１４－１，１４－２，１４－３環境
１６環境選択部
１８エージェント選択部

Claims

異なる複数の無線通信システムが同じ周波数リソースを共用しつつ混在する無線通信環境において実行される無線通信システムの最適化方法であって、
前記複数の無線通信システムの夫々に属する一つ以上の無線通信端末から、無線通信に関する状態を含む無線環境情報を検出するステップと、
前記複数の無線通信システムの夫々に課される条件に対応して準備されたエージェントの夫々に、当該エージェントに対応する前記条件が課される無線通信システムに属する前記無線通信端末から検出した前記無線環境情報を提供するステップと、
前記エージェントの夫々を対象として、前記条件および前記無線環境情報を適用させた強化学習を計算機に実施させるステップと、
前記複数の無線通信システムの夫々について、前記無線通信環境の下で当該無線通信システムに課される前記条件を満たすための制御パラメータを、前記強化学習の結果に基づいて計算機に算出させるステップと、
前記制御パラメータを、対応する無線通信システムに属する前記無線通信端末に提供するステップと、
を含み、
前記条件には、互いに異なる複数の条件が含まれる無線通信システムの最適化方法。
前記複数の無線通信システムは、異なる条件が課される無線通信システムを含んでおり、
前記強化学習では、前記エージェントの報酬、状態および行動を、同一の条件毎に設定して最適化が目指される請求項１に記載の最適化方法。
前記複数の無線通信システムの夫々に課される条件は、複数の要求条件を含んでおり、
前記強化学習では、前記無線通信システムの夫々について最も優先されるべき要求条件を、対応するエージェントに適用させて最適化が目指される請求項２に記載の最適化方法。
前記無線通信環境には、異なる無線通信規格に準拠する複数の無線通信システムが混在しており、
前記強化学習では、前記無線通信規格毎に異なる条件を設定して最適化が目指される請求項２に記載の最適化方法。
前記無線通信環境には、異なる複数の環境が混在しており、
前記強化学習では、前記エージェントの夫々に対応する環境評価を、前記複数の環境の夫々毎に設定して最適化が目指される請求項１に記載の最適化方法。
異なる複数の無線通信システムが同じ周波数リソースを共用しつつ混在する無線通信環境において動作する無線通信システムであって、
前記複数の無線通信システムの夫々から無線環境情報を受け取ると共に、当該複数の無線通信システムの夫々に制御情報を提供する制御サーバを備え、
当該制御サーバは、
前記複数の無線通信システムの夫々に属する一つ以上の無線通信端末から、無線通信に関する状態を含む無線環境情報を検出する処理と、
前記複数の無線通信システムの夫々に課される条件に対応して準備されたエージェントの夫々に、当該エージェントに対応する前記条件が課される無線通信システムに属する前記無線通信端末から検出した前記無線環境情報を提供する処理と、
前記エージェントの夫々を対象として、前記条件および前記無線環境情報を適用させた強化学習を実施する処理と、
前記複数の無線通信システムの夫々について、前記無線通信環境の下で当該無線通信システムに課される前記条件を満たすための制御パラメータを、前記強化学習の結果に基づいて算出する処理と、
前記制御パラメータを、対応する無線通信システムに属する前記無線通信端末に提供する処理と、
を実行し、
前記条件には、互いに異なる複数の条件が含まれる無線通信システム。
異なる複数の無線通信システムが同じ周波数リソースを共用しつつ混在する無線通信環境において前記複数の無線通信システムの夫々から無線環境情報を受け取ると共に、当該複数の無線通信システムの夫々に制御情報を提供する制御サーバに実装される無線通信システム用プログラムであって、
当該制御サーバに、
前記複数の無線通信システムの夫々に属する一つ以上の無線通信端末から、無線通信に関する状態を含む無線環境情報を検出する処理と、
前記複数の無線通信システムの夫々に課される条件に対応して準備されたエージェントの夫々に、当該エージェントに対応する前記条件が課される無線通信システムに属する前記無線通信端末から検出した前記無線環境情報を提供する処理と、
前記エージェントの夫々を対象として、前記条件および前記無線環境情報を適用させた強化学習を実施する処理と、
前記複数の無線通信システムの夫々について、前記無線通信環境の下での当該無線通信システムに課される前記条件を満たすための制御パラメータを、前記強化学習の結果に基づいて算出する処理と、
前記制御パラメータを、対応する無線通信システムに属する前記無線通信端末に提供する処理と、を実行させるためのものであり、
前記条件には、互いに異なる複数の条件が含まれる無線通信システム用プログラム。