JP7385869B2

JP7385869B2 - 無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム

Info

Publication number: JP7385869B2
Application number: JP2020122332A
Authority: JP
Inventors: 笑子篠原; 保彦井上; 裕介淺井; 泰司鷹取; 啓史大関; 義哲成末; 博之森川
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2023-11-24
Anticipated expiration: 2040-07-16
Also published as: JP2022018901A

Description

この発明は、無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラムに係り、特に、多段階評価の学習を用いて通信状態の最適化を図る無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラムに関する。

より具体的には、本発明は、異なる無線通信システムが干渉しあい混在する環境において、下記の２つの事項を併せて達成するための評価を実施する機械学習や強化学習などの、計算機を用いた学習に関するものである。
１．各無線通信システム内での通信容量を最大化する。
２．同じ周波数リソースを共有する無線通信システム同士で、全体としての最適化を実現する。即ち、各無線通信システムで定められた、スループット達成率などの評価項目について公平性を実現する。

無線LANは、免許不要帯において廉価に利用できる無線通信システムである。このため、その普及は急激に進み、多数の無線LAN端末が同じエリア内に混在する事態が生じている。その結果、無線LAN端末同士が互いに干渉し合うことが課題となっている。このような課題を受けて、無線LAN端末同士の干渉の影響を最小限にして、個々の、または全体のシステム容量を拡大するための技術が多数提案されている。

例えば図１は、無線通信端末１～Ｎが、互いに干渉しあう無線LAN基地局（AP：Access Point）である例を示している。尚、図１の下段に示す無線通信端末Ｎ＋１～Ｎ＋Ｍは、上記のAPと通信を確立するスマートフォン等のユーザ端末である。この例では、APとして機能する無線通信端末１～Ｎの夫々が、それらの周辺における干渉情報や、無線通信端末Ｎ＋１～Ｎ＋Ｍとの接続成否の情報を取得し、無線環境情報として制御サーバ１０へ送信する。

制御サーバ１０は、無線通信端末１～Ｎを含むAP群のスループットが最大となるように周波数チャネルや送信電力値の割り当てを算出し、その結果を制御情報として各APへ返送する。

他方で、無線LAN以外にも免許不要帯を使用する無線通信システムは存在し、無線LANと同じ周波数リソースを共用して通信している。特に、現在国内でRFIDやIoT向けに開放されている９２０MHz帯では、複数の無線通信システムが混在している。例えば、日本国内では、LoRAWANやWi-SUN、SIGFOXなどの無線通信システムが、その同じ周波数帯域内でサービスを開始している。また、無線LANではIEEE 802.11ahが９２０MHz帯を使用する無線通信システムと考えられている。

海外では、規格上キャリアセンスが規定されているものは時間すみわけがなされている。また、キャリアセンスが規定されていないものは、他の無線通信システムと、周波数リソースを分かつか同時に使用することになる。

しかしながら、日本国内では、９２０MHz帯は複数の無線通信システムを収容するために十分な帯域が割り当てられていない。このため、周波数リソースを常に分かつことは難しく、同じ周波数リソースを同時に使用することが想定されている。

同じ周波数リソースを共用するこれらの無線通信システムは、同じIoT向けと言っても、規格や仕様が大きく異なる。変復調方式やアクセス制御も異なるため、周波数利用効率や通信距離も異なり、同一の評価軸で扱うことは合理的とは言えない。

非特許文献１によると、LoRAWANは、占有帯域幅が１２５kHzであり、通信距離は１０kmほど、通信速度は最大でも数十kbsである。また、SIGFOXは帯域幅が１００Hzで通信距離は数十km、通信速度は１００bpsが基本である。Wi-SUNは占有帯域幅が最大６００kHzで通信距離は１kmほど、通信速度は数百kbpsである。11ahは占有帯域幅が１MHz以上、通信速度は１kmほどで通信速度は数Mbpsとなっている。

以上の無線通信システムでは、規格や仕様も異なる他、ユースケースやトラヒックが全く異なる。例えば、SIGFOXのような広域で低速な無線通信システムは、一日に数回トラヒックが発生して低速で送信するようなセンサ系のユースケースで適用されている。他方で、11ahのような高速な無線通信システムでは、監視カメラからの動画伝送など、常にトラヒックが発生するユースケースで適用されることが考えられる。

このように、同じ周波数リソースを使用する複数の無線通信システムは、通信規格や仕様が大きく異なる他、要求されるスループットや頻度も異なる。このため、周波数リソースの割り当て等に関する最適化の計算では、それらのシステム各々の条件に基づいた計算が必要となる。

他方で、条件が異なる複数の無線通信端末に対して周波数リソースを割り当てると、個々には最適な計算ができても、全体では最適と言えない場合が存在する。例えば、通信速度が速いと考えられる無線通信端末に対してのみ優先的に周波数リソースを割り当てるような算出結果では、周波数リソース割り当てが少なかった無線通信端末でのサービスが滞る事態が生ずる。この場合、周波数リソースを使用している全ての無線通信システムの評価としては、アウテージを残す結果となってしまい、最適とは言えない。

そのため、条件が異なる複数の無線通信システムが存在する場合は、個々端末の最適化と共に、各条件の無線通信端末および共存している全無線通信システムの無線通信端末を考慮した最適化を可能とする制御が必要となる。

LPWAの最新動向と今後の展望、千葉大学、阪田史郎、2018年6月 IEEE Std 802.11ah-2016、2016年12月

上述した免許不要帯のように、異なる条件が課された複数の無線通信システムが共存する無線通信リソースを最適化する際には、上述した従来の手法のように、１種類の無線通信システムが個々の無線通信リソースを最適化するだけでは不十分である。このような状況下では、複数の無線通信システムの夫々について評価を行い、個々のシステムにおける最適化だけではなく、無線通信リソースを使用する全ての無線通信システムに属する全ての無線通信端末にとっての最適化を実現する必要がある。

本発明は、複数の無線通信端末の夫々につき無線通信での最適化を実施するとともに、複数の無線通信端末を全体として見た場合の最適化を併せて実施するため、強化学習の評価を多段階で実行する。

第１の発明は、上記の目的を達成するため、複数の無線通信端末を含む無線通信システムの最適化方法であって、個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定するステップと、前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算するステップと、複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算するステップと、個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する報酬計算ステップと、を含むことが望ましい。

また、第２の発明は、複数の無線通信端末を含む無線通信システムであって、前記複数の無線通信端末から無線環境情報を受け取ると共に、当該複数の無線通信端末に制御情報を提供する制御サーバを備え、当該制御サーバは、個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定する処理と、前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算する処理と、複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算する処理と、個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する処理と、を実行することが望ましい。

また、第３の発明は、複数の無線通信端末から無線環境情報を受け取ると共に、当該複数の無線通信端末に制御情報を提供する制御サーバに実装される無線通信システム用プログラムであって、当該制御サーバに、個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定する処理と、前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算する処理と、複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算する処理と、個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する処理と、を実行させるものであることが望ましい。

本発明によれば、無線通信端末の報酬が、当該端末が個別に受ける報酬と、複数の無線通信端末を公平性の視点で評価した結果である効用とに基づいて計算される。そして、個々の無線通信端末の行動は、その報酬が最大になるように決定される。このため、本発明によれば、無線通信端末夫々の最適化と、複数の無線通信端末を全体として評価した場合の最適化の双方をバランス良く実現することができる。

無線通信システムの構成例を説明するための図である。従来の強化学習のモデル例を説明するための図である。本発明の実施の形態１で実施される強化学習のモデルの例を説明するための図である。本発明の実施の形態１において実施される学習アルゴリズムの例を説明するためのフローチャートである。本発明の実施の形態２で実施される強化学習のモデルの例を説明するための図である。本発明の実施の形態２において実施される学習アルゴリズムの例を説明するためのフローチャートである。

実施の形態１．
［実施の形態１の構成］
本発明の実施形態１の無線通信システムは、図１に示す構成例により実現することができる。図１において、中段に示す無線通信端末１～Ｎは、夫々Access Point（AP）として機能する。これらは、図１の下段に示す無線通信端末Ｎ＋１～Ｎ＋Ｍと通信することができる。無線通信端末Ｎ＋１～Ｎ＋Ｍは、スマートフォン、ＩｏＴ用のセンサ、スマートメータ等で構成されている。このように、図１に示す構成には、同じ周波数リソースを共用するが、規格や仕様が異なる複数の無線通信システムが含まれている。

本実施形態の無線通信システムは、制御サーバ１０を備えている。制御サーバ１０は、通信インターフェース、プロセッサユニット、メモリ等のハードウェアを備えている。制御サーバ１０は、これらのハードウェアが、メモリ内に格納されているプログラムに従って処理を進めることにより、後述する機能を実現する。

制御サーバ１０は、APとして機能する無線通信端末１～Ｎに対して、制御情報を提供することができる。制御情報には、例えば、利用可能な周波数リソースや送信電力等の情報が含まれている。一方、無線通信端末１～Ｎは、制御サーバ１０に対して無線環境情報を送信することができる。無線環境情報には、無線通信端末１～Ｎ夫々の周辺における干渉情報や、無線通信端末Ｎ＋１～Ｎ＋Ｍとの接続成否の情報が含まれている。

また、制御サーバ１０には、無線環境情報等に基づいて、制御情報に含める各種パラメータを最適化するための学習機能と、それら各種パラメータを、その学習の結果に基づいて決定する機能とが備わっている。

［強化学習の概要］

本実施形態において、制御情報に含める各種パラメータの最適化には、強化学習が用いられる。図２は、一般的な強化学習のモデル図を示す。図２に示すモデルには、学習を行う対象としてエージェント１２が存在する。エージェント１２は、事象の観測タイミングをｔとして、一意な環境１４の中で、現在の状態Ｓ(ｔ)および報酬Ｒ(ｔ)から行動Ａ(ｔ＋１)を算出して実行する。その結果、状態Ｓ(ｔ＋１)が実現される。この状態Ｓ(ｔ＋１)から、行動を評価する報酬Ｒ(ｔ＋１)を得て、次の行動が算出される。

以下の説明では、ｓおよびＳが状態、ａおよびＡが行動、ｒおよびＲが報酬を夫々表すものとする。ここで、小文字は個々のエージェント（最適化対象）に対するパラメータ、大文字はその集合（複数のエージェント）に対するパラメータであることを意味する。また、各パラメータの添え字ｔは、そのパラメータが、観測タイミングｔにおける値であることを示し、Ｓｔ，Ａｔ，ＲｔはそれぞれＳ(ｔ)，Ａ(ｔ)，Ｒ(ｔ)と同じであるものとする。

図２に示す強化学習は、以下のステップの繰り返しにより進められる。
１．エージェント１２は、環境１４から状態Ｓ(ｔ)と報酬Ｒ(ｔ)を受け取り、方策πに基づいて決定した行動Ａ(ｔ)を環境１４に返す。
２．環境１４は、エージェント１２から受け取った行動Ａ(ｔ)と現在の状態Ｓ(ｔ)とに基づいて次の状態Ｓ(ｔ＋１)に変化し、遷移後の状態Ｓ(ｔ＋１)と報酬Ｒ(ｔ＋１)をエージェント１２に提供する。尚、報酬Ｒは、その直前の行動Ａの良し悪しを示すスカラー量である。

ある状態Ｓに対するエージェントの行動がＡであるとした場合、現時点から無限の未来までに得ることのできる報酬Ｒの総和、つまり収益Ｇは、次式のようになる。

但し、γは０≦γ≦１であり、未来の報酬の影響をどの程度収益として評価するかを調整するパラメータである。

強化学習によるＱ学習では、行動ａの価値が以下の関数で評価される。

但し、Ｅは期待値を示す関数である。また、Ｑ^πは、状態ｓから行動ａをとるエージェントが方策πに従って行動をとっていった場合の期待値を表す価値関数（以下、「Ｑ関数」とする）である。

図２に示す強化学習は、このＱ関数を最大化するように進められる。この学習は、例えば、状態ｓで行動ａを行ったときの収益Ｇを推定するＱ関数を、次式のアルゴリズムで求めることにより進めることができる。

ここで、ｐは学習率と呼ばれるパラメータで、機械学習の設計者が決める代数である。通常は１未満の小さな値に設定される。また、maxQは、理想的に取得すると考えられるＱ関数の最大値を示す。Q関数の学習は、各時間ｔごとに、次の時間ｔ＋１に取る行動によって得られるＱ値を全て見積もり、その中で最大のものを用いてQ値を更新するというものである。

［実施の形態１の特徴］
図３は、本実施形態の無線通信システムにおいて実施される強化学習のモデルを示す。本実施形態では、条件の異なる複数の無線通信システムを対象として、個々の評価と各条件の評価とを実施して最適化を図る。複数の無線通信システムは、夫々の条件に基づいてグループ化することができる。図３に示すモデルでは、３つのグループが存在し、グループ毎にエージェントが存在している。

図３に示すエージェント１２－１，１２－２，１２－３は、夫々同じ環境１４の下で、夫々のグループに属する個々のユーザｉの行動を評価すると共に、グループ全体の評価も実施する。例えば、エージェント１２－１には、グループ１に含まれる複数のユーザｉの夫々に対応するエージェントｉが含まれている。エージェントｉは、ユーザｉの行動を評価すると共に、公平性を考慮してグループ１の全体の評価を実施する。

エージェントｉ毎に必要とする接続回数や帯域などの要件は異なっており、それに応じたリソースの割り振りを考えないとリソースを十分に活用できているとは言えない。このため、グループ全体を評価するにあたり、単純にリソースをエージェントｉの数で等分に割り振るのでは公平性は担保されない。そこで、リソースの分配によって達成される個々のエージェントｉへの割り振りの妥当性を効用関数によって定義することにする。

ユーザｉに割り振られるリソースをxiとした場合に、そのユーザｉの効用関数をＲ(xi) と表現することとする。ユーザｉ毎の効用関数の和を最大化出来た場合、システム全体のリソースの割当の妥当性が最大になり、リソースが公平に割り振られたといえる。

効用関数Ｒ(xi)としては、具体的には以下の関数を用いる。

但し、αは効用関数Ｒの公平性を決定するためのパラメータである。上記の効用関数Ｒにおいて、αを∞とすると、ユーザ間の最小値を最大化するような効用、すなわちmax-min公平性を評価することができる。本実施形態では、このような設定を用いることで、上記の効用関数Ｒにより、報酬が最小値となる無線通信端末に合わせたリソース分配を実現することができる。

例えば、無線通信システムに対する周波数リソースの割り当てを最適化する場合を考える。ここで、グループ１の無線通信システムでは、１/２/４MHz帯を割り当て可能であり、各無線通信端末の要求トラヒックとスループットからスループット達成率を算出できるものとする。なお、スループットは割り当てられる帯域幅および割り当てられた周波数リソース内で共存している無線通信端末の数、送受信端末間の距離などから計算することができる。

同じくグループ２の無線通信システムでは、２００/４００/６００kHz帯の割り当てが可能であり、グループ１の無線通信システムと同様にトラヒックとスループットからスループット達成率を算出できるものとする。また、グループ３の無線通信システムも同様の計算方法からスループット達成率を算出できるものとする。

このときの各無線通信端末の評価値を、グループ１の無線通信システムでは、x1，x2，x3，・・・とする。グループ２の無線通信システムでは、その評価値をy1，y2，y3，・・・とする。また、グループ３の無線通信システムの評価値は、z1，z2，z3，・・・とする。この場合、グループ１～３夫々の全体評価は、下記のように表すことができる。尚、下記の評価関数においてβおよびεは、αと同じく効用関数の公平性を決定するためのパラメータである。

グループの全体評価を踏まえて、例えば、ある無線通信端末ｋの報酬は下記のように計算することができる。

具体的なアルゴリズムの例を示すために以下の環境を考える。
まず、環境として無線通信端末がｎ個、利用できる周波数チャネルの数がｋ個存在する状況を想定する。ある時間において各通信端末はｋ個のチャネルの中から１つを選択しそのチャネルの利用を試みるか、チャネルの利用をしないという（ｋ＋１）個の選択肢の中から１つの行動をとるものとする。その際、各端末は自身の取った行動に対して、他の端末と選択したチャネルが重ならず、チャネルの利用ができた場合にはACKを受け取り、他のいずれかの端末１つとでも同じチャネルを選択してしまった場合にはACKを受け取れない。このACKの受け取りの成否を各端末の報酬とみなす。各端末の行動とそれに対しての結果の報酬をある時間における状態としてみなすことにする。また別の報酬として、一定時間ごとの各端末の総接続数（ACKを受け取った無線通信端末の数）から計算した効用関数を定義する。

また、報酬として、ACKの受け取りの成否以外に、これまでの通信実績からスループットや通信容量を計算し、要求された通信品質を満たさないアウテージの状態に陥っているか否かの判定結果を指定してもよい。或いは、グループ内でアウテージ状態に至っていない無線通信端末の数を報酬として指定してもよい。アウテージ状態を報酬として考慮すると、ユーザ品質を保てているか否かを指標として学習を進めることができる。このため上記の手法によれば、ユーザ体感に即した効果的な学習が可能である。

図４は、本実施形態において、制御サーバ１０で実施される学習の概要を示す。
図４に示すアルゴリズムによれば、先ず、ｎ人のユーザｉの行動選択の手法が決定される（ステップ１００）。

上記ステップ１００では、以下の３つの手法の何れかがランダムに選択される。
１．学習結果を利用することなく無作為の行動を決定する手法（ステップ１０２）
２．Main-netを用いた学習を利用する手法（ステップ１０４、１０６）
３．Fair-netを用いた学習を利用する手法（ステップ１０８、１１０）
ここで、一定確率でランダムにチャネルを選択する理由は、学習が局所解に陥ることを防止し、学習を効率的に進めるためである。

尚、本実施形態では、エージェントが取り得る状態の数が膨大である場合に対処するべく、Ｑ関数の学習に、公知のDeep Q Network（DQN）の手法を利用する。上記のMain-netとは、ユーザｉ各自の報酬ｒ、即ち、各時間のユーザｉのチャネル利用の可否の期待値を最大化するように方策πを探索するDQNに付した名前である。また、上記のFair-netとは、グループ全体の効用を考慮して設定された上記の効用関数を最大化するように方策πを探索するDQNに付した名前である。

各端末ｉの行動がすべて決定すると、各端末ｉの報酬ｒと状態ｓが定まる（ステップ１１２）。

次に、端末ｉ毎の行動ａ、報酬ｒ、状態ｓを、学習用にそれぞれ制御サーバ１０のメモリに追加する（ステップ１１４）。報酬ｒは、各時間における端末ｉのチャネル利用可否の結果xiと、効用関数Ｒの計算結果である。尚、これらのデータは、一定時間分だけ記憶されていればよい。

次に、上記のメモリから、複数のタイムスロットに対応する各端末の情報をランダムに抜き出す（ステップ１１６）。

次いで、それらを学習用のデータとしてバッチ学習を実行し、Main-netおよびFair-netのパラメータを更新する（ステップ１１８）。

更新したパラメータをもとに、再び各端末は学習結果に基づくチャネル選択（ステップ１０４～１１０）、またはランダムなチャネル選択（ステップ１０２）を繰り返し、同様の流れを追って学習が進められる（ステップ１１２～１１８）。

尚、上記の説明では、端末が行動を決める３つの手法は、ランダムに決定されることとしているが、本発明はこれに限定されるものではない。例えば、各端末が学習結果に基づいて行動を選択する手法については、Main-netを用いた学習の結果を利用するのを基本として、一定確率でFair-netを用いた学習の結果を利用することとしてもよい。また、ランダムに行動を決定する確率は、学習結果を利用して行動を決定する確率に比して低く設定することとしてもよい。

以上説明した通り、本実施形態の無線通信システムでは、個々の学習結果による行動を第１ステップとし、効用関数による全体評価を第２ステップとすることで、個々の端末の行動について多段階評価を実行することができる。このため、本実施形態によれば、同一のグループに属する複数の無線通信端末夫々の最適化と、同一のグループ内での公平性を担保するための最適化との双方を実現することができる。

実施の形態２．
次に、図１と共に図５および図６を参照して、本発明の実施の形態２について説明する。本実施形態の無線通信システムは、実施の形態１の場合と同様に、図１に示す構成により実現することができる。本実施形態のシステムは、端末の行動を決定する手法、並びにQ関数を学習する手法が異なる点を除いて、実施の形態１の場合と同様である。

［実施の形態２の特徴］
図５は、本実施形態の無線通信システムにおいて実施される強化学習のモデルを示す。図５に示すモデルでは、図３に示すモデルが実行する処理に加えて、３つのグループの全てを対象とする全体評価が実施される。この全体評価は、同じ環境１４の下で作動する全ての無線通信端末について、公平性の最適化を図るために実行される。

図５に示すモデルでは、グループ１～３の無線通信システムについての評価結果を用いて、下記のアルゴリズムで全体評価の効用関数R_allが計算される。尚、次式に含まれるθは、グループについての効用関数Ｒに含まれるαと同様、効用関数の公平性を決定するためのパラメータである。

但し、上式におけるΣは、３つのグループの報酬Ｒｘ，Ｒｙ，Ｒｚの総和を取ることを意味している。

本実施形態のシステムでは、ある無線通信端末ｋの報酬Rxkを、個別の報酬xkと、グループの報酬Rと、全体の報酬R_allとを用いて、下記のように計算することができる。

無線通信端末ｋの報酬Rxkを上記のように計算すれば、同じ環境１４に属する全ての無線通信端末を対象としたmax-min公平性を考慮して、個々の端末の行動を決めることができる。

図６は、本実施形態において、制御サーバ１０で実施される学習の概要を示す。図６に示すフローチャートは、ステップ１２０および１２２が追加されている点を除いて、図４に示すフローチャートと同様である。

図６に示すように、本実施形態では、行動選択の手法として、一定の確率で、Fair-net（全体）を用いた学習を利用する手法が採用される（ステップ１２０、１２２）。「Fair-net（全体）」とは、同じ環境１４に属する全ての無線通信端末に関する効用関数R_allを最大化するように方策πを探索するDQNに付した名前である。

上記の処理によれば、個々の無線通信端末についての最適化と、同じグループに属する端末間での公平性の担保と、全ての端末間での公平性の担保とを、バランス良く実現することができる。

１０制御サーバ
１２、１２－１、１２－２、１２－３エージェント
１４環境
Ｓ、ｓ状態
Ｒ、ｒ報酬
Ａ、ａ行動

Claims

複数の無線通信端末を含む無線通信システムの最適化方法であって、
個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定するステップと、
前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算するステップと、
複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算するステップと、
個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する報酬計算ステップと、
を含み、
前記行動は、特定の周波数チャネルの使用または周波数チャネルの不使用であり、
前記個別の報酬は、前記特定の周波数チャネルの利用の成否を表す値を含む無線通信システムの最適化方法。
前記複数の無線通信端末は、通信規格および要求条件の少なくとも一方が同じであるグループに属する複数の無線通信端末を含み、
前記効用は、前記グループに対して計算され、
前記報酬計算ステップでは、前記個別の報酬と前記グループに対する効用とに基づいて、当該グループに属する無線通信端末の報酬が計算される
請求項１に記載の最適化方法。
前記複数の無線通信端末は、複数のグループに分類され、
複数のグループの夫々に対する前記効用に基づいて、前記複数の無線通信端末の全てを対象とした公平性を表す全体効用を計算するステップを含み、
前記報酬計算ステップでは、前記個別の報酬と前記グループに対する効用と前記全体効用とに基づいて、当該グループに属する無線通信端末の報酬が計算される
請求項２に記載の最適化方法。
前記効用は、前記複数の無線通信端末のうち通信の成功を意味するACKを受け取った端末の数に基づいて計算される請求項１乃至３の何れか１項に記載の最適化方法。
前記効用は、前記複数の無線通信端末を、スループットおよびトラヒック負荷から計算される公平性で評価した値である請求項１乃至３の何れか１項に記載の最適化方法。
前記効用は、前記複数の無線通信端末に対する要求条件から計算されるアウテージ端末数に基づいて計算され、
前記アウテージ端末は、要求された通信品質を満たさないアウテージの状態に陥っている無線通信端末である請求項１乃至３の何れか１項に記載の最適化方法。
複数の無線通信端末を含む無線通信システムであって、
前記複数の無線通信端末から無線環境情報を受け取ると共に、当該複数の無線通信端末に制御情報を提供する制御サーバを備え、
当該制御サーバは、
個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定する処理と、
前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算する処理と、
複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算する処理と、
個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する処理と、を実行し、
前記行動は、特定の周波数チャネルの使用または周波数チャネルの不使用であり、
前記個別の報酬は、前記特定の周波数チャネルの利用の成否を表す値を含む無線通信システム。
複数の無線通信端末から無線環境情報を受け取ると共に当該複数の無線通信端末に制御情報を提供する制御サーバに実装される無線通信システム用プログラムであって、
当該制御サーバに、
個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定する処理と、
前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算する処理と、
複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算する処理と、
個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する処理と、
を実行させるためのプログラムを含み、
前記行動は、特定の周波数チャネルの使用または周波数チャネルの不使用であり、
前記個別の報酬は、前記特定の周波数チャネルの利用の成否を表す値を含む無線通信システム用プログラム。