JP7396367B2

JP7396367B2 - 制御装置、制御システム、及びプログラム

Info

Publication number: JP7396367B2
Application number: JP2021554479A
Authority: JP
Inventors: 仁清水; 具治岩田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2023-12-12
Anticipated expiration: 2039-11-06
Also published as: WO2021090413A1; US20220398497A1; JPWO2021090413A1

Description

本発明は、制御装置、制御システム、及びプログラムに関する。

交通・人流分野では、機械学習の手法を用いて、シミュレータ上で移動体（例えば、車両や人等）の最適な制御策を決定することが従来から行われている。例えば、人流シミュレータ上で最適な人流誘導を行うためのパラメータを得ることができる技術が知られている（例えば、特許文献１参照）。また、例えば、交通シミュレータ上で最適な交通信号制御を行うためのパラメータを得ることができる技術が知られている（例えば、特許文献２参照）。更に、シミュレータ上の交通状況に応じて、交通信号機や車両等の最適な制御策を強化学習の手法によって決定することができる技術が知られている（例えば、特許文献３参照）。

特開２０１８－１４７０７５号公報特開２０１９－８２９３４号公報特開２０１９－８２８０９号公報

しかしながら、例えば、特許文献１及び２に記載されている技術は交通状況が所与の場合には有効である一方で、交通状況が未知の場合には適用できなかった。また、例えば、特許文献３に記載されている技術では、強化学習で制御策を決定する際のモデルや報酬が人流に対しては適切ではなく、人流に対する制御策の精度が低い場合があった。

本発明の実施形態は、上記の点に鑑みてなされたもので、交通状況に応じて、人流に対する最適な制御策を得ることを目的とする。

上記目的を達成するため、本実施形態に係る制御装置は、Ａ２Ｃにおけるエージェントの制御ステップｔ毎に、シミュレータ上の人流に関する交通状況を観測した状態ｓ_ｔを用いて、前記人流を制御するための行動ａ_ｔを方策πに従って選択する制御手段と、前記方策πの下で前記状態ｓ_ｔにおいて前記行動ａ_ｔを選択することの価値を表す行動価値関数と、前記方策πの下で前記状態ｓ_ｔの価値を表す状態価値関数とで表されるアドバンテージ関数を実現するニューラルネットワークのパラメータを学習する学習手段と、を有することを特徴とする。

交通状況に応じて、人流に対する最適な制御策を得ることができる。

本実施形態に係る制御システムの全体構成の一例を示す図である。本実施形態に係る制御装置のハードウェア構成の一例を示す図である。本実施形態に係る行動価値関数及び状態価値関数を実現するニューラルネットワークの一例を示す図である。本実施形態に係る学習処理の一例を示すフローチャートである。シミュレータと学習との関係の一例を説明するための図である。本実施形態に係るシミュレーション処理の一例を示すフローチャートである。本実施形態に係るシミュレータ上での制御処理の一例を示すフローチャートである。本実施形態に係る実制御処理の一例を示すフローチャートである。総報酬の推移の一例を示す図である。旅行時間の推移の一例を示す図である。移動体数と旅行時間との関係の一例を示す図である。

以下、本発明の実施形態について説明する。本実施形態では、人流を対象として、シミュレータ上で様々な交通状況における制御策を強化学習により学習することで、実制御時（つまり、実際の実環境での制御時）の交通状況に応じた最適な制御策を得ることが可能な制御装置１０を含む制御システム１について説明する。

ここで、制御策とは、人流を制御するための手段のことであり、例えば、目的地の入口までの経路のうち一部の道路の通行を規制したり、目的地への入口を開閉したりすること等がある。また、最適な制御策とは、人流誘導を評価するための所定の評価値（例えば、目的地の入口までの旅行時間や各道路上の人数等）を最適化する制御策のことである。なお、以降では、人流を構成する人の各々を移動体と表す。ただし、移動体は人に限られず、人と同様に移動する対象であれば任意の対象を移動体とすることができる。

＜全体構成＞
まず、本実施形態に係る制御システム１の全体構成について、図１を参照しながら説明する。図１は、本実施形態に係る制御システム１の全体構成の一例を示す図である。

図１に示すように、本実施形態に係る制御システム１には、制御装置１０と、１以上の外部センサ２０と、指示装置３０とが含まれる。また、制御装置１０と、各外部センサ２０及び指示装置３０とは任意の通信ネットワークを介して通信可能に接続される。

外部センサ２０は、道路等に設置され、実際の交通状況をセンシングしてセンサ情報を生成するセンシング機器である。なお、センサ情報としては、例えば、道路等を撮影した画像情報等が挙げられる。

指示装置３０は、制御装置１０からの制御情報に基づいて、人流を制御するための通行規制等を指示する装置である。このような指示としては、例えば、目的地の入口までの経路のうち特定の道路の通行を規制する指示、目的地の入口の一部を開閉する指示等が挙げられる。なお、指示装置３０は、交通整理や入口の開閉等を行う人が所持する端末等に当該指示を行ってもよいし、交通信号機や入口の開閉を制御する装置等に当該指示を行ってもよい。

制御装置１０は、実制御の前に、シミュレータ上で様々な交通状況における制御策を強化学習により学習する。また、制御装置１０は、実制御時に、外部センサ２０から取得したセンサ情報に対応する交通状況に応じて制御策を選択し、この選択した制御策に基づく制御情報を指示装置３０に送信する。これにより、実制御時に人流が制御される。

ここで、本実施形態では、シミュレータ上の交通状況をエージェントが観測する状態ｓ、制御策をエージェントが選択及び実行する行動ａとして、学習時には、制御策を出力する関数（この関数は方策πと呼ばれる。）を学習し、実制御時には、学習済みの方策πにより交通状況に応じた制御策を選択することを目的とする。また、人流に対する最適な制御策を学習するために、本実施形態では、深層強化学習のアルゴリズムの１つであるＡ２Ｃ（Advantage Actor-Critic）を用いると共に、報酬ｒとして、制御策が選択及び実行されなかった場合の移動体数で道路上の移動体数を正規化した値を用いる。

ところで、様々な方策πのうち、最適な制御策を出力する最適方策π^＊は、現在から将来にわたって得られる累積報酬の期待値を最大化する方策のことである。この最適方策π^＊は、現在から将来にわたって得られる累積報酬の期待値を表す価値関数のうち、その期待値を最大化する行動を出力する関数で表すことができる。また、価値関数はニューラルネットワークで近似できることが知られている。

そこで、本実施形態では、シミュレータ上で価値関数のパラメータ（つまり、価値関数を近似するニューラルネットワークのパラメータ）を学習することで、最適な制御策を出力する最適方策π^＊を得るものとする。

このために、本実施形態に係る制御装置１０は、シミュレーション部１０１と、学習部１０２と、制御部１０３と、シミュレーション設定情報記憶部１０４と、価値関数パラメータ記憶部１０５とを有する。

シミュレーション設定情報記憶部１０４は、シミュレーション設定情報を記憶する。シミュレーション設定情報とは、シミュレーション部１０１がシミュレーション（人流シミュレーション）を行うために必要な設定情報のことである。シミュレーション設定情報には、例えば、道路を表すリンクと交差点や分岐点等を表すノードとで構成される道路ネットワークを示す情報、移動体の総数、各移動体の出発地及び目的地、各移動体の出現時刻、各移動体の最大速度等が含まれる。

価値関数パラメータ記憶部１０５は、価値関数パラメータを記憶する。ここで、価値関数には行動価値関数Ｑ^π（ｓ，ａ）と状態価値関数Ｖ^π（ｓ）とがあり、価値関数パラメータ記憶部１０５は、価値関数パラメータとして、行動価値関数Ｑ^π（ｓ，ａ）のパラメータと、状態価値関数Ｖ^π（ｓ）のパラメータとを記憶する。行動価値関数Ｑ^π（ｓ，ａ）のパラメータとは、当該行動価値関数Ｑ^π（ｓ，ａ）を実現するニューラルネットワークのパラメータのことである。同様に、状態価値関数Ｖ^π（ｓ）のパラメータとは、当該状態価値関数Ｖ^π（ｓ）を実現するニューラルネットワークのパラメータのことである。なお、行動価値関数Ｑ^π（ｓ，ａ）は、方策πの下で、状態ｓにおいて行動ａを選択することの価値を表す。一方、状態価値関数Ｖ^π（ｓ）は、方策πの下で、状態ｓの価値を表す。

シミュレーション部１０１は、シミュレーション設定情報記憶部１０４に記憶されているシミュレーション設定情報を用いて、シミュレーション（人流シミュレーション）を実行する。

学習部１０２は、シミュレーション部１０１によるシミュレーション結果を用いて、価値関数パラメータ記憶部１０５に記憶されている価値関数パラメータを学習する。

制御部１０３は、学習時にはシミュレータ上の交通状況に応じた行動ａ（つまり、制御策）を選択及び実行する。このとき、制御部１０３は、学習が完了していない価値関数パラメータが設定された価値関数で表される方策πに従って行動ａを選択及び実行する。

また、制御部１０３は、実制御時には実環境の交通状況に応じた行動ａを選択及び実行する。このとき、制御部１０３は、学習済みの価値関数パラメータが設定された価値関数で表される方策πに従って行動ａを選択及び実行する。

なお、図１に示す制御システム１の全体構成は一例であって、他の構成であってもよい。例えば、学習時の制御装置１０と実制御時の制御装置１０とが異なる装置で実現されていてもよい。また、複数台の指示装置３０が制御システム１に含まれていてもよい。

＜ハードウェア構成＞
次に、本実施形態に係る制御装置１０のハードウェア構成について、図２を参照しながら説明する。図２は、本実施形態に係る制御装置１０のハードウェア構成の一例を示す図である。

図２に示すように、本実施形態に係る制御装置１０は、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これら各ハードウェアは、それぞれがバス２０７を介して通信可能に接続されている。

入力装置２０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置２０２は、例えば、ディスプレイ等である。なお、制御装置１０は、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ２０３は、外部装置とのインタフェースである。外部装置には、記録媒体２０３ａ等がある。制御装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、例えば、制御装置１０が有する各機能部（シミュレーション部１０１、学習部１０２及び制御部１０３等）を実現する１以上のプログラムが格納されていてもよい。

なお、記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

通信Ｉ／Ｆ２０４は、制御装置１０を通信ネットワークに接続するためのインタフェースである。制御装置１０は、通信Ｉ／Ｆ２０４を介して、外部センサ２０からセンサ情報を取得したり、指示装置３０に対して制御情報を送信したりすることができる。なお、制御装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

プロセッサ２０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。制御装置１０が有する各機能部は、メモリ装置２０６等に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。シミュレーション設定情報記憶部１０４や価値関数パラメータ記憶部１０５は、例えば、メモリ装置２０６を用いて実現可能である。なお、シミュレーション設定情報記憶部１０４や価値関数パラメータ記憶部１０５は、例えば、制御装置１０と通信ネットワークを介して接続される記憶装置やデータベースサーバ等により実現されていてもよい。

本実施形態に係る制御装置１０は、図２に示すハードウェア構成を有することにより、後述する学習処理及び実制御処理を実現することができる。なお、図２に示すハードウェア構成は一例であって、制御装置１０は、他のハードウェア構成を有していてもよい。例えば、制御装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

＜実施例の設定＞
ここで、本実施形態の一実施例を設定する。

≪シミュレーションの設定≫
人流を制御する実環境に合致するように、本実施形態では、シミュレーション環境をシミュレーション設定情報により次のように設定する。

まず、道路ネットワークには３１４本の道路で構成されているものとする。また、移動体の出発地（例えば、駅の出口等）は６箇所、目的地（例えば、イベント会場等）は１箇所とし、各移動体の各々は、予め設定されたシミュレーション時刻（出現時刻）に、６箇所の出発地のうち、予め設定されたいずれかの出発地から目的地に向かって移動を開始するものとする。このとき、各移動体は、シミュレーション時刻毎に、交通状況に応じて算出された速度で、最短経路で現在地から目的地の入口まで移動するものとする。以降では、シミュレーション時刻をτ＝０，１，・・・，τ´で表す。なお、τ´はシミュレーションの終了時刻である。

また、目的地には、この目的地に入るための入口（ゲート）が６箇所あり、少なくとも５つ以上のゲートが開いているものとする。そして、本実施形態は、予め設定されたインターバルΔ毎に、このゲートの開閉をエージェントによって制御することで、人流を制御するものとする（つまり、制御策は６箇所のゲートの開閉パターンを表す。）。以降では、エージェントがゲートの開閉を制御する周期（制御ステップ。以降、単に「ステップ」とも表す。）をｔで表す。また、以降では、τ＝０，Δ，２×Δ，・・・，Ｔ×Δ（ただし、Ｔは、Ｔ×Δ≦τ´を満たす最大の自然数）のときにエージェントがゲートの開閉を制御するものとして、τ＝０，Δ，２×Δ，・・・，Ｔ×Δをそれぞれｔ＝０，１，２，・・・，Ｔと表す。

なお、ゲートは６箇所あり、少なくとも５つ以上のゲートが開いているものとすることから、ゲートの開閉パターンは７種類である。

≪強化学習における各種設定≫
本実施形態では、強化学習における状態ｓや報酬ｒ、各種関数等を次のように設定する。

まず、ステップｔにおける状態ｓ_ｔは、過去４ステップにおける各道路上に存在する移動体数であるものとする。したがって、状態ｓ_ｔは３１４×４次元のデータで表される。

また、ステップｔにおける報酬ｒ_ｔは全移動体の旅行時間（つまり、出発地から目的地の入口までの移動時間）の和の最小化を目標に決定する。そこで、報酬ｒが取り得る値の範囲を［－１，１］として、ステップｔにおける報酬ｒ_ｔを以下の式（１）のように設定する

ただし、Ｎ_ｏｐｅｎ（ｔ）＝０かつＮ_ｓ（ｔ）＞０の場合はｒ_ｔ＝－１とし、Ｎ_ｏｐｅｎ（ｔ）＝０かつＮ_ｓ（ｔ）＝０の場合はｒ_ｔ＝０とする。

ここで、Ｎ_ｏｐｅｎ（ｔ）は、全てのゲートが常に開いているとした場合、ステップｔにおいて各道路上に存在する移動体数の和である。また、Ｎ_ｓ（ｔ）は、ステップｔにおいて各道路上に存在する移動体数の和である。

なお、上記の式（１）の（Ｎ_ｏｐｅｎ（ｔ）－Ｎ_ｓ（ｔ））／Ｎ_ｏｐｅｎ（ｔ）は、制御策が選択及び実行されず、全てのゲートが常に開いているとした場合に各道路上に存在する移動体数の和で、ステップｔにおける各道路上に存在する移動体数の和を正規化したものである。

また、Ａ２Ｃに用いられるAdvantage関数を行動価値関数Ｑ^πと状態価値関数Ｖ^πとの差として定義すると共に、行動価値関数Ｑ^π及び状態価値関数Ｖ^πの両方を計算することを避けるために行動価値関数Ｑ^πは割引報酬と割引された状態関数Ｖ^πとの和を利用する。すなわち、Advantage関数Ａ^πを以下の式（２）と設定する。

ここで、ｋは、Advanced stepである。なお、上記の式（２）の中括弧内が割引報酬と割引された状態関数Ｖ^πとの和であり、行動価値関数Ｑ^πに該当する。

上記の式（２）によりｋステップ先までまとめてAdvantage関数の推定値Ａ^π（ｓ）が更新される。

また、価値関数を実現するニューラルネットワークのパラメータを学習（更新）するための損失関数を以下の式（３）と設定する。

ここで、π_θは、価値関数を実現するニューラルネットワークのパラメータがθであるときの方策である。また、上記の式（３）の第２項のＥは行動についての期待値を表す。なお、上記の式（３）の第１項はＡ２ＣにおけるActorとCriticの価値関数を整合させる（つまり、行動価値関数Ｑ^πと状態価値関数Ｖ^πを整合させる）ための損失関数を表し、第２項はAdvantage関数Ａ^πを最大化するための損失関数を表す。また、第３項は学習初期での乱雑性を考慮した項（この項の導入により局所解に陥ってしまう事態を回避することが可能になる。）である。

また、行動価値関数Ｑ^π及び状態価値関数Ｖ^πを実現するニューラルネットワークは、図３に示すニューラルネットワークであるものとする。すなわち、３１４×４次元の状態ｓを入力する入力層と、１００次元の第１中間層と、１００次元の第２中間層と、ゲートの開閉パターンを出力する７次元の第１出力層と、状態価値関数Ｖ^π（ｓ）の推定値を出力する１次元の第２出力層とで構成されるニューラルネットワークで行動価値関数Ｑ^π及び状態価値関数Ｖ^πが実現されているものとする。

ここで、入力層と第１中間層と第２中間層と第１出力層とで行動価値関数Ｑ^πが実現され、入力層と第１中間層と第２中間層と第２出力層とで状態価値関数Ｖ^πが実現されている。言い換えれば、行動価値関数Ｑ^π及び状態価値関数Ｖ^πは、それぞれ一部を共有するニューラルネットワークにより実現されている。

なお、例えば、７種類のゲートの開閉パターンのそれぞれを表す行動をａ＝１～ａ＝７とした場合、第１出力層から出力される７次元のデータは、（Ｑ^π（ｓ＝ｓ_ｔ，ａ＝１），Ｑ^π（ｓ＝ｓ_ｔ，ａ＝２），・・・，Ｑ^π（ｓ＝ｓ_ｔ，ａ＝７））となる。

＜学習処理＞
次に、シミュレータ上で価値関数パラメータθを学習するための学習処理について、図４を参照しながら説明する。図４は、本実施形態に係る学習処理の一例を示すフローチャートである。

まず、シミュレーション部１０１は、シミュレーション設定情報記憶部１０４に記憶されているシミュレーション設定情報を入力する（ステップＳ１０１）。なお、シミュレーション設定情報は、例えば、ユーザ等の操作によって予め作成され、シミュレーション設定情報記憶部１０４に記憶される。

次に、学習部１０２は、価値関数パラメータ記憶部１０５に記憶されている価値関数パラメータθを初期化する（ステップＳ１０２）。

続いて、シミュレーション設定情報記憶部１０４に記憶されているシミュレーション設定情報を用いて、シミュレーション時刻τ＝０からτ＝τ´までシミュレーション部１０１がシミュレーションを実行すると共に、ステップｔ毎に、制御部１０３がシミュレータ上の交通状況に応じた行動ａ（つまり、制御策）を選択及び実行する（ステップＳ１０３）。ここで、制御部１０３は、図５に示すように、ステップｔ毎に、当該ステップｔにおける行動ａ_ｔをエージェントにより選択及び実行すると共に、ステップｔ＋１における状態ｓ_ｔ＋１を観測し、報酬ｒ_ｔ＋１を計算する。このステップＳ１０３においてシミュレーション部１０１が実行するシミュレーション処理と制御部１０３が実行する制御処理の詳細については後述する。なお、以降では、シミュレーション時刻τ＝０からτ＝τ´までのシミュレーションを１エピソードとする。

次に、学習部１０２は、上記のステップＳ１０２におけるシミュレーション結果（１エピソードのシミュレーション結果）を用いて、価値関数パラメータ記憶部１０５に記憶されている価値関数パラメータθを学習する（ステップＳ１０４）。すなわち、学習部１０２は、例えば、当該エピソードの各ステップｔ（つまり、ｔ＝０，１，２，・・・，Ｔ）における損失（誤差）を上記の式（３）に示す損失関数により計算し、これらの誤差を用いた誤差逆伝播法により価値関数パラメータθを更新する。これにより、Ａ^πが更新（すなわち、Ｑ^π及びＶ^πが同時に更新）される。

次に、学習部１０２は、学習の終了条件を満たすか否かを判定する（ステップＳ１０５）。そして、終了条件を満たしていないと判定した場合、学習部１０２は、上記のステップＳ１０３に戻る。これにより、終了条件を満たすまで上記のステップＳ１０３～ステップＳ１０４が繰り返し実行され、価値関数パラメータθが学習される。学習の終了条件としては、例えば、上記のステップＳ１０３～ステップＳ１０４が所定の回数繰り返し実行されたこと（つまり、エピソードが所定の回数実行されたこと）等が挙げられる。

なお、例えば、１エピソードを２時間、インターバルを１０分間として、ゲートを開閉する場合、１エピソードにおけるゲートの開閉パターンの組み合わせは７^１２通りになる。このため、最適な開閉パターンの組み合わせを網羅的・貪欲的に探索することは時間コスト的に困難であるが、本実施形態によれば、現実的な時間コスト（数時間～数十時間程度）で最適な開閉パターンを得るための価値関数パラメータを学習することが可能となる。

≪シミュレーション処理≫
ここで、上記のステップＳ１０３におけるシミュレーション処理について、図６を参照しながら説明する。図６は、本実施形態に係るシミュレーション処理の一例を示すフローチャートである。なお、以降のステップＳ２０１～ステップＳ２１１はシミュレーション時刻τ毎に繰り返し実行される。そこで、以降では、或るシミュレーション時刻τのときのシミュレーション処理について説明する。

まず、シミュレーション部１０１は、現在のシミュレーション時刻τにおける制御策（つまり、ゲートの開閉パターン）を入力する（ステップＳ２０１）。

次に、シミュレーション部１０１は、出現時刻になった移動体の移動を開始させる（ステップＳ２０２）。また、シミュレーション部１０１は、現在のシミュレーション時刻τに応じて、上記のステップＳ２０２で移動を開始させた移動体の移動速度を更新する（ステップＳ２０３）。

続いて、シミュレーション部１０１は、上記のステップＳ２０１で入力した制御策に応じて通行規制を更新する（ステップＳ２０４）。すなわち、シミュレーション部１０１は、上記のステップＳ２０１で入力した制御策に応じて目的地のゲート（６箇所）を開閉すると共に、特定の道路を通行禁止したり、特定の道路を通行可能にしたりする。なお、通行禁止にする道路としては、例えば、閉じられたゲートに向かうための道路等が挙げられる。同様に、通行許可にする道路としては、例えば、開かれたゲートに向かうための道路等が挙げられる。

次に、シミュレーション部１０１は、上記のステップＳ２０４で更新された通行規制に合わせて道路ネットワークの各分岐点での遷移決定基準を更新する（ステップＳ２０５）。すなわち、シミュレーション部１０１は、通行禁止となった道路に移動体が遷移しないようにすると共に、通行許可となった道路に移動体が遷移可能なように遷移決定基準を更新する。ここで、遷移決定基準とは、移動体が当該分岐点に到達した場合に、この分岐点で分岐する複数の道路のうちのいずれの道路に進むかを決定するための基準である。この基準はいずれか１つ道路に分岐するような確定的な基準であってもよいし、分岐先の各道路への分岐確率で表された確率的な基準であってもよい。

次に、シミュレーション部１０１は、各移動体の現在地と速度とに応じて、各移動体の位置（現在地）を更新する（ステップＳ２０６）。なお、上述したように、各移動体は、最短経路で現在地から目的地の入口（６箇所のゲートのうちのいずれか１つのゲート）まで向かうものとする。

次に、シミュレーション部１０１は、上記のステップＳ２０６の更新の結果、目的地の入口（いずれか１つのゲート）に到着した移動体を退場させる（ステップＳ２０７）。

次に、シミュレーション部１０１は、上記のステップＳ２０６の更新の結果、分岐点に到達した移動体の遷移方向（つまり、この分岐点から分岐する複数の道路のうちのいずれの道路に進むか）を決定する（ステップＳ２０８）。

次に、シミュレーション部１０１は、シミュレーション時刻τを１つ進める（ステップＳ２０９）。これにより、シミュレーション時刻τが、τ＋１に更新される。

次に、シミュレーション部１０１は、シミュレーションの終了時刻τ´を経過したか否かを判定する（ステップＳ２１０）。すなわち、シミュレーション部１０１は、τ＋１＞τ´となったか否かを判定する。シミュレーションの終了時刻τ´を経過したと判定した場合、シミュレーション部１０１は、シミュレーション処理を終了する。

一方で、シミュレーションの終了時刻τ´を経過していないと判定した場合、シミュレーション部１０１は、交通状況（つまり、３１４本の道路上にそれぞれ存在する移動体の数）をエージェントに出力する（ステップＳ２１１）。

≪シミュレータ上での制御処理≫
次に、上記のステップＳ１０３におけるシミュレータ上での制御処理について、図７を参照しながら説明する。図７は、本実施形態に係るシミュレータ上での制御処理の一例を示すフローチャートである。なお、以降のステップＳ３０１～ステップＳ３０５は制御ステップｔ毎に繰り返し実行される。そこで、以降では、或るステップｔのときのシミュレータ上での制御処理について説明する。

まず、制御部１０３は、ステップｔにおける状態（つまり、過去４ステップにおける交通状況）ｓ_ｔを観測する（ステップＳ３０１）。

次に、制御部１０３は、上記のステップＳ３０１で観測した状態ｓ_ｔを用いて、方策π_θに従って行動ａ_ｔを選択する（ステップＳ３０２）。なお、θは価値関数パラメータである。

ここで、制御部１０３は、例えば、行動価値関数Ｑ^πを実現するニューラルネットワーク（つまり、図３に示すニューラルネットワークの入力層と第１中間層と第２中間層と第１出力層とで構成されるニューラルネットワーク）の出力結果をＳｏｆｔｍａｘ関数により確率分布に変換し、この確率分布に従って行動ａ_ｔを選択すればよい。より具体的には、制御部１０３は、第１出力層の出力結果（Ｑ^π（ｓ＝ｓ_ｔ，ａ＝１），Ｑ^π（ｓ＝ｓ_ｔ，ａ＝２），・・・，Ｑ^π（ｓ＝ｓ_ｔ，ａ＝７））をＳｏｆｔｍａｘ関数により確率分布（ｐ^ｔ _１，ｐ^ｔ _２，・・・，ｐ^ｔ _７）に変換し、この確率分布に従って行動ａ_ｔを選択すればよい。なお、例えば、７種類のゲートの開閉パターンのそれぞれを表す行動をａ_ｔ＝１～ａ_ｔ＝７とした場合、ｐ^ｔ _１～ｐ^ｔ _７は、それぞれａ_ｔ＝１～ａ_ｔ＝７を選択する確率である。

次に、制御部１０３は、上記のステップＳ３０２で選択された行動ａ_ｔに対応する制御策（ゲートの開閉パターン）をシミュレーション部１０１に送信する（ステップＳ３０３）。なお、これは、上記のステップＳ３０２で選択された行動ａ_ｔを実行することを意味する。

続いて、制御部１０３は、ステップｔ＋１における状態ｓ_ｔ＋１を観測する（ステップＳ３０４）。

そして、制御部１０３は、上記の式（１）によりステップｔ＋１における報酬_ｒ＋１を計算する（ステップＳ３０５）。

以上のように、本実施形態に係る制御装置１０は、強化学習のアルゴリズムとしてＡ２Ｃ、報酬ｒとして制御策が選択及び実行されなかった場合の移動体数で道路上の移動体数を正規化した値を用いて、シミュレータ上の交通状況を観測して価値関数パラメータを学習する。これにより、本実施形態に係る制御装置１０は、交通状況に応じて、人流を制御するための最適な制御策を学習することができる。

＜実制御処理＞
次に、上記の学習処理で学習された価値関数パラメータθを用いた最適方策π_θ ^＊により実制御を行う実制御処理について、図８を参照しながら説明する。図８は、本実施形態に係る実制御処理の一例を示すフローチャートである。なお、以降のステップＳ４０１～ステップＳ４０３は制御ステップｔ毎に繰り返し実行される。そこで、以降では、或るステップｔのときの実制御処理について説明する。

まず、制御部１０３は、外部センサから取得したセンサ情報に対応する状態（つまり、過去４ステップにおける実環境の交通状況）ｓ_ｔを観測する（ステップＳ４０１）。

次に、制御部１０３は、上記のステップＳ４０１で観測した状態ｓ_ｔを用いて、方策π_θに従って行動ａ_ｔを選択する（ステップＳ４０２）。なお、θは学習済みの価値関数パラメータである。

そして、制御部１０３は、上記のステップＳ４０２で選択された行動ａ_ｔに対応する制御策（ゲートの開閉パターン）を実現する制御情報を指示装置３０に送信する（ステップＳ４０３）。これにより、制御情報を受信した指示装置３０によってゲートを開閉するための指示や通行規制を行うための指示が行われ、実環境の交通状況に応じて人流を制御することができる。

＜評価＞
次に、本実施形態の手法の評価について説明する。本評価では、以下の設定の下で一般的なＰＣ（パーソナルコンピュータ）を用いて、本実施形態の手法と他の制御手法との比較を行った。なお、他の制御手法としては、Open all gatesとRandom greedyとを採用した。Open all gatesは常に全てのゲートを開く場合（つまり、常に全てのゲートを開き、制御を行わなかった場合）のことであり、Random greedyは現在最も良い方策の一部をランダムに変更して更に良い方策を探索して制御を行う方法のことである。Random greedyではシナリオ毎に探索し、解（制御策）を得る必要がある。一方で、本実施形態では、学習済みのモデル（つまり、学習済みのパラメータが設定された価値評価関数）を利用して解（制御策）を得るため、一度学習を終えると、シナリオ毎に探索する必要はない。なお、シナリオとは、シミュレーション設定情報が表すシミュレーション環境のことである。

・移動体数：Ｎ＝８，００００
・シミュレーション時間（シミュレーションの終了時刻τ´）：２０，０００［ｓ］
・インターバル：Δ＝６００［ｓ］
・シミュレーション設定情報：人の流入パターンが異なる８つのシナリオを準備
・学習率：０．００１
・Advanced step：３４（シミュレーションが完了するまで）
・Worker数：１６
なお、上記以外の各種設定は、＜実施例の設定＞で述べた通りであるものとする。Worker数とは或る制御ステップで並列に実行可能なエージェント数である。この場合、１６個のエージェントがそれぞれ選択した行動ａとそのときの報酬ｒを全て学習に用いる。

このとき、本実施形態の手法における総報酬の最大値、平均値及び最小値の推移を図９に示す。図９に示すように、本実施形態の手法では、最大値、平均値及び最小値のいずれも、エピソード数がおよそ７５回目以降で高い報酬を得るように行動が選択されていることがわかる。

また、本実施形態の手法と他の制御手法の旅行時間の推移を図１０に示す。図１０に示すように、Random greedyはOpen all gatesと比較して最大で約３９．８％ほど旅行時間が改善されており、本実施形態の手法はOpen all gatesと比較して最大で約４７．５％ほど旅行時間が改善されている。このため、本実施形態の手法は他の制御手法と比較して、旅行時間をより最適化する行動が選択されていることがわかる。

また、本実施形態の手法と他の制御手法の移動体数と旅行時間との関係を図１１に示す。図１１に示すように、特にＮ≧５０，０００である場合に、本実施形態の手法は他の制御手法と比較して、旅行時間が改善されていることがわかる。また、Ｎ＜５０，０００である場合には、混雑がほとんど発生していないため、Open all gatesとほぼ同等の旅行時間となっていることがわかる。

次に、本実施形態の手法と他の制御手法のロバスト性について説明する。以下の表１は、上記の８つのシナリオとは異なるシナリオにおける各方式の旅行時間を示している。

上記の表１に示すように、本実施形態の手法では、上記の８つのシナリオとは異なるシナリオでも、旅行時間が１，０９８［ｓ］であり、高いロバスト性を有していることがわかる。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

１制御システム
１０制御装置
２０外部センサ
３０指示装置
１０１シミュレーション部
１０２学習部
１０３制御部
１０４シミュレーション設定情報記憶部
１０５価値関数パラメータ記憶部

Claims

Ａ２Ｃにおけるエージェントの制御ステップｔ毎に、シミュレータ上で出発地から目的地までの人流に関する交通状況を観測した状態ｓ_ｔを用いて、前記人流を制御するための行動ａ_ｔを方策πに従って選択する制御手段と、
前記方策πの下で前記状態ｓ_ｔにおいて前記行動ａ_ｔを選択することの価値を表す行動価値関数と、前記方策πの下で前記状態ｓ_ｔの価値を表す状態価値関数とで表されるアドバンテージ関数を実現するニューラルネットワークのパラメータを学習する学習手段と、
を有し、
前記行動ａ _ｔは、前記目的地に入るために設置された複数のゲートの開閉パターンを表す制御策であり、
前記行動ａ _ｔにより前記複数のゲートの開閉を制御した場合における移動体数を、前記複数のゲートの全てが常に開いているとした場合における移動体数で正規化した値を報酬ｒ _ｔ＋１として、
前記行動価値関数は、割引された前記報酬ｒ _ｔ＋１のｋステップ先までの和と割引された前記状態価値関数との和で表される、ことを特徴とする制御装置。
前記パラメータを学習するための損失関数は、前記状態価値関数に関する損失関数と、前記行動価値関数に関する損失関数と、前記学習の初期での乱雑性を考慮した項との和で表され、
前記学習手段は、
各制御ステップｔで前記損失関数によって計算された損失を用いて、誤差逆伝播法により前記パラメータを学習する、ことを特徴とする請求項１に記載の制御装置。
前記制御手段は、
更に、制御ステップｔ毎に、実環境上の人流に関する交通状況を観測したｓ_ｔと、前記学習手段により学習されたパラメータとを用いて、前記方策πに従って前記行動ａ_ｔを選択する、ことを特徴とする請求項１又は２に記載の制御装置。
Ａ２Ｃにおけるエージェントの制御ステップｔ毎に、シミュレータ上で出発地から目的地までの人流に関する交通状況を観測した状態ｓ_ｔを用いて、前記人流を制御するための行動ａ_ｔを方策πに従って選択する制御手段と、
前記方策πの下で前記状態ｓ_ｔにおいて前記行動ａ_ｔを選択することの価値を表す行動価値関数と、前記方策πの下で前記状態ｓ_ｔの価値を表す状態価値関数とで表されるアドバンテージ関数を実現するニューラルネットワークのパラメータを学習する学習手段と、
を有し、
前記行動ａ _ｔは、前記目的地に入るために設置された複数のゲートの開閉パターンを表す制御策であり、
前記行動ａ _ｔにより前記複数のゲートの開閉を制御した場合における移動体数を、前記複数のゲートの全てが常に開いているとした場合における移動体数で正規化した値を報酬ｒ _ｔ＋１として、
前記行動価値関数は、割引された前記報酬ｒ _ｔ＋１のｋステップ先までの和と割引された前記状態価値関数との和で表される、ことを特徴とする制御システム。
コンピュータを、請求項１乃至３の何れか一項に記載の制御装置における各手段として機能させるためのプログラム。