JP7059781B2 - 最適化装置、最適化方法、及びプログラム - Google Patents

最適化装置、最適化方法、及びプログラム Download PDF

Info

Publication number
JP7059781B2
JP7059781B2 JP2018087589A JP2018087589A JP7059781B2 JP 7059781 B2 JP7059781 B2 JP 7059781B2 JP 2018087589 A JP2018087589 A JP 2018087589A JP 2018087589 A JP2018087589 A JP 2018087589A JP 7059781 B2 JP7059781 B2 JP 7059781B2
Authority
JP
Japan
Prior art keywords
evaluation
unit
search point
optimization
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018087589A
Other languages
English (en)
Other versions
JP2019192160A (ja
Inventor
恭太 堤田
秀剛 伊藤
達史 松林
浩之 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018087589A priority Critical patent/JP7059781B2/ja
Priority to PCT/JP2019/017450 priority patent/WO2019208639A1/ja
Priority to US17/050,773 priority patent/US20210241123A1/en
Publication of JP2019192160A publication Critical patent/JP2019192160A/ja
Application granted granted Critical
Publication of JP7059781B2 publication Critical patent/JP7059781B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Traffic Control Systems (AREA)

Description

本発明は、最適化装置、最適化方法、及びプログラムに係り、特に機械学習やシミュレーションのパラメータを最適化するための最適化装置、最適化方法、及びプログラムに関する。
近年、機械学習やシミュレーションの重要性が増してきている。機械学習やシミュレーションを用いた技術の例として、シミュレーション上で車を大量に動かし、都市交通を再現する技術がある(非特許文献1)。機械学習はそのハイパーパラメータによって性能が変動する。また、シミュレーションもそのパラメータによって出力が変動する。ここで、ハイパーパラメータないしパラメータをまとめてパラメータと表記する。
パラメータを、適切な値に最適化する必要がある。最適化は、あらかじめ指定された指標が最良となるように行われ、パラメータについての評価値の計算(以下、評価と呼ぶ)と、新たな評価の候補となるパラメータ(以下、探索点)を得る探索点の生成を、繰り返し実施することによって行われる。こうした手順の最適化に用いられる手法には、ベイズ最適化(非特許文献2)や遺伝的アルゴリズム(非特許文献3)がある。
最適化すべきパラメータ項目が多く、高次元のパラメータを最適化する場合がある。一般に、パラメータの次元数に対して指数的に必要な評価回数が増加するため、最適化が進むに連れて、パラメータと評価値のペアからなるデータ(以下、データ点)が多量に蓄積されることがある。
Krajzewicz, D., Brockfeld, E., Mikat, J., Ringel, J., Rossel, C., Tuchscheerer, W., Wagner, P., and Wosler, R.: Simulation of modern Traffic Lights Control Systems using the open source Traffic Simulation SUMO, Proceedings of the 3rd Industrial Simulation Conference 2005, pp. 299-302. Shahriari, B., Swersky, K.,Wang, Z., Adams, R. P. and Freitas, de N.: Taking the human out of the loop: A review of bayesian optimization, Proceedings of the IEEE, Vol. 104, No. 1, 2016, pp. 148-175. Papageorgiou, M., Diakaki, C., Dinopoulou, V., Kotsialos, A. and Wang, Y.: Review of road traffic control strategies, Proceedings of the IEEE, Vol. 91, No. 12, 2003, pp. 2043-2067.
しかし、非特許文献2の技術で用いられるベイズ最適化の計算では、利用可能なデータ点が多量にある場合、探索点を得る計算量がデータ点の数の3乗のオーダーであるため、計算時間が著しく増加し、現実的な時間に処理が完了しなくなる、という問題があった。
また、利用される計算機の構成や処理能力によっては演算に必要なメモリ容量が不足し、計算が行えなくなることがあった。
また、非特許文献3の遺伝的アルゴリズムの計算では、既知のデータ点のパラメータを、交叉や突然変異と呼ばれる一定のルールに基づいて置換える計算によって新たな探索点を得る。そのため、探索点を得るための計算時間はあまり必要としないが、ベイズ最適化等と比べて良い探索点が得られないことが多く、探索効率が悪い、という問題があった。
本発明は上記の点に鑑みてなされたものであり、少ない評価回数で、パラメータの最適化を行うことができる最適化装置、最適化方法、及びプログラムを提供することを目的とする。
本発明に係る最適化装置は、評価用データを入力として計算するときに用いられるパラメータを最適化する最適化装置であって、探索点となる前記パラメータと、前記評価用データとを用いて、前記計算の結果を評価する指標である評価値を計算する評価部と、前記パラメータを最適化する最適化部と、前記評価部による処理と、前記最適化部による処理とを繰り返すことにより得られる、最適化されたパラメータを出力する出力部と、を含み、前記最適化部は、前記評価部が計算に用いたパラメータと、前記評価部により前記計算に用いたパラメータを探索点として計算された前記評価値との組からなる複数のデータ点を格納する評価データ記憶部と、前記評価データ記憶部に格納された複数の前記計算に用いたパラメータに基づいて、探索点の候補となるパラメータである複数の探索点候補を生成する探索点候補生成部と、前記探索点候補生成部により生成された前記複数の探索点候補の各々について、前記評価データ記憶部に格納された前記複数のデータ点を用いて、前記探索点候補を探索点とするか否かを判定する探索点判定部と、を備えて構成される。
また、本発明に係る最適化方法は、評価用データを入力として計算するときに用いられるパラメータを最適化する最適化装置に用いられる最適化方法であって、評価部が、探索点となる前記パラメータと、前記評価用データとを用いて、前記計算の結果を評価する指標である評価値を計算するステップと、最適化部が、前記パラメータを最適化するステップと、出力部が、前記評価部による処理と、前記最適化部による処理とを繰り返すことにより得られる、最適化されたパラメータを出力するステップと、を含み、前記最適化部が最適化するステップは、評価データ記憶部が、前記評価部が計算に用いたパラメータと、前記評価部により前記計算に用いたパラメータを探索点として計算された前記評価値との組からなる複数のデータ点を格納するステップと、探索点候補生成部が、前記評価データ記憶部に格納された複数の前記計算に用いたパラメータに基づいて、探索点の候補となるパラメータである複数の探索点候補を生成するステップと、探索点判定部が、前記探索点候補生成部により生成された前記複数の探索点候補の各々について、前記評価データ記憶部に格納された前記複数のデータ点を用いて、前記探索点候補を探索点とするか否かを判定するステップと、を含む。
本発明に係る最適化装置及び最適化方法によれば、評価部が、探索点となるパラメータと、評価用データとを用いて、計算の結果を評価する指標である評価値を計算し、最適化部が、パラメータを最適化し、出力部が、評価部による処理と、最適化部による処理とを繰り返すことにより得られる、最適化されたパラメータを出力する。
そして、最適化部による処理は、評価データ記憶部が、評価部が計算に用いたパラメータと、評価部により当該計算に用いたパラメータを探索点として計算された評価値との組からなる複数のデータ点を格納し、探索点候補生成部が、評価データ記憶部に格納された複数の計算に用いたパラメータに基づいて、探索点の候補となるパラメータである複数の探索点候補を生成し、探索点判定部が、探索点候補生成部により生成された複数の探索点候補の各々について、評価データ記憶部に格納された複数のデータ点を用いて、探索点候補を探索点とするか否かを判定する。
このように、複数の計算に用いたパラメータに基づいて生成した、探索点の候補となるパラメータである複数の探索点候補の各々について、評価部が計算に用いたパラメータと、評価部により計算に用いたパラメータを探索点として計算された評価値との組からなる複数のデータ点を用いて、探索点候補を探索点とするか否かを判定することにより、少ない評価回数で、パラメータの最適化を行うことができる。
また、本発明に係る最適化装置の前記最適化部は、評価環境に関する情報を取得する評価環境取得部を更に含み、前記評価データ記憶部は、前記複数のデータ点の各々を、前記評価環境取得部が取得した前記評価環境に関する情報と対応付けて格納することができる。
また、本発明に係る最適化方法の前記最適化部が最適化するステップは、評価環境取得部が、評価環境に関する情報を取得するステップを更に含み、前記評価データ記憶部が格納するステップは、前記複数のデータ点の各々を、前記評価環境取得部が取得した前記評価環境に関する情報と対応付けて格納することができる。
また、本発明に係る最適化装置の前記探索点判定部は、前記評価データ記憶部に格納された前記複数のデータ点と前記複数の評価環境に関する情報とを用いて、前記パラメータと前記評価環境に関する情報との組み合わせを入力として、良い評価値となるか否かを判別するように学習された判別器を用いて、前記複数の探索点候補の各々について、前記探索点候補のパラメータと前記評価環境取得部が取得した前記評価環境に関する情報との組み合わせを前記判別器に入力したときに良い評価値となると判別された場合に、前記探索点候補を探索点とすることができる。
また、本発明に係る最適化方法の前記最適化部が最適化するステップは、評価環境取得部が、評価環境に関する情報を取得するステップを更に含み、前記評価データ記憶部が格納するステップは、前記複数のデータ点の各々を、前記評価環境取得部が取得した前記評価環境に関する情報と対応付けて格納することができる。
また、本発明に係る最適化装置の前記探索点候補生成部は、前記パラメータの各要素の変域からサンプリングを行うこと、又は前記評価データ記憶部に格納された前記複数のデータ点の各々のパラメータに対して遺伝的アルゴリズムを用いることにより、前記複数の探索点候補を生成することができる。
本発明に係るプログラムは、上記の最適化装置の各部として機能させるためのプログラムである。
本発明の最適化装置、最適化方法、およびプログラムによれば、少ない評価回数で、パラメータの最適化を行うことができる。
本発明の実施の形態に係る交通信号制御システムの構成を示すブロック図である。 本発明の実施の形態に係る評価データ記憶部に格納される情報の例を示すイメージ図である。 本発明の実施の形態に係る最適化装置における最適化処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る最適化装置を用いた場合の探索回数と、損失時間との関係を表す図である。
以下、本発明の実施の形態について図面を用いて説明する。
<本発明の実施の形態に係る交通信号制御システムの構成>
本実施形態では、交通信号制御において、評価環境として管制装置が取得する交通状況を用い、評価の手段として交通シミュレーションを用いて評価値を計算し、信号パラメータsを最適化する最適化装置に本発明を適用した場合について説明する。
本実施形態では、交通信号制御は、管制装置により行われる。交通信号制御では、信号灯色を切り替えるプランを1周期作成し、そのプランの繰り返しに従って、信号制御を行う。このプランは、信号パラメータsを指定することで、一意に決定される。この信号パラメータsを最適化する処理を、本実施形態に係る最適化装置にて行う。
図1は、本発明の実施の形態に係る交通信号制御システム1の構成を示すブロック図である。
本実施形態に係る交通信号制御システム1は、最適化装置10と、管制装置50と、複数の交通信号機(図示しない)で構成される。
<<本発明の実施の形態に係る最適化装置10の構成>>
本実施形態に係る最適化装置10は、CPUと、RAMと、後述する最適化処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図1に示すように、本発明の実施の形態に係る最適化装置10は、最適化部100と、評価用データ記憶部200と、評価部300と、出力部400とを備えて構成される。
最適化部100は、信号パラメータsを最適化する。
具体的には、最適化部100は、評価環境取得部110と、探索点候補生成部120と、探索点判定部130と、評価データ記憶部140と、学習部150とを備えて構成される。
評価環境取得部110は、評価環境に関する情報を取得する。
具体的には、評価環境取得部110は、管制装置50の出力部520から、道路の混雑状況等の交通状況をベクトルで表した評価環境情報θを取得する。ここで、t回目に取得した評価環境情報θを、評価環境情報θと表す。
そして、評価環境取得部110は、取得した評価環境情報θを、評価データ記憶部140に渡す。
評価データ記憶部140は、評価部300が計算に用いた信号パラメータsと、評価部300により当該計算に用いた信号パラメータsを探索点として計算された評価値lとの組からなる複数のデータ点の各々を、評価環境取得部110が取得した評価環境情報θに関する情報と対応付けて格納する。
具体的には、評価データ記憶部140は、図2に示すように、評価部300の評価回数t、t回目に取得した評価環境情報θ、t回目に評価部300が計算に用いた信号パラメータを表すベクトルである信号パラメータs、及びt回目に評価部300が計算した評価値である評価値lを紐付けて格納する。
ここで、評価データ記憶部140は、図2のように1つのテーブルでのみ実現する場合に限定されず、複数のテーブルにより実現されても良い。また、単一の評価環境情報θについて信号パラメータsの最適化を行う場合には、当該テーブルの評価環境の列は無くても良い。
探索点候補生成部120は、評価データ記憶部140に格納された複数の計算に用いた信号パラメータsに基づいて、探索点の候補となる信号パラメータである複数の探索点候補を生成する。
具体的には、探索点候補生成部120は、まず、評価データ記憶部140から複数の信号パラメータsを取得する。
次に、探索点候補生成部120は、複数の信号パラメータsに基づいて、信号パラメータの各要素の変域からサンプリングを行うこと、又は評価データ記憶部140に格納された複数のデータ点の各々の信号パラメータsに対して遺伝的アルゴリズムを用いることにより、探索点候補となるj個(例えば、200個)の信号パラメータsを生成する。
例えば、1回目の最適化処理の場合など、評価データ記憶部140に蓄積された信号パラメータが無い場合は、信号パラメータsの実行可能領域Sから、値をランダムに一様分布からサンプリングして用いる方法が利用できる。
ある信号パラメータsの各要素が、東西方向の青表示、黄色表示、南北方向の青表示、黄色表示の4次元の場合、東西方向の青表示の変域が10~200秒、黄色表示の変域が4秒(固定値)、南北方向の表示の変域が10~200秒、黄色表示の変域が4秒(固定値)であれば、(50,4,70,4)や(150,4,33,4)といった信号パラメータをサンプリングすることにより、探索点候補を生成する。
また、評価データ記憶部140に格納された複数の信号パラメータsが十分に多くある場合には、遺伝的アルゴリズムで使われる選択、交叉、変異の操作を行うことにより、探索点候補の生成することができる。
そして、探索点候補生成部120は、生成したj個の探索点候補を、探索点判定部130に渡す。
探索点判定部130は、信号パラメータと評価環境情報との組み合わせを入力として良い評価値となるか否かを判別するように学習された判別器cを用いて、j個の探索点候補の各々について、当該探索点候補の信号パラメータと評価環境取得部110が取得した評価環境に関する情報との組み合わせを判別器cに入力したときに良い評価値となると判別された場合に、当該探索点候補を探索点とする。
具体的には、探索点判定部130は、j個の探索点候補の各々について、良い評価値となるか否かを判別するように学習された判別器
Figure 0007059781000001

に当該探索点候補の信号パラメータsに評価環境情報θを連結したものを入力する。
例えば、評価環境情報θを表すr次元のベクトル
Figure 0007059781000002

を、信号パラメータsに連結して更新し、
Figure 0007059781000003

を判別器cの入力となる信号パラメータ
Figure 0007059781000004

として用いる。その場合の判別器cが学習するwはd+r次元のベクトルとなる。
判別器cは、信号パラメータsを入力とし、{-1,1}を出力し、出力が1の場合に、良い評価値となると判別する。
次に、探索点判定部130は、判別器cの出力が1となる探索点候補の信号パラメータsのうち、ランダムにk個抽出して、k個の探索点とする。
そして、探索点判定部130は、k個の探索点を、評価部300に渡す。
評価用データ記憶部200は、交通シミュレーションを行うために必要なデータである評価用データを記憶する。
ここで、評価用データは、交通シミュレーションを行うために必要なデータであれば何でもよく、例えば、道路の形状、各道路の制限速度、車両の台数、各車両の交通シミュレーション区間への進入時間、それらの車両のルート、交通シミュレーションの開始時間や終了時間等を用いることができる。
評価部300は、探索点となる信号パラメータsと、評価用データとを用いて、計算の結果を評価する指標である評価値lを計算する。
具体的には、評価部300は、評価用データ記憶部200から評価用データを取得し、シミュレーションによって探索点の信号パラメータsに対応する評価値lを計算する。当該評価部300が評価値lを計算する回数がt回目であるとすると、評価部300は、シミュレーションによって探索点の信号パラメータsに対応する評価値lを計算する。
そして、評価部300は、当該探索点の信号パラメータsと評価値lとの組をデータ点として、評価データ記憶部140に格納する。
評価部300は、上記の処理をk個の探索点の各々について行う。
また、評価部300は、シミュレーションが並列に実行できる場合、探索点判定部130の出力するk個の探索点の評価を、指定した並列数で並列化して実行して評価値lを得ても良い。
次に、評価部300は、シミュレーションを行った回数tが、予め定めたシミュレーションを繰り返す最大回数(例えば、1000回)を超えているか否かを判定する。tが最大回数を、超えている場合には、出力部400に、最適な信号パラメータを出力するように命じる。
一方、超えていない場合には、tに探索点判定部130が出力した探索点の数であるkを加えて更新し、最適化部100に、再度処理を行うように命令する。
出力部400は、評価部300による処理と、最適化部100による処理とを繰り返すことにより得られる、最適化された信号パラメータsを出力する。
具体的には、出力部400は、評価部300から最適な信号パラメータsを出力するように命じられると、評価データ記憶部140に記憶されている今まで交通シミュレーションを行った信号パラメータs、及び評価値lを取得する。
そして、出力部400は、評価値lが最小となる信号パラメータsを、最適化された信号パラメータsとして、管制装置50の入力部500に渡す。
<<判別器cの学習>>
ここで、学習部150による判別器cの学習について説明する。
学習部150は、評価データ記憶部140に格納された複数のデータ点と複数の評価環境情報θに関する情報とを用いて、信号パラメータと評価環境情報との組み合わせを入力とする判別器cを学習する。
まず、学習部150は、評価データ記憶部140から全ての評価環境情報とデータ点を受け取る。
次に、学習部150は、判別器cが学習するデータセットDを作るため、各データ点の信号パラメータsに評価値に応じてラベル
Figure 0007059781000005

を付与する。
例えば、ラベルhは、評価値lの良い信号パラメータ上位50%に1を付与し、下位50%に-1を付与する。この割合は50%に限らず判別器cの学習に十分なデータが集まれば、それぞれ上位10%と下位20%程度にする等自由に定めて良い。また、最適化処理の繰り返し中に変化させても良い。
d+r次元の正の実数パラメータからなる信号パラメータ
Figure 0007059781000006

について、{-1,1}を出力する判別器cを、線形判別器とすると、下記式(1)のように表すことができる。
Figure 0007059781000007
ここで、wは線形判別器の学習する重みであり、τはあらかじめ決められた閾値である。例えば、τとして0が用いられる。
そして、判別器cの出力と付与されたラベルhについて、下記式(2)の誤差関数E(w)が小さくなるように重みwを学習する。
Figure 0007059781000008
ここで、iは、1以上データ点の数(t個)以下の値を取る変数である。
重みwの学習に確率的勾配降下法を用いる場合、学習率を表すη(0<η<1)を用いて、下記式(3)のように更新する。
Figure 0007059781000009
重みwの更新回数が決められた上限に達するか、誤差関数E(w)の値が決められた値より小さくなったら学習を終了する。
そして、学習部150は、学習された重みをwとして、判別器
Figure 0007059781000010

を得る。学習部150は、学習された判別器
Figure 0007059781000011

を、探索点判定部130に渡す。
なお、判別器cの学習は上記の手法に限定されず、SVM(Support Vector Machine)や、DNN(Deep Neural Network)、GBDT(Gradient Boosting Decision Tree)等の機械学習手法を用いることができる。
また、評価環境情報θを表すr次元のベクトル
Figure 0007059781000012

を、信号パラメータsに連結して更新し、
Figure 0007059781000013

を判別器cの入力となる信号パラメータ
Figure 0007059781000014

として用いるため、混雑状況などの評価環境を考慮することができ、探索初期にもよい信号パラメータを得ることができ、探索を効率化することができる。
<<本発明の実施の形態に係る管制装置50の構成>>
管制装置50は、CPUと、RAMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図1に示すように、本発明の実施の形態に係る管制装置50は、入力部500と、制御部510とを備えて構成される。
入力部500は、出力部400から最適化された信号パラメータsの入力を受け付ける。また、入力部500は、複数の交通信号機を含むエリアの交通状況を評価環境情報θとして、入力を受け付ける。
そして、入力部500は、受け付けた最適化された信号パラメータs及び評価環境情報θを、制御部510に渡す。
制御部510は、評価環境情報θと、最適化された信号パラメータsとを用いて、複数の交通信号機を制御する。
具体的には、制御部510は、複数の交通信号機の各々に対し、最適化された信号パラメータsに基づいて、信号灯色を切り替える、維持する、点滅させる等の命令を行う。
また、制御部510は、複数の交通信号機の各々に対して命令を行った後の交通状況を表す評価環境情報θを、出力部520に渡す。
出力部520は、評価環境情報θを、最適化装置10の評価環境取得部110に渡す。
<本発明の実施の形態に係る最適化装置の作用>
図3は、本発明の実施の形態に係る最適化処理ルーチンを示すフローチャートである。
評価環境取得部110に評価環境情報θが入力されると、最適化置10において、図3に示す最適化処理ルーチンが実行される。
まず、ステップS100において、評価部300は、評価用データ記憶部200から評価用データを取得する。
次に、ステップS110において、t=1とする。
ステップS120において、評価環境取得部110は、管制装置50の出力部520から、評価環境に関する情報である評価環境情報θを取得する。
ステップS130において、探索点候補生成部120は、評価データ記憶部140から複数の信号パラメータsを取得する。
ステップS140において、探索点候補生成部120は、上記ステップS130により取得した信号パラメータsに基づいて、探索点の候補となる信号パラメータであるj個の探索点候補を生成する。
ステップS150において、探索点判定部130は、信号パラメータと評価環境情報との組み合わせを入力として良い評価値となるか否かを判別するように学習された判別器cを用いて、j個の探索点候補の各々について、当該探索点候補の信号パラメータと評価環境取得部110が取得した評価環境に関する情報との組み合わせを判別器cに入力したときに良い評価値となるか否かを判別する。
ステップS160において、探索点判定部130は、良い評価値となると判別された探索点候補のうち、ランダムにk個抽出して、k個の探索点とする。
ステップS170において、評価部300は、k個の探索点のうち、1番目の探索点を選択する。
ステップS180において、評価部300は、選択された探索点となる信号パラメータsと、評価用データとを用いて、計算の結果を評価する指標である評価値lを計算する。
ステップS190において、評価部300は、選択された探索点の信号パラメータsと評価値lとの組をデータ点として、評価データ記憶部140に格納する。
ステップS200において、評価部300は、全ての探索点について、上記処理を行ったか否かを判定する。
全ての探索点について処理を行っていない場合(ステップS200のNO)、ステップS210において、評価部300は、次の探索点を選択し、ステップS180に戻る。
全ての探索点について処理を行っている場合(ステップS200のYES)、ステップS220において、学習部150は、評価データ記憶部140に格納された複数のデータ点と複数の評価環境情報θに関する情報とを用いて、判別器cを学習する。
ステップS230において、評価部300は、シミュレーションを行った回数tが、予め定めたシミュレーションを繰り返す最大回数を超えているか否かを判定する。
tが最大回数を超えていない場合(ステップS230のNO)、ステップS240において、tにt+kを代入して、ステップS120~ステップS220の処理を繰り返す。
一方、tが最大回数を超えている場合(ステップS230のYES)、ステップS250において、出力部400は、最適化された信号パラメータsを出力する。
<本発明の実施の形態に係る最適化装置の実験結果>
次に、本実施形態に係る最適化装置10を適用して行った実験結果について説明する。
ルクセンブルク市の交通渋滞緩和タスクで、199交差点、約1500次元の信号パラメータを最適化する実験を行った(参考文献1)。
[参考文献1]Codeca, L., Frank, R., Faye, S., & Engel, T., "Luxembourg SUMO Traffic (LuST) Scenario: Traffic Demand Evaluation", IEEE Intelligent Transportation Systems Magazine, 9(2), 2017, p.p.52-63.
また、非特許文献3の遺伝的アルゴリズム(GA)を用いた場合の結果を比較対象とした。
図4は、本発明の実施の形態に係る最適化装置10を用いた場合の探索回数と、損失時間との関係を表す図である。
図4に示すように、本実施形態の手法を用いると、(1)遺伝的アルゴリズム(GA)と比べて約1万倍探索を効率化することができ、(2)評価回数が1000~10万回など多い場合にも動作し、指標が改善されるという結果を得ることができた。
以上説明したように、本実施形態に係る最適化装置によれば、複数の計算に用いたパラメータに基づいて生成した、探索点の候補となるパラメータである複数の探索点候補の各々について、評価部が計算に用いたパラメータと、評価部により計算に用いたパラメータを探索点として計算された評価値との組からなる複数のデータ点を用いて、探索点候補を探索点とするか否かを判定することにより、少ない評価回数で、パラメータの最適化を行うことができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
上述の実施形態では、判別器cの学習は、最適化部100による最適化処理の中で行われる構成として説明したが、この例に限定されるものではなく、評価データ記憶部140のデータを用いてバッチ処理として実施されても良い。
例えば、判別器cの学習に時間がかかる場合、最適化部100の処理と並行して学習させ、学習が完了したところで探索点判定部130のモデルとして更新することや、最適化部100の処理が行われていない間にバッチ処理として学習させたものを用いることにより、最適化部100の処理時間を短縮することができる。
また、本実施形態では、評価として交通シミュレーションを、パラメータとして信号パラメータを選択した場合について説明したが、これに限定されるものではない。例えば、他の実施形態として、誘導員を用いた群衆の誘導にも適用することができる。この場合は、評価として人流シミュレーションを、パラメータとして誘導員の配置場所及び誘導方法を選択すればよい。
また、他の実施形態として、機械学習のハイパーパラメータの最適化にも適用することができる。この場合には、評価として機械学習モデルの学習を、パラメータとしてハイパーパラメータを選択すればよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供する、最適化装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることも可能である。
1 交通信号制御システム
10 最適化装置
50 管制装置
100 最適化部
110 評価環境取得部
120 探索点候補生成部
130 探索点判定部
140 評価データ記憶部
150 学習部
200 評価用データ記憶部
300 評価部
400 出力部
500 入力部
510 制御部
520 出力部

Claims (4)

  1. 評価用データを入力として計算するときに用いられるパラメータを最適化する最適化装置であって、
    探索点となる前記パラメータと、前記評価用データとを用いて、前記計算の結果を評価する指標である評価値を計算する評価部と、
    前記パラメータを最適化する最適化部と、
    前記評価部による処理と、前記最適化部による処理とを繰り返すことにより得られる、最適化されたパラメータを出力する出力部と、
    を含み、
    前記最適化部は、
    複数の評価環境に関する情報を取得する評価環境取得部と、
    前記評価部が計算に用いたパラメータと、前記評価部により前記計算に用いたパラメータを探索点として計算された前記評価値との組からなる複数のデータ点を、前記評価環境取得部が取得した前記評価環境に関する情報と対応付けて格納する評価データ記憶部と、
    前記評価データ記憶部に格納された複数の前記計算に用いたパラメータに基づいて、探索点の候補となるパラメータである複数の探索点候補を生成する探索点候補生成部と、
    前記探索点候補生成部により生成された前記複数の探索点候補の各々について、前記探索点候補が良い評価値となるか否かを判別するように学習された判別器を用いて、前記複数の探索点候補の各々について、前記探索点候補のパラメータと前記評価環境取得部が取得した前記評価環境に関する情報との組み合わせを前記判別器に入力したときに良い評価値となると判別された場合に、前記探索点候補を探索点とする探索点判定部と、
    前記評価データ記憶部に格納された前記複数のデータ点と前記複数の評価環境に関する情報とを用いて、前記複数のデータ点の各々のパラメータに前記評価値に応じてラベルを付与し、前記判別器を学習する学習部と、
    を含む最適化装置。
  2. 前記探索点候補生成部は、
    前記パラメータの各要素の変域からサンプリングを行うこと、又は前記評価データ記憶部に格納された前記複数のデータ点の各々のパラメータに対して遺伝的アルゴリズムを用いることにより、前記複数の探索点候補を生成する
    請求項記載の最適化装置。
  3. 評価用データを入力として計算するときに用いられるパラメータを最適化する最適化装置に用いられる最適化方法であって、
    評価部が、探索点となる前記パラメータと、前記評価用データとを用いて、前記計算の結果を評価する指標である評価値を計算するステップと、
    最適化部が、前記パラメータを最適化するステップと、
    出力部が、前記評価部による処理と、前記最適化部による処理とを繰り返すことにより得られる、最適化されたパラメータを出力するステップと、
    を含み、
    前記最適化部が最適化するステップは、
    評価環境取得部が評価環境に関する情報を取得するステップと、
    評価データ記憶部が、前記評価部が計算に用いたパラメータと、前記評価部により前記計算に用いたパラメータを探索点として計算された前記評価値との組からなる複数のデータ点を、前記評価環境取得部が取得した前記評価環境に関する情報と対応付けて格納するステップと、
    探索点候補生成部が、前記評価データ記憶部に格納された複数の前記計算に用いたパラメータに基づいて、探索点の候補となるパラメータである複数の探索点候補を生成するステップと、
    探索点判定部が、前記探索点候補生成部により生成された前記複数の探索点候補の各々について、前記探索点候補が良い評価値となるか否かを判別するように学習された判別器を用いて、前記複数の探索点候補の各々について、前記探索点候補のパラメータと前記評価環境取得部が取得した前記評価環境に関する情報との組み合わせを前記判別器に入力したときに良い評価値となると判別された場合に、前記探索点候補を探索点とするステップと、
    学習部が、前記評価データ記憶部に格納された前記複数のデータ点と前記複数の評価環境に関する情報とを用いて、前記複数のデータ点の各々のパラメータに前記評価値に応じてラベルを付与し、前記判別器を学習するステップと、
    を含む最適化方法。
  4. コンピュータを、請求項1又は2記載の最適化装置の各部として機能させるためのプログラム。
JP2018087589A 2018-04-27 2018-04-27 最適化装置、最適化方法、及びプログラム Active JP7059781B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018087589A JP7059781B2 (ja) 2018-04-27 2018-04-27 最適化装置、最適化方法、及びプログラム
PCT/JP2019/017450 WO2019208639A1 (ja) 2018-04-27 2019-04-24 最適化装置、最適化方法、及びプログラム
US17/050,773 US20210241123A1 (en) 2018-04-27 2019-04-24 Optimization device, optimization method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018087589A JP7059781B2 (ja) 2018-04-27 2018-04-27 最適化装置、最適化方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019192160A JP2019192160A (ja) 2019-10-31
JP7059781B2 true JP7059781B2 (ja) 2022-04-26

Family

ID=68295192

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018087589A Active JP7059781B2 (ja) 2018-04-27 2018-04-27 最適化装置、最適化方法、及びプログラム

Country Status (3)

Country Link
US (1) US20210241123A1 (ja)
JP (1) JP7059781B2 (ja)
WO (1) WO2019208639A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7059214B2 (ja) * 2019-01-31 2022-04-25 株式会社日立製作所 演算装置
TWI753329B (zh) 2019-12-06 2022-01-21 財團法人工業技術研究院 具風險評估之最佳取樣參數搜尋系統、方法與圖案化使用者介面
CN113886989B (zh) * 2021-10-08 2024-03-29 长江大学 一种基于机器学习的石油钻井的参数优化方法及***
CN117594242B (zh) * 2024-01-19 2024-04-09 浙江大学 人体疲劳度评估优化方法、装置、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017157112A (ja) 2016-03-03 2017-09-07 三菱日立パワーシステムズ株式会社 制御パラメータ自動調整装置、制御パラメータ自動調整方法、及び制御パラメータ自動調整装置ネットワーク

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3399421B2 (ja) * 1999-11-05 2003-04-21 住友電気工業株式会社 交通信号制御装置
JP2003016582A (ja) * 2001-07-03 2003-01-17 Matsushita Electric Ind Co Ltd 信号制御装置および方法
US7398257B2 (en) * 2003-12-24 2008-07-08 Yamaha Hatsudoki Kabushiki Kaisha Multiobjective optimization apparatus, multiobjective optimization method and multiobjective optimization program
JP4857214B2 (ja) * 2007-07-27 2012-01-18 パナソニック株式会社 交通信号制御パラメータ設計装置及び交通信号制御パラメータ生成方法
EP2187369A3 (en) * 2008-06-04 2012-03-28 Roads and Traffic Authority of New South Wales Traffic signals control system
JP5565289B2 (ja) * 2010-12-08 2014-08-06 富士通株式会社 探索プログラム、探索方法及び探索処理装置
WO2015198156A1 (en) * 2014-06-17 2015-12-30 King Abdullah University Of Science And Technology System and method for traffic signal timing estimation
JP5954750B2 (ja) * 2014-06-30 2016-07-20 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、及びプログラム
US20180096595A1 (en) * 2016-10-04 2018-04-05 Street Simplified, LLC Traffic Control Systems and Methods

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017157112A (ja) 2016-03-03 2017-09-07 三菱日立パワーシステムズ株式会社 制御パラメータ自動調整装置、制御パラメータ自動調整方法、及び制御パラメータ自動調整装置ネットワーク

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Vijini Mallawaarachchi,"Introduction to Genetic Algorithms - Including Example Code" [online],2017年07月08日,[令和3年9月13日検索],インターネット<URL: https://towardsdatascience.com/introduction-to-genetic-algorithms-including-example-code-e396e98d8bf3>
Yang Yu,外2名,"Derivative-Free Optimization via Classification" [online],Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence (AAAI-16),2016年03月02日,p.2286-2292,[令和3年9月13日検索],インターネット<URL:https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/view/12367/11874>
武藤 敦子,外3名,「出生前淘汰による遺伝的アルゴリズムの効率化」,情報処理学会研究報告,日本,社団法人情報処理学会 Information Processing Society of Japan,2002年09月20日,Vol.2002 No.89,p.13-16

Also Published As

Publication number Publication date
JP2019192160A (ja) 2019-10-31
WO2019208639A1 (ja) 2019-10-31
US20210241123A1 (en) 2021-08-05

Similar Documents

Publication Publication Date Title
JP7059781B2 (ja) 最適化装置、最適化方法、及びプログラム
JP5070574B2 (ja) 局所交通量予測プログラム生成装置、局所交通量予測装置、局所交通量予測プログラム生成方法、局所交通量予測方法及びプログラム
Koh et al. Reinforcement learning for vehicle route optimization in SUMO
JP4857214B2 (ja) 交通信号制御パラメータ設計装置及び交通信号制御パラメータ生成方法
Bazzan et al. An evolutionary approach to traffic assignment
CN115560771A (zh) 基于采样的路径规划方法及装置、自动行驶设备
Adacher et al. The global optimization of signal settings and traffic assignment combined problem: a comparison between algorithms.
WO2020162205A1 (ja) 最適化装置、方法、及びプログラム
CN117114220A (zh) 一种基于图神经网络的车辆调度算法
JP2018101205A (ja) ネットワーク状態推定装置及びプログラム
Zhang et al. Conditional random fields for multi-agent reinforcement learning
Gamarra et al. Deep learning for traffic prediction with an application to traffic lights optimization
Sakaya et al. Importance sampled stochastic optimization for variational inference
JP6785741B2 (ja) 最適化装置、交通信号制御システム、パラメータ探索装置、最適化方法、及びプログラム
JP7491468B2 (ja) 経路生成装置、経路計画装置、経路生成方法、及び経路計画方法
Werth et al. Surrogate-assisted microscopic traffic simulation-based optimisation of routing parameters
JP7006566B2 (ja) 最適化装置、誘導システム、最適化方法、及びプログラム
Padmasiri et al. Genetic programming tuned fuzzy controlled traffic light system
Saeed et al. Domain-aware multiagent reinforcement learning in navigation
Sofronova Evolutionary computations for traffic signals optimization
JP6718338B2 (ja) 連続値最適化問題の大域的探索装置及びプログラム
CN111858695A (zh) 路段数据筛选方法、***和存储介质
SEP Solving the problem of multiple travelling salesman problem using hybrid gravitational algorithm
KR20150050603A (ko) 경로 탐색 방법 및 그 장치
CN111832797B (zh) 数据处理方法、数据处理装置、存储介质和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220328

R150 Certificate of patent or registration of utility model

Ref document number: 7059781

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150