JP7396367B2 - 制御装置、制御システム、及びプログラム - Google Patents
制御装置、制御システム、及びプログラム Download PDFInfo
- Publication number
- JP7396367B2 JP7396367B2 JP2021554479A JP2021554479A JP7396367B2 JP 7396367 B2 JP7396367 B2 JP 7396367B2 JP 2021554479 A JP2021554479 A JP 2021554479A JP 2021554479 A JP2021554479 A JP 2021554479A JP 7396367 B2 JP7396367 B2 JP 7396367B2
- Authority
- JP
- Japan
- Prior art keywords
- control
- action
- value function
- state
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006870 function Effects 0.000 claims description 102
- 230000009471 action Effects 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 36
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000008901 benefit Effects 0.000 claims description 8
- 238000004088 simulation Methods 0.000 description 81
- 238000012545 processing Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 8
- 230000002787 reinforcement Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 6
- 238000011217 control strategy Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
- G08G1/0133—Traffic data processing for classifying traffic situation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
- G08G1/0145—Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/005—Traffic control systems for road vehicles including pedestrian guidance indicator
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Traffic Control Systems (AREA)
Description
まず、本実施形態に係る制御システム1の全体構成について、図1を参照しながら説明する。図1は、本実施形態に係る制御システム1の全体構成の一例を示す図である。
次に、本実施形態に係る制御装置10のハードウェア構成について、図2を参照しながら説明する。図2は、本実施形態に係る制御装置10のハードウェア構成の一例を示す図である。
ここで、本実施形態の一実施例を設定する。
人流を制御する実環境に合致するように、本実施形態では、シミュレーション環境をシミュレーション設定情報により次のように設定する。
本実施形態では、強化学習における状態sや報酬r、各種関数等を次のように設定する。
次に、シミュレータ上で価値関数パラメータθを学習するための学習処理について、図4を参照しながら説明する。図4は、本実施形態に係る学習処理の一例を示すフローチャートである。
ここで、上記のステップS103におけるシミュレーション処理について、図6を参照しながら説明する。図6は、本実施形態に係るシミュレーション処理の一例を示すフローチャートである。なお、以降のステップS201~ステップS211はシミュレーション時刻τ毎に繰り返し実行される。そこで、以降では、或るシミュレーション時刻τのときのシミュレーション処理について説明する。
次に、上記のステップS103におけるシミュレータ上での制御処理について、図7を参照しながら説明する。図7は、本実施形態に係るシミュレータ上での制御処理の一例を示すフローチャートである。なお、以降のステップS301~ステップS305は制御ステップt毎に繰り返し実行される。そこで、以降では、或るステップtのときのシミュレータ上での制御処理について説明する。
次に、上記の学習処理で学習された価値関数パラメータθを用いた最適方策πθ *により実制御を行う実制御処理について、図8を参照しながら説明する。図8は、本実施形態に係る実制御処理の一例を示すフローチャートである。なお、以降のステップS401~ステップS403は制御ステップt毎に繰り返し実行される。そこで、以降では、或るステップtのときの実制御処理について説明する。
次に、本実施形態の手法の評価について説明する。本評価では、以下の設定の下で一般的なPC(パーソナルコンピュータ)を用いて、本実施形態の手法と他の制御手法との比較を行った。なお、他の制御手法としては、Open all gatesとRandom greedyとを採用した。Open all gatesは常に全てのゲートを開く場合(つまり、常に全てのゲートを開き、制御を行わなかった場合)のことであり、Random greedyは現在最も良い方策の一部をランダムに変更して更に良い方策を探索して制御を行う方法のことである。Random greedyではシナリオ毎に探索し、解(制御策)を得る必要がある。一方で、本実施形態では、学習済みのモデル(つまり、学習済みのパラメータが設定された価値評価関数)を利用して解(制御策)を得るため、一度学習を終えると、シナリオ毎に探索する必要はない。なお、シナリオとは、シミュレーション設定情報が表すシミュレーション環境のことである。
・シミュレーション時間(シミュレーションの終了時刻τ´):20,000[s]
・インターバル:Δ=600[s]
・シミュレーション設定情報:人の流入パターンが異なる8つのシナリオを準備
・学習率:0.001
・Advanced step:34(シミュレーションが完了するまで)
・Worker数:16
なお、上記以外の各種設定は、<実施例の設定>で述べた通りであるものとする。Worker数とは或る制御ステップで並列に実行可能なエージェント数である。この場合、16個のエージェントがそれぞれ選択した行動aとそのときの報酬rを全て学習に用いる。
10 制御装置
20 外部センサ
30 指示装置
101 シミュレーション部
102 学習部
103 制御部
104 シミュレーション設定情報記憶部
105 価値関数パラメータ記憶部
Claims (5)
- A2Cにおけるエージェントの制御ステップt毎に、シミュレータ上で出発地から目的地までの人流に関する交通状況を観測した状態stを用いて、前記人流を制御するための行動atを方策πに従って選択する制御手段と、
前記方策πの下で前記状態stにおいて前記行動atを選択することの価値を表す行動価値関数と、前記方策πの下で前記状態stの価値を表す状態価値関数とで表されるアドバンテージ関数を実現するニューラルネットワークのパラメータを学習する学習手段と、
を有し、
前記行動a t は、前記目的地に入るために設置された複数のゲートの開閉パターンを表す制御策であり、
前記行動a t により前記複数のゲートの開閉を制御した場合における移動体数を、前記複数のゲートの全てが常に開いているとした場合における移動体数で正規化した値を報酬r t+1 として、
前記行動価値関数は、割引された前記報酬r t+1 のkステップ先までの和と割引された前記状態価値関数との和で表される、ことを特徴とする制御装置。 - 前記パラメータを学習するための損失関数は、前記状態価値関数に関する損失関数と、前記行動価値関数に関する損失関数と、前記学習の初期での乱雑性を考慮した項との和で表され、
前記学習手段は、
各制御ステップtで前記損失関数によって計算された損失を用いて、誤差逆伝播法により前記パラメータを学習する、ことを特徴とする請求項1に記載の制御装置。 - 前記制御手段は、
更に、制御ステップt毎に、実環境上の人流に関する交通状況を観測したstと、前記学習手段により学習されたパラメータとを用いて、前記方策πに従って前記行動atを選択する、ことを特徴とする請求項1又は2に記載の制御装置。 - A2Cにおけるエージェントの制御ステップt毎に、シミュレータ上で出発地から目的地までの人流に関する交通状況を観測した状態stを用いて、前記人流を制御するための行動atを方策πに従って選択する制御手段と、
前記方策πの下で前記状態stにおいて前記行動atを選択することの価値を表す行動価値関数と、前記方策πの下で前記状態stの価値を表す状態価値関数とで表されるアドバンテージ関数を実現するニューラルネットワークのパラメータを学習する学習手段と、
を有し、
前記行動a t は、前記目的地に入るために設置された複数のゲートの開閉パターンを表す制御策であり、
前記行動a t により前記複数のゲートの開閉を制御した場合における移動体数を、前記複数のゲートの全てが常に開いているとした場合における移動体数で正規化した値を報酬r t+1 として、
前記行動価値関数は、割引された前記報酬r t+1 のkステップ先までの和と割引された前記状態価値関数との和で表される、ことを特徴とする制御システム。 - コンピュータを、請求項1乃至3の何れか一項に記載の制御装置における各手段として機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/043537 WO2021090413A1 (ja) | 2019-11-06 | 2019-11-06 | 制御装置、制御システム、制御方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021090413A1 JPWO2021090413A1 (ja) | 2021-05-14 |
JP7396367B2 true JP7396367B2 (ja) | 2023-12-12 |
Family
ID=75848824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021554479A Active JP7396367B2 (ja) | 2019-11-06 | 2019-11-06 | 制御装置、制御システム、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220398497A1 (ja) |
JP (1) | JP7396367B2 (ja) |
WO (1) | WO2021090413A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023053287A1 (ja) * | 2021-09-29 | 2023-04-06 | 日本電信電話株式会社 | 配送計画装置、配送計画方法、及びプログラム |
KR20240119134A (ko) * | 2022-01-28 | 2024-08-06 | 딥마인드 테크놀로지스 리미티드 | 포인팅 장치와 키보드 액션을 사용하여 컴퓨터 제어 학습 |
WO2024042586A1 (ja) * | 2022-08-22 | 2024-02-29 | 日本電信電話株式会社 | 交通分散制御システム、方法、及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017162385A (ja) | 2016-03-11 | 2017-09-14 | トヨタ自動車株式会社 | 情報提供装置及び情報提供プログラム |
WO2018110305A1 (ja) | 2016-12-14 | 2018-06-21 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
JP2019082809A (ja) | 2017-10-30 | 2019-05-30 | 日本電信電話株式会社 | 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6845529B2 (ja) * | 2017-11-08 | 2021-03-17 | 本田技研工業株式会社 | 行動決定システム及び自動運転制御装置 |
-
2019
- 2019-11-06 JP JP2021554479A patent/JP7396367B2/ja active Active
- 2019-11-06 WO PCT/JP2019/043537 patent/WO2021090413A1/ja active Application Filing
- 2019-11-06 US US17/774,098 patent/US20220398497A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017162385A (ja) | 2016-03-11 | 2017-09-14 | トヨタ自動車株式会社 | 情報提供装置及び情報提供プログラム |
WO2018110305A1 (ja) | 2016-12-14 | 2018-06-21 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
JP2019082809A (ja) | 2017-10-30 | 2019-05-30 | 日本電信電話株式会社 | 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム |
Non-Patent Citations (3)
Title |
---|
CHU, Tianshu et al.,Multi-Agent Deep Reinforcement Learning for Large-Scale Traffic Signal Control,IEEE Transactions Intelligent Transaction Systems,IEEE,2019年03月15日,p.1-10 |
佐藤 聖,人工知能アルゴリズム大百科,Interface,日本,CQ出版株式会社,2019年02月01日,第45巻,第2号,p.30~59 |
水上 直紀,報酬が疎な環境に適した深層強化学習法,情報処理学会 論文誌(ジャーナル),日本,情報処理学会,2019年03月15日,第60巻,第3号,p.956-966 |
Also Published As
Publication number | Publication date |
---|---|
WO2021090413A1 (ja) | 2021-05-14 |
US20220398497A1 (en) | 2022-12-15 |
JPWO2021090413A1 (ja) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022121510A1 (zh) | 基于随机策略梯度的交通信号控制方法、***及电子设备 | |
JP7396367B2 (ja) | 制御装置、制御システム、及びプログラム | |
US20220374712A1 (en) | Decision making for motion control | |
EP3586277B1 (en) | Training policy neural networks using path consistency learning | |
CN112997128B (zh) | 一种自动驾驶场景的生成方法、装置及*** | |
JP2022516383A (ja) | 自律型車両の計画 | |
EP3035314A1 (en) | A traffic data fusion system and the related method for providing a traffic state for a network of roads | |
Coşkun et al. | Deep reinforcement learning for traffic light optimization | |
Yoon et al. | Transferable traffic signal control: Reinforcement learning with graph centric state representation | |
Wu et al. | Probabilistic map-based pedestrian motion prediction taking traffic participants into consideration | |
CN114139637B (zh) | 多智能体信息融合方法、装置、电子设备及可读存储介质 | |
Wang et al. | Autonomous ramp merge maneuver based on reinforcement learning with continuous action space | |
Keller et al. | Towards data-driven simulation modeling for mobile agent-based systems | |
Anderson et al. | Navigation and conflict resolution | |
US20200250586A1 (en) | Parameter estimation system, parameter estimation method, and parameter estimation program recording medium | |
Wang et al. | Autonomous driving based on approximate safe action | |
Zhang et al. | Intention recognition for multiple agents | |
CN110749325B (zh) | 航迹规划方法和装置 | |
KR20220090732A (ko) | 리스크 척도를 나타내는 파라미터에 기반하여 훈련된 모델을 사용하여, 주어진 상황에 대한 디바이스의 행동을 결정하는 방법 및 시스템 | |
Mohammed et al. | Reinforcement learning and deep neural network for autonomous driving | |
KR20230024392A (ko) | 주행 의사 결정 방법 및 장치 및 칩 | |
Grönberg et al. | Autonomous driving in crossings using reinforcement learning | |
Bougie12 et al. | Rule-based Reinforcement Learning augmented by External Knowledge | |
Grytoyr | Evacuation plans using Multi-Agent Reinforcement Learning (MARL) | |
Chrestien et al. | A Differentiable Loss Function for Learning Heuristics in A |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220401 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7396367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |