JP7048455B2 - 学習装置、シミュレーションシステム、学習方法、およびプログラム - Google Patents

学習装置、シミュレーションシステム、学習方法、およびプログラム Download PDF

Info

Publication number
JP7048455B2
JP7048455B2 JP2018161908A JP2018161908A JP7048455B2 JP 7048455 B2 JP7048455 B2 JP 7048455B2 JP 2018161908 A JP2018161908 A JP 2018161908A JP 2018161908 A JP2018161908 A JP 2018161908A JP 7048455 B2 JP7048455 B2 JP 7048455B2
Authority
JP
Japan
Prior art keywords
reward
learning
information
vehicle
simulator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018161908A
Other languages
English (en)
Other versions
JP2020035221A (ja
Inventor
建 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2018161908A priority Critical patent/JP7048455B2/ja
Priority to CN201910799036.3A priority patent/CN110871811B/zh
Priority to US16/553,309 priority patent/US11544556B2/en
Publication of JP2020035221A publication Critical patent/JP2020035221A/ja
Application granted granted Critical
Publication of JP7048455B2 publication Critical patent/JP7048455B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Traffic Control Systems (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、学習装置、シミュレーションシステム、学習方法、およびプログラムに関する。
近年、車両が自律的に走行する自動運転の分野において、AI(人工知能)・機械学習によって走行プランを決定しようとする試みがなされている。また、観測値に基づいて行動を決定し、実環境やシミュレータからのフィードバックに基づく報酬を計算してモデルパラメータを最適化する強化学習についても研究および実用化が進められている。これに関連し、車両の状態を変更させるための操作量を、強化学習によって生成する方法が開示されている(特許文献1参照)。
特開2007-65929号公報
強化学習において、シミュレータ上では、複数の動作主体が動作する環境が想定される場合がある。従来の技術では、複数の動作主体の動作をそれぞれ規定するための仕組みが十分に検討されておらず、実空間に近いシミュレーション環境で学習を行うことができない場合があった。
本発明は、このような事情を考慮してなされたものであり、より実空間に近いシミュレーション環境で学習を行うことができる学習装置、シミュレーションシステム、学習方法、およびプログラムを提供することを目的の一つとする。
この発明に係る学習装置、学習方法、またはプログラムは、以下の構成を採用した。
(1):本発明の一態様に係る学習装置は、複数の個別学習部を備える学習装置であって、それぞれの個別学習部は、自身に対応する動作主体の動作を規定する情報を生成するプランナと、前記動作主体の動作を規定する情報に基づく情報をシミュレータに入力することで前記シミュレータから得られる帰還情報を含む被評価情報を評価した報酬を導出する報酬導出部と、を備え、前記プランナは、前記報酬導出部により導出された報酬に基づく強化学習を行い、前記複数の個別学習部のうち少なくとも二つは、前記報酬導出部が導出する報酬が最大化される動作が異なる学習装置である。
(2):上記(1)の態様において、前記複数の個別学習部のうち少なくとも二つは、前記プランナが情報を生成する前提となる動作主体の動作特性が異なるもの。
(3):上記(1)または(2)の態様において、前記複数の個別学習部のうち少なくとも二つは、前記報酬導出部が前記被評価情報を評価する規則が異なるもの。
(4):上記(1)から(3)のうちいずれかの態様において、前記動作とは、移動であるもの。
(5):本発明の他の態様に係るシミュレーションシステムは、上記(1)から(4)のいずれかの態様の学習装置と、前記シミュレータと、を備えるシミュレーションシステムである。
(6):本発明の他の態様に係る学習方法は、コンピュータが、複数の個別学習部として機能し、それぞれの個別学習部は、自身に対応する動作主体の動作を規定する情報を生成し、前記動作主体の動作を規定する情報に基づく情報をシミュレータに入力することで前記シミュレータから得られる帰還情報を含む被評価情報を評価した報酬を導出し、前記導出された報酬に基づく強化学習を行い、前記複数の個別学習部のうち少なくとも二つは、前記報酬が最大化される動作が異なる学習方法である。
(7):本発明の他の態様に係るプログラムは、コンピュータを、複数の個別学習部として機能させ、それぞれの個別学習部は、自身に対応する動作主体の動作を規定する情報を生成し、前記動作主体の動作を規定する情報に基づく情報をシミュレータに入力することで前記シミュレータから得られる帰還情報を含む被評価情報を評価した報酬を導出し、前記導出された報酬に基づく強化学習を行い、前記複数の個別学習部のうち少なくとも二つは、前記報酬が最大化される動作が異なる、プログラムである。
(1)~(7)の態様によれば、より実空間に近いシミュレーション環境で学習を行うことができる。
学習装置300の役割について説明するための図である。 車両1の構成図である。 第1制御部120および第2制御部160の機能構成図である。 学習装置300の構成図である。 プランナ310による処理の内容を模式的に示す図である。 個別学習部300(1)の構成図である。 用途毎報酬関数マップ370に含まれる報酬関数マップのそれぞれを例示した図である。 用途毎報酬関数マップ370に含まれる報酬関数マップのそれぞれを例示した図である。 用途毎報酬関数マップ370に含まれる報酬関数マップのそれぞれを例示した図である。 用途毎報酬関数マップ370に含まれる報酬関数マップのそれぞれを例示した図である。 用途毎報酬関数マップ370に含まれる報酬関数マップのそれぞれを例示した図である。 用途毎報酬関数マップ370に含まれる報酬関数マップのそれぞれを例示した図である。 学習装置300により実行される処理の流れの一例を示すフローチャートである。 学習装置300のハードウェア構成の一例を示す図である。
以下、図面を参照し、本発明の学習装置、シミュレーションシステム、学習方法、およびプログラムの実施形態について説明する。
[概要]
図1は、学習装置300の役割について説明するための図である。学習装置300は、一以上のプロセッサにより実現される。学習装置300は、内部演算によって導出した行動(アクション)をシミュレータ400に入力し、それによって生じた環境の変化等に基づく報酬を導出または取得し、報酬を最大化する行動(動作)を学習する装置である。動作とは、例えば、シミュレーション空間上での移動である。移動以外の動作が学習対象とされてもよいが、以下の説明では動作とは移動を意味するものとする。シミュレータ400は、学習装置300との間で、地図情報などの、シミュレーションの前提となる環境情報を共有する。学習装置300の学習結果は、行動決定モデルとして車両1に搭載される。学習装置300とシミュレータ400を合わせたものが、シミュレーションシステムSである。
行動決定モデルは、車両1に搭載されたAI(Artificial Intelligence;人工知能)を動作させるためのパラメータであってもよいし、ルールベースで行動を決定する際のパラメータであってもよいし、それらの両者を含んでもよい。行動決定モデルは、複数の性格を有する行動決定モデル群であってもよいし、車両1の利用者が選択した性格を有する行動決定モデルであってもよい。
シミュレータ400は、車両1と同等の性能を有する仮想車両、その他の交通参加者(動作者の一例)を、学習装置300から指示された動作情報に基づいてシミュレーション環境上で同時に動作させ、各交通参加者の位置変化などを反映させた帰還情報を学習装置300に返す。
[車両]
まず、行動決定モデルを搭載する対象の車両1の一例について説明する。車両1は、少なくとも部分的に、自動的に(運転者の操作に依らずに)走行(走る、曲がる、止まる)を制御する自動運転車両(或いは運転支援機能付き車両)である。
図2は、車両1の構成図である。車両1は、例えば、二輪や三輪、四輪等の車両であり、その駆動源は、ディーゼルエンジンやガソリンエンジンなどの内燃機関、電動機、或いはこれらの組み合わせである。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。
車両1は、例えば、カメラ10と、レーダ装置12と、ファインダ14と、物体認識装置16と、通信装置20と、HMI(Human Machine Interface)30と、車両センサ40と、ナビゲーション装置50と、MPU(Map Positioning Unit)60と、運転操作子80と、自動運転制御装置100と、走行駆動力出力装置200と、ブレーキ装置210と、ステアリング装置220とを備える。これらの装置や機器は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。
カメラ10は、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の固体撮像素子を利用したデジタルカメラである。カメラ10は、車両1の任意の箇所に取り付けられる。レーダ装置12は、車両1の周辺にミリ波などの電波を放射すると共に、物体によって反射された電波(反射波)を検出して少なくとも物体の位置(距離および方位)を検出する。ファインダ14は、LIDAR(Light Detection and Ranging)である。ファインダ14は、車両1の周辺に光を照射し、散乱光を測定する。ファインダ14は、発光から受光までの時間に基づいて、対象までの距離を検出する。照射される光は、例えば、パルス状のレーザー光である。物体認識装置16は、カメラ10、レーダ装置12、およびファインダ14のうち一部または全部による検出結果に対してセンサフュージョン処理を行って、物体の位置、種類、速度などを認識する。物体認識装置16は、認識結果を自動運転制御装置100に出力する。物体認識装置16は、カメラ10、レーダ装置12、およびファインダ14の検出結果をそのまま自動運転制御装置100に出力してよい。
通信装置20は、例えば、セルラー網やWi-Fi網、Bluetooth(登録商標)、DSRC(Dedicated Short Range Communication)などを利用して、車両1の周辺に存在する他車両と通信し、或いは無線基地局を介して各種サーバ装置と通信する。HMI30は、車両1の乗員に対して各種情報を提示すると共に、乗員による入力操作を受け付ける。HMI30は、各種表示装置、スピーカ、ブザー、タッチパネル、スイッチ、キーなどを含む。車両センサ40は、車両1の速度を検出する車速センサ、加速度を検出する加速度センサ、鉛直軸回りの角速度を検出するヨーレートセンサ、車両1の向きを検出する方位センサ等を含む。
ナビゲーション装置50は、例えば、GNSS(Global Navigation Satellite System)受信機51と、ナビHMI52と、経路決定部53とを備える。ナビゲーション装置50は、HDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置に第1地図情報54を保持している。GNSS受信機51は、GNSS衛星から受信した信号に基づいて、車両1の位置を特定する。車両1の位置は、車両センサ40の出力を利用したINS(Inertial Navigation System)によって特定または補完されてもよい。ナビHMI52は、表示装置、スピーカ、タッチパネル、キーなどを含む。経路決定部53は、例えば、GNSS受信機51により特定された車両1の位置(或いは入力された任意の位置)から、ナビHMI52を用いて乗員により入力された目的地までの経路(以下、地図上経路)を、第1地図情報54を参照して決定する。第1地図情報54は、例えば、道路を示すリンクと、リンクによって接続されたノードとによって道路形状が表現された情報である。地図上経路は、MPU60に出力される。ナビゲーション装置50は、例えば、乗員の保有するスマートフォンやタブレット端末等の端末装置の機能によって実現されてもよい。ナビゲーション装置50は、通信装置20を介してナビゲーションサーバに現在位置と目的地を送信し、ナビゲーションサーバから地図上経路と同等の経路を取得してもよい。
MPU60は、例えば、推奨車線決定部61を含み、HDDやフラッシュメモリなどの記憶装置に第2地図情報62を保持している。第2地図情報62は、第1地図情報54よりも高精度な地図情報である。推奨車線決定部61は、ナビゲーション装置50から提供された地図上経路を複数のブロックに分割し(例えば、車両進行方向に関して100[m]毎に分割し)、第2地図情報62を参照してブロックごとに推奨車線を決定する。推奨車線決定部61は、左から何番目の車線を走行するといった決定を行う。推奨車線決定部61は、地図上経路に分岐箇所が存在する場合、車両1が、分岐先に進行するための合理的な経路を走行できるように、推奨車線を決定する。
運転操作子80は、例えば、アクセルペダル、ブレーキペダル、シフトレバー、ステアリングホイール、異形ステア、ジョイスティックその他の操作子を含む。運転操作子80には、操作量あるいは操作の有無を検出するセンサが取り付けられており、その検出結果は、自動運転制御装置100、もしくは、走行駆動力出力装置200、ブレーキ装置210、およびステアリング装置220のうち一部または全部に出力される。
自動運転制御装置100は、例えば、第1制御部120と、第2制御部160とを備える。図3は、第1制御部120および第2制御部160の機能構成図である。第1制御部120は、例えば、認識部130と、行動計画生成部140とを備える。第1制御部120は、例えば、AIによる機能と、予め与えられたルールベースのモデルによる機能とを並行して実現する。例えば、「交差点を認識する」機能は、ディープラーニング等による交差点の認識と、予め与えられた条件(パターンマッチング可能な信号、道路標示などがある)に基づく認識とが並行して実行され、双方に対してスコア付けして総合的に評価することで実現されてよい。これによって、自動運転の信頼性が担保される。
認識部130は、カメラ10、レーダ装置12、およびファインダ14から物体認識装置16を介して入力された情報に基づいて、車両1の周辺にある物体の位置、および速度、加速度等の状態を認識する。
また、認識部130は、例えば、車両1が走行している車線(走行車線)を認識する。例えば、認識部130は、第2地図情報62から得られる道路区画線のパターン(例えば実線と破線の配列)と、カメラ10によって撮像された画像から認識される車両1の周辺の道路区画線のパターンとを比較することで、走行車線を認識する。認識部130は、走行車線を認識する際に、走行車線に対する車両1の位置や姿勢を認識する。認識部130は、例えば、車両1の基準点の車線中央からの乖離、および車両1の進行方向の車線中央を連ねた線に対してなす角度を、走行車線に対する車両1の相対位置および姿勢として認識する。
行動計画生成部140は、原則的には推奨車線決定部61により決定された推奨車線を走行し、更に、車両1の周辺状況に対応できるように、車両1が自動的に(運転者の操作に依らずに)将来走行する目標軌道を生成する。目標軌道は、例えば、速度要素を含んでいる。例えば、目標軌道は、車両1の到達すべき地点(軌道点)を順に並べたものとして表現される。軌道点は、道なり距離で所定の走行距離(例えば数[m]程度)ごとの車両1の到達すべき地点であり、それとは別に、所定のサンプリング時間(例えば0コンマ数[sec]程度)ごとの目標速度および目標加速度が、目標軌道の一部として生成される。また、軌道点は、所定のサンプリング時間ごとの、そのサンプリング時刻における車両1の到達すべき位置であってもよい。この場合、目標速度や目標加速度の情報は軌道点の間隔で表現される。
行動計画生成部140は、目標軌道を生成するにあたり、自動運転のイベントを設定してよい。自動運転のイベントには、定速走行イベント、低速追従走行イベント、車線変更イベント、交差点通過イベント、分岐イベント、合流イベント、テイクオーバーイベントなどがある。行動計画生成部140は、起動させたイベントに応じた目標軌道を生成する。
第2制御部160は、行動計画生成部140によって生成された目標軌道を、予定の時刻通りに車両1が通過するように、走行駆動力出力装置200、ブレーキ装置210、およびステアリング装置220を制御する。
第2制御部160は、例えば、取得部162と、速度制御部164と、操舵制御部166とを備える。取得部162は、行動計画生成部140により生成された目標軌道(軌道点)の情報を取得し、メモリ(不図示)に記憶させる。速度制御部164は、メモリに記憶された目標軌道に付随する速度要素に基づいて、走行駆動力出力装置200またはブレーキ装置210を制御する。操舵制御部166は、メモリに記憶された目標軌道の曲がり具合に応じて、ステアリング装置220を制御する。速度制御部164および操舵制御部166の処理は、例えば、フィードフォワード制御とフィードバック制御との組み合わせにより実現される。一例として、操舵制御部166は、車両1の前方の道路の曲率に応じたフィードフォワード制御と、目標軌道からの乖離に基づくフィードバック制御とを組み合わせて実行する。
走行駆動力出力装置200は、車両が走行するための走行駆動力(トルク)を駆動輪に出力する。走行駆動力出力装置200は、例えば、内燃機関、電動機、および変速機などの組み合わせと、これらを制御するECUとを備える。ECUは、第2制御部160から入力される情報、或いは運転操作子80から入力される情報に従って、上記の構成を制御する。
ブレーキ装置210は、例えば、ブレーキキャリパーと、ブレーキキャリパーに油圧を伝達するシリンダと、シリンダに油圧を発生させる電動モータと、ブレーキECUとを備える。ブレーキECUは、第2制御部160から入力される情報、或いは運転操作子80から入力される情報に従って電動モータを制御し、制動操作に応じたブレーキトルクが各車輪に出力されるようにする。
ステアリング装置220は、例えば、ステアリングECUと、電動モータとを備える。電動モータは、例えば、ラックアンドピニオン機構に力を作用させて転舵輪の向きを変更する。ステアリングECUは、第2制御部160から入力される情報、或いは運転操作子80から入力される情報に従って、電動モータを駆動し、転舵輪の向きを変更させる。
[学習装置]
図4は、学習装置300の構成図である。学習装置300は、複数の個別学習部300(k)を備える(k∈R;Rは交通参加者の集合)。個別学習部300(k)は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。プログラムは、予めHDDやフラッシュメモリなどの記憶装置(非一過性記憶媒体)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
個別学習部300(k)は、主要な構成要素として、プランナ310(k)と、動作情報生成部320(k)と、報酬導出部360(k)とを備える。これらの構成要素は、、例えば、CPUなどのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
プランナ310(k)には、動作目標と、動作特性情報とが与えられる。動作目標とは、強化学習を行う際の交通参加者の動作の指針であり、例えば、移動方向を大まかに指定する情報を含む。動作特性情報とは、個別学習部300(k)が学習対象とする動作主体の動作に関する性格を示す情報である。例えば、加速度や速度を比較的許容する性格、加速度や速度をなるべく抑制する性格、物体との距離が短くても許容する性格、物体との距離を長く維持したい性格、といったものが数値化あるいは符号化された情報が、動作特性情報として与えられる。プランナ310(k)には、シミュレータ400からの帰還情報などの経時変化する各種情報が入力される。プランナ310(k)は、プランナ310(k)が対象とする主体の動作を規定する情報を生成する。プランナ310(k)は、例えば、所定時間後(例えば、0.1秒後)の移動目標点を決定し、動作情報生成部320(k)に出力する。プランナ310(k)は、例えば、ポリシー315と乱数に基づいて移動目標点を決定する。ポリシー315(k)は、ニューラルネットワークなどを利用したモデルであってもよいし、ルールベースのモデルであってもよい。例えば、プランナ310(k)は、入力された各種情報とポリシー315(k)に基づいて決定した移動目標点を、乱数に応じた方向および移動量でオフセットさせた軌道点を動作情報生成部320に出力する。
図5は、プランナ310(k)による処理の内容を模式的に示す図である。図示する例では、プランナ310(k)はニューラルネットワークに各種情報を入力し、出力層に動作特性情報と乱数要素を加算することで移動目標点を導出する。この場合、ニューラルネットワークの係数などがポリシー315(k)に相当する。プランナ310(k)は、ニューラルネットワークの中間層でイベントを導出するようにしてもよい。また、プランナ310(k)は、ニューラルネットワーク内にルールベースの処理を包含するようにしてもよいし、ニューラルネットワークの枠外でルールベースの処理を行い、ニューラルネットワークのいずれかの層と結合(コンカチネット)するようにしてもよい。
動作情報生成部320(k)は、移動目標点に移動するための交通参加者の動作を表現した動作情報を生成し、シミュレータ400に出力する。なお、交通参加者が歩行者である場合のように、移動目標点に移動するのに特段の制御が必要でない場合、動作情報生成部320は、移動目標点を動作情報としてシミュレータ400に出力してもよい。
報酬導出部360(k)には、シミュレータ400からの帰還情報その他の情報が入力される。報酬導出部360(k)は、入力された情報(入力値)に基づいて、当該個別学習部300(k)が学習対象とする交通参加者毎に異なる規則に基づいて、報酬を導出する。なお、すべての個別学習部300(k)が互いに異なる規則に基づいて報酬を導出する必要は無く、一部の個別学習部300(k)が同じ規則に基づいて報酬を導出してもよい。「交通参加者毎に異なる規則」とは、少なくとも「交通参加者の種別に応じて異なる規則」を意味し、更に、「同じ種別の交通参加者であっても報酬導出に関する規則が異なること」を意味してもよい。これについては後述する。報酬導出部360により導出された報酬は、プランナ310(k)に出力される。プランナ310(k)は、報酬をA3Cなどの強化学習アルゴリズムに適用し、ポリシー315(k)を更新する。これによって、好適な移動目標点の生成規則が学習される。
[車両を対象とする学習]
以下、個別学習部300(k)の機能について、より詳細に説明する。図6は、車両1のような自動運転車両を想定した個別学習部300(1)の構成図である。個別学習部300(1)の記憶装置には、用途毎報酬関数マップ370(1)が格納されている。個別学習部300(1)は、例えば、プランナ310(1)と、動作情報生成部320(1)と、認識部330(1)と、妥当性評価部340(1)と、リスク計算部350(1)と、報酬導出部360(1)とを備える。
個別学習部300(1)が以下に説明する処理を行う上で、各部によって同じ地図情報が共有されているものとする。共有される地図情報は、例えば、第2地図情報62と同等の地図情報である。また、報酬の計算は最後に一度行われるのではなく、車両が仮想的に或いは実際に走行する間、繰り返し報酬が計算されて、計算結果が合計される。また、学習装置300は、例えば、自動運転のイベントごとに学習を行う。
プランナ310(1)には、走行目標(動作目標の一例)が与えられる。走行目標とは、強化学習を行う際の車両の走行の指針であり、例えば、速度目標値、少なくとも部分的な目的地までの経路などを含む。また、プランナ310(1)には、シミュレータ400からのセンサ検出結果、認識部330による認識結果などが入力される。センサ検出結果は、少なくとも車両センサ40の検出値を含み、カメラ10、レーダ装置12、ファインダ14、または物体認識装置16の検出結果を含んでもよい。認識部330(1)は、車両1における認識部130と同等の機能を有し、シミュレーション環境における周辺物体の情報をプランナ310に出力する。
プランナ310(1)は、複数の軌道点を含む目標軌道を生成する。動作情報生成部320(1)には、軌道点のうち所定時間後(例えば、0.1秒後)の軌道点(移動目標点の一例)が入力される。これに限らず、複数の軌道点が動作情報生成部320に入力されてもよい。
動作情報生成部320(1)は、車両1における第2制御部と同等の機能を有し、走行駆動力出力装置200、ブレーキ装置210、またはステアリング装置220に対する操作量を、シミュレータ400に出力する。
妥当性評価部340(1)は、車両が軌道点に移動すること(行動)の妥当性を評価し、評価結果を報酬導出部360(1)に出力する。妥当性評価部340(1)は、例えば、車両の乗員の乗り心地に関する基準、移動可能性に関する基準などに基づいて行動の妥当性を評価する。車両の乗員の乗り心地に関する基準とは、例えば、加速度やジャーク(躍度)の絶対値が小さいほど妥当性を高く評価するという基準である。移動可能性に関する基準とは、例えば、車両が軌道点に移動するために必要な速度や加速度等が規定範囲内であれば妥当性を高く評価し、規定範囲外であれば妥当性を低く評価するという基準である。妥当性評価部340(1)は、車両の状態や周囲環境に応じて妥当性の基準を変更してもよい。例えば、車両の付近に障害物が存在する場合に、この障害物から回避するための急加速を行ったとしても、妥当性に低い値を与えなくてもよい。
リスク計算部350(1)は、センサ検出結果に基づいて、行動によるリスクを計算し、計算したリスクを報酬導出部360(1)に出力する。リスク計算部350(1)は、例えば、車両と周囲物体との距離が近い場合にリスクを高く計算する。
報酬導出部360(1)には、例えば、シミュレータ400或いは認識部330(1)から、車両の速度、加速度、横位置、および車間距離が入力され、妥当性評価部340から妥当性の評価値が入力され、リスク計算部350(1)からリスクが入力される。横位置とは、道路の幅方向に関する位置である。これらの情報は、被評価情報の一例である。また、車両の速度、加速度、横位置、および車間距離は、帰還情報の一例である。報酬導出部360は、入力された情報(入力値)に対して、用途毎報酬関数マップ370(1)に基づく報酬関数を適用することで、行動に対する報酬(個別報酬)を導出する。個別報酬は、例えば、ゼロから1(所定値の一例)の間で導出される。
用途毎報酬関数マップ370(1)は、目標に対する評価特性が異なる複数の報酬関数マップを含む。図7~12は、用途毎報酬関数マップ370(1)に含まれる報酬関数マップのそれぞれを例示した図である。
図7に示す第1報酬関数マップは、入力値が目標値Tgt1に一致すると1(所定値の一例)を返し、入力値と目標値Tgt1との差分の絶対値が大きくなるほど小さい値を返す第1報酬関数を規定する。第1報酬関数の評価特性は、例えば、ガウス関数に基づいて設定される。第1報酬関数は、なるべく目標値Tgt1に近づけたい入力値に適用される。報酬導出部360(1)は、例えば、高速道路などの最低速度が設けられているような道路における車両の速度を、第1報酬関数に入力して個別報酬を導出する。
図8に示す第2報酬関数マップは、入力値が目標値Tgt2に一致すると1(所定値の一例)を返し、入力値と目標値Tgt2との差分の絶対値が大きくなるほど小さい値を返す、但し、入力値が目標値Tgt2を超える側における入力値と目標値Tgt2との差分に対する個別報酬の低下度合いを、入力値が目標値Tgt2を下回る側における入力値と目標値Tgt2との差分に対する個別報酬の低下度合いよりも大きくしている。第2報酬関数の評価特性は、例えば、ガウス関数などの分布にスキュー(歪度)を作用させた分布に基づいて設定される。第2報酬関数は、なるべく目標値Tgt2に近づけたく、且つ目標値Tgt2を超えないことが望ましい入力値に適用される。報酬導出部360(1)は、例えば、車両の速度を第2報酬関数に入力して個別報酬を導出する。
図9に示す第3報酬関数マップは、入力値が目標値Tgt3以上であれば1(所定値の一例)を返し、入力値が目標値Tgt3を下回る場合、入力値と目標値Tgt3との差分の絶対値が大きくなるほど小さい値を返す第3報酬関数を規定する。第3報酬関数は、目標値Tgt3以上に維持することが望ましい入力値に適用される。報酬導出部360(1)は、例えば、車間距離を第3報酬関数に入力して個別報酬を導出する。
図10に示す第4報酬関数マップは、入力値が目標値Tgt4以下であれば1(所定値の一例)を返し、入力値が目標値Tgt4を上回る場合、入力値と目標値Tgt4との差分の絶対値が大きくなるほど小さい値を返す第4報酬関数を規定する。第4報酬関数は、目標値Tgt4以上に維持することが望ましい入力値に適用される。報酬導出部360(1)は、例えば、リスクを第4報酬関数に入力して個別報酬を導出する。
図11に示す第5報酬関数マップは、入力値が目標範囲TA5内であれば1(所定値の一例)を返し、入力値と目標範囲TA5の上限または下限との差分の絶対値が大きくなるほど(目標範囲TA5から外れるほど)小さい値を返す第5報酬関数を規定する。第5報酬関数は、なるべく目標範囲TA5内に収めたい入力値に適用される。報酬導出部360(1)は、例えば、加速度や横位置を、第5報酬関数に入力して個別報酬を導出する。加速度に適用する場合、標範囲TA5はゼロを含む。
図12に示す第6報酬関数マップは、入力値が二つ以上の目標値(図では目標値Tgt6(1)、目標値Tgt6(2)の二つ)のいずれかに近づく程、大きい値を返す第6報酬関数を規定する。第6報酬関数は、複数の目標値のうちいずれかに近づけたい入力値に適用される。図10の例では、目標値Tgt6(1)に一致する場合、目標値Tgt6(2)に一致する場合よりも大きい値を返すものとしているが、同じ値を返すようにしてもよい。報酬導出部360(1)は、例えば、横位置を、第6報酬関数に入力して個別報酬を導出する。この場合、目標値Tgt6(1)、目標値Tgt6(2)は、走行可能な二つの互いに隣接する車線の中央である。例えば走行車線の中央に対応する目標値Tgt6(1)を走行している場合、追い越し車線の中央に対応する目標値Tgt6(2)を走行している場合よりも個別報酬が高く導出される。
報酬導出部360(1)は、例えば、複数の入力値に基づいて求めた複数の個別報酬を、互いに乗算してトータルの報酬を計算する。上記の例では、報酬導出部360(1)は、式(1)に基づいてトータルの報酬を計算する。F1~F6のそれぞれは、第1~第6報酬関数に対応している。なお、報酬導出部360は、個別報酬同士を乗算するのに代えて、個別報酬の加重和等を求めることでトータルの報酬を計算してもよい。
報酬(トータル)=F1(速度)またはF2(速度)×F3(車間距離)×F4(リスク)×F5(加速度)×F6(横位置) …(1)
車両が仮想的に走行している間、繰り返しプランナ310(1)により生成された行動に対するトータルの報酬が導出され、一回の走行が終了すると、トータルの報酬を時間方向に合計した累積報酬が計算される。そして、プランナ310(1)は、累積報酬をA3Cなどの強化学習アルゴリズムに適用し、ポリシー315(1)を更新する。これによって、好適な軌道点の生成規則が学習される。
図13は、個別学習部300(1)により実行される処理の流れの一例を示すフローチャートである。まず、個別学習部300(1)は、走行目標と報酬関数の初期設定を行い(ステップS500)、次いでポリシー315の初期設定を行う(ステップS502)。
次に、プランナ310(1)が、ポリシー315(1)に従って軌道点を決定する(ステップS504)。個別学習部300(1)は、動作情報生成部320(1)の処理を経て各種情報をシミュレータ400に入力し、帰還情報を取得する(ステップS506)。
次に、報酬導出部360(1)が、帰還情報その他の情報に基づいて個別報酬を導出し、更にトータルの報酬を計算する(ステップS508)。そして、個別学習部300(1)は、反復終了条件が満たされたか否かを判定する(ステップS510)。反復終了条件とは、例えば、ステップS504で決定された軌道点の数が所定数に到達したことである。反復終了条件が満たされていない場合、ステップS504に処理が戻される。
反復終了条件が満たされた場合、報酬導出部360(1)は、累積報酬を計算する(ステップS512)。次に、個別学習部300(1)は、学習終了条件が満たされたか否かを判定する(ステップS514)。学習終了条件とは、例えばステップS512で計算された累積報酬が閾値以上となったことである。
学習終了条件が満たされていない場合、プランナ310(1)は、強化学習アルゴリズムに基づいてポリシー315(1)を更新し(ステップS516)、ステップS504に処理を戻す。学習終了条件が満たされた場合、個別学習部300(1)は、ポリシー315(1)を確定する(ステップS518)。
[他の交通参加者に関する学習]
以下、前述した「交通参加者ごとに異なる規則」について再度説明する。交通参加者ごとに異なる規則は、例えば、報酬関数の相違によって実現される。また、交通参加者ごとに、報酬関数の一部が追加、または省略されてもよい。
例えば、交通参加者が歩行者の場合、車両に比して「加速度」に対するペナルティは小さくてよいため、図11に示す第5報酬関数マップよりも平坦なマップが使用されることで報酬関数の相違が実現される。また、そもそも「車間距離」に関する報酬は意味が小さいため省略されてよく、「横位置」に関しては歩道に相当する位置を横位置とするのが好ましいため、図12に示す第6報酬関数マップのピーク値を両端側にシフトしたマップが使用されてよい。また、横断歩道を横断するような場面では、一時的に「横位置」に関する報酬が固定されてもよい。
また、同じ交通参加者であっても、プランナ310(k)に与えられる動作特性情報に対応する情報に基づいて、報酬関数が切り替えられてもよい。例えば、「スポーティな走行を望む運転者により運転される車両」と「安全志向の運転者により運転される車両」とで報酬関数が異なってよい。この場合、図11に示す第5報酬関数マップに関して言うと、前者に対して後者よりも平坦なマップが使用されてよい。
このように、報酬関数を交通参加者ごとに異ならせることで、行動決定モデルと、多様性のあるシミュレーション環境を同時に生成することができる。この結果、より実空間に近いシミュレーション環境で学習を行うことができる。
以上説明した実施形態によれば、より実空間に近いシミュレーション環境で学習を行うことができる。
学習装置300やシミュレータ400は、以下のようなハードウェアによって実現される。図14は、学習装置300(またはシミュレータ400)のハードウェア構成の一例を示す図である。図示するように、学習装置300のは、通信コントローラ300-1、CPU300-2、ワーキングメモリとして使用されるRAM(Random Access Memory)300-3、ブートプログラムなどを格納するROM(Read Only Memory)300-4、フラッシュメモリやHDD(Hard Disk Drive)などの記憶装置300-5、ドライブ装置300-6などが、内部バスあるいは専用通信線によって相互に接続された構成となっている。通信コントローラ300-1は、他装置との通信を行う。記憶装置300-5には、CPU300-2が実行するプログラム300-5aが格納されている。このプログラムは、DMA(Direct Memory Access)コントローラ(不図示)などによってRAM300-3に展開されて、CPU300-2によって実行される。これによって、個別学習部300(k)およびその内部構成のうち一部または全部が実現される。また、シミュレータ400の機能も同様に実現される。
上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶した記憶装置と、ハードウェアプロセッサとを備え、
前記ハードウェアプロセッサは、前記プログラムを実行することにより、
複数の個別学習部として機能し、
それぞれの個別学習部は、
自身に対応する動作主体の動作を規定する情報を生成し、
前記動作主体の動作を規定する情報に基づく情報をシミュレータに入力することで前記シミュレータから得られる帰還情報を含む被評価情報を評価した報酬を導出し、
前記導出された報酬に基づく強化学習を行い、
前記複数の個別学習部のうち少なくとも二つは、前記報酬が最大化される動作が異なる、
ように構成されている、
学習装置。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1 車両
100 自動運転制御装置
300 学習装置
300(k) 個別学習部
310(k) プランナ
320(k) 動作情報生成部
360(k) 報酬導出部
400 シミュレータ

Claims (6)

  1. 複数の個別学習部を備える学習装置であって、
    それぞれの個別学習部は、
    自身に対応する動作主体の動作を規定する情報を生成するプランナと、
    前記動作主体の動作を規定する情報に基づく情報をシミュレータに入力することで前記シミュレータから得られる帰還情報を含む被評価情報を評価した報酬を導出する報酬導出部と、を備え、
    前記プランナは、前記報酬導出部により導出された報酬に基づく強化学習を行い、
    前記複数の個別学習部のうち少なくとも二つは、前記報酬導出部が導出する報酬が最大化される動作が異な且つ、
    前記複数の個別学習部のうち少なくとも二つは、前記プランナが情報を生成する前提となる前記動作主体の動作特性が異なる、
    学習装置。
  2. 前記複数の個別学習部のうち少なくとも二つは、前記報酬導出部が前記被評価情報を評価する規則が異なる、
    請求項記載の学習装置。
  3. 前記動作とは、移動である、
    請求項1または2記載の学習装置。
  4. 請求項1からのうちいずれか1項記載の学習装置と、
    前記シミュレータと、
    を備えるシミュレーションシステム。
  5. コンピュータが、
    複数の個別学習部として機能し、
    それぞれの個別学習部は、
    自身に対応する動作主体の動作を規定する情報を生成し、
    前記動作主体の動作を規定する情報に基づく情報をシミュレータに入力することで前記シミュレータから得られる帰還情報を含む被評価情報を評価した報酬を導出し、
    前記導出された報酬に基づく強化学習を行い、
    前記複数の個別学習部のうち少なくとも二つは、前記報酬が最大化される動作が異な且つ、
    前記複数の個別学習部のうち少なくとも二つは、前記情報を生成する前提となる前記動作主体の動作特性が異なる、
    学習方法。
  6. コンピュータを、
    複数の個別学習部として機能させ、
    それぞれの個別学習部は、
    自身に対応する動作主体の動作を規定する情報を生成し、
    前記動作主体の動作を規定する情報に基づく情報をシミュレータに入力することで前記シミュレータから得られる帰還情報を含む被評価情報を評価した報酬を導出し、
    前記導出された報酬に基づく強化学習を行い、
    前記複数の個別学習部のうち少なくとも二つは、前記報酬が最大化される動作が異なり、且つ、
    前記複数の個別学習部のうち少なくとも二つは、前記情報を生成する前提となる前記動作主体の動作特性が異なる、
    プログラム。
JP2018161908A 2018-08-30 2018-08-30 学習装置、シミュレーションシステム、学習方法、およびプログラム Active JP7048455B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018161908A JP7048455B2 (ja) 2018-08-30 2018-08-30 学習装置、シミュレーションシステム、学習方法、およびプログラム
CN201910799036.3A CN110871811B (zh) 2018-08-30 2019-08-27 学习装置、模拟***、学习方法及存储介质
US16/553,309 US11544556B2 (en) 2018-08-30 2019-08-28 Learning device, simulation system, learning method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018161908A JP7048455B2 (ja) 2018-08-30 2018-08-30 学習装置、シミュレーションシステム、学習方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020035221A JP2020035221A (ja) 2020-03-05
JP7048455B2 true JP7048455B2 (ja) 2022-04-05

Family

ID=69641288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018161908A Active JP7048455B2 (ja) 2018-08-30 2018-08-30 学習装置、シミュレーションシステム、学習方法、およびプログラム

Country Status (3)

Country Link
US (1) US11544556B2 (ja)
JP (1) JP7048455B2 (ja)
CN (1) CN110871811B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6904849B2 (ja) * 2017-08-14 2021-07-21 本田技研工業株式会社 車両制御装置、車両制御方法、およびプログラム。
US11131992B2 (en) * 2018-11-30 2021-09-28 Denso International America, Inc. Multi-level collaborative control system with dual neural network planning for autonomous vehicle control in a noisy environment
US11661082B2 (en) * 2020-10-28 2023-05-30 GM Global Technology Operations LLC Forward modeling for behavior control of autonomous vehicles
CN113314744A (zh) * 2021-04-18 2021-08-27 广西大学 一种双尺度平行强化学习的质子交换膜燃料电池控制方法
KR102379636B1 (ko) * 2021-08-11 2022-03-29 주식회사 에스아이에이 딥러닝 기반의 어노테이션 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035956A (ja) 1998-07-17 2000-02-02 Japan Science & Technology Corp エージェント学習装置
JP2004116351A (ja) 2002-09-25 2004-04-15 Fuji Heavy Ind Ltd 制御パラメータの最適化システム
JP2009181187A (ja) 2008-01-29 2009-08-13 Toyota Central R&D Labs Inc 行動モデル作成装置及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254505A (ja) * 1997-03-14 1998-09-25 Toyota Motor Corp 自動制御装置
JP2005056185A (ja) * 2003-08-05 2005-03-03 Techno Face:Kk 階層型エージェント学習方法およびシステム
JP2007065929A (ja) 2005-08-30 2007-03-15 Okinawa Institute Of Science & Technology 制御器、制御方法および制御プログラム
JP5879899B2 (ja) * 2011-10-12 2016-03-08 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN108027897B (zh) * 2015-07-24 2022-04-12 渊慧科技有限公司 利用深度强化学习的连续控制
JP6055058B1 (ja) * 2015-09-30 2016-12-27 ファナック株式会社 機械学習器及び組み立て・試験器を備えた生産設備
EP3360083B1 (en) * 2015-11-12 2023-10-25 DeepMind Technologies Limited Dueling deep neural networks
CN109791409B (zh) * 2016-09-23 2022-11-29 苹果公司 自主车辆的运动控制决策
US10019011B1 (en) * 2017-10-09 2018-07-10 Uber Technologies, Inc. Autonomous vehicles featuring machine-learned yield model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035956A (ja) 1998-07-17 2000-02-02 Japan Science & Technology Corp エージェント学習装置
JP2004116351A (ja) 2002-09-25 2004-04-15 Fuji Heavy Ind Ltd 制御パラメータの最適化システム
JP2009181187A (ja) 2008-01-29 2009-08-13 Toyota Central R&D Labs Inc 行動モデル作成装置及びプログラム

Also Published As

Publication number Publication date
CN110871811B (zh) 2023-01-03
US20200074302A1 (en) 2020-03-05
CN110871811A (zh) 2020-03-10
JP2020035221A (ja) 2020-03-05
US11544556B2 (en) 2023-01-03

Similar Documents

Publication Publication Date Title
JP7048456B2 (ja) 学習装置、学習方法、およびプログラム
EP3526737B1 (en) Neural network system for autonomous vehicle control
JP7048455B2 (ja) 学習装置、シミュレーションシステム、学習方法、およびプログラム
JP7440324B2 (ja) 車両制御装置、車両制御方法、及びプログラム
CN113460077B (zh) 移动体控制装置、移动体控制方法及存储介质
JP7444680B2 (ja) 移動体制御装置、移動体制御方法、およびプログラム
US20210300350A1 (en) Vehicle control device, vehicle control method, and storing medium
US20210300414A1 (en) Vehicle control method, vehicle control device, and storage medium
CN112686421B (zh) 将来行动推定装置、将来行动推定方法及存储介质
JPWO2020049685A1 (ja) 車両制御装置、自動運転車開発システム、車両制御方法、およびプログラム
JP2021068014A (ja) 車両制御装置、車両制御方法、およびプログラム
US11667281B2 (en) Vehicle control method, vehicle control device, and storage medium
JP7369077B2 (ja) 車両制御装置、車両制御方法、及びプログラム
JP7166988B2 (ja) 車両制御装置、車両制御方法、およびプログラム
JP2021149464A (ja) 車両制御装置、車両制御方法、およびプログラム
JP7049391B2 (ja) 車両制御装置、車両制御方法、およびプログラム
JP7433205B2 (ja) 車両制御装置、車両制御方法、およびプログラム
US12024194B2 (en) Vehicle control method, vehicle control device, and storage medium
JP2024039776A (ja) 移動体制御装置、移動体制御方法、およびプログラム
JP2022107296A (ja) 車両制御装置、車両制御方法、およびプログラム
JP2021163142A (ja) 車両制御装置、車両制御方法、およびプログラム
JP2021012467A (ja) 車両制御装置、車両制御方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220324

R150 Certificate of patent or registration of utility model

Ref document number: 7048455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150