JP6866940B1

JP6866940B1 - 自動操縦ロボットの制御装置及び制御方法

Info

Publication number: JP6866940B1
Application number: JP2020007945A
Authority: JP
Inventors: 健人吉田; 寛修深井
Original assignee: Meidensha Corp
Current assignee: Meidensha Corp
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2021-04-28
Anticipated expiration: 2040-01-22
Also published as: WO2021149435A1; US11718295B2; JP2021117001A; US20230038802A1

Abstract

【課題】自動操縦ロボットの制御装置及び制御方法を提供する。【解決手段】車両２が規定された指令車速に従って走行するように制御する、自動操縦ロボット４の制御装置１０であって、車速と指令車速を含む、車両２の走行状態を取得する走行状態取得部２２と、走行状態を基に、車両２を指令車速に従って走行させるような、将来の複数の時刻における車両２の操作の系列である操作系列を推論するように機械学習されている操作推論学習モデル４０により、操作系列を推論する操作内容推論部３１と、過去複数回において推論された操作系列の各々から、次に自動操縦ロボット４を制御する制御時刻に相当する操作を抽出し、これら抽出された複数の操作の重み付け和を計算することで最終操作値を計算し、最終操作値に基づき自動操縦ロボット４を制御する制御信号を生成して、自動操縦ロボット４に送信する、車両操作制御部２３と、を備える。【選択図】図２

Description

本発明は、車両を走行させる自動操縦ロボットの制御装置及び制御方法に関する。

一般に、普通自動車などの車両を製造、販売する際には、国や地域により規定された、特定の走行パターン（モード）により車両を走行させた際の燃費や排出ガスを測定し、これを表示する必要がある。
モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係として、グラフにより表わすことが可能である。この到達すべき車速は、車両へ与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。
上記のような、燃費や排出ガスに関する試験は、シャシーダイナモメータ上に車両を載置し、車両に搭載された自動操縦ロボット、所謂ドライブロボット（登録商標）により、モードに従って車両を運転させることにより行われる。

指令車速には、許容誤差範囲が規定されている。車速が許容誤差範囲を逸脱すると、その試験は無効となるため、自動運転装置には、指令車速への高い追従性が求められる。
これに対し、特許文献１には、車速追従性を高め、事前に行う設定を容易にすることを目的とした、車両速度制御装置が開示されている。
特許文献１の車両速度制御装置は、例えばＰＩＤ制御則等の、既知のフィードバック制御則に基づいている。

また、近年においては、指令車速への追従性をより高めるために、車両の現在の状態を入力すると、車両を指令車速に従って走行させるような操作を推論するように、強化学習などの手法により機械学習された学習モデルを用いて、ドライブロボットを制御することがある。
ただし、この場合においては、学習モデルが、前回の推論と大きく異なる操作を推論することがある。例えば、学習モデルがアクセルペダルとブレーキペダルの操作量を推論するような場合において、学習モデルがある時刻にアクセルペダルをオンとしブレーキペダルをオフとする操作を推論したとする。学習モデルは、この後の、次の推論において、アクセルペダルをオフとしブレーキペダルをオンとする操作を推論し、更に次の推論において、再度アクセルペダルをオンとしブレーキペダルをオフとする操作を推論する可能性がある。このような、操作量が大きい急激な操作が短い時間に細かく何度も行われるような操作の系列がドライブロボットに適用されると、車両が備える本来の燃費や排ガス性能よりも、悪い性能が測定される可能性がある。
上記のような、細かく操作量が大きな操作の系列を平滑化してなめらかにするために、学習モデルにより推論された操作に対し、過去に推論された、あるいは過去にドライブロボットに実際に適用された、過去の時刻における操作を含めて、操作量の移動平均を計算することで、操作の値を補正することが考えられる。あるいは、過去から現在にわたって推論された操作の系列を時間に対する関数とみたときに、この関数に対してローパスフィルタを適用することによっても、操作がなめらかになるように補正され得る。

特開２０１６−１５６６８７号公報

上記のような、学習モデルの推論結果の移動平均やローパスフィルタ等による補正は、現時刻において推論された操作の値を、過去の時刻における操作の値によって補正するものである。したがって、現時刻においてドライブロボットに適用される操作の値は、過去における操作の値の影響を受けて変更される。この現象を、図９を用いて説明する。図９の線Ｌ１は、学習モデルによる操作の推論結果を、横軸を時間軸としてプロットしたものである。線Ｌ２は、学習モデルによる操作の推論結果に対し、移動平均やローパスフィルタ等により補正された操作をプロットしたものである。
例えば、学習モデルが、時刻Ｔ１において、点Ｐ１として示されるような結果を推論した場合を考える。図９においては、この時刻Ｔ１よりも前の時刻Ｔ２、Ｔ３では、点Ｐ１よりも大きな操作量となっている。このような場合において、推論結果である操作量Ｐ１に移動平均やローパスフィルタ等を適用すると、点Ｐ４として示されるように、過去の操作量の影響を受けて推論結果よりも大きな値となるように、操作の値が補正される。すなわち、実際にはより小さな操作の量が適用されるのが望ましいところ、操作の量がより大きな値となるように補正されてしまっている。これにより、図９のように、例えば値を漸次的に変化させようとする一連の操作をドライブロボットに適用しようとする際に、実際には、望ましい操作よりも遅れた操作が適用されてしまう。
上記のような理由に因り、学習モデルの推論結果を移動平均やローパスフィルタ等により補正すると、操作は平滑化されるが、過去の推論結果の影響を受けざるを得ないために、車両の操作に遅れが生じ、指令車速への追従性が低減する。

本発明が解決しようとする課題は、指令車速に高い精度で追従させつつ、なめらかに車両を操作可能な、自動操縦ロボット（ドライブロボット）の制御装置及び制御方法を提供することである。

本発明は、上記課題を解決するため、以下の手段を採用する。すなわち、本発明は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、車速と前記指令車速を含む、前記車両の走行状態を取得する走行状態取得部と、前記走行状態を基に、前記車両を前記指令車速に従って走行させるような、将来の複数の時刻における前記車両の操作の系列である操作系列を推論するように機械学習されている操作推論学習モデルにより、前記操作系列を推論する操作内容推論部と、過去複数回において推論された前記操作系列の各々から、次に前記自動操縦ロボットを制御する制御時刻に相当する前記操作を抽出し、これら抽出された複数の前記操作の重み付け和を計算することで最終操作値を計算し、当該最終操作値に基づき前記自動操縦ロボットを制御する制御信号を生成して、前記自動操縦ロボットに送信する、車両操作制御部と、を備えている、自動操縦ロボットの制御装置を提供する。

また、本発明は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、車速と前記指令車速を含む、前記車両の走行状態を取得し、前記走行状態を基に、前記車両を前記指令車速に従って走行させるような、将来の複数の時刻における前記車両の操作の系列である操作系列を推論するように機械学習されている操作推論学習モデルにより、前記操作系列を推論し、過去複数回において推論された前記操作系列の各々から、次に前記自動操縦ロボットを制御する制御時刻に相当する前記操作を抽出し、これら抽出された複数の前記操作の重み付け和を計算することで最終操作値を計算し、当該最終操作値に基づき前記自動操縦ロボットを制御する制御信号を生成して、前記自動操縦ロボットに送信する、自動操縦ロボットの制御方法を提供する。

本発明によれば、指令車速に高い精度で追従させつつ、なめらかに車両を操作可能な、自動操縦ロボット（ドライブロボット）の制御装置及び制御方法を提供することができる。

本発明の実施形態における、自動操縦ロボット（ドライブロボット）を用いた試験環境の説明図である。上記実施形態における自動操縦ロボットの制御装置のブロック図である。上記制御装置に設けられた第１学習モデル（操作推論学習モデル）のブロック図である。上記第１学習モデルの強化学習に用いられる、第２学習モデルのブロック図である。上記制御装置の、車両操作制御部の説明図である。上記自動操縦ロボットを制御する制御方法における、学習時のフローチャートである。上記自動操縦ロボットの制御方法における、性能測定のために車両を走行制御させる際のフローチャートである。上記実施形態の第２変形例における自動操縦ロボットの第１学習モデルのブロック図である。先行技術の課題に関する説明図である。

以下、本発明の実施形態について図面を参照して詳細に説明する。
図１は、実施形態におけるドライブロボットを用いた試験環境の説明図である。試験装置１は、車両２、シャシーダイナモメータ３、及びドライブロボット４を備えている。
車両２は、床面上に設けられている。シャシーダイナモメータ３は、床面の下方に設けられている。車両２は、車両２の駆動輪２ａがシャシーダイナモメータ３の上に載置されるように、位置づけられている。車両２が走行し駆動輪２ａが回転する際には、シャシーダイナモメータ３が反対の方向に回転する。
ドライブロボット４は、車両２の運転席２ｂに搭載されて、車両２を走行させる。ドライブロボット４は、第１アクチュエータ４ｃと第２アクチュエータ４ｄを備えており、これらはそれぞれ、車両２のアクセルペダル２ｃとブレーキペダル２ｄに当接するように設けられている。

ドライブロボット４は、制御装置１０によって制御されている。より詳細には、制御装置１０は、ドライブロボット４の第１アクチュエータ４ｃと第２アクチュエータ４ｄを制御することにより、車両２のアクセルペダル２ｃとブレーキペダル２ｄの開度を変更、調整する。
制御装置１０は、ドライブロボット４を、車両２が規定された指令車速に従って走行するように制御する。すなわち、制御装置１０は、車両２のアクセルペダル２ｃとブレーキペダル２ｄの開度を変更することで、規定された走行パターン（モード）に従うように、車両１を走行制御する。より詳細には、制御装置１０は、走行開始から時間が経過するに従い、各時間に到達すべき車速である指令車速に従うように、車両２を走行制御する。

制御装置１０は、互いに通信可能に設けられた、ドライブロボット制御部２０と、学習部３０を備えている。
ドライブロボット制御部２０は、ドライブロボット４の制御を行うための制御信号を生成し、ドライブロボット４に送信することで、ドライブロボット４を制御する。学習部３０は、後に説明するような機械学習器に対して強化学習を行い、学習モデルを生成する。この学習モデルの出力を基に、ドライブロボット４の制御を行うための制御信号が生成される。
ドライブロボット制御部２０は、例えば、ドライブロボット４の筐体外部に設けられた、コントローラ等の情報処理装置である。学習部３０は、例えばパーソナルコンピュータ等の情報処理装置である。

図２は、制御装置１０のブロック図である。ドライブロボット制御部２０は、指令車速記憶部２１、走行状態取得部２２、及び車両操作制御部２３を備えている。学習部３０は、操作内容推論部３１、報酬計算部３２、強化学習部３３、及び学習用データ記憶部３４を備えている。
これら制御装置１０の構成要素のうち、走行状態取得部２２、車両操作制御部２３、操作内容推論部３１、報酬計算部３２、及び強化学習部３３は、例えば上記の各情報処理装置内のＣＰＵにより実行されるソフトウェア、プログラムであってよい。また、指令車速記憶部２１及び学習用データ記憶部３４は、上記各情報処理装置内外に設けられた半導体メモリや磁気ディスクなどの記憶装置により実現されていてよい。

後に説明するように、操作内容推論部３１は、ある時刻における走行状態を基に、当該時刻よりも後の車両２の操作の系列である操作系列を推論する。この、車両２の操作系列の推論を効果的に行うために、特に操作内容推論部３１は、後に説明するように機械学習器を備えており、推論した操作系列に基づいたドライブロボット４の操作の後の時刻における走行状態に基づいて計算された報酬を基に機械学習器を強化学習して学習モデル（第１学習モデル、操作推論学習モデル）４０を生成する。操作内容推論部３１は、性能測定のために実際に車両２を走行制御させる際には、この学習が完了した第１学習モデル（操作推論学習モデル）４０を使用して、車両２の操作系列を推論する。
すなわち、制御装置１０は大別して、強化学習時における操作系列の学習と、性能測定のために車両を走行制御させる際における操作系列の推論の、２通りの動作を行う。説明を簡単にするために、以下ではまず、操作系列の学習時における、制御装置１０の各構成要素の説明をした後に、車両２の性能測定に際して操作系列を推論する場合での各構成要素の挙動について説明する。
図２においては、各構成要素が太線と細線の２種類の矢印で結ばれて、データや処理の流れが示されている。車両２の性能測定に際して操作系列を推論する場合でのデータや処理の流れは、太線により示されている。操作系列の学習時におけるデータや処理の流れは、太線と細線の双方の矢印により示されている。

まず、操作系列の学習時における、ドライブロボット制御部２０の構成要素の挙動を説明する。
指令車速記憶部２１には、モードに関する情報に基づいて生成された、指令車速が記憶されている。モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係であり、したがって指令車速記憶部２１には、実際には、経過時間と指令車速の関係が表現された、例えばテーブルやグラフ、関数等が格納されている。

走行状態取得部２２は、現在時点における、車両２の走行状態を取得する。車両２の走行状態は、車両２に備えられた様々な図示されない計測器や、車両２を操作するドライブロボット４内に記録された操作実績から取得され得る。すなわち、車両２の走行状態は、現在時点における車両２の動作状況を数値化して表現したものであり、この値を取得する手段は、車両２の計測器による計測値に限られず、ドライブロボット４によって取得可能な値をも含む。
走行状態としては、前回の走行状態取得時刻からのアクセルペダル操作の、ドライブロボット４の操作実績中の操作量（以下、アクセルペダル検出量と呼称する）、前回の走行状態取得時刻からのブレーキペダル操作の、ドライブロボット４の操作実績中の操作量（以下、ブレーキペダル検出量と呼称する）、車両２において検出されたエンジン回転数（以下、エンジン回転数検出量と呼称する）、車両２において検出された車速（以下、検出車速と呼称する）を含む。
走行状態は、更に、当該走行状態が取得された時刻において、車両２が実現すべき指令車速を含む。

上記の走行状態の各々は、スカラー値であってもよいが、複数の値により実現されていてもよい。
走行状態の各々は、後述する機械学習器を学習させて学習モデル（第１学習モデル４０）を生成する際の入力として主に使用される。このため、走行状態の各々に関し、走行状態が取得された時点のみではなく、その前後の複数の時刻において値を取得し、機械学習器の入力とすることにより、過去の経過や将来の推測を活かしてより効果的に学習することができる可能性がある。
例えば、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速等の、車両２の状態を実際に観測、計測することにより取得される走行状態については、機械学習器の学習アルゴリズムにおいて使用する過去の観測データの参照時間を観測データ参照時間Ｔ_ｏｂｓとすると、観測データ参照時間Ｔ_ｏｂｓの系列として、複数の値を有していてもよい。
また、上記のような観測データとは異なり、指令車速記憶部２１に値が格納されており全ての時刻における値が随時参照可能な状態となっている指令車速については、機械学習器の学習アルゴリズムにおいて使用する将来の指令車速の参照時間を指令車速参照時間Ｔ_ｒｅｆとすると、指令車速参照時間Ｔ_ｒｅｆの系列として、複数の値を有していてもよい。
本実施形態においては、走行状態の各々は、複数の値により実現されている。

走行状態取得部２２は、車両２に備えられた様々な図示されない計測器やドライブロボット４内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部２２は、指令車速記憶部２１から、指令車速を取得する。
走行状態取得部２２は、これらの取得した走行状態を、学習部３０へ送信する。

車両操作制御部２３は、次に説明する操作内容推論部３１が、走行状態取得部２２が送信した送信状態を基に推論した、操作系列を受信し、これを基にしてドライブロボット４を制御する制御信号を生成して、ドライブロボット４へ送信する。

次に、操作系列の学習時における、学習部３０の構成要素の挙動を説明する。
学習部３０の操作内容推論部３１は、機械学習器を備えている。この機械学習器は、強化学習されることにより、第１学習モデル４０（操作推論学習モデル）が生成される。第１学習モデル４０は、車両２の操作系列を推論するのに使用される。本実施形態においては、機械学習器は、強化学習により機械学習される。すなわち、機械学習器は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデル４０を生成するものである。
学習部３０は、この機械学習器を強化学習するに際し、強化学習に必要な入力となる、走行データを蓄積する。制御装置１０が、学習がまだ終了していない、学習途中の機械学習器によって推論された操作によって車両２を走行制御することにより、走行データが蓄積される。この走行データにより機械学習器を強化学習した後に、この出力となる操作を用いて再度走行データを蓄積し、機械学習器を再度学習する。このように、機械学習器を繰り返し更新することにより、最終的に強化学習された、学習済みの第１学習モデル４０が生成される。
以下、説明を簡単にするため、操作内容推論部３１が備えている機械学習器と、これが学習されて生成される学習モデルをともに、第１学習モデル４０と呼称する。

操作内容推論部３１は、ある時刻（第１の時刻）において、走行状態取得部２２から走行状態を受信すると、これを基に、学習中の第１学習モデル４０により、第１の時刻より後の車両２の操作系列を推論する。

第１学習モデル４０は、所定の第１の時間間隔をおいて、車両２の操作系列を推論する。この、第１学習モデル４０における推論の間隔を、以降、ステップ周期Ｔ_ｓｔｅｐと呼称する。
ドライブロボット制御部２０は、後述するように、ドライブロボット４を制御する制御信号を、ドライブロボット４へと、所定の第２の時間間隔をおいて送信する。この、制御信号の送信間隔を制御周期Ｔ_ｓとすると、本実施形態におけるステップ周期Ｔ_ｓｔｅｐは、制御周期Ｔ_ｓよりも大きな値である。このため、第１学習モデル４０は、一度の推論により、ステップ周期Ｔ_ｓｔｅｐに含まれる複数の制御周期Ｔ_ｓに相当する、複数の、車両２の操作、すなわち操作系列を出力する。

また、第１学習モデル４０は、上記のように、第１の時刻より後の、少なくともステップ周期Ｔ_ｓｔｅｐ後までの将来の複数の時刻における車両２の操作系列を推論するが、この推論の対象となる時間間隔は、本実施形態においては、ステップ周期Ｔ_ｓｔｅｐよりも大きい。すなわち、第１学習モデル４０は、実際には、ステップ周期Ｔ_ｓｔｅｐ後までの時間範囲内における車両２の操作を推論すると同時に、ステップ周期Ｔ_ｓｔｅｐ後よりも更に将来の時刻における、車両２の操作を、同一の操作系列として推論する。この、第１学習モデル４０によって推論する時間範囲を、行動出力時間Ｔ_ｐｒｅｄと呼称する。この場合においては、操作内容推論部３１は、第１学習モデル４０によって、第１の時刻から行動出力時間Ｔ_ｐｒｅｄ後までの時間範囲内の、複数の制御周期Ｔ_ｓに相当する複数の時刻における操作を系列として推論する。
このようにした場合においては、第１学習モデル４０は、実際に車両２が操作されるステップ周期Ｔ_ｓｔｅｐ後までの操作系列を推測するに際し、ステップ周期Ｔ_ｓｔｅｐよりも更に後の時刻における車両２の操作を推測するため、将来の状況を見越した推測をするようになる可能性がある。

図３は、第１学習モデル４０のブロック図である。
本実施形態においては、第１学習モデル４０は、中間層を３層とした全５層の全結合型のニューラルネットワークにより実現されている。第１学習モデル４０は、入力層４１、中間層４２、及び出力層４３を備えている。
図３においては、各層が矩形として描かれており、各層に含まれるノードは省略されている。

入力層４１は、複数の入力ノードを備えている。複数の入力ノードの各々は、例えばアクセルペダル検出量ｓ１、ブレーキペダル検出量ｓ２から、指令車速ｓＮに至るまでの、走行状態ｓの各々に対応するように設けられている。
既に説明したように、各走行状態ｓは、複数の値により実現されている。例えば、図３においては、一つの矩形として示されている、アクセルペダル検出量ｓ１に対応する入力は、実際には、アクセルペダル検出量ｓ１の複数の値の各々に対応するように、入力ノードが設けられている。
各入力ノードには、走行状態取得部２２から受信した、対応する走行状態ｓの値が格納される。

中間層４２は、第１中間層４２ａ、第２中間層４２ｂ、及び第３中間層４２ｃを備えている。
中間層４２の各ノードにおいては、前段の層（例えば、第１中間層４２ａの場合は入力層４１、第２中間層４２ｂの場合は第１中間層４２ａ）の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層４２のノードへの重みを基にした演算がなされて、当該中間層４２のノード内に演算結果が格納される。

出力層４３においても、中間層４２の各々と同様な演算が行われ、出力層４３に備えられた各出力ノードに演算結果が格納される。複数の出力ノードの各々は、操作系列ａの各々に対応するように設けられている。本実施形態においては、車両２の操作の対象は、アクセルペダル２ｃとブレーキペダル２ｄであり、これに対応して、操作系列ａは、例えばアクセルペダル操作系列ａ１とブレーキペダル操作系列ａ２となっている。
既に説明したように、各操作系列ａは、複数の値により実現されている。例えば、図３においては、一つの矩形として示されている、アクセルペダル操作系列ａ１に対応する出力は、実際には、アクセルペダル操作系列ａ１の複数の値の各々に対応するように、出力ノードが設けられている。

操作内容推論部３１は、上記のように、第１の時刻における走行状態ｓを基に、第１の時刻より後の行動出力時間Ｔ_ｐｒｅｄまでにおける車両２の操作系列ａを推論し、ドライブロボット制御部２０の車両操作制御部２３へ送信する。
この操作系列ａに基づき、車両操作制御部２３はステップ周期Ｔ_ｓｔｅｐの間、ドライブロボット４を操作する。
そして、走行状態取得部２２は、操作後の車両２の、第１の時刻よりも後の第２の時刻における走行状態ｓを再度取得する。
操作内容推論部３１は、第１の時刻における走行状態ｓ、これに対して推論され実際に実行された操作系列ａ、及び第２の時刻における走行状態ｓを、次に説明する報酬計算部３２に送信する。

報酬計算部３２は、操作内容推論部３１から、第１の時刻における走行状態ｓ、操作系列ａ、及び第２の時刻における走行状態ｓを受信する。報酬計算部３２は、報酬を計算する。報酬は、操作系列ａ、及びこれに伴う第２の時刻における走行状態ｓが望ましくないほど小さい値を、望ましいほど大きい値を、有するように設計されている。後述の強化学習部３３においては、行動価値（評価値）が、報酬が大きいほど高くなるように計算され、第１学習モデル４０はこの行動価値が高くなるような操作系列ａを出力するように、強化学習が行われる。
報酬計算部３２は、第１の時刻における走行状態ｓ、これに対応して推論された操作系列ａ、当該操作系列ａを基に新たに生成された第２の時刻における走行状態ｓ、及び計算した報酬を、学習用データ記憶部３４に送信し、保存する。
このようにして、操作系列ａの推論、この操作系列ａがドライブロボット４によって実行された後の走行状態ｓの取得と、及び報酬の計算が、強化学習に十分なデータが蓄積されるまで、繰り返し行われる。
学習用データ記憶部３４に、強化学習に十分な量の走行データが蓄積されると、次に説明する強化学習部３３により強化学習が実行される。

強化学習部３３は、学習用データ記憶部３４から、複数の走行データを取得し、これを使用して、第２学習モデル５０を学習する。第２学習モデル５０は、機械学習器が学習されることにより、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデルとなる。
学習部３０は全体として、第１学習モデル４０が推論した操作系列ａがどの程度適切であったかを示す行動価値を計算し、第１学習モデル４０が、この行動価値が高くなるような操作系列ａを出力するように、強化学習を行う。行動価値は、走行状態ｓと、これに対する操作系列ａを引数として、報酬が大きいほど行動価値Ｑを高くするように設計された関数Ｑとして表わされる。本実施形態においては、この関数Ｑの計算を、走行状態ｓと操作系列ａを入力として、行動価値Ｑを出力するように設計された、関数近似器としての第２学習モデル５０により行う。

強化学習部３３は、学習用データ記憶部３４から走行状態ｓと操作系列ａを受信し、第２学習モデル５０を機械学習させる。図４は、第２学習モデル５０のブロック図である。
第２学習モデル５０の入力層５１においては、入力ノードが、例えばアクセルペダル検出量ｓ１、ブレーキペダル検出量ｓ２から、指令車速ｓＮに至るまでの、走行状態ｓの各々と、及び、例えばアクセルペダル操作系列ａ１とブレーキペダル操作系列ａ２の、操作系列ａの各々に対応するように設けられている。第２学習モデル５０は、第１学習モデル４０と同様な構造のニューラルネットワークにより実現されているため、構造上の詳細な説明を割愛する。
第１学習モデル４０の出力層５３においては、出力ノードは、例えば１つであり、これが、計算された行動価値Ｑの値に相当する。

強化学習部３３は、ＴＤ（ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ）誤差、すなわち、操作系列ａを実行する前の行動価値と、操作系列ａを実行した後の行動価値の誤差を小さくして、行動価値Ｑとして適切な値が出力されるように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整する。このように、現状の第１学習モデル４０によって推論された操作系列ａを適切に評価できるように、第２学習モデル５０を学習させる。
第２学習モデル５０の学習が進むと、第２学習モデル５０は、より適切な行動価値Ｑの値を出力するようになる。すなわち、第２学習モデル５０が出力する行動価値Ｑの値が学習前とは変わるため、これに伴い、行動価値Ｑが高くなるような操作系列ａを出力するように設計された第１学習モデル４０を更新する必要がある。このため、操作内容推論部３１は第１学習モデル４０を学習する。
具体的には、操作内容推論部３１は、例えば行動価値Ｑの負値を損失関数とし、これをできるだけ小さくするような、すなわち行動価値Ｑが大きくなるような操作系列ａを出力するように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整して、第１学習モデル４０を学習させる。
第１学習モデル４０が学習され更新されると、出力される操作系列ａが変化するため、再度走行データを蓄積し、これを基に第２学習モデル５０を学習する。
このように、学習部３０は、第１学習モデル４０と第２学習モデル５０の学習を繰り返すことにより、これら学習モデル４０、５０を強化学習する。

次に、実際に車両２の性能測定に際して操作系列を推論する場合での、すなわち、第１学習モデル４０の強化学習が終了した後における、制御装置１０の各構成要素の挙動について説明する。

走行状態取得部２２は、現在時点における、車両２の走行状態を取得する。
走行状態取得部２２は、車両２に備えられた様々な図示されない計測器やドライブロボット４内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部２２は、指令車速記憶部２１から、指令車速を取得する。
走行状態取得部２２は、これらの取得した走行状態を、学習部３０へ送信する。

学習部３０の操作内容推論部３１は、ある時刻（第１の時刻）において、走行状態取得部２２から走行状態を取得すると、これを基に、学習済みの第１学習モデル４０により、第１の時刻より後の車両２の操作系列ａを推論する。
この第１学習モデル４０は、操作系列ａに基づいたドライブロボット４の操作の後の、第１の時刻より後の第２の時刻における走行状態ｓに基づいて計算された報酬を基に、強化学習されている、学習済みのモデルである。

操作内容推論部３１は、学習部３０によって事前に強化学習されて、重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値が調整、決定された、学習済みの第１学習モデル４０が、例えばＣＰＵ上でプログラムとして実行されることで、車両２の操作系列ａを推論する。
操作内容推論部３１は、推論した操作系列ａを、車両操作制御部２３へ送信する。

車両操作制御部２３は、操作内容推論部３１から操作系列ａを受信し、この操作系列ａに基づき、ステップ周期Ｔ_ｓｔｅｐの間、ドライブロボット４を制御する制御信号を生成して、ドライブロボット４に送信することにより、ドライブロボット４を操作する。
図５は、車両操作制御部２３の説明図である。
図５においては、第１学習モデル４０の推論の間隔であるステップ周期Ｔ_ｓｔｅｐおきの複数の時刻Ｔ_ｉ（ｉ＝１〜Ｍ）の各々において、操作内容推論部３１によって推論された操作系列ａ_ｉ（ｉ＝１〜Ｍ）の関係が示されている。本実施形態においては、操作系列ａ_ｉ（ｉ＝１〜Ｍ）の各々は、アクセルペダル操作系列ａ１である場合を考える。すなわち、操作系列は、本来であれば操作系列ａ１_ｉ（ｉ＝１〜Ｍ）と記載すべきところ、記載を簡単にするために操作系列ａ_ｉ（ｉ＝１〜Ｍ）と記載する。操作系列ａ_ｉ（ｉ＝１〜Ｍ）は、ブレーキペダル操作系列ａ２であっても構わない。
説明の都合上、操作系列ａが推論された時刻が過去に遡るほど、これに付された添え字ｉは、大きな値となるように示されている。すなわち、時刻Ｔ_ｉ（ｉ＝１〜Ｍ）のうち最も過去の時刻は時刻Ｔ_Ｍであり、これに対応して時刻Ｔ_Ｍに操作内容推論部３１によって推論された操作系列ａは操作系列ａ_Ｍである。また、時刻Ｔ_ｉ（ｉ＝１〜Ｍ）のうち最も新しい時刻は時刻Ｔ_１であり、これに対応する操作系列ａは操作系列ａ_１である。
時刻Ｔ_Ｍにおいては、時刻Ｔ_Ｍから時刻Ｔ_０までの操作系列ａ_Ｍが、操作内容推論部３１により推論されている。時刻Ｔ_０は、時刻Ｔ_ＭのＴ_ｐｒｅｄ後の時刻であり、かつ時刻Ｔ_１のステップ周期Ｔ_ｓｔｅｐ後の時刻である。また、時刻Ｔ_Ｍ−１においては、時刻Ｔ_Ｍ−１からＴ_ｐｒｅｄ後の時刻までの操作系列ａ_Ｍ−１が、操作内容推論部３１により推論されている。以降、同様に、例えば時刻Ｔ_１においては、時刻Ｔ_１からＴ_ｐｒｅｄ後の時刻までの操作系列ａ_１が、操作内容推論部３１により推論されている。

ここで、操作系列ａ_Ｍから操作系列ａ_１までの、Ｍ個の操作系列ａにおいては、その全てに、時刻Ｔ_１から時刻Ｔ_０までの時間の操作が含まれている。すなわち、時刻Ｔ_１から時刻Ｔ_０までの任意の時刻Ｔ_ｔにおいては、当該時刻Ｔ_ｔにおけるＭ個の操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）が、それぞれ異なる時刻Ｔ_ｉ（ｉ＝１〜Ｍ）において推論されている。
車両操作制御部２３は、操作内容推論部３１により最新の操作系列ａ_１が推論されたとしても、これをそのまま用いてドライブロボット４を操作する制御信号を生成しない。車両操作制御部２３は、実際に制御を行う制御時刻Ｔ_ｔにおいて実際に使用する操作である最終操作値ａ_ｔを、最新の操作系列ａ_１を含む、過去複数回において操作内容推論部３１により推論された操作系列ａ_ｉ（ｉ＝１〜Ｍ）内の操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）を基に、以下のように算出する。

車両操作制御部２３は、１より大きい係数ｘを基にして以下の式（１）により算出される重みα_ｉ（ｉ＝１〜Ｍ）を、内部に格納している。

上式により表される重みα_ｉは、α_１からα_Ｍまでの総計が１となる。係数ｘは、ドライブロボット４により車両２を走行制御するときの車速誤差が最小となるように、予め実験的に求めることで決定される。
車両操作制御部２３は、制御時刻Ｔ_ｔに対して推論された複数の操作ａ_ｉ，ｔを操作系列ａ_ｉ（ｉ＝１〜Ｍ）の各々から抽出して、この各々に対し、上記の重みα_ｉを次の式（２）により適用して、制御時刻Ｔ_ｔにおける最終操作値ａ_ｔを算出する。

制御時刻Ｔ_ｔにおける最終操作値ａ_ｔを算出する時点においては、操作系列ａの最初の操作に相当する時刻からステップ周期Ｔ_ｓｔｅｐの時間内に当該時刻Ｔ_ｔが含まれる、最新の操作系列ａ_１以外の操作系列ａ_ｉ（ｉ＝２〜Ｍ）は、操作内容推論部３１において過去に推論されている。したがって、上式（２）の成分のうち、α_ｉ×ａ_ｉ、ｔ（ｉ＝２〜Ｍ）の総和に関しては、最新の操作系列ａ_１の推論時に、計算を完了させておくことが可能である。このようにすることで、最新の操作系列ａ_１が推論された後に、α_１×ａ_１、ｔを計算し、これを上記総和に加算するのみで、時刻Ｔ_ｔの最終操作値ａ_ｔを算出可能となる。

車両操作制御部２３は、上記のように、制御周期Ｔ_ｓごとに、過去複数回において推論された操作系列ａ_ｉ（ｉ＝１〜Ｍ）の各々から、次にドライブロボット４を制御する制御時刻Ｔ_ｔに相当する操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）を抽出し、これら抽出された複数の操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）の重み付け和を計算することで最終操作値ａ_ｔを計算する。
車両操作制御部２３は、最終操作値ａ_ｔに基づきドライブロボット４を制御する制御信号を生成して、ドライブロボット４に送信することで、ドライブロボット４を制御する。

次に、図１〜図５、及び図６、図７を用いて、上記のドライブロボット４の制御装置１０によりドライブロボット４を制御する方法を説明する。図６は、ドライブロボット４の制御方法における、学習時のフローチャートである。図７は、ドライブロボット４の制御方法における、性能測定のために車両２を走行制御させる際のフローチャートである。
まず、図６を用いて、操作系列ａの学習時における動作を説明する。

学習が開始されると（ステップＳ１）、走行環境や第１学習モデル４０、第２学習モデル５０等の各パラメータが初期設定される（ステップＳ３）。
その後、車両２の走行データを収集する（ステップＳ５）。より詳細には、制御装置１０が、学習がまだ終了していない、学習途中の第１学習モデル４０によって推論された操作系列によって車両２を走行制御することにより、走行データが蓄積される。走行データは、第１の時刻における走行状態ｓ、操作系列ａ、第２の時刻における走行状態ｓと、及び受信した報酬の組み合わせである。

十分な走行データが学習用データ記憶部３４に蓄積されると、これを用いて、第１学習モデル４０と第２学習モデル５０を強化学習し、学習モデル４０、５０を更新する（ステップＳ７）。
第１学習モデル４０と第２学習モデル５０の更新が終了すると、これら第１学習モデル４０と第２学習モデル５０の学習が終了したか否かを判定する（ステップＳ９）。
学習が終了していないと判定された場合には（ステップＳ９のＮｏ）、ステップＳ５へ遷移する。すなわち、制御装置１０は走行データを更に収集し、これを用いた第１学習モデル４０と第２学習モデル５０の更新を繰り返す。
学習が終了したと判定された場合には（ステップＳ９のＹｅｓ）、学習処理を終了する（ステップＳ１１）。

次に、図７を用いて、実際に車両２の性能測定に際して操作系列を推論する場合での、すなわち、第１学習モデル４０の強化学習が終了した後において、車両２を走行制御する際の動作について説明する。

車両２が走行を開始すると（ステップＳ５１）、走行環境が初期設定され、この時点での走行状態ｓを初期状態として観測する（ステップＳ５３）。
走行状態ｓの観測は、次のように行われる。
走行状態取得部２２が、現在時点における、車両２の走行状態ｓを取得する。
走行状態取得部２２は、車両２に備えられた様々な図示されない計測器やドライブロボット４内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部２２は、指令車速記憶部２１から、指令車速を取得する。
走行状態取得部２２は、これらの取得した走行状態ｓを、学習部３０へ送信する。

操作内容推論部３１は、走行状態取得部２２から、走行状態ｓを受信する。操作内容推論部３１は、走行状態ｓを受信した時刻を第１の時刻として、受信した走行状態ｓを基に、学習済みの第１学習モデル４０により、第１の時刻より後の車両２の操作系列ａを推論する（ステップＳ５５）。

操作内容推論部３１は、この、学習済みの第１学習モデル４０が推論した操作系列ａを、ドライブロボット制御部２０の車両操作制御部２３へ送信する。
操作内容推論部３１は、上式（１）、（２）を用いて、ドライブロボット４の最終操作値を算出する。
車両操作制御部２３は、最終操作値に基づきドライブロボット４を制御する制御信号を生成して、ドライブロボット４に送信することで、ドライブロボット４を制御する。
車両操作制御部２３は、操作内容推論部３１による推論の間隔に相当するステップ周期Ｔ_ｓｔｅｐの間、ドライブロボット４を操作する。
そして、走行状態取得部２２は、操作後の車両２の走行状態ｓを、ステップＳ５３と同様な要領で、再度取得する（ステップＳ５７）。
走行状態取得部２２は、操作後の車両２の走行状態ｓを、学習部３０へ送信する。

制御装置１０は、車両２の走行が終了したか否かを判定する（ステップＳ５９）。
走行が終了していないと判定された場合には（ステップＳ５９のＮｏ）、ステップＳ５５へ遷移する。すなわち、制御装置１０は、ステップＳ５７で取得した走行状態ｓを基にした操作系列ａの推論と、更なる走行状態ｓの観測を繰り返す。
走行が終了したと判定された場合には（ステップＳ５９のＹｅｓ）、走行処理を終了する（ステップＳ６１）。

次に、上記のドライブロボットの制御装置及び制御方法の効果について説明する。

本実施形態におけるドライブロボット（自動操縦ロボット）の制御装置１０は、車両２に搭載されて車両２を走行させるドライブロボット４を、車両２が規定された指令車速に従って走行するように制御するものであって、車速と指令車速を含む、車両２の走行状態ｓを取得する走行状態取得部２２と、走行状態ｓを基に、車両２を指令車速に従って走行させるような、将来の複数の時刻における車両２の操作の系列である操作系列ａを推論するように機械学習されている第１学習モデル（操作推論学習モデル）４０により、操作系列ａを推論する操作内容推論部３１と、過去複数回において推論された操作系列ａ_ｉ（ｉ＝１〜Ｍ）の各々から、次にドライブロボット４を制御する制御時刻Ｔ_ｔに相当する操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）を抽出し、これら抽出された複数の操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）の重み付け和を計算することで最終操作値ａ_ｔを計算し、当該最終操作値ａ_ｔに基づきドライブロボット４を制御する制御信号を生成して、ドライブロボット４に送信する。
また、本実施形態におけるドライブロボット（自動操縦ロボット）の制御方法は、車両２に搭載されて車両２を走行させるドライブロボット４を、車両２が規定された指令車速に従って走行するように制御するものであって、車速と指令車速を含む、車両２の走行状態ｓを取得し、走行状態ｓを基に、車両２を指令車速に従って走行させるような、将来の複数の時刻における車両２の操作の系列である操作系列ａを推論するように機械学習されている第１学習モデル（操作推論学習モデル）４０により、操作系列ａを推論し、過去複数回において推論された操作系列ａ_ｉ（ｉ＝１〜Ｍ）の各々から、次にドライブロボット４を制御する制御時刻Ｔ_ｔに相当する操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）を抽出し、これら抽出された複数の操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）の重み付け和を計算することで最終操作値ａ_ｔを計算し、当該最終操作値ａ_ｔに基づきドライブロボット４を制御する制御信号を生成して、ドライブロボット４に送信する。
上記のような構成によれば、第１学習モデル４０が操作系列ａを推論するに際し基づく、車両２の走行状態は、指令車速を含む。また、第１学習モデル４０は、車両２を指令車速に従って走行させるような、将来の複数の時刻における車両２の操作の系列である操作系列ａを推論するように機械学習されている。このため、第１学習モデル４０は、指令車速に高精度で追従するような操作系列ａを推論可能である。

ここで、上記のような構成によれば、操作内容推論部３１における複数の推論において、同一の制御時刻Ｔ_ｔに実行すべき操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）がそれぞれ推論されており、これを抽出し重み付け和を計算して、制御時刻Ｔ_ｔの最終操作値ａ_ｔを算出している。
すなわち、制御時刻Ｔ_ｔの最終操作値ａ_ｔを算出するに際し、複数の推論において導出された複数の操作を基に、これらの重み付け和を計算しているため、単一の推論において導出された操作のみを基にした場合に比べると、時系列に沿った一連の操作が平滑化されてなめらかなものとなる。
また、最終操作値ａ_ｔを算出する際に重み付け和が計算される対象となるのは、複数の推論の各々における、同一の制御時刻Ｔ_ｔに実行すべき操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）である。このため、当該制御時刻Ｔ_ｔとは異なる、過去の、あるいは将来の、他の時刻の操作は計算の対象とならない。このように、他の時刻における操作の演算への影響が排除され、指令車速への追従性が損なわれることが抑制される。
以上により、指令車速に高い精度で追従させつつ、なめらかに車両を操作可能な、自動操縦ロボットの制御装置及び制御方法を実現可能となる。

例えば、車両２への悪影響を低減することを目的として、車両操作制御部２３が最終操作値ａ_ｔを算出する際に、アクセルペダルとブレーキペダルが同時に操作されないようにし、かつ、第１学習モデル４０がこれら双方の操作を出力している場合には、前の操作において対象となったペダルを操作対象とするような実装が考えられる。このような場合においては、ペダル操作を他のペダルへと切り替えるに際し、第１学習モデル４０が、双方のペダルの操作を一旦ゼロとするような操作を推論するのが望ましい。
例えば、操作に関して他の時刻の操作との移動平均やローパスフィルタ等を適用した場合においては、ある時刻にペダル操作を切り替えようとしてゼロの値を出力しようとしたとしても、値がゼロではない他の時刻の操作の影響を受けて、ゼロではない値が出力され、結果としてペダル操作が切り替えられないような場合が生じ得る。
これに対し、上記のような構成によれば、複数の推論の各々における当該時刻の操作が適切にゼロとなっていれば、当該時刻の操作としてゼロの値を出力可能となるため、ペダル操作の切り替えに遅れが生じない。

更に、重み付け和を計算する対象は、異なる複数の推論における、同一の制御時刻Ｔ_ｔに実行すべき操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）であるため、他の時刻の操作結果と演算を行う場合に比べると、予測の頑健性を向上させることができる。

また、重み付け和において使用される重みα_ｉ（ｉ＝１〜Ｍ）は、重み付け和の計算に使用される操作ａ_ｉ、ｔ（ｉ＝１〜Ｍ）が抽出された操作系列ａ_ｉ（ｉ＝１〜Ｍ）の、推論された時刻Ｔ_ｉ（ｉ＝１〜Ｍ）が過去に遡るものほど、値が小さくなるように設定されている。
上記のような構成によれば、操作系列ａ_ｉ（ｉ＝１〜Ｍ）が推論される基となる、操作内容推論部３１に入力される走行状態ｓが新しいものであるほど、これに対応して出力される操作系列ａ_ｉ（ｉ＝１〜Ｍ）には、より大きな重みα_ｉ（ｉ＝１〜Ｍ）が適用される。このため、最新の推論結果に対して過去の推論結果を考慮して最終操作値ａ_ｔを計算しているにもかかわらず、最新の推論結果が過去の推論結果に過度に影響されて指令車速への追従性が損なわれる可能性を低減可能である。

また、車両操作制御部２３は、過去複数回において推論された操作系列ａ_ｉ（ｉ＝１〜Ｍ、操作系列が推論された時刻Ｔ_ｉ（ｉ＝１〜Ｍ）が過去に遡るほどｉは大きな値となる）の各々から、制御時刻Ｔ_ｔに対して抽出された複数の操作をａ_ｉ，ｔ（ｉ＝１〜Ｍ）としたときに、１より大きい係数ｘを基にして上記の式（１）により算出される重みα_ｉ（ｉ＝１〜Ｍ）を上記の式（２）に適用して、最終操作値ａ_ｔを算出する。
上記のような構成によれば、最終操作値ａ_ｔを適切に算出可能である。

［実施形態の第１変形例］
次に、上記実施形態として示したドライブロボットの制御装置及び制御方法の変形例を説明する。本変形例におけるドライブロボット４の制御装置は、上記実施形態のドライブロボット４の制御装置１０とは、重みα_ｉ（ｉ＝１〜Ｍ）の設定が異なっている。
より詳細には、本変形例においては、車速として有され得る値の範囲は、１以上の車速区分閾値により複数の車速域に区分され、係数ｘは、複数の車速域の各々に対して、低い車速に対応する車速域ほど大きい値となるように設定されている。

重みα_ｉ（ｉ＝１〜Ｍ）は、車両２の車速域ごとに、適した範囲が異なる可能性がある。例えば、車速域が低い車速となるほど、指令車速に追従するために機敏なペダル操作が必要となる。
ここで、上記の式（１）においては、係数ｘの値が大きくなるほど、ｉが大きい場合の重みα_ｉの値が小さくなり、ｉが小さい場合の重みα_ｉの値が大きくなる。すなわち、係数ｘの値を大きくすることで、重み付け和により最終操作値ａ_ｔを算出する際に、新しく推論された操作系列ａ_ｉに対応して乗算される重みα_ｉの値を大きくして、現時刻に近い予測の重要度を高めることができる。
例えば、車速域ごとに適した係数ｘの値を、予め実験的に求めておき、車速に応じてｘを変更しながらドライブロボット４を制御することによって、操作のなめらかさと、指令車速への追従性を、バランスよく両立させることができる。

本第１変形例が、既に説明した実施形態と同様な効果を奏することは言うまでもない。

［実施形態の第２変形例］
次に、図８を用いて、上記実施形態として示したドライブロボットの制御装置及び制御方法の変形例を説明する。図８は、本変形例におけるドライブロボットの制御装置の、第１学習モデル６０のブロック図である。本変形例におけるドライブロボット４の制御装置は、上記実施形態のドライブロボット４の制御装置１０とは、係数ｘは、第１学習モデル（操作推論学習モデル）６０の出力値であり、第１学習モデル６０は、走行状態ｓを基に、係数ｘを推論するように機械学習されている点が異なっている。
すなわち、図８に示される第１学習モデル６０においては、出力ノード６３として係数ｘに対応するノードが追加されており、係数ｘが、車速への追従性を高めることができる値となるように、第１学習モデル４０が強化学習される。

本第２変形例が、既に説明した実施形態と同様な効果を奏することは言うまでもない。

なお、本発明のドライブロボットの制御装置及び制御方法は、図面を参照して説明した上述の実施形態及び各変形例に限定されるものではなく、その技術的範囲において他の様々な変形例が考えられる。

例えば、上記実施形態においては、第１学習モデル４０及び第２学習モデル５０を学習させる際には、実際に車両２を走行させて走行データを観測、取得するように説明したが、これに限られない。例えば、学習時においては、車両２の代わりにシミュレータを使用してもよい。
また、上記実施形態においては、操作の対象はアクセルペダル２ｃとブレーキペダル２ｄであり、走行状態は、アクセルペダル２ｃとブレーキペダル２ｄの検出量を含むように構成されていたが、これに限られない。
また、学習モデル４０、５０の構成は、上記実施形態において説明したものに限られないのは、言うまでもない。例えば、学習モデル４０、５０において、中間層４２、５２の数を、３より小さい、または３より多い数とする等、多くの変形例が想定されるが、本発明の主旨を損なわない限りにおいて、どのような構成を備えていてもよい。
更には、上記実施形態においては、第１学習モデル４０は強化学習されたが、これに限られず、本発明の主旨が損なわれない限り、他の機械学習方法により学習されてもよい。

これ以外にも、本発明の主旨を逸脱しない限り、上記実施形態及び各変形例で挙げた構成を取捨選択したり、他の構成に適宜変更したりすることが可能である。

１試験装置
２車両
３シャシーダイナモメータ
４ドライブロボット（自動操縦ロボット）
１０制御装置
２０ドライブロボット制御部
２１指令車速記憶部
２２走行状態取得部
２３車両操作制御部
３０学習部
３１操作内容推論部
３２報酬計算部
３３強化学習部
３４学習用データ記憶部
４０、６０第１学習モデル（操作推論学習モデル）
５０第２学習モデル
Ｑ行動価値関数
ｓ走行状態
ｓＮ指令車速
ａ、ａ_ｉ（ｉ＝１〜Ｍ）操作系列
ａ_ｉ、ｔ（ｉ＝１〜Ｍ）操作
Ｔ_ｉ（ｉ＝１〜Ｍ）時刻
Ｔ_ｔ制御時刻

Claims

車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、
車速と前記指令車速を含む、前記車両の走行状態を取得する走行状態取得部と、
前記走行状態を基に、前記車両を前記指令車速に従って走行させるような、将来の複数の時刻における前記車両の操作の系列である操作系列を推論するように機械学習されている操作推論学習モデルにより、前記操作系列を推論する操作内容推論部と、
過去複数回において推論された前記操作系列の各々から、次に前記自動操縦ロボットを制御する制御時刻に相当する前記操作を抽出し、これら抽出された複数の前記操作の重み付け和を計算することで最終操作値を計算し、当該最終操作値に基づき前記自動操縦ロボットを制御する制御信号を生成して、前記自動操縦ロボットに送信する、車両操作制御部と、
を備えている、自動操縦ロボットの制御装置。
前記重み付け和において使用される重みは、前記重み付け和の計算に使用される前記操作が抽出された前記操作系列の、推論された時刻が過去に遡るものほど、値が小さくなるように設定されている、請求項１に記載の自動操縦ロボットの制御装置。
前記車両操作制御部は、過去複数回において推論された前記操作系列ａ_ｉ（ｉ＝１〜Ｍ、前記操作系列が推論された前記時刻が過去に遡るほどｉは大きな値となる）の各々から、前記制御時刻Ｔ_ｔに対して抽出された複数の前記操作をａ_ｉ，ｔ（ｉ＝１〜Ｍ）としたときに、１より大きい係数ｘを基にして以下の式（１）により算出される前記重みα_ｉ（ｉ＝１〜Ｍ）

を以下の式（２）

に適用して、前記最終操作値ａ_ｔを算出する、請求項２に記載の自動操縦ロボットの制御装置。
前記車速として有され得る値の範囲は、１以上の車速区分閾値により複数の車速域に区分され、
前記係数ｘは、前記複数の車速域の各々に対して、低い前記車速に対応する前記車速域ほど大きい値となるように設定されている、請求項３に記載の自動操縦ロボットの制御装置。
前記係数ｘは、前記操作推論学習モデルの出力値であり、
前記操作推論学習モデルは、前記走行状態を基に、前記係数ｘを推論するように機械学習されている、請求項３または４に記載の自動操縦ロボットの制御装置。
車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、
車速と前記指令車速を含む、前記車両の走行状態を取得し、
前記走行状態を基に、前記車両を前記指令車速に従って走行させるような、将来の複数の時刻における前記車両の操作の系列である操作系列を推論するように機械学習されている操作推論学習モデルにより、前記操作系列を推論し、
過去複数回において推論された前記操作系列の各々から、次に前記自動操縦ロボットを制御する制御時刻に相当する前記操作を抽出し、これら抽出された複数の前記操作の重み付け和を計算することで最終操作値を計算し、当該最終操作値に基づき前記自動操縦ロボットを制御する制御信号を生成して、前記自動操縦ロボットに送信する、自動操縦ロボットの制御方法。