JP7268757B2 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
JP7268757B2
JP7268757B2 JP2021555712A JP2021555712A JP7268757B2 JP 7268757 B2 JP7268757 B2 JP 7268757B2 JP 2021555712 A JP2021555712 A JP 2021555712A JP 2021555712 A JP2021555712 A JP 2021555712A JP 7268757 B2 JP7268757 B2 JP 7268757B2
Authority
JP
Japan
Prior art keywords
reward function
task
tasks
learning
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021555712A
Other languages
English (en)
Other versions
JPWO2021095190A1 (ja
Inventor
大 窪田
力 江藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021095190A1 publication Critical patent/JPWO2021095190A1/ja
Application granted granted Critical
Publication of JP7268757B2 publication Critical patent/JP7268757B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、時相論理構造を考慮した報酬関数を推定する学習装置、学習方法および学習プログラムに関する。
熟練技術者の後継者不足により熟練技術の再現ができない場合、熟練技術が途絶してしまう可能性がある。また、ロボットや自動車などの運転自動化が推し進められているが、ロボットなどの自動化に伴う目的関数の設定は人手では難しいため、目的関数の設定が自動化を阻害する要因の一つになっている。そこで、目的関数の定式化を簡素にすることで、技術をさらに発展させる試みが行われている。
定式化を簡素にする方法の一つとして、逆強化学習が知られている。逆強化学習は、熟練者が行った意思決定の履歴に基づいて、状態ごとに行動を評価する目的関数(報酬関数)を推定する学習方法である。逆強化学習では、意思決定の履歴を熟練者のものへ近づけるように報酬関数を更新していくことで、熟練者の報酬関数を推定する。
非特許文献1には、逆強化学習の一つである最大エントロピー逆強化学習について記載されている。非特許文献1に記載された方法では、熟練者のデータD={τ,τ,…τ}(ただし、τ=((s,a),(s,a),…,(s,a))であり、sは状態を表わし、aは行動を表わす。)からただ1つの報酬関数R(s,a,s´)=θ・f(s,a,s´)を推定する。この推定されたθを用いることで、熟練者の意思決定を再現できる。
また、非特許文献2や非特許文献3には、データ系列から時間方向に複数の報酬関数を学習する時系列的逆強化学習について記載されている。時系列的逆強化学習では、報酬関数の切り替わりが過去の履歴に依らないことを前提とし、一つのデータ系列から、切り替わる報酬関数および遷移関数を推定する。
なお、時間方向の変化に関し、非特許文献4や非特許文献5には、時相論理を推定する方法が記載されている。時相論理の推定では、熟練者データが時相論理の枠組みで複数のタスク(1つのタスクが1つの報酬関数に対応)が表されている場合に、熟練者の有するタスク間の時相論理構造を推定する。
また、非特許文献6には、逆強化学習において、異なるトラジェクトリにわたるタスク数を抑制する正規化について記載されている。
B. D. Ziebart, A. Maas, J. A. Bagnell, and A. K. Dey, "Maximum entropy inverse reinforcement learning", In AAAI, AAAI’08, 2008. Nguyen, Q. P., Low, B. K. H., & Jaillet, P, "Inverse reinforcement learning with locally consistent reward functions", In Advances in neural information processing systems, pp.1747-1755, 2015. Krishnan, S., Garg, A., Liaw, R., Miller, L., Pokorny, F. T., and Goldberg, K., "Hirl: Hierarchical inverse reinforcement learning for long-horizon tasks with delayed rewards", arXiv preprint arXiv:1604.06508, 2016. Shah, A., Kamath, P., Shah, J. A., & Li, S., "Bayesian inference of temporal task specifications from demonstrations", In Advances in Neural Information Processing Systems, pp.3804-3813, 2018. Vazquez-Chanlatte, M., & Seshia, S. A., "Learning Task Specifications from Demonstrations via the Principle of Maximum Causal Entropy", arXiv preprint arXiv:1907.11792, 2019. Adam Gleave, Oliver Habryka, "Multi-task Maximum Entropy Inverse Reinforcement Learning", 1st Workshop on Goal Specifications for Reinforcement Learning (ICML/IJCAI/AAMAS 2018), Jul. 2018.
非特許文献1に記載された逆強化学習では、一連の動作が一つの目的関数(報酬関数)だけで記述できると仮定している。しかし、より一般的には、設定すべき報酬関数が、一連の動作に対して常に一つとは言えないため、過去の履歴を考慮し、時間変化や状況に応じた切り替えまで含めて報酬関数を設定できることが好ましい。
非特許文献2や非特許文献3に記載された時系列的逆強化学習では、タスクの時系列順を考慮して報酬関数を推定するが、タスクにおける時相論理構造を考慮できない。そのため、非特許文献2や非特許文献3に記載された時系列的逆強化学習では、正しい熟練者の行動を再現できない場合がある。
一方、時相論理の推定には、充足可能性問題(SAT:Satisfiability Problem)のソルバなどが利用される。一般に、タスク間の遷移条件の元になる命題集合Pのサイズが大きい場合、時相論理の推定はNP(Non-deterministic Polynomial)完全問題のため、計算時間が膨大になってしまう。そのため、非特許文献4や非特許文献5に記載された方法では、タスク間の遷移条件の候補数が膨大になってしまうと、多くの探索コストが必要になってしまうという問題がある。
そこで、本発明は、タスク間の時相論理構造を考慮した報酬関数を効率よく推定できる学習装置、学習方法および学習プログラムを提供することを目的とする。
本発明による学習装置は、時系列に複数の作業を行う作業者の行動履歴の入力を受け付ける入力部と、行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する報酬関数推定部と、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定する時相論理構造推定部とを備えたことを特徴とする。
本発明による学習方法は、時系列に複数の作業を行う作業者の行動履歴の入力を受け付け、行動履歴に基づいて、作業ごとの報酬関数を時系列に推定し、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定することを特徴とする。
本発明による学習プログラムは、コンピュータに、時系列に複数の作業を行う作業者の行動履歴の入力を受け付ける入力処理、行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する報酬関数推定処理、および、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定する時相論理構造推定処理を実行させることを特徴とする。
本発明によれば、タスク間の時相論理構造を考慮した報酬関数を効率よく推定できる。
本発明による学習装置の一実施形態の構成例を示すブロック図である。 時系列的逆強化学習の例を示す説明図である。 作業ごとの報酬関数を時系列に推定する処理の例を示す説明図である。 タスク間のオートマトン構造の例を示す説明図である。 学習装置の動作例を示すフローチャートである。 時相論理タスクの具体例を示す説明図である。 推定された遷移構造および遷移条件の例を示す説明図である。 本発明による学習装置の概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
図1は、本発明による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置100は、記憶部10と、入力部20と、報酬関数推定部30と、時相論理構造推定部40と、更新部50と、出力部60とを備えている。
本実施形態では、非特許文献2や非特許文献3に記載されているように、作業者の行動履歴に一つ以上の作業(タスクと記すこともある。)が含まれていると想定する。学習装置100は、この作業間の時相論理構造を考慮した報酬関数を推定する装置である。
記憶部10は、学習装置100が各種処理を行うために必要な情報を記憶する。記憶部10は、後述する報酬関数推定部30、時相論理構造推定部40および更新部50が処理に用いる各種パラメータを記憶してもよい。また、記憶部10は、後述する入力部20が受け付けた行動履歴を記憶してもよい。記憶部10は、例えば、磁気ディスク等により実現される。
入力部20は、対象者の行動履歴の入力を受け付ける。例えば、熟練者(エキスパート)の行動をもとに学習を行う場合、入力部20は、対象者である熟練者の行動履歴の入力を受け付ける。
なお、上述するように、本実施形態では、対象者の一つ以上の作業を含む行動履歴(トラジェクトリと記すこともある。)τが用いられるものとし、入力部20が、熟練者の複数の行動履歴を含むデータ(エキスパートトラジェクトリデータ)Dの入力を受け付けるものとする。すなわち、D={τ,τ,…,τ}であり、τ={(s,a),(s,a),…,(s,a)}である。ここで、sは状態を示し、aは行動を示す。
さらに、入力部20は、遷移条件の候補の入力を受け付けてもよい。ここでの遷移条件とは、作業間の遷移を規定した条件であり、学習対象のドメイン知識から予め導かれる命題論理変数pの集合P(命題集合P)を用いて表される論理式である。なお、入力部20が遷移条件の候補の入力を受け付ける代わりに、記憶部10に予め遷移条件の候補が記憶されていてもよい。
例えば、ロボットアームが作業(例えば、Pick and Place)を行う状況を想定する。このとき、状態sの一例が、(“カメラ画像”,“各アーム関節の座標・軸角度・速度(回転速度)”であり、行動aの一例が、(“各関節におけるトルク”)である。また、命題集合Pが3つの命題論理変数p,q,rとして、{p=“対象物とアームとの距離がX以下”,q=“対象物を掴んでいる”,r=“アームと箱との距離がY以下”}を含むことが考えられる。
報酬関数推定部30は、受け付けた行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する。具体的には、報酬関数推定部30は、データ系列から時間方向に複数の報酬関数を学習する方法である時系列的逆強化学習により、行動履歴に含まれる作業者の行動を示すデータ系列から、時間方向に複数の報酬関数を作業ごとに学習する。時系列的逆強化学習では、各トラジェクトリτにおいて、どの時間ステップ区間[t,ti+1]が1種類の報酬関数を元に生成されているかが推定される。
図2は、時系列的逆強化学習の例を示す説明図である。図2に示す例では、熟練者データτ={(s,a),(s,a),…,(s,a)}について、時系列的逆強化学習により、時間方向に3つの報酬関数が推定されたことを示す。なお、f(s,a)は特徴量ベクトルである。具体的には、図2に示す例では、t=1からkまでのデータ系列に対して、パラメータθで特定される報酬関数が推定され、t=k+1からmまでのデータ系列に対して、パラメータθで特定される報酬関数が推定され、t=m+1からNまでのデータ系列に対して、パラメータθで特定される報酬関数が推定されたことを示す。
報酬関数推定部30は、データDの各要素に対する時系列的な報酬関数を推定し、データDに割り当てた各時刻におけるタスク(報酬関数)を識別するラベル(以下、タスクラベルと記すこともある。)を出力してもよい。例えば、図2に示す例では、t=1からkまでのデータ系列に対して設定したタスクラベル(Task-A)を出力し、t=k+1からmまでのデータ系列に対して設定したタスクラベル(Task-B)を出力し、t=m+1からNまでのデータ系列に対して設定したタスクラベル(Task-C)を出力してもよい。
報酬関数推定部30は、例えば、非特許文献2や非特許文献3に記載された時系列的逆強化学習を利用して、尤度最大化などを用いることで、作業ごとの報酬関数を時系列に推定してもよい。さらに、報酬関数推定部30は、1つのトラジェクトリから推定されるタスク数が過大になることを抑制するため、学習の際、タスク数に関する正規化を行ってもよい。具体的には、報酬関数推定部30は、以下の式1に示す正則化項を含む目的関数を最適化することにより、作業ごとの報酬関数を時系列に推定してもよい。
Figure 0007268757000001
式1において、Ntaskは、エキスパートトラジェクトリτの全集合において、現在推定されている異なるタスク数である。θは、時刻ステップtにおける報酬関数Rの重み(すなわち、R=θ・f(s,a,st+1))である。また、αおよびβは、各正規化項の係数である。
具体的には、式1における第1項は、エキスパートデータに現れるタスク数に関する正規化項であり、タスク数が大きくなるほど小さな値をとる項である。また、式1における第2項は、時間変化に伴い推定されるタスクの変化に関する正規化項であり、タスクが変化するほど小さな値をとる項である。
すなわち、(s,a)から(st+1,at+1)への変化を実現する報酬関数Rは、一般に無数に存在する。ただし、実際のエキスパートの行動は、1ステップごとに目まぐるしく変化するものではない。そのため、行動に対して考慮すべき報酬関数は、各トラジェクトリにおいて数種類程度と考えられる。そこで、時間方向の報酬関数Rの変化に対する正規化項を考慮することで、実際のエキスパートにより近い行動を推定できる。
また、報酬関数推定部30は、異なるトラジェクトリにわたるタスク数を、例えば、非特許文献6に記載されている方法を用いて抑制してもよい。具体的には、報酬関数推定部30は、トラジェクトリごとに推定された報酬関数θに関する正規化を、以下に示す式2を用いて行ってもよい。
Figure 0007268757000002
図3は、作業ごとの報酬関数を時系列に推定する処理の例を示す説明図である。図3に示す例では、3つの行動履歴(トラジェクトリ)が時系列に4種類のタスクラベル(Task-A~Task-D)で識別されるタスクに分類できたことを示す。タスクごとに報酬関数が推定されるため、図3に示す例では、時系列に4種類の報酬関数が推定されたと言える。
例えば、図3に例示するトラジェクトリτは、時刻t11の時点でTask-AからTask-Bに切り替わり、時刻t12の時点でTask-BからTask-Dに切り替わると推定されている。すなわち、時刻t11の時点で、Task-Aを示す報酬関数からTask-Bを示す報酬関数に切り替わり、時刻t12の時点で、Task-Bを示す報酬関数からTask-Dを示す報酬関数に切り替わると推定されたと言える。
時相論理構造推定部40は、推定されたそれぞれの報酬関数(タスク)が切り替わる時点における遷移条件の候補に基づいて、作業間(タスク間)の時相論理構造を推定する。以下の説明では、タスク間の遷移条件をφで表わす。遷移条件の候補は、命題論理変数を用いた論理式の組み合わせということができる。
本実施形態の時相論理構造推定部40は、タスクが切り替わる時点に着目し、その切り替わる前後の命題論理変数を用いた論理式の真偽値(命題変数情報ということもある。)から、タスク間の遷移構造と遷移条件とを時相論理構造として推定する。時相論理構造推定部40は、例えば、報酬関数推定部30によって時系列的なタスクラベルが推定された後、それをもとに各タスクの遷移構造を推定してもよい。例えば、推定時において、タスクAの後にタスクBまたはタスクCのみ実行されていることが推定された場合、時相論理構造推定部40は、タスクA→タスクBおよびタスクA→タスクCを示す有向グラフを含むオートマトン構造(状態遷移図)を時相論理構造として推定してもよい。
また、時相論理構造推定部40は、充足可能性問題(SAT)のソルバを用いることで、その切り替わる前後の命題論理変数を用いた論理式の真偽値(命題変数情報ということもある。)から、タスク間の遷移条件を推定してもよい。
さらに、エキスパートデータにおけるノイズやエラーを考慮した場合、充足可能性問題ソルバでは遷移条件を推定することが難しい場合もある。そのため、時相論理構造推定部40は、タスク間の遷移確率を算出することにより遷移条件を推定してもよい。具体的には、時相論理構造推定部40は、タスクAからタスクBへの遷移条件φABを、以下に示す式3で推定してもよい。
φAB=argmaxφ∈ΦP(φ|D={τ,τ,…}) (式3)
式3において、Φは、遷移条件の集合であり、φは、命題集合Pの各要素p(=命題論理変数)から構成可能な命題である。なお、式3における右辺は、サンプリングなどで算出される。
図4は、タスク間のオートマトン構造の例を示す説明図である。図4に例示するφは、命題論理変数p∈Pからなる時相論理式であり、各タスク間の遷移条件を示す。
さらに、時相論理構造推定部40は、非特許文献4や非特許文献5に記載された方法を用いて、タスク間の時相論理構造を推定してもよい。
例えば、報酬関数を学習する方法とタスクの時相論理を学習する方法とを、それぞれ単純に組み合わせることで、タスク間の時相論理構造を考慮した報酬関数を推定できるとも考えられる。しかし、両者を単純に組み合わせただけでは、時相論理学習処理(処理ループ)内で、逆強化学習処理(処理ループ)が行われることになるだけである。このような組み合わせでは、ただでさえ膨大な計算コストを要する学習処理がさらに大きくなってしまうため、現実的ではない。
すなわち、タスクの時相論理の学習は、事前に命題集合が与えられ、その後に充足可能性問題ソルバを用いて行われるが、この処理はNP完全である。十分なドメイン知識があれば、タスクの時相論理を学習する必要性は低いため、一般に、ドメイン知識が不十分な場合に時相論理学習が行われることになる。ただし、この場合、十分なサイズの命題集合Pを設定する必要がある。サイズが大きいほど計算が困難になるため、処理を低減させるためには、この命題集合Pに含まれる命題論理変数を効率的に選択する必要もある。
ここで、タスク一例として、「鍵の掛かった扉を開けて脱出する」というタスクを考える。ドメイン知識があれば、命題集合Pとして{“鍵を取得したかどうか”}を表わす命題変数のみを準備しておけばよいことが分かる。しかし、ドメイン知識がない場合、例えば、扉が開く条件が分からないことが想定される。この場合、命題変数が{“鍵を取得したかどうか”}だけで十分か否かを判断できないため、他の命題変数(例えば、“100歩進んだ”、“100秒経過した”)も準備する必要が生じ、命題集合のサイズが大きくなってしまう。
さらに、この場合、ドメイン知識に基づく命題集合のサイズを削減するために、学習の元になるエキスパートデータが示す特徴から、命題集合を適切に選択する必要もある。例えば、上記例において、全て100歩以内で扉を開けていることがエキスパートデータから把握できた場合、(“100歩進んだ”)という命題変数を削除できることが分かる。このように適切に命題変数の選択(特徴量選択)することで、命題集合のサイズを削減できるが、効率的に命題論理変数を選択するためのコストが生じてしまうという問題もある。
また、時相論理を導入する本質的理由は、「現在の状態」および「現在の行動」のみによって「次の状態」が決定されるというマルコフ決定過程を越えて、強化学習における報酬関数が過去の履歴に依存する場合までも取り扱うためである。これについて、現在の状態を表わすsを、過去の履歴情報を表わすsを用いて拡張し、合わせて、特徴量ベクトルf(s,a,s´)も拡張することが考えられる。すなわち、
s→(s,s
f(s,a,s´)→(f(s,a,s´),f((s,s),a,(s´,s´)))
である。ただし、一般に、sは、命題集合Pに対応付けられ、Pの全要素の論理値を表す|P|次元ベクトルである。また、fは、sの可能な状態それぞれが達成されたときのみ非ゼロの値をとる特徴量要素を持った2|P|次元ベクトルになる。
上記拡張により、報酬関数の履歴依存性を、以下の式4のように表現することは可能である。
R=(θ,θ・(f(s,a,s´),f((s,s),a,(s´,s´)))
(式4)
しかし、この場合、ビット表現された長大な特徴量ベクトルを扱わなければならない。一般に、特徴量の数が膨大になると、エキスパートデータから正しい報酬関数を推定することが困難になる。したがって、例えば、複数の競合する特徴量を最小化する、といったような処理は困難である。
以上の問題に対し、本実施形態では、報酬関数推定部30が、作業ごとの報酬関数を時系列に推定するため、可能なタスク間遷移や遷移条件の命題空間が集約される。そして、時相論理構造推定部40が、タスクが切り替わる時点に着目して、時相論理構造を推定する。これにより、ソルバが考慮すべき探索空間が非常に小さくなるため、計算を高速化することが可能である。
なお、推定処理に量子コンピュータが用いられる場合、時相論理構造推定部40は、推定する際に用いられるモデルを、量子コンピュータで用いられるモデル(例えば、イジングモデル)に変形してもよい。
更新部50は、作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新する。具体的には、更新部50は、推定した時相論理構造を固定しながら、行動履歴(エキスパートトラジェクトリ)の尤度を最大化するように、各行動履歴におけるタスクラベルを更新して、タスクを表わす報酬関数を更新する。
一般に、推定された時相論理構造(すなわち、タスク間の遷移構造および遷移条件)は、実データに含まれるノイズや、エキスパートトラジェクトリデータのエラーの存在によって、たとえその推定が真に正解であったとしても、100%順守されているとは限らない。そこで、更新部50は、タスクの報酬関数が切り替わる時点のタスクラベルを時系列の前後にスライドさせて、エキスパートトラジェクトリデータに割り当てられるタスクラベルの位置(すなわち、報酬関数が切り替わる時点)を更新してもよい。
例えば、推定されたタスクラベルの系列が「AAABBBCCC」であったとする。この場合、報酬関数が切り替わる時点を更新するとは、例えば、「AAAABBCCC」のように、タスクが切り替わる時刻ステップtの位置をスライドさせることに対応する。
タスクラベルを更新することで、そのタスクの報酬関数の推定に用いられる対象のデータも更新される。すなわち、あるタスクについて、t=i~jまでの時刻ステップの状態および行動のペア(s,a)で報酬関数が推定されていたものが、例えば、t=i~j+Δの状態および行動のペア(s,a)で報酬関数が推定されることになる。そのため更新部50は、更新されたタスクラベルで識別されるタスクに対する報酬関数を、行動履歴の尤度を最大化するように更新する。更新部50は、例えば、時相論理推定に関する尤度計算とタスクラベルに対する勾配計算から、尤度を最大化するタスクラベルを更新してもよい。
そして、更新部50は、報酬関数が切り替わる時点の変化が予め定めた終了条件を満たすか否か判定する。更新部50は、例えば、タスクラベルの変化量が予め定めた閾値を下回るか否か判定してもよい。タスクラベルの変化量とは、更新前のタスクラベルの系列と更新後のタスクラベルの系列との差分を示す。例えば、タスクラベルの系列が「AAABBBCCC」から「AAAABBCCC」に変化した場合、タスクラベルの変化量は1になる。
予め定めた終了条件を満たしていない場合、時相論理構造推定部40による推定処理が行われ、再度、更新部50による更新処理が行われる。一方、予め定めた終了条件を満たす場合、更新部50は、更新処理を終了する。例えば、タスクラベルの変化量が閾値を越えない場合、更新部50は、更新処理を終了する。タスクラベルが更新されていなければ、各タスクの報酬関数、並びに、タスクラベルに基づいて推定されるタスク構造およびタスク間遷移条件も不変であるため、タスクラベルの更新前後の変化量に着目した終了条件で十分と言える。
なお、終了条件は、タスクラベルの変化量に限られない。更新部50は、終了条件として、更新前後の報酬関数の変化量や、タスク構造の変化量、タスク間遷移条件に対して定義した変化量を用いてもよい。
出力部60は、推定された時相論理構造を出力する。
入力部20と、報酬関数推定部30と、時相論理構造推定部40と、更新部50と、出力部60とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
例えば、プログラムは、学習装置100が備える記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部20、報酬関数推定部30、時相論理構造推定部40、更新部50および出力部60として動作してもよい。また、学習装置100の機能がSaaS(Software as a Service )形式で提供されてもよい。
また、入力部20と、報酬関数推定部30と、時相論理構造推定部40と、更新部50と、出力部60とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
また、学習装置100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本実施形態の学習装置100の動作を説明する。図5は、本実施形態の学習装置100の動作例を示すフローチャートである。入力部20は、時系列に複数の作業を行う作業者の行動履歴の入力を受け付ける(ステップS11)。報酬関数推定部30は、受け付けた行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する(ステップS12)。そして、時相論理構造推定部40は、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定する(ステップS13)。
さらに、学習装置100の更新部50は、作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新してもよい(ステップS14)。そして、更新部50は、報酬関数が切り替わる時点の変化が予め定めた終了条件を満たすか否か判定する(ステップS15)。終了条件を満たしていない場合(ステップS15におけるNo)、ステップS13以降の処理を繰り返す。一方、終了条件を満たしている場合(ステップS15におけるYes)、出力部60は、推定された時相論理構造を出力する(ステップS16)。
以上のように、本実施形態では、入力部20が、時系列に複数の作業を行う作業者の行動履歴の入力を受け付け、報酬関数推定部30が、受け付けた行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する。そして、時相論理構造推定部40が、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定する。よって、タスク間の時相論理構造を考慮した報酬関数を効率よく推定できる。
次に、本実施形態の具体例を説明する。図6は、時相論理タスクの具体例を示す説明図である。本具体例では、図6に例示するように、上述するロボットアーム(以下、単にアームと記す。)101が対象物であるボトル102を掴んで箱103に詰める作業(Pick and Place)を行う状況を想定する。具体的には、矢印104の方向に動くベルトコンベア105の上をボトル102が移動する状況において、カメラ106によって撮影された画像に基づいてアーム101が作業を行う。ここでは、ロボットアーム101による作業が、以下の4つに大別できるとする。
(1)対象物に(アーム101が)近づく
(2)対象物を掴む
(3)対象物を箱に近づける
(4)対象物を箱に入れる
まず、入力部20は、学習データとして行動履歴τ={(s,a),(s,a),…}の入力を受け付ける。上述するように、入力部20は、カメラ106による対象物との距離を撮像したカメラ画像および各アーム101の状態を示す情報を状態sとして、また、アーム101のトルクを行動aとして受け付ける。
次に、報酬関数推定部30は、報酬関数を時系列に推定する。具体的には、報酬関数推定部30は、行動が1つにまとめられる期間と、その期間に対応する報酬関数を推定する。これにより、行動履歴が4つの作業に分類され、上記(1)~(4)の作業に対する報酬関数が推定される。
時相論理構造推定部40は、推定した各行動の遷移構造および遷移条件を推定する。図7は、推定された遷移構造および遷移条件の例を示す説明図である。例えば、上記(1)の作業において、φ=¬p(すなわち、“対象物(ボトル102)とアーム101との距離がX以下”でない)の場合に、上記(1)の作業を繰り返し、φ=p(すなわち、“対象物(ボトル102)とアーム101との距離がX以下”である)の場合に、上記(2)の作業に遷移することを示す。その他についても同様である。
更新部50は、報酬関数が切り替わる時点をスライドさせて、報酬関数を更新する。更新部50は、例えば、“対象物に近づく”作業(すなわち、作業(1))と“対象物を掴む”作業(すなわち、作業(2))が切り替わる時点の位置を前後にスライドさせてみて、報酬関数がより好ましくなるように更新する。これを、終了条件を満たすまで繰り返す。
次に、本実施形態の他の具体例を説明する。時相論理は、例えば、「タスクAの後にタスクB」というタスクの順序を扱うだけでなく、「条件Xを維持しながらタスクAを行う」や、「タスクAを終えた後は、常に条件Xを守りながらタスクBを行う」などのような拘束条件も取り扱うことができる。
例えば、自動運転では、「ずっと左車線を走る」、「優先道路に入った後は、その道路を出るまで交差点において一時停止することなく直進」などが、時相論理で記述されるものである。人間の運転をより適切に模擬した自動運転を達成するには、一般的な逆強化学習の枠組みを越え、時相論理タスクを取り扱うことのできる逆強化学習が必要となる。
本実施形態の学習装置100による逆強化学習は、時相論理タスクを取り扱っている。そのため、上述するような拘束条件を考慮した報酬関数を推定することが可能になる。
次に、本発明の概要を説明する。図8は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置80(例えば、学習装置100)は、時系列に複数の作業(例えば、タスク)を行う作業者の行動履歴(例えば、トラジェクトリτ,データD)の入力を受け付ける入力部81(例えば、入力部20)と、行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する報酬関数推定部82(例えば、報酬関数推定部30)と、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定する時相論理構造推定部83(例えば、時相論理構造推定部40)とを備えている。
そのような構成により、タスク間の時相論理構造を考慮した報酬関数を効率よく推定できる。
また、学習装置80は、作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新する更新部(例えば、更新部50)を備えていてもよい。
具体的には、報酬関数推定部82は、作業を識別するタスクラベルを、対応する行動履歴に時系列に割り当て、更新部は、報酬関数が切り替わる時点のタスクラベルを時系列の前後にスライドさせることによりその報酬関数が切り替わる時点を更新し、更新されたタスクラベルで識別される作業に対応する報酬関数を、作業者の行動履歴の尤度を最大化するように更新してもよい。
また、時相論理構造推定部83は、学習対象のドメイン知識から予め導出される命題論理変数を用いた論理式で表わされる作業間の遷移条件を、充足可能性問題のソルバ(SATソルバ)を用いて解くことにより推定してもよい。
他にも、時相論理構造推定部83は、学習対象のドメイン知識から予め導出される命題論理変数を用いた論理式で表わされる作業間の遷移条件を、その作業間の遷移確率を算出することにより推定してもよい。
また、報酬関数推定部82は、時系列的逆強化学習により、行動履歴に含まれる作業者の行動を示すデータ系列から、時間方向に複数の報酬関数を作業ごとに学習してもよい。
図9は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
上述の学習装置80は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
本発明は、時相論理構造を考慮した報酬関数を推定する学習装置に好適に適用される。例えば、倉庫や工場での作業を行うロボティクス、プラントの自動運転、RPA(robotic process automation)の自動化、および、ゲームに用いられる報酬関数を推定する学習装置に本発明を好適に適用可能である。
10 記憶部
20 入力部
30 報酬関数推定部
40 時相論理構造推定部
50 更新部
60 出力部

Claims (10)

  1. 時系列に複数の作業を行う作業者の行動履歴の入力を受け付ける入力部と、
    前記行動履歴に基づいて、前記作業ごとの報酬関数を時系列に推定する報酬関数推定部と、
    推定されたそれぞれの前記報酬関数が切り替わる時点における遷移条件の候補に基づいて、前記作業間の時相論理構造を推定する時相論理構造推定部とを備えた
    ことを特徴とする学習装置。
  2. 作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新する更新部を備えた
    請求項1記載の学習装置。
  3. 報酬関数推定部は、作業を識別するタスクラベルを、対応する行動履歴に時系列に割り当て、
    更新部は、報酬関数が切り替わる時点のタスクラベルを時系列の前後にスライドさせることにより当該報酬関数が切り替わる時点を更新し、更新されたタスクラベルで識別される作業に対応する報酬関数を、作業者の行動履歴の尤度を最大化するように更新する
    請求項2記載の学習装置。
  4. 時相論理構造推定部は、学習対象のドメイン知識から予め導出される命題論理変数を用いた論理式で表わされる作業間の遷移条件を、充足可能性問題のソルバを用いて解くことにより推定する
    請求項1から請求項3のうちのいずれか1項に記載の学習装置。
  5. 時相論理構造推定部は、学習対象のドメイン知識から予め導出される命題論理変数を用いた論理式で表わされる作業間の遷移条件を、当該作業間の遷移確率を算出することにより推定する
    請求項1から請求項3のうちのいずれか1項に記載の学習装置。
  6. 報酬関数推定部は、時系列的逆強化学習により、行動履歴に含まれる作業者の行動を示すデータ系列から、時間方向に複数の報酬関数を作業ごとに学習する
    請求項1から請求項5のうちのいずれか1項に記載の学習装置。
  7. 時系列に複数の作業を行う作業者の行動履歴の入力を受け付け、
    前記行動履歴に基づいて、前記作業ごとの報酬関数を時系列に推定し、
    推定されたそれぞれの前記報酬関数が切り替わる時点における遷移条件の候補に基づいて、前記作業間の時相論理構造を推定する
    ことを特徴とする学習方法。
  8. 作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新する
    請求項7記載の学習方法。
  9. コンピュータに、
    時系列に複数の作業を行う作業者の行動履歴の入力を受け付ける入力処理、
    前記行動履歴に基づいて、前記作業ごとの報酬関数を時系列に推定する報酬関数推定処理、および、
    推定されたそれぞれの前記報酬関数が切り替わる時点における遷移条件の候補に基づいて、前記作業間の時相論理構造を推定する時相論理構造推定処理
    を実行させるための学習プログラム。
  10. コンピュータに、
    作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新する更新処理を実行させる
    請求項9記載の学習プログラム。
JP2021555712A 2019-11-14 2019-11-14 学習装置、学習方法および学習プログラム Active JP7268757B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/044624 WO2021095190A1 (ja) 2019-11-14 2019-11-14 学習装置、学習方法および学習プログラム

Publications (2)

Publication Number Publication Date
JPWO2021095190A1 JPWO2021095190A1 (ja) 2021-05-20
JP7268757B2 true JP7268757B2 (ja) 2023-05-08

Family

ID=75912587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021555712A Active JP7268757B2 (ja) 2019-11-14 2019-11-14 学習装置、学習方法および学習プログラム

Country Status (3)

Country Link
US (1) US20220390909A1 (ja)
JP (1) JP7268757B2 (ja)
WO (1) WO2021095190A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201286B (zh) * 2022-02-16 2022-04-26 成都明途科技有限公司 一种任务的处理方法、装置、电子设备、存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019186996A1 (ja) 2018-03-30 2019-10-03 日本電気株式会社 モデル推定システム、モデル推定方法およびモデル推定プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019186996A1 (ja) 2018-03-30 2019-10-03 日本電気株式会社 モデル推定システム、モデル推定方法およびモデル推定プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GHOSH, Shalini, et al.,Model, Data and Reward Repair: Trusted Machine Learning for Markov Decision Processes,Proceedings of the 2018 48th Annual IEEE/IFIP International Conference on Dependable Systems and Net,2018年06月28日,Pages 194-199,ISBN: 978-1-5386-6553-4, <DOI: 10.1109/DSN-W.2018.00064>.
QUOC PHONG NGUYEN, et al.,Inverse Reinforcement Learning with Locally Consistent Reward Functions,Advances in Neural Information Processing Systems 28 (NIPS 2015),[online],2015年12月09日,Pages 1-9,[retrieved on 2020.01.14],Retrieved from the Internet: <URL: https://nips.cc/Conferences/2015/Schedule>

Also Published As

Publication number Publication date
WO2021095190A1 (ja) 2021-05-20
US20220390909A1 (en) 2022-12-08
JPWO2021095190A1 (ja) 2021-05-20

Similar Documents

Publication Publication Date Title
Svetlik et al. Automatic curriculum graph generation for reinforcement learning agents
Rybkin et al. Model-based reinforcement learning via latent-space collocation
Jung et al. Gaussian processes for sample efficient reinforcement learning with RMAX-like exploration
Bøhn et al. Reinforcement learning of the prediction horizon in model predictive control
Heidrich-Meisner et al. Evolution strategies for direct policy search
JP7268757B2 (ja) 学習装置、学習方法および学習プログラム
Alt et al. Correlation priors for reinforcement learning
Osanlou et al. Learning-based preference prediction for constrained multi-criteria path-planning
Wang et al. Task-independent causal state abstraction
LaGrassa et al. Learning model preconditions for planning with multiple models
Prasidis et al. Handling uncertainty in predictive business process monitoring with Bayesian networks
Xiao et al. Local advantage actor-critic for robust multi-agent deep reinforcement learning
Magnenat et al. Integration of online learning into HTN planning for robotic tasks
Allen et al. Health-informed policy gradients for multi-agent reinforcement learning
Vemula et al. CMAX++: Leveraging experience in planning and execution using inaccurate models
CN111949013A (zh) 控制载具的方法和用于控制载具的装置
Krivic et al. Decreasing uncertainty in planning with state prediction
Trauth et al. An end-to-end optimization framework for autonomous driving software
Brunskill et al. Provably efficient learning with typed parametric models
Śniezyński et al. Combining rule induction and reinforcement learning: An agent-based vehicle routing
Liu et al. Safe model-based control from signal temporal logic specifications using recurrent neural networks
Fromm et al. Physics-based damage-aware manipulation strategy planning using scene dynamics anticipation
Hammer Reasoning-learning systems based on non-axiomatic reasoning system theory
Eberding et al. Causal reasoning over probabilistic uncertainty
Elimelech et al. Introducing PIVOT: Predictive incremental variable ordering tactic for efficient belief space planning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230404

R151 Written notification of patent or utility model registration

Ref document number: 7268757

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151