JP7268757B2

JP7268757B2 - 学習装置、学習方法および学習プログラム

Info

Publication number: JP7268757B2
Application number: JP2021555712A
Authority: JP
Inventors: 大窪田; 力江藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2023-05-08
Anticipated expiration: 2039-11-14
Also published as: WO2021095190A1; US20220390909A1; JPWO2021095190A1

Description

本発明は、時相論理構造を考慮した報酬関数を推定する学習装置、学習方法および学習プログラムに関する。

熟練技術者の後継者不足により熟練技術の再現ができない場合、熟練技術が途絶してしまう可能性がある。また、ロボットや自動車などの運転自動化が推し進められているが、ロボットなどの自動化に伴う目的関数の設定は人手では難しいため、目的関数の設定が自動化を阻害する要因の一つになっている。そこで、目的関数の定式化を簡素にすることで、技術をさらに発展させる試みが行われている。

定式化を簡素にする方法の一つとして、逆強化学習が知られている。逆強化学習は、熟練者が行った意思決定の履歴に基づいて、状態ごとに行動を評価する目的関数（報酬関数）を推定する学習方法である。逆強化学習では、意思決定の履歴を熟練者のものへ近づけるように報酬関数を更新していくことで、熟練者の報酬関数を推定する。

非特許文献１には、逆強化学習の一つである最大エントロピー逆強化学習について記載されている。非特許文献１に記載された方法では、熟練者のデータＤ＝｛τ_１，τ_２，…τ_Ｎ｝（ただし、τ_ｉ＝（（ｓ_１，ａ_１），（ｓ_２，ａ_２），…，（ｓ_Ｎ，ａ_Ｎ））であり、ｓ_ｉは状態を表わし、ａ_ｉは行動を表わす。）からただ１つの報酬関数Ｒ（ｓ，ａ，ｓ´）＝θ・ｆ（ｓ，ａ，ｓ´）を推定する。この推定されたθを用いることで、熟練者の意思決定を再現できる。

また、非特許文献２や非特許文献３には、データ系列から時間方向に複数の報酬関数を学習する時系列的逆強化学習について記載されている。時系列的逆強化学習では、報酬関数の切り替わりが過去の履歴に依らないことを前提とし、一つのデータ系列から、切り替わる報酬関数および遷移関数を推定する。

なお、時間方向の変化に関し、非特許文献４や非特許文献５には、時相論理を推定する方法が記載されている。時相論理の推定では、熟練者データが時相論理の枠組みで複数のタスク（１つのタスクが１つの報酬関数に対応）が表されている場合に、熟練者の有するタスク間の時相論理構造を推定する。

また、非特許文献６には、逆強化学習において、異なるトラジェクトリにわたるタスク数を抑制する正規化について記載されている。

B. D. Ziebart, A. Maas, J. A. Bagnell, and A. K. Dey, "Maximum entropy inverse reinforcement learning", In AAAI, AAAI’08, 2008. Nguyen, Q. P., Low, B. K. H., & Jaillet, P, "Inverse reinforcement learning with locally consistent reward functions", In Advances in neural information processing systems, pp.1747-1755, 2015. Krishnan, S., Garg, A., Liaw, R., Miller, L., Pokorny, F. T., and Goldberg, K., "Hirl: Hierarchical inverse reinforcement learning for long-horizon tasks with delayed rewards", arXiv preprint arXiv:1604.06508, 2016. Shah, A., Kamath, P., Shah, J. A., & Li, S., "Bayesian inference of temporal task specifications from demonstrations", In Advances in Neural Information Processing Systems, pp.3804-3813, 2018. Vazquez-Chanlatte, M., & Seshia, S. A., "Learning Task Specifications from Demonstrations via the Principle of Maximum Causal Entropy", arXiv preprint arXiv:1907.11792, 2019. Adam Gleave, Oliver Habryka, "Multi-task Maximum Entropy Inverse Reinforcement Learning", 1st Workshop on Goal Specifications for Reinforcement Learning (ICML/IJCAI/AAMAS 2018), Jul. 2018.

非特許文献１に記載された逆強化学習では、一連の動作が一つの目的関数（報酬関数）だけで記述できると仮定している。しかし、より一般的には、設定すべき報酬関数が、一連の動作に対して常に一つとは言えないため、過去の履歴を考慮し、時間変化や状況に応じた切り替えまで含めて報酬関数を設定できることが好ましい。

非特許文献２や非特許文献３に記載された時系列的逆強化学習では、タスクの時系列順を考慮して報酬関数を推定するが、タスクにおける時相論理構造を考慮できない。そのため、非特許文献２や非特許文献３に記載された時系列的逆強化学習では、正しい熟練者の行動を再現できない場合がある。

一方、時相論理の推定には、充足可能性問題（ＳＡＴ：Satisfiability Problem）のソルバなどが利用される。一般に、タスク間の遷移条件の元になる命題集合Ｐのサイズが大きい場合、時相論理の推定はＮＰ（Non-deterministic Polynomial）完全問題のため、計算時間が膨大になってしまう。そのため、非特許文献４や非特許文献５に記載された方法では、タスク間の遷移条件の候補数が膨大になってしまうと、多くの探索コストが必要になってしまうという問題がある。

そこで、本発明は、タスク間の時相論理構造を考慮した報酬関数を効率よく推定できる学習装置、学習方法および学習プログラムを提供することを目的とする。

本発明による学習装置は、時系列に複数の作業を行う作業者の行動履歴の入力を受け付ける入力部と、行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する報酬関数推定部と、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定する時相論理構造推定部とを備えたことを特徴とする。

本発明による学習方法は、時系列に複数の作業を行う作業者の行動履歴の入力を受け付け、行動履歴に基づいて、作業ごとの報酬関数を時系列に推定し、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定することを特徴とする。

本発明による学習プログラムは、コンピュータに、時系列に複数の作業を行う作業者の行動履歴の入力を受け付ける入力処理、行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する報酬関数推定処理、および、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定する時相論理構造推定処理を実行させることを特徴とする。

本発明によれば、タスク間の時相論理構造を考慮した報酬関数を効率よく推定できる。

本発明による学習装置の一実施形態の構成例を示すブロック図である。時系列的逆強化学習の例を示す説明図である。作業ごとの報酬関数を時系列に推定する処理の例を示す説明図である。タスク間のオートマトン構造の例を示す説明図である。学習装置の動作例を示すフローチャートである。時相論理タスクの具体例を示す説明図である。推定された遷移構造および遷移条件の例を示す説明図である。本発明による学習装置の概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

以下、本発明の実施形態を図面を参照して説明する。

図１は、本発明による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置１００は、記憶部１０と、入力部２０と、報酬関数推定部３０と、時相論理構造推定部４０と、更新部５０と、出力部６０とを備えている。

本実施形態では、非特許文献２や非特許文献３に記載されているように、作業者の行動履歴に一つ以上の作業（タスクと記すこともある。）が含まれていると想定する。学習装置１００は、この作業間の時相論理構造を考慮した報酬関数を推定する装置である。

記憶部１０は、学習装置１００が各種処理を行うために必要な情報を記憶する。記憶部１０は、後述する報酬関数推定部３０、時相論理構造推定部４０および更新部５０が処理に用いる各種パラメータを記憶してもよい。また、記憶部１０は、後述する入力部２０が受け付けた行動履歴を記憶してもよい。記憶部１０は、例えば、磁気ディスク等により実現される。

入力部２０は、対象者の行動履歴の入力を受け付ける。例えば、熟練者（エキスパート）の行動をもとに学習を行う場合、入力部２０は、対象者である熟練者の行動履歴の入力を受け付ける。

なお、上述するように、本実施形態では、対象者の一つ以上の作業を含む行動履歴（トラジェクトリと記すこともある。）τが用いられるものとし、入力部２０が、熟練者の複数の行動履歴を含むデータ（エキスパートトラジェクトリデータ）Ｄの入力を受け付けるものとする。すなわち、Ｄ＝｛τ_１，τ_２，…，τ_Ｍ｝であり、τ＝｛（ｓ_１，ａ_１），（ｓ_２，ａ_２），…，（ｓ_Ｎ，ａ_Ｎ）｝である。ここで、ｓは状態を示し、ａは行動を示す。

さらに、入力部２０は、遷移条件の候補の入力を受け付けてもよい。ここでの遷移条件とは、作業間の遷移を規定した条件であり、学習対象のドメイン知識から予め導かれる命題論理変数ｐの集合Ｐ（命題集合Ｐ）を用いて表される論理式である。なお、入力部２０が遷移条件の候補の入力を受け付ける代わりに、記憶部１０に予め遷移条件の候補が記憶されていてもよい。

例えば、ロボットアームが作業（例えば、ＰｉｃｋａｎｄＰｌａｃｅ）を行う状況を想定する。このとき、状態ｓの一例が、（“カメラ画像”,“各アーム関節の座標・軸角度・速度（回転速度）”であり、行動ａの一例が、（“各関節におけるトルク”）である。また、命題集合Ｐが３つの命題論理変数ｐ，ｑ，ｒとして、｛ｐ＝“対象物とアームとの距離がＸ以下”，ｑ＝“対象物を掴んでいる”，ｒ＝“アームと箱との距離がＹ以下”｝を含むことが考えられる。

報酬関数推定部３０は、受け付けた行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する。具体的には、報酬関数推定部３０は、データ系列から時間方向に複数の報酬関数を学習する方法である時系列的逆強化学習により、行動履歴に含まれる作業者の行動を示すデータ系列から、時間方向に複数の報酬関数を作業ごとに学習する。時系列的逆強化学習では、各トラジェクトリτにおいて、どの時間ステップ区間［ｔ_ｉ，ｔ_ｉ＋１］が１種類の報酬関数を元に生成されているかが推定される。

図２は、時系列的逆強化学習の例を示す説明図である。図２に示す例では、熟練者データτ＝｛（ｓ_１，ａ_１），（ｓ_２，ａ_２），…，（ｓ_Ｎ，ａ_Ｎ）｝について、時系列的逆強化学習により、時間方向に３つの報酬関数が推定されたことを示す。なお、ｆ（ｓ，ａ）は特徴量ベクトルである。具体的には、図２に示す例では、ｔ＝１からｋまでのデータ系列に対して、パラメータθ_Ａで特定される報酬関数が推定され、ｔ＝ｋ＋１からｍまでのデータ系列に対して、パラメータθ_Ｂで特定される報酬関数が推定され、ｔ＝ｍ＋１からＮまでのデータ系列に対して、パラメータθ_Ｃで特定される報酬関数が推定されたことを示す。

報酬関数推定部３０は、データＤの各要素に対する時系列的な報酬関数を推定し、データＤに割り当てた各時刻におけるタスク（報酬関数）を識別するラベル（以下、タスクラベルと記すこともある。）を出力してもよい。例えば、図２に示す例では、ｔ＝１からｋまでのデータ系列に対して設定したタスクラベル（Ｔａｓｋ－Ａ）を出力し、ｔ＝ｋ＋１からｍまでのデータ系列に対して設定したタスクラベル（Ｔａｓｋ－Ｂ）を出力し、ｔ＝ｍ＋１からＮまでのデータ系列に対して設定したタスクラベル（Ｔａｓｋ－Ｃ）を出力してもよい。

報酬関数推定部３０は、例えば、非特許文献２や非特許文献３に記載された時系列的逆強化学習を利用して、尤度最大化などを用いることで、作業ごとの報酬関数を時系列に推定してもよい。さらに、報酬関数推定部３０は、１つのトラジェクトリから推定されるタスク数が過大になることを抑制するため、学習の際、タスク数に関する正規化を行ってもよい。具体的には、報酬関数推定部３０は、以下の式１に示す正則化項を含む目的関数を最適化することにより、作業ごとの報酬関数を時系列に推定してもよい。

式１において、Ｎ_ｔａｓｋは、エキスパートトラジェクトリτの全集合において、現在推定されている異なるタスク数である。θ_ｔは、時刻ステップｔにおける報酬関数Ｒ_ｔの重み（すなわち、Ｒ_ｔ＝θ_ｔ・ｆ（ｓ_ｔ，ａ_ｔ，ｓ_ｔ＋１））である。また、αおよびβは、各正規化項の係数である。

具体的には、式１における第１項は、エキスパートデータに現れるタスク数に関する正規化項であり、タスク数が大きくなるほど小さな値をとる項である。また、式１における第２項は、時間変化に伴い推定されるタスクの変化に関する正規化項であり、タスクが変化するほど小さな値をとる項である。

すなわち、（ｓ_ｔ，ａ_ｔ）から（ｓ_ｔ＋１，ａ_ｔ＋１）への変化を実現する報酬関数Ｒ_ｔは、一般に無数に存在する。ただし、実際のエキスパートの行動は、１ステップごとに目まぐるしく変化するものではない。そのため、行動に対して考慮すべき報酬関数は、各トラジェクトリにおいて数種類程度と考えられる。そこで、時間方向の報酬関数Ｒ_ｔの変化に対する正規化項を考慮することで、実際のエキスパートにより近い行動を推定できる。

また、報酬関数推定部３０は、異なるトラジェクトリにわたるタスク数を、例えば、非特許文献６に記載されている方法を用いて抑制してもよい。具体的には、報酬関数推定部３０は、トラジェクトリごとに推定された報酬関数θに関する正規化を、以下に示す式２を用いて行ってもよい。

図３は、作業ごとの報酬関数を時系列に推定する処理の例を示す説明図である。図３に示す例では、３つの行動履歴（トラジェクトリ）が時系列に４種類のタスクラベル（Ｔａｓｋ－Ａ～Ｔａｓｋ－Ｄ）で識別されるタスクに分類できたことを示す。タスクごとに報酬関数が推定されるため、図３に示す例では、時系列に４種類の報酬関数が推定されたと言える。

例えば、図３に例示するトラジェクトリτ_１は、時刻ｔ_１１の時点でＴａｓｋ－ＡからＴａｓｋ－Ｂに切り替わり、時刻ｔ_１２の時点でＴａｓｋ－ＢからＴａｓｋ－Ｄに切り替わると推定されている。すなわち、時刻ｔ_１１の時点で、Ｔａｓｋ－Ａを示す報酬関数からＴａｓｋ－Ｂを示す報酬関数に切り替わり、時刻ｔ_１２の時点で、Ｔａｓｋ－Ｂを示す報酬関数からＴａｓｋ－Ｄを示す報酬関数に切り替わると推定されたと言える。

時相論理構造推定部４０は、推定されたそれぞれの報酬関数（タスク）が切り替わる時点における遷移条件の候補に基づいて、作業間（タスク間）の時相論理構造を推定する。以下の説明では、タスク間の遷移条件をφで表わす。遷移条件の候補は、命題論理変数を用いた論理式の組み合わせということができる。

本実施形態の時相論理構造推定部４０は、タスクが切り替わる時点に着目し、その切り替わる前後の命題論理変数を用いた論理式の真偽値（命題変数情報ということもある。）から、タスク間の遷移構造と遷移条件とを時相論理構造として推定する。時相論理構造推定部４０は、例えば、報酬関数推定部３０によって時系列的なタスクラベルが推定された後、それをもとに各タスクの遷移構造を推定してもよい。例えば、推定時において、タスクＡの後にタスクＢまたはタスクＣのみ実行されていることが推定された場合、時相論理構造推定部４０は、タスクＡ→タスクＢおよびタスクＡ→タスクＣを示す有向グラフを含むオートマトン構造（状態遷移図）を時相論理構造として推定してもよい。

また、時相論理構造推定部４０は、充足可能性問題（ＳＡＴ）のソルバを用いることで、その切り替わる前後の命題論理変数を用いた論理式の真偽値（命題変数情報ということもある。）から、タスク間の遷移条件を推定してもよい。

さらに、エキスパートデータにおけるノイズやエラーを考慮した場合、充足可能性問題ソルバでは遷移条件を推定することが難しい場合もある。そのため、時相論理構造推定部４０は、タスク間の遷移確率を算出することにより遷移条件を推定してもよい。具体的には、時相論理構造推定部４０は、タスクＡからタスクＢへの遷移条件φ_ＡＢを、以下に示す式３で推定してもよい。

φ_ＡＢ＝ａｒｇｍａｘ_φ∈ΦＰ（φ｜Ｄ＝｛τ_１，τ_２，…｝）（式３）

式３において、Φは、遷移条件の集合であり、φは、命題集合Ｐの各要素ｐ（＝命題論理変数）から構成可能な命題である。なお、式３における右辺は、サンプリングなどで算出される。

図４は、タスク間のオートマトン構造の例を示す説明図である。図４に例示するφは、命題論理変数ｐ∈Ｐからなる時相論理式であり、各タスク間の遷移条件を示す。

さらに、時相論理構造推定部４０は、非特許文献４や非特許文献５に記載された方法を用いて、タスク間の時相論理構造を推定してもよい。

例えば、報酬関数を学習する方法とタスクの時相論理を学習する方法とを、それぞれ単純に組み合わせることで、タスク間の時相論理構造を考慮した報酬関数を推定できるとも考えられる。しかし、両者を単純に組み合わせただけでは、時相論理学習処理（処理ループ）内で、逆強化学習処理（処理ループ）が行われることになるだけである。このような組み合わせでは、ただでさえ膨大な計算コストを要する学習処理がさらに大きくなってしまうため、現実的ではない。

すなわち、タスクの時相論理の学習は、事前に命題集合が与えられ、その後に充足可能性問題ソルバを用いて行われるが、この処理はＮＰ完全である。十分なドメイン知識があれば、タスクの時相論理を学習する必要性は低いため、一般に、ドメイン知識が不十分な場合に時相論理学習が行われることになる。ただし、この場合、十分なサイズの命題集合Ｐを設定する必要がある。サイズが大きいほど計算が困難になるため、処理を低減させるためには、この命題集合Ｐに含まれる命題論理変数を効率的に選択する必要もある。

ここで、タスク一例として、「鍵の掛かった扉を開けて脱出する」というタスクを考える。ドメイン知識があれば、命題集合Ｐとして｛“鍵を取得したかどうか”｝を表わす命題変数のみを準備しておけばよいことが分かる。しかし、ドメイン知識がない場合、例えば、扉が開く条件が分からないことが想定される。この場合、命題変数が｛“鍵を取得したかどうか”｝だけで十分か否かを判断できないため、他の命題変数（例えば、“１００歩進んだ”、“１００秒経過した”）も準備する必要が生じ、命題集合のサイズが大きくなってしまう。

さらに、この場合、ドメイン知識に基づく命題集合のサイズを削減するために、学習の元になるエキスパートデータが示す特徴から、命題集合を適切に選択する必要もある。例えば、上記例において、全て１００歩以内で扉を開けていることがエキスパートデータから把握できた場合、（“１００歩進んだ”）という命題変数を削除できることが分かる。このように適切に命題変数の選択（特徴量選択）することで、命題集合のサイズを削減できるが、効率的に命題論理変数を選択するためのコストが生じてしまうという問題もある。

また、時相論理を導入する本質的理由は、「現在の状態」および「現在の行動」のみによって「次の状態」が決定されるというマルコフ決定過程を越えて、強化学習における報酬関数が過去の履歴に依存する場合までも取り扱うためである。これについて、現在の状態を表わすｓを、過去の履歴情報を表わすｓ_ｈを用いて拡張し、合わせて、特徴量ベクトルｆ（ｓ，ａ，ｓ´）も拡張することが考えられる。すなわち、
ｓ→（ｓ，ｓ_ｈ）
ｆ（ｓ，ａ，ｓ´）→（ｆ（ｓ，ａ，ｓ´），ｆ_ｈ（（ｓ，ｓ_ｈ），ａ，（ｓ´，ｓ´_ｈ）））
である。ただし、一般に、ｓ_ｈは、命題集合Ｐに対応付けられ、Ｐの全要素の論理値を表す｜Ｐ｜次元ベクトルである。また、ｆ_ｈは、ｓ_ｈの可能な状態それぞれが達成されたときのみ非ゼロの値をとる特徴量要素を持った２^｜Ｐ｜次元ベクトルになる。

上記拡張により、報酬関数の履歴依存性を、以下の式４のように表現することは可能である。

Ｒ＝（θ，θ_ｈ）^Ｔ・（ｆ（ｓ，ａ，ｓ´），ｆ_ｈ（（ｓ，ｓ_ｈ），ａ，（ｓ´，ｓ´_ｈ）））
（式４）

しかし、この場合、ビット表現された長大な特徴量ベクトルを扱わなければならない。一般に、特徴量の数が膨大になると、エキスパートデータから正しい報酬関数を推定することが困難になる。したがって、例えば、複数の競合する特徴量を最小化する、といったような処理は困難である。

以上の問題に対し、本実施形態では、報酬関数推定部３０が、作業ごとの報酬関数を時系列に推定するため、可能なタスク間遷移や遷移条件の命題空間が集約される。そして、時相論理構造推定部４０が、タスクが切り替わる時点に着目して、時相論理構造を推定する。これにより、ソルバが考慮すべき探索空間が非常に小さくなるため、計算を高速化することが可能である。

なお、推定処理に量子コンピュータが用いられる場合、時相論理構造推定部４０は、推定する際に用いられるモデルを、量子コンピュータで用いられるモデル（例えば、イジングモデル）に変形してもよい。

更新部５０は、作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新する。具体的には、更新部５０は、推定した時相論理構造を固定しながら、行動履歴（エキスパートトラジェクトリ）の尤度を最大化するように、各行動履歴におけるタスクラベルを更新して、タスクを表わす報酬関数を更新する。

一般に、推定された時相論理構造（すなわち、タスク間の遷移構造および遷移条件）は、実データに含まれるノイズや、エキスパートトラジェクトリデータのエラーの存在によって、たとえその推定が真に正解であったとしても、１００％順守されているとは限らない。そこで、更新部５０は、タスクの報酬関数が切り替わる時点のタスクラベルを時系列の前後にスライドさせて、エキスパートトラジェクトリデータに割り当てられるタスクラベルの位置（すなわち、報酬関数が切り替わる時点）を更新してもよい。

例えば、推定されたタスクラベルの系列が「ＡＡＡＢＢＢＣＣＣ」であったとする。この場合、報酬関数が切り替わる時点を更新するとは、例えば、「ＡＡＡＡＢＢＣＣＣ」のように、タスクが切り替わる時刻ステップｔの位置をスライドさせることに対応する。

タスクラベルを更新することで、そのタスクの報酬関数の推定に用いられる対象のデータも更新される。すなわち、あるタスクについて、ｔ＝ｉ～ｊまでの時刻ステップの状態および行動のペア（ｓ_ｔ，ａ_ｔ）で報酬関数が推定されていたものが、例えば、ｔ＝ｉ～ｊ＋Δの状態および行動のペア（ｓ_ｔ，ａ_ｔ）で報酬関数が推定されることになる。そのため更新部５０は、更新されたタスクラベルで識別されるタスクに対する報酬関数を、行動履歴の尤度を最大化するように更新する。更新部５０は、例えば、時相論理推定に関する尤度計算とタスクラベルに対する勾配計算から、尤度を最大化するタスクラベルを更新してもよい。

そして、更新部５０は、報酬関数が切り替わる時点の変化が予め定めた終了条件を満たすか否か判定する。更新部５０は、例えば、タスクラベルの変化量が予め定めた閾値を下回るか否か判定してもよい。タスクラベルの変化量とは、更新前のタスクラベルの系列と更新後のタスクラベルの系列との差分を示す。例えば、タスクラベルの系列が「ＡＡＡＢＢＢＣＣＣ」から「ＡＡＡＡＢＢＣＣＣ」に変化した場合、タスクラベルの変化量は１になる。

予め定めた終了条件を満たしていない場合、時相論理構造推定部４０による推定処理が行われ、再度、更新部５０による更新処理が行われる。一方、予め定めた終了条件を満たす場合、更新部５０は、更新処理を終了する。例えば、タスクラベルの変化量が閾値を越えない場合、更新部５０は、更新処理を終了する。タスクラベルが更新されていなければ、各タスクの報酬関数、並びに、タスクラベルに基づいて推定されるタスク構造およびタスク間遷移条件も不変であるため、タスクラベルの更新前後の変化量に着目した終了条件で十分と言える。

なお、終了条件は、タスクラベルの変化量に限られない。更新部５０は、終了条件として、更新前後の報酬関数の変化量や、タスク構造の変化量、タスク間遷移条件に対して定義した変化量を用いてもよい。

出力部６０は、推定された時相論理構造を出力する。

入力部２０と、報酬関数推定部３０と、時相論理構造推定部４０と、更新部５０と、出力部６０とは、プログラム（学習プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit））によって実現される。

例えば、プログラムは、学習装置１００が備える記憶部１０に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部２０、報酬関数推定部３０、時相論理構造推定部４０、更新部５０および出力部６０として動作してもよい。また、学習装置１００の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

また、入力部２０と、報酬関数推定部３０と、時相論理構造推定部４０と、更新部５０と、出力部６０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

また、学習装置１００の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本実施形態の学習装置１００の動作を説明する。図５は、本実施形態の学習装置１００の動作例を示すフローチャートである。入力部２０は、時系列に複数の作業を行う作業者の行動履歴の入力を受け付ける（ステップＳ１１）。報酬関数推定部３０は、受け付けた行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する（ステップＳ１２）。そして、時相論理構造推定部４０は、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定する（ステップＳ１３）。

さらに、学習装置１００の更新部５０は、作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新してもよい（ステップＳ１４）。そして、更新部５０は、報酬関数が切り替わる時点の変化が予め定めた終了条件を満たすか否か判定する（ステップＳ１５）。終了条件を満たしていない場合（ステップＳ１５におけるＮｏ）、ステップＳ１３以降の処理を繰り返す。一方、終了条件を満たしている場合（ステップＳ１５におけるＹｅｓ）、出力部６０は、推定された時相論理構造を出力する（ステップＳ１６）。

以上のように、本実施形態では、入力部２０が、時系列に複数の作業を行う作業者の行動履歴の入力を受け付け、報酬関数推定部３０が、受け付けた行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する。そして、時相論理構造推定部４０が、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定する。よって、タスク間の時相論理構造を考慮した報酬関数を効率よく推定できる。

次に、本実施形態の具体例を説明する。図６は、時相論理タスクの具体例を示す説明図である。本具体例では、図６に例示するように、上述するロボットアーム（以下、単にアームと記す。）１０１が対象物であるボトル１０２を掴んで箱１０３に詰める作業（ＰｉｃｋａｎｄＰｌａｃｅ）を行う状況を想定する。具体的には、矢印１０４の方向に動くベルトコンベア１０５の上をボトル１０２が移動する状況において、カメラ１０６によって撮影された画像に基づいてアーム１０１が作業を行う。ここでは、ロボットアーム１０１による作業が、以下の４つに大別できるとする。
（１）対象物に（アーム１０１が）近づく
（２）対象物を掴む
（３）対象物を箱に近づける
（４）対象物を箱に入れる

まず、入力部２０は、学習データとして行動履歴τ＝｛（ｓ_０，ａ_０），（ｓ_１，ａ_１），…｝の入力を受け付ける。上述するように、入力部２０は、カメラ１０６による対象物との距離を撮像したカメラ画像および各アーム１０１の状態を示す情報を状態ｓとして、また、アーム１０１のトルクを行動ａとして受け付ける。

次に、報酬関数推定部３０は、報酬関数を時系列に推定する。具体的には、報酬関数推定部３０は、行動が１つにまとめられる期間と、その期間に対応する報酬関数を推定する。これにより、行動履歴が４つの作業に分類され、上記（１）～（４）の作業に対する報酬関数が推定される。

時相論理構造推定部４０は、推定した各行動の遷移構造および遷移条件を推定する。図７は、推定された遷移構造および遷移条件の例を示す説明図である。例えば、上記（１）の作業において、φ＝￢ｐ（すなわち、“対象物（ボトル１０２）とアーム１０１との距離がＸ以下”でない）の場合に、上記（１）の作業を繰り返し、φ＝ｐ（すなわち、“対象物（ボトル１０２）とアーム１０１との距離がＸ以下”である）の場合に、上記（２）の作業に遷移することを示す。その他についても同様である。

更新部５０は、報酬関数が切り替わる時点をスライドさせて、報酬関数を更新する。更新部５０は、例えば、“対象物に近づく”作業（すなわち、作業（１））と“対象物を掴む”作業（すなわち、作業（２））が切り替わる時点の位置を前後にスライドさせてみて、報酬関数がより好ましくなるように更新する。これを、終了条件を満たすまで繰り返す。

次に、本実施形態の他の具体例を説明する。時相論理は、例えば、「タスクＡの後にタスクＢ」というタスクの順序を扱うだけでなく、「条件Ｘを維持しながらタスクＡを行う」や、「タスクＡを終えた後は、常に条件Ｘを守りながらタスクＢを行う」などのような拘束条件も取り扱うことができる。

例えば、自動運転では、「ずっと左車線を走る」、「優先道路に入った後は、その道路を出るまで交差点において一時停止することなく直進」などが、時相論理で記述されるものである。人間の運転をより適切に模擬した自動運転を達成するには、一般的な逆強化学習の枠組みを越え、時相論理タスクを取り扱うことのできる逆強化学習が必要となる。

本実施形態の学習装置１００による逆強化学習は、時相論理タスクを取り扱っている。そのため、上述するような拘束条件を考慮した報酬関数を推定することが可能になる。

次に、本発明の概要を説明する。図８は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置８０（例えば、学習装置１００）は、時系列に複数の作業（例えば、タスク）を行う作業者の行動履歴（例えば、トラジェクトリτ，データＤ）の入力を受け付ける入力部８１（例えば、入力部２０）と、行動履歴に基づいて、作業ごとの報酬関数を時系列に推定する報酬関数推定部８２（例えば、報酬関数推定部３０）と、推定されたそれぞれの報酬関数が切り替わる時点における遷移条件の候補に基づいて、作業間の時相論理構造を推定する時相論理構造推定部８３（例えば、時相論理構造推定部４０）とを備えている。

そのような構成により、タスク間の時相論理構造を考慮した報酬関数を効率よく推定できる。

また、学習装置８０は、作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新する更新部（例えば、更新部５０）を備えていてもよい。

具体的には、報酬関数推定部８２は、作業を識別するタスクラベルを、対応する行動履歴に時系列に割り当て、更新部は、報酬関数が切り替わる時点のタスクラベルを時系列の前後にスライドさせることによりその報酬関数が切り替わる時点を更新し、更新されたタスクラベルで識別される作業に対応する報酬関数を、作業者の行動履歴の尤度を最大化するように更新してもよい。

また、時相論理構造推定部８３は、学習対象のドメイン知識から予め導出される命題論理変数を用いた論理式で表わされる作業間の遷移条件を、充足可能性問題のソルバ（ＳＡＴソルバ）を用いて解くことにより推定してもよい。

他にも、時相論理構造推定部８３は、学習対象のドメイン知識から予め導出される命題論理変数を用いた論理式で表わされる作業間の遷移条件を、その作業間の遷移確率を算出することにより推定してもよい。

また、報酬関数推定部８２は、時系列的逆強化学習により、行動履歴に含まれる作業者の行動を示すデータ系列から、時間方向に複数の報酬関数を作業ごとに学習してもよい。

図９は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

上述の学習装置８０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（学習プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

本発明は、時相論理構造を考慮した報酬関数を推定する学習装置に好適に適用される。例えば、倉庫や工場での作業を行うロボティクス、プラントの自動運転、ＲＰＡ（robotic process automation）の自動化、および、ゲームに用いられる報酬関数を推定する学習装置に本発明を好適に適用可能である。

１０記憶部
２０入力部
３０報酬関数推定部
４０時相論理構造推定部
５０更新部
６０出力部

Claims

時系列に複数の作業を行う作業者の行動履歴の入力を受け付ける入力部と、
前記行動履歴に基づいて、前記作業ごとの報酬関数を時系列に推定する報酬関数推定部と、
推定されたそれぞれの前記報酬関数が切り替わる時点における遷移条件の候補に基づいて、前記作業間の時相論理構造を推定する時相論理構造推定部とを備えた
ことを特徴とする学習装置。
作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新する更新部を備えた
請求項１記載の学習装置。
報酬関数推定部は、作業を識別するタスクラベルを、対応する行動履歴に時系列に割り当て、
更新部は、報酬関数が切り替わる時点のタスクラベルを時系列の前後にスライドさせることにより当該報酬関数が切り替わる時点を更新し、更新されたタスクラベルで識別される作業に対応する報酬関数を、作業者の行動履歴の尤度を最大化するように更新する
請求項２記載の学習装置。
時相論理構造推定部は、学習対象のドメイン知識から予め導出される命題論理変数を用いた論理式で表わされる作業間の遷移条件を、充足可能性問題のソルバを用いて解くことにより推定する
請求項１から請求項３のうちのいずれか１項に記載の学習装置。
時相論理構造推定部は、学習対象のドメイン知識から予め導出される命題論理変数を用いた論理式で表わされる作業間の遷移条件を、当該作業間の遷移確率を算出することにより推定する
請求項１から請求項３のうちのいずれか１項に記載の学習装置。
報酬関数推定部は、時系列的逆強化学習により、行動履歴に含まれる作業者の行動を示すデータ系列から、時間方向に複数の報酬関数を作業ごとに学習する
請求項１から請求項５のうちのいずれか１項に記載の学習装置。
時系列に複数の作業を行う作業者の行動履歴の入力を受け付け、
前記行動履歴に基づいて、前記作業ごとの報酬関数を時系列に推定し、
推定されたそれぞれの前記報酬関数が切り替わる時点における遷移条件の候補に基づいて、前記作業間の時相論理構造を推定する
ことを特徴とする学習方法。
作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新する
請求項７記載の学習方法。
コンピュータに、
時系列に複数の作業を行う作業者の行動履歴の入力を受け付ける入力処理、
前記行動履歴に基づいて、前記作業ごとの報酬関数を時系列に推定する報酬関数推定処理、および、
推定されたそれぞれの前記報酬関数が切り替わる時点における遷移条件の候補に基づいて、前記作業間の時相論理構造を推定する時相論理構造推定処理
を実行させるための学習プログラム。
コンピュータに、
作業者の行動履歴の尤度を最大化するように、報酬関数が切り替わる時点を更新する更新処理を実行させる
請求項９記載の学習プログラム。