WO2021157104A1

WO2021157104A1 - ロボット制御システム、ロボットシステム、操作システム、ロボット制御方法、およびロボット制御プログラム

Info

Publication number: WO2021157104A1
Application number: PCT/JP2020/016460
Authority: WO
Inventors: 政之藤田; 健志畑中; 淳矢山内; 光世野田; 慶太嶌本; 光司曽我部; 平田　亮吉; 勝足立
Original assignee: 国立大学法人東京工業大学; 株式会社安川電機
Priority date: 2020-02-03
Filing date: 2020-04-14
Publication date: 2021-08-12
Also published as: JPWO2021157104A1; US20220371203A1

Abstract

本開示の一側面に係るロボット制御システムはユーザ操作に応じてロボットを制御する。ロボット制御システムは、過去の操作に基づいて生成された学習済みモデルであって、ロボットの現在状態と目標状態との状態差が少なくとも入力されたことに応答して、当該状態差におけるロボットの動作の分布の度合いである分布度を少なくとも出力する該学習済みモデルに基づいて、分布度を出力する推論部と、学習済みモデルから出力される分布度に基づいて、ロボットの操作をアシストする度合いであるアシスト度を設定する設定部と、ユーザ操作により操作装置から入力された入力指令値とアシスト度とに基づいて、ロボットへと出力される出力指令値を生成する生成部とを備える。

Description

ロボット制御システム、ロボットシステム、操作システム、ロボット制御方法、およびロボット制御プログラム

　本開示の一側面は、ロボット制御システム、ロボットシステム、操作システム、ロボット制御方法、およびロボット制御プログラムに関する。

　特許文献１には、作業者操作力、周囲環境データ、動作データ、および動作指令を機械学習することで構築されたモデルにより、動作センサが検出した動作データおよび周囲環境センサが検出した周囲環境データと、中継装置が出力した動作指令とに基づいて、演算操作力を推定するロボットシステムが記載されている。

特開２０１９－２０２４０４号公報

　ロボットの操作を適切にアシストすることが望まれている。

　本開示の一側面に係るロボット制御システムは、ユーザ操作に応じてロボットを制御するロボット制御システムであって、過去の操作に基づいて生成された学習済みモデルであって、ロボットの現在状態と目標状態との状態差が少なくとも入力されたことに応答して、当該状態差におけるロボットの動作の分布の度合いである分布度を少なくとも出力する該学習済みモデルに基づいて、分布度を出力する推論部と、学習済みモデルから出力される分布度に基づいて、ロボットの操作をアシストする度合いであるアシスト度を設定する設定部と、ユーザ操作により操作装置から入力された入力指令値とアシスト度とに基づいて、ロボットへと出力される出力指令値を生成する生成部とを備える。

　本開示の一側面に係るロボット制御方法は、ユーザ操作に応じてロボットを制御するための少なくとも一つのプロセッサを備えるロボット制御システムにより実行されるロボット制御方法であって、過去の操作に基づいて生成された学習済みモデルであって、ロボットの現在状態と目標状態との状態差が少なくとも入力されたことに応答して、当該状態差におけるロボットの動作の分布の度合いである分布度を少なくとも出力する該学習済みモデルに基づいて、分布度を出力するステップと、学習済みモデルから出力される分布度に基づいて、ロボットの操作をアシストする度合いであるアシスト度を設定するステップと、ユーザ操作により操作装置から入力された入力指令値とアシスト度とに基づいて、ロボットへと出力される出力指令値を生成するステップとを含む。

　本開示の一側面に係るロボット制御プログラムは、ユーザ操作に応じてロボットを制御するための少なくとも一つのプロセッサを備えるロボット制御システムとしてコンピュータを機能させるロボット制御プログラムであって、過去の操作に基づいて生成された学習済みモデルであって、ロボットの現在状態と目標状態との状態差が少なくとも入力されたことに応答して、当該状態差におけるロボットの動作の分布の度合いである分布度を少なくとも出力する該学習済みモデルに基づいて、分布度を出力するステップと、学習済みモデルから出力される分布度に基づいて、ロボットの操作をアシストする度合いであるアシスト度を設定するステップと、ユーザ操作により操作装置から入力された入力指令値とアシスト度とに基づいて、ロボットへと出力される出力指令値を生成するステップとをコンピュータに実行させる。

　本開示の一側面によれば、ロボットの操作を適切にアシストすることができる。

ロボット制御システムの適用の一例を示す図である。ロボット制御システムのために用いられるハードウェア構成の一例を示す図である。操作装置の機能構成の一例を示す図である。操作装置の詳細な機能構成の一例を示すブロック線図である。ロボット制御システムの動作の一例を示すフローチャートである。モデルデータベースに記憶される学習済みモデルの一例を示す図である。出力指令値を生成する処理の一例を示すフローチャートである。

　以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。

　［システムの構成］
　実施形態に係るロボット制御システム１は、ユーザの操作に応じてロボット２を制御するコンピュータシステムである。ロボット２はその操作に基づいて動作して、加工、組立等の様々な作業を実行する。ユーザとはロボットを操作する人をいい、したがって、操作者ともいうことができる。

　図１はロボット制御システム１の適用の一例を示す図である。一例では、ロボット制御システム１は操作装置１０を備える。操作装置１０は通信ネットワークＮを介してロボット用コンピュータ３と接続される。ロボット用コンピュータ３はロボットコントローラ４と接続され、ロボットコントローラ４はロボット２と接続される。

　図１では操作装置１０およびロボット２を一つずつ示す。しかし、操作装置１０およびロボット２の個数はいずれも限定されず、操作装置１０およびロボット２の少なくとも一方が複数個存在してもよい。

　一例では、操作装置１０はユーザが存在する操作環境Ｅｕに位置するのに対して、ロボット用コンピュータ３、ロボットコントローラ４、およびロボット２はユーザにとって遠隔に位置する作業環境Ｅｗに位置する。すなわち、操作環境Ｅｕから見ると作業環境Ｅｗは遠隔環境である。或る物が「遠隔に位置する」とは、ユーザが自身の目で確認できない位置にその物が存在することをいう。操作環境Ｅｕと作業環境Ｅｗとの間の距離、すなわちユーザとロボット２との間の距離は何ら限定されない。例えば、作業環境Ｅｗは操作環境Ｅｕからキロメートルのオーダーで離れていてもよい。あるいは、作業環境Ｅｗは操作環境Ｅｕから数メートルのオーダーで離れていてもよく、例えば、操作環境Ｅｕである部屋の隣の空間が作業環境Ｅｗでもよい。

　操作環境Ｅｕと作業環境Ｅｗとの間の距離が限定されないことに対応して、通信ネットワークＮの構成も限定されない。例えば、通信ネットワークＮはインターネットおよびイントラネットの少なくとも一方を含んで構成されてもよい。あるいは、通信ネットワークＮは１本の通信ケーブルによって実現される単純な構成であってもよい。

　操作装置１０はロボット２を操作するためのコンピュータである。一例では、操作装置１０は、ロボット２を操作するための入力インタフェースである操作インタフェースと、作業環境Ｅｗを写す画像を表示可能なモニタとを備える。ユーザはモニタに表示された作業環境Ｅｗを確認しながら操作インタフェースでロボット２を操作することができる。操作装置１０は操作インタフェースから入力されたユーザ操作（指令）を示す指令値をロボット用コンピュータ３に向けて送信する。指令とは、ユーザ操作によって入力される命令をいう。指令値とは指令に関する値をいう。指令に関する値とは、例えば、ユーザ操作に対応する追加の移動ベクトルに関する値、すなわち、移動量または移動速度と移動方向とを示す値である。

　ロボット用コンピュータ３は操作装置１０から入力された指令値を解釈して、その指令値に対応する指令信号をロボットコントローラ４に出力するコンピュータである。

　ロボットコントローラ４は、ロボット用コンピュータから入力された指令信号に従ってロボット２を制御する装置である。言い換えると、ロボットコントローラ４は、ユーザ操作に応じて操作装置１０から送られてくる指令に基づいてロボット２を制御する。一例では、指令信号はロボット２を制御するためのデータを含み、例えば、ロボット２の軌道を示すパスを含む。ロボット２の軌道とは、ロボット２またはその構成要素の動きの経路のことをいう。例えば、ロボット２の軌道は先端部の軌道であり得る。一例では、ロボットコントローラ４は、指令信号で示される目標値に先端部の位置および姿勢を一致させるための関節角度目標値（ロボット２の各関節の角度目標値）を算出し、その角度目標値に従ってロボット２を制御する。

　ロボット２は、人に代わって作業する装置または機械である。一例では、ロボット２は多軸のシリアルリンク型の垂直多関節ロボットである。ロボット２は、マニピュレータ２ａと、該マニピュレータ２ａの先端に取り付けられたツールであるエンドエフェクタ２ｂとを備える。ロボット２はそのエンドエフェクタ２ｂを用いて様々な処理を実行することができる。ロボット２は、所定の範囲内においてエンドエフェクタ２ｂの位置および姿勢を自在に変更し得る。ロボット２は、６軸の垂直多関節ロボットでもよいし、６軸に１軸の冗長軸を追加した７軸の垂直多関節ロボットでもよい。

　ロボット２の動作または状態は各種のセンサによってロボット２の応答として記録されて、センサデータとして例えばロボットコントローラ４に出力される。応答とは、指令に対する出力をいい、より具体的には、指令に対するロボット２の動作または状態をいう。動作または状態は任意のデータ項目によって表されてよく、例えば、位置、姿勢、速度、加速度、トルク、力、および電流値のうちの少なくとも一つによって表されてもよい。ロボット２の動作または状態は、エンドエフェクタ２ｂの動作または状態によって表されてもよい。

　応答を示す情報の種類は限定されず、例えば、応答はロボット２の動作または状態を示す情報でもよいし、ロボットコントローラ４からロボット２へと出力される命令により示されてもよい。センサはロボット２に搭載されてもよいし、ロボット２に搭載されることなく該ロボット２とから独立して設けられてもよい。センサの種類は限定されず、例えば、加速度センサ、電圧センサ、電流センサ、温度センサ、ジャイロセンサ、カメラ、圧力センサ、ＴｏＦ（Ｔｉｍｅ－ｏｆ－Ｆｌｉｇｈｔ）センサなどの各種のセンサが用いられてよい。

　ロボットコントローラ４はロボット２の動作または状態（すなわち応答）を示す応答値をそのセンサデータに基づいて算出し、その応答値をロボット用コンピュータ３経由で操作装置１０へと送信する。応答値とは応答に関する値をいう。応答に関する値とは、例えば、ロボットの追加の動作を示す追加の移動ベクトルに関する値、すなわち、移動量または移動速度と移動方向とを示す値である。ロボットコントローラ４はロボット２への指令信号を応答値として、ロボット用コンピュータ３経由で操作装置１０へと送信してもよい。ロボット２のセンサからのセンサデータの少なくとも一部は、ロボットコントローラ４を経由することなくロボット用コンピュータ３に出力されてもよい。この場合には、ロボット用コンピュータ３がそのセンサデータに基づいて応答値を算出してもよい。

　ユーザの技能または作業環境Ｅｗの状況によっては、ユーザが自分の意図するようにロボット２を操作できない場合がある。例えば、作業環境Ｅｗを写す画像が不鮮明であったり、ユーザ操作と画像に映るロボット２の動作との間に遅延が発生したりすると、ユーザが作業環境Ｅｗの情報を十分に得ることができず、そのためにロボット２を正確に操作できない可能性がある。ここで、遅延とは、ロボット２への指令に対して、画像に映る該ロボット２の動作または状態が遅れることをいう。あるいは、ユーザがロボット２の操作に不慣れである場合も、ロボット２を正確にまたは効率的に操作できない可能性がある。ロボット制御システム１はそのようなユーザによるロボット２の操作をアシストし、これにより、ユーザが自分の意図するようにロボット２を操作することが可能になる。「ロボットの操作をアシストする」または「ユーザ操作をアシストする」とは、ロボット２を適切に（例えば正確に）動作させるための環境をユーザに提供することをいう。

　ロボット制御システム１はそのアシストのために機械学習モデルを用いる。機械学習とは、与えられた情報に基づいて反復的に学習することで、法則またはルールを自律的に見つけ出す手法をいう。機械学習モデルとは、機械学習で用いられる計算モデルである。機械学習モデルはアルゴリズムおよびデータ構造を用いて構築することができる。機械学習モデルの基となる具体的なアルゴリズムは限定されない。一例では、ロボット制御システム１は、入力から出力を予測する関数の確率分布を得ることができる機械学習モデルを用いる。例えば、機械学習モデルはガウス過程（Ｇａｕｓｓｉａｎ　Ｐｒｏｃｅｓｓ）を用いて構築されてもよい。ガウス過程とは、無限次元のガウス分布をいう。ガウス過程はそのガウス分布の平均および分散によって特徴付けられる。本実施形態では、ロボット制御システム１がガウス過程による機械学習モデルを用いることを前提とする。

　自律的に生成された機械学習モデルを「学習済みモデル」という。学習済みモデルは、ロボット２の操作をアシストするために最適であると推定される計算モデルであり、“現実に最適である計算モデル”とは限らないことに留意されたい。学習済みモデルを生成する処理は学習フェーズに相当する。学習フェーズでは、所与のコンピュータシステムが過去の操作に基づいて機械学習を実行して学習済みモデルを生成する。ロボット制御システム１はその学習済みモデルを用いてロボット２の操作をアシストする。このアシストは運用フェーズに相当する。

　学習済みモデルはコンピュータシステム間で移植可能である。したがって、或るコンピュータシステムで生成された学習済みモデルを別のコンピュータシステムで用いることができる。もちろん、一つのコンピュータシステムが学習済みモデルの生成および利用の双方を実行してもよい。ロボット制御システム１は学習フェーズおよび運用フェーズの双方を実行してもよい。あるいは、ロボット制御システム１は学習フェーズを実行することなく、他のコンピュータシステムにより生成された学習済みモデルを用いて運用フェーズを実行してもよい。

　操作装置１０またはロボット用コンピュータ３として機能するコンピュータは限定されない。一例では、これらのコンピュータは、パーソナルコンピュータによって構成されてもよいし、業務用サーバなどの大型のコンピュータによって構成されてもよい。

　図２は、操作装置１０またはロボット用コンピュータ３のために用いられるコンピュータ１００のハードウェア構成の一例を示す図である。この例では、コンピュータ１００は本体１１０、モニタ１２０、および入力デバイス１３０を備える。

　本体１１０は少なくとも一つのコンピュータにより構成される。本体１１０は回路１６０を有し、回路１６０は、少なくとも一つのプロセッサ１６１と、メモリ１６２と、ストレージ１６３と、入出力ポート１６４と、通信ポート１６５とを有する。ストレージ１６３は、本体１１０の各機能モジュールを構成するためのプログラムを記録する。ストレージ１６３は、ハードディスク、不揮発性の半導体メモリ、磁気ディスク、光ディスク等の、コンピュータ読み取り可能な記録媒体である。メモリ１６２は、ストレージ１６３からロードされたプログラム、プロセッサ１６１の演算結果等を一時的に記憶する。プロセッサ１６１は、メモリ１６２と協働してプログラムを実行することで、各機能モジュールを構成する。入出力ポート１６４は、プロセッサ１６１からの指令に応じて、モニタ１２０または入力デバイス１３０との間で電気信号の入出力を行う。入出力ポート１６４はロボットコントローラ４などの他の装置との間で電気信号の入出力を行ってもよい。通信ポート１６５は、プロセッサ１６１からの指令に従って、通信ネットワークＮを介して他の装置との間でデータ通信を行う。

　モニタ１２０は、本体１１０から出力された情報を表示するための装置である。モニタ１２０は本開示における表示部の一例である。モニタ１２０は、グラフィック表示が可能であればいかなるものであってもよく、その具体例としては液晶パネル等が挙げられる。入力デバイス１３０は、本体１１０に情報を入力するための装置である。入力デバイス１３０は、所望の情報を入力可能であればいかなるものであってもよく、その具体例としてはキーパッド、マウス、操作コントローラ等の操作インタフェースが挙げられる。

　モニタ１２０および入力デバイス１３０はタッチパネルとして一体化されていてもよい。例えばタブレットコンピュータのように、本体１１０、モニタ１２０、および入力デバイス１３０が一体化されていてもよい。

　図３は操作装置１０の機能構成の一例を示す図である。一例では、操作装置１０は機能モジュールとして取得部１１、特定部１２、選択部１３、推論部１４、設定部１５、および生成部１６を備える。一例では、操作装置１０はさらにモデルデータベース１７を備える。

　取得部１１は、ロボット２の指令または応答に関連するデータを操作環境Ｅｕまたは作業環境Ｅｗから取得する機能モジュールである。例えば、取得部１１は指令値および応答値（センサデータ）を取得する。

　特定部１２は、ロボット２が実行すべきタスクを応答値（センサデータ）に基づいて特定する機能モジュールである。タスクとは、ロボット２による一連の処理を構成する最小単位の処理をいう。特定部１２はさらに、ロボット２を操作しているユーザを特定する。

　選択部１３は、ロボットが実行可能な複数のタスクのそれぞれに対応する複数の学習済みモデルから、特定されたタスクに対応する学習済みモデルを選択する機能モジュールである。選択部１３は、所与の複数の学習済みモデルを記憶するモデルデータベース１７にアクセスして、タスクに対応する学習済みモデルを選択する。

　それぞれの学習済みモデルは予め、訓練データを用いた機械学習によって生成されてモデルデータベース１７に格納される。学習済みモデルを生成する具体的な手法は限定されず、任意の方針で設計されてよい。一例では、ガウス過程に基づく機械学習モデルを学習させる際には、共分散関数のハイパーパラメータと観測値のノイズとを用いて定義される誤差が最小になるようにハイパーパラメータが最適化される。ガウス過程による機械学習では、比較的少量の訓練データから学習済みモデルを構築できるので、訓練データを集める労力を低減することが可能になる。

　推論部１４は選択された学習済みモデルに基づいて、ロボット２の現在状態と目標状態との状態差におけるロボット２の動作の分布の度合いである分布度を出力する機能モジュールである。現在状態とは、応答値から導出されるロボット２の現在の状態をいう。目標状態とは、ユーザが意図するロボット２の最終の状態をいい、例えば、ユーザが意図する作業が完了したときのロボット２の状態をいう。状態差とは現在状態と目標状態との差分であり、ロボット２が目標状態に達するまでに必要な残りの動作に対応する。分布度は学習済みモデルから出力される確率変数（例えば分散）によって表される。本実施形態では、学習済みモデルはガウス過程に基づいて分布度を出力する。

　設定部１５は、その分布度に基づいて、ロボット２の操作をアシストする度合いであるアシスト度を設定する機能モジュールである。

　生成部１６は、ユーザ操作により操作装置から入力された入力指令値と設定されたアシスト度とに基づいて、ロボット２へと出力される出力指令値を生成する機能モジュールである。

　図３の例ではモデルデータベース１７が操作装置１０内に構築されるが、モデルデータベース１７の設置場所はこれに限定されない。例えば、モデルデータベース１７は操作装置１０とは別のコンピュータ上に構築されてもよく、この場合には、選択部１３は所与の通信ネットワークを介してモデルデータベース１７にアクセスする。

　図４は操作装置１０の詳細な機能構成の一例を示すブロック線図である。操作装置１０は、ロボット２の目標状態ｇを目指すユーザ９の操作を受け付けた操作コントローラから入力指令値ｕ_ｈを得る。この入力指令値ｕ_ｈは、ユーザ操作そのものを示すオリジナルの指令値であるといえる。また、操作装置１０はロボット２の現在状態ｙ_ｈを取得し、現在状態ｙ_ｈと目標状態ｇとの状態差ｅを算出する。操作装置１０は入力指令値Ｕ_ｈおよび状態差ｅに基づいて出力指令値ｕを生成し、この出力指令値ｕをロボット２に向けて送信する。一例では、操作装置１０は入力指令値Ｕ_ｈそのものと、熟練者の経験が考慮されたアシスト指令値Ｕ_ＧＰｈという二つの候補のうちの一つを出力指令値ｕとして生成し、この出力指令値ｕを送信する。図４ではこの処理をスイッチＳＷによって表現する。

　一例では、操作装置１０は熟練モデル（第１モデル）１４１および自己モデル（第２モデル）１４２という２種類の学習済みモデルを推論部１４として備え、これらの学習済みモデルを用いて出力指令値ｕを生成する。

　熟練モデル１４１は、ユーザ９とは異なる他のユーザの過去の操作に基づいて生成された学習済みモデルの一例である。より具体的には、熟練モデル１４１は、ユーザ９よりも操作に熟練した熟練者の過去の操作に基づいて生成された学習済みモデルである。一例では、熟練モデル１４１は状態差ｅを入力として受け付けて分散（第１分布度）μ_ＥＸＰおよび予測指令値ｕ_ＥＸＰを出力する。この分散（第１分布度）μ_ＥＸＰは状態差ｅにおける熟練者の操作の確からしさの度合いを示す。予測指令値ｕ_ＥＸＰは過去の操作に基づいて予測される指令値であり、より具体的には、熟練者の過去の操作に基づいて予測される指令値である。

　一方、自己モデル１４２はユーザ９の過去の操作に基づいて生成された学習済みモデルである。一例では、自己モデル１４２は入力指令値Ｕ_ｈおよび状態差ｅを入力として受け付けて分散（第２分布度）μ_ＯＷＮを出力する。この分散（第２分布度）μ_ＯＷＮは状態差ｅにおけるユーザ９自身の過去の操作との類似度を示す。

　設定部１５は分布度に基づいてアシスト度を設定する。具体的には、設定部１５は分散（第１分布度）μ_ＥＸＰに基づいて第１アシスト度γを設定する。設定部１５はさらに、分散（第２分布度）μ_ＯＷＮに基づいて第２アシスト度を設定する。この第２アシスト度はスイッチＳＷの切り替えを決めるための指標である。すなわち、第２アシスト度は、入力指令値Ｕ_ｈとアシスト指令値Ｕ_ＧＰｈとのどちらを出力指令値ｕとして採用するかを決めるために用いられる。

　生成部１６は入力指令値Ｕ_ｈ、第１アシスト度γ、第２アシスト度、および予測指令値ｕ_ＥＸＰのうちの少なくとも一つに基づいて、入力指令値Ｕ_ｈおよびアシスト指令値Ｕ_ＧＰｈの一方を出力指令値ｕとして生成する。

　［ロボット制御方法］
　本開示に係るロボット制御方法の一例として、図５を参照しながら、ロボット制御システム１により実行される一連の処理手順の一例を説明する。図５はロボット制御システム１の動作の一例を処理フローＳ１として示すフローチャートである。すなわち、ロボット制御システム１は処理フローＳ１を実行する。

　ステップＳ１１では、特定部１２がタスクおよびユーザを特定する。一例では、特定部１２は取得部１１により取得された応答値（センサデータ）に基づいて任意の手法でタスクを特定する。例えば、特定部１２は予め設定された作業と応答値の履歴とに基づいて現在のタスクを特定してもよい。特定部１２はさらに、任意の手法でユーザを特定する。例えば、特定部１２はユーザ操作に先立って入力されたユーザＩＤを参照することでユーザを特定してもよい。

　ステップＳ１２では、選択部１３が、特定されたタスクに基づいて学習済みモデルを選択する。選択部１３はモデルデータベース１７にアクセスして、所与の複数の自己モデルから一つの自己モデルを選択し、所与の複数の熟練モデルから一つの熟練モデルを選択する。より具体的には、選択部１３は特定されたユーザおよびタスクの組合せに対応する一つの自己モデルを選択し、特定されたタスクに対応する一つの熟練モデルを選択する。

　図６はモデルデータベース１７に記憶される学習済みモデルの一例を模式的に示す図である。一例では、モデルデータベース１７は、ｍ人のユーザおよびｎ個のタスクの組合せに対応する（ｍ×ｎ）個の自己モデル１７１と、該ｎ個のタスクに対応するｎ個の熟練モデル１７２とを記憶する。図６の例を前提として、ユーザＵｙおよびタスクＴｃが特定された場合には、選択部１３は複数の自己モデル１７１から自己モデルＭＯ_ｙｃを選択し、複数の熟練モデル１７２から熟練モデルＭＥ_ｃを選択する。

　図５に戻って、ステップＳ１３では、取得部１１が出力指令値ｕを生成するためのデータを取得する。一例では、取得部１１は、操作コントローラにより受け付けられた入力指令値Ｕ_ｈと、作業環境Ｅｗから送られてきた応答値（センサデータ）とを取得する。

　ステップＳ１４では、取得部１１が状態差ｅを算出する。取得部１１は応答値（センサデータ）に基づいて現在状態ｙ_ｈを取得し、この現在状態ｙ_ｈと予め設定された目標状態ｇとの差分を状態差ｅとして取得する。

　ステップＳ１５では、推論部１４、設定部１５、および生成部１６が協働して出力指令値ｕを生成する。図７を参照しながらその生成処理の一例を説明する。図７は出力指令値を生成する処理の一例を示すフローチャートである。

　ステップＳ１５１では、推論部１４が自己モデル１４２により分散（第２分布度）μ_ＯＷＮを算出する。推論部１４は、選択された自己モデル１４２に入力指令値Ｕ_ｈおよび状態差ｅを入力し、該自己モデル１４２から出力される分散μ_ＯＷＮを得る。

　ステップＳ１５２では、設定部１５が分散μ_ＯＷＮに基づいて第２アシスト度を設定する。第２アシスト度の設定方法は限定されない。一例では、設定部１５は分散μ_ＯＷＮが小さいほど第２アシスト度が大きくなるように第２アシスト度を設定してもよい。分散μ_ＯＷＮが小さいということは、状態差ｅにおけるユーザ操作が通常の範囲内であることを意味する。したがって、分散μ_ＯＷＮが小さい場合にはユーザ操作をアシストする方が良いと考えることができる。一方、分散μ_ＯＷＮが大きいということは、状態差ｅにおけるユーザ操作が通常とは相対的に大きく異なることを意味する。したがって、分散μ_ＯＷＮが大きい場合には、そのユーザ操作が特別な事情に基づくもの（例えば緊急の特別な操作）であると判断して、ユーザ操作に介入しない（ユーザ操作をそのまま尊重する）か、またはその介入の程度を低くするのが良いと考えることができる。一例ではこのような設計思想に基づいて、設定部１５は、分散μ_ＯＷＮが小さいほど第２アシスト度が大きくなるように第２アシスト度を設定する。設定部１５は、分散μ_ＯＷＮが所与の閾値ＴＨａ未満である場合には第２アシスト度を「１」に設定し、分散μ_ＯＷＮがその閾値ＴＨａ以上である場合には第２アシスト度を「０」に設定してもよい。したがって、第２アシスト度は二値で表されてもよい。あるいは、設定部１５は第２アシスト度を所与の数値範囲内の任意の値に設定してもよく、したがって第２アシスト度は連続値で表されてもよい。

　ステップＳ１５３では、設定部１５が第２アシスト度を所与の閾値ＴＨｂと比較する。第２アシスト度が閾値ＴＨｂ以上である場合には（ステップＳ１５３においてＹＥＳ）、処理はステップＳ１５４に進む。第２アシスト度が「０」または「１」の二値で表される場合には、閾値ＴＨｂは「１」であってもよい。この分岐処理を分散μ_ＯＷＮの観点から見ると、分散μ_ＯＷＮが閾値ＴＨａ未満である場合に処理がステップＳ１５４に進む。

　ステップＳ１５４では、推論部１４が熟練モデル１４１により分散（第１分布度）μ_ＥＸＰおよび予測指令値ｕ_ＥＸＰを算出する。推論部１４は、選択された熟練モデル１４１に状態差ｅを入力し、該熟練モデルから出力される分散μ_ＥＸＰおよび予測指令値ｕ_ＥＸＰを得る。

　ステップＳ１５５では、設定部１５が分散μ_ＥＸＰに基づいて第１アシスト度γを設定する。第１アシスト度γの設定方法は限定されない。一例では、設定部１５は分散μ_ＥＸＰが小さいほど第１アシスト度γが大きくなるように第１アシスト度γを設定してもよい。分散μ_ＥＸＰが小さいということは、状態差ｅにおける熟練者の操作のばらつきが小さいということである。これは、該状態差ｅにおいて、経験的に、多くの熟練者が同じかまたは同様の操作をしていることを意味する。したがって、分散μ_ＥＸＰが小さい場合には第１アシスト度γを大きくして、ユーザ操作に積極的に関与する方が良いと考えることができる。一方、分散μ_ＥＸＰが大きいということは、状態差ｅにおける熟練者の操作のばらつきが大きいことを意味する。したがって、分散μ_ＥＸＰが大きい場合には第１アシスト度γを小さくして、ユーザ操作への関与を抑えた方が良いと考えることができる。一例ではこのような設計思想に基づいて、設定部１５は、分散μ_ＥＸＰが小さいほど第１アシスト度γが大きくなるように第１アシスト度γを設定する。

　ステップＳ１５６では、生成部１６がアシスト指令値Ｕ_ＧＰｈを算出する。生成部１６は第１アシスト度γに応じた割合で入力指令値ｕ_ｈと予測指令値ｕ_ＥＸＰとを混合して、アシスト指令値Ｕ_ＧＰｈを算出する。一例では、生成部１６は下記の式（１）によってその混合を実現する。式（１）での（１－γ）を非アシスト度というとすると、生成部１６は、予測指令値ｕ_ＥＸＰおよび第１アシスト度γの積と、入力指令値ｕ_ｈおよび非アシスト度の積との和をアシスト指令値Ｕ_ＧＰｈとして算出する。式（１）に示すように、第１アシスト度γがそのまま割合として用いられてもよい。あるいは、生成部１６は第１アシスト度γに基づいて任意の手法で割合を設定してもよい。
Ｕ_ＧＰｈ＝（１－γ）ｕ_ｈ＋γｕ_ＥＸＰ　…（１）

　ステップＳ１５７では、生成部１６がアシスト指令値Ｕ_ＧＰｈを出力指令値ｕとして設定する。すなわち、生成部１６はステップＳ１５６，Ｓ１５７において、第１アシスト度γに応じた割合で入力指令値ｕ_ｈと予測指令値ｕ_ＥＸＰとを混合し、出力指令値ｕを生成する。

　一方、ステップＳ１５３において第２アシスト度が閾値ＴＨｂ未満である場合には（ステップＳ１５３においてＮＯ）、処理はステップＳ１５８に進む。この処理を分散μ_ＯＷＮの観点から見ると、分散μ_ＯＷＮが閾値ＴＨａ以上である場合に処理がステップＳ１５８に進む。ステップＳ１５８では、生成部１６が入力指令値ｕ_ｈをそのまま出力指令値ｕとして設定（生成）する。

　図７に示すように、一例では、生成部１６は、第２アシスト度が閾値ＴＨｂ以上である場合には（ステップＳ１５３においてＹＥＳ）、入力指令値ｕ_ｈ、第１アシスト度γ、および予測指令値ｕ_ＥＸＰに基づいて出力指令値ｕを生成する。一方、第２アシスト度がその閾値ＴＨｂ未満である場合には（ステップＳ１５３においてＮＯ）、生成部１６は第１アシスト度γおよび予測指令値ｕ_ＥＸＰを用いることなく、入力指令値ｕ_ｈに基づいて出力指令値ｕを生成する。ステップＳ１５３での条件分岐はスイッチＳＷの切り替えに相当する。言い換えると、生成部１６は、分散（第２分布度）μ_ＯＷＮが閾値ＴＨａ未満である場合には、入力指令値ｕ_ｈ、第１アシスト度γ、および予測指令値ｕ_ＥＸＰに基づいて出力指令値ｕを生成する。分散μ_ＯＷＮが閾値ＴＨａ以上である場合には、生成部１６は第１アシスト度γおよび予測指令値ｕ_ＥＸＰを用いることなく、入力指令値ｕ_ｈに基づいて出力指令値ｕを生成する。

　図５に戻って、ステップＳ１６では、生成部１６が出力指令値ｕをロボット２に向けて送信する。ロボット２はこの出力指令値ｕに基づいて動作する。

　ステップＳ１７に示すように、一つのタスクが達成されるまでは該タスクについてステップＳ１３～Ｓ１６の処理が繰り返される。ステップＳ１８に示すように、ユーザ操作の目標が達成されるまでは、すなわち、ロボット２が目標状態ｇに達するまでは、ステップＳ１１～Ｓ１７が繰り返される。

　処理フローＳ１によって、ロボット制御システム１は以下のようにロボット２を制御する。すなわち、入力指令値ｕ_ｈがユーザの通常の操作に近く，且つ熟練者の操作がばらつかない場合には、ロボット制御システム１は積極的にユーザ操作をアシストする。この強いアシストによって、ロボット２をより効率的に動作させて、より短時間でロボット２を目標状態に到達させることが可能になる。入力指令値ｕ_ｈがユーザの通常の操作に近く、且つ熟練者の操作がばらつく場合には、ロボット制御システム１はユーザ操作へのアシストの程度を下げる。この消極的なアシストによって、ユーザ操作をある程度尊重しながらロボット２を動作させることができる。入力指令値ｕ_ｈがユーザの通常の操作と異なる場合には、その入力指令値Ｕ_ｈがそのままロボット２に向けて出力されるので、ユーザ操作をそのままロボット２に反映させることができる。このように、ロボット制御システム１は、あたかも複数のユーザ（例えば、ユーザおよび熟練者）が協働してロボット２を操作するような環境を提供する。

　［プログラム］
　操作装置１０の各機能モジュールは、プロセッサ１６１またはメモリ１６２の上にロボット制御プログラムを読み込ませてプロセッサ１６１にそのプログラムを実行させることで実現される。ロボット制御プログラムは、操作装置１０の各機能モジュールを実現するためのコードを含む。プロセッサ１６１はロボット制御プログラムに従って入出力ポート１６４または通信ポート１６５を動作させ、メモリ１６２またはストレージ１６３におけるデータの読み出しおよび書き込みを実行する。このような処理により操作装置１０の各機能モジュールが実現される。

　ロボット制御プログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリなどの非一時的な記録媒体に固定的に記録された上で提供されてもよい。あるいは、ロボット制御プログラムは、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。

　［効果］
　以上説明したように、本開示の一側面に係るロボット制御システムは、ユーザ操作に応じてロボットを制御するロボット制御システムであって、過去の操作に基づいて生成された学習済みモデルであって、ロボットの現在状態と目標状態との状態差が少なくとも入力されたことに応答して、当該状態差におけるロボットの動作の分布の度合いである分布度を少なくとも出力する該学習済みモデルに基づいて、分布度を出力する推論部と、学習済みモデルから出力される分布度に基づいて、ロボットの操作をアシストする度合いであるアシスト度を設定する設定部と、ユーザ操作により操作装置から入力された入力指令値とアシスト度とに基づいて、ロボットへと出力される出力指令値を生成する生成部とを備える。

　本開示の一側面に係るロボットシステムは、ロボットと、上記のロボット制御システムとを備える。

　本開示の一側面に係る操作システムは、ユーザ操作を受け付ける操作コントローラと、上記のロボット制御システムとを備える。

　このような側面においては、学習済みモデルによって入力指令値が過去の操作を考慮してアシストされて、より適切な指令値が出力指令値としてロボットへと出力される。この仕組みによってロボットの操作を適切にアシストすることができる。

　他の側面に係るロボット制御システムでは、学習済みモデルは、分布度に加えて、過去の操作に基づいて予測される指令値である予測指令値を出力し、生成部は、入力指令値、アシスト度、および予測指令値に基づいて出力指令値を生成してもよい。過去の操作に基づく予測指令値をさらに考慮して出力指令値が生成されるので、より適切な指令をロボットに伝達することができる。

　他の側面に係るロボット制御システムでは、生成部は、アシスト度に応じた割合で入力指令値と予測指令値とを混合し、出力指令値を生成してもよい。ユーザの今回の操作と過去の操作との双方をアシスト度を用いて混合することで、より適切な指令をロボットに伝達することができる。

　他の側面に係るロボット制御システムでは、ロボットが実行可能な複数のタスクのそれぞれに対応する複数の学習済みモデルから、ロボットが実行すべきタスクに対応する学習済みモデルを選択する選択部をさらに備え、推論部は、選択された学習済みモデルに基づいて分布度を出力してもよい。タスクに応じた学習済みモデルを用いることで、個々のタスクに応じてロボットの操作を適切にアシストすることができる。

　他の側面に係るロボット制御システムでは、ロボットが実行すべきタスクをセンサデータに基づいて特定する特定部を更に備え、選択部は、特定されたタスクに基づいて学習済みモデルを選択してもよい。この仕組みによって、センサデータを用いて学習済みモデルを自動的に選択することができる。

　他の側面に係るロボット制御システムでは、学習済みモデルは、ガウス過程に基づいて分布度を出力してもよい。ガウス過程を採用することで、訓練データの量が少ない場合でも学習済みモデルを構築できるので、学習済みモデルをより容易に準備することが可能になる。

　他の側面に係るロボット制御システムでは、学習済みモデルは、ユーザとは異なる他のユーザの過去の操作に基づいて生成された第１モデルを含み、推論部は、第１モデルから出力される第１分布度を出力し、設定部は、第１分布度に基づいて第１アシスト度を設定し、生成部は、入力指令値および第１アシスト度に基づいて出力指令値を生成してもよい。他のユーザの操作に基づいてアシスト度を設定することで、ロボットの操作を適切にアシストすることができる。

　他の側面に係るロボット制御システムでは、第１モデルは、ユーザよりも操作に熟練した熟練者の過去の操作に基づいて生成された熟練モデルであってもよい。この仕組みによって、熟練者の技能が適切に反映された出力指令値が得られるので、ロボットの操作をより適切にアシストすることができる。

　他の側面に係るロボット制御システムでは、学習済みモデルは、ユーザの過去の操作に基づいて生成された第２モデルを含み、推論部は、第２モデルから出力される第２分布度を出力し、設定部は、第２分布度に基づいて第２アシスト度を設定し、生成部は、入力指令値、第１アシスト度、および第２アシスト度に基づいて、出力指令値を生成してもよい。今回の操作とユーザ自身の過去の操作との類似性をさらに考慮して出力指令値が生成されるので、より適切な指令をロボットに伝達することができる。

　他の側面に係るロボット制御システムでは、生成部は、第２アシスト度が閾値以上である場合に、入力指令値と、第１アシスト度と、第１モデルから出力される予測指令値とに基づいて出力指令値を生成し、第２アシスト度が閾値未満である場合に、第１アシスト度及び予測指令値を用いることなく、入力指令値に基づいて出力指令値を生成してもよい。今回の操作が通常のものであるといえる場合に限って操作をアシストし、今回の操作が通常とは異なるといえる場合にはその操作をそのまま尊重することで、ロボットの操作の状況に応じたアシストが可能になる。

　他の側面に係るロボット制御システムでは、ロボットはユーザから遠隔に位置してもよい。この場合にはロボットの遠隔操作を適切にアシストすることができる。

　［変形例］
　以上、本開示の実施形態に基づいて詳細に説明した。しかし、本開示は上記実施形態に限定されるものではない。本開示は、その要旨を逸脱しない範囲で様々な変形が可能である。

　ロボット制御システムの構成は上記実施形態に限定されない。例えば、操作装置１０に代えてロボット用コンピュータ３が取得部１１、特定部１２、選択部１３、推論部１４、設定部１５、生成部１６、およびモデルデータベース１７を備えてもよい。上記実施形態では操作装置１０が取得部１１、特定部１２、および選択部１３を備えるが、これらの機能モジュールの少なくとも一つが別のコンピュータ上に構築されてもよい。

　上記実施形態では推論部１４が熟練モデル１４１および自己モデル１４２を備えるが、推論部１４はこれら２種類の学習済みモデルのうちの一方を備えなくてもよい。すなわち、ロボット制御システムは熟練モデル（第１モデル）および自己モデル（第２モデル）の一方を用いることなくロボットの操作をアシストしてもよい。

　ロボット用コンピュータ３は必須の構成要素ではなく、この場合には、ロボットコントローラ４が通信ネットワークＮを介して操作装置１０とより直接的に接続されてもよい。

　図１は、ロボット２とロボット制御システム１とを備えるロボットシステムを示すともいえる。また、図１は、操作コントローラまたは操作装置１０と、ロボット制御システム１とを備える操作システムを示すともいえる。一側面では、本開示はこれらのロボットシステムおよび操作システムにも適用することができる。

　システムのハードウェア構成は、プログラムの実行により各機能モジュールを実現する態様に限定されない。例えば、上記実施形態における機能モジュールの少なくとも一部が、その機能に特化した論理回路により構成されていてもよいし、該論理回路を集積したＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により構成されてもよい。

　少なくとも一つのプロセッサにより実行される方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップ（処理）の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の２以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。

　コンピュータシステムまたはコンピュータ内で二つの数値の大小関係を比較する際には、「以上」および「よりも大きい」という二つの基準のどちらを用いてもよく、「以下」および「未満」という二つの基準のうちのどちらを用いてもよい。このような基準の選択は、二つの数値の大小関係を比較する処理についての技術的意義を変更するものではない。

１…ロボット制御システム、２…ロボット、３…ロボット用コンピュータ、４…ロボットコントローラ、１０…操作装置、１１…取得部、１２…特定部、１３…選択部、１４…推論部、１５…設定部、１６…生成部、１７…モデルデータベース、１４１…熟練モデル（第１モデル）、１４２…自己モデル（第２モデル）、Ｎ…通信ネットワーク。

Claims

　ユーザ操作に応じてロボットを制御するロボット制御システムであって、
　過去の操作に基づいて生成された学習済みモデルであって、前記ロボットの現在状態と目標状態との状態差が少なくとも入力されたことに応答して、当該状態差における前記ロボットの動作の分布の度合いである分布度を少なくとも出力する該学習済みモデルに基づいて、前記分布度を出力する推論部と、
　前記学習済みモデルから出力される分布度に基づいて、前記ロボットの操作をアシストする度合いであるアシスト度を設定する設定部と、
　前記ユーザ操作により操作装置から入力された入力指令値と前記アシスト度とに基づいて、前記ロボットへと出力される出力指令値を生成する生成部と、
を備えるロボット制御システム。
　前記学習済みモデルは、前記分布度に加えて、前記過去の操作に基づいて予測される指令値である予測指令値を出力し、
　前記生成部は、前記入力指令値、前記アシスト度、および前記予測指令値に基づいて前記出力指令値を生成する、
請求項１に記載のロボット制御システム。
　前記生成部は、前記アシスト度に応じた割合で前記入力指令値と前記予測指令値とを混合し、前記出力指令値を生成する、
請求項２に記載のロボット制御システム。
　前記ロボットが実行可能な複数のタスクのそれぞれに対応する複数の前記学習済みモデルから、前記ロボットが実行すべきタスクに対応する前記学習済みモデルを選択する選択部をさらに備え、
　前記推論部は、前記選択された学習済みモデルに基づいて前記分布度を出力する、
請求項１～３のいずれか一項に記載のロボット制御システム。
　前記ロボットが実行すべきタスクをセンサデータに基づいて特定する特定部を更に備え、
　前記選択部は、前記特定されたタスクに基づいて前記学習済みモデルを選択する、
請求項４に記載のロボット制御システム。
　前記学習済みモデルは、ガウス過程に基づいて前記分布度を出力する、
請求項１～５のいずれか一項に記載のロボット制御システム。
　前記学習済みモデルは、前記ユーザとは異なる他のユーザの前記過去の操作に基づいて生成された第１モデルを含み、
　前記推論部は、前記第１モデルから出力される第１分布度を出力し、
　前記設定部は、前記第１分布度に基づいて第１アシスト度を設定し、
　前記生成部は、前記入力指令値および前記第１アシスト度に基づいて前記出力指令値を生成する、
請求項２～６のいずれか一項に記載のロボット制御システム。
　前記第１モデルは、前記ユーザよりも操作に熟練した熟練者の前記過去の操作に基づいて生成された熟練モデルである、
請求項７に記載のロボット制御システム。
　前記学習済みモデルは、前記ユーザの前記過去の操作に基づいて生成された第２モデルを含み、
　前記推論部は、前記第２モデルから出力される第２分布度を出力し、
　前記設定部は、前記第２分布度に基づいて第２アシスト度を設定し、
　前記生成部は、前記入力指令値、前記第１アシスト度、および前記第２アシスト度に基づいて、前記出力指令値を生成する、
請求項７又は８に記載のロボット制御システム。
　前記生成部は、
　　前記第２アシスト度が閾値以上である場合に、前記入力指令値と、前記第１アシスト度と、前記第１モデルから出力される、前記過去の操作に基づいて予測される指令値である予測指令値とに基づいて前記出力指令値を生成し、
　　前記第２アシスト度が前記閾値未満である場合に、前記第１アシスト度及び前記予測指令値を用いることなく、前記入力指令値に基づいて前記出力指令値を生成する、
請求項９に記載のロボット制御システム。
　前記ロボットは前記ユーザから遠隔に位置する、
請求項１～１０のいずれか一項に記載のロボット制御システム。
　前記ロボットと、
　請求項１～１１のいずれか一項に記載のロボット制御システムと、
を備えるロボットシステム。
　前記ユーザ操作を受け付ける操作コントローラと、
　請求項１～１１のいずれか一項に記載のロボット制御システムと、
を備える操作システム。
　ユーザ操作に応じてロボットを制御するための少なくとも一つのプロセッサを備えるロボット制御システムにより実行されるロボット制御方法であって、
　過去の操作に基づいて生成された学習済みモデルであって、前記ロボットの現在状態と目標状態との状態差が少なくとも入力されたことに応答して、当該状態差における前記ロボットの動作の分布の度合いである分布度を少なくとも出力する該学習済みモデルに基づいて、前記分布度を出力するステップと、
　前記学習済みモデルから出力される分布度に基づいて、前記ロボットの操作をアシストする度合いであるアシスト度を設定するステップと、
　前記ユーザ操作により操作装置から入力された入力指令値と前記アシスト度とに基づいて、前記ロボットへと出力される出力指令値を生成するステップと、
を含むロボット制御方法。
　ユーザ操作に応じてロボットを制御するための少なくとも一つのプロセッサを備えるロボット制御システムとしてコンピュータを機能させるロボット制御プログラムであって、
　過去の操作に基づいて生成された学習済みモデルであって、前記ロボットの現在状態と目標状態との状態差が少なくとも入力されたことに応答して、当該状態差における前記ロボットの動作の分布の度合いである分布度を少なくとも出力する該学習済みモデルに基づいて、前記分布度を出力するステップと、
　前記学習済みモデルから出力される分布度に基づいて、前記ロボットの操作をアシストする度合いであるアシスト度を設定するステップと、
　前記ユーザ操作により操作装置から入力された入力指令値と前記アシスト度とに基づいて、前記ロボットへと出力される出力指令値を生成するステップと、
を前記コンピュータに実行させるロボット制御プログラム。