WO2023243412A1

WO2023243412A1 - 処理装置、ロボット制御システム及び機械学習方法

Info

Publication number: WO2023243412A1
Application number: PCT/JP2023/020383
Authority: WO
Inventors: 俊貴小谷; 洋伊藤; 秀行一藁; 健次郎山本
Original assignee: 株式会社日立製作所
Priority date: 2022-06-15
Filing date: 2023-05-31
Publication date: 2023-12-21
Also published as: JP2023183271A

Abstract

処理装置（計算機（２０））のプロセッサ（ＣＰＵ（２３））は、ロボット（ロボット装置（１））への教示データをロボットの同種の動作ごとに分節する（動作分節化部（４１））。プロセッサは、分節された複数の教示データに対して、ロボットの同種の動作の速度又はタイミングを揃える補正を行う（速度調整部（４２）、タイミング調整部（４３））。プロセッサは、補正が行われた複数の教示データを合成する（データ処理部（４５））。プロセッサは、合成された教示データを用いて機械学習を行う（機械学習装置（３４））。

Description

処理装置、ロボット制御システム及び機械学習方法

　本発明は、処理装置、ロボット制御システム及び機械学習方法に関する。

　事業環境の急速な変化や人々のニーズの多様化に対応するために、多品種少量生産システムが注目を集めている。生産効率を高める手段としてロボットによる自動化が考えられるが、ロボットを制御するためには膨大なプログラミングコストや高い専門知識が必要であり、導入工数が大きいことが課題となっている。そこで、ロボット導入工数を削減するために、あらゆるロボット機能に機械学習が用いられている。例えば、物体認識では、物体の種類や位置、姿勢を推定するために、ロボットとの接触情報や画像情報から機械学習を用いて物体の特徴を定量的に算出する研究が多数報告されている。

　一方で、動作生成では、環境変化やプログラムでは記述困難な動作を実現するために、機械学習をロボットの自律制御に適用した研究が多数報告されている。自律制御技術の一例として、強化学習が挙げられる。ロボットが試行錯誤することで、タスクを遂行するための最適動作を獲得するため、明示的に動作を教示する必要がない。しかし、最適動作を獲得するためには、膨大な試行錯誤（学習時間）がかかる。

　学習時間が小さい自律制御技術として、模倣学習がある。模倣学習は教示・学習・実行フェーズの３つからなる。教示フェーズでは、教示者がロボットを操作することで目的の動作を教示し、その際ロボットに搭載されたエンコーダーや、温度センサ、ビジョンセンサ、超音波センサ等が出力する時系列情報を収集記録する。ロボットへの動作教示は、コントローラによる遠隔操作や、ロボットを直接触れて教示するダイレクトティーチング、あるいは制御プログラムを用いる手法などがある。

　教示フェーズで得られる時系列情報を、教示データと呼ぶ。教示データの種類は、動作生成方法に依存する。例えば、ロボットや対象物の位置に応じて動作を生成する場合、教示データには、ロボットの位置や、関節角情報等が含まれる。さらに、視覚情報に応じて動作を生成する場合は、ロボットや作業環境の画像を含めてもよい。また、対象物の状態に応じて動作を生成する場合は、対象物の位置や姿勢情報を含めてもよい。また、例えば、ロボットの速度に応じて動作を生成する場合、教示データには、ロボットの速度、関節角速度情報等が含まれる。また、例えば、ロボットの力に応じて動作を生成する場合、教示データには、ロボットの触覚情報が含まれる。

　学習フェーズでは、教示フェーズで収集した教示データをもとに学習データを作成し、その学習データを用いて動作生成モデルの学習を行う。学習データは、教示データをそのまま使用してもよい。また、教示データに含まれるノイズ、欠損、エラー値などを除去するために、教示データを変換することで学習データを作成してもよい。教示データを学習データへ変換することを前処理と呼ぶ。前処理には、欠損値や外れ値等が含まれるデータを除去するデータクリーニングや、データの値が指定された範囲内に収まるように変換する正規化などがある。学習データを用いて、機械学習モデルの重みを更新することで、ある値をモデルへ入力すると、所望の値を出力するようにする。例えば、ある時刻の関節角情報と画像を入力すると、その次の時刻の関節角情報と画像を予測するようにモデルを学習する。

　実行フェーズでは、学習フェーズで得られた動作生成モデルとロボットのセンサデータを用いて、動作生成を行うことでタスクを実行する。例えば、学習フェーズで、ある時刻の関節角情報と画像を入力すると、その次の時刻の関節角情報と画像を予測するように、機械学習モデルを学習したとする。この機械学習モデルを実行フェーズで用いることで、各時刻の関節角情報と画像を入力し、出力された関節角情報をロボットへの制御指令値とすることで、自律的に動作を生成することができる。

　模倣学習の動作生成精度を向上させるために、次のような模倣学習が特許文献１に記載されている。この特許文献１には、「模範操作時に操作者が把握していた観測情報に基づいて模倣学習を行う」と記載されている。

特開2021-10984号公報

　ところで、模倣学習の課題として、導入工数（教示・学習フェーズの工数）削減と、汎化動作獲得の両立が困難であることが挙げられる。例えば、プログラムベースの教示では、コンピュータ制御によってロボットを操作するため、人が操作する場合に比べて均整な教示データが取得でき、教示データ間の関係性を学習しやすくなり汎化動作性能が向上する。しかし、ロボットの動作を逐一プログラミングする必要があるため、導入工数が大きい。

　プログラムベースよりも導入工数が小さい教示方法としては、人がロボットをコントローラ等で遠隔操作する方法や、直接触れることで操作する方法等が挙げられる。これらの教示方法は、ロボットの動作を逐一プログラミングする必要がないため、導入工数が小さい。

　しかし、人がロボットを動かすことで、プログラムベースの教示方法に比べて、教示データ毎に動作速度や動作タイミング等の時間方向のばらつきが生じるため、教示データ間の関係性を学習することが困難である。この時間方向のばらつきの影響を無視するためには、膨大な学習データが必要であり、教示回数が増加する。

　そこで、本発明は、動作学習を阻害する教示データの時間方向のばらつきを低減することができる処理装置、ロボット制御システム及び機械学習方法を提供することを目的とする。なお、特許文献１に記載の技術は、動作生成精度を向上させるために学習データを操作するという点で共通しているものの、時間方向のばらつきを低減することに言及していない。

　上記目的を達成するために、本発明の一例の処理装置は、ロボットへの教示データを前記ロボットの同種の動作ごとに分節し、分節された複数の前記教示データに対して、前記ロボットの同種の動作の速度又はタイミングを揃える補正を行い、補正が行われた複数の前記教示データを合成し、合成された前記教示データを用いて機械学習を行うプロセッサを備える。

　本発明によれば、動作学習を阻害する教示データの時間方向のばらつきを低減することができる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

本発明が適用されるロボット制御システムの構成例を示す概略図である。ロボット制御システムの動作計画部を実現する計算機のハードウェア構成例を示すブロック図である。ロボット制御システムの動作計画部が備える計算機の機能構成例を示すブロック図である。本発明の第１の実施形態における、動作計画部が備える整合性検証装置の機能構成例を示すブロック図である。本発明の第１の実施形態における、速度調整の実現方法例の説明図である。本発明の第１の実施形態における、動作計画部が備える機械学習装置の機能構成例を示すブロック図である。本発明の第１の実施形態における、動作計画部が備える整合性検証装置の動作例を示すフローチャートである。本発明の第１の実施形態における、動作計画部が備える整合性検証装置の効果例を示すための、リーチングタスクの説明図である。教示動作中の時間とＹ軸方向の手先位置の関係を表した図である。教示データに時間方向のバラつきがある場合の、リーチングタスクの様子を示す図である。時間方向のばらつきがある教示動作中の、時間とＹ軸方向の手先位置の関係を表した図である。図８Ｃ、８Ｄに示したリーチングタスクについて、整合性検証装置を適用した際の説明図である。本発明の第２の実施形態における、動作計画部が備える整合性検証装置の内部構成例を示すブロック図である。本発明の第２の実施形態における、動作計画部が備える整合性検証装置の動作例を示すフローチャートである。本発明の第３の実施形態における、ロボット制御システムの構成例を示す概略図である。本発明の第３の実施形態における、ロボット制御システムの動作計画部が備える計算機の機能構成例を示すブロック図である。本発明の第３の実施形態における、ロボット制御システムの動作計画部を実現する計算機のハードウェア構成例を示すブロック図である。本発明の第３の実施形態における、ロボット制御システムの動作計画部が備えるスクリーニング装置の機能構成例を示すブロック図である。本発明の第３の実施形態における、ロボット制御システムが備える画面操作部の機能構成例を示すブロック図である。本発明の第４の実施形態における、ロボット制御システムが備える動作計画部の機能構成例を示すブロック図である。本発明の第４の実施形態における、ロボット制御システムの動作計画部が備える動作パラメータ調整装置の機能構成例を示すブロック図である。

　以下、第１～第４の実施形態を、図面を用いて説明する。本実施形態は、ロボットの時系列データを学習し、自律的に動作を生成するようなロボット動作生成技術に関する。本実施形態は、動作学習を阻害する教示データの時間方向のばらつきを低減することで、導入工数削減と汎化動作獲得の両立を実現することを目的とする。

　（第１の実施形態）
　まず、本発明の第１の実施形態に係るロボット制御システムについて図１から図３を参照して説明する。

　図１は、本発明が適用されるロボット制御システムの構成例を示す。図１に示すロボット制御システム１００は、ロボット装置１とセンサデータ取得部２、動作計画部３、制御部４から成る。ロボット装置１の具体例として、単腕ロボットアームを示しているが、ロボット装置１の構成は問わず、例えば、双腕アームでもよい。また、脚やクローラ、車輪、プロペラなどの移動装置でもよい。

　センサデータ取得部２は、ロボット装置１から出力されるセンサデータを取得する。センサデータには、作業中に取得した、ロボット装置１や環境のセンサデータが含まれる。

　動作計画部３は、センサデータ取得部２で得られたデータを教示データとして、次の３つの手順で動作を学習・生成する。まず、教示データのばらつきを抑える前処理行うことで学習データを作成する。次に、学習データに基づき動作学習を行うことで動作生成モデルを構築する。最後に、構築した動作生成モデルを用いて動作指令値を生成する。

　制御部４は、動作計画部３で算出された指令値をロボット装置１へ与えることで、ロボット装置１に搭載されたアクチュエータが駆動する。

　［動作計画部のハードウェア構成］
　次に、ロボット制御システム１００が備える動作計画部３のハードウェア構成について図２を参照して説明する。ここでは、動作計画部３を実現する計算機のハードウェア構成について説明する。

　図２は、動作計画部３を実現する計算機のハードウェア構成例を示すブロック図である。図示する計算機２０は、センサデータ取得部２、動作計画部３、制御部４で使用されるコンピュータを構成するハードウェアの一例である。計算機２０には、例えば、パーソナルコンピュータを用いることができる。

　計算機２０は、バス２１に接続された、ＲＯＭ（Read Only Memory）２２と、ＣＰＵ（Central Processing Unit）２３と、ＲＡＭ（Random Access Memory）２４と、不揮発性ストレージ２５と、入出力インターフェース２６と、ネットワークインターフェース２７と、を備える。

　ＲＯＭ２２は、本実施形態に係るセンサデータ取得部２、動作計画部３、制御部４の機能を実現するソフトウェアのプログラムコードを記録している。

　ＣＰＵ２３は、本実施形態に係るセンサデータ取得部２、動作計画部３、制御部４の機能を実現するソフトウェアのプログラムコードをＲＯＭ２２から読み出し、該当プログラムをＲＡＭ２４にロードして実行する演算処理装置として機能する。ＲＡＭ２４には、ＣＰＵ２３の演算処理の途中で発生した変数やパラメータなどの値が一時的に書き込まれる。ＲＡＭ２４に書き込まれた変数やパラメータなどの値は、ＣＰＵ２３によって適宜読みだされる。演算処理装置としてＣＰＵを用いているが、ＭＰＵ（Micro Processing Unit）等の他のプロセッサを用いてもよい。

　不揮発性ストレージ２５は、記録媒体の一例であり、プログラムが使用するデータや、プログラムを実行して得られたデータなどを保存できる。例えば、不揮発性ストレージ２５には、後述する学習データや動作生成モデル等が保存される。また、不揮発性ストレージ２５に、ＯＳ（Operating System）や、ＣＰＵ２３が実行するプログラムを記録してもよい。不揮発性ストレージ２５としては、磁気記録媒体、光記録媒体、半導体記録媒体などが採用可能である。

　入出力インターフェース２６は、ロボット制御システム１００が備える各センサや各アクチュエータの信号やデータの通信を行うインターフェースである。入出力インターフェース２６が、入力信号又は出力信号を処理する図示しないＡ／Ｄ（Analog/Digital）変換器、及び／又は、Ｄ／Ａ変換器の機能を備えてもよい。本明細書のセンサデータには、各センサだけでなく、各アクチュエータから得られる情報も含まれる。

　ネットワークインターフェース２７は、例えばＮＩＣ（Network Interface Card）やモデムが用いられる。ネットワークインターフェース２７は、端子が接続されたＬＡＮやインターネット等の通信ネットワーク又は専用線等を介して、外部装置との間で各種のデータを送受信することが可能となるように構成されている。例えば、ネットワークインターフェース２７を用いることで、ロボット装置１と各種データの送受信を行うことができる。

　［動作計画部の機能構成］
　次に、ロボット制御システム１００が備える動作計画部３の機能構成について、図３を参照して説明する。図３は、本発明の実施となる動作計画部３の機能構成例を表したものである。図３に示す動作計画部３において、センサデータ蓄積装置３１は、前記センサデータ取得部２で取得されたセンサデータを、時系列データとして記録する装置である。整合性検証装置３２は、前記センサデータ蓄積装置３１に記録された時系列データを変換し、学習データを出力する装置である。学習データ蓄積装置３３は、整合性検証装置３２から出力された学習データを記録する装置である。機械学習装置３４は、学習データ蓄積装置３３に記録された学習データを学習し、制御部４へ指令値を出力する装置である。

　次に、図４を用いて動作計画部３の整合性検証装置３２の構成を説明する。整合性検証装置３２において、動作分節化部４１は、センサデータを、動作のまとまり毎に分割する装置である。動作分節化の実現方法としては、速度変化に基づく分節化や、クラスタリングによる分節化、深層学習による分節化等がある。

　速度変化に基づく分節化は、ロボットの動作速度に基づく手法であり、データ特性が単純な場合に使用できる。クラスタリングによる分節化は、教示データ特性が複雑な場合にも使用できるが、事前に分節数を設定する必要がある。深層学習による分節化は、教示データ特性が複雑な場合にも使用でき、事前に分節数を設定する必要がない。一方、速度変化に基づく分節化やクラスタリングによる分節化に比べて、実装コスト、計算コストが大きい。

　速度調整部４２は、汎化動作獲得の妨げとなる教示データ間の動作速度のばらつきを小さくするために、動作速度を調整する。速度調整部の実現方法の一例として、教示データの量子化とノイズ削除を行うことで教示データ間の速度を揃えるアルゴリズムを説明する。

　図５は、本アルゴリズムの手順と効果を示した図である。グラフｇ５Ａは、移動速度が異なる種類のデータを示しており、横軸は時間，縦軸は世界座標系におけるある軸（以降、x軸とよぶ）方向の手先位置を表す。グラフｇ５Ｂは、グラフｇ５Ａで示す２つの教示データについて、手先位置の値を離散的な近似値に変換する量子化を行った結果を表している。グラフｇ５Ｂに示す通り、量子化することで教示データの時間当たりの変化量が一定になる。

　なお、教示データの時間当たりの変化量が量子化幅よりも大きい場合、量子化後の変化量は必ずしも一定値にならない。そこで、量子化幅の大きさは教示データの時間当たりの変化量と同じ、又は、それより大きくする必要がある。言い換えると、速度調整後は、元の教示データと速度が同じか、又は、元の教示データよりも大きくなる。

　ただし、変形例２で説明するアップサンプリングを行うことで、元の教示データよりも、小さな速度へ速度調整することができる。拡大表示５Ｃは、手先一方向に量子化を行うことで、手先位置が変化しない時間、すなわち速度がゼロの時間が発生することを示している。グラフｇ５Ｄは、グラフｇ５Ｂで示す量子化後の教示データについて、ノイズ削除を行った結果を表している。ノイズ削除とは、量子化後に発生した、速度がゼロになる時間を、ノイズとみなして削除することをいう。グラフｇ５Ｄが示す通り、２つの教示データの手先速度が揃っていることが分かる。また、最終手先位置は、速度調整前と変わらないこともわかる。以上より、量子化とノイズ削除を行うことで、速度調整を実現できることがわかる。

　図４に示すタイミング調整部４３は、汎化動作獲得の妨げとなる教示データ間の動作開始・終了等のタイミングのばらつきを小さくするために、動作開始・終了タイミングを調整する。タイミング調整の実現方法の一例としては、ロボット装置１の静止時間を増やす、又は、減らすことが考えられる。例えば、全教示データにおける、ロボット装置１の動作開始時刻を揃えるためには、全教示データの動作開始時刻の平均値を算出し、各教示データにおける動作開始時刻を、その平均値と等しくなるように静止時間を増やす、又は、減らすことが考えられる。

　ダイナミクス調整部４４は、速度調整後の教示データにおける加速度や躍度、トルク等のダイナミクスの大きさや変化が過大になることで、生成される動作が不安定になることを防ぐために、センサデータにおける加速度や躍度、トルク等のダイナミクスを調整する。ダイナミクス調整の実現方法の一例としては、手先位置のデータに対して移動平均フィルタを適用することが考えられる。

　データ処理部４５は、ダイナミクス調整部４４から出力されたデータを深層学習モデルで学習できるように、学習データに変換する。具体的には、教示データ毎に、調整後の各分節を合成することで学習データを構築する。

　次に、図６を用いて機械学習装置３４の構成について説明する。機械学習装置３４において、機械学習モデル定義部６１は、機械学習モデルの構造やパラメータを定義する。

　学習部６２は、学習データ蓄積装置３３で蓄積した学習データを用いて、機械学習モデル定義部６１で定義された機械学習モデルの重みを更新することで、ある値をモデルへ入力すると、所望の値を出力するようにする。例えば、ある時刻のロボットの関節角度を入力すると、次の時刻のロボットの関節角度の予測値を出力するようにする。

　学習済み重み蓄積部６３は、学習済みのモデルの重みパラメータを保存する。

　推論部６４は、機械学習モデル定義部６１から読み込んだ機械学習モデルと、学習済み重み蓄積部６３から読み込んだモデルの重みパラメータを用いることで動作生成モデルを構築し、学習時と同様のセンサデータをモデルへ入力することで動作生成を行う。

　例えば、学習時に、ある時刻のロボットの関節角度を入力すると、次の時刻のロボットの関節角度の予測値を出力するようにモデルを構築したとする。この場合、動作生成時は、各時刻ごとの関節角度をモデルに入力することで、次の時刻における関節角度を得られ、得られた関節角度を指令値とすることでロボットの動作を生成できる。

　［動作計画部３の動作例］
　次に、これまで説明した動作計画部３の各機能がどのような順序で動作するかを説明する。動作順序は大きく教示・学習・実行の３つのフェーズに分けられる。教示フェーズでは、ロボット装置１を操作することで動作を教示し、その間得られたセンサデータを、センサデータ取得部２を用いて、センサデータ蓄積装置３１に記録する。

　学習フェーズでは、整合性検証装置３２を用いて、センサデータ蓄積装置３１のセンサデータを学習データへ変換し、機械学習モデル定義部６１で定義した機械学習モデルを用いて学習することで、学習済み重みを得る。整合性検証装置３２では、動作分節化、速度調整、タイミング調整の３つ手順でセンサデータを変換する。これらの３つの手順を、図７を参照して説明する。

　図７は、整合性検証装置３２の動作例を示すフローチャートである。前処理開始（Ｓ１）後は、まず、全教示データについて、それぞれ動作分節化を行う（Ｓ２）。動作分節化では、動作分節化部４１を用いて、センサデータを時間方向に分割することで、動作のまとまり毎に分ける。動作分節化後は、各分節について（Ｓ３、Ｓ４）、速度調整（Ｓ５）と、タイミング調整と（Ｓ６）、ダイナミクス調整（Ｓ７）を行う。タイミング調整部４３によって処理されたデータを、データ処理部４５を用いることで、学習データへ変換し（Ｓ８）、前処理を終了する（Ｓ９）。

　以上のように、整合性検証装置３２で教示データを処理することで、教示データ間の時間方向のばらつきを低減した学習データが得られる。なお、速度調整とタイミング調整は、必ずしも両方とも行う必要はなく、どちらか一方のみ行えばよい場合がある。例えば、教示動作の速度のみが異なる場合は、速度のみを調整すればよいので、タイミング調整は不要である。また、教示動作のタイミングのみが異なる場合は、タイミングのみを調整すればよいので、速度調整は不要である。

　整合性検証装置３２で構築した学習データを、機械学習装置３４の学習部６２へ入力する。学習部６２では、機械学習モデル定義部６１から機械学習モデルを呼び出し、学習データに基づき学習する。学習の結果得られた動作生成モデルは、学習済み重み蓄積部６３へ保存される。

　実行フェーズでは、学習フェーズで得られた動作生成モデルを用いて、動作生成を行うことで、タスクを実行する。ロボット装置１への指令値を計算するために、機械学習装置３４の推論部６４を用いる。

　［動作計画部の効果例］
　動作計画部３の有効性の検証として、動作計画部３が動作することで、どのように教示データ間の時間方向のばらつきが小さくなるかを、図８（８Ａ～８Ｄ）、図９を参照して説明する。図８（８Ａ～８Ｄ）は、ロボットアームの手先を目標手先位置へ直線的に移動させるという、リーチングタスクを表したものである。図８（８Ａ～８Ｄ）を用いて、教示データにおける時間方向のばらつきが、リーチングタスクに与える影響を説明する。

　まず、図８Ａと図８Ｂ（グラフｇ８Ｂ）を用いて、教示データに時間方向のばらつきがないとタスクが成功する理由を説明する。図８Ａに描かれる手先は、ロボットハンドの初期時刻での位置を示している。また、図８Ａに描かれるｐ、ｑ、ｒは、それぞれ目標手先位置を表している。図８ＡのＸ、Ｙはそれぞれタスク環境に設定された座標軸の名前であり、ここではX軸、Y軸は位置［ｃｍ］を示す。ここで、目標手先位置p、ｒに対する動作を教示したとする。図８Ａにおいて、手先からｐ、ｒへ向かう矢印（実線）は、教示動作中の手先の軌跡を表している。

　図８Ｂ（グラフｇ８Ｂ）は、教示動作中の時間とＹ軸方向の手先位置の関係を表した図である。グラフｇ８Ｂに示す通り、目標手先位置ｐとｒの教示動作は、手先速度とリーチング開始・終了時刻は同じであり、時間方向のばらつきはない。動作学習フェーズで、目標手先位置ｐとｒに対する教示動作を学習することで、現在のセンサデータを入力すると、次の時刻におけるロボットアームへの指令値を出力する動作生成モデルを獲得する。

　次いで、図８Ａとグラフｇ８Ｂを参照して、動作実行フェーズで、目標手先位置ｑに対して生成される動作を考える。動作実行フェーズでは、動作学習フェーズで構築した動作生成モデルへ目標手先位置ｑは、２点間の学習により、位置汎化することで、目標手先位置ｐ、ｒのちょうど真ん中に位置するようになる。このとき、ｑに対して生成される手先位置は、各時刻ごとに、ｐ、ｒに対する教示動作の手先位置のちょうど中間を通る。図８Ａとグラフｇ８Ｂは、ｑに対して生成される動作を破線で示しており、手先がＹ軸方向にぶれず安定している。このことから、教示データに時間方向のばらつきがない場合は、リーチングタスクに成功することが分かる。

　次に、図８Ｃと図８Ｄ（グラフｇ８Ｄ）を用いて、ばらつきがあるとタスクが失敗する理由を説明する。図８Ｃは、教示データに時間方向のバラつきがある場合の、リーチングタスクの様子を示したものである。図中の各符号は図８Ａと同じ意味を表す。

　図８Ｄ（グラフｇ８Ｄ）は、教示動作中の、時間とＹ軸方向の手先位置の関係を表した図である。目標手先位置ｐとｒの教示動作には、時間方向のばらつきがある。具体的には、目標手先位置ｐよりも、目標手先位置ｒの教示動作のほうが、移動速度が速い。またリーチング開始時刻（２点鎖線）、完了時刻（１点鎖線）も早い。

　次いで、図８Ｃとグラフｇ８Ｄを参照して、目標手先位置ｑに対して生成される動作を考える。上述の通り、ｐ、ｑ、ｒの位置関係から、ｑに対して生成される動作は、ｐ、ｒに対する教示動作のちょうど中間を通る。図８Ｃとグラフｇ８Ｄに、ｑに対して生成される動作を、破線で示している。ｑに対して生成される動作を参照すると、手先がＹ軸方向に大きくぶれてしまっている。このことから、教示データに時間方向のばらつきがある場合は、リーチングタスクに失敗することが分かる。

　次いで、図９を用いて、教示データに時間方向のバラつきがある場合でも、整合性検証装置３２を用いることで、汎化動作が獲得できることを説明する。図９は、図８Ｃ、８Ｄに示したリーチングタスクについて、整合性検証装置３２を適用した際の説明図である。図９中の、同一符号は図８Ｃ、８Ｄと同一部品であるため、再度の説明を省略する。

　グラフｇ９Ａは、グラフｇ８Ｄで示した目標手先位置ｐ、ｒに対する教示データである。上述の通り、目標手先位置p、ｒに対する教示データには、時間方向のばらつきがある。

　グラフｇ９Ｂは、グラフｇ９Ａで示す目標手先位置ｐ、ｒに対する教示動作を、それぞれ動作分節化したものである。グラフｇ９Ｂの一点鎖線は、分節化した時刻を表している。グラフｇ９Ｂに示す通り、リーチング開始時刻とリーチング終了時刻で動作を分割している。例えば、グラフｇ９Ｂに示すように、リーチング開始時刻を検出するためには、動作分節化部４１にて速度変化に基づく分節化を行うことで、手先が静止している状態から動き始める時刻を調べるとよい。

　グラフｇ９Ｃは、グラフｇ９Ｂで示す手先動作について、手先速度を揃える説明図である。グラフｇ９Ｃに示す通り、リーチング開始時刻からリーチング完了時刻までのアームの手先速度を調整し、２つの教示データにおける手先速度の平均値＋α（定数）と等しくすれば良い。さらに好ましくは、リーチング開始時刻からリーチング完了時刻までのアームの手先速度を平均値と等しくする。

　グラフｇ９Ｄは、グラフｇ９Ｃで示す手先動作について、手先の動作タイミングを揃える説明図である。グラフｇ９Ｄに示す通り、教示データ間で、リーチング開始時刻とリーチング完了時刻を等しくしている。

　グラフｇ９Ｅは、実行フェーズで、図８Ａにおける目標手先位置qに対して生成される動作を示している。目標手先位置ｑは、目標手先位置ｐ、ｒのちょうど中間に位置するため、ｑに対して生成される動作も、ｐ、ｒに対する教示動作のちょうど中間を通る。ｑに対して生成される動作を参照すると、手先がＹ軸方向にぶれず、安定している。

　＜変形例１＞
　ところで、本実施形態では、動作分節化部４１では、センサデータを動作のまとまりごとに分割する。しかし、データ特性が複雑である場合、分節化がうまく機能しない可能性がある。この対処法として、Recurrent Dropoutを用いることが考えられる。Recurrent Dropoutは、再帰型ニューラルネットワークにおけるノードをランダムに不活性化させながら、学習を行うことである。Recurrent Dropoutを用いることで、学習データにおける時間方向のばらつきに対する汎化性能が向上することが期待される。

　＜変形例２＞
　ところで、本実施形態では、速度調整部４２にて、センサデータの量子化を行っている。しかし、センサデータの単位時間当たりの変化量が量子化幅よりも大きい場合（つまり、変換後の速度を大きくしたい場合）、量子化後のセンサデータの時間当たりの変化量が量子化幅を超えてしまうため、量子化後の時間当たりの変化量が等しくならず速度を揃えることに失敗する。

　これを避けるためには、速度調整部４２にて、量子化の前にアップサンプリングを行うことで、センサの単位時間あたりの変化量を小さくする必要がある。アップサンプリングとは、時系列データのサンプリング周波数を大きくすることである。アップサンプリングの実現方法としては、線形補間や、最近傍補間、スプライン補間等がある。ただし、これらの補間方法は、画像データに対して適用できないことが知られており、フレーム補間という技術が別途必要となる。詳細は、第２の実施形態で説明する。

　本実施形態の主な特徴は、次のようにまとめることもできる。

　処理装置（計算機２０）のプロセッサ（ＣＰＵ２３）は、ロボット（ロボット装置１）への教示データをロボットの同種の動作ごとに分節する（動作分節化部４１）。プロセッサ（ＣＰＵ２３）は、分節された複数の教示データに対して、ロボットの同種の動作の速度又はタイミングを揃える補正を行う（速度調整部４２、タイミング調整部４３）。プロセッサ（ＣＰＵ２３）は、補正が行われた複数の教示データを合成する（データ処理部４５）。プロセッサ（ＣＰＵ２３）は、合成された教示データを用いて機械学習を行う（機械学習装置３４）。

　これにより、教示データの時間方向のばらつきが低減される。その結果、導入工数（教示・学習フェーズの工数）が削減されるとともに、教示データ間の関係性を学習しやすくなり汎化動作性能が向上する。

　プロセッサ（ＣＰＵ２３）は、分節された複数の教示データに対して、ロボットの同種の動作のダイナミクスの値を平滑化する補正を行う（ダイナミクス調整部４４）。例えば、ダイナミクス（加速度や躍度、トルク等）の値は、移動平均をとることにより平滑化される。これにより、ロボットの動作を安定化することができる。

　教示データは、例えば、ロボットの位置を示す位置情報、関節角度を示す関節角度情報、ロボットの速度を示す速度情報、ロボットの関節角速度を示す関節角速度情報、及びロボットに設けられる触覚センサのセンサ値を示す触覚情報のうち少なくとも１つを含む。本実施形態では、教示データは、ロボットの位置（グリッパーの位置）を示す位置情報を含む。これにより、ロボットの状態を教示データとして機械学習を行うことができる。

　また、教示データは、ロボットが作業を行う対象物の位置を示す位置情報、及び対象物の姿勢を示す姿勢情報のうち少なくとも１つを含んでもよい。これにより、対象物の状態を教示データとして機械学習を行うことができる。

　ダイナミクスは、例えば、加速度、加速度変化、躍度、躍度変化、トルク、及びトルク変化のうち少なくとも１つを含む。これにより、ロボットの動作をなめらかにすることができる。

　プロセッサ（ＣＰＵ２３）は、分節された複数の教示データを量子化し、ノイズを削除することでロボットの同種の動作の速度を揃える（図５）。これにより、教示データの時間方向のばらつきを高速に低減することができる。

　プロセッサ（ＣＰＵ２３）は、分節された複数の教示データに対して、ロボットの静止時間を増やす又は減らすことで、ロボットの同種の動作のタイミングを揃える補正を行う（図９）。これにより、教示データの時間方向のばらつきを容易に低減することができる。

　ロボット制御システム１００は、処理装置（計算機２０）とロボット（ロボット装置１）を含む。プロセッサ（ＣＰＵ２３）は、学習済みの機械学習モデルを用いて、ロボットの動作の指令値を生成する（機械学習装置３４）。ロボットは、指令値に応じて動作する。これにより、ロボットを自律的に制御することができる。

　（第２の実施形態）
　次に、本発明の第２の実施形態として、センサデータに画像が含まれる場合について、図１０と図１１を参照して説明する。

　［機能構成例］
　図１０は、本発明の第２の実施形態における、動作計画部が備える整合性検証装置の内部構成例を示すブロック図である。なお、図１０において、図４と同一符号は同一部品を示すので、再度の説明は省略する。図１０に示すように、第２の実施形態は、センサデータを動作分節化部４１で分割し、速度調整部４２と、又は／及び、タイミング調整部４３と、を用いることで時間方向のばらつきを削減し、ダイナミクス調整部４４を用いることでダイナミクスを調整し、データ処理部４５で学習データに変換する点では、第１の実施形態と同じである。第１の実施形態からの変更点は、第２の実施形態では、整合性検証装置３２において、フレーム補間部１０１を備えている点である。フレーム補間部１０１は、画像の時系列データのフレームレートを大きくする。

　フレーム補間の実現方法としては、オプティカルフローに基づくフレーム補間や、深層学習によるフレーム補間等が挙げられる。オプティカルフローに基づくフレーム補間は、特徴量抽出と、移動変化計算と、補間画像生成という３つのステップから成る。例えば、画像の時系列データのうち、ある連続する２枚の画像を考える。特徴量抽出では、２枚の画像の特徴量を抽出する。移動変化計算では、特徴量抽出で算出された特徴量のうち、同一特徴量に着目し、その移動変化量を計算する。なお、この特徴量の移動変化のことをオプティカルフローという。補間画像生成では移動変化量に基づき、元の画像２枚における画素を移動することで、２枚の画像の間にある画像を推定する。

　深層学習によるフレーム補間としては、例えば、ＦＬＡＶＲやＦＩＬＭ等のモデルが挙げられる。ＦＬＡＶＲは、オプティカルフローや３次元畳み込み計算をモデルの内部で行うことで、高精度なフレーム補間を可能にする深層学習モデルである。また、ＦＩＬＭは、画像のスケール（拡大や縮小）を考慮した深層学習モデルである。ＦＬＡＶＲ（またはＦＩＬＭ）へ画像の時系列データを入力すると、フレーム補間後の画像の時系列データを得ることができる。

　［動作例］
　図１１は、本発明の第２の実施形態における、整合性検証装置３２の動作例を示すフローチャートである。図１１に示すように、第２の実施形態は、センサデータの動作分節化を行い（Ｓ２）、分節毎に（Ｓ３、Ｓ４）、速度調整（Ｓ６）、タイミング調整（Ｓ７）を行い、教示データ毎に（Ｓ８、Ｓ９）、調整後の各分節を合成することで、学習データを構築する点では、第１の実施形態と同じである。なお、図１１において、図７と同一符号は同一部品を示すので、再度の説明は省略する。第１の実施形態からの変更点は、第２の実施形態では、速度調整（Ｓ６）の前に、フレーム補間（Ｓ１３）を行う点である。

　教示データは、ロボット（ロボット装置１）又は作業環境の画像を含む。

　プロセッサ（ＣＰＵ２３）は、分節された複数の教示データに対して、教示データに含まれる画像のフレーム補間を行い、その後、ロボットの同種の動作の速度を揃える補正を行う（フレーム補間部１０１）。これにより、教示データがロボット（ロボット装置１）又は作業環境の画像を含んでいても、教示データの時間方向のばらつきを容易に低減することができる。

　（第３の実施形態）
　次に、本発明の第３の実施形態として、汎化性能向上に有効な教示データのみを抽出する場合について、図１２、図１３、図１４と参照して説明する。

　図１２は、本発明の第３の実施形態における、ロボット制御システム１００の構成例を示すブロック図である。なお、図１２において、図１と同一符号は同一部品を示すので、再度の説明は省略する。第１の実施形態からの変更点は、第３の実施形態では、ロボット制御システム１００において、画面操作部５を備えている点である。画面操作部５は、動作計画部の処理結果を表示することができる。また、ユーザーから受け取った操作入力に基づいて、動作計画部３における各種パラメータを決定する。

　図１３は、本発明の第３の実施形態における、動作計画部３の構成例を示すブロック図である。なお、図１３において、図３と同一符号は同一部品を示すので、再度の説明は省略する。第１の実施形態からの変更点は、第３の実施形態では、動作計画部３において、スクリーニング装置１３１を備えている点である。スクリーニング装置１３１は、センサデータ蓄積装置３１に保存されたセンサデータの中から、汎化性能向上に有効なもののみを抽出する。その後、抽出された教示データを整合性検証装置３２と画面操作部５へ出力する。

　［ハードウェア構成例］
　次に、本発明第３の実施形態における、ロボット制御システム１００が備える動作計画部３のハードウェア構成について図１４を参照して説明する。なお、図１４において、図３と同一符号は同一部品を示すので、再度の説明は省略する。第１の実施形態からの変更点は、第３の実施形態では、映像出力インターフェース１４１を備える点である。

　映像出力インターフェース１４１は、例えば、ＶＧＡ(Video Graphics Array)やＤＶＩ（Digital Visual interface）、ＨＤＭＩ(High-Definition Multimedia Interface、登録商標)、Display Portが用いられる。映像出力インターフェース１４１は、専用線等を介して、ディスプレイへ映像を送信することが可能となるように構成されている。

　［機能構成例］
　次に、本発明第３の実施形態における、ロボット制御システム１００が備える動作計画部３のスクリーニング装置１３１の機能構成例について、図１５を参照して説明する。

　図１５は、本発明の実施となるスクリーニング装置１３１の機能構成例を現したものである。なお、図１５において、図１３と同一符号は同一部品を示すので、再度の説明は省略する。

　図１５に示すスクリーニング装置１３１において、グルーピング部１５１は、センサデータ蓄積装置３１に保存されたセンサデータを、動作が類似したデータが同じグループになるようにする。グルーピング部の実現方法として、例えば、同じ目標手先位置のセンサデータ毎にグループに分けることが考えられる。

　代表データ算出部１５２は、グルーピング部１５１で得られたグループ毎に、そのグループを代表する時系列データ（これを代表データと呼ぶ）を算出する。代表データ算出部１５２の実現方法としては、例えば、グループ内の全ての時系列データについて、各時刻ごとに中央値を算出することで得られた時系列データを、代表データとすることが考えられる。

　外れデータ検出部１５３は、グルーピング部１５１で得られたグループ毎に、代表データ算出部１５２で算出した代表データと類似していない時系列データ（これを外れデータと呼ぶ）を検出する。外れデータ検出部の実現方法として、例えばＤＴＷ（Dynamic Time Warping、動的時間伸縮法）と、ＩＱＲ（Interquartile range, 四分位範囲）を用いることが考えられる。ＤＴＷとは、時系列データ同士の類似度の指標である。ＤＴＷのとり得る値は０以上であり、０に近いほど時系列データ同士が類似していることを意味する。まず、グループ内のすべての時系列データについて、代表データとのＤＴＷを算出することで、ＤＴＷの系列を得る。次に、算出されたＤＴＷの系列のＩＱＲを求める。ＩＱＲとは、データの散らばり度合いを現す指標であり、（第三四分位数）―（第一四分位数）で求まる。最後に、時系列データのうち、代表データに対するＤＴＷが、（第三四分位数＋α×ＩＱＲ）より大きなものを外れデータとする。αの値は初期設定では1.5に設定されている。また、ユーザーが画面操作部５を利用することで値を変更することも可能である。

　計算結果出力部１５４は、整合性検証装置３２へ、外れデータ以外のセンサデータを出力する。また、画面操作部５へ、外れデータの情報を出力する。

　次に、本発明第３の実施形態における、ロボット制御システム１００が備える画面操作部５の機能構成例について、図１６を参照して説明する。

　図１６は、本発明の実施となる画面操作部５の機能構成例を現したものである。なお、図１６において、図１と同一符号は同一部品を示すので、再度の説明は省略する。

　図１６に示す画面操作部５において、操作入力部１６１は、例えば、マウス、キーボード等の入力装置で構成され、ユーザーからのマウス入力やキーボード入力等を受け付ける。

　画面表示部１６２は、例えば、ディスプレイ等で構成され、操作入力部１６１や、動作計画部３から得られる情報を可視化する。

　画面制御部１６３は、動作計画部３や操作入力部１６１からの情報を受信する。また、動作計画部３や画面表示部１６２に情報を出力する。

　プロセッサ（ＣＰＵ２３）は、教示データから外れデータを除去することでスクリーニングを行う（スクリーニング装置１３１）。これにより、汎化動作性能をさらに向上することができる。

　（第４の実施形態）
　次に、本発明の第４の実施形態として、動作生成時に、任意の動作速度、又は／及び、任意の力の大きさを実現する場合について、図１７を参照して説明する。

　図１７は、本発明の第４の実施形態における、動作計画部の構成例を示すブロック図である。なお、図１７において、図３と同一符号は同一部品を示すので、再度の説明は省略する。第１の実施形態からの変更点は、第４の実施形態では、動作計画部３において、動作パラメータ調整装置１７１を備えている点である。動作パラメータ調整装置１７１は、センサデータ蓄積装置３１に保存されたセンサデータから、動作生成時に、任意の動作速度、又は／及び、任意の力の大きさを実現する。

　［動作パラメータ調整装置のハードウェア構成］
　本発明の第４の実施形態における、ロボット制御システム１００が備える動作計画部３のハードウェア構成は、本発明第３の実施形態の場合と同じであるため、再度の説明は省略する。

　［動作パラメータ調整装置の機能構成例］
　次に、本発明第４の実施形態における、ロボット制御システム１００が備える動作計画部３の動作パラメータ調整装置１７１の機能構成例について、図１８を参照して説明する。

　図１８は、本発明の実施となる動作パラメータ調整装置１７１の機能構成例を現したものである。なお、図１８において、図１２、図１３と同一符号は同一部品を示すので、再度の説明は省略する。

　図１８に示す動作パラメータ調整装置１７１において、動作パラメータ記憶部１８１は、動作パラメータ調整に必要なパラメータの値を保存する。パラメータの種類は、例えば動作生成モデルの制御周期や、電流値の範囲、トルクセンサ値の範囲等がある。パラメータの値は、ユーザーが、画面操作部５を介して変更できる。

　動作パラメータ調整演算部１８２は、動作パラメータ記憶部１８１に保存しているパラメータの値に基づいて、動作生成時に、動作速度、又は／及び、力の大きさを調整する。動作パラメータ調整演算部で動作速度を変更する具体的な方法として、例えば、動作生成時の制御周期を変えることが考えられる。例えば、動作速度を大きくしたい場合は、教示データのサンプリング周期よりも、動作生成時の制御周期を小さくすればよい。動作パラメータ調整演算部で力の大きさを変更する具体的な方法として、例えば、電流値やトルクセンサ値を変えることが考えられる。例えば、力の大きさを小さくしたい場合は、電流値やトルクセンサ値の上限を、教示データよりも小さくすればよい。

　処理装置（計算機２０）は、機械学習後のロボット（ロボット装置１）の動作を調整するパラメータを示す動作パラメータを記憶する記憶装置（動作パラメータ記憶部１８１）を備える。記憶装置は、例えば、ＲＡＭ２４、不揮発性ストレージ２５等で構成される。

　プロセッサ（ＣＰＵ２３）は、学習済みの機械学習モデルを用いて、動作パラメータに基づきロボット（ロボット装置１）の動作の指令値を生成する（機械学習装置３４）。これにより、教示・学習を再度行うことなく、ロボットの動作を調整することができる。

　動作パラメータは、例えば、教示データのサンプリング周期である。プロセッサ（ＣＰＵ２３）は、指令値において、ロボット（ロボット装置１）の制御周期をサンプリング周期より小さくすることでロボットの動作の速度を大きくし、又は指令値において、ロボットの制御周期をサンプリング周期より大きくすることでロボットの動作の速度を小さくする（動作パラメータ調整装置１７１）。これにより、教示・学習を再度行うことなく、ロボットの動作の速度を調整することができる。

　また、動作パラメータは、例えば、教示データにおけるロボットのトルク又はそれと相関のある値の最大値Ｍである。プロセッサ（ＣＰＵ２３）は、指令値において、ロボット（ロボット装置１）のトルク又はそれと相関のある値（例えば、アクチュエータの駆動電流の値）の上限を最大値Ｍより大きくすることでロボットの力を大きし、又は指令値において、ロボットのトルク又はそれと相関のある値の上限を最大値Ｍより小さくすることで前記ロボットの力を小さくする。これにより、教示・学習を再度行うことなく、ロボットの力を調整することができる。

　なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

　また、上記の各構成、機能、処理部等は、それらの一部又は全部を、例えば集積回路で設計するなどによりハードウェアで実現してもよい。ハードウェアとして、ＦＰＧＡ（Field Programmable Gate Array）やＡＳＩＣ（Application Specific Integrated Circuit）などの広義のプロセッサデバイスを用いてもよい。

　また、上述した各実施形態に係る動作計画部３の各構成要素は、制御部４に実装されてもよい。また、動作計画部３のある処理部により実施される処理が、１つのハードウェアにより実現されてもよいし、複数のハードウェアによる分散処理により実現されてもよい。

　上述した各実施形態では、センサデータ取得部２、動作計画部３、制御部４は、一例として１台の計算機２０によって実現されるが、別々の計算機によって実現されていてもよい。計算負荷の大きい動作計画部３を高性能な計算機で実現することで、全体のスループットを向上することができる。なお、計算機どうしは、例えば、ＬＡＮ、インターネット等の通信ネットワークを介して相互に接続される。

　なお、本発明の実施形態は、以下の態様であってもよい。

　（１）．ロボットの動作を生成するための機械学習を行う機械学習システムであって、ロボットへの教示データ（時系列のセンサ情報等）を取得する取得部と、教示データを、ロボットの動作に基づき分節する動作分節化部と、タスクが共通する異なる教示データ間で、分節された動作のうち、同種の動作の速度が異なる場合に、該同種の動作の速度を揃えるように教示データを補正する速度調整部と、タスクが共通する異なる教示データ間で、分節された動作のうち、同種の動作のタイミングが異なる場合に、該同種の動作のタイミングを揃えるように教示データを補正するタイミング調整部と、教示データにおけるロボットのダイナミクスを補正するダイナミクス調整部と、を備え、前記速度と前記タイミングと前記ダイナミクスのうち少なくとも１つが補正された教示データを、前記機械学習システムにおける学習用データとする、機械学習システム。

　（２）．（１）において、機械学習システムは、ロボットへの教示データとして、ロボットの位置や、関節角度情報等を取得する取得部を備えた、機械学習システム。

　（３）．（２）において、機械学習システムは、ロボットの位置や、関節角度情報に加えて、ロボットや作業環境の画像を取得する取得部を備えた、機械学習システム。

　（４）．（２）において、機械学習システムは、ロボットの位置や、関節角度情報に加えて、対象物の位置、姿勢情報を取得する取得部を備えた、機械学習システム。

　（５）．（１）において、機械学習システムは、ロボットへの教示データとして、ロボットの速度、関節角速度情報等を取得する取得部を備えた、機械学習システム。

　（６）．（１）において、機械学習システムは、ロボットへの教示データとして、ロボットの触覚情報を取得する取得部を備えた、機械学習システム。

　（７）．（１）において、機械学習システムは、ロボットのダイナミクスのうち、加速度または／および加速度変化を調整するダイナミクス調整部を備えた、機械学習システム。

　（８）．（１）において、機械学習システムは、ロボットのダイナミクスのうち、躍度または／および躍度変化を調整するダイナミクス調整部を備えた、機械学習システム。

　（９）．（１）において、機械学習システムは、ロボットのダイナミクスのうち、トルクまたは／およびトルク変化を調整するダイナミクス調整部を備えた、機械学習システム。

　（１０）．（１）において、前記速度調整部は、ロボットへの教示データにカメラ画像が含まれる場合、前記教示データ間で、フレーム補間を行った後に、該同種の動作の速度を揃えるように教示データを補正することを特徴とする、機械学習システム。

　（１１）．（１）において、機械学習システムは、取得した教示データの中から、動作汎化性能向上に有効な教示データを抽出するスクリーニング装置を備えた、機械学習システム。

　（１２）．（１）において、機械学習システムは、学習済みの機械学習モデルを用いて動作生成を行う際、任意の動作速度を実現するために、ロボットの制御周期を調整する動作パラメータ調整装置を備えた、機械学習システム。

　（１３）．（１）において、機械学習システムは、学習済みの機械学習モデルを用いて動作生成を行う際、任意の力の大きさを実現するために、ロボットのトルクを調整する動作パラメータ調整装置を備えた、機械学習システム。

　（１）～（１３）によれば、動作学習を阻害する教示データ間の時間方向のばらつきを低減することで、導入工数削減と汎化性能獲得の両立が期待できる。

１…ロボット装置、２…センサデータ取得部、３…動作計画部、４…制御部、５…画面操作部、２２…ＲＯＭ、２３…ＣＰＵ、２４…ＲＡＭ、２５…不揮発性ストレージ、２６…入出力インターフェース、２７…ネットワークインターフェース、３１…センサデータ蓄積装置、３２…整合性検証装置、３３…学習データ蓄積装置、３４…機械学習装置、４１…動作分節化部、４２…速度調整部、４３…タイミング調整部、４４…ダイナミクス調整部、４５…データ処理部、６１…機械学習モデル定義部、６２…学習部、６３…学習済み重み蓄積部、６４…推論部、１０１…フレーム補間部、１３１…スクリーニング装置、１６１…操作入力部、１５１…グルーピング部、１５２…代表データ算出部、１５３…外れデータ検出部、１５４…計算結果出力部、１６１…操作入力部、１６２…画面表示部、１６３…画面制御部、１７１…動作パラメータ調整装置、１８１…動作パラメータ記憶部、１８２…動作パラメータ調整演算部

Claims

　ロボットへの教示データを前記ロボットの同種の動作ごとに分節し、
　分節された複数の前記教示データに対して、前記ロボットの同種の動作の速度又はタイミングを揃える補正を行い、
　補正が行われた複数の前記教示データを合成し、
　合成された前記教示データを用いて機械学習を行うプロセッサを備える処理装置。
　請求項１に記載の処理装置であって、
　前記プロセッサは、
　分節された複数の前記教示データに対して、前記ロボットの同種の動作のダイナミクスの値を平滑化する補正を行う
　ことを特徴とする処理装置。
　請求項２に記載の処理装置であって、
　前記教示データは、
　前記ロボットの位置を示す位置情報、関節角度を示す関節角度情報、
　前記ロボットの速度を示す速度情報、前記ロボットの関節角速度を示す関節角速度情報、及び
　前記ロボットに設けられる触覚センサのセンサ値を示す触覚情報のうち少なくとも１つを含む
　ことを特徴とする処理装置。
　請求項３に記載の処理装置であって、
　前記教示データは、
　前記ロボット又は作業環境の画像を含む
　ことを特徴とする処理装置。
　請求項３に記載の処理装置であって、
　前記教示データは、
　前記ロボットが作業を行う対象物の位置を示す位置情報、及び前記対象物の姿勢を示す姿勢情報のうち少なくとも１つを含む
　ことを特徴とする処理装置。
　請求項２に記載の処理装置であって、
　前記ダイナミクスは、
　加速度、加速度変化、
　躍度、躍度変化、
　トルク、及びトルク変化のうち少なくとも１つを含む
　ことを特徴とする処理装置。
　請求項４に記載の処理装置であって、
　前記プロセッサは、
　分節された複数の前記教示データに対して、前記教示データに含まれる画像のフレーム補間を行い、その後、前記ロボットの同種の動作の速度を揃える補正を行う
　ことを特徴とする処理装置。
　請求項１に記載の処理装置であって、
　前記プロセッサは、
　前記教示データから外れデータを除去することでスクリーニングを行う
　ことを特徴とする処理装置。
　請求項１に記載の処理装置であって、
　機械学習後の前記ロボットの動作を調整するパラメータを示す動作パラメータを記憶する記憶装置を備え、
　前記プロセッサは、
　学習済みの機械学習モデルを用いて、前記動作パラメータに基づき前記ロボットの動作の指令値を生成する
　ことを特徴とする処理装置。
　請求項９に記載の処理装置であって、
　前記動作パラメータは、前記教示データのサンプリング周期であり、
　前記プロセッサは、
　前記指令値において、前記ロボットの制御周期を前記サンプリング周期より小さくすることで前記ロボットの動作の速度を大きくし、又は
　前記指令値において、前記ロボットの制御周期を前記サンプリング周期より大きくすることで前記ロボットの動作の速度を小さくする
　ことを特徴とする処理装置。
　請求項９に記載の処理装置であって、
　前記動作パラメータは、前記教示データにおける前記ロボットのトルク又はそれと相関のある値の最大値であり、
　前記プロセッサは、
　前記指令値において、前記ロボットのトルク又はそれと相関のある値の上限を前記最大値より大きくすることで前記ロボットの力を大きくし、又は
　前記指令値において、前記ロボットのトルク又はそれと相関のある値の上限を前記最大値より小さくすることで前記ロボットの力を小さくする
　ことを特徴とする処理装置。
　請求項１に記載の処理装置であって、
　前記プロセッサは、
　分節された複数の前記教示データを量子化し、ノイズを削除することで前記ロボットの同種の動作の速度を揃える
　ことを特徴とする処理装置。
　請求項１に記載の処理装置であって、
　前記プロセッサは、
　分節された複数の前記教示データに対して、前記ロボットの静止時間を増やす又は減らすことで、前記ロボットの同種の動作のタイミングを揃える補正を行う
　ことを特徴とする処理装置。
　請求項１に記載の処理装置とロボットを含むロボット制御システムであって、
　前記プロセッサは、学習済みの機械学習モデルを用いて、前記ロボットの動作の指令値を生成し、
　前記ロボットは、前記指令値に応じて動作する
　ことを特徴とするロボット制御システム。
　ロボットへの教示データを前記ロボットの同種の動作ごとに分節する工程と、
　分節された複数の前記教示データに対して、前記ロボットの同種の動作の速度又はタイミングを揃える補正を行う工程と、
　補正が行われた複数の前記教示データを合成する工程と、
　合成された前記教示データを用いて機械学習を行う工程と、
　を含む機械学習方法。