JP2022061022A

JP2022061022A - 力及びトルク誘導ロボット組立のための技術

Info

Publication number: JP2022061022A
Application number: JP2021163274A
Authority: JP
Inventors: ジエリャンルオ; Jieliang Luo; リーフイ; Hui Li
Original assignee: Autodesk Inc
Current assignee: Autodesk Inc
Priority date: 2020-10-05
Filing date: 2021-10-04
Publication date: 2022-04-15
Anticipated expiration: 2041-10-04
Also published as: JP7291185B2; CN114378811A; US20220105626A1; EP3978204A1

Abstract

【課題】力及びトルク誘導ロボット組立のための技術の提供。【解決手段】実施形態では、力及びトルクの測定値を、再帰性を導入するメモリ層を含む機械学習モデルに入力する。機械学習モデルは、ロボット非依存環境での強化学習を介して、力及びトルクの測定値を与えられた組立作業を達成するための動作を生成するために訓練される。訓練中、経験はエピソード内の遷移として収集され、遷移はシーケンスにグループ化され、各エピソードの最後の２つのシーケンスは可変のオーバーラップを有する。収集された遷移は、優先順位付けされたシーケンス再生バッファに格納され、学習者はそこから遷移の優先順位及びシーケンスの優先順位に基づいて学習するシーケンスをサンプリングする。訓練されると、機械学習モデルを展開して、さまざまなタイプのロボットを制御し、それらのロボットのセンサによって取得された力及びトルクの測定値に基づいて組立作業を実行できる。【選択図】図６

Description

関連出願の相互参照
本出願は、２０２０年１０月５日出願の「ＲＥＣＵＲＲＥＮＴＤＩＳＴＲＩＢＵＴＥＤＲＥＩＮＦＯＲＣＥＭＥＮＴＬＥＡＲＮＩＮＧＦＯＲＰＡＲＴＩＡＬＬＹＯＢＳＥＲＶＡＢＬＥＲＯＢＯＴＩＣＡＳＳＥＭＢＬＹ」と題する米国仮特許出願第６３／０８７，８４１号の優先権を主張する。本関連出願の主題は、参照により本明細書に組み込まれる。

本開示の実施形態は、一般にロボット工学に関連し、より詳細には、力及びトルク誘導ロボット組立のための技術に関連する。

ロボットシステムは、製品を組み立て、正確に制御できる製造環境でタスクを実行するために広く使用されており、これらの環境で動作するロボットは、予測可能で反復的な方法でタスクを実行できる。ただし、建築現場などの多くの環境は、正確に制御されないか、または正確に制御できないため、これらの環境で動作するロボットは、多様で、場合によっては予測できない状況でタスクを実行する必要がある。これらの後者のタイプの環境は、本明細書では「非構造化」環境と呼ばれる。

従来のロボット制御技術は、ロボットの初期姿勢の不整合または物理的ノイズなど、非構造化環境の多様性と不確実性に適応できないが、強化学習ベースの技術は、非構造化環境でロボットを制御するのにより成功することが証明されている。ただし、非構造化環境で複雑なタスクを実行するようにロボットを制御するために、従来の学習ベースの技術では、モーションキャプチャまたは他の追跡システムを介して直接キャプチャできるか、または視覚ベースのシステムを介して間接的に推測できる、環境内のロボット及び／またはその他のオブジェクトの姿勢を入力として必要とする。

モーションキャプチャまたは他の追跡システムを使用することの１つの欠点は、そのようなシステムは、建築建設現場を含む多くの環境で較正及び展開が難しいことである。視覚ベースのシステムを使用することの１つの欠点は、非構造化環境での組立の接触が多い段階で、組立部品が互いに密接に接触することが多いため、視覚ベースのシステムが閉塞及び不十分な照明条件によって悪影響を受ける可能性があることである。その結果、モーションキャプチャまたは他の追跡システムを介してキャプチャされるか、または視覚ベースのシステムを介して間接的に推測される、環境内のロボット及び／または他のオブジェクトの姿勢を必要とするロボットを制御するための従来の学習ベースの技術は、実世界での有用性が限られている。ロボットを制御するための従来の学習ベースの技術の別の欠点は、そのような技術がロボット固有であり、他のロボットプラットフォームに容易に一般化できないことである。

前述のように、当技術分野で必要とされるのは、非構造化環境においてロボットを制御するためのより効果的な技術である。

本開示の一実施形態は、ロボットを制御するためのコンピュータ実装方法を示す。方法は、センサデータが、力またはトルクデータの少なくとも一方を備える、ロボットに関連付けられたセンサデータを受信することを含む。方法は、機械学習モデルが、強化学習によって訓練される、機械学習モデルをセンサデータに適用して動作を生成することをさらに含む。さらに、方法は、動作に基づいてロボットに１つまたは複数の運動を実行させることを含む。

本開示の他の実施形態は、限定されないが、開示された技術の１つまたは複数の態様を実行するための命令を含むコンピュータ可読媒体、ならびに開示された技術の１つまたは複数の態様を実行するためのコンピューティングデバイスを含む。

従来技術に対する開示された技術の１つの技術的利点は、開示された技術を用いて、モーションキャプチャまたは他の追跡システムを介してキャプチャされる必要がある、または視覚ベースのシステムを介して間接的に推測される必要がある環境内のロボットの姿勢及び／または他のオブジェクトを入力として必要とせずに、非構造化環境で組立作業を実行するようにロボットを制御するために機械学習モデルを訓練できることである。さらに、開示された技術では、訓練中に学習されたポリシーはロボットに非依存であり、これらのポリシーを使用してさまざまなタイプのロボットを制御できる。これらの技術的利点は、先行技術の手法に勝る１つまたは複数の技術的進歩を表す。

本開示の上記に記載した特徴をより詳細に理解できるように、上記に簡潔に簡略化された本開示のより具体的な説明は、実施形態を参照して行われ得、その実施形態の一部を添付の図面に示す。しかしながら、添付図面は、本開示の典型的な実施形態のみを示し、したがって、その範囲を制限するものではなく、本開示は他の同等に効果的な実施形態を認め得ることに留意されたい。
例えば、本願は以下の項目を提供する。
（項目１）
ロボットを制御するためのコンピュータ実装方法であって、
上記ロボットに関連付けられたセンサデータを受信することであって、上記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを上記センサデータに適用して動作を生成することであって、上記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
上記ロボットに上記動作に基づいて１つまたは複数の運動を実行させることと、
を含む、上記方法。
（項目２）
上記機械学習モデルは、少なくとも１つのメモリ層を含む、上記項目に記載のコンピュータ実装方法。
（項目３）
上記機械学習モデルが、完全接続層、Ｑネットワーク、またはｐｉネットワークのうちの少なくとも１つをさらに含む、上記項目のいずれか一項に記載のコンピュータ実装方法。
（項目４）
上記強化学習中に、上記機械学習モデルが上記ロボットのモデルを含まない環境で訓練される、上記項目のいずれか一項に記載のコンピュータ実装方法。
（項目５）
上記強化学習中に、学習者が上記機械学習モデルのパラメータを更新し、上記学習者が、それぞれが観察、動作、ならびに報酬及びそれぞれが複数の遷移を含むシーケンスをサンプリングするために使用される１つまたは複数の優先順位を含む格納された遷移をサンプリングするために使用される１つまたは複数の優先順位をさらに更新する、上記項目のいずれか一項に記載のコンピュータ実装方法。
（項目６）
上記強化学習中に、上記学習者が少なくとも１つの他の機械学習モデルのパラメータをさらに更新し、上記少なくとも１つの他の機械学習モデルが少なくとも１つのシミュレーション環境に適用される、上記項目のいずれか一項に記載のコンピュータ実装方法。
（項目７）
上記強化学習中、遷移のエピソード内の遷移を含む最後の２つの時間シーケンスがオーバーラップし、オーバーラップの量は上記エピソードの長さに基づき、
上記遷移のエピソードに含まれる各遷移は、観察、動作、及び報酬を含む、上記項目のいずれか一項に記載のコンピュータ実装方法。
（項目８）
上記動作は、目標速度を含み、上記ロボットに上記動作に基づいて上記１つまたは複数の運動を実行させることは、
上記目標速度に基づいて逆動力学を使用して、上記ロボットの１つまたは複数の関節の１つまたは複数の運動を計算することと、
上記１つまたは複数の関節の上記１つまたは複数の運動に基づいて、少なくとも１つのコマンド信号を上記ロボットに送信することと、を含む、上記項目のいずれか一項に記載のコンピュータ実装方法。
（項目９）
上記センサデータは、上記ロボットのエンドエフェクタに取り付けられたセンサによって取得される、上記項目のいずれか一項に記載のコンピュータ実装方法。
（項目１０）
関節部材の姿勢と目標姿勢との間の距離が閾値距離未満であるかどうかを判定することをさらに含む、上記項目のいずれか一項に記載のコンピュータ実装方法。
（項目１１）
少なくとも１つのプロセッサによって実行されると、上記少なくとも１つのプロセッサにロボットを制御するためのステップを実行させる命令を含む、１つまたは複数の非一時的なコンピュータ可読媒体であって、上記ステップが、
上記ロボットに関連付けられたセンサデータを受信することであって、上記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを上記センサデータに適用して動作を生成することであって、上記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
上記ロボットに上記動作に基づいて１つまたは複数の運動を実行させることと、を含む、１つまたは複数の非一時的なコンピュータ可読媒体。
（項目１２）
上記少なくとも１つのプロセッサによって実行されると、上記命令は、上記少なくとも１つのプロセッサに、
関節部材の姿勢と目標姿勢との間の距離が閾値距離未満であるかどうかを判定するステップをさらに実行させる、上記項目に記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。
（項目１３）
上記動作が目標速度を含み、上記ロボットに上記動作に基づいて上記１つまたは複数の運動を実行させることは、
上記目標速度に基づいて逆動力学を使用して、上記ロボットの１つまたは複数の関節の１つまたは複数の運動を計算することと、
上記１つまたは複数の関節の上記１つまたは複数の運動に基づいて、少なくとも１つのコマンド信号を上記ロボットに送信することと、を含む、上記項目のいずれか一項に記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。
（項目１４）
上記センサデータが、上記ロボットのエンドエフェクタに取り付けられたセンサによって取得される、上記項目のいずれか一項に記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。
（項目１５）
上記機械学習モデルが長短期記憶を含む、上記項目のいずれか一項に記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。
（項目１６）
上記機械学習モデルが、完全接続層、Ｑネットワーク、またはｐｉネットワークのうちの少なくとも１つをさらに含む、上記項目のいずれか一項に記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。
（項目１７）
上記強化学習中に、上記機械学習モデルが、上記ロボットのモデルを含まない分散型環境内の少なくとも１つの他の機械学習モデルと共に訓練される、上記項目のいずれか一項に記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。
（項目１８）
上記強化学習中に、学習者が、上記機械学習モデルのパラメータを更新し、上記学習者は、それぞれが観察、動作、ならびに報酬及びそれぞれが複数の遷移を含むシーケンスをサンプリングするために使用される１つまたは複数の優先順位を含む格納された遷移をサンプリングするために使用される１つまたは複数の優先順位をさらに更新する、上記項目のいずれか一項に記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。
（項目１９）
上記強化学習中、遷移のエピソード内の遷移を含む最後の２つの時間シーケンスがオーバーラップし、上記オーバーラップの量は上記エピソードの長さに基づき、
上記遷移のエピソードに含まれる各遷移は、観察、動作、及び報酬を含む、上記項目のいずれか一項に記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。
（項目２０）
命令を格納する１つまたは複数のメモリと、
上記１つまたは複数のメモリに結合される１つまたは複数のプロセッサであって、上記命令を実行するときに、
上記ロボットに関連付けられたセンサデータを受信することであって、上記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを上記センサデータに適用して動作を生成することであって、上記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
上記ロボットに上記動作に基づいて１つまたは複数の運動を実行させることと、を行うように構成される、上記１つまたは複数のプロセッサと、を備える、システム。
（摘要）
ロボット組立を制御するための機械学習モデルを訓練及び適用するための技術が開示される。いくつかの実施形態では、力及びトルクの測定値を、再帰性を導入するメモリ層を含む機械学習モデルに入力する。機械学習モデルは、ロボット非依存環境での強化学習を介して、力及びトルクの測定値を与えられた組立作業を達成するための動作を生成するために訓練される。訓練中、経験はエピソード内の遷移として収集され、遷移はシーケンスにグループ化され、各エピソードの最後の２つのシーケンスは可変のオーバーラップを有する。収集された遷移は、優先順位付けされたシーケンス再生バッファに格納され、学習者はそこから遷移の優先順位及びシーケンスの優先順位に基づいて学習するシーケンスをサンプリングする。訓練されると、機械学習モデルを展開して、さまざまなタイプのロボットを制御し、それらのロボットのセンサによって取得された力及びトルクの測定値に基づいて組立作業を実行できる。

様々な実施形態の１つまたは複数の態様を実装するように構成されたシステムの概念図である。様々な実施形態による、ロボット組立を制御するための強化学習手法を示す。様々な実施形態による、図２のポリシーネットワークのより詳細な層を示す。様々な実施形態による、エピソード内の遷移のシーケンスへの例示的な割り当てを示す。様々な実施形態による、訓練された機械学習モデルを展開して、複数の例示的なロボットを制御する方法を示す。様々な実施形態による、ロボット組立を制御するために機械学習モデルを訓練するための方法のステップの流れ図である。様々な実施形態による、組立作業を実行するときにロボットを制御するための方法のステップの流れ図である。

以下の説明では、本開示のより完全な理解を提供するために、多くの具体的な詳細が述べられている。しかしながら、本開示は、これらの具体的な詳細の１つまたは複数なしに実施され得ることが、当業者には明らかであろう。
システム概要

図１は、様々な実施形態の１つまたは複数の態様を実装するように構成されたシステム１００を示す。示されるように、システム１００は、ネットワーク１３０を介して通信する機械学習サーバ１１０、データストア１２０、及びコンピューティングデバイス１４０を含み、ネットワーク１３０は、インターネット、ローカルエリアネットワーク（ＬＡＮ）、またはその他の適切なネットワークなどの広域ネットワーク（ＷＡＮ）であってよい。

示されるように、モデルトレーナ１１６は、機械学習サーバ１１０のプロセッサ１１２上で実行され、機械学習サーバ１１０のシステムメモリ１１４に格納される。プロセッサ１１２は、キーボードまたはマウスなどの入力デバイスからユーザ入力を受信する。動作に際しては、プロセッサ１１２は機械学習サーバ１１０のマスタープロセッサであり、他のシステム構成要素の動作を制御及び調整する。具体的には、プロセッサ１１２は、例えば、ビデオ出力回路を含む、グラフィックス及びビデオ処理のために最適化された回路を組み込むグラフィックス処理ユニット（ＧＰＵ）の動作を制御するコマンドを発行し得る。ＧＰＵは、任意の従来の陰極線管、液晶ディスプレイ、発光ダイオードディスプレイなどであり得るディスプレイデバイスにピクセルを送達し得る。

機械学習サーバ１１０のシステムメモリ１１４は、プロセッサ１１２及びＧＰＵによって使用するために、ソフトウェアアプリケーション及びデータなどのコンテンツを格納する。システムメモリ１１４は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュＲＯＭ）、または前述の任意の適切な組み合わせなどの、データ及びソフトウェアアプリケーションを格納することができる任意のタイプのメモリであり得る。いくつかの実施形態では、ストレージ（図示せず）は、システムメモリ１１４を補足または置き換え得る。ストレージは、プロセッサ１１２及び／またはＧＰＵにアクセス可能な任意の数及びタイプの外部メモリを含み得る。例えば、これらに限定されないが、ストレージは、セキュアデジタルカード、外部フラッシュメモリ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光ストレージデバイス、磁気ストレージデバイス、または上記の任意の適切な組み合わせを含み得る。

本明細書に示される機械学習サーバ１１０は例示的なものであり、変形及び修正が可能であることが理解されよう。例えば、プロセッサ１１２の数、ＧＰＵの数、システムメモリ１１４の数、及びシステムメモリ１１４に含まれるアプリケーションの数は、必要に応じて変更してもよい。さらに、図１のさまざまなユニット間の接続トポロジは、必要に応じて変更してもよい。いくつかの実施形態では、プロセッサ１１２、システムメモリ１１４、及びＧＰＵの任意の組み合わせを、任意のタイプの仮想コンピューティングシステム、分散コンピューティングシステム、またはパブリック、プライベート、またはハイブリッドなどのクラウドコンピューティング環境と置き換えてもよい。

モデルトレーナ１１６は、強化学習を介して機械学習モデルを訓練するように構成される。具体的には、モデルトレーナ１１６は、組立作業が模擬環境で実行される場合、図２～３及び６に関連して以下でより詳細に説明するように、報酬関数を最大化するために組立作業を実行するロボットを制御するためのポリシーのモデルを訓練する。機械学習モデルは、技術的に実行可能な任意の組立作業用に訓練できる。組立作業の実施例には、重ね継手の接続及びペグの穴への配置などが含まれる。訓練されると、機械学習モデルをエージェント１５０として展開して、ロボットを制御し、ロボットに取り付けられたセンサによって取得された力及びトルクの測定値に基づいて組立作業を実行することができる。例示的な機械学習モデルのアーキテクチャ、ならびに訓練の技術及び展開された機械学習モデルについては、図２～７に関連して以下で詳細に説明する。

訓練データ及び／または訓練された機械学習モデルは、データストア１２０に格納することができる。いくつかの実施形態では、データストア１２０は、固定ディスクドライブ（複数可）、フラッシュドライブ（複数可）、光ストレージ、ネットワーク接続ストレージ（ＮＡＳ）、及び／またはストレージエリアネットワーク（ＳＡＮ）などの任意の１つまたは複数のストレージデバイスを含み得る。ネットワーク１３０を介してアクセス可能であると示されているが、いくつかの実施形態では、機械学習サーバ１１０は、データストア１２０を含み得る。

エージェント１５０は、図１に示されるロボット制御アプリケーション１４６など、組立作業を実行するためにシミュレーションで物理ロボットまたはロボットを制御する任意の適切なアプリケーションに展開することができる。例示的に、ロボット制御アプリケーション１４６はメモリ１４４に格納され、コンピューティングデバイス１４０のプロセッサ１４２上で実行されて、ロボット１６０を制御する。ロボット１６０は、ロボット１６０のエンドエフェクタの力及びトルクを測定するため、センサ１６２として示される１つまたは複数のセンサを含む、任意の適切な環境（例えば、建設または製造環境）で動作する、任意の技術的に実現可能なロボットであり得る。図５及び７に関連して以下でより詳細に論じられるように、エージェント１５０は、ロボット１６０のセンサ１６２によって取得された力及びトルクの測定値を考慮してロボット１６０を制御するための動作を生成する。メモリ１４４及びプロセッサ１４２を含むコンピューティングデバイス１４０の構成要素は、上記の機械学習サーバ１１０の対応する構成要素と同様であり得る。

機械学習サーバとコンピューティングデバイスの数は、必要に応じて変更してもよい。さらに、任意のアプリケーションに含まれる機能は、任意の数の物理的な場所に配置された任意の数のデバイスを介して格納され、実行する任意の数のアプリケーションまたは他のソフトウェアにまたがって分割され得る。
ロボット非依存力誘導組立作業のための強化学習

図２は、様々な実施形態による、ロボット組立を制御するための強化学習手法を示す。示されるように、アクター２５０（本明細書では個別にアクター２５０と呼ばれ、集合的にアクター２５０（複数）と呼ばれる）は、入力として力及びトルクの測定値を含む観察２０４をするように構成される。観察２０４が与えられると、アクター２５０は、例えば、組立作業の制御下にある組立部品の中心における線形速度及び角速度などのタスク空間（例えば、デカルト空間）における線形速度及び角速度の形態で動作２０６を生成する。次に、動作２０６は、分散型ロボット非依存環境２０２でシミュレーションされ、それらの動作２０６に関連付けられた報酬が計算される。観察２０４、動作２０６、及び関連付けられた報酬は、エピソードの遷移２２２（「タイムステップ」とも呼ばれる）として収集され、訓練中に複数のエピソードをシミュレーションすることができる。各エピソードは、組立作業の開始で始まり、（１）目標姿勢と、ロボットが保持する外部部品である関節部材の姿勢との間の距離が、事前定義された閾値内にあるときなど、組立作業が完了するとき、または（２）事前定義された遷移の数（例えば、４０００遷移）に達したときに終了し、この場合、新しいエピソードを開始できる。いくつかの実施形態では、エピソード内の遷移２２２は、一緒にシーケンスにグループ化することができ、エピソードの最後の２つのシーケンスは、可変のオーバーラップを有することができる。収集されたエピソード遷移２２２は、優先順位付けされたシーケンス再生バッファ２０８に持続される。再生バッファ２０８は、シーケンスの収集を格納し、各シーケンスは、遷移の収集を含む。

学習者２１２は、シーケンスに割り当てられた優先順位及びシーケンス内の遷移に割り当てられた優先順位に基づいて学習するためにシーケンス２１７をサンプリングする。学習者２１２は、時間の経過とともに報酬を最大化するために、サンプリングされたシーケンス２１７に基づいて、示されるように、ポリシーネットワーク２１３、バリューネットワーク２１４、及び対応するターゲットネットワーク２１５及び２１６を含む学習者ニューラルネットワークのパラメータを更新することによって学習する。ポリシーネットワーク２１３（「アクター」ネットワークとも呼ばれる）は、力及びトルクの測定値を入力として受け取り、動作を出力する人工ニューラルネットワークである。バリューネットワーク２１４（「クリティック」ネットワークとも呼ばれる）は、ポリシーネットワーク２１３によって出力された動作を批評する人工ニューラルネットワークである。例えば、バリューネットワーク２１４は、改善が行われているかどうかを判定され得るように、ポリシーネットワーク２１３によって出力された各動作の状態または動作状態ペア（ｑ値）に関連付けられた値を予測することができる。ターゲットネットワーク２１５及び２１６は、訓練の安定性を改善し、それぞれ、ポリシーネットワーク２１３及びバリューネットワーク２１４と定期的に同期される。学習者２１２は、再生バッファ２０８の、更新された遷移及びシーケンス優先順位２１８として示される、遷移優先度及びシーケンス優先順位をさらに更新する。さらに、アクター２５０は、学習者ネットワーク２１３、２１４、２１５、及び２１６のパラメータに基づいて、自身のニューラルネットワークのパラメータを定期的に更新する。学習者２１２と同様に、アクター２５０のそれぞれは、ポリシーネットワーク、バリューネットワーク、及び対応するターゲットネットワーク（図示せず）を含むことができる。各ニューラルネットワークには、ニューラルネットワーク内の第１の完全接続層と第２の完全接続層との間に長短期記憶（ＬＳＴＭ）層が含まれる、それぞれがポリシーネットワーク、ターゲットポリシーネットワーク、バリューネットワーク、及びターゲットバリューネットワークを含む学習者とＮ個のアクターを含むシステムは、本明細書では、分散型の深層決定論的ポリシー勾配（ＤＤＰＧ）システム（ＲＤ２）とも呼ばれる。したがって、順次意思決定を通じて組立作業を達成するためのポリシーをモデル化する機械学習モデル、すなわちポリシーネットワーク２１３は、深層強化学習を介して訓練することができる。訓練された機械学習モデルは、物理ロボット、又はロボット上に取り付けられた１つまたは複数のセンサによって取得された力及びトルク測定値を与えられるとシミュレーション内のロボットを移動させるための動作を生成するエージェント（例えば、エージェント１５０）として展開することができる。

より具体的には、各アクター２５０は、訓練中にロボット非依存環境２０２の独自のインスタンス内で行動して、動作２０６のエピソード、動作２０５が実行されるとき、環境２０２からフィードバックとして受け取られる力及びトルクの形態での観察２０４、ならびに関連付けられた報酬を収集する。ロボット非依存訓練環境２０２のインスタンスは、ロボットのモデルなしでシミュレーションすることができる。いくつかの実施形態では、シミュレーションは、力及びトルクの測定値に寄与するオブジェクトを含むことができる。例示的に、重ね継手を接続する組立作業のために、シミュレーションは、２本の指を含むグリッパ２３０、グリッパの上に取り付けられた力トルクセンサ２３２、ならびに一対の関節部材２３４及び２３６のモデルを含むことができる。グリッパ２３０によって保持されている関節部材２３４が関節部材２３６と接触しているとき、異なる方向の力及びトルクは、力トルクセンサ２３２を介して測定することができる。別の実施例として、ペグを穴に配置する組立作業の場合、シミュレーションには、グリッパ、力トルクセンサ、ならびに変更されたペグ及び穴のモデルを含めることができる。このような場合、グリッパに保持されているペグが穴の内側に接触すると、力トルクセンサはさまざまな方向の力及びトルクを感知できる。本明細書では主に参照の実施例としてグリッパに関して説明しているが、他の実施形態では、シミュレーション中及び訓練された機械学習モデルが展開されるときに、技術的に実現可能なロボットのエンドエフェクタに取り付けられた、またはその近くにあるセンサによって、力及びトルクの測定値を取得することができる。いくつかの実施形態におけるシミュレーション中に、各動的オブジェクトには、推定された慣性特性（例えば、質量及び重心）及び加えられた摩擦を割り当てることもでき、力トルクセンサを重力補償することができる。

説明したように、それぞれが観察、動作、及び関連付けられた報酬を含む遷移２２２が収集され、複数の遷移を含むエピソードは、目標姿勢と関節部材の姿勢との間の距離が事前定義された閾値内にあるとき、または事前定義された遷移数に達したときに、に終了する。各エピソードの長さは、シミュレーションの前には知られていないので、モデルトレーナ１１６は、（動的アロケータ２２４として示される）動的割り当て技術を採用して、再生バッファ２０８に格納される

遷移の固定長シーケンス２１０の群に遷移のエピソードを押し込む。いくつかの実施形態では、遷移２２２を処理する場合、図４に関連して以下により詳細に記載されるように、動的アロケータ２２４は、各エピソードの最後の２つのシーケンス間のオーバーラップを可変にすることができる。最後の２つのシーケンス間の可変のオーバーラップは、エピソードの境界を越えないようにしながら、最後の２つのシーケンスの遷移の情報を維持するのに役立つ。

訓練中、複数のアクター２５０が自身の環境と相互作用し、収集された遷移２２２を再生バッファ２０８に送信することによって、探索は学習から切り離される。学習者２１２は、シーケンス及びシーケンス内の遷移に割り当てられた優先順位に基づいて、再生バッファ２０８から遷移のシーケンス（サンプリングされたシーケンス２１７として示されている）を非同期的にサンプリングする。より高い優先順位を有する遷移及びシーケンスは、より重要であると見なされ、学習者ネットワーク２１３、２１４、２１５、及び２１６のパラメータを更新するためにサンプリング及び使用される可能性が高い。優先順位を使用すると、学習プロセス中により多くの情報を提供し、より高い優先順位に関連付けられる予期しない遷移に優先順位を付けることにより、学習プロセスをスピードアップできる。経験によれば、遷移の優先順位に加えてシーケンスの優先順位を使用すると、訓練プロセスを安定させることができる。遷移及びシーケンスの優先順位に基づいてサンプリングされたシーケンスが与えられると、学習者２１２は、学習動作（例えば、ディープＱ学習）を実行して、学習者ネットワーク２１３、２１４、２１５、及び２１６のパラメータを更新する。学習者２１２は、シーケンス及び個々の遷移の優先順位をさらに更新２１８する。更新された優先順位は、学習者２１２による将来のサンプリングで使用することができる。アクター２５０のニューラルネットワークのパラメータは、学習者ネットワーク２１３、２１４、２１５、及び２１６のパラメータに基づいて、定期的に更新される。

訓練に続いて、学習者２１２のポリシーネットワーク２１３は、組立作業を実行するためのポリシーをモデル化する。次に、訓練されたポリシーネットワーク２１３は、再訓練することなく展開されて、同じ組立作業を実行するために様々なタイプのロボットを制御することができる。例えば、ポリシーネットワーク２１３は、図１に関連して前述したロボット制御アプリケーション１４６に含まれるエージェント１５０として展開できる。このような場合、ロボット制御アプリケーション１５０は、ロボット１６０のセンサ１６２によって取得された力及びトルクの測定値をエージェント１５０のポリシーネットワークに入力でき、その後、ロボット１６０を制御するために使用することができる動作を出力する。

より正式には、ロボット組立作業の問題は、１組の状態

１組の動作

状態の遷移

に対する１組の条件付き確率

報酬関数

１組の観察

１組の条件付き観察確率

及び割引係数

によって説明される部分観測マルコフ決定過程（ＰＯＭＤＰ）としてモデル化することができる。動作の際には、エージェント（例えば、エージェント１５０またはアクター２５０のうちの１つ）は、観察及び動作の履歴に基づいて決定を下す

訓練の目標は、組立作業がどの程度うまく実行されたかを示す、期待される割引報酬を最大化するために最適なポリシー

を学習することである。

式中、軌道

はポリシーのパラメータ化であり

いくつかの実施形態では、物理エンジン（例えば、バレット物理エンジン）を備えたシミュレータが、ロボット組立作業をシミュレーションするため訓練で使用される。このような場合、訓練は完全にシミュレータを使用して実行できるが、訓練済み機械学習モデルは、物理ロボットまたはシミュレーション内のロボットのいずれかを制御するために展開できる。さまざまなタイプの組立作業のシミュレーションの実施例については、上記で説明されている。シミュレーション中、観察空間はセンサからの６次元の力及びトルクの測定値

であり得る。動作空間は、組立作業の制御下にある組立部品の中心での連続及び６次元の望ましいデカルト空間線形速度

及び角速度

である。

訓練中、モデルトレーナ１１６は、目標姿勢と現在の姿勢との間の距離に基づいて、組立作業がどれだけうまく実行されたかを示す線形報酬関数を最大化する。

式中、

は関節部材の現在の姿勢であり、

は目標姿勢であり、

は距離の閾値であり、

は大きな正の報酬である。負の距離には時間のペナルティも含まれるため、負の距離は、目標の周りを徘徊する行為を阻止するための報酬関数として使用される。

ロボット組立作業の問題の場合、観察の履歴全体を条件付けることは、一般的な問題として、非現実的である。いくつかの実施形態は、連続動作ドメインに焦点を合わせて、分散モデルフリー強化学習を使用して訓練されたリカレントニューラルネットワークである機械学習モデルを使用して、この課題に対処する。訓練されたポリシーネットワークを展開して、建築建設現場を含むさまざまな実世界の環境でロボットを制御でき、この環境では、搭載された低次元センサによって取得された力及びトルクの測定値に基づいてロボットが制御される。説明したように、いくつかの実施形態では、ＬＳＴＭ層は、ポリシーネットワーク２１３、バリューネットワーク２１４、ならびに学習者２１２の対応する目標ネットワーク２１５及び２１６の他、アクター２５０の同様のニューラルネットワークにおける第１の完全接続層と第２の完全接続層との間に追加される。ＬＳＴＭレイヤーは、これらのニューラルネットワークに再帰性を追加し、これにより、意思決定に役立つ履歴動作及び観察も入力することで、力及びトルクの測定値のみが利用可能であるため、部分的な可観測性を補償するメモリベースの表現を学習できる。したがって、力及びトルクの測定値のみが使用される場合、ＬＳＴＭ層は姿勢観察の欠如を補償できる。さらに、ＬＳＴＭには、過去の記憶を忘れるためのゲートを含めることができる。さらに、経験によれば、ＬＳＴＭレイヤーはポリシーネットワークを新しい環境に適合させるのに役立ち得る。本明細書では主にＬＳＴＭ層に関して論じているが、いくつかの実施形態では、ＬＳＴＭ層以外の１つまたは複数のメモリ層を使用してもよい。

図３は、様々な実施形態による、ポリシーネットワーク２１３のより詳細な層を示す。いくつかの実施形態では、バリューネットワーク２１４、ターゲットネットワーク２１５及び２１６、ならびにアクター２５０のニューラルネットワークはまた、それらのネットワークの第１の完全接続層と第２の完全接続層との間にＬＳＴＭ層を含む。示されるように、ポリシーネットワーク２１３は、第１の完全接続層３０４、ＬＳＴＭ層３０６、第２の完全接続層３０８、及び第３の完全接続層３１０を含む。ＬＳＴＭ層３０６自体は、複数の層を含むことができる。いくつかの実施形態では、周知のＬＳＴＭ層を使用することができる。いくつかの実施形態では、第一の完全接続層３０４は、入力として、複数の観察３０２を取り、２５６の出力サイズを有し、ＲｅＬＵ（整流線形単位）活性化関数を使用する。そのような場合、ＬＳＴＭ層３０６は、２５６の入力サイズ、２５６の出力サイズを持ち、ＲｅＬＵ活性化関数を使用することができる。第２の完全接続層３０８は、２５６の入力サイズ及び１の出力サイズを有するＱネットワーク層とすることができる。さらに、第３の完全接続層３１０は

２５６の入力サイズ及び複数の動作３１２の出力を有するネットワーク層とすることができる。他の実施形態では、ＬＳＴＭ層などのメモリ層を、本明細書に開示される技術に従って訓練及び展開される他のタイプのニューラルネットワークに追加することができる。

図２に戻ると、再生バッファ２０８は、固定長の遷移シーケンスを格納する。いくつかの実施形態では、各シーケンスは

遷移を含み、各遷移は形態（観察、動作、報酬）を有する。

隣接するシーケンスは遷移によってオーバーラップすることができ、シーケンスはエピソードの境界を横断しない。

説明したように、組立作業に対応する各エピソードの長さは変化し得る。いくつかの実施形態では、各エピソードの最後の２つのシーケンス間のオーバーラップは、

遷移間で可変である。いくつかの実施形態では、最後のオーバーラップは次のように計算することができる。

式中、

は最後のオーバーラップの遷移の数であり、

は各エピソードの遷移の総数である。各エピソードの最後のオーバーラップを可変にすることで、各エピソードの終わりに、特に訓練のための重要な情報を含む可能性のある遷移が失われたり、損なわれたりすることを防ぐ。

図４は、様々な実施形態による、エピソード内の遷移のシーケンスへの例示的な割り当てを示す。示されているように、例示的なエピソード４００は８５１の遷移を含む。他のエピソードには、異なる数の遷移が含まれ得る。説明したように、エピソードは組立作業の開始で始まり、（１）目標姿勢と関節部材の姿勢の間の距離が事前定義された閾値内にあるときなど、組立作業が完了するとき、または（２）事前定義された遷移の数（例えば、４０００遷移）に達したときに、終了する。訓練中、エピソードは、分散型ロボット非依存環境２０２の環境でシミュレートされ、複数の遷移が収集される。次に、動的アロケータ２２４は、収集された遷移を、それぞれが固定数の遷移を含むシーケンスに分割する。例示的に、各シーケンス４０２、４０４、４１０、及び４１２は、エピソード４００の８５１の遷移からの４０の遷移を含む。シーケンスに含まれる遷移の数は、学習者２１２のポリシーネットワーク２１３及びバリューニューラルネットワーク２１４が入力として取る遷移の数に基づくことができる。シーケンス当たり４０個の遷移の実施例では、エピソード４００の遷移は、第１のシーケンス４０２が遷移１～４０を含み、第２のシーケンスが遷移４１～８０を含むようになど、分割することができる。そのような分割を続けると、最後のシーケンスには、必要な４０個の遷移ではなく、８４０～８５１の１１個の遷移が含まれる。後続のエピソードから遷移を取得し、それらの遷移を最後のシーケンスに追加してニューラルネットワークを混乱させるのではなく、いくつかの実施形態では、最後のシーケンスを最後から２番目のシーケンスとオーバーラップするように戻す。示されるように、最後から２番目のシーケンス４１０は、遷移８０１～８４０を含み、最後のシーケンス４１２は、遷移８１２～８５１を含む。任意の所定のエピソードの遷移の数は可変である可能性があるため、エピソードの最後の２つのシーケンス間のオーバーラップも可変である。いくつかの実施形態では、最後の２つのシーケンス間のオーバーラップは、図２に関連して上述された、式（３）に従って計算することができる。

図２に戻ると、いくつかの実施形態では訓練中に、学習者２１２が、以下のように、それらの優先順位

に基づいて、再生バッファ２０８内のシーケンスをサンプリングする。

式中、

は、一シーケンス内の絶対的なｎ工程時間差（ＴＤ）－エラーのリストであり、

は、優先順位の範囲を圧縮し、エージェントの能力を制限することを避けて、有用な経験を選別するために、例えば、０．９に設定することができる。確率的更新の分布が制御されていない方法で変更され、それによって推定が収束するソリューションが変更されるため、再生に優先順位を付けるとバイアスが発生する可能性がある。いくつかの実施形態では、シーケンス内の各遷移のバイアスは、遷移レベルでのバイアスアニーリングを使用して修正され、以下の重要なサンプリング重みを使用して、より安定した性能を達成する。

式中、

は再生バッファのサイズであり、

は０．４に設定される。さらに、各遷移の重みは、シーケンスが、

による通時的誤差逆伝播法（ＢＰＴＴ）のために学習者２１２に送信される前に正規化することができる。いくつかの実施形態では、２つの合計ツリーデータ構造を初期化することができ、一方はシーケンスの優先順位を保持し、他方は遷移の優先順位を保持する。経験によれば、このような合計ツリーデータ構造は、ロボット組立作業の訓練プロセスを安定させるのに役立つ。

いくつかの実施形態で訓練を実施するために、モデルトレーナ１１６は、ＬＳＴＭ層でゼロ開始状態を使用して、サンプリングされたシーケンスの開始時に学習者ネットワーク２１３、２１４、２１５、及び２１６を初期化し、人口ベースの訓練（ＰＢＴ）を用いて訓練を実行する。いくつかの実施形態では、すべての訓練セッションは、複数（例えば、８個）の同時試行を含むことができ、そのそれぞれは、単一の学習者及び複数（例えば、８人）の作業者を含む。シーケンスの長さとｎ工程は、ＰＢＴの可変ハイパーパラメータとすることができる。同時試行のそれぞれは、現在の訓練を維持するか、より良い試行からネットワークパラメータをコピーするかどうかを、数回（例えば、５回）の反復ごとに評価する。コピーする場合、可変ハイパーパラメータは、例えば、元の分布から再サンプリングされる確率が２５％になるように、１．２または０．８の係数で摂動されてもよい。

図５は、様々な実施形態による、訓練された機械学習モデルを展開して、複数の例示的なロボットを制御する方法を示す。示されているように、機械学習モデル５０２（例えば、ポリシーネットワーク２１３）は、他の機械学習モデル（例えば、学習者ネットワーク２１４、２１５、及び２１６、ならびにアクター２５０のニューラルネットワーク）とともに、ロボット非依存訓練環境５００（例えば、分散型ロボット非依存環境２０２）で訓練されて、入力として力及びトルクの測定値を取り、組立作業を実行するための動作を出力する。訓練されると、機械学習モデル５０２は、組立作業を達成するためのポリシーをモデル化し、同じ組立作業を実行するための力及びトルクのセンサを含むロボットアーム５０４、５０６、及び５０８として示される様々なタイプのロボットを制御するために展開できる（例えば、ロボット制御アプリケーション１４６内に）。ロボットは、物理ロボットまたはシミュレーションのロボットであり得る。物理ロボットは、建築建設現場または製造現場など、任意の適切な環境で操作され得る。さらに、ロボットアーム５０４、５０６、及び５０８のいずれについても特別に訓練されていなくても、機械学習モデル５０２は、これらのロボットアーム５０４、５０６、及び５０８を制御するために適用することができる。

いくつかの実施形態では、ロボットのいない環境２０２で訓練されたポリシーを物理ロボットに関連付けられた展開環境に転送するために、ロボット制御アプリケーション１４６は、力トルクねじれマトリックスを使用して力及びトルク測定値に座標変換を適用する。ロボットのいない環境２０２

内の座標からの力及びトルクを

にし、及びロボットアームのエンドエフェクタ

の座標からの力及びトルクを

にすると、変換は次の通りである。

式中、

は、それぞれフレーム

からフレーム

への回転マトリクス及び並進ベクトルである。

いくつかの実施形態では、動作空間は、制御下にある組立部品の中心におけるデカルト空間速度として定義され、これは、ロボットアームのセットアップ全体で同一であり得る。したがって、動作に変換は必要ない。追加で、組立作業の動作が十分に小さい操作領域に限定されている場合、逆運動学が満たされることが保証される。このような場合、ロボット制御アプリケーション１４６は、逆運動学を使用して、機械学習モデル５０２によって出力される動作を達成するために要求されるロボットの関節運動を解決することができる。

図６は、様々な実施形態による、ロボット組立を制御するために機械学習モデルを訓練するための方法のステップの流れ図である。方法のステップは、図１～３のシステムに関連して説明されているが、当業者は、方法のステップを任意の順序で実行するように構成された任意のシステムが本開示の範囲内にあることを理解するであろう。

示されるように、方法６００は、モデルトレーナ１１８が、分散型訓練環境（例えば、分散型ロボット非依存環境２０２）を開始するステップ６０２で開始する。いくつかの実施形態では、モデルトレーナ１１８は、複数の訓練環境（例えば、１６の訓練環境）、複数のアクター（例えば、アクター２５０）のそれぞれに１つを初期化することができる。本明細書では主に分散型訓練環境に関して説明するが、他の実施形態では、機械学習モデルは、分散型ではない訓練環境で訓練することができる。

ステップ６０４で、アクター（例えば、アクター２５０）は、それぞれの訓練環境で経験を収集し、その経験を再生バッファ（例えば、再生バッファ２０８）に格納する。説明したように、いくつかの実施形態では、エピソードでの経験は、観察、動作、及び関連付けられた報酬をそれぞれが含む複数の遷移を含むことができ、遷移は、シーケンス内に一緒にグループ化することができる。このような場合、エピソード内の最後の２つのシーケンス間のオーバーラップは、図２に関連して前述したように、

遷移間で可変である可能性がある。

ステップ６０６で、十分な経験が収集されて再生バッファに格納されていない場合、方法６００はステップ６０４に戻り、そこでアクターは追加の経験を収集し、それらの経験を再生バッファに格納する。一方、十分な経験が収集され、再生バッファに格納されている場合、方法６００は、ステップ６０８に進み、学習者（例えば、学習者２１２）は、再生バッファから経験をサンプリングし、学習者のニューラルネットワーク（例えば、ポリシーネットワーク２１３、バリューネットワーク２１４、ならびにターゲットネットワーク２１５及び２１６）をサンプリングされた経験に基づいて訓練する。いくつかの実施形態では、訓練は、図２に関連して上で説明したように、時間の経過とともに、組立作業がどれだけうまく実行されたかを示す報酬を最大化する。

ステップ６１０で、学習者は、学習者ニューラルネットワークに類似するアクターの
ニューラルネットワークのパラメータ、ならびに再生バッファの遷移及びシーケンスの優先順位を更新する。説明したように、アクターは訓練環境で経験を収集している。いくつかの実施形態では、遷移及びシーケンスの優先順位は、図２に関連して上述した技法に従って計算される。

ステップ６１２で、訓練の終了条件が満たされない場合（例えば、報酬が最大化されておらず、最大反復数が発生していない場合）、方法６００はステップ６０４に戻り、そこでアクターはそれぞれの訓練環境で追加の経験を収集し、経験を再生バッファに格納する。ステップ６０４～６１２は、例示の目的で順次示されているが、いくつかの実施形態では、アクターは、経験を収集し、それを再生バッファに格納すると同時に、並行して、学習者は、再生バッファから経験をサンプリングし、学習ニューラルネットワークを訓練し、アクターのニューラルネットワークのパラメータならびに再生バッファの遷移及びシーケンスの優先順位を更新する。

図７は、様々な実施形態による、組立作業を実行するときにロボットを制御するための方法のステップの流れ図である。方法のステップは、図１～３のシステムに関連して説明されているが、当業者は、方法のステップを任意の順序で実行するように構成された任意のシステムが本開示の範囲内にあることを理解するであろう。

示されるように、方法７００は、ステップ７０２で始まり、ここで、ロボット制御アプリケーション１４６は、ロボットに関連付けられた力及びトルクの測定データを受信する。説明したように、いくつかの実施形態では、センサは、ロボットのグリッパの上方、またはロボットのエンドエフェクタ上の他の場所（グリッパーであってもなくてもよい）に取り付けられて、６次元の力及びトルク測定値を取得することができる

いくつかの実施形態では、座標変換は、図５に関連して上で説明した力トルクねじれマトリックスを使用して、力及びトルク測定値にも適用される。

ステップ７０４で、ロボット制御アプリケーション１４６は、（座標変換が適用された後の）力及びトルク測定値を、実行する動作を生成する機械学習モデルに入力する。いくつかの実施形態では、図６に関連して上述された方法６００に従って、エージェント（例えば、エージェント１５０）は、訓練されたポリシーネットワーク（例えば、ポリシーネットワーク２１３）を含んで、入力として力及びトルク測定値を与えられた組立作業を達成するための動作を生成する。

ステップ７０６で、ロボット制御アプリケーション１４６は、ステップ７０４で生成された動作に基づいて逆動力学を使用して、ロボットの関節運動を決定する。説明したように、エージェントによって生成された動作は、組立作業の制御下にある組立部品の中央部における線形及び角速度などの、作業空間（例えば、デカルト空間）における線形速度及び角速度を含むことができる。このような場合、逆動力学を使用して、速度を達成するために要求されるロボットの関節運動を解決できる。

ステップ７０８で、ロボット制御アプリケーション１４６は、決定された関節運動に従ってロボットの関節を動かす。例えば、ロボット制御アプリケーション１４６は、コマンド信号をロボットの関節または関節のコントローラに直接送信することができる。

ステップ７１０で、終了条件が満たされない場合、方法７００は、ステップ７０２に戻り、ここで、ロボット制御アプリケーション１４６は、ロボットから追加の力及びトルク測定データを受信する。いくつかの実施形態では、終了条件は、関節部材の姿勢と目標姿勢との間の距離が閾値未満であること、または遷移の数が最大遷移数に等しいことを含み得る。終了条件が満たされた場合、方法７００は終了する。

要約すると、ロボット組立作業を制御するための機械学習モデルを訓練及び適用するための技術が開示される。いくつかの実施形態では、力及びトルクの測定値は、姿勢の観察ではなく、使用されている力及びトルクの測定値による部分的な可観測性を補償するために再帰性を導入するメモリ層を含む機械学習モデルに入力される。機械学習モデルは、ロボット非依存環境での強化学習を介して、力及びトルクの測定値を入力として与えられた組立作業を達成するための動作を生成するためのポリシーを学習するように訓練される。訓練中、経験はエピソード内の遷移として収集される。遷移はシーケンスにグループ化され、各エピソードの最後の２つのシーケンスには可変のオーバーラップがある。収集された遷移は、優先順位付けされたシーケンス再生バッファに格納され、学習者はそこから遷移の優先順位及びシーケンスの優先順位に基づいて学習するシーケンスをサンプリングする。学習者は、サンプリングされたシーケンスに基づいて学習者の機械学習モデルのパラメータを更新することで学習し、学習者は遷移の優先順位及びシーケンスの優先順位をさらに更新する。訓練されると、機械学習モデルを再訓練なしで展開して、さまざまなタイプのロボットを制御し、それらのロボットに取り付けられたセンサによって取得された力及びトルクの測定値に基づいて組立作業を実行できる。

条項１．
いくつかの実施形態では、ロボットを制御するためのコンピュータ実装方法は、ロボットに関連付けられたセンサデータを受信し、センサデータは、センサデータに機械学習モデルを適用して動作を生成する、力データまたはトルクデータのうちの少なくとも一方を含み、機械学習モデルは、強化学習を介して訓練され、動作に基づいてロボットに１つまたは複数の運動を実行させる。

条項２．
機械学習モデルが少なくとも１つのメモリ層を含む、条項１に記載のコンピュータ実装方法。

条項３．
機械学習モデルが、完全接続層、Ｑネットワーク、またはｐｉネットワークのうちの少なくとも１つをさらに含む、条項１または２に記載のコンピュータ実装方法。

条項４．
強化学習中に、機械学習モデルがロボットのモデルを含まない環境で訓練される、条項１～３のいずれかに記載のコンピュータ実装方法。

条項５．
強化学習中に、学習者が機械学習モデルのパラメータを更新し、学習者が、それぞれが観察、動作、ならびに報酬及びそれぞれが複数の遷移を含むシーケンスをサンプリングするために使用される１つまたは複数の優先順位を含む格納された遷移をサンプリングするために使用される１つまたは複数の優先順位をさらに更新する、条項１～４のいずれかに記載のコンピュータ実装方法。

条項６．
強化学習中に、学習者が少なくとも１つの他の機械学習モデルのパラメータをさらに更新し、少なくとも１つの他の機械学習モデルが少なくとも１つのシミュレーション環境に適用される、条項１～５のいずれかに記載のコンピュータ実装方法。

条項７．
強化学習中に、遷移のエピソードの遷移を含む最後の２つの時間シーケンスがオーバーラップし、オーバーラップの量がエピソードの長さに基づき、遷移のエピソードに含まれる各遷移が、観察、動作、及び報酬を含む、条項１～６のいずれかに記載のコンピュータ実装方法。

条項８．
動作が目標速度を含み、動作に基づいてロボットに１つまたは複数の運動を実行させることは、目標速度に基づいて逆動力学を使用し、ロボットの１つまたは複数の関節の１つまたは複数の運動を計算すること、及び１つまたは複数の関節の１つまたは複数の運動に基づいて少なくとも１つのコマンド信号をロボットに送信することを含む、条項１～７のいずれかのコンピュータ実装方法。

条項９．
センサデータは、ロボットのエンドエフェクタに取り付けられたセンサによって取得される、条項１～８のいずれかに記載のコンピュータ実装方法。

条項１０．
関節部材の姿勢と目標姿勢との間の距離が閾値距離未満であるかどうかを判定することをさらに含む、条項１～９のいずれかに記載のコンピュータ実装方法。

条項１１．
いくつかの実施形態では、１つまたは複数の非一時的なコンピュータ可読記憶媒体は、少なくとも１つのプロセッサによって実行されるとき、少なくとも１つのプロセッサに、ロボットを制御するため、ロボットに関連付けられたセンサデータを受信することを含むステップを実行させる命令を含み、センサデータは、機械学習モデルをセンサデータに適用して動作を生成する、力またはトルクデータのうちの少なくとも一方を含み、機械学習モデルは、強化学習を介して訓練され、ロボットに動作に基づいて１つまたは複数の運動を実行させる。

条項１２．
少なくとも１つのプロセッサによって実行されるとき、命令はさらに、少なくとも１つのプロセッサに、関節部材の姿勢と目標姿勢との間の距離が閾値距離未満であるかどうかを判定するステップを実行させる、条項１１に記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。

条項１３．
動作が目標速度を含み、動作に基づいてロボットに１つまたは複数の運動を実行させることは、目標速度に基づいて逆動力学を使用するロボットの１つまたは複数の関節の１つまたは複数の運動を計算すること、及び１つまたは複数の関節の１つまたは複数の運動に基づいて少なくとも１つのコマンド信号をロボットに送信することを含む、条項１１または１２に記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。

条項１４．
センサデータが、ロボットのエンドエフェクタに取り付けられたセンサによって取得される、条項１１～１３のいずれかに記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。

条項１５．
機械学習モデルが長短期記憶を含む、条項１１～１４のいずれかに記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。

条項１６．
機械学習モデルが、完全接続層、Ｑネットワーク、またはｐｉネットワークのうちの少なくとも１つをさらに含む、条項１１～１５のいずれかに記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。

条項１７．
強化学習中に、機械学習モデルが、ロボットのモデルを含まない分散型環境内の少なくとも１つの他の機械学習モデルと共に訓練される、条項１１～１６のいずれかに記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。

条項１８．
強化学習中に、学習者が機械学習モデルのパラメータを更新し、学習者が、それぞれが観察、動作、ならびに報酬及びそれぞれが複数の遷移を含むシーケンスをサンプリングするために使用される１つまたは複数の優先順位を含む格納された遷移をサンプリングするために使用される１つまたは複数の優先順位をさらに更新する、条項１１～１７のいずれかに記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。

条項１９．
強化学習中に、遷移のエピソードの遷移を含む最後の２つの時間シーケンスがオーバーラップし、オーバーラップの量がエピソードの長さに基づき、遷移のエピソードに含まれる各遷移が、観察、動作、及び報酬を含む、条項１１～１８のいずれかに記載の１つまたは複数の非一時的なコンピュータ可読記憶媒体。

条項２０．
いくつかの実施形態では、システムは、命令を記憶する１つまたは複数のメモリ、及び１つまたは複数のメモリに結合された１つまたは複数のプロセッサを備え、命令を実行するとき、ロボットに関連付けられたセンサデータを受信するように構成され、センサデータは、力またはトルクデータのうちの少なくとも一方を含み、機械学習モデルをセンサデータに適用して動作を生成し、機械学習モデルは、強化学習を介して訓練され、ロボットに動作に基づいて１つまたは複数の運動を実行させる。

様々な実施形態の説明を例示の目的で行ったが、この説明は、包括的であることも、開示の実施形態に限定することも意図していない。多くの修正及び変形例は、説明される実施形態の範囲及び精神から逸脱することなく当業者には明白である。

本実施形態の態様は、システム、方法、またはコンピュータプログラム製品として具体化されてよい。従って、本開示の態様は、全体的にハードウェアの実施形態、全体的にソフトウェア実施形態（ファームウェア、常駐ソフトウェア、マイクロコード等を含む）、またはソフトウェア及びハードウェアの態様を組み合わせた実施形態の形態をとってよく、これらは全て一般的に、本明細書では、「モジュール」または「システム」と称されてよい。さらに、本開示の態様は、コンピュータ可読プログラムコードが具体化された１つまたは複数のコンピュータ可読媒体（複数可）に具体化されたコンピュータプログラム製品の形をとってよい。

１つ以上のコンピュータ可読媒体（複数可）の任意の組み合わせを利用し得る。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってよい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光、電磁気、赤外線、もしくは半導体のシステム、装置、もしくはデバイス、または、これらの任意の適切な組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な実施例（包括的でないリスト）は、１つまたは複数の配線を有する電気的接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含み得る。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置、もしくはデバイスによる使用のために、またはそれらと接続してプログラムを含むまたは記憶することができる任意の有形媒体であり得る。

本開示の態様は、本方法の実施形態に従った方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図及び／またはブロック図を参照して上記に説明されている。フローチャート図及び／またはブロック図の各ブロック、及びフローチャート図及び／またはブロック図のブロックの組み合わせは、コンピュータプログラム命令によって実施できることが理解される。これらのコンピュータプログラム命令は、機械を製造するために、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されてよい。命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行されるとき、フローチャート及び／またはブロック図のブロック（複数可）で指定された機能／行為の実施態様を可能にする。このようなプロセッサは、汎用プロセッサ、専用プロセッサ、特定用途向けプロセッサ、またはフィールドプログラマブルゲートアレイであってよいが、これらに限らない。

図のフローチャート及びブロック図は、本開示の様々な実施形態に従ったシステム、方法、及びコンピュータプログラム製品の可能である実施態様のアーキテクチャ、機能、及び動作を示す。この点で、フローチャートまたはブロック図の各ブロックは、規定された論理関数（複数可）を実装するための１つ以上の実行可能命令を含むモジュール、セグメント、またはコードの一部を表し得る。また、いくつかの代替実施態様では、ブロックで留意される機能は、図で留意される順序とは違う順序で起こり得ることを留意されたい。例えば、連続して示される２つのブロックは、実際に、実質的に同時に実行され得る、または、ブロックは、時々、含有される機能に応じて、逆の順序で実行され得る。また、ブロック図及び／またはフローチャート図の各ブロック、及びブロック図及び／またはフローチャート図のブロックの組み合わせは、規定の機能もしくは行為、または特殊目的ハードウェア及びコンピュータ命令の組み合わせを行う特殊目的ハードウェアベースシステムによって実施され得ることを留意されたい。

上記は本開示の実施形態を対象とするが、本開示の他の及びさらなる実施形態は、その基本的な範囲から逸脱することなく考案されてもよく、その範囲は、以下の特許請求の範囲によって決定される。

Claims

ロボットを制御するためのコンピュータ実装方法であって、
前記ロボットに関連付けられたセンサデータを受信することであって、前記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを前記センサデータに適用して動作を生成することであって、前記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
前記ロボットに前記動作に基づいて１つまたは複数の運動を実行させることと、
を含む、前記方法。
前記機械学習モデルは、少なくとも１つのメモリ層を含む、請求項１に記載のコンピュータ実装方法。
前記機械学習モデルが、完全接続層、Ｑネットワーク、またはｐｉネットワークのうちの少なくとも１つをさらに含む、請求項２に記載のコンピュータ実装方法。
前記強化学習中に、前記機械学習モデルが前記ロボットのモデルを含まない環境で訓練される、請求項１に記載のコンピュータ実装方法。
前記強化学習中に、学習者が前記機械学習モデルのパラメータを更新し、前記学習者が、それぞれが観察、動作、ならびに報酬及びそれぞれが複数の遷移を含むシーケンスをサンプリングするために使用される１つまたは複数の優先順位を含む格納された遷移をサンプリングするために使用される１つまたは複数の優先順位をさらに更新する、請求項１に記載のコンピュータ実装方法。
前記強化学習中に、前記学習者が少なくとも１つの他の機械学習モデルのパラメータをさらに更新し、前記少なくとも１つの他の機械学習モデルが少なくとも１つのシミュレーション環境に適用される、請求項５に記載のコンピュータ実装方法。
前記強化学習中、遷移のエピソード内の遷移を含む最後の２つの時間シーケンスがオーバーラップし、オーバーラップの量は前記エピソードの長さに基づき、
前記遷移のエピソードに含まれる各遷移は、観察、動作、及び報酬を含む、請求項１に記載のコンピュータ実装方法。
前記動作は、目標速度を含み、前記ロボットに前記動作に基づいて前記１つまたは複数の運動を実行させることは、
前記目標速度に基づいて逆動力学を使用して、前記ロボットの１つまたは複数の関節の１つまたは複数の運動を計算することと、
前記１つまたは複数の関節の前記１つまたは複数の運動に基づいて、少なくとも１つのコマンド信号を前記ロボットに送信することと、を含む、請求項１に記載のコンピュータ実装方法。
前記センサデータは、前記ロボットのエンドエフェクタに取り付けられたセンサによって取得される、請求項１に記載のコンピュータ実装方法。
関節部材の姿勢と目標姿勢との間の距離が閾値距離未満であるかどうかを判定することをさらに含む、請求項１に記載のコンピュータ実装方法。
少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサにロボットを制御するためのステップを実行させる命令を含む、１つまたは複数の非一時的なコンピュータ可読媒体であって、前記ステップが、
前記ロボットに関連付けられたセンサデータを受信することであって、前記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを前記センサデータに適用して動作を生成することであって、前記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
前記ロボットに前記動作に基づいて１つまたは複数の運動を実行させることと、を含む、１つまたは複数の非一時的なコンピュータ可読媒体。
命令を格納する１つまたは複数のメモリと、
前記１つまたは複数のメモリに結合される１つまたは複数のプロセッサであって、前記命令を実行するときに、
前記ロボットに関連付けられたセンサデータを受信することであって、前記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを前記センサデータに適用して動作を生成することであって、前記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
前記ロボットに前記動作に基づいて１つまたは複数の運動を実行させることと、を行うように構成される、前記１つまたは複数のプロセッサと、を備える、システム。