JP2022061022A - 力及びトルク誘導ロボット組立のための技術 - Google Patents
力及びトルク誘導ロボット組立のための技術 Download PDFInfo
- Publication number
- JP2022061022A JP2022061022A JP2021163274A JP2021163274A JP2022061022A JP 2022061022 A JP2022061022 A JP 2022061022A JP 2021163274 A JP2021163274 A JP 2021163274A JP 2021163274 A JP2021163274 A JP 2021163274A JP 2022061022 A JP2022061022 A JP 2022061022A
- Authority
- JP
- Japan
- Prior art keywords
- robot
- machine learning
- learning model
- sensor data
- transitions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
- B25J19/007—Means or methods for designing or fabricating manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/1633—Programme controls characterised by the control loop compliant, force, torque control, e.g. combined with position control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B17/00—Systems involving the use of models or simulators of said systems
- G05B17/02—Systems involving the use of models or simulators of said systems electric
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
- B25J9/1687—Assembly, peg and hole, palletising, straight line, weaving pattern movement
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/39—Robotics, robotics to robotics hand
- G05B2219/39271—Ann artificial neural network, ffw-nn, feedforward neural network
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40033—Assembly, microassembly
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
Description
本出願は、2020年10月5日出願の「RECURRENT DISTRIBUTED REINFORCEMENT LEARNING FOR PARTIALLY OBSERVABLE ROBOTIC ASSEMBLY」と題する米国仮特許出願第63/087,841号の優先権を主張する。本関連出願の主題は、参照により本明細書に組み込まれる。
例えば、本願は以下の項目を提供する。
(項目1)
ロボットを制御するためのコンピュータ実装方法であって、
上記ロボットに関連付けられたセンサデータを受信することであって、上記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを上記センサデータに適用して動作を生成することであって、上記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
上記ロボットに上記動作に基づいて1つまたは複数の運動を実行させることと、
を含む、上記方法。
(項目2)
上記機械学習モデルは、少なくとも1つのメモリ層を含む、上記項目に記載のコンピュータ実装方法。
(項目3)
上記機械学習モデルが、完全接続層、Qネットワーク、またはpiネットワークのうちの少なくとも1つをさらに含む、上記項目のいずれか一項に記載のコンピュータ実装方法。
(項目4)
上記強化学習中に、上記機械学習モデルが上記ロボットのモデルを含まない環境で訓練される、上記項目のいずれか一項に記載のコンピュータ実装方法。
(項目5)
上記強化学習中に、学習者が上記機械学習モデルのパラメータを更新し、上記学習者が、それぞれが観察、動作、ならびに報酬及びそれぞれが複数の遷移を含むシーケンスをサンプリングするために使用される1つまたは複数の優先順位を含む格納された遷移をサンプリングするために使用される1つまたは複数の優先順位をさらに更新する、上記項目のいずれか一項に記載のコンピュータ実装方法。
(項目6)
上記強化学習中に、上記学習者が少なくとも1つの他の機械学習モデルのパラメータをさらに更新し、上記少なくとも1つの他の機械学習モデルが少なくとも1つのシミュレーション環境に適用される、上記項目のいずれか一項に記載のコンピュータ実装方法。
(項目7)
上記強化学習中、遷移のエピソード内の遷移を含む最後の2つの時間シーケンスがオーバーラップし、オーバーラップの量は上記エピソードの長さに基づき、
上記遷移のエピソードに含まれる各遷移は、観察、動作、及び報酬を含む、上記項目のいずれか一項に記載のコンピュータ実装方法。
(項目8)
上記動作は、目標速度を含み、上記ロボットに上記動作に基づいて上記1つまたは複数の運動を実行させることは、
上記目標速度に基づいて逆動力学を使用して、上記ロボットの1つまたは複数の関節の1つまたは複数の運動を計算することと、
上記1つまたは複数の関節の上記1つまたは複数の運動に基づいて、少なくとも1つのコマンド信号を上記ロボットに送信することと、を含む、上記項目のいずれか一項に記載のコンピュータ実装方法。
(項目9)
上記センサデータは、上記ロボットのエンドエフェクタに取り付けられたセンサによって取得される、上記項目のいずれか一項に記載のコンピュータ実装方法。
(項目10)
関節部材の姿勢と目標姿勢との間の距離が閾値距離未満であるかどうかを判定することをさらに含む、上記項目のいずれか一項に記載のコンピュータ実装方法。
(項目11)
少なくとも1つのプロセッサによって実行されると、上記少なくとも1つのプロセッサにロボットを制御するためのステップを実行させる命令を含む、1つまたは複数の非一時的なコンピュータ可読媒体であって、上記ステップが、
上記ロボットに関連付けられたセンサデータを受信することであって、上記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを上記センサデータに適用して動作を生成することであって、上記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
上記ロボットに上記動作に基づいて1つまたは複数の運動を実行させることと、を含む、1つまたは複数の非一時的なコンピュータ可読媒体。
(項目12)
上記少なくとも1つのプロセッサによって実行されると、上記命令は、上記少なくとも1つのプロセッサに、
関節部材の姿勢と目標姿勢との間の距離が閾値距離未満であるかどうかを判定するステップをさらに実行させる、上記項目に記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
(項目13)
上記動作が目標速度を含み、上記ロボットに上記動作に基づいて上記1つまたは複数の運動を実行させることは、
上記目標速度に基づいて逆動力学を使用して、上記ロボットの1つまたは複数の関節の1つまたは複数の運動を計算することと、
上記1つまたは複数の関節の上記1つまたは複数の運動に基づいて、少なくとも1つのコマンド信号を上記ロボットに送信することと、を含む、上記項目のいずれか一項に記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
(項目14)
上記センサデータが、上記ロボットのエンドエフェクタに取り付けられたセンサによって取得される、上記項目のいずれか一項に記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
(項目15)
上記機械学習モデルが長短期記憶を含む、上記項目のいずれか一項に記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
(項目16)
上記機械学習モデルが、完全接続層、Qネットワーク、またはpiネットワークのうちの少なくとも1つをさらに含む、上記項目のいずれか一項に記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
(項目17)
上記強化学習中に、上記機械学習モデルが、上記ロボットのモデルを含まない分散型環境内の少なくとも1つの他の機械学習モデルと共に訓練される、上記項目のいずれか一項に記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
(項目18)
上記強化学習中に、学習者が、上記機械学習モデルのパラメータを更新し、上記学習者は、それぞれが観察、動作、ならびに報酬及びそれぞれが複数の遷移を含むシーケンスをサンプリングするために使用される1つまたは複数の優先順位を含む格納された遷移をサンプリングするために使用される1つまたは複数の優先順位をさらに更新する、上記項目のいずれか一項に記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
(項目19)
上記強化学習中、遷移のエピソード内の遷移を含む最後の2つの時間シーケンスがオーバーラップし、上記オーバーラップの量は上記エピソードの長さに基づき、
上記遷移のエピソードに含まれる各遷移は、観察、動作、及び報酬を含む、上記項目のいずれか一項に記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
(項目20)
命令を格納する1つまたは複数のメモリと、
上記1つまたは複数のメモリに結合される1つまたは複数のプロセッサであって、上記命令を実行するときに、
上記ロボットに関連付けられたセンサデータを受信することであって、上記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを上記センサデータに適用して動作を生成することであって、上記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
上記ロボットに上記動作に基づいて1つまたは複数の運動を実行させることと、を行うように構成される、上記1つまたは複数のプロセッサと、を備える、システム。
(摘要)
ロボット組立を制御するための機械学習モデルを訓練及び適用するための技術が開示される。いくつかの実施形態では、力及びトルクの測定値を、再帰性を導入するメモリ層を含む機械学習モデルに入力する。機械学習モデルは、ロボット非依存環境での強化学習を介して、力及びトルクの測定値を与えられた組立作業を達成するための動作を生成するために訓練される。訓練中、経験はエピソード内の遷移として収集され、遷移はシーケンスにグループ化され、各エピソードの最後の2つのシーケンスは可変のオーバーラップを有する。収集された遷移は、優先順位付けされたシーケンス再生バッファに格納され、学習者はそこから遷移の優先順位及びシーケンスの優先順位に基づいて学習するシーケンスをサンプリングする。訓練されると、機械学習モデルを展開して、さまざまなタイプのロボットを制御し、それらのロボットのセンサによって取得された力及びトルクの測定値に基づいて組立作業を実行できる。
システム概要
ロボット非依存力誘導組立作業のための強化学習
遷移の固定長シーケンス210の群に遷移のエピソードを押し込む。いくつかの実施形態では、遷移222を処理する場合、図4に関連して以下により詳細に記載されるように、動的アロケータ224は、各エピソードの最後の2つのシーケンス間のオーバーラップを可変にすることができる。最後の2つのシーケンス間の可変のオーバーラップは、エピソードの境界を越えないようにしながら、最後の2つのシーケンスの遷移の情報を維持するのに役立つ。
1組の動作
状態の遷移
に対する1組の条件付き確率
報酬関数
1組の観察
1組の条件付き観察確率
及び割引係数
によって説明される部分観測マルコフ決定過程(POMDP)としてモデル化することができる。動作の際には、エージェント(例えば、エージェント150またはアクター250のうちの1つ)は、観察及び動作の履歴に基づいて決定を下す
訓練の目標は、組立作業がどの程度うまく実行されたかを示す、期待される割引報酬を最大化するために最適なポリシー
式中、軌道
はポリシーのパラメータ化であり
であり得る。動作空間は、組立作業の制御下にある組立部品の中心での連続及び6次元の望ましいデカルト空間線形速度
及び角速度
である。
式中、
は関節部材の現在の姿勢であり、
は目標姿勢であり、
は距離の閾値であり、
は大きな正の報酬である。負の距離には時間のペナルティも含まれるため、負の距離は、目標の周りを徘徊する行為を阻止するための報酬関数として使用される。
256の入力サイズ及び複数の動作312の出力を有するネットワーク層とすることができる。他の実施形態では、LSTM層などのメモリ層を、本明細書に開示される技術に従って訓練及び展開される他のタイプのニューラルネットワークに追加することができる。
遷移を含み、各遷移は形態(観察、動作、報酬)を有する。
隣接するシーケンスは遷移によってオーバーラップすることができ、シーケンスはエピソードの境界を横断しない。
遷移間で可変である。いくつかの実施形態では、最後のオーバーラップは次のように計算することができる。
式中、
は最後のオーバーラップの遷移の数であり、
は各エピソードの遷移の総数である。各エピソードの最後のオーバーラップを可変にすることで、各エピソードの終わりに、特に訓練のための重要な情報を含む可能性のある遷移が失われたり、損なわれたりすることを防ぐ。
に基づいて、再生バッファ208内のシーケンスをサンプリングする。
式中、
は、一シーケンス内の絶対的なn工程時間差(TD)-エラーのリストであり、
は、優先順位の範囲を圧縮し、エージェントの能力を制限することを避けて、有用な経験を選別するために、例えば、0.9に設定することができる。確率的更新の分布が制御されていない方法で変更され、それによって推定が収束するソリューションが変更されるため、再生に優先順位を付けるとバイアスが発生する可能性がある。いくつかの実施形態では、シーケンス内の各遷移のバイアスは、遷移レベルでのバイアスアニーリングを使用して修正され、以下の重要なサンプリング重みを使用して、より安定した性能を達成する。
式中、
は再生バッファのサイズであり、
は0.4に設定される。さらに、各遷移の重みは、シーケンスが、
による通時的誤差逆伝播法(BPTT)のために学習者212に送信される前に正規化することができる。いくつかの実施形態では、2つの合計ツリーデータ構造を初期化することができ、一方はシーケンスの優先順位を保持し、他方は遷移の優先順位を保持する。経験によれば、このような合計ツリーデータ構造は、ロボット組立作業の訓練プロセスを安定させるのに役立つ。
内の座標からの力及びトルクを
にし、及びロボットアームのエンドエフェクタ
の座標からの力及びトルクを
式中、
は、それぞれフレーム
からフレーム
への回転マトリクス及び並進ベクトルである。
遷移間で可変である可能性がある。
ニューラルネットワークのパラメータ、ならびに再生バッファの遷移及びシーケンスの優先順位を更新する。説明したように、アクターは訓練環境で経験を収集している。いくつかの実施形態では、遷移及びシーケンスの優先順位は、図2に関連して上述した技法に従って計算される。
いくつかの実施形態では、座標変換は、図5に関連して上で説明した力トルクねじれマトリックスを使用して、力及びトルク測定値にも適用される。
いくつかの実施形態では、ロボットを制御するためのコンピュータ実装方法は、ロボットに関連付けられたセンサデータを受信し、センサデータは、センサデータに機械学習モデルを適用して動作を生成する、力データまたはトルクデータのうちの少なくとも一方を含み、機械学習モデルは、強化学習を介して訓練され、動作に基づいてロボットに1つまたは複数の運動を実行させる。
機械学習モデルが少なくとも1つのメモリ層を含む、条項1に記載のコンピュータ実装方法。
機械学習モデルが、完全接続層、Qネットワーク、またはpiネットワークのうちの少なくとも1つをさらに含む、条項1または2に記載のコンピュータ実装方法。
強化学習中に、機械学習モデルがロボットのモデルを含まない環境で訓練される、条項1~3のいずれかに記載のコンピュータ実装方法。
強化学習中に、学習者が機械学習モデルのパラメータを更新し、学習者が、それぞれが観察、動作、ならびに報酬及びそれぞれが複数の遷移を含むシーケンスをサンプリングするために使用される1つまたは複数の優先順位を含む格納された遷移をサンプリングするために使用される1つまたは複数の優先順位をさらに更新する、条項1~4のいずれかに記載のコンピュータ実装方法。
強化学習中に、学習者が少なくとも1つの他の機械学習モデルのパラメータをさらに更新し、少なくとも1つの他の機械学習モデルが少なくとも1つのシミュレーション環境に適用される、条項1~5のいずれかに記載のコンピュータ実装方法。
強化学習中に、遷移のエピソードの遷移を含む最後の2つの時間シーケンスがオーバーラップし、オーバーラップの量がエピソードの長さに基づき、遷移のエピソードに含まれる各遷移が、観察、動作、及び報酬を含む、条項1~6のいずれかに記載のコンピュータ実装方法。
動作が目標速度を含み、動作に基づいてロボットに1つまたは複数の運動を実行させることは、目標速度に基づいて逆動力学を使用し、ロボットの1つまたは複数の関節の1つまたは複数の運動を計算すること、及び1つまたは複数の関節の1つまたは複数の運動に基づいて少なくとも1つのコマンド信号をロボットに送信することを含む、条項1~7のいずれかのコンピュータ実装方法。
センサデータは、ロボットのエンドエフェクタに取り付けられたセンサによって取得される、条項1~8のいずれかに記載のコンピュータ実装方法。
関節部材の姿勢と目標姿勢との間の距離が閾値距離未満であるかどうかを判定することをさらに含む、条項1~9のいずれかに記載のコンピュータ実装方法。
いくつかの実施形態では、1つまたは複数の非一時的なコンピュータ可読記憶媒体は、少なくとも1つのプロセッサによって実行されるとき、少なくとも1つのプロセッサに、ロボットを制御するため、ロボットに関連付けられたセンサデータを受信することを含むステップを実行させる命令を含み、センサデータは、機械学習モデルをセンサデータに適用して動作を生成する、力またはトルクデータのうちの少なくとも一方を含み、機械学習モデルは、強化学習を介して訓練され、ロボットに動作に基づいて1つまたは複数の運動を実行させる。
少なくとも1つのプロセッサによって実行されるとき、命令はさらに、少なくとも1つのプロセッサに、関節部材の姿勢と目標姿勢との間の距離が閾値距離未満であるかどうかを判定するステップを実行させる、条項11に記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
動作が目標速度を含み、動作に基づいてロボットに1つまたは複数の運動を実行させることは、目標速度に基づいて逆動力学を使用するロボットの1つまたは複数の関節の1つまたは複数の運動を計算すること、及び1つまたは複数の関節の1つまたは複数の運動に基づいて少なくとも1つのコマンド信号をロボットに送信することを含む、条項11または12に記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
センサデータが、ロボットのエンドエフェクタに取り付けられたセンサによって取得される、条項11~13のいずれかに記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
機械学習モデルが長短期記憶を含む、条項11~14のいずれかに記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
機械学習モデルが、完全接続層、Qネットワーク、またはpiネットワークのうちの少なくとも1つをさらに含む、条項11~15のいずれかに記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
強化学習中に、機械学習モデルが、ロボットのモデルを含まない分散型環境内の少なくとも1つの他の機械学習モデルと共に訓練される、条項11~16のいずれかに記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
強化学習中に、学習者が機械学習モデルのパラメータを更新し、学習者が、それぞれが観察、動作、ならびに報酬及びそれぞれが複数の遷移を含むシーケンスをサンプリングするために使用される1つまたは複数の優先順位を含む格納された遷移をサンプリングするために使用される1つまたは複数の優先順位をさらに更新する、条項11~17のいずれかに記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
強化学習中に、遷移のエピソードの遷移を含む最後の2つの時間シーケンスがオーバーラップし、オーバーラップの量がエピソードの長さに基づき、遷移のエピソードに含まれる各遷移が、観察、動作、及び報酬を含む、条項11~18のいずれかに記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
いくつかの実施形態では、システムは、命令を記憶する1つまたは複数のメモリ、及び1つまたは複数のメモリに結合された1つまたは複数のプロセッサを備え、命令を実行するとき、ロボットに関連付けられたセンサデータを受信するように構成され、センサデータは、力またはトルクデータのうちの少なくとも一方を含み、機械学習モデルをセンサデータに適用して動作を生成し、機械学習モデルは、強化学習を介して訓練され、ロボットに動作に基づいて1つまたは複数の運動を実行させる。
Claims (12)
- ロボットを制御するためのコンピュータ実装方法であって、
前記ロボットに関連付けられたセンサデータを受信することであって、前記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを前記センサデータに適用して動作を生成することであって、前記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
前記ロボットに前記動作に基づいて1つまたは複数の運動を実行させることと、
を含む、前記方法。 - 前記機械学習モデルは、少なくとも1つのメモリ層を含む、請求項1に記載のコンピュータ実装方法。
- 前記機械学習モデルが、完全接続層、Qネットワーク、またはpiネットワークのうちの少なくとも1つをさらに含む、請求項2に記載のコンピュータ実装方法。
- 前記強化学習中に、前記機械学習モデルが前記ロボットのモデルを含まない環境で訓練される、請求項1に記載のコンピュータ実装方法。
- 前記強化学習中に、学習者が前記機械学習モデルのパラメータを更新し、前記学習者が、それぞれが観察、動作、ならびに報酬及びそれぞれが複数の遷移を含むシーケンスをサンプリングするために使用される1つまたは複数の優先順位を含む格納された遷移をサンプリングするために使用される1つまたは複数の優先順位をさらに更新する、請求項1に記載のコンピュータ実装方法。
- 前記強化学習中に、前記学習者が少なくとも1つの他の機械学習モデルのパラメータをさらに更新し、前記少なくとも1つの他の機械学習モデルが少なくとも1つのシミュレーション環境に適用される、請求項5に記載のコンピュータ実装方法。
- 前記強化学習中、遷移のエピソード内の遷移を含む最後の2つの時間シーケンスがオーバーラップし、オーバーラップの量は前記エピソードの長さに基づき、
前記遷移のエピソードに含まれる各遷移は、観察、動作、及び報酬を含む、請求項1に記載のコンピュータ実装方法。 - 前記動作は、目標速度を含み、前記ロボットに前記動作に基づいて前記1つまたは複数の運動を実行させることは、
前記目標速度に基づいて逆動力学を使用して、前記ロボットの1つまたは複数の関節の1つまたは複数の運動を計算することと、
前記1つまたは複数の関節の前記1つまたは複数の運動に基づいて、少なくとも1つのコマンド信号を前記ロボットに送信することと、を含む、請求項1に記載のコンピュータ実装方法。 - 前記センサデータは、前記ロボットのエンドエフェクタに取り付けられたセンサによって取得される、請求項1に記載のコンピュータ実装方法。
- 関節部材の姿勢と目標姿勢との間の距離が閾値距離未満であるかどうかを判定することをさらに含む、請求項1に記載のコンピュータ実装方法。
- 少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにロボットを制御するためのステップを実行させる命令を含む、1つまたは複数の非一時的なコンピュータ可読媒体であって、前記ステップが、
前記ロボットに関連付けられたセンサデータを受信することであって、前記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを前記センサデータに適用して動作を生成することであって、前記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
前記ロボットに前記動作に基づいて1つまたは複数の運動を実行させることと、を含む、1つまたは複数の非一時的なコンピュータ可読媒体。 - 命令を格納する1つまたは複数のメモリと、
前記1つまたは複数のメモリに結合される1つまたは複数のプロセッサであって、前記命令を実行するときに、
前記ロボットに関連付けられたセンサデータを受信することであって、前記センサデータは、力データまたはトルクデータのうちの少なくとも一方を含む、センサデータを受信することと、
機械学習モデルを前記センサデータに適用して動作を生成することであって、前記機械学習モデルは、強化学習を介して訓練される、動作を生成することと、
前記ロボットに前記動作に基づいて1つまたは複数の運動を実行させることと、を行うように構成される、前記1つまたは複数のプロセッサと、を備える、システム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063087841P | 2020-10-05 | 2020-10-05 | |
US63/087,841 | 2020-10-05 | ||
US17/471,520 US20220105626A1 (en) | 2020-10-05 | 2021-09-10 | Techniques for force and torque-guided robotic assembly |
US17/471,520 | 2021-09-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022061022A true JP2022061022A (ja) | 2022-04-15 |
JP7291185B2 JP7291185B2 (ja) | 2023-06-14 |
Family
ID=78179160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021163274A Active JP7291185B2 (ja) | 2020-10-05 | 2021-10-04 | 力及びトルク誘導ロボット組立のための技術 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220105626A1 (ja) |
EP (1) | EP3978204A1 (ja) |
JP (1) | JP7291185B2 (ja) |
CN (1) | CN114378811A (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023225941A1 (en) * | 2022-05-26 | 2023-11-30 | Robert Bosch Gmbh | A computer-implemented method and an apparatus for reinforcement learning |
CN114800530B (zh) * | 2022-06-09 | 2023-11-28 | 中国科学技术大学 | 基于视觉的机器人的控制方法、设备及存储介质 |
CN115338610B (zh) * | 2022-07-04 | 2024-02-13 | 中国科学院自动化研究所 | 双轴孔装配方法、装置、电子设备和存储介质 |
CN114986518B (zh) * | 2022-07-19 | 2022-11-04 | 聊城一明五金科技有限公司 | 用于汽车拆解生产线的智能控制方法及*** |
CN115860107B (zh) * | 2023-01-30 | 2023-05-16 | 武汉大学 | 一种基于多智能体深度强化学习的多机探寻方法及*** |
CN118204985B (zh) * | 2024-05-22 | 2024-07-16 | 太原理工大学 | 钻锚机械臂的轨迹跟踪控制方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019529135A (ja) * | 2016-09-15 | 2019-10-17 | グーグル エルエルシー | ロボット操作のための深層強化学習 |
WO2020138436A1 (ja) * | 2018-12-27 | 2020-07-02 | 川崎重工業株式会社 | ロボット制御装置、ロボットシステム及びロボット制御方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11062207B2 (en) * | 2016-11-04 | 2021-07-13 | Raytheon Technologies Corporation | Control systems using deep reinforcement learning |
JP6587761B2 (ja) * | 2017-02-09 | 2019-10-09 | 三菱電機株式会社 | 位置制御装置及び位置制御方法 |
JP2018198750A (ja) * | 2017-05-26 | 2018-12-20 | ソニー株式会社 | 医療用システム、医療用支持アームの制御装置、および医療用支持アームの制御方法 |
CN112119404A (zh) * | 2018-05-18 | 2020-12-22 | 谷歌有限责任公司 | 样本高效的强化学习 |
US11295239B2 (en) * | 2019-04-17 | 2022-04-05 | International Business Machines Corporation | Peer assisted distributed architecture for training machine learning models |
US11685047B2 (en) * | 2020-05-21 | 2023-06-27 | Intrinsic Innovation Llc | Skill template distribution for robotic demonstration learning |
US20220101064A1 (en) * | 2020-09-29 | 2022-03-31 | Sony Corporation | Task prioritized experience replay algorithm for reinforcement learning |
-
2021
- 2021-09-10 US US17/471,520 patent/US20220105626A1/en active Pending
- 2021-09-28 EP EP21199638.4A patent/EP3978204A1/en active Pending
- 2021-10-04 JP JP2021163274A patent/JP7291185B2/ja active Active
- 2021-10-08 CN CN202111172353.6A patent/CN114378811A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019529135A (ja) * | 2016-09-15 | 2019-10-17 | グーグル エルエルシー | ロボット操作のための深層強化学習 |
WO2020138436A1 (ja) * | 2018-12-27 | 2020-07-02 | 川崎重工業株式会社 | ロボット制御装置、ロボットシステム及びロボット制御方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7291185B2 (ja) | 2023-06-14 |
CN114378811A (zh) | 2022-04-22 |
US20220105626A1 (en) | 2022-04-07 |
EP3978204A1 (en) | 2022-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022061022A (ja) | 力及びトルク誘導ロボット組立のための技術 | |
Andrychowicz et al. | Learning dexterous in-hand manipulation | |
CN113677485A (zh) | 使用基于元模仿学习和元强化学习的元学习的用于新任务的机器人控制策略的高效自适应 | |
US11759947B2 (en) | Method for controlling a robot device and robot device controller | |
CN114423574A (zh) | 确定针对机器人任务的环境调节的动作序列 | |
US20220161424A1 (en) | Device and method for controlling a robotic device | |
Shukla et al. | Robotic grasp manipulation using evolutionary computing and deep reinforcement learning | |
Ying et al. | Trajectory generation for multiprocess robotic tasks based on nested dual-memory deep deterministic policy gradient | |
Gutzeit et al. | The besman learning platform for automated robot skill learning | |
Dong et al. | A novel human-robot skill transfer method for contact-rich manipulation task | |
Stan et al. | Reinforcement learning for assembly robots: A review | |
JP2023526211A (ja) | 分散型ロボット実証学習 | |
Beik Mohammadi et al. | Mixed-reality deep reinforcement learning for a reach-to-grasp task | |
Prats et al. | Towards multipurpose autonomous manipulation with the UJI service robot | |
Malone et al. | Efficient motion-based task learning for a serial link manipulator | |
Sanchez et al. | Towards advanced robotic manipulation | |
Guo et al. | Robot path planning via deep reinforcement learning with improved reward function | |
Ruud | Reinforcement learning with the TIAGo research robot: manipulator arm control with actor-critic reinforcement learning | |
Akbulut et al. | Bimanual rope manipulation skill synthesis through context dependent correction policy learning from human demonstration | |
Lobbezoo | Robotic Reach, Grasp, and Pick-and-Place using Combined Reinforcement Learning and Traditional Controls | |
US20220317659A1 (en) | Transfer between Tasks in Different Domains | |
Chao | A Workflow for Training Robotic End-to-End Visuomotor Policies in Simulation | |
Aiello | Robotic arm pick-and-place tasks: Implementation and comparison of approaches with and without machine learning (deep reinforcement learning) techniques | |
Wang et al. | DOREP 2.0: An Upgraded Version of Robot Control Teaching Experimental Platform with Reinforcement Learning and Visual Analysis | |
Guzman | Robotic Embodiment of Human-Like Motor Skills via Sim-to-Real Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230517 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230602 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7291185 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |