JP7085726B2 - ロボットの目標物体把持位置の検出方法 - Google Patents

ロボットの目標物体把持位置の検出方法 Download PDF

Info

Publication number
JP7085726B2
JP7085726B2 JP2020543212A JP2020543212A JP7085726B2 JP 7085726 B2 JP7085726 B2 JP 7085726B2 JP 2020543212 A JP2020543212 A JP 2020543212A JP 2020543212 A JP2020543212 A JP 2020543212A JP 7085726 B2 JP7085726 B2 JP 7085726B2
Authority
JP
Japan
Prior art keywords
target object
network
grip
target
gripping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020543212A
Other languages
English (en)
Other versions
JP2021517681A (ja
Inventor
杜国光
王▲カイ▼
廉士国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Robotics Co Ltd
Original Assignee
Cloudminds Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Robotics Co Ltd filed Critical Cloudminds Robotics Co Ltd
Publication of JP2021517681A publication Critical patent/JP2021517681A/ja
Application granted granted Critical
Publication of JP7085726B2 publication Critical patent/JP7085726B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1669Programme controls characterised by programming, planning systems for manipulators characterised by special application, e.g. multi-arm co-operation, assembly, grasping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0014Image feed-back for automatic industrial control, e.g. robot with camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39484Locate, reach and grasp, visual guided grasping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Description

本願の実施形態は、ロボットの自律的な把持の分野に関し、特に、ロボットの目標物体把持位置の検出方法、装置、コンピューティングデバイス及びコンピュータ可読記憶媒体に関する。
知能ロボットの分野において、特に家庭サービスロボット及び産業ロボットにとって、ロボットの自律的な把持は、知能ロボットの重要な能力である。ロボットの自律的な把持に対する研究問題について、従来の解決手段には、主に幾何学的分析方法とデータ駆動推論という2つの方法が含まれる。幾何学的分析方法は、作業の複雑度が高く、データ駆動推論方法は、複雑なシーンでの表現が悪い。
ディープラーニングの出現に伴い、ロボットの自律的な把持に関する研究は画期的な進歩を取得した。ディープラーニングアルゴリズムを応用することにより、従来技術は、ロボットが自律的に物体を把持するとき、目標物体を自動的にセグメント化し、把持点を自動的に特定することを実現できる。
本願を実現する過程において、従来技術では、自動的な目標物体のセグメント化はディープ画像に基づくため、複雑な背景の下で物体に対してセグメント化を行うことができず、且つ、把持点を自動的に特定するときの効率が低いことを発見した。
本願は、上記の問題に鑑みてなされたものであり、上記の問題を完全に解決、又は少なくとも部分的に解決するために、ロボットの目標物体把持位置の検出方法、装置、コンピューティングデバイス及びコンピュータ可読記憶媒体を提供する。
上記の技術的問題を解決するために、本願の実施形態に採用された1つの技術的解決手段は、ロボットの目標物体把持位置の検出方法を提供し、当該方法は、目標物体の異なる視野角での目標RGB画像及び目標Depth画像を収集し、ここで、前記目標RGB画像と目標Depth画像は、ピクセルが1対1に対応するステップと、
前記目標RGB画像の各々を目標物体セグメンテーションネットワークに入力して計算することで、前記目標RGB画像における目標物体のRGB画素領域及び前記目標Depth画像における目標物体のDepth画素領域を取得するステップと、
前記目標物体のRGB画素領域を最適把持位置生成ネットワークに入力して、前記目標物体を把持する最適把持位置を取得するステップと、
前記目標物体のDepth画素領域及び前記最適把持位置を把持位置クオリティ評価ネットワークに入力して、前記最適把持位置のスコアを計算するステップと、
最高スコアに対応する最適把持位置をロボットのグローバル最適把持位置として選択するステップと、を含む。
ここで、前記目標物体セグメンテーションネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記目標物体セグメンテーションネットワークのトレーニングは、具体的には、
目標物体を含むRGB画像を取得するステップと、
前記RGB画像を予め設定した第1の解像度にスケーリングして、第1のトレーニングセットを取得するステップと、
前記第1のトレーニングセット内の目標物体に対応する画素領域をマークするステップと、
前記第1のトレーニングセット及び前記目標物体に対応する画素領域を前記畳み込みニューラルネットワークモデル入力としてトレーニングして、前記目標物体セグメンテーションネットワークを取得するステップと、
前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域とマークした目標物体に対応する画素領域とに対して重複対比を行うステップと、
前記重複対比結果に基づいて前記目標物体セグメンテーションネットワークの重みを調整するステップと、を含む。
ここで、前記最適把持位置生成ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記最適把持位置生成ネットワークのトレーニングは、具体的には、
前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域を予め設定した第2の解像度にスケーリングして、第2のトレーニングセットを取得するステップと、
前記第2のトレーニングセット内の画像に最適把持位置の座標を標識するステップと、
前記第2のトレーニングセット内の画像及びそれに対応する最適把持位置の座標を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、最適把持位置生成ネットワークを取得するステップと、を含む。
ここで、前記把持位置クオリティ評価ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記把持位置クオリティ評価ネットワークのトレーニングは、具体的には、
目標物体を含むDepth画像を取得するステップと、
前記Depth画像を予め設定した第3の解像度にスケーリングして、第3のトレーニングセットを取得するステップと、
前記第3のトレーニングセット内のDepth画像から1対の把持点の位置をランダムに取るとともに、予め設定したスコアリングアルゴリズムを用いて対応する得点を取得するステップと、
前記Depth画像、把持点の位置及び把持点の位置に対応する得点を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、把持位置クオリティ評価ネットワークを取得するステップと、を含む。
上記の技術的問題を解決するために、本願の実施形態に採用された別の技術的解決手段は、ロボットの目標物体把持位置の検出装置を提供し、前記装置は、目標物体の異なる視野角での目標RGB画像及び目標Depth画像を収集するために用いられ、ここで、前記目標RGB画像と目標Depth画像は、ピクセルが1対1に対応する収集モジュールと、
前記目標RGB画像の各々を目標物体セグメンテーションネットワークに入力して計算して、前記目標画像における目標物体のRGB画素領域及び前記目標Depth画像における目標物体のDepth画素領域を取得するために用いられるセグメンテーションモジュールと、
前記目標物体のRGB画素領域を最適把持位置生成ネットワークに入力して、前記目標物体を把持する最適把持位置を取得するために用いられる把持モジュールと、
前記目標物体のDepth画素領域及び前記最適把持位置を把持位置クオリティ評価ネットワークに入力して、前記最適把持位置のスコアを計算するために用いられる評価モジュールと、
最高スコアに対応する最適把持位置をロボットのグローバル最適把持位置として選択するために用いられる選択モジュールと、を含む。
ここで、前記セグメンテーションモジュールにおける目標物体セグメンテーションネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記目標物体セグメンテーションネットワークのトレーニングは、具体的には、
目標物体を含むRGB画像を取得するステップと、
前記RGB画像を予め設定した第1の解像度にスケーリングして、第1のトレーニングセットを取得するステップと、
前記第1のトレーニングセット内の目標物体に対応する画素領域をマークするステップと、
前記第1のトレーニングセット及び前記目標物体に対応する画素領域を前記畳み込みニューラルネットワークモデル入力としてトレーニングして、前記目標物体セグメンテーションネットワークを取得するステップと、
前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域とマークした目標物体に対応する画素領域とに対して重複対比を行うステップと、
前記重複対比結果に基づいて前記目標物体セグメンテーションネットワークの重みを調整するステップと、を含む。
ここで、前記把持モジュールにおける最適把持位置生成ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記最適把持位置生成ネットワークのトレーニングは、具体的には、
前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域を予め設定した第2の解像度にスケーリングして、第2のトレーニングセットを取得するステップと、
前記第2のトレーニングセット内の画像に最適把持位置の座標を標識するステップと、
前記第2のトレーニングセット内の画像及びそれに対応する最適把持位置の座標を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、最適把持位置生成ネットワークを取得するステップと、を含む。
ここで、前記評価モジュールにおける把持位置クオリティ評価ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記把持位置クオリティ評価ネットワークのトレーニングは、具体的には、
目標物体を含むDepth画像を取得するステップと、
前記Depth画像を予め設定した第3の解像度にスケーリングして、第3のトレーニングセットを取得するステップと、
前記第3のトレーニングセット内のDepth画像から1対の把持点の位置をランダムに取るとともに、予め設定したスコアリングアルゴリズムを用いて対応する得点を取得するステップと、
前記Depth画像、把持点の位置及び把持点の位置に対応する得点を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、把持位置クオリティ評価ネットワークを取得するステップと、を含む。
上記の技術的問題を解決するために、本願の実施形態に採用されたもう1つの技術的解決手段は、コンピューティングデバイスを提供し、前記コンピューティングデバイスは、プロセッサ、メモリ、通信用インタフェース及び通信バスを含み、前記プロセッサ、前記メモリ及び前記通信用インタフェースは、前記通信バスを介して互いに通信を行う。
前記メモリは、少なくとも1つの実行可能なコマンドを格納するために用いられ、前記実行可能なコマンドは、前記プロセッサに前記ロボットの目標物体把持位置の検出方法に対応する動作を実行させる。
前記メモリが少なくとも1つの実行可能なコマンドを格納するために用いられ、前記実行可能なコマンドが前記プロセッサにロボットの目標物体把持位置の前記検出方法に対応する動作を実行させる。
上記の技術的問題を解決するために、本願の実施形態に採用されたまた別の技術的解決手段は、コンピュータ可読記憶媒体を提供し、前記記憶媒体には、少なくとも1つの実行可能なコマンドが記憶されており、前記実行可能なコマンドは、前記プロセッサに前記ロボットの目標物体把持位置の検出方法に対応する動作を実行させる。
本願の実施形態の有益な効果は以下のとおりである。従来技術との相違点として、本願の実施形態は、目標物体セグメンテーションネットワークを使用して目標物体に対応する画素領域を取得するとともに、前記目標物体に対応する画素領域を最適把持位置生成ネットワークに入力して、目標物体を把持する最適把持位置を取得し、また、把持位置クオリティ評価ネットワークを用いて前記最適把持位置の得点を計算し、最高スコアに対応する最適把持位置をロボットのグローバル最適把持位置とし、本願により、ロボットは最適把持位置で目標物体を自動的に把持することが実現できる。
上記の説明は、本願の技術的解決手段の概要に過ぎず、本願の技術的手段をより明確に理解して、明細書の内容に従って実施することができるように、且つ、本願の上記の及び他の目的、特徴及び利点をより明確に理解するように、以下では、特に本願の具体的な実施形態を挙げる。
以下の好ましい実施形態の詳細な説明を読むことにより、当業者にとって、様々な他の利点及び利益は明らかになるだろう。添付図面は、好ましい実施形態の目的を示すことのみに用いられ、本願を限定するものとして理解されるべきではない。さらにすべての添付図面において、同じ参照番号は同じ部材を示す。添付図面において:
本願の実施形態に係るロボットの目標物体把持位置の検出方法のフローチャートである。 本願の実施形態に係る目標物体セグメンテーションネットワークのトレーニングフローチャートである。 本願の実施形態に係る最適把持位置生成ネットワークのトレーニングフローチャートである。 本願の実施形態に係る把持位置クオリティ評価ネットワークのトレーニングフローチャートである。 本願の実施形態に係るロボットの目標物体把持位置の検出装置の機能ブロック図である。 本願の実施形態に係るコンピューティングデバイスの概略図である。
以下、本開示の例示的な実施例について、添付図面を参照しながら、より詳細に説明する。なお、本開示の例示的な実施例が添付図面に示されているが、本開示は、本明細書に記載の実施例に限定されなく、様々な形態で実現できることを理解されたい。逆に、本開示をより完全に理解させるとともに、本開示の範囲を当業者に完全に伝えるために、これらの実施例を提供する。
本願の実施例は不揮発性コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には、少なくとも1つの実行可能なコマンドが記憶されており、当該コンピュータ実行可能なコマンドは上記いずれの方法の実施例におけるロボットの目標物体把持位置の検出方法を実行することができる。
図1は、本願に係るロボットの目標物体把持位置の検出方法の実施例のフローチャートである。図1に示すように、当該方法は、ステップS101~ステップS105を含む。
ステップS101:目標物体の異なる視野角での目標RGB画像及び目標Depth画像を収集し、ここで、前記目標RGB画像と目標Depth画像は、ピクセルが1対1に対応する。
本ステップにおいて、目標物体をロボットのロボットアームの下にあるテーブルに置き、現在位置でのRGB画像及びDepth画像を収集し、ここで、前記RGB画像及びDepth画像はピクセルが1対1に対応するものである。ロボットアームを移動して、他の角度から画像を改めて収集し、本願の実施例において、前、後、左、右、前上、後上、左上、右上など計8つの位置の画像を収集する。
ステップS102:前記目標RGB画像の各々を目標物体セグメンテーションネットワークに入力して計算することで、前記目標RGB画像における目標物体のRGB画素領域及び前記目標Depth画像における目標物体のDepth画素領域を取得する。
本ステップにおいて、前記目標RGB画像の各々を目標物体セグメンテーションネットワークに入力して計算することで、前記目標RGB画像における目標物体のRGB画素領域を取得し、RGB画像及びDepth画像は1対1に対応するものであるため、前記目標RGB画像における目標物体のRGB画素領域に基づいて、前記目標Depth画像における目標物体のDepth画素領域を特定することができる。
なお、前記目標物体セグメンテーションネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、図2は、本願の実施形態に係る目標物体セグメンテーションネットワークのトレーニングフローチャートであり、図2に示すように、目標物体セグメンテーションネットワークのトレーニングは、ステップ1021~ステップ1026を含む。
ステップS1021:目標物体を含むRGB画像を取得する。
ステップS1022:前記RGB画像を予め設定した第1の解像度にスケーリングして、第1のトレーニングセットを取得する。
本ステップにおいて、ネットワーク構造に適応するように、RGB画像の各々を予め設定した第1の解像度にスケーリングして、本願の実施例において、前記予め設定した第1の解像度のサイズは320*320画素である。
ステップS1023:前記第1のトレーニングセット内の目標物体に対応する画素領域をマークする。
本ステップにおいて、前記目標物体に対応する画素領域を人為的にマークし、例えば、目標物体に対応する画素領域の前記トレーニングセット内の画像にある位置をブロックフレームでマークする。
ステップS1024:前記第1のトレーニングセット及び前記目標物体に対応する画素領域を前記畳み込みニューラルネットワークモデル入力としてトレーニングして、前記目標物体セグメンテーションネットワークを取得する。
本ステップにおいて、前記畳み込みニューラルネットワークモデルは、実例のセグメント化に用いられるいずれか1つの主流畳み込みニューラルネットワークモデルであり、例えば、セグメンテーションネットワーク(SegNet)、ディープラーニングラボネットワーク(DeepLab v1、DeepLab v2、DeepLab v3、DeepLab v3++)、ピラミッドシーン解析ネットワーク(Pyramid Scene Parsing Network、 PSPNet)及び画像カスケードネットワーク(Image Cascade Network、 ICNet)である。本願の実施例において、セグメンテーションネットワーク(SegNet)を使用して、前記目標物体に対応する画素領域を1つのカテゴリとし、目標物体を含まない背景に対応する画素領域を1つのカテゴリとし、前記第1のトレーニングセット及び前記目標物体に対応する画素領域を前記畳み込みニューラルネットワークモデルに入力してトレーニングする。本願の実施例において、前記畳み込みニューラルネットワークモデルの層数は27層であり、トレーニングする際に、畳み込み抽出層によって前記目標物体に対応する画素領域を抽出するとともに、写真が予め設定した第1の解像度のサイズにスケーリングされる、当該プロセスをエンコーダと言う。逆畳み込み計算によって前記目標物体の分類後の特徴を再現させ、且つ、アップサンプリングによって前記目標物体に対応する画素領域の目標寸法を復元させる、当該プロセスをデコーダと言う。前記デコーダの出力をsoft-max分類器の入力とし、画素分類後と確率を計算し、前記確率に基づいて前記目標物体に対応する画素領域を判断する。
ステップS1025:前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域とマークした目標物体に対応する画素領域とに対して重複対比を行う。
本ステップにおいて、目標物体を含む画像を前記目標物体セグメンテーションネットワークの入力として、前記目標物体セグメンテーションネットワークが取得したRGB画素領域を取得し、前記目標物体セグメンテーションネットワークの評価メトリックとして、前記目標物体セグメンテーションネットワークが取得した画素領域を前記マークした目標物体に対応する画素領域と重複対比を行う。
ステップS1026:前記重複対比結果に基づいて前記目標物体セグメンテーションネットワークの重みを調整する。
本ステップにおいて、前記重複対比結果を予め設定した重複対比結果の閾値と比較し、前記重複対比結果が前記予め設定した重複対比結果の閾値よりも低い場合、前記ニューラルネットワークの構造及び重みを調整する。
ステップS103:前記目標物体のRGB画素領域を最適把持位置生成ネットワークに入力して、前記目標物体を把持する最適把持位置を取得する。
本ステップにおいて、前記最適把持位置生成ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、図3は、本願の実施形態に係る最適把持位置生成ネットワークのトレーニングフローチャートであり、図3に示すように、最適把持位置生成ネットワークのトレーニングは、ステップS1031~ステップS1033を含む。
ステップS1031:前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域を予め設定した第2の解像度にスケーリングして、第2のトレーニングセットを取得する。
本ステップにおいて、ネットワーク構造に適応するように、前記目標物体に対応するRGB画素領域を予め設定した第2の解像度にスケーリングして、本願の実施例において、前記予め設定した第2の解像度は227*227画素である。
ステップS1032:前記第2のトレーニングセット内の画像に最適把持位置の座標を標識する。
本ステップにおいて、前記第2のトレーニングセット内の画像において目標物体に把持位置として(X、Y、θ)を標識し、ここで、(X、Y)は把持点であり、θは把持角度であり、把持位置のマークを行う際に、まず、把持角度を定義し、続いて、各把持角度での最適把持位置を標識し、例えば、把持範囲[0、180°]を18個の角度値に均等にセグメント化して、各角度での最適把持位置の座標を標識する。本願の実施例において、訓練データ集合内の画像数を増加するために、前記第2のトレーニングセット内のすべての画像ごとに把持角度及び最適把持位置の座標をマークする。
ステップS1033:前記第2のトレーニングセット内の画像及びそれに対応する最適把持位置の座標を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、最適把持位置生成ネットワークを取得する。
本ステップにおいて、前記畳み込みニューラルネットワークモデルは、従来の畳み込みニューラルネットワークモデルのいずれかであり、本願の実施例において、AlexNetモデルを使用し、前記第2のトレーニングセット内の画像及びそれに対応する最適把持位置(X、Y、θ)を前記畳み込みニューラルネットワークモデルの入力とし、ここで、前記AlexNetモデルは、5つの畳み込み層及び2つの全結合層を含む7層であり、前記AlexNetモデルは、トレーニングを経て最適把持位置生成ネットワークを取得し、前記最適把持位置生成ネットワークから出力された予測把持点(Xp、Yp)と標識点(X、Y)とのユークリッド距離を計算するとともに、前記ユークリッド距離に応じて、Softmax損失関数を用いて前記最適把持位置生成ネットワークの重みを調整する。
ステップS104:前記目標物体のDepth画素領域及び前記最適把持位置を把持位置クオリティ評価ネットワークに入力して、前記最適把持位置のスコアを計算する。
本ステップにおいて、前記把持位置クオリティ評価ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、図4は、本願の実施形態に係る把持位置クオリティ評価ネットワークのトレーニングフローチャートであり、図4に示すように、把持位置クオリティ評価ネットワークのトレーニングは、ステップ1041~ステップ1044を含む。
ステップS1041:目標物体を含むDepth画像を取得する。
本ステップにおいて、前記Depth画像は、RGB画像に基づいて取得したディープ画像であり、ここで、前記Depth画像と前記RGB画像は、ピクセルが1対1に対応する。
ステップS1042:前記Depth画像を予め設定した第3の解像度にスケーリングして、第3のトレーニングセットを取得する。
本ステップにおいて、ネットワーク構造に適応するように、前記Depth画像を予め設定した第3の解像度にスケーリングし、本願の実施例において、前記予め設定した第3の解像度は32*32の画素である。
ステップS1043:前記第3のトレーニングセット内のDepth画像から1対の把持点の位置をランダムに取るとともに、予め設定したスコアリングアルゴリズムを用いて対応する得点を取得する。
ステップS1044:前記Depth画像、把持点の位置及び把持点の位置に対応する得点を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、把持位置クオリティ評価ネットワークを取得する。
本ステップにおいて、前記畳み込みニューラルネットワークは9つの層を含み、ここで、4つは畳み込み層で、1つはプーリング層で、4つは全結合層である。前記把持位置クオリティ評価ネットワークから出力された得点及びステップS1043における前記予め設定したスコアリングアルゴリズムで取得した得点の対比に基づいて、前記把持位置クオリティ評価ネットワークの重みを調整する。
ステップS105:最高スコアに対応する最適把持位置をロボットのグローバル最適把持位置として選択する。
本実施例にて提供されるロボットの目標物体把持位置の検出方法は、目標物体セグメンテーションネットワークを使用して目標物体に対応する画素領域を取得し、前記目標物体に対応する画素領域を最適把持位置生成ネットワークに入力して、目標物体を把持する最適把持位置を取得するとともに、把持位置クオリティ評価ネットワークを用いて前記最適把持位置の得点を計算し、最高スコアに対応する最適把持位置をロボットのグローバル最適把持位置とし、本願により、ロボットが最適把持位置で目標物体を自動的に把持することを実現できる。
図5は、本願に係るロボットの目標物体把持位置の検出装置の実施例の機能ブロック図である。図5に示すように、当該装置は、収集モジュール501、セグメンテーションモジュール502、把持モジュール503、評価モジュール504及び選択モジュール505を含み、ここで、収集モジュール501は、目標物体の異なる視野角での目標RGB画像及び目標Depth画像を収集するために用いられ、ここで、前記目標RGB画像と目標Depth画像は、ピクセルが1対1に対応し、セグメンテーションモジュール502は、前記目標RGB画像の各々を目標物体セグメンテーションネットワークに入力して計算して、前記目標画像における目標物体のRGB画素領域及び前記目標Depth画像における目標物体のDepth画素領域を取得するために用いられ、把持モジュール503は、前記目標物体のRGB画素領域を最適把持位置生成ネットワークに入力して、前記目標物体を把持する最適把持位置を取得するために用いられ、評価モジュール504は、前記目標物体のDepth画素領域及び前記最適把持位置を把持位置クオリティ評価ネットワークに入力して、前記最適把持位置のスコアを計算するために用いられ、選択モジュール505は、最高スコアに対応する最適把持位置をロボットのグローバル最適把持位置として選択するために用いられる。
本実施例において、セグメンテーションモジュール502における目標物体セグメンテーションネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、具体的には、
目標物体を含むRGB画像を取得するステップと、
前記RGB画像を予め設定した第1の解像度にスケーリングして、第1のトレーニングセットを取得するステップと、
前記第1のトレーニングセット内の目標物体に対応する画素領域をマークするステップと、
前記第1のトレーニングセット及び前記目標物体に対応する画素領域を前記畳み込みニューラルネットワークモデル入力としてトレーニングして、前記目標物体セグメンテーションネットワークを取得するステップと、
前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域とマークした目標物体に対応する画素領域とに対して重複対比を行うステップと、
前記重複対比結果に基づいて前記目標物体セグメンテーションネットワークの重みを調整するステップと、を含む。
さらに、把持モジュール503における最適把持位置生成ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、具体的には、
前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域を予め設定した第2の解像度にスケーリングして、第2のトレーニングセットを取得するステップと、
前記第2のトレーニングセット内の画像に最適把持位置の座標を標識するステップと、
前記第2のトレーニングセット内の画像及びそれに対応する最適把持位置の座標を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、最適把持位置生成ネットワークを取得するステップと、を含む。
さらに、評価モジュール504における把持位置クオリティ評価ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、具体的には、
目標物体を含むDepth画像を取得するステップと、
前記Depth画像を予め設定した第3の解像度にスケーリングして、第3のトレーニングセットを取得するステップと、
前記第3のトレーニングセット内のDepth画像から1対の把持点の位置をランダムに取るとともに、予め設定したスコアリングアルゴリズムを用いて対応する得点を取得するステップと、
前記Depth画像、把持点の位置及び把持点の位置に対応する得点を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、把持位置クオリティ評価ネットワークを取得するステップと、を含む。
本実施例にて提供されるロボットの目標物体把持位置の検出装置は、セグメンテーションモジュールで目標物体に対応する画素領域を取得し、把持モジュールで目標物体を把持する最適把持位置を取得するとともに、評価モジュールで前記最適把持位置の得点を計算し、最高スコアに対応する最適把持位置をロボットのグローバル最適把持位置とし、本願により、ロボットが最適把持位置で目標物体を自動的に把持することを実現できる。
図6は、本願に係るコンピューティングデバイスの実施例の構造概略図であり、本願の具体的な実施例は、コンピューティングデバイスの具体的な実現を限定しない。
図6に示すように、当該コンピューティングデバイスは、プロセッサ(processor)602、通信用インタフェース(Communications Interface)604、メモリ(memory)606、及び通信バス608を含んでもよい。
ここで、プロセッサ602、通信用インタフェース604、及びメモリ606は通信バス608を介して互いに通信を行う。
通信用インタフェース604は、他のデバイスとの通信に用いられる。
プロセッサ602は、プログラム610を実行するために用いられ、具体的には、上記のロボットの目標物体把持位置の検出方法の実施例における関連ステップを実行できる。
具体的には、プログラム610は、コンピュータ動作コマンドを含むプログラムコードを含んでもよい。
プロセッサ602は、中央処理装置CPUであってもよく、又は特定用途向け集積回路ASIC(Application Specific Integrated Circuit)であってもよく、又は本願の実施例を実行する1つ又は複数の集積回路に構成されてもよい。コンピューティングデバイスは、1つ又は複数のプロセッサを含み、1つ又は複数のCPUのように同じタイプのプロセッサであってもよく、1つ又は複数のCPU及び1つ又は複数のASICのように異なるタイプのプロセッサであってもよい。
メモリ606は、プログラム610を格納するために用いられる。メモリ606は高速RAMメモリを含んでもよく、例えば、少なくとも1つのディスクメモリのような不揮発性メモリ(non-volatile memory)を含んでもよい。
プログラム610は、具体的には、
目標物体の異なる視野角での目標RGB画像及び目標Depth画像を収集し、ここで、前記目標RGB画像と目標Depth画像は、ピクセルが1対1に対応動作と、
前記目標RGB画像の各々を目標物体セグメンテーションネットワークに入力して計算することで、前記目標RGB画像における目標物体のRGB画素領域及び前記目標Depth画像における目標物体のDepth画素領域を取得する動作と、
前記目標物体のRGB画素領域を最適把持位置生成ネットワークに入力して、前記目標物体を把持する最適把持位置を取得する動作と、
前記目標物体のDepth画素領域及び前記最適把持位置を把持位置クオリティ評価ネットワークに入力して、前記最適把持位置のスコアを計算する動作と、
最高スコアに対応する最適把持位置をロボットのグローバル最適把持位置として選択する動作とをプロセッサ602に実行させるために用いられる。
好ましい一実施形態において、プログラム610は、具体的には、プロセッサ602に下記の動作を実行させるためにさらに用いられ、前記目標物体セグメンテーションネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、具体的には、
目標物体を含むRGB画像を取得するステップと、
前記RGB画像を予め設定した第1の解像度にスケーリングして、第1のトレーニングセットを取得するステップと、
前記第1のトレーニングセット内の目標物体に対応する画素領域をマークするステップと、
前記第1のトレーニングセット及び前記目標物体に対応する画素領域を前記畳み込みニューラルネットワークモデル入力としてトレーニングして、前記目標物体セグメンテーションネットワークを取得するステップと、
前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域とマークした目標物体に対応する画素領域とに対して重複対比を行うステップと、
前記重複対比結果に基づいて前記目標物体セグメンテーションネットワークの重みを調整するステップと、を含む。
好ましい一実施形態において、プログラム610は、具体的には、
前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域を予め設定した第2の解像度にスケーリングして、第2のトレーニングセットを取得する動作と、
前記第2のトレーニングセット内の画像に最適把持位置の座標を標識する動作と、
前記第2のトレーニングセット内の画像及びそれに対応する最適把持位置の座標を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、最適把持位置生成ネットワークを取得する動作とをプロセッサ602に実行させるためにさらに用いられる。
好ましい一実施形態において、プログラム610は、具体的には、
目標物体を含むDepth画像を取得する動作と、
前記Depth画像を予め設定した第3の解像度にスケーリングして、第3のトレーニングセットを取得する動作と、
前記第3のトレーニングセット内のDepth画像から1対の把持点の位置をランダムに取るとともに、予め設定したスコアリングアルゴリズムを用いて対応する得点を取得する動作と、
前記Depth画像、把持点の位置及び把持点の位置に対応する得点を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、把持位置クオリティ評価ネットワークを取得する動作とをプロセッサ602に実行させるためにさらに用いられる。
ここで提供されるアルゴリズム及び表示は、いずれかの特定のコンピュータ、仮想システム又は他のデバイスに固有の関連性を有しない。様々な汎用システムも、ここでの教示と併せて使用可能である。以上の説明から、このようなシステムの構築に必要な構造は明らかである。また、本願も、いかなる特定のプログラミング言語を対象としていない。なお、ここで説明する本願の内容は、様々なプログラミング言語によって実現されることが可能であり、また、特定の言語について行われた上記の説明は、本願の最適な実施形態を開示するためになされたものである。
ここで提供される明細書において、多くの具体的な詳細について説明している。しかしながら、これらの具体的な詳細なしで本願の実施例を実行できることが理解できる。一部の実例において、本明細書に対する理解を曖昧にしないように、公知の方法、構造及び技術は詳細に示されていない。
なお、同様に、本開示を簡潔にし、出願態様のうちの1つ又は2つ以上を理解しやすくするために、本願の例示的な実施例に対する上記の説明において、本願の各特徴は1つの実施例、図面又はそれに対する説明に一緒にまとめられる場合がある。しかしながら、この開示された方法は、特許請求の範囲に記載された本願の請求項が、各請求項に明示的に記載された特徴よりも多くの特徴を反映ものとして解釈されるべきではない。より具体的には、特許請求の範囲に反映されるように、出願態様は前に開示された単一の実施例の全ての特徴よりも少ない。したがって、具体的な実施形態に従う特許請求の範囲は、これを理由に当該発明を実施するための形態に明確に組み込み、ここで、特許請求の各々自体を本願の単独的な実施例とする。
当業者であれば、実施例のデバイスにおけるモジュールを適応的に変更し、且つこれらを当該実施例と異なる1つ又は2つ以上のデバイスに配置することができることは理解できる。実施例におけるモジュール又はユニット又はコンポーネントを1つのモジュール又はユニット又はコンポーネントに組み合わせてもよく、また、これらを複数のサブモジュール又はサブユニット又はサブコンポーネントにセグメント化してもよい。このような特徴及び/又はプロセス又はユニットにおける少なくとも一部が互いに排他的であるほかに、いかなる組み合わせを使用して、本明細書(添付された特許請求、要約及び添付図面を含む)に開示される全ての特徴及びこのように開示されるいずれの方法又はデバイスの全てのプロセス又はユニットを組み合わせることができる。特に明記しない限り、本明細書(添付された特許請求の範囲、要約及び添付図面を含む)に開示される各特徴を、同じ、均等又は類似の目的を提供する代替的な特徴により置き換えてもよい。
また、当業者であれば、本明細書に記載の一部の実施例は、他の特徴ではなく他の実施例に含まれる特徴を含むが、異なる実施例の特徴の組み合わせは本願の範囲内にあり、且つ異なる実施例を形成することを意味することは理解できる。例えば、下記の特許請求の範囲において、特許請求の範囲に記載された実施例のいずれも、いずれの組み合わせで使用することができる。
本願の各部材の実施例は、ハードウェアによって実現されてもよく、又は1つ又は複数のプロセッサ上で実行するソフトウェアモジュールによって実現されてもよく、又はそれらの組み合わせによって実現されてもよい。当業者であれば、実践においてマイクロプロセッサ又はデジタル信号プロセッサ(DSP)を用いて本願の実施例に係るロボットの目標物体把持位置の検出装置における一部又は全ての部材の一部又は全ての機能を実現できることを理解すべきである。本願は、ここで説明した方法の一部又は全部を実行するためのデバイス又は装置のプログラム(例えば、コンピュータプログラム及びコンピュータプログラム製品)としても実現可能である。本願を実現するこのようなプログラムは、コンピュータ可読媒体に格納されてもよいし、1つ又は複数の信号の形態を有してもよい。このような信号は、インターネットのホームページからダウンロードされてもよく、又はキャリア信号上で提供されてもよく、又はいずれかの他の形態で提供されてもよい。
なお、上記の実施例は、本願を限定するものではなく、それを説明するものであり、且つ、当業者は、添付された特許請求の範囲から逸脱することなく代替実施例を設計することができることに留意されたい。請求項において、括弧の間に位置するいずれかの参照符号は、特許請求を限定するものとして解釈されるべきではない。「含む」という単語は、請求項に記載されていない要素或いはステップの存在を排除するものではない。要素の前に位置する単語「1」又は「1つ」は、このような要素が複数存在することを排除するものではない。本願は、いくつかの異なる要素を含むハードウェア及び適正にプログラミングされたコンピュータによって実現されることができる。いくつかの装置のユニットを列挙した請求項において、これらの装置のうちのいくつかは、同一のハードウェア項目によって具現化されてもよい。単語第1、第2の、及び第3の等の使用は順序を意味するものではない。これらの単語は名称として解釈できる。

Claims (8)

  1. 収集モジュールにより、目標物体の異なる視野角での目標RGB画像及び目標Depth画像を収集し、ここで、前記目標RGB画像と目標Depth画像は、ピクセルが1対1に対応するステップと、
    セグメンテーションモジュールにより、前記目標RGB画像の各々を目標物体セグメンテーションネットワークに入力して計算することで、前記目標RGB画像における目標物体のRGB画素領域及び前記目標Depth画像における目標物体のDepth画素領域を取得するステップと、
    把持モジュールにより、前記目標物体のRGB画素領域を最適把持位置生成ネットワークに入力し、前記最適把持位置生成ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記最適把持位置生成ネットワークのトレーニングは、具体的には前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域を予め設定した第2の解像度にスケーリングして、第2のトレーニングセットを取得するステップと、前記第2のトレーニングセット内の画像に最適把持位置の座標を標識するように、まず、把持角度を定義し、続いて、各把持角度での最適把持位置を標識するステップと、前記第2のトレーニングセット内の画像及びそれに対応する最適把持位置の座標を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、最適把持位置生成ネットワークを取得するステップと、を含み、前記目標物体を把持する、定義された各把持角度での最適把持位置を取得するステップと、
    評価モジュールにより、前記目標物体のDepth画素領域及び前記最適把持位置を把持位置クオリティ評価ネットワークに入力して、前記目標物体を把持する、定義された各把持角度での前記最適把持位置のスコアを計算するステップと、
    選択モジュールにより、前記目標物体を把持する、定義された各把持角度での前記最適把持位置のスコアにおける最高スコアに対応する最適把持位置をロボットのグローバル最適把持位置として選択するステップと、を含むことを特徴とするロボットの目標物体把持位置の検出方法。
  2. 前記目標物体セグメンテーションネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記目標物体セグメンテーションネットワークのトレーニングは、具体的には、
    目標物体を含むRGB画像を取得するステップと、
    前記RGB画像を予め設定した第1の解像度にスケーリングして、第1のトレーニングセットを取得するステップと、
    前記第1のトレーニングセット内の目標物体に対応する画素領域をマークするステップと、
    前記第1のトレーニングセット及び前記目標物体に対応する画素領域を前記畳み込みニューラルネットワークモデル入力としてトレーニングして、前記目標物体セグメンテーションネットワークを取得するステップと、
    前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域とマークした目標物体に対応する画素領域とに対して重複対比を行うステップと、
    前記重複対比結果に基づいて前記目標物体セグメンテーションネットワークの重みを調整するステップと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記把持位置クオリティ評価ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記把持位置クオリティ評価ネットワークのトレーニングは、具体的には、
    目標物体を含むDepth画像を取得するステップと、
    前記Depth画像を予め設定した第3の解像度にスケーリングして、第3のトレーニングセットを取得するステップと、
    前記第3のトレーニングセット内のDepth画像から1対の把持点の位置をランダムに取るとともに、予め設定したスコアリングアルゴリズムを用いて対応する得点を取得するステップと、
    前記Depth画像、把持点の位置及び把持点の位置に対応する得点を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、把持位置クオリティ評価ネットワークを取得するステップと、を含むことを特徴とする請求項1に記載の方法。
  4. 目標物体の異なる視野角での目標RGB画像及び目標Depth画像を収集するために用いられ、ここで、前記目標RGB画像と目標Depth画像は、ピクセルが1対1に対応する収集モジュールと、
    前記目標RGB画像の各々を目標物体セグメンテーションネットワークに入力して計算することで、前記目標RGB画像における目標物体のRGB画素領域及び前記目標Depth画像における目標物体のDepth画素領域を取得するために用いられるセグメンテーションモジュールと、
    前記目標物体のRGB画素領域を最適把持位置生成ネットワークに入力し、前記最適把持位置生成ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記最適把持位置生成ネットワークのトレーニングは、具体的には、前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域を予め設定した第2の解像度にスケーリングして、第2のトレーニングセットを取得するステップと、前記第2のトレーニングセット内の画像に最適把持位置の座標を標識するように、まず、把持角度を定義し、続いて、各把持角度での最適把持位置を標識するステップと、前記第2のトレーニングセット内の画像及びそれに対応する最適把持位置の座標を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、最適把持位置生成ネットワークを取得するステップを含み、前記目標物体を把持する、定義された各把持角度での最適把持位置を取得するために用いられる把持モジュールと、
    前記目標物体のDepth画素領域及び前記最適把持位置を把持位置クオリティ評価ネットワークに入力して、前記目標物体を把持する、定義された各把持角度での前記最適把持位置のスコアを計算するために用いられる評価モジュールと、
    前記目標物体を把持する、定義された各把持角度での前記最適把持位置のスコアにおける最高スコアに対応する最適把持位置をロボットのグローバル最適把持位置として選択するために用いられる選択モジュールと、を含むことを特徴とするロボットの目標物体把持位置の検出装置。
  5. 前記セグメンテーションモジュールにおける目標物体セグメンテーションネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記目標物体セグメンテーションネットワークのトレーニングは、具体的には、
    目標物体を含むRGB画像を取得するステップと、
    前記RGB画像を予め設定した第1の解像度にスケーリングして、第1のトレーニングセットを取得するステップと、
    前記第1のトレーニングセット内の目標物体に対応する画素領域をマークするステップと、
    前記第1のトレーニングセット及び前記目標物体に対応する画素領域を前記畳み込みニューラルネットワークモデル入力としてトレーニングして、前記目標物体セグメンテーションネットワークを取得するステップと、
    前記目標物体セグメンテーションネットワークが取得した目標物体に対応するRGB画素領域とマークした目標物体に対応する画素領域とに対して重複対比を行うステップと、
    前記重複対比結果に基づいて前記目標物体セグメンテーションネットワークの重みを調整するステップと、を含むことを特徴とする請求項4に記載の装置。
  6. 前記評価モジュールにおける把持位置クオリティ評価ネットワークは、畳み込みニューラルネットワークモデルに基づいてトレーニングしたネットワークであり、前記把持位置クオリティ評価ネットワークのトレーニングは、具体的には、
    目標物体を含むDepth画像を取得するステップと、
    前記Depth画像を予め設定した第3の解像度にスケーリングして、第3のトレーニングセットを取得するステップと、
    前記第3のトレーニングセット内のDepth画像から1対の把持点の位置をランダムに取るとともに、予め設定したスコアリングアルゴリズムを用いて対応する得点を取得するステップと、
    前記Depth画像、把持点の位置及び把持点の位置に対応する得点を入力とし、畳み込みニューラルネットワークモデルに基づいてトレーニングして、把持位置クオリティ評価ネットワークを取得するステップと、を含むことを特徴とする請求項4に記載の装置。
  7. プロセッサ、メモリ、通信用インタフェース及び通信バスを含み、前記プロセッサ、前記メモリ及び前記通信用インタフェースは、前記通信バスを介して互いに通信を行い、ここで、
    前記メモリは、少なくとも1つの実行可能なコマンドを格納するために用いられ、前記実行可能なコマンドは、前記プロセッサに請求項1~3のいずれか一項に記載のロボットの目標物体把持位置の検出方法に対応する動作を実行させる、コンピューティングデバイス。
  8. 前記記憶媒体には、少なくとも1つの実行可能なコマンドが記憶されており、前記実行可能なコマンドがプロセッサに請求項1~3のいずれか一項に記載のロボットの目標物体把持位置の検出方法に対応する動作を実行させる、コンピュータ可読記憶媒体。
JP2020543212A 2018-12-12 2019-11-06 ロボットの目標物体把持位置の検出方法 Active JP7085726B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811518381.7A CN109658413B (zh) 2018-12-12 2018-12-12 一种机器人目标物体抓取位置检测的方法
CN201811518381.7 2018-12-12
PCT/CN2019/115959 WO2020119338A1 (zh) 2018-12-12 2019-11-06 机器人目标物体抓取位置检测的方法

Publications (2)

Publication Number Publication Date
JP2021517681A JP2021517681A (ja) 2021-07-26
JP7085726B2 true JP7085726B2 (ja) 2022-06-17

Family

ID=66113814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020543212A Active JP7085726B2 (ja) 2018-12-12 2019-11-06 ロボットの目標物体把持位置の検出方法

Country Status (4)

Country Link
US (1) US11878433B2 (ja)
JP (1) JP7085726B2 (ja)
CN (1) CN109658413B (ja)
WO (1) WO2020119338A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658413B (zh) * 2018-12-12 2022-08-09 达闼机器人股份有限公司 一种机器人目标物体抓取位置检测的方法
US11185978B2 (en) * 2019-01-08 2021-11-30 Honda Motor Co., Ltd. Depth perception modeling for grasping objects
CN110136163B (zh) * 2019-04-29 2021-02-12 中国科学院自动化研究所 手部运动模糊自动抠图及在人体软分割和背景更换的应用
CN112101075B (zh) * 2019-06-18 2022-03-25 腾讯科技(深圳)有限公司 信息植入区域的识别方法、装置、存储介质及电子设备
CN110348333A (zh) * 2019-06-21 2019-10-18 深圳前海达闼云端智能科技有限公司 物体检测方法、装置、存储介质及电子设备
CN111359915B (zh) * 2020-03-24 2022-05-24 广东弓叶科技有限公司 基于机器视觉的物料分选方法及***
CN111783537A (zh) * 2020-05-29 2020-10-16 哈尔滨莫迪科技有限责任公司 一种基于目标检测特征的两阶段快速抓取检测方法
CN111652118B (zh) * 2020-05-29 2023-06-20 大连海事大学 基于水下目标近邻分布的海产品自主抓取引导方法
WO2022015807A1 (en) 2020-07-14 2022-01-20 Vicarious Fpc, Inc. Method and system for object grasping
US20220019852A1 (en) 2020-07-14 2022-01-20 Vicarious Fpc, Inc. Method and system for generating training data
US11559885B2 (en) 2020-07-14 2023-01-24 Intrinsic Innovation Llc Method and system for grasping an object
US12017368B2 (en) * 2020-09-09 2024-06-25 Fanuc Corporation Mix-size depalletizing
CN112297013B (zh) * 2020-11-11 2022-02-18 浙江大学 一种基于数字孪生和深度神经网络的机器人智能抓取方法
CN112613478B (zh) * 2021-01-04 2022-08-09 大连理工大学 一种面向机器人抓取的数据主动式选择方法
CN113781493A (zh) * 2021-01-04 2021-12-10 北京沃东天骏信息技术有限公司 图像处理方法、装置、电子设备、介质及计算机程序产品
CN112861667A (zh) * 2021-01-26 2021-05-28 北京邮电大学 一种基于多类别目标分割的机器人抓取检测方法
CN112802105A (zh) * 2021-02-05 2021-05-14 梅卡曼德(北京)机器人科技有限公司 对象抓取方法及装置
CN113160313A (zh) * 2021-03-03 2021-07-23 广东工业大学 一种透明物体抓取控制方法、装置、终端及存储介质
US12036678B2 (en) * 2021-05-25 2024-07-16 Fanuc Corporation Transparent object bin picking
CN113327295A (zh) * 2021-06-18 2021-08-31 华南理工大学 一种基于级联全卷积神经网络的机器人快速抓取方法
CN113506314B (zh) * 2021-06-25 2024-04-09 北京精密机电控制设备研究所 一种复杂背景下对称四边形工件的自动抓取方法及装置
US20220410381A1 (en) * 2021-06-29 2022-12-29 Intrinsic Innovation Llc Systems and methods for picking objects using 3-d geometry and segmentation
CN113591841B (zh) * 2021-07-09 2024-07-19 上海德托智能工程有限公司 定位方法、装置、计算机设备及计算机可读存储介质
CN113326666B (zh) * 2021-07-15 2022-05-03 浙江大学 基于卷积神经网络可微分结构搜寻的机器人智能抓取方法
CN113744333B (zh) * 2021-08-20 2024-02-13 北京航空航天大学 一种物体抓取位置获取方法及装置
CN113420746B (zh) * 2021-08-25 2021-12-07 中国科学院自动化研究所 机器人视觉分拣方法、装置、电子设备和存储介质
CN113762159B (zh) * 2021-09-08 2023-08-08 山东大学 一种基于有向箭头模型的目标抓取检测方法及***
NL2029461B1 (en) * 2021-10-19 2023-05-16 Fizyr B V Automated bin-picking based on deep learning
CN113920142B (zh) * 2021-11-11 2023-09-26 江苏昱博自动化设备有限公司 一种基于深度学习的分拣机械手多物体分拣方法
CN116416444B (zh) * 2021-12-29 2024-04-16 广东美的白色家电技术创新中心有限公司 物体抓取点估计、模型训练及数据生成方法、装置及***
CN114683251A (zh) * 2022-03-31 2022-07-01 上海节卡机器人科技有限公司 机器人抓取方法、装置、电子设备及可读取存储介质
CN114426923B (zh) * 2022-03-31 2022-07-12 季华实验室 一种环境病毒采样机器人及方法
CN114750154A (zh) * 2022-04-25 2022-07-15 贵州电网有限责任公司 一种配网带电作业机器人的动态目标识别定位与抓取方法
CN115108117B (zh) * 2022-05-26 2023-06-27 盈合(深圳)机器人与自动化科技有限公司 一种切割方法、***、终端及计算机存储介质
CN114782827B (zh) * 2022-06-22 2022-10-14 中国科学院微电子研究所 一种基于图像的物体抓取点获取方法和装置
CN115147488B (zh) * 2022-07-06 2024-06-18 湖南大学 一种基于密集预测的工件位姿估计方法与抓取***
CN116399871B (zh) * 2023-04-19 2023-11-14 广州市阳普机电工程有限公司 一种基于机器视觉的汽车零部件装配检测***及方法
CN116950429B (zh) * 2023-07-31 2024-07-23 中建八局发展建设有限公司 一种大型拼接墙快速定位拼接方法、介质及***
CN116749241B (zh) * 2023-08-16 2023-11-07 苏州视谷视觉技术有限公司 一种机器视觉高精度定位抓取装置
CN117067219B (zh) * 2023-10-13 2023-12-15 广州朗晴电动车有限公司 一种电车车身成型的钣金机械臂控制方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780605A (zh) 2016-12-20 2017-05-31 芜湖哈特机器人产业技术研究院有限公司 一种基于深度学习机器人的目标物抓取位置的检测方法
CN106874914A (zh) 2017-01-12 2017-06-20 华南理工大学 一种基于深度卷积神经网络的工业机械臂视觉控制方法
US20170334066A1 (en) 2016-05-20 2017-11-23 Google Inc. Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment
US10089575B1 (en) 2015-05-27 2018-10-02 X Development Llc Determining grasping parameters for grasping of an object by a robot grasping end effector
WO2018221614A1 (ja) 2017-05-31 2018-12-06 株式会社Preferred Networks 学習装置、学習方法、学習モデル、推定装置及び把持システム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5325468A (en) * 1990-10-31 1994-06-28 Sanyo Electric Co., Ltd. Operation planning system for robot
JP6529302B2 (ja) * 2015-03-24 2019-06-12 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
US10166676B1 (en) * 2016-06-08 2019-01-01 X Development Llc Kinesthetic teaching of grasp parameters for grasping of objects by a grasping end effector of a robot
JP6665040B2 (ja) * 2016-06-20 2020-03-13 三菱重工業株式会社 ロボット制御システム及びロボット制御方法
CN106041937B (zh) * 2016-08-16 2018-09-14 河南埃尔森智能科技有限公司 一种基于双目立体视觉的机械手抓取控制***的控制方法
CN107972026B (zh) * 2016-10-25 2021-05-04 河北亿超机械制造股份有限公司 机器人、机械臂及其控制方法和装置
CN106737692B (zh) * 2017-02-10 2020-04-03 杭州迦智科技有限公司 一种基于深度投影的机械手爪抓取规划方法及控制装置
US11011077B2 (en) * 2017-06-29 2021-05-18 Verb Surgical Inc. Virtual reality training, simulation, and collaboration in a robotic surgical system
CN108229678B (zh) * 2017-10-24 2021-04-06 深圳市商汤科技有限公司 网络训练方法、操作控制方法、装置、存储介质和设备
CN108058172A (zh) * 2017-11-30 2018-05-22 深圳市唯特视科技有限公司 一种基于自回归模型的机械手抓取方法
CN108280856B (zh) * 2018-02-09 2021-05-07 哈尔滨工业大学 基于混合信息输入网络模型的未知物体抓取位姿估计方法
CN108247601A (zh) * 2018-02-09 2018-07-06 中国科学院电子学研究所 基于深度学习的语义抓取机器人
CN108648233B (zh) * 2018-03-24 2022-04-12 北京工业大学 一种基于深度学习的目标识别与抓取定位方法
CN108510062A (zh) * 2018-03-29 2018-09-07 东南大学 一种基于级联卷积神经网络的机器人非规则物体抓取位姿快速检测方法
CN109658413B (zh) * 2018-12-12 2022-08-09 达闼机器人股份有限公司 一种机器人目标物体抓取位置检测的方法
JP7015265B2 (ja) * 2019-03-14 2022-02-02 ファナック株式会社 コネクタを含むワークを把持する作業ツールおよび作業ツールを備えるロボット装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089575B1 (en) 2015-05-27 2018-10-02 X Development Llc Determining grasping parameters for grasping of an object by a robot grasping end effector
US20170334066A1 (en) 2016-05-20 2017-11-23 Google Inc. Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment
CN106780605A (zh) 2016-12-20 2017-05-31 芜湖哈特机器人产业技术研究院有限公司 一种基于深度学习机器人的目标物抓取位置的检测方法
CN106874914A (zh) 2017-01-12 2017-06-20 华南理工大学 一种基于深度卷积神经网络的工业机械臂视觉控制方法
WO2018221614A1 (ja) 2017-05-31 2018-12-06 株式会社Preferred Networks 学習装置、学習方法、学習モデル、推定装置及び把持システム

Also Published As

Publication number Publication date
CN109658413A (zh) 2019-04-19
WO2020119338A1 (zh) 2020-06-18
CN109658413B (zh) 2022-08-09
JP2021517681A (ja) 2021-07-26
US20210023720A1 (en) 2021-01-28
US11878433B2 (en) 2024-01-23

Similar Documents

Publication Publication Date Title
JP7085726B2 (ja) ロボットの目標物体把持位置の検出方法
CN108846826B (zh) 物体检测方法、装置、图像处理设备及存储介质
JP6188400B2 (ja) 画像処理装置、プログラム及び画像処理方法
CN107545263B (zh) 一种物体检测方法及装置
CN109840883B (zh) 一种训练物体识别神经网络的方法、装置及计算设备
CN106845338B (zh) 视频流中行人检测方法与***
CN109323709B (zh) 视觉里程计方法、装置和计算机可读存储介质
CN111008576B (zh) 行人检测及其模型训练、更新方法、设备及可读存储介质
CN111292334B (zh) 一种全景图像分割方法、装置及电子设备
WO2023124278A1 (zh) 图像处理模型的训练方法、图像分类方法及装置
WO2015012896A1 (en) Gesture recognition method and apparatus based on analysis of multiple candidate boundaries
JP2022047508A (ja) 複数の透明対象物の三次元検出
CN111275758B (zh) 混合型3d视觉定位方法、装置、计算机设备及存储介质
CN116912608A (zh) 基于Transformer-CNN混合架构的RGB-D跨模态交互融合机械臂抓取检测方法
CN114029941B (zh) 一种机器人抓取方法、装置、电子设备及计算机介质
CN113762159B (zh) 一种基于有向箭头模型的目标抓取检测方法及***
Sun et al. Uni6Dv2: Noise elimination for 6D pose estimation
JP7294454B2 (ja) オブジェクト検出方法及びオブジェクト検出装置
CN114638891A (zh) 基于图像和点云融合的目标检测定位方法与***
CN112101185B (zh) 一种训练皱纹检测模型的方法、电子设备及存储介质
WO2021164615A1 (en) Motion blur robust image feature matching
WO2021179905A1 (en) Motion blur robust image feature descriptor
CN113033256B (zh) 一种指尖检测模型的训练方法和设备
CN114049318A (zh) 一种基于多模态融合特征的抓取位姿检测方法
CN114821777A (zh) 一种手势检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200812

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220520

R150 Certificate of patent or registration of utility model

Ref document number: 7085726

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150