JP2020527270A - オブジェクト姿勢を決定するための電子デバイス、システムおよび方法 - Google Patents

オブジェクト姿勢を決定するための電子デバイス、システムおよび方法 Download PDF

Info

Publication number
JP2020527270A
JP2020527270A JP2020502372A JP2020502372A JP2020527270A JP 2020527270 A JP2020527270 A JP 2020527270A JP 2020502372 A JP2020502372 A JP 2020502372A JP 2020502372 A JP2020502372 A JP 2020502372A JP 2020527270 A JP2020527270 A JP 2020527270A
Authority
JP
Japan
Prior art keywords
image data
view
scene
electronic device
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020502372A
Other languages
English (en)
Other versions
JP6955081B2 (ja
Inventor
マイアー スベン
マイアー スベン
訓成 小堀
訓成 小堀
ケール バディム
ケール バディム
Original Assignee
トヨタ モーター ヨーロッパ
トヨタ モーター ヨーロッパ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トヨタ モーター ヨーロッパ, トヨタ モーター ヨーロッパ filed Critical トヨタ モーター ヨーロッパ
Publication of JP2020527270A publication Critical patent/JP2020527270A/ja
Application granted granted Critical
Publication of JP6955081B2 publication Critical patent/JP6955081B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/76Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】オブジェクト姿勢を決定する電子デバイス。
【解決手段】電子デバイスは、光学センサ(3)の、シーン内のオブジェクト(O)を表す3D画像データを受信し、3D画像データに基づいて、光学センサの位置に対するオブジェクト姿勢を推定し、推定されたオブジェクト姿勢に基づいて、所定の3Dオブジェクトモデルの所定のビュー位置のセットから最も近いものを識別し、識別された最も近いビュー位置に基づいて、シーン内のオブジェクト姿勢を決定するように構成されている。本発明はさらに、システムおよび方法に関する。
【選択図】図4

Description

本開示は、オブジェクト姿勢を決定する、特に、シーン内の非静止オブジェクト姿勢を認識するための電子デバイス、システムおよび方法に関する。ここで、オブジェクト姿勢は事前定義されていない。
多くの分野で、自動化はますます重要になっており、それは、ロボット工学の必要性が高まっていることも意味する。一方、ロボットシステムは産業分野で一般的になっているが、それらの、例えば、日常生活の中で個々のユーザーにサービスを提供するための使用は、家庭内の環境ではまだかなり一般的ではない。しかしながら、また、この分野では、ロボットシステムに対する高い需要がある。例えば、ロボットシステムは、高齢者が特定のオブジェクト、例えば、鉛筆を見つけて、手にするのに役立つ。
家庭内でのロボットシステムの使用に関する1つの問題は、産業用アプリケーションとは対照的に、多くのタスクは標準化できない、つまり、事前定義し、厳密に制御することができないことである。したがって、ロボットシステムは、個々に異なるタスクを実行できる必要がある。さらに、家庭内の動作条件、例えば点灯、オブジェクトの配置などはより困難である。他の領域でも、ロボットシステムが使用されている場合、関心のあるオブジェクト姿勢が、不明、つまり、強制的に事前定義されていない場合がある。
ロボットシステムの重要な側面は、したがって、特定のオブジェクトを見つけて認識する機能である。任意の場所および任意の方向に配置できる。この目的のために、ロボットシステムは光学センサを備えてもよく、移動可能であってもよい。例えば、駆動可能な車輪を有することができる。
さらなる課題は、オブジェクト、例えば、検知されたシーンで認識されたオブジェクト姿勢を決定することである。正確な姿勢(特に6D姿勢)を決定することは、オブジェクトを拾い上げる場合、またはロボットシステムによって操作する場合、有利であることができる。
反復最近傍点(ICP)アルゴリズムは、点群や法線など、つまり、3D RGBデータの2つの形状を一致させるためのアルゴリズムの一例である。このタイプのデータは、ロボット工学アプリケーションで一般的に使用され、オブジェクト認識中の姿勢調整に使用される主要なコンポーネントアルゴリズムを構成する。
既知のオブジェクト認識においては、ICPアルゴリズムを使用して、ロボットの3D(RGB−D)センサから来る点群をターゲットオブジェクトの既知のモデルの点群と一致させる。アルゴリズムの出力は、観測されたデータに最適にフィットするモデルの変換である。これは、モデルベースのICPと呼ばれる。したがって、このようなオブジェクト検出シナリオでは、1つの点群がモデル仮説から得られ、センサからのクラウドデータをポイントするように調整する必要がある。以下では、これを「シーン」と呼ぶ。
しかしながら、そのような従来のアプローチは、発信元ポイントクラウドと宛先ポイントクラウドのポイント間の対応の発見において計算コストがかかる。最も近い一致を見つけるには、すべてのポイントペア間の距離を計算する必要があるためである。特に、リアルタイムシナリオでの使用は難しい場合がある。レンダリング手順の実行にはコストがかかるため、望ましくない遅延が発生する可能性があるためである。
ポイントツープレーンアプローチを使用したオブジェクト認識ICP技術が知られている。例えば、ヤン・チェン、ジェラルド・メディオーニ、「複数の距離画像の登録によるオブジェクトモデリング(Object Modeling by Registration of Multiple Range Images)」International Journal of Image and Vision Computing,10(3),pp.145−155,1992.を参照。
この比較方法を加速するために、KDツリー(k次元ツリー)アルゴリズムを使用することが知られている。しかしながら、KDツリー自体を使用するには、前述のツリーを構築する必要があり、また、メモリと時間の面でも計算コストがかかる。この例は、K. Tateno, D. Kotake, and S. Uchiyama.「オンラインテクスチャ更新によるモデルベースの3Dオブジェクトトラッキング(Model−based 3D Object Tracking with Online Texture Update)」、MVA,2009である。
US2012114251(A1)は、統計形状モデルを使用して3Dオブジェクトの2D表現から3D形状を回復し、復元された3D形状をオブジェクトクラスの少なくとも1つのオブジェクトの既知の3Dから2Dへの表現と比較する、特定のオブジェクトクラスの3Dオブジェクトのオブジェクト認識のためのシステムを開示する。
現在、特に、オブジェクト姿勢認識中に、例えば、リアルタイムのシナリオで計算の労力を削減する必要があるオブジェクト姿勢を決定する電子デバイス、システムおよび方法を提供することが依然として望ましい。
したがって、本開示の実施形態によれば、オブジェクト姿勢を決定するための電子デバイスが提供される。電子デバイスは、
− 光学センサの3D画像データを受信し、
− 3D画像データに基づいて、光学センサの位置に対するオブジェクト姿勢を推定し、
− 推定されたオブジェクト姿勢に基づいて、所定の3Dオブジェクトモデルの所定のビュー位置のセットから最も近いものを識別し、
− 識別された最も近いビュー位置に基づいて、シーン内のオブジェクト姿勢を決定する
ように構成されている。
そのような電子デバイスを提供することにより、2つの形状、点群や法線など、つまり、3D RGBデータのマッチングのアルゴリズムのより高速な実装が、供給される。このタイプのデータは、ロボット工学アプリケーションで一般的に使用され、オブジェクト認識中に、姿勢の調整に使用されるアルゴリズムの重要なコンポーネントを構成する。
言い換えると、本開示によれば、モデルの所定のビュー(したがって、事前に決定されたビュー)位置を取得するために、モデルが、望ましくは事前にレンダリングされる。その結果、姿勢認識では、さらに時間のかかるレンダリングの必要なしに、このデータは姿勢調整に使用することが望ましい。これにより、この方法はリアルタイムシナリオに対して、特に興味深いものになる。コストのかかるレンダリング手順を削減したり、オブジェクト姿勢認識中に回避したりすることもできるためである。
したがって、本開示により提案される概念およびアルゴリズムは、従来のKDツリー手法の代わりにICPで使用できる。特に、本開示の概念およびアルゴリズムは、検知されたオブジェクトの点群とオブジェクトモデルとの間の対応関係の取得に使用できる。
光学センサは、オブジェクトが存在するシーンを感知することが望ましい。
光学センサの位置に対するオブジェクト姿勢を推定することにより、オブジェクト姿勢(つまり、オブジェクト空間内)に対する対応する光学センサの位置を、同時に推定することが望ましい。
所定の3Dオブジェクトモデルの所定のビュー位置のセットから最も近いものの識別は、推定されたオブジェクト姿勢に基づいている。さらに、3D画像データに基づいて、異なるビュー位置から見たとき、オブジェクト(O)および/またはオブジェクトモデルの事前レンダリング画像データを表すことができる。特に、オブジェクトを表す3D画像データ(O)を、オブジェクトモデルの画像データと比較することができる(ビューごとに1つのデータセット、各データセットとの比較)。推定されたオブジェクト姿勢は、決定する姿勢を見つけるためのガイドとして、および/または開始点として識別プロセスで使用できる。所定の視点位置は、そこからオブジェクトが見える所定の視点であることが望ましい。所定のビュー位置は、オブジェクトの1つまたは複数の軌道上、またはオブジェクトの球上で、互いに等距離に分布していることができる。例えば、数百(例えば、300以上)のビュー位置があり得る。
光学センサ(3)の3D画像データは、点群を含むことができ、および/または、3Dオブジェクトモデルは点群を含むことができる。
したがって、最も近いビューを識別するため、および/またはオブジェクト姿勢を決定するために、これらの点群は互いに比較される、または、3D画像データのレンダリングされた点群のデータセットは、モデルのポイントクラウドの事前レンダリングビューのデータセットと比較できる。
オブジェクト姿勢の推定は、シーン内の姿勢を推定することにより、オブジェクト姿勢仮説を決定し、姿勢仮説に基づいて、光学センサの位置に対するオブジェクト姿勢を推定することを含むことができる。
オブジェクト姿勢の推定または3D画像データの受信は、受信した3D画像データに基づいてシーン内のオブジェクトを認識することを含むことができる。
したがって、オブジェクト認識はプロセスの最初に実行され、例えば3D画像が受信されたとき、または、最も近いビューの識別の実行中(または実行前)に実行される。または、デバイスは3D画像データを受信できる。ここで、これらのデータには、認識されたオブジェクトに関する情報がすでに含まれている。
事前定義されたビュー位置のセットから最も近いものを識別することは、オブジェクト空間でのセンサの位置(つまり、その姿勢または6D姿勢)の決定、および、所定のビュー位置のセットから最適なビューを見つけること、に基づくものであることができる。
したがって、センサビューの(望ましくレンダリングされた)データと、事前定義されたさまざまなビューのモデルの(事前)レンダリングデータとの単純な比較を、所定のビュー位置の最も近い位置を識別するために、実行することができる。
所定のビュー位置のセットのそれぞれは、再符号化されたデータセットにリンクすることができる。上記再符号化されたデータセットは、ビュー位置から見たときオブジェクトモデルのレンダリングされた画像データを表す。
例えば、所定のビュー位置のセットは、1つまたは複数のルックアップテーブル(ビュー位置ごとに1つなど)において、再符号化されたデータセットにリンクされることができる。この電子デバイスは、上記のルックアップテーブルを提供する、および/または再符号化されたデータセットにリンクされた所定のビュー位置のセットを提供するデータストレージを備えることができる。ルックアップテーブルは、再符号化されたデータセットを含むことができる。
再符号化されたデータセットのレンダリングされた画像データは、オブジェクトモデルのサブサンプリングされた点群、モデルのサブサンプリングされた輪郭、および/または、モデルのサブサンプリングされた表面モデルを含むことができる。
所定のビュー位置のセットから最も近いものを識別することは、所定のビュー位置のそれぞれについて、リンクされた再符号化データセットのレンダリングされた画像データをシーンにプロジェクトすることと、レンダリングされた画像データをシーン内のオブジェクトを表す3D画像データと比較することと、所定のビュー位置のどれに対して、レンダリングされた画像データと、そのシーンにおけるオブジェクトを表す3D画像データとの間の偏差が最小値に達するかを決定することと、を含むことができる。
前記偏差は、最小化されるエラーとも呼ぶことができる。
画像データは、可視光画像と深度画像のペアを含むことができる。これらのデータは、デバイスへの入力データであり得る。
可視光画像は、電磁スペクトルの可視部分、特に人間の視覚システムによって処理される3つのバンド(RGB:赤、緑、青)を含むことがあり得る。
オブジェクト姿勢は、x,y,z位置情報および、θ,φ,Ψ回転情報であることができる。
より一般的には、オブジェクト姿勢は、場所の数学的記述および座標系でのオブジェクトの向きであり得る。
シーン内のオブジェクト姿勢を決定することは、所定の3Dオブジェクトモデルの所定のビュー位置のセットから、識別された最も近いビューに基づく、θ,φ,Ψ回転情報を決定すること、および/または、モデルをシーンに最も近いビューでプロジェクトすることに基づく,x,y,z位置情報を決定すること、および、プロジェクトモデルとシーン内のオブジェクトを表す3D画像データを比較することを含むことができる。
本開示はさらに、オブジェクト姿勢を決定するためのシステムに関する。このシステムは、
● 特に上記のような電子デバイス、および、
● オブジェクトを検知するように構成された光学センサを備える。このセンサは特に3Dカメラまたはステレオカメラである。
したがって、このシステムは。オブジェクトを自律的に認識して位置特定し、特に、上記オブジェクト姿勢を決定するように構成することができる。たとえば、オブジェクトを取得する手段などを備える移動可能なロボットシステムとして実現することができる。
本開示はさらに、オブジェクト姿勢を決定する方法に関する。この方法は、
● 光学センサ(3)の3D画像データを受信するステップであって、シーン内のオブジェクト(O)を表すステップと、
● 3D画像データに基づいて、前記光学センサの位置に関する前記オブジェクト姿勢の推定するステップと、
● 推定されたオブジェクト姿勢に基づいて、所定の3Dオブジェクトモデルの所定のビュー位置のセットから最も近いものを識別するステップと、
● 前記識別された最も近いビュー位置に基づいて、前記シーン内の前記オブジェクト姿勢を決定するステップと、
を含む。
この方法は、オブジェクトモデルの複数のビュー位置を決定するステップと、所定のビュー位置のセットの各ビュー位置に対して、所定のビュー位置のセットを形成するステップと、再符号化されたデータセットを決定するステップであって、該再符号化されたデータセットは、前記ビュー位置から見たときオブジェクトモデルのレンダリングされた画像データを表す、ステップと、前記ビュー位置を前記再符号化されたデータセットにリンクするステップと、をさらに含むことができる。
したがって、所定のビュー位置のセットおよび/または関連する再符号化済みデータセットを、事前に決定することができる。これらのデータは、オブジェクト姿勢の決定方法において、つまり、オブジェクト姿勢認識にこの方法を使用中において使用することができる。
この方法は、上記の電子デバイスの機能に対応する、さらなる方法ステップを含み得る。さらに望ましい方法のステップを以下に説明する。
光学センサ(3)の3D画像データは、点群を含むことができ、および/または、3Dオブジェクトモデルは点群を含む。
オブジェクト姿勢を推定するステップは、シーン内の姿勢を推定することにより、オブジェクト姿勢仮説を決定するステップと、姿勢仮説に基づいて、光学センサの位置に対するオブジェクト姿勢の推定するステップとを含むことができる。
オブジェクト姿勢を推定するステップまたは3D画像データを受信するステップは、受信した3D画像データに基づいてシーン内のオブジェクトを認識するステップを含むことができる。
所定のビュー位置のセットから最も近いものを識別するステップは、オブジェクト空間内におけるセンサの位置(つまり、その姿勢または6D姿勢)の決定、および、所定のビュー位置のセットからの最適なビューの発見に基づくことができる。
所定のビュー位置のセットのそれぞれは、再符号化されたデータセットにリンクすることができる。上記再符号化されたデータセットは、ビュー位置から見たときオブジェクトモデルのレンダリングされた画像データを表す。
再符号化されたデータセットのレンダリングされた画像データは、オブジェクトモデルのサブサンプリングされた点群、モデルのサブサンプリングされた輪郭、および/または、モデルのサブサンプリングされた表面モデルを含む。
所定のビュー位置のセットから最も近いものを識別するステップは、所定のビュー位置のそれぞれについて、リンクされた再符号化データセットのレンダリングされた画像データをシーンにプロジェクトし、レンダリングされた画像データをシーン内のオブジェクトを表す3D画像データと比較し、および、所定のビュー位置のどれに対して、レンダリングされた画像データと、そのシーンのオブジェクトを表す3D画像データとの間の偏差が、最小値に達するかを決定すること、を含むことができる。
画像データは、可視光画像と深度画像のペアを含むことができる。これらのデータは、デバイスへの入力データであり得る。
オブジェクト姿勢は、x,y,z位置情報および、θ,φ,Ψ回転情報であることができる。
シーン内のオブジェクト姿勢を決定するステップには、所定の3Dオブジェクトモデルの所定のビュー位置のセットから、識別された最も近いビューに基づいた、θ,φ,Ψ回転情報を決定するステップと、および/または、そのシーンへの、最も近いビューにおけるモデルのプロジェクトに基づく、x,y,z位置情報を決定するステップと、および、プロジェクトモデルとシーン内のオブジェクトを表す3D画像データを比較するステップと、が含まれる。
上記の要素の組み合わせが意図されており、また、明細書内のものを作成することができる。ただし、矛盾が生じるような場合を除く。
前述の一般的な説明の両方および、以下の詳細な説明は、単なる例示および説明であり、開示を制限するものではなく、請求項に記載のとおりであることが理解されるべきである。
添付図面は、本願明細書に組み込まれ、その一部を構成し、本開示の実施形態を説明とともに、図示するものであり、そして、その原理を説明するのに役立つものである。
図1は、本開示の実施形態による、電子デバイスを備えたシステムのブロック図を示している。 図2aおよび図2bは、本開示の実施形態による、例示的なシーンを示しており(図2a)、オブジェクト姿勢は、事前にレンダリングされたオブジェクトモデルを使用して決定される(図2b)。 図2aおよび図2bは、本開示の実施形態による、例示的なシーンを示しており(図2a)、オブジェクト姿勢は、事前にレンダリングされたオブジェクトモデルを使用して決定される(図2b)。 図3は、オブジェクトモデルの(準備/事前レンダリング)オフライン処理の典型的な方法を図示する概略的フローチャートを示す。 図4は、オブジェクト姿勢が決定される、(使用中の)画像データのオンライン処理の例示的な方法を図示する概略的フローチャートを示す。 図5は、図4の方法で使用される姿勢仮説の更新の例示的な方法を示す概略フローチャートを示す。
次に、本開示の例示的な実施形態を詳細に参照し、その例を添付の図面に示す。図面全体を通して、可能な限り、同じまたは同様の部品を参照するために同じ参照番号が使用される。
図1は、本開示の実施形態によれば、電子デバイス1を備えたシステム30のブロック図を示す。システムは、さまざまな機能を有するロボットシステム10を備えることができる。例えば、それは、駆動可能な車輪があって、移動可能であり得る。また、オブジェクトを取得するための手段例えば少なくとも1つのグリッパーを有することがあり得る。
電子装置1は、シーン内のオブジェクトの存在と位置(特に姿勢)を検出するコンピュータビジョンアルゴリズムを実行する。ロボットシステムでは、この情報を検索し、オブジェクトを見つけて操作することができるようにする必要がある。電子デバイス1への入力は、可視光(RGB)と深度画像(D)のペアである。電子デバイス1の出力は、ターゲットオブジェクトの6D姿勢(x,y,zロケーションおよびx,y,z周りの回転)である。
電子デバイス1は、データストレージ2に接続されているか、または、データストレージ2を備えている。上記のデータストレージは、ターゲットオブジェクトを、形状(3D)およびオブジェクトの外観(色)情報を提供する3Dモデルファイルの形式において格納するために使用できる。
電子デバイス1は、システム30においてさらなる機能をさらに実行することができる。例えば、電子デバイスは汎用ECU(電子制御ユニット)システムとしても機能することができる。電子デバイス1は、電子回路、プロセッサ(共有、専用またはグループ)、組み合わせ論理回路、1つ以上のソフトウェアプログラムを実行するメモリ、および/または、説明された機能を提供する他の適切なコンポーネントを備えることができる。言い換えると、デバイス1はコンピュータデバイスであり得る。
デバイス1は、オブジェクトを検索して取得するように構成されている(可動)ロボットシステム10の外部にあることができる。言い換えると、ロボットシステム10のボード上の計算リソースが制限され得る。例えば、それらは、3Dデータを、例えばWi−Fi経由で外部(および、たとえば静止)電子デバイス1にのみ送信できる。装置1によって決定された結果は、ロボットに送り返すことができる。
電子装置1は、さらに光学センサ3特に3Dデジタルカメラ3、例えばステレオカメラまたはMicrosoft Kinectカメラに接続されている。電子デバイス1およびデジタルカメラは、ロボットシステム10に含まれ得る。デジタルカメラ3は、3次元シーンを記録でき、そして特に、シーンの形状(3D)および外観(色)情報を提供するデジタルデータを出力するように構成されている。
デジタルカメラ3の出力は、電子デバイス1に送信される。望ましくは、出力は瞬時に、つまり、リアルタイムまたは準リアルタイムで送信される。したがって、検索されたオブジェクトも、リアルタイムまたは準リアルタイムで電子デバイスによって認識および検索できる(つまり、姿勢が決定される)。
システム30は、サーバ20をさらに備えることができる。サーバ20を使用して、例えば、図3に示されているように、オブジェクトモデルの(準備/事前レンダリング)オフライン処理を実行できる。事前にレンダリングされた(つまり、再符号化された)データは、その後、サーバに保存されるか、電子デバイスに提供される。この目的のために、この電子デバイス1は、サーバに接続可能であり得る。例えば、電子デバイス1は、無線接続を介してサーバ20に接続されることができる。代替的または追加的に、電子装置1は、固定接続を介して、例えばケーブル経由でサーバ20に接続可能であり得る。電子デバイス1とサーバ20間のデータ転送が、ポータブルデータストレージ、例えばUSBスティックを使用することで実現されることが可能である。代替的に、サーバの処理は、電子デバイス1自体によって実行されることができる。
以下では、本開示の原理概念およびアルゴリズムを、図2−図5を参照して説明する。
本開示は、例えばルックアップテーブルを使用した反復最近傍点(ICP)アルゴリズムの、望ましくは改善された(すなわち加速された)実装を提案する。ICPは、2つの点群の整列に一般的に使用されるアルゴリズムである。オブジェクト検出シナリオでは、1つの点群はモデル仮説から得られ、以下、「シーン」と呼ぶ、センサからのクラウドデータをポイントするように調整する必要がある。
図2aおよび図2bは、本開示の実施形態によれば、オブジェクト姿勢が、事前にレンダリングされたオブジェクトモデルを使用して決定される(図2b)シーンの例を示している(図2a)。
図2aのシーンS内の検知されたオブジェクトOを表す画像データおよび図2bのオブジェクトモデルMは、(図2aおよび2bに模式的に示されているように)各点群を備える、または、構成する。点群からのデータ(例:輪郭、および表面法線)は、計算コストを削減するためにサブサンプリングされる。これは黒い点、図2aおよび図2bとして示されている。
詳細に、図2aは、現在のオブジェクトの仮説を示しており、図2bは、事前にレンダリングされた最も近い視点(ビュー位置)を示している。それぞれに輪郭と内部サンプリングポイントがある。内部表面領域の黒い点は、対応を確立するために使用される。すなわち、そのシーンから、左ビューの黒い点は対応する点d_iである。そして、右ビューの黒い点は、モデルの対応するソース点s_iである。
図示されているように、イメージセンサによって検知された図2aのシーンは、上下逆さまであり、したがって、図2bのオブジェクトモデルと同じ向きではない。したがって、この例のように、最も近い事前レンダリングされた視点を決定できるが、そのビューポイントにリンクされた事前にレンダリングされたモデルビューが表示面で回転する、すなわち、検知されたオブジェクトに関して逆さまになるという問題が発生する可能性がある。
このために、モデルレンダリングスペースの安価でありながら非常に効果的な近似は、オンラインレンダリングと輪郭抽出の両方を回避するために使用できる。オフライン段階では、等距離の視点v_iは、ビュー依存のスパース3Dサンプリングセットをローカルオブジェクト空間に格納するために抽出されるレンダリングされた各3D輪郭点から、オブジェクトモデルの周りの単位球でサンプリングできる。これらのポイントは3D空間で使用することが望ましいため、スケールでサンプリングしたり、異なる面内回転をサンプリングしたりする必要はない。最後に、図2aおよび図2bに示すように、各輪郭点について、また、その2D勾配方向が保存されることが望ましい、そして、それらの法線を持つ内部表面点のセットが保存され得る。
簡単に言えば、輪郭点は、図2a、図2bの例に示すように、オブジェクトモデルに関しては、表示された平面内の検知されたオブジェクトの回転とは独立である姿勢決定プロセスを提供するために利用できる。
図3は、オブジェクトモデルの(準備/事前レンダリング)オフライン処理の例示的な方法を示す概略フローチャートを示す。
オブジェクトモデルは、高密度の視点セットおよび輪郭などの必要なすべての情報から事前にレンダリングでき、点群や表面の法線データ、またはその組み合わせを抽出できる。このデータは、3Dユニットの頂点位置v_i(つまり、ビュー位置)とともに保存される。各v_iは、独自のローカル参照フレームに独自のデータへの参照を保持する。このデータは、図4に示すように、(使用中の)画像データのオンライン処理されたデータとして提供される。
図4は、(使用中の)画像データのオンライン処理の例示的な方法を示す概略フローチャートを示す。ここで、オブジェクト姿勢が決定される。
図4において、最初にオブジェクトが認識される。この文脈では、図4は、オブジェクトの認識と位置特定(つまり、姿勢の決定)の(完全な)プロセスの例を示すことに留意する。しかしながら、認識ステップは、本開示の一部ではなく、先行プロセスのみであり得る。
その後、姿勢仮説が決定される。姿勢の調整が必要な場合、現在の姿勢仮説は、回転行列Rおよびカメラ空間内の並進ベクトルtとともに提供されえる(図5の「姿勢仮説」を参照)。オブジェクト空間のカメラ位置は、(式1)で取得できる。
さらに、(図3の)再符号化されたデータおよび推定カメラ位置(またはカメラに対する対応する推定オブジェクト位置)に基づいて、最も近いビュー(3D単位ベクトル)が決定される(式2)。
最も近いビューを見つけることにより、オブジェクト姿勢の3D(θ,φ,Ψ)回転情報を決定できる。
記号化するために、モデルの姿勢[R;t]は追跡中に提供され、ここでオブジェクト空間O(式1)のカメラ位置を計算することによるレンダリングは回避できる。式2では、ユニット長に正規化することが望ましい。ここで最も近い視点Vは、ドット積を介してすばやく見つけることができる。
のすべてのデータについて、ソースビューの各ポイント(事前レンダリング済み)が目的地の対応するポイントdで識別されるように、シーンに前方プロジェクトされる。次に、確立された閉形式の解を特異値分解(SVD)で解いて進めることができる。
各s_i(モデルのソースポイント)はVで保存されるため、各s_iは、現在の仮説pを持つシーンに変換できる。これは、3D頂点ベクトルである。(式3)を参照。
これは、ポイントがシーンに取り込まれるだけで、d_iがまだどのポイントであるかは判別されない。このため、変換された点pは画像平面に逆プロジェクトされ、その画像位置において、シーンポイントクラウドを検索される。したがって、一定の時間を必要とする1つの操作でのシーンにおいて、d_iは点群を参照することで決定できる。このプロセスは、KDツリーよりも計算コストが少なくてすみ、これは、s_iとd_iの間の対応を取得するためにICPで従来使用されている。
さらに詳細には、図4に示すように、3Dポイントpは画像平面にプロジェクトされる(カメラ画像が2Dに奥行き成分を加えたものであると仮定する)。
したがって、ポイントの2D位置は(x,y)において、x=f(X/Z)およびy=f(Y/Z)として決定することができる。ここで、fはカメラの焦点距離である。
後続のステップにおいて、深度情報zは、(x、y)において決定することができる。
その結果、x,y,z位置情報およびθ,φ,Ψ回転情報を含む完全な6D姿勢を決定できます。
追加のステップとして、各対応は、プロジェクトされたソースクラウドポイントと宛先クラウドポイント||(R*s+t)−d||との間の距離が、しきい値タウより小さい場合、方程式4を最小化するエネルギー関数についてのみ考慮される。(式4)
上記のすべてのステップは、各反復でタウ減衰を使用して実行でき、したがって、アルゴリズムをオクルージョンおよび外れ値に対して堅牢にする。
望ましくは、DATA_Aは任意のタイプのデータセットであることに注意する。図3では、サブサンプリングされた点群、輪郭、そして表面法線が示されている。しかし、オンライン処理中のSVDでは、「点群」情報のみに使用できるが、そして「輪郭」、「表面法線」は使用されないことがあり得る。どんな種類のデータセットを保存するのが望ましいかは、ICPの最適化アルゴリズムと本願特許に依存する。DATA_Aの項目は特定しない。
オンライン処理におけるあらゆるタイプのオブジェクト認識アルゴリズムは、本開示において使用され得る。
3Dモデルは、あらゆる種類の例えば、ファイル内に保存できる。それは、望ましくは点群で構成され、または通常、表面または色の情報、またはこれらの任意の組み合わせで構成される。フォーマットタイプは、DATA_Aのいずれかである。
図5は、図4の方法で使用される姿勢仮説を更新する例示的な方法を示す概略フローチャートを示す。姿勢の調整が必要な場合、このプロセスは追加で適用することができる。このプロセスでは、SVDは、仮説を更新するために、現在の姿勢仮説、始点sおよび終点dに基づいて適用できる。可能なSVD評価関数は式4である。
本開示では、あらゆるタイプのICP最適化が機能するため、オンライン処理での姿勢仮説のさまざまな更新手法が可能である。
説明全体を通して、クレームを含み、「1つの...を備える(comprising a)」という用語は、特に明記しない限り、「少なくとも1つを含む」と同義語として理解されるべきである。加えて、請求項を含む説明に記載されている範囲は、特に明記しない限り、その最終値を含むと理解されるべきである。説明されている要素の特定の値は、当業者に知られている許容される製造または業界の公差内にあるものと理解すべきである。そして「実質的に」および/または「およそ」、および/または「一般に」という用語の使用は、そのような容認された許容範囲内に入ることを意味すると理解されるべきである。
本明細書の本開示は、特定の実施形態を参照して説明したが、これらの実施形態は、単に原理の例示および本開示の用途にすぎないことは理解されるべきことである。
本願明細書と例は単なる例示と見なされることを意図しており、本開示の真の範囲は以下の特許請求の範囲によって示される。

Claims (15)

  1. オブジェクト姿勢を決定するための電子デバイス(1)であって、該電子デバイスは、
    光学センサ(3)の3D画像データを受信し、ここで、該3D画像データは、シーン(S)内のオブジェクト(O)を表すものであり、
    前記3D画像データに基づいて前記光学センサの位置に関して、前記オブジェクト姿勢(x,y,z,,,)を推定し、
    推定された前記オブジェクト姿勢に基づいて、所定の3Dオブジェクトモデルの所定のビュー位置のセットから最も近いものを識別し、
    識別された最も近い前記ビュー位置に基づいて、前記シーン内の前記オブジェクトの姿勢を決定するように構成される、
    電子デバイス(1)。
  2. 前記光学センサ(3)の前記3D画像データは点群を含む、および/または、前記3Dオブジェクトモデルは点群を含む、請求項1に記載の電子デバイス(1)。
  3. 前記オブジェクト姿勢を推定することは、前記シーン内の姿勢を推定することにより、オブジェクト姿勢の仮説を決定することと、前記オブジェクト姿勢の仮説に基づいて、前記光学センサの位置に関する前記オブジェクト姿勢の推定することと、を含む、請求項1または2に記載の電子デバイス(1)。
  4. 前記オブジェクト姿勢を推定すること、または、前記3D画像データを受信することは、受信した前記3D画像データに基づいて、前記シーン内の前記オブジェクトを認識することを含む、請求項1ないし3のいずれか1項に記載の電子デバイス(1)。
  5. 所定のビュー位置の前記セットから最も近いものを識別することは、オブジェクト空間での前記光学センサの位置を決定することと、所定のビュー位置の前記セットから最適なビューを見つけ出すこととに基づいている、請求項1ないし4のいずれか1項に記載の電子デバイス(1)。
  6. 所定のビュー位置の前記セットのそれぞれは、再符号化されたデータセットにリンクされており、該再符号化されたデータセットは、前記ビュー位置から見たとき、前記オブジェクトモデルのレンダリングされた画像データを表す、請求項1ないし5のいずれか1項に記載の電子デバイス(1)。
  7. 再符号化されたデータセットの前記レンダリングされた画像データは、前記オブジェクトモデルのサブサンプリングされた点群、該モデルのサブサンプリングされた輪郭、および/または、該モデルのサブサンプリングされた表面モデルを含む、請求項6に記載の電子デバイス(1)。
  8. 所定のビュー位置の前記セットから最も近いものを識別することは、
    前記所定のビュー位置の各々に対して、リンクされた再符号化データセットのレンダリングされた画像データを、前記シーンにプロジェクトし、
    前記レンダリングされた画像データをシーン内の前記オブジェクトを表す前記3D画像データと比較し、
    前記所定のビューのどれに対して、前記レンダリングされた画像データと前記シーン内の前記オブジェクトを表す前記3D画像データとの間の偏差が、最小に達するかを決定すること
    を含む、請求項1に記載の電子デバイス(1)。
  9. 前記3D画像データは、可視光画像と深度画像とのペアを含む、請求項1ないし8のいずれか1項に記載の電子デバイス(1)。
  10. 前記可視光画像は、特に、人間の視覚システムによって処理される3つのバンド(RGB)に分解された、電磁スペクトルの可視部分を含む、請求項1ないし9のいずれか1項に記載の電子デバイス(1)。
  11. 前記オブジェクト姿勢は、x,y,z位置情報、および/またはθ,φ,Ψ回転情報を含む6D姿勢である、請求項1ないし10のいずれか1項に記載の電子デバイス(1)。
  12. 前記シーン内の前記オブジェクトの前記姿勢を決定することは、
    前記所定の3Dオブジェクトモデルの所定のビュー位置の前記セットから、前記識別された最も近いビューに基づいてθ,φ,Ψ回転情報を決定すること、および/または最も近いビューのモデルを前記シーンにプロジェクトすることに基づいて、前記x,y,z位置情報を決定することと、
    プロジェクトされたモデルを、前記シーン内のオブジェクトを表す前記3D画像データと比較することと、
    を含む、請求項1ないし11のいずれか1項に記載の電子デバイス(1)。
  13. 請求項1ないし8のいずれか1項に記載の電子(1)デバイスと、前記オブジェクトを感知するように構成された光学センサであって、該光学センサは特に3Dカメラまたはステレオカメラである、センサと、を備える、オブジェクト姿勢を決定するためのシステム(30)。
  14. 光学センサ(3)の3D画像データを受信するステップであって、該3D画像データは、シーン(S)内のオブジェクト(O)を表す、ステップと、
    前記3D画像データに基づいて前記光学センサの位置に関して、オブジェクト姿勢(x,y,z,θ,φ,Ψ)を推定するステップと、
    前記推定されたオブジェクト姿勢に基づいて、所定の3Dオブジェクトモデルの所定のビュー位置のセットから最も近いものを識別するステップと、
    前記識別された最も近いビュー位置に基づいて、前記シーン内の前記オブジェクト姿勢を決定するステップと、
    のステップを含む、オブジェクト姿勢を決定する方法。
  15. 前記オブジェクトモデルの複数のビュー位置を決定するステップと、
    所定のビュー位置の前記セットを形成するステップと、
    所定のビュー位置の前記セットの各ビュー位置に対して、再符号化されたデータセットを決定するステップであって、該再符号化されたデータセットは、前記ビュー位置から見たとき前記オブジェクトモデルのレンダリングされた画像データを表す、ステップと、
    前記ビュー位置を前記再符号化されたデータセットにリンクするステップと、
    のステップをさらに含む、請求項14に記載の方法。
JP2020502372A 2017-07-20 2017-07-20 オブジェクト姿勢を決定するための電子デバイス、システムおよび方法 Active JP6955081B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2017/068388 WO2019015761A1 (en) 2017-07-20 2017-07-20 ELECTRONIC DEVICE, SYSTEM AND METHOD FOR DETERMINING THE INSTALLATION OF AN OBJECT

Publications (2)

Publication Number Publication Date
JP2020527270A true JP2020527270A (ja) 2020-09-03
JP6955081B2 JP6955081B2 (ja) 2021-10-27

Family

ID=59506241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020502372A Active JP6955081B2 (ja) 2017-07-20 2017-07-20 オブジェクト姿勢を決定するための電子デバイス、システムおよび方法

Country Status (2)

Country Link
JP (1) JP6955081B2 (ja)
WO (1) WO2019015761A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020030966A1 (en) * 2018-07-06 2020-02-13 Verity Studios Ag Methods and systems for estimating the orientation of an object
CN110322512A (zh) * 2019-06-28 2019-10-11 中国科学院自动化研究所 结合小样本实例分割和三维匹配的物***姿估计方法
CN111145253B (zh) * 2019-12-12 2023-04-07 深圳先进技术研究院 一种高效的物体6d姿态估计算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008033819A (ja) * 2006-07-31 2008-02-14 Omron Corp 物体認識装置、監視システム、物体認識方法、物体認識プログラム、および該プログラムを記録した記録媒体
JP2013217893A (ja) * 2012-03-13 2013-10-24 Canon Inc モデル生成装置、位置姿勢推定装置、情報処理装置、モデル生成方法、位置姿勢推定方法、情報処理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE528068C2 (sv) 2004-08-19 2006-08-22 Jan Erik Solem Med Jsolutions Igenkänning av 3D föremål

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008033819A (ja) * 2006-07-31 2008-02-14 Omron Corp 物体認識装置、監視システム、物体認識方法、物体認識プログラム、および該プログラムを記録した記録媒体
JP2013217893A (ja) * 2012-03-13 2013-10-24 Canon Inc モデル生成装置、位置姿勢推定装置、情報処理装置、モデル生成方法、位置姿勢推定方法、情報処理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NIKOLAY ATANASOV: "Nonmyopic View Planning for Active Object Classification and Pose Estimation", IEEE TRANSACTIONS ON ROBOTICS VOL.30, NO.5, OCTOBER 2014, vol. 30, no. 5, JPN6021015917, October 2014 (2014-10-01), US, pages 1078 - 1090, XP011560315, ISSN: 0004583072, DOI: 10.1109/TRO.2014.2320795 *
WADIM KEHL: "Real-Time 3D Model Tracking in Color and Depth on a Single CPU Core", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6021015919, 2017, US, pages 465 - 473, XP033249383, ISSN: 0004583073, DOI: 10.1109/CVPR.2017.57 *
水谷 諒平: "3次元点群とテクスチャを用いた3次元物体認識と位置姿勢推定", 情報処理学会研究報告 2011(平成23)年度▲5▼ [CD−ROM], vol. PRMU2011-147, MVE2011-56 (2012-01), JPN6021015916, 15 February 2012 (2012-02-15), JP, pages 1 - 5, ISSN: 0004583071 *

Also Published As

Publication number Publication date
JP6955081B2 (ja) 2021-10-27
WO2019015761A1 (en) 2019-01-24

Similar Documents

Publication Publication Date Title
JP6430064B2 (ja) データを位置合わせする方法及びシステム
US11051000B2 (en) Method for calibrating cameras with non-overlapping views
US9875424B2 (en) Method for determining correspondences between a first and a second image, and method for determining the pose of a camera
US9235928B2 (en) 3D body modeling, from a single or multiple 3D cameras, in the presence of motion
KR101791590B1 (ko) 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법
EP2234064B1 (en) Method for estimating 3D pose of specular objects
CN113409384B (zh) 一种目标物体的位姿估计方法和***、机器人
Zhi et al. Simultaneous hand-eye calibration and reconstruction
JP6955081B2 (ja) オブジェクト姿勢を決定するための電子デバイス、システムおよび方法
JP2019153290A (ja) ビジョンシステムにより画像特徴におけるエッジと法線を同時に考慮するためのシステム及び方法
US20140168204A1 (en) Model based video projection
Rhodes et al. A concise guide to feature histograms with applications to LIDAR-based spacecraft relative navigation
CN109872343B (zh) 弱纹理物体姿态跟踪方法、***及装置
Azad et al. Accurate shape-based 6-dof pose estimation of single-colored objects
Schwarz et al. Tracking planes with time of flight cameras and j-linkage
Radkowski HoloLens integration into a multi-kinect tracking environment
Peng et al. Real time and robust 6D pose estimation of RGBD data for robotic bin picking
Troutman et al. Registration and localization of unknown moving objects in monocular SLAM
CN112449701A (zh) 学习模板表示库
Truong et al. Rapid implementation of 3D facial reconstruction from a single image on an android mobile device
US12002227B1 (en) Deep partial point cloud registration of objects
Rohner et al. Object recognition for robotics based on planar reconstructed B-rep models
JP7207396B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Pudchuen et al. 3-D Mapping and Localization using RGB-D Camera
Li et al. Pose estimation of metal workpieces based on RPM-Net for robot grasping from point cloud

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210930

R150 Certificate of patent or registration of utility model

Ref document number: 6955081

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350