JP2011022992A - 視覚に基づく3次元形状認識を備えたロボット - Google Patents
視覚に基づく3次元形状認識を備えたロボット Download PDFInfo
- Publication number
- JP2011022992A JP2011022992A JP2010090384A JP2010090384A JP2011022992A JP 2011022992 A JP2011022992 A JP 2011022992A JP 2010090384 A JP2010090384 A JP 2010090384A JP 2010090384 A JP2010090384 A JP 2010090384A JP 2011022992 A JP2011022992 A JP 2011022992A
- Authority
- JP
- Japan
- Prior art keywords
- shape
- space
- feature
- video signal
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 39
- 230000013016 learning Effects 0.000 claims description 31
- 230000000704 physical effect Effects 0.000 claims description 10
- 238000013459 approach Methods 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 14
- 238000005457 optimization Methods 0.000 description 14
- 230000000007 visual effect Effects 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 12
- 230000002123 temporal effect Effects 0.000 description 12
- 230000001537 neural effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000011524 similarity measure Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 229920006385 Geon Polymers 0.000 description 2
- 244000061456 Solanum tuberosum Species 0.000 description 2
- 235000002595 Solanum tuberosum Nutrition 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 235000012015 potatoes Nutrition 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000031836 visual learning Effects 0.000 description 2
- 241000272517 Anseriformes Species 0.000 description 1
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 1
- 229920006328 Styrofoam Polymers 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000008261 styrofoam Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Length Measuring Devices By Optical Means (AREA)
- Manipulator (AREA)
- Image Processing (AREA)
Abstract
【解決手段】ビデオ信号において表される対象物について、3D形状の情報を抽出するため、ビデオセンサからの該ビデオ信号を処理するための方法であって、対象物が、3D形状空間において格納されるメモリを提供するステップであって、該形状空間は、該対象物の3D形状の特性をコード化する抽象特徴空間である、ステップと、対象物の2Dのビデオ信号の表現を、前記形状空間にマッピングするステップであって、該形状空間における対象物の座標は、該対象物の3D形状および(または)物理的特性を示す、ステップと、を含む。
【選択図】図1
Description
−2Dビデオカメラの入力視野において、動きを誘起する定義された刺激に対する、対象物の異なる回転位置または軌跡のそれぞれに、訓練対象物(training object)を提示すること。
−該訓練対象物の、低速に変化する特徴(slow feature)を抽出し、該訓練対象物の形状空間表現をパラメータ化するよう、該抽出された特徴をクラスタリングすること。ここで、該形状空間は、対象物の3D形状の特性をコード化する抽象特徴空間である。
−メモリ構造において、形状特徴空間を提供すること。
−ビデオセンサに対し、対象物の異なる位置または軌跡において訓練対象物を提示して、該形状特徴空間を設定すること。
−各訓練対象物から、少なくとも1つの特徴を抽出すること。
−該形状特徴空間において、該抽出された特徴から、特徴クラスタを計算すること。これは、同じ対象物の異なるビューが、1つのクラスタに属する類似の特徴を生成しつつ、異なる対象物の類似のビューが分離されるように、行われる。
−該特徴クラスタの中心を識別すること。
−ビデオ信号から対象物のビューを取得すること。
−該形状特徴空間に対して、該対象物のビューをマッピングすること。ここで、該形状特徴空間における対象物の座標は、対象物の形状を示す。
−該特徴クラスタの中心に対する距離によって表される形状の類似度で、該対象物の形状を特徴づけること。
−訓練対象物の異なる回転ビューの、低速に変化する特徴を抽出すること。
−訓練対象物の形状特徴空間の表現をパラメータ化するよう、該抽出された特徴をクラスタリングすること。ここで、該形状特徴空間は、対象物の3D形状の特性をコード化する抽象特徴空間である。
−対象物(Object):或る視覚的な外観を備える、任意の3次元の物理的エンティティであり、これは、その形状、および表面の反射特性(たとえば、色、反射率、テクスチャ(模様))により決定される。
本システムは、2Dビューを処理することに制限されず、代替的に、または付加的に、3Dの深度データ(たとえば、レーザスキャナからの)、複数の2Dビュー(たとえば、空間的に離れたカメラの)、およびこれらの組み合わせに適用されることも可能である。
後述する参考文献中の(Franzius2007a、Franzius2009)に記載のような以前のモデルは、人工的にレンダリングされたデータにのみ適用された。それに対し、当該提案されるシステムは、取り散らかったシーン(状況)で起こりうる、カメラによって生成された実世界のデータに適用される必要がある。したがって、典型的には、セグメント化のステップが、生の画像データの事前処理について実行される。
選択的に、非剛性の(変形可能な)対象物を、本システムによって認識することができる。訓練フェーズ中に、非剛性変形(non-rigid deformation)を受けている対象物のビューのシーケンスが提示されたならば、本システムは、該非剛性の対象物の異なる構成(configuration)を、1つの形状に関連づけるよう学習することができる。このようなシーケンスはまた、たとえば形状Aと形状Bの間の変形(morph)として、人工的に生成されることもでき、これにより、該システムによってAおよびBの形状表現がより類似したものとなるようにすることができる。
不変の形状認識に対する可能な拡張は、姿勢および位置抽出である。姿勢および位置抽出は、それ自体新しいものではないが(後述する参考文献中のFranzius2009を参照)、ここで取り入れられる一般化された形状認識については新しい品質がある。
以前のアプローチは、スローネス・オブジェクティブ(slowness objective)を最適化することに基づいて、システムの不変の特性について、対象物の動きの統計のいくつかの側面を考慮していた(後述する参考文献中のFranziusu2007aを参照)。しかしながら、以前の作業では、このコンテキストにおいて、対象物の物理的特性によって誘起される動きの統計を考慮するものは無かった。一例として、刺激の後の対象物の動きを考慮すると(たとえば、1つの空間方向にインパルスを適用することによって)、これは、対象物の形状特性に依存した動きの軌跡(運動軌跡)を引き起こす。球状の対象物のような、いくつかの対象物は、比較的高速度で、長い時間にわたって動くであろうが、立方体のような形状の他の対象物は、動きを速やかに止めるであろう。これらの動きの軌跡が与えられると、スローネス原理を最適化することは、異なる軌跡を有する対象物の異なる不変性および特定性に至る。具体的には、動きの軌跡が、同じ最大振幅を持つ(たとえば、対象物の動きが、ボックスによって制約される場合)が、異なる周波数を持つとき(たとえば、球状の対象物については高く、立方体状の対象物については低い)、対象物固有のクラスタは、この周波数に依存した直径を持つこととなる。スローネス・オブジェクティブを最適化しつつ、最小の変動(variance, 分散)という制約を満たすため、対象物の典型的な動きの周波数が高くなるほど、対象物に固有のクラスタはよりコンパクトな(より小さな)ものとなる。その後、クラスタの直径が計算され、教師無しの手法で解釈されることができる。こうして、当該提案するシステムは、自律的に、かつ教師無しの手法で、対象物の物理的的特性(たとえば、形状)に基づいて該対象物の表現を構築する。このような能力を備えているので、システムは、自律的に、対象物との相互作用を行う(たとえば、所望の位置において対象物を握ったり、位置付けたりする)のに必要とされる、それまでは未知であった対象物の関連する物理的特性について、自律的に学習することができる。
教師無しの訓練フェーズおよび動作フェーズを、中間の教師有り学習フェーズによって拡張することが可能である。ビューのシーケンスが提示される訓練フェーズの最初の部分は、変化しないままである。訓練フェーズの最後において、新しい教師有り訓練フェーズが挿入される。スロー特徴解析(低速に変化する特徴の解析、Slow Feature Analysis(SFA))でスローネスの最適化を実現する場合には、このステップは、データの共分散行列およびデータの導関数を計算した後であって、最適にスローな解を見つけるために該行列を対角化する(diagonalize)前に、挿入される。
原則として、類似度行列Sは、視覚的に関連するように、もしくは関連しないように、任意の意味を持つことができる。特定的に関連する類似度行列のクラスCSは、対象物または対象物クラスの物理的機能またはアフォーダンスに関連する。この情報は、通常、純粋に視覚的なデータ(すなわち、対象物の外観)からは抽出されることができない。我々は、Sによって実現される、以下のような類似度計測を提案する。
既知の方法は、一組の問題固有の特徴(problem-specific feature)を手加工することにより、もしくは一組の適切な問題固有の特徴を、機械学習アプローチで、予め定義された特徴の集まり(プール)から選択することにより、対象物認識のための特徴を選択する。これらの手法は、階層的なやり方でも適用可能である。
自動化された形状認識は、ある程度の自律性および検知するデバイス(たとえば、カメラ)を備える任意の装置の一部となりうる、非常に基本的なツールである。
スローネスな目的関数を、生の2D画像のシーケンスについて直接的に最適化することができる。しかしながら、多くの場合、入力ビューの寸法(大きさ)は、計算上、効率的な最適化には高すぎる。この場合、階層モデルが適用され、最低の層上で、入力ビューの小さなパッチを、最適化に使用されるようにする。いくつかの近傍領域の出力が、その後、次の層に供給され、該次の層は、再び、同じ目的関数を最適化する。これが、階層が所定の分解能(resolution)に収束するまで行われ、極端な場合には、1つの位置に収束するまで行われる。
刺激の生成
モデルは、5つの異なる凸状の対象物(球、円錐、立方体、ピラミッド、および円柱)の色づけされたビューを含む画像のシーケンスで訓練された。2つの異なる入力セット、すなわち「レンダリングされた(rendered)」ものと「映像(video)」とが使用された。レンダリングされたデータについて、視覚化ツールキット(Visualization Toolkit(VTK))が、テクスチャを有するもしくは有しない均一な背景の前面にある、陰影付けされた対象物のビューをレンダリングするのに使用された。さらに、その形状が、5つの訓練形状のうちの任意のものの間での漸進的な補間(gradual interpolation)として設定されることのできる「変形された形(morphed figure)」から、テストデータが生成された。訓練シーケンスのための対象物の姿勢(構成;configuration)が、ランダムウォーク手法(random walk procedure)によって生成された。該シーケンスにおける該構成を生成するため、ランダムな項(random term)を、対象物の、現在の空間的、角度的、およびスケーリングの速度に加えた。該ランダムな項は、均一の確率密度の間隔から抽出される。これらの速度は、所定のリミット値でカットオフされ、これらのリミット値を調整することによって、変換(transformation)のタイムスケールを効果的に決定することができる。位置、角度、およびスケールは、その後、これらの速度に従って更新される。対象物が、境界位置に達したならば、該対象物は戻される。この手順全体は、フラットな構成(configuration)のヒストグラムを生成し(十分な時間点が与えられると)、該速度のプロファイルは、該構成の値からは独立している。各ステップにおいて、対象物のアイデンティティは、低い確率(p=0.02)で変更された。刺激において、同一の姿勢にある異なる対象物をまとめてリンクするのを回避するようスイッチ(切り換え)が生じた場合には、ブランクのフレームが挿入された。これは、教師有り訓練のエレメントを導入することとなる。
最適化問題:関数空間FおよびI次元の入力信号x(t)が与えられた場合、以下の制約条件下で、出力信号yj(t):= gj(x(t))が、Δyj(t):= <yj’2>t を最小にするような、一組のJ個の実数値(real-valued)の入出力関数gj(x) ∈Fを見つける。
(2) <yj 2>t = 1 (unit variance(分散1)),
(3) ∀i<j: < yi yj > t = 0 (decorrelation and order(無相関および順序付け)),
ここで、<>およびy’は、時間的な平均およびyの導関数をそれぞれ示す。
計算上のモデルは、SFAノードの、収束する階層レイヤからなる。各SFAノードは、その入力から、SFAアルゴリズムに従って、最も低速の特徴(slowest features)を見つけ、以下のシーケンスの動作、すなわち、加法性ガウス白色雑音(10―6の分散)、次元数低下のための線形SFA、二次的拡張(quadratic expansion)、低速な特徴抽出のための他の線形SFA、および±4における極値のクリッピング、を実行する。ネットワークは、Python(パイソン)において実現され、すべての必要なエレメント(並列化を含む)は、MDPライブラリ(後述する参考文献中のMDPを参照)で利用可能である。
[Becker1999]: S. Becker: Implicit learning in 3d object recognition: the importance of temporal context. Neural Computation, 11(2):347-374, 1999.
[BerkWisk2005c]: P. Berkes and L. Wiskott: Slow feature analysis yields a rich repertoire of complex cell properties. Journal of Vision, 5(6): 579-602, 2005.
[Biedermann1987]: I. Biedermann: Recognition-by-Components: A therory of human image understanding, Psychological review, 94(2): 115-147, 1987.
[Durou2008]: J.-D. Durou, M. Falcone, and M. Sagona: Numerical methods for shape from shading: A new survey with benchmarks. Computer Vision and image Understanding, 109(1): 22-43, 2008.
[Einhauser2005]: W. Einhaeuser, J. Hipp, J. Eggert, E. Koerner and P. Koenig: Learning view-point invariant object representations using a temporal coherence principle. Biological Cybernetics, 93:79-90, 2005.
[Foeldiak1991]: P. Foeldiak: Learning invariance from transformation sequences. Neural Computation, 3:194-200, 1991.
[Franzius2007a]: M. Franzius, H. Sprekeler, and L. Wiskott: Slowness and sparseness lead to place-, head-direction and spatial-view cells. PLoS Computational Biologz, 3(8):e166, 2007.
[Franzius2009]: M. Franzius, N. Wilbert, and L. Wiskott. Invariant object recognition with slow feature analysis. Neural Computation, submitted, 2009.
[Hashimoto2003]: W. Hashimoto: Quadratic Forms in Natural Images. Network: Computation in Neural Systems, 14(4): 756-788, 2003.
[Kayser2001]: C. Kayser, W. Einhaeuser, O. Duemmer, P. Koenig and K. Koerding: Extracting slow subspaces from antural videos leads to complex cells. Artificial neural networks −ICANN 2001 Proceedings, 1075-1080, 2001
[MDP]: P. Berkes and T. Zito: Modular Toolkit for Data Processing (MDP), version 2.0. http://mdp-toolkit.sourceforge.net, 2005.
[Sprekeler2007]: H. Sprekeler, C. Michaelis, L. Wiskott: Slowness: An objective for spike-timing dependent plasticity? PLoS Computational Biology, 3(6): e112, 2007
[Stringer2002]: S. Stringer and E. Rolls: Invariant object recognition in the visual system with novel views of 3d objects. Neural Computation, 14:2585-2596, 2002.
[Stringer2006]: S. Stringer, G. Perry, E. Rolls and J. Proske: Learning invariant object recognition in the visual system with continuous transformations. Biological Cybernetics, 94:128-142, 2006.
[Wallis1997]: G. Wallis and E. Rolls: Invariant face and object recognition in the visual system. Progress in Neurobiology, 51(2): 167-194, 1997.
[WisSej2002]: L. Wiskott and T. Sejnowski. Slow Feature Analysis: unsupervised learning of invariances. Neural Computation, 14(4): 715-770, 2002.
Mathias Franzius et al: "Invariant Object Recognition with Slow Feature Analysis" Artificial Neural Networks - ICANN 2008; Lecture Notes in Computer Science, Springer Berlin Heidelberg, vol. 5163. 3 September 2008 (2008-09-03), pages 961-970, ISBN: 978-3-540-87535-2
Wolfgang Einhauser et al: "Learning viewpoint invariant object representations using a temporal coherence principle" Biological Cybernetics ; Advances in Computational Neuroscience, Springer, Berlin, vol. 93, no. 1, 1 July 2005 (2005-07-01), pages 79-90, ISSN: 1432-0770
Murase H et al: "Visual Learning and Recognition of 3-D Objects from Appearance" International Journal of Computer Vision, Kluwer Academic Publishers, Norwell, US, vo 14 no. 1, 1 January 1995 (1995-01-01), pages 5-24, ISSN: 0920-5691
M. Franzius et al.: "Slowness and sparseness lead to place, head-direction, and spatial-view cells" PLOS Computational Biology, vol. 3, no. 8. August 2007 (2007-08), pages 1605-1622,
Raytchev B et al: "Unsupervised recognition of multi-view face sequences based on pairwise clustering with attraction and repulsion" 1 July 2003 (2003-07-01), Computer Vision and Image Understanding, Academic Press.
Claims (10)
- ビデオ信号において表される対象物について、3D形状の情報および(または)少なくとも1つの物理的特性に関する情報を抽出するため、ビデオセンサからの該ビデオ信号を処理するための方法であって、
対象物が、3D形状空間において格納されるメモリを提供するステップであって、該形状空間は、該対象物の3D形状の特性をコード化する抽象特徴空間である、ステップと、
前記形状空間に、対象物の2Dのビデオ信号の表現をマッピングするステップであって、該形状空間における該対象物の座標は、該対象物の3D形状および(または)物理的特性を示す、ステップと、
を含む方法。 - 2Dのビデオ信号、および、前記ビデオセンサに対する対象物の位置に関する付加的な深度情報が供給される、
請求項1に記載の方法。 - 前記対象物の形状に関して得られた情報に従って、対象物を操作する機械的アクチュエータを制御するための、前記請求項1または2に記載の方法の使用。
- 請求項1から3のいずれかに記載の方法を実行するよう設計された、自律型ロボットのためのコンピューティング・ユニット。
- 請求項4に記載のコンピューティング・ユニットにビデオ信号を提供する少なくとも1つのビデオセンサを備えた自律型ロボットであって、前記コンピューティング・ユニットは、前記ロボットの、機械的な対象物マニピュレータを制御する、
自律型ロボット。 - コンピューティング・デバイス上で稼動されたときに請求項1に記載の方法を実行する、
コンピュータ・ソフトウェア・プログラム製品。 - 対象物を表すビデオ信号に基づいて、該対象物の3D形状および(または)少なくとも1つの物理的特性に関する情報を抽出することのできる、コンピューティング・システムを設定するための教師無し学習方法であって、
2Dのビデオカメラの入力視野において、動きを誘起する定義された刺激に対する対象物の異なる位置または軌跡に、訓練対象物を提示するステップと、
前記訓練対象物の異なる回転ビューの低速に変化する特徴を抽出し、前記訓練対象物の形状空間表現をパラメータ化するように、該抽出した特徴をクラスタリングするステップであって、該形状空間は、該対象物の3D形状の特性をコード化する抽象特徴空間である、ステップと、
を含む方法。 - 教師有り学習方法によって追従される、請求項7に記載の方法。
- ビデオセンサからのビデオ信号を処理するための方法であって、
メモリ構造に、形状特徴空間を提供するステップと、
対象物の異なる位置または軌跡において、訓練対象物を前記ビデオセンサに提示して、該形状特徴空間を設定するステップと、
前記訓練対象物のそれぞれから、少なくとも1つの特徴を抽出するステップと、
同じ対象物の異なるビューが、1つのクラスタに属する類似の特徴を生成すると共に、異なる対象物の類似のビューが分離されるように、前記形状特徴空間において、前記抽出された特徴から特徴クラスタを計算するステップと、
前記特徴クラスタの中心を識別するステップと、
ビデオ信号から対象物のビューを取得するステップと、
前記対象物のビューを、前記形状特徴空間にマッピングするステップであって、該形状特徴空間における対象物の座標は、該対象物の形状を示す、ステップと、
前記特徴クラスタの中心に対する距離によって表される形状の類似度で、該対象物の形状を特徴付けるステップと、
を含む方法。 - さらに、
前記訓練対象物の異なる回転ビューの低速に変化する特徴を抽出し、該訓練対象物の該形状特徴空間の表現をパラメータ化するよう、該抽出された特徴をクラスタリングするステップであって、該形状特徴空間は、該対象物の3D形状の特性をコード化する抽象特徴空間である、ステップと、
を含む、請求項9に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP09159753A EP2249286A1 (en) | 2009-05-08 | 2009-05-08 | Robot with vision-based 3D shape recognition |
EP09159753.4 | 2009-05-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011022992A true JP2011022992A (ja) | 2011-02-03 |
JP4982583B2 JP4982583B2 (ja) | 2012-07-25 |
Family
ID=41100860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010090384A Expired - Fee Related JP4982583B2 (ja) | 2009-05-08 | 2010-04-09 | 視覚に基づく3次元形状認識を備えたロボット |
Country Status (3)
Country | Link |
---|---|
US (1) | US8731719B2 (ja) |
EP (1) | EP2249286A1 (ja) |
JP (1) | JP4982583B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019526033A (ja) * | 2017-07-17 | 2019-09-12 | 先臨三維科技股▲ふん▼有限公司Shining 3D Tech Co., Ltd. | 単眼3次元走査システムによる3次元再構成法および装置 |
JP2019207678A (ja) * | 2018-02-28 | 2019-12-05 | ホンダ リサーチ インスティテュート ヨーロッパ ゲーエムベーハーHonda Research Institute Europe GmbH | 低速特徴からのメトリック表現の教師なし学習 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8805579B2 (en) | 2011-02-19 | 2014-08-12 | Richard Arthur Skrinde | Submersible robotically operable vehicle system for infrastructure maintenance and inspection |
US8842163B2 (en) | 2011-06-07 | 2014-09-23 | International Business Machines Corporation | Estimation of object properties in 3D world |
JP5895569B2 (ja) * | 2012-02-08 | 2016-03-30 | ソニー株式会社 | 情報処理装置、情報処理方法およびコンピュータプログラム |
JP2014102685A (ja) * | 2012-11-20 | 2014-06-05 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
TWI497449B (zh) * | 2012-12-26 | 2015-08-21 | Ind Tech Res Inst | 非監督式調適方法與應用其之影像自動分類方法 |
US9102055B1 (en) | 2013-03-15 | 2015-08-11 | Industrial Perception, Inc. | Detection and reconstruction of an environment to facilitate robotic interaction with the environment |
US9111348B2 (en) | 2013-03-15 | 2015-08-18 | Toyota Motor Engineering & Manufacturing North America, Inc. | Computer-based method and system of dynamic category object recognition |
ES2522921B2 (es) | 2013-05-17 | 2015-07-30 | Loxin 2002, S.L. | Cabezal y procedimiento de mecanizado automático con visión |
US9355123B2 (en) | 2013-07-19 | 2016-05-31 | Nant Holdings Ip, Llc | Fast recognition algorithm processing, systems and methods |
JP2015024453A (ja) * | 2013-07-25 | 2015-02-05 | トヨタ自動車株式会社 | 載置判断方法、載置方法、載置判断装置及びロボット |
US9201900B2 (en) * | 2013-08-29 | 2015-12-01 | Htc Corporation | Related image searching method and user interface controlling method |
WO2015089115A1 (en) * | 2013-12-09 | 2015-06-18 | Nant Holdings Ip, Llc | Feature density object classification, systems and methods |
KR102161783B1 (ko) * | 2014-01-16 | 2020-10-05 | 한국전자통신연구원 | 초고해상도 얼굴 동영상 데이터베이스를 이용한 서비스 로봇 얼굴인식 성능 평가 시스템 및 방법 |
WO2015123647A1 (en) | 2014-02-14 | 2015-08-20 | Nant Holdings Ip, Llc | Object ingestion through canonical shapes, systems and methods |
US9327406B1 (en) | 2014-08-19 | 2016-05-03 | Google Inc. | Object segmentation based on detected object-specific visual cues |
US9630318B2 (en) * | 2014-10-02 | 2017-04-25 | Brain Corporation | Feature detection apparatus and methods for training of robotic navigation |
US9878447B2 (en) | 2015-04-10 | 2018-01-30 | Microsoft Technology Licensing, Llc | Automated collection and labeling of object data |
US10621406B2 (en) | 2017-09-15 | 2020-04-14 | Key Technology, Inc. | Method of sorting |
US10828790B2 (en) | 2017-11-16 | 2020-11-10 | Google Llc | Component feature detector for robotic systems |
CN108126850B (zh) * | 2017-12-29 | 2024-05-31 | 大连纳思达汽车设备有限公司 | 智能喷漆机器人*** |
US10967507B2 (en) * | 2018-05-02 | 2021-04-06 | X Development Llc | Positioning a robot sensor for object classification |
US20210125052A1 (en) * | 2019-10-24 | 2021-04-29 | Nvidia Corporation | Reinforcement learning of tactile grasp policies |
US20220270349A1 (en) * | 2021-02-25 | 2022-08-25 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0573663A (ja) * | 1991-09-17 | 1993-03-26 | Nippon Telegr & Teleph Corp <Ntt> | 3次元物体の画像認識法 |
JPH08153198A (ja) * | 1994-11-29 | 1996-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 画像切り出し認識装置 |
JP2003346152A (ja) * | 2002-05-24 | 2003-12-05 | Sony Corp | 物体認識装置及び方法並びにロボット装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3578241D1 (de) * | 1985-06-19 | 1990-07-19 | Ibm | Verfahren zum identifizieren dreidimensionaler objekte mittels zweidimensionaler bilder. |
US6760488B1 (en) * | 1999-07-12 | 2004-07-06 | Carnegie Mellon University | System and method for generating a three-dimensional model from a two-dimensional image sequence |
US6941323B1 (en) * | 1999-08-09 | 2005-09-06 | Almen Laboratories, Inc. | System and method for image comparison and retrieval by enhancing, defining, and parameterizing objects in images |
US7253832B2 (en) * | 2001-08-13 | 2007-08-07 | Olympus Corporation | Shape extraction system and 3-D (three dimension) information acquisition system using the same |
US7668376B2 (en) * | 2004-06-30 | 2010-02-23 | National Instruments Corporation | Shape feature extraction and classification |
US20090274377A1 (en) * | 2005-11-11 | 2009-11-05 | Japan Advanced Institute Of Science And Technology | Clustering System and Image Processing System Having the Same |
JP2007271530A (ja) * | 2006-03-31 | 2007-10-18 | Brother Ind Ltd | 3次元形状検出装置及び3次元形状検出方法 |
US8090194B2 (en) * | 2006-11-21 | 2012-01-03 | Mantis Vision Ltd. | 3D geometric modeling and motion capture using both single and dual imaging |
WO2008129881A1 (ja) * | 2007-04-18 | 2008-10-30 | The University Of Tokyo | 特徴量選択方法、特徴量選択装置、画像分類方法、画像分類装置、コンピュータプログラム、及び記録媒体 |
US8255092B2 (en) * | 2007-05-14 | 2012-08-28 | Irobot Corporation | Autonomous behaviors for a remote vehicle |
ATE452379T1 (de) * | 2007-10-11 | 2010-01-15 | Mvtec Software Gmbh | System und verfahren zur 3d-objekterkennung |
US8244044B2 (en) * | 2008-04-25 | 2012-08-14 | Microsoft Corporation | Feature selection and extraction |
US8131063B2 (en) * | 2008-07-16 | 2012-03-06 | Seiko Epson Corporation | Model-based object image processing |
-
2009
- 2009-05-08 EP EP09159753A patent/EP2249286A1/en not_active Ceased
-
2010
- 2010-04-09 JP JP2010090384A patent/JP4982583B2/ja not_active Expired - Fee Related
- 2010-05-05 US US12/774,333 patent/US8731719B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0573663A (ja) * | 1991-09-17 | 1993-03-26 | Nippon Telegr & Teleph Corp <Ntt> | 3次元物体の画像認識法 |
JPH08153198A (ja) * | 1994-11-29 | 1996-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 画像切り出し認識装置 |
JP2003346152A (ja) * | 2002-05-24 | 2003-12-05 | Sony Corp | 物体認識装置及び方法並びにロボット装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019526033A (ja) * | 2017-07-17 | 2019-09-12 | 先臨三維科技股▲ふん▼有限公司Shining 3D Tech Co., Ltd. | 単眼3次元走査システムによる3次元再構成法および装置 |
JP2019207678A (ja) * | 2018-02-28 | 2019-12-05 | ホンダ リサーチ インスティテュート ヨーロッパ ゲーエムベーハーHonda Research Institute Europe GmbH | 低速特徴からのメトリック表現の教師なし学習 |
Also Published As
Publication number | Publication date |
---|---|
US8731719B2 (en) | 2014-05-20 |
US20100286827A1 (en) | 2010-11-11 |
JP4982583B2 (ja) | 2012-07-25 |
EP2249286A1 (en) | 2010-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4982583B2 (ja) | 視覚に基づく3次元形状認識を備えたロボット | |
Rafique et al. | Statistical multi-objects segmentation for indoor/outdoor scene detection and classification via depth images | |
CN110168477B (zh) | 用于长方体检测的深度学习*** | |
Singh et al. | 3D convolutional neural network for object recognition: a review | |
Song et al. | Body surface context: A new robust feature for action recognition from depth videos | |
Cohen et al. | Inference of human postures by classification of 3D human body shape | |
Ridge et al. | Self-supervised cross-modal online learning of basic object affordances for developmental robotic systems | |
Srivastava et al. | Handling data scarcity through data augmentation in training of deep neural networks for 3D data processing | |
US11887363B2 (en) | Training a deep neural network model to generate rich object-centric embeddings of robotic vision data | |
Gandler et al. | Object shape estimation and modeling, based on sparse Gaussian process implicit surfaces, combining visual data and tactile exploration | |
Araujo et al. | Self-organizing maps with a time-varying structure | |
Rebguns et al. | Infomax control for acoustic exploration of objects by a mobile robot | |
Zhuang et al. | Instance segmentation based 6D pose estimation of industrial objects using point clouds for robotic bin-picking | |
Kjellstrom et al. | Visual recognition of grasps for human-to-robot mapping | |
Kanaujia et al. | Part segmentation of visual hull for 3d human pose estimation | |
Tran et al. | Human body modelling and tracking using volumetric representation: Selected recent studies and possibilities for extensions | |
Li et al. | Rethinking scene representation: A saliency-driven hierarchical multi-scale resampling for RGB-D scene point cloud in robotic applications | |
Zhu et al. | 3D Reconstruction of deformable linear objects based on cylindrical fitting | |
Zhao et al. | Cvml-pose: convolutional vae based multi-level network for object 3d pose estimation | |
Arnold et al. | An improved explainable point cloud classifier (XPCC) | |
Srivastava et al. | Large scale novel object discovery in 3d | |
Wang et al. | An approach for construct semantic map with scene classification and object semantic segmentation | |
Goff et al. | Bootstrapping robotic ecological perception from a limited set of hypotheses through interactive perception | |
Memon et al. | Invariant Loop Closure Detection Using Step-Wise Learning With Controlling Embeddings of Landmarks | |
Rogez et al. | Egocentric pose recognition in four lines of code |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111011 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111226 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120403 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120423 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150427 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4982583 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |