JP5703312B2 - 特徴点の効率的なスケールスペース抽出及び記述 - Google Patents

特徴点の効率的なスケールスペース抽出及び記述 Download PDF

Info

Publication number
JP5703312B2
JP5703312B2 JP2012551644A JP2012551644A JP5703312B2 JP 5703312 B2 JP5703312 B2 JP 5703312B2 JP 2012551644 A JP2012551644 A JP 2012551644A JP 2012551644 A JP2012551644 A JP 2012551644A JP 5703312 B2 JP5703312 B2 JP 5703312B2
Authority
JP
Japan
Prior art keywords
scale
keypoint
extreme values
descriptor
triangular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012551644A
Other languages
English (en)
Other versions
JP2013519144A5 (ja
JP2013519144A (ja
Inventor
ダビド・マリモン・サンフアン
アルトゥロ・ボニン・リョフリウ
トマス・アダメク
ロヘル・ヒメノ・ヘルナンデス
Original Assignee
テレフォニカ,ソシエダッド アノニマ
テレフォニカ,ソシエダッド アノニマ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフォニカ,ソシエダッド アノニマ, テレフォニカ,ソシエダッド アノニマ filed Critical テレフォニカ,ソシエダッド アノニマ
Publication of JP2013519144A publication Critical patent/JP2013519144A/ja
Publication of JP2013519144A5 publication Critical patent/JP2013519144A5/ja
Application granted granted Critical
Publication of JP5703312B2 publication Critical patent/JP5703312B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、一般に複数の画像を操作するための方法及びシステムに関し、より具体的には複数のスケールスペース特徴点を効率的に抽出及び記述するための方法及びシステムに関する。
複数のキーポイント又は複数の目立った点は、視点及び照明などの異なる複数の表示条件にわたって高い再現性を有する、画像における複数のサンプルである。オブジェクト又はシーンの異なる複数の画像化例においてこれらの複数のキーポイントを識別することは、他の複数のタスクの中で、3D空間の再構成又はオブジェクトの認識のような複数のタスクの実行を可能にする。
過去10年において、いくつかのキーポイント抽出技術が発達している。いくつかのキーポイント抽出技術の中で、2つの方法であって、これらの頑健性によりいくつかの応用領域にわたって広く受け入れられてきた2つの方法、すなわち(例えば、特許文献1において用いられる)スケール不変特徴量変換法(Scale−Invariant Feature Transform Method、SIFT法)と、(例えば、特許文献2において用いられる)加速ロバスト特徴量法(Speeded Up Robust Features Method、SURF法)とがある。
米国特許第6,711,293号明細書 欧州特許第1850270号明細書
S. Winder and M. Brown, "Learning local image descriptors", In Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), volume 0, pages 1−8, Los Alamitos, CA, USA, 2007. IEEE Computer Society. E. Tola, V. Lepetit, and P. Fua, "A fast local descriptor for dense matching", In Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), volume 0, pages 1−8, Los Alamitos, CA, USA, 2008. IEEE Computer Society. M. Brown and D. Lowe, "Invariant features from interest point groups", In Proc. British Machine Vision Conference (BMVC), pages 656−665, September 2002.
SHIFT法は、連続的にサンプリングされた複数のスケールでガウス差分の極値を検索する。まず、入力画像の複数の平滑化バージョンのピラミッドが計算される。複数の極値は、各オクターブ(σの2倍)の内側において発見される。これらの複数の極値のそれぞれにおいて、キーポイントは、近接している複数のピクセルから抽出された情報を用いて記述される。SIFT法の場合において、記述子は、勾配の方向に基づいて構成される。まず、グリッドは、キーポイントの周りの勾配の主方向に従って定義される。各グリッドの内側において、それらの大きさによって重み付けられた勾配の方向のヒストグラムが計算される。記述子は典型的には4×4のそのような複数の領域及び8つのビンの複数のヒストグラムを用いて形成され、結果として128個の成分を有するベクトルとなる。この方法は、3D再構成、オブジェクト認識、又はロボット局所化などの多数の種類のアプリケーションにおいて良好な性能が実証されている。しかしながら、この方法は、1つの主な欠点、すなわち、ピラミッドの構築及び各キーポイントに対する記述子の決定の計算コストを有する。
一方、SURF法は、SIFT法よりも非常に高速なスケールスペース抽出のために設計されている。複数の極値は、複数のハールウェーブレット変換(Haar−wavelet)によって近似されたヘッセ行列(Hessian)の行列式に基づいて位置が探索される。記述子は、画素値の強度の変化の極性に基づく。(キーポイントの主方向を用いて方向付けられた)勾配の合計と、水平方向及び垂直方向における勾配の絶対値とが計算される。記述子は通常、キーポイントの周りの4×4の領域上で計算される4つのそのような値から形成され、結果として64値の記述子となる。それらの方法の利益は主に抽出フェーズにおいて生じ、ここで、複数のハールウェーブレット変換は積分画像にアクセスすることによって計算される。これは、特にマルチスケール環境において、メモリアクセス量及び計算数を劇的に減少させる。
最近の研究(例えば、非特許文献1)は、複数の画像パッチの記述のための他の複数のパラメータの中で、異なる複数の記述子レイアウト及び特徴の性能を、徹底的に評価している。彼らの研究において、上記で引用された広く受け入れられた複数の記述子上の複数のパラメータの特定の複数の組み合わせ(例えば、非特許文献2において開示されたダイジー(DAISY)記述子)の、明確な複数の改善を観測できる。しかしながら、これらの複数の組み合わせの完全な実施例は、計算的に要求が多い複数の方法につながる。
要約すると、我々は、以下の寄与を用いた高速のスケールスペースのキーポイントの抽出及び記述のための新規のフレームワークを提案する:積分画像をベースとするSURF法の近似及びSIFT法のガウス差分よりも、高速であることと、同様又はより良好な性能を提供することとの両方を満たす、複数の区分的三角形フィルタによるヘッセ行列の行列式の近似。SURF法におけるそれよりも高速なキーポイントの方向の割り当て。
ダイジーのような記述子は、キーポイント抽出及びサンプリングスペースの最適化のためになされた複数の計算を再利用することによって、効率的に抽出される。
全てのこれらの改善は、SIFT法及びSURF法により得られるそれよりも良好な「精度対再現率」の複数の性能を有して、SIFT法と比較すると、6倍の速度の向上、及びSURF法と比較すると、3倍の速度の向上につながる。
本発明は、スケールスペースにおける複数のキーポイントを抽出及び記述する方法、システム、及びコンピュータプログラムを提案する。特に、SIFT法及びSURF法よりも良好な精度対再現率の結果を示す特別な構成を有する、スケールスペースにおいて視点及び照明に対して複数の不変なキーポイントを抽出する方法、システム、及びコンピュータプログラムが開示される。
アルゴリズムは、計算の複雑性全体の低減に向けて設計される。一方では、記述フェーズにおいて抽出中に取得されたデータは、集中的に再利用される。他方では、処理の速度を劇的に向上させるような記述のアルゴリズムの最適化が提案される。
第1の態様において、画像におけるスケールスペースの複数のキーポイントの抽出及び記述のための方法であって、
a)異なる複数のスケールで、複数の三角形カーネルフィルタを用いて画像をフィルタリングするステップと、
b)各スケールでヘッセ行列の行列式の近似を計算し、ここで、各スケールkでの当該近似は、
Figure 0005703312
として計算され、ここで、
Figure 0005703312
Figure 0005703312
Figure 0005703312
であり、ここで、L(k,i,j)は、点(i,j)においてスケールkでステップa)において得られた、フィルタリングされた画像の応答であり、ここで、d及びdは設計パラメータであるステップと、
c)ステップb)において得られたヘッセ行列の行列式の近似の、単一のスケール内であってかつスケールスペースに沿っての両方の複数の極値を検索して、これらの極値から複数のキーポイントを計算するステップと、
d)各キーポイントに対して、極値に局所化されて、ステップa)において得られたフィルタリングされた画像の応答を使用して計算された勾配情報から複数の主要な方向を検出するステップと、
e)各主要な方向に対して、キーポイント記述子を計算するステップとを含む方法。
図1は、提案されたキーポイント抽出方法及びキーポイント記述方法のベストモードのブロック図を表す。三角形フィルタリングされた複数の画像は、主要な方向の抽出とダイジーのような記述子の計算のために再利用される。
図1は、本方法のベストモードのブロック図を示す。まず、画像は、異なる複数のスケールで、三角形カーネルを用いてフィルタリングされる。次に各スケールでヘッセ行列の行列式の計算が行われ、次いでこのスペース上において複数の極値の検出が行われる。複数のキーポイントは上記の複数の極値を用いて発見され(複数のキーポイントは、ヘッセ行列の行列式の複数の極値である、特別なスケールとしてのこれらのピクセルとして選択される。)、各キーポイントに対して、複数の主要な方向は、三角形フィルタリングされた複数の画像を用いて抽出された勾配情報から計算される。各主要な方向に対して、その記述子は計算される。この計算は複数の方向付けられた勾配を利用し、当該複数の方向付けられた勾配もまた三角形フィルタリングされた複数の画像から抽出される。
もう1つの態様において、上述の方法を実行するように構成された手段を備えるシステムが提示される。
最後に、上述の方法を実行するように構成されたコンピュータプログラムコード手段を備えるコンピュータプログラムが提示される。
本発明、本発明の目的、及び効果のより完全な理解のために、以下の明細書及び添付の図面を参照する必要があるであろう。
提案されたキーポイント抽出方法及びキーポイント記述方法のベストモードのブロック図を表す。 2D三角形状カーネルを示す。 2D三角形状カーネルを用いて入力画像をフィルタリングすることによって形成されたフィルタリングされたバージョンL(k,i,j)、k=1、…、Kのスタックを示す。 2階微分の形状を示す。 SURF法において用いられる水平方向(又は等価的に回転された垂直軸)の2階微分フィルタ形状を示す。 現在、上位、及び下位のスケールにおける複数の極値の検索のグラフ表現を示す。 2つのリングと、角度0度で方向付けられたリング1つ当たり8つのセグメント(複数の円周を用いて表される)のレイアウトを示す。 複数の画像列に対する再現性のスコア(%)を示す。 左から右へかつ上から下への、グラフィティ、ボート、複数のバイク、及びルーバンの複数の画像列に対する精度対再現率のグラフ表現を示す。
明細書を完成させて本発明のより良い理解を提供するために、複数の図面のセットが提供される。上記の複数の図面は、明細書と不可分な一体部分を形成して、本発明の好ましい実施の形態を例示する。当該実施の形態は、本発明の範囲を限定するものとして解釈されるべきでなく、むしろどのように本発明が実施されるかの一例として解釈される必要がある。
異なる複数の図における対応する符号及び記号は、他に指摘されない限り対応する部分を参照する。
本発明の方法は、スケールスペースにおける複数のキーポイントをまず検出する処理を説明し(キーポイント抽出ステップ)、次いでダイジーのような記述子を用いて複数のキーポイントを説明する(キーポイント記述ステップ)。この特許は、これらの両方の処理を、分離及び一緒の両方でカバーする。
スケールスペースの複数の極値の検出のための発明された方法は、3つのステップから構成される。
1.第1に、各スケールのヘッセ行列の行列式の計算。
2.第2に、スケールスペースにおける複数の極値の検索。
3.最後のステップはオプションであり、当該ステップはサブピクセル及びサブスケールを用いた複数のキーポイントの発見にある。
抽出アルゴリズムについて一般的に説明することから始め、次いでその抽出アルゴリズムを効率的にする正確な処理について説明する。ヘッセ行列の行列式は
Figure 0005703312
を計算することにあり、ここで、∂xxは画像上のガウス関数の2階水平微分、∂yyは2階垂直微分、そして∂xyは2階クロス微分である。我々の方法は、異なる複数のフィルタカーネルを用いて使用可能である。少なくとも抽出ステップは、複数の2次元ガウスフィルタを用いて実行可能であり、これらの複数のフィルタは、複数の対称加重積分画像(Symmetric Weighted Integral Image)及び複数の区分的三角形を用いた近似も用いて、近似される。複数の対称加重積分画像は、増加因子又は減少因子を用いて重みが付けられた複数の積分画像(累積的な2次元の合計)である。いくつかのそのような複数の積分を計算して、異なる複数の位置でこれらの複数の積分にアクセスすることによって、多数のカーネル形状を再生成することが可能である。複数の区分的三角形を用いて計算される方法は好ましいモードであり、以下に説明される。
画像は2D三角形状フィルタを用いてフィルタリングされて、L(i,j)を得ていると仮定する。図2は、このフィルタの形状をプロットする。
図3は、2D三角形状カーネルを用いて入力画像をフィルタリングすることによって形成された、フィルタリングされた複数のバージョンL(k,i,j)、k=1,…,Kのスタックを示す。各スケールで、カーネルのサイズ(水平軸及び垂直軸の両方において等しく)は増加される。
図4は、2階微分の形状を示す。上部:ガウス関数、下部:重み付けられた複数の三角形フィルタを有する近似。
各スケールkに対して、全ての微分は、異なる複数の点(i,j)において、対応するフィルタリングされた応答L(k,i,j)にアクセスすることによって計算される。概念的には、ガウス関数(図4の上部を参照)の2階水平微分の形状は、変換されて重み付けられた三角形状の応答(図4の下部を参照)によって、近似される。
この処理は、異なる複数のスケールk=1,…,Kで実行され、結果として以下の複数の近似が得られる。
Figure 0005703312
Figure 0005703312
Figure 0005703312
ここで、d及びdは実験的に選択され、ガウスカーネルの近似された2階微分のσ(シグマ)に比例する。なお、これらの複数の近似は、三角形フィルタを用いてフィルタリングして次いで複数の所望されないアーチファクトを発生し得る2階微分フィルタ[1;−2;1]を用いて畳み込むことに等価でない。推測可能なように、複数の微分の計算は、9回のみのLへのアクセスを必要とする。このことは、SURF法のボックス形状の近似と比較される必要があり、ここで、ヘッセ行列の行列式の計算は、積分画像への8+8+16=32回のアクセスを必要とする。複数のハールウェーブレット変換を用いる2階微分に対するこの近似の一例は、図5に示される。
スケールスペースは、図3に示されるように、フィルタリングされた複数のバージョンL(k,i,j)のスタックを用いて形成される。このことは、フィルタリングされた複数のバージョンのピラミッドが形成されるSIFT法及びSURF法の場合と異なる。この処理において、各オクターブ(ガウス関数又は近似されたガウスフィルタのそれぞれのシグマσの2倍)では、サブサンプリングが実行される。我々の複数の実験において、サブサンプリングは性能の関連損失を形成し、そのためにこの発明において説明される方法は、サブサンプリングすることなく入力画像のフィルタリングを実行する。この方法は計算的に要求が多いように見え得るが、以下に説明されるように、この方法の複数の改善点の1つは、フィルタリングされた複数のバージョンL(k,i,j)の一定の再利用である。第1に、この方法は(前述と同様の)ヘッセ行列の行列式の計算中の計算の大きな節約を可能とし、第2に、この方法は、後述されるように、複数のキーポイントの記述において更に利用される。
今までのところ、我々は、入力画像の三角形フィルタリングされた複数のバージョンの制限された数のサンプルにアクセスすることによってヘッセ行列の行列式をどのように計算するかについて説明した。マルチスケールフィルタリングは時間を消費する処理であるために、本方法は、計算コストを更に低減するために、三角形フィルタリングされた複数のバージョンの効率的な計算を実行する。ガウスフィルタは、ボックス型の複数のフィルタを繰り返し畳み込むことによって近似可能であり、複数のボックスフィルタのn回の畳み込みと信号のn回の積分のいくつかのサンプルにアクセスすることとの間の関係が識別される。1D信号(ボックスフィルタの畳み込みの2倍)の三角形フィルタリングされたバージョンの計算は、1度に信号の3つのサンプルのみにアクセスし、次いで2回積分することにより行われることが可能である。本発明において、単一のスケールkに対して、L(k,i,j)は、入力画像上の2つの経路(1つの水平方向の経路及び1つの垂直方向の経路)のみを用いてオンザフライで得られる。
図6は、現在、上位、及び下位のスケールにおける複数の極値の検索のグラフ表現を示す。オプションの高速検索は、現在のスケール上の3×3のウィンドウにおいて実行される。
極値の検索は、第1のk=1及び最後のk=Kの場合を除き、全てのスケール上で実行される。複数の極値は、現在のk、上位のk+1、及び下位のk−1のスケール上のσの検索ウィンドウ内において検索される。この特許はまた、処理の速度を向上させる拡張をカバーする:第1のテストは、非最大値を素早く検出して更なる処理を避けるために、現在のスケールk上の3×3のウィンドウ上で実行される。図6は、この検索のグラフ表現を描写する。
なお、SIFT法及びSURF法の両方は、ピラミッドの複数のオクターブの内側のみにおいて複数の極値を検索し、正しい複数の極値の検出を許すための複数の余分なスケールを発生する。提案された複数の極値の検索は、スケールスペースのスタックにおいて連続的である。
最後のステップはオプションであり、当該最後のステップは、サブピクセル及びサブスケールの精度を用いてキーポイントを発見することにある。好ましいモードは、非特許文献3と同様にこの精度を得るためのものである。つまり、本方法は、補間された位置を決定するために各極値のサンプルを中心とする二次関数をフィッティングし、同一のスケール、上位のスケール、及び下位のスケールの近接している複数のピクセルにおいて検索する。複数の検索結果及び安定性は、サブピクセル及びサブスケールの精度を利用して改善される。
図7は、2つのリングと、角度0度で方向付けられたリング1つ当たり8つのセグメント(複数の円周を用いて表される)のレイアウトを示す。セグメントから中心への距離により、多くのサンプル(複数のドットを用いて表される)は近接して配置される。
いくつかの研究は、複数のキーポイントを記述するために、最近評価された異なる複数の特徴、複数のレイアウト、及び複数のステップを有する。複数の最良の結果を提供するレイアウトは、図7に描写されるレイアウトに類似するダイジーレイアウトである。これらの結果に動機付けられ、発明された方法は、抽出ステップから可能な限り多くの情報を再利用する我々の目的に適合するダイジー記述子の変形例をカバーする。
視点に対して不変な記述子を発生するために、第1のステップは、キーポイントの主要な方向を検出する。SIFT法に従ったアプローチは、対応するガウス平滑化された画像のウィンドウ内における勾配の大きさによって重み付けられた複数の勾配方向のヒストグラムを計算することである。勾配は、ピクセル微分によって計算される。主要な方向は、ヒストグラムのピークにおいて発見される。1つ以上の主要なピークが発見されたときには、いくつかのキーポイントが発生される。SURF法の場合において、微分は、キーポイントの円近傍におけるサンプリングされた複数の点において(積分画像を利用して)複数のハールウェーブレット変換を用いて計算される。各サンプルの大きさは、水平微分及び垂直微分の空間に位置を占める。この空間はスキャンされて、主要な方向は、ウィンドウ内における値の最大の合計とともに発見される。
本発明は、両方のアプローチの複数の利益のいくつかを利用し、変形例のアプローチを定義する。各キーポイントに対して、近傍の内側の低減された数のサンプルは、勾配の計算のためにアクセスされる。速度の向上は、円近傍をサンプリングすることによって得られる。各サンプル(i,j)に対して、我々の有利な点は、水平方向の1階微分
Figure 0005703312
のために、(SURF法における6つのサンプルと比較して)2つの点においてL(k)に単にアクセスすることによって、複数の勾配が計算されることであり、垂直方向の1階微分に対しても等価である。dは、サブスケールの精度が得られなければσに比例し、さもなければσ’に比例する。各微分は、その大きさ及びキーポイントを中心とするガウスカーネルに比例する重みを用いて、ヒストグラムに累積される。最後に、複数の主要な方向は、最大値の近くの値を有する複数のピークを検索することによって発見される。
本発明において、記述子は、特定のレイアウトを用いてサンプリングされた一次微分(勾配)から構成され、続いてベクトル全体に対する正規化がある。
レイアウトは、複数のセグメント及び複数のリングからなる。各セグメントは、キーポイントの近傍の一部である。各セグメントは、複数の特徴を発生する。複数のリングは、次の特性をシェアする複数のセグメントのグループである:セグメントの中心は、キーポイントから同一のユークリッド距離に位置する。この距離は、本明細書において後に議論される。また、レイアウトは、キーポイントを中心とする中央のセグメントを有する。
各セグメントは、キーポイントを記述する特徴ベクトルに寄与する。各セグメントの内側における複数のサンプルは、対応するセグメントの複数の特徴の計算のためにアクセスされる。オリジナルの特徴サンプリングブロックは、キーポイントの近傍における全てのピクセルから1次微分(勾配)を計算することにあり、∂を水平1階微分として、∂を垂直1階微分として、4値のベクトル{|∂|−∂;|∂|+∂;|∂|−∂;|∂|+∂}を得る。
本発明において、同一の4値は近似されて計算されるが、セグメントの内側の選択された複数のサンプルからのみ近似されて計算される。そのようなサンプルのそれぞれにおいて、複数の勾配は評価され、複数の微分はキーポイントの方向に従って方向付けられる。なお、SURF法もまた方向付けられた複数の勾配を計算するが、複数のハールウェーブレット変換は画像のピクセルのインデクシングを用いて方向付けられるため、複数のアーチファクトを導入することなく積分画像を利用することはできない。他方、方向付けられた複数の勾配の近似は、L(k)に対する2回のみのアクセスを用いる本発明において、直接的である:
Figure 0005703312
ここで、θは、キーポイントの対応する主要な方向の角度である。
そのような特徴抽出は、前述の複数のセグメント及び複数のリングのレイアウトに従う空間分布を有するサンプル上で実行される。
この特許は、フィルタカーネルにかかわらずフィルタリングされた複数のバージョンLからの複数の特徴を得る全ての可能な複数のレイアウトをカバーする。この特許の好ましいモードは、記述子の長さを比較的に短く保っている間、最良の結果を生成するレイアウトを使用する。そのレイアウトは、8つのセグメントと2つのリングを有する。これは、(1+2・8)・4=68値のベクトルを生成する。更に、各セグメントに対して選択されたサンプルの数は、リングに応じて変化する。特に、複数のカーネルは、中心のセグメント、第1のリング及び第2のリングに対して、それぞれサイズ3×3,5×5,及び7×7を有する。ガウス関数の重みはまた、各セグメントの複数のサンプル上で実行される。各セグメントの複数のサンプルにアクセスする前に、全体のレイアウト(セグメントの複数の中心及びセグメントの複数のサンプル)は、キーポイントの主要な方向で回転される。
最後に、L2正規化は、記述子ベクトルに対して適用される。その結果は、8ビットのみに量子化される。L2正規化及び8ビットへの量子化はともに、オプションでありかつ独立であるが、好ましいモードの一部である。このベクトルは、我々がDART法のキーポイントと呼ぶものである。
オリジナルのダイジー記述子において、レイアウトを更に決定する2つのパラメータがあり、それらは、各セグメントのサンプリングブロックの複数のサンプルの間の距離と、キーポイントの中心及び各セグメントの複数の中心の間の距離である。
複数の実験結果により、複数のサンプルは2σによって区別され、第1のリングに対する4σ及び第2のリングに対する8σのセグメントへの距離が取得される。このレイアウトにおける複数のセグメントは、図に見られるように大きく重なり合う。この特性は実際には我々の設計において望ましい。なぜならば、記述子の計算が最適化可能だからである。
各セグメントに寄与する複数のサンプルの座標を見れば、どのように非常に近い複数のサンプル(完全に同一でなければ)がアクセスされるかを観測できる。我々は、近くにある複数のサンプルを単一のサンプルに再グループ化することによって処理を進める。そのようなサンプルで計算されたX方向及びY方向の微分は、対応する重みを有するいくつかのセグメントに寄与する。
アクセスされることとなる複数のサンプルを計算する処理は、スケールから独立して1回のみ実行される。スケール(σ)は、又はサブスケールの精度が適用されるときにはサブスケール(σ’)は、与えられたキーポイントの記述子の計算時に適用される乗法因子である。その結果は、複数のサンプルのグリッドであり、対応は複数のサンプルが寄与する複数のセグメントに関連する。
この最適化は、アクセスの回数を大幅に減少させる。オリジナルの3×3+5×5×8+7×7×8=601個のサンプル(フィルタリングされたバージョンに対する2404回のメモリアクセスを意味する)から、σ/2の半径内に配置された複数のサンプルを再グループ化することによって、その数は197個のサンプル(788回のメモリアクセス)に減少する。次のセクションにおいて示されるように、この減少は性能の大幅なロスを有しない。大きな半径を用いた更なる再グループ化は、結果全体を悪化させ始める。推定可能なように、グリッド近似は、複数のサンプルがお互いに一層近く一緒にある小さな複数のスケールで、複数のキーポイントに与える少ない影響を有する。
この発明は、サンプルの数の最適化を有するサンプリングと、サンプルの数の最適化を有しないサンプリングとの両方をカバーする。
図8は、複数の画像列に対する再現性のスコア(%)を示す。DART法は、視点の変化、ぼやけ、及びjpeg圧縮に対して、SIFT法及びSURF法と同様の、又はSIFT法及びSURF法より良好な性能を有する。スケールの変化は、他の技術よりもDART法の抽出フェーズに対して影響を与えるように思われる。
抽出処理は、異なる複数の画像変換にわたって、複数のキーポイントの再現性を測定することによって検証可能である。図の理解を単純にするために、本発明は、名称DARTを有する好ましいモードを使用して識別される。図8は、データベースのいくつかの列における、SIFT法、SURF法、及びDART法に対する再現性のスコアの比較を示す。各列に対して、異なる複数の歪みは、強度を増加させて(例えば、ぼやけの増加、又はJPEG圧縮)適用される。
視点、ぼやけ、及びjpeg圧縮に対して、我々は、DART法がSIFT法及びSURF法と同様の性能、又はSIFT法及びSURF法より良好な性能を有することを観測できる。他の複数の技術と比較可能であるが、スケールの変化は、DART法の抽出フェーズに影響を与えるように思われる。この動作は、複数の三角形を用いたガウス関数の2階微分の近似に起因する。
我々の抽出子を用いて検出された複数のキーポイントでのダイジー記述子の発明された変形例は、1つの精度対再現率を測定することによって検証可能である。図9は、記述子の最適化を用いる発明された方法及び記述子の最適化を用いない発明された方法によって獲得された性能を、SIFT法及びSURF法の性能とともに描写する。図9に見られるように、DART法は、全ての評価された複数の列において、SIFT法及びSURF法よりも良好な結果を生成する。
複数のキーポイントを抽出及び記述するための提案されたアルゴリズムは、効率の向上に向けて設計される。この仮説の検証のために、第1のグラフィティ画像(画像サイズ:800×640ピクセル)上の複数のキーポイントは、2GBのRAMを用いてインテル社製Core 2 Duo CPU@2.33GHz上で抽出される。本方法に対して費やされる時間は、(著者のオフィシャルのウェブサイトからの)SIFT法及びSURF法のバイナリを用いた費やされる時間と比較される。表1は、各方法に対して費やされる時間を示す。なお、経過時間は、画像の読み込みを含み、また複数のキーポイントのASCIIファイルへの書き込みを含む。異なる複数のしきい値は、キーポイントの数に関して、より公正な比較のために、DART法において用いられる。
Figure 0005703312
表1は、第1の画像のグラフィティ列(800×640ピクセル)上の異なる複数のキーポイント抽出方法に対して費やされる時間を示す。
結果は、SIFT法と比較すると、6倍の速度の向上、及びSURF法と比較すると、3倍の速度の向上を示す。この実験において実施されていないが、スケールスタックの抽出ステップの高度に平行である性質に注意する。このことは、更なる計算コストの減少が可能であることを示す。
発明された方法の適用性を更に検証するために、DART法をうまく用いる2つのコンピュータビジョンの問題は調査される。なお、DART法は、ここで検証される問題を超える他の複数の問題にも適用可能である。
オブジェクトトラッキング:3次元オブジェクトトラッキングは、静止カメラ又は移動カメラに関するオブジェクトの3Dのポーズの追跡にある。オブジェクトトラッキングは、拡張現実などの複数のアプリケーションにおいて頻繁に用いられる。平面的な複数のオブジェクトの特別な場合において、問題は、ビデオストリームの各フレームで抽出された複数のキーポイントに対するオブジェクトの参照画像上の複数のキーポイントのマッチングによって解決可能である。一度対応が確立されると、オブジェクトのポーズは推定可能である。我々は、複数のDART記述子の最近傍マッチングを実施する。ユークリッド距離がしきい値を超え、かつ1番目及び2番目のベストマッチの距離の間の比率が0.7よりも大きくない場合、我々はこれらの対応を除外する。
3D再構成:膨大な種類のシーンの再構成技術がある。本ケースにおいて、複数のDARTキーポイントは、3D点群を発生するために、2つ又はそれ以上の一貫した視点から三角測量される。このタスクを実行するために、動きからの構造及びエピポーラ幾可学が利用されて、入力としてビデオ列を用いて現実のシーンの幾何学的表現が構築される。
つまり、本発明は、スケールスペースの複数のキーポイントを効率的に抽出及び記述する新規の方法を提案した。本発明は、効率的に計算された複数の区分的三角形フィルタによってヘッセ行列スケールスペースの行列式を近似する抽出方法を含む。本発明はまた、サンプリングスペース上での最適化を用いたダイジー記述子の変形例を含む。
本方法は、再現性、精度対再現率、及び計算コストの観点から類似の複数の技術と比較される。再現性の観点から、我々の抽出子は、SIFT法及びSURF法とコンパチブルな、又はSIFT法及びSURF法よりも良好な性能を有する。精度対再現率の場合において、発明された最適化された記述子レイアウトは、他の複数の方法に対して明らかな利益である。SIFT法と比較すると6倍の、そしてSURF法と比較すると3倍の速度の向上とともに、計算の複雑性の低減が示される。この評価とともに、本発明は、オブジェクト認識及び3d再構成のアプリケーションにうまく適用される。
本発明は特定の複数の実施の形態を参照して説明されたが、前述及びさまざまな他の複数の変更、形態の複数の削除及び複数の付加、及びそれらの詳細は、以下の複数の請求項に定義されるような発明の精神及び範囲を逸脱することなく実施されてもよいことが、当業者によって理解される必要がある。

Claims (8)

  1. 画像における複数のキーポイントのスケールスペース抽出及び記述のための、システムによって実行される方法であって、
    a)異なる複数のスケールで、複数の三角形カーネルフィルタを用いて前記画像をフィルタリングし、ここで、前記複数の三角形カーネルフィルタは、複数の2D三角形状フィルタであるステップと、
    b)各スケールでヘッセ行列の行列式の近似を計算し、ここで、各スケールkでの当該近似は、
    Figure 0005703312
    として計算され、ここで、
    Figure 0005703312
    Figure 0005703312
    Figure 0005703312
    であり、ここで、L(k,i,j)は、点(i,j)においてスケールkでステップa)において得られた、前記フィルタリングされた画像の応答であり、ここで、d及びdは設計パラメータであり、d及びdは、ガウスカーネルの近似された2階微分のシグマ、σ、に比例するステップと、
    c)ステップb)において得られたヘッセ行列の行列式の近似の、単一のスケール内の複数の極値と、スケールスペースに沿っ複数の極値を検索して、これらの極値から前記複数のキーポイントを計算するステップと、
    d)各キーポイントに対して、極値に局所化されて、ステップa)において得られた前記フィルタリングされた画像の応答を使用して計算された勾配情報から、複数の主要な方向を検出するステップと、
    e)各主要な方向に対して、キーポイント記述子を計算し、ここで、前記キーポイント記述子は、特定のレイアウトを用いてサンプリングされた複数の方向付けられた勾配から構成され、ここで、前記複数の方向付けられた勾配は、
    Figure 0005703312
    として計算され、ここで、L(k,i,j)は、点(i,j)においてスケールkでステップa)において得られた前記フィルタリングされた画像の応答であり、dは設計パラメータであり、θは前記キーポイントの主要な方向の角度であるステップとを含む方法。
  2. 前記複数の主要な方向を検出するステップは、
    各キーポイントに対して、前記キーポイントの近傍の内側の複数のサンプルを選択するステップと、
    各サンプル(i,j)に対して、水平方向の勾配を、
    Figure 0005703312
    として計算し、垂直方向の勾配を、
    Figure 0005703312
    として計算し、ここで、L(k,i,j)は点(i,j)においてスケールkでステップa)において得られた前記フィルタリングされた画像の応答であり、dは設計パラメータであるステップと、
    各勾配を、その大きさに比例する重み及び前記キーポイントを中心とするガウスカーネルを用いて、ヒストグラムに累積するステップと、
    前記複数の主要な方向を、前記ヒストグラムの最大値の近くの値を有する複数のピークを検索することによって発見するステップとを含む請求項1に記載の方法。
  3. 前記近傍は円近傍である請求項2に記載の方法。
  4. 前記レイアウトは、複数のセグメント及び複数のリングからなり、各セグメントは前記キーポイントの近傍の一部であり、各リングは、前記セグメントの中心が前記キーポイントからの同一のユークリッド距離に配置される特性をシェアする複数のセグメントのグループである請求項1から3までのうちのいずれか一項に記載の方法。
  5. 前記複数のキーポイントの前記計算は、サブピクセル及びサブスケールの精度を有して行われる請求項1から4までのうちのいずれか一項に記載の方法。
  6. 前記複数のキーポイントの前記計算は、補間される位置を決定するために各極値を中心とする二次関数をフィッティングし、同一のスケール、上位のスケール、及び下位のスケールの近接している複数のピクセルにおいて検索することにより行われる請求項5に記載の方法。
  7. 請求項1から6までのうちのいずれか一項に記載の方法を実行するように構成された手段を備えるシステム。
  8. コンピュータプログラムであって、
    コンピュータ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ、アプリケーション特定用途集積回路、マイクロプロセッサ、マイクロコントローラ、又はプログラマブルハードウェアの任意の他の形式上で前記コンピュータプログラムが実行されるときに、請求項1から6までのうちのいずれか一項に記載の方法を実行するように構成されたコンピュータプログラムコード手段を備えるコンピュータプログラム。
JP2012551644A 2010-02-08 2011-02-07 特徴点の効率的なスケールスペース抽出及び記述 Expired - Fee Related JP5703312B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US30229010P 2010-02-08 2010-02-08
US61/302,290 2010-02-08
PCT/EP2011/051704 WO2011095617A2 (en) 2010-02-08 2011-02-07 Efficient scale-space extraction and description of interest points

Publications (3)

Publication Number Publication Date
JP2013519144A JP2013519144A (ja) 2013-05-23
JP2013519144A5 JP2013519144A5 (ja) 2014-02-27
JP5703312B2 true JP5703312B2 (ja) 2015-04-15

Family

ID=44353778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012551644A Expired - Fee Related JP5703312B2 (ja) 2010-02-08 2011-02-07 特徴点の効率的なスケールスペース抽出及び記述

Country Status (9)

Country Link
US (2) US8798377B2 (ja)
EP (1) EP2534612B1 (ja)
JP (1) JP5703312B2 (ja)
AR (1) AR080145A1 (ja)
AU (1) AU2011212422B2 (ja)
BR (1) BR112012019865A2 (ja)
CL (1) CL2012002190A1 (ja)
ES (1) ES2478284T3 (ja)
WO (1) WO2011095617A2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102782708A (zh) 2009-12-02 2012-11-14 高通股份有限公司 用于图像辨识的描述符小块的快速子空间投影
US9530073B2 (en) * 2010-04-20 2016-12-27 Qualcomm Incorporated Efficient descriptor extraction over multiple levels of an image scale space
US8606031B2 (en) * 2010-10-18 2013-12-10 Sony Corporation Fast, accurate and efficient gaussian filter
US8965130B2 (en) * 2010-11-09 2015-02-24 Bar-Ilan University Flexible computer vision
US8542942B2 (en) * 2010-12-17 2013-09-24 Sony Corporation Tunable gaussian filters
US9058683B2 (en) 2013-02-21 2015-06-16 Qualcomm Incorporated Automatic image rectification for visual search
US10228242B2 (en) 2013-07-12 2019-03-12 Magic Leap, Inc. Method and system for determining user input based on gesture
CN105705746B (zh) 2013-10-24 2019-10-29 沃尔沃卡车集团 涡轮复合单元
WO2015074157A1 (en) * 2013-11-25 2015-05-28 Ehsan Fazl Ersi System and method for face recognition
US9858681B2 (en) * 2014-10-27 2018-01-02 Digimarc Corporation Signal detection, recognition and tracking with feature vector transforms
US9576218B2 (en) * 2014-11-04 2017-02-21 Canon Kabushiki Kaisha Selecting features from image data
US9454713B2 (en) 2014-12-30 2016-09-27 Ebay Inc. Similar item detection
US10997232B2 (en) * 2019-01-23 2021-05-04 Syracuse University System and method for automated detection of figure element reuse
CN111027572B (zh) * 2019-12-02 2023-08-22 湖南警察学院 一种基于sift算法的单幅图像算法
CN111680723A (zh) * 2020-05-26 2020-09-18 中国人民解放军96901部队21分队 基于快速自适应鲁棒性尺度不变的特征检测子技术的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
JP4517449B2 (ja) * 2000-05-10 2010-08-04 株式会社豊田中央研究所 画像における相関演算方法
JP4639526B2 (ja) * 2001-05-24 2011-02-23 株式会社島津製作所 ディジタルサブトラクション装置
JP4613617B2 (ja) * 2005-01-07 2011-01-19 ソニー株式会社 画像処理システム、学習装置および方法、並びにプログラム
EP1850270B1 (en) 2006-04-28 2010-06-09 Toyota Motor Europe NV Robust interest point detector and descriptor
US8233716B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated System and method for finding stable keypoints in a picture image using localized scale space properties

Also Published As

Publication number Publication date
WO2011095617A2 (en) 2011-08-11
WO2011095617A3 (en) 2012-03-15
ES2478284T3 (es) 2014-07-21
EP2534612B1 (en) 2014-04-09
EP2534612A2 (en) 2012-12-19
US8798377B2 (en) 2014-08-05
AR080145A1 (es) 2012-03-14
AU2011212422B2 (en) 2015-07-16
JP2013519144A (ja) 2013-05-23
US20130135301A1 (en) 2013-05-30
US20110194772A1 (en) 2011-08-11
AU2011212422A1 (en) 2012-08-23
CL2012002190A1 (es) 2012-12-21
BR112012019865A2 (pt) 2016-04-26

Similar Documents

Publication Publication Date Title
JP5703312B2 (ja) 特徴点の効率的なスケールスペース抽出及び記述
CN109753885B (zh) 一种目标检测方法、装置以及行人检测方法、***
US8233716B2 (en) System and method for finding stable keypoints in a picture image using localized scale space properties
CN111080529A (zh) 一种加强鲁棒性的无人机航拍图像拼接方法
Davarzani et al. Scale-and rotation-invariant texture description with improved local binary pattern features
Trulls et al. Dense segmentation-aware descriptors
Marimon et al. DARTs: Efficient scale-space extraction of DAISY keypoints
US11657630B2 (en) Methods and apparatus for testing multiple fields for machine vision
US10825199B2 (en) Methods and apparatus for processing image data for machine vision
JP5289412B2 (ja) 局所特徴量算出装置及び方法、並びに対応点探索装置及び方法
JP2006523345A (ja) マルチメディアデータに索引付けをし、そして検索するための形状マッチング方法
TW201804437A (zh) 影像物體特徵描述方法及影像處理裝置
EP2883192A1 (en) A method of providing a feature descriptor for describing at least one feature of an object representation
Qi et al. Exploring illumination robust descriptors for human epithelial type 2 cell classification
Govindaraj et al. Hexagonal grid based triangulated feature descriptor for shape retrieval
Huang et al. A new scale invariant feature detector and modified SURF descriptor
KR102617732B1 (ko) 기계 시각을 위한 이미지 데이터 처리 방법들 및 장치
Rachdi et al. Directional neighborhood topologies based multi-scale quinary pattern for texture classification
KR101279484B1 (ko) 영상 처리 장치 및 방법
Davarzani et al. Robust image description with weighted and adaptive local binary pattern features
Chelluri et al. SIFT and it’s Variants: An Overview
Tong et al. A blur-invariant interest point detector based on moment symmetry for motion and Gaussian blurred image matching
De Smedt et al. Fast Rotation Invariant Object Detection with Gradient based Detection Models.
Nguyen et al. Text detection in scene images based on feature detection and tensor voting
CN114155143A (zh) 图像处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140107

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150223

R150 Certificate of patent or registration of utility model

Ref document number: 5703312

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees