JP2010539623A - 位置情報を使用して画像内のオブジェクトを識別するシステムおよび方法 - Google Patents
位置情報を使用して画像内のオブジェクトを識別するシステムおよび方法 Download PDFInfo
- Publication number
- JP2010539623A JP2010539623A JP2010525975A JP2010525975A JP2010539623A JP 2010539623 A JP2010539623 A JP 2010539623A JP 2010525975 A JP2010525975 A JP 2010525975A JP 2010525975 A JP2010525975 A JP 2010525975A JP 2010539623 A JP2010539623 A JP 2010539623A
- Authority
- JP
- Japan
- Prior art keywords
- image
- objects
- map
- distance
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
画像内のオブジェクトを識別する、コンピュータによって実施される方法を提供する。本発明に係る方法は、カメラを使用してシーンの一連の画像を撮影するステップと、シーン内のオブジェクト間の距離を定義する、シーンのトポグラフィカルマップを受信するステップと、シーン内のオブジェクト間の距離を、与えられた画像から求めるステップと、与えられた画像から求められたオブジェクト間の距離を、マップからのオブジェクト間の距離との関連において比較することによって、与えられた画像内のオブジェクトの識別情報を推測するステップと、を含んでいる。オブジェクトの識別情報は、別の画像から抽出されるオブジェクトの特徴を使用して再推定することができる。
【選択図】図1
【選択図】図1
Description
本開示は、画像から抽出される特徴と、画像とは独立して取得される位置情報とを組み合わせて使用して、画像内のオブジェクトを識別するシステムおよび方法に関する。
画像認識は、ますます高度になりつつある。しかしながら、画像認識には、ある種の問題がある。顔認識に基づくシステムを考えると、画像認識手法を使用して識別する場合、この手法が機能するためには事前に確立されたデータベースが必要である。さらに、このようなシステムでは、正しく検出して認識できるために、撮影された画像においてすべての特徴が映し出されていることも要求される。このシステムでは、カメラに向いている2人の人物は、顔特徴に基づいて容易に検出および認識することができるが、カメラとは反対を向いている人物を識別することはできない。したがって、画像認識のみを採用しているシステム単独では、画像に撮影されているすべての人を確実に正しく識別することはできない。
なお、このセクションでは、本開示に関連する背景情報について説明したが、これは必ずしも先行技術ではない。
画像内のオブジェクトを識別する、コンピュータによって実施される方法、を提供する。この方法は、カメラを使用して画像を撮影するステップと、カメラの直近に見つかったオブジェクト間の空間配置を定義するマップであってマップ内の各オブジェクトの一意の識別子を提供するマップを生成するステップと、特徴抽出法を使用して画像内のオブジェクトを検出するステップと、画像内において検出されたオブジェクトを、マップを使用して識別するステップと、を含んでいる。
本開示の別の態様においては、オブジェクトを識別する方法は、カメラを使用してシーンの一連の画像を撮影するステップと、シーン内のオブジェクト間の距離を定義する、シーンのトポグラフィカルマップ(topographical map)を受信するステップと、シーン内のオブジェクト間の距離を、与えられた画像から求めるステップと、与えられた画像から求められたオブジェクト間の距離を、マップからのオブジェクト間の距離との関連において比較することによって、与えられた画像内のオブジェクトの識別情報を推定するステップと、を含んでいる。オブジェクトの識別情報は、別の画像から抽出されるオブジェクトの特徴を使用して再推定することができる。
このセクションでは、本開示について全般的に概説したが、本開示の範囲全体、または本開示の特徴すべてを包括的に記載するものではない。適用可能なさらなる領域は、本明細書に記載されている説明から明らかになるであろう。この概説中の説明および具体例は、説明を目的とするのみであり、本開示の範囲を制限することを目的とするものではない。
本明細書において説明する図面は、可能なあらゆる実施形態ではなく選択された実施形態の説明を目的とするのみであり、さらに、本開示の範囲を制限することを意図するものではない。
図1は、カメラ10、ビデオカメラ、またはその他のタイプの撮像装置によって画像を撮影することのできる例示的なシーンを示している。カメラは、カメラに直近の人物またはオブジェクトの位置情報を利用する。カメラによって画像を撮影する間に、各人物の位置情報と一意の識別子とをカメラによってリアルタイムに取り込むことができる。なお、カメラは、カメラの視野内の人物のみならず、シーン内のすべての人物の位置情報を取り込む。以下では、カメラに直近のオブジェクトから位置情報を取り込む例示的な方法について、さらに説明する。
カメラに属する方法およびアルゴリズムは、人物の位置情報を組み合わせて、どの人物がカメラによって撮影された画像内であるかを判定する。次いで、画像データに、画像内の人物の識別情報およびその位置によって、タグ付けすることができる。画像が撮影されるときに、メタデータが自動的に収集されるため、本方法は、格納された後にビデオを編集して表示させる、あるいは格納された後に画像コンテンツにアクセスする方法・手順を劇的に変化させうる。さらに、シーン内に存在するオブジェクトと、シーン内におけるオブジェクトの位置が認識されることにより、シーン内の製品配置や、メディアフロー(media flow)における特定のテーマの検索および取得といったインタラクティブサービスが可能になる。
画像内のオブジェクトを識別するため、本システムでは、カメラの直近に位置しているオブジェクトのトポグラフィカルマップを使用する。例示的な実施形態においては、人物が位置認識タグ12を着用する、または、中にタグを含んでいる携帯型デバイス14(携帯電話など)を持ち運ぶ。各タグは、タグとカメラの間の距離測度(distance measure)を求めるためにカメラ10と無線データ通信する状態にある。この距離測度を、カメラによって使用することのできる、オブジェクトのトポグラフィカルマップに変換する。タグとカメラの間の距離測度は、さまざまな測定手法を使用して計算することができる。
例示的な距離測定システムは、MITによって開発されてCrossbow Technologies社から市販されているCricket屋内位置特定システムである。このCricketシステムは、無線周波数(RF)技術と超音波技術の組合せを使用して、位置情報をカメラに提供する。各タグはビーコンを含んでいる。ビーコンは、超音波パルスと併せてRF通知を定期的に送信する。カメラは、1つまたは複数の受信機を備えるように構成されている。受信機は、RF信号を待ち受け、最初の数ビットを受信すると、対応する超音波パルスを待ち受ける。超音波パルスが到着すると、受信機は、RF(光速)と超音波(音速)との間の伝搬速度の差を利用して、対応するビーコンの距離推定値を得る。受信機は、RFサンプルと超音波サンプル(後者はデータが符号化されていない単純なパルス)とを相関させて最良の相関を選択するアルゴリズムを実行する。本開示においては、別の測定手法/技術(例:GPS)も考慮する。いずれの場合にも、このプロセスからの出力は完全結合グラフであり、このグラフでは、各ノードは、カメラに直近の人物またはオブジェクト(カメラを含む)を表しており、各エッジはオブジェクト間の距離を示している。
このグラフをトポグラフィカルマップに変換するには、いくつかの特殊な考察事項があり、以下ではこれについてさらに説明する。マップの作成は、ノード対の間の距離測定(ranging measurements)の計算に依存する。これらの測定値は誤差の影響を受ける。マップの良好な推測を得る目的で、我々は数多くの方法について検討した。
この問題を解決する目的として、マップの計算における誤差を最小化することに基づく準最適な解法が存在する。これらの解法のほぼすべてが反復的であるが、いくつかの解法は、特定のアルゴリズムの配布版に基づいている。我々の最初の試験用としては、与えられた距離行列から開始してマップを計算する単純な三角測量システムを構築した。この解法は、相当に良好であったが、最終的には、より高速かつ正確であるMooreの解法を選択した。この解法は、極めて信頼性が高いが、通常の使用に起因する問題を解決することができなかった。超音波パルスの使用は、距離を推定するための正確な方法であるが、送信側と受信側が向かい合っていなければならない。向かい合っていない場合、距離測定は保証されない。
距離行列をユークリッド座標情報に変換することは、解決すべき課題を伴う。距離行列から開始して計算される、マップの推測の結果としての解法は、自身の座標系においてのみ正確である。我々のアルゴリズムの目的には、マップの計算後、そのマップと、実世界の位置とを合致させ、処理の間、その合致を維持することが望まれる。
残念ながら、これは不可能である。なぜなら、実世界における固定基準点(anchor)が存在しないためである。実際に、我々が調べたマッピング技術に関連するすべてのアルゴリズムは、何らかの固定基準点、すなわち、処理中およびその後のマップの計算中に変化することのない実世界における固定位置のノードに基づいていた。実世界を参照するならば、当然ながら、相対的なマップ(計算されたマップ)と実際のマップ(実世界におけるマップ)とを合致させる処理が問題となる。残念ながら、我々のシナリオにおいては、すべてのノードは同時に動くことがあり、この情報に依存することができない。さらに、距離の計算は、現実をサンプリングするため、処理中にマップがその特性を維持することを確保することができない。
これにより2つの問題、すなわち、図2に示すように、回転の不確定性および反転の不確定性が生じる。前者の不確定性は容易に理解される。なぜなら、各ノードは、他のノードに対する自身の向きを認識していないため、そのノードにとっては、回転したマップのそれぞれが正しいからである。後者の問題が生じるのは、我々がマップにノードを配置しなければならず、そのような決定において固定位置を頼ることができず、局在するノードを配置するアルゴリズムに依存するときである。容易に理解できるように、この問題は、最初の3つのノード、すなわちマップのデカルト軸を決定するノードにおいてのみ生じる。回転したマップおよび反転したマップの表現のそれぞれは、計算される距離と整合し、これは、表現のそれぞれが正しいことを意味する。明らかに、実世界における固定基準点の不存在は、相対的マップの絶対位置を見つけるのに役立たない。
グラフ理論は、数多くの位置特定問題を扱う。グラフの一連の頂点のユークリッド座標を見つける問題は、グラフ実現問題として知られている。提示するアルゴリズムは、基本的な四辺測量(quadrilateration)のロバストな分散型拡張アルゴリズムとして機能する。このことに加えて、距離測定値を、カルマンフィルタを使用することによって動的にフィルタリングする。
各ノードは、自身と一緒にロバストな四つ組(quad)を形成している3つの隣接ノードのみを考慮して局所マップを計算する。四つ組とは、反転の確定性なしに計算できる最小の部分グラフである。さらに、四つ組を分解したときに形成される4つの三角形すべてにおいて、b=sin2θ>dmin(bは各三角形の最も短い辺、θは最小の角度)が成り立つとき、その四つ組はロバストである。dminの値は、確率誤差を制限するために一定である。この計算は、不良な測定値に起因して点がずれることに対する解決策と考えられる。θが0になると、それに起因して点の位置がずれる可能性が生じる。すなわち、挙動は、測定値が不良であるときと同じになる。
1つのノードが四つ組情報を得ると、そのノードは局所マップの計算を開始することができる。局所マップでは、その四つ組に属している4つのノードのみが考慮される。座標は局所的に計算され、系の中心は、マップ計算を実行しているそのノード(すなわち、カメラ)である。この計算が終了した後、単一ノードそれぞれが隣接ノードおよびネットワークと情報を共有する。四つ組系によれば、当然、3点を共有する2つの異なるロバストな四つ組を結合して、ロバスト性を維持する5点のマップにすることができる。この計算では、局所マップのすべての座標を現在の座標に変換することも要求される。最終的には、同じマップのいくつかのバージョン(すべて等しい)が得られるが、各バージョンは、図2に示すようにデカルト軸の中心が現在のノードである異なる座標系に基づいている。
このアルゴリズムは、初期設計のさらにロバストなバージョンであっても、あるいは、多次元スケーリングを使用する任意の他の方法よりも高速であっても、固定基準が存在しないことから、依然として同じ問題を抱えている。結果として得られるマップは、距離測定値は正しいままであるが、容易に反転および回転しうる同じ表現のマップである。ノードの正しい向きを見つける(したがって反転の問題を解決する)という課題は、我々のアルゴリズムの中間ステップである。実際に、現在のマップを用いてカメラの向きおよび反転の正しい状態を見つけるときにおける、シーンの中の人物(またはオブジェクト)を認識する処理量を低減することができる。
代替実施形態においては、カメラは、シーンの場所に属する既存の設備からトポグラフィカルマップを受信することができる。例えば、特定の場所を、監視下の領域のトポグラフィカルマップを生成するレーダーシステム、ソナーシステム、またはその他のタイプの位置追跡システムを備えているように構成することができる。トポグラフィカルマップをカメラに送信することができる。
図3は、画像内のオブジェクトを識別するために使用されるアルゴリズムの詳細な図を示している。このアルゴリズムは、3つの主たるサブコンポーネントとして、特徴抽出31と、初期化32と、期待値最大化33とから構成されている。アルゴリズムのこれらのサブコンポーネントそれぞれについて、さらに説明する。以下では、このアルゴリズムにおける関連するステップのみについて説明するが、カメラの動作全体を制御および管理するため、ソフトウェアによって実施されるそれ以外の命令が必要となりうることを理解されたい。さらに、このアルゴリズムは、カメラ、またはカメラに関連付けられる別のコンピューティングデバイスに属するコンピュータによって読み取り可能な媒体における、コンピュータが実行できる命令として実施することができる。
図4にさらに詳しく示すように、最初に特徴抽出法を各画像に適用する。特徴抽出の目的は、画像内におけるオブジェクトの位置を検出して、画像データから導かれる値として、これらのオブジェクト間の距離を計算することである。この演算は、写真によって提供される情報に依存するのみである。例示的な実施形態においては、特徴抽出は、後にさらに説明するHaar分類器(Haar classifier)を使用して実施される。本開示においては、別のタイプの検出方式も考えられる。
Haar分類器は、高速に画像を処理して可視オブジェクトを検出するための機械学習手法である。顔検出に使用されるHaar分類器は、主として、3つの重要な概念、すなわち、積分画像と、学習アルゴリズムと、分類器をカスケードに結合する方法とに基づく。主たる概念は極めて単純であり、対象のオブジェクトのポジティブサンプルおよびネガティブサンプルの両方によって分類器のトレーニングを行う。トレーニング段階の後、このような分類器を、入力画像における(トレーニング時に使用されたものと同じサイズの)関心領域に適用することができる。分類器は、与えられた画像のバイナリ結果を出力する。ポジティブな結果は、関心領域内にオブジェクトが見つかったことを意味し、ネガティブな出力は、領域が対象を含んでいない可能性が高いことを意味する。
本方法は、画像上で計算される特徴をベースとする。分類器は、Haarベースの関数に類似する極めて単純な特徴を使用する。Haar分類器によって計算される特徴は3種類あり、これらは、計算に使用される複数の長方形から成る。例示的な実施形態においては、使用される特徴は、図5A−図5Dに示す特徴に類似するものである。これらの特徴は、画像の複数の異なる隣接領域の単純な演算(合計および減算)に基づく。これらの計算を、これらの長方形のさまざまなサイズについて行う。
パフォーマンスを高めるため、積分画像の概念を導入する。積分画像は、元の画像とサイズが同じであるが、各位置(i,j)の値は、その位置より上、およびその位置より左の画素の値すべての合計値である。以下のように書くことができる。
この式において、II(i,j)は積分画像であり、I(i,j)は元の画像である。容易に理解される点として、次式のように、累積的な行の合計s(i,j)を導入することによって、積分画像は、画像の次元に対して線形的かつ高速に計算することができる。
この新しい概念により、画像から抽出される、Haarに類似する特徴の合計および減算の計算速度が高まる。この新しい種類の演算子により、与えられた画像に対し、計算負荷の高い処理に時間を要することなく、必要なあらゆるスケールにおいて特徴を計算することが可能になる。
画像のサブウィンドウ内の特徴の数は、画素の数よりもずっと多い。検出プロセスの速度を高める目的で、これらの特徴のほとんどを除外する。これは、各ステップにおいて最良の結果を与える特徴のみが考慮されるように学習機械のアルゴリズム(AdaBoost)を修正することによって達成される。分類器の各ステップは、1つの小さい特徴のみに基づいており、すべての特徴からの結果すべてを互いにカスケードに結合することによって、より良好な分類器が得られる。
検出器全体は、単純かつ小さな弱分類器のカスケードから成る。各分類器hl(x)は、特徴fl(x)と、しきい値θlと、特徴の方向を示すパリティplとから成る。xは、画像のサブエリアを示す(OpenCVが24×24画素の正方形である場合)
実際には、単一の特徴によって低い誤り率を達成することは不可能であるが、初期の分類器の誤り率は、最後の分類器の誤り率よりも低い。カスケードの各段階において、分類器がネガティブ値を戻すならば、そのサブエリアを拒否し、次の段階は開始されない。
各分類器は、修正されたAdaBoostアルゴリズム(学習プロセスの速度を高める機械学習アルゴリズム)を使用して構築されている。画像内のオブジェクトを探索するため、画素を横切って探索ウィンドウを移動させ、分類器を使用して各位置を調べることができる。この探索ウィンドウは、さまざまなサイズの対象オブジェクトを発見できるようにする目的で容易にサイズ変更できるように設計されており、この方法は、画像自体をサイズ変更するよりも効率的である。したがって、画像内の、サイズが不明のオブジェクトを見つけるためには、異なるスケールにおいて探索手順を何度か行う必要がある。
顔検出の場合、本質的な情報として色も利用することができる。顔を検出する場合に色情報を使用することによって得られる結果に従って、誤検出(false positive)を除去するための単純な方法を考案した。我々の検出器に影響する問題を解決するため、抽出される部分画像のヒストグラムと、事前に計算されるヒストグラムとの間の相関の計算に基づいて、誤検出除去器を作成した。
色ヒストグラムは柔軟な構造であり、その目的は、特定の色空間において画像情報を記述することである。画像のヒストグラムは、画像内の色を複数のビンに離散化し、次いで、各ビン内の画像画素の数をカウントすることによって、作成される。いま、Iがn×nの画像(説明を単純にするため、画像は正方形であると想定する)であるとすると、Iの色をm個の色c1,c2,c3,・・・,cmに量子化する。画素p=(x,y)∈Iの場合に、C(p)はその色を表すとすると、Ic={p|C(p)=c}である。したがって、表記p∈Icは、p∈I,C(p)=cを意味する。画像Iのヒストグラムは以下のように定義される。すなわち、色ci,i∈[m]について、
であり、Iにおける色ciの画素の数としてのヒストグラムである。
次に、ヒストグラムのスケール不変性(scale invariant)バージョンは、以下のように定義される。
上の等式は、色ヒストグラムのスケール不変性バージョンであることに加えて、画像Iから画素pを無作為に選択したときの確率を記述しており、pの色がciである確率がhciである(すなわち、hciは画像内の色の確率分布である)。
このヒストグラムは時間O(n2)内に容易に計算され、この時間は、Iのサイズに対して線形である。論文著者によっては、ヒストグラムをカウントHとしてのみ定義することを好むが(その場合、画像のサイズに依存する)、我々の目的には、さまざまなサイズの画像に適合する計算が必要であったため、正規化バージョンを選択した。
検出器としてHarrisの分類器を使用することによって、顔および顔以外の2種類のデータセットに分割される大きなデータベースを構築した。すべての顔(および顔以外)の累積ヒストグラムを計算し、正規化する。すべてのチャンネルをただちに利用できるように、画素の色相値を使用し、この結果として照度不変となる。ヒストグラムの値は量子化しなかった。色相(hue)の範囲を[0゜、180゜]とした理由として、OpenCVは、色相値(通常では[0゜、360゜]の範囲内である)に対して[0゜、180゜]の範囲のみを使用するためである。
抽出される顔が、ほとんどの部分について肌色の領域から成ることを考えれば、顔のヒストグラムにおける最大密度の領域は、当然ながら0゜付近および180゜(赤)付近の領域である。顔以外のモデルを作成することは相当に難しいため、我々は、さまざまなデータベースから得られる画像(主として、可能性のある背景の画像)を選択し、顔検出段階から生じる誤検出に加えて、前に行った計算を繰り返した。
Haar分類器を使用して検出される各画像について、関連する正規化された色相ヒストグラムを抽出し、顔のヒストグラムと顔以外のヒストグラムの両方との相関を計算した。顔のヒストグラムは、信頼できるデータに基づくヒストグラムであることがわかっているため、相関のしきい値計算に2種類の重みを与えることによって、このデータベースに高い重要度を与えた。この方法により多数の誤検出が除去され、目的が達成された。
顔は、人物の存在を明らかにする良好な情報である。しかしながら、我々の目的に、顔特徴に基づくシステムを選択しないことについて、以下に説明する。特徴間の相違の計算を単純化し、カメラの方を向いていない人物の問題を解決する目的で、我々は、服のサンプルに基づいて計算を行うことを決定した。服の部分画像は画像から容易に抽出される。なぜなら、写真内の顔の位置の情報がすでに得られているためである。
服のサンプル間の相違を計算する目的で、ヒストグラムおよびオートコレログラム(auto-correlogram)を使用できるかを調べた。我々は、コンテンツベースの画像検索において使用される特徴であるコレログラム(correlogram)を導入する。コレログラムの特徴の計算は、ヒストグラムにおいて使用される計算に極めて似ているが、よりロバストである。コレログラムの概念は、ヒストグラムによってもたらされる問題を解決するために生み出された。コレログラムでは、与えられた距離において色の対すべての間の相関を考慮する。
事前に決定される一連の距離d∈[n]の場合、Iのカラーコレログラム(color-correlogram)を次のように定義する。
したがって、画像のコレログラムは、色の対および距離によってインデックス化されたテーブルであり、この場合、<i,j>エントリのk番目の要素は、色iの画素からkの距離において色jの画素が見つかる確率である。このような特徴のサイズはO(m2d)である(画像Iについては、ヒストグラムの定義の場合と同じ想定を行う)。
オートコレログラムの定義は、以下のように容易である。同じ色対のみを考えるならば、オートコレログラムは次式として得られる。
この特徴は、コレログラムのサブセットであり、そのサイズはO(md)である。この特徴では、画像の内側の色の対の相関を考慮し、画像の色の分布の空間的記述となる。したがって、画像内の色の分布のみを示し、写真の中でのそれら色の位置についての情報を持たないヒストグラムよりも、オートコレログラムは勝る。オートコレログラムの特徴の唯一の欠点は計算時間であるが、我々が考慮する部分画像のサイズは小さいため、我々のアルゴリズムにおいてはさほど高い計算負荷にはつながらない。
例示的な実施形態においては、服のサンプルの色を対象の特徴として選択する。なぜなら、服の色は顔よりも管理するのが容易であり、相違の演算に高い計算負荷を伴わないためである。しかしながら、写真から抽出することを想像できるあらゆる種類の特徴について、より一般的に機能するシステムを考案し、これにより、アルゴリズムを最大限に汎用的なものにする。例えば、画像内の人物ではないオブジェクトを検出するアプリケーションが考えられる。この場合、特定の対象のオブジェクトシグネチャ(object signature)によってオブジェクト検出器のトレーニングを行うことができる。さらに、オブジェクトシグネチャを位置認識タグ内に格納し、写真の撮影時にカメラに送ることも考えられる。
初期化段階について、図6を参照しながらさらに説明する。初期化段階では、最初に、画像内のオブジェクトを識別する目的で、カメラの視野内に入る可能性のあるオブジェクトのグループを求める。可能性のあるオブジェクトグループのそれぞれについて、画像から求められるグループ内のオブジェクト間の距離と、マップから取得されるオブジェクト間の距離とを比較する。いくつかの場合には、この計算によって、画像内のオブジェクトを十分に識別することができる。
画像の収集とマップの生成はそれぞれ独立したプロセスであるため、最初のステップ61として、各画像を、対応するトポグラフィカルマップと同期させなければならない。複数の画像間におけるオブジェクトの移動を考慮するため、カメラによって撮影される各画像と併せてトポグラフィカルマップを取得することができる。画像間でオブジェクトおよびカメラのいずれも動いていないときには、一連の画像に1つのトポグラフィカルマップをリンクさせることが可能である。
同期は、写真およびマップから提供される情報に基づく。例示的な実施形態においては、デジタルカメラによって撮影される画像には、EXIF(exchangeable image file format)情報が含まれている。ステップ62において、すべての写真からEXIF情報を取り出して、それらを1つずつ保存する。この処理のため、小さなbashシェルスクリプトを作成する。このスクリプトは、写真が撮影された日付および時刻と、写真の撮影時の焦点距離とを取り出す。画像に関連付けられる日付および時刻と、マップに関連付けられる類似するタイムスタンプとを使用して、画像を対応するマップと同期させる。
ステップ63においては、画像のトポグラフィカルマップが与えられたとき、カメラの視野内に入る可能性のあるオブジェクトのグループを列挙する。最初に、EXIFファイルから取り出される焦点距離値から水平画角を導く。使用するカメラについて、焦点距離(単位:ミリメートル)を画角(単位:ラジアン)に変換する等式を実験的に導く。図7は、キャノン社のEOS Digital Rebelカメラの場合の関数を示している。次いで、画角を、画像がそのカメラによって撮影されたときの視野に変換する。
視野を計算した時点で、可能性のあるグループの判定を開始することができる。図8を参照し、画像の視野(fv)を、その原点がカメラに一致するように、対応するトポグラフィカルマップの上に移す。この図において、カメラはノードAによって表している。次いで、視野を、マップとの関連においてさまざまな増分にて回転させる。各位置は、カメラの視野に入る可能性のあるオブジェクトのグループを示している。写真Piのn番目のグループをgi,nとして示す。この表記法においては、反転したバージョンと元のバージョンとは区別されない。なぜなら、これら2つのケースはアルゴリズムによって異なるケースとして自動的に管理されるためである。
ステップ65において、画像から求められる1つのグループ内のオブジェクト間の距離と、マップから取得されるオブジェクト間の距離とを比較することによって、画像内のオブジェクトの識別情報を推測することができる。可能性のあるオブジェクトのグループのそれぞれについて、この比較を行う。
比較するためには、ステップ64において、距離を共通のメトリックに変換しなければならない。例示的な実施形態においては、マップにおいて提供されるオブジェクト間の距離を画素数に変換する。この変換のため、複数の異なる焦点距離値におけるカメラの挙動を実験的に測定した。寸法が既知である対象を、カメラの焦点面から既知の距離に置き、そのカメラによって対象の何枚かの写真を撮影した。各距離について、対象の画像中における寸法(単位:画素)と、実際のサイズ(単位:センチメートル)との比を計算する。これにより、カメラのモデルを計算するためのいくつかの結果が得られる。焦点距離それぞれについて、実験データに最も良く適合する関数を導く。図9A−図9Dは、例示的な関数を示している。これらの等式を認識することにより、カメラから寸法dのオブジェクトまでの距離が既知であると想定したときにそのオブジェクトがその写真の内側において占める画素数を知ることができる。これらの演算を実行することによって、我々はカメラのモデルを推測した。
シーンの写真を撮影するときには、現実における各点がフィルム(ここではCCD)上に投影される。この投影は線形ではない。なぜなら、レンズによってわずかではあるが明らかな歪みが生じるためである。この投影は、線形であるものとして近似的に行った。さらに、投影はカメラの向きに依存し、我々は、点の対それぞれが必ずシーンの中心にあるものとみなした。
グループの構成要素すべてを、カメラと、グループ内の直近のノードとによって与えられる円の上に投影する。投影された点の対それぞれについて、点の間の距離を、写真の片側から他方の側への順に(鎖状に)計算し、これらの値を(前に推定した等式に従って)画素数に変換する。これによって点の間の相互距離のベクトルが得られ、これらの距離を、画像上で直接計算される距離と比較する。これらの距離は、写真上の実際の距離の近似にすぎず、これによりこのプロセスに曖昧性が生じうる。
2つ以上の特徴が検出された場合、どの特徴をどの人物に関連付けることができるかの手掛かりを得ることができる。当然ながら、この場合にも、特徴検出器において誤りが生じることがある。この場合に行うことは、グループ内のノードのすべての可能性のある組合せC(i,n)を考慮することである。ノードの組合せcそれぞれについて、抽出された特徴から計算される相互距離と比較したときの、ノード間距離の相違を計算する。相違が最小である組合せを、そのグループの代表として選択する。
各グループの相違の測度は、単純な1ノルムの計算によって求める。各グループgi,nについて(我々の表記法では反転は考慮されないことに留意されたい)、以下の条件を満たす組合せc∈C(i,n)を選択することによって相違を計算する。
δi,nは、グループgi,nの相違の測度である。すべてのgi,n∈Piについて上記の等式を使用し、すべてのグループのうち相違が最小であるグループを選択することによって、写真内のグループの推定が得られる。相違が最小であるグループを使用して、画像内のオブジェクトを識別することができる。誤りが生じた場合、マップにより提供される情報を参照することによって、その誤りを修復することができる。いくつかのアプリケーションにおいては、この方法によって画像内のオブジェクトを正しく識別することができる。それ以外のアプリケーションにおいては、オブジェクトの識別情報に曖昧性が残ることがある。
曖昧性は、一連の関連する画像を通じて収集されるデータを使用してオブジェクトの識別情報および位置を再推定することによって、解決することができる。初期化段階において、シーン内の人物それぞれについて、それ自体の実際の値を表すことができる、または表すことができない一連の特徴を集める。特徴の正しい推定を得るため、集められたすべての特徴のうち、正しい特徴である可能性の高い特徴のみが得られるように、オートコレログラム(またはヒストグラム)からの類似性測度をクラスタ化した。しかしながら、特徴を正しく推定するには、マップとの関連におけるカメラの正しい状態を知る必要がある。その一方で、カメラの向きを推定するためには、画像内で正しい特徴を見つける必要がある。これは、推定する変数(角度および反転)が、隠れパラメータ(写真から抽出される特徴)に依存する典型的なケースである。この問題の解決策として、期待値最大化法(EM法、Expectation Maximization)の公式化を考える。
EM(Expectation Maximization)アルゴリズムは、確率モデルにおいて変数の最尤推定値を見つけるために、統計学の分野において使用される最も強力な手法の1つである。ランダムなベクトルXが与えられるとき、P(X|θ)が最大となるようなパラメータθを見つけることが望ましい。これは、θの最尤(ML)推定として知られている。一般には、θの対数尤度(ML)推定を導入する。対数尤度関数は、
として導入するのが一般的である。なぜなら、lnは狭義増加関数であり、P(X|θ)を最大にするθの値はL(θ)関数も最大にするためである。
EMアルゴリズムは、局所最大値に達するまで、各ステップにおいて尤度関数を増加させる反復手順であり、局所最大値は、変数の望ましい値として通常では良好な推定値である。各ステップにおいて、
であるような新しいθn値を推定する。すなわち、これらの差異が最大になることが望まれる。ここまで、観測不可能なデータは考慮していない。EMアルゴリズムでは、このステップにおいて導入されうる隠れパラメータが存在する場合における自然管理ツール(natural managing tool)が提供される。いま、隠れパラメータをzとすると、次のように書くことができる。
次のステップは、隠れ変数に関連して設定されたジェネリックパラメータにおける結合対数尤度(joint log-likelihood)の期待値であるl(θn|θn−1)の再公式化であり、観測値と現在の設定が与えられているとき、以下のようになる。
これは、汎用パラメータθnのみの関数である。
さらに、アルゴリズムの公式化における中間ステップとして以下の定理を考える。次のように書くことができる。
すなわち、θnの値が、l(θn|θn−1)の値がl(θn−1|θn−1)の値よりも大きいような値であるならば、尤度L(X|θn)はL(X|θn−1)よりも大きく、これは求めていた結果である。
最良の近似を得るためには、通常では、最大化
によりパラメータθn+1を選択する。この最大化が得られない場合、アルゴリズムの一般化バージョンの1つとして、θの最良の近似ではなく、より良好な近似を単純に選択するものを使用することができる。その場合でも局所最大値への収束が保証される。なぜなら、尤度はステップ毎に増大するためである。
図10は、期待値最大化アルゴリズムの例を示しており、この例においては、初期化段階を使用して、隠れパラメータの開始値を計算する。これらの値に従って変数を推定する。したがって、尤度関数が最大になるように、隠れパラメータを再推定する。これら2つのステップを繰り返し、収束するまでこのプロセスを続ける。
アルバム内の各写真について、可能性のあるグループの対応するリストが得られる。これらのグループは、上述した手法を使用して抽出される。我々は、各グループについて、実際のノード間距離を画素変換し、画像上に格子構造を重ね、そのような構造によって囲まれる画像のサブエリアを抽出する。検出された特徴を、探索のガイドとして使用することができる。
画像のこのようなエリアを抽出した後、写真の内側にいる可能性のあるグループすべてについての情報(反転しているか否か)を用いる。可能性のあるグループのそれぞれについて、写真の内側にいる尤度を計算する。前出の表記法を思い出せば、以下のように書くことができる。
EMアルゴリズムの各サイクルにおいて(最大0まで)減少するパラメータαが追加されており、これにより、処理時に、特徴によって与えられる確率計算に、より大きな重みが与えられる。Φi,nは、初期化段階中に構築された特徴データベースによって与えられる特徴と、画像から単に抽出される特徴との間の一種の相違測度である。写真内に存在する可能性のあるグループすべてについて、この計算を行う。計算後、確率が最大であるグループを正しいグループとみなし、これにより、与えられたマップを用いて写真の状態(カメラの回転と反転の状態)の推定が得られる。91に示す、アルゴリズムのこのステップを変数推定器(variables estimator)と称し、この推定器において推定される変数は、回転および反転の状態である。
次いで、ステップ92およびステップ93において、隠れパラメータを再推定する。カメラの状態の推定の後、写真から最近に抽出された特徴を用い、これらの特徴のそれぞれを、推定に従って各特徴に関連する人物のそれぞれに追加する。この処理によって、ノードそれぞれについて特徴の再推定に進む。この段階では、修正に関与するすべてのノードについて、特徴を単純に追加し、クラスタリングを更新する。ノードを記述する特徴の修正を行う。この場合、特徴を記述してそれらの相違を計算するために使用される手法はオートコレログラム手法である。この手法を使用するのは、テクスチャやパターンを記述するためには単純なヒストグラム計算よりもオートコレログラム手法がよりロバストであることがすでにわかっているためである。
これらのステップすべてを、アルバム全体について繰り返し、すべての写真について行う。一度のみ実行した後、写真の中のグループの推定と、マップにおけるそれらグループの実際の位置とが得られる。最後のステップをもう一度実行することは、アルバム全体について同じ種類の演算をもう一度繰り返すことを意味する。写真のデータセット全体にわたり計算を行った後、前と同じ処理を行うことになるが、今回は各人物の特徴がさらに良好に定義されることがわかっている。
写真に何も写っていない可能性があることも考慮する必要がある。写真に何も写っていないかを判定するためには、グループの相関計算段階においてしきい値が必要である。他のグループよりも際だって高い確率を有するグループが存在せず、すべてのグループが同程度の確率値に属するものと考えられる場合、特徴を更新せず、その写真は何も写っていないとみなす。重要な点として、現在の写真を用いて特徴のそれぞれの距離測定値を得たい場合には、オートコレログラム手法を使用することが有効である。
ここで強調しておくべき点は、識別プロセスが完全に自動的であり、2つの情報源が互いに完全に独立しているため、一方の情報源を他方の情報源によってサポートすることができることである。さらには、データベースが事前に定義されるタイプのシステムは、完全に独立している。アルゴリズムの期待値最大化形式を利用することによって、プロセスの最初にデータベースが推定された後、アルゴリズム自身によって少しずつ精度が改善される。
例示的な実施形態は、本開示が完全なものとなり、その範囲が当業者に完全に伝わるようにする目的で記載してある。具体的なコンポーネント、デバイス、および方法の例など、膨大な具体的な細部は、本開示の実施形態が完全に理解されるようにする目的で記載してある。当業者には明らかであるように、具体的な細部は採用する必要がなく、例示的な実施形態は、数多くの別の形態として具体化することができ、これらを本開示の範囲を制限するようには解釈しないものとする。いくつかの例示的な実施形態において、周知のプロセス、周知のデバイス構造、および周知の手法については、詳しくは説明していない。
本文書において使用している術語は、具体的かつ例示的な実施形態を説明することを目的とするのみであり、本開示を制限することを意図するものではない。本文書において使用している単数形は、前後関係から明らかではない限り、複数形も含まれることを意図している。語「備えている」、「含んでいる」および「有する」は、包括的であり、したがって、記載されている特徴、整数、ステップ、演算、要素、コンポーネントなどが存在することを指定するが、記載されている以外の1つまたは複数の特徴、整数、ステップ、演算、要素、コンポーネント、あるいはこれらのグループなどが存在する、もしくは両方が存在することを除外するものではない。本文書に記載されている方法ステップ、プロセス、および演算は、実行順序として特に明記していない限りは、説明または図示した特定の順序において実行する必要があるようには解釈されないものとする。さらには、追加のステップまたは代替ステップを採用できることも理解されたい。
Claims (22)
- 画像内のオブジェクトを識別する、コンピュータによって実施される方法、であって、
カメラを使用して画像を撮影するステップと、
前記カメラの直近に見つかったオブジェクト間の空間配置を定義するマップであって前記マップ内の各オブジェクトの一意の識別子を提供する前記マップを生成するステップと、
特徴抽出法を使用して前記画像内のオブジェクトを検出するステップと、
前記画像内において検出された前記オブジェクトを、前記マップを使用して識別するステップと、
前記画像内において検出された前記オブジェクトに、前記マップから得られるオブジェクトの前記対応する一意の識別子、によってタグ付けするステップと、
を含む方法。 - 前記オブジェクト間の距離を、前記オブジェクトと前記カメラとの間の無線データ伝送に基づいて計算するステップと、
前記オブジェクトの前記位置情報から前記マップを構築するステップと、
をさらに含む請求項1に記載の方法。 - 前記オブジェクトから無線データ伝送を介して受信する一意の識別子を使用して、前記マップを生成するステップ、
をさらに含む請求項1に記載の方法。 - 前記カメラの外部の位置追跡システムから前記カメラに前記マップをインポートするステップ、
をさらに含む請求項1に記載の方法。 - 特徴抽出法を使用して前記画像からオブジェクトを抽出するステップと、
前記オブジェクト間の距離を前記画像データから求めるステップと、
をさらに含む請求項1に記載の方法。 - オブジェクト間の距離を求める前記ステップは、
前記画像が撮影されたときの焦点距離を求めるステップと、
前記画像内の画素と、前記マップ内のオブジェクト間の前記空間配置を定義するために使用される距離メトリックとの間の変換関数を求めるステップと、
をさらに含む請求項5に記載の方法。 - 前記画像内において検出された前記オブジェクトを識別する前記ステップは、
前記画像が撮影されたときの視野を求めるステップと、
前記カメラの前記視野に入る可能性のあるオブジェクトのグループを求めるステップと、
をさらに含む請求項1に記載の方法。 - 可能性のあるオブジェクトのグループのそれぞれについて、対応する画像からオブジェクト間の距離を計算するステップと、
可能性のあるオブジェクトのグループのそれぞれについて、前記オブジェクト間の計算された距離と前記マップとの間の相違測度を計算するステップと、
をさらに含む請求項7に記載の方法。 - 前記視野を前記マップ上に移し、前記視野を前記マップとの関連において回転させることによって、可能性のあるオブジェクトのグループを求めるステップ、
をさらに含む請求項7に記載の方法。 - 前記画像内の前記オブジェクトを、前記カメラによって撮影された一連の画像を通じて収集されたデータを使用して識別するステップ、
をさらに含む請求項1に記載の方法。 - 前記画像内の前記オブジェクトを、別の画像から抽出された特徴を使用して識別するステップ、
をさらに含む請求項1に記載の方法。 - 画像内のオブジェクトを識別する、コンピュータによって実施される方法であって、
カメラを使用してシーンの一連の画像を撮影するステップと、
前記シーン内のオブジェクト間の距離を定義する、前記シーンのトポグラフィカルマップを受信するステップと、
前記シーン内のオブジェクト間の距離を、与えられた画像から求めるステップと、
前記与えられた画像から求められたオブジェクト間の前記距離を、前記マップからのオブジェクト間の距離との関連において比較することによって、前記与えられた画像内のオブジェクトの識別情報を推測するステップと、
オブジェクトの識別情報を、別の画像から抽出される前記オブジェクトの特徴を使用して再推定するステップと、
を含む方法。 - 前記オブジェクトとの無線データ伝送に基づいて、前記カメラにおいて前記トポグラフィカルマップを生成するステップ、
をさらに含む請求項12に記載の方法。 - 前記カメラの外部の位置追跡システムから前記マップを前記カメラにインポートするステップ、
をさらに含む請求項12に記載の方法。 - 一連のトポグラフィカルマップであって、各マップが、前記画像の1つに関連しており、かつ、前記対応する画像が前記カメラによって撮影されたときの前記シーンを表している、前記一連のトポグラフィカルマップ、を受信するステップ、
をさらに含む請求項12に記載の方法。 - 前記与えられた画像からHaar分類器を使用して前記オブジェクトの特徴を抽出するステップと、
前記抽出された特徴に基づいて前記オブジェクト間の距離を求めるステップと、
をさらに含む請求項12に記載の方法。 - オブジェクト間の距離を求める前記ステップは、
前記画像が撮影されたときの焦点距離を求めるステップと、
前記画像内の画素と、距離メトリックとの間の変換関数を求めるステップと、
をさらに含む請求項12に記載の方法。 - オブジェクト間の距離を求める前記ステップは、
前記与えられた画像が撮影されたときの視野を求めるステップと、
前記カメラの前記視野に入る可能性のある、前記与えられた画像内のオブジェクトのグループを求めるステップと、
可能性のあるオブジェクトのグループのそれぞれについて、与えられた画像内のオブジェクト間の距離を計算するステップと、
をさらに含む請求項12に記載の方法。 - 識別情報を推測する前記ステップは、
可能性のあるオブジェクトのグループのそれぞれについて、前記与えられた画像から求められた、オブジェクト間の前記距離と、前記マップによって提供される前記距離との間の相違測度を計算するステップと、
最小の相違測度を有する前記グループを使用して前記オブジェクトを識別するステップと、
をさらに含む請求項18に記載の方法。 - 前記与えられた画像内のオブジェクトの識別情報を、別の画像から抽出される前記オブジェクトの特徴を使用して再推定するステップ、
をさらに含む請求項12に記載の方法。 - 前記与えられた画像から抽出されるオブジェクトの特徴と、別の画像からの、対応するオブジェクトの特徴と、の間の尤度を最大化することによって、前記与えられた画像内のオブジェクトの識別情報を再推定するステップ、
をさらに含む請求項20に記載の方法。 - 前記画像内において検出された前記オブジェクトに、前記マップから得られるオブジェクトの前記対応する一意の識別子、によってタグ付けするステップ、
をさらに含む請求項12に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US97353207P | 2007-09-19 | 2007-09-19 | |
PCT/US2008/076873 WO2009039288A1 (en) | 2007-09-19 | 2008-09-18 | System and method for identifying objects in an image using positional information |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010539623A true JP2010539623A (ja) | 2010-12-16 |
Family
ID=40468339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010525975A Pending JP2010539623A (ja) | 2007-09-19 | 2008-09-18 | 位置情報を使用して画像内のオブジェクトを識別するシステムおよび方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100195872A1 (ja) |
JP (1) | JP2010539623A (ja) |
WO (1) | WO2009039288A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013152673A (ja) * | 2012-01-26 | 2013-08-08 | Toyota Motor Corp | 物体認識装置、認識方法、及び認識プログラム |
JP2013191143A (ja) * | 2012-03-15 | 2013-09-26 | Secom Co Ltd | 画像処理装置 |
KR20150136225A (ko) * | 2014-05-26 | 2015-12-07 | 에스케이텔레콤 주식회사 | 관심객체 검출을 위한 관심영역 학습장치 및 방법 |
JP2016070891A (ja) * | 2014-10-01 | 2016-05-09 | 日本電信電話株式会社 | 映像データ処理装置及び映像データ処理プログラム |
KR20160136689A (ko) * | 2015-05-20 | 2016-11-30 | 한화테크윈 주식회사 | 다중 객체 추적 방법 및 이를 위한 장치 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8694020B2 (en) * | 2007-01-19 | 2014-04-08 | Thomson Licensing | Wireless sensor based camera location and orientation |
US8712109B2 (en) * | 2009-05-08 | 2014-04-29 | Microsoft Corporation | Pose-variant face recognition using multiscale local descriptors |
TW201206192A (en) * | 2010-07-23 | 2012-02-01 | Hon Hai Prec Ind Co Ltd | Detection device and method |
TWI463451B (zh) * | 2012-03-02 | 2014-12-01 | Hon Hai Prec Ind Co Ltd | 數位告示系統及其方法 |
US20130328926A1 (en) * | 2012-06-08 | 2013-12-12 | Samsung Electronics Co., Ltd | Augmented reality arrangement of nearby location information |
US9405963B2 (en) * | 2014-07-30 | 2016-08-02 | International Business Machines Corporation | Facial image bucketing with expectation maximization and facial coordinates |
EP3201859A1 (en) | 2014-09-30 | 2017-08-09 | PCMS Holdings, Inc. | Reputation sharing system using augmented reality systems |
JP5679086B1 (ja) * | 2014-10-07 | 2015-03-04 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
WO2016140680A1 (en) * | 2015-03-05 | 2016-09-09 | Hewlett Packard Enterprise Development Lp | Multi-level object re-identification |
US10708970B2 (en) | 2017-06-17 | 2020-07-07 | Link Labs, Inc. | BLE networking systems and methods providing central and peripheral role reversal with enhanced peripheral location determination using constant tone extension analysis for a same channel |
US10506498B1 (en) | 2018-11-01 | 2019-12-10 | Link Labs, Inc. | BLE networking systems and methods providing central and peripheral role reversal with enhanced peripheral location determination using ultrasonic waveform and correlation therefor |
US10499196B2 (en) | 2017-06-17 | 2019-12-03 | Link Labs, Inc. | BLE networking systems and methods providing central and peripheral role reversal with enhanced peripheral location determination |
US10484932B2 (en) * | 2017-06-17 | 2019-11-19 | Link Labs, Inc. | BLE networking systems and methods providing central and peripheral role reversal with enhanced peripheral location determination using ultrasonic waveform |
US10452923B2 (en) * | 2017-11-28 | 2019-10-22 | Visual Semantics, Inc. | Method and apparatus for integration of detected object identifiers and semantic scene graph networks for captured visual scene behavior estimation |
US10937150B2 (en) | 2018-06-28 | 2021-03-02 | General Electric Company | Systems and methods of feature correspondence analysis |
EP3987826A1 (en) * | 2019-06-24 | 2022-04-27 | Link Labs, Inc. | Ble networking systems and methods providing central and peripheral role reversal with enhanced peripheral location determination using ultrasonic waveform and correlation therefor |
US11778540B1 (en) | 2022-10-12 | 2023-10-03 | Link Labs, Inc. | BLE networking systems and methods including filtering for selectively collecting and processing advertisement data |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6973201B1 (en) * | 2000-11-01 | 2005-12-06 | Koninklijke Philips Electronics N.V. | Person tagging in an image processing system utilizing a statistical model based on both appearance and geometric features |
US7024054B2 (en) * | 2002-09-27 | 2006-04-04 | Eastman Kodak Company | Method and system for generating a foreground mask for a composite image |
US7324666B2 (en) * | 2002-11-15 | 2008-01-29 | Whitegold Solutions, Inc. | Methods for assigning geocodes to street addressable entities |
WO2004051575A1 (ja) * | 2002-12-05 | 2004-06-17 | Seiko Epson Corporation | 特徴領域抽出装置、特徴領域抽出方法および特徴領域抽出プログラム |
US7920725B2 (en) * | 2003-09-09 | 2011-04-05 | Fujifilm Corporation | Apparatus, method, and program for discriminating subjects |
CA2578525A1 (en) * | 2004-08-27 | 2006-03-09 | Sharper Image Corporation | Robot cleaner with improved vacuum unit |
JP4460528B2 (ja) * | 2004-12-14 | 2010-05-12 | 本田技研工業株式会社 | 識別対象識別装置およびそれを備えたロボット |
US7460730B2 (en) * | 2005-08-04 | 2008-12-02 | Microsoft Corporation | Video registration and image sequence stitching |
US7668405B2 (en) * | 2006-04-07 | 2010-02-23 | Eastman Kodak Company | Forming connections between image collections |
-
2008
- 2008-09-18 JP JP2010525975A patent/JP2010539623A/ja active Pending
- 2008-09-18 WO PCT/US2008/076873 patent/WO2009039288A1/en active Application Filing
- 2008-09-18 US US12/678,262 patent/US20100195872A1/en not_active Abandoned
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013152673A (ja) * | 2012-01-26 | 2013-08-08 | Toyota Motor Corp | 物体認識装置、認識方法、及び認識プログラム |
JP2013191143A (ja) * | 2012-03-15 | 2013-09-26 | Secom Co Ltd | 画像処理装置 |
KR20150136225A (ko) * | 2014-05-26 | 2015-12-07 | 에스케이텔레콤 주식회사 | 관심객체 검출을 위한 관심영역 학습장치 및 방법 |
KR102199094B1 (ko) | 2014-05-26 | 2021-01-07 | 에스케이텔레콤 주식회사 | 관심객체 검출을 위한 관심영역 학습장치 및 방법 |
JP2016070891A (ja) * | 2014-10-01 | 2016-05-09 | 日本電信電話株式会社 | 映像データ処理装置及び映像データ処理プログラム |
KR20160136689A (ko) * | 2015-05-20 | 2016-11-30 | 한화테크윈 주식회사 | 다중 객체 추적 방법 및 이를 위한 장치 |
KR102399974B1 (ko) * | 2015-05-20 | 2022-05-19 | 한화테크윈 주식회사 | 다중 객체 추적 방법 및 이를 위한 장치 |
KR20220075273A (ko) * | 2015-05-20 | 2022-06-08 | 한화테크윈 주식회사 | 다중 객체 추적 방법 및 이를 위한 장치 |
KR102552968B1 (ko) * | 2015-05-20 | 2023-07-10 | 한화비전 주식회사 | 다중 객체 추적 방법 및 이를 위한 장치 |
Also Published As
Publication number | Publication date |
---|---|
US20100195872A1 (en) | 2010-08-05 |
WO2009039288A1 (en) | 2009-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010539623A (ja) | 位置情報を使用して画像内のオブジェクトを識別するシステムおよび方法 | |
Chuang et al. | A feature learning and object recognition framework for underwater fish images | |
WO2019218824A1 (zh) | 一种移动轨迹获取方法及其设备、存储介质、终端 | |
Fritz et al. | A mobile vision system for urban detection with informative local descriptors | |
US8718324B2 (en) | Method, apparatus and computer program product for providing object tracking using template switching and feature adaptation | |
US9626585B2 (en) | Composition modeling for photo retrieval through geometric image segmentation | |
Coates et al. | Multi-camera object detection for robotics | |
JP2018148367A (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
Zhang et al. | Detecting and extracting the photo composites using planar homography and graph cut | |
US8983201B2 (en) | Three-dimensional visual phrases for object recognition | |
JP2009514107A (ja) | 集合体からの特定の人物の割り出し | |
CN104573614A (zh) | 用于跟踪人脸的设备和方法 | |
TWI745818B (zh) | 視覺定位方法、電子設備及電腦可讀儲存介質 | |
CN106295640A (zh) | 一种智能终端的物体识别方法和装置 | |
US20200005078A1 (en) | Content aware forensic detection of image manipulations | |
Zheng et al. | Accelerated RANSAC for accurate image registration in aerial video surveillance | |
Yu et al. | Learning bipartite graph matching for robust visual localization | |
CN104504162B (zh) | 一种基于机器人视觉平台的视频检索方法 | |
Zhao et al. | Learning probabilistic coordinate fields for robust correspondences | |
Noury et al. | How to overcome perceptual aliasing in ASIFT? | |
CN113160102A (zh) | 三维场景重建的方法、装置、设备和存储介质 | |
Li et al. | Vision-based indoor localization via a visual SLAM approach | |
Chattopadhyay et al. | Exploiting pose information for gait recognition from depth streams | |
Yu et al. | A digital video stabilization system based on reliable SIFT feature matching and adaptive low-pass filtering | |
Huang | Learning a 3D descriptor for cross-source point cloud registration from synthetic data |