JP2010539623A

JP2010539623A - 位置情報を使用して画像内のオブジェクトを識別するシステムおよび方法

Info

Publication number: JP2010539623A
Application number: JP2010525975A
Authority: JP
Inventors: カルメロベラルド; デヴィッドクライゼ; ルカリガッツィオ; フィリップモラン; ピーターベプレック
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-09-19
Filing date: 2008-09-18
Publication date: 2010-12-16
Also published as: US20100195872A1; WO2009039288A1

Abstract

画像内のオブジェクトを識別する、コンピュータによって実施される方法を提供する。本発明に係る方法は、カメラを使用してシーンの一連の画像を撮影するステップと、シーン内のオブジェクト間の距離を定義する、シーンのトポグラフィカルマップを受信するステップと、シーン内のオブジェクト間の距離を、与えられた画像から求めるステップと、与えられた画像から求められたオブジェクト間の距離を、マップからのオブジェクト間の距離との関連において比較することによって、与えられた画像内のオブジェクトの識別情報を推測するステップと、を含んでいる。オブジェクトの識別情報は、別の画像から抽出されるオブジェクトの特徴を使用して再推定することができる。
【選択図】図１

Description

本開示は、画像から抽出される特徴と、画像とは独立して取得される位置情報とを組み合わせて使用して、画像内のオブジェクトを識別するシステムおよび方法に関する。

画像認識は、ますます高度になりつつある。しかしながら、画像認識には、ある種の問題がある。顔認識に基づくシステムを考えると、画像認識手法を使用して識別する場合、この手法が機能するためには事前に確立されたデータベースが必要である。さらに、このようなシステムでは、正しく検出して認識できるために、撮影された画像においてすべての特徴が映し出されていることも要求される。このシステムでは、カメラに向いている２人の人物は、顔特徴に基づいて容易に検出および認識することができるが、カメラとは反対を向いている人物を識別することはできない。したがって、画像認識のみを採用しているシステム単独では、画像に撮影されているすべての人を確実に正しく識別することはできない。

なお、このセクションでは、本開示に関連する背景情報について説明したが、これは必ずしも先行技術ではない。

画像内のオブジェクトを識別する、コンピュータによって実施される方法、を提供する。この方法は、カメラを使用して画像を撮影するステップと、カメラの直近に見つかったオブジェクト間の空間配置を定義するマップであってマップ内の各オブジェクトの一意の識別子を提供するマップを生成するステップと、特徴抽出法を使用して画像内のオブジェクトを検出するステップと、画像内において検出されたオブジェクトを、マップを使用して識別するステップと、を含んでいる。

本開示の別の態様においては、オブジェクトを識別する方法は、カメラを使用してシーンの一連の画像を撮影するステップと、シーン内のオブジェクト間の距離を定義する、シーンのトポグラフィカルマップ（topographical map）を受信するステップと、シーン内のオブジェクト間の距離を、与えられた画像から求めるステップと、与えられた画像から求められたオブジェクト間の距離を、マップからのオブジェクト間の距離との関連において比較することによって、与えられた画像内のオブジェクトの識別情報を推定するステップと、を含んでいる。オブジェクトの識別情報は、別の画像から抽出されるオブジェクトの特徴を使用して再推定することができる。

このセクションでは、本開示について全般的に概説したが、本開示の範囲全体、または本開示の特徴すべてを包括的に記載するものではない。適用可能なさらなる領域は、本明細書に記載されている説明から明らかになるであろう。この概説中の説明および具体例は、説明を目的とするのみであり、本開示の範囲を制限することを目的とするものではない。

カメラによって撮影された例示的なシーンを示す図回転および反転の不確定性を説明する、２つの例示的なマップ生成を示す図本開示による、オブジェクトを識別する方法の詳細なブロック図例示的な特徴抽出プロセスのブロック図Ｈａａｒ分類器において使用することのできるさまざまなタイプの特徴を示す図本方法の初期化段階を示しているブロック図例示的なカメラにおける焦点距離と画角との間の関係を示す図カメラの視野が、対応するトポグラフィカルマップ上に置き換えられる様子を示す図例示的なカメラの場合の、異なる焦点距離における距離変換関数を示す図例示的なカメラの場合の、異なる焦点距離における距離変換関数を示す図本方法の期待値最大化アルゴリズムを示しているブロック図

本明細書において説明する図面は、可能なあらゆる実施形態ではなく選択された実施形態の説明を目的とするのみであり、さらに、本開示の範囲を制限することを意図するものではない。

図１は、カメラ１０、ビデオカメラ、またはその他のタイプの撮像装置によって画像を撮影することのできる例示的なシーンを示している。カメラは、カメラに直近の人物またはオブジェクトの位置情報を利用する。カメラによって画像を撮影する間に、各人物の位置情報と一意の識別子とをカメラによってリアルタイムに取り込むことができる。なお、カメラは、カメラの視野内の人物のみならず、シーン内のすべての人物の位置情報を取り込む。以下では、カメラに直近のオブジェクトから位置情報を取り込む例示的な方法について、さらに説明する。

カメラに属する方法およびアルゴリズムは、人物の位置情報を組み合わせて、どの人物がカメラによって撮影された画像内であるかを判定する。次いで、画像データに、画像内の人物の識別情報およびその位置によって、タグ付けすることができる。画像が撮影されるときに、メタデータが自動的に収集されるため、本方法は、格納された後にビデオを編集して表示させる、あるいは格納された後に画像コンテンツにアクセスする方法・手順を劇的に変化させうる。さらに、シーン内に存在するオブジェクトと、シーン内におけるオブジェクトの位置が認識されることにより、シーン内の製品配置や、メディアフロー（media flow）における特定のテーマの検索および取得といったインタラクティブサービスが可能になる。

画像内のオブジェクトを識別するため、本システムでは、カメラの直近に位置しているオブジェクトのトポグラフィカルマップを使用する。例示的な実施形態においては、人物が位置認識タグ１２を着用する、または、中にタグを含んでいる携帯型デバイス１４（携帯電話など）を持ち運ぶ。各タグは、タグとカメラの間の距離測度（distance measure）を求めるためにカメラ１０と無線データ通信する状態にある。この距離測度を、カメラによって使用することのできる、オブジェクトのトポグラフィカルマップに変換する。タグとカメラの間の距離測度は、さまざまな測定手法を使用して計算することができる。

例示的な距離測定システムは、ＭＩＴによって開発されてＣｒｏｓｓｂｏｗＴｅｃｈｎｏｌｏｇｉｅｓ社から市販されているＣｒｉｃｋｅｔ屋内位置特定システムである。このＣｒｉｃｋｅｔシステムは、無線周波数（ＲＦ）技術と超音波技術の組合せを使用して、位置情報をカメラに提供する。各タグはビーコンを含んでいる。ビーコンは、超音波パルスと併せてＲＦ通知を定期的に送信する。カメラは、１つまたは複数の受信機を備えるように構成されている。受信機は、ＲＦ信号を待ち受け、最初の数ビットを受信すると、対応する超音波パルスを待ち受ける。超音波パルスが到着すると、受信機は、ＲＦ（光速）と超音波（音速）との間の伝搬速度の差を利用して、対応するビーコンの距離推定値を得る。受信機は、ＲＦサンプルと超音波サンプル（後者はデータが符号化されていない単純なパルス）とを相関させて最良の相関を選択するアルゴリズムを実行する。本開示においては、別の測定手法／技術（例：ＧＰＳ）も考慮する。いずれの場合にも、このプロセスからの出力は完全結合グラフであり、このグラフでは、各ノードは、カメラに直近の人物またはオブジェクト（カメラを含む）を表しており、各エッジはオブジェクト間の距離を示している。

このグラフをトポグラフィカルマップに変換するには、いくつかの特殊な考察事項があり、以下ではこれについてさらに説明する。マップの作成は、ノード対の間の距離測定（ranging measurements）の計算に依存する。これらの測定値は誤差の影響を受ける。マップの良好な推測を得る目的で、我々は数多くの方法について検討した。

この問題を解決する目的として、マップの計算における誤差を最小化することに基づく準最適な解法が存在する。これらの解法のほぼすべてが反復的であるが、いくつかの解法は、特定のアルゴリズムの配布版に基づいている。我々の最初の試験用としては、与えられた距離行列から開始してマップを計算する単純な三角測量システムを構築した。この解法は、相当に良好であったが、最終的には、より高速かつ正確であるＭｏｏｒｅの解法を選択した。この解法は、極めて信頼性が高いが、通常の使用に起因する問題を解決することができなかった。超音波パルスの使用は、距離を推定するための正確な方法であるが、送信側と受信側が向かい合っていなければならない。向かい合っていない場合、距離測定は保証されない。

距離行列をユークリッド座標情報に変換することは、解決すべき課題を伴う。距離行列から開始して計算される、マップの推測の結果としての解法は、自身の座標系においてのみ正確である。我々のアルゴリズムの目的には、マップの計算後、そのマップと、実世界の位置とを合致させ、処理の間、その合致を維持することが望まれる。

残念ながら、これは不可能である。なぜなら、実世界における固定基準点（anchor）が存在しないためである。実際に、我々が調べたマッピング技術に関連するすべてのアルゴリズムは、何らかの固定基準点、すなわち、処理中およびその後のマップの計算中に変化することのない実世界における固定位置のノードに基づいていた。実世界を参照するならば、当然ながら、相対的なマップ（計算されたマップ）と実際のマップ（実世界におけるマップ）とを合致させる処理が問題となる。残念ながら、我々のシナリオにおいては、すべてのノードは同時に動くことがあり、この情報に依存することができない。さらに、距離の計算は、現実をサンプリングするため、処理中にマップがその特性を維持することを確保することができない。

これにより２つの問題、すなわち、図２に示すように、回転の不確定性および反転の不確定性が生じる。前者の不確定性は容易に理解される。なぜなら、各ノードは、他のノードに対する自身の向きを認識していないため、そのノードにとっては、回転したマップのそれぞれが正しいからである。後者の問題が生じるのは、我々がマップにノードを配置しなければならず、そのような決定において固定位置を頼ることができず、局在するノードを配置するアルゴリズムに依存するときである。容易に理解できるように、この問題は、最初の３つのノード、すなわちマップのデカルト軸を決定するノードにおいてのみ生じる。回転したマップおよび反転したマップの表現のそれぞれは、計算される距離と整合し、これは、表現のそれぞれが正しいことを意味する。明らかに、実世界における固定基準点の不存在は、相対的マップの絶対位置を見つけるのに役立たない。

グラフ理論は、数多くの位置特定問題を扱う。グラフの一連の頂点のユークリッド座標を見つける問題は、グラフ実現問題として知られている。提示するアルゴリズムは、基本的な四辺測量（quadrilateration）のロバストな分散型拡張アルゴリズムとして機能する。このことに加えて、距離測定値を、カルマンフィルタを使用することによって動的にフィルタリングする。

各ノードは、自身と一緒にロバストな四つ組（quad）を形成している３つの隣接ノードのみを考慮して局所マップを計算する。四つ組とは、反転の確定性なしに計算できる最小の部分グラフである。さらに、四つ組を分解したときに形成される４つの三角形すべてにおいて、ｂ＝ｓｉｎ^２θ＞ｄ_ｍｉｎ（ｂは各三角形の最も短い辺、θは最小の角度）が成り立つとき、その四つ組はロバストである。ｄ_ｍｉｎの値は、確率誤差を制限するために一定である。この計算は、不良な測定値に起因して点がずれることに対する解決策と考えられる。θが０になると、それに起因して点の位置がずれる可能性が生じる。すなわち、挙動は、測定値が不良であるときと同じになる。

１つのノードが四つ組情報を得ると、そのノードは局所マップの計算を開始することができる。局所マップでは、その四つ組に属している４つのノードのみが考慮される。座標は局所的に計算され、系の中心は、マップ計算を実行しているそのノード（すなわち、カメラ）である。この計算が終了した後、単一ノードそれぞれが隣接ノードおよびネットワークと情報を共有する。四つ組系によれば、当然、３点を共有する２つの異なるロバストな四つ組を結合して、ロバスト性を維持する５点のマップにすることができる。この計算では、局所マップのすべての座標を現在の座標に変換することも要求される。最終的には、同じマップのいくつかのバージョン（すべて等しい）が得られるが、各バージョンは、図２に示すようにデカルト軸の中心が現在のノードである異なる座標系に基づいている。

このアルゴリズムは、初期設計のさらにロバストなバージョンであっても、あるいは、多次元スケーリングを使用する任意の他の方法よりも高速であっても、固定基準が存在しないことから、依然として同じ問題を抱えている。結果として得られるマップは、距離測定値は正しいままであるが、容易に反転および回転しうる同じ表現のマップである。ノードの正しい向きを見つける（したがって反転の問題を解決する）という課題は、我々のアルゴリズムの中間ステップである。実際に、現在のマップを用いてカメラの向きおよび反転の正しい状態を見つけるときにおける、シーンの中の人物（またはオブジェクト）を認識する処理量を低減することができる。

代替実施形態においては、カメラは、シーンの場所に属する既存の設備からトポグラフィカルマップを受信することができる。例えば、特定の場所を、監視下の領域のトポグラフィカルマップを生成するレーダーシステム、ソナーシステム、またはその他のタイプの位置追跡システムを備えているように構成することができる。トポグラフィカルマップをカメラに送信することができる。

図３は、画像内のオブジェクトを識別するために使用されるアルゴリズムの詳細な図を示している。このアルゴリズムは、３つの主たるサブコンポーネントとして、特徴抽出３１と、初期化３２と、期待値最大化３３とから構成されている。アルゴリズムのこれらのサブコンポーネントそれぞれについて、さらに説明する。以下では、このアルゴリズムにおける関連するステップのみについて説明するが、カメラの動作全体を制御および管理するため、ソフトウェアによって実施されるそれ以外の命令が必要となりうることを理解されたい。さらに、このアルゴリズムは、カメラ、またはカメラに関連付けられる別のコンピューティングデバイスに属するコンピュータによって読み取り可能な媒体における、コンピュータが実行できる命令として実施することができる。

図４にさらに詳しく示すように、最初に特徴抽出法を各画像に適用する。特徴抽出の目的は、画像内におけるオブジェクトの位置を検出して、画像データから導かれる値として、これらのオブジェクト間の距離を計算することである。この演算は、写真によって提供される情報に依存するのみである。例示的な実施形態においては、特徴抽出は、後にさらに説明するＨａａｒ分類器(Haar classifier)を使用して実施される。本開示においては、別のタイプの検出方式も考えられる。

Ｈａａｒ分類器は、高速に画像を処理して可視オブジェクトを検出するための機械学習手法である。顔検出に使用されるＨａａｒ分類器は、主として、３つの重要な概念、すなわち、積分画像と、学習アルゴリズムと、分類器をカスケードに結合する方法とに基づく。主たる概念は極めて単純であり、対象のオブジェクトのポジティブサンプルおよびネガティブサンプルの両方によって分類器のトレーニングを行う。トレーニング段階の後、このような分類器を、入力画像における（トレーニング時に使用されたものと同じサイズの）関心領域に適用することができる。分類器は、与えられた画像のバイナリ結果を出力する。ポジティブな結果は、関心領域内にオブジェクトが見つかったことを意味し、ネガティブな出力は、領域が対象を含んでいない可能性が高いことを意味する。

本方法は、画像上で計算される特徴をベースとする。分類器は、Ｈａａｒベースの関数に類似する極めて単純な特徴を使用する。Ｈａａｒ分類器によって計算される特徴は３種類あり、これらは、計算に使用される複数の長方形から成る。例示的な実施形態においては、使用される特徴は、図５Ａ−図５Ｄに示す特徴に類似するものである。これらの特徴は、画像の複数の異なる隣接領域の単純な演算（合計および減算）に基づく。これらの計算を、これらの長方形のさまざまなサイズについて行う。

パフォーマンスを高めるため、積分画像の概念を導入する。積分画像は、元の画像とサイズが同じであるが、各位置（ｉ，ｊ）の値は、その位置より上、およびその位置より左の画素の値すべての合計値である。以下のように書くことができる。

この式において、ＩＩ（ｉ，ｊ）は積分画像であり、Ｉ（ｉ，ｊ）は元の画像である。容易に理解される点として、次式のように、累積的な行の合計ｓ（ｉ，ｊ）を導入することによって、積分画像は、画像の次元に対して線形的かつ高速に計算することができる。

この新しい概念により、画像から抽出される、Ｈａａｒに類似する特徴の合計および減算の計算速度が高まる。この新しい種類の演算子により、与えられた画像に対し、計算負荷の高い処理に時間を要することなく、必要なあらゆるスケールにおいて特徴を計算することが可能になる。

画像のサブウィンドウ内の特徴の数は、画素の数よりもずっと多い。検出プロセスの速度を高める目的で、これらの特徴のほとんどを除外する。これは、各ステップにおいて最良の結果を与える特徴のみが考慮されるように学習機械のアルゴリズム（ＡｄａＢｏｏｓｔ）を修正することによって達成される。分類器の各ステップは、１つの小さい特徴のみに基づいており、すべての特徴からの結果すべてを互いにカスケードに結合することによって、より良好な分類器が得られる。

検出器全体は、単純かつ小さな弱分類器のカスケードから成る。各分類器ｈ_ｌ（ｘ）は、特徴ｆ_ｌ（ｘ）と、しきい値θ_ｌと、特徴の方向を示すパリティｐ_ｌとから成る。ｘは、画像のサブエリアを示す（ＯｐｅｎＣＶが２４×２４画素の正方形である場合）

実際には、単一の特徴によって低い誤り率を達成することは不可能であるが、初期の分類器の誤り率は、最後の分類器の誤り率よりも低い。カスケードの各段階において、分類器がネガティブ値を戻すならば、そのサブエリアを拒否し、次の段階は開始されない。

各分類器は、修正されたＡｄａＢｏｏｓｔアルゴリズム（学習プロセスの速度を高める機械学習アルゴリズム）を使用して構築されている。画像内のオブジェクトを探索するため、画素を横切って探索ウィンドウを移動させ、分類器を使用して各位置を調べることができる。この探索ウィンドウは、さまざまなサイズの対象オブジェクトを発見できるようにする目的で容易にサイズ変更できるように設計されており、この方法は、画像自体をサイズ変更するよりも効率的である。したがって、画像内の、サイズが不明のオブジェクトを見つけるためには、異なるスケールにおいて探索手順を何度か行う必要がある。

顔検出の場合、本質的な情報として色も利用することができる。顔を検出する場合に色情報を使用することによって得られる結果に従って、誤検出（false positive）を除去するための単純な方法を考案した。我々の検出器に影響する問題を解決するため、抽出される部分画像のヒストグラムと、事前に計算されるヒストグラムとの間の相関の計算に基づいて、誤検出除去器を作成した。

色ヒストグラムは柔軟な構造であり、その目的は、特定の色空間において画像情報を記述することである。画像のヒストグラムは、画像内の色を複数のビンに離散化し、次いで、各ビン内の画像画素の数をカウントすることによって、作成される。いま、Ｉがｎ×ｎの画像（説明を単純にするため、画像は正方形であると想定する）であるとすると、Ｉの色をｍ個の色ｃ_１，ｃ_２，ｃ_３，・・・，ｃ_ｍに量子化する。画素ｐ＝（ｘ，ｙ）∈Ｉの場合に、Ｃ（ｐ）はその色を表すとすると、Ｉ_ｃ＝｛ｐ｜Ｃ（ｐ）＝ｃ｝である。したがって、表記ｐ∈Ｉ_ｃは、ｐ∈Ｉ，Ｃ（ｐ）＝ｃを意味する。画像Ｉのヒストグラムは以下のように定義される。すなわち、色ｃ_ｉ，ｉ∈［ｍ］について、

であり、Ｉにおける色ｃ_ｉの画素の数としてのヒストグラムである。

次に、ヒストグラムのスケール不変性（scale invariant）バージョンは、以下のように定義される。

上の等式は、色ヒストグラムのスケール不変性バージョンであることに加えて、画像Ｉから画素ｐを無作為に選択したときの確率を記述しており、ｐの色がｃ_ｉである確率がｈ_ｃｉである（すなわち、ｈ_ｃｉは画像内の色の確率分布である）。

このヒストグラムは時間Ｏ（ｎ^２）内に容易に計算され、この時間は、Ｉのサイズに対して線形である。論文著者によっては、ヒストグラムをカウントＨとしてのみ定義することを好むが（その場合、画像のサイズに依存する）、我々の目的には、さまざまなサイズの画像に適合する計算が必要であったため、正規化バージョンを選択した。

検出器としてＨａｒｒｉｓの分類器を使用することによって、顔および顔以外の２種類のデータセットに分割される大きなデータベースを構築した。すべての顔（および顔以外）の累積ヒストグラムを計算し、正規化する。すべてのチャンネルをただちに利用できるように、画素の色相値を使用し、この結果として照度不変となる。ヒストグラムの値は量子化しなかった。色相（hue）の範囲を［０゜、１８０゜］とした理由として、ＯｐｅｎＣＶは、色相値（通常では［０゜、３６０゜］の範囲内である）に対して［０゜、１８０゜］の範囲のみを使用するためである。

抽出される顔が、ほとんどの部分について肌色の領域から成ることを考えれば、顔のヒストグラムにおける最大密度の領域は、当然ながら０゜付近および１８０゜（赤）付近の領域である。顔以外のモデルを作成することは相当に難しいため、我々は、さまざまなデータベースから得られる画像（主として、可能性のある背景の画像）を選択し、顔検出段階から生じる誤検出に加えて、前に行った計算を繰り返した。

Ｈａａｒ分類器を使用して検出される各画像について、関連する正規化された色相ヒストグラムを抽出し、顔のヒストグラムと顔以外のヒストグラムの両方との相関を計算した。顔のヒストグラムは、信頼できるデータに基づくヒストグラムであることがわかっているため、相関のしきい値計算に２種類の重みを与えることによって、このデータベースに高い重要度を与えた。この方法により多数の誤検出が除去され、目的が達成された。

顔は、人物の存在を明らかにする良好な情報である。しかしながら、我々の目的に、顔特徴に基づくシステムを選択しないことについて、以下に説明する。特徴間の相違の計算を単純化し、カメラの方を向いていない人物の問題を解決する目的で、我々は、服のサンプルに基づいて計算を行うことを決定した。服の部分画像は画像から容易に抽出される。なぜなら、写真内の顔の位置の情報がすでに得られているためである。

服のサンプル間の相違を計算する目的で、ヒストグラムおよびオートコレログラム（auto-correlogram）を使用できるかを調べた。我々は、コンテンツベースの画像検索において使用される特徴であるコレログラム（correlogram）を導入する。コレログラムの特徴の計算は、ヒストグラムにおいて使用される計算に極めて似ているが、よりロバストである。コレログラムの概念は、ヒストグラムによってもたらされる問題を解決するために生み出された。コレログラムでは、与えられた距離において色の対すべての間の相関を考慮する。

事前に決定される一連の距離ｄ∈［ｎ］の場合、Ｉのカラーコレログラム（color-correlogram）を次のように定義する。

したがって、画像のコレログラムは、色の対および距離によってインデックス化されたテーブルであり、この場合、＜ｉ，ｊ＞エントリのｋ番目の要素は、色ｉの画素からｋの距離において色ｊの画素が見つかる確率である。このような特徴のサイズはＯ（ｍ^２ｄ）である（画像Ｉについては、ヒストグラムの定義の場合と同じ想定を行う）。

オートコレログラムの定義は、以下のように容易である。同じ色対のみを考えるならば、オートコレログラムは次式として得られる。

この特徴は、コレログラムのサブセットであり、そのサイズはＯ（ｍｄ）である。この特徴では、画像の内側の色の対の相関を考慮し、画像の色の分布の空間的記述となる。したがって、画像内の色の分布のみを示し、写真の中でのそれら色の位置についての情報を持たないヒストグラムよりも、オートコレログラムは勝る。オートコレログラムの特徴の唯一の欠点は計算時間であるが、我々が考慮する部分画像のサイズは小さいため、我々のアルゴリズムにおいてはさほど高い計算負荷にはつながらない。

例示的な実施形態においては、服のサンプルの色を対象の特徴として選択する。なぜなら、服の色は顔よりも管理するのが容易であり、相違の演算に高い計算負荷を伴わないためである。しかしながら、写真から抽出することを想像できるあらゆる種類の特徴について、より一般的に機能するシステムを考案し、これにより、アルゴリズムを最大限に汎用的なものにする。例えば、画像内の人物ではないオブジェクトを検出するアプリケーションが考えられる。この場合、特定の対象のオブジェクトシグネチャ（object signature）によってオブジェクト検出器のトレーニングを行うことができる。さらに、オブジェクトシグネチャを位置認識タグ内に格納し、写真の撮影時にカメラに送ることも考えられる。

初期化段階について、図６を参照しながらさらに説明する。初期化段階では、最初に、画像内のオブジェクトを識別する目的で、カメラの視野内に入る可能性のあるオブジェクトのグループを求める。可能性のあるオブジェクトグループのそれぞれについて、画像から求められるグループ内のオブジェクト間の距離と、マップから取得されるオブジェクト間の距離とを比較する。いくつかの場合には、この計算によって、画像内のオブジェクトを十分に識別することができる。

画像の収集とマップの生成はそれぞれ独立したプロセスであるため、最初のステップ６１として、各画像を、対応するトポグラフィカルマップと同期させなければならない。複数の画像間におけるオブジェクトの移動を考慮するため、カメラによって撮影される各画像と併せてトポグラフィカルマップを取得することができる。画像間でオブジェクトおよびカメラのいずれも動いていないときには、一連の画像に１つのトポグラフィカルマップをリンクさせることが可能である。

同期は、写真およびマップから提供される情報に基づく。例示的な実施形態においては、デジタルカメラによって撮影される画像には、ＥＸＩＦ（exchangeable image file format）情報が含まれている。ステップ６２において、すべての写真からＥＸＩＦ情報を取り出して、それらを１つずつ保存する。この処理のため、小さなｂａｓｈシェルスクリプトを作成する。このスクリプトは、写真が撮影された日付および時刻と、写真の撮影時の焦点距離とを取り出す。画像に関連付けられる日付および時刻と、マップに関連付けられる類似するタイムスタンプとを使用して、画像を対応するマップと同期させる。

ステップ６３においては、画像のトポグラフィカルマップが与えられたとき、カメラの視野内に入る可能性のあるオブジェクトのグループを列挙する。最初に、ＥＸＩＦファイルから取り出される焦点距離値から水平画角を導く。使用するカメラについて、焦点距離（単位：ミリメートル）を画角（単位：ラジアン）に変換する等式を実験的に導く。図７は、キャノン社のＥＯＳＤｉｇｉｔａｌＲｅｂｅｌカメラの場合の関数を示している。次いで、画角を、画像がそのカメラによって撮影されたときの視野に変換する。

視野を計算した時点で、可能性のあるグループの判定を開始することができる。図８を参照し、画像の視野（ｆｖ）を、その原点がカメラに一致するように、対応するトポグラフィカルマップの上に移す。この図において、カメラはノードＡによって表している。次いで、視野を、マップとの関連においてさまざまな増分にて回転させる。各位置は、カメラの視野に入る可能性のあるオブジェクトのグループを示している。写真Ｐ_ｉのｎ番目のグループをｇ_ｉ，ｎとして示す。この表記法においては、反転したバージョンと元のバージョンとは区別されない。なぜなら、これら２つのケースはアルゴリズムによって異なるケースとして自動的に管理されるためである。

ステップ６５において、画像から求められる１つのグループ内のオブジェクト間の距離と、マップから取得されるオブジェクト間の距離とを比較することによって、画像内のオブジェクトの識別情報を推測することができる。可能性のあるオブジェクトのグループのそれぞれについて、この比較を行う。

比較するためには、ステップ６４において、距離を共通のメトリックに変換しなければならない。例示的な実施形態においては、マップにおいて提供されるオブジェクト間の距離を画素数に変換する。この変換のため、複数の異なる焦点距離値におけるカメラの挙動を実験的に測定した。寸法が既知である対象を、カメラの焦点面から既知の距離に置き、そのカメラによって対象の何枚かの写真を撮影した。各距離について、対象の画像中における寸法（単位：画素）と、実際のサイズ（単位：センチメートル）との比を計算する。これにより、カメラのモデルを計算するためのいくつかの結果が得られる。焦点距離それぞれについて、実験データに最も良く適合する関数を導く。図９Ａ−図９Ｄは、例示的な関数を示している。これらの等式を認識することにより、カメラから寸法ｄのオブジェクトまでの距離が既知であると想定したときにそのオブジェクトがその写真の内側において占める画素数を知ることができる。これらの演算を実行することによって、我々はカメラのモデルを推測した。

シーンの写真を撮影するときには、現実における各点がフィルム（ここではＣＣＤ）上に投影される。この投影は線形ではない。なぜなら、レンズによってわずかではあるが明らかな歪みが生じるためである。この投影は、線形であるものとして近似的に行った。さらに、投影はカメラの向きに依存し、我々は、点の対それぞれが必ずシーンの中心にあるものとみなした。

グループの構成要素すべてを、カメラと、グループ内の直近のノードとによって与えられる円の上に投影する。投影された点の対それぞれについて、点の間の距離を、写真の片側から他方の側への順に（鎖状に）計算し、これらの値を（前に推定した等式に従って）画素数に変換する。これによって点の間の相互距離のベクトルが得られ、これらの距離を、画像上で直接計算される距離と比較する。これらの距離は、写真上の実際の距離の近似にすぎず、これによりこのプロセスに曖昧性が生じうる。

２つ以上の特徴が検出された場合、どの特徴をどの人物に関連付けることができるかの手掛かりを得ることができる。当然ながら、この場合にも、特徴検出器において誤りが生じることがある。この場合に行うことは、グループ内のノードのすべての可能性のある組合せＣ（ｉ，ｎ）を考慮することである。ノードの組合せｃそれぞれについて、抽出された特徴から計算される相互距離と比較したときの、ノード間距離の相違を計算する。相違が最小である組合せを、そのグループの代表として選択する。

各グループの相違の測度は、単純な１ノルムの計算によって求める。各グループｇ_ｉ，ｎについて（我々の表記法では反転は考慮されないことに留意されたい）、以下の条件を満たす組合せｃ∈Ｃ（ｉ，ｎ）を選択することによって相違を計算する。

δ_ｉ，ｎは、グループｇ_ｉ，ｎの相違の測度である。すべてのｇ_ｉ，ｎ∈Ｐ_ｉについて上記の等式を使用し、すべてのグループのうち相違が最小であるグループを選択することによって、写真内のグループの推定が得られる。相違が最小であるグループを使用して、画像内のオブジェクトを識別することができる。誤りが生じた場合、マップにより提供される情報を参照することによって、その誤りを修復することができる。いくつかのアプリケーションにおいては、この方法によって画像内のオブジェクトを正しく識別することができる。それ以外のアプリケーションにおいては、オブジェクトの識別情報に曖昧性が残ることがある。

曖昧性は、一連の関連する画像を通じて収集されるデータを使用してオブジェクトの識別情報および位置を再推定することによって、解決することができる。初期化段階において、シーン内の人物それぞれについて、それ自体の実際の値を表すことができる、または表すことができない一連の特徴を集める。特徴の正しい推定を得るため、集められたすべての特徴のうち、正しい特徴である可能性の高い特徴のみが得られるように、オートコレログラム（またはヒストグラム）からの類似性測度をクラスタ化した。しかしながら、特徴を正しく推定するには、マップとの関連におけるカメラの正しい状態を知る必要がある。その一方で、カメラの向きを推定するためには、画像内で正しい特徴を見つける必要がある。これは、推定する変数（角度および反転）が、隠れパラメータ（写真から抽出される特徴）に依存する典型的なケースである。この問題の解決策として、期待値最大化法（ＥＭ法、Expectation Maximization）の公式化を考える。

ＥＭ（Expectation Maximization）アルゴリズムは、確率モデルにおいて変数の最尤推定値を見つけるために、統計学の分野において使用される最も強力な手法の１つである。ランダムなベクトルＸが与えられるとき、Ｐ（Ｘ｜θ）が最大となるようなパラメータθを見つけることが望ましい。これは、θの最尤（ＭＬ）推定として知られている。一般には、θの対数尤度（ＭＬ）推定を導入する。対数尤度関数は、

として導入するのが一般的である。なぜなら、ｌｎは狭義増加関数であり、Ｐ（Ｘ｜θ）を最大にするθの値はＬ（θ）関数も最大にするためである。

ＥＭアルゴリズムは、局所最大値に達するまで、各ステップにおいて尤度関数を増加させる反復手順であり、局所最大値は、変数の望ましい値として通常では良好な推定値である。各ステップにおいて、

であるような新しいθ_ｎ値を推定する。すなわち、これらの差異が最大になることが望まれる。ここまで、観測不可能なデータは考慮していない。ＥＭアルゴリズムでは、このステップにおいて導入されうる隠れパラメータが存在する場合における自然管理ツール（natural managing tool）が提供される。いま、隠れパラメータをｚとすると、次のように書くことができる。

次のステップは、隠れ変数に関連して設定されたジェネリックパラメータにおける結合対数尤度（joint log-likelihood）の期待値であるｌ（θ_ｎ｜θ_ｎ−１）の再公式化であり、観測値と現在の設定が与えられているとき、以下のようになる。

これは、汎用パラメータθ_ｎのみの関数である。

さらに、アルゴリズムの公式化における中間ステップとして以下の定理を考える。次のように書くことができる。

すなわち、θ_ｎの値が、ｌ（θ_ｎ｜θ_ｎ−１）の値がｌ（θ_ｎ−１｜θ_ｎ−１）の値よりも大きいような値であるならば、尤度Ｌ（Ｘ｜θ_ｎ）はＬ（Ｘ｜θ_ｎ−１）よりも大きく、これは求めていた結果である。

最良の近似を得るためには、通常では、最大化

によりパラメータθ_ｎ＋１を選択する。この最大化が得られない場合、アルゴリズムの一般化バージョンの１つとして、θの最良の近似ではなく、より良好な近似を単純に選択するものを使用することができる。その場合でも局所最大値への収束が保証される。なぜなら、尤度はステップ毎に増大するためである。

図１０は、期待値最大化アルゴリズムの例を示しており、この例においては、初期化段階を使用して、隠れパラメータの開始値を計算する。これらの値に従って変数を推定する。したがって、尤度関数が最大になるように、隠れパラメータを再推定する。これら２つのステップを繰り返し、収束するまでこのプロセスを続ける。

アルバム内の各写真について、可能性のあるグループの対応するリストが得られる。これらのグループは、上述した手法を使用して抽出される。我々は、各グループについて、実際のノード間距離を画素変換し、画像上に格子構造を重ね、そのような構造によって囲まれる画像のサブエリアを抽出する。検出された特徴を、探索のガイドとして使用することができる。

画像のこのようなエリアを抽出した後、写真の内側にいる可能性のあるグループすべてについての情報（反転しているか否か）を用いる。可能性のあるグループのそれぞれについて、写真の内側にいる尤度を計算する。前出の表記法を思い出せば、以下のように書くことができる。

ＥＭアルゴリズムの各サイクルにおいて（最大０まで）減少するパラメータαが追加されており、これにより、処理時に、特徴によって与えられる確率計算に、より大きな重みが与えられる。Φ_ｉ，ｎは、初期化段階中に構築された特徴データベースによって与えられる特徴と、画像から単に抽出される特徴との間の一種の相違測度である。写真内に存在する可能性のあるグループすべてについて、この計算を行う。計算後、確率が最大であるグループを正しいグループとみなし、これにより、与えられたマップを用いて写真の状態（カメラの回転と反転の状態）の推定が得られる。９１に示す、アルゴリズムのこのステップを変数推定器（variables estimator）と称し、この推定器において推定される変数は、回転および反転の状態である。

次いで、ステップ９２およびステップ９３において、隠れパラメータを再推定する。カメラの状態の推定の後、写真から最近に抽出された特徴を用い、これらの特徴のそれぞれを、推定に従って各特徴に関連する人物のそれぞれに追加する。この処理によって、ノードそれぞれについて特徴の再推定に進む。この段階では、修正に関与するすべてのノードについて、特徴を単純に追加し、クラスタリングを更新する。ノードを記述する特徴の修正を行う。この場合、特徴を記述してそれらの相違を計算するために使用される手法はオートコレログラム手法である。この手法を使用するのは、テクスチャやパターンを記述するためには単純なヒストグラム計算よりもオートコレログラム手法がよりロバストであることがすでにわかっているためである。

これらのステップすべてを、アルバム全体について繰り返し、すべての写真について行う。一度のみ実行した後、写真の中のグループの推定と、マップにおけるそれらグループの実際の位置とが得られる。最後のステップをもう一度実行することは、アルバム全体について同じ種類の演算をもう一度繰り返すことを意味する。写真のデータセット全体にわたり計算を行った後、前と同じ処理を行うことになるが、今回は各人物の特徴がさらに良好に定義されることがわかっている。

写真に何も写っていない可能性があることも考慮する必要がある。写真に何も写っていないかを判定するためには、グループの相関計算段階においてしきい値が必要である。他のグループよりも際だって高い確率を有するグループが存在せず、すべてのグループが同程度の確率値に属するものと考えられる場合、特徴を更新せず、その写真は何も写っていないとみなす。重要な点として、現在の写真を用いて特徴のそれぞれの距離測定値を得たい場合には、オートコレログラム手法を使用することが有効である。

ここで強調しておくべき点は、識別プロセスが完全に自動的であり、２つの情報源が互いに完全に独立しているため、一方の情報源を他方の情報源によってサポートすることができることである。さらには、データベースが事前に定義されるタイプのシステムは、完全に独立している。アルゴリズムの期待値最大化形式を利用することによって、プロセスの最初にデータベースが推定された後、アルゴリズム自身によって少しずつ精度が改善される。

例示的な実施形態は、本開示が完全なものとなり、その範囲が当業者に完全に伝わるようにする目的で記載してある。具体的なコンポーネント、デバイス、および方法の例など、膨大な具体的な細部は、本開示の実施形態が完全に理解されるようにする目的で記載してある。当業者には明らかであるように、具体的な細部は採用する必要がなく、例示的な実施形態は、数多くの別の形態として具体化することができ、これらを本開示の範囲を制限するようには解釈しないものとする。いくつかの例示的な実施形態において、周知のプロセス、周知のデバイス構造、および周知の手法については、詳しくは説明していない。

本文書において使用している術語は、具体的かつ例示的な実施形態を説明することを目的とするのみであり、本開示を制限することを意図するものではない。本文書において使用している単数形は、前後関係から明らかではない限り、複数形も含まれることを意図している。語「備えている」、「含んでいる」および「有する」は、包括的であり、したがって、記載されている特徴、整数、ステップ、演算、要素、コンポーネントなどが存在することを指定するが、記載されている以外の１つまたは複数の特徴、整数、ステップ、演算、要素、コンポーネント、あるいはこれらのグループなどが存在する、もしくは両方が存在することを除外するものではない。本文書に記載されている方法ステップ、プロセス、および演算は、実行順序として特に明記していない限りは、説明または図示した特定の順序において実行する必要があるようには解釈されないものとする。さらには、追加のステップまたは代替ステップを採用できることも理解されたい。

Claims

画像内のオブジェクトを識別する、コンピュータによって実施される方法、であって、
カメラを使用して画像を撮影するステップと、
前記カメラの直近に見つかったオブジェクト間の空間配置を定義するマップであって前記マップ内の各オブジェクトの一意の識別子を提供する前記マップを生成するステップと、
特徴抽出法を使用して前記画像内のオブジェクトを検出するステップと、
前記画像内において検出された前記オブジェクトを、前記マップを使用して識別するステップと、
前記画像内において検出された前記オブジェクトに、前記マップから得られるオブジェクトの前記対応する一意の識別子、によってタグ付けするステップと、
を含む方法。
前記オブジェクト間の距離を、前記オブジェクトと前記カメラとの間の無線データ伝送に基づいて計算するステップと、
前記オブジェクトの前記位置情報から前記マップを構築するステップと、
をさらに含む請求項１に記載の方法。
前記オブジェクトから無線データ伝送を介して受信する一意の識別子を使用して、前記マップを生成するステップ、
をさらに含む請求項１に記載の方法。
前記カメラの外部の位置追跡システムから前記カメラに前記マップをインポートするステップ、
をさらに含む請求項１に記載の方法。
特徴抽出法を使用して前記画像からオブジェクトを抽出するステップと、
前記オブジェクト間の距離を前記画像データから求めるステップと、
をさらに含む請求項１に記載の方法。
オブジェクト間の距離を求める前記ステップは、
前記画像が撮影されたときの焦点距離を求めるステップと、
前記画像内の画素と、前記マップ内のオブジェクト間の前記空間配置を定義するために使用される距離メトリックとの間の変換関数を求めるステップと、
をさらに含む請求項５に記載の方法。
前記画像内において検出された前記オブジェクトを識別する前記ステップは、
前記画像が撮影されたときの視野を求めるステップと、
前記カメラの前記視野に入る可能性のあるオブジェクトのグループを求めるステップと、
をさらに含む請求項１に記載の方法。
可能性のあるオブジェクトのグループのそれぞれについて、対応する画像からオブジェクト間の距離を計算するステップと、
可能性のあるオブジェクトのグループのそれぞれについて、前記オブジェクト間の計算された距離と前記マップとの間の相違測度を計算するステップと、
をさらに含む請求項７に記載の方法。
前記視野を前記マップ上に移し、前記視野を前記マップとの関連において回転させることによって、可能性のあるオブジェクトのグループを求めるステップ、
をさらに含む請求項７に記載の方法。
前記画像内の前記オブジェクトを、前記カメラによって撮影された一連の画像を通じて収集されたデータを使用して識別するステップ、
をさらに含む請求項１に記載の方法。
前記画像内の前記オブジェクトを、別の画像から抽出された特徴を使用して識別するステップ、
をさらに含む請求項１に記載の方法。
画像内のオブジェクトを識別する、コンピュータによって実施される方法であって、
カメラを使用してシーンの一連の画像を撮影するステップと、
前記シーン内のオブジェクト間の距離を定義する、前記シーンのトポグラフィカルマップを受信するステップと、
前記シーン内のオブジェクト間の距離を、与えられた画像から求めるステップと、
前記与えられた画像から求められたオブジェクト間の前記距離を、前記マップからのオブジェクト間の距離との関連において比較することによって、前記与えられた画像内のオブジェクトの識別情報を推測するステップと、
オブジェクトの識別情報を、別の画像から抽出される前記オブジェクトの特徴を使用して再推定するステップと、
を含む方法。
前記オブジェクトとの無線データ伝送に基づいて、前記カメラにおいて前記トポグラフィカルマップを生成するステップ、
をさらに含む請求項１２に記載の方法。
前記カメラの外部の位置追跡システムから前記マップを前記カメラにインポートするステップ、
をさらに含む請求項１２に記載の方法。
一連のトポグラフィカルマップであって、各マップが、前記画像の１つに関連しており、かつ、前記対応する画像が前記カメラによって撮影されたときの前記シーンを表している、前記一連のトポグラフィカルマップ、を受信するステップ、
をさらに含む請求項１２に記載の方法。
前記与えられた画像からＨａａｒ分類器を使用して前記オブジェクトの特徴を抽出するステップと、
前記抽出された特徴に基づいて前記オブジェクト間の距離を求めるステップと、
をさらに含む請求項１２に記載の方法。
オブジェクト間の距離を求める前記ステップは、
前記画像が撮影されたときの焦点距離を求めるステップと、
前記画像内の画素と、距離メトリックとの間の変換関数を求めるステップと、
をさらに含む請求項１２に記載の方法。
オブジェクト間の距離を求める前記ステップは、
前記与えられた画像が撮影されたときの視野を求めるステップと、
前記カメラの前記視野に入る可能性のある、前記与えられた画像内のオブジェクトのグループを求めるステップと、
可能性のあるオブジェクトのグループのそれぞれについて、与えられた画像内のオブジェクト間の距離を計算するステップと、
をさらに含む請求項１２に記載の方法。
識別情報を推測する前記ステップは、
可能性のあるオブジェクトのグループのそれぞれについて、前記与えられた画像から求められた、オブジェクト間の前記距離と、前記マップによって提供される前記距離との間の相違測度を計算するステップと、
最小の相違測度を有する前記グループを使用して前記オブジェクトを識別するステップと、
をさらに含む請求項１８に記載の方法。
前記与えられた画像内のオブジェクトの識別情報を、別の画像から抽出される前記オブジェクトの特徴を使用して再推定するステップ、
をさらに含む請求項１２に記載の方法。
前記与えられた画像から抽出されるオブジェクトの特徴と、別の画像からの、対応するオブジェクトの特徴と、の間の尤度を最大化することによって、前記与えられた画像内のオブジェクトの識別情報を再推定するステップ、
をさらに含む請求項２０に記載の方法。
前記画像内において検出された前記オブジェクトに、前記マップから得られるオブジェクトの前記対応する一意の識別子、によってタグ付けするステップ、
をさらに含む請求項１２に記載の方法。