JP2011517818A

JP2011517818A - 撮影位置シーケンス情報を用いた画像分類

Info

Publication number: JP2011517818A
Application number: JP2011504015A
Authority: JP
Inventors: ジエボールオ; ジュインソンユエン
Original assignee: イーストマンコダックカンパニー
Priority date: 2008-04-14
Filing date: 2009-04-10
Publication date: 2011-06-16
Anticipated expiration: 2029-04-10
Also published as: US8055081B2; CN102016839A; EP2266058B1; WO2009131629A1; EP2266058A1; JP5461523B2; US20090257663A1

Abstract

時間的に関係のある画像群の分類法が開示され、この分類法においては、時間的に関係のある画像群から撮影位置シーケンスが特定される。この撮影位置シーケンスに集合的に関連付けられている撮影位置シーケンス情報は、予め決められた撮影位置シーケンスの特徴の複数のセットの各々と比較される。各セットは、予め決められた分類に関連付けられている。時間的に関係のある画像群に関連付けられる特定された分類は、少なくとも比較ステップの結果に基づいて特定され、特定された分類はプロセッサアクセス可能メモリシステムの中に保存される。

Description

本発明は、人工知能と画像理解、特に、時間的に関係のある画像集合の分類に関する。

一般の人々による写真収集は広く普及している。このような写真の集合から意味論的に重要な情報を抽出することは、機械学習とコンピュータビジョンの分野において、盛んに研究が進められている領域である。オブジェクト認識、すなわち顔、車、草、水、空その他、特定の種類のオブジェクトの検出に関する問題に焦点を当てた研究結果が数多く報告されている。そのほとんどは、画像の中から得られる低レベルの視覚的特徴（色、テクスチャ、線等）の利用に頼るものである。近年では、シーン検出や活動認識といった、意味論的により複雑な情報の抽出に対する関心がますます高まっている。たとえば、これまでのシステムでは、シーンやオブジェクトの視覚的分類を通じたイベント認識が試みられており、一例として、Ｌ．−Ｊ．リとＬ．フェイフェイ“Ｗｈａｔ，ｗｈｅｒｅａｎｄｗｈｏｃｌａｓｓｆｙｉｎｇｅｖｅｎｔｓｂｙｓｃｅｎｅａｎｄｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ”，ｉｎＰｒｏｃ．ＩＥＥＥＩｎｔｌ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００７を参照されたい。このシステムは、ポロ、ボート競技、ｂｏｃｈｅ等、多数の独特のスポーツイベントの認識においては一定の成功を収めたと報告されているが、これは、この種のイベントの写真からは特異な視覚的特徴が観察できることによる。

上記の先行技術のいずれにおいても、従来通りの画像のクラスタリングと分類は、個々の画像に基づいて、たとえば色やエッジヒストグラムのような画像に基づく特徴、すなわち視覚的特徴集合（ｂａｇｏｆｖｉｓｕａｌｆｅａｔｕｒｅｓ）だけを使って実行される（Ｓ．ラゼブニック、Ｃ．シュミット、Ｊ．ポンス“Ｂｅｙｏｎｄｂａｇｓｏｆｆｅａｔｕｒｅｓ：ｓｐａｔｉａｌｐｙｒａｍｉｄｍａｔｃｈｉｎｇｆｏｒｒｅｃｏｇｎｉｚｉｎｇｎａｔｕｒａｌｓｃｅｎｅｃａｔｅｇｏｒｉｅｓ”，ｉｎＰｒｏｃ．ＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００６参照）。

しかしながら、同じイベントに属する複数の画像は相互に時間的および空間的相関関係を有するため、画像同士は独立していないことが多い。より詳しくは、個人的な画像集合には、画像の特徴以外に、コンテキスト情報が豊富にあり、意味論的理解のためには、通常、このようなコンテキスト情報が画像特徴を補うことになる。

"Ｗｈａｔ，ｗｈｅｒｅａｎｄｗｈｏｃｌａｓｓｆｙｉｎｇｅｖｅｎｔｓｂｙｓｃｅｎｅａｎｄｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ"，Ｌ．−Ｊ．リとＬ．フェイフェイ，ｉｎＰｒｏｃ．ＩＥＥＥＩｎｔｌ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００７ "Ｂｅｙｏｎｄｂａｇｓｏｆｆｅａｔｕｒｅｓ：ｓｐａｔｉａｌｐｙｒａｍｉｄｍａｔｃｈｉｎｇｆｏｒｒｅｃｏｇｎｉｚｉｎｇｎａｔｕｒａｌｓｃｅｎｅｃａｔｅｇｏｒｉｅｓ"，Ｓ．ラゼブニック、Ｃ．シュミット、Ｊ．ポンス，ｉｎＰｒｏｃ．ＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００６

したがって、画像間の関係を考慮した、改良された画像分類技術が求められている。

本発明の各種の実施形態による、時間的に関係のある画像群の分類を容易にするシステムと方法によって、上記の問題に取り組み、当業界における技術的解決を実現する。本発明のある実施形態において、撮影位置シーケンスは、時間的に関係のある画像群から特定される。撮影位置シーケンス情報は、撮影位置シーケンスに集合的に関連付けられており、予め決められた撮影位置シーケンス特徴の複数のセットの各々と比較される。各セットは、予め決められた分類に関連付けられている。時間的に関係のある画像群に関連付けられると特定される分類は、少なくとも比較ステップの結果に基づいて特定され、特定された分類は、プロセッサからアクセス可能なメモリシステムの中に保存される。

本発明の利点の１つは、関連する撮影位置情報を有する個人的画像集合を使ってイベントを認識することである。

上記の実施形態のほかにも、図面を参照し、以下の詳細な説明を読むことによって他の実施形態が明らかとなるであろう。

本発明の実施形態を実現するためのフローチャートである。本発明の実施形態を実現するためのフローチャートである。空間的範囲と移動速度に関する異なるイベントの特徴を示す表である。市内観光のイベントに関する空間と時間のトレース例を示す図である。ハイキングのイベントに関する空間と時間のトレース例を示す図である。分類表の例と、複数の方法により得られる手がかりからの認識結果を組み合わせるために用いられる信頼度を計算するための手順を示す図である。本発明のある実施形態による、写真集合および関連する撮影位置トレース(ｔｒａｃｅ)を用いたイベント認識システムを示す図である。

集合的推論は、画像分類に有益なツールとなりうる。たとえば、特定の写真に関して、それが仕事かレジャーかを区別することは難しいかもしれないが、同じイベントに属する他の写真を見れば、その予測はもっとつきやすくなる可能性がある。本発明の実施形態において、画像分類は、関連付けられた撮影位置情報を有する、時間的に関係のある画像集合のコンテキストの中で実行される。「画像分類」という語句は、本明細書において、時間的に関係のある画像群を、予め決められた活動のセットの中の１つに分類するプロセスを指す。さらに、「イベント認識」と「活動認識」という語句は、本明細書において、画像分類の例である。またさらに、「画像」、「写真」、「フォト」という単語は、本明細書においては互換的に使用される。

本発明は、本明細書に記載の実施形態を組み合わせたものも含む。「特定の実施形態」その他への言及は、本発明の少なくとも１つの実施形態の中にある特徴を指す。「ある実施形態」または「特定の実施形態」その他に別々に言及する場合は、必ずしも同じ実施形態（複数の場合もある）を指すとは限らず、これらの実施形態は、特にその旨が明記されている、または当業者にとって容易に明らかでないかぎり、相互に排他的ではない。「方法」または「複数の方法」その他への言及において単数形および／または複数形が使用されても、限定するものではない。

さらに、別段の明確な断りがなく、文脈により必要でないかぎり、「または」という単語は、本明細書において、非排他的な意味で使用されることに注意するべきである。

デジタルカメラにＧＰＳ（全地球測位システム）センサが搭載されていれば、撮影された個々の画像に関して、画像撮影の緯度、経度、時刻を収集することができる。さらに、撮影された個々の画像に関して、当業界で周知の技術を用いて、次のような情報を取得することができる。たとえば色やエッジヒストグラム等の低レベルの画像特徴、意味論的なオブジェクトとシーンの認識、オブジェクト検出器からの出力（たとえば顔）と画像分類器（屋内／屋外検出器、浜辺検出器等）からの出力、および同じ時間、同じ場所で撮影された画像（たとえば、同じイベントまたは同じ画像フォルダ内の画像）から得られるその他のコンテキスト情報。

図６は、本発明のある実施形態によるイベント認識のためのシステム１００を示している。システム１００は、データ処理システム１１０、周辺システム１２０、ユーザインタフェースシステム１３０、プロセッサアクセス可能メモリシステム１４０を備える。プロセッサアクセス可能メモリシステム１４０、周辺システム１２０、ユーザインタフェースシステム１３０は、データ処理システム１１０に通信可能に接続される。

データ処理システム１１０は、図１および図１Ａのプロセス例を含む本発明の各種の実施形態のプロセスを実行する、１つまたは複数のデータ処理デバイスを備える。「データ処理デバイス」または「データプロセッサ」という語句は、あらゆるデータ処理デバイスを含むものとされ、これにはたとえば、ＣＰＵ（中央処理ユニット）、デスクトップコンピュータ、ラップトップコンピュータ、メインフレームコンピュータ、個人用携帯情報端末、Ｂｌａｃｋｂｅｒｒｙ（商標）、デジタルカメラ、携帯電話または、データを処理し、データを管理し、デーを取り扱うその他のデバイスまたはその構成要素が含まれ、電気、磁気、光学、生物学的構成要素またはその他のいずれで実装されているかを問わない。

プロセッサアクセス可能メモリシステム１４０は、情報を保存するように構成された１つまたは複数のプロセッサアクセス可能メモリを含み、この情報とは、本明細書で説明する図１と図１Ａのプロセス例をはじめとする本発明の各種実施形態のプロセスを実行するのに必要な情報を含む。プロセッサアクセス可能メモリシステム１４０は、複数のコンピュータおよび／またはデバイスを介してデータ処理システム１１０に通信可能に接続された複数のプロセッサアクセス可能メモリを含む、分散型のプロセッサアクセス可能メモリシステムであってもよい。その一方で、プロセッサアクセス可能メモリシステム１４０は、分散型のプロセッサアクセス可能メモリである必要はなく、したがって、単独のデータプロセッサまたはデバイスの中に配置された１つまたは複数のプロセッサアクセス可能メモリであってもよい。

「プロセッサアクセス可能メモリ」という語句は、揮発性、不揮発性の電子、磁気、光またはその他のあらゆるプロセッサアクセス可能データ保存デバイスを含むものとし、たとえば、これらに限定されないが、レジスタ、フロッピー（登録商標）ディスク、ハードディスク、ＣｏｍｐａｃｔＤｉｓｃ、ＤＶＤ、フラッシュメモリ、ＲＯＭ、ＲＡＭであってよい。

「通信可能に接続される」という語句は、無線か有線かを問わず、デバイス、データプロセッサまたはプログラム間の、データが通信されてもよいあらゆる種類の接続を含むものとする。さらに、「通信可能に接続される」という語句は、単独のデータプロセッサ内のデバイスまたはプログラム間の接続、異なるデータプロセッサの中に配置されたデバイスまたはプログラム間の接続、およびデータプロセッサの中には配置されていないデバイス間の接続を含むものとする。この点に関して、プロセッサアクセス可能メモリシステム１４０はデータ処理システム１１０とは別に示されているが、当業者であれば、プロセッサアクセス可能メモリシステム１４０は、全体的または部分的にデータ処理システム１１０の中に格納されていてもよいことがわかるであろう。さらにこの点に関して、周辺システム１２０とユーザインタフェースシステム１３０はデータ処理ステム１１０とは別に示されているが、当業者であれば、これらのシステムの一方または両方が、全体的または部分的にデータ処理システム１１０の中に格納されていてもよいことがわかるであろう。

周辺システム１２０は、デジタル画像をデータ処理システム１１０に供給するように構成された１つまたは複数のデバイスを含んでいてもよい。たとえば、周辺システム１２０は、デジタルビデオカメラ、携帯電話、一般的なデジタルカメラまたはその他のデータプロセッサを含んでいてもよい。データ処理システム１１０は、周辺システム１２０の中のあるデバイスからデジタルコンテンツ記録(ｄｉｇｉｔａｌｃｏｎｔｅｎｔｒｅｃｏｒｄｓ)を受け取ると、そのデジタルコンテンツ記録をプロセッサアクセス可能メモリ１４０の中に保存してもよい。

ユーザインタフェースシステム１３０は、マウス、キーボード、別のコンピュータまたは、データ処理システム１１０へのデータの入力元となるあらゆるデバイスまたはデバイスの組み合わせを含んでいてもよい。この点に関して、周辺システム１２０はユーザインタフェースデバイス１３０とは別に示されているが、周辺システム１２０はユーザインタフェースシステム１３０の一部として含まれていてもよい。

ユーザインタフェースシステム１３０はまた、表示デバイス、プロセッサアクセス可能メモリまたは、データ処理システム１１０からのデータの出力先となるあらゆるデバイスまたはデバイスの組み合わせであってもよい。この点に関して、ユーザインタフェースシステム１３０がプロセッサアクセス可能メモリを内蔵している場合、図６ではユーザインタフェースシステム１３０とプロセッサアクセス可能メモリシステム１４０が別々に示されていても、これらのシステムはプロセッサアクセス可能メモリシステム１３０の一部であってもよい。

本発明は、画像分類、たとえば、人々が写真やビデオを撮影する一般的なイベントの自動認識等を容易にする。目標は、個人的な写真集合（一部はビデオを含んでいてもよい）から代表的なイベントを認識することであり、各イベントは、特定の環境で行われ、そのイベント中に撮影される以下の画像集合によって記録される具体的な人間の活動に対応する。
Ｅｉ＝｛Ｉｊ：ｊ＝１，２，…，ｎ｝
式中、Ｉｊは１枚の画像（またはビデオ）である。本発明の好ましい実施形態では、頻繁に発生し、合理的に示差的な視覚的特徴を有する１０種類のイベントまたは分類のリストを、Ｃ＝｛裏庭での活動、浜辺での活動、野球、誕生会、クリスマス行事、市内観光、ハイキング、ドライブ旅行、スキー、結婚式｝と定義する。これら以外のイベントを定義し、含めることもでき、当業者であれば、本発明が上記のイベントに限定されないことがわかるであろう。リストＣは、屋外と屋内の両方のイベントを含む。一般に、イベント認識はシーン認識より困難で、複雑であるが、それは、イベント認識にはより高レベルの意味論が関わり（Ｌ．−Ｊ．リとＬ．フェイフェイ、“Ｗｈａｔ，ｗｈｅｒｅａｎｄｗｈｏｃｌａｓｓｆｙｉｎｇｅｖｅｎｔｓｂｙｓｃｅｎｅａｎｄｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ” ｉｎＰｒｏｃ．ＩＥＥＥＩｎｔｌ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００７参照）、そのため、視覚的コンテンツがインスタンスごとに大きく異なる場合があり、分類器の性能を下げる原因となるからである。

本発明の実施形態で解決しようとする分類の問題は、次のように説明することができる。
入力：
視覚的イベントのデータベースは、ある分類器を設計するための教師データＤとして入力され、Ｄ＝｛Ｅｉ，１（Ｅｉ）｝であり、この式中、Ｅｉ＝｛Ｔｉ，ｊ，Ｉｉ，ｊ：ｊ＝１，２，…，｜Ｅｉ｜｝は、ある視覚的ベントを構成する画像セットを含む個々の画像フォルダ（群）を指し、｜Ｅｉ｜は、Ｅｉの大きさを指す。また、Ｔｉ，ｊ＝｛ｘｉ，ｊ，ｙｉ，ｊ，ｔｉ，ｊ｝は、その写真の２次元位置（ｘ，ｙ）と時間ｔのＧＰＳ記録であり、Ｉｉ，ｊは対応する画像である。集合的に、Ｔｉ，ｊのすべての記録がトレースＴｉを形成する。各画像フォルダに関して、Ｃの中の視覚的イベントクラス１（Ｅｉ）の１つで固有のラベルを付することができ、この場合、Ｃ＝｛裏庭での活動、浜辺での活動、野球、誕生会、クリスマス行事、市内観光、ハイキング、ドライブ旅行、スキー、結婚式｝である。画像Ｉｉ，ｊのすべてが、所属する群Ｅｉと同じラベルを共有する。教師データセットＤには、Ｃの中の各クラスについて十分なインスタンスが含まれているべきである。
出力：
新しい画像フォルダＥｉ＝｛Ｔｊ，ｊ，Ｉｉ，ｊ：ｊ＝１，２，…，｜Ｅｉ｜｝と学習された分類器に与えられるラベル１（Ｅｉ）、たとえば１（Ｅｉ）＝ハイキング

いずれのパターン分類の問題においても、高次元の特徴ベクトルを、事前に決定されたクラスのセットの１つに分類する必要がある。特徴間に冗長性があり、学習サンプルの数が限定されていることから、当初の高次元空間において１つの良好な分類器（最も可能性が高いのは、非線形分類器）を発見するのは困難であることが多い。これに対して、低次元特徴空間の中で多くの弱分類器を発見するほうが容易であり、この場合、発見された部分空間で構築された各分類器は、弱い分類ルールとしての役割を果たす。本発明のある実施形態では、有効な方法として、低次元空間で発見されたこれらの弱分類器を、多クラスブースティングによって組み合わせ、最終的な分類器を作る。ブースティングは当業界において周知であり、同様の他の手順を用いて最終的な分類器を作っても、本発明の範囲から逸脱しない。

図１に、本発明のある実施形態による、時間的に関係のある画像群を分類する方法が示されている。まず、ステップ１０で、撮影位置情報を有する、時間的に関係のある画像群を取得する。この画像群（本明細書では画像集合と呼ぶこともある）は、当業界で公知の技術により、時間的および位置的に関係のある写真群にすでに選別されているか、あるいは選別される。さらに、この画像集合には、ＧＰＳ受信センサを備えるデジタルカメラを使って、ジオタグが付けられていてもよい。あるいは、ジオタグが付された写真を、独立したＧＰＳ受信機と（たとえば、Ｂｌｕｅｔｏｏｔｈリンクを通じて）通信可能なデジタルカメラを使って取得することもできる。あるいはまた、撮影後に写真に手作業で座標タグを付けるか、写真をまとめてＧＰＳロギングデバイスと同期化させる方法もある。特定のイベントに対応するジオタグ付きの写真集合に関して、ステップ２０で、はじめにＧＰＳ座標とタイムスタンプ情報を抽出し、空間と時間のスパースなトレース(ｓｐａｒｓｅｔｒａｃｅ)を形成する。このトレースは、撮影位置のシーケンスと考えられる。位置情報を伴う写真が、時間的に関係のある画像群全体についてのトレースを形成するのに十分な量だけあれば、各写真が位置情報に関連付けられていることは必須でない点に注意されたい。

次にステップ３０で、トレースの特徴を計算し、トレースの形状または構造を特徴付ける。ステップ４０で、このようなトレースの特徴を使って、その集合についての対応するイベントまたは分類を推測する。推測は、撮影位置シーケンスに集合的に関連付けられた情報を、予想される撮影位置シーケンス特徴の複数のセットの各々と比較することによって行われ、各セットは、あるイベントの分類に関連付けられている。

ステップ２０−４０で位置シーケンストレースのような撮影位置シーケンス情報を使用することに加え、集合を分類するために、その集合の中の画像コンテンツ情報も任意で使用してよく、これがステップ５０−７０に示されている。特に、ステップ５０で画像コンテンツ、すなわち画素情報を個々の写真から抽出してもよく、次のステップ６０で、画像コンテンツから視覚的特徴を計算する。ステップ７０で、同じイベントの中の個々の写真すべてにより集合的に表される視覚的情報から、イベントまたは分類を推測することができる。ここでも、推測は、時間的に関係のある画像群に集合的に関連付けられる画像コンテンツ情報を、予想される画像コンテンツ特徴の複数のセットの各々と比較することによって行われ、各セットは、あるイベントの分類に関連付けられている。平行する２通りの推測経路があるため、ステップ８０では、トレース特徴と視覚的特徴から別々に得られた推測結果を組み合わせることにより、共同的にイベントを推測できる。

最後に、ステップ９０で、推測されたイベント情報を使って、大きなデータベースの中で特定のイベントの写真を検索するか、他の用途のために写真集合に注記を付けることができる。

図１Ａが示す別の方法では、ステップ８５において、トレース特徴と視覚的特徴の組み合わせ、すなわち複合情報から共同的にイベントを推測し、トレース特徴と視覚的特徴から別々に推測する中間のステップが省かれている。

いくつかの例により、本発明の性能が、視覚的情報だけを使用する場合よりどのように優れているかを示すことができる。ある人々のグループがドライブ旅行に出て、ある主要都市を通ったとする。また、彼らはその都市と路上で写真を撮影したとする。視覚的情報だけを使用した場合、視覚的分類器はおそらく、このイベントにおける多数の写真を「市内観光」として正しく分類するかもしれないが、イベント全体としては誤った特徴づけを行う可能性がある。しかしながら、撮影位置シーケンストレースがこれらの写真に関連付けられていれば、写真群全体が、（都市を通ってはいるが）ドライブ旅行として正しく分類される可能性が高くなる。情報を融合した結果、このイベントはドライブ旅行であると最終的に判断される（本発明で、ドライブ旅行のイベントに都市の写真が含まれる可能性があることが学習される点に注意されたい）。

別の例として、ある人々のグループが森にハイキングに行ったとする。裏庭の写真にも木々が含まれている可能性があるため、視覚的分類器は、これを裏庭でのイベントであると誤って判断するかもしれない。しかしながら、ここでも、その写真に撮影位置シーケンストレースが関連付けられていれば、本発明の実施形態が、イベント全体を裏庭のイベントではなくハイキングであると正しく判断する可能性が高くなる。

視覚的特徴しか適用できなかった従来の画像および視覚的イベント分類の問題とは異なり、本発明の実施形態は、（１）ＧＰＳ特徴と（２）視覚的特徴という２種類の特徴を利用する。特に、ＧＰＳ特徴は、同じイベントに関係のある画像集合に対して定義されるため、個々の１枚の画像だけでなく、画像集合全体の特徴である。本発明の文脈内では、写真集合は、フォルダとも呼ばれる。

図１に関して述べたスパースなトレースは、各種のイベントを差別化する上で非常に有益となりうる。図２にまとめるように、単純に空間的範囲と移動速度だけによって、イベントを、それぞれ前述のようなラベルに関連付けられるクラスタにまとめることができる。本発明の実施形態は、写真が、当業界で周知の技術により、時間と位置において関係のある写真群に事前に選別されていることを前提としてもよい。市内観光、ハイキング、ドライブ旅行等のイベントは大きな空間的範囲にわたり、これに対して裏庭、浜辺、野球、ピクニック、結婚式のイベントは、空間的に制約されている傾向がある。ドライブ旅行であれば、人々はかなり高速で移動するが、市内観光、ハイキング、裏庭、浜辺、野球、ピクニック、結婚式での移動ははるかに遅い。範囲や速度よりもっと高度な特徴を設計して、トレースの形状や構造を特徴付けることができる。

記録されたＧＰＳ情報に基づき、各画像フォルダは、空間−時間トレースで表され、Ｔｉ＝｛（ｘｉ，ｊ，ｙｉｊ，Ｔｉ，ｊ）｜，ｊ＝１，…，｜Ｔｉ｜｝となり、式中、｜Ｔｉ｜はフォルダの大きさ、すなわち画像の数に等しい。空間−時間領域における点のシーケンスは、そのもとになる画像撮影中の撮影者の移動を示すものとなる。このシーケンス単独で、空間−時間の中のその点において撮影された、対応する画像とは無関係に、イベント認識作業のための情報となる。図３と図４は、それぞれ、数回の市内観光イベントとハイキングイベントに関するＧＰＳトレースを示している。これらのトレースは、分類器を指定するための教師データＤに使用してもよく、上述の分類問題の「入力」の部分とされる。注目すべき点は、これら２種類のイベントのトレースの形状特徴は相互に大きく異なるが、それと同時に、同じ種類のトレースは同様に見えることである。どちらのイベントも、空間と時間において比較的広い範囲にわたるが、市内観光のトレースのほうがトレースの形状の規則性が高く、これはもとになる都市の街区と街路の構造による。比較すると、ハイキングのトレースは、ジグザグの動きとすることもできるが、よりランダムで任意に見える。言い換えると、同じ種類のイベントに関する異なる移動インスタンスの中に構造的な類似性がある一方で、異なる種類のイベントに対応する移動の間には構造的な相違がある。

上記のような空間−時間トレースを考慮し、本発明の好ましい実施形態では、ステップ５０において、次の１３種類の特徴がトレースの形状または構造を表すものとして抽出され、それらの異なる重要性は学習によって決定され、一般性を損なうことなく［０．０，１．０］の範囲内とされる。
エントロピー（特徴２つ）：時間および空間領域
重心までの距離（特徴１つ）
分散（特徴２つ）：時間および空間領域
歪度（特徴２つ）：時間および空間領域
尖度（特徴２つ）：時間と空間領域
空間的範囲（特徴１つ）と時区間（特徴１つ）
トレース長さ（特徴１つ）と平均速度（特徴１つ）

たとえば、以下に、上記の空間的範囲と空間的分散を定義する。（１）トレースＴｉの空間的範囲ＳＲ（Ｔｉ）は、視覚的イベントの活動の空間的範囲を説明する：
ＳＲ（Ｔ）＝（ｍａｘ｛ｘｊ｜ｘｊ∈Ｔ｝−ｍｉｎ｛ｘｊ｜ｘｊ∈Ｔ｝）×（ｍａｘ｛ｙｊ｜ｙｊ∈Ｔ｝−ｍｉｎ｛ｙｊ｜ｙｊ∈Ｔ｝）（１）
（２）トレースの空間分散ＳＶ（Ｔｉ）は、活動の空間的分散を説明する：

他の種類の特徴は低レベルの視覚的特徴であり、これらはステップ６０において画像から計算される。視覚的ボキャブラリは、たとえばシーン認識のための視覚認識システムを構築するための有効な方法であることがわかっている（Ｓ．ラゼブニック、Ｃ．シュミット、Ｊ．ポンス、“Ｂｅｙｏｎｄｂａｇｓｏｆｆｅａｔｕｒｅｓ：ｓｐａｔｉａｌｐｙｒａｍｉｄｍａｔｃｈｉｎｇｆｏｒｒｅｃｏｇｎｉｚｉｎｇｎａｔｕｒａｌｓｃｅｎｅｃａｔｅｇｏｒｉｅｓ”ｉｎＰｒｏｃ．ＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００６参照）。画像は、固定されたグリッドによって分けられ、画像パッチの順序付けされないセットとして表される。このような画像パッチについての適当な記述文が計算され、値域にまとめられて、「視覚的ボキャブラリ」が形成される。本発明の実施形態において、これと同じ方法を採用し、各画像グリッドを特徴付けるための色とテクスチャの両方の特徴を考慮するように拡張してもよい。

本発明のある実施形態において、色の特徴を抽出するために、１つの画像グリッドをさらに２×２の等しい大きさのサブグリッドに分ける。次に、各サブグリッドについて、Ｒ，Ｇ，Ｂの平均値を抽出して、４×３＝１２の特徴ベクトルを形成し、これが４つのサブグリッドの色情報を特徴付ける。テクスチャ特徴を抽出するために、各サブグリッドにおいて、方向に関する８つの値域を有する２×２のアレイからなるヒストグラムを計算する。したがって、４×８＝３２次元のＳＩＦＴ記述子を用いて、各画像グリッド内の構造を特徴付けるが、これはラゼブニックの考え方と似ている。本発明のある実施形態において、画像が２００ｋ画素より大きければ、これをまず２００ｋ画素の大きさに変える。次に、１６×１６の画像グリッドサイズを設定し、重複するサンプリング間隔を８×８とする。一般に、１つの画像からそのようなグリッドが１１７できる。

画像グリッドからすべての未加工の画像特徴を抽出した後に、本発明の実施形態において、教師データベースの中のすべての画像グリッドを、ｋ−ｍｅａｎｓクラスタリングを通じてクラスタリングすることにより、別の色およびテクスチャのボキャブラリを構築する。どちらのボキャブラリも、５００の大きさに設定される。あるイベントの中の全グリッドを累積させる（画像集合）ことによって、各イベントについて２つの正規化されたヒストグラム、すなわち、それぞれ色およびテクスチャのボキャブラリの単語分布に対応するｈｃとｈｔが得られる。ｈｃとｈｔを連結すると、その結果として、正規化された単語ヒストグラム、

となる。ヒストグラムの中の各値域は、対応する単語の発生頻度を示す。したがって、特徴ベクトルｆの応答は、以下のようになる。

式中、０＜θｉ＜１は量子化閾値である。簡略化された指数関数を考えると、ｆｉは、そのイベント中にｉ番目の単語Ωが十分頻繁に発生する場合には正の応答を示し、それ以外の場合の応答はｎｕｌｌとなる。視覚的ボキャブラリにはΩｃとΩｔの２種類があり、Ωｃは色のプリミティブ、Ωｔはテクスチャのプリミティブである。完全なボキャブラリをΩ＝Ωｃ∪Ωｔとして、色およびテスクチャの両方の情報を表すように、視覚的特長を計算することができる。

低レベルの視覚的特徴のほかに、オブジェクトおよびシーン検出から得られる意味論的な視覚的特徴も考えることができる。各画像につき、シーンカテゴリのセット、
Ｓ＝｛屋外、人工、浜辺、夕日、山、…｝
と、オブジェクトカテゴリのセット、
Ｏ＝｛草、青い空、砂、雪、…｝
を定義することができる。

上記のようなシーンとオブジェクトに関するバイナリＳＶＭ分類器のセットを構築できることはよく知られており、たとえばラゼビニックを参照されたい。決定論的判断を下すのではなく、本発明の好ましい実施形態では、ある画像がある特定のオブジェクトかシーンを含んでいるか否かを示すために、［０，１］からの範囲の確率論的スコアを保持する。各画像には、複数のシーンまたはオブジェクトラベルが付けられてもよいことに注意されたい。したがって、各画像Ｉに関して、結果は各数値が［０，１］の範囲のｋ次元の実数値特徴ベクトルとなり、ｋはシーンとオブジェクトのカテゴリの総和に等しく、各数値はそれぞれのＳＶＭ分類器からの検出スコアに対応する。

視覚的特徴が計算されると、指数損失を用いた段階的加法モデリング（ＳＡＭＭＥ）と呼ばれる多クラスＡｄａＢｏｏｓｔ法を使って、教師データセットＤの中の画像を用いる視覚的分類器と、教師セットＤの中の撮影位置シーケンストレースを用いる撮影位置シーケンストレース分類器を構築することができる。ＳＡＭＭＥの詳細は、（Ｊ．ズー(Ｚｈｕ)、Ｓ．ロセット、Ｈ．ゾウ(Ｚｏｕ)、Ｔ．ヘイスティ“Ｍｕｌｔｉ−ｃｌａｓｓＡｄａｂｏｏｓｔ”，ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ２００５，ＳｔａｎｆｏｒｄＵｎｉｖｅｒｓｉｔｙ”）に記載されている。ＳＡＭＭＥは、Ｋバイナリ分類器ではなく、１つのＫクラス分類器を構築することによって、Ｋクラス問題を直接取り扱う。ＳＡＭＭＥを用いる解決法はベイズの分類法則と一致しており、したがって、誤分類のエラーを最小限にするのに最適である。

人気のある融合方式（たとえば、ブースティング）は、多くの弱分類器を線形に組み合わせて、強分類器を作っている。最終的な決定は、

となる。式中、ｗ_ｉは最適化が必要な重み、ｈ_ｉ（Ｄ_ｑ）∈｛０，１｝は、弱分類器ｈ_ｉ（Ｄ_ｑ）からの応答を示す。

トレースの特徴、低レベルの視覚的特徴および意味論的な視覚的特徴の各々に関する個々の分類器が構築されたところで、本発明は、平行して行われるこれら分類の結果を、情報融合によって組み合わせる。ナイーブな融合方式の場合、たとえば、８つのイベントクラスに関して、以下を計算することができる。
ＧＰＳ出力：ｈｇ（Ｘ）＝［４．２０．００．５４．９０．００．００．００．７］
視覚的出力：ｈｖ（Ｘ）＝［１．２０．７４．１１．７３．１０．０２．００．０］
−出力の総和：ｈ（Ｘ）＝ｈｇ（Ｘ）＋ｈｖ（Ｘ）（５）
ｈ（Ｘ）＝［５．４０．７５．６６．６３．１０．０２．００．７］
この場合、予想されるラベル＝ａｒｇｍａｘｈ（Ｘ）＝４となる。

本発明の好ましい実施形態において、各クラスの信頼性は、ベイジアンネットワークを使った確率論的融合と同種の、確率に基づく融合を通じて得られ、すなわち、
ｈ（Ｘ）＝Ｗｇ×ｈｇ（Ｘ）＋Ｗｖ×ｈｖ（Ｘ）（６）
となる。

重みまたは信頼度は、対応する分類モード（トレース、視覚、意味論）の分類表に基づいて計算することができる。分類表は当業界においてよく知られており、これは、各クラスの（各行の）サンプルが、考えられるクラスの（各列の）各々にどのように分類されるかを表している。したがって、良い分類器が有する分類表では、ゼロ以外の数値が表の対角線に沿って集中しているはずである。図５に示される、あるモードの８クラス分類問題の分類表の例を用いると、このモードの第一のクラスの重みは、次のように計算される。
Ｗｇ（１）＝５／（５＋２＋４＋０＋１＋２＋０＋１）＝１／３（７）
式中、分母は第一列の総和である。簡単に言えば、このモードのクラス１に分類された１５のサンプルのうち、実際にクラス１に属するのは５つであるため、信頼度は１／３となる。

本発明は、特定の好ましい実施形態を特に参照して詳細に説明したが、本発明の精神と範囲の中で変形版や改変形を実現できることが理解されるであろう。

１０ステップ：ジオタグ付きの写真集合を取得する。
２０ステップ：ジオタグ付きの写真からのＧＰＳ座標とそれらのタイムスタンプ情報を抽出して、トレースを作成する。
３０ステップ：トレースからトレース特徴を計算する。
４０ステップ：トレース特徴から、対応するイベントを推測する。
５０ステップ：個々の写真の画像コンテンツを抽出する。
６０ステップ：画像コンテンツから視覚的特徴を計算する。
７０ステップ：写真集合の視覚的特徴から、対応するイベントを推測する。
８０ステップ：トレース特徴と視覚的特徴から別々に推測された結果を組み合わせることにより、合同でイベントを推測する。
８５ステップ：トレース特徴と視覚的特徴から、合同でイベントを推測する。
９０ステップ：推測されたイベントに関する写真集合を検索／整理する。

Claims

少なくとも一部がデータ処理システムにより実行され、時間的に関係のある画像群の分類を容易にする方法であって、
前記時間的に関係のある画像群から、撮影位置シーケンスを特定するステップと、
前記撮影位置シーケンスに集合的に関連付けられている撮影位置シーケンス情報を、予め決められた撮影位置シーケンスの特徴の複数のセットの各々であって、予め決められた分類に関連付けられているセットの各々と比較するステップと、
少なくとも前記比較ステップからの結果に基づいて、前記時間的に関係のある画像群に関連付けられる、特定された分類を特定するステップと、
前記特定された分類をプロセッサアクセス可能メモリシステムの中に保存するステップと、
を含むことを特徴とする方法。
請求項１に記載の方法であって、
前記撮影位置シーケンスは、少なくとも前記群の中の画像の少なくともいくつかに関連付けられているＧＰＳ情報に基づいて特定されることを特徴とする方法。
請求項１に記載の方法であって、
前記時間的に関係のある画像群に集合的に関連付けられている画像コンテンツ情報を、予め決められた画像コンテンツの特徴の複数のセットの各々であって、予め決められた分類に関連付けられているセットの各々と比較するステップをさらに含み、
前記特定するステップは、少なくとも前記２つの比較ステップからの結果に基づいて、前記特定された分類を特定することを特徴とする方法。
請求項１に記載の方法であって、
前記特定された分類は、前記予め決められた分類の１つから特定されることを特徴とする方法。
請求項１に記載の方法であって、
撮影位置シーケンス情報は、前記撮影位置シーケンスのトレースを含むことを特徴とする方法。
請求項５に記載の方法であって、
前記トレースには、空間および時間領域が含まれることを特徴とする方法。
請求項５に記載の方法であって、
前記トレースの特徴を判断するステップをさらに含み、前記特徴は前記トレースによって表される空間的範囲か、前記トレースによって表される移動速度に関係し、前記比較ステップには、前記特徴を、前記予め決められた撮影位置シーケンスの特徴のセットのうちの少なくとも１つにおいて表される、対応する数値または数値範囲と比較するステップを含むことを特徴とする方法。
請求項５に記載の方法であって、
前記トレースの特徴を判断するステップをさらに含み、前記特徴はエントロピー、重心までの距離、分散、歪度、尖度、空間範囲、時区画、長さまたは速度に関係し、前記比較ステップには、前記特徴を、前記予め決められた撮影位置シーケンスの特徴のセットのうちの少なくとも１つにおいて表される、対応する数値または数値範囲と比較するステップを含むことを特徴とする方法。
請求項１に記載の方法であって、
前記予め決められた分類には、ハイキングと市内観光が含まれることを特徴とする方法。
請求項９に記載の方法であって、
前記予め決められた分類には、結婚式、野球、裏庭での活動、浜辺での活動、ドライブ旅行、ピクニック、クリスマス行事、誕生会がさらに含まれることを特徴とする方法。
データ処理システムに、時間的に関係のある画像群の分類を容易にするための方法を実行させるように構成された命令を記憶するプロセッサアクセス可能メモリシステムであって、前記命令は、
前記時間的に関係のある画像群から、撮影位置シーケンスを特定させる命令と、
前記撮影位置シーケンスに集合的に関連付けられている撮影位置シーケンス情報を、予め決められた撮影位置シーケンスの特徴の複数のセットの各々であって、予め決められた分類に関連付けられているセットの各々と比較させる命令と、
少なくとも前記比較ステップからの結果に基づいて、前記時間的に関係のある画像群に関連付けられる、特定された分類を特定させるステップと、
前記特定された分類をプロセッサアクセス可能メモリシステムの中に保存させるステップと、
を含むことを特徴とするプロセッサアクセス可能メモリシステム。
請求項１１に記載のプロセッサアクセス可能メモリシステムであって、
前記撮影位置シーケンス情報には、撮影位置シーケンスのトレースが含まれることを特徴とするプロセッサアクセス可能メモリシステム。
請求項１２に記載のプロセッサアクセス可能メモリシステムであって、
前記トレースには、空間および時間領域が含まれることを特徴とするプロセッサアクセス可能メモリシステム。
請求項１２に記載のプロセッサアクセス可能メモリシステムであって、
前記トレースの特徴を判断するステップをさらに含み、前記特徴は前記トレースによって表される空間的範囲か、前記トレースによって表される移動速度に関係し、前記比較ステップには、前記特徴を、前記予め決められた撮影位置シーケンスの特徴のセットのうちの少なくとも１つにおいて表される、対応する数値または数値範囲と比較するステップを含むことを特徴とするプロセッサアクセス可能メモリシステム。
請求項１２に記載の方法であって、
前記トレースの特徴を判断するステップをさらに含み、前記特徴はエントロピー、重心までの距離、分散、歪度、尖度、空間範囲、時区画、長さまたは速度に関係し、前記比較ステップには、前記特徴を、前記予め決められた撮影位置シーケンスの特徴のセットのうちの少なくとも１つにおいて表される、対応する数値または数値範囲と比較するステップを含むことを特徴とするプロセッサアクセス可能メモリシステム。
データ処理システムと、
前記データ処理システムに通信可能に接続され、前記データ処理システムに、時間的に関係のある画像群の分類を容易にする方法を実行させるように構成された命令を記憶するメモリシステムと、
を含むシステムであって、前記命令は、
前記時間的に関係のある画像群から、撮影位置シーケンスを特定させる命令と、
前記撮影位置シーケンスに集合的に関連付けられている撮影位置シーケンス情報を、予め決められた撮影位置シーケンスの特徴の複数のセットの各々であって、予め決められた分類に関連付けられているセットの各々と比較させる命令と、
少なくとも前記比較ステップからの結果に基づいて、前記時間的に関係のある画像群に関連付けられる、特定された分類を特定させるステップと、
前記特定された分類をプロセッサアクセス可能メモリシステムの中に保存させるステップと、
を含むことを特徴とするシステム。
請求項１６に記載のメモリシステムであって、
前記撮影位置シーケンス情報には、前記撮影位置シーケンスのトレースが含まれることを特徴とするメモリシステム。
請求項１７に記載のメモリシステムであって、
前記トレースには、空間および時間領域が含まれることを特徴とするメモリシステム。
請求項１７に記載のメモリシステムであって、
前記トレースの特徴を判断するステップをさらに含み、前記特徴は前記トレースによって表される空間的範囲か、前記トレースによって表される移動速度に関係し、前記比較ステップには、前記特徴を、前記予め決められた撮影位置シーケンスの特徴のセットのうちの少なくとも１つにおいて表される、対応する数値または数値範囲と比較するステップを含むことを特徴とするメモリシステム。
請求項１７に記載の方法であって、
前記トレースの特徴を判断するステップをさらに含み、前記特徴はエントロピー、重心までの距離、分散、歪度、尖度、空間範囲、時区画、長さまたは速度に関係し、前記比較ステップには、前記特徴を、前記予め決められた撮影位置シーケンスの特徴のセットのうちの少なくとも１つにおいて表される、対応する数値または数値範囲と比較するステップを含むことを特徴とするメモリシステム。