JP5018614B2

JP5018614B2 - 画像処理方法、その方法を実行するプログラム、記憶媒体、撮像機器、画像処理システム

Info

Publication number: JP5018614B2
Application number: JP2008106546A
Authority: JP
Inventors: 啓司柳井
Original assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS
Current assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS
Priority date: 2008-04-16
Filing date: 2008-04-16
Publication date: 2012-09-05
Anticipated expiration: 2028-04-16
Also published as: JP2009258953A

Description

本発明は、画像処理方法、およびその方法を実行するプログラム、記憶媒体、撮像機器、画像処理システムに関する。詳しくは、画像内の認識対象（被写体）を分類するための画像処理技術に関する。

近年、デジタルカメラ、カメラ付き携帯電話などの普及や、ハードディスク、その他記憶媒体の大容量化によって、一般の個人が大量にデジタル画像を保有、蓄積することが出来るようになった。
しかしながら、撮影されたデジタル画像の蓄積先、例えば、パーソナル・コンピュータ（ＰＣ）、デジタルカメラ、カメラ付き携帯電話などのデジタル機器は、撮影、蓄積された画像中の被写体（認識対象）を判別する機能をもっていない。
よって、画像の取り扱いに関するデジタル機器と人とのセマンティックギャップは狭まることはなく、現状では、大量の画像データの分類や検索には、人手の介入が不可欠である。
人手により、撮影画像の内容に関するメタデータを記述することも可能であるが、手間がかかるため、撮影した画像すべてに意味、内容等に関するメタデータを記載することは、現実的ではない。

画像の意味、内容に基づく処理を人手の介入なしに実現するためには、被写体、例えば、「ライオン」「自動車」「花」「山」「夕焼け」などの一般的な対象の認識（一般画像認識）を行なう必要がある。
現実世界で撮影された画像に対して、コンピュータなどのデジタル機器が、その画像中に含まれる被写体を一般的な名称で認識することを「一般物体認識（generic object recognition）」と呼び、画像認識の研究において最も重要な課題の一つである（例えば、非特許文献１、２など参照）。

一般に、現実世界で撮影された画像に対する物体認識には、大きく分けて、identification（同定）と、classification（分類）の、２種類の認識がある。
identificationは個々の物体（the object）を区別する認識であり、入力された画像とデータベース中のモデルの照合を行い、どのモデルに対応する物体が画像中に存在するかどうかを出力結果とする。
一方、classificationは物体の種類（an object）を区別する認識で、人間が決めた分類（class）と画像中の物体（被写体）とを対応付け、物体のクラス名（多くの場合は一般名称）を出力結果とする。
「物体認識」はidentificationを指すのが一般的であるが、「一般物体認識」はclassificationの認識を意味するものであり、本明細書においても、これらの用語の定義に基づいて説明する。

現在、デジタル画像に対する「一般物体認識」の研究が急速に進歩しつつある。ここでいう「一般物体認識」での対象画像とは、例えば、デジタルカメラやカメラ付携帯電話などで撮影したデジタル写真などの画像であり、認識対象はそうした画像中の「ライオン」「自動車」「花」「山」「夕焼け」などの各種の物体やシーンなどの被写体である。

「一般画像認識」では、画像のみの持つ情報（画像データ）から認識するのが最も基本的な方法であるが、近年においては、デジタル画像の撮影時に、デジタルカメラもしくはカメラ付き携帯電話によって自動的に埋め込まれた付加情報（メタデータ）を、認識に利用する研究が提案されている。
例えば、撮影された時間を用いれば、画像データだけでは難しい、「夕日」であるか「朝日」であるかの区別は、容易に行うことが可能となる。

また、非特許文献３に示されたように、メタデータとして、撮影時間のほか、撮影時におけるフラッシュの利用の有無や、レンズの焦点距離等のデータを、画像認識に利用する提案がなされている。しかし、従来の各種文献等においては、位置情報の利用について開示されていない。
メタデータ中の重要な情報として、位置情報がある。位置情報は通常ＧＰＳ（Global Positioning System）によって取得するが、最近のデジタルカメラや携帯電話にはＧＰＳが内蔵されたものもあり、撮影した画像に位置情報を、メタデータとして埋め込むことが可能な撮像機器が多く登場している。

また、独立したＧＰＳデバイスをデジタルカメラと一緒に持ち歩くことによって、撮影時の位置情報を記録し、ＰＣ（パーソナル・コンピュータ）により、デジタル画像のファイルに、付加情報として位置情報を埋め込むことも可能である。
また、画像ファイル中の位置情報を、画像認識に利用することも一部で試みられている（例えば、特許文献１参照）。

しかし、位置情報は緯度経度の２つの数値のみからなる情報であり、それ自体では一般物体認識の手がかりに利用することは困難であり、はかばかしい成果を挙げていない。この困難さは、位置情報を、どのように認識の手がかりとして利用するかが簡単でないとの問題に起因するものである。

柳井啓司：「一般物体認識の現状と今後」、情報処理学会コンピュータビジョン・イメージメディア研究会招待講演予稿、CVM2006、CVM155-17(2006年) 柳井啓司：「一般物体認識の現状と今後」、情報処理学会論文誌：コンピュータビジョン・イメージメディア、Vol.48, No.SIG16(CVIM19), pp.1-24, 2007. M. Boutell and J. Luo：Bayesian Fusion of Camera Metadata Cues in Semantic Scene Classification, Proceeding of Computer Vision and Pattern Recognition, pp. 623-630, 2004. 特開２００７−４１７６２号（第１８頁、第４図）

このような事情に鑑み、本発明は、認識対象画像の分類に際し、認識対象画像と併せて、撮影位置付近の航空写真画像および地図画像を画像認識の手がかりの一部として利用することで、画像の認識精度を向上させることを目的とする。

また、本発明は、デジタルカメラやカメラ付き携帯電話で撮影した位置情報付きのデジタル写真の自動分類、検索を可能にすることを目的とする。

さらに、本発明は、デジタルカメラやカメラ付携帯電話で撮影した画像の自動タグ付け、自動説明文生成、自動アルバム作成といった、様々な応用を可能にすることを目的とする。

本発明者等は、画像が撮影された場所の位置情報が、時間情報などと比較して、一般物体認識のための大きな手がかりとなることに着目した。例えば、「海」の画像は海の近くでなければ撮影できないし、「ライオン」の画像は、アフリカでの撮影である等の特別な状況を除いて、動物園以外では撮影することがほとんどできない。

このような着目に基づき本発明者等は鋭意検討を続け、認識対象の画像特徴量と併せて、撮影場所の位置情報を示す航空写真または地図の画像情報の画像特徴量を用いることで、一般画像認識の精度を向上させることができるとの知見を得て、本発明を完成するに至った。

すなわち、本発明は、画像内の認識対象を分類するための分類器を用いて、認識対象画像における前記認識対象を分類する認識処理を含む画像処理方法であって、基本的には、
認識対象画像を入力するステップ（Ｓ１０５）と、
前記認識対象画像の撮影位置に対応する航空写真画像および／または地図画像から小領域パッチ画像を生成するステップ（Ｓ１１０）と、
前記分類器を用いて認識結果を得るステップ（Ｓ１３５）と、
前記認識対象画像における認識対象の有無を判断するステップ（Ｓ１４０、Ｓ１４５、Ｓ１５０）と、
を含むことを特徴とする。

また、さらに、
前記小領域パッチ画像に基づき画像特徴量を抽出するステップ（Ｓ１１５）と、
前記抽出された画像特徴量からヒストグラムを作成するステップ（Ｓ１２０）と、
前記作成されたヒストグラムに最も近い特徴ベクトルをコードブックより選択するステップ（Ｓ１２５）と、
前記選択された特徴ベクトルを正規化するステップ（Ｓ１３０）と、
を備えたことを特徴としてもよい。

前記小領域パッチ画像を生成するステップ（Ｓ１１０）が、前記航空写真画像および／または地図画像から生成された、一つの画像から小領域パッチ画像を生成するステップであるとしてもよい。

前記小領域パッチ画像を生成するステップ（Ｓ１１０）が、前記航空写真画像および／または地図画像から生成された、縮尺の異なる複数の画像から小領域パッチ画像を生成するステップであるとしてもよい。

前記小領域パッチ画像を生成するステップ（Ｓ１１０）が、前記認識対象画像、および、前記航空写真画像および／または地図画像から生成された、縮尺の異なる複数の画像から前記小領域パッチ画像を生成するステップであるとしてもよい。

前記ヒストグラムを作成するステップ（Ｓ１２０）が、前記抽出された複数の画像特徴量から生成されたそれぞれのヒストグラムを連接して、一つのヒストグラムを生成するステップであるとしてもよい。

前記ヒストグラムを作成するステップ（Ｓ１２０）が、前記認識対象画像の画像特徴量から生成されたヒストグラムと、前記小領域パッチ画像の画像特徴量から生成されたヒストグラムと、を連接して、一つのヒストグラムを生成するステップであるとしてもよい。

また、前記分類器が、学習画像および該学習画像の分類を入力するステップ（Ｓ９１）と、
前記学習画像の撮影位置に対応する航空写真画像および／または地図画像から小領域パッチ画像を生成するステップ（Ｓ９２）と、
前記分類器を作成するステップ（Ｓ９６）と、
によって生成されてもよい。

また、さらに、
前記学習画像の撮影位置に対応する航空写真画像および／または地図画像から小領域パッチ画像を生成するステップ（Ｓ９２）と、
前記小領域パッチ画像の画像特徴量を抽出するステップ(Ｓ９３)と、
前記抽出された画像特徴量からコードブックを作成するステップ（Ｓ９４）と、
前記コードブックを用いて、前記抽出された画像特徴量からヒストグラムを作成するステップ（Ｓ９５）と、を備えてもよい。

前記小領域パッチ画像を生成するステップ（Ｓ９２）が、前記学習画像の撮影位置に対応する、縮尺の異なる複数の航空写真画像および／または地図画像から、縮尺の異なる複数の小領域パッチ画像を生成するステップ（Ｓ９２）であるとしてもよい。

前記小領域パッチ画像を生成するステップ（Ｓ９２）が、前記学習画像の撮影位置に対応する航空写真画像および／または地図画像から一つの小領域パッチ画像を生成するステップ（Ｓ９２）であるとしてもよい。

前記小領域パッチ画像を生成するステップ（Ｓ９２）が、前記認識対象画像、および、前記航空写真画像および／または地図画像から生成された、縮尺の異なる複数の画像から前記小領域パッチ画像を生成するステップであるとしてもよい。

前記ヒストグラムを作成するステップ（Ｓ９５）が、前記抽出された複数の画像特徴量から生成されたそれぞれのヒストグラムを連接して、一つのヒストグラムを生成するステップであるとしてもよい。

前記ヒストグラムを作成するステップ（Ｓ９５）が、前記認識対象画像の画像特徴量から生成されたヒストグラムと、前記小領域パッチ画像の画像特徴量から生成されたヒストグラムと、を連接して、一つのヒストグラムを生成するステップであるとしてもよい。

前記航空写真画像および／または地図画像が、ネットワークを介してアクセス可能なデータベースに格納されていることとしてもよい。

前記認識対象画像が位置情報を保有しており、該位置情報に基づき、前記航空写真画像および／または地図画像を、前記認識対象画像と対応させることとしてもよい。

前記した画像処理方法を、コンピュータ、または画像分類機能付き撮像機器、または画像処理システム、に実行させるための画像処理用プログラムとして実現することもできる。

前記した画像処理用プログラムを、コンピュータにより読み出され実行可能なプログラムとして記憶した記憶媒体として提供することもできる。

前記の画像処理方法を実行可能に構成された、画像分類機能付き撮像機器として提供することもできる。

また、本発明は、画像内の認識対象を分類するための分類器と、認識対象画像における前記認識対象を分類する画像認識手段と、を備えた画像処理システムであって、基本的には、
前記画像認識手段は、
認識対象画像を入力する入力部と、
前記認識対象画像の撮影位置に対応する航空写真画像および／または地図画像から小領域パッチ画像を生成する小領域パッチ画像生成部と、
前記分類器を用いて認識結果を得る認識結果取得部と、
前記認識対象画像における認識対象の有無を判断する判断部と、
を有することを特徴とする。

また、さらに、
画像特徴量を抽出する画像特徴量抽出部と、
前記画像特徴量抽出部から抽出された画像特徴量からヒストグラムを作成するヒストグラム作成部と、
前記作成されたヒストグラムに最も近い特徴ベクトルをコードブックより選択する特徴ベクトル選択部と、
前記特徴ベクトル選択部から選択された特徴ベクトルを正規化する正規化部と、
前記正規化部により正規化された特徴ベクトルに基づき、前記分類器を用いて認識結果を得る認識結果取得部と、を有することとしてもよい。

前記画像特徴量抽出部は、前記小領域パッチ画像生成部により生成された一つの小領域パッチ画像の画像特徴量を抽出することとしてもよい。

前記画像特徴量抽出部は、前記小領域パッチ画像生成部により生成された縮尺の異なる複数の小領域パッチ画像の画像特徴量をそれぞれ抽出し、
前記ヒストグラム作成部は、前記画像特徴量抽出部により抽出された複数の画像特徴量から生成されたそれぞれのヒストグラムを連接して、一つのヒストグラムを生成することとしてもよい。

前記画像特徴量抽出部は、前記認識対象画像の画像特徴量を抽出すると共に、前記小領域パッチ画像の画像特徴量を抽出し、
前記ヒストグラム作成部は、前記認識対象画像の画像特徴量から生成されたヒストグラムと、前記小領域パッチ画像の画像特徴量から生成されたヒストグラムと、を連接して一つのヒストグラムを生成することとしてもよい。

前記分類器は、
学習画像および該学習画像の分類を入力する手段と、
前記学習画像の撮影位置に対応する航空写真画像および／または地図画像から小領域パッチ画像を生成する手段と、
前記小領域パッチ画像を用いて分類器を作成する手段と、
によって生成されることとしてもよい。

前記分類器は、
学習画像および該学習画像の分類を入力する手段と、
前記学習画像の撮影位置に対応する航空写真画像および／または地図画像から小領域パッチ画像を生成する手段と、
前記小領域パッチ画像の画像特徴量を抽出する手段と、
前記抽出された画像特徴量からコードブックを作成する手段と、
前記コードブックを用いて、前記抽出された画像特徴量からヒストグラムを作成する手段と、
前記ヒストグラムを用いて分類器を作成する手段と、
によって生成されることとしてもよい。

前記分類器は、
学習画像および該学習画像の分類を入力する手段と、
前記学習画像の撮影位置に対応する、縮尺の異なる複数の航空写真画像および／または地図画像から、縮尺の異なる複数の小領域パッチ画像を生成する手段と、
前記複数の小領域パッチ画像の画像特徴量をそれぞれ抽出する手段と、
前記抽出された複数の画像特徴量からコードブックを作成する手段と、
前記コードブックを用いて、前記抽出された複数の画像特徴量からそれぞれのヒストグラムを作成し、これらヒストグラムを連接して一つのヒストグラムを生成する手段と、
前記一つのヒストグラムを用いて分類器を作成する手段と、
によって生成されることとしてもよい。

前記分類器は、
学習画像および該学習画像の分類を入力する手段と、
前記学習画像の撮影位置に対応する航空写真画像および／または地図画像から一つの小領域パッチ画像を生成する手段と、
前記学習画像および前記小領域パッチ画像の画像特徴量をそれぞれ抽出する手段と、
前記抽出された複数の画像特徴量からコードブックを作成する手段と、
前記コードブックを用いて、前記抽出された複数の画像特徴量からそれぞれのヒストグラムを作成し、これらヒストグラムを連接して一つのヒストグラムを生成する手段と、
前記一つのヒストグラムを用いて分類器を作成する手段と、
によって生成されることとしてもよい。

前記航空写真画像および／または地図画像が、ネットワークを介してアクセス可能なデータベースに格納されていることが望ましい。また、前記認識対象画像が位置情報を保持しているように構成することもできる。

本発明によれば、認識対象画像の分類に際して、認識対象画像と併せて、撮影位置付近の航空写真画像および地図画像を画像認識の手がかりの一部として利用することにより、一般画像認識の精度を向上させることが可能となる。

また、本発明によれば、前記利点の応用により、デジタルカメラやカメラ付き携帯電話等の撮像機器で撮影した位置情報付きのデジタル写真の自動分類、検索することが可能となる。

また、本発明によれば、デジタルカメラやカメラ付き携帯電話の撮像機器で撮影した画像の自動タグ付け、自動説明文生成、自動アルバム作成といった、様々な応用が可能になるなど、多くの効果を有する。

以下、実施形態例について説明する。

図１に、本例の画像処理システムの概要を示す。この画像処理システムは、システム外部の位置情報付き画像記憶部１１より画像を収集して画像本体記憶部１５に蓄積すると共に、画像に付加されている位置情報をメタデータ記憶部１６へ格納する。また、画像の撮影位置に対応してマッピングサービス記憶部１２より、位置情報に対応する位置の航空写真画像または地図画像を取り出し、異なる縮尺の小領域パッチ画像を生成し、各縮尺の記憶部１３ａ、１３ｂ、１３ｃへ格納するようになっている。

システム外部の位置情報付き画像記憶部１１として、ネットワークを介してアクセス可能なデータベースを用いてもよい。例えば、インターネット上に公開されたソーシャルサイトである「Ｆｌｉｃｋｒ（登録商標）」などをあげることができる。
「Ｆｌｉｃｋｒ」は撮影画像を投稿（アップロード）、共有（ダウンロード）することが出来るソーシャルサイトであり、毎日１００万以上の画像が投稿されるといわれている。本明細書において、以下、Ｆｌｉｃｋｒへ投稿（アップロード）された画像を「Ｆｌｉｃｋｒ画像」と言う。Ｆｌｉｃｋｒでは、撮影画像を投稿する場合、その位置情報を付加させることを強く推奨している。従って、今後「Ｆｌｉｃｋｒ」に投稿される位置情報付きの画像データ、すなわち、「Ｆｌｉｃｋｒ画像」は増え続けると予想される。

マッピングサービス記憶部１２としても、ネットワークを介してアクセス可能なデータベースを用いてもよい。例えば、インターネット上に公開された国土交通省などの公的な検索サービス、あるいは、民間の検索サービス（例えば、「Ｇｏｏｇｌｅ（登録商標）」、「Ｙａｈｏｏ（登録商標）」等）が提供する航空写真画像や地図画像を用いるとよい。
航空写真画像や地図画像は、位置情報(緯度経度)と対応しているので、画像の特徴を持った位置情報とみなせる。したがって、位置情報を記述、識別する客観的な手段に成りうる。

以下、画像、航空写真画像、地図画像を、「Ｆｌｉｃｋｒ」と「Ｇｏｏｇｌｅ」から収集した場合について説明する。

なお、上記データベースでは現在、航空写真画像と地図画像の独立した画像を提供している。これらの航空写真画像は、256×256ピクセルの「タイル」と呼ばれる地図情報の断片から形成されているものも存在する。
これらの航空写真画像と地図画像についてはその画像を拡大、縮小して閲覧することが出来る。現在公開されている範囲では、０〜１９の、２０通りのズームレベルをもつものも存在する。

対象となる画像を認識するにあたり、画像から特徴を抽出する必要がある。以下、本例における画像の特徴を抽出する方法について説明する。
画像の特徴を記述する手法としては、画素値の統計や固有値を記述するものから、局所的な特徴を記述するものまで多種にわたる。
本例では、特徴抽出のために局所特徴の一種であるＳＩＦＴ特徴を用いる。また、この局所特徴を簡潔に記述するために後述するBag of Keypoints手法を用いてデータをベクトル量子化する（図３参照）。
なお、別な手法として、似ている画像同士では画像を構成する色が似ているという仮定に基づき、画像中に色がどのような割合で含まれているのかを比較する色ヒストグラム法（color histogram method）を用いて特徴抽出を行うことも可能である。量子化された色空間に形成された色ヒストグラムを使用すると、色情報が各画素に割り当てられた元の画像よりもマッチングに使用される情報量が減少して、演算量も減ることが期待できる。

ＳＩＦＴ（Scale Invariant Feature Transform）とは、1999年にDavid Lowe によって提案された特徴点とそれに付随する特徴ベクトルの抽出法であり、特徴点周りの局所画像パターンを128 次元特徴ベクトルで表現する。
ＳＩＦＴ特徴は、画像の拡大縮小、回転や視点の変化のいずれに対してもロバスト（強靭）であるとの性質がある。ＳＩＦＴ特徴の抽出は、特徴点の抽出とその特徴点における特徴ベクトルの抽出の２つのステップに分けることができる。

具体的には、図４、図５に示すように、キーワードにて分類したＦｌｉｃｋｒ画像に対応する位置情報を含んでいる航空写真画像１枚と、その周囲の航空写真画像８枚（合計９枚）を、ズームレベル10、12、14のそれぞれについてマッピングサービス記憶部１２より取り出す。
それぞれのズームレベルについて、まず９枚の航空写真画像のタイル（256×256 ピクセル）を３×３で結合する。このとき、位置情報を含む航空写真画像を中心に配置する。この位置情報が正方形の中心になるように、この結合された航空写真画像から512×512ピクセルの正方形部分を切り抜き、これをＦｌｉｃｋｒ画像に対応する航空写真画像（小領域パッチ画像）とする。

なお航空写真画像についても、Ｆｌｉｃｋｒ画像と同様に、ＳＩＦＴ特徴を抽出する。
本例では、ＳＩＦＴ特徴を抽出するために、SIFT++というツールを用いた。このツールにおけるアルゴリズムは、ＳＩＦＴを提唱したLoweアルゴリズムとほぼ同一である。

ＳＩＦＴ特徴における特徴点の抽出について、次に述べるＧＲＩＤ点抽出で行う。ＧＲＩＤ点抽出では、格子状に点を配置し、ＳＩＦＴ特徴ベクトル計算のための特徴点として利用する。

ＧＲＩＤ点抽出によるＳＩＦＴ特徴の抽出手順は以下のようになる。
１．格子点の間隔を決定する。本例においては、画像に対して、１０画素ごとにＧＲＩＤ点抽出を行い、それらの点に基づきＳＩＦＴ特徴量を計算することとした。
２．画像から格子点を抽出し、予め決められた複数のスケールで、それぞれの点について勾配方向を計算する。格子点の総数は画像の画素数と格子点の間隔に依存する。
３．抽出した特徴点に対して、ＳＩＦＴ特徴量を計算する。

なお、本例では、SIFT++を用いてＧＲＩＤ点抽出を行うために、ＧＲＩＤ点を抽出する処理を予め実装しておき、これらの点を明示的に指定するオプションを用いることによって実装することができる。

次に、抽出された特徴点における特徴ベクトルの抽出について、Bag of Keypointsの手法で行う。
Bag of Keypointsモデルとは、画像を局所特徴の集合と捉えた手法である。局所特徴をベクトル量子化し、Visual Wordsと呼ばれる特徴ベクトルを生成する。それらをまとめたものをコードブックと呼び、それを記述子として画像全体の特徴ベクトルを生成する。これにより、画像をVisual Wordsの集合（bag）として表現することができる。

Bag of keypointsの画像認識の流れは以下の通りである（図３参照）。
１．全画像データから特徴点を抽出する。
２．それをベクトル量子化し、コードブックを作成する。
３．コードブックをもとに、学習画像の特徴ベクトルを生成する。
４．同様にテスト画像の特徴ベクトルも生成し、分類器により画像がどのカテゴリに属するか決定する。

コードブックの生成手順について、図３、図６を参照しながら説明する。
まず、Visual Wordsを生成するために、ＧＲＩＤ点におけるＳＩＦＴ特徴を用いて全ての画像から局所特徴を抽出する。次に、抽出したもののうち、学習画像についての局所特徴をベクトル量子化し、各々のクラスタの中心を求めることによりVisual Wordsを求め、コードブックとする。

ベクトル量子化は、最も単純なクラスタリング手法であるk-Means法を用いる。
これは、クラスタ数kと、各クラスタの初期の重心（これはランダムでもよい）を予め定めておき、重心と各ベクトルとの距離の平均が最小になるように反復して重心を更新していく手法である。コードブックの大きさは、クラスタ数kに依存する。
本例では、k＝300に固定してベクトル量子化を行なった。k-Means法におけるクラスタリング処理では、ベクトル間の距離を計測する必要があるが、その距離尺度として、本例ではユークリッド距離を用いた。

学習データ作成のためのコードブックの作成手順は以下の通りである。一つの画像について一つのコードブックが作成される。
１．各キーワードのグループについて、正例画像（ＯＫ画像）と負例画像（ＮＧ画像）を明確にする。
２．各キーワードのグループの全ての画像から抽出された特徴量を用いて、コードブックを作成する。
３．各キーワードから抽出したコードブックを用いて、そのキーワードの画像について、コードブックについてのヒストグラムを作成する。

各画像に対応する航空写真画像のコードブックの作成手順は以下の通りである。
１．各画像が含んでいる位置情報から、対応する航空写真画像（本例では三種類のズームレベル）を探し、それぞれ３×３＝９枚ずつ用意する。
２．各ズームレベル航空写真画像について、位置（緯度経度）が中央になるように256×256ピクセルの正方形に切り抜く。
３．航空写真画像について、対応する画像のキーワードに対してズームごとに独立でグループ化し、画像の場合と同様に特徴量、コードブックの順に求める。

この時点で、一つのキーワードに対して、キーワードの画像、レベル10、12、14の各航空写真画像のグループに関する、４種類のコードブックを求めることになる。
コードブックの作成は、クラスタリング処理を伴う。一つのキーワードについて、精度の高いコードブックを作成するには、著しく膨大な量のデータをクラスタリングする必要がある。これは処理時間に対してトレードオフの問題となる。
本例においては、クラスタリングに用いる特徴点を、１０分の１の確率で特徴点を抽出するよう絞込みを行い処理の高速化を図った。

本例では、このクラスタリングに関し、学習と分類の手段である分類器として、ＳＶＭ（Support Vector Machine）を用いる。
ＳＶＭは、ニューロンのモデルとして最も単純な線形しきい素子を用いて、２クラスのパターン識別器を構成する手法である。
カーネル学習法と組み合わせると非線形の識別器になる。この拡張はカーネルトリックと呼ばれる手法で、このカーネルトリックにより、現在知られている多くの手法の中でも最も認識性能の優れた学習モデルの一つであると考えられている。
なお、別の手法として、当該技術分野に公知の方法から選択することができ、最近傍法を用いても良い。最近傍法とは、補間処理の手法の一つであり、ある画素の周辺で一番近い画素の値を設定する手法である。より具体的には、例えば、
「http://www.microsoft.com/japan/msdn/academic/Articles/Algorithm/04」にその処理内容が記載されている。最近傍法は、処理速度が高速であるというメリットを有している。

本例では、このＳＶＭを実行するツールとして、ＳＶＭｌｉｇｈｔを用いる。
学習と分類のために用いるＳＶＭへの入力ベクトルは、位置情報（緯度経度）のベクトルと、コードブックに関するヒストグラム（bag）によって構成される。

まず各画像に対して、それぞれのグループのコードブックに関するヒストグラムを作成する。コードブックはＳＩＦＴ特徴の代表ベクトルを指定されたクラスタ数だけ記述したデータであるから、各画像に対応するＳＩＦＴ特徴のそれぞれについて、コードブックから「距離が最も近い」ベクトルを探し、そのベクトルに対して投票することによってヒストグラムを作成することができる。ベクトルの距離を計測する尺度として、本例ではユークリッド距離を用いた。

全ての画像に関してヒストグラムの完成が完了した時点で、それぞれのキーワードにおいて、各ヒストグラム（bag）と位置情報のそれぞれの組合せで、各ベクトルを結合したものを作成する。ただし、航空写真画像については、３つの各レベルにそれぞれ独立して行うので、一つのキーワードに対して９通りのベクトルパターンを作成することになる（図２、図７、図８参照）。

本例では、一つのキーワードに対する各画像に、９通りのベクトルパターンを作成した。各ベクトルパターンのグループのそれぞれについて、対応する画像の手動分類結果に基づき、正例画像と負例画像の２つのグループに分ける。それぞれのグループから、一定の枚数をランダムに抽出して、Cross Validationの手法によって学習と分類を行う。

次に、本例における学習処理（分類器）の動作について、図９、図１０を参照して説明する。
学習処理を行なうプログラムの動作が開始されると（Ｓ９０）、ある対象（例えば、「山」「海」「ライオン」など。本明細書においてはこれらを総称して「分類」とも言う。）についてその対象が学習画像に含まれていることが予めわかっている正例画像、および、その対象が画像に含まれていないことが予めわかっている負例画像が予め蓄積されている画像を、写真本体記憶部１５より読み出す（Ｓ９１）。
分類器の学習精度を高めるため、正例画像、負例画像の枚数は、それぞれ１００枚以上が好ましい。
その際、読み出した画像の縦横のいずれか一方または縦横の両方が４８０画素以上の場合は、画像の縦横比を維持しながら、縦横のいずれもが４８０画素未満となるように画像を縮小することが好ましい。

次に、Ｓ９１で読み出した画像の撮影位置情報をメタデータ記憶部１６より読み出し、当該位置情報に対応する航空写真画像を用いて、小領域パッチ画像を作成する（Ｓ９２）。
その際、画像の位置座標が航空写真画像の中央となるように対応づけを行なう（図１の１４ａ〜１４ｃ）。
小領域パッチ画像としては、縮尺の異なる航空写真画像または地図画像を用いる。
分類器の精度を向上させるため、３つ以上の異なる縮尺を用いることが好ましい。

次に、画像認識を実行する分類器を生成する。分類器を生成する方法としては、この種の分野で通常用いられる手法を用いることができる。例えば、図９に示すように、前記Ｓ９１で得られた小領域パッチ画像の白黒ビットマップデータ（例えば，２５６ｘ２５６）をそのまま６５５３６（＝２５６ｘ２５６）次元の特徴ベクトルとして、分類器（例えば、ＳＶＭなど）へ入力して分類器を生成する（Ｓ９６）こともできる。

また、他の例として、図１０に示すように、次に、前記Ｓ９１およびＳ９２で得られた全ての画像について、画像特徴量を抽出する（Ｓ９３）手法とすることも、画像認識精度をさらに向上させる効果を奏するために好適である。
画像特徴量として、本発明の効果を奏するためには特に限定はなく、ＳＩＦＴ特徴量、Ｈａａｒ特徴量のどちらを用いてもよいが、ＳＩＦＴ特徴量を用いる場合について以下に説明する。

Ｓ９３において、格子点（ＧＲＩＤ点）を特徴点として設定する。
処理データ量と精度向上のトレードオフの観点より、各画像について縦横１０画素間隔で格子点を設定することが好ましい。さらに、前記特徴点の近傍領域において、輝度勾配の方向ヒストグラム（「ＳＩＦＴ特徴ベクトル」とも言う）を算出する。
その際、近傍領域の範囲を４通り設定し、一つの特徴点から４つのＳＩＦＴ特徴ベクトルを算出することが、精度向上の観点から好ましい。
以上の処理により、１枚の学習画像から約数千個のＳＩＦＴ特徴ベクトルが求められる。

次に、コードブックを作成する（Ｓ９４）。この処理によって、典型的な例では、数百万個程度のすべてのＳＩＦＴ特徴ベクトルから代表ＳＩＦＴベクトルを３００個程度求めて、コードブック２１ａ〜２１ｄを作成することになる。
より具体的には、数百万個程度のすべてのＳＩＦＴ特徴ベクトルから、ランダムサンプリングにより、１万個程度を選択する。
次に、選択された１万個程度のＳＩＦＴ特徴ベクトルから、３００個の代表ベクトルを、クラスタ分析により求める。クラスタリング法としては特に限定はなく、k-meansクラスタリング法を用いても良い。
k-meansクラスタリング法（ｋ平均法）とは、分散最適手法の一つで、分割の良さの評価関数を求め、その評価関数を最小化するように、k個のクラスタを分割する代表的な手法である。

次に、ヒストグラム２２ａ〜２２ｄを作成する（Ｓ９５）。画像ごとに、抽出された数千個の各ＳＩＦＴ特徴ベクトルに最も近いコードブックのベクトルを求める。典型的な例では、コードブックに関する３００次元ヒストグラムを作成することになる。
さらに、ヒストグラムの要素の合計が１となるように正規化する。この正規化されたものが、画像を表すbag of keypointsベクトルとなる。

次に、分類器を生成する（Ｓ９６）。上記の処理により得られた正例画像のbag of keypointsベクトル、負例画像のbag of keypointsベクトルを学習データとして分類器へ入力することで分類器を生成する。分類器としては、ＳＶＭを用いても良い。
なお、分類器の生成（Ｓ９６）は、色ヒストグラム法により得られた正例画像のヒストグラム、負例画像のヒストグラムを学習データとして、分類器へ入力することで分類器を生成する。分類器の実現方法は、当該技術分野に公知の方法から選択することができ、前述した最近傍法を用いても良い。
学習処理を実行するプログラム（Ｓ９０）は、ＣＰＵにより、上記した処理を、全画像について実行する（Ｓ９７）。

次に、本例の認識処理の動作について、図１１、図１２を参照して説明する。
認識処理を行なうプログラムの動作が開始されると（Ｓ１００）、認識対象画像が入力される（Ｓ１０５）。
その際、読み出した画像の縦横のいずれか一方または縦横の両方が４８０画素以上の場合は画像の縦横比を維持しながら、縦横のいずれもが４８０画素未満となるように画像を縮小する。

次に、Ｓ１０５で読み出した画像の撮影位置情報をメタデータ記憶部１６より読み出し、当該位置情報に対応する航空写真画像または地図画像を用いて、小領域パッチ画像を作成する（Ｓ１１０）。その際、画像の位置座標が航空写真画像または地図画像の中央となるように対応づけを行なう。小領域パッチ画像としては、縮尺の異なる航空写真画像または地図画像を用いる。分類器の精度を向上させるため、３つ以上の異なる縮尺を用いることが望ましい。

次に、画像を分類器により判定する手法については、この分野で通常用いられる手法を用いることができる。例えば、図１２に示すように、前記Ｓ１１０で得られた小領域パッチ画像の白黒ビットマップデータ（例えば，２５６ｘ２５６）をそのまま６５５３６（＝２５６ｘ２５６）次元の特徴ベクトルとして、分類器（例えば、ＳＶＭなど）へ入力して分類器による判定を行なう（Ｓ１３５）手法を用いることもできる。

また、他の例として、図１１に示すように、次に、前記Ｓ１０５およびＳ１１０で得られた全ての画像について、画像特徴量を抽出する（Ｓ１１５）こととすることも、画像認識精度をさらに向上させる効果を奏するために好適である。画像特徴量として、本発明の効果を奏するためには特に限定はなく、ＳＩＦＴ特徴量を用いても良く、また、Ｈａａｒ特徴量を用いても良い。以下、説明を容易にするために、ＳＩＦＴ特徴量を用いる場合を例に説明を行なう。

Ｓ１１５において、格子点（ＧＲＩＤ点）を特徴点として設定する。処理データ量と精度向上のトレードオフの観点より、各画像について縦横１０画素間隔で格子点を設定するのが望ましい。さらに、前記特徴点の近傍領域において輝度勾配の方向ヒストグラム（「ＳＩＦＴ特徴ベクトル」とも言う）を算出する。その際、近傍領域の範囲を４通り設定し、一つの特徴点から４つのＳＩＦＴ特徴ベクトルを算出することが、精度向上の観点より望ましい。
以上の処理により、１枚の学習画像から約数千個のＳＩＦＴ特徴ベクトルが求められることになる。

次に、コードブックを検索する（Ｓ１２５）。当該処理によって、典型的な例では、前記１枚の学習画像から抽出された約数千個のＳＩＦＴ特徴ベクトルにコードブック中で「距離が最も近い」ベクトルを探し、そのベクトルに対して投票することによってヒストグラムを作成する。ベクトルの距離を計測する尺度として、本例ではユークリッド距離を用いた。このようにして、コードブックに関する３００次元のヒストグラムを得ることになる。

次に、前記ヒストグラムを正規化する（Ｓ１３０）。前記典型的な例では、各３００次元のヒストグラムは要素の合計が１となるように正規化されることによって、認識対象画像を表すbag-of-keypointsベクトルが得られる。
次に、当該得られたbag-of-keypointsベクトルを分類器に入力し、認識対象画像に対する認識結果値を得る（Ｓ１３５）。分類器として、前記学習処理によって学習済みであるサポートベクターマシン（ＳＶＭ）を用いるのが好適である。

次に、前記認識結果値を判定し、正であれば（Ｓ１４０：下方向）認識対象画像は予め指定された分類の対象物体を含むと判断され（Ｓ１４５）、また、負であれば（Ｓ１４０：右方向）認識対象画像は予め指定された分類の対象物体を含まないものと判断される（Ｓ１５０）。
認識処理を実行するプログラムＳ１００は、ＣＰＵにより以上の処理を全画像について実行する（Ｓ１５５）。

次に、試験例について説明する。

本例をコンピュータソフトウエアとして実現し、インターネット（Web）にアクセス可能なパーソナル・コンピュータ（ＰＣ）にて実施した。Ｆｌｉｃｋｒから収集した日本国内の位置情報を含む画像約5000 枚を用いて、本例による一般画像認識の精度を確認した。
各画像について本試験のために、５種類のキーワード（景色、ラーメン、山、神社、海岸）を与えた。
本試験では、使用する航空写真画像のズームレベルは10、12、14 の３種類とする。
Ｆｌｉｃｋｒで収集した各画像について、収集した航空写真画像を用いて、その位置情報を表す航空写真画像を対応づけた。

試験データセットから、特徴量を抽出し、コードブックとヒストグラムを作成することによって、ＳＶＭへの入力データを作成する。
これにより、画像と航空写真画像、位置情報のデータセットから、一つのキーワードについて各グループのデータが作成される。
本試験では、それぞれのグループから、200枚をランダムに抽出して、ＳＶＭへの入力データセットを作成した。
また、本試験では、テストデータ全体をより客観的に評価するため、学習と分類の方法としてCross Validationを用いた（図１３参照）。

具体的な手順を以下に説明する。まず認識対象物が画像中に写っている正例画像（「ＯＫデータ」とも言う）と、認識対象物が画像中に写っていない負例画像（「ＮＧデータ」とも言う）を等分割する。各枠に含まれるテストセットの数はすべて同じとした。本試験では、試験データを５つに等分割するので、枠の中には20枚が入ることになる。
すなわち、前述のＳＶＭへの入力データの作成の際、学習データと分類データがそれぞれ等しく成るようにランダム抽出を行う。

学習データを分割した後、学習データと分類データをそれぞれ組み替えて実験を行い、1つのグループについて、５通りの結果を得た。
ＳＶＭによる出力結果から、情報検索の評価と同様に、再現率（Recall）と、適合率（Precision）を求めることができる。また、再現率と適合率の両方を考慮した指標として、Ｆ値と、再現率−適合率グラフを求めることができる。
特に、再現率−適合率グラフでは、両方のトレードオフの関係を検証可能である。

本試験では、学習と分類に、Cross Validationを採用している（図１３参照）。５つのfoldで行ったので、上記のような評価方法において、５通りの結果が出力されることになる。

本試験では、平均適合率（Average Precision）により実験結果を評価した。
１つのキーワードにおいて、９通りのグループのデータセットをそれぞれ評価する。さらに、それぞれのグループを５つのfoldに分割しているので、５つのfoldのそれぞれの平均適合率を求め、これらとこれらの平均を示す。１つのキーワードにおいて、合計で４５個の平均適合率を計算する。

試験結果は、それぞれの平均適合率を100倍して、有効数字４桁で示す（表１参照）。
ただし、各表において、画像をＩ、位置情報をＧ、10（表１での(1)）、12（表１での(2)）、14（表１での(3)）を航空写真画像のそれぞれのレベルとして、グループの組み合わせを示す。

キーワード「景色」については、画像と航空写真画像を統合したもののうち、レベル10（表１でのＩ＋(1)）と、レベル12（表１でのＩ＋(2)）で精度が向上していることが確認された。
これらの位置情報には、都会や都市部全体的な割合が多く、都市部の局所特徴量のみでは、風景を識別するのは困難である。したがって、風景写真の画像と航空写真画像の統合した結果が最も精度が高くなると考えられる。

キーワード「ラーメン」については、タイトルや説明などのメタデータから、ラーメン店で撮影された画像が多い。したがって、「景色」の場合と同様に、位置情報が比較的都市部に集中する。航空写真画像レベル10（表１での(1)）との組合せで最も精度が高くなるのは、このズームレベルに対して都市部の特徴が現れやすいためと考えられる。

なお、本試験では、航空写真画像のコードブックを作成する際に、画像と区別した。これは、画像の特徴量との混乱を避けるためである。しかし、１種類のズームレベルの航空写真画像をあえて混合して、各ズームごとに独立したコードブックを作成するという方法も可能である。

以上のように、本試験では、インターネットのＷｅｂ上から収集した、位置情報付きの画像と、位置情報に対応する航空写真画像を用いて、本発明の画像処理方法により、画像認識の精度が向上することが確認された。

以上、本発明の実施形態例を図面等に基づき説明したが、本発明は前記した例に限定されるものではなく、特許請求範囲記載の技術的思想の範疇において種々の変更が可能であることは言うまでもない。

本発明の画像処理技術、特に、分類対象の対象物（被写体）がデジタル画像に含まれるか否かを判断する技術は、インターネットなどのネットワークとそれに接続したパーソナル・コンピュータ（ＰＣ）上、または、一般家庭内やオフィス内に構築したＬＡＮに接続したＰＣ上、または、個人ユーザなどが使うスタンドアローンのＰＣ上などにおいて、一般画像認識の精度を向上させることができる。
また、デジタルカメラやカメラ付き携帯電話等の撮像機器に組み込むことによって、撮影した位置情報付きデジタル画像の自動分類、検索に寄与する。
また、デジタルカメラ等で撮像された画像の自動タグ付け、自動説明文生成、自動アルバム作成など、様々な応用技術、応用製品を提供可能となる。
そして、独立した製品として、または、他の製品に組み込むソフトウエアとして、または、インターネット上で利用可能なシステムとして、など、好適に利用され得る。

本発明に係る画像処理システムの概要を示す概念図。分類器への入力データを示す概念図。 Bag of Keypoints手法の説明図。航空写真画像（または地図画像）の収集方法例の説明図。航空写真画像（または地図画像）の処理方法例の説明図。コードブックの生成の一例の説明図。対象画像の分類を示すキーワードごとのＳＶＭへの入力ベクトル例の説明図。ベクトルパターン例の説明図。学習処理（分類器）の動作を示すフローチャートの一例。学習処理（分類器）の動作を示すフローチャートの一例。認識処理の動作を示すフローチャートの一例。認識処理の動作を示すフローチャートの一例。クロスバリデーション手法の概念図。

符号の説明

１１：画像記憶部
１２：マッピングサービス記憶部
１３ａ〜１３ｃ：位置情報に対応した各縮尺の航空写真画像または地図図形の記憶部
１４：位置座標調整済みの各縮尺の航空写真画像または地図図形の記憶部
１５：画像本体記憶部
１６：メタデータ記憶部
２１：コードブック記憶部
２２：ヒストグラム記憶部
２３：分類器への入力データ記憶部
２４：入力ベクトル記憶部

Claims

所定の認識対象を含む複数の学習用画像と、前記学習用画像の各々に対応する、前記学習用画像の撮影位置を含む航空写真画像および／または地図画像とを用いた学習処理によって生成された、画像中の前記認識対象の有無を判別するための判別器と、
認識対象画像と、前記認識対象画像の撮影位置を含む航空写真画像および／または地図画像とを取得する画像取得手段と、
前記判別器を用いて、前記認識対象画像中に前記認識対象が含まれているかどうかを判別する判別手段とを備えたことを特徴とする画像認識装置。
前記判別器は、前記学習用画像から得られた画像特徴量と、前記学習用画像に対応する航空写真画像および／または地図画像から得られた画像特徴量とを組み合わせたものであり、
前記判別手段は、前記認識対象画像から画像特徴量を取得するとともに、前記認識対象画像に対応する航空写真画像および／または地図画像から画像特徴量を取得し、前記画像特徴量の両方を組み合わせて前記判別を行うものであることを特徴とする請求項１記載の画像認識装置。
前記航空写真画像および／または地図画像は、縮尺の異なる複数の画像であることを特徴とする請求項１又は２記載の画像認識装置。
前記学習用画像に対応する前記航空写真画像および／または地図画像の中心位置が、前記学習用画像の撮影位置とほぼ一致するものであり、
前記認識対象画像に対応する前記航空写真画像および／または地図画像の中心位置が、前記認識対象画像の撮影位置とほぼ一致するものであることを特徴とする請求項１乃至３のいずれか一項に記載の画像認識装置。
前記認識対象画像は、前記認識対象画像の撮影位置を表す位置情報が関連づけられたものであり、
前記画像取得手段は、前記認識対象画像と関連づけられた位置情報に基づいて、複数の位置における航空写真画像および／または地図画像が記憶された記憶手段から、前記認識対象画像の撮影位置を含む航空写真画像および／または地図画像を取得するものであることを特徴とする請求項１乃至４のいずれか一項に記載の画像認識装置。
前記学習用画像に対応する前記航空写真画像および／または地図画像の中心位置が、前記学習用画像の撮影位置とほぼ一致するものであり、
前記画像取得手段は、前記記憶手段に記憶された複数の航空写真画像および／または地図画像から、前記認識対象画像の撮影位置をほぼ中心とする航空写真画像および／または地図画像を生成するものであることを特徴とする請求項５記載の画像認識装置。
前記記憶手段が、ネットワークを介してアクセス可能なデータベースであることを特徴とする請求項５又は６記載の画像認識装置。
認識対象画像と、前記認識対象画像の撮影位置を含む航空写真画像および／または地図画像とを取得するステップと、
所定の認識対象を含む複数の学習用画像と、前記学習用画像の各々に対応する、前記学習用画像の撮影位置を含む航空写真画像および／または地図画像とを用いた学習処理によって生成された、画像中の前記認識対象の有無を判別するための判別器を用いて、前記認識対象画像中に前記認識対象が含まれているかどうかを判別するステップとを含むことを特徴とする画像認識方法。
コンピュータを、請求項１乃至７のいずれか一項に記載の画像認識装置として機能させるための画像認識プログラム。