JP2010067014A

JP2010067014A - 画像分類装置及び画像分類方法

Info

Publication number: JP2010067014A
Application number: JP2008232793A
Authority: JP
Inventors: Hirohisa Inamoto; 浩久稲本; Yuka Kihara; 酉華木原
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2008-09-11
Filing date: 2008-09-11
Publication date: 2010-03-25

Abstract

【課題】ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる画像分類装置及び画像分類方法を提供すること。
【解決手段】画像分類装置１０は、画像登録装置２０を備え、画像登録装置２０は、画像の局所領域において入力画像に対する画像の類似度を算出する第１の類似度算出手段２１と、ユーザにとって具体的なキーワードがタグとして付される画像のデータを記憶する第１の画像ＤＢ２２と、第１の類似判定を行う第１の類似判定手段２３と、入力画像に対して画像全体の類似度を算出する第２の類似度算出手段２４と、曖昧なキーワードのタグが付される画像のデータを記憶する第２の画像ＤＢ２５と、第２の類似判定を行う第２の類似判定手段２６とを備える。
【選択図】図１

Description

本発明は、例えばデジタルスチルカメラで撮影した画像を蓄積する際に画像を比較して分類する画像分類装置及び画像分類方法に関する。

近年、デジタルスチルカメラの爆発的な普及や、デジタルスチルカメラに搭載される記憶容量の増大に伴って、一般的な写真撮影方法に大きな変化が見られるようになった。即ち、従来の銀塩カメラでは一回のフィルム交換で２０回程度の撮影しか行えず、それぞれの写真に対して撮り直しもできなかったため、ユーザは撮影するシーン、人物、タイミングを吟味し、ここぞという場面でシャッターを押すことで、厳選された写真のみを取得していた。

これに対し、デジタルスチルカメラでは、何百枚もの画像を撮影することができる上に、一度撮影した画像を液晶モニタ上で確認し、不要な画像を容易に削除できるため、昨今ではとりあえず様々な場面で何度もシャッターを切り、後でそれらを吟味し、取捨選択を行うといった撮影方法が主流となっており、ユーザの保持する画像数は増大の一途である。さらに言えば、デジタルスチルカメラで撮影した画像を保持しておくＰＣのハードディスクや光ディスクといった記憶装置の容量も年々増加しており、いまやユーザは天文学的な枚数の画像を保持することが可能となっている。その結果、取捨選択を行わずにそのまま記憶装置に大量の画像を保持しておくユーザも少なくない。

一方、そのように莫大な数の画像がＰＣの記憶領域内に保持されているとなると、場合によっては必要な画像を探す際には長大な時間を要することになる。例えば、必要な画像を探さなければならない場合の例として、運動会の日に子供が友人と一緒に写っている写真を選択して印刷し、その友人に配る場合が挙げられる。このような場合、ユーザの一般的な画像の探し方は以下のとおりである。

まず、画像に付加された情報で画像を絞り込み（第１の絞り込み）、絞り込まれた画像を縮小表示して並べてその中から友人が写っていると思しき画像を絞り込む（第２の絞り込み）。最後に一枚一枚画像を拡大表示し、確認しながら所望の画像を探す（第３の絞り込み）ことになる。このように一枚一枚画像を確認しながら過去を振り返ることは、写真の醍醐味ではあるが、先程例に挙げた様に他人に配るための画像を検索する場合は効率的な作業が求められる。

このとき、画像の絞り込み、特に第１の絞り込みで十分に画像を絞り込むことができれば、それほどユーザの負担は大きくない。しかし、第１の絞り込みで利用する付加情報のうち、人手を介さず自動的に付加される付加情報は、一般に画像に対して間接的である場合が多い。例えば、最も一般的な付加情報は撮影日時であるが、イベントの日時を正確に記憶しているユーザは少なく、そのようなユーザにとって、撮影日時はイベントと画像を繋ぐ間接的な情報でしかない。また、その他の一般的な付加情報として、撮影モード等もあるが、これは更に間接的な情報である。例えば撮影時にフラッシュが使用されたことが付加情報として保持されていても、その情報からユーザは室内で撮影が行われたのか、夜に撮影が行われたのか、天気が悪かったのか、といった推測を行う必要があるという問題がある。その結果、効果的な付加情報を得るためには、ユーザの手作業による分類に頼るしかなかった。なお、この分類手段について大別すると、ディレクトリ構造による分類、及び画像に何らかの手段でタグを付けるアノテーションの２種類がある。

以上の理由で、ユーザの手作業による分類を自動化するために、様々な技術が提案されている（例えば、特許文献１参照）。特許文献１では画像全体の特徴量を算出し、該特徴量に応じて自動的に画像を分類する技術が提案されている。この技術を用いることで、画像が自動的に分類されるので、ユーザの手作業を大幅に削減することができる。

ここで、この技術を使って写真画像を分類しようとする場合、どのような特徴量をどのカテゴリに分類するかという識別ルールを決定しなければならない。識別ルールの決定の仕方には様々な手段が考えられる。例えば、事前に分類された画像の中で入力画像と最も類似度の高い画像のカテゴリに分類するといった手法が考えられる。しかし、写真は、背景、人物、特定の物体など、様々な要素で構成されていることが多く、それぞれの要素の位置関係が変わるだけでも画像特徴量は大きく変わってしまう。その結果、例えば、風景画と肖像画とを分類するだけでも、様々なパターンの画像を用意しなければならない。ここで、例えば、一枚一枚の画像との類似度を判定するのではなく、非特許文献１に示されたＳＶＭ（Support Vector Machine）といった汎化性能の高い学習・識別器によって、カテゴリの傾向を算出しておけば、用意する画像数を削減できるが、それでも大量の画像を必要とする。このような大量の画像をユーザに用意させることは、ユーザにとって負荷が大きい。

これに対し、事前に、例えばソフトウェアでサービスを提供する場合にはソフトウェア出荷時に、様々な画像を用意しておくことで前述の問題は回避されるが、ユーザによるカスタマイズに対してフレキシブルな対応ができなくなる。例えば、肖像画であっても、自分やその親族が写ったものは、ユーザにとって特別な意味を持ち、ユーザがそのような画像を分類したくなることは容易に想像できる。一方、ソフトウェア出荷時に、ユーザの顔を登録しておくことは不可能である。以上のように、画像全体を用いてフレキシブルに画像を分類することは難しい。

一方、画像の局所に注目して分類する手法が提案されている（例えば、特許文献２参照）。特許文献２に記載のものは、画像から特定のオブジェクトを抽出し、抽出したオブジェクトに一度オブジェクト名を付加すると、オブジェクト名を付けたオブジェクトと類似するオブジェクトが以降撮影された場合、自動的にその画像にも同様にそのオブジェクト名を付加する。前述の画像全体を比較する手法に比べて、個々のオブジェクトを抽出しているので、それらの組み合わせパターンが劇的に少なくなり、比較的少ない画像数で分類可能である。しかし、ユーザ自身や親族の顔等は、一般的にユーザの保持する写真に大量に含まれている可能性が高く、特許文献２に記載の手法のみでは、十分な絞り込みが行えないという問題があった。
特許第４０３６００９号公報特開２００６−３３３４４３号公報 C. Cortes and V.N. Vapnik,"Support vector Networks,"Machine Learning, vol.20, pp.273-297, 1995

本発明は、前述のような事情に鑑みてなされたものであり、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる画像分類装置及び画像分類方法を提供することを目的とする。

本発明の画像分類装置は、キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類装置であって、前記キーワードが付与されて登録された第１及び第２の画像のデータをそれぞれ記憶する第１及び第２の画像データ記憶手段と、予め定めた大きさの局所領域を前記入力画像及び前記第１の画像から抽出する局所領域抽出手段と、抽出した前記局所領域において前記入力画像と前記第１の画像との類似度を算出する第１の類似度算出手段と、前記入力画像の画像全体と前記第２の画像の画像全体との類似度を算出する第２の類似度算出手段と、前記第１及び前記第２の類似度算出手段が算出した類似度に基づいてキーワードを前記入力画像に付与するキーワード付与手段とを備えた構成を有している。

この構成により、本発明の画像分類装置は、局所領域及び画像全体における類似度を算出することにより細やかな画像の分類が行えるので、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる。

また、本発明の画像分類装置は、前記第１の画像データ記憶手段が、ユーザが具体的なキーワードを付与して登録した画像のデータを前記第１の画像のデータとして記憶するものである構成を有している。

この構成により、本発明の画像分類装置は、入力画像に対してユーザに具体的なキーワードを付与させるので、入力画像のカスタマイズが可能となる。

また、本発明の画像分類装置は、前記第２の画像データ記憶手段は、予め定めた曖昧なキーワードが付された画像のデータを前記第２の画像のデータとして記憶するものである構成を有している。

この構成により、本発明の画像分類装置は、曖昧なキーワードによって画像全体の類似度を算出することができる。また、第２の画像のデータが装置の工場出荷時に登録されていれば、ユーザが第２の画像を登録する手間を省略でき、ユーザの負担を抑えることができる。

また、本発明の画像分類装置は、前記局所領域抽出手段が、画像の特徴量が極値を示す極値画素を検出する極値画素検出部と、前記入力画像及び前記第１の画像のそれぞれにおいて前記極値画素近傍の画像特徴量を算出する特徴量算出手段と、算出した特徴量を比較する特徴量比較部と、前記入力画像及び前記第１の画像のそれぞれにおける極値画素の位置関係に基づいて極値画素を選定する極値画素選定部と、前記極値画素選定部が選定した極値画素の数に基づいて前記第１の画像に対応する画像領域を前記入力画像から抽出する対応領域抽出部とを備えた構成を有している。

この構成により、本発明の画像分類装置は、極値画素選定部が選定した極値画素の数に基づいて第１の画像に対応する画像領域を入力画像から抽出することができる。

また、本発明の画像分類装置は、前記第１の類似度算出手段が、前記対応領域抽出部が抽出した画像領域の画像と前記第１の画像とを比較して前記類似度を算出する画像比較手段を備えた構成を有している。

この構成により、本発明の画像分類装置は、抽出した画像領域における特徴量に基づいて類似度を算出することにより、類似度の算出精度を向上させることができる。

また、本発明の画像分類装置は、前記極値画素検出部は、ユーザが前記第１の画像として登録する際の画像の極値画素を検出するものであって、前記極値画素検出部が検出した前記極値画素の数が予め定めた数以下のとき前記ユーザに警告を与える警告手段を備えた構成を有している。

この構成により、本発明の画像分類装置は、登録される多数の画像に同じキーワードが付与されることを防止できるので、ユーザの利便性を向上させることができる。

また、本発明の画像分類装置は、前記入力画像の特定の領域を指定する領域指定手段を備え、前記第１の画像データ記憶手段は、前記領域指定手段が指定した領域の画像データを記憶するものである構成を有している。

この構成により、本発明の画像分類装置は、第１の画像の登録時に画像全体ではなく画像の一部領域だけを指定することができるので、ユーザはキーワードを付与したい被写体のみが写った画像を用意する必要がなく、ユーザの利便性を向上させることができる。

また、本発明の画像分類装置は、前記第１の類似度算出手段が算出した類似度に基づいて前記入力画像と前記第１の画像とが類似しているか否かを判定する類似判定手段を備え、前記第２の類似度算出手段は、前記入力画像と前記第１の画像とが類似していない場合にのみ前記画像全体に係る類似度を算出するものである構成を有している。

この構成により、本発明の画像分類装置は、１つの画像に１つのキーワードを付与する場合であって入力画像と第１の画像とが類似していない場合に、第２の類似度算出手段による処理を省略することができるので、画像登録時にユーザの待ち時間の短縮化を図ることができ、ユーザの利便性を向上させることができる。

本発明の画像分類方法は、キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類方法であって、前記キーワードが付与されて登録された第１及び第２の画像のデータをそれぞれ記憶するステップと、予め定めた大きさの局所領域を前記入力画像及び前記第１の画像から抽出するステップと、抽出した前記局所領域において前記入力画像と前記第１の画像との類似度を算出するステップと、前記入力画像の画像全体と前記第２の画像の画像全体との類似度を算出するステップと、前記第１及び前記第２の画像によって算出した類似度に基づいてキーワードを前記入力画像に付与するステップとを含む構成を有している。

この構成により、本発明の画像分類方法は、局所領域及び画像全体における類似度を算出することにより細やかな画像の分類が行えるので、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる。

本発明は、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができるという効果を有する画像分類装置及び画像分類方法を提供することができるものである。

以下、本発明の実施形態について図面を用いて説明する。実施形態では、本発明に係る画像分類装置を、画像データをアップロードして管理できるウェブサービスシステムに適用した例を挙げて説明する。このウェブサービスシステムは、サーバＰＣと、複数のクライアントＰＣとを備えるものである。以下の説明では、クライアントＰＣからサーバＰＣにアップロードされる対象となる画像を入力画像という。

（第１実施形態）
まず、本発明に係る画像分類装置の第１実施形態における構成について説明する。

図１に示すように、本実施形態における画像分類装置１０は、入力画像を登録する画像登録装置２０と、主にキーワードを登録するキーワード登録装置３０とを備えている。

画像登録装置２０は、第１の類似度を算出する第１の類似度算出手段２１と、第１の検索対象画像のデータを記憶する第１の画像データベース（ＤＢ）２２と、第１の類似判定を行う第１の類似判定手段２３と、第２の類似度を算出する第２の類似度算出手段２４と、第２の検索対象画像のデータを記憶する第２の画像ＤＢ２５と、第２の類似判定を行う第２の類似判定手段２６とを備えている。なお、第１の画像ＤＢ２２及び第２の画像ＤＢ２５は、それぞれ、本発明に係る第１及び第２の画像データ記憶手段を構成する。また、第１の類似判定手段２３及び第２の類似判定手段２６は、本発明に係るキーワード付与手段を構成する。

キーワード登録装置３０は、入力画像において特定の領域を指定する領域指定手段３１と、極値画素を検出する極値画素検出手段３２と、キーワードや画像を登録する登録手段３３と、ユーザに警告を与える警告手段３４とを備えている。

第１の検索対象画像とは、画像の局所領域において入力画像に対する画像の類似度を算出するために第１の画像ＤＢ２２から検索する画像をいい、ユーザが登録して蓄積した画像である。例えば、第１の検索対象画像は、「長男の顔」、「子供の友人Ａさんの顔」というようなユーザにとって具体的なキーワードがタグとして付される画像である。また、第２の検索対象画像とは、入力画像に対して画像全体の類似度を算出するために第２の画像ＤＢ２５から検索する画像をいい、例えばシステムの出荷時にメーカ側で登録して蓄積した画像である。具体例を挙げれば、第２の検索対象画像は、「肖像画」、「風景」、「動物」、「集合写真」というような曖昧な（換言すれば抽象的な）キーワードのタグが付される画像である。

なお、第１の検索対象画像に関しては、システム出荷時に何らかのサンプル画像が登録されていても構わない。また、第２の検索対象画像に関しては、曖昧なキーワードのタグを付すための画像をユーザが用意して蓄積するものであってもよい。

第１の類似度算出手段２１は、図２に示すように、局所領域を抽出する局所領域抽出手段４０と、画像を比較する画像比較手段５０とを備えている。局所領域抽出手段４０は、入力画像のＳＩＦＴ（Scale-Invariant Feature Transform）を算出するＳＩＦＴ算出部４１、第１の検索対象画像のＳＩＦＴを算出するＳＩＦＴ算出部４２、ＳＩＦＴを比較するＳＩＦＴ比較部４３、対応点を選定する対応点選定部４４、対応領域を抽出する対応領域抽出部４５を備えている。なお、ＳＩＦＴ算出部４１及び４２は、本発明に係る極値画素検出部、特徴量算出手段を構成する。また、ＳＩＦＴ比較部４３は、本発明に係る特徴量比較部を構成する。また、対応点選定部４４は、本発明に係る極値画素選定部を構成する。また、対応領域抽出部４５は、本発明に係る対応領域抽出部を構成する。

図３は、本実施形態におけるウェブサービスシステムを構成するサーバＰＣ及びクライアントＰＣとして用いられるコンピュータ６０のブロック図であって、本実施形態における画像分類装置１０は、コンピュータ６０と、コンピュータ６０にロードされるプログラムとによって実現される。

図３において、ＣＰＵ６１は中央処理装置であり、コンピュータ６０の全体の制御及び演算処理等を行う。ＲＯＭ６２は読み出し専用メモリであり、システム起動プログラムの情報等の記憶領域を有する。ＲＡＭ６３はランダムアクセスメモリであり、データ記憶領域を有する。ＲＡＭ６３には、オペレーティングシステムや、デバイスドライバ、例えばウェブブラウザのようなアプリケーション、通信制御等のプログラムがロードされ、ＣＰＵ６１によって実行される。入出力部６４は、キーボード、マウス等の入出力デバイスで構成され、ユーザが入出力デバイスに入力した情報をＣＰＵ６１に伝達するものである。表示部６５は例えば液晶ディスプレイ、表示制御部等を備えている。ＨＤＤ６６はハードディスク装置であり、検索対象画像のデータ、ウェブブラウザのプログラムファイル等を格納するようになっている。通信部６７は、ネットワーク通信制御を行うようになっており、ネットワークに接続された他のコンピュータや周辺機器との通信が可能となっている。データバス６８は、前述の構成要素間のデータの通路となるものである。なお、本実施形態では、第１の検索対象画像及び第２の検索対象画像がサーバＰＣのハードディスク装置に格納されているものとする。

前述の構成により、ユーザは、各クライアントＰＣから画像をサーバＰＣにアップロードし、アップロードした画像をクライアントＰＣから閲覧できるようになっている。各画像には、サーバＰＣやクライアントＰＣによって自動的に付与されたキーワードがタグ情報として付随している。なお、各画像ファイルにはキーワードが複数付随していることもある。

次に、本実施形態における画像分類装置１０の動作について説明する。

（ユーザから見たシステムの動作）
最初にユーザから見たシステムの動作について説明する。

まず、ユーザインターフェースについて説明する。ユーザは、サーバＰＣにアクセスする際、クライアントＰＣから例えばウェブブラウザを介して行う。具体的には、ユーザはウェブブラウザを立ち上げ、サーバＰＣのアドレス情報を入力すると、図４に示すようなダイアログ画面７０がディスプレイに表示される。図４に示したダイアログ画面７０は、キーワード入力ボックス７１、検索ボタン７２、画像登録ボタン７３、キーワード登録ボタン７４、画像表示領域７５を有する。

ユーザがキーワード入力ボックス７１に好みのキーワードを入力し、検索ボタン７２を押すと、クライアントＰＣに保持された画像ファイルのうち該キーワードをタグとして保持する画像ファイルのサムネイルが画像表示領域７５に整列されて表示される。

また、ユーザが画像登録ボタン７３を押すことにより、ファイル選択ダイアログ画面が表示される。このファイル選択ダイアログ画面により、クライアントＰＣに保持された画像ファイルを指定すると、指定された画像ファイルがサーバＰＣにアップロードされる。サーバＰＣにアップロードされる画像（入力画像）には自動的に、タグが付与される。なお、どのようにタグを付与するかについては後述する。

ここで、サーバＰＣに既に登録されている画像と類似する画像を含む画像領域が入力画像に存在するか否かを判定し、存在する場合には、サーバＰＣに登録されている画像に関連付けられたキーワードをタグとして、アップロードされた画像に付与する。また、該ダイアログ画面のプログラムは画像に新規のキーワードをタグとして付与するためのインターフェース手段を備えている。

次に、ユーザがキーワード登録ボタン７４を押すと、図５に示すようなダイアログ画面８０がディスプレイに表示される。ダイアログ画面８０は、画像選択ボタン８１、キーワード入力ボックス８２、登録ボタン８３、表示領域８４、警告表示領域８５を有する。

画像選択ボタン８１を押すことにより、ファイル選択ダイアログ画面が表示される。ここでクライアントＰＣに保持される画像ファイルを指定すると、当該画像ファイルに係る画像が表示領域８４に表示される。表示領域８４上でユーザがマウスをドラッグすると、図５の画像中に示したような矩形が描画される。

ユーザは、キーワード入力ボックス８２に、画像に付けたいタグ情報をキーワードとして入力することができる。登録ボタン８３が押されると、キーワード入力ボックス８２に入力したキーワードが、表示領域８４において矩形で囲まれた領域の画像とともに、第１の画像ＤＢ２２に登録される。この時、サーバＰＣは、登録される画像が識別に適するか否かを判定し、識別に適さない場合、警告表示領域８５に、例えば「選択領域は、上手く識別できません」といった警告を表示し、画像の登録をキャンセルするものとする。ここまでの処理は、以降入力される画像が、登録された画像に類似するか否かを判定し、類似している場合には自動的にキーワードを付与するためのテンプレートを作る作業である。しかし、平坦な画像領域（画面の広い範囲にわたり画素間の濃度変化の少ない画像領域）、例えば図５に示した人物画像の背景のような領域が指定された場合、様々な画像において類似しているとの判定が発生し、同じキーワードが殆どの画像に対して付与されてしまうことになる。そこで、本実施形態では、画像の登録の時点で、このような不具合が発生しそうな領域の指定に対して判定を行い、ユーザに警告を表示することにより、同じキーワードが殆どの画像に付与されるという問題を解消できる。なお、どのように、識別に適するか否かを判定するかについては後述する。

（サーバＰＣから見たシステムの動作）
次に、サーバＰＣから見たシステムの動作について説明する。

まず、画像登録時のフローについて図１及び図６を用いて説明する。図６は、画像登録時のフローチャートである。

第１の類似度算出手段２１は、入力画像及び第１の検索対象画像のデータを入力する（ステップＳ１１、１２）。また、第１の類似度算出手段２１は、第１の検索対象画像に含まれる画像領域と類似する画像領域が入力画像内に存在するかを判定し、存在する場合には類似度を算出し（ステップＳ１３）、類似度を示すデータを第１の類似判定手段２３に転送する。なお、類似する領域が存在しない場合には、類似度０を算出し、第１の類似判定手段２３に転送する。

ここで、第１の検索対象画像は、前述のようにユーザがキーワード登録した画像であり、画像には対応付けられたタグが付与されているものとする。また、後述するように、第１の類似度算出手段２１は類似領域が存在するか否かを判定する際に、入力画像と検索対象画像とで様々な極値画素（Keypoint）を検出し、それぞれの極値画素周辺の情報を用いて、両画像間で対応する（類似する）極値を検出し、検出した極値画素の個数情報も同時に第１の類似判定手段２３に転送するものとする。

第１の類似判定手段２３は、入力画像と第１の検索対象画像とが類似しているか否かを判定する（ステップＳ１４）。ステップＳ１４において、第１の類似判定手段２３は、入力画像と第１の検索対象画像とが類似している場合は、検索対象画像に付与されたタグを出力し（ステップＳ１８）、入力画像と第１の検索対象画像とが類似していない場合は、タグを出力しない。なお、第１の類似判定手段２３の詳細な動作については後述する。

続いて、第２の類似度算出手段２４では入力画像の全領域と、第２の検索対象画像に保持される様々な画像の全領域との類似度を算出し、類似度を示すデータを第２の類似判定手段２６に出力する。なお、第２の類似度算出手段の詳細な動作については後述する。

第２の類似判定手段２６は、第２の類似度算出手段２４が算出した類似度が所定の閾値（例えば０．７）以上か否かに基づき、入力画像と第２の検索対象画像とが画像全体で類似しているか否かを判定する（ステップＳ１７）。ステップＳ１７において、第２の類似判定手段２６は、類似度の閾値以上となる第２の検索対象画像があった場合、当該第２の検索対象画像に付与されていたタグを出力する（ステップＳ１８）。一方、第２の類似判定手段２６は、類似度の閾値以上となる第２の検索対象画像がない場合はタグの出力は行わない。なお、類似度の閾値は、例えば予め実験を行って取得したデータを基に決定するのが好ましい。

以上の処理により、入力画像には自動的に複数のタグが付与される。前述のとおり、風景や肖像画といったタグは曖昧で、人物や背景など、複数の構成要素により構成されている。画像上においてそれら要素の位置関係が変わると、画像全体の特徴量が大きく変わってしまう。そのため、画像全体の特徴量からこれらのタグを判定するためには、非常に大量の画像を用意しなければならない。これを登録する作業はユーザにとって、非常に高い負荷になる。一方で、ユーザ自身や家族の顔、富士山といった具体的なオブジェクトの場合、単数の構成要素により構成されている場合が多い。また、複数の構成要素であっても、構成要素の位置関係が画像上で固定されている場合が多い。このような具体的なオブジェクトの画像に関しては、少ない画像を登録するだけで、高い精度で類似度を判定することができる。本実施形態のように、大量の画像との比較を行わなければならない曖昧なタグに関してはシステム出荷時に登録しておき、少数の画像との比較を行うだけでよい具体的なタグに関してはユーザに登録させるという構成によって、ユーザの負担を低減して様々なタグを付けられるとともに、ユーザによるカスタマイズが可能となる。
（第１の類似度算出手段２１の動作）
次に、第１の類似度算出手段２１において、どのように第１の検索対象画像に含まれる画像（以下検索対象画像）と類似する領域が入力画像内に存在するかを判定するかについて図２及び図７に基づき述べる。図７は、第１の類似度算出手段２１の詳細な動作を示すフローチャートである。

ＳＩＦＴ算出部４１は、登録対象である入力画像のデータを入力し（ステップＳ２１）、入力画像のＳＩＦＴを算出する（ステップＳ２２）。また、ＳＩＦＴ算出部４２は、第１の検索対象画像のデータを入力し（ステップＳ２３）、第１の検索対象画像のＳＩＦＴを算出する（ステップＳ２４）。

ここでＳＩＦＴとは、文献１（David G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, 2004
）に記載された技術で、画像内で特徴的な画素を複数検出し、それぞれの画素について、周辺領域の情報から特徴量を算出する技術である。

ここでいう特徴的な画素とは、一言で言うと周辺に対して極大又は極小、即ち極値である画素のことをいう。但し、単純に画像内で極値というわけでない。ＳＩＦＴでいう極値画素とは複数の、且つ連続したサイズ（分散）のガウシアンフィルタを画像に施し、複数枚のぼかした画像を作成し、サイズの順番に並べた後、連続に並んだ画像の差分画像（Difference of Gaussian：ＤｏＧ）を作成したものである。特徴的な画素は、注目画素が同じＤｏＧの画像内で極値なだけでなく、１つサイズが小さいＤｏＧ及び１つサイズが大きいＤｏＧの注目画素と対応する画素に対して極値である場合に、極値として検出される。

このようにすることにより、極値を構成する山、あるいは谷がどのサイズのガウシアンに最も合致するかを知ることができる。以降、そのサイズのガウシアンによって得られたＤｏＧを用いて周辺領域の特徴量を算出すれば、入力画像と、検索対象画像とのサイズが異なっていても、対応する点において類似する特徴量が得られる。つまり、ＳＩＦＴは画像のスケールに対して不変量を算出することができることになる。

文献１では、これ以降の処理として、得られた特徴的な画素がエッジ上の点であるか否か、周辺画素のコントラストは閾値以上か、と言った処理によって検出された特徴的な画素の選定、及びパラボラフィッティングによる特徴的な画素の詳細な位置推定を行っているが、本発明の本質と離れるため、説明を省略する。

続いて、ＳＩＦＴにおける特徴的な画素周辺の特徴量算出方法について述べる。ＳＩＦＴでは検索対象画像が入力画像内で回転して存在していても、対応する特徴的な画素が検出できるように、特徴的な画素のオリエンテーション推定を行う。

そのためにまずは、勾配強度及び勾配方向を示すデータを算出する。画像の画素値Ｌ（ｕ，ｖ）、勾配強度ｍ（ｕ，ｖ）、勾配方向θ（ｕ，ｖ）とすると、以下のように算出できる。

その後、勾配方向を１０度ずつ、３６方向に離散化したヒストグラムを用意する。該ヒストグラムには、勾配強度に対し、注目画素を中心とするガウシアンを掛け合わせた値を加算していく。該ヒストグラムにおいて最も大きな値を示す方向が特徴的な画素のオリエンテーションとなる。

次に、特徴的な画素のオリエンテーションが画像の上方に向くよう画像を回転させる。その後、特徴的な画素の周辺領域を一辺４ブロックの計１６ブロックに分割する。ブロックごとに４５度ずつ、８方向の勾配ヒストグラムを作成することにより、４×４×８＝１２８次元の特徴量が得られる。このように特徴的な画素周辺の画素を、推定した特徴的な画素のオリエンテーションが画像の上方に向くよう正規化した後に、特徴量を算出するため、得られた特徴量は画像の回転に対して不変な特徴量になる。

以上述べたように、ＳＩＦＴ算出部４１及び４２は、ＳＩＦＴ特徴量を用いることにより、検索対象画像を入力画像内で探索する際に、両者のサイズの違いや回転に対して極めて安定して探索することができる。

続いて、ＳＩＦＴ比較部４３は、検索対象画像に含まれる特徴的な画素と近い特徴量を持つ特徴的な画素（対応点）が入力画像内に存在するか否かを１つ１つ、総当たりで調べる（ステップＳ２５）。ここでいう近い特徴量とは、特徴的な画素同士のユークリッド距離が所定の閾値（例えば３００）以下であるものを指す。

ＳＩＦＴは局所領域だけを参照して得られる特徴量なので、得られた対応点は必ずしも同じ画像に属するものではない。そこで、対応点選定部４４は、対応点の位置関係から、対応点を選定する（ステップＳ２６）。選定するために、文献１ではハフ（Hough）変換を用いている。即ち、１つの対応点のサイズ及びオリエンテーションから検索対象画像の平面が入力画像内にて、どのような姿勢をとっているかを推定することができる。この推定値を量子化し、それらの分布を見ることによって、対応点の選定を行う。同じ姿勢を示す対応点が多数有る場合、それらは信頼性の高い対応点であり、同じ姿勢を示す対応点が少数で有る場合、それらは信頼性の低い対応点であると言える。なお、本実施形態では、同じ姿勢を示す点の数を対応点数と呼ぶ。

対応点選定部４４は、対応点数が３以上有る場合は、検索対象画像が入力画像内に存在していると判定し、対応点数が２以下である場合は、検索対象画像が入力画像内に存在しないとして類似度を０と算出する（ステップＳ２７）。

検索対象画像が入力画像内に存在する場合、対応領域抽出部４５は、入力画像から、検索対象画像と対応する領域を抽出する（ステップＳ２８）。検索対象画像が入力画像内に存在する場合、前述のとおり、検索対象画像の平面が、入力画像内でどのような姿勢をとっているかを推定することができるので、該姿勢の平面を入力画像から抽出すればよい。

続いて、画像比較手段５０は、抽出した画像と検索対象画像とを比較して、両者の類似度を算出する（ステップＳ２９）。なお、画像比較手段５０の詳細な動作については後述する。

以上のように、第１の類似度算出手段２１は、検索対象画像が入力画像内に存在するか否かを判定し、存在すると判定した場合に類似度を算出することができる。

（画像比較手段５０の動作）
画像比較手段５０は、２つの画像から画像の特徴を示す特徴量を算出し、それらを比較することによって類似度を算出する。本実施形態では色、エッジ及び模様の３種類の特徴量を算出するものとする。

前提として、画像内の各画素の色情報は、Ｒ（レッド）、Ｇ（グリーン）、Ｂ（ブルー）の３原色の階調をそれぞれ０〜２５５の２５６階調で示しているものとする。３原色の階調が何れも０である場合には、その画素の色は黒となる。また、３原色の階調が何れも２５５である場合には、その画素の色は白となる。このように、各画素には、ｓＲＧＢ表色系の３次元の色情報が割り当てられているものとする。

最初にエッジ特徴量の算出方法について述べる。まず、画像内の画素マトリクスの各画素に対し、図８に示すような３画素×３画素のフィルタリングマトリクスを用いて、畳み込み積分を施す。画像内の注目画素に対して、図示のフィルタリングマトリクスにおける中心画素の値"４"を割り当てるとともに、その注目画素の周囲に存在する画素に対して、フィルタリングマトリクスの中心画素の周囲に存在する画素の値を割り当てるのである。このような畳み込み積分を画像全体に施して、エッジ画像を得る。その後、所定の閾値（例えば１２８）を用いて画像を２値化する。次に、画像全体を例えば１０×１０の同サイズのブロックに等分して、それぞれのブロック中で２値化の閾値を超える画素をカウントする。以上の処理により１００次元のベクトルが得られる。また、ブロックに含まれる全ての画素数で除算することで正規化し、ベクトルの各要素の値を０〜１に正規化しておく。

次に、色特徴量の算出方法について述べる。まず、画像に含まれる画素を全て２５５で除算し、正規化しておく。下記の数３〜数９に基づいて画像をｓＲＧＢ表色系からＬａｂ表色系の色表現に変換する。

光源としてＤ６５光源を想定した場合、Ｘｎ＝０．９５、Ｙｎ＝１．００、Ｚｎ＝１．０９となる。このようにしてＬａｂ表色系に変換したら、次に、エッジ特徴量の算出と同様にして、画像を１０×１０のブロックに等分し、それぞれのブロックで平均Ｌａｂを得る。更に得られたＬａｂは以下の式で０〜１の値に正規化したＬ'ａ'ｂ'に変換しておく。この結果、１００×３＝３００次元のベクトルが得られる。

次に、模様特徴量の算出方法について述べる。模様特徴量の算出には、周知の濃度共起行列が用いられる。濃度共起行列は、ある小領域において図９に示すように濃淡画像の明るさがｋの画素からδ（ｒ，θ）で示される相対位置に１の画素が出現する頻度をｐ_δ（ｒ，θ）とする。ｓＲＧＢ表色系の画像をグレー画像に変換し、その後、各画素を１６で割って余りを捨てることで１６の階調に量子化する。その後、１６の階調数をｍとして、数１３に基づいて１６×１６次元の濃度共起行列を得る。なお、得られたマトリクスの値を画像に含まれる画素数で割り、０〜１の値に正規化しておく。

本実施形態では、δ（１，０）、δ（１，４５）及びδ（１，９０）の３種類の濃度共起行列を得ているため、最終的には２５６×３＝７６８次元の特徴量ベクトルが得られる。

濃度共起行列は画像の周波数情報の概略を示す特徴量であるため、テクスチャ特徴量の算出に用いることが可能である。なお、周波数情報の取得にはフーリエ変換を用いることが可能である。また、ＭＦＰ（複合機）に記憶されている画像データファイルがＪＰＥＧ方式で圧縮されているものであれば離散コサイン変換（Discrete Cosine Transform）を用いることで、容易に周波数情報を得ることができる。以上のようにして、最終的には１００＋３００＋７６８＝１１６８次元の特徴量ベクトルが得られる。

以上の特徴量を２つの画像でそれぞれ算出し、それらのユークリッド距離を算出することで画像の類似度を算出することができる。特徴量は全て０〜１に正規化されているため、１からユークリッド距離を差し引けば０〜１の類似度が得られる。

以上のように、画像比較手段５０が、ＳＩＦＴの対応点だけでなく、画像の特徴量から類似度を算出することにより、第１の類似度算出手段２１は、更に高精度に類似度を算出することができる。

（第１の類似判定手段２３の動作）
次に、第１の類似判定手段２３の動作について述べる。第１の類似判定手段２３は、第１の類似度算出手段２１が算出した類似度が所定の閾値を超えているか否かで、第１の検索対象画像に付与されたタグを入力画像に付けるか否かを決定する。ここで、通常の閾値は０．８とするが、対応点の数が例えば１０よりも多い場合には、閾値を０．７とするのが好ましい。一般に、複数の対応点が同じ姿勢であると、誤って判定される可能性は低い。そのため、図７のステップＳ２７では"３"という極めて少ない対応点の数が存在した場合に、検索対象画像が入力画像内に存在すると判定している。したがって、対応点が十分に多い場合は類似度が高い可能性が高いので、この場合に閾値を下げている。これにより、本来類似している画像を非類似と誤判定する可能性が低くなり、正しいタグ付けが行える可能性が高くなる。

（第２の類似度算出手段２４の動作）
第２の類似度算出手段２４の動作は、図７のステップＳ２９における処理と同様であり、入力画像と第２の検索対象画像に含まれる画像との類似度を比較する。但し、ここでの比較は、画像の局所領域における比較を行うのではなく、画像全体同士を比較する。

（キーワード登録時の動作）
次に、キーワード登録時のサーバＰＣの動作を図１及び図１０に基づいて説明する。図１０は、キーワード登録時のサーバＰＣの動作を示すフローチャートである。

領域指定手段３１は入力画像のデータを入力し（ステップＳ３１）、領域が指定された入力画像のデータを極値画素検出手段３２に出力する。この入力画像に対し、極値画素検出手段３２は、前述のＳＩＦＴ算出（図７ステップＳ２２）と同様の処理を行う（ステップＳ３２）。但し、極値画素検出手段３２は、入力画像内で特徴的な画素の検出を行うが、特徴量算出は行わない。極値画素検出手段３２は、この処理により特徴的な画素の数を算出し、特徴的な画素の数が例えば２０以下の場合は、領域が指定された入力画像は識別に不適としてユーザに警告を出す（ステップＳ３３「Ｎｏ」）。一方、特徴的な画素の数が２０よりも大きい場合は、画像とともにキーワードを登録する（ステップＳ３３「Ｙｅｓ」）。なお、ＳＩＦＴを用いた類似領域が存在するか否かを判定する手法において、対応点の選定を行うため、十分な数の特徴的な画素が存在しないと、類似領域が存在すると判定できる可能性が低くなる。ここで、十分な数の特徴的な画素が存在しない画像は、模様の少ない一様な画像であることが多い。一様な画像は前述のとおり様々な画像に存在しうるので識別には適さない。

以上のように、本実施形態における画像分類装置１０によれば、第１の類似度算出手段２１は、ユーザにとって具体的なキーワードがタグとして付された第１の検索対象画像と入力画像との局所領域における類似度を算出し、第２の類似度算出手段２４は、曖昧なキーワードのタグが付された第２の検索対象画像と入力画像との画像全体における類似度を算出する構成としたので、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる。

なお、前述の実施形態において、第１の検索対象画像をサーバＰＣのハードディスク装置に格納する構成を例に挙げて説明したが、本発明はこれに限定されるものではなく、第１の検索対象画像をクライアントＰＣのハードディスク装置に格納する構成としてもよい。また、例えば、サーバＰＣのハードディスク装置にユーザ毎のフォルダを設け、各ユーザと第１の検索対象画像とを関連付けて格納する構成としてもよい。

（第２実施形態）
まず、本発明に係る画像分類装置の第２実施形態における構成について説明する。

図１１に示すように、本実施形態における画像分類装置は、画像を登録する画像登録装置９０を備えている。なお、第１実施形態と同様な構成には同一の符号を付し、構成の説明は省略する。

画像登録装置９０は、第１の類似度を算出する第１の類似度算出手段２１と、第１の検索対象画像のデータを記憶する第１の画像ＤＢ２２と、第１の類似判定を行う第１の類似判定手段９１と、第２の類似度を算出する第２の類似度算出手段９２と、特徴量のデータを記憶する特徴量ＤＢ９３と、第２の類似判定を行う第２の類似判定手段９４とを備えている。

図１１に示すように、本実施形態における画像登録装置９０は、第１実施形態とほぼ構成を同じくするものであるが、２つの点で第１実施形態と異なる。

まず１つ目に、第１実施形態では、入力画像と、第１及び第２の検索対象画像を個々に比較していたが、本実施形態では、第２の検索対象画像について個々の画像と比較するのではなく、同じタグの付けられた様々な画像から特徴量を算出し、（特徴量算出方法については前述の画像比較手段５０と同様）それらを用いて非特許文献１記載のＳＶＭを用いることにより、識別を行うものとする。ＳＶＭは未知の入力に対して、比較的正確に分類を行うことのできる、即ち汎化性能の高い２値識別器である。そのため、ＳＶＭを利用することで、事前に、用意すべき画像の数が少なくて済む。更に、ＳＶＭはノイズ除去作用、同様のデータは無視すると言った特性を持つため、１つ１つの画像と比較するよりも、精度が高く、高速な識別が行える。なお、ＳＶＭの手法については後述する。

更に２つ目に、本実施形態では、画像にタグを付けるのではなく、所定のタグに関連付けられたフォルダに分類して保存することとしている。このとき、１つの画像に対して複数のタグを付けることができず、１つに絞らなければならない。一般的に、曖昧な情報よりも具体的な情報の方が優先されることが予想される。そのため、本実施形態では、第１の検索対象画像が入力画像に含まれている場合には、該検索対象画像に付与されたタグを入力画像に付与するとともに、第２の類似度算出手段９２及び第２の類似判定手段９４の処理を行わない構成とした。これにより、計算処理量が削減され、画像登録時にユーザの待ち時間が減ってユーザの利便性が向上する。

（ＳＶＭによる分類規則の生成方法）
次に、ＳＶＭによる分類規則の生成方法について説明する。ＳＶＭは数１４に示すように入力ベクトルと重みベクトルωとの内積が特定の閾値を超えていればｙ＝１を、超えていなければｙ＝−１を出力する識別器であり、出力ｙ＝１のとき入力画像は文書画像であり、出力ｙ＝−１のとき入力画像は写真画像であると判定するものとする。つまり、ＳＶＭの学習とは重みベクトルω及び閾値ｈを決定する作業である。なお、ＳＶＭの学習についての詳細な説明は前述の文献１に記載されているが、その概要を以下説明する。

図１３はＳＶＭの動作の概要を示したものである。まず前提条件として、図の左に示すように○×で表される２つの種類のベクトル群が存在するものとする。ＳＶＭはこれら２つのクラスを最適に分離するための超平面（図１３の右参照）を決定するためのアルゴリズムといえる。ＳＶＭにおいて、２つのベクトル群を最適に分割するとは、未知のベクトルが入力されたときの対応能力、つまり汎化能力を最大とするということと等価である。これを実現するために、２つのベクトル群の境界位置に存在するベクトル（Support Vector）を見つけて、このベクトルと超平面との距離が最大となるよう超平面を設定する。

ここで、実動作上、誤った教師データも存在するため、誤りの許容量（ソフトマージン）を設定するパラメータを決める必要がある。以上は、線形ＳＶＭについての説明であるが、実際の教師データは線形判別できるベクトル群とは限らない。しかし、特徴量ベクトルを、より高次の空間に射影し（カーネルトリック）、その空間上で超平面を求めることで、非線形な問題にも対応できる。

以上を実現するには、結果的に、教師データ（ｘ_ｉ，ｙ_ｉ）を用いて数１５の条件下で数１６を最大化するラグランジェ乗数ベクトルα_ｉを求めることになる。その後ラグランジェ乗数ベクトルの要素のうち０でない要素に対応する教師データ群Ｓ（これがサポートベクタとなる）と、そのうち、任意の１つの教師データ（ｘ_０，ｙ_０）を用いて超平面のパラメータω，ｈを求める（数１７、数１８）。

なお、数１６において、Ｋ（ｘ，ｙ）はカーネルトリックを実現するためのカーネル関数を示す。カーネル関数には様々なものが考案されているが、今回の実施形態ではＲＢＦ（Radial Basis Function）を用いた。ＲＢＦは数１９で示される関数でＣは任意の数値である。以上述べたように、ＳＶＭを用いて学習を行うにはソフトマージンの許容量を設定するパラメータγとカーネル関数であるＲＢＦを決定するためのＣを設定する必要があるが、文献２（Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines, 2001）に記載されたように、Ｃ及びγの範囲と、それらの値のステップ幅とを予め定めて、総当たりで識別率を算出し、最も良い識別率が得られるＣ及びγを決定するのが好ましい。

次に、本実施形態における画像分類装置の動作について図１１及び図１２を用いて説明する。図１２は、本実施形態における画像分類装置の動作を示すフローチャートである。

第１の類似判定手段２３は、入力画像と第１の検索対象画像とが類似しているか否かを予め定めた閾値に基づいて判定し（ステップＳ４１）、類似している場合には、第１の検索対象画像に付与されたタグと関連付けられたフォルダに入力画像のデータを移動する（ステップＳ４５）。

一方、ステップＳ４１において、入力画像と第１の検索対象画像とが類似していない場合、第２の類似度算出手段９２は、特徴量ＤＢ９３から所定の特徴量データを読み出し（ステップＳ４２）、ＳＶＭを用いて第２の類似度を算出する（ステップＳ４３）。算出された第２の類似度のデータは、第２の類似判定手段９４に送られる。

第２の類似判定手段９４は、第２の類似度算出手段９２により算出された類似度に基づき、入力画像と第２の検索対象画像とが画像全体で類似しているか否かを判定する（ステップＳ４４）。

ステップＳ４４において、第２の類似判定手段９４は、入力画像と第２の検索対象画像とが画像全体で類似している場合、第２の検索対象画像に付与されたタグと関連付けられたフォルダに入力画像のデータを移動し（ステップＳ４５）、入力画像と第２の検索対象画像とが画像全体で類似していない場合は処理を終了する。

以上のように、本実施形態における画像分類装置によれば、第２の類似度算出手段９２は、入力画像と第１の検索対象画像とが類似していない場合にのみ類似度を算出する構成としたので、１画像について１つの画像分類を行う場合において、不要な処理を削減して高速に画像分類処理を行うことができ、画像登録時にユーザの待ち時間を減少させ、ユーザの利便性を向上させることができる。

以上のように、本発明に係る画像分類装置及び画像分類方法は、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができるという効果を有し、プリンタ、複写機、デジタルカメラ及びＰＣやサーバのソフトウェア等として有用である。

本発明の第１実施形態における画像分類装置のブロック図本発明の第１実施形態における第１の類似度算出手段のブロック図本発明の第１実施形態における画像分類装置を実現するコンピュータのブロック図本発明の第１実施形態における画像分類装置においてウェブブラウザの立ち上げ時のダイアログ画面を示す図本発明の第１実施形態における画像分類装置においてキーワード登録時のダイアログ画面を示す図本発明の第１実施形態における画像分類装置の画像登録時の動作を示すフローチャート本発明の第１実施形態における第１の類似度算出手段の詳細な動作を示すフローチャート本発明の第１実施形態における画像分類装置のフィルタリングマトリクスの一例を示す図本発明の第１実施形態における模様特徴量の算出方法の説明図本発明の第１実施形態においてキーワード登録時のサーバＰＣの動作を示すフローチャート本発明の第２実施形態における画像登録装置のブロック図本発明の第２実施形態における画像分類装置の動作を示すフローチャート本発明の第２実施形態におけるＳＶＭの動作の概要を示す図

符号の説明

１０画像分類装置
２０画像登録装置
２１第１の類似度算出手段
２２第１の画像ＤＢ（第１の画像データ記憶手段）
２３、９１第１の類似判定手段（類似判定手段、キーワード付与手段）
２４、９２第２の類似度算出手段
２５第２の画像ＤＢ（第２の画像データ記憶手段）
２６、９４第２の類似判定手段（キーワード付与手段）
３０キーワード登録装置
３１領域指定手段
３２極値画素検出手段
３３登録手段
３４警告手段
４０局所領域抽出手段
４１、４２ＳＩＦＴ算出部（極値画素検出部、特徴量算出手段）
４３ＳＩＦＴ比較部（特徴量比較部）
４４対応点選定部（極値画素選定部）
４５対応領域抽出部（対応領域抽出部）
５０画像比較手段
７１キーワード入力ボックス
７２検索ボタン
７３画像登録ボタン
７４キーワード登録ボタン
７５画像表示領域
８０ダイアログ画面
８１画像選択ボタン
８２キーワード入力ボックス
８３登録ボタン
８４表示領域
８５警告表示領域
９３特徴量ＤＢ

Claims

キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類装置であって、
前記キーワードが付与されて登録された第１及び第２の画像のデータをそれぞれ記憶する第１及び第２の画像データ記憶手段と、予め定めた大きさの局所領域を前記入力画像及び前記第１の画像から抽出する局所領域抽出手段と、抽出した前記局所領域において前記入力画像と前記第１の画像との類似度を算出する第１の類似度算出手段と、前記入力画像の画像全体と前記第２の画像の画像全体との類似度を算出する第２の類似度算出手段と、前記第１及び前記第２の類似度算出手段が算出した類似度に基づいてキーワードを前記入力画像に付与するキーワード付与手段とを備えたことを特徴とする画像分類装置。
前記第１の画像データ記憶手段は、ユーザが具体的なキーワードを付与して登録した画像のデータを前記第１の画像のデータとして記憶するものであることを特徴とする請求項１に記載の画像分類装置。
前記第２の画像データ記憶手段は、予め定めた曖昧なキーワードが付された画像のデータを前記第２の画像のデータとして記憶するものであることを特徴とする請求項１又は請求項２に記載の画像分類装置。
前記局所領域抽出手段は、画像の特徴量が極値を示す極値画素を検出する極値画素検出部と、前記入力画像及び前記第１の画像のそれぞれにおいて前記極値画素近傍の画像特徴量を算出する特徴量算出手段と、算出した特徴量を比較する特徴量比較部と、前記入力画像及び前記第１の画像のそれぞれにおける極値画素の位置関係に基づいて極値画素を選定する極値画素選定部と、前記極値画素選定部が選定した極値画素の数に基づいて前記第１の画像に対応する画像領域を前記入力画像から抽出する対応領域抽出部とを備えたことを特徴とする請求項１から請求項３までのいずれか１項に記載の画像分類装置。
前記第１の類似度算出手段は、前記対応領域抽出部が抽出した画像領域の画像と前記第１の画像とを比較して前記類似度を算出する画像比較手段を備えたことを特徴とする請求項４に記載の画像分類装置。
前記極値画素検出部は、ユーザが前記第１の画像として登録する際の画像の極値画素を検出するものであって、
前記極値画素検出部が検出した前記極値画素の数が予め定めた数以下のとき前記ユーザに警告を与える警告手段を備えたことを特徴とする請求項４又は請求項５に記載の画像分類装置。
前記入力画像の特定の領域を指定する領域指定手段を備え、
前記第１の画像データ記憶手段は、前記領域指定手段が指定した領域の画像データを記憶するものであることを特徴とする請求項１から請求項６までのいずれか１項に記載の画像分類装置。
前記第１の類似度算出手段が算出した類似度に基づいて前記入力画像と前記第１の画像とが類似しているか否かを判定する類似判定手段を備え、
前記第２の類似度算出手段は、前記入力画像と前記第１の画像とが類似していない場合にのみ前記画像全体に係る類似度を算出するものであることを特徴とする請求項１から請求項７までのいずれか１項に記載の画像分類装置。
キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類方法であって、
前記キーワードが付与されて登録された第１及び第２の画像のデータをそれぞれ記憶するステップと、予め定めた大きさの局所領域を前記入力画像及び前記第１の画像から抽出するステップと、抽出した前記局所領域において前記入力画像と前記第１の画像との類似度を算出するステップと、前記入力画像の画像全体と前記第２の画像の画像全体との類似度を算出するステップと、前記第１及び前記第２の画像によって算出した類似度に基づいてキーワードを前記入力画像に付与するステップとを含むことを特徴とする画像分類方法。