JP2012042990A

JP2012042990A - 画像識別情報付与プログラム及び画像識別情報付与装置

Info

Publication number: JP2012042990A
Application number: JP2010180771A
Authority: JP
Inventors: Motofumi Fukui; 基文福井; Sukeji Kato; 典司加藤; Bunen Seki; 文渊戚
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2010-08-12
Filing date: 2010-08-12
Publication date: 2012-03-01
Anticipated expiration: 2030-08-12
Also published as: US8538173B2; JP5521881B2; AU2011200343B2; US20120039541A1; AU2011200343A1; CN102376079B; CN102376079A

Abstract

【課題】画像の全体に対して識別情報を付与する場合において、本構成を有しない場合と比較して、高速に識別情報を付与する画像識別情報付与プログラム及び画像識別情報付与装置を提供する。
【解決手段】本装置は、対象画像から選択された部分領域に対する第１の特徴ベクトルを算出する算出手段と、学習用画像の部分領域に対して算出された第２の特徴ベクトルと学習用画像全体に対して付与された第２の識別情報とに基づいて決定木群を用いて対象画像の内容を表す第１の識別情報を当該対象画像に付与する手段であって、第２の特徴ベクトル群と第２の識別情報群を決定木群に流したとき、決定木群の各葉に到達した第２の識別情報の数の全体に対する割り合いから求まる尤度関数を掛け合わせたものと第１の特徴ベクトルの事前確率を掛け合わせたものとの比に、第２の識別情報の事前確率を掛けることにより、第１の識別情報を決定して付与する付与手段とを備える。
【選択図】図１

Description

本発明は、画像識別情報付与プログラム及び画像識別情報付与装置に関する。

近年、画像全体及び画像の部分領域に対して、その領域の内容を説明するクラスラベルを自動的に付与する技術の研究が行われている。この技術は、画像アノテーション技術と呼ばれ、画像特徴とその画像特徴を説明する言語的意味を持つラベルとを対応付ける技術である。画像アノテーション技術は、画像検索をはじめとする画像関連のアプリケーションへの応用が期待されている。

画像アノテーション技術として、複数の学習用画像の各々を画像分割する手段と、付加されている文書を当該分割された複数の分割画像に対してそれぞれ付随させる手段と、複数の分割画像をその画像特徴が類似する画像同士に分類する手段と、分類した画像に付随した文書中の単語の出現頻度を計数する手段と、計数された出現頻度の上位所定数に対応する単語を分類の意味内容を示す単語として抽出する手段とを具えた画像の分類装置が提案されている（例えば、特許文献１参照）。

画像とラベルがペアになった学習データは、ＷＥＢ画像検索などを使って容易に集めることができる。この入手容易な学習データを用いた画像アノテーションシステムを実現する代表的な先行技術としては、ＳＭＬ（Semantic Multi-class Labelling）がある（例えば、非特許文献１参照）。

また、ＳＭＬ以外の代表的な先行技術としては、ｋＮＮベースの手法が提案されている（例えば、非特許文献２〜４参照）。ｋＮＮベースの手法は、ラベルを付与したい画像から抽出した特徴ベクトルと距離的に近い学習用画像から抽出した特徴ベクトルを選び、その特徴ベクトルに対して付与されたラベルを付与する。

特開２０００−３５３１７３号公報

G.Carneiro, AB.Chan, PJ.Moreno, and N.Vasconcelos, "Supervised Learning of Semantic Classes for Image Annotation and Retrieval.", TPAMI, 2007 中山, 原田, 国吉, 大津, "画像・単語間概念対応の確率構造学習を利用した超高速画像認識・検索方法.", PRMU2007-12. T.Bailloeul, C.Zhu, and Y.Xu, "Automatic Image Tagging As a Random Walk with Priors on the Canonical Correlation Subspace.", MIR, 2008. M.Guillaumin, T.Mensink, J.Verbeek, and C.Schmid, "TagProp: Discriminative Metric Learning in Nearest Neigbor Models for Image Auto-Annotation.", ICCV, 2009.

ところで、ＳＭＬでは、画像の領域の内容を表す識別情報毎に混合ガウス分布を算出する必要がある。ｋＮＮベースの手法では、対象となる特徴ベクトルと学習用画像から抽出した各特徴ベクトルとの間の距離を計算する必要がある。

本発明の課題は、画像の全体に対して識別情報を付与する場合において、本構成を有しない場合と比較して、高速に識別情報を付与する画像識別情報付与プログラム及び画像識別情報付与装置を提供することにある。

［１］コンピュータを、処理対象の画像から選択された部分領域に対する第１の特徴ベクトルを算出する特徴ベクトル算出手段と、学習用の画像の部分領域に対して算出された第２の特徴ベクトルと前記学習用の画像の全体に対して付与された第２の識別情報とに基づいてあらかじめ生成した決定木群を用いて処理対象の画像の内容を表す第１の識別情報を当該処理対象の画像に付与する手段であって、前記第２の特徴ベクトル群と前記第２の識別情報群を前記決定木群に流したとき、前記決定木群の各葉に到達した前記第２の識別情報の数の全体に対する割り合いから求まる尤度関数を掛け合わせたものと前記特徴ベクトル算出手段によって算出された第１の特徴ベクトルの事前確率を掛け合わせたものとの比に、前記第２の識別情報の事前確率を掛けることにより、前記処理対象の画像の全体に対して前記第１の識別情報を決定して付与する画像識別情報付与手段として機能させるための画像識別情報付与プログラム。

［２］前記画像識別情報付与手段は、前記決定木群の各葉に到達した前記第２の識別情報に応じた重み付けを行うことにより前記処理対象の画像の全体に対する前記第１の識別情報を求める前記［１］に記載の画像識別情報付与プログラム。

［３］前記画像識別情報付与手段は、前記特徴ベクトル算出手段によって算出され第１のた特徴ベクトルと前記決定木群ｎから前記処理対象の画像の部分領域に対する識別情報を決定して付与する前記［１］乃至［２］のいずれかに記載の画像識別情報付与プログラム。

［４］処理対象の画像から選択された部分領域に対する第１の特徴ベクトルを算出する特徴ベクトル算出手段と、学習用の画像の部分領域に対して算出された第２の特徴ベクトルと前記学習用の画像の全体に対して付与された第２の識別情報とに基づいてあらかじめ生成した決定木群を用いて処理対象の画像の内容を表す第１の識別情報を当該処理対象の画像に付与する手段であって、前記第２の特徴ベクトル群と前記第２の識別情報群を前記決定木群に流したとき、前記決定木群の各葉に到達した前記第２の識別情報の数の全体に対する割り合いから求まる尤度関数を掛け合わせたものと前記特徴ベクトル算出手段によって算出された第１の特徴ベクトルの事前確率を掛け合わせたものとの比に、前記第２の識別情報の事前確率を掛けることにより、前記処理対象の画像の全体に対して前記第１の識別情報を決定して付与する画像識別情報付与手段とを備えた画像識別情報付与装置。

請求項１及び４に係る発明によれば、画像の全体に対して識別情報を付与する場合において、本構成を有しない場合と比較して、高速に識別情報を付与することができる。

請求項２に係る発明によれば、決定木の各葉の多次元空間内での体積がばらつく場合において、識別情報の精度を高めることができる。

請求項３に係る発明によれば、画像の部分領域に対して識別情報を付与することができる。

図１は、本発明の実施の形態に係る画像識別情報付与装置の構成の一例を示すブロック図である。図２は、学習コーパスの一例を示す図である。図３は、画像における部分領域選択の一例を示す図である。図４は、画像における部分領域選択の他の例を示す図である。図５は、画像における部分領域選択の他の例を示す図である。図６は、画像における部分領域選択の他の例を示す図である。図７は、決定木の作成方法の一例を示すフローチャートである。図８は、確率テーブルの作成方法の一例を示す図である。図９は、確率テーブルの一例を示す図である。図１０は、事後確率の計算方法の一例を示す図である。図１１は、事後確率の計算方法の他の例を示す図である。図１２は、本発明の実施の形態に係る画像識別情報付与装置の動作の一例を示すフローチャートである。

図１は、本発明の実施の形態に係る画像識別情報付与装置の構成の一例を示すブロック図である。

この画像識別情報付与装置１は、ＣＰＵ等を有して構成された制御部２と、各種のプログラムやデータを記憶するＲＯＭ、ＲＡＭ、ＨＤＤ等から構成された記憶部３と、画像を光学的に読み取るスキャナ等の画像入力部４と、液晶ディスプレイ等の表示部５とを備え、決定木群を識別器として用いるランダムフォレスト法を画像アノテーション技術（画像識別情報付与技術）に適用したものである。ランダムフォレスト法は非特許文献５，６などで提案されている識別モデルの一種である。
L.Breiman, "Random Forests.", Machine Learning, 2001. F.Moosman, E.Nowak, and F.Jurie, "Randomized Clustering Forests for Image Classification.", TPAMI, 2008.

画像アノテーション技術（画像識別情報付与技術）は(特許文献１)特開２０００−３５３１７３号公報において提案されて以降、様々な手法が提案されている。特許文献１で提案されている手法では先ず、学習用画像を格子状に分割し、各格子領域から色や傾きなどの簡易な特徴量を抽出する。続いて、抽出した特徴量をいくつかのグループにクラスタリング（量子化）する。テスト時には、同様に格子領域から画像特徴を抽出し、その画像特徴を先にクラスタリングによって作成したグループに対して割り付けを行う。ｆを画像特徴、ｃをクラスラベルとすると、該当格子領域に対するクラスｃの事後確率Ｐ（ｃ｜ｆ）は、該当するグループ内に存在する学習用画像のクラスｃの出現頻度により算出する。その後画像全体で事後確率を平均化することにより、画像全体に対するクラスラベルの確率Ｐ（ｃ）を算出する。この方法を用いると格子領域が十分に細かい場合、処理時間は長くなるが、画像全体及び画像の部分領域に対してクラスラベルを付与することができる。

（画像入力部）
画像入力部４は、画像識別情報を付与する対象画像（テスト画像）を入力するものであり、スキャナに限られず、ＵＳＢメモリ、ＣＤ−ＲＯＭ等の記録媒体から対象画像を入力してもよく、ネットワークに接続されたインタフェースを介して対象画像を入力してもよい。

（記憶部）
記憶部３は、画像識別情報付与プログラム３０等の各種のプログラムや、学習用画像３１０とクラスラベル（識別情報）３１１が対になった学習コーパス３１と、決定木群データ３２、確率テーブル３３等の各種のデータを記憶する。

学習コーパス３１は、学習用画像３１０とクラスラベル３１１が対になったものであり、学習データとして使用される。クラスラベル３１１は、一般的に複数のラベルから構成される。学習コーパス３１は、キーワードによる画像検索装置、電子図鑑、ＷＥＢ文書内の画像及びその近くにあるテキストの対などを用いることにより、画像とそれを説明するクラスラベルとして容易に入手することが可能である。しかしながら、これらの方法で収集した学習データは、画像のどの部分がどのクラスラベルに相当するかの対応関係が明らかではない。

図２は、学習コーパスの一例を示す図である。学習用画像３１０には、クラスラベル３１１として４つのラベル「犬、芝生、木、顔」が与えられているが、各ラベルが画像３１０のどの領域を説明するものなのかは事前には判定不能である。従って、学習コーパス３１は、全てのクラスラベル３１１が、画像３１０の全ての画像領域を説明するものとして取り扱う。

（制御部）
制御部２のＣＰＵは、画像識別情報付与プログラム３０に従って動作することにより、学習データ取得手段２１、画像領域選択手段２２、特徴ベクトル算出手段２３、決定木作成手段２４、確率テーブル作成手段２５を含む学習手段２０Ａとして機能し、画像受付手段２６、画像領域選択手段２７、特徴ベクトル算出手段２８、画像識別情報付与手段２９を含むテスト手段２０Ｂとして機能する。

（学習データ取得手段）
学習データ取得手段２１は、収集した学習データの中から実際に学習に使用する学習用画像を選択する部位である。学習データ取得手段２１は、全ての学習用画像を選択してもよいし、一部の学習用画像のみを選択してもよい。学習データ取得手段２１が一部の学習用画像を選択する手法は、基本的にはランダム選択を用いるが、学習データの全クラスラベルのうち必要なラベルを少なくとも一度は含むように選択することが望ましい。学習データ取得手段２１は、後述の決定木作成手段２４において、直前に生成した決定木を使用した場合に、分類性能が悪い学習用画像からサンプリングする手法をとってもよい。

（画像領域選択手段）
画像領域選択手段２２は、学習データ取得手段２１において選択した画像群の中から、事前に定めた個数分（＝合計Ｓ）だけ学習用画像の部分領域３１０ａとなる画像領域を選択する。画像領域の選択方法としては、あるサイズ以上の矩形領域を任意に選択してもよいし、画像中の注目点を中心に持つ画像領域を選択してもよいし、対象画像を格子状や各種クラスタリング手法により領域分割し、生成された部分領域を選択してもよい。学習用画像ごとに選択される画像領域の個数は同一である必要はなく、１つも選択されない画像が存在してもよい。

図３は、画像における部分領域選択の一例を示す図であり、矩形領域を３つ選択した例を示している。図４はＨａｒｒｉｓオペレータ（特徴点抽出アルゴリズム）によって抽出された画像の特徴点を中心として事前に定めた半径を持つ円により４つの領域を選択した例であり、図５は画像を格子状に４×４分割し、そのうちの４領域を選択した例であり、図６は領域分割した後、生成された領域５つをすべて選択した例を示す図である。

（特徴ベクトル算出手段）
特徴ベクトル算出手段２３は、画像領域選択手段２２において選択した部分領域３１０ａから画像特徴を抽出し、選択した部分領域３１０ａ全体の特徴を表現する特徴ベクトルｆを生成する部位である。抽出する画像特徴としては、色、輝度、テクスチャ情報などの特徴量が考えられる。画像特徴をベクトル化する手法としては、これら画素単位で抽出した特徴量の平均値を用いてもよいし、全特徴量を量子化してその度数分布を算出するＢａｇｏｆＦｅａｔｕｒｅの形式にしてもよい。

（決定木作成手段）
決定木作成手段２４は、特徴ベクトル算出手段２３によって算出された特徴ベクトル群を用いて決定木を作成する。決定木作成手段２４は、クラスラベル全体の集合をＬとし、Ｌに属するラベルをｃ_ｉとする（０≦ｉ≦ｎ−１｜ｎはラベルの総数）。また画像Ｉ_ｊに付与されたラベル群をＬ_ｊとする。例えば、画像Ｉ_ｊには、Ｌ_ｊ＝｛ｃ_０，ｃ_１，ｃ_２｝と３つのラベルが付与される。このとき、画像Ｉ_ｊから選択されたｋ番目の部分領域Ｉ_ｊ ^ｋに対する特徴ベクトルｆ_ｊ ^ｋにも、クラスラベルとしてＬ_ｊが付与される。ここで、決定木Ｔ_ｉのｔ番目のノードをｎ（ｉ，ｔ）とする。ｔ＝０はルートノードを意味する。各ノードｎ（ｉ，ｔ）からはｎ（ｉ，ｌ）とｎ（ｉ，ｒ）が作成される。ここで、ｌ＝２ｔ＋１，ｒ＝２ｔ＋２である。ノードｎ（ｉ，ｔ）にたどり着いた学習データ群をＫ_ｉ ^ｔと表現する。このとき、データ群Ｋ_ｉ ^ｔはＫ_ｉ ^ｌとＫ_ｉ ^ｒに分かれる。決定木においては、｜Ｋ_ｉ ^ｔ｜＝｜Ｋ_ｉ ^ｌ｜＋｜Ｋ_ｉ ^ｒ｜、Ｋ_ｉ ^ｌ∩Ｋ_ｉ ^ｒ＝０が成立する。ここで｜Ａ｜は、集合Ａに属するデータ数を意味するものとする。この分割処理は、｜Ｋ_ｉ ^ｔ｜≦ｔｈなるある事前に定めた閾値定数ｔｈをノードに到達するデータ数が下回るまで繰り返し分割される。一般的にｔｈは小さい方が性能がよい（究極的にはｔｈ＝１が理想である）。

決定木を作成するための分割手法としてはいくつかの手法が提案されているが、ここでは実施例として非特許文献６で提案された手法を画像アノテーション課題に適用させたものを示す。この分割手法は、特徴ベクトルｆ_ｊ ^ｋのｍ次元目の要素をｆ_ｊ ^ｋ _ｍとすると、ノードｎ（ｉ，ｔ）に対して閾値θと次元ｍを定め、ｆ_ｊ ^ｋ _ｍがθより小さい場合はｆ_ｊ ^ｋをＫ_ｉ ^ｌに、それ以外の場合はＫ_ｉ ^ｒに配分する。このとき、ノードｎ（ｉ，ｔ）におけるエネルギー（シャノンエントロピー）をＳ（Ｋ_ｉ ^ｔ）とすると、Ｓ（Ｋ_ｉ ^ｔ）は以下の（数１）により算出できる。

ここでＨ_１（Ｋ_ｉ ^ｔ）はＫ_ｉ ^ｔのラベル分布のエントロピーであり、以下の（数２）により表すことができる。

ここでｃはラベルであり、ｎ_ｃはＫ_ｉ ^ｔの中でラベルｃが付与されたデータの個数に相当する値であり、データの個数そのものでもよいし、該当特徴ベクトルに付与されたラベルがｎ個あった場合、１．０／ｎとして数えてもよい。また、Ｈ_２（Ｋ_ｉ ^ｔ）はＫ_ｉ ^ｔを２つのノードに分けたときのエントロピーであり、以下の（数３）により表すことができる。

また、Ｉ（Ｋ_ｉ ^ｔ）は以下の（数４）により表すことができる。

Ｈ_１（Ｋ_ｉ ^ｔ）は全てのｎ_ｃの偏りが大きい場合に最大となり、Ｈ_２（Ｋ_ｉ ^ｔ）は左右の分岐でデータの個数が同じ場合に最大となる。総合的にみてこの両条件が揃うときに、エネルギーＳ（Ｋ_ｉ ^ｔ）は最大となる。決定木作成手段２４は、ノードｎ（ｉ，ｔ）においてエネルギーＳ（Ｋ_ｉ ^ｔ）ができるだけ大きくなるように、次元ｍ及び閾値θを選択する。決定木作成手段２４は、左右の分岐いずれかが０になるような分割を行わないようにし、どのようなパラメータでもそのようになってしまう場合は分岐を行わず、該当ノードをリーフ（分岐の終点＝葉）とする。コンピュータに実装されるプログラムは、計算速度を優先させるため、次元を数回選択し、そのうえで閾値θを逐次的に変化させることにより、最適なパラメータを決定する。ノードは最終的にリーフ（葉）となり、決定木の分岐はそこで終了するが、各木におけるリーフの個数はｔｈ＝１の場合に最大となり、選択した画像領域数（＝Ｓ）となる。リーフは画像の領域分割におけるクラスタに相当するが、決定木作成手段２４は距離計算を伴わないため、距離計算を伴う場合と比べて高速に計算できる。

学習手段２０Ａでは、以上の操作（画像選択、領域選択、決定木作成）を繰り返すことにより、決定木群を作成することができる。決定木作成手段２４では、作成した決定木を決定木データ３２として記憶部３に記憶する。

図７は、決定木の作成方法の一例を示すフローチャートである。θ_ｔ及びｍ_ｔは枝における分岐パラメータであり、Ｓ_ｔはその時のエントロピーに相当するスコアである。図７に示す決定木の作成方法は、特徴要素の最小値をｉｎｉｔ＿ｖａｌ、最大値をｍａｘ＿ｖａｌとし、ｌｏｏｐ＿ｎｕｍは事前に定めた特徴次元選択回数である。

木の個数及び最大深度を事前に決定する（Ｓ１）。特徴ベクトルｆとクラスラベルＬのペアを選択する（Ｓ２）。ｔ＝０にリセットし（Ｓ３）、ノードｎ（ｔ）が枝か否かを判定し（Ｓ４）、ノードｎ（ｔ）が枝のときは（Ｓ４：Ｙｅｓ）、θ_ｔ、ｍ_ｔ、Ｓ_ｔを初期化する（Ｓ５）。ｌｏｏｐ＝０とし（Ｓ６）、ランダムに次元ｍを選択し、閾値θをｉｎｉｔ＿ｖａｌに設定する（Ｓ７）。エントロピーＳ（Ｋ^ｔ）を算出し（Ｓ８）、Ｓ（Ｋ^ｔ）が最大か否かを判定し（Ｓ９）、Ｓ（Ｋ^ｔ）が最大のときは（Ｓ９：Ｙｅｓ）、θ_ｔ＝θ、ｍ_ｔ＝ｍ、Ｓ_ｔ＝Ｓ（Ｋ^ｔ）とし（Ｓ１０）、θ＝Δθとする（Ｓ１１）。次に、θ≧ｍａｘ＿ｖａｌか否かを判定し（Ｓ１２）、θ≧ｍａｘ＿ｖａｌであれば（Ｓ１２：Ｙｅｓ）、ｌｏｏｐ＝１とし（Ｓ１３）、ｌｏｏｐ≧ｌｏｏｐ＿ｎｕｍか否かを判定し（Ｓ１４）、ｌｏｏｐ≧ｌｏｏｐ＿ｎｕｍであれば（Ｓ１４：Ｙｅｓ）、ｔ＝１とし（Ｓ１５）、すべて最大深度に到達し、又はすべてのリーフが終了したか否かを判定し（Ｓ１６）、すべて最大深度に到達し、又はすべてのリーフが終了したら（Ｓ１６：Ｙｅｓ）、次の決定木に進むか、次の決定木が無ければ、終了する。エントロピーを用いて分岐することにより、左右のノード間でデータ数がほぼ等しくなり、度数分布の差が大きくなる。

（確率テーブル作成手段）
確率テーブル作成手段２５は、決定木作成手段２４において作成した決定木群の各リーフに対して、クラスラベルの個数を数える部位である。確率テーブル作成手段２５は、クラスラベルの個数を数える際に、全学習データを用いて算出してもよいし、各決定木毎に選択したサンプルのみで算出してもよいが、一般的には前者の方が高性能な結果を得ることができる。

図８は、確率テーブル（確率一覧）の作成方法の一例を示す図であり、決定木６及びその特定リーフ７でのクラスラベルの度数分布を示す。確率テーブル作成手段２５は、全学習用画像から確率テーブルを作成する場合に、学習データ群について前述のように画像ごとに特定個数の矩形領域を算出してもよいし、画像領域分割の結果算出された全領域を選択してもよい。確率テーブル作成手段２５は、得られた全特徴ベクトルと付随するクラスラベルを各決定木に流したとき、リーフ７でのラベルの個数を数える。テーブルを作る際に度数０となるラベルも存在するが、確率テーブル作成手段２５は、過学習を防ぐ意味合いで、全てのクラスラベルの度数に一定値α（通常１より十分小さくする）を加算してもよい。

図９は、確率テーブル３３の一例を示す。リーフｌ^１，ｌ^２，・・・，ｌ^ｎ毎にクラスラベルC_１，C_２，・・・，C_ｎの度数が記録されている。

（画像識別情報付与手段）
画像識別情報付与手段２９は、アノテーション（識別情報）を付与する対象画像（テスト画像）から抽出した個々の特徴ベクトルに対して、クラスラベルの確率を計算する部位である。画像識別情報付与手段２９は、テスト画像から領域を選択する際に、学習時と同一の領域選択方法を選ぶこととし、その領域から選択する画像特徴も学習時と同じ特徴を使用する。テスト画像Ｉから抽出した特徴ベクトル群をＧ＝｛ｇ_１，ｇ_２，．．．．．，ｇ_ｎ｝とする。ここでｇ_ｋはテスト画像Ｉの部分画像領域Ｉ^ｋから抽出した特徴ベクトルである。画像識別情報付与手段２９において求めたい確率はＰ（ｃ｜Ｇ）であり、この値が大きいクラスｃをアノテーションの結果とする。

画像識別情報付与手段２９は、画像１枚から抽出する特徴ベクトルが１つである場合に、その特徴ベクトルが決定木のどのリーフにたどり着くかを算出し、そのリーフ上でのクラスラベルの度数分布をみることにより、クラスラベルを決定することができる。一方、１枚の画像から抽出する特徴ベクトルが複数の場合には、各領域ごとに識別し、それらを平均する手法が考えられるが、高性能な結果を得ることは困難である。

従来技術では、画像分類にランダムフォレスト法を適用する場合には事後確率Ｐ（ｃ｜ｇ）を計算するのが普通である。事後確率の集合Ｐ（ｃ｜Ｇ）は、部分領域の数をｎ、特徴ベクトルをｇ（数はｎ個）とすると、各部分領域のクラスラベルの事後確率を平均化する、以下の（数５）によって表すことができる。

事後確率Ｐ（ｃ｜ｇ）は、決定木をＴ個用いるとしたとき、以下の［数６］により表す
ことができる。

ここでｌ^ｔは、ｔ番目の決定木において、特徴ベクトルｇがたどりつくリーフノードを示す。（数６）の右辺の事後確率は前述のｌ^ｔに対応する確率テーブルにより容易に算出することができる。以上の手法は、通常のランダムフォレスト法であるが、異なるリーフの独立性が保障されないため、性能が確保されない。

そこで画像識別情報付与手段２９は、事後確率Ｐ（ｃ｜ｇ）を計算するのではなく、尤度関数Ｐ（ｇ｜ｃ）を直接計算する。これにより、事後確率の集合Ｐ（ｃ｜Ｇ）は、ベイスの定理及び特徴ベクトルの独立性から、以下の（数７）により表すことができる。

計算式（７）において、クラスラベルの事前確率Ｐ（ｃ）は、学習データのラベル分布から容易に計算できる。例えばラベルｃが付随した学習画像の枚数を学習用画像の総数で除するなどにより算出できる。また、各特徴ベクトルの事前確率Ｐ（ｇ）は、学習データの総ラベル数をＴｏｔａｌ＿Ｌａｂｅｌ＿Ｎｕｍとし、末端のリーフｌ^ｔに到達した学習データの総ラベル数をＬａｂｅｌ＿Ｎｕｍ（ｌ^ｔ）とすると、以下の（数８）により表すことができる。

（数８）において、加算項の中は、該当する末端のリーフに到達した学習データに付随するラベル数の全体に対する割合をｗ（ｌ^ｔ）で割ったものである。ここでｗ（ｌ^ｔ）は、リーフの体積に基づく重み係数である。また、尤度関数Ｐ（ｇ｜ｃ）は、同様にリーフｌ^ｔに存在する学習データのクラスラベルｃの総数をＬａｂｅｌ＿Ｎｕｍ（ｃ，ｌ^ｔ）とし、学習データのクラスラベルｃの総数をＴｏｔａｌ＿Ｌａｂｅｌ＿Ｎｕｍ（ｃ）とすると、以下の（数９）により表すことができる。

（数９）において、加算項の中は、該当する末端のリーフに到達した学習データに付随するクラスｃの度数のクラスｃの度数全体に対する割合をｗ（ｌ^ｔ）で割ったものである。（数８）及び（数９）中の度数は、確率テーブル作成手段２５において作成した確率テーブルから容易に算出することができ、画像識別情報付与手段２９は事後確率（ｃ｜Ｇ）を計算できる。

（事後確率の計算方法の変形例１）
図１０は、事後確率の計算方法の変形例１を示す図である。別の実施例としては、単純に上記確率テーブルを用いるのではなく、図１０に示すように該当リーフ７内で特徴ベクトルｇからの距離が一定値以下であるような学習データのみを考慮してもよい。

（事後確率の計算方法の変形例２）
図１１は、事後確率の計算方法の変形例２を示す図である。図１１に示すように該当リーフ７内でラベルの度数を計算する際に特徴ベクトルｇとの距離に応じて重みを付けて数えてもよい。画像識別情報付与手段２９は、決定木の深度が十分にあり、リーフの個数が十分にある場合に、ｗ（ｌ^ｔ）の値がリーフに依存しないものとして、全ての値を一定値に設定してもよく、この場合は（数５）と同等となる。

また、別の一例としては、リーフｌ^ｔに存在する学習用特徴ベクトルがｋ個あるとして（順にｆ_１，ｆ_２，．．．．，ｆ_ｋとする）、ｗ（ｌ^ｉ）は以下の（数１０）により定義することができる。

ここでｄ（ｆ_ｉ，ｆ_ｊ）^ｎは距離関数で、Ｚは正規化項を示す。また、ｗ（ｌ^ｉ）は以下の（数１０）により定義することもできる。

また、中間値(メディアン)によってｗ（ｌ^ｔ）を定めてもよい。決定木を用いた識別器では、分岐ノードにおいて閾値が定まるので、直接リーフの体積を見積もることもできる。ここでｎは特徴ベクトルの次元数を意味する。画像領域が多い場合、（数７）の値は小さくなるので、事後確率を評価する際には対数尤度を計算することにする。その際確率テーブルの底上げ定数αを導入すると確率Ｐ（ｇ｜ｃ）が０になることはないので、低出現ラベルに対する事後確率も評価することができる。

以上の手法により、画像識別情報付与手段２９は、画像に対して選択した部分領域に対して尤度関数Ｐ（ｇ｜ｃ）を計算し、ベイスの定理を用いて事後確率Ｐ（ｃ｜ｇ）を計算し、閾値以上の値をもつクラスラベルｃ又は上位何個かの値をもつクラスラベルｃを選択することにより、その部分領域に対してアノテーションを付けることができ、さらにそれらの結果を計算式（７）によりまとめることで事後確率の集合Ｐ（ｃ｜Ｇ）を計算することができ、画像全体に対して同様にラベルを付与することができる。

（画像識別情報付与装置の動作）
次に、画像識別情報付与装置１の動作の一例を図１２に示すフローチャートに従い、学習段階とテスト段階に分けて説明する。

（１）学習段階
学習データ取得手段２１は、記憶部３に記憶されている学習コーパス３１の全て又は一部を学習データとして取得する（Ｓ２０）。

画像領域選択手段２２は、学習データ取得手段２１が取得した学習用画像の部分領域３１０ａとなる画像領域を選択する（Ｓ２１）。

特徴ベクトル算出手段２３は、画像領域選択手段２２により選択された部分領域３１０ａから画像特徴を抽出し、部分領域３１０ａ全体の特徴を表現する特徴ベクトルｆを生成する（Ｓ２２）。

決定木作成手段２４は、特徴ベクトル算出手段２３において算出した特徴ベクトル群を用いて決定木を作る（Ｓ２３）。

確率テーブル作成手段２５は、決定木作成手段２４において作成した決定木群の各リーフに対して、クラスラベルの個数を数え、その結果を記憶部３の確率テーブル３３に記録する（Ｓ２４）。

（２）テスト段階
画像入力部４が制御部２に対象画像を入力すると、制御部２のテスト手段２０Ｂの画像受付手段２６は、入力された対象画像を受け付ける（Ｓ２５）。

画像領域選択手段２７は、画像受付手段２６が受け付けた対象画像の部分領域となる画像領域を選択する画像領域を選択する（Ｓ２６）。

特徴ベクトル算出手段２８は、画像領域選択手段２７により選択された部分領域から画像特徴を抽出し、部分領域全体の特徴を表現する特徴ベクトルｇを生成し、画像識別情報付与手段２９に出力する（Ｓ２７）。

画像識別情報付与手段２９は、特徴ベクトル算出手段２８から出力された特徴ベクトルｇ、及び記憶部３の確率テーブル３３を用いて、（数８）、（数９）による計算を行い、それらの結果を用いて計算式（７）による計算を行い、最も度数の高いクラスラベルを画像識別情報として対象画像全体に付与する（Ｓ２８）。

なお、対象画像の部分領域に付与するクラスラベルを決定木を用いて求めることができる。この場合、画像識別情報付与手段２９は、特徴ベクトル算出手段２８から出力された特徴ベクトルｇ、及び記憶部３に記憶されている決定木データ３２を用いて部分領域に対するクラスラベルを求める。

［他の実施の形態］
なお、本発明は、上記実施の形態に限定されず、発明の要旨を逸脱しない範囲で種々に変形が可能である。例えば、上記実施の形態で用いたプログラムをＣＤ−ＲＯＭ等の記録媒体に記憶して提供することもできる。また、上記実施の形態の各手段２１〜２９の全て又は一部をＡＳＩＣ等のハードウエアによって実現してもよい。また、上記実施の形態で説明した上記ステップの入替え、削除、追加等は可能である。

１…画像識別情報付与装置、２…制御部、３…記憶部、４…画像入力部、５…表示部、６…決定木、７…リーフ、２０Ａ…学習手段、２０Ｂ…テスト手段、２１…学習データ取得手段、２２…画像領域選択手段、２３…特徴ベクトル算出手段、２４…決定木作成手段、２５…確率テーブル作成手段、２６…画像受付手段、２７…画像領域選択手段、２８…特徴ベクトル算出手段、２９…画像識別情報付与手段、３０…画像識別情報付与プログラム、３１…学習コーパス、３１０…学習用画像、３１０ａ…部分領域、３１１…クラスラベル

Claims

コンピュータを、
処理対象の画像から選択された部分領域に対する第１の特徴ベクトルを算出する特徴ベクトル算出手段と、
学習用の画像の部分領域に対して算出された第２の特徴ベクトルと前記学習用の画像の全体に対して付与された第２の識別情報とに基づいてあらかじめ生成した決定木群を用いて処理対象の画像の内容を表す第１の識別情報を当該処理対象の画像に付与する手段であって、前記第２の特徴ベクトル群と前記第２の識別情報群を前記決定木群に流したとき、前記決定木群の各葉に到達した前記第２の識別情報の数の全体に対する割り合いから求まる尤度関数を掛け合わせたものと前記特徴ベクトル算出手段によって算出された第１の特徴ベクトルの事前確率を掛け合わせたものとの比に、前記第２の識別情報の事前確率を掛けることにより、前記処理対象の画像の全体に対して前記第１の識別情報を決定して付与する画像識別情報付与手段として機能させるための画像識別情報付与プログラム。
前記画像識別情報付与手段は、前記決定木群の各葉に到達した前記第２の識別情報に応じた重み付けを行うことにより前記処理対象の画像の全体に対する前記第１の識別情報を決定して付与する請求項１に記載の画像識別情報付与プログラム。
前記画像識別情報付与手段は、前記特徴ベクトル算出手段によって算出された第１の特徴ベクトルと前記決定木群から前記処理対象の画像の部分領域に対する識別情報を決定して付与する請求項１又は２に記載の画像識別情報付与プログラム。
処理対象の画像から選択された部分領域に対する第１の特徴ベクトルを算出する特徴ベクトル算出手段と、
学習用の画像の部分領域に対して算出された第２の特徴ベクトルと前記学習用の画像の全体に対して付与された第２の識別情報とに基づいてあらかじめ生成した決定木群を用いて処理対象の画像の内容を表す第１の識別情報を当該処理対象の画像に付与する手段であって、前記第２の特徴ベクトル群と前記第２の識別情報群を前記決定木群に流したとき、前記決定木群の各葉に到達した前記第２の識別情報の数の全体に対する割り合いから求まる尤度関数を掛け合わせたものと前記特徴ベクトル算出手段によって算出された第１の特徴ベクトルの事前確率を掛け合わせたものとの比に、前記第２の識別情報の事前確率を掛けることにより、前記処理対象の画像の全体に対して前記第１の識別情報を決定して付与する画像識別情報付与手段とを備えた画像識別情報付与装置。