JP6664163B2

JP6664163B2 - 画像識別方法、画像識別装置及びプログラム

Info

Publication number: JP6664163B2
Application number: JP2015155462A
Authority: JP
Inventors: 貴之猿田; 俊太舘
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-08-05
Filing date: 2015-08-05
Publication date: 2020-03-13
Anticipated expiration: 2035-08-05
Also published as: JP2017033469A; US20170039417A1; US10438059B2

Description

本発明は、画像を予め定められたクラスごとの領域に分割するための技術に関する。

従来から、画像シーンの認識や被写体に応じた画質補正等の後段処理のために、画像を複数の小領域を分割し、被写体の分類に関するクラスを識別する処理が知られている。非特許文献１に記載の方法では、まず、色情報、テクスチャ情報に基づいて入力画像をＳＰ（スーパーピクセル）と呼ばれる小領域に分割する。そして、分割した各小領域のクラスをＲｅｃｕｒｓｉｖｅ−Ｎｅｕｒａｌ−Ｎｅｔｗｏｒｋｓ（ＲＮＮｓ）と呼ばれる識別器を用いて識別する。

しかしながら、小領域の特徴量のみに基づいて識別を行うと信頼度が高い（識別スコア、識別尤度が高い）にも関わらず誤検出する場合がある。そこで、画像のグローバル特徴量を用いて類似画像を選択して、類似画像内の各領域のクラス情報に基づいて識別対象画像の各領域のクラスを推定する技術が知られている。非特許文献２には、識別対象画像のグローバル特徴量に基づいて類似画像を選択し、選択された類似画像を用いて識別対象画像の各小領域のクラスを決定することが開示されている。

Ｒ．Ｓｏｃｈｅｒ，"ＰａｒｓｉｎｇＮａｔｕｒａｌＳｃｅｎｅｓａｎｄＮａｔｕｒａｌＬａｎｇｕａｇｅｗｉｔｈＲｅｃｕｒｓｉｖｅＮｅｕｒａｌＮｅｔｗｏｒｋｓ"，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ２０１１．Ｊ．Ｔｉｇｈｅ，"ＳｕｐｅｒＰａｒｓｉｎ：ＳｃａｌａｂｌｅＮｏｎｐａｒａｍｅｔｒｉｃＩｍａｇｅＰａｒｓｉｎｇｗｉｔｈＳｕｐｅｒｐｉｘｅｌｓ"，ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ２０１０．Ｐ．Ｖｉｏｌａ，"ＲａｐｉｄＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｕｓｉｎｇａＢｏｏｓｔｅｄＣａｓｃａｄｅｏｆＳｉｍｐｌｅＦｅａｔｕｒｅｓ"，ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ２００１．Ｐ．Ｆｅｌｚｅｎｓｗａｌｂ，"ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＤｉｃｒｉｍｉｎａｔｉｖｅｌｙＴｒａｉｎｅｄＰａｒｔＢａｓｅｄＭｏｄｅｌｓ"，ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｖｅ，２０１０．Ｙ．Ｙａｎｇ，"ＡｒｔｉｃｕｌａｔｅｄＨｕｍａｎＤｅｔｅｃｔｉｏｎｗｉｔｈＦｌｅｘｉｂｌｅＭｉｘｔｕｒｅｓｏｆＰａｒｔｓ"，ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ２０１１．Ｓ．Ｌａｚｅｂｎｉｋ，Ｃ．ＳｃｈｍｉｄａｎｄＪ．Ｐｏｎｃｅ，"ＢｅｙｏｎｄＢａｇｓｏｆＦｅａｔｕｒｅｓ，ＳｐａｔｉａｌＰｙｒａｍｉｄＭａｔｃｈｉｎｇｆｏｒＲｅｃｏｇｎｉｚｉｎｇ"，ＮａｔｕｒａｌＳｃｅｎｅＣａｔｅｇｏｒｉｅｓ"，ＣＶＰＲ２００６．Ａ．ＯｌｉｖａａｎｄＡ．Ｔｏｒｒａｌｂａ，"Ｍｏｄｅｌｉｎｇｔｈｅｓｈａｐｅｏｆｔｈｅｓｃｅｎｅ：ａｈｏｌｉｓｔｉｃｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｓｐａｔｉａｌｅｎｖｅｌｏｐｅ"，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００１．Ｌ．Ｂｏｕｒｄｅｖ，"ＤｅｔｅｃｔｉｎｇＰｅｏｐｌｅＵｓｉｎｇＭｕｔｕａｌｌｙＣｏｎｓｉｓｔｅｎｔＰｏｓｅｌｅｔＡｃｔｉｖａｔｉｏｎｓ"，ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ２０１０．

しかし、非特許文献２の方法のように、画像のグローバル特徴量のみで類似画像を検索すると、識別対象の特定領域を精度よく抽出できない場合がある。例えば、浜辺のシーンに写っている黒人の肌領域を抽出する際、画像のグローバル特徴量のみで類似画像を検索すると、浜辺の画像が類似画像として選択される。このようなケースでは、黒人の画像を類似画像として選択する場合に比べて、識別対象（人体）の特定領域（肌領域）を精度よく抽出することができない。

上記課題を解決するために、本発明は、識別対象画像から識別対象の少なくとも１つのパーツを検出するステップと、前記検出されたパーツに基づいて問合せ領域を設定するステップと、前記設定された問合せ領域の特徴量を取得するステップと、前記取得された特徴量に基づいて前記識別対象画像に対応する少なくとも１つのインスタンス画像を選択するステップと、前記選択されたインスタンス画像に基づいて前記識別対象画像から前記識別対象の特定領域を特定するステップと、を有することを特徴とする。

以上の構成によれば、本発明は、識別対象画像から識別対象の特定領域を精度よく識別することが可能になる。

第１の実施形態に関わる画像認識システムの構成図。第１の実施形態に関わる識別対象画像を説明する図。第１の実施形態に関わる画像認識装置のハードウェア構成を示すブロック図。各実施形態に関わる画像認識装置の機能構成を示すブロック図。各実施形態に関わる画像認識処理の詳細を示すフローチャート。第１の実施形態に関わるパーツ検出処理の詳細を示すフローチャート。第１の実施形態において髪領域設定の処理を説明する図。第１の実施形態においてパーツ検出処理の検出結果の例を示す図。第１の実施形態において検出される識別対象領域の例を示す図。第１の実施形態の領域設定部によって設定される問合せ領域の例を示す。各実施形態に関わる学習装置の機能構成を示すブロック図。各実施形態に関わる学習処理の詳細を示すフローチャート。各実施形態に関わる画像認識装置の機能構成を示すブロック図。第３の実施形態においてユーザが被写体領域を設定する様子を説明する図。その他の実施形態において識別対象の特定領域の他の例を説明する図。

［第１の実施形態］
以下、図面を参照して本発明の実施形態を詳細に説明する。図１は、本実施形態に係る画像認識システムを示す構成図である。本実施形態の画像認識システムは、カメラ１０と画像認識装置２０とがネットワーク１５を介して接続されている。なお、カメラ１０と画像認識装置２０とが一体に構成されていてもよい。カメラ１０は、画像認識装置２０による画像処理の対象となる識別対象画像を撮影する。図１では、シーン（撮影状況）３０を、カメラ１０が撮影する例を示している。同図では、被写体として木（ｔｒｅｅ）３０ａ、自動車（ｃａｒ）３０ｂ、建物（ｂｕｉｌｄｉｎｇ）３０ｃ、空（ｓｋｙ）３０ｄ、道（ｒｏａｄ）３０ｅ、人体（ｂｏｄｙ）３０ｆ等が画角（撮影範囲）内に存在している。画像認識装置２０は、カメラ１０で撮像（撮影）されたシーン３０における識別対象物の特定領域を抽出する。

本実施形態においては、識別対象物を人体とし、その肌領域を特定領域とする。識別対象物は人体に限定されるものではなく、また、特定領域も髪領域や服領域など、肌領域に限定されるものではない。なお、画像認識装置２０はカメラ１０により撮影された画像を識別対象画像として処理する例に限らず、例えば、カメラ以外の装置、媒体から入力される画像データや、画像認識装置２０に予め保存された画像データを識別対象画像として処理するものであってもよい。

図２は、本実施形態における識別対象画像の一例を示す図である。本実施形態では、図２（ａ）に示されるように、カメラで撮影された識別対象画像１００における人の肌領域を特定領域として抽出する。図２（ｂ）は、本実施形態の画像認識方法によって抽出される肌領域１０１の例を示す。ここでいう肌領域とは、図２（ｂ）に示されるように、露出している肌領域を示している。図中では、目や口といった器官領域も含めて肌領域としているが、含めなくてもよい。

図３は、本実施形態に関わる画像認識装置２０のハードウェア構成を示す概略ブロック図である。ＣＰＵ４０１は、画像認識装置２０全体を制御する。ＣＰＵ４０１がＲＯＭ４０３やＨＤ４０４等に格納されたプログラムを実行することにより、後述する画像認識装置２０の機能構成及び画像認識装置２０に係るフローチャートの処理が実現される。ＲＡＭ４０２は、ＣＰＵ４０１がプログラムを展開して実行するワークエリアとして機能する記憶領域である。ＲＯＭ４０３は、ＣＰＵ４０１が実行するプログラム等を格納する記憶領域である。ＨＤ４０４は、ＣＰＵ４０１が処理を実行する際に要する各種のプログラム、閾値に関するデータ等を含む各種のデータを格納する記憶領域である。操作部４０５は、ユーザによる入力操作を受け付ける。表示部４０６は、画像認識装置２０の情報を表示する。ネットワークＩ／Ｆ４０７は、画像認識装置２０と外部の機器とを接続する。

図４は各実施形態に関わる画像認識装置２０の機能構成を示す概略ブロック図であり、図４（ａ）が本実施形態における概略ブロック図である。なお、同図では図１で示したカメラ１０に相当する撮影装置５００も示している。撮影装置５００は図１のカメラ１０に相当し、識別対象画像を撮影する。本実施形態の画像認識装置２０は、識別対象画像を識別する画像識別装置として機能し、取得部５０１、パーツ検出部５０２、領域設定部５０３、特徴量取得部５０４、類似インスタンス選択部５０５、特定領域抽出部５０６、学習用データ保持部５０７を有する。なお、学習用データ保持部５０７は、不揮発性の記憶装置として画像認識装置２０と接続された構成としてもよい。以下、画像認識装置２０が有するこれらの機能部の詳細について、図５のフローチャート等を用いて説明する。

図５は各実施形態に関わる画像認識装置２０によって実行される画像認識処理の流れを示すフローチャートであり、図５（ａ）が本実施形態におけるフローチャートである。同図において、まず取得工程Ｓ１１０では、取得部５０１が、図１で示したようなシーン３０を撮影装置５００が撮影した画像を、識別対象画像１００として取得する。なお、識別対象画像１００は、図示しない外部装置に格納されている画像であってもよい。その場合、取得部５０１は外部装置から読み出された画像を識別対象画像１００として取得する。外部装置に格納されている画像は、例えば撮影装置５００等で予め撮影された画像であってもよいし、ネットワーク等を経由するなどの他の方法で取得されてから格納された画像であってもよい。また、取得部５０１は、識別対象画像の他に、シーン情報や撮影情報を取得する場合もあるが、それについては後述する。

次に、パーツ検出工程Ｓ１２０では、パーツ検出部５０２が、取得部５０１により取得された識別対象画像１００に対してパーツ検出を行う。ここで、図６を用いて、パーツ検出工程Ｓ１２０においてパーツ検出部５０２によって実行されるパーツ検出処理の詳細について説明する。ここでは、識別対象を人体としてパーツ検出処理を行う例について説明する。

図６において、工程Ｓ１２０１では、識別対象画像１００に対して顔検出を行う。顔検出は、例えば非特許文献３に記載されているＨａａｒ−ｌｉｋｅ特徴を用いた顔検出器を用いればよい。以降の工程では、ここで検出した各顔検出領域に対して処理が行われる。次に、工程Ｓ１２０２では、識別画像内の人物の数を数える。例えば、工程Ｓ１２０１において顔検出された領域のうち信頼度（スコア）が所定の閾値を超えるような、信頼度の高い検出領域の数を数えればよい。

工程Ｓ１２０３では、工程Ｓ１２０１で検出された各顔検出領域７００に対して髪領域７０１を設定する。図７は、本工程における髪領域設定の処理を説明する図である。ここでは、図７に示すように識別対象画像１００において顔検出領域７００が検出されている場合、周囲の領域を髪領域７０１として設定する。また別の方法として、髪領域７０１は顔検出時に推定された顔サイズに対して予め設定された所定サイズで設定してもよいし、顔位置の周りで高周波数領域を抽出することで設定してもよい。ここで髪領域７０１は過不足なくすべての髪の領域を含むように設定する必要はなく、髪の一部を領域内に捉えていればよい。ここで設定された髪領域は、後述する問合せ領域設定工程で利用される。なお、本工程で設定する領域として髪領域を例に説明したが、人物領域における非肌領域を含む領域であればよい。例えば、服領域や器官検出を行って器官領域を検出してもよい。

工程Ｓ１２０４では、工程Ｓ１２０１で検出された各顔検出領域のサイズが画像縦サイズに対して所定の割合以上であるかをチェックする。ここで、検出された顔検出領域のサイズが小さい場合、処理を工程Ｓ１２０５に進め、その上半身検出を行う。

工程Ｓ１２０５では、上半身検出を行う。上半身検出には非特許文献４にあるようなＤｅｆｏｒｍａｂｌｅＰａｒｔＭｏｄｅｌｓを利用してもよいし、上半身だけの学習画像を集め、ＨＯＧのテンプレートなどを予め学習しておき、それを用いて検出してもよい。もしくは、後述するパーツ検出器の上半身パーツのみを検出する検出器を利用してもよい。また、ここでは上半身を検出する例を示しているが、例えば頭部検出など別領域の検出でもよい。頭部とは頭から肩にかけたオメガシェイプを示しており、ＨＯＧのテンプレートなどで検出すればよい。

工程Ｓ１２０６では、上半身検出結果に基づいてパーツ検出（姿勢推定）を行うかどうかを判定する。具体的には、上半身検出サイズが画像縦サイズ×βに対して小さい場合、処理を工程Ｓ１２０７に進め、パーツ検出（姿勢推定）を行う。βは実数値であり、予め定めておく。

工程Ｓ１２０７のパーツ検出（姿勢推定）では、人体の上腕や下肢などのパーツごとに検出を行い、そのパーツの位置を推定することで姿勢を推定する方法を利用する。その具体的な方法は、例えば、非特許文献５に開示されているような姿勢推定技術を用いればよい。

図８は、パーツ検出部５０２によって実行されるパーツ検出処理の検出結果の例を示す図であり、図８（ａ）は識別対象画像１００を示している。また、図８（ｂ）〜（ｄ）は、識別対象画像１００に対して、顔検出結果（顔検出領域７００）、上半身検出結果（上半身領域７０２）およびパーツ検出結果（各パーツ領域７０３）を示している。

工程Ｓ１２０８では、顔検出結果、髪領域検出結果、上半身検出結果およびパーツ検出結果のうち、少なくとも１つ以上を用いて識別対象の領域を検出する。図９は、工程Ｓ１２０８の処理によって検出される識別対象領域の例を示している。工程Ｓ１２０８では、図９（ａ）〜（ｃ）それぞれに示すように、顔のアップ写真、バストアップ写真、全身写真それぞれに対応した領域を識別対象領域７０４として切り出す。ここで切り出す領域は、必ずしも人物領域の輪郭に沿って検出する必要はない。図５の次工程であるＳ１３０において、問合せ領域を設定するための人体領域を設定できればよい。

なお、上述したパーツ検出工程Ｓ１２０の詳細フローでは、各人体検出モジュールをシーケンスに動作させたが、並列に動作させて統合してもよいし、一つの人体検出モジュールのみを利用してもよい。また、それぞれのモジュールの切替えを検出サイズによって行っているが、各検出結果の信頼度に基づいて切替えを行ってもよい。

図５の説明に戻ると、問合せ領域設定工程Ｓ１３０では、領域設定部５０３が、パーツ検出工程Ｓ１２０において検出された結果に基づいて問合せ領域を設定する。本実施形態において、領域設定部５０３は、パーツ検出工程Ｓ１２０において設定された識別対象領域に対して、識別対象の存在範囲内に問合せ領域を設定する。具体的には、識別対象領域をそのまま問合せ領域として設定してもよいし、各人体検出モジュールの検出領域もしくはその組み合わせを問合せ領域として設定してもよい。図１０には、領域設定部５０３によって設定される問合せ領域の例を示す。領域設定部５０３は、例えば、図１０（ａ）のように顔領域およびパーツ領域の組み合わせで問合せ領域７０５に設定する。もしくは、図１０（ｂ）のようにパーツ領域を２つ以上選択することで問合せ領域７０５を設定する、または、図１０（ｃ）のように識別対象領域７０４に対してランダムに部分領域もしくはその組み合わせを設定する。なお、ここではすべて矩形領域で問合せ領域を設定する例を示したが、それに限定するものではない。例えば、新たにスーパーピクセルなどの小領域を取得して、その小領域もしくはその組み合わせで設定してもよい。

次に、特徴量取得工程Ｓ１４０では、特徴量取得部５０４が、問合せ領域設定工程Ｓ１３０において設定された問合せ領域から特徴量を取得する。特徴量の例としては、各問合せ領域内の色特徴やテクスチャ特徴の統計量を用いればよい。問合せ領域が複数領域による組み合わせの場合には、各領域の統計量をそれぞれ取得してもよいし、まとめて統計量を取得してもよい。ここでは、例えば、
・ＲＧＢ、ＨＳＶ、Ｌａｂ、ＹＣｂＣｒ色空間の各成分
・Ｇａｂｏｒｆｉｌｔｅｒ、ＬｏＧのフィルタ応答
を用いるものとする。この場合、色特徴は４（色空間）×３（成分）の１２次元となり、フィルタ応答に関しては、Ｇａｂｏｒｆｉｌｔｅｒ、ＬｏＧフィルタの数に対応した次元数となる。領域ごとに特徴づけを行うため、各領域の内の画素ごとに得られる特徴量から統計量を求めるものとし、用いる統計量は、平均、標準偏差、歪度、尖度の４つを用いるとする。歪度は分布の非対称性の度合いを示し、尖度は分布が平均の近くに密集している度合いを示す統計量である。よって、色特徴は４（色空間）×３（成分）×４（統計量）の４８次元となり、テクスチャ特徴の次元数は（フィルタ応答数）×４（統計量）となる。また、この他に問合せ領域の重心座標や小領域の面積なども特徴量としてもよい。問合せ領域を組み合わせで設定した場合には、両方の重心座標を保持してもよいし、片方の問合せ領域を顔領域などの特徴的な位置に固定し、もう一方の問合せ領域との重心座標の差（オフセット）を保持しておいてもよい。

次に、類似インスタンス選択工程Ｓ１５０では、類似インスタンス選択部５０５が、識別対象画像の各問合せ領域から得られた特徴量に基づいて類似インスタンス画像を選択する。まず、問合せ領域設定工程Ｓ１３０において設定された問合せ領域の特徴量に基づいて、類似インスタンス画像を選択する方法について説明する。本実施形態において、識別対象画像における識別対象領域に対して問合せ領域がＮ個セットされたとする。識別対象画像をＩとおいて、各問合せ領域をＳ_ｎ（ｎ＝１，２，・・・Ｎ）とおけば、識別対象画像における識別対象領域の問合せ領域の集合Ｓは数１式のように表わされる。
Ｓ＝｛Ｓ_１，Ｓ_２，・・・，Ｓ_Ｎ｝（数１）
なお、識別対象領域をそのまま問合せ領域として設定した場合には、Ｎ＝１であると考えればよい。また、それぞれの問合せ領域が顔領域、髪領域、上半身領域、被写体領域のように各検出モジュールに対応して設定された問合せ領域でもよい。各問合せ領域から得られる特徴量ｆ（Ｓ_ｎ）は、問合せ領域を例えばペアとした場合、各問合せ領域をＳ_ｎ１、Ｓ_ｎ２とおくと、下記の数２式または数３式で表わされる。
ｆ（Ｓ_ｎ１）＋ｆ（Ｓ_ｎ２）（数２）
ｆ（Ｓ_ｎ１＋Ｓ_ｎ２）（数３）
次に、識別対象画像について、各学習画像との類似度を算出する。以下は簡単のため、ペアではなく、識別対象領域をそのまま問合せ領域として設定された場合を例にして説明する。各学習画像との類似度は、学習画像の各問合せ領域と識別対象画像の各問合せ領域との特徴量の類似度に基づいて決定される。なお、学習画像の各問合せ領域の特徴量は、後述する学習処理によって予め求められ、学習用データ保持部５０７に保存されている。

ここで、各学習画像の各問合せ領域をＳ_ｌｍ（ｌ＝１、２、・・・、Ｌ、ｍ＝１、２、・・・、Ｍ）とする。ｌは各学習画像の表すインデックスであり、ｍは各学習画像に設定される問合せ領域のインデックスを表している。ここでは、各学習画像に対して設定される問合せ領域の数をＭとし、全学習画像に対して同数であるとしているが、学習画像ごとに異なってもよい。類似インスタンス画像は、識別対象画像の各問合せ領域に対して類似度が最大の学習画像の問合せ領域を選択してもよいし、識別対象画像の複数の問合せ領域との類似度の和（平均）が最も高い学習画像を選択してもよい。前者の場合、選択される学習画像の問合せ領域は数４式で表わされ、ここで

は類似度が最大の学習画像の問合せ領域を示している。また、後者の場合、選択される学習画像は数５式により表わされ、この数５式により、識別対象画像と類似度の高い学習画像を選択することができる。なお、数４式、数５式では類似インスタンス画像を１枚選択する例について述べたが、複数枚選択してもよい。

次に、特定領域抽出工程Ｓ１６０では、特定領域抽出部５０６が、類似インスタンス選択工程Ｓ１５０において選択された類似インスタンス画像、およびその教師データに基づいて、識別対象画像内の特定領域を抽出する。この特定領域の抽出の方法に関し、本実施形態では、２つの方法について説明する。なお、教師データとは、画像中のどの画素が特定領域であるかを示すデータである。また、識別を行う対象は識別対象画像内の識別対象領域の各画素もしくは各領域でもよいし、識別対象画像中のすべての画素もしくは領域に対して行ってもよい。

１つ目の方法では、得られた類似インスタンス画像中の特定領域から、特定領域がもつ分布を推定し、モデル（検出器）を生成して、そのモデル（検出器）により識別対象画像中の特定領域を抽出する。例えば、類似インスタンス画像内の特定領域の色分布に対してガウス分布をフィッティングして、その特定領域がもつ分布を推定すればよい。具体的には、類似インスタンス画像の特定領域の各画素のＲＧＢ値を取得して、そのＲＧＢ値についてガウス分布の平均および標準偏差を最尤推定によって推定すればよい。ここでは各画素のＲＧＢ値を用いたが、画素ではなく小領域ごとに推定してもよいし、他の色空間の値、前述の特徴量取得工程Ｓ１４０で説明したようなテクスチャ特徴も合わせて高次元空間でガウス分布を推定してもよい。また、以上のように各画素や小領域ごとのＲＧＢ値や特徴量を取得してもよいが、周辺の画素や小領域のＲＧＢ値や特徴量との差分値をベクトル化して、分布を推定してもよい。もしくは、複数のガウス分布で構成されるＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ（以下、ＧＭＭ）を推定してもよい。ＧＭＭによる確率密度関数は、下記の数６式のように表わされる。

ただし、

は下記の数７式を満たす。また、数６式におけるθは数８式である。また、Ｎ（・；μ、Σ）は平均ベクトルμ、共分散行列Σを持つ多次元正規分布であり、数９式のように表わされる。

θ＝｛α_ｊ，μ_ｊ，Σ_ｊ│ｊ＝１，２，・・・，ＧＭＭｎｕｍ｝（数８）
ある。

ただし、数６式〜数９式におけるｊは各ガウスカーネルを表すインデックスであり、ＧＭＭｎｕｍはガウスカーネルの数、αｊはガウスカーネルｊの混合比、μｊはガウスカーネルｊの平均値、Σｊはガウスカーネルｊの共分散行列を表している。

ここで、確率密度関数の推定はＥＭ法で行えばよい。各Ｅステップ、Ｍステップで行う処理を以下に示す。

Ｅステップ：

Ｍステップ：

ただし、数１０式〜数１３式のｗは事前分布であり、下記の数１４式のように表わされる。

ここで、ｔはＥＭステップの各イタレーションを示しており、

に適当な初期値を与え、所定回数だけＥステップとＭステップを繰り返せばよい。もしくは、前回の結果に対して閾値以下しか変化しない場合に収束したとして処理を終了すればよい。また、ｎは観測データのインデックスを表しており、本実施形態においては類似インスタンス画像の特定領域の各画素を表している。そして、最終的に得られた確率密度関数に基づいて、識別対象画像の識別対象領域の各画素が特定領域であるかどうかの尤度を求める。特定領域抽出部５０６は、求めた尤度を出力してもよいし、尤度が所定の閾値以上の領域を特定領域として抽出し、出力してもよい。

２つ目の方法では、得られた確率密度関数に従って、識別対象画像の各画素（または領域）が特定領域（肌領域）であるかどうかの確率を算出する。もしくはベイズの定理に基づいて、下記の数１５式より確率を算出する。

ただし、Ｐ（Ｃ_Ｓ｜ｖ）は特定領域（肌領域）である確率を表している。ｖは識別対象画像の各画素もしくは各領域の値を表しており、具体的には、各画素もしくは各領域のＲＧＢ値や特徴量でよい。Ｐ（ｖ｜Ｃ_Ｓ）は選択した類似インスタンス画像の特定領域である画素もしくは領域がｖである確率（頻度）を、Ｐ（ｖ｜Ｃ_ＮＳ）は非特定領域である画素もしくは領域がｖである確率（頻度）を表している。また、Ｐ（Ｃ_Ｓ）、Ｐ（Ｃ_ＮＳ）は事前確率で０．５でもよいし、類似インスタンス画像の特定領域、非特定領域の出現確率を用いてもよい。特定領域抽出に際して、オフライン時に学習した識別器を用いる例については、第２の実施形態で説明する。最終的な特定領域は、確率値（０〜１の実数値）で出力してもよいし、予め決められた閾値以上の領域を特定領域として特定してもよい。

次に、オフライン時の学習処理について説明する。図１１は各実施形態に関わる学習装置３００の機能構成を示す概略ブロック図であり、図１１（ａ）が本実施形態における概略ブロック図である。学習装置３００は、パーツ検出部３０１、領域設定部３０２、特徴量取得部３０３、学習用データ保持部５０７を有している。なお、学習用データ保持部５０７は、不揮発性の記憶装置として学習装置３００と接続された構成としてもよい。また、学習装置３００は、図４（ａ）で説明した画像認識装置２０と同一の装置として構成されていてもよい。また、その際、パーツ検出部３０１、領域設定部３０２、特徴量取得部３０３は、画像認識装置２０におけるパーツ検出部５０２、領域設定部５０３、特徴量取得部５０４と共用であってもよい。また、学習用データ保持部５０７は、オフライン時とオンライン時で共有する。

次に、図１２のフローチャートを用いて、学習装置３００が有する各機能部の詳細について説明する。図１２は各実施形態に関わる学習装置３００による学習処理を示すフローチャートであり、図１２（ａ）が本実施形態におけるフローチャートである。まず、パーツ検出工程Ｔ１１０では、パーツ検出部３０１が、学習用データ保持部５０７に保持されている学習用データに対してパーツ検出を行う。学習用データには、学習画像と、教師データとして各学習画像の特定領域およびその特徴量とが含まれる。このパーツ検出工程Ｔ１１０の処理は図５（ａ）で説明した認識時のパーツ検出工程Ｓ１２０と同様の処理であり、その際に用いるパーツ検出器は認識時のパーツ検出工程Ｓ１２０と同様のものでよい。本工程Ｔ１１０において検出された各学習用データに対するパーツ検出結果は、領域設定部３０２に送信される。

次に、問合せ領域設定工程Ｔ１２０では、問合せ領域設定部３０２が、パーツ検出工程Ｔ１１０においてパーツ検出された学習用データに対して問合せ領域を設定する。この問合せ領域の設定方法も、認識時の問合せ領域設定工程Ｓ１３０と同様でよい。各学習用データに設定された問合せ領域は、特徴量取得部３０３に送信される。

次に、特徴量取得工程Ｔ１３０では、特徴量取得部３０３が問合せ領域設定工程Ｔ１２０において設定された各学習用データの問合せ領域の特徴量を取得する。用いる特徴量についても、認識時の特徴量取得工程Ｔ１４０と同様でよい。取得された特徴量は、学習用データ保持部５０７に送信される。そして、取得された特徴量は、認識時の類似インスタンス選択工程Ｔ１５０において類似インスタンス選択時に利用される。

以上、本実施形態では、画像認識装置２０は識別対象画像に対してパーツ検出を行い、識別対象領域を抽出する。抽出された識別対象領域に対して問合せ領域を設定して、その問合せ領域の特徴量に基づいて学習用データから類似インスタンス画像を選択する。そして、選択された類似インスタンス画像に基づいてモデル（検出器）を生成して、識別対象画像の特定領域を抽出する。学習用データ内の類似インスタンス画像を用いることにより、識別対象画像の特定領域を精度よく検出できるようになる。

（変形例）
第１の実施形態においては、問合せ領域に関する画像特徴量について述べたが、それだけに限定するものではない。例えば、問合せ領域が含まれる識別対象画像のシーン情報や撮影情報を問合せ領域の特徴量として追加取得してもよい。シーン情報は、非特許文献６に記載されているようなＳｐａｔｉａｌＰｙｒａｍｉｄＭａｔｃｈｉｎｇＫｅｒｎｅｌや、非特許文献７に記載されているようなＧＩＳＴ特徴量を利用すればよい。また、シーン情報は、識別対象画像をブロック状に分割して各ブロックの色分布をヒストグラム化した特徴量などでもよい。その他にも、シーン情報は、画像全体を表す特徴量や、画像の各部分から得られる特徴量を統計量として集計したものであれば種々のものを利用することが可能である。

また、撮影情報とは、カメラ１０で撮影した際に取得される画像以外の情報のことであり、画像を出力するまでにカメラ１０で取得される全ての情報が含まれる。例えば、撮影情報には、フォーカスを合わせる際等に取得される距離情報や、シャッタースピード情報、撮影の際のカメラパラメータを決定するための色温度及び測光値に関する情報、それらにより決定されたカメラパラメータ等の情報がある。その他にも、撮影情報は、撮影日時情報、ＧＰＳ情報、カメラ内の姿勢センサーによる天地判定に関する情報等でもよい。
なお、上述したシーン情報は、画像全体から得られる情報であるため、識別対象画像に対して１つ得られるものである。そのため、問合せ領域の特徴量として利用する場合には、問合せ領域から得られる特徴量にシーン情報を組み合わせて利用すればよい。シーン情報や撮影情報を問合せ領域の特徴量として追加で設定することで、同じ撮影条件で撮影した画像を類似インスタンス画像として取得することが可能になり、特定領域の検出精度が向上する。

［第２の実施形態］
本発明の第２の実施形態は、オンライン時に特定領域抽出用のモデルを生成するのではなく、オフライン時に複数のモデル（識別器）を生成しておくものである。そして、認識時には複数のモデル（識別器）を用いて識別対象物の特定領域を抽出する。第１の実施形態では、認識時（オンライン時）に学習データより選択された類似インスタンス画像によりモデル（辞書）を生成して識別対象画像の特定領域を抽出していた。本実施形態においては、学習データ同士で予め類似度を算出して、複数の類似インスタンス画像からモデル（辞書）を生成しておく。そして、オンライン時に学習データとの類似度に基づいて、モデルを選択するか、もしくは複数のモデルによる特定領域検出結果を統合する。以下、本発明の第２の実施形態の詳細について説明する。なお、第１の実施形態において既に説明した構成については同一の符号を付し、その説明は省略する。

図４（ｂ）は、本実施形態における画像認識装置２０の機能構成を示す概略ブロック図である。第１の実施形態と異なる点は、特定領域抽出辞書保持部５０８を有すること、類似インスタンス選択部５０５および特定領域抽出部５０６の処理内容が異なることである。これらの機能部の処理の詳細については、画像認識処理のフローに沿って説明する。

本実施形態に関わる画像認識装置による画像認識処理のフローチャートは、図５（ａ）に示した第１の実施形態と同じであるが、一部の工程で処理の内容が異なる。本実施形態の取得工程Ｓ１１０〜特徴量取得工程Ｓ１４０の処理は、第１の実施形態における取得工程Ｓ１１０〜特徴量取得工程Ｓ１４０の処理と同様であるが、類似インスタンス選択工程Ｓ１５０および特定領域抽出工程Ｓ１６０の処理が異なる。

類似インスタンス選択工程Ｓ１５０では、類似インスタンス選択部５０５が、識別対象画像の問合せ領域と各学習用データに設定された問合せ領域の特徴量と比較して類似インスタンス画像を選択する。第１の実施形態と異なるのは、類似インスタンス画像を選択することでモデル（検出器）を生成するのではなく、特定領域抽出工程Ｓ１６０で利用する辞書を選択するもしくは各辞書の重みを決定することである。例えば、特定領域抽出辞書が５個あるとして、各特定領域抽出辞書を学習した学習用データの中で代表画像をそれぞれ定めておく。各代表画像を類似インスタンス画像Ａ〜Ｅとおいて、識別対象画像Ｉと類似インスタンス画像Ａとの類似度をＳ（Ｉ、Ａ）とする。例えば、各類似インスタンス画像Ａ〜Ｅとの類似度が下記の数１６式のような場合であれば、類似インスタンス画像Ａを代表画像にする辞書Ａを選択してもよいし、各辞書の結果を類似度に基づいて重み付き平均してもよい。
Ｓ（Ｉ，Ａ）＝０．８，Ｓ（Ｉ，Ｂ）＝０．６，Ｓ（Ｉ，Ｃ）＝０．２，Ｓ（Ｉ，Ｄ）＝０．１，Ｓ（Ｉ，Ｅ）＝０．２（数１６）
ここでは、代表画像とのみ比較を行ったが、辞書を生成した際に用いたすべての学習用データとの類似度を算出して平均することで各辞書の学習用データとの類似度を算出してもよい。なお、特定領域抽出辞書の学習方法および代表画像の設定方法については後述する。

特定領域抽出工程Ｓ１６０では、特定領域抽出部５０６が、上述したように類似インスタンス選択工程Ｓ１５０において推定された類似度に基づいて辞書を選択するか、類似度に応じて各辞書による認識結果を重み付き平均する。辞書の学習方法や認識時の特徴量については後述するが、認識する対象は識別対象画像（もしくはその識別対象領域）の画素もしくは領域でもよい。最終的な特定領域は、確率値（０〜１の実数値）で出力してもよいし、予め決められた閾値以上の領域を特定領域として特定してもよい。

次に、本実施形態において、事前に行うオフライン（学習）処理について説明する。図１１（ｂ）は、本実施形態における学習装置３００の機能構成を示す概略ブロック図である。本実施形態の学習装置３００は、第１の実施形態における学習装置の機能部に加えて、類似インスタンス選択部３０４、特定領域抽出辞書学習部３０５、特定領域抽出辞書保持部５０８を有している。なお、特定領域抽出辞書保持部５０８は、不揮発性の記憶装置として画像認識装置２０と接続された構成としてもよい。また、学習装置３００は、図４（ｂ）で説明した本実施形態の画像認識装置２０と同一の装置として構成されていてもよい。また、その際、パーツ検出部３０１、領域設定部３０２、特徴量取得部３０３は、画像認識装置２０におけるパーツ検出部５０２、領域設定部５０３、特徴量取得部５０４と共用であってもよい。また、学習用データ保持部５０７は、オフライン時とオンライン時で共有する。本実施形態に関わる学習装置３００が有する機能部の処理の詳細については、図１２（ｂ）等を用いて後述する。

図１２（ｂ）は本実施形態に関わる学習装置３００による学習処理を示すフローチャートである。この図１２（ｂ）のフローチャートにおいて、パーツ検出工程Ｔ２１０〜特徴量取得工程Ｔ２３０までの処理は、第１の実施形態におけるパーツ検出工程Ｔ１１０〜特徴量取得工程Ｔ１３０の処理と同様である。

類似インスタンス選択工程Ｔ２４０では、類似インスタンス選択部３０４が、特徴量取得工程Ｔ２３０で取得した特徴量に基づいて各学習画像同士の類似度を算出して、類似インスタンス画像を選択する。この類似インスタンス選択部３０４による処理は、基本的に第１の実施形態の類似インスタンス選択工程Ｔ１５０における処理と同様である。異なる点は、次の特定領域抽出辞書学習工程Ｔ２５０で辞書を複数学習するため、各辞書を学習する際に用いる学習画像を類似度に基づいて複数枚選択することである。その際、同じ学習画像を複数の辞書学習のために選択してもよい。選択された学習画像リストは、特定領域抽出辞書学習部３０５に送信される。

特定領域抽出辞書学習工程Ｔ２５０では、特定領域抽出辞書学習部３０５が、類似インスタンス選択工程Ｔ２４０において選択された学習画像リストに基づいて複数の特定領域抽出辞書を学習する。特定領域抽出辞書とは、画素もしくは領域の特徴量を入力として、特定領域であるかどうかを示す尤度（スコア）を出力する識別器およびそのパラメータを表している。例えば、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｓｈｉｎｅｓ（ＳＶＭｓ）などを学習すればよい。入力する特徴量は、画素もしくは領域のＲＧＢ値もしくはヒストグラムでもよいし、上述の特徴量取得工程Ｔ２３０で説明したテクスチャ特徴量などでもよい。また、第１の実施形態と同様に周辺の画素や小領域に対する特徴量の差分値を識別器への入力としてもよい。学習された辞書は特定領域抽出辞書保持部５０８に保持され、認識時に利用される。

以上、本実施形態によれば、画像認識装置２０は識別対象画像に対してパーツ検出を行い、識別対象領域を抽出する。抽出された被写体領域に対して問合せ領域を設定して、その問合せ領域の特徴量に基づいて学習用データから類似インスタンス画像を選択する。そして、選択された類似インスタンス画像に基づいて識別対象画像の特定領域を抽出する辞書を選択する、もしくは各辞書での検出結果の重みを決定する。学習用データ内の類似インスタンス画像を用いて辞書を選択することにより、識別対象画像の特定領域を精度よく検出できるようになる。

［第３の実施形態］
本発明の第３の実施形態は、パーツ検出器を用いて識別対象物の各パーツの位置や識別対象物の範囲を検出するのではなく、表示装置に表示された識別対象上で各パーツの位置や識別対象物の範囲をユーザに設定させ、その設定結果を取得するものである。以下、本発明の第３の実施形態について説明する。なお、第１、第２の実施形態において既に説明をした構成については同一の符号を付し、その説明は省略する。

図１３（ａ）は、本実施形態に関わる画像認識装置２０の機能構成を示す概略ブロック図である。第１の実施形態と比較すると、パーツ検出部５０２の代わりにユーザ設定取得部５０９が追加されている。なお、学習装置の構成は第１の実施形態と同様である。

図５（ｂ）は、本実施形態に関わる画像認識装置２０の画像認識処理の詳細を示すフローチャートである。同図において、取得工程Ｓ３１０は、第１の実施形態における取得工程Ｓ１１０と同様である。

次に、ユーザ設定取得工程Ｓ３２０において、ユーザ設定取得部５０９は、識別対象画像１００を表示部４０６に表示し、ユーザが識別対象画像内のパーツ領域もしくは被写体領域を設定できるようにする。図１４は、ユーザが識別対象領域および顔領域を設定している様子を表している。ユーザ６０は、操作部４０５（例えば、マウス）を使用して、識別対象画像１００内の識別対象領域７０６および顔領域７０７を設定する。そして、ユーザ設定取得部５０９は、ユーザにより設定された識別対象領域７０６および顔領域７０７の情報（位置、サイズ等）を取得する。図１４では、自由曲線で各領域を設定しているが、矩形領域で設定できるようにしてもよい。また、操作部４０５の具体的な手段はマウスに限定するものではない。

問合せ領域設定工程Ｓ３３０から特定領域抽出工程Ｓ３６０までの処理は、第１の実施形態における問合せ領域設定工程Ｓ１３０から特定領域抽出工程Ｓ１６０までの処理内容と同様である。

なお、本実施形態の基本的な構成は第１の実施形態と同様であるとして説明したが、第２の実施形態の画像認識装置２０におけるパーツ検出部５０２をユーザ設定取得部５０９に変更するようにしてもよい。また、本実施形態の学習装置についても第１の実施形態と同様の構成と説明したが、パーツ検出部３０１に代えて学習時にもユーザ設定取得部５０９を利用してもよいし、パーツ検出部３０１とユーザ設定取得部５０９とを併用するようにしてもよい。

以上、本実施形態によれば、画像認識装置２０は識別対象画像に対してユーザが識別対象領域もしくはパーツ位置を設定した結果を取得する。取得された設定結果としの被写体領域もしくはパーツ位置に対して問合せ領域を設定して、その問合せ領域の特徴量に基づいて学習用データから類似インスタンス画像を選択する。そして、選択された類似インスタンス画像に基づいて識別対象画像の特定領域を抽出する。学習用データ内の類似インスタンス画像を用いることにより、識別対象画像の特定領域を精度よく検出できるようになる。

［第４の実施形態］
本発明の第４の実施形態は、特定領域抽出部５０６によって特定された特定領域の特徴量に基づいて、再度類似インスタンス画像を選択し、選択された類似インスタンス画像を用いて識別対象物の特定領域を再検出するものである。以下、本発明の第４の実施形態について説明する。なお、第１〜第３の実施形態において既に説明した構成については同一の符号を付し、その説明は省略する。

図１３（ｂ）は、本実施形態における画像認識装置２０の機能構成を示す概略ブロック図である。第１の実施形態と比較すると、本実施形態の画像認識装置２０は、第２特徴量取得部５１０と第２特定領域抽出部５１１が追加されている。なお、学習装置の構成は第１の実施形態と同様である。

図５（ｃ）は、本実施形態に関わる画像認識装置２０の画像認識処理の詳細を示すフローチャートである。同図において、取得工程Ｓ４１０から特定領域抽出工程Ｓ４６０までの処理は、第１の実施形態における取得工程Ｓ１１０から特定領域抽出工程Ｓ１６０までの処理と同様であるため説明を省略する。

次に、第２特徴量取得工程Ｓ４７０で、第２特徴量取得部５１０は、特定領域抽出工程Ｓ４６０で抽出された識別対象画像の特定領域の特徴量を取得する。または、第２特徴量取得部５１０は、特定領域を含む領域を設定して、その設定した領域内で特徴量を取得するようにしてもよい。その際、問合せ領域設定工程Ｓ４３０のように問合せ領域を設定してから特徴量を取得してもよい。

次に、第２類似インスタンス選択工程Ｓ４８０で、類似インスタンス選択部５０５は、第２特徴量取得工程Ｓ４７０において取得された特徴量に基づいて、再度類似インスタンス画像を学習用データ保持部５０７から選択する。ここでの選択方法は、類似インスタンス選択工程Ｓ４５０の処理内容と同様であるため説明を省略する。

次に、第２特定領域抽出工程Ｓ４９０で、第２特定領域抽出部５１１は、第２類似インスタンス選択工程Ｓ４８０で選択された類似インスタンス画像を用いて、識別対象画像内の特定領域を抽出する。このとき、第２特定領域抽出部５１１は、類似インスタンス選択工程Ｓ４５０で選択された類似インスタンス画像を更に利用してもよい。特定領域の抽出方法は、第１の実施形態で説明した特定領域抽出工程Ｓ４６０の処理内容と同様の処理であるため説明を省略する。

なお、本実施形態に関わる画像認識装置２０の基本的な構成は、第１の実施形態と同様であるとして説明したが、第２の実施形態の画像認識装置２０に第２特徴量取得部５１０と第２特定領域抽出部５１１とを追加する形態であってもよい。その場合の学習処理に関しては、特定領域抽出時の辞書は予め学習しておくが、第２特定領域抽出部５１１で用いる辞書は認識時に類似インスタンス画像を選択して、その類似インスタンス画像に基づいて生成してもよい。

以上、本実施形態によれば、画像認識装置２０は識別対象画像に対して検出された特定領域の特徴量に基づいて、再度学習用データから類似インスタンス画像を選択する。そして、学習用データ内の類似インスタンス画像を用いて、特定領域を再度特定することにより、識別対象画像の特定領域を精度よく検出できるようになる。

［その他の実施形態］
上述の各実施形態においては、識別対象物の特定領域として人物領域における肌領域を検出する構成を例に説明してきたが、本発明は、識別対象物の特定領域として人物領域における肌領域に限定するものではない。例えば、識別対象物は複数のパーツや部分領域で構成されているものであればよく、図１５（ａ）、（ｂ）に示されるような馬や車を識別対象物として、馬の領域や車のボディ領域を特定領域として抽出することもできる。なお、図１５（ａ）、（ｂ）において、パーツ検出結果７０８を検出するためのパーツ検出器としては、上述の非特許文献４に記載されているＤｅｆｏｒｍａｂｌｅＰａｒｔｓＭｏｄｅｌｓを利用することができる。または、非特許文献８に記載されているｐｏｓｅｌｅｔｓを利用してもよい。

また、本発明は、上記実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形（各実施例の有機的な組合せを含む）が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

２０画像認識装置
５０１取得部
５０２パーツ検出部
５０３領域設定部
５０４特徴量取得部
５０５類似インスタンス選択部
５０６特定領域抽出部
５０７学習用データ保持部

Claims

識別対象画像から識別対象の少なくとも１つのパーツを検出するステップと、
前記検出されたパーツに基づいて問合せ領域を設定するステップと、
前記設定された問合せ領域の特徴量を取得するステップと、
前記取得された特徴量に基づいて前記識別対象画像に対応する少なくとも１つのインスタンス画像を選択するステップと、
前記選択されたインスタンス画像に基づいて前記識別対象画像から前記識別対象の特定領域を特定するステップと、
を有することを特徴とする画像識別方法。
前記選択されたインスタンス画像に基づいて辞書を生成するステップを更に有し、
前記生成した辞書に基づいて前記特定領域を特定することを特徴とする請求項１に記載の画像識別方法。
前記特定された特定領域の特徴量を取得するステップと、
前記取得された特定領域の特徴量に基づいて少なくとも１つのインスタンス画像を選択するステップと、を更に有し、
前記問合せ領域に基づいて取得された特徴量により選択されたインスタンス画像に加えて、前記特定領域に基づいて取得された特徴量により選択されたインスタンス画像に基づいて前記識別対象画像から前記識別対象の特定領域を再度特定することを特徴とする請求項１または２に記載の画像識別方法。
識別対象画像から識別対象の少なくとも１つのパーツを検出するステップと、
前記検出されたパーツに基づいて問合せ領域を設定するステップと、
前記設定された問合せ領域の特徴量を取得するステップと、
前記取得された特徴量に基づいて複数の辞書を重みをつけて選択するステップと、
前記特徴量と前記選択された辞書とに基づいて前記識別対象画像から前記識別対象の特定領域を特定するステップと、
を有することを特徴とする画像識別方法。
前記特定された特定領域の特徴量を取得するステップと、
前記取得された特定領域の特徴量に基づいて少なくとも１つの辞書を選択するステップと、を更に有し、
前記問合せ領域に基づいて取得された特徴量により選択された辞書に加えて、前記特定領域に基づいて取得された特徴量により選択された辞書に基づいて前記識別対象画像から前記識別対象の特定領域を再度特定することを特徴とする請求項４に記載の画像識別方法。
前記問合せ領域は前記識別対象の存在範囲内に設定されることを特徴とする請求項１から５のいずれか１項に記載の画像識別方法。
前記問合せ領域は前記検出されたパーツの組合せにより設定されることを特徴とする請求項６に記載の画像識別方法。
ユーザの設定結果を取得し、当該設定結果に基づいて前記少なくとも１つのパーツを検出することを特徴とする請求項１から５のいずれか１項に記載の画像識別方法。
前記識別対象は人物であることを特徴とする請求項１から８のいずれか１項に記載の画像識別方法。
前記特定領域は人物の肌領域、服領域、髪領域のいずれかであることを特徴とする請求項１から９のいずれか１項に記載の画像識別方法。
コンピュータに、請求項１から１０のいずれか１項に記載の画像識別方法を実行させるためのプログラム。
識別対象画像から識別対象の少なくとも１つのパーツを検出する検出手段と、
前記検出手段により検出されたパーツに基づいて問合せ領域を設定する設定手段と、
前記設定手段により設定された問合せ領域の特徴量を取得する取得手段と、
前記取得手段により取得された特徴量に基づいて前記識別対象画像に対応する少なくとも１つのインスタンス画像を選択する選択手段と、
前記選択手段により選択されたインスタンス画像に基づいて前記識別対象画像から前記識別対象の特定領域を特定する特定手段と、
を有することを特徴とする画像識別装置。
識別対象画像から識別対象の少なくとも１つのパーツを検出する検出手段と、
前記検出手段により検出されたパーツに基づいて問合せ領域を設定する設定手段と、
前記設定手段により設定された問合せ領域の特徴量を取得する取得手段と、
前記取得手段により取得された特徴量に基づいて複数の辞書を重みをつけて選択する選択手段と、
前記特徴量と前記選択手段により選択された辞書とに基づいて前記識別対象画像から前記識別対象の特定領域を特定する特定手段と、
を有することを特徴とする画像識別装置。