JP2009069996A

JP2009069996A - 画像処理装置および画像処理方法、認識装置および認識方法、並びに、プログラム

Info

Publication number: JP2009069996A
Application number: JP2007235778A
Authority: JP
Inventors: Jun Yokono; 順横野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-09-11
Filing date: 2007-09-11
Publication date: 2009-04-02

Abstract

【課題】画像データから背景を分離して、認識するべき物体に対応する領域を抽出する。
【解決手段】フォーカスカメラにより撮像して得られた背景を含む画像データに、注目画素の係数が８、近傍８画素の全ての係数が−１という３×３のフィルタをかけていることにより得られる画像は、黒い領域は近傍画素との差分が０に近いピンボケした画素であり、明るい（白い）ところは、パターンがシャープでボケていない画素であることを示す。それに対して、注目画素とその近傍領域との平均を求めるフィルタリング処理を行って、認識するべき対象物らしい領域を結合する。そして、フィルタリング結果を２値化処理した後、Morphological処理を行うか、フィルタリング結果のうち値が発生している黒い領域ではない部分をマスクすることにより、領域を分割して、背景を分離する。本発明は、画像処理システム、学習装置、または、認識装置に適用できる。
【選択図】図１６

Description

本発明は、処理装置および画像処理方法、認識装置および認識方法、並びに、プログラムに関し、特に、画像を用いた認識処理を行う場合に用いて好適な、処理装置および画像処理方法、認識装置および認識方法、並びに、プログラムに関する。

実環境で物体認識を、画像（例えば、カメラなどを用いて撮像された画像）を用いて行う場合、画像内には、認識するべき物体のみならず、背景が含まれる。認識するべき物体が、背景を含む雑多なシーン中のどこにあるのか(localization)を認識するにあたって、背景のパターン（形状、色など）が誤認識の原因になることから、背景の雑多な環境での物体認識は非常に困難である。

例えば、従来、複眼により撮像された画像によりステレオ計算を用いて、撮像されている物体のカメラからの距離に基づいて、認識物をセグメンテーション（切り出し）する方法があった。

また、画像処理による物体認識（Object Recognition）の手法は、近年様々なものが提案されており、最近１０年で飛躍的に向上している。

画像処理による物体認識には、特徴量、幾何学的接続、および、識別器の３つが必要である。すなわち、画像処理による物体認識の手法は、特徴量の選択と、幾何学的接続の方法の選択と、識別器の選択とをどのようにするかによって決まる。

まず、特徴量として何を使うのかについては、グローバルな特徴量を使うのか、局所的な特徴量を使うのか、また、局所的な特徴量の中でも、どのような計算をするのかなどで選択肢が多数ある。

そして、例えば、局所領域特徴を使う場合、それらを幾何学的につなげる方法を選択する必要があり、大きく分けると、テンプレートを明示的に用意する方法(explicit template)と、“投票”(implicit voting method)により暗示的に求める方法がある。

そして、最終的には、その特徴量を使って物体（認識するべき対象）を表現するために、どのような識別器を用いるのかということを考えなくてはならない。

特徴量について言えば、近年の手法では、全体の画像を局所領域（local region）と呼ばれるいくつかの小さい領域に分割し、その局所領域から得られる特徴点や特徴量といった局所情報に基づいて物体認識を行うことが主流になりつつある。なお、この局所領域という表現は、局所記述子（local descriptor）、コンポーネント（component）、パーツ（parts）、フラグメント（fragments）等、様々な呼称を有する。

このような局所情報の例としては、ガボアジェット(Gabor Jet)や、ハーウェイブレット(Haar Wavelett)、ガウシアン導関数(Gaussian Derivatives)、ＳＩＦＴ特徴などが挙げられる。また、識別器としては、統計学習器械がよく用いられるが、例としては、サポートベクターマシン（ＳＶＭ：Support Vector Machine）や、ブースティング、ベイズ推定などがあげられる。

従来、上述したように、さまざまな特徴量、幾何学的接続方法、および、識別器をもちいて、認識処理が行われてきた（例えば、非特許文献１乃至被特許文献１１参照）。

Object Recognition with Cortex-like MechanismsSerre, T., L. Wolf, S. Bileschi, M. Riesenhuber and T. Poggio. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29, 3, 411-426, 2007.

R. Fergus, P. Perona, and A. Zisserman. Object class recognition by unsupervised scale-invariant learning. In Proceedings of International Conference on Computer Vision and Pattern Recognition (CVPR), pages: II-264- II-271 vol.2June 2003

B. Leibe, A. Leonardis, and B. Schiele. Combined object categorization and segmentation with an implicit shape model. In European Conference on Computer Vision (ECCV'04)Workshop on Statistical Learning in Computer Vision, 2004.

Contour-Based Learning for Object DetectionJamie Shotton, Andrew Blake, and Roberto CipollaInternational Conference on Computer Vision(ICCV 2005)

M. Vidal-Naquet and S. Ullman. Object recognition with informative features and linear classification. In ICCV, pages 281-288, 2003.

Using the forest to see the trees: a graphical model relating features, objects and scenesP. Murphy, A. Torralba and W. T. FreemanAdv. in Neural Information Processing Systems 16 (NIPS), Vancouver, BC, MIT Press, 2003.

The Pyramid Match Kernel: Discriminative Classification with Sets of Image Features.K. Grauman and T. Darrell. International Conference on Computer Vision(ICCV 2005)

Discovering objects and their location in imagesJosef Sivic, B.Russell, A.Efros, A.Zisserman, W.FreemanInternational Conference on Computer Vision(ICCV 2005)

SVM-KNN: Discriminative Nearest Neighbor Classification for Visual Category RecognitionHao Zhang Alexander C. Berg Michael Maire Jitendra MalikInternational Conference on Computer Vision and Pattern Recognition (CVPR 2006)

G. Csurka, C. Bray, C. Dance, and L. Fan. Visual categorization with bags of keypoints. In Workshop on Statistical Learning in Computer Vision, ECCV, pages 1-22, 2004.

Ian R. Fasel, Learning to Detect Objects in Real-Time: Probabilistic Generative Approaches, PhD thesis, UCSD, June 2006

図１を用いて、非特許文献１乃至非特許文献１１について説明する。

非特許文献１に記載の認識処理に用いられているアプローチ方法は、HMAXと称され、特徴量には、ガボアフィルタの組み合わせで位置ずれに強くした特徴量であるC2(gabor)を用い、近傍でのベストマッチ特徴量であるlocal MAX poolingを用いて、RBF（RadialBasisFunction） Networkにより識別を行うようになされている。

非特許文献２に記載の認識処理に用いられているアプローチ方法は、Constellationと称され、特徴量には輝度画像パッチであるgray patchを用い、ガウス分布を利用して、ML（Maximum Likelihood）(Bayes)により識別を行うようになされている。

非特許文献３に記載の認識処理に用いられているアプローチ方法は、ISM（Implicit Shape Mode）と称され、特徴量には輝度画像パッチであるgray patchを用い、テンプレートを投票(implicit voting method)により暗示的に求める方法を利用して、SVM（SupportVectorMachines）により認識を行うようになされている。

非特許文献４に記載の認識処理に用いられているアプローチ方法は、この文献の著者の名前から、Blakeと称され、特徴量にはエッジ画像（edgels）を用い、star modelを利用して、ブースティング（Boosting）アルゴリズムにより認識を行うようになされている。

非特許文献５に記載の認識処理に用いられているアプローチ方法は、Fragmentsと称され、特徴量には輝度画像パッチであるgray patchを用い、テンプレートを用いる方法を利用して、相互情報量（mutual info）により認識を行うようになされている。

非特許文献６に記載の認識処理に用いられているアプローチ方法は、この文献の著者の名前から、Torralbaと称され、特徴量として、GD（Gaussian Derivatives）Lap（Laplacians）Haar（Haar Features）を用い、テンプレートを用いる方法を利用して、ブースティング（Boosting）アルゴリズムおよびベイズ（Bayes）推定により認識を行うようになされている。

非特許文献７に記載の認識処理に用いられているアプローチ方法は、PMK（Pyramid Match Kernel）と称されている。これは、２つのbag同士の部分マッチングに基づいて類似度を計算するカーネル関数を提案するものであり、特徴量として、Pyramid Histogramを用いて、SVMを用いた画像分類を行うようになされている。

非特許文献８に記載の認識処理に用いられているアプローチ方法は、pLSA（probabilistic Latent Semantic Analysis）と称され、特徴量として、SIFT（Scale Invariant Feature Transform）を用い、pLSAにより認識を行うようになされている。

非特許文献９に記載の認識処理に用いられているアプローチ方法は、SVM-kNN（k-NearestNeighbor；最近傍分類法）と称され、特徴量として、shape contextが用いられ、テンプレートを利用して、まずｋNN探索を行い、所定数がすべて同じラベルの対象ならそのクラスに分類し、そうでなければ、マルチクラスSVMを実行することにより認識を行うようになされている。

非特許文献１０に記載の認識処理に用いられているアプローチ方法は、Bag-of-Featuresと称され、特徴量として、SIFTを用い、SVMにより認識を行うようになされている。

非特許文献１１に記載の認識処理に用いられているアプローチ方法は、この文献の著者の名前から、Ianと称され、特徴量として、Haar型の特徴量が用いられ、テンプレートを利用して、ベイズ（Bayes）推定により認識を行うようになされている。

しかしながら、認識するべき物体が、背景を含む雑多なシーン中のどこにあるのかを簡単な方法を用いて検出することができなかった。例えば、従来利用されていた、ステレオ計算を用いたセグメンテーションを用いるためには、複眼カメラを利用しなければならず、コストアップの原因となっていた。そこで、例えば、単眼カメラにより得られた画像データから、ユーザの操作などにより、必要な領域を切り出すような煩雑な操作が行われていた。

そこで、コストを抑制しつつ、煩雑な操作を行うことなく、容易に、認識するべき物体を画像データから抽出する、すなわち、背景を分離することができる技術が求められている。

また、上述した非特許文献１乃至１１に記載されている従来技術においては、局所情報として得られる特徴量がその種類によって内容が異なり、相互に互換性が担保されない。例えば、色に関する特徴量と形に関する特徴量とでは、一般にベクトルの次元やスケールが異なるため、互いに比較対象とはなり得ない。従って、異なる種類の特徴量を利用して物体の認識に役立てることは困難であった。

本発明はこのような状況に鑑みてなされたものであり、認識するべき物体を画像から簡単に抽出して物体認識を行うことができるようにするものである。

本発明の第１の側面の画像処理装置は、認識対象を認識するための認識器を学習処理により予め生成する画像処理装置であって、前記学習処理に用いる学習画像を取得する学習画像取得手段と、前記認識対象に対応するモデル画像を取得するモデル画像取得手段と、前記学習画像取得手段により取得された前記学習画像と前記モデル画像取得手段により取得された前記モデル画像とを用いて前記学習処理を実行し、前記認識対象を認識するための認識器を生成する認識器生成手段とを備え、前記学習画像取得手段または前記モデル画像取得手段のうちの少なくとも一方は、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データを取得する画像取得手段と、前記画像取得手段により取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する画像抽出手段とを備え、前記画像抽出手段により抽出された前記被写体に対応する部分を、前記学習画像、または、前記モデル画像として取得する。

前記画像抽出手段には、前記画像取得手段により取得された前記画像データの各画素において、近傍の画素との差分が大きい画素を抽出するための演算処理を実行する第１の演算手段と、前記第１の演算手段により抽出された近傍の画素との差分が大きい画素を注目画素として、前記注目画素とその近傍領域との平均を求める第２の演算手段と、前記第２の演算手段の演算結果に基づいて、前記画像データを、検出するべき物体に対応する領域と、背景であると考えられる領域に分割する分割手段とを含ませるようにすることができる。

前記分割手段には、前記第２の演算手段の演算結果を所定の閾値で２値化することにより、検出するべき物体に対応する領域と、背景であると考えられる領域に分割させるようにすることができる。

前記分割手段にには、前記第２の演算手段の演算結果が正の値である画素を検出するべき物体に対応する領域と認識させるようにすることができる。

前記認識器生成手段は、前記モデル画像取得手段により取得された前記モデル画像から複数の特徴点をモデル特徴点として生成するモデル特徴点生成手段と、前記モデル特徴点生成手段により生成された前記モデル特徴点のそれぞれにおける特徴量をモデル特徴量として生成するモデル特徴量生成手段と、前記学習画像取得手段により取得された前記学習画像から複数の特徴点を学習特徴点として生成する学習特徴点生成手段と、前記学習特徴点生成手段により生成された前記学習特徴点のそれぞれにおける特徴量を学習特徴量として生成する学習特徴量生成手段と、前記モデル特徴量生成手段により生成された前記モデル特徴量の各々について、前記学習特徴量生成手段により生成された前記学習特徴量のうち最も相関の高いものを選択して、選択された前記学習特徴量との間の相関の程度を学習相関特徴量として生成する学習相関特徴量生成手段と、前記学習画像が前記認識対象を含むか否かを示す正誤情報を取得する正誤情報取得手段と、前記学習相関特徴量生成手段により生成された前記学習相関特徴量、および、前記正誤情報取得手段により取得された前記正誤情報に基づいて認識器を生成する認識器生成手段とを備えさせるようにすることができる。

前記モデル特徴点生成手段により生成される前記モデル特徴点は、前記モデル特徴点における前記モデル特徴量の種類に応じて選択されるものとすることができ、前記学習特徴点生成手段により生成される前記学習特徴点は、前記学習特徴点における前記学習特徴量の種類に応じて選択されるものとすることができる。

前記モデル特徴量生成手段により生成される前記モデル特徴量は、前記モデル特徴量の種類に応じて選択されるものとすることができ、前記学習特徴量生成手段により生成される前記学習特徴量は、前記学習特徴量の種類に応じて選択されるものとすることができる。

前記認識器生成手段には、重み付き投票に基づく学習処理により、前記認識器を生成させるようにすることができる。

前記重み付き投票に基づく学習処理は、ブースティングアルゴリズムであるものとすることができる。

前記画像抽出手段には、前記画像取得手段により取得された前記画像データのうちの焦点が合致していない領域を抽出することにより、焦点が合致した前記被写体に対応する部分を抽出させるようにすることができる。

前記画像抽出手段には、ＦＦＴを用いて、前記画像取得手段により取得された前記画像データを構成する各画像領域の周波数スペクトルを分析させ、高周波成分が十分含まれている領域では焦点が合致していると判定させることにより、焦点が合致した前記被写体に対応する部分を抽出させるようにすることができる。

前記認識器生成手段により生成された前記認識器を記憶する認識器記憶手段と、前記認識器記憶手段により記憶されている前記認識器のそれぞれに対応する選択特徴量を記憶する選択特徴量記憶手段と、認識処理を行うために用いられる認識画像を取得する認識画像取得手段と、前記認識画像取得手段により取得された前記認識画像から複数の特徴点を認識特徴点として生成する認識特徴点生成手段と、前記認識特徴点生成手段により生成された前記認識特徴点のそれぞれにおける特徴量を認識特徴量として生成する認識特徴量生成手段と、前記選択特徴量記憶手段により記憶される前記選択特徴量のそれぞれについて前記認識特徴量生成手段により生成された前記認識特徴量のうち最も相関の高いものを選択して、選択された前記認識特徴量との間の相関の程度を認識相関特徴量として生成する認識相関特徴量生成手段と、前記認識相関特徴量生成手段により生成された前記認識相関特徴量を、前記認識器生成手段により生成された前記認識器に代入することによって、前記認識画像取得手段により取得された前記認識画像に前記認識対象が含まれているか否かを判断する認識処理手段とを更に備えさせるようにすることができる。

前記認識画像取得手段には、前記画像取得手段および前記画像抽出手段を備えさせるようにすることができ、前記画像抽出手段により抽出された前記被写体に対応する部分を、前記認識画像として取得させるようにすることができる。

本発明の第１の側面の画像処理方法は、認識対象を認識するための認識器を学習処理により予め生成する画像処理装置の画像処理方法であって、前記学習処理に用いる学習画像を取得し、前記認識対象に対応するモデル画像を取得し、取得された学習画像と前記モデル画像とを用いて前記学習処理を実行し、前記認識対象を認識するための認識器を生成するステップを含み、前記学習画像を取得するステップ、または、前記モデル画像を取得するステップのうちの少なくとも一方は、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データを取得し、取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出するステップを含み、抽出された前記被写体に対応する部分を、前記学習画像、または、前記モデル画像として取得する。

本発明の第１の側面のプログラムは、認識対象を認識するための認識器を学習処理により予め生成する処理をコンピュータに実行させるためのプログラムであって、前記学習処理に用いる学習画像の取得を制御し、前記認識対象に対応するモデル画像の取得を制御し、取得された学習画像と前記モデル画像とを用いて前記学習処理を実行し、前記認識対象を認識するための認識器を生成するステップを含み、前記学習画像を取得するステップ、または、前記モデル画像を取得するステップのうちの少なくとも一方は、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データの取得を制御し、取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出するステップを含み、抽出された前記被写体に対応する部分を、前記学習画像、または、前記モデル画像として取得する処理をコンピュータに実行させる。

本発明の第１の側面においては、学習処理に用いる学習画像が取得され、認識対象に対応するモデル画像が取得され、取得された学習画像とモデル画像とを用いて学習処理が実行され、認識対象を認識するための認識器が生成される。そして、学習画像の取得、または、モデル画像の取得の少なくとも一方においては、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データが取得され、取得された画像データから、焦点が合致した被写体に対応する部分が抽出され、抽出された被写体に対応する部分が、学習画像、または、モデル画像として取得される。

本発明の第２の側面の認識装置は、学習処理により生成された認識器を用いて、認識対象が認識画像に含まれているか否かを判断する認識処理を行う認識装置であって、認識処理を行うために用いられる前記認識画像を取得する認識画像取得手段と、前記認識器を記憶する認識器記憶手段と、前記認識器記憶手段により記憶されている前記認識器のそれぞれに対応する選択特徴量を記憶する選択特徴量記憶手段と、前記認識器記憶手段により記憶されている前記認識器および前記選択特徴量記憶手段により記憶されている前記選択特徴量を用いて、前記認識画像取得手段により取得された前記認識画像に前記認識対象が含まれているか否かを判断する認識処理手段とを備え、前記認識画像取得手段は、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データを取得する画像取得手段と、前記画像取得手段により取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する画像抽出手段とを備え、前記画像抽出手段により抽出された前記被写体に対応する部分を、前記認識画像として取得する。

前記分割手段には、前記第２の演算手段の演算結果が正の値である画素を検出するべき物体に対応する領域と認識させるようにすることができる。

前記認識処理手段には、前記認識画像取得手段により取得された前記認識画像から複数の特徴点を認識特徴点として生成する認識特徴点生成手段と、前記認識特徴点生成手段により生成された前記認識特徴点のそれぞれにおける特徴量を認識特徴量として生成する認識特徴量生成手段と、前記選択特徴量記憶手段に記憶される前記選択特徴量のそれぞれについて前記認識特徴量生成手段により生成された前記認識特徴量のうち最も相関の高いものを選択して、選択された前記認識特徴量との間の相関の程度を認識相関特徴量として生成する認識相関特徴量生成手段と、前記認識相関特徴量生成手段により生成された前記認識相関特徴量を、前記認識器記憶手段により記憶された前記認識器に代入することによって、前記認識画像取得手段により取得された前記認識画像に前記認識対象が含まれているか否かを判断する判断手段とを備えさせるようにすることができる。

前記認識器記憶手段により記憶されている前記認識器は、所定のモデル画像から複数の特徴点をモデル特徴点として生成し、前記モデル特徴点のそれぞれにおける特徴量をモデル特徴量として生成し、所定の学習画像から複数の特徴点を学習特徴点として生成し、前記学習特徴点のそれぞれにおける特徴量を学習特徴量として生成し、前記モデル特徴量の各々について、前記学習特徴量のうち最も相関の高いものを選択して、選択された前記学習特徴量との間の相関の程度を学習相関特徴量として生成し、前記学習画像が前記認識対象を含むか否かを示す正誤情報を取得し、前記学習相関特徴量、および、前記正誤情報に基づいて生成された認識器であるものとすることができる。

本発明の第２の側面の認識方法は、学習処理により生成され、記憶部に記憶された認識器、および、前記記憶部に記憶されている前記認識器のそれぞれに対応する選択特徴量を用いて、認識対象が認識画像に含まれているか否かを判断する認識処理を行う認識装置の認識方法であって、認識処理を行うために用いられる前記認識画像を取得し、前記認識器および前記選択特徴量を用いて、取得された前記認識画像に前記認識対象が含まれているか否かを判断するステップを含み、前記認識画像を取得するステップの処理では、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データを取得し、取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出するステップを含み、抽出された前記被写体に対応する部分を、前記認識画像として取得する。

本発明の第２の側面のプログラムは、学習処理により生成され、記憶部に記憶された認識器、および、前記記憶部に記憶されている前記認識器のそれぞれに対応する選択特徴量を用いて、認識対象が認識画像に含まれているか否かを判断する処理をコンピュータに実行させるプログラムであって、認識処理を行うために用いられる前記認識画像の取得を制御し、前記認識器および前記選択特徴量を用いて、取得された前記認識画像に前記認識対象が含まれているか否かを判断するステップを含み、前記認識画像を取得するステップの処理では、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データの取得を制御し、取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出するステップを含み、抽出された前記被写体に対応する部分を、前記認識画像として取得する処理をコンピュータに実行させる。

本発明の第２の側面においては、認識処理を行うために用いられる認識画像が取得され、認識器および選択特徴量が用いられて、取得された認識画像に認識対象が含まれているか否かが判断される。そして、認識画像が取得されるとき、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データが取得され、取得された画像データから、焦点が合致した被写体に対応する部分が抽出され、抽出された被写体に対応する部分が、認識画像として取得される。

ネットワークとは、少なくとも２つの装置が接続され、ある装置から、他の装置に対して、情報の伝達をできるようにした仕組みをいう。ネットワークを介して通信する装置は、独立した装置どうしであっても良いし、１つの装置を構成している内部ブロックどうしであっても良い。

また、通信とは、無線通信および有線通信は勿論、無線通信と有線通信とが混在した通信、即ち、ある区間では無線通信が行われ、他の区間では有線通信が行われるようなものであっても良い。さらに、ある装置から他の装置への通信が有線通信で行われ、他の装置からある装置への通信が無線通信で行われるようなものであっても良い。

画像処理装置は、独立した装置であっても良いし、情報処理装置の記録処理を行うブロックであっても良い。また、学習装置や認識装置も、独立した装置であっても良いし、情報処理装置の記録処理を行うブロックであっても良い。

以上のように、本発明の第１の側面によれば、認識器を生成することができ、特に、認識器の学習に用いる画像のうちの少なくとも一部から、自動的に、認識対象の撮像領域を抽出することができる。

また、本発明の第２の側面によれば、認識処理を行うことができ、特に、認識処理に用いる画像のうちの少なくとも一部から、自動的に、認識対象の撮像領域を抽出することができる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書または図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書または図面に記載されていることを確認するためのものである。従って、明細書または図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の第１の側面の画像処理装置は、認識対象を認識するための認識器を学習処理により予め生成する画像処理装置（例えば、図１９の学習装置７１、または、画像処理システム５１に対応する装置）であって、前記学習処理に用いる学習画像を取得する学習画像取得手段（例えば、図１９の学習画像取得部９５）と、前記認識対象に対応するモデル画像を取得するモデル画像取得手段（例えば、図１９のモデル画像取得部９１）と、前記学習画像取得手段により取得された前記学習画像と前記モデル画像取得手段により取得された前記モデル画像とを用いて前記学習処理を実行し、前記認識対象を認識するための認識器を生成する認識器生成手段（例えば、図１９のモデル特徴点生成部９２、モデル特徴量生成部９３、モデル特徴量記憶部９４、学習特徴点生成部９６、学習特徴量生成部９７、学習相関特徴量生成部９８、正誤情報取得部９９、および、認識器生成部１００）とを備え、前記学習画像取得手段または前記モデル画像取得手段のうちの少なくとも一方は、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データ（例えば、図３のＡに示されるようなフォーカスカメラにより撮像された画像データ）を取得する画像取得手段（例えば、図４の画像取得部２１）と、前記画像取得手段により取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する画像抽出手段（例えば、図４の背景分離処理部２２）とを備え、前記画像抽出手段により抽出された前記被写体に対応する部分を、前記学習画像、または、前記モデル画像として取得する。

前記画像抽出手段は、前記画像取得手段により取得された前記画像データの各画素において、近傍の画素との差分が大きい画素を抽出するための演算処理を実行する第１の演算手段（例えば、図５の近傍画素差分フィルタ計算処理部３１）と、前記第１の演算手段により抽出された近傍の画素との差分が大きい画素を注目画素として、前記注目画素とその近傍領域との平均を求める第２の演算手段（例えば、図５の近傍領域和フィルタ計算処理部３２）と、前記第２の演算手段の演算結果に基づいて、前記画像データを、検出するべき物体に対応する領域と、背景であると考えられる領域に分割する分割手段（例えば、図５の閾値処理部３３）とを含むことができる。
請求項１に記載の画像処理装置。

前記認識器生成手段は、前記モデル画像取得手段により取得された前記モデル画像から複数の特徴点をモデル特徴点として生成するモデル特徴点生成手段（例えば、図１９のモデル特徴点生成部９２）と、前記モデル特徴点生成手段により生成された前記モデル特徴点のそれぞれにおける特徴量をモデル特徴量として生成するモデル特徴量生成手段（例えば、図１９のモデル特徴量生成部９３）と、前記学習画像取得手段により取得された前記学習画像から複数の特徴点を学習特徴点として生成する学習特徴点生成手段（例えば、図１９の学習特徴点生成部９６）と、前記学習特徴点生成手段により生成された前記学習特徴点のそれぞれにおける特徴量を学習特徴量として生成する学習特徴量生成手段（例えば、図１９の学習特徴量生成部９７）と、前記モデル特徴量生成手段により生成された前記モデル特徴量の各々について、前記学習特徴量生成手段により生成された前記学習特徴量のうち最も相関の高いものを選択して、選択された前記学習特徴量との間の相関の程度を学習相関特徴量として生成する学習相関特徴量生成手段（例えば、図１９の学習相関特徴量生成部９８）と、前記学習画像が前記認識対象を含むか否かを示す正誤情報を取得する正誤情報取得手段（例えば、図１９の正誤情報取得部９９）と、前記学習相関特徴量生成手段により生成された前記学習相関特徴量、および、前記正誤情報取得手段により取得された前記正誤情報に基づいて認識器を生成する認識器生成手段とを備えることができる。

前記モデル特徴点生成手段により生成される前記モデル特徴点は、前記モデル特徴点における前記モデル特徴量の種類（例えば、形、色、動き、テクスチャ、素材、歩行パターンなど）に応じて選択され、前記学習特徴点生成手段により生成される前記学習特徴点は、前記学習特徴点における前記学習特徴量の種類（例えば、形、色、動き、テクスチャ、素材、歩行パターンなど）に応じて選択されるものとすることができる。

前記モデル特徴量生成手段により生成される前記モデル特徴量は、前記モデル特徴量の種類（例えば、形、色、動き、テクスチャ、素材、歩行パターンなど）に応じて選択され、前記学習特徴量生成手段により生成される前記学習特徴量は、前記学習特徴量の種類（例えば、形、色、動き、テクスチャ、素材、歩行パターンなど）に応じて選択されるものとすることができる。

前記画像抽出手段は、前記画像取得手段により取得された前記画像データのうちの焦点が合致していない領域を抽出（例えば、Blur Detection for Digital Images Using Wavelet Transform; Hanghang Tong: Mingjing Li, Hongjiang Zhang: Changshiui Zhangに記載されている技術を用いる）することにより、焦点が合致した前記被写体に対応する部分を抽出することができる。

前記認識器生成手段により生成された前記認識器を記憶する認識器記憶手段（例えば、図１９の認識器記憶部１２２）と、前記認識器記憶手段により記憶されている前記認識器のそれぞれに対応する選択特徴量を記憶する選択特徴量記憶手段（例えば、図１９の選択特徴量記憶部１２１）と、認識処理を行うために用いられる認識画像を取得する認識画像取得手段（例えば、図１９の認識画像取得部１２３）と、前記認識画像取得手段により取得された前記認識画像から複数の特徴点を認識特徴点として生成する認識特徴点生成手段（例えば、図１９の認識特徴点生成部１２４）と、前記認識特徴点生成手段により生成された前記認識特徴点のそれぞれにおける特徴量を認識特徴量として生成する認識特徴量生成手段（例えば、図１９の認識特徴量生成部１２５）と、前記選択特徴量記憶手段により記憶される前記選択特徴量のそれぞれについて前記認識特徴量生成手段により生成された前記認識特徴量のうち最も相関の高いものを選択して、選択された前記認識特徴量との間の相関の程度を認識相関特徴量として生成する認識相関特徴量生成手段（例えば、図１９の認識相関特徴量生成部１２６）と、前記認識相関特徴量生成手段により生成された前記認識相関特徴量を、前記認識器生成手段により生成された前記認識器に代入することによって、前記認識画像取得手段により取得された前記認識画像に前記認識対象が含まれているか否かを判断する認識処理手段（例えば、図１９の認識処理部１２７）とを更に備えることができる。

本発明の第１の側面の画像処理方法は、認識対象を認識するための認識器を学習処理により予め生成する画像処理装置（例えば、図１９の学習装置７１、または、画像処理システム５１に対応する装置）の画像処理方法であって、前記学習処理に用いる学習画像を取得し（例えば、図２９のステップＳ１６の処理）、前記認識対象に対応するモデル画像を取得し（例えば、図２９のステップＳ１１の処理）、取得された学習画像と前記モデル画像とを用いて前記学習処理を実行し、前記認識対象を認識するための認識器を生成する（例えば、図２９のステップＳ２０の処理）ステップを含み、前記学習画像を取得するステップ、または、前記モデル画像を取得するステップのうちの少なくとも一方は、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データ（例えば、図３のＡに示されるようなフォーカスカメラにより撮像された画像データ）を取得し（例えば、図３０のステップＳ４１の処理）、取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する（例えば、図３０のステップＳ４２）ステップを含み、抽出された前記被写体に対応する部分を、前記学習画像、または、前記モデル画像として取得する。

本発明の第１の側面のプログラムは、認識対象を認識するための認識器を学習処理により予め生成する処理をコンピュータに実行させるためのプログラムであって、前記学習処理に用いる学習画像の取得を制御し（例えば、図２９のステップＳ１６の処理）、前記認識対象に対応するモデル画像の取得を制御し（例えば、図２９のステップＳ１１の処理）、取得された学習画像と前記モデル画像とを用いて前記学習処理を実行し、前記認識対象を認識するための認識器を生成する（例えば、図２９のステップＳ２０の処理）ステップを含み、前記学習画像を取得するステップ、または、前記モデル画像を取得するステップのうちの少なくとも一方は、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データ（例えば、図３のＡに示されるようなフォーカスカメラにより撮像された画像データ）の取得を制御し（例えば、図３０のステップＳ４１の処理）、取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する（例えば、図３０のステップＳ４２）ステップを含み、抽出された前記被写体に対応する部分を、前記学習画像、または、前記モデル画像として取得する処理をコンピュータに実行させる。

本発明の第２の側面の認識装置は、学習処理により生成された認識器を用いて、認識対象が認識画像に含まれているか否かを判断する認識処理を行う認識装置（例えば、図１９の認識装置７２）であって、認識処理を行うために用いられる前記認識画像を取得する認識画像取得手段（例えば、図１９の認識画像取得部１２３）と、前記認識器を記憶する認識器記憶手段（例えば、図１９の認識器記憶部１２２）と、前記認識器記憶手段により記憶されている前記認識器のそれぞれに対応する選択特徴量を記憶する選択特徴量記憶手段（例えば、図１９の選択特徴量記憶部１２１）と、前記認識器記憶手段により記憶されている前記認識器および前記選択特徴量記憶手段により記憶されている前記選択特徴量を用いて、前記認識画像取得手段により取得された前記認識画像に前記認識対象が含まれているか否かを判断する認識処理手段（例えば、図１９の認識特徴点生成部１２４、認識特徴量生成部１２５、認識相関特徴量生成部１２６、認識処理部１２７）とを備え、前記認識画像取得手段は、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データ（例えば、図３のＡに示されるようなフォーカスカメラにより撮像された画像データ）を取得する画像取得手段（例えば、図４の画像取得部２１）と、前記画像取得手段により取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する画像抽出手段（例えば、図４の背景分離処理部２２）とを備え、前記画像抽出手段により抽出された前記被写体に対応する部分を、前記認識画像として取得する。

前記画像抽出手段は、前記画像取得手段により取得された前記画像データの各画素において、近傍の画素との差分が大きい画素を抽出するための演算処理を実行する第１の演算手段（例えば、図５の近傍画素差分フィルタ計算処理部３１）と、前記第１の演算手段により抽出された近傍の画素との差分が大きい画素を注目画素として、前記注目画素とその近傍領域との平均を求める第２の演算手段（例えば、図５の近傍領域和フィルタ計算処理部３２）と、前記第２の演算手段の演算結果に基づいて、前記画像データを、検出するべき物体に対応する領域と、背景であると考えられる領域に分割する分割手段（例えば、図５の閾値処理部３３）とを含むことができる。

前記認識処理手段は、前記認識画像取得手段により取得された前記認識画像から複数の特徴点を認識特徴点として生成する認識特徴点生成手段（例えば、図１９の認識特徴点生成部１２４）と、前記認識特徴点生成手段により生成された前記認識特徴点のそれぞれにおける特徴量を認識特徴量として生成する認識特徴量生成手段（例えば、図１９の認識特徴量生成部１２５）と、前記選択特徴量記憶手段に記憶される前記選択特徴量のそれぞれについて前記認識特徴量生成手段により生成された前記認識特徴量のうち最も相関の高いものを選択して、選択された前記認識特徴量との間の相関の程度を認識相関特徴量として生成する認識相関特徴量生成手段（例えば、図１９の認識相関特徴量生成部１２６）と、前記認識相関特徴量生成手段により生成された前記認識相関特徴量を、前記認識器記憶手段により記憶された前記認識器に代入することによって、前記認識画像取得手段により取得された前記認識画像に前記認識対象が含まれているか否かを判断する判断手段（例えば、図１９の認識処理部１２７）とを備えることができる。

本発明の第２の側面の認識方法は、学習処理により生成され、記憶部に記憶された認識器、および、前記記憶部に記憶されている前記認識器のそれぞれに対応する選択特徴量を用いて、認識対象が認識画像に含まれているか否かを判断する認識処理を行う認識装置（例えば、図１９の認識装置７２）の認識方法であって、認識処理を行うために用いられる前記認識画像を取得し（例えば、図３４のステップＳ１８１、または、図３７のステップＳ２７１の処理）、前記認識器および前記選択特徴量を用いて、取得された前記認識画像に前記認識対象が含まれているか否かを判断する（例えば、図３４のステップＳ１８６、または、図３７のステップＳ２７８の処理）ステップを含み、前記認識画像を取得するステップの処理では、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データ（例えば、図３のＡに示されるようなフォーカスカメラにより撮像された画像データ）を取得し（例えば、図３０のステップＳ４１の処理）、取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する（例えば、図３０のステップＳ４２）ステップを含み、抽出された前記被写体に対応する部分を、前記認識画像として取得する。

本発明の第２の側面のプログラムは、学習処理により生成され、記憶部に記憶された認識器、および、前記記憶部に記憶されている前記認識器のそれぞれに対応する選択特徴量を用いて、認識対象が認識画像に含まれているか否かを判断する処理をコンピュータに実行させるプログラムであって、認識処理を行うために用いられる前記認識画像の取得を制御し（例えば、図３４のステップＳ１８１、または、図３７のステップＳ２７１の処理）、前記認識器および前記選択特徴量を用いて、取得された前記認識画像に前記認識対象が含まれているか否かを判断する（例えば、図３４のステップＳ１８６、または、図３７のステップＳ２７８の処理）ステップを含み、前記認識画像を取得するステップの処理では、所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データ（例えば、図３のＡに示されるようなフォーカスカメラにより撮像された画像データ）の取得を制御し（例えば、図３０のステップＳ４１の処理）、取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する（例えば、図３０のステップＳ４２）ステップを含み、抽出された前記被写体に対応する部分を、前記認識画像として取得する処理をコンピュータに実行させる。

以下、図を参照して、本発明の実施の形態について説明する。

画像認識処理を行うにあたって、学習処理においても、認識処理においても、取得する画像データから、学習対象、または、認識対象となる部分のみを抽出する、換言すれば、学習や認識に利用するべきではない背景部分を除去することが必要である。

例えば、図２に示されるように、画像認識処理は、認識処理のための物体モデルを学習するための学習処理と、学習の結果得られた物体モデルを用いた認識処理とに大きく分かれる。学習処理と認識処理とは、いずれも、背景を除去した画像で行われる。

すなわち、学習処理時は、学習のために取得された入力画像データから、認識するべき物体の切り出し、すなわち、背景の分離が行われて、入力画像データから切り出された認識するべき物体に対応する部分の画像データを用いて、学習処理が実行される。そして、学習処理の結果得られた認識用の物体モデルデータは、物体モデルデータベース（ＤＢ）に格納される。そして、認識処理時には、認識のために取得された入力画像データから、認識するべき物体の切り出し、すなわち、背景の分離が行われて、入力画像データから切り出された認識するべき物体に対応する部分の画像データを用いて、物体モデルデータベースに格納されている物体モデルデータを参照して、認識処理、すなわち、認識のために取得された入力画像データに、認識するべき物体が含まれているか否かが判断される。

このとき、学習処理と認識処理とにおいて入力画像から背景を容易に除去するために、入力画像データを、フォーカスカメラにより撮像するものとすると好適である。

フォーカスカメラで撮像された画像データは、所定の焦点距離近傍に存在する物体のみに焦点が合い、その他の物体、すなわち、背景部分においては、焦点が合わず、所謂ピンボケ状態となる。

認識するべき物体を含む画像データを、フォーカスカメラにより撮像した場合と、ある程度背景にも焦点が合致するように撮像した場合について、図３を用いて説明する。

図３のＡは、フォーカスカメラにより撮像された、認識するべき物体を含む画像データを示す図である。そして、図３のＢは、通常の焦点制御により撮像された、認識するべき物体を含む画像データを示す図である。

図３のＢに示される画像データにおいては、認識するべき物体のみならず、背景に見える物体にも、焦点があっており、背景に見える物体も、はっきりと撮像されている。これに対して、図３のＡに示される画像データにおいては、認識するべき物体のみに焦点が合致しており、背景に見える物体は、ピンボケ状態である。すなわち、フォーカスカメラにより撮像された画像データにおいては、認識するべき物体だけが浮き出て見える。

図４は、フォーカスカメラにより撮像して得られた画像データから、焦点が合致した部分を抽出する処理を実行する画像処理部１１の構成を示すブロック図である。

画像処理部１１は、画像取得部２１と背景分離処理部２２とを含んで構成されている。

画像取得部２１は、フォーカスカメラにより撮像して得られた画像データを外部から取得するか、または、内部にフォーカスカメラを備えて撮像処理を実行し、背景分離処理部２２に供給する。

背景分離処理部２２は、フォーカスカメラにより撮像して得られた画像データから、焦点が合致した部分を抽出し、抽出された部分の画像データを出力する。

フォーカスカメラにより撮像して得られた画像データから、焦点が合致した部分を抽出するためには、一般的に用いられている、画像のボケ検出の技術（例えば、Blur Detection for Digital Images Using Wavelet Transform; Hanghang Tong: Mingjing Li, Hongjiang Zhang: Changshiui Zhangに記載されている技術）を応用することができる。すなわち、画像データのうち、焦点の合致していないボケ部分を検出し、その部分を削除することにより、焦点が合致した部分を抽出することが可能である。

また、フォーカスカメラにより撮像して得られた画像データにＦＦＴ（Fast Fourier transform）をかけることによって、撮像された画像データのそれぞれの画像領域の周波数スペクトルを分析し、高周波成分が十分含まれている領域では、焦点があっているとし、一方、周波数が低いところは、ピンボケになっていると判定することにより、認識するべき物体に対応する部分を抽出することも可能である。

更に、フォーカスカメラにより撮像して得られた画像データの各画素において、注目画素とその近傍画素との輝度差フィルタを使うことにより、焦点が合致した部分を抽出することも可能である。

図５は、上述した輝度差フィルタを用いて、フォーカスカメラにより撮像して得られた背景を含む画像データから、認識対象の物質に対応する部分を抽出する場合の背景分離処理部２２の更に詳細な構成を示すブロック図である。

フォーカスカメラにより撮像して得られた背景を含む画像データから、認識対象の物質に対応する部分を抽出する場合の背景分離処理部２２は、近傍画素差分フィルタ計算処理部３１、近傍領域和フィルタ計算処理部３２、および、閾値処理部３３を含んで構成されている。

近傍画素差分フィルタ計算処理部３１は、供給された画像データのピンボケ領域の特徴を出すため、隣り合う画素値との差分を計算する。その画素がピンボケしている場合、隣り合う画素との差分は小さい（0に近い）。そこで、近傍画素差分フィルタ計算処理部３１は、8つの近傍画素との差分を考え、今着目している画素点を座標(x,y)とし、その点での画素値をI(x,y)として、次の式（１）を計算する。

(Ｉ（ｘ−１，ｙ−１）−Ｉ（ｘ，ｙ）)＋(Ｉ(ｘ，ｙ−１)−Ｉ(ｘ，ｙ))
＋（Ｉ(ｘ＋１，ｙ−１)−Ｉ（ｘ，ｙ））＋（Ｉ（ｘ−１，ｙ）−Ｉ（ｘ，ｙ））
＋（Ｉ（ｘ＋１，ｙ）−Ｉ(ｘ，ｙ)）＋（Ｉ（ｘ−１，ｙ＋１）−Ｉ（ｘ，ｙ））
＋（Ｉ（ｘ，ｙ＋１）−Ｉ（ｘ，ｙ））＋（Ｉ（ｘ＋１，ｙ＋１）−Ｉ（ｘ，ｙ））
＝Σ（Ｉ（ｘ＋Δｘ，ｙ＋Δｙ）−Ｉ（ｘ，ｙ））
・・・（１）

ただし、式(１)の右辺において、Δｘ＝−１，０，１であり、Δｙ＝−１，０，１である。

これを畳み込みフィルタとして考えると、図６に示されるように、３×３のフィルタで、中心、すなわち、注目画素に対する係数が８、近傍８画素の全ての係数が−１というフィルタになる。

図７は、図３のＡを入力画像としたときの近傍画素差分フィルタ計算処理部３１の出力例を示す図である。図７の計算結果において、黒い領域は近傍画素との差分が０に近い、所謂ピンボケした画素であり、明るい（白い）ところは、パターンがシャープでボケていない画素である。

しかしながら、図７においては、認識するべき対象物に対応する部分であっても、テクスチャのない部分、例えば、図３を用いて説明した画像データにおいて認識するべき対象物である人形の頬やおでこの部分などにおいても、隣接画素の差分値が０に近いため、黒い領域となってしまっている。したがって、近傍画素差分フィルタ計算処理部３１の出力に対してそのまま閾値処理を行っても、認識するべき対象物に対応する領域を正しく切り出すことができない。

そこで、近傍領域和フィルタ計算処理部３２は、注目画素とその近傍領域との平均を求めるフィルタリング処理を行う。

認識するべき対象物全体を背景から抜き出すためには、「認識するべき対象物らしい領域」を結合し、一つの領域としなければならない。そのために、注目画素と近傍領域との画素値の和を求める計算を行う。これは、ある画素に着目したときに、周辺Ｎ×Ｍ画素の領域の和を求める計算であり、以下、和フィルタ計算と称するものとする。和フィルタ計算は、フィルタ処理後の画素を、その画素の周辺領域の平均をとった値とするのと同義である。和フィルタ計算の実際の計算処理としては、窓サイズＮ×Ｍの要素が全て１の畳み込みフィルタをかけることに対応する。フィルタの窓サイズを３×３とした場合の和フィルタの例を図８に示す。

近傍領域和フィルタ計算処理部３２は、図９に示されるように、所定の窓サイズ（図中、画像上の四角の枠に対応する）の和フィルタ演算を、近傍画素差分フィルタ計算処理部３１の処理結果の全画素に対して実行し、計算結果を閾値処理部３３に供給する。

近傍領域和フィルタ計算処理部３２による和フィルタ計算においては、適用する窓サイズにより、結果が変化する。図１０乃至図１２を用いて、窓サイズと和フィルタ計算の結果について説明する。

図１０は、窓サイズが小さい場合の和フィルタ計算の結果の例である。窓サイズが小さすぎると、テクスチャの少ない物体の場合、テクスチャの小さい部分（ここでは、人形の鼻や頬などの部分）に黒い領域が大きく残ってしまうため、認識するべき物体の領域をきれいに切り出すことができない。

図１１は、図１０と比較して窓サイズが大きい場合の和フィルタ計算の結果の例である。窓サイズが大きくなると、テクスチャの小さい部分の黒い領域が減少してくる。

図１２は、図１１と比較して更に窓サイズが大きい場合の和フィルタ計算の結果の例である。窓サイズが大きすぎると、認識するべき物体の周辺の部分も白い領域となってしまうため、背景の領域も切り出してしまう可能性がある。

図１０乃至図１２に示されるように、窓サイズが小さいほど、検出するべき物体のうちのテクスチャの少ない部分を背景であると誤検出してしまう可能性が大きくなり、窓サイズが大きいほど、背景の部分を検出するべき物体に対応する領域であると誤検出してしまう可能性がある。このように、窓サイズと領域の検出の精度とは、トレードオフの関係となっている。したがって、窓サイズは、例えば、抽出するべき物体のテクスチャが小さいか否か、または、画像データの全領域における抽出するべき物体の占める割合などに基づいて、適宜設定変更、または、調節することが可能なようになされていると好適である。

閾値処理部３３は、近傍領域和フィルタ計算処理部３２による和フィルタ計算結果に基づいて、画像データを、検出するべき物体に対応する領域と、背景であると考えられる領域に分割する。

領域の分割は、和フィルタ計算結果を所定の閾値で分離する、すなわち、２値化処理を行うようにしても良いし、和フィルタ計算結果のうち値が発生している部分（黒い領域ではない部分）をマスクするものとしても良い。なお、閾値処理をして２値化する場合、白い領域のなかに黒い領域が残ってしまうことがあるので、２値化したあとに、膨張・縮小というMorphological処理を行う。この処理により、白い領域の中に黒い穴があった場合でも、その穴を埋めることができ、ノイズの影響を軽減できる。

図１３は、２値化処理の後、Morphological処理を行うことにより、領域を分割する処理が行われた場合の図３のＡの入力画像に対する閾値処理部３３の出力の例である。また、図１４は、和フィルタ計算結果のうち値が発生している部分（黒い領域ではない部分）をマスクすることにより領域を分割する処理が行われた場合の図３のＡの入力画像に対する閾値処理部３３の出力の例である。

このようにして、背景領域と認識するべき物体が撮像されている領域とが分割される。

図１５乃至図１８に、近傍との輝度差フィルタを用いて、フォーカスカメラにより焦点距離を固定して撮像して得られた背景を含む画像データから、認識対象の物質に対応する部分を抽出する場合の背景分離処理部２２の近傍画素差分フィルタ計算処理部３１、近傍領域和フィルタ計算処理部３２、および、閾値処理部３３のそれぞれの出力例を示す。

図１５乃至図１８のそれぞれは、上から、背景分離処理部２２への入力画像、近傍画素差分フィルタ計算処理部３１の出力、近傍領域和フィルタ計算処理部３２の出力、閾値処理後２値化しMorphological処理を行った場合の閾値処理部３３の出力、アナログマスク処理を行った場合の閾値処理部３３の出力を示している。

図１５乃至図１８に示されるように、認識するべき物体に焦点距離を合致させてフォーカスカメラにより撮像された画像データに対して、和フィルタ計算および近傍画素差分フィルタ計算を行い、その結果に対して閾値処理後２値化を行うか、アナログマスク処理を行うことにより、画像データ内の背景と認識するべき物体とを分離することができる。

背景分離処理部２２の処理により背景と認識するべき物体とを分離することにより、認識するべき物体に対応する部分を画像データ内から抽出することで、学習処理の効率、および、認識処理の性能の向上を期待することができる。

すなわち、画像処理による物体認識（Object Recognition）においては、その認識処理においても、認識器を生成するために学習処理が行われる場合であっても、従来は、認識するべき物体を画像中から人が切り出し、そのデータを使用していた。これに対して、図２乃至図１８を用いて説明したようにして、画像データの背景部分と認識するべき物体に対応する部分を自動的に分離することができれば、人が認識するべき物体を画像中から切り出す処理を行わなくて良く、好適である。

次に、上述した処理により、画像データ内から抽出された認識するべき物体に対応する部分を用いて、実際に物体を認識する場合について説明する。

画像処理による物体認識の手法は、近年様々なものが提案されており、最近１０年で飛躍的に向上している。これらの方法は、従来方法に比べても、より柔軟な認識手法を用いることにより、例えば、“ペット”の認識にも適用できる可能性のあるものが多い。ここで、“ペット”とは、例えば、一般家庭で飼われているものを指し、例えば、犬、猫、鳥、魚、カメレオン、ハムスター、モルモット、ねずみ、リス、ウサギ、カメ、ヘビなど、様々な種類の動物のいずれであっても良い。

認識されるペットの種類が異なる場合、異なる特徴量を用いて認識するほうが認識の精度が高くなることが考えられる。例えば、犬であれば、“四本足”、“関節”、“毛”、“しっぽ”などがその特徴量になり得るし、鳥であれば、“羽”のテクスチャを特徴量として認識に用いると好適である。したがって、特徴量として何を採用するかを明示的に与えることなしに、装置が、そのペット特有の特徴量を選択することで識別器を構成することができると、自由度の高い画像認識が可能となる。

そこで、次に、図１９乃至図３７を参照して、上述した処理により、画像データ内から抽出された認識するべき物体に対応する部分を用いて、実際に物体を認識する認識器を生成するための学習処理や、学習の結果である認識器を利用した認識処理の具体的な例について説明する。以下に説明する方法は、パラメータを変化させることで、上述したようなペットを認識する場合などに、柔軟に対応することが出来る。

図１９は、本発明の実施の形態における画像処理システム５１の一構成例を示す図である。この画像処理システム５１は、学習フェーズに用いられる学習装置７１と、認識フェーズに用いられる認識装置７２とを備えている。また、画像処理システム５１は、ここでは、学習装置７１と認識装置７２により構成されているものとして図示されているが、同様の機能を有する１つの装置により構成されているものとしても良いことはいうまでもない。

学習装置７１は、モデル画像取得部９１、モデル特徴点生成部９２、モデル特徴量生成部９３、モデル特徴量記憶部９４、学習画像取得部９５、学習特徴点生成部９６、学習特徴量生成部９７、学習相関特徴量生成部９８、正誤情報取得部９９、および、認識器生成部１００を含んで構成されている。

モデル画像取得部９１は、図４を用いて説明した画像処理部１１と同様の構成を有しており、フォーカスカメラにより撮像して得られたモデル画像となる画像データを外部から取得するか、または、内部にフォーカスカメラを備えてモデル画像を撮像するとともに、フォーカスカメラにより撮像して得られたモデル画像データから焦点が合致した部分を抽出し、抽出された部分の画像データを、モデル特徴点生成部９２およびモデル特徴量生成部９３に出力する。

また、モデル画像取得部９１を、図４を用いて説明した画像処理部１１と同様の構成とはせずに、認識するべき部分のみを示すモデル画像を取得したり、または、ユーザの操作などにより、所定の画像データから、認識するべき部分のみを抽出して、モデル特徴点生成部９２に出力するようにしてもよい。モデル画像の数が少ないような場合などにおいては、後者の構成とし、モデル画像として認識に用いる部分をユーザの操作などにより確実に切り出すようにしても良い。

モデル特徴点生成部９２は、モデル画像取得部９１から供給されたモデル画像からモデル特徴点を生成し、モデル特徴量生成部９３に供給する。特徴点については、画像における任意の点を利用することができ、特徴量の種類によってどのような点を用いるかを定義することもできる。具体的には、例えば、特徴点として色を用いる場合には、テクスチャのない平坦な領域内に特徴点が生成されると好適であり、特徴点として形や動きやテクスチャなどを用いる場合には、エッジ部分に特徴点が生成されると好適である。このようにすることにより、特徴量の種類に適した特徴点を適宜利用することが可能となる。

モデル特徴量生成部９３は、モデル特徴点生成部９２によって生成されたモデル特徴点におけるモデル特徴量を生成し、モデル特徴量記憶部９４に供給する。この特徴量は、局所特徴量（local features）および大域特徴量（global features）のいずれでもよく、その種類も、形、色、動き、テクスチャ、素材、歩行パターンなどに関する種々のものを定義することができる。モデル特徴量はその種類に応じて選択することができ、例えば、局所的な形情報として、ガウス導関数の一次微分、二次微分、三次微分や色の分布などが選択されるようにすることができる。これにより、特徴量の種類に適した特徴量が適宜利用される。

そして、モデル特徴量記憶部９４は、モデル特徴量生成部９３によって生成されたモデル特徴点におけるモデル特徴量を記憶する。

学習画像取得部９５は、図４を用いて説明した画像処理部１１と同様の構成を有しており、フォーカスカメラにより撮像して得られた学習処理に用いられる学習画像データを外部から取得するか、または、内部にフォーカスカメラを備えて学習画像を撮像するとともに、フォーカスカメラにより撮像して得られた学習画像データから焦点が合致した部分を抽出し、抽出された部分の画像データを、学習特徴点生成部９６および学習特徴量生成部９７に出力する。

学習特徴点生成部９６は、学習画像から学習特徴点を生成し、学習特徴量生成部９７に供給する。特徴点については、画像における任意の点を利用することができ、特徴量の種類によってどのような点を用いるかを定義することもできる。具体的には、例えば、特徴点として色を用いる場合には、テクスチャのない平坦な領域内に特徴点が生成されると好適であり、特徴点として形や動きやテクスチャなどを用いる場合には、エッジ部分に特徴点が生成されると好適である。これにより、特徴量の種類に適した特徴点を適宜利用することができる。

学習特徴量生成部９７は、学習特徴点生成部９６によって生成された学習特徴点における学習特徴量を生成し、学習相関特徴量生成部９８に供給する。この特徴量も、局所特徴量および大域特徴量の何れでもよく、その種類も、形、色、動き、テクスチャ、素材、歩行パターンなどに関する種々のものを定義することができる。学習特徴量はその種類に応じて選択することができ、例えば、局所的な形情報として、ガウス導関数の一次微分、二次微分、三次微分や色の分布などが選択されるようにすることができる。これにより、特徴量の種類に適した特徴量を適宜利用することができる。

学習相関特徴量生成部９８は、モデル特徴量のそれぞれに対して各学習特徴量との間の相関を求めて、学習相関特徴量を生成する。相関特徴量の生成方法についての詳細は、図２５および図２６を用いて後述する。

正誤情報取得部９９は、学習画像のそれぞれに対して、モデル画像に含まれる認識対象を含む画像であるか否かを示す情報を取得する。正誤情報は、例えば、学習処理のためのモデル画像や学習画像を学習装置に供給する、または、モデル画像や学習画像の撮像を指令する処理を指示するユーザにより入力されるものである。

認識器生成部１００は、学習相関特徴量生成部９８によって生成された学習相関特徴量および正誤情報に基づいて認識器の統計学習を行い、その過程で選択されたモデル特徴量を、選択特徴量として認識装置７２に供給するとともに、学習の結果得られる認識器を認識装置７２に供給する。認識器の生成には、例えば、ブースティングアルゴリズムを用いることができる。このブースティングアルゴリズムは、重み付き投票に基づくものであり、例えば、Discrete AdaBoost AlgorithmやGentle AdaBoost Algorithm等を利用することができる。認識器の生成についての詳細は、図２７および図２８を用いて後述する。

次に、認識装置７２は、選択特徴量記憶部１２１、認識器記憶部１２２、認識画像取得部１２３、認識特徴点生成部１２４、認識特徴量生成部１２５、認識相関特徴量生成部１２６、認識処理部１２７、および、認識結果出力部１２８を含んで構成されている。

選択特徴量記憶部１２１は、学習装置７１における学習処理の過程で選択されたモデル特徴量、すなわち、認識器記憶部１２２に記憶されている、認識器生成部１００により生成された認識器に対応する特徴量である選択特徴量の供給を受け、記憶する。

認識器記憶部１２２は、学習装置７１における学習処理によって認識器生成部１００において生成された認識器を記憶する。

認識画像取得部１２３は、図４を用いて説明した画像処理部１１と同様の構成を有しており、フォーカスカメラにより撮像して得られた認識処理に用いられる学習画像データを外部から取得するか、または、内部にフォーカスカメラを備えて認識画像を撮像するとともに、フォーカスカメラにより撮像して得られた認識画像データから焦点が合致した部分を抽出し、抽出された部分の画像データを、認識特徴点生成部１２４および認識特徴量生成部１２５に出力する。

認識特徴点生成部１２４は、認識画像から特徴点である認識特徴点を生成する。特徴点については、画像における任意の点を利用することができ、特徴量の種類によってどのような点を用いるかを定義することもできる。具体的には、例えば、特徴点として色を用いる場合には、テクスチャのない平坦な領域内に特徴点が生成されると好適であり、特徴点として形や動きやテクスチャなどを用いる場合には、エッジ部分に特徴点が生成されると好適である。これにより、特徴量の種類に適した特徴点を適宜利用することができる。

認識特徴量生成部１２５は、認識特徴点生成部１２４によって生成された認識特徴点における特徴量である認識特徴量を生成する。この特徴量も、局所特徴量および大域特徴量の何れでもよく、その種類も、形、色、動き、テクスチャ、素材、歩行パターンなどに関する種々のものを定義することができる。認識特徴量はその種類に応じて選択することができ、例えば、局所的な形情報として、ガウス導関数の一次微分、二次微分、三次微分や色の分布などが選択されるようにすることができる。これにより、特徴量の種類に適した特徴量を適宜利用することができる。

認識相関特徴量生成部１２６は、選択特徴量記憶部１２１に記憶された選択特徴量のそれぞれに対して各認識特徴量との間の相関を求めて、認識相関特徴量を生成する。相関特徴量の生成方法についての詳細は、学習処理における場合と同様に、図２５および図２６を用いて後述する。

認識処理部１２７は、認識相関特徴量生成部１２６によって生成された認識相関特徴量を、認識器記憶部１２２に記憶された認識器へ代入することによって、認識画像データの各々に認識対象が含まれるか否かの認識を行い、認識結果を認識結果出力部１２８に供給する。

そして、認識結果出力部１２８は、認識処理部１２７から供給された認識結果を、例えば、表示部に表示したり、音声データとして出力したり、または、ＬＥＤなどを用いてユーザに通知したり、もしくは、所定の伝送路を介したり所定の記録媒体に記録させることなどにより、他の装置に出力する。

ここで、モデル画像取得部９１、学習画像取得部９５、または、認識画像取得部１２３のうちの少なくともいずれか１つを、図４を用いて説明した画像処理部１１と同様の構成とし、内部にフォーカスカメラを備えて認識画像を撮像するとともに、フォーカスカメラにより撮像して得られた認識画像データから焦点が合致した部分を抽出することができるようにすることにより実現可能となる学習処理や認識処理について説明する。

例えば、学習処理や認識処理において用いられる画像データを取得するにあたって、フォーカスカメラにおいて設定された焦点距離に、ユーザが認識される物体を設置したのち、装置に対して撮像の指示を与えて、撮像処理を行うようにしても良い。しかしながら、そのようにした場合、例えば、ペットなどの動く物体を認識する場合や、認識しようとする物体が多数存在する場合など、ユーザが、フォーカスカメラにおいて設定された焦点距離に認識される物体をいちいち設置するのでは、操作が煩雑となってしまう。

そこで、フォーカスカメラの撮像範囲内に入るように、認識される物体を適当に移動させ、その間、連続的に撮像処理を実行させるようにする。このようにすれば、認識対象に焦点が合致していない場合には、正しく抽出処理が行われないか、または、学習処理において認識するべき物体を含まない画像の入力となるか、もしくは、認識処理において、認識物を含まない画像と判定される画像の入力となる。そして、これに対して、認識される物体がフォーカスカメラにおいて設定された焦点距離にいるときに撮像された画像に基づいて背景の分離処理が行われたとき、認識するべき物体が撮像された領域のみが切り出された画像データを、煩雑な操作を行うことなく容易に得ることが可能となる。

例えば、認識するべき物体がフォーカスカメラの焦点距離から遠いとき、得られる画像データにおいては、全体的にピンボケとなってしまうか、または、全く関係の無いものにピントがあってしまう。このような画像データの背景を分離しても、認識するべき物体の領域が全く存在しないという結果となって、学習処理や認識処理が実行できないか、または、全く関係のないものが写っている部分が認識するべき物体の領域として抽出される。全く関係のないものが写っている部分が認識するべき物体の領域として抽出された場合、学習処理においては、認識するべき物体を含まない画像の入力に対応し、認識処理においては、全く関係のないものが写っている部分から得られる特徴量では記憶されたモデル特徴量に一致しないことから、認識するべき物体を含む画像ではないと言う結果が得られる。そして、認識するべき物体がフォーカスカメラの焦点距離に合致したときに、正しい抽出処理が行われて、有用なモデル画像、学習画像、または、認識画像が得られて、学習処理または認識処理を行うことができる。

このようにすることにより、例えば、ペットを認識したい場合にカメラ前でペットが動いていたとしても、その対象に焦点が合致したときのみ、認識物の抽出処理が正しく行われて、そのとき得られた画像データによって、学習処理や認識処理が正しく実行される。また、ユーザが、例えば、把持することなどにより移動可能なものを認識させたい場合には、フォーカスカメラの焦点位置ぴったりに認識物を設置しなくても、大体、そのあたりを適当に移動させていれば、その位置がフォーカスカメラの焦点距離に合致したときに正しい抽出処理が行われて、有用なモデル画像、学習画像、または、認識画像が得られて、学習処理または認識処理を正しく行うことができる。

特に、認識処理において認識画像を得る際に、フォーカスカメラの撮像範囲内に入るように、認識される物体を適当に移動させ、その間、連続的に撮像処理を実行させるようにすると好適である場合が考えられる。例えば、通路を通行する人物を認識したいとき、その通路を通行する人物がフォーカスカメラの焦点位置に対応する所定の位置を通過するときに自動的に正しい抽出処理が行われるので、人物を所定位置に立たせて、撮像開始を指令することなどを必要とせずに、正しい認識処理が可能となる。

認識結果の出力の方法は、例えば、連続して撮像された認識画像のそれぞれに対して実行される認識処理の全ての認識結果を出力するものとしても良いし、連続して撮像された認識画像のそれぞれに対して実行される認識処理の認識結果を所定回数、または、所定時間だけ保持しておき、その推移を観察して、認識されているらしいピーク値における認識結果を出力するものとしても良い。また、同様に認識結果の推移を観察して、閾値以上の値があれば、認識されたものとしてその結果を出力するものとしても良い。

図２０を参照して、学習装置７１において実行される学習フェーズの概要について説明する。

ここでは、Ｘ個（Ｘは２以上の整数）のモデル画像（ＰＭ₁乃至ＰＭ_X）から生成されたＮ個（Ｎは２以上の整数）の特徴点（モデル特徴点）における特徴量（モデル特徴量）がモデル特徴量記憶部９４（特徴量プール）に蓄積されているものとする。モデル画像は、全て認識対象を含むものである。すなわち、モデル特徴量記憶部９４には、認識対象を含む画像全般の特徴点における特徴量が蓄積されることになる。なお、この例では、ペットの犬が認識対象として含まれている。

一方、Ｍ個（Ｍは２以上の整数）の学習画像（ＰＩ₁乃至ＰＩ_M）には、認識対象を含むものと含まないものとが混在する。認識対象を含むか否かは、正誤情報取得部９９により取得される正誤情報によって示される。図２０の例では、認識対象を含む場合には「＋１」を、認識対象を含まない場合には「−１」がそれぞれ付与されている。すなわち、学習装置７１においては、学習画像取得部９５が認識対象を含む学習画像の供給を受けたとき、学習特徴量生成部９７において、認識対象を含む画像全般の特徴点における特徴量が求められるとともに、正誤情報取得部９９が、この学習画像には認識対象が含まれているという正誤情報「＋１」の供給を受ける。また、学習装置７１においては、学習画像取得部９５が認識対象を含まない学習画像の供給を受けたとき、学習特徴量生成部９７において、認識対象を含まない画像全般の特徴点における特徴量が求められるとともに、正誤情報取得部９９が、この学習画像には認識対象が含まれていないという正誤情報「−１」の供給を受ける。

そして、学習相関特徴量生成部９８において、Ｍ個の学習画像の各々について生成された複数の特徴点（学習特徴点）における特徴量（学習特徴量）と、モデル特徴量記憶部９４に記憶されたＮ個のモデル特徴量との間の相関値が生成され、Ｎ個のモデル特徴量のそれぞれに対して最も相関の高い学習特徴量が選択されて、その際に生成されたＮ個の相関値が相関特徴量となる。この相関特徴量は、Ｍ個の学習画像の各々について生成され、Ｍ個の学習相関特徴量を構成する。

このようにして得られた学習相関特徴量および正誤情報によって、認識器生成部１００において、認識器の学習が行われる。この認識器は、学習フェーズに続く認識フェーズにおいて、入力された認識画像に認識対象が含まれているか否かを判断するためのものである。

この画像処理システム５１において利用される特徴量は、局所特徴量（local features）および大域特徴量（global features）のいずれでもよく、その種類も、形、色、動き、テクスチャ、素材、歩行パターンなどに関する種々のものを定義することができる。例えば、形に関する局所特徴量としては、部分領域の輝度情報をそのまま利用してもよく、また、ラプラシアン（二次微分）、ガウシアン微分関数（Gaussian Derivatives）、ステアラブルフィルタ（Steerable Filters）、ガボアフィルタ（Gabor Filters）、ＳＩＦＴ（Scale-Invariant Features Transform）などによる変換を施したものを採用してもよい。また、色に関する局所特徴量としては、部分領域の色情報（ＲＧＢやＨＳＶ等）をそのまま利用してもよいし、ヒストグラムとしてまとめた情報を採用してもよい。さらに、動きに関する局所特徴量としては、動きベクトル（所謂、optical flow）を利用することができる。

動物は、例えば、足の運び方や移動の仕方など、その種類によって、動きに特徴を有する。このことから、特に、ペットを認識させようとする場合、複数のフレーム画像データにより供給される動画像データを、モデル画像データ、学習画像データ、および、認識画像データとして取得することができれば、認識対象物の動きを特徴量として用いることも有用であると考えられる。

具体的には、例えば、オプティカルフロー（optical flow）に代表される、動きを記述する手法を用いることにより、認識対象物の動きを特徴量として用いることが可能となる。オプティカルフローとは、視覚表現（通常、時間的に連続する画像データ）の中で物体の動きをベクトルで表したものである。

また、特徴点については、画像における任意の点を利用することができるが、一般にはエッジやコーナー点が用いられることが多い。この特徴点は、特徴量の種類によって定義することができる。例えば、形に関する特徴量についてはエッジやコーナー点に特徴が現れ易いため、エッジやコーナー点を特徴点として採用することが望ましい。一方、色に関する特徴量については、物体の領域内に特徴が現れ易いため、特定の点に限定せずにランダムな点を特徴点として採用したり、エッジ部分から遠いテクスチャのない部分から特徴点を採用することが望ましい。

形に関する特徴点としてエッジやコーナー点を求めるためには、ハリス・コーナー点検出器（Harris corner detector）を用いることができる。このハリス・コーナー点検出器では、まず、画像データにおける各画素点Ｉ（ｘ，ｙ）において、その輝度勾配を求め、局所領域での２次モーメントマトリックスＭを次の式（２）のように算出する。

この２次モーメントマトリックスＭの２つの固有値をαおよびβとすると、固有値αおよびβのうち、両者が所定の閾値より大きければコーナー点、片方が所定の閾値より大きければエッジ、両方が所定の閾値より小さければ何もない点となる。そこで、この判定を行うために、この２次モーメントマトリックスＭの行列式ｄｅｔ（Ｍ）およびトレース（対角成分の和）ｔｒａｃｅ（Ｍ）を算出して、次の式（３）を用いてコーナー応答関数ＣＲを求める。

ＣＲ＝ｄｅｔ（Ｍ）−ｋ（ｔｒａｃｅ（Ｍ））２・・・（３）

ここでは、式（２）において、ｋ＝０．０４であるものとすることができる。

このコーナー応答関数ＣＲが正の数であればコーナー点であることを意味し、負の数であればエッジであることを意味する。但し、コーナー応答関数ＣＲが一定値よりも小さい場合には何もない点となる。このような手順によりコーナー点またはエッジを抽出することができる。

なお、ここではコーナー点またはエッジを判定するために減算によるコーナー応答関数ＣＲを用いたが、次の式（４）のように除算を用いるものとしてもよい。

ＣＲ＝ｄｅｔ（Ｍ）／（ｋ（ｔｒａｃｅ（Ｍ））２）・・・（４）

また、形に関する特徴量としてSteerableFilters（Gausian Derivatives）を用いる場合、以下の式（５）乃至式（１０）で示される、ガウス関数とその微分関数により、基底カーネルの演算を行い、その線形結合で表現される。Ｇがガウス関数、Ｇ₁は一次微分、Ｇ₂は二次微分、Ｇ₃は三次微分関数である。θは、計算したいフィルタの方向である。例えば、piを４方向に等分したり、８方向に等分することにより、特徴量を求めることができる。

上述した式で計算された、二次元上でのSteerableFilterのカーネルの形状を、図２１に示す。

局所特徴量を特徴量として強くするために、近傍のジェットを結合したものを用いても良い。この時、図２２に示すように、注目画素から５画素程度離れた場所からジェットを取ってくると好適である。結合に用いるジェットが注目画素からあまり離れすぎていると、局所情報が物体の変形に弱くなる。逆に、結合に用いるジェットが注目画素に近すぎると、多くのジェットを結合している意味が薄くなってしまう。

また、局所特徴量を回転に対して不変にすることもできる。例えば、図２３に示されるように、中心の画素点での主方向αを計算し、その方向に対して、特徴量を回転することにより、局所特徴量を回転に対して不変にすることができる。主方向αは、あるガウシアンの幅σの1次微分のｘ方向とｙ方向の出力から、次の式（１１）で求められる。

このαを使えば、例えば、次の式（１２）を用いて、4方向の出力を得ることができる。

一方、色に関する特徴点として色のヒストグラムを利用する場合、色空間を所定の色領域に区切って、各色領域における分布を求める。図２４は、ＨＳＶ空間におけるヒストグラムの例である。なお、このＨＳＶ表現では、Ｈ（Hue）が色相を表し、Ｓ（Saturation）が彩度を表し、Ｖ（Value）が明度を表す。

図２４のＡでは、簡単な例として、ＨＳＶ各成分について２区間に区分して、合計８つ（＝２３）の色領域を設けている。ある特徴点についてその近傍（例えば、１０ピクセル程度）を含む画像領域における色の分布から、各色領域における出現頻度を求めたものが、図２４のＢに示されるヒストグラムである。図２４のＢに示されるヒストグラムの８つの頻度データは、図２４のＡに示される８つの色領域のうちのいずれかにそれぞれ対応するものである。

このように、学習処理や認識処理に用いられる特徴点や特徴量は、特徴量の種類に応じてそれぞれ適したものを定義することができる。そして、このようにして求められた特徴量は、学習相関特徴量生成部９８および認識相関特徴量生成部１２６において相関特徴量に変換される。学習相関特徴量生成部９８では、学習特徴量のそれぞれについてモデル特徴量との相関を求めることにより、様々な特徴量を同じ次元で比較し、その結果を、認識器生成部１００における認識器の学習のために供給する。また、認識相関特徴量生成部１２６では、認識特徴量のそれぞれについて、選択特徴量記憶部１２１に記憶されているさまざまな特徴量のうちの同じ次元の選択特徴量との相関を求めることにより、様々な特徴量を同じ次元で比較し、その結果を、認識処理に用いるために、認識処理部１２７に供給する。

一般に、特徴量を表す２つのベクトルｖ１およびｖ２の相関値Ｃは、次の式（１３）により算出される。なお、ベクトルの上線は、そのベクトルの平均を表す。

式（１３）に示される相関値Ｃは、０．０から１．０までの範囲の値となり、相関が高いほど１．０に近く、相関が低いほど０．０に近い値を示す。

また、相関値を求める際には、エラスティック・バンチ・グラフ・マッチング（ＥＢＧＭ）法を利用してもよい。学習相関特徴量生成部９８は、このＥＢＧＭ法を用いた場合、学習特徴量のうち、モデル特徴量記憶部９４に記憶されたモデル特徴量に対応する特徴点の近傍で最も相関の高い点（相関最大点）を求め、その相関最大点における相関値を学習相関特徴量として利用する。また、認識相関特徴量生成部１２６は、このＥＢＧＭ法を用いた場合、認識特徴量のうち、選択特徴量記憶部１２１に記憶された選択特徴量に対応する特徴点の近傍で最も相関の高い点（相関最大点）を求め、その相関最大点における相関値を認識相関特徴量として利用する。

図２５を用いて、ＥＢＧＭ法による相関最大点の探索例について説明する。ここでは、学習装置７１における学習処理における場合を例として説明する。

図２５に示されるように、モデル画像において特徴点αが生成されると、特徴点αに対応する学習画像上の点α´が定まる。学習相関特徴量生成部９８は、学習画像上の点α´の近傍において、特徴点αとの間の相関値を算出して、相関最大点βを求める。この相関最大点βにおける相関値が学習相関特徴量となる。

このように、相関特徴量を求める際にＥＢＧＭ法を利用することにより、物体の歪みや視点の変化対してロバストになり、これら外乱に対してより柔軟に対応することができるようになる。

なお、ここでは、学習相関特徴量生成部９８において学習相関特徴量を求める際にＥＢＧＭ法を利用する場合について説明したが、認識相関特徴量生成部１２６において認識相関特徴量を求める際にも同様にＥＢＧＭ法を適用することができる。

次に、図２６を参照して、複数種類の特徴量による相関特徴量算出の例について説明する。ここでは、学習装置７１における学習処理における場合を例として説明する。

図２６に示されるように、モデル特徴量記憶部９４に記憶されたモデル特徴量の種類として、例えば、色に関するモデル特徴量、形に関するモデル特徴量、および、動きに関するモデル特徴量があるものとする。

学習相関特徴量生成部９８は、特徴量の種類ごとに相関を算出する。すなわち、図２６における場合、学習相関特徴量生成部９８は、色に関する相関を算出する相関算出部１４１、形に関する相関を算出する相関算出部１４２、および、動きに関する相関を算出する相関算出部１４３を含む。相関算出部１４１は、色に関するモデル特徴量について、学習特徴量生成部９７により生成された学習特徴量の中から、対応する学習特徴量として色に関する学習特徴量を抽出して、これらの間の相関値を算出し、認識器生成部１００に出力する。同様に、相関算出部１４２は、形に関するモデル特徴量について、学習特徴量生成部９７により生成された学習特徴量の中から、対応する学習特徴量として形に関する学習特徴量を抽出して、これらの間の相関値を算出し、認識器生成部１００に出力する。また、相関算出部１４３は、動きに関するモデル特徴量について、学習特徴量生成部９７により生成された学習特徴量の中から、対応する学習特徴量として動きに関する学習特徴量を抽出して、これらの間の相関値を算出し、認識器生成部１００に出力する。

このように、相関算出部１４１乃至１４３は、それぞれ異なる種類の特徴量について相関値を算出する。元々の特徴量自体は、特徴量の種類によってベクトルの次元が異なるため、互いにそのままの形で比較することは難しい。しかし、学習相関特徴量生成部９８においては、相関の度合いに応じて一定の範囲の値（０．０から１．０）を示す相関特徴量に正規化するため、異なる種類の特徴量であっても互換性を有する。

そして、認識器生成部１００は、このような相関特徴量を用いて認識器の学習を行い、認識を行うことによって、様々な種類の特徴量を用いた統計学習による物体認識を実現することができる。

なお、ここでは、学習相関特徴量生成部９８において学習特徴量から学習相関特徴量に変換する際の処理について説明したが、認識相関特徴量生成部１２６において認識特徴量から認識相関特徴量に変換する場合も、基本的に同様の処理が実行される。また、ここでは、色、形、動きの異なる３種類の特徴量を用いる場合について説明したが、特徴量の種類や種類の数は、これに限らないことはいうまでもない。

次に、図２７および図２８を参照して、認識器生成部１００において実行される学習処理の例について説明する。

図２７では、Ｍ個の学習画像（ＰＩ₁乃至ＰＩ_M）の相関特徴量の各々は、モデル特徴量記憶部９４に記憶されたモデル特徴量の特徴点の数Ｎに対応するＮ次元のベクトルとして表されている。すなわち、１個目の学習画像ＰＩ₁の相関特徴量は（Ａ₁，Ａ₂，・・・，Ａ_N）、２個目の学習画像ＰＩ₂の相関特徴量は（Ｂ₁，Ｂ_2,・・・，Ｂ_N）、３個目の学習画像ＰＩ₃の相関特徴量は（Ｃ₁，Ｃ₂，・・・，Ｃ_N）と表され、同様の要領でＭ個目の学習画像ＰＩ_Mの相関特徴量は（Ｍ₁，Ｍ₂，・・・，Ｍ_N）と表される。

このとき、モデル特徴量の特徴点ｋに対してグループＧ_rkを想定すると、特徴点ｋ＝１の相関特徴量はグループＧ_r1によって示される（Ａ₁，Ｂ₁，Ｃ₁，・・・，Ｍ₁）であり、同様に、特徴点ｋ＝２の相関特徴量はグループＧ_r2によって示される（Ａ₂，Ｂ₂，Ｃ₂，・・・，Ｍ₂）であり、同様の要領で、特徴点ｋ＝Ｎの相関特徴量はグループＧ_rNによって示される（Ａ_N，Ｂ_N，Ｃ_N，・・・，Ｍ_N）となる。すなわち、各特徴点ｋについて、Ｍ個の学習画像ＰＩ₁乃至ＰＩ_Mに対応して計Ｍ個の相関特徴量のグループＧ_rkが定義されることになる。

なお、左端の「＋１」もしくは「−１」の値は、正誤情報取得部９９から供給される、対応する学習画像が認識対象を含むか否かを示している学習画像ごとの正誤情報である。

特徴点ｋ毎に、各学習画像（ＰＩ_i）（ｉは、１乃至Ｍのいずれか）に設定された重みｗｉに応じて、相関特徴量がＭ個抽選で抽出される。最初の処理においては、いずれの重みｗｉも等しく、Ｍ個が抽選されると確率的には全ての相関特徴量が選択されることになるため、最初の処理では各特徴点ｋにおいて全ての相関特徴量が選択されたものとする。これ以降の繰り返しにおいては、同一の相関特徴量が重複して選択されることもあり得る。

そして、Ｎ個の入力特徴量のそれぞれについてサンプリングされたＭ個の入力特徴量は、昇べきの順、または、降べきの順に並び替えられる。そして、入力特徴量が抽出された学習用画像に認識しようとする対象物体が含まれている画像であるか否かを示す正誤情報、すなわち、図２７における（＋１）または（−１）に基づいて、昇べきの順、または、降べきの順に並び替えられたＮ個の入力特徴量のそれぞれについて、グループＧ_rkにおける特徴量を２つに分けるように設定されるある閾値ｔｈ_jkを設定したとき、その閾値以上と閾値以下で、正誤が正しく分かれるか否か、閾値を変化させながら特徴点ｋ毎のグループＧ_rkの誤り率ｅ_jkを、次の式（１４）により計算して、この誤り率ｅ_jkが最小となるように閾値を設定する。但し、ｊは特徴点ｋにおける相関特徴量ベクトルｘに対するＬ個（Ｌは１以上の整数）の弱認識器ｆ_jk（ｘ）の番号をカウントするカウンタであり、１からＬの範囲を示す整数である。

ここで、ｙ≠fjkは、エラーとなっている特徴点ｋの条件を示しており、Ｅwは、エラーの発生した特徴点ｋにおける重みが加算されることを示している。

そして、この閾値ｔｈ_jkが、弱認識器として設定される。

図２８に示される例では、Ｊ＝１として、１つ目の特徴点ｋ＝１における閾値ｔｈ₁₁の設定例を示している。具体的には、例えば、特徴点ｋ＝１に対応するＭ個の特徴量が、図２８で示されるようにＬ₁，Ａ₁，Ｃ₁，Ｂ₁，・・・，Ｍ₁に昇べき、または、降べきの順に並べられ、閾値より小さい範囲では、認識しようとする対象物体がないと認識し、閾値より大きい範囲では、認識しようとする対象物体があると認識する。ここで、教師ラベルｙ（すなわち、正誤情報）および弱認識器ｆ_jk（ｘ）は、認識対象の有無によって「＋１」もしくは「−１」の値を示し、両者が一致した場合には予想が的中したことを示す。図２８に示されるように、閾値th₁₁が特徴量Ａ₁とＣ₁の間に設定されたときには、図中の点線で囲まれた特徴量Ａ₁は、認識しようとする対象物体が含まれた学習用画像の特徴量であり、一方、特徴量Ｃ₁および特徴量Ｍ₁は、認識しようとする対象物体が含まれない学習用画像の特徴量であるので、エラーであるとみなされる。そして、Ｅｗの値は、予想が外れた場合に、誤りが生じたものとして誤り回数の累算が行われることにより設定される。

このようにして、学習用画像の正誤情報（認識しようとする対象物体が含まれているか否かの情報）に基づいて、エラーであるとみなされた特徴量が抽出された学習用画像の重みＷiが加算されて、誤り率ｅ_jkが計算される。

このようにして誤り率ｅ_jkが計算されると、次に、設定された弱認識器ｆ_jk（ｘ）のうち、誤り率ｅ_jkが最小となる弱認識器ｆ_jk（ｘ）が選択される。そして、その弱認識器ｆ_jk（ｘ）の信頼度ｃ_jが、誤り率ｅ_jkを用いて、次の式（１５）によって計算される。

そして、さらにこのようにして得られた信頼度ｃ_jによって学習画像の重みｗｉ（ｉは１からＮの範囲を示す整数）が、次の式（１６）を用いて演算されて、ｗｉの合計が１となるようにさらに正規化された後、更新される。

これにより、誤りの発生した相関特徴量を含む学習画像の重みが大きくなり、再度学習を要する学習画像が明確に区別されることになる。

このようにして選択された弱認識器ｆ_jk（ｘ）が、式（１５）に示される信頼度ｃ_jによって重み付けされて、相関特徴量ベクトルｘに対する認識器Ｒ（ｘ）が次の式（１７）のように更新される。

すなわち、重み付けされた弱認識器f_jkが、既に保持されている認識器Ｒ（ｘ）に加算され、新たな認識器Ｒ（ｘ）として更新される。すなわち、生成される認識器Ｒ（ｘ）は、比較的誤り率の低い複数の弱認識器f_jkにより構成される。

認識器生成部１００は、このような学習処理を繰り返し、その結果、Ｒ（ｘ）が正の数であれば認識対象を含むことを示し、負の数であれば認識対象を含まないことを示す認識器Ｒ（ｘ）を生成することができる。すなわち、この認識器は、弱認識器の多数決により、認識しようとする対象物体の有無を出力する関数である。認識器生成部１００は、生成された認識器を、認識装置７２の認識器記憶部１２２に供給して記憶させる。

そして、認識器生成部１００は、誤り率ｅ_jkが最小となるそれぞれの弱認識器f_jkで使用されるべき特徴点ｋのモデル特徴量を選択して、選択特徴量として出力する。出力された選択特徴量は、認識装置７２の選択特徴量記憶部１２１に記憶される。

このように弱認識器を学習処理により重み付けしながら付加することを繰り返して認識器を生成する学習処理は、ブースティング（重み付き投票）アルゴリズムの一種であり、”Discrete AdaBoost Algorithm”と称される。この学習処理においては、誤り率の高い学習特徴量の重みが順次大きくなり、誤り率の低い学習特徴量の重みが小さくなるように、モデル特徴量ごとに認識器と誤り率が計算される処理が繰り返される。したがって、繰り返し処理の中で、認識器を設定する際に選択される学習相関特徴量は、徐々に誤り率の高いものが選択され易くなり、認識し難い学習相関特徴量が繰り返されるほどに選択されて学習が繰り返されることになるため、認識し難い学習画像の相関特徴量がより多く選択されることになり、最終的に高い認識率にすることが可能となる。

また、このブースティングアルゴリズムによれば、Ｎ個の誤り率ｅ_jkのうち最小となる特徴点ｋのモデル特徴量が選択されて、選択特徴量記憶部１２１に記憶されていくため、認識器の学習と特徴量の選択を同時に行うことができ、認識フェーズにおいてモデル特徴量記憶部９４に記憶されている全ての特徴量を使用することなく、認識に適した特徴量を効率良く利用することができる。

次に、図２９乃至図３７のフローチャートを参照して、図１９の画像処理システム５１が実行する処理について説明する。

まず、図２９のフローチャートを参照して、画像処理システム５１の学習装置７１が実行する学習処理について説明する。

ステップＳ１１において、モデル画像取得部９１は、モデル画像の特徴量の抽出に用いるモデル画像を取得し、モデル特徴点生成部９２に供給する。

なお、ここでは、モデル画像取得部９１は、認識するべき部分のみを示すモデル画像を取得したり、または、ユーザの操作などにより、所定の画像データから、認識するべき部分のみを抽出して、モデル特徴点生成部９２に出力するものであってもよいが、図４を用いて説明した画像処理部１１と同様の構成を有するものとしても良い。

ステップＳ１２において、モデル特徴点生成部９２は、モデル画像取得部９１から供給されたモデル画像の特徴点を生成し、モデル特徴量生成部９３に供給する。例えば、１つのモデル画像についてＮ個のモデル特徴点が生成される

ステップＳ１３において、モデル特徴量生成部９３は、モデル画像のモデル特徴点における特徴量を生成し、モデル特徴量記憶部９４に供給する。例えば、Ｎ個のモデル特徴点が生成された場合、Ｎ個のモデル特徴点におけるＮ個のモデル特徴量がモデル特徴量生成部９３によって生成される。

ステップＳ１４において、モデル特徴量記憶部９４は、モデル特徴量生成部９３によって生成されたモデル特徴点におけるモデル特徴量を記憶する。

そして、ステップＳ１５において、全てのモデル画像の特徴量がモデル特徴量記憶部９４に記憶されたか否かが判断され、記憶されていないと判断された場合、処理は、ステップＳ１１に戻り、それ以降の処理が繰り返される。

ここでは、１枚のモデル画像の取得に対して、ステップＳ１２乃至ステップ１５の処理が実行され、複数のモデル画像が取得されたとき、これらの処理が繰り返されるものとして説明したが、ステップＳ１１において複数のモデル画像を取得し、それ以降の処理が、それぞれのモデル画像ごとに、順次、または、並行して実行されるものであっても良い。

ステップＳ１５において、全てのモデル画像の特徴量がモデル特徴量記憶部９４に記憶されたと判断された場合、ステップＳ１６において、図３０を用いて後述する学習画像取得処理が実行される。

ステップＳ１７において、学習特徴点生成部９６は、ステップＳ１６の処理により取得された学習画像の特徴点を生成し、学習特徴量生成部９７に供給する。

ステップＳ１８において、学習特徴量生成部９７は、学習特徴点生成部９６によって生成された学習特徴点における学習画像の特徴量を生成し、学習相関特徴量生成部９８に供給する。

ステップＳ１９において、図３２を用いて後述する学習相関特徴量生成処理が実行される。この処理は、モデル特徴量記憶部９４に記憶された、例えば、Ｎ個のモデル特徴量のそれぞれに対して、学習画像の各々における学習特徴点の学習特徴量との間の相関値が学習相関特徴量生成部９８によって生成され、最も相関の高いものが学習相関特徴量とされる処理である。

ステップＳ２０において、図３３を用いて後述する認識器生成処理が実行される。この処理において、ステップＳ１９において生成された学習相関特徴量に基づいて認識器生成部１００によって統計学習が行われる。

そして、ステップＳ２１において、供給される全ての学習画像に対して処理が終了したか否かが判断される。ステップＳ２１において、供給される全ての学習画像に対する処理が終了していないと判断された場合、処理は、ステップＳ１６に戻り、それ以降の処理が繰り返される。ステップＳ２１において、供給される全ての学習画像に対する処理が終了したと判断された場合、ステップＳ２０の処理により生成された認識器が、認識装置７２の認識器記憶部１２２に供給されて記憶されるとともに、その過程で選択されたモデル特徴量が、認識装置７２の選択特徴量記憶部１２１に供給されて記憶され、処理は終了される。

このような処理により、学習処理が実行されて、画像に含まれる物体を認識可能な認識器が生成される。この処理では、学習特徴量を学習相関特徴量に変換して認識器の学習を行うため、種類の異なる特徴量を同じスケールの下で扱い、統計学習させることを可能とする。

次に、図３０のフローチャートを参照して、図２９のステップＳ１６において実行される学習画像取得処理について説明する。この学習画像取得処理は、図４を用いて説明した画像処理部１１と同様の構成を有しており、内部にフォーカスカメラを備えて学習画像を撮像するとともに、フォーカスカメラにより撮像して得られた学習画像データから焦点が合致した部分を抽出することができる学習画像取得部９５によって実行される。したがって、図３０のフローチャートにおいては、図４および図５を用いて説明した画像処理部１１の構成を学習画像取得部９５が有しているものとして説明する。

ステップＳ４１において、学習画像取得部９５の画像取得部２１は、所定の焦点距離で、撮像処理を実行し、得られた画像を背景分離処理部２２に供給する。

ステップＳ４２において、学習画像取得部９５の背景分離処理部２２は、図３１のフローチャートを用いて後述する背景分離処理を実行する。

ステップＳ４３において、学習画像取得部９５の背景分離処理部２２は、背景が分離された画像には、認識するべき物体が存在するか否かを判断する。ステップＳ４３において、例えば、画像データ全体がピンボケであった場合など、認識するべき物体が存在しないと判断された場合、処理は、ステップＳ４１に戻り、それ以降の処理が繰り返される。

ステップＳ４４において、認識するべき物体が存在したと判断された場合、ステップＳ４３において、学習画像取得部９５の背景分離処理部２２は、背景が分離された画像データに対して、必要に応じて、アライメントなどの画像処理を施す。

ステップＳ４５において、学習画像取得部９５の背景分離処理部２２は、背景が分離された認識されるべき物体に対応する画像を、学習特徴点生成部９６および学習特徴量生成部９７に出力し、処理は、図２９のステップＳ１６に戻り、ステップＳ１７に進む。

このような処理により、学習用画像データが取得される。画像データはフォーカスカメラにより撮像されるので、焦点が合致する位置に存在する認識するべき物体を、容易な処理で背景から分離することが可能である。

次に、図３１のフローチャートを参照して、図３０のステップＳ４２において実行される背景分離処理について説明する。このフローチャートにおいても、図４および図５を用いて説明した画像処理部１１の構成を用いて処理を説明する。

ステップＳ８１において、背景分離処理部２２の近傍画素差分フィルタ計算処理部３１は、式(１)の演算を実行し、図６に示されるような近傍画素差分フィルタによる計算処理を行って、図７を用いて説明したような出力を近傍領域和フィルタ計算処理部３２に供給する。

ステップＳ８２において、近傍領域和フィルタ計算処理部３２は、図８を用いて説明したような近傍領域和フィルタによる計算処理を行うことにより、注目画素とその近傍領域との平均を求め、閾値処理部３３に供給する。近傍領域和フィルタ計算処理部３２による和フィルタ計算においては、適用する窓サイズにより、結果が変化するので、認識するべき物体のテクスチャの大小などによって決まる最適な窓サイズを用いることができるようにすると好適である。

ステップＳ８３において、閾値処理部３３は、和フィルタ計算結果を所定の閾値で分離する、すなわち、２値化処理を行うことや、和フィルタ計算結果のうち値が発生している部分（黒い領域ではない部分）をマスクする閾値処理を行うことなどにより、背景部分と認識するべき物体に対応する部分とを分離する。

このような処理により、フォーカスカメラにより撮像された画像から、焦点が合致する位置に存在する認識するべき物体を、容易な処理で背景から分離することが可能である。

次に、図３２のフローチャートを参照して、図２９のステップＳ１９において実行される、学習相関特徴量生成処理について説明する。

ステップＳ１１１において、学習相関特徴量生成部９８は、処理済の特徴量の数を示す変数ｋを、ｋ＝１とする。

ステップＳ１１２において、学習相関特徴量生成部９８は、モデル画像のＮ個の特徴量のうちｋ番目の特徴量である特徴量ｋのモデル特徴量について、学習画像の対応する特徴点における学習特徴量との相関値を生成する。

ステップＳ１１３において、学習相関特徴量生成部９８は、生成された相関値から、最も相関の高い学習特徴量を選択する。

ステップＳ１１４において、学習相関特徴量生成部９８は、ステップＳ１１３で選択された学習特徴量の相関値を、特徴量ｋの学習相関特徴量とする。

ステップＳ１１５において、学習相関特徴量生成部９８は、変数ｋは、１つの画像データに対する特徴量の総数Ｎであるか否かを判断する。

ステップＳ１１５において、変数ｋはＮではない、すなわち、Ｎに達していないと判断された場合、ステップＳ１１６において、学習相関特徴量生成部９８は、変数ｋを１インクリメントして、処理は、ステップＳ１１２に戻り、それ以降の処理が繰り返される。

ステップＳ１１５において、変数ｋはＮであると判断された場合、処理は、図２９のステップＳ１９に戻り、ステップＳ２０に進む。

このような処理により、例えば、図２５を用いて説明した手法を用いることなどにより、学習相関特徴量が生成される。また、図２６を用いて説明したように、学習相関特徴量は、異なる種類の特徴量(例えば、形、色、動きなど)でも、それぞれの相関を算出することにより求めることが可能である。

次に、図３３のフローチャートを参照して、図２９のステップＳ２０において実行される、認識器生成処理について説明する。

ステップＳ１４１において、認識器生成部１００は、例えば、学習用画像毎の重みＷiを全て１／Ｍに初期化すると共に、カウンタQを１に、認識器R(x)を０にそれぞれ初期化する。ここで、ｉは、複数の学習用入力画像ＰＩiをそれぞれ識別するものであり、１＜ｉ＜Ｍである。したがって、ステップＳ１４１の処理により、全ての学習用画像ＰＩiは、いずれも正規化された同一の重み（＝１／Ｍ）に設定されることになる。

ステップＳ１４２において、認識器生成部１００は、特徴点ｋ（ｋ＝１，２，３，・・・Ｎ）のそれぞれの局所特徴量の組み合わせごと、すなわち、１枚の学習用画像に対して供給されたＮ×Ｐの特徴量ごとに、学習用入力画像ＰＩiの重みＷiに応じてＭ個の特徴量を選択する。

この場合、特徴点ｋ＝１の１つ目の局所特徴量の組み合わせにおける特徴量は、グループＧ_r1-1で示される（Ａ_1-1，Ｂ_1-1，Ｃ_1-1，・・・Ｍ_1-1）であり、同様に、特徴点ｋ＝１の２つ目の局所特徴量の組み合わせにおける特徴量は、グループＧ_r1-2で示される（Ａ_1-2，Ｂ_1-2，Ｃ_1-2，・・・Ｍ_1-2）であり、以下、同様に、特徴点ｋ＝ＮのＰ番目の局所特徴量の組み合わせにおける特徴量は、グループＧ_rN-Pで示される（Ａ_N-P，Ｂ_N-P，Ｃ_N-P，・・・Ｍ_N-P）となる。

すなわち、各特徴点ｋのそれぞれの局所特徴量のＰ種類の組み合わせについて、学習用画像ＰＩiによるＭ個の特徴量のグループが設定されることになる。

認識器生成部１００は、各特徴点ｋのそれぞれの局所特徴量のＰ種類の組み合わせごとに、各学習用画像ＰＩiに設定された重みに応じて特徴量をＭ個抽選で抽出する。最初の処理においては、いずれの重みＷiも等しいため、Ｍ個が抽選されると、確率的には全ての特徴量が選択されることになるので、ここでは、最初の処理では各特徴点ｋのそれぞれの局所特徴量の組み合わせにおいて、全ての特徴量が選択されたものとする。もちろん、実際には、同一の特徴量が重複して選択されることもある。

ステップＳ１４３において、認識器生成部１００は、Ｎ個の特徴点のそれぞれの局所特徴量の組み合わせごとにサンプリングされたＭ個の特徴量のグループ毎に、特徴量を昇べきの順、または、降べきの順に並び替える。

ステップＳ１４４において、認識器生成部１００は、入力特徴量が抽出された学習用画像に認識しようとする対象物体が含まれている画像であるか否かを示す情報に基づいて、特徴点ｋのそれぞれのＰ種類の局所特徴量の組み合わせごとに、Ｍ個の特徴量のそれぞれについて、閾値を変化させながら、上述した式（１４）で示すように誤り率ｅ_jkを計算させ、誤り率ｅ_jkが最小となるように閾値を設定する。ここで、特徴点ｋのそれぞれの局所特徴量の組み合わせごとの閾値th_jkが、1個の弱認識器f_jkとなる。すなわち、Ｎ個存在する特徴点ｋのそれぞれのＰ種類の局所特徴量の組み合わせごとについて、すなわち、Ｎ×Ｐ個の特徴量に応じて、Ｎ×Ｐ個の弱認識器f_jkが設定され、Ｎ×Ｐ個のそれぞれについて（弱認識器f_jkのそれぞれについて）誤り率ｅ_jkが求められることになる。ここで、認識器f_jkは、認識しようとする対象物体を含む場合「＋１」を出力し、認識しようとする対象物体を含まない場合「−１」を出力する関数である。

すなわち、図２８を用いて説明した場合と同様にして、ある特徴点におけるある局所特徴量の組み合わせに対応する特徴量（得られた相関係数）が、昇べき、または、降べきの順に並べられた場合、設定された閾値th_jkの位置と、その閾値に対してどちら側に認識しようとする対象物体が含まれた学習用画像に対応する特徴量と認識しようとする対象物体が含まれない学習用画像に対応する特徴量が並べられているかに基づいて、エラーであるか否かが判定される。認識器生成部１００は、上述した式（１４）で示されるように、学習用入力画像の正誤情報（認識しようとする対象物体が含まれているか否かの情報）に基づいて、エラーであるとみなされた特徴量が抽出された学習用入力画像の重みＷiを加算し、誤り率ｅ_jkを計算する。

ステップＳ１４５において、認識器生成部１００は、Ｎ個の弱認識器f_jkのうち、誤り率ｅ_jkが最小となる弱認識器f_jkを選択する。

ステップＳ１４６において、認識器生成部１００は、選択した弱認識器の最小の誤り率ｅ_jkに基づいて、上述した式（１５）で示されるように信頼度ｃ_jkを計算する。

ステップＳ１４７において、認識器生成部１００は、供給された信頼度ｃ_jkに基づいて、上述した式（１６）で示されるように各学習用入力画像毎に重みＷiを再計算するとともに、全ての重みＷiを正規化して更新する。そして、認識器生成部１００は、重みの更新結果に基づいて、学習入力画像毎の重みを設定する。

ステップＳ１４８において、認識器生成部１００は、選択された認識器f_jkを基に、Q番目の認識器ｆ_Qを一時記憶する。換言すれば、認識器生成部１００は、（Ｑ−１）番目の認識器認識器ｆ_Q-1を、選択された認識器f_jkを加えたQ番目の認識器ｆ_Qに更新させる。

すなわち、認識器生成部１００は、上述した式（１７）で示されるように、認識器R(x)を更新する。このようにして、重み付けされた弱認識器f_jkが認識器R(x)に加算される。

ステップＳ１４９において、認識器生成部１００は、弱認識器f_jkの特徴点ｋの対応する局所特徴量の組み合わせにおけるモデル特徴量を、選択特徴量として一時記憶する。

ステップＳ１５０において、認識器生成部１００は、カウンタQの値が、認識器の生成のための繰り返し回数Ｌより大きいか否かを判断する。

ステップＳ１５０において、カウンタQの値がＬよりも大きくないと判定された場合、ステップＳ１５１において、認識器生成部１００は、カウンタQを１インクリメントし、その後、処理は、ステップＳ１４２に戻り、それ以降の処理が繰り返される。ステップＳ１５０において、カウンタQがＬよりも大きいと判断された場合、現在記憶されている認識器Ｒ（ｘ）が、認識装置７２の認識器記憶部１２２に供給されるとともに、現在記憶されている選択特徴量が、認識装置７２の選択特徴量記憶部１２１に供給されて、処理は、図２９のステップＳ２０に戻り、ステップＳ２１に進む。

以上の処理により、Ｌ個の比較的誤り率の低い弱認識器f_Q（１＜Q＜L）からなる認識器Ｒ(ｘ)が生成されて、認識装置７２の認識器記憶部１２２に記憶されると共に、それぞれの弱認識器f_Qで使用されるべき特徴点ｋのモデル特徴量が選択特徴量として、認識装置７２の選択特徴量記憶部１２１に記憶される。ここで、繰り返し回数Ｌは、Ｌ≦Ｎ×Ｐである。

なお、式（１７）の認識器は、Ｌ個の弱認識器の多数決により、認識しようとする対象物体の有無を出力する関数であると言える。また、このようにして、弱認識器を学習処理により重み付けしつつ付加することを繰り返し、認識器を生成する学習処理は、Discrete Adaboost Algorithmと称される。

すなわち、以上の認識器生成処理により、誤り率の高い学習用入力画像の学習用入力特徴量の重みが順次大きくなり、誤り率の低い学習用入力特徴量の重みが小さくなるように、モデル特徴量ごとに認識器と誤り率が計算される処理が繰り返されることになる。したがって、繰り返し処理（ステップＳ１４２乃至Ｓ１５０の処理）の中で、認識器を設定する際に選択される学習用入力特徴量（ステップＳ１４２で選択される学習特徴量）は、徐々に誤り率の高いものが選択されやすくなるので、認識し難い学習用入力特徴量が繰り返されるほどに選択されて学習が繰り返されることになるため、認識し難い学習用入力画像の特徴量がより多く選択されることになり、最終的に高い認識率の認識器を生成することが可能となる。

また、繰り返し処理（ステップＳ１４２乃至Ｓ１５０の処理）の中で、認識器生成部１００は、常に誤り率の最も低いモデル特徴量に対応する弱認識器を選択することになるので、学習処理の繰り返しにより、常に信頼度の最も高いモデル特徴量についての弱認識器が選択されて認識器に加算されることになり、繰り返されるごとに精度の高い弱認識器が順次加算されることになる。

すなわち、以上の学習処理により、特徴点および組み合わせごとに、特徴量に幾何学的な拘束が付加された特徴量を用いて、誤り率e_jkの低いＬ個の弱認識器f_jkからなる認識器Ｒ(ｘ)が生成されることになる。その結果として、信頼度の高い弱認識器のみからなる認識器が構成されることになるので、限られた個数の弱認識器で信頼度の高い認識器を構成することが可能となるので、後述する認識処理における演算処理数を低減させつつ、認識精度を向上させることが可能となる。

また、弱認識器の数を多くすれば（上述したＬを大きくすれば）、認識器による認識精度を向上させることが可能となる。一方、弱認識器の数を少数にしても（上述したＬを小さくしても）、選択される弱認識器は、少数ながらも信頼度の高い弱認識器のみを用いた認識処理を実行することができるので、信頼度を維持しつつ認識処理における演算処理数を低減させることが可能となる。すなわち、必要に応じて、学習処理に手間を掛けて認識器の生成個数を多くすることでより高い精度の認識器を生成することも可能であるし、逆に、学習に手間を掛けず生成する認識器の個数を減らして１発学習に近い学習にしても比較的精度の高い認識器を生成することが可能となる。

また、このように、学習装置７１においては、学習相関特徴量生成部９８によって生成された学習相関特徴量を用いて認識器の学習を行い、認識相関特徴量生成部１２６によって生成された認識相関特徴量を用いて認識処理を行うため、種類の異なる特徴量を同じスケールの下で相互に比較して認識対象の存否を判断することができる。すなわち、学習装置７１は、物体認識を行うに際して様々な特徴量を適宜用いることができる。そのため、学習装置７１においては、予め用意された様々な種類の特徴量の中から認識に適した特徴量の種類を自動的に選択して用いることができ、また、予め用意された様々な特徴量の中から認識に適した特徴量を自動的に選択して用いることができる。さらに、学習装置７１においては、認識に適した特徴点を自動的に統計学習することができる。

なお、ここでは、ブースティングアルゴリズムの一例として、Discrete AdaBoost Algorithmの適用例について説明したが、他のブースティングアルゴリズムを適用してもよく、例えば、Gentle AdaBoost Algorithmを用いるようにしてもよい。このGentle AdaBoost Algorithmによれば、弱認識器がそれぞれ信頼度を含んだ連続変量の値を出力することになるため、対応した重み付けがなされて、信頼度の計算を省くことができる。

次に、図３４のフローチャートを参照して、認識装置７２が実行する認識処理の一例である認識処理１について説明する。

ステップＳ１８１において、図３５を用いて後述する認識画像取得処理が実行される。

ステップＳ１８２において、認識特徴点生成部１２４は、ステップＳ１８１の処理により取得された認識画像の特徴点を生成し、認識特徴量生成部１２５に供給する。

ステップＳ１８３において、認識特徴量生成部１２５は、認識特徴点生成部１２４によって生成された認識特徴点における認識画像の特徴量を生成し、認識相関特徴量生成部１２６に供給する。

ステップＳ１８４において、図３６を用いて後述する認識相関特徴量生成処理が実行される。この処理は、選択特徴量記憶部１２１に記憶された選択特徴量のそれぞれに対して各認識特徴量との間の相関を求める処理である。

ステップＳ１８５において、認識処理部１２７は、認識相関特徴量生成部１２６によって生成された認識相関特徴量を、認識器記憶部１２２に記憶された認識器へ代入する計算処理を行う。

ステップＳ１８６において、認識処理部１２７は、ステップＳ１８５の計算結果に基づいて、認識画像には認識するべき物体が含まれているか否かを判断し、その結果を認識結果出力部１２８に供給する。

ステップＳ１８７において、認識結果出力部１２８は、認識処理部１２７から供給された認識結果を、例えば、表示部に表示したり、音声データとして出力したり、または、ＬＥＤなどを用いてユーザに通知したり、もしくは、所定の伝送路を介したり所定の記録媒体に記録させることなどにより、他の装置に出力して、処理が終了される。

このような処理により、学習特徴量を学習相関特徴量に変換して学習された認識器を用いて、認識特徴量を認識相関特徴量に変換して認識処理が実行される。このようにすることにより、種類の異なる特徴量を同じスケールの下で相互に比較して認識対象の存否を判断させることが可能となる。

次に、図３５のフローチャートを参照して、図３４のステップＳ１８１において実行される、認識画像取得処理について説明する。この認識画像取得処理は、図４を用いて説明した画像処理部１１と同様の構成を有しており、内部にフォーカスカメラを備えて認識画像を撮像するとともに、フォーカスカメラにより撮像して得られた認識画像データから焦点が合致した部分を抽出することができる認識画像取得部１２３によって実行される。したがって、図３５のフローチャートにおいては、図４および図５を用いて説明した画像処理部１１の構成を認識画像取得部１２３が有しているものとして説明する。

ステップＳ２１１において、認識画像取得部１２３の画像取得部２１は、所定の焦点距離で、撮像処理を実行し、得られた画像を背景分離処理部２２に供給する。

ステップＳ２１２において、認識画像取得部１２３の背景分離処理部２２は、図３１のフローチャートを用いて説明した背景分離処理を実行する。

ステップＳ２１３において、認識画像取得部１２３の背景分離処理部２２は、背景が分離された画像には、認識するべき物体が存在するか否かを判断する。ステップＳ２１３において、例えば、画像データ全体がピンボケであった場合など、認識するべき物体が存在しないと判断された場合、処理は、ステップＳ２１１に戻り、それ以降の処理が繰り返される。

ステップＳ２１３において、認識するべき物体が存在したと判断された場合、ステップＳ２１４において、認識画像取得部１２３の背景分離処理部２２は、背景が分離された画像データに対して、必要に応じて、アライメントなどの画像処理を施す。

ステップＳ２１５において、認識画像取得部１２３の背景分離処理部２２は、背景が分離された認識されるべき物体に対応する画像を、認識特徴点生成部１２４および認識特徴量生成部１２５に出力し、処理は、図３４のステップＳ１８１に戻り、ステップＳ１８２に進む。

このような処理により、認識用画像データが取得される。画像データはフォーカスカメラにより撮像されるので、焦点が合致する位置に存在する認識するべき物体を、容易な処理で背景から分離することが可能である。

次に、図３６のフローチャートを参照して、図３４のステップＳ１８４において実行される、認識相関特徴量生成処理について説明する。

ステップＳ２４１において、認識相関特徴量生成部１２６は、処理済の特徴量の数を示す変数ｋを、ｋ＝１とする。

ステップＳ２４２において、認識相関特徴量生成部１２６は、Ｎ個の選択特徴量のうちｋ番目の特徴量である特徴量ｋの選択特徴量について、認識画像の対応する特徴点における認識特徴量との相関値を生成する。

ステップＳ２４３において、認識相関特徴量生成部１２６は、生成された相関値から、最も相関の高い認識特徴量を選択する。

ステップＳ２４４において、認識相関特徴量生成部１２６は、ステップＳ２４３で選択された認識特徴量の相関値を、特徴量ｋの認識相関特徴量とする。

ステップＳ２４５において、認識相関特徴量生成部１２６は、変数ｋは、１つの画像データに対する特徴量の総数Ｎであるか否かを判断する。

ステップＳ２４５において、変数ｋはＮではない、すなわち、Ｎに達していないと判断された場合、ステップＳ２４６において、認識相関特徴量生成部１２６は、変数ｋを１インクリメントして、処理は、ステップＳ２４２に戻り、それ以降の処理が繰り返される。

ステップＳ２４５において、変数ｋはＮであると判断された場合、処理は、図３４のステップＳ１８４に戻り、ステップＳ１８５に進む。

このような処理により、例えば、図２５を用いて説明した手法を用いることなどにより、認識相関特徴量が生成される。また、図２６を用いて説明したように、認識相関特徴量においても、異なる種類の特徴量(例えば、形、色、動きなど)でも、それぞれの相関を算出することにより求めることが可能である。

次に、図３７のフローチャートを参照して、認識装置７２が実行する認識処理の異なる処理例である認識処理２について説明する。

図３４のフローチャートを用いて説明した認識処理１は、撮像された認識画像のそれぞれに対して実行される認識処理の全ての認識結果を出力するものであった。これは、学習処理や認識処理において用いられる画像データを取得するにあたって、フォーカスカメラにおいて設定された焦点距離に、ユーザが認識される物体を設置したのち、装置に対して撮像の指示を与えて、撮像処理を行うようにした場合であっても良いし、フォーカスカメラの撮像範囲内に入るように認識される物体を適当に移動させ、その間、連続的に撮像処理を実行させるようにした場合であっても、実行可能な処理である。

これに対して、図３７のフローチャートを用いて説明する処理は、認識処理において認識画像を得る際に、フォーカスカメラの撮像範囲内に入るように、認識される物体を適当に移動させ、その間、連続的に撮像処理を実行させるようにする場合において、連続して撮像された認識画像のそれぞれに対して実行される認識処理の全ての認識結果を出力するのではなく、連続して撮像された認識画像のそれぞれに対して実行される認識処理の認識結果を所定回数、または、所定時間だけ保持しておき、その推移を観察して、認識されているらしいピーク値における認識結果を出力する処理である。

ステップＳ２７１乃至ステップＳ２７５において、図３４のステップＳ１８１乃至ステップＳ１８５と同様の処理が実行される。

すなわち、認識画像が取得されて、認識画像の特徴点が生成されて、特徴点における特徴量が生成される。そして、図３６を用いて説明した認識相関特徴量生成処理が実行され、得られた認識相関特徴量を、認識器へ代入する計算処理が実行される。

そして、ステップＳ２７６において、認識処理部１２７は、得られた計算結果を一時保持する。保持された計算結果は、計算処理における所定回数、または、所定時間だけ保持される。

ステップＳ２７７において、認識処理部１２７は、連続して撮像された認識画像のそれぞれに対して実行される認識処理の計算結果を所定回数、または、所定時間だけ保持しておき、その推移を観察して、ピーク値が得られたか否か、換言すれば、最も認識されているらしい結果が得られたか否かを判断する。

ステップＳ２７７において、ピーク値が得られていないと判断された場合、処理は、ステップＳ２７１に戻り、それ以降の処理が繰り返される。

ステップＳ２７７において、ピーク値が得られたと判断された場合、ステップＳ２７８において、認識処理部１２７は、ピーク値に基づいて、認識画像には認識するべき物体が含まれているか否かを判断し、その結果を認識結果出力部１２８に供給する。

ステップＳ２７８において、認識結果出力部１２８は、認識処理部１２７から供給された認識結果を、例えば、表示部に表示したり、音声データとして出力したり、または、ＬＥＤなどを用いてユーザに通知したり、もしくは、所定の伝送路を介したり所定の記録媒体に記録させることなどにより、他の装置に出力して、処理が終了される。

このような処理により、学習特徴量を学習相関特徴量に変換して学習された認識器を用いて、認識特徴量を認識相関特徴量に変換して認識処理を行うため、種類の異なる特徴量を同じスケールの下で相互に比較して認識対象の存否を判断させることが可能となる。

また、さらに、このような処理により、ユーザが、フォーカスカメラにおいて設定された焦点距離ぴったりの位置に、認識される物体をいちいち設置するような煩雑な動作を行う必要がなくなる。例えば、ペットを認識したい場合にカメラ前でペットが動いていたとしても、認識処理を正しく実行させることができる。また、ユーザが、例えば、把持することなどにより移動可能なものを認識させたい場合には、フォーカスカメラの焦点位置ぴったりに認識物を設置しなくても、大体、そのあたりを適当に移動させていれば、その位置がフォーカスカメラの焦点距離に合致したときに正しい抽出処理が行われて、有用な認識画像が得られて、認識処理を行うことができる。更に、例えば、通路を通行する人物を認識したいとき、その通路を通行する人物がフォーカスカメラの焦点位置に対応する所定の位置を通過するときに自動的に正しい抽出処理が行われるので、人物を所定位置に立たせて、撮像開始を指令することなどを必要とせずに、正しい認識処理が可能となる。

以上説明した認識処理のアプローチ方法は、Collage-of-Featと称され、特徴量としてどのようなものを利用することも可能である。そして、local MAX poolingを用いて、ブースティングアルゴリズムにより認識を行うようになされている。

上述した処理により、オンライン実行の学習における、物体モデルの学習、すなわち、学習の結果得られる物体モデルの登録が、背景を分離した画像データを用いて行えるため、学習性能の向上が見込まれる。更に、認識実行時にも、認識画像の取得において、煩雑な処理を行うことなく、背景を削除することができるので、誤認識が減ることが期待でき、性能が向上する。さらに、学習処理および認識処理とも、切り出した領域だけ処理すればよいので、計算時間の削減にもつながる。

なお、これらの処理における画像データの取得および認識物体の領域の抽出は、複眼を利用することなく、単眼カメラのみで行えるので、コストアップを抑制することができる。

また、認識処理および学習処理が、上述した処理と異なる方法であっても、フォーカスカメラを用いて撮像された画像データを、図４を用いて説明した画像処理部１１を用いて処理することにより、煩雑な操作などを行わずに認識に必要な部分の抽出ができるという効果を得ることができる。すなわち、例えば、従来技術としてあげたような学習処理または認識処理において、図４を用いて説明した画像処理部１１を用いても、煩雑な操作などを行わずに認識に必要な部分の抽出ができるという効果を得ることができる。

なお、ここでは、画像処理システム５１は、学習装置７１と認識装置７２とで構成されるものとして説明したが、学習装置７１と認識装置７２との両方の機能を有する１つの装置によって、学習処理と認識処理の両方が行われるものであっても良いことは言うまでもない。換言すれば、学習処理システム５１が、１つの装置によって構成されていても良い。さらに、学習処理システム５１は、学習装置７１と認識装置７２との両方の機能を有するような２つ以上の装置により構成されていても良い。

また、学習処理と認識処理は連続して行われなくても良く、学習装置７１と認識装置７２とは、乖離して設置されていても良いことはいうまでもない。換言すれば、学習装置７１により生成される選択特徴量および認識器が選択特徴量記憶部１２１および認識器記憶部１２２にそれぞれ記憶されている認識装置７２は、学習装置７１と乖離した場所に設置されても単独で認識処理を行うことができる。

また、モデル画像の取得、学習画像の取得、および、認識画像の取得のうちのいずれの処理においても、画像データから認識するべき物体に対応する領域を自動的に抽出するものとしても良いし、これらの画像取得の処理のうちのいずれか少なくとも１つを、他の方法を用いて取得するようにしても良い。例えば、モデル画像の数が少ないような場合などにおいては、モデル画像取得部９１を、図４を用いて説明した画像処理部１１と同様の構成とはせずに、認識するべき部分のみを示すモデル画像を取得したり、または、ユーザの操作などにより、所定の画像データから、認識するべき部分のみを抽出して、モデル特徴点生成部９２に出力するようにしてもよい。

上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。そのソフトウェアは、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。この場合、上述した処理は、図３８に示されるようなパーソナルコンピュータ５００により実行される。

図３８において、CPU（Central Processing Unit）５０１は、ROM(Read Only Memory)５０２に記憶されているプログラム、または、記憶部５０８からRAM(Random Access Memory)５０３にロードされたプログラムに従って各種の処理を実行する。RAM５０３にはまた、CPU５０１が各種の処理を実行する上において必要なデータなどが適宜記憶される。

CPU５０１、ROM５０２、およびRAM５０３は、内部バス５０４を介して相互に接続されている。この内部バス５０４にはまた、入出力インターフェース５０５も接続されている。

入出力インターフェース５０５には、キーボード、マウスなどよりなる入力部５０６、CRT，LCDなどよりなるディスプレイ、スピーカなどよりなる出力部５０７、ハードディスクなどより構成される記憶部５０８、並びに、モデム、ターミナルアダプタなどより構成される通信部５０９が接続されている。通信部５０９は、電話回線やCATVを含む各種のネットワークを介しての通信処理を行う。

入出力インターフェース５０５にはまた、必要に応じてドライブ５１０が接続され、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどによりなるリムーバブルメディア５２１が適宜装着され、それから読み出されたコンピュータプログラムが、必要に応じて記憶部５０８にインストールされる。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、ネットワークや記録媒体からインストールされる。

この記録媒体は、図３８に示されるように、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されているリムーバブルメディア５２１よりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM５０２や記憶部５０８が含まれるハードディスクなどで構成される。

また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

なお、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

従来の認識技術について説明するための図である。学習処理と認識処理に関係について説明するための図である。フォーカスカメラで撮像された画像の特徴について説明するための図である。フォーカスカメラで撮像された画像から背景を分離することができる画像処理部の構成を示す図である。図４の背景分離処理部の更に詳細な構成を示す図である。近傍画素差分フィルタについて説明するための図である。近傍画素差分フィルタ計算処理部の出力例を示す図である。近傍領域和フィルタについて説明するための図である。近傍領域和フィルタ計算処理部の処理について説明するための図である。近傍領域和フィルタ計算処理部の出力例を示す図である。近傍領域和フィルタ計算処理部の出力例を示す図である。近傍領域和フィルタ計算処理部の出力例を示す図である。閾値処理部の出力例を示す図である。閾値処理部の出力例を示す図である。背景分離処理部による処理の流れについて説明するための図である。背景分離処理部による処理の流れについて説明するための図である。背景分離処理部による処理の流れについて説明するための図である。背景分離処理部による処理の流れについて説明するための図である。画像処理システムの構成について説明するためのブロック図である。学習装置において実行される学習フェーズの概要について説明するための図である。二次元上でのSteerableFilterのカーネルの形状を示す図である。近傍のジェットを結合する処理について説明するための図である。局所特徴量の回転について説明するための図である。ＨＳＶ空間におけるヒストグラムの例を示す図である。ＥＢＧＭ法による相関最大点の探索例について説明するための図である。複数種類の特徴量による相関特徴量算出の例について説明するための図である。認識器生成部において実行される学習処理の例について説明するための図である。認識器生成部において実行される学習処理の例について説明するための図である。学習処理について説明するためのフローチャートである。学習画像取得処理について説明するためのフローチャートである。背景分離処理について説明するためのフローチャートである。学習相関特徴量生成処理について説明するためのフローチャートである。認識器生成処理について説明するためのフローチャートである。認識処理１について説明するためのフローチャートである。認識画像取得処理について説明するためのフローチャートである。認識相関督著量生成処理について説明するためのフローチャートである。認識処理２について説明するためのフローチャートである。パーソナルコンピュータの構成を示すブロック図である。

符号の説明

１１画像処理部，２１画像取得部，２２背景分離処理部，３１近傍画素差分フィルタ計算処理部，３２近傍領域和フィルタ計算処理部，３３閾値処理部，５１画像処理システム，７１学習装置，７２認識装置，９１モデル画像取得部，９２モデル特徴点生成部，９３モデル特徴量生成部，９４モデル特徴量記憶部，９５学習画像取得部，９６学習特徴点生成部，９７学習特徴量生成部，９８学習相関特徴量生成部，９９正誤情報取得部，１００認識器生成部，１２１選択特徴量記憶部，１２２認識器記憶部，１２３認識画像取得部，１２４認識特徴点生成部，１２５認識特徴量生成部，１２６認識相関特徴量生成部，１２７認識処理部，１２８認識結果出力部，１４１乃至１４３相関算出部

Claims

認識対象を認識するための認識器を学習処理により予め生成する画像処理装置において、
前記学習処理に用いる学習画像を取得する学習画像取得手段と、
前記認識対象に対応するモデル画像を取得するモデル画像取得手段と、
前記学習画像取得手段により取得された前記学習画像と前記モデル画像取得手段により取得された前記モデル画像とを用いて前記学習処理を実行し、前記認識対象を認識するための認識器を生成する認識器生成手段と
を備え、
前記学習画像取得手段または前記モデル画像取得手段のうちの少なくとも一方は、
所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データを取得する画像取得手段と、
前記画像取得手段により取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する画像抽出手段と
を備え、
前記画像抽出手段により抽出された前記被写体に対応する部分を、前記学習画像、または、前記モデル画像として取得する
画像処理装置。
前記画像抽出手段は、
前記画像取得手段により取得された前記画像データの各画素において、近傍の画素との差分が大きい画素を抽出するための演算処理を実行する第１の演算手段と、
前記第１の演算手段により抽出された近傍の画素との差分が大きい画素を注目画素として、前記注目画素とその近傍領域との平均を求める第２の演算手段と、
前記第２の演算手段の演算結果に基づいて、前記画像データを、検出するべき物体に対応する領域と、背景であると考えられる領域に分割する分割手段と
を含む
請求項１に記載の画像処理装置。
前記分割手段は、前記第２の演算手段の演算結果を所定の閾値で２値化することにより、検出するべき物体に対応する領域と、背景であると考えられる領域に分割する
請求項２に記載の画像処理装置。
前記分割手段は、前記第２の演算手段の演算結果が正の値である画素を検出するべき物体に対応する領域と認識する
請求項２に記載の画像処理装置。
前記認識器生成手段は、
前記モデル画像取得手段により取得された前記モデル画像から複数の特徴点をモデル特徴点として生成するモデル特徴点生成手段と、
前記モデル特徴点生成手段により生成された前記モデル特徴点のそれぞれにおける特徴量をモデル特徴量として生成するモデル特徴量生成手段と、
前記学習画像取得手段により取得された前記学習画像から複数の特徴点を学習特徴点として生成する学習特徴点生成手段と、
前記学習特徴点生成手段により生成された前記学習特徴点のそれぞれにおける特徴量を学習特徴量として生成する学習特徴量生成手段と、
前記モデル特徴量生成手段により生成された前記モデル特徴量の各々について、前記学習特徴量生成手段により生成された前記学習特徴量のうち最も相関の高いものを選択して、選択された前記学習特徴量との間の相関の程度を学習相関特徴量として生成する学習相関特徴量生成手段と、
前記学習画像が前記認識対象を含むか否かを示す正誤情報を取得する正誤情報取得手段と、
前記学習相関特徴量生成手段により生成された前記学習相関特徴量、および、前記正誤情報取得手段により取得された前記正誤情報に基づいて認識器を生成する認識器生成手段と
を備える
請求項１に記載の画像処理装置。
前記モデル特徴点生成手段により生成される前記モデル特徴点は、前記モデル特徴点における前記モデル特徴量の種類に応じて選択され、
前記学習特徴点生成手段により生成される前記学習特徴点は、前記学習特徴点における前記学習特徴量の種類に応じて選択される
請求項５に記載の画像処理装置。
前記モデル特徴量生成手段により生成される前記モデル特徴量は、前記モデル特徴量の種類に応じて選択され、
前記学習特徴量生成手段により生成される前記学習特徴量は、前記学習特徴量の種類に応じて選択される
請求項５に記載の画像処理装置。
前記認識器生成手段は、重み付き投票に基づく学習処理により、前記認識器を生成する
請求項５に記載の画像処理装置。
前記重み付き投票に基づく学習処理は、ブースティングアルゴリズムである
請求項８に記載の画像処理装置。
前記画像抽出手段は、前記画像取得手段により取得された前記画像データのうちの焦点が合致していない領域を抽出することにより、焦点が合致した前記被写体に対応する部分を抽出する
請求項１に記載の画像処理装置。
前記画像抽出手段は、ＦＦＴを用いて、前記画像取得手段により取得された前記画像データを構成する各画像領域の周波数スペクトルを分析し、高周波成分が十分含まれている領域では焦点が合致していると判定することにより、焦点が合致した前記被写体に対応する部分を抽出する
請求項１に記載の画像処理装置。
前記認識器生成手段により生成された前記認識器を記憶する認識器記憶手段と、
前記認識器記憶手段により記憶されている前記認識器のそれぞれに対応する選択特徴量を記憶する選択特徴量記憶手段と、
認識処理を行うために用いられる認識画像を取得する認識画像取得手段と、
前記認識画像取得手段により取得された前記認識画像から複数の特徴点を認識特徴点として生成する認識特徴点生成手段と、
前記認識特徴点生成手段により生成された前記認識特徴点のそれぞれにおける特徴量を認識特徴量として生成する認識特徴量生成手段と、
前記選択特徴量記憶手段により記憶される前記選択特徴量のそれぞれについて前記認識特徴量生成手段により生成された前記認識特徴量のうち最も相関の高いものを選択して、選択された前記認識特徴量との間の相関の程度を認識相関特徴量として生成する認識相関特徴量生成手段と、
前記認識相関特徴量生成手段により生成された前記認識相関特徴量を、前記認識器生成手段により生成された前記認識器に代入することによって、前記認識画像取得手段により取得された前記認識画像に前記認識対象が含まれているか否かを判断する認識処理手段と
を更に備える請求項１に記載の画像処理装置。
前記認識画像取得手段は、前記画像取得手段および前記画像抽出手段を備え、前記画像抽出手段により抽出された前記被写体に対応する部分を、前記認識画像として取得する
る
請求項１２に記載の画像処理装置。
認識対象を認識するための認識器を学習処理により予め生成する画像処理装置の画像処理方法において、
前記学習処理に用いる学習画像を取得し、
前記認識対象に対応するモデル画像を取得し、
取得された学習画像と前記モデル画像とを用いて前記学習処理を実行し、前記認識対象を認識するための認識器を生成する
ステップを含み、
前記学習画像を取得するステップ、または、前記モデル画像を取得するステップのうちの少なくとも一方は、
所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データを取得し、
取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する
ステップを含み、
抽出された前記被写体に対応する部分を、前記学習画像、または、前記モデル画像として取得する
画像処理方法。
認識対象を認識するための認識器を学習処理により予め生成する処理をコンピュータに実行させるためのプログラムであって、
前記学習処理に用いる学習画像の取得を制御し、
前記認識対象に対応するモデル画像の取得を制御し、
取得された学習画像と前記モデル画像とを用いて前記学習処理を実行し、前記認識対象を認識するための認識器を生成する
ステップを含み、
前記学習画像を取得するステップ、または、前記モデル画像を取得するステップのうちの少なくとも一方は、
所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データの取得を制御し、
取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する
ステップを含み、
抽出された前記被写体に対応する部分を、前記学習画像、または、前記モデル画像として取得する
処理をコンピュータに実行させるプログラム。
学習処理により生成された認識器を用いて、認識対象が認識画像に含まれているか否かを判断する認識処理を行う認識装置において、
認識処理を行うために用いられる前記認識画像を取得する認識画像取得手段と、
前記認識器を記憶する認識器記憶手段と、
前記認識器記憶手段により記憶されている前記認識器のそれぞれに対応する選択特徴量を記憶する選択特徴量記憶手段と、
前記認識器記憶手段により記憶されている前記認識器および前記選択特徴量記憶手段により記憶されている前記選択特徴量を用いて、前記認識画像取得手段により取得された前記認識画像に前記認識対象が含まれているか否かを判断する認識処理手段と
を備え、
前記認識画像取得手段は、
所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データを取得する画像取得手段と、
前記画像取得手段により取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する画像抽出手段と
を備え、
前記画像抽出手段により抽出された前記被写体に対応する部分を、前記認識画像として取得する
認識装置。
前記画像抽出手段は、
前記画像取得手段により取得された前記画像データの各画素において、近傍の画素との差分が大きい画素を抽出するための演算処理を実行する第１の演算手段と、
前記第１の演算手段により抽出された近傍の画素との差分が大きい画素を注目画素として、前記注目画素とその近傍領域との平均を求める第２の演算手段と、
前記第２の演算手段の演算結果に基づいて、前記画像データを、検出するべき物体に対応する領域と、背景であると考えられる領域に分割する分割手段と
を含む
請求項１６に記載の画像処理装置。
前記分割手段は、前記第２の演算手段の演算結果を所定の閾値で２値化することにより、検出するべき物体に対応する領域と、背景であると考えられる領域に分割する
請求項１７に記載の画像処理装置。
前記分割手段は、前記第２の演算手段の演算結果が正の値である画素を検出するべき物体に対応する領域と認識する
請求項１７に記載の画像処理装置。
前記認識処理手段は、
前記認識画像取得手段により取得された前記認識画像から複数の特徴点を認識特徴点として生成する認識特徴点生成手段と、
前記認識特徴点生成手段により生成された前記認識特徴点のそれぞれにおける特徴量を認識特徴量として生成する認識特徴量生成手段と、
前記選択特徴量記憶手段に記憶される前記選択特徴量のそれぞれについて前記認識特徴量生成手段により生成された前記認識特徴量のうち最も相関の高いものを選択して、選択された前記認識特徴量との間の相関の程度を認識相関特徴量として生成する認識相関特徴量生成手段と、
前記認識相関特徴量生成手段により生成された前記認識相関特徴量を、前記認識器記憶手段により記憶された前記認識器に代入することによって、前記認識画像取得手段により取得された前記認識画像に前記認識対象が含まれているか否かを判断する判断手段と
を備える請求項１６に記載の認識装置。
前記認識器記憶手段により記憶されている前記認識器は、
所定のモデル画像から複数の特徴点をモデル特徴点として生成し、
前記モデル特徴点のそれぞれにおける特徴量をモデル特徴量として生成し、
所定の学習画像から複数の特徴点を学習特徴点として生成し、
前記学習特徴点のそれぞれにおける特徴量を学習特徴量として生成し、
前記モデル特徴量の各々について、前記学習特徴量のうち最も相関の高いものを選択して、選択された前記学習特徴量との間の相関の程度を学習相関特徴量として生成し、
前記学習画像が前記認識対象を含むか否かを示す正誤情報を取得し、
前記学習相関特徴量、および、前記正誤情報に基づいて生成された認識器である
請求項１６に記載の認識装置。
学習処理により生成され、記憶部に記憶された認識器、および、前記記憶部に記憶されている前記認識器のそれぞれに対応する選択特徴量を用いて、認識対象が認識画像に含まれているか否かを判断する認識処理を行う認識装置の認識方法において、
認識処理を行うために用いられる前記認識画像を取得し、
前記認識器および前記選択特徴量を用いて、取得された前記認識画像に前記認識対象が含まれているか否かを判断する
ステップを含み、
前記認識画像を取得するステップの処理では、
所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データを取得し、
取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する
ステップを含み、
抽出された前記被写体に対応する部分を、前記認識画像として取得する
認識方法。
学習処理により生成され、記憶部に記憶された認識器、および、前記記憶部に記憶されている前記認識器のそれぞれに対応する選択特徴量を用いて、認識対象が認識画像に含まれているか否かを判断する処理をコンピュータに実行させるプログラムであって、
認識処理を行うために用いられる前記認識画像の取得を制御し、
前記認識器および前記選択特徴量を用いて、取得された前記認識画像に前記認識対象が含まれているか否かを判断する
ステップを含み、
前記認識画像を取得するステップの処理では、
所定の焦点距離に存在する被写体の像に焦点が合致し、それ以外の物体には焦点が合致していない画像データの取得を制御し、
取得された前記画像データから、焦点が合致した前記被写体に対応する部分を抽出する
ステップを含み、
抽出された前記被写体に対応する部分を、前記認識画像として取得する
処理をコンピュータに実行させるプログラム。