JP2010108476A

JP2010108476A - 学習装置および方法、認識装置および方法、プログラム、並びに記録媒体

Info

Publication number: JP2010108476A
Application number: JP2009055062A
Authority: JP
Inventors: Jun Yokono; 順横野; Yuichi Hasegawa; 雄一長谷川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-10-03
Filing date: 2009-03-09
Publication date: 2010-05-13
Anticipated expiration: 2029-03-09
Also published as: US8494258B2; US20100086176A1; JP4670976B2; CN101714214A

Abstract

【課題】処理速度を向上させた画像認識を行う。
【解決手段】ピラミッド画像生成部２０は、入力された画像から、複数の解像度（スケール係数）が異なる画像を生成する。スケール係数の異なる画像に対して、フィルタ処理が施される。フィルタは、例えば、ガウス幅σ＝１のガウス関数のフィルタである。複数の画像に対してフィルタ処理を施すが、ガウス幅の異なる複数のフィルタを用いて処理を行うのではないために、処理の低減をはかることができる。本発明は、画像から対象物を認識する認識装置や認識装置のための学習を行う学習装置に適用できる。
【選択図】図１

Description

本発明は学習装置および方法、認識装置および方法、プログラム、並びに記録媒体に関し、特に、画像から、より確実に対象物体を検出できるようにした学習装置および方法、認識装置および方法、プログラム、並びに記録媒体に関する。

従来、画像から人を検出する技術は、主にセキュリティや車載用途のために研究開発されてきた（例えば、非特許文献１，２参照）。非特許文献１，２においては、画像から人を検出（認識）するための主な特徴量として、エッジ抽出により得られる輪郭特徴量が用いられている。これらの技術においては、エッジ抽出で得られた輪郭特徴量の様々な変化形が新たな特徴量として定義されて、人の認識が行われる。

例えば、非特許文献１では、エッジのある小領域内の方向のヒストグラムをとることで特徴量が得られ、この特徴量を用いることで多少の輪郭の歪みなどに強くなるという利点がある。
Navneet Dalal and Bill Triggs「Histograms of Oriented Gradients for Human Detection」CVPR2005 B. Wu and R. Nevatia「Detection of multiple, partially occluded humans in a single image by bayesian combination of edgelet part detectors」In Proc. 10th Int. Conf. Computer Vision, 2005

上記した画像から人などを検出する方法では、輪郭の特徴を利用して人などを検出するが、そのような方法は、計算量が増大してしまい、例えば、リアルタイムに人を検出することが困難であった。

本発明は、このような状況に鑑みてなされたものであり、計算効率を向上させることで、リアルタイムに人などの対象物を検出できるようにするものである。

本発明の一側面の学習装置は、入力された画像から異なるスケール係数の画像を生成する生成手段と、前記生成手段により生成された画像毎に、特徴点を抽出する抽出手段と、前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算する計算手段と、前記特徴量を用いた統計学習により、前記画像から所定の対象物体を検出するための識別器を生成する識別器生成手段とを備える。

前記所定のフィルタは、所定のガウス幅の微分関数であるようにすることができる。

前記計算手段は、任意の角度におけるガウス関数の所定の次数の微分関数における畳み込み演算を実行し、その演算結果の絶対値の総和を計算するようにすることができる。

前記計算手段は、任意の角度におけるガウス関数の所定の次数の微分関数における畳み込み演算を実行し、その演算結果の絶対値の最大値を計算するようにすることができる。

前記識別器を用いた前記所定の対象物体の識別時に用いられる画像のスケール係数と、前記生成手段におけるスケール係数は同一の係数とされるようにすることができる。

前記入力された画像は、所定の形状の手の画像を含む画像、または、手の画像を含まない画像であり、前記識別器は、所定の形状の手を検出するための識別器であるようにすることができる。

本発明の一側面の学習方法は、入力された画像から異なるスケール係数の画像を生成し、生成された画像毎に、特徴点を抽出し、前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算し、前記特徴量を用いた統計学習により、前記画像から所定の対象物体を検出するための識別器を生成するステップを含む。

本発明の一側面のプログラムは、入力された画像から異なるスケール係数の画像を生成し、生成された画像毎に、特徴点を抽出し、前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算し、前記特徴量を用いた統計学習により、前記画像から所定の対象物体を検出するための識別器を生成するステップを含む処理を実行するコンピュータが読み取り可能なプログラム。

本発明の一側面の学習装置および方法、並びにプログラムにおいては、入力された画像から異なるスケール係数の画像が生成され、それらの画像毎に、特徴点が抽出され、所定のフィルタを用いたフィルタ処理が施され、その結果が、特徴量とされ、その特徴量が用いられた統計学習により、画像から所定の対象物体を検出するための識別器が生成される。

本発明の一側面の認識装置は、入力された画像から異なるスケール係数の画像を生成する生成手段と、前記生成手段により生成された画像毎に、特徴点を抽出する抽出手段と、前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算する計算手段と、統計学習により得られた、画像から所定の対象物体を検出するための識別器に、前記特徴量を代入し、前記入力された画像から、前記対象物体を検出する検出手段とを備える。

前記識別器は、所定の形状の手を検出するための識別器であり、前記検出手段により、前記所定の形状の手が検出されたとき、前記入力された画像を記憶するようにすることができる。

本発明の一側面の認識方法は、入力された画像から異なるスケール係数の画像を生成し、生成された画像毎に、特徴点を抽出し、前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算し、統計学習により得られた、画像から所定の対象物体を検出するための識別器に、前記特徴量を代入し、前記入力された画像から、前記対象物体を検出するステップを含む。

本発明の一側面のプログラムは、入力された画像から異なるスケール係数の画像を生成し、生成された画像毎に、特徴点を抽出し、前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算し、統計学習により得られた、画像から所定の対象物体を検出するための識別器に、前記特徴量を代入し、前記入力された画像から、前記対象物体を検出するステップを含む処理をコンピュータに実行させるプログラム。

本発明の一側面の認識装置および方法、並びにプログラムにおいては、入力された画像から異なるスケール係数の画像が生成され、それらの画像毎に、特徴点が抽出され、所定のフィルタを用いたフィルタ処理が施され、その結果が、特徴量とされ、統計学習により、画像から所定の対象物体を検出するための識別器に特徴量が代入されて、所定の対象物体が検出される。

本発明の一側面によれば、計算効率を向上させた、リアルタイムな人などの対象物の検出や、そのための学習が可能となる。

本発明を適用した人識別システムの一実施の形態の構成を示す図である。服装識別器生成部の詳細な構成例を示す図である。輪郭特徴量計算部の詳細な構成例を示す図である。ステアラブルフィルタについて説明する図である。画像に対してフィルタ処理を行った結果を示す図である。学習処理を説明するフローチャートである。服装識別器生成処理を説明するフローチャートである。輪郭特徴量計算処理を説明するフローチャートである。服装特徴点の抽出について説明する図である。服装特徴量を説明する図である。服装特徴点のペア毎の服装特徴量のサンプリングについて説明する図である。弱識別器の設定について説明する図である。服装特徴点のペアについて説明する図である。輪郭特徴点の抽出について説明する図である。人検出処理を説明するフローチャートである。対象物体の認識結果の表示例を示す図である。所定の形状の手を検出する識別器を生成するときについて説明するための図である。手画像の一例を示す図である。画像処理装置の機能的な構成を示す図である。認識装置の構成について説明する図である。画像処理装置の動作について説明するフローチャートである。コンピュータの構成例を示すブロック図である。

以下、図面を参照して、本発明を適用した実施の形態について説明する。

［システム構成について］
図１は、本発明を適用した人識別システムの一実施の形態の構成例を示すブロック図である。この人識別システムは、学習装置１１、識別器記録部１２、および認識装置１３からなり、入力された画像における、対象物体として人間の画像のある領域を認識させるものである。

学習装置１１は、入力された学習画像に基づいて、認識装置１３において画像上における対象物体の有無を識別する処理を行うときに用いられる、識別用特徴量および統合識別器を生成し、識別器記録部１２に記録させる。認識装置１３は、識別器記録部１２に記録されている識別用特徴量および統合識別器を用いて、入力された入力画像に対象物体である人の画像が存在するか否かを識別し、その識別結果を出力する。

学習装置１１は、ピラミッド画像生成部２０、服装特徴点抽出部２１、服装特徴量計算部２２、服装識別器生成部２３、輪郭特徴点抽出部２４、輪郭特徴量計算部２５、輪郭識別器生成部２６、および統合識別器生成部２７から構成される。

ピラミッド画像生成部２０は、入力された学習画像から、互いに解像度の異なる複数の画像を生成し、それらの画像をピラミッド画像として服装特徴点抽出部２１と輪郭特徴点抽出部２４に供給する。例えば、レベルＬ１乃至レベルＬ８までの８つの解像度の階層のピラミッド画像が生成され、レベルＬ１のピラミッド画像が最も解像度が高く、レベルＬ１からレベルＬ８まで順番にピラミッド画像の解像度が低くなるものとする。

服装特徴点抽出部２１は、ピラミッド画像生成部２０で生成されたピラミッド画像を構成する各画像（この各画像も、学習画像と記述する）から、その学習画像の画素のいくつかを服装識別器を生成するときに用いられる服装特徴点として抽出する。その抽出された服装特徴点は、学習画像とともに服装特徴量計算部２２に供給される。ここで、服装識別器とは、統計学習により生成された、複数の弱識別器からなる強い識別器であり、人の服装の特徴を利用して、入力された画像中に人の画像の領域が存在するか否かを識別するときに用いられる。

服装特徴量計算部２２は、服装特徴点抽出部２１からの各服装特徴点について、その服装特徴点と、他の服装特徴点とを１つのペアとするペアリングを行う。また、服装特徴量計算部２２は、服装特徴点抽出部２１からの学習画像に基づいて、服装特徴点のペア毎に、任意の２つの領域のテクスチャの距離を示す服装特徴量を計算し、求められた服装特徴量と学習画像とを服装識別器生成部２３に供給する。

服装識別器生成部２３は、服装特徴量計算部２２から供給された学習画像および服装特徴量に基づいて、例えばAdaboostによる統計学習処理を行い、対象物体である人を認識する服装識別器を生成する。また、服装識別器生成部２３は、生成した服装識別器を統合識別器生成部２７に供給する。

輪郭特徴点抽出部２４は、ピラミッド画像生成部２０で生成されたピラミッド画像を構成する各画像（学習画像）から、その学習画像の画素のいくつかを輪郭識別器を生成するときに用いられる輪郭特徴点として抽出し、抽出した輪郭特徴点と学習画像とを輪郭特徴量計算部２５に供給する。ここで、輪郭識別器とは、統計学習により生成された、複数の弱識別器からなる強い識別器であり、人の輪郭を利用して、入力された画像中に人の画像の領域が存在するか否かを識別するときに用いられる。

輪郭特徴量計算部２５は、輪郭特徴点抽出部２４からの学習画像に基づいて、例えばステアラブルフィルタ（Steerable Filter）を用いたフィルタ処理により、輪郭特徴点毎に、抽出された輪郭を示す輪郭特徴量を計算し、求められた輪郭特徴量と学習画像とを輪郭識別器生成部２６に供給する。輪郭識別器生成部２６は、輪郭特徴量計算部２５から供給された学習画像および輪郭特徴量に基づいて、例えばAdaboostによる統計学習処理を行い、対象物体である人を認識する輪郭識別器を生成する。また、輪郭識別器生成部２６は、生成した輪郭識別器を統合識別器生成部２７に供給する。

統合識別器生成部２７は、服装識別器生成部２３からの服装識別器と、輪郭識別器生成部２６からの輪郭識別器とを統合して統合識別器を生成し、生成した統合識別器を識別器記録部１２に供給して記録させる。また、統合識別器生成部２７は、統合識別器を用いて対象物体の認識を行うときに用いられる服装特徴点のペアの服装特徴量、および輪郭特徴点の輪郭特徴量を、識別用特徴量として識別器記録部１２に供給し、記録させる。

認識装置１３は、服装特徴点抽出部３１、服装特徴量計算部３２、輪郭特徴点抽出部３３、輪郭特徴量計算部３４、識別計算部３５、および識別結果出力部３６から構成される。認識装置１３の服装特徴点抽出部３１乃至輪郭特徴量計算部３４のそれぞれは、対象物体を認識しようとする入力画像に対して、学習装置１１の服装特徴点抽出部２１、服装特徴量計算部２２、輪郭特徴点抽出部２４、および輪郭特徴量計算部２５のそれぞれと同様の処理を行うものであるので、その詳細な説明は省略する。

識別計算部３５は、識別器記録部１２に記録されている識別用特徴量および統合識別器を読み出す。また、識別計算部３５は、服装特徴量計算部３２からの服装特徴量、および輪郭特徴量計算部３４からの輪郭特徴量のうちの識別用特徴量に対応するものを、読み出した統合識別器に代入して演算を行う。識別結果出力部３６は、識別計算部３５における演算結果を取得し、その演算結果に基づいて、対象物体が入力画像で認識されたか否かの識別結果を出力する。

［服装識別器生成部の構成について］
図２は、図１の服装識別器生成部２３のより詳細な構成例を示すブロック図である。服装識別器生成部２３は、サンプリング部５１、重み設定部５２、並び替え部５３、識別器設定部５４、識別器選択部５５、および重み更新部５６から構成される。

サンプリング部５１は、重み設定部５２により設定される学習画像単位の重みに応じて、服装特徴点のペア毎に、複数の学習画像のそれぞれの同じ位置の服装特徴点のペアの服装特徴量から、Ｍ個の服装特徴量をサンプリングして並び替え部５３に供給する。

並び替え部５３は、各服装特徴点のペアについて、サンプリングされたＭ個の服装特徴量を昇べきの順、または降べきの順に並び替えて識別器設定部５４に供給する。

識別器設定部５４は、服装特徴量が抽出された学習画像に認識しようとする対象物体が含まれているか否かを示す正誤情報に基づいて、昇順、または降順に並び替えられた各ペアの服装特徴量のそれぞれについて、閾値を変化させながら誤り率計算部５４ａを制御して、誤り率を計算させ、誤り率が最小となるように閾値を設定する（この閾値が、弱識別器として設定される）。さらに、識別器設定部５４は、弱識別器毎の誤り率を識別器選択部５５に供給する。

学習画像には、その学習画像に対象物体が含まれているか否かを示す正誤情報（ラベル）が付加されており、識別器設定部５４は、服装特徴量計算部２２から供給された学習画像に付加されている正誤情報に基づいて、弱識別器の設定を行う。

識別器選択部５５は、弱識別器のうち、誤り率が最小となる弱識別器を選択して、弱識別器からなる服装識別器を更新し、最終的な服装識別器および各弱識別器に対応する服装特徴量を統合識別器生成部２７に供給する。さらに、識別器選択部５５は、選択した弱識別器の誤り率に基づいて信頼度を計算し、重み更新部５６に供給する。

重み更新部５６は、供給された信頼度に基づいて学習画像毎の重みを再計算するとともに、重みを正規化して更新し、更新結果を重み設定部５２に供給する。重み設定部５２は、重み更新部５６より供給されてくる重みの更新結果に基づいて、学習画像単位の重みを設定する。

［輪郭特徴量計算部の構成について］
図３は、図１の輪郭特徴量計算部２５のより詳細な構成例を示す図である。輪郭特徴量計算部２５は、１次フィルタ処理部６１、２次フィルタ処理部６２、３次フィルタ処理部６３、および特徴量生成部６４から構成される。また、輪郭特徴点抽出部２４からの学習画像は、１次フィルタ処理部６１乃至特徴量生成部６４に供給され、輪郭特徴点は、１次フィルタ処理部６１乃至３次フィルタ処理部６３に供給される。

１次フィルタ処理部６１は、供給された輪郭特徴点毎に、輪郭特徴点に対してガウス関数Ｇの１次微分関数Ｇ₁によりフィルタ処理を施して特徴量を抽出し、特徴量生成部６４に供給する。ここで、ガウス関数Ｇ、および１次微分関数Ｇ₁は、次式（１）および式（２）により示される。

式（１）において、σはガウス幅を示している。式（２）において、θは任意の角度を示し、計算したいフィルタの方向を示している。

例えば、１次フィルタ処理部６１は、ガウス関数Ｇのガウス幅σを３つの所定値（例えば、ガウス幅σ１，σ２，σ３＝１，２，４）に変化させ、ガウス幅σ毎に所定の４方向（例えば、θ＝θ１，θ２，θ３，θ４）について式（２）を計算する。

なお、方向θは４方向に限らず、８方向、例えばｐｉを８方向に等分したときの各方向などとしてもよい。また、従来は、上記したように、複数のガウス幅を用いて処理を行っていたが、本実施の形態においては、後述するように、ガウス幅は１つだけ用意しておけば良い。換言すれば、ガウス幅を変化させる必要がない。よって、上記では、“ガウス幅を３つの所定値に変化させ、ガウス幅σ毎に所定の４方向について式（２）を計算する”と記載したが、本実施の形態においては、設定されているガウス幅σにおいて所定の方向の４方向について式（２）を計算するだけでよい。

よって、複数のガウス幅毎に計算する必要がないため、計算量を低減させることが可能となる。このようなことは、他のフィルタ、例えば、２次フィルタ処理部６２、３次フィルタ処理部６３においても同様である。

２次フィルタ処理部６２は、供給された輪郭特徴点毎に、輪郭特徴点に対してガウス関数Ｇの２次微分関数Ｇ₂によりフィルタ処理を施して特徴量を抽出し、特徴量生成部６４に供給する。次式（３）は、２次微分関数Ｇ₂を示しており、式（３）においてθは任意の角度を示している。

また、式（３）における係数ｋ_2i（θ）（但し、ｉ＝１，２，３）は、次式（４）で示される関数である。

例えば、２次フィルタ処理部６２は、ガウス関数Ｇの所定のガウス幅σにおいて、所定の４方向（例えば、θ＝θ１，θ２，θ３，θ４）について式（３）を計算する。

３次フィルタ処理部６３は、供給された輪郭特徴点毎に、輪郭特徴点に対してガウス関数Ｇの３次微分関数Ｇ₃によりフィルタ処理を施して特徴量を抽出し、特徴量生成部６４に供給する。次式（５）は、３次微分関数Ｇ₃を示しており、式（５）においてθは任意の角度を示している。

また、式（５）における係数ｋ_3i（θ）（但し、ｉ＝１，２，３）は、次式（６）で示される関数である。

例えば、３次フィルタ処理部６３は、ガウス関数Ｇの所定のガウス幅σにおいて、所定の４方向（例えば、θ＝θ１，θ２，θ３，θ４）について、式（５）を計算する。

特徴量生成部６４は、１次フィルタ処理部６１、２次フィルタ処理部６２、および３次フィルタ処理部６３のそれぞれから供給された、４つの方向θについて計算された各輪郭特徴点の特徴量の供給を受け、供給された合計１２個（＝３（次数）×４（方向））の特徴量を並べて輪郭特徴点における輪郭特徴量とする。

また、各フィルタ処理部には、ピラミッド画像生成部２０から異なる解像度の複数の画像が供給されるため、各画像から４つの方向θについて計算された各輪郭特徴点の特徴量も供給される。この供給される特徴量は、ピラミッド画像生成部２０が生成する画像の枚数に依存し、例えば、レベル１からレベル８までの８枚の画像が生成される場合、８枚分の４つの方向θについて計算された各輪郭特徴点の特徴量が供給されることになる。

また、特徴量生成部６４は、生成した輪郭特徴量と、供給された学習画像とを輪郭識別器生成部２６に供給する。

このように、輪郭特徴量計算部２５では、ガウス関数を微分して得られる、方向θに選択性を持つフィルタ（基底関数）が用いられて、微分の次数毎に異なる特徴量（輪郭）が抽出され、輪郭特徴量とされている。

輪郭特徴量の抽出にステアラブルフィルタを用いる場合、図４に示すように、方向θおよびガウス幅σの異なるフィルタを用意すれば、それらのフィルタの線形結合により、任意の方向θのフィルタ、すなわちガウス関数Ｇの微分関数Ｇ_n（但し、ｎ＝１，２，３）を表現することができる。

また、図中、右側の横方向の列のうちの一番上の列の画像は、図中、左側から順番に、ガウス幅σ＝１である場合における１次微分関数Ｇ₁（θ）のθを０，１／８ｐｉ，２／８ｐｉ，３／８ｐｉ，４／８ｐｉ，５／８ｐｉ，６／８ｐｉ，７／８ｐｉとしたものを表している。

同様に、図中、右側の横方向の各列の画像は、図中、上から二番目から下方向に順番に、ガウス幅σ＝２である場合における１次微分関数Ｇ₁（θ）、ガウス幅σ＝４である場合における１次微分関数Ｇ₁（θ）、ガウス幅σ＝１である場合における２次微分関数Ｇ₂（θ）、ガウス幅σ＝２である場合における２次微分関数Ｇ₂（θ）、ガウス幅σ＝４である場合における２次微分関数Ｇ₂（θ）、ガウス幅σ＝１である場合における３次微分関数Ｇ₃（θ）、ガウス幅σ＝２である場合における３次微分関数Ｇ₃（θ）、およびガウス幅σ＝４である場合における３次微分関数Ｇ₃（θ）を示している。そして、それらの各列の画像は、図中、左側から順番に微分関数の方向θを０，１／８ｐｉ，２／８ｐｉ，３／８ｐｉ，４／８ｐｉ，５／８ｐｉ，６／８ｐｉ，７／８ｐｉとしたものを表している。

例えば、図中、左側のフィルタである１次微分関数Ｇ₁（０°）および１次微分関数Ｇ₁（９０°）を用いることで、図中、右側の上から二番目の列の各方向θにおける１次微分関数Ｇ₁（θ）を表すことができる。同様に、図中、左側の２次微分関数Ｇ₂を用いて、図中、右側の上から５番目の列に示す各方向θにおける２次微分関数Ｇ₂（θ）を表すことができ、図中、左側の３次微分関数Ｇ₃を用いて、図中、右側の上から８番目の列に示す各方向θにおける３次微分関数Ｇ₃（θ）を表すことができる。すなわち、各次元の任意の方向の微分関数は、その次元より１だけ多い数の基底関数があれば、それらの基底関数の線形結合により表現することができる。

図５に、ガウス関数Ｇの微分関数により、人が写っている画像に対してフィルタ処理を行うことで得られた結果を示す。図５において、図中、左側にはフィルタ処理の対象となる画像が示され、中央には、フィルタが示され、右側にはフィルタ処理後の画像が示されている。

図５の左側に示した画像は、ピラミッド画像を構成する２枚の画像であり、異なる解像度の画像である。上記したようにピラミッド画像生成部２０は、例えば、レベルＬ１乃至Ｌ８までの異なる解像度の画像を生成する。そのうちの例えば、レベルＬ１の画像１０１とレベルＬ２の画像１０２を、図５の左側に示している。

図５の中央に示したフィルタは、１次微分関数Ｇ₁、２次微分関数Ｇ₂、および３次微分関数Ｇ₃のガウス幅σがσ＝１のフィルタの一例を示している。この図５の中央に示したフィルタは、図４に示したフィルタの一部分を抜き出し、例示したものである。

図５の左側に示した画像に対して、図５の中央に示したフィルタのうち、例えば、３次微分関数Ｇ₃のフィルタを用いて、フィルタ処理した場合、図５の右側に示した画像が生成される。すなわち、画像１０１に対して、３次微分関数Ｇ₃のフィルタでフィルタ処理を行うと、画像１１１−１乃至１１１−４が生成される。また、画像１０２に対して、３次微分のフィルタでフィルタ処理を行うと、画像１１２−１乃至１１２−４が生成される。

画像１１１−１乃至１１１−４は、それぞれガウス幅σが１（σ＝１）の３次微分関数Ｇ₃のフィルタを用いて、フィルタ処理を行ったため、ガウス幅σが１のフィルタでフィルタ処理が行われたときの画像となる。

同様に、画像１１２−１乃至１１２−４は、それぞれガウス幅σが１（σ＝１）の３次微分関数Ｇ₃のフィルタを用いて、フィルタ処理を行ったため、ガウス幅σが１のフィルタでフィルタ処理が行われたときの画像となる。

しかしながら、画像１１２−１乃至１１２−４は、画像１０２をフィルタ処理した画像である。画像１０２は、画像１０１を縮小した画像である。このような場合、画像１１２−１乃至１１２−４は、ガウス幅σが２（σ＝２）の３次微分関数Ｇ₃のフィルタを用いてフィルタ処理を行った結果、生成される画像に相当する画像とすることができる。換言すれば、画像１０１に対して、ガウス幅σが２（σ＝２）の３次微分関数Ｇ₃のフィルタを用いてフィルタ処理したときに生成される画像に相当する画像が、画像１１２−１乃至１１２−４である。

すなわち、ピラミッド画像に対して、フィルタ処理を行うことで、異なるガウス幅のフィルタを用いて、フィルタ処理したときと同等の画像を得ることが可能となる。例えば、ガウス幅毎にフィルタを予め用意し、フィルタ処理を行うときの演算量や処理負担と比較し、上記したように１つのガウス幅のフィルタを予め用意し、ピラミッド画像にフィルタ処理を行うときの演算量や処理負担は大幅に軽減されたものとなる。

すなわち、ピラミッド画像を生成し、１つのガウス幅でフィルタ処理を行うことで、処理時間を大幅に短縮することが可能となる。よって、このような手法で、画像から人などの対象物を検出するようにした場合、処理時間が短くなることで、リアルタイムに画像から対象物を検出することが可能となる。

輪郭特徴量計算部２５は、このようにして、異なるガウス幅σのフィルタでフィルタ処理したときに相当する複数の画像を、さらに平均して得られる画像を生成する。その生成された平均の画像からは、人の輪郭を確認することができ、各フィルタを用いたフィルタ処理によって、画像から適切に人の輪郭が抽出される。

図１に示した認識装置１３の輪郭特徴量計算部３４の内部構成は、図３に示した輪郭特徴量計算部２５と同様の構成とされる。

［学習処理について］
次に、学習装置１１で行われる学習処理について説明を加える。学習装置１１に学習画像が入力され、統合識別器の生成が指示されると、学習装置１１は、学習処理を開始して統計学習により統合識別器を生成する。以下、図６乃至８のフローチャートを参照して、学習装置１１による学習処理について説明する。

ステップＳ１０において、ピラミッド画像生成部２０は、入力された学習画像から、ピラミッド画像を生成する。上記したように、ピラミッド画像生成部２０は、例えば、レベルＬ１乃至レベルＬ８までの８つの解像度の階層のピラミッド画像を生成し、その生成した画像を服装特徴点抽出部２１と輪郭特徴点抽出部２４に供給する。服装特徴点抽出部２１と輪郭特徴点抽出部２４は、それぞれ、供給されるピラミッド画像（異なる解像度の複数の画像）のうちの１つの画像を、処理対象の学習画像として、ステップＳ１１以下の処理を実行し、複数の画像毎に繰り返しステップＳ１１以下の処理を実行する。

ステップＳ１１において、服装特徴点抽出部２１は、供給された学習画像から服装特徴点を抽出して、抽出した服装特徴点および学習画像を服装特徴量計算部２２に供給する。

ステップＳ１２において、服装特徴量計算部２２は、服装特徴点抽出部２１から供給された服装特徴点と学習画像とに基づいて、各服装特徴点について、服装特徴点のペアリングを行う。

ステップＳ１３において、服装特徴量計算部２２は、ペアリングによりペアとされた服装特徴点の各ペアについて服装特徴量を計算し、これにより得られた服装特徴量を服装識別器生成部２３に供給する。

例えば、図９に示す学習画像が服装特徴点抽出部２１に入力された場合、服装特徴点抽出部２１は、予め定められたマージン（のりしろ）と、サンプリングスキップ数とに基づいて、学習画像から服装特徴点を抽出する。なお、図９において、学習画像上の円は、服装特徴点とされた画素を示している。

ここで、マージンとは、学習画像において、学習画像の端から服装特徴点の抽出の対象となる領域までの画素数である。また、サンプリングスキップ数とは、服装特徴点とされる学習画像上の画素と画素との間隔である。

したがって、例えばマージンが５画素であり、サンプリングスキップ数が５画素である場合、服装特徴点抽出部２１は、学習画像の端から５画素以内の位置にある画素からなる領域を学習画像から除外し、残りの領域Ｅ１１を服装特徴点の抽出の対象とする。そして、服装特徴点抽出部２１は、領域Ｅ１１内の画素のうち、互いに５画素だけ離れている位置の画素を服装特徴点として抽出する。すなわち、図中、縦方向または横方向に互いに隣り合う服装特徴点間の距離は５画素とされ、各服装特徴点は、領域Ｅ１１内の画素とされる。

次に、服装特徴量計算部２２は、予め定められた最小半径および最大半径に基づいて、各服装特徴点のペアリングを行う。例えば、最小半径がＲ１１であり、最大半径がＲ１２である場合、所定の服装特徴点ＫＴ１に注目したとき、服装特徴量計算部２２は、服装特徴点ＫＴ１からの距離が、最小半径Ｒ１１以上であり、かつ最大半径Ｒ１２以内である全ての服装特徴点について、その服装特徴点と、服装特徴点ＫＴ１とを１つのペアとする。

例えば、服装特徴点ＫＴ１からの距離が、最小半径Ｒ１１以上であり、かつ最大半径Ｒ１２以内である服装特徴点がＮ個存在する場合、Ｎ個の服装特徴点のペアが得られることになる。服装特徴量計算部２２は、全ての服装特徴点について、他の服装特徴点とのペアリングを行う。

さらに、服装特徴量計算部２２は、ペアリングにより得られた服装特徴点の各ペアについて、ペアとなる各服装特徴点を中心とする所定の形の所定の大きさの領域同士のテクスチャの距離を服装特徴量として計算する。

例えば、図９に示す服装特徴点ＫＴ１と服装特徴点ＫＴ２とのペアについての服装特徴量をSSD（Sum of Square Distance）により求める場合、服装特徴量計算部２２は、服装特徴点ＫＴ１を中心とする所定の領域を領域ＴＸ１とし、服装特徴点ＫＴ２を中心とする領域ＴＸ１と同じ大きさの領域を領域ＴＸ２とする。そして、服装特徴量計算部２２は、領域ＴＸ１内の画素の画素値と、その画素に対応する領域ＴＸ２内の画素の画素値との差分の絶対値和を求め、求められた差分の絶対値和を服装特徴量とする。

なお、服装特徴量は、SSDに限らず、SAD（Sum of Absolute Distance）や、正規化相関などとされてもよい。

このようにして、服装特徴量計算部２２は、学習画像から抽出された服装特徴点の各ペアについて、服装特徴量を求める。より詳細には、学習装置１１には、対象物体が含まれているいくつかの学習画像と、対象物体が含まれていないいくつかの学習画像とからなる複数の学習画像が入力される。そして、入力された学習画像毎に、服装特徴点の抽出および服装特徴量の計算が行われる。

例えば、Ｍ個（但し、Ｍは自然数）の学習画像ＰＩ₁乃至学習画像ＰＩ_Mが学習装置１１に入力された場合、図１０に示すように、Ｍ個の学習画像ＰＩ_i（但し、１≦ｉ≦Ｍ）について、服装特徴点のペア毎の服装特徴量が得られる。

図１０では、１つの四角形は、１つの服装特徴点のペアの服装特徴量を表している。また、図中、縦方向に並べられた四角形の列は、学習画像ＰＩ_i（但し、１≦ｉ≦Ｍ）から得られた服装特徴量の列を表している。１つの列には、学習画像ＰＩ_iから得られた服装特徴点のペアの数だけ服装特徴量が並んでいる。すなわち、学習画像ＰＩ_iから得られた服装特徴点のペアの数が、その学習画像ＰＩ_iの服装特徴量の次元となる。

学習画像は、上記したようにピラミッド画像の各画像のことを示している。図１０は、１枚の画像から３枚のピラミッド画像が生成され、それらの３枚のピラミッド画像がそれぞれ処理されたときを示している。すなわち、多重解像度のレベルを３に設定したときの学習時の特徴量ベクトルを、わかりやすく図示したのが図１０である。

図１０中において、スケールとは、スケール係数を表す。スケール係数とは、次のレベルで画像のサイズをどのくらいにするかという縮小率を表す。例えば、スケール１とは、スケール係数が１であることを示す。図１０の１つの列には、ピラミッド画像を構成する複数の学習画像ＰＩ_iから、それぞれ得られた服装特徴点のペアの数だけ服装特徴量が並んでいる。

さらに、各学習画像ＰＩ_iの服装特徴量の列の図１０中、下側には、その学習画像ＰＩ_iに対象物体が含まれているか否かを示すラベル（正誤情報）が示されている。例えば、学習画像ＰＩ₁の服装特徴量の列の図中、下側に示されるラベル「＋１」は、学習画像ＰＩ₁に対象物体が含まれることを表しており、学習画像ＰＩ_Mの服装特徴量の列の図中、下側に示されるラベル「−１」は、学習画像ＰＩ_Mに対象物体が含まれていないことを表している。

図６のフローチャートの説明に戻り、ステップＳ１３において、服装特徴量が求められると、ステップＳ１４において、服装識別器生成部２３は、服装識別器生成処理を行って、服装識別器を生成する。

ここで、図７のフローチャートを参照して、ステップＳ１４の処理に対応する服装識別器生成処理について説明する。

ステップＳ５１において、重み設定部５２は、例えば、図１０で示される学習画像ＰＩ_i（１≦ｉ≦Ｍ）毎の重みＷｉを全て１／Ｍに初期化し、識別器選択部５５は、カウンタｊを１に、弱識別器の和からなる服装識別器Ｒ（ｘ）を０にそれぞれ初期化する。

ここで、ｉは、図１０における学習画像ＰＩ_iを識別するものであり、１≦ｉ≦Ｍである。ステップＳ５１の処理により、全ての学習画像ＰＩ_iの重みＷｉは、いずれも正規化された同一の重み（＝１／Ｍ）とされる。また、カウンタｊは、予め定められた、服装識別器Ｒ（ｘ）を更新する回数を示している。

ステップＳ５２において、サンプリング部５１は、各服装特徴点のペア毎に、複数の学習画像ＰＩ_iのそれぞれの同じ位置の服装特徴点のペアの服装特徴量から、学習画像ＰＩ_iの重みＷｉに応じて、Ｍ個の服装特徴量を選択し、並び替え部５３に供給する。

例えば、服装特徴量計算部２２からサンプリング部５１に、図１１に示すように、Ｍ個の学習画像ＰＩ₁乃至学習画像ＰＩ_Mの服装特徴量が供給されたとする。図１１では、図中、横方向に学習画像ＰＩ_i（但し、１≦ｉ≦Ｍ）から得られた服装特徴量が並べられており、学習画像を表す文字ＰＩ_iの図中、左側の数字「＋１」または「−１」は、その学習画像ＰＩ_iに付加されたラベル（正誤情報）を示している。

すなわち、図中、一番上側に横方向に並んでいる（Ａ₁，Ａ₂，Ａ₃，・・・，Ａ_N）は、学習画像ＰＩ₁の服装特徴点の各ペアの服装特徴量のそれぞれを表しており、学習画像ＰＩ₁を示す文字「ＰＩ₁」の図中、左側の文字「＋１」は、学習画像ＰＩ₁に対象物体が含まれている旨のラベルを表している。

同様に、図中、上から二番目の横方向に並んでいる（Ｂ₁，Ｂ₂，Ｂ₃，・・・，Ｂ_N）は、学習画像ＰＩ₂の服装特徴点の各ペアの服装特徴量のそれぞれを表しており、学習画像ＰＩ₂を示す文字「ＰＩ₂」の図中、左側の文字「＋１」は、学習画像ＰＩ₂に対象物体が含まれている旨のラベルを表している。

また、図中、上から三番目の横方向に並んでいる（Ｃ₁，Ｃ₂，Ｃ₃，・・・，Ｃ_N）は、学習画像ＰＩ₃の服装特徴点の各ペアの服装特徴量のそれぞれを表しており、文字「ＰＩ₃」の図中、左側の文字「−１」は、学習画像ＰＩ₃に対象物体が含まれていない旨のラベルを表している。さらに、図中、上からＭ番目の横方向に並んでいる（Ｍ₁，Ｍ₂，Ｍ₃，・・・，Ｍ_N）は、学習画像ＰＩ_Mの服装特徴点の各ペアの服装特徴量のそれぞれを表しており、文字「ＰＩ_M」の図中、左側の文字「−１」は、学習画像ＰＩ_Mに対象物体が含まれていない旨のラベルを表している。

このように、図１１の例では、１つの学習画像ＰＩ_iからは、服装特徴点のＮ個のペアのそれぞれの服装特徴量が得られる。また、図１１では、縦方向に並んだＭ個の服装特徴量Ａ_k乃至服装特徴量Ｍ_k（但し、１≦ｋ≦Ｎ）が１つのグループＧｒ_kとされており、このグループＧｒ_kに属す服装特徴量は、各学習画像ＰＩ_iにおける同じ位置の服装特徴点のペアの服装特徴量とされている。

例えば、グループＧｒ₁は、縦方向に並んだ服装特徴量Ａ₁乃至服装特徴量Ｍ₁からなり、服装特徴量Ａ₁が求められる学習画像ＰＩ₁のペアとなる２つの服装特徴点と、グループＧｒ₁に属す他の服装特徴量、例えば服装特徴量Ｍ₁が求められる学習画像ＰＩ_Mのペアとなる２つの服装特徴点とは、学習画像上の同じ位置にある。なお、以下において、各学習画像ＰＩ_iにおける服装特徴点のペアであって、グループＧｒ_k（１≦ｋ≦Ｎ）に属す服装特徴量が求まめられるペアをペアｋと称する。

サンプリング部５１に、図１１に示される学習画像ＰＩ_i毎の服装特徴量が供給された場合、サンプリング部５１は、ペアｋ毎、すなわちグループＧｒ_k毎に、そのグループに属す服装特徴量から学習画像ＰＩ_iの重みＷｉに応じて、Ｍ個の服装特徴量を抽選で選択する。例えば、サンプリング部５１は、重みＷｉに応じて、グループＧｒ₁に属す服装特徴量Ａ₁乃至服装特徴量Ｍ₁から、Ｍ個の服装特徴量を選択する。なお、最初の処理においては、いずれの重みＷｉも１／Ｍであり、等しいため、Ｍ個が抽選されると、確率的には全ての服装特徴量が選択されることになる。そのため、ここでは、最初の処理では各グループＧｒ_kにおいて、全ての服装特徴量が選択されたものとする。もちろん、実際には、同一の服装特徴量が重複して選択されることもある。

なお、重みＷｉは、服装特徴点のペア毎のエラー計算に用いることもできる。この場合、データ重み係数（重みＷｉ）がエラー値に掛け合わされてエラー計算が行われる。

ステップＳ５３において、並び替え部５３は、Ｎ個のグループＧｒ_kのそれぞれについて、グループＧｒ_k、すなわちペアｋ毎に選択されたＭ個の服装特徴量を昇べきの順、または降べきの順に並び替えて、識別器設定部５４に供給する。例えば、図１１のグループＧｒ₁に属す服装特徴量から選択された、Ｍ個の服装特徴量が順番に並び替えられる。

ステップＳ５４において、識別器設定部５４は、服装特徴量計算部２２から供給された学習画像に付加されている正誤情報（ラベル）に基づいて、グループＧｒ_k毎、すなわち服装特徴点のペアｋ毎に、閾値を変化させながら誤り率計算部５４ａを制御して、以下の式（７）で示すように誤り率ｅ_jkを計算させ、誤り率ｅ_jkが最小となるように閾値を設定する。

ここで、服装特徴点のペアｋ毎の閾値ｔｈ_jkが、１個の弱識別器ｆ_jkとなる。識別器設定部５４は、弱識別器ｆ_jkごとの誤り率ｅ_jkを識別器選択部５５に供給する。すなわち、Ｎ個のペアｋのそれぞれに対して、Ｎ個の弱識別器ｆ_jkのそれぞれが設定され、Ｎ個の弱識別器ｆ_jkのそれぞれについて誤り率ｅ_jkが求められることになる。なお、弱識別器ｆ_jkは、認識しようとする対象物体を含む場合「＋１」を出力し、認識しようとする対象物体を含まない場合「−１」を出力する関数である。

例えば、図１２に示すように、ｊ＝１であって、服装特徴点のペアｋ＝１の服装特徴量がＬ₁，Ａ₁，Ｃ₁，Ｂ₁，・・・，Ｍ₁に昇べき、または、降べきの順に並べられた場合、閾値ｔｈ₁₁が服装特徴量Ａ₁とＣ₁の間に設定される。そして、閾値ｔｈ₁₁より小さい範囲では、認識しようとする対象物体がないと認識され（「−１」で示されている範囲）、閾値ｔｈ₁₁より大きい範囲では、認識しようとする対象物体があると認識される（「＋１」で示されている範囲）とき、図中の点線で囲まれた服装特徴量Ａ₁は、認識しようとする対象物体が含まれた学習画像の服装特徴量であるので、エラーであるとみなされる。また、服装特徴量Ｃ₁，Ｍ₁は、逆に、認識しようとする対象物体が含まれていない学習画像の服装特徴量であるので、エラーであるとみなされる。

図１２の例では、閾値ｔｈ₁₁は、誤り率ｅ_jkが最小となる位置に設定されている。例えば、図１２に示す閾値ｔｈ₁₁が、誤り率ｅ_jkの最小となる位置ではない場合には、識別器設定部５４は、閾値ｔｈ₁₁の位置を変化させて、各位置における誤り率ｅ_jkを参照しながら、誤り率ｅ_jkが最小となる閾値ｔｈ₁₁の位置を探し出し、その位置を閾値ｔｈ₁₁の位置とする。

誤り率計算部５４ａは、以下の式（７）で示されるように、学習画像の正誤情報（ラベル）に基づいて、エラーであるとみなされた服装特徴量が抽出された学習画像の重みＷｉを加算し、誤り率ｅ_jkを計算する。

ここで、ｙ≠ｆ_jkはエラーとなっている服装特徴点のペアｋの条件を示しており、Ｅ_wは、エラーの発生したペアｋにおける重みが加算されることを示している。

ステップＳ５５において、識別器選択部５５は、識別器設定部５４から供給されたペアｋ毎のＮ個の誤り率ｅ_jkに基づいて、Ｎ個の弱識別器ｆ_jkのうち、誤り率ｅ_jkが最小となる弱識別器ｆ_jkを選択する。そして、識別器選択部５５は、識別器設定部５４から選択した弱識別器ｆ_jkを取得する。

ステップＳ５６において、識別器選択部５５は、選択した弱識別器ｆ_jkの誤り率ｅ_jkに基づいて、以下の式（８）で示される信頼度ｃ_jを計算し、計算結果を重み更新部５６に供給する。

なお、式（８）において、ｅ_jは、誤り率ｅ_jkのうち、選択された弱識別器ｆ_jkの誤り率ｅ_jk、すなわちＮ個の誤り率ｅ_jkのうちの最小の誤り率ｅ_jkを示している。また、以下において、ステップＳ５５の処理において選択されたペアｋの弱識別器を、弱識別器ｆ_jとも称し、その弱識別器ｆ_jの誤り率ｅ_jkを誤り率ｅ_jとも称する。

ステップＳ５７において、重み更新部５６は、供給された信頼度ｃ_jに基づいて、以下の式（９）を計算することで、学習画像ＰＩ_i毎に重みＷｉを再計算するとともに、全ての重みＷｉを正規化して更新し、更新結果を重み設定部５２に供給する。重み設定部５２は、重み更新部５６より供給されてくる重みの更新結果に基づいて、学習画像毎の重みを設定する。

式（９）においては、エラーの発生した服装特徴量を含む学習画像の重みＷｉが大きくなることが示されている。

ステップＳ５８において、識別器選択部５５は、新たに求められた弱識別器ｆ_jを用いて、保持している服装識別器Ｒ（ｘ）を更新する。すなわち、識別器選択部５５は、次式（１０）を計算することで服装識別器Ｒ（ｘ）を更新する。

Ｒ（ｘ）＝Ｒ’（ｘ）＋ｃ_j×ｆ_j（ｘ）・・・（１０）

式（１０）において、Ｒ’（ｘ）は、識別器選択部５５が保持している更新前の服装識別器を表しており、ｆ_j（ｘ）は、新たに求められた弱識別器ｆ_jを表している。すなわち、識別器選択部５５は、保持している服装識別器に、信頼度ｃ_jが乗算されて重み付けされた、新たに求められた弱識別器を加算することで服装識別器を更新する。

ステップＳ５９において、識別器選択部５５は、誤り率ｅ_jkが最小となる弱認識器ｆ_jkに対応する服装特徴点のペアｋの服装特徴量を、識別用特徴量として保持する。

ステップＳ６０において、識別器選択部５５は、カウンタｊがＬ以上であるか否かを判定する。ステップＳ６０において、カウンタｊがＬ以上でないと判定された場合、ステップＳ６１において、識別器選択部５５は、カウンタｊをインクリメントする。そして、その後、処理はステップＳ５２に戻り、上述した処理が繰り返される。

すなわち、新たに設定された学習画像毎の重みＷｉが用いられて、Ｎ個のペアｋについて、新たな弱識別器ｆ_jkが設定され、それらの弱識別器ｆ_jkから誤り率ｅ_jkが最小となる弱認識器ｆ_jkが選択される。そして、選択された弱認識器ｆ_jkにより、服装識別器が更新される。

これに対して、ステップＳ６０において、カウンタｊがＬ以上であると判定された場合、ステップＳ６２において、識別器選択部５５は、保持している服装識別器および識別用特徴を統合識別器生成部２７に出力する。そして、その後、処理は図６のステップＳ１５に進む。

以上の処理により、Ｌ個の比較的誤り率の低い弱識別器ｆ_j（１≦ｊ≦Ｌ）からなる服装識別器が統合識別器生成部２７に供給されるとともに、それぞれの弱識別器ｆ_jで使用されるべき服装特徴点のペアｋの服装特徴量が統合識別器生成部２７に供給される。ここでＬは、Ｌ≦Ｎである。

なお、式（１０）の服装識別器を用いて、服装特徴量を代入した服装識別器が正である場合に「＋１」を出力し、服装識別器が負である場合に「−１」を出力する識別器（関数）を生成すると、その識別器は、Ｌ個の弱識別器の多数決により、認識しようとする対象物体の有無を出力する関数であると言える。また、図７のフローチャートを参照して説明した弱識別器を学習処理により重み付けしつつ付加することを繰り返し、識別器を生成する学習処理は、Descrete Adaboost Algorithmと呼ばれている。

すなわち、以上の服装識別器生成処理により、誤り率の高い学習画像の服装特徴量の重みが順次大きくなり、誤り率の低い服装特徴量の重みが小さくなるように、服装特徴点のペア毎に弱識別器と誤り率が計算される処理が繰り返されることになる。したがって、繰り返し処理（ステップＳ５２乃至Ｓ６１の処理）の中で、弱識別器を設定する際に選択される服装特徴量（ステップＳ５２で選択される服装特徴量）は、徐々に誤り率の高いものが選択されやすくなるので、認識し難い服装特徴量が繰り返されるほどに選択されて学習が繰り返されることになるため、認識し難い学習画像の服装特徴量がより多く選択されることになり、最終的に高い認識率にすることが可能となる。

また、繰り返し処理（ステップＳ５２乃至Ｓ６１の処理）の中で、識別器選択部５５は、常に誤り率の最も低いペアに対応する弱識別器を選択することになるので、学習処理の繰り返しにより、常に信頼度の最も高い服装特徴点のペアについての弱識別器が選択されて服装識別器に加算されることになり、繰り返される毎に精度の高い弱識別器が順次加算されることになる。

さらに、服装識別器は、服装特徴量を用いて画像に対象物体としての人が含まれているか否かを識別する識別器である。そして、服装識別器を構成する各弱識別器に代入される服装特徴量に対応する服装特徴点のペアは、服装特徴点のペアのうち、入力された画像から対象物体を検出するのに適したペアである。

例えば、服装識別器に代入される服装特徴量に対応するペアは、図１３に示すように、画像中の対象物体としての人の周囲にある服装特徴点のペアとされている。図１３では、点線の直線は、ペアとなる２つの服装特徴点を結ぶ直線を表しており、その点線の端を中心とする四角形は、服装特徴量を求めるときに用いられるテクスチャの領域を表している。

図１３の例では、画像上の人が身に着けている、その人の上半身の洋服内にある２つの服装特徴点からなり、テクスチャ間の距離、すなわち服装特徴量が小さくなるペアや、人の洋服内の服装特徴点と、人ではなく背景上の服装特徴点とからなり、服装特徴量が大きくなるペアなどが選択されていることがわかる。

図６のフローチャートの説明に戻り、ステップＳ１５において、輪郭特徴点抽出部２４は、入力された学習画像から輪郭特徴点を抽出する。

例えば、輪郭特徴点抽出部２４に図１４Ａに示す学習画像が入力された場合、輪郭特徴点抽出部２４は、図１４Ｂに示すように、学習画像において所定の間隔で並んでいる画素を、輪郭特徴点として抽出する。なお、図１４Ｂにおいて、学習画像上の円は輪郭特徴点とされた画素を表している。

図１４Ａおよび図１４Ｂに示す学習画像は、図中、横方向に３２画素、縦方向に６４画素からなる学習画像であり、輪郭特徴点抽出部２４は、学習画像上の画素を、横方向および縦方向に２画素おきに輪郭特徴点とする画素として選択する。これにより、学習画像において、図中、横方向に１２画素、縦方向に２８画素、合計３３６（＝１２×２８）画素が輪郭特徴点として選択される。

輪郭特徴点抽出部２４は、学習画像から輪郭特徴点を抽出すると、抽出した輪郭特徴点と、入力された学習画像とを輪郭特徴量計算部２５に供給する。

ステップＳ１６において、輪郭特徴量計算部２５は、輪郭特徴量計算処理を行い、輪郭特徴点抽出部２４から供給された輪郭特徴点および学習画像に基づいて、各輪郭特徴点の輪郭特徴量を計算する。

ここで、図８のフローチャートを参照して、ステップＳ１６の処理に対応する輪郭特徴量計算処理について説明する。

ステップＳ１０１において、輪郭特徴量計算部２５、より詳細には、輪郭特徴量計算部２５の１次フィルタ処理部６１、２次フィルタ処理部６２、および３次フィルタ処理部６３は、それぞれ輪郭特徴点抽出部２４から供給されてきた輪郭特徴点のうち、未処理の輪郭特徴点の１つを注目画素として選択する。

ステップＳ１０２において、輪郭特徴量計算部２５は、方向θｑを示すカウンタｑを１とする。これにより、方向θｑはθ１とされる。

ステップＳ１０３において、１次フィルタ処理部６１は、１次フィルタ処理を行う。すなわち、１次フィルタ処理部６１は、処理対象となる注目画素の画素値に基づいて、ガウス幅をσ＝１とし、かつ方向をθｑとして式（２）を演算し、フィルタ処理した結果を特徴量生成部６４に供給する。すなわち、式（２）における方向θがθｑとされて演算が行われ、輪郭が抽出される。

なお、“ガウス幅をσ＝１として”と記述したが、本実施の形態の場合、ガウス幅は、σ＝１と固定されている（予め１つのガウス幅のフィルタが設定されている）ため、この“ガウス幅をσ＝１として”という処理は省略することが可能である。すなわち、本実施の形態においては、ガウス幅σが１のフィルタの方向をθｑとして式（２）を演算するという処理が、ステップＳ１０３において実行されることになる。また、ここでは、ガウス幅σをσ＝１として説明を続けるが、予め用意されているフィルタのガウス幅は、σ＝１以外のガウス幅でも勿論良い。

ステップＳ１０４において、２次フィルタ処理部６２は、２次フィルタ処理を行う。すなわち、２次フィルタ処理部６２は、注目画素の画素値に基づいて、ガウス幅σ＝１のフィルタの方向をθｑとして式（３）を演算し、フィルタ処理した結果を特徴量生成部６４に供給する。すなわち、式（３）における方向θがθｑとされて演算が行われ、輪郭が抽出される。

ステップＳ１０５において、３次フィルタ処理部６３は、３次フィルタ処理を行う。すなわち、３次フィルタ処理部６３は、注目画素の画素値に基づいて、ガウス幅σ＝１のフィルタの方向をθｑとして式（５）を演算し、フィルタ処理した結果を特徴量生成部６４に供給する。すなわち、式（５）における方向θがθｑとされて演算が行われ、輪郭が抽出される。

ステップＳ１０６において、輪郭特徴量計算部２５は、方向θｑがθ４であるか否か、すなわちカウンタｑ＝４であるか否かを判定する。ステップＳ１０６において、方向θｑがθ４でないと判定された場合、ステップＳ１０７において、輪郭特徴量計算部２５は、カウンタｑをインクリメントする。例えば、カウンタｑ＝１であった場合、カウンタｑがインクリメントされてｑ＝２とされ、これにより方向θｑはθ２とされる。カウンタｑがインクリメントされると、処理はステップＳ１０３に戻り、上述した処理が繰り返される。

これに対して、ステップＳ１０６において、方向θｑがθ４であると判定された場合、ステップＳ１０８において、特徴量生成部６４は、１次フィルタ処理部６１、２次フィルタ処理部６２、および３次フィルタ処理部６３から供給された演算結果を輪郭特徴量として合成し、１つの輪郭特徴点に対する輪郭特徴量を生成する。

輪郭特徴量は、以下の式（１１）または式（１２）で求められる。

式（１１）、式（１２）において、Ｇ_d,θは、式（２）などと同じく、任意の角度θにおけるガウス関数Ｇのｄ次微分関数である。また、Ｉ（ｘ_i，ｙ_i，ｓ_i）のうち、（ｘ_i，ｙ_i）は、処理対象とされている輪郭特徴点の画像内での座標を表し、（ｓ_i）は、ピラミッド画像を構成する画像のうち、処理対象とされている画像のスケールを表す。

式（１１）は、任意の角度θにおけるガウス関数Ｇのｄ次微分関数と輪郭特徴量を畳込み演算し、その絶対値をΣで総和を演算する式である。式（１２）は、任意の角度θにおけるガウス関数Ｇのｄ次微分関数と輪郭特徴量を畳込み演算し、その絶対値をｍａｘで最大値をとる式である。

式（１１）と式（１２）は、ともに、特徴量を算出する式であるが、式（１１）は、局所的なエネルギーを計算する式であり、式（１２）は、局所的な最大値を計算する式である。ここで、この式の意味ついて説明を加える。

上記したような処理により、任意の角度における関数とスケールで抽出されたフィルタ係数を特徴量として、教師あり統計学習を行い、人などの対象物を検出する検出識別器を生成できる。しかしながら、この検出識別器では、例えば、人の着ている服装と背景の関係に依存する特徴量となってしまう。また、人のように歪みや変形の大きな認証対象に関しては、特徴量として選択性がありすぎる。よって、これらのことを吸収して処理する必要があり、それぞれの特徴量を不変性のある特徴量にする必要がある。

“人の着ている服装と背景に関係に依存する特徴量”を、不変性のある特徴量にするには、フィルタ処理後の出力値の絶対値を演算することで解決することができる。絶対値を演算することで、人の輪郭に近い特徴量が抽出できる。さらに本実施の形態においては、１次微分関数、２次微分関数、さらに３次微分関数を演算し、それぞれ絶対値の演算を行っている。よって、１次微分関数による絶対値だけで演算を行う場合に比べて、はるかに精度を良くすることができ、不変性を有する特徴量を算出できるようになる。

また、“人のように歪みや変形の大きな認証対象に関しては、特徴量として選択性がありすぎる”といったことに対しては、位置ずれによる不変演算を行うことで、そのようなこと吸収した特徴量を演算できるようになる。位置ずれによる不変演算とは、例えば、人の顔の輪郭を検出したとき、顔の形によらずその輪郭の長さはほぼ同じになるといったことを利用した演算である。換言すれば、輪郭の所定の部分に注目したとき、その部分が位置的にずれても、例えば、ほぼ丸顔の人の輪郭が位置的に移動し、細長い顔の人の輪郭に重なるようにしたときに、位置がずれただけで、その長さなどの値は不変であるとみなせる演算である。

このような演算として、式（１１）のように、総和が演算される。総和を演算することにより、例えば、人の顔の輪郭の総和が演算されることになる。または、式（１２）のように、最大値が演算される。最大値を演算することにより、例えば、人の顔の輪郭のうちの最大値が演算されることになる。

ここでは、総和と最大値という２つの演算を示した。換言すれば、上記したように、式（１１）に基づき、局所的なエネルギーを計算する演算か、式（１２）に基づき、局所的な最大値を計算する演算を示した。この他にも、局所的な最大値を有する点の周辺の局所的なエネルギーを計算する演算が行われるようにしても良い。これは、式（１２）の演算結果を受けて、式（１１）の演算を行うようなイメージである。または、局所的なエネルギーの周辺の最大値を計算する演算が行われるようにしても良い。これは、式（１１）の演算結果を受けて、式（１２）の演算を行うようなイメージである。具体的な式は示さないが、このような演算で特徴量が算出されるようにしても良い。

このような演算により、各輪郭特徴点から特徴点が算出される。そして、ステップＳ１０９において、輪郭特徴量計算部２５は、全ての輪郭特徴点について処理が終了したか否かを判定する。例えば、輪郭特徴点抽出部２４から供給された全ての輪郭特徴点について、輪郭特徴量が求められた場合、処理が終了したと判定される。

ステップＳ１０９において、全ての輪郭特徴点について処理が終了していないと判定された場合、処理はステップＳ１０１に戻り、次の輪郭特徴点が注目画素として選択される。

これに対して、ステップＳ１０９において、全ての輪郭特徴点について処理が終了したと判定された場合、特徴量生成部６４は、輪郭特徴点抽出部２４から供給された学習画像と、生成された各輪郭特徴点の輪郭特徴量とを輪郭識別器生成部２６に供給する。そして、その後、処理は図６のステップＳ１７に進む。

なお、学習画像からの輪郭特徴量の抽出には、ステアラブルフィルタに限らず、ガボアフィルタなどが用いられるようにしてもよい。

図６のフローチャートの説明に戻り、各輪郭特徴点の輪郭特徴量が求められると、ステップＳ１７において、輪郭識別器生成部２６は、輪郭特徴量計算部２５から供給された学習画像および輪郭特徴量に基づいて、輪郭識別器生成処理を行い、輪郭識別器を生成する。なお、この輪郭識別器生成処理は、図７を参照して説明した服装識別器生成処理と同様であるので、その説明は省略する。

すなわち、服装識別器生成処理と輪郭識別器生成処理とは、処理対象となる特徴量が服装特徴量であるか、または輪郭特徴量であるかという点のみが異なる。したがって、輪郭識別器生成処理においては、最も誤り率の低い輪郭特徴点の輪郭特徴量に対応する弱識別器の和から輪郭識別器が生成される。輪郭識別器生成部２６は、生成した輪郭識別器および識別用特徴を統合識別器生成部２７に出力する。

ステップＳ１８において、統合識別器生成部２７は、服装識別器生成部２３から供給された服装識別器と、輪郭識別器生成部２６から供給された輪郭識別器とを統合して統合識別器を生成する。

例えば、Adaboostによる統計学習処理により得られた識別器は、弱識別器の線形結合により表現されるので、統合識別器生成部２７は、服装識別器と輪郭識別器とをLate Fusion方式により統合する。

すなわち、統合識別器生成部２７は、次式（１３）を計算することで、服装識別器Ｒ（ｘ）と、輪郭識別器Ｔ（ｘ）との識別器和Ｕ（ｘ）を求める。すなわち、服装識別器Ｒ（ｘ）と、輪郭識別器Ｔ（ｘ）との線形結合により、識別器和Ｕ（ｘ）が求められる。

Ｕ（ｘ）＝α・Ｒ（ｘ）＋β・Ｔ（ｘ）・・・（１３）

なお、式（１３）において、αおよびβは所定の定数、すなわちチューニングパラメータであり、例えば統計学習処理に用いられる学習画像に対する識別率などにより求められる。また、輪郭識別器Ｔ（ｘ）は、式（１０）により示される服装識別器Ｒ（ｘ）と同様に、信頼度が乗算された弱識別器の和とされる。

さらに、統合識別器生成部２７は、求められた識別器和Ｕ（ｘ）を用いて、次式（１４）により示される統合識別器を生成する。

統合識別器＝sign（Ｕ（ｘ））・・・（１４）

なお、式（１４）において、sign（Ｕ（ｘ））は、識別器和Ｕ（ｘ）が正の場合、認識しようとする対象物体が、入力画像中に存在することを示す「＋１」を出力し、識別器和Ｕ（ｘ）が負の場合、認識しようとする対象物体が、入力画像中に存在しないことを示す「−１」を出力する関数である。

このようにして、統合識別器が生成されると、統合識別器生成部２７は、生成した統合識別器を識別器記録部１２に供給して記録させる。また、統合識別器生成部２７は、服装識別器生成部２３から供給された識別用特徴量に、輪郭識別器生成部２６から供給された識別用特徴量を付加して最終的な識別用特徴量とし、最終的な識別用特徴量を識別器記録部１２に供給して記録させ、学習処理は終了する。

以上のようにして、学習装置１１は、学習画像から服装特徴点を抽出して、服装特徴点のペアの服装特徴量を求め、統計学習により服装識別器を生成するとともに、学習画像から輪郭特徴点を抽出して輪郭特徴量を求め、統計学習により輪郭識別器を生成する。そして、学習装置１１は、服装識別器と輪郭識別器とを線形結合により統合して、統合識別器を生成する。

このように、服装識別器と輪郭識別器とを統合して統合識別器を生成することで、画像からより確実に対象物体を検出できる統合識別器を提供することができる。すなわち、統合識別器は、対象物体の服装の特徴を利用した服装識別器と、対象物体の輪郭を利用した輪郭識別器とが統合されたものであるので、入力された画像から、少なくとも一方の特徴量を充分に抽出することができれば、画像から対象物体を検出することができる。

画像から対象物体としての人を検出する場合、対象物体としての人は、服装が変化しても、人として検出されるべきである。そのため、従来は、人の服装の輝度によらない特徴量として、輪郭だけが用いられて画像からの人の検出が行われていた。

これに対して、学習装置１１では、人の服装の特徴を利用した、人の服装のパターンの変化に対して不変な服装特徴量を画像からの人の検出に用いている。この服装特徴量は、統計的に、人が上半身（シャツ）で同じテクスチャの繰り返しのパターンであり、下半身（ズボン）で同じテクスチャの繰り返しのパターンである洋服を着用することが多いことに着目し、新たに定義された特徴量である。

すなわち、服装特徴量は、画像上の任意の２つの領域のテクスチャ、すなわち輝度のパターンの似ている度合い（類似度）を示している。例えば、人の上半身の２つの領域間のテクスチャの類似度は高く、上半身と下半身や、人の服装と背景とのテクスチャの類似度は低い。学習装置１１では、このような２つの領域のテクスチャの類似度を利用して、画像から人を検出する服装識別器が用いられ、統合識別器が生成される。

したがって、例えば、入力された画像から輪郭が充分に抽出できなくても、画像から２つの領域のテクスチャの類似の特徴を充分に抽出できれば、統合識別器を用いて、画像から人を検出することができる。逆に、画像中において、人の着用している洋服が繰り返しでないパターンの服であったり、バッグなどで洋服が部分的に隠れていたりする場合には、画像からテクスチャの類似の特徴を充分に抽出できない恐れがあるが、画像から輪郭を充分に抽出することができれば、統合識別器により画像から人を検出することができる。

［認識処理について］
次に、学習の結果を用いて、例えば、人などの対象物を検出（認識）するときの処理について説明を加える。認識装置１３に入力画像が入力され、対象物体としての人の検出が指示されると、認識装置１３は、人検出処理を開始して、入力画像から対象物体を検出する。以下、図１５のフローチャートを参照して、認識装置１３による人検出処理について説明する。

なお、ステップＳ１５０の処理乃至ステップＳ１５３の処理のそれぞれは、図６のステップＳ１０の処理乃至ステップＳ１３の処理のそれぞれと同様であるので、その説明は省略する。すなわち、服装特徴点抽出部３１は、入力された入力画像から服装特徴点を抽出し、服装特徴量計算部３２は、服装特徴点抽出部３１により抽出された服装特徴点のペアリングを行って、各ペアの服装特徴量を計算する。そして、服装特徴量計算部３２は、各ペアについて求めた服装特徴量を識別計算部３５に供給する。

なお、ピラミッド画像生成部３０でピラミッド画像を生成するとき、学習装置１１のピラミッド画像生成部２０が生成するピラミッド画像と同じスケール（解像度）の画像を生成するようにする。このように学習時のスケール係数と、認識時のスケール係数を合わせておくことで、認識時に効率の良いスキャンを行うことが可能となる。

ステップＳ１５４において、輪郭特徴点抽出部３３は、図６のステップＳ１５の処理と同様の処理を行い、入力された入力画像から輪郭特徴点を抽出し、入力画像とともに輪郭特徴量計算部３４に供給する。

ステップＳ１５５において、輪郭特徴量計算部３４は、輪郭特徴点抽出部３３からの入力画像および輪郭特徴点に基づいて、輪郭特徴量計算処理を行い、各輪郭特徴点の輪郭特徴量を計算する。そして、輪郭特徴量計算部３４は、求められた輪郭特徴量を識別計算部３５に供給する。なお、この輪郭特徴量計算処理は、図８を参照して説明した輪郭特徴量計算処理と同様の処理であるため、その説明は省略する。

ステップＳ１５６において、識別計算部３５は、識別器記録部１２から識別用特徴量および統合識別器を読み出して、読み出した統合識別器に特徴量を代入して計算する。すなわち、識別計算部３５は、服装特徴量計算部３２からの服装特徴量、および輪郭特徴量計算部３４からの輪郭特徴量のうちの識別用特徴量に対応するものを、式（１４）により示される統合識別器に代入して演算を行う。

ここで、統合識別器を構成する弱識別器に代入される特徴量は、識別用特徴量とされた特徴量が求められた、学習画像の服装特徴点のペアまたは輪郭特徴点と同じ位置にある、入力画像上の服装特徴点のペアまたは輪郭特徴点から求められた特徴量である。また、識別用特徴量とされる特徴量は、統計学習処理時において、統合識別器を構成する弱識別器の設定に用いられた特徴量である。

式（１４）の演算が行われると、その演算の結果として、入力画像中に対象物体としての人が存在することを示す「＋１」、または入力画像中に対象物体としての人が存在しないことを示す「−１」が得られる。識別計算部３５は、統合識別器での演算結果を識別結果出力部３６に供給する。

ステップＳ１５７において、識別結果出力部３６は、識別計算部３５からの演算結果に基づいて、人の検出結果を出力し、人検出処理は終了する。すなわち、対象物体が入力画像で認識されたか否かの識別結果が出力される。

例えば、対象物体が入力画像で認識されたか否かの識別結果として、図１６に示すように、対象物体としての人が検出された領域に枠が表示された入力画像が、識別結果出力部３６に表示されるようにしてもよい。

図１６に示す入力画像は、対象物体としての２人の人が写っている画像であり、入力画像には、それぞれの人を囲む枠が表示されている。この場合、識別結果出力部３６にも入力画像が入力され、識別計算部３５は、演算結果とともに入力画像における対象物体が検出された領域を示す情報を識別結果出力部３６に供給する。すると、識別結果出力部３６は、識別計算部３５からの演算結果および領域を示す情報に基づいて、入力画像から対象物体が検出された場合には、入力画像とともに、対象物体が検出された領域を囲む枠を表示する。

このようにして、認識装置１３は、入力画像から服装特徴点を抽出して、服装特徴点のペアの服装特徴量を求めるとともに、入力画像から輪郭特徴点を抽出して輪郭特徴量を求める。そして、認識装置１３は、求めた服装特徴量および輪郭特徴量と、識別器記録部１２に記録されている統合識別器とを用いて、入力画像から対象物体を検出する。

このように、服装特徴量および輪郭特徴量を用いて入力画像から対象物体を検出することで、より確実に画像から対象物体を検出することができる。すなわち、入力画像から服装特徴量または輪郭特徴量の少なくともいずれか一方を充分に抽出することができれば、入力画像から対象物体を確実に検出することができる。

なお、以上においては、対象物体として人を検出すると説明したが、対象物体は、人に限らず、物体の表面のパターンが、同じテクスチャの繰り返しのパターンとなるものであれば、どのようなものであってもよい。

また、以上においては、Descrete Adaboost Algorithmに基づいて、統計学習処理を実行する例について説明してきたが、それ以外のBoosting Algorithmを適用するようにしてもよく、例えば、Gentle Adaboost Algorithmを用いるようにしてもよい。Descrete Adaboost Algorithmと、Gentle Adaboost Algorithmとは、前者の識別器の出力結果が離散変量であるのに対して、後者は、連続変量である点で異なる。しかしながら、前者においては、信頼度が乗じられるため、出力結果は、実質的に連続変量として扱われており、本質的に処理の違いはない。

さらに、その他、SVM（Support Vector Machine）やBaysianなどにより統計学習処理を行い、服装識別器や輪郭識別器を生成するようにしてもよい。なお、統計学習処理において、Adaboostなどで特徴量（服装特徴量または輪郭特徴量）を選択するようにすると、認識装置１３における統合識別器を用いた人の検出時に、より高速に処理を行うことができるようになる。

また、以上においては、服装識別器と輪郭識別器とを生成し、それらの識別器を統合して統合識別器を生成すると説明したが、服装識別器および輪郭識別器を生成せずに、服装特徴量および輪郭特徴量から、直接、統合識別器が生成されるようにしてもよい。

上述したように、入力された画像を、異なる解像度の画像（ピラミッド画像）にし、その異なる解像度の画像に対してフィルタ処理を施すことにより、計算効率を向上させることが可能となり、処理速度を向上させることが可能となる。よって、例えば、リアルタイムに人などの対象物を認識することが可能となる。

例えば、複数のスケールの画像に、複数のフィルタを用いた処理を行うと、多くのフィルタ演算を必要とし、処理時間や処理能力が増大してしまう可能性があった。しかしながら本実施の形態のように、複数のスケールの画像に、１つのフィルタを用いた処理を行うため、換言すれば、畳み込みが１スケールですむため、多くの演算を必要とせず処理を行えるため、処理速度を向上させることが可能となる。

また、マルチスケールフィルタの場合、周波数が低くなる（ガウス幅σが大きくなる）と、畳み込み演算に時間がかかるが、本実施の形態によれば、上記したように、１つのガウス幅でフィルタを構成することが可能であり、複数のガウス幅のフィルタを用意する必要がなく、複数のガウス幅のフィルタで演算する必要がない。よって、本実施の形態によれば、仮に、最も高周波のフィルタを１つだけ用意して処理したとしても、マルチスケールフィルタの場合に比べて、はるかに処理速度を向上させることが可能となる。

［手形状の検出について］
上記した実施の形態においては、対象物として人を検出する場合を例にあげて説明した。人を検出するために、学習装置１１での学習時には、人が撮像されている画像と、そうでない画像とが用いられて学習が行われる。図１７に示すように、手画像２０１−１乃至２０１−Ｍと自然画像（手画像でない画像）２０２−１乃至２０２−Ｎを用いて、学習装置１１で学習を行えば、手を識別（検出）することができる識別器を生成することが可能である。

手画像２０１として学習装置１１に入力されるのは、例えば、図１８に示した手画像２０１である。手画像２０１は、被写体２１１が俗にピースサインと称されるサインをしている画像である。ピースサインの手の形状を識別するための識別器を生成する場合、図１８に示したような、ピースサインをしている手の画像が含まれる手画像２０１が、Ｍ枚用いられて学習が行われる。自然画像として学習装置１１に入力されるのは、手形状が写っていないような画像である。そのような自然画像が、Ｎ枚用いられて学習が行われる。

（Ｍ＋Ｎ）枚の手画像２０１と自然画像２０２が学習装置１１に入力され、学習されることで、手の所定の形状を識別する識別器が生成され、識別器記憶部１２に記憶される。その識別器は、入力された画像から、手の画像と、手でない画像とを識別することができる識別器である。さらに、手画像２０１として、例えば、ピースサインをしている手の画像を用いて学習させたときには、ピースサインの手の形状を識別する識別器が生成され、グーといった手の形状をしているときの画像を用いて学習させたときには、グーといった手の形状を識別する識別器が生成される。

すなわち、学習させたときに用いられた手画像２０１の手の形状により、識別する手の形状に適した識別器を生成することができる。

なお、図１を参照するに、学習装置１１は、人が身につけている服装の特徴から、人の画像とそうでない画像を識別する服装識別器を生成する服装識別器生成部２３と、人の輪郭の特徴から、人の画像とそうでない画像を識別する輪郭識別器を生成する輪郭識別器生成部２６とを含む構成とされている。

服装識別器は、例えば、袖口の部分などの服装から、服装特徴量が検出されることで生成されるので、手の画像と手でない画像を識別する識別器としても有効に機能すると考えられる。さらに、本実施の形態においては、服装識別器だけでなく、輪郭識別器も生成される。この輪郭識別器によれば、手の輪郭を検出することができ、手の画像と手でない画像を識別する識別器としても有効に機能すると考えられる。このような服装識別器と輪郭識別器が統合識別器生成部２７により、統合されることで手の形状を検出する識別器が生成される。

さらに、従来、肌色などの色の特徴を利用して、手の画像を所定の画像から抜き出し、手の形状を認識する方法が提案されていたが、本発明は、色に依存しない特徴量を用いて、上記した手の形状を検出する。よって、例えば、手袋などで、手が覆われていても、換言すれば、手の色が検出できないような画像（例えば、白黒画像）といったような画像からでも、手を検出することができる。

また、手袋を服と考え、２領域間のテクスチャの関係に、統計的な相関があれば、服装特徴量も有効に機能する。そもそも、手のテクスチャを考えても、２領域間のテクスチャの差は少ないことが多く、それ自身が使える。

このように、本発明を適用することで生成された手の形状を識別する識別器によれば、上記した人を識別する識別器と同じく、精度良く手の形状を識別することができる。また、その識別のために行われる計算の計算効率は良いため、処理速度を向上させることができる。

次に、このようにして生成された手の形状を識別する識別器で、手の形状を識別し、その識別結果により画像を取得する画像処理装置について説明する。図１９は、画像処理装置の機能的な構成を示す図である。図１９に示した画像処理装置２３０は、識別器記憶部１２、認識装置１３、画像取得部２３１、シャッター制御部２３２、および画像記憶部２３３を含む構成とされている。

このような構成を有する画像処理装置２３０は、例えば、デジタルスチルカメラ、デジタルビデオカメラなどに組み込まれる。画像処理装置２３０が、デジタルスチルカメラに組み込まれた場合、画像取得部２３１には、撮像素子などが含まれる構成とされる。そして、画像取得部２３１は、被写体の画像を撮影することで、画像を取得する。

識別器記憶部１２と認識装置１３は、それぞれ図１に示した識別器記憶部１２と認識装置１３と同様の機能を有し、同様の構成を有する。そのために、同じ符号を付し、その説明は省略する。なお、上記したように、入力された画像から人などの対象物を検出するとき、識別器記憶部１２と認識装置１３によれば、計算効率を向上させ、処理速度を向上させることが可能となるため、デジタルスチルカメラなどの装置に画像処理装置２３０が組み込まれ、リアルタイムに撮影された画像を処理しなくてはならないような場合であっても対応することができる。

認識装置１３では、対象物として手形状が認識(検出)される。認識装置１３で手形状が検出されると、その検出されたという情報は、シャッター制御部２３２に供給される。シャッター制御部２３２は、画像取得部２３１を構成するシャッターを制御する。シャッターは、一定時間だけ開くカメラの露光装置であり、デジタルスチルカメラにおいては、電子シャッターとメカニカルシャッターが含まれる。シャッターがきられると、画像取得部２３１により取得された画像は、画像記憶部２３３に供給され、記憶される。画像記憶部２３３は、所定の記録媒体から構成され、画像データを記憶する。

識別器記憶部１２に、手の複数の形状を、それぞれ識別する識別器が記憶されている場合、図２０に示すように認識装置１３が構成される。入力画像２５１は、手形状認識器２５２−１乃至２５２−Ｎに供給される。手形状認識器２５２−１乃至２５２−Ｎはそれぞれ、異なる手の形状を識別するための識別器を含む構成とされる。異なる手の形状とは、例えば、ピースサインの形状、グーの形状、チョキの形状、パーの形状などである。異なる手の形状を識別するための識別器は、識別器記憶部１２に記憶されている。そして、認識装置１３（手形状認識器２５２−１乃至２５２−Ｎ）は、それぞれの識別器を用いて、識別を行う。

図１を参照する。識別器記憶部１２には、複数の識別器が記憶されている。認識装置１３の識別計算部３５は、識別器記憶部１２に記憶されている複数の識別器を用いて識別を行う。すなわち、手形状認識器２５２−１乃至２５２−Ｎは、識別計算部３５が、識別器を変えて計算することで実現される。

図２０の説明に戻り、各手形状認識器２５２−１乃至２５２−Ｎのそれぞれからの検出結果２５３−１乃至２５３−Ｎは、最大値出力認識器２５４に供給される。最大値出力認識器２５４は、検出結果２５３−１乃至２５３−Ｎのうちから、最大値を有する検出結果２５３を認識し、その認識結果を、シャッター制御部２３２（図１９）に出力する。シャッター制御部２３２は、認識結果が、所定の手の形状であるとき、画像取得部２３１を制御し、画像を取得させ、画像記憶部２３３に記憶させる。

このような動作について、図２１のフローチャートを参照し、さらに説明を続ける。ステップＳ２１１において、画像が取得される。画像取得部２３１は、内蔵する撮像素子で画像を撮影している。この状態は、例えば、デジタルスチルカメラにおいて、撮影者が構図などを決めるために、デジタルスチルカメラのディスプレイに写し出されている被写体の画像を閲覧している状態である。また、この状態は、画像取得部２３１の撮像素子からデータの読み出しが行われ、ディスプレイに供給されている状態である。

撮影されている画像は、ディスプレイに供給され、ユーザに提示されるとともに、認識装置１３に供給される。認識装置１３は、ステップＳ２１２において、供給された画像から手形状を検出する。例えば、図１８に示したような手画像２０１が供給された場合、手形状として、領域２１２が検出される。そして、その領域２１２は、どの識別器が識別したものかが判断されることにより、手の形状が識別される。

例えば、手形状認識器２５２−１がピースサインを検出する認識器であるとする。そして、最大値出力認識器２５４が出力した認識結果が、手形状認識器２５２−１からの検出結果２５３−１であった場合、手画像２０１には、手として識別できる画像が含まれ、かつ、その画像はピースサインであることが検出されたことになる。このように、認識装置１３は、どのような手形状が検出されたかを、認識結果として、シャッター制御部２３２に供給する。

シャッター制御部２３２は、ステップＳ２１３において、所定の形状であるか否かを判断する。例えば、ユーザは、シャッターが切れるときの所定の手の形状（ここではピースサインの形状とする）を登録しておく。ピースサインの形状が登録されたという情報を、シャッター制御部２３２は保持している。シャッター制御部２１３は、ステップＳ２１３において、情報を参照し、登録された手の形状と、認識装置１３からの認識結果が示す手の形状が一致するか否かを判断する。

なお、例えば、ピースサインの手の形状を検出する識別器だけが、識別器記憶部１２に記憶されている場合（所定の手の形状のみを検出する構造とされている場合）、上記した登録といった処理を省略することが可能である。また、認識装置１３は、認識結果として、所定の手の形状を検出したか否かの認識結果をシャッター制御部２３２に供給する。そして、シャッター制御部２３２は、供給された認識結果が、所定の手の形状を検出したという認識結果であるか否かを判断することで、ステップＳ２１３の処理が実行される。

ステップＳ２１３において、シャッター制御部２３２が、撮影されている画像に含まれる手の形状は、所定の形状ではないと判断した場合、ステップＳ２１１に処理が戻され、それ以降の処理が繰り返される。すなわち、画像取得部２３１で撮影されている画像に手の画像が含まれ、その手の形状が、所定の形状であると判断されるまで、画像取得部２３１により画像の取得が継続される。画像取得部２３１により画像の取得が継続されるとは、上記したように、シャッターが切られない状態であり、画像記憶部２３３に画像が記憶されない状態であるが、画像取得部２３１の撮像素子から、撮像された画像データが出力されている状態である。

一方、ステップＳ２１３において、シャッター制御部２３２が、撮影されている画像に含まれる手の形状は、所定の形状であると判断した場合、ステップＳ２１４に処理が進められる。ステップＳ２１４において、シャッター制御部２３２は、画像取得部２３１に、シャッターをきり、画像を取得し、その取得した画像を画像記憶部２３３に供給するように指示を出す。この指示に基づき、画像取得部２３１は、電子シャッターなどを制御し、シャッターをきり、画像を撮影する。撮影された画像は、ステップＳ２１５において、画像取得部２３１から画像記憶部２３３に供給され、記憶される。

このようにシャッターが切られるタイミングが制御されることで、被写体が、例えば、ピースサインなどの所定の手の形状をしたときだけ、その被写体の画像が撮影され、記憶されるようにすることが可能となる。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図２２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、キーボード、マウス、マイクロホンなどよりなる入力部５０６、ディスプレイ、スピーカなどよりなる出力部５０７、ハードディスクや不揮発性のメモリなどよりなる記録部５０８、ネットワークインターフェースなどよりなる通信部５０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア５１１を駆動するドライブ５１０が接続されている。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５およびバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア５１１に記録して、或いは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、予めインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、或いは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１学習装置，１２識別器記録部，１３認識装置，２０ピラミッド画像生成部，２１服装特徴点抽出部，２２服装特徴量計算部，２３服装識別器生成部，２４輪郭特徴点抽出部，２５輪郭特徴量計算部，２６輪郭識別器生成部，２７統合識別器生成部，３０ピラミッド画像生成部，３１服装特徴点抽出部，３２服装特徴量計算部，３３輪郭特徴点抽出部，３４輪郭特徴量計算部，３５識別計算部

Claims

入力された画像から異なるスケール係数の画像を生成する生成手段と、
前記生成手段により生成された画像毎に、特徴点を抽出する抽出手段と、
前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算する計算手段と、
前記特徴量を用いた統計学習により、前記画像から所定の対象物体を検出するための識別器を生成する識別器生成手段と
を備える学習装置。
前記所定のフィルタは、所定のガウス幅の微分関数である
請求項１に記載の学習装置。
前記計算手段は、任意の角度におけるガウス関数の所定の次数の微分関数における畳み込み演算を実行し、その演算結果の絶対値の総和を計算する
請求項１に記載の学習装置。
前記計算手段は、任意の角度におけるガウス関数の所定の次数の微分関数における畳み込み演算を実行し、その演算結果の絶対値の最大値を計算する
請求項１に記載の学習装置。
前記識別器を用いた前記所定の対象物体の識別時に用いられる画像のスケール係数と、前記生成手段におけるスケール係数は同一の係数とされる
請求項１に記載の学習装置。
前記入力された画像は、所定の形状の手の画像を含む画像、または、手の画像を含まない画像であり、
前記識別器は、所定の形状の手を検出するための識別器である
請求項１に記載の学習装置。
入力された画像から異なるスケール係数の画像を生成し、
生成された画像毎に、特徴点を抽出し、
前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算し、
前記特徴量を用いた統計学習により、前記画像から所定の対象物体を検出するための識別器を生成する
ステップを含む学習方法。
入力された画像から異なるスケール係数の画像を生成し、
生成された画像毎に、特徴点を抽出し、
前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算し、
前記特徴量を用いた統計学習により、前記画像から所定の対象物体を検出するための識別器を生成する
ステップを含む処理を実行するコンピュータが読み取り可能なプログラム。
入力された画像から異なるスケール係数の画像を生成する生成手段と、
前記生成手段により生成された画像毎に、特徴点を抽出する抽出手段と、
前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算する計算手段と、
統計学習により得られた、画像から所定の対象物体を検出するための識別器に、前記特徴量を代入し、前記入力された画像から、前記対象物体を検出する検出手段と
を備える認識装置。
前記所定のフィルタは、所定のガウス幅の微分関数である
請求項９に記載の認識装置。
前記計算手段は、任意の角度におけるガウス関数の所定の次数の微分関数における畳み込み演算を実行し、その演算結果の絶対値の総和を計算する
請求項９に記載の認識装置。
前記計算手段は、任意の角度におけるガウス関数の所定の次数の微分関数における畳み込み演算を実行し、その演算結果の絶対値の最大値を計算する
請求項９に記載の認識装置。
前記識別器は、所定の形状の手を検出するための識別器であり、
前記検出手段により、前記所定の形状の手が検出されたとき、前記入力された画像を記憶する
請求項９に記載の認識装置。
入力された画像から異なるスケール係数の画像を生成し、
生成された画像毎に、特徴点を抽出し、
前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算し、
統計学習により得られた、画像から所定の対象物体を検出するための識別器に、前記特徴量を代入し、前記入力された画像から、前記対象物体を検出する
ステップを含む認識方法。
入力された画像から異なるスケール係数の画像を生成し、
生成された画像毎に、特徴点を抽出し、
前記特徴点に所定のフィルタを用いたフィルタ処理を施すことで、前記特徴点の特徴量を計算し、
統計学習により得られた、画像から所定の対象物体を検出するための識別器に、前記特徴量を代入し、前記入力された画像から、前記対象物体を検出する
ステップを含む処理をコンピュータに実行させるプログラム。
請求項８または請求項１５に記載のプログラムを記録している
記録媒体。