JP3659914B2

JP3659914B2 - 物体認識装置、物体を認識する方法、プログラムおよび記録媒体

Info

Publication number: JP3659914B2
Application number: JP2001333151A
Authority: JP
Inventors: 太郎今川; 強司目片
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2000-10-31
Filing date: 2001-10-30
Publication date: 2005-06-15
Anticipated expiration: 2021-10-30
Also published as: JP2002203240A

Description

【０００１】
【発明の属する技術分野】
本発明は、特定のカテゴリに属する物体を認識する装置および方法に関し、より詳細には、異なる属性を用いて物体を表現する複数の画像を用いて物体を認識する装置および方法に関する。
【０００２】
【従来の技術】
異なる属性を用いて対象物を表現した複数の画像を用いて対象物の認識を行う従来技術として、特開平８−２８７２１６号公報「顔面内部位認識方法」に開示される技術が知られている。この従来技術では、遠赤外光（波長８〜１０μｍの光）画像と可視光画像（異なる属性を用いて対象物を表現した複数の画像）とから、顔面内の部位（例えば、口）が認識される。遠赤外線画像は、対象物から放射される遠赤外光の強度を表現する。対象物から放射される遠赤外光の強度は、対象物の温度と対応付けることができるので、遠赤外光画像から特定の温度（例えば、人間の皮膚の通常の温度である約３６℃）の領域を抽出することができる。
【０００３】
温度画像を用いただけでは、対象物の周囲に人間と同じ温度の物体(室内の電機製品など)が存在する場合に、正確に人間を検出することが困難になるので、可視光の画像における肌色の領域を参照して信頼性の高い検出を実現していた。
【０００４】
【発明が解決しようとする課題】
上記公報に記載の従来技術では、認識対象となる部位の位置を特定するために、遠赤外線画像から抽出された皮膚温度領域と、可視光画像から抽出された肌色の領域とが対応付けられる。このような対応付けを行うためには、▲１▼遠赤外線画像からの皮膚温度領域（約３６℃の温度の領域）の抽出と、可視光画像からの肌色の領域の抽出とを正確に行う必要があり、▲２▼遠赤外線画像における画素と可視光画像における画素との対応付けを予め行う必要がある。
【０００５】
遠赤外線画像における画素と可視光画像における画素との対応付けを予め行うためには、可視光カメラと遠赤外光カメラの光軸を正確に合わせることが必要であり、撮像システムの構築や物体認識のための初期設定が複雑になるという課題がある。
【０００６】
遠赤外線画像から皮膚温度領域を正確に抽出するためには、時間経過とともに変化する遠赤外線カメラの光学系や回路、素子等の温度の影響をキャンセルするためのキャリブレーションを頻繁に行う必要がある。あるいは、これらの光学系や回路、素子等の温度の影響をなくすために、遠赤外線カメラの全体を一定の温度に保つ（例えば、冷却する）ことが必要になる。その結果、遠赤外線カメラを含む認識システムの初期設定および保守が複雑であり、コスト高になるという課題がある。
【０００７】
また、皮膚温度は日射や気温の影響によって大きく変化する。特に屋外においては日射や気温等の条件の変化に応じて、皮膚温度は標準的な３６℃付近の温度からかけ離れやすく、１日のうち、時間的にも大きく変化する。このように、皮膚温度が変化すると、遠赤外線画像から皮膚温度領域を正確に抽出することは困難になる。様々に変化する環境条件下で皮膚温度領域を正確に抽出するためには、その個々の条件に応じた抽出アルゴリズムを用意しなければならず、認識システムの初期設定が容易でないという課題がある。
【０００８】
可視光画像においても、屋外のように日射や車のヘッドライト等の人工照明の影響を受けやすい環境下では、カメラのダイナミックレンジの制限や光源のスペクトル分布が不確定であることに起因して、対象物の色を常に正確に検出することは困難になる。様々に変化する環境条件下で肌色領域を正確に抽出するためには、その個々の条件に応じた抽出アルゴリズムを用意しなければならず、認識システムの初期設定が容易でないという課題がある。
【０００９】
さらに、遠赤外線画像からの皮膚温度領域の抽出と、可視光画像からの肌色の領域の抽出とは、いずれも、個々の対象物の属性に特化した処理である。このような処理は、認識の対象が変わった場合にはうまく動作しない。例えば、この従来技術を動物の認識に適用するためには、領域抽出のアルゴリズムを変更しなければならない。個々の認識対象ごとに抽出アルゴリズムを用意しなければならないので、認識システムの初期設定が容易でない。
【００１０】
このように、従来技術によれば、遠赤外線画像の領域と可視光画像の領域とを対応付ける処理が必要であることに起因して、対象物の認識を行うための初期設定が容易でなく、環境条件の影響を受けやすいという課題がある。
【００１１】
本発明は、このような課題に鑑みてなされたものであり、認識の信頼度が高く、かつ、初期設定が容易で環境条件の影響を受けにくい物体認識装置、物体を認識する方法、プログラムおよび記録媒体を提供することを目的とする。
【００１２】
【課題を解決するための手段】
本発明の物体認識装置は、第１の対象物の可視光画像の画像データである第１の画像データと、前記第１の対象物の遠赤外光画像の画像データである第２の画像データとを含む第１の画像データ組を入力する入力部と、該入力部が前記第１の画像データ組を入力して、入力された前記第１の画像データ組の前記第１の画像データと前記第２の画像データにおける予め定められた少なくとも１つの位置に、方位選択性、位置選択性、空間周波数特性の少なくとも１つの選択性を有する少なくとも１つの画像フィルタをそれぞれ適用することによって前記第１の画像データおよび前記第２の画像データからそれぞれ得られる少なくとも１つのフィルタ出力値を成分として有する、特徴量空間における第１の特徴量ベクトルを求める特徴量ベクトル算出部と、前記第１の特徴量ベクトルと所定の識別パラメータとの関係に基づいて、前記第１の対象物が特定のカテゴリに属するか否かを判定する判定部とを備えており、これにより、上記目的が達成される。
【００１３】
前記第１の画像データは、前記第１の対象物から放射または反射される可視光線の光の強度によって前記第１の対象物を表現し、前記第２の画像データは、前記第１の対象物から放射または反射される遠赤外線の光の強度よって前記第１の対象物を表現してもよい。
【００１４】
前記入力部は、それぞれが複数の画像データからなる第２の画像データ組および第３の画像データ組をさらに前記特徴量ベクトル算出部に入力し、前記第２の画像データ組および第３の画像データ組のそれぞれは、前記特定のカテゴリに属する第２の対象物の可視光画像の画像データである第３の画像データと、前記第２の対象物の遠赤外光画像の画像データである第４の画像データとを含み、前記特徴量ベクトル算出部は、前記入力された第２の画像データ組および第３の画像データ組のそれぞれについて、前記第３の画像データおよび第４の画像データにおける予め定められた少なくとも１つの位置に、前記画像フィルタと同じ選択性を有する少なくとも１つの画像フィルタを適用することによって前記第３の画像データおよび前記第４の画像データからそれぞれ得られる少なくとも１つのフィルタ出力値を成分として有する、前記特徴量空間における特徴量ベクトルをさらに求め、前記第２の画像データ組についての前記特徴量空間における少なくとも１つの特徴量ベクトルと、前記第３の画像データ組についての前記特徴量空間における少なくとも１つの特徴量ベクトルとを識別するように、前記識別パラメータを求める学習部をさらに備えていてもよい。
【００１５】
前記第１の対象物は人間であってもよい。
【００１６】
前記学習部は、前記特徴量空間よりも多い次元数を有する仮の特徴量空間において、前記第２の画像データ組についての特徴量ベクトルと、前記第３の画像データ組についての特徴量ベクトルとを識別するための平面の法線の向きに基づいて前記仮の特徴量空間から少なくとも１つの次元を削除することによって、前記特徴量空間を定義してもよい。
【００１７】
前記識別パラメータは、前記特徴量空間における識別面を表し、前記判定部は、前記第１の特徴量ベクトルが、前記識別面に対してどちらの側に位置するかに基づいて、前記第１の対象物が前記特定のカテゴリに属するか否かを判定してもよい。
【００１８】
前記判定部は、前記第１の特徴量ベクトルと、前記識別面との距離が所定の閾値以上である場合に、前記第１の対象物が前記特定のカテゴリに属すると判定してもよい。
【００１９】
前記入力部は、前記第１の対象物の可視光画像の画像データである第５の画像データと、前記第１の対象物対象物の遠赤外光画像の画像データである第６の画像データとをさらに前記特徴量ベクトル算出部に入力するようになっており、前記第５の画像データおよび前記第６の画像データは、前記第１の画像データと前記第２の画像データとが撮影された第１の時刻から所定の時間の後に撮影されたものであってもよい。
【００２０】
前記第１の画像データが第１の場所から撮影され、前記第２の画像データが前記第１の場所とは異なる第２の場所から撮影されたものであってもよい。
【００２１】
前記入力部は、前記第１の対象物の可視光画像の画像データである第５の画像データと、前記第１の対象物の遠赤外光画像の画像データである第６の画像データとをさらに前記特徴量ベクトル算出部に入力するようになっており、前記第５の画像データおよび前記第６の画像データは、前記第１の画像データと前記第２の画像データとが撮影される第１の場所とは異なる第２の場所から撮影されたものであってもよい。
【００２２】
本発明の物体を認識する方法は、（ａ）第１の対象物物の可視光画像の画像データである第１の画像データと、前記第１の対象物の遠赤外光画像の画像データである第２の画像データとを含む第１の画像データ組を入力するステップと、（ｂ）入力された前記第１の画像データと前記第２の画像データのそれぞれの予め定められた少なくとも１つの位置に、方位選択性、位置選択性、空間周波数特性の少なくとも１つの選択性を有する少なくとも１つの画像フィルタをそれぞれ適用することによって前記第１の画像データおよび前記第２の画像データからそれぞれ得られる少なくとも１つのフィルタ出力値を成分として有する、特徴量空間における第１の特徴量ベクトルを求めるステップと、（ｃ）前記第１の特徴量ベクトルと所定の識別パラメータとの関係に基づいて、前記第１の対象物が前記特定のカテゴリに属するか否かを判定するステップとを包含し、これにより、上記目的が達成される。
【００２３】
本発明のプログラムは、コンピュータに物体認識処理を実行させるためのプログラムであって、前記物体認識処理は、（ａ）第１の対象物物の可視光画像の画像データである第１の画像データと、前記第１の対象物の遠赤外光画像の画像データである第２の画像データとを含む第１の画像データ組を入力するステップと、（ｂ）入力された前記第１の画像データと前記第２の画像データのそれぞれの予め定められた少なくとも１つの位置に、方位選択性、位置選択性、空間周波数特性の少なくとも１つの選択性を有する少なくとも１つの画像フィルタをそれぞれ適用することによって前記第１の画像データおよび前記第２の画像データからそれぞれ得られる少なくとも１つのフィルタ出力値を成分として有する、特徴量空間における第１の特徴量ベクトルを求めるステップと、（ｃ）前記第１の特徴量ベクトルと所定の識別パラメータとの関係に基づいて、前記第１の対象物が前記特定のカテゴリに属するか否かを判定するステップとを包含し、これにより、上記目的が達成される。
【００２４】
本発明の記録媒体は、コンピュータに物体認識処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記物体認識処理は、（ａ）第１の対象物物の可視光画像の画像データである第１の画像データと、前記第１の対象物の遠赤外光画像の画像データである第２の画像データとを含む第１の画像データ組を入力するステップと、（ｂ）入力された前記第１の画像データと前記第２の画像データのそれぞれの予め定められた少なくとも１つの位置に、方位選択性、位置選択性、空間周波数特性の少なくとも１つの選択性を有する少なくとも１つの画像フィルタをそれぞれ適用することによって前記第１の画像データおよび前記第２の画像データからそれぞれ得られる少なくとも１つのフィルタ出力値を成分として有する、特徴量空間における第１の特徴量ベクトルを求めるステップと、（ｃ）前記第１の特徴量ベクトルと所定の識別パラメータとの関係に基づいて、前記第１の対象物が前記特定のカテゴリに属するか否かを判定するステップとを包含し、これにより、上記目的が達成される。
【００２５】
以下、作用を説明する。
【００２６】
本発明によれば、認識のために入力される画像組（第１の画像組）は、対象物（第１の対象物）を第１の属性を用いて表現する第１の画像と、その対象物を第１の属性とは異なる第２の属性を用いて表現する第２の画像とを含む。対象物が特定のカテゴリに属するか否かの判定は、第１の属性と第２の属性とに基づいて行われるので、対象物の認識の信頼度が高くなる。さらに、その所定の数の画像の予め定められた位置に予め定められた画像フィルタを適用することによって得られるフィルタ出力値を成分として有する特徴量空間内の特徴量ベクトルが求められ、画像組は、この特徴量ベクトルによって表される。この処理には、第１の画像の領域と第２の画像の領域とを対応付ける処理は必要でないので、対象物の認識を行うための初期設定が容易であり、認識結果は、環境条件の影響を受けにくい。
【００２７】
【発明の実施の形態】
はじめに、図１〜図５を参照して、本発明の原理を説明する。
【００２８】
図１は、本発明の物体認識方法の全体の処理手順を示す。本発明の物体認識方法は、学習処理１００１（ステップＳ１００１ａ〜Ｓ１００１ｃ）と、認識処理１００２（ステップＳ１００２ａ〜Ｓ１００２ｃ）とを含む。以下、本発明の物体認識方法が人間を認識するために適用される場合を例に挙げて本発明の物体認識方法の手順を説明する。図１に示される物体認識方法は、図６を参照して後述する物体認識装置１によって実行される。
【００２９】
ステップＳ１００１ａ：学習用の画像組が物体認識装置１に入力される。以下の説明において、画像組とは、特に断らない限り、同一の対象物の可視光画像と遠赤外光画像との２枚の画像からなる組をいう。学習用の画像組は、人間（「人間」というカテゴリに属する第２の対象物）を表現する少なくとも１つの画像組（第２の画像組）と、その第２の画像組以外の少なくとも１つの画像組（人間以外の対象物を表現する画像組、第３の画像組）とを含む。ステップＳ１００１ａにおいて、複数の学習用の画像組が入力される。
【００３０】
ステップＳ１００１ｂ：ステップＳ１００１ａで入力された複数の学習用の画像組のそれぞれについて、特徴量ベクトルが求められる。１つの画像組からの特徴量ベクトルの算出は、図２Ａおよび図２Ｂを参照して後述される。この特徴量ベクトルは、特徴量空間における１つの点とみなすことができる。
【００３１】
ステップＳ１００１ｃ：少なくとも１つの第２の画像組についての特徴量ベクトルと、少なくとも１つの第３の画像組についての特徴量ベクトルとを識別（分離）するように、特徴量空間における識別面が求められる。識別面の算出は、図４を参照して後述される。
【００３２】
ステップＳ１００２ａ：認識用の画像組（第１の画像組）が物体認識装置１に入力される。
【００３３】
ステップＳ１００２ｂ：ステップＳ１００２ａで入力された認識用の画像組のそれぞれについて、特徴量ベクトルが求められる。
【００３４】
ステップＳ１００２ｃ：認識用の画像組の対象物（第１の対象物）が、「人間」という特定のカテゴリに属するか否かが判定される。この判定は、ステップＳ１００１ｃで求められた識別面と、ステップＳ１００２ｂで求められた特徴量ベクトルとの位置関係に基づいてなされる。
【００３５】
学習処理１００１は、学習用の画像組から、識別面（識別パラメータ）を求める処理である。この識別面は、認識処理１００２において、認識用の画像組によって表現される対象物が特定のカテゴリに属するか否かの判定のための判定基準として用いられる。
【００３６】
図２Ａは、ステップＳ１００１ａ（図１）において入力される画像組６１０〜６１３（少なくとも１つの第２の画像組）を示す。画像組６１０〜６１３のそれぞれは、人間の可視光画像と、その同じ人間の遠赤外光画像との２枚の画像を含む。図２Ａに示される例では、画像組６１０は、可視光画像６０１（第３の画像）と、遠赤外光画像６０２（第４の画像）とを含む。なお、可視光画像とは、その画像の対象物から放射または反射される可視光線（波長３８０〜８００ｎｍの波長帯域の光線）の強度を表す画像であり、遠赤外光画像とは、その画像の対象物から放射また反射される遠赤外光線（波長８〜１０μｍの波長帯域の光線）の強度を表す画像である。可視光画像は、対象物から放射または反射される可視光線の強度（輝度）という対象物の属性を用いて対象物を表現し、遠赤外光画像は、対象物から放射または反射される遠赤外光線の強度という対象物の属性を用いて対象物を表現しているということができる。
【００３７】
画像６０１の対象物６２１と、画像６０２の対象物６２２とは、同一の対象物（同一の人物）である。画像組６１１に含まれる可視光画像と遠赤外光画像との対象物も同一の対象物である。しかし、画像組６１０〜画像組６１１の間で、対象物が同一である必要はない。画像組６１０〜画像組６１１の間で、対象物は同一のカテゴリ（この例では、「人間」というカテゴリ）に属してさえいればよい。
【００３８】
図２Ａには、ステップＳ１００１ａ（図１）において入力される第２の画像組が４組示されている（画像組６１０〜６１３）が、ステップＳ１００１ａ（図１）において入力される第２の画像組の数はこれに限定されない。
【００３９】
図２Ｂは、ステップＳ１００１ａ（図１）において入力される画像組６６０〜６６３（少なくとも１つの第３の画像組）を示す。画像組６６０〜６６３のそれぞれは、人間以外の対象物の可視光画像と、その同じ対象物の遠赤外光画像との２枚の画像を含む。図２Ｂに示される例では、画像組６６０は、画像６５１（可視光画像）と、画像６５２（遠赤外光画像）とを含む。画像６５１は、画像６０１（図２Ａ）と同一のサイズを有し、画像６５２は、画像６０２（図２Ａ）と同一のサイズを有しているものとする。
【００４０】
再び図２Ａを参照して、ステップＳ１００１ｂ（図１）において、画像組についての特徴量ベクトルを求める処理を説明する。
【００４１】
画像６０１の２つの位置６３１および６３２のそれぞれに、２種類の画像フィルタ（画像フィルタＡおよび画像フィルタＢ、図示せず）を適用すること仮定する。画像フィルタＡと画像フィルタＢとは、例えば、異なる特性を有する画像フィルタである。画像フィルタの具体例は、図３を参照して後述される。図２Ａにおいて、位置６３１および６３２が矩形で示されている。この矩形は、画像フィルタＡおよび画像フィルタＢのサイズを表している。ここでは、画像フィルタＡおよび画像フィルタＢは等しいサイズを有するものとする。
【００４２】
１つの画像フィルタを画像６０１の１つの位置に適用することによって１つのスカラー値（フィルタ出力値）が生成される。図２Ａに示される例では、画像６０１の２つの位置６３１および６３２のそれぞれに画像フィルタＡおよびＢを適用することによって、４つのフィルタ出力値（１０、３、１１および５）が生成されている。具体的には、位置６３１および位置６３２に画像フィルタＡを適用することによって、フィルタ出力値「１０」および「３」がそれぞれ生成され、位置６３１および位置６３２に画像フィルタＢを適用することによってフィルタ出力値「１１」および「５」がそれぞれ生成される。
【００４３】
同様に、画像６０２の２つの位置６３３および６３４のそれぞれに、上述した画像フィルタＡおよびＢを適用することによって、４つのフィルタ出力値（１、７、１１および４）が生成されている。
【００４４】
画像６０１についての４つのフィルタ出力値（１０、３、１１および５）と、画像６０２についての４つのフィルタ出力値（１、７、１１および４）とを結合することによって、画像組６１０についての特徴量ベクトル（１０，３，１１，５，１，７，１１，４）が算出される。このようにして、フィルタ出力値を用いて可視光画像の情報と遠赤外光画像の情報とが統合される。
【００４５】
図２Ａに示される画像組６１１〜６１３についても同様にして特徴量ベクトルが算出される。特徴量ベクトルは、フィルタ出力値を成分として有する。この特徴量ベクトルは、８次元の特徴量空間における１つの点とみなすことができる。
【００４６】
図２Ｂに示される画像組６６０についても、同様にして特徴量ベクトルが算出される。具体的には、画像６５１の２つの位置６８１および６８２のそれぞれに上述した画像フィルタＡおよび画像フィルタＢを適用することによって、４つのフィルタ出力値（８、９、０および２）が生成される。画像６５２の２つの位置６８３および６８４のそれぞれに上述した画像フィルタＡおよび画像フィルタＢを適用することによって、４つのフィルタ出力値（９、１２、１０および４）が生成される。画像６５１についての４つのフィルタ出力値（８、９、０および２）と、画像６５２についての４つのフィルタ出力値（９、１２、１０および４）とを結合することによって、画像組６６０についての特徴量ベクトル（８，９，０，２，９，１２，１０，４）が算出される。図２Ｂに示される画像組６６１〜６６３についても同様にして特徴量ベクトルが算出される。
【００４７】
適用される画像フィルタと、その画像フィルタが適用される位置とは予め定められている。本発明の１つの実施形態において、適用される画像フィルタと、その画像フィルタが適用される位置とは、図１２を参照して後述する特徴量次元の削除処理を通じて決定される。図２Ａおよび図２Ｂに示される例では、画像組６１０（図２Ａ）に適用される画像フィルタＡおよびＢと同一の画像フィルタが、画像組６６０（図２Ｂ）にも適用される。位置６３１および６３２の画像６０１に対する位置関係は、それぞれ、位置６８１および６８２の画像６５１に対する位置関係に等しい。なお、１つの画像中の画像フィルタが適用される位置の数は、２に限定されない。また、１つの画像中の１つの位置に適用される画像フィルタの数も、２に限定されない。
【００４８】
このように、ステップ１００１ｂ（図１）において、複数の画像組（図２Ａに示される画像組６１０〜６１３および図２Ｂに示される画像組６６０〜６６３）のそれぞれについて、２枚の画像のうち予め定められた少なくとも１つの位置に予め定められた少なくとも１つの画像フィルタを適用することによって得られる少なくとも１つのフィルタ出力値を成分とする、特徴量空間における特徴量ベクトルが求められる。
【００４９】
図３は、画像３５１に画像フィルタ３５４を適用する例を示す。図３に示される例では、画像３５１の位置３５３に、画像フィルタ３５４が適用される。図３には、画像３５１の部分３５２の拡大図が示されている。この拡大図において、部分３５２の輪郭を表す矩形の内部の値は、画像３５１に含まれる画素の値を示す。
【００５０】
図３に示される例では、画像フィルタ３５４は、３×３のサイズを有している。画像フィルタ３５４を表す矩形の内部の値は、９個のフィルタ係数を示す。画像３５１の位置３５３に画像フィルタ３５４を適用することによって得られるフィルタ出力値は、画像フィルタ３５４のフィルタ係数と、そのフィルタ係数に対応する画素の値との積を画像フィルタ３５４の９個のフィルタ係数について合計した値である。この例では、フィルタ出力値は、７６５である。フィルタ出力値を求める演算をフィルタ演算という。フィルタ演算により、画像の局所的な特性情報がフィルタ出力値として抽出される。
【００５１】
図４は、ステップ１００１ｂ（図１）において各画像組について求められた特徴量ベクトルを特徴量空間７０１にプロットした状態を示す。ただし、図４に示される例では、説明のために、特徴量空間７０１は２次元の空間（すなわち、平面）として表されている。特徴量空間７０１は、２個の次元、すなわち、特徴量次元１と特徴量次元２とによって定義されている。特徴量ベクトルは、特徴量空間７０１における１つの点として表される。図４において、○印のそれぞれは、人間を表現する画像組（第２の画像組）についての特徴量ベクトルを表し、×印のそれぞれは、人間以外の対象物を表現する画像組（第３の画像組）についての特徴量ベクトルを表す。以下、人間を表現する画像組についての特徴量ベクトルを単に、「人間を表現する特徴量ベクトル」と呼び、人間以外の対象物を表現する画像組についての特徴量ベクトルを単に、「人間以外の対象物を表現する特徴量ベクトル」と呼ぶことがある。
【００５２】
識別直線７０２（識別平面）は、ステップ１００１ｃ（図１）において、○印によって表される特徴量ベクトルと、×印によって表される特徴量ベクトルとを識別するように定められる。図４に示される例では、○印によって表される特徴量ベクトルはすべて識別直線７０２の上側（矢印７０３の側、第１の側）にあり、×印によって表される特徴量ベクトルはすべて識別直線７０２の下側（矢印７０４の側、第２の側）にある。識別直線７０２は、例えば、サポートベクトルマシンの手法を用いて定められ得る。サポートベクトルマシンの手法については、例えば、文献：Ｖ．Ｖａｐｎｉｃ、”ＴｈｅＮａｔｕｒｅｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ”、ＳｐｒｉｎｇｅｒＶｅｒｌａｇ、１９９５年を参照されたい。識別直線７０２は、あるいは、線形パーセプトロンの学習または判別分析法等の手法を用いて定められてもよい。学習アルゴリズムには、統計的パラメータ推定法およびニューラルネットワーク等のノンパラメトリックな学習アルゴリズムが採用され得る。
【００５３】
図４に示される例では、２次元の特徴量空間７０１において、識別直線７０２が、人間を表現する画像組（第２の画像組）についての特徴量ベクトルと、人間以外の対象物を表現する画像組（第３の画像組）についての特徴量ベクトルとを識別（分離）している。人間を表現する画像組（第２の画像組）についての特徴量ベクトルと、人間以外の対象物を表現する画像組（第３の画像組）についての特徴量ベクトルとが、ｎ次元（ｎ≧２）の特徴量空間において表される場合には、それらの特徴量ベクトルは、識別平面によって識別される。ｎ次元の特徴量空間が、次元ｘ₁、次元ｘ₂、．．．、および次元ｘ_nによって定義される場合には、その識別平面は、（数１）によって表される。
【００５４】
【数１】
ａ₁ｘ₁＋ａ₂ｘ₂＋．．．＋ａ_nｘ_n＋ｄ＝０
以下、本明細書中で「平面」とは、ｎ次元（ｎ≧２）の特徴量空間において（数１）の関係を満たす点（ｘ₁，ｘ₂，．．．，ｘ_n）の集合をいう。ｎ＝２の場合には、（数１）は直線を表すが、この直線は上記の「平面」の定義に含まれる。
【００５５】
図５は、ステップ１００２ａ（図１）において入力される認識用の画像組（第１の画像組）５１０の例を示す。画像組５１０は、対象物５２１を表現する可視光画像５０１と、対象物５２２を表現する遠赤外光画像５０２とを含む。対象物５２１と、対象物５２２とは、同一の対象物（第１の対象物）である。
【００５６】
ステップＳ１００２ｂ（図１）において、画像組５１０についての特徴量空間における特徴量ベクトル（第１の特徴量ベクトル）が算出される。図５に示される例では、画像組５１０についての特徴量ベクトルは、（９，４，１２，６，１，６，１４，３）として算出されている。この特徴量ベクトルの算出は、図２Ａを参照して上述した画像組６１０についての特徴量ベクトルの算出と同様にして行われる。すなわち、ステップＳ１００２ｂにおいて、画像組５１０について、２個の画像（画像５０１および５０２）のうち、予め定められた少なくとも１つの位置に予め定められた少なくとも１つの画像フィルタ（画像フィルタＡおよびＢ）を適用することによって得られる少なくとも１つのフィルタ出力値を成分として有する、特徴量空間における特徴量ベクトル（第１の特徴量ベクトル）が求められる。
【００５７】
図４に示される●印は、特徴量空間７０１にプロットされた第１の特徴量ベクトルを示す。ただし、図４には、説明のために、第１の特徴量ベクトルを８次元の特徴量ベクトルとしてではなく、２次元の特徴量ベクトル（２，１０）として表している。
【００５８】
ステップＳ１００２ｃ（図１）では、●印により示される第１の特徴量ベクトルと、識別直線７０２との特徴量空間７０１における位置関係に基づいて、画像組５１０（図５）が表現する対象物が人間であるか否かが判定される。図４に示される例では、●印により示される特徴量ベクトルは、識別直線７０２の上側（矢印７０３の側）にある。識別直線７０２の矢印７０３の側は、人間を表現する画像組についての特徴量ベクトルが位置する側であるので、画像組５１０（図５）が表現する対象物が人間であると判定される。
【００５９】
このようにして、図１に示される本発明の方法によれば、画像組５１０（図５）が表現する第１の対象物（画像組５１０の可視光画像５０１と遠赤外光画像５０２との共通の対象物）が人間であることが認識される。第１の対象物が「人間」というカテゴリに属するか否かの判定は、対象物が反射または放射する可視光線の強度（第１の属性）と、その対象物が反射または放射する遠赤外光線の強度（第２の属性）とに基づいて行われるので、対象物の認識の信頼度が高くなる。さらに、その画像５０１および画像５０２の予め定められた位置に予め定められた画像フィルタを適用することによって得られるフィルタ出力値を成分として有する特徴量空間内の特徴量ベクトルが求められ、画像組５１０は、この特徴量ベクトルによって代表される。この処理には、画像５０１の領域と第２の画像５０２の領域とを対応付ける処理は必要でないので、第１の対象物の認識を行うための初期設定が容易になり、かつ、認識の結果が環境条件の影響を受けにくくなる。
【００６０】
以下、図面を参照して本発明の実施の形態を説明する。同一の構成要素には同一の参照番号を付し、重複した記載を省略する場合がある。
【００６１】
図６は、本発明の実施の形態の物体認識装置１の構成を示す。
【００６２】
物体認識装置１は、遠赤外光カメラ１００と、可視光カメラ１１０と、学習用画像データ（学習用の画像組）を格納する記憶装置１２０と、画像に画像フィルタを作用させるフィルタ処理部１２５と、学習処理部１３０と、遠赤外光カメラ１００および可視光カメラ１１０によって取得された画像組が表す対象物が特定のカテゴリに属するか否か（例えば、その対象物が人間か否か）を判定する認識処理部１４０と、その判定の際に判定基準として用いられる識別パラメータを記憶する識別パラメータ記憶部１５０と、ワークメモリ１６０と、認識結果を表示する表示部１７０とを含む。物体認識装置１の各構成要素は、内部バスを介して相互に接続されてもよいし、ネットワークを介して相互に接続されてもよい。そのようなネットワークは、無線ネットワーク、有線ネットワーク、電話回線ネットワーク等の任意のネットワークを含み得る。そのようなネットワークは、インターネットを含んでもよい。
【００６３】
遠赤外光カメラ１００は、遠赤外光画像を撮影し、可視光カメラ１１０は、可視光画像を撮影する。本発明の実施の形態では、可視光画像として、輝度画像が用いられた。
【００６４】
物体認識装置１は、例えば、屋外における侵入者の監視システムや、自動車等の移動体に搭載される歩行者の検出システムや、移動ロボットに搭載される視覚システムに適用され得る。
【００６５】
上述したように、物体認識装置１は、全体として、図１に示される学習処理および認識処理を行う。
【００６６】
可視光カメラ１１０と、遠赤外光カメラ１００とは、ステップＳ１００１ａ（図１）における学習用の画像組の入力処理と、ステップＳ１００２ａ（図１）における、認識用の画像組（第１の画像組）の入力処理とを行う。可視光カメラ１１０と、遠赤外光カメラ１００とは、学習用の画像組と認識用の画像組とを物体認識装置１に入力する入力部１９０として機能する。もちろん、学習用の画像組を物体認識装置に入力する可視光カメラおよび遠赤外光カメラと、認識用の画像組を物体認識装置に入力する可視光カメラおよび遠赤外光カメラとがそれぞれ別に設けられていてもよい。
【００６７】
学習用の画像組は、人間の対象物を表現する画像組（第２の画像組）と、人間以外の対象物を表現する画像組（第３の画像組）とに区分されて、学習用画像データとしていったん記憶装置１２０に蓄積される。記憶装置１２０は、例えば、ハードディスクであり得る。あるいは、記憶装置１２０は、任意のメモリであり得る。
【００６８】
フィルタ処理部１２５は、ステップＳ１００１ｂ（図１）およびステップＳ１００２ｂ（図１）における特徴ベクトルの算出を行う。フィルタ処理部１２５（特徴量ベクトル算出部）は、例えば、デジタルシグナルプロセッサであり得る。
【００６９】
学習処理部１３０（学習部）は、ステップＳ１００１ｃ（図１）における、識別面を求める処理を行う。
【００７０】
認識処理部１４０（判定部）は、ステップＳ１００２ｃ（図１）における、認識用の画像組の対象物が特定のカテゴリ「人間」に属するか否かを判定する処理を行う。
【００７１】
表示部１７０は、認識処理部１４０における認識の結果を表示する。表示部１７０としては、任意の表示デバイスが用いられ得る。表示部１７０は、省略されてもよい。
【００７２】
図７Ａは、遠赤外光カメラ１００と可視光カメラ１１０との配置の例を示す。図７Ａに示される例では、遠赤外光カメラ１００と、可視光カメラ１１０とが並列に配置されている。
【００７３】
図７Ｂは、遠赤外光カメラ１００と可視光カメラ１１０との配置の他の例を示す。図７Ｂに示される例では、コールドミラー８０２で反射した可視光カメラ１１０の光軸が遠赤外光カメラ１００の光軸にそろうように、遠赤外光カメラ１００と可視光カメラ１１０とが配置されている。コールドミラーとは、可視光を反射し、遠赤外光を透過する性質を有するミラーである。
【００７４】
遠赤外光カメラ１００の機能と可視光カメラ１１０の機能とが１つのカメラによって実現されてもよい。
【００７５】
図７Ｃは、遠赤外光カメラ１００と可視光カメラ１１０とに代えて、その両方の機能を併せ持つ可視光・遠赤外光カメラ２１０が用いられる例を示す。可視光・遠赤外光カメラ２１０は、エリアセンサを用いて遠赤外光カメラの機能と可視光カメラの機能とを実現している。
【００７６】
図８Ａは、可視光カメラ１１０によって撮影された、人間の対象物を表現する可視光画像８０３の例を示す。
【００７７】
図８Ｂは、遠赤外光カメラ１００によって撮影された、人間の対象物を表現する遠赤外光画像８０４の例を示す。遠赤外光画像８０４は、図８Ａに示される可視光画像８０３と同一の対象物をほぼ同一の時刻に撮影することによって得られる。
【００７８】
図９Ａは、可視光カメラ１１０によって撮影された、人間以外の対象物（木）を表現する可視光画像８０５の例を示す。
【００７９】
図９Ｂは、遠赤外光カメラ１００によって撮影された、人間以外の対象物（木）を表現する遠赤外光画像８０６の例を示す。遠赤外光画像８０６は、図９Ａに示される可視光画像８０５と同一の対象物をほぼ同一の時刻に撮影することによって得られる。
【００８０】
図８Ａ、図８Ｂ、図９Ａおよび図９Ｂに示される可視光画像および遠赤外光画像は、画像組（学習用の画像組または認識用の画像組）を構成する。可視光画像および遠赤外光画像に同一の対象物が写ることが必要であるが、可視光画像と遠赤外光画像との間で画素単位で正確に位置合わせが行われている必要はない。例えば、可視光画像８０３（図８Ａ）において、対象物は画像の中心から左方向にずれており、遠赤外光画像８０４（図８Ｂ）において、対象物は画像の中心から右方向にずれているが、本発明の学習処理および認識処理において可視光画像８０３の領域と遠赤外光画像８０４の領域とを対応付ける処理は必要でないので、このようなずれは問題にならない。従って、遠赤外光カメラ１００および可視光カメラ１１０の位置合わせが容易であり、物体認識装置１の初期設定が容易である。ただし、学習用の画像組と認識用の画像組とに含まれるすべての可視光画像のスケール比（縦横比）が同じであり、対象物が同様の位置に写っていることが必要である。これは、可視光カメラ１１０により撮影される可視光画像から所定の領域を切り出すことによって実現されてもよい。学習用の画像組と認識用の画像組とに含まれる赤外光画像についても同様である。
【００８１】
図１０Ａは、フィルタ処理部１２５（図６）において用いられる画像フィルタの特性を模式的に示す。図１０Ａに示される画像フィルタは、画像中の特定の位置に適用された場合に、その特定の位置における特定方向（垂直方向）の特定の空間周波数を有するエッジ（図１０Ａに示される楕円形の横幅（短軸）の範囲内で画素の値が順次変化するようなエッジ）を選択的に検出する。
【００８２】
図１０Ｂは、水平方向のエッジを選択的に検出する画像フィルタの特性を模式的に示す。
【００８３】
図１０Ｃは、左下から右上に延びるエッジを選択的に検出する画像フィルタの特性を模式的に示す。
【００８４】
図１０Ｄは、右下から左上に延びるエッジを選択的に検出する画像フィルタの特性を模式的に示す。
【００８５】
図１０Ａ〜図１０Ｄに示される画像フィルタは、方位選択性（特定の方向のエッジのみを検出する）と位置選択性（特定の位置のエッジを検出する）と空間周波数選択性（特定の空間周波数で画素の値が変化するエッジを検出する）とを有するフィルタである。ここで、空間周波数とは、画像中の位置変化に対する画素の値（例えば、輝度）の変化の度合いをいう。このような特性を有する画像フィルタの例として、Ｇａｂｏｒフィルタが挙げられる。方位選択性と位置選択性と空間周波数選択性とを有する画像フィルタを複数種類（選択性が異なる複数の画像フィルタ）用いることによって、異なる画像フィルタが同一のエッジに関する情報を重複して検出するという無駄を低減することができ、必要な画像フィルタの数を減らすことができる。これにより、学習処理１００１および認識処理１００２を実行するために必要な計算量を減らすことができる。その結果、属性が異なる複数の画像（可視光画像と遠赤外光画像）を入力することに起因する計算量の増加を最小限にとどめることができる。
【００８６】
１つのフィルタ出力値は、画像の特定の位置における特定方向の特定の空間周波数を有するエッジの情報を表す。フィルタ出力値を成分とする特徴量ベクトルによって１つの画像組を表すことは、可視光画像と遠赤外光画像との共通の対象物の形状をエッジの集まりとして簡易的に表現することに相当する。
【００８７】
図１１Ａ〜図１１Ｄのそれぞれは、Ｇａｂｏｒフィルタのフィルタ係数の例を示す。図１１Ａ〜図１１Ｄに示される例において、各格子点は、１３画素×１３画素のサイズを有するＧａｂｏｒフィルタの１つのフィルタ係数に対応し、そのフィルタ係数の値（実数部）は、各格子点の高さとして示されている。図１１Ａ〜図１１Ｄは、図１０Ａ〜図１０Ｄに示される画像フィルタにそれぞれ対応する。
【００８８】
以下、物体認識装置１が実行する学習処理と認識処理との詳細な処理手順を説明する。
【００８９】
＜学習処理＞
図１２は、物体認識装置１が実行する学習処理の詳細な手順を示す。ステップＳ９１は、ステップＳ１００１ａおよびステップＳ１００１ｂ（図１）に対応しており、ステップＳ９２〜ステップＳ９７は、ステップＳ１００１ｃ（図１）に対応している。
【００９０】
ステップＳ９１：人間を表現する画像組（第２の画像組）と、人間以外の対象物を表現する画像組（第３の画像組）とをそれぞれ複数用意し、各画像組について特徴量ベクトルを求める。ステップＳ９１において求められた特徴量ベクトルの集合を特徴量データＦと呼ぶ。ステップＳ９１のさらに詳細な処理手順は、図１５および図１６を参照して後述される。以下の説明では、ステップＳ９１において、各画像組から１０３２次元の特徴量ベクトルが算出されることを仮定する（本発明はこれに限定されない）。この特徴量ベクトルは、１０３２個の特徴量次元、特徴量次元ｘ₁、特徴量次元ｘ₂、特徴量次元ｘ₃、．．．、特徴量次元ｘ₁₀₃₂によって定義される空間内の１つの点として表される。
【００９１】
ステップＳ９２：特徴量次元のうち、学習に用いる特徴量次元が指定される。最初は全ての次元を指定する。この例では、１回目は、特徴量次元ｘ₁、特徴量次元ｘ₂、特徴量次元ｘ₃、．．．、特徴量次元ｘ₁₀₃₂の全てが、学習に用いる特徴量次元として指定される。２回目以降は、後述するステップＳ９４で除かれた残りの次元が学習に用いる特徴量次元として指定される。ステップＳ９２〜ステップＳ９６の処理を繰り返すことによって、特徴量空間の次元数が減っていく。これを、「特徴量次元の削除処理」と呼ぶ。
【００９２】
ステップＳ９３：指定された特徴量次元を用いてより低次元の特徴量空間を定義し（ただし、最初は１０３２次元の特徴量空間が定義される）、特徴量データＦに含まれる各特徴量ベクトルが、このより低次元の特徴量空間における特徴量ベクトルとして表される。このより低次元の特徴量空間における特徴量ベクトルは、特徴量データＦに含まれる１０３２次元の特徴量ベクトルの成分のうち、ステップＳ９２で指定された特徴量次元に対応する成分のみから構成される、より低次元の特徴量ベクトルとして表される。特徴量ベクトルの１つの成分は、画像における１つの位置における１つのフィルタ出力値に対応しているので、このより低次元の特徴量ベクトルも、画像組における２つの画像の少なくとも１つの予め定められた位置に予め定められた１つの画像フィルタを適用することによって得られる少なくとも１つのフィルタ出力値を成分として有する。
【００９３】
次に、このより低次元の特徴量空間において、人間を表現する画像組についての特徴量ベクトルと、人間以外の対象物を表現する画像組についての特徴量ベクトルとを識別（分離）する識別平面が、仮識別平面として決定される。
【００９４】
識別平面に対する特徴量ベクトルの位置は、特徴量ベクトルの各特徴量次元に対応する成分を識別平面の各特徴量次元に対応する係数で重み付けして足し合わせた値（重み付け和）により表現できる。例えば、３次元空間における識別平面がｘ＋２ｙ＋３ｚ＝０と表され、特徴量ベクトルが（ｘ，ｙ，ｚ）＝（−１，０，４）の場合を考える。特徴量ベクトル（−１、０、４）の各成分を識別平面の各特徴量次元の係数（１、２、３）で重み付けして足し合わせると、１×（−１）＋２×０＋３×４＝１１という値が得られる。この値は、特徴量ベクトル（−１，０，４）と、識別平面との距離を表す。この値の符号および大小で識別平面に対する特徴量ベクトルの位置関係を表すことができる。
【００９５】
特徴量空間内に２つのカテゴリに属する点が分布する場合に、カテゴリを分けるような識別平面（仮識別平面）を決定する手法としては、上述したように、サポートベクトルマシンの手法等が用いられ得る。
【００９６】
このような手法を用いて、特徴量空間内において人間を表現する画像組についての特徴量ベクトルと、人間以外の対象物を表現する画像組についての特徴量ベクトルとを分離する識別平面が仮識別平面として決定される。分離は必ずしも完全である必要はなく、一部の特徴量ベクトル（例えば、人間を表現する画像組についての特徴量ベクトル）が識別平面を越えて（人間を表現しない画像組についての特徴量ベクトルの側に）分布する配置（誤識別）になっていてもかまわない。ただし、誤識別の特徴量ベクトルの個数は少ない方がよい。誤識別の特徴量ベクトルが少なくなるように識別平面の決定手法が複数の手法のうちから選択されてもよい。
【００９７】
ステップＳ９４：ステップＳ９２で指定された特徴量次元に対応する座標軸のうち、ステップＳ９３で決定した仮識別平面とのなす角度の絶対値が小さい座標軸から順にｄ個の座標軸が、ステップＳ９２で指定した特徴量次元（学習に用いる特徴量次元）から除かれる。ｄの値は予め定められた１以上の整数とする。
【００９８】
例えば、３次元の特徴量空間（座標軸をｘｙｚとする）において、仮識別平面がｘ＋２ｙ＋３ｚ＝０と表される場合、この仮識別平面とｘ、ｙ、ｚ軸のなす角度の絶対値は、ｘ軸、ｙ軸、ｚ軸の順に大きくなる。この場合、ｄ＝１とするとｘ軸に対応する特徴量次元が、学習に用いる特徴量次元から除かれる。各座標軸と識別平面とのなす角度に注目することに代えて、各座標軸と識別平面の法線とのなす角度δに注目し、δの絶対値の大きいものからｄ個の座標軸を除いても同様の結果が得られる。識別平面の法線の向きは、仮識別平面を表す式の係数を成分として有する法線ベクトルによって表される。例えば、仮識別平面ｘ＋２ｙ＋３ｚ＝０の法線の向きは、法線ベクトル（１，２，３）によって表される。
【００９９】
再び図４を参照して、特徴量次元を学習に用いる特徴量次元から除くことの意味を説明する。
【０１００】
図４において、特徴量次元１に対応する軸（横軸）が識別直線（識別平面）７０２となす角度は、特徴量次元２に対応する軸（縦軸）が識別直線（識別平面）７０２となす角度よりも小さい。このことは、特徴量次元１は、人間を表現する画像組についての特徴量ベクトルと人間以外の対象物を表現する画像組についての特徴量ベクトルとを識別（分離）するために、特徴量次元２よりも重要でないことを意味する。すなわち、特徴量次元２の値（フィルタ出力値）が、対象物が人間であるか否かの判定に大きく影響する。図４に示される例では、ステップＳ９４（図１２）において、特徴量次元１と特徴量次元２とのうち、特徴量次元１が削除される。
【０１０１】
１つの特徴量次元の値は、画像組に含まれる１つの可視光画像または遠赤外光画像の１つの位置における１つのフィルタ出力値に対応する。このように、識別直線(または識別平面)を求めることによって、可視光画像から得た複数のフィルタ出力と遠赤外光画像から得た複数のフィルタ出力とのうち、どの特徴量次元(フィルタ出力)が重要であるかを決定することができる。ステップＳ９４（図１２）は、重要でない特徴量次元（識別に寄与しない特徴量次元）を学習に用いる特徴量次元から削除することを意味する。図１２に戻って学習処理の詳細な処理手順の説明を続ける。
【０１０２】
ステップＳ９５：ｄ個の座標軸を減らした特徴量空間を設定し、新たに設定した特徴量空間において識別性能の評価を行う。この評価は、ステップＳ９４でｄ個の座標軸(特徴量次元)を除くことによって新たに定義されたより低次元の特徴量空間において、特徴量データＦに含まれる、人間を表現する特徴量ベクトルと人間以外の対象物を表現する特徴量ベクトルとをどれだけ正確に識別（分離）できるかを調べることによって行われる。ステップＳ９５のさらに詳細な処理手順は、図１７を参照して後述される。
【０１０３】
ステップＳ９６：識別性能が基準値を満たすか否かが判定される。ステップＳ９６の判定の結果が「Ｎｏ」である場合には、処理はステップＳ９７に進む。ステップＳ９６の判定の結果が「Ｙｅｓ」である場合には、処理はステップＳ９２に戻る（さらに特徴量次元の削除が行われる）。
【０１０４】
ステップＳ９７：ステップＳ９３で用いられた特徴量次元が選択次元として指定される。また、ステップＳ９３で求めた仮識別平面が、識別平面として指定される。この識別平面は、後に行われる認識処理において判定基準として使用される。識別平面は、ステップＳ９７で選択次元として指定された特徴量次元によって定義される空間（特徴量空間）における平面である。なお、ステップＳ９６において、初回は無条件にステップＳ９２に移行するようにしてもよい。
【０１０５】
このように、ステップＳ９２〜ステップＳ９６において、学習処理部１３０（図６）は、認識処理において用いられる特徴量空間よりも多い次元数を有する仮の特徴量空間において、人間を表現する画像組（第２の画像組）についての特徴量ベクトルと、人間以外の対象物を表現する画像組（第３の画像組）についての特徴量ベクトルとを識別するための平面（仮識別平面）の法線の向きに基づいて、仮の特徴量空間から少なくとも１つの次元を削除することによって、認識処理において用いられる特徴量空間を定義する。
【０１０６】
ステップＳ９７において、１０３２個の特徴量次元、特徴量次元ｘ₁、特徴量次元ｘ₂、特徴量次元ｘ₃、．．．、特徴量次元ｘ₁₀₃₂のうち、ｍ個（ｍは１０３２以下の整数）の特徴量次元、特徴量次元ｘ_a1、特徴量次元ｘ_a2、特徴量次元ｘ_a3、．．．、特徴量次元ｘ_am（添え字ａ１、ａ２、ａ３、．．．ａｍは、１以上１０３２以下の整数）が選択次元として指定されることを仮定すると、選択次元のリスト（特徴量次元ｘ_a1，特徴量次元ｘ_a2，特徴量次元ｘ_a3，．．．，特徴量次元ｘ_am）は、画像組に含まれる可視光画像と遠赤外光画像とに適用されるどのフィルタ出力が、後に行われる認識処理において用いられるかを示す。すなわち、選択次元のリストは、可視光画像の情報と遠赤外光画像の情報の組み合わせ方を規定しているということができる。
【０１０７】
ステップＳ９７で決定された識別平面は、選択次元のリストと、その選択次元についての係数とにより表される。これらの識別平面を表すパラメータは、識別パラメータ記憶部１５０（図６）に格納される。
【０１０８】
上述した処理手順において、ステップＳ９５を省略し、ステップＳ９６の判断を削除された特徴量次元の数が予め定めた値に達したか否かの判断に置き換えてもよい。すなわち、特徴量次元の削除数が予め定めた数に達した場合にはステップＳ９７に進み、予め定めた回数に達しない場合はステップＳ９２に進むようにしてもよい。このような処理を行うことで、特徴量次元数を予め定めた値に設定することができる。
【０１０９】
なお、ステップＳ９４において用いられる値ｄを大くすると、ステップＳ９２〜ステップＳ９６までの手順の繰り返し回数を少なくすることができ、計算量を低減することができる。一方、ｄの値を小さくすると、一度に多くの特徴量次元を削除することがないので、望ましい識別性能を実現するために必要十分な数の特徴量次元を選択次元として決定することが可能になる。
【０１１０】
なお、後に行われる認識処理において、ステップＳ９７で決定された識別平面とは異なる識別面（平面に限定されない）が、判定基準（識別パラメータ）として用いられてもよい。そのような識別面は、選択次元によって定義される空間内で人間を表す特徴量ベクトルと人間以外の対象物を表す特徴量ベクトルとを識別するように設定される。選択次元によって定義される空間内で人間を表す特徴量ベクトルと人間以外の対象物を表す特徴量ベクトルとを識別する任意の識別手法およびその識別手法において用いられる識別パラメータが、後に行われる認識処理において、対象物が人間であるか否かを判定するために採用され得る。
【０１１１】
後に行われる認識処理において、線形な識別手法が採用されてもよいし、非線形な識別手法が採用されてもよい。線形な識別手法とは、例えば、ステップＳ９７で決定された、識別パラメータによって表される識別平面のどちら側に対象物を表現する特徴量ベクトルがあるかに基づいて、対象物が人間であるか否かを判定する手法である。非線形な識別手法の例としては、ｋ−ＮＮ法、非線型素子を用いたパーセプトロン、ＬＶＱ、非線型ＳＶＭ等が挙げられる。以下、図１３Ａ〜図１３Ｃを参照して、非線型な識別手法の例を説明する。
【０１１２】
図１３Ａは、曲面の識別面を用いた識別手法を説明する図である。空間１３８０は、選択次元によって定義される特徴量空間である。図１３Ａには、空間１３８０は、特徴量次元１と特徴量次元２との２つの選択次元によって定義される平面として示されており、識別面１３６１は、曲線として示されている。図１３Ａおよび後述する図１３Ｂ、図１３Ｃにおいて、○印のそれぞれは、人間を表現する特徴量ベクトルを表し、×印のそれぞれは、人間以外の対象物を表現する特徴量ベクトルを表す。
【０１１３】
識別面１３６１は、特徴量空間１３８０において、人間を表現する特徴量ベクトルと、人間以外の対象物を表現する特徴量ベクトルとを識別する。この例では、人間を表現する特徴量ベクトル（○印）は、識別面１３６１の第１の側（矢印１３６２の側）に位置し、人間以外の対象物表現する特徴量ベクトル（×印）は、識別面１３６１の第２の側（矢印１３６３の側）に位置する。識別面１３６１は、例えば、特徴量次元１と特徴量次元２との値を変数とする式によって表され得る。このような式の係数は、識別パラメータとして識別パラメータ記憶部１５０（図６）に格納される。
【０１１４】
点１３６４は、後に行われる認識処理において入力される画像組（認識用画像組）についての特徴量ベクトルを示す。図１３Ａに示される例では、特徴量ベクトル１３６４は識別面１３６１の第１の側に位置しているので、認識用画像組の対象物は人間であると判定される。
【０１１５】
図１３Ｂは特徴量空間１３８０における距離を用いる識別手法を説明する図である。このような識別手法の例としては、ｋ−ＮＮ法やＬＶＱなどが挙げられる。代表点１３６６は、人間を表現する特徴量ベクトルを代表する点（「人間」というカテゴリを示す代表点）である。代表点１３６６は、例えば、人間を表現するすべての特徴量ベクトルの重心として求められる。同様に、代表点１３６７は、人間以外の対象物を表現する特徴量ベクトルを代表する点（「人間以外」というカテゴリを示す代表点）である。代表点１３６６および代表点１３６７は、特徴量空間においてその点を表す座標によって表される。このような座標は、識別パラメータとして識別パラメータ記憶部１５０（図６）に格納される。
【０１１６】
点１３６５は、後に行われる認識処理において入力される画像組（認識用画像組）についての特徴量ベクトルを示す。この識別手法では、特徴量ベクトルから最も近い代表点の属するカテゴリが、その特徴量ベクトルについての認識結果となる。図１３Ｂに示される例では、特徴量ベクトル１３６５から最も近い代表点（代表点１３６６）の示すカテゴリが「人間」というカテゴリなので、認識用画像組の対象物は人間であると判定される。
【０１１７】
図１３Ｃは、特徴量空間１３８２における特徴量ベクトルの分布を用いた識別手法を説明する図である。このような識別手法の例としては、非線型素子を用いたパーセプトロンなどのニューラルネット等の手法が挙げられる。図１３Ｃにおいて、特徴量空間１３８２は、１つの選択次元（特徴量次元１）によって定義される１次元の空間（すなわち、直線）として示されている。曲線１３６９と曲線１３７０とはそれぞれ、特徴量空間１３８２における人間を表現する特徴量ベクトルの分布の強度（「人間」というカテゴリを示す分布の強度）と、人間以外の対象物を表現する特徴量ベクトルの分布の強度（「人間以外」というカテゴリを示す分布の強度）とを示す。曲線１３６９と曲線１３７０とは、特徴量次元１の値を変数とする式によって表され得る。このような式の係数は、識別パラメータとして識別パラメータ記憶部１５０（図６）に格納される。
【０１１８】
点１３６８は、後に行われる認識処理において入力される画像組（認識用画像組）についての特徴量ベクトルを示す。この識別手法では、特徴量ベクトルの位置において、複数の分布の強度を比較し、最大の分布の強度が示すカテゴリがその特徴量ベクトルについての認識結果となる。図１３Ｃに示される例では、特徴量ベクトル１３６８の位置において、「人間」というカテゴリを示す分布の強度１３６９が、「人間以外」というカテゴリを示す分布の強度１３７０よりも大きいので、認識用画像組の対象物は人間であると判定される。
【０１１９】
このように、識別パラメータは識別平面のみでなく、特徴量空間において異なるカテゴリに属する特徴量ベクトルを識別する任意の識別手法において用いられるパラメータを表現する。
【０１２０】
図１４は、特徴量次元の削除処理を行うことに伴う識別性能の変化を模式的に示す。図１４に示されるように、最初は、特徴量次元を削除することによって、識別性能は向上する。これは、識別に寄与しない特徴量次元を削減することによって、識別に悪影響のある余分な情報（ノイズ）を低減することができるからである。
【０１２１】
一般に、可視光画像と遠赤外光画像のように異なる属性を持つ複数の画像の情報を単純に組み合わせると情報量が増し、識別処理が増加するとともに、学習に必要なサンプル数（学習用の画像組の数）が増加するため、サンプル収集が困難になる。学習用の画像組の数が不足すると、識別性能が悪化する可能性がある。しかしながら、本発明の実施の形態では、可視光画像の情報と遠赤外光画像の情報とを組み合わせた上で、ステップＳ９２〜ステップＳ９６において、特徴量次元が削除される。特徴量次元を削除して識別に有効な情報を選別することにより、後に行われる認識処理における計算量を低減しつつ、識別性能を向上させる（または、維持する）ことが可能になる。
【０１２２】
人間を表現する画像組８５８組と人間以外対象物を表現する画像組１１０５２組を用いて本発明者らがシミュレーションを行った結果、ステップＳ９２〜ステップＳ９６の処理によって、特徴量次元の数が８８％削減できると同時に、誤識別の確率が１／９に低減された。
【０１２３】
ステップＳ９６（図１２）における判定は、例えば、次のようにして行われる。ステップＳ９５で求められる識別性能の変化を監視し、前回のステップＳ９５での識別性能と今回のステップＳ９５での性能を比較し、識別性能が向上または維持していれば基準を満たすと判定し、識別性能が低下していれば基準を満たさないと判定する。このような判定を行う場合には、図１４に点１３０２により示される識別性能の極大値を実現することができる。
【０１２４】
ステップＳ９６（図１２）における判定は、他の様式で行われてもよい。例えば、絶対的な識別性能値（図１４に示される参照番号１３０１）を予め指定し、指定した識別性能を実現できる条件下でできるだけ特徴量次元を削除してもよい。この場合には、その識別性能値を満たす限りにおいて、最大限に特徴量次元の数が削除される（点１３０２）。
【０１２５】
図１５は、ステップＳ９１（図１２）のさらに詳細な処理手順を示す。なお、ステップＳ１０１は、ステップＳ１００１ａ（図１）に対応し、ステップＳ１０２〜Ｓ１０４は、ステップＳ１００１ｂ（図１）に対応する。
【０１２６】
ステップＳ１０１：可視光画像と遠赤外光画像とが入力される。この可視光画像と遠赤外光画像とは、画像組を構成する。ステップＳ１０１において、人間を表現する画像組（可視光画像と遠赤外光画像とが、同一の人間を表現している画像組）と、人間以外の対象物を表現する画像組（可視光画像と遠赤外光画像とが、人間以外の同一の対象物を表現している画像組）とが入力される。このような画像組の例は、図２Ａおよび図２Ｂを参照して上述した。
【０１２７】
ステップＳ１０１で入力される可視光画像と遠赤外光画像とは、遠赤外光カメラ１００と可視光カメラ１１０とを用いて撮影され、いったん学習用の画像組として記憶装置１２０に格納される。あるいは、可視光画像と遠赤外光画像とは、記録媒体（図示せず）から読み出されることによって物体認識装置１に入力されてもよい。
【０１２８】
ステップＳ１０２：画像（可視光画像または遠赤外光画像）ごとに画素値の正規化が行われる。画素値の正規化は、（数２）に従って行われる。
【０１２９】
【数２】
Ｉ’（ｘ，ｙ）＝（Ｉ（ｘ，ｙ）−ｍ）／σ
ここで、
Ｉ（ｘ，ｙ）：正規化の前の画像中の座標（ｘ，ｙ）における画素値
ｍ：画像全体の画素値の平均値
σ：画像全体の画素値の平均値からの標準偏差
Ｉ’（ｘ，ｙ）：画像中の座標（ｘ，ｙ）における正規化された画素値
である。
【０１３０】
ステップＳ１０３：画素値の正規化を行った画像に対して、複数の異なる特性のＧａｂｏｒフィルタが画像中の複数の領域に適用される。
【０１３１】
ステップＳ１０４：Ｇａｂｏｒフィルタを適用した各領域（特定領域）に対応するフィルタ出力値から特徴量ベクトルが求められる。
【０１３２】
図１６は、画像４３１と、画像４３１内の画像フィルタが適用される領域４３２との関係を示す。画像４３１は、ステップＳ１０１において入力される可視光画像または赤外光画像の１つである。領域４３２は、画像フィルタが適用される領域を示す。以下、画像４３１内の画像フィルタが適用される領域４３２を「特定領域」と呼ぶ。図１６を参照しながら、ステップＳ１０３およびステップＳ１０４（図１５）の処理の詳細を説明する。
【０１３３】
図１６に示される例では、特定領域４３２は、一辺の長さがＬの正方形の形状を有する。画像４３１は、高さＨ、幅Ｗのサイズの矩形の形状を有する。画像４３１内に、特定領域４３２が複数設定される。特定領域４３２のそれぞれに、特定領域４３２のサイズに一致するＧａｂｏｒフィルタが適用されることにより、その特定領域４３２のそれぞれにおいてフィルタ出力値が生成される。フィルタ出力値が生成される方法は、図３を参照して上述した。
【０１３４】
フィルタ処理部１２５（図６）は、例えば、特定領域４３２が画像４３１に対して重複を許して画像４３１の全体を覆うように、複数の特定領域４３２を画像４３１中に設定する。例えば、図１６において、特定領域４３２がＬ＝Ｈ／８のサイズ（サイズ１）を有し、Ｗ＝Ｈ／２である場合に、特定領域４３２を縦方向と横方向とにＬ／２ずつ重複するように画像４３１の全面に配置すると、画像４３１の中の特定領域の数は（Ｈ／Ｌ×２−１）×（Ｗ／Ｌ×２−１）＝１５×７＝１０５個になる。１つの特定領域には、特性の異なる（方位選択性の異なる）４個の画像フィルタ（図１１Ａ〜図１１Ｄに示される４種類の方向選択性を有する４個の画像フィルタ）を適用する。
【０１３５】
さらに、サイズの異なる特定領域が、画像４３１の全面に配置される。サイズの異なる特定領域には、サイズの異なる画像フィルタが適用される。特定領域をＬ＝Ｈ／４のサイズ（サイズ２）の正方形とすると、この特定領域を縦方向および横方向にＬ／２ずつ重複して画像４３１の全面を覆うように配置すると、Ｗ＝Ｈ／２の仮定の下で、特定領域の数は、（Ｈ／Ｌ×２−１）×（Ｗ／Ｌ×２−１）＝７×３＝２１個となる。同様に、特定領域をＬ＝Ｈ／２のサイズ（サイズ３）の正方形とすると、特定領域の数は（Ｈ／Ｌ×２−１）×（Ｗ／Ｌ×２−１）＝３×１＝３個になる。
【０１３６】
画像４３１中の３つの異なるサイズ（サイズ１、サイズ２およびサイズ３）の特定領域の数をすべて合わせると１０５＋２１＋３＝１２９個になる。この特定領域のそれぞれに方位選択性の異なる４種類の画像フィルタを適用すると、画像４３１から１２９×４＝５１６個のフィルタ出力が得られる。１つの画像組（学習用の画像組または認識用の画像組）は、可視光画像（輝度画像）と遠赤外光画像とを含む。可視光画像と遠赤外光画像とが同じサイズ（高さＨ、幅Ｗ）を有しており、可視光画像と遠赤外光画像との同じ位置に特定領域を設定する場合に、１つの画像組の２個の画像から得られるフィルタ出力の数は、５１６×２＝１０３２個になる。従って、１つの画像組が１０３２次元の特徴量ベクトルによって表される。あるいは、より高い次元の特徴量空間を設定し、この１０３２次元の特徴量ベクトルをその高次元の特徴量空間に写像することにより、高次元の特徴量ベクトルを生成してもよい。特徴量ベクトルをより高次元の特徴量空間に写像することよって、それぞれの画像組に対応する特徴量ベクトルの間の距離が大きくなるので、後に行われるステップＳ９３（図１２）において識別平面を求めやすいという利点が得られる。
【０１３７】
なお、Ｇａｂｏｒフィルタの方位の数は４に限定されない。Ｇａｂｏｒフィルタの方位の数をＧａｂｏｒフィルタのサイズおよび／または特定領域の位置に依存して変えてもよい。Ｇａｂｏｒフィルタのサイズおよび／または特定領域の位置に応じて方位の数を変えることにより、画像中の特定の位置（例えば、方位の区別を詳細に行いたい位置）および／または特定の空間周波数領域から、より多くの情報を効率よく取得することが可能になる。
【０１３８】
また、画像フィルタのサイズは３種類に限定されない。画像フィルタのサイズは、１種類以上であればよい。可視光画像と遠赤外光画像とで、画素値（輝度）の変化の空間周波数特性が異なる。従って、可視光画像と遠赤外光画像とで、適用される画像フィルタのサイズを変えることによっても、画像から多くの情報を効率よく取得することが可能になる。
【０１３９】
可視光画像と遠赤外光画像について、特定領域のサイズや位置は必ずしも等しくしなくてもよい。可視光画像と遠赤外光画像について、それぞれに適したサイズや位置を設定することで性能向上が期待できる。しかし、両画像に対する特定領域のサイズや配置を等しくすることにより、両画像に対する画像フィルタの適用の処理を同一の手続きで実行できるという利点が得られ、ハードウェア回路やソフトウェアの規模を削減することが可能になる。
【０１４０】
画像フィルタとして、Ｇａｂｏｒフィルタと類似した形状のフィルタや他のエッジを求める画像フィルタが用いられてもよい。さらに、エッジを求めるフィルタ以外の画像フィルタが用いられてもよい。しかし、Ｇａｂｏｒフィルタまたは類似形状の画像フィルタを用いることにより、位置空間と周波数空間との両方の空間で局在する輝度変化の情報を効率よく取得することが可能になる。従って、Ｇａｂｏｒフィルタまたは類似形状の画像フィルタを用いた場合には、ｓｏｂｅｌフィルタなどのエッジフィルタを用いた場合に比較して効率よく特定の空間周波数において空間的変化の情報を取得することが可能になる。その結果、可視光画像と遠赤外光画像のように異なる性質の画像を組み合わせることによって増加した情報量の中から、効率的に認識のために有効な情報を取得することが可能になる。可視光画像の情報と遠赤外光画像の情報とは、遠赤外光画像から得られる温度の情報を用いることなく、効果的に組み合わされ、認識のために使用され得る。
【０１４１】
また、図１６を参照して説明した例では、１つのサイズの画像４３１に複数のサイズの特定領域（Ｇａｂｏｒフィルタを適用する領域）が設定された。しかし、予め同一対象を異なる解像度で撮影したサイズの異なる複数の画像のそれぞれに、同じサイズの特定領域（Ｇａｂｏｒフィルタを適用する領域）を設定することによっても、同様の結果を得ることができる。
【０１４２】
遠赤外光画像と可視光画像とにおいて、必ずしも同じ位置に対象物が写っている必要はない（２枚の画像の間で上下方向および／または左右方向にずれていてもよい）。他の対象物を撮影した場合にも同じ位置関係が保たれる限り、可視光画像と遠赤外光画像の中における対象物の位置は一致する必要はない。本発明の学習処理および認識処理では、遠赤外光画像中の領域と、可視光画像中の領域とを対応付ける必要がないからである。
【０１４３】
図１７は、ステップＳ９５（図１２）における、識別性能を評価する処理の詳細な手順を示す。
【０１４４】
ステップＳ１１１：特徴量ベクトルの成分のうち、ステップＳ９２で指定された特徴量次元に対応する成分のみが有効にされる。この特徴量ベクトルとしては、ステップＳ９１（図１２）において求められた特徴量データＦに含まれるすべての特徴量ベクトルまたは特徴量データＦに含まれる一部の特徴量ベクトルが用いられる。
【０１４５】
ステップＳ１１２：予め定められ識別手法を用いて、人間を表現する特徴量ベクトルと、人間以外の対象物を表現する特徴量ベクトルとを識別する学習が行われる。予め定められ識別手法とは、後に行われる認識処理において、対象物が人間であるか否かを判定するために用いられる手法である。
【０１４６】
ステップＳ１１３：評価用の特徴量データ（特徴量ベクトルの集合）を用いて、識別性能が算出される。評価用の特徴量データとしては、ステップＳ９１（図１２）において求められた特徴量データＦを用いてもよいし、図１２に示される学習処理において使用しなかった特徴量データを用いてもよい。あるいは、予め評価用の特徴量ベクトルの集合を特徴量データＦと同様の手続きで別途作成しておいてもよい。識別性能は、例えば、ステップＳ９４（図１２）で設定された次元を有効にした特徴量ベクトル(人間を表現する特徴量ベクトルと人間以外の対象物を表現する特徴量ベクトルとを含む)をステップＳ１１２における学習が終った後の識別手法を用いて正しく識別できた割合として表される。
【０１４７】
＜認識処理＞
図１８は、物体認識装置１が実行する認識処理の詳細な手順を示す。ステップＳ１２１は、ステップＳ１００２ａ（図１）に対応しており、ステップＳ１２２〜ステップＳ１２３は、ステップＳ１００２ｂ（図１）に対応しており、ステップＳ１２４〜ステップＳ１２５は、Ｓ１００２ｃ（図１）に対応している。
【０１４８】
ステップＳ１２１：可視光画像と遠赤外光画像とが入力される。この画像入力は、学習処理におけるステップＳ１０１（図１５）と同様に、可視光カメラ１１０と遠赤外光カメラ１００（図６）とにより行われる。
【０１４９】
ステップＳ１２２：画像（可視光画像および遠赤外光画像）から、認識対象領域が切り出される。認識対象領域は、その認識対象領域の形状が学習処理において使用した画像の形状に一致するように切り出される。認識対象領域は、画像中で固定しておいてもよいし、１つの画像から複数の認識対象領域が切り出されてもよい。切り出される認識対象領域の形状は、図１６を参照して説明した例では、縦横比がＨ対Ｗの矩形である。学習処理における可視光画像の形状と認識処理において可視光画像から切り出される認識対象領域の形状とが同じであり、かつ、学習処理における遠赤外光画像の形状と認識処理において遠赤外光画像から切り出される認識対象領域の形状とが同じである限り、可視光画像から切り出される認識対象領域の形状と、遠赤外光画像から切り出される認識対象領域の形状とが異なっていてもよい。
【０１５０】
ステップＳ１２２における切り出しは、学習処理においてステップＳ１０１（図１５）で入力された可視光画像と遠赤外光画像との撮影位置を考慮して行われる。具体的には、学習処理における可視光画像と、認識処理において可視光画像から切り出された認識対象領域とで、同じ位置に対象物が写るように、ステップＳ１２２における切り出しが行われる。もちろん、認識処理において可視光画像を撮影する可視光カメラ１１０を切り出しが必要でないように設置していてもよい。遠赤外光画像についても同様である。可視光画像と遠赤外光画像との拡大率についても同様で、可視光画像と遠赤外光画像の両者の拡大率(画素数)が異なっていてもよいが、可視光画像の拡大率と遠赤外光画像の拡大率(画素数)との比は、学習処理と認識処理とで同じになるように調整される。
【０１５１】
次に、必要に応じて、切り出した可視光画像と遠赤外光画像の大きさが正規化される。可視光画像、遠赤外光画像ともに切り出した形状が縦横比２：１の矩形の場合、例えば、縦６４画素、横３２画素の矩形に大きさが正規化される。画像の大きさを正規化することによって、次のステップＳ１２３において画像に適用されるＧａｂｏｒフィルタの大きさ(フィルタを作用させる特定領域の大きさ)は、固定され得る。切り出され、大きさが正規化された可視光画像と遠赤外光画像とは、認識用の画像組を構成する。
【０１５２】
ステップＳ１２３：切り出した画像から、ステップＳ９７（図１２）で決定された選択次元に対応する特徴量ベクトルが求められる。特徴量ベクトルは、学習処理において用いられたものと同じＧａｂｏｒフィルタを用いて算出される。上述したステップＳ１２２において画像の大きさが正規化されていない場合には、画像の大きさに応じたサイズのＧａｂｏｒフィルタが適用される。
【０１５３】
学習処理において特徴量次元の一部を削除している場合には、削除した特徴量次元に対応するＧａｂｏｒフィルタの演算処理は不要であるので、予め特徴量ベクトルの算出処理から除いておく。
【０１５４】
ステップＳ１２４：特徴量ベクトルと識別平面の係数との重み付け和を用いて、類似度が求められる。類似度は、認識用の画像組の対象物が人間に似ている度合いを表す。既に述べたように、特徴量ベクトルと識別平面の係数との重み付け和は、特徴量ベクトルと識別平面との距離（位置関係）を表す。この距離は、識別平面で区切られる一方の空間側（例えば、人間を表す特徴量ベクトルが位置する第１の側）にある場合に正の値、反対側（例えば、人間以外の対処物を表す特徴量ベクトルが位置する第２の側）にある場合に負の値として表すことができる。特徴量ベクトルが識別平面から離れるほど、距離の絶対値が大きくなる。
【０１５５】
ステップＳ１２５：類似度に基づいて、人間が認識される（すなわち、対象物が人間であると判定される）。例えば、類似度（特徴量ベクトルと識別平面との距離）が正であるか負であるかに基づいて（すなわち、特徴量ベクトルが、識別平面どちらの側に位置するかに基づいて）、対象物が人間であるか否かの判定がなされる。あるいは、類似度が正であり（すなわち、特徴量ベクトルが、識別平面の第１の側にあり）、かつ、類似度が所定の閾値以上である場合に、対象物が人間であると判定するようにしてもよい。このような閾値は、認識の精度についての要求（例えば、人間でない対象物を人間と誤認識する可能性を低減することが望まれるのか、人間を人間でないと誤認識する可能性を低減することが望まれるのか）に応じて設定され得る。類似度を示す数値が表示部１７０に表示されてもよい。
【０１５６】
このように、本発明の物体認識装置１（図６）は、学習用の画像組の遠赤外光画像と可視光画像とを用いて識別パラメータ（例えば、識別平面を表すパラメータ）を求め、その識別パラメータを判定基準として用いて認識用の画像組の遠赤外光画像と可視光画像との対象物を認識する（対象物が特定のカテゴリに属するか否かを判定する）。対象物の認識は、対象物から放射または反射される可視光線の強度（第１の属性）と、対象物から放射または反射される遠赤外光線の強度（第２の属性）とに基づいて行われるので、対象物の認識の信頼度が高くなる。
【０１５７】
本発明者らは、屋外で昼夜に撮影した可視光画像と遠赤外光画像の組（人間を表す画像組８５８組と人間以外の対象物を表す画像組１１０５２組）を学習用画像組として用いて、上述した学習処理および認識処理のシミュレーションを行った。シミュレーションの結果、誤認識率は０．２％であった。この誤認識率は、可視光画像のみを用いて学習処理および認識処理を行った比較例における誤検出率（２．７％）および遠赤外光画像のみを用いて学習処理および認識処理を行った比較例における誤認識率（３．５％）に比較して、非常に低い（１／１０以下）値である。このように、高い対象物の認識の信頼度が実現される。
【０１５８】
本発明の物体認識装置１は、可視光画像と遠赤外光画像とを用いて学習処理を行うことにより、可視光画像と遠赤外光画像との間の相関関係を学習することができ、その相関関係が認識処理に反映される。例えば、日中の屋外で対象物（人間）を撮影した可視光画像と遠赤外光画像とを考える。対象物に直射日光が当たるような環境条件下では、可視光画像中の対象物の輝度は高くなると同時に、遠赤外光画像は対象物の温度が高いことを示す。一方、対象物に直射日光が当たらないような環境条件下では、可視光画像中の対象物の輝度は低くなると同時に、遠赤外光画像は対象物の温度が低いことを示す。
【０１５９】
このような様々な環境条件下で撮影された可視光画像と遠赤外光画像とを用いることにより、本発明の物体認識装置１は、可視光画像と遠赤外光画像との間の相関関係を学習することができる。その結果、例えば、認識画像組の可視光画像中の対象物の輝度が高く、かつ、遠赤外光画像は対象物の温度が低い場合（対象物が人間である場合には起こり得ない事象が発生した場合）に、その対象物を人間であると誤認識する可能性は低い。
【０１６０】
可視光画像のみを用いて学習処理および認識処理を行う認識システムでは、様々な環境条件下で撮影された可視光画像を用いて学習処理を行うことにより、対象物を人間として認識するための許容範囲が広くなる。その結果、人間でない対象物を人間であると誤認識する可能性が高くなる。遠赤外光画像のみを用いて学習処理および認識処理を行う認識システムについても同様である。
【０１６１】
本発明の物体認識装置１によれば、様々な環境条件（例えば、照明の条件、温度の条件）において撮影された学習用の画像組を用いて学習処理を行うことにより、その様々な環境条件において撮影された認識用の画像組の対象物を正しく認識することができるようになる。このような特徴は、屋外における侵入者の監視システムや、自動車等の移動体に搭載される歩行者の検出システムや、移動ロボットに搭載される視覚システム等の、変動する環境条件下で対象物を正しく認識することが要求される用途に特に適している。
【０１６２】
さらに、上述した本発明の学習処理および認識処理は、対象物の属性に特化した処理ではない。これは、本発明の物体認識装置１が、上述した本発明の学習処理および認識処理を変更することなく、人間の認識以外の用途（例えば、動物を認識する用途または車両を認識する用途）にも適用できることを意味する。このように、本発明の物体認識装置１は、認識が行われる環境条件が変化した場合および認識の対象物が変化した場合の初期設定が容易である。
【０１６３】
本発明の物体認識装置１では、遠赤外線画像から特定の温度領域を抽出する処理は必要ではない。従って、時間経過とともに変化する遠赤外線カメラの光学系や回路、素子等の温度の影響をキャンセルするためのキャリブレーション処理を行う必要がなく、物体認識装置１の構成およびその保守を簡素化できるという利点が得られる。
【０１６４】
上述した実施の形態では、学習処理のステップＳ９７（図１２）において、選択次元が１セットに定められていた。しかし、選択次元のリスト（選択次元のセット）を複数セット用意して、各セットごとに識別パラメータが設定されていてもよい。この場合、認識処理において、いずれか１つのセットの識別パラメータを用いて求められた類似度に基づいて人間の認識を行ってもよいし、複数のセットのそれぞれの識別パラメータを用いて求められた類似度の和（平均値）に基づいて人間の認識を行ってもよい。あるいは、複数のセットのそれぞれの識別パラメータを用いて求められた類似度に基づいて人間の認識を行い、その認識結果の多数決を行ってもよい。
【０１６５】
上述した実施の形態では、ステップＳ１２２において切り出された認識対象領域について、ステップＳ１２３においてＧａｂｏｒフィルタを用いて特徴量ベクトルを求めていた。しかし、切り出しを行う前の画像にＧａｂｏｒフィルタを適用してもよい。この場合、フィルタを作用させる特定領域を予め画像全体に設定してＧａｂｏｒフィルタを適用し、画像全体の各位置に対するフィルタ出力を事前に得ておく。次に、画像中で検出の対象領域となる場所のフィルタ出力のみを用いて特徴量ベクトルを算出する。このように予めフィルタ出力を求めておくことにより、画像中の広範囲を走査しながら切り出しと認識の手続きを順次繰り返す場合等に、画像中の同一個所に同一のＧａｂｏｒフィルタを適用するフィルタ演算を複数回行う無駄を回避することができる。なお、画像中の広範囲を走査しながら切り出しと認識の手続きを順次繰り返す処理によって、対象物がどこに写っているのか未確定な画像から、人間を検出することができる。このような処理を行う場合には、物体認識装置１（図６）を物体検出装置として機能させることができる。
【０１６６】
学習処理において用いられる人間以外の対象物を表現する画像組(可視光画像と遠赤外光画像の組)は、木や犬等の実在する人間以外の対象物を撮影することによって物体認識装置１に入力されてもよい。あるいは、人間を表現する画像組の可視光画像と遠赤外光画像とに対して変換処理を施すことによりそれぞれ生成される可視光画像と遠赤外光画像との組が、人間以外の対象物を表現する画像組として学習処理において用いられてもよい。このような変換処理の例としては、画像にアフィン変換を施す処理および／または画像にノイズを付加する処理が挙げられる。変換処理後の画像は、人間を表現する画像に比較的類似した画像である。このような変換処理後の画像を学習処理において用いることにより、少しでも人間の形状とは異なる形状の対象物は人間として認識しないような判定基準を学習することができる。
【０１６７】
上述した実施の形態では、ほぼ同時刻に撮影した可視光画像と遠赤外光画像の２画像を組み合わせて学習処理および認識処理を行っていた。組み合わせる画像の数は２枚に限定されない。また、可視光画像として、輝度画像に代えて、カラー画像を用いてもよい。この場合、カラー画像をＲＧＢ（対象物から放射または反射される、異なる３種類の波長帯域の光の強度を表す３種類の画像）の３つの画像で表現すると、Ｒの画像とＧの画像とＢの画像の３画像と遠赤外光画像の計４個の画像が１つの画像組（学習用の画像組および認識用の画像組）として物体認識装置１に入力される。４個の画像を入力とした場合の学習処理および認識処理は、可視光画像と遠赤外光画像との２つの画像を入力した場合の学習処理および認識処理と同様である。
【０１６８】
物体認識装置１に入力される画像組が、異なる時刻に撮影した画像を含んでいてもよい。例えば、入力部１９０は、時刻Ｔ（第１の時刻）に撮影した可視光画像（第１の画像）および遠赤外光画像（第２の画像）と、時刻Ｔ＋ｔ（第１の時刻から所定の時間後の時刻）に撮影した可視光画像（第５の画像）および遠赤外光画像（第６の画像）との４枚の画像を１つの認識用の画像組として物体認識装置１に入力するように構成されていてもよい。もちろん、この場合には、学習用の画像組のそれぞれも、同一の時刻に撮影された可視光画像および遠赤外光画像と、その時刻からｔ時間後に撮影された可視光画像および遠赤外光画像とを含んでいなければならないことは言うまでもない。４個の画像を入力とした場合の学習処理および認識処理は、可視光画像と遠赤外光画像との２つの画像を入力した場合の学習処理および認識処理と同様である。
【０１６９】
このように、撮影時刻の異なる可視光画像と遠赤外光画像を組み合わせることで、歩行者などのように時間とともに形状が特定の様態で変化する対象物と、時間とともに形状が変化しない対象物および時間とともに形状が異なった様態で変化する対象物とを区別することが可能になり、認識の精度が向上する。
【０１７０】
所定の時間ｔを短くすると速い動きを伴う対象物を効率よく認識することができ、所定の時間ｔを長くすると遅い動きを伴う対象物を効率よく認識することができる。通常、屋外において動きを伴う人間、車両または動物等を認識する場合には、所定の時間ｔを１秒以下に設定することにより、形状および／または位置が時間とともに変化する対象物を効果的に認識することができる。このように、複数の時刻における画像の情報を効果的に組み合わせることにより、識別性能が向上する。
【０１７１】
本発明の物体認識装置１によれば、画像組に含まれる画像の数が増えた場合にも、識別に寄与する特徴量次元（フィルタ出力）だけが選択されるので、画像の数の増加による認識処理の計算量の増加が抑制される。
【０１７２】
物体認識装置１に入力される画像組が、視点の異なる画像を含んでいてもよい。例えば、同じ位置から撮影した可視光画像および遠赤外光画像と、それとは異なる位置から撮影した可視光画像および遠赤外光画像とが１つの画像組を構成してもよい。
【０１７３】
図１９は、遠赤外光カメラと可視光カメラとの配置のさらに他の例を示す。図１９に示される例では、遠赤外光カメラ１００ａと可視光カメラ１１０ａとがＡ地点に配置されており、遠赤外光カメラ１００ｂと可視光カメラ１１０ｂとがＢ地点に配置されている。４つのカメラは、同一の対象物を撮影するように配置されている。遠赤外光カメラ１００ａ、１００ｂおよび可視光カメラ１１０ａ、１００ｂは、全体として、物体認識装置１（図６）に学習用の画像組および認識用の画像組を入力する入力部１９０（図６）として機能する。
【０１７４】
入力部１９０は、認識処理においては、Ａ地点（第１の場所）から撮影された可視光画像（第１の画像）および遠赤外光画像（第２の画像）に加えて、さらに、Ｂ地点（第２の場所）から撮影された可視光画像（第５の画像）および遠赤外光画像（第６の画像）との４枚の画像を１つの認識用の画像組として物体認識装置１に入力するように構成されている。４個の画像を入力とした場合の学習処理および認識処理は、可視光画像と遠赤外光画像との２つの画像を入力した場合の学習処理および認識処理と同様である。
【０１７５】
このように、異なる場所から撮影された可視光画像と遠赤外光画像を組み合わせることにより、人物のように見る向きによって異なる形状を有する物体を認識する精度が向上する。
【０１７６】
本発明の物体認識装置１によれば、画像組に含まれる画像の数が増えた場合にも、識別に寄与する特徴量次元（フィルタ出力）だけが選択されるので、画像の数の増加による認識処理の計算量の増加が抑制される。
【０１７７】
また、異なる位置から撮影した可視光画像と遠赤外光画像とが１つの画像組を構成してもよい。
【０１７８】
図２０は、遠赤外光カメラ１００と可視光カメラ１１０との配置のさらに他の例を示す。図２０に示される例では、可視光カメラ１１０がＣ地点に配置されており、遠赤外光カメラ１００がＤ地点に配置されている。２個のカメラは、同一の対象物を撮影するように配置されている。
【０１７９】
図２０に示される例では、遠赤外光カメラ１００と可視光カメラ１１０とは、Ｃ地点（第１の場所）から可視光画像（第１の画像）を撮影し、Ｄ地点（第２の場所）から遠赤外光画像（第２の画像）を撮影するように構成されている。このような構成によれば、可視光画像と遠赤外光画像とで、対象物の背景が異なるようにすることができる。可視光画像と遠赤外光画像と共通する背景の余分な情報が認識結果に悪影響を及ぼす可能性が低下し、認識結果が背景の影響を受けにくくなるという利点が得られる。また、図１９に示される例と同様に、異なる複数の視点から撮影した画像を用いることで、人物のように見る向きによって異なる形状を有する対象物の認識精度が向上する。
【０１８０】
上述した実施の形態では、異なる属性を用いて対象物を表現する画像の例として、可視光画像と遠赤外光画像とを挙げたが、本発明はこれに限定されない。可視光画像と近赤外光画像とで画像組を構成するようにしてもよいし、可視光画像と紫外光画像とで画像組を構成するようにしてもよい。あるいは、可視光画像と距離画像とで画像組を構成するようにしてもよい。距離画像における画素値は、撮影点から対象物までの距離を示す。距離画像は、撮影点から対象物までの距離という属性を用いて対象物を表現する画像であるということができる。
【０１８１】
上述した本発明の学習処理および認識処理は、対象物の属性に特化した処理ではないので、可視光画像と遠赤外光画像以外の種類の画像を用いた場合にも、上述した本発明の学習処理および認識処理を変更する必要はない。
【０１８２】
本発明の学習処理と認識処理とは、典型的には、コンピュータ上のソフトウェアによって実現される。しかし、本発明の学習処理と認識処理とをハードウェアによって実現してもよいし、ソフトウェアとハードウェアとの組み合わせによって実現してもよい。さらに、物体認識装置１（図６）が学習処理を実行することは必須ではない。なぜなら、物体認識装置１は、学習処理の結果（識別パラメータ）が識別パラメータ記憶部１５０に格納されてさえいれば、認識処理（図１に示されるステップＳ１００２ａ〜Ｓ１００２ｃの処理）を実行することができるからである。そのような識別パラメータは、予め定められたパラメータであり得る。あるいは、そのような識別パラメータは、物体認識装置１とは別の装置を使用して学習処理を行うことによって求められてもよい。そのような学習処理の結果として得られる識別パラメータを物体認識装置１の識別パラメータ記憶部１５０に格納することにより、物体認識装置１はその識別パラメータを判定基準として用いた認識処理を行うことが可能になる。
【０１８３】
物体認識装置１が学習処理を行わない場合には、学習処理部１３０および記憶装置１２０は省略されてもよい。
【０１８４】
本発明の学習処理と認識処理との一方またはその両方の一部または全部を表現するプログラム（学習プログラム、認識プログラム）は、例えば、学習処理部１３０内のメモリ（図示せず）または認識処理部１４０内のメモリ（図示せず）に格納され得る。あるいは、そのようなプログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭなどの任意のタイプのコンピュータ読み取り可能な記録媒体に記録され得る。そのような記録媒体に記録された学習プログラムまたは認識プログラムは、ディスクドライブ（図示せず）を介してコンピュータのメモリにロードされる。あるいは、学習プログラムまたは認識プログラム（またはその一部）は、通信網（ネットワーク）または放送を通じてコンピュータのメモリにダウンロードされてもよい。コンピュータに内蔵されるＣＰＵが学習プログラムまたは認識プログラムを実行することによって、そのコンピュータは物体認識装置として機能する。
【０１８５】
【発明の効果】
本発明によれば、認識のために入力される画像組は、対象物を第１の属性を用いて表現する第１の画像と、その対象物を第１の属性とは異なる第２の属性を用いて表現する第２の画像とを含む。対象物が特定のカテゴリに属するか否かの判定は、第１の属性と第２の属性とに基づいて行われるので、対象物の認識の信頼度が高くなる。さらに、その所定の数の画像の予め定められた位置に予め定められた画像フィルタを適用することによって得られるフィルタ出力値を成分として有する特徴量空間内の特徴量ベクトルが求められ、画像組は、この特徴量ベクトルによって表される。この処理には、第１の画像の領域と第２の画像の領域とを対応付ける処理は必要でないので、対象物の認識を行うための初期設定が容易であり、認識結果は、環境条件の影響を受けにくい。
【図面の簡単な説明】
【図１】本発明の物体認識方法の全体の処理手順を示すフローチャート
【図２Ａ】ステップＳ１００１ａ（図１）において入力される画像組６１０〜６１３を示す図
【図２Ｂ】ステップＳ１００１ａ（図１）において入力される画像組６６０〜６６３を示す図
【図３】画像３５１に画像フィルタ３５４を適用する例を示す図
【図４】ステップ１００１ｂ（図１）において各画像組について求められた特徴量ベクトルを特徴量空間７０１にプロットした状態を示す図
【図５】ステップ１００２ａ（図１）において入力される認識用の画像組５１０の例を示す図
【図６】本発明の実施の形態の物体認識装置１の構成を示すブロック図
【図７Ａ】遠赤外光カメラ１００と可視光カメラ１１０との配置の例を示す図
【図７Ｂ】遠赤外光カメラ１００と可視光カメラ１１０との配置の他の例を示す図
【図７Ｃ】遠赤外光カメラ１００と可視光カメラ１１０とに代えて、その両方の機能を併せ持つ可視光・遠赤外光カメラ２１０が用いられる例を示す図
【図８Ａ】可視光カメラ１１０によって撮影された、人間の対象物を表現する可視光画像８０３の例を示す図
【図８Ｂ】遠赤外光カメラ１００によって撮影された、人間の対象物を表現する遠赤外光画像８０４の例を示す図
【図９Ａ】可視光カメラ１１０によって撮影された、人間以外の対象物（木）を表現する可視光画像８０５の例を示す図
【図９Ｂ】遠赤外光カメラ１００によって撮影された、人間以外の対象物を表現する遠赤外光画像８０６の例を示す図
【図１０Ａ】フィルタ処理部１２５（図６）において用いられる画像フィルタの特性を模式的に示す図
【図１０Ｂ】水平方向のエッジを選択的に検出する画像フィルタの特性を模式的に示す図
【図１０Ｃ】左下から右上に延びるエッジを選択的に検出する画像フィルタの特性を模式的に示す図
【図１０Ｄ】右下から左上に延びるエッジを選択的に検出する画像フィルタの特性を模式的に示す図
【図１１Ａ】Ｇａｂｏｒフィルタのフィルタ係数の例を示す図
【図１１Ｂ】Ｇａｂｏｒフィルタのフィルタ係数の例を示す図
【図１１Ｃ】Ｇａｂｏｒフィルタのフィルタ係数の例を示す図
【図１１Ｄ】Ｇａｂｏｒフィルタのフィルタ係数の例を示す図
【図１２】物体認識装置１が実行する学習処理の詳細な手順を示すフローチャート
【図１３Ａ】曲面の識別面を用いた識別手法を説明する図
【図１３Ｂ】特徴量空間１３８０における距離を用いる識別手法を説明する図
【図１３Ｃ】特徴量空間１３８２における特徴量ベクトルの分布を用いた識別手法を説明する図
【図１４】特徴量次元の削除処理を行うことに伴う識別性能の変化を模式的に示す図
【図１５】ステップＳ９１（図１２）のさらに詳細な処理手順を示すフローチャート
【図１６】画像４３１と、画像４３１内の画像フィルタが適用される領域４３２との関係を示す図
【図１７】ステップＳ９５（図１２）における、識別性能を評価する処理の詳細な手順を示すフローチャート
【図１８】物体認識装置１が実行する認識処理の詳細な手順を示すフローチャート
【図１９】遠赤外光カメラと可視光カメラとの配置のさらに他の例を示す図
【図２０】遠赤外光カメラ１００と可視光カメラ１１０との配置のさらに他の例を示す図
【符号の説明】
１物体認識装置
１００遠赤外光カメラ
１１０可視光カメラ
１２０記憶装置
１２５フィルタ処理部
１３０学習処理部
１４０認識処理部
１５０識別パラメータ記憶部
１６０ワークメモリ
１７０表示部
１９０入力部

Claims

第１の対象物の可視光画像の画像データである第１の画像データと、前記第１の対象物の遠赤外光画像の画像データである第２の画像データとを含む第１の画像データ組を入力する入力部と、
該入力部が前記第１の画像データ組を入力して、入力された前記第１の画像データ組の前記第１の画像データと前記第２の画像データにおける予め定められた少なくとも１つの位置に、方位選択性、位置選択性、空間周波数特性の少なくとも１つの選択性を有する少なくとも１つの画像フィルタをそれぞれ適用することによって前記第１の画像データおよび前記第２の画像データからそれぞれ得られる少なくとも１つのフィルタ出力値を成分として有する、特徴量空間における第１の特徴量ベクトルを求める特徴量ベクトル算出部と、
前記第１の特徴量ベクトルと所定の識別パラメータとの関係に基づいて、前記第１の対象物が特定のカテゴリに属するか否かを判定する判定部と
を備えた物体認識装置。
前記第１の画像データは、前記第１の対象物から放射または反射される可視光線の光の強度によって前記第１の対象物を表現し、前記第２の画像データは、前記第１の対象物から放射または反射される遠赤外線の光の強度よって前記第１の対象物を表現する、請求項１に記載の物体認識装置。
前記入力部は、それぞれが複数の画像データからなる第２の画像データ組および第３の画像データ組をさらに前記特徴量ベクトル算出部に入力し、前記第２の画像データ組および第３の画像データ組のそれぞれは、前記特定のカテゴリに属する第２の対象物の可視光画像の画像データである第３の画像データと、前記第２の対象物の遠赤外光画像の画像データである第４の画像データとを含み、
前記特徴量ベクトル算出部は、前記入力された第２の画像データ組および第３の画像データ組のそれぞれについて、前記第３の画像データおよび第４の画像データにおける予め定められた少なくとも１つの位置に、前記画像フィルタと同じ選択性を有する少なくとも１つの画像フィルタを適用することによって前記第３の画像データおよび前記第４の画像データからそれぞれ得られる少なくとも１つのフィルタ出力値を成分として有する、前記特徴量空間における特徴量ベクトルをさらに求め、
前記第２の画像データ組についての前記特徴量空間における少なくとも１つの特徴量ベクトルと、前記第３の画像データ組についての前記特徴量空間における少なくとも１つの特徴量ベクトルとを識別するように、前記識別パラメータを求める学習部をさらに備えた、請求項１に記載の物体認識装置。
前記第１の対象物は人間である請求項１〜３のいずれかに記載の物体認識装置。
前記学習部は、前記特徴量空間よりも多い次元数を有する仮の特徴量空間において、前記第２の画像データ組についての特徴量ベクトルと、前記第３の画像データ組についての特徴量ベクトルとを識別するための平面の法線の向きに基づいて前記仮の特徴量空間から少なくとも１つの次元を削除することによって、前記特徴量空間を定義する、請求項３に記載の物体認識装置。
前記識別パラメータは、前記特徴量空間における識別面を表し、前記判定部は、前記第１の特徴量ベクトルが、前記識別面に対してどちらの側に位置するかに基づいて、前記第１の対象物が前記特定のカテゴリに属するか否かを判定する、請求項１に記載の物体認識装置。
前記判定部は、前記第１の特徴量ベクトルと、前記識別面との距離が所定の閾値以上である場合に、前記第１の対象物が前記特定のカテゴリに属すると判定する、請求項６に記載の物体認識装置。
前記入力部は、前記第１の対象物の可視光画像の画像データである第５の画像データと、前記第１の対象物対象物の遠赤外光画像の画像データである第６の画像データとをさらに前記特徴量ベクトル算出部に入力するようになっており、前記第５の画像データおよび前記第６の画像データは、前記第１の画像データと前記第２の画像データとが撮影された第１の時刻から所定の時間の後に撮影されたものである、請求項１に記載の物体認識装置。
前記第１の画像データが第１の場所から撮影され、前記第２の画像データが前記第１の場所とは異なる第２の場所から撮影されたものである、請求項１に記載の物体認識装置。
前記入力部は、前記第１の対象物の可視光画像の画像データである第５の画像データと、前記第１の対象物の遠赤外光画像の画像データである第６の画像データとをさらに前記特徴量ベクトル算出部に入力するようになっており、前記第５の画像データおよび前記第６の画像データは、前記第１の画像データと前記第２の画像データとが撮影される第１の場所とは異なる第２の場所から撮影されたものである、請求項１に記載の物体認識装置。
物体を認識する方法であって、
（ａ）第１の対象物物の可視光画像の画像データである第１の画像データと、前記第１の対象物の遠赤外光画像の画像データである第２の画像データとを含む第１の画像データ組を入力するステップと、
（ｂ）入力された前記第１の画像データと前記第２の画像データのそれぞれの予め定められた少なくとも１つの位置に、方位選択性、位置選択性、空間周波数特性の少なくとも１つの選択性を有する少なくとも１つの画像フィルタをそれぞれ適用することによって前記第１の画像データおよび前記第２の画像データからそれぞれ得られる少なくとも１つのフィルタ出力値を成分として有する、特徴量空間における第１の特徴量ベクトルを求めるステップと、
（ｃ）前記第１の特徴量ベクトルと所定の識別パラメータとの関係に基づいて、前記第１の対象物が前記特定のカテゴリに属するか否かを判定するステップと
を包含する、物体認識方法。
コンピュータに物体認識処理を実行させるためのプログラムであって、
前記物体認識処理は、
（ａ）第１の対象物物の可視光画像の画像データである第１の画像データと、前記第１の対象物の遠赤外光画像の画像データである第２の画像データとを含む第１の画像データ組を入力するステップと、
（ｂ）入力された前記第１の画像データと前記第２の画像データのそれぞれの予め定められた少なくとも１つの位置に、方位選択性、位置選択性、空間周波数特性の少なくとも１つの選択性を有する少なくとも１つの画像フィルタをそれぞれ適用することによって前記第１の画像データおよび前記第２の画像データからそれぞれ得られる少なくとも１つのフィルタ出力値を成分として有する、特徴量空間における第１の特徴量ベクトルを求めるステップと、
（ｃ）前記第１の特徴量ベクトルと所定の識別パラメータとの関係に基づいて、前記第１の対象物が前記特定のカテゴリに属するか否かを判定するステップと
を包含する、プログラム。
コンピュータに物体認識処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記物体認識処理は、
（ａ）第１の対象物物の可視光画像の画像データである第１の画像データと、前記第１の対象物の遠赤外光画像の画像データである第２の画像データとを含む第１の画像データ組を入力するステップと、
（ｂ）入力された前記第１の画像データと前記第２の画像データのそれぞれの予め定められた少なくとも１つの位置に、方位選択性、位置選択性、空間周波数特性の少なくとも１つの選択性を有する少なくとも１つの画像フィルタをそれぞれ適用することによって前記第１の画像データおよび前記第２の画像データからそれぞれ得られる少なくとも１つのフィルタ出力値を成分として有する、特徴量空間における第１の特徴量ベクトルを求めるステップと、
（ｃ）前記第１の特徴量ベクトルと所定の識別パラメータとの関係に基づいて、前記第１の対象物が前記特定のカテゴリに属するか否かを判定するステップと
を包含する、記録媒体。