JP2016095701A

JP2016095701A - 画像処理装置、画像処理方法、及び、プログラム

Info

Publication number: JP2016095701A
Application number: JP2014231744A
Authority: JP
Inventors: 弘長佐野; Hironaga Sano; 勝章西野; Katsuaki Nishino; 直規葛谷; Naoki Kuzutani; 健益浦; Takeshi MASUURA
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-11-14
Filing date: 2014-11-14
Publication date: 2016-05-26

Abstract

【課題】背景の違いに関わらず、物体の検出精度や認識精度を良好に保つ。【解決手段】画像処理部は、入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は認識のうち少なくとも一方を行う認識処理部を備える。また、画像処理部は、入力画像を分割した分割領域毎に、分割領域内の特徴量に基づいて背景の種類を識別する背景識別部を備える。本技術は、例えば、所定の対象物の検出又は認識を行う装置に適用できる。【選択図】図１

Description

本技術は、画像処理装置、画像処理方法、及び、プログラムに関し、特に、物体の検出又は認識を行う場合に用いて好適な画像処理装置、画像処理方法、及び、プログラムに関する。

従来、事前に取得した背景画像と現在のフレーム画像との差分画像を算出し、差分画像内の閾値を超える領域において、機械学習により生成された識別器を用いて人物の検出処理を行うことが提案されている（例えば、特許文献１参照）。

特開２００８−２６９７４号公報

ところで、一般的な機械学習では、汎用性を高めるために、ランダムに抽出した大量の学習データを用いて学習処理が行われる。これにより、検出対象となる対象物（例えば、人物等）の背景が街中などの複雑な背景の学習データや、壁面などの単純な背景の学習データ等が混ぜ合わされ、平均的な背景に適した識別器が生成される。

一方、例えば、対象物の背景が複雑な背景である場合、対象物と近い特徴を持つ物体が存在する可能性が高くなる。そのため、平均的な背景に適した識別器を用いた場合、対象物の誤検出が発生する可能性が高くなる。

本技術はこのような状況に鑑みてなされたものであり、背景の違いに関わらず、物体の検出精度や認識精度を良好に保つことができるようにするものである。

本技術の一側面の画像処理装置は、入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は認識のうち少なくとも一方を行う認識処理部を備える。

前記認識処理部には、前記入力画像内において所定の大きさの検出領域を移動させながら、前記検出領域内の前記背景の種類に応じた前記識別器を用いて、前記検出領域内の前記対象物の検出又は認識のうち少なくとも一方を行わせることができる。

前記認識処理部には、前記検出領域内に複数の種類の背景が存在する場合、前記検出領域内の面積が最大の背景の種類に応じた前記識別器を用いらせることができる。

前記認識処理部には、前記検出領域内に複数の種類の背景が存在する場合、前記検出領域の中心の背景の種類に応じた前記識別器を用いらせることができる。

前記入力画像を分割した分割領域毎に、前記分割領域内の特徴量に基づいて前記背景の種類を識別する背景識別部をさらに設けることができる。

前記背景識別部には、前記分割領域内の所定の周波数以上の成分の量に基づいて、前記分割領域の背景の種類を識別させることができる。

前記背景識別部には、前記分割領域内の前記所定の周波数以上の成分の量が所定の閾値以上の第１の種類、及び、前記分割領域内の前記所定の周波数以上の成分の量が前記閾値未満の第２の種類の中から、前記分割領域の背景の種類を識別させることができる。

前記入力画像内の動体を含む領域である動体領域を検出する動体検出部をさらに設け、前記認識処理部には、前記動体領域において、前記動体領域内の背景の種類に応じた前記識別器を用いて、前記対象物の検出又は認識のうち少なくとも一方を行わせることができる。

前記入力画像内の動体を含む領域である動体領域を検出する動体検出部と、前記入力画像内の前記動体領域以外の領域をマスクするマスク処理部とをさらに設け、前記認識処理部には、マスクされた前記入力画像において、無地の背景に対応する前記識別器を用いて、前記対象物の検出又は認識のうち少なくとも一方を行わせることができる。

本技術の一側面の画像処理方法は、画像処理装置が、入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は認識のうち少なくとも一方を行う認識処理ステップを含む。

本技術の一側面のプログラムは、入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は認識のうち少なくとも一方を行う認識処理ステップを含む処理をコンピュータに実行させる。

本技術の一側面においては、入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は認識のうち少なくとも一方が行われる。

本技術の一側面によれば、背景の違いに関わらず、物体の検出精度や認識精度を良好に保つことができる。

画像処理システムの第１の実施の形態を示すブロック図である。検出処理の第１の実施の形態を説明するためのフローチャートである。背景識別処理を説明するためのフローチャートである。ハイパスフィルタの例を示す図である。入力画像の例を示す図である。図５の入力画像に図４のハイパスフィルタをかけた結果を示す図である。対象物検出処理の第１の実施の形態を説明するためのフローチャートである。検出窓のスキャン方法の例を説明するための図である。検出領域内の背景の種類の判定方法を説明するための図である。画像処理システムの第２の実施の形態を示すブロック図である。検出処理の第２の実施の形態を説明するためのフローチャートである。動体領域検出処理を説明するためのフローチャートである。対象物検出処理の第２の実施の形態を説明するためのフローチャートである。画像処理システムの第３の実施の形態を示すブロック図である。検出処理の第３の実施の形態を説明するためのフローチャートである。対象物検出処理の第３の実施の形態を説明するためのフローチャートである。コンピュータの構成例を示すブロック図である。

以下、本技術を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．第１の実施の形態
２．第２の実施の形態（動体領域検出処理を追加した場合）
３．第３の実施の形態（背景領域をマスクする場合）
４．変形例

＜１．第１の実施の形態＞
｛画像処理システム１の構成例｝
図１は、本技術の第１の実施の形態である画像処理システム１の構成例を示すブロック図である。

画像処理システム１は、所定の領域（以下、監視領域と称する）内の所定の対象物の検出又は認識を行うシステムである。画像処理システム１は、画像取得部１１、画像処理部１２、及び、出力部１３を含むように構成される。

画像取得部１１は、監視領域を撮影することにより得られる画像（以下、入力画像と称する）を取得し、取得した入力画像を画像処理部１２に供給する。なお、画像取得部１１が、入力画像を撮影する装置を備えるようにしてもよいし、或いは、画像取得部１１が、外部の装置から入力画像を取得するようにしてもよい。

また、画像取得部１１が外部の装置から入力画像を取得する場合、画像取得部１１と外部の装置との接続方法及び通信方法には、任意の方法を適用することができる。例えば、画像取得部１１と外部の装置とをケーブル等により直接接続したり、或いは、ネットワークを介して接続したりすることが可能である。また、画像取得部１１と外部の装置との間の通信は、有線通信でも無線通信でもよい。

画像処理部１２は、入力画像内の所定の対象物の検出又は認識を行う。画像処理部１２は、背景識別部２１及び認識処理部２２を含むように構成される。

背景識別部２１は、入力画像を複数の小領域（以下、分割領域と称する）に分割し、各分割領域の背景の種類を識別する。これにより、入力画像の背景の種類が分割領域単位で分類される。

ここで、背景とは、例えば、入力画像内の動体を除く部分のことであり、基本的に静止している部分のことである。一方、動体とは、例えば、動く物体のことである。ただし、動体であっても、例えば、ほとんど動かない物体、動きが非常に小さい物体、位置がほとんど変化しない物体、所定の動作を繰り返す物体等は、条件によっては背景として扱われる。例えば、樹木は、風により揺れ動くが、背景として扱われる。

なお、以下、背景識別部２１が、各分割領域内の背景の種類を、単純背景と複雑背景の２種類の背景の中から識別する例について説明する。

単純背景とは、高周波成分が少ない背景のことであり、例えば、無地の背景、コントラストやエッジ成分が弱い背景が含まれる。例えば、模様のない壁、道路の路面、雪で覆われた地面等が、単純背景に分類される。一方、複雑背景とは、高周波成分が多い背景のことであり、例えば、コントラストやエッジ成分が強い背景が含まれる。例えば、建物、ポスター、看板等が、複雑背景に分類される。

なお、以下、単純背景からなる領域を単純背景領域と称し、複雑背景からなる領域を複雑背景領域と称する。例えば、所定の周波数以上の成分（高周波成分）が所定の閾値以上の領域が単純背景領域に分類される。一方、所定の周波数以上の成分（高周波成分）が所定の閾値未満の領域が複雑背景領域に分類される。

認識処理部２２は、例えば、パターン認識の手法を用いて、所定の対象物の検出又は認識を行う。対象物の検出とは、例えば、入力画像内の対象物の有無や対象物の位置を検出する処理である。例えば、入力画像内の人の有無や人の位置を検出する処理が該当する。一方、対象物の認識とは、例えば、対象物の種類や特徴等を認識する処理のことである。例えば、入力画像内の特定の個人を認識したり、入力画像内の人の年齢や性別を識別したりする処理が該当する。

また、認識処理部２２は、単純背景用の識別器３１ａ、及び、複雑背景用の識別器３１ｂの２種類の識別器を用いて認識処理を行う。

識別器３１ａは、単純背景領域における対象物の検出処理又は認識処理に適した識別器である。例えば、識別器３１ａは、背景が単純背景である学習データを用いた機械学習により生成される。

識別器３１ｂは、複雑背景領域における対象物の検出処理又は認識処理に適した識別器である。例えば、識別器３１ｂは、背景が複雑背景である学習データを用いた機械学習により生成される。

なお、識別器は、辞書とも呼ばれ、一般的に機械学習により生成され、対象物の検出処理や認識処理に用いられる。

また、対象物には、任意の物体を設定することができる。また、認識処理部２２が、対象物の検出及び認識の両方の処理を行うようにしてもよいし、一方の処理のみを行うようにしてもよい。

出力部１３は、画像処理部１２による対象物の検出結果又は認識結果を外部に出力する。

なお、以下、画像処理システム１が、主に入力画像内の人の検出を行う場合を例に挙げて説明する。

｛検出処理｝
次に、図２のフローチャートを参照して、画像処理システム１により実行される検出処理について説明する。

ステップＳ１において、画像取得部１１は、入力画像を取得する。すなわち、画像取得部１１は、監視領域を撮影することにより得られる入力画像を取得する。画像取得部１１は、取得した入力画像を画像処理部１２に供給する。

ステップＳ２において、背景識別部２１は、背景識別処理を実行済みであるか否かを判定する。背景識別処理がまだ実行されていないと判定された場合、処理はステップＳ３に進む。

ステップＳ３において、背景識別部２１は、背景識別処理を実行し、その後、処理はステップＳ４に進む。ここで、図３のフローチャートを参照して、背景識別処理の詳細について説明する。

ステップＳ３１において、背景識別部２１は、入力画像を分割する。例えば、背景識別部２１は、入力画像をＭ行×Ｎ列の矩形の小領域（分割領域）に分割する。

ステップＳ３２において、背景識別部２１は、未分類の分割領域を１つ選択する。

ステップＳ３３において、背景識別部２１は、分割領域内のコントラスト量を検出する。例えば、背景識別部２１は、ステップＳ３２の処理で選択した分割領域内の画素の輝度値の最大値と最小値の差を求める。そして、背景識別部２１は、次式（１）により、分割領域のコントラスト量を算出する。

コントラスト量＝輝度値の最大値−輝度値の最小値・・・（１）

すなわち、式（１）のコントラスト量は、分割領域内の輝度差の最大値に等しい。

或いは、例えば、背景識別部２１は、ステップＳ３１において入力画像を分割する前に、入力画像に対してハイパスフィルタをかける。

図４は、３×３のハイパスフィルタの例を示している。また、図６は、図５の入力画像に対して図４のハイパスフィルタをかけた結果を示している。このように、入力画像に対してハイパスフィルタをかけることにより、入力画像の高周波成分（図６の画像の白色の画素の部分）が抽出される。

そして、背景識別部２１は、例えば、ハイパスフィルタをかけた後の入力画像の分割領域について、次式（２）によりコントラスト量を算出する。

コントラスト量＝高周波成分を含む画素数÷分割領域内の全画素数・・・（２）

すなわち、式（２）のコントラスト量は、分割領域内の画素のうち高周波成分を含む画素の割合に等しい。ここで、高周波成分を含む画素とは、例えば、図６の画像において、画素値が所定の閾値以上の画素のことである。

ステップＳ３４において、背景識別部２１は、分割領域内のコントラスト量が所定の閾値以下であるか否かを判定する。分割領域内のコントラスト量が所定の閾値以下であると判定された場合、処理はステップＳ３５に進む。

ステップＳ３５において、背景識別部２１は、現在処理対象になっている分割領域を、単純背景領域に分類する。その後、処理はステップＳ３７に進む。

一方、ステップＳ３４において、分割領域内のコントラスト量が所定の閾値より大きいと判定された場合、処理はステップＳ３６に進む。

ステップＳ３６において、背景識別部２１は、現在処理対象になっている分割領域を、複雑背景領域に分類する。その後、処理はステップＳ３７に進む。

ステップＳ３７において、背景識別部２１は、全ての分割領域の分類が終了したか否かを判定する。まだ全ての分割領域の分類が終了していないと判定された場合、処理はステップＳ３２に戻る。

その後、ステップＳ３７において、全ての分割領域の分類が終了したと判定されるまで、ステップＳ３２乃至Ｓ３７の処理が繰り返し実行される。これにより、入力画像内の各分割領域が、単純背景領域又は複雑背景領域のいずれかに分類される。

一方、ステップＳ３７において、全ての分割領域の分類が終了したと判定された場合、背景識別処理は終了する。

なお、この背景識別処理は、監視領域内に動体が存在しない状態で実行することが望ましい。

図２に戻り、一方、ステップＳ２において、背景識別処理が実施済みであると判定された場合、ステップＳ３の処理はスキップされ、処理はステップＳ４に進む。

ステップＳ４において、認識処理部２２は、対象物検出処理を実行する。ここで、図７のフローチャートを参照して、対象物検出処理の詳細について説明する。

ステップＳ６１において、認識処理部２２は、検出窓５１を検出開始位置に設定する。例えば、認識処理部２２は、図８に示されるように、検出窓５１を入力画像内においてラスタスキャンする場合、検出窓５１を入力画像の左上隅に設定する。

ステップＳ６２において、認識処理部２２は、検出窓５１により囲まれる領域（以下、検出領域と称する）が単純背景領域であるか否かを判定する。例えば、認識処理部２２は、検出領域内における単純背景領域と複雑背景領域の面積に基づいて、検出領域が単純背景領域であるか否かを判定する。例えば、認識処理部２２は、検出領域内において単純背景領域の方が複雑背景領域より広い場合、検出領域が単純背景領域であると判定する。一方、認識処理部２２は、検出領域内において複雑背景領域の方が単純背景領域より広い場合、検出領域が複雑背景領域であると判定する。

例えば、図９に示される例の場合、検出窓５１内の検出領域において、複雑背景領域の方が単純背景領域より広いため、この検出領域は、複雑背景領域であると判定される。

なお、検出領域内の単純背景領域と複雑背景領域の面積が等しい場合、認識処理部２２は、検出領域を単純背景領域又は複雑背景領域のいずれに分類するようにしてもよい。

或いは、例えば、認識処理部２２は、検出領域の中心が属する背景領域に基づいて、検出領域が単純背景領域であるか否かを判定する。例えば、認識処理部２２は、検出領域の中心が単純背景領域に属する場合、検出領域が単純背景領域であると判定する。一方、認識処理部２２は、検出領域の中心が複雑背景領域に属する場合、検出領域が複雑背景領域であると判定する。

そして、ステップＳ６２において、検出領域が単純背景領域であると判定された場合、処理はステップＳ６３に進む。

ステップＳ６３において、認識処理部２２は、単純背景用の識別器３１ａを用いて対象物の検出処理を行う。その後、処理はステップＳ６５に進む。

一方、ステップＳ６２において、検出領域が複雑背景領域であると判定された場合、処理はステップＳ６４に進む。

ステップＳ６４において、認識処理部２２は、複雑背景用の識別器３１ｂを用いて対象物の検出処理を行う。その後、処理はステップＳ６５に進む。

ステップＳ６５において、認識処理部２２は、入力画像内を全て探索したか否かを判定する。まだ入力画像の全ての領域が探索されていないと判定された場合、処理はステップＳ６６に進む。

ステップＳ６６において、認識処理部２２は、検出窓５１を移動する。例えば、認識処理部２２は、図８に示されるように、検出窓５１をラスタスキャンしている場合、検出窓を所定の距離だけ右方向にシフトする。なお、認識処理部２２は、検出窓５１が入力画像の右端に設定されている場合、検出窓５１を入力画像の左端に移動するとともに、検出窓５１を所定の距離だけ下方向にシフトする。

その後、処理はステップＳ６２に戻り、ステップＳ６５において、入力画像内を全て探索したと判定されるまで、ステップＳ６２乃至Ｓ６６の処理が繰り返し実行される。これにより、入力画像内の全ての領域において、対象物の検出処理が行われる。

一方、ステップＳ６５において、入力画像内を全て探索したと判定された場合、対象物検出処理は終了する。

図２に戻り、ステップＳ５において、画像処理システム１は、検出結果を出力する。具体的には、認識処理部２２は、対象物の検出結果を出力部１３に供給する。出力部１３は、取得した検出結果を外部に出力する。

その後、処理はステップＳ１に戻り、ステップＳ１以降の処理が実行される。

このように、検出領域毎に背景の種類に応じた識別器を用いて対象物の検出処理を行うことにより、検出漏れや誤検出が減少し、検出精度が向上する。すなわち、背景の違いに関わらず、対象物の検出精度を良好に保つことができる。また、検出領域毎に背景の種類に応じた識別器を用いることにより、演算量を削減し、処理時間を短縮することができる。

＜２．第２の実施の形態＞
｛画像処理システム１０１の構成例｝
図１０は、本技術の第２の実施の形態である画像処理システム１０１の構成例を示すブロック図である。なお、図１と対応する部分には、同じ符号を付してある。

画像処理システム１０１は、図１の画像処理システム１と比較して、画像処理部１２の代わりに、画像処理部１１１が設けられている点が異なる。画像処理部１１１は、画像処理部１２と比較して、動体検出部１２１が追加されている点が異なる。

動体検出部１２１は、入力画像内の動体の検出を行う。動体検出部１２１は、背景差分部１３１、時間差分部１３２、ラベリング部１３３、及び、トラッキング部１３４を含むように構成される。

背景差分部１３１は、入力画像と背景画像の差分をとる。ここで、背景画像とは、背景のみが写っている画像のことである。

時間差分部１３２は、入力画像の時間方向の差分をとる。ここで、時間方向の差分とは、異なるフレーム間の入力画像の差分のことである。

ラベリング部１３３は、背景差分部１３１と時間差分部１３２の差分処理の結果に基づいて、入力画像内で動体を含む領域（以下、動体領域と称する）を検出する。また、ラベリング部１３３は、検出した動体領域のラベル付けを行う。

トラッキング部１３４は、ラベル付けされた動体領域のフレーム間の対応付けを行うことにより、動体領域のトラッキングを行う。

｛検出処理｝
次に、図１１のフローチャートを参照して、画像処理システム１０１により実行される検出処理について説明する。

ステップＳ１０１乃至ステップＳ１０３において、図２のステップＳ１乃至Ｓ３と同様の処理が実行される。これにより、背景識別処理がまだ実行されていない場合、背景識別処理が実行され、入力画像の分割領域毎に背景の種類が識別される。

ステップＳ１０４において、動体検出部１２１は、動体領域検出処理を実行する。ここで、図１２のフローチャートを参照して、動体領域検出処理の詳細について説明する。

ステップＳ１３１において、背景差分部１３１は、入力画像と背景画像の差分をとる。例えば、背景差分部１３１は、入力画像と背景画像が輝度画像である場合、２つの画像の同じ位置の画素間の輝度値の差分をとる。或いは、例えば、背景差分部１３１は、入力画像と背景画像がカラー画像である場合、２つの画像の同じ位置の画素間の各色の画素値の差分をとる。そして、背景差分部１３１は、輝度値又は画素値の差が所定の閾値以上の画素からなる領域（以下、背景差分領域と称する）を検出する。

なお、背景画像の取得方法には、任意の方法を採用することができる。例えば、事前に監視領域内に動体が存在しない状態で撮影した画像を背景画像として用いることが可能である。或いは、例えば、画像処理部１１１が、所定の期間にわたって入力画像内の動体以外の背景部分を検出し、検出した背景部分を組み合わせることにより背景画像を生成するようにしてもよい。

ステップＳ１３２において、時間差分部１３２は、入力画像の時間方向の差分をとる。例えば、時間差分部１３２は、入力画像が輝度画像である場合、最新の入力画像と１フレーム前の入力画像の同じ位置の画素間の輝度値の差分をとる。或いは、例えば、時間差分部１３２は、入力画像がカラー画像である場合、最新の入力画像と１フレーム前の入力画像の同じ位置の画素間の画素値の差分をとる。そして、時間差分部１３２は、輝度値又は画素値の差が所定の閾値以上の画素からなる領域（以下、時間差分領域と称する）を検出する。

ステップＳ１３３において、ラベリング部１３３は、差分領域を合成する。すなわち、ラベリング部１３３は、背景差分領域と時間差分領域を合成する。なお、以下、合成後の差分領域を合成差分領域と称する。

ステップＳ１３４において、ラベリング部１３３は、ラベリングを行う。例えば、ラベリング部１３３は、モルフォロジ処理等により、合成差分領域の連結と外乱除去を行うことにより、入力画像内の動体領域を検出する。ラベリング部１３３は、検出した各動体領域に識別用のラベルを付ける。

ステップＳ１３５において、トラッキング部１３４は、トラッキング処理を行う。例えば、トラッキング部１３４は、ラベル付けされた各動体領域を、領域の大きさや形状等に基づいて、過去のフレームの入力画像において検出された動体領域と対応づける。このとき、トラッキング部１３４は、検出窓５１に対して小さすぎて識別器により識別できない動体領域を削除するようにしてもよい。

その後、動体領域検出処理は終了する。

図１１に戻り、ステップＳ１０５において、動体検出部１２１は、ステップＳ１０４の処理の結果に基づいて、動体領域が存在するか否かを判定する。動体領域が存在すると判定された場合、処理はステップＳ１０６に進む。

ステップＳ１０６において、認識処理部２２は、対象物検出処理を実行し、その後、処理はステップＳ１０７に進む。ここで、図１３のフローチャートを参照して、対象物検出処理の詳細について説明する。

ステップＳ１６１において、認識処理部２２は、検出窓５１を検出開始位置に設定する。例えば、認識処理部２２は、検出窓５１を入力画像の左上隅から所定の間隔でラスタスキャンしていき、検出窓５１内に動体領域が含まれた位置において検出窓５１を停止する。この検出窓５１が停止した位置が、検出開始位置となる。

ステップＳ１６２において、図７のステップＳ６２の処理と同様に、検出領域が単純背景領域であるか否かが判定される。検出領域が単純背景領域であると判定された場合、処理はステップＳ１６３に進む。

ステップＳ１６３において、図７のステップＳ６３の処理と同様に、単純背景用の識別器３１ａを用いて対象物の検出処理が行われる。

その後、処理はステップＳ１６５に進む。

一方、ステップＳ１６２において、検出領域が複雑背景領域であると判定された場合、処理はステップＳ１６４に進む。

ステップＳ１６４において、図７のステップＳ６４の処理と同様に、複雑背景用の識別器３１ｂを用いて対象物の検出処理が行われる。

その後、処理はステップＳ１６５に進む。

ステップＳ１６５において、認識処理部２２は、動体領域内を全て探索したか否かを判定する。まだ動体領域内を全て探索していないと判定された場合、処理はステップＳ１６６に進む。

ステップＳ１６６において、認識処理部２２は、検出窓５１を移動する。例えば、認識処理部２２は、検出窓５１を現在の位置から所定の間隔でラスタスキャンしていき、検出窓５１内に動体領域が含まれた位置において検出窓５１を停止する。

その後、処理はステップＳ１６２に戻り、ステップＳ１６５において、動体領域内が全て探索されたと判定されるまで、ステップＳ１６２乃至Ｓ１６６の処理が繰り返し実行される。これにより、入力画像内の全ての動体領域において、対象物の検出処理が行われる。

一方、ステップＳ１６５において、動体領域内が全て探索されたと判定された場合、対象物検出処理は終了する。

図１１に戻り、一方、ステップＳ１０５において、動体領域が存在しないと判定された場合、ステップＳ１０６の処理はスキップされ、処理はステップＳ１０７に進む。

ステップＳ１０７において、図２のステップＳ５の処理と同様に、検出結果が出力される。

その後、処理はステップＳ１０１に戻り、ステップＳ１０１以降の処理が繰り返し実行される。

このように、第２の実施の形態では、対象物の検出範囲が動体領域に限定されるため、処理時間を短縮することができる。

なお、動体検出の精度が十分に高い場合、例えば、前のフレームの動体領域と同じ領域として対応付けられる動体領域を、対象物の検出を行う領域から除外し、その動体領域については、前のフレームの検出結果を用いるようにしてもよい。

＜３．第３の実施の形態＞
｛画像処理システム２０１の構成例｝
図１４は、本技術の第３の実施の形態である画像処理システム２０１の構成例を示すブロック図である。なお、図１０と対応する部分には、同じ符号を付してある。

画像処理システム２０１は、図１０の画像処理システム１０１と比較して、画像処理部１１１の代わりに画像処理部２１１が設けられている点が異なる。また、画像処理部２１１は、画像処理部１１１と比較して、認識処理部２２の代わりに認識処理部２２１が設けられ、マスク処理部２２２が追加されている点が異なる。認識処理部２２１は、認識処理部２２と比較して、識別器３１ｂが削除されている点が異なる。

マスク処理部２２２は、入力画像において、動体検出部１２１により検出された動体領域以外の領域のマスク処理を行う。

｛検出処理｝
次に、図１５を参照して、画像処理システム２０１により実行される検出処理について説明する。

ステップＳ２０１において、図２のステップＳ１の処理と同様に、入力画像が取得される。

ステップＳ２０２において、図１１のステップＳ１０４の処理と同様に、動体領域検出処理が実行される。

ステップＳ２０３において、図１１のステップＳ１０５の処理と同様に、動体領域が存在するか否かが判定される。動体領域が存在すると判定された場合、処理はステップＳ２０４に進む。

ステップＳ２０４において、マスク処理部２２２は、背景領域をマスクする。例えば、マスク処理部２２２は、入力画像内の領域のうち、動体検出部１２１により検出された動体領域以外の領域を背景領域であるとみなし、背景領域の輝度値又は画素値を所定の値に設定する。例えば、マスク処理部２２２は、入力画像が０〜２５５までの２５６段階の輝度値で表される場合、背景領域の輝度値を中間の値である１２８に設定する。これにより、入力画像の背景領域が、無地の背景となる。

ステップＳ２０５において、認識処理部２２１は、対象物検出処理を実行し、その後、処理はステップＳ２０６に進む。ここで、図１６のフローチャートを参照して、対象物検出処理の詳細について説明する。

ステップＳ２３１において、図１３のステップＳ１６１の処理と同様に、検出窓５１が検出開始位置に設定される。

ステップＳ２３２において、図１３のステップＳ１６３の処理と同様に、単純背景用の識別器３１ａを用いて対象物の検出処理が行われる。すなわち、上述したステップＳ２０４の処理で、入力画像の背景領域が無地の背景に設定されているため、検出領域の背景は必ず単純背景となる。そこで、認識処理部２２は、常に単純背景用の識別器３１ａを用いて対象物の検出処理を行う。

ステップＳ２３３において、図１３のステップＳ１６５の処理と同様に、動体領域内を全て探索したか否かが判定される。まだ動体領域内が全て探索されていないと判定された場合、処理はステップＳ２３４に進む。

ステップＳ２３４において、図１３のステップＳ１６６の処理と同様に、検出窓５１が移動される。

その後、処理はステップＳ２３２に戻り、ステップＳ２３３において、動体領域内を全て探索したと判定されるまで、ステップＳ２３２乃至Ｓ２３４の処理が繰り返し実行される。これにより、入力画像内の全ての動体領域において、対象物の検出処理が行われる。

一方、ステップＳ２３３において、動体領域内を全て探索したと判定された場合、対象物検出処理は終了する。

図１５に戻り、一方、ステップＳ２０３において、動体領域が存在しないと判定された場合、ステップＳ２０４及びＳ２０５の処理はスキップされ、処理はステップＳ２０６に進む。

ステップＳ２０６において、図１１のステップＳ１０７の処理と同様に、検出結果が出力される。

その後、処理はステップＳ２０１に戻り、ステップＳ２０１乃至Ｓ２０６の処理が繰り返し実行される。

このように、第３の実施の形態では、背景識別処理を省略し、単純背景用の識別器３１ａのみを用いて、対象物の検出処理を行うことができる。その結果、処理時間を短縮することができる。

＜４．変形例＞
以下、上述した本技術の実施の形態の変形例について説明する。

｛本技術の適用範囲に関する変形例｝
以上の説明では、本技術を人の検出処理に適用する例を示したが、本技術は、人以外の任意の対象物の検出処理に適用することができる。また、本技術は、対象物の認識処理にも適用することができる。すなわち、本技術は、各種の対象物、各種の検出処理、各種の認識処理に応じた識別器を用いることにより、各種の対象物の検出処理や認識処理に適用することができる。

また、対象物の検出又は認識を行う領域は、必ずしも１カ所に固定する必要はない。例えば、本技術は、車両の前方を監視する装置等、システムや装置が移動体に搭載され、監視領域が移動する場合にも適用することができる。

｛背景の種類の分類方法に関する変形例｝
第１の実施の形態及び第２の実施の形態では、背景識別部２１が、入力画像の分割領域毎に背景の種類を識別する例を示したが、例えば、入力画像全体で背景の種類を識別するようにしてもよい。例えば、背景識別部２１が、入力画像全体の背景を単純背景か複雑背景のいずれであるかを識別するようにしてもよい。この場合、使用される識別器は、入力画像毎に１種類となる。

また、以上の説明では、背景の種類を、単純背景と複雑背景の２種類に分類する例を示したが、３種類以上に分類するようにしてもよい。例えば、各分割領域内の所定の周波数以上の成分（高周波成分）の量に基づいて、各分割領域の背景を３種類以上に分割するようにしてもよい。

なお、背景を３種類以上に分類する場合、例えば、検出領域内の面積が最大の背景の種類が、その検出領域の背景の種類に設定される。或いは、例えば、検出領域の中心の背景の種類が、その検出領域の背景の種類に設定される。

また、背景の種類を、上述した例以外の特徴量や観点により分類するようにしてもよい。

例えば、背景の種類を色により分類するようにしてもよい。例えば、物体のエッジと色に基づいて、人物の検出や認識を行う場合、肌色に近い色の背景と、肌色から離れた色の背景とに分類するようにしてもよい。そして、例えば、肌色に近い色の背景の場合、エッジの検出結果を重視する識別器を用い、肌色に近い色の背景の場合、色の検出結果を重視する識別器を用いるようにしてもよい。

或いは、例えば、背景の種類を場所やシーン等により分類するようにしてもよい。例えば、背景の種類を屋内か屋外に分類するようにしてもよい。また、例えば、オフィス、街中、海、山、スキー場等の具体的な場所により背景の種類を分類するようにしてもよい。さらに、例えば、各種のスポーツのプレー中、お祭り、コンサート等のシーンにより背景の種類を分類するようにしてもよい。また、例えば、天候により背景の種類を分類するようにしてもよい。さらに、場所とシーン等を組み合わせて、背景の種類を分類するようにしてもよい。

そして、例えば、背景の種類に応じて、その背景の種類に適した識別器を用いて、対象物の検出や認識を行うようにすればよい。例えば、場所やシーンに応じた服装の検出に適した識別器を用いて、人の検出や認識を行うようにしてもよい。例えば、背景が海なら水着の検出に適した識別器、背景が祭りなら浴衣の検出に適した識別器、スキー場ならスキーウエアの検出に適した識別器を用いるようにしてもよい。

なお、背景の種類の識別方法には、任意の方法を採用することが可能である。

また、以上の説明では、画像処理部で背景の種類の識別を行う例を示したが、例えば、入力画像の各分割領域の背景の種類を示す情報を外部から与えるようにしてもよい。そして、認識処理部が、外部から与えられた情報に基づいて、各分割領域の背景の種類に応じた識別器を用いるようにしてもよい。

さらに、例えば、第３の実施の形態において、背景領域をマスクせずに、背景領域以外の領域（動体領域）のみの特徴量に基づいて、各分割領域の背景の種類を識別するようにしてもよい。

｛動体検出に関する変形例｝
また、動体領域の検出方法は、上述した例に限定されるものではなく、任意の方法を採用することができる。

例えば、背景差分と時間差分のうち一方のみを用いて、動体領域を検出するようにしてもよい。

さらに、例えば、他の動体検出方法を用いて、動体領域を検出するようにしてもよい。

｛検出窓に関する変形例｝
また、例えば、上述した検出窓５１のスキャン方法は、その一例であり、ラスタスキャン以外のスキャン方法を採用することも可能である。

さらに、検出窓５１が対象物に対して大きすぎたり、或いは、小さすぎたりする場合、例えば、検出窓５１のサイズを変更したり、入力画像のサイズを変更したりして、検出窓５１と対象物の相対的な大きさを適切に調整するようにしてもよい。

｛コンピュータの構成例｝
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）４０１，ROM（Read Only Memory）４０２，RAM（Random Access Memory）４０３は、バス４０４により相互に接続されている。

バス４０４には、さらに、入出力インタフェース４０５が接続されている。入出力インタフェース４０５には、入力部４０６、出力部４０７、記憶部４０８、通信部４０９、及びドライブ４１０が接続されている。

入力部４０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部４０７は、ディスプレイ、スピーカなどよりなる。記憶部４０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部４０９は、ネットワークインタフェースなどよりなる。ドライブ４１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア４１１を駆動する。

以上のように構成されるコンピュータでは、CPU４０１が、例えば、記憶部４０８に記憶されているプログラムを、入出力インタフェース４０５及びバス４０４を介して、RAM４０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU４０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア４１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア４１１をドライブ４１０に装着することにより、入出力インタフェース４０５を介して、記憶部４０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部４０９で受信し、記憶部４０８にインストールすることができる。その他、プログラムは、ROM４０２や記憶部４０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

また、例えば、本技術は以下のような構成も取ることができる。

（１）
入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は認識のうち少なくとも一方を行う認識処理部を
備える画像処理装置。
（２）
前記認識処理部は、前記入力画像内において所定の大きさの検出領域を移動させながら、前記検出領域内の前記背景の種類に応じた前記識別器を用いて、前記検出領域内の前記対象物の検出又は認識のうち少なくとも一方を行う
前記（１）に記載の画像処理装置。
（３）
前記認識処理部は、前記検出領域内に複数の種類の背景が存在する場合、前記検出領域内の面積が最大の背景の種類に応じた前記識別器を用いる
前記（２）に記載の画像処理装置。
（４）
前記認識処理部は、前記検出領域内に複数の種類の背景が存在する場合、前記検出領域の中心の背景の種類に応じた前記識別器を用いる
前記（２）に記載の画像処理装置。
（５）
前記入力画像を分割した分割領域毎に、前記分割領域内の特徴量に基づいて前記背景の種類を識別する背景識別部を
さらに備える前記（１）乃至（４）のいずれかに記載の画像処理装置。
（６）
前記背景識別部は、前記分割領域内の所定の周波数以上の成分の量に基づいて、前記分割領域の背景の種類を識別する
前記（５）に記載の画像処理装置。
（７）
前記背景識別部は、前記分割領域内の前記所定の周波数以上の成分の量が所定の閾値以上の第１の種類、及び、前記分割領域内の前記所定の周波数以上の成分の量が前記閾値未満の第２の種類の中から、前記分割領域の背景の種類を識別する
前記（６）に記載の画像処理装置。
（８）
前記入力画像内の動体を含む領域である動体領域を検出する動体検出部を
さらに備え、
前記認識処理部は、前記動体領域において、前記動体領域内の背景の種類に応じた前記識別器を用いて、前記対象物の検出又は認識のうち少なくとも一方を行う
前記（１）乃至（７）のいずれかに記載の画像処理装置。
（９）
前記入力画像内の動体を含む領域である動体領域を検出する動体検出部と、
前記入力画像内の前記動体領域以外の領域をマスクするマスク処理部と
をさらに備え、
前記認識処理部は、マスクされた前記入力画像において、無地の背景に対応する前記識別器を用いて、前記対象物の検出又は認識のうち少なくとも一方を行う
前記（１）乃至（７）のいずれかに記載の画像処理装置。
（１０）
画像処理装置が、
入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は認識のうち少なくとも一方を行う認識処理ステップを
含む画像処理方法。
（１１）
入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は認識のうち少なくとも一方を行う認識処理ステップを
含む処理をコンピュータに実行させるためのプログラム。

１画像処理システム，１２画像処理部，２１背景識別部，２２認識処理部，３１ａ，３１ｂ識別器，５１検出窓，１０１画像処理システム，１１１画像処理部，１２１動体検出部，１３１背景差分部，１３２時間差分部，１３３ラベリング部，１３４トラッキング部，２０１画像処理システム，２１１画像処理部，２２１認識処理部，２２２マスク処理部

Claims

入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は認識のうち少なくとも一方を行う認識処理部を
備える画像処理装置。
前記認識処理部は、前記入力画像内において所定の大きさの検出領域を移動させながら、前記検出領域内の前記背景の種類に応じた前記識別器を用いて、前記検出領域内の前記対象物の検出又は認識のうち少なくとも一方を行う
請求項１に記載の画像処理装置。
前記認識処理部は、前記検出領域内に複数の種類の背景が存在する場合、前記検出領域内の面積が最大の背景の種類に応じた前記識別器を用いる
請求項２に記載の画像処理装置。
前記認識処理部は、前記検出領域内に複数の種類の背景が存在する場合、前記検出領域の中心の背景の種類に応じた前記識別器を用いる
請求項２に記載の画像処理装置。
前記入力画像を分割した分割領域毎に、前記分割領域内の特徴量に基づいて前記背景の種類を識別する背景識別部を
さらに備える請求項１に記載の画像処理装置。
前記背景識別部は、前記分割領域内の所定の周波数以上の成分の量に基づいて、前記分割領域の背景の種類を識別する
請求項５に記載の画像処理装置。
前記背景識別部は、前記分割領域内の前記所定の周波数以上の成分の量が所定の閾値以上の第１の種類、及び、前記分割領域内の前記所定の周波数以上の成分の量が前記閾値未満の第２の種類の中から、前記分割領域の背景の種類を識別する
請求項６に記載の画像処理装置。
前記入力画像内の動体を含む領域である動体領域を検出する動体検出部を
さらに備え、
前記認識処理部は、前記動体領域において、前記動体領域内の背景の種類に応じた前記識別器を用いて、前記対象物の検出又は認識のうち少なくとも一方を行う
請求項１に記載の画像処理装置。
前記入力画像内の動体を含む領域である動体領域を検出する動体検出部と、
前記入力画像内の前記動体領域以外の領域をマスクするマスク処理部と
をさらに備え、
前記認識処理部は、マスクされた前記入力画像において、無地の背景に対応する前記識別器を用いて、前記対象物の検出又は認識のうち少なくとも一方を行う
請求項１に記載の画像処理装置。
画像処理装置が、
入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は認識のうち少なくとも一方を行う認識処理ステップを
含む画像処理方法。
入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は認識のうち少なくとも一方を行う認識処理ステップを
含む処理をコンピュータに実行させるためのプログラム。