JP5702960B2 - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP5702960B2
JP5702960B2 JP2010158264A JP2010158264A JP5702960B2 JP 5702960 B2 JP5702960 B2 JP 5702960B2 JP 2010158264 A JP2010158264 A JP 2010158264A JP 2010158264 A JP2010158264 A JP 2010158264A JP 5702960 B2 JP5702960 B2 JP 5702960B2
Authority
JP
Japan
Prior art keywords
subject
partial area
unit
image
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010158264A
Other languages
English (en)
Other versions
JP2012022412A (ja
Inventor
八代 哲
哲 八代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010158264A priority Critical patent/JP5702960B2/ja
Publication of JP2012022412A publication Critical patent/JP2012022412A/ja
Application granted granted Critical
Publication of JP5702960B2 publication Critical patent/JP5702960B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。
画像中から被写体を検出する技術の例としては、ViolaとJonesの報告(非特許文献1参照)がある。これは、所定の大きさのサブウィンドウを走査し、サブウィンドウ内の画像として切り出したパターン画像に対し、被写体であるか否かの2クラス判別を行う。この判別では、AdaBoostを用いて、多くの弱判別器を有効に組合せて判別器を構成し、判別精度を向上させている。一方、この判別器を直列に繋ぎ、カスケード型の検出器を構成するようにする技術もある。さらに、それぞれの弱判別器をHaarタイプの矩形特徴量で構成し、矩形特徴量の算出を、積分画像を利用して高速に行う技術もある。このカスケード型の検出器は、まず前段の単純な(即ち計算量のより少ない)判別器を用いて明らかに被写体でないパターンの候補をその場で除去する。そして、それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な(即ち計算量のより多い)判別器を用いて被写体か否かの判定を行う。従って、全ての候補に対して複雑な判定を行う必要がないため高速である。
また、早い段階で被写体でないパターンを対象から外すことで高速化した技術が知られている(特許文献1参照)。これは、顔画像と非顔画像とを識別する顔学習辞書と、対象画像のエッジ画像と、に基づいて、対象画像から顔画像を含むと思われる部分画像を抽出し、学習辞書を参照して、抽出された部分画像が、顔画像を含んでいるか否かを識別するものである。
さらに、動画から効率よく被写体を検出する場合、時間的に近いフレーム同士は相関が高いことを利用すること方法が知られている(特許文献2参照)。これは、物体検出処理によって、何れかの階層において特定物体が検出された場合には、次の入力画像に対しては、特定物体が検出された階層と同じ階層の階層画像に対して物体検出処理を行うものである。
そして、様々な物体の認識において処理を共通化する一般物体認識の処理方式が提案されている(非特許文献2参照)。このような一般物体認識の方式を利用することにより、認識したい物体に応じてパラメータを切替えれば、様々な物体の認識が可能になる。
特開2003−44853号公報 特開2007−257358号公報
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'01) Rapid Object Detection using Boosted Cascade of Simple Features 柳井、「一般物体認識の現状と今後」、情報処理学会論文誌、Vol.48, No.SIG_16(CVIM_19), 2007.11.15
非特許文献1及び特許文献1は、1枚の画像を対象としたものであり、動画から被写体を効率的に探索することは考慮されていないという課題がある。
特許文献2は、検出結果によって次のフレームの探索範囲を絞り込むものであるが、検出しなかった場所は探索範囲外となる。従って、新たにフレームインした被写体や物陰から現れた被写体を検出するためには定期的に全領域を対象にして探索する必要があるため、効率よく検出することができないという課題がある。
上記の課題に鑑み、本発明は、動画から被写体を効率よく検出することを目的とする。
上記課題を達成する、本発明に係る情画像処理装置は、
動画像の入力を受け付ける受信手段と、
前記動画像を構成するフレーム画像上部分領域の位置を特定するための位置情報と、前記部分領域に被写体が存在する可能性を示す被写体尤度とを、関連付けて記憶する記憶手段と、
現フレームについて、前フレームとは異なる位置の部分領域であって、前記記憶手段に記憶された被写体尤度のうち、閾値よりも大きい被写体尤度に関連付けられた前記位置情報に対応する部分領域を切り出す切り出し手段と、
前記切り出し手段により切り出された前記部分領域から特定の複数の被写体のそれぞれを検出する検出手段と、
前記部分領域における前記特定の複数の被写体のそれぞれの検出結果に基づいて、現フレームの当該部分領域の位置に対する被写体尤度を導出して前記記憶手段に記憶する導出手段と、
現フレームの画像に対して、前フレームの部分領域とは異なる位置に設定される部分領域の被写体尤度を、前フレームの対応する位置近傍の被写体尤度に基づいて補完し、前記記憶手段に設定する設定手段と、
を備えることを特徴とする。
本発明によれば、動画から被写体を効率よく検出することが可能となる。
(a)画像処理装置のハードウェア構成の一例を示す図(その1)、(b)画像処理装置の概略構成を示した図。 第1実施形態の概略処理の一例を示すフローチャート。 サブウィンドウの走査方法の一例を示す図。 表示装置109に表示する画面の一例を示す図。 探索制御部152の処理の一例を示すフローチャート。 被写体尤度情報の位置を移動する一例を示す図。 (a)被写体判別部153の概要の一例を示す図、(b)各強判別部701の一例を示す図、(c)各弱判別部711の一例を示す図。 (a)判別情報格納部725に格納される判別パラメータについての説明図、(b)多重解像度化したパターンと画素番号との関係を示す図。 顔判別処理の一例を示すフローチャート。 被写体判別部153のその他の例を示す図。 画像処理装置のハードウェア構成の一例を示す図(その2)。
(第1実施形態)
図1(a)を参照して、本実施形態に係る画像処理装置のハードウェア構成の一例について説明する。CPU101は、ROM102やRAM103に格納されたプログラムに従って各種命令を実行する。CPU101がプログラムに従って命令を実行することによって、後述する機能やフローチャートに係る処理が実現される。ROM102は、本実施形態に係るプログラムやその他の制御に必要なプログラムやデータを格納する。RAM103は、画像情報112、被写体尤度情報113の他、一時的なデータを格納する。ドライブI/F104は、IDEやSCSI等の外部記憶装置とのインターフェースを実現する。HDD105は、画像やパターン抽出等のプログラムや、顔、非顔のサンプルパターン等を記憶するハードディスクである。動画像入力装置106は、デジタルビデオカメラやネットワークカメラ等の装置から動画像を受信する入力装置である。動入力装置108への入力は、キーボードやマウス等であって、オペレータからの入力により実行される。表示装置109は、ブラウン管や液晶ディスプレイ等である。ネットワークI/F110は、インターネットやイントラネット等のネットワークと接続を行うモデムやLAN等である。バス111は、これらを接続して相互にデータの入出力を行うバスである。
図1(b)を参照して、本実施形態に係る画像処理装置の概略構成について説明する。動画像入力部151は、動画像入力装置106から入力される動画像の各フレームを入力する。被写体検出部155は、探索制御部152と、被写体判別部153と、被写体尤度情報記憶部154とを備える。探索制御部152は、被写体を評価するための、後述する図3のサブウィンドウ301の走査方法を制御する。より具体的に説明すると、探索制御部152は、走査位置における前フレームの被写体尤度情報に従って走査幅の制御を行う。被写体判別部153は、サブウィンドウ301内の画像情報が被写体であるか否かを評価し、被写体らしさ(被写体尤度情報)の値を出力し、かつ、所定の閾値との比較によって被写体らしい領域を判定する。被写体尤度情報記憶部154は、入力画像の領域の位置と被写体サイズ毎の被写体らしさ(被写体尤度情報)とを関連付けて記憶する。
次に、図2を参照して、本実施形態の概略処理の一例を示すフローチャートについて説明する。本実施形態では被写体の一例として人間の顔を検出する画像処理装置を挙げて説明する。
ステップS201において、動画像入力部151は、動画像入力装置106から入力された各フレーム画像データをRAM103に読み込む。ここで読み込まれた画像データは、例えば8ビットの画素により構成される2次元配列のデータであり、R(RED)、G(GREEN)、B(BLUE)、の3つの面により構成される。このとき、画像データがMPEG、MotionJPEG等の方式により圧縮されている場合、動画像入力部151は、画像データを所定の解凍方式にしたがって解凍し、RGB各画素により構成される画像データとする。更に、本実施形態では動画像入力部151は、RGBデータを輝度画像データに変換し、輝度画像データを以後の処理に適用するものとして、RAM103に格納する。
また動画像入力部151は、画像データとしてYCrCbのデータを入力する場合、Y成分をそのまま輝度画像データとしても良い。なお、以降の処理に適用するものは輝度画像データに限定されるものではない。明るさやコントラスト調整等の正規化、色変換処理の他に所定の方向のエッジの強さを示すエッジ画像や、微分、積分等の画像処理を行った1つ又は異なる画像処理を適用した複数の画像データを以降の処理に適用するようにしてもよい。
次に、ステップS202において、動画像入力部151は、画像データを所定の倍率に縮小した輝度画像データ(フレーム縮小画像)を生成する。これは、本実施形態では様々な大きさの顔の検出に対応するために、複数のサイズの画像データに対して順次検出を行うようにしたためである。例えば、倍率が1.2倍程度異なる複数の画像の縮小処理が後段の検出処理のために順次適用される。図3に示される(a)は、ステップS202において縮小されたそれぞれの縮小画像を示しており、ここでは、それぞれの縮小画像に対して、ある位置を基準として所定の大きさの矩形領域を切り出すものとする。
次に、ステップS203において、探索制御部152は、縮小された輝度画像データ上に所定の大きさのサブウィンドウ(部分領域)を設定する。この処理の詳細は後述する図5等を参照して説明する。
次に、ステップS204において、被写体判別部153は、照合パターンが顔パターンか非顔パターンかを判別する。この処理の詳細は後述する図9等を参照して説明する。
ステップS205において、ステップS202の出力である縮小輝度画像に対して図3に示すようなサブウィンドウ301の走査が終了したか否かが判定される。走査が終了した場合(ステップS205;YES)、ステップS206に進む。一方、走査が終了していない場合(ステップS205;NO)、ステップS202に戻る。そして、倍率が異なる縮小処理が順次適用され、ステップS202からステップS205までの処理が繰り返される。
ステップS206において、被写体判別部153は、顔と判別されたパターンを表示装置109へ顔領域として出力する。
図4を参照して、上記表示装置109に表示する画面の一例について説明する。図4では、入力画像401に顔の検出結果を重畳して出力した画面表示の一例となっている。検出結果枠402は、被写体判別部153によって抽出された顔パターンで、その位置と大きさとが示された枠である。ボタン403は画面を閉じることを指定するボタンである。
次に、ステップS207において、例えば動画像入力部151は、動画が終了したか否かを判定する。動画が終了していた場合(ステップS207;YES)、処理を終了してリターンする。一方、動画が終了していない場合(ステップS207;NO)、ステップS202に戻る。
次に、被写体尤度情報について説明する。被写体尤度情報とは、サブウィンドウ301内に被写体が存在する可能性を示す情報である。図3における各縮小画像でのサブウィンドウ301の移動可能領域に基づいた数だけ存在する。2次元データは、縮小画像の幅−サブウィンドウ301の幅+1と、縮小画像の高さ−サブウィンドウ301の高さ+1との積の数だけ存在することになる。具体的には、10画素×10画素の入力画像において、5画素×5画素のサブウィンドウ(部分領域)を、1画素ずつ行及び列をずらしてラスタスキャンする場合を考える。その場合、画像の幅10−サブウィンドウの幅5+1(=6)と、画像の高さ10−サブウィンドウの高さ5+1(=6)との積である36箇所のサブウィンドウの位置における36個の被写体尤度情報が得られることになる。
例えば、被写体判別部153は、サブウィンドウ301の位置に基づいて記憶アドレスを求め、この記憶アドレスに被写体尤度情報を記憶する。例えば、被写体判別部153は、サブウィンドウ301の左上の座標に相当する位置に対応づけて、サブウィンドウ301内のパターンを評価して得られた被写体尤度情報を被写体尤度情報記憶部154に記憶する。被写体判別部153は、被写体尤度情報を量子化した、2値としても良い。また、被写体尤度情報は低解像度化しても良い。例えば、記憶領域を4分の1にしたい場合は、幅2画素×高さ2画素の4画素の最大値を持って、対応する1画素に置き換えれば良い。
次に、ステップS203における探索制御処理について詳細に説明する。図3(b)は、非特許文献1において、それぞれの縮小画像から縦横順次に走査を繰り返していく途中の設定の様子を示すものである。同図から分かるように、縮小率が大きな画像からサブウィンドウ301を設定して、サブウィンドウ301内の画像パターン顔の判別を行う場合には、画像に対して大きな顔の検出を行うことになる。本実施形態における探索制御部152は、前フレームまでの被写体尤度情報に基づいて探索位置、即ちパターン評価を行うサブウィンドウ301の位置を設定する。
図5のフローチャートを参照して、探索制御部152の処理の一例について説明する。ステップS501において、探索制御部152は、被写体尤度情報記憶部154に格納された被写体尤度情報を参照する。初回のフレーム画像上には被写体尤度情報は存在しないので、探索制御部152は、所定の尤度値に被写体尤度情報を初期化する。また、長期間評価しない座標では記憶していた尤度と映像との関係に誤差が生じるため、探索制御部152は、定期的に被写体判別を行う。この際、探索制御部152は、時間的及び空間的に探索箇所を均等に分散する。即ち、探索制御部152は、例えば、偶数番目のフレームでは全探索を行い、奇数番目のフレームは探索しないというような探索方法を採らない。探索制御部152は、偶数番目のフレームでは偶数番目のラインを探索し、奇数番目のフレームでは奇数番目のラインを探索するようにする。つまり、探索制御部152は、前のフレームで決定したパターン切り出し位置以外の位置の被写体尤度情報を、その位置とは異なる位置の被写体尤度情報に基づいて決定し、被写体尤度情報記憶部154に記憶するようにする。これにより、負荷の時間的分散が図れ、処理コストに対して精度向上を図ることができる。
また、探索制御部152は、オブジェクトの動きが既知であるならば、被写体尤度情報記憶部154に記憶されている被写体尤度情報の入力画像上の位置を移動させても良い。
例えば、オプティカルフロー等の動きベクトルを生成する公知技術がある。この技術は、主としてMPEG等の動画符号化技術で利用されている。例えば探索制御部152は、この技術を複数のフレーム画像に適用することで生成した動きベクトル情報を、被写体尤度情報記憶部154に記憶した被写体尤度情報に適用して被写体尤度情報の位置を移動させることができる。
図6を参照して、被写体尤度情報の位置を移動する一例について説明する。図6(a)は、時刻t=n−1におけるフレーム画像である。図6(b)は、フレーム画像t=n−1からt=nにおいて、被写体の位置付近での動きベクトルを示す。図6(c)は、時刻t=nにおけるフレーム画像である。また、図6(d)は、時刻t=n−1における、ある縮小率における被写体尤度情報を2値化して可視化した図であり、黒い丸は被写体尤度情報が高いことを現している。図6(e)は、図6(d)のt=n−1における被写体尤度情報と図6(b)の動きベクトルとに基づいて、被写体尤度情報が移動した後の被写体尤度情報を同様に可視化した図である。動画を圧縮符号化する際に、動きベクトル(動きベクトル情報)は被写体の有無に関わらず生成される。探索制御部152は、動きベクトル情報を被写体が検出できていない被写体尤度情報の位置へ適用することにより、被写体である可能性が高い場所のみを効果的に探索して被写体を検出することができる。
また、過去の被写体の位置情報から現在や未来の被写体の位置を予測する公知技術がある。例えば、カルマンフィルタ、パーティクルフィルタ等である。被写体を検出できた場合、例えば探索制御部152は、このような技術を用いて被写体の動きを求め、被写体尤度情報記憶部154に記憶された被写体尤度情報に適用する。そして、探索制御部152は、被写体尤度情報を移動させることで、被写体判別部153による被写体尤度情報の更新頻度を低減し、処理コストを抑えることができる。
次に、ステップS502において、探索制御部152は、最大尤度の拡張処理を行う。この処理は、ある位置における被写体尤度情報を所定範囲の近傍の最大の被写体尤度情報で置き換えることで実現する。
このステップの処理の目的は、前ステップでの説明で述べた、時間的空間的に探索箇所を均等に分散することで、探索が行われなかった位置に対して補完を行うことである。
次にステップS503において、探索制御部152は、図3のような走査を行い、サブウィンドウ301の位置に対応する尤度値(被写体尤度情報)が所定の閾値以上の位置へサブウィンドウ301の位置を設定する。また、探索制御部152は、尤度値からサブウィンドウ301の移動量を決定しても良い。これは、探索制御部152は、被写体尤度情報に対応する移動幅を予め統計的に求めておいて、被写体尤度情報から移動量への変換テーブルを作成しておくことにより実現する。そして、このサブウィンドウ301内の部分領域を切り出す。切り出された部分領域内で、以下被写体検出を行う。
次に、図7(a)を参照して、ステップS204における被写体判別(顔判別)の方法について詳細に説明する。被写体判別部153は図7に示したように複数の強判別部701を直列に接して構成される。被写体判別部153は、前段の強判別部701に入力されたパターンデータ(輝度データ)が被写体であるか否かを判定し、被写体であった場合にのみ後段の強判別部701で同じパターンデータが被写体であるか否かの判定を前段より高い精度で行う。各強判別部及びその内部の弱判別部は同様に構成されており、各部の数や判別パラメータが異なるのみである。
次に、図7(b)を参照して、各強判別部701の一例について説明する。各強判別部701は複数の弱判別部711で構成され、各々が出力する後述の被写体信頼度を加算器712で統合し、さらに閾値処理部713で処理を行い、被写体であるか否かを出力する。
次に、図7(c)を参照して、各弱判別部711の一例について説明する。各弱判別部711は、解像度変換部721と、局所領域抽出部722と、特徴量算出部723と、被写体信頼度変換部724とを備える。解像度変換部721は、複数の解像度での画像を作成する。特徴量算出部723は、後述の局所特徴量を算出する。被写体信頼度変換部724は、後述の局所特徴量を被写体信頼度に変換する。各々の部へは判別情報格納部725から判別パラメータが供給される。具体的には、局所領域抽出部722へは画像番号リストが、特徴量算出部723へは特徴フィルタが、被写体信頼度変換部724へは被写体信頼度変換LUTが、それぞれ供給される。
図8(a)を参照して、上記判別情報格納部725に格納される判別パラメータについて説明する。判別パラメータは、強判別部数801と、その数分の強判別パラメータ802と、が結合されたものである。各々の強判別パラメータ802には、1つの強判別部に関するパラメータが格納される。各々の強判別パラメータ802は弱判別部数803と、その数分の弱判別パラメータ804と、閾値805とが結合されたものである。各々の弱判別パラメータ804には1つの弱判別部に関するパラメータが格納される。各弱判別部数803は、それぞれの局所領域の画素数806と、局所領域の画素番号を列挙した画素番号リスト807と、画素数806に等しい行数×1列の行列である特徴抽出フィルタ808と、を含む。また、各弱判別部数803は、特徴量から被写体の信頼度への変換テーブルである、被写体信頼度変換ルックアップテーブル(LUT)809を含む。
図8(b)に示すように、本実施形態では、顔パターンは目、口を含む20画素×20画素の標準パターンとしている。また、本実施形態ではこれを更に1/2に縮小し、10画素×10画素とした1/2縮小パターンと、1/4に縮小して5画素×5画素にした1/4縮小パターンとを作成する。そして、それぞれの画素に対して1から400、401から500、501から525のように、1から525までの画素番号を付与している。このように多重解像度にすることによって以下の2つの効果がある。即ち、1つ目は、低解像度側では顔を構成する器官同士の位置関係を効率良く照合できる。また2つ目は、高解像度側では顔を構成する器官の部分的特徴を精度良く照合できる。
次に、図9を参照して、図2のステップS204における顔判別処理の一例を示すフローチャートについて説明する。ステップS901において、被写体判別部153は、解像度変換部721によりパターンの1/2と1/4との縮小画像を作成する。本実施形態では解像度は1/2n(nは自然数)としているが、これに限られない。例えば、1/1.2倍程度の刻みで複数の解像度の画像が得られているので、解像度変換部721は、それを利用した更に多くの解像度でのパターンを用いても良く、その場合でも処理コストが増加することはほとんどない。多重解像度にすることによって以下の2つの効果がある。即ち、低解像度側では顔を構成する器官同士の位置関係を効率良く照合でき、高解像度側では顔を構成する器官の部分的特徴を精度良く照合できる。
次にステップS902において、被写体判別部153は、強判別部ループカウンタNを初期化する。次にステップS903において、被写体判別部153は、弱判別部ループカウンタtを初期化する。
次にステップS904において、特徴量算出部723は、局所特徴量を算出する。局所特徴量Ut,Nは以下の式(1)によって算出する。
Figure 0005702960
ここで、添え字t,NはN番目の強判別部を構成するt番目の弱判別部を示す。また、Ut,Nは局所特徴量を示す数値であり、φt,Nは特徴抽出フィルタ808であり、機械学習により得られるものである。また、zt,Nは局所領域抽出部722によって得られる画素番号リスト807で示されるパターン又は縮小パターン上の画素の輝度を要素とする画素数に等しい行数で1列の行列である。
そして、ステップS905において、被写体信頼度変換部724は、以下の式(2)の様に局所特徴量Ut,Nから被写体信頼度Ht,Nに変換する。
Figure 0005702960
但し、Ht,Nは被写体信頼度の出力である。またft,Nは機械学習によって得られる被写体信頼度変換ルックアップテーブル809に対応し、局所特徴量Ut,Nからテーブル変換によって被写体信頼度Ht,Nに変換し、弱判別部の出力としている。被写体信頼度変換部724は、局所特徴量Ut,Nが変換テーブルの上限又は下限を超えている場合はそれぞれ、上限値又は下限値に設定し直した上で、テーブルを参照し、被写体信頼度を得る。
次にステップS906において、被写体判別部153は、最後の弱判別部まで被写体信頼度を求めたか否かを判定する。そして、最後の弱判部まで被写体信頼度を求めた場合(ステップS906;YES)、ステップS907に進む。一方、最後の弱判部まで被写体信頼度を求めていない場合(ステップS906;NO)、ステップS911に進む。そして、ステップS911において、弱判別部番号tをインクリメントして、ステップS904に戻る。ステップS907において、加算器712は、以下の式(3)のように被写体信頼度の総和を求める。
Figure 0005702960
次に、ステップS908において、強判別部701を構成する閾値処理部713は、以下の式(4)のように前ステップS907で求められた被写体信頼度の総和を閾値と比較することによって被写体か否かの判定を行う。被写体信頼度の総和が閾値よりも大きい場合、顔であると判定されることになる。
Figure 0005702960
強判別部701は、顔でないと判定された場合、処理を終了する。一方、強判別部701は、顔であると判定された場合、ステップS909に進む。ステップS909において、被写体判別部153は、最後の強判別部による顔判定が終了したか否かを判定する。最後の強判別部による顔判定が終了した場合(ステップS909;YES)、ステップS910に進む。一方、最後の強判別部による顔判定が終了していない場合(ステップS909;NO)、ステップS912に進み、強判別部番号Nをインクリメントして、ステップS903に戻る。なお、被写体判別部153は、最後の強判別部まで全て顔であると判定された場合にのみ最終的に顔であると判定する。そして、ステップS910において、画像におけるパターンの検出位置を記憶して処理を終了する。本実施形態では、局所特徴量として、照合パターンのうち所定解像度、所定サイズ、そして形状の局所領域における線形識別特徴を用いたが、非特許文献1の方法も適用できる。
次に被写体尤度情報の算出方法について説明する。例えば被写体判別部153は、複数ある強判別部701を通過した回数と実際に被写体である確率との関係を予め求めておき、強判別部701の通過回数に基づいて尤度を求める。また、被写体判別部153は、各強判別部701で求められる、被写体信頼度の総和Hと実際に被写体である確率との関係を予め求めておき、被写体信頼度の総和Hに基づいて尤度(被写体尤度情報)を求めても良い。
(第2実施形態)
第1実施形態ではでは強判別部701を直列に接続し、1つの被写体を検出する例を示した。本実施形態では、同時に複数の被写体を検出する場合について説明する。
まず図10(a)を参照して、強判別部1001から強判別部1006を直並列に構成し、同時に2つの被写体を検出することができる被写体判別部153の第2の例について説明する。強判別部1001から強判別部1003では、それぞれ被写体カテゴリA(物体カテゴリA)か否かを判別する。また、強判別部1004から強判別部1006では、それぞれ被写体カテゴリB(物体カテゴリA)か否かを判別する。次に、この被写体判別部153により被写体を判別する方法について説明する。強判別部1001から、強判別部1002、強判別部1003、強判別部1004、強判別部1005、強判別部1006の順に判別を行う。各強判別部では、第1実施形態で説明した強判別部701と同様の処理を行うため、主に相違点について説明する。なお、各強判別部の構成は第1実施形態と同様である。
強判別部1001から強判別部1006において、被写体信頼度は、加算器712によって、左端までの最短経路上の強判別部の被写体信頼度を総和したものとする。例えば、強判別部1006では、強判別部1004から強判別部1006の被写体信頼度を総和したものである。強判別部1003が出力する被写体信頼度が、被写体カテゴリAの被写体信頼度Hとなる。また、強判別部1006が出力する被写体信頼度が、被写体カテゴリBの被写体信頼度Hとなる。また、強判別部1001から強判別部1006では閾値Thとの比較によって被写体か否かの判定を行い、右端の強判別部1003又は強判別部1006で閾値以上である場合に、被写体であると判定する。強判別部1001、強判別部1002、強判別部1004、強判別部1005で閾値以下となった場合には、それ以降の右側における強判別部の処理を打ち切り、その時点の被写体信頼度をもって該当する被写体カテゴリの信頼度とする。
各サブウィンドウ位置における被写体尤度Cは、以下の式(5)の様に検出対象ごとの被写体尤度の何れか大きい方とする。
Figure 0005702960
また、被写体カテゴリiの被写体尤度Cは、以下の式(6)により求まる。
Figure 0005702960
ここで、P(H)は被写体カテゴリiの被写体信頼度Hが被写体である確率である。被写体尤度情報記憶部154には、検出対象ごとの被写体尤度CとCを記憶しても良いが、被写体尤度Cのみを記憶することによって記憶領域を有効に利用しても良い。また、被写体尤度が上位の被写体カテゴリについて、被写体カテゴリを識別する識別子と被写体尤度とを対応付けて記憶しても良い。
次に、図10を参照して、強判別部1007から強判別部1013を木(ツリー)構造で構成し、同時に2つの被写体を検出することができる被写体判別部153の第3の例について説明する。強判別部1010から強判別部1011は検出対象の物体カテゴリAに対応し、強判別部1012から強判別部1013は検出対象の被写体カテゴリBに対応する。そして、強判別部1007から強判別部1009までは、両方の被写体カテゴリに対応し、被写体カテゴリAまたはBの何れかであるか、又は何れでもないかを判別する。
また、強判別部1009から右には2つ以上の分岐先があっても良く、分岐が階層化していても良い。分岐する強判別部の間は0から複数個の強判別部から構成される。
次に、この被写体判別部153で被写体判別を行う方法について説明する。被写体判別は、強判別部1007をルートとして、木(ツリー)構造の幅優先探索のごとく強判別部1007から強判別部1013まで走査して判別を行う。強判別部1011が出力する被写体信頼度が、被写体カテゴリAの被写体信頼度Hとなる。また、強判別部1013が出力する被写体信頼度が、被写体カテゴリBの被写体信頼度Hとなる。
強判別部1007から強判別部1010、又は強判別部1012で被写体信頼度が閾値以下となった場合には、それ以降の右側に繋がった強判別部の処理を打ち切る。そして、その時点の被写体信頼度をもって、対応する1つ又はそこから分岐する複数の強判別部の被写体カテゴリの信頼度とする。この場合でも、各サブウィンドウ位置における被写体尤度は、式(5)により検出対象ごとの被写体尤度の何れか大きい方に基づいて求めることができる。
各強判別部では、第1実施形態の強判別部701と同様の処理を行うため、相違点について説明する。分岐した右側の強判別部1010から強判別部1013における被写体信頼度は、加算器712によって、ルートの強判別部1007までのそれぞれ最短経路上の強判別部の被写体信頼度の総和である。また、強判別部1007から強判別部1009は、被写体カテゴリごとに異なる被写体信頼度変換ルックアップテーブル809を持ち、被写体カテゴリごとに被写体信頼度を求めるように構成することもできる。
なお、強判別部701は被写体尤度を求めるものであるので、任意の判別器をAdaboostやサポートベクターマシンのような機械学習によって得られるパラメータにより構成しても良い。また、動画から被写体検出する際に、非特許文献2で提案されている一般被写体認識の処理方式を用いてもサブウィンドウに対応する被写体尤度を求めるのであれば、本発明を適用することができる。
(第3実施形態)
図11を参照して、画像処理装置のハードウェア構成の一例を示す図(その2)について説明する。第1実施形態と共通する部分には同じ参照番号を付与している。ブロック構成としては、プログラムを記録したDVD又はCDのような光ディスク114を追加し、ドライブインターフェース(ドライブI/F)104にCD/DVDドライブ等の外部記憶読書装置115が接続されている点が第1実施形態とは異なる。プログラムを記録した光ディスク114を外部記憶読書装置115に挿入するとCPU101は記録媒体からプログラムを読み取って、RAM103に展開し、第1実施形態と同様の処理を実現することができる。
(第4実施形態)
第1実施形態、第2実施形態、第3実施形態では顔抽出を行うシステムとしているが、上述した処理は、顔以外の任意の物体の検出に対して適用可能である。例えば、人体全身、人体上半身、生物、自動車等がある。工業、流通分野等では生産物、部品、流通物品等の同定や検査等に適用できる。同時に検出する被写体の例としては犬と猫や、正面顔と横を向いた顔などである。以上、上述した各実施形態によれば、被写体が存在する可能性が高い領域のみを探索するので、動画から被写体を効率よく検出することができる。
また本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (6)

  1. 動画像の入力を受け付ける受信手段と、
    前記動画像を構成するフレーム画像上部分領域の位置を特定するための位置情報と、前記部分領域に被写体が存在する可能性を示す被写体尤度とを、関連付けて記憶する記憶手段と、
    現フレームについて、前フレームとは異なる位置の部分領域であって、前記記憶手段に記憶された被写体尤度のうち、閾値よりも大きい被写体尤度に関連付けられた前記位置情報に対応する部分領域を切り出す切り出し手段と、
    前記切り出し手段により切り出された前記部分領域から特定の複数の被写体のそれぞれを検出する検出手段と、
    前記部分領域における前記特定の複数の被写体のそれぞれの検出結果に基づいて、現フレームの当該部分領域の位置に対する被写体尤度を導出して前記記憶手段に記憶する導出手段と、
    現フレームの画像に対して、前フレームの部分領域とは異なる位置に設定される部分領域の被写体尤度を、前フレームの対応する位置近傍の被写体尤度に基づいて補完し、前記記憶手段に設定する設定手段と、
    を備えることを特徴とする画像処理装置。
  2. 前記動画像を構成する複数のフレーム画像に基づいて被写体の動きを示す動きベクトル情報を生成する生成手段をさらに備え、
    前記導出手段は前記動きベクトル情報に基づいて、前記部分領域における被写体尤度を導出することを特徴とする請求項1に記載の画像処理装置。
  3. 前記フレーム画像を所定の倍率に縮小したフレーム縮小画像をさらにフレーム画像として用いることを特徴とする請求項1又は2に記載の画像処理装置。
  4. 受信手段と、記憶手段と、切り出し手段と、検出手段と、導出手段と、設定手段と、を備える画像処理装置を用いた画像処理方法であって、
    前記受信手段が、動画像の入力を受け付ける受信工程と、
    前記記憶手段が、前記動画像を構成するフレーム画像上における部分領域の位置を特定するための位置情報と、前記部分領域に被写体が存在する可能性を示す被写体尤度とを、関連付けて記憶する記憶工程と、
    前記切り出し手段が、現フレームについて、前フレームとは異なる位置の部分領域であって、前記記憶工程で記憶された被写体尤度のうち、閾値よりも大きい被写体尤度に関連付けられた前記位置情報に対応する部分領域を切り出す切り出し工程と、
    前記検出手段が、前記切り出し工程で切り出された前記部分領域から特定の複数の被写体のそれぞれを検出する検出工程と、
    前記導出手段が、前記部分領域における前記特定の複数の被写体のそれぞれの検出結果に基づいて、現フレームの当該部分領域の位置に対する被写体尤度を導出して前記記憶手段に記憶する導出工程と、
    前記設定手段が、現フレームの画像に対して、前フレームの部分領域とは異なる位置に設定される部分領域の被写体尤度を、前フレームの対応する位置近傍の被写体尤度に基づいて補完し、前記記憶手段に設定する設定工程と、
    を有することを特徴とする画像処理方法。
  5. 請求項4に記載の画像処理方法をコンピュータに実行させるためのプログラム。
  6. コンピュータに請求項4に記載の画像処理方法を実行させるためのプログラムが記憶されたコンピュータで読み取り可能な記憶媒体。
JP2010158264A 2010-07-12 2010-07-12 画像処理装置、画像処理方法、及びプログラム Active JP5702960B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010158264A JP5702960B2 (ja) 2010-07-12 2010-07-12 画像処理装置、画像処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010158264A JP5702960B2 (ja) 2010-07-12 2010-07-12 画像処理装置、画像処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012022412A JP2012022412A (ja) 2012-02-02
JP5702960B2 true JP5702960B2 (ja) 2015-04-15

Family

ID=45776679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010158264A Active JP5702960B2 (ja) 2010-07-12 2010-07-12 画像処理装置、画像処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5702960B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632129A (zh) * 2012-08-28 2014-03-12 腾讯科技(深圳)有限公司 一种人脸特征点定位方法及装置
CN104573715B (zh) * 2014-12-30 2017-07-25 百度在线网络技术(北京)有限公司 图像主体区域的识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7526101B2 (en) * 2005-01-24 2009-04-28 Mitsubishi Electric Research Laboratories, Inc. Tracking objects in videos with adaptive classifiers
JP4933186B2 (ja) * 2006-07-26 2012-05-16 キヤノン株式会社 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP5035035B2 (ja) * 2007-03-08 2012-09-26 オムロン株式会社 対象物追跡方法、対象物追跡装置および対象物追跡プログラム

Also Published As

Publication number Publication date
JP2012022412A (ja) 2012-02-02

Similar Documents

Publication Publication Date Title
JP4933186B2 (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
CN108229490B (zh) 关键点检测方法、神经网络训练方法、装置和电子设备
US7636454B2 (en) Method and apparatus for object detection in sequences
KR101932009B1 (ko) 다중 객체 검출을 위한 영상 처리 장치 및 방법
US8873859B2 (en) Apparatus and method that determines whether a pattern within the detection window is a subject based on characteristic amounts obtained from within a first region
US8913782B2 (en) Object detection apparatus and method therefor
US10079974B2 (en) Image processing apparatus, method, and medium for extracting feature amount of image
JP5671928B2 (ja) 学習装置、学習方法、識別装置、識別方法、およびプログラム
EP2680226B1 (en) Temporally consistent superpixels
US11272163B2 (en) Image processing apparatus and image processing method
US8482812B2 (en) Image processing apparatus for detecting object from image and method thereof
Oliveira et al. A novel Genetic Algorithms and SURF-Based approach for image retargeting
JP5258506B2 (ja) 情報処理装置
JP5335554B2 (ja) 画像処理装置及び画像処理方法
JP6511950B2 (ja) 画像処理装置、画像処理方法及びプログラム
US10643096B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP5702960B2 (ja) 画像処理装置、画像処理方法、及びプログラム
EP2966613A1 (en) Method and apparatus for generating a super-resolved image from an input image
US20230316697A1 (en) Association method, association system, and non-transitory computer-readable storage medium
JP2013011950A (ja) 画像処理装置、画像処理方法及びプログラム
Roka et al. Deep stacked denoising autoencoder for unsupervised anomaly detection in video surveillance
JP5693670B2 (ja) 画像処理装置及び画像処理方法
JP2009059047A (ja) 対象物検出装置、対象物検出方法、および対象物検出プログラム
JP2008102589A (ja) 動画像処理装置および動画像処理方法ならびに動画像処理プログラム
Pan et al. Accuracy improvement of deep learning 3D point cloud instance segmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140502

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150223

R151 Written notification of patent or utility model registration

Ref document number: 5702960

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151