JP2017010224A

JP2017010224A - 物体追尾装置、物体追尾方法及びプログラム

Info

Publication number: JP2017010224A
Application number: JP2015124205A
Authority: JP
Inventors: 睦凌郭; Muling Guo; 山本　真司; Shinji Yamamoto; 真司山本; 一郎梅田; Ichiro Umeda; 矢野　光太郎; Kotaro Yano; 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-06-19
Filing date: 2015-06-19
Publication date: 2017-01-12
Anticipated expiration: 2035-06-19
Also published as: JP6532317B2

Abstract

【課題】追尾する物体が他の物体などと交差するような場合に正しく追尾できるようにする。
【解決手段】物体の検出領域から前景領域を抽出し、物体の検出に利用した認識モデルに対応した前景マスクに基づいて交差を検知する。そして、交差を検知した場合にのみ物体の特徴量を示すテンプレートを更新する。一方、物体を検出できないときは、過去のフレームにおける画像領域に基づいて作成したテンプレートを用いて照合を行って物体を追尾するようにする。テンプレートには、交差前の特徴量に他の物体の情報が混入しにくいため、照合精度を高めることができる。
【選択図】図１

Description

本発明は、特に、物体の交差が生じるような状況で物体を追尾するために用いて好適な物体追尾装置、物体追尾方法及びプログラムに関する。

近年、映像機器においてインテリジェント化が普及している。例えば監視カメラに人体検出機能を搭載し、人数をカウントしたり、お客様の意図を分析したり、異常動作を検知したり、危険領域の侵入を検知したりするなどの機能が提案されている。また、デジタルカメラなどの撮影装置で撮影された映像中の人物の位置を特定して追尾することにより、カメラのフォーカス、露出を自動制御する機能も注目されている。さらに人物以外に、犬、猫、花などの一般の物体に注目して、カメラを自動制御する機能も普及している。

映像機器のインテリジェント化の基盤は、機械学習による物体検出技術である。機械学習では、大量の物体及び非物体の学習サンプルから、物体と非物体とを区別する特徴量を抽出し、認識モデルを作成する。画像から物体を検出する際には、まず原画像のサイズをスケーリングしてピラミッドレイヤを作成する。そして、各ピラミッドレイヤについてラスタースキャンを行い、認識モデルに記述した各特徴量の判別器の応答を組み合わせることにより、異なるサイズの物体を検出する。

この認識モデルを作成する代表的な手法は、adaboost学習によりカスケード型の識別器を作成する手法である。この方法では、認識しようとする物体を複数のカテゴリに分類し、カテゴリ毎に認識モデルを作成する。例えば、人体を正面人体、側面人体、及び半側面人体の三つのカテゴリに分け、類似した人体を集めて認識モデルを学習することにより、認識精度を向上させるようにする。また、前述のカスケード型の識別器は、複数の弱判別器を直列で連結して構成される。それぞれの弱判別器は、学習した認識モデルに基づき、現在のスキャンウィンドウの物体らしさの尤度を出力するとともに、閾値と比較し、物体であるかどうかを判定する。そして、全ての弱判別器を通過したスキャンウィンドウは物体と判定される。

一方、カメラで撮影した動画を時系列画像に静止画化して時系列画像の連続フレームに物体検出技術を適用する場合には、前記カスケード型の識別器だけで物体を検出することは不十分である。例えば時系列画像の前後フレームで物体の姿勢が変化したり照明条件が変化したりする場合があり、この場合には物体の見え方が変化するため、前記識別器で検出できなくなることがしばしば発生する。そこで、追尾技術を利用し、探索領域に物体を検出できたフレームにおいて、前記識別器の検出結果を記憶した軌跡と対応付けて軌跡を更新する。一方、探索領域に物体を検出できなかったフレームにおいて物体の追尾を行い、追尾結果を記憶した軌跡と対応付けて軌跡を更新する。そして、更新した軌跡に基づき次フレームの探索領域を設定する。

ところが、一般に物体を追尾する場合には、物体が交差したり遮蔽されたりすると、追尾の精度が低下してしまう。そこで、物体を追尾する従来の技術として、非特許文献１に記載の方法では、動きモデルで予測した物体の位置と追尾で観測した物体の位置とから、予測及び追尾の精度に基づいた重み付きに従って平均位置を求め、軌跡を平滑化して安定化するようにしている。

また、非特許文献２に記載の方法では、物体を複数のパーティクルに分割し、それぞれ追尾して統合するようにしている。この方法では、追尾の確信度が低いパーティクルを消失させ、追尾の確信度が高いパーティクルに基づいてさらに多数のパーティクルを生成する。次に、各パーティクルについて、慣性と突発性とを考慮して各パーティクルの位置を予測し、追尾の確信度を求める。そして、求めた追尾の確信度を重みとして各パーティクルの平均位置を物体の位置として追尾を続ける。

さらに特許文献１に記載の方法では、物体の検出枠の交差を予測し、交差しない時の検出結果をテンプレートとして記憶し、このテンプレートを物体が交差した時のテンプレートの照合に利用して物体交差時の追尾精度を向上しようとしている。

特表２００９−５１０５４１号公報

"An Introduction to the Kalman Filter," Greg Welch, Gray Bishop, SIGGRAPH 2001. "A tutorial on particle filters for online nonlinear/non-gaussian bayesian tracking(2002)," M. Sanjeev Arulampalam , Simon Maskell , Neil Gordon, IEEE TRANSACTIONS ON SIGNAL PROCESSING. VOL. 50, NO. 2. "Background Subtraction: Experiments and Improvements for ViBe," M. VAN DROOGENBROECK, and O. PAQUOT, Change Detection Workshop(CDW), Providence, Rhode Island, 6 pages, June 2012. David G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, 60, 2 (2004), pp. 91-110.

しかしながら、非特許文献１に記載の追尾方法では、追尾する物体が長時間交差または遮蔽されると、追尾を失敗してしまうことが多いという問題点がある。また、非特許文献２に記載の追尾方法では、追尾する物体が完全に遮蔽されると、追尾を続けることができないという問題点がある。

また、特許文献１に記載の追尾方法では、物体の検出枠間の交差を検知している。このため、追尾する物体が同種類物体の検出枠外の他の部位と交差したり遮蔽されたりした場合や、他種類の動体と交差したり遮蔽されたりした場合に、テンプレートに同種類物体の部位または動体の情報が多く混入し、交差時や遮蔽時に追尾を失敗しやすくなる。さらに、特許文献１に記載の追尾方法では、フレーム間差分とエッジとに基づいて物体を検出しており、認識モデルを利用せず物体の位置及び範囲を検出するため、対象とする物体以外の画像領域に誤追尾してしまう可能性がある。

本発明は前述の問題点に鑑み、追尾する物体が他の物体などと交差するような場合に正しく追尾できるようにすることを目的としている。

本発明に係る物体追尾装置は、動画の注目するフレームにおける物体の探索領域を過去のフレームにおける追尾結果に基づいて設定する設定手段と、前記設定手段によって設定された探索領域において前記物体の認識モデルを用いて前記物体を検出する検出手段と、前記検出手段によって検出された物体の検出領域から前景領域を抽出し、前記抽出した前景領域、及び前記認識モデルに対応するマスクを用いて前記物体の交差を検知する検知手段と、前記検知手段によって前記物体の交差が検知されなかった場合に、前記検出手段によって検出された物体の検出領域に基づいて、前記物体の特徴量を示すテンプレートを更新するテンプレート更新手段と、前記検出手段によって前記物体が検出されなかった場合に、前記テンプレート更新手段によって前記過去のフレームにおいて更新されたテンプレートと照合して前記設定手段によって設定された探索領域内から前記物体の画像領域を抽出する照合手段と、前記検出手段によって検出された物体の検出領域、または前記照合手段によって抽出された画像領域を追尾結果として更新する追尾結果更新手段と、を備えることを特徴とする。

本発明によれば、追尾する物体が他の物体などと交差するような場合に正しく追尾することができる。

第１の実施形態に係る物体追尾装置の機能構成例を示すブロック図である。実施形態における物体追尾装置のハードウェア構成例を示すブロック図である。第１の実施形態における物体を追尾する処理手順の一例を示すフローチャートである。ピラミッドレイヤの各探索領域を説明するための図である。カスケード型識別器の構成を説明するための図である。前景マスク外の前景領域の割合の計算を説明するための図である。第２の実施形態における物体を追尾する処理手順の一例を示すフローチャートである。第３の実施形態における物体を追尾する処理手順の一例を示すフローチャートである。第４の実施形態に係る物体追尾装置の機能構成例を示すブロック図である。第４の実施形態における物体を追尾する処理手順の一例を示すフローチャートである。

以下、添付図面を参照しながら本発明の好適な実施形態について詳細に説明する。本実施形態では、動画の各フレームから物体を追尾する例について説明する。なお、本発明は以下の実施形態に限定されるものではなく、本発明の実施に有利な具体例を示すにすぎない。本発明の特徴となる機能を実現するものも本発明の範囲に含まれる。

（第１の実施形態）
図１は、本実施形態に係る物体追尾装置１００の機能構成例を示すブロック図である。
図１において、物体追尾装置１００は、画像取得部１０１と、探索領域設定部１０２と、物体識別部１０３と、軌跡結合部１０４と、交差検知部１０５とを備えている。さらに、テンプレート更新部１０６と、テンプレート照合部１０７と、テンプレート記憶部１０９と、処理制御部１９９とを備えている。また、交差検知部１０５は、さらに前景領域抽出部１０５１と、前景マスク記憶部１０５２と、割合計算部１０５３とを備えている。なお、これらの構成が行う処理については後述する。

図２は、本実施形態における物体追尾装置１００のハードウェア構成例を示すブロック図である。
図２において、ＣＰＵ２０１は、本実施形態の物体追尾装置１００における各種制御を実行する。ＲＯＭ２０２は、物体追尾装置１００の立ち上げ時に実行されるブートプログラムや各種データを格納する。ＲＡＭ２０３は、ＣＰＵ２０１が処理するための制御プログラムを格納するとともに、ＣＰＵ２０１が各種制御を実行する際の作業領域を提供する。キーボード２０４及びマウス２０５は、ユーザによる各種入力操作環境を提供する。

外部記憶装置２０６は、例えばハードディスクやフレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ等である。ただし、外部記憶装置２０６は、制御プログラムや各種データを全てＲＯＭ２０２に格納するようにする場合には、必ずしも必要な構成要素ではない。表示器２０７は、ディスプレイなどで構成され、本実施形態における処理の結果等を表示する。ネットワークインターフェース２０８は、外部装置と通信を行うためのインターフェースである。ビデオインターフェース２０９は、不図示の撮像部と同軸ケーブルを介してフレーム画像を取り込むためのインターフェースである。また、バス２１１は、上記の各構成を接続するためのバスである。

図３は、本実施形態における物体を追尾する処理手順の一例を示すフローチャートである。以下、図３のフローチャートを参照しながら本実施形態における処理の流れを詳細に説明する。
まず、ステップＳ３０１において、処理制御部１９９は、画像取得部１０１から取得した全てのフレーム画像について、ステップＳ３０２〜Ｓ３１５までの処理を繰り返し行うように制御する。次に、ステップＳ３０２において、処理制御部１９９は、後述する軌跡結合部１０４で求めた全ての軌跡について、ステップＳ３０３〜Ｓ３１３までの処理を繰り返し行うように制御する。

本実施形態では、説明を簡単にするため、物体毎に検出して追尾する処理のみを説明する。ここで追尾処理の初期設定を行うために、本実施形態に係る追尾処理の他に、例えばフレーム全体に対して公知のグローバル検出器を用意する。この場合、画像取得部１０１から取得した初めのフレーム画像の全体について検出処理を行い、グローバル検出結果を軌跡の始まりとする。一方、一部または全部のフレーム画像の全体についてグローバル検出を行い、グローバル検出結果を物体毎の軌跡と有効に統合することにより追尾の精度を向上させることもできる。また、グローバル検出器は、物体識別部１０３と同じ認識モデルを利用することも可能であり、この処理は本発明の本質部分ではないので詳細な説明を省略する。

ステップＳ３０３においては、探索領域設定部１０２は、過去のフレームにおいて軌跡結合部１０４で求めた各軌跡の最後位置とサイズとに基づき、処理対象となる注目するフレームにおける追尾対象の物***置を予測し、探索領域の中心位置を設定する。そして、図４（ａ）に示すように、物体のサイズを所定の比率で拡大したサイズを探索領域のサイズに設定する。

次に、ステップＳ３０４において、物体識別部１０３は、図４（ｂ）に示すように、ステップＳ３０３で設定した物体の探索領域を所定数のピラミッドレイヤ（ピラミッド画像）に対応付ける。そして、各ピラミッドレイヤに対応する対応探索領域についてスキャンを行い、各カテゴリのそれぞれの認識モデルを用いて現在のスキャン位置にその物体があるか否かを判断する。本実施形態においては、学習した認識モデルを外部記憶装置２０６に複数保持しており、認識しようとする物体を複数のカテゴリに分類してカテゴリ毎に認識モデルを保持している。

図５は、物体識別部１０３に用いるカスケード型識別器の構成例を示す図である。カスケード型識別器を各ピラミッドレイヤの各スキャン位置に適用する際に、各ピラミッドレイヤにおいて認識する画像領域のサイズは、カスケード型識別器のサイズであり一定である。各ピラミッドレイヤは原画像に対して縮小の比率が異なるため、物体が遠近移動して物体のサイズが変化する時にも、物体を識別することができる。以下、各ピラミッドレイヤの各スキャン位置における、カスケード型識別器（すなわち認識モデル）のサイズに正規化した画像領域を正規化局所領域と呼ぶことにする。

図５に示すように、カスケード型識別器は複数の識別器を直列で連結して構成される。各識別器は、各認識モデルに記述した特徴量の位置、サイズ、タイプ、および尤度対応法則などに従って、各正規化局所領域の物体らしさを示す尤度を累積し、認識モデルに記述した識別閾値と比較する。そして、ある識別器で累積尤度が閾値より小さい場合には、その時点で識別する正規化局所領域を非物体として拒否する。そして、図５に示すように、全ての識別器を通過した場合に正規化局所領域を物体として識別する。

ステップＳ３０４においては、認識モデルを用いて物体の位置とサイズとを正確に識別できるため、その後、後述するステップＳ３１３のテンプレート照合処理において追尾物体を正しい位置に校正することができる。また、探索領域に制限して識別を行うため、高速に識別することができる。

次に、ステップＳ３０５において、物体識別部１０３は、ステップＳ３０４の処理結果である各ピラミッドレイヤにおける正規化局所領域の識別結果を統合する。通常、一つの物体を複数の近隣レイヤで識別したり、近隣位置において複数の物体を識別したりすることが多い。そのため、本ステップにおいて、ステップＳ３０４で識別された全ての正規化局所領域を物体毎に分離し、同じ物体の複数の正規化局所領域の位置及びサイズについて原画像における平均値を求め、物体の位置とサイズとを検出する。

次に、ステップＳ３０６において、処理制御部１９９は、処理対象の軌跡の探索領域において物体が検出されたか否かを判断する。探索領域に物体が検出された軌跡については、ステップＳ３０７〜Ｓ３１１までの処理を行い、探索領域に物体が検出されなかった軌跡については、ステップＳ３１２〜Ｓ３１３までの処理を行うように制御する。

ステップＳ３０７においては、交差検知部１０５の前景領域抽出部１０５１は、ステップＳ３０５で検出された物体の領域（以下、検出領域）について背景差分を計算し、前景領域を抽出する。本実施形態では、監視カメラで撮影された映像を想定しているため、画像取得部１０１から取得したフレーム画像における背景は固定である。したがって、背景差分は単純に計算することができ、非特許文献３に記載の方法を用いることにより、前景領域を抽出する。

次に、ステップＳ３０８において、割合計算部１０５３は、ステップＳ３０４で利用した認識モデルに基づき、前景マスク記憶部１０５２に記憶されている各カテゴリの認識モデルの前景マスクを読み出す。このとき、ステップＳ３０４で正規化局所領域においてカスケード型識別器を通過した認識モデルのカテゴリが複数存在する場合、カスケード型識別器を通過した最も多い認識モデルの前景マスクを読み出す。

ここで、認識モデルの前景マスクは、認識モデルを学習する際に利用した本カテゴリの正規化画像の平均画像を利用して物体領域を二値化した正規化画像である。したがって、前景マスク記憶部１０５２に記憶されている前景マスクの数は認識モデルのカテゴリ数と同じである。

次に、ステップＳ３０９において、割合計算部１０５３は、まず、物体の検出領域を認識モデルのサイズに正規化する。そして、図６に示すように、正規化した検出領域における前景領域と、前景マスクの背景領域とをＡＮＤ演算して、前景マスク以外の前景領域（画素数）を求める。そして、正規化した検出領域との比率を計算し、割合を求める。

次に、ステップＳ３１０において、処理制御部１９９は、前景マスク以外の前景領域の正規化した検出領域に占める割合が所定の閾値を超えているか否かを判断する。この判断の結果、当該割合が閾値を超えていない場合は追尾する物体が他の物体と交差していないと判断し、ステップＳ３１１に進む。一方、当該割合が閾値を超えている場合は追尾する物体が他の物体と交差していると判断するため、ステップＳ３１４に進み、次の軌跡の処理を行う。

ステップＳ３１１においては、テンプレート更新部１０６は、検出領域の画像データに基づき、追尾用物体の色や、輪郭や、テクスチャ等の特徴量をテンプレートとして作成し、テンプレート記憶部１０９に記憶する。なお、既にテンプレートが作成されている場合は既存のテンプレートと置き換えて更新する。

ここで、物体の特徴量（テンプレート）としては、例えば物体のＲＧＢヒストグラムが挙げられる。この場合は、物体の画像領域における各画素のＲＧＢ値を所定ビン数に量子化し、ＲＧＢの各量子化値を連結したｉｎｄｅｘに投票し、ＲＧＢヒストグラムを作成する。例えば、２４ビットの画像において、各画素のＲＧＢのそれぞれの値は８ビットであり、ＲＧＢ各値を３ビット（すなわち８ビン）に量子化して連結すると、９ビットのｉｎｄｅｘになる。そして、物体の画像領域の各画素が９ビットのｉｎｄｅｘに投票し、ＲＧＢヒストグラムを生成する。

また、物体の特徴量の他の例として、非特許文献４に記載のＳＩＦＴ（Scale-Invariant Feature Transform）特徴量が挙げられる。ＳＩＦＴ特徴量は、ＤｏＧ（Difference-of-Gaussian）処理により抽出したキーポイントを中心とし、所定サイズの領域に勾配のヒストグラムをスケールと回転不変のベクトルに変換して得られた特徴量である。

一方、ステップＳ３０６の判断の結果、探索領域において物体を検出できなかった場合は、ステップＳ３１２に進む。そして、ステップＳ３１２において、テンプレート照合部１０７は、前フレームもしくはそれ以前に生成または更新された、処理対象の軌跡に係る物体のテンプレートをテンプレート記憶部１０９から読み出す。

次に、ステップＳ３１３において、テンプレート照合部１０７は、読み出した物体のテンプレートを用いて探索領域における画像領域の照合を行い、物体と最も類似した領域の位置及びサイズを求める。例えば、テンプレートが物体のＲＧＢヒストグラムの場合、前フレームと現在のフレームとで画素数の変化が大きい色の画素位置に大きい重みを付与して平均位置を求める。そして、照合位置を移動するｍｅａｎ−ｓｈｉｆｔ追跡方法を利用することにより物体の軌跡を特定する。なお、物体と最も類似した領域がテンプレートと大きく異なるような場合（差異が所定値よりも大きい場合）には、追尾ができないものと判断する。

ステップＳ３１４においては、処理制御部１９９は、全ての軌跡についてステップＳ３０３〜Ｓ３１３までの処理を繰り返したか否かを判断する。この判断の結果、まだ処理を行っていない軌跡がある場合は次の軌跡について処理を行うように制御する。一方、全ての軌跡について処理を行った場合は、ステップＳ３１５に進む。

ステップＳ３１５においては、軌跡結合部１０４は、探索領域において物体を検出できた場合、またはステップＳ３１３の照合処理によって追尾できた場合に、検出または追尾結果を軌跡に追加して、軌跡の状態を更新する。また、物体を検出できず追尾もできなかった場合は、軌跡の状態を未対応に変更する。そして、物体の画像領域の位置及びサイズの情報を画像領域情報として外部記憶装置２０６に記憶する。また、グローバル検出器で新たに物体を検出した場合には、新たな軌跡を生成する。このとき、新たに検出された物体が、軌跡の状態が未対応に変更された物体であるか否かをテンプレートに基づいて判断することができる。そして、同一の物体である場合には、物体が完全に遮蔽されてその状態が解除されたと判断できる。このように軌跡結合部１０４は追尾結果更新手段として機能する。

次に、ステップＳ３１６において、処理制御部１９９は、ステップＳ３０２〜Ｓ３１５までの処理を全てのフレームについて行ったか否かを判断する。この判断の結果、次のフレームが存在する場合は次のフレームについて処理を行い、次のフレームが存在しない場合は処理を終了する。

以上のように本実施形態によれば、物体の認識モデルを用いて識別を行い、物体を追尾する。物体識別部１０３により物体を検出できないときは、物体識別部１０３により検出された過去のフレームにおける画像領域に基づいて作成したテンプレートを用いて照合を行って物体を追尾することにより、追尾する物体の誤追尾を抑制することができる。このテンプレートは交差する前に物体識別部１０３により識別された物体の見えにもとづく特徴量であり、交差前の特徴量に他の物体の情報が混入しにくいため、照合精度を高めることができる。また、検出領域において前景領域を抽出し、物体の検出に利用した認識モデルに対応した前景マスクに基づいて交差を検知するため、物体同士の交差を精度良く検知することができる。

なお、本実施形態においては、ステップＳ３０７で物体の検出領域内で前景領域を抽出したが、ステップＳ３０１とステップＳ３０２との間の処理として、フレーム画像全体について前景領域を抽出するようにしてもよい。この場合、ステップＳ３０７において、検出領域におけるフレーム画像の前景領域の情報を読み出すようにする。

また、本実施形態においては、ステップＳ３０９で前景マスク以外の前景領域の正規化した検出領域に占める割合で交差を判断したが、他の実装も考えられる。例えば、前景マスク以外の前景領域と前景マスクの領域との比率で交差を判断してもよい。また、前景マスク内における前景領域の画素数と正規化した検出領域内の前景領域の画素数との割合で交差を判断してもよい。さらに他の割合の計算方法が考えられるが、本質的に認識モデルの前景マスクと検出領域内の前景領域とを用いて交差を判断すればよい。

また、本実施形態においては、ステップＳ３０８で正規化局所領域においてカスケード型識別器を通過した認識モデルのカテゴリが複数存在する場合に、カスケード型識別器を通過した最も多い認識モデルの前景マスクを読み出した。一方、カスケード型識別器を通過した全部の認識モデルの前景マスクを読み出すようにしてもよい。この場合、ステップＳ３０９で、通過した認識モデル数と総認識モデル数との比を重みとして前景マスク内における前景領域の画素数を数え、正規化した検出領域内の前景領域の総画素数から引いて、前景マスク外の前景領域の画素数を求めてもよい。

また、本実施形態においては、ステップＳ３０５で正規化局所領域の統合処理を行ったが、本処理をステップＳ３１０またはＳ３１１の直後に行ってもよい。この場合、ステップＳ３０４において、物体を検出したそれぞれの正規化局所領域をそのまま物体の検出領域とする。そして、ステップＳ３０９においては、前景マスク外の前景領域の正規化局所領域に占める割合を計算してもよい。

（第２の実施形態）
第１の実施形態においては、探索領域において物体が検出されなかった場合に、テンプレートを用いて画像領域の照合処理を行い、テンプレートは更新しないようにした。これに対して本実施形態では、探索領域において物体が検出されなかった場合も、交差の判断結果によってはテンプレートを更新する。なお、本実施形態に係る物体追尾装置の構成は、第１の実施形態と同様であるため、説明は省略する。

図７は、本実施形態における物体を追尾する処理手順の一例を示すフローチャートである。なお、図３と同じ処理については同一の符号を付しており、これらの説明は省略する。
ステップＳ７０１においては、物体の検出処理に用いた認識モデルの番号の情報を前景マスク記憶部１０５２に記憶する。認識モデルが複数利用した場合には、認識モデルの番号と利用した回数との情報を記憶する。

ステップＳ７０２においては、物体の検出領域の代わりにステップＳ３１３の照合処理で検出した領域を用いる以外は、ステップＳ３０７と同様の処理を行う。そして、ステップＳ７０３においては、割合計算部１０５３は、ステップＳ７０１で記憶した認識モデルの番号に従い、その前景マスクを前景マスク記憶部１０５２から読み出す。ステップＳ７０４においては、割合計算部１０５３は、ステップＳ３０９と同様に、前景マスク外の前景領域の割合を算出する。ステップＳ７０５及びＳ７０６は、それぞれステップＳ３１０及びＳ３１１と同様である。

以上のように本実施形態によれば、物体識別部１０３により物体を検出できなかったが照合処理によって物体を追尾できたような場合であっても交差を検知することができる。また、交差を検知しなかった場合にはテンプレートを更新するため、より直近の物体の情報を反映させることができる。

（第３の実施形態）
第１の実施形態においては、各ピラミッドレイヤの検出結果を統合した後に物体を検出したか否かを判断した。これに対して本実施形態では、各検出結果を統合する前にこれらの尤度がすべて閾値未満である場合は、テンプレートとの類似度に基づいて統合する。なお、本実施形態に係る物体追尾装置の構成は、第１の実施形態と同様であるため、説明は省略する。

図８は、本実施形態における物体を追尾する処理手順の一例を示すフローチャートである。なお、図３と同じ処理については同一の符号を付しており、これらの説明は省略する。
ステップＳ８０１においては、処理制御部１９９は、探索領域における各ピラミッドレイヤの検出結果の尤度を算出し、これらの検出結果の尤度がすべて所定の閾値より小さいかどうかを判断する。この判断の結果、尤度が閾値以上の検出結果が存在する場合は、ステップＳ８０２に進み、すべて閾値よりも小さい場合はステップＳ３１２に進む。

ステップＳ８０２においては、物体識別部１０３は、尤度が閾値以上である検出結果を物体毎に分離し、同じ物体の複数の正規化局所領域の位置及びサイズについて原画像における平均値を求め、物体の位置及びサイズを物体の検出領域として検出する。

一方、ステップＳ３１２においては、テンプレート照合部１０７は、第１の実施形態と同様に追尾用テンプレートを読み出す。ステップＳ８０３において、処理制御部１９９は、全ての検出結果について、ステップＳ８０４の処理を繰り返し行うように制御する。

ステップＳ８０４において、テンプレート照合部１０７は、ステップＳ３１２において読み出したテンプレートと検出結果との類似度を計算する。例えば、テンプレートがＲＧＢヒストグラムである場合には、類似度はヒストグラムインタセクションとすることができる。また、テンプレートがＳＩＦＴ特徴量である場合には、類似度はマッチングしたＳＩＦＴ特徴量数と全部のＳＩＦＴ特徴量数との比率にすることができる。

ステップＳ８０５においては、処理制御部１９９は、全ての検出結果について、ステップＳ８０４の処理を行ったか否かを判断する。この判断の結果、処理を行っていない検出結果が存在する場合は次の検出結果についてステップＳ８０４の処理を行う。一方、全ての検出結果について処理を行った場合は、次のステップＳ８０６に進む。

ステップＳ８０６においては、テンプレート照合部１０７は、ステップＳ３１４で計算した各検出結果の類似度を閾値と比較し、類似度が閾値以上（所定値以上）の検出結果を追尾結果として統合する。

以上のように本実施形態によれば、第１の実施形態と同様に、照合制度を高め、追尾する物体の誤追尾を抑制することができる。また、物体同士の交差を精度良く検知することができる。

なお、本実施形態においては、ステップＳ８０２の統合処理は交差検知処理の前に行ったが、ステップＳ３１０またはＳ３１１の直後に行ってもよい。また、第２の実施形態と同様に、ステップＳ３０８の判断の結果、各検出結果の尤度がすべて閾値より小さい場合であっても交差検知を行い、追尾用テンプレートを更新してもよい。

（第４の実施形態）
第１〜第３の実施形態においては、背景差分により抽出した検出領域内の前景領域と、各認識モデルの前景マスクとを利用して、物体の交差を検知するようにした。これに対して本実施形態においては、物体識別部１０３が検出した検出領域、またはテンプレート照合部１０７で照合した物体の画像領域を用いて、各軌跡の物体の画像領域の重複する割合により交差を判断する。

図９は、本実施形態に係る物体追尾装置９００の機能構成例を示すブロック図である。なお、本実施形態に係る物体追尾装置のハードウェア構成は、第１の実施形態と同様であるため、説明は省略する。
図９に示すように、図１に示した構成と比べて、交差検知部１０５の代わりに軌跡交差検知部９０５としている。なお、他の構成については図１と同じ符号を付しており、これらの構成については説明を省略する。

図１０は、本実施形態における物体を追尾する処理手順の一例を示すフローチャートである。なお、図３と同じ処理については同一の符号を付しており、これらの説明は省略する。
まず、ステップＳ１００１において、軌跡交差検知部９０５は、軌跡結合部１０４によって更新された前フレームまでの全ての軌跡の物体の画像領域情報を外部記憶装置２０６から読み出す。

次に、ステップＳ１００２において、軌跡交差検知部９０５は、処理対象の軌跡の物体の画像領域と他の軌跡の物体の画像領域との重複領域を他の全ての軌跡に対して求める。そして、他の全ての軌跡について、前記求めた重複領域の、処理対象の軌跡の物体の画像領域における割合を計算する。

次に、ステップＳ１００３において、軌跡交差検知部９０５は、他の全ての軌跡に対して計算した、前記重複領域の、処理対象の軌跡の物体の画像領域における割合がすべて閾値未満であるどうかを判断する。この判断の結果、すべて閾値未満である場合は、軌跡の交差がないとみなし、ステップＳ３１１に進む。一方、閾値以上である割合が少なくとも１つ存在する場合は、テンプレートを更新せずに、ステップＳ３１４に進む。

なお、本実施形態においては、テンプレートの更新処理は、第１の実施形態と同様に探索領域内で認識モデルにより識別した物体領域がある場合のみ行った。一方、第２の実施形態のように、テンプレートの照合処理で求めた物体領域を用いてステップＳ１００１〜Ｓ１００３と同様の処理を行い、軌跡が交差しない時にもテンプレートを更新してもよい。また、本実施形態において、ステップＳ３０４で識別した各正規化局所領域の統合処理をＳ３０５で行うが、第３の実施形態のように、テンプレート更新処理または、テンプレートの照合処理の後に行ってもよい。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０２探索領域設定部
１０３物体識別部
１０４軌跡結合部
１０５交差検知部
１０６テンプレート更新部
１０７テンプレート照合部
１９９処理制御部

Claims

動画の注目するフレームにおける物体の探索領域を過去のフレームにおける追尾結果に基づいて設定する設定手段と、
前記設定手段によって設定された探索領域において前記物体の認識モデルを用いて前記物体を検出する検出手段と、
前記検出手段によって検出された物体の検出領域から前景領域を抽出し、前記抽出した前景領域、及び前記認識モデルに対応するマスクを用いて前記物体の交差を検知する検知手段と、
前記検知手段によって前記物体の交差が検知されなかった場合に、前記検出手段によって検出された物体の検出領域に基づいて、前記物体の特徴量を示すテンプレートを更新するテンプレート更新手段と、
前記検出手段によって前記物体が検出されなかった場合に、前記テンプレート更新手段によって前記過去のフレームにおいて更新されたテンプレートと照合して前記設定手段によって設定された探索領域内から前記物体の画像領域を抽出する照合手段と、
前記検出手段によって検出された物体の検出領域、または前記照合手段によって抽出された画像領域を追尾結果として更新する追尾結果更新手段と、
を備えることを特徴とする物体追尾装置。
前記検知手段によって前記物体の交差を検知した場合に、前記テンプレート更新手段は、前記物体のテンプレートを更新しないようにすることを特徴とする請求項１に記載の物体追尾装置。
前記検知手段は、前記前景領域のうち、前記マスクと重ならない領域の割合に基づいて前記物体の交差を検知することを特徴とする請求項１又は２に記載の物体追尾装置。
前記照合手段により前記物体の画像領域が抽出された場合に、前記検知手段は、前記物体の画像領域から前景領域を抽出し、前記抽出した前景領域、及び前記認識モデルに対応するマスクを用いて前記物体の交差を検知し、
前記検知手段によって前記物体の交差が検知されない場合に、前記テンプレート更新手段は、前記検出手段によって検出された物体の画像領域に基づいて、前記物体のテンプレートを更新することを特徴とする請求項１〜３の何れか１項に記載の物体追尾装置。
前記検出手段は、前記探索領域を含む画像をそれぞれ異なる比率で縮小した複数のピラミッド画像を用いて前記複数のピラミッド画像それぞれの検出結果を統合して前記物体を検出することを特徴とする請求項１〜４の何れか１項に記載の物体追尾装置。
前記検出手段は、前記探索領域を含む複数のピラミッド画像を用いて前記複数のピラミッド画像それぞれにおいて前記物体を検出し、
前記照合手段は、前記テンプレート更新手段によって前記過去のフレームにおいて更新されたテンプレートと、前記複数のピラミッド画像のそれぞれにおける検出結果との類似度を算出し、前記類似度が所定値以上であるピラミッド画像の検出結果を統合して前記物体の画像領域とすることを特徴とする請求項１〜４の何れか１項に記載の物体追尾装置。
前記検知手段は、前記検出手段が複数の認識モデルを用いた場合に、前記物体の検出に最も多く利用された認識モデルのマスクを用いることを特徴とする請求項１〜６の何れか１項に記載の物体追尾装置。
前記検知手段は、前記検出手段が複数の認識モデルを用いた場合に、前記複数の認識モデルのマスクを用いることを特徴とする請求項１〜６の何れか１項に記載の物体追尾装置。
動画の注目するフレームにおける物体の探索領域を過去のフレームにおける追尾結果に基づいて設定する設定工程と、
前記設定工程において設定された探索領域において前記物体の認識モデルを用いて前記物体を検出する検出工程と、
前記検出工程において検出された物体の検出領域から前景領域を抽出し、前記抽出した前景領域、及び前記認識モデルに対応するマスクを用いて前記物体の交差を検知する検知工程と、
前記検知工程において前記物体の交差が検知されなかった場合に、前記検出工程において検出された物体の検出領域に基づいて、前記物体の特徴量を示すテンプレートを更新するテンプレート更新工程と、
前記検出工程において前記物体が検出されなかった場合に、前記テンプレート更新工程において前記過去のフレームにおいて更新されたテンプレートと照合して前記設定工程において設定された探索領域内から前記物体の画像領域を抽出する照合工程と、
前記検出工程において検出された物体の検出領域、または前記照合工程において抽出された画像領域を追尾結果として更新する追尾結果更新工程と、
を備えることを特徴とする物体追尾方法。
動画の注目するフレームにおける物体の探索領域を過去のフレームにおける追尾結果に基づいて設定する設定工程と、
前記設定工程において設定された探索領域において前記物体の認識モデルを用いて前記物体を検出する検出工程と、
前記検出工程において検出された物体の検出領域から前景領域を抽出し、前記抽出した前景領域、及び前記認識モデルに対応するマスクを用いて前記物体の交差を検知する検知工程と、
前記検知工程において前記物体の交差が検知されなかった場合に、前記検出工程において検出された物体の検出領域に基づいて、前記物体の特徴量を示すテンプレートを更新するテンプレート更新工程と、
前記検出工程において前記物体が検出されなかった場合に、前記テンプレート更新工程において前記過去のフレームにおいて更新されたテンプレートと照合して前記設定工程において設定された探索領域内から前記物体の画像領域を抽出する照合工程と、
前記検出工程において検出された物体の検出領域、または前記照合工程において抽出された画像領域を追尾結果として更新する追尾結果更新工程と、
をコンピュータに実行させることを特徴とするプログラム。