JP4044469B2

JP4044469B2 - 自動トラッキングシステムおよび自動トラッキング方法

Info

Publication number: JP4044469B2
Application number: JP2003077913A
Authority: JP
Inventors: 和昌村井
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2003-03-20
Filing date: 2003-03-20
Publication date: 2008-02-06
Anticipated expiration: 2023-03-20
Also published as: JP2004287747A

Description

【０００１】
【発明の属する技術分野】
この発明は、ビデオ映像などの動画中において、人物の顔などの特定の対象画像を検出して追跡（トラッキング）するための自動トラッキングシステムおよび自動トラッキング方法に関する。
【０００２】
【従来の技術】
近年のハードウェア・ソフトウェア両面における著しい技術進歩によって、テレビ電話会議システムのように、リアルタイムで動画像データを遠隔地間で授受したり、あるいは、携帯端末等を介してリアルタイムに動画像データのやり取りを行うことが可能となっている。
【０００３】
したがって、携帯情報端末で動画像を送受信し、音声翻訳システムを介して海外の人々と母国語を使用して会話ができる時代もそう遠くはない。このとき、相手方に送信する動画像中から会話中の人間の顔画像のみを抽出し、少なくとも当該顔画像の口の周辺の画像を合成して、あたかも翻訳された言語その人物が話しているように再構成し、音声のみならず画像も翻訳できれば会話がより自然になるものと考えられる。このような画像翻訳についての技術は、すでに提案がある（たとえば、特許文献１を参照）。
【０００４】
この特許文献１では、モデル生成部が、３次元顔形状撮影装置からのデータに基づいて対象人物の３次元顔モデルを生成する。一方、カメラにより、対象人物の動画像を予め撮影しておく。マッチング合成部は、フレームごとに、３次元顔モデルを回転および移動して対応する２次元テンプレート画像を生成し、２次元現画像と２次元テンプレート画像をテンプレートマッチングさせ、マッチングされた３次元顔モデルの口周辺部分を所望の形状に変形させて生成される２次元モデル画像で、２次元現画像の口周辺部を置換する、という手順で画像翻訳が行われる。
【０００５】
したがって、このような画像の翻訳を動画像に適用する場合、動画像中において、対象となる顔画像を各フレームにおいて検出しつつ、時間軸にそって顔画像をトラッキングしていくことが必要となる。
【０００６】
このような画像翻訳のための顔画像のトラッキングに限らず、たとえば、動画中の自動車の動きを監視したりといったように、動画中で、特定の対象画像に着目し、その対象画像をトラッキングすることが必要となる用途は多い。
【０００７】
【特許文献１】
特開２００２−２６９５４６号公報明細書
【０００８】
【発明が解決しようとする課題】
しかしながら、たとえば、特許文献１に開示された技術では、顔の位置と大きさを変数として、画像中のある「位置」にある「大きさ」の顔がある場合に値が大きくなる正面顔関数を定義し、正面顔関数を最大とする位置と大きさを探索するという構成をとっている。このため、探索空間（位置と大きさの直積空間）が大きく、かつ、正面顔関数の計算が煩雑であるために、実時間で各フレームについて顔画像に対する全探査は困難であるという問題がある。
【０００９】
このように、対象画像を動画のフレーム中で探索することは、他の方法でも一般に計算量が膨大となるため、実時間のシステムを構築するためには、計算量を抑制するアルゴリズムが必要である。
【００１０】
特に、動画の実時間処理の場合は、一旦、動画像中の特定の対象物の画像をシステムが見失った場合でも、早期に、対象物の画像を再発見して、トラッキングを再開することが必要となる。
【００１１】
本発明は、上記のような問題点を解決するためになされたものであって、その目的は、動画像中の特定の対象物の画像（対象画像）を検出して、その動きを自動トラッキングすることが可能な自動顔トラッキングシステムおよび自動顔トラッキング方法を提供することである。
【００１２】
【課題を解決するための手段】
本発明の１つの局面に従うと、自動トラッキングシステムであって、動画像を構成する時間軸に沿う複数の画面にそれぞれ対応する画面データを、画面データを受信した時点で格納し、最新の画面に相当する画面データまでの少なくとも所定数の画面分だけ格納するための画像データバッファ手段と、複数の画面データの各々において、単一の処理対象画面に対応する画面データから単一の処理画面の全領域について特定画像を探索し、特定画像を検出する第１の探索処理と、処理対象画面以外の画面に対応する画像データ中の特定画像の探索結果に基づいて、処理対象画面以外の画面において特定画像の検出された位置の近傍で特定画像を探索し、処理対象画面に対応する画面データから特定画像を検出する第２の探索処理とを切替指示に基づき選択的に実行可能な画像特定手段と、自動トラッキングシステムの動画像中における特定画像に対する追跡処理を制御するための制御手段とを備え、
制御手段は、画面データの格納とは独立に、最新の画面に相当する画面データに対して、画像特定手段により第１の探索処理によって特定画像を探索して探索に成功した場合に、複数の画面にそれぞれ対応する画面データに対して、時間を遡る順序で画像特定手段により第２の探索処理によって特定画像を探索することを指示する切替指示を画像特定手段に送信する。
【００１３】
好ましくは、画像データバッファ手段は、複数の画面にそれぞれ対応する画面データを、それぞれすでに行なわれた探索結果を示す探索フラグと関連付けて格納し、制御手段は、探索フラグを参照して、最も最近に探索した画像に対応する画像データの探索結果が不成功である場合に、最新の画面に相当する画面データに対して、画像特定手段により第１の探索処理によって特定画像を探索する処理を行なう。
【００１４】
好ましくは、制御手段は、探索フラグを参照して、最も最近に探索した画像に対応する画像データの探索結果が成功である場合に、最も最近に探索した画像に対応する画像データに対する探索結果に基づいて、未探索の画面に対応する画像データに対して、時間に沿う順序で画像特定手段により第２の探索処理によって特定画像を探索する処理を行なう。
【００１５】
この発明の他の局面に従うと、自動トラッキング方法であって、動画像を構成する時間軸に沿う複数の画面にそれぞれ対応する画面データを、画面データを受信した時点で格納し、最新の画面に相当する画面データまでの少なくとも所定数の画面分だけ格納するステップと、画面データを格納するステップとは独立に、単一の第１の処理対象画面に対応する画面データから単一の第１の処理画面の全領域について特定画像を探索し、特定画像を検出する第１の探索処理によって、最新の画面を第１の処理対象画面として、最新の画面に相当する画面データから特定画像を探索するステップと、第１の探索処理による探索に成功した場合に、第２の処理対象画面以外の画面に対応する画像データ中の特定画像の探索結果に基づいて、処理対象画面以外の画面において特定画像の検出された位置の近傍で特定画像を探索し、第２の処理対象画面に対応する画面データから特定画像を検出する第２の探索処理により、複数の画面にそれぞれ対応する画面データに対して、時間を遡る順序で、直前の画面に対応する画面データを第２の処理対象画面以外の画面として、第２の探索処理によって特定画像を探索するステップとを備える。
【００１６】
好ましくは、格納するステップは、複数の画面にそれぞれ対応する画面データを、それぞれすでに行なわれた探索結果を示す探索フラグと関連付けて格納するステップを含み、自動トラッキング方法は、第１の探索処理による特定画像を探索するステップの前に、探索フラグを参照して、最も最近に探索した画像に対応する画像データの探索結果を参照するステップをさらに備え、第１の探索処理による特定画像を探索するステップは、最も最近に探索した画像に対応する画像データの探索結果が不成功である場合に、最新の画面に相当する画面データに対して、画像特定手段により第１の探索処理によって特定画像を探索する処理を行なう。
【００１７】
好ましくは、探索フラグの参照により、最も最近に探索した画像に対応する画像データの探索結果が成功である場合に、最も最近に探索した画像に対応する画像データに対する探索結果に基づいて、未探索の画面に対応する画像データに対して、時間に沿う順序で第２の探索処理によって特定画像を探索する処理を行なうステップをさらに備える。
【００１８】
【発明の実施の形態】
［自動トラッキングシステム１００の構成］
図１は、本発明の自動トラッキングシステム１００の構成を説明するための概略ブロック図である。
【００１９】
なお、以下の説明では、動画中における特定の対象物の画像（対象画像）の一例として、特定人物の顔画像を検出しトラッキングする構成を説明する。また、各フレーム（またはフィールド）中で、対象画像の検出を行う構成は、上述した特許文献１中の技術を用いるものとして説明するが、対象画像の検出を行う方法は、必ずしもこのような方法に限定されるものではない。
【００２０】
自動トラッキングシステム１００では、図示しない３次元顔形状撮影装置において、対象人物２の頭部のまわりをカメラが１回転して、頭部の３次元座標とテクスチャ情報を獲得しており、その情報が予め格納されているものとする。
【００２１】
図１を参照して、自動トラッキングシステム１００では、対象人物２の動画像を撮影するためのカメラ１０４と、カメラ１０４からの出力を受けて、動画像のトラッキングを行うためのコンピュターシステム１１０と、コンピュターシステム１１０からの動画像を出力するための表示装置（ディスプレイ）１２０とを備える。
【００２２】
なお、特に限定されないが、以下では、たとえば、コンピュータシステム１１０からは、上述した特許文献１に記載されているように、動画像中から会話中の人間の顔画像のみを抽出し、少なくとも当該顔画像の口の周辺の画像を合成して、あたかも翻訳された言語をその人物が話しているように再構成した画像が出力されるものとする。また、コンピュータシステム１１０からの画像出力は、ネットワーク等を介して、他の端末に送信されてもよい。
【００２３】
コンピュターシステム１１０は、カメラ１０４および表示装置１２０との間でデータの授受を行うためのデータ入出力部１１０２と、３次元顔形状撮影装置からのデータに基づいて、対象人物２の顔に対する３次元顔モデルを生成するモデル生成部１１１０と、予め撮影された動画像中の対象人物２の２次元画像を変形することで、たとえば、上述したような、対象人物２が実際に発声したのとは異なる所望の言語を発声している状態の顔の２次元画像を合成するマッチング合成部１１２０と、上記３次元顔モデルに対応するデータや対象人物２に対して実時間で撮影された動画像のデータや、所望の言語の発話と発声器官の形状の変化に関する情報や、カメラ１０４で撮影された動画像をフレーム（またはフィールド）ごとに格納するためのデータ記憶部１１３０と、データ記憶部１１３０に格納されたプログラムに従って、コンピュターシステム１１０の動作を制御するための制御部１１４０とを備える。
【００２４】
後に説明するように、データ記憶部１１３０には、動画像をフレーム（またはフィールド）ごとに格納するためのバッファが設けられているものとする。
【００２５】
ここで、このようなバッファは、動画像を構成する時間軸に沿う複数の画面にそれぞれ対応する画面データ、すなわち、フレーム（またはフィールド）のデータを、最新の画面に相当するフレーム（またはフィールド）のデータまでの所定数の画面分だけ格納するものである。このようなバッファとしては、たとえば、いわゆる「リングバッファ」を用いることができる。以下では、データ記憶部１１３０は、リングバッファを備えるものとして説明を行なう。
【００２６】
したがって、本発明の自動トラッキングの処理は、データ記憶部１１３０に格納されるプログラムにより実行される。このようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory)のような記録媒体に記録されているものを、記録媒体の読取ドライブ装置（図示せず）を介してコンピュターシステム１１０にインストールしても良いし、あるいは、インターネットなどのネットワーク経由で配信されたプログラムをコンピュターシステム１１０にインストールしても良い。
【００２７】
モデル生成部１１１０は、所望の対象人物２の顔の３次元顔モデルを生成するために、対象人物２の頭部の３次元座標とテクスチャ情報を取得するための顔データ取得部１１１２と、取得した顔の３次元座標と、標準ワイヤフレームモデルを整合させる処理を行ない、対象人物２に忠実な３次元形状を持った３次元顔モデルを生成するためのモデル整合部１１１４とを備える。
【００２８】
一方、マッチング合成部１１２０は、必要に応じて対象人物２の３次元顔モデルのうちから、２次元画像との合成にあたってトラッキングをとるためのマッチング処理を行なう対象となる部分顔モデルを切り出す顔データ抽出部１１２２と、このような部分顔モデルのデータを回転・移動させつつ、これに対応する２次元画像を生成し、対象人物２について実時間で撮影された動画像のフレームごと（またはフィールドごと）にテンプレートマッチングを行なうためのテンプレートマッチング部１１２４とを備える。このテンプレートマッチング部１１２４による顔画像の検出に応じて、撮影された動画像中の対象人物２の２次元画像に対応して変形された２次元画像が生成され、口周辺が所望の形状で動く画像が合成される。
【００２９】
［テンプレートマッチング部１１２４の動作］
以下では、テンプレートマッチング部１１２４が、対象人物２について実時間で撮影された動画像のフレームごと（またはフィールドごと）にテンプレートマッチングを行なって、顔画像の検出とトラッキングを行うために、制御部１１４０が行う処理について説明する。上述のとおり、このような動画中からの対象画像の検出とトラッキングは、他のシステムにも適用可能である。
【００３０】
動画像中から顔を検出するためには多大な計算が必要になるが、動画中の顔を検出する場合には、動画中の顔の特性（連続するフレームで顔の位置、色、形の変化が少ない）を用いて探索範囲を限定することができる。つまり、画像中の顔の位置や大きさが急激に変化することは想定されないため、一旦、顔を検出した場合には、その検出値を初期値として、「順次」その近傍を探索すれば顔を見つけることができる。
【００３１】
そこで、動画像のフレーム（またはフィールドごと）において、そのフレーム（またはフィールド）内のデータだけに基づいて、その全領域について顔画像を探索する処理を「全探索」と呼び、一旦、あるフレーム（またはフィールド）において検出された顔の検出値を初期値として、順次当該フレームに近接する他のフレームでもその近傍を探索する処理を「近傍探索」と呼ぶことにする。テンプレートマッチング部１１２４は、制御部１１４０の指示にしたがい、指定されたフレーム（またはフィールド）に対して、全探索または近傍探索を選択的に実行する。
【００３２】
なお、以下では、特に限定されないが、動画像は、データ記憶部１１３０中のリングバッファにフレームごとに格納されるものとする。
【００３３】
以下に説明する本発明の自動トラッキングの構成では、特に、一旦、システムが顔を見失った場合、最新のフレームで顔を全探索で検索し、成功した場合に、時間を遡って、逆順に近傍を探索することにより、実時間性を維持したまま、過去に遡って、より多くのフレームの顔を見つけることを可能とすることを一つの特徴とする。動画の特性から、逆順に探索した場合でも、近傍のみの探索で顔を検出することができる。
【００３４】
図２〜図４は、このような制御部１１４０が行う処理を説明するためのフローチャートである。
【００３５】
また、図５〜図１４は、図２〜図４のフローチャートの各段階において、上述したデータ記憶部１１３０中のリングバッファに格納される動画像のフレームの状態とこれに対する処理を説明するための概念図である。
【００３６】
以下、図２〜図４までの処理を、適宜、図５〜図１４を参照しつつ説明する。
図２〜図４では、たとえば、システム１００がある時点まで、顔画像のトラッキングに成功していたものの、それ以降は、一時、トラッキングに失敗していた場合に、再度、以降のフレームにおいて顔画像の検出を行うとともに、トラッキングに失敗していた期間のフレームについても、顔画像の再探索を行う処理を説明している。
【００３７】
図２を参照して、まず、順次、リアルタイムで撮影される動画像が、フレームごとに、そのフレームがカメラ１０４からデータ記憶部１１３０に到着した時点で、データ記憶部内のリングバッファに記録される。制御部１１４０は、新たに記録したフレームには、「未探索」のフラグを立てる（ステップＳ１０２）。
【００３８】
図５は、新たなフレームが記録された際のリングバッファ内のデータの記録状態を示す。新たに記録されたフレームＮＳＴＦＬのフレーム番号ｎが、Ｎであるとすると、リングバッファ内には、最も古い（Ｎ−Ｋ）番目のフレームＯＤＳＴＦＬからＮ番目のフレームまでのデータが格納されている。このとき、各フレームと関連づけて、図示しないデータ記憶部１１３０の他の記憶領域またはリングバッファそのものの記憶領域内に、各フレームについて顔画像の探索がすでに行われているか否かと探索が行なわれている場合はその探索結果とを示すフラグが記憶されているものとする。
【００３９】
新たに記録されたフレームＮＳＴＦＬの一つ前のフレームをＮＮＳＴＦＬとする。
【００４０】
再び、図２に戻って、続いて、制御部１１４０は、過去に遡り、過去の探索記録（フラグ）を調べる。最も最近に探索したフレームの探索結果を参照する（ステップＳ１０４）。
【００４１】
図６は、このようなステップＳ１０４の参照の対象となるフレーム２００を示す。最新のフレームＮＳＴＦＬから過去に遡り、未探査の範囲の１つ前のフレーム２００について、探索結果の参照が行われる。
【００４２】
なお、図２では、説明の便宜上、ステップＳ１０２に連続してステップＳ１０４の処理が行われるものとして図示したが、実際には、ステップＳ１０２の処理とステップＳ１０４以降の処理とは、同期してはおらず、互いに独立に行われる。すなわち、ステップＳ１０４以降の処理が行われている期間中も、実際には、バックグラウンドの処理として、独立して、ステップＳ１０２の処理は行われている。
【００４３】
次に、最も最近に探索したフレーム２００で、探索は失敗であった場合（ステップＳ１０６）、または、バッファ内の最も古いフレームＯＤＳＴＦＬまで未探索である場合（ステップＳ１０８）は、制御部１１４０は、テンプレートマッチング部１１２４を制御して、最も最近にバッファ内に記録されたフレームＮＳＴＦＬ内を全探索する（ステップＳ１１０）。
【００４４】
図７は、フレーム２００が探索に失敗している場合に、ステップＳ１１０において全探索が行われるフレームＮＳＴＦＬを示す。なお、以下、探索を行うフレームは太枠で示す。
【００４５】
再び、図２に戻って、次に、フレームＮＳＴＦＬでの全探索が成功した場合（ステップＳ１１２）、直前の検出結果、すなわち、この時点ではフレームＮＳＴＦＬでの探索結果を初期値として、１フレーム前のフレームＮＮＳＴＦＬを近傍探索する（ステップＳ１１６）。
【００４６】
図８は、ステップＳ１１６において近傍探索が行われるフレームＮＮＳＴＦＬを示す。
【００４７】
近傍探索では、探索範囲が限定されるため、全探索を行う場合より大幅に短時間で顔画像を検出することができる。
【００４８】
再び図２に戻って、フレームＮＮＳＴＦＬでの近傍探索が成功した場合には（ステップＳ１１８）、制御部１１４０は、探索成功をフラグに記録する（ステップＳ１２０）。
【００４９】
一方、ステップＳ１１２またはＳ１１８で探索に成功しなかった場合は、制御部１１４０は、探索失敗をフラグに記録して（ステップＳ１１４）、処理をステップＳ１０４に戻す。上述したとおり、ステップＳ１０２とステップＳ１０４とは独立して処理がされているので、ステップＳ１０４に処理が戻った時点で、新たなフレームがリングバッファに記録されていると、再び、同様の処理が繰り返されることになる。
【００５０】
次に、ステップＳ１１８で探索に成功していると判断され、ステップＳ１２０で探索成功をフラグに記録に記録した後には、図３を参照して、さらに、制御部１１４０は、直前の検出結果を初期値として、さらに１フレーム前のフレームを近傍探索する（ステップＳ１２２）。
【００５１】
以後は、ステップＳ１２２での１フレーム前のフレームを近傍探索が成功すると（ステップＳ１２４）、探索成功をフラグに記録し（ステップＳ１２６）、過去に探索成功したフレームまで処理が遡ったと判断されるか（ステップＳ１２８）、あるいは、ステップＳ１２４で探索失敗と判断されるまで、ステップＳ１２２での１フレーム前のフレームを近傍探索する処理が繰り返される。
【００５２】
図９は、このようにして繰り返し時間を遡りながら、直前の検出結果を初期値として、さらに１フレーム前のフレームを近傍探索す処理を示す。
【００５３】
図９においては、図９（ａ）で、ＮＮＳＴＦＬの探索を行った後、順次、図９（ｂ）、図９（ｃ）、図９（ｄ）という順序で、１フレームずつ時間を遡りながら、近傍探索を行っている。
【００５４】
再び、図３に戻って、近傍探索が失敗するか（ステップＳ１２４）、過去に探索が成功したフレームに至ったとき、または、一番古いフレームに到達した場合には（ステップＳ１２８）、探索終了して、時間を追って探索結果を出力する（ステップＳ１３０）。
【００５５】
図１０は、ステップＳ１２４において探索失敗と判断した場合に、現在処理対象フレーム以降で探索成功しているフレームを過去から順次、時間軸に沿って結果の出力を行う場合の処理を示す。図１０では、フレーム２０２で、探索失敗と判断されている。
【００５６】
図１１は、ステップＳ１２８で、過去に探索が成功したフレームに至ったと判断された場合に、現在処理対象フレーム以降で探索成功しているフレームを過去から順次、時間軸に沿って結果の出力を行う場合の処理を示す。
【００５７】
なお、図１１では、図６において探索失敗と判断されていたフレーム２００についても、時間を遡る近傍探索では、探索成功となっている場合を示す。
【００５８】
すなわち、図１１においては、図１１（ａ）で、図９（ｃ）に示したフレームでの近傍探索が成功した後、図１１（ｄ）まで近傍探索が成功し、さらに、図１１（ｅ）では、フレーム２００を超えて、フレーム２０２まで遡って近傍探索が順次行われている。
【００５９】
図１１（ｆ）に示すとおり、フレーム２０４は、過去に探索が成功したフレームであり、フレーム２０４に処理が到達した時点で、制御部１１４０は、現在処理対象のフレーム以降で探索成功しているフレームを過去から順次、時間軸に沿って結果の出力を行う。
【００６０】
次に、図２のステップＳ１０６で、最も最近に探索したフレームで探索は失敗しておらず、かつ、ステップＳ１０８で、リングバッファ内の最も古いフレームまでは、未探索でないと判断された場合、言い換えると、図６に示したフレーム２００において探索が成功していた場合に行われる処理を、図４を参照して説明する。
【００６１】
すなわち、最も最近に探索したフレームで探索が成功していると、続いて、最も最近に探索が成功していたフレーム２００の検出結果を初期値として、その次のフレーム３００内を近傍探索する（ステップＳ１４０）。
【００６２】
図１２は、ステップＳ１４０において近傍探索の対象となるフレーム３００を示す。
【００６３】
ステップＳ１４０の近傍探索が成功した場合（ステップＳ１４２）、制御部１１４０は、探索成功をフラグに記録し、かつ探索結果を出力する（ステップＳ１４４）。
【００６４】
一方、ステップＳ１４２で探索失敗と判断されると処理は、ステップＳ１１４に移る。
【００６５】
ステップＳ１４４の処理が行なわれたときは、続いて、制御部１１４０は、テンプレートマッチング部１１２４を制御して、最も最近に探索が成功したフレームの検出結果を初期値として、その次のフレーム内を近傍探索する（ステップＳ１４６）。
【００６６】
この近傍探索が成功した場合（ステップＳ１４８）、制御部１１４０は、探索成功をフラグに記録し、かつ探索結果を出力する（ステップＳ１５０）。
【００６７】
一方、ステップＳ１４８で探索失敗と判断されると処理は、ステップＳ１１４に移る。
【００６８】
ステップＳ１５０の処理が行なわれたときは、続いて、制御部１１４０は、次の探索対象は最新に記録されたフレームであるか否かの判定を行なう（ステップＳ１５２）。
【００６９】
次の探索対象のフレームが最新に記録されたフレームでない場合は、処理は、ステップＳ１４６に復帰して、最も最近に探索が成功したフレームの検出結果を初期値として、その次のフレーム内を近傍探索する。以下、順次、最新のフレームに到達するまで、近傍探索と結果の出力とを時間軸上で時間の進行方向に向けて繰り返していく。近傍探索は、探索範囲が限定されるため、全探索によるよりは大幅に探索時間を短縮できる。
【００７０】
一方、ステップＳ１５２において、次の探索対象が最新に記録されたフレームとなっているときは、制御部１１４０は、処理をステップＳ１０４に復帰させる。
【００７１】
図１３は、最新フレームまで近傍探索が成功した状態を示す。
一方、図１４は、ステップＳ１４８で探索失敗と判断されるフレーム３０２が存在する状態を示す。
【００７２】
図１４の場合は、失敗の結果はフラグに記録されるものの、それ以降の時間の進行に従う方向への近傍探索は行なわれることなく、処理は、ステップＳ１０４の処理から、もう一度、やり直されることになる。
【００７３】
以上のとおり、まず、第１に、動画中のフレームまたはフィールドのデータ、すなわち、「画面に対応する画面データ」に対して、最新の画面に対応する画像データについて探索が成功した場合は、時間を遡る方向に近傍探索を行なう。
【００７４】
また、第２には、画面に対応する画面データの各々に対して、対象画像の探索処理が終了しているかを示すフラグ（探索フラグ）を関連づけて、データ記憶部１１３０内に格納しておくことにより、ある範囲で未探査の複数の画面が存在している場合に、この未探査の画面に対応する全ての画面データに対して、全探索を行なうことなく、探索が成功している画面に対応する画面データを初期値とした近傍探索を行なって、複数の画面について対象画像を探索することができる。
【００７５】
その結果、たとえば、対象画像をトラッキング途中で、システムが見失った場合でも、より短時間で、より多くの画面に対応する画面データから対象画像を探索して抽出することが可能となる。
【００７６】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【００７７】
【発明の効果】
以上説明したとおり、本発明によれば、探索に要する時間を短縮して、対象画像の探索を行なうことができるので、実時間で対象画像をトラッキングすることが可能な自動トラッキング装置および自動トラッキング方法が実現される。
【図面の簡単な説明】
【図１】図１は、本発明の自動トラッキングシステム１００の構成を説明するための概略ブロック図である。
【図２】制御部１１４０が行う処理を説明するための第１のフローチャートである。
【図３】制御部１１４０が行う処理を説明するための第２のフローチャートである。
【図４】制御部１１４０が行う処理を説明するための第３のフローチャートである。
【図５】新たなフレームが記録された際のリングバッファ内のデータの記録状態を示す図である。
【図６】ステップＳ１０４の参照の対象となるフレーム２００を示す図である。
【図７】フレーム２００が探索に失敗している場合に、ステップＳ１１０において全探索が行われるフレームＮＳＴＦＬを示す図である。
【図８】ステップＳ１１６において近傍探索が行われるフレームＮＮＳＴＦＬを示す図である。
【図９】繰り返し時間を遡りながら、直前の検出結果を初期値として、さらに１フレーム前のフレームを近傍探索す処理を示す図である。
【図１０】現在処理対象フレーム以降で探索成功しているフレームを過去から順次、時間軸に沿って結果の出力を行う場合の処理を示す図である。
【図１１】現在処理対象フレーム以降で探索成功しているフレームを過去から順次、時間軸に沿って結果の出力を行う場合の処理を示す図である。
【図１２】ステップＳ１４０において近傍探索の対象となるフレーム３００を示す図である。
【図１３】最新フレームまで近傍探索が成功した状態を示す図である。
【図１４】ステップＳ１４８で探索失敗と判断されるフレーム３０２が存在する状態を示す図である。
【符号の説明】
２対象人物、１００自動顔トラッキングシステム、１０４カメラ、１１０コンピュターシステム、１２０表示装置、１０２２カメラ、１１０２データ入出力部、１１１０モデル生成部、１１１２顔データ取得部、１１１４モデル整合部、１１２０マッチング合成部、１１２２顔データ抽出部、１１２４テンプレートマッチング部、１１３０データ記憶部、１１４０制御部。

Claims

自動トラッキングシステムであって、
動画像を構成する時間軸に沿う複数の画面にそれぞれ対応する画面データを、前記画面データを受信した時点で格納し、最新の画面に相当する前記画面データまでの少なくとも所定数の画面分だけ格納するための画像データバッファ手段と、
複数の前記画面データの各々において、単一の処理対象画面に対応する前記画面データから前記単一の処理画面の全領域について特定画像を探索し、前記特定画像を検出する第１の探索処理と、前記処理対象画面以外の画面に対応する前記画像データ中の前記特定画像の探索結果に基づいて、前記処理対象画面以外の画面において前記特定画像の検出された位置の近傍で前記特定画像を探索し、前記処理対象画面に対応する前記画面データから前記特定画像を検出する第２の探索処理とを切替指示に基づき選択的に実行可能な画像特定手段と、
前記自動トラッキングシステムの前記動画像中における前記特定画像に対する追跡処理を制御するための制御手段とを備え、
前記制御手段は、前記画面データの格納とは独立に、前記最新の画面に相当する前記画面データに対して、前記画像特定手段により前記第１の探索処理によって前記特定画像を探索して探索に成功した場合に、前記複数の画面にそれぞれ対応する画面データに対して、時間を遡る順序で前記画像特定手段により前記第２の探索処理によって前記特定画像を探索することを指示する前記切替指示を前記画像特定手段に送信する、自動トラッキングシステム。
前記画像データバッファ手段は、前記複数の画面にそれぞれ対応する画面データを、それぞれすでに行なわれた探索結果を示す探索フラグと関連付けて格納し、
前記制御手段は、前記探索フラグを参照して、最も最近に探索した画像に対応する画像データの探索結果が不成功である場合に、前記最新の画面に相当する前記画面データに対して、前記画像特定手段により前記第１の探索処理によって前記特定画像を探索する処理を行なう、請求項１記載の自動トラッキングシステム。
前記制御手段は、前記探索フラグを参照して、前記最も最近に探索した画像に対応する画像データの探索結果が成功である場合に、前記最も最近に探索した画像に対応する画像データに対する探索結果に基づいて、未探索の画面に対応する画像データに対して、時間に沿う順序で前記画像特定手段により前記第２の探索処理によって前記特定画像を探索する処理を行なう、請求項２記載の自動トラッキングシステム。
自動トラッキング方法であって、
動画像を構成する時間軸に沿う複数の画面にそれぞれ対応する画面データを、前記画面データを受信した時点で格納し、最新の画面に相当する前記画面データまでの少なくとも所定数の画面分だけ格納するステップと、
前記画面データを格納するステップとは独立に、単一の第１の処理対象画面に対応する前記画面データから前記単一の第１の処理画面の全領域について特定画像を探索し、前記特定画像を検出する第１の探索処理によって、前記最新の画面を前記第１の処理対象画面として、前記最新の画面に相当する前記画面データから前記特定画像を探索するステップと、
前記第１の探索処理による探索に成功した場合に、第２の処理対象画面以外の画面に対応する前記画像データ中の前記特定画像の探索結果に基づいて、前記処理対象画面以外の画面において前記特定画像の検出された位置の近傍で前記特定画像を探索し、前記第２の処理対象画面に対応する前記画面データから前記特定画像を検出する第２の探索処理により、前記複数の画面にそれぞれ対応する画面データに対して、時間を遡る順序で、直前の画面に対応する前記画面データを前記第２の処理対象画面以外の画面として、前記第２の探索処理によって前記特定画像を探索するステップとを備える、自動トラッキング方法。
前記格納するステップは、前記複数の画面にそれぞれ対応する画面データを、それぞれすでに行なわれた探索結果を示す探索フラグと関連付けて格納するステップを含み、
前記第１の探索処理による前記特定画像を探索するステップの前に、前記探索フラグを参照して、最も最近に探索した画像に対応する画像データの探索結果を参照するステップをさらに備え、
前記第１の探索処理による前記特定画像を探索するステップは、前記最も最近に探索した画像に対応する画像データの探索結果が不成功である場合に、前記最新の画面に相当する前記画面データに対して、前記画像特定手段により前記第１の探索処理によって前記特定画像を探索する処理を行なう、請求項４記載の自動トラッキング方法。
前記探索フラグの参照により、前記最も最近に探索した画像に対応する画像データの探索結果が成功である場合に、前記最も最近に探索した画像に対応する画像データに対する探索結果に基づいて、未探索の画面に対応する画像データに対して、時間に沿う順序で前記第２の探索処理によって前記特定画像を探索する処理を行なうステップをさらに備える、請求項５記載の自動トラッキング方法。