JP4044469B2 - 自動トラッキングシステムおよび自動トラッキング方法 - Google Patents

自動トラッキングシステムおよび自動トラッキング方法 Download PDF

Info

Publication number
JP4044469B2
JP4044469B2 JP2003077913A JP2003077913A JP4044469B2 JP 4044469 B2 JP4044469 B2 JP 4044469B2 JP 2003077913 A JP2003077913 A JP 2003077913A JP 2003077913 A JP2003077913 A JP 2003077913A JP 4044469 B2 JP4044469 B2 JP 4044469B2
Authority
JP
Japan
Prior art keywords
image
screen
search
data corresponding
specific image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003077913A
Other languages
English (en)
Other versions
JP2004287747A (ja
Inventor
和昌 村井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003077913A priority Critical patent/JP4044469B2/ja
Publication of JP2004287747A publication Critical patent/JP2004287747A/ja
Application granted granted Critical
Publication of JP4044469B2 publication Critical patent/JP4044469B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、ビデオ映像などの動画中において、人物の顔などの特定の対象画像を検出して追跡(トラッキング)するための自動トラッキングシステムおよび自動トラッキング方法に関する。
【0002】
【従来の技術】
近年のハードウェア・ソフトウェア両面における著しい技術進歩によって、テレビ電話会議システムのように、リアルタイムで動画像データを遠隔地間で授受したり、あるいは、携帯端末等を介してリアルタイムに動画像データのやり取りを行うことが可能となっている。
【0003】
したがって、携帯情報端末で動画像を送受信し、音声翻訳システムを介して海外の人々と母国語を使用して会話ができる時代もそう遠くはない。このとき、相手方に送信する動画像中から会話中の人間の顔画像のみを抽出し、少なくとも当該顔画像の口の周辺の画像を合成して、あたかも翻訳された言語その人物が話しているように再構成し、音声のみならず画像も翻訳できれば会話がより自然になるものと考えられる。このような画像翻訳についての技術は、すでに提案がある(たとえば、特許文献1を参照)。
【0004】
この特許文献1では、モデル生成部が、3次元顔形状撮影装置からのデータに基づいて対象人物の3次元顔モデルを生成する。一方、カメラにより、対象人物の動画像を予め撮影しておく。マッチング合成部は、フレームごとに、3次元顔モデルを回転および移動して対応する2次元テンプレート画像を生成し、2次元現画像と2次元テンプレート画像をテンプレートマッチングさせ、マッチングされた3次元顔モデルの口周辺部分を所望の形状に変形させて生成される2次元モデル画像で、2次元現画像の口周辺部を置換する、という手順で画像翻訳が行われる。
【0005】
したがって、このような画像の翻訳を動画像に適用する場合、動画像中において、対象となる顔画像を各フレームにおいて検出しつつ、時間軸にそって顔画像をトラッキングしていくことが必要となる。
【0006】
このような画像翻訳のための顔画像のトラッキングに限らず、たとえば、動画中の自動車の動きを監視したりといったように、動画中で、特定の対象画像に着目し、その対象画像をトラッキングすることが必要となる用途は多い。
【0007】
【特許文献1】
特開2002−269546号公報明細書
【0008】
【発明が解決しようとする課題】
しかしながら、たとえば、特許文献1に開示された技術では、顔の位置と大きさを変数として、画像中のある「位置」にある「大きさ」の顔がある場合に値が大きくなる正面顔関数を定義し、正面顔関数を最大とする位置と大きさを探索するという構成をとっている。このため、探索空間(位置と大きさの直積空間)が大きく、かつ、正面顔関数の計算が煩雑であるために、実時間で各フレームについて顔画像に対する全探査は困難であるという問題がある。
【0009】
このように、対象画像を動画のフレーム中で探索することは、他の方法でも一般に計算量が膨大となるため、実時間のシステムを構築するためには、計算量を抑制するアルゴリズムが必要である。
【0010】
特に、動画の実時間処理の場合は、一旦、動画像中の特定の対象物の画像をシステムが見失った場合でも、早期に、対象物の画像を再発見して、トラッキングを再開することが必要となる。
【0011】
本発明は、上記のような問題点を解決するためになされたものであって、その目的は、動画像中の特定の対象物の画像(対象画像)を検出して、その動きを自動トラッキングすることが可能な自動顔トラッキングシステムおよび自動顔トラッキング方法を提供することである。
【0012】
【課題を解決するための手段】
本発明の1つの局面に従うと、自動トラッキングシステムであって、動画像を構成する時間軸に沿う複数の画面にそれぞれ対応する画面データを、画面データを受信した時点で格納し、最新の画面に相当する画面データまでの少なくとも所定数の画面分だけ格納するための画像データバッファ手段と、複数の画面データの各々において、単一の処理対象画面に対応する画面データから単一の処理画面の全領域について特定画像を探索し、特定画像を検出する第1の探索処理と、処理対象画面以外の画面に対応する画像データ中の特定画像の探索結果に基づいて、処理対象画面以外の画面において特定画像の検出された位置の近傍で特定画像を探索し、処理対象画面に対応する画面データから特定画像を検出する第2の探索処理とを切替指示に基づき選択的に実行可能な画像特定手段と、自動トラッキングシステムの動画像中における特定画像に対する追跡処理を制御するための制御手段とを備え、
制御手段は、画面データの格納とは独立に、最新の画面に相当する画面データに対して、画像特定手段により第1の探索処理によって特定画像を探索して探索に成功した場合に、複数の画面にそれぞれ対応する画面データに対して、時間を遡る順序で画像特定手段により第2の探索処理によって特定画像を探索することを指示する切替指示を画像特定手段に送信する
【0013】
好ましくは、画像データバッファ手段は、複数の画面にそれぞれ対応する画面データを、それぞれすでに行なわれた探索結果を示す探索フラグと関連付けて格納し、制御手段は、探索フラグを参照して、最も最近に探索した画像に対応する画像データの探索結果が不成功である場合に、最新の画面に相当する画面データに対して、画像特定手段により第1の探索処理によって特定画像を探索する処理を行なう。
【0014】
好ましくは、制御手段は、探索フラグを参照して、最も最近に探索した画像に対応する画像データの探索結果が成功である場合に、最も最近に探索した画像に対応する画像データに対する探索結果に基づいて、未探索の画面に対応する画像データに対して、時間に沿う順序で画像特定手段により第2の探索処理によって特定画像を探索する処理を行なう。
【0015】
この発明の他の局面に従うと、自動トラッキング方法であって、動画像を構成する時間軸に沿う複数の画面にそれぞれ対応する画面データを、画面データを受信した時点で格納し、最新の画面に相当する画面データまでの少なくとも所定数の画面分だけ格納するステップと、画面データを格納するステップとは独立に、単一の第1の処理対象画面に対応する画面データから単一の第1の処理画面の全領域について特定画像を探索し、特定画像を検出する第1の探索処理によって、最新の画面を第1の処理対象画面として、最新の画面に相当する画面データから特定画像を探索するステップと、第1の探索処理による探索に成功した場合に、第2の処理対象画面以外の画面に対応する画像データ中の特定画像の探索結果に基づいて、処理対象画面以外の画面において特定画像の検出された位置の近傍で特定画像を探索し、第2の処理対象画面に対応する画面データから特定画像を検出する第2の探索処理により、複数の画面にそれぞれ対応する画面データに対して、時間を遡る順序で、直前の画面に対応する画面データを第2の処理対象画面以外の画面として、第2の探索処理によって特定画像を探索するステップとを備える。
【0016】
好ましくは、格納するステップは、複数の画面にそれぞれ対応する画面データを、それぞれすでに行なわれた探索結果を示す探索フラグと関連付けて格納するステップを含み、自動トラッキング方法は、第1の探索処理による特定画像を探索するステップの前に、探索フラグを参照して、最も最近に探索した画像に対応する画像データの探索結果を参照するステップをさらに備え、第1の探索処理による特定画像を探索するステップは、最も最近に探索した画像に対応する画像データの探索結果が不成功である場合に、最新の画面に相当する画面データに対して、画像特定手段により第1の探索処理によって特定画像を探索する処理を行なう。
【0017】
好ましくは、探索フラグの参照により、最も最近に探索した画像に対応する画像データの探索結果が成功である場合に、最も最近に探索した画像に対応する画像データに対する探索結果に基づいて、未探索の画面に対応する画像データに対して、時間に沿う順序で第2の探索処理によって特定画像を探索する処理を行なうステップをさらに備える。
【0018】
【発明の実施の形態】
[自動トラッキングシステム100の構成]
図1は、本発明の自動トラッキングシステム100の構成を説明するための概略ブロック図である。
【0019】
なお、以下の説明では、動画中における特定の対象物の画像(対象画像)の一例として、特定人物の顔画像を検出しトラッキングする構成を説明する。また、各フレーム(またはフィールド)中で、対象画像の検出を行う構成は、上述した特許文献1中の技術を用いるものとして説明するが、対象画像の検出を行う方法は、必ずしもこのような方法に限定されるものではない。
【0020】
自動トラッキングシステム100では、図示しない3次元顔形状撮影装置において、対象人物2の頭部のまわりをカメラが1回転して、頭部の3次元座標とテクスチャ情報を獲得しており、その情報が予め格納されているものとする。
【0021】
図1を参照して、自動トラッキングシステム100では、対象人物2の動画像を撮影するためのカメラ104と、カメラ104からの出力を受けて、動画像のトラッキングを行うためのコンピュターシステム110と、コンピュターシステム110からの動画像を出力するための表示装置(ディスプレイ)120とを備える。
【0022】
なお、特に限定されないが、以下では、たとえば、コンピュータシステム110からは、上述した特許文献1に記載されているように、動画像中から会話中の人間の顔画像のみを抽出し、少なくとも当該顔画像の口の周辺の画像を合成して、あたかも翻訳された言語をその人物が話しているように再構成した画像が出力されるものとする。また、コンピュータシステム110からの画像出力は、ネットワーク等を介して、他の端末に送信されてもよい。
【0023】
コンピュターシステム110は、カメラ104および表示装置120との間でデータの授受を行うためのデータ入出力部1102と、3次元顔形状撮影装置からのデータに基づいて、対象人物2の顔に対する3次元顔モデルを生成するモデル生成部1110と、予め撮影された動画像中の対象人物2の2次元画像を変形することで、たとえば、上述したような、対象人物2が実際に発声したのとは異なる所望の言語を発声している状態の顔の2次元画像を合成するマッチング合成部1120と、上記3次元顔モデルに対応するデータや対象人物2に対して実時間で撮影された動画像のデータや、所望の言語の発話と発声器官の形状の変化に関する情報や、カメラ104で撮影された動画像をフレーム(またはフィールド)ごとに格納するためのデータ記憶部1130と、データ記憶部1130に格納されたプログラムに従って、コンピュターシステム110の動作を制御するための制御部1140とを備える。
【0024】
後に説明するように、データ記憶部1130には、動画像をフレーム(またはフィールド)ごとに格納するためのバッファが設けられているものとする。
【0025】
ここで、このようなバッファは、動画像を構成する時間軸に沿う複数の画面にそれぞれ対応する画面データ、すなわち、フレーム(またはフィールド)のデータを、最新の画面に相当するフレーム(またはフィールド)のデータまでの所定数の画面分だけ格納するものである。このようなバッファとしては、たとえば、いわゆる「リングバッファ」を用いることができる。以下では、データ記憶部1130は、リングバッファを備えるものとして説明を行なう。
【0026】
したがって、本発明の自動トラッキングの処理は、データ記憶部1130に格納されるプログラムにより実行される。このようなプログラムは、CD−ROM(Compact Disc-Read Only Memory)のような記録媒体に記録されているものを、記録媒体の読取ドライブ装置(図示せず)を介してコンピュターシステム110にインストールしても良いし、あるいは、インターネットなどのネットワーク経由で配信されたプログラムをコンピュターシステム110にインストールしても良い。
【0027】
モデル生成部1110は、所望の対象人物2の顔の3次元顔モデルを生成するために、対象人物2の頭部の3次元座標とテクスチャ情報を取得するための顔データ取得部1112と、取得した顔の3次元座標と、標準ワイヤフレームモデルを整合させる処理を行ない、対象人物2に忠実な3次元形状を持った3次元顔モデルを生成するためのモデル整合部1114とを備える。
【0028】
一方、マッチング合成部1120は、必要に応じて対象人物2の3次元顔モデルのうちから、2次元画像との合成にあたってトラッキングをとるためのマッチング処理を行なう対象となる部分顔モデルを切り出す顔データ抽出部1122と、このような部分顔モデルのデータを回転・移動させつつ、これに対応する2次元画像を生成し、対象人物2について実時間で撮影された動画像のフレームごと(またはフィールドごと)にテンプレートマッチングを行なうためのテンプレートマッチング部1124とを備える。このテンプレートマッチング部1124による顔画像の検出に応じて、撮影された動画像中の対象人物2の2次元画像に対応して変形された2次元画像が生成され、口周辺が所望の形状で動く画像が合成される。
【0029】
[テンプレートマッチング部1124の動作]
以下では、テンプレートマッチング部1124が、対象人物2について実時間で撮影された動画像のフレームごと(またはフィールドごと)にテンプレートマッチングを行なって、顔画像の検出とトラッキングを行うために、制御部1140が行う処理について説明する。上述のとおり、このような動画中からの対象画像の検出とトラッキングは、他のシステムにも適用可能である。
【0030】
動画像中から顔を検出するためには多大な計算が必要になるが、動画中の顔を検出する場合には、動画中の顔の特性(連続するフレームで顔の位置、色、形の変化が少ない)を用いて探索範囲を限定することができる。つまり、画像中の顔の位置や大きさが急激に変化することは想定されないため、一旦、顔を検出した場合には、その検出値を初期値として、「順次」その近傍を探索すれば顔を見つけることができる。
【0031】
そこで、動画像のフレーム(またはフィールドごと)において、そのフレーム(またはフィールド)内のデータだけに基づいて、その全領域について顔画像を探索する処理を「全探索」と呼び、一旦、あるフレーム(またはフィールド)において検出された顔の検出値を初期値として、順次当該フレームに近接する他のフレームでもその近傍を探索する処理を「近傍探索」と呼ぶことにする。テンプレートマッチング部1124は、制御部1140の指示にしたがい、指定されたフレーム(またはフィールド)に対して、全探索または近傍探索を選択的に実行する。
【0032】
なお、以下では、特に限定されないが、動画像は、データ記憶部1130中のリングバッファにフレームごとに格納されるものとする。
【0033】
以下に説明する本発明の自動トラッキングの構成では、特に、一旦、システムが顔を見失った場合、最新のフレームで顔を全探索で検索し、成功した場合に、時間を遡って、逆順に近傍を探索することにより、実時間性を維持したまま、過去に遡って、より多くのフレームの顔を見つけることを可能とすることを一つの特徴とする。動画の特性から、逆順に探索した場合でも、近傍のみの探索で顔を検出することができる。
【0034】
図2〜図4は、このような制御部1140が行う処理を説明するためのフローチャートである。
【0035】
また、図5〜図14は、図2〜図4のフローチャートの各段階において、上述したデータ記憶部1130中のリングバッファに格納される動画像のフレームの状態とこれに対する処理を説明するための概念図である。
【0036】
以下、図2〜図4までの処理を、適宜、図5〜図14を参照しつつ説明する。
図2〜図4では、たとえば、システム100がある時点まで、顔画像のトラッキングに成功していたものの、それ以降は、一時、トラッキングに失敗していた場合に、再度、以降のフレームにおいて顔画像の検出を行うとともに、トラッキングに失敗していた期間のフレームについても、顔画像の再探索を行う処理を説明している。
【0037】
図2を参照して、まず、順次、リアルタイムで撮影される動画像が、フレームごとに、そのフレームがカメラ104からデータ記憶部1130に到着した時点で、データ記憶部内のリングバッファに記録される。制御部1140は、新たに記録したフレームには、「未探索」のフラグを立てる(ステップS102)。
【0038】
図5は、新たなフレームが記録された際のリングバッファ内のデータの記録状態を示す。新たに記録されたフレームNSTFLのフレーム番号nが、Nであるとすると、リングバッファ内には、最も古い(N−K)番目のフレームODSTFLからN番目のフレームまでのデータが格納されている。このとき、各フレームと関連づけて、図示しないデータ記憶部1130の他の記憶領域またはリングバッファそのものの記憶領域内に、各フレームについて顔画像の探索がすでに行われているか否かと探索が行なわれている場合はその探索結果とを示すフラグが記憶されているものとする。
【0039】
新たに記録されたフレームNSTFLの一つ前のフレームをNNSTFLとする。
【0040】
再び、図2に戻って、続いて、制御部1140は、過去に遡り、過去の探索記録(フラグ)を調べる。最も最近に探索したフレームの探索結果を参照する(ステップS104)。
【0041】
図6は、このようなステップS104の参照の対象となるフレーム200を示す。最新のフレームNSTFLから過去に遡り、未探査の範囲の1つ前のフレーム200について、探索結果の参照が行われる。
【0042】
なお、図2では、説明の便宜上、ステップS102に連続してステップS104の処理が行われるものとして図示したが、実際には、ステップS102の処理とステップS104以降の処理とは、同期してはおらず、互いに独立に行われる。すなわち、ステップS104以降の処理が行われている期間中も、実際には、バックグラウンドの処理として、独立して、ステップS102の処理は行われている。
【0043】
次に、最も最近に探索したフレーム200で、探索は失敗であった場合(ステップS106)、または、バッファ内の最も古いフレームODSTFLまで未探索である場合(ステップS108)は、制御部1140は、テンプレートマッチング部1124を制御して、最も最近にバッファ内に記録されたフレームNSTFL内を全探索する(ステップS110)。
【0044】
図7は、フレーム200が探索に失敗している場合に、ステップS110において全探索が行われるフレームNSTFLを示す。なお、以下、探索を行うフレームは太枠で示す。
【0045】
再び、図2に戻って、次に、フレームNSTFLでの全探索が成功した場合(ステップS112)、直前の検出結果、すなわち、この時点ではフレームNSTFLでの探索結果を初期値として、1フレーム前のフレームNNSTFLを近傍探索する(ステップS116)。
【0046】
図8は、ステップS116において近傍探索が行われるフレームNNSTFLを示す。
【0047】
近傍探索では、探索範囲が限定されるため、全探索を行う場合より大幅に短時間で顔画像を検出することができる。
【0048】
再び図2に戻って、フレームNNSTFLでの近傍探索が成功した場合には(ステップS118)、制御部1140は、探索成功をフラグに記録する(ステップS120)。
【0049】
一方、ステップS112またはS118で探索に成功しなかった場合は、制御部1140は、探索失敗をフラグに記録して(ステップS114)、処理をステップS104に戻す。上述したとおり、ステップS102とステップS104とは独立して処理がされているので、ステップS104に処理が戻った時点で、新たなフレームがリングバッファに記録されていると、再び、同様の処理が繰り返されることになる。
【0050】
次に、ステップS118で探索に成功していると判断され、ステップS120で探索成功をフラグに記録に記録した後には、図3を参照して、さらに、制御部1140は、直前の検出結果を初期値として、さらに1フレーム前のフレームを近傍探索する(ステップS122)。
【0051】
以後は、ステップS122での1フレーム前のフレームを近傍探索が成功すると(ステップS124)、探索成功をフラグに記録し(ステップS126)、過去に探索成功したフレームまで処理が遡ったと判断されるか(ステップS128)、あるいは、ステップS124で探索失敗と判断されるまで、ステップS122での1フレーム前のフレームを近傍探索する処理が繰り返される。
【0052】
図9は、このようにして繰り返し時間を遡りながら、直前の検出結果を初期値として、さらに1フレーム前のフレームを近傍探索す処理を示す。
【0053】
図9においては、図9(a)で、NNSTFLの探索を行った後、順次、図9(b)、図9(c)、図9(d)という順序で、1フレームずつ時間を遡りながら、近傍探索を行っている。
【0054】
再び、図3に戻って、近傍探索が失敗するか(ステップS124)、過去に探索が成功したフレームに至ったとき、または、一番古いフレームに到達した場合には(ステップS128)、探索終了して、時間を追って探索結果を出力する(ステップS130)。
【0055】
図10は、ステップS124において探索失敗と判断した場合に、現在処理対象フレーム以降で探索成功しているフレームを過去から順次、時間軸に沿って結果の出力を行う場合の処理を示す。図10では、フレーム202で、探索失敗と判断されている。
【0056】
図11は、ステップS128で、過去に探索が成功したフレームに至ったと判断された場合に、現在処理対象フレーム以降で探索成功しているフレームを過去から順次、時間軸に沿って結果の出力を行う場合の処理を示す。
【0057】
なお、図11では、図6において探索失敗と判断されていたフレーム200についても、時間を遡る近傍探索では、探索成功となっている場合を示す。
【0058】
すなわち、図11においては、図11(a)で、図9(c)に示したフレームでの近傍探索が成功した後、図11(d)まで近傍探索が成功し、さらに、図11(e)では、フレーム200を超えて、フレーム202まで遡って近傍探索が順次行われている。
【0059】
図11(f)に示すとおり、フレーム204は、過去に探索が成功したフレームであり、フレーム204に処理が到達した時点で、制御部1140は、現在処理対象のフレーム以降で探索成功しているフレームを過去から順次、時間軸に沿って結果の出力を行う。
【0060】
次に、図2のステップS106で、最も最近に探索したフレームで探索は失敗しておらず、かつ、ステップS108で、リングバッファ内の最も古いフレームまでは、未探索でないと判断された場合、言い換えると、図6に示したフレーム200において探索が成功していた場合に行われる処理を、図4を参照して説明する。
【0061】
すなわち、最も最近に探索したフレームで探索が成功していると、続いて、最も最近に探索が成功していたフレーム200の検出結果を初期値として、その次のフレーム300内を近傍探索する(ステップS140)。
【0062】
図12は、ステップS140において近傍探索の対象となるフレーム300を示す。
【0063】
ステップS140の近傍探索が成功した場合(ステップS142)、制御部1140は、探索成功をフラグに記録し、かつ探索結果を出力する(ステップS144)。
【0064】
一方、ステップS142で探索失敗と判断されると処理は、ステップS114に移る。
【0065】
ステップS144の処理が行なわれたときは、続いて、制御部1140は、テンプレートマッチング部1124を制御して、最も最近に探索が成功したフレームの検出結果を初期値として、その次のフレーム内を近傍探索する(ステップS146)。
【0066】
この近傍探索が成功した場合(ステップS148)、制御部1140は、探索成功をフラグに記録し、かつ探索結果を出力する(ステップS150)。
【0067】
一方、ステップS148で探索失敗と判断されると処理は、ステップS114に移る。
【0068】
ステップS150の処理が行なわれたときは、続いて、制御部1140は、次の探索対象は最新に記録されたフレームであるか否かの判定を行なう(ステップS152)。
【0069】
次の探索対象のフレームが最新に記録されたフレームでない場合は、処理は、ステップS146に復帰して、最も最近に探索が成功したフレームの検出結果を初期値として、その次のフレーム内を近傍探索する。以下、順次、最新のフレームに到達するまで、近傍探索と結果の出力とを時間軸上で時間の進行方向に向けて繰り返していく。近傍探索は、探索範囲が限定されるため、全探索によるよりは大幅に探索時間を短縮できる。
【0070】
一方、ステップS152において、次の探索対象が最新に記録されたフレームとなっているときは、制御部1140は、処理をステップS104に復帰させる。
【0071】
図13は、最新フレームまで近傍探索が成功した状態を示す。
一方、図14は、ステップS148で探索失敗と判断されるフレーム302が存在する状態を示す。
【0072】
図14の場合は、失敗の結果はフラグに記録されるものの、それ以降の時間の進行に従う方向への近傍探索は行なわれることなく、処理は、ステップS104の処理から、もう一度、やり直されることになる。
【0073】
以上のとおり、まず、第1に、動画中のフレームまたはフィールドのデータ、すなわち、「画面に対応する画面データ」に対して、最新の画面に対応する画像データについて探索が成功した場合は、時間を遡る方向に近傍探索を行なう。
【0074】
また、第2には、画面に対応する画面データの各々に対して、対象画像の探索処理が終了しているかを示すフラグ(探索フラグ)を関連づけて、データ記憶部1130内に格納しておくことにより、ある範囲で未探査の複数の画面が存在している場合に、この未探査の画面に対応する全ての画面データに対して、全探索を行なうことなく、探索が成功している画面に対応する画面データを初期値とした近傍探索を行なって、複数の画面について対象画像を探索することができる。
【0075】
その結果、たとえば、対象画像をトラッキング途中で、システムが見失った場合でも、より短時間で、より多くの画面に対応する画面データから対象画像を探索して抽出することが可能となる。
【0076】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0077】
【発明の効果】
以上説明したとおり、本発明によれば、探索に要する時間を短縮して、対象画像の探索を行なうことができるので、実時間で対象画像をトラッキングすることが可能な自動トラッキング装置および自動トラッキング方法が実現される。
【図面の簡単な説明】
【図1】 図1は、本発明の自動トラッキングシステム100の構成を説明するための概略ブロック図である。
【図2】 制御部1140が行う処理を説明するための第1のフローチャートである。
【図3】 制御部1140が行う処理を説明するための第2のフローチャートである。
【図4】 制御部1140が行う処理を説明するための第3のフローチャートである。
【図5】 新たなフレームが記録された際のリングバッファ内のデータの記録状態を示す図である。
【図6】 ステップS104の参照の対象となるフレーム200を示す図である。
【図7】 フレーム200が探索に失敗している場合に、ステップS110において全探索が行われるフレームNSTFLを示す図である。
【図8】 ステップS116において近傍探索が行われるフレームNNSTFLを示す図である。
【図9】 繰り返し時間を遡りながら、直前の検出結果を初期値として、さらに1フレーム前のフレームを近傍探索す処理を示す図である。
【図10】 現在処理対象フレーム以降で探索成功しているフレームを過去から順次、時間軸に沿って結果の出力を行う場合の処理を示す図である。
【図11】 現在処理対象フレーム以降で探索成功しているフレームを過去から順次、時間軸に沿って結果の出力を行う場合の処理を示す図である。
【図12】 ステップS140において近傍探索の対象となるフレーム300を示す図である。
【図13】 最新フレームまで近傍探索が成功した状態を示す図である。
【図14】 ステップS148で探索失敗と判断されるフレーム302が存在する状態を示す図である。
【符号の説明】
2 対象人物、100 自動顔トラッキングシステム、104 カメラ、110 コンピュターシステム、120 表示装置、1022 カメラ、1102 データ入出力部、1110 モデル生成部、1112 顔データ取得部、1114 モデル整合部、1120 マッチング合成部、1122 顔データ抽出部、1124 テンプレートマッチング部、1130 データ記憶部、1140 制御部。

Claims (6)

  1. 自動トラッキングシステムであって、
    動画像を構成する時間軸に沿う複数の画面にそれぞれ対応する画面データを、前記画面データを受信した時点で格納し、最新の画面に相当する前記画面データまでの少なくとも所定数の画面分だけ格納するための画像データバッファ手段と、
    複数の前記画面データの各々において、単一の処理対象画面に対応する前記画面データから前記単一の処理画面の全領域について特定画像を探索し、前記特定画像を検出する第1の探索処理と、前記処理対象画面以外の画面に対応する前記画像データ中の前記特定画像の探索結果に基づいて、前記処理対象画面以外の画面において前記特定画像の検出された位置の近傍で前記特定画像を探索し、前記処理対象画面に対応する前記画面データから前記特定画像を検出する第2の探索処理とを切替指示に基づき選択的に実行可能な画像特定手段と、
    前記自動トラッキングシステムの前記動画像中における前記特定画像に対する追跡処理を制御するための制御手段とを備え、
    前記制御手段は、前記画面データの格納とは独立に、前記最新の画面に相当する前記画面データに対して、前記画像特定手段により前記第1の探索処理によって前記特定画像を探索して探索に成功した場合に、前記複数の画面にそれぞれ対応する画面データに対して、時間を遡る順序で前記画像特定手段により前記第2の探索処理によって前記特定画像を探索することを指示する前記切替指示を前記画像特定手段に送信する、自動トラッキングシステム。
  2. 前記画像データバッファ手段は、前記複数の画面にそれぞれ対応する画面データを、それぞれすでに行なわれた探索結果を示す探索フラグと関連付けて格納し、
    前記制御手段は、前記探索フラグを参照して、最も最近に探索した画像に対応する画像データの探索結果が不成功である場合に、前記最新の画面に相当する前記画面データに対して、前記画像特定手段により前記第1の探索処理によって前記特定画像を探索する処理を行なう、請求項1記載の自動トラッキングシステム。
  3. 前記制御手段は、前記探索フラグを参照して、前記最も最近に探索した画像に対応する画像データの探索結果が成功である場合に、前記最も最近に探索した画像に対応する画像データに対する探索結果に基づいて、未探索の画面に対応する画像データに対して、時間に沿う順序で前記画像特定手段により前記第2の探索処理によって前記特定画像を探索する処理を行なう、請求項2記載の自動トラッキングシステム。
  4. 自動トラッキング方法であって、
    動画像を構成する時間軸に沿う複数の画面にそれぞれ対応する画面データを、前記画面データを受信した時点で格納し、最新の画面に相当する前記画面データまでの少なくとも所定数の画面分だけ格納するステップと、
    前記画面データを格納するステップとは独立に、単一の第1の処理対象画面に対応する前記画面データから前記単一の第1の処理画面の全領域について特定画像を探索し、前記特定画像を検出する第1の探索処理によって、前記最新の画面を前記第1の処理対象画面として、前記最新の画面に相当する前記画面データから前記特定画像を探索するステップと、
    前記第1の探索処理による探索に成功した場合に、第2の処理対象画面以外の画面に対応する前記画像データ中の前記特定画像の探索結果に基づいて、前記処理対象画面以外の画面において前記特定画像の検出された位置の近傍で前記特定画像を探索し、前記第2の処理対象画面に対応する前記画面データから前記特定画像を検出する第2の探索処理により、前記複数の画面にそれぞれ対応する画面データに対して、時間を遡る順序で、直前の画面に対応する前記画面データを前記第2の処理対象画面以外の画面として、前記第2の探索処理によって前記特定画像を探索するステップとを備える、自動トラッキング方法。
  5. 前記格納するステップは、前記複数の画面にそれぞれ対応する画面データを、それぞれすでに行なわれた探索結果を示す探索フラグと関連付けて格納するステップを含み、
    前記第1の探索処理による前記特定画像を探索するステップの前に、前記探索フラグを参照して、最も最近に探索した画像に対応する画像データの探索結果を参照するステップをさらに備え、
    前記第1の探索処理による前記特定画像を探索するステップは、前記最も最近に探索した画像に対応する画像データの探索結果が不成功である場合に、前記最新の画面に相当する前記画面データに対して、前記画像特定手段により前記第1の探索処理によって前記特定画像を探索する処理を行なう、請求項4記載の自動トラッキング方法。
  6. 前記探索フラグの参照により、前記最も最近に探索した画像に対応する画像データの探索結果が成功である場合に、前記最も最近に探索した画像に対応する画像データに対する探索結果に基づいて、未探索の画面に対応する画像データに対して、時間に沿う順序で前記第2の探索処理によって前記特定画像を探索する処理を行なうステップをさらに備える、請求項5記載の自動トラッキング方法。
JP2003077913A 2003-03-20 2003-03-20 自動トラッキングシステムおよび自動トラッキング方法 Expired - Fee Related JP4044469B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003077913A JP4044469B2 (ja) 2003-03-20 2003-03-20 自動トラッキングシステムおよび自動トラッキング方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003077913A JP4044469B2 (ja) 2003-03-20 2003-03-20 自動トラッキングシステムおよび自動トラッキング方法

Publications (2)

Publication Number Publication Date
JP2004287747A JP2004287747A (ja) 2004-10-14
JP4044469B2 true JP4044469B2 (ja) 2008-02-06

Family

ID=33292548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003077913A Expired - Fee Related JP4044469B2 (ja) 2003-03-20 2003-03-20 自動トラッキングシステムおよび自動トラッキング方法

Country Status (1)

Country Link
JP (1) JP4044469B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8098885B2 (en) * 2005-11-02 2012-01-17 Microsoft Corporation Robust online face tracking
JP5066497B2 (ja) * 2008-09-09 2012-11-07 富士フイルム株式会社 顔検出装置及び方法
JP2010140425A (ja) * 2008-12-15 2010-06-24 Hitachi Kokusai Electric Inc 画像処理システム
CN102830709A (zh) * 2012-09-04 2012-12-19 泰州市创新电子有限公司 一种显示屏自动追踪朝向使用者的方法

Also Published As

Publication number Publication date
JP2004287747A (ja) 2004-10-14

Similar Documents

Publication Publication Date Title
EP0225729B1 (en) Image encoding and synthesis
JP7009997B2 (ja) 動画生成システムおよび動画表示システム
US10691898B2 (en) Synchronization method for visual information and auditory information and information processing device
US6943794B2 (en) Communication system and communication method using animation and server as well as terminal device used therefor
US10970909B2 (en) Method and apparatus for eye movement synthesis
US11887238B2 (en) Method and system for generating 2D animated lip images synchronizing to an audio signal
JP6711044B2 (ja) 画像処理装置、表示装置、アニメーション生成方法及びプログラム
CN114187547A (zh) 目标视频的输出方法及装置、存储介质及电子装置
CN115578512A (zh) 语音播报视频的生成模型训练和使用方法、装置及设备
JP4599606B2 (ja) 頭部動作自動生成のための頭部動作学習装置及び頭部動作合成装置並びにコンピュータプログラム
KR102482262B1 (ko) 객체 분할과 배경 합성을 이용한 데이터 증강 장치 및 방법
JP4044469B2 (ja) 自動トラッキングシステムおよび自動トラッキング方法
CN117593473B (zh) 动作图像与视频生成方法、设备与存储介质
CN117523051B (zh) 基于音频生成动态图像的方法、装置、设备及存储介质
CN115278293A (zh) 虚拟主播生成方法、装置、存储介质及计算机设备
CN110728971A (zh) 一种音视频合成方法
JP4379616B2 (ja) モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム
EP4125030B1 (en) Methods and systems for generating end-to-end de-smoking model
JP2002247585A (ja) 動画像送信方法と、動画像受信方法と、動画像送信処理用プログラム及びそのプログラムの記録媒体と、動画像受信処理用プログラム及びそのプログラムの記録媒体
CN115223224A (zh) 数字人说话视频生成方法、***、终端设备及介质
JP2022071968A (ja) 顔画像処理システム、顔画像生成用情報提供装置、顔画像生成用情報提供方法および顔画像生成用情報提供プログラム
CN117294905A (zh) 一种加快远程数字人响应速度的方法及装置
CN112788278B (zh) 视频流的生成方法、装置、设备及存储介质
CN116896671A (zh) 一种视频生成方法、装置及电子设备
CN117640946A (zh) 传输和接收图像帧的***和方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071115

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees