JP2008181515A - 物体領域情報記述方法、映像情報処理方法及び情報処理装置 - Google Patents
物体領域情報記述方法、映像情報処理方法及び情報処理装置 Download PDFInfo
- Publication number
- JP2008181515A JP2008181515A JP2008006250A JP2008006250A JP2008181515A JP 2008181515 A JP2008181515 A JP 2008181515A JP 2008006250 A JP2008006250 A JP 2008006250A JP 2008006250 A JP2008006250 A JP 2008006250A JP 2008181515 A JP2008181515 A JP 2008181515A
- Authority
- JP
- Japan
- Prior art keywords
- information
- data
- area
- region
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Image Analysis (AREA)
Abstract
【課題】 映像中の所望の物体の領域を少ないデータ量で記述でき且つその作成やデータの扱いも容易にする物体領域記述方法を提供すること。
【解決手段】 映像中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述するための物体領域情報記述方法であって、映像中における対象となる物体の領域201を、該物体の領域に対する近似図形202もしくは特徴点の少なくとも一方で特定し、該近似図形202の代表点203もしくは該特徴点の位置データをフレーム200の進行に沿って並べたときの軌跡を所定の関数204で近似し、該関数のパラメータ205を用いて該物体の領域に関する情報を記述し、さらに該物体の領域に対するコンテンツ利用制御や検索などの処理にて使用される制御情報や属性情報を付加する。
【選択図】 図2
【解決手段】 映像中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述するための物体領域情報記述方法であって、映像中における対象となる物体の領域201を、該物体の領域に対する近似図形202もしくは特徴点の少なくとも一方で特定し、該近似図形202の代表点203もしくは該特徴点の位置データをフレーム200の進行に沿って並べたときの軌跡を所定の関数204で近似し、該関数のパラメータ205を用いて該物体の領域に関する情報を記述し、さらに該物体の領域に対するコンテンツ利用制御や検索などの処理にて使用される制御情報や属性情報を付加する。
【選択図】 図2
Description
本発明は物体領域情報記述方法、映像情報処理方法及び情報処理装置に関する。
本発明は、映像中の物体の領域に関する情報を記述するための物体領域情報記述方法、映像中の物体に対する利用制御あるいは映像中の物体の検索を行う情報処理装置及びそのための映像情報処理方法に関する。
映像コンテンツに対する視聴および2次利用を制御するために、古くは、映像のタイトルにその情報を付与する方法が一般的である。これは、映像の著作権および利用の制約条件を一本の映像タイトルごとに付ける方法であり、映像の部分に対して利用を制御することができなかった。そこで、映像を連続するフレームのまとまりに分割し、そのまとまりごとに(例えばカットごとに)映像利用に関する情報を付与して管理することが考えられた。この方法によって、例えば、ある俳優が登場しているカットだけに、俳優の肖像権を認めるような、木目細かな管理ができるようになった。しかし、同一カットに複数の俳優がいて、興味の対象がひとりの俳優にあり、もう片方の俳優には興味がない場合、興味のある俳優の映像のみを切り出して利用することができなかった。静止画ならば、領域ごとに分割し肖像権や著作権の情報を付与することができても、動画のように対象物体が映像中で移動する場合は、領域毎に情報を付与する有効な手段がなかった。
また、デジタル映像圧縮技術の進歩によって、デジタル化された映像コンテンツをランダムアクセス可能なハードディスクなどに管理保存し、所望の場所を容易に検索できるようになった。この場合も、映像を連続したフレームのまとまりに分割し、検索に必要な情報を付与することが行われている。情報を付与する方法としては、アノテーション(注釈)として、言語を用いて付与する方法が一般的である。例えば、タイムコードが1:00〜1:20のシーンでは、「飛行機が飛び去る」などの説明が付与される。これにより、「飛行機」というキーワードを利用して検索ができる。しかし、このようなアノテーション(注釈)は、機械で情報を付与することができず、人手による多くの労力が必要であった。これを改善するために、映像の画像から特徴量を自動的に抽出し、その特徴量を検索に利用する方法が考えられた。これは、画像のどの部分に、どのような大きさの色が存在するかなどの情報を与えるものである。しかし、静止画の場合は領域を分割することができ有効であったが、動画の場合には映像中の物体が移動するため、時空間的に領域を特定できず、利用不可能であった。
以上説明したように、映像中で時空間的に変化をともなう物体領域に対して、それを特定し、その領域の映像データの利用を管理する情報を付与する有効な手段がなかった。
また、静止画には有効であった検索のための特徴付けは映像中の物体領域には適用できなかった。
本発明は、上記事情を考慮してなされたもので、映像中の物体ごとの利用制御や検索を可能にするために映像中の物体を特定する物体領域情報記述方法、映像情報処理方法及び情報処理装置を提供することを目的とする。
本発明に係る物体領域情報記述方法は、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報を生成し、前記物体の領域に対する処理に共されるべき関連情報を前記物体領域情報に付加することを特徴とする。
好ましくは、前記処理は、前記映像データの前記物体の領域部分に対する利用を制御するための処理であり、前記関連情報は、前記制御の際に参照すべき制御情報であるようにしてもよい。
さらに、好ましくは、前記制御情報は、前記映像データの前記物体の領域部分に対する一次利用(例えば当該コンテンツの視聴、注釈情報の表示)を許可する条件を示す情報、前記映像データの前記物体の領域部分に対する二次利用(例えば、当該コンテンツのコピー)を許可する条件を示す情報、前記映像データの前記物体の領域部分の利用に対する課金に関する情報のうちの少なくとも1つを含むようにしてもよい。
また、好ましくは、前記処理は、前記物体の領域ごとの検索を行うための処理であり、前記関連情報は、前記検索において検索キーとの照合のために用いられる、前記物体の領域の代表的な特徴を示す属性情報であるようにしてもよい。
さらに、好ましくは、前記属性情報は、前記物体の領域を代表する形状を示すキーシェープ情報、前記物体の領域を代表するテクスチャを示すキーテクスチャ情報、前記物体の領域の運動に関する情報を示すアクティビティ情報、前記物体の領域を代表する色を示すキーカラー情報のうちの少なくとも1つを含むようにしてもよい。
また、好ましくは、映像データ中における対象となる物体の領域を、該物体の領域に対する近似図形もしくは特徴点の少なくとも一方で特定し、該近似図形の代表点もしくは該特徴点の位置データを前記フレームの進行に沿って並べたときの軌跡を所定の関数で近似し、該関数のパラメータを用いて該物体の領域に関する情報を記述することによって、前記物体領域情報を生成するようにしてもよい。
また、好ましくは、少なくとも、対象となる前記複数フレームのうちの先頭のフレームの番号及び最終のフレームの番号もしくは先頭のフレームのタイムスタンプ及び最終のフレームのタイムスタンプを特定可能な情報と、該物体の領域を近似する近似図形の図形種を識別する情報と、該物体の領域に対する近似図形の代表点の位置データをフレームの進行に沿って並べたときの軌跡を近似した関数のパラメータとを用いて、前記物体領域情報を生成するようにしてもよい。
また、好ましくは、少なくとも、対象となる前記複数フレームのうちの先頭のフレームの番号及び最終のフレームの番号もしくは先頭のフレームのタイムスタンプ及び最終のフレームのタイムスタンプを特定可能な情報と、該物体の領域を近似する近似図形の数と、該近似図形の図形種を識別する情報と、各近似図形に対応する、該近似図形の代表点の位置データをフレームの進行に沿って並べたときの軌跡を近似した関数のパラメータとを用いて、前記物体領域情報を生成するようにしてもよい。
また、好ましくは、少なくとも、対象となる前記複数フレームのうちの先頭のフレームの番号及び最終のフレームの番号もしくは先頭のフレームのタイムスタンプ及び最終のフレームのタイムスタンプを特定可能な情報と、該物体の領域の特徴点の位置データをフレームの進行に沿って並べたときの軌跡を近似した関数のパラメータとを用いて、前記物体領域情報を生成するようにしてもい。
また、本発明の一実施態様は、物体領域情報記述方法により生成された、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報、および該物体領域情報に付加された該物体の領域に対する処理に共されるべき関連情報を格納した記録媒体である。
また、本発明の他の一実施態様は、映像データ中の物体ごとに利用制御を行う映像情報処理方法であって、映像中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報およびこれに付加された制御情報を取得し、前記物体領域情報にて示される物体の領域を含む映像データが利用対象となった場合に、該物体領域情報に付加された前記制御情報に基づいて、該映像データの利用の可否を判定し、この判定結果に応じて、前記映像データの出力形態を制御することを特徴とする。
好ましくは、前記物体の領域に関しては前記映像データの利用が不可と判定された場合に、前記映像データにおける前記物体の領域を隠蔽する処理を施した上で、該映像データを出力するようにしてもよい。
また、本発明の他の一実施態様は、映像中の物体ごとに利用制御を行う映像情報処理方法であって、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報およびこれに付加された制御情報を取得し、前記物体領域情報にて示される物体が指示された場合に、前記制御情報に基づいて、該物体に関連する情報を呈示することの可否を判定し、この判定結果に応じて、前記物体に関連する情報の呈示を制御することを特徴とする。
また、本発明の他の一実施態様は、映像中の物体ごとに検索を行う映像情報処理方法であって、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報およびこれに付加された属性情報を取得し、指定された検索条件および前記属性情報に基づいて、該当する物体を検索し、検索された前記物体を示す前記物体領域情報に基づいて、呈示すべき検索結果を作成することを特徴とする。
好ましくは、前記属性情報は、前記物体の領域を代表する形状を示すキーシェープ情報、前記物体の領域を代表するテクスチャを示すキーテクスチャ情報、前記物体の領域の運動に関する情報を示すアクティビティ情報、前記物体の領域を代表する色を示すキーカラー情報のうちの少なくとも1つを含むようにしてもよい。
好ましくは、前記検索の結果として、検索された前記物体の領域に対応する複数フレームに渡る映像および1つの代表的なフレームから切り出した部分画像の少なくとも一方を表示するようにしてもよい。
また、本発明の他の一実施態様に係る物体領域情報生成装置は、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報を生成する手段と、前記物体の領域に対する処理に共されるべき関連情報を前記物体領域情報に付加する手段とを備えたことを特徴とする。
また、本発明の他の一実施態様は、映像中の物体ごとに利用制御を行う映像情報処理装置であって、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報およびこれに付加された制御情報を取得する手段と、前記物体領域情報にて示される物体の領域を含む映像データが利用対象となった場合に、該物体領域情報に付加された前記制御情報に基づいて、該映像データの利用の可否を判定する手段と、この判定結果に応じて、前記映像データの出力形態を制御する手段とを備えたことを特徴とする。
また、本発明の他の一実施態様は、映像中の物体ごとに検索を行う映像情報処理装置であって、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報およびこれに付加された属性情報を取得する手段と、指定された検索条件および前記属性情報に基づいて、該当する物体を検索する手段と、検索された前記物体を示す前記物体領域情報に基づいて、呈示すべき検索結果を作成する手段とを備えたことを特徴とする。
本発明の他の一実施態様によれば、映像中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述し、物体領域の視聴や2次利用などの利用形態を制限する情報をその記述に付与することにより、物体領域を利用するときに、その情報を用いて利用の形態を管理・制御することができる。また、映像中の物体領域単位に利用者への表示・編集を木目細かく取り扱うことが可能となる。
また、本発明の他の一実施態様によれば、映像中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述し、物体領域の代表的な特徴量などの属性情報を付与することにより、検索キーを用いて属性情報を検索することによって、自動でかつ高速に所望の物体領域を検索することができる。
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
本発明によれば、映像中の物体ごとの利用制御や検索が可能になる。
以下、図面を参照して本発明による物体領域情報記述方法及び物体領域情報生成装置並びに映像情報処理方法及び情報処理装置の実施形態を説明する。
本発明は、映像中における物体の領域を連続する複数フレームに渡って記述した物体領域データを生成し、この物体領域データに、該物体に関連する関連情報を付加する。
映像中の物体としては、典型的には、人や動物、建物や植物などの移動物体あるいは静止物体が考えられるが、映像中において物体(オブジェクト)として扱うことのできるものであれば、映像中のどのようなものでもあってもよい。また、独立したものであってもよいし、ものの一部であってもよいし、ものの集合であってもよい。
物体ごとに作成される物体領域データは、例えば映像中における当該物体の出現フレームあるいは時刻の範囲や画面上の出現位置/物体形状などを示す、あるいは復元可能な情報であり、例えば従来から知られているマスク画像を用いてもよいが、後述する(第1の実施形態、第2の実施形態)新たな物体領域データを用いることが好ましい。
本発明では、物体領域データには、1以上の関連情報が付加されるものとする。物体領域データに付加する関連情報としては、種々のものがあり、例えばユーザに対して表示もしくは再生することを目的とする情報(あるいはその情報を取得するための情報)が考えられるが、表示・再生以外の処理に共される情報を付加することも可能である。本発明では、後者の例として、コンテンツ利用制御のための制御情報を関連情報として物体領域データに付加して、コンテンツ利用制御を物体毎に行うことを可能にした例(第3の実施形態)や、物体の領域に基づいた特徴量などの属性情報を関連情報として物体領域データに付加して、検索を物体毎に行うことを可能にした例(第4の実施形態)を示す。もちろん、1つの物体領域データに様々な関連情報が付加されてもよい。
なお、一般的には、物体領域データに付加すべき関連情報の一部または全部について、実際には物体領域データに該当情報へのポインタを付加することも可能である(第3の実施形態の制御情報や第4の実施形態の属性情報は、ポインタではなくデータ自体を物体領域データに付加すると好ましい)。
(第1実施形態)
最初に、物体領域データの生成の一例について説明する。
最初に、物体領域データの生成の一例について説明する。
図1に、本発明の第1の実施形態に係る物体領域データ生成装置の構成例を示す。図1に示されるように、本物体領域データ生成装置は、映像データ記憶部100、領域抽出部101、領域の図形近似部102、図形代表点抽出部103、代表点の曲線近似部104、関連情報記憶部105、領域データ記憶部106を備えている。なお、本処理(特に、領域抽出部101や領域の図形近似部102の処理)においてユーザの操作を介入させる形態を取る場合には、映像データを例えばフレーム単位で表示させ、ユーザの指示入力等を受け付けるGUIが用いられる(図1では省略している)。
映像データ記憶部100は、映像データが記憶されているもので、例えばハードディスクや光ディスク、半導体メモリなどで構成される。
領域抽出部101は、映像データにおける一部の領域を抽出する。この一部の領域とは、画像中の特定の人や車、建物など(あるいはその一部分、例えば人の頭、車のボンネット、建物の玄関など)の物体の領域である。映像では、連続するフレームには同じ物体が写っていることが多いが、物体自身の動きや撮影時のカメラの動きが原因で同じ物体に対応する領域がフレーム間で変化することが多い。
領域抽出部101は、このような注目している物体の動きや変形に対応して各フレームにおける物体(オブジェクト)の領域を抽出するためのものである。具体的な抽出手法としては、全フレームに渡って人手で領域指定する方法や、M.Kass 他,「Snakes:Active countour models」(International Journal of Computer Vision,vol.1,No.4,pp.321−331.July,1988)に記されているようなSnakesと呼ばれる動的輪郭モデルにより物体の輪郭抽出を連続して行う方法、金子他「ロバスト推定を用いたハイパーメディアコンテンツ作成のための高速移動物体追跡法」(情報処理学会技術報告 CVIM113−1,1998)に記されているようなブロックマッチングにより求めた物体中の部分領域の移動先から物体全体の変形・移動を推定していく方法、画像解析ハンドブック(第II部第2章,東京大学出版会,1991)に記されているような領域成長・分割により似た色を持つ領域を特定する方法などを用いることができる。
領域の図形近似部(以下、領域図形近似部)102は、領域抽出部101で抽出された映像中の物体の領域を予め定められた図形により近似する。図形としては、矩形、円、楕円、多角形など任意の図形としてよい。また、領域の近似方法も、領域に外接する図形に近似する方法、領域に内接する図形とする方法、領域の重心を近似図形の重心とする方法、領域と近似図形の面積比を等しくする方法、などの方法がある。なお、物体の領域を予め定められた図形により近似するのではなく、近似する対象物体毎に図形の種類をユーザが指定できるようにしてもよいし、近似する対象物体毎にその物体の形状等に応じて図形の種類を自動的に選択するようにしてもよい。
領域の図形近似は、領域抽出部101での抽出結果が入力されるたびに、フレームごとに行う。もしくは、前後数フレームの領域抽出結果を使って図形近似を行っても良い。数フレームの領域抽出結果を利用する場合には、近似図形の大きさや位置などの変化を数フレームの間で平滑化することにより、近似図形の動きや変形をなめらかにしたり、領域抽出の抽出誤差を目立たなくすることができる。なお、近似図形の大きさは、フレームごとに異なって構わない。
図形代表点抽出部103は、領域図形近似部102の出力である近似図形を表現する代表点を抽出する。どのような点を代表点とするかは、どのような近似図形を用いるかにより異なる。例えば、近似図形が矩形の場合には4つもしくは3つの頂点を代表点とすることができ、近似図形が円の場合には中心と円周上の一点としたり直径の両端点としたりすることができる。また、楕円の場合には楕円の外接矩形の頂点としたり2つの焦点と楕円上の1点(例えば短軸上の1点)としたりすればよい。任意の閉多角形を近似図形とする場合には、各頂点を図形の代表点とする必要がある。
代表点の抽出は、領域図形近似部102から1フレーム分の近似図形の情報が出力されるたびに、フレーム単位で行われる。また、各代表点は、水平方向の座標Xと、垂直方向の座標Yとにより表される。
代表点の曲線近似部(以下、代表点曲線近似部)104は、図形代表点抽出部103で抽出された各代表点の位置をそれぞれ時系列で曲線に近似する。この近似曲線は、各代表点について、X座標、Y座標ごとに、フレーム番号fもしくは映像に付与されているタイムスタンプtの関数として表現される。曲線近似の方法としては、直線による近似、スプライン曲線による近似などがある。
関連情報記憶部105には、映像データ記憶部100に記憶されている映像データに登場する物体に関する情報や、そのような情報を外部記憶装置あるいはネットワークを介したサーバなどから取得するためのポインタ情報(例えば、関連情報の記録されているアドレス、ファイル名、URLなど)を記憶するためのものである。関連情報は、文字、音声、静止画、動画、あるいはそれらを適宜組み合わせたものであってもよい。また、関連情報は、プログラムもしくは計算機の動作を記述したデータであってもよい(この場合には、当該物体がユーザにより指定されると、計算機が所望の動作を行うことになる)。関連情報記憶部105は映像データ記憶部100と同様に例えばハードディスクや光ディスク、半導体メモリなどで構成される。
なお、制御のための制御情報や検索のための属性情報を関連情報として物体領域データに付加する場合については後述する(第3、第4の実施の形態)。
領域データ記憶部106は、代表点曲線近似部104の出力である代表点の時系列的な軌跡を近似した曲線式を表現するデータを含む物体領域データが記憶される記憶媒体である。関数で表現された領域に対応する物体に関する関連情報が関連情報記憶部105に記憶されている場合には、物体領域データには関連情報そのものやポインタ情報を併せて記録することができる。領域データ記憶部106も映像データ記憶部100等と同様に例えばハードディスクや光ディスク、半導体メモリなどで構成される。
なお、映像データ記憶部100、関連情報記憶部105、領域データ記憶部106は、別々の記憶装置によって構成されていてもよいが、それらの全部または一部が同一の記憶装置によって構成されていてもよい。
また、本物体領域データ生成装置は、計算機上でソフトウェアを実行する形で実現することもできる。
次に、より具体的な例を用いながら本物体領域データ生成装置の動作について説明する。
図2の(a)、(b)、(c)、(d)は、領域抽出部101による物体の領域を抽出する処理から、領域図形近似部102による領域を図形で近似する処理、図形代表点抽出部103による図形の代表点を抽出する処理、代表点曲線近似部104による代表点を曲線で近似する処理までの一連の処理の概要をより具体的に説明するための図である。
ここでは、領域図形近似部102として領域の楕円による近似方法を用い、図形代表点抽出部103として楕円の2つの焦点と楕円上の1点を抽出する方法を用い、代表点曲線近似部104としてスプライン関数による近似方法を用いた場合を例としている。
図2の(a)において、200は処理対象となっている映像中の1フレームを示している。
201は抽出対象となっている物体の領域を示している。この物体の領域201を抽出する処理は領域抽出部101において行われる。
202は物体の領域を楕円で近似したものである。物体領域201から楕円202を求める処理は領域図形近似部102において行われる。
ここで、図3に、物体の領域が平行四辺形で表される場合に、近似楕円を求める方法の一例を示す。図3における点A,B,C,Dが物体の領域である平行四辺形の各頂点である。この場合、まず、辺ABと辺BCのどちらが長いかを計算する。そして、長い方の辺およびその対辺を辺の一部とする最小の長方形を求める。図3の例の場合は点A,B’,C,D’を4頂点とする長方形となる。近似楕円は、例えば、この長方形に内接する楕円と相似で、かつ、点A,B’,C,D’を通る外接楕円とする。
次に、図2の(b)において、203は楕円を表現する図形代表点であり、具体的には2つの焦点および1つの楕円上の点(図2の(b)の例では短軸上の1点)である。楕円の焦点は2つの軸上の点や楕円の外接矩形から簡単に求めることができる。以下、一例として、図4における長軸上の2点P0,P1および短軸上の1点Hから焦点FとGを求める方法を説明する。
まず、長軸と短軸のパラメータであるa,bと、楕円の中心Cと、扁平率eとを、
E(P0,P1)=2×a、
C=(P0+P1)/2、
E(C、H)=b、
e=(1/a)×√(a×a−b×b)
により求める。
E(P0,P1)=2×a、
C=(P0+P1)/2、
E(C、H)=b、
e=(1/a)×√(a×a−b×b)
により求める。
ここで、E(P、Q)は点Pと点Qのユークリッド距離である。
このようにして求めたパラメータから、焦点FとGは、
F=C+e×(P0−C)、
G=C−e×(P0−C)
により求めることができる。
F=C+e×(P0−C)、
G=C−e×(P0−C)
により求めることができる。
このようにして、楕円の代表点F、GおよびHは決定されるが、これらの点を別のフレームにおいて取り出された楕円の代表点と結びつける際にはあいまいさが生じる。すなわち、抽出された2つの焦点と1つ前のフレームにおける2つの焦点とを結びつける組み合わせは2通り存在する。また、短軸と楕円との交点は2つあるため、1つ前のフレームにおいて抽出された楕円上の一点と対応する交点がどちらなのかがわからない。そこで、これらを決定する方法について説明する。
1フレーム前に抽出された2つの焦点をFp、Gpとする。Fpに対応するのがFであるのかGであるのかを判断するために、
E((Gp−Fp)/2,(G−F)/2)と
E((Gp−Fp)/2,(F−G)/2)とを比較する。
E((Gp−Fp)/2,(G−F)/2)と
E((Gp−Fp)/2,(F−G)/2)とを比較する。
前者の方が小さい場合には、FpはFに対応させ、GpはGに対応させる。一方、後者の方が小さい場合には、その逆に、FpはGに対応させ、GpはFに対応させる。
また、1つ前のフレームにおける短軸と楕円との交点をHpとし、現フレームの短軸と楕円との2つの交点をH、H’とする。Hpと対応付ける点としてHとH’のどちらを選択するかは2つの距離、
E(Hp−(Gp+Fp)/2,H−(F+G)/2)と
E(Hp−(Gp+Fp)/2,H’−(F+G)/2)とを算出することにより決定する。
E(Hp−(Gp+Fp)/2,H−(F+G)/2)と
E(Hp−(Gp+Fp)/2,H’−(F+G)/2)とを算出することにより決定する。
前者が小さい場合にはHを選択し、そうでない場合にはH’を選択する。なお、はじめのフレームにおける短軸と楕円との交点Hは2つのうちのどちらを選択してもよい。
このように楕円から代表点を抽出する処理は図形代表点抽出部103において行われる。
以上の処理によって取り出された代表点は、映像中の注目物体の移動や撮影カメラの移動により、連続するフレームにおいて位置が異なるのが普通である。そこで、対応する楕円の代表点を時系列に並べ、X座標、Y座標ごとにスプライン関数により近似を行う。本実施形態では、楕円の代表点であるF、G、Hの3点(図4参照)それぞれについてX、Y座標のスプライン関数が必要になるので、合計6つのスプライン関数が生成される。
以上のスプライン関数による曲線近似は代表点曲線近似部104において行われる。
なお、代表点曲線近似部104による処理は、当該物体の領域に関する各フレームの代表点の座標値が得られる毎に行う方法(例えば各フレームの代表点の座標値が得られる毎に近似を行うとともに近似誤差を求め、近似誤差が一定の範囲に収まるように近似区間を適宜分割する方法)や、当該物体の領域に関する全てのフレームの代表点の座標値が得られた後に行う方法などがある。
図2の(c)の204は近似されたスプライン関数を3次元的に表現したものである。図2の(d)の205は代表点曲線近似部104の出力であるスプライン関数の一例である(1つの代表点の1つの座標軸についてのみ示している)。この例は、近似区間がt=0〜5とt=5〜16の2つに分割された場合(節点が3つとなった場合)を示している。
このようにして得られたスプライン関数は予め定めておいたデータ形式に従って領域データ記憶部106に記録される。
以上のように本実施形態では、映像中の物体の領域を、その近似図形の代表点の時系列的な軌跡(フレーム番号あるいはタイムスタンプを変数とする代表点の座標の軌跡)を近似した曲線のパラメータとして記述することができる。
本実施形態によれば、映像中の物体の領域を関数のパラメータのみによって表現できるため、データ量が少なく、ハンドリングの容易な物体領域データを生成することができる。また、近似図形からの代表点の抽出や、近似曲線のパラメータの生成も容易に行うことができる。また、近似曲線のパラメータから近似図形を生成することも容易に行うことができる。
また、この近似図形として基本的な図形、例えば一つまたは複数の楕円を用い、例えば楕円を二つの焦点と他の1点により代表させれば、ユーザにより指定された任意の座標が物体の領域(近似図形)内か否か(物体の領域を指示しているか否か)を簡単な判定式により判定することができる。さらに、これによって、ユーザによる映像中の動く物体の指示をより容易にすることができる。
以下では、領域データ記憶部106に格納される物体領域データのデータ形式について説明する。なお、ここでは、代表点をスプライン関数により近似する場合を例にとって説明するが、もちろん、代表点を他の関数により近似する場合も同様である。
図5に、映像中の物体の領域を表すスプライン関数と、物体に関連付けられた関連情報とを記録するための物体領域データのデータ形式の一例を示す。
ID番号400は、物体ごとに付与される識別番号である。なお、このデータは省略されてもよい。
先頭フレーム番号401と最終フレーム番号402は、当該ID番号の物体の存在を定義する最初と最後のフレーム番号であり、具体的には、映像中で物体が登場し消えるまでのフレーム番号である。ただし、現実に映像中で物体が登場し消えるまでのフレーム番号ではなく、例えば映像中で物体が登場したときより後の任意のフレーム番号を先頭フレーム番号としてもよいし、また先頭フレーム番号以降でかつ映像中で物体が消えたときより前の任意のフレーム番号を最終フレーム番号としてもよい。なお、先頭/最終フレーム番号は先頭/最終タイムスタンプで代用することもできる。また、最終フレーム番号402は、物体存在フレーム数または物体存在時間に置き換えてもよい。
関連情報403は、本実施形態では必須ではないが、当該ID番号の物体に関連付けられた情報である。ただし、関連情報は他に記憶しておいて、関連情報フィールドの代わりに関連情報へのポインタフィールドを記述してもよい。関連情報ポインタは、当該ID番号の物体に関連付けられた関連情報データの記録してあるデータ領域のアドレスなどである。関連情報へのポインタを使うと、物体に関する関連情報を検索したり表示したりすることが容易にできる。また、関連情報へのポインタはプログラムや計算機の動作を記述したデータへのポインタであってもよい。この場合には、当該物体がユーザにより指定されると、計算機が所望の動作を行うことになる。
また、物体領域データ内に関連情報へのポインタと関連情報そのものを任意に記述可能としてもよい。この場合には、物体領域データ内に記述されているのが関連情報へのポインタか関連情報そのものかを示すフラグを付加すればよい。
近似図形数404は、物体の領域を近似している図形の数である。図2の(a)の例においては、一つの楕円で物体領域を近似しているので、図形の数は1となる。
近似図形データ405は、近似図形を表現するための図形代表点の軌跡データ(例えばスプライン関数のパラメータ等)である。
なお、近似図形データ405は、近似図形数404に相当する数だけ存在する(近似図形数404が2以上の場合については後述する)。
また、物体領域データにおいて、近似図形数404は常に1つとし(従って近似図形データ405も常に1つとなる)、近似図形数404のフィールドを省くようにしてもよい。
物体領域データに付加される関連情報403は、1または複数の、当該物体に関連する情報を書き込むためのフィールドである。
なお、関連情報403には、必要に応じて当該物体の関連情報を取得するためのポインタ情報を書き込むようにしてもよい。ポインタ情報を使うことにより、物体に関する関連情報を検索したり表示したりすることが容易にできる。
次に、図6に、図5の物体領域データ内の近似図形データ405のデータ構造の一例を示す。
図形種ID1300は、近似図形としてどのような図形を用いているかを示すためのデータであり、円、楕円、矩形、多角形などを特定する。
代表点数1301は、図形種IDで特定される図形を代表する点の数を幾つ必要とするかを表す。
1組の代表点軌跡データ1302,1303は、図形の代表点の軌跡を表現するスプライン関数に関するデータ領域である。一つの図形代表点につき、X座標、Y座標のスプライン関数データが必要になる。従って、スプライン関数を特定する代表点軌跡データは、代表点数(M)×2だけ存在する。
なお、使用する近似図形の種類を予め1種類、例えば楕円、に限定することも可能である。この場合には、図6の図形種IDのフィールドを省くことも可能である。
また、図形種IDによって代表点数が一意に特定される場合には、代表点数を省くことも可能である。
次に、図7に、図6の近似図形データ内の代表点軌跡データ1302,1303のデータ構造の一例を示す。
節点フレーム番号1400は、スプライン関数の節点を表しており、この節点まで多項式のデータ1403が有効であることを示している。多項式の係数データの数は、スプライン関数の最高次数により変化する(最高次数をKとすると、係数データの数はK+1となる)。そのため、多項式次数1401を参照する。多項式次数1401の後には、多項式次数+1個に相当する数の多項式係数1402が続く。
また、スプライン関数は節点間で別の多項式で表現されるため、節点の数に対応した数の多項式が必要になる。従って、節点フレーム番号、多項式の係数などを含むデータ1403は、複数繰り返し記述される。節点フレーム番号が最終フレームと等しくなった場合には、それが最後の多項式係数データであることを意味しているので、代表点軌跡データが終わることがわかる。
図8は図4、図5、図6の階層関係を示すものである。
次に、近似図形として楕円以外の図形を用いた場合について説明する。
図9は、近似図形として平行四辺形を用いた場合の代表点を説明するための図である。点A,B,C,Dが平行四辺形の頂点である。これらのうち3点が決まれば残りの1点も一意に決まるため、代表点としては4頂点のうちの3頂点とすれば十分である。この例では、A,B,Cの3点を代表点としている。
また、図10は、近似図形として多角形を用いた場合の代表点を説明するための図である。多角形の場合には、頂点の順序を外周に沿った順にしておく。図10の例では、10個の頂点を持つ多角形なので、N1〜N10までの全ての頂点を代表点とする。なお、この場合に、内角が180度未満の頂点のみを代表点とするなどして、頂点数を削減するようにしてもよい。
ところで、前述したように、これまで説明してきた処理は、計算機上でソフトウェアにより行うこともできる。図11は本実施形態の情報処理装置の処理の流れの一例を表したフローチャートであり、本実施形態の情報処理装置をソフトウェアにより実現する場合には例えば図11のフローチャートに従ったプログラムを作成すればよい。
ステップS11では、映像データから1フレーム分の映像を取り出す。
ステップS12では、映像中の特定の物体の領域を抽出する。抽出手法は領域抽出部101と同様の手法を用いることができる。
ステップS13では、ステップS12の処理結果である領域情報に対して、近似図形による当てはめを行う。これも領域の図形近似部102と同様の手法を用いることができる。
ステップS14では、ステップS13で近似された図形の代表点を抽出する。
ステップS15では、連続するフレームにおける近似図形の代表点列の位置の曲線近似を行う。
ステップS16は分岐処理で、今処理した画像が最後のフレームか、または処理したフレームにおいて抽出対象の物体が画像中から消失してしまった(もしくは消失したとみなす)か否かを判定する。イエスの場合にはステップS17を、ノーの(いずれでもない)場合にはステップS11の処理へと分岐する。
ステップS17では、ステップS15で計算された近似曲線を所定のフォーマットに従って物体領域データとして記録媒体に記録する。
さて、これまでは一つの物体に対して一つの図形を割り当てて、物体の領域を大まかに表す例を中心に説明をしてきたが、一つの物体の領域を複数の図形により近似し、近似精度を向上させることも可能である。図12は、一つの物体を複数の図形で近似した例である。この例では画像中の人の領域を600から605までの6つの楕円により表している。
一つの物体を図12のように複数の図形で表す場合には、物体を複数の領域に分割する処理が必要となる。この処理にはどのような方法が用いられていても良いが、例えば人手で直接入力する方法がある。この場合、例えば、マウス等のポインティングデバイスを用いて、画像上で領域を矩形や楕円で囲む、あるいはポインティングデバイスの軌跡により領域を指定する、などの操作で実現することができる。また、人手ではなく自動で行う場合には、例えば、物体の動きのクラスタリングで実現する方法がある。これは、連続するフレーム間で物体中の各領域がどのような動きをしたかを相関法(例えば画像解析ハンドブック、第II部第3章、東京大学出版会、1991を参照)や勾配法(例えば、Determining optical flow,B.K.P.Horn and B.G.Schunck,Artificial Intelligence,Vol.17,pp.185−203,1981を参照)などにより求め、これらの動きの似ているものだけをまとめて領域を形成する方法である。
このようにして分割された各領域600、601、602、603、604、605に対しては、それぞれについて図1の構成例や図11の手順例により説明される処理を施すことにより、近似図形データを生成することが可能である。この場合、一つの物体の物体領域データに記述すべきスプライン関数が近似図形の増加に応じて増えることになるため、物体領域データは図13で表されるように近似図形データ405を、近似図形数404に相当する数(この場合、複数)だけ含むデータ構造となる。
なお、前述したように物体領域データにおいて近似図形数を常に1つとし(従って近似図形データも常に1つとなる)、近似図形数のフィールドを省くようにする場合において、一つの物体を複数の図形で表すためには、一つの物体を近似する各図形ごとに、物体領域データを生成すればよい(それらは同じID番号を有することになる)。すなわち、図13の近似図形データ(1)〜近似図形データ(L)405を分割領域(例えば、605)の部分データ(1)〜部分データ(L)に置き換えればよい。
なお、本実施形態では、一つの物体を複数の図形で表す場合に、同一の図形を用いるものとしているが、複数種類の図形を混在して使用可能としてもよい。
さて、図2の(a)、(b)、(c)、(d)の例では、楕円による近似方法を一例として説明を行ったが、以下では、近似方法の他の例として、矩形による近似方法について説明する。
図14の(a)、(b)、(c)は、図2の(a)、(b)、(c)、(d)と同じ形式の図であるが、ここでは、領域図形近似部102として領域の矩形による近似方法を用い、図形代表抽出部103として矩形の4つの頂点を抽出する方法を用い、代表点曲線近似部104としてスプライン関数による近似方法を用いた場合を例としている。
図14の(a)において、2800は処理対象となっている映像中の1フレームを示している。
2801は抽出対象となっている物体の領域を示している。この物体の領域2801を抽出する処理は領域抽出部101において行われる。
2802は物体の領域を矩形で近似したものである。物体領域2801から矩形2802を求める処理は領域図形近似部102において行われる。
ここで、例えば図14の(a)において矩形2802を求める場合の処理手順の一例を図15に示す。すなわち、フレーム2800のマスク画像を例えばラスタースキャンし(ステップS60)、対象画素が物体領域内であるときに(ステップS61)、X座標とY座標のそれぞれについて、それまで保存されている最小値より小さい場合には最小値を更新し、それまで保存されている最大値より大きい場合には最大値を更新する(ステップS62)ことを、全ての画素について繰り返しチェックすることによって、X座標とY座標のそれぞれについて物体領域を示す画素位置の最小値および最大値を求めれば、図14の(b)に示すように矩形2802の4つの頂点座標2803を得ることができる。
図14の(c)は図2の(c)と同様に代表点としての4つの頂点座標を時系列的に配列した状態を示す図であり、2804は近似された関数(例えばスプライン関数)を3次元的に表現したものである。
このような方法は処理が簡易な点で優れているが、例えば図16のように細長い物体3001が画面3000に対して斜めの姿勢で存在しているときには、近似矩形3002内には非物体領域が特に多く含まれてしまう。また、細長い物体物体が回転すると矩形2802の大きさ、形状が変化する。これらは、物体指定する際の弊害となる場合がある。
そこで、矩形の大きさができるだけ小さくなり(近似矩形内の非物体領域ができるだけ少なくなり)、対象物体の姿勢も反映させることのできる近似方法の一例を示す。
図17の(a)において、3100は処理対象となっている映像中の1フレームを示している。
3101は抽出対象となっている物体の領域を示している。この物体の領域3101を抽出する処理は領域抽出部101において行われる。
3102は物体の領域を矩形で近似したものである。この近似矩形は図14の(a)の矩形2802とは異なり、傾きを持っている。矩形内の非物体領域も少なく、対象が回転してもその形状は一定である。物体領域3101から矩形3102を求める処理は領域図形近似部102において行われる。
図18に、この場合の処理手順の一例を示す。この処理手順例は、対象物体領域の慣性主軸を求め、これに基づいて近似図形を求めるようにしたものである。
図17の(b)において、3103は、対象物体領域の重心を示している。
3104は、対象物体領域の慣性主軸を示している。3105は、3104に垂直な直線である。
マスク画像をf(x,y)とすると、f(x,y)は領域内では1で、領域外では0である。対象領域の慣性モーメントは、
mij=ΣΣxi yj f(x,y)
で表せる。
mij=ΣΣxi yj f(x,y)
で表せる。
まず、対象物体領域の慣性モーメントm20、m02、m11を求める(ステップS70〜S72)。
ここで、原点(ここでは、重心)を通る直線y=x tanθについてのf(x,y)の慣性モーメントは、
mθ=∬(x sinθ−y cosθ)2 f(x,y)dxdy
で得られる。
mθ=∬(x sinθ−y cosθ)2 f(x,y)dxdy
で得られる。
θを変化させたときにmθを最小にする角度をθ0 とする。一通りの角度しかないとき、直線y=x tanθ0 を慣性主軸と呼ぶ。
tanθ0 は、2次方程式、
tan2 θ+{(m20−m02)/m11}tanθ−1=0
の解として求まる。
tan2 θ+{(m20−m02)/m11}tanθ−1=0
の解として求まる。
これにより重心3103の周りでtanθ0 を求めると、対象物体の慣性主軸が得られる(ステップS73)。
次に、慣性主軸に平行で物体領域に外接する直線と、慣性主軸に垂直で物体領域に外接する直線を求める(ステップS74)。
図17の(b)において、直線3106,3107は、慣性主軸3104に平行な直線であり、対象物体領域に外接する。
直線3108,3109は、直線3105に平行な直線であり、対象物体領域に外接する。
矩形3102は、直線3106,3107,3108,3109によって形成される(ステップS75)。
なお、対象物体が円の場合には慣性主軸が求まらないが、このような場合には例えば図15で説明した手順で近似矩形を求めればよい。
ところで、矩形より楕円で物体領域を表現する方が適当な場合もある。図19に、物体の領域が矩形で表される場合に、その矩形から近似楕円を求める方法の一例を示す。図20に、この場合の処理手順の一例を示す。
図19において、対象物体領域3300と外接矩形3301が得られているものとする。
まず、近似矩形の内接楕円および外接楕円を求める(ステップS80)。
図19において、楕円3302は矩形3301の内接楕円であり、楕円3303は矩形3301の外接楕円である。
次に、内接楕円3302の大きさを少しずつ外接楕円3303に近づけていき(ステップS81)、物体領域を全て包含する楕円3304を求め(ステップS82)、近似楕円とする。なお、繰り返し処理において、一回に内接楕円3302の大きさを拡大する単位は、予め定めておいてもよいし、内接楕円3302の大きさと外接楕円3303の大きさの差分に応じて決定してもよい。
また、上記とは逆に、外接楕円3303の大きさを内接楕円3302に近づけていってもよい。この場合には、外接楕円3303は最初から物体領域を全て包含しているので、例えば、繰り返し処理において、始めて物体領域に包含されない部分を生じた楕円の、一回前における楕円を、近似楕円とすればよい。
次に、図形代表点抽出部103では、近似矩形や近似楕円の代表点を求める。矩形の代表点は4つもしくは3つの頂点を代表点とすることができ、楕円の場合は楕円の外接矩形の頂点としたり、2つの焦点と楕円上の一点としたりすることができる。
次に、代表点曲線近似部104では、時系列的に得られている代表点の軌跡をスプライン関数などで近似する。このとき、時系列同士の対応付けが重要である。例えば、近似図形が矩形で代表点を頂点とする場合には、隣接するフレーム間で頂点同士の対応付けを行う必要がある。
図21に、対応付け方法の一例を示す。また、図22に、対応付け処理の手順の一例を示す。
図21において、3500は近似矩形の重心である。前のフレームにおける矩形3501と現在のフレームにおける矩形3502が得られている。矩形3501と3502のいずれかを平行移動させ、重心位置を一致させる(重心位置を一致させた状態が図21である)。次に、それぞれの矩形の頂点同士の距離d1〜d4を計算し、全ての頂点の組み合わせで距離の和を求める(ステップS90,S91)。距離の和が最小となる組み合わせを求め、対応付けする(ステップS92)。
近似図形から代表点を得る際に、一定の規則で代表点を取得しておくと、組み合わせの数を削減することが可能である。例えば、矩形では時計周りに頂点座標を代表点として保存するようにすると、対応付けの組み合わせは4通りで済む。
なお、この方法では対応付けが難しい場合がある。例えば、近似矩形が隣接フレームにおいて正方形に近い形状であり且つ45度回転移動している場合には、対応付けが難しい(2通りの組み合わせにおいて距離の和が同じような値になる)。そこで、このような場合には、例えば、近似矩形内の物体領域同士の排他的論理和を取り、その面積が最小となる組み合わせを採用する方法、あるいは物体領域のテクスチャの絶対差分を求め、差分値が最小となる組み合わせを求める方法などを用いればよい。
続いて、以下では、本発明を適用して物体領域の軌跡を近似して物体領域データ中に記述する際に、図6、図7で例示した近似データ構造とは別の近似データ構造を用いる例について説明する。
図23は、近似図形データおよび物体領域の代表点軌跡データの記述フォーマット(が異なる物体領域データ)の他の例である。なお、図23では、代表点軌跡データの部分(節点数(N)3902〜関数特定情報Y配列3918までの部分)については、1つの代表点についてのみ示してある(実際には、代表点の個数に対応して記述される)。
ここでは、多項式の最高次数を2次として説明する。
前述した例(図6、図7)では、多項式スプライン関数の全ての係数を記述していたのに対して、ここでの記述方法では、スプライン関数の節点の座標と、スプライン関数の係数に関連する値との組み合わせにより記述する。この記述方法の利点は、節点が容易に取り出せるため、大まかな物体の軌跡が簡単にわかるという点である。
以下、この記述方法について詳細に説明する。
図23中、図形種ID3900は、物体の形の近似に用いた図形の種類を特定する。例えば、物体の重心(CENTROID)、矩形(RECTANGLE)、楕円(ELLIPSE)や、それらの組み合わせを指定できる。図24は、図形の種類と図形種IDの割り当て例である。また、代表点数3901は、図形の種類によって定まる代表点軌跡の数を表す。
節点数(N)3902は、代表点軌跡を表すスプライン関数の節点の数を表す。各節点に対応するフレームは、時間として表され、節点時刻(1)〜節点時刻(N)3903に格納される。節点時刻は、設定数だけあるため、節点時刻配列3904として記述しておく。
同様に、各節点のX座標、Y座標もそれぞれ節点X座標3905および節点Y座標3907の配列3906,3908として記述される。
一次関数フラグX3909、一次関数フラグY3914は、節点のX座標、Y座標の軌跡を近似するスプライン関数として一次関数だけが用いられているかどうかを表す。一部分でも2以上の多項式を用いる場合には、このフラグはオフにしておく。このフラグを用いることにより、近似関数として一次関数のみに使われる場合に以下で説明する関数特定情報X3910、関数特定情報Y3915を1つも記述しなくて済むため、データ量を削減できるというメリットがある。なお、必ずしもこのフラグは必要ではない。
関数特定情報3910、3915に含まれる関数ID3911、3916、関数パラメータ3912、3917はそれぞれ多項式スプライン関数の次数と、その係数を特定するための情報を表す。図25に、それらの一例を示す。ここで、ta,tbは連続する節点の時刻、f(t)は[ta,tb]の区間のスプライン関数、fa,fbは時刻ta,tbにおける節点の座標を表している。1次多項式を用いるときは節点のみの情報で十分なので、関数パラメータは記述されていないが、2次多項式の場合には係数を特定するための情報として一つの値aaが関数パラメータに記述される。なお、図25の例では、2次の係数が用いられているが、例えば、二次曲線上のfa,fb以外の1点など、他の値を用いることもできる。
本記述方法では、節点の情報と関数パラメータの情報により、図25の制約条件を用いて全ての区間におけるスプライン関数が再現できる。
関数特定情報3910、3915は、(節点数−1)に相当する個数のものが存在し、これらは配列3913、3918となって記述される。
次に、図26を参照して図23のデータ記述例の具体例を用いて本発明によるデータ記述の効果を説明する。
図26は単に時刻順に代表点軌跡データを記述した例(0000)と、図23に示すような本発明のデータ構造を用いて代表点軌跡データを記述した例(0003)とを比較したものである。二つの例とも、複数ある代表点軌跡のうち、一つの代表点の軌跡の記述部分のみを図示している。0000では、時刻0.0(秒)から時刻15.0(秒)までの代表点の座標値が0.1(秒)おきに記述されている。これらの座標点は、既に説明した図1における101、102,103による処理、もしくは図11におけるS11,S12,S13,S14による処理で算出されたものである。座標値にはx座標(水平方向)およびy座標(垂直方向)の2つの成分があるため、座標値データ配列0000では2×151=302の座標値がメモリに格納されている。それぞれの値を4バイトのデータで表現する場合には、時刻のデータも合わせると座標値データ配列0000の格納には1208バイトのメモリ容量を必要とする。
本発明では、これらの軌跡データ0003は代表点の曲線近似部(図1の104)または代表点の時系列座標を曲線で近似するステップ(図11のS15)によりスプライン関数により近似表現される。ここで、この処理(図11のS15)の具体例を流れ図27を用いて説明する。
ステップS0000は初期化処理であり、注目する区間の開始フレームのタイムスタンプtsおよび終端フレームのタイムスタンプteに初期値を代入する。ここでは、tsには先頭フレームの時刻を、teには先頭の次のフレームの時刻をセットする。ステップS0001は近似関数を算出する処理であり、tsからteまでの座標値を、最小二乗法により時間tの関数f(t)(この例では2次または1次の多項式)として決定する。ステップS0002では、tsからteの区間において、ステップS0001で算出された関数f(t)により算出される座標値と実際の座標値との絶対値差分を各時刻ごとに求め、その最大値を変数eにセットする。ステップS0003の選択処理では、eの値とあらかじめ決められているしきい値とを比較し、eのほうが大きければステップS0004を、そうでなければステップS0005を次に行う。
ステップS0004では、時刻tsのフレームから時刻teのフレームの直前のフレームまでの区間に対して最小二乗法で算出された近似関数を登録し、tsに時刻teのフレームの直前のフレームにつけられているタイムスタンプをセットする。このステップS0004により、例えば図26における0001の関数x=2.1t2-12.6t+118.9 (0≦t≦2)が登録される。0≦t≦2は関数の有効時間区間であり、近似関数が算出された際のtsからteの区間がこれに相当する。この時間区間も関数と併せて登録される。
ステップS0005はteの更新処理であり、時刻teのフレームの次フレームに付与されたタイムスタンプにteの値を更新する。ステップS0006は終了判定処理であり、teが処理すべき範囲を超えているかどうかを判定し、超えていなければステップS0001からの処理を繰り返し、超えていればステップS0007の最終処理に進む。ステップS0007は最後の近似関数を登録する処理である。例えば、図26における0001の最後の関数x=0.2t2-4.4t+106.5 (10.5≦t≦15)はこのステップで登録された関数である。
以上の処理により近似関数の算出が終わると、所定の記述フォーマットに従ってこれらの近似関数データが記録される。図26の0003は図23の記述フォーマットを用いている(図示しているのは図23の節点時刻配列3904、節点X配列3906、節点Y配列3908、一次関数フラグX3909、関数特定情報X配列3913内の関数ID3911、関数パラメータ3912、一次関数フラグY3913、関数特定情報Y配列3918内の関数ID3916、関数パラメータ3917の一部である)。例えば、0001の最初の関数x=2.1t2-12.6t+118.9 (0≦t≦2)は、両端の節点時刻として0.0と2.0が記録される。また、これらの時刻におけるX座標値である118.9と102.1が記録される。さらに、2次多項式であることを表す関数IDとして2が、また、t2の係数2.1を特定するための関数パラメータとして4.2がそれぞれ記録される。関数パラメータとt2の係数との関係は図25の通りである。この記述フォーマットでは、1次多項式の場合には多項式の有効時間区間の両端の座標値だけが記録され、2次多項式の場合には2次係数の2倍の値も併せて記録される。
データ記述0003では、実数に4バイト、一次関数フラグに1ビット、関数IDに2ビットを費やすとすると、わずか57バイトのデータ容量しか必要としない。これは先に計算したデータ記述0000に必要となるデータ容量1208バイトよりもかなり少ない値である。
本発明により、このようなデータ容量の削減が可能である理由は、自然界の物体の動きは通常滑らかであるという特徴を利用しているからである。すなわち、物体内の特徴点の位置データ列は少々の誤差を許容することにより多項式でまとめて表現することが可能であり、この多項式を特定するパラメータだけを記録することで全ての座標値を記録するよりも大幅にメモリ容量を節約できる。
なお、物体領域データ全体としては図26の0003に記述されている以外に、図23にある図形種ID、代表点数、節点数、他の代表点軌跡を表す関数データなどが必要である。
次に、図5に示すように映像中の物体の領域データに物体の関連情報(あるいは関連情報へのポインタ)が併記的に記録されている場合に、表示画面上で物体を指示することによりその物体の関連情報を表示させる方法について説明を行う。図28は関連情報表示処理を計算機上でソフトウェアにより実現させる際の処理の流れを表す流れ図である。ただし図28では、映像の再生中に表示されている映像内をマウスカーソル等のポインティングデバイスを用いて指示された際の処理について説明している。
ステップS7000では、ポインティングデバイスにより指示された画面上の座標が、映像中の画像のどこに相当するかを計算する。これは、ポインティングされた座標と表示されている画像の位置座標とから簡単に算出できる。さらに、指示された瞬間に再生を行っていた映像のタイムスタンプを取得する。
ステップS7001では記録されている物体の領域データから物体が指示されたフレーム時刻において映像中に存在している物体のみを選択する。これは、領域データにおける先頭フレーム時刻(もしくは番号)および末尾フレーム時刻(もしくは番号)を参照することにより容易に実行できる。例えば、図26の例では、物体の存在時刻は節点時刻の始めの0.0から最後の15.0までと判断できるため、この範囲以外の時刻に指示が行われた場合には処理対象とならない。このように、本発明の記述方法によれば、記録されているデータの一部のみを参照することでその物体を処理対象とするか否かが判断できるため、処理を効率的に行うことが可能である。以下、物体が指示された時刻は1.0であり、図26のデータ0003が処理対象として選ばれているものとして説明を進める。
ステップS7002では物体の領域データから取り出したスプライン関数データを用いて、物体が指示された際の表示フレーム時刻における近似図形の代表点の座標を算出する。例えば、図26のデータ0003では、X座標の算出には時刻0.0から2.0までの区間の近似関数であるx=2.1t2-12.6t+118.9にt=1.0を代入して108.4と算出される。Y座標や他の代表点の座標値も同様に算出される。図形種として楕円を、その代表点として図4で説明されるように二つの焦点F、Gと一つの楕円上の点Hを用いている場合には、これらF,G,Hの座標が算出される。
ステップS7003ではポインティングデバイスにより指示された座標が、物体の内部かどうかを判定する。この処理は、例えば以下のように行われる。まず、E(P,Q)により点Pと点Qのユークリッド距離を表すことにする。ポインティングデバイスにより指示された座標Pが楕円内部である場合にはE(F、P)+E(G、P)≦E(F,H)+E(G,H)が成り立つ。楕円外部である場合には逆にE(F、P)+E(G、P)>E(F,H)+E(G,H)となる。これらのうちのどちらの不等式が成り立つかにより、指示された点が物体内部か外部かを判定することができる。もしも物体内部であると判定された場合には、次のステップで関連情報の表示を行う。
ステップS7004では、記述されているデータに含まれている関連情報へのポインタを参照し、関連情報の表示を行う。関連情報が静止画である場合には静止画を表示し、また動画像である場合には再生を開始し、ドキュメントである場合にはドキュメントの表示を行い、ホームページである場合にはブラウザを用いてホームページを表示するなど、関連情報に適した処理を行う。また、関連情報としてプログラムが指定されているような場合にはそのプログラムを実行したり、またその他スクリプトなどで処理の手順が指定されている場合にはその所定の動作を行う。
ステップS7005は分岐処理であり、他の物体領域記述データのうち、指示されたフレーム時刻において存在する物体があるかどうかを判定し、存在している場合にはその物体を対象にステップS7001へ処理を進め、一つも存在しない場合には処理終了となる。
なお、上記では、多項式の最高次数を2次として説明したが、もちろん、多項式の最高次数を3次以上とすることも可能である。
次に、映像データや物体領域データの提供方法について説明する。
本実施形態の処理により作成された物体領域データがユーザの用に供される場合には、作成者側からユーザ側に何らかの方法で物体領域データを提供する必要がある。この提供の方法としても以下に例示するように種々の形態が考えられる。
(1)映像データとその物体領域データとその関連情報とを1つ(または複数の)記録媒体に記録して同時に提供する形態
(2)映像データとその物体領域データとを1つ(または複数の)記録媒体に記録して同時に提供するが、関連情報は別途提供するかもしくは提供しない(後者は例えば提供しなくてもユーザがネットワーク経由等で別途取得できる場合)形態
(3)映像データを単独で提供し、別途、物体領域データと関連情報とを1つ(または複数の)記録媒体に記録して同時に提供する形態
(4)映像データ、物体領域データ、関連情報を別々に提供する形態
上記は主に記録媒体により提供する場合であるが、その他にも、一部または全部を通信媒体で提供する形態も考えられる。
(2)映像データとその物体領域データとを1つ(または複数の)記録媒体に記録して同時に提供するが、関連情報は別途提供するかもしくは提供しない(後者は例えば提供しなくてもユーザがネットワーク経由等で別途取得できる場合)形態
(3)映像データを単独で提供し、別途、物体領域データと関連情報とを1つ(または複数の)記録媒体に記録して同時に提供する形態
(4)映像データ、物体領域データ、関連情報を別々に提供する形態
上記は主に記録媒体により提供する場合であるが、その他にも、一部または全部を通信媒体で提供する形態も考えられる。
また、上記において、ユーザ側で関連情報を追加する場合も考えられる。
もちろん、映像データの提供を受けたユーザ側でその物体領域データを作成する場合も考えられる。また、ユーザ側で映像データ、物体領域データ、関連情報のすべてを作成する場合も考えられる。
(第2の実施形態)
第1の実施形態では映像データから映像中の物体の領域を近似する図形の代表点を抽出し、物体領域データの生成を行ったが、第2の実施形態は、映像中の物体領域中の特徴点を抽出し、物体領域データを生成するようにしたものである。
第1の実施形態では映像データから映像中の物体の領域を近似する図形の代表点を抽出し、物体領域データの生成を行ったが、第2の実施形態は、映像中の物体領域中の特徴点を抽出し、物体領域データを生成するようにしたものである。
本実施形態では、第1の実施形態と相違する点を中心に説明する。
図29に、本実施形態に係る物体領域データ生成装置の構成例を示す。図29に示されるように、本物体領域データ生成装置は、映像データ記憶部230、特徴点抽出部233、特徴点の曲線近似部234、関連情報記憶部235、領域データ記憶部236を備えている。
図29において、映像データ記憶部230は第1の実施形態の映像データ記憶部100と、関連情報記憶部235の第1の実施形態の関連情報記憶部105と、領域データ記憶部236は第1の実施形態の領域データ記憶部106とそれぞれ同じ機能を持つものである。
特徴点抽出部233は、映像中の物体領域から特徴的な点を1つ以上取り出す。特徴点としては、種々のものが考えられるが、例えば、物体の角(例えば、Gray−level corner detection,L.Kitchen and A.Rosenfeld,Pattern Recognition Letters,No.1,pp.95−102,1982による方法など)、物体の重心などが考えられる。
特徴点の曲線近似部(以下、特徴点曲線近似部)234は、基本的には第1の実施形態における代表点曲線近似部104と同様の機能を持つ。すなわち、特徴点抽出部233で抽出された特徴点の位置を時系列で曲線に近似する。この近似曲線は、X座標、Y座標ごとにフレーム番号fもしくは映像に付与されているタイムスタンプtの関数として表現され、直線近似やスプライン曲線による近似などで曲線に近似される。近似後のデータの記録方法は第1の実施形態と同様である。
また、本実施形態における物体領域データは基本的には第1の実施形態の物体領域データ(図5等)と同様である。ただし、近似図形数のフィールドは不要である。また、「近似図形データ」が「特徴点データ」となる。
物体領域データの中の特徴点データも基本的には第1の実施形態の近似図形データ(図6等)と同様である。ただし、「代表点数」が「特徴点数」となり、「代表点軌跡データ」が「特徴点軌跡データ」となる。また、図形種IDは不要である。
特徴点データの中の特徴点軌跡データは第1の実施形態の代表点軌跡データ(図7等)と同様である。
図30に本実施形態の物体領域データ生成装置の処理の流れの一例を表したフローチャートを示す。全体的な流れとしては第1の実施形態と同様で、ステップS21では図11のステップS11と同様に1フレーム分の映像データを取り出し、図11のステップS12〜S14の部分を注目している物体の特徴点の抽出ステップS22とし、図11のステップS15の連続するフレームにおける物体領域の代表点列の位置の曲線近似を連続するフレームにおける近似図形の特徴点列の位置の曲線近似を行なうステップS23とし、図11のステップS16、S17と同様のステップS24、S25を設けたたものである。
もちろん、本実施形態もソフトウェアによっても実現可能である。
以上のように本実施形態では、映像中の物体の領域を、その特徴点の時系列的な軌跡(フレーム番号あるいはタイムスタンプを変数とする特徴点の座標の軌跡)を近似した曲線のパラメータとして記述することができる。
本実施形態によれば、映像中の物体の領域を関数のパラメータのみによって表現できるため、データ量が少なく、ハンドリングの容易な物体領域データを生成することができる。また、特徴点の抽出や、近似曲線のパラメータの生成も容易に行うことができる。
また、本実施形態によれば、ユーザにより指定された任意の座標が物体の領域を指示しているか否かを極めて簡単に判定することができる。さらに、これによって、ユーザによる映像中の動く物体の指示をより容易にすることができる。
ところで、第1の実施形態の物体の領域の近似図形の代表点をもとにした物体領域データと、第2の実施形態の物体の領域の特徴点をもとにした物体領域データとを混在して使用可能とすることもできる。
この場合には、例えば、物体領域データのフォーマットとしては第1の実施形態のものに、物体の領域の近似図形の代表点をもとにしたものかあるいは物体の領域の特徴点をもとにしたものかを識別するフラグを設ければよい。あるいは、第1の実施形態の物体領域データのフォーマットにおいて、該フラグを設けるのではなく、例えば、図形種IDが特定の値のときに、物体の領域の特徴点をもとにしたものであることを示すものとし、それ以外のときに、物体の領域の近似図形の代表点をもとにしたものであることを示すものとしてもよい。
さて、これまでは、物体領域データの生成について説明してきたが、以下では、このようにして生成された物体領域データに付加する関連情報と、その関連情報に基づいて行う処理について説明する。
(第3の実施形態)
関連情報に基づいて行う処理としては、種々のものが考えられるが、本実施形態では、映像コンテンツ内の物体に関連情報として利用制御情報を付与し、該制御情報に基づいてコンテンツ利用制御を行う場合を例にとって説明する。
関連情報に基づいて行う処理としては、種々のものが考えられるが、本実施形態では、映像コンテンツ内の物体に関連情報として利用制御情報を付与し、該制御情報に基づいてコンテンツ利用制御を行う場合を例にとって説明する。
図31に、物体領域データに付加する関連情報(利用制御情報)301の一例を示す。
この制御情報は例えば商用コンテンツやハイパーリンク・コンテンツなどの物体領域の映像データの利用を管理するためのものであり、このように物体領域に関する知的所有権に関係する情報が関連情報となりうる。
物体領域名302は、物体の名前を示すデータである。物体が映画などに登場する人物である場合は、役名や俳優の名前を特定する。
著作権情報303は、物体の著作権者などの著作権に関わる情報を示すデータである。例えば、一つの映像コンテンツ中に複数の著作権者による物体が含まれる場合に、個々のオブジェクトに対して、著作権情報を記述する。
コピー許可情報304は、物体を近似する図形に含まれる範囲の映像情報を切り出して、再利用することを許可するか否かを示すデータである。
フットマーク305は、物体が編集された日時や閲覧された日時などを示すデータである。アニメーションや複数のストリームから物体を切り出して、貼り付けた合成映像など、一つの映像に含まれる物体の編集された日時が異なる場合にこれを識別するために用いられる。
関連情報のURL306は、ハイパーリンク等を用いて、物体の関連情報を表示するときに参照すべきデータをURLによって表現した関連情報へのポインタである。
アクセス制限情報307は、物体ごとに視聴やハイパーリンクによるジャンプの許可/不許可の情報や許可条件を設定するためのデータである。この情報に基づいて、例えば、物体ごとに有料/無料を設定したり、視聴を許可する年齢を制限する。また、有料コンテンツのプレビュー時に物体領域を隠蔽して表示してもよい。
課金情報308は、物体ごとの課金情報を示すデータである。例えば、著作権者が異なる物体が混在する場合に、各物体が存在した時間に応じて課金し、著作権者に所定の代金を支払うために用いる。
注釈データ309は、物体の関連情報や操作の手助けとなるデータである。例えば、ポインタにより物体を指し示したときにその物体の関連情報をポップアップなどにより表示したり、その物体を選択することによって、より詳細な関連情報を表示できることを視聴者に通知するために用いられる。
なお、関連情報として上記項目の全てを用いてもよいし、その一部を用いてもよい。もちろん、上記項目の全部または一部に他の関連情報を併用してもよい。
なお、上記項目は映像コンテンツの提供側において物体領域データに付加する(関連付ける)ものとする(もちろん、ユーザ側で付加あるいは追加するようにしてもよい)。また、該付加あるいは関連付けは、マニュアル操作で行なってもよいし、自動的に行なってもよい。
以下、物体が指定された際の各関連情報の機能を説明する。
物体領域名
図32を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の物体領域名を表示するフローについて説明する。
図32を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の物体領域名を表示するフローについて説明する。
ステップS321では、物体領域名を表示したい物体をマウスなどで指定する。
ステップS322では、物体領域名表示を行う物体を含む現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在する物体領域データを探索すればよい。
ステップS323では、ステップS322で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合(ステップS322の探索の結果、該当する物体領域データがなかった場合を含む)、処理を終了する。
該当する物体領域データが存在する場合は、ステップS324に進み,該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。
ステップS325では、ステップS324で算出した物体領域内にステップS321で入力された点が含まれるかを判定する。含まれない場合はステップS323に戻り、次の物体領域データの処理を行う。
物体領域内にステップS321で入力された点が含まれる場合は、ステップS326に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、物体領域名が含まれるかを調べる。物体領域名が存在する場合は、ステップS327に進み物体領域名を表示する。存在しない場合、また、表示を行った後はステップS323に戻り、次の物体領域データの処理を行う。
なお、物体領域の算出及び入力された点が物体領域内に含まれるか否かの判定、及び物体領域名の表示は図28で説明したステップに従って行なってもよい。
著作権情報
図33を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の著作権情報を表示するフローについて説明する。
図33を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の著作権情報を表示するフローについて説明する。
ステップS331では、著作権情報を表示したい物体をマウスなどで指定する。
ステップS332では、著作権表示を行う物体を含む現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在する物体領域データを探索すればよい。
ステップS333では、ステップS332で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合(ステップS332の探索の結果、該当する物体領域データがなかった場合を含む)、処理を終了する。
該当する物体領域データが存在する場合は、ステップS334に進み,該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。
ステップS335では、ステップS4で算出した物体領域内にステップS331で入力された点が含まれるかを判定する。含まれない場合はステップS333に戻り、次の物体領域データの処理を行う。
物体領域内にステップS331で入力された点が含まれる場合は、ステップS336に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、著作権情報が含まれるかを調べる。著作権情報が存在する場合は、ステップS337に進み著作権を表示する。存在しない場合、また、表示を行った後はステップS333に戻り、次の物体領域データの処理を行う。
なお、物体領域の算出及び入力された点が物体領域内に含まれるか否かの判定、及び著作権の表示は図28で説明したステップに従って行なってもよい。
コピー許可判定
図34を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、物体のコピーを許可・不許可を判定するフローについて説明する。
図34を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、物体のコピーを許可・不許可を判定するフローについて説明する。
ステップS341では、コピー許可判定を行う物体を含む現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在する物体領域データを探索すればよい。
ステップS342では、ステップS341で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合(ステップS341の探索の結果、該当する物体領域データがなかった場合を含む)、処理を終了する。
該当する物体領域データが存在する場合は、ステップS343に進み,該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。
ステップS344では、ステップS343で算出した物体領域がコピーを行おうとしている注目領域内に含まれるかを判定する。含まれない場合はステップS342に戻り、次の物体領域データの処理を行う。
なお、物体領域の算出及び物体領域が注目領域に含まれるか否かの判定は図28で説明したステップに従って行なってもよい。
物体領域が注目領域内に含まれる場合は、ステップS345に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、コピー許可情報が含まれるかを調べる。コピー許可情報が存在する場合は、ステップS346に進みコピー許可情報に基づいて判定を行った後、ステップS342に戻る。存在しない場合はステップS2に戻り、次の物体領域データの処理を行う。
フットマーク
図35を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体のフットマークを表示するフローについて説明する。
図35を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体のフットマークを表示するフローについて説明する。
ステップS351では、フットマークを表示したい物体をマウスなどで指定する。
ステップS352では、フットマーク表示を行う物体を含んだ現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在するかを調べればよい。
ステップS353では、ステップS352で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合(ステップS352の探索の結果、該当する物体領域データがなかった場合を含む)、処理を終了する。
該当する物体領域データが存在する場合は、ステップS354に進み,該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。
ステップS355では、ステップS354で算出した物体領域内にステップS351で入力された点が含まれるかを判定する。含まれない場合はステップS353に戻り、次の物体領域データの処理を行う。
物体領域内にステップS351で入力された点が含まれる場合は、ステップS356に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、フットマークが含まれるかを調べる。フットマークが存在する場合は、ステップS357に進みフットマークを表示する。存在しない場合、また、表示を行った後はステップS353に戻り、次の物体領域データの処理を行う。
なお、物体領域の算出及び入力された点が物体領域内に含まれるか否かの判定、及びフットマークの表示は図28で説明したステップに従って行なってもよい。
関連情報URL
図36を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の関連情報URLで示される関連データを表示するフローについて説明する。
図36を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の関連情報URLで示される関連データを表示するフローについて説明する。
ステップS361では、関連データを表示したい物体をマウスなどで指定する。
ステップS362では、関連データ表示を行う物体を含んだ現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在するかを調べればよい。
ステップS363では、ステップS362で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合(ステップS362の探索の結果、該当する物体領域データがなかった場合を含む)、処理を終了する。
該当する物体領域データが存在する場合は、ステップS364に進み,該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。
ステップS365では、ステップS364で算出した物体領域内にステップS361で入力された点が含まれるかを判定する。含まれない場合はステップS363に戻り、次の物体領域データの処理を行う。
物体領域内にステップS361で入力された点が含まれる場合は、ステップS366に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、関連情報URLが含まれるかを調べる。関連情報URLが存在する場合は、ステップS367に進みブラウザなどと用いて、関連情報URLによって示される関連データを表示する。存在しない場合、また、表示を行った後はステップS363に戻り、次の物体領域データの処理を行う。
なお、物体領域の算出及び入力された点が物体領域内に含まれるか否かの判定、及びURLによって示される関連情報の表示は図28で説明したステップに従って行なってもよい。
アクセス制限判定
図37を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、物体のアクセスを許可・不許可を判定するフローについて説明する。ここでいう、アクセスとは物体や関連データの表示や編集のことである。
図37を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、物体のアクセスを許可・不許可を判定するフローについて説明する。ここでいう、アクセスとは物体や関連データの表示や編集のことである。
ステップS371では、アクセス許可判定を行う物体を含む現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在する物体領域データを探索すればよい。
ステップS372では、ステップS371で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合(ステップS371の探索の結果、該当する物体領域データがなかった場合を含む)、処理を終了する。
該当する物体領域データが存在する場合は、ステップS373に進み,該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。
ステップS374では、ステップS373で算出した物体領域が表示や編集を行おうとしている注目領域内に含まれるかを判定する。注目領域はユーザによって選択された画面の一部であってもよいし、画面全体であってもよい。含まれない場合はステップS372に戻り、次の物体領域データの処理を行う。
なお、物体領域の算出及び物体領域が注目領域内に含まれるか否かの判定は図28で説明したステップに従って行なってもよい。
物体領域が注目領域内に含まれる場合は、ステップS375に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、アクセス許可情報が含まれるかを調べる。アクセス許可情報が存在する場合は、ステップS376に進み、予め入力されているユーザ情報とアクセス許可情報を比較して判定を行った後、ステップS372に戻る。存在しない場合はステップS372に戻り、次の物体領域データの処理を行う。
課金
図38を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、課金を行うフローについて説明する。
図38を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、課金を行うフローについて説明する。
ステップS381では、現フレームに対応した物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在する物体領域データを探索すればよい。
ステップS382では、ステップS1で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合(ステップS381の探索の結果、該当する物体領域データがなかった場合を含む)、処理を終了する。
該当する物体領域データが存在する場合は、ステップS383に進み,該当する物体領域データの対応データ領域に格納されている関連情報に、課金情報が含まれるかを調べる。含まれない場合はステップS382に戻り、次の物体領域データの処理を行う。
課金情報が含まれる場合はステップS384に進み、該当物体領域が既に課金情報に基づく課金をされているかを判定する。課金をされていない場合はステップS385に進み、該当物体に対する課金処理を行った後、ステップS382に戻る。既に課金されている場合はステップS382に戻り、次の物体領域データの処理を行う。
注釈
図39を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の注釈を表示するフローについて説明する。
図39を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の注釈を表示するフローについて説明する。
ステップS391では、注釈を表示したい物体をマウスなどで指定する。
ステップS392では、注釈表示を行う物体を含んだ現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在するかを調べればよい。
ステップS393では、ステップS392で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合(ステップS392の探索の結果、該当する物体領域データがなかった場合を含む)、処理を終了する。
該当する物体領域データが存在する場合は、ステップS394に進み,該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。
ステップS395では、ステップS394で算出した物体領域内にステップS391で入力された点が含まれるかを判定する。含まれない場合はステップS393に戻り、次の物体領域データの処理を行う。
物体領域内にステップS391で入力された点が含まれる場合は、ステップS396に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、注釈が含まれるかを調べる。注釈が存在する場合は、ステップS397に進み注釈を表示する。存在しない場合、また、表示を行った後はステップS393に戻り、次の物体領域データの処理を行う。
なお、物体領域の算出及び入力された点が物体領域内に含まれるか否かの判定、及び注釈の表示は図28で説明したステップに従って行なってもよい。
効果
以上説明したように、図31に示すような複数フレームに渡る物体領域データに物体領域名、著作権情報、コピー許可情報、フットマーク、関連情報URL、アクセス制限情報、課金情報、注釈などの関連情報を付加するにあたり、物体領域データの先頭フレームから、最終フレームの複数のフレームに渡る物体領域に対して、1つの関連情報を記述するのみでよいため、データ量を削減することができる。
以上説明したように、図31に示すような複数フレームに渡る物体領域データに物体領域名、著作権情報、コピー許可情報、フットマーク、関連情報URL、アクセス制限情報、課金情報、注釈などの関連情報を付加するにあたり、物体領域データの先頭フレームから、最終フレームの複数のフレームに渡る物体領域に対して、1つの関連情報を記述するのみでよいため、データ量を削減することができる。
次に、図40に、本実施形態に係る、物体ごとのコンテンツ利用制御機能を有する情報処理装置の構成例を示す。図40に示されるように、本情報処理装置は、条件判定部1001、処理部1002、表示部1003を備えている。
映像データ1000、物体領域データ1006、関連情報1005は、無線もしくは通信の通信媒体あるいはDVD等の記憶媒体によって提供されるものとする。なお、図40においては、それらのデータを受信する機能あるいは蓄積する機能あるいは読み出す機能は適宜設けるものとして省略してある。
ユーザ情報1004は、予めメモリ(図示せず)に登録されたユーザに関する情報(例えば、ユーザID、パスワード、契約情報、年齢など)、およびまたは必要に応じて例えばGUIなどを介してユーザから入力された情報である。
条件判定部1001は、関連情報として与えられた制御情報およびユーザ情報に基づいて、物体領域のデータに関わる映像データの利用の可否の判定(アクセスできるか、表示できるか、編集できるか、など)を行う。
処理部1002は、条件判定部1001による判定結果に従って、必要に応じて映像データを処理(例えば、アクセスが拒絶されているとき、物体領域の場所に、モザイクをかけたり塗りつぶしたりして表示を行うことにより、アクセス権のないものが映像を無断で見たり編集できなくする)した上で、これを表示部1003あるいは記憶装置(図示せず)あるいはネットワーク(図示せず)に出力する。
表示部1003は、映像データを液晶表示装置もしくはCRT等に表示するためのものである。
なお、必要に応じて、物体領域データに付加された関連情報による物体ごとの検索機能や、関連情報へのポインタが指示された場合に関連情報を(記録媒体やネットワークを介したサーバ等から)取得し呈示する機能や、指示された関連情報がプログラムや計算機の動作を記述したデータである場合にそれを実行する機能を設けてもよい。
もちろん、本実施形態もソフトウェアによっても実現可能である。
以下では、物体領域データに付加した関連情報(制御情報)を用いた物体ごとのコンテンツ利用制御の幾つかの例を示す。
なお、以下では、説明を分かり易くするために、ある1つの条件にのみ着目し、他には条件がないものとして説明する(複数種類の条件判定が必要な場合には、それぞれの条件判定とその結果に応じた処理が行われる)。
まず、アクセス制限情報を用いた物体表示に関するアクセス制御の例を示す。
図41に、この場合の処理手順の一例を示す。
映像データ中に対象物体がなければ映像を無条件で表示するが、対象物体が存在する際には、アクセスの可否を判定するために、アクセス制限情報が付された物体領域データから該当するアクセス制限情報を抽出する(ステップS401)。また、視聴者の年齢や有料コンテンツの支払などのユーザ情報を取得する(ステップS402)。なお、対象物体が存在することは、例えばフレーム番号をもとに物体領域データを参照することにより知ることができる。また、ユーザ情報の入力は、物体にアクセスするたびに入力してもよいし、予め入力されている情報を利用してもよい。
ここで、入力されたユーザ情報がアクセス制限情報により示されるアクセス許可条件を満たすか否かを判定し(ステップS403)、満たすと判断された場合には、映像を通常どおり表示する(ステップS404)。図42の(a)に表示の一例を示す。図42の(a)において、1601と1602が物体(オブジェクト)である。
一方、ステップS403において、ユーザ情報がアクセス許可条件を満足しないと判断された場合には、物体の隠蔽処理によって、物体領域を塗り潰したり、モザイク処理を施すなど、物体を不可視状態としてから(ステップS405)、映像を表示する(ステップS404)。図42の(b),42(c)に表示の一例を示す。図42の(b)において、1603は物体の近似楕円を隠蔽処理した例である。図42の(c)において、1604は物体を多角形近似した図形を隠蔽処理した例である。
もちろん、条件と判定には種々の形態が可能である。例えば、アクセス制限情報が「有料」を示し、ユーザ情報が当該物体について「有料の場合、視聴しない」を示している場合には、条件を満たさないと判定されるようにしてもよい。また、例えば、アクセス制限情報が「19歳以上」を示し、ユーザ情報が「20歳」を示している場合には、条件を満たすと判定されるようにしてもよい。また、複数の条件を組み合わせて使用することも可能である。
なお、上記では、ユーザ情報がアクセス許可条件を満足しないと判断された場合には、物体の隠蔽処理を行ったが、表示できない物体を含む画面全体を表示しないようにすることもできる。あるいは、当該コンテンツ全体の利用を不可とすることもできる。また、物体だけを非表示にする、画面全体を非表示にするか、あるいはコンテンツの利用を不可とするかなどの処理を、制御情報およびまたはユーザ情報に基づいて選択するようにすることも可能である。
また、ここではアクセス制限情報を用いて物体表示に関するアクセス制御を行う例を示したが、著作権情報、課金情報あるいはその他の形態の情報を用いて、あるいはそのような情報を複数組み合わせて利用して、制御を行うことも可能である。もちろん、この点は、以下の各々の例でも同様である。
次に、アクセス制限情報を用いたハイパーリンクに関するアクセス制御の例を示す。
図43に、この場合の処理手順の一例を示す。
映像データの表示中に、視聴者が例えばGUIなどによって関連情報を表示したい物体を選択すると、アクセス制限情報が付加された物体領域データから該当するアクセス制限情報を抽出する(ステップS501)。また、視聴者の年齢や有料コンテンツの支払などのユーザ情報を取得する(ステップS502)。ユーザ情報の入力は物体にアクセスするたびに入力してもよいし、予め入力されている情報を利用してもよい。
ここで、入力されたユーザ情報がアクセス制限情報により示されるアクセス許可条件を満たすか否かを判定し(ステップS503)、満たすと判断された場合には、物体の関連情報(例えば、注釈データ)を表示する(ステップS504)。
一方、ステップS503において、ユーザ情報がアクセス許可条件を満足しないと判断された場合には、ユーザからの入力を無視したり、ユーザ情報がアクセス許可条件を満たしていないため、アクセス不許可であることをメッセージなどによって、視聴者に通知する(ステップS505)。
図44に、関連情報として映像中の物体の説明が付与されている場合の一例を示す。映像1610の再生中にポインティングデバイス1612により物体1611が指示された場合、関連情報1613が表示される。
なお、第1の実施形態の物体領域データを用いる場合、ポインティングデバイス1612により指示された座標が物体1611を近似した図形の領域内部であるか否かを判断することにより、物体1611が指示されたか否かを容易に判断可能であり、第2の実施形態の物体領域データを用いる場合、ポインティングデバイス1612により指示された座標と物体1611の特徴点との距離が基準以下であるか否かを判断することにより、物体1611が指示されたか否かを容易に判断可能である。
次に、コピー許可情報が付随した物体を含む映像の複製を制限する方法の例を示す。
図45に、この場合の処理手順の一例を示す。
ステップS601において、ユーザが例えばGUIなどを介して複製したい領域または物体を選択する。このときの領域は、画面内の一部の空間的な領域であってもよいし、フレーム番号やタイムコードによって決められる時間的な領域であってもよい。
ステップS602において、物体が選択されたと判定された場合は、その物体の領域が選択領域となり、ステップS603は省略される。
一方、物体でない一般的な領域が選択された場合は、ステップS603において領域内に物体が含まれていないかを判定する。物体が含まれていないと判定された場合には、ステップS604へ進み、通常の複製処理が行われる。
ステップS602において物体が選択されたと判定された場合またはステップS603において領域内に物体が含まれていると判定された場合には、物体領域データに付加された該当するコピー許可情報を抽出する処理を行い(ステップS605)、ステップS606において、複製が許可されているかを判定する。
複製が許可されている場合には、ステップS604へ進み、通常の複製処理が行われる。
許可されていない場合は、ステップS607へ進み、複製を中止したり、メッセージを表示して、複製が許可されていないことをユーザに通知する。
なお、フレーム全体をコピーする場合には、ステップS607の処理において、物体領域の塗潰し、切り抜き、モザイク処理などによって不可視状態にした後、複製処理を行ってもよい。また、物体領域は時間と共に変化するので、一般的に複製が許可されない物体がユーザの選択した領域内に入った場合には、その間だけ、複製を制限する処理を行えばよい。また、1つのフレームに複数の物体が存在する場合には、その全ての物体についてコピーが許可されたときにのみコピー可能としてもよいし、コピーが許可されなかった物体のみ隠蔽処理した上でコピー可能とするようにしてもよい。
また、フレーム全体ではなく、物体の領域の部分だけをコピー可能としてもよい。
また、フレーム全体のコピー自体は、禁止するようにすることも可能である。
次に、課金情報が付随した物体を含む映像の処理に関する例を示す。
図46に、この場合の処理手順の一例を示す。
映像が再生されるとステップS701へ進み、画面内に課金情報を持った物体が存在するかを判定する。
課金情報を持った物体が存在する場合、課金情報を抽出し(ステップS702)、これによって選られた課金情報を用いて、その物体に対して課金を行う(ステップS703)。なお、ある物体があるフレームに存在することは、例えばフレーム番号をもとに物体領域データを参照することにより知ることができる。
一つの物体に対する課金処理が終了するとステップS701へ戻り、画面内の全ての課金情報を持った物体に対して順次課金処理を繰り返す。
すべての物体について課金処理が完了するとステップS704へ進み、現フレームが映像の最終フレームかどうかを判定する。最終フレームでなかった場合には、ステップS705へ進み、映像を次フレームへ進め、再びステップS701へ戻って課金処理を行う。
ステップS704において、現フレームが映像の最終フレームであると判定された場合には、処理を終了する。
(第4の実施形態)
次に、関連情報に基づいて行う処理の他の例として、本実施形態では、映像中の物体に関連情報として当該物体の特徴量などの属性情報を付与し、該属性情報に基づいてオブジェクト検索を行う場合を例にとって説明する。
次に、関連情報に基づいて行う処理の他の例として、本実施形態では、映像中の物体に関連情報として当該物体の特徴量などの属性情報を付与し、該属性情報に基づいてオブジェクト検索を行う場合を例にとって説明する。
図47に、物体領域データに付加する関連情報(属性情報)801の一例を示す。
この属性情報は例えば制作者側から提供される映像コンテンツあるいは利用者側で撮影される監視映像に対する物体ごとの検索にキーとして用いられるためのものであり、このように物体領域に関する特徴等に関係する情報が関連情報となりうる。
物体領域種別802は、例えば“車両”や“人”など、近似されている物体の種類を示すデータである。
識別情報803は、例えば“人名”や“車両のナンバー”、“車種”など、実際の物体を識別するためのデータや、物体領域から抽出される物体領域に識別するために代表される複数の特徴量である。
動作内容804は、“歩く”や“走る”などの物体の動作を示すデータである。
なお、関連情報801として上記項目の全てを用いてもよいし、その一部を用いてもよい。もちろん、上記項目の全部または一部に他の関連情報を併用してもよい。
なお、上記項目は映像コンテンツの場合には提供側において物体領域データに付加する(関連付ける)ものとする(もちろん、ユーザ側で付加あるいは追加するようにしてもよい)。また、該付加あるいは関連付けは、マニュアル操作で行ってもよいし、自動的に行ってもよい。また、監視映像の場合には、監視映像の撮影時に付加するようにしてもよいし、監視映像の解析時に付加するようにしてもよい。
次に、図48に、本実施形態に係る、識別情報に記述する「物体領域から抽出される物体領域を識別するために代表される複数の特徴量」を抽出する情報解析装置の構成例を示す。図48に示されるように、本情報解析装置は、特徴解析部1011を備えている。
特徴解析部1011は、映像データ1000および物体領域データ1006に基づいて、物体領域のデータを解析し、識別に役立てるための、物体領域を代表する特徴量を抽出する。時空間的に表現された物体(オブジェクト)の特徴量としては、キーシェープ、キーテクスチャ、アクティビティ、キーカラー、キーフレームなどがある(特徴量を自動検出する方法については後述する)。なお、特徴量を手動で与えるようにしてもよい。
抽出された特徴量1015は、該当する物体領域データに付加される(対応付けられる)。
次に、図49に、本実施形態に係る、物体ごとの検索機能を有する情報処理装置の構成例を示す。図49に示されるように、本情報処理装置は、検索部1021、処理部1022、表示部1003を備えている。
映像データ1000、物体領域データ1006、関連情報1005は、無線もしくは通信の通信媒体あるいはDVD等の記憶媒体を介して入力されるものとする。なお、図49においては、それらのデータを受信する機能あるいは蓄積する機能あるいは読み出す機能は適宜設けるものとして省略してある。
検索のためのキーデータ1014は、例えばGUIなどを介してユーザから入力される検索のためのキーデータ情報である。
検索部1021は、キーデータと、関連情報として与えられた属性情報とのマッチングを行い、該当する物体を検索する。
処理部1022は、検索部1021による検索結果を受け、これに基づいてユーザに呈示する情報を作成する。検索結果の呈示には、映像データと物体領域データを用いて表示することも可能である。例えば、物体領域が存在するフレーム区間や物体の出現位置を示す形で表示部113に表示させることができる。あるいは、検索結果を記憶装置(図示せず)あるいはネットワーク(図示せず)に出力することも可能である。
表示部1003は、映像データや検索結果を液晶表示装置もしくはCRT等に表示するためのものである。
なお、必要に応じて、関連情報へのポインタが指示された場合に関連情報を(記録媒体やネットワークを介したサーバ等から)取得し呈示する機能や、指示された関連情報がプログラムや計算機の動作を記述したデータである場合にそれを実行する機能を設けてもよい。
もちろん、本実施形態もソフトウェアによっても実現可能である。
次に、識別情報の特徴量の例について説明する。
時空間的に表現された物体(オブジェクト)の特徴量として、キーシェープ、キーテクスチャ、アクティビティ、キーカラー、キーフレームなどがある。以下、これらを自動で検出する方法を示す。
まず、キーシェープの検出方法について説明する。
キーシェープとは、オブジェクトを代表する形である。代表するシェープは、複数でも構わない。
図50に、キーシェープを検出する手順の一例を示す。
ここでは、キーシェープを検出する方法として、(近似前の)物体の領域を用いる。
各フレームにおけるオブジェクト領域の面積と周囲長を求め、S(i)=面積/(周囲長*周囲長)を求める(ステップS102)。S(i)は、形の複雑度を表す指標である。S(i)の計算は、該当するすべてのフレームについて行う(ステップS101)
S(i)の値が最大およびまたは最小時のフレーム番号iおよびそのシェープの情報S(i)を格納する(ステップS103)。
S(i)の値が最大およびまたは最小時のフレーム番号iおよびそのシェープの情報S(i)を格納する(ステップS103)。
図51に、キーシェープの検出する手順の他の例を示す。この手順は、物体を近似図形等で近似した後の、各フレームのオブジェクトの近似領域を用いた場合の手順の例である。
S(i)の計算方法は図51の近似前の領域画像を用いる場合と同じであり、図51との相違は時空間的に記述した式からフレームiでの近似されたシェープを取得する手順(ステップS104)が必要となる点である。
キーシェープの特徴量key_shape_featuresは、以下の構造体で表される。
key_shape_numberは、キーシェープの数である。その数だけ、key_shapeの情報(キーシェープ・データ)を含む。key_shapeは、図形の頂点数と図形の座標列(頂点データ)からなる。図形が近似されるまでの場合は、シルエット図形のすべての輪郭座標を表記することになる。
struct key_shape_features {
int key_shape_number;
struct key_shape[key_shape_number];
}
struct key_shape {
int vect_number;
struct vect[vect_number];
}
struct vect {
int x;
int y;
}
なお、上記構造を模式化したものを図52に示す。
int key_shape_number;
struct key_shape[key_shape_number];
}
struct key_shape {
int vect_number;
struct vect[vect_number];
}
struct vect {
int x;
int y;
}
なお、上記構造を模式化したものを図52に示す。
次に、キーテクスチャの検出方法について説明する。
キーテクスチャとは、オブジェクトを代表するテクスチャである。
一つの方法として、キーシェープのフレームにおける、オブジェクトのテクスチャをキーテクスチャ情報として格納する方法がある。
また、これとは別の方法として、図53の検出手順例に示すように、各フレームのオブジェクトのテクスチャの周波数を解析し(ステップS111,S112)、周波数のパワーの分散が最大または最小のものが、オブジェクトとして最も特徴的なテクスチャの面を向けていると判断し、そのときのフレーム番号とテクスチャ情報を格納しておく(ステップS113)。テクスチャ情報は、周波数情報でも良いし、もとのオブジェクトの画像そのものでも良い。また、キーテクスチャは、複数でも構わない。
キーテクスチャの特徴量key_texture_featuresは、以下の構造体で表される。
key_texture_numberは、キーテクスチャの数である。その数だけ、key_textureの情報(キーテクスチャ・データ)を含む。key_textureを物体領域の画素値で表した例を(Case 1)に示す。pixel_numberは、物体領域の画素値の数を示す。pixel(画素データ)は、画素値と座標値を示している。画素値は、RGB等の色の情報などである。物体領域を周波数解析した場合は、(Case 2)のようになる。例えば、離散的コサイン変換を行い、周波数の係数をfreqの構造体に記憶しておく方法がある。
(Case 1)
struct key_texture_features {
int key_texture_number;
struct key_texture[key_texture_number];
}
struct key_texture {
int pixel_number;
struct pixel[pixel_number];
}
struct pixel {
int x;
int y;
int value_r;
int value_g;
int value_b;
}
(Case 2)
struct key_texture_features {
int key_texture_number;
struct key_texture[key_texture_number];
}
struct key_texture {
int freq_number;
struct freq[freq-number];
}
struct freq {
float value;
}
なお、上記構造を模式化したものをそれぞれ図54に示す。
struct key_texture_features {
int key_texture_number;
struct key_texture[key_texture_number];
}
struct key_texture {
int pixel_number;
struct pixel[pixel_number];
}
struct pixel {
int x;
int y;
int value_r;
int value_g;
int value_b;
}
(Case 2)
struct key_texture_features {
int key_texture_number;
struct key_texture[key_texture_number];
}
struct key_texture {
int freq_number;
struct freq[freq-number];
}
struct freq {
float value;
}
なお、上記構造を模式化したものをそれぞれ図54に示す。
次に、アクティビティについて説明する。
アクティビティとは、オブジェクトの運動に関する情報である。従来は、画面全体の動き情報については利用されていたが、ここでは、オブジェクト自身に対してアクティビティの情報を計算し付与するものとする。
図55の検出手順例に示すように、アクティビティとして、前フレームから計算したフレームのオブジェクトの重心の移動ベクトルのスカラー(大きさ)の平均値をアクティビティとする(ステップS121〜S123)。
なお、大きさや形が大きく変化するようなオブジェクトに対しては、ステップS122の代わりに、ステップS122’のように、オブジェクト領域を近似したの後の近似領域を表す代表点の動きベクトルの大きさから計算するようにしても良い。
また、ステップS122の代わりに、ステップS122”のように、オブジェクト内の各画素の移動ベクトルを利用して求めるようにしても良い。
さらに、図55では、オブジェクトに対して一つのアクティビティを求めたが、運動の変化を計算し、オブジェクトを時間的に分割し、複数のアクティビティを計算し、区間とそのアクテビティの情報を付帯させても良い。
アクティビティの特徴量activity_featuresは、以下の構造体で表される。activity_numberは、アクティビティの数である。その数だけ、activityの情報(アクティビティ・データ)を含む。activityは、物体の運動情報で、フレームの開始・終了番号と動きの多さを表すValueからなる。
struct activity_features {
int activity_number;
struct activity[activity_number];
}
struct activity {
int start;
int end;
float value;
}
なお、上記構造を模式化したものを図56に示す。
int activity_number;
struct activity[activity_number];
}
struct activity {
int start;
int end;
float value;
}
なお、上記構造を模式化したものを図56に示す。
次に、キーカラーの検出方法について説明する。
キーカラーは、オブジェクトを代表する色情報である。
図57の検出手順例に示すように、各フレームのオブジェクトの色ヒストグラムを計算する。色とは、オブジェクトの画素値をHSVなどの色空間の値に変換し、Hなどの色相情報を用いる。色空間は、HSVでも良いし、マンセルの色空間でも良い。色相を256色など任意の段階に分割し、色相の度数である色ヒストグラムを計算する。オブジェクトの大きさに依存しないように、オブジェクトの面積で色ヒストグラムを正規化する。この色ヒストグラムを各フレームごとに求め、加算し、全体の色ヒストグラムを作成する(ステップS131,S132)。これを、フレーム数で割って正規化する(ステップS133)。それをキーカラーの情報として格納する。色ヒストグラム全体を格納したが、支配的な色を上位から複数とって、キーカラーとしても良い。
キーカラーの特徴量key_color_featuresは、以下の構造体で表される。key_color_numberは、キーカラーの数である。その数だけ、key_colorの情報(キーカラー・データ)を含む。key−colorは、(case 1)として色相のヒストグラムのbin数bin_numberと各binの度数を記したものである。(case 2)として、支配的な色dominantを特徴量として示した例である。dominant colorの数dominant_numberとその色の情報が格納される。
(Case 1)
struct key_color_features {
int key_color_number;
struct key_color[key_color_number];
}
struct key_color {
int bin_number;
int bin[bin_number];
}
(Case 2)
struct key_color_features {
int key_color_number;
struct key_color[key_color_number];
}
struct key_color {
int dominant_number;
int dominat[dominant_number];
}
なお、上記構造を模式化したものをそれぞれ図58に示す。
struct key_color_features {
int key_color_number;
struct key_color[key_color_number];
}
struct key_color {
int bin_number;
int bin[bin_number];
}
(Case 2)
struct key_color_features {
int key_color_number;
struct key_color[key_color_number];
}
struct key_color {
int dominant_number;
int dominat[dominant_number];
}
なお、上記構造を模式化したものをそれぞれ図58に示す。
次にキーフレームの検出方法について説明する。
キーフレームとは、オブジェクトを代表するフレームのことである。
図59に示すように、各フレームのオブジェクトの大きさを計算し(ステップS141,S142)、オブジェクトの面積が最大の場所をキーフレームとする(ステップS143)。
なお、キーフレームを、キーカラー、キーテクスチャ、キーシェープが存在する場所としても良いし、手動で与えても構わない。
また、パターン認識の技術を用いて(または、手動で)オブジェクトが人の顔である場合、できるだけ正面を向いた場所をオブジェクトのキーフレームとしても良い。
なお、キーシェープ、キーテクスチャ、キーカラー、アクティビティ、キーフレーム情報の全てもしくは一部を識別情報として格納することも可能である。図60は上記した全ての情報を識別情報として格納した物体領域データのデータ構造を示す。
次に、図49の情報処理装置における映像中の物体の物体領域データに関連情報として付加された属性情報を用いた検索について説明する。
図61に、この場合の処理手順の一例を示す。
まず、ステップS151において、ユーザから検索のためのキーが入力される。
なお、本実施形態の特徴量による検索条件の入力形態には種々の方法が考えられる。そのうちの幾つかを例示する。
(1)数値(範囲)、レベル値(範囲)などを手動で入力する方法
(2)数値等を画面上のメニューから選択する方法
(3)対象とする映像中の物体のうちのいずれかを参照物体として選択し、使用する属性情報を指定し、該参照物体の持つ属性情報のうち指定されたものを使用する方法
(4)対象とする映像とは別に用意した参照物体の映像データを入力し、使用する属性情報を指定し、該参照物体の映像データの当該属性情報を求め、これを使用する方法
(5)上記のうちの任意の複数の組み合わせ
また、上記の特徴量のほかにも、他の種類の検索キーを併用できるようにしてもよい。また、複数の検索キーを、重み付けをおこなって組み合わせても良いし(例えば、各検索キーによる類似度を重みを付けて加算した値を総合的な評価値とする)、組み合わせ論理を用いて組み合わせても良い(例えば、2つの検索キーの論理和の場合に、第1の検索キーによる類似度と第2の検索キーによる類似度の両方が基準値を越えてはじめてマッチングしたと判断する)。
(2)数値等を画面上のメニューから選択する方法
(3)対象とする映像中の物体のうちのいずれかを参照物体として選択し、使用する属性情報を指定し、該参照物体の持つ属性情報のうち指定されたものを使用する方法
(4)対象とする映像とは別に用意した参照物体の映像データを入力し、使用する属性情報を指定し、該参照物体の映像データの当該属性情報を求め、これを使用する方法
(5)上記のうちの任意の複数の組み合わせ
また、上記の特徴量のほかにも、他の種類の検索キーを併用できるようにしてもよい。また、複数の検索キーを、重み付けをおこなって組み合わせても良いし(例えば、各検索キーによる類似度を重みを付けて加算した値を総合的な評価値とする)、組み合わせ論理を用いて組み合わせても良い(例えば、2つの検索キーの論理和の場合に、第1の検索キーによる類似度と第2の検索キーによる類似度の両方が基準値を越えてはじめてマッチングしたと判断する)。
図62に、物体に関連情報(属性情報)として付与されたキーワード、物体の出現するフレーム(範囲)あるいはタイムスタンプ(範囲)、上記の特徴量(キーシェープ、キーテクスチャ、アクティビティ、キーカラー)を検索条件として適宜入力可能とした検索条件入力画面の一例を示す。図62の例は、複数の項目が指定された場合にはそれらの論理積で検索するものとしているが、もちろん様々な論理和や否定など様々な条件の組み合わせ論理を設定可能としてもよい。また、キーワードと、フレーム等と、特徴量とを選択的にしか指定できないようにしてもよい。
次に、ステップS152において、対象となるすべての物体領域において処理を行ったか否か判定する。
未だ対象となるすべての物体領域において処理を行っていなければ、物体領域に付与されている属性情報のうち検索キーと同一種類のものを取り出し、これと検索キーとの距離を計算する(ステップS153)。
そして、その距離が予め定められた閾値よりも小さい場合は、その物体領域が検索キーにマッチングしたものとして、該物体の識別情報や必要に応じて求められた距離などを記録する(ステップS154)。
ここで、キーシェープ、キーテクスチャ、アクティビティ、キーカラーについての距離の計算方法について簡単に説明する。キーフレームの場合は、物体領域を表示するために、代表フレームとして用いる。
まず、二つのキーシェープの距離について説明する。
対象となるキーシェープをTS、検索のキーシェープをUSとする。それぞれの重心を求めて二つのシェープの重心を合わせる。そのときのTSとUSの面のExclusive Orの領域EX(TS,US)とし、TS,USの面積の平均AV(TS,US)を求め、EX(TS,US)/AV(TS,US)を二つのシェープの距離と定める。
次に、二つのキーテクスチャの距離について説明する。
対象となるキーテクスチャをTX、検索のキーシェープをUXとする。ここで、TX,UXから先に述べた離散的コサイン変換による周波数解析が行われた基底ごとの値をTX(i),UX(i)とする。距離d(TX,US)は次に示すような式となる。
d(TX, UY) = Σ|TX(i) - UX(i)|
i = l, k
次に、2つのアクティビティの距離について説明する。
i = l, k
次に、2つのアクティビティの距離について説明する。
単純に物体領域データがひとつのアクティビティのみを持っている場合は、対象となるアクティブティをTA、検索キーをUAとすると、距離d(TA,UA)は|TA−UA|で定義される。複数のアクティビディを持つ場合は、次に示すような式となる。
d(TA, UA) = Σ|TA(i) - UA(i)|
i = l, k
次に、2つのキーカラーの距離について説明する。
i = l, k
次に、2つのキーカラーの距離について説明する。
対象となるキーカラーをTC、検索のキーカラーをUCとする。ここで、TC,UCは色ヒストグラムTC(i),UC(i)であるとすると、距離d(TC,UC)は、以下の式となる。kはbinのかずである。Dominant Colorの場合も同様に次に示すような式となる。
d(TC, UC) = Σ|TC(i) - CX(i)|
i = l, k
さて、以上の処理を各々の物体について行い、ステップS152において、すべての物体について処理が終了したと判定されたならば、ステップS155において、検索結果を出力する。
i = l, k
さて、以上の処理を各々の物体について行い、ステップS152において、すべての物体について処理が終了したと判定されたならば、ステップS155において、検索結果を出力する。
なお、検索結果の出力形態には種々の方法が考えられる。そのうちの幾つかを例示する。
(1)物体を識別する情報、出現フレームもしくは時間の範囲、位置に関する情報、物体の注釈情報、類似度の評価値などのリストを表示する
(2)該当する物体の出現する範囲の映像を表示する
(3)該当する物体の代表的な画像を表示する(全画面もしくは該当する物体の部分のみ)
(4)上記のうちの任意の複数の組み合わせ
(5)上記のうちのある方法から他の方法へ遷移可能とする方法
図63に、検索結果表示画面の一例を示す。図63の例では、検索により2つの物体が得られ、検索結果として、その物体の名称と、出現する時間と、その物体の代表的な画像1621,1622とを表示した例である。物体の代表的な画像は、例えば、第1の実施形態のようにして近似図形を求め、当該フレームの映像データ中から該求めた近似図形を内包する所定の大きさの矩形の領域を切り出し、該切り出した矩形の領域を適宜縮小するなどして表示すればよい。
(2)該当する物体の出現する範囲の映像を表示する
(3)該当する物体の代表的な画像を表示する(全画面もしくは該当する物体の部分のみ)
(4)上記のうちの任意の複数の組み合わせ
(5)上記のうちのある方法から他の方法へ遷移可能とする方法
図63に、検索結果表示画面の一例を示す。図63の例では、検索により2つの物体が得られ、検索結果として、その物体の名称と、出現する時間と、その物体の代表的な画像1621,1622とを表示した例である。物体の代表的な画像は、例えば、第1の実施形態のようにして近似図形を求め、当該フレームの映像データ中から該求めた近似図形を内包する所定の大きさの矩形の領域を切り出し、該切り出した矩形の領域を適宜縮小するなどして表示すればよい。
また、図64に例示するように、物体の代表的な画像1621をポインティングデバイス1623により指示された場合に、該物体の出現する範囲の映像1624を表示するようにしてもよい。
なお、第3の実施形態と第4の実施形態は組み合わせて実施可能である。例えば、映像コンテンツ(映像データ)から得られた物体領域データに、図31の関連情報(制御情報)もしくは図47の関連情報(属性情報)のいずれかを付与し、または図31の関連情報(制御情報)と図47の関連情報(属性情報)の両方を付与し、あるいはそれらにさらに他の関連情報を付与し、第3の実施形態のような物体ごとのコンテンツ利用制御や第4の実施形態のような特徴量による検索を行うようにしてもよい。
なお、以上の各機能は、ソフトウェアとしても実現可能である。
また、本実施形態は、コンピュータに所定の手段を実行させるための(あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるための)プログラムを記録したコンピュータ読取り可能な記録媒体としても実施することもできる。
なお、本願発明は上記各実施形態に限定されるものではなく、実施段階ではその趣旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組合わせた効果が得られる。さらに、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組合わせにより種々の発明が抽出され得る。
100,231…映像データ記憶部
101…領域抽出部
102…領域の図形近似部
103…図形代表点抽出部
104…代表点の曲線近似部
105,235…関連情報記憶部
106,236…領域データ記憶部
233…特徴点抽出部
234…特徴点の曲線近似部
1001…条件判定部
1002,1022…処理部
1003…表示部
1011…特徴解析部
1021…検索部
101…領域抽出部
102…領域の図形近似部
103…図形代表点抽出部
104…代表点の曲線近似部
105,235…関連情報記憶部
106,236…領域データ記憶部
233…特徴点抽出部
234…特徴点の曲線近似部
1001…条件判定部
1002,1022…処理部
1003…表示部
1011…特徴解析部
1021…検索部
Claims (3)
- 複数フレームからなる映像データ中における物体の領域の時系列的な変化に関する情報を生成して物体領域データとして記述し、
前記映像データを利用する際、前記物体の領域毎の検索を行うための処理に供されるべき関連情報を前記物体領域データと関連付けて記述し、
前記関連情報は、前記検索において検索キーとの照合のために用いられる、前記物体の領域の代表的な特徴を示す属性情報であり、
前記属性情報は、前記物体の領域を代表する形状を示すキーシェープ情報、前記物体の領域の周波数情報を示すキーテクスチャ情報、前記物体の領域の運動に関する情報を示すアクティビティ情報、前記物体の領域を代表する色を示すキーカラー情報、前記物体の代表例を含むフレームであるキーフレームのうちの少なくとも1つを含むことを特徴とする物体領域情報記述方法。 - 映像中の物体ごとに検索を行う映像情報処理方法であって、
映像データ中における物体の領域に関する情報を記述した物体領域データおよびこれに関連付けられた属性情報を取得し、
指定された検索条件および前記属性情報に基づいて、該当する物体を検索し、
検索された前記物体に関する前記物体領域データに基づいて、呈示すべき検索結果を作成し、
前記属性情報は、前記物体の領域を代表する形状を示すキーシェープ情報、前記物体の領域の周波数情報を示すキーテクスチャ情報、前記物体の領域の運動に関する情報を示すアクティビティ情報、前記物体の領域を代表する色を示すキーカラー情報、前記物体の代表例を含むフレームであるキーフレームのうちの少なくとも1つを含むことを特徴とする映像情報処理方法。 - 映像中の物体ごとに検索を行う映像情報処理装置であって、
映像データ中における物体の領域に関する情報を記述した物体領域データおよびこれに関連付けられた属性情報を取得する手段と、
指定された検索条件および前記属性情報に基づいて、該当する物体を検索する手段と、
検索された前記物体に関する前記物体領域データに基づいて、呈示すべき検索結果を作成する手段とを具備し、
前記属性情報は、前記物体の領域を代表する形状を示すキーシェープ情報、前記物体の領域の周波数情報を示すキーテクスチャ情報、前記物体の領域の運動に関する情報を示すアクティビティ情報、前記物体の領域を代表する色を示すキーカラー情報、前記物体の代表例を含むフレームであるキーフレームのうちの少なくとも1つを含むことを特徴とする映像情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008006250A JP2008181515A (ja) | 1999-07-09 | 2008-01-15 | 物体領域情報記述方法、映像情報処理方法及び情報処理装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19620399 | 1999-07-09 | ||
JP2008006250A JP2008181515A (ja) | 1999-07-09 | 2008-01-15 | 物体領域情報記述方法、映像情報処理方法及び情報処理装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000209015A Division JP2001118075A (ja) | 1999-07-09 | 2000-07-10 | 物体領域情報記述方法及び物体領域情報生成装置並びに映像情報処理方法及び情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008181515A true JP2008181515A (ja) | 2008-08-07 |
Family
ID=39725328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008006250A Abandoned JP2008181515A (ja) | 1999-07-09 | 2008-01-15 | 物体領域情報記述方法、映像情報処理方法及び情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008181515A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8731304B2 (en) | 2011-03-07 | 2014-05-20 | Fujitsu Limited | Computer-readable storage medium storing image processing program, image processing method, and image processing device |
WO2014132988A1 (ja) * | 2013-02-27 | 2014-09-04 | ブラザー工業株式会社 | 情報処理装置及び情報処理方法 |
KR20220078421A (ko) * | 2020-12-03 | 2022-06-10 | 숭실대학교산학협력단 | 스네이크와 옵티컬 플로우 기반의 초고속 동영상 객체 추적 방법, 이를 수행하기 위한 기록 매체 및 장치 |
-
2008
- 2008-01-15 JP JP2008006250A patent/JP2008181515A/ja not_active Abandoned
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8731304B2 (en) | 2011-03-07 | 2014-05-20 | Fujitsu Limited | Computer-readable storage medium storing image processing program, image processing method, and image processing device |
WO2014132988A1 (ja) * | 2013-02-27 | 2014-09-04 | ブラザー工業株式会社 | 情報処理装置及び情報処理方法 |
JP2014164685A (ja) * | 2013-02-27 | 2014-09-08 | Brother Ind Ltd | 情報処理装置及び情報処理方法 |
KR20220078421A (ko) * | 2020-12-03 | 2022-06-10 | 숭실대학교산학협력단 | 스네이크와 옵티컬 플로우 기반의 초고속 동영상 객체 추적 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR102532019B1 (ko) | 2020-12-03 | 2023-05-15 | 숭실대학교 산학협력단 | 스네이크와 옵티컬 플로우 기반의 초고속 동영상 객체 추적 방법, 이를 수행하기 위한 기록 매체 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | Graph2plan: Learning floorplan generation from layout graphs | |
JP4226730B2 (ja) | 物体領域情報生成方法及び物体領域情報生成装置並びに映像情報処理方法及び情報処理装置 | |
US7188103B2 (en) | Similarity search of three-dimensional model using two-dimensional image as search key | |
TW452748B (en) | Description of video contents based on objects by using spatio-temporal features and sequential of outlines | |
JP4813749B2 (ja) | 基本オブジェクトに基づいてビデオ画像を分割する方法 | |
US7304649B2 (en) | Object region data describing method and object region data creating apparatus | |
US5892520A (en) | Picture query system using abstract exemplary motions of a pointing device | |
Wu et al. | Deep portrait image completion and extrapolation | |
US11914645B2 (en) | Systems and methods for generating improved content based on matching mappings | |
JP2021514775A (ja) | 現実世界の仮想現実マップを用いた仮想現実(vr)ゲーム環境の構築 | |
JP2002359777A (ja) | 時空間領域情報処理方法及び時空間領域情報処理システム | |
JP2001118075A (ja) | 物体領域情報記述方法及び物体領域情報生成装置並びに映像情報処理方法及び情報処理装置 | |
Wu et al. | Image completion with multi-image based on entropy reduction | |
CN108388649A (zh) | 处理音视频的方法、***、设备及存储介质 | |
JP2004110459A (ja) | 3次元モデル空間生成装置、3次元モデル空間生成方法、3次元モデル空間生成プログラム、及びコンテンツ送信サーバ | |
KR100427879B1 (ko) | 물체영역정보를 생성하기 위한 프로그램과 그 프로그램에 의해 생성된 물체영역정보를 격납한 기록매체 | |
JP4112819B2 (ja) | 物体領域情報生成装置及び物体領域情報記述プログラム | |
JP2008181515A (ja) | 物体領域情報記述方法、映像情報処理方法及び情報処理装置 | |
Petkovic et al. | A framework for video modelling | |
JP4166678B2 (ja) | 知覚的に認識可能な3次元形状の記述方法と、それを利用した3次元グラフィックモデルのデータベース検索方法及び装置 | |
JP2001111996A (ja) | 物体領域情報記述方法及び物体領域情報生成装置並びに映像情報処理方法及び映像情報処理装置 | |
JPH11259673A (ja) | 空間散策映像表示方法及び空間内オブジェクト検索方法及び空間内オブジェクト抽出方法及びそれらの装置及びそれらの方法を記録した記録媒体 | |
Schaefer et al. | Image database navigation on a hierarchical MDS grid | |
JP2008282316A (ja) | 動画像比較装置、動画像比較方法、及び動画像比較プログラム | |
Zhao et al. | Localization and completion for 3D object interactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20090330 |