JP2008181515A

JP2008181515A - 物体領域情報記述方法、映像情報処理方法及び情報処理装置

Info

Publication number: JP2008181515A
Application number: JP2008006250A
Authority: JP
Inventors: Osamu Hori; 修堀; Toshimitsu Kaneko; 敏充金子; Takeshi Mita; 雄志三田; Koji Yamamoto; 晃司山本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-07-09
Filing date: 2008-01-15
Publication date: 2008-08-07

Abstract

【課題】映像中の所望の物体の領域を少ないデータ量で記述でき且つその作成やデータの扱いも容易にする物体領域記述方法を提供すること。
【解決手段】映像中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述するための物体領域情報記述方法であって、映像中における対象となる物体の領域２０１を、該物体の領域に対する近似図形２０２もしくは特徴点の少なくとも一方で特定し、該近似図形２０２の代表点２０３もしくは該特徴点の位置データをフレーム２００の進行に沿って並べたときの軌跡を所定の関数２０４で近似し、該関数のパラメータ２０５を用いて該物体の領域に関する情報を記述し、さらに該物体の領域に対するコンテンツ利用制御や検索などの処理にて使用される制御情報や属性情報を付加する。
【選択図】図２

Description

本発明は物体領域情報記述方法、映像情報処理方法及び情報処理装置に関する。

本発明は、映像中の物体の領域に関する情報を記述するための物体領域情報記述方法、映像中の物体に対する利用制御あるいは映像中の物体の検索を行う情報処理装置及びそのための映像情報処理方法に関する。

映像コンテンツに対する視聴および２次利用を制御するために、古くは、映像のタイトルにその情報を付与する方法が一般的である。これは、映像の著作権および利用の制約条件を一本の映像タイトルごとに付ける方法であり、映像の部分に対して利用を制御することができなかった。そこで、映像を連続するフレームのまとまりに分割し、そのまとまりごとに（例えばカットごとに）映像利用に関する情報を付与して管理することが考えられた。この方法によって、例えば、ある俳優が登場しているカットだけに、俳優の肖像権を認めるような、木目細かな管理ができるようになった。しかし、同一カットに複数の俳優がいて、興味の対象がひとりの俳優にあり、もう片方の俳優には興味がない場合、興味のある俳優の映像のみを切り出して利用することができなかった。静止画ならば、領域ごとに分割し肖像権や著作権の情報を付与することができても、動画のように対象物体が映像中で移動する場合は、領域毎に情報を付与する有効な手段がなかった。

また、デジタル映像圧縮技術の進歩によって、デジタル化された映像コンテンツをランダムアクセス可能なハードディスクなどに管理保存し、所望の場所を容易に検索できるようになった。この場合も、映像を連続したフレームのまとまりに分割し、検索に必要な情報を付与することが行われている。情報を付与する方法としては、アノテーション（注釈）として、言語を用いて付与する方法が一般的である。例えば、タイムコードが１：００〜１：２０のシーンでは、「飛行機が飛び去る」などの説明が付与される。これにより、「飛行機」というキーワードを利用して検索ができる。しかし、このようなアノテーション（注釈）は、機械で情報を付与することができず、人手による多くの労力が必要であった。これを改善するために、映像の画像から特徴量を自動的に抽出し、その特徴量を検索に利用する方法が考えられた。これは、画像のどの部分に、どのような大きさの色が存在するかなどの情報を与えるものである。しかし、静止画の場合は領域を分割することができ有効であったが、動画の場合には映像中の物体が移動するため、時空間的に領域を特定できず、利用不可能であった。

以上説明したように、映像中で時空間的に変化をともなう物体領域に対して、それを特定し、その領域の映像データの利用を管理する情報を付与する有効な手段がなかった。

また、静止画には有効であった検索のための特徴付けは映像中の物体領域には適用できなかった。

本発明は、上記事情を考慮してなされたもので、映像中の物体ごとの利用制御や検索を可能にするために映像中の物体を特定する物体領域情報記述方法、映像情報処理方法及び情報処理装置を提供することを目的とする。

本発明に係る物体領域情報記述方法は、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報を生成し、前記物体の領域に対する処理に共されるべき関連情報を前記物体領域情報に付加することを特徴とする。

好ましくは、前記処理は、前記映像データの前記物体の領域部分に対する利用を制御するための処理であり、前記関連情報は、前記制御の際に参照すべき制御情報であるようにしてもよい。

さらに、好ましくは、前記制御情報は、前記映像データの前記物体の領域部分に対する一次利用（例えば当該コンテンツの視聴、注釈情報の表示）を許可する条件を示す情報、前記映像データの前記物体の領域部分に対する二次利用（例えば、当該コンテンツのコピー）を許可する条件を示す情報、前記映像データの前記物体の領域部分の利用に対する課金に関する情報のうちの少なくとも１つを含むようにしてもよい。

また、好ましくは、前記処理は、前記物体の領域ごとの検索を行うための処理であり、前記関連情報は、前記検索において検索キーとの照合のために用いられる、前記物体の領域の代表的な特徴を示す属性情報であるようにしてもよい。

さらに、好ましくは、前記属性情報は、前記物体の領域を代表する形状を示すキーシェープ情報、前記物体の領域を代表するテクスチャを示すキーテクスチャ情報、前記物体の領域の運動に関する情報を示すアクティビティ情報、前記物体の領域を代表する色を示すキーカラー情報のうちの少なくとも１つを含むようにしてもよい。

また、好ましくは、映像データ中における対象となる物体の領域を、該物体の領域に対する近似図形もしくは特徴点の少なくとも一方で特定し、該近似図形の代表点もしくは該特徴点の位置データを前記フレームの進行に沿って並べたときの軌跡を所定の関数で近似し、該関数のパラメータを用いて該物体の領域に関する情報を記述することによって、前記物体領域情報を生成するようにしてもよい。

また、好ましくは、少なくとも、対象となる前記複数フレームのうちの先頭のフレームの番号及び最終のフレームの番号もしくは先頭のフレームのタイムスタンプ及び最終のフレームのタイムスタンプを特定可能な情報と、該物体の領域を近似する近似図形の図形種を識別する情報と、該物体の領域に対する近似図形の代表点の位置データをフレームの進行に沿って並べたときの軌跡を近似した関数のパラメータとを用いて、前記物体領域情報を生成するようにしてもよい。

また、好ましくは、少なくとも、対象となる前記複数フレームのうちの先頭のフレームの番号及び最終のフレームの番号もしくは先頭のフレームのタイムスタンプ及び最終のフレームのタイムスタンプを特定可能な情報と、該物体の領域を近似する近似図形の数と、該近似図形の図形種を識別する情報と、各近似図形に対応する、該近似図形の代表点の位置データをフレームの進行に沿って並べたときの軌跡を近似した関数のパラメータとを用いて、前記物体領域情報を生成するようにしてもよい。

また、好ましくは、少なくとも、対象となる前記複数フレームのうちの先頭のフレームの番号及び最終のフレームの番号もしくは先頭のフレームのタイムスタンプ及び最終のフレームのタイムスタンプを特定可能な情報と、該物体の領域の特徴点の位置データをフレームの進行に沿って並べたときの軌跡を近似した関数のパラメータとを用いて、前記物体領域情報を生成するようにしてもい。

また、本発明の一実施態様は、物体領域情報記述方法により生成された、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報、および該物体領域情報に付加された該物体の領域に対する処理に共されるべき関連情報を格納した記録媒体である。

また、本発明の他の一実施態様は、映像データ中の物体ごとに利用制御を行う映像情報処理方法であって、映像中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報およびこれに付加された制御情報を取得し、前記物体領域情報にて示される物体の領域を含む映像データが利用対象となった場合に、該物体領域情報に付加された前記制御情報に基づいて、該映像データの利用の可否を判定し、この判定結果に応じて、前記映像データの出力形態を制御することを特徴とする。

好ましくは、前記物体の領域に関しては前記映像データの利用が不可と判定された場合に、前記映像データにおける前記物体の領域を隠蔽する処理を施した上で、該映像データを出力するようにしてもよい。

また、本発明の他の一実施態様は、映像中の物体ごとに利用制御を行う映像情報処理方法であって、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報およびこれに付加された制御情報を取得し、前記物体領域情報にて示される物体が指示された場合に、前記制御情報に基づいて、該物体に関連する情報を呈示することの可否を判定し、この判定結果に応じて、前記物体に関連する情報の呈示を制御することを特徴とする。

また、本発明の他の一実施態様は、映像中の物体ごとに検索を行う映像情報処理方法であって、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報およびこれに付加された属性情報を取得し、指定された検索条件および前記属性情報に基づいて、該当する物体を検索し、検索された前記物体を示す前記物体領域情報に基づいて、呈示すべき検索結果を作成することを特徴とする。

好ましくは、前記属性情報は、前記物体の領域を代表する形状を示すキーシェープ情報、前記物体の領域を代表するテクスチャを示すキーテクスチャ情報、前記物体の領域の運動に関する情報を示すアクティビティ情報、前記物体の領域を代表する色を示すキーカラー情報のうちの少なくとも１つを含むようにしてもよい。

好ましくは、前記検索の結果として、検索された前記物体の領域に対応する複数フレームに渡る映像および１つの代表的なフレームから切り出した部分画像の少なくとも一方を表示するようにしてもよい。

また、本発明の他の一実施態様に係る物体領域情報生成装置は、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報を生成する手段と、前記物体の領域に対する処理に共されるべき関連情報を前記物体領域情報に付加する手段とを備えたことを特徴とする。

また、本発明の他の一実施態様は、映像中の物体ごとに利用制御を行う映像情報処理装置であって、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報およびこれに付加された制御情報を取得する手段と、前記物体領域情報にて示される物体の領域を含む映像データが利用対象となった場合に、該物体領域情報に付加された前記制御情報に基づいて、該映像データの利用の可否を判定する手段と、この判定結果に応じて、前記映像データの出力形態を制御する手段とを備えたことを特徴とする。

また、本発明の他の一実施態様は、映像中の物体ごとに検索を行う映像情報処理装置であって、映像データ中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述した物体領域情報およびこれに付加された属性情報を取得する手段と、指定された検索条件および前記属性情報に基づいて、該当する物体を検索する手段と、検索された前記物体を示す前記物体領域情報に基づいて、呈示すべき検索結果を作成する手段とを備えたことを特徴とする。

本発明の他の一実施態様によれば、映像中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述し、物体領域の視聴や２次利用などの利用形態を制限する情報をその記述に付与することにより、物体領域を利用するときに、その情報を用いて利用の形態を管理・制御することができる。また、映像中の物体領域単位に利用者への表示・編集を木目細かく取り扱うことが可能となる。

また、本発明の他の一実施態様によれば、映像中における任意の物体の領域に関する情報を連続する複数フレームに渡って記述し、物体領域の代表的な特徴量などの属性情報を付与することにより、検索キーを用いて属性情報を検索することによって、自動でかつ高速に所望の物体領域を検索することができる。

なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。

また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための（あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための）プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。

本発明によれば、映像中の物体ごとの利用制御や検索が可能になる。

以下、図面を参照して本発明による物体領域情報記述方法及び物体領域情報生成装置並びに映像情報処理方法及び情報処理装置の実施形態を説明する。

本発明は、映像中における物体の領域を連続する複数フレームに渡って記述した物体領域データを生成し、この物体領域データに、該物体に関連する関連情報を付加する。

映像中の物体としては、典型的には、人や動物、建物や植物などの移動物体あるいは静止物体が考えられるが、映像中において物体（オブジェクト）として扱うことのできるものであれば、映像中のどのようなものでもあってもよい。また、独立したものであってもよいし、ものの一部であってもよいし、ものの集合であってもよい。

物体ごとに作成される物体領域データは、例えば映像中における当該物体の出現フレームあるいは時刻の範囲や画面上の出現位置／物体形状などを示す、あるいは復元可能な情報であり、例えば従来から知られているマスク画像を用いてもよいが、後述する（第１の実施形態、第２の実施形態）新たな物体領域データを用いることが好ましい。

本発明では、物体領域データには、１以上の関連情報が付加されるものとする。物体領域データに付加する関連情報としては、種々のものがあり、例えばユーザに対して表示もしくは再生することを目的とする情報（あるいはその情報を取得するための情報）が考えられるが、表示・再生以外の処理に共される情報を付加することも可能である。本発明では、後者の例として、コンテンツ利用制御のための制御情報を関連情報として物体領域データに付加して、コンテンツ利用制御を物体毎に行うことを可能にした例（第３の実施形態）や、物体の領域に基づいた特徴量などの属性情報を関連情報として物体領域データに付加して、検索を物体毎に行うことを可能にした例（第４の実施形態）を示す。もちろん、１つの物体領域データに様々な関連情報が付加されてもよい。

なお、一般的には、物体領域データに付加すべき関連情報の一部または全部について、実際には物体領域データに該当情報へのポインタを付加することも可能である（第３の実施形態の制御情報や第４の実施形態の属性情報は、ポインタではなくデータ自体を物体領域データに付加すると好ましい）。

（第１実施形態）
最初に、物体領域データの生成の一例について説明する。

図１に、本発明の第１の実施形態に係る物体領域データ生成装置の構成例を示す。図１に示されるように、本物体領域データ生成装置は、映像データ記憶部１００、領域抽出部１０１、領域の図形近似部１０２、図形代表点抽出部１０３、代表点の曲線近似部１０４、関連情報記憶部１０５、領域データ記憶部１０６を備えている。なお、本処理（特に、領域抽出部１０１や領域の図形近似部１０２の処理）においてユーザの操作を介入させる形態を取る場合には、映像データを例えばフレーム単位で表示させ、ユーザの指示入力等を受け付けるＧＵＩが用いられる（図１では省略している）。

映像データ記憶部１００は、映像データが記憶されているもので、例えばハードディスクや光ディスク、半導体メモリなどで構成される。

領域抽出部１０１は、映像データにおける一部の領域を抽出する。この一部の領域とは、画像中の特定の人や車、建物など（あるいはその一部分、例えば人の頭、車のボンネット、建物の玄関など）の物体の領域である。映像では、連続するフレームには同じ物体が写っていることが多いが、物体自身の動きや撮影時のカメラの動きが原因で同じ物体に対応する領域がフレーム間で変化することが多い。

領域抽出部１０１は、このような注目している物体の動きや変形に対応して各フレームにおける物体（オブジェクト）の領域を抽出するためのものである。具体的な抽出手法としては、全フレームに渡って人手で領域指定する方法や、Ｍ．Ｋａｓｓ他，「Ｓｎａｋｅｓ：Ａｃｔｉｖｅｃｏｕｎｔｏｕｒｍｏｄｅｌｓ」（ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ｖｏｌ．１，Ｎｏ．４，ｐｐ．３２１−３３１．Ｊｕｌｙ，１９８８）に記されているようなＳｎａｋｅｓと呼ばれる動的輪郭モデルにより物体の輪郭抽出を連続して行う方法、金子他「ロバスト推定を用いたハイパーメディアコンテンツ作成のための高速移動物体追跡法」（情報処理学会技術報告ＣＶＩＭ１１３−１，１９９８）に記されているようなブロックマッチングにより求めた物体中の部分領域の移動先から物体全体の変形・移動を推定していく方法、画像解析ハンドブック（第ＩＩ部第２章，東京大学出版会，１９９１）に記されているような領域成長・分割により似た色を持つ領域を特定する方法などを用いることができる。

領域の図形近似部（以下、領域図形近似部）１０２は、領域抽出部１０１で抽出された映像中の物体の領域を予め定められた図形により近似する。図形としては、矩形、円、楕円、多角形など任意の図形としてよい。また、領域の近似方法も、領域に外接する図形に近似する方法、領域に内接する図形とする方法、領域の重心を近似図形の重心とする方法、領域と近似図形の面積比を等しくする方法、などの方法がある。なお、物体の領域を予め定められた図形により近似するのではなく、近似する対象物体毎に図形の種類をユーザが指定できるようにしてもよいし、近似する対象物体毎にその物体の形状等に応じて図形の種類を自動的に選択するようにしてもよい。

領域の図形近似は、領域抽出部１０１での抽出結果が入力されるたびに、フレームごとに行う。もしくは、前後数フレームの領域抽出結果を使って図形近似を行っても良い。数フレームの領域抽出結果を利用する場合には、近似図形の大きさや位置などの変化を数フレームの間で平滑化することにより、近似図形の動きや変形をなめらかにしたり、領域抽出の抽出誤差を目立たなくすることができる。なお、近似図形の大きさは、フレームごとに異なって構わない。

図形代表点抽出部１０３は、領域図形近似部１０２の出力である近似図形を表現する代表点を抽出する。どのような点を代表点とするかは、どのような近似図形を用いるかにより異なる。例えば、近似図形が矩形の場合には４つもしくは３つの頂点を代表点とすることができ、近似図形が円の場合には中心と円周上の一点としたり直径の両端点としたりすることができる。また、楕円の場合には楕円の外接矩形の頂点としたり２つの焦点と楕円上の１点（例えば短軸上の１点）としたりすればよい。任意の閉多角形を近似図形とする場合には、各頂点を図形の代表点とする必要がある。

代表点の抽出は、領域図形近似部１０２から１フレーム分の近似図形の情報が出力されるたびに、フレーム単位で行われる。また、各代表点は、水平方向の座標Ｘと、垂直方向の座標Ｙとにより表される。

代表点の曲線近似部（以下、代表点曲線近似部）１０４は、図形代表点抽出部１０３で抽出された各代表点の位置をそれぞれ時系列で曲線に近似する。この近似曲線は、各代表点について、Ｘ座標、Ｙ座標ごとに、フレーム番号ｆもしくは映像に付与されているタイムスタンプｔの関数として表現される。曲線近似の方法としては、直線による近似、スプライン曲線による近似などがある。

関連情報記憶部１０５には、映像データ記憶部１００に記憶されている映像データに登場する物体に関する情報や、そのような情報を外部記憶装置あるいはネットワークを介したサーバなどから取得するためのポインタ情報（例えば、関連情報の記録されているアドレス、ファイル名、ＵＲＬなど）を記憶するためのものである。関連情報は、文字、音声、静止画、動画、あるいはそれらを適宜組み合わせたものであってもよい。また、関連情報は、プログラムもしくは計算機の動作を記述したデータであってもよい（この場合には、当該物体がユーザにより指定されると、計算機が所望の動作を行うことになる）。関連情報記憶部１０５は映像データ記憶部１００と同様に例えばハードディスクや光ディスク、半導体メモリなどで構成される。

なお、制御のための制御情報や検索のための属性情報を関連情報として物体領域データに付加する場合については後述する（第３、第４の実施の形態）。

領域データ記憶部１０６は、代表点曲線近似部１０４の出力である代表点の時系列的な軌跡を近似した曲線式を表現するデータを含む物体領域データが記憶される記憶媒体である。関数で表現された領域に対応する物体に関する関連情報が関連情報記憶部１０５に記憶されている場合には、物体領域データには関連情報そのものやポインタ情報を併せて記録することができる。領域データ記憶部１０６も映像データ記憶部１００等と同様に例えばハードディスクや光ディスク、半導体メモリなどで構成される。

なお、映像データ記憶部１００、関連情報記憶部１０５、領域データ記憶部１０６は、別々の記憶装置によって構成されていてもよいが、それらの全部または一部が同一の記憶装置によって構成されていてもよい。

また、本物体領域データ生成装置は、計算機上でソフトウェアを実行する形で実現することもできる。

次に、より具体的な例を用いながら本物体領域データ生成装置の動作について説明する。

図２の（ａ）、（ｂ）、（ｃ）、（ｄ）は、領域抽出部１０１による物体の領域を抽出する処理から、領域図形近似部１０２による領域を図形で近似する処理、図形代表点抽出部１０３による図形の代表点を抽出する処理、代表点曲線近似部１０４による代表点を曲線で近似する処理までの一連の処理の概要をより具体的に説明するための図である。

ここでは、領域図形近似部１０２として領域の楕円による近似方法を用い、図形代表点抽出部１０３として楕円の２つの焦点と楕円上の１点を抽出する方法を用い、代表点曲線近似部１０４としてスプライン関数による近似方法を用いた場合を例としている。

図２の（ａ）において、２００は処理対象となっている映像中の１フレームを示している。

２０１は抽出対象となっている物体の領域を示している。この物体の領域２０１を抽出する処理は領域抽出部１０１において行われる。

２０２は物体の領域を楕円で近似したものである。物体領域２０１から楕円２０２を求める処理は領域図形近似部１０２において行われる。

ここで、図３に、物体の領域が平行四辺形で表される場合に、近似楕円を求める方法の一例を示す。図３における点Ａ，Ｂ，Ｃ，Ｄが物体の領域である平行四辺形の各頂点である。この場合、まず、辺ＡＢと辺ＢＣのどちらが長いかを計算する。そして、長い方の辺およびその対辺を辺の一部とする最小の長方形を求める。図３の例の場合は点Ａ，Ｂ’，Ｃ，Ｄ’を４頂点とする長方形となる。近似楕円は、例えば、この長方形に内接する楕円と相似で、かつ、点Ａ，Ｂ’，Ｃ，Ｄ’を通る外接楕円とする。

次に、図２の（ｂ）において、２０３は楕円を表現する図形代表点であり、具体的には２つの焦点および１つの楕円上の点（図２の（ｂ）の例では短軸上の１点）である。楕円の焦点は２つの軸上の点や楕円の外接矩形から簡単に求めることができる。以下、一例として、図４における長軸上の２点Ｐ０，Ｐ１および短軸上の１点Ｈから焦点ＦとＧを求める方法を説明する。

まず、長軸と短軸のパラメータであるａ，ｂと、楕円の中心Ｃと、扁平率ｅとを、
Ｅ（Ｐ０，Ｐ１）＝２×ａ、
Ｃ＝（Ｐ０＋Ｐ１）／２、
Ｅ（Ｃ、Ｈ）＝ｂ、
ｅ＝（１／ａ）×√（ａ×ａ−ｂ×ｂ）
により求める。

ここで、Ｅ（Ｐ、Ｑ）は点Ｐと点Ｑのユークリッド距離である。

このようにして求めたパラメータから、焦点ＦとＧは、
Ｆ＝Ｃ＋ｅ×（Ｐ０−Ｃ）、
Ｇ＝Ｃ−ｅ×（Ｐ０−Ｃ）
により求めることができる。

このようにして、楕円の代表点Ｆ、ＧおよびＨは決定されるが、これらの点を別のフレームにおいて取り出された楕円の代表点と結びつける際にはあいまいさが生じる。すなわち、抽出された２つの焦点と１つ前のフレームにおける２つの焦点とを結びつける組み合わせは２通り存在する。また、短軸と楕円との交点は２つあるため、１つ前のフレームにおいて抽出された楕円上の一点と対応する交点がどちらなのかがわからない。そこで、これらを決定する方法について説明する。

１フレーム前に抽出された２つの焦点をＦ_ｐ、Ｇ_ｐとする。Ｆ_ｐに対応するのがＦであるのかＧであるのかを判断するために、
Ｅ（（Ｇ_ｐ−Ｆ_ｐ）／２，（Ｇ−Ｆ）／２）と
Ｅ（（Ｇ_ｐ−Ｆ_ｐ）／２，（Ｆ−Ｇ）／２）とを比較する。

前者の方が小さい場合には、Ｆ_ｐはＦに対応させ、Ｇ_ｐはＧに対応させる。一方、後者の方が小さい場合には、その逆に、Ｆ_ｐはＧに対応させ、Ｇ_ｐはＦに対応させる。

また、１つ前のフレームにおける短軸と楕円との交点をＨ_ｐとし、現フレームの短軸と楕円との２つの交点をＨ、Ｈ’とする。Ｈ_ｐと対応付ける点としてＨとＨ’のどちらを選択するかは２つの距離、
Ｅ（Ｈ_ｐ−（Ｇ_ｐ＋Ｆ_ｐ）／２，Ｈ−（Ｆ＋Ｇ）／２）と
Ｅ（Ｈ_ｐ−（Ｇ_ｐ＋Ｆ_ｐ）／２，Ｈ’−（Ｆ＋Ｇ）／２）とを算出することにより決定する。

前者が小さい場合にはＨを選択し、そうでない場合にはＨ’を選択する。なお、はじめのフレームにおける短軸と楕円との交点Ｈは２つのうちのどちらを選択してもよい。

このように楕円から代表点を抽出する処理は図形代表点抽出部１０３において行われる。

以上の処理によって取り出された代表点は、映像中の注目物体の移動や撮影カメラの移動により、連続するフレームにおいて位置が異なるのが普通である。そこで、対応する楕円の代表点を時系列に並べ、Ｘ座標、Ｙ座標ごとにスプライン関数により近似を行う。本実施形態では、楕円の代表点であるＦ、Ｇ、Ｈの３点（図４参照）それぞれについてＸ、Ｙ座標のスプライン関数が必要になるので、合計６つのスプライン関数が生成される。

以上のスプライン関数による曲線近似は代表点曲線近似部１０４において行われる。

なお、代表点曲線近似部１０４による処理は、当該物体の領域に関する各フレームの代表点の座標値が得られる毎に行う方法（例えば各フレームの代表点の座標値が得られる毎に近似を行うとともに近似誤差を求め、近似誤差が一定の範囲に収まるように近似区間を適宜分割する方法）や、当該物体の領域に関する全てのフレームの代表点の座標値が得られた後に行う方法などがある。

図２の（ｃ）の２０４は近似されたスプライン関数を３次元的に表現したものである。図２の（ｄ）の２０５は代表点曲線近似部１０４の出力であるスプライン関数の一例である（１つの代表点の１つの座標軸についてのみ示している）。この例は、近似区間がｔ＝０〜５とｔ＝５〜１６の２つに分割された場合（節点が３つとなった場合）を示している。

このようにして得られたスプライン関数は予め定めておいたデータ形式に従って領域データ記憶部１０６に記録される。

以上のように本実施形態では、映像中の物体の領域を、その近似図形の代表点の時系列的な軌跡（フレーム番号あるいはタイムスタンプを変数とする代表点の座標の軌跡）を近似した曲線のパラメータとして記述することができる。

本実施形態によれば、映像中の物体の領域を関数のパラメータのみによって表現できるため、データ量が少なく、ハンドリングの容易な物体領域データを生成することができる。また、近似図形からの代表点の抽出や、近似曲線のパラメータの生成も容易に行うことができる。また、近似曲線のパラメータから近似図形を生成することも容易に行うことができる。

また、この近似図形として基本的な図形、例えば一つまたは複数の楕円を用い、例えば楕円を二つの焦点と他の１点により代表させれば、ユーザにより指定された任意の座標が物体の領域（近似図形）内か否か（物体の領域を指示しているか否か）を簡単な判定式により判定することができる。さらに、これによって、ユーザによる映像中の動く物体の指示をより容易にすることができる。

以下では、領域データ記憶部１０６に格納される物体領域データのデータ形式について説明する。なお、ここでは、代表点をスプライン関数により近似する場合を例にとって説明するが、もちろん、代表点を他の関数により近似する場合も同様である。

図５に、映像中の物体の領域を表すスプライン関数と、物体に関連付けられた関連情報とを記録するための物体領域データのデータ形式の一例を示す。

ＩＤ番号４００は、物体ごとに付与される識別番号である。なお、このデータは省略されてもよい。

先頭フレーム番号４０１と最終フレーム番号４０２は、当該ＩＤ番号の物体の存在を定義する最初と最後のフレーム番号であり、具体的には、映像中で物体が登場し消えるまでのフレーム番号である。ただし、現実に映像中で物体が登場し消えるまでのフレーム番号ではなく、例えば映像中で物体が登場したときより後の任意のフレーム番号を先頭フレーム番号としてもよいし、また先頭フレーム番号以降でかつ映像中で物体が消えたときより前の任意のフレーム番号を最終フレーム番号としてもよい。なお、先頭／最終フレーム番号は先頭／最終タイムスタンプで代用することもできる。また、最終フレーム番号４０２は、物体存在フレーム数または物体存在時間に置き換えてもよい。

関連情報４０３は、本実施形態では必須ではないが、当該ＩＤ番号の物体に関連付けられた情報である。ただし、関連情報は他に記憶しておいて、関連情報フィールドの代わりに関連情報へのポインタフィールドを記述してもよい。関連情報ポインタは、当該ＩＤ番号の物体に関連付けられた関連情報データの記録してあるデータ領域のアドレスなどである。関連情報へのポインタを使うと、物体に関する関連情報を検索したり表示したりすることが容易にできる。また、関連情報へのポインタはプログラムや計算機の動作を記述したデータへのポインタであってもよい。この場合には、当該物体がユーザにより指定されると、計算機が所望の動作を行うことになる。

また、物体領域データ内に関連情報へのポインタと関連情報そのものを任意に記述可能としてもよい。この場合には、物体領域データ内に記述されているのが関連情報へのポインタか関連情報そのものかを示すフラグを付加すればよい。

近似図形数４０４は、物体の領域を近似している図形の数である。図２の（ａ）の例においては、一つの楕円で物体領域を近似しているので、図形の数は１となる。

近似図形データ４０５は、近似図形を表現するための図形代表点の軌跡データ（例えばスプライン関数のパラメータ等）である。

なお、近似図形データ４０５は、近似図形数４０４に相当する数だけ存在する（近似図形数４０４が２以上の場合については後述する）。

また、物体領域データにおいて、近似図形数４０４は常に１つとし（従って近似図形データ４０５も常に１つとなる）、近似図形数４０４のフィールドを省くようにしてもよい。

物体領域データに付加される関連情報４０３は、１または複数の、当該物体に関連する情報を書き込むためのフィールドである。

なお、関連情報４０３には、必要に応じて当該物体の関連情報を取得するためのポインタ情報を書き込むようにしてもよい。ポインタ情報を使うことにより、物体に関する関連情報を検索したり表示したりすることが容易にできる。

次に、図６に、図５の物体領域データ内の近似図形データ４０５のデータ構造の一例を示す。

図形種ＩＤ１３００は、近似図形としてどのような図形を用いているかを示すためのデータであり、円、楕円、矩形、多角形などを特定する。

代表点数１３０１は、図形種ＩＤで特定される図形を代表する点の数を幾つ必要とするかを表す。

１組の代表点軌跡データ１３０２，１３０３は、図形の代表点の軌跡を表現するスプライン関数に関するデータ領域である。一つの図形代表点につき、Ｘ座標、Ｙ座標のスプライン関数データが必要になる。従って、スプライン関数を特定する代表点軌跡データは、代表点数（Ｍ）×２だけ存在する。

なお、使用する近似図形の種類を予め１種類、例えば楕円、に限定することも可能である。この場合には、図６の図形種ＩＤのフィールドを省くことも可能である。

また、図形種ＩＤによって代表点数が一意に特定される場合には、代表点数を省くことも可能である。

次に、図７に、図６の近似図形データ内の代表点軌跡データ１３０２，１３０３のデータ構造の一例を示す。

節点フレーム番号１４００は、スプライン関数の節点を表しており、この節点まで多項式のデータ１４０３が有効であることを示している。多項式の係数データの数は、スプライン関数の最高次数により変化する（最高次数をＫとすると、係数データの数はＫ＋１となる）。そのため、多項式次数１４０１を参照する。多項式次数１４０１の後には、多項式次数＋１個に相当する数の多項式係数１４０２が続く。

また、スプライン関数は節点間で別の多項式で表現されるため、節点の数に対応した数の多項式が必要になる。従って、節点フレーム番号、多項式の係数などを含むデータ１４０３は、複数繰り返し記述される。節点フレーム番号が最終フレームと等しくなった場合には、それが最後の多項式係数データであることを意味しているので、代表点軌跡データが終わることがわかる。

図８は図４、図５、図６の階層関係を示すものである。

次に、近似図形として楕円以外の図形を用いた場合について説明する。

図９は、近似図形として平行四辺形を用いた場合の代表点を説明するための図である。点Ａ，Ｂ，Ｃ，Ｄが平行四辺形の頂点である。これらのうち３点が決まれば残りの１点も一意に決まるため、代表点としては４頂点のうちの３頂点とすれば十分である。この例では、Ａ，Ｂ，Ｃの３点を代表点としている。

また、図１０は、近似図形として多角形を用いた場合の代表点を説明するための図である。多角形の場合には、頂点の順序を外周に沿った順にしておく。図１０の例では、１０個の頂点を持つ多角形なので、Ｎ１〜Ｎ１０までの全ての頂点を代表点とする。なお、この場合に、内角が１８０度未満の頂点のみを代表点とするなどして、頂点数を削減するようにしてもよい。

ところで、前述したように、これまで説明してきた処理は、計算機上でソフトウェアにより行うこともできる。図１１は本実施形態の情報処理装置の処理の流れの一例を表したフローチャートであり、本実施形態の情報処理装置をソフトウェアにより実現する場合には例えば図１１のフローチャートに従ったプログラムを作成すればよい。

ステップＳ１１では、映像データから１フレーム分の映像を取り出す。

ステップＳ１２では、映像中の特定の物体の領域を抽出する。抽出手法は領域抽出部１０１と同様の手法を用いることができる。

ステップＳ１３では、ステップＳ１２の処理結果である領域情報に対して、近似図形による当てはめを行う。これも領域の図形近似部１０２と同様の手法を用いることができる。

ステップＳ１４では、ステップＳ１３で近似された図形の代表点を抽出する。

ステップＳ１５では、連続するフレームにおける近似図形の代表点列の位置の曲線近似を行う。

ステップＳ１６は分岐処理で、今処理した画像が最後のフレームか、または処理したフレームにおいて抽出対象の物体が画像中から消失してしまった（もしくは消失したとみなす）か否かを判定する。イエスの場合にはステップＳ１７を、ノーの（いずれでもない）場合にはステップＳ１１の処理へと分岐する。

ステップＳ１７では、ステップＳ１５で計算された近似曲線を所定のフォーマットに従って物体領域データとして記録媒体に記録する。

さて、これまでは一つの物体に対して一つの図形を割り当てて、物体の領域を大まかに表す例を中心に説明をしてきたが、一つの物体の領域を複数の図形により近似し、近似精度を向上させることも可能である。図１２は、一つの物体を複数の図形で近似した例である。この例では画像中の人の領域を６００から６０５までの６つの楕円により表している。

一つの物体を図１２のように複数の図形で表す場合には、物体を複数の領域に分割する処理が必要となる。この処理にはどのような方法が用いられていても良いが、例えば人手で直接入力する方法がある。この場合、例えば、マウス等のポインティングデバイスを用いて、画像上で領域を矩形や楕円で囲む、あるいはポインティングデバイスの軌跡により領域を指定する、などの操作で実現することができる。また、人手ではなく自動で行う場合には、例えば、物体の動きのクラスタリングで実現する方法がある。これは、連続するフレーム間で物体中の各領域がどのような動きをしたかを相関法（例えば画像解析ハンドブック、第ＩＩ部第３章、東京大学出版会、１９９１を参照）や勾配法（例えば、Ｄｅｔｅｒｍｉｎｉｎｇｏｐｔｉｃａｌｆｌｏｗ，Ｂ．Ｋ．Ｐ．ＨｏｒｎａｎｄＢ．Ｇ．Ｓｃｈｕｎｃｋ，ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，Ｖｏｌ．１７，ｐｐ．１８５−２０３，１９８１を参照）などにより求め、これらの動きの似ているものだけをまとめて領域を形成する方法である。

このようにして分割された各領域６００、６０１、６０２、６０３、６０４、６０５に対しては、それぞれについて図１の構成例や図１１の手順例により説明される処理を施すことにより、近似図形データを生成することが可能である。この場合、一つの物体の物体領域データに記述すべきスプライン関数が近似図形の増加に応じて増えることになるため、物体領域データは図１３で表されるように近似図形データ４０５を、近似図形数４０４に相当する数（この場合、複数）だけ含むデータ構造となる。

なお、前述したように物体領域データにおいて近似図形数を常に１つとし（従って近似図形データも常に１つとなる）、近似図形数のフィールドを省くようにする場合において、一つの物体を複数の図形で表すためには、一つの物体を近似する各図形ごとに、物体領域データを生成すればよい（それらは同じＩＤ番号を有することになる）。すなわち、図１３の近似図形データ（１）〜近似図形データ（Ｌ）４０５を分割領域（例えば、６０５）の部分データ（１）〜部分データ（Ｌ）に置き換えればよい。

なお、本実施形態では、一つの物体を複数の図形で表す場合に、同一の図形を用いるものとしているが、複数種類の図形を混在して使用可能としてもよい。

さて、図２の（ａ）、（ｂ）、（ｃ）、（ｄ）の例では、楕円による近似方法を一例として説明を行ったが、以下では、近似方法の他の例として、矩形による近似方法について説明する。

図１４の（ａ）、（ｂ）、（ｃ）は、図２の（ａ）、（ｂ）、（ｃ）、（ｄ）と同じ形式の図であるが、ここでは、領域図形近似部１０２として領域の矩形による近似方法を用い、図形代表抽出部１０３として矩形の４つの頂点を抽出する方法を用い、代表点曲線近似部１０４としてスプライン関数による近似方法を用いた場合を例としている。

図１４の（ａ）において、２８００は処理対象となっている映像中の１フレームを示している。

２８０１は抽出対象となっている物体の領域を示している。この物体の領域２８０１を抽出する処理は領域抽出部１０１において行われる。

２８０２は物体の領域を矩形で近似したものである。物体領域２８０１から矩形２８０２を求める処理は領域図形近似部１０２において行われる。

ここで、例えば図１４の（ａ）において矩形２８０２を求める場合の処理手順の一例を図１５に示す。すなわち、フレーム２８００のマスク画像を例えばラスタースキャンし（ステップＳ６０）、対象画素が物体領域内であるときに（ステップＳ６１）、Ｘ座標とＹ座標のそれぞれについて、それまで保存されている最小値より小さい場合には最小値を更新し、それまで保存されている最大値より大きい場合には最大値を更新する（ステップＳ６２）ことを、全ての画素について繰り返しチェックすることによって、Ｘ座標とＹ座標のそれぞれについて物体領域を示す画素位置の最小値および最大値を求めれば、図１４の（ｂ）に示すように矩形２８０２の４つの頂点座標２８０３を得ることができる。

図１４の（ｃ）は図２の（ｃ）と同様に代表点としての４つの頂点座標を時系列的に配列した状態を示す図であり、２８０４は近似された関数（例えばスプライン関数）を３次元的に表現したものである。

このような方法は処理が簡易な点で優れているが、例えば図１６のように細長い物体３００１が画面３０００に対して斜めの姿勢で存在しているときには、近似矩形３００２内には非物体領域が特に多く含まれてしまう。また、細長い物体物体が回転すると矩形２８０２の大きさ、形状が変化する。これらは、物体指定する際の弊害となる場合がある。

そこで、矩形の大きさができるだけ小さくなり（近似矩形内の非物体領域ができるだけ少なくなり）、対象物体の姿勢も反映させることのできる近似方法の一例を示す。

図１７の（ａ）において、３１００は処理対象となっている映像中の１フレームを示している。

３１０１は抽出対象となっている物体の領域を示している。この物体の領域３１０１を抽出する処理は領域抽出部１０１において行われる。

３１０２は物体の領域を矩形で近似したものである。この近似矩形は図１４の（ａ）の矩形２８０２とは異なり、傾きを持っている。矩形内の非物体領域も少なく、対象が回転してもその形状は一定である。物体領域３１０１から矩形３１０２を求める処理は領域図形近似部１０２において行われる。

図１８に、この場合の処理手順の一例を示す。この処理手順例は、対象物体領域の慣性主軸を求め、これに基づいて近似図形を求めるようにしたものである。

図１７の（ｂ）において、３１０３は、対象物体領域の重心を示している。

３１０４は、対象物体領域の慣性主軸を示している。３１０５は、３１０４に垂直な直線である。

マスク画像をｆ(ｘ，ｙ)とすると、ｆ(ｘ，ｙ)は領域内では１で、領域外では０である。対象領域の慣性モーメントは、
ｍ_ij＝ΣΣｘⁱｙ^jｆ(ｘ，ｙ)
で表せる。

まず、対象物体領域の慣性モーメントｍ₂₀、ｍ₀₂、ｍ₁₁を求める（ステップＳ７０〜Ｓ７２）。

ここで、原点（ここでは、重心）を通る直線ｙ＝ｘ tanθについてのｆ(ｘ，ｙ)の慣性モーメントは、
ｍ_θ＝∬(ｘ sinθ−ｙ cosθ)²ｆ(ｘ，ｙ)dxdy
で得られる。

θを変化させたときにｍ_θを最小にする角度をθ₀とする。一通りの角度しかないとき、直線ｙ＝ｘ tanθ₀を慣性主軸と呼ぶ。

tanθ₀は、２次方程式、
ｔａｎ²θ＋｛（ｍ₂₀−ｍ₀₂）／ｍ₁₁｝ｔａｎθ−１＝０
の解として求まる。

これにより重心３１０３の周りでtanθ₀を求めると、対象物体の慣性主軸が得られる（ステップＳ７３）。

次に、慣性主軸に平行で物体領域に外接する直線と、慣性主軸に垂直で物体領域に外接する直線を求める（ステップＳ７４）。

図１７の（ｂ）において、直線３１０６，３１０７は、慣性主軸３１０４に平行な直線であり、対象物体領域に外接する。

直線３１０８，３１０９は、直線３１０５に平行な直線であり、対象物体領域に外接する。

矩形３１０２は、直線３１０６，３１０７，３１０８，３１０９によって形成される（ステップＳ７５）。

なお、対象物体が円の場合には慣性主軸が求まらないが、このような場合には例えば図１５で説明した手順で近似矩形を求めればよい。

ところで、矩形より楕円で物体領域を表現する方が適当な場合もある。図１９に、物体の領域が矩形で表される場合に、その矩形から近似楕円を求める方法の一例を示す。図２０に、この場合の処理手順の一例を示す。

図１９において、対象物体領域３３００と外接矩形３３０１が得られているものとする。

まず、近似矩形の内接楕円および外接楕円を求める（ステップＳ８０）。

図１９において、楕円３３０２は矩形３３０１の内接楕円であり、楕円３３０３は矩形３３０１の外接楕円である。

次に、内接楕円３３０２の大きさを少しずつ外接楕円３３０３に近づけていき（ステップＳ８１）、物体領域を全て包含する楕円３３０４を求め（ステップＳ８２）、近似楕円とする。なお、繰り返し処理において、一回に内接楕円３３０２の大きさを拡大する単位は、予め定めておいてもよいし、内接楕円３３０２の大きさと外接楕円３３０３の大きさの差分に応じて決定してもよい。

また、上記とは逆に、外接楕円３３０３の大きさを内接楕円３３０２に近づけていってもよい。この場合には、外接楕円３３０３は最初から物体領域を全て包含しているので、例えば、繰り返し処理において、始めて物体領域に包含されない部分を生じた楕円の、一回前における楕円を、近似楕円とすればよい。

次に、図形代表点抽出部１０３では、近似矩形や近似楕円の代表点を求める。矩形の代表点は４つもしくは３つの頂点を代表点とすることができ、楕円の場合は楕円の外接矩形の頂点としたり、２つの焦点と楕円上の一点としたりすることができる。

次に、代表点曲線近似部１０４では、時系列的に得られている代表点の軌跡をスプライン関数などで近似する。このとき、時系列同士の対応付けが重要である。例えば、近似図形が矩形で代表点を頂点とする場合には、隣接するフレーム間で頂点同士の対応付けを行う必要がある。

図２１に、対応付け方法の一例を示す。また、図２２に、対応付け処理の手順の一例を示す。

図２１において、３５００は近似矩形の重心である。前のフレームにおける矩形３５０１と現在のフレームにおける矩形３５０２が得られている。矩形３５０１と３５０２のいずれかを平行移動させ、重心位置を一致させる（重心位置を一致させた状態が図２１である）。次に、それぞれの矩形の頂点同士の距離ｄ１〜ｄ４を計算し、全ての頂点の組み合わせで距離の和を求める（ステップＳ９０，Ｓ９１）。距離の和が最小となる組み合わせを求め、対応付けする（ステップＳ９２）。

近似図形から代表点を得る際に、一定の規則で代表点を取得しておくと、組み合わせの数を削減することが可能である。例えば、矩形では時計周りに頂点座標を代表点として保存するようにすると、対応付けの組み合わせは４通りで済む。

なお、この方法では対応付けが難しい場合がある。例えば、近似矩形が隣接フレームにおいて正方形に近い形状であり且つ４５度回転移動している場合には、対応付けが難しい（２通りの組み合わせにおいて距離の和が同じような値になる）。そこで、このような場合には、例えば、近似矩形内の物体領域同士の排他的論理和を取り、その面積が最小となる組み合わせを採用する方法、あるいは物体領域のテクスチャの絶対差分を求め、差分値が最小となる組み合わせを求める方法などを用いればよい。

続いて、以下では、本発明を適用して物体領域の軌跡を近似して物体領域データ中に記述する際に、図６、図７で例示した近似データ構造とは別の近似データ構造を用いる例について説明する。

図２３は、近似図形データおよび物体領域の代表点軌跡データの記述フォーマット（が異なる物体領域データ）の他の例である。なお、図２３では、代表点軌跡データの部分（節点数（Ｎ）３９０２〜関数特定情報Ｙ配列３９１８までの部分）については、１つの代表点についてのみ示してある（実際には、代表点の個数に対応して記述される）。

ここでは、多項式の最高次数を２次として説明する。

前述した例（図６、図７）では、多項式スプライン関数の全ての係数を記述していたのに対して、ここでの記述方法では、スプライン関数の節点の座標と、スプライン関数の係数に関連する値との組み合わせにより記述する。この記述方法の利点は、節点が容易に取り出せるため、大まかな物体の軌跡が簡単にわかるという点である。

以下、この記述方法について詳細に説明する。

図２３中、図形種ＩＤ３９００は、物体の形の近似に用いた図形の種類を特定する。例えば、物体の重心（ＣＥＮＴＲＯＩＤ）、矩形（ＲＥＣＴＡＮＧＬＥ）、楕円（ＥＬＬＩＰＳＥ）や、それらの組み合わせを指定できる。図２４は、図形の種類と図形種ＩＤの割り当て例である。また、代表点数３９０１は、図形の種類によって定まる代表点軌跡の数を表す。

節点数（Ｎ）３９０２は、代表点軌跡を表すスプライン関数の節点の数を表す。各節点に対応するフレームは、時間として表され、節点時刻（１）〜節点時刻（Ｎ）３９０３に格納される。節点時刻は、設定数だけあるため、節点時刻配列３９０４として記述しておく。

同様に、各節点のＸ座標、Ｙ座標もそれぞれ節点Ｘ座標３９０５および節点Ｙ座標３９０７の配列３９０６，３９０８として記述される。

一次関数フラグＸ３９０９、一次関数フラグＹ３９１４は、節点のＸ座標、Ｙ座標の軌跡を近似するスプライン関数として一次関数だけが用いられているかどうかを表す。一部分でも２以上の多項式を用いる場合には、このフラグはオフにしておく。このフラグを用いることにより、近似関数として一次関数のみに使われる場合に以下で説明する関数特定情報Ｘ３９１０、関数特定情報Ｙ３９１５を１つも記述しなくて済むため、データ量を削減できるというメリットがある。なお、必ずしもこのフラグは必要ではない。

関数特定情報３９１０、３９１５に含まれる関数ＩＤ３９１１、３９１６、関数パラメータ３９１２、３９１７はそれぞれ多項式スプライン関数の次数と、その係数を特定するための情報を表す。図２５に、それらの一例を示す。ここで、ｔａ，ｔｂは連続する節点の時刻、ｆ(ｔ)は［ｔａ，ｔｂ］の区間のスプライン関数、ｆａ，ｆｂは時刻ｔａ，ｔｂにおける節点の座標を表している。１次多項式を用いるときは節点のみの情報で十分なので、関数パラメータは記述されていないが、２次多項式の場合には係数を特定するための情報として一つの値ａ_ａが関数パラメータに記述される。なお、図２５の例では、２次の係数が用いられているが、例えば、二次曲線上のｆａ，ｆｂ以外の１点など、他の値を用いることもできる。

本記述方法では、節点の情報と関数パラメータの情報により、図２５の制約条件を用いて全ての区間におけるスプライン関数が再現できる。

関数特定情報３９１０、３９１５は、（節点数−１）に相当する個数のものが存在し、これらは配列３９１３、３９１８となって記述される。

次に、図２６を参照して図２３のデータ記述例の具体例を用いて本発明によるデータ記述の効果を説明する。

図２６は単に時刻順に代表点軌跡データを記述した例（００００）と、図２３に示すような本発明のデータ構造を用いて代表点軌跡データを記述した例（０００３）とを比較したものである。二つの例とも、複数ある代表点軌跡のうち、一つの代表点の軌跡の記述部分のみを図示している。００００では、時刻０．０（秒）から時刻１５．０（秒）までの代表点の座標値が０.１（秒）おきに記述されている。これらの座標点は、既に説明した図１における１０１、１０２，１０３による処理、もしくは図１１におけるＳ１１，Ｓ１２，Ｓ１３，Ｓ１４による処理で算出されたものである。座標値にはｘ座標（水平方向）およびｙ座標（垂直方向）の２つの成分があるため、座標値データ配列００００では２×１５１＝３０２の座標値がメモリに格納されている。それぞれの値を４バイトのデータで表現する場合には、時刻のデータも合わせると座標値データ配列００００の格納には１２０８バイトのメモリ容量を必要とする。

本発明では、これらの軌跡データ０００３は代表点の曲線近似部（図１の１０４）または代表点の時系列座標を曲線で近似するステップ（図１１のＳ１５）によりスプライン関数により近似表現される。ここで、この処理（図１１のＳ１５）の具体例を流れ図２７を用いて説明する。

ステップＳ００００は初期化処理であり、注目する区間の開始フレームのタイムスタンプtsおよび終端フレームのタイムスタンプteに初期値を代入する。ここでは、tsには先頭フレームの時刻を、teには先頭の次のフレームの時刻をセットする。ステップＳ０００１は近似関数を算出する処理であり、tsからteまでの座標値を、最小二乗法により時間tの関数f(t)（この例では２次または１次の多項式）として決定する。ステップＳ０００２では、tsからteの区間において、ステップＳ０００１で算出された関数ｆ（ｔ）により算出される座標値と実際の座標値との絶対値差分を各時刻ごとに求め、その最大値を変数eにセットする。ステップＳ０００３の選択処理では、eの値とあらかじめ決められているしきい値とを比較し、eのほうが大きければステップＳ０００４を、そうでなければステップＳ０００５を次に行う。

ステップＳ０００４では、時刻tsのフレームから時刻teのフレームの直前のフレームまでの区間に対して最小二乗法で算出された近似関数を登録し、tsに時刻teのフレームの直前のフレームにつけられているタイムスタンプをセットする。このステップＳ０００４により、例えば図２６における０００１の関数x=2.1t²-12.6t+118.9 (0≦t≦2)が登録される。0≦t≦2は関数の有効時間区間であり、近似関数が算出された際のtsからteの区間がこれに相当する。この時間区間も関数と併せて登録される。

ステップＳ０００５はteの更新処理であり、時刻teのフレームの次フレームに付与されたタイムスタンプにteの値を更新する。ステップＳ０００６は終了判定処理であり、teが処理すべき範囲を超えているかどうかを判定し、超えていなければステップＳ０００１からの処理を繰り返し、超えていればステップＳ０００７の最終処理に進む。ステップＳ０００７は最後の近似関数を登録する処理である。例えば、図２６における０００１の最後の関数x=0.2t²-4.4t+106.5 (10.5≦t≦15)はこのステップで登録された関数である。

以上の処理により近似関数の算出が終わると、所定の記述フォーマットに従ってこれらの近似関数データが記録される。図２６の０００３は図２３の記述フォーマットを用いている（図示しているのは図２３の節点時刻配列３９０４、節点Ｘ配列３９０６、節点Ｙ配列３９０８、一次関数フラグＸ３９０９、関数特定情報Ｘ配列３９１３内の関数ＩＤ３９１１、関数パラメータ３９１２、一次関数フラグＹ３９１３、関数特定情報Ｙ配列３９１８内の関数ＩＤ３９１６、関数パラメータ３９１７の一部である）。例えば、０００１の最初の関数x=2.1t²-12.6t+118.9 (0≦t≦2)は、両端の節点時刻として0.0と2.0が記録される。また、これらの時刻におけるＸ座標値である118.9と102.1が記録される。さらに、２次多項式であることを表す関数ＩＤとして２が、また、t²の係数2.1を特定するための関数パラメータとして4.2がそれぞれ記録される。関数パラメータとt²の係数との関係は図２５の通りである。この記述フォーマットでは、１次多項式の場合には多項式の有効時間区間の両端の座標値だけが記録され、２次多項式の場合には２次係数の２倍の値も併せて記録される。

データ記述０００３では、実数に４バイト、一次関数フラグに１ビット、関数ＩＤに２ビットを費やすとすると、わずか５７バイトのデータ容量しか必要としない。これは先に計算したデータ記述００００に必要となるデータ容量１２０８バイトよりもかなり少ない値である。

本発明により、このようなデータ容量の削減が可能である理由は、自然界の物体の動きは通常滑らかであるという特徴を利用しているからである。すなわち、物体内の特徴点の位置データ列は少々の誤差を許容することにより多項式でまとめて表現することが可能であり、この多項式を特定するパラメータだけを記録することで全ての座標値を記録するよりも大幅にメモリ容量を節約できる。

なお、物体領域データ全体としては図２６の０００３に記述されている以外に、図２３にある図形種ＩＤ、代表点数、節点数、他の代表点軌跡を表す関数データなどが必要である。

次に、図５に示すように映像中の物体の領域データに物体の関連情報（あるいは関連情報へのポインタ）が併記的に記録されている場合に、表示画面上で物体を指示することによりその物体の関連情報を表示させる方法について説明を行う。図２８は関連情報表示処理を計算機上でソフトウェアにより実現させる際の処理の流れを表す流れ図である。ただし図２８では、映像の再生中に表示されている映像内をマウスカーソル等のポインティングデバイスを用いて指示された際の処理について説明している。

ステップＳ７０００では、ポインティングデバイスにより指示された画面上の座標が、映像中の画像のどこに相当するかを計算する。これは、ポインティングされた座標と表示されている画像の位置座標とから簡単に算出できる。さらに、指示された瞬間に再生を行っていた映像のタイムスタンプを取得する。

ステップＳ７００１では記録されている物体の領域データから物体が指示されたフレーム時刻において映像中に存在している物体のみを選択する。これは、領域データにおける先頭フレーム時刻（もしくは番号）および末尾フレーム時刻（もしくは番号）を参照することにより容易に実行できる。例えば、図２６の例では、物体の存在時刻は節点時刻の始めの0.0から最後の15.0までと判断できるため、この範囲以外の時刻に指示が行われた場合には処理対象とならない。このように、本発明の記述方法によれば、記録されているデータの一部のみを参照することでその物体を処理対象とするか否かが判断できるため、処理を効率的に行うことが可能である。以下、物体が指示された時刻は1.0であり、図２６のデータ０００３が処理対象として選ばれているものとして説明を進める。

ステップＳ７００２では物体の領域データから取り出したスプライン関数データを用いて、物体が指示された際の表示フレーム時刻における近似図形の代表点の座標を算出する。例えば、図２６のデータ０００３では、Ｘ座標の算出には時刻0.0から2.0までの区間の近似関数であるx=2.1t²-12.6t+118.9にt=1.0を代入して108.4と算出される。Ｙ座標や他の代表点の座標値も同様に算出される。図形種として楕円を、その代表点として図４で説明されるように二つの焦点Ｆ、Ｇと一つの楕円上の点Ｈを用いている場合には、これらＦ，Ｇ，Ｈの座標が算出される。

ステップＳ７００３ではポインティングデバイスにより指示された座標が、物体の内部かどうかを判定する。この処理は、例えば以下のように行われる。まず、Ｅ（Ｐ，Ｑ）により点Ｐと点Ｑのユークリッド距離を表すことにする。ポインティングデバイスにより指示された座標Ｐが楕円内部である場合にはＥ（Ｆ、Ｐ）＋Ｅ（Ｇ、Ｐ）≦Ｅ（Ｆ，Ｈ）＋Ｅ（Ｇ，Ｈ）が成り立つ。楕円外部である場合には逆にＥ（Ｆ、Ｐ）＋Ｅ（Ｇ、Ｐ）＞Ｅ（Ｆ，Ｈ）＋Ｅ（Ｇ，Ｈ）となる。これらのうちのどちらの不等式が成り立つかにより、指示された点が物体内部か外部かを判定することができる。もしも物体内部であると判定された場合には、次のステップで関連情報の表示を行う。

ステップＳ７００４では、記述されているデータに含まれている関連情報へのポインタを参照し、関連情報の表示を行う。関連情報が静止画である場合には静止画を表示し、また動画像である場合には再生を開始し、ドキュメントである場合にはドキュメントの表示を行い、ホームページである場合にはブラウザを用いてホームページを表示するなど、関連情報に適した処理を行う。また、関連情報としてプログラムが指定されているような場合にはそのプログラムを実行したり、またその他スクリプトなどで処理の手順が指定されている場合にはその所定の動作を行う。

ステップＳ７００５は分岐処理であり、他の物体領域記述データのうち、指示されたフレーム時刻において存在する物体があるかどうかを判定し、存在している場合にはその物体を対象にステップＳ７００１へ処理を進め、一つも存在しない場合には処理終了となる。

なお、上記では、多項式の最高次数を２次として説明したが、もちろん、多項式の最高次数を３次以上とすることも可能である。

次に、映像データや物体領域データの提供方法について説明する。

本実施形態の処理により作成された物体領域データがユーザの用に供される場合には、作成者側からユーザ側に何らかの方法で物体領域データを提供する必要がある。この提供の方法としても以下に例示するように種々の形態が考えられる。

（１）映像データとその物体領域データとその関連情報とを１つ（または複数の）記録媒体に記録して同時に提供する形態
（２）映像データとその物体領域データとを１つ（または複数の）記録媒体に記録して同時に提供するが、関連情報は別途提供するかもしくは提供しない（後者は例えば提供しなくてもユーザがネットワーク経由等で別途取得できる場合）形態
（３）映像データを単独で提供し、別途、物体領域データと関連情報とを１つ（または複数の）記録媒体に記録して同時に提供する形態
（４）映像データ、物体領域データ、関連情報を別々に提供する形態
上記は主に記録媒体により提供する場合であるが、その他にも、一部または全部を通信媒体で提供する形態も考えられる。

また、上記において、ユーザ側で関連情報を追加する場合も考えられる。

もちろん、映像データの提供を受けたユーザ側でその物体領域データを作成する場合も考えられる。また、ユーザ側で映像データ、物体領域データ、関連情報のすべてを作成する場合も考えられる。

（第２の実施形態）
第１の実施形態では映像データから映像中の物体の領域を近似する図形の代表点を抽出し、物体領域データの生成を行ったが、第２の実施形態は、映像中の物体領域中の特徴点を抽出し、物体領域データを生成するようにしたものである。

本実施形態では、第１の実施形態と相違する点を中心に説明する。

図２９に、本実施形態に係る物体領域データ生成装置の構成例を示す。図２９に示されるように、本物体領域データ生成装置は、映像データ記憶部２３０、特徴点抽出部２３３、特徴点の曲線近似部２３４、関連情報記憶部２３５、領域データ記憶部２３６を備えている。

図２９において、映像データ記憶部２３０は第１の実施形態の映像データ記憶部１００と、関連情報記憶部２３５の第１の実施形態の関連情報記憶部１０５と、領域データ記憶部２３６は第１の実施形態の領域データ記憶部１０６とそれぞれ同じ機能を持つものである。

特徴点抽出部２３３は、映像中の物体領域から特徴的な点を１つ以上取り出す。特徴点としては、種々のものが考えられるが、例えば、物体の角（例えば、Ｇｒａｙ−ｌｅｖｅｌｃｏｒｎｅｒｄｅｔｅｃｔｉｏｎ，Ｌ．ＫｉｔｃｈｅｎａｎｄＡ．Ｒｏｓｅｎｆｅｌｄ，ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅｔｔｅｒｓ，Ｎｏ．１，ｐｐ．９５−１０２，１９８２による方法など）、物体の重心などが考えられる。

特徴点の曲線近似部（以下、特徴点曲線近似部）２３４は、基本的には第１の実施形態における代表点曲線近似部１０４と同様の機能を持つ。すなわち、特徴点抽出部２３３で抽出された特徴点の位置を時系列で曲線に近似する。この近似曲線は、Ｘ座標、Ｙ座標ごとにフレーム番号ｆもしくは映像に付与されているタイムスタンプｔの関数として表現され、直線近似やスプライン曲線による近似などで曲線に近似される。近似後のデータの記録方法は第１の実施形態と同様である。

また、本実施形態における物体領域データは基本的には第１の実施形態の物体領域データ（図５等）と同様である。ただし、近似図形数のフィールドは不要である。また、「近似図形データ」が「特徴点データ」となる。

物体領域データの中の特徴点データも基本的には第１の実施形態の近似図形データ（図６等）と同様である。ただし、「代表点数」が「特徴点数」となり、「代表点軌跡データ」が「特徴点軌跡データ」となる。また、図形種ＩＤは不要である。

特徴点データの中の特徴点軌跡データは第１の実施形態の代表点軌跡データ（図７等）と同様である。

図３０に本実施形態の物体領域データ生成装置の処理の流れの一例を表したフローチャートを示す。全体的な流れとしては第１の実施形態と同様で、ステップＳ２１では図１１のステップＳ１１と同様に１フレーム分の映像データを取り出し、図１１のステップＳ１２〜Ｓ１４の部分を注目している物体の特徴点の抽出ステップＳ２２とし、図１１のステップＳ１５の連続するフレームにおける物体領域の代表点列の位置の曲線近似を連続するフレームにおける近似図形の特徴点列の位置の曲線近似を行なうステップＳ２３とし、図１１のステップＳ１６、Ｓ１７と同様のステップＳ２４、Ｓ２５を設けたたものである。

もちろん、本実施形態もソフトウェアによっても実現可能である。

以上のように本実施形態では、映像中の物体の領域を、その特徴点の時系列的な軌跡（フレーム番号あるいはタイムスタンプを変数とする特徴点の座標の軌跡）を近似した曲線のパラメータとして記述することができる。

本実施形態によれば、映像中の物体の領域を関数のパラメータのみによって表現できるため、データ量が少なく、ハンドリングの容易な物体領域データを生成することができる。また、特徴点の抽出や、近似曲線のパラメータの生成も容易に行うことができる。

また、本実施形態によれば、ユーザにより指定された任意の座標が物体の領域を指示しているか否かを極めて簡単に判定することができる。さらに、これによって、ユーザによる映像中の動く物体の指示をより容易にすることができる。

ところで、第１の実施形態の物体の領域の近似図形の代表点をもとにした物体領域データと、第２の実施形態の物体の領域の特徴点をもとにした物体領域データとを混在して使用可能とすることもできる。

この場合には、例えば、物体領域データのフォーマットとしては第１の実施形態のものに、物体の領域の近似図形の代表点をもとにしたものかあるいは物体の領域の特徴点をもとにしたものかを識別するフラグを設ければよい。あるいは、第１の実施形態の物体領域データのフォーマットにおいて、該フラグを設けるのではなく、例えば、図形種ＩＤが特定の値のときに、物体の領域の特徴点をもとにしたものであることを示すものとし、それ以外のときに、物体の領域の近似図形の代表点をもとにしたものであることを示すものとしてもよい。

さて、これまでは、物体領域データの生成について説明してきたが、以下では、このようにして生成された物体領域データに付加する関連情報と、その関連情報に基づいて行う処理について説明する。

（第３の実施形態）
関連情報に基づいて行う処理としては、種々のものが考えられるが、本実施形態では、映像コンテンツ内の物体に関連情報として利用制御情報を付与し、該制御情報に基づいてコンテンツ利用制御を行う場合を例にとって説明する。

図３１に、物体領域データに付加する関連情報（利用制御情報）３０１の一例を示す。

この制御情報は例えば商用コンテンツやハイパーリンク・コンテンツなどの物体領域の映像データの利用を管理するためのものであり、このように物体領域に関する知的所有権に関係する情報が関連情報となりうる。

物体領域名３０２は、物体の名前を示すデータである。物体が映画などに登場する人物である場合は、役名や俳優の名前を特定する。

著作権情報３０３は、物体の著作権者などの著作権に関わる情報を示すデータである。例えば、一つの映像コンテンツ中に複数の著作権者による物体が含まれる場合に、個々のオブジェクトに対して、著作権情報を記述する。

コピー許可情報３０４は、物体を近似する図形に含まれる範囲の映像情報を切り出して、再利用することを許可するか否かを示すデータである。

フットマーク３０５は、物体が編集された日時や閲覧された日時などを示すデータである。アニメーションや複数のストリームから物体を切り出して、貼り付けた合成映像など、一つの映像に含まれる物体の編集された日時が異なる場合にこれを識別するために用いられる。

関連情報のＵＲＬ３０６は、ハイパーリンク等を用いて、物体の関連情報を表示するときに参照すべきデータをＵＲＬによって表現した関連情報へのポインタである。

アクセス制限情報３０７は、物体ごとに視聴やハイパーリンクによるジャンプの許可／不許可の情報や許可条件を設定するためのデータである。この情報に基づいて、例えば、物体ごとに有料／無料を設定したり、視聴を許可する年齢を制限する。また、有料コンテンツのプレビュー時に物体領域を隠蔽して表示してもよい。

課金情報３０８は、物体ごとの課金情報を示すデータである。例えば、著作権者が異なる物体が混在する場合に、各物体が存在した時間に応じて課金し、著作権者に所定の代金を支払うために用いる。

注釈データ３０９は、物体の関連情報や操作の手助けとなるデータである。例えば、ポインタにより物体を指し示したときにその物体の関連情報をポップアップなどにより表示したり、その物体を選択することによって、より詳細な関連情報を表示できることを視聴者に通知するために用いられる。

なお、関連情報として上記項目の全てを用いてもよいし、その一部を用いてもよい。もちろん、上記項目の全部または一部に他の関連情報を併用してもよい。

なお、上記項目は映像コンテンツの提供側において物体領域データに付加する（関連付ける）ものとする（もちろん、ユーザ側で付加あるいは追加するようにしてもよい）。また、該付加あるいは関連付けは、マニュアル操作で行なってもよいし、自動的に行なってもよい。

以下、物体が指定された際の各関連情報の機能を説明する。

物体領域名
図３２を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の物体領域名を表示するフローについて説明する。

ステップＳ３２１では、物体領域名を表示したい物体をマウスなどで指定する。

ステップＳ３２２では、物体領域名表示を行う物体を含む現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在する物体領域データを探索すればよい。

ステップＳ３２３では、ステップＳ３２２で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合（ステップＳ３２２の探索の結果、該当する物体領域データがなかった場合を含む）、処理を終了する。

該当する物体領域データが存在する場合は、ステップＳ３２４に進み，該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。

ステップＳ３２５では、ステップＳ３２４で算出した物体領域内にステップＳ３２１で入力された点が含まれるかを判定する。含まれない場合はステップＳ３２３に戻り、次の物体領域データの処理を行う。

物体領域内にステップＳ３２１で入力された点が含まれる場合は、ステップＳ３２６に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、物体領域名が含まれるかを調べる。物体領域名が存在する場合は、ステップＳ３２７に進み物体領域名を表示する。存在しない場合、また、表示を行った後はステップＳ３２３に戻り、次の物体領域データの処理を行う。

なお、物体領域の算出及び入力された点が物体領域内に含まれるか否かの判定、及び物体領域名の表示は図２８で説明したステップに従って行なってもよい。

著作権情報
図３３を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の著作権情報を表示するフローについて説明する。

ステップＳ３３1では、著作権情報を表示したい物体をマウスなどで指定する。

ステップＳ３３２では、著作権表示を行う物体を含む現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在する物体領域データを探索すればよい。

ステップＳ３３３では、ステップＳ３３２で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合（ステップＳ３３２の探索の結果、該当する物体領域データがなかった場合を含む）、処理を終了する。

該当する物体領域データが存在する場合は、ステップＳ３３４に進み，該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。

ステップＳ３３５では、ステップＳ４で算出した物体領域内にステップＳ３３１で入力された点が含まれるかを判定する。含まれない場合はステップＳ３３３に戻り、次の物体領域データの処理を行う。

物体領域内にステップＳ３３１で入力された点が含まれる場合は、ステップＳ３３６に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、著作権情報が含まれるかを調べる。著作権情報が存在する場合は、ステップＳ３３７に進み著作権を表示する。存在しない場合、また、表示を行った後はステップＳ３３３に戻り、次の物体領域データの処理を行う。

なお、物体領域の算出及び入力された点が物体領域内に含まれるか否かの判定、及び著作権の表示は図２８で説明したステップに従って行なってもよい。

コピー許可判定
図３４を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、物体のコピーを許可・不許可を判定するフローについて説明する。

ステップＳ３４1では、コピー許可判定を行う物体を含む現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在する物体領域データを探索すればよい。

ステップＳ３４２では、ステップＳ３４１で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合（ステップＳ３４１の探索の結果、該当する物体領域データがなかった場合を含む）、処理を終了する。

該当する物体領域データが存在する場合は、ステップＳ３４３に進み，該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。

ステップＳ３４４では、ステップＳ３４３で算出した物体領域がコピーを行おうとしている注目領域内に含まれるかを判定する。含まれない場合はステップＳ３４２に戻り、次の物体領域データの処理を行う。

なお、物体領域の算出及び物体領域が注目領域に含まれるか否かの判定は図２８で説明したステップに従って行なってもよい。

物体領域が注目領域内に含まれる場合は、ステップＳ３４５に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、コピー許可情報が含まれるかを調べる。コピー許可情報が存在する場合は、ステップＳ３４６に進みコピー許可情報に基づいて判定を行った後、ステップＳ３４２に戻る。存在しない場合はステップＳ２に戻り、次の物体領域データの処理を行う。

フットマーク
図３５を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体のフットマークを表示するフローについて説明する。

ステップＳ３５1では、フットマークを表示したい物体をマウスなどで指定する。

ステップＳ３５２では、フットマーク表示を行う物体を含んだ現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在するかを調べればよい。

ステップＳ３５３では、ステップＳ３５２で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合（ステップＳ３５２の探索の結果、該当する物体領域データがなかった場合を含む）、処理を終了する。

該当する物体領域データが存在する場合は、ステップＳ３５４に進み，該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。

ステップＳ３５５では、ステップＳ３５４で算出した物体領域内にステップＳ３５１で入力された点が含まれるかを判定する。含まれない場合はステップＳ３５３に戻り、次の物体領域データの処理を行う。

物体領域内にステップＳ３５１で入力された点が含まれる場合は、ステップＳ３５６に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、フットマークが含まれるかを調べる。フットマークが存在する場合は、ステップＳ３５７に進みフットマークを表示する。存在しない場合、また、表示を行った後はステップＳ３５３に戻り、次の物体領域データの処理を行う。

なお、物体領域の算出及び入力された点が物体領域内に含まれるか否かの判定、及びフットマークの表示は図２８で説明したステップに従って行なってもよい。

関連情報ＵＲＬ
図３６を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の関連情報ＵＲＬで示される関連データを表示するフローについて説明する。

ステップＳ３６1では、関連データを表示したい物体をマウスなどで指定する。

ステップＳ３６２では、関連データ表示を行う物体を含んだ現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在するかを調べればよい。

ステップＳ３６３では、ステップＳ３６２で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合（ステップＳ３６２の探索の結果、該当する物体領域データがなかった場合を含む）、処理を終了する。

該当する物体領域データが存在する場合は、ステップＳ３６４に進み，該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。

ステップＳ３６５では、ステップＳ３６４で算出した物体領域内にステップＳ３６１で入力された点が含まれるかを判定する。含まれない場合はステップＳ３６３に戻り、次の物体領域データの処理を行う。

物体領域内にステップＳ３６１で入力された点が含まれる場合は、ステップＳ３６６に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、関連情報ＵＲＬが含まれるかを調べる。関連情報ＵＲＬが存在する場合は、ステップＳ３６７に進みブラウザなどと用いて、関連情報ＵＲＬによって示される関連データを表示する。存在しない場合、また、表示を行った後はステップＳ３６３に戻り、次の物体領域データの処理を行う。

なお、物体領域の算出及び入力された点が物体領域内に含まれるか否かの判定、及びＵＲＬによって示される関連情報の表示は図２８で説明したステップに従って行なってもよい。

アクセス制限判定
図３７を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、物体のアクセスを許可・不許可を判定するフローについて説明する。ここでいう、アクセスとは物体や関連データの表示や編集のことである。

ステップＳ３７1では、アクセス許可判定を行う物体を含む現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在する物体領域データを探索すればよい。

ステップＳ３７２では、ステップＳ３７１で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合（ステップＳ３７１の探索の結果、該当する物体領域データがなかった場合を含む）、処理を終了する。

該当する物体領域データが存在する場合は、ステップＳ３７３に進み，該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。

ステップＳ３７４では、ステップＳ３７３で算出した物体領域が表示や編集を行おうとしている注目領域内に含まれるかを判定する。注目領域はユーザによって選択された画面の一部であってもよいし、画面全体であってもよい。含まれない場合はステップＳ３７２に戻り、次の物体領域データの処理を行う。

なお、物体領域の算出及び物体領域が注目領域内に含まれるか否かの判定は図２８で説明したステップに従って行なってもよい。

物体領域が注目領域内に含まれる場合は、ステップＳ３７５に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、アクセス許可情報が含まれるかを調べる。アクセス許可情報が存在する場合は、ステップＳ３７６に進み、予め入力されているユーザ情報とアクセス許可情報を比較して判定を行った後、ステップＳ３７２に戻る。存在しない場合はステップＳ３７２に戻り、次の物体領域データの処理を行う。

課金
図３８を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、課金を行うフローについて説明する。

ステップＳ３８1では、現フレームに対応した物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在する物体領域データを探索すればよい。

ステップＳ３８２では、ステップＳ１で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合（ステップＳ３８１の探索の結果、該当する物体領域データがなかった場合を含む）、処理を終了する。

該当する物体領域データが存在する場合は、ステップＳ３８３に進み，該当する物体領域データの対応データ領域に格納されている関連情報に、課金情報が含まれるかを調べる。含まれない場合はステップＳ３８２に戻り、次の物体領域データの処理を行う。

課金情報が含まれる場合はステップＳ３８４に進み、該当物体領域が既に課金情報に基づく課金をされているかを判定する。課金をされていない場合はステップＳ３８５に進み、該当物体に対する課金処理を行った後、ステップＳ３８２に戻る。既に課金されている場合はステップＳ３８２に戻り、次の物体領域データの処理を行う。

注釈
図３９を用いて、記録媒体から読取った関連情報を含む物体領域データに基づいて、指定された物体の注釈を表示するフローについて説明する。

ステップＳ３９1では、注釈を表示したい物体をマウスなどで指定する。

ステップＳ３９２では、注釈表示を行う物体を含んだ現フレームの物体領域データが存在するかを探索する。そのためには、現フレームのフレーム番号が物体領域データ内の先頭フレームから最終フレームまでの間に存在するかを調べればよい。

ステップＳ３９３では、ステップＳ３９２で探索を行った結果、現フレームの物体領域データを含むと判定された該当物体領域データに、まだ、未処理のものが存在するかを判定する。未処理の物体領域データがない場合（ステップＳ３９２の探索の結果、該当する物体領域データがなかった場合を含む）、処理を終了する。

該当する物体領域データが存在する場合は、ステップＳ３９４に進み，該当する物体領域データの近似図形データより、物体領域を算出する。物体領域データに複数の物体が存在する場合はその全てを算出する。

ステップＳ３９５では、ステップＳ３９４で算出した物体領域内にステップＳ３９１で入力された点が含まれるかを判定する。含まれない場合はステップＳ３９３に戻り、次の物体領域データの処理を行う。

物体領域内にステップＳ３９１で入力された点が含まれる場合は、ステップＳ３９６に進み、該当する物体領域データの対応データ領域に格納されている関連情報に、注釈が含まれるかを調べる。注釈が存在する場合は、ステップＳ３９７に進み注釈を表示する。存在しない場合、また、表示を行った後はステップＳ３９３に戻り、次の物体領域データの処理を行う。

なお、物体領域の算出及び入力された点が物体領域内に含まれるか否かの判定、及び注釈の表示は図２８で説明したステップに従って行なってもよい。

効果
以上説明したように、図３１に示すような複数フレームに渡る物体領域データに物体領域名、著作権情報、コピー許可情報、フットマーク、関連情報ＵＲＬ、アクセス制限情報、課金情報、注釈などの関連情報を付加するにあたり、物体領域データの先頭フレームから、最終フレームの複数のフレームに渡る物体領域に対して、１つの関連情報を記述するのみでよいため、データ量を削減することができる。

次に、図４０に、本実施形態に係る、物体ごとのコンテンツ利用制御機能を有する情報処理装置の構成例を示す。図４０に示されるように、本情報処理装置は、条件判定部１００１、処理部１００２、表示部１００３を備えている。

映像データ１０００、物体領域データ１００６、関連情報１００５は、無線もしくは通信の通信媒体あるいはＤＶＤ等の記憶媒体によって提供されるものとする。なお、図４０においては、それらのデータを受信する機能あるいは蓄積する機能あるいは読み出す機能は適宜設けるものとして省略してある。

ユーザ情報１００４は、予めメモリ（図示せず）に登録されたユーザに関する情報（例えば、ユーザＩＤ、パスワード、契約情報、年齢など）、およびまたは必要に応じて例えばＧＵＩなどを介してユーザから入力された情報である。

条件判定部１００１は、関連情報として与えられた制御情報およびユーザ情報に基づいて、物体領域のデータに関わる映像データの利用の可否の判定（アクセスできるか、表示できるか、編集できるか、など）を行う。

処理部１００２は、条件判定部１００１による判定結果に従って、必要に応じて映像データを処理（例えば、アクセスが拒絶されているとき、物体領域の場所に、モザイクをかけたり塗りつぶしたりして表示を行うことにより、アクセス権のないものが映像を無断で見たり編集できなくする）した上で、これを表示部１００３あるいは記憶装置（図示せず）あるいはネットワーク（図示せず）に出力する。

表示部１００３は、映像データを液晶表示装置もしくはＣＲＴ等に表示するためのものである。

なお、必要に応じて、物体領域データに付加された関連情報による物体ごとの検索機能や、関連情報へのポインタが指示された場合に関連情報を（記録媒体やネットワークを介したサーバ等から）取得し呈示する機能や、指示された関連情報がプログラムや計算機の動作を記述したデータである場合にそれを実行する機能を設けてもよい。

以下では、物体領域データに付加した関連情報（制御情報）を用いた物体ごとのコンテンツ利用制御の幾つかの例を示す。

なお、以下では、説明を分かり易くするために、ある１つの条件にのみ着目し、他には条件がないものとして説明する（複数種類の条件判定が必要な場合には、それぞれの条件判定とその結果に応じた処理が行われる）。

まず、アクセス制限情報を用いた物体表示に関するアクセス制御の例を示す。

図４１に、この場合の処理手順の一例を示す。

映像データ中に対象物体がなければ映像を無条件で表示するが、対象物体が存在する際には、アクセスの可否を判定するために、アクセス制限情報が付された物体領域データから該当するアクセス制限情報を抽出する（ステップＳ４０１）。また、視聴者の年齢や有料コンテンツの支払などのユーザ情報を取得する（ステップＳ４０２）。なお、対象物体が存在することは、例えばフレーム番号をもとに物体領域データを参照することにより知ることができる。また、ユーザ情報の入力は、物体にアクセスするたびに入力してもよいし、予め入力されている情報を利用してもよい。

ここで、入力されたユーザ情報がアクセス制限情報により示されるアクセス許可条件を満たすか否かを判定し（ステップＳ４０３）、満たすと判断された場合には、映像を通常どおり表示する（ステップＳ４０４）。図４２の（ａ）に表示の一例を示す。図４２の（ａ）において、１６０１と１６０２が物体（オブジェクト）である。

一方、ステップＳ４０３において、ユーザ情報がアクセス許可条件を満足しないと判断された場合には、物体の隠蔽処理によって、物体領域を塗り潰したり、モザイク処理を施すなど、物体を不可視状態としてから（ステップＳ４０５）、映像を表示する（ステップＳ４０４）。図４２の（ｂ），４２（ｃ）に表示の一例を示す。図４２の（ｂ）において、１６０３は物体の近似楕円を隠蔽処理した例である。図４２の（ｃ）において、１６０４は物体を多角形近似した図形を隠蔽処理した例である。

もちろん、条件と判定には種々の形態が可能である。例えば、アクセス制限情報が「有料」を示し、ユーザ情報が当該物体について「有料の場合、視聴しない」を示している場合には、条件を満たさないと判定されるようにしてもよい。また、例えば、アクセス制限情報が「１９歳以上」を示し、ユーザ情報が「２０歳」を示している場合には、条件を満たすと判定されるようにしてもよい。また、複数の条件を組み合わせて使用することも可能である。

なお、上記では、ユーザ情報がアクセス許可条件を満足しないと判断された場合には、物体の隠蔽処理を行ったが、表示できない物体を含む画面全体を表示しないようにすることもできる。あるいは、当該コンテンツ全体の利用を不可とすることもできる。また、物体だけを非表示にする、画面全体を非表示にするか、あるいはコンテンツの利用を不可とするかなどの処理を、制御情報およびまたはユーザ情報に基づいて選択するようにすることも可能である。

また、ここではアクセス制限情報を用いて物体表示に関するアクセス制御を行う例を示したが、著作権情報、課金情報あるいはその他の形態の情報を用いて、あるいはそのような情報を複数組み合わせて利用して、制御を行うことも可能である。もちろん、この点は、以下の各々の例でも同様である。

次に、アクセス制限情報を用いたハイパーリンクに関するアクセス制御の例を示す。

図４３に、この場合の処理手順の一例を示す。

映像データの表示中に、視聴者が例えばＧＵＩなどによって関連情報を表示したい物体を選択すると、アクセス制限情報が付加された物体領域データから該当するアクセス制限情報を抽出する（ステップＳ５０１）。また、視聴者の年齢や有料コンテンツの支払などのユーザ情報を取得する（ステップＳ５０２）。ユーザ情報の入力は物体にアクセスするたびに入力してもよいし、予め入力されている情報を利用してもよい。

ここで、入力されたユーザ情報がアクセス制限情報により示されるアクセス許可条件を満たすか否かを判定し（ステップＳ５０３）、満たすと判断された場合には、物体の関連情報（例えば、注釈データ）を表示する（ステップＳ５０４）。

一方、ステップＳ５０３において、ユーザ情報がアクセス許可条件を満足しないと判断された場合には、ユーザからの入力を無視したり、ユーザ情報がアクセス許可条件を満たしていないため、アクセス不許可であることをメッセージなどによって、視聴者に通知する（ステップＳ５０５）。

図４４に、関連情報として映像中の物体の説明が付与されている場合の一例を示す。映像１６１０の再生中にポインティングデバイス１６１２により物体１６１１が指示された場合、関連情報１６１３が表示される。

なお、第１の実施形態の物体領域データを用いる場合、ポインティングデバイス１６１２により指示された座標が物体１６１１を近似した図形の領域内部であるか否かを判断することにより、物体１６１１が指示されたか否かを容易に判断可能であり、第２の実施形態の物体領域データを用いる場合、ポインティングデバイス１６１２により指示された座標と物体１６１１の特徴点との距離が基準以下であるか否かを判断することにより、物体１６１１が指示されたか否かを容易に判断可能である。

次に、コピー許可情報が付随した物体を含む映像の複製を制限する方法の例を示す。

図４５に、この場合の処理手順の一例を示す。

ステップＳ６０１において、ユーザが例えばＧＵＩなどを介して複製したい領域または物体を選択する。このときの領域は、画面内の一部の空間的な領域であってもよいし、フレーム番号やタイムコードによって決められる時間的な領域であってもよい。

ステップＳ６０２において、物体が選択されたと判定された場合は、その物体の領域が選択領域となり、ステップＳ６０３は省略される。

一方、物体でない一般的な領域が選択された場合は、ステップＳ６０３において領域内に物体が含まれていないかを判定する。物体が含まれていないと判定された場合には、ステップＳ６０４へ進み、通常の複製処理が行われる。

ステップＳ６０２において物体が選択されたと判定された場合またはステップＳ６０３において領域内に物体が含まれていると判定された場合には、物体領域データに付加された該当するコピー許可情報を抽出する処理を行い（ステップＳ６０５）、ステップＳ６０６において、複製が許可されているかを判定する。

複製が許可されている場合には、ステップＳ６０４へ進み、通常の複製処理が行われる。

許可されていない場合は、ステップＳ６０７へ進み、複製を中止したり、メッセージを表示して、複製が許可されていないことをユーザに通知する。

なお、フレーム全体をコピーする場合には、ステップＳ６０７の処理において、物体領域の塗潰し、切り抜き、モザイク処理などによって不可視状態にした後、複製処理を行ってもよい。また、物体領域は時間と共に変化するので、一般的に複製が許可されない物体がユーザの選択した領域内に入った場合には、その間だけ、複製を制限する処理を行えばよい。また、１つのフレームに複数の物体が存在する場合には、その全ての物体についてコピーが許可されたときにのみコピー可能としてもよいし、コピーが許可されなかった物体のみ隠蔽処理した上でコピー可能とするようにしてもよい。

また、フレーム全体ではなく、物体の領域の部分だけをコピー可能としてもよい。

また、フレーム全体のコピー自体は、禁止するようにすることも可能である。

次に、課金情報が付随した物体を含む映像の処理に関する例を示す。

図４６に、この場合の処理手順の一例を示す。

映像が再生されるとステップＳ７０１へ進み、画面内に課金情報を持った物体が存在するかを判定する。

課金情報を持った物体が存在する場合、課金情報を抽出し（ステップＳ７０２）、これによって選られた課金情報を用いて、その物体に対して課金を行う（ステップＳ７０３）。なお、ある物体があるフレームに存在することは、例えばフレーム番号をもとに物体領域データを参照することにより知ることができる。

一つの物体に対する課金処理が終了するとステップＳ７０１へ戻り、画面内の全ての課金情報を持った物体に対して順次課金処理を繰り返す。

すべての物体について課金処理が完了するとステップＳ７０４へ進み、現フレームが映像の最終フレームかどうかを判定する。最終フレームでなかった場合には、ステップＳ７０５へ進み、映像を次フレームへ進め、再びステップＳ７０１へ戻って課金処理を行う。

ステップＳ７０４において、現フレームが映像の最終フレームであると判定された場合には、処理を終了する。

（第４の実施形態）
次に、関連情報に基づいて行う処理の他の例として、本実施形態では、映像中の物体に関連情報として当該物体の特徴量などの属性情報を付与し、該属性情報に基づいてオブジェクト検索を行う場合を例にとって説明する。

図４７に、物体領域データに付加する関連情報（属性情報）８０１の一例を示す。

この属性情報は例えば制作者側から提供される映像コンテンツあるいは利用者側で撮影される監視映像に対する物体ごとの検索にキーとして用いられるためのものであり、このように物体領域に関する特徴等に関係する情報が関連情報となりうる。

物体領域種別８０２は、例えば“車両”や“人”など、近似されている物体の種類を示すデータである。

識別情報８０３は、例えば“人名”や“車両のナンバー”、“車種”など、実際の物体を識別するためのデータや、物体領域から抽出される物体領域に識別するために代表される複数の特徴量である。

動作内容８０４は、“歩く”や“走る”などの物体の動作を示すデータである。

なお、関連情報８０１として上記項目の全てを用いてもよいし、その一部を用いてもよい。もちろん、上記項目の全部または一部に他の関連情報を併用してもよい。

なお、上記項目は映像コンテンツの場合には提供側において物体領域データに付加する（関連付ける）ものとする（もちろん、ユーザ側で付加あるいは追加するようにしてもよい）。また、該付加あるいは関連付けは、マニュアル操作で行ってもよいし、自動的に行ってもよい。また、監視映像の場合には、監視映像の撮影時に付加するようにしてもよいし、監視映像の解析時に付加するようにしてもよい。

次に、図４８に、本実施形態に係る、識別情報に記述する「物体領域から抽出される物体領域を識別するために代表される複数の特徴量」を抽出する情報解析装置の構成例を示す。図４８に示されるように、本情報解析装置は、特徴解析部１０１１を備えている。

特徴解析部１０１１は、映像データ１０００および物体領域データ１００６に基づいて、物体領域のデータを解析し、識別に役立てるための、物体領域を代表する特徴量を抽出する。時空間的に表現された物体（オブジェクト）の特徴量としては、キーシェープ、キーテクスチャ、アクティビティ、キーカラー、キーフレームなどがある（特徴量を自動検出する方法については後述する）。なお、特徴量を手動で与えるようにしてもよい。

抽出された特徴量１０１５は、該当する物体領域データに付加される（対応付けられる）。

次に、図４９に、本実施形態に係る、物体ごとの検索機能を有する情報処理装置の構成例を示す。図４９に示されるように、本情報処理装置は、検索部１０２１、処理部１０２２、表示部１００３を備えている。

映像データ１０００、物体領域データ１００６、関連情報１００５は、無線もしくは通信の通信媒体あるいはＤＶＤ等の記憶媒体を介して入力されるものとする。なお、図４９においては、それらのデータを受信する機能あるいは蓄積する機能あるいは読み出す機能は適宜設けるものとして省略してある。

検索のためのキーデータ１０１４は、例えばＧＵＩなどを介してユーザから入力される検索のためのキーデータ情報である。

検索部１０２１は、キーデータと、関連情報として与えられた属性情報とのマッチングを行い、該当する物体を検索する。

処理部１０２２は、検索部１０２１による検索結果を受け、これに基づいてユーザに呈示する情報を作成する。検索結果の呈示には、映像データと物体領域データを用いて表示することも可能である。例えば、物体領域が存在するフレーム区間や物体の出現位置を示す形で表示部１１３に表示させることができる。あるいは、検索結果を記憶装置（図示せず）あるいはネットワーク（図示せず）に出力することも可能である。

表示部１００３は、映像データや検索結果を液晶表示装置もしくはＣＲＴ等に表示するためのものである。

なお、必要に応じて、関連情報へのポインタが指示された場合に関連情報を（記録媒体やネットワークを介したサーバ等から）取得し呈示する機能や、指示された関連情報がプログラムや計算機の動作を記述したデータである場合にそれを実行する機能を設けてもよい。

次に、識別情報の特徴量の例について説明する。

時空間的に表現された物体（オブジェクト）の特徴量として、キーシェープ、キーテクスチャ、アクティビティ、キーカラー、キーフレームなどがある。以下、これらを自動で検出する方法を示す。

まず、キーシェープの検出方法について説明する。

キーシェープとは、オブジェクトを代表する形である。代表するシェープは、複数でも構わない。

図５０に、キーシェープを検出する手順の一例を示す。

ここでは、キーシェープを検出する方法として、（近似前の）物体の領域を用いる。

各フレームにおけるオブジェクト領域の面積と周囲長を求め、Ｓ（ｉ）＝面積／（周囲長＊周囲長）を求める（ステップＳ１０２）。Ｓ（ｉ）は、形の複雑度を表す指標である。Ｓ（ｉ）の計算は、該当するすべてのフレームについて行う（ステップＳ１０１）
Ｓ（ｉ）の値が最大およびまたは最小時のフレーム番号ｉおよびそのシェープの情報Ｓ（ｉ）を格納する（ステップＳ１０３）。

図５１に、キーシェープの検出する手順の他の例を示す。この手順は、物体を近似図形等で近似した後の、各フレームのオブジェクトの近似領域を用いた場合の手順の例である。

Ｓ（ｉ）の計算方法は図５１の近似前の領域画像を用いる場合と同じであり、図５１との相違は時空間的に記述した式からフレームｉでの近似されたシェープを取得する手順（ステップＳ１０４）が必要となる点である。

キーシェープの特徴量ｋｅｙ＿ｓｈａｐｅ＿ｆｅａｔｕｒｅｓは、以下の構造体で表される。

ｋｅｙ＿ｓｈａｐｅ＿ｎｕｍｂｅｒは、キーシェープの数である。その数だけ、ｋｅｙ＿ｓｈａｐｅの情報（キーシェープ・データ）を含む。ｋｅｙ＿ｓｈａｐｅは、図形の頂点数と図形の座標列（頂点データ）からなる。図形が近似されるまでの場合は、シルエット図形のすべての輪郭座標を表記することになる。

struct key_shape_features {
int key_shape_number;
struct key_shape[key_shape_number];
}

struct key_shape {
int vect_number;
struct vect[vect_number];
}

struct vect {
int x;
int y;
}
なお、上記構造を模式化したものを図５２に示す。

次に、キーテクスチャの検出方法について説明する。

キーテクスチャとは、オブジェクトを代表するテクスチャである。

一つの方法として、キーシェープのフレームにおける、オブジェクトのテクスチャをキーテクスチャ情報として格納する方法がある。

また、これとは別の方法として、図５３の検出手順例に示すように、各フレームのオブジェクトのテクスチャの周波数を解析し（ステップＳ１１１，Ｓ１１２）、周波数のパワーの分散が最大または最小のものが、オブジェクトとして最も特徴的なテクスチャの面を向けていると判断し、そのときのフレーム番号とテクスチャ情報を格納しておく（ステップＳ１１３）。テクスチャ情報は、周波数情報でも良いし、もとのオブジェクトの画像そのものでも良い。また、キーテクスチャは、複数でも構わない。

キーテクスチャの特徴量ｋｅｙ＿ｔｅｘｔｕｒｅ＿ｆｅａｔｕｒｅｓは、以下の構造体で表される。

ｋｅｙ＿ｔｅｘｔｕｒｅ＿ｎｕｍｂｅｒは、キーテクスチャの数である。その数だけ、ｋｅｙ＿ｔｅｘｔｕｒｅの情報（キーテクスチャ・データ）を含む。ｋｅｙ＿ｔｅｘｔｕｒｅを物体領域の画素値で表した例を（Ｃａｓｅ１）に示す。ｐｉｘｅｌ＿ｎｕｍｂｅｒは、物体領域の画素値の数を示す。ｐｉｘｅｌ（画素データ）は、画素値と座標値を示している。画素値は、ＲＧＢ等の色の情報などである。物体領域を周波数解析した場合は、（Ｃａｓｅ２）のようになる。例えば、離散的コサイン変換を行い、周波数の係数をｆｒｅｑの構造体に記憶しておく方法がある。

(Case 1)
struct key_texture_features {
int key_texture_number;
struct key_texture[key_texture_number];
}

struct key_texture {
int pixel_number;
struct pixel[pixel_number];
}

struct pixel {
int x;
int y;
int value_r;
int value_g;
int value_b;
}

(Case 2)
struct key_texture_features {
int key_texture_number;
struct key_texture[key_texture_number];
}

struct key_texture {
int freq_number;
struct freq[freq-number];
}

struct freq {
float value;
}
なお、上記構造を模式化したものをそれぞれ図５４に示す。

次に、アクティビティについて説明する。

アクティビティとは、オブジェクトの運動に関する情報である。従来は、画面全体の動き情報については利用されていたが、ここでは、オブジェクト自身に対してアクティビティの情報を計算し付与するものとする。

図５５の検出手順例に示すように、アクティビティとして、前フレームから計算したフレームのオブジェクトの重心の移動ベクトルのスカラー（大きさ）の平均値をアクティビティとする（ステップＳ１２１〜Ｓ１２３）。

なお、大きさや形が大きく変化するようなオブジェクトに対しては、ステップＳ１２２の代わりに、ステップＳ１２２’のように、オブジェクト領域を近似したの後の近似領域を表す代表点の動きベクトルの大きさから計算するようにしても良い。

また、ステップＳ１２２の代わりに、ステップＳ１２２”のように、オブジェクト内の各画素の移動ベクトルを利用して求めるようにしても良い。

さらに、図５５では、オブジェクトに対して一つのアクティビティを求めたが、運動の変化を計算し、オブジェクトを時間的に分割し、複数のアクティビティを計算し、区間とそのアクテビティの情報を付帯させても良い。

アクティビティの特徴量ａｃｔｉｖｉｔｙ＿ｆｅａｔｕｒｅｓは、以下の構造体で表される。ａｃｔｉｖｉｔｙ＿ｎｕｍｂｅｒは、アクティビティの数である。その数だけ、ａｃｔｉｖｉｔｙの情報（アクティビティ・データ）を含む。ａｃｔｉｖｉｔｙは、物体の運動情報で、フレームの開始・終了番号と動きの多さを表すＶａｌｕｅからなる。

struct activity_features {
int activity_number;
struct activity[activity_number];
}

struct activity {
int start;
int end;
float value;
}
なお、上記構造を模式化したものを図５６に示す。

次に、キーカラーの検出方法について説明する。

キーカラーは、オブジェクトを代表する色情報である。

図５７の検出手順例に示すように、各フレームのオブジェクトの色ヒストグラムを計算する。色とは、オブジェクトの画素値をＨＳＶなどの色空間の値に変換し、Ｈなどの色相情報を用いる。色空間は、ＨＳＶでも良いし、マンセルの色空間でも良い。色相を２５６色など任意の段階に分割し、色相の度数である色ヒストグラムを計算する。オブジェクトの大きさに依存しないように、オブジェクトの面積で色ヒストグラムを正規化する。この色ヒストグラムを各フレームごとに求め、加算し、全体の色ヒストグラムを作成する（ステップＳ１３１，Ｓ１３２）。これを、フレーム数で割って正規化する（ステップＳ１３３）。それをキーカラーの情報として格納する。色ヒストグラム全体を格納したが、支配的な色を上位から複数とって、キーカラーとしても良い。

キーカラーの特徴量ｋｅｙ＿ｃｏｌｏｒ＿ｆｅａｔｕｒｅｓは、以下の構造体で表される。ｋｅｙ＿ｃｏｌｏｒ＿ｎｕｍｂｅｒは、キーカラーの数である。その数だけ、ｋｅｙ＿ｃｏｌｏｒの情報（キーカラー・データ）を含む。ｋｅｙ−ｃｏｌｏｒは、（ｃａｓｅ１）として色相のヒストグラムのｂｉｎ数ｂｉｎ＿ｎｕｍｂｅｒと各ｂｉｎの度数を記したものである。（ｃａｓｅ２）として、支配的な色ｄｏｍｉｎａｎｔを特徴量として示した例である。ｄｏｍｉｎａｎｔｃｏｌｏｒの数ｄｏｍｉｎａｎｔ＿ｎｕｍｂｅｒとその色の情報が格納される。

(Case 1)
struct key_color_features {
int key_color_number;
struct key_color[key_color_number];
}

struct key_color {
int bin_number;
int bin[bin_number];
}

(Case 2)
struct key_color_features {
int key_color_number;
struct key_color[key_color_number];
}

struct key_color {
int dominant_number;
int dominat[dominant_number];
}
なお、上記構造を模式化したものをそれぞれ図５８に示す。

次にキーフレームの検出方法について説明する。

キーフレームとは、オブジェクトを代表するフレームのことである。

図５９に示すように、各フレームのオブジェクトの大きさを計算し（ステップＳ１４１，Ｓ１４２）、オブジェクトの面積が最大の場所をキーフレームとする（ステップＳ１４３）。

なお、キーフレームを、キーカラー、キーテクスチャ、キーシェープが存在する場所としても良いし、手動で与えても構わない。

また、パターン認識の技術を用いて（または、手動で）オブジェクトが人の顔である場合、できるだけ正面を向いた場所をオブジェクトのキーフレームとしても良い。

なお、キーシェープ、キーテクスチャ、キーカラー、アクティビティ、キーフレーム情報の全てもしくは一部を識別情報として格納することも可能である。図６０は上記した全ての情報を識別情報として格納した物体領域データのデータ構造を示す。

次に、図４９の情報処理装置における映像中の物体の物体領域データに関連情報として付加された属性情報を用いた検索について説明する。

図６１に、この場合の処理手順の一例を示す。

まず、ステップＳ１５１において、ユーザから検索のためのキーが入力される。

なお、本実施形態の特徴量による検索条件の入力形態には種々の方法が考えられる。そのうちの幾つかを例示する。

（１）数値（範囲）、レベル値（範囲）などを手動で入力する方法
（２）数値等を画面上のメニューから選択する方法
（３）対象とする映像中の物体のうちのいずれかを参照物体として選択し、使用する属性情報を指定し、該参照物体の持つ属性情報のうち指定されたものを使用する方法
（４）対象とする映像とは別に用意した参照物体の映像データを入力し、使用する属性情報を指定し、該参照物体の映像データの当該属性情報を求め、これを使用する方法
（５）上記のうちの任意の複数の組み合わせ
また、上記の特徴量のほかにも、他の種類の検索キーを併用できるようにしてもよい。また、複数の検索キーを、重み付けをおこなって組み合わせても良いし（例えば、各検索キーによる類似度を重みを付けて加算した値を総合的な評価値とする）、組み合わせ論理を用いて組み合わせても良い（例えば、２つの検索キーの論理和の場合に、第１の検索キーによる類似度と第２の検索キーによる類似度の両方が基準値を越えてはじめてマッチングしたと判断する）。

図６２に、物体に関連情報（属性情報）として付与されたキーワード、物体の出現するフレーム（範囲）あるいはタイムスタンプ（範囲）、上記の特徴量（キーシェープ、キーテクスチャ、アクティビティ、キーカラー）を検索条件として適宜入力可能とした検索条件入力画面の一例を示す。図６２の例は、複数の項目が指定された場合にはそれらの論理積で検索するものとしているが、もちろん様々な論理和や否定など様々な条件の組み合わせ論理を設定可能としてもよい。また、キーワードと、フレーム等と、特徴量とを選択的にしか指定できないようにしてもよい。

次に、ステップＳ１５２において、対象となるすべての物体領域において処理を行ったか否か判定する。

未だ対象となるすべての物体領域において処理を行っていなければ、物体領域に付与されている属性情報のうち検索キーと同一種類のものを取り出し、これと検索キーとの距離を計算する（ステップＳ１５３）。

そして、その距離が予め定められた閾値よりも小さい場合は、その物体領域が検索キーにマッチングしたものとして、該物体の識別情報や必要に応じて求められた距離などを記録する（ステップＳ１５４）。

ここで、キーシェープ、キーテクスチャ、アクティビティ、キーカラーについての距離の計算方法について簡単に説明する。キーフレームの場合は、物体領域を表示するために、代表フレームとして用いる。

まず、二つのキーシェープの距離について説明する。

対象となるキーシェープをＴＳ、検索のキーシェープをＵＳとする。それぞれの重心を求めて二つのシェープの重心を合わせる。そのときのＴＳとＵＳの面のＥｘｃｌｕｓｉｖｅＯｒの領域ＥＸ（ＴＳ，ＵＳ）とし、ＴＳ，ＵＳの面積の平均ＡＶ（ＴＳ，ＵＳ）を求め、ＥＸ（ＴＳ，ＵＳ）／ＡＶ（ＴＳ，ＵＳ）を二つのシェープの距離と定める。

次に、二つのキーテクスチャの距離について説明する。

対象となるキーテクスチャをＴＸ、検索のキーシェープをＵＸとする。ここで、ＴＸ，ＵＸから先に述べた離散的コサイン変換による周波数解析が行われた基底ごとの値をＴＸ（ｉ），ＵＸ（ｉ）とする。距離ｄ（ＴＸ，ＵＳ）は次に示すような式となる。

d(TX, UY) = Σ｜TX(i) - UX(i)｜
i = l, k
次に、２つのアクティビティの距離について説明する。

単純に物体領域データがひとつのアクティビティのみを持っている場合は、対象となるアクティブティをＴＡ、検索キーをＵＡとすると、距離ｄ（ＴＡ，ＵＡ）は｜ＴＡ−ＵＡ｜で定義される。複数のアクティビディを持つ場合は、次に示すような式となる。

d(TA, UA) = Σ｜TA(i) - UA(i)｜
i = l, k
次に、２つのキーカラーの距離について説明する。

対象となるキーカラーをＴＣ、検索のキーカラーをＵＣとする。ここで、ＴＣ，ＵＣは色ヒストグラムＴＣ（ｉ），ＵＣ（ｉ）であるとすると、距離ｄ（ＴＣ，ＵＣ）は、以下の式となる。ｋはｂｉｎのかずである。ＤｏｍｉｎａｎｔＣｏｌｏｒの場合も同様に次に示すような式となる。

d(TC, UC) = Σ｜TC(i) - CX(i)｜
i = l, k
さて、以上の処理を各々の物体について行い、ステップＳ１５２において、すべての物体について処理が終了したと判定されたならば、ステップＳ１５５において、検索結果を出力する。

なお、検索結果の出力形態には種々の方法が考えられる。そのうちの幾つかを例示する。

（１）物体を識別する情報、出現フレームもしくは時間の範囲、位置に関する情報、物体の注釈情報、類似度の評価値などのリストを表示する
（２）該当する物体の出現する範囲の映像を表示する
（３）該当する物体の代表的な画像を表示する（全画面もしくは該当する物体の部分のみ）
（４）上記のうちの任意の複数の組み合わせ
（５）上記のうちのある方法から他の方法へ遷移可能とする方法
図６３に、検索結果表示画面の一例を示す。図６３の例では、検索により２つの物体が得られ、検索結果として、その物体の名称と、出現する時間と、その物体の代表的な画像１６２１，１６２２とを表示した例である。物体の代表的な画像は、例えば、第１の実施形態のようにして近似図形を求め、当該フレームの映像データ中から該求めた近似図形を内包する所定の大きさの矩形の領域を切り出し、該切り出した矩形の領域を適宜縮小するなどして表示すればよい。

また、図６４に例示するように、物体の代表的な画像１６２１をポインティングデバイス１６２３により指示された場合に、該物体の出現する範囲の映像１６２４を表示するようにしてもよい。

なお、第３の実施形態と第４の実施形態は組み合わせて実施可能である。例えば、映像コンテンツ（映像データ）から得られた物体領域データに、図３１の関連情報（制御情報）もしくは図４７の関連情報（属性情報）のいずれかを付与し、または図３１の関連情報（制御情報）と図４７の関連情報（属性情報）の両方を付与し、あるいはそれらにさらに他の関連情報を付与し、第３の実施形態のような物体ごとのコンテンツ利用制御や第４の実施形態のような特徴量による検索を行うようにしてもよい。

なお、以上の各機能は、ソフトウェアとしても実現可能である。

また、本実施形態は、コンピュータに所定の手段を実行させるための（あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるための）プログラムを記録したコンピュータ読取り可能な記録媒体としても実施することもできる。

なお、本願発明は上記各実施形態に限定されるものではなく、実施段階ではその趣旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組合わせた効果が得られる。さらに、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組合わせにより種々の発明が抽出され得る。

本発明の第１の実施形態に係る物体領域データ生成装置の構成例を示す図、映像中の物体の領域を物体領域データで記述するための処理の概要を説明するための図、物体の領域を楕円で近似する例について説明するための図、物体の領域を近似する楕円の代表点を求める例について説明するための図、物体領域データのデータ構造の一例を示す図、物体領域データ中の近似図形データのデータ構造の一例を示す図、近似図形データ中の代表点軌跡データのデータ構造の一例を示す図、物体領域データ、近似図形データ、代表点軌跡データの関係を示す図、近似図形を平行四辺形とした場合の代表点の例について説明するための図、近似図形を多角形としたときの代表点の例について説明するための図、同実施形態における処理手順の一例を示すフローチャート、映像中の物体の領域を複数の楕円で表現した例を示す図、複数の近似図形データを含む物体領域データのデータ構造の一例を示す図、映像中の物体の領域を物体領域データで記述するための他の処理の概要を説明するための図、近似矩形を求める処理手順の一例を示すフローチャート、傾斜した細長い物体を傾斜を持たない矩形で近似した様子を示す図、物体をその傾斜に応じた傾斜を持つ矩形で近似した様子を示す図、近似矩形を求める処理手順の他の例を示すフローチャート、近似矩形から近似楕円を求める方法について説明するための図、近似矩形から近似楕円を求める処理手順の一例を示すフローチャート、隣接するフレーム間で近似図形の代表点同士を対応付ける方法について説明するための図、隣接するフレーム間で近似図形の代表点同士を対応付けるための処理手順の一例を示すフローチャート、物体領域データのデータ構造の他の例を示す図、図形種ＩＤと図形の種類と代表点数との対応の一例を示す図、関数ＩＤと関数形式と関数パラメータと制約条件との対応の一例を示す図、本発明による代表点軌跡データのデータ構造の特徴を示す図、代表点の時系列座標を曲線で近似する処理を示すフローチャート、本発明の物体領域データの利用例としての、映像中で指示された点が領域内外のいずれかであるかを判定し、内の場合は関連情報を表示する処理を示す図、本発明の第２の実施形態に係る物体領域データ生成装置の構成例を示す図、同実施形態における処理手順の一例を示すフローチャート、物体領域データ中の関連情報のデータ構造の具体例を示す図、本発明の物体領域データを用いて、指定された物体の物体領域名を表示する処理を示すフローチャート、本発明の物体領域データを用いて、指定された物体の著作権情報を表示する処理を示すフローチャート、本発明の物体領域データを用いて、指定された物体のコピー許可情報を表示する処理を示すフローチャート、本発明の物体領域データを用いて、指定された物体のフットマークを表示する処理を示すフローチャート、本発明の物体領域データを用いて、指定された物体の関連情報ＵＲＬで示されるデータを表示する処理を示すフローチャート、本発明の物体領域データを用いて、指定された物体のアクセスを制御する処理を示すフローチャート、本発明の物体領域データを用いて、指定された物体の課金処理を示すフローチャート、本発明の物体領域データを用いて、指定された物体の注釈を表示する処理を示すフローチャート、本発明の第３の実施形態に係る情報処理装置の構成例を示す図、アクセス制御の処理手順の一例を示すフローチャート、物体の隠蔽処理を施した例を示す図、アクセス制御の処理手順の他の例を示すフローチャート、物体の関連情報を表示した例を示す図、複製制御の処理手順の他の例を示すフローチャート、課金制御の処理手順の他の例を示すフローチャート、関連情報のデータ構造の他の具体例を示す図、本発明の第４の実施形態に係る情報解析装置の構成例を示す図、同実施形態に係る情報処理装置の構成例を示す図、キーシェープ検出の処理手順の一例を示すフローチャート、キーシェープ検出の処理手順の他の例を示すフローチャート、キーシェープのデータ構造例を示す図、キーテクスチャ検出の処理手順の一例を示すフローチャート、キーテクスチャのデータ構造例を示す図、アクティビティ検出の処理手順の一例を示すフローチャート、アクティビティのデータ構造例を示す図、キーカラー検出の処理手順の一例を示すフローチャート、キーカラーのデータ構造例を示す図、キーフレーム検出の処理手順の一例を示すフローチャート、第４実施形態の物体領域データのデータ構造を示す図、検索処理の手順の一例を示すフローチャート、検索条件入力画面の一例を示す図、検索結果表示画面の一例を示す図、検索結果表示画面の一例を示す図、

符号の説明

１００，２３１…映像データ記憶部
１０１…領域抽出部
１０２…領域の図形近似部
１０３…図形代表点抽出部
１０４…代表点の曲線近似部
１０５，２３５…関連情報記憶部
１０６，２３６…領域データ記憶部
２３３…特徴点抽出部
２３４…特徴点の曲線近似部
１００１…条件判定部
１００２，１０２２…処理部
１００３…表示部
１０１１…特徴解析部
１０２１…検索部

Claims

複数フレームからなる映像データ中における物体の領域の時系列的な変化に関する情報を生成して物体領域データとして記述し、
前記映像データを利用する際、前記物体の領域毎の検索を行うための処理に供されるべき関連情報を前記物体領域データと関連付けて記述し、
前記関連情報は、前記検索において検索キーとの照合のために用いられる、前記物体の領域の代表的な特徴を示す属性情報であり、
前記属性情報は、前記物体の領域を代表する形状を示すキーシェープ情報、前記物体の領域の周波数情報を示すキーテクスチャ情報、前記物体の領域の運動に関する情報を示すアクティビティ情報、前記物体の領域を代表する色を示すキーカラー情報、前記物体の代表例を含むフレームであるキーフレームのうちの少なくとも１つを含むことを特徴とする物体領域情報記述方法。
映像中の物体ごとに検索を行う映像情報処理方法であって、
映像データ中における物体の領域に関する情報を記述した物体領域データおよびこれに関連付けられた属性情報を取得し、
指定された検索条件および前記属性情報に基づいて、該当する物体を検索し、
検索された前記物体に関する前記物体領域データに基づいて、呈示すべき検索結果を作成し、
前記属性情報は、前記物体の領域を代表する形状を示すキーシェープ情報、前記物体の領域の周波数情報を示すキーテクスチャ情報、前記物体の領域の運動に関する情報を示すアクティビティ情報、前記物体の領域を代表する色を示すキーカラー情報、前記物体の代表例を含むフレームであるキーフレームのうちの少なくとも１つを含むことを特徴とする映像情報処理方法。
映像中の物体ごとに検索を行う映像情報処理装置であって、
映像データ中における物体の領域に関する情報を記述した物体領域データおよびこれに関連付けられた属性情報を取得する手段と、
指定された検索条件および前記属性情報に基づいて、該当する物体を検索する手段と、
検索された前記物体に関する前記物体領域データに基づいて、呈示すべき検索結果を作成する手段とを具備し、
前記属性情報は、前記物体の領域を代表する形状を示すキーシェープ情報、前記物体の領域の周波数情報を示すキーテクスチャ情報、前記物体の領域の運動に関する情報を示すアクティビティ情報、前記物体の領域を代表する色を示すキーカラー情報、前記物体の代表例を含むフレームであるキーフレームのうちの少なくとも１つを含むことを特徴とする映像情報処理装置。