JP4008951B2

JP4008951B2 - メタデータストリームを再生するための装置及びプログラム

Info

Publication number: JP4008951B2
Application number: JP2006327645A
Authority: JP
Inventors: 敏充金子; 達上林; 宏磯崎; 康史津曲; 秀樹高橋; 洋一郎山縣
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-12-04
Filing date: 2006-12-04
Publication date: 2007-11-14
Anticipated expiration: 2024-05-20
Also published as: JP2007104716A

Description

この発明は、クライアント装置にある動画像データと、クライアント装置もしくはネットワーク上のサーバー装置にあるメタデータとを組み合わせて動画像ハイパーメディアを実現したり、また動画像にテロップや吹き出しを表示したりするシステムにおけるメタデータストリームのデータ構造、検索方法及び再生方法に関する。

ハイパーメディアは、動画像、静止画像、音声、テキストなどのメディア間にハイパーリンクと呼ばれる関連性を定義し、相互に、または一方から他方を参照できるようにしたものである。例えばインターネットを使って閲覧することのできるＨＴＭＬで記述されたホームページには、テキストや静止画が配置されており、これらテキストや静止画のいたるところにリンクが定義されている。そしてこれらのリンクを指定することにより直ちにリンク先である関連情報を表示させることができる。興味のある語句を直接指示すれば関連情報にアクセスできるため、操作が容易かつ直感的である。

一方、テキストや静止画ではなく動画像を中心にしたハイパーメディアでは、動画像中に登場する人や物などのオブジェクトからそれを説明するテキストや静止画などの関連コンテンツへのリンクが定義されており、視聴者がこのオブジェクトを指示することによりこれら関連コンテンツが表示される。このとき、動画像に登場するオブジェクトの時空間的な領域とその関連コンテンツへのリンクを定義するには、動画像中のオブジェクトの時空間的な領域を表すデータ（オブジェクト領域データ）が必要となる。

オブジェクト領域データとしては、２値以上の値を持つマスク画像系列、ＭＰＥＧ−４の任意形状符号化、特許文献１で説明されている図形の特徴点の軌跡を記述する方法、さらに特許文献２で説明されている方法などを用いることができる。動画像中心のハイパーメディアを実現するためには、このほかにもオブジェクトが指定されたときに他の関連コンテンツを表示させるという動作を記述したデータ（動作情報）などが必要となる。これらの動画像以外のデータを動画像のメタデータあるいはメタデータストリームと呼ぶことにする。

動画像とメタデータを視聴者に提供する方法としては、まず動画像とメタデータの両方が記録された記録媒体（ビデオＣＤ、ＤＶＤなど）を作る方法がある。また、すでにビデオＣＤやＤＶＤとして所有している動画像のメタデータを提供するには、メタデータのみをネットワーク上からダウンロード、もしくはストリーミングにより配信すればよい。さらに、動画像とメタデータの両方のデータをネットワークで配信しても良い。
特開２０００−２８５２５３号公報特開２００１−１１１９９６号公報

視聴者の手元にある動画像に関連したネットワーク上のメタデータには、動画像や動画像中に登場するオブジェクトに関する情報が含まれているため、オブジェクトの検索に用いることができる。例えば、登場するオブジェクトの名前や特徴での検索を可能にする。このとき、メタデータを利用した検索を効率的に行うことが望まれる。

また、このようなメタデータを視聴者の元にストリーミング配信する際、メタデータはネットワークにおけるデータロスに強い形式であることが望ましい。

この発明の目的は、メタデータを利用したオブジェクトの効率的な検索ができるようなメタデータストリームのデータ構造及びこれを用いた検索方法を提供することにある。

この発明の他の目的は、ストリーミング時のデータロスによるメタデータの一部の欠落の影響を低減できるメタデータストリームのデータ構造及びその再生方法を提供することにある。

この発明のもう一つの目的は、データサイズの小さいメタデータストリームのデータ構造を提供することである。

この発明の一実施の形態に係るメタデータストリームのデータ構造は、独立して処理可能なデータ単位であるアクセスユニットを少なくとも２つ以上含む。ここで、アクセスユニット（例えば、図４、図７７、図７８のVclick_AU）は、動画像中のオブジェクトの時空間領域を記述した第１データ（例えば、オブジェクト領域データ４００）と、異なる少なくとも二つのアクセスユニットにおける前記オブジェクト領域データによりそれぞれ指し示される動画像中のオブジェクトが意味的に同一であるかどうかを特定する第２データ（例えば、オブジェクトＩＤ；object_id）とを有する。なお、アクセスユニットには動画像の時間軸に対して定義される有効期間内に関する情報として、前記有効期間を特定するデータ（例えば、４０２、Ｂ０１／Ｂ０２、Ｃ０１／Ｃ０２）を含んでもよい。

このように各アクセスユニットに、意味的に同一のオブジェクトを特定する第２データ（オブジェクトＩＤ）を記述しておき、検索の際にはオブジェクトＩＤが同じアクセスユニットを検索結果に表示させないようにする。

アクセスユニットは、少なくとも２つのアクセスユニットにおけるオブジェクト領域データによりそれぞれ指し示される動画像中のオブジェクトが意味的に同一である場合に、少なくとも２つのアクセスユニットにおけるオブジェクト領域データが動画像中の同一場面のデータであるかどうかを特定する第３データ（例えば、オブジェクトサブＩＤ；object_subid）をさらに有してもよい。

このように各アクセスユニットに、複数のアクセスユニット間で意味的に同一のオブジェクトを特定するオブジェクトＩＤと、さらに各々のオブジェクト領域データが同一場面のデータであることを特定するオブジェクトサブＩＤを記述しておき、検索の際にはオブジェクトＩＤが同じでかつサブオブジェクトＩＤが同じアクセスユニットを検索結果に表示させないようにする。

さらに、同一のオブジェクトＩＤを有する前後のアクセスユニットに記述されたオブジェクト領域がそれぞれ時間的に連続しているかどうかを示す第４データ（例えば、continue_flag）を用意しておき、アクセスユニットの欠落の判定やオブジェクト領域の補間処理を行うようにしてもよい。

さらに、テキストデータは適宜圧縮してアクセスユニットに格納されるようにすることが望ましく、その場合アクセスユニットはテキストデータが圧縮されているか非圧縮かを示すデータを含む。

本発明によると、オブジェクトＩＤを用いることにより、同一のオブジェクトＩＤを有するアクセスユニットの表示を省略することで、キーワードによる検索を行った場合のように似通った検索結果が多数表示されてしまうことがなくなり、オブジェクトの検索が容易となる。

また、オブジェクトＩＤとサブＩＤとを併用すれば、異なる場面に登場したオブジェクトのみを検索結果として表示できるようになる。

さらに、同一のオブジェクトＩＤを有する前後のアクセスユニットに記述されたオブジェクト領域がそれぞれ時間的に連続しているかどうかを示すフラグを利用することにより、アクセスユニット欠落への対策が立てられるようになる。

テキストデータを圧縮することでメタデータのデータサイズを削減でき、伝送／記録の効率が向上する。

以下、図面を参照しながらこの発明の一実施の形態を説明する。

（アプリケーションの概要）
図１はこの発明のオブジェクト・メタデータを動画像と共に利用することにより実現されるアプリケーション（動画像ハイパーメディア）の画面上の表示例である。図１（ａ）の１００は動画像の再生画面、そして１０１はマウスカーソルである。動画像の再生画面１００で再生される動画像のデータは、ローカルにある動画像データ記録媒体に記録されている。１０２は動画像中に登場するオブジェクトの領域である。ユーザがオブジェクトの領域内にマウスカーソルを移動させてクリック等によりオブジェクトを選択すると、所定の機能が実行される。例えば図１（ｂ）では、ローカルおよび／またはネットワーク上にあるドキュメント（クリックされたオブジェクトに関連した情報）１０３が表示されている。そのほか、動画像の別の場面にジャンプしたり、別の動画像ファイルが再生されたり、再生モードを変更するなどの機能を実行することができる。

オブジェクトの領域１０２のデータ及びこの領域がクリック等により指定された場合のクライアント装置の動作データなどをまとめて、オブジェクト・メタデータまたはVclickデータと呼ぶことにする。オブジェクト・メタデータはローカルにある動画像データ記録媒体（光ディスク、ハードディスク、半導体メモリ等）に動画像データと共に記録されていても良いし、ネットワーク上のサーバーに蓄積されていてネットワーク経由でクライアントに送られるようにしても良い。以下ではこのアプリケーションがどのように実現されるかについて詳細に説明する。

（システムモデル）
図２はこの発明の一実施の形態に係るストリーミング装置（ネットワーク対応ディスクプレーヤ）の概略構成を示す図である。この図を用いて各構成要素の機能について説明する。

２００はクライアント装置、２０１はサーバー装置、２２１はサーバー装置とクライアント装置を結ぶネットワークである。クライアント装置２００は、動画再生エンジン２０３、Vclickエンジン２０２、ディスク装置２３０、ユーザ・インタフェース２４０、ネットワーク・マネージャー２０８、ディスク装置マネージャー２１３、を備えている。また、２０４から２０６は動画再生エンジンに含まれる装置、２０７、２０９から２１２、２１４から２１８はVclickエンジンに含まれる装置、２１９と２２０はサーバー装置に含まれる装置である。クライアント装置２００はディスク装置２３０にある動画像データの再生や、HTML等のマークアップ言語で書かれたドキュメントの表示を行うことができる。また、ネットワーク上にあるHTML等のドキュメントの表示を行うことも可能である。

クライアント装置２００にある動画像データに関連したメタデータがサーバー装置２０１に存在する場合、クライアント装置２００はこのメタデータとディスク装置２３０にある動画像データとを利用した再生を以下のように行うことが可能である。まず、サーバー装置２０１はクライアント装置２００からの要求によりネットワーク２２１を介してクライアント装置２００にメディアデータＭ１を送る。クライアント装置２００では、送られてきたメディアデータを動画像の再生と同期させて処理することでハイパーメディアなどの付加機能を実現させる（ここでの“同期”とは、物理的に完全なタイミングの一致のみに限定されず、多少のタイミングずれも許容している）。

動画再生エンジン２０３は、ディスク装置２３０にある動画像データを再生するためのエンジンであり、２０４、２０５、２０６の装置を有している。２３１は動画像データ記録媒体であり、具体的にはＤＶＤ、ビデオＣＤ、ビデオテープ、ハードディスク、半導体メモリなどである。動画像データ記録媒体２３１にはデジタルおよび／またはアナログの動画像データが記録されている。動画像データに関連したメタデータは、動画像データと共に動画像データ記録媒体２３１に記録されている場合もある。２０５は、動画像再生制御用のコントローラであり、Vclickエンジン２０２のインタフェース・ハンドラー２０７から出力される“コントロール”信号に応じて、動画像データ記録媒体２３１からの映像・音声・副映像データＤ１の再生を制御することもできるように構成されている。

具体的には、動画像再生コントローラ２０５は、動画像の再生時に、インタフェース・ハンドラー２０７からあるイベント（例えばユーザ指示によるメニュー・コールやタイトル・ジャンプ）が発生した際に送信される“コントロール”信号に応じて、インタフェース・ハンドラー２０７に対して、映像・音声・副映像データＤ１の再生状況を示す“トリガ”信号を出力することができる。その際（トリガ信号の出力と同時に、あるいはその前後の適当なタイミングで）、動画像再生コントローラ２０５は、プロパティ情報（例えばプレーヤに設定されている音声言語、副映像字幕言語、再生動作、再生位置、各種時間情報、ディスクの内容等）を示す“ステータス”信号をインタフェース・ハンドラー２０７に出力することができる。これらの信号の送受信により動画像データ読み出しの開始および停止や、動画像データ中の所望の位置へのアクセスが可能となる。

ＡＶデコーダ２０６は、動画像データ記録媒体２３１に記録されている映像データ、音声データ、および副映像データをそれぞれデコードし、デコードされた映像データ（前述の映像データと前述の副映像データを合成したもの）と音声データをそれぞれ出力する機能を持っている。これにより、動画再生エンジン２０３は、既存のＤＶＤビデオ規格に基づいて製造される通常のＤＶＤビデオプレーヤの再生エンジンと同じ機能を持つようになる。つまり、図２のクライアント装置２００は、ＭＰＥＧ２プログラムストリーム構造の映像、音声等のデータを通常のＤＶＤビデオプレーヤと同様に再生することができ、これにより既存のＤＶＤビデオディスク（従来のＤＶＤビデオ規格に則ったディスク）の再生が可能となる（既存ＤＶＤソフトに対する再生互換確保）。

インタフェース・ハンドラー２０７は、動画像再生エンジン２０３、ディスク装置マネージャー２１３、ネットワーク・マネージャー２０８、メタデータ・マネージャー２１０、バッファ・マネージャー２１１、スクリプト・インタプリタ２１２、メディア・デコーダ２１６（メタデータ・デコーダ２１７を含む）、レイアウト・マネージャー２１５、ＡＶレンダラー２１８などのモジュール間のインタフェース制御を行う。また、ユーザ操作（マウス、タッチパネル、キーボード等の入力デバイスへの操作）による入力イベントをユーザ・インタフェース２４０から受け取り、適切なモジュールにイベントを送信する。

インタフェース・ハンドラー２０７はVclickアクセス・テーブル（後述）を解釈するアクセステーブル・パーサー、Vclick情報ファイル（後述）を解釈する情報ファイル・パーサー、Vclickエンジンの管理するプロパティを記録しておくプロパティ・バッファ、Vclickエンジンのシステムクロック、動画再生エンジンにある動画像クロック２０４のクロックをコピーした動画像クロック等を有している。

ネットワーク・マネージャー２０８は、ネットワークを介してＨＴＭＬ等のドキュメントや静止画・音声等のデータをバッファ２０９へ取得する機能を持っており、インターネット接続部２２２の動作を制御する。ネットワーク・マネージャー２１２は、ユーザ操作または、メタデータ・マネージャー２１０からの要求を受けたインタフェース・ハンドラー２０７より、ネットワークへの接続や非接続の指示が来ると、インターネット接続部２２２の接続・非接続の切替を行う。また、サーバー装置２０１とインターネット接続部２２２とのネットワーク確立時には、制御データやメディアデータ（オブジェクト・メタデータ）の送受信を行う。

クライアント装置２００からサーバー装置２０１へ送信するデータとしては、セッション構築の要求、セッション終了の要求、メディアデータ（オブジェクト・メタデータ）送信の要求、ＯＫやエラーなどのステータス情報などがある。また、クライアント装置の状態情報の送信を行うようにしても良い。一方、サーバー装置からクライアント装置へ送信するデータにはメディアデータ（オブジェクト・メタデータ）、ＯＫやエラーなどのステータス情報がある。

ディスク装置マネージャー２１３は、ＨＴＭＬ等のドキュメントや静止画・音声等のデータをバッファ２０９へ取得する機能及び、動画再生エンジン２０３へ映像・音声・副映像データＤ１を送信する機能を持っている。ディスク装置マネージャー２１３は、メタデータ・マネージャー２１０からの指示に従ってデータ送信処理を行う。

バッファ２０９は、ネットワークを介して（ネットワーク・マネージャー経由で）サーバー装置２０１から送られてきたメディアデータＭ１を一時的に蓄積する。また、動画像データ記録媒体２３１にメディアデータＭ２が記録されていることがあるが、この場合も同様にディスク装置マネージャー経由でバッファ２０９へメディアデータＭ２を蓄積することになる。なお、メディアデータにはVclickデータ（オブジェクト・メタデータ）、ＨＴＭＬ等のドキュメントやこれに付随する静止画・動画像データなど）が含まれる。

動画像データ記録媒体２３１にメディアデータＭ２が記録されている場合は、映像・音声・副映像データＤ１の再生を開始する前にあらかじめ動画像データ記録媒体２３１からメディアデータＭ２を読み出し、バッファ２０９に記憶しておいてもよい。これは、動画像データ記録媒体２３１上のメディアデータＭ２と映像・音声・副映像データＤ１のデータ記録位置が異なるため、通常の再生を行った場合にはディスクのシーク等が発生してシームレスな再生が保障できなくなってしまうため、これを回避するための手段となる。

以上のように、サーバー装置２０１からダウンロードしたメディアデータＭ１も、動画像データ記録媒体２３１に記録されているメディアデータＭ２と同様に、バッファ２０９に記憶させることにより、映像・音声・副映像データＤ１とメディアデータを同時に読み出して再生することが可能になる。

なお、バッファ２０９の記憶容量には限界がある。つまり、バッファ２０９に記憶できるメディアデータＭ１、Ｍ２のデータサイズには限りがある。このため、メタデータ・マネージャー２１０、および／またはバッファ・マネージャー２１１の制御（バッファ・コントロール）により、不必要なデータの消去を行うことにしてもよい。

メタデータ・マネージャー２１０は、バッファ２０９に蓄積されたメタデータを管理しており、インタフェース・ハンドラー２０７からの動画像の再生に同期させた適切なタイミング（“動画像クロック”信号）を受けて、該当するタイムスタンプを持つメタデータをバッファ２０９よりメディア・デコーダ２１６に転送する。

尚、該当するタイムスタンプを持つメタデータがバッファ２０９に存在しない場合は、メディア・デコーダ２１６に転送しなくてもよい。また、メタデータ・マネージャー２１０は、バッファ２０９より送出したメタデータのサイズ分、または、任意のサイズのデータをサーバー装置２０１、またはディスク装置２３０からバッファ２０９へ読み込むためのコントロールを行う。具体的な処理としては、メタデータ・マネージャー２１０は、インタフェース・ハンドラー２０７経由で、ネットワーク・マネージャー２０８、またはディスク装置マネージャー２１３に対し、指定サイズ分のメタデータ取得要求を行う。ネットワーク・マネージャー２０８、またはディスク装置マネージャー２１３は、指定サイズ分のメタデータをバッファ２０９に読み込み、メタデータ取得済の応答をインタフェース・ハンドラー２０７経由で、メタデータ・マネージャー２１０へ通知する。

バッファ・マネージャー２１１は、バッファ２０９に蓄積されたメタデータ以外のデータ（ＨＴＭＬ等のドキュメントやこれに付随する静止画・動画像データなど）の管理をしており、インタフェース・ハンドラー２０７からの動画像の再生に同期させた適切なタイミング（“動画像クロック”信号）を受けてバッファ２０９に蓄積されたメタデータ以外のデータをパーサー２１４やメディア・デコーダ２１６に送る。バッファ・マネージャー２１１は、不要になったデータをバッファ２０９から削除してもよい。

パーサー２１４は、ＨＴＭＬ等のマークアップ言語で書かれたドキュメントの構文解析を行い、スクリプトはスクリプト・インタプリタ２１２へ、そしてレイアウトに関する情報はレイアウト・マネージャー２１５に送る。

スクリプト・インタプリタ２１２は、パーサー２１４から入力されるスクリプトを解釈し、実行する。スクリプトの実行には、インタフェース・ハンドラー２０７から入力されるイベントやプロパティの情報を利用することもできる。動画像中のオブジェクトがユーザにより指定された場合には、スクリプトはメタデータ・デコーダ２１７からスクリプト・インタプリタ２１２へ入力される。

ＡＶレンダラー２１８は、映像・音声・テキスト出力を制御する機能をもつ。具体的には、ＡＶレンダラー２１８は、レイアウト・マネージャー２１５から出力される“レイアウト・コントロール”信号に応じて、例えば、映像・テキストの表示位置、表示サイズや（これらとともに表示タイミング、表示時間を含むこともある）、音声の大きさ（これらとともに出力タイミング、出力時間を含むこともある）を制御したり、指定されているモニターの種別かつ／または表示する映像の種類に応じて、その映像の画素変換を行う。制御の対象となる映像・音声・テキスト出力は、動画再生エンジン２０３およびメディア・デコーダ２１６からの出力である。さらに、ＡＶレンダラー２１８は、インタフェース・ハンドラー２０７から出力される“ＡＶ出力コントロール”信号に従って、動画再生エンジン２０３から入力される映像・音声データとメディア・デコーダから入力される映像・音声・テキストデータのミキシング（混合）、スイッチング（切替）を制御する機能をもつ。

レイアウト・マネージャー２１５は、“レイアウト・コントロール”信号をＡＶレンダラー２１８に出力する。“レイアウト・コントロール”信号には、出力する動画・静止画・テキストの大きさやその位置に関する情報（表示開始・終了・継続といった表示時間に関する情報を含む場合もある）が含まれており、どのようなレイアウトで表示すべきかをＡＶレンダラー２１８に指示するための情報となっている。また、インタフェース・ハンドラー２０７から入力されるユーザのクリック等の入力情報に対して、どのオブジェクトが指定されたのかを判定し、指定されたオブジェクトに対して定義された関連情報の表示などの動作命令を取り出すようにメタデータ・デコーダ２１７に対して指示する。取り出された動作命令は、スクリプト・インタプリタ２１２に送られ実行される。

メディア・デコーダ２１６（メタデータデコーダを含む）は、動画・静止画・テキストデータをデコードする。これらデコードされた映像データ、テキスト画像データをメディア・デコーダ２１６からＡＶレンダラー２１８に送信する。また、これらデコードデータは、インタフェース・ハンドラー２０２からの“メディア・コントロール”信号の指示によりデコードを行うとともに、インタフェース・ハンドラー２０２からの“タイミング”信号に同期してデコードが行われる。

２１９はサーバー装置のメタデータ記録媒体であり、クライアント装置２００に送信するメタデータが記録されたハードディスク、半導体メモリ、磁気テープなどである。このメタデータは、動画像データ記録媒体２３１に記録されている動画像データに関連したメタデータである。このメタデータには、後で説明するオブジェクト・メタデータが含まれている。２２０はサーバーのネットワーク・マネージャーであり、クライアント装置２００とネットワーク２２１を介してデータの送受信を行う。

（ＥＤＶＤデータ構造とＩＦＯファイル）
図５３は、動画像データ記録媒体２３１としてエンハンスドＤＶＤビデオディスクを用いた際のデータ構造の一例を示す図である。エンハンスドＤＶＤビデオディスクのＤＶＤビデオエリアは、ＤＶＤビデオ規格と同じデータ構造のＤＶＤビデオコンテンツ（ＭＰＥＧ２プログラムストリーム構造を持つ）を格納する。さらに、エンハンスドＤＶＤビデオディスクの他の記録エリアは、ビデオコンテンツの再生をバラエティに富んだものにできるエンハンスド・ナビゲーション（以下ＥＮＡＶと略記する）コンテンツを格納する。なお、上記記録エリアは、ＤＶＤビデオ規格でも存在が認められている。

ここで、ＤＶＤビデオディスクの基本的なデータ構造について説明する。すなわち、ＤＶＤビデオディスクの記録エリアは、内周から順にリードインエリア、ボリュームスペース、およびリードアウトエリアを含んでいる。ボリュームスペースは、ボリューム／ファイル構造情報エリア、およびＤＶＤビデオエリア（ＤＶＤビデオゾーン）を含み、さらにオプションで他の記録エリア（ＤＶＤアザーゾーン）を含むことができる。

上記ボリューム／ファイル構造情報エリア２は、ＵＤＦ（Universal Disk Format）ブリッジ構造のために割り当てられたエリアである。ＵＤＦブリッジフォーマットのボリュームは、ＩＳＯ／ＩＥＣ１３３４６のパート２に従って認識されるようになっている。このボリュームを認識するスペースは、連続したセクタからなり、図５３のボリュームスペースの最初の論理セクタから始まる。その最初の１６論理セクタは、ＩＳＯ９６６０で規定されるシステム使用のために予約されている。従来のＤＶＤビデオ規格との互換性を確保するには、このような内容のボリューム／ファイル構造情報エリアが必要となる。

また、ＤＶＤビデオエリアには、ビデオマネージャＶＭＧという管理情報と、ビデオ・タイトルセットＶＴＳ（ＶＴＳ＃１〜ＶＴＳ＃ｎ）というビデオコンテンツが１つ以上記録されている。ＶＭＧは、ＤＶＤビデオエリアに存在する全てのＶＴＳに対する管理情報であり、制御データＶＭＧＩ、ＶＭＧメニュー用データＶＭＧＭ＿ＶＯＢＳ（オプション）、およびＶＭＧのバックアップデータを含んでいる。また、各ＶＴＳは、そのＶＴＳの制御データＶＴＳＩ、ＶＴＳメニュー用データＶＴＳＭ＿ＶＯＢＳ（オプション）、そのＶＴＳ（タイトル）の内容（映画等）のデータＶＴＳＴＴ＿ＶＯＢＳ、およびＶＴＳＩのバックアップデータを含んでいる。従来のＤＶＤビデオ規格との互換性を確保するには、このような内容のＤＶＤビデオエリアも必要となる。

各タイトル（ＶＴＳ＃１〜ＶＴＳ＃ｎ）の再生選択メニュー等は、ＶＭＧを用いてプロバイダ（ＤＶＤビデオディスクの制作者）により予め与えられ、特定タイトル（例えばＶＴＳ＃１）内での再生チャプター選択メニューや記録内容（セル）の再生手順等は、ＶＴＳＩを用いてプロバイダにより予め与えられている。従って、ディスクの視聴者（ＤＶＤビデオプレーヤのユーザ）は、予めプロバイダにより用意されたＶＭＧ／ＶＴＳＩのメニューやＶＴＳＩ内の再生制御情報（プログラムチェーン情報ＰＧＣＩ）に従ってそのディスク１の記録内容を楽しむことができる。しかし、ＤＶＤビデオ規格では、視聴者（ユーザ）が、プロバイダが用意したＶＭＧ／ＶＴＳＩと異なる方法でＶＴＳの内容（映画や音楽）を再生することはできない。

プロバイダが用意したＶＭＧ／ＶＴＳＩと異なる方法でＶＴＳの内容（映画や音楽）を再生したり、プロバイダが用意したＶＭＧ／ＶＴＳＩとは異なる内容を付加して再生したりする仕組みのために用意したのが、図５３のエンハンスドＤＶＤビデオディスクである。このディスクに含まれるＥＮＡＶコンテンツは、ＤＶＤビデオ規格に基づき製造されたＤＶＤビデオプレーヤではアクセスできない（仮にアクセスできたとしてもその内容を利用できない）が、この発明の一実施の形態のＤＶＤビデオプレーヤではアクセスでき、その再生内容を利用できるようになっている。

ＥＮＡＶコンテンツは、音声、静止画、フォント・テキスト、動画、アニメーション、Vclickデータ等のデータと、これらの再生を制御するための情報であるＥＮＡＶドキュメント（これはMarkup/Script言語で記述されている）を含むように構成される。この再生を制御するための情報には、ＥＮＡＶコンテンツ（音声、静止画、フォント・テキスト、動画、アニメーション、Vclick等から構成される）および／またはＤＶＤビデオコンテンツの再生方法（表示方法、再生手順、再生切換手順、再生対象の選択等）がMarkup言語やScript言語を用いて記述されている。例えば、Markup言語として、ＨＴＭＬ（Hyper Text Markup Language）／ＸＨＴＭＬ（eXtensible Hyper Text Markup Language）やＳＭＩＬ（Synchronized Multimedia Integration Language）、Script言語として、ＥＣＭＡ（European Computer Manufacturers Association）ScriptやJava（登録商標）ScriptのようなScript言語などを組み合わせながら用いることができる。

ここで、図５３のエンハンスドＤＶＤビデオディスクは、他の記録エリア以外の内容がＤＶＤビデオ規格に従っているので、既に普及しているＤＶＤビデオプレーヤを用いても、ＤＶＤビデオエリアに記録されたビデオコンテンツを再生できる（つまり従来のＤＶＤビデオディスクと互換性がある）。他の記録エリアに記録されたＥＮＡＶコンテンツは従来のＤＶＤビデオプレーヤでは再生できない（あるいは利用できない）が、この発明の一実施の形態に係るＤＶＤビデオプレーヤでは再生でき利用できる。従って、この発明の一実施の形態に係るＤＶＤビデオプレーヤを用いＥＮＡＶコンテンツを再生すれば、プロバイダが予め用意したＶＭＧ／ＶＴＳＩの内容だけに限定されることなく、よりバラエティに富んだビデオ再生が可能になる。

特に、図５３に示すように、ＥＮＡＶコンテンツはVclickデータを含み、このVclickデータは、Vclick情報ファイル（Vclickインフォ）、Vclickアクセス・テーブル、Vclickストリーム、Vclick情報ファイル・バックアップ（Vclickインフォ・バックアップ）、Vclickアクセス・テーブル・バックアップを含んで構成される。

Vclick情報ファイルは、後述のVclickストリームが、ＤＶＤビデオコンテンツのどの箇所（例えば、ＤＶＤビデオコンテンツのタイトル全体、チャプター全体、あるいはその一部等）に付加しているかを表すデータである。Vclickアクセス・テーブルは、後述のVclickストリームごとに存在し、Vclickストリームにアクセスするためのテーブルである。Vclickストリームは、動画像中のオブジェクトの位置情報やオブジェクトがクリックされた際の動作記述等のデータを含むストリームである。Vclick情報ファイル・バックアップは、前述のVclick情報ファイルのバックアップであり、Vclick情報ファイルと常に同じ内容のものである。また、Vclickアクセス・テーブル・バックアップは、前述のVclickアクセス・テーブルのバックアップであり、Vclickアクセス・テーブルと常に同じ内容のものである。図５３の例ではVclickデータはエンハンスドＤＶＤビデオディスク上に記録されている。しかし、前述したようにVclickデータはネットワーク上のサーバー装置に置かれている場合もある。

図５４は、上述した、Vclick情報ファイル、Vclickアクセス・テーブル、Vclickストリーム、Vclick情報ファイル・バックアップ、Vclickアクセス・テーブル・バックアップを構成するためのファイルの例を示す。Vclick情報ファイルを構成するファイル（VCKINDEX.IFO）は、XML（Extensible Markup Language）言語で記述されており、Vclickストリームと、そのVclickストリームが付加されるＤＶＤビデオコンテンツの位置情報（ＶＴＳ番号、タイトル番号、ＰＧＣ番号等）が記述されている。Vclickアクセス・テーブルは、一つ以上のファイルから構成されており（VCKSTR01.IFO〜VCKSTR99.IFO、または、任意のファイル・ネーム）、一つのアクセス・テーブル・ファイルは、一つのVclickストリームに対応する。

Vclickストリーム・ファイルは、Vclickストリームの位置情報（ファイルの先頭からの相対バイト・サイズ）と時間情報（対応する動画像のタイムスタンプもしくはファイルの先頭からの相対時間情報）の関係が記述されており、与えられた時間に対応する再生開始位置を検索することができる。

Vclickストリームは、一つ以上のファイルから構成されており（VCKSTR01.VCK〜VCKSTR99.VCK、または、任意のファイル・ネーム）、前述のVclick情報ファイルの記述を参照して、付加されるＤＶＤビデオコンテンツとともに再生できる。また、複数の属性が存在する場合（例えば、日本語用Vclickデータと英語用Vclickデータ等）、属性ごとに異なるVclickストリーム、つまり異なるファイルとして構成することも可能であり、それぞれの属性をマルチプレクスして、一つのVclickストリーム、つまり一つのファイルとして構成することも可能である。なお、前者（異なる属性を複数のVclickストリームで構成）の場合は、再生装置（プレーヤ）にいったん記憶させるときのバッファ占有容量を少なくすることができる。また、後者（異なる属性を一つのVclickストリームで構成）の場合は、属性を切り替えるとき、ファイルを切り替えずに、一つのファイルを再生したままでよいので、切り替える速度を速くすることができる。

ここで、VclickストリームとVclickアクセス・テーブルの関連付けは、例えば、ファイル名にて行うことが可能である。前述の例においては、一つのVclickストリーム（VCKSTRXX.VCK、XXは01〜99）に対して、一つのVclickアクセス・テーブル（VCKSTRXX.IFO、XXは01〜99）を割り当てており、拡張子以外のファイル名を同じものにすることにより、VclickストリームとVclickアクセス・テーブルの関連付けが識別可能になる。

これ以外にも、Vclick情報ファイルにて、VclickストリームとVclickアクセス・テーブルの関連付けを記述することにより（並行に記述することにより）、VclickストリームとVclickアクセス・テーブルの関連付けが識別可能になる。

Vclick情報ファイル・バックアップはVCKINDEX.BUPファイルにて構成されており、前述のVclick情報ファイル（VCKINDEX.IFO）と全く同じ内容のものである。VCKINDEX.IFOが何らかの理由により（ディスクの傷や汚れ等により）、読み込みが不可能な場合、このVCKINDEX.BUPを代わりに読み込むことにより、所望の手続きを行うことができる。Vclickアクセス・テーブル・バックアップはVCKSTR01.BUP〜VCKSTR99.BUPファイルにて構成されており、前述のVclickアクセス・テーブル（VCKSTR01.IFO〜VCKSTR99.IFO）と全く同じ内容のものである。一つのVclickアクセス・テーブル（VCKSTRXX.IFO、XXは01〜99）に対して、一つのVclickアクセス・テーブル・バックアップ（VCKSTRXX.BUP、XXは01〜99）を割り当てており、拡張子以外のファイル名を同じものにすることにより、Vclickアクセス・テーブルとVclickアクセス・テーブル・バックアップの関連付けが識別可能になる。VCKSTRXX.IFOが何らかの理由により（ディスクの傷や汚れ等により）、読み込みが不可能な場合、このVCKSTRXX.BUPを代わりに読み込むことにより、所望の手続きを行うことができる。

図５５〜図５７には、Vclick情報ファイルの構成例を示す。Vclick情報ファイルは、XML言語で構成されており、最初に、XML言語であることが宣言され、次にXML言語で構成されたVclick情報ファイルであることが宣言される。更に、<vclickinfo>タグを用いてVclick情報ファイルの内容を記述する。

<vclickinfo>の領域は、0もしくは1つの<vmg>タグと、0もしくは1つ以上の<vts>タグから構成される。<vmg>の領域は、ＤＶＤビデオにおけるＶＭＧ空間を表しており、<vmg>の領域に記述されたVclickストリームは、ＶＭＧ空間のＤＶＤビデオデータに付加されることを表している。また、<vts>の領域は、ＤＶＤビデオにおけるＶＴＳ空間を表しており、<vts>タグ内にnum属性を付加することによりＶＴＳ空間の番号を指定している。例えば、<vts num="n">はn番目のＶＴＳ空間を示している。<vts num="n">の領域に記述されたVclickストリームは、n番目のＶＴＳ空間を構成するＤＶＤビデオデータに付加されることを表している。

<vmg>の領域は、0もしくは1つ以上の<vmgm>タグから構成される。<vmgm>の領域は、ＶＭＧ空間におけるＶＭＧメニュー・ドメインを表しており、<vmgm>タグ内にnum属性を付加することによりＶＭＧメニュー・ドメインの番号を指定している。例えば、<vmgm num="n">はn番目のＶＭＧメニュー・ドメインを示している。<vmgm num="n">の領域に記述されたVclickストリームは、n番目のＶＭＧメニュー・ドメインを構成するＤＶＤビデオデータに付加されることを表している。

更に、<vmgm>の領域は、0もしくは1つ以上の<pgc>タグから構成される。<pgc>の領域は、ＶＭＧメニュー・ドメインにおけるＰＧＣ（Program Chain）を表しており、<pgc>タグ内にnum属性を付加することによりＰＧＣの番号を指定している。例えば、<pmg num="n">はn番目のＰＧＣを示している。<pgc num="n">の領域に記述されたVclickストリームは、n番目のＰＧＣを構成するＤＶＤビデオデータに付加されることを表している。

次に、<vts>の領域は、0もしくは1つ以上の<vts_tt>タグと、0もしくは1つ以上の<vtsm>タグとから構成される。<vts_tt>の領域は、ＶＴＳ空間におけるタイトル・ドメインを表しており、<vts_tt>タグ内にnum属性を付加することによりタイトル・ドメインの番号を指定している。例えば、<vts_tt num="n">はn番目のタイトル・ドメインを示している。<vts_tt num="n">の領域に記述されたVclickストリームは、n番目のタイトル・ドメインを構成するＤＶＤビデオデータに付加されることを表している。

また、<vtsm>の領域は、ＶＴＳ空間におけるＶＴＳメニュー・ドメインを表しており、<vtsm>タグ内にnum属性を付加することによりＶＴＳメニュー・ドメインの番号を指定している。例えば、<vtsm num="n">はn番目のＶＴＳメニュー・ドメインを示している。<vtsm="n">の領域に記述されたVclickストリームは、n番目のＶＴＳメニュー・ドメインを構成するＤＶＤビデオデータに付加されることを表している。

更に、<vts_tt>の領域もしくは<vtsm>の領域は、0もしくは1つ以上の<pgc>タグから構成される。<pgc>の領域は、タイトル・ドメインもしくＶＴＳメニュー・ドメインにおけるＰＧＣ（Program Chain）を表しており、<pgc>タグ内にnum属性を付加することによりＰＧＣの番号を指定している。例えば、<pmg num="n">はn番目のＰＧＣを示している。<pgc num="n">の領域に記述されたVclickストリームは、n番目のＰＧＣを構成するＤＶＤビデオデータに付加されることを表している。

図５５〜図５７の例においては、6つのVclickストリームが、ＤＶＤビデオコンテンツに付加されている。例えば、最初のVclickストリームは、<vmg>での<vmgm num="1">における<pgc num="1">において、<object>タグを用いて指定されている。これは、ＶＭＧ空間における、１番目のＶＭＧメニュー・ドメインにおける、1番目のＰＧＣに対して、<object>タグにより指定されたVclickストリームが付加されることを示している。

次のVclickストリームは、<vmg>における、<vmgm num="n">において、<object>タグを用いて指定されている。これは、ＶＭＧ空間における、１番目のＶＭＧメニュー・ドメイン全体に対して、<object>タグにより指定されたVclickストリームが付加されることを示している。<object>タグでは、"data"属性を用いて、Vclickストリームの存在する場所を示す。例えば、この発明の一実施の形態においては、"http//www.vclick.com/dvd_enav/vclick2.vck"においてVclickストリームの存在する場所が指定されている。ここで、"http//www.vclick.com/dvd_enav/"はVclickストリームが外部のサーバー内に存在することを示し、"vclick2.vck"はVclickストリームのファイル名を示している。

Vclickアクセス・テーブルに関しても同様に、<object>タグ内において"data"属性を用い、Vclickアクセス・テーブルの存在する場所を示す。例えば、この発明の一実施の形態においては、"http//www.vclick.com/dvd_enav/vclick2.ifo"においてVclickアクセス・テーブルの存在する場所が指定されている。ここで、"http//www.vclick.com/dvd_enav/"はVclickアクセス・テーブルが外部のサーバー内に存在することを示し、"vclick2.ifo"はVclickアクセス・テーブルのファイル名を示している。

三番目のVclickストリームは、<vts num="1">における、<vts_tt num="1">における、<pgc num="1">において、<object>タグを用いて指定されている。これは、１番目のＶＴＳ空間における、１番目のタイトル・ドメインにおける、1番目のＰＧＣに対して、<object>タグにより指定されたVclickストリームが付加されることを示している。<object>タグでは、"data"属性を用いて、Vclickストリームの存在する場所を示す。例えば、この発明の一実施の形態においては、"file://dvdrom:/dvd_enav/vclick3.vck"においてVclickストリームの存在する場所が指定されている。ここで、"file://dvdrom:/dvd_enav/"は、Vclickストリームがディスク中の"DVD_ENAV"ディレクトリの下に存在することを示し、"vclick3.vck"はVclickストリームのファイル名を示している。

四番目のVclickストリームは、<vts num="1">における、<vts_tt num="n">において、<object>タグを用いて指定されている。これは、１番目のＶＴＳ空間における、n番目のタイトル・ドメインにおいて、<object>タグにより指定されたVclickストリームが付加されることを示している。<object>タグでは、"data"属性を用いて、Vclickストリームの存在する場所を示す。例えば、この発明の一実施の形態においては、"file://dvdrom:/dvd_enav/vclick4.vck"においてVclickストリームの存在する場所が指定されている。ここで、"file://dvdrom:/dvd_enav/"は、Vclickストリームがディスク中の"DVD_ENAV"ディレクトリの下に存在することを示し、"vclick4.vck"はVclickストリームのファイル名を示している。

五番目のVclickストリームは、<vts num="1">における、<vtsm num="1">において、<object>タグを用いて指定されている。これは、１番目のＶＴＳ空間における、１番目のＶＴＳメニュー・ドメインにおいて、<object>タグにより指定されたVclickストリームが付加されることを示している。<object>タグでは、"data"属性を用いて、Vclickストリームの存在する場所を示す。例えば、この発明の一実施の形態においては、"file://dvdrom:/dvd_enav/vclick5.vck"においてVclickストリームの存在する場所が指定されている。ここで、"file://dvdrom:/dvd_enav/"は、Vclickストリームがディスク中の"DVD_ENAV"ディレクトリの下に存在することを示し、"vclick5.vck"はVclickストリームのファイル名を示している。

六番目のVclickストリームは、<vts num="1">における、<vtsm num="1">における、<pgc num="1">において、<object>タグを用いて指定されている。これは、１番目のＶＴＳ空間における、１番目のＶＴＳメニュー・ドメインにおける、1番目のＰＧＣに対して、<object>タグにより指定されたVclickストリームが付加されることを示している。<object>タグでは、"data"属性を用いて、Vclickストリームの存在する場所を示す。例えば、この発明の一実施の形態においては、"file://dvdrom:/dvd_enav/vclick6.vck"においてVclickストリームの存在する場所が指定されている。ここで、"file://dvdrom:/dvd_enav/"は、Vclickストリームがディスク中の"DVD_ENAV"ディレクトリの下に存在することを示し、"vclick6.vck"はVclickストリームのファイル名を示している。

図５８は、前述のVclickインフォの記述例にて記述されたVclickストリームとＤＶＤビデオコンテンツの関係を示す図である。ここで、１番目のＶＴＳ空間における、1番目のＶＴＳメニュー・ドメインにおける、1番目のＰＧＣに対して、前述の五番目のVclickストリームと、六番目のVclickストリームが付加されていることが分かる。これは、ＤＶＤビデオコンテンツに対して、二つのVclickストリームが付加されていることを表し、例えば、ユーザによって、あるいはコンテンツ・プロバイダ（コンテンツ・オーサ）によって、切り替えることが可能となる。

ユーザが切り替える場合は、Vclickストリームを切り替えるための"Vclick切り替えボタン"がリモートコントローラ（図示せず）に備え付けてあり、これにより二つもしくはそれ以上のVclickストリームを自由に変更することができる。コンテンツ・プロバイダが変更する場合は、Ｍａｒｋｕｐ言語にVclick切り替えのためのコマンド（"changeVclick()"）が記述されており、コンテンツ・プロバイダがＭａｒｋｕｐ言語にて指定したタイミングでコマンドを発行し、二つもしくはそれ以上のVclickストリームを自由に変更することができる。

図５９〜図６５には、Vclick情報ファイルの別の記述例（7つ）を示す。最初の例（図５９）においては、一つのＰＧＣ（ＰＧＣ＃１）に対し、ディスク上に記録されている二つのVclickストリーム（Vclickストリーム＃１、Vclickストリーム＃２）とサーバー上に記録されている一つのVclickストリーム（Vclickストリーム＃３）が付加されている。これは前述のように、ユーザによってVclickストリーム＃１、Vclickストリーム＃２、Vclickストリーム＃３を自由に切り替えさせることもでき、コンテンツ・プロバイダによって切り替えさせることもできる。

コンテンツ・プロバイダによって切り替えさせる場合は、例えば、再生装置がVclickストリーム＃３の再生が指示されたが、再生装置が外部サーバーにつながっていない場合や、つながっているがVclickストリーム＃３が外部サーバーから取得できない場合は、ティスク上のVclickストリーム＃１またはVclickストリーム＃２に代替させることができる。また、<object>タグ内の"priority"属性は、それぞれのストリームを切り替える際の順番を示しており、例えば、前述のユーザ（"Vclick切り替えボタン"を用いて）やコンテンツ・プロバイダ（Vclick切り替えのためのコマンド"changeVclick()"を用いて）が順次切り替える際に、"priority"属性の順序を参照し、Vclickストリーム＃１→Vclickストリーム＃２→Vclickストリーム＃３→Vclickストリーム＃１→....というように切り替えられる。

また、コンテンツ・プロバイダは、Ｍａｒｋｕｐ言語において、Vclick切り替えのためのコマンド（"changeVclick(priority)"）を用いることにより、コンテンツ・プロバイダがＭａｒｋｕｐ言語にて指定したタイミングでコマンドを発行し、任意のVclickストリームを選択することもできる。例えば、"changeVclick(2)"コマンドを発行した場合は、"priority属性"が"2"であるVclickストリーム＃２が再生される。

次の例（図６０）においては、一つのＰＧＣ（ＰＧＣ＃２）に対し、ディスク上に記録されている二つのVclickストリーム（Vclickストリーム＃１、Vclickストリーム＃２）が付加されている。ここで、<object>タグ内の"audio"属性は、オーディオ・ストリーム番号に対応しており、この例においては、ＤＶＤビデオコンテンツのオーディオ・ストリーム＃１が再生されている場合は、Vclickストリーム＃１（Vclick1.vck）を同期再生し、オーディオ・ストリーム＃２が再生されている場合は、Vclickストリーム＃２（Vclick2.vck）を同期再生することを示す。

例えば、ビデオコンテンツのオーディオ・ストリーム＃１が日本語音声、オーディオ・ストリーム＃２が英語音声にて構成されている場合、図６８に示すようにVclickストリーム＃１を日本語にて（つまりVclickオブジェクトの説明の表示が日本語で記述されている、またはVclickオブジェクトがクリックさせたあとのアクセス先が日本語で構成されているサイトやページ）、図６７に示すようにVclickストリーム＃２を英語にて（つまりVclickオブジェクトの説明の表示が英語で記述されている、またはVclickオブジェクトがクリックさせたあとのアクセス先が日本語で構成されているサイトやページ）を構成することにより、ＤＶＤビデオコンテンツの音声の言語とVclickストリームの言語を合わせることができる。実際には、再生装置は、再生装置内のシステムパラメータであるＳＰＲＭ（１）（オーディオ・ストリーム番号）を参照し、それに対応したVclickストリームを、このVclick情報ファイルから検索して再生する。

三番目の例（図６１）においては、一つのＰＧＣ（ＰＧＣ＃３）に対し、ディスク上に記録されている三つのVclickストリーム（Vclickストリーム＃１、Vclickストリーム＃２、Vclickストリーム＃３）が付加されている。ここで、<object>タグ内の"subpic"属性は、サブピクチャ・ストリーム番号（副映像番号）に対応しており、この例においては、ＤＶＤビデオコンテンツのサブピクチャ・ストリーム＃１が再生されている場合は、Vclickストリーム＃１（Vclick1.vck）を同期再生し、サブピクチャ・ストリーム＃２が再生されている場合は、Vclickストリーム＃２（Vclick2.vck）を同期再生し、サブピクチャ・ストリーム＃３が再生されている場合は、Vclickストリーム＃３（Vclick3.vck）を同期再生することを示す。

例えば、ビデオコンテンツのサブピクチャ・ストリーム＃１が日本語字幕、サブピクチャ・ストリーム＃３が英語字幕にて構成されている場合、図７０に示すように、Vclickストリーム＃１を日本語にて（つまりVclickオブジェクトの説明の表示が日本語で記述されている、またはVclickオブジェクトがクリックさせたあとのアクセス先が日本語で構成されているサイトやページ）、図６９に示すように、Vclickストリーム＃２を英語にて（つまりVclickオブジェクトの説明の表示が英語で記述されている、またはVclickオブジェクトがクリックさせたあとのアクセス先が日本語で構成されているサイトやページ）を構成することにより、ＤＶＤビデオコンテンツの字幕の言語とVclickストリームの言語を合わせることができる。実際には、再生装置は、再生装置内のシステムパラメータであるＳＰＲＭ（２）（サブピクチャ・ストリーム番号）を参照し、それに対応したVclickストリームを、このVclick情報ファイルから検索して再生する。

四番目の例（図６２）においては、一つのＰＧＣ（ＰＧＣ＃４）に対し、ディスク上に記録されている二つのVclickストリーム（Vclickストリーム＃１、Vclickストリーム＃２）が付加されている。ここで、<object>タグ内の"angle"属性は、アングル番号に対応しており、この例においては、ビデオコンテンツのアングル＃１が再生されている場合は、Vclickストリーム＃１（Vclick1.vck）を同期再生し（図７１）、アングル＃３が再生されている場合は、Vclickストリーム＃２（Vclick2.vck）を同期再生し（図７２）、アングル＃２が再生されている場合は、Vclickストリームを再生しないことを示す。通常、アングルが異なる場合は、人物などのVclickオブジェクトを付加する対象の位置が異なるため、アングルごとにVclickストリームを構成する必要がある。（一つのVclickストリームにそれぞれのVclickオブジェクト・データをマルチプレクスしてもよい。）実際には、再生装置は、再生装置内のシステムパラメータであるＳＰＲＭ（３）（アングル番号）を参照し、それに対応したVclickストリームを、このVclick情報ファイルから検索して再生する。

五番目の例（図６３）においては、一つのＰＧＣ（ＰＧＣ＃５）に対し、ディスク上に記録されている三つのVclickストリーム（Vclickストリーム＃１、Vclickストリーム＃２、Vclickストリーム＃３）が付加されている。ここで、<object>タグ内の"aspect"属性は、（初期）表示アスペクト比に対応しており、<object>タグ内の"display"属性は、（現在）表示モードに対応している。

この例においては、ＤＶＤビデオコンテンツ自体が"１６：９"のアスペクト比で構成されており、"１６：９"のアスペクト比をもつＴＶモニターには"ワイド（wide）"出力を、"４：３"のアスペクト比をもつＴＶモニターには"レターボックス（lb）"または"パンスキャン（ps）"出力が許されている例を示す。これに対して、Vclickストリームは、（初期）表示アスペクト比が"１６：９"かつ（現在）表示モードが"wide"のときはVclickストリーム＃１を同期再生し（図７３）、（初期）表示アスペクト比が"４：３"かつ（現在）表示モードが"lb"のときはVclickストリーム＃２を同期再生し（図７４）、（初期）表示アスペクト比が"４：３"かつ（現在）表示モードが"ps"のときはVclickストリーム＃３を同期再生する（図７５）。例えば、"１６：９"のアスペクト比で表示されていたときに、人物の真横に表示されていたVclickオブジェクトの吹き出しを、"４：３"のアスペクト比の"レターボックス"表示の場合は画面の上下（の黒部分）に表示したり、"４：３"のアスペクト比の"パンスキャン"表示の場合は画面の左右が切れてしまうが、表示が可能な位置に変更することが可能になる。

また、画面の構成に応じて、吹き出しのサイズを小さくしたり、または大きくしたり、吹き出し内の文字のサイズを小さく、または大きくすることが可能になる。これにより、ＤＶＤビデオコンテンツの表示状態に応じたVclickオブジェクトの表示を行うことが可能になる。実際には、再生装置は、再生装置内のシステムパラメータであるＳＰＲＭ（１４）（ビデオ用のプレーヤ構成）における“初期表示アスペクト比”と“現在表示モード"を参照し、それに対応したVclickストリームを、このVclick情報ファイルから検索して再生する。

六番目の例（図６４）においては、一つのＰＧＣ（ＰＧＣ＃６）に対し、ディスク上に記録されている一つのVclickストリーム（Vclickストリーム＃１）が付加されている。前例と同様に、<object>タグ内の"aspect"属性は、（初期）表示アスペクト比に対応しており、<object>タグ内の"display"属性は、（現在）表示モードに対応している。この例においては、ＤＶＤビデオコンテンツ自体が"４：３"のアスペクト比で構成されており、"４：３"のアスペクト比をもつＴＶモニターには"通常"モードで出力する場合に適用される。

最後に、前述の機能を組み合わせて用いることが可能であることを示す例（図６５）を示す。一つのＰＧＣ（ＰＧＣ＃７）に対し、ディスク上に記録されている四つのVclickストリーム（Vclickストリーム＃１、Vclickストリーム＃２、Vclickストリーム＃３、Vclickストリーム＃４）が付加されている。この例においては、ＤＶＤビデオコンテンツのオーディオ・ストリーム＃１が再生され、かつサブピクチャ・ストリーム＃１が再生され、かつアングル＃１が再生されている場合はVclickストリーム＃１（Vclick1.vck）を同期再生し、オーディオ・ストリーム＃１が再生され、かつサブピクチャ・ストリーム＃２が再生され、かつアングル＃１が再生されている場合はVclickストリーム＃２（Vclick2.vck）を同期再生し、アングル＃２が再生されている場合はVclickストリーム＃３（Vclick3.vck）を同期再生し、オーディオ・ストリーム＃２が再生され、かつサブピクチャ・ストリーム＃２が再生されている場合はVclickストリーム＃４（Vclick4.vck）を同期再生する。

以上、7つの例（図５９〜図６５）に関して、ＤＶＤビデオコンテンツのＰＧＣとその属性に対する付加されるVclickストリームの関係を図６６に示す。

この発明の一実施の形態における再生装置（エンハンスドＤＶＤプレーヤ）は、ＤＶＤビデオコンテンツを再生する前に、Vclick情報ファイルをあらかじめ読み込むことにより、もしくは適宜参照することにより、ＤＶＤビデオコンテンツの再生状態に応じて、逐次付加するVclickストリーム・ファイルを変化させることが可能となる。これにより、Vclickストリームを構成するにあたり自由度を持つことができ、オーサリングの負担を軽減することが可能となる。

また、一つのVclickコンテンツのファイル数（ストリーム数）を増やし、そのファイル・サイズを小さくすることにより、再生装置に必要とされるVclickストリームを格納するための領域（バッファ）を小さくすることも可能になる。

また、ファイル・サイズは大きくなるが、ファイル数を減らす（つまり一つのストリームが複数のVclickデータを含む構成にする）ことにより、ＤＶＤビデオコンテンツの再生状態が変化した場合、スムーズにVclickデータを切り替えることが可能となる。

（データ構造の概略とアクセス・テーブル）
Vclickストリームには、動画像データ記録媒体２３１に記録されている動画像に登場する人・物などのオブジェクトの領域に関するデータと、クライアント装置２００におけるオブジェクトの表示方法とユーザがそれらオブジェクトを指定したときにクライアント装置が取るべき動作のデータが含まれている。以下では、Vclickデータの構造とその構成要素の概要について説明する。

まず動画像に登場する人・物などのオブジェクトの領域に関するデータであるオブジェクト領域データについて説明する。

図３はオブジェクト領域データの構造を説明する図である。３００は、１つのオブジェクトの領域が描く軌跡をＸ（映像の水平方向の座標値）、Ｙ（映像の垂直方向の座標値）、Ｔ（映像の時刻）の３次元座標上に表現したものである。オブジェクト領域はあらかじめ決められた範囲内の時間（例えば０．５秒から１．０秒の間や、２秒から５秒の間、など）ごとにオブジェクト領域データに変換される。図３では１つのオブジェクト領域３００が３０１から３０５の５つのオブジェクト領域データに変換されており、これらオブジェクト領域データは別々のVclickアクセスユニット（ＡＵ）（後述）に格納される。このときの変換方法としては、例えばＭＰＥＧ−４の形状符号化やＭＰＥＧ−７の時空間記述子などを使うことができる。ＭＰＥＧ―４形状符号化やＭＰＥＧ−７時空間記述子はオブジェクト領域の時間的な相関を利用してデータ量を削減する方式であるため、途中からデータが復号できないことや、ある時刻のデータが欠落した場合に周囲の時刻のデータも復号できなくなるという問題がある。図３のように長い時間連続して動画像中に登場しているオブジェクトの領域を時間方向に分割してデータ化することにより、ランダムアクセスを容易にし、一部のデータの欠落の影響を軽減することができる。各Vclick_AUは動画像の中である特定の時間区間でのみ有効である。このVclick_AUが有効な時間区間をVclick_AUの有効期間（lifetime）と呼ぶ。

図４は、この発明の一実施の形態で用いるVclickストリーム中の、独立にアクセス可能な１単位（Vclick_AU）の構造を表したものである。４００はオブジェクト領域データである。図３で説明したとおり、ここには１つのオブジェクト領域のある連続した時間区間における軌跡がデータ化されている。このオブジェクト領域が記述されている時間区間をそのVclick_AUのアクティブ期間（active time）と呼ぶ。通常はVclick_AUのアクティブ期間はそのVclick_AUの有効期間と同一である。しかし、Vclick_AUのアクティブ期間をそのVclick_AUの有効期間の一部とすることも可能である。

４０１はVclick_AUのヘッダである。ヘッダ４０１には、Vclick_AUを識別するためのＩＤと、そのＡＵのデータサイズを特定するデータが含まれる。４０２はタイムスタンプであり、このVclick_AUの有効期間開始のタイムスタンプを示している。通常はVclick_AUのアクティブ期間と有効期間が同一であるため、オブジェクト領域データ４００に記述されたオブジェクト領域が動画像のどの時刻に相当するかも示している。図３に示されるように、オブジェクト領域はある時間範囲に及んでいるため、通常はタイムスタンプ４０２にはオブジェクト領域の先頭の時刻を記述しておく。もちろんオブジェクト領域データに記述されたオブジェクト領域の時間間隔やオブジェクト領域の末尾の時刻も記述するようにしても良い。４０３はオブジェクト属性情報であり、例えばオブジェクトの名称、オブジェクトが指定された際の動作記述、オブジェクトの表示属性などが含まれる。これらVclick_AU内のデータに関しては、後でより詳細に説明する。Vclick_AUは、サーバー装置においては送信しやすいようにタイムスタンプ順に並べて記録しておくほうが良い。

図５は複数のＡＵをタイムスタンプ順に並べてVclickストリームを生成する方法を説明する図である。この図では、カメラアングル１とカメラアングル２の２つのカメラアングルがあり、クライアント装置でカメラアングルを切り替えると表示される動画像も切り替えられることを想定している。また、選択可能な言語モードには日本語と英語の２種類があり、それぞれの言語に対して別々のVclickデータが用意されている場合を想定している。

図５に於いて、カメラアングル１かつ日本語用のVclick_AUは５００、５０１、５０２であり、カメラアングル２かつ日本語用のVclick_AUのＡＵは５０３である。そして英語用のVclick_AUは５０４と５０５である。５００から５０５はそれぞれ動画像中の一つのオブジェクトに対応したデータである。すなわち、図３と図４で説明したとおり一つのオブジェクトに関するメタデータは一つまたは複数のVclick_AUで構成されている（図５では１つの長方形が１つのＡＵを表している）。この図の横軸は動画像中の時間に対応しており、オブジェクトの登場時間に対応させて５００から５０５を表示してある。

各Vclick_AUの時間的な区切りは任意でもよいが、図５に例示されるように、全てのオブジェクトに対してVclick_AUの区切りを揃えておくと、データの管理が容易になる。５０６は、これらのVclick_AU（５００から７０５）から構成されたVclickストリームである。Vclickストリームは、ヘッダ部５０７に続いてVclick_AUをタイムスタンプ順にならべることにより構成される。

選択しているカメラアングルはユーザが視聴中に変更する可能性が高いため、このようにVclickストリームに異なるカメラアングルのVclick_AUを多重化してVclickストリームを作った方が良い。これは、クライアント装置で高速な表示切り替えが可能だからである。例えば、Vclickデータがサーバー装置２０１に置かれているとき、複数のカメラアングルのVclick_AUを含むVclickストリームをそのままクライアント装置に送信すれば、クライアント装置では視聴中のカメラアングルに対応したVclick_AUが常に届いているため、瞬時にカメラアングルの切り替えができる。もちろん、クライアント装置２００の設定情報をサーバー装置２０１に送り、必要なVclick_AUのみをVclickストリームから選択して送信することも可能であるが、この場合はサーバーとの通信を行う必要があるため多少処理が遅くなる（もっとも、通信に光ファイバなどの高速手段を用いればこの処理遅延の問題は解決できる）。

一方、動画像タイトル、ＤＶＤビデオのＰＧＣ、動画像のアスペクト比、視聴地域等の属性は変更の頻度が低いため、別々のVclickストリームとして作成しておいた方がクライアント装置の処理が軽くなり、ネットワークの付加も軽くなる。複数のVclickストリームがある場合にどのＶｃｋｌｉｃｋストリームを選択すべきかは、すでに説明したようにVclick情報ファイルを参照して決定できる。

次に、別のVclick_AUの選択方法について説明する。クライアント装置がサーバー装置から、Vclickストリーム５０６を取得し、クライアント装置の側で必要なＡＵのみを利用する場合を考える。この場合、必要なVclick_AUを識別する為のIDが各ＡＵに振られていても良い。これをフィルタＩＤと呼ぶ。

必要とされるＡＵの条件は、例えば、Vclick情報ファイル中に次のように記述される。なお、当該Vclick情報ファイルは動画像データ記録媒体２３１上に存在しても良いし、サーバー装置２０１からネットワーク経由でダウンロードされるようにしても良い。Vclick情報ファイルは通常、動画像データ記録媒体、サーバー装置など、Vclickストリームと同一の記録媒体から供給される：
<pgc num="7">
//audio/subpictureストリームとangleによるVclickストリームの定義
<object data="file://dvdrom:/dvd_enav/vclick1.vck" audio="1" subpic="1" angle="1"/>
<object data="file://dvdrom:/dvd_enav/vclick1.vck" audio="3" subpic="2" angle="1"/>
</pgc>
ここでは、一つのVclickストリームに対して、二種類のフィルタリング条件が記述されている。これは、クライアントのシステムパラメータの設定に応じて、同一のVclickストリームから異なる属性を有する二種類のVclick_AUが選択可能である事を示している。

ＡＵがフィルタＩＤを持たない場合、メタデータ・マネージャー２１０が必要なVclick_AUを識別するには、ＡＵのタイムスタンプや属性などを見て、与えられた条件に適合するＡＵを選択する。

フィルタＩＤを用いる例を、上記の記述に即して説明する。audioはオーディオ・ストリーム番号を表しているが、これを4ビットの数値で表現する。同様に、副映像番号subpicとアングル番号angleに、それぞれ4ビットの数値を割り当てる。これにより、三つのパラメータの状態を12ビットの数値で表現する事ができる。即ち、audio="3"、subpic="2"かつangle="1"のパラメータは、16進表記で0x321と表現される。これをフィルタＩＤとして用いる。即ち、Vclick_AUは12ビットのフィルタＩＤをVclick_AUヘッダ内に有する（図１４のfiltering_id参照）。これは、ＡＵを選別する独立なパラメータ値のそれぞれに数字を割り当て、当該数字の組み合わせによりフィルタＩＤを定める方法である。なお、フィルタＩＤはVclick_AUヘッダ以外の場所に記述しても良い。

クライアント装置のフィルタリング動作を図４４に示す。まず、メタデータ・マネージャー２１０がインタフェース・ハンドラー２０７から、動画像クロック値ＴとフィルタＩＤ xとを受け取る（ステップＳ４４０１）。データ・マネージャー２１０は、バッファ２０９に格納されているVclickストリームの中から、有効期間が動画像クロック値Ｔを含むようなVclick_AUを全て見出す（ステップＳ４４０２）。このようなＡＵを見出すには、Vclickアクセス・テーブルを用いて、図４５及び図４６のような手続きを用いることができる。メタデータ・マネージャー２１０は、上記Vclick_AUヘッダを調べ、xと同一のフィルタＩＤを有するＡＵのみをメディア・デコーダ２１６に送る（ステップＳ４４０３〜Ｓ４４０５）。

以上の手続きによって、バッファ２０９からメタデータ・デコーダ２１７に送られるVclick_AUは次の性質を有する：
i）これら全てのＡＵは同一の有効期間を有するが、動画像クロックＴは当該有効期間に含まれる。

ii）これら全てのＡＵは、同一のフィルタＩＤ xを有する。

上記i）及びii）の条件を満足する、当該オブジェクト・メタデータ・ストリーム中のＡＵは、これらのＡＵ以外には存在しない。

上記では、フィルタＩＤは、パラメータに割り当てられたの組み合わせによって定義されていたが、Vclick情報ファイルの中でフィルタＩＤを直接指定するようにしても良い。例えば、IFOファイル中には次のように定められている：
<pgc num="5">
<param angle="1">
<object data="file://dvdrom:/dvd_enav/vclick1.vck" filter_id="3"/>
</param>
<param angle="3">
<object data="file://dvdrom:/dvd_enav/vclick2.vck" filter_id="4"/>
</param>
<param aspect="16:9" display="wide">
<object data="file://dvdrom:/dvd_enav/vclick1.vck" filter_id="2"/>
</param>
</pgc>
上記の記述は、各パラメータの指定によって、VclickストリームとフィルタＩＤの値が定まる事を示している。フィルタＩＤによるVclick_AUの選別と、バッファ２０９からメディア・デコーダ２１７へのＡＵの転送は、図４４の手続きと同じである。上記Vclick情報ファイルの指定に基づき、プレーヤのアングル番号が3である場合、"vclick2.vck"というファイルに格納されているVclickストリームから、フィルタＩＤの値が4に等しいVclick_AUのみが、バッファ２０９からメディア・デコーダ２１７に送られる。

サーバー装置２０１にVclickデータがある場合、動画像が先頭から再生される場合にはサーバー装置２０１はVclickストリームを先頭から順にクライアント装置に配信すればよい。しかし、ランダムアクセスが生じた場合にはVclickストリームの途中からデータを配信する必要がある。このときに、Vclickストリーム中の所望の位置に高速にアクセスするためには、Vclickアクセス・テーブルが必要となる。

図６はVclickアクセス・テーブルの例である。このテーブルはあらかじめ作成され、サーバー装置２０１内に記録されている。Vclick情報ファイルと同じファイルにしておくことも可能である。６００はタイムスタンプの配列であり、動画像のタイムスタンプが列挙されている。６０１はアクセスポイントの配列であり、動画像のタイムスタンプに対応したVclickストリームの先頭からのオフセット値が列挙されている。動画像のランダムアクセス先のタイムスタンプに対応した値がVclickアクセス・テーブルにない場合は、近い値のタイムスタンプのアクセスポイントを参照し、そのアクセスポイント周辺でVclickストリーム内のタイムスタンプを参照しながら送信開始場所を探索する。もしくは、Vclickアクセス・テーブルから動画像のランダムアクセス先のタイムスタンプよりも手前の時刻のタイムスタンプを探索し、そのタイムスタンプに対応したアクセスポイントからVclickストリームを送信する。

上記Vclickアクセス・テーブルは、サーバー装置が格納しており、サーバー装置がクライアントからのランダムアクセスに応じて、送信すべきVclickデータの検索の便宜に資する為のものである。しかし、サーバー装置が格納しているVclickアクセス・テーブルをクライアント装置にダウンロードして、Vclickストリームの検索をクライアント装置に行わせるようにしても良い。特に、Vclickストリームが、サーバー装置からクライアント装置に一括ダウンロードされる場合、Vclickアクセス・テーブルも又、サーバー装置からクライアント装置に一括ダウンロードされる。

一方、VclickストリームがＤＶＤなどの動画像記録媒体に記録されて提供される場合も考えられる。この場合も、再生コンテンツのランダムアクセスに応じて、利用すべきデータを検索するために、クライアント装置がVclickアクセス・テーブルを利用する事は有効である。この場合Vclickアクセス・テーブルは、Vclickストリーム同様、動画像記録媒体に記録されており、クライアント装置は当該動画像記録媒体から当該Vclickアクセス・テーブルを内部の主記憶等に読み出して利用する。

動画像のランダム再生などに伴って発生する、Vclickストリームのランダム再生は、メタデータ・デコーダ２１７によって処理される。図６のVclickアクセス・テーブルにおいて、タイムスタンプtimeは、動画像記録媒体に記録された動画像のタイムスタンプの形式を有する時刻情報である。例えば、動画像がMPEG-2で圧縮されて記録されているなら、timeはMPEG-2のPTSの形式をとる。更に、動画像が、例えばＤＶＤのように、タイトルやプログラム・チェーンなどのナビゲーション構造を持つ場合、それらを表現するパラメータ（TTN、VTS_TTN、TT_PGCN、PTTNなど）がtimeの形式に含まれる。

タイムスタンプの値の集合には、何らかの自然な全順序関係が定義されているものと仮定する。例えば、PTSについては時刻としての自然な順序関係が導入可能である。ＤＶＤのパラメータを含むタイムスタンプについても、ＤＶＤの自然な再生順序に従って、順序関係を導入する事が可能である。Vclickストリームは次の条件を満たしている：
ｉ）Vclickストリーム中のVclick_AUはタイムスタンプの昇順に並べられている。このとき、Vclick_AUの有効期間を次のように決定する：あるＡＵのタイムスタンプ値をtとおく。Vclickストリームにおいて当該ＡＵ以降にあるＡＵのタイムスタンプ値uについて、上記条件によりu >= tなる関係が成立する。このようなuの中でu≠tである最小の値をt'とおく。時刻tを開始時刻、時刻t'を終了時刻とする期間を、当該ＡＵの有効期間とする。

ii）Vclick_AUのアクティブ期間は、先に定義したとおり、Vclick_AU含まれるオブジェクト領域データに記述されているオブジェクト領域の時間範囲である。

ここで、Vclickストリームについて、アクティブ期間に関する次の制約条件をおく：
Vclick_AUのアクティブ期間は、当該ＡＵの有効期間に含まれている。

上記i）、ii）の制約条件を満たすVclickストリームは、以下に示すような良い性質を有する：第一には、下に述べるように、Vclickストリームのランダムアクセスを高速に行う事が可能である。第二には、Vclickストリームの再生を行う際のバッファ処理を単純化する事が可能となる。バッファにはVclickストリームがVclick_AU単位で格納され、大きいタイムスタンプを持つＡＵから消去されて行く。もし、上記二つの仮定が無ければ、有効なＡＵをバッファ上に保持しておく為に、大きなバッファと複雑なバッファ管理が必要になる。以後、Vclickストリームは、上記i）及びii）の二条件を満たすと仮定して説明を行う。

図６のVclickアクセス・テーブルにおいて、アクセスポイントoffsetはVclickストリーム上の位置を指し示す。例えば、Vclickストリームはファイルであり、offsetは当該ファイルのファイル・ポインタの値を指し示す。タイムスタンプtimeと組になっているアクセスポイントoffsetの関係は次のようになっている：
ｉ）offsetの示す位置は、あるVclick_AUの先頭位置である。

ii）当該ＡＵがもつタイムスタンプの値は、timeの値以下である。

iii）当該ＡＵより一つ前にあるＡＵがもつタイムスタンプの値は、timeより真に小さい。

Vclickアクセス・テーブルにおけるtimeの並びの間隔は任意で良いし、均等である必要もない。しかし、検索等の便宜を考慮して、均等にとっても良い。

Vclickアクセス・テーブルを用いた具体的な検索手順を図４５及び図４６に示す。Vclickストリームがサーバー装置からバッファ２０９に予めダウンロードされる場合、Vclickアクセス・テーブルも同様にサーバー装置からダウンロードされ、バッファ２０９内に格納される。VclickストリームとVclickアクセス・テーブルとが共に動画像データ記録媒体２３１に蓄積されている場合も同様に、VclickストリームとVclickアクセス・テーブルはディスク装置２３０からロードされ、バッファ２０９内に格納される。

メタデータ・マネージャー２１０は、インタフェース・ハンドラー２０７から動画像クロックＴを受け取ると（ステップＳ４５０１）、バッファ２０９に格納されているVclickアクセス・テーブルのtimeを検索し、t' <= Tなる最大のtime t'を求める（ステップＳ４５０２）。ここでの検索のアルゴリズムとして、例えばバイナリ・サーチを用いて、高速に検索を行う事ができる。Vclickアクセス・テーブルにおいて、得られたtime t'と組になっているoffset値を変数hに代入する（ステップＳ４５０３）。メタデータ・マネージャー２１０は、バッファ２０９に格納されているVclickストリームの先頭からhバイト目に存在するＡＵxを見出し（ステップＳ４５０４）、xのタイムスタンプ値を変数tに代入する（ステップＳ４５０５）。上記条件より、tはt'以下であるから、t <= Tが成立する。

メタデータ・マネージャー２１０は、xから始めて、当該Vclickストリーム中のVclick_AUを順次調べて行き、次のＡＵを改めてxとおく（ステップＳ４５０６）。続いて、変数h'にxのオフセット値を代入し（ステップＳ４５０７）、xのタイムスタンプ値を変数uに代入する（ステップＳ４５０８）。u > Tであれば（ステップＳ４５０９イエス）、バッファ２０９に対して、Vclickストリームのオフセットhからh'までを、メディア・デコーダ２１６に送るよう指示を出す（ステップＳ４５１０〜Ｓ４５１１）。一方、u <= Tであって（ステップＳ４５０９ノー）、かつu > tであれば（ステップＳ４６０１イエス）、tの値をuで更新する（即ちt = uとする）（ステップＳ４６０２）。そして、変数hの値をh’で更新する（即ちh= h'とする）（ステップＳ４６０３）。

Vclickストリーム上に、次のＡＵが存在すれば（即ち、xが最後のＡＵでなければ）（ステップＳ４６０４イエス）、次のＡＵを改めてxとおき、上記手続きを繰り返す（図４５のステップＳ４５０６へ戻る）。ここで、もし、xが当該Vclickストリームの最後のVclick_AUであれば（ステップＳ４６０４ノー）、バッファ２０９に対して、Vclickストリームのオフセットhから最後までを、メディア・デコーダ２１６に送るよう指示を出す（ステップＳ４６０５〜Ｓ４６０６）。

以上の手続きによって、バッファ２０９からメディア・デコーダ２１６に送られるVclick_AUは、明らかに次の性質を有する：
ｉ）全てのVclick_AUは同一の有効期間を有する。しかも、動画像クロックＴは当該有効期間に含まれる。

ii）上記i）の条件を満足する、当該Vclickストリーム中のVclick_AUは、これらのＡＵ以外には存在しない。

VclickストリームにおけるVclick_AUの有効期間は、当該ＡＵのアクティブ期間を含んでいるが、これらは常に一致しているとは限らない。実際、図４７に示すような状況が考えられる。それぞれオブジェクト１及びオブジェクト２を記述するＡＵ#1及びＡＵ#2の有効期間は、ＡＵ#3の有効期間の開始時刻までである。しかし、各ＡＵのアクティブ期間は有効期間に一致していない。

いま、ＡＵが#1、#2、#3の順に並んだVclickストリームを考える。動画像クロックＴが指定されたとする。図４５及び図４６に示すような手続きによれば、当該VclickストリームからＡＵ#1とＡＵ#2とがメディア・デコーダ２１６に送られる。メディア・デコーダ２１６は受け取ったVclick_AUのアクティブ期間を認識できるため、この処理によりランダムアクセスが実現可能である。しかし実際には、オブジェクトが存在しない時刻Ｔについても、バッファ２０９からのデータ転送と、メディア・デコーダ２１６におけるデコード処理が発生するため、計算の効率が低下するという問題がある。この問題は、NULL_AUと呼ぶ特別なVclick_AUを導入することで解決できる。

NULL_AUの構造を図４８に示す。NULL_AUは、通常のVclick_AUが必ず持つオブジェクト領域データを持たない。従って、NULL_AUは有効期間のみを持ち、アクティブ期間は存在しない。NULL_AUのヘッダには当該ＡＵがNULL_AUである事を示すフラグが含まれている。NULL_AUは、Vclickストリームにおいて、オブジェクトのアクティブ期間が存在しない時間範囲に挿入する事ができる。

メタデータ・マネージャー２１０は、NULL_AUをメディア・デコーダ２１６に送出しない。NULL_AUを導入した場合、図４７は例えば図４９の様に変化する。図４９のＡＵ#4がNULL_AUである。この場合、Vclickストリームおいて、Vclick_AUは例えばＡＵ#1'、#2'、#4、#3の順に並んでいる。NULL_AUを含むVclickストリームに関して、図４５及び図４６に相当するメタデータ・マネージャー２１０の動作を図５０、図５１及び図５２に示す。

すなわち、メタデータマネージャ２１０がインターフェースマネージャ２０７から動画像クロックＴを受け取り（ステップＳ５００１）、 t' <= Tである最大のt'を求め（ステップＳ５００２）、 t'と組になるoffset値を変数hに代入する（ステップＳ５００３）。続いて、オブジェクトメタデータストリームにおいてオフセット値hにあるアクセスユニットＡＵをxとおき（ステップＳ５００４）、xのタイムスタンプ値を変数tに格納する（ステップＳ５００５）。ここで、xがNULL_AUであれば（ステップＳ５００６イエス）、xの次のＡＵを改めてxとおいて（ステップＳ５００７）、ステップＳ５００６に戻る。ここで、xがNULL_AUでなければ（ステップＳ５００６ノー）、xのオフセット値を変数h‘に格納する（ステップＳ５１０１）。この後の処理（図５１のステップＳ５１０２〜Ｓ５１０５および図５２のステップＳ５２０１〜Ｓ５２０６）は、図４５のステップＳ４５０８〜Ｓ４５４５１１および図４６のステップＳ４６０１〜Ｓ４６０６と同様な処理となる。

次にサーバー装置・クライアント装置間のプロトコルについて説明する。Vclickデータをサーバー装置２０１からクライアント装置２００に送信するときに使用するプロトコルとしては、例えばＲＴＰ（Real-time Transport Protocol）がある。ＲＴＰはＵＤＰ／ＩＰとの相性が良く、リアルタイム性を重視しているためにパケットが欠落する可能性がある。ＲＴＰを用いると、Vclickストリームは送信用パケット（ＲＴＰパケット）に分割されて送信される。ここではVclickストリームの送信用パケットへの格納方法例を説明する。

図７と図８はそれぞれVclick_AUのデータサイズが小さい場合と大きい場合の送信用パケット構成方法を説明する図である。図７の７００はVclickストリームである。送信用パケットはパケットヘッダー７０１とペイロードからなる。パケットヘッダー７０１にはパケットのシリアル番号、送信時刻、発信元の特定情報などが含まれている。ペイロードは送信データを格納するデータ領域である。ペイロードにVclick_AU７００から順に取り出したVclick_AU（７０２）を納めていく。ペイロードに次のVclick_AUが入りきらない場合には残りの部分にパディングデータ７０３を挿入する。パディングデータはデータのサイズを合わせるためのダミーデータであり、例えば０値の連続である。ペイロードのサイズを１つまたは複数のVclick_AUサイズと等しくできる場合にはパディングデータは不要である。

一方、図８はペイロードに１つのVclick_AUが収まりきらない場合の送信用パケットの構成方法である。Vclick_AU（８００）はまず１番目の送信用パケットのペイロードに入りきる部分（８０２）のみペイロードに格納される。残りのデータ（８０４）は第２の送信用パケットのペイロードに格納され、ペイロードの格納サイズに余りが生じていればパディングデータ８０５で埋める。一つのVclick_AUを３つ以上のパケットに分割する場合の方法も同様である。

ＲＴＰ以外のプロトコルとしては、ＨＴＴＰ（Hypertext Transport Protocol）またはＨＴＴＰＳを用いることができる。ＨＴＴＰはＴＣＰ／ＩＰとの相性が良く、この場合欠落したデータは再送されるため信頼性の高いデータ通信が行えるが、ネットワークのスループットが低い場合にはデータの遅延が生じるおそれがある。ＨＴＴＰではデータの欠落がないため、Vclickストリームをどのようにパケットに分割して格納するかを特に考慮する必要はない。

（再生手順（ネットワーク））
次に、Vclickストリームがサーバー装置２０１上にある場合における再生処理の手順について説明する。

図３７はユーザが再生開始を指示してから再生が開始されるまでの再生開始処理手順を表す流れ図である。まずステップＳ３７００でユーザにより再生開始の指示が入力される。この入力は、インタフェース・ハンドラー２０７が受け取り、動画像再生コントローラ２０５に動画像再生準備の命令を出す。次に、分岐処理ステップＳ３７０１として、すでにサーバー装置２０１とのセッションが構築されているかどうかの判定を行う。セッションがまだ構築されていなければステップＳ３７０２に、すでに構築されていればステップＳ３７０３に処理を移す。ステップＳ３７０２ではサーバーとクライアント間のセッションを構築する処理を行う。

図９はサーバー・クライアント間の通信プロトコルとしてＲＴＰ用いた場合の、セッション構築からセッション切断までの通信手順例である。セッションの始めにサーバー・クライアント間でネゴシエーションを行う必要があるが、ＲＴＰの場合にはＲＴＳＰ（Real Time Streaming Protocol）が用いられることが多い。ただし、ＲＴＳＰの通信には高信頼性が要求されるため、ＲＴＳＰはＴＣＰ／ＩＰで、ＲＴＰはＵＤＰ／ＩＰで通信を行うのが好ましい。まず、セッションを構築するために、クライアント装置（図２の例では２００）はストリーミングされるVclickデータに関する情報提供をサーバー装置（図２の例では２０１）に要求する（RTSPのDESCRIBEメソッド）。

ここで、再生される動画像に対応したデータを配信するサーバーのアドレスは、例えば動画像データ記録媒体にアドレス情報を記録しておくなどの方法であらかじめクライアントに知らされているものとする。サーバー装置はこの応答としてVclickデータの情報をクライアント装置に送る。具体的には、セッションのプロトコルバージョン、セッション所有者、セッション名、接続情報、セッションの時間情報、メタデータ名、メタデータ属性といった情報がクライアント装置に送られる。これらの情報記述方法としては、例えばＳＤＰ（Session Description Protocol）を使用する。次にクライアント装置はサーバー装置にセッションの構築を要求する（RTSPのSETUPメソッド）。サーバー装置はストリーミングの準備を整え、セッションＩＤをクライアント装置に返す。ここまでの処理がＲＴＰを用いる場合のステップＳ３７０２の処理である。

ＲＴＰではなくＨＴＴＰが使われている場合の通信手順は、例えば図１０のように行う。まず、ＨＴＴＰより下位の階層であるＴＣＰでのセッション構築（3 way handshake）を行う。ここで、先ほどと同様に、再生される動画像に対応したデータを配信するサーバーのアドレスはあらかじめクライアントに知らされているものとする。この後、クライアント装置の状態（例えば、製造国、言語、各種パラメータの選択状態など）をＳＤＰ等を用いてサーバー装置に送る処理が行われるようにしてもよい。ここまでがＨＴＴＰの場合のステップＳ３７０２の処理となる。

ステップＳ３７０３では、サーバー装置とクライアント装置間のセッションが構築された状態で、サーバーにVclickデータ送信を要求する処理を行う。これはインタフェース・ハンドラーがネットワーク・マネージャー２０８に指示を出し、ネットワーク・マネージャー２０８がサーバーに要求を出すことにより行われる。ＲＴＰの場合には、ネットワーク・マネージャー２０８はRTSPのPLAYメソッドをサーバーに送ることでVclickデータ送信を要求する。サーバー装置は、これまでにクライアントから受け取った情報とサーバー装置内にあるVclickインフォを参照して送信すべきVclickストリームを特定する。さらに、Vclickデータ送信要求に含まれる再生開始位置のタイムスタンプ情報とサーバー装置内にあるVclickアクセス・テーブルを用いてVclickストリーム中の送信開始位置を特定し、Vclickストリームをパケット化してＲＴＰによりクライアント装置に送る。

一方ＨＴＴＰの場合には、ネットワーク・マネージャー２０８はHTTPのGETメソッドを送信することによりVclickデータ送信を要求する。この要求には、動画像の再生開始位置のタイムスタンプの情報を含めても良い。サーバー装置は、ＲＴＰの時と同様の方法により送信すべきVclickストリームと、このストリーム中の送信開始位置を特定し、VclickストリームをＨＴＴＰによりクライアント装置に送る。

次に、ステップＳ３７０４では、サーバーから送られてくるVclickストリームをバッファ２０９にバッファリングする処理を行う。これは、Vclickストリームの再生中にサーバーからのVclickストリーム送信が間に合わず、バッファが空になってしまうことをさけるために行われる。メタデータ・マネージャー２１０からバッファに十分なVclickストリームが蓄積されたことがインタフェース・ハンドラーに通知されると、ステップＳ３７０５の処理に移る。ステップＳ３７０５では、インタフェース・ハンドラーがコントローラ２０５に動画像の再生開始命令を出し、さらにメタデータ・マネージャー２１０にVclickストリームのメタデータ・デコーダ２１７への送出を開始するよう命令を出す。

図３８は図３７とは別の再生開始処理の手順を説明する流れ図である。図３７の流れ図で説明される処理では、ネットワークの状態やサーバー、クライアント装置の処理能力により、ステップＳ３７０４でのVclickストリームを一定量バッファリングする処理に時間がかかる場合がある。すなわち、ユーザが再生を指示してから実際に再生が始まるまでに時間がかかってしまうことがある。図３８の処理手順では、ステップＳ３８００でユーザが再生開始を指示すると、次のステップＳ３８０１で直ちに動画像の再生が開始される。すなわち、ユーザからの再生開始指示を受けたインタフェース・ハンドラー２０７は、直ちにコントローラ２０５に再生開始命令を出す。これにより、ユーザは再生を指示してから動画像を視聴するまで待たされることがなくなる。次の処理ステップＳ３８０２からステップＳ３８０５までは、図３７のステップＳ３７０１からステップＳ３７０４と同一の処理である。

ステップＳ３８０６では、再生中の動画像に同期させてVclickストリームを復号する処理を行う。すなわち、インタフェース・ハンドラー２０７は、メタデータ・マネージャー２１０からバッファに一定量のVclickストリームが蓄積された通知を受け取ると、メタデータ・マネージャー２１０にVclickストリームのメタデータ・デコーダへの送出開始を命令する。メタデータ・マネージャー２１０はインタフェース・ハンドラーから再生中の動画像のタイムスタンプを受け取り、バッファに蓄積されたデータからこのタイムスタンプに該当するVclick_AUを特定し、メタデータ・デコーダへ送出する。

図３８の処理手順では、ユーザは再生を指示してから動画像を視聴するまで待たされることがないが、再生開始直後はVclickストリームの復号が行われないため、オブジェクトに関する表示が行われなかったり、オブジェクトをクリックしても何も動作が起こらないなどの問題点がある。

動画像の再生中、クライアント装置のネットワーク・マネージャー２０８はサーバー装置から次々に送られてくるVclickストリームを受信し、バッファ２０９に蓄積する。蓄積されたオブジェクト・メタデータは適切なタイミングでメタデータ・デコーダ２１７に送られる。すなわち、メタデータ・マネージャー２０８は、メタデータ・マネージャー２１０から送られてくる再生中の動画像のタイムスタンプを参照し、バッファ２０９に蓄積されているデータからそのタイムスタンプに対応したVclick_AUを特定し、この特定されたオブジェクト・メタデータをＡＵ単位でメタデータ・デコーダ２１７に送る。メタデータ・デコーダ２１７は受け取ったデータを復号する。ただし、クライアント装置が現在選択しているカメラアングルと異なるカメラアングル用のデータの復号は行わないようにしても良い。また、再生中の動画像のタイムスタンプに対応したVclick_AUがすでにメタデータ・デコーダ２１７にあることがわかっている場合には、オブジェクト・メタデータをメタデータ・デコーダに送らないようにしても良い。

再生中の動画像のタイムスタンプは逐次インタフェース・ハンドラーからメタデータ・デコーダ２１７に送られている。メタデータ・デコーダではこのタイムスタンプに同期させてVclick_AUを復号し、必要なデータをＡＶレンダラー２１８に送る。例えば、Vclick_AUに記述された属性情報によりオブジェクト領域の表示が指示されている場合には、オブジェクト領域のマスク画像や輪郭線などを生成し、再生中の動画像のタイムスタンプに合わせてＡ／Ｖレンダラー２１８に送る。また、メタデータ・デコーダは再生中の動画像のタイムスタンプとVclick_AUの有効時刻とを比較し、不要になった古いオブジェクト・メタデータを判定してそのデータを削除する。

図３９は再生停止処理の手順を説明する流れ図である。ステップＳ３９００では、ユーザにより動画像の再生中に再生停止が指示される。次にステップＳ３９０１で動画像再生を停止する処理が行われる。これはインタフェース・ハンドラー２０７がコントローラ２０５に停止命令を出すことにより行われる。また、同時にインタフェース・ハンドラーはメタデータ・マネージャー２１０にオブジェト・メタデータのメタデータ・デコーダへの送出停止を命令する。

ステップＳ３９０２はサーバーとのセッションを切断する処理である。ＲＴＰを用いている場合には、図９に示すようにRTSPのTEARDOWNメソッドをサーバーに送る。TEARDOWNのメッセージを受け取ったサーバー装置はデータ送信を中止してセッションを終了し、クライアント装置に確認メッセージを送る。この処理により、セッションに使用していたセッションＩＤが無効となる。一方、HTTPを用いている場合には、図１０に示されているようにHTTPのCloseメソッドをサーバーに送り、セッションを終了させる。

（ランダムアクセス手順（ネットワーク））
次に、Vclickストリームがサーバー装置２０１上にある場合におけるランダムアクセス再生の手順について説明する。

図４０はユーザがランダムアクセス再生の開始を指示してから再生が開始されるまでの処理手順を表す流れ図である。まずステップＳ４０００でユーザによりランダムアクセス再生の開始指示が入力される。入力の方法としては、チャプター等のアクセス可能位置のリストからユーザが選択する方法、動画像のタイムスタンプに対応づけられたスライドバー上からユーザが一点を指定する方法、直接動画像のタイムスタンプを入力する方法などがある。入力されたタイムスタンプは、インタフェース・ハンドラー２０７が受け取り、動画再生コントローラ２０５に動画像再生準備の命令を出す。もしもすでに動画像を再生中である場合には、再生中の動画像の再生停止を指示してから動画像再生準備の命令を出す。次に、分岐処理ステップＳ４００１として、すでにサーバー装置２０１とのセッションが構築されているかどうかの判定を行う。動画像を再生中である場合など、すでにセッションが構築されている場合にはステップＳ４００２のセッション切断処理を行う。セッションがまだ構築されていればステップＳ４００２の処理を行わずにステップＳ４００３に処理を移す。ステップＳ４００３ではサーバーとクライアント間のセッションを構築する処理を行う。この処理は図３７のステップＳ３７０２と同一の処理である。

次にステップＳ４００４では、サーバー装置とクライアント装置間のセッションが構築された状態で、サーバーに再生開始位置のタイムスタンプを指定してVclickデータ送信を要求する処理を行う。これはインタフェース・ハンドラーがネットワーク・マネージャー２０８に指示を出し、ネットワーク・マネージャー２０８がサーバーに要求を出すことにより行われる。ＲＴＰの場合には、ネットワーク・マネージャー２０８はRTSPのPLAYメソッドをサーバーに送ることでVclickデータ送信を要求する。このとき、Range記述を用いるなどの方法で再生開始位置を特定するタイムスタンプもサーバーに送る。サーバー装置は、これまでにクライアントから受け取った情報とサーバー装置内にあるVclickインフォを参照して送信すべきオブジェクト・メタデータ・ストリームを特定する。さらに、Vclickデータ送信要求に含まれる再生開始位置のタイムスタンプ情報とサーバー装置内にあるVclickアクセス・テーブルを用いてVclickストリーム中の送信開始位置を特定し、Vclickストリームをパケット化してＲＴＰによりクライアント装置に送る。

一方ＨＴＴＰの場合には、ネットワーク・マネージャー２０８はHTTPのGETメソッドを送信することによりVclickデータ送信を要求する。この要求には、動画像の再生開始位置のタイムスタンプの情報が含まれている。サーバー装置はＲＴＰの時と同様に、Vclick情報ファイルを参照して送信すべきVclickストリームを特定し、さらにタイムスタンプ情報とサーバー装置内にあるVclickアクセス・テーブルを用いてVclickストリーム中の送信開始位置を特定し、VclickストリームをＨＴＴＰによりクライアント装置に送る。

次に、ステップＳ４００５では、サーバーから送られてくるVclickストリームをバッファ２０９にバッファリングする処理を行う。これは、Vclickストリームの再生中にサーバーからのVclickストリーム送信が間に合わず、バッファが空になってしまうことをさけるために行われる。メタデータ・マネージャー２１０からバッファに十分なVclickストリームが蓄積されたことがインタフェース・ハンドラーに通知されると、ステップＳ４００６の処理に移る。ステップＳ４００６では、インタフェース・ハンドラーがコントローラ２０５に動画像の再生開始命令を出し、さらにメタデータ・マネージャー２１０にVclickストリームのメタデータ・デコーダへの送出を開始するよう命令を出す。

図４１は図４０とは別のランダムアクセス再生開始処理の手順を説明する流れ図である。図４０の流れ図で説明される処理では、ネットワークの状態やサーバー、クライアント装置の処理能力により、ステップＳ４００５でのVclickストリームを一定量バッファリングする処理に時間がかかる場合がある。すなわち、ユーザが再生を指示してから実際に再生が始まるまでに時間がかかってしまうことがある。

これに対し、図４１の処理手順では、ステップＳ４１００でユーザが再生開始を指示すると、次のステップＳ４１０１で直ちに動画像の再生が開始される。すなわち、ユーザからの再生開始指示を受けたインタフェース・ハンドラー２０７は、直ちにコントローラ２０５にランダムアクセス再生開始命令を出す。これにより、ユーザは再生を指示してから動画像を視聴するまで待たされることがなくなる。次からの処理ステップＳ４１０２からステップＳ４１０６までは、図４０のステップＳ４００１からステップＳ４００５と同一の処理である。

ステップＳ４１０７では、再生中の動画像に同期させてVclickストリームを復号する処理を行う。すなわち、インタフェース・ハンドラー２０７は、メタデータ・マネージャー２１０からバッファに一定量のVclickストリームが蓄積された通知を受け取ると、メタデータ・マネージャー２１０にVclickストリームのメタデータ・デコーダへの送出開始を命令する。メタデータ・マネージャー２１０はインタフェース・ハンドラーから再生中の動画像のタイムスタンプを受け取り、バッファに蓄積されたデータからこのタイムスタンプに該当するVclick_AUを特定し、メタデータ・デコーダへ送出する。

図４１の処理手順では、ユーザは再生を指示してから動画像を視聴するまで待たされることがないが、再生開始直後はVclickストリームの復号が行われないため、オブジェクトに関する表示が行われなかったり、オブジェクトをクリックしても何も動作が起こらないなどの問題点がある。

なお、動画像の再生中の処理と動画像停止処理は通常の再生処理の場合と同一であるため、説明は省略する。

（再生手順（ローカル））
次に、Vclickストリームが動画像データ記録媒体２３１上にある場合における再生処理の手順について説明する。

図４２はユーザが再生開始を指示してから再生が開始されるまでの再生開始処理手順を表す流れ図である。まずステップＳ４２００でユーザにより再生開始の指示が入力される。この入力は、インタフェース・ハンドラー２０７が受け取り、動画再生コントローラ２０５に動画像再生準備の命令を出す。次に、ステップＳ４２０１では、使用するVclickストリームを特定する処理が行われる。この処理では、インタフェース・ハンドラーは動画像データ記録媒体２３１上にあるVclick情報ファイルを参照し、ユーザが再生を指定した動画像に対応するVclickストリームを特定する。

ステップＳ４２０２では、バッファにVclickストリームを格納する処理が行われる。この処理を行うため、インタフェース・ハンドラー２０７はまずメタデータ・マネージャー２１０にバッファを確保する命令を出す。確保すべきバッファのサイズは、特定されたVclickストリームを格納するのに十分なサイズとして決められるが、通常はこのサイズを記述したバッファ初期化用文書が動画像データ記録媒体２３１に記録されている。初期化用文書がない場合には、あらかじめ決められているサイズを適用する。バッファの確保が完了すると、インタフェース・ハンドラー２０７はコントローラ２０５に特定されたVclickストリームを読み出してバッファに格納する命令を出す。

Vclickストリームがバッファに格納されると、次にステップＳ４２０３の再生開始処理が行われる。この処理では、インタフェース・ハンドラー２０７が動画再生コントローラ２０５に動画像の再生命令を出し、同時にメタデータ・マネージャー２１０にVclickストリームのメタデータ・デコーダへの送出を開始するよう命令を出す。

動画像の再生中、動画像データ記録媒体２３１から読み出されたVclick_AUはバッファ２０９に蓄積される。蓄積されたVclickストリームは適切なタイミングでメタデータ・デコーダ２１７に送られる。すなわち、メタデータ・マネージャー２０８は、メタデータ・マネージャー２１０から送られてくる再生中の動画像のタイムスタンプを参照し、バッファ２０９に蓄積されているデータからそのタイムスタンプに対応したVclick_AUを特定し、この特定されたVclick_AUをメタデータ・デコーダ２１７に送る。メタデータ・デコーダ２１７は受け取ったデータを復号する。ただし、クライアント装置が現在選択しているカメラアングルと異なるカメラアングル用のデータの復号は行わないようにしても良い。また、再生中の動画像のタイムスタンプに対応したVclick_AUがすでにメタデータ・デコーダ２１７にあることがわかっている場合には、Vclickストリームをメタデータ・デコーダに送らないようにしても良い。

再生中の動画像のタイムスタンプは逐次インタフェース・ハンドラーからメタデータ・デコーダ２１７に送られている。メタデータ・デコーダではこのタイムスタンプに同期させてVclick_AUを復号し、必要なデータをＡＶレンダラー２１８に送る。例えば、オブジェクト・メタデータのＡＵに記述された属性情報によりオブジェクト領域の表示が指示されている場合には、オブジェクト領域のマスク画像や輪郭線などを生成し、再生中の動画像のタイムスタンプに合わせてＡ／Ｖレンダラー２１８に送る。また、メタデータ・デコーダは再生中の動画像のタイムスタンプとVclick_AUの有効時刻とを比較し、不要になった古いVclick_AUを判定してそのデータを削除する。

ユーザにより動画像の再生中に再生停止が指示されると、インタフェース・ハンドラー２０７はコントローラ２０５に動画像再生の停止命令と、Vclickストリームの読み出しの停止命令を出す。この指示により、動画像の再生が終了する。

（ランダムアクセス手順（ローカル））
次に、Vclickストリームが動画像データ記録媒体２３１上にある場合におけるランダムアクセス再生の処理手順について説明する。

図４３はユーザがランダムアクセス再生の開始を指示してから再生が開始されるまでの処理手順を表す流れ図である。まずステップＳ４３００でユーザによりランダムアクセス再生開始の指示が入力される。入力の方法としては、チャプター等のアクセス可能位置のリストからユーザが選択する方法、動画像のタイムスタンプに対応づけられたスライドバー上からユーザが一点を指定する方法、直接動画像のタイムスタンプを入力する方法などがある。入力されたタイムスタンプは、インタフェース・ハンドラー２０７が受け取り、動画再生コントローラ２０５に動画像のランダムアクセス再生準備の命令を出す。

次に、ステップＳ４３０１では、使用するVclickストリームを特定する処理が行われる。この処理では、インタフェース・ハンドラーは動画像データ記録媒体２３１上にあるVclick情報ファイルを参照し、ユーザが再生を指定した動画像に対応するVclickストリームを特定する。さらに、動画像データ記録媒体２３１上にあるVclickアクセス・テーブル、もしくはメモリ上に読み込んであるVclickアクセス・テーブルを参照し、動画像のランダムアクセス先に対応するVclickストリーム中のアクセスポイントを特定する。

ステップＳ４３０２は分岐処理であり、特定されたVclickストリームが現在バッファ２０９に読み込まれているかどうかを判定する。バッファに読み込まれていない場合にはステップＳ４３０３の処理を行ってからステップＳ４３０４の処理に移る。現在バッファに読み込まれている場合には、ステップＳ４３０３の処理は行わずにステップＳ４３０４の処理に移る。ステップＳ４３０４は動画像のランダムアクセス再生開始、及びVclickストリームの復号開始である。この処理では、インタフェース・ハンドラー２０７が動画再生コントローラ２０５に動画像のランダムアクセス再生命令を出し、同時にメタデータ・マネージャー２１０にVclickストリームのメタデータ・デコーダへの送出を開始するよう命令を出す。その後は動画像の再生に同期させてVclickストリームの復号処理が行われる。動画像再生中、および動画像再生停止処理については通常の再生処理と同一であるため、説明は省略する。

（クリックから関連情報表示までの手順）
次に、ユーザがマウス等のポインティングデバイスを使ってオブジェクト領域内をクリックした場合のクライアント装置の動作について説明する。ユーザがクリックを行うと、まず動画像上のクリックされた座標位置がインタフェース・ハンドラー２０７に入力される。インタフェース・ハンドラーはメタデータ・デコーダ２１７にクリック時の動画像のタイムスタンプと座標を送る。メタデータ・デコーダはタイムスタンプと座標から、ユーザによって指示されたオブジェクトがどれであるかを特定する処理を行う。

メタデータ・デコーダでは、動画像の再生に同期させてVclickストリームをデコードしており、従ってクリックされた時のタイムスタンプにおけるオブジェクトの領域が生成されているため、この処理は容易に実行できる。クリックされた座標に複数のオブジェクト領域が存在する場合には、Vclick_AU内に含まれる階層情報を参照して最も前面にあるオブジェクトを特定する。

ユーザによって指定されたオブジェクトが特定されると、メタデータ・デコーダ２１７はそのオブジェクト属性情報４０３に記述されたアクション記述（動作を指示するスクリプト）をスクリプト・インタプリタ２１２に送る。アクション記述を受け取ったスクリプト・インタプリタはその動作内容を解釈し、実行する。例えば、指定されたＨＴＭＬファイルの表示を行ったり、指定された動画像の再生を開始したりする。これらＨＴＭＬファイルや動画像データは、クライアント装置２００に記録されている場合、サーバー装置２０１からネットワーク経由で送られてくる場合、ネットワーク上の別のサーバー上に存在している場合のいずれでも良い。

（データ構造の詳細）
次に、より具体的なデータ構造の構成例について説明する。図１１はVclickストリーム５０６のデータ構造の例である。各データ要素の意味は以下の通りである：
vcs_start_codeは、Vclickストリームの始まりを示す；
data_lengthは、このVclickストリームにおけるdata_lengthより後の部分のデータ長をバイトで指定する；
data_bytesはVclick_AUのデータ部である。この部分には先頭にVclickストリームのヘッダ５０７があり、続いて１つまたは複数のVclick_AUやNULL_AU（後述）が並ぶ。

図１２はVclickストリームのヘッダ５０７のデータ構造の例である。各データ要素の意味は以下の通りである：
vcs_header_codeは、Vclickストリームのヘッダの始まりを示す；
data_lengthは、Vclickストリームのヘッダのうち、data_lengthより後の部部のデータ長をバイト単位で表す；
vclick_versionは、フォーマットのバージョンを指定する。この値はこの仕様の中では01hとする；
bit_rateは、このVclickストリームの最大のビット・レートを指定する。

図１３はVclick_AUのデータ構造の例である。各データ要素の意味は以下の通りである：
vclick_start_codeは、各Vclick_AUの始まりを示す；
data_lengthは、このVclick_AUのdata_lengthより後の部分のデータ長をバイトで指定する；
data_byteはVclick_AUのデータ部である。この部分にヘッダ４０１、タイムスタンプ４０２、オブジェクト属性情報４０３、オブジェクト領域情報４００が含まれる。

図１４はVclick_AUのヘッダ４０１のデータ構造の例である。各データ要素の意味は以下の通りである：
vclick_header_codeは、各Vclick_AUのヘッダの始まりを示す；
data_lengthは、このVclick_AUのヘッダにおけるdata_lengthより後の部分のデータ長をバイトで指定される；
filtering_idはVclick_AUの識別ＩＤである。クライアント装置の属性とこのＩＤにより、復号すべきVclick_AUかどうかを判定するためのデータである；
object_idはVclickデータで記述されるオブジェクトの識別番号である。object_idの同じ値が2つのVclick_AUの中で使用される場合、両者は意味的に同一のオブジェクト用のデータである；
object_subidはオブジェクトの意味的な連続性を表す。２つのVclick_AUにおいてobject_idおよびobject_subidの両方が同じである場合、両者は連続的なオブジェクトを意味する；
continue_flagはフラグである。このフラグが"1"である場合、このVclick_AUに記述されたオブジェクト領域と、同一のobject_idを有する次のVclick_AUに記述されたオブジェクト領域とは連続していることを示す。そうでない場合にはこのフラグは"0"となる；
layerは、オブジェクトの階層値を表す。階層値が大きいほどオブジェクトが画面上で手前にあることを意味する。

図１５はVclick_AUのタイムスタンプ４０２のデータ構造の例である。この例では、動画像データ記録媒体２０４としてＤＶＤを用いる場合を仮定している。以下のタイムスタンプを用いることにより、ＤＶＤ上の動画像の任意の時刻を指定することが可能となり、動画像とVclickデータの同期が実現できる。各データ要素の意味は以下の通りである：
time_typeは、ＤＶＤ用タイムスタンプの始まりを示す；
data_lengthは、このタイムスタンプのうちdata_lengthより後の部分のデータ長をバイトで指定する；
VTSNは、ＤＶＤビデオのVTS（ビデオ・タイトルセット）番号を示す。

TTNは、ＤＶＤビデオのタイトル・ドメインにおけるタイトル番号を示す。ＤＶＤプレーヤのシステムパラメータSPRM(4)にストアされる値に相当する；
VTS_TTNは、ＤＶＤビデオのタイトル・ドメインにおけるVTSタイトル番号を示す。ＤＶＤプレーヤのシステムパラメータSPRM(5)にストアされる値に相当する；
TT_PGCNは、ＤＶＤビデオのタイトル・ドメインにおけるタイトルPGC（プログラム・チェーン）番号を示す。ＤＶＤプレーヤのシステムパラメータSPRM(6)にストアされる値に相当する；
PTTNは、ＤＶＤビデオの部分タイト（Part_of_Title）番号を示す。ＤＶＤプレーヤのシステムパラメータSPRM(7)にストアされる値に相当する。

CNは、ＤＶＤビデオのセル番号を示す；
AGLNは、ＤＶＤビデオのアングル番号を示す；
PTS[s .. e]は、ＤＶＤビデオの表示タイムスタンプのうち、sビット目からeビット目までのデータを示す。

図１６はVclick_AUのタイムスタンプ・スキップのデータ構造の例である。タイムスタンプ・スキップがタイムスタンプの代わりにVclick_AUに記述されている場合、このVclick_AUのタイムスタンプが直前のVclick_AUのタイムスタンプと同一である事を意味している。各データ要素の意味は以下の通りである：
time_typeは、タイムスタンプ・スキップの始まりを示す；
data_lengthは、このタイムスタンプ・スキップのうちdata_lengthより後の部分のデータ長をバイトで指定する。しかし、タイムスタンプ・スキップはtime_typeとdata_lengthのみから構成されるため、この値は常に0となる。

図１７はVclick_AUのオブジェクト属性情報４０３のデータ構造の例である。各データ要素の意味は以下の通りである：
vca_start_codeは、各Vclick_AUのオブジェクト属性情報の始まりを示す；
data_lengthは、このオブジェクト属性情報のうちdata_lengthより後の部分のデータ長をバイトで指定する；
data_bytesはオブジェクト属性情報のデータ部である。この部分には１つまたは複数の属性が記述される。

次に、オブジェクト属性情報４０３の中に記述される属性情報の詳細について説明する。図１８はオブジェクト属性情報４０３の中で記述可能な属性の種類の一覧である。最大値の欄には、それぞれの属性について、一つのオブジェクト・メタデータＡＵ内に記述可能な最大のデータ数の例を示した。

attribute_idは各属性データ中に含まれるＩＤで、属性の種類を見分けるためのデータである。名前属性は、オブジェクトの名前を特定するための情報である。アクション属性は、動画像中のオブジェクト領域がクリックされたときに、どのようなアクションを行うべきかが記述される。輪郭線属性は、オブジェクトの輪郭線をどのように表示させるかの属性を表す。点滅領域属性は、オブジェクト領域を点滅して表示する際の点滅色を特定する。モザイク領域属性は、オブジェクト領域をモザイク化して表示する際のモザイク化の仕方が記述されている。塗りつぶし領域属性は、オブジェクト領域に色を付けて表示させる際の色を特定する。

テキストカテゴリーに属する属性は、動画像に文字を表示させたいときに、表示させる文字に関する属性を定義する。テキスト情報には、表示させるテキストを記述する。テキスト属性は、表示させるテキストの色やフォント等の属性を特定する。ハイライト効果属性は、テキストの一部または全てをハイライト表示させる際に、どの文字をどのようにハイライト表示させるかを特定する。点滅効果属性は、テキストの一部または全てを点滅表示させる際に、どの文字をどのように点滅表示させるかを特定する。スクロール効果属性には、表示させるテキストをスクロールさせる際に、どの方向にどのような速さでスクロールさせるかが記述されている。カラオケ効果属性は、テキストの色を順次変更していく際に、どのようなタイミングでどこの文字の色を変更させるかを特定する。

最後に、階層拡張属性は、オブジェクトの階層値がVclick_AU内で変化する場合に、階層値の変化のタイミングとその値を定義するために用いられる。以上の属性のデータ構造について、以下で個々に説明する。

図１９はオブジェクトの名前属性のデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。名前属性については、この値は00hとする；
data_lengthは、名前属性データのdata_lengthより後のデータ長をバイトで表す；
languageは、以下の要素（nameとannotation）の記述に用いた言語を特定する。言語の指定にはISO-639「code for the representation of names of languages」を用いる；
name_lengthは、バイトでname要素のデータ長さを指定する；
nameは文字列であり、このVclick_AUで記述されているオブジェクトの名前を表す；
annotation_lengthは、バイトでannotation要素のデータ長を表す；
annotationは文字列であり、このVclick_AUで記述されているオブジェクトに関する注釈を表す。

図２０はオブジェクトのアクション属性のデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。アクション属性については、この値は01hとする；
data_lengthは、アクション属性データのうちdata_lengthより後の部分のデータ長をバイトで表す；
script_languageは、script要素に記述されているスクリプト言語の種類を特定する；
script_lengthは、バイト単位でscript要素のデータ長を表す；
scriptは文字列であり、このVclick_AUで記述されているオブジェクトがユーザにより指定された場合に実行すべきアクションをscript_languageで指定されたスクリプト言語で記述されている。

図２１はオブジェクトの輪郭線属性のデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性のタイプを指定する。輪郭線属性については、この値は02hとする；
data_lengthは、輪郭線属性データうちdata_lengthより後の部分のデータ長を指定する；
color_r、color_g、color_b、color_aは、このオブジェクト・メタデータＡＵで記述されているオブジェクトの輪郭の表示色を指定する；
color_r、color_gおよびcolor_bはそれぞれ色のRGB表現における赤、緑および青の値を指定する。一方、color_aは透明度を示す；
line_typeは、このVclick_AUで記述されているオブジェクトの輪郭線の種類（実線、破線など）指定する；
thicknessは、このVclick_AUで記述されているオブジェクトの輪郭線の太さをポイントで指定する。

図２２はオブジェクトの点滅領域属性のデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。点滅領域属性データについては、この値は03hとする；
data_lengthは、点滅領域属性データのうちdata_lengthより後の部分のデータ長をバイトで指定する；
color_r、color_g、color_b、color_aは、このVclick_AUで記述されているオブジェクトの領域の表示色を指定する。color_r、color_gおよびcolor_bはそれぞれ色のRGB表現における赤、緑および青の値を指定する。一方、color_aは透明度を示す。オブジェクト領域の点滅は、塗りつぶし領域属性の中で指定された色とこの属性で指定された色とを交互に表示させることにより実現される；
intervalは、点滅の時間間隔を指定する。

図２３はオブジェクトのモザイク領域属性のデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。モザイク領域属性データについては、この値は04hとする；
data_lengthは、モザイク領域属性データのうちdata_lengthより後の部分のデータ長をバイトで指定する；
mosaic_sizeは、モザイク・ブロックのサイズをピクセル単位で指定する；
randomnessはモザイク化したブロックの位置を入れ替える場合に、どの程度ランダムに入れ替えるかを表す。

図２４はオブジェクトのモザイク領域属性のデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。塗りつぶし領域属性データについては、この値は05hとする；
data_lengthは、塗りつぶし属性データのうちdata_lengthより後の部分のデータ長をバイトで指定する；
color_r、color_g、color_b、color_aは、このVclick_AUで記述されているオブジェクト領域の表示色を指定する。color_r、color_gおよびcolor_bはそれぞれ色のRGB表現における赤、緑および青の値を指定する。一方、color_aは透明度を示す。

図２５はオブジェクトのテキスト情報のデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。オブジェクトのテキスト情報については、この値は06hとする；
data_lengthは、オブジェクトのテキスト情報のうちdata_lengthより後の部分のデータ長をバイトで指定する；
languageは、記述されたテキストの言語を示す。言語の指定方法は、例えばISO-639「code for the representation of names of languages」を使うことができる；
char_codeは、テキストのコード種類を特定する。例えば、UTF-8、UTF-16、ASCII、Shift JISなどを指定する；
directionは、文字を並べる際の方向として、左方向、右方向、下方向、上方向を特定する。例えば、英語やフランス語ならば通常文字は左方向に並べる。一方、アラビア語ならば右方向に、日本語ならば左方向か下方向のどちらかに並べる。ただし、言語ごとに決まっている並び方向以外を指定しても良い。また、斜め方向を指定できるようにしても良い；
text_lengthは、バイトでtimed textの長さを指定する；
textは文字列であり、char_codeで指定された文字コードを用いて記述されたテキストである。

図２６はオブジェクトのテキスト属性のデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。オブジェクトのテキスト属性については、この値は07hとする；
data_lengthは、オブジェクトのテキスト属性のうちdata_lengthより後の部分のデータ長をバイトで指定する；
font_lengthは、フォントの記述長をバイト単位で指定する；
fontは文字列であり、テキストを表示する際に用いるフォントを指定する；
color_r、color_g、color_b、color_aは、テキストを表示する際の表示色を指定する。色はRGBにより表現される。また、color_r、color_gおよびcolor_bは、赤、緑および青の値をそれぞれ指定する。また、color_aは透過度を示す。

図２７はオブジェクトのテキスト・ハイライト効果属性のデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。オブジェクトのテキスト・ハイライト効果属性データについては、この値は08hとする；
data_lengthは、オブジェクトのテキスト・ハイライト効果属性データのうちdata_lengthより後の部分のデータ長をバイトで指定する；
entryは、このテキスト・ハイライト効果属性データ中のhighlight_effect_entryの数を示す；
data_bytesにentry個のhighlight_effect_endtryが含まれる；
highlight_effect_endtryの仕様は以下に示す通りである。

図２８はオブジェクトのテキスト・ハイライト効果属性のエントリーのデータ構造の例である。各データ要素の意味は以下の通りである：
start_positionは、強調される文字の開始位置を先頭から当該文字までの文字数により指定する；
end_positionは、強調される文字の終了位置を先頭から当該文字までの文字数により指定する；
color_r、color_g、color_b、color_aは、強調後の文字の表示色を指定する。色はRGBにより表現される。また、color_r、color_gおよびcolor_bは、赤、緑および青の値をそれぞれ指定する。また、color_aは透過度を示す。

図２９はオブジェクトのテキスト点滅効果属性のデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。オブジェクトのテキスト点滅効果属性データについては、この値は09hとする；
data_lengthは、テキスト点滅効果属性データのうちdata_lengthより後の部分のデータ長をバイトで指定する；
entryは、このテキスト点滅効果属性データ中のblink_effect_entryの数を示す；
data_bytesにentry個のblink_effect_entryを含む；
blink_effect_entryの仕様は以下の通りである。

図３０はオブジェクトのテキスト点滅効果属性のエントリーのデータ構造の例である。各データ要素の意味は以下の通りである：
start_positionは、点滅させる文字の開始位置を先頭から当該文字までの文字数により指定する；
end_positionは、点滅させる文字の終了位置を先頭から当該文字までの文字数により指定する；
color_r、color_g、color_b、color_aは、点滅文字の表示色を指定する。色はRGBにより表現される。また、color_r、color_gおよびcolor_bは、赤、緑および青の値をそれぞれ指定する。また、color_aは透過度を示す。ここで指定された色と、テキスト属性で指定された色とを交互に表示させることで文字を点滅させる；
intervalは、点滅の時間間隔を指定する。

図３１はオブジェクトのテキスト・スクロール効果属性のエントリーのデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。オブジェクトのテキスト・スクロール効果属性データについては、この値は0ahとする；
data_lengthは、テキスト・スクロール効果属性データのうちdeta_lengthより後の部分のデータ長をバイト単位で指定する；
directionは文字をスクロールする方向を指定する。例えば、0は右から左を、1は左から右を、2は上から下を、3は下から上を示す；
delayは、スクロールの速度を、表示させる先頭の文字が表示されてから最後の文字が表示されるまでの時間差により指定する。

図３２はオブジェクトのテキスト・カラオケ効果属性のエントリーのデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。オブジェクトのテキスト・カラオケ効果属性データについては、この値は0bhとする；
data_lengthは、テキスト・カラオケ効果属性データのうちdeta_lengthより後の部分のデータ長をバイト単位で指定する；
start_timeはこの属性データのdata_bytesに含まれる先頭のkaraoke_effect_entryで指定される文字列の文字色の変更開始時刻を指定する；
entryは、このテキスト・カラオケ効果属性データ中のkaraoke_effect_entryの数を示す；
data_bytesにentry個のkaraoke_effect_entryを含む；
karaoke_effect_entryの仕様は次に示す。

図３３はオブジェクトのテキスト・カラオケ効果属性のエントリーのデータ構造の例である。各データ要素の意味は以下の通りである：
end_timeはこのエントリーで指定される文字列の文字色の変更終了時刻を表す。また、このエントリーに続くエントリーがある場合には、次のエントリーで指定される文字列の文字色の変更開始時刻も表す；
start_positionは文字色を変更すべき文字列の先頭文字の位置を、先頭から当該文字までの文字数により指定する；
end_positionは文字色を変更すべき文字列の最後の文字の位置を、先頭から当該文字までの文字数により指定する。

図３４はオブジェクトの階層属性拡張のデータ構造の例である。各データ要素の意味は以下の通りである：
attribute_idは、属性データのタイプを指定する。オブジェクトの階層属性拡張データについては、この値は0chとする；
data_lengthは、階層属性拡張データのうちdeta_lengthより後の部分のデータ長をバイト単位で指定する；
start_timeはこの属性データのdata_bytesに含まれる先頭のlayer_extension_entryで指定される階層値が有効となる開始時刻を指定する；
entryは、この階層属性拡張データに含まれるlayer_extension_entryの数を指定する；
data_bytesにentry個のlayer_extension_entryが含まれる；
layer_extension_entryの仕様を次に説明する。

図３５はオブジェクトの階層属性拡張のエントリーのデータ構造の例である。各データ要素の意味は以下の通りである：
end_timeは、このlayer_extension_entryで指定される階層値が無効になる時刻を指定する。また、このエントリーの次にもエントリーがある場合には、次のエントリーで指定ｓれる階層値が有効になる開始時刻も同時に指定する；
layerは、オブジェクトの階層値を指定する。

図３６はオブジェクト・メタデータのＡＵのオブジェクト領域データ４００のデータ構造の例である。各データ要素の意味は以下の通りである：
vcr_start_codeは、オブジェクト領域データの開始を意味する；
data_lengthは、オブジェクト領域データのうちdata_lengthより後の部分のデータ長をバイトで指定する；
data_bytesはオブジェクト領域が記述されているデータ部である。オブジェクト領域の記述には、例えばMPEG-7のSpatioTemporalLocatorのバイナリフォーマットを用いることができる。

（object_subidの利用）
これまで説明してきたVclickデータを用いて、動画像中に登場するオブジェクトを検索することができる。例えば、オブジェクトの名前属性に含まれるnameやannotationにはオブジェクトの名前や情報がテキストで記述されている。従ってこれらのデータに対してキーワードによる検索を行うことにより、所望のオブジェクトを検索できる。

図８０はVclickデータを用いた検索の結果を表示した画面例である。この検索では、入力されたキーワードを含むVclick AU全てを検索対象とした。画像（８０００）はサムネイルであり、検索されたVclick AUのタイムスタンプに対応する時刻の画像である。サムネイルの下の説明（８００１）は、検索されたVclick AU中のオブジェクトの名前属性に含まれていたnameとannotation、そしてタイムスタンプである。この例では、サムネイルやサムネイルの下の説明をクリックすることで、その場面から動画を再生することができる。

図８０のようにVclick AU全てを検索結果としてリストアップした場合、表示される検索結果が多く成りすぎるという問題がある。例えば、ある登場人物が１０シーンに登場している動画像に対して検索を行ったと仮定する。さらに、各登場シーンは平均１５個のVclick AUに分割されており、この登場人物に対するVclick AUは合計１５０個含まれているものとする。これらのVclick AUのobject_idは全て同一の値を有する。従って、この登場人物に対応するキーワードで検索すると、１５０個のVclick AUがヒットする。しかし、その多くは同一のシーンにおける登場場面であるため、図８０のようなサムネイルの一覧や、検索された場面の再生を行ってもほとんどが同じような映像になってしまう。また、検索のヒット数が多くなってしまうため、検索結果の中から所望の場面を探すのが難しい。

以上のような、似通った検索結果が多数表示されてしまう問題点は、Vclick AUのヘッダに含まれるobject_idを用いることで解決できる。すなわち、検索結果から同一のobject_idを有するVcilck AUの表示を省略するようにすればよい。図８１はそのようにして検索結果を表示した例である。但し、このような方法では、図８１からわかるように一つのオブジェクトに対して一つの検索結果しか得られない。これでは、検索対象となっているオブジェクトがいくつかのシーンに登場する場合にはそれぞれのシーンへのアクセスを行うことはできない。

以上のような全てのVclick AUを対象にキーワード検索を行った結果を全て表示すると似通った検索結果が多数表示されてしまうという問題を解決し、また共通のobject_idを持つVclick AUの検索結果を省略すると検索結果が少なくなりすぎる現象を回避するため、object_idに加えてさらにVclick AUのヘッダに含まれるobject_subidを併用して検索を行う。以下、その手法について説明する。

図８２は、object_subidを利用したVclick AUのキーワード検索の処理を説明する流れ図の例である。ステップＳ８２００で初期値としてiに0を代入する。次に、ステップＳ８２０１でVclickストリーム中のi番目のVclick AUに対してキーワード検索を行う。すなわち、入力されたキーワードがVclick AUのオブジェクトの名前属性に含まれるnameやannotationに含まれているかどうかを調べる。このとき、キーワードそのものだけでなく、キーワードの類義語が含まれているかどうか調べるなどの高度なマッチングを行っても良い。また、入力を単純なキーワードだけでなく、自然言語により入力できるようにしても良い。

ステップＳ８２０２は選択処理であり、ステップＳ８２０１の検索処理の結果、i番目のVclick AUがヒットしたかどうかを判定する。ヒットした場合はステップＳ８２０３に処理を進める。ヒットしなかった場合はステップＳ８２０５の処理に移る。

ステップＳ８２０３は分岐処理であり、i番目のVclick AUのobject_idおよびobject_subidがこれまでにヒットしたVclick AUのobject_idおよびobject_subidとそれぞれ等しいかどうかを判定する。object_idおよびobject_subid両方がそれぞれ等しい場合には、ステップＳ８２０４の処理に移り、i番目のVclick AUを検索結果に登録する処理を行う。そうでない場合には、登録を行わずにステップＳ８２０５に移る。

ステップＳ８２０５では、処理対象となったi番目のVclick AUがVclickストリームの最後であるかどうかを判定する。最後であれば処理を終了し、最後でなければステップＳ８２０６で変数iの更新を行い、ステップＳ８２０１からの処理を繰り返す。

Vclick AUでは、同じオブジェクトに対して同じ値のobject_idが付与されるのに対し、object_subidはシーンまで一緒のときに限り同じ値を付与する。従って図８２の処理を行えば、シーンごとに一つずつのVclick AUが検索結果として出力される。図８３はobject_subidを利用したVclick AUのキーワード検索の結果の画面表示例である。図８３からもわかるように、この方法によれば、一つのシーンに対して一つの検索結果しか得られないため、検索されたオブジェクトを一覧させたり、登場場面を再生させたりしたときに同じような場面が表示されることがない。また、検索のヒット数が少なくなり、所望の場面が探しやすくなる。

（continue_flagの利用）
通信プロトコルとしてRTPを用いた場合、通常のモードではデータの再送が行われないため、サーバーからクライアントに届けられるデータの一部が欠落することがある。また、通信プロトコルとして信頼性の高いHTTPを用いた場合でも、通信路の状況が悪いとサーバーからクライアントにデータが正しく届けられるのに遅延が生じ、クライアント側の処理にデータが間に合わなくなることが生じる。このようなことが原因で、Vclick AUの一部がクライアント側に於いて欠落する場合がある。Vclick AUが欠落すると、オブジェクトを指定しても所望のアクションが起こらなかったり、オブジェクトの輪郭を表示している場合に輪郭が現れたり消えたりして見にくくなるなどの悪影響が生じる。ここでは、continue_flagを利用することによってVclick AUの一部欠落の影響を低減する方法について説明する。

図８４は、Vclickストリーム中のVclick AUが順次入力されたときに、ある特定のobject_idの値に対応したオブジェクトのデータを処理する際の処理の流れを説明する流れ図である。この処理では、まずVclick AUの欠落を判定し、さらに欠落したデータの補間処理を行うか否かの判断を行う。

まず、ステップＳ８４００で初期化処理として、二つの変数flagとT_Rに０を代入する。次にステップＳ８４０１において、クライアントが受け取ったVclick AUを順次取り出し、このステップ以降の処理を行う。新たなVclick AUがない場合には、そこで処理を終了する。

ステップＳ８４０２では処理対象のVclick AUのobject_idを取り出し、処理対象となっている特定のobject_idと同じであるかどうかを判定する。同じである場合にはステップＳ８４０３において、このVclick AUに含まれるオブジェクト領域データ４００に記述されたオブジェクト領域の先頭時刻T_Rを取り出す処理を行う。object_idが異なる場合には、ステップＳ８４０１に戻る。

ステップＳ８４０４では、T_RがT_Lよりも大きいかどうかを判定する。ここでT_Lは、現在処理しているVclick AUの直前に処理した同一object_idを有するVclick AUのオブジェクト領域終了時刻である。T_RがT_Lよりも大きければ欠落したVclick AUはないものと判断し、通常のVclick AU復号処理（ステップＳ８４０７）を行う。一方、T_RがT_L以下である場合には、ステップＳ８４０５に処理を進める。

ステップＳ８４０５では、変数flagの値を調べ、１であればVclick AUが欠落していると判定し、ステップＳ８４０６の処理を行う。flagの値が０であれば、欠落したVclick AUはないものと判断してステップＳ８４０７の処理を行う。

ステップＳ８４０８は変数の更新処理であり、変数flagにVclick AUのcontinue_flagの値を代入し、また、このVclick AUに記述されたオブジェクト領域の終了時間をT_Rに代入し、ステップＳ８４０１に戻る。

図８５は、ステップＳ８４０６で行われる補間処理を説明する図である。ここでは、オブジェクト領域データ４００として、各フレームにおけるオブジェクト領域が多角形や楕円で近似表現されている（例えば、MPEG-7の時空間記述子SpatioTemporalLocator）ものと仮定する。図８５の横軸は時間、縦軸はオブジェクト領域を表現する多角形のある頂点のＸ（またはＹ）座標値である。時刻T_Rより後の範囲８５００の座標値の軌跡は現在処理中のVclick AUに記述されており、時刻T_Lより前の範囲８５０１の座標値の軌跡は前のVclick AUに記述されている。時刻T_LからT_Rまでの範囲８５０２の座標値の軌跡を記述したVclick AUが欠落したことがステップＳ８４０３までの処理で判定されている。

このとき、ステップＳ８４０４の補間処理では、時刻T_Lと時刻T_Rにおける座標値を線形に補間することにより、欠落した時刻T_LからT_Rまでの範囲の座標値を生成する。多角形には複数の頂点があるので、それぞれの頂点のＸ座標、Ｙ座標について同様の処理を行い、最終的に欠落していた時刻T_LからT_Rまでの範囲のオブジェクト領域を生成する。

これまでcontinue_flagは、そのVclick AUに記述されたオブジェクト領域と、同一のobject_idを有する次のVclick AUに記述されたオブジェクト領域とは時間的に連続しているかどうかを示すフラグとして定義されていた。しかし、次のVclick AUではなく前のVclick AUに記述されたオブジェクト領域との時間的な連続性を示すフラグと定義しても同様の補間処理を行うことができる。

以上の処理では、時間的に連続するオブジェクト領域を記述した複数のVclick AUのうち、途中のVclick AUが欠落したときに正しく欠落判定される。先頭のVclick AUが欠落した場合には補間処理はできない。また、最後のVclick AUが欠落した場合には、時間的に不連続なオブジェクト領域が後に出てくる場合にオブジェクトのない時間区間まで補完してしまう可能性がある。このような誤った補間をさけるための最も簡単な方法は、補間処理を行う時間間隔に上限を設け、その上限以上の時間にわたる補間は行わないようにすることである。また別の方法は、continue_flag一つだけではなく、図８６のようにcontinue_f_flagとcontinue_b_flagのように前後の連続性を示す２つのフラグを含むVclick AUヘッダを用いる方法である。

continue_b_flagは、このVclick AUに記述されたオブジェクト領域と、同一のobject_idを有する次のVclick AUに記述されたオブジェクト領域とは時間的に連続しているかどうかを示す。連続であれば”1”、そうでない場合には”0”となる。一方、continue_f_flagは、このVclick AUに記述されたオブジェクト領域と、同一のobject_idを有する前のVclick AUに記述されたオブジェクト領域とは時間的に連続しているかどうかを示す。連続であれば”1”、そうでない場合には”0”となる。

図８７は、continue_f_flagとcontinue_b_flagを用いて欠落したVclick AUを補間する処理例を説明する流れ図である。図８４との違いは、ステップＳ８４０５がステップＳ８７００に置き換わったことである。ステップＳ８７００では、過去のVclick AUに記述されたオブジェクト領域との連続性を表すcontinue_f_の値も考慮して補間処理を行うか否かを決定する。

（テキストの圧縮）
これまでに説明したVclick AUのデータには、いくつかのテキストデータが含まれている。テキストをそのまま文字コードとしてデータ化するのは、データサイズが大きくなるという意味において非効率的である。そこで、記述されるテキストが多い場合には、テキストデータのみを圧縮してVclick AUに格納する方がよい。図８８、８９、９０はそれぞれテキストデータを圧縮可能なオブジェクトの名前属性、オブジェクトのアクション属性、オブジェクトのテキスト情報のデータ構造例である。

図８８のオブジェクトの名前属性のデータ構造では、図１９のデータ構造に加えname_compressionデータがある。このデータは後に続くオブジェクトの名前データが圧縮されているか非圧縮であるかを特定し、圧縮されている場合にはその圧縮方式も特定する。圧縮されている場合、name_lengthは圧縮されたテキストのデータサイズを表し、圧縮されたテキストデータはnameに格納される。annotationにおいても同様に、annotation_compressionがannotaionデータが非圧縮か圧縮されているかを特定し、圧縮の場合は圧縮方式も特定する。annotation_lengthはannotationのデータサイズを特定する。

図８９のオブジェクトのアクション属性のデータ構造は、図２０のデータ構造と比べるとscript_compressionデータが付加されている。script_compressionはscriptデータが非圧縮か圧縮されているかを特定し、圧縮の場合は圧縮方式も特定する。script_lengthはscriptのデータサイズを特定する。

図９０のオブジェクトのテキスト情報のデータ構造は、図２５のデータ構造にtext_compressionデータが付加されている。text_compressionはtextデータが非圧縮か圧縮されているかを特定し、圧縮の場合は圧縮方式も特定する。text_lengthはscriptのデータサイズを特定する。

（アプリケーション・イメージの説明）
図７６はこの発明のオブジェクト・メタデータを動画像と共に利用することにより実現されるアプリケーション（動画像ハイパーメディア）の図１とは別の画面上の表示例である。図１では動画像、関連情報を表示するウインドウはそれぞれ別々であったが、図７６では一つのウインドウＡ０１に動画像Ａ０２と関連情報Ａ０３が表示されている。関連情報としてテキストのみでなく、静止画Ａ０４やＡ０２とは別の動画像を表示させることも可能である。

（継続時間データを使ったVclick_AUの有効期間指定方法の説明）
図７７は、図４とは別のVclick_AUのデータ構造の例である。図４との違いは、Vclick_AUの有効期間を特定するためのデータがタイムスタンプのみではなく、タイムスタンプＢ０１と存続時間または継続時間Ｂ０２の組み合わせとなっている点である。タイムスタンプＢ０１はVclick_AUの有効期間の開始時刻であり、継続時間Ｂ０２はVclick_AUの有効期間の開始時刻から終了時刻までの継続時間である。継続時間の具体的な構成は、例えば図７９のようにすればよい。ここでtime_typeは図７９のデータが継続時間を意味することを特定するためのＩＤであり、durationが継続時間である。durationはあらかじめ決められた単位（例えば、１ミリ秒や０．１秒など）で継続時間を表す。

このようにVclick_AUを特定するためのデータとして継続時間も記述することの利点は、処理対象のVclick_AUだけを見ればそのVclick_AUの継続時間を知ることができる点である。従って、例えばあるタイムスタンプで有効なVclick_AUを探索しているような場合に、他のVclick_AUのデータを調べることなく、そのVclick_AUが探索対象であるかどうかが判定できる。ただし、図４の場合よりも継続時間Ｂ０２の分だけデータサイズが大きくなる。

図７８は図７７とはまた別のVclick_AUのデータ構造の例である。この例では、Vclick_AUの有効期間を特定するためのデータとしてVclick_AUの有効期間の開始時刻を特定するタイムスタンプＣ０１と終了時刻を特定するタイムスタンプＣ０２を使用している。このデータ構造を用いる場合の利点は図７７のデータ構造を用いる場合と同じである。

なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。例えば、この発明は現在世界的に普及しているＤＶＤ−ＲＯＭビデオのみならず、近年急速に需要が伸びている録画再生可能なＤＶＤ−ＶＲ（ビデオレコーダ）にも適用できる。さらには、近々普及が始まるであろう次世代ＨＤ−ＤＶＤの再生系または録再系にも適用可能である。

また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良い。

この発明の一実施の形態に係るハイパーメディアの表示例を説明する図。この発明の一実施の形態に係るシステムの構成例を示すブロック図。この発明の一実施の形態に係るオブジェクト領域とオブジェクト領域データの関係を説明する図。この発明の一実施の形態に係るオブジェクト・メタデータのアクセスユニットのデータ構造例を説明する図。この発明の一実施の形態に係るVclickストリームの構成方法を説明する図。この発明の一実施の形態に係るVclickアクセス・テーブルの構成例を説明する図。この発明の一実施の形態に係る送信用パケットの構成例を説明する図。この発明の一実施の形態に係る送信用パケットの別の構成例を説明する図。この発明の一実施の形態に係るサーバー・クライアント間の通信例を説明する図。この発明の一実施の形態に係るサーバー・クライアント間の別の通信例を説明する図。この発明の一実施の形態に係るVclickストリームのデータ要素の例を説明する図。この発明の一実施の形態に係るVclickストリームのヘッダのデータ要素の例を説明する図。この発明の一実施の形態に係るVclickアクセスユニット（ＡＵ）のデータ要素の例を説明する図。この発明の一実施の形態に係るVclickアクセスユニット（ＡＵ）のヘッダのデータ要素の例を説明する図。この発明の一実施の形態に係るVclickアクセスユニット（ＡＵ）のタイムスタンプのデータ要素の例を説明する図。この発明の一実施の形態に係るVclickアクセスユニット（ＡＵ）のタイムスタンプ・スキップのデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクト属性情報のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクト属性情報の種類の例を説明する図。この発明の一実施の形態に係るオブジェクトの名前属性のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトのアクション属性のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトの輪郭線属性のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトの点滅領域属性のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトのモザイク領域属性のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトの塗りつぶし領域属性のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトのテキスト情報データのデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトのテキスト属性のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトのテキスト・ハイライト効果属性のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトのテキスト・ハイライト効果属性のエントリーのデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトのテキスト点滅効果属性のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトのテキスト点滅効果属性のエントリーのデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトのテキストスクロール効果属性のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトのテキスト・カラオケ効果属性のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトのテキスト・カラオケ効果属性のエントリーのデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトの階層属性拡張のデータ要素の例を説明する図。この発明の一実施の形態に係るオブジェクトの階層属性拡張のエントリーのデータ要素の例を説明する図。この発明の一実施の形態に係るVclickアクセスユニット（ＡＵ）のオブジェクト領域データのデータ要素の例を説明する図。この発明の一実施の形態に係る通常再生の開始処理手順を表す流れ図（Vclickデータがサーバー装置にある場合）。この発明の一実施の形態に係る別の通常再生の開始処理手順を表す流れ図（Vclickデータがサーバー装置にある場合）。この発明の一実施の形態に係る通常再生の終了処理手順を表す流れ図（Vclickデータがサーバー装置にある場合）。この発明の一実施の形態に係るランダムアクセス再生の開始処理手順を表す流れ図（Vclickデータがサーバー装置にある場合）。この発明の一実施の形態に係る別のランダムアクセス再生の開始処理手順を表す流れ図（Vclickデータがサーバー装置にある場合）。この発明の一実施の形態に係る通常再生の開始処理手順を表す流れ図（Vclickデータがクライアント装置にある場合）。この発明の一実施の形態に係るランダムアクセス再生の開始処理手順を表す流れ図（Vclickデータがクライアント装置にある場合）。この発明の一実施の形態に係るクライアント装置のフィルタリング動作を表す流れ図。この発明の一実施の形態に係るVclickアクセス・テーブルを用いたVclickストリーム中のアクセスポイント検索手順を表す流れ図（その１）。この発明の一実施の形態に係るVclickアクセス・テーブルを用いたVclickストリーム中のアクセスポイント検索手順を表す流れ図（その２）。この発明の一実施の形態に係るVclick_AUの有効期間とアクティブ期間が一致していない例を説明する図。この発明の一実施の形態に係るNULL_AUのデータ構造の例を説明する図。この発明の一実施の形態に係るNULL_AUを用いた場合のVclick_AUの有効期間とアクティブ期間の関係の例を説明する図。この発明の一実施の形態に係るNULL_AUを用いた場合のメタデータ・マネージャーの処理手順の例（その１）を説明する図。この発明の一実施の形態に係るNULL_AUを用いた場合のメタデータ・マネージャーの処理手順の例（その２）を説明する図。この発明の一実施の形態に係るNULL_AUを用いた場合のメタデータ・マネージャーの処理手順の例（その３）を説明する図。この発明の一実施の形態に係るエンハンスドＤＶＤビデオディスクの構造の例を説明する図。この発明の一実施の形態に係るエンハンスドＤＶＤビデオディスク内のディレクトリ構成の例を説明する図。この発明の一実施の形態に係るVclick情報の構造例（その１）を説明する図。この発明の一実施の形態に係るVclick情報の構造例（その２）を説明する図。この発明の一実施の形態に係るVclick情報の構造例（その３）を説明する図。この発明の一実施の形態に係るVclick情報の構成例を説明する図。この発明の一実施の形態に係るVclick情報の記述例１を説明する図。この発明の一実施の形態に係るVclick情報の記述例２を説明する図。この発明の一実施の形態に係るVclick情報の記述例３を説明する図。この発明の一実施の形態に係るVclick情報の記述例４を説明する図。この発明の一実施の形態に係るVclick情報の記述例５を説明する図。この発明の一実施の形態に係るVclick情報の記述例６を説明する図。この発明の一実施の形態に係るVclick情報の記述例７を説明する図。この発明の一実施の形態に係るVclick情報の別の構成例を説明する図。この発明の一実施の形態に係るVclick情報ファイルにより英語音声用のVclickストリームが選択された例を説明する図。この発明の一実施の形態に係るVclick情報ファイルにより日本語音声用のVclickストリームが選択された例を説明する図。この発明の一実施の形態に係るVclick情報ファイルにより英語字幕用のVclickストリームが選択された例を説明する図。この発明の一実施の形態に係るVclick情報ファイルにより日本語字幕用のVclickストリームが選択された例を説明する図。この発明の一実施の形態に係るVclick情報ファイルによりアングル１用のVclickストリームが選択された例を説明する図。この発明の一実施の形態に係るVclick情報ファイルによりアングル２用のVclickストリームが選択された例を説明する図。この発明の一実施の形態に係るVclick情報ファイルによりアスペクト比が１６：９用のVclickストリームが選択された例を説明する図。この発明の一実施の形態に係るVclick情報ファイルによりアスペクト比が４：３のレターボックス表示用のVclickストリームが選択された例を説明する図。この発明の一実施の形態に係るVclick情報ファイルによりアスペクト比が４：３のパンスキャン表示用のVclickストリームが選択された例を説明する図。この発明の一実施の形態に係るハイパーメディアの表示例を説明する図。この発明の一実施の形態に係るオブジェクト・メタデータのアクセスユニットのデータ構造例を説明する図。この発明の一実施の形態に係るオブジェクト・メタデータのアクセスユニットのデータ構造例を説明する図。この発明の一実施の形態に係るVclickアクセスユニットの継続時間のデータ構造を説明する図。この発明の一実施の形態に係るVclickアクセスユニットの検索結果の表示例を説明する図。この発明の一実施の形態に係るVclickアクセスユニットの検索結果の表示例を説明する図。この発明の一実施の形態に係るVclickアクセスユニットの検索処理の流れを説明する図。この発明の一実施の形態に係るVclickアクセスユニットの検索結果の表示例を説明する図。この発明の一実施の形態に係る欠落したVclickアクセスユニットの判定と補間処理の流れを説明する図。この発明の一実施の形態に係る欠落したVclickアクセスユニットの補間方法を説明する図。この発明の一実施の形態に係るVclickアクセスユニットのVclickアクセスユニットのヘッダのデータ構造を説明する図。この発明の一実施の形態に係る欠落したVclickアクセスユニットの判定と補間処理の流れを説明する図。この発明の一実施の形態に係るVclickアクセスユニットのVclickアクセスユニットのオブジェクトの名前属性のデータ構造を説明する図。この発明の一実施の形態に係るVclickアクセスユニットのVclickアクセスユニットのオブジェクトのアクション属性のデータ構造を説明する図。この発明の一実施の形態に係るVclickアクセスユニットのVclickアクセスユニットのオブジェクトのテキスト情報のデータ構造を説明する図。

符号の説明

２００…クライアント装置；２０１…サーバー装置；２０２…Vclickエンジン；２０３…動画再生エンジン；２２１…サーバー装置とクライアント装置を結ぶネットワーク；３０１〜３０５…Vclickアクセスユニット；２０１４００…Vclickアクセスユニットのオブジェクト領域データ；４０１…Vclickアクセスユニットのヘッダ；４０２…Vclickアクセスユニットのタイムスタンプ；４０３…Vclickアクセスユニットのオブジェクト属性情報

Claims

動画像中のオブジェクトの時空間領域を記述した第１データと、
異なる少なくとも二つのアクセスユニットにおける前記第１データによりそれぞれ指し示される動画像中のオブジェクトが意味的に同一であるかどうかを特定する第２データと、
第１アクセスユニットにおける前記第１データと動画像の時間軸上で連続し、かつ前記第１アクセスユニットと第２データが同一である第２アクセスユニットが前記メタデータストリームに含まれているかどうかを特定する第３データと、を有するアクセスユニットを２以上含んで構成されるメタデータストリームを取得する手段と、
前記第１アクセスユニットを復号した後に、前記第３データと前記第１データの終了時刻とを記憶する手段と、
前記第１アクセスユニットを復号した後の次の処理対象のアクセスユニットを復号する際に、（１）前記第１アクセスユニットの第２データと前記処理対象のアクセスユニットの第２データとが同一であり、（２）前記第１アクセスユニットの第１データの終了時刻よりも前記処理対象のアクセスユニットの第１データの先頭時刻が大きく、かつ、（３）前記メタデータストリームに前記第２アクセスユニットが含まれている旨を前記第１アクセスユニットの第３データが表すならば、該第２アクセスユニットの欠落が生じたものと判定する手段と、
前記第２アクセスユニットの欠落が生じた場合に、該第２アクセスユニットについての前記第１データを、前記第１アクセスユニットの第１データが表す時空間領域の座標値と前記処理対象のアクセスユニットの第１データが表す時空間領域の座標値との線形補間により求める手段と、を具備することを特徴とするメタデータストリームの再生装置。
コンピュータを、
動画像中のオブジェクトの時空間領域を記述した第１データと、
異なる少なくとも二つのアクセスユニットにおける前記第１データによりそれぞれ指し示される動画像中のオブジェクトが意味的に同一であるかどうかを特定する第２データと、
第１アクセスユニットにおける前記第１データと動画像の時間軸上で連続し、かつ前記第１アクセスユニットと第２データが同一である第２アクセスユニットが前記メタデータストリームに含まれているかどうかを特定する第３データと、を有するアクセスユニットを２以上含んで構成されるメタデータストリームを取得する手段、
前記第１アクセスユニットを復号した後に、前記第３データと前記第１データの終了時刻とを記憶する手段、
前記第１アクセスユニットを復号した後の次の処理対象のアクセスユニットを復号する際に、（１）前記第１アクセスユニットの第２データと前記処理対象のアクセスユニットの第２データとが同一であり、（２）前記第１アクセスユニットの第１データの終了時刻よりも前記処理対象のアクセスユニットの第１データの先頭時刻が大きく、かつ、（３）前記メタデータストリームに前記第２アクセスユニットが含まれている旨を前記第１アクセスユニットの第３データが表すならば、該第２アクセスユニットの欠落が生じたものと判定する手段、
前記第２アクセスユニットの欠落が生じた場合に、該第２アクセスユニットについての前記第１データを、前記第１アクセスユニットの第１データが表す時空間領域の座標値と前記処理対象のアクセスユニットの第１データが表す時空間領域の座標値との線形補間により求める手段、として機能させるためのメタデータストリームの再生プログラム。