JPWO2004080071A1 - データ処理装置 - Google Patents

データ処理装置 Download PDF

Info

Publication number
JPWO2004080071A1
JPWO2004080071A1 JP2005503083A JP2005503083A JPWO2004080071A1 JP WO2004080071 A1 JPWO2004080071 A1 JP WO2004080071A1 JP 2005503083 A JP2005503083 A JP 2005503083A JP 2005503083 A JP2005503083 A JP 2005503083A JP WO2004080071 A1 JPWO2004080071 A1 JP WO2004080071A1
Authority
JP
Japan
Prior art keywords
data
audio
stream
video
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005503083A
Other languages
English (en)
Inventor
伊藤 正紀
正紀 伊藤
理 岡内
理 岡内
中村 正
正 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2004080071A1 publication Critical patent/JPWO2004080071A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

データ処理装置は、映像信号および音声信号が入力される信号入力部と、映像信号および音声信号を圧縮符号化して、映像データおよび音声データを生成する圧縮部と、映像データおよび音声データを分割してパケットを複数生成し、映像データに関する映像パケットおよび音声データに関する音声パケットを多重化したデータ単位を複数生成し、複数のデータ単位を含むデータストリームを生成するストリーム組立部と、データストリームを記録媒体に記録する記録部とを有している。このストリーム組立部は、データ単位に含める映像パケットおよび音声パケットを少なくとも映像の再生時間に基づいて決定する。そして、所定のデータ単位に格納された映像データに対応する音声データの全部が所定のデータ単位に含まれない場合には、音声データのうち、少なくとも含まれない部分である部分音声データをコピーしたコピーデータをデータストリーム内に含める。

Description

本発明は、映像および音声を含むコンテンツをリアルタイムで記録する方法および装置に関する。
映像(ビデオ)信号および音声(オーディオ)信号を低いビットレートで圧縮し符号化する種々のデータストリームが規格化されている。そのようなデータストリームの例として、MPEG2システム規格(ISO/IEC 13818−1)のシステムストリームが知られている。システムストリームは、プログラムストリーム(PS)、トランスポートストリーム(TS)、およびPESストリームの3種類を包含する。
近年、磁気テープに代わって、相変化光ディスク、MO等の光ディスクが、データストリームを記録するための記録媒体として注目を浴びてきている。現在、相変化光ディスク(例えばDVD)にコンテンツのデータストリームをリアルタイムで記録し、編集等を可能にする規格として、DVDビデオレコーディング規格(以下、「VR規格」と称する)が規定されている(DVD Specifications for Re−writable/Re−recordable Discs Part3 VIDEO RECORDING version 1.0 September 1999)。また、映画等の再生専用コンテンツのデータストリームを記録する、パッケージメディア用の規格として、DVDビデオ規格(以下、「ビデオ規格」と称する)が規定されている。
図1は、VR規格に準拠したMPEG2プログラムストリーム10のデータ構造を示す(以下、このストリームを「VR規格ストリーム10」と記述する)。
VR規格ストリーム10は、複数のビデオオブジェクト(Video OBject;VOB)#1、#2、・・・、#kを含んでいる。例えば、VR規格ストリーム10がカムコーダで撮影されたコンテンツとすると、各VOBは、ユーザが録画を開始してから録画を停止するまでの1回の録画動作によって生成された動画データが格納されている。
各VOBは、複数のVOBユニット(Video OBject unit;VOBU)#1、#2、・・・、#nを含んでいる。各VOBUは、主として、映像の再生時間にして0.4秒から1秒までの範囲内の映像データを含むデータ単位である。
以下、図1において最初に配置されたVOBU#1とその次に配置されたVOBU#2を例にして、VOBUのデータ構造を説明する。
VOBU#1は、MPEGプログラムストリームの下位階層であるパックが複数集まって構成されている。VR規格ストリーム10内の各パックのデータ長(パック長)は一定(2キロバイト(2048バイト))である。VOBUの先頭には、図1に“R”で示されるリアルタイムインフォメーションパック(RDIパック)11が配置されている。RDIパック11の後には、“V”で示されるビデオパック(ビデオパック12等)および“A”で示されるオーディオパック(オーディオパック13等)が複数含まれている。なお、各VOBUのデータサイズは、再生時間が同じであっても映像データが可変ビットレートであれば最大記録再生レート以下の範囲で変動し、映像データが固定ビットレートであればほぼ一定である。
各パックは以下の情報を格納している。例えば日本国特開2001−197417号公報に記載されているように、RDIパック11は、VR規格ストリーム10の再生を制御するために用いられる情報、例えばVOBUの再生タイミングを示す情報や、VR規格ストリーム10のコピーを制御するための情報を格納している。ビデオパック12は、MPEG2圧縮された映像データを格納している。オーディオパック13は、例えばMPEG2−オーディオ規格によって圧縮された音声データを格納している。近接するビデオパック12およびオーディオパック13には、例えば、同期して再生される映像データおよび音声データが格納されている。
VOBU#2もまた、複数のパックから構成されている。VOBU#2の先頭には、RDIパック14が配置され、その後、ビデオパック15およびオーディオパック16等が複数配置されている。各パックに格納される情報の内容はVOBU#1と同様である。
なお、VOB内の各VOBU先頭へ、RDIパックは記録されないこともある。このときは、VOBU先頭には必ずビデオパックが記録される。
図2は、ビデオパック内の映像データによって構成される映像ストリームと、オーディオパック内の音声データによって構成される音声ストリームとの関係を示す。
具体的には、VOBU#iでは、ビデオパック21aを含む1以上のパックに格納された映像データによって、映像ストリームのピクチャ21bが構成される。次いで、ビデオパック22を含む1個以上のパックに格納された映像データによって、次のピクチャが構成され、さらに以降のビデオパックに格納された映像データによってさらに次のピクチャが構成される。一方、オーディオパック23aに格納された音声データによって音声フレーム23bが構成される。その他のオーディオパックについても同様である。なお、1つの音声フレームのデータは2以上のオーディオパックに分割されて格納されていてもよい。また、ひとつのオーディオパック内に複数の音声フレームを含んでいてもよい。
また、VOBUに含まれる音声フレームのデータはVOBU内で完結しているとする。すなわち、VOBUに含まれる音声フレームのデータはVOBU内に全て存在し、次のVOBUには含まれないとする。
映像フレームおよび音声フレームは、各ビデオパックおよびオーディオパックのパケットヘッダに格納されている再生時刻を指定する情報(プレゼンテーションタイムスタンプ;PTS)に基づいて再生される。図2では、ビデオピクチャ21bと音声フレーム23bとがほぼ同時刻に再生される。すなわち、両者は同期して再生される。
VOBU#iのビデオパック24aおよび24bに注目する。ビデオパック24aからビデオパック24bまでのビデオパックに格納された映像データによって、VOBU#iの最後のピクチャ24cが構成される。上述のように、各VOBUは映像の再生時間等を基準として構築されており、音声を考慮して特に構築されているわけではない。そのため、音声フレーム25cのデータは、ビデオピクチャ24cと同期して再生されるように再生時刻情報(PTS)が付加されていても次のVOBU#(i+1)のオーディオパック25aおよび25b等に格納される。
このように、映像フレームと同期して再生される音声フレームの記録位置がずれる理由は、ビデオパックとオーディオパックの多重化ルールを規定しているシステムターゲットデコーダ(P−STD)内において、ビデオデータ用のバッファのデータサイズ(例えば224kバイト)が、音声データ用のバッファのサイズ(例えば4kバイト)よりもかなり大きいためである。音声データは蓄積可能なデータ量が少ないので、再生タイミングの直前で読み込むように多重化される。
このようなプログラムストリームに対して、ユーザは、希望するVOBUの再生順序を「プレイリスト」として登録することができる。再生装置はプレイリストに基づいて、指定されたあるVOBUのデータを取得して映像等を再生し、その後、指定されたVOBUの先頭からデータを読み出して再生を継続する。
しかし、同期して再生すべき映像データおよび音声データが異なるVOBUに格納されている場合には、プレイリストに基づく再生中、音声が途切れるという問題が生じていた。その理由は、再生対象のVOBUのデータは読み出されるが、その次に配置された非再生対象のVOBUに格納された音声データは読み出されないからである。この場合には、映像のみが再生され、それと同期して再生されるはずの音声は再生されない。
例えば、図2において、プレイリストがVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているとする。このとき、VOBU#iのビデオピクチャ24cのデータが読み出された後は、次のVOBU#k内のデータが読み出される。よって、ビデオピクチャ24cに同期して再生されるべき、VOBU#(i+1)に格納された音声フレーム25cのデータは読み出されず、音声は再生されない。その結果、ユーザには途中で音声が途切れて聞こえる。
また、VOBU#kにおいても、その先頭のビデオピクチャに対応する音声フレームがVOBU#k内の途中のどこから格納されているのかはVOBU毎に異なる。どこから格納されているかは、VOBU#kとそれ以前のVOBU(VOBU#(k−1))との相対関係で決定される。具体的にはプログラムストリームのビット量とシステムターゲットデコーダ(P−STD)のバッファサイズによって決定される。したがって、仮にVOBU#i内に同期して再生されるべき音声フレームが全てあったとしても、VOBU#kと同期して再生されるべき音声フレームが直ぐに格納されているとは限らない。この理由によっても、ユーザには途中で音声が途切れて聞える。
本発明の目的は、プレイリスト等に基づいて映像および音声を再生する場合であっても、音声が途切れる期間を著しく少なくする、または音声が途切れる期間がないようにすることである。
本発明によるデータ処理装置は、映像信号および音声信号が入力される信号入力部と、前記映像信号および前記音声信号を圧縮符号化して、映像データおよび音声データを生成する圧縮部と、前記映像データおよび前記音声データを分割してパケットを複数生成し、前記映像データに関する映像パケットおよび前記音声データに関する音声パケットを多重化したデータ単位を複数生成し、複数の前記データ単位を含むデータストリームを生成するストリーム組立部と、前記データストリームを記録媒体に記録する記録部とを有している。前記ストリーム組立部は、前記データ単位に含める映像パケットおよび音声パケットを少なくとも映像の再生時間に基づいて決定し、所定のデータ単位に格納された映像データに対応する音声データの全部が前記所定のデータ単位に含まれない場合には、前記音声データのうち、少なくとも含まれない部分である部分音声データをコピーしたコピーデータを前記データストリーム内に含める。
前記ストリーム組立部は、前記データ単位に対応する前記コピーデータを、後続のデータ単位の最初に配置された映像パケット内に格納してもよい。
前記ストリーム組立部は、前記データ単位内に、対応する前記コピーデータを格納してもよい。
前記ストリーム組立部は、前記コピーデータを、前記データストリーム内の専用の音声ストリーム内に格納してもよい。
前記ストリーム組立部は、前記コピーデータを、前記データストリーム内の専用のプライベートデータストリーム内に格納してもよい。
前記ストリーム組立部は、前記映像データに対応する前記音声データのすべてをコピーしたコピーデータを、前記所定のデータ単位に含めてもよい。
前記ストリーム組立部は、前記コピーデータを、前記データストリーム内の専用のプライベートデータストリーム内に格納してもよい。
前記ストリーム組立部は、前記映像データに同期する前記音声データのすべてをコピーしたコピーデータを、前記データストリーム内の専用の音声ストリーム内に格納してもよい。
前記ストリーム組立部は、前記映像データに同期する前記音声データのすべてをコピーしたコピーデータを、前記データストリーム内の専用の音声ストリーム内に格納し、さらに前記コピーデータの転送タイミングを示す転送タイミング情報として、前記コピー元のデータ単位内の転送タイミングよりも所定の時間だけ早くシフトした転送タイミングを規定して記録してもよい。
前記ストリーム組立部は、前記複数のデータ単位を含む第1ファイルおよび前記コピーデータを含む第2ファイルとして、前記データストリームを生成し、前記記録部は、前記データ単位とコピーデータとを前記記録媒体に連続的に記録してもよい。
前記ストリーム組立部は、前記映像データに対応する前記音声データのすべてをコピーしたコピーデータによって前記第2ファイルを生成してもよい。
前記音声データにはレート情報が付加され、前記音声データは前記レート情報に応じたデータ長を有しており、前記圧縮部は第1レートで前記音声信号を圧縮符号化して前記音声データを生成し、前記ストリーム組立部は、前記所定のデータ単位に含まれる前記音声データに対して、前記レート情報として前記第1レートよりも早い第2レートの値を設定して前記音声データを生成し、前記第2レートに対して規定される第2データ長と、前記第1レートに対して規定される前記音声データの第1データ長との差分に対応する空き領域に、前記コピーデータを格納してもよい。
本発明によるデータ処理方法は、映像信号および音声信号を受け取るステップと、前記映像信号および前記音声信号を圧縮符号化して、映像データおよび音声データを生成するステップと、前記映像データおよび前記音声データを分割してパケットを複数生成するステップし、前記映像データに関する映像パケットおよび前記音声データに関する音声パケットを多重化したデータ単位を複数生成し、複数の前記データ単位を含むデータストリームを生成するステップと、前記データストリームを記録媒体に記録するステップとを包含する。前記データストリームを生成するステップは、前記データ単位に含める映像パケットおよび音声パケットを少なくとも映像の再生時間に基づいて決定し、所定のデータ単位に格納された映像データに対応する音声データの全部が前記所定のデータ単位に含まれない場合には、前記音声データのうち、少なくとも含まれない部分である部分音声データをコピーしたコピーデータを前記データストリーム内に含める。
前記データストリームを生成するステップは、前記データ単位に対応する前記コピーデータを、後続のデータ単位の最初に配置された映像パケット内に格納してもよい。
前記データストリームを生成するステップは、前記映像データに対応する前記音声データのすべてをコピーしたコピーデータを、前記所定のデータ単位に含めてもよい。
前記データストリームを生成するステップは、前記複数のデータ単位を含む第1ファイルおよび前記コピーデータを含む第2ファイルに基づいて、前記データストリームを生成してもよい。
前記データストリームを生成するステップは、前記映像データに対応する前記音声データのすべてをコピーしたコピーデータによって前記第2ファイルを生成してもよい。
前記音声データにはレート情報が付加され、前記音声データは前記レート情報に応じたデータ長を有しており、前記音声データを生成するステップは、第1レートで前記音声信号を圧縮符号化して前記音声データを生成し、前記前記データストリームを生成するステップは、前記所定のデータ単位に含まれる前記音声データに対して、前記レート情報として前記第1レートよりも早い第2レートの値を設定して前記音声データを生成し、前記第2レートに対して規定される第2データ長と、前記第1レートに対して規定される前記音声データの第1データ長との差分に対応する空き領域に、前記コピーデータを格納してもよい。
本発明の記録媒体には、複数のデータ単位を含むデータストリームが記録されている。前記複数のデータ単位の各々は、映像データに関する映像パケットおよび前記音声データに関する音声パケットが多重化して構成されている。前記映像データおよび前記映像データに対応する音声データの一部は所定のデータ単位内に格納され、前記映像データに対応する前記音声データの他の一部である部分音声データは前記所定のデータ単位内に格納されていない。前記データストリームは、さらに前記部分音声データをコピーしたコピーデータを含んでいる。
本発明によるデータ処理装置は、上述のデータストリームを受け取ってデコードし、映像信号および音声信号を出力する。データ処理装置は、データストリームに含まれるデータのうち、再生の対象となるデータの読み出しを指示する再生制御部と、前記再生制御部の指示に基づいて、前記データストリームの前記所定のデータ単位から前記映像データおよび前記映像データに対応する音声データの一部を読み出す読み出し部と、前記映像データおよび前記音声データの一部をデコードして映像信号および音声信号を同期して出力するデコード部とを有している。前記再生制御部は、前記指示の後に前記コピーデータの読み出しをさらに指示し、前記デコード部は前記音声データの一部をデコードした後に前記コピーデータをデコードして前記映像信号と同期して出力する。
図1は、VR規格に準拠したMPEG2プログラムストリーム10のデータ構造を示す図である。
図2は、ビデオパック内の映像データによって構成される映像ストリームと、オーディオパック内の音声データによって構成される音声ストリームとの関係を示す図である。
図3は、データ処理装置30の機能ブロックの構成を示す図である。
図4は、VR規格ストリーム10のデータ構造を示す図である。
図5は、VR規格ストリーム10と光ディスク131の記録領域との関係を示す図である。
図6は、記録されたVR規格ストリーム10および管理情報が光ディスク131のファイルシステムにおいて管理されている状態を示す図である。
図7は、実施形態1によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。
図8は、データ処理装置30の記録処理の手順を示すフローチャートである。
図9は、実施形態2によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。
図10は、実施形態3によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。
図11は、実施形態4によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。
図12は、実施形態5によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。
図13は、実施形態5の変形例によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。
図14は、実施形態6によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。
図15は、AC−3規格の音声フレームのデータ構造および付加情報の位置およびサイズを示す図である。
図16(a)および(b)は、音声データの種類に応じたサブストリームIDを有するオーディオパックのデータ構造を示す図である。
図17は、MPEG−1オーディオ規格の音声フレームのデータ構造を示す。
(実施形態1)
以下では、本実施形態によるデータ処理装置の構成を説明し、あわせて、データ処理装置の処理に関連するデータストリームのデータ構造を説明する。その後、データ処理装置が行う記録動作および再生動作を説明する。なお、本明細書では、データストリームの例としてDVDビデオレコーディング規格(VR規格)に準拠したMPEG2プログラムストリーム(VR規格ストリーム)を例に挙げて説明する。
図3は、データ処理装置30の機能ブロックの構成を示す。データ処理装置30は、DVD−RAMディスク、Blu−rayディスク(BD)等の相変化光ディスク131に代表される記録媒体に、リアルタイムでVR規格ストリーム10を記録する記録機能を有する。また、データ処理装置30は、記録したVR規格ストリーム10を読み出して復号し、再生する再生機能も有する。ただし、本発明による処理を行う上で、データ処理装置30は必ずしも記録機能および再生機能の両方を設けていなくてもよい。データ処理装置30は、例えば据え置き型の装置、カムコーダである。
以下、データ処理装置30の記録機能に関する構成を説明する。データ処理装置30は、映像信号入力部100と、音声信号入力部102と、MPEG2PSエンコーダ170と、記録部120と、連続データ領域検出部160と、記録制御部161と、論理ブロック管理部163とを有する。
まず、データ処理装置30の記録動作の概要を説明する。VR規格ストリーム10を生成して記録する際、MPEG2PSエンコーダ170のPS組立部104(後述)は、データ単位であるビデオオブジェクトユニット(Video Object Unit;VOBU)に含めるビデオパックおよびオーディオパックを、少なくとも映像の再生時間に基づいて決定してVOBUを生成する。そして、同一のVOBU内に、映像に対応する音声の全てのデータが含まれない場合には、少なくとも含まれない音声データをコピーしたコピーデータをVR規格ストリーム10に含めて記録する。ここで、「映像に対応する音声」とは、「映像と同期して再生される音声」を意味する。
コピーデータは、後続のVOBU内(例えば最初のビデオパック内のユーザデータ領域)に格納され、または、VR規格ストリーム10のファイルとは別の音声ファイルに格納される。または、同期して再生される映像および音声が1つのVOBU内に収まるように、音声データがプライベートストリームとして格納されてもよいし、付加情報として格納されてもよい。
さらに、映像に対応する音声のデータすべてを異なる音声ストリームとして同じVOBU内にインターリーブしてもよい。また、VR規格ストリーム10のファイルとは別の音声ファイルに格納してもよい。または、映像に対応する音声のデータすべてを、プライベートストリームとして格納してもよい。
以下では、図3〜6を参照しながらデータ処理装置30の記録機能に関する各構成要素の一般的な機能を説明し、その後、図7、8等を参照しながらデータ処理装置30のデータ処理装置30の具体的な記録動作を説明する。
映像信号入力部100は映像信号入力端子であり、映像データを表す映像信号を受け取る。音声信号入力部102は音声信号入力端子であり、音声データを表す音声信号を受け取る。例えば、データ処理装置30がビデオレコーダである場合には、映像信号入力部100および音声信号入力部102は、それぞれチューナ部(図示せず)の映像出力部および音声出力部と接続され、それぞれから映像信号および音声信号を受け取る。また、データ処理装置30がムービーレコーダ、カムコーダ等である場合には、映像信号入力部100および音声信号入力部102は、それぞれカメラのCCD(図示せず)およびマイクから出力された映像信号および音声信号を受け取る。
MPEG2−PSエンコーダ170(以下、「エンコーダ170」と記述する)は、映像信号および音声信号を受け取り、VR規格に準拠したMPEG2プログラムストリーム(PS)、すなわち、VR規格ストリーム10を生成する。エンコーダ170は、映像圧縮部101と、音声圧縮部103と、PS組立部104とを有する。映像圧縮部101および音声圧縮部103は、それぞれ映像信号および音声信号から得られた映像データおよび音声データをMPEG2規格に基づいて圧縮符号化する。PS組立部104は、圧縮符号化された映像データと音声データを、それぞれ2キロバイト単位のビデオパック及びオーディオパックに分割し、これらのパックが一つのVOBUを構成するよう順番に並べるとともに、先頭にRDIパック27を付加してVR規格ストリーム10を生成する。
図4は、VR規格ストリーム10のデータ構造を示す。VR規格ストリーム10は複数のVOBUを含んでいる。図4には2つのVOBUが記載されているが、より多く含んでいてもよい。VR規格ストリーム10内の各VOBUは、複数のパックから構成されている。これらのパックおよび各パックに含まれる情報は図1を参照しながら説明したとおりであるので、ここでは省略する。
以下、ビデオパック12−1等のデータ構造を説明する。ビデオパック12は、MPEG2圧縮された映像(ビデオ)データ12aを格納している。なお、ビデオパック12はパックヘッダ12b、およびビデオパックであることを特定するPESパケットヘッダ12cが含まれる。さらにVOBUの最初のビデオパックであればパックヘッダ12bの中にシステムヘッダ(図示せず)も含まれる。
図4に示すビデオパック12−1の映像データ12aは、後続のビデオパック12−2以後の映像データ12d等とともにIフレーム44のデータを構成する。さらにIフレームに続くBフレーム45またはPフレームを構成するビデオパックが続けて記録される。
また、映像データ12aは、シーケンスヘッダ41、ユーザデータ42およびGOPヘッダ43を含んでいる。MPEG2規格では、ビデオフレームを複数まとめた「グループ・オブ・ピクチャ」(Group Of Picture;GOP)が規定されている。シーケンスヘッダ41は、複数のGOPで構成されたシーケンスの先頭を表す。一方、GOPヘッダ43は各GOPの先頭を表す。GOPの先頭フレームはIフレームである。これらのヘッダについては周知であるため、その詳細な説明は省略する。ユーザデータ42は、シーケンスヘッダ41およびGOPヘッダ43の間に設けられ、任意のデータを記述することができる。
シーケンスヘッダ41、ユーザデータ42およびGOPヘッダ43の先頭には、その各々を識別するための開始コードが付加されている。例えば、シーケンスヘッダ41には“000001B3”、ユーザデータ42には“000001B5”、およびGOPヘッダ43には“000001B8”である(いずれも16進数表記)。ユーザデータ42の読み出しは、次のGOPヘッダ43の開始コードが検出されるまで継続し、GOPヘッダ43の開始コードが検出されると、それまでに得られたデータのうち、ユーザデータ42の先頭ヘッダB5を除いた部分がユーザデータとして得られる。
なお、各VOBU内の全GOPの再生時間は、原則として0.4秒以上かつ1.0秒以下の範囲に収まるように調整されており、例外的に最後のVOBUの再生時間は、0秒以上かつ1.0秒以下の範囲で調整されている。VR規格ストリーム10はリアルタイムで記録されるため、0.4秒未満のタイミングで記録が停止され得るからである。これらの範囲内であれば、各VOBUについてビデオの再生時間の変動が許容される。
記録部120は、記録制御部161の指示に基づいてピックアップ130を制御し、記録制御部161によって指示された論理ブロック番号の位置からVR規格ストリーム10のビデオオブジェクトユニット(VOBU)を記録する。このとき、記録部120は、各VOBUを32Kバイト単位に分割し、その単位で誤り訂正符号を付加して一つの論理ブロックとして光ディスク131上に記録する。一つの論理ブロックの途中で一つのVOBUの記録が終了した場合は、隙間を開けることなく次のVOBUの記録を連続的に行う。
図5は、VR規格ストリーム10と光ディスク131の記録領域との関係を示す。VR規格ストリーム10の各VOBUは、光ディスク131の連続データ領域に記録される。連続データ領域は物理的に連続する論理ブロックから構成されており、この領域には最大レートでの再生時間にして17秒以上のデータが記録される。データ処理装置30は、論理ブロックごとに誤り訂正符号を付与する。論理ブロックのデータサイズは32kバイトである。各論理ブロックは、2Kバイトのセクタを16個含む。
連続データ領域検出部160は、論理ブロック管理部163によって管理される光ディスク131のセクタの使用状況を調べ、上述の時間長に相当するデータを格納可能な、未使用の連続した空き論理ブロック領域を検出する。
なお、連続再生保証のために17秒以上の連続した空き論理ブロック領域を常に検出することなく、例えば、余分な再生データの蓄積量を計算してトレースしながら、連続した空き論理ブロックのデータサイズを動的に決定してもよい。すなわち、記録中のある時点で20秒分の連続データ領域を確保できたときには、その続きとしては14秒分の連続データ領域を確保して、連続再生を保証してもよい。
記録制御部161は、記録部120の動作を制御する。記録制御部161は、VR規格ストリーム10をデータファイル(例えばファイル名”VR_MOVIE.VRO”)として記録するように記録部120に指示し、光ディスク131に記録させる。また、記録部120は記録制御部161から受け取ったVR規格ストリームに対する管理情報ファイル(ファイル名VR_MANGR.IFO)も光ディスク131へ記録する。管理情報には、例えばVOBU毎のデータサイズ、含まれる映像フィールド数、および先頭のIフレームのデータサイズが含まれる。
記録制御部161のより具体的な制御動作は以下のとおりである。すなわち、記録制御部161は、予め連続データ領域検出部160に指示を出して、連続した空き論理ブロック領域を検出させておく。そして、記録制御部161は、論理ブロック単位の書き込みが発生するたびに当該論理ブロック番号を記録部120に通知し、論理ブロックが使用済みになった場合には論理ブロック管理部163に通知する。なお、記録制御部161は、連続データ領域検出部160に対して連続した空き論理ブロック領域のサイズを動的に検出させてもよい。連続データ領域検出部160は、1つの連続データ領域の残りが最大記録再生レート換算で、例えば3秒分を切った時点で、次の連続データ領域を再検出する。そして、1つの連続データ領域が一杯になると、記録制御部161は次の連続データ領域への書き込みを指示する。
図6は、記録されたVR規格ストリーム10および管理情報が光ディスク131のファイルシステムにおいて管理されている状態を示す。例えばUDF(Universal Disk Format)規格のファイルシステム、またはISO/IEC 13346(Volume and file structure of write−once and rewritable media using non−sequential recording for information interchange)ファイルシステムが利用される。図6では、連続して記録されたVR規格ストリーム10がファイル名VR_MOVIE.VROとして記録されている。また、管理情報はファイル名VR_MANGR.IFOとして記録されている。各ファイルは、ファイル名及びファイル・エントリの位置が、FID(File Identifier Descriptor)で管理される。さらに、ファイル・エントリ内のアロケーション・ディスクリプタ(Allocation Descriptor)を使って、1つのファイルとそのファイルを構成するデータ領域を関係付ける。アロケーション・ディスクリプタにはファイルを構成するファイル・エントリの位置として先頭セクタ番号が設定される。VR規格ストリームファイルのファイル・エントリは、各連続データ領域(CDA:Contiguous Data Area)a〜cを管理するアロケーション・ディスクリプタa〜cを含む。1つのファイルが複数の領域a〜cに分かれている理由は、領域aの途中に不良論理ブロック、書き込みができないPCファイル等が存在したからである。一方、管理情報ファイルのファイル・エントリは、管理情報を記録する領域を参照するアロケーション・ディスクリプタdを保持する。
論理ブロック管理部163は、記録制御部161から通知された使用済み論理ブロック番号によって論理ブロック番号ごとの使用状況を把握して管理を行う。すなわち、論理ブロック番号を構成する各セクタ単位の使用状況を、UDFまたはISO/IEC 13346のファイル構成で規定されているスペース・ビット・ディスクリプタ領域を用いて、使用済みもしくは未使用であるかを記録して管理することになる。そして、記録処理の最終段階において、ファイル・アイデンティファイア(FID)及びファイル・エントリをディスク上のファイル管理領域へ書き込む。
なお、UDF規格はISO/IEC 13346規格のサブセットに相当する。また、相変化光ディスクドライブを1394インタフェース及びSBP−2(Serial Bus Protocol−2)プロトコルを介してPCへ接続することにより、UDFに準拠した形態で書きこんだファイルがPCからも1つのファイルとして扱うことが可能である。
次に、本実施形態によるデータ処理装置30の具体的な記録動作を説明する。以下の説明においては、「対応する」という語は、同期して再生されるべき映像および音声、または、それらに関する映像データおよび音声データを表すとする。
いま、PS組立部104が、対応する映像データおよび音声データのすべてが1つのVOBUに含まれていないVR規格ストリーム10を生成したとする。上述のように、VOBUは映像の再生時間等に基づいて定められるため、音声データの一部が、対応する映像データとは異なる以降のVOBUに格納されていると考えればよい。なお、映像データと同じVOBUに含まれる音声データは、整数個の音声フレームを含む。
図7は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。最上段にMPEGファイルとして設けられるVR規格ストリーム10を構成するVOBUの集合を示し、2段目が各VOBUに含まれる映像データの集合、3段目が映像データの集合に対応する音声データの集合を表す。VOBU#iに含まれる映像データをV(i)などと表す。映像データV(i)に同期して再生される音声データは音声データA(i)などと表す。最上段にMPEG−2プログラムストリームを構成するVOBUを示す。第2段に各VOBUに格納される映像フレームの集合を示す。第3段にそれぞれの映像フレームの集合と同期して再生される音声データAo(i)の格納位置とVOBU境界との位置関係を縦の点線で示す(以降の図9、10、11、12、13、14も概ね同様である)。
上述した想定の下では、映像データV(i)に同期して再生される音声データA(i)の格納位置はVOBU#iの途中から始まり、末尾はVOBU(i+1)の先頭部分に格納されている。図7では、VOBU#(i+1)の先頭から音声データA(i+1)の前までに格納されているデータAが、映像データが格納されているVOBU#iとは異なるVOBU#(i+1)に格納されることになった音声データに相当する。この音声データを、以下「分離格納データ」と称する。
PS組立部104は、VOBU#iおよびVOBU#(i+1)の生成時に、分離格納データと同じ内容を表すコピーデータを生成する。そして、そのコピーデータを、VOBU#iの次のVOBU#(i+1)の先頭のビデオパック以降に格納する。具体的には、コピーデータを先頭のビデオパックのユーザデータ領域(例えば図4のユーザデータ領域42)に格納する。コピーデータをユーザデータ領域42に格納することは、映像および音声の各データをすべて1つのVR規格ストリーム10(1つのファイル)内に格納することを意味している。なお、コピーデータとは、分離格納データの音声データそのもののコピーを意味する。
なお、このとき、エレメンタリーストリームのみをコピーしてもよいし、パック単位でコピーしてもよい。だだし、パック単位のコピーを実施する場合、オーディオパックのパックヘッダのSCR値は、転送タイミングとしての意味を持たせる必要はないのでコピー値のままでよい。また、パック内のPESパケットヘッダ内のPTS値はそのまま利用可能となる。
さらに、PS組立部104は、VOBU#(i+1)および#(i+2)の生成時にも、映像データV(i+1)に対応する音声データA(i+1)のうち、VOBU#(i+2)に格納される分離格納データと同じ内容を表すコピーデータを生成する。そして、そのコピーデータを、VOBU#iの次のVOBU#(i+1)の先頭のビデオパックに格納する。
なお、PS組立部104は、映像のどのピクチャと音声のどのフレームとを同期して再生させるべきか把握してPTSを付加する機能を有しているため、音声データAのうち、どの部分が分離格納データであるかを把握している。よって、分離格納データを特定することは容易である。
図8は、データ処理装置30の記録処理の手順を示すフローチャートである。まずステップS81において、映像信号入力部100および音声信号入力部102は、それぞれ映像信号および音声信号を受け取る。ステップS82において、映像圧縮部101および音声圧縮部103は、各信号から得られた映像データおよび音声データを圧縮符号化する。
PS組立部104は、次のステップS83において、映像の再生時間等に基づいてVOBU#iを生成する。なお、VOBU#i内のビデオパック等の各パックの配置(順序)は、システムターゲットデコーダモデルの規定に従って決定される。例えば各パックの配置(順序)は、プログラムストリーム・システム・ターゲット・デコーダ(P−STD)モデルにおいて規定されたバッファ容量の規定を満たすように決定される。
次に、ステップS84において、対応する映像データおよび音声データが同一のVOBU内に格納されるか否かを判定する。同一のVOBU内に格納される場合には、生成したVOBUのデータを順次記録部120に送る。そして記録部120はそのデータを光ディスク131に記録する。その後、ステップS83からの処理が繰り返される。
対応する映像データおよび音声データが同一のVOBU内に格納されない場合、すなわち、後続のVOBUに、映像データに対応する音声データの一部分のデータAを分離格納データとして格納することになったときは、処理はステップS85に進む。ステップS85では、PS組立部104は、分離格納データ(図7の部分データA)を次のVOBU#(i+1)の先頭のビデオパックのユーザデータ領域に記述して記録部120に出力する。記録部120はそのデータを光ディスク131に記録する。
その後、ステップS86において、PS組立部104は全ての映像データおよび音声データを処理したか否かを判定する。処理が終了していない場合にはステップS83からの処理を繰り返し、処理が終了した場合には、記録動作を終了する。
次に、再び図3を参照しながら、データ処理装置30の再生機能に関する各構成要素の機能を説明し、その後、データ処理装置30の再生動作を説明する。
データ処理装置30は、映像表示部110と、音声出力部112と、再生部121と、変換部141と、出力インターフェース部140と、再生制御部162と、プレイリスト再生制御部164と、MPEG2PSデコーダ171とを有する。
映像表示部110は映像を出力するテレビ等の表示機器であり、音声出力部112は映像および音声を出力するスピーカ等である。なお、映像表示部110および音声出力部112はデータ処理装置30の必須の要素ではなく、外部機器として設けられていてもよい。再生部121は、再生制御部162の指示に基づいて光ピックアップ130を介して光ディスク131から読み出されたアナログ信号としてのVR規格ストリーム10を、デジタル信号として再生する。再生制御部162は、再生の対象となるVOBUおよびそのVOBUに含まれるデータを特定して、そのデータの読み出しを光ピックアップ130に指示する。プレイリスト再生制御部164は、ユーザが指定した順序で動画の各シーンを再生する。各シーンは、例えばVOBU単位で管理される。
MPEG2−PSデコーダ171(以下、「デコーダ171」と記述する)は、プログラムストリーム分解部114、映像伸長部111および音声伸長部113を有する。プログラムストリーム分解部114(以下「PS分解部114」と記述する)は、VR規格ストリーム10から映像データおよび音声データを分離する。映像伸長部111は、MPEG2規格に基づいて圧縮符号化された映像データをその規格にしたがってデコードして映像信号として出力する。音声伸長部113も同様に、MPEG1−オーディオ規格に基づいて圧縮符号化された音声データをその規格にしたがってデコードして音声信号として出力する。
まず、データ処理装置30の一般的な再生動作を説明する。データ処理装置30が記録されたVR規格ストリーム10を再生するときは、光ディスク131からのデータの読み出しと読み出したデータのデコード(再生)を並列的に行う。このとき、データの最大再生レートよりもデータの読出レートの方が高速となるように制御して、再生すべきデータが不足しないように動作する。その結果、VR規格ストリーム10の再生を継続すると、単位時間あたり、データ最大再生レートとデータ読み出しレートとのレート差分だけ再生すべきデータを余分に確保できることになる。データ処理装置30は、ピックアップ130がデータを読み出しできない期間中(例えばシーク動作中)に余分に確保したデータを再生することにより、途切れのないVR規格ストリーム10の再生を実現することができる。
例えば、再生部121のデータ読み出しレートが11.08Mbps、PS分解部114のデータ最大再生レートが10.08Mbps、ピックアップの最大移動時間が1.5秒とすると、途切れることなくVR規格ストリーム10を再生するためには、ピックアップ130の移動中に15.12Mビットの余分なデータが必要になる。これだけのデータを確保するためには、15.12秒間の連続読み出しが必要になる。すなわち、15.12Mビットを、データ読み出しレート11.08Mbpsとデータ最大記録再生レート10.08Mbpsの差で除算した時間だけ連続読み出しする必要がある。したがって、15.12秒間の連続データ読み出しの間に最大167.53Mビット分のデータ(すなわち16.62秒分の再生データ)を読み出すことになるので、16.62秒(約17秒)分以上の連続データ領域を確保することにより、連続的なデータ再生を保証することが可能となる。なお、連続データ領域の途中には、数個の不良論理ブロックがあってもよい。ただし、この場合には、再生時にかかる不良論理ブロックを読み込むのに必要な読み出し時間を見越して、連続データ領域を再生時間にして16.62秒分よりも若干多く確保する必要がある。
次に、データ処理装置30の具体的な再生動作を説明する。まず、VR規格ストリーム10の先頭から順に映像および音声を再生する際のデータ処理装置30の動作を説明する。
再生制御部162は、再生の対象となるVOBUを特定し、その最初から順次データを読み出すように光ピックアップ130に指示する。PS分解部114は、ピックアップ130および再生部121を介して再生されたVR規格ストリーム10を映像データおよび音声データに分離する。映像伸長部111および音声伸長部113は、それぞれ映像データおよび音声データをデコードし、その結果得られた映像信号に基づく映像を映像表示部110において表示し、音声信号に基づく音声を音声出力部112において出力する。
次に、ユーザが希望するVOBUの再生順序を規定した「プレイリスト」に基づいて、データ処理装置30が光ディスク131に記録されたVR規格ストリーム10を再生する動作を説明する。
いま、プレイリストのある一部分がVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているとする。プレイリスト再生制御部164は、まずVOBU#iの読み出しを光ピックアップ130に指示する。PS分解部114は、光ピックアップ130および再生部121を介して再生されたVOBU#iのデータを映像データおよび音声データに分離してデコードし出力する。このとき、VOBU#iの最初に存在するビデオパックのユーザデータ領域にデータが記述されている場合には、そのデータはVOBU#iの映像に対応する音声のデータではないため無視する。
そして、VOBU#iの最後までデータが読み出されると、プレイリスト再生制御部164は、後続のVOBU#(i+1)の最初に存在するビデオパックのユーザデータ領域のデータを読み出すように光ピックアップ130に指示する。このデータは、VOBU#iに含まれる映像に対応する音声に関する分離格納データであるから、音声伸長部113は、VOBU#i内の音声データのデコード後にその分離格納データをデコードして音声として出力する。その後、プレイリスト再生制御部164からの指示に基づいて次の再生対象であるVOBU#kのデータが読み出され、PS分解部114は、再生部121を介して次の再生対象であるVOBU#kのデータを得て、デコードして出力する。
VOBUの先頭にはRDIパックが配置され、その次にはビデオパックが配置されるので、後続のVOBUの最初のビデオパック内の分離格納データを読み出すことは容易かつ迅速に実現できる。また、VOBU先頭付近の複数のビデオパックに亘って分離格納データが記録される場合も同様である。データ処理装置30は再生時にその分離格納データをも読み出すことにより、VOBUに含まれる映像に対応する音声のすべてのデータが得られるため、音声が途切れることなく再生される。なお、音声データAo(i)内の分離格納データをVOBU(i+1)の先頭ビデオパックのユーザデータ内に格納する代わりに、VOBU(i)内のプライベートストリーム内に格納して多重してもよい。
なお、データ処理装置30は、記録したデータを上述のようなストリームの分離およびデコードを介することなく出力することもできる。すなわち、変換部141は読み出されたVR規格ストリーム10を所定のフォーマット(例えばDVDビデオ規格のフォーマット)に変換し、出力インタフェース部140は変換後のストリームを出力する。このときも、読み出すべきVR規格ストリーム10のVOBUのデータに加えて、後続のVOBUの最初に存在するビデオパックのユーザデータ領域のデータを読み出すことにより、出力先の機器においても音声の途切れがない再生が可能になる。なお、出力インタフェース部140は、例えばIEEE1394規格に準拠したインターフェースであり、外部機器からのデータの読み出しおよび外部機器からのデータの書き込み処理を制御することが可能である。
続く実施形態2以降の各実施形態は、本実施形態のデータ処理装置30の記録・再生動作に関する種々のバリエーションである。実施形態1で説明したデータ処理装置30の各構成要素は、以下の実施形態においても、特に説明しない限り同じ機能を有するとする。
(実施形態2)
実施形態1では、VR規格ストリーム10には、対応する映像ストリームおよび音声ストリームがそれぞれ1つずつ格納されているとし、音声データのうち、映像データと同じVOBUに格納されないデータ(分離格納データ)のコピーを後続のVOBUの映像データ内(ビデオパック内)に格納していた。
本実施形態では、対応する各1つの映像ストリームおよび音声ストリームに加えて、その音声ストリームのデータをコピーした別の音声ストリームをさらに記録する。以下、本実施形態の記録動作を具体的に説明する。
図9は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。このVR規格ストリーム10は、実施形態1と同様1つのMPEGファイルとして規定されているが、実施形態1と異なり2つの音声ストリームが多重されている。いま、映像ストリームに対応する音声ストリームを「音声ストリーム#0」とする。音声ストリーム#0では、分離格納データが存在している。
PS組立部104は、音声ストリーム#0のデータのコピーを、別の音声ストリーム#1として光ディスク131に記録する。より具体的には、PS組立部104は、VOBU#iに含まれる映像に対応する音声のストリーム#0のデータをコピーして、音声ストリーム#1のオーディオパックを生成する。そして、それらのオーディオパックをVR規格ストリーム10のVOBU#i内に多重化する。音声ストリーム#0および#1は、それぞれ、各パックのパケットヘッダに記述されたストリームIDによって識別可能である。なお、コピーされるデータの容量は、プログラムストリームのシステム・ターゲット・デコーダ(P−STD)の音声バッファが許容する範囲内である等の制限を満たす必要がある。図9では、音声ストリーム#0を構成する音声データA(i)、A(i+1)、A(i+2)等をコピーしたデータが、A(i)、A(i+1)、A(i+2)等として格納される。
ただし、音声ストリーム#1と音声ストリーム#2のビットレートは同じであるものとしているので、Ao(i)のコピーデータがVOBU#i内に格納できるとは限らない。VOBU#i内の映像フレームの総再生時間と、VOBU#iのデータの総転送時間(VOBU#i先頭のSCR値とVOBU#i+1先頭のSCR値との差分)が等しい場合はAo(i)のコピーデータがちょうど格納可能となる。
ただし、映像に対応する音声を途切れることなく再生するためには、VOBU#iの読み出しの終了に合わせて、その映像に対応する音声のデータを可能な限り多く取得する必要がある。そこで、PS組立部104は、音声ストリーム#0に関するオーディオパックに付されるMPEG規格のSCRおよびPTSを修正して、音声ストリーム#1についてのSCRおよびPTSを生成する。すなわち、PS組立部104は、同じ音声を表すデータを格納したパックに関してみたとき、音声ストリーム#1のオーディオパックに付されるSCRおよびPTSの値を、音声ストリーム#0のパックに付されるSCRおよびPTSの値よりも所定量だけ小さく設定する。SCRおよびPTSがより小さくなると、そのパックは、VR規格ストリーム10内のパック配列上より早く読み出される位置に配置し得るからである。よって、実施形態1における分離格納データに相当するVOBU#(i+1)内のデータを、VOBU#i内により多く格納できるようになる。
PS組立部104は、SCRおよびPTSを小さく設定した量を示す変化量データを、例えばVOBU#iの最初に配置されたビデオパックのユーザデータ領域42に記述しておく。
次に、本実施形態によるデータ処理装置30の再生動作を説明する。以下の説明はプレイリストに基づく再生時において特に有効であるため、その場合を例にして説明する。
プレイリスト再生制御部164は、光ディスク131に記録されたVOBU#iの映像のデコードにあわせて、ストリーム#0ではなく、ストリーム#1をデコードする。VOBU#i内に格納されている映像データに対応する音声データは、ストリーム#0よりもストリーム#1のデータのほうが多いからである。
ただし、複製データを持つ音声ストリーム#1の音声ストリーム#0に対する時間シフト量を記録する必要がある。その理由は上述のように、ストリーム#1の各オーディオパックのSCRおよびPTSはストリーム#0よりも小さい値に設定されているため、そのままでは映像と同期して再生させることはできないからである。よって、PS分解部114は、VOBU#iの最初に配置されたビデオパックのユーザデータ領域42から、再生タイミングのシフト量を読み出して、この値をPTSに加算して、すなわち再生時間を遅らせて音声を再生する。これにより、映像と音声を同期して再生できる。
例えばVOBU#iの先頭映像フレームと同期する音声ストリーム#0の音声フレームAF#0のPTSと、AF#0のコピーデータを含む音声フレームのPTSとの差分値を、動画ストリームファイル“VR_MOVIE.VRO”に対する管理情報ファイル内に記録してもよい。また、差分値を各VOBUのRDIパック内のメーカ独自データ領域へ記録してもよい。これにより、再生制御部は、VOBU#iを再生する場合に、VOBU先頭の映像フレームのタイムスタンプ値から差分値を減算し、その減算結果以降の音声ストリーム#1に含まれる音声フレームを再生すればよいことになる。
また、VOBU毎にRDIパック内のメーカ独自データ領域の中に再生タイミングのシフト量を記録してもよい。
なお、PCに接続された光ディスクドライブを介してPCの再生アプリケーションソフトが記録済みの動画ファイルを再生する場合は、音声ストリーム#0の方が再生される。すなわち、動画ファイルを一般的なMPEGファイルとして再生される場合には音声ストリーム#0が使われる。
各VOBU内に対応する全ての音声のデータが含まれない場合であっても、音声ストリーム#0に関して生じていた分離格納データのデータ量は相当程度小さくすることができるので、プレイリストに基づく再生において、音声のほぼシームレスな再生を実現できる。
なお、音声ストリーム#1の記録内容に関する情報を別途記録してもよい。例えば、音声ストリーム#1内に音声ストリーム#0の複製データが格納されていることを示すフラグを動画ストリームファイル“VR_MOVIE.VRO”に対する管理情報ファイル内に記録してもよい。このフラグは少なくともVOB単位で記録するのが望ましい。また、動画ストリームVOB内、もしくは音声ストリーム#1内等に記録してもよい。このフラグにより、音声ストリーム#1内に音声ストリーム#0とは別の音声が格納されているのか、音声ストリーム#0のコピーが格納されているのかを区別可能になる。
(実施形態3)
実施形態1では、分離格納データはビデオパック内のユーザデータ領域42に格納されていた。
本実施形態では、データ処理装置30は、VR規格ストリーム10を規定するMPEGファイルとは別のファイルのデータとして分離格納データを記録する。
図10は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。PS組立部104は、VOBU#iの生成時に、そのVOBUに関連する分離格納データを特定すると、分離格納データをコピーした音声データ#iを生成する。そして、PS組立部104は、その音声データとVR規格ストリーム10を構成する各VOBUとを物理的に交互に記録する。各音声データおよび各VOBUはそれぞれ、ひとつの音声ファイルおよびひとつのMPEGファイルとして記録される。PS組立部104は、音声データ#iをVOBU#iの直後にインターリーブする。
一方、プレイリストに基づく再生時には、プレイリストがVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているときであっても、プレイリスト再生制御部164はVOBU#iだけでなく後続の音声データ#iまでを読み出し、その後、次に再生すべきVOBU#kのデータを読み出す。そして、PS分解部114において映像データと音声データとに分離した後、映像伸長部111および音声伸長部113は映像データおよび音声データをデコードして出力する。特に、音声伸長部113は、VOBU#i内に含まれていたオーディオパック内の音声データのデコードおよび再生した後、音声データファイルに含まれていた音声データ#iをデコードし再生する。
再生対象のVOBUの次に分離格納データに関する音声データが格納されているので、その音声データを連続的に読み出すことは容易かつ迅速に実現できる。データ処理装置30は再生時にその分離格納データをも読み出すことにより、VOBUに含まれる映像に対応する音声のデータがすべて得られるため、音声が途切れることなく再生される。
なお、本実施形態では対応するVOBUの直後に分離格納データのコピーを記録したが、対応するVOBUの直前に記録してもよい。
(実施形態4)
実施形態3では、データ処理装置は、音声ストリームのうちの分離格納データのみに基づいてMPEGファイルとは別の音声ファイルを生成し記録していた。また、例えばVOBU#iに関連する音声データ#iは、VOBU#iの直後に記録されていた。
一方、本実施形態によるデータ処理装置は、音声ストリームのすべてのデータに対して、MPEGファイルとは別の音声ファイルを生成し記録する。さらに、各VOBUに関連する音声データは、そのVOBUの前に記録される。
図11は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。PS組立部104は、VOBU#iの生成時に、そのVOBUに含まれる映像データV(i)に対応する音声データA(i)を特定すると、音声データA(i)を構成するデータをコピーした音声データ#iを生成する。そして、PS組立部104は、その音声データとVR規格ストリーム10を構成する各VOBUとを物理的に交互に記録する。各音声データおよび各VOBUはそれぞれ、ひとつの音声ファイルおよびひとつのMPEGファイルとして記録される。PS組立部104は、音声データ#iをVOBU#iの直前にインターリーブする。
一方、プレイリストに基づく再生時には、プレイリスト再生制御部164は、VOBU#iの読み出しの前に音声データ#iの読み出しを先に行うように指示する。すると、VOBU#iの読み出しが終了する前に、音声データ#iの読み出しが終了し、さらに、音声伸長部113によるデコードが終了するので、VOBU#iの映像に同期して、すべての音声を再生できる。よって、後にVOBU#k(k≠(i+1))の再生を指定しているときであっても、音声のシームレスな再生を実現できる。
なお、本実施形態ではVOBU#iの前に音声データ#iを記録するとして説明したが、実施形態3と同様に、VOBU#iの後に音声データ#iを記録してもよい。このときは、VOBU#iの再生後、他のVOBUの読み出しを開始する前に、音声データ#iを読み出す必要がある。
上述の実施形態3および4では、音声ファイル内のデータの構造には特に言及していないが、音声のエレメンタリーストリームであってもよいし、音声ストリームを含むMPEG2プログラムストリームであってもよいし、音声ストリームを含MP4ストリームであってもよいし、その他のシステムストリームであってもよい。
(実施形態5)
実施形態1では、VOBU#iに関連する分離格納データを、次のVOBU#(i+1)に格納するものとした。
一方、本実施形態では、VOBU#iに関連する分離格納データをそのVOBU#iに別のストリームとして格納する。
図12は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。PS組立部104は、VOBU#iに関連する分離格納データAをコピーして、VOBU#i内に分離格納データAの部分専用のプライベートストリームとして多重化する。
VR規格ストリーム10では、そのストリームに含まれる映像ストリームおよび音声ストリームを識別するために、ストリームIDが付されている。ストリームIDはPESパケットヘッダに格納されており、例えば映像ストリームのストリームIDは、例えば0xE0、音声ストリームのストリームIDは0xC0またはは0xBDである。0xBDはMPEG−2システム規格でプライベートストリーム用に規定された値である。VR規格において音声ストリームに0xBDを使用する場合は、さらにPESパケットヘッダの直後の1バイトによりその音声ストリームの圧縮符号を識別する。本実施形態において新たに設けるプライベートストリームのストリームIDとして、0xBDが用いられる。
プレイリストに基づく再生時には、プレイリストがVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているときであっても、音声ストリーム#0に続けてプライベートストリームとして含まれている分離格納データAを読み出して再生するので、音声を途切れなくすることが容易に実現可能になる。
なお、プライベートストリームに、分離格納データAのみでなく音声ストリームの全体のデータをコピーして、VOBU#i内に分離格納データAの部分専用のプライベートストリームとして多重化することもできる。図13は、本実施形態の変形例によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。
PS組立部104は、VOBU#iに含まれる映像に対応する音声データのコピーを、VOBU#i内の専用のプライベートストリーム1(stream_ID=0xBD)として記録する。このプライベートストリーム用のシステム・ターゲット・デコーダのバッファサイズは少なくとも音声データ2秒分を蓄積可能なサイズを有するとする。ここで「2秒」の意味は、VOBUに含まれる映像の最大の再生時間(1秒)とシステム・ターゲット・デコーダの最大再生遅延時間(1秒)を加算した数値である。
プレイリストに基づく再生時には、プレイリストがVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているときであっても、常にプライベートストリーム1に格納された音声データ#0のコピーの音声データを再生すれば音声を途切れなくすることが容易に実現できる。
本実施形態のように、音声ストリームをコピーしたデータをプライベートストリームとして記録することにより、MPEGファイルのVOBU単位で編集する場合において、音声データを容易にシームレス再生することができる。その理由は、例えば、2つのVOBUを結合する編集処理を行ったときには、それらのVOBUに含まれるプライベートストリームも結合され、結合された分離格納データが得られるからである。
(実施形態6)
実施形態5の第1の例では、PS組立部104は、VOBU#iに関連する分離格納データAを、VOBU#i内のプライベートストリームとして格納した。
一方、本実施形態では、VOBU#iに関連する分離格納データAのコピーを、VOBU#iの音声フレーム内に付加データとして記録する。
図14は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。PS組立部104は、VOBU#iの音声ストリーム#0に関連する分離格納データAを、VOBU#iの音声フレーム内の付加データ(AD)領域内にコピーして格納する。
図15は、音声圧縮部103が生成するAC−3規格の音声フレームのデータ構造を示す。AC−3の音声フレームは、同期情報(SI)、ビットストリーム情報(BSI)、音声ブロック(ABnからABn+5)および付属情報(AD)から構成される。
同期情報(SI)には、音声フレームのビットレートを示すレート情報が記録される。本実施形態では、音声フレームのビットレートは448kbpsであるとしている(フレームサイズコードが448kbpsを示す)。音声フレームは、同期情報(SI)に規定されたビットレートの情報に応じたデータ長(図15に示す1792バイト)を有している。ただし、音声圧縮部103は、実際には同期情報、ビットストリーム情報、および音声ブロックの有効データを256kbps以下のビットレートで記録し、付属情報領域は後から記録する分離格納データAのために空けておく。
これにより、448kbpsのデータレートに対応する1フレーム分のデータ長(1792バイト)と、256kbpsのデータレートに対応する1フレーム分のデータ長(1024バイト)との差分、192kbps分のデータ長(768バイト)の付属情報領域が確保されることになる。PS組立部104は、その付属情報領域内に図14に示す分離格納データAのコピーデータを格納する。分離格納データAに対応する音声の平均ビットレートは、448kbpsのデータと256kbpsとの差分以下である、192kbpsであるものとする。
以上のように当初から記録される音声ストリームの各音声フレーム内に空き領域を設け、その空き領域に分離格納データをコピーすることにより、VOBU内に格納されなかった音声データ(分離格納データ)を実質的に格納できる。
プレイリストに基づく再生時には、VOBUのデータの読み出しが終わると、PS分解部114がデータストリームを解析することにより、音声伸長部113は従来のデータ構造では得ることができない分離格納データAのコピーデータを得ることができる。これにより、通常では音声が途切れる映像の場面においても、映像に同期して音声がシームレスに再生できる。
同期情報(SI)において規定しているビットレートの半分のビットレートを実際のビットレートに充て、残り半分を分離格納データのビットレートに充ててもよい。例えば、AC−3の音声ストリームは448kbpsで、実際のビットストリームが224kbps、分離格納データのビットストリームも224kbpsとしてもよい。音声フレームをこのように構成することにより、音声ストリーム#0の音声データを全て付属情報領域へ格納することができる。なお、分離格納データのコピーである音声ストリームは、AC−3規格に準拠した音声フレームが連続した形態であってもよく、さらに、分離格納データAの1個の音声フレームが、2個のAC−3規格の音声フレームに亘って付属情報内に記録されてもよい。また、分離格納データのデータ構造は、音声のエレメンタリーストリームを含むMPEG2プログラムストリームであってもよいし、その他のシステムストリームであってもよい。
なお、本実施形態では分理格納データのみが付属情報領域内に格納されるものとしたが、記録スペースを確保可能であれば音声ストリーム#0を全て格納してもよい。
(実施形態7)
実施形態6では、分離格納データAをAC−3規格の音声フレームの付加情報(AD)領域へ格納した。本実施形態では、MPEG−1オーディオ規格の音声フレーム内の付加データ(ancillary_data)領域へ分離格納データAを格納する。他の構成は実施形態6と同様である。
図17は本実施形態におけるMPEG−1オーディオ規格の音声フレームのデータ構造を示す。MPEG−1オーディオ規格の音声フレームは、ヘッダ、エラーチェック、音声データおよび付加データ(ancillary_data)を有しており、音声圧縮部103は、図17に示すデータ構造を有する音声フレームを生成する
ヘッダには音声フレームのビットレート、サンプリング周波数、およびレイヤを示す情報が記録される。本実施形態では、それぞれ384kbps、48kHz、およびレイヤ2であるとしている。このとき、各音声フレームは、ヘッダに規定されたビットレートの情報に応じたデータ長を有している。ただし、音声圧縮部103は、実際にはヘッダ、エラーチェック、および音声データの合計が256kbps相当以下となるように記録し、付加データ領域は後から記録する分離格納データAのコピーのために空けておく。
これにより、384kbpsのデータレートに対応する1フレーム分のデータ長(1152バイト)と、256kbpsのデータレートに対応する1フレーム分のデータ長(768バイト)との差分、すなわち128kbps分のデータ長(384バイト)の付加データ領域が確保されることになる。PS組立部104はこのデータ領域内に、図14に示す分離格納データAのコピーデータを格納する。分離格納データAのコピーとして格納される音声のビットレートは平均128kbps以下であるとする。
以上のように当初から記録される音声ストリームの各音声フレーム内に空き領域を設け、その空き領域に分離格納データをコピーすることにより、VOBU内に格納されなかった音声データ(分離格納データ)を実質的に格納できる。
プレイリストに基づく再生時には、VOBUのデータの読み出しが終わると、PS分解部114がデータストリームを解析することにより、音声伸長部113は従来のデータ構造では得ることができない分離格納データAのコピーデータを得ることができる。これにより、通常では音声が途切れる映像の場面においても、映像に同期して音声がシームレスに再生できる。
なお、本実施の形態では分理格納データのみが付属情報領域内に格納されるとしたが、記録スペースを確保可能であれば音声ストリーム#0を全て格納してもよい。
なお、分離格納データのコピーである音声ストリームは、MPEG−1オーディオ規格に準拠した音声フレームが連続した形態であってもよく、さらに、分離格納データAの1個の音声フレームが、2個のMPEG−1オーディオ規格の音声フレーム内の付加データ領域に亘って記録されてもよい。また、分離格納データのデータ構造は、音声のエレメンタリーストリームを含むMPEG2プログラムストリームであってもよいし、その他のシステムストリームであってもよい。
これまで説明した実施形態では、分離格納データのコピーまたは音声ストリーム#0全体のコピーデータを、どのような態様で記録し、かつ再生するかを問題としていた。しかし、記録時には特段の処理を行わず、再生時に分離格納データ自身を直接読み出すようデータ処理装置30を動作させてもよい。具体的には、プレイリストがVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているとき、プレイリスト再生制御部164は、VOBU#iのデータを読み出した後、必ず分離格納データを読み出し、その後、VOBU#kの読み出しを開始すればよい。これによれば、分離格納データの冗長な記録が不要になるとともに、音声をシームレスに再生することも可能になる。ただし、MPEG2規格上は最長1秒分のプログラムストリームを読み出す必要があるため、映像のシームレス再生が困難になるおそれがある。したがって、この場合プログラムストリーム生成時に、できるだけ分離格納データが少なくなるよう生成にすることが望ましい。
分離格納データが存在しないように圧縮符号化してVOBUを構成するためには、例えば映像伸長部111は各VOBUの映像フレームサイズが「映像のビットレート/1秒間のフレーム数」以下になるように各フレームを生成すればよい。これにより、音声に関して分離格納データが生成されることはなくなる。その理由は、1フレーム期間では毎回1フレーム分の音声データを伝送できるからである。なお、I(Intra)フレームのデータサイズが制限されて画質が低下するおそれが生じる点に留意が必要である。
または、分離格納データが所定のフレーム数(例えば4フレーム)以内の音声データを含むという制限をつけて、音声伸長部113が音声データを圧縮符号化してもよい。
本明細書では、プログラムストリームであるVR規格ストリームを例にしたが、MPEG1のシステムストリームまたはMPEG2のトランスポートストリームを利用することもできる。なお、トランスポートストリームは、トランスポートストリームを用いたデジタルテレビ放送規格に準拠した形式であってもよい。また、さらにトランスポートストリームを用いたデジタルデータ放送に準拠した形式であってもよい。トランスポートストリームの利用においては、トランスポートストリームパケットが利用される。なお、「パック」とはパケットの1つの例示的な形態として知られている。
また、プログラムストリームであるVR規格ストリームを例にしたが、ISO/IEC 14496−12で規定されるISO Base Media File Formatをベースにしたデータストリームであってもよい。
また、記録媒体は相変化光ディスクであるとしたが、例えばBlu−rayディスク、DVD−RAM、DVD−R、DVD−RW、DVD+RW、MO、CD−R、CD−RW等の光ディスクや、ハードディスク等の他のディスク形状の記録媒体も利用できる。また、フラッシュメモリ等の半導体メモリであってもよい。これに関連して、読み書きヘッドは光ディスク用のピックアップとしたが、例えば、記録媒体がMOの場合にはピックアップ及び磁気ヘッドとなり、またハードディスクの場合は磁気ヘッドとなる。
なお、本明細書では、プレイリスト再生時に音声が途切れなく再生できる技術を説明した。しかし、厳密には音声1フレーム分以下の間だけ音声データが存在しないケースがある。これはVOBU#iの次にVOBU#k(k≠(i+1))を読み出す際に、映像フレーム周期と音声のフレーム周期が若干異なり、完全には同期できないからである。この1フレーム以下の音声データの欠落を防ぐには、分離格納データに加えて、このデータに続く1音声フレームのデータを余分に含めればよい(実施形態1、3、4および5)。そして、これにより余分な音声データを含むことになるが、余分な部分は再生しないようにすればよい。
なお、実施の形態1から5までは音声の圧縮方式として、MPEG−1オーディオもしくはMPEG−2オーディオ、AAC、AC−3等を一般に使用することができる。なお、AC−3の場合は、図16(a)に示すように音声データはVOBU内に格納される際にプライベートストリーム1(stream_ID=0xBD)として格納される場合がある。このときは、例えば実施形態5における、分離格納データを格納するプライベートストリームのような、別のプライベートストリーム1を使用する他のストリームと区別する必要がある。そこでPS組立部104は、サブストリームID(0x80)をPESパケットヘッダの次に1バイトだけに設けて識別可能にする。図16(a)は、サブストリームID(0x80)を有し、AC−3データを含むオーディオパックのデータ構造を示す。
実施形態5において説明したプライベートストリームとAC−3用のプライベートストリームを区別して識別するために、異なる数値のサブストリームIDを用いてもよい。図16(b)は、サブストリームID(0xFF)を有し、データを含むオーディオパックのデータ構造を示す。この数値は、DVD−Video規格において規定されている値(0xFF)である。
なお、実施の形態5から7までにおいて分離格納データはエレメンタリーストリームのみか、または、PESパケットヘッダまでがコピーされていてもよい。上述の説明では、2つのVOBUの境界における音声フレームがいずれのVOBUと同期して再生されるべきかについては言及していないが、例えば映像フレームのPTS以降の音声フレームが同じVOBUに対応すると考えればよい。なお、本実施形態では、ビデオデータとしてMPEG−2ビデオストリームを挙げて説明したが、MPEG−4ビデオストリームやMPEG−4AVCビデオストリーム等の他の圧縮符号化形式を用いることもできる。
本発明によれば、同一のデータ単位(例えばVOBU)内に映像に対応する音声の全てのデータが含まれない場合であっても、少なくとも含まれない音声データをコピーしたコピーデータを、例えばそのデータ単位へのアクセスの際に容易にアクセスできる位置(例えば、次のVOBUの先頭部分、そのVOBUの直前または直後)に記録する記録装置を得ることができる。
これにより、特にプレイリストに基づいて映像および音声を同期して再生する場合には、映像データを含むデータ単位へのアクセスとともに、同期して再生されるべき全ての音声データが得られる。よって、シーンをまたぐ際の音声の途切れを大幅に低減でき、ユーザの視聴環境の向上に供することができる再生装置を得ることができる。
本発明は、映像および音声を含むコンテンツをリアルタイムで記録する方法および装置に関する。
映像(ビデオ)信号および音声(オーディオ)信号を低いビットレートで圧縮し符号化する種々のデータストリームが規格化されている。そのようなデータストリームの例として、MPEG2システム規格(ISO/IEC 13818-1)のシステムストリームが知られている。システムストリームは、プログラムストリーム(PS)、トランスポートストリーム(TS)、およびPESストリームの3種類を包含する。
近年、磁気テープに代わって、相変化光ディスク、MO等の光ディスクが、データストリームを記録するための記録媒体として注目を浴びてきている。現在、相変化光ディスク(例えばDVD)にコンテンツのデータストリームをリアルタイムで記録し、編集等を可能にする規格として、DVDビデオレコーディング規格(以下、「VR規格」と称する)が規定されている(DVD Specifications for Re-writable/Re-recordable Discs Part3 VIDEO RECORDING version 1.0 September 1999)。また、映画等の再生専用コンテンツのデータストリームを記録する、パッケージメディア用の規格として、DVDビデオ規格(以下、「ビデオ規格」と称する)が規定されている。
図1は、VR規格に準拠したMPEG2プログラムストリーム10のデータ構造を示す(以下、このストリームを「VR規格ストリーム10」と記述する)。
VR規格ストリーム10は、複数のビデオオブジェクト(Video OBject;VOB)#1、#2、・・・、#kを含んでいる。例えば、VR規格ストリーム10がカムコーダで撮影されたコンテンツとすると、各VOBは、ユーザが録画を開始してから録画を停止するまでの1回の録画動作によって生成された動画データが格納されている。
各VOBは、複数のVOBユニット(Video OBject unit;VOBU)#1、#2、・・・、#nを含んでいる。各VOBUは、主として、映像の再生時間にして0.4秒から1秒までの範囲内の映像データを含むデータ単位である。
以下、図1において最初に配置されたVOBU#1とその次に配置されたVOBU#2を例にして、VOBUのデータ構造を説明する。
VOBU#1は、MPEGプログラムストリームの下位階層であるパックが複数集まって構成されている。VR規格ストリーム10内の各パックのデータ長(パック長)は一定(2キロバイト(2048バイト))である。VOBUの先頭には、図1に“R”で示されるリアルタイムインフォメーションパック(RDIパック)11が配置されている。RDIパック11の後には、“V”で示されるビデオパック(ビデオパック12等)および“A”で示されるオーディオパック(オーディオパック13等)が複数含まれている。なお、各VOBUのデータサイズは、再生時間が同じであっても映像データが可変ビットレートであれば最大記録再生レート以下の範囲で変動し、映像データが固定ビットレートであればほぼ一定である。
各パックは以下の情報を格納している。例えば日本国特開2001−197417号公報に記載されているように、RDIパック11は、VR規格ストリーム10の再生を制御するために用いられる情報、例えばVOBUの再生タイミングを示す情報や、VR規格ストリーム10のコピーを制御するための情報を格納している。ビデオパック12は、MPEG2圧縮された映像データを格納している。オーディオパック13は、例えばMPEG2−オーディオ規格によって圧縮された音声データを格納している。近接するビデオパック12およびオーディオパック13には、例えば、同期して再生される映像データおよび音声データが格納されている。
VOBU#2もまた、複数のパックから構成されている。VOBU#2の先頭には、RDIパック14が配置され、その後、ビデオパック15およびオーディオパック16等が複数配置されている。各パックに格納される情報の内容はVOBU#1と同様である。
なお、VOB内の各VOBU先頭へ、RDIパックは記録されないこともある。このときは、VOBU先頭には必ずビデオパックが記録される。
図2は、ビデオパック内の映像データによって構成される映像ストリームと、オーディオパック内の音声データによって構成される音声ストリームとの関係を示す。
具体的には、VOBU#iでは、ビデオパック21aを含む1以上のパックに格納された映像データによって、映像ストリームのピクチャ21bが構成される。次いで、ビデオパック22を含む1個以上のパックに格納された映像データによって、次のピクチャが構成され、さらに以降のビデオパックに格納された映像データによってさらに次のピクチャが構成される。一方、オーディオパック23aに格納された音声データによって音声フレーム23bが構成される。その他のオーディオパックについても同様である。なお、1つの音声フレームのデータは2以上のオーディオパックに分割されて格納されていてもよい。また、ひとつのオーディオパック内に複数の音声フレームを含んでいてもよい。
また、VOBUに含まれる音声フレームのデータはVOBU内で完結しているとする。すなわち、VOBUに含まれる音声フレームのデータはVOBU内に全て存在し、次のVOBUには含まれないとする。
映像フレームおよび音声フレームは、各ビデオパックおよびオーディオパックのパケットヘッダに格納されている再生時刻を指定する情報(プレゼンテーションタイムスタンプ;PTS)に基づいて再生される。図2では、ビデオピクチャ21bと音声フレーム23bとがほぼ同時刻に再生される。すなわち、両者は同期して再生される。
VOBU#iのビデオパック24aおよび24bに注目する。ビデオパック24aからビデオパック24bまでのビデオパックに格納された映像データによって、VOBU#iの最後のピクチャ24cが構成される。上述のように、各VOBUは映像の再生時間等を基準として構築されており、音声を考慮して特に構築されているわけではない。そのため、音声フレーム25cのデータは、ビデオピクチャ24cと同期して再生されるように再生時刻情報(PTS)が付加されていても次のVOBU#(i+1)のオーディオパック25aおよび25b等に格納される。
このように、映像フレームと同期して再生される音声フレームの記録位置がずれる理由は、ビデオパックとオーディオパックの多重化ルールを規定しているシステムターゲットデコーダ(P−STD)内において、ビデオデータ用のバッファのデータサイズ(例えば224kバイト)が、音声データ用のバッファのサイズ(例えば4kバイト)よりもかなり大きいためである。音声データは蓄積可能なデータ量が少ないので、再生タイミングの直前で読み込むように多重化される。
このようなプログラムストリームに対して、ユーザは、希望するVOBUの再生順序を「プレイリスト」として登録することができる。再生装置はプレイリストに基づいて、指定されたあるVOBUのデータを取得して映像等を再生し、その後、指定されたVOBUの先頭からデータを読み出して再生を継続する。
しかし、同期して再生すべき映像データおよび音声データが異なるVOBUに格納されている場合には、プレイリストに基づく再生中、音声が途切れるという問題が生じていた。その理由は、再生対象のVOBUのデータは読み出されるが、その次に配置された非再生対象のVOBUに格納された音声データは読み出されないからである。この場合には、映像のみが再生され、それと同期して再生されるはずの音声は再生されない。
例えば、図2において、プレイリストがVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているとする。このとき、VOBU#iのビデオピクチャ24cのデータが読み出された後は、次のVOBU#k内のデータが読み出される。よって、ビデオピクチャ24cに同期して再生されるべき、VOBU#(i+1)に格納された音声フレーム25cのデータは読み出されず、音声は再生されない。その結果、ユーザには途中で音声が途切れて聞こえる。
また、VOBU#kにおいても、その先頭のビデオピクチャに対応する音声フレームがVOBU#k内の途中のどこから格納されているのかはVOBU毎に異なる。どこから格納されているかは、VOBU#kとそれ以前のVOBU(VOBU#(k−1))との相対関係で決定される。具体的にはプログラムストリームのビット量とシステムターゲットデコーダ(P−STD)のバッファサイズによって決定される。したがって、仮にVOBU#i内に同期して再生されるべき音声フレームが全てあったとしても、VOBU#kと同期して再生されるべき音声フレームが直ぐに格納されているとは限らない。この理由によっても、ユーザには途中で音声が途切れて聞える。
本発明の目的は、プレイリスト等に基づいて映像および音声を再生する場合であっても、音声が途切れる期間を著しく少なくする、または音声が途切れる期間がないようにすることである。
本発明によるデータ処理装置は、映像信号および音声信号が入力される信号入力部と、前記映像信号および前記音声信号を圧縮符号化して、映像データおよび音声データを生成する圧縮部と、前記映像データおよび前記音声データを分割してパケットを複数生成し、前記映像データに関する映像パケットおよび前記音声データに関する音声パケットを多重化したデータ単位を複数生成し、複数の前記データ単位を含むデータストリームを生成するストリーム組立部と、前記データストリームを記録媒体に記録する記録部とを有している。前記ストリーム組立部は、前記データ単位に含める映像パケットおよび音声パケットを少なくとも映像の再生時間に基づいて決定し、所定のデータ単位に格納された映像データに対応する音声データの全部が前記所定のデータ単位に含まれない場合には、前記音声データのうち、少なくとも含まれない部分である部分音声データをコピーしたコピーデータを前記データストリーム内に含める。
前記ストリーム組立部は、前記データ単位に対応する前記コピーデータを、後続のデータ単位の最初に配置された映像パケット内に格納してもよい。
前記ストリーム組立部は、前記データ単位内に、対応する前記コピーデータを格納してもよい。
前記ストリーム組立部は、前記コピーデータを、前記データストリーム内の専用の音声ストリーム内に格納してもよい。
前記ストリーム組立部は、前記コピーデータを、前記データストリーム内の専用のプライベートデータストリーム内に格納してもよい。
前記ストリーム組立部は、前記映像データに対応する前記音声データのすべてをコピーしたコピーデータを、前記所定のデータ単位に含めてもよい。
前記ストリーム組立部は、前記コピーデータを、前記データストリーム内の専用のプライベートデータストリーム内に格納してもよい。
前記ストリーム組立部は、前記映像データに同期する前記音声データのすべてをコピーしたコピーデータを、前記データストリーム内の専用の音声ストリーム内に格納してもよい。
前記ストリーム組立部は、前記映像データに同期する前記音声データのすべてをコピーしたコピーデータを、前記データストリーム内の専用の音声ストリーム内に格納し、さらに前記コピーデータの転送タイミングを示す転送タイミング情報として、前記コピー元のデータ単位内の転送タイミングよりも所定の時間だけ早くシフトした転送タイミングを規定して記録してもよい。
前記ストリーム組立部は、前記複数のデータ単位を含む第1ファイルおよび前記コピーデータを含む第2ファイルとして、前記データストリームを生成し、前記記録部は、前記データ単位とコピーデータとを前記記録媒体に連続的に記録してもよい。
前記ストリーム組立部は、前記映像データに対応する前記音声データのすべてをコピーしたコピーデータによって前記第2ファイルを生成してもよい。
前記音声データにはレート情報が付加され、前記音声データは前記レート情報に応じたデータ長を有しており、前記圧縮部は第1レートで前記音声信号を圧縮符号化して前記音声データを生成し、前記ストリーム組立部は、前記所定のデータ単位に含まれる前記音声データに対して、前記レート情報として前記第1レートよりも早い第2レートの値を設定して前記音声データを生成し、前記第2レートに対して規定される第2データ長と、前記第1レートに対して規定される前記音声データの第1データ長との差分に対応する空き領域に、前記コピーデータを格納してもよい。
本発明によるデータ処理方法は、映像信号および音声信号を受け取るステップと、前記映像信号および前記音声信号を圧縮符号化して、映像データおよび音声データを生成するステップと、前記映像データおよび前記音声データを分割してパケットを複数生成し、前記映像データに関する映像パケットおよび前記音声データに関する音声パケットを多重化したデータ単位を複数生成し、複数の前記データ単位を含むデータストリームを生成するステップと、前記データストリームを記録媒体に記録するステップとを包含する。前記データストリームを生成するステップは、前記データ単位に含める映像パケットおよび音声パケットを少なくとも映像の再生時間に基づいて決定し、所定のデータ単位に格納された映像データに対応する音声データの全部が前記所定のデータ単位に含まれない場合には、前記音声データのうち、少なくとも含まれない部分である部分音声データをコピーしたコピーデータを前記データストリーム内に含める。
前記データストリームを生成するステップは、前記データ単位に対応する前記コピーデータを、後続のデータ単位の最初に配置された映像パケット内に格納してもよい。
前記データストリームを生成するステップは、前記映像データに対応する前記音声データのすべてをコピーしたコピーデータを、前記所定のデータ単位に含めてもよい。
前記データストリームを生成するステップは、前記複数のデータ単位を含む第1ファイルおよび前記コピーデータを含む第2ファイルに基づいて、前記データストリームを生成してもよい。
前記データストリームを生成するステップは、前記映像データに対応する前記音声データのすべてをコピーしたコピーデータによって前記第2ファイルを生成してもよい。
前記音声データにはレート情報が付加され、前記音声データは前記レート情報に応じたデータ長を有しており、前記音声データを生成するステップは、第1レートで前記音声信号を圧縮符号化して前記音声データを生成し、前記データストリームを生成するステップは、前記所定のデータ単位に含まれる前記音声データに対して、前記レート情報として前記第1レートよりも早い第2レートの値を設定して前記音声データを生成し、前記第2レートに対して規定される第2データ長と、前記第1レートに対して規定される前記音声データの第1データ長との差分に対応する空き領域に、前記コピーデータを格納してもよい。
本発明の記録媒体には、複数のデータ単位を含むデータストリームが記録されている。前記複数のデータ単位の各々は、映像データに関する映像パケットおよび前記音声データに関する音声パケットが多重化して構成されている。前記映像データおよび前記映像データに対応する音声データの一部は所定のデータ単位内に格納され、前記映像データに対応する前記音声データの他の一部である部分音声データは前記所定のデータ単位内に格納されていない。前記データストリームは、さらに前記部分音声データをコピーしたコピーデータを含んでいる。
本発明によるデータ処理装置は、上述のデータストリームを受け取ってデコードし、映像信号および音声信号を出力する。データ処理装置は、データストリームに含まれるデータのうち、再生の対象となるデータの読み出しを指示する再生制御部と、前記再生制御部の指示に基づいて、前記データストリームの前記所定のデータ単位から前記映像データおよび前記映像データに対応する音声データの一部を読み出す読み出し部と、前記映像データおよび前記音声データの一部をデコードして映像信号および音声信号を同期して出力するデコード部とを有している。前記再生制御部は、前記指示の後に前記コピーデータの読み出しをさらに指示し、前記デコード部は前記音声データの一部をデコードした後に前記コピーデータをデコードして前記映像信号と同期して出力する。
本発明によれば、同一のデータ単位(例えばVOBU)内に映像に対応する音声の全てのデータが含まれない場合であっても、少なくとも含まれない音声データをコピーしたコピーデータを、例えばそのデータ単位へのアクセスの際に容易にアクセスできる位置(例えば、次のVOBUの先頭部分、そのVOBUの直前または直後)に記録する記録装置を得ることができる。
これにより、特にプレイリストに基づいて映像および音声を同期して再生する場合には、映像データを含むデータ単位へのアクセスとともに、同期して再生されるべき全ての音声データが得られる。よって、シーンをまたぐ際の音声の途切れを大幅に低減でき、ユーザの視聴環境の向上に供することができる再生装置を得ることができる。
(実施形態1)
以下では、本実施形態によるデータ処理装置の構成を説明し、あわせて、データ処理装置の処理に関連するデータストリームのデータ構造を説明する。その後、データ処理装置が行う記録動作および再生動作を説明する。なお、本明細書では、データストリームの例としてDVDビデオレコーディング規格(VR規格)に準拠したMPEG2プログラムストリーム(VR規格ストリーム)を例に挙げて説明する。
図3は、データ処理装置30の機能ブロックの構成を示す。データ処理装置30は、DVD−RAMディスク、Blu−rayディスク(BD)等の相変化光ディスク131に代表される記録媒体に、リアルタイムでVR規格ストリーム10を記録する記録機能を有する。また、データ処理装置30は、記録したVR規格ストリーム10を読み出して復号し、再生する再生機能も有する。ただし、本発明による処理を行う上で、データ処理装置30は必ずしも記録機能および再生機能の両方を設けていなくてもよい。データ処理装置30は、例えば据え置き型の装置、カムコーダである。
以下、データ処理装置30の記録機能に関する構成を説明する。データ処理装置30は、映像信号入力部100と、音声信号入力部102と、MPEG2PSエンコーダ170と、記録部120と、連続データ領域検出部160と、記録制御部161と、論理ブロック管理部163とを有する。
まず、データ処理装置30の記録動作の概要を説明する。VR規格ストリーム10を生成して記録する際、MPEG2PSエンコーダ170のPS組立部104(後述)は、データ単位であるビデオオブジェクトユニット(Video Object Unit;VOBU)に含めるビデオパックおよびオーディオパックを、少なくとも映像の再生時間に基づいて決定してVOBUを生成する。そして、同一のVOBU内に、映像に対応する音声の全てのデータが含まれない場合には、少なくとも含まれない音声データをコピーしたコピーデータをVR規格ストリーム10に含めて記録する。ここで、「映像に対応する音声」とは、「映像と同期して再生される音声」を意味する。
コピーデータは、後続のVOBU内(例えば最初のビデオパック内のユーザデータ領域)に格納され、または、VR規格ストリーム10のファイルとは別の音声ファイルに格納される。または、同期して再生される映像および音声が1つのVOBU内に収まるように、音声データがプライベートストリームとして格納されてもよいし、付加情報として格納されてもよい。
さらに、映像に対応する音声のデータすべてを異なる音声ストリームとして同じVOBU内にインターリーブしてもよい。また、VR規格ストリーム10のファイルとは別の音声ファイルに格納してもよい。または、映像に対応する音声のデータすべてを、プライベートストリームとして格納してもよい。
以下では、図3〜6を参照しながらデータ処理装置30の記録機能に関する各構成要素の一般的な機能を説明し、その後、図7、8等を参照しながらデータ処理装置30のデータ処理装置30の具体的な記録動作を説明する。
映像信号入力部100は映像信号入力端子であり、映像データを表す映像信号を受け取る。音声信号入力部102は音声信号入力端子であり、音声データを表す音声信号を受け取る。例えば、データ処理装置30がビデオレコーダである場合には、映像信号入力部100および音声信号入力部102は、それぞれチューナ部(図示せず)の映像出力部および音声出力部と接続され、それぞれから映像信号および音声信号を受け取る。また、データ処理装置30がムービーレコーダ、カムコーダ等である場合には、映像信号入力部100および音声信号入力部102は、それぞれカメラのCCD(図示せず)およびマイクから出力された映像信号および音声信号を受け取る。
MPEG2−PSエンコーダ170(以下、「エンコーダ170」と記述する)は、映像信号および音声信号を受け取り、VR規格に準拠したMPEG2プログラムストリーム(PS)、すなわち、VR規格ストリーム10を生成する。エンコーダ170は、映像圧縮部101と、音声圧縮部103と、PS組立部104とを有する。映像圧縮部101および音声圧縮部103は、それぞれ映像信号および音声信号から得られた映像データおよび音声データをMPEG2規格に基づいて圧縮符号化する。PS組立部104は、圧縮符号化された映像データと音声データを、それぞれ2キロバイト単位のビデオパック及びオーディオパックに分割し、これらのパックが一つのVOBUを構成するよう順番に並べるとともに、先頭にRDIパック27を付加してVR規格ストリーム10を生成する。
図4は、VR規格ストリーム10のデータ構造を示す。VR規格ストリーム10は複数のVOBUを含んでいる。図4には2つのVOBUが記載されているが、より多く含んでいてもよい。VR規格ストリーム10内の各VOBUは、複数のパックから構成されている。これらのパックおよび各パックに含まれる情報は図1を参照しながら説明したとおりであるので、ここでは省略する。
以下、ビデオパック12−1等のデータ構造を説明する。ビデオパック12は、MPEG2圧縮された映像(ビデオ)データ12aを格納している。なお、ビデオパック12はパックヘッダ12b、およびビデオパックであることを特定するPESパケットヘッダ12cが含まれる。さらにVOBUの最初のビデオパックであればパックヘッダ12bの中にシステムヘッダ(図示せず)も含まれる。
図4に示すビデオパック12−1の映像データ12aは、後続のビデオパック12−2以後の映像データ12d等とともにIフレーム44のデータを構成する。さらにIフレームに続くBフレーム45またはPフレームを構成するビデオパックが続けて記録される。
また、映像データ12aは、シーケンスヘッダ41、ユーザデータ42およびGOPヘッダ43を含んでいる。MPEG2規格では、ビデオフレームを複数まとめた「グループ・オブ・ピクチャ」(Group Of Picture;GOP)が規定されている。シーケンスヘッダ41は、複数のGOPで構成されたシーケンスの先頭を表す。一方、GOPヘッダ43は各GOPの先頭を表す。GOPの先頭フレームはIフレームである。これらのヘッダについては周知であるため、その詳細な説明は省略する。ユーザデータ42は、シーケンスヘッダ41およびGOPヘッダ43の間に設けられ、任意のデータを記述することができる。
シーケンスヘッダ41、ユーザデータ42およびGOPヘッダ43の先頭には、その各々を識別するための開始コードが付加されている。例えば、シーケンスヘッダ41には“000001B3”、ユーザデータ42には“000001B5”、およびGOPヘッダ43には“000001B8”である(いずれも16進数表記)。ユーザデータ42の読み出しは、次のGOPヘッダ43の開始コードが検出されるまで継続し、GOPヘッダ43の開始コードが検出されると、それまでに得られたデータのうち、ユーザデータ42の先頭ヘッダB5を除いた部分がユーザデータとして得られる。
なお、各VOBU内の全GOPの再生時間は、原則として0.4秒以上かつ1.0秒以下の範囲に収まるように調整されており、例外的に最後のVOBUの再生時間は、0秒以上かつ1.0秒以下の範囲で調整されている。VR規格ストリーム10はリアルタイムで記録されるため、0.4秒未満のタイミングで記録が停止され得るからである。これらの範囲内であれば、各VOBUについてビデオの再生時間の変動が許容される。
記録部120は、記録制御部161の指示に基づいてピックアップ130を制御し、記録制御部161によって指示された論理ブロック番号の位置からVR規格ストリーム10のビデオオブジェクトユニット(VOBU)を記録する。このとき、記録部120は、各VOBUを32Kバイト単位に分割し、その単位で誤り訂正符号を付加して一つの論理ブロックとして光ディスク131上に記録する。一つの論理ブロックの途中で一つのVOBUの記録が終了した場合は、隙間を開けることなく次のVOBUの記録を連続的に行う。
図5は、VR規格ストリーム10と光ディスク131の記録領域との関係を示す。VR規格ストリーム10の各VOBUは、光ディスク131の連続データ領域に記録される。連続データ領域は物理的に連続する論理ブロックから構成されており、この領域には最大レートでの再生時間にして17秒以上のデータが記録される。データ処理装置30は、論理ブロックごとに誤り訂正符号を付与する。論理ブロックのデータサイズは32kバイトである。各論理ブロックは、2Kバイトのセクタを16個含む。
連続データ領域検出部160は、論理ブロック管理部163によって管理される光ディスク131のセクタの使用状況を調べ、上述の時間長に相当するデータを格納可能な、未使用の連続した空き論理ブロック領域を検出する。
なお、連続再生保証のために17秒以上の連続した空き論理ブロック領域を常に検出することなく、例えば、余分な再生データの蓄積量を計算してトレースしながら、連続した空き論理ブロックのデータサイズを動的に決定してもよい。すなわち、記録中のある時点で20秒分の連続データ領域を確保できたときには、その続きとしては14秒分の連続データ領域を確保して、連続再生を保証してもよい。
記録制御部161は、記録部120の動作を制御する。記録制御部161は、VR規格ストリーム10をデータファイル(例えばファイル名”VR_MOVIE.VRO”)として記録するように記録部120に指示し、光ディスク131に記録させる。また、記録部120は記録制御部161から受け取ったVR規格ストリームに対する管理情報ファイル(ファイル名VR_MANGR.IFO)も光ディスク131へ記録する。管理情報には、例えばVOBU毎のデータサイズ、含まれる映像フィールド数、および先頭のIフレームのデータサイズが含まれる。
記録制御部161のより具体的な制御動作は以下のとおりである。すなわち、記録制御部161は、予め連続データ領域検出部160に指示を出して、連続した空き論理ブロック領域を検出させておく。そして、記録制御部161は、論理ブロック単位の書き込みが発生するたびに当該論理ブロック番号を記録部120に通知し、論理ブロックが使用済みになった場合には論理ブロック管理部163に通知する。なお、記録制御部161は、連続データ領域検出部160に対して連続した空き論理ブロック領域のサイズを動的に検出させてもよい。連続データ領域検出部160は、1つの連続データ領域の残りが最大記録再生レート換算で、例えば3秒分を切った時点で、次の連続データ領域を再検出する。そして、1つの連続データ領域が一杯になると、記録制御部161は次の連続データ領域への書き込みを指示する。
図6は、記録されたVR規格ストリーム10および管理情報が光ディスク131のファイルシステムにおいて管理されている状態を示す。例えばUDF(Universal Disk Format)規格のファイルシステム、またはISO/IEC 13346(Volume and file structure of write-once and rewritable media using non-sequential recording for information interchange)ファイルシステムが利用される。図6では、連続して記録されたVR規格ストリーム10がファイル名VR_MOVIE.VROとして記録されている。また、管理情報はファイル名VR_MANGR.IFOとして記録されている。各ファイルは、ファイル名及びファイル・エントリの位置が、FID(File Identifier Descriptor)で管理される。さらに、ファイル・エントリ内のアロケーション・ディスクリプタ(Allocation Descriptor)を使って、1つのファイルとそのファイルを構成するデータ領域を関係付ける。アロケーション・ディスクリプタにはファイルを構成するファイル・エントリの位置として先頭セクタ番号が設定される。VR規格ストリームファイルのファイル・エントリは、各連続データ領域(CDA:Contiguous Data Area)a〜cを管理するアロケーション・ディスクリプタa〜cを含む。1つのファイルが複数の領域a〜cに分かれている理由は、領域aの途中に不良論理ブロック、書き込みができないPCファイル等が存在したからである。一方、管理情報ファイルのファイル・エントリは、管理情報を記録する領域を参照するアロケーション・ディスクリプタdを保持する。
論理ブロック管理部163は、記録制御部161から通知された使用済み論理ブロック番号によって論理ブロック番号ごとの使用状況を把握して管理を行う。すなわち、論理ブロック番号を構成する各セクタ単位の使用状況を、UDFまたはISO/IEC 13346のファイル構成で規定されているスペース・ビット・ディスクリプタ領域を用いて、使用済みもしくは未使用であるかを記録して管理することになる。そして、記録処理の最終段階において、ファイル・アイデンティファイア(FID)及びファイル・エントリをディスク上のファイル管理領域へ書き込む。
なお、UDF規格はISO/IEC 13346規格のサブセットに相当する。また、相変化光ディスクドライブを1394インタフェース及びSBP−2(Serial Bus Protocol-2)プロトコルを介してPCへ接続することにより、UDFに準拠した形態で書きこんだファイルがPCからも1つのファイルとして扱うことが可能である。
次に、本実施形態によるデータ処理装置30の具体的な記録動作を説明する。以下の説明においては、「対応する」という語は、同期して再生されるべき映像および音声、または、それらに関する映像データおよび音声データを表すとする。
いま、PS組立部104が、対応する映像データおよび音声データのすべてが1つのVOBUに含まれていないVR規格ストリーム10を生成したとする。上述のように、VOBUは映像の再生時間等に基づいて定められるため、音声データの一部が、対応する映像データとは異なる以降のVOBUに格納されていると考えればよい。なお、映像データと同じVOBUに含まれる音声データは、整数個の音声フレームを含む。
図7は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。最上段にMPEGファイルとして設けられるVR規格ストリーム10を構成するVOBUの集合を示し、2段目が各VOBUに含まれる映像データの集合、3段目が映像データの集合に対応する音声データの集合を表す。VOBU#iに含まれる映像データをV(i)などと表す。映像データV(i)に同期して再生される音声データは音声データA0(i)などと表す。最上段にMPEG−2プログラムストリームを構成するVOBUを示す。第2段に各VOBUに格納される映像フレームの集合を示す。第3段にそれぞれの映像フレームの集合と同期して再生される音声データA0(i)の格納位置とVOBU境界との位置関係を縦の点線で示す(以降の図9、10、11、12、13、14も概ね同様である)。
上述した想定の下では、映像データV(i)に同期して再生される音声データA0(i)の格納位置はVOBU#iの途中から始まり、末尾はVOBU(i+1)の先頭部分に格納されている。図7では、VOBU#(i+1)の先頭から音声データA0(i+1)の前までに格納されているデータAが、映像データが格納されているVOBU#iとは異なるVOBU#(i+1)に格納されることになった音声データに相当する。この音声データを、以下「分離格納データ」と称する。
PS組立部104は、VOBU#iおよびVOBU#(i+1)の生成時に、分離格納データと同じ内容を表すコピーデータを生成する。そして、そのコピーデータを、VOBU#iの次のVOBU#(i+1)の先頭のビデオパック以降に格納する。具体的には、コピーデータを先頭のビデオパックのユーザデータ領域(例えば図4のユーザデータ領域42)に格納する。コピーデータをユーザデータ領域42に格納することは、映像および音声の各データをすべて1つのVR規格ストリーム10(1つのファイル)内に格納することを意味している。なお、コピーデータとは、分離格納データの音声データそのもののコピーを意味する。
なお、このとき、エレメンタリーストリームのみをコピーしてもよいし、パック単位でコピーしてもよい。だだし、パック単位のコピーを実施する場合、オーディオパックのパックヘッダのSCR値は、転送タイミングとしての意味を持たせる必要はないのでコピー値のままでよい。また、パック内のPESパケットヘッダ内のPTS値はそのまま利用可能となる。
さらに、PS組立部104は、VOBU#(i+1)および#(i+2)の生成時にも、映像データV(i+1)に対応する音声データA0(i+1)のうち、VOBU#(i+2)に格納される分離格納データと同じ内容を表すコピーデータを生成する。そして、そのコピーデータを、VOBU#(i+1)の次のVOBU#(i+2)の先頭のビデオパックに格納する。
なお、PS組立部104は、映像のどのピクチャと音声のどのフレームとを同期して再生させるべきか把握してPTSを付加する機能を有しているため、音声データA0のうち、どの部分が分離格納データであるかを把握している。よって、分離格納データを特定することは容易である。
図8は、データ処理装置30の記録処理の手順を示すフローチャートである。まずステップS81において、映像信号入力部100および音声信号入力部102は、それぞれ映像信号および音声信号を受け取る。ステップS82において、映像圧縮部101および音声圧縮部103は、各信号から得られた映像データおよび音声データを圧縮符号化する。
PS組立部104は、次のステップS83において、映像の再生時間等に基づいてVOBU#iを生成する。なお、VOBU#i内のビデオパック等の各パックの配置(順序)は、システムターゲットデコーダモデルの規定に従って決定される。例えば各パックの配置(順序)は、プログラムストリーム・システム・ターゲット・デコーダ(P−STD)モデルにおいて規定されたバッファ容量の規定を満たすように決定される。
次に、ステップS84において、対応する映像データおよび音声データが同一のVOBU内に格納されるか否かを判定する。同一のVOBU内に格納される場合には、生成したVOBUのデータを順次記録部120に送る。そして記録部120はそのデータを光ディスク131に記録する。その後、ステップS83からの処理が繰り返される。
対応する映像データおよび音声データが同一のVOBU内に格納されない場合、すなわち、後続のVOBUに、映像データに対応する音声データの一部分のデータAを分離格納データとして格納することになったときは、処理はステップS85に進む。ステップS85では、PS組立部104は、分離格納データ(図7の部分データA)を次のVOBU#(i+1)の先頭のビデオパックのユーザデータ領域に記述して記録部120に出力する。記録部120はそのデータを光ディスク131に記録する。
その後、ステップS86において、PS組立部104は全ての映像データおよび音声データを処理したか否かを判定する。処理が終了していない場合にはステップS83からの処理を繰り返し、処理が終了した場合には、記録動作を終了する。
次に、再び図3を参照しながら、データ処理装置30の再生機能に関する各構成要素の機能を説明し、その後、データ処理装置30の再生動作を説明する。
データ処理装置30は、映像表示部110と、音声出力部112と、再生部121と、変換部141と、出力インターフェース部140と、再生制御部162と、プレイリスト再生制御部164と、MPEG2PSデコーダ171とを有する。
映像表示部110は映像を出力するテレビ等の表示機器であり、音声出力部112は音声を出力するスピーカ等である。なお、映像表示部110および音声出力部112はデータ処理装置30の必須の要素ではなく、外部機器として設けられていてもよい。再生部121は、再生制御部162の指示に基づいて光ピックアップ130を介して光ディスク131から読み出されたアナログ信号としてのVR規格ストリーム10を、デジタル信号として再生する。再生制御部162は、再生の対象となるVOBUおよびそのVOBUに含まれるデータを特定して、そのデータの読み出しを光ピックアップ130に指示する。プレイリスト再生制御部164は、ユーザが指定した順序で動画の各シーンを再生する。各シーンは、例えばVOBU単位で管理される。
MPEG2−PSデコーダ171(以下、「デコーダ171」と記述する)は、プログラムストリーム分解部114、映像伸長部111および音声伸長部113を有する。プログラムストリーム分解部114(以下「PS分解部114」と記述する)は、VR規格ストリーム10から映像データおよび音声データを分離する。映像伸長部111は、MPEG2規格に基づいて圧縮符号化された映像データをその規格にしたがってデコードして映像信号として出力する。音声伸長部113も同様に、MPEG1−オーディオ規格に基づいて圧縮符号化された音声データをその規格にしたがってデコードして音声信号として出力する。
まず、データ処理装置30の一般的な再生動作を説明する。データ処理装置30が記録されたVR規格ストリーム10を再生するときは、光ディスク131からのデータの読み出しと読み出したデータのデコード(再生)を並列的に行う。このとき、データの最大再生レートよりもデータの読出レートの方が高速となるように制御して、再生すべきデータが不足しないように動作する。その結果、VR規格ストリーム10の再生を継続すると、単位時間あたり、データ最大再生レートとデータ読み出しレートとのレート差分だけ再生すべきデータを余分に確保できることになる。データ処理装置30は、ピックアップ130がデータを読み出しできない期間中(例えばシーク動作中)に余分に確保したデータを再生することにより、途切れのないVR規格ストリーム10の再生を実現することができる。
例えば、再生部121のデータ読み出しレートが11.08Mbps、PS分解部114のデータ最大再生レートが10.08Mbps、ピックアップの最大移動時間が1.5秒とすると、途切れることなくVR規格ストリーム10を再生するためには、ピックアップ130の移動中に15.12Mビットの余分なデータが必要になる。これだけのデータを確保するためには、15.12秒間の連続読み出しが必要になる。すなわち、15.12Mビットを、データ読み出しレート11.08Mbpsとデータ最大記録再生レート10.08Mbpsの差で除算した時間だけ連続読み出しする必要がある。したがって、15.12秒間の連続データ読み出しの間に最大167.53Mビット分のデータ(すなわち16.62秒分の再生データ)を読み出すことになるので、16.62秒(約17秒)分以上の連続データ領域を確保することにより、連続的なデータ再生を保証することが可能となる。なお、連続データ領域の途中には、数個の不良論理ブロックがあってもよい。ただし、この場合には、再生時にかかる不良論理ブロックを読み込むのに必要な読み出し時間を見越して、連続データ領域を再生時間にして16.62秒分よりも若干多く確保する必要がある。
次に、データ処理装置30の具体的な再生動作を説明する。まず、VR規格ストリーム10の先頭から順に映像および音声を再生する際のデータ処理装置30の動作を説明する。
再生制御部162は、再生の対象となるVOBUを特定し、その最初から順次データを読み出すように光ピックアップ130に指示する。PS分解部114は、ピックアップ130および再生部121を介して再生されたVR規格ストリーム10を映像データおよび音声データに分離する。映像伸長部111および音声伸長部113は、それぞれ映像データおよび音声データをデコードし、その結果得られた映像信号に基づく映像を映像表示部110において表示し、音声信号に基づく音声を音声出力部112において出力する。
次に、ユーザが希望するVOBUの再生順序を規定した「プレイリスト」に基づいて、データ処理装置30が光ディスク131に記録されたVR規格ストリーム10を再生する動作を説明する。
いま、プレイリストのある一部分がVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているとする。プレイリスト再生制御部164は、まずVOBU#iの読み出しを光ピックアップ130に指示する。PS分解部114は、光ピックアップ130および再生部121を介して再生されたVOBU#iのデータを映像データおよび音声データに分離してデコードし出力する。このとき、VOBU#iの最初に存在するビデオパックのユーザデータ領域にデータが記述されている場合には、そのデータはVOBU#iの映像に対応する音声のデータではないため無視する。
そして、VOBU#iの最後までデータが読み出されると、プレイリスト再生制御部164は、後続のVOBU#(i+1)の最初に存在するビデオパックのユーザデータ領域のデータを読み出すように光ピックアップ130に指示する。このデータは、VOBU#iに含まれる映像に対応する音声に関する分離格納データであるから、音声伸長部113は、VOBU#i内の音声データのデコード後にその分離格納データをデコードして音声として出力する。その後、プレイリスト再生制御部164からの指示に基づいて次の再生対象であるVOBU#kのデータが読み出され、PS分解部114は、再生部121を介して次の再生対象であるVOBU#kのデータを得て、デコードして出力する。
VOBUの先頭にはRDIパックが配置され、その次にはビデオパックが配置されるので、後続のVOBUの最初のビデオパック内の分離格納データを読み出すことは容易かつ迅速に実現できる。また、VOBU先頭付近の複数のビデオパックに亘って分離格納データが記録される場合も同様である。データ処理装置30は再生時にその分離格納データをも読み出すことにより、VOBUに含まれる映像に対応する音声のすべてのデータが得られるため、音声が途切れることなく再生される。なお、音声データA0(i)内の分離格納データをVOBU#(i+1)の先頭ビデオパックのユーザデータ内に格納する代わりに、VOBU#(i)内のプライベートストリーム内に格納して多重してもよい。
なお、データ処理装置30は、記録したデータを上述のようなストリームの分離およびデコードを介することなく出力することもできる。すなわち、変換部141は読み出されたVR規格ストリーム10を所定のフォーマット(例えばDVDビデオ規格のフォーマット)に変換し、出力インタフェース部140は変換後のストリームを出力する。このときも、読み出すべきVR規格ストリーム10のVOBUのデータに加えて、後続のVOBUの最初に存在するビデオパックのユーザデータ領域のデータを読み出すことにより、出力先の機器においても音声の途切れがない再生が可能になる。なお、出力インタフェース部140は、例えばIEEE1394規格に準拠したインターフェースであり、外部機器からのデータの読み出しおよび外部機器からのデータの書き込み処理を制御することが可能である。
続く実施形態2以降の各実施形態は、本実施形態のデータ処理装置30の記録・再生動作に関する種々のバリエーションである。実施形態1で説明したデータ処理装置30の各構成要素は、以下の実施形態においても、特に説明しない限り同じ機能を有するとする。
(実施形態2)
実施形態1では、VR規格ストリーム10には、対応する映像ストリームおよび音声ストリームがそれぞれ1つずつ格納されているとし、音声データのうち、映像データと同じVOBUに格納されないデータ(分離格納データ)のコピーを後続のVOBUの映像データ内(ビデオパック内)に格納していた。
本実施形態では、対応する各1つの映像ストリームおよび音声ストリームに加えて、その音声ストリームのデータをコピーした別の音声ストリームをさらに記録する。以下、本実施形態の記録動作を具体的に説明する。
図9は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。このVR規格ストリーム10は、実施形態1と同様1つのMPEGファイルとして規定されているが、実施形態1と異なり2つの音声ストリームが多重されている。いま、映像ストリームに対応する音声ストリームを「音声ストリーム#0」とする。音声ストリーム#0では、分離格納データが存在している。
PS組立部104は、音声ストリーム#0のデータのコピーを、別の音声ストリーム#1として光ディスク131に記録する。より具体的には、PS組立部104は、VOBU#iに含まれる映像に対応する音声のストリーム#0のデータをコピーして、音声ストリーム#1のオーディオパックを生成する。そして、それらのオーディオパックをVR規格ストリーム10のVOBU#i内に多重化する。音声ストリーム#0および#1は、それぞれ、各パックのパケットヘッダに記述されたストリームIDによって識別可能である。なお、コピーされるデータの容量は、プログラムストリームのシステム・ターゲット・デコーダ(P−STD)の音声バッファが許容する範囲内である等の制限を満たす必要がある。図9では、音声ストリーム#0を構成する音声データA0(i)、A0(i+1)、A0(i+2)等をコピーしたデータが、A1(i)、A1(i+1)、A1(i+2)等として格納される。
ただし、音声ストリーム#1と音声ストリーム#2のビットレートは同じであるものとしているので、Ao(i)のコピーデータがVOBU#i内に格納できるとは限らない。VOBU#i内の映像フレームの総再生時間と、VOBU#iのデータの総転送時間(VOBU#i先頭のSCR値とVOBU#i+1先頭のSCR値との差分)が等しい場合はAo(i)のコピーデータがちょうど格納可能となる。
ただし、映像に対応する音声を途切れることなく再生するためには、VOBU#iの読み出しの終了に合わせて、その映像に対応する音声のデータを可能な限り多く取得する必要がある。そこで、PS組立部104は、音声ストリーム#0に関するオーディオパックに付されるMPEG規格のSCRおよびPTSを修正して、音声ストリーム#1についてのSCRおよびPTSを生成する。すなわち、PS組立部104は、同じ音声を表すデータを格納したパックに関してみたとき、音声ストリーム#1のオーディオパックに付されるSCRおよびPTSの値を、音声ストリーム#0のパックに付されるSCRおよびPTSの値よりも所定量だけ小さく設定する。SCRおよびPTSがより小さくなると、そのパックは、VR規格ストリーム10内のパック配列上より早く読み出される位置に配置し得るからである。よって、実施形態1における分離格納データに相当するVOBU#(i+1)内のデータを、VOBU#i内により多く格納できるようになる。
PS組立部104は、SCRおよびPTSを小さく設定した量を示す変化量データを、例えばVOBU#iの最初に配置されたビデオパックのユーザデータ領域42に記述しておく。
次に、本実施形態によるデータ処理装置30の再生動作を説明する。以下の説明はプレイリストに基づく再生時において特に有効であるため、その場合を例にして説明する。
プレイリスト再生制御部164は、光ディスク131に記録されたVOBU#iの映像のデコードにあわせて、ストリーム#0ではなく、ストリーム#1をデコードする。VOBU#i内に格納されている映像データに対応する音声データは、ストリーム#0よりもストリーム#1のデータのほうが多いからである。
ただし、複製データを持つ音声ストリーム#1の音声ストリーム#0に対する時間シフト量を記録する必要がある。その理由は上述のように、ストリーム#1の各オーディオパックのSCRおよびPTSはストリーム#0よりも小さい値に設定されているため、そのままでは映像と同期して再生させることはできないからである。よって、PS分解部114は、VOBU#iの最初に配置されたビデオパックのユーザデータ領域42から、再生タイミングのシフト量を読み出して、この値をPTSに加算して、すなわち再生時間を遅らせて音声を再生する。これにより、映像と音声を同期して再生できる。
例えばVOBU#iの先頭映像フレームと同期する音声ストリーム#0の音声フレームAF#0のPTSと、AF#0のコピーデータを含む音声フレームのPTSとの差分値を、動画ストリームファイル“VR_MOVIE.VRO”に対する管理情報ファイル内に記録してもよい。また、差分値を各VOBUのRDIパック内のメーカ独自データ領域へ記録してもよい。これにより、再生制御部は、VOBU#iを再生する場合に、VOBU先頭の映像フレームのタイムスタンプ値から差分値を減算し、その減算結果以降の音声ストリーム#1に含まれる音声フレームを再生すればよいことになる。
また、VOBU毎にRDIパック内のメーカ独自データ領域の中に再生タイミングのシフト量を記録してもよい。
なお、PCに接続された光ディスクドライブを介してPCの再生アプリケーションソフトが記録済みの動画ファイルを再生する場合は、音声ストリーム#0の方が再生される。すなわち、動画ファイルを一般的なMPEGファイルとして再生される場合には音声ストリーム#0が使われる。
各VOBU内に対応する全ての音声のデータが含まれない場合であっても、音声ストリーム#0に関して生じていた分離格納データのデータ量は相当程度小さくすることができるので、プレイリストに基づく再生において、音声のほぼシームレスな再生を実現できる。
なお、音声ストリーム#1の記録内容に関する情報を別途記録してもよい。例えば、音声ストリーム#1内に音声ストリーム#0の複製データが格納されていることを示すフラグを動画ストリームファイル“VR_MOVIE.VRO”に対する管理情報ファイル内に記録してもよい。このフラグは少なくともVOB単位で記録するのが望ましい。また、動画ストリームVOB内、もしくは音声ストリーム#1内等に記録してもよい。このフラグにより、音声ストリーム#1内に音声ストリーム#0とは別の音声が格納されているのか、音声ストリーム#0のコピーが格納されているのかを区別可能になる。
(実施形態3)
実施形態1では、分離格納データはビデオパック内のユーザデータ領域42に格納されていた。
本実施形態では、データ処理装置30は、VR規格ストリーム10を規定するMPEGファイルとは別のファイルのデータとして分離格納データを記録する。
図10は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。PS組立部104は、VOBU#iの生成時に、そのVOBUに関連する分離格納データを特定すると、分離格納データをコピーした音声データ#iを生成する。そして、PS組立部104は、その音声データとVR規格ストリーム10を構成する各VOBUとを物理的に交互に記録する。各音声データおよび各VOBUはそれぞれ、ひとつの音声ファイルおよびひとつのMPEGファイルとして記録される。PS組立部104は、音声データ#iをVOBU#iの直後にインターリーブする。
一方、プレイリストに基づく再生時には、プレイリストがVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているときであっても、プレイリスト再生制御部164はVOBU#iだけでなく後続の音声データ#iまでを読み出し、その後、次に再生すべきVOBU#kのデータを読み出す。そして、PS分解部114において映像データと音声データとに分離した後、映像伸長部111および音声伸長部113は映像データおよび音声データをデコードして出力する。特に、音声伸長部113は、VOBU#i内に含まれていたオーディオパック内の音声データのデコードおよび再生した後、音声データファイルに含まれていた音声データ#iをデコードし再生する。
再生対象のVOBUの次に分離格納データに関する音声データが格納されているので、その音声データを連続的に読み出すことは容易かつ迅速に実現できる。データ処理装置30は再生時にその分離格納データをも読み出すことにより、VOBUに含まれる映像に対応する音声のデータがすべて得られるため、音声が途切れることなく再生される。
なお、本実施形態では対応するVOBUの直後に分離格納データのコピーを記録したが、対応するVOBUの直前に記録してもよい。
(実施形態4)
実施形態3では、データ処理装置は、音声ストリームのうちの分離格納データのみに基づいてMPEGファイルとは別の音声ファイルを生成し記録していた。また、例えばVOBU#iに関連する音声データ#iは、VOBU#iの直後に記録されていた。
一方、本実施形態によるデータ処理装置は、音声ストリームのすべてのデータに対して、MPEGファイルとは別の音声ファイルを生成し記録する。さらに、各VOBUに関連する音声データは、そのVOBUの前に記録される。
図11は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。PS組立部104は、VOBU#iの生成時に、そのVOBUに含まれる映像データV(i)に対応する音声データA0(i)を特定すると、音声データA0(i)を構成するデータをコピーした音声データ#iを生成する。そして、PS組立部104は、その音声データとVR規格ストリーム10を構成する各VOBUとを物理的に交互に記録する。各音声データおよび各VOBUはそれぞれ、ひとつの音声ファイルおよびひとつのMPEGファイルとして記録される。PS組立部104は、音声データ#iをVOBU#iの直前にインターリーブする。
一方、プレイリストに基づく再生時には、プレイリスト再生制御部164は、VOBU#iの読み出しの前に音声データ#iの読み出しを先に行うように指示する。すると、VOBU#iの読み出しが終了する前に、音声データ#iの読み出しが終了し、さらに、音声伸長部113によるデコードが終了するので、VOBU#iの映像に同期して、すべての音声を再生できる。よって、後にVOBU#k(k≠(i+1))の再生を指定しているときであっても、音声のシームレスな再生を実現できる。
なお、本実施形態ではVOBU#iの前に音声データ#iを記録するとして説明したが、実施形態3と同様に、VOBU#iの後に音声データ#iを記録してもよい。このときは、VOBU#iの再生後、他のVOBUの読み出しを開始する前に、音声データ#iを読み出す必要がある。
上述の実施形態3および4では、音声ファイル内のデータの構造には特に言及していないが、音声のエレメンタリーストリームであってもよいし、音声ストリームを含むMPEG2プログラムストリームであってもよいし、音声ストリームを含むMP4ストリームであってもよいし、その他のシステムストリームであってもよい。
(実施形態5)
実施形態1では、VOBU#iに関連する分離格納データを、次のVOBU#(i+1)に格納するものとした。
一方、本実施形態では、VOBU#iに関連する分離格納データをそのVOBU#iに別のストリームとして格納する。
図12は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。PS組立部104は、VOBU#iに関連する分離格納データAをコピーして、VOBU#i内に分離格納データAの部分専用のプライベートストリームとして多重化する。
VR規格ストリーム10では、そのストリームに含まれる映像ストリームおよび音声ストリームを識別するために、ストリームIDが付されている。ストリームIDはPESパケットヘッダに格納されており、例えば映像ストリームのストリームIDは、例えば0xE0、音声ストリームのストリームIDは0xC0またはは0xBDである。0xBDはMPEG−2システム規格でプライベートストリーム用に規定された値である。VR規格において音声ストリームに0xBDを使用する場合は、さらにPESパケットヘッダの直後の1バイトによりその音声ストリームの圧縮符号を識別する。本実施形態において新たに設けるプライベートストリームのストリームIDとして、0xBDが用いられる。
プレイリストに基づく再生時には、プレイリストがVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているときであっても、音声ストリーム#0に続けてプライベートストリームとして含まれている分離格納データAを読み出して再生するので、音声を途切れなくすることが容易に実現可能になる。
なお、プライベートストリームに、分離格納データAのみでなく音声ストリームの全体のデータをコピーして、VOBU#i内に分離格納データAの部分専用のプライベートストリームとして多重化することもできる。図13は、本実施形態の変形例によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。
PS組立部104は、VOBU#iに含まれる映像に対応する音声データのコピーを、VOBU#i内の専用のプライベートストリーム1(stream_ID=0xBD)として記録する。このプライベートストリーム用のシステム・ターゲット・デコーダのバッファサイズは少なくとも音声データ2秒分を蓄積可能なサイズを有するとする。ここで「2秒」の意味は、VOBUに含まれる映像の最大の再生時間(1秒)とシステム・ターゲット・デコーダの最大再生遅延時間(1秒)を加算した数値である。
プレイリストに基づく再生時には、プレイリストがVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているときであっても、常にプライベートストリーム1に格納された音声データ#0のコピーの音声データを再生すれば音声を途切れなくすることが容易に実現できる。
本実施形態のように、音声ストリームをコピーしたデータをプライベートストリームとして記録することにより、MPEGファイルのVOBU単位で編集する場合において、音声データを容易にシームレス再生することができる。その理由は、例えば、2つのVOBUを結合する編集処理を行ったときには、それらのVOBUに含まれるプライベートストリームも結合され、結合された分離格納データが得られるからである。
(実施形態6)
実施形態5の第1の例では、PS組立部104は、VOBU#iに関連する分離格納データAを、VOBU#i内のプライベートストリームとして格納した。
一方、本実施形態では、VOBU#iに関連する分離格納データAのコピーを、VOBU#iの音声フレーム内に付加データとして記録する。
図14は、本実施形態によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す。PS組立部104は、VOBU#iの音声ストリーム#0に関連する分離格納データAを、VOBU#iの音声フレーム内の付加データ(AD)領域内にコピーして格納する。
図15は、音声圧縮部103が生成するAC−3規格の音声フレームのデータ構造を示す。AC−3の音声フレームは、同期情報(SI)、ビットストリーム情報(BSI)、音声ブロック(ABnからABn+5)および付属情報(AD)から構成される。
同期情報(SI)には、音声フレームのビットレートを示すレート情報が記録される。本実施形態では、音声フレームのビットレートは448kbpsであるとしている(フレームサイズコードが448kbpsを示す)。音声フレームは、同期情報(SI)に規定されたビットレートの情報に応じたデータ長(図15に示す1792バイト)を有している。ただし、音声圧縮部103は、実際には同期情報、ビットストリーム情報、および音声ブロックの有効データを256kbps以下のビットレートで記録し、付属情報領域は後から記録する分離格納データAのために空けておく。
これにより、448kbpsのデータレートに対応する1フレーム分のデータ長(1792バイト)と、256kbpsのデータレートに対応する1フレーム分のデータ長(1024バイト)との差分、192kbps分のデータ長(768バイト)の付属情報領域が確保されることになる。PS組立部104は、その付属情報領域内に図14に示す分離格納データAのコピーデータを格納する。分離格納データAに対応する音声の平均ビットレートは、448kbpsのデータと256kbpsとの差分以下である、192kbpsであるものとする。
以上のように当初から記録される音声ストリームの各音声フレーム内に空き領域を設け、その空き領域に分離格納データをコピーすることにより、VOBU内に格納されなかった音声データ(分離格納データ)を実質的に格納できる。
プレイリストに基づく再生時には、VOBUのデータの読み出しが終わると、PS分解部114がデータストリームを解析することにより、音声伸長部113は従来のデータ構造では得ることができない分離格納データAのコピーデータを得ることができる。これにより、通常では音声が途切れる映像の場面においても、映像に同期して音声がシームレスに再生できる。
同期情報(SI)において規定しているビットレートの半分のビットレートを実際のビットレートに充て、残り半分を分離格納データのビットレートに充ててもよい。例えば、AC−3の音声ストリームは448kbpsで、実際のビットストリームが224kbps、分離格納データのビットストリームも224kbpsとしてもよい。音声フレームをこのように構成することにより、音声ストリーム#0の音声データを全て付属情報領域へ格納することができる。なお、分離格納データのコピーである音声ストリームは、AC−3規格に準拠した音声フレームが連続した形態であってもよく、さらに、分離格納データAの1個の音声フレームが、2個のAC−3規格の音声フレームに亘って付属情報内に記録されてもよい。また、分離格納データのデータ構造は、音声のエレメンタリーストリームを含むMPEG2プログラムストリームであってもよいし、その他のシステムストリームであってもよい。
なお、本実施形態では分離格納データのみが付属情報領域内に格納されるものとしたが、記録スペースを確保可能であれば音声ストリーム#0を全て格納してもよい。
(実施形態7)
実施形態6では、分離格納データAをAC−3規格の音声フレームの付加情報(AD)領域へ格納した。本実施形態では、MPEG−1オーディオ規格の音声フレーム内の付加データ(ancillary_data)領域へ分離格納データAを格納する。他の構成は実施形態6と同様である。
図17は本実施形態におけるMPEG−1オーディオ規格の音声フレームのデータ構造を示す。MPEG−1オーディオ規格の音声フレームは、ヘッダ、エラーチェック、音声データおよび付加データ(ancillary_data)を有しており、音声圧縮部103は、図17に示すデータ構造を有する音声フレームを生成する。
ヘッダには音声フレームのビットレート、サンプリング周波数、およびレイヤを示す情報が記録される。本実施形態では、それぞれ384kbps、48kHz、およびレイヤ2であるとしている。このとき、各音声フレームは、ヘッダに規定されたビットレートの情報に応じたデータ長を有している。ただし、音声圧縮部103は、実際にはヘッダ、エラーチェック、および音声データの合計が256kbps相当以下となるように記録し、付加データ領域は後から記録する分離格納データAのコピーのために空けておく。
これにより、384kbpsのデータレートに対応する1フレーム分のデータ長(1152バイト)と、256kbpsのデータレートに対応する1フレーム分のデータ長(768バイト)との差分、すなわち128kbps分のデータ長(384バイト)の付加データ領域が確保されることになる。PS組立部104はこのデータ領域内に、図14に示す分離格納データAのコピーデータを格納する。分離格納データAのコピーとして格納される音声のビットレートは平均128kbps以下であるとする。
以上のように当初から記録される音声ストリームの各音声フレーム内に空き領域を設け、その空き領域に分離格納データをコピーすることにより、VOBU内に格納されなかった音声データ(分離格納データ)を実質的に格納できる。
プレイリストに基づく再生時には、VOBUのデータの読み出しが終わると、PS分解部114がデータストリームを解析することにより、音声伸長部113は従来のデータ構造では得ることができない分離格納データAのコピーデータを得ることができる。これにより、通常では音声が途切れる映像の場面においても、映像に同期して音声がシームレスに再生できる。
なお、本実施の形態では分理格納データのみが付属情報領域内に格納されるとしたが、記録スペースを確保可能であれば音声ストリーム#0を全て格納してもよい。
なお、分離格納データのコピーである音声ストリームは、MPEG−1オーディオ規格に準拠した音声フレームが連続した形態であってもよく、さらに、分離格納データAの1個の音声フレームが、2個のMPEG−1オーディオ規格の音声フレーム内の付加データ領域に亘って記録されてもよい。また、分離格納データのデータ構造は、音声のエレメンタリーストリームを含むMPEG2プログラムストリームであってもよいし、その他のシステムストリームであってもよい。
これまで説明した実施形態では、分離格納データのコピーまたは音声ストリーム#0全体のコピーデータを、どのような態様で記録し、かつ再生するかを問題としていた。しかし、記録時には特段の処理を行わず、再生時に分離格納データ自身を直接読み出すようデータ処理装置30を動作させてもよい。具体的には、プレイリストがVOBU#iの再生後にVOBU#k(k≠(i+1))の再生を指定しているとき、プレイリスト再生制御部164は、VOBU#iのデータを読み出した後、必ず分離格納データを読み出し、その後、VOBU#kの読み出しを開始すればよい。これによれば、分離格納データの冗長な記録が不要になるとともに、音声をシームレスに再生することも可能になる。ただし、MPEG2規格上は最長1秒分のプログラムストリームを読み出す必要があるため、映像のシームレス再生が困難になるおそれがある。したがって、この場合プログラムストリーム生成時に、できるだけ分離格納データが少なくなるよう生成にすることが望ましい。
分離格納データが存在しないように圧縮符号化してVOBUを構成するためには、例えば映像伸長部111は各VOBUの映像フレームサイズが「映像のビットレート/1秒間のフレーム数」以下になるように各フレームを生成すればよい。これにより、音声に関して分離格納データが生成されることはなくなる。その理由は、1フレーム期間では毎回1フレーム分の音声データを伝送できるからである。なお、I(Intra)フレームのデータサイズが制限されて画質が低下するおそれが生じる点に留意が必要である。
または、分離格納データが所定のフレーム数(例えば4フレーム)以内の音声データを含むという制限をつけて、音声伸長部113が音声データを圧縮符号化してもよい。
本明細書では、プログラムストリームであるVR規格ストリームを例にしたが、MPEG1のシステムストリームまたはMPEG2のトランスポートストリームを利用することもできる。なお、トランスポートストリームは、トランスポートストリームを用いたデジタルテレビ放送規格に準拠した形式であってもよい。また、さらにトランスポートストリームを用いたデジタルデータ放送に準拠した形式であってもよい。トランスポートストリームの利用においては、トランスポートストリームパケットが利用される。なお、「パック」とはパケットの1つの例示的な形態として知られている。
また、プログラムストリームであるVR規格ストリームを例にしたが、ISO/IEC 14496−12で規定されるISO Base Media File Formatをベースにしたデータストリームであってもよい。
また、記録媒体は相変化光ディスクであるとしたが、例えばBlu−rayディスク、DVD−RAM、DVD−R、DVD−RW、DVD+RW、MO、CD−R、CD−RW等の光ディスクや、ハードディスク等の他のディスク形状の記録媒体も利用できる。また、フラッシュメモリ等の半導体メモリであってもよい。これに関連して、読み書きヘッドは光ディスク用のピックアップとしたが、例えば、記録媒体がMOの場合にはピックアップ及び磁気ヘッドとなり、またハードディスクの場合は磁気ヘッドとなる。
なお、本明細書では、プレイリスト再生時に音声が途切れなく再生できる技術を説明した。しかし、厳密には音声1フレーム分以下の間だけ音声データが存在しないケースがある。これはVOBU#iの次にVOBU#k(k≠(i+1))を読み出す際に、映像フレーム周期と音声のフレーム周期が若干異なり、完全には同期できないからである。この1フレーム以下の音声データの欠落を防ぐには、分離格納データに加えて、このデータに続く1音声フレームのデータを余分に含めればよい(実施形態1、3、4および5)。そして、これにより余分な音声データを含むことになるが、余分な部分は再生しないようにすればよい。
なお、実施の形態1から5までは音声の圧縮方式として、MPEG−1オーディオもしくはMPEG−2オーディオ、AAC、AC−3等を一般に使用することができる。なお、AC−3の場合は、図16(a)に示すように音声データはVOBU内に格納される際にプライベートストリーム1(stream_ID=0xBD)として格納される場合がある。このときは、例えば実施形態5における、分離格納データを格納するプライベートストリームのような、別のプライベートストリーム1を使用する他のストリームと区別する必要がある。そこでPS組立部104は、サブストリームID(0x80)をPESパケットヘッダの次に1バイトだけに設けて識別可能にする。図16(a)は、サブストリームID(0x80)を有し、AC−3データを含むオーディオパックのデータ構造を示す。
実施形態5において説明したプライベートストリームとAC−3用のプライベートストリームを区別して識別するために、異なる数値のサブストリームIDを用いてもよい。図16(b)は、サブストリームID(0xFF)を有し、データを含むオーディオパックのデータ構造を示す。この数値は、DVD−Video規格において規定されている値(0xFF)である。
なお、実施の形態5から7までにおいて分離格納データはエレメンタリーストリームのみか、または、PESパケットヘッダまでがコピーされていてもよい。上述の説明では、2つのVOBUの境界における音声フレームがいずれのVOBUと同期して再生されるべきかについては言及していないが、例えば映像フレームのPTS以降の音声フレームが同じVOBUに対応すると考えればよい。なお、本実施形態では、ビデオデータとしてMPEG−2ビデオストリームを挙げて説明したが、MPEG−4ビデオストリームやMPEG−4AVCビデオストリーム等の他の圧縮符号化形式を用いることもできる。
本発明によれば、同一のデータ単位(例えばVOBU)内に映像に対応する音声の全てのデータが含まれない場合であっても、少なくとも含まれない音声データをコピーしたコピーデータを、例えばそのデータ単位へのアクセスの際に容易にアクセスできる位置(例えば、次のVOBUの先頭部分、そのVOBUの直前または直後)に記録する記録装置を得ることができる。
これにより、特にプレイリストに基づいて映像および音声を同期して再生する場合には、映像データを含むデータ単位へのアクセスとともに、同期して再生されるべき全ての音声データが得られる。よって、シーンをまたぐ際の音声の途切れを大幅に低減でき、ユーザの視聴環境の向上に供することができる再生装置を得ることができる。
VR規格に準拠したMPEG2プログラムストリーム10のデータ構造を示す図である。 ビデオパック内の映像データによって構成される映像ストリームと、オーディオパック内の音声データによって構成される音声ストリームとの関係を示す図である。 データ処理装置30の機能ブロックの構成を示す図である。 VR規格ストリーム10のデータ構造を示す図である。 VR規格ストリーム10と光ディスク131の記録領域との関係を示す図である。 記録されたVR規格ストリーム10および管理情報が光ディスク131のファイルシステムにおいて管理されている状態を示す図である。 実施形態1によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。 データ処理装置30の記録処理の手順を示すフローチャートである。 実施形態2によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。 実施形態3によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。 実施形態4によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。 実施形態5によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。 実施形態5の変形例によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。 実施形態6によるVOBUと、映像ストリームおよび音声ストリームとの関係を示す図である。 AC−3規格の音声フレームのデータ構造および付加情報の位置およびサイズを示す図である。 (a)および(b)は、音声データの種類に応じたサブストリームIDを有するオーディオパックのデータ構造を示す図である。 MPEG−1オーディオ規格の音声フレームのデータ構造を示す。

Claims (18)

  1. 映像信号および音声信号が入力される信号入力部と、
    前記映像信号および前記音声信号を圧縮符号化して、映像データおよび音声データを生成する圧縮部と、
    前記映像データおよび前記音声データを分割してパケットを複数生成し、前記映像データに関する映像パケットおよび前記音声データに関する音声パケットを多重化したデータ単位を複数生成し、複数の前記データ単位を含むデータストリームを生成するストリーム組立部と、
    前記データストリームを記録媒体に記録する記録部と
    を有し、前記ストリーム組立部は、前記データ単位に含める映像パケットおよび音声パケットを少なくとも映像の再生時間に基づいて決定し、所定のデータ単位に格納された映像データに対応する音声データの全部が前記所定のデータ単位に含まれない場合には、前記音声データのうち、少なくとも含まれない部分である部分音声データをコピーしたコピーデータを前記データストリーム内に含める、データ処理装置。
  2. 前記ストリーム組立部は、前記データ単位に対応する前記コピーデータを、後続のデータ単位の少なくとも最初に配置された映像パケット内に格納する、請求項1に記載のデータ処理装置。
  3. 前記ストリーム組立部は、前記データ単位内に、対応する前記コピーデータを格納する、請求項1に記載のデータ処理装置。
  4. 前記ストリーム組立部は、前記コピーデータを、前記データストリーム内の専用の音声ストリーム内に格納する、請求項1に記載のデータ処理装置。
  5. 前記ストリーム組立部は、前記コピーデータを、前記データストリーム内の専用のプライベートデータストリーム内に格納する、請求項1に記載のデータ処理装置。
  6. 前記ストリーム組立部は、前記映像データに同期する前記音声データのすべてをコピーしたコピーデータを、前記所定のデータ単位に含める、請求項1に記載のデータ処理装置。
  7. 前記ストリーム組立部は、前記コピーデータを、前記データストリーム内の専用のプライベートデータストリーム内に格納する、請求項6に記載のデータ処理装置。
  8. 前記ストリーム組立部は、前記映像データに同期する前記音声データのすべてをコピーしたコピーデータを、前記データストリーム内の専用の音声ストリーム内に格納する、請求項1に記載のデータ処理装置。
  9. 前記ストリーム組立部は、前記映像データに同期する前記音声データのすべてをコピーしたコピーデータを、前記データストリーム内の専用の音声ストリーム内に格納し、さらに前記コピーデータの転送タイミングを示す転送タイミング情報として、前記コピー元のデータ単位内の転送タイミングよりも所定の時間だけ早くシフトした転送タイミングを規定して記録する、請求項1に記載のデータ処理装置。
  10. 前記ストリーム組立部は、前記複数のデータ単位を含む第1ファイルおよび前記コピーデータを含む第2ファイルとして、前記データストリームを生成し、
    前記記録部は、前記データ単位とコピーデータとを前記記録媒体に連続的に記録する、請求項1に記載のデータ処理装置。
  11. 前記ストリーム組立部は、前記映像データに対応する前記音声データのすべてをコピーしたコピーデータによって前記第2ファイルを生成する、請求項10に記載のデータ処理装置。
  12. 前記音声データは第1レートに応じたデータ長を有しており、
    前記圧縮部は前記第1レートよりも小さい第2のレートにより前記音声信号を圧縮符号化して前記音声データに格納し、
    前記ストリーム組立部は、前記第2レートに対して規定される第2データ長と、前記第1レートに対して規定される前記音声データの第1データ長との差分に対応する空き領域に、前記コピーデータを格納する、請求項1に記載のデータ処理装置。
  13. 映像信号および音声信号を受け取るステップと、
    前記映像信号および前記音声信号を圧縮符号化して、映像データおよび音声データを生成するステップと、
    前記映像データおよび前記音声データを分割してパケットを複数生成するステップし、前記映像データに関する映像パケットおよび前記音声データに関する音声パケットを多重化したデータ単位を複数生成し、複数の前記データ単位を含むデータストリームを生成するステップと、
    前記データストリームを記録媒体に記録するステップとを包含し、
    前記データストリームを生成するステップは、前記データ単位に含める映像パケットおよび音声パケットを少なくとも映像の再生時間に基づいて決定し、所定のデータ単位に格納された映像データに対応する音声データの全部が前記所定のデータ単位に含まれない場合には、前記音声データのうち、少なくとも含まれない部分である部分音声データをコピーしたコピーデータを前記データストリーム内に含める、データ処理方法。
  14. 前記データストリームを生成するステップは、前記データ単位に対応する前記コピーデータを、後続のデータ単位の最初に配置された映像パケット内に格納する、請求項13に記載のデータ処理方法。
  15. 前記データストリームを生成するステップは、前記映像データに対応する前記音声データのすべてをコピーしたコピーデータを、前記所定のデータ単位に含める、請求項13に記載のデータ処理方法。
  16. 前記データストリームを生成するステップは、前記複数のデータ単位を含む第1ファイルおよび前記コピーデータを含む第2ファイルとして、前記データストリームを生成し、
    前記記録するステップは、前記データ単位と前記コピーデータとを前記記録媒体に連続的に記録する、請求項13に記載のデータ処理方法。
  17. 前記データストリームを生成するステップは、前記映像データに対応する前記音声データのすべてをコピーしたコピーデータによって前記第2ファイルを生成する、請求項16に記載のデータ処理方法。
  18. 前記音声データは第1レートに応じたデータ長を有しており、
    前記音声データを生成するステップは、第1レートで前記音声信号を圧縮符号化して前記音声データを生成し、
    前記前記データストリームを生成するステップは、前記所定のデータ単位に含まれる前記音声データに対して、前記レート情報として前記第1レートよりも早い第2レートの値を設定して前記音声データを生成し、前記第2レートに対して規定される第2データ長と、前記第1レートに対して規定される前記音声データの第1データ長との差分に対応する空き領域に、前記コピーデータを格納する、請求項13に記載のデータ処理方法。
JP2005503083A 2003-03-06 2004-03-03 データ処理装置 Pending JPWO2004080071A1 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2003059931 2003-03-06
JP2003059931 2003-03-06
JP2003118252 2003-04-23
JP2003118252 2003-04-23
PCT/JP2004/002678 WO2004080071A1 (ja) 2003-03-06 2004-03-03 データ処理装置

Publications (1)

Publication Number Publication Date
JPWO2004080071A1 true JPWO2004080071A1 (ja) 2006-06-08

Family

ID=32964903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005503083A Pending JPWO2004080071A1 (ja) 2003-03-06 2004-03-03 データ処理装置

Country Status (3)

Country Link
US (1) US7386553B2 (ja)
JP (1) JPWO2004080071A1 (ja)
WO (1) WO2004080071A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005088982A1 (en) * 2004-03-03 2005-09-22 Koninklijke Philips Electronics N.V. Video processing circuit and method of video processing
US7624021B2 (en) * 2004-07-02 2009-11-24 Apple Inc. Universal container for audio data
JP4270161B2 (ja) * 2005-04-15 2009-05-27 ソニー株式会社 情報記録再生システム、情報記録再生装置及び情報記録再生方法
US20090106807A1 (en) * 2007-10-19 2009-04-23 Hitachi, Ltd. Video Distribution System for Switching Video Streams
DE102008044635A1 (de) * 2008-07-22 2010-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bereitstellen einer Fernsehsequenz
US9357200B2 (en) 2011-04-28 2016-05-31 Panasonic Intelectual Property Management Co., Ltd. Video processing device and video processing method
JP6426901B2 (ja) * 2014-03-14 2018-11-21 富士通クライアントコンピューティング株式会社 配信方法、再生装置、配信装置、転送制御プログラムおよび配信制御プログラム
KR101642112B1 (ko) * 2015-10-29 2016-07-22 주식회사 님버스 이동통신망에서 실시간 멀티미디어를 송수신하기 위한 모뎀 본딩 시스템 및 방법
US11161038B2 (en) * 2018-08-06 2021-11-02 Amazon Technologies, Inc. Systems and devices for controlling network applications
CN110321300A (zh) * 2019-05-20 2019-10-11 中国船舶重工集团公司第七一五研究所 一种信号处理数据高速记录与回放模块的实现方法
US11570396B1 (en) * 2021-11-24 2023-01-31 Dish Network L.L.C. Audio trick mode

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6172988B1 (en) * 1996-01-31 2001-01-09 Tiernan Communications, Inc. Method for universal messaging and multiplexing of video, audio, and data streams
KR100526218B1 (ko) 1997-12-15 2005-11-04 마츠시타 덴끼 산교 가부시키가이샤 광디스크, 기록장치, 기록 프로그램을 저장하는 컴퓨터 판독가능 저장매체 및 기록방법
US7558472B2 (en) * 2000-08-22 2009-07-07 Tivo Inc. Multimedia signal processing system
GB9911989D0 (en) * 1999-05-25 1999-07-21 Pace Micro Tech Plc Data transport strems processing
TW535154B (en) 1999-07-09 2003-06-01 Matsushita Electric Ind Co Ltd An optical disc, a recorder, a player, a recording method, and a reproducing method that are all used for the optical disc
GB9930788D0 (en) * 1999-12-30 2000-02-16 Koninkl Philips Electronics Nv Method and apparatus for converting data streams
JP3566234B2 (ja) 2001-08-01 2004-09-15 株式会社プランネットアソシエイツ デジタル音声映像情報の編集方法
JP4464012B2 (ja) * 2001-05-28 2010-05-19 キヤノン株式会社 記録装置及びその方法
US20020197058A1 (en) 2001-05-28 2002-12-26 Koichiro Suzuki Recording apparatus

Also Published As

Publication number Publication date
US20060165387A1 (en) 2006-07-27
WO2004080071A1 (ja) 2004-09-16
US7386553B2 (en) 2008-06-10

Similar Documents

Publication Publication Date Title
CA2439467C (en) A method and an apparatus for stream conversion, a method and an apparatus for data recording, and data recording medium
CA2268409C (en) Optical disc, optical disc recording method and apparatus, and optical disc reproducing method and apparatus
US7945143B2 (en) Information recording medium, and apparatus and method for recording information on information recording medium
US8224162B2 (en) Information recording medium, and apparatus and method for recording information to information recording medium
EP1364531B1 (en) A method and an apparatus for stream conversion, a method and an apparatus for data recording, and data recording medium
JP4299836B2 (ja) データ処理装置
JPWO2005015907A1 (ja) データ処理装置
JPWO2004080071A1 (ja) データ処理装置
KR100625406B1 (ko) 데이터 처리 장치
JP4481929B2 (ja) データストリームの記録方法および装置
CN100536554C (zh) 数据处理装置及方法
US20040076406A1 (en) Information recording apparatus and method
EP1457990A1 (en) Audio/video information recording/reproducing apparatus and method, and recording medium in which information is recorded by using the audio/video information recording/reproducing apparatus and method
JP2003174622A (ja) 音声/映像情報記録再生装置および方法、および音声/映像情報記録再生装置および方法を用いて情報が記録された記録媒体
JP2004192661A (ja) 音声/映像情報記録再生装置および方法
JP2003132628A (ja) 情報記録再生装置
JP2004355806A (ja) 情報記録再生装置
JP2006121213A (ja) データ変換装置、データ変換方法、データ変換プログラム及びプログラム記録媒体