JP5052220B2

JP5052220B2 - 動画像符号化装置

Info

Publication number: JP5052220B2
Application number: JP2007161657A
Authority: JP
Inventors: 博荒川
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-06-19
Filing date: 2007-06-19
Publication date: 2012-10-17
Anticipated expiration: 2027-06-19
Also published as: JP2009004897A; US8873641B2; CN101330623A; US20080317139A1

Description

本発明は、動画像データの符号化を行う動画像符号化装置に関する。

従来、例えば、デジタルコンテンツである映画等の１つのタイトルは、複数のチャプタにより構成されている。また、これらチャプタの実体は、符号化された動画像データと音声データ等が多重化されたストリームである。

従って、１つのタイトルを構成する各ストリームを生成する際には、ストリーム間で動画像が途切れずにシームレスに再生されるように、その生成の際の符号化処理を制御する必要がある。

ここで、動画像データを符号化する符号化装置では、例えばＶＢＶ（ＶｉｄｅｏＢｕｆｆｅｒｉｎｇＶｅｒｉｆｉｅｒ）バッファと呼ばれる仮想バッファを想定し、復号化装置のバッファにおけるデータ占有量の推移をシミュレーションすることができる。

また、このバッファシミュレーションの結果により、復号化装置のバッファがオーバーフローおよびアンダーフローをしないように、符号化処理を制御する。

図５は、シームレス接続がなされていない２つのストリームの仮想バッファにおける占有量の推移の一例を示す模式図である。

図５に示す例では、先行ストリーム１１０１の各ピクチャが所定の間隔で仮想バッファから引抜かれている。また、最後のピクチャＢ１３が復号化され、その後に、後続ストリーム１１０２の仮想バッファへの蓄積が開始されている。なお、上記所定の間隔は、各ストリームのフレームレートの逆数であり、例えば１／６０秒である。

この場合、図に示すように、先行ストリーム１１０１の最後のピクチャＢ１３のデコード画像と、後続ストリーム１１０２の最初のピクチャＩ２のデコード画像との間に途切れが発生することになる。

図６は、シームレス接続がなされている２つのストリームの仮想バッファにおける占有量の推移の一例を示す模式図である。

図６に示すように、後続ストリームの復号化開始時期を早めることで、ピクチャＢ１３のデコード画像とピクチャＩ２のデコード画像との間に途切れが生じず、シームレス再生が可能となる。

このように、先行ストリームと後続ストリームとがシームレスに再生されるように、符号化装置において後続ストリームを生成する場合、先行ストリーム１１０１についての最後の仮想バッファ量を考慮する必要がある。

これは、後続ストリーム１１０２の仮想バッファへの蓄積が開始される時点での仮想バッファ量はゼロではなく、上記の最後の仮想バッファ量を始点として蓄積されることになるからである。

図６に示すように、先行ストリーム１１０１についての最後の仮想バッファ量をＳ₀とする。この場合、時刻ｔ₁から後続ストリーム１１０２の蓄積が開始され仮想バッファ量はＳ₀から増加する。その後、時刻ｔ₃においてピクチャＢ１３が仮想バッファから引き抜かれることで、仮想バッファ量はＳ₁となる。

このＳ₁は、蓄積量の始点となるＳ₀と、時刻ｔ₃−時刻ｔ₁により求まる蓄積時間と、蓄積量の増加角θと、ピクチャＢ１３の符号量とにより求めることができる。なお、増加角θは後続ストリーム１１０２のビットレートによって決定される値である。

その後、時刻ｔ₄においてピクチャＩ２が仮想バッファから引抜かれる。このとき、ピクチャＩ２の符号量は、仮想バッファがアンダーフローしない量である必要がある。

そこで、符号化装置は、ピクチャＩ２を生成する際に、後続ストリーム１１０２についての仮想バッファ量の初期値Ｓ₁₀に応じて、ピクチャＩ２の符号量を決定する。

なお、後続ストリーム１１０２についての仮想バッファ量の初期値とは、図６に示すように、後続ストリーム１１０２に含まれる画像ストリームのデータが最初に仮想バッファから引抜かれる時点（ｔ₄）の仮想バッファ量である。つまり、図６ではＳ₁₀である。

この初期値Ｓ₁₀は、具体的には、先に求めた時刻ｔ₃の時点の蓄積量Ｓ₁と、時刻ｔ₄−時刻ｔ₃により求まる蓄積時間と、増加角θとにより求められる。

符号化装置では、このようにして求めた初期値Ｓ₁₀から、必要に応じて所定のマージン量を減算し、その減算後の値以下になるように、ピクチャＩ２の符号量を決定する。さらに、その符号量になるようにピクチャＩ２に対応する動画像データを符号化する。

ここで、上述の時刻ｔ₃、時刻ｔ₄、およびθの各値は予め決定されている値である。そのため、符号化装置は、仮想バッファ量の初期値Ｓ₁₀を決定するためには、時刻ｔ₁とＳ₀とを取得すればよい。

図７は、従来の動画像符号化装置の機能的な構成の一例を示す機能ブロック図である。

図７に示す、従来の動画像符号化装置２００は、入力信号から音声ストリームを生成する音声符号化部２０１と、入力信号から画像ストリームを生成する画像符号化部２０２と、音声ストリームと画像ストリームとを多重化する多重化部２０３とを備える。

また、画像符号化部２０２から出力される仮想バッファの蓄積量を示す情報を仮想バッファ情報２０４として保持している。

多重化部２０３は、先行ストリーム１１０１についての最後の仮想バッファ量Ｓ₀、および、後続ストリーム１１０２に含まれる画像ストリームの開始時刻である時刻ｔ₁を画像符号化部２０２に通知する。

この開始時刻ｔ₁としては、例えば、図６に示すように、後続ストリーム１１０２において画像ストリームに先行して音声ストリームが存在する場合、先行ストリーム１１０１の最後のピクチャＢ１３が仮想バッファから引抜かれる時刻ｔ₀に、その音声ストリームの符号量に相当する時間が加算された値が与えられる。

または、画像符号化部２０２は、開始時刻ｔ₁に対応する所定の値を情報として有しており、多重化部２０３から開始時刻ｔ₁を与えられることなく、この所定の値を開始時刻ｔ₁としてバッファシミュレーションに用いる。

画像符号化部２０２は、後続ストリーム１１０２に含まれることになる画像ストリームを生成する前に、開始時刻ｔ₁と、仮想バッファ量Ｓ₀とを用いて、バッファシミュレーションを行い、後続ストリーム１１０２についての仮想バッファ量の初期値Ｓ₁₀を決定する。さらに、当該初期値に従って符号化処理を制御する。

このような、ストリームのシームレス接続に関する技術も開示されている（例えば、特許文献１参照）。
特許第３６７５４６４号公報

ここで、後続ストリーム１１０２についての多重化処理の開始時期は、先行ストリーム１１０１の終端より早めることはできない。すなわち、先行ストリーム１１０１の多重化処理終了後にのみ、後続ストリーム１１０２についての多重化処理の開始が可能となる。

そのため、先行ストリーム１１０１の出力の終了から後続ストリーム１１０２の出力の開始までには、実際には多重化処理のための時間が必要である。

また、先行ストリーム１１０１の終端部分および、後続ストリーム１１０２の開始部分に、多重化ストリームの終端処理および開始処理のための制御情報を含む特殊情報を付加する場合がある。

図８は、後続ストリーム１１０２に含まれる画像ストリームの開始時期の違いを示す模式図である。

図８の（ｉ）において、先行ストリーム１１０１および後続ストリーム１１０２には特殊情報が含まれていない。また、（ｉｉ）では、先行ストリーム１１０１に特殊情報１２０３が含まれており、後続ストリーム１１０２には特殊情報１２０４が含まれている。

そのため、後続ストリーム１１０２に含まれる画像ストリームの開始時期が、（ｉ）の場合と比較するとＤ₀だけ遅れることになる。

また、同様に（ｉｉｉ）では、先行ストリーム１１０１および後続ストリーム１１０２の間に、多重化に要する時間が存在する。そのため、後続ストリーム１１０２に含まれる画像ストリームの開始時期が（ｉ）の場合と比較するとＤ₀だけ遅れることになる。

このように、多重化に要する時間および多重化ストリームに付加された特殊情報の分だけ、後続ストリーム１１０２に含まれる画像ストリームの開始時期が遅れることになる。

しかし、上記従来の技術ではこれらの点を考慮していないため、誤って画像ストリームの開始時期を早めに設定することになる。

これにより、仮想バッファにおけるバッファ占有量の遷移が正しいものではなくなり、後続ストリーム１１０２についてのバッファ量の初期値を誤って算出することになる。

図９は、誤ったバッファ占有量の遷移と正しいバッファ占有量の遷移とを示す模式図である。

図９に示すように、従来の技術によれば、先行ストリーム１１０１と後続ストリーム１１０２とが（ｉ）のような状態にあることを想定している。そのため、後続ストリーム１１０２に含まれる画像ストリームの開始時刻は、ｔ₁となり、この条件でバッファシミュレーションした結果、仮想バッファ量の初期値は、Ｓ₁₀となる。

しかし、実際には、（ｉｉ）のように、先行ストリーム１１０１および後続ストリーム１１０２に、特殊情報１２０３および１２０４が存在することなどを起因として開始時刻がｔ₁より遅くなる。

具体的には、本例においては図に示すように開始時刻はｔ₂となり、正しいバッファ占有量は誤ったバッファ占有量よりも低い値で推移する、その結果、仮想バッファ量の初期値はＳ₁₁となる。

つまり、従来の技術によれば、仮想バッファ量の初期値は、正しい値であるＳ₁₁よりも大きな値であるＳ₁₀となる。さらに、このＳ₁₀に基づいて後続ストリーム１１０２における第１ピクチャの符号量が決定される。

このように、誤った初期値に基づいて第１ピクチャの符号量が決定された場合、図に示すように、第１ピクチャが仮想バッファから引抜かれた時点（ｔ₄）でアンダーフローを生じる可能性がある。

つまり、上記従来の技術によれば、復号化装置においてバッファにアンダーフローを生じさせる規格違反のストリームが生成される可能性がある。

なお、このような特殊情報に換えて、図８の（ｉｉｉ）に示すように、先行ストリーム１１０１と後続ストリーム１１０２との間に、多重化に要する時間が存在することのみによっても同様に、後続ストリーム１１０２に含まれる画像ストリームの仮想バッファへの蓄積開始時刻の遅延が生じることになる。

本発明は、上記従来の課題を考慮し、シームレスに再生可能な複数のストリームを生成する動画像符号化装置であって、復号化装置のバッファにアンダーフローを生じさせないストリームを生成する動画像符号化装置を提供することを目的とする。

上記従来の課題を解決するために、本発明の動画像符号化装置は、入力される音声データおよび動画像データの符号化を行う動画像符号化装置であって、前記音声データを符号化し、音声ストリームを出力する音声符号化部と、符号化された前記動画像データを復号化する際における仮想的なデータ占有量の推移を示すバッファシミュレーションの結果に基づいて、前記動画像データを符号化し、画像ストリームを出力する画像符号化部と、前記音声ストリーム、前記画像ストリームおよび他の情報を多重化することにより、多重化ストリームを生成する多重化部と、を備え、前記画像符号化部は、前記画像符号化部において第１動画像データに後続する第２動画像データを符号化する場合、前記多重化部における多重化処理の処理時間を考慮した前記バッファシミュレーションを実行し、前記多重化部は、前記画像符号化部において第１動画像データに後続する第２動画像データを符号化する場合、（ａ）バッファシミュレーションにおける前記データ占有量が最初に増加する開始時刻を、前記第２動画像データ、前記第２動画像データに対応する音声ストリームおよび他の情報の多重化が終了した時刻と設定し、（ｂ）前記開始時刻における前記データ占有量を前記第１動画像データの符号化が終了した時点におけるデータ占有量と設定し、（ｃ）設定した前記データ占有量および前記開始時刻を前記画像符号化部に出力し、前記画像符号化部は、前記第２動画像データを符号化する際、前記多重化部が出力するデータ占有量および開始時刻に基づいてバッファシミュレーションを実行する。
また、本発明の動画像符号化装置において、前記多重化部は、前記第２動画像データ、前記第２動画像データに対応する音声ストリームおよび他の情報の多重化にかかる時間および、前記他の情報を生成する際に必要となる時間に基づいて、前記開始時刻を設定するとしてもよい。
また、本発明の動画像符号化装置は、画像ストリームと他の情報とが多重化された、先行ストリームと後続ストリームとがシームレスに再生されるように前記後続ストリームを生成する際に、その発生符号量と出力先への転送符号量とにより規定される仮想バッファの占有量に応じて符号化処理の制御を行う動画像符号化装置であって、前記後続ストリームについての仮想バッファ量の初期値を決定する際に、前記先行ストリームについての最後の仮想バッファ量に加え、多重化に伴い発生する遅延量を用いて前記初期値を決定するとしてもよい。

本発明の動画像符号化装置は、このように、多重化に伴い発生する遅延量を考慮して後続ストリームについての仮想バッファ量の初期値を決定する。これにより、従来よりも現実に即したバッファシミュレーションを行うことができる。そのため、本発明の動画像符号化装置は、復号化装置のバッファにアンダーフローを生じさせることなく、かつ、シームレスに再生可能な複数のストリームを生成することができる。

また、前記動画像符号化装置は、前記遅延量である、前記後続ストリームを生成する際の多重化に要する時間を用いて前記初期値を決定するとしてもよい。

また、前記動画像符号化装置は、前記先行ストリームおよび前記後続ストリームの少なくとも一方に、前記先行ストリームの終端処理または前記後続ストリームの開始処理のための制御情報を含む特殊情報をさらに多重化し、前記遅延量である前記特殊情報の符号量を用いて前記初期値を決定するとしてもよい。

このように、本発明の動画像符号化装置は、多重化に要する時間、または特殊情報の符号量、もしくはこれら両方を用いて後続ストリームについての仮想バッファ量の初期値を決定することができる。

また、当該初期値の決定に際し、前記動画像符号化装置は、前記後続ストリームに含まれる画像ストリームの、前記遅延量を考慮しない場合の前記仮想バッファへの蓄積の開始時刻に前記遅延量を加算することで、前記遅延量が考慮された前記開始時刻を算出し、算出した前記開始時刻と、前記最後の仮想バッファ量とを用いて、前記初期値である、前記後続ストリームに含まれる画像ストリームのデータが前記仮想バッファから最初に引抜かれる時点での仮想バッファ量を決定するとしてもよい。

また、本発明の画像符号化装置は、動画像データを符号化し画像ストリームを生成する画像符号化手段と、前記画像符号化手段から得られる画像ストリームと他の情報とを多重化することで前記先行ストリームおよび前記後続ストリームを生成する多重化手段と、前記多重化手段が前記後続ストリームを生成する前に、前記多重化に伴い発生する遅延量を算出する算出手段とを備え、前記画像符号化手段は、前記先行ストリームについての最後の仮想バッファ量と、前記算出手段により算出された遅延量とを用いて前記初期値を決定し、決定した前記初期値に基づいて動画像データを符号化することで前記後続ストリームに含まれる画像ストリームを生成するとしてもよい。

つまり、本発明の画像符号化装置を、このように複数の処理手段により実現することもできる。

また、前記算出手段は、前記遅延量である前記多重化に要する時間を算出し、前記画像符号化手段は、前記多重化に要する時間を用いて前記初期値を決定するとしてもよい。

また、前記多重化手段はさらに、前記先行ストリームおよび前記後続ストリームの少なくとも一方に、前記先行ストリームの終端処理または前記後続ストリームの開始処理のための制御情報を含む特殊情報を多重化し、前記算出手段は、前記遅延量である前記特殊情報の符号量を算出し、前記画像符号化手段は、前記特殊情報の符号量を用いて前記初期値を決定するとしてもよい。

また、当該初期値の決定に際し、前記算出手段は、前記後続ストリームに含まれる画像ストリームの、前記遅延量を考慮しない場合の前記仮想バッファへの蓄積の開始時刻に前記遅延量を加算することで、前記遅延量が考慮された前記開始時刻を算出し、算出した前記開始時刻を前記画像符号化手段に通知し、前記符号化手段は、通知された前記開始時刻と、前記最後の仮想バッファ量とを用いて、前記初期値である、前記後続ストリームに含まれる画像ストリームのデータが前記仮想バッファから最初に引抜かれる時点での仮想バッファ量を決定するとしてもよい。

また、本発明の動画像符号化装置は、集積回路として実現することもできる。

さらに、本発明は、本発明の動画像符号化装置の特徴的な構成部の動作をステップとする方法として実現したり、それらステップをコンピュータに実行させるためのプログラムとして実現したり、そのプログラムが記録された記録媒体として実現することもできる。そして、そのプログラムをインターネット等の伝送媒体又はＤＶＤ等の記録媒体を介して配信することもできる。

以上のように、本発明の動画像符号化装置によれば、多重化に伴い発生する遅延量が考慮された仮想バッファ量の初期値を決定することができる。

具体的には、後続ストリームを生成する際の多重化に要する時間、および先行ストリームおよび後続ストリームに付加される特殊情報の符号量を用いて当該初期値を決定することができる。

つまり、本発明の動画像符号化装置は、従来は考慮されていなかった遅延量を考慮することで、より現実に即したバッファシミュレーションを行うことができる。

これにより、特に、復号化装置のバッファにアンダーフローを生じさることなく先行ストリームと後続ストリームとをシームレスに再生させることができるという効果が発揮される。

このように、本発明は、復号化装置のバッファにアンダーフローを生じさせることなく、かつ、シームレス再生が可能なストリームを生成することができる動画像符号化装置を提供することができる。

以下、本発明の実施の形態について図面を参照しながら説明する。

図１は、本発明の実施の形態における動画像符号化装置の主要な機能構成を示す機能ブロック図である。

図１に示す本実施の形態の動画像符号化装置１００は、画像ストリームと他の情報とが多重化された、先行ストリームと後続ストリームとがシームレスに再生されるように、後続ストリームを生成する際に、その発生符号量と出力先への転送符号量とにより規定される仮想バッファの占有量に応じて符号化を制御する装置である。

図１に示すように、本実施の形態の動画像符号化装置１００は、音声符号化部１０１と画像符号化部１０２と、多重化部１０３とを備える。

多重化部１０３は、特殊情報生成部１０５と、処理時間算出部１０６と、開始時刻算出部１０７とを有している。また、多重化部１０３は、画像符号化部１０２から出力される、仮想バッファの蓄積量を示す情報を仮想バッファ情報１０４として保持している。

音声符号化部１０１は、入力される音声データを符号化し音声ストリームを生成する処理部である。画像符号化部１０２は、入力される動画像データを符号化し画像ストリームを生成する処理部である。

画像符号化部１０２は、発生符号量に基づき仮想バッファを用いてバッファシミュレーションを行い、仮想バッファがアンダーフローしないように自身の符号化処理を制御する機能を有している。

具体的には、画像符号化部１０２は、先行ストリームについての最後の仮想バッファ量と、多重化に伴い発生する遅延量とを用いて後続ストリームについての仮想バッファ量の初期値を決定する。さらに、決定した初期値に基づいて動画像データを符号化する。

多重化部１０３は、画像符号化部１０２から得られる画像ストリームと他の情報とを多重化することで先行ストリームおよび後続ストリームを生成する処理部である。

具体的には、多重化部１０３は、画像ストリームに音声ストリームおよび特殊情報などの情報を多重化して時系列データである多重化ストリームを生成する。

また、多重化部１０３は、画像符号化部１０２に、適正なバッファシミュレーションの実行に必要な情報を与える機能を有している。

具体的には、特殊情報生成部１０５は、外部から入力される情報に基づき、先行チャプタに対応するストリームの終端処理に必要な特殊情報や、後続チャプタに対応するストリームの開始処理に必要な特殊情報を生成する。

また、処理時間算出部１０６は、画像ストリーム、音声ストリーム、および特殊情報などの多重化に要する時間を算出する。

なお、処理時間算出部１０６は、例えば、理論値または実測値等から求められた、各種情報の多重化に要する時間そのもの、またはその時間を算出するための数式を保持している。また、保持している時間、または数式から求めた時間を、必要に応じた組み合わせで加算等することで多重化に要する全体の時間を算出する。

開始時刻算出部１０７は、特殊情報生成部１０５から得られる特殊情報の符号量と、処理時間算出部１０６から得られる多重化に要する時間の少なくとも一方を用いて、後続ストリーム１１０２に含まれる画像ストリームの蓄積が開始される時刻（以下、単に「開始時刻」という。）を算出する。

図２は、本発明の実施の形態における動画像符号化装置１００の動作の流れを示すフロー図である。

図３は、動画像符号化装置１００の仮想バッファにおけるバッファ占有量の推移の一例を示す模式図である。

図２および図３を用いて、動画像符号化装置１００の動作の流れを説明する。

多重化部１０３は、外部から入力されるチャプタ情報によりチャプタが終了した旨の通知を受け付けると（Ｓ１）、後続ストリーム１１０２の画像ストリームの蓄積開始時刻ｔ₂を算出する（Ｓ２）。

具体的には、開始時刻算出部１０７が、特殊情報生成部１０５から得られる特殊情報１２０３および１２０４の符号量に相当する時間を算出し、これに処理時間算出部１０６から得られる多重化に要する時間を加算する。これにより、多重化に伴い発生する遅延量が得られる。

さらに、この遅延量を考慮しない場合の開始時刻に、遅延量を加算することで、当該遅延量が考慮された開始時刻ｔ₂を得ることができる。

多重化部１０３は、このようにして得た開始時刻ｔ₂と、仮想バッファ情報１０４として保持している先行ストリーム１１０１についての最後の仮想バッファ量Ｓ₀とを画像符号化部１０２に通知する（Ｓ３）。

画像符号化部１０２は、多重化部１０３から受け取ったｔ₂とＳ₀とを用いてバッファシミュレーションを行い、後続ストリーム１１０２についての仮想バッファ量の初期値Ｓ₁₁を決定する（Ｓ４）。

さらに、初期値Ｓ₁₁から所定のマージン量であるＳ₁₂（０≦Ｓ₁₂＜Ｓ₁₁）を減算し、減算後の値以下になるように第１ピクチャ（Ｉ２）の符号量を決定する。

また、以降の各ピクチャについても、仮想バッファがオーバーフローおよびアンダーフローしないように、それぞれの符号量を決定する。

画像符号化部１０２は、各ピクチャがこれら決定した符号量になるように、入力された動画像データを符号化する（Ｓ５）。

また、画像符号化部１０２は、以下の式で、値Ｄ₁を算出する。

Ｄ₁＝ｔ₃−ｔ₂ （式１）

このＤ₁が、後続ストリーム１１０２に含まれる画像ストリームについてのバッファ初期遅延時間に相当する値である。

画像符号化部１０２は、このＤ₁を、符号化方式がＭＰＥＧ２であれば、ｖｂｖ＿ｄｅｌａｙとして画像ストリームに設定する。また、符号化方式がＨ．２６４であれば、ｉｎｉｔｉａｌ＿ｃｐｂ＿ｒｅｍｏｖａｌ＿ｄｅｌａｙとして画像ストリームに設定する。

その後、多重化部１０３は、画像符号化部１０２から得られる画像ストリームと、音声符号化部１０１から得られる音声ストリームと、必要に応じて生成される特殊情報を多重化することで、後続ストリーム１１０２を生成し出力する。

このように動画像符号化装置１００は、バッファシミュレーションにおいて後続ストリーム１１０２についての仮想バッファ量の初期値を決定する際に、先行ストリーム１１０１についての最後の仮想バッファ量に加え、多重化に伴い発生する遅延量を用いて当該初期値を決定する。

また、このようにして決定された仮想バッファの初期値に基づいて、後続ストリーム１１０２に含まれる画像ストリームの各ピクチャの符号量を決定する。

動画像符号化装置１００は、このような符号化処理の制御を行うことにより、出力する複数のストリームを、復号化装置のバッファにオーバーフローを生じさせることなく、かつ、シームレスに再生可能なものとすることができる。

なお、本実施の形態において、先行ストリーム１１０１についての最後の仮想バッファ量Ｓ₀は、多重化部１０３から画像符号化部１０２に通知されるとした。

しかしながら、仮想バッファ量Ｓ₀は、画像符号化部１０２におけるバッファシミュレーションにより得られる値である。そのため、画像符号化部１０２がＳ₀を保持しておき、後続ストリーム１１０２についての仮想バッファ量の初期値Ｓ₁₁の算出に用いてもよい。

また、多重化部１０３は、後続ストリーム１１０２の画像ストリームの蓄積開始時刻ｔ₂を算出し、画像符号化部１０２に通知するとした。

しかしながら、多重化部１０３は、例えば、開始時刻ｔ₂に換えて特殊情報の符号量および多重化に要する時間のみ、つまり、多重化に伴う遅延量を示す情報のみを画像符号化部１０２に通知してもよい。

この場合、画像符号化部１０２は、多重化に伴う遅延量を、この遅延量を考慮しない場合の所定の開始時刻に加算することで、正しい開始時刻ｔ₂を得ることができる。

つまり、動画像符号化装置１００は、入力信号を符号化する機能、および各種情報を多重化する機能等の当然に備えるべき機能に加え、多重化に伴い発生する遅延量を考慮して後続ストリーム１１０２についての仮想バッファ量の初期値Ｓ₁₁を決定する機能を有していればよい。

従って、このような仮想バッファ量の初期値Ｓ₁₁を決定するための正しい開始時刻ｔ₂の算出等の処理を、どの処理部に実行させるかは、実装上の都合および符号化の効率性等により決定すればよい。

また、動画像符号化装置１００を構成する各機能ブロックは典型的には集積回路であるＬＳＩとして実現されてもよい。

図４は、本実施の形態の動画像符号化装置１００における集積回路化の一例を示す図である。

図４に示すＬＳＩ１１０は集積回路化の一例を示している。つまり、図４に示すように、動画像符号化装置１００が備える特徴的な機能ブロックの全てを１つの集積回路により実現してもよい。

なお、動画像符号化装置１００が備える各機能ブロックは個別に１チップ化されても良いし、一部の複数の機能ブロックを含むように１チップ化されても良い。

なお、ここでは、ＬＳＩと記載しているが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

さらに、集積回路の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

また、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。

本発明の動画像符号化装置は、画像ストリームに多重化する特殊情報の符号量、および、多重化に要する時間等の、多重化に伴う遅延量を用いて当該画像ストリームの符号化処理を制御する。

これにより、本発明の動画像符号化装置から出力されたストリームを復号化し再生する復号化装置では、バッファにアンダーフローが生じることなく、かつ、シームレスな再生が可能となる。

したがって、本発明は、このような符号化制御を必要とするデジタルビデオカメラ等に有用である。

本発明の実施の形態における動画像符号化装置の主要な機能構成を示す機能ブロック図である。本発明の実施の形態における動画像符号化装置の動作の流れを示すフロー図である。図２に示す動画像符号化装置の仮想バッファにおけるバッファ占有量の推移の一例を示す模式図である。本実施の形態の動画像符号化装置における集積回路化の一例を示す図である。シームレス接続がなされていない２つのストリームの仮想バッファにおける占有量の推移の一例を示す模式図である。シームレス接続がなされている２つのストリームの仮想バッファにおける占有量の推移の一例を示す模式図である。従来の動画像符号化装置の機能的な構成の一例を示す機能ブロック図である。後続ストリームに含まれる画像ストリームの開始時期の違いを示す模式図である。誤ったバッファ占有量の遷移と正しいバッファ占有量の遷移とを示す模式図である。

符号の説明

１００動画像符号化装置
１０１音声符号化部
１０２画像符号化部
１０３多重化部
１０４仮想バッファ情報
１０５特殊情報生成部
１０６処理時間算出部
１０７開始時刻算出部
１１０ＬＳＩ
１１０１先行ストリーム
１１０２後続ストリーム
１２０３、１２０４特殊情報

Claims

入力される音声データおよび動画像データの符号化を行う動画像符号化装置であって、
前記音声データを符号化し、音声ストリームを出力する音声符号化部と、
符号化された前記動画像データを復号化する際における仮想的なデータ占有量の推移を示すバッファシミュレーションの結果に基づいて、前記動画像データを符号化し、画像ストリームを出力する画像符号化部と、
前記音声ストリーム、前記画像ストリームおよび他の情報を多重化することにより、多重化ストリームを生成する多重化部と、を備え、
前記画像符号化部は、前記画像符号化部において第１動画像データに後続する第２動画像データを符号化する場合、前記多重化部における多重化処理の処理時間を考慮した前記バッファシミュレーションを実行し、
前記多重化部は、前記画像符号化部において第１動画像データに後続する第２動画像データを符号化する場合、（ａ）（１）前記第２動画像データ、前記第２動画像データに対応する音声ストリームおよび他の情報の多重化処理を考慮しない場合の前記第２動画像データのバッファシュミュレーションにおける前記データ占有量が最初に増加する開始時刻に対して、（２）前記第２動画像データ、前記第２動画像データに対応する前記音声ストリームおよび前記他の情報の多重化に係る時刻を加算することにより、実際のバッファシュミュレーションにおける前記データ占有量が増加する開始時刻を設定し、（ｂ）前記開始時刻における前記データ占有量を前記第１動画像データの符号化が終了した時点におけるデータ占有量と設定し、（ｃ）設定した前記データ占有量および前記開始時刻を前記画像符号化部に出力し、
前記画像符号化部は、前記第２動画像データを符号化する際、前記多重化部が出力する前記データ占有量および前記開始時刻から決定される、前記第２動画像データが前記バッファシミュレーションにおける仮想的なバッファから最初に引抜かれる時点でのデータ占有量を用いて、バッファシミュレーションを実行する
動画像符号化装置。