JP4362259B2

JP4362259B2 - ビデオ符号化方法

Info

Publication number: JP4362259B2
Application number: JP2001585519A
Authority: JP
Inventors: ハンナクセラミスカ; カグラーケレム
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2000-05-15
Filing date: 2001-05-14
Publication date: 2009-11-11
Anticipated expiration: 2021-05-14
Also published as: EE200200642A; EP2148513A3; WO2001089223A3; GB2362532A; WO2001089223A2; EP1287699A2; HU230597B1; CN1633185A; EP2148513A2; HUP0302055A2; MXPA02011201A; KR20080083030A; HUP0302055A3; US20010040700A1; ZA200208744B; KR20030005348A; CN1193622C; CA2409027C; KR100929558B1; CN1440623A

Description

【０００１】
（技術分野）
本発明はビデオ符号化に関する。
【０００２】
（背景技術）
ビデオ・シーケンスは一連の静止画像またはフレームから構成されている。ビデオ圧縮方法は、ビデオ・シーケンスの冗長部分および知覚的に無関係な部分を減らすことに基づいている。ビデオ・シーケンスにおける冗長性は、スペクトル冗長性、空間的冗長性および時間的冗長性に分類することができる。スペクトル冗長性は、同じ画像の異なるカラー成分間の類似性を指す。空間的冗長性は、１つの画像中の隣接しているピクセル間の類似性に起因する。時間的冗長性は前の画像の中に現れているオブジェクトが現在の画像中にも現れる可能性があるので存在する。この時間的冗長性を利用し、現在の画像を別の画像、すなわち、アンカー画像または基準画像から予測することによって圧縮を行うことができる。現在の画像と前の画像との間の動きを記述する動き補償データを生成することによって、さらに圧縮が行われる。
【０００３】
しかし、シーケンスの本来的な冗長性を減らすことだけによっては十分な圧縮が行われないのが普通である。それ故、ビデオ・エンコーダは、ビデオ・シーケンスの主観的にあまり重要でない部分の品質を低減しようとする。さらに、圧縮パラメータおよび係数の効率的な無損失符号化によって、符号化されたビット・ストリームの冗長性が減らされる。その主な技法は、可変長符号を使用する方法である。
【０００４】
ビデオ圧縮方法は、通常、時間的冗長性の削減を利用する画像と利用しない画像を識別する。時間的冗長性削減方法を利用しない圧縮された画像は、普通はINTRAフレームまたはＩフレームまたはＩ画像と呼ばれる。時間的に予測された画像は、普通は現在の画像の前に発生している画像から前方に予測されており、INTERフレームまたはＰフレームと呼ばれる。INTERフレームの場合、予測された動き補償された画像が十分に正確であることは稀であり、したがって、空間的に圧縮された予測誤差フレームが各INTERフレームに関連付けられる。INTER画像は、INTRA符号化領域を含むことができる。
【０００５】
多くのビデオ圧縮方式は、時間的双方向性予測フレームも使用する。それらは普通Ｂ画像またはＢフレームと呼ばれている。Ｂ画像はＩフレームおよび／またはＰフレームのアンカー画像ペア間に挿入され、これらのアンカー画像の１つまたは両方から予測される。Ｂ画像は、普通は前方予測型画像と比較して圧縮度が大きくなる。Ｂ画像はアンカー画像としては使用されない。すなわち、他の画像がＢ画像から予測されることはない。したがって、以降の画像の画像品質を損なわずにＢ画像を捨てる（意図的にまたは無意識的に）ことができる。Ｂ画像はＰ画像に比較して圧縮性能を改善することができるが、それらを生成するための計算が比較的複雑となり、より多くのメモリを必要とし、追加の遅延時間を導入する。これはビデオ・ストリーミングのような非リアルタイムの用途に対しては問題とならないが、ビデオ会議のようなリアルタイムの用途においては問題となる場合がある。
【０００６】
圧縮されたビデオ・クリップは、時間的に独立のINTRA画像と、時間的に差分符号化されたINTER画像とに大雑把に分類することができる画像のシーケンスから構成されている。INTRA画像における圧縮効率は、普通はINTER画像の場合より低いので、INTRA画像は慎重に使用され、特にビット・レートの低い用途に使用される。
【０００７】
ビデオ・シーケンスは、いくつかのシーンまたはショットから構成することができる。画像の内容はシーンごとに著しく異なっている場合があり、したがって、１つのシーンの最初の画像は、通常、INTRA符号化されている。テレビジョンおよび映画の中ではシーンが頻繁に変化するが、ビデオ会議においてはシーンの急激な場面転換は比較的稀である。さらに、再構成されたビデオ信号における伝送誤りの時間的な伝播を止めるために、そしてビデオのビット・ストリームに対するランダムなアクセス・ポイントを提供するために、通常、INTRA画像が挿入されている。
【０００８】
圧縮されたビデオは、主として２つの理由のために伝送誤りによって容易に破損する。第１に、時間的予測差分符号化（INTERフレーム）を利用するために、誤りが空間的および時間的の両方において伝播するからである。実際には、これは、誤りが一度発生すると、それは比較的長い時間にわたって人間の目に見えやすい。特に影響を受けやすいのは、低いビット・レートでの伝送の場合であり、その場合、少数のINTRA符号化フレームだけしかないので、時間的な誤りの伝播がある程度の時間止まらない。第２に、可変長符号を使用することによって誤りの影響を受けやすくなるからである。１ビット誤りが符号語を変化させると、そのデコーダは符号語の同期を失い、また次の同期化（すなわち、開始）符号まで後続の誤りのない符号語（いくつかのビットを含む）を誤って復号化する。同期化符号は他の符号語の合法的組合せから生成することができないビット・パターンであり、同期化を可能にするためにそのような符号がある間隔でビット・ストリームに追加される。さらに、伝送の間にデータが失われると誤りが発生する。たとえば、IPネットワークにおける信頼性の低いUDP転送プロトコルを使用しているビデオ・アプリケーションにおいては、ネットワーク要素が符号化ビデオ・ビット・ストリームの部分を捨てる場合がある。
【０００９】
伝送経路において生じた破損に受信機が対処する多くの方法がある。一般に、信号の受信時に、伝送誤りが先ず検出され、次に受信機によって補正または隠蔽される。誤り補正は誤りが最初に導入されなかったかのように、誤りデータを完全に復元するプロセスを指す。誤りの隠蔽は、伝送誤りの影響がその再構成されたビデオ・シーケンスにおいてほとんど見られないように隠蔽するプロセスを指す。通常、誤り検出、補正および隠蔽を助けるために、ソースまたはトランスポート符号化によってある程度の量の冗長性が追加される。
【００１０】
多くの隠蔽アルゴリズムが周知であり、そのレビューが、Ｙ．ワング（Wang）およびＱ．−Ｆ．ジュー（Zhu）によって“Error Control and Concealment for Video Communication：A Review”（ビデオ通信のための誤り制御および隠蔽：レビュー）、Proceedings of the IEEE, Vol.86，No.5, May 1998，pp.974−997および、Ｐ．サラマ（Salama）、Ｎ．Ｂ．シュロフ（Shroff）、およびＥ．Ｊ．デルプ（Delp）によってIEEE Journal on Selected Areas in Communicationsに提出された“Error Concealment in Encoded Video”（符号化されたビデオにおける誤り隠蔽）の中で与えられている。
【００１１】
現在のビデオ符号化規格は、自足可能なビデオ・ビット・ストリームに対する構文を定義している。現時点で最もポピュラーな規格は、ITU−T勧告H.263、“Video coding for low bit rate communication”（低ビット・レート通信のためのビデオ符号化）、February 1998;ISO／IEC 14496−2、“Generic Coding of Audio−Visual Objects: Part 2:Visual”（オーディオ−ビジュアル・オブジェクトの一般的符号化：第二部：ビジュアル）、1999（MPEG−４として知られている）；およびITU−T勧告H.262（ISO／IEC 13818−2）（MPEG−2として知られている）である。これらの規格はビット・ストリームに対する、したがって、画像シーケンスおよび画像に対する階層を定義している。
H.263においては、階層は４層になっている。それらは画像層、画像セグメント層、マクロブロック層、およびブロック層である。画像層のデータは、その画像全体の領域およびその画像データの復号化に影響を及ぼすパラメータを含んでいる。そのデータのほとんどがいわゆる画像ヘッダ内に配置されている。
【００１２】
画像セグメント層は、ブロック層またはスライス層の１つのグループのいずれかである可能性がある。デフォルトによって各画像は、ブロックのグループに分割されている。ブロックのグループ（GOB）は、通常、１６個の連続したピクセル・ラインを含む。各GOBに対するデータはオプションのGOBヘッダの次にマクロブロックに対するデータが続いているものから構成されている。オプションのスライス構造化モードが使用されている場合、各画像はGOBの代わりにスライスに分割されている。スライスは、走査順に連続するいくつかのマクロブロックを含む。各スライスに対するデータは、スライス・ヘッダの次にそのマクロブロックに対するデータが続いているものから構成されている。
【００１３】
各GOBまたはスライスはマクロブロックに分割されている。マクロブロックは、１６×１６ピクセル（または２×２ブロック）の輝度およびその空間的に対応している８×８ピクセル（またはブロック）の色彩成分に関連する。１つのブロックは、輝度または色彩の８×８ピクセルに関連する。
ブロック層のデータは、一様に量子化された個々のコサイン変換係数から構成され、それらはジグザグに走査され、ランレングス・エンコーダで処理され、可変長符号で符号化されている。MPEG−2およびMPEG−４層の階層はH.263の階層と似ている。
【００１４】
デフォルトによって、これらの規格は時間的予測のための基準として時間的に前のアンカー（Ｉ．EI、Ｐ、またはEP）画像を使用する。この一片の情報は伝送されない。すなわち、ビット・ストリームは基準画像の識別に関連する情報を含まない。結果として、デコーダは基準画像が失われたかどうかを検出するための手段を持たない。多くのトランスポート・コーダはビデオ・データをパケット化し、それらがそのパケットに付けられたシーケンス番号に関連するようにする。しかし、この種のシーケンス番号は、ビデオ・ビット・ストリームには関連付けられていない。たとえば、ビデオ・ビット・ストリームの１つのセクションは、Ｐ画像Ｐ１、Ｂ画像Ｂ２、Ｐ画像Ｐ３およびＰ画像Ｐ４がこの順序で捕捉された（そして表示される）データを含むことができる。しかし、ビデオ・ビット・ストリームのこのセクションは、Ｐ１、Ｐ３、Ｂ２、Ｐ４の順序で圧縮され、伝送され、復号化されることになる。何故なら、Ｂ２を符号化または復号化できる前にＢ２はＰ１およびＰ３を必要とするからである。１つの画像当たりに１つのパケットがあり、各パケットがシーケンス番号を含むと仮定する。さらに、Ｂ２を搬送しているパケットが失われていると仮定する。受信機はこの消失をパケットのシーケンス番号から検出することができる。しかし、受信機はＰ４に対する動きの補償基準画像が失われているかどうか、あるいはＢ画像が失われているかどうかを検出するための手段を備えていない。その場合、受信機は復号化を普通に継続することができる。
【００１５】
したがって、デコーダは、普通はINTRA要求を送信機に送信し、その画像をディスプレイ上に凍結する。しかし、送信機はこの要求に応答することができない可能性がある。たとえば、非リアルタイムのビデオ・ストリーミングの用途においては、送信機はデコーダからのINTRA要求に応答することができない。したがって、デコーダは次のINTRAフレームが受信されるまでその画像を凍結する。ビデオ会議のようなリアルタイムの用途において、送信機は応答することができない可能性がある。たとえば、複数のパーティによる会議において、エンコーダは個々の要求に対応することができない場合がある。この場合も、デコーダは、INTRAフレームが送信機から出力されるまでその画像を凍結する。
【００１６】
（発明の開示）
第１の態様によれば、本発明は、画像のシーケンスを表しているビデオ信号を符号化する方法を提供する。前記方法は、符号化のために現在の画像を受信するステップと、現在の画像の時間的予測を現在の画像に対するデフォルト基準画像から形成するステップと、デフォルト基準画像を少なくとも１つの別の基準画像と比較するステップと、デフォルト基準画像と各別の基準画像との間の類似性の測度を計算するステップと、その類似性の測度が所定の基準を満たす場合に、その別の基準画像を識別する指示子を出力するステップと、その指示子を現在のフレームの時間的予測と関連付けるステップとを含む。
【００１７】
エンコーダはこの指示子を使用して、どの画像が現在の動き補償基準画像とよく似ていて、伝送の間に実際の基準画像が失われた場合に、それらのうちの１つを予備基準画像として使用することができることをデコーダに知らせる。デコーダが実際の基準画像を失っているが、予備基準画像にアクセスすることができる場合、そのデコーダはINTRA画像更新要求を送信しないことが好ましい。その指示子は、どの基準画像がデフォルト基準画像に似ているかをデコーダに指示するので、予備基準画像番号と呼ぶことができる。この「予備」基準画像を使用して、デコーダは、何らかの理由のためにデフォルト基準画像が失われている場合に、現在のフレームを復号化することができる。
【００１８】
予備基準画像番号は、画像全体または画像の一部分に関するものであってよい。前者の場合、通常、予備基準画像番号は画像ヘッダ内に含まれている。後者の場合、その予備基準画像番号は、画像セグメントのヘッダまたはその画像のマクロブロック・ヘッダ内に含まれている。本発明の１つの好適な実施形態においては、ビデオ信号はH.263規格に従って符号化され、その指示子は、「補助的エンハンスメント」（Supplemental Enhancement）情報の中に含められる。
【００１９】
好適には、上記方法は、また、現在の画像に対する第１のデフォルト基準画像および第２のデフォルト基準画像から現在の画像の時間的予測を形成するステップを含み、前記第１のデフォルト基準画像は時間的に現在の画像の前に現れ、前記第２のデフォルト基準画像は時間的に現在の画像の後に現れ、上記方法は、さらに、第１のデフォルト基準画像を時間的に前記現在の画像の前に現れる少なくとも１つの別の基準画像と比較するステップと、第１のデフォルト基準画像と各別の基準画像との間の類似性の測度を計算するステップと、前記類似性の測度が所定の基準を満たす場合に、前記別の基準画像を識別する指示子を出力するステップとを含む。
【００２０】
それ故、指示子は前方に予測されたフレームに対して提供され、後方に予測されたフレームには提供されない。
好適には、デフォルト基準画像は複数の別の基準画像と比較され、所定の基準を満たす各別の基準画像に指示子が出力される。有利なこととしては、所定の基準を満たす別の基準画像は類似性の順序でランク付けられ、その指示子にはランクの順序で現在のフレームの時間的予測に関連付けられ、デフォルト基準画像に最もよく似ている別の基準画像が最初に置かれる。その比較はある時点における画像の部分、たとえば、その画像のブロックまたは他の非四角形領域に対して実行されてもよい。
【００２１】
第２の態様によれば、本発明は、画像のシーケンスを表しているビデオ信号を符号化する方法を提供する。前記方法は、符号化のために現在の画像を受信するステップと、現在の画像に対するデフォルト基準画像から現在の画像の少なくとも一部分の予測を形成するステップと、デフォルト基準画像または現在の画像の一部分をそのシーケンスの少なくとも１つの別の画像の対応する部分と比較して類似性の測度を形成するステップと、類似性の測度が所定の基準を満たす場合に、現在のフレームのその部分に関してそのシーケンスの別の画像を識別する指示子を出力するステップとを含む。
【００２２】
第３の態様によれば、本発明は、画像のシーケンスを表している符号化されたビデオ信号を復号化する方法を提供する。前記符号化された信号は、現在の画像に対するデフォルト基準画像から現在の画像の時間的予測を形成することによって符号化された画像を含み、前記方法は、現在の画像を表している符号化されたビデオ信号を受信するステップと、現在の画像の少なくとも画像ヘッダを復号化するステップとを含み、デコーダが現在の画像のデフォルト基準画像を復号化することができない時、別の基準画像を識別する指示子を調べるステップと、そのような指示子が現在の画像に関連付けられている場合に、前記別の基準画像を基準として現在の画像を復号化するステップとを含む。
【００２３】
第４の態様によれば、本発明は、ビデオ・エンコーダを提供する。前記ビデオ・エンコーダは、画像のシーケンスを表しているビデオ信号を受信するための入力と、符号化のために現在の画像を受信するための入力と、現在の画像に対するデフォルト基準画像から現在の画像の時間的予測を形成するための予測コーダと、デフォルト基準画像または現在の画像を少なくとも１つの別の基準画像と比較し、類似性の測度を計算するためのコンパレータとを含み、類似性の測度が所定の基準を満たす時、前記別の基準画像を識別する指示子を出力する。
【００２４】
第５の態様によれば、本発明は、ビデオ・デコーダを提供する。前記ビデオ・デコーダは画像のシーケンスを表している符号化されたビデオ信号を受信するための入力を含み、その符号化された信号は現在の画像に対するデフォルト基準画像から現在の画像の時間的予測を形成することによって符号化された画像を含み、さらに、デコーダは現在の画像を表している符号化されたビデオ信号を受信するための入力と、現在の画像の少なくとも画像ヘッダを復号化するためのプロセッサとを含み、デコーダが現在の画像のデフォルト基準画像を復号化することができない時、デコーダは別の基準画像を識別する指示子を調べ、上記指示子が現在の画像に関連付けられている場合に、前記別の基準画像を基準として現在の画像を復号化するように構成されている。
【００２５】
本発明は、また、前記エンコーダおよび／またはデコーダを含む無線通信装置にも関する。
本発明を、添付の図面を参照しながら以下に記述するが、これは単なる例示としてのものにすぎない。
【００２６】
（発明を実施するための最良の形態）
図１は、代表的なマルチメディア移動通信システムを示している。第１のマルチメディア移動端末１は、無線リンク３を経由して移動通信ネットワーク４に対して第２のマルチメディア移動端末２と通信する。制御データがマルチメディア・データと同様に、２つの端末１、２の間で送信される。
【００２７】
図２は、端末１の代表的なマルチメディア構成部品を示している。前記端末は、ビデオ・コーデック１０と、オーディオ・コーデック２０と、データ・プロトコル・マネージャ３０と、制御マネージャ４０と、マルチプレクサ／デマルチプレクサ５０と、モデム６０（必要な場合）とを含む。ビデオ・コーデック１０は、端末のビデオ捕捉装置（図示せず）（たとえば、カメラ）からの信号を符号化のために受信し、ディスプレイ７０上で端末１において表示するためのリモート端末２からの信号を復号化するために受信する。オーディオ・コーデック２０は端末１のマイクロホン（図示せず）からの信号を符号化のために受信し、端末１のラウドスピーカ（図示せず）によって再生するためのリモート端末２からの信号を復号化のために受信する。端末は、無線電話機のような携帯型無線通信装置であってよい。
【００２８】
制御マネージャ４０は、ビデオ・コーデック１０、オーディオ・コーデック２０およびデータ・プロトコル・マネージャ３０の動作を制御する。しかし、本発明はビデオ・コーデック１０の動作に関係しているので、オーディオ・コーデック２０およびデータ・プロトコル・マネージャ３０についてはこれ以上説明しない。
【００２９】
図３は、本発明によるビデオ・コーデック１０の一例を示している。
ビデオ・コーデックは、エンコーダ部分１００と、デコーダ部分２００とを含む。エンコーダ部分１００は、端末１のカメラまたはビデオ・ソース（図示せず）からビデオ信号を受信するための入力１０１を含む。スイッチ１０２が、INTRAモードの符号化とINTERモードの符号化との間でエンコーダを切り換える。ビデオ・コーデック１０のエンコーダ部分１００は、DCT変換器１０３と、量子化器１０４と、逆量子化器１０８と、逆DCT変換器１０９と、加算器１１０と、複数の画像記憶装置１０７（詳細は図４参照）と、予測誤差を形成するための減算器１０６と、スイッチ１１３と、符号化制御マネージャ１０５とを含む。
【００３０】
ビデオ・コーデック１０のデコーダ部分２００は、逆量子化器１２０と、逆DCT変換器１２１と、動き補償器１２２と、複数の画像記憶装置１２３と、コントローラ１２４とを含む。コントローラ１２４は符号化されたマルチメディア・ストリームからデマルチプレクサ５０によって逆多重化されたビデオ・コーデック制御信号を受信する。実際には、エンコーダのコントローラ１０５と、デコーダのコントローラ１２４とは同じプロセッサであってよい。
【００３１】
本発明によるエンコーダの動作が以下に記述される。ビデオ・コーデック１０は符号化されるビデオ信号を受信する。ビデオ・コーデックのエンコーダ１００はDCT変換、量子化および動き補償を実行することによって前記ビデオ信号を符号化する。符号化されたビデオ・データは、次にマルチプレクサ５０に出力される。マルチプレクサ５０は、ビデオ・コーデック１０からのビデオ・データ、およびコントロール４０からの制御データ（および、適当な他の信号）をマルチメディア信号に多重化する。端末１はこのマルチメディア信号をモデム６０（必要な場合）経由で受信側の端末２に出力する。
【００３２】
INTRAモードにおいては、入力１０１からのビデオ信号が、DCT変換器１０３によってDCT係数に変換される。次に、DCT係数が、その係数を量子化する量子化器１０４に渡される。スイッチ１０２および量子化器１０４は両方ともビデオ・コーデックの符号化制御マネージャ１０５によって制御される。また、符号化制御マネージャ１０５は、制御マネージャ４０によって受信側の端末２からフィードバック制御を受信する。次に、復号化された画像が量子化器からのデータ出力を逆量子化器１０８を通して渡すことによって、そして逆量子化されたデータに対して逆DCT変換１０９を適用することによって形成される。次に、結果のデータが加算器１１０に入力される。INTRAモードにおいては、スイッチ１１３が、スイッチ１１３から加算器１１０への入力が０に設定されるように設定される。加算器１１０に対する２つの入力が一緒に加算され、その結果のデータが画像記憶装置１０７に入力される。
【００３３】
INTERモードにおいては、入力１０１からの信号と画像記憶装置１０７内に格納されている基準画像との間の差を減算器１０６から受け入れるように操作される。減算器１０６から出力される差分データは、現在の画像と画像記憶装置１０７内に格納されている基準画像との間の予測誤差を表す。動き推定器１１１が、従来の方法で画像記憶装置１０７内のデータを基準にして動き補償データを生成することができる。
【００３４】
符号化制御マネージャ１０５は、減算器１０６の出力または受信側のデコーダからのフィードバック制御データに対する応答のいずれかに基づいて、INTRAまたはINTER符号化を適用するかどうか、あるいはそのフレーム全体を符号化するかどうかを決定する。符号化制御マネージャは、現在のフレームと基準フレームとの間の類似性が非常に高いか、あるいはフレームを符号化するための時間がない場合、受信フレームを符号化しないように決定することができる。符号化制御マネージャはそれに従ってスイッチ１０２を操作する。
【００３５】
フィードバック制御データに応答しない時、エンコーダは、通常、符号化の開始時（他のすべてのフレームがＰである）または一定の周期、たとえば、５秒ごとのいずれかにおいて、あるいは減算器の出力から現在の画像と画像記憶装置１０７内に格納されている画像とがあまりにも違い過ぎると判断された時に、INTRAフレームとしてフレームを符号化するのが普通である。また、エンコーダは、たとえば、ＩＢＢＰＢＢＰＢＢＰＢＢＰＢＢＩＢＢＰなどの特定の規則的なシーケンスでフレームを符号化するようにプログラムすることもできる。
【００３６】
ビデオ・コーデックは量子化されたDCT係数１１２ａと、量子化インデックス１１２ｂ（すなわち、使用されている量子化の詳細）と、実行される符号化のモード（ＩまたはＰ／Ｂ）を示すためのINTRA／INTERフラグ１１２ｃと、符号化されているフレームの数を示すための送信フラグ１１２ｄと、（INTERモードにおいては）符号化されている画像に対する動きベクトル１１２ｅとを示すための送信フラグ１１２ｄとを出力する。これらは他のマルチメディア信号と一緒にマルチプレクサ５０によって多重化される。
【００３７】
エンコーダ１００が、ビデオ・コーデックのエンコーダ１００の簡単な図を示す、図４を参照してさらに説明される。エンコーダ１００は、複数の画像記憶装置１０７ａ〜１０７ｇを含む。この例においては７個の画像記憶装置が示されているが、画像記憶装置の数は２つ以上であってよい。
入力信号をＩＢＢＰＢＢＰＢＢＰＢＢＰＢＢＰＢＢＰＢＢＩなどのフォーマットで符号化するように構成されているエンコーダを考える。簡単にするため、エンコーダは入力信号のすべてのフレームを符号化する、すなわち、どのフレームもスキップされないと仮定する。これが図５に示されている。
【００３８】
前に述べたように、フレームはビデオ捕捉装置から０、１、２、３、４、５、６などの順序で受信され、この順序で表示される。すなわち、復号化フレームはＩ０、Ｂ１、Ｂ２、Ｐ３、Ｂ４、Ｂ５、Ｐ６などの順序で表示される。しかし、ビデオのビット・ストリームは下記の順序、すなわち、Ｉ０、Ｐ３、Ｂ１、Ｂ２、Ｐ６、Ｂ４、Ｂ５などで圧縮され、送信され、復号化される。これは各Ｂフレームが符号化／復号化される前に、前の基準フレームおよび後続の基準フレームを必要とするからである。すなわち、フレームＢ１はそれが符号化／復号化される前に、フレームＩ０およびＰ３が符号化／復号化される必要がある。
【００３９】
第１のフレームが受信される時、画像記憶装置１０７のすべてが空であり、スイッチ１０２は入力信号がINTRAフォーマットで符号化されるように符号化コントローラ１０５の制御下でINTRAモードに置かれている。入力信号がDCT変換および量子化される。これはマクロブロックについてマクロブロック・ベースで行われる。その結果の信号が次に逆量子化器１０８および逆DCT１０９によって復号化される。フレームがINTRA符号化されているので、スイッチ１１３は開いている。加算器１１０の出力が第１の画像記憶装置１０７ａに入力される。この目的のために、スイッチ１１４ａが閉じられ、一方、スイッチ１１４ｂ〜ｇは開いている。それ故、フレーム記憶装置１０７ａは基準画像Ｉ０の復号化バージョンを保持する。
【００４０】
符号化されるべき次の画像はフレーム３であり、それはＩ０から前方に予測されるべきである。したがって、フレーム３が１０１において入力されると、スイッチ１０２がINTERモードに切り換えられ、最新の基準画像記憶装置の出力スイッチ１１５（すなわち、スイッチ１１５ａ）が閉じられ、画像記憶装置１０７ａの動き補償された内容が入力信号から差し引かれ、動き補償されたデータが従来の方法で計算される。この予測誤差が次にDCT１０３および量子化器１０４によって符号化され、逆量子化器１０８およびIDCT１０９によって復号化される。次に、スイッチ１１３が閉じられ、スイッチ１１５ａが閉じられ、スイッチ１１４ｂが閉じられる（他のスイッチ１１４および１１５は開いている）。それ故、加算器１１０は、復号化された画像を画像記憶装置１０７ａ内に格納されている画像に加算し、その結果を画像記憶装置１０７ｂに格納する。
【００４１】
符号化される次のフレームはフレーム２であり、それはＢフレームとして符号化される。それ故、フレーム記憶装置１０７ａおよび１０７ｂの両方の内容が従来の方法で減算器１０６に対して利用できる。Ｂフレームは他のどのフレームに対する基準画像も形成しないので、符号化されたＢフレームは復号化されず、基準画像記憶装置内に格納される。
それ故、上記の場合において、１９フレームの後、フレーム記憶装置１０７ａから１０７ｇまでが、フレームＩ０、Ｐ３、Ｐ６、Ｐ９、Ｐ１２、Ｐ１５およびＰ１８の復号化バージョンをそれぞれ含む。
【００４２】
本発明において、エンコーダがフレームを予測的な方法で符号化する時、符号化制御マネージャ１０５は、そのフレームを「予備基準画像番号」（SRPN）と関連付けることができる。たとえば、SRPNをビデオ信号のＰフレームおよびＢフレームと関連付けることができるが、Ｉフレームと関連付けることはできない。
エンコーダは、このメッセージを使用して、どの基準画像（または複数の基準画像）が現在の基準画像に似ているかをデコーダに知らせ、それらのうちの１つを、実際の基準画像が伝送の間に失われた場合に予備基準画像として使用することができるようにすることができる。
【００４３】
フレーム３がフレーム０を基準として符号化される時、他の基準フレームは基準画像記憶装置１０７ａ〜ｇの中には格納されない。したがって、SRPNはフレーム３と関連付けられない。同様に、フレーム１および２がフレーム０および３を基準として双方向に符号化される時、基準画像記憶装置１０７ａ〜ｇ内には他のフレームは保持されていない。したがって、SRPNはこれらのフレームのいずれにも関係付けられない。
【００４４】
しかし、フレーム６がフレーム３（その復号化バージョンが画像記憶装置１０７ｂ内に格納されている）から前方に予測される時、フレームＩ０の復号化されたコピーも画像記憶装置１０７ａ内にある。エンコーダは、現在のフレームのデフォルト基準画像（すなわち、フレーム６に対するフレーム３）と他の格納された画像記憶装置、すなわち、画像記憶装置１０７ａの内容との間の類似性を計算する。２つの基準画像が十分によく似ていた場合（たとえば、フレーム記憶装置１０７ａの内容と１０７ｂの内容との間の相関がしきい値以上であった場合）、エンコーダはSRPNをフレーム６に対するデータに関連付ける。そのSRPNは予備基準画像としてフレーム０を識別する。しかし、類似性が十分でなかった場合、SRPNはフレーム６に関連付けられない。
【００４５】
類似性の測度を生成する方法は、本発明にとって重要ではなく、任意の適切な類似性の測度を使用することができる。たとえば、「差の絶対値の和」（SAD）を類似性の測度として使用することができる。好適には、SADの値は現在のフレームに対するデフォルト基準画像内の空間的に対応しているピクセルともう１つの「潜在的な」基準フレーム、すなわち、画像記憶装置１０７のうちの１つ内に格納されているフレームとの間の値の差を取ることによって計算される。各差の絶対値が得られ、その絶対値の差の値が累積されてSADを形成する。このように、デフォルト基準フレームと他の潜在的な基準フレームとの間の類似性をSADが表している。明らかに、２つの画像はそれらの間のSADがしきい値以下である時に十分に似ていると考えることができる。他の方法としては、現在の画像に対するデフォルト基準フレームと別の潜在的な基準フレームとの類似性を、画像のヒストグラムを使用して評価することができる。画像のヒストグラムは、所与の画像中のピクセル値の発生の回数の測度であり、２つの画像はそれぞれのヒストグラムの対応している度合が大きい場合に似ていると考えることができる。
【００４６】
本発明の１つの代替実施形態においては、現在のフレームに対するデフォルト基準フレームと別の潜在的な基準フレームとの間の類似性を判定する代わりに、エンコーダは、画像記憶装置１０７の１つの中の利用できる別の潜在的な基準フレームと現在のフレームそのものとの間の類似性を調べる。本発明のこの代替実施形態においては、現在のフレームと潜在的な基準フレームとの間の許される最大の差を定義しているしきい値が設定される。それ故、現在のフレームと十分に高い類似性（小さい差）を示す任意の格納されたフレームを現在の画像に対する予備の基準フレームとして使用することができる。ふたたび、「差の絶対値の和」（SAD）、画像ヒストグラムまたは他の任意の適当な方法を使用して、現在のフレームと他の潜在的な基準フレームとの間の類似性／差を評価することができる。
【００４７】
理解されるように、フレーム１５が（Ｐフレームとして）符号化される時、フレーム０、３、６、９および１２の復号化バージョンが、それぞれ画像記憶装置１１４ａ〜ｅ内に保持されている。デフォルトによってフレーム１５は画像記憶装置１０７ｅ中に格納されているフレーム１２を基準として符号化される。また、エンコーダは、画像記憶装置１０７ｅ内のデータと画像記憶装置１０７ａ〜ｄ内に格納されている他のデータとの間の相関の計算も実行する。エンコーダは、画像記憶装置１０７ｅの内容と相関が最も大きい、すなわち、符号化されている現在のフレームに対するデフォルト基準画像と相関が最も大きい画像記憶装置（したがって、基準画像）を識別する。次に、エンコーダは、その識別された基準画像を示す符号化されたデータにSRPNを追加する。このSRPNは以下に説明されるように、基準画像の時間的基準に等しくなる可能性がある。
【００４８】
２つ以上のSRPNをフレームに関連付けることができる。この場合、SRPNは類似性の順序で画像ヘッダ内に順序付けられ、最もよく似ている基準画像（デフォルト以外の）が最初に配置されている。
符号化制御マネージャ１０５は、このSRPN符号語を出力１１２ｆにおいて出力し、それは符号化されたフレームと関連付けられた「予備基準画像番号」を示す。これはマルチプレクサによってビデオのビット・ストリームに多重化される。
【００４９】
図５は、このエンコーダの第１の実施形態の動作を示している。図５の第１行は、捕捉入力装置から受信されたデータのフレームを表し、ビデオ・コーダに対して入力１０１において入力される。図５の第２行は、エンコーダが符号化することを決定する入力信号のフレームおよび各フレームを符号化するために使用される符号化モードを表す。前に述べたように、この例においては、エンコーダはすべてのフレームを符号化し、IBBP符号化フォーマットを使用するように構成されている。
【００５０】
フレーム０はINTRAモードで符号化され；フレーム１はフレーム０および／または３を基準としてＢフレームとして符号化され；フレーム２はフレーム０および／または３を基準としてＢフレームとして符号化され；フレーム３はフレーム０を基準としてＰフレームとして符号化され；フレーム４はフレーム３および／または６を基準としてＢフレームとして符号化され；フレーム５はフレーム３および／または６を基準としてＢフレームとして符号化され；フレーム６はフレーム３を基準としてＰフレームとして符号化される。以下同様に符号化される。
【００５１】
図５の第３行は、符号化された信号のフレームに関連付けられたSRPNフィールドを示している。この実施形態においては、SRPNは図５の第３行において示されているように、ＰフレームおよびＢフレームに関連付けられている。符号化されたフレームのＰフレームおよびＢフレームは時間的に予測的に符号化され、Ｉフレームは符号化されない。
【００５２】
図５の第４行は、符号化されたフレームの時間的基準（TR）を示している。これはH.263中に含まれる１つのフィールドであり、TRの値は時間的に前の基準画像ヘッダ内のその値を、前に送信された基準画像からスキップされたか、あるいは基準でない画像の数に１を足した値でインクリメントすることによって形成される。それ故、図５に示されている例においては、各フレームに対して示されているTRは１０１に対する元の信号入力内のフレームの元の時間的順序と同じになっている。
【００５３】
SRPNの可能な値の例が示されている。これらの値は、上記のように、エンコーダによって識別された予備基準フレームのTRを示している。この例は以前に符号化された各画像に対して１つだけのSRPNを示しているが、以前に説明したように、２つ以上のSRPNを以前に符号化された各画像に関連付けることができる。
【００５４】
図６は、本発明によるエンコーダの第２の実施形態の動作を示している。この実施形態においては、エンコーダは規則的なシーケンスＩＢＢＰＢＢＰＢＢＰＢＢＩＢＢＰＢＢＰに従ってフレームを符号化するように構成されている。しかし、この実施形態においては、SRPNは前方に予測されたフレーム（すなわち、Ｐフレーム）だけに関連付けられている。
【００５５】
図６の最初の行は、入力のフレームを示しており、第２行は符号化されたフレームおよびそれぞれの符号化モード、Ｉ、ＰまたはＢを示している。
図６の第３行は、Ｐフレームに関連付けられたSRPNを示している。これらは、図４を参照して上で説明したように生成することができる。
図６の第４行は、符号化されたフレームの時間的基準（TR）を示している。図５に示された例の場合のように、各フレームに対して示されているTRは、１０１に対する元の信号入力内のフレームの元の時間的順序と同じである。
【００５６】
端末１が端末２からの符号化されたビデオ・データを受信していると考えて、ビデオ・コーデック１０の動作が、その復号化の役割に関して以下に説明される。端末１は、送信端末２からマルチメディア信号を受信する。デマルチプレクサ５０が、そのマルチメディア信号を逆多重化し、そのビデオ・データをビデオ・コーデック１０に渡し、制御データを制御マネージャ４０に渡す。ビデオ・コーデックのデコーダ２００は、そのデータを逆量子化し、逆DCT変換し、そして動き補償することによって、その符号化されたビデオ・データを復号化する。デコーダのコントローラ１２４は、受信されたデータの完全性をチェックし、誤りが検出された場合、前に説明された方法でその誤りを隠蔽しようとする。次にその復号化され、補償され、隠蔽されたビデオ・データが、画像記憶装置１２３の１つの中に格納され、受信端末１のディスプレイ７０上で再生するために出力される。
【００５７】
ビデオ・データにおける誤りは、画像レベル、GOBレベルまたはマクロブロック・レベルにおいて発生する場合がある。誤りチェックをこれらのレベルのいずれか、またはそれぞれにおいて実行することができる。
最初に図５に示されているような信号を考え、本発明によるデコーダが、この信号を受信すると、その信号の各信号フレームが、従来の方法で復号化されてからディスプレイ手段上で表示されると考える。復号化フレームは誤りが隠蔽されていて、誤りが従来の方法で符号化されている可能性がある。フレームが復号化されるたびに、デコーダはTRフィールドを調べて、そのフレームが表示される時期を決定する。
【００５８】
図５に示されているケースにおいては、デコーダはフレーム０を受信し、その画像ヘッダからそのフレームがINTRA符号化されていると判定する。デコーダは、他のどの画像も参照せずにフレーム０を復号化し、それを画像記憶装置１２３ａ内に格納する。次に、デコーダは、フレーム３を受信し、その画像ヘッダからそのフレームがＰフレームとしてINTER符号化されていることを判定する。したがって、デコーダは、前の基準フレーム０を基準としてフレーム３を復号化し、それを次の画像記憶装置１２３ｂに格納する。次に、デコーダは、フレーム０および３を基準としてフレーム１および２を復号化する。以下同様に続く。これらのフレームは画像記憶装置１２３には格納されない。何故なら、Ｂ画像と同様に、それらは他の任意のフレームに対する基準フレームとしては使用されないからである。
【００５９】
ここで、デコーダが、フレーム９を復号化することができない（それ故、再構成することができない）と仮定する（これはフレーム９のデータが大きく破損しているか、または全て失われているために起こる）。デコーダによって受信される次のフレームはフレーム７であり、それはTR＝７、SRPN＝０である。フレーム９（フレーム７に対するデフォルト基準画像の１つ）は、デコーダによって復号化されなかったので、デコーダは後方予測に対する受信されたフレームのヘッダ内のSRPNを探す。しかし、フレーム７は後方向においてSRPNを含まない。したがって、デコーダはフレーム７を復号化することができない。これは、またフレーム８に対するケースでもある。
【００６０】
受信される次のフレームはフレーム１２であり、それは画像９を基準として符号化されたものであり、SRPN＝６になっている。フレーム９が復号化されなかったので、デコーダはSRPNによって示されている基準画像（すなわち、画像記憶装置１２３ｃの中に格納されているフレーム６）を使用してフレーム１２を復号化する。次に、デコーダはフレーム１０を受信し、それはフレーム９および１２を基準として符号化されたものであった。フレーム９はデコーダによって復号化されなかった。しかし、フレーム１０は、SRPN＝６になっている。したがって、デコーダは、フレーム７ではなく画像記憶装置１２３ｃ内に格納されている復号化された基準フレーム６を使用し、前方においてフレーム１０を復号化する。これはフレーム１１の場合も同じである。
【００６１】
デコーダは、基準フレームの省略をいくつかの方法で検出することができる。たとえば、各符号化されたフレームの時間的順序に関連している情報を調べることができる。他の方法としては、符号化された信号の基準フレームに、同じ日付で出願された英国特許出願の中に記述されているような順序で番号を割り当てることができる。
【００６２】
デコーダが、制御フィードバック・データを送信ビデオ・エンコーダに送信する機能を有している場合、そのデコーダは送信側のビデオ・エンコーダに要求を送信し、フレームをINTRAフレームとして符号化し、したがって、フレーム１０および１１がフレーム６を基準として復号化されることの結果として生じることになる時間的な誤り伝播を停止させることができる。デコーダは信号を従来の方法で復号化し続ける。
【００６３】
デコーダが、INTRAフレームであるフレーム２１を受信すると、デコーダは、他のどのフレームも参照せずにフレーム２１を復号化し、その復号化フレームを画像記憶装置１２３に格納する。次に、デコーダはフレーム１８および２１を基準としてフレーム１９および２０を復号化する。フレーム９ではなく、フレーム６を基準としてフレーム１２を復号化することによって、フレーム１８に対して、ある程度の誤りが入り込んだ可能性があるが、その結果の画像は満足できるものであり、表示される画像は、INTRA画像が受信されるまで凍結状態に保たれない。これは見る人により喜ばれるだろう。
【００６４】
ここで図６に示されているような信号を考え、本発明によるデコーダが、この信号を受信すると、その信号の各フレームが、従来の方法で復号化されてからディスプレイ手段上で表示されると考える。復号化フレームは、誤り訂正および誤り隠蔽が従来の方法で行われている可能性がある。フレームが復号化されるたびに、デコーダはそのTRフィールドを調べてそのフレームをいつ表示するかを決定する。
【００６５】
デコーダは、INTRAフレームであるフレーム０を受信し、それをそれに従って復号化し、画像記憶装置１２３ａに格納する。ここでデコーダがフレーム３を再構成することができず（これはそのデータが大幅に破損しているか、あるいは全て失われているために発生する）、そしてデコーダによって受信されて復号化される次のフレームがフレーム１であると仮定する。フレーム１は、フレーム０および３を基準として符号化された双方向フレームである。フレーム３が失われているので、デコーダはフレーム１を再構成することができず、同様にフレーム２を再構成することができない。Ｂフレーム１および２が失われているという事実はデコーダに影響しない。何故なら、Ｂフレームは他のどのフレームに対しても基準画像を形成せず、それ故、その消失は時間的な誤り伝播を導入しないからである。デコーダは、その信号を通常の方法で復号化し続ける。
【００６６】
デコーダによって受信されて復号化される次のフレームはフレーム６である。デコーダは、前の基準画像Ｐ３が失われていること（デコーダがフレーム１または２を復号化することができなかったので）を知っている。したがって、デコーダは、SRPNを求めて受信されたフレームのヘッダを調べる。デコーダは、フレーム６がSRPN＝０であることを知り、したがって、画像記憶装置１２３ａ内のフレーム０を使用してフレーム６を復号化する。
【００６７】
デコーダが、送信側のビデオ・エンコーダに制御フィードバック・データを送信する機能を備えている場合、そのデコーダは、送信側のビデオ・エンコーダに対してINTRAフレームとしてフレームを符号化するよう要求を送信し、デフォルト・フレーム３ではなく、フレーム０を基準として復号化されたフレーム６を基準として後続のフレームが復号化されることの結果として生じる時間的な誤り伝播を停止させることができる。しかし、デコーダは復号化を継続することができ、それがINTRA符号化されたフレームを待っている間、ディスプレイ上でその画像を凍結しない。
【００６８】
予備基準画像番号を符号化された信号内に含めることができる方法を、H.263ビデオ符号化規格を参照して以下に説明する。
図７は、H.263に従う、周知のビット・ストリーム構文を示している。以下の実施形態は、GOBフォーマットを記述するが、本発明は、スライス・フォーマットで実施することもできることは当業者にとって明らかである。
既に述べたように、ビット・ストリームは４つの層を備えている。それらは画像層、画像セグメント層、マクロブロック層およびブロック層である。画像層は、画像ヘッダの後にブロックのグループに対するデータが続き、結果としてその次にオプションの「シーケンスの終り」符号およびスタッフビットが続く。
従来技術のH.263のビット・ストリームは、図７に示されているようにフォーマット化されている。各部分に対する記述子が以下に与えられる。
【００６９】
【表１】

【００７０】
図７に示されているような構造は、オプションのPLUSTYPEデータ・フィールドを含まない。PSBIは、CPMによって示されている場合にのみ存在する。TR_ＢおよびDBQUANTは、PTYPEがいわゆるPBフレーム・モードの仕様を示している場合にのみ存在する（PLUSTYPEフィールドが存在してDBQUANTの使用がその中で示されていない限り）。これらの事項はH.263の仕様書の中でより詳しく扱われている。
【００７１】
次のパラグラフでは、本発明の第１の態様によるエンコーダによって出力されるビット・ストリームの可能な実施形態を概説する。
予備基準画像番号をH.263のビット・ストリーム中に、以下のように組み込むことができる。図８は、本発明の第１の実施形態によるエンコーダから出力されるビット・ストリームの一例を示している。図８に示されているように、そのビット・ストリームは、「予備基準画像番号」を示す符号語であるさらに１つの符号語SRPNを含む。これは上記のように、本発明によるエンコーダによって挿入される。
【００７２】
他の方法としては、SRPNは、「補助的エンハンスメント情報」PSUPP（H.263の付録および図５参照）に含めることができる。この補助的情報は、そのデコーダがそれを使用するための強化機能を提供することができない場合であっても、あるいはそれを正しく解釈することができない場合であっても、ビット・ストリーム中に存在することができる。この補助的情報を単純に捨てることは、要求された機能を提供するための条件が外部手段によってネゴシエートされていない限り、デコーダによって許される。
PEIが「１」に設定されている場合、８ビットのデータ（PSUPP）および、次に更なる９個のビットが続くかどうかを示すための別のPEIビットから構成されている９個のビットが続く。
【００７３】
PSUPPデータは、４ビットの機能タイプ指示FTYPEと、その次に４ビットのパラメータ・データ・サイズ仕様DSIZEが続き、その後にファンクション・パラメータ・データのDSIZEのオクテットが続き、オプションとして別のFTYPEが続くように構成されている。このPSUPP符号語を使用して各種の状況を知らせることは周知である。たとえば、PSUPPはサイズ変更あり／なしで画像全体または部分的な画像の凍結または凍結−解放要求を示すため；外部使用のためにビデオ・ストリーム中の画像の特定の画像または画像のシーケンスにタグを付けるため；あるいは、ビデオ・コンポジットのための色彩キー情報を伝えるために使用される。
「補助的エンハンスメント」情報を使用して本発明を実施するために、さらに１つのFTYPEが「予備基準画像番号」として定義されている。
【００７４】
図９は、パラメータSRPNが画像ヘッダのＳＥＩの中に含められている例を示している。FTYPEはSRPNとして定義される。DSIZEはそのパラメータのサイズを規定し、それに続くオクテットはパラメータ・データ、すなわち、SRPNの値である。この値から、受信側のデコーダはメインの基準画像が失われたか、あるいは破損した場合に使用できる予備基準画像が定義されているかどうかを判定することができる。
【００７５】
他の方法としては、その情報を“Draft of new Annex W：Additional Supplementary Enhancement Information Specification”（新しい付録Ｗの草案：追加の補助的エンハンスメント情報の仕様）Ｐ．ニング（Ning）およびＳ．ウエンガ（Wenger），ITU−T Study Group 16 Question 15 Document Ｑ15−I−58，November 1999の中で規定されているような、追加の「補助的エンハンスメント」情報の中に含めることができる。
【００７６】
付録Ｗに対するこの草案の提案において、FTYPE１４が「画像メッセージ」として定義されている。このFTYPEが設定されていると、画像メッセージ機能が、メッセージ・データを表している１つまたはそれ以上のオクテットの存在を示す。そのメッセージ・データの最初のオクテットは、図１０に示されている構造のメッセージ・ヘッダ、すなわち、CONT、EBITおよびMTYPEである。DSIZEは、最初のオクテット・メッセージ・ヘッダを含む画像メッセージ機能に対応しているメッセージ・データ中のオクテットの数に等しい。
【００７７】
継続フィールドCONTは、１に等しい場合、その画像メッセージに関連付けられているメッセージ・データが、次の画像メッセージ機能に関連付けられているメッセージ・データと同じ論理メッセージの部分であることを示している。「終りのビット位置」フィールドEBITは、最後のメッセージ・オクテットの中で無視される下位ビットの数を規定する。これらのフィールドの詳細は、付録Ｗの中に記載されている。
【００７８】
フィールドMTYPEはメッセージのタイプを示す。各種のタイプのメッセージが付録Ｗの草案の中で提案されている。本発明によれば、１つのタイプ、たとえば、MTYPE１３が「予備基準画像」として定義されている。MTYPE１３の値はメッセージ・ヘッダに続いているオクテットの中で定義されている。メッセージ・データのバイトは、好みの順序で予備基準画像の「画像番号」を含む（最も好ましいものが最初に現れる）。「画像番号」は、付録Ｕまたは付録ＷのセクションＷ.6.3.12に従って送信される値を指す。付録Ｗによるメッセージ・フォーマットをＰ、Ｂ、PB、改善されたPB、およびEPの画像タイプに対して使用することができる。しかし、付録Ｎまたは付録Ｕが使用されていて、その画像が複数の基準画像と関連付けられている場合、付録Ｗによるメッセージ・フォーマットは使用されないことが好ましい。EP画像の場合、そのメッセージは、好適には、前方予測のためだけに使用されるべきである。一方、上方向の予測は時間的に対応している基準層の画像から常に行うことができる。Ｂ、PBおよび改善されたPBの画像タイプに対して、メッセージは前方の動き予測基準として使用するための画像を規定する。このメッセージは、その画像がＩまたはEIの画像である場合には使用されるべきではない。
【００７９】
１つの予備基準画像が示されて、そのSRPNが１０ビットで表されている特定の例において、このメッセージは１つのデータ・タイプ、すなわち、DSIZEが３、CONTが０、EBITが６であるデータ・バイトを含む。DSIZE、CONTおよびEBITの値は、示されている予備基準画像の数およびその予備基準画像番号が表される精度（ビットの数）によって変化することを理解されたい。２つ以上の予備基準画像番号が示されている場合、そのメッセージ・データ・タイプは好みの順序で（最も好ましいものが最初に現れる）で予備基準画像の「予備基準画像番号」を含むことが好ましい。
【００８０】
上記説明は、双方向に予測された画像（Ｂ画像）を符号化する、符号化されたビデオ・ストリームに関して行われてきた。前に述べたように、Ｂ画像は基準画像としては決して使用されない。それ以降の画像の画像品質に影響を及ぼさずにＢ画像を捨てることができるので、それらは時間的なスケーラビリティを提供する。スケーラビリティによって２つ以上の品質レベルにおいて圧縮されたビデオ・シーケンスの復号化が可能である。言い換えれば、スケーラブルなマルチメディア・クリップを圧縮し、それを異なるデータ・レートでチャネル上でストリーム化し、リアルタイムで復号化して再生できるようにすることができる。
【００８１】
それ故、ビデオ・ストリームを異なるデコーダによって異なる方法で復号化することができる。たとえば、デコーダは、そのデコーダが達成できる復号化の最大レートである場合に、信号のＩおよびＰ画像だけを復号化するように決定することができる。しかし、デコーダがその容量を有している場合、それはＢ画像も復号化することができ、したがって、画像の表示レートを増加させることができる。したがって、表示された画像の認識される画像品質が、ＩおよびＰの画像だけを復号化するデコーダ上で改善される。
【００８２】
スケーラブルなマルチメディアは、通常、データの階層的な層があるように順序付けられている。ベース層は、そのマルチメディア・クリップの基本的な表示を含み、一方、エンハンスメント層はその下にある層のトップにリファインメント・データを含む。結果として、エンハンスメント層はそのクリップの品質を改善する。
スケーラビリティは異種混合の、そして誤りが発生しやすい環境に対して望ましい性質である。この性質は、制限事項、たとえば、ビット・レート、ディスプレイの分解能、ネットワークのスループット、およびデコーダの複雑度における制約に対処するために望ましい。
【００８３】
階層型の符号化が、トランスポートの優先順位付けと組み合わされているトランスポート・システムにおいて、誤りからの復元能力を改善するために、スケーラビリティを使用することができる。トランスポートの優先順位付けは、ここではトランスポートにおける異なるサービスの品質、たとえば、不平等な誤り保護を提供するため、誤り／消失レートが異なる、異なるチャネルを提供するための各種のメカニズムを指す。それらの性質に依存して、データが異なって割り当てられている。たとえば、ベース層は誤り保護が高度であるチャネルを通じて配送することができ、そしてエンハンスメント層は比較的誤りが起きやすいチャネルを通して送信することができる。
【００８４】
一般に、スケーラブルなマルチメディア符号化は非スケーラブルな符号化より圧縮効率が悪い。言い換えれば、エンハンスメント層を伴ってスケーラブルなマルチメディア・クリップとして符号化されたマルチメディア・クリップは、それが平等な品質の非スケーラブルな単独層のクリップとして符号化された場合より大きなバンド幅を必要とする。しかし、この一般的な規則に対する例外が存在する。たとえば、ビデオ圧縮における時間的にスケーラブルなＢフレームがその例外である。
【００８５】
本発明は、他のスケーラブルなビデオ圧縮システムに適用することができる。たとえば、H.263の付録Ｏにおいて、２つの他の形式のスケーラビリティが定義されている。それらは信号対雑音（SNR）のスケーラビリティおよび空間的スケーラビリティである。
空間的スケーラビリティおよびSNRのスケーラビリティは密接に関連付けられており、その唯一の違いは空間的スケーラビリティによって提供される増強された空間分解能である。SNRスケーラブルな画像の一例が図１１に示されている。SNRのスケーラビリティはマルチ・レートのビット・ストリームの生成を含む。それによって符号化誤り、または元の画像とその再構成画像との間の違いの回復が可能である。これはより細かい量子化器を使用してエンハンスメント層において異なる画像を符号化することによって達成される。この追加の情報によって再構成された画像の総合的なSNRが増加する。
【００８６】
空間的スケーラビリティによって、各種のディスプレイ条件および／または制約を満たすために複数分解能のビット・ストリームを生成することができる。空間的にスケーラブルな構造が図１２に示されている。それはSNRのスケーラビリティと本質的に同じであるが、空間的エンハンスメント層は再構成された基準層画像のアップサンプルされたバージョンと元の画像のより高い分解能のバージョンとの間の符号化消失を回復しようとする。たとえば、その基準層が４分の１共通中間フォーマット（QCIF）の分解能を備えていて、エンハンスメント層が共通中間フォーマット（CIF）分解能を備えている場合、その基準層の画像はそれに従ってスケールされ、エンハンスメント層の画像をそれから予測できるようにしなければならない。QCIF規格において、垂直方向のみ、水平方向のみ、あるいは垂直および水平の両方の方向において単独のエンハンスメント層に対して分解能を２倍増加させることができる。複数のエンハンスメント層があって、それぞれが前の層の画像分解能を増加させるようにすることができる。基準層の画像をアップサンプルするために使用される補間フィルタがH.263規格において明示的に定義されている。エンハンスメント層に対する基準からのアップサンプリング・プロセスはさておき、空間的にスケールされた画像の処理および構文はSNRスケール型の画像の場合と同じである。
【００８７】
SNRまたは空間的のスケーラビリティのいずれにおいても、エンハンスメント層の画像はEIまたはEP画像と呼ばれる。エンハンスメント層の画像が基準層における画像から上方に予測される場合、そのエンハンスメント層の画像はエンハンスメント−Ｉ（EI）画像と呼ばれる。このタイプのスケーラビリティにおいて、基準層は現在のエンハンスメント層の「下の」層を意味する。いくつかのケースにおいては、基準層の画像の予測が不完全であると、その画像の静的な部分の過剰符号化がエンハンスメント層において発生する可能性があり、不必要に過剰なビット・レートを生じる可能性がある。この問題を避けるために、エンハンスメント層においては前方の予測が許される。前のエンハンスメント層の画像から前方に予測することができるか、あるいは代わりに、基準層の画像から上方向に予測することができる画像はエンハンスメント−Ｐ（EP）画像と呼ばれる。上方向および前方に予測された画像の平均を計算することによって、EP画像に対する双方向の予測を提供することができることに留意されたい。EIおよびEPの画像の両方に対して、基準層の画像からの上方向の予測は、動きベクトルが不要であることを意味する。EP画像に対する前方予測の場合、動きベクトルが必要である。
【００８８】
SRPNフィールドをＰ、PB、改善されたPB、およびエンハンスメント層（EP）の画像と関連付けることができる。PBおよび改善されたPBフレームの特性がH.263の付録Ｇおよび付録Ｍにそれぞれ記述されている。
しかし、付録Ｎまたは付録Ｕが使用されていて、その画像に複数の基準画像が関連付けられている場合、SRPNは使用されない。PBおよび改善されたPBの画像の場合、通常、メッセージはＰ部分だけに関係する。EP画像の場合、そのメッセージは前方に対して使用され、一方、上方向の予測は時間的に対応している基準層の画像から行われる。このメッセージは、その画像がＩ、EIまたはＢ画像である場合には使用されないことが好ましい。
【００８９】
エンコーダが複数層の符号化（たとえば、H.263の付録Ｏにおいて説明されているような）が可能である場合、各層は連続した予備基準画像番号を持っている。これらを現在の画像のエンハンスメント層番号（ELNUM）と関連付けることができる。「予備基準画像番号」は、同じエンハンスメント層の中の以前に符号化された基準画像の対応している番号から１だけインクリメントされている。しかし、同じエンハンスメント層の中の隣接している画像が同じ時間的基準を有していて、H.263の付録Ｎまたは付録Ｕが使用されている場合、そのデコーダはこれをほぼ同じ画像のシーンの内容の冗長なコピーが送られたこと、そしてこれらの画像のすべてがその時同じ「画像番号」を共有していることの指示とみなすことが好ましい。
【００９０】
本発明の１つの実施形態によれば、現在の画像の規定された四角形の領域に対してSRPNを示すことができることにも留意されたい。１つの画像に対して複数のメッセージがある可能性があり、それぞれが現在の画像のオーバラップしていない四角形の領域に対してSRPNを指定している場合がある。そのメッセージが画像のいくつかの領域に対してSRPNを指定していない場合、デコーダは誤り隠蔽を使用し、それらが予測された元の対応している基準フレーム（またはその領域）を復号化できない場合にそれらの領域における誤りを隠すことができる。この状況においては、デコーダは画像のタイプに対応する隠蔽方法を使用することが好ましい。すなわち、INTRA画像に対してはINTRA誤り隠蔽法が使用され、INTER画像に対してはINTER誤り隠蔽法が使用される。
【００９１】
現在の画像の異なる領域に対して、SRPN値が提供されている上記の状況の１つの特定の例を以下に説明する。各SRPNメッセージは、１つのSRPNおよびその画像の規定された四角形の領域の左上隅の水平および垂直の位置を含む４つのPSUPPオクテットと、それぞれ８ビットを使用して１６ピクセルの単位で表現されている四角形の領域の幅および高さ（明るい画像の）とを含む。たとえば、この決まりを使用し、QCIF画像全体が４つのパラメータ（0,0,11,9）によって規定される。
【００９２】
幅および高さが１６で割り切れない画像フォーマットの場合、１６で割り切れる次のより大きいサイズまで、その規定された領域を拡張することができる。たとえば、１６０×１２０ピクセルのサイズの画像全体が４つのパラメータ（0,0,10,8）によって規定される。その規定された領域は、同じ画像の他の規定された誤り隠蔽領域と境界が交差しないか、あるいはオーバラップしないことが好ましい。
【００９３】
本発明は、他のビデオ符号化プロトコルで実施することもできる。たとえば、MPEG−４は、任意のバイナリ・データを含み、画像と必ずしも関連付けられていない、いわゆるユーザ・データを提示している。これらのフィールドに対してフィールドを追加することができる。
本発明は、上記ビデオ符号化プロトコルに限定されることを意図しているものではない。これらは単に例示としてのものに過ぎない。本発明は、時間的予測を使用した任意のビデオ符号化プロトコルに対して適用することができる。上記のように情報を追加することによって、受信側のデコーダが、画像が失われた場合に最善のアクションの理由を決定することができる。
【図面の簡単な説明】
【図１】マルチメディア移動通信システムを示す。
【図２】マルチメディア端末のマルチメディア構成部品の一例を示す。
【図３】ビデオ・コーデックの一例を示す。
【図４】本発明によるビデオ・エンコーダのより詳しい図を示す。
【図５】本発明によるビデオ・エンコーダの第１の実施形態の動作を示す。
【図６】本発明によるビデオ・エンコーダの第２の実施形態の動作を示す。
【図７】 H.263により周知のビット・ストリームの構文を示す。
【図８】本発明によるエンコーダからのビット・ストリーム出力の第１の例を示す。
【図９】本発明によるエンコーダからのビット・ストリーム出力の第２の例を示す。
【図１０】本発明によるエンコーダからのビット・ストリーム出力の第３の例を示す。
【図１１】 SNRスケーラビリティのためにビデオ符号化において使用されるエンハンスメント層を示す。
【図１２】空間的スケーラビリティのためにビデオ符号化において使用されるエンハンスメント層を示す。

Claims

画像のシーケンスを表しているビデオ信号を符号化して符号化ビデオ信号を生成するための方法であって、前記方法が、
前記シーケンスの画像を符号化および局所復号化することにより局所デフォルト基準画像を入手するステップと、
前記局所デフォルト基準画像に基づいて前記シーケンスの現在の画像または前記現在の画像の部分に対する動き補償予測を形成するステップと、
前記現在の画像または前記現在の画像の各部分に対する指示子を生成するステップであって、前記指示子が、対応するデフォルト基準画像を対応する復号化処理中に再構成することができない場合に、前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測の形成に使用する、前記局所デフォルト基準画像に十分類似している代替可能な基準画像を識別するものであり、
前記対応する復号化処理中に使用する前記指示子を提供するステップとを含むことを特徴とする方法。
請求項１に記載の方法において、
前記局所デフォルト基準画像を別の基準画像と比較して前記２つの画像の間の類似性の測度を計算することにより、前記現在の画像または前記現在の画像の前記各部分に対する前記代替可能な基準画像を識別するステップと、
前記類似性の測度を所定の類似性基準と比較するステップと、
前記比較に基づいて前記指示子を生成するステップとを含むことを特徴とする方法。
請求項１に記載の方法において、
第１の局所デフォルト基準画像および第２の局所デフォルト基準画像から前記現在の画像の少なくとも部分の動き補償予測を形成するステップであって、前記第１の局所デフォルト基準画像が、時間的に前記現在の画像の前に発生する前記シーケンスの画像に対応し、前記第２の局所デフォルト基準画像が、時間的に前記現在の画像の後に発生する前記シーケンスの画像に対応するステップと、
前記第１の局所デフォルト基準画像を時間的に前記現在の画像の前に発生する前記シーケンスの画像に対応する別の基準画像と比較して前記２つの画像の間の類似性の測度を計算するステップと、
前記類似性の測度を所定の類似性基準と比較するステップと、
前記比較に基づいて前記指示子を生成するステップとを含むことを特徴とする方法。
請求項２に記載の方法において、
前記局所デフォルト基準画像を複数の別の基準画像と比較して類似性の各測度を計算することにより、前記現在の画像または前記現在の画像の前記各部分に対する２つ以上の代替可能な基準画像を識別するステップと、
前記現在の画像または前記現在の画像の前記各部分に対して２つ以上の指示子を提供するために、所定の類似性の基準を満たす各別の基準画像に対する指示子を提供するステップと
を含むことを特徴とする方法。
請求項４に記載の方法において、前記比較に基づいて前記別の基準画像をランク付けするステップと、前記現在の画像または前記現在の画像の前記各部分に対して前記２つ以上の指示子をランク順に提供するステップとを含み、前記別の基準画像に関連する前記指示子は、前記局所デフォルト基準画像に最もよく似ているものが前記ランク順で最初に置かれていることを特徴とする方法。
請求項１に記載の方法において、前記指示子を前記符号化されたビデオ信号の画像ヘッダ内に提供するステップを含むことを特徴とする方法。
請求項１に記載の方法において、前記指示子が前記現在の画像の部分に関連付けられている場合に、前記指示子を前記符号化されたビデオ信号の画像セグメントのヘッダまたはマクロブロック・ヘッダのいずれかに提供するステップを含むことを特徴とする方法。
請求項１に記載の方法において、画像の前記シーケンスをＨ．２６３ビデオ圧縮規格に従って符号化するステップと、前記指示子を前記Ｈ．２６３ビデオ圧縮規格に従って「補助的エンハンスメント情報」の中に提供するステップとを含むことを特徴とする方法。
請求項１に記載の方法において、前記代替可能な基準画像の時間的基準または前記代替可能な基準画像の画像番号のいずれかを示す前記指示子を生成するステップを含むことを特徴とする方法。
請求項１に記載の方法において、Ｂ画像およびＰ画像に対して対応する代替可能な基準画像を示す各指示子を提供するステップを含むことを特徴とする方法。
請求項１に記載の方法において、Ｐ画像のみに対して代替可能な基準画像を示す指示子を提供するステップを含むことを特徴とする方法。
請求項２に記載の方法において、前記類似性の測度を、前記局所デフォルト基準画像と前記別の基準画像との間のピクセル値の違いを利用して絶対差の合計として計算するステップを含むことを特徴とする方法。
請求項２に記載の方法において、画像ヒストグラムを利用して、前記局所デフォルト基準画像と前記別の基準画像との間の前記類似性の測度を計算するステップを含むことを特徴とする方法。
請求項１に記載の方法において、前記ビデオ信号をスケーラブルに符号化するステップと、前記スケーラブルに符号化されたビデオ信号の予測的に符号化されたエンハンスメント層の画像に対して対応する代替可能な基準画像を示す各指示子を提供するステップとを含むことを特徴とする方法。
請求項１に記載の方法において、前記現在の画像または前記現在の画像の前記各部分とともに前記指示子を提供するステップを含むことを特徴とする方法。
画像のシーケンスを表している符号化されたビデオ信号を復号化するための方法であって、前記方法が、
現在の画像または前記現在の画像の部分に対する動き補償予測の形成に使用するデフォルト基準画像を再構成することができないと判断するステップと、
前記現在の画像または前記現在の画像の各部分に提供される指示子を調べ、前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測の形成に使用する代替可能な基準画像を識別するステップと、
前記デフォルト基準画像を再構成することができないと判断した場合に、前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測を形成するために、前記代替可能な基準画像を使用するステップとを含むことを特徴とする方法。
請求項１６に記載の方法において、
前記現在の画像または前記現在の画像の前記各部分に提供される２つ以上の指示子のランク順を調べるステップと、
前記ランク順に基づいて指示子を選択するステップと、
前記現在の画像または現在の画像の前記各部分に対する動き補償予測を形成するために選択された前記指示子が識別した前記代替可能な基準画像を使用するステップとを含むことを特徴とする方法。
請求項１６に記載の方法において、前記符号化されたビデオ信号の画像ヘッダから前記指示子を取得するステップを含むことを特徴とする方法。
請求項１６に記載の方法において、前記符号化されたビデオ信号の画像セグメントのヘッダまたはマクロブロック・ヘッダのいずれかから前記指示子を取得するステップを含むことを特徴とする方法。
請求項１６に記載の方法において、Ｈ．２６３ビデオ圧縮規格に従って符号化されたビデオ信号の「補助的エンハンスメント情報」から前記指示子を取得するステップを含むことを特徴とする方法。
請求項１６に記載の方法において、前記代替可能な基準画像の時間的基準または前記代替可能な基準画像の画像番号のいずれかを識別する前記指示子を使用するステップを含むことを特徴とする方法。
請求項１６に記載の方法において、Ｂ画像およびＰ画像に対する対応する代替可能な基準画像を識別する各指示子を使用するステップを含むことを特徴とする方法。
請求項１６に記載の方法において、スケーラブルに符号化されたビデオ信号の予測的に符号化されたエンハンスメント層の画像に対する対応する代替可能な基準画像を識別する各指示子を使用するステップを含むことを特徴とする方法。
ビデオ信号を符号化して符号化ビデオ信号を生成するためのエンコーダであって、前記ビデオ信号が画像のシーケンスを表し、前記エンコーダが、
前記シーケンスの画像を符号化および局所復号化することにより局所デフォルト基準画像を入手するように構成され、
前記局所デフォルト基準画像を使用して前記シーケンスの現在の画像または前記現在の画像の部分に対する動き補償予測を形成するように構成され、
前記現在の画像または前記現在の画像の各部分に対する指示子を生成するように構成され、前記指示子が、対応するデフォルト基準画像を対応する復号化処理中に再構成することができない場合に、前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測の形成に使用する、前記局所デフォルト基準画像に十分類似している代替可能な基準画像を識別し、
また、前記対応する復号化処理中に使用する前記指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項２４に記載のエンコーダであって、前記エンコーダが、
前記局所デフォルト基準画像を別の基準画像と比較して前記２つの画像の間の類似性の測度を計算することにより、前記現在の画像または前記現在の画像の前記各部分に対する前記代替可能な基準画像を識別するように構成され、
前記類似性の測度を所定の類似性基準と比較するように構成され、
前記比較に基づいて前記指示子を生成するように構成されたことを特徴とするエンコーダ。
請求項２４に記載のエンコーダであって、前記エンコーダが、
第１の局所デフォルト基準画像および第２の局所デフォルト基準画像から前記現在の画像の少なくとも部分に対する動き補償予測を形成するように構成され、前記第１の局所デフォルト基準画像が時間的に前記現在の画像の前に発生する前記シーケンスの画像に対応し、前記第２の局所デフォルト基準画像が時間的に前記現在の画像の後に発生する前記シーケンスの画像に対応し、
前記第１の局所デフォルト基準画像を時間的に前記現在の画像の前に発生する前記シーケンスの画像に対応する別の基準画像と比較して前記２つの画像の間の類似性の測度を計算するように構成され、
前記類似性の測度を所定の類似性基準と比較するように構成され、
前記比較に基づいて前記指示子を生成するように構成されたことを特徴とするエンコーダ。
請求項２５に記載のエンコーダであって、前記エンコーダが、
前記局所デフォルト基準画像を複数の別の基準画像と比較して類似性の各測度を計算することによって、前記現在の画像または前記現在の画像の前記各部分に対する２つ以上の代替可能な基準画像を識別するように構成され、
前記現在の画像または前記現在の画像の前記各部分に対して２つ以上の指示子を提供するために、所定の類似性基準を満たす各別の基準画像に対する指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項２７に記載のエンコーダであって、前記エンコーダが、前記比較に基づいて前記別の基準画像をランク付けし、前記現在の画像または前記現在の画像の前記各部分に対して前記２つ以上の指示子をランク順に提供するように構成され、前記別の基準画像に関連付けられた指示子は、前記局所デフォルト基準画像に最もよく似ているものが前記ランク順で最初に置かれていることを特徴とするエンコーダ。
請求項２４に記載のエンコーダであって、前記エンコーダが、前記符号化されたビデオ信号の画像ヘッダ内に前記指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項２４に記載のエンコーダであって、前記エンコーダが、前記指示子が前記現在の画像の一部に関連づけられた場合に、前記指示子を前記符号化されたビデオ信号の画像セグメントのヘッダまたはマクロブロック・ヘッダのいずれかに提供するように構成されたことを特徴とするエンコーダ。
請求項２４に記載のエンコーダであって、前記エンコーダが、Ｈ．２６３ビデオ圧縮規格に従って前記ビデオ信号を符号化し、また、前記指示子を前記Ｈ．２６３ビデオ圧縮規格に従って「補助的エンハンスメント情報」の中に含めるように構成されたことを特徴とするエンコーダ。
請求項２４に記載のエンコーダであって、前記エンコーダが、前記代替可能な基準画像の時間的基準または前記代替可能な基準画像の画像番号のいずれかを示す前記指示子を生成するように構成されたことを特徴とするエンコーダ。
請求項２４に記載のエンコーダであって、前記エンコーダが、Ｂ画像およびＰ画像に対して対応する代替可能な基準画像を示す各指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項２４に記載のエンコーダであって、前記エンコーダが、Ｐ画像のみに対して代替可能な基準画像を示す指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項２５に記載のエンコーダであって、前記エンコーダが、前記類似性の測度を、前記局所デフォルト基準画像と前記別の基準画像との間のピクセル値の違いを利用して絶対差の合計として計算するように構成されたことを特徴とするエンコーダ。
請求項２５に記載のエンコーダであって、前記エンコーダが、画像ヒストグラムを利用して前記局所デフォルト基準画像と前記別の基準画像との間の前記類似性の測度を計算するように構成されたことを特徴とするエンコーダ。
請求項２４に記載のエンコーダであって、前記エンコーダが、前記ビデオ信号をスケーラブル・ビデオ・シーケンスとして符号化し、前記スケーラブル・ビデオ・シーケンスの予測的に符号化されたエンハンスメント層の画像に対して対応する代替可能な基準画像を示す各指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項２４に記載のエンコーダであって、前記エンコーダが、前記現在の画像または前記現在の画像の前記各部分とともに前記指示子を提供するように構成されたことを特徴とするエンコーダ。
画像のシーケンスを表している符号化されたビデオ信号を復号化するためのデコーダであって、前記デコーダが、
現在の画像または前記現在の画像の部分に対する動き補償予測の形成に使用するデフォルト基準画像を再構成することができないと判断するように構成され、
前記現在の画像または前記現在の画像の前記各部分に提供される指示子を調べ、前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測の形成に使用する代替可能な基準画像を識別するように構成され、また、
前記デフォルト基準画像を再構成することができないと判断した場合に、前記現在の画像または前記現在の画像の前記各部分のための動き補償予測を形成するために、前記代替可能な基準画像を使用するように構成されたことを特徴とするデコーダ。
請求項３９に記載のデコーダであって、前記デコーダが、前記現在の画像または前記現在の画像の前記各部分に提供される２つ以上の指示子のランク順を調べるように構成され、
前記ランク順に基づいて指示子を選択するように構成され、また、
前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測を形成するために選択された前記指示子が識別した前記代替可能な基準画像を使用するように構成されたことを特徴とするデコーダ。
請求項３９に記載のデコーダであって、前記デコーダが、前記符号化されたビデオ信号の画像ヘッダから前記指示子を取得するように構成されたことを特徴とするデコーダ。
請求項３９に記載のデコーダであって、前記デコーダが、前記符号化されたビデオ信号の画像セグメントのヘッダまたはマクロブロック・ヘッダのいずれかから前記指示子を取得するように構成されたことを特徴とするデコーダ。
請求項３９に記載のデコーダであって、前記デコーダが、Ｈ．２６３ビデオ圧縮規格に従って符号化されたビデオ信号の「補助的エンハンスメント情報」から前記指示子を取得するように構成されたことを特徴とするデコーダ。
請求項３９に記載のデコーダであって、前記デコーダが、前記代替可能な基準画像の時間的基準または前記代替可能な基準画像の画像番号のいずれかを識別する前記指示子を使用するように構成されたことを特徴とするデコーダ。
請求項３９に記載のデコーダであって、前記デコーダが、Ｂ画像およびＰ画像に対して対応する代替可能な基準画像を識別する各指示子を使用するように構成されたことを特徴とするデコーダ。
請求項３９に記載のデコーダであって、前記デコーダが、スケーラブルに符号化されたビデオ信号の予測的に符号化されたエンハンスメント層の画像に対する対応する代替可能な基準画像を識別する各指示子を使用するように構成されたことを特徴とするデコーダ。
請求項２４乃至３８のいずれかに記載のエンコーダを含むことを特徴とする無線通信装置。
請求項３９乃至４６のいずれかに記載のデコーダを含むことを特徴とする無線通信装置。
請求項２４乃至３８のいずれかに記載のエンコーダを含むことを特徴とするマルチメディア端末装置。
請求項３９乃至４６のいずれかに記載のデコーダを含むことを特徴とするマルチメディア端末装置。
画像のシーケンスを表しているビデオ信号を符号化して符号化ビデオ信号を生成するための方法であって、前記方法が、
前記シーケンスの画像を符号化および局所復号化することにより局所デフォルト基準画像を入手するステップと、
前記局所デフォルト基準画像を使用して前記シーケンスの現在の画像または前記現在の画像の部分に対する動き補償予測を形成するステップと、
前記現在の画像または前記現在の画像の各部分に対する指示子を生成するステップであって、前記指示子が、対応するデフォルト基準画像を対応する復号化処理中に再構成することができない場合に、前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測の形成に使用する、前記現在の画像に十分類似している代替可能な基準画像を識別するものであり、
前記対応する復号化処理中に使用する前記指示子を提供するステップとを含むことを特徴とする方法。
請求項５１に記載の方法において、
前記現在の画像を別の基準画像と比較して２つの画像の間の類似性の測度を計算することにより、前記現在の画像または前記現在の画像の前記部分に対する前記代替可能な基準画像を識別するステップと、
前記類似性の測度を所定の類似性基準と比較するステップと、
前記比較に基づいて前記指示子を生成するステップとを含むことを特徴とする方法。
請求項５１に記載の方法において、
第１の局所デフォルト基準画像および第２の局所デフォルト基準画像から前記現在の画像の少なくとも部分に対する動き補償予測を形成するステップであって、前記第１の局所デフォルト基準画像が、時間的に前記現在の画像の前に発生する前記シーケンスの画像に対応し、前記第２の局所デフォルト基準画像が、時間的に前記現在の画像の後に発生する前記シーケンスの画像に対応するステップと、
前記現在の画像を時間的に前記現在の画像の前に発生する前記シーケンスの画像に対応する別の基準画像と比較して前記２つの画像の間の類似性の測度を計算するステップと、
前記類似性の測度を所定の類似性基準と比較するステップと、
前記比較に基づいて前記指示子を生成するステップとを含むことを特徴とする方法。
請求項５２に記載の方法において、
前記現在の画像を複数の別の基準画像と比較して類似性の各測度を計算することにより、前記現在の画像または前記現在の画像の前記各部分に対する２つ以上の代替可能な基準画像を識別するステップと、
前記現在の画像または前記現在の画像の前記各部分に対して２つ以上の指示子を提供するために、所定の類似性の基準を満たす各別の基準画像に対する指示子を提供するステップとを含むことを特徴とする方法。
請求項５４に記載の方法において、前記比較に基づいて前記別の基準画像をランク付けするステップと、ランク順に前記現在の画像または現在の画像の前記各部分に対して前記２つ以上の指示子を提供するステップとを含み、前記別の基準画像に関連する前記指示子は、前記現在の画像に最もよく似ているものが前記ランク順で最初に置かれていることを特徴とする方法。
請求項５１に記載の方法において、前記指示子を前記符号化されたビデオ信号の画像ヘッダ内に提供するステップを含むことを特徴とする方法。
請求項５１に記載の方法において、前記指示子が現在の画像の部分に関連付けられている場合に、前記指示子を前記符号化されたビデオ信号の画像セグメントのヘッダまたはマクロブロック・ヘッダのいずれかに提供するステップを含むことを特徴とする方法。
請求項５１に記載の方法において、画像の前記シーケンスをＨ．２６３ビデオ圧縮規格に従って符号化するステップと、前記指示子を前記Ｈ．２６３ビデオ圧縮規格に従って「補助的エンハンスメント情報」の中に提供するステップとを含むことを特徴とする方法。
請求項５１に記載の方法において、前記代替可能な基準画像の時間的基準または前記代替可能な基準画像の画像番号のいずれかを示す前記指示子を生成するステップを含むことを特徴とする方法。
請求項５１に記載の方法において、Ｂ画像およびＰ画像に対して対応する代替可能な基準画像を示す各指示子を提供するステップを含むことを特徴とする方法。
請求項５１に記載の方法において、Ｐ画像のみに対して代替可能な基準画像を示す指示子を提供するステップを含むことを特徴とする方法。
請求項５２に記載の方法において、前記類似性の測度を、前記現在の画像と前記別の基準画像との間のピクセル値の違いを利用して絶対差の合計として計算するステップを含むことを特徴とする方法。
請求項５２に記載の方法において、画像ヒストグラムを利用して前記現在の画像と前記別の基準画像との間の前記類似性の測度を計算するステップを含むことを特徴とする方法。
請求項５１に記載の方法において、前記ビデオ信号をスケーラブルに符号化するステップと、前記スケーラブルに符号化されたビデオ信号の予測的に符号化されたエンハンスメント層の画像に対して対応する代替可能な基準画像を示す各指示子を提供するステップとを含むことを特徴とする方法。
請求項５１に記載の方法において、前記現在の画像または前記現在の画像の前記各部分とともに前記指示子を提供するステップを含むことを特徴とする方法。
ビデオ信号を符号化して符号化ビデオ信号を生成するためのエンコーダであって、前記ビデオ信号が画像のシーケンスを表し、前記エンコーダが、
前記シーケンスの画像を符号化および局所復号化することにより局所デフォルト基準画像を入手するように構成され、
前記局所デフォルト基準画像を使用して前記シーケンスの現在の画像または前記現在の画像の部分に対する動き補償予測を形成するように構成され、
前記現在の画像または前記現在の画像の各部分に対する指示子を生成するように構成され、前記指示子が、対応するデフォルト基準画像を対応する復号化処理中に再構成することができない場合に、前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測の形成に使用する、前記現在の画像に十分類似している代替可能な基準画像を識別し、また、
対応する復号化処理中に使用する前記指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項６６に記載のエンコーダにおいて、前記エンコーダは、
前記現在の画像を別の基準画像と比較して２つの画像の間の類似性の測度を計算することにより、前記現在の画像または現在の画像の前記各部分に対する前記代替可能な基準画像を識別するように構成され、
前記類似性の測度を所定の類似性基準と比較するように構成され、また、
前記比較に基づいて前記指示子を生成するように構成されたことを特徴とするエンコーダ。
請求項６６に記載のエンコーダであって、前記エンコーダが、
第１の局所デフォルト基準画像および第２の局所デフォルト基準画像から現在の画像の少なくとも部分に対する動き補償予測を形成するように構成され、前記第１の局所デフォルト基準画像が、時間的に前記現在の画像の前に発生する前記シーケンスの画像に対応し、前記第２の局所デフォルト基準画像が、時間的に前記現在の画像の後に発生する前記シーケンスの画像に対応し、
前記現在の画像を時間的に前記現在の画像の前に発生する前記シーケンスの画像に対応する別の基準画像と比較して前記２つの画像の間の類似性の測度を計算するように構成され、
前記類似性の測度を所定の類似性基準と比較するように構成され、
前記比較に基づいて前記指示子を生成するように構成されたことを特徴とするエンコーダ。
請求項６７に記載のエンコーダであって、前記エンコーダが、
前記現在の画像を複数の別の基準画像と比較して類似性の各測度を計算することによって前記現在の画像または前記現在の画像の前記各部分に対する２つ以上の代替可能な基準画像を識別するように構成され、
前記現在の画像または前記現在の画像の前記各部分に対して２つ以上の指示子を提供するために、所定の類似基準を満たす各別の基準画像に対する指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項６９に記載のエンコーダであって、前記エンコーダは、前記比較に基づいて前記別の基準画像をランク付けし、前記現在の画像または前記現在の画像の前記各部分に２つ以上の指示子をランク順に提供するように構成され、前記別の基準画像に関連付けられた指示子は、前記現在の画像に最もよく似ているものが前記ランク順で最初に置かれていることを特徴とするエンコーダ。
請求項６６に記載のエンコーダであって、前記エンコーダが、前記符号化されたビデオ信号の画像ヘッダ内に前記指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項６６に記載のエンコーダであって、前記エンコーダが、前記指示子が現在の画像の一部に関連づけられた場合に、前記指示子を前記符号化されたビデオ信号の画像セグメントのヘッダまたはマクロブロック・ヘッダのいずれかに提供するように構成されたことを特徴とするエンコーダ。
請求項６６に記載のエンコーダであって、前記エンコーダが、Ｈ．２６３ビデオ圧縮規格に従って前記ビデオ信号を符号化し、また、前記指示子を前記Ｈ．２６３ビデオ圧縮規格に従って「補助的エンハンスメント情報」の中に提供するように構成されたことを特徴とするエンコーダ。
請求項６６に記載のエンコーダであって、前記エンコーダが、前記代替可能な基準画像の時間的基準または前記代替可能な基準画像の画像番号のいずれかを示す前記指示子を生成するように構成されたことを特徴とするエンコーダ。
請求項６６に記載のエンコーダであって、前記エンコーダが、Ｂ画像およびＰ画像に対して対応する代替可能な基準画像を示す各指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項６６に記載のエンコーダであって、前記エンコーダが、Ｐ画像のみに対して代替可能な基準画像を示す指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項６７に記載のエンコーダであって、前記エンコーダが、前記類似性の測度を、前記現在の画像と前記別の基準画像との間のピクセル値の違いを利用して絶対差の合計として計算するように構成されたことを特徴とするエンコーダ。
請求項６７に記載のエンコーダであって、前記エンコーダが、画像ヒストグラムを利用して前記現在の画像と前記別の基準画像との間の前記類似性の測度を計算するように構成されたことを特徴とするエンコーダ。
請求項６６に記載のエンコーダであって、前記エンコーダが、前記ビデオ信号をスケーラブル・ビデオ・シーケンスとして符号化し、前記スケーラブル・ビデオ・シーケンスの予測的に符号化されたエンハンスメント層の画像に対して対応する代替可能な基準画像を示す各指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項６６に記載のエンコーダであって、前記エンコーダが、前記現在の画像または前記現在の画像の前記各部分とともに前記指示子を提供するように構成されたことを特徴とするエンコーダ。
請求項６６乃至８０のいずれかに記載のエンコーダを備えた無線通信装置。
請求項６６乃至８０のいずれかに記載のエンコーダを備えたマルチメディア端末装置。
ビデオ信号を符号化して符号化ビデオ信号を生成するための装置であって、前記ビデオ信号が画像のシーケンスを表し、前記装置が、
前記シーケンスの画像を符号化および局所復号化することにより局所デフォルト基準画像を入手するように構成され、
前記局所デフォルト基準画像を使用して前記シーケンスの現在の画像または現在の画像の部分に対する動き補償予測を形成するように構成され、
前記現在の画像または前記現在の画像の各部分のそれぞれに対する指示子を生成するように構成され、前記指示子が、対応するデフォルト基準画像を対応する復号化処理中に再構成することができない場合に、前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測の形成に使用する、前記局所デフォルト基準画像に十分類似している代替可能な基準画像を識別し、また、
前記対応する復号化処理中に使用する前記指示子を提供するように構成されたことを特徴とする装置。
ビデオ信号を符号化して符号化ビデオ信号を生成するための装置であって、前記ビデオ信号が画像のシーケンスを表し、前記装置が、
前記シーケンスの画像を符号化および局所復号化することにより局所デフォルト基準画像を入手するように構成され、
前記局所デフォルト基準画像を使用して前記シーケンスの現在の画像または前記現在の画像の部分に対する動き補償予測を形成するように構成され、
前記現在の画像または前記現在の画像の各部分に対する指示子を生成するように構成され、前記指示子が、対応するデフォルト基準画像を対応する復号化処理中に再構成することができない場合に、前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測の形成に使用する、前記現在の画像に十分類似している代替可能な基準画像を識別し、また、
前記対応する復号化処理中に使用する前記指示子を提供するように構成されたことを特徴とする装置。
画像のシーケンスを表している符号化されたビデオ信号を復号化するための装置であって、前記装置が、
現在の画像または現在の画像の部分に対する動き補償予測の形成に使用するデフォルト基準画像を再構成することができないと判断するように構成され、
前記現在の画像または前記現在の画像の各部分に提供される指示子を調べ、前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測の形成に使用する代替可能な基準画像を識別するように構成され、また、
前記デフォルト基準画像を再構成することができないと判断した場合に、前記現在の画像または前記現在の画像の前記各部分に対する動き補償予測を形成するために、前記代替可能な基準画像を使用するように構成されたことを特徴とする装置。